科技食谱

机器学习预测硬盘故障的可能性?

硬盘驱动器和HDD具有以低价格提供大容量存储适合长期存储的优点,但缺点是抗冲击或耐热性差,并且由于使用很多精密零件。在线存储服务提供商 Backblaze 解释了一篇技术研究论文,该论文通过硬盘状态下的机器学习来预测未来故障的可能性,从而引起了人们的注意。

Backblaze每天从世界各地的数据中心收集硬盘型号、序列号、SMART等数据,截至2013年4月已累计超过2.66亿条记录。据说截至2013年4月,数据从19.1万块硬盘发送至Backblaze 2021 年 9 月 30 日。

硬盘自诊断功能 SMART 记录数据传输速度、通电时间、温度、搜索错误频率以及启动和停止磁盘旋转电机的数量。自 1990 年代以来,已经尝试根据这些 SMART 数据预测 HDD 错误。例如,在 Backbraze 2014 年和 2016 年发表的一项研究和谷歌 2007 年发表的一项研究中,在 SMART 信息中,05:扇区被替换,BB:不可纠正错误数,BC:命令时间,C5:替换处理待处理扇区, C6:不可恢复扇区通过硬盘故障关联分析。

Backblaze此次关注的论文是由一家人工智能公司(Interpretable AI)研究团队发表的。研究团队分析了从 2017 年第一季度到 2020 年第一季度每天从超过 35,000 块 ST12000NM0007(希捷制造的氦可充电 HDD)收集的 SMART 信息。此外,通过计算每个 HDD 的剩余寿命并使用数据构建生存树来执行灾难预测,以显示 SMART 和剩余寿命如何受 SMART 属性的影响。

逐年长期预测的生存树确定了 05:顶部节点 1 中的替代扇区。如果结果小于 1.5,则转到节点 2 并检查 03:spin-up time。如果结果为1.5以上,则转至节点15,转至C5:验证挂起替换处理。根据这些验证和结果,重复预测分支。

例如,底部的节点 18 预测到目前为止已验证的 HDD 中至少有一半不会在 2 年内出现。相反,经验证为节点 11 的 HDD 预计将在 50 天内发生故障。

在 90 天范围内用于短期预测的生存树的情况下,从最低节点 21 和节点 24 分支的 HDD 几乎肯定会在 90 天内预测问题。另一方面,据说分支到节点 12 和 15 的 HDD 不太可能在 90 天内发生故障。

研究团队在进行HDD长期预测时,使用了2017-2020年三年的数据,并限制了2019-2020年的一年数据,将观测次数减少到557,936次。通过从第一个数据集中随机重新采样观察来训练 AI 模型,其余的用于测试。

Backblaze 表示它可以预测驱动器故障,但很明显它并不完美。尽管如此,他说重要的是备份策略。有。相关信息可以在这里找到。

lswcap

lswcap

通过每月的AHC PC和HowPC杂志时代,他在网络IT媒体上观看了“技术时代”,如ZDNet,电子报互联网经理,Consumer Journal Ivers的编辑,TechHolic出版商和Venture Square的编辑。 我很好奇这个仍然充满活力的市场。

Add comment

Follow us

Don't be shy, get in touch. We love meeting interesting people and making new friends.

Most discussed

%d 블로거가 이것을 좋아합니다: