国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于預(yù)訓(xùn)練的固態(tài)硬盤RUL預(yù)測(cè)方法

2022-11-23 11:59:22王小毫陳雯柏張波劉輝翔王一群
關(guān)鍵詞:磁盤固態(tài)使用壽命

王小毫,陳雯柏,張波,劉輝翔,王一群

(北京信息科技大學(xué) 自動(dòng)化學(xué)院,北京 100192)

0 引言

數(shù)據(jù)是當(dāng)代社會(huì)核心的資產(chǎn),包括固態(tài)硬盤(solid state drive,SSD)和硬盤驅(qū)動(dòng)器(hard disk drive,HDD)在內(nèi)的存儲(chǔ)磁盤一旦損壞,便會(huì)導(dǎo)致數(shù)據(jù)丟失甚至造成經(jīng)濟(jì)損失。根據(jù) 存儲(chǔ)服務(wù)商Backblaze的報(bào)告[1],Backblaze公司2021年磁盤的年故障率為1.01%,一年有1 800多個(gè)存儲(chǔ)磁盤故障。在磁盤壽命終結(jié)前完成數(shù)據(jù)的遷移和備份是十分重要的。

最常見(jiàn)的HDD故障預(yù)測(cè)方法是使用自我監(jiān)控分析和報(bào)告技術(shù)(self-monitoring analysis and reporting technology,SMART)監(jiān)控HDD,將得到的數(shù)據(jù)進(jìn)行分析進(jìn)而預(yù)測(cè)磁盤故障。Lu等[2]提出SMART監(jiān)控?cái)?shù)據(jù)在故障發(fā)生之前的幾天時(shí)間里變化不夠頻繁,SMART不具有強(qiáng)大的提前預(yù)測(cè)能力。目前,借助深度學(xué)習(xí)提取特征的能力,使用深度學(xué)習(xí)對(duì)HDD進(jìn)行剩余使用壽命(remaining useful life,RUL)預(yù)測(cè)成為主流。Pereira等[3]使用健康的磁盤建立模型,用健康磁盤來(lái)檢測(cè)異常實(shí)例。Zeydan等[4]使用隨機(jī)森林分類器在合理的時(shí)間內(nèi)將HDD的剩余使用壽命按照臨界、高和低狀態(tài)進(jìn)行三分類。Lima等[5]提出了一種新的類編碼方法預(yù)測(cè)硬盤驅(qū)動(dòng)器壽命。Wang等[6]提出自適應(yīng) Rao-Blackwellized粒子濾波器(Rao-Blackwellized particle filter,RBPF)誤差跟蹤報(bào)警方法,使用當(dāng)前觀測(cè)數(shù)據(jù)和相鄰數(shù)據(jù)跟蹤每個(gè)硬盤中的退化信息,進(jìn)而確定HDD故障。在重建方法基礎(chǔ)之上,Pereira等[7]還采用了潛在空間降維方法的思想,使用自動(dòng)編碼器的異常檢測(cè)方法對(duì)HDD進(jìn)行故障檢測(cè)。Han等[8]提出了一個(gè)通用的流挖掘框架,用于預(yù)測(cè)具有概念漂移自適應(yīng)的HDD故障。Wang等[9]針對(duì)HDD的SMART監(jiān)控?cái)?shù)據(jù)中健康和故障數(shù)據(jù)高度混合并且不平衡情況,提出了一種基于長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)和注意力機(jī)制的多實(shí)例長(zhǎng)期數(shù)據(jù)分類方法來(lái)預(yù)測(cè)HDD故障。Zhang等[10]使用不同存儲(chǔ)介質(zhì)的遷移學(xué)習(xí)有效地預(yù)測(cè)磁盤故障,實(shí)現(xiàn)小數(shù)據(jù)下HDD模型故障預(yù)測(cè)。在長(zhǎng)周期的預(yù)測(cè)故障中,Wu等[11]使用熵來(lái)選擇最相關(guān)的預(yù)測(cè)屬性來(lái)提煉SMART監(jiān)控?cái)?shù)據(jù),提出了基于多通道卷積神經(jīng)網(wǎng)絡(luò)的LSTM(multiple channel convolutional neural network based LSTM,MCCNN-LSTM)模型來(lái)預(yù)測(cè)HDD在未來(lái)幾天是否會(huì)發(fā)生磁盤故障。Basak等[12]建立了具有廣泛數(shù)據(jù)預(yù)處理的在線預(yù)測(cè)方法,能夠以較高精度預(yù)測(cè)一個(gè)HDD在未來(lái)10 d內(nèi)是否會(huì)出故障。Coursey等[13]在硬盤發(fā)生故障前60 d,通過(guò)給出一系列HDD數(shù)據(jù),能夠以較高的準(zhǔn)確度預(yù)測(cè)HDD剩余的使用壽命。Lima等[14]采用自定義間隔的RUL分類,對(duì)HDD預(yù)測(cè)進(jìn)行更細(xì)粒度的控制,在長(zhǎng)期分類任務(wù)中表現(xiàn)較好。Santo等[15]提出了一個(gè)基于LSTM的模型,結(jié)合SMART監(jiān)控?cái)?shù)據(jù)和時(shí)間,能夠判斷HDD在45 d內(nèi)是否出現(xiàn)故障。

以上的壽命預(yù)測(cè)是對(duì)HDD進(jìn)行分類,進(jìn)而判斷是否會(huì)出現(xiàn)故障?;貧w方法是在預(yù)測(cè)故障基礎(chǔ)上預(yù)測(cè)HDD多久失效,方便管理員更深入地了解磁盤狀況,并支持更好的磁盤替換計(jì)劃和管理。Anantharaman等[16]直接預(yù)測(cè)硬盤驅(qū)動(dòng)器的剩余使用壽命,使用隨機(jī)森林和LSTM兩種方法對(duì)HDD壽命進(jìn)行回歸預(yù)測(cè)。Lima等[17]評(píng)估了在HDD故障預(yù)測(cè)任務(wù)中兩種最常見(jiàn)的深度學(xué)習(xí)架構(gòu):卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和LSTM。

在這些剩余使用壽命預(yù)測(cè)方法中,用的神經(jīng)網(wǎng)絡(luò)模型基于LSTM和CNN的居多,很少使用注意力機(jī)制,并且模型幾乎全是對(duì)HDD建模預(yù)測(cè),幾乎沒(méi)有對(duì)SSD的預(yù)測(cè),這是因?yàn)橐延泄_(kāi)的磁盤SMART監(jiān)控?cái)?shù)據(jù)中HDD的故障數(shù)據(jù)占絕大部分,而SSD的故障數(shù)據(jù)極少。因此,本文提出一種基于Transformer預(yù)訓(xùn)練的固態(tài)硬盤剩余使用壽命預(yù)測(cè)方法,首先在源任務(wù)上使用HDD訓(xùn)練一個(gè)剩余壽命預(yù)測(cè)初始模型,然后在目標(biāo)任務(wù)SSD剩余使用壽命上使用樣本數(shù)量少的SMART監(jiān)控?cái)?shù)據(jù)對(duì)該模型進(jìn)行精調(diào),實(shí)現(xiàn)對(duì)固態(tài)硬盤剩余壽命的準(zhǔn)確預(yù)測(cè)。

1 磁盤的剩余使用壽命預(yù)測(cè)方法

本文方法中的磁盤數(shù)據(jù)包括HDD數(shù)據(jù)和SSD數(shù)據(jù),都是二維張量,用行和列表示:列為SMART監(jiān)控?cái)?shù)據(jù),行為每個(gè)特征的數(shù)據(jù)序列。每個(gè)磁盤的SMART二維數(shù)據(jù)經(jīng)過(guò)時(shí)間窗口處理后,得到的樣本尺寸表示為(w,m),其中w為窗口大小,也即樣本長(zhǎng)度,m為特征數(shù)量,這樣每個(gè)訓(xùn)練樣本X∈w×m,包含多個(gè)多元時(shí)間序列特征向量xt∈m,即X=[x1,x2,…,xt,…,xw]。

Transformer[18]是一個(gè)序列到序列模型,可以在各種序列學(xué)習(xí)任務(wù)上表現(xiàn)出卓越的性能。在此基礎(chǔ)上,Zerveas[19]等提出了多元時(shí)間序列數(shù)據(jù)通用模型架構(gòu)。本文方法中,首先將每個(gè)樣本數(shù)據(jù)的原始特征向量xt歸一化為0~1之間的數(shù)值,然后線性映射到d維向量空間,映射操作表示為

ut=Wpxt+bp

(1)

式中:Wp∈d×m和bp∈d均是可以學(xué)習(xí)的參數(shù);ut∈d(t=0,1,2,…,w)是模型的輸入向量,對(duì)應(yīng)于自然語(yǔ)言處理任務(wù)的詞向量。Transformer是一種對(duì)輸入順序不敏感的前饋架構(gòu),為了使時(shí)間序列的序列性質(zhì)起作用,需要添加可學(xué)習(xí)的位置編碼Wpos∈w×d,最終得到含有位置信息的輸入張量:

Uin=U+Wpos,U=[u1,u2,…,ut,…,uw]∈w×d

(2)

最后將含有位置信息的張量輸入到Transformer的編碼器,得到樣本特征的最終表示張量Z=[z1,z2,…,zt,…,zw]∈w×m。本文方法構(gòu)建的是回歸模型,每條訓(xùn)練樣本對(duì)應(yīng)的輸出為一個(gè)數(shù)字,對(duì)應(yīng)剩余使用天數(shù),將最終特征張量Z∈w×m扁平化得到w×m,通過(guò)全連接層便得到回歸結(jié)果單個(gè)樣本得到的回歸結(jié)果表示為:

(3)

2 預(yù)訓(xùn)練下的剩余壽命預(yù)測(cè)方法

車萬(wàn)翔等[20]研究表明,預(yù)訓(xùn)練模型能夠充分利用大模型、大數(shù)據(jù)和大計(jì)算的特點(diǎn),使幾乎所有自然語(yǔ)言處理任務(wù)性能都得到顯著提升。Bodapati[21]也指出序列學(xué)習(xí)方法需要仔細(xì)調(diào)整參數(shù)才能成功。與隨機(jī)初始化的序列模型相比,顯然預(yù)訓(xùn)練的序列模型具有更好的性能。本文使用的預(yù)訓(xùn)練方式是參數(shù)遷移[22-23],這是因?yàn)镾SD和HDD的數(shù)據(jù)都是基于SMART監(jiān)控得到,數(shù)據(jù)中蘊(yùn)含意義是一致的,因此使用HDD數(shù)據(jù)集做預(yù)訓(xùn)練可以得到不錯(cuò)的效果。

本文在進(jìn)行SSD剩余使用壽命模型訓(xùn)練前,先使用HDD數(shù)據(jù)訓(xùn)練HDD剩余使用壽命模型。使用經(jīng)過(guò)時(shí)間窗口處理和掩碼處理得到的多維HDD的SMART監(jiān)控?cái)?shù)據(jù)作為輸入,先經(jīng)過(guò)全連接層對(duì)輸入數(shù)據(jù)進(jìn)行處理,得到輸出對(duì)應(yīng)于自然語(yǔ)言處理任務(wù)的詞向量,緊接著添加可學(xué)習(xí)的位置編碼,這樣便能使時(shí)間序列的序列性質(zhì)起作用,接下來(lái)將含有位置編碼的向量輸入到Transformer的編碼器,得到的特征輸出經(jīng)過(guò)扁平化處理,并且按照掩碼遮住部分?jǐn)?shù)據(jù),使得多維數(shù)據(jù)一維化并去掉無(wú)效數(shù)據(jù),最后設(shè)置全連接層為一個(gè)單元,經(jīng)過(guò)全連接層后得到最終HDD的RUL值。基于此得到了HDD預(yù)訓(xùn)練模型,最后用數(shù)據(jù)量少的SSD數(shù)據(jù)做微調(diào)。整個(gè)過(guò)程如圖1所示。

圖1 預(yù)訓(xùn)練下SSD剩余使用壽命預(yù)測(cè)

3 實(shí)驗(yàn)及分析

3.1 存儲(chǔ)磁盤數(shù)據(jù)集簡(jiǎn)介

本文使用的數(shù)據(jù)集是公開(kāi)的Backblaze存儲(chǔ)磁盤數(shù)據(jù)集[24],它包含了日常使用中HDD和SDD的SMART監(jiān)控信息。從2013年到2021年,該數(shù)據(jù)中心記錄了203 168個(gè)HDD以及3 760個(gè)SSD的日常 SMART監(jiān)控?cái)?shù)據(jù)。在Backblaze數(shù)據(jù)中心,維護(hù)人員每天都會(huì)對(duì)運(yùn)行中的磁盤進(jìn)行快照,此快照包括基本設(shè)備信息以及磁盤報(bào)告的 SMART 統(tǒng)計(jì)信息。SMART監(jiān)控基本信息是:date、serial_number、model、capacity_bytes、failure,并且SMART數(shù)據(jù)屬性不會(huì)超過(guò)255對(duì)。Backblaze記錄數(shù)據(jù)中基本屬性詳細(xì)內(nèi)容如表1所示。

表1 Backblaze記錄數(shù)據(jù)中的基本屬性

部分SMART監(jiān)控?cái)?shù)據(jù)的屬性含義如表2所示。

表2 部分SMART屬性含義

3.2 數(shù)據(jù)處理

數(shù)據(jù)集SMART監(jiān)控?cái)?shù)據(jù)至少80列,不同的SMART屬性監(jiān)測(cè)到的原始值具有不同量綱,為了統(tǒng)一計(jì)算,本文首先使用最小—最大歸一化方法將所有原始值和標(biāo)準(zhǔn)化值都統(tǒng)一到[0,1]的范圍內(nèi)。每個(gè)磁盤的SMART監(jiān)控?cái)?shù)據(jù)為X=[x1,…,xi,…,xr]∈r×m,其中m為SMART屬性的數(shù)量,r為磁盤從新購(gòu)入使用到失效時(shí)記錄到的數(shù)據(jù)的行數(shù)。磁盤特征向量每個(gè)數(shù)據(jù)需要經(jīng)過(guò)最小—最大歸一化處理:

(4)

圖2 滑動(dòng)時(shí)間窗口和掩碼

以上針對(duì)的是對(duì)于磁盤SMART數(shù)據(jù)記錄條數(shù)大于等于w的情況。當(dāng)數(shù)據(jù)記錄不充足時(shí),用0補(bǔ)齊到w,然后用掩碼機(jī)制掩蓋補(bǔ)齊的0,這樣便能充分利用數(shù)據(jù)。并且當(dāng)模型用于預(yù)測(cè)時(shí),無(wú)須湊齊w條記錄作為輸入,大大增加了模型實(shí)用性。最后得到的訓(xùn)練數(shù)據(jù)為X∈w×m,對(duì)應(yīng)的掩碼為M∈k×m。

3.3 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集設(shè)置

實(shí)驗(yàn)在Ubuntu操作系統(tǒng)上運(yùn)行,處理器為Intel(R) Xeon(R) CPU E5-2620 v4@2.10 GHz,訓(xùn)練卡為NVIDIA GeForce TITAN XP。本文使用Backblaze數(shù)據(jù)中心2015年到2017年的HDD數(shù)據(jù)做預(yù)訓(xùn)練。抽取3年時(shí)間的HDD失效標(biāo)志數(shù)據(jù)共有4 409條,即對(duì)應(yīng)共有4 409個(gè)HDD故障,其中含有重復(fù)數(shù)據(jù)22條,去掉重復(fù)數(shù)據(jù)后最終可用于預(yù)訓(xùn)練的HDD共4 387個(gè),每個(gè)HDD包含從上電使用到失效的按天記錄的多條SMART監(jiān)控?cái)?shù)據(jù)。預(yù)訓(xùn)練后使用SSD的SMART數(shù)據(jù)進(jìn)行微調(diào)。SSD訓(xùn)練數(shù)據(jù)使用Backblaze數(shù)據(jù)中心從2018年到2022年3月底的SSD數(shù)據(jù)集,同樣先篩選失效標(biāo)志的數(shù)據(jù),抽取到4年時(shí)間的SSD失效標(biāo)志數(shù)據(jù)共有145條,即對(duì)應(yīng)共有145個(gè)SSD故障,每條SSD數(shù)據(jù)包含SMART監(jiān)控?cái)?shù)據(jù)54個(gè)不同的原始值和對(duì)應(yīng)的54個(gè)標(biāo)準(zhǔn)化值。因?yàn)椴煌瑥S商記錄的SMART監(jiān)控?cái)?shù)據(jù)屬性不一致,經(jīng)過(guò)篩選盡可能保留不同廠商公共的SMART監(jiān)控?cái)?shù)據(jù)屬性。最終每個(gè)SSD包含19個(gè)不同SMART數(shù)據(jù)的原始值和對(duì)應(yīng)的19個(gè)標(biāo)準(zhǔn)化值。

針對(duì)磁盤剩余使用壽命的回歸問(wèn)題,本文使用均方誤差(mean square error,MSE)作為評(píng)價(jià)指標(biāo),記為EMS:

(5)

式中:di為RUL預(yù)測(cè)值與真實(shí)值的差,i=1,2,…,N。MSE的值越小,模型的預(yù)測(cè)能力越好。

3.4 預(yù)測(cè)結(jié)果

預(yù)訓(xùn)練和SSD剩余使用壽命預(yù)測(cè)模型選取使用的SMART監(jiān)控?cái)?shù)據(jù)屬性為HDD和SSD公共的屬性,最終使用7組包含原始值和標(biāo)準(zhǔn)化值的SMART監(jiān)控?cái)?shù)據(jù),對(duì)應(yīng)標(biāo)號(hào)是1、9、12、192、194、241、242,這里標(biāo)號(hào)1對(duì)應(yīng)SMART 1屬性,依次類推編號(hào)242對(duì)應(yīng)SMART 242屬性。選取故障前60 d以內(nèi)的數(shù)據(jù)作為輸入,最少抽取20 d數(shù)據(jù),加上掩碼機(jī)制補(bǔ)齊到40 d,以有效數(shù)據(jù)的最后一天作為真實(shí)RUL輸出,這樣RUL最大為40 d,最小為1 d。本文方法構(gòu)建的模型的參數(shù)設(shè)置如表3所示。

表3 模型參數(shù)

選取了預(yù)訓(xùn)練數(shù)據(jù)中10%的數(shù)據(jù)用作驗(yàn)證,訓(xùn)練10 000次后,預(yù)訓(xùn)練過(guò)程訓(xùn)練誤差和驗(yàn)證誤差如圖3所示。

圖3 預(yù)訓(xùn)練過(guò)程訓(xùn)練誤差和驗(yàn)證誤差

訓(xùn)練誤差和驗(yàn)證誤差下降到趨于平緩表明此模型訓(xùn)練到位。接下來(lái)使用SSD數(shù)據(jù)進(jìn)行微調(diào),去除RUL不到20 d的SSD數(shù)據(jù),最后可用129個(gè)固態(tài)硬盤數(shù)據(jù),使用60%的數(shù)據(jù)訓(xùn)練,剩下的51個(gè)SSD做測(cè)試,訓(xùn)練1 000次后,最后微調(diào)效果如圖4所示。

圖4 目標(biāo)任務(wù)微調(diào)最終預(yù)測(cè)結(jié)果

3.5 模型對(duì)比分析

目前的存儲(chǔ)磁盤剩余使用壽命預(yù)測(cè)幾乎都是對(duì)HDD進(jìn)行建模預(yù)測(cè)。為了證明本文方法的可行性,用本文方法同近幾年的HDD剩余使用壽命方法進(jìn)行比較,所用指標(biāo)有MSE、均方根誤差(root mean square error,RMSE)和平均絕對(duì)誤差(mean absolute error,MAE),與常用的剩余使用壽命方法LSTM[17]和CNN[18]對(duì)比結(jié)果如表4所示。

表4 存儲(chǔ)磁盤剩余使用壽命預(yù)測(cè)模型的對(duì)比結(jié)果

由表4可以看出,在固態(tài)硬盤RUL預(yù)測(cè)(處理帶有時(shí)間信息多維序列數(shù)據(jù)的回歸問(wèn)題)上,對(duì)于數(shù)據(jù)充足的HDD,直接使用多維Transformer模型能取得很好的效果。在數(shù)據(jù)少的時(shí)候,直接對(duì)SSD訓(xùn)練效果甚微,使用預(yù)訓(xùn)練方法能有更好的表現(xiàn),能達(dá)到使用充足數(shù)據(jù)訓(xùn)練的HDD剩余使用壽命預(yù)測(cè)模型的效果。并且本模型在短期的剩余使用壽命預(yù)測(cè)中效果顯著,所提出的方法在預(yù)測(cè)任務(wù)中非常有前景,尤其在數(shù)據(jù)不充足的情境中具有重要意義。

4 結(jié)束語(yǔ)

本文提出一種基于Transformer的預(yù)訓(xùn)練固態(tài)硬盤剩余使用壽命預(yù)測(cè)方法,通過(guò)提取HDD和固態(tài)硬盤SMART監(jiān)控?cái)?shù)據(jù)相同屬性,用數(shù)據(jù)量多的HDD數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練模型后用數(shù)據(jù)量少的固態(tài)硬盤數(shù)據(jù)進(jìn)行微調(diào),最終實(shí)現(xiàn)了固態(tài)硬盤的剩余使用壽命預(yù)測(cè)。本文使用Transformer的掩碼機(jī)制,使得輸入數(shù)據(jù)不再局限于固定的時(shí)間窗寬度,不固定的采樣增加了訓(xùn)練數(shù)據(jù)的量并且在實(shí)際使用中能更靈活地進(jìn)行預(yù)測(cè)。

因固態(tài)硬盤數(shù)據(jù)不足的局限,本文方法目前僅能預(yù)測(cè)40 d以內(nèi)的剩余使用壽命。在未來(lái),隨著固態(tài)硬盤SMART監(jiān)控?cái)?shù)據(jù)增多,我們將使用時(shí)間跨度更長(zhǎng)的固態(tài)硬盤數(shù)據(jù)提高模型精度,以便達(dá)到更長(zhǎng)時(shí)間的剩余使用壽命預(yù)測(cè),并構(gòu)建一個(gè)統(tǒng)一的磁盤使用壽命預(yù)測(cè)模型,能同時(shí)覆蓋硬盤驅(qū)動(dòng)器和固態(tài)硬盤。

猜你喜歡
磁盤固態(tài)使用壽命
筒間密封裝置使用壽命研究
固態(tài)Marx發(fā)生器均流技術(shù)研究
Sn摻雜石榴石型Li7La3Zr2O12固態(tài)電解質(zhì)的制備
透明陶瓷在固態(tài)照明中的應(yīng)用進(jìn)展
解決Windows磁盤簽名沖突
修改磁盤屬性
提高齒輪對(duì)輥式破碎機(jī)滾齒使用壽命的探討
電子制作(2017年8期)2017-06-05 09:36:15
磁盤組群組及iSCSI Target設(shè)置
延長(zhǎng)攪拌主機(jī)刀臂使用壽命的方法
創(chuàng)建VSAN群集
迁安市| 桂东县| 通江县| 财经| 五指山市| 同江市| 武功县| 濉溪县| 桃园市| 象山县| 莲花县| 临沧市| 康乐县| 读书| 秀山| 墨江| 福贡县| 江口县| 洛南县| 苗栗市| 佛坪县| 中宁县| 南投市| 神木县| 怀集县| 休宁县| 广南县| 乌兰察布市| 阿城市| 高阳县| 兴义市| 本溪市| 天峨县| 孟连| 凌云县| 三都| 黄浦区| 田阳县| 济源市| 光泽县| 黑山县|