宋海龍,黎明,茍江,趙慶賀
(中電科航空電子有限公司,成都 611731)
航空發(fā)動機(jī)作為飛機(jī)的“心臟”[1],其可靠性和安全性至關(guān)重要,也是日常航空維修作業(yè)中的重點關(guān)注對象。故障預(yù)測與健康管理(prognos?tics and health management,PHM)[2]技術(shù)能夠突破傳統(tǒng)航空維護(hù)技術(shù)的瓶頸,改變傳統(tǒng)的維修保障方式,提高設(shè)備維修保障效率。
從工程應(yīng)用和技術(shù)研究角度來看,發(fā)動機(jī)剩余使用壽命預(yù)測主要有三個方向:基于物理模型、基于數(shù)據(jù)驅(qū)動和融合預(yù)測[3]。其中,基于數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)的預(yù)測方法,能夠根據(jù)發(fā)動機(jī)的歷史數(shù)據(jù)和狀態(tài)數(shù)據(jù)信息,通過特征提取、趨勢預(yù)測等技術(shù),構(gòu)建剩余使用壽命預(yù)測模型,預(yù)測得到發(fā)動機(jī)的剩余使用壽命,為預(yù)防性維修提供技術(shù)支撐,也是目前行業(yè)研究的主流方向。
周俊[4]研究了基于退化軌跡相似性、基于相關(guān)向量機(jī)和基于隨機(jī)過程的剩余壽命預(yù)測方法,并對多種預(yù)測方法進(jìn)行融合;唐王[5]研究了基于改進(jìn)循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM-NN)模型的發(fā)動機(jī)非線性剩余壽命預(yù)測;于會越[6]運(yùn)用多種機(jī)器學(xué)習(xí)方法(SVR、CNN、CNN-LSTM和GBDT)實現(xiàn)了發(fā)動機(jī)剩余壽命預(yù)測;馬忠等[7]采用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法對發(fā)動機(jī)剩余壽命進(jìn)行預(yù)測;車暢暢等[8]采用一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)和雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)建立航空發(fā)動機(jī)剩余壽命預(yù)測模型;李杰等[9]提出了一種將卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)相融合的數(shù)據(jù)驅(qū)動模型。
但目前的研究主要集中在算法層面,通過利用不同的、先進(jìn)的機(jī)器學(xué)習(xí)算法對剩余使用壽命進(jìn)行預(yù)測,缺乏在數(shù)據(jù)層面對已有模型進(jìn)行優(yōu)化的研究。在此基礎(chǔ)上,本文采用基于LightGBM的機(jī)器學(xué)習(xí)預(yù)測方法對航空發(fā)動機(jī)進(jìn)行剩余使用壽命預(yù)測,同時提出一種基于時間窗口的特征衍生模型優(yōu)化方案,通過實例分析研究,對于提升預(yù)測模型的精確度有非常好的效果。
LightGBM是微軟亞洲研究院(MSRA)于2017年提出的一種快速的、分布式的、高性能的基于決策樹算法的梯度Boosting框架,可以用在分類、回歸等機(jī)器學(xué)習(xí)任務(wù)中。LightGBM在訓(xùn)練速度和內(nèi)存方面做了優(yōu)化,具有快速、高效、降低內(nèi)存、支持并行化和GPU學(xué)習(xí)、能夠處理大規(guī)模數(shù)據(jù)等優(yōu)點。
梯度提升是在不斷的迭代過程中,通過對模型不斷的增加子模型,但同時保證最終的損失函數(shù)值不斷的下降。GBDT是一種梯度提升決策樹,是由多個決策樹組成,利用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值作為回歸提升樹算法的殘差的近似值,來擬合一個回歸樹[10-12]。
假設(shè)每一個單獨的子模型為fi(x),復(fù)合模型為:
損失函數(shù)為L(Fm(x),Y),每一次對模型中添加新的子模型后,使得損失函數(shù)不斷趨于0。
LightGBM是在傳統(tǒng)的梯度提升樹(GBDT)上使用直方圖算法(histogram-based algorithm)[11]。在一個要分裂的結(jié)點上,為每一個特征構(gòu)建直方圖。具體地,先將特征值做分箱處理,然后按照分箱值構(gòu)造一個直方圖。遍歷結(jié)點中的每一個樣本,在直方圖中累積每個bin的樣本數(shù)和樣本的梯度之和,當(dāng)遍歷完一次數(shù)據(jù)后,直方圖就累積了需要的統(tǒng)計量。
對于每個特征,根據(jù)構(gòu)建的直方圖,遍歷每一個bin值尋找最優(yōu)分裂特征及bin值。同時使用帶深度限制的Leaf-wise的葉子生長策略,經(jīng)過一次數(shù)據(jù)可以同時分裂同一層的葉子,具有易進(jìn)行多線程優(yōu)化、易控制模型復(fù)雜度、不易過擬合[10,13]等特點。
本文采用美國國家航空航天局NASA公布的渦扇發(fā)動機(jī)退化仿真數(shù)據(jù)集[14]作為此次剩余使用壽命預(yù)測的研究對象。該數(shù)據(jù)集共有3個操作參數(shù)和21個傳感器監(jiān)測參數(shù)組成。其中各參數(shù)含義如表1所示。
表1 渦扇發(fā)動機(jī)各參數(shù)
本文將重點研究數(shù)據(jù)集train_FD001,在該數(shù)據(jù)集中,所有發(fā)動機(jī)都出現(xiàn)同一種故障。首先對數(shù)據(jù)做探索性分析,該數(shù)據(jù)集共包含100個發(fā)動機(jī)的20631條數(shù)據(jù),數(shù)據(jù)均為數(shù)值型,無缺失值。
分析該數(shù)據(jù)集中發(fā)動機(jī)運(yùn)行時間周期,了解發(fā)動機(jī)在發(fā)生故障之前平均運(yùn)行的周期數(shù)的信息。其中發(fā)動機(jī)最大運(yùn)行周期(max_cycle)數(shù)據(jù)分布如表2所示。
表2 發(fā)動機(jī)最大運(yùn)行周期數(shù)據(jù)分布
繪制最大運(yùn)行周期的直方圖以了解其分布,如圖1所示。
圖1 最大運(yùn)行周期數(shù)據(jù)分布
分析發(fā)動機(jī)最大運(yùn)行周期時,發(fā)動機(jī)的最早失效是在128周期之后,最長是362周期,平均發(fā)動機(jī)在199~206周期之間發(fā)生故障,但是46周期的標(biāo)準(zhǔn)偏差也相當(dāng)大。直方圖也可以確認(rèn)大多數(shù)發(fā)動機(jī)在200個循環(huán)左右發(fā)生故障,該分布是右偏的。
計算“剩余使用壽命”(RUL)的目標(biāo)變量,既作為可視化分析和相關(guān)性分析的目標(biāo)變量,又作為機(jī)器學(xué)習(xí)回歸模型的目標(biāo)變量。
假設(shè)RUL隨時間線性下降,并且在發(fā)動機(jī)的最后一個時間周期的值為0。使用發(fā)動機(jī)最大運(yùn)行周期(max_cycle)減去當(dāng)前運(yùn)行周期(cycle)計算所需的RUL,給每個樣本添加RUL標(biāo)簽。
對監(jiān)測的傳感器參數(shù)數(shù)據(jù)做描述性統(tǒng)計分析,分析記錄數(shù)、均值、標(biāo)準(zhǔn)差、最小值、最大值和(1/4、1/2、3/4)分位數(shù)指標(biāo),進(jìn)一步了解數(shù)據(jù)分布情況。其中參數(shù)T2、P2、epr、farB、Nf_dmd、PCNfR_dmd的最大值與最小值相同,數(shù)據(jù)沒有波動,不含任何有價值的信息,做丟棄處理。
Pearson相關(guān)系數(shù)[15]是用來衡量兩個連續(xù)變量間的相關(guān)關(guān)系。假設(shè)隨機(jī)變量X和Y的樣本數(shù)據(jù)分別為x1,x2,…,xn和y1,y2,…,yn,則 Pearson相關(guān)系數(shù)r為:
r的取值范圍在-1~1之間。其絕對值|r|表示兩個變量間相關(guān)關(guān)系的強(qiáng)弱,越接近1,表明相關(guān)程度越高。r>0表示正相關(guān),r<0表示負(fù)相關(guān),r=0表示不相關(guān),r=1表示完全相關(guān)。
發(fā)動機(jī)各參數(shù)與RUL的Pearson相關(guān)系數(shù)如表3所示。
表3 發(fā)動機(jī)各參數(shù)與RUL的Pearson相關(guān)系數(shù)
其中參數(shù)P15與RUL的Pearson相關(guān)系數(shù)僅-0.1283,關(guān)系極弱,可以認(rèn)為不相關(guān)。
再結(jié)合可視化分析,隨機(jī)選取3個發(fā)動機(jī),繪制這3個發(fā)動機(jī)P15參數(shù)隨RUL變化的折線圖,如圖2所示。
圖2 參數(shù)P15隨RUL變化折線
作為對比,再繪制Ps30參數(shù)隨RUL變化的折線圖,如圖3所示。綜合相關(guān)性分析和可視化分析的結(jié)果,P15與RUL關(guān)系極弱,做丟棄處理。
圖3 參數(shù)Ps30隨RUL變化折線
不同的傳感器往往具有不同的量綱和量綱單位,為了縮小數(shù)值之間的差異,消除量綱的影響,達(dá)到數(shù)據(jù)優(yōu)化目的,采用最小-最大值歸一化,將數(shù)據(jù)歸一化在0~1范圍內(nèi)。歸一化公式[16]為:
其中xmax為傳感器參數(shù)數(shù)據(jù)的最大值,xmin為傳感器參數(shù)數(shù)據(jù)的最小值。
為確保預(yù)測模型的可用性,本文采用回歸類模型通用的評估方法,從而完成對模型的綜合評估。評估指標(biāo)[10]如下:
●平均絕對誤差(MAE):預(yù)測值x′i與真實值xi之差的絕對值之和除以預(yù)測次數(shù)作為誤差度量。公式為:
●均方根誤差(RMSE):預(yù)測值x′i與真實值xi逐點求差的平方和,與預(yù)測次數(shù)相除的平方根作為誤差的度量。公式為:
●判定系數(shù)(R2):預(yù)測值x′i與真實值xi的回歸平方和在總平方和中所占的比例。R2的取值范圍在0~1之間,越接近1,模型的擬合優(yōu)度越高。公式為:
劃分訓(xùn)練集和測試集,隨機(jī)選train_FD001數(shù)據(jù)中80%的數(shù)據(jù)作為訓(xùn)練集,用于模型的訓(xùn)練與學(xué)習(xí);20%的數(shù)據(jù)作為測試集,用于評估算法的性能及優(yōu)化。利用Python 3.8.8工具建立航空發(fā)動機(jī)剩余使用壽命預(yù)測模型。使用MAE、RMSE和R2作為對LightGBM模型的評估指標(biāo),評估結(jié)果如表4所示。
表4 LightGBM模型評估結(jié)果
此外,LightGBM模型還可輸出特征重要性定量評價結(jié)果,便于更進(jìn)一步的特征篩選,得分越高,說明該特征對模型預(yù)測性能影響越大。特征的重要性排序結(jié)果如圖4所示。
圖4 參數(shù)對模型預(yù)測性能影響的重要性
發(fā)動機(jī)機(jī)械部件的磨損是一個基于時間序列的動態(tài)變化過程,時點數(shù)據(jù)僅能反映當(dāng)前的狀態(tài),而無法真實反映部件的全部信息。對于具備時間特性的數(shù)據(jù)而言,具有一定長度的序列既包含前后趨勢、波動的變化,又能減少因某次數(shù)據(jù)異常對結(jié)果的影響。但時間窗口長度過長也會出現(xiàn)湮沒短期變化特征的可能,同時也會降低有效數(shù)據(jù)的記錄數(shù),因此也不能將時間窗口的長度設(shè)置過長。
假設(shè)T為時間窗口的長度,為衍生時點i(i>T)的特征指標(biāo),需考慮時點i及前T個時點的狀態(tài)數(shù)據(jù),時點i≤T的數(shù)據(jù)因無法衍生特征,將不能參與模型的訓(xùn)練和預(yù)測。衍生的指標(biāo)包括均值、趨勢和波動,計算公式如表5所示。
表5 特征衍生指標(biāo)
對每個傳感器的參數(shù)數(shù)據(jù)都進(jìn)行均值、趨勢和波動的特征衍生,根據(jù)數(shù)據(jù)集采樣數(shù)據(jù)記錄次數(shù)的大小,選取時間窗口長度T=20,優(yōu)化后的模型評估結(jié)果如表6所示。
表6 優(yōu)化后模型評估結(jié)果
通過基于時間窗口的特征衍生模型優(yōu)化方案對LightGBM模型進(jìn)行優(yōu)化,測試集的判定系數(shù)提升了30.8%,具備非常好的優(yōu)化效果。
隨機(jī)選取編號20、66的發(fā)動機(jī),使用Light?GBM預(yù)測的RUL和實際RUL對比結(jié)果如圖5、圖6所示,預(yù)測效果良好。
圖5 20號發(fā)動機(jī)LightGBM的RUL預(yù)測結(jié)果
圖6 66號發(fā)動機(jī)LightGBM的RUL預(yù)測結(jié)果
基于多個傳感器參數(shù)的航空發(fā)動機(jī)仿真退化數(shù)據(jù),通過對數(shù)據(jù)進(jìn)行探索性分析、描述性分析、相關(guān)性分析、可視化分析、特征選擇、歸一化等數(shù)據(jù)處理環(huán)節(jié),不斷提升數(shù)據(jù)質(zhì)量,然后采用LightGBM建立機(jī)器學(xué)習(xí)模型實現(xiàn)了對發(fā)動機(jī)RUL的預(yù)測,并對模型進(jìn)行分析與綜合評估,同時提出一種基于時間窗口的特征衍生模型優(yōu)化方案。實例分析結(jié)果表明:測試集的判定系數(shù)提升了30.8%,說明該方案在模型優(yōu)化方面的有效性。