王建成 蔡延光
(廣東工業(yè)大學(xué)自動化學(xué)院,廣東 廣州 510006)
關(guān)鍵字:LightGBM;ridge;GBDT;XGBoost;模型融合;工件剩余壽命預(yù)測
預(yù)測性維護(hù)在工業(yè)互聯(lián)網(wǎng)的應(yīng)用中被稱為“皇冠上的明珠”,實(shí)現(xiàn)預(yù)測性維護(hù)的關(guān)鍵是對設(shè)備系統(tǒng)或核心部件的壽命進(jìn)行有效預(yù)測。對設(shè)備系統(tǒng)或核心耗損性部件的剩余壽命進(jìn)行預(yù)測,并據(jù)此對相關(guān)部件進(jìn)行提前維護(hù)或更換,可減少整套設(shè)備非計(jì)劃停機(jī)時(shí)間避免整個(gè)生產(chǎn)現(xiàn)場其他正常配套設(shè)備因等待故障設(shè)備部件修復(fù)[1-2],而造成經(jīng)濟(jì)損失。
工業(yè)上采集的數(shù)據(jù)集中存在較多干擾數(shù)據(jù),而傳統(tǒng)線性模型的抗干擾能力弱,預(yù)測精度較低,增加了工業(yè)設(shè)備維護(hù)的成本。為此,本文提出一種雙模型的加權(quán)融合方法進(jìn)行工業(yè)工件剩余壽命預(yù)測,通過4種機(jī)器學(xué)習(xí)算法及3種雙模型融合的方法,建立工業(yè)工件的剩余壽命預(yù)測模型,并進(jìn)行比較分析。在一定程度上,提供了設(shè)備提前維護(hù)的數(shù)據(jù)支持,同時(shí)挖掘影響機(jī)器設(shè)備壽命的關(guān)鍵因素。
線性回歸的損失函數(shù)J(w)通常定義為
式中,xi是具有m個(gè)特征的樣本;yi為真實(shí)值;為預(yù)測值。
對式(2)w求偏導(dǎo),并令可得到
為防止過擬合,學(xué)者對線性回歸進(jìn)行優(yōu)化,產(chǎn)生了ridge回歸[3]。ridge回歸在線性回歸損失函數(shù)的基礎(chǔ)上增加一個(gè)正則項(xiàng)則有
同樣對式(4)中w求偏導(dǎo),并令可得到
出現(xiàn)過擬合時(shí),模型幾乎完全匹配訓(xùn)練集,但在測試集上效果較差,說明該模型具有低偏差高方差的特點(diǎn),可能在較小的區(qū)間內(nèi)波動性較大,即模型的導(dǎo)數(shù)值較大。模型階數(shù)和自變量值對導(dǎo)數(shù)影響較小,只有自變量系數(shù)較大才可能導(dǎo)致過擬合,所以增加正則項(xiàng)對大系數(shù)進(jìn)行懲罰,使系數(shù)更為平滑,可緩解模型過擬合。
本文工件預(yù)測壽命樣本達(dá)90維以上,為防止模型出現(xiàn)過擬合,采用ridge模型作為實(shí)驗(yàn)仿真對象。
GBDT(Gradient Boosting Decision Tree)是一種迭代的決策樹算法[4,10-11],又叫 MART(Multiple Additive Regression Tree),它通過構(gòu)造一組弱學(xué)習(xí)器(樹),并把多棵決策樹的結(jié)果累加起來作為最終預(yù)測輸出。該算法將決策樹與集成思想有效結(jié)合。設(shè)數(shù)據(jù)集D= {(xi,yi) :i= 1,2,… ,n,xi∈Rq,yi∈R} ,其中n為數(shù)據(jù)樣本數(shù)量,每個(gè)數(shù)據(jù)樣本有q個(gè)特征。設(shè)損失函數(shù)為L(y,f(x) ),輸出回歸樹x),GBDT算法實(shí)施具體步驟如下:
1) 初始化弱分類器,估計(jì)使損失函數(shù)極小化的一個(gè)常數(shù)值,此時(shí)樹僅有一個(gè)根結(jié)點(diǎn);
2) 對迭代次數(shù)i= 1 ,2,… ,N,計(jì)算損失函數(shù)的負(fù)梯度值在當(dāng)前模型的值,并將它作為殘差估計(jì),即
對于平方損失函數(shù),是通常所說的殘差;對于一般損失函數(shù),是殘差的近似值。
對rmi擬合一個(gè)回歸樹,得到第m棵樹的葉節(jié)點(diǎn)區(qū)域Rmj,j= 1 ,2,… ,J,計(jì)算
即利用線性搜索估計(jì)葉節(jié)點(diǎn)區(qū)域的值,使損失函數(shù)極小化。
3) 更新回歸樹
得到輸出的最終模型為
華盛頓大學(xué)陳天奇博士開發(fā)的 XGBoost(eXtreme Gradient Boosting)基于C++通過多線程實(shí)現(xiàn)了回歸樹的并行構(gòu)建,并在原有Gradient Boosting算法的基礎(chǔ)上加以改進(jìn),較大地提升了模型訓(xùn)練速度和預(yù)測精度。傳統(tǒng)的GBDT算法只利用一階的導(dǎo)數(shù)信息,XGBoost[5]則對損失函數(shù)做了二階的泰勒展開,并在目標(biāo)函數(shù)之外加入正則項(xiàng),整體求最優(yōu)解,避免過擬合,提高了模型的求解效率,其步驟如下:
1)數(shù)據(jù)集D = {(xi,yi) :i= 1,2,… ,n,xi∈Rq,yi∈R} ,假定k(k= 1 ,2,… ,K)個(gè)回歸樹;xi為第i個(gè)數(shù)據(jù)點(diǎn)的特征向量;fk為一個(gè)回歸樹,F(xiàn)為回歸樹的集合空間,則可把一個(gè)迭代后集成的模型表示為
2) 目標(biāo)函數(shù)為
式中,yi表示真實(shí)值;表示預(yù)測值;第一部分是訓(xùn)練損失,如平方損失或Logistic Loss等;第二部分是每棵樹的復(fù)雜度之和;第k棵樹的復(fù)雜度用 Ω (fk)表示,其中T和w分別為樹葉子節(jié)點(diǎn)數(shù)目和葉子權(quán)重值,γ為葉子懲罰系數(shù),λ為葉子權(quán)重懲罰系數(shù)。
3) 采用additive training方式,即每次迭代生成一棵新的回歸樹,從而使預(yù)測值不斷逼近真實(shí)值。每次保留原來的模型不變,加入一個(gè)新的函數(shù)f到模型里,XGBoost迭代方式如下:
4) 將式(12)代入式(11),可得
泰勒展開一般表達(dá)式為
用泰勒展開式近似目標(biāo)函數(shù)(式(14)),首先定義
那么,式(14)可得到
由式(16)可知,若移除常數(shù)項(xiàng),該目標(biāo)函數(shù)僅依賴每個(gè)數(shù)據(jù)點(diǎn)在誤差函數(shù)上的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。
LightGBM算法是微軟2015年提出的boosting框架模型[6-7],其基于傳統(tǒng)的GBDT引入了梯度單邊采樣和獨(dú)立特征合并技術(shù)(exclusive feature bundling,EFB)。數(shù)據(jù)通常是幾十萬維的稀疏數(shù)據(jù),對不同維度的數(shù)據(jù)合并使一個(gè)稀疏矩陣變成稠密矩陣,獨(dú)立特征合并技術(shù)實(shí)現(xiàn)了互斥特征捆綁,以減少特征數(shù)量。LightGBM算法對于樹的生長采用了Leaf-wise,而不是Level-wise。Leaf-wise能夠追求更高的精度,讓更高精度的節(jié)點(diǎn)分裂,這樣可能產(chǎn)生過擬合,因此利用max_depth來控制其最大高度。LightGBM 做數(shù)據(jù)合并、Histogram Algorithm和GOSS等操作時(shí),都有正則化作用,所以使用Leaf-wise提高精度是一個(gè)較好的選擇[11-12]。LightGBM使用histogram直方圖算法[15]替換Pre-Sorted,減少了內(nèi)存消耗。
工件剩余壽命預(yù)測建模流程如圖1所示,采用的訓(xùn)練數(shù)據(jù)集是工件的全壽命數(shù)據(jù)。
圖1 工件剩余壽命預(yù)測建模流程
首先對工件全壽命數(shù)據(jù)進(jìn)行預(yù)處理,包括異常數(shù)據(jù)刪除、缺失值數(shù)據(jù)處理和數(shù)據(jù)歸一化等;然后通過切分訓(xùn)練數(shù)據(jù)集構(gòu)建訓(xùn)練集和測試集;最后使用python語言建立ridge模型、GBDT模型、XGBoost模型和LightGBM模型,并采用貝葉斯優(yōu)化[8]進(jìn)行參數(shù)自動尋優(yōu),再對XGBoost模型,LightGBM模型和GBDT模型兩兩融合,對比預(yù)測精度RMSE,確定最優(yōu)預(yù)測模型。
本文采用的數(shù)據(jù)源于2019工程機(jī)械核心部件壽命預(yù)測挑戰(zhàn)賽的數(shù)據(jù)集,其中每個(gè)文件對應(yīng)一個(gè)該類部件的全壽命物聯(lián)網(wǎng)采樣數(shù)據(jù),即部件從安裝到更換這段時(shí)間采樣的對應(yīng)指標(biāo)數(shù)據(jù),形式為多維時(shí)間序列。字段“部件工作時(shí)長”的最大值(通常為最后一行記錄)即為該部件的實(shí)際壽命。具體特征如下:
1) 數(shù)值型字段包括:部件工作時(shí)長、累積量參數(shù)1、累積量參數(shù)2、轉(zhuǎn)速信號1、轉(zhuǎn)速信號2、壓力信號1、壓力信號2、溫度信號、流量信號和電流信號;
2) 開關(guān)量字段(0或1)包括:開關(guān)1信號、開關(guān)2信號和告警信號1;
3) 字符串型字段:設(shè)備類型。
基于一個(gè)該類部件一段時(shí)間內(nèi)的物聯(lián)網(wǎng)采樣數(shù)據(jù),預(yù)測該部件此后的剩余壽命。
首先對數(shù)據(jù)集的負(fù)值采用絕對值處理,刪掉具有數(shù)值極度跳躍的數(shù)據(jù)樣本;然后通過數(shù)據(jù)集切分構(gòu)造特征和預(yù)測目標(biāo),本文數(shù)據(jù)集共有916個(gè)數(shù)據(jù)樣本,采用數(shù)據(jù)集切分比例依次為0.25,0.36,0.42,0.46,0.55,0.63,0.77,0.86和0.91;其次對切分得到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),如均值、中位數(shù)、最大值、最小值、一階差分和二階差分等;最后通過劃分和統(tǒng)計(jì)特征,得到94個(gè)特征和8244個(gè)數(shù)據(jù)樣本,部分特征如表1所示。
表1 數(shù)據(jù)集部分特征
訓(xùn)練集的壽命分布圖如圖2所示;歸一化的壽命分布圖如圖3所示。
由圖2、圖3可知,歸一化處理后,壽命分布圖更接近正太分布,數(shù)據(jù)分布更加合理,有利于提高模型的預(yù)測精度。
特征間的相關(guān)性可用相關(guān)系數(shù)來評估[9],相關(guān)系數(shù)的絕對值大于0.6,則確定這2個(gè)特征具有強(qiáng)線性相關(guān)性。將強(qiáng)線性相關(guān)性的特征,只保留一個(gè)特征,即可保證模型的精度和運(yùn)行速度。因特征數(shù)量較多,無法全部顯示,部分特征的相關(guān)系數(shù)如表2所示。
圖2 歸一化之前的壽命分布圖
表2 部分特征的相關(guān)系數(shù)
實(shí)驗(yàn)仿真采用均方根誤差[14](root mean square error, RMSE)度量預(yù)測模型的精確度。RMSE值越小,表明預(yù)測越精準(zhǔn)。
式中,n為樣本個(gè)數(shù);為第i個(gè)樣本預(yù)測值;yi為第i個(gè)樣本真實(shí)值。
本文仿真環(huán)境為Intel 酷睿i7 8700 CPU,16 GB內(nèi)存;操作系統(tǒng)為Ubuntu 16.04;采用python3.6編程語言進(jìn)行建模分析;建模過程中主要使用的機(jī)器學(xué)習(xí)庫有pandas,numpy,matplotlib,joblib,tsfresh,sklearn,Multiprogressing,XGBoost和 LightGBM 等。
進(jìn)行ridge模型、GBDT模型、XGBoost模型和LightGBM模型建模分析時(shí),參數(shù)的選擇對模型預(yù)測結(jié)果有較大影響,因此需要對模型參數(shù)進(jìn)行一定程度的調(diào)優(yōu)。ridge模型回歸只需對正則項(xiàng)的λ進(jìn)行調(diào)優(yōu);GBDT模型主要對迭代次數(shù)、學(xué)習(xí)率和樹的最大深度及最大葉子節(jié)點(diǎn)數(shù)4個(gè)參數(shù)進(jìn)行調(diào)優(yōu)[15];LightGBM模型和XGBoost模型主要對學(xué)習(xí)率、葉節(jié)點(diǎn)數(shù)、迭代次數(shù)以及樹的最大深度4個(gè)主要參數(shù)進(jìn)行調(diào)優(yōu)。本文利用貝葉斯優(yōu)化進(jìn)行參數(shù)調(diào)優(yōu),相比于傳統(tǒng)的網(wǎng)格搜索法,具有精度高、速度快的特點(diǎn)。
利用ridge模型、GBDT模型、LightGBM模型和XGBoost模型擬合數(shù)據(jù),可得到各模型的特征重要性排序。ridge模型通過模型內(nèi)置函數(shù)coef_輸出特征重要性;GBDT模型、LightGBM模型和XGBoost模型通過模型內(nèi)置函數(shù)feature_ importances輸出特征重要性[16],如圖4所示。
圖4(a) ridge模型重要性前十的特征
圖4(b) GBDT模型重要性前十的特征
圖4(c) LightGBM模型重要性前十的特征
圖4(d) XGBoost模型重要性前十的特征
由圖5可知,4種模型選出的重要性前十的特征有一定差異,且同一模型的不同特征相對權(quán)重也有一定差異性,這種差異性體現(xiàn)了各個(gè)模型學(xué)習(xí)的特征具有不同的趨勢,為提高模型融合精度提供了一定依據(jù)。
利用貝葉斯優(yōu)化進(jìn)行參數(shù)調(diào)優(yōu)時(shí),輸入值是連續(xù)的,得到的最優(yōu)參數(shù)需根據(jù)參數(shù)的物理含義進(jìn)行取整,4種模型的最優(yōu)參數(shù)如表3所示。
表3 模型主要參數(shù)的最優(yōu)值
為保證算法的泛化性和實(shí)驗(yàn)的可移植性,將數(shù)據(jù)集隨機(jī)抽樣5對訓(xùn)練集和測試集,分別放入模型中進(jìn)行訓(xùn)練;然后在測試集進(jìn)行預(yù)測;最后用預(yù)測值和真實(shí)值計(jì)算RMSE,訓(xùn)練集和測試集的RMSE如圖5所示。
圖5(a) ridge模型預(yù)測精度RMSE
圖5(b) GBDT模型預(yù)測精度RMSE
圖5(e) XGBoost和LightGBM模型平均加權(quán)融合預(yù)測精度RMSE
圖5(c) LightGBM模型預(yù)測精度RMSE
圖5(f) XGBoost和GBDT模型平均加權(quán)融合預(yù)測精度RMSE
圖5(d) XGBoost模型預(yù)測精度RMSE
圖5(g) LightGBM和GBDT模型平均加權(quán)融合預(yù)測精度RMSE
圖5(h) 各個(gè)模型在訓(xùn)練集和測試集上的均值RMSE
由表3中模型輸出特征的重要性可知,不同特征對不同模型的重要性有一定差異,如LightGBM模型最重要特征是流量信號0.25;XGBoost模型最重要特征是累積量參數(shù) 2_std;GBDT模型最重要特征是累積量參數(shù)2_std;ridge模型最重要特征是部件工作時(shí)長_std。另外,在重要性前十的特征里,LightGBM模型學(xué)習(xí)了告警1_sum,而其他模型沒有。模型學(xué)習(xí)特征上的差異性,也為提高模型融合預(yù)測精度提供了依據(jù)。
從圖5(a)、圖5(b)、圖5(c)和圖5(d)可以看出,在高噪聲環(huán)境下,3種樹模型(GBDT模型、XGBoost模型和LightGBM模型)的抗干擾性比線性模型ridge好。從RMSE評估性能上看,XGBoost模型和GBDT模型在數(shù)據(jù)集 1~數(shù)據(jù)集 5,RMSE相差不多;LightGBM模型和ridge模型的RMSE比樹模型差很多,因此本文不對ridge模型和樹模型進(jìn)行融合。從圖5(e)、圖5(f)、圖5(g)和圖5(h)可以看出,樹模型的加權(quán)平均融合,可提升預(yù)測精度。在本文數(shù)據(jù)集上,XGBoost模型和GBDT模型的加權(quán)平均融合,提升效果最佳,相比于最佳單模型的XGBoost和GBDT的RMSE降低1%,這樣可較大提升設(shè)備的使用效率;XGBoost模型和LightGBM模型的加權(quán)平均融合,相比于最佳單模型的 XGBoost模型和 GBDT模型的RMSE降低了0.3%;LightGBM模型和GBDT模型的加權(quán)模型融合,相比于最佳單模型的XGBoost模型和GBDT模型的RMSE降低了0.5%,相比于單模型的LightGBM模型降低了0.2%,相比于單模型的GBDT模型降低了0.5%。
本文使用ridge模型、XGBoost模型、LightGBM模型和GBDT模型及同時(shí)將3種樹模型進(jìn)行兩兩加權(quán)平均融合預(yù)測工件的剩余壽命。從實(shí)驗(yàn)仿真的效果來看,樹模型比線性ridge模型的預(yù)測精度高,可以看出樹模型的抗干擾性較強(qiáng)。在樹模型中,XGBoost模型和GBDT模型預(yù)測精度差不多,但比LightGBM模型預(yù)測精度高。采用模型加權(quán)平均融合的方式,對單模型來說,可提高模型的預(yù)測精度。本文XGBoost模型和 GBDT模型的融合效果較好,RMSE降低了1%;XGBoost模型和LightGBM模型融合RMSE降低了0.3%,但LightGBM模型和GBDT模型融合,RMSE降低了0.5%。因此,LightGBM模型、GBDT模型和XGBoost模型兩兩加權(quán)平均融合時(shí),可提高工業(yè)工件剩余壽命的預(yù)測精度。