賈哲宇,溫華兵,朱軍超,趙震宇
(江蘇科技大學(xué) 能源與動(dòng)力學(xué)院,江蘇 鎮(zhèn)江 212003)
船舶的安全航行離不開柴油機(jī)等動(dòng)力系統(tǒng)機(jī)器的穩(wěn)定工作。而渦輪增壓器作為柴油機(jī)中長期在高熱、高速環(huán)境中運(yùn)行的機(jī)械系統(tǒng),工作環(huán)境惡劣、持續(xù)動(dòng)力工作時(shí)間長,發(fā)生故障的可能性較大。一旦發(fā)生嚴(yán)重故障,會(huì)影響到整個(gè)柴油機(jī)動(dòng)力裝置的正常運(yùn)行,造成重大事故,導(dǎo)致浪費(fèi)大量人力財(cái)力,甚至危及人員安全。為了確保渦輪增壓器正常工作,對(duì)增壓器的故障診斷方法進(jìn)行研究很有必要。
神經(jīng)網(wǎng)絡(luò)在渦輪增壓器模塊的故障診斷近年來逐步受到關(guān)注。姚榮榮[1]提出了基于BP-GA 的故障診斷方法;魏偉達(dá)[2]提出了基于多變量灰色預(yù)測(cè)模型,引入神經(jīng)網(wǎng)絡(luò)和遺傳算法優(yōu)化預(yù)測(cè)模型,基于RBF 神經(jīng)網(wǎng)絡(luò)進(jìn)行故障診斷;Yi Wei[3]提出了基于單類支持向量機(jī)(OSVM)、親和傳播(AP)和高斯混合模型(GMM)的無監(jiān)督機(jī)器學(xué)習(xí)算法OAGFD 進(jìn)行故障診斷;孔祥鑫[4]提出了振動(dòng)分析法對(duì)增壓器蝸殼轉(zhuǎn)動(dòng)失效進(jìn)行診斷。實(shí)際應(yīng)用中,由于柴油機(jī)渦輪增壓器的樣本數(shù)據(jù)較大且類別較多,很多故障識(shí)別方法分類時(shí)存在各自的局限性。隨機(jī)森林(random forest, RF)秉承了Bagging 方法的思想,適合處理高維度大數(shù)據(jù),方便進(jìn)行并行訓(xùn)練,能夠有效提高故障分類準(zhǔn)確率[5]。張鵬[6]研究了基于深度森林的無線傳感器網(wǎng)絡(luò)故障分類方法;尹際雄[7]研究了基于隨機(jī)森林的齒輪箱故障診斷方法;張利宏[8]研究了基于會(huì)議制隨機(jī)森林的電機(jī)滾動(dòng)軸承故障診斷方法。
隨機(jī)森林方法已經(jīng)應(yīng)用到多個(gè)領(lǐng)域且有較好的效果。因此,本文將隨機(jī)森林模型應(yīng)用到渦輪增壓器故障診斷,對(duì)柴油機(jī)渦輪增壓器的幾種常見故障進(jìn)行分析,并驗(yàn)證該方法應(yīng)用在渦輪增壓器故障診斷的有效性。
融合Breimans 的“Bootstrap aggregating”思想與Ho 的“random subspace”,由Leo Breiman 與Adele Cutler 創(chuàng)造出的隨機(jī)森林方法,是一種具有多個(gè)決策樹的集成學(xué)習(xí)方法。由于使用隨機(jī)的方式生成決策樹,也稱為隨機(jī)決策樹。隨機(jī)森林之中的決策樹與決策樹沒有相關(guān)性。
隨機(jī)森林的工作原理是生成一些各自獨(dú)立學(xué)習(xí)和預(yù)測(cè)的分類器,最后將這些結(jié)果結(jié)合起來進(jìn)行預(yù)測(cè),這比單個(gè)分類器或模型預(yù)測(cè)的結(jié)果更好。隨機(jī)森林的基本元素是決策樹,每棵樹都作為一個(gè)分類模型,生成的最終結(jié)果就是各個(gè)樹分類結(jié)果的投票總數(shù)。
圖1 為隨機(jī)森林算法的基本流程。隨機(jī)森林的表現(xiàn)由隨機(jī)抽樣與特征選擇2 個(gè)階段起關(guān)鍵作用。確保每棵樹彼此獨(dú)立,隨機(jī)森林不會(huì)簡(jiǎn)單進(jìn)入局部過度嚴(yán)格,并且能穩(wěn)定噪聲干擾。
圖1 隨機(jī)森林算法基本流程Fig.1 Basic flow of random forest algorithm
隨機(jī)森林可以分析復(fù)雜交互的經(jīng)典特征,具有非常強(qiáng)大的能力,可以穩(wěn)定噪聲數(shù)據(jù),并具有更快的學(xué)習(xí)速度。該變量可用作為高階原始數(shù)據(jù)選項(xiàng)的工具。近年來,被廣泛應(yīng)用于不同的分類、預(yù)測(cè)等問題中。
取CART 方法并使用Gini系數(shù)最小的原則對(duì)各節(jié)點(diǎn)分散,故障分類流程為:
步驟1假設(shè)隨機(jī)森林是由一系列的C1(x),C2(x),…,Ck(x)的決策樹所構(gòu)成的,則該隨機(jī)森林的邊緣函數(shù)可以表示為
其中:I(·)為示性函數(shù),X為輸入特征向量,Y為分類正確向量;j為分類錯(cuò)誤向量;avk(·)為對(duì)其取平均值,avk(I(Ck(X)=Y))是模型正確分類數(shù),(I(Ck(X)=j))是模型錯(cuò)誤分類最大值。
步驟2邊緣函數(shù)表明正確的分類結(jié)果優(yōu)于錯(cuò)誤的最大分類結(jié)果。分類的結(jié)果隨邊緣函數(shù)的增大而更優(yōu)。
利用bagging 方法從原始樣本集里隨機(jī)選擇N個(gè)步驟,并選擇數(shù)據(jù)作為訓(xùn)練樣本集。
然后,建立樣本訓(xùn)練的決策樹,在節(jié)點(diǎn)中隨機(jī)選取d參數(shù),并利用基尼系數(shù)選擇最優(yōu)樹決策點(diǎn)參數(shù)?;嵯禂?shù)表示為
其中,樣本集S中每個(gè)類別的概率表示為Pi。若將樣本集S分為2 個(gè)子集S1和S2,則Gini系數(shù)為
步驟3按照順序重復(fù)步驟1、步驟2 創(chuàng)造多個(gè)決策樹對(duì)測(cè)試集x分類,結(jié)果從眾多決策樹里的投票多少?zèng)Q定,其中確定類別的公式為
其中:majority表示投票數(shù)量最多;Ci(x)表示第i棵決策樹;Ntree為決策樹的總數(shù)[9]。
因?yàn)楝F(xiàn)實(shí)環(huán)境中利用實(shí)驗(yàn)得到渦輪增壓器的故障數(shù)據(jù)非常困難,所以選擇AVL Boost 軟件模擬渦輪增壓器的各類故障。柴油機(jī)主要參數(shù)如表1 所示。
表1 柴油機(jī)主要參數(shù)Tab.1 Main parameters of diesel engine
基于AVL Boost 平臺(tái)創(chuàng)建柴油機(jī)仿真模型,模型如圖2 所示。
圖2 柴油機(jī)仿真模型Fig.2 Diesel engine simulation model
利用構(gòu)建的柴油機(jī)性能仿真數(shù)值模型,模擬計(jì)算柴油機(jī)額定工況下運(yùn)行的主要性能參數(shù)。設(shè)置仿真模型的參數(shù),如表2 所示。
表2 仿真模型主要參數(shù)Tab.2 Main parameters of simulation model
通過對(duì)比額定功率、燃油消耗率及最高爆發(fā)壓力等參數(shù)修正模型,使模型滿足精度要求,對(duì)比結(jié)果如表3 所示。
表3 額定工況下實(shí)際值與模擬值的對(duì)比Tab.3 Comparison between actual value and simulated value under rated working condition
額定工況下,建立的柴油機(jī)整機(jī)模型模擬計(jì)算的額定功率、燃油消耗率及最高爆發(fā)壓力與實(shí)際數(shù)據(jù)偏差均在1%以內(nèi),故認(rèn)為此模型能夠達(dá)到模擬計(jì)算精度要求。據(jù)此進(jìn)行模擬實(shí)驗(yàn)獲取關(guān)聯(lián)的數(shù)據(jù)。
分別設(shè)置溫度降低(F1)、壓氣機(jī)故障(壓氣機(jī)效率降低)(F2)、中冷器氣側(cè)堵塞(中冷器壓降過高)(F3)、中冷器水側(cè)堵塞(中冷器效率降低)(F4)、曲軸箱竄氣(F5)、渦輪噴嘴環(huán)臟堵(F6)、排氣管臟堵(F7)、噴油延遲(F8)、渦輪前排氣管堵塞(F9)、進(jìn)氣道漏氣(F10)以及排氣道漏氣(F11)這11 種故障狀況。篩選壓氣機(jī)出口溫度(S1)、氣缸排氣溫度(S2)、渦輪后排氣溫度(S3)、渦輪前排氣壓力(S4)、渦輪增壓器轉(zhuǎn)速(S5)以及增壓壓力(S6)這6 種熱力學(xué)參數(shù)作為故障診斷的特征參數(shù)。根據(jù)故障仿真實(shí)驗(yàn),獲得規(guī)模為1 007×6 的柴油機(jī)渦輪增壓器故障數(shù)據(jù)集。建立柴油機(jī)渦輪增壓器的故障樹如圖3 所示。
圖3 渦輪增壓器故障樹Fig.3 Turbocharger fault tree
數(shù)值實(shí)驗(yàn)的流程如圖4 所示。將故障原始數(shù)據(jù)按比例分為711×6 的訓(xùn)練集和規(guī)模為296×15 的測(cè)試集,用測(cè)試集數(shù)據(jù)檢測(cè)該模型的功能。
圖4 故障診斷流程Fig.4 Fault diagnosis process
仿真獲得的數(shù)據(jù)樣本集包括105 組環(huán)境溫度降低、86 組壓氣機(jī)故障、97 組中冷器氣側(cè)堵塞、99 組中冷器水側(cè)堵塞、93 組曲軸箱竄氣、93 組渦輪噴嘴環(huán)臟堵、90 組排氣管臟堵、93 組噴油延遲、83 組渦輪前排氣管堵塞、84 組進(jìn)氣道漏氣、84 組排氣道漏氣,總共1 007 組。
使用隨機(jī)森林函數(shù)創(chuàng)建一個(gè)分類器。在構(gòu)建隨機(jī)森林分類器時(shí),利用隨機(jī)森林函數(shù)的功能對(duì)測(cè)試數(shù)據(jù)進(jìn)行模擬。根據(jù)隨機(jī)森林分類的結(jié)果分析,診斷準(zhǔn)確率如表4 所示。
表4 隨機(jī)森林方法故障診斷準(zhǔn)確率表Tab.4 Table of fault diagnosis accuracy of random forest method
為了驗(yàn)證隨機(jī)森林方法能夠有效提高故障診斷率,將整理后的數(shù)據(jù)集提供給決策樹方法進(jìn)行故障診斷。表5 為決策樹算法的診斷準(zhǔn)確率,圖5 所示為兩種分類算法各故障診斷率的對(duì)比??梢园l(fā)現(xiàn),決策樹誤診斷51 個(gè),綜合準(zhǔn)確率為82.77%。遠(yuǎn)低于隨機(jī)森林的95.24%診斷率。因?yàn)闆Q策樹方法是單個(gè)分類器,但隨機(jī)森林方法利用bootstrap 重抽樣方法將各種單一分類器組合,其中的訓(xùn)練數(shù)據(jù)選擇各不一樣,選擇組合分類器的方法把各種分類器的處理結(jié)果結(jié)合,獲得一個(gè)森林的處理結(jié)果。因此,與決策樹方法相比,隨機(jī)森林能夠更準(zhǔn)確識(shí)別柴油機(jī)渦輪增壓器故障。
表5 決策樹方法故障診斷準(zhǔn)確率表Tab.5 Table of fault diagnosis accuracy of decision tree method
圖5 隨機(jī)森林方法與決策樹方法診斷率對(duì)比圖Fig.5 Comparison of diagnosis rate between random forest method and decision tree method
結(jié)合隨機(jī)森林的原理,決策樹數(shù)量大小和集中特征數(shù)量有可能影響隨機(jī)森林的效果,因此,首先保持集中特征數(shù)量值m(m=,M為總特征數(shù)量)不變?yōu)?,對(duì)隨機(jī)森林中決策樹的棵數(shù)選擇多種值,從0~300 每5 個(gè)取一次,使用隨機(jī)森林方法對(duì)故障樣本進(jìn)行故障診斷,隨機(jī)森林決策樹棵數(shù)對(duì)分類的作用如圖6所示。
圖6 隨機(jī)森林決策樹棵數(shù)對(duì)分類的作用圖Fig.6 Effect diagram of random forest decision tree number on classification
可知,決策樹過少對(duì)故障診斷的影響較大,但取值超過50 后,隨機(jī)森林的診斷正確率并無明顯變化,基本在95.5%小幅波動(dòng)。
首先保持隨機(jī)森林中決策樹的棵數(shù)不變?yōu)?00,對(duì)集中特征數(shù)量值m進(jìn)行多次取值,從1~6 每1 個(gè)取一次,使用隨機(jī)森林方法對(duì)故障樣本進(jìn)行故障診斷,隨機(jī)森林集中特征數(shù)量對(duì)分類的作用如圖7所示。
圖7 隨機(jī)森林集中特征數(shù)量對(duì)分類的作用圖Fig.7 Effect diagram of feature number in random forest concentration on classification
可知,集中特征數(shù)量取值為2 時(shí),隨機(jī)森林的準(zhǔn)確率最高,因此設(shè)置隨機(jī)森林的集中特征數(shù)量為2。
綜合2 種參數(shù)的影響規(guī)律,將隨機(jī)森林的決策樹棵樹設(shè)置為150 棵,集中特征數(shù)量設(shè)置為2,得到柴油機(jī)渦輪增壓器故障96.28%的診斷率。
本文提出基于隨機(jī)森林的故障診斷方法對(duì)柴油機(jī)渦輪增壓器進(jìn)行分析?;贏VL Boost 構(gòu)建仿真模型,選擇該模型獲得的柴油機(jī)各種工況狀態(tài)中的數(shù)據(jù),當(dāng)做訓(xùn)練樣本進(jìn)行故障診斷,結(jié)果表明:
1)相比于決策樹分類器這種單一分類器,隨機(jī)森林方法準(zhǔn)確率明顯更高,證明其能夠更準(zhǔn)確識(shí)別柴油機(jī)渦輪增壓器的故障,對(duì)提高柴油機(jī)渦輪增壓器故障診斷的準(zhǔn)確率有一定意義。
2)隨機(jī)森林對(duì)柴油機(jī)渦輪增壓器故障診斷的精度較高,在仿真模型的數(shù)據(jù)集上將隨機(jī)森林的決策樹數(shù)量設(shè)置高于50 棵,集中特征數(shù)量為2 時(shí),能夠達(dá)到更高的準(zhǔn)確度。