胡慧,宋傳洲,2,高宇,王敏,趙小鋒,萬(wàn)仁委
(1.海軍航空大學(xué),煙臺(tái) 264000;2.煙臺(tái)警備區(qū),煙臺(tái) 264000;3.深圳信息職業(yè)技術(shù)學(xué)院保衛(wèi)處,深圳 518000)
航材消耗預(yù)測(cè)研究是航材研究的重要內(nèi)容之一,為后續(xù)的航材管理、訂購(gòu)、運(yùn)輸、維修保障,乃至新產(chǎn)品研發(fā)提供重要參考[1]。航材預(yù)測(cè)往往是在對(duì)航材進(jìn)行分類或品種確定后,根據(jù)具體情況以類別或不同品種選擇不同的算法構(gòu)建預(yù)測(cè)模型,在以往的航材消耗預(yù)測(cè)研究中預(yù)測(cè)模型的成果比較豐富,可簡(jiǎn)單分為按照時(shí)間序列、依靠數(shù)據(jù)統(tǒng)計(jì)規(guī)律、機(jī)器學(xué)習(xí)算法等三類[2]的思路構(gòu)建模型。
按照時(shí)間序列的研究方法有指數(shù)平滑預(yù)測(cè)模型[3]、ARMA預(yù)測(cè)模型[4]、移動(dòng)平均預(yù)測(cè)模型、粗糙集理論[5]、Croston預(yù)測(cè)模型[6]、灰色系統(tǒng)預(yù)測(cè)模型[7]、Bootstrap法[8]等以及他們的改進(jìn)算法。如果能夠統(tǒng)計(jì)獲得比較真實(shí)的故障數(shù)據(jù)或航材消耗數(shù)據(jù),可運(yùn)用統(tǒng)計(jì)學(xué)方法在研究航材的故障率、可靠性和壽命曲線規(guī)律的同時(shí),對(duì)其進(jìn)行需求預(yù)測(cè)。機(jī)器學(xué)習(xí)算法具有智能、靈活且運(yùn)算效率高的特點(diǎn),在解決時(shí)間序列和數(shù)理統(tǒng)計(jì)兩類算法不足上有許多優(yōu)勢(shì),常用的機(jī)器學(xué)習(xí)算法主要有SVM[9]、神經(jīng)網(wǎng)絡(luò)[10]、隨機(jī)森林[11]、GBDT等及其改進(jìn)算法。
此外,這些算法都可以組合起來(lái)進(jìn)行預(yù)測(cè),比如,王寧等[12]采用ARIMA-BP-CNN-LSTM組合方法進(jìn)行預(yù)測(cè),將ARIMA線性和BP的非線性擬合相結(jié)合,對(duì)備件的預(yù)測(cè)較好。李文強(qiáng)[13]等在對(duì)無(wú)人機(jī)的航材備件進(jìn)行需求預(yù)測(cè)時(shí),主要采用偏最小二乘回歸,結(jié)合了PCA、相關(guān)性分析、多元線性回歸等方法提取多種因素特征進(jìn)行預(yù)測(cè),結(jié)果準(zhǔn)確率較高。值得強(qiáng)調(diào)的是,在解決不同消耗類型的航材時(shí),每種方法有其適合的范圍,比如Ghobbar等[14]曾采用單指數(shù)平滑、Croston 、ARMA等及其改進(jìn)算法共13 種方法對(duì)不同消耗類型的航材進(jìn)行了研究,得出 Croston 方法對(duì)間歇型數(shù)據(jù)特征的航材預(yù)測(cè)效果突出。李佩琦[11]將隨機(jī)森林和GBDT算法組合使用,研究多因素影響下的機(jī)電設(shè)備備件的消耗預(yù)測(cè)也獲得非常好的效果??紤]影響航材消耗的多因素、準(zhǔn)確率、模型運(yùn)算效率等問(wèn)題,本文采用機(jī)器學(xué)習(xí)隨機(jī)森林算法就航材月消耗的時(shí)間序列進(jìn)行建模,先提取包含飛機(jī)起落架次、飛行時(shí)間、人員因素、平均溫度、平均濕度等6個(gè)影響因素特征,建立多種因素影響的月消耗航材預(yù)測(cè)模型,將結(jié)果與實(shí)際值和GBDT、SVM等算法模型相比較,較好的預(yù)測(cè)消耗充分說(shuō)明該隨機(jī)森林模型的科學(xué)性和高效性,并為下一步的航材精準(zhǔn)化保障決策提供參考。
隨機(jī)森林[15](Random Forest RF),是以Bagging為邏輯基礎(chǔ)的Tree族集成算法,其決策樹(shù)間只存在弱依賴甚至無(wú)關(guān)聯(lián),權(quán)值相同,可同時(shí)生成并行化。這不同于以Boosting為基礎(chǔ)的樹(shù)族算法,單棵Tree間存有強(qiáng)依賴,每棵樹(shù)權(quán)重不同,必須串行生成序列,每個(gè)權(quán)值的獲得來(lái)自上一輪迭代的結(jié)論,比如GBDT算法。RF模型訓(xùn)練過(guò)程如圖1所示,對(duì)決策樹(shù)并行擬合且引入隨機(jī)特征選擇,最后進(jìn)行投票,得到結(jié)果。Tree族算法的分類基礎(chǔ)的一部分就是特征集合,特征的優(yōu)劣很大程度上影響模型分類或預(yù)測(cè)的效果,因此特征選擇意義重大。本文主要使用RF算法分別對(duì)品種確定和消耗預(yù)測(cè)的特征進(jìn)行重要性度量和最后模型間仿真效果的比對(duì)。RF基本原理如下:
圖1 隨機(jī)森林原理示意圖
Step1:Bootstrap法抽樣。設(shè)數(shù)據(jù)集di= {xi1,xi2,… ,xim},i∈ [ 1 ,N],m∈ [1 ,M],xi表示有N個(gè)樣本數(shù)據(jù),m表示每個(gè)樣本的特征數(shù),對(duì)N實(shí)施抽取n個(gè)(n≤N)有放回抽樣K次,共抽取K組樣本集合。
Step2:隨機(jī)生成樹(shù)。K組集合將隨機(jī)生成K棵對(duì)應(yīng)的決策樹(shù),同時(shí)生成K個(gè)袋外數(shù)據(jù)(每次未被抽到的樣本組成袋外數(shù)據(jù))。
Step3:選出最優(yōu)分裂特征。訓(xùn)練模型時(shí),每棵決策樹(shù)每個(gè)節(jié)點(diǎn)進(jìn)行分裂,從所有輸入的M個(gè)特征中隨機(jī)抽出m個(gè)特征,從m個(gè)特征中選出最優(yōu)特征作為分裂特征,保持m恒定并以分類器hj(x)記錄每一棵完整生長(zhǎng)的樹(shù),形成森林,其公式表達(dá)為H(x) = {h1(M),h2(M) ,… ,hj(M) ,yi=Y},j∈ [1 ,K],其中Y為輸出變量,也叫判別標(biāo)簽,設(shè)yi=c顯然c≥2,j表示第j個(gè)分類器;。一般使用CART算法基尼指數(shù)來(lái)作為確定最優(yōu)特征的標(biāo)度,Pi表示為第i個(gè)類別樣本占所有樣本的比例,以特征A將樣本N分成L各部分,其公式為:
Step4:做出決策。訓(xùn)練T次,使組合模型公式:
其中,φ(x)是示性函數(shù)。當(dāng)輸入新的樣本,利用森林H(x)中每一棵Tree(每一個(gè)分類器hj(x))進(jìn)行判斷,最終以φ(x)做出決策。
隨機(jī)森林可以用袋外數(shù)據(jù)(OOB)或基尼指數(shù)錯(cuò)誤率兩種指標(biāo)評(píng)價(jià)衡量特征的重要性。本文區(qū)別于Boosting的特征重要性評(píng)價(jià)方法,使用隨機(jī)森林的OOB錯(cuò)誤率來(lái)衡量。其具體原理為:
Step1:計(jì)算K組每棵Tree的OOB錯(cuò)誤率,記作ρ0:Error01 ,Error02,Error03 …Error0k;
Step2:對(duì)K組OOB第i組特征進(jìn)行重排列(其它特征保持不變),再次計(jì)算每棵Tree的誤差值,記作ρi:Errori1,Errori2 ,Errori3 …Errorik;
Step3:各特征重要性公式:
Step4:對(duì)特征重要性進(jìn)行排序。
1)分析影響航材消耗的因素,提取特征,建立特征指標(biāo)體系。
2)統(tǒng)計(jì)收集處理與航材消耗相關(guān)的歷史數(shù)據(jù),對(duì)特征賦值取值,對(duì)特征進(jìn)行重要性排序。
3)劃分樣本集,標(biāo)記訓(xùn)練集和測(cè)試集,創(chuàng)建基于RF算法消耗數(shù)量預(yù)測(cè)模型。
4)將預(yù)測(cè)結(jié)果對(duì)比實(shí)際消耗值,并且比析GBDT、SVM等模型的預(yù)測(cè)結(jié)果。
現(xiàn)有n種航材,分別記作N{N1,N2,N3…Nn},從這些航材中選出某航材,記作N,作為本文研究對(duì)象,選取對(duì)其月度消耗量有影響的6種特征[16]指標(biāo),其特征值記作K{K1,K2,K3,K4,K5,K6},預(yù)測(cè)值記作X。其特征簡(jiǎn)要說(shuō)明如表1所示,其部分?jǐn)?shù)據(jù)取月度單機(jī)消耗量,取值列表如表2所示。
對(duì)提取的影響航材月消耗的6個(gè)特征進(jìn)行重要性量化列表,如表3所示。
1)根據(jù)重要性取值的排序可知月飛行時(shí)間是最重要的特征,該特征可直接反映飛機(jī)的工作量,進(jìn)而在一定程度上反映部分航材的使用時(shí)間。
圖2 RF消耗預(yù)測(cè)模型構(gòu)建流程
表1 影響特征
表2 部分?jǐn)?shù)據(jù)列表
表3 特征重要性排序
圖3 模型預(yù)測(cè)結(jié)果對(duì)比圖
2)溫度和濕度這兩個(gè)特征分別排在第二、三位,說(shuō)明該特征對(duì)所選航材的消耗有很大影響。這與溫度過(guò)高將減少部分元器件使用壽命有關(guān)。
3)特殊任務(wù)占比這一特征排名靠后,是因?yàn)樘厥馊蝿?wù)每月執(zhí)行的次數(shù)和種類相對(duì)一致,取值相對(duì)穩(wěn)定,故對(duì)消耗數(shù)量影響較少。
將數(shù)據(jù)和特征量輸入模型,調(diào)試運(yùn)行后得到隨機(jī)森林、GBDT、Adaboost、SVM模型預(yù)測(cè)結(jié)果和實(shí)際值對(duì)比,如圖3所示,分別使用MSE、SSE、RMSE、MAE評(píng)價(jià)取值來(lái)對(duì)預(yù)測(cè)值進(jìn)行計(jì)算得到表4結(jié)果。
由圖3和表4可知,使用隨機(jī)森林模型進(jìn)行數(shù)量預(yù)測(cè)的結(jié)果相比其他預(yù)測(cè)模型誤差較低、效果最好。
本文充分考慮影響航材消耗的主要因素,提取特征后,對(duì)特征進(jìn)行重要性排序并分析,采用隨機(jī)森林算法研究航材消耗數(shù)量和影響因素之間的非線性關(guān)系,實(shí)例驗(yàn)證表明在考慮多因素影響航材消耗預(yù)測(cè)時(shí),隨機(jī)森林算法有其科學(xué)性和高效性。盡管如此,本文提取的影響特征數(shù)量仍不夠全面,預(yù)測(cè)數(shù)據(jù)量還不夠多,若在之后的研究中可提取更多的特征同更多的數(shù)據(jù)進(jìn)行訓(xùn)練,機(jī)器學(xué)習(xí)模型將更加準(zhǔn)確。
表4 消耗預(yù)測(cè)不同算法預(yù)測(cè)結(jié)果評(píng)價(jià)