李至立, 卻立勇, 劉興惠
(山東緯橫數(shù)據(jù)科技有限公司, 山東 煙臺(tái) 264003)
半潛式鉆井平臺(tái)是重要的海洋工程裝備[1-2],往往作業(yè)于深海區(qū),時(shí)刻面對(duì)著惡劣多變的海洋環(huán)境,平臺(tái)系統(tǒng)運(yùn)行穩(wěn)定性受到挑戰(zhàn),故障警報(bào)信號(hào)頻發(fā)[3-7]。平臺(tái)系統(tǒng)組成非常復(fù)雜,信號(hào)點(diǎn)位眾多,難以追蹤平臺(tái)系統(tǒng)運(yùn)行不穩(wěn)定的誘發(fā)因素。機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能算法基于大數(shù)據(jù)可進(jìn)行復(fù)雜的關(guān)聯(lián)映射,比如構(gòu)建平臺(tái)系統(tǒng)能否穩(wěn)定運(yùn)行與其重要影響因素間的關(guān)聯(lián)模型。本文將平臺(tái)系統(tǒng)是否發(fā)出警報(bào)信號(hào)作為系統(tǒng)是否穩(wěn)定的標(biāo)志,研究平臺(tái)系統(tǒng)能否穩(wěn)定運(yùn)行的重要影響因素,基于若干重要因素采用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法構(gòu)建平臺(tái)系統(tǒng)穩(wěn)定性預(yù)測(cè)模型。
大型裝備故障發(fā)生的征兆主要與電壓狀態(tài)有關(guān)[8]。采用發(fā)電機(jī)功率、配電盤各類負(fù)載的功率、配電盤各類負(fù)載的電壓、配電盤各類負(fù)載的電流、推進(jìn)器功率、風(fēng)速等信號(hào)數(shù)據(jù)作為平臺(tái)系統(tǒng)能否穩(wěn)定運(yùn)行的影響因素。
收集半潛式平臺(tái)某年5月1日—5月31日上述信號(hào)點(diǎn)位的瞬時(shí)數(shù)據(jù)與警報(bào)信號(hào)數(shù)據(jù),將各指標(biāo)數(shù)據(jù)中的負(fù)值作為異常值設(shè)為空值,將毫秒級(jí)數(shù)據(jù)取均值轉(zhuǎn)換為秒級(jí)數(shù)據(jù)。
平臺(tái)共有8臺(tái)發(fā)電機(jī),但每一時(shí)刻只有部分發(fā)電機(jī)在工作,因此對(duì)每一時(shí)刻取所有發(fā)電機(jī)功率的均值作為這一時(shí)刻的發(fā)電機(jī)工作功率,并將其作為建模特征。同理,對(duì)每一時(shí)刻取8臺(tái)推進(jìn)器功率的均值作為這一時(shí)刻的推進(jìn)器工作功率,并將其作為建模特征。配電盤各類負(fù)載的功率、電壓與電流采用相同的方法得到對(duì)應(yīng)的配電盤綜合負(fù)載功率、綜合負(fù)載電壓與綜合負(fù)載電流,將其作為建模特征。將處于同時(shí)刻的發(fā)電機(jī)功率、配電盤綜合負(fù)載功率、配電盤綜合負(fù)載電壓、配電盤綜合負(fù)載電流、推進(jìn)器功率與風(fēng)速數(shù)據(jù)作為樣本數(shù)據(jù),同時(shí)剔除空值及離群值所在的樣本。將與警報(bào)信號(hào)處于同時(shí)刻的樣本輸出標(biāo)記為1,無警報(bào)信號(hào)的樣本輸出標(biāo)記為0。
分別以符號(hào)DG_power、Thr_power、fzI、fzU、fzW、windspeed代表特征發(fā)電機(jī)功率、推進(jìn)器功率、配電盤綜合負(fù)載電流、配電盤綜合負(fù)載電壓、配電盤綜合負(fù)載功率和風(fēng)速,分析特征間的相關(guān)性。采用Spearman相關(guān)因數(shù),特征相關(guān)因數(shù)如表1所示。
表1 特征相關(guān)因數(shù)
由表1可知,發(fā)電機(jī)功率與配電盤綜合負(fù)載功率呈完全強(qiáng)相關(guān)性,可剔除其中一個(gè),與配電盤綜合負(fù)載電流、配電盤綜合負(fù)載電壓呈中等相關(guān)性。
采用隨機(jī)森林(Random Forest,RF)對(duì)特征重要性進(jìn)行排序。RF是一種利用Bagging思想,將多個(gè)分類回歸樹(Classification and Regression Tree, CART)決策樹作為弱學(xué)習(xí)器組合為一個(gè)強(qiáng)學(xué)習(xí)器的集成算法,具有良好的抗過擬合能力和較高的準(zhǔn)確性,在訓(xùn)練過程中能夠識(shí)別特征間的相互影響并得出重要性排序。6個(gè)特征重要性排序結(jié)果如圖1所示。
圖1 特征重要性柱形圖
由圖1可知,6個(gè)因素對(duì)系統(tǒng)穩(wěn)定性均有一定程度的影響,但配電盤綜合負(fù)載電流、配電盤綜合負(fù)載電壓、配電盤綜合負(fù)載功率是系統(tǒng)穩(wěn)定性的主要影響因素,其次是發(fā)電機(jī)功率、風(fēng)速和推進(jìn)器功率,其中推進(jìn)器功率重要性最低,可以剔除。
綜上所述,配電盤綜合負(fù)載的功率、電壓、電流,發(fā)電機(jī)功率和風(fēng)速是決定平臺(tái)系統(tǒng)能否穩(wěn)定運(yùn)行的主要因素,為了保證平臺(tái)系統(tǒng)的穩(wěn)定運(yùn)行,應(yīng)更關(guān)注配電盤各種負(fù)載和發(fā)電機(jī)的運(yùn)行狀態(tài)以及防范大風(fēng)大浪惡劣天氣。
選擇風(fēng)速、配電盤綜合負(fù)載功率、配電盤綜合負(fù)載電流和配電盤綜合負(fù)載電壓作為模型的輸入特征。共收集樣本476 823個(gè),其中類別1為7 505個(gè),類別0為469 318個(gè),可看成類別不平衡二分類問題。針對(duì)類別數(shù)量不平衡問題,現(xiàn)有的解決方法可以分為預(yù)處理方法、代價(jià)敏感方法、算法中心方法和混合方法等4種[9-11],常用的處理方法包括預(yù)處理方法中的采樣法與代價(jià)敏感方法中的權(quán)重法。由于不同類別樣本數(shù)量差距過大且類別1樣本數(shù)相對(duì)輸入特征數(shù)足夠多,因此采用下采樣方式使數(shù)據(jù)集類別平衡,得到15 012個(gè)樣本,然后分別采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)與邏輯回歸(Logistics Regression,LR)模型、K近鄰查詢(K-Nearest Neighbor query,KNN)、支持向量機(jī)(Support Vector Machine,SVM)、樸素貝葉斯模型(Naive Bayesian Model,NBM)等傳統(tǒng)機(jī)器學(xué)習(xí)算法構(gòu)建平臺(tái)系統(tǒng)穩(wěn)定性預(yù)測(cè)模型并比較其預(yù)測(cè)效果。
多層神經(jīng)網(wǎng)絡(luò)是一種基于感知機(jī)的擴(kuò)展。如圖2所示,感知機(jī)的結(jié)構(gòu)由輸入、輸入的權(quán)重、激活函數(shù)和輸出等4部分組成,將輸入值與其對(duì)應(yīng)權(quán)重的乘積進(jìn)行求和,并將該和值作為激活函數(shù)的輸入,不同的激活函數(shù)將會(huì)得到不同的輸出。
注:x1,x2,…,xm為輸入;w0,w1,…,wm為輸入的權(quán)重;m為輸入的數(shù)量
在感知機(jī)中間增加多層隱藏層,即可得到如圖3 所示的多層神經(jīng)網(wǎng)絡(luò)。
圖3 多層神經(jīng)網(wǎng)絡(luò)
多層神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的計(jì)算方式為
z=∑wixi+b
(1)
式中:z為神經(jīng)元的值;wi為輸入的權(quán)重;xi為輸入;b為偏置值。同時(shí),為了增強(qiáng)神經(jīng)網(wǎng)絡(luò)的表達(dá)能力,引入非線性函數(shù)(tanh)作為激勵(lì)函數(shù),計(jì)算式為
(2)
結(jié)合反向傳播(Back Propagation,BP)算法能夠?qū)崿F(xiàn)對(duì)高維抽象特征的提取,在平臺(tái)系統(tǒng)穩(wěn)定性預(yù)測(cè)問題上實(shí)現(xiàn)高精度的分類及擬合效果。由此可知,DNN依靠多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和非線性激活函數(shù)能較好地?cái)M合平臺(tái)系統(tǒng)穩(wěn)定性各影響因素與其之間復(fù)雜的非線性映射關(guān)系。
對(duì)樣本數(shù)據(jù)進(jìn)行歸一化后,固定隨機(jī)種子將數(shù)據(jù)集劃分為訓(xùn)練集與測(cè)試集,測(cè)試集比例為20%,用于評(píng)估模型,為了防止過擬合將訓(xùn)練集進(jìn)一步劃分出20%作為驗(yàn)證集,同時(shí)采用曲線下面積(Area Under Curve,AUC)與準(zhǔn)確率作為模型的評(píng)估指標(biāo)。
2.2.1 DNN隱藏層節(jié)點(diǎn)數(shù)的確定
固定神經(jīng)網(wǎng)絡(luò)隱藏層層數(shù)為1,通過比較神經(jīng)網(wǎng)絡(luò)在采用不同隱藏層節(jié)點(diǎn)數(shù)的情況下網(wǎng)絡(luò)經(jīng)過1 000 次迭代后的驗(yàn)證集Loss的大小來確定合適的隱藏層節(jié)點(diǎn)數(shù)。試驗(yàn)結(jié)果如圖4所示。
圖4 不同隱藏層節(jié)點(diǎn)數(shù)單隱藏層神經(jīng)網(wǎng)絡(luò)經(jīng)過1 000次迭代后的驗(yàn)證集Loss值
由圖4可知,當(dāng)隱藏層節(jié)點(diǎn)數(shù)為14時(shí)網(wǎng)絡(luò)經(jīng)過1 000次迭代收斂后驗(yàn)證集Loss值損失最小,因此選擇隱藏層節(jié)點(diǎn)數(shù)為14。
2.2.2 DNN隱藏層層數(shù)的確定
固定隱藏層節(jié)點(diǎn)數(shù)為14,通過比較神經(jīng)網(wǎng)絡(luò)在采用不同隱藏層層數(shù)的情況下網(wǎng)絡(luò)經(jīng)過1 000次迭代后驗(yàn)證集Loss值的大小來確定合適的隱藏層層數(shù)。試驗(yàn)結(jié)果如圖5所示。
圖5 不同隱藏層層數(shù)神經(jīng)網(wǎng)絡(luò)經(jīng)過1 000次迭代后的驗(yàn)證集Loss值
由圖5可知,當(dāng)隱藏層層數(shù)為3時(shí),神經(jīng)網(wǎng)絡(luò)經(jīng)過1 000次迭代收斂后的驗(yàn)證集Loss值最小,因此DNN隱藏層層數(shù)為3。最終確定DNN拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)為4-14-14-14-2,即4層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入層節(jié)點(diǎn)數(shù)為4,輸出層節(jié)點(diǎn)數(shù)為2,3層隱藏層的神經(jīng)元節(jié)點(diǎn)數(shù)均為14。網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 DNN拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)
2.2.3 DNN隱藏層激活函數(shù)的確定
不同的隱藏層激活函數(shù)會(huì)給神經(jīng)網(wǎng)絡(luò)帶來不同的擬合效果,常用的隱藏層激活函數(shù)有Sigmoid、Tanh、ReLU和其他變種等,通過比較DNN在分別采用Sigmoid、tanh、ReLU等3種不同的隱藏層激活函數(shù)時(shí)網(wǎng)絡(luò)經(jīng)過1 000次迭代收斂后驗(yàn)證集Loss值的大小來選擇合適的激活函數(shù)。結(jié)果如圖7所示。
圖7 采用不同隱藏層激活函數(shù)的DNN訓(xùn)練效果
由圖7可知,雖然網(wǎng)絡(luò)訓(xùn)練前期ReLU激活函數(shù)表現(xiàn)較好,但后期tanh激活函數(shù)能夠使驗(yàn)證集Loss值收斂至更低,訓(xùn)練效果更好,因此DNN隱藏層采用tanh激活函數(shù)更合適。
2.2.4 DNN的訓(xùn)練與驗(yàn)證
在確定DNN拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)和隱藏層激活函數(shù)之后,確定DNN的輸出層激活函數(shù)為Softmax,損失函數(shù)為交叉熵,優(yōu)化算法采用Adam,學(xué)習(xí)率為0.01,網(wǎng)絡(luò)參數(shù)初始化方式采用Pytorch默認(rèn)的kaiming_normal。網(wǎng)絡(luò)訓(xùn)練迭代2 000步后訓(xùn)練集Loss值穩(wěn)定在0.10,驗(yàn)證集Loss值穩(wěn)定在0.12,網(wǎng)絡(luò)收斂。網(wǎng)絡(luò)訓(xùn)練迭代過程如圖8所示。
由圖8可知,在網(wǎng)絡(luò)訓(xùn)練迭代2 000步后訓(xùn)練集和驗(yàn)證集Loss值都收斂至0.1,AUC都穩(wěn)定在0.98,網(wǎng)絡(luò)得到了較好的訓(xùn)練,泛化能力較強(qiáng),可以用來預(yù)測(cè)。采用測(cè)試集對(duì)該模型進(jìn)行評(píng)估,預(yù)測(cè)測(cè)試集的AUC為0.983,準(zhǔn)確率為96.7%。
圖8 DNN迭代收斂曲線
調(diào)用Sklearn庫(kù)的train_test_split API并采用相同的隨機(jī)種子以便產(chǎn)生相同的訓(xùn)練集與測(cè)試集來訓(xùn)練與評(píng)估LR、KNN、SVM、NBM等機(jī)器學(xué)習(xí)模型。DNN與傳統(tǒng)機(jī)器學(xué)習(xí)模型預(yù)測(cè)測(cè)試集的評(píng)估指標(biāo)AUC與準(zhǔn)確率結(jié)果對(duì)比如圖9所示。
圖9 DNN與傳統(tǒng)機(jī)器學(xué)習(xí)模型預(yù)測(cè)測(cè)試集的評(píng)估指標(biāo)對(duì)比
由圖9可知:DNN預(yù)測(cè)測(cè)試集的AUC為0.983,比其他機(jī)器學(xué)習(xí)模型的AUC提高1.3%~16.1%;DNN預(yù)測(cè)測(cè)試集的準(zhǔn)確率為96.7%,比其他機(jī)器學(xué)習(xí)模型的準(zhǔn)確率提高3.0%~25.6%。因此,采用DNN構(gòu)建平臺(tái)系統(tǒng)穩(wěn)定性預(yù)測(cè)模型比傳統(tǒng)機(jī)器學(xué)習(xí)算法具有更好的擬合效果和泛化能力。
采用半潛式平臺(tái)工作信號(hào)點(diǎn)位數(shù)據(jù)集研究影響平臺(tái)系統(tǒng)運(yùn)行穩(wěn)定性的重要因素,研究結(jié)果表明,配電盤綜合負(fù)載的功率、電壓、電流,發(fā)電機(jī)功率和風(fēng)速是影響平臺(tái)系統(tǒng)運(yùn)行穩(wěn)定性的主要因素,也是平臺(tái)系統(tǒng)產(chǎn)生報(bào)警信號(hào)的主要觸發(fā)因素,因此為了保證平臺(tái)系統(tǒng)的穩(wěn)定運(yùn)行,應(yīng)確保配電盤各種負(fù)載的工作狀態(tài)穩(wěn)定并且防范大風(fēng)大浪等惡劣天氣。在此基礎(chǔ)上,提出基于DNN的平臺(tái)系統(tǒng)穩(wěn)定性預(yù)測(cè)模型,經(jīng)過測(cè)試集評(píng)估,該模型的AUC較LR、KNN、SVM、NBM等傳統(tǒng)機(jī)器學(xué)習(xí)模型提高1.3%~16.1%,準(zhǔn)確率提高3.0%~25.6%,表明DNN模型具有較好的擬合能力和泛化能力。