張晨曦,唐 曙,唐 珂
(1.中國科學(xué)技術(shù)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,合肥 230000;2.中國文昌航天發(fā)射場指揮控制中心,海南文昌 571300;3.南方科技大學(xué)計算機科學(xué)與工程系,廣東深圳 518000)
火箭發(fā)動機是運載火箭的飛行動力核心,其組成復(fù)雜,工作環(huán)境惡劣,高頻振蕩、高溫低溫共存[1],因此任何細(xì)小的異常在這樣的條件下都易快速發(fā)展,極具破壞性,導(dǎo)致發(fā)射失敗,帶來巨大損失。在航天飛行史上,因發(fā)動機故障導(dǎo)致的失敗次數(shù)超過總失敗次數(shù)的50%[2]。因此,對發(fā)動機的異常檢測可以幫助人們:1)在研制階段發(fā)現(xiàn)設(shè)計或工藝的缺陷等潛在隱患;2)在測試階段防止火箭帶故障飛行,最大限度地規(guī)避發(fā)射風(fēng)險;3)在飛行階段挖掘發(fā)動機運行的異常和不足,為發(fā)動機性能優(yōu)化改進(jìn)提供反饋,提高航天裝備試驗鑒定能力。
目前工程應(yīng)用中,常用的檢測方法以紅線法、專家系統(tǒng)法為主[3],但隨著大推力火箭、可回收等新技術(shù)的應(yīng)用,火箭信息化和復(fù)雜度大幅提升,這些方法顯露出了檢測誤差偏大、規(guī)則維護(hù)成本急劇增加、檢測時效滯后等局限性。近幾年來,得益于積累的海量數(shù)據(jù),深度學(xué)習(xí)等新技術(shù)在不依賴專家知識的前提下將機器視覺、自然語言處理推向了工程化應(yīng)用[4-6]。反觀航天領(lǐng)域,火箭型號種類多,單型號尤其是新火箭樣本有限,數(shù)據(jù)積累及共享困難,嚴(yán)重制約了目前主流機器學(xué)習(xí)技術(shù)在航天領(lǐng)域的應(yīng)用。
對于航天領(lǐng)域這樣的小樣本領(lǐng)域,只依靠領(lǐng)域?qū)<?,難以快速形成評估能力,只依靠數(shù)據(jù)又缺乏大規(guī)模用于表征學(xué)習(xí)的數(shù)據(jù)集。因此本文的研究動機就是結(jié)合專家知識和數(shù)據(jù)驅(qū)動來解決傳統(tǒng)方法的不足,具體是以發(fā)動機為研究對象,通過領(lǐng)域知識構(gòu)建特征空間,利用遷移學(xué)習(xí)來處理樣本規(guī)模有限導(dǎo)致的評估模型性能低問題。本文針對YF-75 和YF-77 液體發(fā)動機飛行任務(wù)數(shù)據(jù),進(jìn)行預(yù)處理后構(gòu)建特征空間,選擇k最近鄰(k-Nearest Neighbors,kNN)與支持向量機(Support Vector Machine,SVM)兩種分類模型驗證了實例遷移、模型遷移方法對YF-77發(fā)動機參數(shù)異常檢測模型訓(xùn)練和優(yōu)化的有效性。
火箭發(fā)動機包括渦輪泵、燃燒室等部件,每個部件上安裝有不同傳感器,分別測量不同的指標(biāo)(如溫度、壓力、流量),業(yè)內(nèi)通常稱為遙測參數(shù)(或參數(shù)),通常一次飛行任務(wù)中與發(fā)動機有關(guān)的參數(shù)個數(shù)在2 000~2 500。
發(fā)動機工作主要有三種過程(或狀態(tài)),分別為啟動、額定工作(或滿工況)和關(guān)機過程。圖1 展示了三種過程的異常檢測步驟。
圖1 在各個過程檢測發(fā)動機參數(shù)狀態(tài)Fig.1 Checking engine parameter status in different processes
其中啟動、關(guān)機過程是十分復(fù)雜的瞬變過程,短時間內(nèi)大量參數(shù)會發(fā)生劇烈變化,實踐表明發(fā)動機的大部分故障都發(fā)生在這樣的瞬變過程[7]。三類過程都有固有的關(guān)鍵指標(biāo)來描述其狀態(tài),以氧泵轉(zhuǎn)速的啟動過程為例,表1 展示了其關(guān)鍵指標(biāo)、物理意義及指標(biāo)異常的潛在典型故障模式。
表1 氧泵轉(zhuǎn)速啟動過程的關(guān)鍵指標(biāo)Tab.1 Key indicators of oxygen pump speed in startup
紅線法、專家系統(tǒng)和機器學(xué)習(xí)是火箭參數(shù)異常檢測中常用的三類方法:
1)紅線法包括閾值法和包絡(luò)法,前者是不帶時間維的理論常量區(qū)間;后者根據(jù)歷史正常數(shù)據(jù)生成帶時間維度的包絡(luò)上下限。
2)專家系統(tǒng),是由火箭領(lǐng)域?qū)<彝ㄟ^領(lǐng)域知識和經(jīng)驗得到的狀態(tài)判決規(guī)則[8]。
3)國內(nèi)從20 世紀(jì)90 年代開始至今,先后應(yīng)用SVM、神經(jīng)網(wǎng)絡(luò)和時間序列分析等方法開展對發(fā)動機故障檢測與診斷的研究[9-10]。
以上方法都有著各自的特點和適用情況。閾值法丟失了時間維,常用于檢測當(dāng)前時刻的狀態(tài),且精度不高[11];包絡(luò)法則受樣本規(guī)模和方法本身的制約,假陽性和假陰性現(xiàn)象嚴(yán)重。紅線法還對噪聲敏感,難以適用于參數(shù)規(guī)模大或者樣本少等情況,檢測誤差一般較大:如果誤判會加重人工篩選的負(fù)擔(dān),提高了人力成本;如果漏判則降低了方法可信度,增加了飛行風(fēng)險。
專家系統(tǒng)則受制于專家知識,發(fā)動機系統(tǒng)覆蓋學(xué)科領(lǐng)域廣泛,知識表述困難。規(guī)則建立過程復(fù)雜耗時,規(guī)則質(zhì)量受專家能力和經(jīng)驗制約;規(guī)則對技術(shù)狀態(tài)變化敏感,導(dǎo)致了專家規(guī)則更新維護(hù)代價高昂。
機器學(xué)習(xí)方法則主要受制于樣本規(guī)模和質(zhì)量[11],航天領(lǐng)域單型號尤其新型發(fā)動機的樣本較少,而且數(shù)據(jù)的采集、分類和處理標(biāo)準(zhǔn)也不夠規(guī)范統(tǒng)一,導(dǎo)致預(yù)處理難度大,這些都嚴(yán)重阻礙了大規(guī)模的表征學(xué)習(xí)和模型訓(xùn)練[2]。
遷移學(xué)習(xí)的目的就是設(shè)法將相近或相似領(lǐng)域的數(shù)據(jù)、知識等信息實現(xiàn)共用,一般將遷移信息的來源稱為遷移領(lǐng)域,將遷移信息的去向稱為目標(biāo)領(lǐng)域,來解決目標(biāo)領(lǐng)域樣本規(guī)模不足給模型訓(xùn)練帶來的制約,從而有效解決小樣本領(lǐng)域應(yīng)用機器學(xué)習(xí)的困境[11-14]。按照遷移的信息內(nèi)容可以分為實例遷移、特征遷移、模型遷移、關(guān)系遷移[11]。目前遷移學(xué)習(xí)的有效性已經(jīng)在圖像檢索、語音識別、文本分類和語義分析等領(lǐng)域得到充分的驗證[15-17],在航天領(lǐng)域應(yīng)用還處于起步階段。
YF-77 液體火箭發(fā)動機作為新型發(fā)動機,樣本規(guī)模太少,異常檢測分類模型無法進(jìn)行有效的訓(xùn)練,因此本文引入成熟型號YF-75發(fā)動機的樣本數(shù)據(jù)和其異常檢測模型等信息遷移到Y(jié)F-77領(lǐng)域,實現(xiàn)發(fā)動機參數(shù)異常檢測,以完成火箭飛行階段的狀態(tài)監(jiān)測,為指揮決策和故障診斷提供輔助的支撐信息。
在具體遷移的實踐中,將面臨如下問題:
1)YF-75與YF-77兩型發(fā)動機的相似性;
2)如何處理兩個領(lǐng)域之間的差異;
3)如何構(gòu)建有效的特征向量;
4)選擇恰當(dāng)?shù)臋C器學(xué)習(xí)分類模型;
5)使用何種遷移方法。
本文將分別在2.1、2.2、2.3、2.4、3.1 節(jié)詳細(xì)論述以上問題。
為面向現(xiàn)實應(yīng)用需求,本文以YF-75 和YF-77 型液體發(fā)動機分別作為遷移領(lǐng)域和目標(biāo)領(lǐng)域,其中YF-75 型發(fā)動機執(zhí)行任務(wù)次數(shù)較多,共有352 個樣本;而YF-77 是近年研制成熟的新型發(fā)動機,目前僅有24個樣本。
根據(jù)這兩型發(fā)動機的設(shè)計原理,它們都屬于氫氧發(fā)動機,燃燒方式都是燃?xì)獍l(fā)生器循環(huán),并且具有相同的分系統(tǒng)構(gòu)造,主要性能如比沖、推進(jìn)劑混合比等相近,二者的共有參數(shù)占YF-77 所有參數(shù)的58%,其中關(guān)鍵參數(shù)更是高達(dá)73%,且這些參數(shù)在啟動、額定工作和關(guān)機三個過程中具有相同的變化趨勢,只是在具體數(shù)值上有差別。
以氧泵轉(zhuǎn)速為例,它是專家評估發(fā)動機狀態(tài)時首要關(guān)注的參數(shù)之一,并常使用{啟動時長,最終穩(wěn)定值,(最終穩(wěn)定值-起始數(shù)據(jù)值)/相應(yīng)時間差,相鄰數(shù)據(jù)點斜率之平均值,相鄰數(shù)據(jù)點斜率之標(biāo)準(zhǔn)差}五個特征值作為評價泵轉(zhuǎn)速的主要依據(jù),記為{T,R,d(R),E(d),S(d)}。其樣本已經(jīng)基于專家系統(tǒng)對其進(jìn)行正常與異常的二分類標(biāo)注,表2展示了兩型發(fā)動機五個特征值在正常和異常下的區(qū)間變化情況(數(shù)據(jù)經(jīng)變換已脫密)。
計算兩發(fā)動機之間各特征值正常樣本區(qū)間的左邊界數(shù)值的差距除以兩個左邊界數(shù)值的平均值依次是17.74%、1.85%、6.62%、4.41%、17.16%,右邊界依次是2.11%、0.66%、1.07%、3.89%、12.40%;二者異常樣本區(qū)間的分布都明顯異于正常樣本,且各特征值異常樣本區(qū)間的左邊界差距除以兩個左邊界數(shù)值的平均值依次是9.22%、23.92%、11.35%、5.96%、20.56%,右邊界依次是6.90%、0.40%、5.47%、11.99%、7.92%。從原理、構(gòu)造和數(shù)據(jù)統(tǒng)計的角度都說明了兩型發(fā)動機的相似性,本文還將在第3 章的實驗中充分驗證遷移的有效性。
表2 YF-75和YF-77氧泵轉(zhuǎn)速正常、異常樣本數(shù)值區(qū)間Tab.2 Value ranges of normal and abnormal samples of oxygen pump speed in YF-75 and YF-77
2.2.1 時間對齊
不同任務(wù)中各發(fā)動機的T0(發(fā)動機點火啟動的時刻)是互不相同的,為了保證各時間序列的開始時刻對齊,需要將啟動過程樣本中所有時間記錄值都減去對應(yīng)的T0,使得每個樣本都以0 s為開始。
2.2.2 數(shù)據(jù)歸一化
相同類型參數(shù)在不同發(fā)動機中,其設(shè)計額定工作值可能存在差異;即使在同型號發(fā)動機的不同飛行任務(wù)中,其實際額定工作值也不完全一致。為了關(guān)注變化趨勢,本研究對每段數(shù)據(jù)樣本進(jìn)行歸一化處理:對同一型號發(fā)動機,首先篩選所有啟動過程正常的參數(shù)樣本,去除噪聲后,獲取其中各樣本的最大值和最小值,分別記為MAXrated和MINrated;然后以“MINrated值轉(zhuǎn)換為0,MAXrated值轉(zhuǎn)換為1”作為縮放標(biāo)準(zhǔn),預(yù)處理所有樣本(包括正常和異常)啟動過程的時間序列值,例如對于任意value值,它將被歸一化為:
本文希望找到恰當(dāng)?shù)奶卣飨蛄浚饶軈^(qū)分正常與異常樣本的特征,又能同時刻畫出該參數(shù)在不同領(lǐng)域的變化趨勢。
2.3.1 特征對正常與異常的區(qū)分性
國內(nèi)研究人員曾對氫氧發(fā)動機的故障模式做出分類和仿真[1],從已有故障模式中總結(jié)出與氧泵轉(zhuǎn)速有關(guān)的6種典型異常表征,如表3 所示,同時基于領(lǐng)域知識將異常表征現(xiàn)象與表1 中啟動過程發(fā)動關(guān)鍵指標(biāo)、專家系統(tǒng)的五個特征值做出關(guān)聯(lián)對應(yīng)。
以YF-75 型發(fā)動機氧泵轉(zhuǎn)速為例,針對每一類異常表征取一個異常樣本,同時取一個正常樣本作對比,如圖2所示。
圖2 YF-75型啟動過程氧泵轉(zhuǎn)速正常樣本與異常樣本之間的時間序列數(shù)據(jù)曲線對比Fig.2 Curve comparison of time series data of normal and abnormal samples of oxygen pump speed during YF-75 startup
為進(jìn)一步驗證專家常用的5 個特征值的有效性,本研究在此基礎(chǔ)上,再添加{平均值,最大值,最小值,(最大值-最小值)/相應(yīng)時間差,標(biāo)準(zhǔn)差}這些常見的統(tǒng)計特征,分別記作{E,Max,Min,d(M),S},共組成一個10 維向量,然后進(jìn)行偏最小二乘回歸(Partial Least Squares Regression,PLSR)分析,如圖3所示,得到不同特征與樣本標(biāo)注的相關(guān)性。
圖3 YF-75發(fā)動機氧泵轉(zhuǎn)速的PLSR結(jié)果Fig.3 PLSR results of YF-75 oxygen pump speed
表3 典型的異常表征現(xiàn)象及對應(yīng)的啟動關(guān)鍵指標(biāo)和專家特征值Tab.3 Classic abnormal representation phenomena and corresponding key indicators,expert feature values
可以看出,對于氧泵轉(zhuǎn)速而言,{T,R,d(R),E(d),S(d)}確實與標(biāo)注結(jié)果的相關(guān)性更大;因此該特征向量滿足了物理意義和統(tǒng)一意義上的解釋,能夠區(qū)分正常與異常樣本的不同。
2.3.2 刻畫兩個領(lǐng)域的趨勢
目前仍需明確該特征向量是否能夠較好地同時刻畫出該參數(shù)在不同領(lǐng)域的變化趨勢,從而確定這一特征向量在遷移過程中能否有效發(fā)揮作用。首先由表2可以看出,在YF-75和YF-77 發(fā)動機氧泵轉(zhuǎn)速樣本集之間,用該特征向量表示的正常樣本區(qū)間是相似的,異常樣本區(qū)間也是相似的。
而除了這些領(lǐng)域?qū)I(yè)知識和統(tǒng)計信息,本研究通過第3章設(shè)計的遷移實驗來驗證:如果有遷移的機器學(xué)習(xí)方法優(yōu)于無遷移的機器學(xué)習(xí)方法,則可以說明這個特征向量能夠刻畫兩個領(lǐng)域的變化趨勢并有效地用于遷移學(xué)習(xí)中。
遷移學(xué)習(xí)的目的是解決傳統(tǒng)機器學(xué)習(xí)在小樣本領(lǐng)域的性能,因此依然需要選擇合適的機器學(xué)習(xí)算法,基于已有的研究[1,9],本文選用的是kNN和SVM算法。
2.4.1kNN分類模型
kNN算法的步驟如下所示:
輸入:特征向量表示的氧泵轉(zhuǎn)速訓(xùn)練樣本集、測試樣本集;
輸出:測試樣本集的kNN分類結(jié)果正確率。
1)對某測試樣本,計算與各訓(xùn)練樣本的距離,按距離從小到大進(jìn)行排序;
2)選取距離最小的k個訓(xùn)練樣本(本文實驗中取k=3);
3)確定前k個訓(xùn)練樣本中,兩個類別的出現(xiàn)頻率;
4)將出現(xiàn)頻率最高的類別作為該測試樣本分類結(jié)果;
5)重復(fù)步驟1)~4),得到測試集的所有分類結(jié)果,與已有標(biāo)注比對計算正確率。
其中kNN 算法里的距離度量使用的是標(biāo)準(zhǔn)化歐氏距離,設(shè)樣本1 的特征向量為A=(a1,a2,a3,a4,a5),樣本2 的特征向量為B=(b1,b2,b3,b4,b5),si是樣本集的第i維特征值的標(biāo)準(zhǔn)差,其二者距離d(A,B)計算公式如下:
2.4.2 SVM分類模型
SVM算法的步驟如下所示:
輸入:特征向量表示的氧泵轉(zhuǎn)速訓(xùn)練樣本集、測試樣本集;
輸出:測試樣本集的SVM分類結(jié)果正確率。
1)構(gòu)建SVM優(yōu)化函數(shù);
2)使用SMO 算法基于訓(xùn)練集求解SVM 模型的二分類分界面參數(shù);
3)對某測試樣本,通過已建立模型計算得到分類值;
4)如果分類值大于0,則判定該測試樣本屬于第1 類,否則屬于第二類;
5)重復(fù)步驟3)~4),得到測試集所有分類結(jié)果,與標(biāo)注并比對計算正確率。
設(shè)訓(xùn)練樣本數(shù)量為n,特征矩陣為X=(x1,x2,…,xn),標(biāo)簽向量為Y=(y1,y2,…,yn),求解滿足式(2)中優(yōu)化函數(shù)的W和b,即可得到SVM的超分類平面XTW+b=0。
待研究對象是YF-77 型發(fā)動機氧泵轉(zhuǎn)速,其樣本規(guī)模較小,是目標(biāo)領(lǐng)域;遷移領(lǐng)域是YF-75 型發(fā)動機氧泵轉(zhuǎn)速樣本集,其規(guī)模較大。首先以傳統(tǒng)的包絡(luò)法為比較對象,驗證kNN和SVM(本文使用的訓(xùn)練集與測試集均為噪聲較大的飛行實戰(zhàn)數(shù)據(jù),復(fù)現(xiàn)的SVM 實驗精度略低于文獻(xiàn)[9]中采用仿真和試車數(shù)據(jù)的結(jié)果)算法在大樣本數(shù)據(jù)集中確實有優(yōu)于包絡(luò)法的表現(xiàn),見對照實驗1 和2;然后觀察這兩個算法在小樣本領(lǐng)域是否優(yōu)于包絡(luò)法,見對照實驗3和4,如果并不優(yōu)于,再使用遷移方法,觀測實驗5和6對比遷移是否有效。
在具體的遷移方法上,本文使用了基于實例、基于模型的遷移,其流程如圖4所示。實例遷移是將YF-75發(fā)動機氧泵轉(zhuǎn)速的樣本實例作為信息,在YF-77 模型建立前作為異常檢測分類模型的數(shù)據(jù)輸入;模型遷移是將YF-75 已經(jīng)建立好的異常檢測分類模型作為信息,傳遞給YF-77領(lǐng)域使用;最終都需要通過測試集對比結(jié)果計算性能。
圖4 基于實例和基于模型的遷移學(xué)習(xí)流程Fig.4 Flowcharts of transfer learning based on instance and transfer learning based on model
圖5 直觀地展示了實驗設(shè)置與流程,表4 和表5 詳細(xì)介紹了各實驗組的內(nèi)容。為了通過對比檢驗遷移策略的有效性,需要設(shè)定能夠合理評價模型異常檢測性能的標(biāo)準(zhǔn)。
圖5 實驗設(shè)置與流程Fig.5 Experimental setting and process
為了更完備地發(fā)現(xiàn)所有異常狀態(tài),希望評估系統(tǒng)首先盡量不遺漏任何可能的異常,同時不應(yīng)隨意提示異常,否則會導(dǎo)致下一步耗費大量人工篩選成本。因此實驗以漏報率(Missing_Alarm)和誤報率(False_Alarm)作為“異常狀態(tài)篩選性能”的評判指標(biāo)。
假設(shè)有NN個類別為Normal(正常)的樣本被分類為Normal,有AN個類別為Normal 的樣本被分類為Abnormal;有AA個類別為Abnormal(異常)的樣本被分類為Abnormal,有NA個類別為Abnormal的樣本被分類為Normal,漏報率和誤報率的計算公式分別如下:
漏報率計算多少異常樣本被模型遺漏,誤報率關(guān)注多少正常樣本被模型誤認(rèn)為異常。理想情況下,這兩個指標(biāo)都等于零,但實際中二者是很難同時降低的,漏報率的降低一般帶來誤報率的增長,誤報率的降低往往導(dǎo)致漏報率的增長。綜上,對于火箭發(fā)動機而言,一個好的參數(shù)異常檢測系統(tǒng),應(yīng)首先滿足低漏報率,再盡量滿足低誤報率。
表4 包絡(luò)法與無遷移機器學(xué)習(xí)在不同規(guī)模數(shù)據(jù)集上的實驗設(shè)置對比Tab.4 Experimental setting comparison of envelope method and traditional machine learning on different scale datasets
表5 包絡(luò)法、無遷移機器學(xué)習(xí)和遷移學(xué)習(xí)在目標(biāo)領(lǐng)域上的實驗設(shè)置對比Tab.5 Experimental setting comparison of envelope method,traditional machine learning and transfer learning in target domain
實驗結(jié)果如表6 和表7 所示,通過觀察對比,由表6 可得到:
1)在包絡(luò)法中,當(dāng)數(shù)據(jù)量增多時,誤報率會降低,但漏報率會增長,說明隨著標(biāo)注正常樣本的增多,包絡(luò)上限會升高,包絡(luò)下限會降低,導(dǎo)致可能更多的異常樣本被包絡(luò)涵蓋。
2)當(dāng)數(shù)據(jù)規(guī)模較大時,無遷移kNN、SVM 方法的漏報率(10.23%、12.50%)、誤報率(9.97%、9.31%),分別低于包絡(luò)法的漏報率(59.09%)、誤報率(26.88%),說明提取的特征向量可以較好體現(xiàn)正常樣本與異常樣本的區(qū)別。
3)當(dāng)數(shù)據(jù)規(guī)模較小時,無遷移kNN、SVM 方法的漏報率(58.33%、41.67%)和誤報率(41.67%、60.83%),都比數(shù)據(jù)規(guī)模較大時相應(yīng)地要高,說明無遷移的kNN、SVM方法受制于數(shù)據(jù)規(guī)模,當(dāng)數(shù)據(jù)集較小時難以發(fā)揮效果。
4)即使表現(xiàn)最好的對照實驗2,依然存在漏報和誤報的樣本,觀察每次kNN、SVM 的漏報和誤報樣本,都處在決策邊界附近,說明當(dāng)前提取的特征未能完美區(qū)分出一些特殊樣本,后續(xù)實驗可以嘗試通過修改特征權(quán)重調(diào)整決策邊界。
由表7可以得到:
5)觀測實驗5 的漏報率(14.00%、18.00%)和觀測實驗6的漏報率(12.50%、25.00%),都低于對照實驗3、4 漏報率的最小值(33.33%);觀測實驗5 的誤報率(17.68%、13.53%)和觀測實驗6的誤報率(22.22%、14.29%),都低于對照實驗3、4誤報率的最小值(41.67%);說明基于實例和基于模型的遷移策略都能提高kNN、SVM模型的分類性能。
6)兩個遷移學(xué)習(xí)組的漏報率和誤報率都略高于YF-75 的無遷移機器學(xué)習(xí)組,且基于實例的kNN 和SVM 表現(xiàn)略優(yōu)于基于模型的相應(yīng)方法。對于模型遷移而言,可能是沒有調(diào)整參數(shù),下一步可以比較調(diào)整不同參數(shù)對模型遷移的影響;對于實例遷移而言,原因可能是目標(biāo)領(lǐng)域和遷移領(lǐng)域樣本使用的是相同權(quán)重,下一步可以比較調(diào)整不同權(quán)重對實例遷移的影響。
7)觀測實驗5和6同樣存在漏報和誤報的樣本,其原因可能包括特征權(quán)重,以及遷移過程中的樣本權(quán)重或者模型參數(shù)。
表6 包絡(luò)法與無遷移機器學(xué)習(xí)在不同規(guī)模數(shù)據(jù)集上的實驗結(jié)果對比Tab.6 Experimental result comparison of envelope method and traditional machine learning on different scale datasets
表7 包絡(luò)法、無遷移機器學(xué)習(xí)和遷移學(xué)習(xí)在目標(biāo)領(lǐng)域上的對比實驗結(jié)果Tab.7 Experimental result comparison of envelope method,traditional machine learning and transfer learning in target domain
由實驗結(jié)果分析可以得出結(jié)論:
1)包絡(luò)法在不同量級樣本的領(lǐng)域中都具有局限性;
2)無遷移的機器學(xué)習(xí)方法適合大樣本集的參數(shù)異常檢測,而在小樣本領(lǐng)域具有局限性;
3)在數(shù)據(jù)量較少的YF-77 型發(fā)動機小樣本領(lǐng)域,經(jīng)過時間對齊、數(shù)據(jù)歸一化得到樣本,經(jīng)過特征空間構(gòu)建得到特征向量后,使用基于實例遷移的kNN、SVM機器學(xué)習(xí)方法對氧泵轉(zhuǎn)速建立分類模型,在測試集的漏報率相比無遷移的kNN、SVM分別降低了44.33 個百分點、23.67 個百分點,平均34.00 個百分點,誤報率分別降低了23.99個百分點、47.30個百分點,平均35.64 個百分點;使用基于模型遷移的kNN、SVM 建立的模型,在測試集的漏報率相比無遷移的kNN、SVM分別降低了45.83 個百分點、16.67 個百分點,平均31.25 個百分點,誤報率分別降低了19.45 個百分點、46.54 個百分點,平均32.99個百分點。圖6 使用直方圖更加直觀展示了實驗結(jié)果,兩種遷移方法都比相應(yīng)無遷移的方法,在漏報率和誤報率上降低了30個以上的百分點,模型性能得到較顯著的提升。
圖6 無遷移、基于遷移的分類模型漏報率和誤報率Fig.6 Missing and false alarm rates of classification models without and based on transfer
本文探索了YF-75 與YF-77 兩型氫氧發(fā)動機之間的共性知識及可遷移性,通過構(gòu)建合適的特征空間,采用實例遷移和模型遷移的方法,以YF-75、YF-77 型發(fā)動機啟動過程氧泵轉(zhuǎn)速數(shù)據(jù)集為例,通過設(shè)置四組實驗有效驗證了相比包絡(luò)法和無遷移對照,遷移對照組的kNN、SVM分類器在異常檢測的精度上得到極大提高。
雖然驗證了遷移的有效性,但仍存在如下問題亟待解決:
1)目前只關(guān)注單個參數(shù)的異常檢測,而沒有對發(fā)動機的狀態(tài)進(jìn)行評估,發(fā)動機狀態(tài)是由多個參數(shù)聯(lián)合決定的,因此需要采用分層的方式提取特征,下一步將嘗試在遷移的前提下利用神經(jīng)網(wǎng)絡(luò)來解決這一問題。
2)不同參數(shù)之間存在各類關(guān)聯(lián),例如因果、并發(fā)、冗余關(guān)系,下一步試圖通過關(guān)聯(lián)規(guī)則挖掘來獲得參數(shù)間的關(guān)聯(lián)關(guān)系,進(jìn)一步從數(shù)據(jù)的角度去發(fā)掘發(fā)動機技術(shù)特點。
3)遷移的內(nèi)容還包括特征向量、特征權(quán)重、參數(shù)權(quán)重、參數(shù)關(guān)系等,下一步將研究特征、關(guān)系的遷移學(xué)習(xí)對目標(biāo)領(lǐng)域的建模影響。