戴婧睿,吳 奇, 仁 和,裘旭益
(1.上海交通大學(xué)航空航天學(xué)院,上海 200240; 2.中國商用飛機(jī)有限責(zé)任公司,上海 200241;3.中國航空無線電電子研究所,上海 200233)
基于深度置信網(wǎng)絡(luò)的QAR飛行數(shù)據(jù)特征提取分析
戴婧睿1,吳 奇1, 仁 和2,裘旭益3
(1.上海交通大學(xué)航空航天學(xué)院,上海 200240; 2.中國商用飛機(jī)有限責(zé)任公司,上海 200241;3.中國航空無線電電子研究所,上海 200233)
民航飛機(jī)的快速存取記錄儀(QAR)在飛行過程中記錄了大量的飛行參數(shù),QAR數(shù)據(jù)是飛行安全評估的重要依據(jù)。針對QAR數(shù)據(jù)大樣本、高維度的特點,提出了一種有效的飛行數(shù)據(jù)特征提取的高效算法——DBN算法。DBN優(yōu)勢在于其能夠擺脫對大量數(shù)據(jù)處理技術(shù)與專家經(jīng)驗的依賴而對飛行數(shù)據(jù)進(jìn)行特征提取。在不同類別飛行數(shù)據(jù)集上進(jìn)行仿真實驗,結(jié)果顯示與主成分分析法(PCA)相比,通過DBN提取的特征進(jìn)行分類識別準(zhǔn)確率更高。
飛行數(shù)據(jù); QAR; 數(shù)據(jù)分析; DBN模型; 特征提取
自從人類造出飛行器,航空安全一直是人們關(guān)注的話題。為了飛行安全,中國民航局強(qiáng)制要求國內(nèi)航空公司必須安裝快速存取記錄器(Quick Access Recorder,QAR),可以記錄飛行過程中一系列參數(shù)。通過QAR數(shù)據(jù)的分析,可以實現(xiàn)飛行品質(zhì)監(jiān)控、飛行過程可視化仿真和事故調(diào)查[1]等功能。
QAR飛行數(shù)據(jù)具有高維度以及大樣本的特征,QAR數(shù)據(jù)的高維度是因為其記錄了幾百個飛行參數(shù),而樣本大是因為QAR數(shù)據(jù)一次飛行可以連續(xù)記錄100 h以上數(shù)據(jù)。所以針對QAR高維以及樣本大的特征,在飛行數(shù)據(jù)分析之前需要進(jìn)行特征提取。
主成分分析(Principal Component Analysis,PCA)方法作為一種特征提取技術(shù),廣泛應(yīng)用于工業(yè)與科學(xué)領(lǐng)域[2]。文獻(xiàn)[3]將PCA應(yīng)用于無人機(jī)故障檢測與診斷,實現(xiàn)了無人機(jī)飛控系統(tǒng)傳感器的故障檢測和診斷;文獻(xiàn)[4]將PCA應(yīng)用于QAR飛行數(shù)據(jù)特征提取,并且通過分析,相對于正常飛行數(shù)據(jù),研究異常飛行數(shù)據(jù)特點。PCA算法可以有效地找出數(shù)據(jù)中最“主要”的元素,即可以提取對應(yīng)于數(shù)據(jù)方差最大方向的變量(即主成分),去除原始數(shù)據(jù)的噪音以及冗余。但是PCA對飛行數(shù)據(jù)進(jìn)行特征提取的時候有其無法克服的缺點:1) PCA將所有的樣本作為一個整體來對待,而數(shù)據(jù)方差較小的方向也會包含重要信息;2) PCA是一個無監(jiān)督的數(shù)據(jù)特征提取算法,當(dāng)原始數(shù)據(jù)樣本需要進(jìn)行識別分類的時候,無法提取不同類別樣本之間的差異性特征;3) PCA為線性分析方法,而對于非線性飛行數(shù)據(jù)特征提取效果不佳。
為了解決以上問題,本文將引入深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)作為飛行數(shù)據(jù)特征提取方法[5-6]。而深度置信網(wǎng)絡(luò)具有強(qiáng)大的特征提取能力,可以解決數(shù)據(jù)特征提取、故障檢測與分類等問題。DBN特征提取技術(shù)相對于傳統(tǒng)的PCA特征提取技術(shù)具有以下優(yōu)點:1) DBN可以自動從原始信號提取特征,減少了對專家經(jīng)驗與信號特征提取技術(shù)的依賴,減少了人工提取特征的不確定性;2) DBN是一個深度網(wǎng)絡(luò)模型,十分適合飛行數(shù)據(jù)的大樣本、高維、非線性數(shù)據(jù)的特點;3) 由于DBN是深層的網(wǎng)絡(luò),通過多層的特征提取,可以弱化上層網(wǎng)絡(luò)的錯誤特征;4) DBN是一個有監(jiān)督的特征提取方法,即可以提取不同類別數(shù)據(jù)的差異性特征,為分析不同類型的數(shù)據(jù)樣本提供了有效的特征提取技術(shù)。由于DBN是一個深度結(jié)構(gòu),需要大量的樣本進(jìn)行訓(xùn)練來確定網(wǎng)絡(luò)模型,本文將DBN應(yīng)用于QAR飛行數(shù)據(jù)的特征提取,與PCA特征提取技術(shù)進(jìn)行對比,并在不同類別飛行數(shù)據(jù)集上進(jìn)行仿真實驗,結(jié)果顯示與PCA特征提取技術(shù)相比,通過DBN提取的特征進(jìn)行分類識別準(zhǔn)確率更高。
深度置信網(wǎng)絡(luò)是成功地融合了深度學(xué)習(xí)與特征學(xué)習(xí)的多層神經(jīng)網(wǎng)絡(luò)。若干層無監(jiān)督的限制玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)與一層有監(jiān)督的反向傳播網(wǎng)絡(luò)(Back-Propagation,BP)組成了深度學(xué)習(xí)中的一種網(wǎng)絡(luò)模型,即DBN,其結(jié)構(gòu)見圖1。
圖1 DBN結(jié)構(gòu)圖Fig.1 Structure of DBN
DBN的訓(xùn)練過程分為兩步:1) 分別由低層到高層無監(jiān)督地訓(xùn)練每層RBM,使特征向量映射到不同特征空間的時候能夠保留盡可能多的原始特征信息[7];2) 在最頂層利用BP網(wǎng)絡(luò)模型對這個網(wǎng)絡(luò)進(jìn)行有監(jiān)督的訓(xùn)練,微調(diào)整個網(wǎng)絡(luò)模型,得到DBN的最優(yōu)參數(shù)。DBN模型通過將RBM結(jié)構(gòu)與BP結(jié)構(gòu)相結(jié)合提高了整個網(wǎng)絡(luò)的性能。通過RBM網(wǎng)絡(luò)可以初始化DBN模型的參數(shù),但是RBM網(wǎng)絡(luò)只能保證DBN模型各個層內(nèi)的特征映射達(dá)到最優(yōu),卻不能保證整個DBN模型內(nèi)可以達(dá)到特征映射最優(yōu),即RBM學(xué)習(xí)到的是普遍的概念化特征。對于多類數(shù)據(jù)特征提取,RBM網(wǎng)絡(luò)不可以針對某一類數(shù)據(jù)提取最優(yōu)特征,只可以提取普遍化特征,因此頂層需要有一個監(jiān)督的學(xué)習(xí)對整體結(jié)構(gòu)進(jìn)行優(yōu)化。所以在DBN模型的訓(xùn)練過程中,需要利用BP網(wǎng)絡(luò)模型有監(jiān)督地訓(xùn)練最頂層的模型,可以將RBM提取到的特征進(jìn)行分類,同時可以微調(diào)整體DBN模型,將錯誤的信息返回到RBM網(wǎng)絡(luò)模型中,微調(diào)RBM網(wǎng)絡(luò)的參數(shù),使DBN模型的參數(shù)達(dá)到最優(yōu),進(jìn)而提取不同類別數(shù)據(jù)的差異性特征。
限制玻爾茲曼機(jī)(RBM)是DBN模型的重要模塊之一,也是波爾茲曼機(jī)的一種特殊形式[8]。如圖2所示,RBM網(wǎng)絡(luò)一般由兩層組成,第一層為可見層,第二層為隱藏層。
圖2 RBM結(jié)構(gòu)Fig.2 Structure of RBM
RBM網(wǎng)絡(luò)中,下層是由n個可見節(jié)點組成的可視層,上層是由m個隱藏節(jié)點組成的隱藏層,也是特征提取層。b=(b1,b2,…,bn)為可視層的可見節(jié)點的偏移量,c=(c1,c2,…,cm)為隱藏層的隱藏節(jié)點的偏移量,wn×m是可見節(jié)點與隱藏節(jié)點的權(quán)值矩陣。對于一些確定的網(wǎng)絡(luò),即v,h確定,RBM的能量定義為
(1)
由已知可視層節(jié)點可以得到隱藏層的隱藏節(jié)點值,算式為
(2)
同樣地,由已知的隱藏層節(jié)點也可以得到可視層的節(jié)點值,即
(3)
本質(zhì)上,RBM網(wǎng)絡(luò)是根據(jù)一個給定的輸入信號v=(v1,v2,…,vn),根據(jù)網(wǎng)絡(luò)輸出對應(yīng)的隱藏的特征向量h=(h1,h2,…,hm),使聯(lián)合概率p(v,h)最大。聯(lián)合概率p(v,h)滿足
p(v,h)∝exp(-E(v,h))=ehTWv+bTv+cTh。
(4)
RBM網(wǎng)絡(luò)預(yù)訓(xùn)練通過逐層訓(xùn)練多層RBM獲得穩(wěn)定的網(wǎng)絡(luò)結(jié)構(gòu)??梢酝ㄟ^最大化訓(xùn)練集的RBM網(wǎng)絡(luò)的對數(shù)似然函數(shù)得到模型參數(shù)θ,即
(5)
通過對每個訓(xùn)練樣本進(jìn)行Gibbs采樣可以得到對應(yīng)樣本,可以得到對數(shù)似然的梯度近似表達(dá)式
(6)
(7)
(8)
但是Gibbs采樣次數(shù)較大,尤其針對飛行高維數(shù)據(jù)時,訓(xùn)練過程的效率十分低下。
2002年,HINTON提出對比散度(CD)快速學(xué)習(xí)方法。通常對比散度快速學(xué)習(xí)方法僅需要k步(一般僅需要1步),Gibbs提高計算速度以及保證計算的精度。參數(shù)更新如下,即
Δwij=ε(〈vihj〉data-〈vihj〉recon)
(9)
Δai=ε(〈vi〉data-〈vi〉recon)
(10)
Δbj=ε(〈hj〉data-〈hj〉recon)
(11)
式中:ε是學(xué)習(xí)速率;〈〉recon為樣本分布的期望,是Gibbs一步采樣初始化數(shù)據(jù)得來的。
利用RBM自訓(xùn)練方法逐層從下到上無監(jiān)督訓(xùn)練RBM結(jié)構(gòu)。
BP神經(jīng)網(wǎng)絡(luò)是一個有監(jiān)督的分類器,在DBN中微調(diào)所有結(jié)構(gòu),使整體達(dá)到最優(yōu)。BP微調(diào)過程主要是利用誤差逆?zhèn)鞑ビ?xùn)練的多層前饋網(wǎng)絡(luò),不斷地通過誤差信號調(diào)整整個網(wǎng)絡(luò),使網(wǎng)絡(luò)達(dá)到整體最優(yōu)。主要為以下兩個步驟:1) 信號從網(wǎng)絡(luò)輸入層逐層傳播到網(wǎng)絡(luò)輸出層,得到網(wǎng)絡(luò)的輸出信號。而其每個神經(jīng)元都有一個激活函數(shù),一般地,為Sigmoid非線性函數(shù)
(12)
式中:xi為神經(jīng)元i的激活值,yi為神經(jīng)元i的輸出值;2) 通過網(wǎng)絡(luò)輸出值與標(biāo)準(zhǔn)值對比得到誤差信號,將信號從輸出層向輸入層逐層傳播,優(yōu)化DBN參數(shù)。
試驗數(shù)據(jù)采用某航空公司兩組不同類別的QAR數(shù)據(jù),為了驗證DBN特征提取技術(shù)的有效性,將DBN與PCA網(wǎng)絡(luò)提取的特征通過分類模型進(jìn)行識別歸類來評估本文提出的模型的有效性。仿真試驗流程如下。
2.1.1 數(shù)據(jù)預(yù)處理
第一組數(shù)據(jù)為同一航線同一機(jī)型在不同天氣條件下的進(jìn)近落地飛行數(shù)據(jù),一類為正常天氣飛行數(shù)據(jù),即天氣晴,能見度大于10 000 m的飛行數(shù)據(jù),樣本容量為300×6160,即共采集300組飛行數(shù)據(jù),每組為6160維飛行數(shù)據(jù);另一類為異常天氣飛行數(shù)據(jù),即雨天,能見度小于5000 m的飛行數(shù)據(jù),樣本容量為300×6160。
第二組數(shù)據(jù)為同一航線同一機(jī)型的不同飛行經(jīng)驗飛行員進(jìn)近落地飛行數(shù)據(jù),一類為飛行小時在10 000 h以上的飛行員的飛行數(shù)據(jù),樣本容量為300×6160;另一類為飛行小時在5000 h以上的飛行員的飛行數(shù)據(jù),樣本容量為300×6160。
將飛行數(shù)據(jù)進(jìn)行歸一化處理。
2.1.2 特征提取
分別采用PCA與DBN模型將飛行數(shù)據(jù)提取到2~10維飛行特征。
DBN模型的結(jié)構(gòu)根據(jù)已有研究以及飛行數(shù)據(jù)特點,本文選擇了有5層DBN模型[9]進(jìn)行仿真試驗。節(jié)點數(shù)為6160-3000-1000-500-2~10,即第1層是網(wǎng)絡(luò)輸入層為6160個節(jié)點,因為飛行數(shù)據(jù)的維數(shù)為6160;第2層為3000個節(jié)點;第3層為1000個節(jié)點;第4層為500個節(jié)點;第5層為2~10個節(jié)點,即DBN的輸出層的節(jié)點為2~10個,可以提取飛行數(shù)據(jù)2~10維特征。以正態(tài)隨機(jī)分布初始化DBN模型,其閾值初始化為0。RBM最大迭代次數(shù)為200,學(xué)習(xí)率為0.15,動量參數(shù)為0.95。
同樣的,采用PCA算法將飛行數(shù)據(jù)提取到2~10維特征數(shù)據(jù)。
2.1.3 分類模型
用高斯過程分類器進(jìn)行分類,核函數(shù)選用高斯核函數(shù)[10]。采用k折交叉模型對數(shù)據(jù)集進(jìn)行訓(xùn)練,k=5,將數(shù)據(jù)隨機(jī)分為5組,進(jìn)行5折交叉驗證,使用4組訓(xùn)練高斯模型,剩下1組進(jìn)行驗證高斯模型的分類結(jié)果的精度。反復(fù)進(jìn)行5次,取分類準(zhǔn)確度的平均值。
為了驗證模型正確性, 利用64 位Windows10 操作系統(tǒng),仿真軟件Matlab2015a構(gòu)建試驗環(huán)境。首先將兩組數(shù)據(jù)分別進(jìn)行PCA與DBN特征提取,提取到2~10維,將PCA與DBN提到3維的特征進(jìn)行可視化,圖3、圖4所示為通過高斯分類器之前典型的特征數(shù)據(jù)。
圖3 第1組數(shù)據(jù)的不同提取特征方法結(jié)果比較Fig.3 Feature extraction results of different methods on first set of data
圖4 第2組數(shù)據(jù)的不同特征提取方法結(jié)果比較Fig.4 Feature extraction results of different methods on second set of data
從圖中可以看到,PCA提取第1組與第2組數(shù)據(jù)的特征不同類型的交叉重疊在一起的特征點較多,相互交錯難以區(qū)分。從圖3a與圖4a可以看出,因為DBN最后一層是有監(jiān)督的BP網(wǎng)絡(luò),可以很好地提取兩類數(shù)據(jù)的差異性特征。通過DBN提取出來的特征,同一類別的特征有效地聚在一起,不同類別的特征有少量重疊,但是也可以很好地區(qū)分開來。把由PCA提取的特征圖與由DBN提取的特征圖對比可知,DBN可以自適應(yīng)地從原始飛行參數(shù)提取兩類數(shù)據(jù)的差異性大的特征。而為了對比兩類特征提取方法,通過表1、表2分別提取2組數(shù)據(jù)到2~9維特征,且分別計算第1組數(shù)據(jù)第1類、第2類方差與第2組數(shù)據(jù)第1類、第2類方差,可以發(fā)現(xiàn),采用DBN特征提取技術(shù),同類數(shù)據(jù)方差明顯小于采用PCA特征提取的同類數(shù)據(jù)方差。
表1 第1組數(shù)據(jù)分別采用PCA與DBN特征提取的數(shù)據(jù)方差值
為了對比兩種方法的特征提取效果,本文將PCA特征提取后的數(shù)據(jù)與DBN特征提取后的數(shù)據(jù)進(jìn)行分類,采用k折交叉模型對數(shù)據(jù)集進(jìn)行訓(xùn)練,當(dāng)k=5時,將數(shù)據(jù)隨機(jī)分為5組,進(jìn)行5折交叉驗證,使用4組訓(xùn)練高斯模型,剩下1組進(jìn)行驗證高斯模型的分類結(jié)果的精度。反復(fù)進(jìn)行5次,取分類準(zhǔn)確度的平均值。通過表3與圖5可以得到,與通過PCA特征提取后的數(shù)據(jù)對比,不管是第1組數(shù)據(jù)還是第2組數(shù)據(jù),通過采用DBN特征提取的數(shù)據(jù)分類準(zhǔn)確率都高于PCA特征提取后的分類準(zhǔn)確率。在第1組數(shù)據(jù)分類中,DBN特征提取到10維得到了0.912的分類正確率,而PCA提取10維特征只得到了0.811的分類準(zhǔn)確率。在第2組數(shù)據(jù)分類中,DBN提取10維特征數(shù)據(jù)得到了0.922的分類正確率,而PCA提取到10維特征得到了0.791的分類正確率。驗證了所提出的通過DBN對QAR飛行數(shù)據(jù)進(jìn)行特征提取模型的效能。
表2 第2組數(shù)據(jù)分別采用PCA與DBN特征提取后的每類數(shù)據(jù)方差值
表3 兩組數(shù)據(jù)分別采用PCA與DBN特征提取后分類正確率
本文根據(jù)飛行數(shù)據(jù)大樣本高維度的特點提出了一種有效的特征提取技術(shù),該方法可以將飛行數(shù)據(jù)特征提取與分類識別技術(shù)結(jié)合在一起。在真實飛行數(shù)據(jù)集上進(jìn)行仿真試驗,通過DBN提取的特征進(jìn)行分類,其分類準(zhǔn)確度高于基于PCA特征提取技術(shù)的分類準(zhǔn)確度,從而驗證了該算法的有效性。
[1] 孫同江.飛行數(shù)據(jù)的應(yīng)用研究[D].南京:南京航空航天大學(xué),2003.
[2] NAIKAL N,YANG A Y,SASTRY S S.Informative feature selection for object recognition via sparse PCA[C]//IEEE International Conference on Computer Vision,2012:818-825.
[3] 邱宗江,劉慧霞,席慶彪,等.無人機(jī)PCA故障檢測與診斷技術(shù)研究[J].計算機(jī)工程與應(yīng)用,2013,49(4):262-266.
[4] LI L S,GARIEL M,HANSMAN R J,et al.Anomaly detection in onboard-recorded flight data using cluster analysis[C]//IEEE/AIAA 30th Digital Avionics Systems Conference (DASC),2011:213-226.
[5] LECUN Y,BENGIO Y,HINTON G E.Deep learning[J].Nature,2015,521(14539):436-444.
[6] HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science, 2006,313(5786):504-506.
[7] SALAKHUTDINOV R,MURRAY I.On the quantitative analysis of deep belief networks[C]//International Conference on Machine Learning,ACM,2008:872-879.
[8] ACKLEY D H,HINTON G E,SEJNOWSKI T J.A learning algorithm for Boltzmann machines[J].Cognitive Science, 1985,9(1):147-169.
[9] BENGIO Y,LAMBLIN P,POPOVICI D.Greedy layer-wise training of deep networks[C]//NIPS'06:Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems,Cambridge:MIT Press,2007:53-160.
[10] RASMUSSEN C E.Gaussian processes in machine learning[M].Berlin:Springer Berlin Heidelberg,2004.
DBNBasedFeatureExtractionforFlightDataofQuickAccessRecorder
DAI Jing-rui1, WU Qi1, REN He2, QIU Xu-yi3
(1.School of Aeronautics and Astronautics,Shanghai Jiao Tong University,Shanghai 200240,China; 2.Commercial Aircraft Corporation of China,Shanghai 200241,China; 3.China Aeronautical Radio Electronics Research Institute,Shanghai 200233,China)
A great number of flight parameters are recorded by the Quick Access Recorder (QAR) equipped on civil aircrafts.QAR data is an important criterion for flight safety assessment.Aiming at large-sample and high-dimension features of flight data from QAR,this paper proposes an effective feature extraction algorithm,Deep Belief Network (DBN) algorithm.The DBN algorithm can adaptively extract the features of flight data independent of data-processing technologies and expert experiences.Simulations of different types of flight data sets are carried out.The simulation results show that,compared with the PCA algorithm,the accuracy of classification and identification of features extracted by DBN model is higher.
flight data; QAR; data analysis; DBN model; feature extraction
戴婧睿,吳奇,仁和,等.基于深度置信網(wǎng)絡(luò)的QAR 飛行數(shù)據(jù)特征提取分析[J].電光與控制,2017,24 ( 11) : 78-82.DAI J R,WU Q,REN H,et al.DBN based feature extraction for flight data of quick access recorder[J].Electronics Optics & Control,2017,24( 11) : 78-82.
2016-11-23
2017-01-21
國家自然科學(xué)基金(61671293);上海浦江計劃人才(15PJ 1404300)
戴婧睿(1991 —),女,陜西西安人,碩士生,研究方向為航空數(shù)據(jù)智能處理。
V271.1
A
10.3969/j.issn.1671-637X.2017.11.016