劉文杰,鄒瑛珂,張珊,賈云飛*
(1.東南大學蘇州聯(lián)合研究生院,蘇州 215127;2.南京理工大學機械工程學院,南京 210094)
近年來,隨著中國科技工業(yè)高速發(fā)展,包括核電站、大型水電站、國家級數(shù)據(jù)中心在內(nèi)的各種國家級重大設施的建成極大提高了中國人民的生活水平。但如何在這些敏感關鍵設施周邊使用多種目標檢測手段進行有效的安全預警成為了重要課題。針對人車目標,可以使用其移動所產(chǎn)生的地震動信號特征的不同對其進行識別探測,從而可以采取正確的對應措施以應對兩類不同目標。為達到這一目的,需要一種可靠的特征提取與分類識別算法來對兩個目標進行有效識別。
針對人車地震動信號識別所開展的研究相對較少,成果主要集中在對該類信號進行降噪的研究領域。嚴守靖等[1]利用卡爾曼濾波對該類信號進行有效降噪。但其主要是在瀝青地面進行的,并不適用于野外的應用場景。以經(jīng)驗模態(tài)分解方法(empirical mode decomposition,EMD)為代表的分解算法雖然在該條件下對人車地振動信號的降噪分解表現(xiàn)仍然較好,但分解子信號數(shù)量不可控,并且其容易造成模態(tài)混疊、端點效應等固有缺點,使其不方便應用于實際場景中。為改善該缺陷,李奇等[2]也提出了利用Cubic Hermite插值改進EMD過程的方法,有效抑制了端點效應。但該方法并未解決模態(tài)混疊的問題,且分解出來的子信號數(shù)量不固定,影響實際使用。因此需要使用一種計算量可控,容易應用于實際環(huán)境中的相關算法來應對該種震動數(shù)據(jù)的特征提取。
目前,常用的特征提取方法有:過零點檢測方法[3]、基于線性陣列包絡線偏移疊加的檢測方法、利用小波HHT變換來幫助識別人車信號的方法[4]等。上述傳統(tǒng)算法在面對水泥地面等傳震性好的路面表現(xiàn)較好,但面對野外硬質(zhì)土地條件大都表現(xiàn)不佳,靠人工尋找合適的特征量不太能表征出兩種目標的不同特征。而深度學習算法(deep learning,DL)的提出有效解決了這一問題。該種算法可從復雜數(shù)據(jù)中自動獲取強表征性的特征,因此各種DL算法被運用到了模式識別、信號處理等多個領域。其中,深度自編碼器(stacked auto encoder,SAE)因其對一維信號強大的特征提取能力被廣泛用于信號的特征提取。但由于SAE屬于一種無監(jiān)督學習算法,因此提取出來的特征對分類問題的表征能力較弱,導致其效果不佳,因此需要進行改進。
針對人車地震動信號噪聲較大,且找到合適特征量不易的問題,同時結合野外環(huán)境下采集的人車地震動信號成分復雜,噪聲較大的特點,提出一套完整的信號特征提取與分類算法:首先對希爾伯特變換后所得的包絡信號使用變分模態(tài)分解,并用相關系數(shù)對分解得到的本征模函數(shù)(intrinsic mode function,IMF)信號進行篩選,并將相關度較高的分量加權合成為高信噪比的中間信號,再對中間信號使用提出的改進深度自編碼器——監(jiān)督深度自編碼器(supervised deep auto encoder,SDAE)進行特征提取,使用隨機森林算法來強化算法的泛化能力,以期提高識別的準確率。
由于地震動信號中除了人車地震動有效信號外還包含了大量由于動植物活動和采集設備本身干擾而產(chǎn)生的高頻噪聲信號,因此需要對其進行包絡檢波解調(diào)以提取其較低頻的有效地震動信號。
希爾伯特變換(Hilbert transform,HT)是一種常用的提取信號包絡線的方法。能將低頻信號從被調(diào)制過的信號中解調(diào)出來,是在該變換方法可以看作是一個正交濾波器,可將所有的正頻率分量移相-90°,對負頻率分量移相90°,從而能將一個實信號變換為一個復信號的虛部。通過求解該復信號的幅值即可求得原信號的包絡,將其低頻分量解調(diào)出來[5]。因此常被運用于包絡檢波等領域。
一個實信號x(t)的希爾伯特變換定義為
(1)
(2)
得到該復信號后,通過求其幅值則可得到其復包絡信號為
(3)
該復包絡信號則為較高信噪比的有效信號。
即使原信號的包絡信號已經(jīng)過濾了大多數(shù)的高頻噪聲信號,但仍然保留了能量較高,頻率較低的噪聲信號,導致原信號的包絡信號仍然是一類低信噪比的非線性、非平穩(wěn)信號。針對該類信號一般使用EMD將其分解為多個平穩(wěn)信號后再進行處理。但此方法容易產(chǎn)生波形混疊、端點效應等負面現(xiàn)象,嚴重影響對信號的分解。且由于自身迭代算法的原因,分解得到的IMF信號數(shù)量無法確定,影響該算法在實際場景中的應用。針對以上缺陷,2014年,一種全新的自適應分解方法——變分模態(tài)分解(variational mode decomposition,VMD)[6]被提出,該方法不但可以極大程度緩解EMD的模態(tài)混疊的缺陷,且分解出的IMF分量數(shù)量可以人為設置,以準確分解出不同頻率段的信號,其核心是通過迭代搜索約束變分模型的最優(yōu)解來自動獲取固有模態(tài)函數(shù)的帶寬以及核心頻率,從而按照頻率對信號進行分解。利用其約束變分模型引入二次乘法因子來降低干擾,同時使用拉格朗日乘子法將其轉化為非約束變分問題。最后得到增廣拉格朗日表達式為[7]
(4)
式(4)中:δ(t)為沖激函數(shù),是信號處理基礎函數(shù);f為原始信號;uk為所得模態(tài)函數(shù);ωk為各個模態(tài)中心頻率;α為懲罰因子;λ為拉格朗日因子;?t為對其求時間的導數(shù);K為分解信號的個數(shù);k為第k個分解信號。
最后利用交替方向乘子法迭代更新ωk、uk、λ從而求得該模型的解。由于參數(shù)中有ωk,因此將uk轉化至頻域,最后可得更新公式為[8]
(5)
(6)
(7)
式中:ω為頻率;n為迭代次數(shù)。
為過濾掉信號中含有的噪聲,需要對分解得到的IMF信號與原信號的相關程度進行量化,以篩選出與原信號相關程度最高、在原信號中占有主要成分的IMF信號。因此,使用皮爾森相關系數(shù)ρXY對其進行衡量,可表示為
(8)
通過篩選并進行加權則可得到高信噪比的中間信號,以便進行下一步工作。
自編碼器(auto encoder,AE)結構類似BP神經(jīng)網(wǎng)絡,屬于一種典型的三層結構的神經(jīng)網(wǎng)絡,其結構如圖1[7]所示。
圖1 自編碼器結構[7]Fig.1 Self encoder structure[7]
H=f(WX+b)
(9)
(10)
式中:W為輸入層到隱層的權值向量;Wo為隱層到輸出層的權值向量;Zi為隱層輸出;b為輸入層到隱層的偏置向量;bo為隱層到輸出層的權值向量,以上參數(shù)與隱層都是需要求解的向量集合;f(·)為激活函數(shù)。
由于使用權值和偏置后只能表征輸入層與輸出層的線性關系,因此需要引入激活函數(shù)來加入非線性因素。通常使用sigmoid函數(shù)或tanh函數(shù)。使用的激活函數(shù)為雙曲正切函數(shù),變化敏感區(qū)間較寬,可將信號壓制到[-1,1],導數(shù)值漸進于[0,1],符合人腦神經(jīng)飽和的規(guī)律,與sigmoid函數(shù)相比可以延遲函數(shù)飽和期,可表示為[8]。
(11)
神經(jīng)網(wǎng)絡中用損失函數(shù)衡量網(wǎng)絡輸出與期望輸出的誤差,該處的損失函數(shù)采用均方損失函數(shù),可表示為
(12)
式(12)中:MSE為損失函數(shù)值;n′為維度總數(shù);y′i為網(wǎng)絡輸出向量第i維度的值;yi為網(wǎng)絡輸出向量第i維度的值。
利用損失函數(shù)對W、Wo、b、bo進行反向傳遞更新可表示為
(13)
式(13)中:N為需要調(diào)整的相關參數(shù)(即W、Wo、b、bo);ε為學習率。
利用梯度下降法進行迭代計算,使得期望輸出與網(wǎng)絡輸出無限接近,完成網(wǎng)絡訓練,其隱層向量即為自編碼器所自動提取的特征向量。
由于AE只是一個三層網(wǎng)絡結構,其提取的特征較淺,針對高維輸入向量不能很好地表征其特點。因此需要增加多個隱藏層得到可以提取深層抽象特征的深度模型——深度自編碼器。該深度模型網(wǎng)絡以前一層輸出作為下一層輸入,與單個AE相比,DAE可以深度挖掘數(shù)據(jù)的信息,基于以上功能,其常被運用于各種故障識別、含噪信號降噪、特征提取、數(shù)據(jù)清洗等方面[7],其拓撲圖如圖2所示。
圖2 深度自編碼器結構示意圖Fig.2 Deep self encoder structure
在深度自編碼器中編碼器和解碼器的輸出公式分別為
Zi=f(WeXi+be)
(14)
Zo=f(WoZi+bo)
(15)
式中:We、Wo分別為編碼器和解碼器的隱藏層權重矩陣;be與bo分別為編碼器和解碼器對應偏置向量。訓練完畢后將測試集放入網(wǎng)絡中進行計算,取其編碼特征則可得到信號的特征向量。
由于深度自編碼器屬于一種無監(jiān)督機器學習方式,未能利用到數(shù)據(jù)集中所給出的標簽,因此其提取的特征對該種標簽的表現(xiàn)性不強,進而造成分類效果較差。因此為了在特征中包含數(shù)據(jù)集的標簽以提升分類效果,需要對深度自編碼器進行改進。
為了利用訓練數(shù)據(jù)集中所有的標簽,深度自編碼器的改進型——監(jiān)督深度自編碼器(supervised deep atuo encoder,SDAE)在最后一層輸出層中,加入了標簽神經(jīng)元并對其進行全連接。改進后的深度自編碼器拓撲結構圖如圖3所示。
圖3 監(jiān)督深度自編碼器結構示意圖Fig.3 Supervised Deep self encoder structure
訓練完畢后將待提取特征的數(shù)據(jù)集放入網(wǎng)絡中進行計算,最后取其編碼層則可得到包含標簽信息的高可分度特征向量。
隨機森林(random forest,RF)運用Bagging的思想,對訓練集進行有放回的隨機抽樣生成很多分類樹共同對數(shù)據(jù)進行分類判斷,每個樹都是一個獨立的判斷分支,互相之間彼此獨立。由于其訓練樣本較為獨立,因此生成的每棵樹對特征的關注點各不相同,所形成的隨機森林泛化能力比傳統(tǒng)的支持向量機算法(support vector machines,SVM)強。由于其核心仍是決策樹算法,所以無論是判斷過程還是訓練過程的計算量都較小。其生成過程如下。
步驟1利用Bagging法從原始數(shù)據(jù)集中重采樣有放回地抽取N個數(shù)據(jù)集作為對應決策樹的訓練集。
步驟2生成多棵決策樹。從訓練集評估出最好特征作為當前節(jié)點的分類屬性并分裂成2支。評估方法采用基尼指數(shù)Gini,可表示為[9-10]
(16)
(17)
式中:D為整個訓練集集合;Ck為訓練集中每種樣本的數(shù)目;D1、D2為每個按特征分類的兩種類別集合。
基尼指數(shù)越小代表集合不確定程度越小,取基尼指數(shù)最小的特征作為當前最好特征。
步驟3在分裂處的兩個分支重復步驟2,直到w2樣本全部分類完畢或達到指定生長層數(shù)。
基于所述的特征提取算法計算步驟如下。
步驟1去除數(shù)據(jù)偏置后對數(shù)據(jù)進行希爾伯特變換,獲取其包絡線,對其平滑處理與歸一化并分幀得到數(shù)據(jù)樣本集。
步驟2對樣本集進行VMD分解,求所得IMF信號的相關系數(shù),按照相關系數(shù)的大小加權得到高信噪比中間信號。
步驟3將數(shù)據(jù)集投入監(jiān)督深度自編碼器中進行訓練,用于提取特征向量,再對得到的特征向量使用隨機森林分類算法得到該模型的分類結果。
算法流程圖如圖4所示。
圖4 算法流程圖Fig.4 Algorithm flow
在晴天、低速風(風速不高于3級)、均質(zhì)土壤的環(huán)境中通過美國國家儀器有限公司(National Instruments,NI)采集卡和VAS-100地震動傳感器獲得人車原始信號,采集頻率為1 000 Hz。地震動傳感器插入地表大約20 cm處位置,測試車輛為某品牌SUV,在距離傳感器100 m勻速向著傳感器方向行駛;測試人員為單人,從距離傳感器50 m處向著傳感器方向正常勻速行走。某幀車輛和人員的原始信號如圖5和圖6所示。
圖5 車輛原始信號Fig.5 Vehicle original signal
圖6 人員原始信號Fig.6 Person original signal
由于信噪比較低,因此必須對其進行希爾伯特變換以獲取其包含較純凈人車地震動信號的包絡線。由于包絡線中仍然含有高頻噪音,因此需要使用濾波算法將其濾除。通過觀察可以看出,人行走所產(chǎn)生的沖擊信號是一種類沖擊信號,進行的平滑濾波處理不可以過濾該類信號。考慮到二者性質(zhì),使用滑動平均濾波可使信號平滑的同時保留沖擊信號特征,其濾波公式為
(18)
式(18)中:nf為幀長,nf取1。
將所得到的人車地震動信號分為2 s一幀的樣本集,通過希爾伯特變換并濾波后得到其包絡線如圖7和圖8所示。
圖7 車輛包絡線信號Fig.7 Envelope of vehicle signal
圖8 人員包絡線信號Fig.8 Envelope of person envelope signal
可以看出,人員信號的包絡信號把人行走時腳步落下所產(chǎn)生的信號很好地保留了下來,頻率較低。而車輛信號的包絡線在一幀內(nèi)具有多個波峰且連續(xù),頻率較高。但二者信號仍然含有部分中高頻噪聲。
將所得到的人車地震動信號包絡線分為2 s一幀的樣本集,得到圖9、圖10所得實驗信號。以不同的K值(分解信號數(shù)量值)進行VMD分解,觀察分解所得IMF信號。經(jīng)過實驗分析,當K>4時,利用VMD分解所得到的信號中相關系數(shù)排序前3的IMF信號就可以完整表征車輛的高頻連續(xù)信號特征(IMF1、IMF2、IMF3)。VMD分解所得信號如圖9所示。
圖9 車輛包絡線VMD分解結果Fig.9 VMD decomposition results of vehicle signal’s envelope
圖10 人員包絡線VMD分解結果Fig.10 VMD decomposition results of person signal’s envelope
對于人員信號,需要使K>6,利用相關系數(shù)排序前3的IMF信號(IMF4、IMF2、IMF1)才可得到能夠完整表征人員的低頻連續(xù)信號特征。VMD分解結果如圖10所示。
因此選擇K=6時分解所得到的相關系數(shù)排序前3的IMF信號進行加權得到純凈中間信號。經(jīng)過試驗,由于相關系數(shù)排序第3的IMF信號表征人車信號特征的效果統(tǒng)計意義上劣于排序前2的IMF信號,排序前2的IMF信號效果在不同信號樣本中優(yōu)劣各不相同,針對以上特點得到加權公式為
u(t)=0.4IMF1(t)+0.4IMF2(t)+0.2IMF3(t)
(19)
式(19)中:IMF1(t)、IMF2(t)、IMF3(t)分別為相關系數(shù)排序第1、2、3位的IMF信號分量。
加權得到的人員與車輛信號如圖11、圖12所示。
圖11 VMD加權后人員地震動包絡線信號Fig.11 Personnel ground motion envelope signal after VMD weighting
圖12 VMD加權后車輛地震動包絡線信號Fig.12 Vehicle’s ground motion envelope signal after VMD weighting
可以看出,噪聲分量信號強度得到了較大幅度降低,很好地保留下了人車地震動信號的特點,為后續(xù)提取特征提供了高信噪比的中間信號。
樣本分別投入所提改進型算法與深度自編碼器算法中進行訓練與特征的提取,學習率lr=0.003,訓練輪數(shù)epoch=80,特征編碼維度為64。其網(wǎng)絡構造如圖13所示。
訓練完畢后取第6層作為64維的特征向量。為了驗證提取的特征聚類情況,對提取到的特征進行核主成分分析(kernel principal component analysis,KPCA)[11]將維度為64的特征向量轉化為二維向量將其可視化,兩種算法結果分別如圖14、圖15所示。
數(shù)字表示每一層神經(jīng)元的數(shù)量圖13 監(jiān)督深度自編碼器模型構造Fig.13 Construction of supervised depth self encoder model
藍點為人員信號;紅點為車輛信號圖14 DAE特征提取分布Fig.14 DAE feature extraction distribution
藍點為人員信號;紅點為車輛信號圖15 SDAE特征提取分布Fig.15 HT-SDAE feature extraction distribution
兩種算法特征提取人車信號分布聚散情況比較分明,但監(jiān)督深度自編碼器所得特征更加線性可分,因此SDAE特征可分性更強。但從圖15中可以看出要實現(xiàn)該類數(shù)據(jù)的分類需要使用泛化能力較強的分類器。
將所得的特征編碼、其他傳統(tǒng)方法所得特征量使用隨機森林算法進行訓練并進行測試。車輛訓練樣本數(shù)量為200組,人員訓練樣本數(shù)量為200組,車輛測試樣本數(shù)量為200組,人員測試樣本數(shù)量為200組,測試樣本和訓練樣本相互獨立。并與使用DAE-SVM[12]、SDAE-SVE、DAE-RF算法的測試結果進行對比,對比結果如表1所示。
由表1可知,若不經(jīng)過VMD加權直接使用DAE進行特征提取,識別率較低,而使用VMD加權后由于過濾掉了大多數(shù)的噪聲信號,使后續(xù)提取的特征更能體現(xiàn)數(shù)據(jù)的種類,整體識別率提高了6%。
表1 本文算法與其他算法識別結果比較Table 1 Comparison of recognition results between the proposed algorithm and other algorithms
而在特征提取方面,所提出的監(jiān)督深度自編碼器算法在訓練過程中考慮到了訓練集的標簽,因此所提取出來的特征更具區(qū)分度,和原特征提取算法相比,在未顯著提高識別過程中計算量的同時識別效果更好。
若使用SVM算法[10]作為分類,由于該算法的泛化性能較為平庸,因此針對該類數(shù)據(jù)的分類正確率低于RF算法。而利用同種特征提取算法,采用較高泛化性能的隨機森林算法的實驗中其分類正確率較SVM分類算法有所提升。
針對在野外環(huán)境中對人車地震動信號進行正確識別這一問題,提出了通過希爾伯特變換提取包絡線來實現(xiàn)降噪,并在深度自編碼器的基礎上提出改進型自編碼器——監(jiān)督深度自編碼器對包絡線的特征量進行自動提取。最后使用隨機森林分類算法進行人車識別。通過實驗可得出以下結論。
(1)使用VMD分解得到IMF信號再通過相關系數(shù)選擇加權后生成的中間信號相比于原信號,能夠有效過濾掉頻率相近能量占比較高的噪聲信號,從而較大幅度提高信噪比。
(2)使用的改進深度自編碼器算法相比于未改進的深度自編碼器算法特征針對人車地震動信號的特征提取結果可分性更好,同時計算量并未有顯著提升。
(3)針對人車地震動信號,選用泛化能力強的隨機森林分類算法分類結果優(yōu)于傳統(tǒng)SVM算法。