樊新海,石文雷,張傳清
(陸軍裝甲兵學(xué)院 車輛工程系, 北京 100072)
在現(xiàn)代戰(zhàn)爭中,戰(zhàn)場目標(biāo)聲識別技術(shù)發(fā)揮著越來越重要的作用,對坦克、裝甲車等典型戰(zhàn)場目標(biāo)的發(fā)聲機理進(jìn)行分析并進(jìn)行聲識別具有重要意義[1-2]。聲識別和語音識別具有一定相似性,因此,語音識別模型的構(gòu)建方法對戰(zhàn)場聲識別具有一定的借鑒意義[3]?;诼暤滥P偷木€性預(yù)測倒譜系數(shù)(Linear Prediction Cepstral Coefficients,LPCC)是線性預(yù)測系數(shù)(Linear Prediction Coefficients,LPC)在倒譜域的表示,是一種語音信號處理中常用的特征參數(shù)[4]。傳統(tǒng)的LPCC只能反映聲信號的靜態(tài)特征,動態(tài)線性預(yù)測倒譜系數(shù)(Dynamic Linear Prediction Cepstral Coefficients,DLPCC)能夠同時反映信號的靜態(tài)和動態(tài)特征。極限學(xué)習(xí)機[5-6](Extreme Learning Machine,ELM)是2004年GuangBin Huang等提出的一種新型學(xué)習(xí)算法,具有訓(xùn)練速度快、泛化能力強、分類性能好等特點。LPCC與ELM在工程器械聲識別中均取得了較好的識別效果[7-8]。
本文中將LPCC以及能夠反映聲信號動態(tài)特性的DLPCC作為裝甲車輛噪聲的特征參數(shù),分別輸入到ELM分類器中,證明DLPCC能更好地反映信號特性。運用單變量分析法對ELM的核心參數(shù)進(jìn)行分析,得到最優(yōu)值,進(jìn)而得到基于DLPCC與ELM的最優(yōu)聲識別模型。將DLPCC分別輸入到ELM、BP神經(jīng)網(wǎng)絡(luò)、PNN 3種分類器中,證明ELM分類器具有更高的準(zhǔn)確率,驗證了模型的有效性。
本文中選取典型的4種履帶式裝甲車及3種坦克為識別對象,主要采集車輛原地發(fā)動以及在正常路況下行駛產(chǎn)生的噪聲,采集距離為3~5 m。采集噪聲以發(fā)動機排氣噪聲為主,夾雜履帶與地面的沖擊噪聲。根據(jù)裝甲裝備特點可知,坦克以及履帶式裝甲車的動力裝置均為四沖程內(nèi)燃機,發(fā)動機排氣噪聲爆發(fā)頻率與發(fā)動機轉(zhuǎn)速具有如下關(guān)系[9]:
(1)
式中:n為發(fā)動機轉(zhuǎn)速(r/min);z為發(fā)動機氣缸數(shù)。
在信號采集過程中,坦克及裝甲車的最高轉(zhuǎn)速均不超過3 000 r/min,由式(1)可知其排氣噪聲理論爆發(fā)頻率在幾百赫茲。裝甲車輛在行駛時產(chǎn)生的履帶沖擊噪聲經(jīng)理論分析頻帶較寬,一般小于4 kHz。結(jié)合以上因素,將噪聲信號的采集參數(shù)設(shè)置為:采樣頻率8 kHz,采樣點數(shù)32 768,采樣時間4.096 s。
根據(jù)車輛的具體行駛狀況,采集每種車型如表1所示多種工況下的噪聲信號。其中,A、B、C、D分別代表I、II、III、IV型裝甲車,E、F、G分別代表I、II、III型坦克;高轉(zhuǎn)速范圍1 300~1 600 r/min,中轉(zhuǎn)速范圍1 000~1 300 r/min,低轉(zhuǎn)速范圍800~1 000 r/min。
表1 噪聲采集車型及其采集工況
將采集的噪聲信號進(jìn)行時域和頻譜分析,由以I型裝甲車和II型坦克為代表的目標(biāo)噪聲信號波形和功率譜可知(見圖1),在時域上,噪聲波形具有一定的差異性,但不夠明顯,可能由于裝甲車輛底盤構(gòu)造的相似性;在頻域上,不同車輛噪聲信號各個頻段的能量不同,能量集中分布的頻率段有明顯的區(qū)別,且影響較大的共振峰個數(shù)在8~10個不等??梢钥闯觯煌b甲裝備噪聲信號共振峰分布頻率不同,由于線性預(yù)測倒譜系數(shù)能夠反映發(fā)聲模型并且與共振峰相關(guān),因此,LPCC以及DLPCC可以作為典型裝甲裝備噪聲信號的特征參數(shù)。
圖1 I型裝甲車和II型坦克噪聲信號及其功率譜
在語音識別中,把人的語音聲道視為由多個不同截面積的管子串聯(lián)而成的系統(tǒng)加以研究[10]。在裝甲車輛噪聲識別中,發(fā)動機罩至車身底部之間的空間,相當(dāng)于一個諧振腔或濾波器,傳播路徑也可以近似看成聲道模型?;谧曰貧w模型(AR)的LPCC采用與聲道濾波器定相符合的全極點模型的濾波器[11],可以較好地體現(xiàn)噪聲信號特性。
傳統(tǒng)的LPCC只提取出了聲信號的靜態(tài)特性,聲信號具有短時非平穩(wěn)的特點,需要動態(tài)特征體現(xiàn)。在LPCC基礎(chǔ)上增加一階、二階差分系數(shù) ΔLPCC和ΔΔLPCC,可以得到LPCC+ΔLPCC和LPCC+ΔLPCC+ΔΔLPCC等兩種DLPCC,它們能夠同時提取出信號的靜態(tài)與動態(tài)特征。噪聲信號動態(tài)信息可以反映裝甲裝備噪聲信號隨時間的變化規(guī)律,動靜結(jié)合能夠提高噪聲的識別率。
差分系數(shù)提取過程如圖2所示。
圖2 LPCC差分系數(shù)提取流程
DLPCC提取步驟如下:
1) 預(yù)加重。聲音信號的能量會隨著頻率的增加呈指數(shù)級衰減,預(yù)加重可以提升高頻能量水平,增強信號頻譜的平滑性。預(yù)加重由數(shù)字濾波器H實現(xiàn):
H(z)=1-αz-1
(2)
式中,α為預(yù)加重因子,取值范圍0.93~0.97,本文取0.931 5。
2) 分幀。利用聲信號的短時平穩(wěn)性,對信號進(jìn)行分割。設(shè)置10~40 ms時間長度的數(shù)據(jù)點作為幀長,選取幀長的20%~60%作為幀移。
3) 加窗。為了減小吉布斯效應(yīng)引起的端點處信號的不連續(xù)性,用Hamming窗與每一幀長度為N的信號相乘,窗函數(shù)公式:
(3)
4) 線性預(yù)測分析(LPC)。線性預(yù)測分析假定聲音的性質(zhì)取決于聲道的形狀。根據(jù)參數(shù)模型功率譜的思想,可以將聲信號看作是由一個輸入序列激勵一個全極點的系統(tǒng)而產(chǎn)生的輸出。將預(yù)處理后的信號x(m)輸入到如式下式所示基于聲道的全極點濾波器H(z)中。
(4)
其中,G是濾波器的增益系數(shù),αk是自回歸系數(shù)的線性預(yù)測系數(shù)(LPC)系數(shù),p是濾波器的階數(shù),本文取為12。
5) 求解增益系數(shù)G和線性預(yù)測系數(shù)αk。利用自相關(guān)的方法可以有效地估計出增益系數(shù)G和線性預(yù)測系數(shù)αk。根據(jù)每一幀信號得出的自相關(guān)方程,可以得到矩陣:
(5)
其中,R為加窗語音幀的自相關(guān)函數(shù)。
全極點濾波器的增益G可以由下式得出
(6)
式(3)中的矩陣方程是一個Toeplitz矩陣,采用Levinson-Durbin遞歸算法來求解[10],求解過程如下:
(7)
(8)
當(dāng)上述方程完成p次迭代時,可以得到如下所示的αk和G的解集:
(9)
(10)
6) 倒譜分析。將式(6)中得到的αk和G按照式(11)所示的遞推關(guān)系進(jìn)行計算,將n取為12,即可得12維的LPCC。
(11)
7) 獲取差分系數(shù)。為了獲取信號動態(tài)信息,取LPCC的一階差分ΔLPCC作為一組新的特征分量,維數(shù)為12。ΔLPCC計算公式為:
(12)
式中:C(n+i)為一幀信號的LPCC;D(n)為ΔLPCC,由LPCC中當(dāng)前兩幀和后兩幀系數(shù)的線性組合實現(xiàn);K為常數(shù),取值為2。
根據(jù)ΔLPCC計算方法,將公式中C(n+i)換為D(n+i),可得到12維的二階差分系數(shù)D2(n),即ΔΔLPCC。將得到的兩種差分系數(shù)與LPCC進(jìn)行組合,可得到LPCC+ΔLPCC和LPCC+ΔLPCC+ΔΔLPCC兩種DLPCC。
極限學(xué)習(xí)機[5]是一種基于單隱層前饋型神經(jīng)網(wǎng)絡(luò)(Single Hidden Layer Feedforward Neural Networks,SLNFs)的學(xué)習(xí)算法,學(xué)習(xí)方式為無監(jiān)督學(xué)習(xí)。ELM只需對隱含層節(jié)點數(shù)和激勵函數(shù)進(jìn)行設(shè)置,可以實現(xiàn)對輸入權(quán)值和隱含層偏差進(jìn)行隨機賦值[12],直接利用Moore-Penrose廣義逆,即利用求得的最小范數(shù)最小二乘解作為網(wǎng)絡(luò)輸出權(quán)值。
ELM網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、隱含層和輸出層,其神經(jīng)元數(shù)分別為n,l,m。
圖3 ELM網(wǎng)絡(luò)結(jié)構(gòu)
設(shè)有N個訓(xùn)練樣本(xi,ti),其中輸入樣本為xi=[xi1,xi2,…,xin]∈Rn,輸出樣本為ti=[ti1,ti2,…,tim]∈Rm。具有l(wèi)個隱含層節(jié)點和激勵函數(shù)為g(x)的SLFNs輸出為:
j=1,2,…,N
(13)
式中:wi=[wi1,wi2,…,win]T是連接第i個隱含層神經(jīng)元和輸入神經(jīng)元的權(quán)向量;βi=[βi1,βi2,…,βim]T是連接第i個隱含層神經(jīng)元和輸入神經(jīng)元的權(quán)向量;bi是第i個隱含層神經(jīng)元的偏差。
(14)
方程可以簡寫為:
Hβ=T
(15)
式中:
H(w1,w2,…,wL,b1,b2,…,bL,x1,x2,…,xL)=
(16)
(17)
H稱為神經(jīng)網(wǎng)絡(luò)的隱層輸出矩陣,H的第i列表示第i個隱含層節(jié)點關(guān)于x1,x1,…,xn的輸出矩陣。
激勵函數(shù)g(x)無限可微時,輸入連接權(quán)值wi和隱含層節(jié)點偏置bi在訓(xùn)練開始時可隨機設(shè)置,且在訓(xùn)練過程中固定不變,輸出連接權(quán)值β可通過求解式(18)的線性方程組的最小二乘解來獲得。
min||Hβ-T||
(18)
解得β為方程(16)的最小范數(shù)最小二乘解:
β=H+T
(19)
式中,H+是H的Moore-Penrose廣義矩陣。
1) 給定一個訓(xùn)練集(xi,ti)(i=1,2,…,N),激勵函數(shù)為g(x),隱含層節(jié)點數(shù)目為l,隨機產(chǎn)生輸入權(quán)值wi和隱層偏差bi;
2) 計算隱層輸出矩陣H;
3) 由式(19)計算出輸出權(quán)值β。
ELM在對輸入數(shù)據(jù)進(jìn)行訓(xùn)練時,不需要迭代調(diào)整輸入權(quán)值和偏置,降低了訓(xùn)練的復(fù)雜程度,可以明顯提升訓(xùn)練速度。
從每種車型采集的原始噪聲信號中截取長度為1.024 s的信號,作為特征提取的樣本信號。在特征提取過程中,根據(jù)信號的短時平穩(wěn)性,幀長取為32 ms(256點),幀移取為16 ms(128點)。每種車型共提取出LPCC、LPCC+ΔLPCC、LPCC+ΔLPCC+ΔΔLPCC 3種特征參數(shù)各800組。
其中,400組作為訓(xùn)練集,從另外的400組特征參數(shù)中隨機選取200組作為訓(xùn)練集。7種車型的每種特征參數(shù)各自組成一個數(shù)據(jù)集,因此,共得到如表2所示的3種特征數(shù)據(jù)集。
表2 3種數(shù)據(jù)集
由ELM算法原理可知,隱含層神經(jīng)元個數(shù)和激勵函數(shù)的選取會影響ELM的分類性能。運用單變量分析法確定每種數(shù)據(jù)集對應(yīng)ELM中的隱含層神經(jīng)元個數(shù)和以及最優(yōu)激勵函數(shù),通過對比識別效果,得到最優(yōu)聲識別模型。
雖然理論上神經(jīng)元個數(shù)應(yīng)該等于訓(xùn)練樣本數(shù),但是多數(shù)實際操作中,神經(jīng)元個數(shù)遠(yuǎn)小于樣本數(shù)。令l=300,310,320,…,1 000(每次增加10),激勵函數(shù)依次選為Sig函數(shù)、Sin函數(shù)、Hardlim函數(shù)。由于ELM每一次的分類結(jié)果具有較小的浮動,因此,在選擇不同激勵函數(shù)的基礎(chǔ)上,分別進(jìn)行5次試驗,將識別結(jié)果取平均值。將3種數(shù)據(jù)集的特征向量輸入到ELM中,得到訓(xùn)練和測試平均準(zhǔn)確率如圖4所示。
從3種數(shù)據(jù)集的分類結(jié)果可以得出,當(dāng)隱含層神經(jīng)元數(shù)小于600時,ELM的識別率隨著神經(jīng)元個數(shù)的增加而總體呈上升趨勢。其中,以Hanrlim為激勵函數(shù)ELM的識別率上升趨勢較為明顯,但總體識別率較低;以Sig和Sin為激勵函數(shù)ELM的識別率上升幅度小,但總體識別率較高。當(dāng)隱含層神經(jīng)元數(shù)大于600時,3種激勵函數(shù)的識別率總體較為平穩(wěn)。其中,Sig和Sin總體識別率相似,均高于Hardlim,且隨著特征參數(shù)維數(shù)的增加,這種差異也會擴大。但同時也可以看出,當(dāng)輸入特征參數(shù)維數(shù)較低,神經(jīng)元數(shù)量足夠多時,識別過程中Hardlim函數(shù)具有一定的優(yōu)勢。
圖4 3種數(shù)據(jù)集的分類結(jié)果
總體上看,以LPCC+ΔLPCC+ΔΔLPCC為特征參數(shù),隱含層神經(jīng)元數(shù)取為870,以為Sig為激勵函數(shù)的ELM識別率最高,達(dá)到了91.93%,為最優(yōu)的噪聲識別模型。3種特征參數(shù)對應(yīng)的最優(yōu)參數(shù)以及識別率如表3所示。在采用ELM作為分類器的基礎(chǔ)上,作為對比,將數(shù)據(jù)集分別輸入BP神經(jīng)網(wǎng)絡(luò)和PNN中進(jìn)行訓(xùn)練和識別,3種方法的分類結(jié)果如表4所示。由表可知,ELM相比于另外兩種分類器,不僅用時短,而且識別率高,對其中6種車型的識別率均達(dá)到91%以上。
表3 每個數(shù)據(jù)集對應(yīng)的ELM最優(yōu)參數(shù)及識別率
表4 3種方法分類結(jié)果
1) 本文建立了一種以動態(tài)線性預(yù)測倒譜系數(shù)DLPCC為特征值,以ELM為分類器的裝甲車輛聲識別模型,實驗結(jié)果表明,識別準(zhǔn)確率達(dá)到91.93%。
2) 噪聲特征選擇方面,以DLPCC中的LPCC+ΔLPCC+ΔΔLPCC為特征值的ELM識別率高,說明動靜結(jié)合更能體現(xiàn)噪聲信號的特征。
3) 噪聲識別方面,ELM能有效地實現(xiàn)典型裝甲車輛噪聲識別。ELM參數(shù)選擇上,運用變量分析法得到了最優(yōu)神經(jīng)元個數(shù)和激勵函數(shù)類型,有效提高了識別率。