吳晏辰, 王英民
(西北工業(yè)大學(xué) 航海學(xué)院, 陜西 西安 710072)
水下目標(biāo)識別作為水聲工程的重要技術(shù)領(lǐng)域,一直是海洋軍事和民用的主要研究方向之一。隨著近年來水下軍事目標(biāo)小型化、消聲化,民用目標(biāo)復(fù)雜化、精確化的趨勢不斷加深,對于水下目標(biāo)識別系統(tǒng)的精度和靈敏度都產(chǎn)生了更高的要求[1]。
與傳統(tǒng)的利用基于先驗知識的人工聽音和譜圖等信息進行目標(biāo)識別不同,利用基于深度學(xué)習(xí)的水下目標(biāo)識別系統(tǒng),可以滿足現(xiàn)代海洋作戰(zhàn)、作業(yè)對于目標(biāo)自動識別、快速識別的迫切需求[2]。能夠?qū)崿F(xiàn)這一需求的主要原因在于深度學(xué)習(xí)提取目標(biāo)聲學(xué)信號中的各類特征作為基礎(chǔ),利用信號處理的方法,將多種信號特征通過近年來蓬勃發(fā)展的各類人工智能分類器,以實現(xiàn)自動識別的目的?,F(xiàn)有研究表明,目前利用各種方法所提取的信號特征在用于水下目標(biāo)識別時,在實驗室驗證的效果普遍較好,但在實際水下噪聲環(huán)境中,應(yīng)用性能卻出現(xiàn)了明顯下降[3]。出現(xiàn)這種現(xiàn)象的主要原因在于:一是相較于實驗環(huán)境,實際水下環(huán)境復(fù)雜許多,相應(yīng)的樣本數(shù)量與基于大數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò)所需的量較少;二是在復(fù)雜聲環(huán)境下的信號信噪比不佳,存在多目標(biāo)或強干擾的情況下,容易導(dǎo)致特征提取出現(xiàn)誤差偏離;三是對于目標(biāo)聲信號本質(zhì)的特征提取方法的研究還不夠。
為了研究產(chǎn)生應(yīng)用性差異的原因,本文選擇了2種具有相關(guān)性且有較為明顯差異的特征提取方法。作為目標(biāo)應(yīng)用最廣泛的水聲特征提取方法,梅爾倒譜系數(shù)特征提取方法(Mel-frequency cepstral coefficients,MFCC)可以將聲音信號的實際頻譜轉(zhuǎn)化到感知頻域中進行研究,從而有利于系統(tǒng)模擬人的感知過程,在性能和穩(wěn)健性方面比較符合實際的聽覺效果[4]。而在MFCC基礎(chǔ)上改進的Gammatone頻率倒譜系數(shù)法(Gammatone frequency cepstrum coefficient,GFCC)在保有MFCC優(yōu)點的同時,在水下復(fù)雜聲場環(huán)境中, GFCC較MFCC具有更優(yōu)良的抗噪能力[5]。
2006年Hinton提出了以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)為主體的深度學(xué)習(xí)模型[6]。CNN具有自適應(yīng)尋找最適合分類器的能力,CNN由于采樣層的存在,具有時移不變性的特征[7]。與傳統(tǒng)識別方法相比,CNN通過尋找使識別效果最優(yōu)的參數(shù),使網(wǎng)絡(luò)可以擺脫人工經(jīng)驗的影響,對復(fù)雜的應(yīng)用條件具有更好的適應(yīng)能力。而基于CNN卷積核改進的殘差神經(jīng)網(wǎng)絡(luò)(ResNet),充分利用了神經(jīng)網(wǎng)絡(luò)的函數(shù)擬合特性,對于水下目標(biāo)的輻射信號而言,基于CNN的深度殘差網(wǎng)絡(luò)可以一定程度上獲取常規(guī)特征分析方法難以發(fā)現(xiàn)的隱含關(guān)聯(lián),即作為特征提取器的同時,亦可作為分類器,因此非常適合處理原始水聲信號。
本文給出了一個面對水下目標(biāo)識別小樣本數(shù)據(jù)的基于卷積神經(jīng)網(wǎng)絡(luò)的深層神經(jīng)網(wǎng)絡(luò)構(gòu)成方法。利用MFCC和基于MFCC改進的GFCC作為特征提取方法,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)與殘差神經(jīng)網(wǎng)絡(luò)形成比對網(wǎng)絡(luò),建立了小樣本下的水下目標(biāo)識別系統(tǒng),并對樣本在2種網(wǎng)絡(luò)的較深層結(jié)構(gòu)下所取得的實際識別率與網(wǎng)絡(luò)預(yù)測值進行統(tǒng)計比對。發(fā)現(xiàn)由于特征提取方法與深度學(xué)習(xí)網(wǎng)絡(luò)的各種組合模式對于水聲信號諸如信噪比等特性的匹配程度不同,其表現(xiàn)出的實際識別率和網(wǎng)絡(luò)預(yù)測值有較為明顯的關(guān)系,抗噪較好的組合模式的梯度衰減、網(wǎng)絡(luò)識別穩(wěn)定性和實際識別率較抗噪較差的組合具有更佳的網(wǎng)絡(luò)穩(wěn)定性和準(zhǔn)確率,根據(jù)這一依據(jù),為復(fù)雜神經(jīng)網(wǎng)絡(luò)神經(jīng)元的設(shè)計提供了一種思路。
作為一種常見的聲音識別特征,MFCC特征提取方法主要分以下幾步:
1) 分幀
2) 求能量譜
為了得到信號能量譜,需要利用快速傅里葉變換對幀信號進行處理,其公式為
p(f)=|X(f)2|=|FFT(x(n))|2
(1)
式中,x(n)為輸入信號。
3) 濾波
將p(f)通過梅爾濾波器組,其公式為
(2)
式中:N為幀數(shù);Hm(f)為梅爾濾波器組系數(shù)。
4) 對數(shù)運算
對(2)式中E(m)求導(dǎo),得到E′(m)
5) 求倒譜
對E′(m)求離散余弦變換,可得MFCC參數(shù)C(n),其公式為
(3)
式中:n=1,2,…,p,p為MFCC的階數(shù);M為濾波器的個數(shù)。
則MFCC特征參數(shù)的一階以及二階差分系數(shù)由(3)式可得,其公式分別為
(4)
(5)
(3)~(5)式共同構(gòu)成幀特征向量
Tn={C(n),D(n),D′(n)}
(6)
(6)式即為樣本信號的MFCC。
為了使系統(tǒng)的性能以及穩(wěn)健性都相對符合人聽覺感知效果,利用MFCC特征參數(shù)分析方法將聲音信號頻譜轉(zhuǎn)換到模擬聽覺感知過程的感知頻域。圖1為梅爾頻率和線性頻率關(guān)系圖,通過關(guān)系圖可以得出以下分析:當(dāng)頻率在1 000 Hz以上時,Mel頻率的分布趨勢為對數(shù)增長;而頻率在1 000 Hz以下時,Mel頻率的分布趨勢為帶寬100 Hz左右的線性分布[8]。
圖1 梅爾頻率與線性頻率的關(guān)系
利用倒譜變換進行各個濾波器組輸出的幅度與能量之間的強相關(guān)性解耦,常見的處理濾波器組輸出方法有對數(shù)壓縮以及余弦變換,得到的Mel倒譜系數(shù)的方程如(7)式所示
(7)
式中:N為濾波器的個數(shù);m為倒譜系數(shù)的維數(shù)。
圖2為GFCC特征提取的主要流程。
圖2 GFCC特征提取流程
具體如下:
1) 分幀。
2) 求能量譜。
對輸入信號x(n)使用離散傅里葉變換(discrete Fourier transform,DFT),其公式為
(8)
式中,N為DFT點數(shù)。
3) 濾波
鑒于Gammatone濾波器組無限長單位脈沖的特殊響應(yīng)特性,Gammatone的濾波系數(shù)gi(k)可表示為
gi(k)=kn-1exp(-2πBik)cos(2πfi+φi)u(k)
(9)
式中:n為濾波器的階數(shù);fi為中心頻率;Bi為濾波器的衰減因子;φi為濾波器的相位;u(k)為階躍函數(shù)。
將人耳聽覺特征臨界值作為各個濾波器的帶寬從水聲信號中提取特征時,可表示為
GEB(fi)=24.7×(4.37fi/1 000+1)
(10)
bi=1.019GEB(fi)
(11)
式中:bi是各個Gammatone濾波器的帶寬。
4) 對數(shù)運算
樣本信號的Gammatone能量譜EG(i)可通過將(8)~(9)式聯(lián)立取對數(shù)的方法獲得,表示為
(12)
5) 求倒譜
利用離散余弦變換,得到Gammatone系數(shù),其可表示為
0≤n≤Μ-1
(13)
GFCC的計算方法為:求(13)式最大值、平均值、最小值、標(biāo)準(zhǔn)差以及中值等5種統(tǒng)計參數(shù)。
CNN的主要思想來自局部連接和權(quán)值共享,通過卷積操作實現(xiàn)局部連接,這個局部區(qū)域的大小就是濾波器filter。為實現(xiàn)多層網(wǎng)絡(luò),需要盡量避免全連接過程中參數(shù)繁雜進而造成無法完成計算的問題,同時還可以借助參數(shù)共享的方法減少實際運算參數(shù)的數(shù)量[9]。通常一個普通CNN包括輸入層、池化層、激活層、全連接層和輸出層等。由于輸入層和輸出層的外部通常處于不可見狀態(tài),故稱為隱含層。
在確定水下聲目標(biāo)的特征提取方式時,抽取了與目標(biāo)有關(guān)的有效信息,同時也會舍棄許多原始信息,這使得本就難以獲取的樣本信息沒有充分利用。同時這些特征往往受到信道、環(huán)境等多種因素的影響,難以保證高度的穩(wěn)定性[10]。為了保證網(wǎng)絡(luò)穩(wěn)定性和原始信息特征的充分利用,往往需要將淺層深度學(xué)習(xí)網(wǎng)絡(luò)向深層發(fā)展。雖然理論上,假如深層網(wǎng)絡(luò)B是淺層網(wǎng)絡(luò)A的恒等映射,那么B至少應(yīng)當(dāng)與A性能相同,然而在實際實驗中,隨著網(wǎng)絡(luò)的不斷加深,網(wǎng)絡(luò)梯度的不斷消失最終會導(dǎo)致深層網(wǎng)絡(luò)出現(xiàn)退化現(xiàn)象:網(wǎng)絡(luò)隨著深度的增加,在識別率達到飽和后迅速退化[11]。為了解決這個問題,ResNet團隊給出了通過設(shè)計殘差單元的方式有效降低退化現(xiàn)象對系統(tǒng)的影響,其主要思路是通過構(gòu)建“快捷連接(shortcut connection)”的構(gòu)建塊,將輸入信號與經(jīng)過卷積處理的輸出信號恒等映射,從而組成一個殘差神經(jīng)元,其構(gòu)成的殘差網(wǎng)絡(luò)主要結(jié)構(gòu)見圖3。
圖3 殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
基于Inception模塊改進的數(shù)據(jù)池化層是由GoogLetNet在神經(jīng)框架中首次采用的優(yōu)化模塊,后經(jīng)過幾次版本的迭代,一直到最新的Inception-v4和Inception-resnet,每個版本在性能上都有一定的提升。通過建立小卷積層的串聯(lián)化,當(dāng)系統(tǒng)輸出來到大卷積層時,基于堆疊替換的方法,拼接多種特征維度層面,來達到提升神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效率的目的。由于傳統(tǒng)殘差神經(jīng)網(wǎng)絡(luò)的目標(biāo)是實現(xiàn)百萬級以上的大訓(xùn)練樣本及多GPU運行的復(fù)雜訓(xùn)練,在數(shù)據(jù)輸入時,會將輸入到池化層的數(shù)據(jù)通過7×7的大型卷積層和池化層。在面對具有時變性強的如輻射噪聲等類型的時域信號時,如果有效樣本有限,則很難利用大卷積層完成數(shù)據(jù)堆疊,無法有效提升網(wǎng)絡(luò)的學(xué)習(xí)效率。因此本文針對基于Inception的模塊特點設(shè)計了一種改進的數(shù)據(jù)池化層,這種池化層在面對小樣本數(shù)據(jù)時具有較強的特征提取能力。
為了改進數(shù)據(jù)池化層,將傳統(tǒng)的7×7的卷積層替代為3個3×3的小卷積層,并將每個通道數(shù)分別設(shè)置為8,16,16。為了有效提升神經(jīng)網(wǎng)絡(luò)的特征提取速度,在每個3×3的小卷積層后面都加入了批量標(biāo)準(zhǔn)化和ReLU激活函數(shù)。傳統(tǒng)加入單一ReLU激活函數(shù)的方式,會隨著網(wǎng)絡(luò)層數(shù)加深出現(xiàn)過擬合的問題,為了解決這個問題,給每個小卷積層都加入了一個ReLU激活函數(shù),使網(wǎng)絡(luò)對小樣本特征信息的提取能力更強,之后再在Concat層將特征維度拼接到一起。為了避免小樣本下網(wǎng)絡(luò)層數(shù)加深可能導(dǎo)致訓(xùn)練過程中過早出現(xiàn)過擬合問題,將改進的殘差連接結(jié)構(gòu)加入到數(shù)據(jù)池化層中,再從最大池化層的輸出中提取得到數(shù)據(jù)特征信息。
在本研究中,實地采集艦船輻射噪聲樣本數(shù)據(jù)1 756份,取自互聯(lián)網(wǎng)的海洋生物噪聲樣本數(shù)據(jù)877份,利用高斯模擬或水下實測的其他水下噪聲樣本6 410份。每個樣本都被裁剪為大小40幀,幀移15 ms的塊,由這些塊所組成的數(shù)據(jù)集統(tǒng)稱為樣本集(epoch),當(dāng)樣本集過大或根據(jù)研究需要時,可以將樣本集按照一定數(shù)量進行分批(batch),每批大小(batch size)固定。在對樣本集做過批處理后,將這些樣本分別采用經(jīng)過改進后的GFCC特征和MFCC特征進行訓(xùn)練, 并使用深層殘差神經(jīng)網(wǎng)絡(luò)進行目標(biāo)分類。
在得到匹配本研究的神經(jīng)元組成結(jié)構(gòu)后,將MFCC和GFCC與殘差網(wǎng)絡(luò)組成的神經(jīng)元分別進行全樣本訓(xùn)練,在多次訓(xùn)練后,對輸出求取均值后得到神經(jīng)網(wǎng)絡(luò)分類結(jié)果,見表1~2。
表1 Mel頻率倒譜系數(shù)特征提取后樣本識別統(tǒng)計結(jié)果
表2 CFCC特征提取后樣本識別統(tǒng)計結(jié)果
在對分類結(jié)果做分析時,由于檢測點較多,所以僅展示前10個檢測點在前10層網(wǎng)絡(luò)下的網(wǎng)絡(luò)預(yù)測率和實際識別率。需要說明的是由于動物叫聲具有比較顯著的聲學(xué)特征表現(xiàn)[12],考慮到對比的特征較多,工作量較大,所以在樣本集中加入了動物叫聲作為目標(biāo)樣本,以在合理范圍內(nèi)降低運算參數(shù),增加研究效率。
利用MFCC作為特征提取方法應(yīng)用在CNN網(wǎng)絡(luò)中的神經(jīng)元網(wǎng)絡(luò)測試結(jié)果,如圖4所示。圖中網(wǎng)絡(luò)深度表示神經(jīng)網(wǎng)絡(luò)的層數(shù),在實驗時將特征提取在深度達到每一層時的預(yù)測結(jié)果標(biāo)記在圖上形成曲線。根據(jù)結(jié)果可以發(fā)現(xiàn),在網(wǎng)絡(luò)深度達到5層時,10個預(yù)測點的網(wǎng)絡(luò)預(yù)測值趨近于100%,再將被網(wǎng)絡(luò)貼上標(biāo)簽的識別樣本與實際樣本集進行對比,得到實際正確率,如圖5所示。實驗結(jié)果表明實際識別率在網(wǎng)絡(luò)達到6層時出現(xiàn)了明顯衰減,且在整個檢測過程中實際正確率一直與網(wǎng)絡(luò)預(yù)測值存在著一定的差值,其差值在6層時出現(xiàn)最小值,約為25%左右。
圖4 基于Mel頻率倒譜系數(shù)特征提取的卷積神經(jīng)網(wǎng)絡(luò)預(yù)測值 圖5 基于Mel頻率倒譜系數(shù)特征提取的卷積神經(jīng)網(wǎng)絡(luò)實際識別率 圖6 基于Gammatone頻率倒譜系數(shù)特征提取的卷積神經(jīng)網(wǎng)絡(luò)預(yù)測值
將基于MFCC改進的GFCC特征提取法應(yīng)用于CNN網(wǎng)絡(luò)中,其網(wǎng)絡(luò)預(yù)測值和實際識別率如圖6和7所示,可以發(fā)現(xiàn)在網(wǎng)絡(luò)深度達到8層時,網(wǎng)絡(luò)預(yù)測值趨近于100%,與實際識別率相對比,其差值為10%左右,其實際識別率在深度達到9層時出現(xiàn)了明顯衰減。
通過研究,對產(chǎn)生這種現(xiàn)象的原因做了如下幾點推測,首先,神經(jīng)網(wǎng)絡(luò)由于其計算方式不是線性的,在小樣本情況下,每一次樣本輸入進入卷積核后,通過反復(fù)卷積-池化-反向傳播的計算會產(chǎn)生多個帶有不同標(biāo)簽的結(jié)果,只有在樣本大小匹配網(wǎng)絡(luò)結(jié)構(gòu)的情況下,網(wǎng)絡(luò)對權(quán)重的選擇才會逐漸趨向固定,輸出值才會趨向于唯一。另外由于梯度彌散問題,當(dāng)神經(jīng)網(wǎng)絡(luò)深度達到一定值時,梯度衰減過快會導(dǎo)致卷積層內(nèi)的部分卷積核出現(xiàn)無效化從而出現(xiàn)“卷積核死亡”的問題,可能正是因為這種線性導(dǎo)致了在某層出現(xiàn)的識別率快速衰減的結(jié)果。
圖7 基于Gammatone頻率倒譜系數(shù)特征提取的卷積神經(jīng)網(wǎng)絡(luò)實際識別率
因此,在研究對象為小樣本的客觀基礎(chǔ)上,很容易得到一種直觀判斷神經(jīng)元構(gòu)成的標(biāo)準(zhǔn),也就是利用輸出結(jié)果平穩(wěn)性、神經(jīng)元死亡深度來判斷特征提取法和網(wǎng)絡(luò)關(guān)于本研究的匹配程度,從而決定最終神經(jīng)元的組成結(jié)構(gòu)。
在文獻[11]中發(fā)現(xiàn)2015年研發(fā)成功的殘差神經(jīng)網(wǎng)絡(luò)(ResNet)具有比較好的抗噪抗彌散性能,且常被用于(相對)小樣本問題的處理上,因此嘗試了幾種特征提取與殘差神經(jīng)網(wǎng)絡(luò)的融合,同CNN網(wǎng)絡(luò)一樣,本文將其前10個檢測點的10層網(wǎng)絡(luò)識別數(shù)據(jù)分別展現(xiàn)如下。
首先是將MFCC與ResNet進行融合,其網(wǎng)絡(luò)預(yù)測值和實際識別率如圖8和圖9所示,由預(yù)測結(jié)果圖可以看出,當(dāng)網(wǎng)絡(luò)深度為7層時,ResNet網(wǎng)絡(luò)預(yù)測值趨近100%,而與實際識別率相對比,其差值最小為20%左右,實際識別率在深度達到7層時出現(xiàn)了明顯的衰減。
圖8 基于梅爾頻率倒譜系數(shù)特征提取的殘差網(wǎng)絡(luò)預(yù)測值
圖9 基于Mel頻率倒譜系數(shù)特征提取的殘差網(wǎng)絡(luò)實際識別率 圖10 基于Gammatone頻率倒譜系數(shù)特征提取的網(wǎng)絡(luò)預(yù)測值 圖11 基于Gammatone頻率倒譜系數(shù)特征提取的實際識別率
將GFCC與ResNet融合,其網(wǎng)絡(luò)預(yù)測值和實際識別率如圖10和圖11所示,由預(yù)測結(jié)果圖可以看出,該網(wǎng)絡(luò)在深度為10時雖然接近100%,但仍未到飽和程度,而與實際識別率相對比,其差值為10%左右,為了研究該網(wǎng)絡(luò)的衰減層數(shù),將該網(wǎng)絡(luò)的深度加深到15層,可以明顯看出,基于GFCC的殘差網(wǎng)絡(luò)在12層時出現(xiàn)了衰減,其實際識別率差值小于10%。
通過研究發(fā)現(xiàn),面向水下目標(biāo)識別的深度神經(jīng)網(wǎng)絡(luò),其識別穩(wěn)定性與識別準(zhǔn)確率與目標(biāo)特征提取方法、所選用神經(jīng)網(wǎng)絡(luò)模型之間有密切的聯(lián)系。與常見的淺層水下目標(biāo)識別神經(jīng)網(wǎng)絡(luò)系統(tǒng)相比,利用如改良的殘差神經(jīng)網(wǎng)絡(luò)等具有較強抗網(wǎng)絡(luò)退化功能的網(wǎng)絡(luò)結(jié)構(gòu),同時選擇匹配的特征提取法所組成的網(wǎng)絡(luò),可以有效增加網(wǎng)絡(luò)的深度,提高小樣本利用率,增強系統(tǒng)對于多種目標(biāo)在水下復(fù)雜環(huán)境中的識別效率。在使用GFCC作為特征提取方法的殘差神經(jīng)網(wǎng)絡(luò)中,深層網(wǎng)絡(luò)的識別率和系統(tǒng)穩(wěn)定性都顯著強于使用其他多種組合。這說明,對于基于小樣本的水下目標(biāo)識別系統(tǒng),在選擇特征提取方法和神經(jīng)網(wǎng)絡(luò)模型時,應(yīng)當(dāng)擇優(yōu)考慮抗噪強,梯度衰減弱,具有強抗退化的種類,以達到網(wǎng)絡(luò)深層化,以及充分利用有限樣本內(nèi)的各類目標(biāo)信息的目的。