肖旭 王同 王文博 蘇林 馬力 任群言
(1 中國(guó)科學(xué)院水聲環(huán)境特性重點(diǎn)實(shí)驗(yàn)室 北京 100190)
(2 中國(guó)科學(xué)院聲學(xué)研究所 北京 100190)
(3 中國(guó)科學(xué)院大學(xué) 北京 100049)
聲源被動(dòng)測(cè)距作為聲吶系統(tǒng)的重要功能之一,一直是水聲工作者密切關(guān)注的問(wèn)題[1]。由于水聲觀測(cè)信號(hào)受復(fù)雜的時(shí)、空、頻變及強(qiáng)多途、高噪聲和多普勒效應(yīng)等因素影響,傳統(tǒng)的匹配場(chǎng)處理方法往往面臨計(jì)算量大和環(huán)境失配等問(wèn)題。近年來(lái),深度學(xué)習(xí)作為基于數(shù)據(jù)驅(qū)動(dòng)方式的新興分支,以其強(qiáng)大的特征提取能力和高效處理復(fù)雜、高維、非線性系統(tǒng)問(wèn)題的獨(dú)特優(yōu)勢(shì)[2],為水聲被動(dòng)測(cè)距提供了一種新思路。
深度神經(jīng)網(wǎng)絡(luò)通過(guò)大量數(shù)據(jù)樣本建立高維參數(shù)之間的復(fù)雜非線性映射,適用于物理建模困難的問(wèn)題,引發(fā)了水聲研究者的關(guān)注。Lefort等[3]通過(guò)水箱實(shí)驗(yàn)研究了機(jī)器學(xué)習(xí)算法在水聲目標(biāo)測(cè)距中的測(cè)距性能。Niu等[4]利用單水聽(tīng)器和殘差卷積神經(jīng)網(wǎng)絡(luò)對(duì)聲源進(jìn)行定位。Wang等[5]提出了一種用于水下聲源測(cè)距的深度遷移學(xué)習(xí)方法,將從仿真環(huán)境獲得的預(yù)測(cè)能力遷移到實(shí)驗(yàn)海域。
水聲接收信號(hào)包含聲源和聲信道的大量信息,其特征提取和構(gòu)造是深度學(xué)習(xí)方法的關(guān)鍵環(huán)節(jié)。早期特征提取通常利用信號(hào)的自相關(guān)函數(shù)和功率譜估計(jì),或采用時(shí)-頻分析方法來(lái)提取一些時(shí)頻聯(lián)合域特征,如短時(shí)傅里葉變換(Short-time Fourier transform,STFT)、Wingner-Ville分布等。然而,無(wú)論是功率譜分析還是時(shí)頻分析[6],它們包含大量與聲源位置不相關(guān)的信息或冗余信息,在形式上維數(shù)較大,一般無(wú)法直接應(yīng)用于測(cè)距任務(wù)。而且,單一地采用某類特征通常會(huì)丟失掉部分特征,缺乏全面性。
針對(duì)以上問(wèn)題,本文設(shè)計(jì)了一種基于多域特征提取和深度學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)聲源被動(dòng)測(cè)距。首先從聲信號(hào)中提取多域特征,包含時(shí)域波形結(jié)構(gòu)特征、時(shí)域包絡(luò)特征、頻域譜特征和基于STFT的時(shí)頻聯(lián)合域特征。然后基于不同譜表達(dá)計(jì)算出一組聲學(xué)參數(shù)構(gòu)成特征空間,在此基礎(chǔ)上采用最大相關(guān)-最小冗余準(zhǔn)則(Maximum relevance and minimum redundancy,mRMR)選擇特征空間中重要度高的關(guān)鍵特征(與聲源位置相關(guān)性大)作為模型輸入,最后通過(guò)一種改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)聲源距離的估計(jì)。神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)采用自適應(yīng)矩估計(jì)(Adaptive moment estimation,Adam)優(yōu)化算法和均方誤差(Mean squared error,MSE)代價(jià)函數(shù)進(jìn)行更新模型參數(shù),用L2和Dropout正則化策略實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)正則化。通過(guò)淺海環(huán)境仿真實(shí)例驗(yàn)證了該方法的有效性,對(duì)比分析了波形參數(shù)對(duì)測(cè)距性能和模型收斂速度的影響。
聲信號(hào)的多域特征可歸納為6類:時(shí)域波形結(jié)構(gòu)特征、時(shí)域包絡(luò)特征、頻域譜特征、基于STFT的時(shí)頻聯(lián)合域特征、基于等效矩形帶寬的聽(tīng)覺(jué)譜特征和基于正弦諧波模型的諧波譜特征[7]。每一類特征均包含了對(duì)應(yīng)譜的多種聲音特性,這些特征屬性無(wú)法用單一尺度進(jìn)行描述,只有在多維特征空間下才能表示。Peeters等[8]對(duì)這些聲學(xué)特征進(jìn)行總結(jié),并通過(guò)多維標(biāo)度法提取了合適的聲學(xué)參數(shù),使之與聲信號(hào)在每個(gè)維度上的坐標(biāo)呈現(xiàn)較大的相關(guān)性。
這些聲學(xué)參數(shù)是基于不同譜表達(dá)計(jì)算的,其表征的物理含義各有不同,而水下聲源物理特征和聲場(chǎng)信息主要包含在信號(hào)的時(shí)域波形、頻域能量分布中。因此,本文綜合了以上更符合水聲信號(hào)特點(diǎn)的前4類特征,并將所對(duì)應(yīng)的特征歸納為時(shí)域特征和時(shí)頻聯(lián)合域特征。
1.1.1 時(shí)域特征
水聲信號(hào)時(shí)域波形反映了信道對(duì)聲信號(hào)傳播的畸變作用,是獲取聲源總體特征最直接的來(lái)源。為了直接從時(shí)域提取特征,自相關(guān)系數(shù)是一種廣泛使用的分類特征。首先是對(duì)原始信號(hào)s(tn)求自相關(guān)系數(shù),tn代表信號(hào)時(shí)刻,保留前N維的自相關(guān)系數(shù)(c∈{1,···,N})表示為[9]
其中,Ln是分幀時(shí)的窗長(zhǎng),c代表時(shí)間的滯后量。當(dāng)聲源信號(hào)為瞬態(tài)聲信號(hào)時(shí),其隨時(shí)間變化經(jīng)歷ADSR過(guò)程,即激勵(lì)階段、衰減階段、穩(wěn)態(tài)持續(xù)階段、釋音殘響階段,如圖1所示,其中激勵(lì)階段到衰減階段以信號(hào)振幅峰值處為分界點(diǎn),后三階段統(tǒng)稱為下降階段。
圖1 聲信號(hào)ADSR過(guò)程Fig.1 ASDR process of sound signals
聲源時(shí)域信號(hào)的幅度強(qiáng)弱變化和接收距離的相關(guān)性較強(qiáng),為提取描述聲源信號(hào)幅度變化的特征,對(duì)原始信號(hào)s(tn)進(jìn)行Hilbert變換,然后使用截止頻率為5 Hz的三階Butterworth濾波器對(duì)振幅信號(hào)進(jìn)行低通濾波,得到信號(hào)振幅包絡(luò)e(tn)。估計(jì)信號(hào)的起始時(shí)間tst、激勵(lì)階段和下降階段的終止時(shí)間tAend、tDend,在此基礎(chǔ)上定義時(shí)域的7個(gè)聲學(xué)參數(shù),如表1所示。其中,為了估計(jì)激勵(lì)過(guò)程的時(shí)間長(zhǎng)度,定義對(duì)數(shù)激勵(lì)時(shí)間為[10]
相對(duì)應(yīng)地,將激勵(lì)階段和下降階段能量的平均時(shí)間斜率分別定義為激勵(lì)斜率和下降斜率。估計(jì)振幅包絡(luò)的最大值emax。時(shí)間質(zhì)心給出了信號(hào)能量質(zhì)心所在的時(shí)刻,其定義式為[11]
其中,n1和n2為聲信號(hào)的起始和終止時(shí)間對(duì)應(yīng)的索引號(hào),以濾除前后的空白時(shí)間。當(dāng)信號(hào)聲能量大于一定閾值γemax時(shí),其持續(xù)時(shí)間定義為信號(hào)的有效時(shí)間,根據(jù)許多經(jīng)驗(yàn)性的測(cè)試,γ取0.4性能較穩(wěn)定,見(jiàn)文獻(xiàn)[8]。除以上參數(shù)外,其余參數(shù)的公式定義可在文獻(xiàn)[8]中一一得到。這些聲學(xué)參數(shù)反映了聲源的各種物理屬性,例如對(duì)數(shù)激勵(lì)時(shí)間反映了能量在上升過(guò)程中的時(shí)間長(zhǎng)度,其與聲源距離呈正相關(guān),聲源距離越遠(yuǎn),聲信號(hào)需達(dá)到穩(wěn)態(tài)振動(dòng)的時(shí)間越長(zhǎng)。與波形包絡(luò)相關(guān)的特征(激勵(lì)時(shí)間、時(shí)域質(zhì)心等)僅適用于瞬態(tài)信號(hào),分析連續(xù)聲信號(hào)時(shí),應(yīng)提取自相關(guān)系數(shù)、載波信號(hào)調(diào)制和后文定義的頻域特征。
表1 時(shí)域特征Table 1 Temp oral features
1.1.2 時(shí)頻聯(lián)合域特征
對(duì)原始信號(hào)進(jìn)行STFT,把每一幀進(jìn)行快速傅里葉變換后的頻域信號(hào)在時(shí)間上堆疊起來(lái)得到時(shí)頻譜ak(tm),其中m代表幀數(shù),k代表頻點(diǎn)數(shù)。對(duì)ak(tm)進(jìn)行標(biāo)準(zhǔn)化處理:
令第k個(gè)頻點(diǎn)的頻率為fk,得到譜的前四階統(tǒng)計(jì)矩,分別定義為譜質(zhì)心、譜延展、譜斜度和譜峰度[12],對(duì)于第m幀的頻譜,表示為
除了頻譜的統(tǒng)計(jì)特征,根據(jù)頻譜的斜率特征可以從STFT能量譜中提取譜斜率、譜衰減[8]、譜滾降[13]、譜通量[14]。最后根據(jù)線譜特征提取信號(hào)的平坦度及譜峰度[8],其定義和物理含義如表2所示。對(duì)于第m幀,上述物理量計(jì)算公式分別為
其中,?f為信號(hào)STFT后兩點(diǎn)的頻率差,fmax為奈奎斯特采樣決定的最高頻率,是令ak(tm)最大的k(tm)的值。以上參數(shù)被證實(shí)對(duì)聲信號(hào)的特征識(shí)別具有重要作用[15],被試信號(hào)對(duì)于它們的變化具有較高的敏感度。
表2 時(shí)頻聯(lián)合域特征Table 2 Temp oral-frequency features
以上聲學(xué)參數(shù)作為水聲信號(hào)的輸入特征并不具有魯棒性,不同任務(wù)(如測(cè)距、識(shí)別)的訓(xùn)練集擁有不同的最佳聲學(xué)參數(shù)。在1.1節(jié)中給出的特征中,有些特征可能是冗余的甚至是不相關(guān)的,導(dǎo)致機(jī)器學(xué)習(xí)算法的效率降低、性能損失。
最大相關(guān)-最小冗余準(zhǔn)則(mRMR)是一種綜合考慮特征相關(guān)度和冗余度的特征重要性評(píng)價(jià)準(zhǔn)則[16]。定義互信息I(A,B):
其中,變量A和B的概率密度分別是p(A)和p(B),其聯(lián)合概率密度是p(A,B)。設(shè)樣本數(shù)量為m,特征向量數(shù)量為n,特征向量fi=[f(i,1),f(i,2),···,f(i,m)]T,I(fi,fj)為樣本中第i個(gè)和第j個(gè)特征的相關(guān)性,其中i,j=1,2,3,···,n。設(shè)Om為類別標(biāo)簽,I(fi,O)為特征與輸出類別O的相關(guān)性,其中向量O=[O1,O2,O3,···,Om]T。利用最大相關(guān)標(biāo)準(zhǔn)式選擇出與類別O相關(guān)性大的特征集合D:
式(8)中,|S|為集合S中所選特征的數(shù)量。利用最小冗余標(biāo)準(zhǔn)式剔除特征子集S中的冗余特征的集合R:
綜合以上條件,mRMR方法計(jì)算式為
給定具有N?1個(gè)特征的集合SN?1,總特征集合為F,計(jì)算集合{F?SN?1}中選擇第N個(gè)特征使得式(10)中的集合θ(D,R)最大:
利用mRMR準(zhǔn)則對(duì)特征空間進(jìn)行預(yù)處理,可以剔除冗余特征,降低計(jì)算代價(jià),產(chǎn)生緊湊性和泛化能力更強(qiáng)的模型。算法流程如下:
(1)選擇令相關(guān)性最大的特征fn,即maxfnI(fn,O),將所選特性特征添加到空集合S中。
(2)在集合S的補(bǔ)集中找出具有非零相關(guān)性和零冗余的特征,如不包含,則轉(zhuǎn)步驟(4);否則,選出相關(guān)性最大的特征fk,即將選中的特征添加到集合S中。
(3)重復(fù)步驟(2),直到S的補(bǔ)集中所有特征的冗余不為零為止。
(4)選擇S的補(bǔ)集中互信息熵最大且具有非零相關(guān)性和非零冗余的特征fl,即,將選擇的特征加入集合S中。
(5)重復(fù)步驟(4),直到S的補(bǔ)集中所有特征的相關(guān)性為零。
(6)最后以隨機(jī)順序添加與S無(wú)關(guān)的特征。
1.3.1 傳統(tǒng)前饋深度神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)的前饋深度神經(jīng)網(wǎng)絡(luò)(Feedforward deep neural network,FF-DNN)根據(jù)內(nèi)部的神經(jīng)網(wǎng)絡(luò)層可以分為輸入層(輸入聲信號(hào)特征的層)、隱含層(所有中間層)和輸出層(輸出目標(biāo)距離估計(jì)值的層)。單層網(wǎng)絡(luò)直接相互級(jí)聯(lián),某一層的任意一個(gè)神經(jīng)元與其上一層的每一個(gè)神經(jīng)元相連。其局部模型可描述為是一個(gè)線性運(yùn)算加上一個(gè)非線性轉(zhuǎn)移函數(shù)。
設(shè)深度神經(jīng)網(wǎng)絡(luò)層數(shù)為L(zhǎng),l是每一層的索引號(hào),x(l)、y(l)分別是第l層的輸入序列和輸出序列,網(wǎng)絡(luò)的輸入y(0)=x,w(l)和b(l)為第l層的權(quán)重矩陣和偏置向量,f(z)表示非線性轉(zhuǎn)移函數(shù)。標(biāo)準(zhǔn)的FF-DNN網(wǎng)絡(luò)描述如下(對(duì)于l∈{0,1,···,L?1層的第i個(gè)神經(jīng)元})[17]:
訓(xùn)練模型時(shí),利用尋優(yōu)算法對(duì)距離估計(jì)的代價(jià)函數(shù)進(jìn)行迭代優(yōu)化求極小值,找到合適的線性系數(shù)矩陣w和偏置向量b:
其中,J為代價(jià)函數(shù),通常采用輸出層輸出的目標(biāo)距離估計(jì)值與真實(shí)距離之間的均方誤差:
其中,N是聲信號(hào)訓(xùn)練樣本數(shù),j是其樣本索引號(hào),zj是對(duì)應(yīng)樣本的真實(shí)距離。關(guān)于上述求解優(yōu)化問(wèn)題,常使用梯度下降法、共軛梯度法、擬牛頓法等數(shù)值優(yōu)化方法。由于求Hessian矩陣及其逆計(jì)算量十分巨大,最常用的優(yōu)化算法仍然是梯度下降算法。
在聲源測(cè)距中,傳統(tǒng)DNN存在以下缺陷:
(1)測(cè)距誤差較大。聲源距離的代價(jià)函數(shù)可能高度非凸,迭代過(guò)程中容易陷入局部次優(yōu)解或鞍點(diǎn)。
(2)算法收斂速度慢。梯度下降法的初始學(xué)習(xí)率和調(diào)整策略需人工調(diào)節(jié),相同的學(xué)習(xí)率被應(yīng)用于各個(gè)參數(shù),效率低下。
(3)模型泛化性和魯棒性弱。全連接網(wǎng)絡(luò)的模型復(fù)雜度過(guò)高,參數(shù)稀疏度過(guò)低,易發(fā)生過(guò)擬合,以至于對(duì)環(huán)境變化和信號(hào)畸變過(guò)于敏感。
要解決以上問(wèn)題,提高測(cè)距性能,重點(diǎn)在于如何改進(jìn)尋優(yōu)策略、加快收斂速度、防止過(guò)度學(xué)習(xí)。為此,本文引入1種自適應(yīng)動(dòng)態(tài)調(diào)整學(xué)習(xí)率的優(yōu)化方法和2種網(wǎng)絡(luò)參數(shù)稀疏化技術(shù)來(lái)改進(jìn)網(wǎng)絡(luò)模型。
1.3.2 Adam優(yōu)化算法
由于水下噪聲、混響和水聲信道的多途干擾,目標(biāo)距離的代價(jià)函數(shù)通常為非凸函數(shù)且局部次優(yōu)解,從而需要較大的學(xué)習(xí)率來(lái)跳出局部最優(yōu)。然而,當(dāng)在全局最優(yōu)值附近搜索時(shí),學(xué)習(xí)率太大會(huì)導(dǎo)致過(guò)度學(xué)習(xí),降低聲源測(cè)距精度。
Adam算法是一種動(dòng)態(tài)調(diào)整參數(shù)學(xué)習(xí)率的自適應(yīng)優(yōu)化方法[18]。該方法通過(guò)梯度的一階和二階矩估計(jì)動(dòng)態(tài)調(diào)整各網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)率,在迭代過(guò)程中通過(guò)偏差糾正使學(xué)習(xí)率維持在一定范圍,從而獲得平穩(wěn)的參數(shù)更新,這是解決聲源測(cè)距問(wèn)題的理想方法。
設(shè)t為迭代次數(shù),w為待估參數(shù),J為代價(jià)函數(shù),首先計(jì)算梯度的指數(shù)移動(dòng)平均數(shù)mt。m0初值為0。綜合考慮之前時(shí)間步的梯度動(dòng)量,設(shè)系數(shù)β1為指數(shù)衰減率,有
計(jì)算梯度平方的指數(shù)移動(dòng)平均數(shù),v0初始化為0。設(shè)系數(shù)β2為指數(shù)衰減率,有
m、v初始化為0會(huì)導(dǎo)致mt偏向于0,因此先進(jìn)行偏差糾正再更新參數(shù):
式(17)中,η為初始學(xué)習(xí)率。算法對(duì)更新的步長(zhǎng)計(jì)算從梯度均值及梯度平方兩個(gè)角度進(jìn)行自適應(yīng)的調(diào)節(jié)[19],起到提高迭代效率和測(cè)距精度的作用。
1.3.3 網(wǎng)絡(luò)參數(shù)稀疏化
傳統(tǒng)的DNN往往受限于特定的水聲環(huán)境,對(duì)環(huán)境變化和信號(hào)畸變過(guò)于敏感,出現(xiàn)過(guò)擬合現(xiàn)象。具體表現(xiàn)在迭代過(guò)程中訓(xùn)練誤差下降到一定程度時(shí),測(cè)試誤差反而開(kāi)始增大。為了生成泛用性強(qiáng)的模型,將數(shù)據(jù)映射到網(wǎng)絡(luò)特征后,網(wǎng)絡(luò)特征之間的重疊信息應(yīng)盡可能少,相關(guān)性盡可能低,從而近似于標(biāo)準(zhǔn)正交基。其主要方法是使特征產(chǎn)生稀疏性:稀疏特征有更大可能線性可分,或者對(duì)非線性映射機(jī)制有更小的依賴[20]。
L2正則化是一種簡(jiǎn)單且有效的網(wǎng)絡(luò)參數(shù)稀疏化方法。在式(14)加入懲罰項(xiàng),通過(guò)懲罰因子λ控制網(wǎng)絡(luò)參數(shù)稀疏度:
Dropout正則化策略是另一種神經(jīng)網(wǎng)絡(luò)稀疏化手段,其核心在于每次權(quán)重更新迭代中,對(duì)網(wǎng)絡(luò)的每一層,隨機(jī)將部分節(jié)點(diǎn)對(duì)應(yīng)的權(quán)重值置零,使得線性系數(shù)矩陣和偏置向量達(dá)到稀疏化的效果,在一定程度上避免過(guò)擬合的問(wèn)題。引入Dropout的神經(jīng)網(wǎng)絡(luò)描述由式(12)變?yōu)閇17]:
式(19)中,符號(hào)·表示向量點(diǎn)乘,r(l)是一個(gè)向量,其元素為服從伯努利隨機(jī)分布的隨機(jī)變量,分別以概率P和1?P取1和0為值,參數(shù)P是每個(gè)神經(jīng)元的激活概率,通常P取[0.5,1.0]。使用該向量對(duì)上一層網(wǎng)絡(luò)的輸出y(l)進(jìn)行采樣,產(chǎn)生一個(gè)約減的輸出?y(l)用于下一次網(wǎng)絡(luò)的輸入。這個(gè)操作依次進(jìn)行,從而可以生成一個(gè)稀疏的網(wǎng)絡(luò)結(jié)構(gòu)[17]。這種方法簡(jiǎn)單易行、節(jié)省運(yùn)算資源,且不會(huì)提升優(yōu)化過(guò)程的復(fù)雜度。改進(jìn)后的DNN能夠從有效的數(shù)據(jù)維度上學(xué)習(xí)到相對(duì)稀疏的特征,達(dá)到自動(dòng)提取水聲信號(hào)關(guān)鍵特征的效果。
通過(guò)KRAKEN聲場(chǎng)計(jì)算工具,在聲速正梯度淺海環(huán)境參數(shù)下生成仿真數(shù)據(jù)。圖2描述了本文所使用的環(huán)境參數(shù)。
圖2 環(huán)境參數(shù)Fig.2 Enviromental parameters
仿真數(shù)據(jù)包括連續(xù)波(Continuous wave,CW)在50 Hz、150 Hz和300 Hz的信號(hào),線性調(diào)頻(Linear frequency modulation,LFM)信號(hào)中心頻率為500 Hz、1000 Hz和2000 Hz,頻帶寬度范圍100~1000 Hz,信號(hào)長(zhǎng)度0.2~1.0 s。將模擬接收信號(hào)拷貝100份并分成10組,每一組模擬接收信號(hào)分別添加信噪比(Signal-to-noise ratio,SNR)為1 dB、2 dB、3 dB、···、10 dB的高斯噪聲。接收點(diǎn)距離分布在1~10 km,深度是分布在5~145 m,網(wǎng)絡(luò)輸入訓(xùn)練集占總樣本集80%,由16080個(gè)樣本組成,剩余20%的數(shù)據(jù)作為測(cè)試集,由4020個(gè)樣本組成。對(duì)生成樣本進(jìn)行多域特征提取,對(duì)每一幀得到的特征序列求統(tǒng)計(jì)特征,得到均值和方差,對(duì)所有幀的自相關(guān)系數(shù)和頻域特征序列求統(tǒng)計(jì)特征,得到所有幀的時(shí)間均值和時(shí)間方差。最終提取到20100個(gè)樣本的36維特征,作為DNN網(wǎng)絡(luò)的輸入特征,特征空間如圖3所示。
圖3 特征空間Fig.3 Feature space
每個(gè)特征之間并不完全獨(dú)立,有些特征與聲源距離顯著相關(guān),這里根據(jù)1.2節(jié)中的mRMR算法進(jìn)行特征選擇?;诨バ畔⒌膍RMR最高效和常用的[21],在步驟(4)中,輸出所選特征的互信息熵作為特征重要性的評(píng)價(jià)指標(biāo),對(duì)特征空間上所有特征進(jìn)行重要度排序,結(jié)果如圖4所示。
圖4中的符號(hào)和表1、表2中一一對(duì)應(yīng),例如DS是下降斜率,SV_Mean是對(duì)信號(hào)每一幀的譜通量求的平均值;AC_Std是對(duì)每一幀自相關(guān)系數(shù)求的標(biāo)準(zhǔn)差。由排序結(jié)果可見(jiàn)與聲源距離相關(guān)性最強(qiáng)的前3項(xiàng)特征是激勵(lì)時(shí)間、下降斜率和譜通量均值,分別代表激勵(lì)階段的時(shí)間長(zhǎng)度、衰減階段能量的平均時(shí)間斜率和頻譜包絡(luò)面積的均值,這些物理量恰是反映聲能量在傳播過(guò)程中衰減的基本物理量。通常,為了兼顧特征集合的多樣性和緊湊性,指標(biāo)的閾值不宜過(guò)大或過(guò)小,經(jīng)測(cè)試這里取0.03時(shí),特征子集的維度為29,此時(shí)模型收斂性較好。最終得到與聲源距離相關(guān)性最高的10維時(shí)域特征與19維頻域特征。
圖4 聲學(xué)參數(shù)mRMR重要性排序Fig.4 The mRMR importance ordering of acoustic parameters
神經(jīng)網(wǎng)絡(luò)引入Adam優(yōu)化算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,初始學(xué)習(xí)率采用0.03,代價(jià)函數(shù)采用MSE函數(shù),引入Dropout正則化處理,每次迭代神經(jīng)元激活概率取85%,初始權(quán)重由截?cái)喔咚狗植寄P彤a(chǎn)生,標(biāo)準(zhǔn)差為0.1。經(jīng)測(cè)試雙曲正切函數(shù)、Sigmoid函數(shù)和ReLU函數(shù)作為隱含層激活函數(shù)均未出現(xiàn)梯度消失現(xiàn)象,其中雙曲正切函數(shù)在本問(wèn)題中表現(xiàn)的收斂速度最快,且訓(xùn)練過(guò)程中未出現(xiàn)死神經(jīng)元。隱含層激活函數(shù)采用雙曲正切函數(shù),輸出層采用200個(gè)Softmax節(jié)點(diǎn),對(duì)應(yīng)不同的距離的概率,輸出值最大的節(jié)點(diǎn)對(duì)應(yīng)的距離為距離估計(jì)值。網(wǎng)絡(luò)迭代次數(shù)設(shè)置為20000次。不同波形參數(shù)的單頻信號(hào)和線性調(diào)頻信號(hào)作為發(fā)射信號(hào)訓(xùn)練的DNN經(jīng)20000次迭代后在測(cè)試集上的綜合測(cè)距精確率達(dá)到95%以上,最高達(dá)到98%以上。以其中一組波形參數(shù)(單頻信號(hào),f0=150 Hz,zr=35 m,SNR=1~10 dB)的訓(xùn)練和測(cè)試結(jié)果為例,圖5為該組信號(hào)的模型訓(xùn)練和測(cè)試結(jié)果。其中圖5(a)給出了訓(xùn)練完成后模型最終在測(cè)試集上的距離估計(jì)結(jié)果,紅線代表KRAKEN聲場(chǎng)模型中給定的聲源距離(即真實(shí)距離),藍(lán)圈代表網(wǎng)絡(luò)輸出的估計(jì)距離;圖5(b)給出了模型在訓(xùn)練集和測(cè)試集上的測(cè)量精度隨迭代次數(shù)的變化曲線。
圖5 訓(xùn)練和測(cè)試結(jié)果Fig.5 The ranging accuracy by iteration times on validation and training sets
以單頻信號(hào)作為發(fā)射信號(hào),改變發(fā)射信號(hào)頻率(f=50 Hz,100 Hz,150 Hz)和聲源深度(zS=0~140 m,?z=20 m),經(jīng)10000次迭代,對(duì)比不同發(fā)射條件下的估計(jì)精確率,如圖6所示,由圖6可見(jiàn)波形參數(shù)和聲源深度對(duì)模型性能的影響小,魯棒性較好。
圖6 不同發(fā)射頻率下各個(gè)深度的測(cè)距精確度Fig.6 Ranging accuracy at different depths with different transmission frequencies
以線性調(diào)頻信號(hào)作為發(fā)射信號(hào),分析模型的收斂速度和測(cè)量精度,經(jīng)10000次迭代,對(duì)不同中心頻率(fc=500 Hz,1000 Hz,2000 Hz)、不同頻帶寬度(fband=100 Hz,300 Hz,500 Hz,700 Hz,900 Hz)和不同時(shí)間長(zhǎng)度(T=200 ms,400 ms,600 ms,800 ms,1000 ms)的信號(hào)源測(cè)距結(jié)果進(jìn)行對(duì)比。圖7~圖9給出了不同波形參數(shù)的信號(hào)的網(wǎng)絡(luò)訓(xùn)練損失曲線,即訓(xùn)練過(guò)程中隨著迭代次數(shù)增大,測(cè)試集上代價(jià)函數(shù)值的變化曲線。這里的代價(jià)函數(shù)值為測(cè)量的均方誤差,下降越快,說(shuō)明模型收斂速度越快。由此,圖7表明模型的收斂速度和測(cè)量精度與頻帶寬度呈負(fù)相關(guān),說(shuō)明頻帶越寬所含信息越豐富,模型訓(xùn)練需要的時(shí)間越長(zhǎng);圖8表明模型的收斂速度和測(cè)量精度與信號(hào)持續(xù)時(shí)間呈正相關(guān),可見(jiàn)信號(hào)持續(xù)時(shí)間越長(zhǎng),呈現(xiàn)出的特征越明顯;圖9表明模型的收斂速度與中心頻率和測(cè)量精度呈負(fù)相關(guān),可見(jiàn)淺海中低頻的信號(hào)特征更加集中,高頻信號(hào)的特征更加分散,表明模型更適用于遠(yuǎn)程探測(cè)聲吶。
圖7 信號(hào)時(shí)長(zhǎng)為1.0 s時(shí)各頻帶寬度對(duì)應(yīng)的網(wǎng)絡(luò)訓(xùn)練損失曲線Fig.7 Network training loss curve with different frequency bandwidth when the signal duration is 1.0 s
圖8 信號(hào)頻帶寬度為500 Hz時(shí)不同時(shí)間長(zhǎng)度對(duì)應(yīng)的網(wǎng)絡(luò)訓(xùn)練損失曲線Fig.8 Network training loss curves with different time lengths when the frequency bandwidth is 500 Hz
圖9 信號(hào)頻帶寬度為500 Hz、時(shí)長(zhǎng)為1.0 s時(shí)不同中心頻率對(duì)應(yīng)的網(wǎng)絡(luò)訓(xùn)練損失曲線Fig.9 Network training loss curves with different center frequencies when the frequency bandwidth is 500 Hz and the duration is 1.0 s
相對(duì)已有的深度學(xué)習(xí)聲源測(cè)距方法,本文提出的方法可提取信號(hào)的多域特征及對(duì)特征空間進(jìn)行篩選,有利于產(chǎn)生緊湊性和泛化能力更強(qiáng)的模型;其次,改進(jìn)了神經(jīng)網(wǎng)絡(luò)模型的尋優(yōu)算法和參數(shù)稀疏化策略,可加快收斂速度并抑制模型過(guò)擬合。然而,機(jī)器學(xué)習(xí)是一種監(jiān)督學(xué)習(xí)方法,其測(cè)距精度以建立功能全、信息豐富的數(shù)據(jù)庫(kù)為代價(jià)。對(duì)于未知的海洋環(huán)境、時(shí)變的環(huán)境參數(shù),需建立大量拷貝數(shù)據(jù)進(jìn)行訓(xùn)練并加大網(wǎng)絡(luò)的復(fù)雜度,同時(shí)需要已知的聲源波形參數(shù),對(duì)先驗(yàn)知識(shí)和計(jì)算資源有較大依賴性。目前已有相關(guān)研究[5]通過(guò)在真實(shí)海洋測(cè)試數(shù)據(jù)的基礎(chǔ)上擴(kuò)充仿真數(shù)據(jù),以及采用遷移學(xué)習(xí)方法來(lái)減小深度學(xué)習(xí)方法對(duì)先驗(yàn)知識(shí)的依賴性。本文下一步工作將針對(duì)海洋測(cè)試中遠(yuǎn)距離測(cè)距的實(shí)際應(yīng)用場(chǎng)景,通過(guò)建立數(shù)據(jù)庫(kù)、優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、提高網(wǎng)絡(luò)復(fù)雜度、增加輸出節(jié)點(diǎn)數(shù)或改進(jìn)輸出層標(biāo)簽形式、增強(qiáng)自學(xué)習(xí)能力,以提升測(cè)距范圍和測(cè)距分辨率。此外,可通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)一步擴(kuò)充與聲源目標(biāo)識(shí)別相關(guān)的特征和標(biāo)簽,從而在聲源被動(dòng)測(cè)距的基礎(chǔ)上同時(shí)執(zhí)行目標(biāo)識(shí)別相關(guān)的任務(wù),如估計(jì)目標(biāo)材料、形狀、運(yùn)動(dòng)姿態(tài)等,以上需在后續(xù)工作中進(jìn)一步探究。
采用一種基于多域特征提取的深度學(xué)習(xí)方法來(lái)實(shí)現(xiàn)聲源測(cè)距,通過(guò)淺海環(huán)境仿真實(shí)例驗(yàn)證了該方法的有效性,并分析了波形參數(shù)對(duì)測(cè)距性能和模型收斂速度的影響。本方法構(gòu)建了聲信號(hào)在時(shí)、頻域的多維感知特征量,采用最大相關(guān)-最小冗余準(zhǔn)則(mRMR)提取了聲源和水下聲場(chǎng)的關(guān)鍵信息,在傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入自適應(yīng)矩估計(jì)(Adam)優(yōu)化、L2正則化和Dropout正則化處理,提升模型的收斂速度和泛用性。結(jié)果表明:此方法在模型訓(xùn)練過(guò)程中收斂速度較快,預(yù)測(cè)性能較穩(wěn)定,在所定條件下測(cè)試集上聲源的綜合測(cè)距精確率可達(dá)到95%以上,能夠?qū)崿F(xiàn)對(duì)聲源距離的有效估計(jì)。此外,對(duì)不同發(fā)射信號(hào)訓(xùn)練效率的對(duì)比表明,算法性能對(duì)波形參數(shù)和聲源深度具有良好的魯棒性,模型收斂速度和測(cè)距精度對(duì)于帶寬較小、持續(xù)時(shí)間長(zhǎng)的瞬態(tài)發(fā)射信號(hào)較高。訓(xùn)練后的模型在單次測(cè)距任務(wù)中僅需執(zhí)行毫秒級(jí)運(yùn)算,可實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)處理。
本文提出采用的聲源測(cè)距的深度學(xué)習(xí)方法,緊密結(jié)合了和海洋環(huán)境、傳輸距離相關(guān)的聲源信號(hào)時(shí)頻域多維感知特征,測(cè)試集上聲源測(cè)距精度優(yōu)良、可信。未來(lái),建立并不斷更新充實(shí)功能齊全、信息豐富的各種典型海洋環(huán)境參數(shù)、傳輸距離及聲源信號(hào)多域特征大數(shù)據(jù)庫(kù),進(jìn)一步優(yōu)化算法和自學(xué)習(xí)能力后,本方法可望實(shí)現(xiàn)實(shí)時(shí)準(zhǔn)確的水下目標(biāo)被動(dòng)定位、跟蹤和分類識(shí)別,是今后深入研究的目標(biāo)和方向。