李悅 馬曉川 王磊 劉宇
(1 中國科學院聲學研究所 北京 100190)
(2 中國科學院水下航行器信息技術(shù)重點實驗室 北京 100190)
(3 中國科學院大學 北京 100049)
近年來,為順應現(xiàn)代海戰(zhàn)的演進趨勢,水下對抗正朝著體系化、無人化、智能化方向發(fā)展。在有關(guān)海區(qū)及時偵測未知聲吶發(fā)射的脈沖信號,并分析其性能是水聲對抗的重要任務之一。由于聲源位置的遠近未知,加上海洋環(huán)境變化多端,致使接收信噪比較低,因此需要利用適當?shù)娜ピ敕椒▽γ}沖信號進行增強,以便進行后續(xù)的信號處理與分析。
脈沖信號持續(xù)時間較短,傳統(tǒng)的自適應濾波去噪方法難以在脈沖持續(xù)時間內(nèi)有效收斂,并且傳統(tǒng)方法中大多基于環(huán)境噪聲為高斯分布的假設(shè),經(jīng)過研究,實際應用中的海洋環(huán)境噪聲還常常表現(xiàn)為非高斯分布。α穩(wěn)定分布的脈沖噪聲以及非平穩(wěn)的行船噪聲是海洋環(huán)境中兩種常見的非高斯噪聲。當假設(shè)背景噪聲為高斯噪聲時,可利用水聲信號的二階或高階統(tǒng)計量進行信號處理,由于分數(shù)低階的α穩(wěn)定分布不存在有限的二階及以上各階統(tǒng)計量[1],此類算法在這種情況下會發(fā)生性能下降,另外非平穩(wěn)行船噪聲也會為傳統(tǒng)的基于自適應濾波的去噪方法收斂帶來困難。
短時傅里葉變換(Short time Fourier transformation,STFT)是一種線性時頻分析方法,其算法實現(xiàn)簡單高效,并且不會產(chǎn)生交叉項,在工程實踐中得到了廣泛的應用。隨著深度學習領(lǐng)域的蓬勃發(fā)展,近年來出現(xiàn)了大量利用深度學習方法進行語音增強的研究,這些研究利用語音信號STFT幅值特征進行語音信號去噪與重構(gòu)。文獻[2–3]利用卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN)學習帶噪信號STFT幅值與純凈信號STFT幅值之間的映射關(guān)系實現(xiàn)去噪,文獻[4–5]利用循環(huán)神經(jīng)網(wǎng)絡(Recurrent neural network,RNN)建立各幀數(shù)據(jù)上下文之間的關(guān)系,利用前后序列的相關(guān)性進行去噪,也取得了較好的結(jié)果。相較于RNN,CNN網(wǎng)絡參數(shù)更少,并且不存在RNN網(wǎng)絡的長期依賴問題,更易于訓練。CNN語音增強模型利用增強語音幅值特征與原帶噪語音譜的相位分量來重構(gòu)信號。語音信號的去噪僅對幅值譜進行處理,是因為相位對于語音信號的可懂度影響不大[2],然而對于水聲脈沖信號其相位與幅值特征均是重要的信息。文獻[6]提出一種DnCNN的圖像去噪網(wǎng)絡,可在未知背景噪聲級的情況下實現(xiàn)盲去噪,利用殘差學習(Residual learning,RL)和批標準化(Batch normalization,BN)提升模型性能。經(jīng)研究,深度神經(jīng)網(wǎng)絡模型相較于恒等映射更易于學習殘差映射,因此本文借鑒DnCNN,利用殘差學習的思想,學習帶噪信號STFT特征和帶噪信號與純凈信號STFT特征值殘差之間的映射關(guān)系,與之前提到的CNN語音增強網(wǎng)絡不同的是,本文脈沖信號去噪網(wǎng)絡的輸入包含STFT特征的實部和虛部兩個通道,并不僅是幅值特征,學習的目標是殘差的實虛部兩通道分量。文獻[7]指出批標準化僅在高斯分布噪聲條件下具備良好的性能,本文訓練集噪聲包括高斯及另外兩種非高斯噪聲,為提升模型在復雜噪聲場景中的泛化性,模型去掉批標準化層。本文模型相較于傳統(tǒng)去噪方法主要有以下優(yōu)點:首先,深度學習可以通過訓練使模型適用于多種類型脈沖信號及環(huán)境噪聲,再者,傳統(tǒng)方法如自適應濾波方法對參數(shù)設(shè)置如權(quán)值初值、更新步長等較為敏感,而訓練完畢的神經(jīng)網(wǎng)絡僅根據(jù)輸入帶噪數(shù)據(jù)進行計算,無需人為設(shè)定參數(shù)。
本文針對兩種常見的非高斯環(huán)境中脈沖信號的去噪問題,提出一種基于深度學習的處理手段。首先對接收帶噪信號進行STFT,提取其實部與虛部分量,之后建立全卷積的水聲脈沖信號去噪網(wǎng)絡,實現(xiàn)多種環(huán)境噪聲中的多種脈沖信號的增強,最后通過逆變換重構(gòu)脈沖信號的時域序列。本文仿真3種常見脈沖信號:連續(xù)波(Continuous wave,CW)信號、線性調(diào)頻(Linear frequency modulation,LFM)信號、雙曲調(diào)頻(Hyperbolic frequency modulation,HFM)信號,添加高斯噪聲、α穩(wěn)定分布噪聲以及非平穩(wěn)行船噪聲,生成不同信噪比或廣義信噪比下的樣本,用以訓練模型。通過在仿真測試集以及實測樣本上的測試,并對比傳統(tǒng)去噪方法,驗證本文方法在脈沖信號去噪與重構(gòu)任務中的有效性。
常見的聲吶發(fā)射脈沖信號有CW信號、LFM信號、HFM信號等。實際水聲環(huán)境中的噪聲常呈現(xiàn)非高斯分布。由于工業(yè)活動、地震風暴及海洋生物等因素的影響,會存在大量的脈沖干擾,這種噪聲可用α穩(wěn)定分布來描述[8]。另外行駛船舶也會產(chǎn)生一種非平穩(wěn)噪聲,本文主要研究高斯噪聲和這兩種非高斯環(huán)境噪聲中的脈沖信號增強。
α穩(wěn)定分布又稱非高斯分布、重尾分布。α穩(wěn)定分布的概率密度函數(shù)除少數(shù)特例外并不存在統(tǒng)一、封閉的解析表達式,一般使用特征函數(shù)來描述其分布特性[9]。
若隨機變量X服從α穩(wěn)定分布,當且僅當其特征函數(shù)滿足
其中,0<α≤2,?1≤β≤1,γ>0,?∞<δ<∞。
α穩(wěn)定分布用4個基本參數(shù)來描述其主要特征。特性指數(shù)α決定概率密度函數(shù)的拖尾厚度,α越小拖尾越厚重,沖擊性越強。偏斜參數(shù)β是分布對稱程度的度量,當β=0時,分布對稱;β<0時,分布具有右偏態(tài);β>0則表示分布具有左偏態(tài)。尺度參數(shù)γ表示分布偏離均值的離散程度,類似于高斯分布中的方差。位置參數(shù)δ類似于高斯分布中的均值,表示了分布的位置[10]。
由于α穩(wěn)定分布噪聲不存在有限的二階統(tǒng)計矩,無法表示其方差,因此將傳統(tǒng)意義上的信噪比進行重定義,稱為廣義信噪比(Generalized signal-tonoise ratio GSNR)[11],如式(3)所示:
行駛船舶的輻射噪聲是一個非平穩(wěn)的隨機過程,可以用局部平穩(wěn)過程來擬合[12],文獻[13]利用如下的信號模型仿真行船噪聲:
其中,ng(t)表示高斯白噪聲,n0(t)表示環(huán)境噪聲,為體現(xiàn)艦船噪聲的非平穩(wěn)性,調(diào)制幅度a可隨機變化。
針對多種復雜背景噪聲中的3種脈沖信號(CW,LFM,HFM)的去噪及重構(gòu)問題,本文提出一種基于深度學習的方法,系統(tǒng)流程圖如圖1所示。首先對傳感器接收信號x(t)進行STFT,獲得STFT復數(shù)譜X(m,k)并輸入去噪卷積神經(jīng)網(wǎng)絡中,輸出去噪信號復數(shù)譜S(m,k),最后通過逆變換可獲得去噪信號的時域序列(t)。
圖1 系統(tǒng)流程圖Fig.1 System f low chart
傳感器接收信號x(t)為純凈脈沖信號s(t)與環(huán)境噪聲n(t)之和,即:
已知STFT為一種線性時頻分析方法,因此對接收信號x(t)進行時頻分析有
其中,X(m,k)、S(m,k)、V(m,k)分別為被噪聲污染的聲吶接收信號、純凈信號以及噪聲的STFT復數(shù)譜,m和k分別為時間幀和頻率幀的序號。
X(m,k)包含實部分量Xr(m,k)與虛部分量Xi(m,k),如式(7)所示:
其中,j為虛數(shù)單位。
本文建立深度去噪網(wǎng)絡完成接收信號STFT譜X到其與純凈信號STFT譜S之差V的映射,獲得估計的殘差譜,利用殘差學習能夠加速網(wǎng)絡訓練并且取得更好的效果。去噪后信號時頻譜,如式(8)所示:
圖2和圖3分別為信噪比或廣義信噪比為0 dB情況下脈沖信號時域序列和時頻圖??梢钥闯?,高斯噪聲在時間域和時頻域上的分布都較為均勻,脈沖信號特征較為明顯。非平穩(wěn)行船噪聲在時間上表現(xiàn)出起伏的特征,此例中中間段信噪比較小,而兩端較大,時域圖中靠近中間段的脈沖被淹沒,而時頻域上脈沖特征仍較為明顯。α穩(wěn)定分布噪聲某些時刻出現(xiàn)能量較強的脈沖噪聲,在時頻圖上表現(xiàn)為平行于頻率軸的亮線,在時域和時頻域上信號特征都相對較弱,更難以檢測。
圖2 信號時域序列Fig.2 Time-domain sequence of signals
圖3 信號時頻圖Fig.3 Spectrogram of signals
本文中脈沖信號去噪網(wǎng)絡采用全卷積的網(wǎng)絡結(jié)構(gòu),模型結(jié)構(gòu)如圖4所示,參數(shù)設(shè)置如表1所示。去噪網(wǎng)絡共15層,第1層到第14層中各層包含一個卷積層和一個ReLU非線性激活層,最后一層僅包含一個卷積層。除最后一層,各卷積層均采用64個卷積核來提取特征,最后一層的卷積核數(shù)目為2,與輸出通道數(shù)相同。網(wǎng)絡輸入特征共兩個通道,分別為接收信號STFT譜X的實部分量Xr和虛部分量Xi,網(wǎng)絡輸出特征包括殘差信號的實部分量r和虛部分量i。
圖4 脈沖信號去噪網(wǎng)絡Fig.4 Pulse signal denoising neural network
表1 脈沖信號去噪網(wǎng)絡參數(shù)設(shè)置Table 1 Parameter setting of pulse signal denoising neural network
去噪網(wǎng)絡的損失函數(shù)如式(10)所示:
其中,M、K分別表示STFT時間幀和頻點的總數(shù),B為批大小。
此小節(jié)利用仿真數(shù)據(jù)對脈沖信號去噪模型進行訓練,并與傳統(tǒng)的基于最小均方誤差(Least mean square,LMS)的自適應濾波方法進行性能對比。
本文的目標是在復雜噪聲背景下對脈沖信號進行去噪。實際接收信號中有可能存在多個甚至不同類型的脈沖信號,并且脈沖信號可能出現(xiàn)在任意時刻,處于任意頻段。因而在生成仿真數(shù)據(jù)集時,一條樣本中需要仿真一到多個脈沖信號,并且脈沖信號的類型隨機產(chǎn)生。為簡化問題,將一條樣本中含有的脈沖數(shù)上限置為2,即一條樣本中至多含有兩個脈沖信號。脈沖信號的起止時間、起止頻率均隨機產(chǎn)生。仿真信號各項參數(shù)如表2所示。
表2 仿真信號數(shù)據(jù)集參數(shù)設(shè)置Table 2 Parameter setting of simulation signal data set
對仿真得到的時域樣本信號進行STFT,設(shè)定窗長為512,窗與窗之間有50%的重疊,去除冗余保存128個頻點,因此1 s的數(shù)據(jù)可以得到128×128×1的三維STFT復數(shù)特征。提取STFT譜的實部分量與虛部分量,并歸一化,作為網(wǎng)絡的輸入。在產(chǎn)生仿真數(shù)據(jù)時,保留純凈信號的時頻域特征,將接收信號與純凈信號幅值譜殘差作為去噪網(wǎng)絡的輸出。
仿真數(shù)據(jù)集包含5000條樣本,劃分數(shù)據(jù)集為訓練數(shù)據(jù)集和測試數(shù)據(jù)集,比例為9:1。
圖5(a)和圖5(b)分別為測試樣本的純凈信號時域序列和時頻圖,其中包括兩條脈沖信號分別為CW信號和LFM信號。圖5(c)~圖5(h)為純凈信號經(jīng)過高斯噪聲、非平穩(wěn)船噪聲以及α穩(wěn)定分布噪聲污染后的信號時域序列和時頻圖。
圖6展示了經(jīng)過本文模型去噪與重構(gòu)后信號的時域序列與時頻圖,可以看到,在3種噪聲條件下,本文模型均能取得較好的去噪結(jié)果。尤其是在α穩(wěn)定分布噪聲樣本中,對比圖5(g)、圖5(h)與圖6(e)、圖6(f),本文模型去除了α穩(wěn)定分布噪聲中的能量很強的寬帶脈沖噪聲,增強了目標脈沖信號,極大地提高了信噪比。對時域圖進行放大如圖7所示,本文模型重構(gòu)的脈沖信號與原始信號近乎重合,對信號特征保留完整。
圖5 仿真測試樣本示例Fig.5 Examples of simulation test samples
圖6 本文模型去噪結(jié)果Fig.6 The denoising results of the neural network model
圖7 本文方法重構(gòu)信號時域放大圖Fig.7 Zoomed diagrams of signal sequence reconstructed by denoising neural network
圖8為LMS濾波方法在高斯噪聲和非平穩(wěn)行船噪聲背景下,通過時域濾波獲得去噪信號的時域圖及其對應的時頻圖。可以看到,在高斯噪聲下,LMS濾波獲得的結(jié)果尚可接受,圖8(c)、圖8(d)中,由于背景噪聲非平穩(wěn),第2個脈沖之后的背景噪聲仍然有較多殘余。去噪信號時域圖中,去噪信號與原始信號差異較大。
圖8 LMS濾波去噪結(jié)果Fig.8 The denoising results of LMS
圖9為LMS濾波在α穩(wěn)定分布噪聲下的去噪結(jié)果??梢钥吹絃MS濾波受到強噪聲影響較大,與圖5(g)、圖5(h)進行比較,時域圖和時頻圖上出現(xiàn)的能量較強的信號均為強噪聲信號,脈沖信號完全被濾除。主要原因是,LMS濾波是基于二階統(tǒng)計量的方法,對于α穩(wěn)定分布噪聲下的信號處理失效。
圖9 LMS濾波去噪結(jié)果Fig.9 The denoising results of LMS
對比本文提出的深度學習去噪方法與傳統(tǒng)的LMS濾波方法,本文在3種噪聲分布中的去噪性能均優(yōu)于LMS濾波,能夠有效抑制噪聲,提升信噪比,并且能夠較為完整地重構(gòu)信號,恢復信號幅度和相位特征,在多種噪聲場景中的多種脈沖信號去噪任務中表現(xiàn)出良好的性能和泛化能力。
截取某實驗中接收的兩段脈沖樣本,一條為CW信號,一條為LFM信號,如圖10所示。實際實驗中,無法獲得接收信號的純凈樣本,然而由于本次實驗的條件較為理想,可以將接收信號近似作為純凈脈沖信號。截取美國國家公園采集的冰川灣水下聲響中的“中度風(Moderate Winds)”樣本作為環(huán)境噪聲樣本[14],如圖11所示,可以看到此例中的風噪聲體現(xiàn)出一定的α穩(wěn)定分布特性。在實測脈沖中添加噪聲,使信噪比為?1 dB,如圖12所示,可以看到在時域圖中脈沖信號被噪聲淹沒,待檢測的脈沖在時頻譜圖中能量也相對較弱。經(jīng)過去噪模型增強,可得到處理后脈沖信號,如圖13所示,可以看到非高斯噪聲被有效抑制,各個脈沖信號相較處理前被顯著增強。對比圖13(b)與圖10(b)可以看到本文方法增強的信號比截取實測脈沖信號更加純凈,脈沖信號之外時段與頻段的噪聲分量都得到了有效的抑制。放大重構(gòu)信號中0.008 s數(shù)據(jù),如圖14所示,重構(gòu)后的信號近似貼合截取脈沖。實驗結(jié)果體現(xiàn)了模型在實測數(shù)據(jù)上良好的泛化性,預示著良好的應用前景。
圖10 實測脈沖信號Fig.10 Actual measured pulses
圖11 實測噪聲信號Fig.11 Actual measured noise
圖12 實測脈沖添加實測噪聲Fig.12 Measured pulses add measured noise
圖13 本文模型去噪結(jié)果Fig.13 The denoising results of the neural network model
圖14 本文方法重構(gòu)信號時域放大圖Fig.14 Zoomed diagram of signal sequence reconstructed by denoising neural network
本文提出一種基于深度學習的能夠在高斯和非高斯環(huán)境噪聲中增強與重構(gòu)水聲脈沖信號的方法。通過建立全卷積的脈沖信號去噪模型,學習接收信號STFT特征與接收信號和純凈信號STFT特征殘差之間的映射,實現(xiàn)噪聲抑制,最后通過逆變換重構(gòu)脈沖信號。仿真實驗結(jié)果顯示,模型可在3種背景噪聲中有效實現(xiàn)脈沖信號的去噪與重構(gòu),相較傳統(tǒng)的LMS濾波方法獲得了更加優(yōu)越的性能。通過在實測數(shù)據(jù)上的測試,模型顯示了在實測數(shù)據(jù)上較好的泛化性,體現(xiàn)了一定的工程應用前景。