高登峰, 楊 波, 劉 洪, 楊紅雨
(1.四川大學國家空管自動化系統(tǒng)技術(shù)重點實驗室, 成都 610065; 2.四川大學計算機學院, 成都 610065)
在空管領(lǐng)域當中,由于通訊條件的限制,通信雙方的語音信號總是不可避免的會被噪聲所干擾,嚴重損害了語音的可懂度,降低了通信質(zhì)量.對此,前端語音增強技術(shù)仍是最常用和最有效的解決方法之一[1].然而,如何在空管對話環(huán)境中,即單聲道通信和復(fù)雜非平穩(wěn)噪聲較多的條件下取得良好的語音增強表現(xiàn),仍是一個重要的挑戰(zhàn).
在傳統(tǒng)的語音增強算法當中,無監(jiān)督的方法有譜減法[2]和濾波器法[3],這類方法都是基于語音和噪聲之間的數(shù)學假設(shè).缺點是語音增強的性能不佳且對未知噪聲類型的泛化性較差.隨著機器學習技術(shù)的發(fā)展,語音增強在有監(jiān)督的方法方面取得了很大的進展,如基于非負矩陣分解[4]的語音增強方法,但是其語音和噪聲是分開處理的,無法很好的學習語音和噪聲之間的復(fù)雜關(guān)系.
近年來,基于深度學習的語音增強方法取得了廣泛的研究成果[5-7].這類方法的基本原理是通過深度學習技術(shù)來建立一種噪聲語音到干凈語音間的映射函數(shù).在文獻[5,6,8]當中,已經(jīng)證明基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)的語音增強方法要比傳統(tǒng)的語音增強方法表現(xiàn)更好.此外,基于深度神經(jīng)網(wǎng)絡(luò)的語音增強方法還比基于MMF的語音增強方法占用更少的計算資源[9].但是,深度神經(jīng)網(wǎng)絡(luò)的語音增強方法仍然存在兩個問題沒有解決.(1) 語音信號的局部時間譜結(jié)構(gòu)的信息利用;(2) 作為空管語音識別系統(tǒng)的前端之一,采用深度神經(jīng)網(wǎng)絡(luò)會占據(jù)過多的存儲空間和計算資源,不利于部署在小型設(shè)備上.
文獻[6,8]采用的DNN模型是以全連接的方式來處理語音特征的,這樣就無法有效的利用語音信號的局部時間譜結(jié)構(gòu)信息.相反,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的體系結(jié)構(gòu)則可以更加關(guān)注輸入特征的局部時間譜結(jié)構(gòu).與DNN相比,CNN更加關(guān)注每個時頻單元(T-F)周圍的鄰近區(qū)域,這樣CNN可以更好的擬合信號中空間信息和時間信息的相關(guān)性,并減少信號中的平移方差[10].在圖像處理領(lǐng)域,CNN已經(jīng)取得了巨大的研究成果,如圖像識別[11],圖像分類等.而音頻處理領(lǐng)域則借鑒了圖像處理的一些思想,也使用CNN取得了廣泛的研究成果.例如,文獻[12]提出了一種基于CNN的音樂去除模型,與DNN相比,采用CNN獲得了更好的識別效果.文獻[13]通過估計時頻單元的理想比率掩模,采用CNN來分離語音和噪聲.此外,CNN通過權(quán)值共享還可以大規(guī)模的減少需要訓練的參數(shù)數(shù)量從而降低網(wǎng)絡(luò)規(guī)模,節(jié)約存儲空間和計算資源,使得其可以更好地部署在小型設(shè)備上.
CNN的方法是一種數(shù)據(jù)驅(qū)動的方法,其基本原理是對生物神經(jīng)網(wǎng)絡(luò)的一種模擬和近似,利用大量的神經(jīng)元通過互相連接來組成的一種自適應(yīng)非線性的模擬系統(tǒng),通過學習和訓練來調(diào)整其網(wǎng)絡(luò)神經(jīng)元的參數(shù),從而構(gòu)建一種從噪聲語音特征到干凈語音特征的映射模型,然后通過模型來進行語音增強.但目前還沒有一種CNN的語音增強方法在空管語音數(shù)據(jù)集上取得過成功的表現(xiàn).在目前的語音增強方法研究當中[6,14],大部分所使用訓練集的噪聲來源皆為單一噪聲,如嘈雜人聲,汽車聲,雨聲等.其噪聲特征較為明顯,對語音的破壞程度相對較小.而在空管對話系統(tǒng)當中,受到通信條件的限制,其語音信號當中一般包含多種復(fù)雜噪聲,其噪聲類型有復(fù)雜加性噪聲,信號傳播導(dǎo)致的聲學混響,加性寬帶電子噪聲,非線性信號失真引起的噪聲,信號傳播干擾引起的噪聲以及相關(guān)儀器引起的噪聲等.其噪聲特征復(fù)雜,對語音的破壞程度更大.此外,之前的大部分研究方法當中所使用的語音特征多為利用短時傅里葉變換到頻域后,對每幀進行取絕對值和對數(shù)運算的LPS特征[5,6,9].在LPS特征域中,不同頻率區(qū)間的目標值是獨立預(yù)測的,沒有任何其它的相關(guān)約束,并且不容易利用聽覺感知中的一些信息[15].因此,當僅利用LPS作為語音特征來進行語音增強處理時,重建后的波形往往會出現(xiàn)部分失真.所以,本文提出了一種多特征聯(lián)合訓練的網(wǎng)絡(luò)架構(gòu),采用多個語音特征來聯(lián)合優(yōu)化目標函數(shù).這種特征不同但優(yōu)化目標相同的架構(gòu)可以顯著的改善重建后語音的魯棒性.此外,次要特征還可以作為輔助信息來用作其它用途,比如語音質(zhì)量的評測,語音設(shè)備來源檢測[16]等.
本方法的目標是通過卷積神經(jīng)網(wǎng)絡(luò)來建立從噪聲語音特征到干凈語音特征的映射模型.所采用的框架與文獻[5]類似.在訓練階段,準備多組噪聲語音-干凈語音的語音數(shù)據(jù)對,然后提取其特征,分為一個主要特征和一個次要特征.然后將其特征合并為聯(lián)合特征一起作為模型的訓練特征,以訓練回歸網(wǎng)絡(luò).在語音增強階段,則將噪聲語音的聯(lián)合特征輸入到訓練好的網(wǎng)絡(luò)模型中,以產(chǎn)生增強后的聯(lián)合特征.在語音重建階段,則從增強得到的聯(lián)合特征中提取出語音的主要特征,并重建語音波形信息,其具體流程如圖1所示.
圖1 語音增強基本流程圖Fig.1 Basic flowchart of speech enhancement
首先,需要確定所采用的語音特征.在主要特征當中,理想二元掩模,理想比例掩模,短時傅里葉變換幅度譜及其掩模[17-18],對數(shù)功率譜等特征都曾被使用,綜合比較其結(jié)果后發(fā)現(xiàn),采用對數(shù)功率譜作為主要的訓練目標,其表現(xiàn)要更為出色[19].次要特征選取的是對數(shù)梅爾倒譜系數(shù)(Logarithmic Mel-Frequency Cepstrum, L-MFCC).MFCC特征是語音識別[20],說話人識別[21]和音樂建模中最流行的語音特征之一,應(yīng)用梅爾濾波可以使處理后的語音信號與人類的聽覺感知相一致,次要目標選取MFCC可以更好的約束網(wǎng)絡(luò).此外,MFCC中的離散余弦變換(Discrete Cosine Transform, DCT)操作還可以將不同信道的相關(guān)信息合并到每個MFCC系數(shù)當中,這樣可以學習到語音不同頻率域的相關(guān)信息.此外,對DCT操作進行了尺寸固定,提取出的MFCC特征尺寸與梅爾濾波器的個數(shù)相同.同時為了與LPS的值域保持一致以便更好地約束網(wǎng)絡(luò)權(quán)重的分配,還對MFCC執(zhí)行了取對數(shù)操作(L-MFCC).特征提取的公式如下.
N(t,f)=log(|STFT(nu)|)
(1)
M(t,f)=log(|MFCC(nu)|)
(2)
其中,N表示語音信號nu的對數(shù)功率譜;STFT表示短時傅里葉變換;而M表示為語音信號nu的對數(shù)梅爾倒譜;MFCC表示梅爾倒譜濾波;t和f分別代表語音信號的時間和頻率.
然后,對語音特征執(zhí)行擴幀操作.文獻[22]已經(jīng)證明,特征幀的擴展有利于將語音中的噪聲信息更好地反饋到神經(jīng)網(wǎng)絡(luò)當中(稱之為噪聲感知訓練),相較于單幀輸入的方式,多幀堆疊可以很好地提高語音增強的性能[6].設(shè)nt為N(t,f)的tth幀,將上下文擴展幀表示為yt,則
yt=[nt-τ,…,nt-1,nt,nt+1,…,nt+τ]
(3)
最后,將兩種特征組合為聯(lián)合特征S(t,f),作為訓練網(wǎng)絡(luò)的輸入和輸出,即
S(t,f)=Concatenate(N(yt,f),M(yt,f))
(4)
同時,對聯(lián)合特征做歸一化處理,使其均值為零,方差為一,這樣處理可以使得訓練出的網(wǎng)絡(luò)模型具有更好的性能.
本研究并沒有使用傳統(tǒng)的CNN架構(gòu)[10],即包含多層卷積層和池化層,輸出層則為若干全連接層的架構(gòu).因為實驗發(fā)現(xiàn),池化層的加入會導(dǎo)致增強后的語音信息出現(xiàn)嚴重的失真[9].因此,本文提出了一種結(jié)合自動編碼器原理的卷積網(wǎng)絡(luò).它由若干層重復(fù)的卷積層,批標準化層,ReLU激活層所組成,沒有任何的池化層和采樣層,在輸出層采用的仍然是卷積層,這使得網(wǎng)絡(luò)成為了一個全卷積網(wǎng)絡(luò)(FCN).注意,在本文中所提到和采用的卷積層指的都是一維卷積,卷積方向均為頻域方向.
FCN網(wǎng)絡(luò)分為編碼器和解碼器兩部分,首先沿著編碼器將語音特征逐步編碼為較高的維度,之后則沿著解碼器將其逐步解碼還原,其中編碼器和解碼器的卷積層數(shù)量和維度皆保持對稱.此外,本文還將跳躍連接添加到FCN網(wǎng)絡(luò)當中,以便在訓練階段更好地進行優(yōu)化并提高性能.跳躍連接的添加方式是將編碼器和解碼器中的相同維度的層分別進行連接,這樣的網(wǎng)絡(luò),本文稱為LINK-FCN網(wǎng)絡(luò)網(wǎng)絡(luò),其結(jié)構(gòu)如圖2所示.
另外,還與其它多種網(wǎng)絡(luò)結(jié)構(gòu)進行了性能對比,其中包括作為基線的全連接網(wǎng)絡(luò)(DNN),沒有添加跳躍連接的全卷積網(wǎng)絡(luò)(FCN)以及僅使用LPS特征的LINK-FCN-1f網(wǎng)絡(luò).
在之前的基于神經(jīng)網(wǎng)絡(luò)的語音增強研究當中[5-6,19],都使用了基于RBM或者基于自動編碼器的預(yù)訓練技術(shù)來用于神經(jīng)網(wǎng)絡(luò)的學習.但實驗發(fā)現(xiàn),當給定的訓練數(shù)據(jù)集足夠大時,便可以跳過預(yù)訓練階段.所取得的訓練結(jié)果與采用了預(yù)訓練的結(jié)果相比,幾乎沒有區(qū)別.
圖2 LINK-FCN網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 LINK-FCN network structure diagram
所有網(wǎng)絡(luò)的訓練,均采用最小均方誤差作為損失函數(shù),采用Adam作為優(yōu)化函數(shù),Batchsize為512,卷積層的卷積核大小為11,其它具體的網(wǎng)絡(luò)參數(shù)如表1所示.而學習率則根據(jù)不同的網(wǎng)絡(luò)采用了不同的大小.為了保證所有模型訓練的充分性,實驗會通過調(diào)整網(wǎng)絡(luò)模型的超參數(shù),使其損失值loss達到最小,精度值acc達到最高.所有的模型均保證了其訓練效果為最佳.
在預(yù)測階段,則是對未知噪聲語音進行語音增強并進行波形重建,首先利用已經(jīng)訓練完成的網(wǎng)絡(luò)模型來對噪聲語音進行增強處理,產(chǎn)生增強語音的聯(lián)合特征幀.然后從中提取出LPS特征,之后由以下公式來進行頻譜重構(gòu).
(5)
其中,∠Xf(d)表示噪聲語音X在dth幀處的相位信息.雖然語音的相位信息在人類的聽覺識別當中具有十分重要的作用,但是考慮到人耳對微小的相位信息失真并不十分敏感[23],可以直接利用原始噪聲語音當中的相位信息.所以,利用模型輸出的LPS特征結(jié)合原始噪聲語音中的相位信息,然后執(zhí)行逆傅里葉變換操作將信號轉(zhuǎn)換回時域,再利用文獻[19]中語音幀的重疊相加的方法合成整個語音波形.最后,噪聲語音文件便被語音增強成為干凈語音文件.
實驗所采用的數(shù)據(jù)皆是從空管地空通話系統(tǒng)中實際通信的語音流當中采集而來,數(shù)據(jù)來自成都空管局,成都機場,太原機場,上海機場等地.其中對話人的性別分布均衡,中英文指令分布均衡,語音地區(qū)分布均衡.這樣設(shè)置的數(shù)據(jù)集可以增強網(wǎng)絡(luò)的泛化性且不會對性能產(chǎn)生消極影響.
數(shù)據(jù)集準備完畢后,還需要進一步進行處理.首先,利用語音活動檢測系統(tǒng)[24](Voice Activity Detection,VAD)對數(shù)據(jù)進行靜音切除,并將處理后的語音數(shù)據(jù)統(tǒng)一設(shè)置為單聲道,采樣率為8 kHz的WAV文件.另外,由于空管對話系統(tǒng)的條件限制,實驗很難找到?jīng)]有任何噪聲的干凈語音,因此,根據(jù)頻域信噪比(F-SNR)來對語音數(shù)據(jù)進行分類,將F-SNR>10 dB的語音文件稱之為“干凈語音”,而將F-SNR<2 dB的文件稱為“噪聲語音”.其中,頻域信噪比(F-SNR)的計算公式如下.
F-SNR(dB)=
(6)
其中,Asingal為信號譜幅度;STFT指的是短時傅里葉變換;std指的是標準偏差;mean指的是其算數(shù)平均值.
接下來,從“干凈語音”當中隨機選取一批數(shù)據(jù)作為語音樣本,共計20 339條語音,時長總計約為40 h.而噪聲的選取則是從“噪聲語音”當中選取某些純噪聲片段而獲得的,包括復(fù)雜加性噪聲,復(fù)雜非平穩(wěn)噪聲,聲學混響,加性寬帶電子噪聲,信號失真噪聲,儀器噪聲等,大致200余類噪聲.所有的語音樣本都通過隨機選取噪聲和平滑擴展的方式被添加上了噪聲.即
X(t)=S(t)+α·N(t)
(7)
其中,系數(shù)為
(8)
X(t)代表合成后的噪聲語音信號;S(t)表示干凈語音信號;N(t)表示噪聲信號.通過調(diào)節(jié)參數(shù)α來調(diào)節(jié)噪聲大小,使得合成后的語音信號信噪比(SNR)均勻分布在0 dB到10 dB的區(qū)間之內(nèi),注意,用于合成的“干凈語音”并非真正的干凈語音,所以合成后語音的真實信噪比會比實際的更小,但并不影響將其作為噪聲大小程度的依據(jù).
最終用于訓練的數(shù)據(jù)集共有合成的語音文件對40 678個,語音時長共計80 h左右.并用同樣的方法,采用不同的數(shù)據(jù)構(gòu)建測試集,共有合成語音文件對1 000個,語音時長共計2 h左右.
驗證集的構(gòu)造則分為兩種,驗證集1是與上述方法相同的合成語音,每個語音都會根據(jù)式(7)合成SNR為0 dB,2 dB,5 dB,10 dB的4組數(shù)據(jù),每組間的語音相同.驗證集2則是非合成的噪聲語音,即從真實的噪聲語音當中隨機選取的一批數(shù)據(jù).
此外,進行特征提取時,語音幀的長度為256(即32 ms),幀位移長度為128.使用短時傅里葉變換(DFT)來將語音信號轉(zhuǎn)換到頻域.進行MFCC變換時,采用的梅爾濾波器的個數(shù)為78個,窗口函數(shù)選用的為Hamming窗,擴幀時的位移為7.
3.2.1 DNN vs FCN實驗1是將作為基線的DNN網(wǎng)絡(luò)與本文提出的FCN網(wǎng)絡(luò)來進行性能對比,以證明FCN網(wǎng)絡(luò)進行語音增強的優(yōu)越性.為了比較其性能表現(xiàn),實驗將兩個網(wǎng)絡(luò)的參數(shù)數(shù)量都維持在相同的數(shù)量級,且FCN沒有添加跳躍連接.采用的語音特征皆為LPS和L-MFCC的聯(lián)合特征.具體的結(jié)構(gòu)參數(shù)如表1所示.
3.2.2 FCN vs LINK-FCN實驗2是將FCN與添加了跳躍連接的LINK-FCN進行了性能對比,以證明跳躍連接的添加可以切實提高FCN中語音增強的性能表現(xiàn).其網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)完全相同,只是LINK-FCN在對應(yīng)的網(wǎng)絡(luò)層中添加了跳躍連接,采用的語音特征皆為LPS和L-MFCC的聯(lián)合特征.其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
3.2.3 LINK-FCN-1f vs LINK-FCN實驗3是將僅使用LPS作為特征的LINK-FCN-1f與使用LPS和L-MFCC聯(lián)合特征的LINK-FCN進行了性能對比,以證明多特征聯(lián)合訓練的架構(gòu)可以很好的提高語音增強的性能.實驗所采用的網(wǎng)絡(luò)結(jié)構(gòu)相同,僅訓練特征不同.
表1中,F(xiàn)latten指的是扁平層;Dense指的是全連接層;Conv1D指的是一維卷積層;BN指的是批標準化層(Batch Normalization, BN);Nodes指的是每層卷積核的數(shù)目.
為了評估和對比各個網(wǎng)絡(luò)的語音增強的性能表現(xiàn),實驗采用了4種常用的客觀測量指標和一種主觀評價指標來進行性能評判.分別是平均絕對誤差比對(Mean Absolute Deviation, MAD),頻域信噪比(Frequency Signal-Noise ratio, F-SNR),語音質(zhì)量感知評估(Perceptual Evaluation of Speech Quality, PESQ)和短時客觀可懂度(Short-Time Objective Intelligibility, STOI).
平均絕對誤差比對(MAD)是用來評判模型表現(xiàn)常用的度量之一,表示模型預(yù)測的估計值與真實值之間的差異化程度,其值越低越好.計算公式為
(9)
其中,f(Xi)為根據(jù)模型得出的估計語音特征;Yi為真實干凈語音特征,用來對比的特征為LPS.
信噪比一直是衡量語音失真程度的常用指標之一,但由于真實的干凈語音并不可見,所以采用頻域信噪比(F-SNR)作為比較標準,其計算方法如式(6)所示.
語音質(zhì)量感知評估(PESQ)是ITU-T在2001年推出的P.862標準中建議使用的語音質(zhì)量評價指標.其得分范圍在0.5~4.5之間,得分越高則表示語音質(zhì)量相對越好.
表1 網(wǎng)絡(luò)配置參數(shù)
短時客觀可懂度(STOI)是音頻處理領(lǐng)域常用的評價指標之一,通過與原始的干凈語音進行時頻對比而得出評分,其值在0~1.0之間,分值越高表明越接近干凈語音,其語音質(zhì)量越好.實驗采用了兩種STOI算法來進行評分,一種是傳統(tǒng)的STOI算法,一種是Jesper Jensen提出的ESTOI(Extended STOI)算法[25].
主觀評價方法則采用常用的平均意見分法(Mean Opinion Score,MOS).參與評分的人員共有20人,在不告知數(shù)據(jù)來源的情況下,聽取原始語音和增強后的語音,并對該語音做出0~5.0分的評價.每個網(wǎng)絡(luò)模型產(chǎn)生的數(shù)據(jù)為5條,然后隨機分發(fā)給測試人員.
在不同SNR級別下的測試結(jié)果如表2~表5所示,其中的值均從驗證集1當中測得數(shù)據(jù)的平均值,數(shù)值加粗的是在當前組內(nèi)表現(xiàn)最優(yōu)的數(shù)據(jù).
表2 在0 dB下的對比結(jié)果
表3 在2 dB下的對比結(jié)果
由表2~表5可以看出,在不同SNR級別的噪聲語音環(huán)境當中,本文提出的方法均能將語音提升到F-SNR>9 dB的程度,說明提出的方法基本都具有很好的語音增強表現(xiàn).在訓練數(shù)據(jù)當中出現(xiàn)的噪聲類型都取得了很好的濾除效果.且對于復(fù)雜加性噪聲和復(fù)雜平穩(wěn)噪聲的濾除性能更好,其原理可能是CNN可以更充分地利用語音的時頻相關(guān)性,使得其對于在整個時域上分布規(guī)律的噪聲類型擁有更好的濾除性能.但是,無論噪聲數(shù)據(jù)的SNR級別是多少,提出的方法將其F-SNR提升的上限基本相同,這也證明了深度學習是一種數(shù)據(jù)驅(qū)動的方法,其所能達到的最大性能與所使用的數(shù)據(jù)相關(guān).
另外,從表2~表5還可以看出,在任何SNR級別的驗證數(shù)據(jù)下,無論是否添加跳躍連接,在相同參數(shù)級別的條件下,F(xiàn)CN網(wǎng)絡(luò)結(jié)構(gòu)總是要優(yōu)于DNN網(wǎng)絡(luò)結(jié)構(gòu),這也證明FCN可以更好的利用語音的時頻信息,擁有更好的語音增強表現(xiàn).
表4 在5 dB下的對比結(jié)果
表5 在10 dB下的對比結(jié)果
通過FCN和LINK-FCN的對比,可以發(fā)現(xiàn),跳躍連接的添加可以有效地提高網(wǎng)絡(luò)的性能,每個SNR級別的驗證集下,LINK-FCN相比于FCN,PESQ的提升都在0.1以上,ESTOI的提升也普遍都在0.03以上,是一個不小的性能提升.分析其原因是,F(xiàn)CN網(wǎng)絡(luò)中的解碼器解碼時會丟失部分編碼器處的語音信息,而跳躍連接的添加則為解碼器提供了部分編碼器處的信息,使得增強后的語音魯棒性更好.
而通過LINK-FCN和LINK-FCN-1f的對比,可以發(fā)現(xiàn),多特征聯(lián)合訓練的網(wǎng)絡(luò)性能,要遠遠好于單特征訓練的網(wǎng)絡(luò)性能,其中PESQ的提升達到了0.15以上,ESTOI的提升也有0.04以上.還可以看出,在SNR為0 dB的驗證集當中,單特征的LINK-FCN-1f表現(xiàn)甚至還差于多特征的DNN網(wǎng)絡(luò).這也證明了,多特征聯(lián)合訓練的網(wǎng)絡(luò)可以很大程度地提高語音增強的性能表現(xiàn).另外,在MAD項的表現(xiàn)上,LINK-FCN-1f的表現(xiàn)則優(yōu)于其他網(wǎng)絡(luò),原因是MAD進行分析對比時僅采用了LPS特征,這也證明了單特征訓練的網(wǎng)絡(luò)往往會陷入該特征過擬合的狀態(tài),使得網(wǎng)絡(luò)的魯棒性變差.
因為現(xiàn)實中面對的噪聲語音并非合成的噪聲語音,所以實驗也準備了真實的噪聲語音來進行評測(即驗證集2),但由于沒有真實的干凈語音來進行對比分析,所以采用主觀評測的方式來進行,測試結(jié)果如表6所示,其結(jié)果為平均值.
表6 主觀性能對比
從表6中可以看出,實驗結(jié)果與驗證集1的表現(xiàn)基本一致,本文所提出的方法均能對真實的噪聲語音進行很好的噪聲濾除效果,尤其是對于在訓練數(shù)據(jù)集當中出現(xiàn)過的噪聲類型.而對于未出現(xiàn)在訓練數(shù)據(jù)集中的未知噪聲類型,模型仍舊可以對其中的復(fù)雜加性噪聲類型和復(fù)雜平穩(wěn)噪聲類型以及分布接近的復(fù)雜非平穩(wěn)噪聲進行一定的濾除,而其它噪聲類型的濾除性能則有所下降.其原理是CNN的局部連接和權(quán)值共享特性,使得網(wǎng)絡(luò)模型對未知噪聲類型擁有更好的泛化能力.
此外,還選取了增強前后的語音頻譜圖作為對比,由于篇幅限制,僅選取一例來進行分析,結(jié)果如圖3所示,從上到下依次為噪聲語音,干凈語音,以及對應(yīng)網(wǎng)絡(luò)語音增強后的語音,其中虛線方框處表示信息丟失的部分.
從圖3中可知,本文方法基本取得了不錯的語音增強效果,可很好地在保留原有語音信息的基礎(chǔ)上去除噪聲,但相較于原有的干凈語音,都存在不同程度的信息失真.圖3中,DNN與FCN相比,丟失了更多的語音高頻信息,而FCN則普遍失真較少.這也證實了DNN對于語音信號的局部時間譜結(jié)構(gòu)信息無法有效的利用.而FCN和FCN-LINK的對比則證明,跳躍連接的添加可有效地減少語音信息的丟失,使得網(wǎng)絡(luò)的魯棒性更好.FCN-LINK和FCN-LINK-1f的對比則可以看出,F(xiàn)CN-LINK-1f在中低頻域丟失了很多的信息,而L-MFCC特征的加入則使得中低頻語音失真大大減少且更加一致,分析其原因是L-MFCC中的Mel濾波強調(diào)了低頻信息,這也證明了多特征聯(lián)合訓練的方式可以顯著的提高增強后語音信息的魯棒性.
圖3 語音頻譜圖對比Fig.3 Speech spectrum comparison
綜上所述,本文所提出的基于多特征的全卷積神經(jīng)網(wǎng)絡(luò)的語音增強方法在空管語音數(shù)據(jù)集上取得了最優(yōu)秀的表現(xiàn).
在本文中,研究了在復(fù)雜噪聲條件下的空管對話語音的語音增強技術(shù).提出了一種基于多特征的全卷積神經(jīng)網(wǎng)絡(luò)的語音增強方法,同時在網(wǎng)絡(luò)中添加跳躍連接來獲得更好的性能表現(xiàn).還通過在目標函數(shù)當中添加L-MFCC特征來約束網(wǎng)絡(luò),顯著增強了增強語音的魯棒性.實驗證明,本文所提出的方法在空管對話語音數(shù)據(jù)集當中取得了十分優(yōu)秀的表現(xiàn),可以顯著地減少語音信息的失真.