孫立輝 曹麗靜 張竟雄
摘 要:步兵戰(zhàn)車強噪聲背景下由于強背景噪聲的存在,既影響了口令識別的正確率,又降低了指揮所后臺監(jiān)聽的清晰度,為了提高語音質量,本文對口令數(shù)據進行增強處理。為此,本文提出了一種基于升降編解碼全卷積神經網絡(IncreaseDecreaseEncoderDecodeConvolutionNeuralNetwork,IDEDCNN)的語音增強算法,該算法將輸入語音信號通過預處理,獲取其傅里葉幅度譜特征,并將連續(xù)8幀的語音信號作為網絡的輸入,通過編碼器來對相鄰多幀語音信號建模以提取上下文信息,利用解碼器挖掘當前待增強語音幀和上下文信息之間的聯(lián)系,從而實現(xiàn)語音增強的目的。通過實驗證明了該算法能夠實現(xiàn)較好的語音增強效果。
關鍵詞:噪聲估計;語音增強;全卷積神經網絡
【Abstract】Duetothepresenceofstrongbackgroundnoiseinthebackgroundofinfantryfightingvehicles,theaccuracyofpasswordrecognitionisnotonlyaffected,butalsotheclarityofbackgroundmonitoringofcommandpostisreduced.Inordertoimprovethevoicequality,thispapercarriesoutenhancedprocessingofpassworddata.Tothisend,thispaperputsforwardaliftdecodingtheconvolutionalNeuralNetwork(happensDecreaseEncoderDecodeConvolutionNeuralNetwork,IDEDCNN),whichisthespeechenhancementalgorithm.Inthisalgorithm,theinputspeechsignalispreprocessed,theFourieramplitudespectrumfeaturesareobtained,andeightadjacentframesofspeechsignalaretakenasnetworkinput,modelofadjacentframesofvoicesignalismodeledthroughtheuseoftheencodertoextractcontextinformation.Thedecoderisusedtominetheconnectionbetweenthespeechframeandthecontextinformationsoastorealizethepurposeofspeechenhancement.Experimentalresultsshowthatthisalgorithmcanachievebetterspeechenhancementeffect.
【Keywords】noiseestimation;speechenhancement;FCNN
作者簡介:孫立輝(1970-),男,博士,教授,主要研究方向:計算機視覺、機器學習;曹麗靜(1994-),女,碩士研究生,主要研究方向:語音增強、深度學習;張竟雄(1996-),男,碩士研究生,主要研究方向:計算機視覺、深度學習。
0 引 言
隨著軍事化訓練的自動化,實現(xiàn)對綜合采集的戰(zhàn)士口令數(shù)據的識別,對評估戰(zhàn)士的訓練效果具有重要意義。在戰(zhàn)車訓練過程中要對采集的戰(zhàn)士口令數(shù)據進行后臺監(jiān)聽以及口令識別操作。但是由于戰(zhàn)車強噪聲背景的存在,導致目前的算法無法實現(xiàn)較好的口令識別效果,因此,有必要增強口令數(shù)據,從而提高監(jiān)聽效果和口令識別準確率。
神經網絡具有強大的學習能力,能夠很好地實現(xiàn)語音增強的效果。文獻[1]提出利用冗余卷積編碼器解碼器網絡結構學習有噪聲語音光譜和干凈語音光譜之間的映射,解決了助聽器中存在的噪聲問題,提高了語音的清晰度。文獻[2]通過將新的網絡建立到編碼器和譯碼器上,增加基于卷積的短時傅里葉變換層(STFT)和逆STFT層來模擬STFT的正逆操作,得到了較好的語音增強效果。文獻[3]并沒有直接對時域信號進行處理,而是將信號轉換為頻域上的信號,并且使用增強STFT幅度和干凈STFT之間的平均絕對誤差損失來訓練CNN,該方法避免了無效STFT問題,實驗結果表明該算法能夠完成增強的目的。
本文提出了一種基于升降編解碼全卷積神經網絡(IncreaseDecreaseEncoderDecodeConvolutionNeuralNetwork,IDEDCNN)的語音增強算法,該算法將輸入語音信號通過預處理,獲取其傅里葉幅度譜特征,并將連續(xù)8幀的語音信號作為網絡的輸入,通過編碼器來對相鄰多幀語音信號建模以提取上下文信息,利用解碼器挖掘當前待增強語音幀和上下文信息之間的聯(lián)系,從而實現(xiàn)語音增強的目的。通過實驗證明了該算法能夠實現(xiàn)較好的語音增強效果。
1 步兵戰(zhàn)車環(huán)境下語音增強問題描述
步兵戰(zhàn)車強噪聲背景下的語音數(shù)據是由戰(zhàn)士的口令數(shù)據s和發(fā)動機等背景噪聲d組成的帶噪數(shù)據y,即:
y=s+d,(1)
步兵戰(zhàn)車環(huán)境下的語音增強目標就是輸入帶噪語音數(shù)據y,得到s的較為準確的估計值s'。為了完成步兵戰(zhàn)車背景下戰(zhàn)士語音數(shù)據增強的任務,在網絡的訓練階段使網絡學習含噪語音特征和干凈語音特征之間的映射關系,即:
s'=f(y),(2)
在增強階段利用訓練好的模型獲得估計的干凈語音信號。步兵戰(zhàn)車環(huán)境下戰(zhàn)士語音口令數(shù)據增強系統(tǒng)如圖1所示。
2 升降編解碼全卷積神經網絡
本文通過實驗驗證直接利用全卷積神經網絡結構實現(xiàn)步兵戰(zhàn)車環(huán)境下戰(zhàn)士語音口令數(shù)據的增強,無法實現(xiàn)較大跨度的增強效果,提高語音的質量。受Lee等人[1]利用R-CED(R-ConvolutionEncodeDecode)網絡實現(xiàn)了助聽器語音數(shù)據的增強,本文提出了另外一種卷積網絡體系結構,即升降編解碼全卷積神經網絡(IncreaseDecreaseEncoderDecodeConvolutionNeuralNetwork,IDEDCNN)來解決步兵戰(zhàn)車環(huán)境下戰(zhàn)士語音口令數(shù)據增強。升降編解碼全卷積神經網絡結構如圖2所示。
步兵戰(zhàn)車背景下戰(zhàn)士語音口令增強網絡的輸入為129*8的STFT矢量,網絡是重復的卷積、歸一化和ReLu激活函數(shù)組成,網絡深度為15個卷積層,實驗訓練輪數(shù)16輪,學習率最初設置為a=0.0015,并且當驗證損失在4次訓練不變時,學習率依次下降為a/2,a/3,a/4來進行訓練,損失函數(shù)為交叉熵,為了驗證本文提出網絡結構的可行性,與FCN結構進行對比,2種網絡結構見表1。
3 實驗與結果分析
3.1 數(shù)據集
步兵戰(zhàn)車環(huán)境下戰(zhàn)士語音口令數(shù)據增強分為訓練和增強兩個階段。對此擬做闡釋分述如下。
(1)訓練數(shù)據集。實驗數(shù)據集分為訓練集、測試集和驗證集,干凈數(shù)據為CommonVoice,噪聲數(shù)據是步兵訓練場上采集的各種戰(zhàn)車的背景噪聲,并且在0dB信噪比時隨機添加噪聲來增強魯棒性測試集。訓練集共計5000個語音數(shù)據段,測試集200個語音數(shù)據段,實驗中1%的數(shù)據集作為驗證集。
(2)增強數(shù)據集。增強階段輸入含噪語音口令數(shù)據,進行特征提取后輸入到預訓練好的模型中,進行增強和語音重構后,獲得增強后的數(shù)據集。數(shù)據集共計3300條步兵戰(zhàn)車強噪聲背景下戰(zhàn)士語音口令數(shù)據。
3.2 預處理和參數(shù)選取
將輸入的音頻數(shù)據進行降采樣操作,降到8kHz,通過256點短時傅里葉變換(32ms漢明窗口)計算得到頻譜矢量,窗口移動長度為8ms,并且通過對稱移除信號操作,將256點的短時傅里葉(theshort-timeFouriertransform,STFT))向量簡化為129點。
通過預處理操作,獲得的網絡輸入特征是由8個連續(xù)的STFT向量組成,并且輸入特征都進行了標準化,使其均值和單位方差均為0。由于語音增強系統(tǒng)是逐幀進行語音增強,因此文中解碼器最終只輸出當前待增強語音的干凈語音特征估計,即只輸出一幀,因此輸出特征為129*1的向量,并且進行標準化使其均值和單位方差都為0。
3.3 優(yōu)化
為了提高語音的質量,減小噪聲過估計,保證噪聲估計的魯棒性,進行了優(yōu)化,具體如下。
3.4 實驗與分析
在訓練階段,通過將戰(zhàn)士語音口令數(shù)據進行特征提取后,輸入到對應的網絡模型后,通過多次訓練得到戰(zhàn)士語音口令增強模型,增強階段將采集的實彈環(huán)境下戰(zhàn)士口令數(shù)據輸入到訓練模型中進行增強并且重構后得到增強后的數(shù)據。通過實驗驗證了與FCN網絡相比,本文提出的網絡結構能夠實現(xiàn)很好的語音增強效果,提高了語音的質量和可懂度。圖3為帶噪語音口令數(shù)據波形,圖4為FCN增強后的語音口令數(shù)據波形,圖5為IDEDCNN增強后的語音口令數(shù)據波形。
4 結束語
本文設計了基于升降編解碼卷積神經網絡結構實現(xiàn)步兵戰(zhàn)車環(huán)境下戰(zhàn)士語音口令數(shù)據增強,與傳統(tǒng)的全卷積神經網絡相比,該網絡結構在編碼階段濾波器數(shù)量逐漸增多,從而獲取數(shù)據更高維特征,解碼階段壓縮特征,并且為了保持語音數(shù)據上下文之間的聯(lián)系,網絡的輸入為相鄰8幀的數(shù)據。通過與傳統(tǒng)全卷積神經網絡結構相比,本文提出的網絡結構能夠實現(xiàn)更好的增強效果。但是由于戰(zhàn)車強噪聲的極其不穩(wěn)定,增強結果仍然會存在噪聲殘留,接下來會繼續(xù)分析如何更好降低戰(zhàn)車強噪聲背景下的語音增強,從而實現(xiàn)更好的識別工作。
參考文獻
[1] ARKSR,LEEJW.AfullyConvolutionalNeuralNetworkforspeechenhancement[C]//INTERSPEECH2017.Stockholm,Sweden:ISCA,2017:1993-1997.
[2]ZHUYuanyuan,XUXu,YEZhongfu.FLGCNN:Anovelfullyconvolutionalneuralnetworkforend-to-endmonauralspeechenhancementwithutterance-basedobjectivefunctions[J].AppliedAcoustics,2020,170(2):107511.
[3]PANDEYA,WANGDeLiang.AnewframeworkforCNN-basedspeechenhancementinthetimedomain[J].IEEE/ACMTransactionsonAudio,SpeechandLanguageProcessing(TASLP),2019,27(7):1179-1188.
[4]TANKe,CHENJitong,WANGDeLiang.GatedresidualnetworkswithDilatedConvolutionsformonauralspeechenhancement[J].IEEE/ACMTransactionsonAudio,SpeechandLanguageProcessing(TASLP),2019,27(1):189-198.
[5]彭川.基于深度學習的語音增強算法研究與實現(xiàn)[D].成都:電子科技大學,2020.
[6]張明亮,陳雨.基于全卷積神經網絡的語音增強算法[J].計算機應用研究,2020,37(S1):135-137.
[7]JIAHairong,WANGWeimei,MEIShulin.CombiningadaptivesparseNMFfeatureextractionandsoftmasktooptimizeDNNforspeechenhancement[J].AppliedAcoustics,2021,171:107666.
[8]YUHongjiang,ZHUWeiping,CHAMPAGNEB.SpeechenhancementusingaDNN-augmentedcolored-noiseKalmanfilter[J].SpeechCommunication,2020,125(2):142-151.
[9]王師琦,曾慶寧,龍超,等.語音增強與檢測的多任務學習方法研究[J/OL].計算機工程與應用:1-8[2020-11-26].https://kns.cnki.net/kcms/detail/11.2127.TP.20201126.0923.004.html.
[10] 房慧保,馬建芬,田玉玲,等.基于感知相關代價函數(shù)的深度學習語音增強[J].計算機工程與設計,2020,41(11):3212-3217.
[11]鄭展恒,曾慶寧.語音增強算法的研究與改進[J].現(xiàn)代電子技術,2020,43(21):27-30.
[12]袁文浩,時云龍,胡少東,等.一種基于時頻域特征融合的語音增強方法[J/OL].計算機工程:1-10[2020-11-26].https://doi.org/10.19678/j.issn.1000-3428.0059354.
[13]張行,趙馨.基于神經網絡噪聲分類的語音增強算法[J].中國電子科學研究院學報,2020,15(9):880-885,893.
[14]范珍艷,莊曉東,李鐘曉.基于變換域稀疏度量的多級FrFT語音增強[J].計算機工程與設計,2020,41(9):2574-2584.
[15]田玉靜,左紅偉,王超.語音通信降噪研究[J/OL].應用聲學:1-11[2020-07-22].http://kns.cnki.net/kcms/detail/11.2121.O4.20200721.1827.008.html.
[16]袁文浩,胡少東,時云龍,等.一種用于語音增強的卷積門控循環(huán)網絡[J].電子學報,2020,48(7):1276-1283.
[17]龔杰,馮海泓,陳友元,等.利用波束形成和神經網絡進行語音增強[J].聲學技術,2020,39(3):323-328.
[18]李勁東.基于深度學習的單通道語音增強研究[D].呼和浩特:內蒙古大學,2020.
[19]張宇飛.基于深度神經網絡和循環(huán)神經網絡的語音增強方法研究[D].綿陽:中國工程物理研究院,2020.
[20]藍天,彭川,李森,等.單聲道語音降噪與去混響研究綜述[J].計算機研究與發(fā)展,2020,57(5):928-953.
[21]孔德廷.一種改進的基于對數(shù)譜估計的語音增強算法[J].聲學技術,2020,39(2):208-213.
[22]高登峰,楊波,劉洪,等.多特征全卷積網絡的地空通話語音增強方法[J].四川大學學報(自然科學版),2020,57(2):289-296.
[23]王文益,伊雪.基于改進語音存在概率的自適應噪聲跟蹤算法[J].信號處理,2020,36(1):32-41.
[24]吳慶賀,吳海鋒,沈勇,等.工業(yè)噪聲環(huán)境下多麥狀態(tài)空間模型語音增強算法[J].計算機應用,2020,40(5):1476-1482.
[25]DANIELM,TANZhenghua,SIGURDURS,etal.Deep-learning-basedaudio-visualspeechenhancementinpresenceofLombardeffect[J].CoRRabs/1905.12605,2019.
[26]SALEEMN,KHATTAKMI,PEREZEV.Spectralphaseestimationbasedondeepneuralnetworksforsinglechannelspeechenhancement[J].JournalofCommunicationsTechnologyandElectronics,2019,64(12):1372-1382.
[27]董胡,徐雨明,馬振中,等.基于小波包與自適應維納濾波的語音增強算法[J].計算機技術與發(fā)展,2020,30(1):50-53.