王 玫 李江和 宋浠瑜 劉小娟
(1 桂林理工大學(xué)信息科學(xué)與工程學(xué)院 桂林 541004)
(2 桂林電子科技大學(xué) 認(rèn)知無(wú)線電與信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室 桂林 541004)
語(yǔ)聲信號(hào)是人與人、人與智能設(shè)備之間傳遞信息的重要載體之一。在現(xiàn)實(shí)生活環(huán)境中,各種各樣噪聲的干擾,嚴(yán)重影響了語(yǔ)聲信號(hào)的質(zhì)量與可懂度,給人們帶來(lái)了糟糕的聽(tīng)覺(jué)體驗(yàn),同時(shí)阻礙了人與人之間的交流,以及人與智能設(shè)備之間的交互。因此,語(yǔ)聲增強(qiáng)是語(yǔ)聲信號(hào)處理中不可或缺的一部分[1]。語(yǔ)聲增強(qiáng)的目標(biāo)是盡可能地從帶噪語(yǔ)聲中還原出純凈語(yǔ)聲[2],從而提高語(yǔ)聲質(zhì)量和語(yǔ)聲可懂度等評(píng)價(jià)指標(biāo)。
傳統(tǒng)的語(yǔ)聲增強(qiáng)技術(shù)經(jīng)過(guò)不斷發(fā)展,衍生出了多種基于數(shù)字信號(hào)處理和統(tǒng)計(jì)學(xué)的語(yǔ)聲增強(qiáng)算法。經(jīng)典的傳統(tǒng)語(yǔ)聲增強(qiáng)算法有譜減法[3?4]、維納濾波[5?7]、子空間[8]等。在傳統(tǒng)的譜減法中,語(yǔ)聲增強(qiáng)的效果主要依賴于對(duì)帶噪語(yǔ)聲中噪聲頻譜的估計(jì),對(duì)噪聲頻譜的估計(jì)一般在靜音部分實(shí)現(xiàn)。然而,在現(xiàn)實(shí)中,對(duì)噪聲頻譜的準(zhǔn)確估計(jì)是非常困難的一項(xiàng)工作。在基于子空間的語(yǔ)聲增強(qiáng)方法中,通過(guò)將帶噪語(yǔ)聲分解為不同的子空間成分,這些不同的子空間分別代表語(yǔ)聲成分和噪聲成分[9?11]。傳統(tǒng)的語(yǔ)聲增強(qiáng)算法在平穩(wěn)噪聲條件下性能比較穩(wěn)定,但是在非平穩(wěn)噪聲條件下的性能急劇惡化[12],這是由于其本身存在著一些不合理的假設(shè)。
針對(duì)傳統(tǒng)的基于數(shù)字信號(hào)處理的無(wú)監(jiān)督語(yǔ)聲增強(qiáng)算法因存在不合理的假設(shè),導(dǎo)致在非平穩(wěn)噪聲條件下語(yǔ)聲增強(qiáng)性能急劇下降的問(wèn)題,人們開(kāi)始關(guān)注基于有監(jiān)督學(xué)習(xí)的語(yǔ)聲增強(qiáng)算法。非負(fù)矩陣分解[13?15]是早期的基于有監(jiān)督的語(yǔ)聲增強(qiáng)方法之一。隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)[16?18]的語(yǔ)聲增強(qiáng)算法取得了越來(lái)越好的語(yǔ)聲增強(qiáng)性能。基于深度學(xué)習(xí)的語(yǔ)聲增強(qiáng)算法利用了深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性映射能力,實(shí)現(xiàn)從帶噪語(yǔ)聲到純凈語(yǔ)聲的復(fù)雜非線性映射?;谏疃葘W(xué)習(xí)的語(yǔ)聲增強(qiáng)方法分為頻域映射和時(shí)域端到端的語(yǔ)聲增強(qiáng)。在頻域中,由于相位信息缺乏結(jié)構(gòu)性,所以難以建模學(xué)習(xí),因此一般只對(duì)帶噪語(yǔ)聲信號(hào)的幅度信息做學(xué)習(xí)建模,最后采用帶噪語(yǔ)聲信號(hào)的相位信息實(shí)現(xiàn)語(yǔ)聲增強(qiáng)。但是在低信噪比條件下語(yǔ)聲質(zhì)量,語(yǔ)聲可懂度會(huì)受到采用帶噪語(yǔ)聲信號(hào)相位合成語(yǔ)聲的影響,因此人們開(kāi)始采用時(shí)域端到端的語(yǔ)聲增強(qiáng)方法[19?21]?;谏疃葘W(xué)習(xí)的語(yǔ)聲增強(qiáng)方法相對(duì)于傳統(tǒng)的基于數(shù)字信號(hào)處理的方法在增強(qiáng)后的語(yǔ)聲質(zhì)量、語(yǔ)聲可懂度等評(píng)價(jià)指標(biāo)上得到了非常大的提升。循環(huán)神經(jīng)網(wǎng)絡(luò)能夠建模語(yǔ)聲信號(hào)的時(shí)間相關(guān)性,因此許多文獻(xiàn)常常采用循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)帶噪語(yǔ)聲信號(hào)的建模[22?24]。但是循環(huán)神經(jīng)網(wǎng)絡(luò)存在參數(shù)數(shù)量巨大的問(wèn)題,這不利于模型的推廣,同時(shí),在訓(xùn)練階段易出現(xiàn)過(guò)擬合導(dǎo)致模型泛化能力較差。
本文針對(duì)傳統(tǒng)的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)聲增強(qiáng)方法中,其全連接的結(jié)構(gòu)忽略了語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征[25],導(dǎo)致語(yǔ)聲增強(qiáng)性能下降,同時(shí)參數(shù)數(shù)量巨大的問(wèn)題,設(shè)計(jì)了一種采用卷積核替代循環(huán)神經(jīng)網(wǎng)絡(luò)中的全連接結(jié)構(gòu)的輕量級(jí)卷積門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)(Lightweight convolution gated recurrent neural network,LCGRU),在提高網(wǎng)絡(luò)性能的同時(shí)降低了網(wǎng)絡(luò)參數(shù)的數(shù)量。針對(duì)在基于深度學(xué)習(xí)因果式語(yǔ)聲增強(qiáng)的方法中采用了因果式的網(wǎng)絡(luò)輸入(N+1 幀)導(dǎo)致語(yǔ)聲增強(qiáng)性能下降的問(wèn)題,本文充分利用了先前N幀的帶噪語(yǔ)聲信號(hào)特征,在LCGRU 網(wǎng)絡(luò)當(dāng)前時(shí)刻網(wǎng)絡(luò)單元的輸入中融合了上一時(shí)刻的輸入xt?1與輸出ht?1,這充分利用了先前N幀的語(yǔ)聲信號(hào)特征[26]。針對(duì)網(wǎng)絡(luò)訓(xùn)練過(guò)程中易出現(xiàn)過(guò)擬合的問(wèn)題,本文采用了線性門(mén)控機(jī)制[27]控制網(wǎng)絡(luò)信息的傳輸,進(jìn)一步提高了網(wǎng)絡(luò)的語(yǔ)聲增強(qiáng)性能。仿真實(shí)驗(yàn)結(jié)果表明,LCGRU 在增強(qiáng)后的語(yǔ)聲短時(shí)客觀可懂度(Short time objective intelligibility,STOI)、語(yǔ)聲感知質(zhì)量(Perceptual evaluation of speech quality,PESQ)、分段信噪比(Segmented signal-to-noise ratio,SSNR)等評(píng)價(jià)指標(biāo)上均優(yōu)于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu),如長(zhǎng)短時(shí)記憶(Long short term memory,LSTM)網(wǎng)絡(luò)、門(mén)控循環(huán)單元(Gated recurrent unit,GRU)以及簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)(Simple recurrent neural network,SRNN)。同時(shí),LCGRU 網(wǎng)絡(luò)的參數(shù)數(shù)量為GRU 網(wǎng)絡(luò)的13%,LSTM網(wǎng)絡(luò)的9.82%。
通常為了使神經(jīng)網(wǎng)絡(luò)能夠更準(zhǔn)確地建模語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征,常常會(huì)采用非因果式的網(wǎng)絡(luò)輸入(2N+1 幀)。然而,采用非因果式的網(wǎng)絡(luò)輸入會(huì)給語(yǔ)聲增強(qiáng)算法帶來(lái)固定時(shí)延,不能滿足實(shí)時(shí)語(yǔ)聲增強(qiáng)的系統(tǒng)要求。為了保證語(yǔ)聲增強(qiáng)系統(tǒng)的實(shí)時(shí)性,基于深度學(xué)習(xí)的語(yǔ)聲增強(qiáng)算法需要采用因果式的網(wǎng)絡(luò)輸入(N+1 幀),即網(wǎng)絡(luò)的輸入只包含當(dāng)前幀以及先前N幀的語(yǔ)聲信號(hào)特征,未包含后續(xù)未來(lái)幀的語(yǔ)聲信號(hào)特征信息。由此可知,當(dāng)對(duì)第t幀帶噪語(yǔ)聲增強(qiáng)時(shí),神經(jīng)網(wǎng)絡(luò)的輸入可表示為
式(1)中,t、k分別表示第t幀、第k個(gè)頻點(diǎn),n為連續(xù)幀的數(shù)量即網(wǎng)絡(luò)輸入的窗長(zhǎng);φt表示多幀帶噪語(yǔ)聲拼接后的特征,用于對(duì)第t幀中純凈語(yǔ)聲成分的估計(jì)。本文采用非負(fù)幅度譜[22]特征作為網(wǎng)絡(luò)的輸入特征,計(jì)算方法可以由(2)表示:
式(2)中,n=1,2,···,N,N表示拼接的幀數(shù)數(shù)量,即網(wǎng)絡(luò)輸入的窗長(zhǎng);Z(k,t,n)表示非負(fù)幅度譜特征?;谏疃葘W(xué)習(xí)的語(yǔ)聲增強(qiáng)方法利用了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的復(fù)雜映射能力,實(shí)現(xiàn)將帶噪語(yǔ)聲到純凈語(yǔ)聲的復(fù)雜映射。神經(jīng)網(wǎng)絡(luò)可以表示為復(fù)雜函數(shù)fx(x),如式(3)所示:
式(3)中,帶噪語(yǔ)聲到純凈語(yǔ)聲的復(fù)雜映射關(guān)系由函數(shù)fx(x)表示。表示估計(jì)的第t幀、第k個(gè)頻點(diǎn)的純凈語(yǔ)聲特征。在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,本文采用平均絕對(duì)誤差(Mean absolute error,MAE)作為損失函數(shù),如式(4)所示:
式(4)中,M表示批量大小,本文設(shè)置為128;Ti表示標(biāo)簽數(shù)據(jù)(純凈語(yǔ)聲的非負(fù)幅度譜特征),即純凈語(yǔ)聲的特征向量。通過(guò)多次訓(xùn)練計(jì)算損失函數(shù)值,經(jīng)過(guò)反向傳播調(diào)整網(wǎng)絡(luò)權(quán)重,最終獲得泛化能力較好的網(wǎng)絡(luò)模型實(shí)現(xiàn)語(yǔ)聲增強(qiáng)。
傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)能夠建模時(shí)間相關(guān)序列,但是容易出現(xiàn)梯度消失的問(wèn)題,導(dǎo)致模型無(wú)法訓(xùn)練,對(duì)此有學(xué)者提出了GRU,緩解了網(wǎng)絡(luò)梯度消失,同時(shí)能夠建模時(shí)間序列的長(zhǎng)期依賴關(guān)系。圖1 為常用的GRU模型。
圖1 GRU 單元Fig.1 GRU unit
圖1 的GRU 是對(duì)LSTM 網(wǎng)絡(luò)的簡(jiǎn)化設(shè)計(jì)。GRU網(wǎng)絡(luò)單元的前向傳播可由式(5)表示:
式(5)中,Zt、rt、ht分別表示更新門(mén)、重置門(mén)以及網(wǎng)絡(luò)單元的輸出。其中⊙為Hadmard 乘積,σ為Sigmoid激活函數(shù)。
傳統(tǒng)的門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU,LSTM)能夠有效建模語(yǔ)聲信號(hào)的長(zhǎng)期依賴關(guān)系。但是其全連接的網(wǎng)絡(luò)結(jié)構(gòu)忽略了語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征,導(dǎo)致語(yǔ)聲增強(qiáng)性能下降。對(duì)此,本文設(shè)計(jì)了一種LCGRU,采用卷積核替代GRU傳統(tǒng)的全連接結(jié)構(gòu)。LCGRU網(wǎng)絡(luò)在對(duì)語(yǔ)聲信號(hào)的時(shí)間相關(guān)性建模的同時(shí)保留了語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征,降低了網(wǎng)絡(luò)參數(shù)的數(shù)量。針對(duì)在深度學(xué)習(xí)因果式的語(yǔ)聲增強(qiáng)方法中,由于采用了因果式的網(wǎng)絡(luò)輸入(N+1 幀),語(yǔ)聲增強(qiáng)性能下降的問(wèn)題,LCGRU 網(wǎng)絡(luò)為充分利用先前幀(N幀)的語(yǔ)聲信號(hào)特征,網(wǎng)絡(luò)單元當(dāng)前時(shí)刻的網(wǎng)絡(luò)輸入融合了上一時(shí)刻的網(wǎng)絡(luò)輸入xt?1與輸出ht?1,這充分利用了語(yǔ)聲信號(hào)的先前N幀的特征信息,極大地提高了網(wǎng)絡(luò)的語(yǔ)聲增強(qiáng)性能。為了緩解網(wǎng)絡(luò)訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題,本文采用了線性門(mén)控機(jī)制(Gated linear unit,GLU)[27]控制信息的傳輸。圖2為本文設(shè)計(jì)的LCGRU。
圖2 LCGRUFig.2 Lightweight convolutional gated recurrent neural network
圖2 為L(zhǎng)CGRU 網(wǎng)絡(luò)的前向傳播示意圖,圖中xt?1、ht?1、xt分別代表上一時(shí)刻的輸入、上一時(shí)刻的輸出以及當(dāng)前時(shí)刻的輸入。ft、分別表示遺忘門(mén)與候選隱藏狀態(tài)。在LCGRU 網(wǎng)絡(luò)單元中,首先計(jì)算輸入特征的帶權(quán)特征向量:
式(6)中,xt、xt?1、ht?1分別代表網(wǎng)絡(luò)當(dāng)前時(shí)刻的輸入、網(wǎng)絡(luò)單元上一時(shí)刻的輸入以及輸出;W?代表網(wǎng)絡(luò)的卷積核,為可訓(xùn)練參數(shù)。得到帶權(quán)特征向量后計(jì)算遺忘門(mén)ft與候選隱藏狀態(tài)可由式(7)與式(8)表示:
式(7)~(8)中,w?代表網(wǎng)絡(luò)的卷積核,本文采用一維卷積核替代傳統(tǒng)的全連接結(jié)構(gòu);b?代表偏置項(xiàng),為可學(xué)習(xí)的參數(shù)向量。最后網(wǎng)絡(luò)的輸出可由式(9)表示:
式(9)中,ft為遺忘門(mén)的輸出為上一時(shí)刻輸出的帶權(quán)特征向量。其中⊙代表Hadmard 乘積,?代表卷積運(yùn)算。
為了驗(yàn)證所提算法的有效性,本文通過(guò)在tensorflow/keras 平臺(tái)上實(shí)現(xiàn)網(wǎng)絡(luò)的搭建及訓(xùn)練,驗(yàn)證算法的優(yōu)越性。數(shù)據(jù)集中的純凈語(yǔ)聲來(lái)自于TIMIT[28]數(shù)據(jù)集,同時(shí)包含了不同性別、地區(qū)、人種等不同說(shuō)話人的聲頻信息,文本方面也不會(huì)出現(xiàn)有重疊,這保證了模型的可推廣性。噪聲數(shù)據(jù)集來(lái)自于文獻(xiàn)[29]中的100 種噪聲以及文獻(xiàn)[30]中的15 種噪聲。通過(guò)在TIMIT 訓(xùn)練集中隨機(jī)提取1000條純凈語(yǔ)聲與文獻(xiàn)[29]中隨機(jī)抽取的噪聲在信噪比為?5 dB、0 dB、5 dB、10 dB 條件下生成4000 條帶噪語(yǔ)聲作為訓(xùn)練集。通過(guò)在TIMIT 測(cè)試集中隨機(jī)抽取200 條純凈語(yǔ)聲與文獻(xiàn)[30]中的噪聲同樣在?5 dB、0 dB、5 dB、10 dB 信噪比條件下生成800條帶噪語(yǔ)聲作為測(cè)試集。網(wǎng)絡(luò)的學(xué)習(xí)率為1×10?4,學(xué)習(xí)率的衰減系數(shù)為1×10?6。本文采用批量數(shù)據(jù)的訓(xùn)練方式,批量大小為128,并采用MAE 作為網(wǎng)絡(luò)的損失函數(shù)。為驗(yàn)證所提算法的有效性,本文采用的對(duì)比網(wǎng)絡(luò)結(jié)構(gòu)為簡(jiǎn)單SRNN、GRU以及LSTM網(wǎng)絡(luò)。網(wǎng)絡(luò)均采用層疊加的方法,網(wǎng)絡(luò)均采用4 層結(jié)構(gòu),每一層均為512個(gè)神經(jīng)單元。LCGRU同樣采用4層的網(wǎng)絡(luò)結(jié)構(gòu),每一層的卷積核為32,卷積核的大小為9。
本文采用的評(píng)價(jià)指標(biāo)為平均PESQ、平均STOI以及SSNR作為對(duì)增強(qiáng)后的語(yǔ)聲評(píng)價(jià)。STOI的取值范圍為0~1 之間PESQ 的取值范圍為?0.5~4.5之間。二者均為數(shù)值越大,增強(qiáng)后的語(yǔ)聲質(zhì)量與可懂度越高。統(tǒng)計(jì)結(jié)果如表1與表2所示。
表1 平均PESQTable 1 Average PESQ
表2 平均STOITable 2 Average STOI
表1~2 統(tǒng)計(jì)了文獻(xiàn)[30]中的4 種噪聲hfchannel、f16、destroyerengine 以及volvo 在不同信噪比條下生成的帶噪語(yǔ)聲經(jīng)過(guò)不同的網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)后的平均PESQ以及平均STOI。從表1~2中可以得出,本文所設(shè)計(jì)的LCGRU 增強(qiáng)后的語(yǔ)聲在STOI、PESQ 的得分上均高于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu),這充分證明了本文所提出的基于LCGRU的語(yǔ)聲增強(qiáng)方法的有效性。LSTM 與GRU 的性能相對(duì)于SRNN 更加優(yōu)越,這是由于LSTM、GRU采用了門(mén)控機(jī)制,能夠?qū)W習(xí)到語(yǔ)聲信號(hào)的長(zhǎng)期依賴關(guān)系,而SRNN 未采用門(mén)控機(jī)制。LCGRU 網(wǎng)絡(luò)不但采用了門(mén)控機(jī)制,并且采用了卷積核替代了全連接結(jié)構(gòu),所以性能得到了較大提高。為進(jìn)一步驗(yàn)證所提算法的優(yōu)越性,本文統(tǒng)計(jì)了不同噪聲條件下不同模型增強(qiáng)后的語(yǔ)聲SSNR,如圖3所示。
從圖3 中可以得出,LCGRU 網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)(SRNN,GRU,LSTM)增強(qiáng)后的語(yǔ)聲SSNR 更高。SRNN 網(wǎng)絡(luò)結(jié)構(gòu)雖然在圖3(a)、圖3(b)中在低信噪比條件下的語(yǔ)聲SSNR 高于GRU、LSTM,但是依然低于LCGRU,同時(shí)隨著信噪比的提高其性能逐漸低于GRU、LSTM。然而,可以看出LCGRU網(wǎng)絡(luò)依然擁有較好的語(yǔ)聲增強(qiáng)性能,這證明了相對(duì)于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)(GRU,LSTM,SRNN),LCGRU的魯棒性更好。
綜上所述,LCGRU 網(wǎng)絡(luò)相對(duì)于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)(SRNN,GRU,LSTM)在增強(qiáng)后的STOI、PESQ、SSRN 等評(píng)價(jià)指標(biāo)上獲得更高的得分。而LSTM 相對(duì)于GRU、SRNN 擁有更好的語(yǔ)聲增強(qiáng)性能,但是其參數(shù)數(shù)量較多,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練困難,同時(shí)容易出現(xiàn)過(guò)擬合的問(wèn)題。而LCGRU 網(wǎng)絡(luò)因?yàn)椴捎昧司矸e核替代了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的全連接結(jié)構(gòu),同時(shí)采用了線性門(mén)控機(jī)制控制信息的傳輸,因此不但極大地減少了網(wǎng)絡(luò)的參數(shù)數(shù)量,同時(shí)保留了語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征,從而獲得了較好的語(yǔ)聲增強(qiáng)性能。針對(duì)在深度學(xué)習(xí)因果式語(yǔ)聲增強(qiáng)方法中因采用因果式的網(wǎng)絡(luò)輸入導(dǎo)致語(yǔ)聲增強(qiáng)性能下降的問(wèn)題,LCGRU 為充分利用先前幀的語(yǔ)聲信號(hào)特征,在LCGRU 網(wǎng)絡(luò)單元當(dāng)前時(shí)刻的輸入中融合了上一時(shí)刻的輸入xt?1與輸出ht?1,這充分利用了先前N幀的語(yǔ)聲信號(hào)特征,降低了因?yàn)椴捎靡蚬骄W(wǎng)絡(luò)輸入特征信息減少所帶來(lái)的影響。表3、表4 統(tǒng)計(jì)了不同網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)數(shù)量,以及模型收斂后的絕對(duì)誤差;表5 中統(tǒng)計(jì)了采用不同網(wǎng)絡(luò)模型NVIDIA GeForce MX350 環(huán)境下,GPU 平臺(tái)中處理一幀帶噪語(yǔ)聲數(shù)據(jù)所需要的平均時(shí)間。
表3 不同網(wǎng)絡(luò)模型的參數(shù)數(shù)量Table 3 Parameters of different network models
表4 不同網(wǎng)絡(luò)模型的驗(yàn)證損失Table 4 Verification loss of different network models
表5 不同網(wǎng)絡(luò)模型處理一幀語(yǔ)聲數(shù)據(jù)所需要的時(shí)間Table 5 The time of different models to process a frame of data
從表3 可以得出LCGRU 網(wǎng)絡(luò)的參數(shù)數(shù)量為GRU網(wǎng)絡(luò)的13%,為L(zhǎng)STM網(wǎng)絡(luò)的9.82%。LCGRU網(wǎng)絡(luò)的參數(shù)數(shù)量得到大幅度減少,這得益于本文采用卷積核替代傳統(tǒng)的全連接結(jié)構(gòu)。從表4 中可以看到,LCGRU獲得了最低的損失值,這證明了該網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地建模帶噪語(yǔ)聲到純凈語(yǔ)聲的復(fù)雜映射關(guān)系。從表5 可以看出,本文所提算法相對(duì)耗時(shí),這是由于本文采用卷積核做特征計(jì)算,計(jì)算量相對(duì)較大,但依然滿足實(shí)時(shí)性要求。
針對(duì)傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)因采用全連接的網(wǎng)絡(luò)結(jié)構(gòu)忽略了語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征,本文采用卷積核替代了傳統(tǒng)的全連接結(jié)構(gòu),在對(duì)語(yǔ)聲信號(hào)的長(zhǎng)期依賴關(guān)系建模的同時(shí),保留了其時(shí)頻結(jié)構(gòu)特征信息,極大降低了網(wǎng)絡(luò)的參數(shù)數(shù)量。針對(duì)基于深度學(xué)習(xí)的因果式語(yǔ)聲增強(qiáng)方法中因采用了因果式的網(wǎng)絡(luò)輸入導(dǎo)致語(yǔ)聲增強(qiáng)性能下降的問(wèn)題,本文設(shè)計(jì)了一種LCGRU網(wǎng)絡(luò)結(jié)構(gòu)。為充分利用先前幀的語(yǔ)聲信號(hào)特征,在LCGRU 網(wǎng)絡(luò)單元當(dāng)前時(shí)刻的輸入中融合了上一時(shí)刻的輸入xt?1與輸出ht?1,這充分利用了先前N幀的語(yǔ)聲信號(hào)特征,降低了因?yàn)椴捎靡蚬骄W(wǎng)絡(luò)輸入特征信息減少所帶來(lái)的影響。注意力機(jī)制能夠更好地關(guān)注到帶噪語(yǔ)聲中純凈語(yǔ)聲成分。此外,在語(yǔ)聲和聲頻處理領(lǐng)域,利用人耳掩蔽效應(yīng),取得了極大成功。下一步將研究利用注意力機(jī)制結(jié)合人耳掩蔽效應(yīng)提高網(wǎng)絡(luò)的語(yǔ)聲增強(qiáng)性能。同時(shí),為了縮短模型的計(jì)算時(shí)間,將采用擴(kuò)張卷積等方式做進(jìn)一步的改進(jìn),以提升系統(tǒng)的性能。