基于輕量級(jí)卷積門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)聲增強(qiáng)方法?

2023-07-13 12:20:20李江和宋浠瑜劉小娟

應(yīng)用聲學(xué) 2023年3期

王玫李江和宋浠瑜劉小娟

(1 桂林理工大學(xué)信息科學(xué)與工程學(xué)院桂林 541004)

(2 桂林電子科技大學(xué) 認(rèn)知無(wú)線電與信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室桂林 541004)

0 引言

語(yǔ)聲信號(hào)是人與人、人與智能設(shè)備之間傳遞信息的重要載體之一。在現(xiàn)實(shí)生活環(huán)境中，各種各樣噪聲的干擾，嚴(yán)重影響了語(yǔ)聲信號(hào)的質(zhì)量與可懂度，給人們帶來(lái)了糟糕的聽(tīng)覺(jué)體驗(yàn)，同時(shí)阻礙了人與人之間的交流，以及人與智能設(shè)備之間的交互。因此，語(yǔ)聲增強(qiáng)是語(yǔ)聲信號(hào)處理中不可或缺的一部分[1]。語(yǔ)聲增強(qiáng)的目標(biāo)是盡可能地從帶噪語(yǔ)聲中還原出純凈語(yǔ)聲[2]，從而提高語(yǔ)聲質(zhì)量和語(yǔ)聲可懂度等評(píng)價(jià)指標(biāo)。

傳統(tǒng)的語(yǔ)聲增強(qiáng)技術(shù)經(jīng)過(guò)不斷發(fā)展，衍生出了多種基于數(shù)字信號(hào)處理和統(tǒng)計(jì)學(xué)的語(yǔ)聲增強(qiáng)算法。經(jīng)典的傳統(tǒng)語(yǔ)聲增強(qiáng)算法有譜減法[3?4]、維納濾波[5?7]、子空間[8]等。在傳統(tǒng)的譜減法中，語(yǔ)聲增強(qiáng)的效果主要依賴于對(duì)帶噪語(yǔ)聲中噪聲頻譜的估計(jì)，對(duì)噪聲頻譜的估計(jì)一般在靜音部分實(shí)現(xiàn)。然而，在現(xiàn)實(shí)中，對(duì)噪聲頻譜的準(zhǔn)確估計(jì)是非常困難的一項(xiàng)工作。在基于子空間的語(yǔ)聲增強(qiáng)方法中，通過(guò)將帶噪語(yǔ)聲分解為不同的子空間成分，這些不同的子空間分別代表語(yǔ)聲成分和噪聲成分[9?11]。傳統(tǒng)的語(yǔ)聲增強(qiáng)算法在平穩(wěn)噪聲條件下性能比較穩(wěn)定，但是在非平穩(wěn)噪聲條件下的性能急劇惡化[12]，這是由于其本身存在著一些不合理的假設(shè)。

針對(duì)傳統(tǒng)的基于數(shù)字信號(hào)處理的無(wú)監(jiān)督語(yǔ)聲增強(qiáng)算法因存在不合理的假設(shè)，導(dǎo)致在非平穩(wěn)噪聲條件下語(yǔ)聲增強(qiáng)性能急劇下降的問(wèn)題，人們開(kāi)始關(guān)注基于有監(jiān)督學(xué)習(xí)的語(yǔ)聲增強(qiáng)算法。非負(fù)矩陣分解[13?15]是早期的基于有監(jiān)督的語(yǔ)聲增強(qiáng)方法之一。隨著深度學(xué)習(xí)的發(fā)展，基于深度學(xué)習(xí)[16?18]的語(yǔ)聲增強(qiáng)算法取得了越來(lái)越好的語(yǔ)聲增強(qiáng)性能。基于深度學(xué)習(xí)的語(yǔ)聲增強(qiáng)算法利用了深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性映射能力，實(shí)現(xiàn)從帶噪語(yǔ)聲到純凈語(yǔ)聲的復(fù)雜非線性映射?；谏疃葘W(xué)習(xí)的語(yǔ)聲增強(qiáng)方法分為頻域映射和時(shí)域端到端的語(yǔ)聲增強(qiáng)。在頻域中，由于相位信息缺乏結(jié)構(gòu)性，所以難以建模學(xué)習(xí)，因此一般只對(duì)帶噪語(yǔ)聲信號(hào)的幅度信息做學(xué)習(xí)建模，最后采用帶噪語(yǔ)聲信號(hào)的相位信息實(shí)現(xiàn)語(yǔ)聲增強(qiáng)。但是在低信噪比條件下語(yǔ)聲質(zhì)量，語(yǔ)聲可懂度會(huì)受到采用帶噪語(yǔ)聲信號(hào)相位合成語(yǔ)聲的影響，因此人們開(kāi)始采用時(shí)域端到端的語(yǔ)聲增強(qiáng)方法[19?21]?；谏疃葘W(xué)習(xí)的語(yǔ)聲增強(qiáng)方法相對(duì)于傳統(tǒng)的基于數(shù)字信號(hào)處理的方法在增強(qiáng)后的語(yǔ)聲質(zhì)量、語(yǔ)聲可懂度等評(píng)價(jià)指標(biāo)上得到了非常大的提升。循環(huán)神經(jīng)網(wǎng)絡(luò)能夠建模語(yǔ)聲信號(hào)的時(shí)間相關(guān)性，因此許多文獻(xiàn)常常采用循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)帶噪語(yǔ)聲信號(hào)的建模[22?24]。但是循環(huán)神經(jīng)網(wǎng)絡(luò)存在參數(shù)數(shù)量巨大的問(wèn)題，這不利于模型的推廣，同時(shí)，在訓(xùn)練階段易出現(xiàn)過(guò)擬合導(dǎo)致模型泛化能力較差。

本文針對(duì)傳統(tǒng)的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)聲增強(qiáng)方法中，其全連接的結(jié)構(gòu)忽略了語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征[25]，導(dǎo)致語(yǔ)聲增強(qiáng)性能下降，同時(shí)參數(shù)數(shù)量巨大的問(wèn)題，設(shè)計(jì)了一種采用卷積核替代循環(huán)神經(jīng)網(wǎng)絡(luò)中的全連接結(jié)構(gòu)的輕量級(jí)卷積門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)(Lightweight convolution gated recurrent neural network,LCGRU)，在提高網(wǎng)絡(luò)性能的同時(shí)降低了網(wǎng)絡(luò)參數(shù)的數(shù)量。針對(duì)在基于深度學(xué)習(xí)因果式語(yǔ)聲增強(qiáng)的方法中采用了因果式的網(wǎng)絡(luò)輸入(N+1 幀)導(dǎo)致語(yǔ)聲增強(qiáng)性能下降的問(wèn)題，本文充分利用了先前N幀的帶噪語(yǔ)聲信號(hào)特征，在LCGRU 網(wǎng)絡(luò)當(dāng)前時(shí)刻網(wǎng)絡(luò)單元的輸入中融合了上一時(shí)刻的輸入xt?1與輸出ht?1，這充分利用了先前N幀的語(yǔ)聲信號(hào)特征[26]。針對(duì)網(wǎng)絡(luò)訓(xùn)練過(guò)程中易出現(xiàn)過(guò)擬合的問(wèn)題，本文采用了線性門(mén)控機(jī)制[27]控制網(wǎng)絡(luò)信息的傳輸，進(jìn)一步提高了網(wǎng)絡(luò)的語(yǔ)聲增強(qiáng)性能。仿真實(shí)驗(yàn)結(jié)果表明，LCGRU 在增強(qiáng)后的語(yǔ)聲短時(shí)客觀可懂度(Short time objective intelligibility,STOI)、語(yǔ)聲感知質(zhì)量(Perceptual evaluation of speech quality,PESQ)、分段信噪比(Segmented signal-to-noise ratio,SSNR)等評(píng)價(jià)指標(biāo)上均優(yōu)于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)，如長(zhǎng)短時(shí)記憶(Long short term memory,LSTM)網(wǎng)絡(luò)、門(mén)控循環(huán)單元(Gated recurrent unit,GRU)以及簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)(Simple recurrent neural network,SRNN)。同時(shí)，LCGRU 網(wǎng)絡(luò)的參數(shù)數(shù)量為GRU 網(wǎng)絡(luò)的13%，LSTM網(wǎng)絡(luò)的9.82%。

1 深度學(xué)習(xí)因果式語(yǔ)聲增強(qiáng)

通常為了使神經(jīng)網(wǎng)絡(luò)能夠更準(zhǔn)確地建模語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征，常常會(huì)采用非因果式的網(wǎng)絡(luò)輸入(2N+1 幀)。然而，采用非因果式的網(wǎng)絡(luò)輸入會(huì)給語(yǔ)聲增強(qiáng)算法帶來(lái)固定時(shí)延，不能滿足實(shí)時(shí)語(yǔ)聲增強(qiáng)的系統(tǒng)要求。為了保證語(yǔ)聲增強(qiáng)系統(tǒng)的實(shí)時(shí)性，基于深度學(xué)習(xí)的語(yǔ)聲增強(qiáng)算法需要采用因果式的網(wǎng)絡(luò)輸入(N+1 幀)，即網(wǎng)絡(luò)的輸入只包含當(dāng)前幀以及先前N幀的語(yǔ)聲信號(hào)特征，未包含后續(xù)未來(lái)幀的語(yǔ)聲信號(hào)特征信息。由此可知，當(dāng)對(duì)第t幀帶噪語(yǔ)聲增強(qiáng)時(shí)，神經(jīng)網(wǎng)絡(luò)的輸入可表示為

式(1)中，t、k分別表示第t幀、第k個(gè)頻點(diǎn)，n為連續(xù)幀的數(shù)量即網(wǎng)絡(luò)輸入的窗長(zhǎng)；φt表示多幀帶噪語(yǔ)聲拼接后的特征，用于對(duì)第t幀中純凈語(yǔ)聲成分的估計(jì)。本文采用非負(fù)幅度譜[22]特征作為網(wǎng)絡(luò)的輸入特征，計(jì)算方法可以由(2)表示：

式(2)中，n=1,2,···,N，N表示拼接的幀數(shù)數(shù)量，即網(wǎng)絡(luò)輸入的窗長(zhǎng)；Z(k,t,n)表示非負(fù)幅度譜特征?；谏疃葘W(xué)習(xí)的語(yǔ)聲增強(qiáng)方法利用了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的復(fù)雜映射能力，實(shí)現(xiàn)將帶噪語(yǔ)聲到純凈語(yǔ)聲的復(fù)雜映射。神經(jīng)網(wǎng)絡(luò)可以表示為復(fù)雜函數(shù)fx(x)，如式(3)所示：

式(3)中，帶噪語(yǔ)聲到純凈語(yǔ)聲的復(fù)雜映射關(guān)系由函數(shù)fx(x)表示。表示估計(jì)的第t幀、第k個(gè)頻點(diǎn)的純凈語(yǔ)聲特征。在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中，本文采用平均絕對(duì)誤差(Mean absolute error,MAE)作為損失函數(shù)，如式(4)所示：

式(4)中，M表示批量大小，本文設(shè)置為128；Ti表示標(biāo)簽數(shù)據(jù)(純凈語(yǔ)聲的非負(fù)幅度譜特征)，即純凈語(yǔ)聲的特征向量。通過(guò)多次訓(xùn)練計(jì)算損失函數(shù)值，經(jīng)過(guò)反向傳播調(diào)整網(wǎng)絡(luò)權(quán)重，最終獲得泛化能力較好的網(wǎng)絡(luò)模型實(shí)現(xiàn)語(yǔ)聲增強(qiáng)。

2 門(mén)控循環(huán)神經(jīng)單元

2.1 GRU

傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)能夠建模時(shí)間相關(guān)序列，但是容易出現(xiàn)梯度消失的問(wèn)題，導(dǎo)致模型無(wú)法訓(xùn)練，對(duì)此有學(xué)者提出了GRU，緩解了網(wǎng)絡(luò)梯度消失，同時(shí)能夠建模時(shí)間序列的長(zhǎng)期依賴關(guān)系。圖1 為常用的GRU模型。

圖1 GRU 單元Fig.1 GRU unit

圖1 的GRU 是對(duì)LSTM 網(wǎng)絡(luò)的簡(jiǎn)化設(shè)計(jì)。GRU網(wǎng)絡(luò)單元的前向傳播可由式(5)表示：

式(5)中，Zt、rt、ht分別表示更新門(mén)、重置門(mén)以及網(wǎng)絡(luò)單元的輸出。其中⊙為Hadmard 乘積，σ為Sigmoid激活函數(shù)。

2.2 LCGRU

傳統(tǒng)的門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU,LSTM)能夠有效建模語(yǔ)聲信號(hào)的長(zhǎng)期依賴關(guān)系。但是其全連接的網(wǎng)絡(luò)結(jié)構(gòu)忽略了語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征，導(dǎo)致語(yǔ)聲增強(qiáng)性能下降。對(duì)此，本文設(shè)計(jì)了一種LCGRU，采用卷積核替代GRU傳統(tǒng)的全連接結(jié)構(gòu)。LCGRU網(wǎng)絡(luò)在對(duì)語(yǔ)聲信號(hào)的時(shí)間相關(guān)性建模的同時(shí)保留了語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征，降低了網(wǎng)絡(luò)參數(shù)的數(shù)量。針對(duì)在深度學(xué)習(xí)因果式的語(yǔ)聲增強(qiáng)方法中，由于采用了因果式的網(wǎng)絡(luò)輸入(N+1 幀)，語(yǔ)聲增強(qiáng)性能下降的問(wèn)題，LCGRU 網(wǎng)絡(luò)為充分利用先前幀(N幀)的語(yǔ)聲信號(hào)特征，網(wǎng)絡(luò)單元當(dāng)前時(shí)刻的網(wǎng)絡(luò)輸入融合了上一時(shí)刻的網(wǎng)絡(luò)輸入xt?1與輸出ht?1，這充分利用了語(yǔ)聲信號(hào)的先前N幀的特征信息，極大地提高了網(wǎng)絡(luò)的語(yǔ)聲增強(qiáng)性能。為了緩解網(wǎng)絡(luò)訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題，本文采用了線性門(mén)控機(jī)制(Gated linear unit,GLU)[27]控制信息的傳輸。圖2為本文設(shè)計(jì)的LCGRU。

圖2 LCGRUFig.2 Lightweight convolutional gated recurrent neural network

圖2 為L(zhǎng)CGRU 網(wǎng)絡(luò)的前向傳播示意圖，圖中xt?1、ht?1、xt分別代表上一時(shí)刻的輸入、上一時(shí)刻的輸出以及當(dāng)前時(shí)刻的輸入。ft、分別表示遺忘門(mén)與候選隱藏狀態(tài)。在LCGRU 網(wǎng)絡(luò)單元中，首先計(jì)算輸入特征的帶權(quán)特征向量：

式(6)中，xt、xt?1、ht?1分別代表網(wǎng)絡(luò)當(dāng)前時(shí)刻的輸入、網(wǎng)絡(luò)單元上一時(shí)刻的輸入以及輸出；W?代表網(wǎng)絡(luò)的卷積核，為可訓(xùn)練參數(shù)。得到帶權(quán)特征向量后計(jì)算遺忘門(mén)ft與候選隱藏狀態(tài)可由式(7)與式(8)表示：

式(7)～(8)中，w?代表網(wǎng)絡(luò)的卷積核，本文采用一維卷積核替代傳統(tǒng)的全連接結(jié)構(gòu)；b?代表偏置項(xiàng)，為可學(xué)習(xí)的參數(shù)向量。最后網(wǎng)絡(luò)的輸出可由式(9)表示：

式(9)中，ft為遺忘門(mén)的輸出為上一時(shí)刻輸出的帶權(quán)特征向量。其中⊙代表Hadmard 乘積，?代表卷積運(yùn)算。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 仿真實(shí)驗(yàn)設(shè)置

為了驗(yàn)證所提算法的有效性，本文通過(guò)在tensorflow/keras 平臺(tái)上實(shí)現(xiàn)網(wǎng)絡(luò)的搭建及訓(xùn)練，驗(yàn)證算法的優(yōu)越性。數(shù)據(jù)集中的純凈語(yǔ)聲來(lái)自于TIMIT[28]數(shù)據(jù)集，同時(shí)包含了不同性別、地區(qū)、人種等不同說(shuō)話人的聲頻信息，文本方面也不會(huì)出現(xiàn)有重疊，這保證了模型的可推廣性。噪聲數(shù)據(jù)集來(lái)自于文獻(xiàn)[29]中的100 種噪聲以及文獻(xiàn)[30]中的15 種噪聲。通過(guò)在TIMIT 訓(xùn)練集中隨機(jī)提取1000條純凈語(yǔ)聲與文獻(xiàn)[29]中隨機(jī)抽取的噪聲在信噪比為?5 dB、0 dB、5 dB、10 dB 條件下生成4000 條帶噪語(yǔ)聲作為訓(xùn)練集。通過(guò)在TIMIT 測(cè)試集中隨機(jī)抽取200 條純凈語(yǔ)聲與文獻(xiàn)[30]中的噪聲同樣在?5 dB、0 dB、5 dB、10 dB 信噪比條件下生成800條帶噪語(yǔ)聲作為測(cè)試集。網(wǎng)絡(luò)的學(xué)習(xí)率為1×10?4，學(xué)習(xí)率的衰減系數(shù)為1×10?6。本文采用批量數(shù)據(jù)的訓(xùn)練方式，批量大小為128，并采用MAE 作為網(wǎng)絡(luò)的損失函數(shù)。為驗(yàn)證所提算法的有效性，本文采用的對(duì)比網(wǎng)絡(luò)結(jié)構(gòu)為簡(jiǎn)單SRNN、GRU以及LSTM網(wǎng)絡(luò)。網(wǎng)絡(luò)均采用層疊加的方法，網(wǎng)絡(luò)均采用4 層結(jié)構(gòu)，每一層均為512個(gè)神經(jīng)單元。LCGRU同樣采用4層的網(wǎng)絡(luò)結(jié)構(gòu)，每一層的卷積核為32，卷積核的大小為9。

3.2 仿真實(shí)驗(yàn)結(jié)果與分析

本文采用的評(píng)價(jià)指標(biāo)為平均PESQ、平均STOI以及SSNR作為對(duì)增強(qiáng)后的語(yǔ)聲評(píng)價(jià)。STOI的取值范圍為0～1 之間PESQ 的取值范圍為?0.5～4.5之間。二者均為數(shù)值越大，增強(qiáng)后的語(yǔ)聲質(zhì)量與可懂度越高。統(tǒng)計(jì)結(jié)果如表1與表2所示。

表1 平均PESQTable 1 Average PESQ

表2 平均STOITable 2 Average STOI

表1～2 統(tǒng)計(jì)了文獻(xiàn)[30]中的4 種噪聲hfchannel、f16、destroyerengine 以及volvo 在不同信噪比條下生成的帶噪語(yǔ)聲經(jīng)過(guò)不同的網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)后的平均PESQ以及平均STOI。從表1～2中可以得出，本文所設(shè)計(jì)的LCGRU 增強(qiáng)后的語(yǔ)聲在STOI、PESQ 的得分上均高于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)，這充分證明了本文所提出的基于LCGRU的語(yǔ)聲增強(qiáng)方法的有效性。LSTM 與GRU 的性能相對(duì)于SRNN 更加優(yōu)越，這是由于LSTM、GRU采用了門(mén)控機(jī)制，能夠?qū)W習(xí)到語(yǔ)聲信號(hào)的長(zhǎng)期依賴關(guān)系，而SRNN 未采用門(mén)控機(jī)制。LCGRU 網(wǎng)絡(luò)不但采用了門(mén)控機(jī)制，并且采用了卷積核替代了全連接結(jié)構(gòu)，所以性能得到了較大提高。為進(jìn)一步驗(yàn)證所提算法的優(yōu)越性，本文統(tǒng)計(jì)了不同噪聲條件下不同模型增強(qiáng)后的語(yǔ)聲SSNR，如圖3所示。

從圖3 中可以得出，LCGRU 網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)(SRNN,GRU,LSTM)增強(qiáng)后的語(yǔ)聲SSNR 更高。SRNN 網(wǎng)絡(luò)結(jié)構(gòu)雖然在圖3(a)、圖3(b)中在低信噪比條件下的語(yǔ)聲SSNR 高于GRU、LSTM，但是依然低于LCGRU，同時(shí)隨著信噪比的提高其性能逐漸低于GRU、LSTM。然而，可以看出LCGRU網(wǎng)絡(luò)依然擁有較好的語(yǔ)聲增強(qiáng)性能，這證明了相對(duì)于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)(GRU,LSTM,SRNN)，LCGRU的魯棒性更好。

綜上所述，LCGRU 網(wǎng)絡(luò)相對(duì)于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)(SRNN,GRU,LSTM)在增強(qiáng)后的STOI、PESQ、SSRN 等評(píng)價(jià)指標(biāo)上獲得更高的得分。而LSTM 相對(duì)于GRU、SRNN 擁有更好的語(yǔ)聲增強(qiáng)性能，但是其參數(shù)數(shù)量較多，導(dǎo)致網(wǎng)絡(luò)訓(xùn)練困難，同時(shí)容易出現(xiàn)過(guò)擬合的問(wèn)題。而LCGRU 網(wǎng)絡(luò)因?yàn)椴捎昧司矸e核替代了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的全連接結(jié)構(gòu)，同時(shí)采用了線性門(mén)控機(jī)制控制信息的傳輸，因此不但極大地減少了網(wǎng)絡(luò)的參數(shù)數(shù)量，同時(shí)保留了語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征，從而獲得了較好的語(yǔ)聲增強(qiáng)性能。針對(duì)在深度學(xué)習(xí)因果式語(yǔ)聲增強(qiáng)方法中因采用因果式的網(wǎng)絡(luò)輸入導(dǎo)致語(yǔ)聲增強(qiáng)性能下降的問(wèn)題，LCGRU 為充分利用先前幀的語(yǔ)聲信號(hào)特征，在LCGRU 網(wǎng)絡(luò)單元當(dāng)前時(shí)刻的輸入中融合了上一時(shí)刻的輸入xt?1與輸出ht?1，這充分利用了先前N幀的語(yǔ)聲信號(hào)特征，降低了因?yàn)椴捎靡蚬骄W(wǎng)絡(luò)輸入特征信息減少所帶來(lái)的影響。表3、表4 統(tǒng)計(jì)了不同網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)數(shù)量，以及模型收斂后的絕對(duì)誤差；表5 中統(tǒng)計(jì)了采用不同網(wǎng)絡(luò)模型NVIDIA GeForce MX350 環(huán)境下，GPU 平臺(tái)中處理一幀帶噪語(yǔ)聲數(shù)據(jù)所需要的平均時(shí)間。

表3 不同網(wǎng)絡(luò)模型的參數(shù)數(shù)量Table 3 Parameters of different network models

表4 不同網(wǎng)絡(luò)模型的驗(yàn)證損失Table 4 Verification loss of different network models

表5 不同網(wǎng)絡(luò)模型處理一幀語(yǔ)聲數(shù)據(jù)所需要的時(shí)間Table 5 The time of different models to process a frame of data

從表3 可以得出LCGRU 網(wǎng)絡(luò)的參數(shù)數(shù)量為GRU網(wǎng)絡(luò)的13%，為L(zhǎng)STM網(wǎng)絡(luò)的9.82%。LCGRU網(wǎng)絡(luò)的參數(shù)數(shù)量得到大幅度減少，這得益于本文采用卷積核替代傳統(tǒng)的全連接結(jié)構(gòu)。從表4 中可以看到，LCGRU獲得了最低的損失值，這證明了該網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地建模帶噪語(yǔ)聲到純凈語(yǔ)聲的復(fù)雜映射關(guān)系。從表5 可以看出，本文所提算法相對(duì)耗時(shí)，這是由于本文采用卷積核做特征計(jì)算，計(jì)算量相對(duì)較大，但依然滿足實(shí)時(shí)性要求。

4 結(jié)論

針對(duì)傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)因采用全連接的網(wǎng)絡(luò)結(jié)構(gòu)忽略了語(yǔ)聲信號(hào)的時(shí)頻結(jié)構(gòu)特征，本文采用卷積核替代了傳統(tǒng)的全連接結(jié)構(gòu)，在對(duì)語(yǔ)聲信號(hào)的長(zhǎng)期依賴關(guān)系建模的同時(shí)，保留了其時(shí)頻結(jié)構(gòu)特征信息，極大降低了網(wǎng)絡(luò)的參數(shù)數(shù)量。針對(duì)基于深度學(xué)習(xí)的因果式語(yǔ)聲增強(qiáng)方法中因采用了因果式的網(wǎng)絡(luò)輸入導(dǎo)致語(yǔ)聲增強(qiáng)性能下降的問(wèn)題，本文設(shè)計(jì)了一種LCGRU網(wǎng)絡(luò)結(jié)構(gòu)。為充分利用先前幀的語(yǔ)聲信號(hào)特征，在LCGRU 網(wǎng)絡(luò)單元當(dāng)前時(shí)刻的輸入中融合了上一時(shí)刻的輸入xt?1與輸出ht?1，這充分利用了先前N幀的語(yǔ)聲信號(hào)特征，降低了因?yàn)椴捎靡蚬骄W(wǎng)絡(luò)輸入特征信息減少所帶來(lái)的影響。注意力機(jī)制能夠更好地關(guān)注到帶噪語(yǔ)聲中純凈語(yǔ)聲成分。此外，在語(yǔ)聲和聲頻處理領(lǐng)域，利用人耳掩蔽效應(yīng)，取得了極大成功。下一步將研究利用注意力機(jī)制結(jié)合人耳掩蔽效應(yīng)提高網(wǎng)絡(luò)的語(yǔ)聲增強(qiáng)性能。同時(shí)，為了縮短模型的計(jì)算時(shí)間，將采用擴(kuò)張卷積等方式做進(jìn)一步的改進(jìn)，以提升系統(tǒng)的性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡