婁迎曦,袁文浩,時(shí)云龍,胡少東
(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 山東 淄博 255049)
語(yǔ)音作為生活中傳遞信息的重要載體之一,倘若受到噪聲的干擾會(huì)嚴(yán)重影響對(duì)目標(biāo)語(yǔ)音的獲取。語(yǔ)音增強(qiáng)作為信號(hào)處理中的關(guān)鍵技術(shù),旨在提高語(yǔ)音信號(hào)的質(zhì)量和可懂度、舒適度[1]。傳統(tǒng)的語(yǔ)音增強(qiáng)方法有譜減法[2-3]、維納濾波法[4]等,在假設(shè)噪聲是平穩(wěn)的條件下對(duì)含噪語(yǔ)音進(jìn)行增強(qiáng),對(duì)非平穩(wěn)的噪聲抑制能力較差。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,研究人員開(kāi)始將深度學(xué)習(xí)應(yīng)用到語(yǔ)音增強(qiáng)任務(wù)。文獻(xiàn)[5]通過(guò)深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)學(xué)習(xí)含噪語(yǔ)音和純凈語(yǔ)音之間的非線(xiàn)性關(guān)系,以語(yǔ)音的對(duì)數(shù)功率譜特征(logarithmic power spectra,LPS)作為網(wǎng)絡(luò)的輸入和訓(xùn)練目標(biāo),相比傳統(tǒng)的語(yǔ)音增強(qiáng)方法顯著提高了語(yǔ)音增強(qiáng)性能。文獻(xiàn)[6]使用復(fù)數(shù)域上的復(fù)數(shù)理想比率掩碼(complex ideal ratio mask,cIRM)作為訓(xùn)練目標(biāo),實(shí)現(xiàn)了對(duì)純凈語(yǔ)音幅度譜和相位譜的同步估計(jì)??紤]到語(yǔ)音在時(shí)頻域中的二維相關(guān)性,文獻(xiàn)[7]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)應(yīng)用到語(yǔ)音增強(qiáng)領(lǐng)域。文獻(xiàn)[8]提出一種全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN),實(shí)現(xiàn)含噪語(yǔ)音到純凈語(yǔ)音的直接映射,相比基于DNN的語(yǔ)音增強(qiáng)方法,顯著提高了語(yǔ)音增強(qiáng)的可懂度。文獻(xiàn)[9]使用Maxout激活函數(shù)代替Sigmoid激活函數(shù),解決了基于CNN訓(xùn)練過(guò)程中過(guò)擬合的問(wèn)題。考慮到語(yǔ)音序列相鄰幀之間的關(guān)聯(lián)性,文獻(xiàn)[10]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)隨著序列時(shí)間上的變化進(jìn)行建模,進(jìn)一步提高了語(yǔ)音增強(qiáng)的性能。文獻(xiàn)[11]使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)有效緩解了RNN在處理語(yǔ)音增強(qiáng)問(wèn)題時(shí)梯度消失和梯度爆炸的問(wèn)題。文獻(xiàn)[12]提出了一種基于LSTM-RNN的語(yǔ)音增強(qiáng)方法,使用LPS特征作為輸入,分別將純凈語(yǔ)音的LPS和IRM作為訓(xùn)練目標(biāo),實(shí)驗(yàn)結(jié)果表明,該方法可有效提升增強(qiáng)后語(yǔ)音的質(zhì)量和可懂度。
實(shí)際上,無(wú)論采用哪種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行語(yǔ)音增強(qiáng),都應(yīng)充分利用語(yǔ)音序列信息上下文之間的相關(guān)性,使網(wǎng)絡(luò)更好地學(xué)習(xí)含噪語(yǔ)音和純凈語(yǔ)音之間的非線(xiàn)性關(guān)系,因此網(wǎng)絡(luò)模型的輸入通常是連續(xù)的多幀含噪語(yǔ)音序列。然而含噪語(yǔ)音序列相鄰幀所包含的信息并非都是有利信息,也有可能是噪聲主導(dǎo)的干擾信息。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)在處理含噪語(yǔ)音序列時(shí),將不同時(shí)間步上的輸入編碼為固定長(zhǎng)度的向量表示,使得網(wǎng)絡(luò)無(wú)法有選擇性地學(xué)習(xí)序列信息,限制了網(wǎng)絡(luò)模型的性能。因此,本文將Attention機(jī)制與準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)(quasi-recurrent neural network,QRNN)結(jié)合,設(shè)計(jì)出一種融合注意力機(jī)制的QRNN(ATT-QRNN)語(yǔ)音增強(qiáng)模型?;赒RNN對(duì)含噪語(yǔ)音并行計(jì)算的特性保證網(wǎng)絡(luò)模型的訓(xùn)練速度,通過(guò)Attention機(jī)制使得QRNN的輸入是賦予權(quán)重的含噪語(yǔ)音序列,從而提高網(wǎng)絡(luò)模型對(duì)含噪語(yǔ)音序列中目標(biāo)信息的學(xué)習(xí)能力,以提高網(wǎng)絡(luò)的增強(qiáng)性能。
QRNN相鄰時(shí)刻的隱層連接方式不再采用全連接的形式,而是將連續(xù)時(shí)間步上的隱層單元連接改進(jìn)為僅對(duì)上一時(shí)刻對(duì)應(yīng)隱層單元連接,表示QRNN網(wǎng)絡(luò)在多路隱層單元之間可以進(jìn)行并行計(jì)算,從而提高網(wǎng)絡(luò)的訓(xùn)練速度。QRNN由卷積層和池化層組成,通過(guò)卷積對(duì)含噪語(yǔ)音序列信息進(jìn)行跨緯度特征提取作為網(wǎng)絡(luò)的輸入,并構(gòu)造門(mén)控函數(shù)和記憶單元使得網(wǎng)絡(luò)可以保存之前時(shí)刻的序列信息。QRNN在t時(shí)刻隱層單元結(jié)構(gòu)如圖1所示,由遺忘門(mén)、輸出門(mén)和記憶單元組成。
圖1 QRNN隱層單元結(jié)構(gòu)
遺忘門(mén)ft控制隱層單元對(duì)當(dāng)前時(shí)刻輸入序列的保留程度;記憶單元ct控制隱層單元對(duì)之前時(shí)刻序列信息的保留程度;輸出門(mén)ot決定隱層單元的輸出。對(duì)給定的含噪語(yǔ)音序列X=[x1,x2,...,xT],經(jīng)過(guò)大小為k的濾波器卷積后得到第t幀為中心連續(xù)k幀的含噪語(yǔ)音序列Xt=[xt-(k-1)/2,...,xt,...,xt+(k-1)/2]作為網(wǎng)絡(luò)的輸入,根據(jù)k的取值不同可以改變輸入到隱層單元的語(yǔ)音序列維度。此時(shí)QRNN中序列信息zt、遺忘門(mén)ft、輸出門(mén)ot的計(jì)算公式為:
(1)
(2)
(3)
式中:Wz、Wf、Wo均為門(mén)函數(shù)的權(quán)重矩陣;elu、σ表示激活函數(shù)。最后通過(guò)記憶單元ct貫穿不同時(shí)刻序列信息的保留程度并決定網(wǎng)絡(luò)隱層最后的輸出ht:
ct=ftοct-1+itοzt,
(4)
ht=otοct。
(5)
Attention機(jī)制是一種資源分配機(jī)制,常用于序列任務(wù)分配。通過(guò)對(duì)關(guān)鍵的序列信息賦予更大的權(quán)重,提高網(wǎng)絡(luò)對(duì)目標(biāo)信息的關(guān)注程度。在語(yǔ)音增強(qiáng)的任務(wù)中,不同時(shí)刻輸入網(wǎng)絡(luò)中的序列對(duì)語(yǔ)音增強(qiáng)效果的影響是不同的,因此本文在模型中引入Attention機(jī)制,使網(wǎng)絡(luò)以高注意關(guān)注目標(biāo)語(yǔ)音的某一區(qū)域,同時(shí)以低注意感知噪聲干擾信號(hào),且網(wǎng)絡(luò)可以隨著時(shí)間的推移改變注意力的焦點(diǎn)。Attention機(jī)制的更新方式為
(6)
式中:αij是通過(guò)Attention機(jī)制的線(xiàn)性層學(xué)習(xí)得到的權(quán)重系數(shù);dj為Attention機(jī)制層的輸入;vi為Attention機(jī)制層的輸出。
本文將Attention機(jī)制與QRNN網(wǎng)絡(luò)結(jié)合,使模型在保證訓(xùn)練速度的基礎(chǔ)上更有效地學(xué)習(xí)語(yǔ)音序列的上下文關(guān)系,以達(dá)到更好的增強(qiáng)效果。融合Attention機(jī)制的QRNN語(yǔ)音增強(qiáng)模型如圖2所示,網(wǎng)絡(luò)由輸入層、Attention機(jī)制層、QRNN層以及輸出層組成,其中卷積層的并列模塊表示QRNN對(duì)含噪語(yǔ)音序列的并行處理。
圖2 基于ATT-QRNN的語(yǔ)音增強(qiáng)模型
本文將Attention機(jī)制應(yīng)用在網(wǎng)絡(luò)的輸入層之后,即網(wǎng)絡(luò)不再以含噪語(yǔ)音序列直接作為QRNN層的輸入,而是直接將含有權(quán)重系數(shù)的含噪語(yǔ)音序列作為后續(xù)QRNN層的輸入。則Attention在t時(shí)刻的輸出vt可表示為
vt=αtXt,
(7)
式中:αt是通過(guò)Attention機(jī)制對(duì)含噪語(yǔ)音序列賦予的權(quán)重;Xt為當(dāng)前時(shí)刻網(wǎng)絡(luò)輸入的連續(xù)多幀含噪語(yǔ)音序列特征。
基于ATT-QRNN的語(yǔ)音增強(qiáng)方法見(jiàn)表1。
表1 基于ATT-QRNN的語(yǔ)音增強(qiáng)方法
實(shí)驗(yàn)階段采用的數(shù)據(jù)集由愛(ài)丁堡大學(xué)信息學(xué)院語(yǔ)音技術(shù)研究中心(CSTR)[13]提供。該數(shù)據(jù)集包括純凈語(yǔ)音數(shù)據(jù)集Voice Bank集[14]和噪聲數(shù)據(jù)集Demand集[15]。在訓(xùn)練階段將Voice Bank集中的28位說(shuō)話(huà)人錄音和Demand集中的8類(lèi)噪聲、2類(lèi)人工合成噪聲按照15、10、5和0 dB的全局信噪比合成11 572段含噪語(yǔ)音文件。在測(cè)試集將Voice Bank集中的2位說(shuō)話(huà)人錄音和Demand集中的另外5類(lèi)噪聲按照17.5、12.5、7.5和2.5 dB的全局信噪比合成824段含噪語(yǔ)音文件。
在數(shù)據(jù)處理階段所有語(yǔ)音文件均采用16 kHz進(jìn)行重采樣,實(shí)驗(yàn)STFT的語(yǔ)音窗長(zhǎng)設(shè)為512點(diǎn)(32 ms),幀移設(shè)置為256點(diǎn)(16 ms)。網(wǎng)絡(luò)采用連續(xù)7幀的含噪語(yǔ)音LPS特征作為輸入,采用純凈語(yǔ)音的幅度譜掩蔽特征作為網(wǎng)絡(luò)的訓(xùn)練目標(biāo),損失函數(shù)采用MAE。網(wǎng)絡(luò)迭代epoch設(shè)為50,batchsize設(shè)為512,優(yōu)化器選用Adamax。為驗(yàn)證ATT-QRNN模型的合理性和有效性,實(shí)驗(yàn)階段使用QRNN模型作為基準(zhǔn)模型,旨在驗(yàn)證ATT-QRNN能夠利用QRNN模型提升訓(xùn)練速度的前提下,提高網(wǎng)絡(luò)模型的性能。此外還將LSTM和GRU網(wǎng)絡(luò)以及融合相同注意力機(jī)制的ATT-LSTM、ATT-GRU進(jìn)行語(yǔ)音增強(qiáng),以對(duì)比ATT-QRNN在增強(qiáng)后語(yǔ)音的性能以及網(wǎng)絡(luò)訓(xùn)練時(shí)間上的優(yōu)勢(shì)。
本文采用的語(yǔ)音增強(qiáng)性能的評(píng)價(jià)指標(biāo)主要包括主觀語(yǔ)音質(zhì)量評(píng)估(perceptual evaluation of speech quality,PESQ)[16]、短時(shí)客觀可懂度(short-time objective intelligibility,STOI)[17]、語(yǔ)音信號(hào)失真指數(shù)(CSIG)[18]、背景噪聲失真指數(shù)(CBAK)[18]、整體質(zhì)量(COVL)[18]。其中,PESQ是國(guó)際上公認(rèn)的客觀MOS評(píng)估指標(biāo),其取值范圍介于[-0.5,4.5]之間,取值越高表示增強(qiáng)后語(yǔ)音的質(zhì)量越高。STOI是衡量增強(qiáng)后語(yǔ)音可懂度的重要指標(biāo),尤其是在低信噪比的情況下,STOI的得分情況具有重要意義,其取值范圍介于[0,1]之間,取值越高表示增強(qiáng)后語(yǔ)音的可懂度越高。CSIG、CBAK、COVL是通過(guò)多種指標(biāo)線(xiàn)性回歸分析得到的,取值范圍均介于[0,5]之間,取值越高表示增強(qiáng)后語(yǔ)音的質(zhì)量越高。
2.3.1 網(wǎng)絡(luò)訓(xùn)練時(shí)間和參數(shù)量對(duì)比
本文旨在保障網(wǎng)絡(luò)訓(xùn)練速度的基礎(chǔ)上提高語(yǔ)音增強(qiáng)的性能,因此本文首先對(duì)比了ATT-QRNN網(wǎng)絡(luò)和其他模型的參數(shù)量和每個(gè)epoch上的訓(xùn)練時(shí)間,對(duì)比結(jié)果見(jiàn)表2。
表2 不同網(wǎng)絡(luò)訓(xùn)練時(shí)間和參數(shù)量對(duì)比
結(jié)果表明,ATT-QRNN的參數(shù)量與QRNN近似,明顯少于LSTM、GRU、ATT-LSTM、ATT-GRU的,
雖然ATT-QRNN與QRNN相比在每個(gè)epoch的平均訓(xùn)練時(shí)間上存在延時(shí),但與其他模型相比仍有大幅度提升。即基于ATT-QRNN的語(yǔ)音增強(qiáng)模型綜合上具有較少的訓(xùn)練參數(shù)和較快的訓(xùn)練速度。
2.3.2 語(yǔ)音增強(qiáng)性能對(duì)比
在語(yǔ)音增強(qiáng)性能的對(duì)比上,首先采用PESQ和STOI兩種指標(biāo)對(duì)比增強(qiáng)后語(yǔ)音的質(zhì)量和可懂度。圖3給出了不同網(wǎng)絡(luò)增強(qiáng)后的PESQ與STOI得分情況。在相同的信噪比下,ATT-QRNN以及其他模型的PESQ和STOI得分相比含噪語(yǔ)音均有不同程度提升,且基于ATT-QRNN的語(yǔ)音增強(qiáng)方法的兩種評(píng)估指標(biāo)得分提升幅度最大,表明注意力機(jī)制能有效地改善含噪語(yǔ)音的質(zhì)量和可懂度。
(a)PESQ得分
表3對(duì)比了ATT-QRNN與其他模型在不同信噪比下CSIG、CBAK、COVL的得分情況。通過(guò)對(duì)表3觀察發(fā)現(xiàn),語(yǔ)音增強(qiáng)網(wǎng)絡(luò)各項(xiàng)評(píng)估指標(biāo)的取值相比于含噪語(yǔ)音的評(píng)估指標(biāo)均有所提升。其中基于ATT-QRNN的語(yǔ)音增強(qiáng)方法在CSIG指標(biāo)的12.5 dB和17.5 dB上得分略低于ATT-GRU;在COVL指標(biāo)的7.5 dB上得分略低于ATT-LSTM、ATT-GRU;在其他不同信噪比和指標(biāo)下,ATT-QRNN均取得了最優(yōu)得分。綜合表3的得分情況,盡管ATT-QRNN在某些信噪比下的得分略低于其他網(wǎng)絡(luò)模型,但在同一指標(biāo)不同信噪比的平均得分水平上,ATT-QRNN均取得了最優(yōu)得分。
表3 不同網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)性能比較
為了更加直觀地對(duì)比不同網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)效果,本文以信噪比為2.5 dB的一段含噪語(yǔ)音為例,對(duì)比了該含噪語(yǔ)音以及對(duì)應(yīng)的純凈語(yǔ)音、不同網(wǎng)絡(luò)增強(qiáng)后的語(yǔ)音語(yǔ)譜圖。圖4(a)—圖4(h)分別表示純凈語(yǔ)音、含噪語(yǔ)音以及基于LSTM、GRU、QRNN、ATT-LSTM、ATT-GRU、ATT-QRNN增強(qiáng)后的語(yǔ)音語(yǔ)譜圖。
(a)純凈語(yǔ)音 (b)含噪語(yǔ)音 (c)LSTM增強(qiáng)的語(yǔ)音
通過(guò)語(yǔ)譜圖的對(duì)比發(fā)現(xiàn),各網(wǎng)絡(luò)增強(qiáng)后的語(yǔ)音語(yǔ)譜圖明顯比含噪語(yǔ)音的降低了更多的能量噪點(diǎn),使增強(qiáng)后的語(yǔ)音語(yǔ)譜圖更趨近于純凈語(yǔ)音的。其中基于ATT-QRNN增強(qiáng)后的語(yǔ)音語(yǔ)譜圖能量噪點(diǎn)減少的最明顯,保留了更多的目標(biāo)語(yǔ)音細(xì)節(jié),表明ATT-QRNN網(wǎng)絡(luò)對(duì)噪聲具有更好的抑制能力,對(duì)噪聲干擾起到了緩解作用。
綜合分析以上實(shí)驗(yàn)結(jié)果,相比除QRNN以外的其他模型,融合注意力機(jī)制的QRNN語(yǔ)音增強(qiáng)方法具有更快的訓(xùn)練速度,且在增強(qiáng)后的語(yǔ)音質(zhì)量和可懂度的客觀評(píng)價(jià),以及增強(qiáng)后語(yǔ)音的語(yǔ)譜圖的客觀分析上都取得了更好的結(jié)果,表明融合注意力機(jī)制的QRNN在保證訓(xùn)練速度的基礎(chǔ)上,通過(guò)注意力機(jī)制能提高語(yǔ)音增強(qiáng)性能。
1)通過(guò)QRNN網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)含噪語(yǔ)音序列信息并行計(jì)算,保證網(wǎng)絡(luò)的訓(xùn)練速度。
2)在QRNN網(wǎng)絡(luò)層前融入Attention機(jī)制對(duì)含噪語(yǔ)音的處理,通過(guò)權(quán)重分配提高網(wǎng)絡(luò)模型學(xué)習(xí)更多有利信息的能力。
3)相比除QRNN以外的其他模型,融合注意力機(jī)制的QRNN語(yǔ)音增強(qiáng)方法具有更快的訓(xùn)練速度。
4)通過(guò)對(duì)語(yǔ)譜圖觀察表明本文提出的方法對(duì)干擾噪聲具有更好的抑制能力。
綜合表明融合注意力機(jī)制的QRNN在保證訓(xùn)練速度的基礎(chǔ)上,通過(guò)注意力機(jī)制能提高語(yǔ)音增強(qiáng)性能。