邦錦陽,孫 蒙,張雄偉,鄭昌艷
(1.陸軍工程大學(xué)指揮控制工程學(xué)院,南京210007;2.火箭軍士官學(xué)校,青州262500)
骨傳導(dǎo)麥克風(fēng)(Bone-conducted microphone,BCM)有別于傳統(tǒng)的空氣傳導(dǎo)麥克風(fēng)(Air-conducted microphone,ACM),是通過拾取人聲帶振動采集語音信號的。BCM采集到的語音稱為骨導(dǎo)語音,ACM采集到的語音稱為氣導(dǎo)語音。由于背景噪聲的強(qiáng)度不夠,無法使BCM產(chǎn)生震動,在聲音采集階段就屏蔽了背景噪聲,所以BCM具有較強(qiáng)的抗背景噪聲性能,從而在軍事行動、搶險救災(zāi)、車間工廠等場景中具有非常廣闊的應(yīng)用前景。
骨導(dǎo)語音只能拾取聲帶振動,根據(jù)人體發(fā)聲的規(guī)律研究,采集到的骨導(dǎo)語音缺少了鼻、口腔、嘴唇等器官的輻射效應(yīng),因此骨導(dǎo)語音的高頻成分衰減十分嚴(yán)重,幾乎采集不到2.5 kHz以上的頻率成分。圖1分別展示了同一句話的氣導(dǎo)語音語譜圖和骨導(dǎo)語音語譜圖。從圖1可以看到,骨導(dǎo)語音的低頻成分與氣導(dǎo)語音非常相似,但高頻成分丟失,導(dǎo)致骨導(dǎo)語音的聽感沉悶、不清晰。因此,改善骨導(dǎo)語音質(zhì)量,對于強(qiáng)噪聲環(huán)境下語音通信具有重要意義。
圖1 氣導(dǎo)語音與骨導(dǎo)語音語譜圖Fig.1 Spectrogram of air-conducted and bone-conducted speeches
當(dāng)前骨導(dǎo)語音相關(guān)的增強(qiáng)方法主要分為兩大類:一是融合性的增強(qiáng)方法,結(jié)合氣導(dǎo)語音的完整性以及骨導(dǎo)語音的抗噪性,實現(xiàn)融合性的語音增強(qiáng);二是不依賴于氣導(dǎo)語音的骨導(dǎo)語音盲增強(qiáng)方法。盲增強(qiáng)方法是指在增強(qiáng)語音時,不需要氣導(dǎo)語音作為輔助,只依靠缺失了高頻信息的骨導(dǎo)語音信息恢復(fù)出原始的氣導(dǎo)語音。由于骨導(dǎo)語音缺失大量信息,骨導(dǎo)語音盲增強(qiáng)有別于一般的語音去噪增強(qiáng),且基于深度學(xué)習(xí)方法需要大量的數(shù)據(jù)集進(jìn)行訓(xùn)練,目前缺少通用的大型骨導(dǎo)語音數(shù)據(jù)集,因此骨導(dǎo)語音盲增強(qiáng)的難度更大,且相關(guān)研究較少,本文對骨導(dǎo)語音盲增強(qiáng)方法進(jìn)行研究。
傳統(tǒng)的盲增強(qiáng)方法有無監(jiān)督頻譜擴(kuò)展法[1-2]、均衡法和譜包絡(luò)轉(zhuǎn)換法等。由于骨導(dǎo)語音在聲源處缺少了鼻、口腔、嘴唇的輻射模型部分,導(dǎo)致高頻信息缺失,這3種方法都嘗試尋找一種聲道轉(zhuǎn)換模型,實現(xiàn)骨導(dǎo)語音到氣導(dǎo)語音的增強(qiáng)。均衡法試圖找到一種聲道變換函數(shù),建立氣導(dǎo)語音與骨導(dǎo)語音在頻譜分量上的映射關(guān)系,對骨導(dǎo)語音的頻譜分量進(jìn)行增強(qiáng),此方法能夠恢復(fù)部分缺失的高頻信息,但由于其采用長時譜的平均分量進(jìn)行計算,容易導(dǎo)致語音信號不連續(xù)[3]。譜包絡(luò)轉(zhuǎn)換法同樣基于語音信號的源-濾波器模型,利用譜包絡(luò)特征表示聲道模型的特征,此方法與均衡法相比優(yōu)勢在于增強(qiáng)后的語音信號更為連貫[4]。聲道模型包含了復(fù)雜精密的人體器官結(jié)構(gòu),尚無準(zhǔn)確的模型能刻畫聲道特征,受限于計算能力、模型的非線性表達(dá)程度,以上增強(qiáng)方法對于語音信號的表征、高頻成分的恢復(fù)能力有限。
近年來,大量深度學(xué)習(xí)的方法極大地推動了語音信號處理、圖像處理領(lǐng)域的研究,在語音增強(qiáng)、語音識別、目標(biāo)檢測等各類任務(wù)上都取得了不俗的效果。深度學(xué)習(xí)網(wǎng)絡(luò)是一種端到端的模型,其優(yōu)勢在于能夠擬合非線性特征、處理復(fù)雜信息。Xu等[5]設(shè)計了一個深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)來學(xué)習(xí)噪聲語音與干凈語音間的映射關(guān)系,采取全局方差均衡和Dropout策略,提升了增強(qiáng)語音的客觀和主觀度量指標(biāo),同時噪聲感知訓(xùn)練技術(shù)使其具有良好的泛化能力。Jiang等[6]首先提取語音梅爾倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC),該特征更符合人耳聽覺特性,而后輸入DNN重構(gòu)語音幅度譜,結(jié)果證明此方法有效提升了語音增強(qiáng)效果,并且減少了模型訓(xùn)練所需的數(shù)據(jù)量。盡管DNN具有較好的非線性表達(dá)能力,但由于語音信號是一種時序性信號,具有上下文關(guān)聯(lián)的特點,而DNN在處理經(jīng)傅里葉變換后得到的語譜圖時,容易忽略相鄰幀之間的關(guān)聯(lián),限制了DNN在語音增強(qiáng)方面的性能。
DNN的隱藏層中節(jié)點之間是孤立的,只有不同隱藏層之間的節(jié)點間才存在連接,而循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)通過在隱藏層節(jié)點中建立連接[7],使當(dāng)前時刻的節(jié)點可以保留之前時刻的信息,因此在處理序列問題時,RNN能充分考慮全局信息。然而,若序列長度過長,RNN在反向傳播的過程中,梯度持續(xù)累積,直到無窮大或無窮小,這種現(xiàn)象稱之為梯度爆炸和梯度消失,無法記憶長期的序列。長短時記憶網(wǎng)絡(luò)(Long short term memory network,LSTM)加入了門控機(jī)制,引入輸入門、遺忘門、輸出門控制不同時刻記憶之前時刻信息的權(quán)重,克服了RNN的缺陷,使得網(wǎng)絡(luò)在處理長序列問題時,依然可以保持“記憶力”。Liang等[8]在LSTM的基礎(chǔ)上,結(jié)合注意力機(jī)制,采用通道間相關(guān)性的理想比值掩碼作為學(xué)習(xí)目標(biāo),對噪聲污染較小的信息進(jìn)行篩選,有助于重構(gòu)干凈語音。Lee等[9]在雙向LSTM(Bi-directional LSTM,BLSTM)的基礎(chǔ)上,將語音功率估計和噪聲功率估計融合到頻譜濾波框架中,并提出一種具有先驗信噪比的附加內(nèi)部約束,有效提升了語音增強(qiáng)質(zhì)量。
RNN和LSTM的優(yōu)勢在于處理上下文關(guān)聯(lián)信息,但對于語譜圖中高低頻信息間的關(guān)聯(lián)系利用不足。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)是圖像處理領(lǐng)域的佼佼者,CNN類似于人眼對物體的觀察,局部感知特性使其擁有對細(xì)節(jié)的刻畫能力,權(quán)值共享結(jié)構(gòu)減少了網(wǎng)絡(luò)的參數(shù)量。CNN對結(jié)構(gòu)特征的表征能力是RNN、LSTM的短板。Kounovsky等[10]利用CNN構(gòu)造了一個去噪自編碼器(Denoisisng autoencoders,DAEs),實驗表明對于語音對數(shù)功率譜的增強(qiáng)效果中,基于CNN的DAEs比基于全連接(Full connection,F(xiàn)C)的性能提升了8%。此外,Pandey和Wang[11]基于編解碼(Encoder-decoder)網(wǎng)絡(luò)架構(gòu),編解碼器采用CNN結(jié)構(gòu),并在編碼器和解碼器之間增加了一個時域卷積模塊,利用當(dāng)前和之前幀的信息重構(gòu)增強(qiáng)語音,該模型增強(qiáng)效果強(qiáng)于LSTM,且由于是全卷積的模型,訓(xùn)練參數(shù)顯著減少。鄭昌艷等[12]將LSTM模型應(yīng)用于骨導(dǎo)語音盲增強(qiáng)的研究中,得到增強(qiáng)語音后,為了解決過平滑問題,采用了非負(fù)矩陣分解(Non-negative matrix factorization,NMF),進(jìn)一步提高了語音質(zhì)量。LSTM對于骨導(dǎo)語音增強(qiáng)具有不錯的效果,但其參數(shù)量過大,仍需要一種輕量化的模型用于實現(xiàn)實時性的語音增強(qiáng)。
本文構(gòu)建了一種卷積網(wǎng)絡(luò)與殘差LSTM聯(lián)合模型,在淺層LSTM的前端引入卷積網(wǎng)絡(luò),以達(dá)到簡化模型,提升增強(qiáng)效果的目的。首先描述了聯(lián)合模型的架構(gòu);其次介紹了模型中的關(guān)鍵模塊及其設(shè)計思路;再次進(jìn)行了實驗仿真及結(jié)果分析;最后對本文工作進(jìn)行了總結(jié)。
考慮深層LSTM模型存在參數(shù)量大,計算時間復(fù)雜度較高,淺層LSTM增強(qiáng)效果不佳的矛盾,而CNN具有參數(shù)量小,對結(jié)構(gòu)特征提取能力強(qiáng)的優(yōu)勢,借助CNN可以在減小模型復(fù)雜度的同時,提升淺層LSTM的增強(qiáng)效果。本文提出了一種融合卷積網(wǎng)絡(luò)與殘差LSTM的語音增強(qiáng)模型(Res-convolutionalrecurrent neural network,RCRNN)訓(xùn)練的骨導(dǎo)語音盲增強(qiáng)方法。
RCRNN聯(lián)合模型的總體結(jié)構(gòu)如圖2所示。語譜圖作為網(wǎng)絡(luò)輸入,在頻域上進(jìn)行卷積操作,提取頻域上的結(jié)構(gòu)特征以及高低頻信息間的結(jié)構(gòu)約束,隨后將CNN的輸出拼接后輸入LSTM,得到增強(qiáng)后的語音。同時,為了擴(kuò)大卷積核的視野,采用了擴(kuò)張卷積,獲取更大的感受野;為了提高網(wǎng)絡(luò)訓(xùn)練效率,在LSTM中引入了殘差連接,進(jìn)一步減小出現(xiàn)梯度消失和爆炸問題的可能性。損失函數(shù)選擇均方誤差(Mean square error,MSE),將增強(qiáng)后語譜圖和原氣導(dǎo)語音語譜圖進(jìn)行對比,根據(jù)兩者的MSE優(yōu)化模型參數(shù)。
圖2 RCRNN聯(lián)合模型增強(qiáng)方法的結(jié)構(gòu)Fig.2 Structure of RCRNN joint model enhancement method
本文采用卷積-殘差LSTM實現(xiàn)骨導(dǎo)語音盲增強(qiáng),其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。CNN作為殘差長短時記憶網(wǎng)絡(luò)(Residual long short time memory network,RLSTM)的前端特征提取網(wǎng)絡(luò),在頻率軸方向提取頻率特征以及高低頻率間的結(jié)構(gòu)相關(guān)性特征,不同的卷積核從骨導(dǎo)語音語譜圖中提取到不同的高維特征,將卷積網(wǎng)絡(luò)得到的所有通道的特征按頻率方向拼接后輸入RLSTM,通過若干LSTM隱藏層的訓(xùn)練,最后添加一個全連接層將高維特征降維映射到低維特征,得到增強(qiáng)后的語音語譜圖。
圖3 RCRNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of RCRNN
卷積模塊中共有3層擴(kuò)張卷積層,分別為CONV1、CONV2和CONV3,每層卷積后,連接ReLu非線性激活函數(shù)。拼接重排層得到所有卷積核提取到的高維特征,將其按頻率方向拼接后,作為新的特征矩陣輸入RLSTM,殘差長短時記憶模塊有兩個隱藏的LSTM層,對時序上的特征進(jìn)行建模提取,最后通過一個全連接層FC降維,將高維特征映射到低維特征,得到增強(qiáng)后的語譜圖。
網(wǎng)絡(luò)采用聯(lián)合訓(xùn)練的方式,引入CNN來彌補(bǔ)LSTM對語音信號頻域信息利用不充分的問題,整個網(wǎng)絡(luò)先后對語譜圖的頻域、時域信息進(jìn)行特征提取、訓(xùn)練,達(dá)到增強(qiáng)骨導(dǎo)語音的目的。
本文采用了LSTM作為基礎(chǔ)模型而不是性能更優(yōu)的BLSTM,因為BLSTM不僅利用了過去時刻的信息,也利用了未來時刻的信息,以此獲得更好的性能,但處理長時間的語音時,BLSTM參數(shù)量和預(yù)測推理時間無法滿足實時語音增強(qiáng)的要求。
在訓(xùn)練時,將預(yù)測數(shù)據(jù)與標(biāo)簽數(shù)據(jù)的MSE作為損失函數(shù),據(jù)此對模型進(jìn)行優(yōu)化。骨導(dǎo)語音幅度譜X經(jīng)模型預(yù)測后得到的增強(qiáng)幅度譜為模型訓(xùn)練的輸出目標(biāo)是氣導(dǎo)語音幅度譜Y,模型利用有監(jiān)督的方式進(jìn)行學(xué)習(xí)與Y的MSE定義為模型的訓(xùn)練誤差
式中JMSE表示模型的訓(xùn)練誤差。在語音增強(qiáng)任務(wù)中,模型輸出的增強(qiáng)后語音應(yīng)該盡可能接近原始語音,所以?與Y的MSE越小越好,模型的優(yōu)化目標(biāo)可表示為
式中W和b分別為神經(jīng)元的權(quán)值和偏置參數(shù)。網(wǎng)絡(luò)訓(xùn)練時目標(biāo)為最小化JMSE,根據(jù)鏈?zhǔn)椒▌t由后向前逐層更新各層的神經(jīng)元權(quán)值W和偏置b,尋找最優(yōu)值采用的方法是梯度下降法。
本文工作的算法流程如圖4所示。算法流程包括3個步驟:
圖4 本文算法設(shè)計Fig.4 Design of the proposed algorithm
(1)在數(shù)據(jù)預(yù)處理階段,首先將骨導(dǎo)語音x(n)和氣導(dǎo)語音y(n)的波形最大最小歸一化到[-1,1],而后分別進(jìn)行分幀加窗、短時傅里葉變換(Short time Fourier transform,STFT),對語音幅度譜取對數(shù)得到對數(shù)幅度譜并計算其均值方差,最后進(jìn)行均值方差歸一化。
(2)在模型訓(xùn)練階段,首先初始化模型參數(shù)記為θ0,將骨導(dǎo)語音訓(xùn)練數(shù)據(jù)輸入模型得到估計值,以網(wǎng)絡(luò)訓(xùn)練目標(biāo)氣導(dǎo)語音數(shù)據(jù)為參照,計算訓(xùn)練誤差,并優(yōu)化模型參數(shù)θn,直到訓(xùn)練輪次結(jié)束或連續(xù)5輪誤差不再下降。
(3)在增強(qiáng)階段,骨導(dǎo)語音經(jīng)過數(shù)據(jù)預(yù)處理后輸入訓(xùn)練好的模型,得到估計的對數(shù)幅度譜,最后與原始骨導(dǎo)語音對應(yīng)的相位譜進(jìn)行短時傅里葉逆變換和重疊加操作得到增強(qiáng)后的語音波形。
擴(kuò)張卷積(Dilated convolution)[13-14]也被稱為空洞卷積或者膨脹卷積,在卷積核大小不變的情況下,卷積計算時跳躍性地選擇數(shù)據(jù),以此來增加卷積核的感受野,由于未改變卷積核大小,可以在參數(shù)量不變的情況下,達(dá)到擴(kuò)大感受野的目的。擴(kuò)張卷積中引入了擴(kuò)張率的概念,可以視作在普通卷積核中,每個權(quán)值之間填充若干個零后得到一個新的卷積核,由新卷積核完成卷積運算。普通卷積運算可表示為
式中:x為輸入序列,*表示卷積操作,k為卷積核,m為卷積核尺寸。擴(kuò)張卷積可表示為
式中,*d表示擴(kuò)張率為d的擴(kuò)張卷積操作,當(dāng)d=1時,擴(kuò)張卷積等價于普通卷積。
盡管擴(kuò)張卷積能同時達(dá)到擴(kuò)大感受野和保證特征圖信息的目的,但由于卷積核在計算過程中存在空洞,所以輸入的語譜圖中不是所有時頻信息都參與了卷積運算,若連續(xù)的卷積層采用相同的擴(kuò)張率時,便會出現(xiàn)網(wǎng)格效應(yīng)(Gridding effect)。圖5展示的是多次疊加擴(kuò)張率為2的3×3卷積核出現(xiàn)的結(jié)果。此外,盡管擴(kuò)張卷積擴(kuò)大了感受野,但會影響卷積核對細(xì)節(jié)特征的提取,且擴(kuò)張率越大,細(xì)節(jié)丟失越嚴(yán)重。
圖5 3次擴(kuò)張率為2的3×3卷積后的結(jié)果Fig.5 Results of three times of 3×3 convolution with expansion rate of 2
因此,本文采用了“鋸齒狀”的擴(kuò)張率,在3層的卷積網(wǎng)絡(luò)中,擴(kuò)張率分別設(shè)置為[1,2,5],鋸齒狀的擴(kuò)張率可以保證所有輸入信息都不會被遺漏。同時,骨導(dǎo)語音的語譜圖在增強(qiáng)過程中,既要關(guān)注高低頻之間的關(guān)聯(lián)性,也要保留時頻結(jié)構(gòu)上的細(xì)節(jié),不同大小的擴(kuò)張率恰好可以滿足這個需求。在卷積核大小的設(shè)置上,借鑒文獻(xiàn)[15]的工作,卷積僅在頻率軸方向上進(jìn)行,可以獲得較好的增強(qiáng)性能,卷積核在時間軸上尺寸設(shè)為1,僅用于提取頻域特征。
LSTM是一種特殊的RNN,RNN當(dāng)前時刻t的輸入分別是當(dāng)前時刻輸入值xt,上一時刻輸出值ht-1,以及上一時刻的神經(jīng)元狀態(tài)Ct-1;輸出分別是當(dāng)前時刻輸出值ht以及當(dāng)前時刻的神經(jīng)元狀態(tài)Ct,通過節(jié)點間建立的連接使網(wǎng)絡(luò)記住之前的信息。通過增加輸入門限、遺忘門限和輸出門限,使模型按照一定權(quán)重系數(shù)將當(dāng)前時刻輸入信息xt、神經(jīng)元狀態(tài)信息Ct-1、上一時刻輸出信息ht-1計算出當(dāng)前時刻輸出信息ht,它們之間的關(guān)系可表達(dá)為
式中:ft、it、ot分別表示遺忘門、輸入門和輸出門,Ct表示細(xì)胞狀態(tài)。
本文算法中,在隱藏層之間加入殘差連接,將上一層的輸入和當(dāng)前層的輸出作為下一層的輸入,那么當(dāng)前層網(wǎng)絡(luò)的訓(xùn)練目標(biāo)就轉(zhuǎn)換為輸入數(shù)據(jù)與目標(biāo)之間的殘差,隨著網(wǎng)絡(luò)層數(shù)的加深,這個殘差值會逐漸減小,每層網(wǎng)絡(luò)只需擬合逼近殘差。He等[16]提出的加入殘差連接的Resnet,大大加深了神經(jīng)網(wǎng)絡(luò)的深度,提升了圖像識別的精度。引入殘差連接后,可以避免產(chǎn)生梯度消失和梯度爆炸的問題,解決了網(wǎng)絡(luò)達(dá)到一定深度后性能下降的問題,深度網(wǎng)絡(luò)達(dá)到一定深度時,網(wǎng)絡(luò)會出現(xiàn)退化的現(xiàn)象,在連續(xù)的矩陣乘法運算后,權(quán)重矩陣的秩會降低,意味著權(quán)重矩陣中有效的參數(shù)越來越少,特征表達(dá)能力越來越弱,把網(wǎng)絡(luò)淺層的輸入連接到深層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)的輸入融合,網(wǎng)絡(luò)訓(xùn)練目標(biāo)就從擬合目標(biāo)數(shù)據(jù)變成了擬合目標(biāo)數(shù)據(jù)與輸入數(shù)據(jù)的差,隨著網(wǎng)絡(luò)層數(shù)加深,擬合會越來越精確,有利于提升深層網(wǎng)絡(luò)表達(dá)的特征質(zhì)量。
本文選取了文獻(xiàn)[17]中的骨導(dǎo)語音語料庫作為訓(xùn)練數(shù)據(jù)。數(shù)據(jù)庫中有利用喉震式麥克風(fēng)采集的骨導(dǎo)語音與對應(yīng)的氣導(dǎo)語音,每條語音的時長為3~5 s不等,語音為32 kHz采樣率、16 bit量化。本文選取了男1、男2,女1、女2各200條語音作為數(shù)據(jù)集,對每個人的語音分別進(jìn)行實驗。在實驗數(shù)據(jù)中隨機(jī)選取單個說話人的140條語音作為訓(xùn)練集,30條語音作為驗證集,30條語音作為測試集。本文針對單人的骨導(dǎo)語音進(jìn)行訓(xùn)練,也用說話人本人的語音作為測試數(shù)據(jù),在不同模型上測試增強(qiáng)性能。
感知語音質(zhì)量評估(Perceptual evaluation of speech quality,PESQ)[18]、短時客觀可懂度(Short-time objective intelligibility,STOI)[19]、對數(shù)譜距離(Log spectral distance,LSD)[20]是評價語音質(zhì)量最常用,且具有代表性的客觀評價指標(biāo)。PESQ能預(yù)測待測語音的主觀MOS值,PESQ將待測語音和原始語音濾波變換后,綜合待測語音與原始語音的時頻特性,給出一個在[-0.5,4.5]區(qū)間的PESQ得分,語音質(zhì)量與PESQ得分成正比。STOI是衡量語音的重要指標(biāo)之一,對于語音來說,只有聽懂和聽不懂兩種情況,可以理解為在短時內(nèi)可懂度是二值的,其范圍在[0,1]之間,越接近1質(zhì)量越好。STOI是將待測語音和原始語音經(jīng)過移除靜音區(qū)、STFT變換、歸一化后計算短時譜向量的相關(guān)系數(shù)得到的。LSD衡量待測語音對數(shù)譜與原始語音對數(shù)譜之間的距離,LSD的值越小,說明待測語音越接近于原始語音,增強(qiáng)質(zhì)量就越高。
本文選取2種不同深度和不同參數(shù)的LSTM模型作為對比,分別是:(1)4層隱藏層,每層256個節(jié)點(簡記為LSTM1);(2)兩層隱藏層,每層256個節(jié)點(簡記為LSTM2);均采用MSE作為損失函數(shù)優(yōu)化模型。
下面介紹本文所介紹的RCRNN模型參數(shù)設(shè)置以及實驗設(shè)定。原始語音采樣率為32 kHz,但由于骨導(dǎo)語音的高頻成分缺失嚴(yán)重,STFT幅度譜在2.5 kHz以上幾乎已沒有能量,若要將骨導(dǎo)語音的頻率成分恢復(fù)到8 kHz甚至16 kHz,難度較大,且耗費的計算資源和參數(shù)將大大增加。首先將語音降采樣到8 kHz,而后進(jìn)行分幀加窗操作,利用語音短時平穩(wěn)性特點使語音具備做傅里葉變換的條件,最后進(jìn)行256維的STFT,得到頻率維度為129維的語音幅度譜。
模型結(jié)構(gòu)和參數(shù)以及輸入輸出數(shù)據(jù)的維度如表1所示。129維的幅度譜先后通過卷積網(wǎng)絡(luò)和殘差LSTM,兩個網(wǎng)絡(luò)由一個拼接重排層連接,卷積網(wǎng)絡(luò)的通道數(shù)依次是[16,32,64],卷積核大小為3×3,首層填充數(shù)為(1,0),其余層的填充數(shù)為(1,1),擴(kuò)張率分別為(1,2,5);殘差LSTM共2層,每層都由256個節(jié)點組成。模型采用兩個網(wǎng)絡(luò)聯(lián)合訓(xùn)練的方法,MSE設(shè)為損失函數(shù)用來優(yōu)化模型,為了防止模型對于訓(xùn)練集數(shù)據(jù)出現(xiàn)過擬合問題,所有網(wǎng)絡(luò)都設(shè)置了dropout=0.2。CNN的參數(shù)從前至后依次表示卷積的輸出通道數(shù)(Out channels)、卷積核大?。↘ernel size)、填充數(shù)(Padding)、擴(kuò)張率(Dilation rate)。
表1 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 1 Parameters of network structure
實驗結(jié)果的PESQ、STOI、LSD值如表2~4所示,共列出了基線模型與本文所提模型在4個不同說話人數(shù)據(jù)集上的實驗結(jié)果。從平均值上看,RCRNN在3個指標(biāo)上都要優(yōu)于同樣具有2層LSTM隱藏層的LSTM2,同 時,在STOI和LSD兩個指標(biāo)上,RCRNN要優(yōu)于有4層LSTM隱藏層的LSTM1,PESQ指標(biāo)上,兩者的差距很小。RCRNN在LSTM中采用了2層LSTM隱藏層的結(jié)構(gòu),可以體現(xiàn)出淺層的CNN結(jié)構(gòu)對語音增強(qiáng)性能的提升效果。RCRNN在LSTM2的基礎(chǔ)上,PESQ提升了2.5%,STOI提升了1.1%,LSD降低了1.7%,與LSTM1相比,客觀指標(biāo)上幾乎相同。
表2 3種模型在不同實驗對象下的PESQ值Table 2 PESQ scores of three models for different speakers
表4 3種模型在不同實驗對象下的LSD值Table 4 LSD scores of three models for different speakers
從表2中可以看出,3種基于LSTM模型及其改進(jìn)模型的骨導(dǎo)語音盲增強(qiáng)方法PESQ得分能達(dá)到3分以上,這個分?jǐn)?shù)已經(jīng)達(dá)到了較高水平的增強(qiáng)效果,骨導(dǎo)語音在聲源處就已經(jīng)屏蔽了大部分的背景噪聲,增強(qiáng)的目的主要是恢復(fù)高頻成分,提升語音聽感,與當(dāng)前效果較好的語音去噪方法相比,3分以上的PESQ已經(jīng)處于較高水平。性能上的提升得益于前端CNN將低維特征擴(kuò)充為高維特征,利用了高低頻信息之間的關(guān)聯(lián)性。
從表3,4可以看出,3種模型對女聲的增強(qiáng)性能要好于對男聲的增強(qiáng)效果,男女由于身體結(jié)構(gòu)的區(qū)別,發(fā)聲時男聲普遍更低沉,而女聲更為清脆,體現(xiàn)在頻率上就是男聲低頻厚重,而女聲高頻更清晰。增強(qiáng)后的男聲在STOI值上要低于女聲,這可能是由于男聲低頻信息的權(quán)重更大,在恢復(fù)高頻成分時比女聲的難度更大,因此導(dǎo)致增強(qiáng)后語音高頻部分的時頻結(jié)構(gòu)不夠清晰,高頻部分不足,語音的主觀聽感厚重,在一定程度上影響了語音的可懂度。
表3 3種模型在不同實驗對象下的STOI值Table 3 STOI scores of three models for differ?ent speakers
圖6 給出的是3種網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量大小以及在30條語音的測試集上的預(yù)測總用時,與LSTM1相比可以看出,LSTM1的客觀指標(biāo)較好,但參數(shù)量最大,耗時最長,而RCRNN達(dá)到了和LSTM1幾乎相同的性能,但參數(shù)量減少了42%,預(yù)測耗時降低了46.6%。這里體現(xiàn)了CNN的優(yōu)勢,CNN的參數(shù)量小,模型復(fù)雜度較低,因此RCRNN雖然加入了CNN網(wǎng)絡(luò),但可以使用淺層的LSTM,總體而言在模型復(fù)雜度上RCRNN比深層的LSTM降低了近一半,預(yù)測時間也大大減少。與LSTM2相比可以看出,由于添加了CNN特征提取模塊,RCRNN的參數(shù)量和預(yù)測時間有所增加,但其增強(qiáng)效果有明顯提升,這是因為RCRNN利用了CNN強(qiáng)大的特征提取功能,采用擴(kuò)張卷積的方式結(jié)合小卷積核對于細(xì)節(jié)的刻畫能力和大卷積核對于高低頻信息的關(guān)聯(lián)能力,因此,在保證模型復(fù)雜度和預(yù)測時間不明顯增加的情況下,RCRNN比淺層LSTM的性能更好。
圖6 3種模型的參數(shù)量和預(yù)測時間Fig.6 Parameters and prediction time of three models
圖7 展示了不同方法增強(qiáng)后語音的語譜圖示例,可以看出,增強(qiáng)后骨導(dǎo)語音的高頻成分基本上能夠較好地被恢復(fù)出來。由圖中紅色方框標(biāo)出的位置可以看出,加入CNN特征提取模塊的RCRNN,恢復(fù)出的語音的語譜圖在時頻結(jié)構(gòu)上更加清晰,語譜圖結(jié)構(gòu)上的細(xì)節(jié)恢復(fù)得更加準(zhǔn)確。不過清音和輔音在發(fā)聲時聲帶不產(chǎn)生震動,只能依靠上下文信息對其進(jìn)行恢復(fù),因此RCRNN對于清音和輔音的增強(qiáng)還是存在不足。
圖7 經(jīng)過不同模型增強(qiáng)的語音語譜圖Fig.7 Speech spectrogram enhanced by different models
本文針對基于LSTM的骨導(dǎo)語音盲增強(qiáng)方法模型復(fù)雜度高、預(yù)測時延較長,且沒有充分利用時頻結(jié)構(gòu)信息等問題,提出了一種融合卷積網(wǎng)絡(luò)和殘差LSTM的模型結(jié)構(gòu)(RCRNN),利用卷積網(wǎng)絡(luò)參數(shù)量小、特征提取能力強(qiáng)的特點,在網(wǎng)絡(luò)輸入的語譜圖頻率軸方向上進(jìn)行擴(kuò)張卷積操作,提取細(xì)節(jié)信息和高低頻關(guān)聯(lián)信息,而后由改進(jìn)后的殘差LSTM在時序上對骨導(dǎo)語音進(jìn)行處理,以提升增強(qiáng)性能,同時減少模型復(fù)雜度和預(yù)測時延,為實現(xiàn)語音實時增強(qiáng)提供便利。實驗證明,加入特征提取卷積網(wǎng)絡(luò)后,模型的性能得到了提升,達(dá)到了與深層LSTM相同水平的效果,由于使用淺層網(wǎng)絡(luò),模型的復(fù)雜度大大降低。但由于骨導(dǎo)語音數(shù)據(jù)庫較小,骨導(dǎo)語音與人體發(fā)聲特點密切相關(guān)等原因,該方法對于多說話人的增強(qiáng)效果還有待提高,這也是下一步研究的重點問題。