国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)頻注意力機(jī)制與U-Net的骨導(dǎo)語(yǔ)音魯棒增強(qiáng)方法

2022-11-16 00:51張玥張雄偉孫蒙
信號(hào)處理 2022年10期
關(guān)鍵詞:時(shí)頻卷積注意力

張玥 張雄偉 孫蒙

(中國(guó)人民解放軍陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇南京 210007)

1 引言

環(huán)境噪聲常常對(duì)人們的語(yǔ)音交流帶來(lái)不便,語(yǔ)音增強(qiáng)是減少噪聲對(duì)語(yǔ)音通信干擾的重要技術(shù)手段。目前,語(yǔ)音增強(qiáng)技術(shù)已取得很大發(fā)展,傳統(tǒng)增強(qiáng)方法[1-3]、基于深度學(xué)習(xí)的增強(qiáng)方法[4-7]層出不窮,在處理平穩(wěn)噪聲時(shí)能夠取得較好的增強(qiáng)效果。然而,當(dāng)語(yǔ)音信噪比低、噪聲環(huán)境復(fù)雜時(shí),現(xiàn)有語(yǔ)音增強(qiáng)方法效果將大幅下降。骨導(dǎo)語(yǔ)音是骨導(dǎo)麥克風(fēng)直接通過(guò)與說(shuō)話者聲帶、頭骨等的接觸拾取振動(dòng)而產(chǎn)生的語(yǔ)音信號(hào),因此能從聲源處屏蔽環(huán)境噪聲,得到較為純凈的語(yǔ)音信號(hào),在復(fù)雜噪聲環(huán)境下具有重要的應(yīng)用價(jià)值。然而,由于人體發(fā)聲的機(jī)理以及目前傳感器等設(shè)備制作水平的限制,骨導(dǎo)語(yǔ)音高頻信息丟失、部分清音音節(jié)缺失、聽(tīng)感沉悶、不夠清晰,因而語(yǔ)音可懂度較低,難以直接應(yīng)用于正常通信[8]。研究骨導(dǎo)語(yǔ)音增強(qiáng)算法,對(duì)提高低信噪比環(huán)境下的語(yǔ)音通信質(zhì)量,促進(jìn)骨導(dǎo)語(yǔ)音應(yīng)用的推廣具有重要意義。

目前,骨導(dǎo)語(yǔ)音增強(qiáng)方法有傳統(tǒng)方法與基于深度學(xué)習(xí)的方法。傳統(tǒng)的骨導(dǎo)語(yǔ)音增強(qiáng)方法有譜減法、維納濾波法等頻域法以及基于高斯混合模型、基于最小均方誤差法等統(tǒng)計(jì)方法。傳統(tǒng)骨導(dǎo)語(yǔ)音盲增強(qiáng)方法從多方面較好的分析了骨導(dǎo)語(yǔ)音的頻譜特征,找到骨、氣導(dǎo)語(yǔ)音的相關(guān)性,為后續(xù)工作打下了良好基礎(chǔ)。近年來(lái),深度學(xué)習(xí)迅速發(fā)展并在各領(lǐng)域均得到廣泛應(yīng)用?;谏疃葘W(xué)習(xí)的方法較于傳統(tǒng)方法能夠更好的學(xué)習(xí)骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音的語(yǔ)譜特征,能夠獲得更好的增強(qiáng)效果[9-12]。Liu[9]等提出了一種深度去噪自編碼器方法,利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)增強(qiáng)骨導(dǎo)語(yǔ)音高維頻譜特征,以提高語(yǔ)音質(zhì)量和可懂度。鄭[11]等提出了一種基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory-Recurrent Neural Network,LSTM-RNN)的骨導(dǎo)語(yǔ)音盲增強(qiáng)方法,利用LSTMRNN 結(jié)構(gòu)對(duì)骨、氣導(dǎo)語(yǔ)音高維對(duì)數(shù)譜之間的轉(zhuǎn)換關(guān)系進(jìn)行建模,有效地捕捉了上下文信息重構(gòu)骨導(dǎo)語(yǔ)音高維幅度譜?;谏疃葘W(xué)習(xí)的骨導(dǎo)語(yǔ)音增強(qiáng)方法通過(guò)分析骨導(dǎo)語(yǔ)音低頻頻譜成分推測(cè)出高頻信息,重構(gòu)出全頻帶的語(yǔ)音,生成語(yǔ)音在質(zhì)量及可懂度方面均有較大提升。然而目前應(yīng)用于骨導(dǎo)語(yǔ)音增強(qiáng)方法的深度神經(jīng)網(wǎng)絡(luò)在骨導(dǎo)語(yǔ)音樣本有限的情況下難以充分學(xué)習(xí)骨導(dǎo)語(yǔ)音特性,對(duì)于未知說(shuō)話人的語(yǔ)音集魯棒性不強(qiáng)。

2015 年,Olaf[13]等首次提出了U-Net 結(jié)構(gòu)并將其應(yīng)用于生物醫(yī)學(xué)圖像分割中。U-Net 為對(duì)稱的“編-解碼結(jié)構(gòu)”,利用卷積層與池化提取特征與上下文信息,同時(shí)利用跳躍連接對(duì)同一層編碼、解碼層的語(yǔ)音譜信息進(jìn)行拼接,實(shí)現(xiàn)多尺度的特征融合。Olaf等的實(shí)驗(yàn)表明,U-Net結(jié)構(gòu)對(duì)于生物醫(yī)學(xué)圖像類小樣本數(shù)據(jù)集能夠從極少的訓(xùn)練圖像中充分學(xué)習(xí)數(shù)據(jù)特征,相比于滑動(dòng)窗口卷積網(wǎng)絡(luò)取得了更高的性能指標(biāo)。近年來(lái),U-Net 被大量應(yīng)用于語(yǔ)音增強(qiáng)領(lǐng)域中,體現(xiàn)出了較好的降噪能力以及泛化能力[14-17]。目前骨導(dǎo)語(yǔ)音數(shù)據(jù)集未有公開(kāi)數(shù)據(jù)集,使用數(shù)據(jù)集為實(shí)驗(yàn)室聲暗室錄制,可用訓(xùn)練樣本較少,因而相對(duì)于氣導(dǎo)語(yǔ)音增強(qiáng)的數(shù)據(jù)集,骨導(dǎo)語(yǔ)音是小樣本數(shù)據(jù)集。因此,我們采用U-Net 結(jié)構(gòu)作為增強(qiáng)模型的主干網(wǎng)絡(luò)。然而,骨導(dǎo)語(yǔ)音在高頻部分缺失嚴(yán)重,與氣導(dǎo)語(yǔ)音在高維頻譜差異較大,需要從低頻部分提取語(yǔ)音信息重構(gòu)高頻部分。為使UNet 結(jié)構(gòu)在訓(xùn)練過(guò)程中能夠更加關(guān)注骨導(dǎo)語(yǔ)音的低頻信息以及時(shí)域上的能量分布,在U-Net 結(jié)構(gòu)的基礎(chǔ)上引入了時(shí)頻注意力機(jī)制。

注意力機(jī)制可以使神經(jīng)網(wǎng)絡(luò)專注于某些重要輸入信息或特征。在語(yǔ)音增強(qiáng)中,注意力機(jī)制可以為輸入的語(yǔ)義信息分配不同的權(quán)重,因此可以引導(dǎo)模型關(guān)注學(xué)習(xí)重要語(yǔ)義成分,而較少關(guān)注噪音或干擾信息,從而提高生成增強(qiáng)語(yǔ)音的純凈度[18-22]。Zhang[18]等將頻率注意力機(jī)制引入到時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)中,引導(dǎo)TCN有選擇地強(qiáng)調(diào)具有重要語(yǔ)音信息的頻率特征,提高了網(wǎng)絡(luò)的表示能力,增強(qiáng)語(yǔ)音的語(yǔ)音質(zhì)量與可懂度指標(biāo)均得到了提升。Bahareh[19]等在U-Net 中引入了通道注意力機(jī)制,在U-Net 結(jié)構(gòu)的每一層均加入注意力,引導(dǎo)網(wǎng)絡(luò)在每一層上均決定最關(guān)注哪些特征,該方法在CHiME-3 數(shù)據(jù)集上展示了當(dāng)時(shí)最優(yōu)性能。Hao[20]等在LSTM 結(jié)構(gòu)基礎(chǔ)上采用了注意力機(jī)制,當(dāng)模型在預(yù)測(cè)增強(qiáng)語(yǔ)音時(shí),注意力機(jī)制計(jì)算輸入和當(dāng)前語(yǔ)音幀之間的相關(guān)性,并為輸入提供權(quán)重。實(shí)驗(yàn)表明,與LSTM 基線相比,該模型在語(yǔ)音質(zhì)量和可懂度方面均能取得更好的性能,并對(duì)不可見(jiàn)的噪聲條件具有更好的泛化能力。以上工作表明,注意力機(jī)制可以引導(dǎo)神經(jīng)網(wǎng)絡(luò)模型充分學(xué)習(xí)語(yǔ)音重要特征信息,提升增強(qiáng)語(yǔ)音的質(zhì)量以及模型的泛化能力。對(duì)于骨導(dǎo)語(yǔ)音,低頻信息與時(shí)域成分較為豐富,因此可以利用時(shí)頻注意力機(jī)制引導(dǎo)模型學(xué)習(xí)骨導(dǎo)語(yǔ)音的有效時(shí)頻成分。

為了充分關(guān)注骨導(dǎo)語(yǔ)音的時(shí)頻信息,在訓(xùn)練數(shù)據(jù)較少的情況下充分利用現(xiàn)有特征,我們將時(shí)頻注意力機(jī)制引入U(xiǎn)-Net 結(jié)構(gòu)中,引導(dǎo)模型充分學(xué)習(xí)骨導(dǎo)語(yǔ)音譜的低頻信息,重構(gòu)高頻成分。論文的剩余部分結(jié)構(gòu)組織如下:第2 節(jié)介紹骨導(dǎo)語(yǔ)音增強(qiáng)方法的模型結(jié)構(gòu),第3 節(jié)進(jìn)行仿真實(shí)驗(yàn)和結(jié)果分析,第4節(jié)對(duì)全文工作進(jìn)行總結(jié)。

2 骨導(dǎo)語(yǔ)音魯棒增強(qiáng)方法模型結(jié)構(gòu)

2.1 骨導(dǎo)語(yǔ)音產(chǎn)生的數(shù)學(xué)模型

假定語(yǔ)音激勵(lì)信號(hào)為e(t),如圖1 所示,骨導(dǎo)語(yǔ)音x(t)與氣導(dǎo)語(yǔ)音y(t)聲源為同一激勵(lì)信號(hào)。骨導(dǎo)語(yǔ)音為激勵(lì)信號(hào)通過(guò)人體頭骨、頜骨、喉骨等路徑傳輸而形成的語(yǔ)音信號(hào),設(shè)傳播路徑函數(shù)為hB(Ct)。氣導(dǎo)語(yǔ)音為激勵(lì)信號(hào)通過(guò)聲道、口腔、鼻腔等傳輸而形成的語(yǔ)音信號(hào),設(shè)其傳播路徑函數(shù)為hAC(t)。則骨、氣導(dǎo)語(yǔ)音產(chǎn)生可用公式(1)、公式(2)表示:

圖1 骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音傳輸路徑圖[8]Fig.1 Transmission channels for bone-conducted speech and air-conducted speech[8]

由于實(shí)際骨導(dǎo)語(yǔ)音采集的過(guò)程中其傳播路徑函數(shù)hBC(t)不僅與骨導(dǎo)傳感器放置位置有關(guān),還與說(shuō)話人骨骼特性、發(fā)聲音節(jié)等密切相關(guān),因而hB(Ct)為一復(fù)雜非線性函數(shù),目前仍無(wú)法進(jìn)行數(shù)學(xué)建模。

2.2 增強(qiáng)方法總體架構(gòu)

骨導(dǎo)語(yǔ)音增強(qiáng)方法的總體架構(gòu)如圖2所示。數(shù)據(jù)預(yù)處理階段,將骨導(dǎo)語(yǔ)音與對(duì)應(yīng)的氣導(dǎo)語(yǔ)音分幀、加窗,進(jìn)行短時(shí)傅里葉變換(Short-Term Fourier Transform,STFT)得到對(duì)應(yīng)的骨導(dǎo)、氣導(dǎo)語(yǔ)音幅度譜。而后對(duì)幅度譜進(jìn)行取對(duì)數(shù)操作,得到對(duì)數(shù)幅度譜。計(jì)算出對(duì)數(shù)幅度譜頻率方向每一維的均值和方差后進(jìn)行歸一化,得到歸一化后的骨導(dǎo)語(yǔ)音譜與氣導(dǎo)語(yǔ)音譜。

圖2 增強(qiáng)方法總體架構(gòu)Fig.2 Overall architecture of the enhancement method

訓(xùn)練階段,將骨導(dǎo)語(yǔ)音譜作為輸入,對(duì)應(yīng)的氣導(dǎo)語(yǔ)音譜作為目標(biāo)對(duì)結(jié)合時(shí)頻注意力機(jī)制與U-Net的增強(qiáng)模型進(jìn)行訓(xùn)練,學(xué)習(xí)骨、氣導(dǎo)語(yǔ)音的譜映射關(guān)系。訓(xùn)練損失函數(shù)選擇均方誤差(Mean Squared Error,MSE),在最小化增強(qiáng)語(yǔ)音與對(duì)應(yīng)氣導(dǎo)語(yǔ)音MSE的目標(biāo)下優(yōu)化模型參數(shù)。

增強(qiáng)階段,將測(cè)試集中的骨導(dǎo)語(yǔ)音經(jīng)過(guò)STFT、取對(duì)數(shù)、歸一化后得到對(duì)數(shù)幅度譜。將歸一化后的幅度譜經(jīng)過(guò)訓(xùn)練好的增強(qiáng)模型得到增強(qiáng)語(yǔ)音的幅度譜。對(duì)生成的幅度譜進(jìn)行反歸一化及指數(shù)運(yùn)算,最后經(jīng)過(guò)逆短時(shí)傅里葉變換(ISTFT,Inverse STFT)生成增強(qiáng)語(yǔ)音。

2.3 時(shí)頻注意力機(jī)制結(jié)構(gòu)

語(yǔ)音在時(shí)域與頻率方向的能量分布對(duì)于預(yù)測(cè)語(yǔ)音頻譜同樣重要。為引導(dǎo)模型有選擇性地學(xué)習(xí)骨導(dǎo)語(yǔ)音中具有重要信息的時(shí)頻特征,本文提出了一種時(shí)頻注意力機(jī)制(Time-Frequency Domain Attention,TFDA),在時(shí)域與頻率方向?yàn)檩斎胝Z(yǔ)音分配相應(yīng)的權(quán)重。

注意力機(jī)制結(jié)構(gòu)如圖3所示。首先將輸入信息經(jīng)過(guò)平均池化訪問(wèn)全局信息提取特征,而后通過(guò)全連接層將特征連接,最后通過(guò)激活函數(shù)Sigmoid 根據(jù)已獲取的特征信息生成相應(yīng)的權(quán)重,將所得與原輸入相乘后輸出得到預(yù)測(cè)語(yǔ)音譜。

圖3 注意力機(jī)制結(jié)構(gòu)圖Fig.3 Attention mechanism structure diagram

在此基礎(chǔ)上,在時(shí)間與頻率維度上均引入了注意力機(jī)制,并設(shè)置可學(xué)習(xí)的權(quán)重將分別經(jīng)過(guò)時(shí)間、頻率維度注意力機(jī)制的語(yǔ)譜以及原語(yǔ)譜連接,得到預(yù)測(cè)語(yǔ)譜輸出。時(shí)頻注意力機(jī)制結(jié)構(gòu)圖如圖4 所示。假定輸入語(yǔ)譜X∈R1×T×F,沿時(shí)間方向?qū)進(jìn)行全局平均池化后生成特征模型Yt∈R1×F,其公式為:

圖4 時(shí)頻注意力機(jī)制結(jié)構(gòu)圖Fig.4 TFDA mechanism structure diagram

同理,沿頻率方向?qū)進(jìn)行全局平均池化后生成特征模型Yf∈R1×T,其公式為:

經(jīng)特征模型Yt、Yf經(jīng)過(guò)全連接層連接特征信息并經(jīng)過(guò)激活函數(shù)生成語(yǔ)音譜沿時(shí)間、頻率方向的權(quán)重Wt、Wf,公式為:

其中,f1、f2為兩層全連接層,λ、μ分別為ReLU 和Sigmoid 激活函數(shù)。將獲得的時(shí)間、頻率方向的權(quán)重Wt、Wf權(quán)重與原輸入相乘獲得估計(jì)語(yǔ)音譜XT'、XF',公式為:

其中?為向量乘法。最后設(shè)置可學(xué)習(xí)的權(quán)重α、β、γ將時(shí)間、頻率方向的估計(jì)語(yǔ)音譜XT'、XF'和原輸入語(yǔ)譜X連接,其中α+β+γ=1,得到最終估計(jì)語(yǔ)譜X',其公式為:

2.4 結(jié)合時(shí)頻注意力機(jī)制與U-Net的網(wǎng)絡(luò)架構(gòu)

我們選擇U-Net結(jié)構(gòu)作為骨導(dǎo)語(yǔ)音增強(qiáng)方法的主干網(wǎng)絡(luò)。U-Net 結(jié)構(gòu)最早被提出應(yīng)用于醫(yī)學(xué)圖像分割,能夠從極少的訓(xùn)練圖像中充分學(xué)習(xí)數(shù)據(jù)特征。U-Net 結(jié)構(gòu)近年來(lái)也被廣泛應(yīng)用于語(yǔ)音增強(qiáng)中,并得到了較好的增強(qiáng)效果。目前骨導(dǎo)語(yǔ)音集訓(xùn)練數(shù)據(jù)較少,因此我們利用U-Net多尺度特征融合、高效提取特征的優(yōu)勢(shì)學(xué)習(xí)骨導(dǎo)語(yǔ)音頻譜特征,建立骨、氣導(dǎo)語(yǔ)音的頻譜映射關(guān)系。

圖5 為結(jié)合時(shí)頻注意力機(jī)制與U-Net 的網(wǎng)絡(luò)架構(gòu)。輸入骨導(dǎo)語(yǔ)音譜首先經(jīng)過(guò)2.2節(jié)中時(shí)頻注意力機(jī)制,生成權(quán)重與原輸入相乘得到估計(jì)語(yǔ)譜后,經(jīng)過(guò)包含5 層卷積層的U-Net 結(jié)構(gòu)中。U-Net 結(jié)構(gòu)為“編-解碼結(jié)構(gòu)”,編碼階段包含5 次卷積和4 次下采樣操作。輸入語(yǔ)譜首先經(jīng)過(guò)3×3的卷積操作提取特征,通過(guò)線性校正單元ReLU 后進(jìn)行下采樣,下采樣操作通過(guò)2×2的最大池化完成數(shù)據(jù)降維。每次卷積操作后,特征圖通道數(shù)增加一倍(第一層有所不同),每次下采樣操作后,特征圖長(zhǎng)寬減半,最終得到了通道數(shù)為256,大小為T/16×8 的特征圖。而后對(duì)特征圖進(jìn)行解碼,解碼階段首先進(jìn)行上采樣,上采樣操作通過(guò)2×2的核進(jìn)行特征映射。經(jīng)過(guò)上采樣的特征圖通道數(shù)減半,長(zhǎng)寬加倍。為了避免出現(xiàn)梯度消失和梯度爆炸問(wèn)題,每層上采樣后將編碼階段對(duì)應(yīng)的特征通過(guò)跳躍連接與上采樣后的特征圖串聯(lián)拼接。拼接后的特征圖通過(guò)3×3的反卷積進(jìn)行解碼,解碼后的特征圖通道數(shù)減半,最后一層得到通道數(shù)為16,大小為T×129 的特征圖后經(jīng)過(guò)1×1 的反卷積得到全頻帶的估計(jì)語(yǔ)譜圖。

圖5 結(jié)合時(shí)頻注意力機(jī)制與U-Net的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 U-Net combined with TFDA mechanism structure diagram

3 仿真實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

3.1.1 數(shù)據(jù)集

目前,國(guó)際沒(méi)有公開(kāi)的骨導(dǎo)語(yǔ)音數(shù)據(jù)集,實(shí)驗(yàn)數(shù)據(jù)集利用實(shí)驗(yàn)室喉振式骨導(dǎo)麥克風(fēng)與高保真麥克風(fēng)錄制。數(shù)據(jù)集中共包含20 名男生、40 名女生,每人共200 條語(yǔ)音,語(yǔ)音長(zhǎng)度平均在3~4 s,原采樣頻率為32 kHz。實(shí)驗(yàn)中將數(shù)據(jù)集做降采樣,生成采樣頻率為16 kHz的語(yǔ)音。

單說(shuō)話人骨導(dǎo)語(yǔ)音增強(qiáng)中訓(xùn)練、驗(yàn)證與測(cè)試集為同一說(shuō)話人的全部語(yǔ)音。選取其中兩名男生、兩名女生的語(yǔ)音集進(jìn)行對(duì)比實(shí)驗(yàn),每人均為200 條語(yǔ)句。隨機(jī)選擇其中140 條語(yǔ)句作為訓(xùn)練集,20 條語(yǔ)句為驗(yàn)證集,40條語(yǔ)句為測(cè)試集進(jìn)行實(shí)驗(yàn)。

未知說(shuō)話人骨導(dǎo)語(yǔ)音增強(qiáng)中訓(xùn)練、驗(yàn)證、測(cè)試集中均包含多個(gè)不同說(shuō)話人的全部語(yǔ)音,且說(shuō)話人未有重合。未知說(shuō)話人骨導(dǎo)語(yǔ)音增強(qiáng)利用全部20 名男生與40 名女生語(yǔ)音集進(jìn)行對(duì)比實(shí)驗(yàn),每人均為200 條語(yǔ)句。隨機(jī)選取其中14 名男生、28 名女生的全部語(yǔ)句作為訓(xùn)練集,2 名男生、4 名女生的全部語(yǔ)句作為驗(yàn)證集,剩余4 名男生、8 名女生的全部語(yǔ)句為測(cè)試集進(jìn)行實(shí)驗(yàn)。

3.1.2 網(wǎng)絡(luò)參數(shù)設(shè)置

(1)U-Net

基于U-Net 的骨導(dǎo)語(yǔ)音增強(qiáng)包含5 層卷積層,其中通道數(shù)為[1,16,32,64,128],輸出通道數(shù)為[16,32,64,128,256],卷積核大小為3×3,步長(zhǎng)為3,填充數(shù)為1;4 層池化層,池化層大小為2×2;5 層反卷積層,前4 層通道數(shù)為[256,128,64,32],輸出通道數(shù)為[128,64,32,16],卷積核大小為3×3,步長(zhǎng)為3,填充數(shù)為1,最后一層輸入通道數(shù)為16,輸出為1,卷積核大小為3×3,步長(zhǎng)、填充數(shù)為1。

(2)時(shí)頻注意力機(jī)制

本文所采用注意力機(jī)制首先經(jīng)過(guò)池化層提取特征,而后經(jīng)過(guò)兩層全連接層將特征連接,全連接層輸入通道數(shù)為129,輸出通道數(shù)為129,激活函數(shù)分別采用ReLU 與Sigmoid。設(shè)置參數(shù)α為可學(xué)習(xí)的三維向量,將α各維權(quán)重經(jīng)過(guò)Softmax歸一化后與經(jīng)時(shí)域、頻域注意力機(jī)制的語(yǔ)譜以及原輸入語(yǔ)譜相乘,求和得到估計(jì)語(yǔ)譜。

(3)對(duì)比實(shí)驗(yàn)設(shè)置

我們選取了語(yǔ)音增強(qiáng)領(lǐng)域中獲得較好效果的三種注意力機(jī)制進(jìn)行對(duì)比實(shí)驗(yàn)。文獻(xiàn)[18]中FAA參數(shù)設(shè)置與本文頻域注意力參數(shù)相同。文獻(xiàn)[21]中Attention 經(jīng)過(guò)三層全連接層,輸入節(jié)點(diǎn)數(shù)分別為129、40、40,輸出節(jié)點(diǎn)數(shù)分別為40、40、129;第一層全連接層后連接一層LSTM 用于連接前后文語(yǔ)音信息,節(jié)點(diǎn)數(shù)為40,而后經(jīng)過(guò)Softmax 進(jìn)行歸一化;Attention 采用激活函數(shù)Tanh 與Sigmoid。文獻(xiàn)[22]中AttNet 首先經(jīng)過(guò)兩層LSTM 層,節(jié)點(diǎn)數(shù)均為256,而后經(jīng)過(guò)兩層全連接,輸入節(jié)點(diǎn)數(shù)為256、300,輸出節(jié)點(diǎn)數(shù)分別為300、300,采用激活函數(shù)ReLU。

模型訓(xùn)練時(shí),設(shè)置batch_size 為8,采用Adam 優(yōu)化器,為了防止網(wǎng)絡(luò)出現(xiàn)過(guò)擬合,初始學(xué)習(xí)率為0.00001,最高學(xué)習(xí)率為0.001,設(shè)置dropout 為0.2。由于注意力機(jī)制模型相較于U-Net 結(jié)構(gòu)參數(shù)量小、結(jié)構(gòu)簡(jiǎn)單,為了避免出現(xiàn)參數(shù)更新速度不匹配的問(wèn)題,設(shè)置U-Net參數(shù)每訓(xùn)練3輪更新一次參數(shù)。

3.1.3 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)采用感知語(yǔ)音質(zhì)量評(píng)估(Perceptual Evaluation of Speech Quality,PESQ)與短時(shí)客觀可懂度(Short-Time Objective Intelligibility,STOI)作為衡量生成語(yǔ)音質(zhì)量的客觀評(píng)價(jià)指標(biāo)。

PESQ 是將參考語(yǔ)音與待測(cè)語(yǔ)音進(jìn)行預(yù)處理,在時(shí)間上進(jìn)行對(duì)準(zhǔn)后進(jìn)行濾波,分析兩個(gè)信號(hào)時(shí)頻上的差值得到的評(píng)估分?jǐn)?shù)。PESQ 得分范圍在-0.5~4.5之間,得分越高,語(yǔ)音質(zhì)量越好。

STOI的計(jì)算首先需要移除語(yǔ)音信號(hào)的靜音區(qū),而后將語(yǔ)音經(jīng)STFT 變換得到時(shí)頻域特征,再對(duì)時(shí)頻點(diǎn)進(jìn)行三分之一倍頻分析,最后進(jìn)行歸一化和裁剪計(jì)算待測(cè)試語(yǔ)音和干凈語(yǔ)音之間短時(shí)譜向量的相關(guān)系數(shù)。STOI 的結(jié)果范圍在0~1 之間,代表單詞被正確理解的百分比,值越大,表示語(yǔ)音可懂度越高。

3.2 結(jié)果與對(duì)比分析

3.2.1 單說(shuō)話人骨導(dǎo)語(yǔ)音增強(qiáng)效果

表1、表2 為結(jié)合不同注意力機(jī)制與U-Net 結(jié)構(gòu)對(duì)于單說(shuō)話人骨導(dǎo)語(yǔ)音增強(qiáng)得到的PESQ 與STOI效果。由表中數(shù)據(jù)計(jì)算可得,基于時(shí)頻注意力機(jī)制與U-Net 的骨導(dǎo)語(yǔ)音增強(qiáng)方法較基于U-Net 的增強(qiáng)方法相比,對(duì)于4名單說(shuō)話人的增強(qiáng)PESQ指標(biāo)平均提升了5.8%,STOI 指標(biāo)平均提升了2.7%,在與其他注意力機(jī)制的對(duì)比中也取得了較好的結(jié)果。實(shí)驗(yàn)結(jié)果表明,時(shí)頻注意力機(jī)制對(duì)于單說(shuō)話人的骨導(dǎo)語(yǔ)音集具有較好的增強(qiáng)效果,增強(qiáng)后的語(yǔ)音質(zhì)量得到了較好的提升,語(yǔ)音更加清晰。

表1 不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于4人骨導(dǎo)語(yǔ)音增強(qiáng)所得PESQ結(jié)果對(duì)比Tab.1 PESQ results of BC speech enhancement for four speakers with different networks

表2 不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于4人骨導(dǎo)語(yǔ)音增強(qiáng)所得STOI結(jié)果對(duì)比Tab.2 STOI results of BC speech enhancement for four speakers with different networks

從表1、表2 可以看出,提出的時(shí)頻注意力機(jī)制在四種注意力機(jī)制中對(duì)于不同說(shuō)話人的預(yù)測(cè)語(yǔ)音PESQ 指標(biāo)提升最大,STOI 平均提升最多,語(yǔ)音質(zhì)量和可懂度都取得了較好的效果。對(duì)比4 名說(shuō)話人結(jié)果發(fā)現(xiàn),模型對(duì)于女2 取得的效果相對(duì)較低,提升較少。我們對(duì)比原骨導(dǎo)語(yǔ)音集后發(fā)現(xiàn),女2 的骨導(dǎo)語(yǔ)音聲音較輕,且在采集過(guò)程中摻雜了較多骨導(dǎo)麥克風(fēng)與衣物摩擦而產(chǎn)生的噪聲,因而增強(qiáng)后的語(yǔ)音中也摻雜了噪音的成分,語(yǔ)音質(zhì)量相對(duì)較差。

圖6 為男2 的骨、氣導(dǎo)語(yǔ)音以及經(jīng)過(guò)各網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)后的語(yǔ)音語(yǔ)譜圖對(duì)比。由圖6(a)~(f)對(duì)比可以發(fā)現(xiàn),經(jīng)過(guò)時(shí)頻注意力機(jī)制與U-Net 結(jié)構(gòu)重構(gòu)的語(yǔ)音高頻部分頻譜結(jié)構(gòu)更加清晰,能量更強(qiáng)。

與文獻(xiàn)[10]相比,對(duì)男1、男2、女1、女2的數(shù)據(jù),PESQ 分別提高了13.1%、13.9%、14.3%與11.7%,平均提高了13.25%,證明了所提方法的有效性。

3.2.2 未知說(shuō)話人骨導(dǎo)語(yǔ)音增強(qiáng)效果

結(jié)合不同注意力機(jī)制與U-Net結(jié)構(gòu)對(duì)于未知說(shuō)話人骨導(dǎo)語(yǔ)音增強(qiáng)所得PESQ 與STOI效果如表3 所示。由表中數(shù)據(jù)計(jì)算可得,基于時(shí)頻注意力機(jī)制與U-Net 的骨導(dǎo)語(yǔ)音增強(qiáng)方法較基于U-Net 的增強(qiáng)方法相比,對(duì)于未知說(shuō)話人的骨導(dǎo)語(yǔ)音增強(qiáng)PESQ 指標(biāo)提升了4.4%,STOI 指標(biāo)提升了1.3%,在與其他注意力機(jī)制的對(duì)比中也取得了最好的結(jié)果。

表3 不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于未知說(shuō)話人骨導(dǎo)語(yǔ)音增強(qiáng)所得PESQ、STOI結(jié)果對(duì)比Tab.3 PESQ and STOI results of BC speech enhancement for unknown speakers with different networks

測(cè)試集相對(duì)應(yīng)的骨、氣導(dǎo)語(yǔ)音以及經(jīng)過(guò)各網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)后的語(yǔ)音語(yǔ)譜圖如圖7所示。對(duì)比圖7(a)~(f)可以發(fā)現(xiàn),經(jīng)TFDA+U-Net 獲得的增強(qiáng)語(yǔ)音對(duì)于骨導(dǎo)語(yǔ)音缺失的清音音節(jié)也實(shí)現(xiàn)了較好的恢復(fù)。實(shí)驗(yàn)結(jié)果表明,時(shí)頻注意力機(jī)制對(duì)于未知說(shuō)話人的骨導(dǎo)語(yǔ)音數(shù)據(jù)集同樣具有較好的增強(qiáng)效果,模型魯棒性較強(qiáng)。

圖7 未知說(shuō)話人經(jīng)不同網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)預(yù)測(cè)語(yǔ)音語(yǔ)譜圖Fig.7 Predicted spectrograms of unknown speakers enhanced by different networks

3.2.3 時(shí)頻注意力機(jī)制可視化分析

為探尋時(shí)頻注意力機(jī)制對(duì)U-Net結(jié)構(gòu)學(xué)習(xí)骨導(dǎo)語(yǔ)音時(shí)頻信息的引導(dǎo)作用,實(shí)驗(yàn)將進(jìn)入注意力機(jī)制前后的語(yǔ)音譜以及注意力機(jī)制做了可視化分析,結(jié)果如圖8、圖9所示。圖8為經(jīng)時(shí)頻注意力機(jī)制前后語(yǔ)音波形圖對(duì)比,圖8(a)為輸入骨導(dǎo)語(yǔ)音波形圖,圖8(c)為經(jīng)過(guò)所提時(shí)頻注意力機(jī)制的骨導(dǎo)語(yǔ)音波形圖,圖8(b)暗色為原波形,亮色為經(jīng)注意機(jī)制后的波形。從圖8(b)可以看出,注意力機(jī)制引導(dǎo)模型在時(shí)域上對(duì)于語(yǔ)音有聲段部分波形進(jìn)行了增強(qiáng),語(yǔ)音幅度值增加。

圖8 經(jīng)時(shí)頻注意力機(jī)制前后語(yǔ)音波形圖對(duì)比Fig.8 Comparison of speech waveforms before and after TFDA

如圖9所示為經(jīng)時(shí)頻注意力機(jī)制前后語(yǔ)音語(yǔ)譜圖對(duì)比,其中圖9(a)為輸入骨導(dǎo)語(yǔ)音語(yǔ)譜圖,圖9(c)為經(jīng)過(guò)所提時(shí)頻注意力機(jī)制后的骨導(dǎo)語(yǔ)音語(yǔ)譜圖,圖9(b)為注意力機(jī)制熱力圖,顏色越亮,注意力系數(shù)越大。經(jīng)圖9 對(duì)比可見(jiàn),在骨導(dǎo)語(yǔ)音低頻部分系數(shù)注意力系數(shù)較大,說(shuō)明本文時(shí)頻注意力機(jī)制引導(dǎo)模型在頻域上較好地學(xué)習(xí)了骨導(dǎo)語(yǔ)音的低頻語(yǔ)音信息與諧波結(jié)構(gòu)。

圖9 經(jīng)時(shí)頻注意力機(jī)制前后語(yǔ)音語(yǔ)譜圖對(duì)比Fig.9 Comparison of speech spectrograms before and after TFDA

4 結(jié)論

為充分利用骨導(dǎo)語(yǔ)音小樣本數(shù)據(jù)集的時(shí)頻特征,我們將時(shí)頻注意力機(jī)制引入U(xiǎn)-Net結(jié)構(gòu)中,提出了結(jié)合時(shí)頻注意力機(jī)制和U-Net結(jié)構(gòu)的骨導(dǎo)語(yǔ)音魯棒增強(qiáng)方法。該方法首先對(duì)骨導(dǎo)語(yǔ)音譜沿時(shí)間、頻率方向按信息重要程度分配權(quán)重,對(duì)原輸入標(biāo)準(zhǔn)化后以對(duì)應(yīng)的氣導(dǎo)語(yǔ)音譜為目標(biāo)建立譜映射關(guān)系訓(xùn)練模型。仿真實(shí)驗(yàn)與注意力機(jī)制可視化分析結(jié)果表明與U-Net 基線以及結(jié)合其他注意力機(jī)制相比,所提出的結(jié)合時(shí)頻注意力機(jī)制的方法對(duì)于單說(shuō)話人與未知說(shuō)話人的骨導(dǎo)語(yǔ)音增強(qiáng)均獲得了最優(yōu)效果,體現(xiàn)了模型的魯棒性。

猜你喜歡
時(shí)頻卷積注意力
高階時(shí)頻變換理論與應(yīng)用
讓注意力“飛”回來(lái)
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
分?jǐn)?shù)階傅里葉變換改進(jìn)算法在時(shí)頻分析中的應(yīng)用
高聚焦時(shí)頻分析算法研究
如何培養(yǎng)一年級(jí)學(xué)生的注意力
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
基于稀疏時(shí)頻分解的空中目標(biāo)微動(dòng)特征分析
基于傅里葉域卷積表示的目標(biāo)跟蹤算法