劉鵬
摘要:針對基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法展開研究,闡述了該方法提出的背景、模型原理和實(shí)施過程。搭建了基于混合深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)語音增強(qiáng)模型,并與僅基于DNN的語音增強(qiáng)模型進(jìn)行了對比實(shí)驗(yàn),驗(yàn)證了基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法,進(jìn)一步提高了增強(qiáng)語音的質(zhì)量。
關(guān)鍵詞:混合深度神經(jīng)網(wǎng)絡(luò);語音增強(qiáng);深度學(xué)習(xí);語音質(zhì)量
0引言
近幾十年來,語音增強(qiáng)(speech enhancement)由于其在移動電話、語音識別、助聽器設(shè)計(jì)等實(shí)時(shí)應(yīng)用方面的重要性而受到研究者的關(guān)注。語音增強(qiáng)方法的主要目的是在不失真的情況下提高退化語音(deteriorated speech)信號的語音質(zhì)量。為此,各國學(xué)者設(shè)計(jì)了許多算法。比如,譜減法是帶噪語音減去短期噪聲頻譜的估計(jì)值,從而產(chǎn)生純凈語音的估計(jì)值頻譜。信號子空間法是將帶噪語音信號通過矩陣分解的方法分解為信號子空間和噪聲子空間,進(jìn)而獲得純凈語音信號的頻譜估值。但是,在這些傳統(tǒng)方法中經(jīng)常遇到的問題是:由此產(chǎn)生的增強(qiáng)語音經(jīng)常受到一種人為因素的影響,即“音樂噪聲”。而且,由于傳統(tǒng)的語音增強(qiáng)方法往往假設(shè)噪聲信號是平穩(wěn)的并且噪聲信號與語音信號不存在相關(guān)關(guān)系,這使得傳統(tǒng)語音增強(qiáng)算法無法適用于非平穩(wěn)噪聲的現(xiàn)實(shí)情況。
上世紀(jì)90年代,考慮到噪聲對語音干擾的復(fù)雜過程,部分學(xué)者開始采用神經(jīng)網(wǎng)絡(luò)等非線性模型來建立帶噪語音與純凈語音信號之間的映射關(guān)系。文獻(xiàn)[4]和文獻(xiàn)[5]利用淺層神經(jīng)網(wǎng)絡(luò)(shallow neuralnetworks)作為非線性濾波器來預(yù)測時(shí)域或頻域內(nèi)的純凈信號。然而,淺層神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)規(guī)模小,不能充分學(xué)習(xí)帶噪語音特征與目標(biāo)信噪比之間的關(guān)系。不僅如此,淺層神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始化常常會出現(xiàn)明顯的局部極小值或停滯,對于包含更多隱藏層的體系結(jié)構(gòu),問題會更為明顯。2006年Hinton等學(xué)者在其論文“A fast learning algorithm for deepbelief nets”和“Reducing the dimensionality of datawith neural networks”中提出了一種貪婪的分層學(xué)習(xí)算法,為訓(xùn)練深度架構(gòu)帶來了突破,同時(shí)也迎來深度學(xué)習(xí)技術(shù)的大繁榮。深度學(xué)習(xí)模型的每一層都進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)其輸入(或前一層的輸出)的高級表示。對于回歸任務(wù),深度學(xué)習(xí)已被應(yīng)用于多個(gè)語音合成任務(wù)中。在文獻(xiàn)[11]和[12]中,堆疊降噪自編碼器(stacked denoising autoencoders)作為一種深度模型來建立帶噪語音和純凈語音信號特性之間的關(guān)系,為了捕捉語音信號的時(shí)間特性,部分學(xué)者還引入了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neuralnetworks),從而消除了多層感知器(muhilayerperceptrons)中對上下文窗口的顯式選擇,文獻(xiàn)[13]和[14]采用深度循環(huán)神經(jīng)網(wǎng)絡(luò)(deep recurrentneural networks)為魯棒語音識別(robust speechrecognition)進(jìn)行特征增強(qiáng)。但在有限噪聲類型下訓(xùn)練的深度循環(huán)神經(jīng)網(wǎng)絡(luò)泛化能力較弱。此外,近年來基于對帶噪語音頻譜圖(spectrograms)處理的語音增強(qiáng)算法也不斷被提出。Fu等學(xué)者使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks)直接從帶噪語音的頻譜圖中估計(jì)出了純凈語音的頻譜圖,該方法較基于深度神經(jīng)網(wǎng)絡(luò)(deep neural networks)的幅度處理方法相比性能有了很大提高。
隨著學(xué)者對深度學(xué)習(xí)模型研究的不斷深入,人們開始嘗試將深度學(xué)習(xí)模型與原有機(jī)器學(xué)習(xí)模型(如SVM或GMM)或者不同深度學(xué)習(xí)模型之間進(jìn)行聯(lián)合,構(gòu)建出混合的深度學(xué)習(xí)模型結(jié)構(gòu),比如:DNN-HMM結(jié)構(gòu)、DNN-GMM結(jié)構(gòu)、CNN-RNN結(jié)構(gòu)、CNN-HMM結(jié)構(gòu)以及RNN-HMM結(jié)構(gòu)等。研究發(fā)現(xiàn),使用這些混合網(wǎng)絡(luò)相較于單一網(wǎng)絡(luò)結(jié)構(gòu)能夠獲得更好的性能和實(shí)驗(yàn)效果。
1 基本方法概述
1.1 語音增強(qiáng)的概念
語音增強(qiáng)是指通過抑制噪聲來改善聽眾對帶噪語音某方面的感知體驗(yàn)。在實(shí)際應(yīng)用中,語音增強(qiáng)對帶噪語音感知體驗(yàn)的改善主要有質(zhì)量(quality)和可懂度(intelligibility)兩個(gè)方面。針對帶噪語音質(zhì)量的改善是非常必要的,特別是在其長時(shí)間暴露于諸如工廠生產(chǎn)車間或航空飛機(jī)場等高分貝噪音環(huán)境下,語音質(zhì)量的改善可以減少聽眾的聽覺疲勞。使用語音增強(qiáng)算法可以在一定程度上降低或抑制背景噪聲,因此有時(shí)也稱其為噪聲抑制算法(noisesuppression algorithms)。
1.2 深度學(xué)習(xí)模型
深度學(xué)習(xí)指的是廣泛的機(jī)器學(xué)習(xí)技術(shù)以及基于多層非線性信息處理的體系結(jié)構(gòu),這些信息處理本質(zhì)上被認(rèn)為是分層的,深度學(xué)習(xí)的模型結(jié)構(gòu)可以分為單一獨(dú)立(Standalone)結(jié)構(gòu)(通常包括DNNs、CNNs和RNNs等)和混合(hybrid)結(jié)構(gòu)(包括DNN-HMM、DNN-GMM、CNN-RNN、CNN-HMM和RNN-HMM等)。
卷積神經(jīng)網(wǎng)絡(luò)(CNNs)被認(rèn)為是一個(gè)由多個(gè)特征提取階段所構(gòu)成的深層體系結(jié)構(gòu),其中每個(gè)階段都包含一個(gè)卷積層和一個(gè)池化層以及非線性激活函數(shù)(ReLU),通過這樣的組合方式力求接近復(fù)雜的非線性模型函數(shù)。卷積層共享了權(quán)值,而池化層對來自卷積層的輸出進(jìn)行采樣,降低了數(shù)據(jù)維度。CNNs假設(shè)特征具有不同層次結(jié)構(gòu)并可以通過卷積內(nèi)核提取。在監(jiān)督訓(xùn)練過程中,通過學(xué)習(xí)層次特征來完成既定的任務(wù)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)是一類允許通過網(wǎng)絡(luò)的不同層共享參數(shù)的深度神經(jīng)網(wǎng)絡(luò)。RNNs是基于類似樹的結(jié)構(gòu)上循環(huán)地使用相同的權(quán)值集來開發(fā)的,該樹按拓?fù)漤樞虮闅v。RNNs主要用于利用已有的數(shù)據(jù)樣本預(yù)測未來的數(shù)據(jù)序列。當(dāng)涉及到語音或文本等序列數(shù)據(jù)的建模時(shí),RNNs是非常流行的。
將卷積神經(jīng)網(wǎng)絡(luò)(CNNs)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)相結(jié)合,用于對音頻信號或單詞序列等序列數(shù)據(jù)進(jìn)行建模,這種混合模型稱為卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNNs)。通過用RNNs替換最后一層卷積,可以將CRNNs描述為一個(gè)經(jīng)過修改的CNNs。在CRNNs中,CNNs和RNNs分別扮演著特征提取器和時(shí)間歸納器的角色。采用RNNs對特征進(jìn)行聚類,使得網(wǎng)絡(luò)能夠考慮全局結(jié)構(gòu),而局部特征由卷積層提取。這種結(jié)構(gòu)最初是在文獻(xiàn)[17]中提出用于文檔分類,文獻(xiàn)[18]采用該結(jié)構(gòu)進(jìn)行了音樂標(biāo)注。
2 基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法
2.1模型概述
基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)模型由三個(gè)部分組成:首先,將帶噪語音頻譜圖與若干個(gè)卷積核(kemel)進(jìn)行卷積,形成特征圖(feature maps),并將所有特征圖拼接成一個(gè)二維特征圖:然后,利用雙向RNNs在時(shí)間維度對二維特征圖進(jìn)行進(jìn)一步的變換,建立連續(xù)幀之間的動態(tài)關(guān)聯(lián);最后,建立預(yù)測頻譜圖和純凈語音頻譜圖之間的成本函數(shù)(costfunction),利用全連接層(Fully Connected Layer)對純凈語音頻譜圖逐幀進(jìn)行預(yù)測。與已有的DNNs和RNNs模型相比,由于卷積內(nèi)核的稀疏性,該混合網(wǎng)絡(luò)具有更高的數(shù)據(jù)效率和處理效率。此外,雙向循環(huán)網(wǎng)絡(luò)使得模型能夠自適應(yīng)地對連續(xù)幀之間的動態(tài)關(guān)聯(lián)進(jìn)行建模。
2.2 模型建立
假定y和x分別為帶噪語音和其所對應(yīng)的純凈語音頻譜圖,其維度均為d×t。其中,d表示頻譜圖的頻帶數(shù)目,t表示頻譜圖的長度。假定Z為卷積核,其維度為b×w。將帶噪語音頻譜圖y與內(nèi)核z進(jìn)行卷積,所形成的特征圖如公式(1)所示。
3 基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)實(shí)驗(yàn)
將基于混合深度神經(jīng)網(wǎng)絡(luò)所建立的語音增強(qiáng)模型與僅基于DNN的語音增強(qiáng)模型在語音增強(qiáng)的質(zhì)量效果進(jìn)行了實(shí)驗(yàn)對比。
3.1實(shí)驗(yàn)過程
3.1.1 數(shù)據(jù)準(zhǔn)備
分別搭建基于混合深度神經(jīng)網(wǎng)絡(luò)和僅基于DNN的語音增強(qiáng)模型。純凈語音選自TIMIT數(shù)據(jù)庫,噪聲信號選取NOISEX-92中的babble、ca、street和train四種噪聲,按照-5dB、0dB和5dB分別加噪。
兩種模型的訓(xùn)練數(shù)據(jù)集均由TIMI了數(shù)據(jù)庫中的全部訓(xùn)練集4620個(gè)句子,按照不同噪聲類型(4種)結(jié)合不同信噪比(3種)所產(chǎn)生的不同加噪條件(12種)的帶噪語音和與之對應(yīng)的純凈語音組成。所以,采用了55440個(gè)語音對來構(gòu)成兩種模型的訓(xùn)練數(shù)據(jù)集。
兩種模型的測試數(shù)據(jù)集均由TIMIT數(shù)據(jù)庫中的全部測試集1680個(gè)句子,按照不同噪聲類型(4種)結(jié)合不同信噪比(3種)所產(chǎn)生的不同加噪條件(12種)的帶噪語音和與之對應(yīng)的純凈語音組成。所以,采用了20160個(gè)語音對來構(gòu)成兩種模型的測試數(shù)據(jù)集,
3.1.2模型參數(shù)配置
基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)模型實(shí)驗(yàn)中,作為預(yù)處理步驟,首先使用短時(shí)傅里葉變換(STFT)從每個(gè)話語中提取頻譜圖。每個(gè)頻譜圖中有256個(gè)頻帶(d=256)和500幀(t=500)。模型卷積層中有256個(gè)維度為32×11的卷積核,滑動步長(stride)頻率維度為16.時(shí)間維度為1.邊緣外自動補(bǔ)0。在卷積層之后使用了兩層雙向LSTMs.每層都有1024個(gè)隱藏單元。
僅基于DNN的語音增強(qiáng)模型實(shí)驗(yàn)中,DNN模型包含3個(gè)隱藏層,每個(gè)層都有2048個(gè)隱藏單元。
3.2 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)中語音質(zhì)量的評價(jià)選用PESQ方法,語音質(zhì)量的PESQ評價(jià)結(jié)果見表1-表3所示。
語音質(zhì)量的PESQ值越高說明對應(yīng)的語音主觀聽覺質(zhì)量越好,從表1-表3語音PESQ測試值可以看出:相較于僅基于DNN的語音增強(qiáng)模型,基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)模型進(jìn)一步提高了增強(qiáng)語音的質(zhì)量,
由于在所構(gòu)建的混合深度神經(jīng)網(wǎng)絡(luò)中,CNNs和RNNs分別扮演了特征提取器和時(shí)間歸納器的角色。采用雙向LSTMs對特征進(jìn)行聚類,使得網(wǎng)絡(luò)能夠考慮語音的全局結(jié)構(gòu),而局部特征可以由卷積層提取。因此,基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法較僅基于DNN的語音增強(qiáng)方法能夠?qū)W習(xí)到語音中更多的上下文全局信息,表現(xiàn)出更好的語音質(zhì)量增強(qiáng)效果,
4 結(jié)束語
本文針對基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法展開了研究,闡述了該方法提出的背景、模型原理和實(shí)施過程,搭建了基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)模型和僅基于DNN的語音增強(qiáng)模型,進(jìn)行了對比實(shí)驗(yàn),驗(yàn)證了基于混合深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法,進(jìn)一步提高了增強(qiáng)語音的質(zhì)量。