国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于后驗知識監(jiān)督的噪聲魯棒聲學模型研究*

2018-03-12 08:53:02徐海青吳立剛余江斌
湘潭大學自然科學學報 2018年6期
關鍵詞:錯誤率后驗魯棒性

趙 峰, 徐海青, 吳立剛, 余江斌, 黃 影

(1.安徽繼遠軟件有限公司,安徽 合肥 230000;2.中國電力科學研究院,北京 100000;3.國網(wǎng)安徽省電力有限公司,信息通信分公司,安徽 合肥 230000)

隨著語音識別、深度學習等技術的發(fā)展和市場需求的不斷深化,語音交互產(chǎn)品的研發(fā)與應用成為熱點.由于場景的復雜性,語音交互系統(tǒng)常處在低信噪比環(huán)境,且由于人機交互系統(tǒng)的抗干擾能力不足,交互過程中常會出現(xiàn)語音識別率低或人機交互混亂等情況,導致服務對象的交互體驗感不佳,因此如何提高語音交互系統(tǒng)的噪聲魯棒性是現(xiàn)階段急需解決的問題.

如今,學者對聲學模型噪聲魯棒性開展了廣泛研究并提出了多種改進策略.其中特征與模型補償是通過自適應算法對聲學模型進行優(yōu)化處理的噪聲魯棒性方法.例如Leggetter[1]等利用最大似然回歸算法進行模型自適應.魯棒性特征提取是指從語料中提煉出對于噪聲不敏感的特征參數(shù),構建抗噪能力強的特征序列,從而提高噪聲魯棒性.倒譜均值歸一化法和均值方差歸一化方法[2-3]是最常見的兩種魯棒性特征提取方法,另外劉長征等[4]以MFCC特征作為CNN網(wǎng)絡的輸入,采取監(jiān)督學習的方式提取出高層的語音特征.語音增強常用的方式是通過噪聲更新與噪聲消除相結合的譜減法對語音和噪聲獨立處理,從帶噪語音譜中減去預估的噪聲譜得到語料的干凈譜;Xu等[5]提出了譜減法與DNN網(wǎng)絡相結合的方式,將譜減法處理后的特征與噪聲估計參數(shù)作為基礎樣本輸入DNN網(wǎng)絡中,通過噪聲依賴訓練得到深度聲學模型.

上述四種方法雖然可以有效提升聲學模型魯棒性,但是存在兩個問題:一是上述方法并未充分挖掘干凈語音的隱含知識;二是上述方法中聲學特征提取模塊與后續(xù)的訓練識別過程是相互獨立的,提取出的語音特征中包含冗余信息,而冗余信息通常不具備噪聲魯棒性.

針對上述問題,本文提出了一種基于后驗知識監(jiān)督的噪聲魯棒聲學建模方法,以干凈語音訓練的模型作為老師模型,帶噪語音訓練的模型作為學生模型,提煉老師模型的后驗概率分布知識用于監(jiān)督學生模型的訓練,達到提高聲學模型環(huán)境魯棒性的要求;在學生模型的設計上,提出了一種CNN與DNN相結合的聲學模型訓練網(wǎng)絡結構,其中CNN模塊用于提取帶噪語音的不變性特征,DNN用于聲學建模,整個網(wǎng)絡參數(shù)的訓練通過CNN與DNN模塊聯(lián)動調(diào)整與優(yōu)化.本文構建的模型在CHIME數(shù)據(jù)集上進行了不同信噪比下的語音識別性能驗證與對比,測試結果表明該模型具有較強的環(huán)境魯棒性,表現(xiàn)出優(yōu)越的抗噪性能.

1 基于后驗知識監(jiān)督的聲學建模

1.1 后驗知識監(jiān)督

本文提出的后驗知識監(jiān)督是指通過老師模型的訓練挖掘出干凈語音的后驗概率分布知識,并以此作為標準來監(jiān)督學生模型的訓練,從而通過學生模型逼近老師模型的后驗概率分布,達到提升聲學模型噪聲魯棒性的效果.對于兩種模型的后驗概率分布差異性,本文使用KL散度(相對熵)[6]進行量化.本文假設Pt為老師模型的后驗概率分布,QS為學生模型的后驗概率分布,QS相當于對Pt后驗概率分布的近似估計,因此二者的相對熵可表示為:

(1)

式中:i表示三音素狀態(tài)集合中的次序;phi為三音素狀態(tài)集合中的第i個狀態(tài);xt表示用于訓練老師模型的干凈語音特征;xs表示用于訓練學生模型的帶噪語音特征;Pt(phi|xt)表示特征xt被識別為第i個三音素狀態(tài)的后驗概率;Qs(phi|xs)表示特征xs被識別為第i個三音素狀態(tài)的后驗概率.該式通過變形可簡化成以下形式:

(2)

(3)

一般來說,經(jīng)驗概率分布通常是以0-1向量硬標注來進行描述,而老師模型與學生模型的相對熵是對兩種模型的后驗概率分布進行差異性比較,相當于將“硬標注”替換成了“軟標注”.

1.2 老師模型訓練

本文中老師模型是以GMM-HMM與神經(jīng)網(wǎng)絡的混合模型為基礎,基本訓練步驟如圖1所示.

首先對干凈語音進行特征xt提取,GMM-HMM模塊對分窗后的特征xt進行逐幀強制對齊,并得到每一幀語音數(shù)據(jù)的硬標注,從而得到每一幀數(shù)據(jù)的三音素狀態(tài)觀測概率分布;在強制對齊的基礎上對每一個硬標注進行時間維度上的起止點標注,該標注信息與硬標注數(shù)據(jù)作為監(jiān)督信息送入神經(jīng)網(wǎng)絡模塊進行聲學模型的建模訓練.GMM-HMM模塊的結構如圖2所示.

神經(jīng)網(wǎng)絡模塊的訓練以特征xt作為輸入,音素硬標注與標注數(shù)據(jù)作為監(jiān)督信息,利用前向算法得出逐幀數(shù)據(jù)的三音素后驗概率分布.軟標注是指每一幀數(shù)據(jù)的三音素狀態(tài)后驗概率分布,而非簡單的0-1判斷,由此得到的每一幀數(shù)據(jù)的軟標注的形式類似于[0.2 0.15 0.3 0.1 0.1 0.1],其中的每個數(shù)據(jù)表示該幀數(shù)據(jù)屬于不同三音素狀態(tài)的后驗概率.

1.3 學生模型訓練

基于學生模型本文提出一種CNN與DNN網(wǎng)絡相結合的方法,模型基本訓練流程如圖3所示.

學生模型的訓練先對帶噪語音進行初步特征xs提取,提取出的音素特征xs與老師模型的軟標注平行對齊,得到學生模型的軟標注;在初步特征提取的基礎上,借助CNN網(wǎng)絡局部連接與降采樣模塊的功能特性,在MFCC和FBANK等初步提取的聲學特征基礎上提取高層特征,并對特征降維,從而提煉出對噪聲語音不變性進行表征的特征序列;此外,考慮到DNN網(wǎng)絡具有強大的分類能力,在聲學模型的性能上已經(jīng)超越了GMM等傳統(tǒng)模型,最后將高層特征輸入DNN層進行聲學建模,整個模型網(wǎng)絡的訓練過程以相對熵最小化(式(3))作為優(yōu)化準則.

2 驗證實驗與結果分析

2.1 實驗基礎

本文使用TIMIT數(shù)據(jù)集,TIMIT數(shù)據(jù)集包含630個說話人語音,每人10句,其中干凈數(shù)據(jù)集取500個說話人,共5 000句作為老師模型的訓練樣本,剩余130個說話人,共1 300句作為老師模型的測試樣本;帶噪語音基于TMIT數(shù)據(jù)集隨機疊加5種信噪比的背景噪聲,5種信噪比分別為0 dB,5 dB,10 dB,15 dB和20 dB,取500個說話人,共5 000句作為學生模型的訓練樣本,剩余130個說話人,共1 300句作為學生模型的測試樣本.

為了檢驗構建的聲學模型在噪聲魯棒性上的優(yōu)劣,本文使用CHIME數(shù)據(jù)集進行模型性能的驗證與交叉比較,采樣頻率為16 kHz.本文使用Kaldi進行模型的訓練、測試與性能比較.共采用兩種特征:梅爾頻率倒譜系數(shù)(MFCC)和梅爾標度濾波器組特征(FBANK).老師模型GMM-HMM模塊輸入為MFCC,神經(jīng)網(wǎng)絡模型輸入為 FBANK,CNN-DNN混合學生模型輸入為FBANK.提取特征窗長為25 ms,幀移為10 ms. MFCC特征13維,加上一階和二階差分統(tǒng)計量,共39維. FBANK特征為40維,加上一階和二階差分統(tǒng)計量,共120維.

本文中老師模型的訓練遵循最小化交叉熵準則,損失函數(shù)為交叉熵,優(yōu)化方法為隨機梯度下降,神經(jīng)網(wǎng)絡聲學模型采用誤差反向傳播算法進行訓練.學生模型的訓練遵循式(3)的最小化準則,即損失函數(shù)為后驗概率分布相對熵,優(yōu)化方法為隨機梯度下降,CNN-DNN混合聲學模型同樣采用誤差反向傳播算法進行參數(shù)調(diào)整與優(yōu)化.

2.2 實驗設計及驗證結果

本文將驗證環(huán)節(jié)分為三個步驟進行設計,首先獨立對學生模型的CNN-DNN網(wǎng)絡結構進行性能對比驗證,并從中選擇基線模型作為后驗知識監(jiān)督下的學生模型對比基線;然后通過選擇不同的神經(jīng)網(wǎng)絡結構(CNN、DNN、LSTM)對老師模型進行訓練,從而為本文提出的后驗知識監(jiān)督方法提供對比驗證基礎;最后對基于后驗知識監(jiān)督的學生模型進行交叉對比與測試.

2.2.1CNN-DNN網(wǎng)絡性能對比驗證為了驗證CNN-DNN學生模型結構優(yōu)越性,本文使用兩種方法分別對GMM-HMM模型進行訓練,得到聲學模型的輸入硬標注:一是僅用干凈語音訓練GMM-HMM,表示為C-GMM;二是用帶噪語音訓練GMM-HMM,表示為N-GMM.C-GMM與N-GMM的三音素狀態(tài)數(shù)目分別為2 234和2 190.

基于上述兩種GMM-HMM模型的訓練方式,為了驗證CNN模塊對聲學模型性能的提升效果,構建兩種聲學模型進行對比分析:一是使用DNN網(wǎng)絡作為聲學建模的基礎結構,分別通過C-GMM與N-GMM模型得到帶噪語音的硬標注,其中C-GMM是首先得到干凈語音的硬標注,然后得到帶噪語音的硬標注,最后以FBANK聲學特征作為訓練樣本,帶噪語音硬標注作為監(jiān)督信息輸入DNN網(wǎng)絡進行聲學模型的訓練;二是使用CNN-DNN網(wǎng)絡作為聲學模型,同樣通過C-GMM與N-GMM模型得到帶噪語音的硬標注,然后結合FBANK特征作為模型輸入訓練CNN-DNN聲學模型.本文使用的DNN有6個隱含層,CNN-DNN網(wǎng)絡中CNN模塊采用3個卷積層和7個全連接層,DNN模塊6個隱含層.上述兩種模型在帶噪語音五種信噪比下的詞錯誤率如表1所示.

表1 帶噪語音下CNN-DNN與DNN模型性能對比

如表1所示,本文設計的CNN-DNN聲學模型在不同信噪比下及不同GMM-HMM訓練方法下語音識別詞錯誤率明顯低于DNN模型,其中N-DNN與N-CNN-DNN相比,詞錯誤率平均下降了5.42%,C-DNN與C-CNN-DNN相比,詞錯誤率平均下降了4.15%,從而說明CNN-DNN網(wǎng)絡結構相比DNN對聲學模型的性能有所提升.為了在學生模型訓練階段與后驗知識監(jiān)督方法進行對比,選擇表1中詞錯誤率最低的C-CNN-DNN模型作為學生模型的性能驗證基線(Baseline).

2.2.2老師模型訓練與測試為了驗證后驗知識監(jiān)督方法對學生模型魯棒性性能具有提升作用,本文的實驗設計策略是首先對老師模型使用不同的神經(jīng)網(wǎng)絡模塊進行訓練,然后通過后驗知識監(jiān)督訓練出相應的學生模型,從而對老師模型和對應的學生模型性能差異進行相關性分析.

針對老師模型的訓練,本文分別選擇CNN、DNN和LSTM作為神經(jīng)網(wǎng)絡模塊進行老師聲學模型的構建,其中CNN包含2個卷積層,5個全連接層,DNN包含6個隱含層,LSTM包含5個隱含層.三種模型訓練、測試與驗證階段的詞錯誤率如表 2 所示.

表2 干凈語音下不同老師模型詞錯誤率對比

如表2所示,三種模型中LSTM的詞錯誤率最低,DNN次之,而CNN的詞錯誤率相對高一些.但總的來說,三種模型的詞錯誤率整體差別不大.

2.2.3學生模型對比驗證本文采用CNN-DNN的聲學模型作為學生模型.其中CNN包括3個卷積層和7個全連接層,DNN包含6個隱含層,每隱含層2 048個節(jié)點,輸出層2 190個節(jié)點,與老師模型的輸出相同.在三種老師模型的指導下,相應學生模型在驗證集上五種信噪比下詞錯誤率如表3所示.

表3 帶噪語音下不同學生模型詞錯誤率對比

如表3所示,與基線(Baseline)相比,三種老師模型監(jiān)督下的學生模型詞錯誤率均有明顯下降,分別平均下降了5.21%, 6.35%和7.83%,與三種老師模型的錯誤率差異呈現(xiàn)正相關,表明本文提出的后驗知識監(jiān)督方法對聲學模型的魯棒性具有很好的提升效果.

3 結論

本文提出一種基于后驗知識監(jiān)督的噪聲魯棒聲學建模方法,是老師指導學生的方式,以老師模型的后驗概率分布(軟標注)作為監(jiān)督信息對學生模型的訓練進行指導,并設計出一種基于CNN-DNN混合的學生模型,通過對帶噪語音的高層特征進行提煉,提升聲學模型的抗噪性能.本文構建的學生模型在CHIME數(shù)據(jù)集下進行性能驗證,結果顯示三種老師模型監(jiān)督下的學生模型詞錯誤率與基線模型相比平均下降了5.21%, 6.35%和7.83%,表明本文提出的后驗知識監(jiān)督方法對聲學模型的魯棒性具有很好的提升效果.在上述研究的基礎上,后續(xù)將對聲學模型的端到端訓練方法進行研究,擬通過知識遷移的方式對聲學模型從語音數(shù)據(jù)預處理到音素分類輸出的全過程進行監(jiān)督訓練,對聲學建模的全階段進行噪聲魯棒性提升和優(yōu)化.

猜你喜歡
錯誤率后驗魯棒性
限制性隨機試驗中選擇偏倚導致的一類錯誤率膨脹*
基于對偶理論的橢圓變分不等式的后驗誤差分析(英)
荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡增邊優(yōu)化魯棒性分析
基于確定性指標的弦支結構魯棒性評價
中華建設(2019年7期)2019-08-27 00:50:18
貝葉斯統(tǒng)計中單參數(shù)后驗分布的精確計算方法
正視錯誤,尋求策略
教師·中(2017年3期)2017-04-20 21:49:49
一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
雷達學報(2017年6期)2017-03-26 07:53:04
解析小學高段學生英語單詞抄寫作業(yè)錯誤原因
基于非支配解集的多模式裝備項目群調(diào)度魯棒性優(yōu)化
非接觸移動供電系統(tǒng)不同補償拓撲下的魯棒性分析
仁寿县| 西乌珠穆沁旗| 张北县| 霍邱县| 依兰县| 铁岭县| 饶阳县| 隆化县| 沙洋县| 定结县| 内黄县| 怀来县| 柘城县| 讷河市| 邹平县| 临漳县| 济源市| 屯门区| 公安县| 亳州市| 德令哈市| 寿宁县| 资溪县| 樟树市| 抚松县| 明光市| 镇江市| 曲阜市| 桑植县| 收藏| 荔浦县| 泰顺县| 青海省| 定安县| 麻城市| 吴堡县| 甘南县| 安徽省| 辉县市| 长泰县| 宜黄县|