国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

采用最少門單元結構的改進注意力聲學模型

2018-07-26 01:48龍星延張文林徐思穎
信號處理 2018年6期
關鍵詞:音素聲學注意力

龍星延 屈 丹 張文林 徐思穎

(戰(zhàn)略支援部隊信息工程大學信息系統(tǒng)工程學院, 河南鄭州 450001)

1 引言

聲學模型(Acoustic Model, AM)是連續(xù)語音識別系統(tǒng)的核心模塊,也是語音識別熱門研究領域。由于隱馬可夫模型(Hidden Markov Model, HMM) 能描述語音信號時變性和非平穩(wěn)性,同時擁有完成的理論體系和高效的模型參數(shù)估計與解碼算法,它與高斯混合模型(Gaussian Mixture Model, GMM)組合成的GMM-HMM模型一直是主流的聲學模型。伴隨深度學習和人工智能技術等的興起,深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)與HMM組合的聲學模型進一步提升識別率[1]。但基于HMM的聲學模型存在以下缺陷:HMM假設當前狀態(tài)的先驗概率只受上一狀態(tài)影響,不能充分記錄和利用音素序列的時序信息;HMM建模依賴發(fā)音字典、決策樹聚類等相關語言學知識。

為彌補HMM模型的缺陷,文獻[2]提出在GMM-HMM框架上采用序列區(qū)分性準則重新訓練模型,充分學習特征序列的時序信息以提高識別準確率。在GMM-HMM框架下有效序列區(qū)分性準則包括最大互信息準則[3](Maximum Mutual Information, MMI)、增強型最大互信息準則[4](boosted MMI, bMMI)、最小音素錯誤[5](Minimum Phone Error, MPE)和最小貝葉斯風險[6](Minimum Bayes Risk, MBR)。文獻[7]提出基于MMI準則的瓶頸深置信網(wǎng)絡特征提取方法改進GMM-HMM系統(tǒng)性能。文獻[8]在DNN-HMM模型中引入序列區(qū)分性準則,進一步提升聲學模型的識別性能。Graves等人提出連接時序分類算法[9](Connectionist Temporal Classification, CTC),實現(xiàn)語音特征序列到音素序列的直接映射,建立基于CTC的端到端聲學模型[10]。文獻[11]在此基礎上通過加權有限狀態(tài)機將其與語言模型相結合并用于連續(xù)語音識別。與基于HMM聲學模型相比,端到端模型不需要先驗對齊信息和建立決策樹等步驟,并且通過將字素作為建模對象可以擺脫對發(fā)音字典的依賴,但識別性能存在一定差距。

Cho等人提出一種基于循環(huán)神經(jīng)網(wǎng)絡的“編碼-解碼”端到端模型,并成功應用于機器翻譯[12]。該模型通過編碼網(wǎng)絡將不同長度輸入序列壓縮成固定長度目標向量,解碼網(wǎng)絡再將目標向量作為特征識別逐一得到輸出序列。Bahdanau等人在該模型中引入注意力機制,改進其在機器翻譯任務中的性能[13]。注意力機制就是通過引入一個子網(wǎng)絡對輸入序列中所有元素進行關聯(lián)度打分,再將歸一化后的分數(shù)作為權重系數(shù)合成目標向量。注意力模型成功應用于圖片自動標注[14]、音素識別[15]和連續(xù)語音識別[16]任務中。雖然該算法獲得了性能的進一步提升,但仍然存在參數(shù)規(guī)模大、訓練耗時極為嚴峻的問題,盡管通過硬件GPU可以部分解決,但從算法層面研究仍然是一個熱點問題。此外,原始注意力聲學模型存在在噪聲環(huán)境下魯棒性能差和音素與特征對齊不準確的問題[17]。

本文在基于注意力機制的“編碼-解碼”端到端模型基礎上,提出了基于最少門單元結構的改進注意力聲學模型。該模型首先將最少門結構單元替換原有循環(huán)神經(jīng)網(wǎng)絡單元,從而減少參數(shù)規(guī)模,提升訓練速度;其次在計算注意力權重系數(shù)時,在文獻[16]基礎上,采用自適應寬度的窗函數(shù)和在計算注意力系數(shù)特征的卷積神經(jīng)網(wǎng)絡中添加池化層,進一步特征和音素對齊的準確度,進而提升聲學模型的識別性能。

2 相關研究

2.1 基于門循環(huán)單元的循環(huán)神經(jīng)網(wǎng)絡

循環(huán)神經(jīng)網(wǎng)絡的內(nèi)部呈環(huán)狀結構,即當前時刻隱含層狀態(tài)ht可以表示以前一時刻隱含層狀態(tài)ht-1和當前時刻輸入xt為輸入的函數(shù),如式(1)所示。

ht=g(xt,ht-1)

(1)

其中,g為循環(huán)神經(jīng)網(wǎng)絡的傳遞函數(shù),普通循環(huán)神經(jīng)網(wǎng)絡以式(2)作為傳遞函數(shù)。

g(xt,ht-1)=Whxxt+Whhht-1

(2)

其中,Whh為隱含層內(nèi)部傳遞矩陣,Whx為輸入層到隱含層傳遞矩陣。

最后將隱含層ht作為輸入,將sigmod函數(shù)作為激活函數(shù)計算得到輸出層狀態(tài)yt,如式(3)所示。

yt=sigmod(ht)

(3)

研究表明[18],由于普通RNN采用將隱含層狀態(tài)與權重矩陣相乘的方式傳遞歷史信息,導致訓練過程中計算反向梯度時出現(xiàn)梯度消失和梯度爆炸的問題,無法有效傳遞長時記憶信息。為解決該問題,Hochreiter提出基于長短時記憶(Long Short-Term Memory, LSTM)單元的循環(huán)神經(jīng)網(wǎng)絡模型[18]。LSTM的傳遞函數(shù)g是一個復雜的非線性函數(shù),內(nèi)部設置記憶單元記錄歷史信息,通過門函數(shù)控制歷史信息在特定時刻“累加”至隱含層狀態(tài),從而保證長時信息的有效傳輸。由于LSTM內(nèi)部結構復雜,Cho提出門循環(huán)單元(Gate Recurrent Unit, GRU)。GRU結構只保留2個門函數(shù)且不包含額外記憶單元,在機器翻譯測試中性能優(yōu)于LSTM[12]。

給定特征序列(x1,x2,...,xT),GRU以式(4)作為傳遞函數(shù)得到隱含層序列(h1,h2,...,hT)

rt=σ(Wr[ht-1,xt]+br),

ht=zt⊙tanh(Wh[rt⊙ht-1,xt]+bh)+

(1-zt)⊙ht-1

(4)

ht=GRU(xt,ht-1)

(5)

2.2 最少門單元

基于GRU單元的多層循環(huán)神經(jīng)網(wǎng)絡在應用時,需要保存和訓練大量的參數(shù),導致模型耗費大量存儲空間,收斂速度較慢。針對該問題,采用文獻[19]提出的最小門單元(Minimal Gated United, MGU)結構替代原始的GRU結構。MGU結構具有更少的參數(shù),并且在圖像識別、語言模型、單詞預測實驗中的性能與GRU接近[19]。文獻[19]中未在語音識別領域進行實驗,本文將MGU結構應用于基于注意力的端到端聲學模型,測試其在語音識別中的性能。

MGU結構在GRU結構的基礎上,讓重置門rt和遺忘門zt共享一套參數(shù),其傳遞函數(shù)如式(6)所示:

ht=zt⊙tanh(Wh[zt⊙ht-1,xt]+bh)+

(1-zt)⊙ht-1

(6)

ht=MGU(ht-1,xt)

(7)

2.3 注意力機制

注意力機制是在序列到序列的模型中,通過模擬人類視覺機制,從輸入特征序列中提取有效特征的技術。序列到序列模型中,需要先將變長特征序列(h1,h2,...,hT)映射成一個目標向量ct,該目標向量將序列中的重要信息進行壓縮,從而實現(xiàn)變長序列到固定長度矢量的變換;再將ct作為輸入,通過循環(huán)神經(jīng)網(wǎng)絡逐個計算出隱含層狀態(tài)序列(s1,s2,...,sO),最終得到輸出序列(y1,y2,...,yO)。

文獻[12]在機器翻譯任務中將序列時刻T的特征hT作為目標向量,即ct=hT。這種提取特征的方式?jīng)]有利用特征序列其他時刻特征信息,因此表征能力受限。實際序列到序列建模問題中,例如機器翻譯和語音識別,輸出序列的元素總是與輸入序列的特定元素存在對應關系,而采用注意力機制進行特征提取能夠準確地描述和利用這種對應關系[13]。采用注意力機制計算輸出序列位置o∈{1,2,...,O}對應的目標向量cto過程如下:

首先,計算輸出序列前一位置隱含層狀態(tài)so-1與時刻t的特征的關聯(lián)度,如式(8)所示:

eo,t=a(so-1,ht)

(8)

其中,a(·)代表注意力子網(wǎng)絡,它是只含一個隱含層的多層感知器,可表示式(9):

eo,t=ωTtanh(W[so-1,ht]+b)

(9)

其中,W和b輸入層到隱含層權重矩陣和偏置向量,ω隱含層到輸出層權重矩陣。

然后,對所有時刻特征的關聯(lián)度進行指數(shù)歸一化。歸一化后的數(shù)值稱為注意力系數(shù),如式(10)所示:

(10)

最后,將注意力系數(shù)作為權重,對所有時刻的特征加權求和,得到注意力機制下輸出序列位置o的目標向量cto,如式(11) 所示:

(11)

采用注意力機制計算目標向量的過程,可以簡記為式(12):

cto=attention([h1,h2,...,hT],so-1)

(12)

3 基于最少門單元的改進注意力聲學模型

基于注意力機制的端到端模型最早應用于機器翻譯[13],它能自動學習序列內(nèi)部的時序信息,實現(xiàn)任意長度的輸入序列到輸出序列的直接建模。語音識別可看成是語音特征到音素的“翻譯”,因此該模型也能應用于語音識別的聲學模型。在基于注意力機制的端到端模型基礎上,本文提出的改進算法模型如圖1所示,模型由編碼網(wǎng)絡、解碼網(wǎng)絡和注意力子網(wǎng)絡三個模塊組成。編碼網(wǎng)絡采用基于MGU單元的深層循環(huán)神經(jīng)網(wǎng)絡,目的是學習和挖掘語音特征序列的前后依賴關系,提取語音的高層特征,增強特征的表達力和區(qū)分性;解碼網(wǎng)絡由基于MGU單元單層循環(huán)神經(jīng)網(wǎng)絡和maxout網(wǎng)絡連接而成,目的是根據(jù)注意力機制得到的目標向量計算序列每個位置上所有音素出現(xiàn)的后驗概率。注意力子網(wǎng)絡是含一個隱含層的多層感知器,輸入是上一時刻自身的輸出,編碼網(wǎng)絡的輸出,解碼網(wǎng)絡的前一個隱含層狀態(tài),輸出是注意力系數(shù)。

圖1 帶注意力機制的“編碼-解碼”模型Fig.1 Structure of attention based encoder-decoder model

3.1 基于最少門單元的編碼網(wǎng)絡

基于最少門單元的編碼網(wǎng)絡中,將原有模型的GRU單元替換成MGU單元,目的是減少參數(shù)規(guī)模和訓練時間。該編碼網(wǎng)絡由兩組基于MGU單元的多層循環(huán)神經(jīng)網(wǎng)絡組成,分別為前向網(wǎng)絡和后向網(wǎng)絡。雙向網(wǎng)絡的結構能夠同時傳遞過去和未來的信息,保證高層特征的信息量。網(wǎng)絡輸入為原始語音特征序列(x1,x2,...,xT),輸出為高層特征序列(h1,h2,...,hT)。

(13)

(14)

(15)

拼接前向網(wǎng)絡和后向網(wǎng)絡的第c層隱含狀態(tài),得到編碼網(wǎng)絡在時刻t的高層特征ht,如式(16)所示:

(16)

3.2 基于最少門單元的解碼網(wǎng)絡

解碼網(wǎng)絡由基于MGU的循環(huán)神經(jīng)網(wǎng)絡和maxout網(wǎng)絡串聯(lián)組成。它將編碼網(wǎng)絡計算得到的高層特征序列(h1,h2,...,hT)作為輸入,計算輸出序列(y1,y2,...,yO)。yo代表輸出序列位置o上所有音素的后驗概率,yo計算過程如下:

首先,解碼網(wǎng)絡將注意力子網(wǎng)絡計算得到目標向量cto,作為基于MGU單元循環(huán)神經(jīng)網(wǎng)絡的輸入,按照式(17)計算循環(huán)神經(jīng)網(wǎng)絡的隱含層狀態(tài)so。

so=MGU(so-1,cto)

(17)

(18)

(19)

其中,d為輸入隱含層狀態(tài)so的維度,對應隱含層單元數(shù)目,W:,i, j∈Rd×m×k和bi, j∈Rm×k為maxout網(wǎng)絡參數(shù)矩陣和偏置向量,k為maxout網(wǎng)絡每個隱含層單元的候選單元數(shù),m為輸出層單元數(shù)目,在聲學模型中對應輸出音素種類數(shù)目。

最后,如式(20)所示,由maxout網(wǎng)絡的輸出層得到輸出向量yo,yo第i個分量表示輸出序列第o個位置上出息音素i后驗概率

(20)

3.3 注意力機制改進

原始注意力模型中,注意力子網(wǎng)絡對所有時刻的高層特征都計算關聯(lián)度,而由于實際聲學模型輸出序列有很大概率出現(xiàn)相同音素,導致重復出現(xiàn)的音素在多個時刻的特征都擁有較大的關聯(lián)度,從而造成注意力分散在錯誤的特征區(qū)域,影響識別性能。文獻[16]通過增加窗函數(shù)限定注意力區(qū)域和增加卷積神經(jīng)網(wǎng)絡引入系數(shù)特征部分解決該問題,但仍然存在注意力對齊不準確地情況。在此基礎上,我們采用自動調(diào)節(jié)窗口寬度的窗函數(shù)并且在卷積神經(jīng)網(wǎng)絡中加入池化層,進一步提升該模型在噪聲環(huán)境中魯棒性。采用自適應寬度的窗函數(shù)避免了注意力窗口內(nèi)部注意力分布過于分散,并且減少音素對齊區(qū)域相重疊的現(xiàn)象,進而提升對齊關系的準確度。在卷積神經(jīng)網(wǎng)絡加入平均池化層能減輕噪聲對注意力區(qū)域分布的干擾,從而增強模型魯棒性。

3.3.1 自適應寬度的窗函數(shù)

在計算位置o音素后驗概率時,窗口范圍可表示為(mo-wL,...,mo+wR)。其中,mo為窗口中心,wL為左窗長,wR為右窗長,對應窗函數(shù)取值(21)所示:

(21)

限定范圍后,每個時刻高層特征向量的關聯(lián)度為:

(22)

把注意力系數(shù)αo-1,t作為時刻t權重,則窗口中心mo為加權平均數(shù),如式(23)所示。

(23)

注意力窗口寬度wL,wR均固定設置為50[16],原因是語音信號提取特征時幀移為10 ms,100幀寬的窗口能夠利用1 s內(nèi)的特征信息。一個音素的發(fā)音周期只有0.2~0.5 s,所以限定范圍后的注意力區(qū)域能完整覆蓋1~2個音素的特征,能夠保證注意力系數(shù)分布在正確的位置。

因為某些音素發(fā)音周期較短,固定長度的窗口音素數(shù)目可能較多,任然會出現(xiàn)相同的音素進而干擾注意力系數(shù)的分布,影響系統(tǒng)的識別性能。因此考慮設計能夠根據(jù)前一個音素與特征對齊關系自動調(diào)整窗口寬度的窗函數(shù)。如圖2所示,我們根據(jù)前兩個音素的窗口中心mo-1和mo-2的偏移量估計出左窗長wL,具體計算方式如式(24)所示。

(24)

圖2 窗口寬度的計算Fig.2 Calculation of window width

3.3.2 計算系數(shù)卷積神經(jīng)網(wǎng)絡中增加池化層

使用卷積神經(jīng)網(wǎng)絡提取注意力系數(shù)特征時,將注意力系數(shù)向量αo-1先通過平均池化層,再通過一維卷積層,目的是提升系數(shù)特征魯棒性和區(qū)分性。輸入的注意力系數(shù)向量為前一個音素對應層窗口內(nèi)所有注意力系數(shù),如式(25)所示。

αo-1=[αo-1,mo-1-w,...,αo-1,mo-1+w]

(25)

其中,由于采用的是自適應窗長,所以令αo-1,mo-1-w=αo-1,mo-1-w+1=…=αo-1,mo-1-wL=0。

池化層采用平均池化,池化濾波器的規(guī)模為1×3,池化前后向量維度保持不變。卷積層的卷積核大小為1×(2w+1),濾波器數(shù)目為j,卷積方式采用same padding。以上卷積過程可以由式(26)、(27)描述:

(26)

(27)

最后將卷積神經(jīng)網(wǎng)絡的輸出用于計算注意力系數(shù)得分,公式如式(27)所示

eo,t=ωTtanh(W[so-1,ht,lo,t]+b)

(28)

其中,lo,t為矩陣lo中時刻t對應的列向量。

3.4 模型訓練和解碼

雖然模型中注意力子網(wǎng)絡和解碼網(wǎng)絡的連接呈現(xiàn)環(huán)狀結構,但依然通過最優(yōu)化目標函數(shù)的方式訓練模型參數(shù)。解碼時由于輸出序列長度未知,需要采用帶序列終止符的BeamSearch算法解碼。

對于含N段語音的數(shù)據(jù)集,模型訓練采用梯度下降法求目標函數(shù)的最小值,目標函數(shù)如式(29)所示

(29)

模型由于是對序列進行建模,所以單段語音后驗概率的計算方式如式(30)所示:

(30)

解碼帶序列終止符的BeamSearch算法搜索在解碼網(wǎng)絡的輸出中尋找負概率值最低的序列作為輸出。該算法的思想是維護一個容量為beam_size序列集合,每步搜索時將集合中的序列拓展一位,然后篩選結果最好的beam_size個序列保留在集合中。具體流程見算法1。

其中,tmp為拓展后的序列集合,beam為算法維護的候選搜索序列集合,done為含有終止符的序列集合,phone為解碼網(wǎng)絡在位置上音素對應的后驗概率,phone_set為所有音素和終止符的集合,best記錄最低的負概率值,m_length為序列長度上限。

算法 1 帶終止符的BeamSearch解碼算法

輸入 每個位置的音素后驗概率y1,y2,...,yO

輸出 負概率值最低的音素序列p1,...,po

初始化:beam={?},tmp=?,done=?,best=1e9,m_length=1e4

1. while beam={?} andi≤m_length

2.i=i+1, tmp=?

3. for sequence in beam

4. for phone in phone_set

5. newsequence.list=sequence.list+phone

7. tmp=tmp+newsequence

8. beam=?

9. 篩選出集合tmp中以結束的序列加入集合done。

10. 對集合中done序列按照cost升序排序。

11. 如果done[1].cost

12. 如果連續(xù)50步best未更新,則跳出while循環(huán)。

13. 對tmp中的序列按照cost升序排序。

14. 將tmp中cost最小的beam_size個序列加入集合beam。

15. end while

16. 將done[1].list音素序列作為結果輸出。

4 實驗

為了驗證本文改進方法的有效性,并與HMM聲學模型和鏈接時序分類方法進行對比,我們采用了語音識別測試中常用的英語語料庫和捷克語語料庫作為數(shù)據(jù)集。特征提取采用kaldi[20]開源工具包,端到端模型基線系統(tǒng)采用Theano[21]開源深度學習庫搭建。

4.1 實驗數(shù)據(jù)

TIMIT語料庫是語音識別領域最常用的標準數(shù)據(jù)庫之一,它包含6300段英語朗讀語音。在實驗中選取3296條語句作為訓練集,192條語句作為測試集,400條語句作為開發(fā)集。

Vystadial_cz是開源捷克語語料庫,它包含15小時電話信道下的含噪聲對話語音,識別率普遍較低。訓練集有22566條語句,測試集和開發(fā)集各有2000條語句。

4.2 實驗設置

特征提取:語音信號采樣頻率是16 kHz,采樣位16 bit,使用Hamming窗處理,幀長25 ms,幀移10 ms,預加重系數(shù)0.97。語音輸入特征向量采用40維fbank特征和能量,再拼接對應一階和二階差分,共計123維參數(shù)。對于提取好的特征,首先在訓練集范圍內(nèi)進行歸一化,使每個分量服從標準正態(tài)分布,再利用訓練集的歸一化參數(shù)對測試集和開發(fā)集特征歸一化處理。

模型初始化:循環(huán)神經(jīng)網(wǎng)絡權重矩陣初始設定為標準正交矩陣,偏置向量初始設為0,內(nèi)部狀態(tài)值采用均值為0方差為0.1的獨立高斯分布初始化。

模型參數(shù):編碼網(wǎng)絡的隱含層狀態(tài)維度設為200。注意力子網(wǎng)絡的卷積神經(jīng)網(wǎng)絡通道數(shù)設為10。英語聲學模型解碼網(wǎng)絡輸出向量設為63維,分別對應61個音素、空白符和序列終止符的后驗概率;捷克語聲學模型解碼網(wǎng)絡輸出向量設為44維,分別對應41個捷克語字母,空白符、噪聲符號和序列終止符出現(xiàn)的概率。maxout網(wǎng)絡的候選隱含層數(shù)目設為64。

模型訓練:以式(29)作為目標函數(shù),使用隨機梯度下降法(Stochastic Gradient Descent, SGD)對模型參數(shù)迭代更新。訓練過程分為兩個階段:第一階段樣本批量大小(batch size)為8,目的是高訓練效率,使模型參數(shù)盡快收斂;第二階段樣本批量大小為1,每次訓練時給模型添加噪聲,目的是增強模型識別的魯棒性和抗噪能力。

4.3 評價指標

TIMIT數(shù)據(jù)集的識別結果為音素序列,考慮采用動態(tài)規(guī)劃算法將模型解碼得到的序列與標注序列以音素作為基本單元對比并統(tǒng)計出插入錯誤(I)、刪除錯誤(D)和替代錯誤(R)。設測試集中含有N個句子,則音素錯誤率(Phone Error Rate, PER)為:

(31)

Vystadial_cz數(shù)據(jù)集的識別結果為識別結果捷克字母序列,將字母序列整合成單詞,并以單詞作為基本單元統(tǒng)計出詞錯誤率(Word Error Rate, WER)作為聲學模型評價指標。

為評價和對比注意力模型訓練速度,將訓練過程的第二階段中批量大小為1條件下,用訓練集的所有樣本更新模型參數(shù)的平均周期(epoch)作為評價指標。

4.4 實驗結果和分析

(1)基于MGU單元和GRU單元系統(tǒng)性能對比

為了對比采用不同單元的系統(tǒng)性能影響,在標準TIMIT語料庫中進行音素序列識別的實驗。表1給出在TIMIT測試集中,編碼網(wǎng)絡中循環(huán)神經(jīng)網(wǎng)絡為1至3層時,分別采用GRU和MGU作為循環(huán)神經(jīng)網(wǎng)絡基本單元時的性能。由表1可以看出,對于同樣的模型結構,增加隱含層層數(shù)數(shù)目,系統(tǒng)的識別性能得到提升,但系統(tǒng)的參數(shù)規(guī)模和訓練周期也迅速上升。在相同層數(shù)下,MGU的參數(shù)規(guī)模和平均迭代周期均低于GRU。2.2中提到隱含層維度相同的MGU的參數(shù)規(guī)模為GRU的2/3,因此當編碼網(wǎng)絡層數(shù)增加1層時,GRU結構參數(shù)的增長規(guī)模是MGU結構的1.5倍。當編碼網(wǎng)絡層數(shù)為3層時,MGU的參數(shù)規(guī)模下降39.0%,平均迭代周期下降14.7%,而測試集的音素錯誤率僅高0.1%。以上實驗結果證明在基于注意力的端到端聲學模型中,使用MGU替換GRU能夠在識別性能損失較小的前提下,有效減少參數(shù)規(guī)模和提高收斂速度。

(2) 改進注意力機制前后系統(tǒng)性能對比

為驗證使用3.2中改進注意力機制方法的有效性,分別在TIMIT和Vystadial_cz語料庫搭建聲學模型進行實驗。采用3層GRU結構的編碼網(wǎng)絡作為基線系統(tǒng),先采用固定長度的窗口和無池化層的卷積神經(jīng)網(wǎng)絡對注意力機制進行優(yōu)化,窗口寬度為100,卷積神經(jīng)網(wǎng)絡的濾波器數(shù)目設置為10;再分別采用自適應寬度的窗函數(shù)和加入池化層的卷積神經(jīng)網(wǎng)絡方法。表2的結果表明,對于TIMIT語料庫上,改進后的模型在開發(fā)集上準確率提升明顯,在測試集上的準確率提升較小。對于噪聲較大的Vystadial_cz語料庫,采用自適應寬度的窗函數(shù)和增加池化層后對于測試集的音素錯誤率與改進前模型相比下降1.06%和0.68%。這證明改進后的注意力模型能夠更準確地計算音素和編碼網(wǎng)絡特征的關聯(lián)度,擁有更好識別性能和對噪聲有更強魯棒性。

表1 TIMIT語料庫不同模型的性能

表2 TIMIT和Vystadial_cz語料庫下不同系統(tǒng)的音素(詞)錯誤率

為了更加直觀地改進前后系統(tǒng)的變化,提取Vystadial_cz語料庫中一段語音,打印出基線系統(tǒng)與采用“固定窗函數(shù)+無池化層”與“自適應窗函數(shù)+池化層”兩個模型識別出的音素與特征的對齊情況,如圖3和圖4所示。圖中豎軸代表音素序列,橫軸表示高層特征幀數(shù),色塊顏色深淺表示注意力系數(shù)大小。由于編碼網(wǎng)絡對特征進行降采樣處理,橫軸的顯示幀數(shù)是實際語音幀數(shù)的四分之一。通過對比觀察可以得到,圖3中捷克字母S、L的注意力系數(shù)在距離窗口中心較遠區(qū)域仍有分布,而圖4中注意力系數(shù)分布更為精確。

(3)端到端聲學模型與其他模型對比

本文對比了改進前后基于注意力機制的端到端聲學模型與其他聲學模型在無語言模型條件下連續(xù)語音識別任務中的性能,以驗證該模型和改進方法的有效性。這里涉及到的聲學模型包括:基于三音子的GMM-HMM模型,采用MMI優(yōu)化GMM-HMM模型,采用bMMI優(yōu)化GMM-HMM模型,采用MPE優(yōu)化GMM-HMM模型,采用sMBR優(yōu)化的 DNN-HMM模型和基于RNN-CTC模型?;谧⒁饬Φ亩说蕉寺晫W模型中分別采用基線系統(tǒng),改進注意力機制后的模型以及替換MGU單元后的改進模型。

表3給出了本文改進模型與其他模型在Vystadial_cz數(shù)據(jù)集上的實驗結果對比。由表中可以得出,在傳統(tǒng)方法中,采用深度神經(jīng)網(wǎng)絡和sMBR準則優(yōu)化的聲學模型性能最佳,在測試集的性能由于注意力模型額基線系統(tǒng)?;赗NN-CTC的端到端聲學模型雖然不依賴發(fā)音字典等先驗知識,但在該數(shù)據(jù)集下識別性能不如傳統(tǒng)方法。改進注意力的端到端聲學模型在開發(fā)集和測試集性能最佳,原因是它能更加充分地學習和利用語音中時序信息,并且能讓音素和特征更加準確地對齊。將改進系統(tǒng)的GRU單元替換成MGU單元后,雖然為了減少模型參數(shù)規(guī)模和提升收斂速度損失了少部分識別性能,但詞錯誤率依然低于其他聲學模型。

圖3 改進前系統(tǒng)音素與特征對齊情況Fig.3 Alignment of unimproved system between phones and features

圖4 改進后系統(tǒng)的音素與特征對齊情況Fig.4 Alignment of improved system between phones and features

表3 Vystadial_cz語料庫下各個系統(tǒng)的詞錯誤率

5 結論

本文研究了基于注意力機制的端到端聲學模型。在基線系統(tǒng)的基礎上,先采用MGU替代GRU作為循環(huán)神經(jīng)網(wǎng)絡基本單元,在損失識別率較低情況下,降低了模型參數(shù)規(guī)模和訓練時間。再根據(jù)語音信號特點通過使用自適應寬度的窗函數(shù)和在計算注意力系數(shù)特征的卷積神經(jīng)網(wǎng)絡中加入池化層,進一步提高了模型的識別準確率。在捷克語語料庫下的實驗表明,改進后模型的識別率優(yōu)于基于HMM聲學模型和基于CTC的端到端模型。下一步的研究方向是尋找更高效的提取語音特征方法,調(diào)整系統(tǒng)內(nèi)部結構和訓練準則以降低訓練復雜度,提升識別性能。

猜你喜歡
音素聲學注意力
讓注意力“飛”回來
依托繪本課程,培養(yǎng)學生英語音素意識
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
小學英語課堂中音素意識與自然拼讀整合訓練的探索
在拼讀閱讀課中培養(yǎng)學生英語閱讀素養(yǎng)
Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
零基礎速記48個音標音素
“揚眼”APP:讓注意力“變現(xiàn)”
冀州市| 射洪县| 阿鲁科尔沁旗| 南靖县| 新竹县| 兴业县| 宝应县| 华蓥市| 福清市| 呼图壁县| 获嘉县| 乌鲁木齐市| 黎川县| 来凤县| 自贡市| 瓮安县| 公安县| 平原县| 勐海县| 文化| 余庆县| 资源县| 衢州市| 高碑店市| 湾仔区| 嘉义市| 霍州市| 招远市| 亚东县| 建瓯市| 尖扎县| 瑞金市| 苗栗市| 庐江县| 儋州市| 石泉县| 乌苏市| 五家渠市| 溧水县| 瓦房店市| 农安县|