国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BN-SGMM-HMM模型的低資源語音識別系統(tǒng)

2022-01-04 01:46:42趙宏亮艾寧智鄒萬冰
關鍵詞:聲學特征向量神經(jīng)元

雷 杰,趙宏亮,艾寧智,鄒萬冰,詹 毅

(1.遼寧大學 物理學院,遼寧 沈陽 110036; 2.吉林大學 電子科學與工程學院,吉林 長春 130012; 3.中國科學院 微電子研究所,北京 100029)

語音識別作為人機交互的一部分,在智能設備中有廣泛的應用。傳統(tǒng)的語音識別主要采用梅爾頻率倒譜系數(shù)(mel-frequency cepstral coefficient,MFCC)作為聲學特征向量,并采用基于高斯混合-隱馬爾可夫模型(GMM-HMM)建模進行識別。但是,GMM-HMM模型具有增大其參數(shù)規(guī)模才可保證較高識別精度的缺點。

文獻[1]提出深度置信網(wǎng)絡(deep belief network,DBN)的非監(jiān)督貪心逐層訓練算法,并在語音識別領域取得了很好的效果,但是,該方法的代價是識別網(wǎng)絡的結點數(shù)和隱藏層數(shù)多、模型運算量大幅度增加;文獻[2]提出瓶頸(bottleneck,BN)層的方法解決了深度神經(jīng)網(wǎng)絡(deep neural networks,DNN)運算量大的缺點,并且識別率有相應的提升。

同時,若訓練語料匱乏或采用小數(shù)據(jù)量語料庫時,即在低資源條件下,建立在大量訓練集基礎上的傳統(tǒng)聲學模型不僅無法達到理想的識別精度,而且模型參數(shù)規(guī)模龐大。文獻[3]提出了一種基于子空間高斯混合模型(subspace Gaussian mixture model,SGMM)的隱馬爾可夫聲學模型的思路來解決低資源訓練集條件下的語音識別問題。

受上述研究工作啟發(fā),本文提出一種基于BN特征與子空間高斯混合相結合的BN-SGMM-HMM聲學模型。首先訓練基于BN特征的神經(jīng)網(wǎng)絡;其次將該BN特征用于訓練SGMM聲學模型;最后為了弱化在訓練過程中模型假設錯誤所帶來的影響,采用基于最大互信息(maximum mutual information,MMI)準則進行區(qū)分性訓練來提升聲學模型的整體性能。BN-SGMM-HMM模型與傳統(tǒng)聲學模型相比,降低了語音識別系統(tǒng)對大量訓練數(shù)據(jù)的依賴,提高了語音識別系統(tǒng)在低資源下的正確識別率,同時也大幅度降低了模型的參數(shù)規(guī)模。

1 特征向量提取和神經(jīng)網(wǎng)絡的訓練

1.1 MFCC語音特征向量的提取

本文的語音特征由MFCC、其一次差分、二次差分3個部分組成,將該特征進行倒譜均值方差歸一化(cepstral mean and variance normalization,CMVN)。歸一化目的是將輸入的聲學特征進行規(guī)整,使其符合正態(tài)分布,降低噪聲對語音的影響。

為得到更為明顯的特征向量,需將擴展的MFCC進行進一步的特征變換,主要包括以下4個步驟:線性判別分析(linear discriminant analysis,LDA)、最大似然線性變換(maximum likelihood linear transform,MLLT)、說話人自適應訓練(speaker adaptive training,SAT)以及基于特征空間最大似然線性回歸(featured-space maximum likelihood linear regression,FMLLR)。其特征變換過程如圖1所示。

1.2 DNN神經(jīng)網(wǎng)絡的訓練過程

DNN訓練模型之前,首先采用GMM-HMM網(wǎng)絡得到狀態(tài)類別與狀態(tài)轉移概率,并將得到的網(wǎng)絡進行數(shù)據(jù)對齊;然后進行DNN網(wǎng)絡訓練,步驟如下:

(1) 受限玻爾茲曼機(restricted Boltzmann machine,RBM)訓練。采用貪婪算法來進行非監(jiān)督訓練,訓練后得到一個RBM。根據(jù)能量理論,每個RBM的可見層與隱藏層之間的關系被賦予一個能量值E(v,h,θ),其定義為:

(1)

其中:m為隱藏層結點的個數(shù);n為可見層結點的個數(shù);a、b為可見層與隱藏層的偏置;vi、hj分別為輸入到可見層和隱藏層的向量;θ為使用極大似然估計法所得到的模型參數(shù);wij為神經(jīng)網(wǎng)絡層與層之間的權重。符合(1)式的隨機變量分布稱為受限玻爾茲曼機。

再通過梯度下降算法對RBM的對數(shù)似然概率進行優(yōu)化,使其達到最大值,且更新為:

Δwij=ε(〈vihj〉data-〈vihj〉model)

(2)

其中:〈vihj〉data為輸入樣本的自由能量期望值;〈vihj〉model為模型產(chǎn)生的樣本數(shù)據(jù)的自由能量期望值。因為當可見層數(shù)據(jù)的特征維度較高時,吉布斯采樣需要很大的步數(shù),所以采用通過K步(一般K=1)吉布斯的對比散度算法得到神經(jīng)元之間的權重與偏置[4]。

(3)

(2) DBN訓練。將第1個訓練好的RBM權重和偏置固定,作為第2個RBM的輸入;將上述步驟重復多次,多個RBM堆疊構成DBN,最終形成多層次、同層擁有大量神經(jīng)元且不相連的網(wǎng)絡結構。其中,頂層是初始、無向的,而底層之間、層與層之間則采用自頂向下,有向連接。其訓練流程如圖2所示。

圖2 DBN訓練流程

(3) 微調(diào)階段。從最后一處RBM采用反向傳播 (back propagation,BP)方法對整個深度神經(jīng)網(wǎng)絡自頂向下有監(jiān)督地微調(diào)訓練,完成DNN神經(jīng)網(wǎng)絡的建模。

另外,在訓練過程中,由于神經(jīng)網(wǎng)絡的多層次結構以及大量神經(jīng)元的存在,復雜的前饋網(wǎng)絡會出現(xiàn)過擬合的問題,因此,需引入Dropout機制來抑制過擬合。Dropout機制是按照概率隨機屏蔽神經(jīng)元,將該神經(jīng)元參數(shù)置0的操作[5],臨時不參與計算,用余下神經(jīng)元來訓練本次迭代的數(shù)據(jù),直到下一次迭代中被激活,其機制示意圖如圖3所示。圖3中,虛線部分表示不參與的神經(jīng)元。

圖3 Dropout機制示意圖

2 BN特征提取

基于DNN網(wǎng)絡的深度瓶頸特征的提取過程如圖4所示。上述DNN網(wǎng)絡訓練結束后,可將BN層后的網(wǎng)絡層移除,保留輸入層與BN層中間的隱藏層,BN層作為輸出。

圖4 深度瓶頸特征(BN特征)提取的過程

將圖1定義的FMLLR特征作為輸入,經(jīng)可見層與隱藏層對網(wǎng)絡進行無監(jiān)督的預訓練后,BP算法完成針對整個DNN神經(jīng)網(wǎng)絡的有監(jiān)督訓練,確定出隱藏層的倒數(shù)第2層作為BN層。最后對BN層輸出做CMVN變換,得到BN特征。

此外,本文的BN特征神經(jīng)網(wǎng)絡與傳統(tǒng)瓶頸網(wǎng)絡的不同之處在于:傳統(tǒng)瓶頸網(wǎng)絡的隱藏層通常位于最中間的一層;而本網(wǎng)絡的瓶頸層位于隱藏層中的倒數(shù)第2層,該改進兼顧到特征的變換幅度,取得了良好的預測效果[6]。

深度BN特征通過DNN神經(jīng)網(wǎng)絡的交叉熵訓練而得到。該特征相較傳統(tǒng)MFCC聲學特征,不但擁有DNN特征的語音長時相關性和緊湊表示等優(yōu)點,而且不需要BN層之后的非線性運算,運算量減小,并且識別率有相應的提升,具有更強的區(qū)分性與魯棒性。

因此,采用該BN特征訓練的聲學模型更適應于低資源的語音環(huán)境,本文的實驗部分也證明了該特征的優(yōu)越性。

3 基于SGMM模型的聲學建模

3.1 SGMM模型訓練過程

傳統(tǒng)GMM-HMM模型參數(shù)規(guī)模龐大,多數(shù)情況下難以達到預期識別效果,特別在低資源條件下,識別率低的問題更為突出。SGMM是GMM模型的改進,SGMM方法采用參數(shù)共享策略,既減少模型參數(shù)規(guī)模,又提高了聲學模型在低資源條件下的語音識別率?;贐N特征的SGMM模型訓練過程如圖5所示。

圖5 基于BN特征的SGMM模型訓練過程

(1) 訓練SGMM模型之前,要得到一個以BN特征向量為輸入的GMM模型,通過GMM-HMM模型來得到上下文語音狀態(tài)的相關信息。利用通用背景混合高斯模型[7-8]的方法,使該模型適應每個SGMM語音狀態(tài)。通用背景模型(universal background model,UBM)訓練中需用最大期望(expectation maximization,EM)算法來對參數(shù)進行優(yōu)化。一個最初的簡化SGMM模型為:

μji=Bivj,

(4)

其中:x∈RD為語音特征向量;j∈{1,2,…,J}為上下文相關的語音狀態(tài),其模型是由I個高斯分布的GMM模型疊合而成;Σi為狀態(tài)之間共享協(xié)方差矩陣;Bi為所有狀態(tài)共享的全局均值映射矩陣;ωi為權重映射矢量;ωji為混合權重,ωji進行了權重歸一化;μji為平均值。

(2)為使SGMM具有比GMM更精準的建模能力,引入“子狀態(tài)”概念。每個狀態(tài)有Mj個子狀態(tài),每個子狀態(tài)有對應的向量vjm與權重Cjm(1≤m≤Mj)。其中,vj∈RS,子狀態(tài)總權重和為1。引入子狀態(tài)后,(4)式變更為(5)式,完成SGMM模型的初始化。

μjmi=Bivjm,

(5)

(3) 進行兩步EM優(yōu)化。第1步采用Viterbi狀態(tài)對齊GMM-HMM基線,第2步采用Viterbi得到自對齊的SGMM模型[9]。

3.2 GMM和SGMM模型的參數(shù)規(guī)模比較

在GMM模型中,主要參數(shù)為各高斯分量的均值與方差以及各分量的權重。模型的參數(shù)特征維度為D=40,經(jīng)過決策樹綁定步驟得到GMM語音狀態(tài)為J=5 000,每個狀態(tài)由I=18個高斯分量疊加而成,則GMM參數(shù)規(guī)模見表1所列。

表1 GMM參數(shù)規(guī)模

在相同訓練數(shù)據(jù)情況下,SGMM模型中狀態(tài)的子空間維度為S=40、J=5 000的語音狀態(tài),所有狀態(tài)共享I=400個UBM高斯分量,每個狀態(tài)包含M=9個子狀態(tài),SGMM參數(shù)規(guī)模見表2所列。

表2 SGMM參數(shù)規(guī)模

分析表1、表2參數(shù)規(guī)模可知,表1的GMM基線系統(tǒng)參數(shù)為7 290 000,表2的SGMM參數(shù)規(guī)模為3 173 400,SGMM比GMM的參數(shù)規(guī)模顯著降低56.5%。其原因是GMM模型的參數(shù)空間各狀態(tài)相互獨立,導致GMM無法在低資源的條件下獲得最佳的模型估值。而SGMM每個狀態(tài)只關聯(lián)1個低維的映射向量,參數(shù)規(guī)模小。該優(yōu)勢可由(5)式體現(xiàn),SGMM模型參數(shù)Bi、ωi、Σi是各狀態(tài)共享的,這就使得該模型的參數(shù)規(guī)模比GMM有明顯降低。綜上所述,SGMM能夠在低資源條件下,模型參數(shù)相較于傳統(tǒng)GMM模型訓練得更加充分,較好地解決了由于低資源所導致的數(shù)據(jù)稀疏問題,進而獲得更好的識別效果。

4 實驗過程與討論

本文采用TIMIT低資源語料庫,該語料庫包含4.3 h語音數(shù)據(jù),屬于小數(shù)據(jù)量的低資源語料庫。該語音數(shù)據(jù)庫主要來自美國八大方言區(qū)域的630人,其中男性438人,女性192人,每人錄制10句語音數(shù)據(jù),共6 300個語音文件。

本次實驗基于開源語音識別工具Kaldi進行實驗與分析。實驗評價指標為連續(xù)語音識別中的詞錯誤率(Word Error Rate,WER)RWE,其定義如下:

(6)

其中:N為測試文本中詞語的數(shù)量;I′為插入詞個數(shù);D′為刪除詞個數(shù);S′為替代詞個數(shù)。

4.1 實驗過程及各步驟參數(shù)配置

依據(jù)圖1介紹的流程,實驗步驟如下:

(1) 從原始語音提出13維MFCC聲學特征,經(jīng)過一階與二階差分運算及CMVN處理后得到39維MFCC特征向量。由于人聲的實際發(fā)音會受到相鄰近音素的影響,因此將經(jīng)過CMVN的聲學特征前后各拓展3幀,得到273維的特征向量;之后采用LDA方法將273維特征向量降至40維。

(2) 依次采用去除相關性的MLLT步驟、減少說話人之間差異影響的SAT方法、增強特征說話人自適應性的FMLLR方法,得到特征更加明顯的40維語音向量。

(3) 把該40維特征向量及其前后各5個向量進行拼合,所得到的440維特征向量輸入到其后的DNN神經(jīng)網(wǎng)絡中。

在隨后GMM-HMM聲學建模單元中,采用上下文相關的三音子(Tri-phone)作為基礎建模單元,通過Kaldi進行三音子狀態(tài)聚類,生成2 016個GMM狀態(tài)。

完成上述步驟后,在“DBN訓練”過程中,所有RBM使用對比散度算法配合小批量隨機梯度下降算法進行訓練,每個mini-batch大小為256,沖量因子為0.5,沒有權重衰減。學習率方面,高斯(顯)-伯努利(隱)RBM學習速率為0.005,迭代次數(shù)為50;伯努利(隱)-伯努利(隱)的學習速率為0.08,迭代次數(shù)為25次。實驗中隱藏層節(jié)點數(shù)為1 024。

在“微調(diào)階段”,初始學習率為0.008,激活函數(shù)為Sigmoid。訓練時,前10輪迭代訓練過程保持學習率不變;從第11輪開始,每迭代1次,學習率減少1/2,共迭代30次。當相鄰兩輪訓練間的性能提升小于0.001時停止訓練;若30次后沒有滿足上述條件則強制停止訓練。最終,得到結構為圖4所示“440-1 024-1 024-1 024-40-1 024-2 016”7層BN-DNN網(wǎng)絡模型。

該網(wǎng)絡訓練結束后,將BN特征作為圖5中SGMM網(wǎng)絡的輸入,然后進行SGMM模型的訓練。在該階段,首先采用高斯混元聚類方法進行聚類,生成共享I=400個高斯狀態(tài)的UBM聲學模型;其次,訓練出J=5 000個語音狀態(tài)(每個語音狀態(tài)有M=9個子狀態(tài),子狀態(tài)空間維度S=40)的SGMM語音模型;最后,采用基于MMI準則的區(qū)分性訓練,得到一個完整的BN-SGMM-HMM模型。

4.2 Dropout參數(shù)對識別率的影響

本研究的隱藏層神經(jīng)元默認個數(shù)為1 024。將Dropout率分別設置為0、0.3、0.5、0.7進行訓練,實驗結果見表3所列。

由表3可知,當Dropout率為0.5時WER值最低。原因是Dropout率為0.5時,神經(jīng)元有50%概率會失活,所有神經(jīng)元的排列組合數(shù)在0.5時最大,即隨機生成的網(wǎng)絡結構最多。因此,本研究的Dropout率定為0.5。

表3 Dropout率對WER的影響

4.3 BN層神經(jīng)元數(shù)目對網(wǎng)絡的影響

當隱藏層神經(jīng)元數(shù)為1 024,Dropout率為0.5時,BN層神經(jīng)元數(shù)目分別設為20、30、39(同MFCC維度)、40(同F(xiàn)MLLR維度)、50來確定最優(yōu)的該層神經(jīng)元數(shù)目,其結果見表4所列。

表4 BN層不同神經(jīng)元數(shù)目對WER的影響

由表4可知,當隱藏層神經(jīng)元數(shù)目與Dropout率相同,僅BN層神經(jīng)元數(shù)目改變時,WER有0.8%的波動。當BN層神經(jīng)元數(shù)目為40(與FMLLR維度一致)時,WER值最低、效果最好。因此,本研究BN層的神經(jīng)元數(shù)確定為40。

4.4 聲學模型之間的比較

在Dropout率為0.5、BN層神經(jīng)元數(shù)目為40的條件下,分別采用MFCC、BN聲學特征進行GMM-HMM、SGMM-HMM聲學模型構建,得到4種不同的語音模型并進行試驗。其結果見表5所列。

由表5可知:當聲學模型為(S)GMM-HMM時,BN特征訓練出來的BN-(S)GMM-HMM模型比MFCC訓練出的聲學模型MFCC-(S)GMM-HMM的WER值低4.4%、4.1%,該結果證明在相同聲學模型的條件下,BN比MFCC語音特征更突出、識別錯誤率更低;同時,在聲學特征同為MFCC、BN特征時,以SGMM為聲學模型的MFCC-SGMM-HMM、BN-SGMM-HMM的WER比以GMM為聲學模型的MFCC-GMM-HMM、BN-GMM-HMM分別低3.9%、3.6%,該結果證明在相同的聲學特征下,SGMM模型在低資源條件下比傳統(tǒng)的GMM模型更加充分利用訓練數(shù)據(jù)、識別效果更好。最后,將上述BN和SGMM兩方面的優(yōu)點結合起來時,BN-SGMM-HMM模型的WER值比傳統(tǒng)的MFCC-GMM-HMM模型要低8.0%。

表5 4種聲學模型的WER比較

綜上所述,在低資源條件下,BN特征和SGMM模型與傳統(tǒng)淺層聲學特征以及GMM-HMM模型相比,具有更好識別效果、更低識別錯誤率的優(yōu)點。

5 結 論

針對語音識別系統(tǒng)在低資源的條件下所導致的聲學模型參數(shù)規(guī)模過大、識別精度低等問題,本文提出了一種基于BN特征的子空間高斯混合模型(BN-SGMM-HMM),并采用低資源TIMIT數(shù)據(jù)集在Kaldi平臺進行了實驗。實驗結果表明:在聲學特征方面,低資源條件下采用BN特征比傳統(tǒng)MFCC聲學特征有更低的WER;同時,在聲學模型方面,與傳統(tǒng)GMM-HMM相比,SGMM-HMM在低資源條件下語音識別率效果更佳,參數(shù)規(guī)模比GMM-HMM顯著降低56.5%;最后,相較于傳統(tǒng)聲學模型MFCC-GMM-HMM,本文提出的BN-SGMM-HMM模型的WER值降低了8.0%,有效地改善了低資源條件下的傳統(tǒng)語音識別系統(tǒng)參數(shù)規(guī)模過大、識別精度低等問題。下一步的工作是將該聲學模型部署在低功耗需求的硬件平臺上。

猜你喜歡
聲學特征向量神經(jīng)元
二年制職教本科線性代數(shù)課程的幾何化教學設計——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
《從光子到神經(jīng)元》書評
自然雜志(2021年6期)2021-12-23 08:24:46
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
一類特殊矩陣特征向量的求法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
中華建設(2017年1期)2017-06-07 02:56:14
安陆市| 磐石市| 苍梧县| 武威市| 崇左市| 诸暨市| 库车县| 闵行区| 龙州县| 甘洛县| 团风县| 子长县| 白沙| 邢台市| 兰溪市| 瑞安市| 泰兴市| 乳山市| 舞钢市| 滨州市| 封开县| 资阳市| 南雄市| 濮阳县| 锦州市| 延安市| 常州市| 三原县| 保康县| 北宁市| 贡嘎县| 泗洪县| 江油市| 阿鲁科尔沁旗| 图木舒克市| 汝城县| 石阡县| 格尔木市| 民乐县| 房产| 丁青县|