謝可欣 董 胡,2 鄒 孝 湯 琛 錢盛友
(1.湖南師范大學(xué)物理與電子科學(xué)學(xué)院 長(zhǎng)沙 410081)(2.長(zhǎng)沙師范學(xué)院信息科學(xué)與工程學(xué)院 長(zhǎng)沙 410100)
20世紀(jì)90年代,方言辨識(shí)開始逐漸被越來越多的人們重視,各國的研究人員對(duì)不同種類方言的特征和分類模型進(jìn)行了大量研究,同時(shí)方言辨識(shí)在刑事案件中犯罪嫌疑人的歸屬地判定方面有重大貢獻(xiàn)。中國是一個(gè)多民族的人口大國,各民族各地區(qū)的語言都有差異,因此對(duì)于方言辨識(shí)的研究是必不可少的,該領(lǐng)域的研究對(duì)語音識(shí)別技術(shù)的推廣應(yīng)用具有重要意義[1~2]。傳統(tǒng)的聲學(xué)建模方法是以HMM模型為基礎(chǔ)框架,并采用混合高斯模型(GMM)來描述語音聲學(xué)特征的概率分布。早年較為常用的聲學(xué)模型主要有隱馬爾科夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)(ANN),像BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)等,并且至今都在沿用以及不斷優(yōu)化中。而近年來,由于深度學(xué)習(xí)的廣泛應(yīng)用,使得深度學(xué)習(xí)在語音識(shí)別領(lǐng)域中取得了不錯(cuò)的成就,對(duì)多層神經(jīng)網(wǎng)絡(luò)采用深度學(xué)習(xí)算法,可以得到更好的初始化權(quán)值,使得網(wǎng)絡(luò)在最佳的極值點(diǎn)處能夠更快完成收斂,從而改善了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的不足。本文通過對(duì)湖南長(zhǎng)沙、株洲、衡陽、湘潭四地方言進(jìn)行研究,以Matlab為實(shí)驗(yàn)平臺(tái),提出了一種基于GRU神經(jīng)網(wǎng)絡(luò)和HMM結(jié)合的聲學(xué)模型。
語音信號(hào)是一種非平穩(wěn)時(shí)序信號(hào),而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種網(wǎng)絡(luò)節(jié)點(diǎn)帶環(huán)狀回路的模型,具有一定的動(dòng)態(tài)記憶能力。2013年,Alex Graves等[3]最早將RNN用于語音識(shí)別的聲學(xué)建模,并取得了很好的識(shí)別性能,但由于簡(jiǎn)單的RNN隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,梯度會(huì)逐漸趨于0,即梯度消失。2014年,Cho等[4]提出了RNN的一個(gè)變種——門循環(huán)單元(GRU),通過增加的門結(jié)構(gòu),不僅解決了梯度消失的問題,同時(shí)在各應(yīng)用領(lǐng)域中的能力也不斷體現(xiàn)出來。
GRU的每個(gè)單元能夠自適應(yīng)地捕獲不同時(shí)間尺度的依賴關(guān)系[5]。與簡(jiǎn)單的RNN不同的是,GRU具有調(diào)制單元內(nèi)信息流的門控單元,但沒有單獨(dú)的存儲(chǔ)單元。GRU結(jié)構(gòu)中包含了一系列被稱為記憶單元的循環(huán)連接的子網(wǎng)絡(luò),每個(gè)記憶單元包含了一個(gè)或多個(gè)自連接的記憶細(xì)胞和門控單元,即能夠通過門控機(jī)制來抵消梯度消失。在數(shù)學(xué)上,GRU神經(jīng)元可以由以下關(guān)于時(shí)間t=1,2,…,T的遞推式描述[6~7]:表示當(dāng)前隱藏節(jié)點(diǎn)的候選值,ht表示當(dāng)前時(shí)刻的隱藏狀態(tài),ht-1表示上一時(shí)刻的隱藏狀態(tài),xt為t時(shí)刻的輸入,⊙表示兩個(gè)向量之間的內(nèi)積,即按位相乘,W和U表式連接不同門的權(quán)重矩陣,σ表示Sigmoid函數(shù)。其結(jié)構(gòu)圖如圖1所示。
更新門:用來決定當(dāng)前時(shí)刻的輸入狀態(tài)xt有多少要保存到狀態(tài)單元中。
重置門:用來控制上一時(shí)刻隱藏狀態(tài)ht-1對(duì)當(dāng)前輸入xt的影響,重置信號(hào)會(huì)判定對(duì)結(jié)果的重要程度。
隱藏狀態(tài):根據(jù)當(dāng)前輸入xt和重置后的ht-1可以得到候選的隱藏狀態(tài)。
其中,zt和rt分別代表t時(shí)刻的更新門和重置門,
當(dāng)前狀態(tài):最后由更新門zt決定有多少信息需要更新,混合上一時(shí)刻的隱藏狀態(tài)ht-1和候選的隱藏狀態(tài)得到當(dāng)前時(shí)刻的ht。
GRU之所以對(duì)語音信號(hào)有很好的識(shí)別性能,是因?yàn)殚T控網(wǎng)絡(luò)信號(hào)能夠控制當(dāng)前輸入方式,與此同時(shí)之前的內(nèi)存也被用來更新當(dāng)前的激活狀態(tài)與顯示狀態(tài)。這些門具有自己的權(quán)重集,其在學(xué)習(xí)階段(即訓(xùn)練和評(píng)估過程)中被自適應(yīng)地更新。同時(shí),每個(gè)參數(shù)更新都將涉及與整個(gè)網(wǎng)絡(luò)狀態(tài)有關(guān)的信息。
圖1GRU結(jié)構(gòu)圖
特征提取主要是通過對(duì)語音信號(hào)的處理分析,去除對(duì)識(shí)別無用的冗余信息,得到表征語音信息的關(guān)鍵參數(shù)。提取MFCC特征的總體過程如下[8]:
1)對(duì)語音進(jìn)行預(yù)處理,即預(yù)加重、分幀和加窗函數(shù);
2)對(duì)每一幀信號(hào)進(jìn)行FFT變換,得到頻域數(shù)據(jù),進(jìn)而求得功率譜;
3)將求出的功率譜通過Mel濾波器,得到Mel頻譜;
4)對(duì)Mel頻譜進(jìn)行倒譜運(yùn)算,獲得MFCC。其計(jì)算公式為
其中,L為濾波器個(gè)數(shù)。流程圖如圖2所示。
圖2 MFCC特征參數(shù)提取流程圖
聲學(xué)模型在方言辨識(shí)系統(tǒng)中處于最為核心的部分,它是用來描述聲學(xué)基元產(chǎn)生特征序列的過程[9]。本文通過GRU網(wǎng)絡(luò)的訓(xùn)練先得到樣本特征屬于哪一種類別的概率,將得到的概率作為HMM模型的輸入再次進(jìn)行訓(xùn)練,進(jìn)行一系列的統(tǒng)計(jì)迭代不斷進(jìn)行優(yōu)化,最后進(jìn)行解碼得到最后的辨識(shí)概率。
GRU模型可以模擬任意函數(shù),能夠處理多幀輸入,相當(dāng)于引入了非線性的能力[10],GRU作為判別模型可以直接生成狀態(tài)的概率輸出。其訓(xùn)練過程的主要步驟為
1)將訓(xùn)練集數(shù)據(jù)輸入到GRU的輸入層,經(jīng)過隱藏層,最后達(dá)到輸出層并計(jì)算出zt、rt、ht的值;
2)由于GRU的輸出結(jié)果與估計(jì)結(jié)果有誤差,將該誤差從輸出層向輸入層進(jìn)行反向傳播;
3)在反向傳播的過程中使用鏈?zhǔn)角髮?dǎo)法,根據(jù)誤差對(duì)各個(gè)參數(shù)的值進(jìn)行調(diào)整;
4)根據(jù)相應(yīng)的誤差項(xiàng),計(jì)算每個(gè)權(quán)重的梯度,同時(shí)進(jìn)行不斷的參數(shù)調(diào)優(yōu)來更新權(quán)重值。
在訓(xùn)練GRU網(wǎng)絡(luò)的過程中,通過隨機(jī)梯度下降算法來更新權(quán)重值,選取的代價(jià)函數(shù)為交叉熵代價(jià)函數(shù)[11~12],其公式為
其中,x表示樣本,y表示實(shí)際值,a表示輸出值,n表示樣本的總數(shù)。
隨機(jī)梯度下降算法對(duì)應(yīng)的更新公式為
HMM模型作為一個(gè)統(tǒng)計(jì)模型,能夠簡(jiǎn)單易行地從有限語音訓(xùn)練集數(shù)據(jù)中訓(xùn)練出模型近似參數(shù),可以靈活地根據(jù)特殊的詞匯、聲音等改變認(rèn)知系統(tǒng)的大小、種類或模型的架構(gòu),從而方便快捷地實(shí)現(xiàn)整個(gè)認(rèn)知系統(tǒng)。
HMM是一個(gè)五元組[13]λ={ }N,M,π,A,B ,其中N表示隱藏狀態(tài)的數(shù)量,M表示可觀測(cè)狀態(tài)的數(shù)量,表示每組樣本的n個(gè)特征值,為初始隱藏狀態(tài)的概率,為隱藏狀態(tài)的轉(zhuǎn)移矩陣,是混淆矩陣,即隱最大[14]。
給定模型參數(shù)λ,定義t時(shí)刻的隱藏狀態(tài)為qi,t時(shí)刻部分觀測(cè)序列為的前向概率為藏狀態(tài)和觀測(cè)狀態(tài)之間關(guān)系的概率。對(duì)于已給定觀測(cè)序列O,通過前向-后向算法來得到一組盡可能最優(yōu)的HMM參數(shù)λ使觀測(cè)序列出現(xiàn)的概率
t時(shí)刻部分觀測(cè)序列為 Ot+1,Ot+2,…,OT的后向概率為
給定模型參數(shù)λ和觀測(cè)序列O,在時(shí)刻t處于狀態(tài) qi的概率值[15]:
給定模型參數(shù)λ和觀測(cè)序列O,在時(shí)刻t處于狀態(tài)qi且在時(shí)刻t+1處于狀態(tài)qj的概率:
分別求出的是前向后向算法里面描述的兩個(gè)變量值。根據(jù)以上兩個(gè)變量,可以得到新的模型參數(shù)λ,又稱為重估公式:
GRU-HMM聲學(xué)模型在建模處理上,由于用GRU代替了GMM來進(jìn)行建模,因此,比GMM有更加出色的對(duì)多幀數(shù)據(jù)的處理能力,并且屬于深層次結(jié)構(gòu)建模,擁有不錯(cuò)的記憶功能,能處理更多更長(zhǎng)的數(shù)據(jù)。如圖3所示為GRU-HMM聲學(xué)模型的結(jié)構(gòu)圖。
圖3GRU-HMM聲學(xué)模型結(jié)構(gòu)圖
模型參數(shù)設(shè)置為:隱藏層的激活函數(shù)為Sigmoid函數(shù)和tanh函數(shù),輸出層的分類函Sigmoid函數(shù),參數(shù)調(diào)優(yōu)是選擇交叉熵作為代價(jià)函數(shù),用隨機(jī)梯度下降算法來更新權(quán)重值。其訓(xùn)練步驟如下:
1)按2∶1的比例隨機(jī)劃分訓(xùn)練集和測(cè)試集;
2)訓(xùn)練GRU模型,得到GRU模型預(yù)測(cè)的概率prob,GRU模型的準(zhǔn)確率acc;
3)將得到的概率prob作為HMM模型的輸入,訓(xùn)練HMM模型;
4)對(duì)HMM模型進(jìn)行解碼,求解出隱藏狀態(tài)的時(shí)序路徑;
5)對(duì)隱藏狀態(tài)進(jìn)行決策樹的訓(xùn)練,并且測(cè)試,然后統(tǒng)計(jì)測(cè)試的正確率。
方言辨識(shí)實(shí)驗(yàn)的語音數(shù)據(jù)來自出生于湖南長(zhǎng)沙、株洲、衡陽、湘潭各地人的發(fā)音,每人對(duì)表1中的40個(gè)單字用當(dāng)?shù)胤窖赃M(jìn)行發(fā)音,每人每字發(fā)音3遍,共取得樣本480個(gè)。對(duì)語音數(shù)據(jù)加漢明窗,窗長(zhǎng)為 32 ms,幀移16 ms。按1:2的比例,隨機(jī)取若干個(gè)樣本的MFCC特征參數(shù)作為測(cè)試數(shù)據(jù),構(gòu)成測(cè)試集,剩下樣本的MFCC特征參數(shù)作為訓(xùn)練數(shù)據(jù),構(gòu)成訓(xùn)練集。
表1 實(shí)驗(yàn)所用單字表
采用Matlab仿真,對(duì)實(shí)驗(yàn)中的單字方言分別加入了信噪比為0 dB、15 dB、30 dB的高斯白噪聲,得到帶噪語音數(shù)據(jù),然后提取16階MFCC特征參數(shù),分別作為不同模型的輸入,比較它們的辨識(shí)率。各個(gè)實(shí)驗(yàn)分別進(jìn)行100次,取其平均值,結(jié)果如表2所示。傳統(tǒng)的GMM-HMM聲學(xué)模型的最高辨識(shí)率為80.18%,GRU-HMM的辨識(shí)效果明顯優(yōu)于高斯混合模型。隨著信噪比的增加,各個(gè)模型的辨識(shí)率均逐漸增加,其中HMM模型的辨識(shí)率增加幅度較大,而GRU網(wǎng)絡(luò)的辨識(shí)率比較平穩(wěn)。在信噪比為零的情況下,GRU-HMM的辨識(shí)率仍舊比GMM-HMM辨識(shí)率高。并且可以看出,HMM在低信噪比情況下的辨識(shí)率都不高,而GRU神經(jīng)網(wǎng)絡(luò)對(duì)信號(hào)的處理有很好的抗干擾性,無論是否有噪音,都能較為準(zhǔn)確的辨識(shí)并保持穩(wěn)定。因?yàn)镚RU神經(jīng)網(wǎng)絡(luò)對(duì)信號(hào)能夠?qū)崟r(shí)更新并記憶,對(duì)于多輸入的信息有良好的分類性,從而訓(xùn)練出的聲學(xué)模型能有較高的辨識(shí)率。
表2 不同方言用GMM-HMM聲學(xué)模型和GRU-HMM聲學(xué)模型進(jìn)行辨識(shí)的效果比較
本文提出了一種基于GRU-HMM聲學(xué)模型的湖南方言辨識(shí)方法。通過與傳統(tǒng)聲學(xué)模型的對(duì)比,證明該方法在不同信噪比的噪聲影響下,對(duì)湖南各地方言都有很不錯(cuò)的辨識(shí)性能。而傳統(tǒng)的聲學(xué)模型不但容易發(fā)生過擬合,對(duì)特征的學(xué)習(xí)能力也遠(yuǎn)遠(yuǎn)沒有此聲學(xué)模型的學(xué)習(xí)能力強(qiáng)。由于GRU能夠?qū)π畔⑦M(jìn)行長(zhǎng)期的學(xué)習(xí)并保存記憶,本文使用的方法比傳統(tǒng)的聲學(xué)模型具有更好的辨識(shí)效果,并且有良好的魯棒性。