基于GRU-HMM聲學(xué)模型的湖南方言辨識(shí)?

2019-03-26 08:43謝可欣錢盛友

計(jì)算機(jī)與數(shù)字工程 2019年3期

謝可欣董胡，2 鄒孝湯琛錢盛友

（1.湖南師范大學(xué)物理與電子科學(xué)學(xué)院長(zhǎng)沙 410081）（2.長(zhǎng)沙師范學(xué)院信息科學(xué)與工程學(xué)院長(zhǎng)沙 410100）

1 引言

20世紀(jì)90年代，方言辨識(shí)開始逐漸被越來越多的人們重視，各國的研究人員對(duì)不同種類方言的特征和分類模型進(jìn)行了大量研究，同時(shí)方言辨識(shí)在刑事案件中犯罪嫌疑人的歸屬地判定方面有重大貢獻(xiàn)。中國是一個(gè)多民族的人口大國，各民族各地區(qū)的語言都有差異，因此對(duì)于方言辨識(shí)的研究是必不可少的，該領(lǐng)域的研究對(duì)語音識(shí)別技術(shù)的推廣應(yīng)用具有重要意義［1～2］。傳統(tǒng)的聲學(xué)建模方法是以HMM模型為基礎(chǔ)框架，并采用混合高斯模型（GMM）來描述語音聲學(xué)特征的概率分布。早年較為常用的聲學(xué)模型主要有隱馬爾科夫模型（HMM）和人工神經(jīng)網(wǎng)絡(luò)（ANN），像BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)等，并且至今都在沿用以及不斷優(yōu)化中。而近年來，由于深度學(xué)習(xí)的廣泛應(yīng)用，使得深度學(xué)習(xí)在語音識(shí)別領(lǐng)域中取得了不錯(cuò)的成就，對(duì)多層神經(jīng)網(wǎng)絡(luò)采用深度學(xué)習(xí)算法，可以得到更好的初始化權(quán)值，使得網(wǎng)絡(luò)在最佳的極值點(diǎn)處能夠更快完成收斂，從而改善了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的不足。本文通過對(duì)湖南長(zhǎng)沙、株洲、衡陽、湘潭四地方言進(jìn)行研究，以Matlab為實(shí)驗(yàn)平臺(tái)，提出了一種基于GRU神經(jīng)網(wǎng)絡(luò)和HMM結(jié)合的聲學(xué)模型。

2 基本理論

2.1 門控循環(huán)單元GRU

語音信號(hào)是一種非平穩(wěn)時(shí)序信號(hào)，而循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）是一種網(wǎng)絡(luò)節(jié)點(diǎn)帶環(huán)狀回路的模型，具有一定的動(dòng)態(tài)記憶能力。2013年，Alex Graves等［3］最早將RNN用于語音識(shí)別的聲學(xué)建模，并取得了很好的識(shí)別性能，但由于簡(jiǎn)單的RNN隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加，梯度會(huì)逐漸趨于0，即梯度消失。2014年，Cho等［4］提出了RNN的一個(gè)變種——門循環(huán)單元（GRU），通過增加的門結(jié)構(gòu)，不僅解決了梯度消失的問題，同時(shí)在各應(yīng)用領(lǐng)域中的能力也不斷體現(xiàn)出來。

GRU的每個(gè)單元能夠自適應(yīng)地捕獲不同時(shí)間尺度的依賴關(guān)系［5］。與簡(jiǎn)單的RNN不同的是，GRU具有調(diào)制單元內(nèi)信息流的門控單元，但沒有單獨(dú)的存儲(chǔ)單元。GRU結(jié)構(gòu)中包含了一系列被稱為記憶單元的循環(huán)連接的子網(wǎng)絡(luò)，每個(gè)記憶單元包含了一個(gè)或多個(gè)自連接的記憶細(xì)胞和門控單元，即能夠通過門控機(jī)制來抵消梯度消失。在數(shù)學(xué)上，GRU神經(jīng)元可以由以下關(guān)于時(shí)間t=1，2，…，T的遞推式描述［6～7］：表示當(dāng)前隱藏節(jié)點(diǎn)的候選值，ht表示當(dāng)前時(shí)刻的隱藏狀態(tài)，ht-1表示上一時(shí)刻的隱藏狀態(tài)，xt為t時(shí)刻的輸入，⊙表示兩個(gè)向量之間的內(nèi)積，即按位相乘，W和U表式連接不同門的權(quán)重矩陣，σ表示Sigmoid函數(shù)。其結(jié)構(gòu)圖如圖1所示。

更新門：用來決定當(dāng)前時(shí)刻的輸入狀態(tài)xt有多少要保存到狀態(tài)單元中。

重置門：用來控制上一時(shí)刻隱藏狀態(tài)ht-1對(duì)當(dāng)前輸入xt的影響，重置信號(hào)會(huì)判定對(duì)結(jié)果的重要程度。

隱藏狀態(tài)：根據(jù)當(dāng)前輸入xt和重置后的ht-1可以得到候選的隱藏狀態(tài)。

其中，zt和rt分別代表t時(shí)刻的更新門和重置門，

當(dāng)前狀態(tài)：最后由更新門zt決定有多少信息需要更新，混合上一時(shí)刻的隱藏狀態(tài)ht-1和候選的隱藏狀態(tài)得到當(dāng)前時(shí)刻的ht。

GRU之所以對(duì)語音信號(hào)有很好的識(shí)別性能，是因?yàn)殚T控網(wǎng)絡(luò)信號(hào)能夠控制當(dāng)前輸入方式，與此同時(shí)之前的內(nèi)存也被用來更新當(dāng)前的激活狀態(tài)與顯示狀態(tài)。這些門具有自己的權(quán)重集，其在學(xué)習(xí)階段（即訓(xùn)練和評(píng)估過程）中被自適應(yīng)地更新。同時(shí)，每個(gè)參數(shù)更新都將涉及與整個(gè)網(wǎng)絡(luò)狀態(tài)有關(guān)的信息。

圖1GRU結(jié)構(gòu)圖

2.2 MFCC參數(shù)

特征提取主要是通過對(duì)語音信號(hào)的處理分析，去除對(duì)識(shí)別無用的冗余信息，得到表征語音信息的關(guān)鍵參數(shù)。提取MFCC特征的總體過程如下［8］：

1）對(duì)語音進(jìn)行預(yù)處理，即預(yù)加重、分幀和加窗函數(shù)；

2）對(duì)每一幀信號(hào)進(jìn)行FFT變換，得到頻域數(shù)據(jù)，進(jìn)而求得功率譜；

3）將求出的功率譜通過Mel濾波器，得到Mel頻譜；

4）對(duì)Mel頻譜進(jìn)行倒譜運(yùn)算，獲得MFCC。其計(jì)算公式為

其中，L為濾波器個(gè)數(shù)。流程圖如圖2所示。

圖2 MFCC特征參數(shù)提取流程圖

3 模型訓(xùn)練

聲學(xué)模型在方言辨識(shí)系統(tǒng)中處于最為核心的部分，它是用來描述聲學(xué)基元產(chǎn)生特征序列的過程［9］。本文通過GRU網(wǎng)絡(luò)的訓(xùn)練先得到樣本特征屬于哪一種類別的概率，將得到的概率作為HMM模型的輸入再次進(jìn)行訓(xùn)練，進(jìn)行一系列的統(tǒng)計(jì)迭代不斷進(jìn)行優(yōu)化，最后進(jìn)行解碼得到最后的辨識(shí)概率。

3.1 GRU模型

GRU模型可以模擬任意函數(shù)，能夠處理多幀輸入，相當(dāng)于引入了非線性的能力［10］，GRU作為判別模型可以直接生成狀態(tài)的概率輸出。其訓(xùn)練過程的主要步驟為

1）將訓(xùn)練集數(shù)據(jù)輸入到GRU的輸入層，經(jīng)過隱藏層，最后達(dá)到輸出層并計(jì)算出zt、rt、ht的值；

2）由于GRU的輸出結(jié)果與估計(jì)結(jié)果有誤差，將該誤差從輸出層向輸入層進(jìn)行反向傳播；

3）在反向傳播的過程中使用鏈?zhǔn)角髮?dǎo)法，根據(jù)誤差對(duì)各個(gè)參數(shù)的值進(jìn)行調(diào)整；

4）根據(jù)相應(yīng)的誤差項(xiàng)，計(jì)算每個(gè)權(quán)重的梯度，同時(shí)進(jìn)行不斷的參數(shù)調(diào)優(yōu)來更新權(quán)重值。

在訓(xùn)練GRU網(wǎng)絡(luò)的過程中，通過隨機(jī)梯度下降算法來更新權(quán)重值，選取的代價(jià)函數(shù)為交叉熵代價(jià)函數(shù)［11～12］，其公式為

其中，x表示樣本，y表示實(shí)際值，a表示輸出值，n表示樣本的總數(shù)。

隨機(jī)梯度下降算法對(duì)應(yīng)的更新公式為

3.2 HMM模型

HMM模型作為一個(gè)統(tǒng)計(jì)模型，能夠簡(jiǎn)單易行地從有限語音訓(xùn)練集數(shù)據(jù)中訓(xùn)練出模型近似參數(shù)，可以靈活地根據(jù)特殊的詞匯、聲音等改變認(rèn)知系統(tǒng)的大小、種類或模型的架構(gòu)，從而方便快捷地實(shí)現(xiàn)整個(gè)認(rèn)知系統(tǒng)。

HMM是一個(gè)五元組［13］λ={ }N，M，π，A，B ，其中N表示隱藏狀態(tài)的數(shù)量，M表示可觀測(cè)狀態(tài)的數(shù)量，表示每組樣本的n個(gè)特征值，為初始隱藏狀態(tài)的概率，為隱藏狀態(tài)的轉(zhuǎn)移矩陣，是混淆矩陣，即隱最大［14］。

給定模型參數(shù)λ，定義t時(shí)刻的隱藏狀態(tài)為qi，t時(shí)刻部分觀測(cè)序列為的前向概率為藏狀態(tài)和觀測(cè)狀態(tài)之間關(guān)系的概率。對(duì)于已給定觀測(cè)序列O，通過前向-后向算法來得到一組盡可能最優(yōu)的HMM參數(shù)λ使觀測(cè)序列出現(xiàn)的概率

t時(shí)刻部分觀測(cè)序列為 Ot+1，Ot+2，…，OT的后向概率為

給定模型參數(shù)λ和觀測(cè)序列O，在時(shí)刻t處于狀態(tài) qi的概率值［15］：

給定模型參數(shù)λ和觀測(cè)序列O，在時(shí)刻t處于狀態(tài)qi且在時(shí)刻t+1處于狀態(tài)qj的概率：

分別求出的是前向后向算法里面描述的兩個(gè)變量值。根據(jù)以上兩個(gè)變量，可以得到新的模型參數(shù)λ，又稱為重估公式：

3.3 GRU-HMM模型

GRU-HMM聲學(xué)模型在建模處理上，由于用GRU代替了GMM來進(jìn)行建模，因此，比GMM有更加出色的對(duì)多幀數(shù)據(jù)的處理能力，并且屬于深層次結(jié)構(gòu)建模，擁有不錯(cuò)的記憶功能，能處理更多更長(zhǎng)的數(shù)據(jù)。如圖3所示為GRU-HMM聲學(xué)模型的結(jié)構(gòu)圖。

圖3GRU-HMM聲學(xué)模型結(jié)構(gòu)圖

模型參數(shù)設(shè)置為：隱藏層的激活函數(shù)為Sigmoid函數(shù)和tanh函數(shù)，輸出層的分類函Sigmoid函數(shù)，參數(shù)調(diào)優(yōu)是選擇交叉熵作為代價(jià)函數(shù)，用隨機(jī)梯度下降算法來更新權(quán)重值。其訓(xùn)練步驟如下：

1）按2∶1的比例隨機(jī)劃分訓(xùn)練集和測(cè)試集；

2）訓(xùn)練GRU模型，得到GRU模型預(yù)測(cè)的概率prob，GRU模型的準(zhǔn)確率acc；

3）將得到的概率prob作為HMM模型的輸入，訓(xùn)練HMM模型；

4）對(duì)HMM模型進(jìn)行解碼，求解出隱藏狀態(tài)的時(shí)序路徑；

5）對(duì)隱藏狀態(tài)進(jìn)行決策樹的訓(xùn)練，并且測(cè)試，然后統(tǒng)計(jì)測(cè)試的正確率。

4 實(shí)驗(yàn)結(jié)果與分析

方言辨識(shí)實(shí)驗(yàn)的語音數(shù)據(jù)來自出生于湖南長(zhǎng)沙、株洲、衡陽、湘潭各地人的發(fā)音，每人對(duì)表1中的40個(gè)單字用當(dāng)?shù)胤窖赃M(jìn)行發(fā)音，每人每字發(fā)音3遍，共取得樣本480個(gè)。對(duì)語音數(shù)據(jù)加漢明窗，窗長(zhǎng)為 32 ms，幀移16 ms。按1：2的比例，隨機(jī)取若干個(gè)樣本的MFCC特征參數(shù)作為測(cè)試數(shù)據(jù)，構(gòu)成測(cè)試集，剩下樣本的MFCC特征參數(shù)作為訓(xùn)練數(shù)據(jù)，構(gòu)成訓(xùn)練集。

表1 實(shí)驗(yàn)所用單字表

采用Matlab仿真，對(duì)實(shí)驗(yàn)中的單字方言分別加入了信噪比為0 dB、15 dB、30 dB的高斯白噪聲，得到帶噪語音數(shù)據(jù)，然后提取16階MFCC特征參數(shù)，分別作為不同模型的輸入，比較它們的辨識(shí)率。各個(gè)實(shí)驗(yàn)分別進(jìn)行100次，取其平均值，結(jié)果如表2所示。傳統(tǒng)的GMM-HMM聲學(xué)模型的最高辨識(shí)率為80.18%，GRU-HMM的辨識(shí)效果明顯優(yōu)于高斯混合模型。隨著信噪比的增加，各個(gè)模型的辨識(shí)率均逐漸增加，其中HMM模型的辨識(shí)率增加幅度較大，而GRU網(wǎng)絡(luò)的辨識(shí)率比較平穩(wěn)。在信噪比為零的情況下，GRU-HMM的辨識(shí)率仍舊比GMM-HMM辨識(shí)率高。并且可以看出，HMM在低信噪比情況下的辨識(shí)率都不高，而GRU神經(jīng)網(wǎng)絡(luò)對(duì)信號(hào)的處理有很好的抗干擾性，無論是否有噪音，都能較為準(zhǔn)確的辨識(shí)并保持穩(wěn)定。因?yàn)镚RU神經(jīng)網(wǎng)絡(luò)對(duì)信號(hào)能夠?qū)崟r(shí)更新并記憶，對(duì)于多輸入的信息有良好的分類性，從而訓(xùn)練出的聲學(xué)模型能有較高的辨識(shí)率。

表2 不同方言用GMM-HMM聲學(xué)模型和GRU-HMM聲學(xué)模型進(jìn)行辨識(shí)的效果比較

5 結(jié)語

本文提出了一種基于GRU-HMM聲學(xué)模型的湖南方言辨識(shí)方法。通過與傳統(tǒng)聲學(xué)模型的對(duì)比，證明該方法在不同信噪比的噪聲影響下，對(duì)湖南各地方言都有很不錯(cuò)的辨識(shí)性能。而傳統(tǒng)的聲學(xué)模型不但容易發(fā)生過擬合，對(duì)特征的學(xué)習(xí)能力也遠(yuǎn)遠(yuǎn)沒有此聲學(xué)模型的學(xué)習(xí)能力強(qiáng)。由于GRU能夠?qū)π畔⑦M(jìn)行長(zhǎng)期的學(xué)習(xí)并保存記憶，本文使用的方法比傳統(tǒng)的聲學(xué)模型具有更好的辨識(shí)效果，并且有良好的魯棒性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡