国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GRU-HMM聲學(xué)模型的湖南方言辨識(shí)?

2019-03-26 08:43謝可欣錢盛友
關(guān)鍵詞:聲學(xué)方言時(shí)刻

謝可欣 董 胡,2 鄒 孝 湯 琛 錢盛友

(1.湖南師范大學(xué)物理與電子科學(xué)學(xué)院 長(zhǎng)沙 410081)(2.長(zhǎng)沙師范學(xué)院信息科學(xué)與工程學(xué)院 長(zhǎng)沙 410100)

1 引言

20世紀(jì)90年代,方言辨識(shí)開始逐漸被越來越多的人們重視,各國的研究人員對(duì)不同種類方言的特征和分類模型進(jìn)行了大量研究,同時(shí)方言辨識(shí)在刑事案件中犯罪嫌疑人的歸屬地判定方面有重大貢獻(xiàn)。中國是一個(gè)多民族的人口大國,各民族各地區(qū)的語言都有差異,因此對(duì)于方言辨識(shí)的研究是必不可少的,該領(lǐng)域的研究對(duì)語音識(shí)別技術(shù)的推廣應(yīng)用具有重要意義[1~2]。傳統(tǒng)的聲學(xué)建模方法是以HMM模型為基礎(chǔ)框架,并采用混合高斯模型(GMM)來描述語音聲學(xué)特征的概率分布。早年較為常用的聲學(xué)模型主要有隱馬爾科夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)(ANN),像BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)等,并且至今都在沿用以及不斷優(yōu)化中。而近年來,由于深度學(xué)習(xí)的廣泛應(yīng)用,使得深度學(xué)習(xí)在語音識(shí)別領(lǐng)域中取得了不錯(cuò)的成就,對(duì)多層神經(jīng)網(wǎng)絡(luò)采用深度學(xué)習(xí)算法,可以得到更好的初始化權(quán)值,使得網(wǎng)絡(luò)在最佳的極值點(diǎn)處能夠更快完成收斂,從而改善了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的不足。本文通過對(duì)湖南長(zhǎng)沙、株洲、衡陽、湘潭四地方言進(jìn)行研究,以Matlab為實(shí)驗(yàn)平臺(tái),提出了一種基于GRU神經(jīng)網(wǎng)絡(luò)和HMM結(jié)合的聲學(xué)模型。

2 基本理論

2.1 門控循環(huán)單元GRU

語音信號(hào)是一種非平穩(wěn)時(shí)序信號(hào),而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種網(wǎng)絡(luò)節(jié)點(diǎn)帶環(huán)狀回路的模型,具有一定的動(dòng)態(tài)記憶能力。2013年,Alex Graves等[3]最早將RNN用于語音識(shí)別的聲學(xué)建模,并取得了很好的識(shí)別性能,但由于簡(jiǎn)單的RNN隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,梯度會(huì)逐漸趨于0,即梯度消失。2014年,Cho等[4]提出了RNN的一個(gè)變種——門循環(huán)單元(GRU),通過增加的門結(jié)構(gòu),不僅解決了梯度消失的問題,同時(shí)在各應(yīng)用領(lǐng)域中的能力也不斷體現(xiàn)出來。

GRU的每個(gè)單元能夠自適應(yīng)地捕獲不同時(shí)間尺度的依賴關(guān)系[5]。與簡(jiǎn)單的RNN不同的是,GRU具有調(diào)制單元內(nèi)信息流的門控單元,但沒有單獨(dú)的存儲(chǔ)單元。GRU結(jié)構(gòu)中包含了一系列被稱為記憶單元的循環(huán)連接的子網(wǎng)絡(luò),每個(gè)記憶單元包含了一個(gè)或多個(gè)自連接的記憶細(xì)胞和門控單元,即能夠通過門控機(jī)制來抵消梯度消失。在數(shù)學(xué)上,GRU神經(jīng)元可以由以下關(guān)于時(shí)間t=1,2,…,T的遞推式描述[6~7]:表示當(dāng)前隱藏節(jié)點(diǎn)的候選值,ht表示當(dāng)前時(shí)刻的隱藏狀態(tài),ht-1表示上一時(shí)刻的隱藏狀態(tài),xt為t時(shí)刻的輸入,⊙表示兩個(gè)向量之間的內(nèi)積,即按位相乘,W和U表式連接不同門的權(quán)重矩陣,σ表示Sigmoid函數(shù)。其結(jié)構(gòu)圖如圖1所示。

更新門:用來決定當(dāng)前時(shí)刻的輸入狀態(tài)xt有多少要保存到狀態(tài)單元中。

重置門:用來控制上一時(shí)刻隱藏狀態(tài)ht-1對(duì)當(dāng)前輸入xt的影響,重置信號(hào)會(huì)判定對(duì)結(jié)果的重要程度。

隱藏狀態(tài):根據(jù)當(dāng)前輸入xt和重置后的ht-1可以得到候選的隱藏狀態(tài)。

其中,zt和rt分別代表t時(shí)刻的更新門和重置門,

當(dāng)前狀態(tài):最后由更新門zt決定有多少信息需要更新,混合上一時(shí)刻的隱藏狀態(tài)ht-1和候選的隱藏狀態(tài)得到當(dāng)前時(shí)刻的ht。

GRU之所以對(duì)語音信號(hào)有很好的識(shí)別性能,是因?yàn)殚T控網(wǎng)絡(luò)信號(hào)能夠控制當(dāng)前輸入方式,與此同時(shí)之前的內(nèi)存也被用來更新當(dāng)前的激活狀態(tài)與顯示狀態(tài)。這些門具有自己的權(quán)重集,其在學(xué)習(xí)階段(即訓(xùn)練和評(píng)估過程)中被自適應(yīng)地更新。同時(shí),每個(gè)參數(shù)更新都將涉及與整個(gè)網(wǎng)絡(luò)狀態(tài)有關(guān)的信息。

圖1GRU結(jié)構(gòu)圖

2.2 MFCC參數(shù)

特征提取主要是通過對(duì)語音信號(hào)的處理分析,去除對(duì)識(shí)別無用的冗余信息,得到表征語音信息的關(guān)鍵參數(shù)。提取MFCC特征的總體過程如下[8]:

1)對(duì)語音進(jìn)行預(yù)處理,即預(yù)加重、分幀和加窗函數(shù);

2)對(duì)每一幀信號(hào)進(jìn)行FFT變換,得到頻域數(shù)據(jù),進(jìn)而求得功率譜;

3)將求出的功率譜通過Mel濾波器,得到Mel頻譜;

4)對(duì)Mel頻譜進(jìn)行倒譜運(yùn)算,獲得MFCC。其計(jì)算公式為

其中,L為濾波器個(gè)數(shù)。流程圖如圖2所示。

圖2 MFCC特征參數(shù)提取流程圖

3 模型訓(xùn)練

聲學(xué)模型在方言辨識(shí)系統(tǒng)中處于最為核心的部分,它是用來描述聲學(xué)基元產(chǎn)生特征序列的過程[9]。本文通過GRU網(wǎng)絡(luò)的訓(xùn)練先得到樣本特征屬于哪一種類別的概率,將得到的概率作為HMM模型的輸入再次進(jìn)行訓(xùn)練,進(jìn)行一系列的統(tǒng)計(jì)迭代不斷進(jìn)行優(yōu)化,最后進(jìn)行解碼得到最后的辨識(shí)概率。

3.1 GRU模型

GRU模型可以模擬任意函數(shù),能夠處理多幀輸入,相當(dāng)于引入了非線性的能力[10],GRU作為判別模型可以直接生成狀態(tài)的概率輸出。其訓(xùn)練過程的主要步驟為

1)將訓(xùn)練集數(shù)據(jù)輸入到GRU的輸入層,經(jīng)過隱藏層,最后達(dá)到輸出層并計(jì)算出zt、rt、ht的值;

2)由于GRU的輸出結(jié)果與估計(jì)結(jié)果有誤差,將該誤差從輸出層向輸入層進(jìn)行反向傳播;

3)在反向傳播的過程中使用鏈?zhǔn)角髮?dǎo)法,根據(jù)誤差對(duì)各個(gè)參數(shù)的值進(jìn)行調(diào)整;

4)根據(jù)相應(yīng)的誤差項(xiàng),計(jì)算每個(gè)權(quán)重的梯度,同時(shí)進(jìn)行不斷的參數(shù)調(diào)優(yōu)來更新權(quán)重值。

在訓(xùn)練GRU網(wǎng)絡(luò)的過程中,通過隨機(jī)梯度下降算法來更新權(quán)重值,選取的代價(jià)函數(shù)為交叉熵代價(jià)函數(shù)[11~12],其公式為

其中,x表示樣本,y表示實(shí)際值,a表示輸出值,n表示樣本的總數(shù)。

隨機(jī)梯度下降算法對(duì)應(yīng)的更新公式為

3.2 HMM模型

HMM模型作為一個(gè)統(tǒng)計(jì)模型,能夠簡(jiǎn)單易行地從有限語音訓(xùn)練集數(shù)據(jù)中訓(xùn)練出模型近似參數(shù),可以靈活地根據(jù)特殊的詞匯、聲音等改變認(rèn)知系統(tǒng)的大小、種類或模型的架構(gòu),從而方便快捷地實(shí)現(xiàn)整個(gè)認(rèn)知系統(tǒng)。

HMM是一個(gè)五元組[13]λ={ }N,M,π,A,B ,其中N表示隱藏狀態(tài)的數(shù)量,M表示可觀測(cè)狀態(tài)的數(shù)量,表示每組樣本的n個(gè)特征值,為初始隱藏狀態(tài)的概率,為隱藏狀態(tài)的轉(zhuǎn)移矩陣,是混淆矩陣,即隱最大[14]。

給定模型參數(shù)λ,定義t時(shí)刻的隱藏狀態(tài)為qi,t時(shí)刻部分觀測(cè)序列為的前向概率為藏狀態(tài)和觀測(cè)狀態(tài)之間關(guān)系的概率。對(duì)于已給定觀測(cè)序列O,通過前向-后向算法來得到一組盡可能最優(yōu)的HMM參數(shù)λ使觀測(cè)序列出現(xiàn)的概率

t時(shí)刻部分觀測(cè)序列為 Ot+1,Ot+2,…,OT的后向概率為

給定模型參數(shù)λ和觀測(cè)序列O,在時(shí)刻t處于狀態(tài) qi的概率值[15]:

給定模型參數(shù)λ和觀測(cè)序列O,在時(shí)刻t處于狀態(tài)qi且在時(shí)刻t+1處于狀態(tài)qj的概率:

分別求出的是前向后向算法里面描述的兩個(gè)變量值。根據(jù)以上兩個(gè)變量,可以得到新的模型參數(shù)λ,又稱為重估公式:

3.3 GRU-HMM模型

GRU-HMM聲學(xué)模型在建模處理上,由于用GRU代替了GMM來進(jìn)行建模,因此,比GMM有更加出色的對(duì)多幀數(shù)據(jù)的處理能力,并且屬于深層次結(jié)構(gòu)建模,擁有不錯(cuò)的記憶功能,能處理更多更長(zhǎng)的數(shù)據(jù)。如圖3所示為GRU-HMM聲學(xué)模型的結(jié)構(gòu)圖。

圖3GRU-HMM聲學(xué)模型結(jié)構(gòu)圖

模型參數(shù)設(shè)置為:隱藏層的激活函數(shù)為Sigmoid函數(shù)和tanh函數(shù),輸出層的分類函Sigmoid函數(shù),參數(shù)調(diào)優(yōu)是選擇交叉熵作為代價(jià)函數(shù),用隨機(jī)梯度下降算法來更新權(quán)重值。其訓(xùn)練步驟如下:

1)按2∶1的比例隨機(jī)劃分訓(xùn)練集和測(cè)試集;

2)訓(xùn)練GRU模型,得到GRU模型預(yù)測(cè)的概率prob,GRU模型的準(zhǔn)確率acc;

3)將得到的概率prob作為HMM模型的輸入,訓(xùn)練HMM模型;

4)對(duì)HMM模型進(jìn)行解碼,求解出隱藏狀態(tài)的時(shí)序路徑;

5)對(duì)隱藏狀態(tài)進(jìn)行決策樹的訓(xùn)練,并且測(cè)試,然后統(tǒng)計(jì)測(cè)試的正確率。

4 實(shí)驗(yàn)結(jié)果與分析

方言辨識(shí)實(shí)驗(yàn)的語音數(shù)據(jù)來自出生于湖南長(zhǎng)沙、株洲、衡陽、湘潭各地人的發(fā)音,每人對(duì)表1中的40個(gè)單字用當(dāng)?shù)胤窖赃M(jìn)行發(fā)音,每人每字發(fā)音3遍,共取得樣本480個(gè)。對(duì)語音數(shù)據(jù)加漢明窗,窗長(zhǎng)為 32 ms,幀移16 ms。按1:2的比例,隨機(jī)取若干個(gè)樣本的MFCC特征參數(shù)作為測(cè)試數(shù)據(jù),構(gòu)成測(cè)試集,剩下樣本的MFCC特征參數(shù)作為訓(xùn)練數(shù)據(jù),構(gòu)成訓(xùn)練集。

表1 實(shí)驗(yàn)所用單字表

采用Matlab仿真,對(duì)實(shí)驗(yàn)中的單字方言分別加入了信噪比為0 dB、15 dB、30 dB的高斯白噪聲,得到帶噪語音數(shù)據(jù),然后提取16階MFCC特征參數(shù),分別作為不同模型的輸入,比較它們的辨識(shí)率。各個(gè)實(shí)驗(yàn)分別進(jìn)行100次,取其平均值,結(jié)果如表2所示。傳統(tǒng)的GMM-HMM聲學(xué)模型的最高辨識(shí)率為80.18%,GRU-HMM的辨識(shí)效果明顯優(yōu)于高斯混合模型。隨著信噪比的增加,各個(gè)模型的辨識(shí)率均逐漸增加,其中HMM模型的辨識(shí)率增加幅度較大,而GRU網(wǎng)絡(luò)的辨識(shí)率比較平穩(wěn)。在信噪比為零的情況下,GRU-HMM的辨識(shí)率仍舊比GMM-HMM辨識(shí)率高。并且可以看出,HMM在低信噪比情況下的辨識(shí)率都不高,而GRU神經(jīng)網(wǎng)絡(luò)對(duì)信號(hào)的處理有很好的抗干擾性,無論是否有噪音,都能較為準(zhǔn)確的辨識(shí)并保持穩(wěn)定。因?yàn)镚RU神經(jīng)網(wǎng)絡(luò)對(duì)信號(hào)能夠?qū)崟r(shí)更新并記憶,對(duì)于多輸入的信息有良好的分類性,從而訓(xùn)練出的聲學(xué)模型能有較高的辨識(shí)率。

表2 不同方言用GMM-HMM聲學(xué)模型和GRU-HMM聲學(xué)模型進(jìn)行辨識(shí)的效果比較

5 結(jié)語

本文提出了一種基于GRU-HMM聲學(xué)模型的湖南方言辨識(shí)方法。通過與傳統(tǒng)聲學(xué)模型的對(duì)比,證明該方法在不同信噪比的噪聲影響下,對(duì)湖南各地方言都有很不錯(cuò)的辨識(shí)性能。而傳統(tǒng)的聲學(xué)模型不但容易發(fā)生過擬合,對(duì)特征的學(xué)習(xí)能力也遠(yuǎn)遠(yuǎn)沒有此聲學(xué)模型的學(xué)習(xí)能力強(qiáng)。由于GRU能夠?qū)π畔⑦M(jìn)行長(zhǎng)期的學(xué)習(xí)并保存記憶,本文使用的方法比傳統(tǒng)的聲學(xué)模型具有更好的辨識(shí)效果,并且有良好的魯棒性。

猜你喜歡
聲學(xué)方言時(shí)刻
方嚴(yán)的方言
冬“傲”時(shí)刻
方言
捕獵時(shí)刻
還原音樂的本來面貌 Davis Acoustics(戴維斯聲學(xué))Courbet N°5
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
哪些方言有利于經(jīng)商
試析陜西方言中的[]與大同方言中的
2014年中考聲學(xué)預(yù)測(cè)題
2016年中考聲學(xué)預(yù)測(cè)題
福清市| 涟源市| 葵青区| 山丹县| 东阿县| 沛县| 巴楚县| 临邑县| 府谷县| 客服| 宣城市| 临朐县| 新化县| 贵德县| 万荣县| 萝北县| 东阿县| 吴川市| 德州市| 衢州市| 蕲春县| 台州市| 辽阳市| 手游| 双柏县| 冷水江市| 梨树县| 会宁县| 武功县| 浏阳市| 芷江| 张家界市| 科尔| 西平县| 和平区| 常州市| 赤壁市| 宜昌市| 建阳市| 安达市| 井陉县|