基于連續(xù)隱馬爾科夫的語音識別模型

2013-04-29 00:44:03梁浩楊光宇

無線互聯(lián)科技 2013年6期

關(guān)鍵詞：語音識別

梁浩楊光宇

摘要：本文針對問題一建立了基于連續(xù)隱馬爾科夫模型的語音識別系統(tǒng)的模型。該語音識別系統(tǒng)包括預處理，特征提取以及聲學模型三個部分。問題二要求以一個實際的例子則對問題一中建立的模型進行驗證。我們選擇了“話費查詢”這個功能進行測試。待測語音信號依次經(jīng)過預處理、特征提取、訓練與識別。

關(guān)鍵詞：語音識別；隱馬爾科夫模型；預處理特

1 模型的建立與驗證

本文我們所建立的語音識別門模型包括語音信號預處理模塊、特征提取模塊及模式庫訓練和待測語音識別模塊。

1.1 預處理

預處理主要包括預加重，加窗分幀處理，端點檢測和降噪處理四個過程。

1.1.1 預加重模型

預加重的中心思想是利用信號特性和噪聲特性的差別來有效地對信號進行處理。即在噪聲引入之前采用適當?shù)木W(wǎng)絡，人為地加重發(fā)射機輸入調(diào)制信號的高頻分量。

1.1.2 加窗分幀處理模型

本文中選擇Hamming窗進行加窗分幀處理，Hamming窗函數(shù)如下：

1.1.3 端點檢測模型

本文使用雙門限端點檢測對語音信號進行端點處理。

1.1.4 降噪處理模型

FIR濾波器的基本結(jié)構(gòu)可以理解為一個分節(jié)的延時線，把每一節(jié)的輸出加權(quán)累加，可得到濾波器的輸出，F(xiàn)IR濾波器的沖激響應h（n）是有限長的，數(shù)學上M階FIR濾波器可以表示為：

1.2 特征提取模型

特征提取就是從語音信號中提取具有代表性的、合適的特征參數(shù)。爾頻率倒譜系數(shù)（MFCC）能更加充分的利用人耳的聽覺特性，因此本文中我們提取的特征參數(shù)是MFCC。

P個MFCC系數(shù)公式為：

1.3 訓練與識別模型——連續(xù)隱馬爾科夫模型

模式匹配是通過計算待識別語音與已知語音庫中語音的相似度對語音進行識別，是多維模式識別系統(tǒng)中最常用的一種方法。模式匹配分為訓練和識別兩個階段。

常用的模式匹配方法有動態(tài)時間規(guī)整算法以及隱馬爾科夫模型等。本文選用連續(xù)隱馬爾科夫模型對語音信號進行識別和訓練。

1.3.1 模型建立

HMM模型可以記為：λ=（π，A，B）。A為狀態(tài)轉(zhuǎn)移矩陣為：B為觀察值概率密度矩陣，πi為各狀態(tài)其實概率分布。

1.3.2 模型求解

HMM在語音識別中需要解決估值、解碼和訓練三個基本問題。

⑴估值問題

對于給定的觀察序列O=（O1，O2，…，OT）和模型λ=（π，A，B），前向概率求解。

⑵解碼問題

對于給定的觀察序列O=（O1，O2，…，OT）和模型λ=（π，A，B），求模型λ對應于觀測序列O的最佳狀態(tài)序列Q*=q1*，…qT*，即尋找使P（O—λ）達到最大時，O所對應的狀態(tài)序列，可以采用Viterbi算法求解。

⑶訓練算法

對于給定的觀測序列O=（O1，O2，…，OT），如何修正模型λ參數(shù)，使得模型產(chǎn)生觀測序列O的概率P（O—λ）最大，一般采用Baum—Welch算法。算法步驟為：確定A，B的初始值，利用前向-后向算法求前向概率和后向概率，利用重估公式求ai，j和bi（j），判斷是否收斂：求出P（O—λ）并計算。如果小于給定的閾值則結(jié)束，反之回到第二步繼續(xù)進行循環(huán)。

1.3.3 語音識別模型

對待識別語音信號映射為觀察序列，然后對各模型求概率，其中概率最大的模型對應的詞即為識別結(jié)果。

假設每個詞wi，都對應一個觀察序列O=[O1，O2，…，OT]T，則語音識別的問題可以認為是在已知語音觀察序列O的情況下，尋找與其最匹配的wi，即計算出argimax{P（wi—O）}。

由于P（wi）和P（O）都可以確定，因此式（5.3.19）的大小由P（O—wi）決定。若其對應的隱馬爾科夫模型為λi，則：

P（O—wi）=P（O—λi）

其中，P（O—λi）可用前向-后向概率算法求出。然后找出最大的P（O—λi），則其模型對應的詞即為識別結(jié)果。

1.4 模型的驗證

問題二要求以一個實際的例子驗證語音識別模型。我們選擇了“話費查詢功能”進行驗證。為了達到這個目標，由問題二中的規(guī)則可知我們需要以比較連貫的語速用標準普通話說出“話費”。首先對該語音進行預加重。

我們用識別正確率以及識別時間這兩個指標對系統(tǒng)的性能進行評價。在識別時我們用了十個不同個人錄制的“話費”信號進行測試，識別的正確率和識別的所需時間如下表：

由上表可得：

語音識別系統(tǒng)的正確率為：7/10*100%=70%

平均識別時間為：（42+39+48+45+40+42+46+49+43+37）/10=43.1ms

由此可見問題一中的模型具有較高的識別率，問題二中制定的規(guī)則也可以使用，且識別的時間較短可以滿足用戶對于應答及時性的要求，這樣可以提升用戶體驗。

2 模型評價

2.1 模型評價

2.1.1 模型優(yōu)點

預處理使得需要處理的數(shù)據(jù)量減少，提高了系統(tǒng)的處理效率也提高了識別的正確率；

梅爾頻率倒譜參數(shù)具有識別性能力和抗噪能力；

隱馬爾科夫模型識別的正確率要高于動態(tài)時間規(guī)整算法，同時識別的時間要比動態(tài)時間規(guī)整算法短；

2.1.2 模型缺點

系統(tǒng)結(jié)構(gòu)簡單，只能識別特定的詞匯，不夠智能。

連續(xù)隱馬爾科夫模型的計算比較復雜。

[參考文獻]

[1]百度百科.預加重，http：//baike.baidu.cn/view/515154.htm，2013年5月26日.

[2]王明奇.基于HMM的孤立詞語音識別系統(tǒng)的研究.畢業(yè)論文，2007年.

[3]wangzi371312.數(shù)字化語音的分幀加窗處理.http：//hi.baidu.com/wangzi371312/item/64897e6f2741d50ca0cf0f53，2013年5月26日.

[4]百度文庫.端點檢測，http：//wenku.baidu.com/view/86236edbad51f01dc281f14d，2013年5月26日.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于連續(xù)隱馬爾科夫的語音識別模型