楊建菊 唐錄潔 龍虎
摘要:該文根據(jù)貴州黔東南少數(shù)民族地區(qū)苗族語言發(fā)音特點,對苗語連續(xù)語音識別系統(tǒng)進行研究,并嘗試采用Sphinx工具應(yīng)用HMM方法,對苗語連續(xù)語音識別系統(tǒng)進行初步設(shè)計和識別測試。
關(guān)鍵詞:HMM;連續(xù)語音識別;Sphinx;苗語
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)31-0190-02
Research on Continuous Speech Recognition System of Miao Minority in Qiandongnan Minority Areas Based on HMM
YANG Jian-ju1,TANG Lu-jie2,LONG Hu1
(1. Big Data Engineering College , Kaili University ,Kaili 556011,China;2. Information Network Center, Kaili University ,Kaili 556011,China)
Abstract: According to the Guizhou ethnic minority area of Qiandongnan Miao language pronunciation characteristics of Miao language continuous speech recognition system, and try to use Sphinx tools using HMM method, continuous speech recognition system and recognition test for the preliminary design of the Miao language.
Key words:HMM; continuous speech recognition; Sphinx; Miao language
隨著語音識別技術(shù)的廣泛應(yīng)用使其成為國內(nèi)外研究的熱點之一,語音識別主要包括語音層和語言層識別兩部分,根據(jù)說話人依賴程度可分為特定人語音識別與非特定人語音識別,而根據(jù)說話人要求不同可分為孤立詞識別與連續(xù)語音識別等。
苗語是孤立語系,屬于我國少數(shù)民族方言,目前苗語根據(jù)不同地域發(fā)音特點不同可分為東部、中部、西部及滇東北四個方言,其中苗語中部方言又叫黔東方言是苗語的重要分支,主要分布在貴州省東南部、廣西省最北部和湖南省西南角,本文在此以分布在貴州省黔東南苗族侗族自治區(qū)凱里市三棵樹鎮(zhèn)及輻射周邊地區(qū)的中部方言苗語為原型,對苗語連續(xù)語音識別系統(tǒng)進行研究設(shè)計。
1 系統(tǒng)結(jié)構(gòu)組成
連續(xù)語音識別系統(tǒng)可分為四個部分,分別為特征提取、聲學(xué)模型訓(xùn)練、語言模型訓(xùn)練和解碼器等,如下圖1所示。
首先對語音數(shù)據(jù)庫中語音先進行預(yù)處理,濾掉背景噪聲和不重要信息,并進行語音信號端點檢測、語音分幀以及預(yù)加重等處理,然后提取語音特征,根據(jù)訓(xùn)練語音庫的特征參數(shù)訓(xùn)練出聲學(xué)模型,對訓(xùn)練文本數(shù)據(jù)庫進行語法、語義分析得到訓(xùn)練模型,最后對輸入語音信號根據(jù)訓(xùn)練聲學(xué)模型、語言模型及字典建立識別網(wǎng)絡(luò)進行語音識別。本文采用Sphinx語音識別系統(tǒng)工具進行系統(tǒng)設(shè)計。
2 特征提取
特征提取主要是去除語音信號中無用冗余信息,并提取出能夠反映語音信號特征的關(guān)鍵特征參數(shù)形成特征矢量序列過程。目前提取特征方法主要采用Mel頻率倒譜系數(shù)(MFCC),在Sphinx中主要采用MFCC特征提取,首先用幀F(xiàn)rames窗分割語音波形,每一幀有10ms,然后每一幀提取代表改幀語音的39個數(shù)字,即得到該幀語音MFCC特征,并用特征向量來表示。
3 聲學(xué)模型建立及訓(xùn)練
聲學(xué)模型主要用于計算語音特征和每個發(fā)音模板之間的似然度,目的是為每一個聲學(xué)單元建立一套模型參數(shù);本文采用音素作為訓(xùn)練基本單位,并選用苗語中聲母、韻母作為基本聲學(xué)單元進行建模訓(xùn)練,苗語發(fā)音中主要音素有58個,采用HMM連續(xù)語音識別模式為上下文相關(guān)模式,HMM通常由左向右單向、帶自環(huán)、帶跨越的拓撲結(jié)構(gòu)識別基元建模,一個音素就是一個三至五狀態(tài)的HMM,單個詞則由構(gòu)成詞的多個音素HMM串行構(gòu)成,連續(xù)語音識別模型則由詞和靜音組合起來的HMM。以苗語“Laox sib mongx sod”(老師您早)句子為例,進行分詞處理后,可得到音素表如表1所示。
4 訓(xùn)練語言模型
語言模型是用來計算一個句子出現(xiàn)概率的概率模型。主要決定了哪個詞序列的可能性更大,或者在出現(xiàn)了幾個詞的情況下能夠預(yù)測下一個即將出現(xiàn)的詞語的內(nèi)容,即語言模型是用來描述詞與詞之間存在符合語法與否約束的,本文采用N-Gram模型來完成對訓(xùn)練音頻文件對應(yīng)文本文件進行統(tǒng)計,N-Gram模型是基于這樣一種假設(shè),每個詞N的出現(xiàn)不再與其前面全部上下文歷史相關(guān),而只與前面N-1個詞相關(guān),整個句子的概率就是各個詞出現(xiàn)概率的乘積。通常用的是二元的Bi-Gram和三元的Tri-Gram。Sphinx中是采用二元語法和三元語法的統(tǒng)計語言概率模型,即通過前一個或兩個單詞來判定當前單詞出現(xiàn)的概率P(w2| w1),P(w3| w2, w1)。
5 系統(tǒng)數(shù)據(jù)源
5.1 語音數(shù)據(jù)庫
本文在此主要以中部苗語中分布在貴州黔東南苗族侗族自治區(qū)凱里市三棵樹鎮(zhèn)及周邊地區(qū)語音為準音進行研究,本語音數(shù)據(jù)庫收錄共2小時錄音,訓(xùn)練句子200條,發(fā)音人共4人,測試用句子20條,共兩人發(fā)音,收錄共1小時。
5.2 文本數(shù)據(jù)庫
文本數(shù)據(jù)庫包括用來準備訓(xùn)練的文本集合,大多數(shù)句子是任意指定的,最好覆蓋想要識別的句子里面包含的高頻單詞或者音素。本系統(tǒng)研究使用苗文文字為1957年12月國務(wù)院公布《關(guān)于少數(shù)民族文字方案中設(shè)計字母的幾項原則》中規(guī)定苗文文字,按照規(guī)定苗語四大方言都以拉丁字母為基礎(chǔ)的拼音文字,本系統(tǒng)文本數(shù)據(jù)庫中所選苗文句子為貴州省凱里學(xué)院少數(shù)民族本科及五年制大專班開設(shè)特色課程苗族語言課程教材《苗族語文-中部方言》中的簡單苗文對話部分,其中訓(xùn)練語句200條,測試用句子20條。
6 語音解碼和搜索算法
語音解碼即指語音技術(shù)中的識別過程。本系統(tǒng)中根據(jù)之前已經(jīng)訓(xùn)練好的HMM聲學(xué)模型、語言模型及字典建立一個識別網(wǎng)絡(luò),然后再根據(jù)搜索算法通過該網(wǎng)絡(luò)尋找一條最佳路徑,即尋找最優(yōu)詞串方法。Sphinx中解碼技術(shù)采用基于動態(tài)規(guī)劃的Viterbi搜索算法,該算法思想是遍歷HMM狀態(tài)網(wǎng)絡(luò)且保留每一幀語音在某個狀態(tài)最優(yōu)路徑得分。通常搜索需要進行多遍,第一遍使用代價低的知識源,比如聲學(xué)模型、語言模型和音標詞典等,生成一個候選列表或候選網(wǎng)格,第二遍再在該基礎(chǔ)上使用代價高的知識源,如4階或5階的N-Gram、4階或更高的上下文相關(guān)模型等,找到最佳路徑。
7 實驗環(huán)境及識別測試
本系統(tǒng)所有軟件編譯運行環(huán)境都是在Win7操作系統(tǒng)下進行,其中選用Sphinxtrain-1.0.8作為聲學(xué)模型訓(xùn)練工具,Cmuclmtk-0.7作為語言模型訓(xùn)練工具,解碼器選擇Pocketsphinx和Sphinxbase-0.8。
識別完成后,可將識別結(jié)果數(shù)據(jù)與原始語料數(shù)據(jù)進行對比,計算出識別正確率分別為:
句子識別正確率為:
Scrr=([1-EsntSnt])×100%
單詞識別正確率為:
Wcrr=[Wrd-Ins-Del-SubWrb]×100%
8 結(jié)束語
本文在此對基于HMM的黔東南少數(shù)民族地區(qū)苗語連續(xù)語音識別系統(tǒng)中的關(guān)鍵技術(shù)包括特征提取、訓(xùn)練及識別算法等進行研究,并采用Sphinx工具進行系統(tǒng)設(shè)計,但離成熟穩(wěn)定的識別系統(tǒng)還有一定差距,尤其規(guī)模小、模型復(fù)雜等方面還需要有待改進,本文研究對于今后苗語連續(xù)語音識別系統(tǒng)進一步研究起到借鑒和促進作用。
參考文獻:
[1] 楊濤,范國祖,熊毅. 苗族語文-中部方言[M]. 成都:西南交通大學(xué)出版社,2015.
[2] 劉妍秀,付海東. 基于HMM的連續(xù)語音識別系統(tǒng)的構(gòu)建與研究[J].長春大學(xué)出版社,2015(2).
[3] 王一蒙. 語音識別關(guān)鍵技術(shù)研究[D]. 成都:電子科技大學(xué),2015.
[4] 牧仁高娃. 蒙古語語音識別相關(guān)問題研究[D]. 呼和浩特:內(nèi)蒙古大學(xué),2013.