吳 剛 吐爾洪江
(塔里木大學(xué)信息工程學(xué)院,新疆阿拉爾843300)
語音識別(Speech Recognition,簡稱SR)的根本目的是要讓機器聽懂人說的話,準(zhǔn)確地識別出語音的內(nèi)容,并根據(jù)其信息意圖生成相應(yīng)的文本或是執(zhí)行某種操作。對語音識別的研究始于20世紀(jì)50年代,其中特定說話人和非特定說話人連續(xù)語音識別技術(shù)研究比較成熟,部分技術(shù)已經(jīng)在相關(guān)領(lǐng)域廣泛應(yīng)用。
在新疆,少數(shù)民族尤其是維吾爾族人口占有很大的比例,維吾爾族有自己獨特的語言,且不同地域其語言發(fā)音差異非常大。隨著新疆信息化快速發(fā)展,維吾爾語語言文字信息技術(shù)的研究與應(yīng)用也是新疆信息化建設(shè)進程中的重要組成部分。特別是在新疆大力發(fā)展旅游經(jīng)濟的過程中,為加強民族文化交流,積極研究與開發(fā)維吾爾語人機對話系統(tǒng)意義重大。但當(dāng)前對新疆維吾爾語語音識別的研究還處于初步階段,離實際應(yīng)用還有很多問題需要解決。南疆維吾爾語語音識別研究以南疆區(qū)域維吾爾語發(fā)音為研究對象,對其語音進行特征分析并探討其識別方法。
現(xiàn)代維吾爾語是現(xiàn)代維吾爾民族共同使用的語言,在漫長的歷史發(fā)展過程中,維吾爾語形成了明顯的方言差異?,F(xiàn)代維吾爾語主要分為中心方言、和田方言和羅布方言三大方言,三個方言的差別主要表現(xiàn)在語音上,其中又以中心方言為標(biāo)準(zhǔn)語、以烏魯木齊發(fā)音為標(biāo)準(zhǔn)語音[1,2]?,F(xiàn)代維吾爾語共有32個字母,其中元音8個,輔音24個,維吾爾語是一種拼音式文字,分別由這8個元音字母和24個輔音字母拼寫而成,在書寫時是從右向左書寫。
以發(fā)音音位來看,8個元音音位為閉展唇音2個,閉圓唇音2個,開展唇音2個,開圓唇音2個,在閉、開展唇和圓唇中以發(fā)音部位又可分為前、央、后三種音位。24個輔音的發(fā)音音位為雙唇音3個、唇齒音1個、齒音6個、齒齦音1個、齒齦后音4個、硬腭音1個、軟腭音2個、喉音4個及其他2個,在輔音的發(fā)音中細(xì)分有塞音、鼻音、擦音、塞擦音、閃音、半元音和邊音等。發(fā)音中存在元音和諧律,舌位合諧比較嚴(yán)整,唇狀和諧比較松弛,有元音弱化現(xiàn)象。
語音識別系統(tǒng)結(jié)構(gòu)圖如圖1所示,主要包括語音特征提取(包括語音預(yù)處理)、模型訓(xùn)練、模式匹配及邏輯決策等三個主要模塊。
圖1 語音識別系統(tǒng)結(jié)構(gòu)圖
在研究中根據(jù)語音識別過程,從兩個方面來進行處理:一是對語音語料庫中的語音進行預(yù)處理,提取特征,進行樣本訓(xùn)練,建立識別樣本庫;二是對待識別語音進行預(yù)處理并提取其特征參數(shù),應(yīng)用一定的識別算法將所提取的特征參數(shù)與識別樣本庫進行匹配,得到識別的結(jié)果。
語音預(yù)處理指采用各種數(shù)字信號處理技術(shù),運用軟、硬件手段對語音信號進行處理,包括采樣、去噪聲、信號預(yù)加重、加窗和端點檢測等規(guī)范化處理,獲得較標(biāo)準(zhǔn)的語音樣本,以進行后期特征提取及識別研究。語音預(yù)處理是語音識別過程中關(guān)鍵的一個環(huán)節(jié),預(yù)處理的效果直接影響到識別結(jié)果。
Nyquist采樣定理表明[3]:如果模擬信號的頻譜帶寬是有限的,且假設(shè)其信號不包含高于fm的頻率成分,那么用等于或大于2fm的取樣頻率進行取樣,或者說用等于或小于1/(2 fm)的間隔取樣,所得到的等間隔離散時間取樣值或取樣信號就能夠完全唯一的代表原信號,就能夠由取樣信號恢復(fù)出原始模擬信號來。
語音識別時常用的采樣頻率為10 kHz或16 kHz。南疆維吾爾語語音信號是在實驗室環(huán)境下用PC機進行采集,語音信號以單聲道PCM格式,選擇采樣率為16 kHz,采樣精度是16 bit,采集到的語音以.wav格式文件存儲。實驗室條件下采集語音信號質(zhì)量高,信號干擾小,便于預(yù)處理。
對語音信號進行分析要先進行預(yù)加重處理,按照語音能量損耗規(guī)律,語音信號高頻部分約以6dB/倍頻程下降。預(yù)加重處理一般采用6dB/oct來提升高頻部分,使語音信號的頻譜變得平坦,分布在低頻到高頻的整個頻帶中,以便于進行頻譜分析和聲道參數(shù)分析。
常用的預(yù)加重處理方法有以下兩種[4]:
(1)采用6dB/oct(20dB/dec)的高頻增強濾波器來實現(xiàn),傳遞函數(shù)為
(2)采用一階的數(shù)字濾波器來實現(xiàn),傳遞函數(shù)為H(z)=1-αz-1,其中α為預(yù)加重系數(shù),可取1或比1稍小的值。
在對維吾爾語語音預(yù)加重處理時,采用軟件處理方法,預(yù)加重系數(shù)取α=0.94,圖2為南疆阿克蘇阿瓦提采集到的維語數(shù)字“0”語音在預(yù)加重處理后的時域波形圖。
圖2 數(shù)字“0”語音在預(yù)加重后的時域波形圖
采集到的語音信息是一段時間內(nèi)的連續(xù)信息,將要處理識別的信息稱為有效語音,采集信息中還包含有效語音前信息和有效信息后語音信息。在語音中,要準(zhǔn)確獲得識別有效信息,就要對語音信號進行端點檢測。端點檢測的目的是確定語音信息中的有效語音起始位置和終止位置,獲取最終的識別有效信息,端點檢測的檢測精度將直接影響到識別精度。
通過對南疆維吾爾語語音波形特征進行分析,選擇從語音信號的時域短時參數(shù)、短時平均幅度和短時過零率三個方面來進行端點檢測,實驗效果較好。在處理時選擇信號在10ms到20ms之間,取幀長為20 ms(采樣率為16 KHz),每幀320(N)個信號樣值S(n),其中n=0,1,2…,N-1。
短時平均幅度處理函數(shù)為:
短時過零率處理函數(shù)為:
在MATLAB中,南疆阿克蘇阿瓦提采集的維語數(shù)字“0”語音信號進行短時平均幅度處理效果如圖3所示。
圖3 數(shù)字“0”語音短時幅值波形圖
進行短時過零率處理,結(jié)果如圖4所示。
圖4 數(shù)字“0”語音短時過零率處理圖
端點檢測后獲得有效語音信息,數(shù)字“0”語音有效信息波形圖如下圖5所示。
圖5 數(shù)字“0”語音端點檢測有效信息波形圖
語音信息特征的提取與選擇是語音識別的基礎(chǔ)、關(guān)鍵,特征參數(shù)的提取與選擇將直接關(guān)系到識別分類器的設(shè)計。語音信號中包含的信息非常豐富,通過對語音信號進行分析處理,去掉無關(guān)冗余信息,獲得能夠反映語音對象的狀態(tài)、本質(zhì)及性質(zhì)等影響語音識別的重要特征參數(shù),并且特征要求對分類有效,具有較高的模式區(qū)分能力。
目前在語音識別中常用的特征提取參數(shù)有Mel倒譜系數(shù)(MFCC)、線性預(yù)測系數(shù)(LPCC)以及它們的變體。經(jīng)過對南疆維吾爾語發(fā)音特點分析,語音的個性特征很大程度上體現(xiàn)在發(fā)音聲道變化上,及聲道頻率特征明顯,故采用計算Mel倒譜系數(shù)作為特征參數(shù)。
倒譜系數(shù)的計算方法[7]是將一幀中的語音信號表示為:s(n)=h(n)*i(n),其中h(n)為語音信號s(n)的音源激勵,i(n)為s(n)的聲道沖激相應(yīng)。對乘積h(n)*i(n)取幅度對數(shù),再對所得到聲道沖激響應(yīng)和音源激勵的傅里葉變換的對數(shù)之和進行逆傅里葉變換,得到語音信號倒譜為:
即為聲道分量的倒譜h`(n)和音源激勵分量的倒譜之i`(n)和,其中h`(n)是非常有效的語音特征參數(shù)。
識別算法提供有效計算語音的特征矢量序列和每個發(fā)音樣本之間的距離。目前比較成熟的語音識別算法模型有模板匹配模型、向量量化模型、高斯混合模型、隱馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)模型以及多方法混合模型,在南疆維吾爾語音識別中采用成熟的模板匹配算法[8]來實現(xiàn)。
先對識別樣本進行訓(xùn)練,提取MFCC系數(shù)存儲在訓(xùn)練模板信息庫中。在識別時先提取輸入語音的特征參數(shù)(MFCC系數(shù)),將該特征參數(shù)與訓(xùn)練模板信息庫中特征參數(shù)進行相似度比較,相似度最高的就作為識別結(jié)果。在實際過程中,語音信號具有較大的隨機性,這些時長的變化會影響測度的估計,因此在識別過程中需要對說話偏差率進行補償,常用的有效方法為動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)方法[9]。DTW是一種非線性規(guī)整,它將時間規(guī)整和距離測度計算相結(jié)合,設(shè)參考樣本的特征矢量序列為X={x1,x2,A,xI},待識別語音特征矢量序列為Y={y1,y2,A,yJ}通常因為時間不完全一致,I和J并不相等,DTW算法就是通過局部優(yōu)化的方法實現(xiàn)加權(quán)距離總和最小,即
其中f作為二者的匹配路徑。
MATLAB軟件中提供了強大的語音處理工具包,借助該軟件仿真實現(xiàn)了一個非特定人的南疆維吾爾語的語音識別系統(tǒng)。系統(tǒng)使用10個常用詞作為測試樣本,發(fā)音為和田方言,選擇在實驗室環(huán)境下每詞發(fā)音16次,錄音為單聲道PCM格式,采樣率為16 kHz,對應(yīng)采樣精度為16 bit。將采用中的10個語音數(shù)據(jù)作為訓(xùn)練樣本,對訓(xùn)練樣本經(jīng)預(yù)處理后分別提取特征參數(shù),然后對同1個詞的10個樣本特征參數(shù)進行兩兩計算相似度,選擇匹配距離最小的3組,進行第2輪篩選。在第2輪篩選中,用第1次選出每詞3個樣本和其余9個樣本的10個樣本進行兩兩計算相似度,選擇匹配距離最大的2組作為模板樣本。對所有選出的模版樣本進行訓(xùn)練,提取Mel倒譜系數(shù)作為特征參數(shù),并將訓(xùn)練樣本特征存儲。所有樣本模板訓(xùn)練好后,用其他6個語音數(shù)據(jù)作為測試樣本對該系統(tǒng)進行試驗。
上述試驗對南疆和田方言發(fā)音的6名特定人進行測試,10個詞,每詞測試樣本7個,總測試樣本為420,識別正確樣本394,識別正確率為93.8%,識別效果較好。
實驗表明本研究方法對南疆維吾爾語語音(方言)非特定人語音識別效果較好,獲得了較理想的實驗效果。但由于維吾爾語音方言發(fā)音復(fù)雜,包含音素豐富[10],聲道頻率變化多樣,較難提取出穩(wěn)定的特征參數(shù),識別難度大,距離自由人機交互的應(yīng)用更是還有很長的路要走。
本研究方法對維吾爾語語音實驗研究有一定的借鑒意義,后期該項工作還有待優(yōu)化與完善,進一步分析其語音發(fā)音特點,優(yōu)化特征選擇及提取方法,設(shè)計多分類器識別模型,提高識別魯棒性及識別效率。
[1] 姑麗加瑪麗·麥麥提艾力,艾斯卡爾·艾木都拉.多基元及韻律參數(shù)匹配的維吾爾語語音合成方法[J] .計算機工程與應(yīng)用,2012,48(2):116-117.
[2] 艾斯卡爾·艾木都拉.從實驗語音學(xué)角度探析維吾爾語鼻音的聲學(xué)特征[J] .中文信息學(xué)報,2012(1):110-111.
[3] 高琨琦.淺談數(shù)字音頻處理中的關(guān)鍵問題[J] .電聲技術(shù),2011(8):66.
[4] 吳朝暉,楊瑩春.說話人識別模型與方法[M] .北京:清華大學(xué)出版社,2009:20-21.
[5] 汪石農(nóng),許鋼等.多語音特征參數(shù)的端點檢測方法研究[J] .計算機工程與設(shè)計,2012(2):685-686.
[6] 韓立華,王博等.語音端點檢測技術(shù)研究進展[J] .計算機應(yīng)用研究,2010(4):1222-1223.
[7] 趙力編著.語音信號處理[M] .北京:機械工業(yè)出版社,2009:51-52.
[8] 聶曉飛,趙禹,詹慶才.一種基于模板匹配的語音識別算法[J] .電子設(shè)計工程,2011(19):58-59.
[9] 胡金平;陳若珠;李戰(zhàn)明;語音識別中DTW改進算法的研究[J] .微型機與應(yīng)用,2011(3):30-31.
[10] 木合塔爾·沙地克等.維吾爾語廣播新聞連續(xù)語音敏感詞檢索系統(tǒng)[J] .計算機系統(tǒng)應(yīng)用,2012(3):29-31.