蔡 敏
(蘇州工業(yè)園區(qū)工業(yè)技術(shù)學(xué)院機電中心,江蘇 蘇州215123)
漢語數(shù)字語音識別是語音識別領(lǐng)域中一個重要的分支,在日常生活中的電話撥號、人機交互、密碼身份識別等領(lǐng)域都有著重要的應(yīng)用價值,但由于漢語數(shù)字語音的發(fā)音特點,容易產(chǎn)生互相之間混淆,導(dǎo)致識別率不高。
漢語數(shù)字語音識別系統(tǒng)主要包括了語音特征提取和分類器兩部分[1]。特征參數(shù)的選擇是其中的關(guān)鍵問題。線性預(yù)測倒譜系數(shù)[2](LPCC)參數(shù)是根據(jù)聲管模型建立的特征參數(shù),可以準(zhǔn)確反映聲道響應(yīng)信息。梅爾頻率倒譜系數(shù)[3](MFCC)參數(shù)則充分考慮了人耳的聽覺特性,具有較好的魯棒性和識別性能。
本文首先提取了漢語數(shù)字語音的LPCC 參數(shù)、MFCC 參數(shù)及其一階差分,并進行特征組合。針對每個語音每幀均需要提取系數(shù),導(dǎo)致維數(shù)過高的問題,按照參數(shù)矩陣按列求取均值和方差的方法進行首次降維,隨后采用基于關(guān)聯(lián)規(guī)則的特征選擇算法[4]進行二次降維,最后采用C4.5 決策樹算法[5]進行識別實驗。
線性預(yù)測分析技術(shù)就是由語音信號直接求出一組線性預(yù)測系數(shù),通過在最小均方誤差準(zhǔn)則條件下求預(yù)測系數(shù)的最佳估計值,而該組預(yù)測系數(shù)恰好能反映聲道的響應(yīng)信息。
語音信號的聲道傳輸函數(shù)為:
其中ai(i = 1,2,…,p)即預(yù)測系數(shù),可采用Levinson-Durbin 遞推算法求解。線性預(yù)測系數(shù)能夠用于模擬聲道模型,但獲取系數(shù)時語音信號產(chǎn)生過程中的激勵信息也混入其中。倒譜分析利用同態(tài)處理方法,能夠?qū)o關(guān)的激勵信息從中分離出來。首先對語音信號求離散傅里葉變換,然后取絕對值的對數(shù)進行反變換,同時設(shè)計一個濾波器,把需要的聲道響應(yīng)信息留下來而把聲門激勵信號去除,就能夠得到所需特征。
梅爾頻率倒譜參數(shù)是將人耳的聽覺特性和語音的產(chǎn)生機制相結(jié)合而產(chǎn)生的一組特征參數(shù)。人耳具有一些特殊的功能,在1 kHz 以下為線性尺度,而在1 kHz 以上則為對數(shù)尺度,這就意味著人耳對低頻信號更加敏感。突出低頻信息有利于屏蔽噪聲的干擾,提取穩(wěn)定性很高的語音特征參數(shù)。
Mel 頻率和實際頻率的轉(zhuǎn)換關(guān)系和圖示如下:
首先將信號S(n)預(yù)加重后采用漢明窗進行加窗分幀,得到每幀信號xn(m),然后通過短時傅里葉變換得到其頻譜Xn(k),隨后求取頻譜的平方,即能量譜Pn(k)。用梅爾帶通濾波器對Pn(k)進行濾波,將每個濾波器頻帶內(nèi)的能量進行疊加,取對數(shù)功率譜并進行反離散余弦變換,即得到MFCC 系數(shù)。
提取LPCC 和MFCC 參數(shù)后,通過求取其系數(shù)矩陣的均值和方差的方式進行一次降維,如圖1 所示,得到24 階LPCC,24 階MFCC 及其一階差分(24階ΔMFCC)。
圖1 MFCC、LPCC 第1 次降維過程
將完成第1 次降維后的參數(shù),采用特征參數(shù)優(yōu)化選擇方法,實現(xiàn)二次降維。關(guān)聯(lián)規(guī)則能夠發(fā)現(xiàn)數(shù)據(jù)庫中屬性間隱藏的關(guān)聯(lián)網(wǎng),通過優(yōu)先選擇短規(guī)則選擇相關(guān)屬性,有可能得到最小的屬性子集[8]?;舅枷胧鞘紫韧诰蚝蠹轭悓傩缘膹婈P(guān)聯(lián)規(guī)則,再根據(jù)關(guān)聯(lián)規(guī)則參數(shù)找出與類屬性密切相關(guān)的屬性子集。
設(shè)I={i1,i2,…,im}是項的集合,A 是一個項集,關(guān)聯(lián)規(guī)則是形如A?B 的蘊涵式,其中A?I,B?I,且A∩B=φ。參數(shù)描述如下:
支持度
置信度
提升度
決策樹方法是數(shù)據(jù)挖掘中分類方法的一種,其核心思想是根據(jù)某種規(guī)則將測試樣本生成決策樹模型,然后利用生成的決策樹模型對未知數(shù)據(jù)進行分類預(yù)測。決策樹是一個類似流程圖的樹型結(jié)構(gòu),如圖2 所示,采用自頂向下的遞歸方式,通過把樣本從根節(jié)點排列到某個葉子節(jié)點來進行分類,根據(jù)不同的屬性值判斷從該節(jié)點向下的分支,葉節(jié)點即為實例所屬的分類。
圖2 決策樹示意圖
C4.5 決策樹算法作為在經(jīng)典決策樹ID3 算法基礎(chǔ)上進行了改進,以樣本的最高信息增益率作為屬性選擇的判決依據(jù)。用離散屬性A 對樣本集T進行劃分的信息增益率:
式中,inf(T)表示信息熵。
本文采用了蘇州大學(xué)語音實驗室錄制的漢語數(shù)字語音庫進行實驗(SZDX-2006),語音信號的特性是11 025 Hz,16 bit,單聲道。選用數(shù)字語音0 ~9各100 個,共1 000 個語音文檔進行實驗。
采用10 折交叉驗證方式進行實驗,表1 為二次降維前不同特征組合的識別通過比較發(fā)現(xiàn)MFCC+ΔMFCC 組合得到較高的識別結(jié)果,為94.9%,識別時間從0.1 s 到0.3 s 不等。
表1 二次降維前識別結(jié)果
對組合特征進行特征優(yōu)化選取實現(xiàn)二次降維后實驗結(jié)果如表2 所示,在保持高識別率的同時,大大縮短了識別時間。且LPCC+MFCC+ΔMFCC 的識別率識別率高達95.3%,識別時間相對較短,可信度高,誤差小,由此可見采用特征組合的方法并進行二次降維以后,與二次降維前相比,去除了特征中的冗余信息,既有效的縮短了識別時間,又進一步提高了語音識別率。
表2 二次降維前識別結(jié)果
對比二次降維前后語音識別率如圖3 所示,除MFCC+ΔMFCC 特征組合降維后識別率有所降低以外,MFCC,MFCC+LPCC,MFCC+LPCC+ΔMFCC 組合識別率均得到了一定的提高,且MFCC+LPCC+ΔMFCC 識別率提高到95.3%。
圖3 二次降維前后識別率比較
本文提取了漢語數(shù)字語音特征參數(shù)并進行組合,通過求取其系數(shù)矩陣的均值和方差的方式進行一次降維后,采用基于關(guān)聯(lián)規(guī)則的特征選擇算法進行二次降維處理,并采用C4.5 決策樹算法進行識別,通過實驗發(fā)現(xiàn)本文提出的方法能有效縮短識別時間,且LPCC+MFCC+ΔMFCC 的組合識別率最高,達95.3%。在今后的研究中,如何找到更優(yōu)的特征降維算法和分類算法,以提高漢語數(shù)字語音的識別率,還有待于進一步研究。
[1] 劉雅琴,智愛娟.幾種語音識別特征參數(shù)的研究[J].計算機技術(shù)與發(fā)展,2009:67-70.
[2] 韓紀(jì)慶,張磊,鄭鐵然. 語音信號處理[M]. 北京:清華大學(xué)出版社,2004.
[3] Sri Rama Murty K,Yegnanarayana B. Combining Evidence from Residual Phase and MFCC Features for Speaker Recognition[J].IEEE Signal Processing Letters,2006,13(1):52-55.
[4] 程險峰.多種關(guān)聯(lián)規(guī)則挖掘算法的研究與分析[J].長春理工大學(xué)學(xué)報(自然科學(xué)版),2011:107-109.
[5] Kirchner K,Tolle K H,Krieter J.Decision Tree Technique Applied to Pig Farming Datasets[J]. Livestock Production Science,2004,90:191-200.
[6] Mahadeva Prasanna S R,Cheedella S Gupta,Yegnanarayana B.Extraction of Speaker-Specific Excitation Information from Linear Prediction Residual of Speech[J]. Speech Communication,2006,48:1243-1261.
[7] Li Fuhai,Ma Jinwen,Huang Dezhi. MFCC and SVM Based on Recognition of Chinese Vowels[J].CIS,2005:812-819.
[8] 武建華,宋擒豹,沈均毅,等. 基于關(guān)聯(lián)規(guī)則的特征選擇算法[J].模式識別與人工智能,2009,4:256-262.