邵明強(qiáng),徐志京
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
基于改進(jìn)MFCC特征的語音識(shí)別算法*
邵明強(qiáng),徐志京
(上海海事大學(xué) 信息工程學(xué)院,上海201306)
為了優(yōu)化語音特征提取方法,文中提出了一種稱為MFCC_P的語音特征提取方法。對(duì)于語音識(shí)別來說,如何提取語音的特征向量至關(guān)重要。但是,現(xiàn)有的算法在去除噪聲時(shí)也同時(shí)損壞了聲音信號(hào)。MFCC_P在Mel濾波器上下工夫,使得濾波器組整齊排列,沒有重疊,噪聲被有效消除。
特征提?。辉肼?;MFCC_P
語音是人類生活中最重要的元素之一,人們平常說話交流、打電話等都是通過語音傳遞信息。語音識(shí)別,顧名思義,就是知道對(duì)方的語音內(nèi)容。千百年來,語音識(shí)別依靠的是人的發(fā)達(dá)的大腦,但是,隨著計(jì)算機(jī)電子科技的不斷發(fā)展,語音識(shí)別已經(jīng)成為了計(jì)算機(jī)領(lǐng)域的一大熱門,經(jīng)過數(shù)十年的研究,人們將聲學(xué)、數(shù)理統(tǒng)計(jì)、信息等多方面知識(shí)結(jié)合起來,推動(dòng)了語音識(shí)別學(xué)科的發(fā)展,它方便了人們的生產(chǎn)生活,也將為人工智能時(shí)代添磚加瓦。語音識(shí)別,首先要進(jìn)行語音的獲取,但是,從自然界直接得到的語音含有噪聲,而且包含了大量的冗余信息,必須先對(duì)其進(jìn)行一系列的預(yù)處理,然后提取聲音的特征,基于有效性和可靠性兩個(gè)方面,特征參數(shù)一定要有很好的區(qū)分性,并且要具有較強(qiáng)的魯棒性。梅爾倒譜系數(shù)(MFCC)在很大程度上模擬了人耳對(duì)語音的處理特點(diǎn),是被人們驗(yàn)證符合上述各種條件的一種特征參數(shù)[1],并且被廣泛地應(yīng)用于各種語音識(shí)別系統(tǒng)。但是,筆者認(rèn)為,傳統(tǒng)MFCC在提取特征參數(shù)時(shí)不能有效地利用原始信號(hào),有用信號(hào)被破壞,噪聲沒有有效去除。筆者通過對(duì)傳統(tǒng)MFCC算法進(jìn)行了大量的研究之后,提出了一種稱為MFCC_P的特征參數(shù)提取算法,本文將首先簡(jiǎn)單闡述經(jīng)典語音識(shí)別基本流程,然后將重點(diǎn)講解改進(jìn)的語音特征參數(shù)提取算法。
語音識(shí)別系統(tǒng)的流程圖如圖1所示,包含了語音信號(hào)預(yù)處理、特征參數(shù)提取、模式匹配、參考模板等基本要素,各類語音識(shí)別系統(tǒng)的流程基本如此。
圖1 語音識(shí)別的基本流程
1.1語音預(yù)處理
預(yù)處理模塊主要包括如下幾步:
(1)A/D轉(zhuǎn)換,即將初步獲取的模擬語音信號(hào)轉(zhuǎn)為易于處理的數(shù)字信號(hào)。
(2)預(yù)加重,由于人體構(gòu)造和發(fā)音特點(diǎn)等原因,頻率高于800 Hz的頻段會(huì)有6 dB的衰減,預(yù)加重就是來彌補(bǔ)這部分的損失,預(yù)加重過程采用傳遞函數(shù)為式(1)的數(shù)字濾波器進(jìn)行實(shí)現(xiàn)。
H(z)=1-μz-1
(1)
其中μ為常數(shù),通常取0.97。
(3)分幀加窗,由于語音信號(hào)有短時(shí)平穩(wěn)特性,可以把語音信號(hào)分為一些短段來進(jìn)行處理,這就是分幀,實(shí)現(xiàn)方法是采用不斷移動(dòng)的有限長(zhǎng)度的窗口與原始信號(hào)相乘,所得結(jié)果就是各個(gè)分幀數(shù)據(jù),一般窗函數(shù)選用漢明窗[2]。
(4)端點(diǎn)檢測(cè),目的是從較復(fù)雜的噪聲信號(hào)中獲取到目標(biāo)信號(hào)的起始點(diǎn)和結(jié)束點(diǎn),以此來減少大量的計(jì)算。基于各方面考慮,一般采用基于短時(shí)能量和短時(shí)平均過零率的端點(diǎn)檢測(cè)方法[3]。
1.2標(biāo)準(zhǔn)特征參數(shù)提取方法
特征提取的過程就是去冗余的過程,特征參數(shù)的選擇對(duì)整個(gè)系統(tǒng)具有舉足輕重的影響,它的最重要的兩個(gè)因素是有效性和可靠性,特征參數(shù)要將原數(shù)據(jù)中的最有用的數(shù)據(jù)提取出來。因此希望它有較強(qiáng)的區(qū)分性和魯棒性,另外,還要控制它的計(jì)算量。梅爾倒譜系數(shù)(MFCC)是目前最常用的特征參數(shù),它是基于人的生理特點(diǎn)創(chuàng)建的一種模型,對(duì)語音識(shí)別的性能具有重要的推動(dòng)作用。計(jì)算MFCC時(shí)需要將頻率轉(zhuǎn)換成梅爾刻度,轉(zhuǎn)換關(guān)系如式(2):
(2)
MFCC參數(shù)的計(jì)算過程如圖2所示。
圖2 MFCC計(jì)算流程圖
由于聲音信號(hào)在時(shí)域上不穩(wěn)定并且變化迅速,一般需要將其轉(zhuǎn)換到頻域上來分析其特征參數(shù)。信號(hào)通過預(yù)處理模塊再通過快速傅里葉變換得到各幀數(shù)據(jù)的頻譜參數(shù),然后將其通過一組N(一般為20~40)個(gè)三角帶通濾波器構(gòu)成的Mel頻率濾波器做卷積運(yùn)算,然后對(duì)各個(gè)頻帶的輸出結(jié)果做對(duì)數(shù)運(yùn)算,依次得到對(duì)數(shù)能量S(m),m=1,2,3,…,N,最后對(duì)這些參數(shù)做離散余弦變換(DCT),得到梅爾倒譜系數(shù),也就是最終的聲音特征參數(shù),如式(3):
(3)
其中,n為MFCC個(gè)數(shù),Ci(n)為第i幀的第n個(gè)MFCC系數(shù),S(m)為log對(duì)數(shù)能量模塊的輸出,M為Mel濾波器的個(gè)數(shù)。
1.3語音識(shí)別的基本方法
隱馬爾科夫模型(HMM)算法在諸多的語音識(shí)別方法中脫穎而出,得到了廣泛的關(guān)注并被證明是最成功的統(tǒng)計(jì)模型之一。隱馬爾科夫鏈在馬爾科夫鏈的基礎(chǔ)上用一個(gè)觀察的概率分布與各個(gè)狀態(tài)相對(duì)應(yīng),它具有雙重隨機(jī)性,因此不能直接觀測(cè)它。當(dāng)利用隱馬爾科夫鏈來描述信息時(shí),就稱之為隱馬爾科夫模型。在語音識(shí)別中,人們最感興趣的是隱藏在語音信號(hào)背后的字符序列,這種情況下,HMM就比馬爾科夫鏈更有優(yōu)勢(shì),因?yàn)榭梢岳盟鼘?duì)已經(jīng)看到的數(shù)據(jù)和隱藏在這個(gè)數(shù)據(jù)背后的數(shù)據(jù)進(jìn)行建模。
在語音識(shí)別系統(tǒng)中,建立聲音訓(xùn)練庫(kù)是不可或缺的過程,還有分類器,要用它訓(xùn)練聲音庫(kù),進(jìn)而進(jìn)行預(yù)處理和特征參數(shù)提取。隱馬爾科夫模型中的狀態(tài)輸出概率函數(shù)至關(guān)重要,對(duì)系統(tǒng)的性能好壞有很大的影響。本文將選用研究中常用的高斯混合模型(GMM)對(duì)聲學(xué)模型進(jìn)行建模,它是多維概率密度函數(shù),由M個(gè)高斯成員組成,每個(gè)高斯權(quán)重為D維的模型可用式(4)表示[4]:
(4)
(5)
在式(5)中,μi為均值向量,Σi為協(xié)方差矩陣,共有M個(gè)高斯分布函數(shù)混合,每個(gè)高斯權(quán)重為wi,取和得到xi的概率分布。
這樣可以由均值向量、協(xié)方差矩陣、混合加權(quán)系數(shù)三個(gè)變量來描述一個(gè)特定的GMM,可以記作:
λ={wi,μi,Σi},i=1,2,…,M
將測(cè)試樣本中獲取的特征數(shù)據(jù)與GMM分類器結(jié)合,求得后驗(yàn)概率的最大值,這樣就得到各個(gè)測(cè)試樣本對(duì)應(yīng)的識(shí)別結(jié)果,最后將編號(hào)相同的測(cè)試樣本結(jié)果相加,求出對(duì)應(yīng)聲音的總體識(shí)別率。
本文提出一種稱為MFCC_P的特征提取方法,主要改善環(huán)節(jié)在Mel濾波階段。在進(jìn)行特征提取之前,先給語音信號(hào)添加一個(gè)閾值函數(shù),將這個(gè)閾值設(shè)為x,即當(dāng)s(n)>x時(shí),函數(shù)的輸出值即為原值;當(dāng)s(n) (6) 漢明窗的作用是利用不斷移動(dòng)的窗函數(shù)對(duì)語音進(jìn)行分幀,這個(gè)窗函數(shù)在MFCC_P中仍然要用到。 傳統(tǒng)Mel濾波器組的各個(gè)三角濾波頻域曲線中,到了高頻階段,頻帶寬度變寬,所以各個(gè)三角濾波出現(xiàn)了重疊。在改進(jìn)的算法中,避免了這種重疊。比如,假設(shè)上一個(gè)通帶為1 000~2 000 Hz,則下一個(gè)通帶應(yīng)被設(shè)置為2 000~4 000 Hz,這樣就不會(huì)出現(xiàn)重疊,在這種情況下,噪聲也會(huì)被有效消除,處理過程如下: k=1,…,N (7) 將MFCC_P算法應(yīng)用于語音識(shí)別系統(tǒng)中,總共選取5個(gè)語音內(nèi)容作為識(shí)別內(nèi)容。語音1為“你好”,語音2為“謝謝”,語音3為“再見”,語音4為“開心”,語音5為“高興”,每個(gè)聲音有100個(gè)樣本,采樣頻率設(shè)置為16 kHz,量化為16 bit。訓(xùn)練樣本設(shè)置為80個(gè),測(cè)試樣本設(shè)置為20個(gè)。先用訓(xùn)練樣本對(duì)模型進(jìn)行訓(xùn)練。每組實(shí)驗(yàn)做5次,求均值作為結(jié)果,最后識(shí)別率的均值作為各個(gè)語音的最終識(shí)別率。結(jié)果如表1。 由于意識(shí)到語音特征提取的重要性,本文在語音識(shí)別的過程中,重點(diǎn)研究了特征提取的過程。傳統(tǒng)的特征提取過程有一些劣勢(shì)使得沒有最好地提煉有用信息。對(duì)于MFCC_P,在Mel濾波過程做了一些工作,對(duì)于各個(gè)三角濾波,消除了原本濾波器之間的重疊,并且有效地去除了噪聲。實(shí)驗(yàn)結(jié)果表明,通過特征提取算法的改進(jìn),識(shí)別率有了2%~3%左右的提高,說明了改進(jìn)算法的有效性??梢钥吹?,整體的識(shí)別率還不是很理想,下階段將引入深度學(xué)習(xí)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的GMM-HMM進(jìn)行研究。 表1 兩種特征提取算法識(shí)別率比較 (%) [1] BARUA P,AHMAD K,KHAN A A S,et al.Neural network based recognition of speech using MFCC features[C].International Conference on Informatics,Electronics & Vision.IEEE,2014:1-6. [2] 程佩青.數(shù)字信號(hào)處理教程(第二版)[M].北京:清華大學(xué)出版社,2004. [3] 張雪英.數(shù)字語音信號(hào)處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010. [4] 王炳錫,屈丹,彭煊,等.實(shí)用語音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2005. [5] SHAHIN M A,AHMED B,MCKECHNIE J,et al.A comparison of GMM-HMM and DNN-HMM based pronunciation verification techniques for use in the assessment of childhood apraxia of speech[C].INTERSPEECH,2014. A speech recognition algorithm based on improved MFCC Shao Mingqiang,Xu Zhijing (College of Information Engineering,Shanghai Maritime University,Shanghai 201306,China) In order to optimize the speech feature extraction method,this paper proposes a speech feature extraction method called MFCC_P.For speech recognition,it is very important to extract feature vector from original signal.However,when the existing algorithm removes the noise,it deteriorates the audio signal.MFCC_P does some work on filterbank,it makes the filters bulid up compactly and no overlap between the filters,also,the noise is removed effectively. feature extraction; noise; MFCC_P TP391.5 A 10.19358/j.issn.1674-7720.2017.21.015 邵明強(qiáng),徐志京.基于改進(jìn)MFCC特征的語音識(shí)別算法J.微型機(jī)與應(yīng)用,2017,36(21):48-50,53. 國(guó)家自然科學(xué)基金(61404083) 2017-04-11) 邵明強(qiáng)(1991-),通信作者,男,碩士研究生,主要研究方向:智能信息處理與模式識(shí)別。E-mail:1160013257@qq.com。 徐志京(1972-),男,工學(xué)博士,副教授,主要研究方向:無線通信,人工智能,深度學(xué)習(xí)。3 實(shí)驗(yàn)結(jié)果
4 結(jié)論