蔣翠清,李天翼
(合肥工業(yè)大學(xué) 管理學(xué)院,合肥 230009)
基于小波MFCC與HMM的列車鳴笛識(shí)別算法研究
蔣翠清,李天翼
(合肥工業(yè)大學(xué) 管理學(xué)院,合肥 230009)
本文提出了一種列車鳴笛識(shí)別方法,用更能反映出聲音信號(hào)特征的梅爾倒譜系數(shù)(MFCC)特征作為列車鳴笛識(shí)別的參數(shù),同時(shí),用小波變換替代MFCC參數(shù)提取過程中的FFT變換,將改進(jìn)后的MFCC參數(shù)與隱馬爾可夫模型(HMM)結(jié)合,獲得比LPCC特征或MFCC特征更好的識(shí)別效果,并通過仿真實(shí)驗(yàn)對(duì)比驗(yàn)證了該算法的有效性和可行性。
列車鳴笛識(shí)別;梅爾倒譜系數(shù);小波變換;隱馬爾可夫模型
列車鳴笛識(shí)別的基本原理是從實(shí)時(shí)采集的列車聲數(shù)據(jù)中,提取能反映其特征的參數(shù),與列車行進(jìn)過程中的典型聲音(鐵軌摩擦聲、剎車聲等)建立的模型匹配,得出識(shí)別結(jié)果。利用這種技術(shù)可實(shí)現(xiàn)列車鳴笛自動(dòng)檢測(cè),以促進(jìn)列車乘務(wù)員加強(qiáng)對(duì)列車信號(hào)及前方進(jìn)路的瞭望確認(rèn),對(duì)列車乘務(wù)員是否瞭望確認(rèn)進(jìn)行監(jiān)督。
語音信號(hào)識(shí)別常用的特征參數(shù)有線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstral Coefficients,LPCC)和Mel頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)等。其中,MFCC模擬了人耳耳蝸的聽覺特性,在語音識(shí)別領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)提取了聲音信號(hào)的MFCC參數(shù)進(jìn)行聲音識(shí)別,取得了一定的效果,但列車聲信號(hào)是不平穩(wěn)的,MFCC無法很好地反映其特性。小波變換能夠精確的表征非平穩(wěn)信號(hào)的變化,并且其特性與人耳耳蝸的生理頻率響應(yīng)特性相似。用小波變換來改進(jìn)MFCC特征提取,能精確地反映列車聲信號(hào)的動(dòng)態(tài)特性,因而采用改進(jìn)后的MFCC作為列車聲信號(hào)的特征參數(shù)更好。
隱馬爾科夫模型(Hidden Markov Model,HMM)是一個(gè)時(shí)間序列模型,一個(gè)無記憶的非平穩(wěn)隨機(jī)過程,表征時(shí)變信號(hào)的能力很好,可以處理聲音信號(hào)中所包含的時(shí)序信息和統(tǒng)計(jì)信息,已經(jīng)被廣泛應(yīng)用于語音建模。
文中提出了一種基于小波MFCC參數(shù)和HMM模型的列車鳴笛識(shí)別方法,選取改進(jìn)后的MFCC參數(shù)作為特征,由實(shí)驗(yàn)數(shù)據(jù)分析證明了該鳴笛識(shí)別方法的可行性。
聲音特征參數(shù)提取是指從列車聲信號(hào)當(dāng)中獲得能夠描述音頻信號(hào)特征的過程。
2.1MFCC參數(shù)的提取
MFCC參數(shù)在語音信號(hào)識(shí)別領(lǐng)域運(yùn)用極為廣泛,它結(jié)合了語音的產(chǎn)生機(jī)制和人耳的聽覺感知特性,能夠很好地反映語音信號(hào)的特性,從而提高算法的識(shí)別率。如圖 1 所示,在正常提取MFCC參數(shù)的過程中對(duì)信號(hào)要作快速傅里葉變換。
圖1 MFCC參數(shù)提取流程
2.2離散小波MFCC參數(shù)的提取
傳統(tǒng)的Mel頻率倒譜系數(shù)假設(shè)聲音信號(hào)是短時(shí)平穩(wěn)的,用固定窗的傅立葉變換獲得。由不確定性原理可知這種假設(shè)會(huì)使聲音的頻譜細(xì)節(jié)特征模糊,丟失一定的信息。并且MFCC無法反映非平穩(wěn)列車聲信號(hào)的瞬間變化,因此,傳統(tǒng)的MFCC系數(shù)在列車鳴笛識(shí)別算法中不能收到很好的效果。用離散小波傅里葉變換改進(jìn)傳統(tǒng)MFCC參數(shù)提取過程中的快速傅里葉變換,能夠較好地解決上述問題。
小波變換采用多分辨力分析的思想,非均勻地劃分時(shí)頻空間,與人耳蝸的頻響特性相似。因此,在使用離散小波傅里葉變換的情況下,列車行進(jìn)聲信號(hào)在時(shí)頻域都可獲得了較為合適的分辨能力。實(shí)驗(yàn)中采用離散的二進(jìn)制小波,其表示式為:
式中,f(t)為能量有限信號(hào);φm,n(t)為二進(jìn)制小波,表示式為:
用離散小波傅里葉變換改進(jìn)傳統(tǒng)MFCC系數(shù)提取過程,得到新的特征參數(shù)——小波MFCC系數(shù)(記作WMFCC)。WMFCC系數(shù)的提取過程如圖2所示。
圖2 WMFCC參數(shù)提取流程
隱馬爾可夫模型是語音處理中廣泛應(yīng)用的一種統(tǒng)計(jì)模型。HMM是一個(gè)雙內(nèi)嵌式隨機(jī)過程,其中,一個(gè)隨機(jī)過程描述狀態(tài)的轉(zhuǎn)移,另一個(gè)隨機(jī)過程描述觀察值和狀態(tài)之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。
HMM可以用一個(gè)五元數(shù)組:λ=(P,Q,a,M,N)描述,其中P為模型中狀態(tài)數(shù)目,Q為每個(gè)狀態(tài)可能的觀察值數(shù)目,a表示初始狀態(tài)概率,M表示狀態(tài)轉(zhuǎn)移概率矩陣,N表示觀察概率矩陣。由于在算法識(shí)別過程中狀態(tài)數(shù)目和觀察值數(shù)目不變,HMM也可簡(jiǎn)寫為λ=(a,M,N)。
HMM的常用算法有三種:前向—后向算法、Viterbi算法和Baum-Welch算法。本文中HMM的訓(xùn)練使用Baum-Welch算法,HMM的識(shí)別使用Viterbi算法。
Baum-Welch算法可描述為:給定1個(gè)觀察值序列O = O1,O2,…,OT和一個(gè)HMM初始參數(shù)λ=(a,M,N),使觀察序列O相對(duì)于λ的概率P(O|λ)最大。Baum-Welch算法為了得到模型參數(shù)的最優(yōu)解,將新老HMM模型參數(shù)的函數(shù)進(jìn)行迭代運(yùn)算直到P(O|λ)收斂,即HMM模型參數(shù)不再變化為止。
Viterbi算法可描述為:給定1個(gè)觀察值序列O = O1,O2,…,OT和一個(gè)初始參數(shù)λ=(a,M,N),如何確定未知序列K=K1,K2,…,KT的P(K,O|λ)最大時(shí)的最佳狀態(tài)序列K*=K1*,K2*,…,KT*。對(duì)于要識(shí)別的聲音信號(hào),可算出聲音特征通過每個(gè)HMM模型的概率P(K,O|λi),其中輸出概率最大的模型作為識(shí)別結(jié)果。HMM模型的原理如圖3所示。
圖3 HMM模型原理圖
基于小波MFCC和HMM的列車鳴笛識(shí)別算法如圖4所示。首先,對(duì)列車聲信號(hào)樣本進(jìn)行預(yù)處理,提取MFCC和WMFCC,然后一部分樣本特征作為訓(xùn)練集,將兩個(gè)參數(shù)分別通過HMM模型進(jìn)行訓(xùn)練,以得到最優(yōu)的HMM參數(shù)并存儲(chǔ);另一部分樣本特征作為測(cè)試集,通過訓(xùn)練好的模型識(shí)別系統(tǒng)計(jì)算,從而判斷其類型。
圖4 基于小波MFCC和HMM模型的列車鳴笛識(shí)別算法
本文實(shí)驗(yàn)樣本均為鐵路路口現(xiàn)場(chǎng)錄制,樣本精度為16bit,采樣率為44.1kHz。列車聲音分鳴笛和非鳴笛兩大類,鳴笛種類為電鳴笛和汽鳴笛,非鳴笛種類為鐵軌聲、風(fēng)聲、剎車聲等。其中,鳴笛類聲音有120個(gè)樣本,非鳴笛類聲音樣本有200個(gè)。
本文分別提取3種參數(shù)(LPCC,MFCC,WMFCC)進(jìn)行對(duì)比實(shí)驗(yàn)。LPCC參數(shù)采用文獻(xiàn)的提取方法。MFCC和WMFCC參數(shù)的提取的過程中設(shè)置如下:信號(hào)的分幀長(zhǎng)度取為25ms,幀移為8 ms。MFCC參數(shù)提取時(shí)數(shù)字濾波器組選24個(gè),DCT系數(shù)為12*24維,對(duì)處理過的聲音信號(hào)進(jìn)行反離散余弦變換后得12個(gè)MFCC系數(shù),再計(jì)算其一階差分12個(gè)共24維;其中WMFCC對(duì)信號(hào)進(jìn)行6層小波分解,分解后可得7層小波系數(shù)。
將實(shí)驗(yàn)樣本分為訓(xùn)練樣本和測(cè)試樣本:訓(xùn)練樣本為樣本總數(shù)的80%,測(cè)試樣本為剩余的20%的樣本。每組實(shí)驗(yàn)做10次,列出每類聲音的平均識(shí)別率,最后對(duì)不同特征組合下聲音的識(shí)別率及效率進(jìn)行比較。
表1 不同特征參數(shù)識(shí)別結(jié)果
從表1中可看出,對(duì)于相同的樣本,選取WMFCC作為特征時(shí)的正確率比選取MFCC作為特征的正確率都要高,說明WMFCC更能反映火車聲信號(hào)的非平穩(wěn)特性。從鳴笛和非鳴笛的總識(shí)別率還可以看出,選取WMFCC作為特征參數(shù)時(shí),用HMM模型能準(zhǔn)確分辨火車鳴笛跟非鳴笛,說明火車鳴笛與非鳴笛聲信號(hào)的WMFCC特征有著較大的差異。由以上分析可得出結(jié)論:利用小波MFCC和HMM對(duì)火車鳴笛進(jìn)行識(shí)別是可行的。
本文將語音識(shí)別中常用的特征參數(shù)MFCC與小波變換結(jié)合,運(yùn)用到列車鳴笛識(shí)別領(lǐng)域。提出了基于小波MFCC參數(shù)與HMM模型列車鳴笛識(shí)別方法,通過實(shí)驗(yàn)的數(shù)據(jù)分析表明該方法識(shí)別率較高,在列車鳴笛等異常聲音識(shí)別中有良好的應(yīng)用前景。
如果對(duì)算法進(jìn)行優(yōu)化,將其移植到C等底層語言中并與硬件結(jié)合,不僅能夠較大幅度地提高算法運(yùn)行效率,同時(shí)還能實(shí)現(xiàn)列車鳴笛的實(shí)時(shí)識(shí)別,從而更好地監(jiān)督列車乘務(wù)員是否瞭望確認(rèn),促進(jìn)火車的安全運(yùn)行。
主要參考文獻(xiàn)
[1]S Chauhan,P Wang,C Sing Lim,et al.A Aomputer-aided MFCC-based HMM System for Automatic Auscultation[J].Computers in Biology and Medicine, 2008, 38(2): 221-233.
[2]成彬彬,張海.基于小波變換的數(shù)字耳蝸濾波器組設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,2009(1):135-138.
[3]劉輝,楊俊安,許學(xué)忠.基于 MFCC 參數(shù)和 HMM 的低空目標(biāo)聲識(shí)別方法研究[J].彈箭與制導(dǎo)學(xué)報(bào),2008,27(5):217-219.
[4]韓紀(jì)慶,張磊,鄭鐵然.語音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.
[5]張德豐.MATLAB 小波分析[M].北京:機(jī)械工業(yè)出版社,2009.
[6]陳韜偉,辛明.基于小波變換的雷達(dá)輻射源信號(hào)特征提取[J].信息與電子工程,2010,8(4):436-440.
[7]張小玫,張雪英,梁五洲.基于小波 Mel 倒譜系數(shù)的抗噪語音識(shí)別[J].中國電子科學(xué)研究院學(xué)報(bào),2008,3(2):187-189.
[8] 何強(qiáng),何英.MATLAB 擴(kuò)展編程[M].北京:清華大學(xué)出版社,2002:352-371.
[9] 王鐘斐,王彪.基于短時(shí)能量—LPCC 的語音特征提取方法研究[J].計(jì)算機(jī)與數(shù)字工程,2012,40(11):79-80.
10.3969/j.issn.1673 - 0194.2015.06.053
TN912.34
A
1673-0194(2015)06-0072-02
2015-02-11