王曉華,屈 雷,張 超,蔣細偉
(西安工程大學 電子信息學院,陜西 西安 710048)
?
基于Fisher比的Bark小波包變換的語音特征提取算法
王曉華,屈 雷,張 超,蔣細偉
(西安工程大學 電子信息學院,陜西 西安 710048)
為解決MFCC特征參數(shù)在噪聲環(huán)境中識別率低的問題,提出一種基于Fisher比的Bark小波包變換特征提取算法.首先采用小波包變換構(gòu)造Bark濾波器代替三角形的Mel濾波器.其次采用Fisher對Bark濾波后的特征參數(shù)進行選擇,去除大量干擾信息,節(jié)省特征匹配的時間.仿真實驗表明,該算法明顯提高系統(tǒng)的識別率和魯棒性.
Fisher;Bark;小波包變換;MFCC;說話人識別
隨著社會發(fā)展和科學技術(shù)的提高,說話人識別技術(shù)的研究取得飛速的發(fā)展[1-3].在說話人識別流程中最重要的一個環(huán)節(jié)是特征提取,通過對說話人語音信號的個性特征進行處理獲得特征參數(shù),是直接影響說話人識別系統(tǒng)性能的根本原因[4-5].
語音信號特征提取方法大致分為以下幾類:(1)基于時域處理方法,通過短時過零分析、短時自相關(guān)函數(shù)、平均幅度差等方法提取特征參數(shù),這些方法簡單、運算量小、物理意義明確,但不適合在噪聲環(huán)境中使用;(2)基于頻域處理的方法,通過短時傅立葉變換(STFT)[6]、小波變換[7]、Wigner分布[8]、倒譜分析[9]等方法提取特征參數(shù),這些方法與語音感知過程密切相關(guān),在安靜環(huán)境中表現(xiàn)很好,但對于噪聲環(huán)境中仍需繼續(xù)研究;(3)基于概率論方法,通過線性判別分析[10]、主成分分析[11]、獨立分量分析[12]等方法提取特征參數(shù),這些方法比較復雜,需要大量原始數(shù)據(jù)提取特征,運算量很大,但效果不錯;(4)基于新理論的方法,通過混沌理論[13]、分形理論[14]等方法提取特征參數(shù),這些算法的運算量大,只適用于一些特定的噪聲,具有一定的局限性.
最常用的MFCC參數(shù)在純語音下測試的識別率可以高達99.5%,但是在噪聲環(huán)境中測試的識別率僅為60%[15].文獻[6]對MFCC識別率低的原因進行了深入的分析,表明純語音的特征參數(shù)和加噪語音的特征參數(shù)差異明顯,各維參數(shù)分布已經(jīng)產(chǎn)生變化,變化會隨噪聲的增強而加劇,識別率必然下降.在MFCC特征參數(shù)提取過程中,時頻分析采用的是STFT,它對平穩(wěn)信號進行分析會產(chǎn)生很好的效果.但是對于非平穩(wěn)信號進行分析時,不僅要具有較高的頻率分辨率,還要具有較高的時間分辨率,STFT在這種情況下不能兼顧[6].小波變換的特點是多分辨率分析,適合分析復雜多變的語音信號.
人耳能夠在嘈雜的環(huán)境中分辨出說話者,具有很強的抗噪性,因此在提取特征參數(shù)時引入人耳聽覺特征比其他特征參數(shù)有更好的魯棒性[16].通過Mel頻率構(gòu)造的Mel濾波器組在頻率上重疊,使用小波包變換直接構(gòu)造Mel濾波器組比較復雜.但可以使用另一種聽覺特征Bark尺度感知特征,結(jié)合小波包對頻帶進行劃分,構(gòu)造出新的特征參數(shù).該特征參數(shù)維數(shù)較多,各維參數(shù)對識別效果的貢獻不一樣.融入概率論的方法,采用Fisher比對參數(shù)進行選擇,獲得了新的特征參數(shù).
1.1 Bark尺度感知頻率
在1961年Eberhard Zwicker根據(jù)人耳基底膜特征提出了Bark尺度,根據(jù)人耳掩蔽效應的實驗結(jié)果,Heinrich Barkhausen等提出頻率群的概念,將20~220 50Hz的頻率可以劃分為25個頻率群.人耳基底膜被大腦分為很多小模塊,每個模塊都與一個頻率群相對應并負責該頻率的語音信號,每次人耳獲得一段語音信號時,大腦都會對這些頻率群進行疊加處理,成為人們所了解的語音[17].Bark尺度頻率b與實際頻率f的轉(zhuǎn)化關(guān)系為
f=600sinh(b/6).
(1)
實驗得到的頻率群滿足公式(1),根據(jù)該頻率群的每個中心頻率、帶寬、上下限頻率設計Bark濾波器.
1.2 Bark尺度的小波包變換
小波包變換可以靈活地劃分頻率,構(gòu)造出與Bark尺度感知頻率特性相似的小波包分解結(jié)構(gòu).對于8kHz采樣頻率的語音信號(最高頻率為4kHz),共包含17個頻率群,使用小波包構(gòu)造這17個頻帶,小波包分解結(jié)構(gòu)如圖1所示.
文獻[18]實驗表明,語音信號小于600Hz的低頻部分和大于3 000Hz的高頻部分攜帶說話人特征較多,詳細地劃分這2部分的頻帶可以提高識別率.在上面的分解基礎上對低頻(小于625Hz)和高頻(大于3 000Hz)細分,即圖1中矩形框中的節(jié)點再分解一次,最后得到24個頻帶.將這些頻帶從低頻到高頻排列,獲得每個節(jié)點的頻率范圍如表1所示.
1.3 小波函數(shù)的選擇
在小波包變換中,小波函數(shù)的選擇會影響到計算速度和語音信號的有效性,選取合適的小波函數(shù)具有重要意義.在特征參數(shù)提取時,只在Bark尺度對語音信號進行小波包分解,不需要進行信號重構(gòu),所以線性相位的要求不必考慮.在計算特征參數(shù)的過程中,采用每個頻帶能量作為說話人的特征信息,要求小波函數(shù)具有可以保證小波包分解過程中能量不丟失的正交性.隨著Daubechies(db)小波階數(shù)N的增加,小波函數(shù)和尺度函數(shù)的時域波形愈發(fā)平滑,頻譜成分也愈發(fā)密集,濾波器的頻率特性也就更好.在實際應用中應考慮時頻分辨率和計算速度的要求,采用db6小波是一種比較合理的選擇[19].
圖 1 Bark尺度小波包變換的分解結(jié)構(gòu)Fig.1 Decomposition structure diagram of Bark scale wavelet packet transform
編號頻率范圍/Hz編號頻率范圍/Hz編號頻率范圍/Hz10~6252625~1253125~187541875~2505250~312563125~3757375~427584275~5009500~5625105625~62511625~75012750~87513875~1000141000~1250151250~1500161500~1625171625~1750181750~2000192000~2500202500~3000213000~3250223250~3500233500~3750243750~4000
1.4 Fisher比的特征選擇
為保證識別效果,MFCC特征參數(shù)用于說話人識別需要20~30維特征,雖然多維特征豐富了特征信息,但各維參數(shù)對識別效果的貢獻不同.這樣就出現(xiàn)了大量的干擾信息,降低識別速度而且有可能降低識別效果.所以必須對特征參數(shù)進行選擇.
在模式識別中,Fisher準則是將特征向量投影到最佳方向而獲得最大的類間距離.1964年,Bell實驗室的Pmzansky和Matllews在Fisher準則的基礎上提出方差之比(F比),并將其作為有效的度量說話人特征參數(shù)準則,定義為
(2)
F值越大,表示某一維特征更適合成為說話人的個性特征.實驗表明,經(jīng)Fisher比選擇后的特征參數(shù)可以更有效地表征說話人的個性特征,提高識別系統(tǒng)的識別效率[10].
圖 2 MFCC和FWBCC的提取過程對比Fig.2 Comparison of extraction process of MFCC and FWBCC
圖 3 WBCC和一階差分參數(shù)各維Fisher比Fig.3 Each dimension Fisher of WBCC and first-order differential parameters
圖 4 說話人識別系統(tǒng)測試界面Fig.4 Test interface of speaker recognition system
1.5 構(gòu)造新特征參數(shù)
通過db6小波進行Bark尺度小波包變換,將語音信號分解在24個頻帶內(nèi),之后構(gòu)造每個頻帶的特征參數(shù).將新特征參數(shù)命名為Fisher比Bark小波包倒譜系數(shù)(FWBCC),其提取流程與MFCC類似.不同之處在于:(1)使用小波包變換代替了STFT;(2)采用了Bark尺度代替了Mel尺度;(3)使用Fisher比對特征進行選取.圖2為MFCC和FWBCC的特征參數(shù)提取過程對比.
FWBCC提取的具體步驟描述如下:
(1) Bark尺度小波包變換,對語音信號預處理和端點檢測后,將獲得的每幀語音信號進行Bark尺度小波包變換,求出24組頻帶的小波包系數(shù)(每組系數(shù)個數(shù)不同);
(2) 計算頻帶能量,第n幀第m個頻帶能量按照如下公式計算得到:
(3)
式中:Wn(m,k)表示一幀語音小波包變換系數(shù);Nm表示第m個頻帶中小波包變換系數(shù)個數(shù).
(3) 計算DCT倒譜,將24維頻帶能量通過DCT變換,一般取前12維的數(shù)據(jù)進行計算:
(4)
(4) Fisher比選擇,特征參數(shù)中加入動態(tài)特征,可以提升系統(tǒng)的識別性能,所以對得到的WBCC靜態(tài)特征需要進行一階差分處理得到相應的動態(tài)特征.根據(jù)式(2)計算出12維WBCC和12維一階差分動態(tài)特征中每一維的Fisher比,如圖3所示,可以發(fā)現(xiàn)特征參數(shù)每一維的貢獻是不同的.根據(jù)Fisher比的大小,選出WBCC的第2,3,8,10,11,12維和一階差分參數(shù)的第3,4,6,9,10,11維.
通過上述4個步驟從WBCC和一階差分參數(shù)中各選出Fisher比最大的6組,組合成12維的特征參數(shù)就是文中根據(jù)Fisher比的Bark尺度小波包變換提取的FWBCC特征參數(shù).
2.1 實驗配置
在Matlab軟件環(huán)境下編寫測試界面如圖4所示,對特征提取算法進行實驗測試.
訓練數(shù)據(jù)來自安靜環(huán)境下獲得的15人(10男5女)語音,以8kHz為采樣率,16bit量化.語音為10個數(shù)字(0~9),每個數(shù)字錄音大約是1s,共10s,錄20次語音為訓練數(shù)據(jù),通過端點檢測[20]將語音信號分割后作為每個數(shù)字的訓練模板,即每個人有10個對應不同的數(shù)字的模板.識別測試數(shù)據(jù)是根據(jù)錄音提示在安靜環(huán)境下錄制4~9位的數(shù)字,作為說話人識別測試的原始數(shù)據(jù).
2.2 實驗結(jié)果及分析
為了驗證使用FWBCC特征后系統(tǒng)的準確性,在實驗室中進行測試.根據(jù)界面文本提示錄音,先對語音信號進行預處理和端點檢測,獲得一幀一幀的語音信號,對每一幀數(shù)據(jù)分別提取24維MFCC特征(包括一階差分參數(shù))、24維WBCC和12維的FWBCC特征參數(shù),最后使用VQ建立模型進行測試,實驗結(jié)果如圖5所示.
為了驗證使用FWBCC特征后系統(tǒng)的魯棒性,分別將測試的原始數(shù)據(jù)與white噪聲混合成信噪比(SNR)為20dB、10dB、5dB、0dB的帶噪語音信號,進行實驗測試(8位數(shù)字),實驗結(jié)果如圖6所示.
圖 5 3種特征參數(shù)的識別結(jié)果折線圖 圖6 4種SNR下的兩種特征參數(shù)的識別結(jié)果折線圖 Fig.5 The recognition results of three kinds of feature parameters Fig.6 The recognition results of the two feature parameters in four SNR
根據(jù)以上實驗結(jié)果可以得出:
(1) 改進的特征參數(shù)的識別效果比MFCC好,識別率有所提高.因為改進的特征參數(shù)采用了小波包變換進行分析,可以更好獲得非平穩(wěn)性的說話人特征,具有更好區(qū)分能力.
(2) FWBCC特征參數(shù)的識別效果比WBCC略好.WBCC特征參數(shù)通過Fisher比選擇后,排除大量的干擾信息,獲得貢獻率更好的特征參數(shù)FWBCC,識別結(jié)果要高于WBCC參數(shù).雖然識別率提高的很小,但是特征維數(shù)壓縮了一半,提高系統(tǒng)的運算速度.
(3) 文本位數(shù)越多識別效果越好.因為提示文本越多,提取特征后信息量也越大,識別率會提高.但是識別速度會下降,當文本位數(shù)為8位時效果最好.
(4) 隨著環(huán)境噪聲的增大,系統(tǒng)的識別率下降.使用MFCC特征參數(shù)的識別率下降20%左右,而使用FWBCC特征參數(shù)的識別率僅僅下降6%左右,所以,使用FWBCC特征參數(shù)的系統(tǒng)魯棒性較好.
對常用的MFCC提取算法進行改進,提出基于Fisher比的Bark小波包變換特征提取算法,以人類聽覺系統(tǒng)特征為依據(jù),使用小波包變換在Bark尺度劃分頻帶,計算頻帶能量,采用Fisher比選擇出12維特征參數(shù).實驗結(jié)果表明,使用該算法提取的FWBCC特征參數(shù)進行識別測試,識別率和魯棒性都有所提高,對說話人識別系統(tǒng)的實際應用具有一定的價值.
[1] LI P,TANG H.Design of a low-power coprocessor for mid-size vocabulary speech recognition systems[J].IEEE Transactions on Circuits and Systems I:Regular Papers,2011,58(5):961-970.
[2] 栗志意,張衛(wèi)強,何亮,等.基于總體變化子空間自適應的 i-vector 說話人識別系統(tǒng)研究[J].自動化學報,2014,40(8):1836-1840.
LI Zhiyi,ZHANG Weiqiang,HE Liang,et al.Total variability subspace adaptation based speaker recognition[J].Acta Automatica Sinica,2014,40(8):1836-1840.
[3] 李云紅,李子琳.基于DSP的語音識別系統(tǒng)設計[J].紡織高?;A科學學報,2012,25(1):107-110.
LI Yunhong,LI Zilin.The design of voice recognition system controller based on DSP[J].Basic Sciences Journal of Textile Universities,2012,25(1):107-110.
[4] DEHAK N,KENNY P J,DEHAK R,et al.Front-end factor analysis for speaker verification[J].IEEE Transactions on Audio Speech & Language Processing,2011,19(4):788-798.
[5] 李愛平,黨幼云.VQ聲紋識別算法和實驗[J].西安工程科技學院學報,2007,21(6):848-851.
LI Aiping,Dang Youyun.Algorithm and experiment of speaker recognition system based on VQ[J].Journal of Xi′an University of Engineering Science & Technology,2007,21(6):848-851.
[6] 胡政權(quán),曾毓敏,宗原,等.說話人識別中MFCC參數(shù)提取的改進[J].計算機工程與應用,2014,50(7):217-220.
HU Zhengquan,ZENG Yumin,ZONG Yuan,et al.Improvement of MFCC parameters extraction in speaker recognition[J].Computer Engineering and Applications,2014,50(7):217-220.
[7] 楊麗坤,徐洋.基于小波包變換的加權(quán)語音特征參數(shù)[J].計算機應用與軟件,2014,31(8):168-171.
YANG Likun,XU Yang.Weighted speech feature parameters based on wavelet packet transform[J].Computer Applications & Software,2014,31(8):168-171.
[8] 徐鄭丹,于鳳芹.基于SPWD時頻脊特征提取的漢語聲調(diào)識別[J].計算機應用與軟件,2014,31(3):142-145.
XU Zhengdan,YU Fengqin.Chinese tone recognition based on SPWD time-frequency ridge feature extraction[J].Computer Applications & Software,2014,31(3):142-145.
[9] 甄斌,吳璽宏,劉志敏,等.語音識別和說話人識別中各倒譜分量的相對重要性[J].北京大學學報:自然科學版,2001,37(3):371-378.
ZHEN Bin,WU Xihong,LIU Zhimin,et al.On the importance of components of the MFCC in speech and speaker recognition[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2001,37(3):371-378.
[10] 鮮曉東,樊宇星.基于Fisher比的梅爾倒譜系數(shù)混合特征提取方法[J].計算機應用,2014,34(2):558-561.
XIAN Xiaodong,FAN Yuxing.Parameter extraction method for Mel frequency cepstral coefficients based on Fisher criterion[J].Journal of Computer Applications,2014,34(2):558-561.
[11] 馬金龍,景新幸,楊海燕,等.主成分分析和K-means聚類在說話人識別中的應用[J].計算機應用,2015,35(S1):127-129.
MA Jinlong,JING Xinxing,YANG Haiyan,et al.Application of principal component analysis and K-means clustering in speaker recognition[J].Journal of Computer Applications,2015,35(S1):127-129.
[12] 董治強,劉琚,鄒欣,等.基于ICA的語音信號表征和特征提取方法[J].山東大學學報:工學版,2010,40(4):19-22.
DONG Zhiqiang,LIU Ju,ZOU Xin,et al.Speech signal representation and feature extraction based on ICA[J].Journal of Shandong University:Engineering Science,2010,40(4):19-22.
[13] SONG T,LEE K,KO H.Robust visual voice activity detection using chaos theory under illumination varying environment[C]//International Conference on Consumer Electronics.IEEE:Las Vegas,2014:562-563.
[14] SHAFIEE S,ALMASGANJ F,VAZIRNEZHAD B,et al.A two-stage speech activity detection system considering fractal aspects of prosody[J].Pattern Recognition Letters,2010,31(9):936-948.
[15] SINGH L,CHETTY G.A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters[J].Communication in Computer Information Science,2012,285(1):304-314.
[16] 張曉俊,陶智,吳迪,等.采用多特征組合優(yōu)化的語音特征參數(shù)研究[J].通信技術(shù),2012,45(12):98-100.
ZHANG Xiaojun,TAO Zhi,WU Di,et al.Study of speech characteristic parameters by optimized multi-feature combination[J].Communications Technology,2012,45(12):98-100.
[17] 高明明,常太華,楊國田,等.基于子帶主頻率信息的語音特征提取算法[J].計算機工程,2009,35(18):161-163.
GAO Mingming,CHANG Taihua,YANG Guotian,et al.Speech feature extraction algorithm based on subband dominant frequency information[J].Computer Engineering,2009,35(18):161-163.
[18] 陳春輝,馮剛.基于聽覺小波包自適應語音增強方法[J].華南師范大學學報:自然科學版,2013,45(2):55-59.
CHEN Chunhui,FENG Gang.An adaptive speech enhancement method based on hearing wavelet packet transformation[J].Journal of South China Normal University:Natural Science Edition,2013,45(2):55-59.
[19] 謝軍,李樂,劉文峰.振動信號噪聲消除中的小波基選擇研究[J].科學技術(shù)與工程,2011,11(25):5997-6000.
XIE Jun,LI Le,LIU Wenfeng.Research on wavelet base selection for vibration signal denoising[J].Science Technology & Engineering,2011,11(25):5997-6000.
[20] 王曉華,屈雷.基于時頻參數(shù)融合的自適應語音端點檢測算法[J].計算機工程與應用,2015,51(20):203-207.
WANG Xiaohua,QU lei.Self-adaptive voice activity detection algorithm based on fusion of time-frequency parameter[J].Computer Engineering and Applications,2015,51(20):203-207.
編輯、校對:孟 超
Speech feature extraction algorithm based on the Bark wavelet packet transform with Fisher
WANG Xiaohua, QU Lei, ZHANG Chao, JIANG Xiwei
(School of Electronics and Information, Xi′an Polytechnic University,Xi′an 710048, China)
In order to solve the problem of low recognition rate of MFCC parameter, a feature extraction algorithm based on the Bark wavelet packet transform with Fisher is put forward. Firstly, wavelet packet transform is used to construct Bark filter, which can replace the triangular Mel filter. According to the Fisher criterion, feature parameters filtered by Bark filter are adopted, removing the interference information and saving the time of feature matching. Simulation results show that the algorithm is able to enhance the recognition rate and robustness.
Fisher;Bark;wavelet packet transform;MFCC;speaker recognition
1674-649X(2016)04-0452-06
10.13338/j.issn.1674-649x.2016.008
2015-03-14
國家自然科學基金資助項目(61301276);陜西省自然科學基金資助項目(150518);西安工程大學學科資助項目(107090811);國家級大學生創(chuàng)新創(chuàng)業(yè)計劃訓練資助項目(201510709367)
王曉華(1972—),女,黑龍江省齊齊哈爾市人,西安工程大學副教授,研究方向為模式識別、智能機器人.
E-mail:w_xiaohua@126.com
王曉華,屈雷,張超,等.基于Fisher比的Bark小波包變換的語音特征提取算法[J].西安工程大學學報,2016,30(4):452-457.
WANG Xiaohua,QU Lei,ZHANG Chao,et al.Speech feature extraction algorithm based on the Bark wavelet packet transform with Fisher[J].Journal of Xi′an Polytechnic University,2016,30(4):452-457.
TN 912.3
A