国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進的DWT?MFCC特征提取算法

2017-05-18 12:51殷瑞祥程俊杰
現(xiàn)代電子技術(shù) 2017年9期
關(guān)鍵詞:小波變換子帶濾波

殷瑞祥++程俊杰

摘 要: 基于離散小波變換的美爾倒譜系數(shù)(DWT?MFCC)[1]將小波變換引入到MFCC參數(shù)的提取中,用DWT代替FFT將語音信號分解為多個頻帶的小波系數(shù),并將小波系數(shù)的頻率響應(yīng)直接拼接為完整頻譜后再通過Mel濾波器獲得。改進的DWT?MFCC特征提取算法從濾波的角度分析小波分解過程及各子帶頻譜的變化,提出了新的有效頻譜拼接方式。實驗結(jié)果表明,改進的特征提取算法提高了說話人的識別率;同時,在該算法下隨著小波濾波器dbN長度的增加,濾波器截止特性變好,識別率也隨著增加。

關(guān)鍵詞: 小波變換; 頻譜拼接; 濾波; 子帶

中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2017)09?0018?04

Abstract: The wavelet transform based on DWT?MFCC is introduced into the parameter extraction of MFCC. The DWT replaces the FFT to decompose the speech signal into the wavelet coefficient with multiple sub?bands. The frequency response of the wavelet coefficient is spliced to a full spectrum directly, and obtained with the Mel filter. The improved feature extraction algorithm based on DWT?MFCC analyzes the wavelet decomposition process and spectrum variation of each sub?band proceeding from filtering to propose a new effective spectrum splicing method. The experimental results show that the feature extraction algorithm improved the recognition rate of speaker, and the cutoff characteristic of the filter and recognition rate become better with the increase of dbN length of the wavelet filter.

Keywords: wavelet transform; spectrum splicing; filtering; sub?band

0 引 言

說話人識別,即根據(jù)輸入語音確定發(fā)音者的身份,是利用生物特征進行身份鑒別和認證的方法之一,是一種高效的人機交互,身份識別及信息檢索手段[1]?;贛el頻率的倒譜系數(shù)MFCC(Mel Frequency Cepstrum Coefficient)將人耳的聽覺感知特性和語音的產(chǎn)生機制相結(jié)合[2],與其他特征參數(shù)相比,在說話人識別中表現(xiàn)出更好的優(yōu)勢。MFCC特征參數(shù)采用短時傅里葉對信號進行線性等間隔的頻帶劃分,是一種平穩(wěn)的信號分析提取方法,而語音信號是一種典型的非平穩(wěn)信號,由此引入小波變換的多分辨率分析對信號進行有效地時頻分解。DWT?MFCC [3?5]在MFCC特征提取的基礎(chǔ)上引入小波變換。對于不同分辨率的小波系數(shù),隨著分辨率的降低,相應(yīng)的小波系數(shù)在語音頻域中所占的位置也移向低端。這時對不同分辨率的小波系數(shù)各自做FFT變換,根據(jù)它們的分辨率級數(shù)將它們的頻譜拼接成完整的頻譜(第一層小波系數(shù)的頻率響應(yīng)放在頻譜的最高位,其他層依次排放)。該參數(shù)表現(xiàn)出了較好的噪聲魯棒性,但在無噪環(huán)境下,MFCC與DWT?MFCC的識別率沒有太多差異[4],文獻[3]中語音識別率也沒有太多差異,文獻[5]中的說話人識別率達到88.7%。

本文在DWT?MFCC的基礎(chǔ)上從濾波和信號處理的角度分析了小波分解過程及各層小波如何攜帶信號頻譜,并結(jié)合語音信號FFT后的頻譜特點,提出新的頻譜拼接方式,即改進的DWT?MFCC特征提取算法。該算法中小波變換對信號能量進行了重新分配,高頻成分比重有了提高,大大提高了說話人識別率。

1 小波分解的濾波器

小波變換實質(zhì)上是用小波函數(shù)對信號進行卷積積分,小波函數(shù)的性質(zhì)決定了小波變換的性質(zhì)。在快速算法中,小波函數(shù)用一對數(shù)字濾波器表達,相應(yīng)的小波變換采用數(shù)字濾波器實現(xiàn)[6]。從信號處理的角度來看,小波分析就是一個帶通濾波器組,在二進小波情況下,它實際上是一個倍頻帶通濾波器[7]。研究表明,小波變換在各頻段的恒Q(品質(zhì)因數(shù))特性與人耳聽覺對信號的加工特點相一致,相當于一組建立在薄膜震動基礎(chǔ)上的恒Q帶通濾波器[8?9],因此小波變換可以理解為具有恒Q性質(zhì)的倍頻帶濾波器組。小波變換多分辨率信號分解可以用一個樹形多采樣率濾波器組來表示。采用dbN小波對一段語音信號進行三層小波分解的系統(tǒng)等效圖如圖1所示。

為一段語音信號,Hi_D和Lo_D分別是小波函數(shù)與尺度函數(shù)對應(yīng)的高通濾波器與低通濾波器,且Hi_D與Lo_D都是帶濾波器(歸一頻率)。信號經(jīng)過兩通道濾波器組后頻帶被平分為高頻部分與低頻部分,信號被分為2個子帶,帶寬減半,可以實現(xiàn)對高頻部分與低頻部分小波系數(shù)的2倍下采樣,得到信號的細節(jié)系數(shù)和近似系數(shù);隨后再對低頻部分進行第二層小波分解,以此類推。小波多分辨率分析將濾波器組與信號的多速率分析[10]很好的結(jié)合起來,實現(xiàn)了對信號的多頻帶劃分。一幀奈奎斯特頻率為4 kHz的語音信號,經(jīng)過三層小波分解后形成的頻帶為0~0.5 kHz,0.5~1 kHz,1~2 kHz,2~4 kHz共四個頻帶,每一層的信號采樣率依次減半。因此信號的細節(jié)小波系數(shù)、及近似系數(shù)可以描述原語音信號。

2 信號抽取后的頻譜變化

由圖1所示的小波多子帶劃分可知,和是語音信號通過三層二通道濾波器后的原信號在2~4 kHz,1~2 kHz,0.5~1 kHz,0~0.5 kHz四個頻帶對應(yīng)的時域信號;是相應(yīng)頻帶信號2倍下采樣得到的信號,然而描述了信號2~4 kHz的高頻成分,描述了信號1~2 kHz的成分,描述了信號0.5~1 kHz的成分,則描述了信號0~0.5 kHz的成分。下采樣后的信號變成普通的時域信號,其頻譜不再與未采樣前的帶通信號一樣只分布在該頻帶。

從式(9)可以看出2倍抽取后的信號頻譜變?yōu)榱嗽l譜(頻率軸頻率為原來2倍)及以為對稱軸的鏡像頻譜(即向右平移)。

在圖1系統(tǒng)中,2倍下采樣后通過低通濾波器的信號會使得低通頻帶擴充到整個的頻帶;2倍下采樣后通過高通濾波器的信號會使得高頻帶下變頻并擴展到整個的頻帶[11]。

對于低通帶限信號,2倍下采樣后,在新的奈奎斯特率范圍內(nèi),頻譜形狀并未發(fā)生改變;然而對于高通信號,2倍下采樣后,信號頻譜會產(chǎn)生下變頻,在新的奈奎斯特頻率范圍內(nèi)產(chǎn)生低頻鏡像,即新的頻譜是原來頻譜的平移和翻轉(zhuǎn)。

3 改進的DWT?MFCC特征提取算法

傳統(tǒng)的DWT?MFCC把小波變換引入MFCC參數(shù)的提取中,得到信號在不同分辨率上的小波系數(shù)表示,將每個分辨率下的小波系數(shù)頻譜拼接成完整的頻譜(第一層小波系數(shù)的頻率響應(yīng)放在頻譜的最高位,其他層依次排放)再用感知域濾波,轉(zhuǎn)化為維數(shù)較低的特征參數(shù)。

矢量量化(VQ)是一種很重要的數(shù)字信號處理方法。具有不同說話特征的說話人可以用特定說話人語音信號的特征參數(shù)在空間的分布來描述。用VQ建立識別模型,可大大減少數(shù)據(jù)存儲量及計算量[12]。

應(yīng)用改進的DWT?MFCC特征提取及VQ識別模型的說話人識別系統(tǒng)框圖如圖2所示。

圖2中虛線框內(nèi)即為改進的DWT?MFCC特征提取框圖,其具體實現(xiàn)過程如下:

(1) 把一幀語音信號進行離散小波分解(層數(shù)為3層),形成頻帶0~0.5 kHz,0.5~1 kHz,1~2 kHz,2~4 kHz,求出每一個頻帶的小波系數(shù)。

(2) 求取每一層小波系數(shù)的頻譜,每一層小波系數(shù)FFT后如圖3所示。

(3) 頻譜拼接

近似系數(shù)(低頻部分)的頻譜(圖中的一半)直接放置在第一層;由于高通信號抽取后下變頻在低頻處產(chǎn)生鏡像,所有細節(jié)系數(shù)(高頻部分)的頻譜(圖中的一半)翻轉(zhuǎn)后按照分辨率由小到大拼接;如此便拼接出了整個信號的頻譜(FFT幅度譜的對稱性),后半段則是拼接后頻譜的鏡像對稱。

人耳可以聽到20 Hz~20 kHz的音頻信號,但人說話的聲音能量主要分布在300~3 400 Hz,在大于3 400 Hz之后的能量逐漸接近零值。統(tǒng)計發(fā)現(xiàn)實驗中每個人的一幀語音中第一層細節(jié)系數(shù)(描述信號2~4 kHz)頻譜(如圖3的頻譜)前面約20個點(帶寬長312.5 Hz)幅值接近0。為了減小計算量,把第一層細節(jié)系數(shù)頻譜的20個零值去掉后取前一半翻轉(zhuǎn)拼接。

(4) 拼接好的頻譜求能量,通過Mel濾波器組,取對數(shù)能量,經(jīng)過DCT變換即可獲得改進的DWT?MFCC特征參數(shù)。

4 實驗對比結(jié)果

實驗數(shù)據(jù)來源:聲音來自手機錄音,錄音人員共28人,包括15名男性和13名女性。錄音環(huán)境為普通房間,朗讀不同的文本獲取語音數(shù)據(jù)。經(jīng)過cool edit音頻處理軟件進行處理,得到時長為20 s,10 s,5 s,3 s的語音庫。采樣頻率經(jīng)轉(zhuǎn)換為8 kHz,量化精度為16 b。

本次實驗采用20 s語音作為訓(xùn)練語音,剩余10 s,5 s,3 s這3種時長作為測試數(shù)據(jù)。語音經(jīng)過預(yù)加重,預(yù)加重系數(shù)為0.97,用幀長為32 ms,幀移為12.5 ms的漢明窗進行加窗(即窗長256點),對每一幀用dbN小波(N取2~10)進行3層小波分解,經(jīng)過FFT變換后用上文的拼接方式拼接成完整的信號頻譜。隨后經(jīng)過Mel濾波得到12階DWT?MFCC系數(shù)及其一階差分,共24維,用碼書大小為32的VQ識別模型進行說話人識別。

文獻[5]采用6層小波分解,原始的DWT?MFCC特征提取算法,20個說話人,20 s訓(xùn)練,20 s測試時的識別結(jié)果如表1所示。

對比表1~表3可知,在改進的DWT?MFCC特征提取算法下,說話人識別率有了很大的提高;隨著濾波器長度的增加,濾波器截止特性變好,該算法下的識別率也隨著增加。

已知小波變換遵循與傅里葉變換中帕斯瓦爾定理相類似的能量比例性定理[13],即小波變換幅度平方的積分和信號的能量成正比。小波分解后信號能量成比例縮放,且能量分布有了變化。

經(jīng)驗性地規(guī)定2~4 kHz為高頻部分[14?15],統(tǒng)計發(fā)現(xiàn),在原語音頻譜能量中該成分占比0.158 5,預(yù)加重后占比0.400 8,而在小波分解后拼接的頻譜中,該頻段能量占比0.566 3,小波變換突出了信號高頻部分的特性。

同一段語音引入小波變換后原DWT?MFCC算法下的拼接頻譜與改進算法下的頻譜相比,改進算法的拼接頻譜更接近原始頻譜的變化趨勢,如圖4所示。經(jīng)過小波變換,信號的能量得到重新分配。高頻段的能量獲得了相對整體能量更多的比重,因此識別率得到了提高。

5 結(jié) 論

本文分析了DWT?MFCC特征提取過程中,從濾波器與信號處理的角度分析信號小波分解并下采樣后頻譜變化的特點,提出了改進的DWT?MFCC特征提取算法。充分發(fā)揮了小波變換后能量重新分布對高頻信號加重的優(yōu)勢,突出了高頻區(qū)域內(nèi)包含區(qū)分說話人差異的信息,在無噪環(huán)境下,大大提高了說話人的識別率。同時,隨著濾波器長度的增加,濾波器截止特性變好,改進算法下的拼接頻譜減小了頻譜失真,識別率也隨之增加。

參考文獻

[1] 趙錚,侯伯亨.基于小波變換說話人識別技術(shù)的研究[J].西安電子科技大學(xué)學(xué)報(自然科學(xué)版),2000,27(4):437?441.

[2] 薛凌云,夏國榮.基于小波變換的語音特征參數(shù)提取[J].電子世界,2014(2):99?100.

[3] 劉鳴,戴蓓倩,李輝,等.基于離散小波變換和感知頻域濾波的語音特征參數(shù)[J].電路與系統(tǒng)學(xué)報,2000,5(1):21?25.

[4] 梁五洲.抗噪語音識別特征提取算法的研究[D].太原:太原理工大學(xué),2006.

[5] 劉雅琴,周煒.基于小波變換的說話人語音特征參數(shù)提取[J].河南科技大學(xué)學(xué)報(自然科學(xué)版),2005,26(4):44?46.

[6] 何嶺松.小波函數(shù)性質(zhì)及其對小波分析結(jié)果的影響[J].振動工程學(xué)報,2000,13(1):143?146.

[7] VETTERLI M, HERLEY C. Wavelets and filter banks: theory and design [J]. IEEE transactions on signal processing, 1992, 40(9): 2207?2232.

[8] 檀蕊蓮,柏鵬,李哲,等.基于小波變換的說話人識別技術(shù)[J].空軍工程大學(xué)學(xué)報(自然科學(xué)版),2013,14(1):85?89.

[9] 張惠云.多速率數(shù)字信號處理及其研究現(xiàn)狀[J].軍民兩用技術(shù)與產(chǎn)品,2006(5):39?41.

[10] 徐爽.小波分析理論在說話人識別中的應(yīng)用研究[D].秦皇島:燕山大學(xué),2004.

[11] OPPENHEIM A V, SCHAFER R W. Discrete?time signal processing [M]. Upper Saddle River, Prentice Hall Inc., 1989.

[12] 吳亮春,潘世永,何金瑞,等.改進的基于小波包變換的語音特征提取算法[J].計算機工程與應(yīng)用,2011,47(5):210?212.

[13] 楊福生.小波變換的工程分析與應(yīng)用[M].北京:科學(xué)出版社,1999.

[14] 陳迪,龔衛(wèi)國,李波.噪聲魯棒性說話人識別語音高頻加權(quán)MFCC提取[J].儀器儀表學(xué)報,2008,29(3):668?672.

[15] 李夢超.基于說話人識別的特征參數(shù)提取改進算法的研究[D].南京:南京師范大學(xué),2014.

猜你喜歡
小波變換子帶濾波
一種基于奇偶判斷WPT的多音干擾抑制方法*
子帶編碼在圖像壓縮編碼中的應(yīng)用
MATLAB在《數(shù)字圖像處理》課程中的輔助教學(xué)
基于互信息和小波變換的圖像配準的研究
基于虛擬孔徑擴展的子帶信息融合寬帶DOA估計
RTS平滑濾波在事后姿態(tài)確定中的應(yīng)用
基于線性正則變換的 LMS 自適應(yīng)濾波
基于隨機加權(quán)估計的Sage自適應(yīng)濾波及其在導(dǎo)航中的應(yīng)用
基于Sage—Husa濾波的GNSS/INS組合導(dǎo)航自適應(yīng)濾波
基于子帶模式的AMC技術(shù)算法分析
凤台县| 邢台县| 安溪县| 宣城市| 昌图县| 罗平县| 莒南县| 陕西省| 长治县| 元氏县| 乐清市| 蕉岭县| 会泽县| 双桥区| 荥经县| 黎平县| 新宾| 门源| 南涧| 开平市| 罗田县| 巴彦县| 龙泉市| 图木舒克市| 灵山县| 通许县| 巨鹿县| 崇阳县| 都兰县| 扬州市| 资源县| 阳高县| 弥渡县| 克什克腾旗| 察雅县| 福清市| 浦北县| 德阳市| 蓝山县| 思茅市| 平顶山市|