国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于FT和HHT的語音能量輪郭特征提取

2014-07-12 12:29:20劉翠張歆奕
關(guān)鍵詞:輪廓語音聚類

劉翠,張歆奕

(五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020)

基于FT和HHT的語音能量輪郭特征提取

劉翠,張歆奕

(五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020)

使用FT和HHT分別對男女語音的能量輪廓特征進(jìn)行提取,并通過聚類性能分析判別兩種方法提取的語音能量輪郭特征的有效性. Matlab仿真結(jié)果表明,不管是男生分類、女生分類還是男女分類,用HHT提取的語音特征的聚類效果都比FT的效果好,能較好體現(xiàn)不同語音信號的個(gè)性信息,有助于提高識別率.

語言識別;傅里葉變換;希爾伯特-黃變換;能量輪廓

語音信號的特征提取是語音信號處理的前提和基礎(chǔ),只有將語音信號表示成反映其本質(zhì)特征的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語音通信,才能建立用于語音合成的語音庫,也才可能建立用于識別的模板或知識庫[1],因此有效的語音信號特征提取具有很重要的意義. 能量輪廓是表示語音信號特征的重要參數(shù),一般用短時(shí)平均能量法來提取[2],也可以通過用傅里葉變換(Fourier Transform,F(xiàn)T)來求得語音信號的能量輪廓特征,但是用FT的形式來表達(dá)信號略顯抽象,且FT只能處理平穩(wěn)信號. 希爾伯特-黃變換(Hilbert-Huang Transform,HHT)是一種適用于非線性、非平穩(wěn)信號的處理方法,在工程信號處理等領(lǐng)域取得了很好的效果[3]. 本文將用HHT來提取語音信號的能量輪廓,并與常規(guī)的FT提取方法進(jìn)行對比.

1 FT與HHT的比較

頻率是描述和分析信號的重要物理量,F(xiàn)T和HHT都可以從頻域來分析信號. 傳統(tǒng)的FT得到的是一種按頻率分布的全局的能量譜圖,由于它在各數(shù)據(jù)領(lǐng)域廣泛運(yùn)用,使人們對譜的認(rèn)識幾乎等同于FT. FT理論的創(chuàng)立,一方面使頻率成為表征信號的最重要的特征,在信號分析中得到了廣泛的應(yīng)用;另一方面,F(xiàn)T用無窮個(gè)不同周期的正弦或余弦基函數(shù)疊加來逼近信號,就是將一個(gè)信號的時(shí)域表示形式映射到一個(gè)頻域表示形式[4]. 因?yàn)镕T是分析線性系統(tǒng)和平穩(wěn)信號穩(wěn)態(tài)特性的工具,它是基于短時(shí)平穩(wěn)的假設(shè)下,用穩(wěn)態(tài)分析方法處理非平穩(wěn)信號的一種方法. 所以用FT來處理語音信號,先將語音信號看成短時(shí)平穩(wěn)信號,如果將原始數(shù)據(jù)用FT展開,可表達(dá)成如下公式:

HHT是由黃鍔等人提出來的新的非平穩(wěn)非線性信號分析方法,它主要有兩個(gè)部分:經(jīng)驗(yàn)?zāi)P头纸猓‥mpirical Mode Decomposition,EMD)和希爾伯特(Hilbert)譜分析. 經(jīng)驗(yàn)?zāi)P头纸馐且跃植繒r(shí)間尺度為基礎(chǔ),它適用于非線性非平穩(wěn)過程,具有自適應(yīng)帶通濾波特性,任何信號都可以被分解為有限個(gè)固有模式函數(shù)(Intrinsic Mode Functions,IMF)的線性疊加. Hilbert譜分析是對每個(gè)IMF進(jìn)行Hilbert變換,變換后的解析信號可以表示為:

其中ai(t)表示第i個(gè)IMF的幅度值(瞬時(shí)幅度),ωi(t)表示第i個(gè)IMF的瞬時(shí)頻率.

根據(jù)HHT原理,首先將語音信號進(jìn)行EMD分解,得到n個(gè)IMF分量c1,c2,…,cn和剩余項(xiàng)rn(t);再將分解后的每個(gè)IMF分量進(jìn)行Hilbert變換,得到時(shí)頻屬性的Hilbert幅度譜Hi(ω,t);對Hi(ω,t)在時(shí)域上積分,得到頻域的能量分布. 即有限個(gè)點(diǎn)將整個(gè)時(shí)域劃分為若干個(gè)小區(qū)間t1,t2,…,tN,tN+1,對任意0<k<N+1,找到在整個(gè)時(shí)域范圍內(nèi)瞬時(shí)頻率落在第k個(gè)小區(qū)間的點(diǎn),把幅度加起來,即:

其中Ωk=(tk+tk+1)為第k個(gè)區(qū)間的頻率代表值. 由此可得hi(Ωk)即是IMF邊際譜,對所有IMF邊際譜求和[6],可得語音信號的總邊際譜h(Ω):

從頻率意義上講,用HHT求得的邊際譜表征了整組數(shù)據(jù)每個(gè)頻率點(diǎn)的累積幅值分布,而FT求得的Fourier頻譜指某一點(diǎn)頻率上的幅值,表示整個(gè)信號里有一個(gè)含有此頻率的三角函數(shù)成分. 對比式(1)和(2),可以明顯地看出,用HHT的形式來表達(dá)信號比FT表達(dá)更一般化. 在處理信號的作用上,HHT能處理非平穩(wěn)信號,自適應(yīng)地將其分解為若干特征時(shí)間尺度不同的單一信號,能準(zhǔn)確反映信號的實(shí)際頻率成分,得出的瞬時(shí)頻率具有明確的物理意義,而FT只能處理平穩(wěn)信號[7].

2 能量輪廓特征的提取和特征對比

2.1 基于FT的能量特征提取算法

短時(shí)FT處理前都要進(jìn)行加窗處理,具體算法步驟如下:

步驟1 對加載的語音信號加矩形窗分幀,幀長512,幀疊100;

步驟2 對其進(jìn)行FT得到頻譜x(f),然后求其絕對值求平方得其能量譜;

步驟3 將頻率f取對數(shù),劃分為14個(gè)子頻帶,各子頻帶的帶寬間隔BW=log2(j)-log2(i)恒等于1,其中j>i,i,j均屬于頻率f;

步驟4 分別計(jì)算每個(gè)子頻帶的能量Ei,得到14維的特征矢量SE1.

本文選取實(shí)驗(yàn)室錄制的2男2女共120個(gè)語音樣本(每人30個(gè)樣本)的樣本集A,得到如圖1和圖2所示的語音能量特征參數(shù)輪廓圖.

圖1 FT提取男生1和男生2語音能量的特征參數(shù)輪廓

圖2 FT提取女生1和女生2語音能量的特征參數(shù)輪廓

2.2 基于HHT的能量特征提取算法

根據(jù)HHT原理的介紹,可以知道邊際譜能較好地體現(xiàn)語音信號能量變化信息,因此在語音信號的邊際譜的基礎(chǔ)上提取幾個(gè)特征. 具體的算法步驟如下:

步驟1 對語音信號進(jìn)行HHT,得到H(ω,t);

步驟2 求出信號的總邊際譜h(ω),其中ω用對數(shù)坐標(biāo);

步驟3 將ω劃分為14個(gè)子頻帶,各子頻帶的帶寬BW在ω對數(shù)域呈等差值為1的等差遞減;

步驟4 分別計(jì)算每個(gè)子頻帶的能量Ei,得到14維的特征矢量SE2.

選取與FT法中同樣的樣本集A,進(jìn)行上述步驟的處理后,得到如圖3-4所示的語音能量特征參數(shù)輪廓.

圖4 HHT提取女生1和女生2語音能量的特征參數(shù)輪廓

3 聚類性能分析法

在模式識別中,類別的可分性不僅取決于類間距離,還取決于類內(nèi)距離. 設(shè)兩個(gè)語音信號的特征矢量為x,y,其中,x1=(x1,x2,…,xn)′,y=(y1,y2,…,yn)′,n為特征維數(shù),x和y的距離記為d(x,y).算式如下:

聚類的目的是使Sm趨向最小,Smt趨向最大,定義聚類性能參數(shù)J如下[8]:

分別用FT和HHT提取的特色進(jìn)行了3組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示,對于樣本集A,用FT得到能量輪廓特征參數(shù)進(jìn)行聚類性分析的結(jié)果為:男生1(30個(gè)語音樣本)與男生2(30個(gè)語音樣本)的聚類性能參數(shù)J1為0.4694,女生1與女生2的聚類性能參數(shù)J2為0.5051,兩個(gè)男生(60個(gè)語音樣本)與兩個(gè)女生(60個(gè)語音樣本)的聚類性能參數(shù)J3為0.3545. 用HHT得到能量輪廓特征參數(shù)進(jìn)行聚類性分析的結(jié)果為:男生1(30個(gè)語音樣本)與男生2(30個(gè)語音樣本)的聚類性能參數(shù)J1為0.2987,女生1與女生2的聚類性能參數(shù)J2為0.3266,兩個(gè)男生(60個(gè)語音樣本)與兩個(gè)女生(60個(gè)語音樣本)的聚類性能參數(shù)J3為0.2431.

對比圖1~4,可以粗略看出FT提取不同人的能量特征輪廓區(qū)別性不是很大,說明類間區(qū)分能量不強(qiáng),而HHT提取的能量特征輪廓在不同人時(shí)區(qū)別較大,同一個(gè)人的不同樣本的能量輪廓差別較小;從表1的實(shí)驗(yàn)數(shù)據(jù)可知,HHT提取的語音特征的聚類性能參數(shù)J都比FT法的要小,說明HHT法的聚類效果更好,識別率更高,因此HHT提取的能量輪廓特征能較好地體現(xiàn)不同說話人語音信號的個(gè)性信息,可以作為識別中的一個(gè)重要特征.

表1 FT和HHT聚類性能對比

4 結(jié)論

本文通過FT和HHT原理上的比較,以及用兩種方法提取的特征進(jìn)行聚類性分析得出:HHT提取的特征聚類效果較好,且HHT不必對信號分幀,保留了信號的動態(tài)信息,是語音信號處理的又一有力方法. 此外,自適應(yīng)的特點(diǎn),以及頻率隨時(shí)間快速變化的動態(tài)信息能夠提取更多有用信息,說明HHT從頻域的角度也能很好處理信號,只是在處理信號的時(shí)間上略有不足,達(dá)不到FT的速度.本文是對Hilbert幅度譜Hi(ω,t)在時(shí)域上積分,得到在頻域上的能量分布,未來可以對Hilbert幅度譜Hi(ω,t)在頻域上積分,得到其在時(shí)域上的能量分布,這些問題還有待于進(jìn)一步的研究.

[1] LEE C M, NARAYANAN S S. Toward detecting emotions in spoken dialogs [J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(1): 230-235.

[2] 張雪英. 數(shù)字語音處理及MATLAB仿真[M]. 北京:電子工業(yè)出版社,2010.

[3] 謝珊,曾以成,蔣陽波. 希爾伯特邊際譜在語音情感識別中的應(yīng)用[J]. 聲學(xué)技術(shù),2009, 28(2): 148-152.

[4] 張榮強(qiáng),馬曉紅. 說話人識別中特征提取的方法研究[D]. 大連:大連理工大學(xué),2005.

[5] 方杰,李英. 語音特征值提取方法的研究[D]. 無錫:江南大學(xué),2006.

[6] 謝珊. 基于HHT的語音情感識別研究[D]. 湘潭:湘潭大學(xué),2008.

[7] 李凌,曾以成,雷雄國. EMD在說話人辨認(rèn)中的應(yīng)用[J]. 湘潭大學(xué)學(xué)報(bào):自然科學(xué)版,2006, 28(3): 108-111.

[8] 王小佳. 基于特征選擇的語音情感識別研究[D]. 鎮(zhèn)江:江蘇大學(xué),2007.

[責(zé)任編輯:韋 韜]

Energy Contour Features Extraction Based on Fourier Transform and Hilbert- Huang Transform

LIU Cui, ZHANG Xin-yi
(School of Information Engineering, Wuyi University, Jiangmen 529020, China)

The energy contour features of men’s and women’s voice are extracted using the Hilbert-Huang Transform and the Fourier Transform respectively, the effectiveness of the characteristics of the two methods of extraction is determined through the clustering performance analysis. Matlab simulation results show that the clustering effect of the voice features extracted by HHT is better than that by FT. Voice features extracted by HHT can better reflect the personality information of different speakers and can improve recognition rates.

vice recognition; Fourier Transform; Hilbert-Huang Transform; energy contour

TN912.34

A

1006-7302(2014)01-0045-05

2013-09-13

劉翠(1988—),女,河南信陽人,在讀碩士生,研究方向?yàn)檎Z音識別;張歆奕,副教授,博士,通信作者,研究方向?yàn)檎Z音信號處理.

猜你喜歡
輪廓語音聚類
輪廓錯(cuò)覺
基于實(shí)時(shí)輪廓誤差估算的數(shù)控系統(tǒng)輪廓控制
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于改進(jìn)的遺傳算法的模糊聚類算法
在線學(xué)習(xí)機(jī)制下的Snake輪廓跟蹤
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
南宁市| 泰来县| 温州市| 厦门市| 民县| 安溪县| 天津市| 当阳市| 谢通门县| 公安县| 海南省| 米泉市| 苏尼特左旗| 广平县| 营口市| 邵武市| 民县| 安福县| 闽侯县| 扎鲁特旗| 乌兰察布市| 天台县| 建平县| 宁化县| 逊克县| 阜新市| 镇宁| 威远县| 莲花县| 离岛区| 华容县| 新绛县| 乡城县| 岳西县| 巴中市| 方山县| 修武县| 呈贡县| 罗定市| 石门县| 巴南区|