孟 慧,梅鐵民,朱向榮
(1.沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽(yáng) 110159;2.淄博民通熱力有限公司,山東 淄博 255400)
一種小波包變換的聲紋參數(shù)提取方法研究
孟 慧1,梅鐵民1,朱向榮2
(1.沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽(yáng) 110159;2.淄博民通熱力有限公司,山東 淄博 255400)
在聲紋識(shí)別系統(tǒng)中,對(duì)聲紋參數(shù)的提取很重要。傳統(tǒng)的MFCC參數(shù)忽略了語(yǔ)音信號(hào)的動(dòng)態(tài)特性,因此提出了一種基于小波包變換的聲紋參數(shù)提取方法。為了更突出說(shuō)話人的聲紋特征,克服說(shuō)話內(nèi)容不同對(duì)提取聲紋參數(shù)的影響,在分幀階段采用幀長(zhǎng)為2560點(diǎn),增長(zhǎng)有效語(yǔ)音段。再結(jié)合基于矢量量化(VQ)系統(tǒng)進(jìn)行說(shuō)話人識(shí)別實(shí)驗(yàn),并通過(guò)比較常用的db3、db4、db6、coif3小波函數(shù)選取最優(yōu)基。實(shí)驗(yàn)證明,相對(duì)于常用的256點(diǎn)幀長(zhǎng),幀長(zhǎng)為2560點(diǎn)的識(shí)別率較高且提高了運(yùn)算速率。coif3小波函數(shù)為聲紋參數(shù)提取的最優(yōu)基。新的WPT參數(shù)的識(shí)別率優(yōu)于傳統(tǒng)的MFCC參數(shù)。
聲紋參數(shù);小波包變換;能量;矢量量化;語(yǔ)音信號(hào)
隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通信的迅猛發(fā)展,人們的生活方式也發(fā)生了巨大變化。身份鑒別作為信息安全的重要組成部分已成為全球最熱門的研究領(lǐng)域之一,在日常生活的每個(gè)領(lǐng)域都起著至關(guān)重要的作用[1]。傳統(tǒng)的密碼識(shí)別在實(shí)際應(yīng)用中具有很多缺陷,而且隨著手機(jī)等移動(dòng)設(shè)備的普及,密碼丟失導(dǎo)致隱私泄露和被犯罪分子盜取的數(shù)量越來(lái)越多。在這種情況下,進(jìn)行聲紋識(shí)別有重要的意義。因此,研究可靠的聲紋識(shí)別系統(tǒng),提高聲紋識(shí)別的準(zhǔn)確率,具有良好的應(yīng)用前景[2]。聲紋識(shí)別是一項(xiàng)難度較高的技術(shù),它包括代表說(shuō)話人特征的聲紋的提取和識(shí)別兩個(gè)方面。從聲音中提取一組反映說(shuō)話人特征的聲學(xué)參數(shù)構(gòu)成一個(gè)人的聲紋,這是一個(gè)復(fù)雜的過(guò)程,但它也是聲紋識(shí)別的關(guān)鍵所在。根據(jù)語(yǔ)音信號(hào)的聲學(xué)特殊性,已經(jīng)提出一些有效的聲學(xué)特征提取方法,如能夠充分反映人耳聽(tīng)覺(jué)系統(tǒng)的非線性特性的MFCC(Mel-Frequency Cepstral Coefficients)參數(shù)[3]。它是將語(yǔ)音信號(hào)的頻譜通過(guò)非線性變換轉(zhuǎn)換為Mel頻率,然后再轉(zhuǎn)換到倒譜域上,從而獲得MFCC參數(shù)。雖然在識(shí)別性能和抗噪能力上MFCC參數(shù)都具有很好的性能,也是目前應(yīng)用比較廣泛的聲紋特征參數(shù),但是MFCC參數(shù)并不能很好地反映人耳的聽(tīng)覺(jué)特性,此外,該算法需對(duì)語(yǔ)音信號(hào)進(jìn)行多步復(fù)雜計(jì)算,計(jì)算量較大,不利于快速語(yǔ)音識(shí)別[4]。本文提出了一種基于小波包變換的聲紋特征參數(shù)(WPT參數(shù))。它既能較好地反映語(yǔ)音信號(hào)的動(dòng)態(tài)特性,又能反映人耳的聽(tīng)覺(jué)特性。仿真研究表明,相對(duì)于MFCC參數(shù),具有較好的抗噪聲能力,而且在減少了運(yùn)算量的同時(shí)提高了識(shí)別率。
小波包變換將信號(hào)頻帶進(jìn)行多層次劃分,即對(duì)小波變換沒(méi)有細(xì)分的高頻部分進(jìn)一步分解,并能夠根據(jù)被分析信號(hào)的特征,自適應(yīng)地選擇相應(yīng)的頻帶,使之與信號(hào)頻譜相匹配,從而提高了時(shí)頻分辨率[5-6]。
(1)
式中,gk=(-1)kh1-k,即兩系數(shù)也具有正交關(guān)系。當(dāng)n=0時(shí),式(1)直接給出:
(2)
與在多分辨分析中,φ(t)和ψ(t)滿足雙尺度方程:
(3)
(4)
(5)
(6)
為便于比較,首先簡(jiǎn)單介紹一下MFCC參數(shù)提取方法,然后給出基于小波包變換的WPT(Wavelet Packet Transform)聲紋參數(shù)提取方法。
2.1 MFCC參數(shù)提取方法
人類的聽(tīng)覺(jué)系統(tǒng)是一個(gè)比較特殊的非線性系統(tǒng),對(duì)于不同頻率信號(hào)響應(yīng)的靈敏度是不同的。Mel倒譜參數(shù)(MFCC)就是一個(gè)能夠較好反映人耳感知特性的參數(shù)。這里的Mel倒譜參數(shù)是人耳所感知到的音調(diào)的度量單位[7]。Mel頻率是對(duì)人耳所聽(tīng)到的漢語(yǔ)音調(diào)的度量。
Mel頻率與線性頻率的轉(zhuǎn)換關(guān)系如下所示:
fMel=2595lg[1+f/700]
(7)
Mel倒譜參數(shù)特征是按照幀計(jì)算出來(lái)的,提取的過(guò)程可以用以下過(guò)程來(lái)表示:
1)首先確定每一幀語(yǔ)音采樣序列的點(diǎn)數(shù),一般取N=256點(diǎn)。對(duì)每一幀序列s(n)進(jìn)行預(yù)加重、分幀加窗預(yù)處理后,x(n)再經(jīng)過(guò)離散FFT變換,取其模的平方得到離散功率譜X(k)為
(8)
2)將上述頻譜通過(guò)一組三角帶通濾波器組成的Mel濾波器,計(jì)算X(k)通過(guò)M個(gè)Mel濾波器后得到的M個(gè)能量Pm(m=0,1,…,M-1)。
3)計(jì)算Pm的自然對(duì)數(shù)能量,得到Lm(m=0,1,…,M-1)。
(9)
4)將,L0,L1,…,LM-1通過(guò)離散余弦變換求得Dm,m=0,1,…,M-1。去掉表示直流分量的D0,取D1,D2,…,DL即為MFCC參數(shù)
(10)
式中,L為MFCC參數(shù)的維數(shù),M為Mel濾波器的個(gè)數(shù)。
由于在實(shí)際聲紋識(shí)別應(yīng)用中并不需要取全部維數(shù)的MFCC參數(shù),因?yàn)樽钋懊鎺拙S以及最后面幾維的參數(shù)對(duì)語(yǔ)音的區(qū)分性能不大,通常取前16維的MFCC參數(shù)即可。
2.2 WPT參數(shù)提取方法
2.2.1 語(yǔ)音信號(hào)的分幀加窗
語(yǔ)音信號(hào)為一種典型的非平穩(wěn)信號(hào),為了便于分析,語(yǔ)音信號(hào)被視為短時(shí)間內(nèi)是平穩(wěn)的。根據(jù)人類的發(fā)聲機(jī)理,語(yǔ)音信號(hào)的頻譜特性以及某些物理特征參數(shù)在10ms至30ms時(shí)間內(nèi)是近似穩(wěn)定不變的。所以就可以把一段語(yǔ)音信號(hào)分成若干穩(wěn)定小段,每個(gè)短時(shí)段被稱為一幀,相鄰兩幀之間會(huì)有重疊部分,重疊部分被稱為幀移,幀移與幀長(zhǎng)通常保持0至0.5的比值[8]。通過(guò)滑動(dòng)一個(gè)窗函數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行加權(quán)處理。對(duì)語(yǔ)音s(n)加窗,窗函數(shù)w(n)乘以s(n)形成加窗語(yǔ)音sw(n),sw(n)=s(n)·w(n)。在聲紋識(shí)別系統(tǒng)中,漢明窗因其具有較低的旁瓣高度和低通特性被廣泛用應(yīng)用以避免短時(shí)語(yǔ)音段的影響,所以本文在分幀加窗步驟采用漢明窗,如下式所示:
(11)
式中N為窗口長(zhǎng)度。為更突出說(shuō)話人的聲紋特征,克服說(shuō)話內(nèi)容不同對(duì)提取聲紋參數(shù)的影響,在分幀階段采用幀長(zhǎng)為2560點(diǎn),即N=2560,增長(zhǎng)有效語(yǔ)音段。
2.2.2 WPT參數(shù)的提取過(guò)程
基于小波包變換對(duì)聲紋特征參數(shù)(WPT)的提取過(guò)程如下。
1)首先對(duì)語(yǔ)音信號(hào)在給定尺度上進(jìn)行小波包分解。如前所述,選取合適的分解尺度和小波包基函數(shù)。設(shè)一幀語(yǔ)音信號(hào)為x(n),幀長(zhǎng)為2560。對(duì)x(n)進(jìn)行三層小波包分解,用(i,j)表示第i層的第j+1個(gè)結(jié)點(diǎn)(i=0,1,2,3;j=0,1,…,15)。比如:代表原始語(yǔ)音信號(hào)x(n)的為(0,0)結(jié)點(diǎn),(3,2)結(jié)點(diǎn)代表第三層第3個(gè)結(jié)點(diǎn)的小波包系數(shù)。
3)取對(duì)數(shù)。
S(j)=log(EWPCj)
(12)
4)對(duì)S(j)進(jìn)行離散余變換(DCT),求得WPT參數(shù):
C(j)=DCT(S(j))
(13)
傳統(tǒng)的基于小波包的聲紋參數(shù)提取的分幀通常幀長(zhǎng)取為256點(diǎn),幀移取100點(diǎn),即是把語(yǔ)音信號(hào)假設(shè)在短時(shí)間內(nèi)看作是平穩(wěn)的。這種短幀長(zhǎng)的聲紋提取比較適合文本識(shí)別。對(duì)于說(shuō)話人識(shí)別,希望盡量消除文本對(duì)所提取聲紋的影響。解決這一問(wèn)題的辦法是增加語(yǔ)音幀的長(zhǎng)度,從而只突出說(shuō)話人的特征。在語(yǔ)音活動(dòng)段,本文將幀長(zhǎng)取為2560。這樣提取的聲紋參數(shù)可以更好地克服由于說(shuō)話內(nèi)容不同而對(duì)聲紋參數(shù)提取造成的影響。
2.3 選取最優(yōu)基
在小波包變換中,可以選取不同的小波函數(shù)。不同的小波函數(shù)會(huì)對(duì)分析結(jié)構(gòu)產(chǎn)生不同結(jié)果,因此涉及到最優(yōu)小波函數(shù)的選取問(wèn)題。但是,在語(yǔ)音識(shí)別中,哪一種小波函數(shù)最優(yōu)并無(wú)定論。通??紤]小波函數(shù)變換的有效性、通用性和系數(shù)的唯一性。為了找到更適合說(shuō)話人識(shí)別聲紋參數(shù)提取的小波,本文將對(duì)常用的db3、db4、db6和coif3小波函數(shù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,以便比較這些小波函數(shù)在說(shuō)話人識(shí)別中的優(yōu)劣。
矢量量化模型在聲紋識(shí)別系統(tǒng)中的識(shí)別過(guò)程:
1)從測(cè)試語(yǔ)音信號(hào)中得到特征矢量;
2)用每個(gè)模板依次分別對(duì)特征矢量序列進(jìn)行矢量量化,計(jì)算各自的平均量化誤差,采用如下公式:
(14)
3)把平均量化誤差最小的碼本所對(duì)應(yīng)的說(shuō)話人作為系統(tǒng)的識(shí)別結(jié)果[9]。
聲紋特征參數(shù)提取之前,首先要對(duì)語(yǔ)音信號(hào)預(yù)加重,所用預(yù)加重濾波器為H(z)=1-αz-1,其中α取值為0.97。其次采用雙門限端點(diǎn)檢測(cè)算法進(jìn)行端點(diǎn)檢測(cè),目的是找出語(yǔ)音段和無(wú)音段并去除無(wú)音段。找到語(yǔ)音段之后要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,即進(jìn)行分幀、加窗處理,本實(shí)驗(yàn)采用幀長(zhǎng)為2560點(diǎn)的Hamming窗。最后再對(duì)每個(gè)人的聲音文件進(jìn)行特征參數(shù)提取并進(jìn)行矢量量化。
由上文介紹的WPT參數(shù)提取方法可知,提取的WPT參數(shù)是經(jīng)過(guò)三層小波包對(duì)語(yǔ)音信號(hào)分解的,那么得到的是16維度的聲紋參數(shù),而在實(shí)際的三維空間內(nèi),不能夠表示出16維的仿真結(jié)果圖,所以本實(shí)驗(yàn)取到第5維度和第6維度的聲紋參數(shù)進(jìn)行仿真實(shí)驗(yàn),來(lái)表示二維的不同說(shuō)話人的聲紋數(shù)據(jù)點(diǎn)分布圖,如圖1所示。其中橫軸代表第五維度,縱軸代表第6維度。
圖1 不同說(shuō)話人的聲學(xué)矢量圖
對(duì)提取出的聲紋參數(shù)要進(jìn)行矢量量化,對(duì)于有16個(gè)人的聲紋識(shí)別系統(tǒng),歐幾里德特征空間被這16人的特征碼本分成16個(gè)有重疊但是有良好的辨別度或者完全不重疊的空間區(qū)域,而每一個(gè)區(qū)域有一個(gè)碼本,這些碼本分別包含這16個(gè)人的不同聲紋參數(shù)。語(yǔ)音信號(hào)數(shù)據(jù)落入的區(qū)域會(huì)相應(yīng)生成碼字,即語(yǔ)音信號(hào)的VQ碼本由表示人類聲道特征的若干個(gè)碼字矢量組成。那么將圖1所示的語(yǔ)音數(shù)據(jù)點(diǎn)訓(xùn)練生成相應(yīng)的VQ碼字如圖2所示。同樣橫軸代表第5維度,縱軸代表第6維度。
圖2 不同說(shuō)話人訓(xùn)練后的VQ碼字
本文采用自己錄制的語(yǔ)音數(shù)據(jù),每人被要求在相同的環(huán)境下錄制10次語(yǔ)音數(shù)據(jù),每次朗讀不同的漢語(yǔ)句子,前9次用于訓(xùn)練,最后一次用于識(shí)別。實(shí)驗(yàn)中,共采集16個(gè)不同人的聲音文件,男女各半,本實(shí)驗(yàn)是與文本無(wú)關(guān)的說(shuō)話人辨別,所以每人在環(huán)境相同的情況下隨意錄音3s。將所獲得的聲音文件按順序編號(hào)放到一個(gè)文件夾中,并依次對(duì)其訓(xùn)練,建立一個(gè)簡(jiǎn)單的語(yǔ)音庫(kù)。
實(shí)驗(yàn)中由統(tǒng)計(jì)和應(yīng)用兩部分組成。應(yīng)用部分建立一個(gè)完整的聲紋識(shí)別系統(tǒng),可以實(shí)現(xiàn)提取上述MFCC參數(shù)和WPT參數(shù),進(jìn)行實(shí)時(shí)訓(xùn)練和識(shí)別。統(tǒng)計(jì)部分利用完整的聲紋識(shí)別系統(tǒng)中已有的訓(xùn)練好的聲音文件的特征參數(shù)的碼本,對(duì)所有測(cè)試語(yǔ)音文件相對(duì)應(yīng)的某種參數(shù)的幀矢量集數(shù)據(jù)文件做統(tǒng)計(jì),計(jì)算出識(shí)別率。即隨機(jī)抽取8個(gè)待測(cè)語(yǔ)音文件分別進(jìn)行識(shí)別測(cè)試,每個(gè)聲音文件進(jìn)行8次測(cè)試,按照式(15)算出識(shí)別率,再由式(16)求平均,求得識(shí)別率,得到的各情況的識(shí)別結(jié)果如表1所示。
(15)
(16)
表1 不同聲紋參數(shù)的識(shí)別率
表1給出了兩種不同幀長(zhǎng)情況下,基于WPT參數(shù)的說(shuō)話人識(shí)別結(jié)果。說(shuō)明增加幀長(zhǎng)可以提高識(shí)別率。這與前述的判斷一致,即增加幀長(zhǎng)可以有效地消除說(shuō)話內(nèi)容對(duì)說(shuō)話人聲紋的影響。同時(shí)表明,不同小波函數(shù)對(duì)聲紋參數(shù)識(shí)別率是有影響的。在選用的四個(gè)不同小波系中,db3小波的識(shí)別率相對(duì)最差,coif3小波的識(shí)別率最好。因此,在基于小波包變化的說(shuō)話人識(shí)別中,小波系的選擇也是關(guān)鍵的一環(huán)。恰當(dāng)?shù)剡x擇小波系有助于提高識(shí)別率。
一幀語(yǔ)音信號(hào)的WPT參數(shù)與MFCC參數(shù)的對(duì)比圖如圖3所示??梢?jiàn)16個(gè)參數(shù)中,只有前面約七、八個(gè)值比較明顯外,后面的值都非常小,趨于零,不利于刻畫(huà)說(shuō)話人的特征。相反,16個(gè)WPT參數(shù)變化比較大,更有利于描述不同說(shuō)話人的特征??梢?jiàn)WPT參數(shù)特征相比于MFCC參數(shù)特征較好地表征了語(yǔ)音特征參量隨時(shí)間的變化動(dòng)態(tài)特性,從而有利于提高識(shí)別率。
圖3 一幀語(yǔ)音信號(hào)的WPT參數(shù)與MFCC參數(shù)仿真對(duì)比圖
為更進(jìn)一步驗(yàn)證WPT參數(shù)的性能,再分別進(jìn)行16維MFCC和參數(shù)WPT參數(shù)前10幀仿真實(shí)驗(yàn),如圖4所示。其中橫軸代表不同維參數(shù),縱軸代表不同維參數(shù)所對(duì)應(yīng)的值。由圖4可知,前10幀的MFCC參數(shù)第5、6、13維處等比較相似。眾所周知,特征參數(shù)越相似,聲紋識(shí)別系統(tǒng)在訓(xùn)練與識(shí)別時(shí),不同類別的特征參數(shù)的分類效率越高,有助于提高系統(tǒng)的識(shí)別率。相反,第2、3、7、9維參數(shù)的特征曲線有明顯的差異,那么這樣的MFCC參數(shù)不利于改善訓(xùn)練與識(shí)別的效果。
明顯地發(fā)現(xiàn),通過(guò)與MFCC參數(shù)仿真圖對(duì)比,各幀之間WPT參數(shù)的形狀更相似,即表示的特征更接近。因此WPT參數(shù),再結(jié)合表1所給出的統(tǒng)計(jì)結(jié)果驗(yàn)證了上述結(jié)論,WPT參數(shù)用于說(shuō)話人識(shí)別時(shí)要優(yōu)于MFCC參數(shù)。
(a)MFCC參數(shù)
(b)WPT參數(shù)
通過(guò)對(duì)傳統(tǒng)的聲紋特征參數(shù)MFCC的提取過(guò)程的分析研究再結(jié)合人類語(yǔ)音的動(dòng)態(tài)特性,將小波包變換引入到聲紋參數(shù)提取中,即提取語(yǔ)音信號(hào)的新的特征參數(shù)WPT參數(shù)。對(duì)于文本無(wú)關(guān)的聲紋識(shí)別系統(tǒng),為了更突出說(shuō)話人的聲紋特征,克服說(shuō)話內(nèi)容不同對(duì)提取聲紋參數(shù)的影響,在分幀階段采用加長(zhǎng)幀。且對(duì)常用的幾種小波函數(shù)的識(shí)別率進(jìn)行比較以選擇最優(yōu)基。在驗(yàn)證識(shí)別率性能時(shí)將所提取到的參數(shù)分別應(yīng)用到基于VQ矢量量化的聲紋識(shí)別系統(tǒng)中進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,相對(duì)于常用的256點(diǎn)幀長(zhǎng),幀長(zhǎng)為2560點(diǎn)的識(shí)別率較高且提高了運(yùn)算速率。coif3小波函數(shù)為聲紋參數(shù)提取的最優(yōu)基。相對(duì)于傳統(tǒng)的MFCC參數(shù),新聲紋參數(shù)WPT的識(shí)別率優(yōu)于傳統(tǒng)的MFCC參數(shù)。
[1]Glembek O,Burget L,Dehak N,et al.Comparison of scoring methods used in speakerrecongn-ition with joint factor analysis[C].In Proc.ICASSP,2009.
[2]D.Avic. An expert system for speaker identification using adaptive wavelet sure entropy[J].Expert System with Applications,2009,36(10):6295-6300.
[3]張萬(wàn)里,劉橋.Mel頻率倒譜系數(shù)提取及其在聲紋識(shí)別中的作用[J].貴州大學(xué)學(xué)報(bào),2005,22(2):207-210.
[4]Kajarekar. Phone-based cepstral polynomial SVM system for speakerrecognitiom[C].Procee-dings of Interspeech,2008.
[5]梁學(xué)章,何甲興,王新民,等.小波分析[M].北京:國(guó)防工業(yè)出版社,2004.
[6]劉雅琴,裘雪紅.應(yīng)用小波包變換提取說(shuō)話,人識(shí)別的特征參數(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2006,28(9):67-69.
[7]Azzam Sleit,Sami Serhan,Loai Nemir.A histogram based speaker identification technique[C].International Conference on ICADIWT,2008:384-388.
[8]Dehak R,Dehak N,Kenny P,et al.Kernel Combination for SVM Speaker Verification[C].In Odyssey Speaker and Language Recognition Workshop, 2008.
[9]邊肇祺,張學(xué)工.模式識(shí)別[M].北京:清華大學(xué)出版社,2000:305-314.
(責(zé)任編輯:馬金發(fā))
Voiceprint Parameters Extraction Based on Wavelet Packet Transform
MENG Hui1,MEI Tiemin1,ZHU Xiangrong2
(1.Shenyang Ligong University,Shenyang 110159,China;2.Zibo Mintong Heating Co.,Ltd,Zibo 255400,China)
In speaker recognition system,the voice parameters extraction is very important.The traditional MFCC parameter ignores the dynamic characteristics of speech signal,so a method is presented for extracting voice parameters based on wavelet packet transform.Text independent voice recognition system is to voice a more prominent feature of the speaker and overcomes the different speech content effects on the voiceprint parameters extraction.The frame length is adopted to increase effective voice for 2560 points in framing stage.And vector quantization (VQ) is combined with the speaker recognition experiment system,through the comparison of db3、db4、db6、coif3 wavelet function to choose the best basis.Experimental results show that frame length within 2560 points is higher and improves computing speed in comparison with common 256 point of the frame length.The optimal base coif3 wavelet function is taken as voiceprint parameter extraction.The MFCC parameter identification of the WPT parameters of the new rate is better than tradition one.
voiceprint parameter;wavelet transform;energy;vector quantization;speech signal
2014-11-05
孟慧(1989—),女,碩士研究生;通訊作者:梅鐵民(1964—),男,教授,研究方向:自適應(yīng)信號(hào)處理.
1003-1251(2015)06-0077-06
TN911
A