駱啟帆,章堅武,吳震東
(杭州電子科技大學(xué)通信工程學(xué)院,浙江杭州310018)
說話人確認(rèn)系統(tǒng)目前的主流系統(tǒng)為基于通用背景模型(Universal Background Model,UBM)與高斯混合模型(Gaussain Mixture Models,GMM)的系統(tǒng),其中UBM通過期望最大化算法得到,而高斯混合模型則是在UBM的基礎(chǔ)上自適應(yīng)的選擇最大概率的幾個混合數(shù)并進(jìn)一步計算得到[1,2]。常用特征參數(shù)中,從人耳角度描述短時聲道信息的梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)相對于基于線性預(yù)測理論的線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)有著更好的識別性能。然而后續(xù)研究者在對MFCC進(jìn)行了不斷研究與優(yōu)化后[3,4],MFCC的性能進(jìn)入了一個瓶頸。研究人員開始開發(fā)其他特征,如基頻,能量等。但這些特征往往有著注冊語音長,性能不如MFCC等缺點(diǎn)。由于這些韻律特征表征的是聲門信息,它們與表征聲道的MFCC有著良好的互補(bǔ)性。此外,特征之間的融合也進(jìn)入了研究者的視線。人們提出將不同的特征加以融合,如將MFCC與能量信息等其它特征直接線性拼接為一個特征,并在拼接的基礎(chǔ)上進(jìn)行降維[5]。本文研究了韻律特征參數(shù)與MFCC的原理及其提取方法,并在此基礎(chǔ)上提出采用二次判決的方法融合MFCC與韻律特征參數(shù)。通過實(shí)驗,驗證了該方法的有效性。
MFCC作為最常用的特征參數(shù),從人耳對頻率的非線性感知角度描述了聲道變化特性,作為一種短時特征,比其他類似的短時特征有著明顯的優(yōu)勢。
簡單的來說,MFCC就是在頻率域采用一組基于Mel頻率的三角帶通濾波器來模擬人耳對聲音的感知。其提取流程圖如圖1所示。Mel頻率與線性頻率的轉(zhuǎn)化關(guān)系為:
圖1 MFCC提取流程圖
MFCC提取的主要步驟如下:
(1)語音信號的預(yù)處理,包括預(yù)加重,分幀,加窗;
(2)對上一步得到的每幀信號進(jìn)行FFT,獲得頻域幅度譜;
(3)對每幀信號的頻域幅度譜取平方獲得功率譜;
(4)將功率譜通過基于Mel頻率的三角帶通濾波器組,該組三角帶通濾波器的中心頻率在Mel頻率域呈均勻分布。三角帶通濾波器組的傳遞函數(shù)為:
式中,f(m)為帶通濾波器組中第 m個濾波器的中心頻率,其公式為其中,fmel(fh),fmel(fl)分別為最高頻率,最低頻率在Mel頻率上的對應(yīng)值,N為FFT長度,M為Mel三角濾波器組中濾波器個數(shù)。其中
(5)對每個帶通濾波器的結(jié)果取對數(shù),得到對數(shù)功率譜參數(shù);
(6)對上一步得到的對數(shù)功率譜參數(shù)進(jìn)行DCT變換,即得到MFCC特征參數(shù)。
濁音信號是一個準(zhǔn)周期信號,即時域波形如圖2所示,呈準(zhǔn)周期性,該周期的倒數(shù)即為基音頻率。研究表明,人的基音頻率處在50 450Hz之間。
基音周期的獲取方法有許多,包括短時自相關(guān)函數(shù)法,平均幅度差法等,各有其優(yōu)點(diǎn)與缺陷。在這里,采用短時自相關(guān)函數(shù)法計算。短時自相關(guān)函數(shù)的公式如下:
圖2 濁音信號時域波形圖
式中,s(n)為語音幀,N為該幀的長度。
基音周期獲取具體算法如下:
(1)首先進(jìn)行預(yù)加重,分幀,并計算每一幀的短時能量E與整段語音的平均能量,將小于平均能量百分之一的幀作為靜音幀去除;
(2)采用中心削波法對語音信號進(jìn)行削波。削波函數(shù)為:
式中,T為削波電平,一般取本幀語音幅度最大值的60% 70%,本實(shí)驗中取60%。削波后的時域波形如圖3所示;
(3)計算削波后的信號短時自相關(guān)函數(shù),計算得到的自相關(guān)如圖4所示。對自相關(guān)函數(shù)結(jié)果取峰值并記為R0,并將峰值附近賦值為0。若R0過小則記R0為0;
(4)再次取峰值,記為R1,同時對R1進(jìn)行判斷,若R1過小或過大均置為0;
(5)將|R1-R0|作為基音周期,采用5點(diǎn)平滑算法對得到的基音周期進(jìn)行平滑,并將周期不在基音范圍內(nèi)的語音幀作為清音幀刪除;
(6)參考采樣頻率計算基音周期,并取其倒數(shù)作為基音頻率;
(7)取剩余幀中基音頻率的對數(shù)與能量E的對數(shù),將這兩者拼接起來作為韻律特征。
圖3 中心削波后的信號
圖4 削波后的自相關(guān)函數(shù)
說話人確認(rèn)是一個閉集問題,即判斷給定的測試語音是:H1是由申明說話人發(fā)出;H2不是由申明說話人發(fā)出。其大致流程圖為:
圖5 普通判決流程圖
在說話人確認(rèn)中通常采用對數(shù)似然比得分來代替概率,判決式為:
式中,x為特征矢量,λUBM為UBM參數(shù),λGMM為申明說話人的參數(shù);當(dāng)S(x)小于給定門限γ時,判決語音由申明說話人發(fā)出,否則語音不是由該說話人發(fā)出。
為將MFCC與韻律特征結(jié)合的更好,本文提出,可以采用先對語音信號進(jìn)行MFCC特征的判決。當(dāng)差值在某個門限內(nèi)時,記錄下該段語音,并跳過MFCC對該段語音的判決。其后對在前一個階段被記錄下的語音采用對數(shù)基頻及對數(shù)能量進(jìn)行二次判決。
在對MFCC實(shí)驗的過程中,發(fā)現(xiàn)等錯誤率的門限一般在2 3003500這個區(qū)間內(nèi),換句話說,對于得分在這段區(qū)間附近的語音而言,MFCC已不能很好地分辨是否由說話人發(fā)出的?;谝陨峡紤],將參考門限設(shè)定為3 000 4 000,即得分在該區(qū)間內(nèi)的語音被判為MFCC無法正確判決的語音,采用基于韻律特征的方法對其進(jìn)一步判決。
圖6 線性判決流程圖
本實(shí)驗采用語音庫:語音庫1為源于網(wǎng)絡(luò)的23人語音庫,在本次實(shí)驗中用于通用背景模型的訓(xùn)練;語音庫2為實(shí)驗室采集的36人語音庫,每人采集10句中文語音,說話內(nèi)容從朗讀到隨意講述不限,平均每句語音長約10s,在本次實(shí)驗中用于訓(xùn)練個人的GMM與測試實(shí)驗結(jié)果。語音庫1、2采樣頻率同為16k。
實(shí)驗對比了只采用MFCC與采用二次判決兩種方法時的系統(tǒng)性能。在本次測試中,語音幀幀長設(shè)置為0.02s,幀移為0.01s,實(shí)驗中加窗采用漢明窗。UBM的訓(xùn)練采用語音庫1中語音,總長約20min,混合數(shù)為64;個人GMM訓(xùn)練時,每人采用3段語音進(jìn)行訓(xùn)練,混合數(shù)為5;測試時每人均采用剩余7段語音用于測試。韻律特征部分中語音幀幀長,幀移,加窗和UBM混合數(shù)等參數(shù)與MFCC部分一致。判決時,先對MFCC部分得分進(jìn)行計算,當(dāng)?shù)梅衷? 000-4 000內(nèi)時,記錄下該段語音的標(biāo)號,否則給出判決結(jié)果;MFCC部分判決結(jié)束后,啟動韻律特征部分對被記錄下標(biāo)號的語音進(jìn)行二次判決,該判決結(jié)果即為最終判決結(jié)果。
實(shí)驗判決結(jié)果如表1所示。從表1中可以看出,使用本文提出的二次判決融合特征方法使系統(tǒng)的等錯誤率明顯下降,充分表明了本文提出的融合方法的有效性。另外,經(jīng)實(shí)驗發(fā)現(xiàn),采用MFCC模型時,得分在二次判決得分空間范圍內(nèi)的語音數(shù)不足7.5%,這從側(cè)面證明了MFCC的良好性能。在最后一次實(shí)驗中,進(jìn)入二次判決空間的語音為676條,但是在等錯誤門限處判斷錯誤數(shù)(包括虛警與漏報)為413條,這表明韻律特征雖然在本系統(tǒng)中作為輔助性特征,使話者識別性能有較大提高,但其單獨(dú)作為一個特征參數(shù)仍顯不足。
表1 實(shí)驗判決結(jié)果(%)
本文介紹了一種融合了MFCC與韻律特征的說話人確認(rèn)方法。該方法充分利用了兩種不同角度特征的互補(bǔ)性。實(shí)驗結(jié)果表明,該新方法提高了話者識別系統(tǒng)的性能。
[1]Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[J].Digital signal processing,2000,10(1):19 -41.
[2]Reynolds D A,Rose R C.Robust text-independent speaker identification using Gaussian mixture speaker models[J].IEEE Trans on Speech Audio Process,1995,3(1):72 -83.
[3]甄斌,吳璽宏,劉志敏,等.語音識別和說話人識別中各倒譜分量的相對重要性[J].北京大學(xué)學(xué)報(自然科學(xué)版),2001,37(3):371 -378.
[4]陸偉,戴蓓蓓,李輝,等.MFCC中的基音頻率信息對說話人識別系統(tǒng)性能的影響[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2009,39(8):859 -860.
[5]汪崢,連翰,王建軍.說話人識別中特征參數(shù)提取的一種新方法[J].復(fù)旦學(xué)報(自然科學(xué)版),2005,44(1):197-200.