一種基于MFCC與韻律特征的說話人確認(rèn)方法

2013-09-04 02:04:28駱啟帆章堅武吳震東

杭州電子科技大學(xué)學(xué)報(自然科學(xué)版) 2013年5期

駱啟帆，章堅武，吳震東

(杭州電子科技大學(xué)通信工程學(xué)院，浙江杭州310018)

0 引言

說話人確認(rèn)系統(tǒng)目前的主流系統(tǒng)為基于通用背景模型(Universal Background Model，UBM)與高斯混合模型(Gaussain Mixture Models，GMM)的系統(tǒng)，其中UBM通過期望最大化算法得到，而高斯混合模型則是在UBM的基礎(chǔ)上自適應(yīng)的選擇最大概率的幾個混合數(shù)并進(jìn)一步計算得到［1，2］。常用特征參數(shù)中，從人耳角度描述短時聲道信息的梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficient，MFCC)相對于基于線性預(yù)測理論的線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient，LPCC)有著更好的識別性能。然而后續(xù)研究者在對MFCC進(jìn)行了不斷研究與優(yōu)化后［3，4］，MFCC的性能進(jìn)入了一個瓶頸。研究人員開始開發(fā)其他特征，如基頻，能量等。但這些特征往往有著注冊語音長，性能不如MFCC等缺點(diǎn)。由于這些韻律特征表征的是聲門信息，它們與表征聲道的MFCC有著良好的互補(bǔ)性。此外，特征之間的融合也進(jìn)入了研究者的視線。人們提出將不同的特征加以融合，如將MFCC與能量信息等其它特征直接線性拼接為一個特征，并在拼接的基礎(chǔ)上進(jìn)行降維［5］。本文研究了韻律特征參數(shù)與MFCC的原理及其提取方法，并在此基礎(chǔ)上提出采用二次判決的方法融合MFCC與韻律特征參數(shù)。通過實(shí)驗，驗證了該方法的有效性。

1 MFCC參數(shù)提取

MFCC作為最常用的特征參數(shù)，從人耳對頻率的非線性感知角度描述了聲道變化特性，作為一種短時特征，比其他類似的短時特征有著明顯的優(yōu)勢。

簡單的來說，MFCC就是在頻率域采用一組基于Mel頻率的三角帶通濾波器來模擬人耳對聲音的感知。其提取流程圖如圖1所示。Mel頻率與線性頻率的轉(zhuǎn)化關(guān)系為:

圖1 MFCC提取流程圖

MFCC提取的主要步驟如下:

(1)語音信號的預(yù)處理，包括預(yù)加重，分幀，加窗;

(2)對上一步得到的每幀信號進(jìn)行FFT，獲得頻域幅度譜;

(3)對每幀信號的頻域幅度譜取平方獲得功率譜;

(4)將功率譜通過基于Mel頻率的三角帶通濾波器組，該組三角帶通濾波器的中心頻率在Mel頻率域呈均勻分布。三角帶通濾波器組的傳遞函數(shù)為:

式中，f(m)為帶通濾波器組中第 m個濾波器的中心頻率，其公式為其中，fmel(fh)，fmel(fl)分別為最高頻率，最低頻率在Mel頻率上的對應(yīng)值，N為FFT長度，M為Mel三角濾波器組中濾波器個數(shù)。其中

(5)對每個帶通濾波器的結(jié)果取對數(shù)，得到對數(shù)功率譜參數(shù);

(6)對上一步得到的對數(shù)功率譜參數(shù)進(jìn)行DCT變換，即得到MFCC特征參數(shù)。

2 韻律特征提取

濁音信號是一個準(zhǔn)周期信號，即時域波形如圖2所示，呈準(zhǔn)周期性，該周期的倒數(shù)即為基音頻率。研究表明，人的基音頻率處在50 450Hz之間。

基音周期的獲取方法有許多，包括短時自相關(guān)函數(shù)法，平均幅度差法等，各有其優(yōu)點(diǎn)與缺陷。在這里，采用短時自相關(guān)函數(shù)法計算。短時自相關(guān)函數(shù)的公式如下:

圖2 濁音信號時域波形圖

式中，s(n)為語音幀，N為該幀的長度。

基音周期獲取具體算法如下:

(1)首先進(jìn)行預(yù)加重，分幀，并計算每一幀的短時能量E與整段語音的平均能量，將小于平均能量百分之一的幀作為靜音幀去除;

(2)采用中心削波法對語音信號進(jìn)行削波。削波函數(shù)為:

式中，T為削波電平，一般取本幀語音幅度最大值的60% 70%，本實(shí)驗中取60%。削波后的時域波形如圖3所示;

(3)計算削波后的信號短時自相關(guān)函數(shù)，計算得到的自相關(guān)如圖4所示。對自相關(guān)函數(shù)結(jié)果取峰值并記為R0，并將峰值附近賦值為0。若R0過小則記R0為0;

(4)再次取峰值，記為R1，同時對R1進(jìn)行判斷，若R1過小或過大均置為0;

(5)將|R1－R0|作為基音周期，采用5點(diǎn)平滑算法對得到的基音周期進(jìn)行平滑，并將周期不在基音范圍內(nèi)的語音幀作為清音幀刪除;

(6)參考采樣頻率計算基音周期，并取其倒數(shù)作為基音頻率;

(7)取剩余幀中基音頻率的對數(shù)與能量E的對數(shù)，將這兩者拼接起來作為韻律特征。

圖3 中心削波后的信號

圖4 削波后的自相關(guān)函數(shù)

3 線性融合

說話人確認(rèn)是一個閉集問題，即判斷給定的測試語音是:H1是由申明說話人發(fā)出;H2不是由申明說話人發(fā)出。其大致流程圖為:

圖5 普通判決流程圖

在說話人確認(rèn)中通常采用對數(shù)似然比得分來代替概率，判決式為:

式中，x為特征矢量，λUBM為UBM參數(shù)，λGMM為申明說話人的參數(shù);當(dāng)S(x)小于給定門限γ時，判決語音由申明說話人發(fā)出，否則語音不是由該說話人發(fā)出。

為將MFCC與韻律特征結(jié)合的更好，本文提出，可以采用先對語音信號進(jìn)行MFCC特征的判決。當(dāng)差值在某個門限內(nèi)時，記錄下該段語音，并跳過MFCC對該段語音的判決。其后對在前一個階段被記錄下的語音采用對數(shù)基頻及對數(shù)能量進(jìn)行二次判決。

在對MFCC實(shí)驗的過程中，發(fā)現(xiàn)等錯誤率的門限一般在2 3003500這個區(qū)間內(nèi)，換句話說，對于得分在這段區(qū)間附近的語音而言，MFCC已不能很好地分辨是否由說話人發(fā)出的?；谝陨峡紤]，將參考門限設(shè)定為3 000 4 000，即得分在該區(qū)間內(nèi)的語音被判為MFCC無法正確判決的語音，采用基于韻律特征的方法對其進(jìn)一步判決。

圖6 線性判決流程圖

4 實(shí)驗仿真及結(jié)果分析

本實(shí)驗采用語音庫:語音庫1為源于網(wǎng)絡(luò)的23人語音庫，在本次實(shí)驗中用于通用背景模型的訓(xùn)練;語音庫2為實(shí)驗室采集的36人語音庫，每人采集10句中文語音，說話內(nèi)容從朗讀到隨意講述不限，平均每句語音長約10s，在本次實(shí)驗中用于訓(xùn)練個人的GMM與測試實(shí)驗結(jié)果。語音庫1、2采樣頻率同為16k。

實(shí)驗對比了只采用MFCC與采用二次判決兩種方法時的系統(tǒng)性能。在本次測試中，語音幀幀長設(shè)置為0.02s，幀移為0.01s，實(shí)驗中加窗采用漢明窗。UBM的訓(xùn)練采用語音庫1中語音，總長約20min，混合數(shù)為64;個人GMM訓(xùn)練時，每人采用3段語音進(jìn)行訓(xùn)練，混合數(shù)為5;測試時每人均采用剩余7段語音用于測試。韻律特征部分中語音幀幀長，幀移，加窗和UBM混合數(shù)等參數(shù)與MFCC部分一致。判決時，先對MFCC部分得分進(jìn)行計算，當(dāng)?shù)梅衷? 000－4 000內(nèi)時，記錄下該段語音的標(biāo)號，否則給出判決結(jié)果;MFCC部分判決結(jié)束后，啟動韻律特征部分對被記錄下標(biāo)號的語音進(jìn)行二次判決，該判決結(jié)果即為最終判決結(jié)果。

實(shí)驗判決結(jié)果如表1所示。從表1中可以看出，使用本文提出的二次判決融合特征方法使系統(tǒng)的等錯誤率明顯下降，充分表明了本文提出的融合方法的有效性。另外，經(jīng)實(shí)驗發(fā)現(xiàn)，采用MFCC模型時，得分在二次判決得分空間范圍內(nèi)的語音數(shù)不足7.5%，這從側(cè)面證明了MFCC的良好性能。在最后一次實(shí)驗中，進(jìn)入二次判決空間的語音為676條，但是在等錯誤門限處判斷錯誤數(shù)(包括虛警與漏報)為413條，這表明韻律特征雖然在本系統(tǒng)中作為輔助性特征，使話者識別性能有較大提高，但其單獨(dú)作為一個特征參數(shù)仍顯不足。

表1 實(shí)驗判決結(jié)果(%)

5 結(jié)束語

本文介紹了一種融合了MFCC與韻律特征的說話人確認(rèn)方法。該方法充分利用了兩種不同角度特征的互補(bǔ)性。實(shí)驗結(jié)果表明，該新方法提高了話者識別系統(tǒng)的性能。

［1］Reynolds D A，Quatieri T F，Dunn R B.Speaker verification using adapted Gaussian mixture models［J］.Digital signal processing，2000，10(1):19 －41.

［2］Reynolds D A，Rose R C.Robust text-independent speaker identification using Gaussian mixture speaker models［J］.IEEE Trans on Speech Audio Process，1995，3(1):72 －83.

［3］甄斌，吳璽宏，劉志敏，等.語音識別和說話人識別中各倒譜分量的相對重要性［J］.北京大學(xué)學(xué)報(自然科學(xué)版)，2001，37(3):371 －378.

［4］陸偉，戴蓓蓓，李輝，等.MFCC中的基音頻率信息對說話人識別系統(tǒng)性能的影響［J］.中國科學(xué)技術(shù)大學(xué)學(xué)報，2009，39(8):859 －860.

［5］汪崢，連翰，王建軍.說話人識別中特征參數(shù)提取的一種新方法［J］.復(fù)旦學(xué)報(自然科學(xué)版)，2005，44(1):197－200.