国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于MFCC與韻律特征的說話人確認(rèn)方法

2013-09-04 02:04:28駱啟帆章堅武吳震東
關(guān)鍵詞:基音特征參數(shù)韻律

駱啟帆,章堅武,吳震東

(杭州電子科技大學(xué)通信工程學(xué)院,浙江杭州310018)

0 引言

說話人確認(rèn)系統(tǒng)目前的主流系統(tǒng)為基于通用背景模型(Universal Background Model,UBM)與高斯混合模型(Gaussain Mixture Models,GMM)的系統(tǒng),其中UBM通過期望最大化算法得到,而高斯混合模型則是在UBM的基礎(chǔ)上自適應(yīng)的選擇最大概率的幾個混合數(shù)并進(jìn)一步計算得到[1,2]。常用特征參數(shù)中,從人耳角度描述短時聲道信息的梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)相對于基于線性預(yù)測理論的線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)有著更好的識別性能。然而后續(xù)研究者在對MFCC進(jìn)行了不斷研究與優(yōu)化后[3,4],MFCC的性能進(jìn)入了一個瓶頸。研究人員開始開發(fā)其他特征,如基頻,能量等。但這些特征往往有著注冊語音長,性能不如MFCC等缺點(diǎn)。由于這些韻律特征表征的是聲門信息,它們與表征聲道的MFCC有著良好的互補(bǔ)性。此外,特征之間的融合也進(jìn)入了研究者的視線。人們提出將不同的特征加以融合,如將MFCC與能量信息等其它特征直接線性拼接為一個特征,并在拼接的基礎(chǔ)上進(jìn)行降維[5]。本文研究了韻律特征參數(shù)與MFCC的原理及其提取方法,并在此基礎(chǔ)上提出采用二次判決的方法融合MFCC與韻律特征參數(shù)。通過實(shí)驗,驗證了該方法的有效性。

1 MFCC參數(shù)提取

MFCC作為最常用的特征參數(shù),從人耳對頻率的非線性感知角度描述了聲道變化特性,作為一種短時特征,比其他類似的短時特征有著明顯的優(yōu)勢。

簡單的來說,MFCC就是在頻率域采用一組基于Mel頻率的三角帶通濾波器來模擬人耳對聲音的感知。其提取流程圖如圖1所示。Mel頻率與線性頻率的轉(zhuǎn)化關(guān)系為:

圖1 MFCC提取流程圖

MFCC提取的主要步驟如下:

(1)語音信號的預(yù)處理,包括預(yù)加重,分幀,加窗;

(2)對上一步得到的每幀信號進(jìn)行FFT,獲得頻域幅度譜;

(3)對每幀信號的頻域幅度譜取平方獲得功率譜;

(4)將功率譜通過基于Mel頻率的三角帶通濾波器組,該組三角帶通濾波器的中心頻率在Mel頻率域呈均勻分布。三角帶通濾波器組的傳遞函數(shù)為:

式中,f(m)為帶通濾波器組中第 m個濾波器的中心頻率,其公式為其中,fmel(fh),fmel(fl)分別為最高頻率,最低頻率在Mel頻率上的對應(yīng)值,N為FFT長度,M為Mel三角濾波器組中濾波器個數(shù)。其中

(5)對每個帶通濾波器的結(jié)果取對數(shù),得到對數(shù)功率譜參數(shù);

(6)對上一步得到的對數(shù)功率譜參數(shù)進(jìn)行DCT變換,即得到MFCC特征參數(shù)。

2 韻律特征提取

濁音信號是一個準(zhǔn)周期信號,即時域波形如圖2所示,呈準(zhǔn)周期性,該周期的倒數(shù)即為基音頻率。研究表明,人的基音頻率處在50 450Hz之間。

基音周期的獲取方法有許多,包括短時自相關(guān)函數(shù)法,平均幅度差法等,各有其優(yōu)點(diǎn)與缺陷。在這里,采用短時自相關(guān)函數(shù)法計算。短時自相關(guān)函數(shù)的公式如下:

圖2 濁音信號時域波形圖

式中,s(n)為語音幀,N為該幀的長度。

基音周期獲取具體算法如下:

(1)首先進(jìn)行預(yù)加重,分幀,并計算每一幀的短時能量E與整段語音的平均能量,將小于平均能量百分之一的幀作為靜音幀去除;

(2)采用中心削波法對語音信號進(jìn)行削波。削波函數(shù)為:

式中,T為削波電平,一般取本幀語音幅度最大值的60% 70%,本實(shí)驗中取60%。削波后的時域波形如圖3所示;

(3)計算削波后的信號短時自相關(guān)函數(shù),計算得到的自相關(guān)如圖4所示。對自相關(guān)函數(shù)結(jié)果取峰值并記為R0,并將峰值附近賦值為0。若R0過小則記R0為0;

(4)再次取峰值,記為R1,同時對R1進(jìn)行判斷,若R1過小或過大均置為0;

(5)將|R1-R0|作為基音周期,采用5點(diǎn)平滑算法對得到的基音周期進(jìn)行平滑,并將周期不在基音范圍內(nèi)的語音幀作為清音幀刪除;

(6)參考采樣頻率計算基音周期,并取其倒數(shù)作為基音頻率;

(7)取剩余幀中基音頻率的對數(shù)與能量E的對數(shù),將這兩者拼接起來作為韻律特征。

圖3 中心削波后的信號

圖4 削波后的自相關(guān)函數(shù)

3 線性融合

說話人確認(rèn)是一個閉集問題,即判斷給定的測試語音是:H1是由申明說話人發(fā)出;H2不是由申明說話人發(fā)出。其大致流程圖為:

圖5 普通判決流程圖

在說話人確認(rèn)中通常采用對數(shù)似然比得分來代替概率,判決式為:

式中,x為特征矢量,λUBM為UBM參數(shù),λGMM為申明說話人的參數(shù);當(dāng)S(x)小于給定門限γ時,判決語音由申明說話人發(fā)出,否則語音不是由該說話人發(fā)出。

為將MFCC與韻律特征結(jié)合的更好,本文提出,可以采用先對語音信號進(jìn)行MFCC特征的判決。當(dāng)差值在某個門限內(nèi)時,記錄下該段語音,并跳過MFCC對該段語音的判決。其后對在前一個階段被記錄下的語音采用對數(shù)基頻及對數(shù)能量進(jìn)行二次判決。

在對MFCC實(shí)驗的過程中,發(fā)現(xiàn)等錯誤率的門限一般在2 3003500這個區(qū)間內(nèi),換句話說,對于得分在這段區(qū)間附近的語音而言,MFCC已不能很好地分辨是否由說話人發(fā)出的?;谝陨峡紤],將參考門限設(shè)定為3 000 4 000,即得分在該區(qū)間內(nèi)的語音被判為MFCC無法正確判決的語音,采用基于韻律特征的方法對其進(jìn)一步判決。

圖6 線性判決流程圖

4 實(shí)驗仿真及結(jié)果分析

本實(shí)驗采用語音庫:語音庫1為源于網(wǎng)絡(luò)的23人語音庫,在本次實(shí)驗中用于通用背景模型的訓(xùn)練;語音庫2為實(shí)驗室采集的36人語音庫,每人采集10句中文語音,說話內(nèi)容從朗讀到隨意講述不限,平均每句語音長約10s,在本次實(shí)驗中用于訓(xùn)練個人的GMM與測試實(shí)驗結(jié)果。語音庫1、2采樣頻率同為16k。

實(shí)驗對比了只采用MFCC與采用二次判決兩種方法時的系統(tǒng)性能。在本次測試中,語音幀幀長設(shè)置為0.02s,幀移為0.01s,實(shí)驗中加窗采用漢明窗。UBM的訓(xùn)練采用語音庫1中語音,總長約20min,混合數(shù)為64;個人GMM訓(xùn)練時,每人采用3段語音進(jìn)行訓(xùn)練,混合數(shù)為5;測試時每人均采用剩余7段語音用于測試。韻律特征部分中語音幀幀長,幀移,加窗和UBM混合數(shù)等參數(shù)與MFCC部分一致。判決時,先對MFCC部分得分進(jìn)行計算,當(dāng)?shù)梅衷? 000-4 000內(nèi)時,記錄下該段語音的標(biāo)號,否則給出判決結(jié)果;MFCC部分判決結(jié)束后,啟動韻律特征部分對被記錄下標(biāo)號的語音進(jìn)行二次判決,該判決結(jié)果即為最終判決結(jié)果。

實(shí)驗判決結(jié)果如表1所示。從表1中可以看出,使用本文提出的二次判決融合特征方法使系統(tǒng)的等錯誤率明顯下降,充分表明了本文提出的融合方法的有效性。另外,經(jīng)實(shí)驗發(fā)現(xiàn),采用MFCC模型時,得分在二次判決得分空間范圍內(nèi)的語音數(shù)不足7.5%,這從側(cè)面證明了MFCC的良好性能。在最后一次實(shí)驗中,進(jìn)入二次判決空間的語音為676條,但是在等錯誤門限處判斷錯誤數(shù)(包括虛警與漏報)為413條,這表明韻律特征雖然在本系統(tǒng)中作為輔助性特征,使話者識別性能有較大提高,但其單獨(dú)作為一個特征參數(shù)仍顯不足。

表1 實(shí)驗判決結(jié)果(%)

5 結(jié)束語

本文介紹了一種融合了MFCC與韻律特征的說話人確認(rèn)方法。該方法充分利用了兩種不同角度特征的互補(bǔ)性。實(shí)驗結(jié)果表明,該新方法提高了話者識別系統(tǒng)的性能。

[1]Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[J].Digital signal processing,2000,10(1):19 -41.

[2]Reynolds D A,Rose R C.Robust text-independent speaker identification using Gaussian mixture speaker models[J].IEEE Trans on Speech Audio Process,1995,3(1):72 -83.

[3]甄斌,吳璽宏,劉志敏,等.語音識別和說話人識別中各倒譜分量的相對重要性[J].北京大學(xué)學(xué)報(自然科學(xué)版),2001,37(3):371 -378.

[4]陸偉,戴蓓蓓,李輝,等.MFCC中的基音頻率信息對說話人識別系統(tǒng)性能的影響[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2009,39(8):859 -860.

[5]汪崢,連翰,王建軍.說話人識別中特征參數(shù)提取的一種新方法[J].復(fù)旦學(xué)報(自然科學(xué)版),2005,44(1):197-200.

猜你喜歡
基音特征參數(shù)韻律
故障診斷中信號特征參數(shù)擇取方法
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
春天的韻律
中華詩詞(2019年1期)2019-08-23 08:24:12
基于基音跟蹤的語音增強(qiáng)研究
韻律之美——小黃村
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
維吾爾語話題的韻律表現(xiàn)
統(tǒng)計特征參數(shù)及多分類SVM的局部放電類型識別
電測與儀表(2015年7期)2015-04-09 11:40:04
韻律
福利中國(2015年5期)2015-01-03 08:41:48
樂理小知識
小演奏家(2014年11期)2014-12-17 01:18:52
南丰县| 乐平市| 中江县| 巫溪县| 巢湖市| 西宁市| 安溪县| 紫阳县| 南安市| 汉阴县| 榆社县| 讷河市| 永泰县| 广昌县| 于都县| 新野县| 偃师市| 武汉市| 松江区| 永城市| 北安市| 岳普湖县| 巴青县| 宜城市| 襄汾县| 尼木县| 长乐市| 尚义县| 贞丰县| 宁海县| 阿克陶县| 兴山县| 布尔津县| 庐江县| 新化县| 贵德县| 万荣县| 苏州市| 辉南县| 新竹市| 富民县|