基于Mel系數(shù)的特征參數(shù)在模仿語音中的應(yīng)用研究

2014-10-21 20:04韋國剛周萍

電子世界 2014年6期

關(guān)鍵詞：相似度

韋國剛周萍

【摘要】模仿者蓄意模仿說話人的語音，當(dāng)相似度較高時(shí)，說話人識別系統(tǒng)就有可能被模仿者欺騙。語音特征參數(shù)作為說話人識別系統(tǒng)的關(guān)鍵組成部分，直接影響系統(tǒng)的性能。Mel系數(shù)是語音識別領(lǐng)域最成熟的特征參數(shù)之一，但是，MFCC特征參數(shù)在語音識別中對中、高頻段的識別精度較低。為了解決上述問題，融合Mid-MFCC和IMFCC，采用增減分量法，提出了MMI-MFCC特征參數(shù)。實(shí)驗(yàn)結(jié)果表明，新的MMI-MFCC特征參數(shù)比傳統(tǒng)的MFCC特征參數(shù)更有效的區(qū)分模仿語音的相似度。

【關(guān)鍵詞】模仿語音;Mel系數(shù);增減分量法;相似度

1.Mel及其相關(guān)特征參數(shù)

1.1 MFCC特征特征參數(shù)

作為一種能夠較好模擬人耳對聲音信號的特殊感知特性的特征，Mel頻率倒譜參數(shù)（MFCC）近年來被廣泛應(yīng)用在語音識別領(lǐng)域，1Mel的意義對應(yīng)為1000Hz音頻感知程度的1/1000。經(jīng)研究，Steven B.Davis建立了符合人類聽覺特性Mel頻率，與實(shí)際頻率之間的對應(yīng)關(guān)系如下：

（1）

公式（1）中，Mel頻率的單位是Mel，將語音信號頻率劃分成一個(gè)三角濾波器組——Mel濾波器組[1]。Mel尺度濾波器組各個(gè)濾波器在Hz頻率坐標(biāo)軸上并非等距的，但在Mel頻率坐標(biāo)軸上是等距的，各濾波器之間交叉重疊。用式（2）對Mel濾波器進(jìn)行計(jì)算：

（2）

公式（2）中，M為濾波器組中濾波器的個(gè)數(shù)，一般。

MFCC參數(shù)[1][2]的算法流程圖如圖1所示，Mel濾波器組的作用主要在于將語音信號從Hz頻域空間映射到人耳感知的Mel頻域空間，使濾波器的空間尺度與人的聽覺感知尺度更加相近。

圖1 MFCC的提取流程圖

1.2 改進(jìn)的Mel頻率倒譜系數(shù)

Sandipan在MFCC參數(shù)的基礎(chǔ)上，通過改變Hz-Mel頻率直接的非線性對應(yīng)關(guān)系，研究設(shè)計(jì)出一種與Mel濾波器完全相反的I-Mel濾波器，提出了逆Mel頻率倒譜參數(shù)（IMFCC）。I-Mel濾波器組的濾波器在低頻段分布較為稀疏，而集中分布在高頻段，從而使得IMFCC在高頻段具有較強(qiáng)的頻譜信息。IMFCC的Hz-Mel頻率的對應(yīng)關(guān)系為：

（3）

IMFCC的Hz-Mel頻率對應(yīng)關(guān)系及I-Mel頻率濾波器的分布如圖2所示：

圖2 IMFCC頻率對數(shù)關(guān)系及I-Mel濾波器組

圖3 Mid-Mel頻率對數(shù)關(guān)系及I-Mel濾波器組

MFCC和IMFCC分別解決了低頻段和高頻度段的計(jì)算精度問題，可是中頻段的計(jì)算精度仍然不夠理想。為了解決上述問題，經(jīng)研究設(shè)計(jì)出了一種在中頻段分布密集的Mid-Mel濾波器組。Mid-MFCC頻率倒譜參數(shù)[5]參考MFCC和IMFCC的Hz-Mel頻率對應(yīng)關(guān)系，在0～2000Hz頻率段相似于IMFCC的高頻段，在2000～4000Hz頻率段相似于MFCC的低頻段，從而得到了Mid-Mel的Hz-Mel頻率對應(yīng)關(guān)系，Mid-MFCC的Hz-Mel頻率對應(yīng)關(guān)系及Mid-Mel頻率濾波器組分布如圖3所示?？梢钥闯?，IMFCC和Mid-MFCC的提取過程與MFCC，基本相同只需要改變?yōu)V波器組的響應(yīng)函數(shù)即可。

2.混合特征參數(shù)

2.1 增減分量法

增減分量法是一種計(jì)算各階倒譜分量平均貢獻(xiàn)（相對重要性）的有效方法，具體計(jì)算公式如下：

（4）

公式（5）中，R（i）表示第i階倒譜分類的平均貢獻(xiàn)值，n為倒譜階數(shù)，p（i，j）是從第i階到第j階倒譜系數(shù)特征的識別率。若求出一個(gè)特征的平均貢獻(xiàn)值R（i）為正值，則說明添加該特征會(huì)提高識別率，反之，則說明添加該特征會(huì)降低識別率。本文中僅順序添加或社區(qū)特征分量，所以R（i）僅代表該分類的相對重要性，而不能依次衡量各分量之間的依賴關(guān)系。

2.2 MMI-MFCC混合特征參數(shù)

為了提高M(jìn)FCC在中、高頻段的語音識別分辨率，根據(jù)增減分量法原理，求出MFCC、Mid-MFCC和IMFCC三種特征參數(shù)對識別率貢獻(xiàn)最大的n階倒譜系數(shù)后，再在它們組合到一起，便得到了新的混合MFCC，本文定義為MMI-MFCC。其參數(shù)的提取過程如圖4所示。

圖4 H-MFCC的提取流程圖

3.實(shí)驗(yàn)結(jié)果和分析

模仿語音庫是研究模仿語音說話人識別的關(guān)鍵問題之一，它的質(zhì)量直接影響實(shí)驗(yàn)研究的意義。一些專業(yè)配音網(wǎng)站，從事各類題材的配音，他們擁有很多優(yōu)秀的專業(yè)配音員，在配音工作室有他們專業(yè)的錄音棚，擁有模仿者和被模仿者的語音材料，采用頻率為8kHz，量化精度為16bit。

提取16階的MFCC參數(shù)，并計(jì)算其Mid-MFCC和IMFCC特征參數(shù)，根據(jù)增減分量法原理，選取16階的MMI-MFCC混合特征參數(shù)，用歐氏距離計(jì)算原語音與模仿語音的MMI-MFCC差異，然后對MMI-MFCC的歐氏距離從小到大進(jìn)行排序提取16階的MFCC參數(shù)，用歐氏距離計(jì)算原語音與模仿語音的MFCC差異，然后對MFCC的歐氏距離從小到大進(jìn)行排序。將16階MFCC和MMI-MFCC的歐氏距離進(jìn)行及相似度排名對比，見表1所示。

通過表1可以看出，模仿者與被模仿者之間，混合特征參數(shù)MMI-MFCC歐氏距離遠(yuǎn)大于MFCC的，這說明混合參數(shù)MMI-MFCC區(qū)分模仿者與被模仿者的性能得到了明顯的提高;歐氏距離排名與模仿相似度排名中，混合特征參數(shù)MMI-MFCC最相似，有約85.71%的模仿者的排名是一致，MFCC最差（僅約57.14%排名一致），這說明混合特征參數(shù)MMI-MFCC對于描述語言模仿相似程度的能量最好。

4.結(jié)束語

MFCC較好地模擬人耳對聲音信號的特殊感知特性的特征，針對MFCC中、高頻段識別精度不高的問題，融合Mid-MFCC和IMFCC，提出了混合特征參數(shù)MMI-MFCC，并采用增減分量法很好地控制了它們的計(jì)算時(shí)間復(fù)雜度和空間復(fù)雜度。對于辨別模仿語音，新的混合特征參數(shù)具有更好的性能。

參考文獻(xiàn)

[1]郭春霞.基于MFCC的說話人識別系統(tǒng)研究[D].西安：西安電子科技大學(xué)，2006.

[2]張晶，范明，馮文全等.基于MFCC參數(shù)的說話人特征提取算法的改進(jìn)[J].電聲技術(shù)，2009，33（9）：61-69.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Mel系數(shù)的特征參數(shù)在模仿語音中的應(yīng)用研究