基于特征相對(duì)貢獻(xiàn)度對(duì)加權(quán)Mel倒譜的改進(jìn)

2021-07-14 01:13王家盛郭其威馬建敏

聲學(xué)技術(shù) 2021年3期

王家盛，郭其威，吳松，馬建敏

(1. 復(fù)旦大學(xué)航空航天系，上海200433；2. 上海宇航系統(tǒng)工程研究所，上海201109)

0 引言

聲紋識(shí)別技術(shù)是生物識(shí)別技術(shù)的一種，借助人體生物特征或者行為特征對(duì)身份進(jìn)行識(shí)別。與其他生物識(shí)別技術(shù)相比，說(shuō)話人識(shí)別具有簡(jiǎn)便經(jīng)濟(jì)，隱藏性高以及獲取成本廉價(jià)等優(yōu)勢(shì)，可廣泛應(yīng)用于公共安全、金融服務(wù)、智能硬件等應(yīng)用場(chǎng)景。

在聲紋識(shí)別中，影響識(shí)別率最大的就是特征參數(shù)的提取與選擇。目前主流的說(shuō)話人特征主要是提取以梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)為代表的基于人耳聽(tīng)覺(jué)感知特性的特征參數(shù)，類似的特征還有伽馬通頻率倒譜系數(shù)(Gammatone Frequency Cepstral Coefficients, GFCC)、耳蝸濾波器特征參數(shù)(Cochlear Filter Cepstral Coefficients, CFCC)等。其中，在大量的實(shí)驗(yàn)中已證實(shí)MFCC具有優(yōu)異的識(shí)別率表現(xiàn)，故對(duì)MFCC特征參數(shù)的優(yōu)化與改進(jìn)一直都是說(shuō)話人識(shí)別研究中的重點(diǎn)。目前以優(yōu)化特征的方式去改善聲紋識(shí)別性能的研究，主要可分為三個(gè)方向，即針對(duì)特征提取過(guò)程的改進(jìn)、特征融合以及差異化特征分量。

在MFCC的提取過(guò)程中，實(shí)際上存在許多的簡(jiǎn)單設(shè)定，并不能很好地模擬人耳聽(tīng)覺(jué)效應(yīng)。如傳統(tǒng)的傅里葉變換僅能提供2π/N等分的固定頻率分辨率，單個(gè)三角帶通濾波器呈中心對(duì)稱分布等。張怡然等通過(guò)引入多窗譜估計(jì)代替?zhèn)鹘y(tǒng)的加漢明窗求頻譜的操作，減少了頻譜估計(jì)的方差值，能使特征更好地反映出聲道的結(jié)構(gòu)[1]。章熙春等將彎折傅里葉變換(Wrapped Discrete Fourier transform, WDFT)應(yīng)用到MFCC特征中以提高低頻段的頻率分辨率[2]，鄧?yán)俚炔捎脧澱蹫V波器組(Warped Filter Banks,WFBS)基于人耳基底膜感知頻率群在低頻處密集、高頻處寬松的分布特性，更好地模擬出人耳的聽(tīng)覺(jué)機(jī)理[3]。Chakroborty等提出了翻轉(zhuǎn)梅爾倒譜濾波器組，目的是補(bǔ)償抑制高頻后的說(shuō)話人信息缺失[4]。曹孝玉則進(jìn)一步在翻轉(zhuǎn)梅爾倒譜率濾波器的基礎(chǔ)上提出混合型濾波器[5]。

為了彌補(bǔ)MFCC特征自身的局限，加入其他特征參數(shù)以提升系統(tǒng)識(shí)別正確率與應(yīng)用場(chǎng)景，即特征融合。最典型的就是在靜態(tài) MFCC的基礎(chǔ)上加入動(dòng)態(tài)差分特征，補(bǔ)償說(shuō)話人動(dòng)態(tài)行為特征。唐宗渤將 MFCC與離散小波變換結(jié)合得到離散小波加權(quán)系數(shù)(Discrete Wavelet Transform Weighted Coefficient, DWTWC)特征[6]。呂霄云等將短時(shí)能量信息與 MFCC特征作為混合參數(shù)應(yīng)用于異常聲音的識(shí)別[7]。沈凌潔等加入了韻律特征，在聲調(diào)識(shí)別場(chǎng)景有不錯(cuò)的表現(xiàn)[8]?？戮ЬУ葘⒉罘謩?dòng)態(tài)特征和加權(quán)后的Mel倒譜進(jìn)行特征融合，提升了說(shuō)話人系統(tǒng)的識(shí)別率[9]。茅正沖等利用Teager能量算子導(dǎo)出信號(hào)的瞬時(shí)相位信息，將其與耳蝸倒譜系數(shù)進(jìn)行融合[10]。周萍等將MFCC與魯棒性更強(qiáng)的GFCC參數(shù)相互融合，提高了特征的識(shí)別性能和抗噪性[11]。

常規(guī)的特征提取或者進(jìn)行簡(jiǎn)單的特征堆疊勢(shì)必會(huì)導(dǎo)致大量的信息冗余現(xiàn)象，大量實(shí)驗(yàn)已經(jīng)證明，并不是特征的維數(shù)越高越好，各個(gè)維度的識(shí)別性能也存在不同的差異。故需要將識(shí)別性能強(qiáng)或者包含說(shuō)話人身份信息的特征維度加強(qiáng)，讓低識(shí)別性的特征權(quán)重減少或消失。魏丹芳等將一階和二階動(dòng)態(tài)系數(shù)加權(quán)合并成一個(gè)向量，能夠提高復(fù)雜場(chǎng)景環(huán)境下的分類正確率[12]。鮮曉東等基于Fisher比值對(duì)三類 MFCC特征參數(shù)進(jìn)行篩選并組成一種混合特征參數(shù)，提高語(yǔ)音中高頻信息的識(shí)別精細(xì)度[13]。魏君穎等也采用了此方法結(jié)合翻轉(zhuǎn)梅爾倒譜系數(shù)選出區(qū)分度大的特征分量，提升了特征在噪聲環(huán)境下的魯棒性[14]。

本文基于強(qiáng)化特征差異的方法，借助 GMMUBM基線系統(tǒng)，對(duì)各維度MFCC分量的表征能力進(jìn)行了分析，利用增減分量法定量計(jì)算出各維度對(duì)識(shí)別率的貢獻(xiàn)度，基于此對(duì)MFCC特征進(jìn)行了二次提取，改進(jìn)了特征分量的權(quán)重系數(shù)，提高了說(shuō)話人識(shí)別的準(zhǔn)確率。

1 MFCC特征提取與改進(jìn)

聲道特性通常被認(rèn)為是聲紋識(shí)別中包含說(shuō)話人信息量最多的部分，由短時(shí)功率譜的包絡(luò)表征，即共振峰。如何準(zhǔn)確地表達(dá)這個(gè)包絡(luò)成為聲紋特征構(gòu)造的關(guān)鍵。

1940年Stevens和Volkmann對(duì)人耳主觀感知頻域的非線性進(jìn)行了研究，給出了Mel標(biāo)度與實(shí)際頻率f的定量近似關(guān)系[15]：

Mel頻率倒譜系數(shù)(MFCC)作為人耳聽(tīng)覺(jué)感知特性的代表參數(shù)，能夠更好地仿真人耳主觀感知頻域與實(shí)際接收的聲音頻率的非線性關(guān)系。

1.1 MFCC特征提取

MFCC特征的提取大致可以分為以下兩個(gè)部分。首先，需要對(duì)采樣后的離散數(shù)字信息進(jìn)行預(yù)處理。預(yù)處理主要包含去除寂靜幀、預(yù)加重、分幀和加窗等步驟。

預(yù)加重的目的在于彌補(bǔ)發(fā)聲系統(tǒng)所抑制的高頻分量損失，消除口鼻輻射端的影響，強(qiáng)化語(yǔ)音信號(hào)與聲道間的聯(lián)系，表達(dá)式為

其次，將預(yù)處理后的信息經(jīng)過(guò)FFT變換可以得到信號(hào)的能量譜，將其作為基本特征傳入Mel三角濾波器組中，將每個(gè)子帶中的對(duì)數(shù)能量再進(jìn)行一次離散余弦變換，可以得到一組系數(shù)。目前通常的方式是舍棄第1維參數(shù)，保留2～13維作為MFCC靜態(tài)特征。若僅用靜態(tài) MFCC特征去訓(xùn)練模型會(huì)損失掉動(dòng)態(tài)幀的信息，一般會(huì)在后面加入一階差分動(dòng)態(tài)特征和二階差分動(dòng)態(tài)特征。

通過(guò)上述的MFCC提取過(guò)程可知，存在以下兩個(gè)步驟會(huì)導(dǎo)致特征的重復(fù)冗余：(1) 分幀步驟中為了保證短時(shí)范圍內(nèi)提取的特征平滑變化，需使相鄰幀中有一部分重疊；(2) 為了彌補(bǔ)靜態(tài)MFCC特征的表征局限，引入語(yǔ)音特征向量的動(dòng)態(tài)變換特性，動(dòng)態(tài)特征一定程度上能提升識(shí)別率，但其計(jì)算過(guò)程中重復(fù)調(diào)用了前后幀的信息，且過(guò)多的動(dòng)態(tài)特征引入反而不利于模型的識(shí)別。

1.2 權(quán)重系數(shù)的改進(jìn)

為了使提取后的特征最大程度地包含說(shuō)話人個(gè)性信息，可以對(duì)原始 MFCC特征序列進(jìn)一步處理，即進(jìn)行二次特征提取，提取后的特征更具區(qū)分性。提高特征參數(shù)區(qū)分性的方法有兩種：特征篩選和特征加權(quán)。

特征篩選，是指從原始特征參數(shù)中選取出表征能力強(qiáng)的部分分量進(jìn)行模型訓(xùn)練與識(shí)別。常用Fisher比值(簡(jiǎn)稱F比)來(lái)判斷特征分量的區(qū)分能力，F(xiàn)比計(jì)算公式為

圖 1為 TIMIT數(shù)據(jù)集下 30位說(shuō)話人的靜態(tài)MFCC各維Fisher比分布情況。

圖1 MFCC 參數(shù)各維 Fisher 比Fig.1 Fisher ratios of various dimensions of MFCC

由圖1可知，MFCC第13維的F比最高。但根據(jù)經(jīng)驗(yàn)，高維特征分量值太小易受到噪聲影響，區(qū)分性好的特征并非一定能訓(xùn)練出識(shí)別性能高的說(shuō)話人識(shí)別模型，故特征與模型之間還存在一個(gè)匹配問(wèn)題。雖然F比計(jì)算簡(jiǎn)便，但它假設(shè)特征分量之間是相互獨(dú)立的，沒(méi)有考慮到參數(shù)之間的相關(guān)性。

特征加權(quán)，是通過(guò)對(duì)特征參數(shù)內(nèi)部設(shè)置不同的加權(quán)系數(shù)，放大或者縮小指定特征分量在識(shí)別時(shí)的作用。常采用升半正弦函數(shù)對(duì) MFCC參數(shù)進(jìn)行加權(quán)，公式[16]為

其中： p =1,2, … ,P，P是特征參數(shù)的維數(shù)。rp代表第p維分量上的權(quán)重系數(shù)。升半正弦函數(shù)的數(shù)學(xué)特征呈現(xiàn)兩端低中間高，代表對(duì)易受噪聲干擾的低階特征分量以及數(shù)值相對(duì)較小的高階分量進(jìn)行衰減，對(duì)魯棒性較好的中部分量則維持不變。但升半正弦函數(shù)僅粗糙地設(shè)置了權(quán)重系數(shù)，沒(méi)有定量刻畫出每個(gè)分量在識(shí)別時(shí)的重要度。

基于此，本文對(duì)升半正弦公式進(jìn)行優(yōu)化。首先通過(guò)實(shí)驗(yàn)得出各維特征分量對(duì)識(shí)別率的相對(duì)貢獻(xiàn)度。再據(jù)此，定量計(jì)算出各個(gè)特征分量上的權(quán)重系數(shù)。具體步驟如下：

(1) 采用增減分量法[17]定量計(jì)算不同特征分量對(duì)識(shí)別率的貢獻(xiàn)度，平均貢獻(xiàn)度計(jì)算公式為

式中：p( i, j)是從i階到j(luò)階特征系數(shù)的識(shí)別率；n是倒譜階數(shù)。

本文隨機(jī)選取TIMIT數(shù)據(jù)集中100人的10句話作為實(shí)驗(yàn)數(shù)據(jù)集，從語(yǔ)音中提取13維MFCC倒譜參數(shù)作為靜態(tài)特征，再分別作一階、二階差分得到各13維的動(dòng)態(tài)特征，構(gòu)成39維特征向量。依次計(jì)算 MFCC各特征分量的順序組合在說(shuō)話人識(shí)別系統(tǒng)中的識(shí)別率情況，結(jié)果如圖2所示。

圖2中每一條曲線的繪制方式如下，從下側(cè)標(biāo)簽中選擇第i維特征Ci作為MFCC組合特征中的起始特征分量，依次計(jì)算Ci～Ci+1，Ci～Ci+2，… ，直至Ci～C39組合下的識(shí)別率，并將結(jié)果依次連接形成曲線?？紤]到單獨(dú)一維特征在模型中的識(shí)別率太低，結(jié)果已經(jīng)失去參考意義，加入會(huì)影響到貢獻(xiàn)度的計(jì)算，故實(shí)驗(yàn)中所有測(cè)試特征向量的長(zhǎng)度最低為2維。

圖2 MFCC不同起始特征分量的特征組合識(shí)別率Fig.2 Recognition rates of different combinations of MFCC with different initial features

根據(jù)式(7)計(jì)算出 MFCC各維分量的平均貢獻(xiàn)度，得到貢獻(xiàn)率柱狀圖如圖3所示。

從圖3中可以發(fā)現(xiàn)，第一，靜態(tài)特征對(duì)最終識(shí)別率的貢獻(xiàn)度明顯大于動(dòng)態(tài)特征對(duì)最終識(shí)別率的貢獻(xiàn)度，貢獻(xiàn)度越高，一定程度上反映的就是特征中包含說(shuō)話人信息量也越多，此結(jié)果表明最有用的說(shuō)話人的信息是包含在第 1～13維靜態(tài)特征之中的。第二，從圖3(a)中可以看出特征分量貢獻(xiàn)度的分布規(guī)律并不完全呈現(xiàn)出一種半正弦趨勢(shì)，反映的是一種類波浪分布，其中第 3～7維帶來(lái)更高的識(shí)別率。第三，動(dòng)態(tài)特征是在靜態(tài)特征的基礎(chǔ)上差分得到的，從實(shí)際的測(cè)試結(jié)果看，貢獻(xiàn)度變化也符合前者的波浪走勢(shì)。

(2) 仿照升半正弦系數(shù)的構(gòu)造方式，對(duì) MFCC的第1～13維特征分量計(jì)算權(quán)重系數(shù)，如圖3(a)所示，第 11維特征分量的識(shí)別率貢獻(xiàn)度最低，設(shè)置其權(quán)重系數(shù)為 0.5，用于保證倒譜分量不至于完全衰減；貢獻(xiàn)度最高的第5維分量權(quán)重則設(shè)置為1，其余權(quán)重系數(shù)根據(jù)min-max標(biāo)準(zhǔn)化方法將數(shù)值放縮至[0.5, 1]區(qū)間內(nèi)。

圖3 MFCC靜態(tài)及其差分特征對(duì)識(shí)別率的貢獻(xiàn)度Fig.3 Contribution of MFCC feature and its differential features to recognition

為了泛化實(shí)驗(yàn)結(jié)果，同時(shí)也考慮到各分量本質(zhì)上反映的是譜包絡(luò)的變化信息，權(quán)重需平滑過(guò)渡才能更好地體現(xiàn)分量間的相互依賴關(guān)系。使用Matlab軟件自帶的曲線擬合工具箱對(duì)放縮后的權(quán)重系數(shù)進(jìn)行傅里葉擬合，并將擬合曲線對(duì)應(yīng)特征序號(hào)上的離散值作為改進(jìn)后的權(quán)重系數(shù)，權(quán)重系數(shù)為

式中： q =1,2,… ,Q。rq代表第 q維分量上經(jīng)過(guò)放縮和擬合處理后的權(quán)重系數(shù)。本文將此系數(shù)稱為貢獻(xiàn)度擬合權(quán)重系數(shù)。

圖4比較了升半弦權(quán)重系數(shù)和貢獻(xiàn)度擬合權(quán)重系數(shù)的分布特性。由圖4可以看出貢獻(xiàn)度擬合權(quán)重系數(shù)呈類波浪分布，相對(duì)于升半弦權(quán)重系數(shù)，能更準(zhǔn)確地反映出各特征分量的識(shí)別能力表現(xiàn)。

圖4 不同權(quán)重系數(shù)分布對(duì)比Fig.4 Comparison of different weight coefficient distribution

(3) 將貢獻(xiàn)度擬合權(quán)重系數(shù)對(duì)MFCC特征各個(gè)分量進(jìn)行加權(quán)，即可得改進(jìn)后的MFCC特征參數(shù)：

2 高斯混合模型

為了實(shí)現(xiàn)說(shuō)話人識(shí)別，需要將提取后的特征建立相應(yīng)的說(shuō)話人識(shí)別模型，目前比較常用的理論模型是高斯混合模型(Gaussian Mixture Model,GMM)。在此基礎(chǔ)上發(fā)展出來(lái)的聯(lián)合因子分析(Joint Factor Analysis, JFA)[18]和全因子模型(i-vector)[19]都是對(duì)高斯混合模型的一種改進(jìn)。每個(gè)GMM分量可以被認(rèn)為是對(duì)隱性的聲學(xué)特征進(jìn)行建模，從統(tǒng)計(jì)意義上來(lái)說(shuō)，同一個(gè)人身上提取若干段語(yǔ)音片段，并將從這些語(yǔ)音中提取出的特征放入相應(yīng)的特征空間中，可以發(fā)現(xiàn)模型生成的方式是基本一致的。其中需要估計(jì)的多元混合高斯分布參數(shù)為

式中：M是高斯混合模型中分量的個(gè)數(shù)；cm是各個(gè)高斯分量的權(quán)重；μm是第m個(gè)高斯分量的均值；Σm是第m個(gè)高斯分量的協(xié)方差矩陣。

此外，為解決GMM由于訓(xùn)練語(yǔ)音不足導(dǎo)致擬合不充分等問(wèn)題，挑選出除數(shù)據(jù)集外的所有說(shuō)話人進(jìn)行建模得到通用背景模型(Universal Background Model, UBM)[20]，其本質(zhì)就是一個(gè)與說(shuō)話人無(wú)關(guān)的高斯混合模型。

說(shuō)話人識(shí)別系統(tǒng)框圖如圖5所示。說(shuō)話人識(shí)別系統(tǒng)主要由三個(gè)模塊構(gòu)成：特征提取、模型訓(xùn)練以及說(shuō)話人識(shí)別。特征提取中，使用貢獻(xiàn)度擬合權(quán)重系數(shù)對(duì)提取后的特征各分量進(jìn)行加權(quán)。其中涉及的參數(shù)如下：幀長(zhǎng)為20 ms，幀移為10 ms，漢寧窗，Mel濾波器的個(gè)數(shù)為24，選擇信號(hào)的對(duì)數(shù)能量作為第1維特征分量，再與從語(yǔ)音中提取到的12維倒譜系數(shù)組合成為13維靜態(tài)MFCC。

圖5 說(shuō)話人識(shí)別系統(tǒng)框圖Fig.5 Framework of speaker recognition system

在模型的訓(xùn)練階段根據(jù)UBM理論以及期望最大化(Expectation-Maximum, EM)算法生成每一個(gè)說(shuō)話人所對(duì)應(yīng)的高斯聚類模型，選定擬合高斯分布的數(shù)量為 32個(gè)。在識(shí)別階段，計(jì)算待測(cè)語(yǔ)音特征在所有模型中的對(duì)數(shù)似然概率，選擇得分最高的模型作為最終的識(shí)別結(jié)果。

最終的識(shí)別率計(jì)算公式為

3 識(shí)別實(shí)驗(yàn)與結(jié)果分析

本文采用的是 TIMIT語(yǔ)音庫(kù)，是由德州儀器(TI)、麻省理工學(xué)院(MIT)和斯坦福研究院(SRI)合作構(gòu)建的。由來(lái)自美國(guó)八個(gè)主要方言地區(qū)的630個(gè)人每人說(shuō)出給定的 10個(gè)句子。其主要的特點(diǎn)是人聲干凈、發(fā)音清晰、沒(méi)有環(huán)境噪聲的干擾。從語(yǔ)音庫(kù)中隨機(jī)選擇100人作為實(shí)驗(yàn)數(shù)據(jù)集，取第1句話作為訓(xùn)練集數(shù)據(jù)，其余9句話用于測(cè)試。

首先，使用 Matlab軟件從語(yǔ)音信號(hào)中提取出13維MFCC特征向量，并用以下三種方法進(jìn)一步提取特征：(1) 使用圖1中計(jì)算出的Fisher比值進(jìn)行分量篩選，并將其組合成基于F比特征篩選的向量。(2) 使用公式(6)作為特征參數(shù)的權(quán)重系數(shù)，計(jì)算得到基于升半正弦權(quán)重系數(shù)的特征加權(quán)向量。(3)同理，根據(jù)公式(8)可得基于貢獻(xiàn)度擬合權(quán)重系數(shù)的特征加權(quán)向量。

其次，對(duì)每個(gè)說(shuō)話人建立高斯混合模型，并根據(jù)測(cè)試語(yǔ)音的似然概率得分對(duì)識(shí)別率進(jìn)行計(jì)算，改進(jìn)后的特征在TIMIT數(shù)據(jù)集上的識(shí)別率結(jié)果如表1所示。

表1 幾種改進(jìn)方式的識(shí)別率比較Table 1 Comparison of recognition rates of different improvement methods

根據(jù)表1可以發(fā)現(xiàn)，基于Fisher準(zhǔn)則的維度篩選在2～10維的特征識(shí)別準(zhǔn)確率均不如原始特征，說(shuō)明F比僅反映特征分量的區(qū)分性，篩選破壞了分量原有次序，只是將區(qū)分性較高的特征分量進(jìn)行簡(jiǎn)單組合，并不能保證取得高識(shí)別率；特征加權(quán)，本質(zhì)是差異化各維分量的表征能力，隨著特征維數(shù)的增加，各維分量間的區(qū)分性被不斷放大，將整體13維下的識(shí)別率作為特征加權(quán)改進(jìn)后的效果進(jìn)行分析。經(jīng)升半正弦系數(shù)加權(quán)后的特征在TIMIT數(shù)據(jù)集上表現(xiàn)不是很理想，比原始MFCC特征分量的識(shí)別率低4.18個(gè)百分點(diǎn)，基于升半正弦的構(gòu)造原理，原因可能是通過(guò)犧牲純凈語(yǔ)音集下一定程度的識(shí)別率性能，換取了特征在噪聲環(huán)境下的魯棒性提升；貢獻(xiàn)度擬合權(quán)重系數(shù)以特征對(duì)識(shí)別率的貢獻(xiàn)度作為加權(quán)依據(jù)，最終識(shí)別率比原始特征高出2.59個(gè)百分點(diǎn)。

4 結(jié) 論

特征提取是聲紋識(shí)別中的關(guān)鍵一環(huán)，本文以傳統(tǒng)的 MFCC特征為例，利用增減分量法對(duì) MFCC各維特征分量對(duì)語(yǔ)音的表征能力進(jìn)行了分析，并以此為基礎(chǔ)改進(jìn)特征的權(quán)重系數(shù)，提出貢獻(xiàn)度擬合權(quán)重系數(shù)。與傳統(tǒng)的升半正弦系數(shù)相比，改進(jìn)后每維分量上的權(quán)重系數(shù)可以通過(guò)貢獻(xiàn)度分布確定，能更準(zhǔn)確地反映各維分量對(duì)識(shí)別性能的影響。實(shí)驗(yàn)結(jié)果表明，與基于Fisher比值的特征篩選和基于升半正弦系數(shù)的特征加權(quán)相比，經(jīng)貢獻(xiàn)度擬合權(quán)重系數(shù)加權(quán)后得到的特征能得到更高的識(shí)別率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡