王家盛,郭其威,吳 松,馬建敏
(1. 復(fù)旦大學(xué)航空航天系,上海200433;2. 上海宇航系統(tǒng)工程研究所,上海201109)
聲紋識(shí)別技術(shù)是生物識(shí)別技術(shù)的一種,借助人體生物特征或者行為特征對(duì)身份進(jìn)行識(shí)別。與其他生物識(shí)別技術(shù)相比,說(shuō)話人識(shí)別具有簡(jiǎn)便經(jīng)濟(jì),隱藏性高以及獲取成本廉價(jià)等優(yōu)勢(shì),可廣泛應(yīng)用于公共安全、金融服務(wù)、智能硬件等應(yīng)用場(chǎng)景。
在聲紋識(shí)別中,影響識(shí)別率最大的就是特征參數(shù)的提取與選擇。目前主流的說(shuō)話人特征主要是提取以梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)為代表的基于人耳聽(tīng)覺(jué)感知特性的特征參數(shù),類似的特征還有伽馬通頻率倒譜系數(shù)(Gammatone Frequency Cepstral Coefficients, GFCC)、耳蝸濾波器特征參數(shù)(Cochlear Filter Cepstral Coefficients, CFCC)等。其中,在大量的實(shí)驗(yàn)中已證實(shí)MFCC具有優(yōu)異的識(shí)別率表現(xiàn),故對(duì)MFCC特征參數(shù)的優(yōu)化與改進(jìn)一直都是說(shuō)話人識(shí)別研究中的重點(diǎn)。目前以優(yōu)化特征的方式去改善聲紋識(shí)別性能的研究,主要可分為三個(gè)方向,即針對(duì)特征提取過(guò)程的改進(jìn)、特征融合以及差異化特征分量。
在MFCC的提取過(guò)程中,實(shí)際上存在許多的簡(jiǎn)單設(shè)定,并不能很好地模擬人耳聽(tīng)覺(jué)效應(yīng)。如傳統(tǒng)的傅里葉變換僅能提供2π/N等分的固定頻率分辨率,單個(gè)三角帶通濾波器呈中心對(duì)稱分布等。張怡然等通過(guò)引入多窗譜估計(jì)代替?zhèn)鹘y(tǒng)的加漢明窗求頻譜的操作,減少了頻譜估計(jì)的方差值,能使特征更好地反映出聲道的結(jié)構(gòu)[1]。章熙春等將彎折傅里葉變換(Wrapped Discrete Fourier transform, WDFT)應(yīng)用到MFCC特征中以提高低頻段的頻率分辨率[2],鄧?yán)俚炔捎脧澱蹫V波器組(Warped Filter Banks,WFBS)基于人耳基底膜感知頻率群在低頻處密集、高頻處寬松的分布特性,更好地模擬出人耳的聽(tīng)覺(jué)機(jī)理[3]。Chakroborty等提出了翻轉(zhuǎn)梅爾倒譜濾波器組,目的是補(bǔ)償抑制高頻后的說(shuō)話人信息缺失[4]。曹孝玉則進(jìn)一步在翻轉(zhuǎn)梅爾倒譜率濾波器的基礎(chǔ)上提出混合型濾波器[5]。
為了彌補(bǔ)MFCC特征自身的局限,加入其他特征參數(shù)以提升系統(tǒng)識(shí)別正確率與應(yīng)用場(chǎng)景,即特征融合。最典型的就是在靜態(tài) MFCC的基礎(chǔ)上加入動(dòng)態(tài)差分特征,補(bǔ)償說(shuō)話人動(dòng)態(tài)行為特征。唐宗渤將 MFCC與離散小波變換結(jié)合得到離散小波加權(quán)系數(shù)(Discrete Wavelet Transform Weighted Coefficient, DWTWC)特征[6]。呂霄云等將短時(shí)能量信息與 MFCC特征作為混合參數(shù)應(yīng)用于異常聲音的識(shí)別[7]。沈凌潔等加入了韻律特征,在聲調(diào)識(shí)別場(chǎng)景有不錯(cuò)的表現(xiàn)[8]??戮ЬУ葘⒉罘謩?dòng)態(tài)特征和加權(quán)后的Mel倒譜進(jìn)行特征融合,提升了說(shuō)話人系統(tǒng)的識(shí)別率[9]。茅正沖等利用Teager能量算子導(dǎo)出信號(hào)的瞬時(shí)相位信息,將其與耳蝸倒譜系數(shù)進(jìn)行融合[10]。周萍等將MFCC與魯棒性更強(qiáng)的GFCC參數(shù)相互融合,提高了特征的識(shí)別性能和抗噪性[11]。
常規(guī)的特征提取或者進(jìn)行簡(jiǎn)單的特征堆疊勢(shì)必會(huì)導(dǎo)致大量的信息冗余現(xiàn)象,大量實(shí)驗(yàn)已經(jīng)證明,并不是特征的維數(shù)越高越好,各個(gè)維度的識(shí)別性能也存在不同的差異。故需要將識(shí)別性能強(qiáng)或者包含說(shuō)話人身份信息的特征維度加強(qiáng),讓低識(shí)別性的特征權(quán)重減少或消失。魏丹芳等將一階和二階動(dòng)態(tài)系數(shù)加權(quán)合并成一個(gè)向量,能夠提高復(fù)雜場(chǎng)景環(huán)境下的分類正確率[12]。鮮曉東等基于Fisher比值對(duì)三類 MFCC特征參數(shù)進(jìn)行篩選并組成一種混合特征參數(shù),提高語(yǔ)音中高頻信息的識(shí)別精細(xì)度[13]。魏君穎等也采用了此方法結(jié)合翻轉(zhuǎn)梅爾倒譜系數(shù)選出區(qū)分度大的特征分量,提升了特征在噪聲環(huán)境下的魯棒性[14]。
本文基于強(qiáng)化特征差異的方法,借助 GMMUBM基線系統(tǒng),對(duì)各維度MFCC分量的表征能力進(jìn)行了分析,利用增減分量法定量計(jì)算出各維度對(duì)識(shí)別率的貢獻(xiàn)度,基于此對(duì)MFCC特征進(jìn)行了二次提取,改進(jìn)了特征分量的權(quán)重系數(shù),提高了說(shuō)話人識(shí)別的準(zhǔn)確率。
聲道特性通常被認(rèn)為是聲紋識(shí)別中包含說(shuō)話人信息量最多的部分,由短時(shí)功率譜的包絡(luò)表征,即共振峰。如何準(zhǔn)確地表達(dá)這個(gè)包絡(luò)成為聲紋特征構(gòu)造的關(guān)鍵。
1940年Stevens和Volkmann對(duì)人耳主觀感知頻域的非線性進(jìn)行了研究,給出了Mel標(biāo)度與實(shí)際頻率f的定量近似關(guān)系[15]:
Mel頻率倒譜系數(shù)(MFCC)作為人耳聽(tīng)覺(jué)感知特性的代表參數(shù),能夠更好地仿真人耳主觀感知頻域與實(shí)際接收的聲音頻率的非線性關(guān)系。
MFCC特征的提取大致可以分為以下兩個(gè)部分。首先,需要對(duì)采樣后的離散數(shù)字信息進(jìn)行預(yù)處理。預(yù)處理主要包含去除寂靜幀、預(yù)加重、分幀和加窗等步驟。
預(yù)加重的目的在于彌補(bǔ)發(fā)聲系統(tǒng)所抑制的高頻分量損失,消除口鼻輻射端的影響,強(qiáng)化語(yǔ)音信號(hào)與聲道間的聯(lián)系,表達(dá)式為
其次,將預(yù)處理后的信息經(jīng)過(guò)FFT變換可以得到信號(hào)的能量譜,將其作為基本特征傳入Mel三角濾波器組中,將每個(gè)子帶中的對(duì)數(shù)能量再進(jìn)行一次離散余弦變換,可以得到一組系數(shù)。目前通常的方式是舍棄第1維參數(shù),保留2~13維作為MFCC靜態(tài)特征。若僅用靜態(tài) MFCC特征去訓(xùn)練模型會(huì)損失掉動(dòng)態(tài)幀的信息,一般會(huì)在后面加入一階差分動(dòng)態(tài)特征和二階差分動(dòng)態(tài)特征。
通過(guò)上述的MFCC提取過(guò)程可知,存在以下兩個(gè)步驟會(huì)導(dǎo)致特征的重復(fù)冗余:(1) 分幀步驟中為了保證短時(shí)范圍內(nèi)提取的特征平滑變化,需使相鄰幀中有一部分重疊;(2) 為了彌補(bǔ)靜態(tài)MFCC特征的表征局限,引入語(yǔ)音特征向量的動(dòng)態(tài)變換特性,動(dòng)態(tài)特征一定程度上能提升識(shí)別率,但其計(jì)算過(guò)程中重復(fù)調(diào)用了前后幀的信息,且過(guò)多的動(dòng)態(tài)特征引入反而不利于模型的識(shí)別。
為了使提取后的特征最大程度地包含說(shuō)話人個(gè)性信息,可以對(duì)原始 MFCC特征序列進(jìn)一步處理,即進(jìn)行二次特征提取,提取后的特征更具區(qū)分性。提高特征參數(shù)區(qū)分性的方法有兩種:特征篩選和特征加權(quán)。
特征篩選,是指從原始特征參數(shù)中選取出表征能力強(qiáng)的部分分量進(jìn)行模型訓(xùn)練與識(shí)別。常用Fisher比值(簡(jiǎn)稱F比)來(lái)判斷特征分量的區(qū)分能力,F(xiàn)比計(jì)算公式為
圖 1為 TIMIT數(shù)據(jù)集下 30位說(shuō)話人的靜態(tài)MFCC各維Fisher比分布情況。
圖1 MFCC 參數(shù)各維 Fisher 比Fig.1 Fisher ratios of various dimensions of MFCC
由圖1可知,MFCC第13維的F比最高。但根據(jù)經(jīng)驗(yàn),高維特征分量值太小易受到噪聲影響,區(qū)分性好的特征并非一定能訓(xùn)練出識(shí)別性能高的說(shuō)話人識(shí)別模型,故特征與模型之間還存在一個(gè)匹配問(wèn)題。雖然F比計(jì)算簡(jiǎn)便,但它假設(shè)特征分量之間是相互獨(dú)立的,沒(méi)有考慮到參數(shù)之間的相關(guān)性。
特征加權(quán),是通過(guò)對(duì)特征參數(shù)內(nèi)部設(shè)置不同的加權(quán)系數(shù),放大或者縮小指定特征分量在識(shí)別時(shí)的作用。常采用升半正弦函數(shù)對(duì) MFCC參數(shù)進(jìn)行加權(quán),公式[16]為
其中: p =1,2, … ,P,P是特征參數(shù)的維數(shù)。rp代表第p維分量上的權(quán)重系數(shù)。升半正弦函數(shù)的數(shù)學(xué)特征呈現(xiàn)兩端低中間高,代表對(duì)易受噪聲干擾的低階特征分量以及數(shù)值相對(duì)較小的高階分量進(jìn)行衰減,對(duì)魯棒性較好的中部分量則維持不變。但升半正弦函數(shù)僅粗糙地設(shè)置了權(quán)重系數(shù),沒(méi)有定量刻畫出每個(gè)分量在識(shí)別時(shí)的重要度。
基于此,本文對(duì)升半正弦公式進(jìn)行優(yōu)化。首先通過(guò)實(shí)驗(yàn)得出各維特征分量對(duì)識(shí)別率的相對(duì)貢獻(xiàn)度。再據(jù)此,定量計(jì)算出各個(gè)特征分量上的權(quán)重系數(shù)。具體步驟如下:
(1) 采用增減分量法[17]定量計(jì)算不同特征分量對(duì)識(shí)別率的貢獻(xiàn)度,平均貢獻(xiàn)度計(jì)算公式為
式中:p( i, j)是從i階到j(luò)階特征系數(shù)的識(shí)別率;n是倒譜階數(shù)。
本文隨機(jī)選取TIMIT數(shù)據(jù)集中100人的10句話作為實(shí)驗(yàn)數(shù)據(jù)集,從語(yǔ)音中提取13維MFCC倒譜參數(shù)作為靜態(tài)特征,再分別作一階、二階差分得到各13維的動(dòng)態(tài)特征,構(gòu)成39維特征向量。依次計(jì)算 MFCC各特征分量的順序組合在說(shuō)話人識(shí)別系統(tǒng)中的識(shí)別率情況,結(jié)果如圖2所示。
圖2中每一條曲線的繪制方式如下,從下側(cè)標(biāo)簽中選擇第i維特征Ci作為MFCC組合特征中的起始特征分量,依次計(jì)算Ci~Ci+1,Ci~Ci+2,… ,直至Ci~C39組合下的識(shí)別率,并將結(jié)果依次連接形成曲線??紤]到單獨(dú)一維特征在模型中的識(shí)別率太低,結(jié)果已經(jīng)失去參考意義,加入會(huì)影響到貢獻(xiàn)度的計(jì)算,故實(shí)驗(yàn)中所有測(cè)試特征向量的長(zhǎng)度最低為2維。
圖2 MFCC不同起始特征分量的特征組合識(shí)別率Fig.2 Recognition rates of different combinations of MFCC with different initial features
根據(jù)式(7)計(jì)算出 MFCC各維分量的平均貢獻(xiàn)度,得到貢獻(xiàn)率柱狀圖如圖3所示。
從圖3中可以發(fā)現(xiàn),第一,靜態(tài)特征對(duì)最終識(shí)別率的貢獻(xiàn)度明顯大于動(dòng)態(tài)特征對(duì)最終識(shí)別率的貢獻(xiàn)度,貢獻(xiàn)度越高,一定程度上反映的就是特征中包含說(shuō)話人信息量也越多,此結(jié)果表明最有用的說(shuō)話人的信息是包含在第 1~13維靜態(tài)特征之中的。第二,從圖3(a)中可以看出特征分量貢獻(xiàn)度的分布規(guī)律并不完全呈現(xiàn)出一種半正弦趨勢(shì),反映的是一種類波浪分布,其中第 3~7維帶來(lái)更高的識(shí)別率。第三,動(dòng)態(tài)特征是在靜態(tài)特征的基礎(chǔ)上差分得到的,從實(shí)際的測(cè)試結(jié)果看,貢獻(xiàn)度變化也符合前者的波浪走勢(shì)。
(2) 仿照升半正弦系數(shù)的構(gòu)造方式,對(duì) MFCC的第1~13維特征分量計(jì)算權(quán)重系數(shù),如圖3(a)所示,第 11維特征分量的識(shí)別率貢獻(xiàn)度最低,設(shè)置其權(quán)重系數(shù)為 0.5,用于保證倒譜分量不至于完全衰減;貢獻(xiàn)度最高的第5維分量權(quán)重則設(shè)置為1,其余權(quán)重系數(shù)根據(jù)min-max標(biāo)準(zhǔn)化方法將數(shù)值放縮至[0.5, 1]區(qū)間內(nèi)。
圖3 MFCC靜態(tài)及其差分特征對(duì)識(shí)別率的貢獻(xiàn)度Fig.3 Contribution of MFCC feature and its differential features to recognition
為了泛化實(shí)驗(yàn)結(jié)果,同時(shí)也考慮到各分量本質(zhì)上反映的是譜包絡(luò)的變化信息,權(quán)重需平滑過(guò)渡才能更好地體現(xiàn)分量間的相互依賴關(guān)系。使用Matlab軟件自帶的曲線擬合工具箱對(duì)放縮后的權(quán)重系數(shù)進(jìn)行傅里葉擬合,并將擬合曲線對(duì)應(yīng)特征序號(hào)上的離散值作為改進(jìn)后的權(quán)重系數(shù),權(quán)重系數(shù)為
式中: q =1,2,… ,Q。rq代表第 q維分量上經(jīng)過(guò)放縮和擬合處理后的權(quán)重系數(shù)。本文將此系數(shù)稱為貢獻(xiàn)度擬合權(quán)重系數(shù)。
圖4比較了升半弦權(quán)重系數(shù)和貢獻(xiàn)度擬合權(quán)重系數(shù)的分布特性。由圖4可以看出貢獻(xiàn)度擬合權(quán)重系數(shù)呈類波浪分布,相對(duì)于升半弦權(quán)重系數(shù),能更準(zhǔn)確地反映出各特征分量的識(shí)別能力表現(xiàn)。
圖4 不同權(quán)重系數(shù)分布對(duì)比Fig.4 Comparison of different weight coefficient distribution
(3) 將貢獻(xiàn)度擬合權(quán)重系數(shù)對(duì)MFCC特征各個(gè)分量進(jìn)行加權(quán),即可得改進(jìn)后的MFCC特征參數(shù):
為了實(shí)現(xiàn)說(shuō)話人識(shí)別,需要將提取后的特征建立相應(yīng)的說(shuō)話人識(shí)別模型,目前比較常用的理論模型是高斯混合模型(Gaussian Mixture Model,GMM)。在此基礎(chǔ)上發(fā)展出來(lái)的聯(lián)合因子分析(Joint Factor Analysis, JFA)[18]和全因子模型(i-vector)[19]都是對(duì)高斯混合模型的一種改進(jìn)。每個(gè)GMM分量可以被認(rèn)為是對(duì)隱性的聲學(xué)特征進(jìn)行建模,從統(tǒng)計(jì)意義上來(lái)說(shuō),同一個(gè)人身上提取若干段語(yǔ)音片段,并將從這些語(yǔ)音中提取出的特征放入相應(yīng)的特征空間中,可以發(fā)現(xiàn)模型生成的方式是基本一致的。其中需要估計(jì)的多元混合高斯分布參數(shù)為
式中:M是高斯混合模型中分量的個(gè)數(shù);cm是各個(gè)高斯分量的權(quán)重;μm是第m個(gè)高斯分量的均值;Σm是第m個(gè)高斯分量的協(xié)方差矩陣。
此外,為解決GMM由于訓(xùn)練語(yǔ)音不足導(dǎo)致擬合不充分等問(wèn)題,挑選出除數(shù)據(jù)集外的所有說(shuō)話人進(jìn)行建模得到通用背景模型(Universal Background Model, UBM)[20],其本質(zhì)就是一個(gè)與說(shuō)話人無(wú)關(guān)的高斯混合模型。
說(shuō)話人識(shí)別系統(tǒng)框圖如圖5所示。說(shuō)話人識(shí)別系統(tǒng)主要由三個(gè)模塊構(gòu)成:特征提取、模型訓(xùn)練以及說(shuō)話人識(shí)別。特征提取中,使用貢獻(xiàn)度擬合權(quán)重系數(shù)對(duì)提取后的特征各分量進(jìn)行加權(quán)。其中涉及的參數(shù)如下:幀長(zhǎng)為20 ms,幀移為10 ms,漢寧窗,Mel濾波器的個(gè)數(shù)為24,選擇信號(hào)的對(duì)數(shù)能量作為第1維特征分量,再與從語(yǔ)音中提取到的12維倒譜系數(shù)組合成為13維靜態(tài)MFCC。
圖5 說(shuō)話人識(shí)別系統(tǒng)框圖Fig.5 Framework of speaker recognition system
在模型的訓(xùn)練階段根據(jù)UBM理論以及期望最大化(Expectation-Maximum, EM)算法生成每一個(gè)說(shuō)話人所對(duì)應(yīng)的高斯聚類模型,選定擬合高斯分布的數(shù)量為 32個(gè)。在識(shí)別階段,計(jì)算待測(cè)語(yǔ)音特征在所有模型中的對(duì)數(shù)似然概率,選擇得分最高的模型作為最終的識(shí)別結(jié)果。
最終的識(shí)別率計(jì)算公式為
本文采用的是 TIMIT語(yǔ)音庫(kù),是由德州儀器(TI)、麻省理工學(xué)院(MIT)和斯坦福研究院(SRI)合作構(gòu)建的。由來(lái)自美國(guó)八個(gè)主要方言地區(qū)的630個(gè)人每人說(shuō)出給定的 10個(gè)句子。其主要的特點(diǎn)是人聲干凈、發(fā)音清晰、沒(méi)有環(huán)境噪聲的干擾。從語(yǔ)音庫(kù)中隨機(jī)選擇100人作為實(shí)驗(yàn)數(shù)據(jù)集,取第1句話作為訓(xùn)練集數(shù)據(jù),其余9句話用于測(cè)試。
首先,使用 Matlab軟件從語(yǔ)音信號(hào)中提取出13維MFCC特征向量,并用以下三種方法進(jìn)一步提取特征:(1) 使用圖1中計(jì)算出的Fisher比值進(jìn)行分量篩選,并將其組合成基于F比特征篩選的向量。(2) 使用公式(6)作為特征參數(shù)的權(quán)重系數(shù),計(jì)算得到基于升半正弦權(quán)重系數(shù)的特征加權(quán)向量。(3)同理,根據(jù)公式(8)可得基于貢獻(xiàn)度擬合權(quán)重系數(shù)的特征加權(quán)向量。
其次,對(duì)每個(gè)說(shuō)話人建立高斯混合模型,并根據(jù)測(cè)試語(yǔ)音的似然概率得分對(duì)識(shí)別率進(jìn)行計(jì)算,改進(jìn)后的特征在TIMIT數(shù)據(jù)集上的識(shí)別率結(jié)果如表1所示。
表1 幾種改進(jìn)方式的識(shí)別率比較Table 1 Comparison of recognition rates of different improvement methods
根據(jù)表1可以發(fā)現(xiàn),基于Fisher準(zhǔn)則的維度篩選在2~10維的特征識(shí)別準(zhǔn)確率均不如原始特征,說(shuō)明F比僅反映特征分量的區(qū)分性,篩選破壞了分量原有次序,只是將區(qū)分性較高的特征分量進(jìn)行簡(jiǎn)單組合,并不能保證取得高識(shí)別率;特征加權(quán),本質(zhì)是差異化各維分量的表征能力,隨著特征維數(shù)的增加,各維分量間的區(qū)分性被不斷放大,將整體13維下的識(shí)別率作為特征加權(quán)改進(jìn)后的效果進(jìn)行分析。經(jīng)升半正弦系數(shù)加權(quán)后的特征在TIMIT數(shù)據(jù)集上表現(xiàn)不是很理想,比原始MFCC特征分量的識(shí)別率低4.18個(gè)百分點(diǎn),基于升半正弦的構(gòu)造原理,原因可能是通過(guò)犧牲純凈語(yǔ)音集下一定程度的識(shí)別率性能,換取了特征在噪聲環(huán)境下的魯棒性提升;貢獻(xiàn)度擬合權(quán)重系數(shù)以特征對(duì)識(shí)別率的貢獻(xiàn)度作為加權(quán)依據(jù),最終識(shí)別率比原始特征高出2.59個(gè)百分點(diǎn)。
特征提取是聲紋識(shí)別中的關(guān)鍵一環(huán),本文以傳統(tǒng)的 MFCC特征為例,利用增減分量法對(duì) MFCC各維特征分量對(duì)語(yǔ)音的表征能力進(jìn)行了分析,并以此為基礎(chǔ)改進(jìn)特征的權(quán)重系數(shù),提出貢獻(xiàn)度擬合權(quán)重系數(shù)。與傳統(tǒng)的升半正弦系數(shù)相比,改進(jìn)后每維分量上的權(quán)重系數(shù)可以通過(guò)貢獻(xiàn)度分布確定,能更準(zhǔn)確地反映各維分量對(duì)識(shí)別性能的影響。實(shí)驗(yàn)結(jié)果表明,與基于Fisher比值的特征篩選和基于升半正弦系數(shù)的特征加權(quán)相比,經(jīng)貢獻(xiàn)度擬合權(quán)重系數(shù)加權(quán)后得到的特征能得到更高的識(shí)別率。