魏為民, 劉 暢, 才 智, 孟繁星
(上海電力大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 200090)
相比傳統(tǒng)的身份認(rèn)證,生物身份認(rèn)證被認(rèn)為是一種更加便捷有效的認(rèn)證方案,這是由于生物的身份信息蘊(yùn)含于自身且獨(dú)一無二,因此不存在遺失的風(fēng)險(xiǎn)且不容易更改。聲紋認(rèn)證作為一種生物認(rèn)證方式被越來越廣泛地應(yīng)用,如門禁、銀行等。同時(shí),由于互聯(lián)網(wǎng)的飛速發(fā)展,用戶的信息非常容易泄露,導(dǎo)致犯罪分子在獲取用戶的語音信息后,利用合成技術(shù)進(jìn)行語音詐騙,威脅群眾的財(cái)產(chǎn)安全。因此,開發(fā)針對(duì)語音識(shí)別系統(tǒng)的惡意欺騙的對(duì)策已經(jīng)越來越重要。
使用合成語音對(duì)抗說話人驗(yàn)證系統(tǒng)(Automatic Speaker Verification,ASV)的欺騙問題是由MASUKO T等人在1999年首次發(fā)表的[1]。合成語音檢測通常需要先提取語音信息特征,包括語音的信號(hào)處理等。在對(duì)語音信號(hào)處理時(shí)需要進(jìn)行基音周期檢測,以得到與聲音振動(dòng)頻率吻合較好的基音周期變化軌跡曲線,這樣才能高效地識(shí)別語音[2]。然后,針對(duì)語音信息特征建立分類器。融合了合成語音檢測算法的說話人驗(yàn)證系統(tǒng)可以有效地抵抗合成語音的攻擊。傳統(tǒng)的合成語音檢測方法包括利用頻譜信息[3-4]、相位特征[5-6]、倒譜系數(shù)特征與相位信息結(jié)合[7-9]、余弦歸一化相位和修正的群時(shí)延倒譜系數(shù)特征[10-11]、動(dòng)態(tài)聲學(xué)特征[12],而近年來機(jī)器學(xué)習(xí)算法[13-15]的發(fā)展使得語音識(shí)別得到了跨越性的提升,深度神經(jīng)網(wǎng)絡(luò)[16-17]和卷積神經(jīng)網(wǎng)絡(luò)[18-19]都被證明在合成語音檢測方面有著很好的效果。
本文從基于前端特征的檢測方法和基于后端分類器的檢測方法兩個(gè)方面,對(duì)常用的合成語音檢測方法進(jìn)行了介紹,并綜合研究方法和研究現(xiàn)狀對(duì)未來的研究方向進(jìn)行了展望。
語音頻譜是語音信號(hào)在頻域中信號(hào)的能量與頻率的分布關(guān)系。對(duì)于語音信號(hào)的頻譜分析包括頻譜、功率譜、倒頻譜、頻譜包絡(luò)分析等。各種頻譜包含著豐富的內(nèi)容以及各自的特性,它們之間存在著相互關(guān)系,在語音信號(hào)處理領(lǐng)域被廣泛應(yīng)用。
頻譜信息用于說話人驗(yàn)證,在2000年MASUKO T等人[20]的研究中就已經(jīng)涉及,其中提出了一種利用音高信息和頻譜信息的文本提示說話人驗(yàn)證技術(shù),并測試合成語音能否被系統(tǒng)識(shí)別出。實(shí)驗(yàn)結(jié)果表明,對(duì)于合成語音還需要開發(fā)相應(yīng)的技術(shù)來進(jìn)行檢測。
由于語音信息中的高維特征優(yōu)于低維特征,TIAN X H等人[21]檢測了高維特征的使用,其中采用了6種高維特征,對(duì)每種特征分別提取原始高維特征、對(duì)應(yīng)的低維特征、原始高維特征的低頻和高頻區(qū)域來進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,高維特征對(duì)欺騙攻擊檢測是有用的。
上述研究證明了頻譜信息可用于合成語音檢測,但是否還具有更健壯的特征來檢測此類欺騙攻擊仍未可知。
在語音識(shí)別和說話人識(shí)別方面,最常用的語音特征就是梅爾倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient,MFCC)。該方法是在1980年由DAVIS S B和MERMELSTEIN P提出的,是一種在自動(dòng)語音和說話人識(shí)別中廣泛使用的特征。MFCC特征提取包含梅爾頻率分析和倒譜分析兩個(gè)關(guān)鍵步驟。對(duì)于人類聽覺感知的實(shí)驗(yàn)表明,人類聽覺的感知只聚焦在某些特定的區(qū)域,而不是整個(gè)頻譜包絡(luò),而梅爾頻率分析就是基于這一實(shí)驗(yàn)結(jié)果。梅爾刻度的濾波器組在低頻部分的分辨率較高,與人耳的聽覺特性相符,此為梅爾刻度的物理意義。梅爾刻度描述了人耳頻率的非線性特性,與頻率f的關(guān)系為
(1)
倒譜分析可用于信號(hào)分解,將乘性信號(hào)轉(zhuǎn)化為加性信號(hào)。首先將輸入的時(shí)域信號(hào)進(jìn)行離散傅里葉變換得到信號(hào)頻譜,取其對(duì)數(shù)后得到信號(hào)的對(duì)數(shù)譜,再進(jìn)行離散傅里葉逆變換即可得到倒譜。
提取MFCC特征的流程如圖1所示。
圖1 提取MFCC特征的流程示意
一般來說,基于模塊的MFCC系統(tǒng)為經(jīng)典方法,通常被用作基準(zhǔn)。在基準(zhǔn)系統(tǒng)上,研究人員提出了不同的策略以探究算法的優(yōu)勢。AKAGAWA S等人[22]將傳統(tǒng)的基于MFCC的說話人識(shí)別方法與相位信息相結(jié)合,與傳統(tǒng)的MFCC的特征提取方法相比較,可以提高識(shí)別準(zhǔn)確率。PATEL T B等人[23]提出將人工耳蝸過濾系數(shù)和瞬時(shí)頻率變化與MFCC特征相融合,同樣取得了不錯(cuò)的性能。
群時(shí)延是指系統(tǒng)在某頻率處的相位(相移)對(duì)于頻率的變化率,可用來衡量相頻譜的非線性程度。其定義為
(2)
式中:XR(k),Xl(k)——傅里葉變換XDFT(k)的實(shí)部和虛部;
YR(k),Yl(k)——傅里葉變換YDFT(k)的實(shí)部和虛部;
X(k)——連續(xù)時(shí)間信號(hào)中的傅里葉變換。
群時(shí)延特性與MFCC功能互補(bǔ),在語音識(shí)別方面應(yīng)用前景良好。2009年P(guān)ADMANABHAN R等人[24]證明了基于群時(shí)延的特征對(duì)語音處理的魯棒性,即使是在噪聲中,群延遲函數(shù)仍然保留了共振峰結(jié)構(gòu),并與傳統(tǒng)的MFCC特性做了比較,實(shí)驗(yàn)證明基于群時(shí)延特性的說話人驗(yàn)證系統(tǒng)的錯(cuò)誤率更低。但群時(shí)延的數(shù)值型可能會(huì)遭受很大的變化,具有不確定性。同年,KUA J M K等人[25]用最小二乘正則化來減少群時(shí)延特征中的可變性,且將此系統(tǒng)與基于MFCC的基線系統(tǒng)融合,使得系統(tǒng)的相對(duì)效率有所提高。WU Z Z等人[26]提出了基于余弦歸一化相位和修正群延遲函數(shù)相位譜的特征來區(qū)分虛假語音和真實(shí)語音。2017年,PAL M等人[27]提出了全極群延遲函數(shù)與常數(shù)Q倒譜系數(shù)和基頻變化的積分級(jí)融合前端特征檢測方法,在已知和未知攻擊方面均取得了很好的性能。
近年來,為了保護(hù)自動(dòng)說話人驗(yàn)證系統(tǒng)免受欺騙干擾,研究人員提出了一種新的合成語音檢測方法——基于常數(shù)Q變換的欺騙檢測。與短時(shí)傅立葉變換一樣,該方法是重要的時(shí)頻分析工具,特別適用于音樂信號(hào)的分析?;诔?shù)Q變換所產(chǎn)生的頻譜最大的特點(diǎn)是其頻率軸為對(duì)數(shù)標(biāo)度而不是線性標(biāo)度,且窗口長度會(huì)隨著頻率的改變而改變?;诔?shù)Q變換與傳統(tǒng)的倒譜分析相結(jié)合,被稱為常數(shù)Q倒譜系數(shù)(Constant Q Cepstrum Coefficient,CQCC)。該方法提供了頻譜的一種可變分辨率、時(shí)頻表示,能夠捕捉到更經(jīng)典的特征提取方法所沒有的詳細(xì)特征,對(duì)于欺騙干擾的檢測非常有用。
CQCC的特征提取過程如圖2所示。
圖2 CQCC特征提取過程示意
傳統(tǒng)倒譜特征提取使用的是傅里葉變換,而CQCC使用的是常數(shù)Q變換(The Constant Q Transfrom,CQT)。CQT是指中心頻率按指數(shù)規(guī)律分布,濾波帶寬不同,但中心頻率與帶寬比為常數(shù)Q的濾波器組。CQT在一定程度上對(duì)傅里葉變換有彌補(bǔ)作用。其頻譜的橫軸頻率不是線性的,而是以log2為底,可以根據(jù)譜線頻率的不同改變?yōu)V波窗的長度,對(duì)于短時(shí)平穩(wěn)的信號(hào)可以獲得更好的性能。此外,傅里葉變換在低頻缺乏頻率分辨率,在高頻缺乏時(shí)間分辨率,CQT對(duì)此分別都有很好的補(bǔ)充。
2016年,TODISCO M等人[28]將CQCC與基于高斯混合模型的分類器相結(jié)合,在標(biāo)準(zhǔn)數(shù)據(jù)庫上進(jìn)行評(píng)估時(shí),CQCC特征在欺騙檢測方面勝過所有現(xiàn)有的方法?;诖私Y(jié)論,2017年,TODISCO M等人[29]進(jìn)行了進(jìn)一步的拓展,對(duì)3個(gè)不同數(shù)據(jù)庫的CQCC推廣評(píng)估,證明了它們在每個(gè)案例中都能提供最先進(jìn)的性能。
基于CQT,但不局限于CQCC特征,YANG J C等人[30]研究了基于長期CQT特性的高頻信息。2019年,YANG J C等人首先利用離散余弦變換對(duì)倒倍頻功率譜和倒倍線性功率譜分別推導(dǎo)出兩個(gè)新的特征,即倒倍頻常數(shù)Q系數(shù)和倒倍頻常數(shù)Q倒倍頻系數(shù)。在此基礎(chǔ)上,利用重疊塊變換與離散余弦變換相結(jié)合的方法進(jìn)行了擴(kuò)展,避免了從全頻段提取的特征在某些特定頻段容易受到局部噪聲的影響。結(jié)果表明,基于CQT的新特征在ASVspoof2015、嘈雜的ASVspoof2015及ASVspoof2019邏輯訪問語料庫上都表現(xiàn)出了最好的性能。
新特征CQCC的優(yōu)點(diǎn)來自可變的光譜-時(shí)間分辨率,與大多數(shù)自動(dòng)說話人驗(yàn)證系統(tǒng)使用的分辨率不同,但同樣可靠地捕獲了欺騙跡象。
ASVspoof數(shù)據(jù)庫為谷歌發(fā)布的合成語音數(shù)據(jù)庫,包括來自45名男性和61名女性的真實(shí)和虛假樣本。該數(shù)據(jù)庫中的攻擊由10種不同的語音合成和語音轉(zhuǎn)換算法生成。訓(xùn)練集和開發(fā)集包括5種類型的攻擊(S1~S5),評(píng)估中有10種類型的攻擊(S1~S10)。其中,S1~S5為已知類型,S6~S10為未知類型。一般評(píng)估準(zhǔn)則使用等錯(cuò)誤率(Equal Error Rate,EER)進(jìn)行評(píng)估,即誤報(bào)率與錯(cuò)報(bào)率相等時(shí)的閾值。EER的值越小說明系統(tǒng)性能越好。
在同樣的數(shù)據(jù)庫和評(píng)估準(zhǔn)則下,基于MGDC,MFCC,CQCC特征的說話人驗(yàn)證系統(tǒng)的等錯(cuò)誤率值如表1所示。
表1 基于3種不同特征的說話人驗(yàn)證系統(tǒng)的等錯(cuò)誤率值對(duì)比
表1中每行數(shù)據(jù)基于相同的數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn),分別取自不同的文獻(xiàn)進(jìn)行結(jié)果對(duì)比。由表1可知,基于MGDC特征的檢測方法的等錯(cuò)誤率值較另外兩種高出很多,MFCC作為經(jīng)典基準(zhǔn)系統(tǒng)表現(xiàn)良好,CQCC作為近年來新研究的特征表現(xiàn)相對(duì)更好。在以后的研究中,可以基于基準(zhǔn)系統(tǒng)進(jìn)一步研究CQCC的性能。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)新的研究方向,學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次。這一過程中獲得的信息對(duì)文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。深度學(xué)習(xí)是一種復(fù)雜的機(jī)器學(xué)習(xí)算法,在語音和圖像識(shí)別方面取得的效果遠(yuǎn)超過先前的相關(guān)技術(shù)。 深度學(xué)習(xí)使機(jī)器模仿視聽和思考人類的活動(dòng),解決了很多復(fù)雜的模式識(shí)別難題。深度學(xué)習(xí)在語音識(shí)別上的應(yīng)用將會(huì)成為未來的主流趨勢。
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Net,DNN)可以理解為有很多層隱藏層的神經(jīng)網(wǎng)絡(luò),有時(shí)也稱為多層感知機(jī)。DNN內(nèi)部的神經(jīng)網(wǎng)絡(luò)層可以分為輸入層、隱藏層和輸出層3類,層與層之間采用全連接的方式。其框架如圖3所示。
圖3 DNN框架示意
2015年,自動(dòng)說話人驗(yàn)證欺騙干擾挑戰(zhàn)賽(ASVspoof2015)中,VILLALBA J等人[32]提出了基于DNN與譜的對(duì)數(shù)濾波器組和相移特征的分類器輸入方法,試驗(yàn)使用了DNN后驗(yàn)來確定測試的真假,以及將DNN的瓶頸特性作為一個(gè)單類支持向量機(jī)的輸入兩種方法。實(shí)驗(yàn)證明,DNN的表現(xiàn)比支持向量機(jī)好,且在光譜特征方面,DNN相對(duì)于高斯混合模型基線有顯著改善。雖然不同的分類器融合在一起最后取得了可觀的效果,但是此方法依賴于聲碼器,因此仍有后續(xù)工作要做。在此基礎(chǔ)上,QIAN Y M等人[13]基于神經(jīng)網(wǎng)絡(luò)的特征提出了3種模型結(jié)構(gòu),分別為疊加自編碼器、欺騙判別深度神經(jīng)網(wǎng)絡(luò)和多任務(wù)聯(lián)合學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)。其中欺騙判別神經(jīng)網(wǎng)絡(luò)更適用于欺騙檢測任務(wù)。將基于深度神經(jīng)網(wǎng)絡(luò)與基于循環(huán)神經(jīng)網(wǎng)絡(luò)的深度特性相結(jié)合實(shí)現(xiàn)了更好的系統(tǒng)性能。經(jīng)研究,將前端動(dòng)態(tài)聲學(xué)特性作為特征來訓(xùn)練DNN欺騙檢測分類器,也具有不錯(cuò)的性能[14]。
由于DNN特殊的深層結(jié)構(gòu)以及有數(shù)千萬參數(shù)需要學(xué)習(xí),導(dǎo)致其訓(xùn)練非常耗時(shí),因此如何加速DNN的訓(xùn)練過程是未來需要研究的方向。
卷積神經(jīng)網(wǎng)絡(luò)(Convoluntional Neural Net,CNN)是一種深度學(xué)習(xí)模型,類似于人工神經(jīng)網(wǎng)絡(luò)的多層感知器。該方法包括數(shù)據(jù)輸入層、卷積計(jì)算層、ReLU激勵(lì)層、池化層和全連接層。數(shù)據(jù)輸入層主要對(duì)原始輸入數(shù)據(jù)進(jìn)行預(yù)處理;卷積計(jì)算層是根據(jù)深度、步長、填充值進(jìn)行卷積計(jì)算;ReLU激勵(lì)層對(duì)卷積層輸出結(jié)果進(jìn)行非線性映射;池化層夾在連續(xù)的卷積層中間,用于壓縮數(shù)據(jù)和參數(shù)的量,進(jìn)行特征降維;全連接層通常在卷積神經(jīng)網(wǎng)絡(luò)尾部,整合卷積層和池化層的分類特征并加以區(qū)分。
CNN示意圖如圖4所示。
圖4 CNN示意
2016年,TIAN X H等人[33]發(fā)現(xiàn),與基于全連接神經(jīng)網(wǎng)絡(luò)的分類器相比,基于時(shí)態(tài)CNN的分類器能夠有效地提高基于單位選擇的欺騙攻擊檢測性能。2017年,MUCKENHIRN H等人[31]以端到端的方式學(xué)習(xí)原始語音信號(hào)的相關(guān)特征和分類器,該方法可以作為對(duì)線性判別分析分類器方法的補(bǔ)充。2018年,KORSHUNOV P等人[34]的研究也表明CNN是比基于傳統(tǒng)方法更好的選擇,但對(duì)于跨數(shù)據(jù)庫場景、何種結(jié)構(gòu)最適合語音欺騙攻擊以及如何找到這種結(jié)構(gòu)等問題還需要進(jìn)一步的研究。2019年,ALZANTOT M等人[35]在CNN的基礎(chǔ)上研究了殘差卷積網(wǎng)絡(luò)(ResNet),成為當(dāng)前應(yīng)用最為廣泛的CNN特征提取網(wǎng)絡(luò),對(duì)比結(jié)果表明模型取得了一定的改進(jìn)成果。未來的研究方向仍是提高模型對(duì)未知攻擊的泛化能力。
表2為基于DNN和基于CNN的檢測方法的等錯(cuò)誤率值對(duì)比。
表2 兩種方法的說話人驗(yàn)證系統(tǒng)等錯(cuò)誤率值對(duì)比
由表2可以看出,基于CNN的合成語音檢測方法優(yōu)于基于DNN的方法,但神經(jīng)網(wǎng)絡(luò)作為近年來語音識(shí)別最熱門的方向值得深入研究。比如,CNN分層提取特征,后面疊加長短時(shí)記憶網(wǎng)絡(luò)或深層神經(jīng)網(wǎng)絡(luò),同時(shí)結(jié)合多種機(jī)制,是否可以優(yōu)化如今的基于神經(jīng)網(wǎng)絡(luò)的方法;或者由于對(duì)CNN的研究局限在訓(xùn)練集或數(shù)據(jù)差異較小的任務(wù)上,在未來是否可以通過疊加卷積網(wǎng)絡(luò)的方式來優(yōu)化性能,或利用與圖形處理器結(jié)合的方式來優(yōu)化運(yùn)算時(shí)間等。
本文對(duì)合成語音檢測方法從前端特征和后端分類器兩方面進(jìn)行了綜述,傳統(tǒng)手工方法可以在欺騙攻擊方面有不錯(cuò)的表現(xiàn),但深度學(xué)習(xí)的發(fā)展也為語音檢測提供了新的方向。隨著人們隱私意識(shí)的增強(qiáng),欺騙語音檢測面臨著更高的要求和更強(qiáng)的挑戰(zhàn)。
在接下來的研究工作中,合成語音檢測技術(shù)的發(fā)展方向主要有以下幾個(gè)方面:現(xiàn)有的合成語音檢測方法大多是基于無噪的環(huán)境,因此有必要開發(fā)在噪聲條件下的檢測方法;深度學(xué)習(xí)方面的進(jìn)展促進(jìn)了直接輸入原始波形的說話人驗(yàn)證系統(tǒng)的設(shè)計(jì),即不再局限于某一特定特征,而是提取話語層面的特征,端到端輸入原始波形的深度神經(jīng)網(wǎng)絡(luò)為合成語音檢測提供了全新的可能;神經(jīng)網(wǎng)絡(luò)被應(yīng)用于合成語音算法中,各種新型的合成方法層出不窮,專用方法檢測當(dāng)然是一種選擇,但如何進(jìn)一步增強(qiáng)算法的泛化性能,檢測各種方式的攻擊,以及檢測方法與說話人驗(yàn)證系統(tǒng)的融合也是未來研究的方向。