湯 爽 張二華 唐振民
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)
聲紋識(shí)別作為語(yǔ)音識(shí)別的一個(gè)重要分支,因其自身安全性能較高、使用方便、成本低廉等優(yōu)點(diǎn),已經(jīng)在金融交易、司法取證、門禁系統(tǒng)等領(lǐng)域得到了廣泛的使用。
隨著聲紋技術(shù)的發(fā)展,語(yǔ)音技術(shù)的不斷提高,各種高保真錄音及播放設(shè)備的普及化,以及各種音頻處理軟件的廣泛推廣和使用,使得說(shuō)話人識(shí)別系統(tǒng)面臨嚴(yán)峻的挑戰(zhàn)。說(shuō)話人識(shí)別系統(tǒng)主要面臨以下三個(gè)方面的挑戰(zhàn);1)模仿攻擊[1],假冒者通過(guò)模仿合法說(shuō)話人的聲音特征來(lái)進(jìn)行攻擊;2)回放語(yǔ)音攻擊[2],假冒者利用高保真設(shè)備通過(guò)獲取合法說(shuō)話人的回放語(yǔ)音進(jìn)行攻擊;3)合成手段攻擊[3],通過(guò)音頻處理軟件,并利用專業(yè)手段來(lái)合成合法說(shuō)話人的語(yǔ)音進(jìn)行攻擊。對(duì)于模仿攻擊手段,需要模仿者高超的模仿手段,且攻擊效率并不高。而語(yǔ)音合成則需要較高的專業(yè)手段,實(shí)現(xiàn)難度較大?;胤耪Z(yǔ)音攻擊,實(shí)現(xiàn)起來(lái)較為方便,并且有較高的攻擊性。本文主要針對(duì)于回放語(yǔ)音攻擊的方法進(jìn)行研究。
目前,國(guó)內(nèi)外關(guān)于回放語(yǔ)音的檢測(cè)還處于研究階段。張利鵬等[4]提出使用MFCC作為信道信息的特征進(jìn)行建模,提出了一種基于語(yǔ)音靜音段的回放語(yǔ)音檢測(cè)算法。但靜音段較易受到噪聲干擾,因此具有一定的局限性。王茂蓉等[5]通過(guò)改進(jìn)的MFCC的特征進(jìn)行語(yǔ)音靜音段進(jìn)行建模,此方法有效提高了回放語(yǔ)音的檢測(cè)效果。此外,國(guó)外的研究如Shang 等[6]利用語(yǔ)音產(chǎn)生的隨機(jī)性提出一種檢測(cè)待測(cè)語(yǔ)音和合法語(yǔ)音在峰值圖上的相似度的算法,但此方法只能夠應(yīng)用于文本相關(guān)的聲紋認(rèn)證系統(tǒng)。Todisco 等[7]在2016 年提出一種基于常Q 變換的常Q 倒譜系數(shù)(Constant Q Cepstral Coefficients,CQCC)特征。CQCC使用常Q變換代替?zhèn)鹘y(tǒng)的傅里葉變換,相比傳統(tǒng)傅里葉變換,常Q 變換在低頻處有更高的頻率分辨率,在高頻部分有更高的時(shí)間分辨率的,對(duì)回放語(yǔ)音的檢測(cè)具有較高的精度。
語(yǔ)音信號(hào)屬于一種非平穩(wěn)信號(hào),通過(guò)傳統(tǒng)的傅里葉變換來(lái)獲取和分析語(yǔ)音信號(hào)的有關(guān)特性并不能得到較好的效果。首先本文使用小波包分解及重構(gòu)獲取語(yǔ)音信號(hào)各子頻帶的分量信號(hào);然后通過(guò)傅里葉變換來(lái)估計(jì)該頻帶的主頻率;最后利用各子頻帶的主頻率分布量來(lái)分析原始語(yǔ)音和回放語(yǔ)音在頻域中的差別。結(jié)果表明,回放語(yǔ)音與真實(shí)語(yǔ)音相比在低頻帶和高頻帶都在有很明顯的衰減,同時(shí)中頻帶的主頻率分布量會(huì)增高?;诖?,本文利用小波包分解及重構(gòu)提取的多頻帶語(yǔ)音特征作為鑒別特征,實(shí)驗(yàn)表明,該方法對(duì)回放語(yǔ)音有較好的檢測(cè)效果。
小波包分解,將頻率進(jìn)行多層次的劃分,使小波變換中沒(méi)有細(xì)分的高頻部分進(jìn)行進(jìn)一步分解,根據(jù)語(yǔ)音信號(hào)的實(shí)際情況,自動(dòng)調(diào)節(jié)時(shí)頻窗口,從而提高了時(shí)頻分辨率[8]。小波包分解過(guò)程,以一個(gè)五層小波包的分解為例,可用圖1表示。
圖1 信號(hào)的五層小波包分解
由圖1 可知,信號(hào)經(jīng)過(guò)小波包的五層分解得到32個(gè)節(jié)點(diǎn),其中S0,0為原始的語(yǔ)音信號(hào),S1,0和S1,1分別是原始語(yǔ)音信號(hào)經(jīng)過(guò)一層小波包分解后低頻部分和高頻部分的子頻帶信號(hào),類似的S1,0進(jìn)一步分解成S2,0和S2,1,后面逐層分解。語(yǔ)音信號(hào)S0,0經(jīng)過(guò)M層分解后可表示成:
語(yǔ)音信號(hào)可看作是短時(shí)平穩(wěn)的多分量信號(hào)[11],因此利用小波包的分解及重構(gòu)后,將信號(hào)分解成多個(gè)單分量信號(hào)。圖2 是語(yǔ)音波形圖及單幀頻譜曲線,圖2(a)是語(yǔ)音波形圖,圖2(b)表示該語(yǔ)音第32幀的頻譜曲線。圖3 是第32 幀語(yǔ)音信號(hào)經(jīng)過(guò)小波包分解及重構(gòu)后32 個(gè)頻帶中部分頻帶的頻譜曲線,每個(gè)頻帶的帶寬大約為250Hz,圖3(a)、圖3(b)、圖3(c)分別表示第32 幀第2、3、4 頻帶頻譜曲線,對(duì)應(yīng)的頻帶范圍分別為250Hz~500Hz、500Hz~750Hz、750Hz~1000Hz。根據(jù)圖3 可以看出,在一幀中任一頻帶只有一個(gè)較明顯的波峰,故在一幀中不同頻帶的主頻率幅值可通過(guò)此頻帶波峰的峰值進(jìn)行估計(jì)。
圖2 語(yǔ)音波形圖及單幀頻譜曲線
圖3 小波包重構(gòu)后頻譜曲線圖
對(duì)于單分量信號(hào)來(lái)說(shuō),其主頻率靠近或重合于時(shí)頻峰值[12]。所以單分量信號(hào)的主頻率幅值可以通過(guò)下面方式獲?。?/p>
其中,短時(shí)傅里葉變換:
其中j,i分別為幀號(hào)和頻帶號(hào)。
將得到頻率分布量繪制成灰度圖,如圖4 所示,圖4(a)是ASVspoof 2017[13~14]數(shù)據(jù)集中“我的聲音就是我的密碼”英文原始語(yǔ)音的頻率分布圖,圖4(b)、圖4(c)、圖4(d)分別是同一個(gè)人同一段話不同情況下的回放語(yǔ)音,圖中淺色部分表示頻率分布量高,深色部分則相反。相比較于真實(shí)現(xiàn)場(chǎng)說(shuō)話語(yǔ)音,回放語(yǔ)音在低頻部分(圖中白色標(biāo)記處)和高頻部分(圖中灰色標(biāo)記處)都有較為明顯的損失,在高頻部分損失尤為突出,在文獻(xiàn)[15]中也提出語(yǔ)音的高頻區(qū)域在語(yǔ)音的重放檢測(cè)中至關(guān)重要,所以在本文的檢測(cè)方法中同時(shí)利用語(yǔ)音的各個(gè)頻段,包括高頻部分進(jìn)行特征提取。
圖4 真實(shí)語(yǔ)音及回放語(yǔ)音頻率分布圖
本文利用小波包分解及重構(gòu)后各頻帶的頻譜來(lái)進(jìn)行進(jìn)一步的特征提取,特征提取的過(guò)程如圖5所示。
圖5 特征提取流程圖
算法流程如下:
1)輸入的語(yǔ)音信號(hào)通過(guò)一個(gè)預(yù)加重濾波器進(jìn)行濾波,該濾波器平衡低頻和高頻信號(hào),平坦幅度譜[16]。預(yù)加重傳遞函數(shù):
其中a 為預(yù)加重系數(shù),取值范圍為0.9<a<1.0,一般取值為0.98。
2)利用小波包對(duì)預(yù)加重后的語(yǔ)音進(jìn)行分解和重構(gòu),小波包分解是利用低通濾波器以及高通濾波器進(jìn)行多層分解,將分解后的小波系數(shù)進(jìn)行重構(gòu),得到重構(gòu)后的信號(hào)Sj,i(u),j,i分別表示第j層和第i個(gè)節(jié)點(diǎn),u為原始語(yǔ)音長(zhǎng)度。
3)將重構(gòu)后每一個(gè)頻帶的信號(hào)進(jìn)行分幀加窗,然后對(duì)每一幀信號(hào)Sn( )m作短時(shí)離散傅里葉變換來(lái)計(jì)算此幀的頻譜Xn(k)。
由于所求的靜態(tài)特征沒(méi)有反映出幀間信息,因此通過(guò)求取特征的一階差分來(lái)代表幀間的動(dòng)態(tài)變化信息,并且在最終測(cè)試的時(shí)候利用靜態(tài)特征加上動(dòng)態(tài)特征共64維組成。
利用訓(xùn)練集訓(xùn)練鑒別模型時(shí),首先提取語(yǔ)音特征,然后訓(xùn)練GMM 模型作為鑒別模型。訓(xùn)練數(shù)據(jù)分兩個(gè)子集,一個(gè)原始語(yǔ)音集,一個(gè)回放語(yǔ)音集。分別利用這兩個(gè)子集進(jìn)行原始語(yǔ)音模型和回放語(yǔ)音模型的建立,其中原始語(yǔ)音模型記作λt,回放語(yǔ)音模型記作λf。利用測(cè)試集進(jìn)行測(cè)試的時(shí)候,分別提取測(cè)試集中每條未知語(yǔ)音的特征,然后計(jì)算他們?cè)讦藅和λf中的后驗(yàn)概率。最終判斷該語(yǔ)音是真實(shí)語(yǔ)音還是回放語(yǔ)音是基于Log-Likelihood Ratio(LLR)[17]來(lái)進(jìn)行判斷的。
其中P(X|λt)和P(X|λf)分別是特征向量X 在真實(shí)模型下和回放模型下的得分。從式(12)中可知,最終得分是特征向量在原始語(yǔ)音模型下的后驗(yàn)概率與在回放模型下的后驗(yàn)概率的似然比,如果scores>θ則代表真實(shí)語(yǔ)音,反之則為回放語(yǔ)音。整個(gè)回放語(yǔ)音檢測(cè)過(guò)程可用圖6表示。
圖6 回放語(yǔ)音檢測(cè)流程圖
為了檢驗(yàn)本文算法的有效性,在回放語(yǔ)音檢測(cè)的數(shù)據(jù)集方面采用了ASVspoof 2017[13~14]提供的V2數(shù)據(jù)集。數(shù)據(jù)集中使用的是RedDots 語(yǔ)料庫(kù)中的10 個(gè)短語(yǔ),通過(guò)不同的設(shè)備進(jìn)行偷錄和回放,語(yǔ)音庫(kù)詳情見(jiàn)表1所示。
表1 ASVspoof 2017_V2語(yǔ)音庫(kù)詳情表
另外,此數(shù)據(jù)集是使用多種設(shè)備和環(huán)境進(jìn)行語(yǔ)料收集。在訓(xùn)練集中有2 種不同的錄音環(huán)境,1 種錄音設(shè)備,3種回放設(shè)備;在開(kāi)發(fā)集種有4種不同的錄音環(huán)境,7 種錄音設(shè)備,6 種回放設(shè)備。本文算法將利用訓(xùn)練集進(jìn)行模型訓(xùn)練,用開(kāi)發(fā)集作為測(cè)試數(shù)據(jù)集。
傅里葉分析方法是將信號(hào)利用一系列不同頻率的正弦函數(shù)進(jìn)行疊加,而小波則是利用一系列不同的小波基函數(shù)進(jìn)行分析,因此應(yīng)用不同的小波基函數(shù)得到的結(jié)果也是不一樣的,所以利用小波包對(duì)語(yǔ)音信號(hào)進(jìn)行分解和重構(gòu),小波基函數(shù)的選取對(duì)提取特征的效果有直接的影響。在本文實(shí)驗(yàn)中選取了幾種常見(jiàn)的小波基函數(shù)來(lái)進(jìn)行前期的語(yǔ)音信號(hào)處理。表2 列出在使用不同的小波基函數(shù)后所提取的特征在開(kāi)發(fā)集上的效果,且在分解時(shí)都采用的是6層分解。
表2 不同小波基下的EER%對(duì)比
由表2 可以看出,在使用不同的小波基函數(shù)情況下,得到的特征在鑒別效果上也有所不同,其中Demy 小波基效果最好,因此在本文的特征提取中也以此作為最優(yōu)小波基的選取。
在小波包分解過(guò)程中,需要考慮到小波包分解的層數(shù)對(duì)結(jié)果的影響。層數(shù)選取過(guò)小,會(huì)導(dǎo)致分解后的波形有多分量信號(hào)的干擾,最后提取的特征將會(huì)造成信息遺漏,導(dǎo)致最后的整體效果不佳;層數(shù)選取過(guò)大,則會(huì)導(dǎo)致特征維度的增加,以及部分層數(shù)的信息冗余。所以需選取合適層數(shù),這樣既能保證特征對(duì)語(yǔ)音信號(hào)中信息的保留,也避免了特征維度的過(guò)大情況。下面通過(guò)幾組不同的特征層數(shù)的對(duì)比來(lái)查看小波分解過(guò)程中分解層數(shù)對(duì)最終效果的影響。
由表3 可以看出,不同階數(shù)的高斯混合模型以及不同的分解層數(shù)都會(huì)影響最終結(jié)果。另外,階數(shù)越高需要對(duì)比計(jì)算的次數(shù)也就越多,分解層數(shù)越多特征的維度也就越高,所以在一定階數(shù)和分解層數(shù)下保持特征的有效性尤為重要。由表3 可知當(dāng)高斯函數(shù)為256,分解層數(shù)為5 層時(shí),效果最好,所以本文采用256 個(gè)高斯函數(shù),5 層小波包分解作為最終的參數(shù)選擇。
表3 不同分解層數(shù)提取特征的EER%
由于本次使用的檢測(cè)模型與基線模型GMM模型保持一致,那么在本文的對(duì)比實(shí)驗(yàn)中,GMM 模型的階數(shù)為256,利用不同的特征進(jìn)行對(duì)比,觀察不同特征在相同數(shù)據(jù)集下的表現(xiàn)力。
在本文的不同特征的對(duì)比實(shí)驗(yàn)中,采用文獻(xiàn)[6]提出的CQCC 算法,以及MFCC 和LFCC 算法與本文所介紹的算法進(jìn)行對(duì)比。CQCC 算法是一種基于常量Q變換的倒譜特征,該特征是先將語(yǔ)音信號(hào)進(jìn)行常量Q 變換,得到語(yǔ)音信號(hào)的能量譜后取對(duì)數(shù),然后進(jìn)行均勻重采樣后經(jīng)過(guò)離散余弦變換得到CQCC特征。得到的實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同特征在不同特征集下的EER%
本文通過(guò)小波包的分解和重構(gòu),將語(yǔ)音信號(hào)分為多個(gè)頻帶進(jìn)行分析,通過(guò)提取每個(gè)頻帶的頻譜分布量來(lái)觀察真實(shí)說(shuō)話人語(yǔ)音和假冒說(shuō)話人語(yǔ)音之間的區(qū)別,說(shuō)明真實(shí)說(shuō)話人語(yǔ)音和假冒說(shuō)話人語(yǔ)音之間在高頻和低頻部分的分布量有明顯的區(qū)別,并基于此提取的假冒語(yǔ)音鑒別特征。通過(guò)在ASVspoof 2017 數(shù)據(jù)庫(kù)上與常用的語(yǔ)音特征進(jìn)行對(duì)比,發(fā)現(xiàn)有一定程度上的提高。然而,科技的發(fā)展以及音頻設(shè)備的不斷更新,使得回放語(yǔ)音檢測(cè)在聲紋識(shí)別領(lǐng)域仍然有很大的挑戰(zhàn),因此在如何在多環(huán)境,多設(shè)備下能更有效地檢測(cè)出回放語(yǔ)音需要進(jìn)一步的研究。