基于小波包的回放語(yǔ)音檢測(cè)算法*

2022-03-17 10:16張二華唐振民

計(jì)算機(jī)與數(shù)字工程 2022年2期

湯爽張二華唐振民

（南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院南京 210094）

1 引言

聲紋識(shí)別作為語(yǔ)音識(shí)別的一個(gè)重要分支，因其自身安全性能較高、使用方便、成本低廉等優(yōu)點(diǎn)，已經(jīng)在金融交易、司法取證、門禁系統(tǒng)等領(lǐng)域得到了廣泛的使用。

隨著聲紋技術(shù)的發(fā)展，語(yǔ)音技術(shù)的不斷提高，各種高保真錄音及播放設(shè)備的普及化，以及各種音頻處理軟件的廣泛推廣和使用，使得說(shuō)話人識(shí)別系統(tǒng)面臨嚴(yán)峻的挑戰(zhàn)。說(shuō)話人識(shí)別系統(tǒng)主要面臨以下三個(gè)方面的挑戰(zhàn)；1）模仿攻擊［1］，假冒者通過(guò)模仿合法說(shuō)話人的聲音特征來(lái)進(jìn)行攻擊；2）回放語(yǔ)音攻擊［2］，假冒者利用高保真設(shè)備通過(guò)獲取合法說(shuō)話人的回放語(yǔ)音進(jìn)行攻擊；3）合成手段攻擊［3］，通過(guò)音頻處理軟件，并利用專業(yè)手段來(lái)合成合法說(shuō)話人的語(yǔ)音進(jìn)行攻擊。對(duì)于模仿攻擊手段，需要模仿者高超的模仿手段，且攻擊效率并不高。而語(yǔ)音合成則需要較高的專業(yè)手段，實(shí)現(xiàn)難度較大?；胤耪Z(yǔ)音攻擊，實(shí)現(xiàn)起來(lái)較為方便，并且有較高的攻擊性。本文主要針對(duì)于回放語(yǔ)音攻擊的方法進(jìn)行研究。

目前，國(guó)內(nèi)外關(guān)于回放語(yǔ)音的檢測(cè)還處于研究階段。張利鵬等［4］提出使用MFCC作為信道信息的特征進(jìn)行建模，提出了一種基于語(yǔ)音靜音段的回放語(yǔ)音檢測(cè)算法。但靜音段較易受到噪聲干擾，因此具有一定的局限性。王茂蓉等［5］通過(guò)改進(jìn)的MFCC的特征進(jìn)行語(yǔ)音靜音段進(jìn)行建模，此方法有效提高了回放語(yǔ)音的檢測(cè)效果。此外，國(guó)外的研究如Shang 等［6］利用語(yǔ)音產(chǎn)生的隨機(jī)性提出一種檢測(cè)待測(cè)語(yǔ)音和合法語(yǔ)音在峰值圖上的相似度的算法，但此方法只能夠應(yīng)用于文本相關(guān)的聲紋認(rèn)證系統(tǒng)。Todisco 等［7］在2016 年提出一種基于常Q 變換的常Q 倒譜系數(shù)（Constant Q Cepstral Coefficients，CQCC）特征。CQCC使用常Q變換代替?zhèn)鹘y(tǒng)的傅里葉變換，相比傳統(tǒng)傅里葉變換，常Q 變換在低頻處有更高的頻率分辨率，在高頻部分有更高的時(shí)間分辨率的，對(duì)回放語(yǔ)音的檢測(cè)具有較高的精度。

語(yǔ)音信號(hào)屬于一種非平穩(wěn)信號(hào)，通過(guò)傳統(tǒng)的傅里葉變換來(lái)獲取和分析語(yǔ)音信號(hào)的有關(guān)特性并不能得到較好的效果。首先本文使用小波包分解及重構(gòu)獲取語(yǔ)音信號(hào)各子頻帶的分量信號(hào)；然后通過(guò)傅里葉變換來(lái)估計(jì)該頻帶的主頻率；最后利用各子頻帶的主頻率分布量來(lái)分析原始語(yǔ)音和回放語(yǔ)音在頻域中的差別。結(jié)果表明，回放語(yǔ)音與真實(shí)語(yǔ)音相比在低頻帶和高頻帶都在有很明顯的衰減，同時(shí)中頻帶的主頻率分布量會(huì)增高?；诖?，本文利用小波包分解及重構(gòu)提取的多頻帶語(yǔ)音特征作為鑒別特征，實(shí)驗(yàn)表明，該方法對(duì)回放語(yǔ)音有較好的檢測(cè)效果。

2 小波包分解與重構(gòu)的頻率幅值估計(jì)

2.1 小波包分解與重構(gòu)

小波包分解，將頻率進(jìn)行多層次的劃分，使小波變換中沒(méi)有細(xì)分的高頻部分進(jìn)行進(jìn)一步分解，根據(jù)語(yǔ)音信號(hào)的實(shí)際情況，自動(dòng)調(diào)節(jié)時(shí)頻窗口，從而提高了時(shí)頻分辨率［8］。小波包分解過(guò)程，以一個(gè)五層小波包的分解為例，可用圖1表示。

圖1 信號(hào)的五層小波包分解

由圖1 可知，信號(hào)經(jīng)過(guò)小波包的五層分解得到32個(gè)節(jié)點(diǎn)，其中S0,0為原始的語(yǔ)音信號(hào)，S1,0和S1,1分別是原始語(yǔ)音信號(hào)經(jīng)過(guò)一層小波包分解后低頻部分和高頻部分的子頻帶信號(hào)，類似的S1,0進(jìn)一步分解成S2,0和S2,1，后面逐層分解。語(yǔ)音信號(hào)S0,0經(jīng)過(guò)M層分解后可表示成：

2.2 單分量信號(hào)的主頻率幅值估計(jì)

語(yǔ)音信號(hào)可看作是短時(shí)平穩(wěn)的多分量信號(hào)［11］，因此利用小波包的分解及重構(gòu)后，將信號(hào)分解成多個(gè)單分量信號(hào)。圖2 是語(yǔ)音波形圖及單幀頻譜曲線，圖2（a）是語(yǔ)音波形圖，圖2（b）表示該語(yǔ)音第32幀的頻譜曲線。圖3 是第32 幀語(yǔ)音信號(hào)經(jīng)過(guò)小波包分解及重構(gòu)后32 個(gè)頻帶中部分頻帶的頻譜曲線，每個(gè)頻帶的帶寬大約為250Hz，圖3（a）、圖3（b）、圖3（c）分別表示第32 幀第2、3、4 頻帶頻譜曲線，對(duì)應(yīng)的頻帶范圍分別為250Hz～500Hz、500Hz～750Hz、750Hz～1000Hz。根據(jù)圖3 可以看出，在一幀中任一頻帶只有一個(gè)較明顯的波峰，故在一幀中不同頻帶的主頻率幅值可通過(guò)此頻帶波峰的峰值進(jìn)行估計(jì)。

圖2 語(yǔ)音波形圖及單幀頻譜曲線

圖3 小波包重構(gòu)后頻譜曲線圖

對(duì)于單分量信號(hào)來(lái)說(shuō)，其主頻率靠近或重合于時(shí)頻峰值［12］。所以單分量信號(hào)的主頻率幅值可以通過(guò)下面方式獲?。?/p>

其中，短時(shí)傅里葉變換：

其中j，i分別為幀號(hào)和頻帶號(hào)。

將得到頻率分布量繪制成灰度圖，如圖4 所示，圖4（a）是ASVspoof 2017［13～14］數(shù)據(jù)集中“我的聲音就是我的密碼”英文原始語(yǔ)音的頻率分布圖，圖4（b）、圖4（c）、圖4（d）分別是同一個(gè)人同一段話不同情況下的回放語(yǔ)音，圖中淺色部分表示頻率分布量高，深色部分則相反。相比較于真實(shí)現(xiàn)場(chǎng)說(shuō)話語(yǔ)音，回放語(yǔ)音在低頻部分（圖中白色標(biāo)記處）和高頻部分（圖中灰色標(biāo)記處）都有較為明顯的損失，在高頻部分損失尤為突出，在文獻(xiàn)［15］中也提出語(yǔ)音的高頻區(qū)域在語(yǔ)音的重放檢測(cè)中至關(guān)重要，所以在本文的檢測(cè)方法中同時(shí)利用語(yǔ)音的各個(gè)頻段，包括高頻部分進(jìn)行特征提取。

圖4 真實(shí)語(yǔ)音及回放語(yǔ)音頻率分布圖

3 特征提取

本文利用小波包分解及重構(gòu)后各頻帶的頻譜來(lái)進(jìn)行進(jìn)一步的特征提取，特征提取的過(guò)程如圖5所示。

圖5 特征提取流程圖

算法流程如下：

1）輸入的語(yǔ)音信號(hào)通過(guò)一個(gè)預(yù)加重濾波器進(jìn)行濾波，該濾波器平衡低頻和高頻信號(hào)，平坦幅度譜［16］。預(yù)加重傳遞函數(shù)：

其中a 為預(yù)加重系數(shù)，取值范圍為0.9＜a＜1.0，一般取值為0.98。

2）利用小波包對(duì)預(yù)加重后的語(yǔ)音進(jìn)行分解和重構(gòu)，小波包分解是利用低通濾波器以及高通濾波器進(jìn)行多層分解，將分解后的小波系數(shù)進(jìn)行重構(gòu)，得到重構(gòu)后的信號(hào)Sj,i(u)，j，i分別表示第j層和第i個(gè)節(jié)點(diǎn)，u為原始語(yǔ)音長(zhǎng)度。

3）將重構(gòu)后每一個(gè)頻帶的信號(hào)進(jìn)行分幀加窗，然后對(duì)每一幀信號(hào)Sn( )m作短時(shí)離散傅里葉變換來(lái)計(jì)算此幀的頻譜Xn(k)。

由于所求的靜態(tài)特征沒(méi)有反映出幀間信息，因此通過(guò)求取特征的一階差分來(lái)代表幀間的動(dòng)態(tài)變化信息，并且在最終測(cè)試的時(shí)候利用靜態(tài)特征加上動(dòng)態(tài)特征共64維組成。

4 檢測(cè)算法

利用訓(xùn)練集訓(xùn)練鑒別模型時(shí)，首先提取語(yǔ)音特征，然后訓(xùn)練GMM 模型作為鑒別模型。訓(xùn)練數(shù)據(jù)分兩個(gè)子集，一個(gè)原始語(yǔ)音集，一個(gè)回放語(yǔ)音集。分別利用這兩個(gè)子集進(jìn)行原始語(yǔ)音模型和回放語(yǔ)音模型的建立，其中原始語(yǔ)音模型記作λt，回放語(yǔ)音模型記作λf。利用測(cè)試集進(jìn)行測(cè)試的時(shí)候，分別提取測(cè)試集中每條未知語(yǔ)音的特征，然后計(jì)算他們?cè)讦藅和λf中的后驗(yàn)概率。最終判斷該語(yǔ)音是真實(shí)語(yǔ)音還是回放語(yǔ)音是基于Log-Likelihood Ratio（LLR）［17］來(lái)進(jìn)行判斷的。

其中P(X|λt)和P(X|λf)分別是特征向量X 在真實(shí)模型下和回放模型下的得分。從式（12）中可知，最終得分是特征向量在原始語(yǔ)音模型下的后驗(yàn)概率與在回放模型下的后驗(yàn)概率的似然比，如果scores＞θ則代表真實(shí)語(yǔ)音，反之則為回放語(yǔ)音。整個(gè)回放語(yǔ)音檢測(cè)過(guò)程可用圖6表示。

圖6 回放語(yǔ)音檢測(cè)流程圖

5 實(shí)驗(yàn)對(duì)比

5.1 數(shù)據(jù)集介紹

為了檢驗(yàn)本文算法的有效性，在回放語(yǔ)音檢測(cè)的數(shù)據(jù)集方面采用了ASVspoof 2017［13～14］提供的V2數(shù)據(jù)集。數(shù)據(jù)集中使用的是RedDots 語(yǔ)料庫(kù)中的10 個(gè)短語(yǔ)，通過(guò)不同的設(shè)備進(jìn)行偷錄和回放，語(yǔ)音庫(kù)詳情見(jiàn)表1所示。

表1 ASVspoof 2017_V2語(yǔ)音庫(kù)詳情表

另外，此數(shù)據(jù)集是使用多種設(shè)備和環(huán)境進(jìn)行語(yǔ)料收集。在訓(xùn)練集中有2 種不同的錄音環(huán)境，1 種錄音設(shè)備，3種回放設(shè)備；在開(kāi)發(fā)集種有4種不同的錄音環(huán)境，7 種錄音設(shè)備，6 種回放設(shè)備。本文算法將利用訓(xùn)練集進(jìn)行模型訓(xùn)練，用開(kāi)發(fā)集作為測(cè)試數(shù)據(jù)集。

5.2 在不同小波基下的實(shí)驗(yàn)對(duì)比

傅里葉分析方法是將信號(hào)利用一系列不同頻率的正弦函數(shù)進(jìn)行疊加，而小波則是利用一系列不同的小波基函數(shù)進(jìn)行分析，因此應(yīng)用不同的小波基函數(shù)得到的結(jié)果也是不一樣的，所以利用小波包對(duì)語(yǔ)音信號(hào)進(jìn)行分解和重構(gòu)，小波基函數(shù)的選取對(duì)提取特征的效果有直接的影響。在本文實(shí)驗(yàn)中選取了幾種常見(jiàn)的小波基函數(shù)來(lái)進(jìn)行前期的語(yǔ)音信號(hào)處理。表2 列出在使用不同的小波基函數(shù)后所提取的特征在開(kāi)發(fā)集上的效果，且在分解時(shí)都采用的是6層分解。

表2 不同小波基下的EER%對(duì)比

由表2 可以看出，在使用不同的小波基函數(shù)情況下，得到的特征在鑒別效果上也有所不同，其中Demy 小波基效果最好，因此在本文的特征提取中也以此作為最優(yōu)小波基的選取。

5.3 在不同的分解層數(shù)下的對(duì)比

在小波包分解過(guò)程中，需要考慮到小波包分解的層數(shù)對(duì)結(jié)果的影響。層數(shù)選取過(guò)小，會(huì)導(dǎo)致分解后的波形有多分量信號(hào)的干擾，最后提取的特征將會(huì)造成信息遺漏，導(dǎo)致最后的整體效果不佳；層數(shù)選取過(guò)大，則會(huì)導(dǎo)致特征維度的增加，以及部分層數(shù)的信息冗余。所以需選取合適層數(shù)，這樣既能保證特征對(duì)語(yǔ)音信號(hào)中信息的保留，也避免了特征維度的過(guò)大情況。下面通過(guò)幾組不同的特征層數(shù)的對(duì)比來(lái)查看小波分解過(guò)程中分解層數(shù)對(duì)最終效果的影響。

由表3 可以看出，不同階數(shù)的高斯混合模型以及不同的分解層數(shù)都會(huì)影響最終結(jié)果。另外，階數(shù)越高需要對(duì)比計(jì)算的次數(shù)也就越多，分解層數(shù)越多特征的維度也就越高，所以在一定階數(shù)和分解層數(shù)下保持特征的有效性尤為重要。由表3 可知當(dāng)高斯函數(shù)為256，分解層數(shù)為5 層時(shí)，效果最好，所以本文采用256 個(gè)高斯函數(shù)，5 層小波包分解作為最終的參數(shù)選擇。

表3 不同分解層數(shù)提取特征的EER%

5.4 不同特征的對(duì)比實(shí)驗(yàn)結(jié)果

由于本次使用的檢測(cè)模型與基線模型GMM模型保持一致，那么在本文的對(duì)比實(shí)驗(yàn)中，GMM 模型的階數(shù)為256，利用不同的特征進(jìn)行對(duì)比，觀察不同特征在相同數(shù)據(jù)集下的表現(xiàn)力。

在本文的不同特征的對(duì)比實(shí)驗(yàn)中，采用文獻(xiàn)［6］提出的CQCC 算法，以及MFCC 和LFCC 算法與本文所介紹的算法進(jìn)行對(duì)比。CQCC 算法是一種基于常量Q變換的倒譜特征，該特征是先將語(yǔ)音信號(hào)進(jìn)行常量Q 變換，得到語(yǔ)音信號(hào)的能量譜后取對(duì)數(shù)，然后進(jìn)行均勻重采樣后經(jīng)過(guò)離散余弦變換得到CQCC特征。得到的實(shí)驗(yàn)結(jié)果如表4所示。

表4 不同特征在不同特征集下的EER%

6 結(jié)語(yǔ)

本文通過(guò)小波包的分解和重構(gòu)，將語(yǔ)音信號(hào)分為多個(gè)頻帶進(jìn)行分析，通過(guò)提取每個(gè)頻帶的頻譜分布量來(lái)觀察真實(shí)說(shuō)話人語(yǔ)音和假冒說(shuō)話人語(yǔ)音之間的區(qū)別，說(shuō)明真實(shí)說(shuō)話人語(yǔ)音和假冒說(shuō)話人語(yǔ)音之間在高頻和低頻部分的分布量有明顯的區(qū)別，并基于此提取的假冒語(yǔ)音鑒別特征。通過(guò)在ASVspoof 2017 數(shù)據(jù)庫(kù)上與常用的語(yǔ)音特征進(jìn)行對(duì)比，發(fā)現(xiàn)有一定程度上的提高。然而，科技的發(fā)展以及音頻設(shè)備的不斷更新，使得回放語(yǔ)音檢測(cè)在聲紋識(shí)別領(lǐng)域仍然有很大的挑戰(zhàn)，因此在如何在多環(huán)境，多設(shè)備下能更有效地檢測(cè)出回放語(yǔ)音需要進(jìn)一步的研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡