国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CNN-Transformer的欺騙語音檢測(cè)

2024-07-20 00:00:00徐童心黃俊
無線電工程 2024年5期

摘 要:語音合成和轉(zhuǎn)換技術(shù)的不斷更迭對(duì)聲紋識(shí)別系統(tǒng)產(chǎn)生重大威脅。針對(duì)現(xiàn)有語音欺騙檢測(cè)方法中難以適應(yīng)多種欺騙類型,對(duì)未知欺騙攻擊檢測(cè)能力不足的問題,提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 與Transformer 的欺騙語音檢測(cè)模型。設(shè)計(jì)基于坐標(biāo)注意力(Coordinate Attention,CA) 嵌入的SE-ResNet18 的位置感知特征序列提取網(wǎng)絡(luò),將語音信號(hào)局部時(shí)頻表示映射為高維特征序列并引入二維位置編碼(two-Dimensional Position Encoding,2D-PE) 保留特征之間的相對(duì)位置關(guān)系;提出多尺度自注意力機(jī)制從多個(gè)尺度建模特征序列之間的長期依賴關(guān)系,解決Trans-former 難以捕捉局部依賴的問題;引入特征序列池化(Sequence Pooling,SeqPool) 提取話語級(jí)特征,保留Transformer 層輸出幀級(jí)特征序列之間的相關(guān)性信息。在ASVspoof2019 大賽官方邏輯訪問(Logic Access,LA) 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,提出的方法相對(duì)于當(dāng)前先進(jìn)的欺騙語音檢測(cè)系統(tǒng),等錯(cuò)誤率(Equal Error Rate,EER) 平均降低12. 83% ,串聯(lián)檢測(cè)成本函數(shù)(tandem Detection Cost Function,t-DCF) 平均降低7. 81% 。

關(guān)鍵詞:欺騙語音檢測(cè);位置感知序列;Transformer;特征序列池化

中圖分類號(hào):TP391. 4 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

文章編號(hào):1003-3106(2024)05-1091-08

0 引言

NIST 說話人識(shí)別評(píng)估挑戰(zhàn)[1]的結(jié)果顯示,在過去的數(shù)年里,語音生物識(shí)別技術(shù)已經(jīng)達(dá)到了令人印象深刻的性能。由該技術(shù)衍生出的自動(dòng)說話人驗(yàn)證(Automatic Speaker Verification,ASV)系統(tǒng)得以被廣泛地應(yīng)用在安全系統(tǒng)、出入境管制、法醫(yī)實(shí)驗(yàn)室、網(wǎng)上銀行和其他電子商務(wù)系統(tǒng)等社會(huì)重要機(jī)構(gòu)。大量研究表明,盡管最先進(jìn)的ASV 系統(tǒng)具有很高的性能,但在面對(duì)語音合成、語音轉(zhuǎn)換等欺騙攻擊時(shí)依然表現(xiàn)得十分脆弱[2],因此設(shè)計(jì)有效的欺騙檢測(cè)方法保證ASV 系統(tǒng)的安全性具有重要意義。

在語音信號(hào)的時(shí)頻表示中,不同的子區(qū)域之間存在某些固定的關(guān)系,例如基頻與諧波[3],語音合成或者語音轉(zhuǎn)換技術(shù)通常無法充分對(duì)這些關(guān)系進(jìn)行建模[4]。因此有效提取局部時(shí)頻區(qū)域特征并建模它們之間的全局依賴關(guān)系能夠提高欺騙檢測(cè)的性能。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)目前是反欺騙對(duì)抗最常用的模型。Wang等[5]設(shè)計(jì)了一種密集連接的卷積神經(jīng)網(wǎng)絡(luò)增強(qiáng)音頻特征的傳播,并通過特征重用確保網(wǎng)絡(luò)中各層之間的最大信息流,大幅提升特征提取能力。Li 等[6]在Res2Net 的基礎(chǔ)上提出了CGRes2Net,通過在特征組之間的連接中加入門控機(jī)制,實(shí)現(xiàn)根據(jù)輸入動(dòng)態(tài)選擇信道,提升檢測(cè)效果。Fu 等[7]提出了一種基于快速傅里葉變換的CNN 前端特征提取網(wǎng)絡(luò)FastAudio,用可學(xué)習(xí)層取代固定濾波器組實(shí)現(xiàn)特征提取,與固定前端相比,能夠更加靈活地適應(yīng)未知欺騙檢測(cè)。Tak 等[8]使用RawNet2 直接從原始語音波形中學(xué)習(xí)幀級(jí)特征,實(shí)驗(yàn)結(jié)果表明了避免使用基于先驗(yàn)知識(shí)的手工前端特征的端到端架構(gòu)在欺騙檢測(cè)中的潛力。但是基于CNN 的模型只適用于建模局部特征,對(duì)于全局依賴性通常需要依靠堆疊大量的卷積層實(shí)現(xiàn),效率低下。為了解決該問題,Tak 等[9]通過圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)跨越時(shí)頻點(diǎn)捕獲局部時(shí)頻區(qū)域之間的全局依賴關(guān)系,但是出于計(jì)算量的考慮,構(gòu)建圖結(jié)點(diǎn)的數(shù)量比較有限,這會(huì)導(dǎo)致信息的損失。

最近,基于Transformer[10]的架構(gòu)在計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域表現(xiàn)出優(yōu)秀的效果,其通過自注意機(jī)制高效的捕獲全局依賴性,這對(duì)語音欺騙檢測(cè)來說至關(guān)重要。受此啟發(fā),本文提出了一種結(jié)合CNN 和Transformer 的欺騙檢測(cè)模型,增強(qiáng)對(duì)局部時(shí)頻特征的提取能力以及高效建模特征之間的全局依賴關(guān)系,提升對(duì)未知欺騙攻擊檢測(cè)的性能。

1 Transformer 網(wǎng)絡(luò)模型

1. 1 Transformer 概述

Transformer 架構(gòu)引入自注意力機(jī)制,通過計(jì)算每個(gè)特征序列與其他序列之間的關(guān)系對(duì)當(dāng)前序列進(jìn)行更新。自注意力機(jī)制的主要特點(diǎn)是高效并行化計(jì)算和快速構(gòu)建全局相關(guān)性的能力,這使其比遞歸神經(jīng)網(wǎng)絡(luò)或者CNN 更適合學(xué)習(xí)長距離依賴關(guān)系。Transformer 后來被用于自然語言處理。最近,它的各種變體結(jié)構(gòu)被廣泛集成到計(jì)算機(jī)視覺和說話人識(shí)別領(lǐng)域中并取得了優(yōu)秀的性能。

Transformer 架構(gòu)由多個(gè)Transformer 塊堆疊組成,每個(gè)Transformer 塊包括多頭自注意力層和前饋層F(·)。其中多頭自注意力層由多個(gè)自注意力頭Att(·)組成,它是Transformer 學(xué)習(xí)全局依賴信息的關(guān)鍵。給定輸入序列集合h = [h1 ,h2 ,h3 ,…,ht]∈ Rt×d,其中t 和d 分別代表序列的數(shù)量和維數(shù),每一個(gè)自注意力頭可以被看做是對(duì)值矩陣V 的加權(quán)和,權(quán)重由鍵矩陣K 和查詢矩陣Q 之間的相似性得出,計(jì)算如下:

式中:矩陣Q、K、V 由序列集合h 與權(quán)重矩陣W 相乘得到。

多頭注意力機(jī)制將多個(gè)自注意力的輸出進(jìn)行拼接后傳入一個(gè)線性層計(jì)算全局相關(guān)性。

2 本文模型結(jié)構(gòu)

為了高效捕捉語音信號(hào)局部時(shí)頻表示之間的相關(guān)性,提升欺騙語音檢測(cè)的性能,本文設(shè)計(jì)了一種基于結(jié)合CNN 和Transformer 的欺騙語音檢測(cè)網(wǎng)絡(luò),基本結(jié)構(gòu)如圖1 所示。主要由位置感知序列映射、幀級(jí)特征提取以及話語級(jí)特征聚合組成。

對(duì)于一段語音信號(hào)樣本,首先將其轉(zhuǎn)換為時(shí)頻表示特征FBank,將FBank 通過卷積神經(jīng)網(wǎng)絡(luò)映射為C 維特征序列集合X∈RT×F×C 并添加位置編碼信息,其中,T、F 為FBank 時(shí)間和頻率方向的局部時(shí)頻表示數(shù)量。隨后,進(jìn)行拉伸變換,構(gòu)建位置感知特征序列集合XP ∈RC×D ,其中D = T×F。然后基于改進(jìn)的Transformer 編碼器提取幀級(jí)特征,從多個(gè)尺度高效建模各個(gè)特征序列之間的相關(guān)性,最后引入特征序列池化聚合話語級(jí)特征用于分類預(yù)測(cè)。

2. 1 位置感知序列映射

本文采用SE-ResNet18 的前3 層從FBank 中提取局部特征,構(gòu)建特征序列集合。原SE-ResNet18在每個(gè)卷積塊之間添加Squeeze Excitation(SE)模塊用于學(xué)習(xí)通道之間的相關(guān)性,是一種面向通道的注意力機(jī)制。但是SE 模塊忽略了空間關(guān)系,對(duì)于欺騙語音檢測(cè)而言,難以區(qū)分各個(gè)局部時(shí)頻表示的重要性。因此本文通過在每個(gè)SE-ResNet18 塊之間嵌入坐標(biāo)注意力(Coordinate Attention,CA)機(jī)制[11]對(duì)SE-ResNet18 進(jìn)行改進(jìn)。此外,特征序列集合的拉伸變換操作會(huì)丟失每個(gè)時(shí)頻子區(qū)域之間的相對(duì)位置關(guān)系,故本文引入二維交替正余弦編碼[12]對(duì)相對(duì)位置信息進(jìn)行保留。

2. 1. 1 CA 嵌入

CA 機(jī)制通過將時(shí)間方向和頻率方向的空間信息編碼到通道中,使模型能夠關(guān)注重要時(shí)頻區(qū)域,忽略無效時(shí)頻區(qū)域,具體結(jié)構(gòu)如圖2 所示。首先,對(duì)于給定的輸入特征H∈RC×T×F ,使用平均池化沿時(shí)間和頻率方向聚合一對(duì)一維空間感知向量st ∈RC×1×F 、sf∈RC×T×1 ,將2 個(gè)空間感知向量拼接后經(jīng)由1×1 卷積進(jìn)行通道交互和壓縮,然后通過批歸一化(BatchNormalization,BN)層與非線性變換層(Non-linear)生成空間編碼信息sp ∈RCr×1×(F+T),r 表示壓縮系數(shù),最后使用2 個(gè)1×1 的卷積以及Sigmoid 激活函數(shù)分別產(chǎn)生時(shí)間方向和頻率方向的權(quán)重信息對(duì)原始特征進(jìn)行加權(quán)。

2. 1. 2 二維交替正余弦編碼

Transformer 中通常使用一維位置編碼處理自然語言序列中可能出現(xiàn)的由于位置變換導(dǎo)致位置信息丟失的問題,但是這并不適用于由CNN 輸出的三維特征序列集合,因此本文引入文獻(xiàn)[12]中的二維交替正余弦編碼保留特征序列之間的相對(duì)位置信息。對(duì)于特征序列集合X = [x1 ,x2 ,x3 ,…,xi ]∈ T×F×C ,具體編碼信息如下:

2. 2 多尺度自注意機(jī)制

Transformer 中的自注意機(jī)制優(yōu)勢(shì)在于其高效的并行化能力和全局依賴建模,但卻難以捕捉特征序列局部之間的依賴,這也導(dǎo)致基于Transformer 的架構(gòu)通常難以應(yīng)用到語音領(lǐng)域。為了提升Transformer?qū)Φ奶卣餍蛄芯植块L期依賴的建模能力,本文提出了一種多尺度自注意力(Multiscale Self-Attention,MSA)機(jī)制對(duì)原自注意力進(jìn)行改進(jìn)。該機(jī)制利用不同的自注意力頭關(guān)注不同長度的局部序列以獲取多尺度長期依賴信息,提高局部建模能力,結(jié)構(gòu)如圖3所示。

首先將特征集合x∈RD×C 按序列長度均分得到n 個(gè)局部序列特征集合xi∈RD×(C/n),其中i 表示第i 個(gè)局部序列特征集合,C 表示單個(gè)特征序列長度,D 表示集合中的特征數(shù)量。均分操作之后,每個(gè)局部序列特征集合xi 都會(huì)通過與之相對(duì)應(yīng)的自注意力頭Atti 和激活函數(shù)為LeakyReLU 線性層Li,其中線性層的作用是保證xi 和yi 的維度一致。輸出yi 表示如下:

如圖3 所示,Atti 的輸入特征不僅包括當(dāng)前的局部序列特征集合xi,同時(shí)還包括前一項(xiàng)輸出局部序列特征集合yi。因此,當(dāng)前輸入局部特征子集包含更長的序列特征以及多種感受野的大小組合。更長的序列特征包含更多的語音信息以及進(jìn)行更好的上下文分析,多種感受野的大小組合則可以豐富局部子序列長期依賴關(guān)系,實(shí)現(xiàn)更精準(zhǔn)、有效的特征提取。如式(9)所示,將所有的yi 進(jìn)行拼接后輸入線性層LG 和自注意力頭AttG 進(jìn)行全局級(jí)多尺度依賴信息整合,輸出特征Y∈RCG×D 。

2. 3 特征序列池化

池化操作也稱為讀出操作,主要作用是將連續(xù)的高維幀級(jí)序列特征聚合為可用于分類的話語級(jí)特征。本文引入特征序列池化(Sequence Pooling,SeqPool)[13]聚合幀級(jí)特征,不同于常用的平均池化、最大池化以及總和池化等靜態(tài)池化方法,特征SeqPool 是一種基于注意力機(jī)制的映射變換,其通過保留不同幀級(jí)序列之間的相關(guān)信息提高性能并且不會(huì)帶來額外的參數(shù)。

該方法一共包括3 個(gè)步驟。對(duì)于一個(gè)L 層的Transformer 編碼器輸出yL ∈RD×C,特征SeqPool 方法首先利用一個(gè)線性層對(duì)yL 進(jìn)行降維以及信息整合,隨后,對(duì)g(yL )∈RD×1 應(yīng)用Softmax 激活函數(shù)為每一個(gè)輸入幀級(jí)序列產(chǎn)生一個(gè)重要性權(quán)重,計(jì)算如下:

wL = Softmax(g(yL) T )∈ R1 ×D , (10)

式中:g(yL)代表線性層映射。將重要性權(quán)重wL 與yL 相乘生成話語級(jí)特征z,計(jì)算如下:

z = Softmax(g(yL) T )× yL ∈ R1 ×C 。(11)

將z 進(jìn)行降維后生成z′∈R3. 1 實(shí)驗(yàn)環(huán)境與參數(shù)細(xì)節(jié)C 輸入到全連接層中進(jìn)行分類。對(duì)于欺騙檢測(cè)任務(wù),全連接層的最后一層是一個(gè)包含2 個(gè)神經(jīng)元的線性層,每一個(gè)神經(jīng)元的輸出分別代表欺騙類別和真實(shí)類別的置信度得分。

3 實(shí)驗(yàn)與結(jié)果分析

3. 1 實(shí)驗(yàn)環(huán)境與參數(shù)細(xì)節(jié)

本文采用FBank 作為前端時(shí)頻表示特征。以20 ms 幀長、10 ms 幀移、漢寧窗以及512 個(gè)傅里葉變換變換點(diǎn)提取對(duì)數(shù)功率譜。所有對(duì)數(shù)功率譜調(diào)整為固定長度400 幀,對(duì)于時(shí)長不足的語音樣本,本實(shí)驗(yàn)沿時(shí)間軸對(duì)特征進(jìn)行復(fù)制。對(duì)于長語音,本實(shí)驗(yàn)隨機(jī)選擇400 幀連續(xù)幀。然后應(yīng)用60 個(gè)線性濾波器提?。叮?維FBank。

本實(shí)驗(yàn)基于Ubuntu 20. 04 操作系統(tǒng),采用Py-Torch 框架實(shí)現(xiàn),顯卡為NVDIA GTX 1080Ti。設(shè)置β1 = 0. 9,β2 = 0. 999,初始學(xué)習(xí)率為5 ×10-5 的Adam優(yōu)化器,學(xué)習(xí)速率衰減采用余弦退火方法??偣灿?xùn)練100 個(gè)輪次,取其中最好的實(shí)驗(yàn)結(jié)果作為最終結(jié)果。

3. 2 數(shù)據(jù)集

實(shí)驗(yàn)采用ASVspoof2019 大賽的邏輯訪問(Logical Access,LA)數(shù)據(jù)集驗(yàn)證本文模型以及其他不同模型的檢測(cè)效果。該數(shù)據(jù)集基于VCTK 語料庫的107 位說話人語音樣本,由17 種不同的語音合成以及語音轉(zhuǎn)換算法產(chǎn)生后通過16 比特量化下采樣到16 kHz 得到。數(shù)據(jù)集包含訓(xùn)練集、開發(fā)集以及評(píng)估集3 個(gè)子集且彼此之間沒有交集。此外,開發(fā)集中的欺騙語音采用訓(xùn)練集中相同的欺騙語音算法(A01 ~ A06)產(chǎn)生,用于驗(yàn)證算法對(duì)可見欺騙語音的檢測(cè)效果。評(píng)估集中使用了13 種欺騙語音產(chǎn)生算法(A07 ~ A19),其中的A06、A04 與訓(xùn)練集中的A19、A16 是同一種欺騙算法,另外的11 種算法相對(duì)于訓(xùn)練集是未知的,用于驗(yàn)證算法對(duì)未知欺騙語音的檢測(cè)效果。數(shù)據(jù)集詳細(xì)設(shè)置如表1 所示。

3. 3 評(píng)估指標(biāo)

本文采用等錯(cuò)誤率[2](Equal Error Rate,EER)作為次要檢測(cè)指標(biāo),采用ASVspoof2019 大賽中所提出的最小串聯(lián)檢測(cè)代價(jià)函數(shù)[14](min tandem-Detection Cost Function,min t-DCF)作為主要檢測(cè)指標(biāo),二者的值均越低代表系統(tǒng)的檢測(cè)準(zhǔn)確度越高。

(1)EER

如式(14)所示,EER 被定義為在閾值為τ 的情況下,錯(cuò)誤接受率PFAR(τ)和錯(cuò)誤拒絕率PFRR(τ)相等時(shí)的值。錯(cuò)誤接受率和錯(cuò)誤拒絕率由式(12)、式(13)所示,其中Nfa(τ)、Nmiss(τ)分別表示欺騙語音樣本被錯(cuò)誤接受的數(shù)量以及真實(shí)語音樣本被錯(cuò)誤拒絕的數(shù)量,Nspoof、Nbonafide 分別表示欺騙語音樣本的數(shù)量以及真實(shí)語音樣本的數(shù)量。EER 是一種獨(dú)立評(píng)判欺騙語音檢測(cè)系統(tǒng)的有效指標(biāo),通過比較EER可以直觀地看出欺騙語音檢測(cè)系統(tǒng)的性能。

(2)最小串聯(lián)檢測(cè)代價(jià)函數(shù)

實(shí)際場(chǎng)景中,ASV 系統(tǒng)通常與反欺騙(CM)系統(tǒng)串聯(lián)應(yīng)用,如果只將CM 系統(tǒng)的等錯(cuò)誤作為評(píng)價(jià)指標(biāo),無法全面反映CM 系統(tǒng)和ASV 系統(tǒng)對(duì)檢測(cè)結(jié)果的影響。因此,ASVspoof2019 大賽采用最小串聯(lián)檢測(cè)代價(jià)函數(shù)作為主要的評(píng)價(jià)指標(biāo)。如式(15)所示,其綜合考慮CM 系統(tǒng)和ASV 系統(tǒng)的決策,在評(píng)價(jià)系統(tǒng)性能時(shí)更加合理:

式中:PCMFRR(τ)和PCMFAR(τ)分別表示在閾值為τ 的情況下,CM 系統(tǒng)的錯(cuò)誤拒絕率和錯(cuò)誤接收率;系數(shù)C0 、C1 、C2 由ASV 系統(tǒng)和CM 系統(tǒng)的2 種錯(cuò)誤率以及先驗(yàn)概率所決定,t-DCFdefault 定義為CM 系統(tǒng)接受或拒絕每條測(cè)試語音樣本無信息的默認(rèn)成本。

t-DCFdefault = C0 + min{C1 ,C2 }。(16)

3. 4 消融實(shí)驗(yàn)

為了驗(yàn)證本文模型中每個(gè)組件的有效性,通過移除或者替換對(duì)應(yīng)組件在評(píng)估集上進(jìn)行了多組消融實(shí)驗(yàn),結(jié)果如表2 所示。

由表2 可知,實(shí)驗(yàn)2 通過添加位置嵌入信息(Position Embedding,PE)保留時(shí)頻子區(qū)域之間的相對(duì)位置關(guān)系能夠在一定程度上提升模型性能。實(shí)驗(yàn)3 在SE-ResNet18 層之間添加CA 模塊區(qū)分局部時(shí)頻子區(qū)域之間的重要性,EER 與min t-DCF 分別降低3. 7% 、1. 3% 。在實(shí)驗(yàn)3 的基礎(chǔ)上將自注意力機(jī)制替換成MSA 機(jī)制,EER 降低5. 0% ,min tDCF 降低3. 73% ,這表明豐富尺度信息能有效提升對(duì)欺騙偽影的檢測(cè)。實(shí)驗(yàn)5 進(jìn)一步將全局平均池化(Global Average Pooling,GAP)替換為SeqPool,EER和min t-DCF 達(dá)到1. 58 和0. 048 1,對(duì)比實(shí)驗(yàn)4 分別降低4. 73% 、2. 03% ,因?yàn)椋樱澹瘢校铮铮?相對(duì)于靜態(tài)池化方法,能夠有效保留Transformer 編碼器輸出幀級(jí)特征之間的相關(guān)信息,從而提升模型檢測(cè)精度。

圖4 是分別提?。?000 條真實(shí)語音和各類欺騙語音的話語級(jí)特征進(jìn)行降維后形成的可視化消融實(shí)驗(yàn)對(duì)比圖,其中紫色代表真實(shí)語音,黃色代表欺騙語音,圖4 (a)~ 圖4 (d)分別對(duì)應(yīng)消融實(shí)驗(yàn)2 ~ 5。圖4(a)為添加PE 信息后的可視化效果圖,可以看出真實(shí)語音和欺騙語音類間碰撞情況較多,且對(duì)于真實(shí)語音的類內(nèi)聚合度差。圖4(b)為在圖4(a)的基礎(chǔ)上嵌入CA 機(jī)制的可視化效果圖,相比于圖4(a),圖4 (b)的類間碰撞情況有所降低,且真實(shí)語音類間聚合度有明顯提升,這表明CA 提升了模型的特征提取能力,話語級(jí)特征具備更強(qiáng)的甄別性。圖4(c)為將自注意力機(jī)制替換為MSA 機(jī)制的可視化效果圖,可以看出類間碰撞降低,對(duì)于大部分真實(shí)語音,類間聚合度明顯提高,但是依然存在少部分真實(shí)樣本聚合度比較差。圖4(d)為進(jìn)一步替換GAP 為SeqPool 的可視化效果圖,相比于圖4(c),在沒有增加類間碰撞的情況下,提升了真實(shí)語音之間的相似性,這表明SeqPool 并不會(huì)影響主干網(wǎng)絡(luò)的特征提取能力,且能保留主干網(wǎng)絡(luò)輸出特征序列之間的相關(guān)性信息以提升區(qū)分度。

3. 5 未知攻擊檢測(cè)性能對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本文模型對(duì)未知攻擊檢測(cè)的性能,在評(píng)估集中使用6 種模型與本文模型進(jìn)行對(duì)比,包括OC-Softmax[15]、LCNN-LSTM-sum[16]、Attention + ResNet[17]、MCG-Res2Net50[6]、Raw PC-DARTS[18]和Res-TSSD-Net[19]。上述6 種模型均是單一系統(tǒng),并沒有經(jīng)過任何分?jǐn)?shù)融合策略。對(duì)比實(shí)驗(yàn)分別比較7 種模型的EER 和min t-DCF,結(jié)果如表3 所示。本研究在EER 指標(biāo)上達(dá)到最優(yōu)性能,相較于最優(yōu)模型Res-TSSDNet,min t-DCF 相同,但是EER 降低了1. 83% 。

為了進(jìn)一步對(duì)比Raw PC-DARTS、Res-TSSDNet與本文模型對(duì)不同攻擊類型的檢測(cè)性能,在評(píng)估集上對(duì)A07 ~ A19 共13 種未知欺騙攻擊分別進(jìn)行實(shí)驗(yàn)并比較min t-DCF 指標(biāo),結(jié)果如圖5 所示。

從圖5 可以看出對(duì)于大部分的欺騙類型,3 種模型的檢測(cè)性能表現(xiàn)差距不大。針對(duì)A07 ~ A16 共10 種攻擊類型,本文模型的整體精度表現(xiàn)得更加穩(wěn)定,對(duì)于A08 和A12 類型,Raw PC-DARTS 無法有效檢測(cè),Res-TSSDNet 的檢測(cè)性能波動(dòng)最明顯,相對(duì)于其余攻擊類型,其對(duì)于A07、A10 以及A15 的檢測(cè)精度存在明顯下降,這表明本文模型的泛化性能更好,能夠適應(yīng)更多種的未知欺騙類型。但是在面對(duì)公認(rèn)難度最高的A17 攻擊類型時(shí),3 種模型的min t-DCF均有大幅度上升,其中本文模型的表現(xiàn)最差,主要原因在于A17 是一種基于原始波濾波的轉(zhuǎn)換攻擊算法,因此采用A17 算法生成的偽裝語音在原始波中會(huì)包含更多的欺騙偽影。而Raw PC-DARTS 和Res-TSSDNet 均采用未經(jīng)手工處理的原始波形作為輸入特征,相對(duì)于本文采用的前端特征Linear FBank 保留了更多的有效信息。但是以原始波形作為輸入特征同時(shí)會(huì)引入大量冗余信息,提升了模型對(duì)特征的提取難度,導(dǎo)致模型無法在多種不同的攻擊類型上表現(xiàn)出平穩(wěn)的性能。

本文模型的話語級(jí)特征在評(píng)估集上針對(duì)各類攻擊類型的可視化結(jié)果如圖6 所示,紅色圓點(diǎn)為真實(shí)語音,其余顏色圓點(diǎn)為多種欺騙語音。從圖6 中可以看出真實(shí)語音類內(nèi)聚合度高,同時(shí)與各類欺騙語音之間間距明顯,少量類間碰撞主要集中于A17 上,這表明本文模型能夠有效區(qū)分真實(shí)語音和欺騙語音。

4 結(jié)束語

本文提出了一種結(jié)合CNN 與Transformer 的欺騙語音檢測(cè)模型,旨在通過高效捕捉語音信息局部時(shí)頻表示之間的全局相關(guān)性來提高來解決現(xiàn)有方法難以適應(yīng)多種欺騙類型、對(duì)未知欺騙攻擊檢測(cè)能力不足的問題。設(shè)計(jì)基于CA 注意力嵌入的SE-Res-Net18 的位置感知特征序列提取網(wǎng)絡(luò),將語音信號(hào)局部時(shí)頻表示映射為高維特征序列,采用二維位置編碼保留特征序列之間的相對(duì)位置信息,并在原SE-ResNet18 的基礎(chǔ)上嵌入CA 注意力區(qū)分特征序列之間的重要性,提升特征提取能力;提出MSA 機(jī)制替換Transformer 層中的單一自注意力,解決Transformer 難以捕捉局部依賴的問題;引入SeqPool提取話語級(jí)特征,保留Transformer 層輸出幀級(jí)特征序列之間的相關(guān)性信息,優(yōu)化檢測(cè)精度。實(shí)驗(yàn)結(jié)果表明,在ASVspoof2019 大賽數(shù)據(jù)集的LA 場(chǎng)景中,相較于當(dāng)前先進(jìn)模型,本文模型適應(yīng)性更強(qiáng)且min t-DCF 與EER 平均降低7. 81% 和12. 83% ,整體檢測(cè)精度上具備明顯優(yōu)勢(shì)。在未來的工作中,將使用多特征融合的方式,豐富前端特征表達(dá),從而提升對(duì)未知攻擊檢測(cè)的精度和模型的泛化性。

參考文獻(xiàn)

[1] SADJADI S O,GREENBERG C,SINGER E,et al. The2021 NIST Speaker Recognition Evaluation [EB / OL ].(2022-04-21)[2023-05-16]. https:∥arxiv. org / abs /2204. 10242.

[2] NAUTSCH A,WANG X,EVANS N,et al. ASVspoof2019:Spoofing Countermeasures for the Detection of Synthesized,Converted and Replayed Speech [J ]. IEEETransactions on Biometrics, Behavior, and IdentityScience,2021,3(2):252-265.

[3] HUANG P Y,XU H,LI J C,et al. Masked Autoencodersthat Listen[C]∥ NeurIPS 2022. New Orleans:[s. n. ],2022:28708-28720.

[4] HUANG R J,CUI C Y,CHEN F Y,et al. SingGAN:Generative Adversarial Network for Highfidelity SIngingVoice Generation[C]∥Proceedings of the 30th ACM International Conference on Multimedia. Lisboa:ACM,2022:2525-2535.

[5] WANG Z,CUI S S,KANG X G,et al. Densely ConnectedConvolutional Network for Audio Spoofing Detection[C]∥2020 AsiaPacific Signal and Information Processing Association Annual Summit and Conference (APSIPAASC). Auckland:IEEE,2020:1352-1360.

[6] LI X,WU X X,LU H,et al. Channelwise GatedRes2Net:Towards Robust Detection of Synthetic SpeechAttacks [EB / OL]. (2021 - 07 - 19 )[2023 - 05 - 16 ].https:∥arxiv. org / abs / 2107. 08803.

[7] FU Q C,TENG Z W,WHITE J,et al. FastAudio:A Learnable Audio FrontEnd for Spoof Speech Detection[C]∥ICASSP 2022 - 2022 IEEE International Conference onAcoustics,Speech and Signal Processing (ICASSP). Singapore:IEEE,2022:3693-3697.

[8] TAK H,PATINO J,TODISCO M,et al. EndtoEnd Antispoofing with RawNet2 [C]∥ ICASSP 2021 - 2021 IEEEInternational Conference on Acoustics,Speech and SignalProcessing (ICASSP). Toronto:IEEE,2021:6369-6373.

[9] TAK H,JUNG J,PATINO J,et al. Graph Attention Networks for Antispoofing [EB / OL ]. (2021 - 04 - 08 )[2023-05-16]. https:∥arxiv. org / abs / 2104. 03654.

[10] VASWANI A,SHAZEER N,PARMAR N,et al. AttentionIs All You Need [C]∥ NIPS 2017. Long Beach:CurranAssociatior Inc. ,2017:6000-6010.

[11] HOU Q B,ZHOU D Q,FENG J S. Coordinate Attentionfor Efficient Mobile Network Design[C]∥Proceedings ofthe IEEE / CVF Conference on Computer Vision and PatternRecognition. Nashville:IEEE,2021:13713-13722.

[12] RAISI Z,NAIEL M A,FIEGUTH P,et al. 2D PositionalEmbeddingbased Transformer for Scene Text Recognition[J ]. Journal of Computational Vision and ImagingSystems,2020,6(1):1-4.

[13] HASSANI A,WALTON S,SHAH N,et al. Escaping theBig Data Paradigm with Compact Transformers[EB / OL].(2022-06-07)[2023-05-16]. https:∥arxiv. org / abs /2104. 05704v4.

[14] KINNUNEN T,LEE K A,DELGADO H,et al. tDCF:ADetection Cost Function for the Tandem Assessment ofSpoofing Countermeasures and Automatic Speaker Verification[EB / OL]. (2019 -04 -12)[2023 -05 -16]. https:∥arxiv. org / abs / 1804. 09618v2.

[15] ZHANG Y,JIANG F,DUAN Z Y. Oneclass Learning Towards Synthetic Voice Spoofing Detection [J ]. IEEESignal Processing Letters,2021,28:937-941.

[16] WANG X,YAMAGISHI J. A Comparative Study onRecent Neural Spoofing Countermeasures for SyntheticSpeech Detection[EB / OL]. (2021-03 -21)[2023 -05 -16]. https:∥arxiv. org / abs / 2103. 11326v2.

[17] LING H F,HUANG L C,HUANG J R,et al. Attentionbased Convolutional Neural Network for ASV Spoofing Detection[C]∥ Interspeech 2021. Brno:[s. n. ],2021:4289-4293.

[18] GE W Y,PATINO J,TODISCO M,et al. RawDifferentiable Architecture Search for Speech Deepfakeand Spoofing Detection [EB / OL ]. (2021 - 10 - 06 )[2023-05-16]. https:∥arxiv. org / abs / 2107. 12212v2.

[19] HUA G,TEOH A B J,ZHANG H J. Towards EndtoEndSynthetic Speech Detection [J]. IEEE Signal ProcessingLetters,2021,28:1265-1269.

作者簡(jiǎn)介

徐童心 男,(1999—),碩士研究生。主要研究方向:語音檢測(cè)與人工智能。

黃 俊 男,(1971—),博士,教授。主要研究方向:深度學(xué)習(xí)。

基金項(xiàng)目:國家自然科學(xué)基金(61771085)

灵山县| 金寨县| 姚安县| 林周县| 紫金县| 太保市| 万源市| 历史| 彭州市| 五台县| 清丰县| 南川市| 扬中市| 苏州市| 颍上县| 平塘县| 台中市| 库伦旗| 朔州市| 六枝特区| 靖远县| 宝鸡市| 马龙县| 含山县| 朔州市| 祁阳县| 栾川县| 缙云县| 临城县| 茶陵县| 吴桥县| 漯河市| 哈巴河县| 青田县| 扶绥县| 怀仁县| 天台县| 民县| 常德市| 兖州市| 缙云县|