国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度卷積神經(jīng)網(wǎng)絡(luò)的偽造語(yǔ)音檢測(cè)*

2022-02-28 06:52:54楊海濤王華朋楚憲騰牛瑾琳張琨瑤中國(guó)刑事警察學(xué)院
警察技術(shù) 2022年1期
關(guān)鍵詞:聲學(xué)語(yǔ)音卷積

楊海濤 王華朋 楚憲騰 牛瑾琳 張琨瑤 中國(guó)刑事警察學(xué)院

引言

深度學(xué)習(xí)(Deep Learning,DL)的進(jìn)步促進(jìn)了偽造語(yǔ)音技術(shù)的發(fā)展[1]。與此同時(shí),利用以深度偽造為技術(shù)支撐的偽造語(yǔ)音通過(guò)欺騙機(jī)器聽(tīng)覺(jué)系統(tǒng)或人類(lèi)聽(tīng)覺(jué)系統(tǒng)嚴(yán)重威脅到人們的生命財(cái)產(chǎn)安全[2,3]?,F(xiàn)階段的司法實(shí)踐中對(duì)于偽造語(yǔ)音的識(shí)別主要依靠專(zhuān)家經(jīng)驗(yàn),對(duì)自動(dòng)識(shí)別偽造語(yǔ)音算法的研究還不夠充分。結(jié)合公安實(shí)踐來(lái)說(shuō),在電信網(wǎng)絡(luò)詐騙案件中犯罪分子主要使用虛擬空間實(shí)施詐騙,專(zhuān)家對(duì)偽造語(yǔ)音可干預(yù)部分較少,亟需發(fā)展自動(dòng)識(shí)別偽造語(yǔ)音的算法。通過(guò)對(duì)偽造語(yǔ)音的快速準(zhǔn)確識(shí)別,可以及時(shí)給人提供預(yù)警信息,提示語(yǔ)音、視頻通話(huà)的風(fēng)險(xiǎn)程度從而減少電信網(wǎng)絡(luò)詐騙案件的發(fā)生。

ASVspoof挑戰(zhàn)賽(Automatic Speaker Verification Spoofing And Countermeasures Challenge)自2013[4]年召開(kāi)后使得人們愈發(fā)關(guān)注偽造語(yǔ)音檢測(cè)。國(guó)內(nèi)外研究偽造語(yǔ)音檢測(cè)技術(shù)主流方法是聲學(xué)特征選取及識(shí)別模型選擇[5]。在對(duì)偽造語(yǔ)音進(jìn)行檢測(cè)的模型選取上,高斯混合模型(Gaussian Mixture Model,GMM)是進(jìn)行偽造語(yǔ)音檢測(cè)的經(jīng)典模型,在ASVspoof2015~2019挑戰(zhàn)賽中都取得了不錯(cuò)的成績(jī),且被當(dāng)作基線系統(tǒng)[6,7,8]。隨后被學(xué)者應(yīng)用于偽造語(yǔ)音檢測(cè)領(lǐng)域的是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)[9]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是深度學(xué)習(xí)的重要模型之一,Yann Lecun在文獻(xiàn)[10]中提出了LeNet-5,并將BP算法應(yīng)用到LeNet-5的訓(xùn)練上,形成了CNN的雛形。隨后Hinton等提出的 Alexnet改進(jìn)了網(wǎng)絡(luò)結(jié)構(gòu)并引入了dropout,在圖像識(shí)別領(lǐng)域取得了巨大成功[11]。CNN能夠加強(qiáng)前后神經(jīng)元的關(guān)聯(lián)性,且其共享權(quán)重的特性能夠減少網(wǎng)絡(luò)參數(shù),加快訓(xùn)練速率[12]。借鑒于CNN在圖像領(lǐng)域的成功,越來(lái)越多的學(xué)者將其引入到語(yǔ)音識(shí)別領(lǐng)域[13]。語(yǔ)音識(shí)別準(zhǔn)確率與語(yǔ)音信號(hào)的多樣性有關(guān),卷積神經(jīng)網(wǎng)絡(luò)在空間和時(shí)間上具有平移不變性,將卷積神經(jīng)網(wǎng)絡(luò)模型用于語(yǔ)音識(shí)別領(lǐng)域則可以克服語(yǔ)音的多樣性從而提高識(shí)別準(zhǔn)確率。Chettr等使用基于CNN網(wǎng)絡(luò)的識(shí)別系統(tǒng)去識(shí)別偽造語(yǔ)音,并分析了語(yǔ)音欺騙檢測(cè)性能與語(yǔ)音樣本的相關(guān)性[14]。本文選取多種語(yǔ)音聲學(xué)特征,借助卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力提出一種深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行欺騙語(yǔ)音檢測(cè)研究,圖1為本文偽造語(yǔ)音檢測(cè)流程圖。

一、語(yǔ)音偽造方法

語(yǔ)音偽造的方法通常包括語(yǔ)音模仿、語(yǔ)音重放、語(yǔ)音轉(zhuǎn)換、語(yǔ)音合成四類(lèi)。其中語(yǔ)音模仿和語(yǔ)音重放這兩類(lèi)語(yǔ)音偽造方法操作簡(jiǎn)單、成本低廉,主要針對(duì)的是人們的聽(tīng)覺(jué)系統(tǒng),稍加技術(shù)手段即可分辨。語(yǔ)音轉(zhuǎn)換和語(yǔ)音合成這兩種方法屬于自動(dòng)化的、主流的語(yǔ)音偽造手段,在語(yǔ)音偽造中被廣泛使用,但檢測(cè)成本高,難度大。在公安實(shí)踐中常遇到的使用聲卡、變聲軟件等進(jìn)行偽造的語(yǔ)音大多數(shù)屬于合成、轉(zhuǎn)換語(yǔ)音,犯罪嫌疑人利用這兩種方式來(lái)掩飾自身的聲學(xué)特性并以此來(lái)實(shí)施欺詐。圖2中總結(jié)了幾種攻擊方式的主要攻擊對(duì)象及可能帶來(lái)的危害[5]。合成、轉(zhuǎn)換語(yǔ)音對(duì)社會(huì)的危害性更大,因此作為本文的主要研究對(duì)象。

二、聲學(xué)特征

在說(shuō)話(huà)人識(shí)別領(lǐng)域常用的聲學(xué)特征之一是梅爾倒譜系數(shù)特征,它首先對(duì)輸入的語(yǔ)音序列進(jìn)行預(yù)處理,然后采用FFT將時(shí)域信息轉(zhuǎn)換到頻率域,之后用梅爾濾波和對(duì)數(shù)進(jìn)行運(yùn)算,最后使用DCT將空域信息轉(zhuǎn)換到頻域,得到MFCC特征,使用公式(1)在赫茲和梅爾之間轉(zhuǎn)換。

線性頻率倒譜系數(shù)是聲音的線性倒譜表示,它是對(duì)語(yǔ)音信號(hào)的對(duì)數(shù)進(jìn)行離散傅里葉變換的結(jié)果,采用線性濾波器組,由于其能區(qū)分語(yǔ)音信號(hào)高頻率區(qū)間,其在偽造語(yǔ)音檢測(cè)中表現(xiàn)突出,其倒譜函數(shù)表達(dá)式如公式(2)。

伽瑪通頻率倒譜系數(shù)與MFCC機(jī)理類(lèi)似,伽瑪通濾波器的排列模仿了人類(lèi)基底膜的排列,它能夠區(qū)分不同頻率段的聲音,能夠?qū)卧煺Z(yǔ)音進(jìn)行區(qū)分,其時(shí)域表達(dá)式如下。

三、深度卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)通常包括卷積層、池化層、全連接層和激活函數(shù),在偽造語(yǔ)音檢測(cè)過(guò)程中多個(gè)卷積核的卷積層的目的是學(xué)習(xí)到語(yǔ)音序列的特征;池化層可以對(duì)語(yǔ)音特征進(jìn)行下采樣,通過(guò)改變語(yǔ)音序列特征映射的分辨率來(lái)實(shí)現(xiàn)偏移不變性;全連接層能夠?qū)φ鎮(zhèn)握Z(yǔ)音進(jìn)行分類(lèi),激活函數(shù)通常包括sigmoid,tanh,ReLU。

本文提出一種深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行偽造語(yǔ)音檢測(cè),檢測(cè)的內(nèi)容為語(yǔ)音合成、語(yǔ)音轉(zhuǎn)換這兩種目前較為流行的偽造語(yǔ)音,圖3所示為提出的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。

其中共有4個(gè)卷積層1個(gè)展平層1個(gè)全連接層。卷積層的輸入是已經(jīng)提取好的聲學(xué)特征(X,height,width,channel),本文語(yǔ)音特征經(jīng)維度擴(kuò)增后其大小為[X,50,20,1],其中X為語(yǔ)音特征的個(gè)數(shù),特征序列長(zhǎng)度為50,語(yǔ)音特征維度為20,通道數(shù)為1,(4)式為卷積層的計(jì)算公式。其中padding為加零操作,stride為卷積核移動(dòng)步長(zhǎng)。

聲學(xué)特征經(jīng)過(guò)卷積層后進(jìn)入最大池化層下采樣處理,計(jì)算公式如(5)所示,最大池化層取窗口中的最大值,能夠去除特征的冗余信息,簡(jiǎn)化網(wǎng)絡(luò)復(fù)雜度簡(jiǎn)化計(jì)算,加快網(wǎng)絡(luò)運(yùn)算能力。i為3×3的窗口區(qū)域。

展平層的目的是將卷積處理后的語(yǔ)音特征平滑處理,使其進(jìn)入全連接層,對(duì)語(yǔ)音實(shí)行分類(lèi)任務(wù)。在卷積層中使用的激活函數(shù)為ReLU,ReLU激活函數(shù)沒(méi)有復(fù)雜的指數(shù)運(yùn)算,計(jì)算簡(jiǎn)單效率較高,因此神經(jīng)網(wǎng)絡(luò)的收斂速度會(huì)更快,其計(jì)算公式為(6)(7)。

在分類(lèi)過(guò)程中選擇的損失函數(shù)是Softmax,該函數(shù)在分類(lèi)問(wèn)題中經(jīng)常使用,在本文中它將多個(gè)神經(jīng)元的輸出映射到(spoof,bonafide)區(qū)間來(lái)實(shí)現(xiàn)偽造語(yǔ)音分類(lèi),其計(jì)算公式為(8),其中xi為第i個(gè)節(jié)點(diǎn)的輸出值,C為輸出的類(lèi)別。

在構(gòu)建網(wǎng)絡(luò)模型的過(guò)程中使用了丟棄法(Dropout)和批標(biāo)準(zhǔn)化(Batch Normalization)兩種優(yōu)化策略,在神經(jīng)網(wǎng)絡(luò)前向傳播的過(guò)程中使用丟棄法讓神經(jīng)元以一定的隨機(jī)概率停止工作,這樣使得模型的泛化能力更強(qiáng),運(yùn)算速度更快[15]。批標(biāo)準(zhǔn)化將數(shù)據(jù)分成小批進(jìn)行計(jì)算,將數(shù)據(jù)映射到(0,1)之間,減少網(wǎng)絡(luò)模型的計(jì)算量,防止網(wǎng)絡(luò)過(guò)擬合,增強(qiáng)神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性[16]。

四、實(shí)驗(yàn)設(shè)置

(一)實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)環(huán)境配置如表1所示。

?

(二)數(shù)據(jù)庫(kù)

英文數(shù)據(jù)庫(kù)ASVspoof2019中的LA中的訓(xùn)練集是基于VCTK數(shù)據(jù)庫(kù)進(jìn)行開(kāi)發(fā)的,該數(shù)據(jù)集偽造語(yǔ)音由4種語(yǔ)音合成算法和2種語(yǔ)音轉(zhuǎn)換算法生成,共2580條真實(shí)語(yǔ)音和22800條偽造語(yǔ)音,是進(jìn)行偽造語(yǔ)音檢測(cè)常用的數(shù)據(jù)集[8]。

中文數(shù)據(jù)庫(kù)采用的是第二屆CSIG圖像圖形技術(shù)挑戰(zhàn)賽偽造語(yǔ)音檢測(cè)項(xiàng)目所開(kāi)源的數(shù)據(jù)集FMCC-A ,該數(shù)據(jù)集是目前最大的開(kāi)源偽造中文數(shù)據(jù)集,由10000段真實(shí)語(yǔ)音和40000段由語(yǔ)音合成語(yǔ)音轉(zhuǎn)換算法合成的偽造語(yǔ)音構(gòu)成[17]。

(三)網(wǎng)絡(luò)參數(shù)設(shè)置

第一層卷積神經(jīng)網(wǎng)絡(luò)設(shè)置有32個(gè)3×3卷積核,形狀為[X,50,20,1]的語(yǔ)音特征,輸入第一層后輸出為(None,48,18,32),第二層卷積神經(jīng)網(wǎng)絡(luò)設(shè)置有32個(gè)隱藏節(jié)點(diǎn)輸出為(None,46,16,32),第三層設(shè)置最大池化層進(jìn)行下采樣,隨后設(shè)置丟棄層隨機(jī)丟棄50%個(gè)神經(jīng)節(jié)點(diǎn),防止神經(jīng)網(wǎng)絡(luò)過(guò)擬合,之后經(jīng)過(guò)具有64個(gè)隱藏節(jié)點(diǎn)的卷積層后設(shè)置Dropout層丟棄50%個(gè)神經(jīng)節(jié)點(diǎn),然后再進(jìn)入有128個(gè)隱藏節(jié)點(diǎn)的卷積層,后面為最大池化層,之后進(jìn)行批標(biāo)準(zhǔn)化處理,最后展平進(jìn)入Dense層分類(lèi)。其中卷積層激活函數(shù)采用ReLU,Dense層激活函數(shù)為softmax。Batchsize設(shè)置為512,訓(xùn)練次數(shù)為1000次,網(wǎng)絡(luò)參數(shù)設(shè)置及輸出詳細(xì)信息如表2所示。

?

(四)實(shí)驗(yàn)結(jié)果及分析

分別對(duì)MFCC、LFCC、GFCC這三種聲學(xué)特征使用所提方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)過(guò)程中控制其他變量,實(shí)驗(yàn)結(jié)果如表3所示,比較的標(biāo)準(zhǔn)采用測(cè)試集準(zhǔn)確率(Accuracy);AUC(Area Under the Curve,AUC),等錯(cuò)誤率(Equal Error Rate,EER)。其中AUC指標(biāo)越接近于1說(shuō)明使用該種特征的模型更穩(wěn)定,EER指標(biāo)越接近于0說(shuō)明模型對(duì)偽造語(yǔ)音的區(qū)分度越高。

?

由上表,MFCC特征在準(zhǔn)確度、AUC及EER指標(biāo)上表現(xiàn)均超過(guò)LFCC和GFCC特征,在本文所提出的深度卷積神經(jīng)網(wǎng)絡(luò)上表現(xiàn)最好,能夠作為偽造語(yǔ)音檢測(cè)的聲學(xué)特征。

使用提取到的MFCC特征,設(shè)置訓(xùn)練周期為1000Batch-size為512的條件下訓(xùn)練過(guò)程的識(shí)別準(zhǔn)確度變化曲線及損失變化曲線如圖4、圖5所示。在迭代200個(gè)周期后,準(zhǔn)確度變化曲線及損失大小變化曲線進(jìn)入收斂狀態(tài),訓(xùn)練集和驗(yàn)證集準(zhǔn)確度達(dá)到了97%以上,損失函數(shù)值在0.09以下,訓(xùn)練過(guò)程穩(wěn)定未出現(xiàn)梯度爆炸或梯度消失現(xiàn)象。

為驗(yàn)證本模型在中文偽造語(yǔ)音上的表現(xiàn),本文實(shí)驗(yàn)引入FMCC-A中文偽造語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)。提取中文語(yǔ)音庫(kù)的MFCC特征,其他實(shí)驗(yàn)參數(shù)保持不變進(jìn)行實(shí)驗(yàn)。圖6中(a)(b)圖分別為英文數(shù)據(jù)庫(kù)和中文數(shù)據(jù)庫(kù)的混淆矩陣圖,可以顯示本文所提方法對(duì)這兩種數(shù)據(jù)庫(kù)真實(shí)類(lèi)或偽造類(lèi)語(yǔ)音的區(qū)分程度。橫坐標(biāo)為預(yù)測(cè)類(lèi)標(biāo)簽,縱坐標(biāo)為真實(shí)類(lèi)標(biāo)簽,對(duì)角線上數(shù)值越大表現(xiàn)該類(lèi)區(qū)分準(zhǔn)確度越高。

圖6可以看出本文所提方法對(duì)英文庫(kù)或中文庫(kù)中的偽造語(yǔ)音的檢出率都達(dá)到了99%,對(duì)真實(shí)語(yǔ)音的檢出率在中文數(shù)據(jù)庫(kù)上表現(xiàn)稍差,其原因可能與中文語(yǔ)音較英文語(yǔ)音更復(fù)雜有關(guān)。

五、結(jié)語(yǔ)

快速準(zhǔn)確的對(duì)偽造語(yǔ)音進(jìn)行檢測(cè)在公安工作中具有十分重要的意義,為此本文提出一種深度卷積神經(jīng)網(wǎng)絡(luò)并提取了三種語(yǔ)音聲學(xué)特征來(lái)進(jìn)行偽造語(yǔ)音檢測(cè),實(shí)驗(yàn)在英文和中文偽造語(yǔ)音數(shù)據(jù)庫(kù)上進(jìn)行。三種聲學(xué)特征中表現(xiàn)最好的為MFCC,且在兩種數(shù)據(jù)庫(kù)中對(duì)偽造語(yǔ)音的檢出率均達(dá)到99%,證明了所提方法的有效性,但是對(duì)于真實(shí)語(yǔ)音的檢出率還有待提升,將來(lái)的工作應(yīng)進(jìn)一步加強(qiáng)。

猜你喜歡
聲學(xué)語(yǔ)音卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
愛(ài)的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
魔力語(yǔ)音
基于MATLAB的語(yǔ)音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
對(duì)方正在輸入……
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
故城县| 诸暨市| 常德市| 东阿县| 晋江市| 云林县| 南川市| 上思县| 公主岭市| 常州市| 富蕴县| 日照市| 怀柔区| 汉源县| 喀喇| 逊克县| 九江县| 平湖市| 玉田县| 冀州市| 乳源| 丰原市| 鲜城| 大姚县| 柘城县| 马山县| 永州市| 乐至县| 禹州市| 四子王旗| 红河县| 九台市| 石城县| 靖西县| 都兰县| 瑞安市| 长垣县| 汉川市| 汉源县| 望城县| 沅江市|