国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的錄音回放檢測(cè)

2020-02-02 03:37楊家輝朱镕潔
電子技術(shù)與軟件工程 2020年16期
關(guān)鍵詞:聲紋識(shí)別中間層錄音

楊家輝 朱镕潔

(寧波大學(xué) 浙江省寧波市 315211)

1 引言

聲紋識(shí)別是生物識(shí)別中的一種。相比于指紋識(shí)別和面部識(shí)別,語(yǔ)音的采集和識(shí)別成本更低,因而國(guó)內(nèi)外已經(jīng)有不少公司引入聲紋識(shí)別系統(tǒng)來(lái)提升客戶密碼認(rèn)證的體驗(yàn)感。聲紋識(shí)別的所面臨的安全性的挑戰(zhàn)之一則是說話人的錄音回放攻擊。但語(yǔ)音采集成本低同時(shí)也意味著盜取錄音的成本也不高。況且當(dāng)下主流智能手機(jī)的聲音錄制和播放的質(zhì)量不斷增強(qiáng),其作為入侵設(shè)備的成本以及攻擊便捷性的優(yōu)勢(shì)遠(yuǎn)高于其他生物識(shí)別。

在對(duì)市場(chǎng)上有聲紋識(shí)別的常用手機(jī)應(yīng)用程序的錄音回放攻擊測(cè)試中發(fā)現(xiàn),微信的聲音鎖登錄功能中,在正常不吵鬧環(huán)境下用手機(jī)錄制使用聲音鎖成功登錄的說話人聲音,說話人的錄音回放可成功登錄微信。故對(duì)錄音回放檢測(cè)的研究十分必要。

2011年,王志鋒[1]等人對(duì)錄音回放數(shù)據(jù)和原始語(yǔ)音數(shù)據(jù)的信道噪聲的差異進(jìn)行研究,對(duì)信道特征分析以識(shí)別是否為錄音回放。2016年,陳亞楠[2]等人提出基于低頻區(qū)信息分布的錄音回放檢測(cè)方法,實(shí)驗(yàn)結(jié)果表明該方法對(duì)不同入侵設(shè)備都能很好的識(shí)別出錄音回放,是對(duì)錄音回放特征的有效提取。

2 錄音回放數(shù)據(jù)集的設(shè)計(jì)與構(gòu)建

本次實(shí)驗(yàn)的數(shù)據(jù)集是基于《AISHELL-ASR0009-OS1 開源普通話語(yǔ)料庫(kù)》(后文簡(jiǎn)稱AISHELL-1),隨機(jī)抽取若干人聲進(jìn)行錄音回放。AIshell-1 包含了400 名來(lái)自中國(guó)不同口音區(qū)域的參與錄制,整個(gè)錄音被放置在安靜的室內(nèi)環(huán)境中。我們隨機(jī)選取了四百多個(gè)不同的中文短句音頻,不少于兩百五十種聲音,單個(gè)音頻時(shí)長(zhǎng)為3-7秒。取其中111 個(gè)音頻錄制回放,并將原音頻刪除。將這些音頻隨機(jī)分成兩部分,其數(shù)量分布如表1所示。

回放設(shè)備使用的是華碩筆記本電腦,入侵設(shè)備使用的是華為智能手機(jī),錄制空間為相對(duì)安靜的室內(nèi)環(huán)境中,入侵設(shè)備與回放設(shè)備間隔一米。文件儲(chǔ)存標(biāo)準(zhǔn)均為48000HZ、16 位深度、雙聲道的wav文件。儲(chǔ)存文件夾如圖1所示。

3 梅爾頻率倒譜系數(shù)(MFCC)

聲紋識(shí)別之所以具有可行性,是因?yàn)槿苏f話時(shí)的發(fā)聲器官在尺寸和形態(tài)上大有不同。只要獲得發(fā)聲器官工作時(shí)的信息,就可以準(zhǔn)確描述出說話人獨(dú)有的音素特征。梅爾頻率倒譜系數(shù)就是可以準(zhǔn)確描述聲音在短時(shí)功率譜的包絡(luò)特征。以下即是對(duì)梅爾頻率倒譜系數(shù)的提取過程。

提取MFCC 特征參數(shù)過程如圖2所示。

將語(yǔ)音信號(hào)以2048 的幀長(zhǎng)、512 的幀移分幀得到s(n)。我們將每一幀加窗,使全局更加連續(xù),避免出現(xiàn)吉布斯效應(yīng)。每一幀聲音信號(hào)加窗后為:

其中w(n)選取漢明窗:

表1:數(shù)據(jù)集音頻數(shù)量分布

表2:最優(yōu)模型驗(yàn)證結(jié)果

圖1:數(shù)據(jù)集文件存放分類

圖2:MFCC 特征參數(shù)提取過程

對(duì)x(n)進(jìn)行傅里葉變換得到信號(hào)頻譜X(k):

對(duì)信號(hào)頻譜取絕對(duì)值在平方以后得到能量譜,將能量譜通過Mel 濾波器組得到更接近人耳的梅爾頻率。

梅爾頻率可以反映人耳與聽到的聲音頻率之間的非線性關(guān)系。其與物理頻率的關(guān)系式為:

由于人耳對(duì)聲音響度的有“對(duì)數(shù)式”特性,故我們可以得到每個(gè)Mel 濾波器輸出的對(duì)數(shù)能量譜:

其中M 為通過的Mel 濾波器數(shù)量。

最后對(duì)對(duì)數(shù)能量譜作離散余弦變換即得到MFCC 特征參數(shù)C(n)。

圖3:ReLU 函數(shù)

圖4:訓(xùn)練集和測(cè)試集在100 次迭代中的準(zhǔn)確率

我們將所有的音頻轉(zhuǎn)換為MFCC 特征參數(shù)C(n),以C(n)作為輸入數(shù)據(jù)進(jìn)參與深度學(xué)習(xí)運(yùn)算。

4 BP神經(jīng)網(wǎng)絡(luò)

BP 神經(jīng)網(wǎng)絡(luò)是一種十分常用的深度學(xué)習(xí)模型,它可以擬合任何復(fù)雜非線性函數(shù)。BP 神經(jīng)網(wǎng)絡(luò)包括輸入層、中間層和輸出層。本次實(shí)驗(yàn)使用三層中間層,每層都以ReLU 函數(shù)作為激活函數(shù)。

ReLU 函數(shù)圖像如圖3。

ReLU 函數(shù)具有相當(dāng)好的性質(zhì),任何函數(shù)都可以近似地采用ReLU 函數(shù)的組合表示。而且ReLU 會(huì)使一部分神經(jīng)元的輸出為0,這樣就造成了網(wǎng)絡(luò)的稀疏性,減少了參數(shù)之間互相依存的關(guān)系,緩解了過擬合的發(fā)生。

在輸出層將神經(jīng)元數(shù)量減少到2,并采用softmax 函數(shù)得到音頻分類的概率,即

softmax 函數(shù)十分適合用于分類模型的輸出層。其計(jì)算得到的函數(shù)值h(x,y)即為音頻是錄音回放的概率,1-h(x,y)則為音頻是原始錄音的概率。

損失函數(shù)選擇交叉熵?fù)p失。當(dāng)預(yù)測(cè)是錄音回放的概率為h,標(biāo)簽值為p,交叉熵?fù)p失即為:

預(yù)測(cè)概率越偏離標(biāo)簽值,損失函數(shù)值越大,反之則越小。

當(dāng)損失函數(shù)較大時(shí),輸出層就將交叉熵?fù)p失反向傳播到中間層,并分?jǐn)偨o所有中間層的神經(jīng)單元。中間層的神經(jīng)單元通過調(diào)整自身權(quán)重和閾值以使得交叉熵?fù)p失沿梯度方向下降。經(jīng)過反復(fù)學(xué)習(xí),確定最小的交叉熵?fù)p失,并記錄下所有神經(jīng)單元的權(quán)重和閾值。

5 仿真實(shí)驗(yàn)極其結(jié)果分析

在BP 神經(jīng)網(wǎng)絡(luò)中,將迭代次數(shù)設(shè)定為100 次。由于每次學(xué)習(xí)的其隨機(jī)的初值不同,因而每次得到的結(jié)果均有差異。故多次將模型初始化后重新學(xué)習(xí),直到獲得較好的結(jié)果。

本次實(shí)驗(yàn)采用誤識(shí)率和拒識(shí)率對(duì)模型進(jìn)行評(píng)價(jià),表2是實(shí)驗(yàn)中運(yùn)行結(jié)果最優(yōu)的模型的結(jié)果。

表2表明,該模型能準(zhǔn)確識(shí)別出所有的錄音回放,對(duì)原始語(yǔ)音的拒識(shí)率有2.33%。

但對(duì)于實(shí)驗(yàn)仍有改進(jìn)空間。首先是語(yǔ)音數(shù)據(jù)集不夠完善。錄音回放數(shù)據(jù)僅有111 條,錄音噪聲較為單一,即僅在一個(gè)入侵環(huán)境、一個(gè)入侵設(shè)備下獲得錄音回放數(shù)據(jù)。在樣本數(shù)據(jù)不充分的情況下錄音回放識(shí)別的魯棒性有待觀察。其次對(duì)于噪聲環(huán)境更復(fù)雜的回放錄音,需要更多的ReLU 激活函數(shù)的中間層去擬合。

由于采用了ReLU 激活函數(shù),加快了收斂的速度,使模型在迭代20 次左右的時(shí)候就達(dá)到了過擬合狀態(tài),如圖4訓(xùn)練集和測(cè)試集在100 次迭代中的準(zhǔn)確率。

6 結(jié)論

本次實(shí)驗(yàn)的語(yǔ)音數(shù)據(jù)集還不夠充分和完善。一是數(shù)據(jù)量,沒有充分的訓(xùn)練集和驗(yàn)證集使得最后得到的實(shí)驗(yàn)結(jié)果誤差較大;二是環(huán)境因素,在安靜的環(huán)境下獲得的說話人原始音頻和入侵音頻,沒有考慮到噪聲干擾和實(shí)際應(yīng)用場(chǎng)景下的實(shí)現(xiàn);三是入侵設(shè)備單一,基于單一的入侵設(shè)備獲得的數(shù)據(jù)集無(wú)法判斷本實(shí)驗(yàn)采用的算法是對(duì)入侵設(shè)備源檢測(cè),還是對(duì)聲音本質(zhì)特征的有效提取。

以ReLU 為激勵(lì)函數(shù)的BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型對(duì)錄音回放的檢測(cè)的準(zhǔn)確率很高,同時(shí)對(duì)原始語(yǔ)音的拒識(shí)率僅2.33%。故在對(duì)不約束檢測(cè)文本內(nèi)容的情況下,BP 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效果顯著,對(duì)深入研究有一定參考價(jià)值。

雖然本次實(shí)驗(yàn)有一定的局限性,但對(duì)于聲紋系統(tǒng)防錄音回放攻擊的角度上提出了較為簡(jiǎn)單、計(jì)算量較少的實(shí)現(xiàn)的思路。且作為獨(dú)立的模型,可以較容易的疊加到聲紋識(shí)別系統(tǒng)中。

猜你喜歡
聲紋識(shí)別中間層錄音
Funny Phonics
funny phonics
一種十七股子午胎鋼絲簾線
Colorful Seasons多彩四季
A New Term
基于i—vector聲紋識(shí)別上課點(diǎn)名系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
鎳基高溫合金TLP擴(kuò)散焊中間層材料研究進(jìn)展
B含量對(duì)IC10合金TLP焊接用中間層材料及接頭組織的影響
柵格中間層數(shù)據(jù)在數(shù)字地形分析中的應(yīng)用
民县| 大城县| 临泉县| 建德市| 定远县| 正定县| 孝感市| 张掖市| 禹州市| 泗水县| 威远县| 扬中市| 阳东县| 庄浪县| 宝鸡市| 乌审旗| 灌南县| 喀喇沁旗| 尉氏县| 定安县| 桑植县| 龙游县| 灵寿县| 高台县| 和政县| 衡阳市| 芜湖市| 临城县| 青川县| 太湖县| 连山| 天全县| 彰武县| 屏山县| 东辽县| 嘉黎县| 和顺县| 木兰县| 长岛县| 永安市| 昌乐县|