国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DNN與基音周期的說(shuō)話人識(shí)別

2020-02-07 13:33張學(xué)祥雷菊陽(yáng)
關(guān)鍵詞:隱層語(yǔ)音閾值

張學(xué)祥,雷菊陽(yáng)

(上海工程技術(shù)大學(xué)機(jī)械與汽車工程學(xué)院,上海 201620)

0 引 言

物聯(lián)網(wǎng)時(shí)代,語(yǔ)音識(shí)別技術(shù)被視為實(shí)現(xiàn)下一代人機(jī)交互的關(guān)鍵技術(shù)。說(shuō)話人識(shí)別技術(shù)作為語(yǔ)音識(shí)別技術(shù)中重要組成部分,被廣泛用于各種安全領(lǐng)域,在信息安全方面的作用顯得尤為重要[1]。說(shuō)話人識(shí)別就是通過(guò)計(jì)算機(jī)訓(xùn)練提取說(shuō)話人語(yǔ)音信號(hào)中的特征向量,自動(dòng)地對(duì)說(shuō)話人身份進(jìn)行判定的過(guò)程[2]。傳統(tǒng)說(shuō)話人識(shí)別方法(GMM)屬于淺層不完全學(xué)習(xí)[3],通過(guò)提取語(yǔ)音的Mel頻率倒譜系數(shù)特征序列作為特征輸入,然后通過(guò)GMM參數(shù)來(lái)表征說(shuō)話人身份[4-5]。然而對(duì)于處理說(shuō)話人識(shí)別這種復(fù)雜非線性分類問(wèn)題,采用傳統(tǒng)的線性系統(tǒng)理論顯然無(wú)法滿足分類的要求[6-7]。近年來(lái),隨著GPU的開發(fā)以及數(shù)據(jù)集出現(xiàn),深度學(xué)習(xí)得到了空前的發(fā)展[8-9]。利用深層神經(jīng)網(wǎng)絡(luò)取代傳統(tǒng)的淺層模型,通過(guò)多層的非線性映射,可以對(duì)原始輸入特征提取更深層的特征表示,這在一定程度上模擬了人類語(yǔ)音信息的結(jié)構(gòu)化提取過(guò)程,從而找到了進(jìn)一步提高說(shuō)話人識(shí)別準(zhǔn)確率的突破口。

文獻(xiàn)[10]提出了基于深度神經(jīng)網(wǎng)絡(luò)的說(shuō)話人識(shí)別方法,通過(guò)提取MFCC聲學(xué)特征作為模型訓(xùn)練的輸入,但是DNN是一種鑒別性模型,它對(duì)輸入特征沒有類似于淺層模型的特征相互獨(dú)立的要求,以MFCC特征作為DNN的輸入,反而會(huì)損失有用信息。本文提出采用梅爾對(duì)數(shù)濾波器組特征(Fbank)作為輸入,可以得到更好的識(shí)別效果。

1 基于DNN-PP說(shuō)話人模型

基于DNN-PP說(shuō)話人識(shí)別系統(tǒng)是一個(gè)雙重識(shí)別系統(tǒng),分為主線識(shí)別和輔線輔助確認(rèn)這2個(gè)部分。主線識(shí)別是將測(cè)試人語(yǔ)音特征參數(shù)與基于DNN訓(xùn)練的話者模型進(jìn)行模型匹配,通過(guò)閾值設(shè)定判決說(shuō)話人身份。鑒于閾值設(shè)定的人為主觀性對(duì)識(shí)別效果的影響,采用基于基音周期的說(shuō)話人匹配的輔助確認(rèn)模式,通過(guò)建立注冊(cè)人的基音庫(kù),利用DTW算法對(duì)測(cè)試人的基音周期進(jìn)行個(gè)性匹配,輔助基于DNN說(shuō)話人識(shí)別的主線識(shí)別。

1.1 特征參數(shù)提取

1.1.1 Fbank參數(shù)提取

相比于MFCC特征,對(duì)數(shù)梅爾濾波器組特征更接近于原始特征信息,有利于DNN學(xué)習(xí)模型獲取更具代表性的信息。所以本文直接采用對(duì)數(shù)梅爾濾波器組特征(Fbank)作為DNN的輸入[11-12],圖1是Fbank參數(shù)提取原理框圖。

圖1 Fbank參數(shù)提取過(guò)程

1.1.2 基音周期提取

基音周期描述了人在發(fā)濁音時(shí)聲帶振動(dòng)的周期性,它包含了說(shuō)話人語(yǔ)音信號(hào)的個(gè)性信息,因此基音周期的準(zhǔn)確提取對(duì)說(shuō)話人識(shí)別的研究具有重要的意義。目前基音周期檢測(cè)技術(shù)有很多,主要有自相關(guān)法、倒譜法和小波變換。倒譜法對(duì)處理純凈的語(yǔ)音有比較準(zhǔn)確的效果,但是在加噪的語(yǔ)音中檢測(cè)效果并不理想[13];自相關(guān)法算法簡(jiǎn)單,但是常會(huì)發(fā)生倍頻和半頻錯(cuò)誤[14];而小波變換法具有較強(qiáng)的抗噪能力,但是在基音定位上存在困難[15]。本文采用小波變換和自相關(guān)法相結(jié)合的方法來(lái)對(duì)基音周期進(jìn)行檢測(cè)。

針對(duì)語(yǔ)音信號(hào)的非平穩(wěn)性,本文選擇短時(shí)自相關(guān)函數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行處理[16]。短時(shí)自相關(guān)函數(shù)處理結(jié)果如下:

(1)

其中,ei(m)表示第m點(diǎn)加窗處理后第i幀信號(hào);ei(m+τ)表示延遲τ點(diǎn)后的加窗信號(hào)。

短時(shí)自相關(guān)函數(shù)法首先對(duì)原始信號(hào)進(jìn)行加窗處理,再將其與移位后的信號(hào)進(jìn)行相似度比較,當(dāng)相似度達(dá)到最大值時(shí),則說(shuō)明其移位距離等于基音周期。

1.2 DNN特征層級(jí)學(xué)習(xí)及其網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

深度神經(jīng)網(wǎng)絡(luò)是一個(gè)多隱層的多層感知器,由多個(gè)受限玻爾茲曼機(jī)(RBM)層組成,如圖2所示。每個(gè)RBM都可以用來(lái)學(xué)習(xí)不同的特征表示,越高層的特征表示越抽象,越具有不變性[17]。

圖2 RBM結(jié)構(gòu)示意圖

每個(gè)RBM都有一個(gè)可見層和一個(gè)隱藏層,單層節(jié)點(diǎn)之間互相獨(dú)立,層與層之間由權(quán)重連接,可見層單元和隱藏層單元滿足聯(lián)合概率分布:

(2)

其中,Z表示配分函數(shù),Z=∑v,hexp (-E(v,h));E(v,h)表示能量值。

RBM作為一種能量模型,它可以無(wú)監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)的概率分布,最大可能地?cái)M合輸入數(shù)據(jù)。將多個(gè)RBM疊加可以得到深度置信網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。

圖3 DNN特征學(xué)習(xí)過(guò)程

DNN通過(guò)這種無(wú)監(jiān)督學(xué)習(xí)自下而上逐層訓(xùn)練提取深層特征;每次只訓(xùn)練一層,并將訓(xùn)練輸出特征序列作為下一層RBM的輸入;然后采用反向傳播算法自上而下對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)優(yōu)化[18]。

在本文中,DNN網(wǎng)絡(luò)包含2個(gè)隱藏層,每一個(gè)隱藏層包含250個(gè)單元,激活函數(shù)采用sigmoid函數(shù),沖量值設(shè)定為0.9,初始學(xué)習(xí)率大小為0.8,迭代次數(shù)共計(jì)30次,迭代10輪以后,每5輪迭代對(duì)學(xué)習(xí)率進(jìn)行減半一次[19]。輸入采用對(duì)數(shù)梅爾濾波器組特征參數(shù),目標(biāo)向量的維度根據(jù)訓(xùn)練集說(shuō)話人數(shù)確定為100。本文在輸出層采用softmax線性分類器對(duì)之前學(xué)習(xí)到的特征回歸分類,從而得到基于上一層特征的特征向量。

1.3 DTW匹配基音周期

動(dòng)態(tài)時(shí)間規(guī)整DTW是一種模板匹配優(yōu)化方法,在基音周期匹配中,它用滿足一定條件的時(shí)間規(guī)整函數(shù)m=ω(n)將測(cè)試基音軌跡與說(shuō)話人模型內(nèi)的基音軌跡規(guī)整到統(tǒng)一的空間尺度,通過(guò)匹配這2個(gè)基音周期序列的相似性,從而達(dá)到識(shí)別的效果。

時(shí)間規(guī)整函數(shù)ω應(yīng)滿足:

(3)

其中,T(n)表示測(cè)試模板第n幀的特征參數(shù);R(ω(n))表示參考模板第m幀的特征參數(shù);d表示2個(gè)特征參數(shù)之間歐氏距離測(cè)度;D表示累積歐氏距離最小時(shí)的匹配路徑。

但是如果直接根據(jù)傳統(tǒng)時(shí)間規(guī)整算法進(jìn)行基音匹配,計(jì)算復(fù)雜度過(guò)高,所以采用一種DTW的最優(yōu)匹配路徑改進(jìn)算法,改進(jìn)后的動(dòng)態(tài)規(guī)整距離函數(shù)[20]為:

(4)

這是在原來(lái)最小累計(jì)距離函數(shù)的基礎(chǔ)上,采用逆向搜索的方法,尋找與當(dāng)前節(jié)點(diǎn)的(x,y)累計(jì)距離最小的前續(xù)節(jié)點(diǎn)作為路徑點(diǎn),避免了傳統(tǒng)DTW算法逐點(diǎn)匹配帶來(lái)的計(jì)算量問(wèn)題。

利用DTW算法實(shí)現(xiàn)對(duì)說(shuō)話人基音周期的個(gè)性匹配,輔助基于DNN話者模型的主線識(shí)別,可以有效地避免因閾值設(shè)定問(wèn)題導(dǎo)致的系統(tǒng)識(shí)別率下降情況的發(fā)生。其主要過(guò)程為:當(dāng)基于DNN話者模型的主線識(shí)別過(guò)程中發(fā)生閾值溢出時(shí),通過(guò)將待測(cè)說(shuō)話人語(yǔ)音與系統(tǒng)注冊(cè)人基音庫(kù)中的基音周期進(jìn)行個(gè)性匹配,獲得對(duì)應(yīng)的說(shuō)話人身份LabelA,將其與主線識(shí)別中最高相似程度的說(shuō)話人身份LabelB進(jìn)行對(duì)比,如果2個(gè)模型識(shí)別說(shuō)話人身份相同,則說(shuō)明是DNN錯(cuò)誤拒絕,即時(shí)糾正,否則,判定為陌生人語(yǔ)音輸入。

2 系統(tǒng)識(shí)別測(cè)試過(guò)程

給定一組注冊(cè)人S={S1,S2,…,Sn},對(duì)每個(gè)注冊(cè)人語(yǔ)音進(jìn)行基音提取,建立基音庫(kù);假設(shè)注冊(cè)人S1對(duì)應(yīng)一個(gè)語(yǔ)料集X1={ο1,1,ο1,2,…,ο1,n},對(duì)每個(gè)語(yǔ)料集中的每一條語(yǔ)音ο1,i提取Fbank參數(shù),輸入到已訓(xùn)練好的DNN網(wǎng)絡(luò),提取DNN網(wǎng)絡(luò)的倒數(shù)第二層輸出向量作為相關(guān)因子p1,1,得到P1={p1,1,p1,2,p1,3,…,p1,n},最后對(duì)P1做平均值處理作為表征注冊(cè)人S1的相關(guān)因子P,如此就獲得基于DNN的話者模型。

在測(cè)試階段,提取說(shuō)話人語(yǔ)音信號(hào)Fbank參數(shù),然后通過(guò)已經(jīng)訓(xùn)練好的DNN獲得其相關(guān)因子Pi,最后計(jì)算測(cè)試語(yǔ)音的Pi和注冊(cè)語(yǔ)音的P之間的相似度。將這個(gè)值與事先給定的閾值比較并進(jìn)行判決,若滿足閾值條件,說(shuō)明識(shí)別成功,若發(fā)生閾值溢出,應(yīng)轉(zhuǎn)入輔線輔助確認(rèn),當(dāng)由DTW匹配出基音周期得出的說(shuō)話人身份LabelA與主線識(shí)別輸出的最大相似的說(shuō)話人身份LabelB一致時(shí),則認(rèn)為是主線識(shí)別的錯(cuò)誤拒絕,應(yīng)及時(shí)糾正,否則判定為陌生人的語(yǔ)音輸入,具體流程如圖4所示。

圖4 DNN-PP說(shuō)話人識(shí)別過(guò)程

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)樣本數(shù)據(jù)是利用軟件Cool Edit Pro 2.1在安靜的環(huán)境下對(duì)說(shuō)話人語(yǔ)音進(jìn)行采集,采樣頻率為16000 Hz,保存為.wav格式文件。

實(shí)驗(yàn)中參與錄制人數(shù)共120人,60個(gè)男生和60個(gè)女生,錄制的內(nèi)容無(wú)文本要求,錄制時(shí)間為4 s,每個(gè)人錄制語(yǔ)音各50遍,其中100人語(yǔ)音集用于DNN訓(xùn)練,其余20人語(yǔ)音集用于注冊(cè)和驗(yàn)證。實(shí)驗(yàn)中一次注冊(cè)人數(shù)為2人,選擇注冊(cè)人每個(gè)人的語(yǔ)料集的前30遍語(yǔ)音用于注冊(cè),后20遍語(yǔ)音用于確認(rèn)測(cè)試,其他未選中的人的錄音中每人隨機(jī)選中20遍語(yǔ)音作為本組測(cè)試的錯(cuò)誤測(cè)試。

3.2 評(píng)價(jià)指標(biāo)

本文采用等錯(cuò)誤率(EER)作為系統(tǒng)性能的評(píng)價(jià)指標(biāo),為使實(shí)驗(yàn)結(jié)果更直觀,筆者將由實(shí)驗(yàn)得到的錯(cuò)誤接受率(FAR)和錯(cuò)誤拒絕率(FRR)分別作為橫縱坐標(biāo)繪制二維曲線。找到FAR與FRR相等的點(diǎn)即為等錯(cuò)誤率,等錯(cuò)誤率越小,說(shuō)明算法識(shí)別性能越優(yōu)越。在圖中直觀地顯示就是曲線離坐標(biāo)原點(diǎn)越近。

3.3 實(shí)驗(yàn)結(jié)果

為了測(cè)試基于DNN-PP模型的說(shuō)話人識(shí)別方法的優(yōu)越性,作為對(duì)比,在相同數(shù)據(jù)集的條件下,使用了另外2種說(shuō)話人識(shí)別算法:使用K-mean算法獲得GMM初始化參數(shù),再利用EM算法建立GMM模型,基于GMM參數(shù)的說(shuō)話人識(shí)別[21-22],用EM-GMM表示;直接利用語(yǔ)音的梅爾對(duì)數(shù)濾波器組特征作為輸入訓(xùn)練DNN模型[23-24](閾值設(shè)定統(tǒng)一),通過(guò)DNN模型參數(shù)表征說(shuō)話人特有的個(gè)性信息,用DNN表示。

圖5 基于相同數(shù)據(jù)集下3種算法的DET曲線

圖5是基于相同數(shù)據(jù)集下3種算法的DET曲線,可以看出DNN-PP系統(tǒng)EER最低為1.6%,較DNN系統(tǒng)的EER降低了1.2%,而EM-GMM系統(tǒng)的EER明顯最高為4%,這說(shuō)明基于DNN-PP模型的說(shuō)話人識(shí)別系統(tǒng)性能要優(yōu)于GMM系統(tǒng)。

表1 相同數(shù)據(jù)集上不同隱層數(shù)的DNN-PP系統(tǒng)等錯(cuò)誤率

L×N1×1502×1503×1504×1505×150DNN-PP3.9%3%2.3%2%1.9%2×N2×2002×2502×3002×350DNN-PP2.2%1.6%1.3%1.2%

表1是基于相同數(shù)據(jù)集上,測(cè)試不同隱層數(shù)量對(duì)DNN-PP系統(tǒng)性能的影響。當(dāng)使用1層隱層時(shí),EER為3.9%,基本與EM-GMM系統(tǒng)識(shí)別性能相當(dāng);當(dāng)使用2層隱層時(shí),EER為3%,相比一個(gè)隱層的識(shí)別效果有了明顯的提高;當(dāng)層數(shù)為5層時(shí),EER降低到1.9%,但是當(dāng)層數(shù)大于3時(shí),隱層數(shù)量的增加對(duì)識(shí)別性能的提升幫助并不是很大。為了證實(shí)隱層單元數(shù)關(guān)鍵性作用,在2層隱層的基礎(chǔ)上增加每個(gè)隱層的單元數(shù),結(jié)果也顯示在表1中。當(dāng)各隱層包含350個(gè)單元時(shí)EER可以降低到1.2%。權(quán)衡系統(tǒng)識(shí)別性能與訓(xùn)練時(shí)間成本,采用2個(gè)隱層,每層250個(gè)單元可以滿足實(shí)際應(yīng)用。

圖6是基于相同數(shù)據(jù)集上,不同信噪比下3種說(shuō)話人識(shí)別方法的性能。對(duì)于DNN-PP系統(tǒng),信噪比每下降1 dB會(huì)有絕對(duì)0.35%的EER的增長(zhǎng);DNN系統(tǒng)信噪比每下降1dB會(huì)有絕對(duì)0.57%的EER的增長(zhǎng);而EM-GMM系統(tǒng)對(duì)噪聲影響的表現(xiàn)最差,信噪比每下降1 dB會(huì)有絕對(duì)0.92%的EER的增長(zhǎng)。DNN-PP系統(tǒng)和DNN系統(tǒng)曲線變化較GMM系統(tǒng)更為平緩,因此可以說(shuō)明DNN-PP系統(tǒng)比GMM系統(tǒng)更具有魯棒性。與DNN系統(tǒng)相比,DNN-PP系統(tǒng)在噪聲環(huán)境中的識(shí)別效果有了一定程度的改善。

圖6 相同數(shù)據(jù)集上,在不同信噪比下3種算法性能對(duì)比

4 結(jié)束語(yǔ)

本文提出了一種相對(duì)于GMM說(shuō)話人識(shí)別系統(tǒng)更好的DNN-PP系統(tǒng),通過(guò)實(shí)驗(yàn)數(shù)據(jù)對(duì)比,基于本文DNN-PP模型的說(shuō)話人識(shí)別方法在識(shí)別率和魯棒性方面都明顯優(yōu)于傳統(tǒng)的基于GMM模型的說(shuō)話人識(shí)別,較單純使用DNN方法的識(shí)別率有了進(jìn)一步的提高。但是該說(shuō)話人模型在正常信噪比范圍內(nèi)識(shí)別性能仍然存在較大的波動(dòng),在接下來(lái)的研究中還有待改進(jìn)。

猜你喜歡
隱層語(yǔ)音閾值
基于RTD可編程邏輯門的n變量函數(shù)實(shí)現(xiàn)算法
基于BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的圖像壓縮技術(shù)研究
小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
魔力語(yǔ)音
基于MATLAB的語(yǔ)音信號(hào)處理
基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
基于CS-TWR的動(dòng)態(tài)閾值貪婪算法成像研究
基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測(cè)模型及應(yīng)用
基于自適應(yīng)閾值和連通域的隧道裂縫提取
對(duì)方正在輸入……
肇州县| 普格县| 轮台县| 庆城县| 惠水县| 平原县| 同仁县| 穆棱市| 剑阁县| 花莲市| 平遥县| 肇州县| 遂川县| 洪江市| 蓬莱市| 绥棱县| 长海县| 松阳县| 都江堰市| 瑞丽市| 尼玛县| 綦江县| 梨树县| 宣威市| 卫辉市| 芜湖县| 元朗区| 临湘市| 凌云县| 清水河县| 同江市| 凤翔县| 德庆县| 海原县| 义马市| 乌鲁木齐县| 黄大仙区| 巴彦淖尔市| 施秉县| 荔波县| 河池市|