基于DNN與基音周期的說(shuō)話人識(shí)別

2020-02-07 13:33張學(xué)祥雷菊陽(yáng)

計(jì)算機(jī)與現(xiàn)代化 2020年1期

張學(xué)祥，雷菊陽(yáng)

(上海工程技術(shù)大學(xué)機(jī)械與汽車工程學(xué)院,上海 201620)

0 引言

物聯(lián)網(wǎng)時(shí)代，語(yǔ)音識(shí)別技術(shù)被視為實(shí)現(xiàn)下一代人機(jī)交互的關(guān)鍵技術(shù)。說(shuō)話人識(shí)別技術(shù)作為語(yǔ)音識(shí)別技術(shù)中重要組成部分，被廣泛用于各種安全領(lǐng)域，在信息安全方面的作用顯得尤為重要[1]。說(shuō)話人識(shí)別就是通過(guò)計(jì)算機(jī)訓(xùn)練提取說(shuō)話人語(yǔ)音信號(hào)中的特征向量，自動(dòng)地對(duì)說(shuō)話人身份進(jìn)行判定的過(guò)程[2]。傳統(tǒng)說(shuō)話人識(shí)別方法(GMM)屬于淺層不完全學(xué)習(xí)[3]，通過(guò)提取語(yǔ)音的Mel頻率倒譜系數(shù)特征序列作為特征輸入，然后通過(guò)GMM參數(shù)來(lái)表征說(shuō)話人身份[4-5]。然而對(duì)于處理說(shuō)話人識(shí)別這種復(fù)雜非線性分類問(wèn)題，采用傳統(tǒng)的線性系統(tǒng)理論顯然無(wú)法滿足分類的要求[6-7]。近年來(lái)，隨著GPU的開發(fā)以及數(shù)據(jù)集出現(xiàn)，深度學(xué)習(xí)得到了空前的發(fā)展[8-9]。利用深層神經(jīng)網(wǎng)絡(luò)取代傳統(tǒng)的淺層模型，通過(guò)多層的非線性映射，可以對(duì)原始輸入特征提取更深層的特征表示，這在一定程度上模擬了人類語(yǔ)音信息的結(jié)構(gòu)化提取過(guò)程，從而找到了進(jìn)一步提高說(shuō)話人識(shí)別準(zhǔn)確率的突破口。

文獻(xiàn)[10]提出了基于深度神經(jīng)網(wǎng)絡(luò)的說(shuō)話人識(shí)別方法，通過(guò)提取MFCC聲學(xué)特征作為模型訓(xùn)練的輸入，但是DNN是一種鑒別性模型，它對(duì)輸入特征沒有類似于淺層模型的特征相互獨(dú)立的要求，以MFCC特征作為DNN的輸入，反而會(huì)損失有用信息。本文提出采用梅爾對(duì)數(shù)濾波器組特征(Fbank)作為輸入，可以得到更好的識(shí)別效果。

1 基于DNN-PP說(shuō)話人模型

基于DNN-PP說(shuō)話人識(shí)別系統(tǒng)是一個(gè)雙重識(shí)別系統(tǒng)，分為主線識(shí)別和輔線輔助確認(rèn)這2個(gè)部分。主線識(shí)別是將測(cè)試人語(yǔ)音特征參數(shù)與基于DNN訓(xùn)練的話者模型進(jìn)行模型匹配，通過(guò)閾值設(shè)定判決說(shuō)話人身份。鑒于閾值設(shè)定的人為主觀性對(duì)識(shí)別效果的影響，采用基于基音周期的說(shuō)話人匹配的輔助確認(rèn)模式，通過(guò)建立注冊(cè)人的基音庫(kù)，利用DTW算法對(duì)測(cè)試人的基音周期進(jìn)行個(gè)性匹配，輔助基于DNN說(shuō)話人識(shí)別的主線識(shí)別。

1.1 特征參數(shù)提取

1.1.1 Fbank參數(shù)提取

相比于MFCC特征，對(duì)數(shù)梅爾濾波器組特征更接近于原始特征信息，有利于DNN學(xué)習(xí)模型獲取更具代表性的信息。所以本文直接采用對(duì)數(shù)梅爾濾波器組特征(Fbank)作為DNN的輸入[11-12]，圖1是Fbank參數(shù)提取原理框圖。

圖1 Fbank參數(shù)提取過(guò)程

1.1.2 基音周期提取

基音周期描述了人在發(fā)濁音時(shí)聲帶振動(dòng)的周期性，它包含了說(shuō)話人語(yǔ)音信號(hào)的個(gè)性信息，因此基音周期的準(zhǔn)確提取對(duì)說(shuō)話人識(shí)別的研究具有重要的意義。目前基音周期檢測(cè)技術(shù)有很多，主要有自相關(guān)法、倒譜法和小波變換。倒譜法對(duì)處理純凈的語(yǔ)音有比較準(zhǔn)確的效果，但是在加噪的語(yǔ)音中檢測(cè)效果并不理想[13]；自相關(guān)法算法簡(jiǎn)單，但是常會(huì)發(fā)生倍頻和半頻錯(cuò)誤[14]；而小波變換法具有較強(qiáng)的抗噪能力，但是在基音定位上存在困難[15]。本文采用小波變換和自相關(guān)法相結(jié)合的方法來(lái)對(duì)基音周期進(jìn)行檢測(cè)。

針對(duì)語(yǔ)音信號(hào)的非平穩(wěn)性，本文選擇短時(shí)自相關(guān)函數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行處理[16]。短時(shí)自相關(guān)函數(shù)處理結(jié)果如下：

(1)

其中，ei(m)表示第m點(diǎn)加窗處理后第i幀信號(hào)；ei(m+τ)表示延遲τ點(diǎn)后的加窗信號(hào)。

短時(shí)自相關(guān)函數(shù)法首先對(duì)原始信號(hào)進(jìn)行加窗處理，再將其與移位后的信號(hào)進(jìn)行相似度比較，當(dāng)相似度達(dá)到最大值時(shí)，則說(shuō)明其移位距離等于基音周期。

1.2 DNN特征層級(jí)學(xué)習(xí)及其網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

深度神經(jīng)網(wǎng)絡(luò)是一個(gè)多隱層的多層感知器，由多個(gè)受限玻爾茲曼機(jī)(RBM)層組成，如圖2所示。每個(gè)RBM都可以用來(lái)學(xué)習(xí)不同的特征表示，越高層的特征表示越抽象，越具有不變性[17]。

圖2 RBM結(jié)構(gòu)示意圖

每個(gè)RBM都有一個(gè)可見層和一個(gè)隱藏層，單層節(jié)點(diǎn)之間互相獨(dú)立，層與層之間由權(quán)重連接，可見層單元和隱藏層單元滿足聯(lián)合概率分布：

(2)

其中，Z表示配分函數(shù)，Z=∑v,hexp (-E(v,h))；E(v,h)表示能量值。

RBM作為一種能量模型，它可以無(wú)監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)的概率分布，最大可能地?cái)M合輸入數(shù)據(jù)。將多個(gè)RBM疊加可以得到深度置信網(wǎng)絡(luò)結(jié)構(gòu)，如圖3所示。

圖3 DNN特征學(xué)習(xí)過(guò)程

DNN通過(guò)這種無(wú)監(jiān)督學(xué)習(xí)自下而上逐層訓(xùn)練提取深層特征；每次只訓(xùn)練一層，并將訓(xùn)練輸出特征序列作為下一層RBM的輸入；然后采用反向傳播算法自上而下對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)優(yōu)化[18]。

在本文中，DNN網(wǎng)絡(luò)包含2個(gè)隱藏層，每一個(gè)隱藏層包含250個(gè)單元，激活函數(shù)采用sigmoid函數(shù)，沖量值設(shè)定為0.9，初始學(xué)習(xí)率大小為0.8，迭代次數(shù)共計(jì)30次，迭代10輪以后，每5輪迭代對(duì)學(xué)習(xí)率進(jìn)行減半一次[19]。輸入采用對(duì)數(shù)梅爾濾波器組特征參數(shù)，目標(biāo)向量的維度根據(jù)訓(xùn)練集說(shuō)話人數(shù)確定為100。本文在輸出層采用softmax線性分類器對(duì)之前學(xué)習(xí)到的特征回歸分類，從而得到基于上一層特征的特征向量。

1.3 DTW匹配基音周期

動(dòng)態(tài)時(shí)間規(guī)整DTW是一種模板匹配優(yōu)化方法，在基音周期匹配中，它用滿足一定條件的時(shí)間規(guī)整函數(shù)m=ω(n)將測(cè)試基音軌跡與說(shuō)話人模型內(nèi)的基音軌跡規(guī)整到統(tǒng)一的空間尺度，通過(guò)匹配這2個(gè)基音周期序列的相似性，從而達(dá)到識(shí)別的效果。

時(shí)間規(guī)整函數(shù)ω應(yīng)滿足：

(3)

其中，T(n)表示測(cè)試模板第n幀的特征參數(shù)；R(ω(n))表示參考模板第m幀的特征參數(shù)；d表示2個(gè)特征參數(shù)之間歐氏距離測(cè)度；D表示累積歐氏距離最小時(shí)的匹配路徑。

但是如果直接根據(jù)傳統(tǒng)時(shí)間規(guī)整算法進(jìn)行基音匹配，計(jì)算復(fù)雜度過(guò)高，所以采用一種DTW的最優(yōu)匹配路徑改進(jìn)算法，改進(jìn)后的動(dòng)態(tài)規(guī)整距離函數(shù)[20]為：

(4)

這是在原來(lái)最小累計(jì)距離函數(shù)的基礎(chǔ)上，采用逆向搜索的方法，尋找與當(dāng)前節(jié)點(diǎn)的(x,y)累計(jì)距離最小的前續(xù)節(jié)點(diǎn)作為路徑點(diǎn)，避免了傳統(tǒng)DTW算法逐點(diǎn)匹配帶來(lái)的計(jì)算量問(wèn)題。

利用DTW算法實(shí)現(xiàn)對(duì)說(shuō)話人基音周期的個(gè)性匹配，輔助基于DNN話者模型的主線識(shí)別，可以有效地避免因閾值設(shè)定問(wèn)題導(dǎo)致的系統(tǒng)識(shí)別率下降情況的發(fā)生。其主要過(guò)程為：當(dāng)基于DNN話者模型的主線識(shí)別過(guò)程中發(fā)生閾值溢出時(shí)，通過(guò)將待測(cè)說(shuō)話人語(yǔ)音與系統(tǒng)注冊(cè)人基音庫(kù)中的基音周期進(jìn)行個(gè)性匹配，獲得對(duì)應(yīng)的說(shuō)話人身份LabelA，將其與主線識(shí)別中最高相似程度的說(shuō)話人身份LabelB進(jìn)行對(duì)比，如果2個(gè)模型識(shí)別說(shuō)話人身份相同，則說(shuō)明是DNN錯(cuò)誤拒絕，即時(shí)糾正，否則，判定為陌生人語(yǔ)音輸入。

2 系統(tǒng)識(shí)別測(cè)試過(guò)程

給定一組注冊(cè)人S={S1,S2,…,Sn}，對(duì)每個(gè)注冊(cè)人語(yǔ)音進(jìn)行基音提取，建立基音庫(kù)；假設(shè)注冊(cè)人S1對(duì)應(yīng)一個(gè)語(yǔ)料集X1={ο1,1,ο1,2,…,ο1,n}，對(duì)每個(gè)語(yǔ)料集中的每一條語(yǔ)音ο1,i提取Fbank參數(shù)，輸入到已訓(xùn)練好的DNN網(wǎng)絡(luò)，提取DNN網(wǎng)絡(luò)的倒數(shù)第二層輸出向量作為相關(guān)因子p1,1，得到P1={p1,1,p1,2,p1,3,…,p1,n}，最后對(duì)P1做平均值處理作為表征注冊(cè)人S1的相關(guān)因子P，如此就獲得基于DNN的話者模型。

在測(cè)試階段，提取說(shuō)話人語(yǔ)音信號(hào)Fbank參數(shù)，然后通過(guò)已經(jīng)訓(xùn)練好的DNN獲得其相關(guān)因子Pi，最后計(jì)算測(cè)試語(yǔ)音的Pi和注冊(cè)語(yǔ)音的P之間的相似度。將這個(gè)值與事先給定的閾值比較并進(jìn)行判決，若滿足閾值條件，說(shuō)明識(shí)別成功，若發(fā)生閾值溢出，應(yīng)轉(zhuǎn)入輔線輔助確認(rèn)，當(dāng)由DTW匹配出基音周期得出的說(shuō)話人身份LabelA與主線識(shí)別輸出的最大相似的說(shuō)話人身份LabelB一致時(shí)，則認(rèn)為是主線識(shí)別的錯(cuò)誤拒絕，應(yīng)及時(shí)糾正，否則判定為陌生人的語(yǔ)音輸入，具體流程如圖4所示。

圖4 DNN-PP說(shuō)話人識(shí)別過(guò)程

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)樣本數(shù)據(jù)是利用軟件Cool Edit Pro 2.1在安靜的環(huán)境下對(duì)說(shuō)話人語(yǔ)音進(jìn)行采集，采樣頻率為16000 Hz，保存為.wav格式文件。

實(shí)驗(yàn)中參與錄制人數(shù)共120人，60個(gè)男生和60個(gè)女生，錄制的內(nèi)容無(wú)文本要求，錄制時(shí)間為4 s，每個(gè)人錄制語(yǔ)音各50遍，其中100人語(yǔ)音集用于DNN訓(xùn)練，其余20人語(yǔ)音集用于注冊(cè)和驗(yàn)證。實(shí)驗(yàn)中一次注冊(cè)人數(shù)為2人，選擇注冊(cè)人每個(gè)人的語(yǔ)料集的前30遍語(yǔ)音用于注冊(cè)，后20遍語(yǔ)音用于確認(rèn)測(cè)試，其他未選中的人的錄音中每人隨機(jī)選中20遍語(yǔ)音作為本組測(cè)試的錯(cuò)誤測(cè)試。

3.2 評(píng)價(jià)指標(biāo)

本文采用等錯(cuò)誤率(EER)作為系統(tǒng)性能的評(píng)價(jià)指標(biāo)，為使實(shí)驗(yàn)結(jié)果更直觀，筆者將由實(shí)驗(yàn)得到的錯(cuò)誤接受率(FAR)和錯(cuò)誤拒絕率(FRR)分別作為橫縱坐標(biāo)繪制二維曲線。找到FAR與FRR相等的點(diǎn)即為等錯(cuò)誤率，等錯(cuò)誤率越小，說(shuō)明算法識(shí)別性能越優(yōu)越。在圖中直觀地顯示就是曲線離坐標(biāo)原點(diǎn)越近。

3.3 實(shí)驗(yàn)結(jié)果

為了測(cè)試基于DNN-PP模型的說(shuō)話人識(shí)別方法的優(yōu)越性，作為對(duì)比，在相同數(shù)據(jù)集的條件下，使用了另外2種說(shuō)話人識(shí)別算法：使用K-mean算法獲得GMM初始化參數(shù)，再利用EM算法建立GMM模型，基于GMM參數(shù)的說(shuō)話人識(shí)別[21-22]，用EM-GMM表示；直接利用語(yǔ)音的梅爾對(duì)數(shù)濾波器組特征作為輸入訓(xùn)練DNN模型[23-24](閾值設(shè)定統(tǒng)一)，通過(guò)DNN模型參數(shù)表征說(shuō)話人特有的個(gè)性信息，用DNN表示。

圖5 基于相同數(shù)據(jù)集下3種算法的DET曲線

圖5是基于相同數(shù)據(jù)集下3種算法的DET曲線，可以看出DNN-PP系統(tǒng)EER最低為1.6%，較DNN系統(tǒng)的EER降低了1.2%，而EM-GMM系統(tǒng)的EER明顯最高為4%，這說(shuō)明基于DNN-PP模型的說(shuō)話人識(shí)別系統(tǒng)性能要優(yōu)于GMM系統(tǒng)。

表1 相同數(shù)據(jù)集上不同隱層數(shù)的DNN-PP系統(tǒng)等錯(cuò)誤率

L×N1×1502×1503×1504×1505×150DNN-PP3.9%3%2.3%2%1.9%2×N2×2002×2502×3002×350DNN-PP2.2%1.6%1.3%1.2%

表1是基于相同數(shù)據(jù)集上，測(cè)試不同隱層數(shù)量對(duì)DNN-PP系統(tǒng)性能的影響。當(dāng)使用1層隱層時(shí)，EER為3.9%，基本與EM-GMM系統(tǒng)識(shí)別性能相當(dāng)；當(dāng)使用2層隱層時(shí)，EER為3%，相比一個(gè)隱層的識(shí)別效果有了明顯的提高；當(dāng)層數(shù)為5層時(shí)，EER降低到1.9%，但是當(dāng)層數(shù)大于3時(shí)，隱層數(shù)量的增加對(duì)識(shí)別性能的提升幫助并不是很大。為了證實(shí)隱層單元數(shù)關(guān)鍵性作用，在2層隱層的基礎(chǔ)上增加每個(gè)隱層的單元數(shù)，結(jié)果也顯示在表1中。當(dāng)各隱層包含350個(gè)單元時(shí)EER可以降低到1.2%。權(quán)衡系統(tǒng)識(shí)別性能與訓(xùn)練時(shí)間成本，采用2個(gè)隱層，每層250個(gè)單元可以滿足實(shí)際應(yīng)用。

圖6是基于相同數(shù)據(jù)集上，不同信噪比下3種說(shuō)話人識(shí)別方法的性能。對(duì)于DNN-PP系統(tǒng)，信噪比每下降1 dB會(huì)有絕對(duì)0.35%的EER的增長(zhǎng)；DNN系統(tǒng)信噪比每下降1dB會(huì)有絕對(duì)0.57%的EER的增長(zhǎng)；而EM-GMM系統(tǒng)對(duì)噪聲影響的表現(xiàn)最差，信噪比每下降1 dB會(huì)有絕對(duì)0.92%的EER的增長(zhǎng)。DNN-PP系統(tǒng)和DNN系統(tǒng)曲線變化較GMM系統(tǒng)更為平緩，因此可以說(shuō)明DNN-PP系統(tǒng)比GMM系統(tǒng)更具有魯棒性。與DNN系統(tǒng)相比，DNN-PP系統(tǒng)在噪聲環(huán)境中的識(shí)別效果有了一定程度的改善。

圖6 相同數(shù)據(jù)集上，在不同信噪比下3種算法性能對(duì)比

4 結(jié)束語(yǔ)

本文提出了一種相對(duì)于GMM說(shuō)話人識(shí)別系統(tǒng)更好的DNN-PP系統(tǒng)，通過(guò)實(shí)驗(yàn)數(shù)據(jù)對(duì)比，基于本文DNN-PP模型的說(shuō)話人識(shí)別方法在識(shí)別率和魯棒性方面都明顯優(yōu)于傳統(tǒng)的基于GMM模型的說(shuō)話人識(shí)別，較單純使用DNN方法的識(shí)別率有了進(jìn)一步的提高。但是該說(shuō)話人模型在正常信噪比范圍內(nèi)識(shí)別性能仍然存在較大的波動(dòng)，在接下來(lái)的研究中還有待改進(jìn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡