劉俊坤,李燕萍,凌云志
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
說(shuō)話人識(shí)別(speaker recognition,SR),又稱話者識(shí)別[1],是利用說(shuō)話人語(yǔ)音中的個(gè)性特征進(jìn)行身份鑒定的一種認(rèn)證技術(shù)?;谑噶苛炕?vector quantizaion,VQ)的說(shuō)話人識(shí)別模型[2-3]是基于不同說(shuō)話人的語(yǔ)音特征矢量具有不同分布這一假設(shè),然后采用最小化失真原則對(duì)不同說(shuō)話人特征矢量進(jìn)行編碼識(shí)別。該算法直接采用語(yǔ)音的梅爾倒譜參數(shù)(Mel frequency cepstral coefficients,MFCC)作為模型訓(xùn)練或識(shí)別的特征參數(shù)。實(shí)際應(yīng)用時(shí)該方法存在兩方面的問(wèn)題:一方面,在說(shuō)話人數(shù)量較多,且每個(gè)說(shuō)話人語(yǔ)音數(shù)據(jù)較少時(shí),該模型對(duì)說(shuō)話人個(gè)性特征得不到充分學(xué)習(xí),導(dǎo)致系統(tǒng)的正確識(shí)別率達(dá)不到期望值;另一方面,系統(tǒng)的模型訓(xùn)練一般是在干凈無(wú)噪語(yǔ)音條件下,采用說(shuō)話人有噪語(yǔ)音或是應(yīng)用在有噪條件下進(jìn)行識(shí)別時(shí),會(huì)出現(xiàn)模型訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)不匹配現(xiàn)象,從而系統(tǒng)的識(shí)別結(jié)果會(huì)受到很大影響或者識(shí)別結(jié)果直接崩潰。
2006年,Hinton等[4]提出深度學(xué)習(xí)的概念,深度置信網(wǎng)絡(luò)(deep belief network,DBN)是由多層受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)堆疊構(gòu)成的多層深度網(wǎng)絡(luò)。DBN網(wǎng)絡(luò)采用貪婪逐層訓(xùn)練學(xué)習(xí)算法,通過(guò)逐層預(yù)訓(xùn)練和整體微調(diào)的方法,可以從少量數(shù)據(jù)中充分學(xué)習(xí)數(shù)據(jù)中的潛在特征,挖掘數(shù)據(jù)中深層表示,并且克服了傳統(tǒng)多層神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)解、需要大量數(shù)據(jù)標(biāo)記等問(wèn)題。深度置信網(wǎng)絡(luò)被證明對(duì)自然界中的實(shí)際信號(hào)建模,比傳統(tǒng)淺層結(jié)構(gòu)的建模方法強(qiáng)[5],可以更好地對(duì)實(shí)際信號(hào)進(jìn)行建模學(xué)習(xí)。1986年,Rumelhart提出自動(dòng)編碼器的概念[6],自動(dòng)編碼器采用這樣一個(gè)思想:原始輸入x經(jīng)過(guò)加權(quán)(W、b)、映射(Sigmoid)之后得到y(tǒng),再對(duì)y反向加權(quán)映射回來(lái)成為z。通過(guò)反復(fù)迭代訓(xùn)練兩組加權(quán)系數(shù)(W、b),使得誤差函數(shù)最小,盡可能保證z近似于x,即實(shí)現(xiàn)重構(gòu)x。自動(dòng)編碼器可以獲得代表良好輸入的特征,可以實(shí)現(xiàn)數(shù)據(jù)的編碼重構(gòu),并且訓(xùn)練完成的模型對(duì)輸入帶噪數(shù)據(jù)具有噪聲過(guò)濾能力?;谧詣?dòng)編碼器的這種優(yōu)勢(shì),文中構(gòu)造自動(dòng)編碼深度置信網(wǎng)絡(luò)[7],利用其對(duì)不同說(shuō)話人語(yǔ)音特征編碼[8],使網(wǎng)絡(luò)模型對(duì)說(shuō)話人個(gè)性特征進(jìn)行深度學(xué)習(xí)和挖掘,然后通過(guò)網(wǎng)絡(luò)模型實(shí)現(xiàn)數(shù)據(jù)重構(gòu),在對(duì)輸入帶噪語(yǔ)音提取說(shuō)話人有效個(gè)性特征的同時(shí),有效地過(guò)濾噪聲。
在基于矢量量化的傳統(tǒng)說(shuō)話人識(shí)別方法的基礎(chǔ)上,采用自動(dòng)編碼深度置信網(wǎng)絡(luò)(AutoEncoder DBN)與矢量量化結(jié)合的說(shuō)話人識(shí)別方法(AutoEncoder DBN-VQ)。采用AutoEncoder DBN對(duì)說(shuō)話人語(yǔ)音特征進(jìn)行特征編碼與重構(gòu),將網(wǎng)絡(luò)輸出作為VQ的模型訓(xùn)練或識(shí)別的輸入。結(jié)合深度置信網(wǎng)絡(luò)和自動(dòng)編碼器的優(yōu)勢(shì),AutoEncoder DBN具備對(duì)少量說(shuō)話人個(gè)性特征數(shù)據(jù)進(jìn)行深度學(xué)習(xí)和挖掘,進(jìn)而提取有效個(gè)性特征信息的能力,同時(shí)通過(guò)模型重構(gòu)可以過(guò)濾說(shuō)話人語(yǔ)音中的干擾噪聲數(shù)據(jù)。
VQ是很重要的信號(hào)處理方法,具有運(yùn)算量少,速度快,原理簡(jiǎn)單等優(yōu)點(diǎn),廣泛應(yīng)用于圖像和語(yǔ)音等領(lǐng)域。VQ的原理是把輸入的矢量數(shù)據(jù)空間劃分為不同的小區(qū)域,每個(gè)小區(qū)域?qū)ふ乙粋€(gè)合適的矢量,該矢量用來(lái)代表落入到該小區(qū)域的所有矢量,用所有的代表矢量即碼本來(lái)表示整個(gè)訓(xùn)練數(shù)據(jù)。VQ說(shuō)話人識(shí)別系統(tǒng)在模型訓(xùn)練時(shí)將說(shuō)話人訓(xùn)練語(yǔ)音特征進(jìn)行聚類,形成碼書(shū),每一位說(shuō)話人對(duì)應(yīng)一個(gè)碼書(shū)。文中采用的碼書(shū)生成算法是LGB算法[9-10],LGB算法是最常用的也是比較簡(jiǎn)單的碼書(shū)生成算法。在識(shí)別階段,采用矢量量化方法計(jì)算待識(shí)別語(yǔ)音特征與碼本之間的失真測(cè)度,根據(jù)失真測(cè)度判定該語(yǔ)音屬于哪位說(shuō)話人。VQ說(shuō)話人識(shí)別系統(tǒng)中常見(jiàn)的失真測(cè)度有歐氏距離、加歐氏距離、Itakura-Saito距離等,文中采用歐氏距離測(cè)度。
基于VQ算法的原理,VQ說(shuō)話人識(shí)別系統(tǒng)存在兩個(gè)問(wèn)題:系統(tǒng)采用說(shuō)話人的MFCC特征參數(shù),為不同說(shuō)話人訓(xùn)練不同的矢量分布,MFCC參數(shù)中包含說(shuō)話人多種信息,在說(shuō)話人語(yǔ)音數(shù)據(jù)有限時(shí),會(huì)使量化碼本學(xué)習(xí)不充分,即得到的每個(gè)小區(qū)域的量化值代表性較弱,影響系統(tǒng)識(shí)別準(zhǔn)確性;模型訓(xùn)練一般在純凈語(yǔ)音條件下,當(dāng)待識(shí)別語(yǔ)音數(shù)據(jù)中有噪聲時(shí),會(huì)因?yàn)槟P蛯?duì)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)無(wú)法匹配導(dǎo)致系統(tǒng)識(shí)別率崩潰。
為了解決VQ說(shuō)話人識(shí)別系統(tǒng)在說(shuō)話人語(yǔ)音數(shù)據(jù)不足條件下的模型學(xué)習(xí)不充分、系統(tǒng)識(shí)別率下降等問(wèn)題,采用DBN網(wǎng)絡(luò)對(duì)說(shuō)話人語(yǔ)音進(jìn)行特征學(xué)習(xí),DBN網(wǎng)絡(luò)可以有效提取說(shuō)話人的個(gè)性特征信息[11-12]。DBN相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),有著更多層非線性映射結(jié)構(gòu)[13],可以完成更復(fù)雜的數(shù)據(jù)學(xué)習(xí)。該網(wǎng)絡(luò)是由RBM模塊堆疊而成的深層網(wǎng)絡(luò)結(jié)構(gòu)[14-15]。典型的RBM是由可見(jiàn)層和隱含層構(gòu)成二部圖模型,可見(jiàn)層或隱含層層內(nèi)沒(méi)有連接,只有可見(jiàn)層和隱含層節(jié)點(diǎn)間存在連接。
RBM是一個(gè)能量模型,其能量函數(shù)表示為:
(1)
其中,vi和hj表示可見(jiàn)層第i個(gè)節(jié)點(diǎn)狀態(tài)和隱含層第j個(gè)節(jié)點(diǎn)狀態(tài);Wij為第i個(gè)可見(jiàn)層節(jié)點(diǎn)和第j個(gè)隱含層節(jié)點(diǎn)的連接權(quán)重;ai和bj分別為可見(jiàn)層節(jié)點(diǎn)和隱含層節(jié)點(diǎn)的偏置。
可見(jiàn)層v和隱含層h的聯(lián)合概率分布為:
(2)
其中,Z為分配函數(shù),或稱歸一化常量,可以通過(guò)所有隱含層單元和可見(jiàn)層單元分配能量計(jì)算得到,表示如下:
(3)
由于RBM在訓(xùn)練時(shí),同一層中具有條件獨(dú)立性,條件概率分布如下:
(4)
p(hj=0|v)=1-p(hj=1|v)
(5)
(6)
p(vi=0|h)=1-p(vi=1|h)
(7)
其中,函數(shù)f為sigmoid函數(shù),f(x)=1/(1+e-x)。
可以得到RBM的更新公式:
Δwij=(?lnp(v)/?wij)=
ε(〈vi,hj〉data-〈vi,hj〉)model
(8)
(9)
(10)
其中,ε為學(xué)習(xí)率;〈〉data為數(shù)據(jù)期望;〈〉model為模型期望。
模型期望計(jì)算比較復(fù)雜,它需要隨機(jī)初始化可見(jiàn)層狀態(tài)然后經(jīng)過(guò)長(zhǎng)時(shí)間采樣,可通過(guò)對(duì)比散度算法[16]求解。
多層RBM堆疊,依次將RBM隱含層單元的輸出數(shù)據(jù)作為更高層RBM輸入層數(shù)據(jù),通過(guò)學(xué)習(xí)下一層RBM對(duì)輸出數(shù)據(jù)的RBM隱藏單元的顯著依賴關(guān)系進(jìn)行建模,則構(gòu)成DBN[17],這種層層遞進(jìn)的深層網(wǎng)絡(luò)結(jié)構(gòu)可以有效挖掘語(yǔ)音數(shù)據(jù)中說(shuō)話人的深層個(gè)性特征,提取出更具代表性的特征向量。DBN網(wǎng)絡(luò)模型訓(xùn)練首先進(jìn)行逐層RBM預(yù)訓(xùn)練,每層的RBM預(yù)訓(xùn)練方式和RBM訓(xùn)練方式相同,經(jīng)過(guò)多次迭代得到節(jié)點(diǎn)間權(quán)重和偏置,多層網(wǎng)絡(luò)依次預(yù)訓(xùn)練完畢,然后根據(jù)誤差反向微調(diào)整個(gè)網(wǎng)絡(luò)。DBN網(wǎng)絡(luò)可以實(shí)現(xiàn)數(shù)據(jù)有監(jiān)督或非監(jiān)督式學(xué)習(xí),并且可以提取數(shù)據(jù)高層特征實(shí)現(xiàn)數(shù)據(jù)特征升降維度。DBN優(yōu)化權(quán)值的學(xué)習(xí)算法克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)無(wú)法求出最優(yōu)解等缺點(diǎn),并有更強(qiáng)的數(shù)據(jù)建模能力。其模型結(jié)構(gòu)如圖1所示。
圖1 DBN模型結(jié)構(gòu)
將DBN網(wǎng)絡(luò)應(yīng)用在說(shuō)話人語(yǔ)音識(shí)別中,采用少量的說(shuō)話人語(yǔ)音數(shù)據(jù)進(jìn)行DBN網(wǎng)絡(luò)逐層RBM訓(xùn)練,可以有效學(xué)習(xí)和挖掘到語(yǔ)音中的潛在特征,更好地捕獲到說(shuō)話人個(gè)性信息,從而在說(shuō)話人語(yǔ)音數(shù)據(jù)不充分的條件下大大改善系統(tǒng)識(shí)別能力。
為進(jìn)一步解決噪聲環(huán)境下系統(tǒng)識(shí)別性能不好的問(wèn)題,結(jié)合自動(dòng)編碼器的去噪特點(diǎn),應(yīng)用DBN網(wǎng)絡(luò)構(gòu)造AutoEncoder DBN網(wǎng)絡(luò),實(shí)現(xiàn)深層自動(dòng)編碼網(wǎng)絡(luò)。網(wǎng)絡(luò)訓(xùn)練首先采用貪婪學(xué)習(xí)算法對(duì)DBN逐層預(yù)訓(xùn)練,得到編碼網(wǎng)絡(luò)的初步訓(xùn)練參數(shù),然后由得到的參數(shù)反轉(zhuǎn)重構(gòu)其對(duì)稱網(wǎng)絡(luò),最后通過(guò)BP算法反向微調(diào)整個(gè)網(wǎng)絡(luò),完成整個(gè)網(wǎng)絡(luò)訓(xùn)練。AutoEncoder DBN網(wǎng)絡(luò)前半部分可以實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的特征提取和數(shù)據(jù)編碼,后半部分通過(guò)深層的特征數(shù)據(jù)實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)重構(gòu)。AutoEncoder DBN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 AutoEncoder DBN網(wǎng)絡(luò)結(jié)構(gòu)
在文中說(shuō)話人識(shí)別系統(tǒng)中,AutoEncoder DBN網(wǎng)絡(luò)首先采用純凈語(yǔ)音特征數(shù)據(jù)根據(jù)其訓(xùn)練算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,得到AutoEncoder DBN網(wǎng)絡(luò)參數(shù)。模型訓(xùn)練完成后,一段有噪語(yǔ)音數(shù)據(jù)輸入網(wǎng)絡(luò)時(shí),首先經(jīng)過(guò)圖2(b)中的編碼網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行編碼,獲得說(shuō)話人語(yǔ)音深層特征。由于網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)為純凈語(yǔ)音數(shù)據(jù),編碼網(wǎng)絡(luò)會(huì)捕獲語(yǔ)音數(shù)據(jù)中說(shuō)話人有效的語(yǔ)音特征數(shù)據(jù),過(guò)濾掉語(yǔ)音中的噪聲數(shù)據(jù),得到的特征可以代表說(shuō)話人語(yǔ)音去噪后深層個(gè)性特征,然后經(jīng)過(guò)圖2(b)中的重構(gòu)網(wǎng)絡(luò),利用得到的深層個(gè)性特征重構(gòu)輸出數(shù)據(jù),便得到去噪后并且代表說(shuō)話人的有效個(gè)性特征向量。采用AutoEncoder DBN網(wǎng)絡(luò)不僅可以在少量說(shuō)話人語(yǔ)音數(shù)據(jù)中捕獲高質(zhì)量的說(shuō)話人個(gè)性特征,還可以對(duì)輸入的有噪語(yǔ)音數(shù)據(jù)進(jìn)行噪聲過(guò)濾,在提高系統(tǒng)識(shí)別率的同時(shí)增強(qiáng)了系統(tǒng)魯棒性。
圖3 AutoEncoder DBN-VQ說(shuō)話人識(shí)別系統(tǒng)流程
整個(gè)說(shuō)話人識(shí)別系統(tǒng)流程如圖3所示。首先需要對(duì)說(shuō)話人語(yǔ)音進(jìn)行預(yù)處理,并提取網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù)。網(wǎng)絡(luò)訓(xùn)練時(shí),對(duì)特征數(shù)據(jù)根據(jù)不同說(shuō)話人進(jìn)行標(biāo)記,將所有說(shuō)話人標(biāo)記過(guò)的數(shù)據(jù)輸入網(wǎng)絡(luò)進(jìn)行有監(jiān)督的模型訓(xùn)練。AutoEncoder DBN訓(xùn)練完成后,分別將不同說(shuō)話人無(wú)標(biāo)簽特征數(shù)據(jù)經(jīng)過(guò)AutoEncoder DBN編碼重構(gòu),得到經(jīng)過(guò)AutoEncoder DBN網(wǎng)絡(luò)挖掘和重構(gòu)的說(shuō)話人數(shù)據(jù),重構(gòu)數(shù)據(jù)再作為VQ模型訓(xùn)練輸入數(shù)據(jù),進(jìn)行VQ模型訓(xùn)練。說(shuō)話人識(shí)別時(shí),一段語(yǔ)音過(guò)來(lái),經(jīng)過(guò)預(yù)處理,提取該語(yǔ)音特征,提取的語(yǔ)音特征數(shù)據(jù)經(jīng)過(guò)訓(xùn)練好的AutoEncoder DBN編碼重構(gòu),然后輸入VQ進(jìn)行說(shuō)話人身份識(shí)別。
實(shí)驗(yàn)運(yùn)行環(huán)境為MATLAB2014a。采用TIMIT語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)。TIMIT是一個(gè)全英文語(yǔ)音數(shù)據(jù)庫(kù),由麻省理工MIT、斯坦福研究院SRI和德州儀器TI共同設(shè)計(jì)。該數(shù)據(jù)庫(kù)每位話者在安靜環(huán)境下錄制10句話,聲音采集頻率是16000Hz,采樣位數(shù)為16位。實(shí)驗(yàn)選取該語(yǔ)音庫(kù)200名錄音人,其中男128名,女72名。實(shí)驗(yàn)將每個(gè)人10句語(yǔ)音分為互不交叉的訓(xùn)練語(yǔ)音集和測(cè)試語(yǔ)音集,每句話平均時(shí)長(zhǎng)3s左右。實(shí)驗(yàn)中采用的噪聲信號(hào)取自NoiseX-9噪聲數(shù)據(jù)庫(kù)。實(shí)驗(yàn)分為兩部分,一部分是測(cè)試純凈語(yǔ)音條件下說(shuō)話人語(yǔ)音數(shù)據(jù)有限時(shí)系統(tǒng)性能,另一部分是測(cè)試在語(yǔ)音加入噪聲情況下算法的正確識(shí)別率。
AutoEncoder DBN-VQ(簡(jiǎn)稱AEDBN-VQ)中初始DBN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為3層,每層節(jié)點(diǎn)數(shù)為1024-1024-1024,模型學(xué)習(xí)率為0.0002。訓(xùn)練數(shù)據(jù)提取說(shuō)話人語(yǔ)音40維MFCC參數(shù),去除代表直流分量的第一維數(shù)據(jù),然后依次取每幀前后各兩幀拼接,形成195(5*(40-1))維的超幀。采用的VQ模型編碼長(zhǎng)度為32,碼本設(shè)計(jì)采用LBG算法。
文中提出的算法是在VQ方法上改進(jìn)的,首先與該方法進(jìn)行系統(tǒng)性能對(duì)比?;谑噶苛炕椒ǖ膶?shí)驗(yàn)設(shè)置為:說(shuō)話人語(yǔ)音特征數(shù)據(jù)同樣提取40維MFCC參數(shù),去除第一幀直流分量,直接進(jìn)行連續(xù)5幀拼接構(gòu)成195維超幀,矢量量化編碼長(zhǎng)度是32,碼本設(shè)計(jì)采用LBG算法?;诟咚够旌夏P头椒?GMM)的基本原理是用多個(gè)高斯模型來(lái)擬合說(shuō)話人語(yǔ)音信號(hào)。該方法在說(shuō)話人識(shí)別領(lǐng)域是研究熱點(diǎn),同樣選擇該方法進(jìn)行系統(tǒng)性能對(duì)比?;诟咚够旌夏P头椒ǖ脑O(shè)置為:語(yǔ)音特征數(shù)據(jù)采用20維MFCC參數(shù),高斯混合度設(shè)為16。
在說(shuō)話人語(yǔ)音時(shí)長(zhǎng)有限(不超過(guò)10s)時(shí),測(cè)試模型訓(xùn)練語(yǔ)音和測(cè)試語(yǔ)音都為純凈語(yǔ)音條件下的系統(tǒng)識(shí)別性能。表1和表2是模型訓(xùn)練語(yǔ)音時(shí)長(zhǎng)每人2句話(時(shí)長(zhǎng)約6s)和3句話(時(shí)長(zhǎng)約9s),測(cè)試語(yǔ)音時(shí)長(zhǎng)為1~3句話下的系統(tǒng)識(shí)別結(jié)果。
表1 純凈語(yǔ)音條件下每人訓(xùn)練2句話的
表2 純凈語(yǔ)音條件下每人訓(xùn)練3句話的
在訓(xùn)練語(yǔ)音時(shí)長(zhǎng)為2句話時(shí),AEDBN-VQ識(shí)別率達(dá)到97.5%,另外兩種算法識(shí)別率不到90%;訓(xùn)練語(yǔ)音增加到3句話時(shí),AEDBN-VQ識(shí)別率基本達(dá)到性能最優(yōu),識(shí)別率是99.5%,其他兩種算法識(shí)別率還有很大提升空間,與AEDBN-VQ相差10%左右。另外,在測(cè)試語(yǔ)音時(shí)長(zhǎng)為1句話這種極端條件下,AEDBN-VQ系統(tǒng)在訓(xùn)練時(shí)長(zhǎng)2句話時(shí)識(shí)別率達(dá)到86.5%,訓(xùn)練為3句話時(shí)識(shí)別率達(dá)到93%,比另外兩種算法高出平均10%。實(shí)驗(yàn)結(jié)果表明,在純凈語(yǔ)音及說(shuō)話人訓(xùn)練和測(cè)試語(yǔ)音時(shí)長(zhǎng)有限的條件下,AEDBN-VQ系統(tǒng)可以更好地捕獲說(shuō)話人個(gè)性特征,進(jìn)行準(zhǔn)確識(shí)別,系統(tǒng)性能明顯高于VQ算法與傳統(tǒng)GMM算法。在每人訓(xùn)練2句話和3句話的條件下,測(cè)試時(shí)語(yǔ)句由測(cè)試1句話到測(cè)試3句話時(shí)長(zhǎng)增加,AEDBN-VQ系統(tǒng)的識(shí)別率也有一定的改善,進(jìn)一步說(shuō)明了AEDBN-VQ說(shuō)話人識(shí)別系統(tǒng)的穩(wěn)定性。
有噪語(yǔ)音條件下的實(shí)驗(yàn)是測(cè)試系統(tǒng)對(duì)帶有噪聲的語(yǔ)音或者模擬實(shí)際有噪聲環(huán)境下的系統(tǒng)識(shí)別情況。實(shí)驗(yàn)中每位說(shuō)話人選取的訓(xùn)練語(yǔ)音時(shí)長(zhǎng)為3句話(時(shí)長(zhǎng)約9s),每人剩余語(yǔ)句數(shù)都用來(lái)進(jìn)行識(shí)別測(cè)試。實(shí)驗(yàn)設(shè)計(jì)加入的噪聲類型分別是white噪聲、factory1噪聲、babble噪聲、pink噪聲。AEDBN-VQ算法網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù)采用說(shuō)話人的純凈語(yǔ)音,識(shí)別時(shí),由網(wǎng)絡(luò)模型對(duì)待測(cè)有噪語(yǔ)音數(shù)據(jù)進(jìn)行編碼重構(gòu),然后輸入下一模型進(jìn)行說(shuō)話人身份識(shí)別。
傳統(tǒng)VQ算法和GMM算法采用純凈語(yǔ)音數(shù)據(jù)進(jìn)行模型訓(xùn)練,然后對(duì)帶噪語(yǔ)音識(shí)別時(shí)由于訓(xùn)練環(huán)境和測(cè)試環(huán)境不匹配,導(dǎo)致系統(tǒng)識(shí)別率急劇惡化,所以在模型訓(xùn)練時(shí)在訓(xùn)練語(yǔ)音數(shù)據(jù)中加入和測(cè)試語(yǔ)音中相應(yīng)的噪聲。
表3~5分別是在測(cè)試語(yǔ)音信噪比為10dB、5dB、0dB時(shí)三種算法的識(shí)別結(jié)果。
表3 信噪比為10 dB時(shí)三種算法的正確識(shí)別率 %
表4 信噪比為5 dB時(shí)三種算法的正確識(shí)別率 %
表5 信噪比為0 dB時(shí)三種算法的正確識(shí)別率 %
由表中數(shù)據(jù)可以看出,在信噪比為10dB時(shí),平穩(wěn)噪聲(white噪聲)條件下AEDBN-VQ算法的正確識(shí)別率高出另外兩種算法15%之多,可達(dá)到87%;非平穩(wěn)噪聲條件下,AEDBN-VQ算法正確識(shí)別率在95%左右,同樣高出另外兩種算法平均10%之多。信噪比為5dB時(shí),AEDBN-VQ算法正確識(shí)別率能穩(wěn)定在80%左右,相比另外兩種算法系統(tǒng)性能也平均高出15%。信噪比在0dB時(shí)三種算法的識(shí)別率都變得很差,但是AEDBN-VQ識(shí)別率還可以在50%之上。在測(cè)試語(yǔ)音數(shù)據(jù)中加入噪聲,VQ和GMM說(shuō)話人識(shí)別系統(tǒng)的識(shí)別率大幅降低,AEDBN-VQ算法實(shí)驗(yàn)結(jié)果仍可達(dá)到期望識(shí)別效果。
實(shí)驗(yàn)數(shù)據(jù)表明,AEDBN-VQ算法中的自動(dòng)編碼深度置信網(wǎng)絡(luò)對(duì)輸入的有噪語(yǔ)音數(shù)據(jù)確實(shí)具有挖掘有效說(shuō)話人個(gè)性信息以及進(jìn)行有效噪聲過(guò)濾的作用,使說(shuō)話人識(shí)別系統(tǒng)具有了一定的魯棒性。
在傳統(tǒng)矢量量化方法的基礎(chǔ)上,提出深度置信網(wǎng)絡(luò)與矢量量化方法相結(jié)合的算法。應(yīng)用深度置信網(wǎng)絡(luò)構(gòu)造自動(dòng)編碼深度置信網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)說(shuō)話人語(yǔ)音數(shù)據(jù)個(gè)性特征深度學(xué)習(xí),改善了當(dāng)說(shuō)話人語(yǔ)音時(shí)長(zhǎng)有限或不足時(shí)傳統(tǒng)算法模型訓(xùn)練不充分、識(shí)別率不高等問(wèn)題;更進(jìn)一步,結(jié)合自動(dòng)編碼器對(duì)數(shù)據(jù)編碼重構(gòu)可以實(shí)現(xiàn)數(shù)據(jù)噪聲過(guò)濾的優(yōu)勢(shì),使網(wǎng)絡(luò)模型具備對(duì)有噪語(yǔ)音進(jìn)行噪聲過(guò)濾的能力,提升了系統(tǒng)的魯棒性,確保該算法在有噪聲環(huán)境下也能具備穩(wěn)定的系統(tǒng)性能。實(shí)驗(yàn)結(jié)果表明,在純凈語(yǔ)音和有噪語(yǔ)音條件下,該算法比傳統(tǒng)算法有更好的識(shí)別結(jié)果。當(dāng)然,在0dB等這種極端噪聲環(huán)境下,該算法的識(shí)別率還無(wú)法保持在一個(gè)可以接受的正確識(shí)別率之上,仍然需要進(jìn)一步探索和完善。
[1] QUATIERI T F.離散時(shí)間語(yǔ)音信號(hào)處理:原理與應(yīng)用[M].北京:電子工業(yè)出版社,2004.
[2] MARTINEZ J,PEREZ H,ESCAMILLA E,et al.Speaker recognition using Mel frequency cepstral coefficients (MFCC) and vector quantization (VQ) techniques[C]//International conference on electrical communications and computers.[s.l.]:IEEE,2012:248-251.
[3] HUANG C C, GONG W, FU W L,et al.A research of speaker recognition based on VQ and MFCC[J].Applied Mechanics and Materials,2014,644-650:4325-4329.
[4] HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[5] YU D,SELTZER M L.Improved bottleneck features using pretrained deep neural networks[C]//Conference of the international speech communication association.[s.l.]:[s.n.],2011:237-240.
[6] RUMELHART D E,HINTON G E,WILLIAMS R J.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536.
[7] 曲建嶺,杜辰飛,邸亞洲,等.深度自動(dòng)編碼器的研究與展望[J].計(jì)算機(jī)與現(xiàn)代化,2014(8):128-134.
[8] VINCENT P,LAROCHELLE H,LAJOIE I,et al.Stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J].Journal of Machine Learning Research,2010,11(12):3371-3408.
[9] 趙 力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2009.
[10] 丁艷偉,戴玉剛.基于VQ的說(shuō)話人識(shí)別系統(tǒng)[J].電腦知識(shí)與技術(shù),2008,4(5):1181-1183.
[11] 田 垚,蔡 猛,何 亮,等.基于深度神經(jīng)網(wǎng)絡(luò)和Bottleneck特征的說(shuō)話人識(shí)別系統(tǒng)[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2016,56(11):1143-1148.
[12] 王山海,景新幸,楊海燕.基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語(yǔ)音識(shí)別的研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(8):2289-2291.
[13] LIU Y,ZHOU S,CHEN Q.Discriminative deep belief networks for visual data classification[J].Pattern Recognition,2011,44(10):2287-2296.
[14] HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.
[15] HINTON G E.Learning multiple layers of representation[J].Trends in Cognitive Sciences,2007,11(10):428-434.
[16] MOHAMED A,DAHL G E,HINTON G.Acoustic modeling using deep belief networks[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22.
[17] SALAKHUTDINOV R. Learning deep generative models[D].Toronto:University of Toronto,2009.