丁冬兵
摘要:為提高小樣本聲紋識別效率,該文提出了一種TL-CNN-GAP網(wǎng)絡(luò)模型下的小樣本聲紋識別方法。該方法利用源數(shù)據(jù)集預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network ,CNN),將訓(xùn)練好的卷積層與降采樣層用遷移學(xué)習(xí)(Transfer learning,TL)的方法遷移到小樣本的目標(biāo)集上,最后用全局平均池化層(Global Average Pooling ,GAP)替換重訓(xùn)練CNN中的全連接層(Fully Connected layers,F(xiàn)C)。這樣不僅減少了小樣本聲紋識別模型的訓(xùn)練時間,而且相比傳統(tǒng)的聲紋識別模型的識別率有著顯著地提高。此外,為了解決在實際運用中聲紋訓(xùn)練樣本不足的問題,該文采用了一種凸透鏡成像的圖像增多的算法,根據(jù)凸透鏡成像原理,通過改變光譜圖的大小,從而獲得更多的訓(xùn)練數(shù)據(jù)。實驗中采取含有 630人的TIMIT語音數(shù)據(jù)庫與實驗室自建的40人語音庫作為小樣本聲紋數(shù)據(jù)集進(jìn)行訓(xùn)練、驗證和測試。實驗表明,與原網(wǎng)絡(luò)相比,用GAP替代CNN中的全連接層的方法,使其重訓(xùn)練時間縮短了32.5%,該模型與傳統(tǒng)的GMM、GMM-UBM和GMM-SVM網(wǎng)絡(luò)模型相比,聲紋識別率有效地提高了3.3%—9.1%,為小樣本聲紋識別提供了一種切實可行的方法。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);全局平均池化;小樣本;圖像增多算法;遷移學(xué)習(xí);聲紋識別
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)24-0177-02
生物特征是每個人固有的特征,具有唯一性和穩(wěn)定性。對于人類來說,生物特征是多種多樣的,大致可分為兩類,主要包括生理特征和行為特征。生理特征主要包含指紋、掌紋、人臉、DNA、視網(wǎng)膜、虹膜與血管紋路等。行為特征主要包含聲紋、心跳、步態(tài)、簽名等。本文主要介紹的是對聲紋識別技術(shù)[1]的運用,聲紋識別技術(shù)作為僅次于指紋和掌紋的第三大生物識別技術(shù),在識別領(lǐng)域有廣泛的研究和應(yīng)用。聲紋識別技術(shù)在識別領(lǐng)域的市場份額占有率大約為16%,并且有逐年上升的趨勢。隨著信息處理技術(shù)的發(fā)展與完善,聲紋識別技術(shù)在司法領(lǐng)域、醫(yī)療領(lǐng)域、軍事安全領(lǐng)域、金融領(lǐng)域等都得到了廣泛的應(yīng)用。例如,在司法領(lǐng)域,警察可以通過聲紋來確定嫌疑人身份;在醫(yī)療領(lǐng)域,醫(yī)生可以通過聲紋來判斷病人是否患有某些疾??;在軍事安全領(lǐng)域,聲紋可以識別軍官或士兵的身份;在金融領(lǐng)域,聲紋識別技術(shù)同樣可以確認(rèn)用戶的身份。綜上所述,正是因為聲紋識別技術(shù)有著簡單、方便、經(jīng)濟(jì)、安全等優(yōu)點,所以受到了國內(nèi)外專家的高度重視,并取得了許多研究成果。因此,研究高效率的聲紋識別技術(shù)有著重要的現(xiàn)實意義和價值。
在聲紋識別領(lǐng)域,當(dāng)科研人員對語音進(jìn)行分析預(yù)測時,往往會面臨缺少樣本數(shù)據(jù)的問題。目前,一個較為完善的聲紋識別系統(tǒng),通常是科研人員用數(shù)十萬乃至數(shù)百萬個網(wǎng)絡(luò)參數(shù)對卷積神經(jīng)網(wǎng)絡(luò)[2]進(jìn)行訓(xùn)練,才能得到一個相對完整的聲紋識別模型?;诖髽颖灸P拖碌穆暭y識別,雖然極大提高了聲紋識別的準(zhǔn)確度,但是這種情況會花費大量的人力物力,從長遠(yuǎn)的經(jīng)濟(jì)效益來看并不劃算。在這種背景下,國內(nèi)外學(xué)者對于小樣本[3]問題的研究就應(yīng)運而生。然而,科研人員在小樣本的條件下,并不能有效地對聲紋識別的實驗結(jié)果進(jìn)行評估與分析。對于這些問題,本文采用了一種基于凸透鏡成像的圖像增多的算法[4],并且將訓(xùn)練好的卷積層與降采樣層遷移過來,用GAP替代CNN中的全連接層,從而構(gòu)成了一個新的網(wǎng)絡(luò)模型。
1理論模型
對于本文所采用的卷積神經(jīng)網(wǎng)絡(luò)模型下的小樣本聲紋識別方法,其TL-CNN-GAP模型流程圖如圖1所示。
1.1原始語音信號的預(yù)處理
語音信號是一種非平穩(wěn)的時變信號,其攜帶著豐富的特征信息。對語音信號的預(yù)處理是聲紋識別技術(shù)的關(guān)鍵環(huán)節(jié),是一項必不可少的過程,直接關(guān)系到識別率的好壞。預(yù)處理主要是對原始語音信號進(jìn)行分析,通常采用的方法是“短時平穩(wěn)技術(shù)”。 對一段原始語音信號進(jìn)行預(yù)處理,繪制成語譜圖 (即二維圖)。
1.2遷移學(xué)習(xí)與重訓(xùn)練
遷移學(xué)習(xí)是一種全新的機(jī)器學(xué)習(xí)方法,它主要是運用已存在的知識解決不同但相關(guān)領(lǐng)域的問題,它能準(zhǔn)確、快速地對相似問題進(jìn)行求解。本文將預(yù)訓(xùn)練的CNN模型中的卷積層與降采樣層遷移到小樣本目標(biāo)聲紋數(shù)據(jù)集上,用小樣本進(jìn)行重訓(xùn)練,同時用全局平均池化層(GAP)去替換CNN網(wǎng)絡(luò)的全連接層,這樣就構(gòu)成了一個新的網(wǎng)絡(luò)模型TL-CNN-GAP。
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)最后一層都是全連接層,在整個卷積神經(jīng)網(wǎng)絡(luò)模型中,它的作用是對特征信息進(jìn)行分類。然而,全連接層有一個非常明顯的缺點就是參數(shù)的數(shù)據(jù)量過大,在整個CNN模型中,全連接層占用了大部分的參數(shù)。由于參數(shù)量過大,一方面增加了訓(xùn)練以及測試卷積神經(jīng)網(wǎng)絡(luò)模型的計算量,需要消耗大量時間,降低了計算速度;另外一方面參數(shù)量過大容易出現(xiàn)過擬合(例如Alexnet)。
因此,本文提出采用全局平均池化替代全連接層的方法。與傳統(tǒng)FC相比,GAP有很大的不同,GAP是對每一個特征圖的整張圖片都進(jìn)行了全局平均池化,于是每張?zhí)卣鲌D都可以產(chǎn)生一個輸出。采用全局平均池化的方法,能夠極大地減小網(wǎng)絡(luò)參數(shù),可以有效防止過擬合。此外,它還有一個重要的特點,每張?zhí)卣鲌D相當(dāng)于一個輸出特征,因此這個特征就可以表示輸出類的特征。
2 實驗結(jié)果與分析
對于本實驗提出的一種適用于小樣本聲紋識別的方法,本文先將TIMIT數(shù)據(jù)庫作為預(yù)訓(xùn)練集來訓(xùn)練CNN網(wǎng)絡(luò),預(yù)訓(xùn)練集的樣本容量約31500。遷移模型后再從自建語音庫選取30人的小目標(biāo)聲紋數(shù)據(jù)(人均50張語譜圖)作為訓(xùn)練集(樣本容量為1500)來驗證下述第四種方案的有效性。從上述30人中任選10人(人均50張語譜圖,樣本容量為500)作為測試集,按以下四種方案做對比實驗。
方案一:用上述小目標(biāo)聲紋數(shù)據(jù)分別去訓(xùn)練和測試常用于語音識別的GMM、GMM-SVM、GMM-UBM模型。
方案二:僅用小目標(biāo)聲紋數(shù)據(jù)去訓(xùn)練傳統(tǒng)CNN-GAP網(wǎng)絡(luò)。
方案三:用大樣本聲紋數(shù)據(jù)TIMIT預(yù)訓(xùn)練傳統(tǒng)CNN網(wǎng)絡(luò);然后將訓(xùn)練好的模型遷移到目標(biāo)集中,用小樣本聲紋數(shù)據(jù)進(jìn)行訓(xùn)練和測試。
方案四:用大樣本聲紋數(shù)據(jù)預(yù)訓(xùn)練CNN網(wǎng)絡(luò),遷移模型到小目標(biāo)集中,將全連接層替換為全局平均池化層,再用小樣本聲紋數(shù)據(jù)進(jìn)行重訓(xùn)練和測試。
實驗結(jié)果表明:四種方案在相同的小樣本訓(xùn)練樣本容量下,CNN-GAP網(wǎng)絡(luò)模型由于訓(xùn)練樣本參數(shù)嚴(yán)重不足,導(dǎo)致識別率較低,而經(jīng)過遷移學(xué)習(xí)后,TL-CNN-GAP模型的識別率最高。
3 結(jié)論
本文提出的一種TL-CNN-GAP模型下的小樣本聲紋識別方法,用大樣本參數(shù)預(yù)訓(xùn)練CNN網(wǎng)絡(luò)模型,將模型遷移到小目標(biāo)集中。此外,將目標(biāo)集小樣本聲紋信號所對應(yīng)的語譜圖通過基于凸透鏡成像的圖像增多算法增加了樣本容量,同時用全局平均池化層替代了全連接層。與傳統(tǒng)的CNN模型相比,TL-CNN-GAP模型減少了網(wǎng)絡(luò)訓(xùn)練參數(shù),極大地縮短了網(wǎng)絡(luò)訓(xùn)練時間,提高了聲紋識別率。
參考文獻(xiàn):
[1] 陳聯(lián)武,郭武,戴禮榮.聲紋識別中合成語音的魯棒性[J].模式識別與人工智能,2011,24(6):743-747.
[2] 劉萬軍,梁雪劍,曲海成.不同池化模型的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)性能研究[J].中國圖象圖形學(xué)報,2016,21(9):1178-1190.
【通聯(lián)編輯:光文玲】