TL—CNN—GAP模型下的小樣本聲紋識別方法研究

2018-11-26 09:33丁冬兵

電腦知識與技術(shù) 2018年24期

關(guān)鍵詞：聲紋識別遷移學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)

丁冬兵

摘要：為提高小樣本聲紋識別效率，該文提出了一種TL-CNN-GAP網(wǎng)絡(luò)模型下的小樣本聲紋識別方法。該方法利用源數(shù)據(jù)集預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network ，CNN），將訓(xùn)練好的卷積層與降采樣層用遷移學(xué)習(xí)（Transfer learning，TL）的方法遷移到小樣本的目標(biāo)集上，最后用全局平均池化層（Global Average Pooling ，GAP）替換重訓(xùn)練CNN中的全連接層（Fully Connected layers，F(xiàn)C）。這樣不僅減少了小樣本聲紋識別模型的訓(xùn)練時間，而且相比傳統(tǒng)的聲紋識別模型的識別率有著顯著地提高。此外，為了解決在實際運用中聲紋訓(xùn)練樣本不足的問題，該文采用了一種凸透鏡成像的圖像增多的算法，根據(jù)凸透鏡成像原理，通過改變光譜圖的大小，從而獲得更多的訓(xùn)練數(shù)據(jù)。實驗中采取含有 630人的TIMIT語音數(shù)據(jù)庫與實驗室自建的40人語音庫作為小樣本聲紋數(shù)據(jù)集進(jìn)行訓(xùn)練、驗證和測試。實驗表明，與原網(wǎng)絡(luò)相比，用GAP替代CNN中的全連接層的方法，使其重訓(xùn)練時間縮短了32.5%，該模型與傳統(tǒng)的GMM、GMM-UBM和GMM-SVM網(wǎng)絡(luò)模型相比，聲紋識別率有效地提高了3.3%—9.1%，為小樣本聲紋識別提供了一種切實可行的方法。

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)；全局平均池化；小樣本；圖像增多算法；遷移學(xué)習(xí)；聲紋識別

中圖分類號：TP311 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2018）24-0177-02

生物特征是每個人固有的特征，具有唯一性和穩(wěn)定性。對于人類來說，生物特征是多種多樣的，大致可分為兩類，主要包括生理特征和行為特征。生理特征主要包含指紋、掌紋、人臉、DNA、視網(wǎng)膜、虹膜與血管紋路等。行為特征主要包含聲紋、心跳、步態(tài)、簽名等。本文主要介紹的是對聲紋識別技術(shù)[1]的運用，聲紋識別技術(shù)作為僅次于指紋和掌紋的第三大生物識別技術(shù)，在識別領(lǐng)域有廣泛的研究和應(yīng)用。聲紋識別技術(shù)在識別領(lǐng)域的市場份額占有率大約為16%，并且有逐年上升的趨勢。隨著信息處理技術(shù)的發(fā)展與完善，聲紋識別技術(shù)在司法領(lǐng)域、醫(yī)療領(lǐng)域、軍事安全領(lǐng)域、金融領(lǐng)域等都得到了廣泛的應(yīng)用。例如，在司法領(lǐng)域，警察可以通過聲紋來確定嫌疑人身份；在醫(yī)療領(lǐng)域，醫(yī)生可以通過聲紋來判斷病人是否患有某些疾??；在軍事安全領(lǐng)域，聲紋可以識別軍官或士兵的身份；在金融領(lǐng)域，聲紋識別技術(shù)同樣可以確認(rèn)用戶的身份。綜上所述，正是因為聲紋識別技術(shù)有著簡單、方便、經(jīng)濟(jì)、安全等優(yōu)點，所以受到了國內(nèi)外專家的高度重視，并取得了許多研究成果。因此，研究高效率的聲紋識別技術(shù)有著重要的現(xiàn)實意義和價值。

在聲紋識別領(lǐng)域，當(dāng)科研人員對語音進(jìn)行分析預(yù)測時，往往會面臨缺少樣本數(shù)據(jù)的問題。目前，一個較為完善的聲紋識別系統(tǒng)，通常是科研人員用數(shù)十萬乃至數(shù)百萬個網(wǎng)絡(luò)參數(shù)對卷積神經(jīng)網(wǎng)絡(luò)[2]進(jìn)行訓(xùn)練，才能得到一個相對完整的聲紋識別模型?；诖髽颖灸Ｐ拖碌穆暭y識別，雖然極大提高了聲紋識別的準(zhǔn)確度，但是這種情況會花費大量的人力物力，從長遠(yuǎn)的經(jīng)濟(jì)效益來看并不劃算。在這種背景下，國內(nèi)外學(xué)者對于小樣本[3]問題的研究就應(yīng)運而生。然而，科研人員在小樣本的條件下，并不能有效地對聲紋識別的實驗結(jié)果進(jìn)行評估與分析。對于這些問題，本文采用了一種基于凸透鏡成像的圖像增多的算法[4]，并且將訓(xùn)練好的卷積層與降采樣層遷移過來，用GAP替代CNN中的全連接層，從而構(gòu)成了一個新的網(wǎng)絡(luò)模型。

1理論模型

對于本文所采用的卷積神經(jīng)網(wǎng)絡(luò)模型下的小樣本聲紋識別方法，其TL-CNN-GAP模型流程圖如圖1所示。

1.1原始語音信號的預(yù)處理

語音信號是一種非平穩(wěn)的時變信號，其攜帶著豐富的特征信息。對語音信號的預(yù)處理是聲紋識別技術(shù)的關(guān)鍵環(huán)節(jié)，是一項必不可少的過程，直接關(guān)系到識別率的好壞。預(yù)處理主要是對原始語音信號進(jìn)行分析，通常采用的方法是“短時平穩(wěn)技術(shù)”。對一段原始語音信號進(jìn)行預(yù)處理，繪制成語譜圖（即二維圖）。

1.2遷移學(xué)習(xí)與重訓(xùn)練

遷移學(xué)習(xí)是一種全新的機(jī)器學(xué)習(xí)方法，它主要是運用已存在的知識解決不同但相關(guān)領(lǐng)域的問題，它能準(zhǔn)確、快速地對相似問題進(jìn)行求解。本文將預(yù)訓(xùn)練的CNN模型中的卷積層與降采樣層遷移到小樣本目標(biāo)聲紋數(shù)據(jù)集上，用小樣本進(jìn)行重訓(xùn)練，同時用全局平均池化層（GAP）去替換CNN網(wǎng)絡(luò)的全連接層，這樣就構(gòu)成了一個新的網(wǎng)絡(luò)模型TL-CNN-GAP。

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)最后一層都是全連接層，在整個卷積神經(jīng)網(wǎng)絡(luò)模型中，它的作用是對特征信息進(jìn)行分類。然而，全連接層有一個非常明顯的缺點就是參數(shù)的數(shù)據(jù)量過大，在整個CNN模型中，全連接層占用了大部分的參數(shù)。由于參數(shù)量過大，一方面增加了訓(xùn)練以及測試卷積神經(jīng)網(wǎng)絡(luò)模型的計算量，需要消耗大量時間，降低了計算速度；另外一方面參數(shù)量過大容易出現(xiàn)過擬合（例如Alexnet）。

因此，本文提出采用全局平均池化替代全連接層的方法。與傳統(tǒng)FC相比，GAP有很大的不同，GAP是對每一個特征圖的整張圖片都進(jìn)行了全局平均池化，于是每張?zhí)卣鲌D都可以產(chǎn)生一個輸出。采用全局平均池化的方法，能夠極大地減小網(wǎng)絡(luò)參數(shù)，可以有效防止過擬合。此外，它還有一個重要的特點，每張?zhí)卣鲌D相當(dāng)于一個輸出特征，因此這個特征就可以表示輸出類的特征。

2 實驗結(jié)果與分析

對于本實驗提出的一種適用于小樣本聲紋識別的方法，本文先將TIMIT數(shù)據(jù)庫作為預(yù)訓(xùn)練集來訓(xùn)練CNN網(wǎng)絡(luò)，預(yù)訓(xùn)練集的樣本容量約31500。遷移模型后再從自建語音庫選取30人的小目標(biāo)聲紋數(shù)據(jù)（人均50張語譜圖）作為訓(xùn)練集（樣本容量為1500）來驗證下述第四種方案的有效性。從上述30人中任選10人（人均50張語譜圖，樣本容量為500）作為測試集，按以下四種方案做對比實驗。

方案一：用上述小目標(biāo)聲紋數(shù)據(jù)分別去訓(xùn)練和測試常用于語音識別的GMM、GMM-SVM、GMM-UBM模型。

方案二：僅用小目標(biāo)聲紋數(shù)據(jù)去訓(xùn)練傳統(tǒng)CNN-GAP網(wǎng)絡(luò)。

方案三：用大樣本聲紋數(shù)據(jù)TIMIT預(yù)訓(xùn)練傳統(tǒng)CNN網(wǎng)絡(luò)；然后將訓(xùn)練好的模型遷移到目標(biāo)集中，用小樣本聲紋數(shù)據(jù)進(jìn)行訓(xùn)練和測試。

方案四：用大樣本聲紋數(shù)據(jù)預(yù)訓(xùn)練CNN網(wǎng)絡(luò)，遷移模型到小目標(biāo)集中，將全連接層替換為全局平均池化層，再用小樣本聲紋數(shù)據(jù)進(jìn)行重訓(xùn)練和測試。

實驗結(jié)果表明：四種方案在相同的小樣本訓(xùn)練樣本容量下，CNN-GAP網(wǎng)絡(luò)模型由于訓(xùn)練樣本參數(shù)嚴(yán)重不足，導(dǎo)致識別率較低，而經(jīng)過遷移學(xué)習(xí)后，TL-CNN-GAP模型的識別率最高。

3 結(jié)論

本文提出的一種TL-CNN-GAP模型下的小樣本聲紋識別方法，用大樣本參數(shù)預(yù)訓(xùn)練CNN網(wǎng)絡(luò)模型，將模型遷移到小目標(biāo)集中。此外，將目標(biāo)集小樣本聲紋信號所對應(yīng)的語譜圖通過基于凸透鏡成像的圖像增多算法增加了樣本容量，同時用全局平均池化層替代了全連接層。與傳統(tǒng)的CNN模型相比，TL-CNN-GAP模型減少了網(wǎng)絡(luò)訓(xùn)練參數(shù)，極大地縮短了網(wǎng)絡(luò)訓(xùn)練時間，提高了聲紋識別率。

參考文獻(xiàn)：

[1] 陳聯(lián)武，郭武，戴禮榮.聲紋識別中合成語音的魯棒性[J].模式識別與人工智能，2011，24（6）：743-747.

[2] 劉萬軍，梁雪劍，曲海成.不同池化模型的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)性能研究[J].中國圖象圖形學(xué)報，2016，21（9）：1178-1190.

【通聯(lián)編輯：光文玲】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

TL—CNN—GAP模型下的小樣本聲紋識別方法研究