戴本堯
摘要:直接從音頻的原始波形學(xué)習(xí)聲學(xué)模型具有挑戰(zhàn)性。當(dāng)前基于音頻的原始波形的模型一般使用很少的卷積層,可能不足以構(gòu)建抽象的可區(qū)分性特征。在這項(xiàng)工作中,我們提出了一個(gè)非常深的卷積神經(jīng)網(wǎng)絡(luò)(VGCNN),這個(gè)網(wǎng)絡(luò)模型直接使用時(shí)域波形作為輸入。我們的VGCNN有多達(dá)34個(gè)卷積層,有效從音頻原始序列中(例如,大小為32000的音頻原始序列)提取了抽象的可區(qū)分性特征。我們的網(wǎng)絡(luò)是全卷積網(wǎng)絡(luò),不使用全連接層和下采樣層,以最大化的保留原始特征并且降低參數(shù)量。我們用一個(gè)在第一卷積層中的大的感受野來(lái)提取長(zhǎng)時(shí)時(shí)序,隨后的各層卷積中的卷積核是非常小的感受野以便控制模型大小。實(shí)驗(yàn)證明我們提出的具有18個(gè)卷積層的CNN,在環(huán)境聲音識(shí)別任務(wù)絕對(duì)精度超過(guò)目前主流模型15%。
關(guān)鍵詞:原始音頻波形;人工智能;深度學(xué)習(xí)
中圖分類號(hào):TP37 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)09-0130-03
1 簡(jiǎn)介
聲學(xué)建模傳統(tǒng)上分為兩部分:1)設(shè)計(jì)音頻數(shù)據(jù)的特征表示;2)建立一個(gè)合適的預(yù)測(cè)模型。然而,往往需要大量的時(shí)間和經(jīng)驗(yàn)來(lái)找到能夠正確代表音頻數(shù)據(jù)的合適特征。隨著深度學(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)實(shí)現(xiàn)了在圖像識(shí)別,圖像分割領(lǐng)域中從原始圖像中提取特征,從而不需要人工手動(dòng)設(shè)計(jì)特征。比如文獻(xiàn)[1]設(shè)計(jì)了一個(gè)人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像識(shí)別任務(wù),該卷積神經(jīng)網(wǎng)絡(luò)直接從原始的圖像中提取抽象的高級(jí)特征表示,通過(guò)實(shí)驗(yàn)結(jié)果驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在手寫數(shù)字識(shí)別和人臉識(shí)別問(wèn)題上的可行性,并與現(xiàn)有的其他分類識(shí)別方法進(jìn)行比較,發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率較高。目前在圖像識(shí)別中性能最好的為CNN模型,因?yàn)檫@些模型的基本構(gòu)建塊是卷積層提取的特征可以在空間上或像素或時(shí)域保持特征不變。在計(jì)算機(jī)視覺(jué)領(lǐng)域,CNN已經(jīng)取得了很好的成績(jī),甚至超過(guò)了人類的表現(xiàn),如物體識(shí)別和面部識(shí)別。最近的研究已將CNN應(yīng)用于音頻任務(wù)等作為環(huán)境聲音識(shí)別和語(yǔ)音識(shí)別,并發(fā)現(xiàn)CNN僅在原始波形下表現(xiàn)良好。比如,CNN可以自動(dòng)提取出像log-mel[2]這樣的音頻特征。這些研究中,大多數(shù)網(wǎng)絡(luò)較淺,例如只有兩個(gè)卷積層。在我們的工作中,我們提出研究非常深的卷積網(wǎng)絡(luò)最多34個(gè)卷積層,直接使用時(shí)間序列波形作為輸入。我們的深度網(wǎng)絡(luò)高效優(yōu)化了時(shí)間序列(例如,長(zhǎng)度為32000的向量),這是處理原始音頻波形所必需的。我們?cè)诰矸e層中使用非常小的感受野以便控制模型的參數(shù)。但是,在第一層使用一個(gè)大的感受野開(kāi)提取長(zhǎng)時(shí)時(shí)序特征。我們的模型是全卷積網(wǎng)絡(luò),沒(méi)有全連接層和池化層,以最大化的保留原始特征并且降低參數(shù)量,并且其可以應(yīng)用于變化長(zhǎng)度的音頻。通過(guò)應(yīng)用歸一化,殘差學(xué)習(xí)的策略,我們克服了訓(xùn)練非常深的模型中梯度消失的問(wèn)題,同時(shí)保持很低的模型復(fù)雜度。在環(huán)境聲音識(shí)別任務(wù)[3],我們的實(shí)驗(yàn)表明深層網(wǎng)絡(luò)提高了網(wǎng)絡(luò)的性能,我們提出的具有18個(gè)卷積層的CNN,絕對(duì)精度超過(guò)目前主流模型15%。
2 超深層環(huán)境聲音識(shí)別卷積網(wǎng)絡(luò)的結(jié)構(gòu)
圖1列出了我們提出的VGCNN [4]。我們的VGCNN結(jié)構(gòu)以原始波形作為輸入時(shí)間序列波形,表示為一個(gè)長(zhǎng)的1D向量,而不是手動(dòng)設(shè)計(jì)的頻譜圖。CNN結(jié)構(gòu)的關(guān)鍵設(shè)計(jì)是深層架構(gòu)。為了構(gòu)建非常深的網(wǎng)絡(luò),除了第一個(gè)1D卷積層外,我們使用非常小的3*3卷積核。這減少了每個(gè)卷積核參數(shù)的數(shù)量,并控制模型大小和計(jì)算成本。此外,我們使用整流線性單元激活函數(shù)(ReLU)用于降低計(jì)算成本。大多數(shù)深卷積網(wǎng)絡(luò)分類使用2個(gè)或更多全連接層用于提取可區(qū)分性的高維特征,導(dǎo)致非常多的參數(shù)。我們假設(shè)大部分特征提取都發(fā)生在卷積層面,并可以提取足夠區(qū)分性的特征,從而不需要全連接層。因此,我們的網(wǎng)絡(luò)采用全卷積設(shè)計(jì)。我們使用單個(gè)全局平均池化層而不是全連接層,其可減少每個(gè)高層特征圖譜圖的維度。通過(guò)刪除全連接層,網(wǎng)絡(luò)模型被強(qiáng)制執(zhí)行學(xué)習(xí)卷積層中的良好的高級(jí)特征表示。批量標(biāo)準(zhǔn)化是我們采用稱為批處理的輔助層歸一化(BN)[5],減輕了消失梯度,深度學(xué)習(xí)中的常見(jiàn)問(wèn)題是優(yōu)化網(wǎng)絡(luò)的深層架構(gòu)。批量標(biāo)準(zhǔn)化使得可能的訓(xùn)練非常深的網(wǎng)絡(luò)(M18,M34-res)我們每層卷積層的輸出上加入ReLU非線性激活函數(shù)和歸一化層。另外我們采取殘差網(wǎng)絡(luò)的方式設(shè)計(jì)卷積網(wǎng)絡(luò)。殘差網(wǎng)絡(luò)[6]是最近的一個(gè)提出了深度學(xué)習(xí)框架,以便進(jìn)行非常深層的網(wǎng)絡(luò)訓(xùn)練。通常對(duì)于一個(gè)卷積層, x的映射為H(x)(x是輸入)。在殘差網(wǎng)絡(luò)框架中,我們將映射改為F(x)= H(x)+x,這稱為殘差映射。通過(guò)跳過(guò)某些卷積層實(shí)現(xiàn)網(wǎng)絡(luò)深度的減少。
圖1 我們提出的CNN模型的架構(gòu)
2.1 實(shí)驗(yàn)細(xì)節(jié)
我們使用包含10個(gè)環(huán)境的UrbanSound8k數(shù)據(jù)集,該數(shù)據(jù)集包含城市地區(qū)的聲音,如鉆孔,汽車?yán)?,和孩子們玩?!?數(shù)據(jù)集由8732個(gè)音頻剪輯組成,每個(gè)剪輯4秒或更短,總計(jì)9.7小時(shí)。 我們使用官方的第10個(gè)數(shù)據(jù)文件夾作為我們的測(cè)試集,其余9個(gè)數(shù)據(jù)文件夾用于訓(xùn)練。對(duì)于輸入音頻波形,每個(gè)音頻波形文件是下采樣到8kHz并歸一化為0均值和1方差。為了鄭嘉訓(xùn)練樣本,我們將訓(xùn)練數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強(qiáng)。
我們使用Adam[7]優(yōu)化器訓(xùn)練VGCNN模型,Adam是隨機(jī)梯度下降的一種變體,可以自適應(yīng)地調(diào)整步長(zhǎng)。運(yùn)行模型100-400個(gè)和訓(xùn)練周期直到收斂。該模型中的權(quán)重從頭開(kāi)始初始化,沒(méi)有采用任何預(yù)訓(xùn)練模型[8]。我們使用高斯分布初始化來(lái)避免梯度爆炸或梯度消失。所有權(quán)重參數(shù)都是采用系數(shù)0.0001的L2正則化。 我們的模型在Tensorflow[9]中訓(xùn)練,硬件設(shè)備為配備了Titan X GPU的機(jī)器。
其他模型:為了幫助分析,我們訓(xùn)練了一些變體模型,如表1中的模型。這些模型比原始模型參數(shù)更多。
2.2 實(shí)驗(yàn)結(jié)果和分析
表2顯示了模型的測(cè)試精度和訓(xùn)練時(shí)間。與其他型號(hào)相比,我們首先注意到M3表現(xiàn)非常糟糕,表明2層CNN不足以從聲音識(shí)別的原始波形中提取具有區(qū)分力的特征。M3-big為M3的變體,多50%的卷積核和2.5倍的卷積核參數(shù),沒(méi)有顯著提高性能(表3b),表明淺層模型提取特征的能力有限,即使使用更大的模型,也能不能較好的捕獲時(shí)間序列輸入。
更深的網(wǎng)絡(luò)(M5,M11,M18,M34-res)基本上提高性能,即測(cè)試精度提高了。表明增加M5,M11和M18的網(wǎng)絡(luò)深度增強(qiáng)了模型提取特征的能力。我們最好的模型M18達(dá)到71.68%的準(zhǔn)確率,M11為69.07%(1.8M參數(shù))。通過(guò)使用非常深的卷積架構(gòu),M18的表現(xiàn)優(yōu)于M3,高達(dá)15.56%絕對(duì)準(zhǔn)確率,表明更深層的卷積模型使用波形顯著改善聲學(xué)建模。此外,通過(guò)在初始階段使用積極的下采樣層,非常深的網(wǎng)絡(luò)可以高效的地訓(xùn)練,即當(dāng)我們使用步幅1而不是4時(shí)。M11的第一個(gè)卷積層,我們觀察到在10小時(shí)訓(xùn)練后測(cè)試精度較低(67.37%),而測(cè)試精度為68.42%,M18在2小時(shí)內(nèi)到達(dá)。有趣的是,如果性能隨著深度的提高而提高,M18測(cè)試精度為71.68%,而M34-res僅達(dá)到63.47%測(cè)試精度,這是由于過(guò)度擬合的原因。我們觀察到了通過(guò)殘差學(xué)習(xí)我們沒(méi)有解決過(guò)擬合的問(wèn)題,像M34-res和M34-res這樣的網(wǎng)絡(luò)訓(xùn)練準(zhǔn)確率高達(dá)99.21%,而M18訓(xùn)練精度為96.72%。我們還觀察到M11網(wǎng)絡(luò)的剩余變體(此處未顯示)達(dá)到更高的訓(xùn)練精度,但測(cè)試精度更低(比M11要低0.17%)。我們認(rèn)為我們的數(shù)據(jù)集太小了,所以非常深的網(wǎng)絡(luò)引起了過(guò)擬合問(wèn)題[11]。訓(xùn)練M34-res沒(méi)有進(jìn)一步的提升。盡管如此,M34-res仍然優(yōu)于M3和M5。
我們將全卷積網(wǎng)絡(luò)與卷積網(wǎng)絡(luò)進(jìn)行比較,發(fā)現(xiàn)使用全連接層(FC)的常規(guī)網(wǎng)絡(luò)用于分類。表4顯示全連接層[10]增加參數(shù)數(shù)量導(dǎo)致增加訓(xùn)練時(shí)間。但是,全連接層不會(huì)提高測(cè)試精度。在M3-fc和M11-fc的情況下,額外的全連接層會(huì)導(dǎo)致較低的測(cè)試精度(即較差的泛化)。我們認(rèn)為我們的網(wǎng)絡(luò)設(shè)計(jì)缺乏全連接層,將高層特征學(xué)習(xí)推向卷積層,導(dǎo)致迫使卷積層學(xué)習(xí)對(duì)特征有利的信息。
3 結(jié)論
在這項(xiàng)工作中,我們提出了非常深的卷積神經(jīng)網(wǎng)絡(luò)可以直接對(duì)聲波輸入進(jìn)行操作。我們的網(wǎng)絡(luò),最多34個(gè)卷積層,得益于批量歸一化,殘差的組合,我們的模型取得了較好的性能。我們的結(jié)果顯示,一個(gè)深度網(wǎng)絡(luò)有18個(gè)卷積層優(yōu)于具有2個(gè)卷積層的網(wǎng)絡(luò),絕對(duì)準(zhǔn)確率達(dá)到71.8%。
參考文獻(xiàn):
[1] 許可. 卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上的應(yīng)用的研究[D]. 浙江大學(xué), 2012.
[2] Lee Y K, O. W. Kwon. A phase-dependent a priori SNR estimator in the logmel spectral domain for speech enhancement.IEEE International Conference on Consumer Electronics IEEE,2011:413-414.
[3] 李勇. 新型MFCC和波動(dòng)模型相結(jié)合的二層環(huán)境聲音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用 47.30(2011):132-135.
[4] 周飛燕, 金林鵬, 董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229-1251.
[5] 邱爽等.自歸一化卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版) ,2018(4).
[6] 曹川, 張紅英.基于改進(jìn)殘差網(wǎng)絡(luò)的人臉識(shí)別算法[J]." 傳感器與微系統(tǒng),2018(8).
[7] Kingma, Diederik P, J. Ba.Adam: A Method for Stochastic Optimization. Computer Science,2014.
[8] 曹大有, 胥帥.基于TensorFlow預(yù)訓(xùn)練模型快速、精準(zhǔn)的圖像分類器[J]." 漢江師范學(xué)院學(xué)報(bào),2017,37(3).
[9] Abadi, Martin.Tensor Flow: learning functions at scale." Acm Sigplan Notices,2016,51(9):1.
[10] Senior, Andrew, I. Lopez-Moreno. "Improving DNN speaker independence with I-vector inputs.IEEE International Conference on Acoustics, Speech and Signal Processing IEEE,2014:225-229.
[11] 李祚泳, 彭荔紅.BP網(wǎng)絡(luò)過(guò)擬合現(xiàn)象滿足的不確定關(guān)系新的改進(jìn)式[J].紅外與毫米波學(xué)報(bào),2002,21(4):293-296.
【通聯(lián)編輯:唐一東】