秦楚雄 張連海
摘要:
針對(duì)卷積神經(jīng)網(wǎng)絡(luò)(CNN)聲學(xué)建模參數(shù)在低資源訓(xùn)練數(shù)據(jù)條件下的語(yǔ)音識(shí)別任務(wù)中存在訓(xùn)練不充分的問(wèn)題,提出一種利用多流特征提升低資源卷積神經(jīng)網(wǎng)絡(luò)聲學(xué)模型性能的方法。首先,為了在低資源聲學(xué)建模過(guò)程中充分利用有限訓(xùn)練數(shù)據(jù)中更多數(shù)量的聲學(xué)特征,先對(duì)訓(xùn)練數(shù)據(jù)提取幾類(lèi)不同的特征;其次,對(duì)每一類(lèi)類(lèi)特征分別構(gòu)建卷積子網(wǎng)絡(luò),形成一個(gè)并行結(jié)構(gòu),使得多特征數(shù)據(jù)在概率分布上得以規(guī)整;然后通過(guò)在并行卷積子網(wǎng)絡(luò)之上加入全連接層進(jìn)行融合,從而得到一種新的卷積神經(jīng)網(wǎng)絡(luò)聲學(xué)模型;最后,基于該聲學(xué)模型搭建低資源語(yǔ)音識(shí)別系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,并行卷積層子網(wǎng)絡(luò)可以將不同特征空間規(guī)整得更為相似,且該方法相對(duì)傳統(tǒng)多特征拼接方法和單特征CNN建模方法分別提升了3.27%和2.08%的識(shí)別率;當(dāng)引入多語(yǔ)言訓(xùn)練時(shí),該方法依然適用,且識(shí)別率分別相對(duì)提升了573%和4.57%。
關(guān)鍵詞:
低資源語(yǔ)音識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);特征規(guī)整;多流特征
中圖分類(lèi)號(hào):
TN912.34
文獻(xiàn)標(biāo)志碼:A
Abstract:
Aiming at solving the problem of insufficient training of Convolutional Neural Network (CNN) acoustic modeling parameters under the lowresource training data condition in speech recognition tasks, a method for improving CNN acoustic modeling performance in lowresource speech recognition was proposed by utilizing multistream features. Firstly, in order to make use of enough acoustic information of features from limited data to build acoustic model, multiple features of lowresource data were extracted from training data. Secondly, convolutional subnetworks were built for each type of features to form a parallel structure, and to regularize distributions of multiple features. Then, some fully connected layers were added above the parallel convolutional subnetworks to incorporate multistream features, and to form a new CNN acoustic model. Finally, a lowresource speech recognition system was built based on this acoustic model. Experimental results show that parallel convolutional subnetworks normalize different feature spaces more similar, and it gains 3.27% and 2.08% recognition accuracy improvement respectively compared with traditional multifeature splicing training approach and baseline CNN system. Furthermore, when multilingual training is introduced, the proposed method is still applicable, and the recognition accuracy is improved by 5.73% and 457% respectively.
英文關(guān)鍵詞Key words:
lowresource speech recognition; Convolutional Neural Network (CNN); feature normalization; multistream feature
0引言
隨著人們對(duì)于語(yǔ)音識(shí)別水平需求越來(lái)越多樣,語(yǔ)音識(shí)別對(duì)于聲學(xué)模型的要求越來(lái)越高。在低資源訓(xùn)練數(shù)據(jù)條件下,訓(xùn)練樣本數(shù)量有限,聲學(xué)模型參數(shù)訓(xùn)練嚴(yán)重不足,淺層的高斯混合模型——隱馬爾可夫聲學(xué)模型(Gaussian Mixture ModelHidden Markov Model, GMMHMM)已經(jīng)無(wú)法滿(mǎn)足建模要求。隨著深度學(xué)習(xí)(Deep Learning)技術(shù)的深入發(fā)展,人們陸續(xù)提出使用深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等模型取代傳統(tǒng)的GMM,它們可以有效地對(duì)數(shù)據(jù)進(jìn)行更深層次的建模,在多種連續(xù)語(yǔ)音識(shí)別任務(wù)中[1-3]取得了更優(yōu)的識(shí)別效果。尤其是CNN,作為一種具有更為復(fù)雜的非線(xiàn)性變換能力的深層網(wǎng)絡(luò)結(jié)構(gòu),在近幾年來(lái)廣泛應(yīng)用于語(yǔ)音識(shí)別中,并在連續(xù)語(yǔ)音識(shí)別任務(wù)中取得了顯著優(yōu)于DNN的識(shí)別率[3]。
從模型訓(xùn)練原理的角度來(lái)說(shuō),CNN的語(yǔ)音建模能力優(yōu)于高斯混合模型(Gaussian Mixture Model, GMM)和DNN,具體表現(xiàn)在如下幾點(diǎn)。
首先,CNN具有局部感受性(locality),特征映射的每個(gè)節(jié)點(diǎn)是通過(guò)上一層局部頻帶的F個(gè)節(jié)點(diǎn)卷積計(jì)算得到的,這種方法帶來(lái)兩點(diǎn)優(yōu)勢(shì):第一,利用干凈頻譜可計(jì)算出性能優(yōu)異的特征,僅有少量特征會(huì)受到噪聲成分的影響,因此模型的魯棒性得到提升;第二,局部卷積實(shí)際是對(duì)語(yǔ)音局部特性的一種增強(qiáng),而網(wǎng)絡(luò)的較高層通過(guò)將每個(gè)頻帶計(jì)算值組合起來(lái),起到了平均的作用,因此該方法綜合并且平衡了鄰近頻帶的語(yǔ)音信息。
其次,CNN中的池化采樣處理減弱了語(yǔ)音中頻移的影響。由于不同說(shuō)話(huà)人不同的聲道長(zhǎng)度會(huì)引起語(yǔ)音信號(hào)的頻移,即使對(duì)于相同的說(shuō)話(huà)人,也會(huì)產(chǎn)生較小的頻移現(xiàn)象[4]。當(dāng)使用GMM或者DNN模型解決這類(lèi)問(wèn)題時(shí),需要大幅增加高斯混元或者隱含層節(jié)點(diǎn)的數(shù)量,即使對(duì)DNN的隱含層采用池化降采樣以減少節(jié)點(diǎn)數(shù),全連接計(jì)算方式也很難緩解頻移問(wèn)題。而在CNN中,由于相鄰位置卷積計(jì)算得到的特征值是池化為一組的,因此當(dāng)輸入特征在頻率軸上有頻移時(shí),這種差異得以最小化。
最后,CNN中同一特征映射的權(quán)值共享性導(dǎo)致參數(shù)總量受限,由于低資源條件下訓(xùn)練數(shù)據(jù)也是有限的,因此模型訓(xùn)練的稀疏程度會(huì)得到一定程度的減弱,網(wǎng)絡(luò)參數(shù)訓(xùn)練相對(duì)更加充分,性能也就得到了相對(duì)提升。
雖然從模型訓(xùn)練的角度分析,CNN有著比其他模型更大的優(yōu)勢(shì),但是當(dāng)受限于訓(xùn)練數(shù)據(jù)量時(shí),所得到的聲學(xué)模型依然存在嚴(yán)重的訓(xùn)練不足問(wèn)題。
針對(duì)CNN在語(yǔ)音識(shí)別中的研究有很多,文獻(xiàn)[5-7]驗(yàn)證了CNN在大規(guī)模連續(xù)語(yǔ)音識(shí)別任務(wù)中的優(yōu)越性;文獻(xiàn)[8]驗(yàn)證了CNN在特征提取方面優(yōu)于DNN;而文獻(xiàn)[9]則通過(guò)大量實(shí)驗(yàn)詳細(xì)地驗(yàn)證了CNN聲學(xué)模型在低資源語(yǔ)音識(shí)別任務(wù)中優(yōu)于DNN聲學(xué)模型。CNN的局部卷積處理和池化采樣處理不僅可以從有限的特征中提取更為細(xì)致的分類(lèi)信息,還可以有效去除一些干擾信息,這些對(duì)訓(xùn)練數(shù)據(jù)有限的低資源聲學(xué)模型訓(xùn)練過(guò)程尤為重要。
在有限的訓(xùn)練條件下,充分利用更多的特征進(jìn)行建模是一種有效的方法,傳統(tǒng)的融合多特征的訓(xùn)練方法是直接對(duì)多種特征進(jìn)行拼接構(gòu)成超矢量訓(xùn)練數(shù)據(jù),該方法適用于DNN模型,并不適用于CNN模型,因?yàn)楫?dāng)卷積核跨越特征拼接交界處時(shí),計(jì)算所得結(jié)果毫無(wú)意義。
為了在低資源條件下充分利用更多特征進(jìn)行CNN聲學(xué)建模,本文提出一種可行的融合多特征的訓(xùn)練方法。該方法充分利用不同表達(dá)形式的特征,通過(guò)并行子網(wǎng)絡(luò)對(duì)多流特征進(jìn)行獨(dú)立的處理,最后使用全連接層對(duì)子網(wǎng)絡(luò)進(jìn)行融合。通過(guò)多特征流數(shù)據(jù)對(duì)網(wǎng)絡(luò)的并行訓(xùn)練,得到一種適合于低資源語(yǔ)音識(shí)別的CNN聲學(xué)模型。實(shí)驗(yàn)結(jié)果表明,并行的卷積層能夠?qū)⒎植疾町愝^大的不同特征空間規(guī)整到分布更為相近的特征空間,以利于后續(xù)處理,從而增加了聲學(xué)模型的有效訓(xùn)練數(shù)據(jù),該方法在未明顯增加訓(xùn)練參數(shù)的情況下,識(shí)別率不但優(yōu)于單特征識(shí)別系統(tǒng)的識(shí)別率,還優(yōu)于傳統(tǒng)的多特征拼接建模方法;其次,對(duì)每個(gè)子網(wǎng)絡(luò)均使用高資源語(yǔ)料進(jìn)行共享式的輔助訓(xùn)練時(shí),系統(tǒng)的識(shí)別率得到進(jìn)一步提升,驗(yàn)證了模型的泛化性。
1融合多流特征的CNN聲學(xué)模型
CNN是標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的一種變體網(wǎng)絡(luò)結(jié)構(gòu),不同于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)全連接層的結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò)包含了卷積(convolution)處理和池化(pooling)處理。
使用CNN對(duì)語(yǔ)音進(jìn)行建模時(shí),需要將輸入聲學(xué)特征組織成特征映射的形式,特征映射既可以是一維的也可以是二維的。根據(jù)文獻(xiàn)[9],通過(guò)提取特征的靜態(tài)、一階差分和二階差分三個(gè)分量形成初始的輸入特征映射。
根據(jù)文獻(xiàn)[5,9],頻移不變性比時(shí)移不變性更為重要,因此本文采用沿頻率軸的一維卷積形式建立CNN卷積層,通過(guò)卷積核在特征映射上的移動(dòng)實(shí)現(xiàn)對(duì)語(yǔ)音特征的卷積計(jì)算。如圖1所示,一個(gè)典型的CNN的卷積層通常包含卷積和池化采樣過(guò)程。
在訓(xùn)練數(shù)據(jù)有限的條件下,使用單一特征不足以訓(xùn)練得到良好的網(wǎng)絡(luò)參數(shù),進(jìn)而無(wú)法估計(jì)出較為準(zhǔn)確的后驗(yàn)概率。對(duì)此本文提出使用多種特征訓(xùn)練CNN。由于不同語(yǔ)音聲學(xué)特征的提取原理、算法不盡相同,通過(guò)卷積計(jì)算等深度處理,能夠從多角度獲取不同表達(dá)形式的同類(lèi)語(yǔ)音信息,即獲取到具有互補(bǔ)性表達(dá)形式的同類(lèi)聲學(xué)信息,因此有利于聲學(xué)建模。
1.1特征選擇與模型建立
當(dāng)前最經(jīng)典、使用最廣泛的多特征訓(xùn)練方法是將多類(lèi)特征進(jìn)行拼接,應(yīng)用倒譜均值方差規(guī)整(Cepstral Mean and Variance Normalization, CMVN)技術(shù)對(duì)拼接特征預(yù)處理,然后對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。該方法對(duì)于全連接層的DNN較為有效,然而當(dāng)使用CNN建模時(shí),卷積核跨越特征拼接交界計(jì)算所得結(jié)果毫無(wú)意義,因此常規(guī)的多特征訓(xùn)練方法不適用。為了更為有效地利用多特征信息進(jìn)行CNN聲學(xué)建模,提出一種基于并行式多特征訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)(如圖2)。首先使用多流特征進(jìn)行獨(dú)立的、并行式的子網(wǎng)絡(luò)訓(xùn)練,子網(wǎng)絡(luò)由卷積層構(gòu)成,它們分別對(duì)不同特征進(jìn)行深度處理,實(shí)現(xiàn)特征值規(guī)整;然后使用全連接層將多流子網(wǎng)絡(luò)的輸出匯聚在一起,使用三音子綁定狀態(tài)作為訓(xùn)練目標(biāo),構(gòu)成一個(gè)完整的聲學(xué)模型。
在特征選擇時(shí),考慮到底層聲學(xué)特征之間的互補(bǔ)性與相似性,為了使訓(xùn)練更具有實(shí)際意義,本文使用四種特征。具體來(lái)說(shuō),針對(duì)40維濾波器組(filter banks, fbanks)特征、257維功率譜(spectrogram)特征、13維梅爾頻率倒譜系數(shù)(MelFrequency Cepstral Coefficient, MFCC)特征和3維的基音周期(pitch)特征制定不同的CNN多訓(xùn)練方案。這些特征有的基于頻帶濾波計(jì)算,有的基于能量計(jì)算,還有的基于離散余弦變換(Discrete Cosine Transformation, DCT),表達(dá)形式較為不同,涵蓋長(zhǎng)時(shí)信息與短時(shí)信息,特征空間差異較大。
在特征輸入網(wǎng)絡(luò)前進(jìn)行預(yù)處理時(shí),首先對(duì)于維數(shù)較小的fbanks、MFCC、pitch等特征提取一階、二階差分分量并進(jìn)行前后5幀的拼接,這樣輸入時(shí)的特征映射數(shù)量均為33個(gè);對(duì)于維數(shù)較大的spectrogram特征,提取一階、二階差分分量,并只進(jìn)行前后1幀的拼接,這樣該特征進(jìn)行卷積時(shí)的輸入特征映射數(shù)量為9個(gè)??傊?,對(duì)于維數(shù)小的特征,單幀的細(xì)節(jié)信息較少,幀間的局部相關(guān)性較大,拼接幀數(shù)也就設(shè)置大一些;對(duì)于維數(shù)大的特征,單幀細(xì)節(jié)信息豐富,卷積時(shí)幀間的局部相關(guān)性較小,因此將拼接幀數(shù)設(shè)置小一些。
在模型構(gòu)建時(shí),對(duì)于并行網(wǎng)絡(luò)部分,將fbanks、MFCC、pitch等部分的子網(wǎng)絡(luò)均設(shè)置為 “卷積層池化采樣層卷積層”結(jié)構(gòu);對(duì)于spectrogram特征的子卷積網(wǎng)絡(luò),由于spectrogram特征維數(shù)很大,因此當(dāng)卷積映射的節(jié)點(diǎn)太多時(shí),其輸出向量存在冗余,導(dǎo)致參數(shù)過(guò)多不利于訓(xùn)練,因此對(duì)高維特征的子網(wǎng)絡(luò)部分再添加一個(gè)池化層進(jìn)行降采樣處理,這樣一來(lái),spectrogram特征子網(wǎng)絡(luò)結(jié)構(gòu)為“卷積層池化采樣層卷積層池化采樣層”。
1.2模型參數(shù)訓(xùn)練
為使CNN的訓(xùn)練過(guò)程更容易描述,將1×F卷積核用F個(gè)權(quán)值表示。這樣每一層卷積計(jì)算可以用矩陣相乘形式表示,設(shè)第k流特征的第l個(gè)卷積層的權(quán)值描述矩陣為Wk,l,該矩陣由所有局部卷積權(quán)值矩陣構(gòu)成,矩陣包含I×F行、J列,其中:F是一維卷積核所涵蓋節(jié)點(diǎn)數(shù)(構(gòu)成一個(gè)頻帶);I是每個(gè)頻帶內(nèi)對(duì)應(yīng)輸入特征映射的數(shù)量;J為卷積計(jì)算得到下一層的特征映射的數(shù)量。整體權(quán)值矩陣如式(1)所示。
1.3系統(tǒng)搭建方法
為了驗(yàn)證所提出模型的推廣性,本文不僅考慮單語(yǔ)言訓(xùn)練的情況,還借助文獻(xiàn)[10]的思想,考慮多語(yǔ)言條件下(目標(biāo)低資源+高資源輔助語(yǔ)言)中間層共享訓(xùn)練的方案。融合多流特征的CNN聲學(xué)建模方法主要由以下幾個(gè)步驟構(gòu)成:
步驟1構(gòu)建子網(wǎng)絡(luò)。
對(duì)每類(lèi)特征(只考慮特征種類(lèi),不考慮語(yǔ)言)建立相應(yīng)的子網(wǎng)絡(luò), fbanks、MFCC、pitch等部分的子網(wǎng)絡(luò)均設(shè)置為 “卷積層池化采樣層卷積層”結(jié)構(gòu);spectrogram特征子網(wǎng)絡(luò)結(jié)構(gòu)為“卷積層池化采樣層卷積層池化采樣層”。
步驟2構(gòu)建完整的網(wǎng)絡(luò)。
在并行子網(wǎng)絡(luò)之上串接兩個(gè)全連接層,然后按如下方法設(shè)置輸出層:
1)對(duì)于低資源單語(yǔ)言的情況,利用MFCC特征訓(xùn)練GMM,通過(guò)強(qiáng)制對(duì)齊(forcealignment),使用其中的三音子綁定狀態(tài)(senones)作為CNN的訓(xùn)練目標(biāo);
2)對(duì)于多語(yǔ)言的情況,對(duì)低資源語(yǔ)料和輔助訓(xùn)練語(yǔ)料分別使用MFCC特征訓(xùn)練隱馬爾可夫模型(Hidden Markov Model, GMM),通過(guò)強(qiáng)制對(duì)齊得到CNN的多輸出層。
步驟3模型參數(shù)訓(xùn)練。
按照1.1節(jié)的特征選擇方案對(duì)每類(lèi)特征進(jìn)行預(yù)處理,組織成特征映射的形式,準(zhǔn)備訓(xùn)練。
1)低資源單語(yǔ)言訓(xùn)練時(shí),對(duì)目標(biāo)訓(xùn)練集的每一幀語(yǔ)音提取所需的四種特征,將四種特征同時(shí)送入子網(wǎng)絡(luò),按照1.2節(jié)所描述的方法進(jìn)行參數(shù)訓(xùn)練,各自的特征訓(xùn)練對(duì)應(yīng)的子網(wǎng)絡(luò),全連接層則是共同訓(xùn)練。
2)多語(yǔ)言訓(xùn)練時(shí),對(duì)每種參與訓(xùn)練的語(yǔ)言的每一幀提取所需的四種特征,每種特征的子網(wǎng)絡(luò)接受來(lái)自所有參與訓(xùn)練的語(yǔ)言的數(shù)據(jù)。使用多語(yǔ)言特征共同訓(xùn)練中間層參數(shù),方法同文獻(xiàn)[10-11],在此不作贅述。其中多語(yǔ)言同類(lèi)特征獨(dú)立訓(xùn)練對(duì)應(yīng)的子網(wǎng)絡(luò),每種語(yǔ)言特征訓(xùn)練對(duì)應(yīng)的輸出層參數(shù)。
步驟4測(cè)試識(shí)別系統(tǒng)。
通過(guò)訓(xùn)練HMM,得到基于多特征訓(xùn)練的CNN聲學(xué)模型,然后搭建識(shí)別系統(tǒng),使用低資源測(cè)試數(shù)據(jù)完成識(shí)別性能測(cè)試。
2不同特征空間的相似性度量
之所以對(duì)不同特征采用不同子網(wǎng)絡(luò)并行處理,而不是直接將所有特征拼接在一起,是因?yàn)椴煌晫W(xué)特征的分布差異大,總體分布不規(guī)則。由于不同類(lèi)別的特征其維度不同,無(wú)法按傳統(tǒng)的歐氏距離進(jìn)行直接比較。但是在網(wǎng)絡(luò)參數(shù)的訓(xùn)練中,如果特征間的均值、方差相差較大,則訓(xùn)練樣本之間的幅值相差較大,進(jìn)而造成訓(xùn)練時(shí)的誤差信號(hào)波動(dòng)較大,不利于基于梯度下降的收斂;反之,若特征間的均值、方差越接近,則訓(xùn)練效果越好。因此,本文定義向量間的平均維度間距作為衡量不同特征空間相似度的評(píng)價(jià)指標(biāo),該指標(biāo)的計(jì)算類(lèi)似于歐氏距離的計(jì)算。dμ(i, j)為平均維度間均值距離,它表示第i類(lèi)和第j類(lèi)輸入聲學(xué)特征均值矢量的差異。對(duì)于維度為1×Ni的第i類(lèi)特征, fik(k=1,2,…,N1)表示該類(lèi)特征第k維數(shù)據(jù)的均值,這樣第i類(lèi)聲學(xué)特征中各維特征均值的向量fi=(fi1, fi2,…, fiNi);dσ2(i, j)為平均維度間方差距離,表示第i類(lèi)和第j類(lèi)輸入聲學(xué)特征方差矢量的差異,設(shè)vi表示第i類(lèi)聲學(xué)特征各維度方差的向量,這樣vi=(vi1,vi2,…,viNi)。它們的計(jì)算如式(9)所示:
由于一維卷積計(jì)算針對(duì)語(yǔ)音頻帶的局部信息進(jìn)行處理,因此在網(wǎng)絡(luò)底層設(shè)置合適的卷積核可以將原本在分布上相差很大的多種特征映射規(guī)整到更為相似的特征空間內(nèi)。使用Fi表示第一類(lèi)特征在子網(wǎng)絡(luò)中前向傳遞后的激活元輸出的均值向量,同理有Fi=(Fi1,F(xiàn)i2,…,F(xiàn)iMi);用Dμ(i, j)表示第i類(lèi)和第j類(lèi)子網(wǎng)絡(luò)激活元輸出特征平均維度間均值距離;使用Vi表示第一類(lèi)特征在子網(wǎng)絡(luò)中前向傳遞后的激活元輸出的均值向量, Vi=(Vi1,Vi2,…,ViMi),用Dσ2(i, j)表示第i類(lèi)和第j類(lèi)子網(wǎng)絡(luò)激活元輸出特征平均維度間方差距離。它們計(jì)算方法如式(10)所示:
正是由于不同流特征所包含元素的幅值得到了相似性的規(guī)整,因此多特征訓(xùn)練效果才優(yōu)于單特征訓(xùn)練效果,本文在實(shí)驗(yàn)部分也驗(yàn)證了這一點(diǎn)。
經(jīng)過(guò)子網(wǎng)絡(luò)規(guī)整后的特征進(jìn)入全連接層進(jìn)行融合訓(xùn)練時(shí),CNN高層網(wǎng)絡(luò)部分的參數(shù)可接受更多有效訓(xùn)練數(shù)據(jù)的訓(xùn)練,因此所得聲學(xué)模型的性能優(yōu)于單特征訓(xùn)練時(shí)的情況。訓(xùn)練時(shí),當(dāng)誤差信號(hào)傳遞至并行網(wǎng)絡(luò)部分時(shí),對(duì)應(yīng)的誤差信號(hào)傳遞至對(duì)應(yīng)的子網(wǎng)絡(luò)進(jìn)行相互獨(dú)立的訓(xùn)練,即子網(wǎng)絡(luò)的參數(shù)更新只與對(duì)應(yīng)特征計(jì)算得到的梯度相關(guān),串行的全連接層部分則由所有特征共同參與訓(xùn)練。
3實(shí)驗(yàn)與分析
3.1實(shí)驗(yàn)語(yǔ)料與評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)采用Vystadial 2013 English data和Vystadial 2013 Czech data兩種語(yǔ)料。Vystadial 2013 English data(Vystadial_en)是一類(lèi)開(kāi)源的英語(yǔ)語(yǔ)料庫(kù)[12],全部時(shí)長(zhǎng)41h,來(lái)源于人工信息服務(wù)系統(tǒng)的對(duì)話(huà)語(yǔ)音數(shù)據(jù);Vystadial 2013 Czech data(Vystadial_cz)是開(kāi)源的捷克語(yǔ)語(yǔ)料庫(kù)[13],全部時(shí)長(zhǎng)15h,來(lái)源于:Call Friend電話(huà)服務(wù)的語(yǔ)音數(shù)據(jù)、Repeat After Me的語(yǔ)音數(shù)據(jù)和Public Transport Info的口語(yǔ)對(duì)話(huà)系統(tǒng)的語(yǔ)音數(shù)據(jù)。
實(shí)驗(yàn)評(píng)價(jià)指標(biāo)有三個(gè)。
第一個(gè)是識(shí)別性能指標(biāo),使用連續(xù)語(yǔ)音識(shí)別中的詞錯(cuò)誤率(Word Error Rate,WER)來(lái)表示。設(shè)N為語(yǔ)料庫(kù)人工標(biāo)注文本中詞(全部正確詞)的數(shù)量,W為解碼連續(xù)語(yǔ)音與人工標(biāo)注作對(duì)比統(tǒng)計(jì)出的插入詞、刪除詞、替代詞的個(gè)數(shù),r表示W(wǎng)ER,將r定義為兩者的比值,并化為百分率,如式(12)所示:
分兩部分計(jì)算參數(shù)數(shù)量P:一部分為卷積層的參數(shù),一部分為全連接層和Softmax層參數(shù)。對(duì)于第一部分的權(quán)值與偏移量的計(jì)算,式中ci為該層一維卷積核所包含的節(jié)點(diǎn)數(shù),Ni表示該層特征映射的個(gè)數(shù);第二部分較為簡(jiǎn)單,只需根據(jù)層間節(jié)點(diǎn)數(shù)即可計(jì)算得到全連接層參數(shù)數(shù)量。
第三個(gè)評(píng)價(jià)指標(biāo)為多特征間的平均特征維度差異,使用2.1節(jié)中定義的平均維度間均值距離和平均維度間方差距離兩個(gè)指標(biāo)來(lái)衡量。
3.2實(shí)驗(yàn)工具與硬件條件
實(shí)驗(yàn)使用Kaldi工具包[14]進(jìn)行數(shù)據(jù)準(zhǔn)備、底層聲學(xué)特征和高層聲學(xué)特征的提取、語(yǔ)言模型的聲學(xué)模型的訓(xùn)練與解碼。聲學(xué)模型訓(xùn)練、解碼矩陣分解的過(guò)程基于12核3.07GHz Xeon CPU實(shí)現(xiàn),神經(jīng)網(wǎng)絡(luò)的訓(xùn)練則基于單核Quadro 600 GPU進(jìn)行計(jì)算。
3.3基線(xiàn)系統(tǒng)
首先設(shè)定低資源語(yǔ)料環(huán)境,選取Vystadial_cz中的1h訓(xùn)練語(yǔ)料作為訓(xùn)練集,總共1504句話(huà);再選取Vystadial_cz語(yǔ)料庫(kù)測(cè)試語(yǔ)音部分的30min左右的數(shù)據(jù)作為測(cè)試集,包含666句話(huà),共3910個(gè)待識(shí)別詞。基于Vystadial_cz語(yǔ)料庫(kù)中全部訓(xùn)練語(yǔ)料的標(biāo)注文本構(gòu)建發(fā)音字典并訓(xùn)練二元語(yǔ)言模型(Bigram Language Model);輔助訓(xùn)練語(yǔ)料為全部Vystadial_en訓(xùn)練語(yǔ)料的一半(約19.7h)。
為得到基線(xiàn)低資源單特征訓(xùn)練的DNN與CNN聲學(xué)模型,首先訓(xùn)練GMM聲學(xué)模型以獲取網(wǎng)絡(luò)訓(xùn)練目標(biāo),對(duì)1h 的Vystadial_cz語(yǔ)料數(shù)據(jù)提取13維MFCC特征,訓(xùn)練基于線(xiàn)性判別分析(Linear Discriminant Analysis, LDA)和最大似然線(xiàn)性變換(Maximum Likelihood Linear Transform, MLLT)的三音子GMM聲學(xué)模型(13維MFCC特征進(jìn)行9幀拼接,LDA降到40維),該模型高斯混元數(shù)為19200個(gè);然后利用特征空間最大似然線(xiàn)性回歸(featurespace Maximum Likelihood Linear Regression, fMLLR)技術(shù)進(jìn)行說(shuō)話(huà)人自適應(yīng)訓(xùn)練(Speaker Adaptive Training,SAT),從而構(gòu)成LDA+MLLT+SAT的GMM聲學(xué)模型。通過(guò)對(duì)該模型強(qiáng)制對(duì)齊的方式,得到DNN和CNN的訓(xùn)練目標(biāo)。這樣,它們的Softmax層均含有915個(gè)節(jié)點(diǎn)。
訓(xùn)練基線(xiàn)DNN,將fbanks特征進(jìn)行左右五幀的拼接,因此輸入層有440個(gè)節(jié)點(diǎn),設(shè)置4個(gè)隱含層,每個(gè)隱含層節(jié)點(diǎn)均為1024個(gè)。訓(xùn)練集和交叉驗(yàn)證(crossvalidation)集各占訓(xùn)練數(shù)據(jù)的90%和10%。對(duì)每個(gè)隱含層(包含BN層)進(jìn)行20輪的受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)預(yù)訓(xùn)練,然后利用BP算法進(jìn)行全局參數(shù)的微調(diào),在訓(xùn)練過(guò)程中,學(xué)習(xí)速率設(shè)置初始值為0.08,每當(dāng)相鄰兩輪訓(xùn)練的驗(yàn)證誤差小于0.1%時(shí)就將學(xué)習(xí)速率衰減一半,當(dāng)衰減之后相鄰兩輪的驗(yàn)證誤差再次小于0.1%時(shí)訓(xùn)練停止。此外minibatch尺寸設(shè)為256。
訓(xùn)練基線(xiàn)CNN,首先提取fbanks特征的一階、二階差分量,然后進(jìn)行5幀的拼接,這樣輸入的特征映射節(jié)點(diǎn)共有1320個(gè)。網(wǎng)絡(luò)同樣設(shè)置4個(gè)中間計(jì)算層,其中包含底層的兩個(gè)卷積層和高層的兩個(gè)全連接層。全連接層的節(jié)點(diǎn)數(shù)為1024;對(duì)于第一個(gè)卷積層,設(shè)置卷積核尺寸為1×8,沿頻帶的卷積移動(dòng)步長(zhǎng)為1,設(shè)置卷積特征映射的數(shù)量為128(即卷積所得特征映射數(shù)量);對(duì)于第二個(gè)卷積層,設(shè)置卷積核尺寸為1×4,沿頻帶的卷積移動(dòng)步長(zhǎng)為1,設(shè)置卷積特征映射的數(shù)量為256。在第一個(gè)卷積層和第二個(gè)卷積層之間設(shè)置一個(gè)池化采樣層,池化采樣尺寸為3,移動(dòng)步長(zhǎng)也為3,這樣節(jié)點(diǎn)數(shù)降采樣為原節(jié)點(diǎn)數(shù)的三分之一。學(xué)習(xí)速率和minibatch設(shè)置同DNN基線(xiàn)系統(tǒng),網(wǎng)絡(luò)不進(jìn)行預(yù)訓(xùn)練。
此外,訓(xùn)練基于傳統(tǒng)多特征拼接方法的神經(jīng)網(wǎng)絡(luò)作為對(duì)比的多特征基線(xiàn)系統(tǒng)。根據(jù)1.2節(jié)的分析,CNN不適用于多特征拼接的訓(xùn)練方法,因此將該方法應(yīng)用于DNN。為得到最優(yōu)結(jié)果,使用fbanks、spectrogram、MFCC、pitch等四種特征進(jìn)行多特征拼接,實(shí)驗(yàn)表明當(dāng)fbanks、MFCC、pitch特征進(jìn)行11幀拼接,spectrogram特征進(jìn)行3幀拼接時(shí)可得最優(yōu)結(jié)果。拼接后對(duì)特征超矢量作CMVN,DNN訓(xùn)練設(shè)置與基線(xiàn)DNN相同。
表1前三行為基線(xiàn)系統(tǒng)實(shí)驗(yàn)結(jié)果,可知在輸入相同、網(wǎng)絡(luò)結(jié)構(gòu)相似的情況下,基于CNN聲學(xué)模型識(shí)別系統(tǒng)的詞錯(cuò)誤率相對(duì)DNN聲學(xué)模型識(shí)別系統(tǒng)的詞錯(cuò)誤率降低了272%(6276%→6105%),且參數(shù)數(shù)量降低約2169%(544×106→426×106);而傳統(tǒng)的多特征拼接訓(xùn)練方法使得DNN識(shí)別系統(tǒng)詞錯(cuò)誤率相對(duì)降低155%(6276%→6180%),但是參數(shù)規(guī)模增大很多。
3.4基于多流特征訓(xùn)練的實(shí)驗(yàn)結(jié)果
在多流特征訓(xùn)練聲學(xué)模型的實(shí)驗(yàn)中,根據(jù)1.2節(jié)圖2所描述的CNN網(wǎng)絡(luò)結(jié)構(gòu),引入3維pitch、13維MFCC以及257維spectrogram特征,訓(xùn)練聲學(xué)模型搭建識(shí)別系統(tǒng)。設(shè)計(jì)五個(gè)實(shí)驗(yàn)方案,每種實(shí)驗(yàn)方案均在基線(xiàn)系統(tǒng)網(wǎng)絡(luò)的基礎(chǔ)上加入并行子網(wǎng)絡(luò)。
方案一引入3維pitch特征與13維MFCC特征(11幀拼接,計(jì)算一階、二階差分量,下同),加入一個(gè)并行的全連接子網(wǎng)絡(luò)(與卷積子網(wǎng)絡(luò)作對(duì)比),包含兩層,節(jié)點(diǎn)數(shù)均為200,其余參數(shù)設(shè)置與基線(xiàn)CNN相同。
方案二引入13維MFCC特征構(gòu)建并行卷積層,結(jié)構(gòu)為“卷積池化采樣卷積”,設(shè)置第一層和第二層的卷積核分別為1×5和1×2,卷積特征映射數(shù)量分別為64和128,卷積移動(dòng)步長(zhǎng)均為1,采樣尺寸為3,采樣移動(dòng)步長(zhǎng)為3,其余參數(shù)設(shè)置與基線(xiàn)CNN相同。
方案三引入13維MFCC特征與3維pitch特征,將兩類(lèi)特征視為同一流特征,構(gòu)建共同的卷積層,訓(xùn)練參數(shù)設(shè)置與方案二相同。
方案四引入257維spectrogram特征(實(shí)驗(yàn)表明該特征維數(shù)過(guò)大,當(dāng)拼接幀數(shù)多時(shí)性能反而會(huì)降低,因此只進(jìn)行3幀的拼接,計(jì)算一階、二階差分量),同樣對(duì)該特征設(shè)置兩個(gè)并行卷積層和一個(gè)采樣層,第一層和第二層的卷積核分別為1×9和1×3,卷積特征映射數(shù)量分別為8和16,卷積移動(dòng)步長(zhǎng)均為1,采樣尺寸為3,采樣移動(dòng)步長(zhǎng)為3,其余參數(shù)設(shè)置與基線(xiàn)CNN相同。
方案五引入257維spectrogram特征、13維MFCC特征和3維pitch特征加號(hào)改成“和”?不知道后兩者是表示一組么還是?---作者表示無(wú)誤,對(duì)基線(xiàn)系統(tǒng)網(wǎng)絡(luò)添加兩個(gè)并行的卷積子網(wǎng)絡(luò),其中spectrogram特征對(duì)應(yīng)的子網(wǎng)絡(luò)與方案四相同,而13維MFCC+3維pitch特征對(duì)應(yīng)的子網(wǎng)絡(luò)與方案三相同,其余參數(shù)設(shè)置與基線(xiàn)CNN相同。
方案一到方案五的實(shí)驗(yàn)結(jié)果如表1所示。比較方案一和方案三可知,全連接層對(duì)特征的規(guī)整變換效果不如卷積層;比較方案二、三、四、五,可知隨著特征流的增多,聲學(xué)模型性能越來(lái)越好,并且網(wǎng)絡(luò)的訓(xùn)練參數(shù)并沒(méi)有顯著增多。當(dāng)引入四種特征對(duì)CNN聲學(xué)模型進(jìn)行改進(jìn)時(shí)(即方案五)識(shí)別率最優(yōu),對(duì)比基線(xiàn)CNN系統(tǒng),以增加1972%(426×106→510×106)參數(shù)數(shù)量為代價(jià)換取了詞錯(cuò)誤率208%(6105%→5978%)的相對(duì)降低,而且由于在低資源數(shù)據(jù)條件下進(jìn)行訓(xùn)練,因此CNN訓(xùn)練時(shí)間并未明顯增加。對(duì)比基線(xiàn)多特征拼接DNN,不但識(shí)別詞錯(cuò)誤率降低327%(6180%→5978%),而且還減少了2044%(641×106→510×106)的參數(shù)數(shù)量。
再根據(jù)平均特征維度均值、方差距離的計(jì)算方法,對(duì)比各特征間的差異性,結(jié)果如表2。對(duì)比表中卷積前后的結(jié)果,發(fā)現(xiàn)卷積子網(wǎng)絡(luò)(CONV)有效降低了不同維度特征之間的均值、方差差異性,尤其每一維特征方差間差異得到極大降低。而特征元素幅值的差異性越小,特征分布越相似,因此該方法能有效起到規(guī)整特征空間的作用。對(duì)于低資源語(yǔ)音識(shí)別而言,該方法等效于增加有效訓(xùn)練樣本,低資源聲學(xué)模型的訓(xùn)練效果必然會(huì)得到提升。綜上所述,使用多特征構(gòu)建并行子網(wǎng)絡(luò)的方法有利于提升低資源下CNN聲學(xué)模型訓(xùn)練效果。
3.5引入多語(yǔ)言訓(xùn)練時(shí)多特征CNN模型的擴(kuò)展實(shí)驗(yàn)
在該部分實(shí)驗(yàn)中,引入高資源訓(xùn)練語(yǔ)料進(jìn)行多語(yǔ)言共享訓(xùn)練,驗(yàn)證該多特征訓(xùn)練CNN模型對(duì)多語(yǔ)言訓(xùn)練的擴(kuò)展性。
設(shè)計(jì)兩種實(shí)驗(yàn)方案,方案六在基線(xiàn)CNN的基礎(chǔ)上引入約19.7h的英語(yǔ)輔助語(yǔ)料,網(wǎng)絡(luò)的中間層參數(shù)共享,且擁有兩個(gè)輸出層;方案七在方案五的基礎(chǔ)上引入同樣的英語(yǔ)輔助語(yǔ)料,
不同語(yǔ)料的相同種特征混合在一起,送入同一個(gè)子網(wǎng)絡(luò)進(jìn)行共享訓(xùn)練。對(duì)于高資源英語(yǔ)語(yǔ)料部分的網(wǎng)絡(luò)的構(gòu)造,首先對(duì)該部分訓(xùn)練數(shù)據(jù)訓(xùn)練基于LDA+MLLT+SAT的英語(yǔ)GMM聲學(xué)模型,然后通過(guò)模型強(qiáng)制對(duì)齊得到輸出層的訓(xùn)練目標(biāo),這樣英語(yǔ)部分的CNN輸出層節(jié)點(diǎn)數(shù)為1031個(gè)。
對(duì)比基線(xiàn)CNN與方案六,可以證明使用單特征時(shí)多語(yǔ)言訓(xùn)練對(duì)CNN的有效性;對(duì)比方案五和方案七,說(shuō)明基于多特征訓(xùn)練結(jié)構(gòu)的CNN在引入多語(yǔ)言訓(xùn)練后得到了更大的識(shí)別性能增益。這些實(shí)驗(yàn)都說(shuō)明本文所提出的基于多特征的CNN聲學(xué)模型對(duì)于單語(yǔ)言、多語(yǔ)言訓(xùn)練數(shù)據(jù)都適用,具有一定的泛化能力。此外,對(duì)比實(shí)驗(yàn)方案五和方案六,發(fā)現(xiàn)多特征訓(xùn)練與多語(yǔ)言訓(xùn)練的結(jié)果相差無(wú)幾,更加說(shuō)明子網(wǎng)絡(luò)對(duì)不同特征進(jìn)行規(guī)整等效于增加了有效的訓(xùn)練數(shù)據(jù)。
綜上所述,方案七得到了最好的識(shí)別率,它的詞錯(cuò)誤率相對(duì)基線(xiàn)DNN系統(tǒng)降低了717%(6276%→5826%),體現(xiàn)了CNN建模相對(duì)DNN建模的模型優(yōu)越性;將詞錯(cuò)誤率相對(duì)基線(xiàn)CNN系統(tǒng)降低了457%(6105%→5826%),體現(xiàn)了多特征訓(xùn)練相對(duì)于單特征訓(xùn)練的優(yōu)越性;同時(shí)相對(duì)基線(xiàn)多特征拼接DNN系統(tǒng)的識(shí)別詞錯(cuò)誤率和參數(shù)規(guī)模分別降低了573%(6180%→5826%)和390%(641×106→616×106),體現(xiàn)出本文多特征訓(xùn)練方法相對(duì)于傳統(tǒng)特征拼接方法的優(yōu)越性。
4結(jié)語(yǔ)
本文針對(duì)低資源條件下的CNN聲學(xué)模型進(jìn)行改進(jìn),從網(wǎng)絡(luò)結(jié)構(gòu)入手,提出了一種可行的融合多流特征的訓(xùn)練方法。為了充分利用低資源訓(xùn)練數(shù)據(jù)的多種特征表達(dá),在底層構(gòu)建并行卷積子網(wǎng)絡(luò),然后通過(guò)全連接的方式進(jìn)行多特征流的融合,得到一種適用于CNN的多特征網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)表明,并行的子網(wǎng)絡(luò)對(duì)不同特征起到了特征空間規(guī)整的作用,該方法相對(duì)所有單特征基線(xiàn)系統(tǒng)的識(shí)別率實(shí)現(xiàn)了有效的提升,相對(duì)于傳統(tǒng)的多特征拼接融合訓(xùn)練方法,不但有效提升了識(shí)別率,還降低了參數(shù)規(guī)模。實(shí)驗(yàn)還表明,該方法對(duì)多語(yǔ)言共享訓(xùn)練方式同樣適用,驗(yàn)證了該模型具有一定的擴(kuò)展性。
參考文獻(xiàn):
[1]
HINTON G, LI D, DONG Y, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups [J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.
[2]
DAHL G E, YU D, DENG L, et al. Contextdependent pretrained deep neural networks for large vocabulary speech recognition [J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(1): 30-42
[3]
ABDELHAMID O, MOHAMED AR, JIANG H, et al. Applying convolutional neural networks concepts to hybrid NNHMM model for speech recognition [C]// ICASSP 2012: Proceedings of the 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2012: 4277-4280.
[4]
ABDELHAMID O, MOHAMED AR, JIANG H, et al. Convolutional neural networks for speech recognition [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2014, 22(10): 1533-1545.
[5]
ABDELHAMID O, LI DENG, YU D. Exploring convolutional neural network structures and optimization techniques for speech recognition [C]// INTERSPEECH 2013: Proceedings of the International Speech Communication Association Annual Conference. Lyon, France: International Speech Communication Association, 2013: 3366-3370.
ABDELHAMID O, DENG L, YU D. Exploring convolutional neural network structures and optimization techniques for speech recognition [EB/OL]. [20160105]. https://www.researchgate.net/publication/264859599_Exploring_Convolutional_Neural_Network_Structures_and_Optimization_Techniques_for_Speech_Recognition.
[6]
SAINATH T N, MOHAMED AR, KINGSBURY B, et al. Deep convolutional neural networks for LVCSR [C]// ICASSP 2013: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 8614-8618.
[7]
SAINATH T N, MOHAMED AR, KINGSBURY B, et al. Improvements to deep convolutional neural networks for LVCSR [C]// ASRU 2013: Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2013: 315-320.
[8]
MIAO Y J, METZE F. Improving languageuniversal feature extraction with deep maxout and convolutional neural networks [C]// INTERSPEECH 2014: Proceedings of the 2014 International Speech Communication Association Annual Conference. Singapore: International Speech Communication Association, 2013: 800-804.
MIAO Y J, METZE F. Improving languageuniversal feature extraction with deep maxout and convolutional neural networks [EB/OL]. [20151122]. http://isl.anthropomatik.kit.edu/cmu-kit/downloads/Improving_Language-Universal_Feature_Extractions_with_Deep_Maxout_and_Convolutional_Neural_Networks.pdf.
[9]
CHAN W, LANE I. Deep convolutional neural networks for acoustic modeling in low resource languages [C]// ICASSP 2015: Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2015: 2056-2060.
[10]
HUANG J T, LI J Y, YU D, et al. Cross language knowledge transfer using multilingual deep neural network with shared hidden layers [C]// ICASSP 2013: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 7304-7308.
[11]
MIAO Y J, METZE F. Improving lowresource CDDNNHMM using dropout and multilingual DNN training [C]// INTERSPEECH 2013: Proceedings of the International Speech Communication Association Annual Conference. Lyon, France: International Speech Communication Association, 2013: 2237-2241.
MIAO Y, METZE F. Improving lowresource CDDNNHMM using dropout and multilingual DNN training [EB/OL]. [20151122]. http://www.iscaspeech.org/archive/archive_papers/interspeech_2013/i13_2237.pdf.
[12]
KORVAS M, PLTEK O, DUEK O, et al. Vystadial 2013—English data [EB/OL]. [20151012]. https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00097C0000002346714.
[13]
KORVAS M, PLTEK O, DUEK O, et al. Vystadial 2013—Czech data [EB/OL]. [20151112]. https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00097C0000002346706?localeattribute=cs.
[14]
POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit [C]// ASRU 2013: Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2011: 1-4.
POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit [EB/OL]. [20151112]. https://www.researchgate.net/publication/228828379_The_Kaldi_speech_recognition_toolkit.