王勇和,飛 龍,高光來
(內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特 010021)
語(yǔ)音是人類最自然、便捷的交流方式,而語(yǔ)音識(shí)別技術(shù),就是讓機(jī)器能夠“聽懂”人類的語(yǔ)言并將語(yǔ)音信號(hào)轉(zhuǎn)化為對(duì)應(yīng)的文本或命令?;诟咚够旌夏P汀[馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Models,GMM-HMM)的語(yǔ)音識(shí)別框架在很長(zhǎng)一段時(shí)間都是語(yǔ)音識(shí)別系統(tǒng)的主導(dǎo)框架,其核心就是用GMM對(duì)語(yǔ)音的觀察概率進(jìn)行建模,而用HMM對(duì)語(yǔ)音的轉(zhuǎn)移概率進(jìn)行建模[1]。近年來,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)[2]的研究和應(yīng)用極大地推動(dòng)了語(yǔ)音識(shí)別的發(fā)展,相比傳統(tǒng)的基于GMM-HMM的語(yǔ)音識(shí)別系統(tǒng),其最大的改變是采用DNN替換GMM對(duì)語(yǔ)音的觀察概率進(jìn)行建模來計(jì)算HMM狀態(tài)的后驗(yàn)概率。根據(jù)文獻(xiàn)[3],基于DNN-HMM的聲學(xué)模型采用固定長(zhǎng)度的輸入窗對(duì)語(yǔ)音的上下文特征進(jìn)行建模,而語(yǔ)音是一種各幀之間具有很強(qiáng)相關(guān)性的復(fù)雜時(shí)變信號(hào),所以這種方法不能充分利用語(yǔ)音的上下文時(shí)序信息。
相比DNN,時(shí)延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)[4]同樣是一種前饋網(wǎng)絡(luò)架構(gòu),它對(duì)每個(gè)隱藏層的輸出都在時(shí)域進(jìn)行擴(kuò)展,即每個(gè)隱藏層接收到的輸入不僅是前一層在當(dāng)前時(shí)刻的輸出,還有前一層在之前和之后的某些時(shí)刻的輸出。在文獻(xiàn)[5]中,通過選擇正確的時(shí)間步長(zhǎng)和對(duì)隱藏層輸出進(jìn)行降采樣,TDNN可以從輸入上下文中的所有時(shí)間步長(zhǎng)提取足夠語(yǔ)音特征信息。因此,TDNN會(huì)參考前一層網(wǎng)絡(luò)的歷史輸出,可以對(duì)更長(zhǎng)的歷史信息進(jìn)行建模而不能對(duì)未來信息進(jìn)行建模。Zhang等人[6-7]提出了一種更簡(jiǎn)單的“記憶”存儲(chǔ)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即前饋型序列記憶網(wǎng)絡(luò)(Feed-forward Sequential Memory Network,F(xiàn)SMN),已被證明在大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)中具有比DNN和長(zhǎng)短時(shí)記憶模塊(Long-Short Term Memory,LSTM)更好的性能。FSMN是在DNN隱藏層旁邊引入“記憶”模塊的多層前饋神經(jīng)網(wǎng)絡(luò)模型。該“記憶”模塊用于臨時(shí)存儲(chǔ)固定大小的上下文信息作為短期記憶機(jī)制,能夠以時(shí)間序列學(xué)習(xí)長(zhǎng)期依賴性信息。在本文中,TDNN融合FSMN的網(wǎng)絡(luò)結(jié)構(gòu)被應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型。
目前,在中國(guó)內(nèi)蒙古自治區(qū)、蒙古國(guó)及周邊地區(qū)大約有600萬(wàn)人將蒙古語(yǔ)作為第一或第二官方語(yǔ)言,但是蒙古語(yǔ)語(yǔ)音識(shí)別研究仍處于初始階段。高光來等[8]在2006年首次構(gòu)建了蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng),在文獻(xiàn)[9-10]中進(jìn)一步對(duì)聲學(xué)模型進(jìn)行優(yōu)化和設(shè)計(jì)。在文獻(xiàn)[11]中,飛龍等人提出了基于詞干的蒙古語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)方法,并使用分割的方法在蒙古語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別中取得了較好的效果[12]。在文獻(xiàn)[13]中,張暉等人在蒙古語(yǔ)語(yǔ)音識(shí)別研究中引入了基于DNN的聲學(xué)模型,獲得了顯著的性能提升。最近,基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型廣泛應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別中,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和長(zhǎng)短時(shí)記憶模塊等,獲得比DNN更好的識(shí)別結(jié)果[14]。然而,與其他語(yǔ)言如中文和英文相比,蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型仍有很大的優(yōu)化空間。
為進(jìn)一步提高蒙古語(yǔ)語(yǔ)音識(shí)別性能,本文首先將TDNN融合FSMN應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)聲學(xué)模型,通過對(duì)長(zhǎng)序列語(yǔ)音幀進(jìn)行建模來充分挖掘上下文相關(guān)信息。其次,F(xiàn)SMN中“記憶”模塊用于存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的歷史信息和未來信息,本文通過用“記憶”模塊中不同的歷史和未來語(yǔ)音幀信息長(zhǎng)度對(duì)模型進(jìn)行建模,分析其對(duì)蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)性能的影響。最后,研究了不同隱藏層數(shù)目和每個(gè)隱藏層節(jié)點(diǎn)數(shù)對(duì)融合的TDNN-FSMN模型性能的影響。
TDNN是一種多層(通常三個(gè)以上)前饋神經(jīng)網(wǎng)絡(luò)模型,傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)每個(gè)隱藏層的輸入都是前一層網(wǎng)絡(luò)的輸出,而TDNN在網(wǎng)絡(luò)傳播的過程中對(duì)各個(gè)隱藏層的輸出也做了擴(kuò)展,它將隱藏層的當(dāng)前輸出與其前后若干時(shí)刻的輸出拼接在一起,作為下一個(gè)隱藏層的輸入。因此,TDNN每個(gè)隱藏層的輸入會(huì)參考前一層網(wǎng)絡(luò)的歷史輸出,可以對(duì)更長(zhǎng)的歷史信息進(jìn)行建模。
傳統(tǒng)的TDNN每一個(gè)時(shí)間步長(zhǎng)上,隱藏層的激活函數(shù)都會(huì)被計(jì)算一次。因此,在相鄰時(shí)間步長(zhǎng)中,大量的上下文相同信息被重復(fù)計(jì)算,大大增加了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練復(fù)雜度。而TDNN相鄰節(jié)點(diǎn)之間的變化可能很小,包含了大量的重復(fù)信息,因此可以每隔幾幀合并計(jì)算一次結(jié)果,從而加速訓(xùn)練和解碼過程。在文獻(xiàn)[5]中,提出一種在TDNN訓(xùn)練中采用降采樣技術(shù)來減小模型計(jì)算復(fù)雜度,通過選擇合適的時(shí)間步長(zhǎng)來大幅減少運(yùn)算量,同時(shí)不能使所有的歷史信息都可以被網(wǎng)絡(luò)學(xué)習(xí)到。圖1表示常規(guī)TDNN(實(shí)邊+虛邊)和降采樣TDNN(實(shí)邊)結(jié)構(gòu)圖。傳統(tǒng)TDNN每個(gè)隱藏層的隱藏層單元(實(shí)邊+虛邊)都會(huì)被計(jì)算,而且相鄰時(shí)間步長(zhǎng)會(huì)重復(fù)計(jì)算隱藏層單元。采用降采樣技術(shù)的TDNN在每個(gè)隱藏層只會(huì)計(jì)算一定時(shí)間間隔的隱藏層單元(實(shí)邊),不僅能夠?qū)﹂L(zhǎng)時(shí)間依賴性的語(yǔ)音信號(hào)進(jìn)行建模,而且模型復(fù)雜度較傳統(tǒng)TDNN有大幅度降低。
前饋型序列記憶網(wǎng)絡(luò)是一種含有多個(gè)隱藏層的前饋神經(jīng)網(wǎng)絡(luò)。相比傳統(tǒng)的DNN結(jié)構(gòu),F(xiàn)SMN在其隱藏層旁邊增加了一個(gè)稱為“記憶塊”的模塊,這些“記憶塊”用于存儲(chǔ)語(yǔ)音序列中與當(dāng)前幀相關(guān)的歷史關(guān)聯(lián)信息以及未來關(guān)聯(lián)信息。這些信息使得FSMN可以對(duì)語(yǔ)音序列中的長(zhǎng)期相關(guān)性信息進(jìn)行建模。圖2表示在隱藏層中添加兩個(gè)“記憶塊”的FSMN結(jié)構(gòu)圖。
給定序列w1=(x11,x12,…,x1N),X={x1,x2,…,xt},每個(gè)xt∈X表示時(shí)間t的輸入數(shù)據(jù)。相應(yīng)的隱藏層輸出表示為H={h1,h2,…,ht}。圖2即為“記憶塊”的結(jié)構(gòu)示意圖,當(dāng)前語(yǔ)音幀ht及其前N1幀的輸出和后N2幀的輸出被計(jì)算到固定大小維度,并將其與當(dāng)前隱藏層的輸出一起作為下一個(gè)隱藏層的輸入。
圖1 TDNN結(jié)構(gòu)圖
圖2 FSMN模型
圖3 “記憶塊”結(jié)構(gòu)圖
根據(jù)要使用的編碼方法,編碼系數(shù)a可以初始化為標(biāo)量系數(shù)或向量系數(shù)。
(1) 如果編碼系數(shù)a設(shè)置為標(biāo)量,則FSMN稱為標(biāo)量FSMN(簡(jiǎn)稱sFSMN),如式(1)所示。
(1)
(2) 如果編碼系數(shù)a設(shè)置為向量,則FSMN稱為向量FSMN(簡(jiǎn)稱vFSMN),如式(2)所示。
(2)
由于vFSMN具有更好的建模能力,因此在本文中采用了vFSMN,簡(jiǎn)稱為FSMN。
本文中,TDNN與FSMN相融合的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)模型。TDNN在網(wǎng)絡(luò)傳播過程中對(duì)各個(gè)隱藏層的輸出做了擴(kuò)展,傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)每個(gè)隱藏層的輸入都是前一層網(wǎng)絡(luò)的輸出,TDNN則會(huì)參考前一層網(wǎng)絡(luò)的歷史輸出,能對(duì)更長(zhǎng)的歷史信息進(jìn)行建模,而且深層次的TDNN網(wǎng)絡(luò)結(jié)構(gòu)可以更加有效地提取訓(xùn)練數(shù)據(jù)中高層次信息的特征。雙向FSMN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在隱藏層旁增加了一個(gè)稱為“記憶塊”的模塊,用于存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的歷史信息和未來信息。與循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)一樣,網(wǎng)絡(luò)傳播過程中可以學(xué)習(xí)到歷史信息和未來信息。不同的是,F(xiàn)SMN采用非循環(huán)的前饋結(jié)構(gòu),不需要像循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)那樣必須等待語(yǔ)音輸入結(jié)束才能對(duì)當(dāng)前語(yǔ)音幀計(jì)算,其只需等待有限長(zhǎng)度的未來語(yǔ)音幀輸入即可。本文結(jié)合TDNN與FSMN的優(yōu)點(diǎn),將其融合應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型。
如圖4所示,TDNN與FSMN交替融合,包含六個(gè)隱藏層。在TDNN隱藏層中,使用{-n,m}表示將當(dāng)前幀的歷史第n幀、當(dāng)前幀的未來第m幀和當(dāng)前幀拼接在一起作為下個(gè)網(wǎng)絡(luò)層的輸入。假設(shè)t表示當(dāng)前幀,在TDNN1(隱藏層1),將幀{t-2,t-1,t,t+1,t+2}拼接在一起作為下一個(gè)隱藏層的輸入。在TDNN2和TDNN3處,將幀{t-3,t+3}拼接在一起作為下一個(gè)隱藏層的輸入。因此,在網(wǎng)絡(luò)的最高層,至少可以學(xué)習(xí)到上下文相關(guān)的8幀歷史信息及8幀未來信息。
圖4 TDNN-FSMN結(jié)構(gòu)圖
本文采用的蒙古語(yǔ)語(yǔ)音庫(kù)是由193個(gè)說話人錄制完成,其中采樣率設(shè)為16kHz,每采樣點(diǎn)進(jìn)行16bit量化,聲道為單聲道。語(yǔ)音庫(kù)包含69 781句蒙古語(yǔ)朗讀語(yǔ)音數(shù)據(jù),總時(shí)長(zhǎng)大約有78h,每句話時(shí)長(zhǎng)為5~10s。實(shí)驗(yàn)中隨機(jī)選擇88%的語(yǔ)音數(shù)據(jù)作為訓(xùn)練集,12%的語(yǔ)音數(shù)據(jù)作為測(cè)試集。發(fā)音詞典由38 107個(gè)單詞列表構(gòu)成。對(duì)于語(yǔ)言模型,本文從蒙古語(yǔ)網(wǎng)站搜集大約8 500萬(wàn)單詞的文本進(jìn)行3-gram語(yǔ)言模型訓(xùn)練。
本文基于Kaldi[15]語(yǔ)音識(shí)別開發(fā)平臺(tái)搭建了蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)。采用MFCC作為識(shí)別的特征參數(shù)。同時(shí),對(duì)語(yǔ)音特征進(jìn)行倒譜均值方差歸一化(Cepstrum Mean Variance Normalization,CMVN)使得帶噪語(yǔ)音特征參數(shù)的概率密度函數(shù)(Probability Density Function,PDF)更接近于純凈語(yǔ)音的概率密度函數(shù),以減少訓(xùn)練語(yǔ)料與測(cè)試語(yǔ)料環(huán)境的不匹配度。之后使用線性判別分析與最大似然線性變換結(jié)合(Linear Discriminant Analysis-Maximum Likelihood Linear Transform,LDA-MLLT)將歸一化后的上下文包含7幀(即±3)的高維特征進(jìn)行區(qū)分性投影來降低特征向量維數(shù)至40維,保留具有分辨率的特征成分并使其集中在對(duì)角線上,以滿足對(duì)聲學(xué)模型在影響最小的情況下構(gòu)建對(duì)角矩陣[16]。最后,使用基于特征空間最大似然線性回歸(feature space Maximum Likelihood Linear Regression,fMLLR)進(jìn)行說話人自適應(yīng)訓(xùn)練,將fMLLR特征用于訓(xùn)練DNN,TDNN,F(xiàn)SMN和TDNN-FSMN。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)進(jìn)行非線性運(yùn)算時(shí)通常采用Sigmoid,Tanh函數(shù)作為激活函數(shù)。然而,文獻(xiàn)[17]研究表明,修正線性單元(Rectified Linear Unit,ReLU)作為激活函數(shù)可以提高神經(jīng)網(wǎng)絡(luò)的性能。在本文中,所有神經(jīng)網(wǎng)絡(luò)的訓(xùn)練都使用ReLU非線性激活函數(shù)。
實(shí)驗(yàn)中采用的評(píng)價(jià)指標(biāo)為國(guó)際通用的WER計(jì)算方式,具體如式(3)所示。
(3)
式中,S代表替換錯(cuò)誤詞數(shù),D代表刪除錯(cuò)誤詞數(shù),I代表插入錯(cuò)誤詞數(shù),T為句子中的總詞數(shù)。WER結(jié)果越小,表示識(shí)別性能越好。
在DNN-HMM聲學(xué)模型訓(xùn)練中,首先對(duì)GMM-HMM訓(xùn)練得到的識(shí)別結(jié)果進(jìn)行強(qiáng)制對(duì)齊,獲得上下文相關(guān)的三音素狀態(tài)作為聲學(xué)模型訓(xùn)練的標(biāo)簽信息,共計(jì)3 762個(gè)獨(dú)立的上下文相關(guān)狀態(tài),對(duì)應(yīng)于DNN聲學(xué)模型的輸出維度。DNN的輸入為15幀固定上下文窗口(即±7),每幀提取40維MFCC特征,共計(jì)600維特征向量。實(shí)驗(yàn)中DNN模型包含六個(gè)隱藏層,每個(gè)隱藏層節(jié)點(diǎn)數(shù)為2 048個(gè)。使用基于RBM預(yù)訓(xùn)練方法逐層初始化DNN。小批量尺寸固定為256,初始和最終學(xué)習(xí)率參數(shù)分別設(shè)定為0.05和0.008。通過mini-batch隨機(jī)梯度下降算法進(jìn)行迭代更新,mini-batch大小為256,學(xué)習(xí)率在最初幾次迭代中保持不變,當(dāng)訓(xùn)練的準(zhǔn)確率在兩次迭代中沒有太大的變化時(shí),將學(xué)習(xí)率減少并進(jìn)行下次迭代。
TDNN聲學(xué)模型包含六個(gè)隱藏層,每個(gè)隱藏層包含512個(gè)節(jié)點(diǎn)。其輸入為5幀固定上下文窗口(即±2),每幀提取40維MFCC特征,共計(jì)200維特征向量。六個(gè)隱藏層的配置為{0},{-1,1},{-1,1},{-3,3},{-3,3},{-6,3},其中{0}表示常規(guī)的非拼接隱藏層。初始和最終學(xué)習(xí)率分別設(shè)置為0.001和0.0001。
FSMN聲學(xué)模型包含六個(gè)隱藏層,每個(gè)隱藏層為512個(gè)節(jié)點(diǎn),其中前三個(gè)隱藏層包含“記憶”模塊,后三個(gè)隱藏層為常規(guī)隱藏層。實(shí)驗(yàn)中同樣提取40維MFCC特征,由于FSMN的固有存儲(chǔ)機(jī)制,不需要連續(xù)太多的語(yǔ)音幀序列作為輸入,因此3幀固定上下文窗口(即±1),共計(jì)120維特征向量作為FSMN的輸入特征?!坝洃洝蹦K中包含5幀歷史信息和5幀未來信息。FSMN在訓(xùn)練過程中被隨機(jī)初始化,不用任何預(yù)訓(xùn)練方法。模型訓(xùn)練過程中更新策略同DNN訓(xùn)練參數(shù)設(shè)置保持一致。
TDNN-FSMN包含六個(gè)隱藏層。第一個(gè)隱藏層為包含512個(gè)節(jié)點(diǎn)的TDNN,輸入特征為5幀固定上下文窗口(即±2),共計(jì)200維特征向量。第二、四和六隱藏層為包含512個(gè)節(jié)點(diǎn)的FSMN,“記憶”模塊中包含5幀歷史信息和5幀未來信息。第三和五隱藏層是TDNN,隱藏層配置信息為{-3,3},F(xiàn)SMN隱藏層輸出共記1 536個(gè)輸出狀態(tài)作為其輸入。
表1顯示了在蒙古語(yǔ)語(yǔ)音數(shù)據(jù)集訓(xùn)練的基于DNN,TDNN,F(xiàn)SMN和TDNN-FSMN聲學(xué)模型的識(shí)別結(jié)果。實(shí)驗(yàn)中調(diào)節(jié)DNN模型為最優(yōu)性能,每個(gè)隱藏層包含2 048個(gè)節(jié)點(diǎn),其他三種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)隱藏層節(jié)點(diǎn)數(shù)設(shè)置為512。從實(shí)驗(yàn)結(jié)果可以看出,TDNN-FSMN得到的識(shí)別性能明顯優(yōu)于最優(yōu)性能的基線DNN模型,WER從12.90%下降到12.00%,表明基于TDNN-FSMN的聲學(xué)模型在蒙古語(yǔ)語(yǔ)音識(shí)別中有顯著提升。
表1 不同聲學(xué)模型對(duì)比實(shí)驗(yàn)結(jié)果
本文對(duì)TDNN-FSMN中FSMN隱藏層“記憶”模塊中包含歷史信息和未來信息的幀數(shù)對(duì)蒙古語(yǔ)語(yǔ)音識(shí)別性能的影響進(jìn)行了對(duì)比實(shí)驗(yàn)。其中,TDNN-FSMN網(wǎng)絡(luò)結(jié)構(gòu)包含六個(gè)隱藏層,每個(gè)隱藏層為512個(gè)節(jié)點(diǎn)。在實(shí)驗(yàn)中,TDNN-FSMN_5h_5f表示“記憶”模塊中包含5幀歷史信息和5幀未來信息,TDNN-FSMN_5h_4f表示“記憶”模塊中包含5幀歷史信息和4幀未來信息。模型訓(xùn)練過程中更新策略與基線實(shí)驗(yàn)TDNN-FSMN訓(xùn)練參數(shù)設(shè)置保持一致。
表2 FSMN隱藏層不同結(jié)構(gòu)對(duì)比實(shí)驗(yàn)結(jié)果
從表2的實(shí)驗(yàn)結(jié)果可以看出,“記憶”模塊中包含5幀歷史信息和5幀未來信息,表現(xiàn)出的性能最優(yōu)。這是因?yàn)椤坝洃洝蹦K包含歷史信息幀和未來信息幀的數(shù)量增加,將使TDNN-FSMN在訓(xùn)練過程中可以獲得更多固定長(zhǎng)度的時(shí)間上下文關(guān)聯(lián)信息。而且,“記憶”模塊中包含相同數(shù)量幀時(shí),包含較多數(shù)量的歷史信息幀比包含較多數(shù)量的未來信息幀表現(xiàn)得性能更優(yōu),表明上下文相關(guān)的歷史信息對(duì)網(wǎng)絡(luò)的性能更加有利。
在本實(shí)驗(yàn)中,分別對(duì)TDNN-FSMN中包含隱藏層的個(gè)數(shù)和隱藏層的節(jié)點(diǎn)數(shù)進(jìn)行對(duì)比實(shí)驗(yàn),其中FSMN隱藏層中“記憶”模塊包含5幀歷史信息和5幀未來信息。實(shí)驗(yàn)中分別設(shè)置隱藏層個(gè)數(shù)為6、9和12,每個(gè)隱藏層分別包含256、512和1 024個(gè)節(jié)點(diǎn)。當(dāng)隱藏層個(gè)數(shù)為6時(shí),第2、4和5層為FSMN隱藏層;當(dāng)隱藏層個(gè)數(shù)為9時(shí),第3、6和9層為FSMN隱藏層;當(dāng)隱藏層個(gè)數(shù)為12時(shí),第4、8和12層為FSMN隱藏層。其余層均為TDNN隱藏層,其配置信息如表3所示,第一列表示隱藏層中使用到的降采樣節(jié)點(diǎn)配置信息,第二列表示每個(gè)隱藏層中使用第一列的信息。例如,6-1表示神經(jīng)網(wǎng)絡(luò)包含6個(gè)隱藏層,第一個(gè)隱藏層為TDNN,降采樣使用的節(jié)點(diǎn)數(shù)為{-2,-1,0,1,2}。使用TDNN-FSMN-6L-256c表示包含6個(gè)隱藏層,每個(gè)隱藏層包含256個(gè)節(jié)點(diǎn)。
表3 TDNN 隱藏層配置信息
實(shí)驗(yàn)結(jié)果如圖5所示,隨著隱藏層個(gè)數(shù)增加及隱藏層節(jié)點(diǎn)數(shù)增加,單詞錯(cuò)誤率明顯降低。這是因?yàn)殡S著層數(shù)和節(jié)點(diǎn)數(shù)的增加,將使TDNN-FSMN在訓(xùn)練過程中可以獲得更多固定長(zhǎng)度的時(shí)間上下文關(guān)聯(lián)信息。最終,TDNN融合FSMN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型中比最優(yōu)的基線DNN模型有很大的性能提升。其中使用TDNN-FSMN-12L-1024c網(wǎng)絡(luò)結(jié)構(gòu)得到的實(shí)驗(yàn)結(jié)果最好,單詞錯(cuò)誤率為10.03%,與基線DNN模型相比相對(duì)降低22.2%,表明TDNN-FSMN能有效提升蒙古語(yǔ)語(yǔ)音識(shí)別的性能。然而,TDNN-FSMN-6L-256c網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別準(zhǔn)確率較基線DNN模型有所降低,由于參數(shù)規(guī)模降低,會(huì)使得TDNN-FSMN在訓(xùn)練過程中無(wú)法學(xué)習(xí)到足夠的聲學(xué)信息進(jìn)而降低了聲學(xué)模型的性能。
本文首次將融合的TDNN-FSMN模型應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別中,實(shí)驗(yàn)結(jié)果表明,TDNN-FSMN可以獲得比DNN更好的性能。在不同結(jié)構(gòu)FSMN隱藏層中,“記憶”模塊包含5幀歷史信息和5幀未來信息表現(xiàn)得性能最優(yōu),單詞錯(cuò)誤率較基線DNN模型相對(duì)降低7.0%。此外,通過對(duì)TDNN-FSMN中包含隱藏層的個(gè)數(shù)和隱藏層的節(jié)點(diǎn)數(shù)進(jìn)行對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)隨著層數(shù)和節(jié)點(diǎn)數(shù)的增加,TDNN-FSMN的性能明顯提升,表明TDNN-FSMN在訓(xùn)練過程中可以獲得更多固定長(zhǎng)度的時(shí)間上下文關(guān)聯(lián)信息。最終,包含12個(gè)隱藏層且每個(gè)隱藏層包含1 024個(gè)節(jié)點(diǎn)得到的實(shí)驗(yàn)結(jié)果最優(yōu),相比基線DNN模型,單詞錯(cuò)誤率相對(duì)降低22.2%。最終蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)詞錯(cuò)誤率達(dá)到了10.03%,表明基于TDNN-FSMN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能有效地提升蒙古語(yǔ)語(yǔ)音識(shí)別性能。