基于TDNN-FSMN的蒙古語(yǔ)語(yǔ)音識(shí)別技術(shù)研究

2018-10-19 03:13王勇和高光來

中文信息學(xué)報(bào) 2018年9期

王勇和，飛龍，高光來

(內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院，內(nèi)蒙古呼和浩特 010021)

0 引言

語(yǔ)音是人類最自然、便捷的交流方式，而語(yǔ)音識(shí)別技術(shù)，就是讓機(jī)器能夠“聽懂”人類的語(yǔ)言并將語(yǔ)音信號(hào)轉(zhuǎn)化為對(duì)應(yīng)的文本或命令?；诟咚够旌夏Ｐ汀[馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Models，GMM-HMM)的語(yǔ)音識(shí)別框架在很長(zhǎng)一段時(shí)間都是語(yǔ)音識(shí)別系統(tǒng)的主導(dǎo)框架，其核心就是用GMM對(duì)語(yǔ)音的觀察概率進(jìn)行建模，而用HMM對(duì)語(yǔ)音的轉(zhuǎn)移概率進(jìn)行建模[1]。近年來，深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network，DNN)[2]的研究和應(yīng)用極大地推動(dòng)了語(yǔ)音識(shí)別的發(fā)展，相比傳統(tǒng)的基于GMM-HMM的語(yǔ)音識(shí)別系統(tǒng)，其最大的改變是采用DNN替換GMM對(duì)語(yǔ)音的觀察概率進(jìn)行建模來計(jì)算HMM狀態(tài)的后驗(yàn)概率。根據(jù)文獻(xiàn)[3]，基于DNN-HMM的聲學(xué)模型采用固定長(zhǎng)度的輸入窗對(duì)語(yǔ)音的上下文特征進(jìn)行建模，而語(yǔ)音是一種各幀之間具有很強(qiáng)相關(guān)性的復(fù)雜時(shí)變信號(hào)，所以這種方法不能充分利用語(yǔ)音的上下文時(shí)序信息。

相比DNN，時(shí)延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network，TDNN)[4]同樣是一種前饋網(wǎng)絡(luò)架構(gòu)，它對(duì)每個(gè)隱藏層的輸出都在時(shí)域進(jìn)行擴(kuò)展，即每個(gè)隱藏層接收到的輸入不僅是前一層在當(dāng)前時(shí)刻的輸出，還有前一層在之前和之后的某些時(shí)刻的輸出。在文獻(xiàn)[5]中，通過選擇正確的時(shí)間步長(zhǎng)和對(duì)隱藏層輸出進(jìn)行降采樣，TDNN可以從輸入上下文中的所有時(shí)間步長(zhǎng)提取足夠語(yǔ)音特征信息。因此，TDNN會(huì)參考前一層網(wǎng)絡(luò)的歷史輸出，可以對(duì)更長(zhǎng)的歷史信息進(jìn)行建模而不能對(duì)未來信息進(jìn)行建模。Zhang等人[6-7]提出了一種更簡(jiǎn)單的“記憶”存儲(chǔ)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，即前饋型序列記憶網(wǎng)絡(luò)(Feed-forward Sequential Memory Network，F(xiàn)SMN)，已被證明在大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)中具有比DNN和長(zhǎng)短時(shí)記憶模塊(Long-Short Term Memory，LSTM)更好的性能。FSMN是在DNN隱藏層旁邊引入“記憶”模塊的多層前饋神經(jīng)網(wǎng)絡(luò)模型。該“記憶”模塊用于臨時(shí)存儲(chǔ)固定大小的上下文信息作為短期記憶機(jī)制，能夠以時(shí)間序列學(xué)習(xí)長(zhǎng)期依賴性信息。在本文中，TDNN融合FSMN的網(wǎng)絡(luò)結(jié)構(gòu)被應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型。

目前，在中國(guó)內(nèi)蒙古自治區(qū)、蒙古國(guó)及周邊地區(qū)大約有600萬(wàn)人將蒙古語(yǔ)作為第一或第二官方語(yǔ)言，但是蒙古語(yǔ)語(yǔ)音識(shí)別研究仍處于初始階段。高光來等[8]在2006年首次構(gòu)建了蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)，在文獻(xiàn)[9-10]中進(jìn)一步對(duì)聲學(xué)模型進(jìn)行優(yōu)化和設(shè)計(jì)。在文獻(xiàn)[11]中，飛龍等人提出了基于詞干的蒙古語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)方法，并使用分割的方法在蒙古語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別中取得了較好的效果[12]。在文獻(xiàn)[13]中，張暉等人在蒙古語(yǔ)語(yǔ)音識(shí)別研究中引入了基于DNN的聲學(xué)模型，獲得了顯著的性能提升。最近，基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型廣泛應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別中，如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)和長(zhǎng)短時(shí)記憶模塊等，獲得比DNN更好的識(shí)別結(jié)果[14]。然而，與其他語(yǔ)言如中文和英文相比，蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型仍有很大的優(yōu)化空間。

為進(jìn)一步提高蒙古語(yǔ)語(yǔ)音識(shí)別性能，本文首先將TDNN融合FSMN應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)聲學(xué)模型,通過對(duì)長(zhǎng)序列語(yǔ)音幀進(jìn)行建模來充分挖掘上下文相關(guān)信息。其次，F(xiàn)SMN中“記憶”模塊用于存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的歷史信息和未來信息，本文通過用“記憶”模塊中不同的歷史和未來語(yǔ)音幀信息長(zhǎng)度對(duì)模型進(jìn)行建模，分析其對(duì)蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)性能的影響。最后，研究了不同隱藏層數(shù)目和每個(gè)隱藏層節(jié)點(diǎn)數(shù)對(duì)融合的TDNN-FSMN模型性能的影響。

1 基于TDNN-FSMN的蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)

1.1 TDNN聲學(xué)模型

TDNN是一種多層(通常三個(gè)以上)前饋神經(jīng)網(wǎng)絡(luò)模型，傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)每個(gè)隱藏層的輸入都是前一層網(wǎng)絡(luò)的輸出，而TDNN在網(wǎng)絡(luò)傳播的過程中對(duì)各個(gè)隱藏層的輸出也做了擴(kuò)展，它將隱藏層的當(dāng)前輸出與其前后若干時(shí)刻的輸出拼接在一起，作為下一個(gè)隱藏層的輸入。因此，TDNN每個(gè)隱藏層的輸入會(huì)參考前一層網(wǎng)絡(luò)的歷史輸出，可以對(duì)更長(zhǎng)的歷史信息進(jìn)行建模。

傳統(tǒng)的TDNN每一個(gè)時(shí)間步長(zhǎng)上，隱藏層的激活函數(shù)都會(huì)被計(jì)算一次。因此，在相鄰時(shí)間步長(zhǎng)中，大量的上下文相同信息被重復(fù)計(jì)算，大大增加了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練復(fù)雜度。而TDNN相鄰節(jié)點(diǎn)之間的變化可能很小，包含了大量的重復(fù)信息，因此可以每隔幾幀合并計(jì)算一次結(jié)果，從而加速訓(xùn)練和解碼過程。在文獻(xiàn)[5]中，提出一種在TDNN訓(xùn)練中采用降采樣技術(shù)來減小模型計(jì)算復(fù)雜度，通過選擇合適的時(shí)間步長(zhǎng)來大幅減少運(yùn)算量，同時(shí)不能使所有的歷史信息都可以被網(wǎng)絡(luò)學(xué)習(xí)到。圖1表示常規(guī)TDNN(實(shí)邊+虛邊)和降采樣TDNN(實(shí)邊)結(jié)構(gòu)圖。傳統(tǒng)TDNN每個(gè)隱藏層的隱藏層單元(實(shí)邊+虛邊)都會(huì)被計(jì)算，而且相鄰時(shí)間步長(zhǎng)會(huì)重復(fù)計(jì)算隱藏層單元。采用降采樣技術(shù)的TDNN在每個(gè)隱藏層只會(huì)計(jì)算一定時(shí)間間隔的隱藏層單元(實(shí)邊)，不僅能夠?qū)﹂L(zhǎng)時(shí)間依賴性的語(yǔ)音信號(hào)進(jìn)行建模，而且模型復(fù)雜度較傳統(tǒng)TDNN有大幅度降低。

1.2 FSMN聲學(xué)模型

前饋型序列記憶網(wǎng)絡(luò)是一種含有多個(gè)隱藏層的前饋神經(jīng)網(wǎng)絡(luò)。相比傳統(tǒng)的DNN結(jié)構(gòu)，F(xiàn)SMN在其隱藏層旁邊增加了一個(gè)稱為“記憶塊”的模塊，這些“記憶塊”用于存儲(chǔ)語(yǔ)音序列中與當(dāng)前幀相關(guān)的歷史關(guān)聯(lián)信息以及未來關(guān)聯(lián)信息。這些信息使得FSMN可以對(duì)語(yǔ)音序列中的長(zhǎng)期相關(guān)性信息進(jìn)行建模。圖2表示在隱藏層中添加兩個(gè)“記憶塊”的FSMN結(jié)構(gòu)圖。

給定序列w1=(x11,x12,…,x1N)，X={x1，x2，…，xt}，每個(gè)xt∈X表示時(shí)間t的輸入數(shù)據(jù)。相應(yīng)的隱藏層輸出表示為H={h1，h2，…，ht}。圖2即為“記憶塊”的結(jié)構(gòu)示意圖，當(dāng)前語(yǔ)音幀ht及其前N1幀的輸出和后N2幀的輸出被計(jì)算到固定大小維度，并將其與當(dāng)前隱藏層的輸出一起作為下一個(gè)隱藏層的輸入。

圖1 TDNN結(jié)構(gòu)圖

圖2 FSMN模型

圖3 “記憶塊”結(jié)構(gòu)圖

根據(jù)要使用的編碼方法，編碼系數(shù)a可以初始化為標(biāo)量系數(shù)或向量系數(shù)。

(1) 如果編碼系數(shù)a設(shè)置為標(biāo)量，則FSMN稱為標(biāo)量FSMN(簡(jiǎn)稱sFSMN)，如式(1)所示。

(1)

(2) 如果編碼系數(shù)a設(shè)置為向量，則FSMN稱為向量FSMN(簡(jiǎn)稱vFSMN)，如式(2)所示。

(2)

由于vFSMN具有更好的建模能力，因此在本文中采用了vFSMN，簡(jiǎn)稱為FSMN。

1.3 TDNN-FSMN聲學(xué)模型

本文中，TDNN與FSMN相融合的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)模型。TDNN在網(wǎng)絡(luò)傳播過程中對(duì)各個(gè)隱藏層的輸出做了擴(kuò)展，傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)每個(gè)隱藏層的輸入都是前一層網(wǎng)絡(luò)的輸出，TDNN則會(huì)參考前一層網(wǎng)絡(luò)的歷史輸出，能對(duì)更長(zhǎng)的歷史信息進(jìn)行建模，而且深層次的TDNN網(wǎng)絡(luò)結(jié)構(gòu)可以更加有效地提取訓(xùn)練數(shù)據(jù)中高層次信息的特征。雙向FSMN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在隱藏層旁增加了一個(gè)稱為“記憶塊”的模塊，用于存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的歷史信息和未來信息。與循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)一樣，網(wǎng)絡(luò)傳播過程中可以學(xué)習(xí)到歷史信息和未來信息。不同的是，F(xiàn)SMN采用非循環(huán)的前饋結(jié)構(gòu),不需要像循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)那樣必須等待語(yǔ)音輸入結(jié)束才能對(duì)當(dāng)前語(yǔ)音幀計(jì)算，其只需等待有限長(zhǎng)度的未來語(yǔ)音幀輸入即可。本文結(jié)合TDNN與FSMN的優(yōu)點(diǎn)，將其融合應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型。

如圖4所示，TDNN與FSMN交替融合，包含六個(gè)隱藏層。在TDNN隱藏層中，使用{-n，m}表示將當(dāng)前幀的歷史第n幀、當(dāng)前幀的未來第m幀和當(dāng)前幀拼接在一起作為下個(gè)網(wǎng)絡(luò)層的輸入。假設(shè)t表示當(dāng)前幀，在TDNN1(隱藏層1)，將幀{t-2，t-1，t，t+1，t+2}拼接在一起作為下一個(gè)隱藏層的輸入。在TDNN2和TDNN3處，將幀{t-3，t+3}拼接在一起作為下一個(gè)隱藏層的輸入。因此，在網(wǎng)絡(luò)的最高層，至少可以學(xué)習(xí)到上下文相關(guān)的8幀歷史信息及8幀未來信息。

圖4 TDNN-FSMN結(jié)構(gòu)圖

2 實(shí)驗(yàn)設(shè)置

2.1 實(shí)驗(yàn)語(yǔ)料

本文采用的蒙古語(yǔ)語(yǔ)音庫(kù)是由193個(gè)說話人錄制完成，其中采樣率設(shè)為16kHz，每采樣點(diǎn)進(jìn)行16bit量化，聲道為單聲道。語(yǔ)音庫(kù)包含69 781句蒙古語(yǔ)朗讀語(yǔ)音數(shù)據(jù)，總時(shí)長(zhǎng)大約有78h，每句話時(shí)長(zhǎng)為5～10s。實(shí)驗(yàn)中隨機(jī)選擇88%的語(yǔ)音數(shù)據(jù)作為訓(xùn)練集，12%的語(yǔ)音數(shù)據(jù)作為測(cè)試集。發(fā)音詞典由38 107個(gè)單詞列表構(gòu)成。對(duì)于語(yǔ)言模型,本文從蒙古語(yǔ)網(wǎng)站搜集大約8 500萬(wàn)單詞的文本進(jìn)行3-gram語(yǔ)言模型訓(xùn)練。

2.2 語(yǔ)音識(shí)別系統(tǒng)建立及評(píng)測(cè)

本文基于Kaldi[15]語(yǔ)音識(shí)別開發(fā)平臺(tái)搭建了蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)。采用MFCC作為識(shí)別的特征參數(shù)。同時(shí)，對(duì)語(yǔ)音特征進(jìn)行倒譜均值方差歸一化(Cepstrum Mean Variance Normalization，CMVN)使得帶噪語(yǔ)音特征參數(shù)的概率密度函數(shù)(Probability Density Function，PDF)更接近于純凈語(yǔ)音的概率密度函數(shù)，以減少訓(xùn)練語(yǔ)料與測(cè)試語(yǔ)料環(huán)境的不匹配度。之后使用線性判別分析與最大似然線性變換結(jié)合(Linear Discriminant Analysis-Maximum Likelihood Linear Transform，LDA-MLLT)將歸一化后的上下文包含7幀(即±3)的高維特征進(jìn)行區(qū)分性投影來降低特征向量維數(shù)至40維，保留具有分辨率的特征成分并使其集中在對(duì)角線上，以滿足對(duì)聲學(xué)模型在影響最小的情況下構(gòu)建對(duì)角矩陣[16]。最后，使用基于特征空間最大似然線性回歸(feature space Maximum Likelihood Linear Regression，fMLLR)進(jìn)行說話人自適應(yīng)訓(xùn)練，將fMLLR特征用于訓(xùn)練DNN，TDNN，F(xiàn)SMN和TDNN-FSMN。

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)進(jìn)行非線性運(yùn)算時(shí)通常采用Sigmoid，Tanh函數(shù)作為激活函數(shù)。然而，文獻(xiàn)[17]研究表明，修正線性單元(Rectified Linear Unit，ReLU)作為激活函數(shù)可以提高神經(jīng)網(wǎng)絡(luò)的性能。在本文中，所有神經(jīng)網(wǎng)絡(luò)的訓(xùn)練都使用ReLU非線性激活函數(shù)。

實(shí)驗(yàn)中采用的評(píng)價(jià)指標(biāo)為國(guó)際通用的WER計(jì)算方式，具體如式(3)所示。

(3)

式中，S代表替換錯(cuò)誤詞數(shù)，D代表刪除錯(cuò)誤詞數(shù)，I代表插入錯(cuò)誤詞數(shù)，T為句子中的總詞數(shù)。WER結(jié)果越小，表示識(shí)別性能越好。

3 實(shí)驗(yàn)與分析

3.1 不同神經(jīng)網(wǎng)絡(luò)的比較實(shí)驗(yàn)

在DNN-HMM聲學(xué)模型訓(xùn)練中，首先對(duì)GMM-HMM訓(xùn)練得到的識(shí)別結(jié)果進(jìn)行強(qiáng)制對(duì)齊，獲得上下文相關(guān)的三音素狀態(tài)作為聲學(xué)模型訓(xùn)練的標(biāo)簽信息，共計(jì)3 762個(gè)獨(dú)立的上下文相關(guān)狀態(tài)，對(duì)應(yīng)于DNN聲學(xué)模型的輸出維度。DNN的輸入為15幀固定上下文窗口(即±7)，每幀提取40維MFCC特征，共計(jì)600維特征向量。實(shí)驗(yàn)中DNN模型包含六個(gè)隱藏層，每個(gè)隱藏層節(jié)點(diǎn)數(shù)為2 048個(gè)。使用基于RBM預(yù)訓(xùn)練方法逐層初始化DNN。小批量尺寸固定為256，初始和最終學(xué)習(xí)率參數(shù)分別設(shè)定為0.05和0.008。通過mini-batch隨機(jī)梯度下降算法進(jìn)行迭代更新，mini-batch大小為256，學(xué)習(xí)率在最初幾次迭代中保持不變，當(dāng)訓(xùn)練的準(zhǔn)確率在兩次迭代中沒有太大的變化時(shí)，將學(xué)習(xí)率減少并進(jìn)行下次迭代。

TDNN聲學(xué)模型包含六個(gè)隱藏層，每個(gè)隱藏層包含512個(gè)節(jié)點(diǎn)。其輸入為5幀固定上下文窗口(即±2)，每幀提取40維MFCC特征，共計(jì)200維特征向量。六個(gè)隱藏層的配置為{0}，{-1,1}，{-1,1}，{-3,3}，{-3,3}，{-6,3}，其中{0}表示常規(guī)的非拼接隱藏層。初始和最終學(xué)習(xí)率分別設(shè)置為0.001和0.0001。

FSMN聲學(xué)模型包含六個(gè)隱藏層，每個(gè)隱藏層為512個(gè)節(jié)點(diǎn)，其中前三個(gè)隱藏層包含“記憶”模塊，后三個(gè)隱藏層為常規(guī)隱藏層。實(shí)驗(yàn)中同樣提取40維MFCC特征，由于FSMN的固有存儲(chǔ)機(jī)制，不需要連續(xù)太多的語(yǔ)音幀序列作為輸入，因此3幀固定上下文窗口(即±1)，共計(jì)120維特征向量作為FSMN的輸入特征?！坝洃洝蹦K中包含5幀歷史信息和5幀未來信息。FSMN在訓(xùn)練過程中被隨機(jī)初始化，不用任何預(yù)訓(xùn)練方法。模型訓(xùn)練過程中更新策略同DNN訓(xùn)練參數(shù)設(shè)置保持一致。

TDNN-FSMN包含六個(gè)隱藏層。第一個(gè)隱藏層為包含512個(gè)節(jié)點(diǎn)的TDNN，輸入特征為5幀固定上下文窗口(即±2)，共計(jì)200維特征向量。第二、四和六隱藏層為包含512個(gè)節(jié)點(diǎn)的FSMN,“記憶”模塊中包含5幀歷史信息和5幀未來信息。第三和五隱藏層是TDNN，隱藏層配置信息為{-3,3}，F(xiàn)SMN隱藏層輸出共記1 536個(gè)輸出狀態(tài)作為其輸入。

表1顯示了在蒙古語(yǔ)語(yǔ)音數(shù)據(jù)集訓(xùn)練的基于DNN，TDNN，F(xiàn)SMN和TDNN-FSMN聲學(xué)模型的識(shí)別結(jié)果。實(shí)驗(yàn)中調(diào)節(jié)DNN模型為最優(yōu)性能，每個(gè)隱藏層包含2 048個(gè)節(jié)點(diǎn)，其他三種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)隱藏層節(jié)點(diǎn)數(shù)設(shè)置為512。從實(shí)驗(yàn)結(jié)果可以看出，TDNN-FSMN得到的識(shí)別性能明顯優(yōu)于最優(yōu)性能的基線DNN模型，WER從12.90%下降到12.00%，表明基于TDNN-FSMN的聲學(xué)模型在蒙古語(yǔ)語(yǔ)音識(shí)別中有顯著提升。

表1 不同聲學(xué)模型對(duì)比實(shí)驗(yàn)結(jié)果

3.2 FSMN隱藏層不同結(jié)構(gòu)的對(duì)比實(shí)驗(yàn)

本文對(duì)TDNN-FSMN中FSMN隱藏層“記憶”模塊中包含歷史信息和未來信息的幀數(shù)對(duì)蒙古語(yǔ)語(yǔ)音識(shí)別性能的影響進(jìn)行了對(duì)比實(shí)驗(yàn)。其中，TDNN-FSMN網(wǎng)絡(luò)結(jié)構(gòu)包含六個(gè)隱藏層，每個(gè)隱藏層為512個(gè)節(jié)點(diǎn)。在實(shí)驗(yàn)中，TDNN-FSMN_5h_5f表示“記憶”模塊中包含5幀歷史信息和5幀未來信息，TDNN-FSMN_5h_4f表示“記憶”模塊中包含5幀歷史信息和4幀未來信息。模型訓(xùn)練過程中更新策略與基線實(shí)驗(yàn)TDNN-FSMN訓(xùn)練參數(shù)設(shè)置保持一致。

表2 FSMN隱藏層不同結(jié)構(gòu)對(duì)比實(shí)驗(yàn)結(jié)果

從表2的實(shí)驗(yàn)結(jié)果可以看出，“記憶”模塊中包含5幀歷史信息和5幀未來信息，表現(xiàn)出的性能最優(yōu)。這是因?yàn)椤坝洃洝蹦K包含歷史信息幀和未來信息幀的數(shù)量增加，將使TDNN-FSMN在訓(xùn)練過程中可以獲得更多固定長(zhǎng)度的時(shí)間上下文關(guān)聯(lián)信息。而且，“記憶”模塊中包含相同數(shù)量幀時(shí)，包含較多數(shù)量的歷史信息幀比包含較多數(shù)量的未來信息幀表現(xiàn)得性能更優(yōu)，表明上下文相關(guān)的歷史信息對(duì)網(wǎng)絡(luò)的性能更加有利。

3.3 TDNN-FSMN不同結(jié)構(gòu)的對(duì)比實(shí)驗(yàn)

在本實(shí)驗(yàn)中，分別對(duì)TDNN-FSMN中包含隱藏層的個(gè)數(shù)和隱藏層的節(jié)點(diǎn)數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)，其中FSMN隱藏層中“記憶”模塊包含5幀歷史信息和5幀未來信息。實(shí)驗(yàn)中分別設(shè)置隱藏層個(gè)數(shù)為6、9和12，每個(gè)隱藏層分別包含256、512和1 024個(gè)節(jié)點(diǎn)。當(dāng)隱藏層個(gè)數(shù)為6時(shí)，第2、4和5層為FSMN隱藏層；當(dāng)隱藏層個(gè)數(shù)為9時(shí)，第3、6和9層為FSMN隱藏層；當(dāng)隱藏層個(gè)數(shù)為12時(shí)，第4、8和12層為FSMN隱藏層。其余層均為TDNN隱藏層，其配置信息如表3所示，第一列表示隱藏層中使用到的降采樣節(jié)點(diǎn)配置信息，第二列表示每個(gè)隱藏層中使用第一列的信息。例如，6-1表示神經(jīng)網(wǎng)絡(luò)包含6個(gè)隱藏層，第一個(gè)隱藏層為TDNN,降采樣使用的節(jié)點(diǎn)數(shù)為{-2,-1,0,1,2}。使用TDNN-FSMN-6L-256c表示包含6個(gè)隱藏層，每個(gè)隱藏層包含256個(gè)節(jié)點(diǎn)。

表3 TDNN 隱藏層配置信息

實(shí)驗(yàn)結(jié)果如圖5所示，隨著隱藏層個(gè)數(shù)增加及隱藏層節(jié)點(diǎn)數(shù)增加，單詞錯(cuò)誤率明顯降低。這是因?yàn)殡S著層數(shù)和節(jié)點(diǎn)數(shù)的增加，將使TDNN-FSMN在訓(xùn)練過程中可以獲得更多固定長(zhǎng)度的時(shí)間上下文關(guān)聯(lián)信息。最終，TDNN融合FSMN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型中比最優(yōu)的基線DNN模型有很大的性能提升。其中使用TDNN-FSMN-12L-1024c網(wǎng)絡(luò)結(jié)構(gòu)得到的實(shí)驗(yàn)結(jié)果最好，單詞錯(cuò)誤率為10.03%，與基線DNN模型相比相對(duì)降低22.2%，表明TDNN-FSMN能有效提升蒙古語(yǔ)語(yǔ)音識(shí)別的性能。然而，TDNN-FSMN-6L-256c網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別準(zhǔn)確率較基線DNN模型有所降低，由于參數(shù)規(guī)模降低，會(huì)使得TDNN-FSMN在訓(xùn)練過程中無(wú)法學(xué)習(xí)到足夠的聲學(xué)信息進(jìn)而降低了聲學(xué)模型的性能。

4 總結(jié)

本文首次將融合的TDNN-FSMN模型應(yīng)用于蒙古語(yǔ)語(yǔ)音識(shí)別中，實(shí)驗(yàn)結(jié)果表明，TDNN-FSMN可以獲得比DNN更好的性能。在不同結(jié)構(gòu)FSMN隱藏層中，“記憶”模塊包含5幀歷史信息和5幀未來信息表現(xiàn)得性能最優(yōu)，單詞錯(cuò)誤率較基線DNN模型相對(duì)降低7.0%。此外，通過對(duì)TDNN-FSMN中包含隱藏層的個(gè)數(shù)和隱藏層的節(jié)點(diǎn)數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)，發(fā)現(xiàn)隨著層數(shù)和節(jié)點(diǎn)數(shù)的增加，TDNN-FSMN的性能明顯提升，表明TDNN-FSMN在訓(xùn)練過程中可以獲得更多固定長(zhǎng)度的時(shí)間上下文關(guān)聯(lián)信息。最終，包含12個(gè)隱藏層且每個(gè)隱藏層包含1 024個(gè)節(jié)點(diǎn)得到的實(shí)驗(yàn)結(jié)果最優(yōu)，相比基線DNN模型，單詞錯(cuò)誤率相對(duì)降低22.2%。最終蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)詞錯(cuò)誤率達(dá)到了10.03%，表明基于TDNN-FSMN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能有效地提升蒙古語(yǔ)語(yǔ)音識(shí)別性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡