孫由玉 孫寶山 盧陽
摘? 要:當(dāng)前LSTMP是基于LSTM增加了Projection層,并將這個層連接到LSTM的輸入,通過循環(huán)連接投影層,對高維度的信息進(jìn)行降維,減小細(xì)胞單元的維度,從而減小相關(guān)參數(shù)矩陣的參數(shù)數(shù)目。但LSTMP網(wǎng)絡(luò)結(jié)構(gòu)的缺點(diǎn)在于Projection層的輸出需要完成兩個功能,既需要充當(dāng)歷史信息,又需要作為下一層的輸入。針對以上問題,筆者提出了一種Re-dimension的方法,讓網(wǎng)絡(luò)自己選擇一部分參數(shù)作為歷史信息,并獲得了一定程度的提升。采用該方法后,能提高語音識別率相對4-5%左右。
關(guān)鍵詞:長短時記憶LSTM;降維;語音識別
Abstract:Currently,LSTMP is based on LSTM,which adds a project layer and connects this layer to the input of LSTM. By circularly connecting the projection layer,it reduces the dimension of high-dimensional information,reduces the dimension of cell units,and thus reduces the number of parameters of the related parameter matrix. However,the disadvantage of LSTMP network structure is that the output of the Projection layer needs to complete two functions,which need to act as both historical information and input of the next layer. In view of the above problems,the author proposes a Re-dimension method,which allows the network to select some parameters as historical information,and has achieved a certain degree of improvement. With this method,the speech recognition rate can be improved by about 4-5%.
Keywords:LSTM for long-term and short-term memory;dimensionality reduction;speech recognition
0? 引? 言
隨著移動互聯(lián)網(wǎng)的興起,語音識別技術(shù)正在走進(jìn)人們的生活,這給人們的工作、學(xué)習(xí)和生活提供了一種快捷識別的方式。近年來,基于深度全連接前饋神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型已被證明是語音識別的成功范例。最近,將循環(huán)神經(jīng)網(wǎng)絡(luò)作為一種強(qiáng)大的模型進(jìn)行了探索,循環(huán)神經(jīng)網(wǎng)絡(luò)在不同的順序數(shù)據(jù)建模任務(wù)中取得了最先進(jìn)的性能,例如:手寫字符識別,機(jī)器翻譯以及語音識別[1]。
基于長短期存儲器(Long Short-Term Memory,LSTM)的存儲器塊通過輸入門[2],輸出門、遺忘門和存儲器單元的集成來運(yùn)行。通過該LSTM,循環(huán)神經(jīng)網(wǎng)絡(luò)可以利用自學(xué)習(xí)機(jī)制用于遠(yuǎn)程時間上下文,這有助于改善語音識別中的噪聲魯棒性[3],其中較長窗口內(nèi)的一部分幀被噪聲掩蔽。已經(jīng)實施LSTM網(wǎng)絡(luò)以在不同的語音識別任務(wù)中實現(xiàn)競爭性能,提出了具有各種架構(gòu)的LSTM網(wǎng)絡(luò)的一些擴(kuò)展以改善語音識別性能。LSTM循環(huán)投影作為統(tǒng)一框架引入,通過添加基于LSTM單元輸出的循環(huán)信息的前饋層并進(jìn)一步將信息投影到輸出層。同時,通過LSTM單元細(xì)胞之后或之前安排全連接前饋神經(jīng)網(wǎng)絡(luò)來調(diào)整LSTM結(jié)構(gòu)。LSTM架構(gòu)是一種非常特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),用于對語音等順序數(shù)據(jù)進(jìn)行建模。它最近被廣泛用于大規(guī)模聲學(xué)模型估計,并且比許多其他神經(jīng)網(wǎng)絡(luò)表現(xiàn)更好。但是由于LSTM的運(yùn)行速度很慢,所以有人提出了LSTMP網(wǎng)絡(luò)結(jié)構(gòu)。
LSTMP是LSTM with recurrent projection layer的簡稱,是在原有LSTM基礎(chǔ)之上增加了一個Projection層,并將這個層連接到LSTM的輸入,Projection層的加入是為了減少計算量,它的作用和全連接層很像,就是對輸出向量做一下壓縮,從而能把高維度的信息降維,減小細(xì)胞單元的維度,以減小相關(guān)參數(shù)矩陣的參數(shù)數(shù)目。但是Projection層的輸出需要完成兩個功能,既需要充當(dāng)歷史信息,又需要作為下一層的輸入。
針對這種情況,本文提出了一種Re-dimension的方法,讓網(wǎng)絡(luò)自己選擇一部分參數(shù)作為歷史信息,并獲得了一定程度的提升。通過采用改進(jìn)的LSTMP方法,提高了LSTMP的性能,使語音識別率相對提高了4-5%左右。
1? LSTM網(wǎng)絡(luò)
LSTM(Long Short-Term Memory)長短期記憶網(wǎng)絡(luò),是一種時間遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[4],主要是為了解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。簡單來說,就是相比普通的RNN,LSTM能夠在更長的序列中有更好的表現(xiàn)。所有RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)降男问?。在?biāo)準(zhǔn)的RNN中,這個重復(fù)的模塊只有一個非常簡單的結(jié)構(gòu)即一個tanh層[5]。如圖1所示。
LSTM與之不同的是其有四個神經(jīng)網(wǎng)絡(luò)層,并且以一種特殊的方式進(jìn)行交互。其關(guān)鍵就是細(xì)胞狀態(tài),并且精心設(shè)計了“門”結(jié)構(gòu)來控制細(xì)胞狀態(tài)。其內(nèi)部主要有三個階段:第一階段是由忘記門來決定丟棄什么樣的信息;第二階段是選擇何種新信息進(jìn)入細(xì)胞狀態(tài),稱為選擇記憶階段;第三階段是決定輸出什么樣的值。四個神經(jīng)網(wǎng)絡(luò)層,如圖2所示。
2? LSTMP網(wǎng)絡(luò)基本思想
2.1? LSTMP基本結(jié)構(gòu)
LSTMP結(jié)構(gòu)是在LSTM層之后具有一個單獨(dú)的線性投影層,并且該投影層產(chǎn)生循環(huán)連接。在實施中,使用暗視距節(jié)點(diǎn)選擇半隱藏單元來分配循環(huán)連接。LSTM中的Projection layer是為了減少計算量的,它的作用和全連接layer很像,就是對輸出向量做一下壓縮,從而能把高緯度的信息降維,減小cell unit的維度,從而減小相關(guān)參數(shù)矩陣的參數(shù)數(shù)目[6]。此時的網(wǎng)絡(luò)結(jié)構(gòu)表述如下。
2.2? 改進(jìn)的LSTMP方法
筆者在改進(jìn)長短時記憶結(jié)構(gòu)的基礎(chǔ)上,又進(jìn)行了改進(jìn)。由于LSTMP網(wǎng)絡(luò)結(jié)構(gòu)在Projection層的輸出需要完成兩個功能,既需要充當(dāng)歷史信息,又需要作為下一層的輸入,對整體架構(gòu)的實現(xiàn)具有一定的復(fù)雜性[7]。因此,本文提出一種Re-dimension的方法,讓網(wǎng)絡(luò)
自己選擇一部分參數(shù)作為歷史信息。這個過程就是dim range部分,如圖3所示。
3? 實驗設(shè)計與結(jié)果分析
3.1? 實驗工具
本實驗使用Kaldi語音識別工具包進(jìn)行實驗[8]。Kaldi是一個免費(fèi)、開源的非常強(qiáng)大的語音識別工具庫,它提供基于有限狀態(tài)變換器(Finite-State Transducer,使用OpenFst)的語音識別系統(tǒng),以及詳細(xì)的文件和腳本用于構(gòu)建完整的識別系統(tǒng)。Kaldi包含的重要特性有:集成Finite State Transducer(編譯OpenFst工具箱,作為一個庫);擴(kuò)展的線性代數(shù)支持;可擴(kuò)展設(shè)計;開源的license;完整的方法和周密的測試。
3.2? 實驗設(shè)計
在本實驗中,此網(wǎng)絡(luò)的輸入層大小為39,前后隱藏層各有128個塊,輸出層大小為40(39個音素加空白)。邏輯sigmoid函數(shù)在[0,1]范圍內(nèi)。輸入層完全連接到隱藏層,隱藏層完全連接到自身和輸出層。權(quán)重總數(shù)為183,080。
此網(wǎng)絡(luò)的訓(xùn)練是通過梯度下降和每個訓(xùn)練樣本后的權(quán)重更新完成的。在所有情況下,學(xué)習(xí)率為10-4,動量為0.9,權(quán)重在[-0.1,0.1]范圍內(nèi)隨機(jī)初始化,并且在訓(xùn)練期間,將標(biāo)準(zhǔn)差為0.6的高斯噪聲添加到輸入中以改善泛化。對于前綴搜索解碼,使用了0.9999的激活閾值。性能測量為目標(biāo)標(biāo)簽序列與系統(tǒng)給出的輸出標(biāo)簽序列之間的標(biāo)準(zhǔn)化編輯距離(標(biāo)簽錯誤率LER)。
3.3? 結(jié)果分析
本實驗在LSTMP的基礎(chǔ)上增加Re-dimension方法后,讓網(wǎng)絡(luò)自己選擇一部分參數(shù)作為歷史信息。經(jīng)過反復(fù)的訓(xùn)練,從表1中可以看出,網(wǎng)絡(luò)能更好地學(xué)習(xí)到歷史信息,同時也獲得一定程度的性能提升,如圖4所示。
4? 結(jié)? 論
本文通過深入研究LSTMP結(jié)構(gòu),提出一種Re-dimension方法,讓網(wǎng)絡(luò)自己選擇一部分參數(shù)作為歷史信息,采用基于改進(jìn)的LSTMP方法進(jìn)行實驗,使語音識別率相對提高了4-5%左右。可見該方法可以使網(wǎng)絡(luò)獲得一定的性能提升。
參考文獻(xiàn):
[1] 戴禮榮,張仕良,黃智穎.基于深度學(xué)習(xí)的語音識別技術(shù)現(xiàn)狀與展望 [J].數(shù)據(jù)采集與處理,2017,32(2):221-231.
[2] 陳曉宇.基于數(shù)據(jù)驅(qū)動的渦扇發(fā)動機(jī)故障預(yù)測研究 [D].阜新:遼寧工程技術(shù)大學(xué),2018.
[3] 李杰.基于深度學(xué)習(xí)的語音識別聲學(xué)模型建模方法研究 [D].北京:中國科學(xué)院大學(xué),2016.
[4] 胡鑫,程玉柱,吳祎,等.長短期記憶網(wǎng)絡(luò)的林火圖像分割方法 [J].中國農(nóng)機(jī)化學(xué)報,2019,40(1):103-107.
[5] 沈旭東.基于深度學(xué)習(xí)的時間序列算法綜述 [J].信息技術(shù)與信息化,2019(1):71-76.
[6] Peddinti V,Wang Y,Povey D,et al. Low Latency Acoustic Modeling Using Temporal Convolution and LSTMs [J].IEEE Signal Processing Letters,2017(99):1.
[7] Chan W,Jaitly N,Le Q,et al. Listen,attend and spell:A neural network for large vocabulary conversational speech recognition [C]// IEEE International Conference on Acoustics,Speech and Signal Processing. IEEE,2016:4960-4964.
[8] R. Prabhavalkar,T. N. Sainath,et al. Minimum Word Error Rate Training for Attention-based Sequence-to-sequence Models [J].IEEE Conference on Acoustics,Speech,and Signal Processing(ICASSP),2018.
作者簡介:孫由玉(1995-),女,漢族,山東濱州人,碩士研究生,研究方向:自然語言處理;孫寶山(1978-),男,漢族,天津人,副教授,工學(xué)博士,研究方向:自然語言處理;盧陽(1992-),女,漢族,天津人,碩士研究生,研究方向:自然語言處理。