張偉濤 米吉提·阿不里米提 鄭方 艾斯卡爾·艾木都拉
DOI:10.16644/j.cnki.cn33-1094/tp.2021.11.006
摘? 要: 語(yǔ)音識(shí)別中的一個(gè)重要的分支就是關(guān)鍵詞檢索。雖然在英語(yǔ)上的關(guān)鍵詞檢索已經(jīng)成熟,但是低資源的語(yǔ)音,比如維語(yǔ)的語(yǔ)音關(guān)鍵詞檢索研究緩慢,仍需要更深入的研究。文章在維吾爾語(yǔ)語(yǔ)數(shù)據(jù)集thuyg20上,先在GMM-HMM(Gaussian Mixture Model Hidden Markov Model)聲學(xué)模型,DNN-HMM(Hidden Markov Model Deep Neural Network)聲學(xué)模型,LSTM-HMM(Long Short-term Memory Hidden Markov Model)聲學(xué)模型解碼產(chǎn)生的網(wǎng)格lattice上捕捉關(guān)鍵詞,將DNN-HMM和LSTM-HMM解碼產(chǎn)生的網(wǎng)格進(jìn)行融合,再在融合的網(wǎng)格lattice上進(jìn)行關(guān)鍵詞檢索。實(shí)驗(yàn)結(jié)果表明,融合后的結(jié)果在準(zhǔn)確率和召回率方面要優(yōu)于DNN-HMM和LSTM-HMM模型的檢索性能。
關(guān)鍵詞: 維吾爾語(yǔ); 低資源; 語(yǔ)音關(guān)鍵詞檢索; 深度神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2021)11-21-04
Uyghur speech keyword retrieval based on deep neural network
Zhang Weitao, Mijit Ablimit, Zheng Fang, Askar Hamdulla
(College of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046, China)
Abstract: An important branch of speech recognition is keyword retrieval. Although keyword retrieval in English has become mature, the research on low-resource speech,such as Uyghur speech keyword retrieval, is slow and still needs more in-depth research. On the Uyghur language data set thuyg20, the keywords are captured on the lattice generated by decoding with the acoustic models of GMM-HMM (Gaussian Mixture Model Hidden Markov Model) acoustic model, DNN-HMM (Hidden Markov Model Deep Neural Network) acoustic model and LSTM-HMM (Long Short-term Memory Hidden Markov Model), merge the lattices generated by the DNN-HMM and LSTM-HMM decoding, and then perform keyword search on the merged lattice. The experimental results show that the fusion result is better than the retrieval performance of the DNN-HMM and LSTM-HMM models in terms of accuracy and recall.
Key words: Uyghur; low resources; speech keyword retrieval; deep neural network
0 引言
雖然在維吾爾語(yǔ)的語(yǔ)音識(shí)別ASR系統(tǒng)有了許多研究成果[1],但是關(guān)于維吾爾語(yǔ)的語(yǔ)音關(guān)鍵詞檢索卻比較緩慢,缺乏深入的研究。在如今移動(dòng)終端以及多媒體信息爆炸性增長(zhǎng)的年代,多語(yǔ)言語(yǔ)音信息的檢索研究在社會(huì)發(fā)展、網(wǎng)絡(luò)安全、輿情分析等多個(gè)領(lǐng)域有很重要的現(xiàn)實(shí)意義,所以應(yīng)進(jìn)一步推進(jìn)低資源語(yǔ)言語(yǔ)音檢索的研究。
首先對(duì)維吾爾語(yǔ)語(yǔ)音聲學(xué)單元建模,進(jìn)行連續(xù)語(yǔ)音識(shí)別,再在此基礎(chǔ)上進(jìn)行維吾爾語(yǔ)語(yǔ)音關(guān)鍵詞的檢索。由識(shí)別和索引兩部分組成[2],關(guān)鍵詞檢索的方法通常都是用關(guān)鍵詞的模板,在連續(xù)語(yǔ)音流中進(jìn)行匹配查找,比如DTW(Dynamic Time Warping)方法和DTW的不同變體等[3]。表示關(guān)鍵詞模板的方法有GMM模型[4-5]、HMM模型[6]、DNN[7-8]等,他們對(duì)各種特征進(jìn)行匹配,這些特征包括Speech spectrum、MFCC、PLP、LPC[9]等等。但是這種用關(guān)鍵詞模板匹配的方法適用于較小的數(shù)據(jù)量進(jìn)行關(guān)鍵詞檢索,并且用不同的模板去表示關(guān)鍵詞有很大的不同。影響關(guān)鍵詞檢索準(zhǔn)確的因素有標(biāo)記錯(cuò)誤,噪聲,信道不同等[10]。隨著大詞匯量連續(xù)語(yǔ)音識(shí)別準(zhǔn)確率和效率的不斷提高,可以在連續(xù)語(yǔ)音識(shí)別的基礎(chǔ)上進(jìn)行語(yǔ)音關(guān)鍵詞檢索,通常比DTW模板匹配的結(jié)果較好,所以連續(xù)語(yǔ)音關(guān)鍵詞檢索具有很好的應(yīng)用價(jià)值[11]。
漢語(yǔ)、英語(yǔ)等大語(yǔ)言相關(guān)研究很多,如漢語(yǔ)語(yǔ)音關(guān)鍵詞檢索,在文獻(xiàn)[12]里檢索達(dá)到了80.76%的準(zhǔn)確率。由于在實(shí)際環(huán)境中,噪聲、個(gè)性化、情緒等眾多因素的影響,檢測(cè)正確率還會(huì)大幅降低。
1 系統(tǒng)總體框架
維語(yǔ)音關(guān)鍵詞檢索的總體流程是,首先進(jìn)行維語(yǔ)語(yǔ)音識(shí)別,解碼產(chǎn)生相應(yīng)的lattice,再進(jìn)行語(yǔ)音關(guān)鍵詞檢索。其實(shí)lattice只是在語(yǔ)音識(shí)別的過(guò)程中產(chǎn)生的中間結(jié)果,是一個(gè)由測(cè)試集生成的網(wǎng)格,網(wǎng)格里面包含測(cè)試集的每條句子的每個(gè)候選詞;由每條測(cè)試集句子解碼并聯(lián)起來(lái)的一個(gè)龐大的網(wǎng)格;網(wǎng)格是以加權(quán)有限狀態(tài)轉(zhuǎn)換器形式的存在,檢索的時(shí)候也需要將檢索的關(guān)鍵詞轉(zhuǎn)換成加權(quán)有限狀態(tài)轉(zhuǎn)換器的形式在網(wǎng)格上進(jìn)行索引,進(jìn)而在lattice進(jìn)行語(yǔ)音關(guān)鍵詞檢索,通過(guò)置信度判斷是否是關(guān)鍵詞,關(guān)鍵詞檢索的流程如圖1所示。
本文建立GMM,DNN,LSTM,HMM等各種LVCSR系統(tǒng)模型。GMM-HMM模型如圖2所示,DNN-HMM模型如圖3所示,LSTM-HMM模型如圖4所示。GMM,DNN,LSTM都在擬合同一個(gè)觀測(cè)序列的概率分布,然后作為HMM的觀測(cè)狀態(tài)概率矩陣;從HMM指向GMM,DNN,LSTM的箭頭是指HMM的某個(gè)狀態(tài)的觀測(cè)概率由某一個(gè)GMM,DNN,LSTM的某一個(gè)輸出節(jié)點(diǎn)決定;最主要的的差別是利用DNN和LSTM代替了GMM實(shí)現(xiàn)了狀態(tài)概率的輸出;后驗(yàn)概率可以看作是有監(jiān)督學(xué)習(xí),根據(jù)觀測(cè)值去求狀態(tài)值,而DNN和LSTM是根據(jù)觀測(cè)值逆向傳播的過(guò)程,屬于有監(jiān)督學(xué)習(xí);另外經(jīng)過(guò)softmax輸出,就能得到后驗(yàn)概率了。
在圖2 GMM-HMM中,HMM的每一個(gè)狀態(tài)的概率分布由GMM擬合。一個(gè)狀態(tài)X由一個(gè)GMM表征,同時(shí)相鄰的GMM之間沒有很強(qiáng)的相關(guān)性;GMM模型輸出的似然概率就是HMM狀態(tài)的輸出的觀測(cè)概率P(Y|X)。
在圖3中,HMM的每一個(gè)狀態(tài)的概率分布由DNN擬合。DNN一個(gè)輸出節(jié)點(diǎn)對(duì)應(yīng)一個(gè)狀態(tài),為了考慮上下文相關(guān)信息,通常送入DNN的是2n+1幀;DNN作為判別模型是直接對(duì)給定的觀測(cè)序列Y后狀態(tài)的分布進(jìn)行建模,也是監(jiān)督學(xué)習(xí),網(wǎng)絡(luò)的輸出P(X|Y)表示不同音素的后驗(yàn)概率,根據(jù)貝葉斯公式需轉(zhuǎn)換為不同音素的似然概率P(Y|X)。
在圖4中,HMM的每一個(gè)狀態(tài)的概率分布由LSTM擬合。LSTM一個(gè)輸出節(jié)點(diǎn)對(duì)應(yīng)一個(gè)狀態(tài),為了考慮上下文相關(guān)信息,通常送入LSTM的是2n+1幀;LSTM作為判別模型是直接對(duì)給定的觀測(cè)序列Y后狀態(tài)的分布進(jìn)行建模,也是監(jiān)督學(xué)習(xí),網(wǎng)絡(luò)的輸出P(X|Y)表示不同音素的后驗(yàn)概率,根據(jù)貝葉斯公式需轉(zhuǎn)換為不同音素的似然概率P(Y|X)。
相同點(diǎn),HMM的狀態(tài)初始概率和轉(zhuǎn)態(tài)轉(zhuǎn)移概率都不變,HMM仍然是對(duì)時(shí)序進(jìn)行建模。
2 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
實(shí)驗(yàn)中,維吾爾語(yǔ)語(yǔ)音關(guān)鍵詞檢索所使用的語(yǔ)音語(yǔ)料包括,訓(xùn)練集有7600條音頻和文本句子,驗(yàn)證集有400條音頻和文本句子,測(cè)試集有1468條音頻和文本句子[13]。語(yǔ)料庫(kù)的數(shù)據(jù)集如表1所示。
3 實(shí)驗(yàn)結(jié)果及分析
維語(yǔ)語(yǔ)音識(shí)別詞錯(cuò)誤率和維語(yǔ)的關(guān)鍵詞檢索結(jié)果,分別如表2和表3所示。維語(yǔ)語(yǔ)音在不同的聲學(xué)模型中識(shí)別詞錯(cuò)率的情況和關(guān)鍵詞檢索性能。本文發(fā)現(xiàn),維吾爾語(yǔ)DNN-HMM比mono識(shí)別率提升了28.54%;LSTM-HMM比mono識(shí)別率提升了31.24%,與DNN-HMM識(shí)別率相比提升了2.7%;LSTM-HMM模型對(duì)于維語(yǔ)的語(yǔ)音關(guān)鍵詞檢索準(zhǔn)確率達(dá)到了90.53%。
3.1 基于DNN-HMM聲學(xué)模型
使用DNN-HMM聲學(xué)模型做語(yǔ)音關(guān)鍵詞檢索;維吾爾語(yǔ)實(shí)際總的關(guān)鍵詞詞數(shù)1602,用F4DE獲得,檢出正確的關(guān)鍵詞數(shù)為1444,檢索到的關(guān)鍵詞數(shù)為1616,虛警數(shù)為172,由關(guān)鍵詞檢索的評(píng)價(jià)的公式可得,召回率為90.14%,準(zhǔn)確率為89.36%,虛警率為10.74%。
3.2 基于LSTM-HMM聲學(xué)模型
使用LSTM-HMM聲學(xué)模型做語(yǔ)音關(guān)鍵詞檢索,維語(yǔ)實(shí)際總的關(guān)鍵詞數(shù)為1602,使用F4DE獲得,檢出正確的關(guān)鍵詞數(shù)為1463,檢索出總的關(guān)鍵詞數(shù)為1616,虛警的關(guān)鍵詞數(shù)為153,根據(jù)關(guān)鍵詞檢索出系統(tǒng)性能評(píng)價(jià)指標(biāo)得,準(zhǔn)確率為90.53%,召回率91.32%,虛警率為9.55%。
通過(guò)實(shí)驗(yàn)對(duì)別發(fā)現(xiàn)在不同的聲學(xué)模型上,維語(yǔ)的關(guān)鍵詞檢出的查準(zhǔn)率,虛警率,召回率都有所不同,但是在LSTM-HMM模型上的性能最佳,維吾爾語(yǔ)達(dá)到了90.53%,相比于單音素而言提升34.28%。 相比于高斯混合模型而言,LSTM網(wǎng)絡(luò)更能擬合數(shù)據(jù)的分布,進(jìn)而提高關(guān)鍵詞檢出的準(zhǔn)確率。
4 基于系統(tǒng)融合的維語(yǔ)語(yǔ)音關(guān)鍵詞檢出
據(jù)文獻(xiàn)[14]所得,語(yǔ)音識(shí)別系統(tǒng)性能相近的結(jié)果,可以進(jìn)行系統(tǒng)融合從而提高系統(tǒng)的識(shí)別性能,本文的LSTM-HMM和DNN-HMM語(yǔ)音識(shí)別系統(tǒng)性能較近且較好,借鑒文獻(xiàn)[15]的網(wǎng)格合并的方法融合系統(tǒng)。
網(wǎng)格融合是將兩個(gè)網(wǎng)格的開始節(jié)點(diǎn)合并到一個(gè)新的開始節(jié)點(diǎn),從而可以將兩個(gè)網(wǎng)格合并到一個(gè)拓?fù)浣Y(jié)構(gòu)中,合并后的網(wǎng)格增大了對(duì)正確內(nèi)容的覆蓋率。詞圖合并的方法如圖5所示。
在圖5中,詞圖網(wǎng)格L1用A表示,詞圖網(wǎng)格L2用B表示,詞圖網(wǎng)格L1和詞圖網(wǎng)格L2的融合用用A U B表示,不同網(wǎng)格單元之間的轉(zhuǎn)移關(guān)系可以用(x:y/w)表示,x為輸入,y為輸出,w為權(quán)重,eps為空符號(hào)。在網(wǎng)格A中,網(wǎng)格單元0到網(wǎng)格單元1的轉(zhuǎn)移中,輸入為b,輸出為p,權(quán)重為3,詞圖網(wǎng)格L1和詞圖網(wǎng)格L2的融合,就是將詞圖網(wǎng)格L1的起始節(jié)點(diǎn)和詞圖網(wǎng)格L2的起始節(jié)點(diǎn)合并成一個(gè)共同的起始節(jié)點(diǎn)0。不同網(wǎng)格之間的轉(zhuǎn)移關(guān)系可以用(eps:eps/0),其他的網(wǎng)格單元之間的轉(zhuǎn)移關(guān)系不變;然后按順序改變每個(gè)詞圖單元網(wǎng)格的編號(hào),合并后的詞圖網(wǎng)格上部分為詞圖L1,下部分為詞圖L2,通過(guò)對(duì)比發(fā)現(xiàn)只是原始詞圖網(wǎng)格的編號(hào)發(fā)生了變化,網(wǎng)格單元之間的轉(zhuǎn)移關(guān)系沒有發(fā)生變化,合并后的詞圖網(wǎng)格,可以提高正確識(shí)別的概率。
系統(tǒng)融合前后的維語(yǔ)語(yǔ)音關(guān)鍵詞檢索系統(tǒng)性能比較,如表4所示。將LSTM和DNN解碼產(chǎn)生的網(wǎng)格進(jìn)行融合,融合后將會(huì)產(chǎn)生一個(gè)大的網(wǎng)格圖,可以增加對(duì)正確識(shí)別內(nèi)容的覆蓋率,所以對(duì)于LSTM-HMM聲學(xué)模型的關(guān)鍵詞檢出系統(tǒng),維語(yǔ)的準(zhǔn)確率提高了1.72%;對(duì)于DNN-HMM聲學(xué)模型的關(guān)鍵詞檢出系統(tǒng)維語(yǔ)的準(zhǔn)確率提高了2.89%,可將融合后的系統(tǒng)用于關(guān)鍵詞檢出準(zhǔn)確率要求較高的應(yīng)用場(chǎng)景。
5 結(jié)束語(yǔ)
本文在kaldi中搭建了完整的語(yǔ)音關(guān)鍵詞檢索系統(tǒng),使用thuyg20數(shù)據(jù)集,使用了不同的聲學(xué)模型,在語(yǔ)音識(shí)別解碼產(chǎn)生的網(wǎng)格lattice上進(jìn)行語(yǔ)音關(guān)鍵詞檢索。實(shí)驗(yàn)結(jié)果表明,DNN-HMM和LSTM-HMM模型的檢索性能好于GMM-HMM檢索性能,與GMM相比DNN和LSTM更能準(zhǔn)確的擬合語(yǔ)音數(shù)據(jù)的不同分布情況;為了增大對(duì)正確識(shí)別內(nèi)容的覆蓋率,將DNN和LSTM的解碼網(wǎng)絡(luò)進(jìn)行融合,產(chǎn)生更大的網(wǎng)格進(jìn)行語(yǔ)音關(guān)鍵詞檢索,網(wǎng)格融合后的效果要好于DNN-HMM和LSTM-HMM模型的檢索性能。為了進(jìn)一步驗(yàn)證網(wǎng)格融合系統(tǒng)性能的有效性,可以將該方法用于哈薩克語(yǔ),柯爾克孜語(yǔ)語(yǔ)音關(guān)鍵詞檢索。
參考文獻(xiàn)(References):
[1] 沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉.基于詞干單元的維-哈語(yǔ)文本關(guān)鍵詞提取研究[J].計(jì)算機(jī)工程與科學(xué),2020.42(1):131-137
[2] 李娜,葛萬(wàn)成.語(yǔ)音關(guān)鍵詞識(shí)別系統(tǒng)的模型訓(xùn)練及性能評(píng)價(jià)[J].信息通信,2020.3:8-10
[3] 侯靖勇,謝磊,楊鵬等.基于DTW的語(yǔ)音關(guān)鍵詞檢出[C].全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議,2015.
[4] Manish Gupta,Shambhu Shankar Bharti,Suneeta Agarwal.?Gender-based speaker recognition from speech signals using GMM model[J]. Modern Physics Letters B,2019.33(35).
[5] GMM Estimation of Non-Gaussian Structural Vector Autoregression[J]. Journal of Business & Economic Statistics,2021.39(1).
[6] 馮怡林.基于HMM和DNN混合模型研究的語(yǔ)音識(shí)別技術(shù)[D].河北科技大學(xué),2020.
[7] Sun M, Snyder D, Gao Y, et al. Compressed Time Delay Neural Network for Small-Footprint Keyword Spotting[C].conference of the international speech communication association,2017:3607-3611
[8] Chen G, Parada C, Heigold G, et al. Small-footprint keyword spotting using deep neural networks[C].international conference on acoustics,speech,and signal processing,2014:4087-4091
[9] 羅元,吳承軍,張毅,黎小松,席兵.Mel頻率下于LPC的語(yǔ)音信號(hào)深度特征提取算法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2016.28(2):174-179
[10] 張舸,張鵬遠(yuǎn),劉建,顏永紅.基于動(dòng)態(tài)時(shí)間規(guī)整的語(yǔ)音關(guān)鍵詞檢索算法[J].網(wǎng)絡(luò)新媒體技術(shù),2019.8(1):18-23
[11] 李寶祥.語(yǔ)音關(guān)鍵詞檢索若干問題的研究[D].北京郵電大學(xué),2013.
[12] 侯云飛.中文語(yǔ)音關(guān)鍵詞檢出技術(shù)研究[D].南京理工大學(xué),2017.
[13] 艾斯卡爾·肉孜,殷實(shí),張之勇等.THUYG-20:免費(fèi)的維吾爾語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2017.57(2):182-187
[14] 李偉.基于內(nèi)容的漢語(yǔ)語(yǔ)音檢索技術(shù)研究與系統(tǒng)實(shí)現(xiàn)[D].清華大學(xué),2011.
[15] 李鵬,屈丹.基于得分歸一化和系統(tǒng)融合的語(yǔ)音關(guān)鍵詞檢測(cè)方法[J].數(shù)據(jù)采集與處理,2017.32(2):346-353