鄭 磊
(山東青年政治學(xué)院信息工程學(xué)院,山東濟(jì)南 250103)
隨著數(shù)字時(shí)代的到來(lái),信息爆炸式增長(zhǎng),傳統(tǒng)的以文本形式保存信息的方式已經(jīng)不能滿足現(xiàn)代人對(duì)知識(shí)的需求[1]。聲音作為一種直接記錄和掩飾信息的媒介,在實(shí)時(shí)傳遞信息的同時(shí),將情感傳遞給信息,對(duì)信息的記錄更有價(jià)值[2]。隨著多媒體文件的大量應(yīng)用,基于多媒體數(shù)據(jù)的信息檢索技術(shù)已成為信息學(xué)研究的熱點(diǎn)[3-5]。如何像檢索文本一樣快速、準(zhǔn)確地從各種多媒體文檔中查找最重要的信息成為當(dāng)前關(guān)注的熱點(diǎn)。
本文介紹了語(yǔ)音識(shí)別原理和相關(guān)算法。在此基礎(chǔ)上將深度神經(jīng)網(wǎng)絡(luò)算法(Deep Neural Network,DNN)應(yīng)用于大詞匯量連續(xù)識(shí)別系統(tǒng),建立基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型關(guān)鍵詞檢測(cè)系統(tǒng)。在對(duì)比實(shí)驗(yàn)中,將所提出的深度神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于構(gòu)建聲學(xué)模型,與傳統(tǒng)GMM-HMM 進(jìn)行對(duì)比,深入分析了算法對(duì)識(shí)別系統(tǒng)性能的影響。
關(guān)鍵詞檢測(cè)技術(shù)起源于20 世紀(jì)70 年代,最早研究是基于“給定詞”概念。語(yǔ)音識(shí)別作為關(guān)鍵字檢索的一項(xiàng)關(guān)鍵技術(shù)受到廣泛關(guān)注。2006 年,Mustafamk 等[6]提出深度學(xué)習(xí)概念。微軟研究人員將受限的Boltzmann machime(REM)和深度信念網(wǎng)絡(luò)(DBN)引入到語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練中,在大詞匯量語(yǔ)音識(shí)別系統(tǒng)中取得成功[7]。
我國(guó)語(yǔ)音識(shí)別研究起步較晚。在國(guó)家的大力支持下,中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)院聲學(xué)研究所等科研機(jī)構(gòu)在語(yǔ)音識(shí)別方面進(jìn)行了廣泛研究并取得顯著進(jìn)展。目前,微軟、1BM、谷歌等國(guó)外公司相繼開(kāi)發(fā)了中文語(yǔ)音識(shí)別系統(tǒng)[8-9],中國(guó)的公司如百度訊飛、搜狗也推出了相應(yīng)的中文連續(xù)語(yǔ)音識(shí)別項(xiàng)目。語(yǔ)音識(shí)別技術(shù)與關(guān)鍵字檢測(cè)系統(tǒng)在未來(lái)有著非常廣闊的發(fā)展前景。但是,語(yǔ)音識(shí)別技術(shù)仍然面臨著各種挑戰(zhàn),如無(wú)法有效避免語(yǔ)音識(shí)別錯(cuò)誤等[10]。本文希望通過(guò)對(duì)基于DNN 的語(yǔ)音識(shí)別算法進(jìn)行研究,為提高語(yǔ)音關(guān)鍵字檢索系統(tǒng)語(yǔ)音識(shí)別性能提供新的思路。
一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)包括語(yǔ)音預(yù)處理、語(yǔ)音特征提取、語(yǔ)音模型庫(kù)構(gòu)建、語(yǔ)音模式匹配等功能。對(duì)于錄制的語(yǔ)音信號(hào),首先進(jìn)行語(yǔ)音預(yù)處理操作。預(yù)處理包括采樣、量化、濾波、預(yù)加重、窗口加幀和端點(diǎn)檢測(cè)等步驟,然后進(jìn)行語(yǔ)音信號(hào)特征提取,目的是提取能夠表征語(yǔ)音信號(hào)性質(zhì)的特征參數(shù),去除不相關(guān)的噪聲信號(hào),獲得用于聲學(xué)模型或語(yǔ)音識(shí)別的輸入?yún)?shù)。語(yǔ)音識(shí)別和語(yǔ)音預(yù)處理流程如圖1 所示。
Fig.1 Speech recognition structure and speech preprocessing flow圖1 語(yǔ)音識(shí)別結(jié)構(gòu)和語(yǔ)音預(yù)處理流程
語(yǔ)音識(shí)別的核心是聲學(xué)模式,目前主要采用隱馬爾可夫模型對(duì)語(yǔ)音信號(hào)的時(shí)間變化建模。HMM 每一種狀態(tài)下的觀測(cè)概率估計(jì)方法可分為離散型、半連續(xù)型和連續(xù)型。目前,語(yǔ)音識(shí)別系統(tǒng)主要是連續(xù)或半連續(xù)的。通過(guò)HMM描述聲學(xué)層模型時(shí),隱藏狀態(tài)對(duì)應(yīng)于聲學(xué)層相對(duì)穩(wěn)定的語(yǔ)音狀態(tài),可以描述語(yǔ)音信號(hào)的動(dòng)態(tài)變化。
圖2 中HMM 模型有6 種狀態(tài),其中4 種是啟動(dòng)狀態(tài),第1 種狀態(tài)表示開(kāi)始狀態(tài)。每個(gè)隱藏狀態(tài)會(huì)根據(jù)概率分布向外發(fā)射一個(gè)狀態(tài),然后轉(zhuǎn)到右邊的狀態(tài)。最右邊的結(jié)束狀態(tài)表示HMM 已經(jīng)結(jié)束。在某個(gè)時(shí)間節(jié)點(diǎn)模型有一系列狀態(tài)。在t+1 時(shí),模型的每個(gè)狀態(tài)都會(huì)轉(zhuǎn)到一個(gè)新的狀態(tài),表示一個(gè)新的狀態(tài)序列。這一過(guò)程最重要的特征是T 時(shí)刻狀態(tài)只與t-1 時(shí)刻的狀態(tài)相關(guān),這被稱為馬爾科夫。HMM 基本組成包括:①狀態(tài)集S={s1,s2,...,sN},其中N 表示音素的個(gè)數(shù);②狀態(tài)轉(zhuǎn)移矩陣A;③表示每種狀態(tài)初始概率的輸出分布B={bj(x)} 。
Fig.2 HMM model structure圖2 HMM 模型結(jié)構(gòu)
關(guān)鍵字檢測(cè)系統(tǒng)通常基于大詞匯量連續(xù)語(yǔ)音識(shí)別器。在語(yǔ)音關(guān)鍵字檢索系統(tǒng)中,采用GMM 與HMM 相結(jié)合的GMM-HMM 模型作為L(zhǎng)VCSR 的聲學(xué)模型,但該模型對(duì)語(yǔ)音信號(hào)識(shí)別率較低。隨著深度學(xué)習(xí)技術(shù)在語(yǔ)音識(shí)別領(lǐng)域的發(fā)展,利用DNN 代替GMM 形成DNN-HMM 聲學(xué)模型引起廣泛關(guān)注。DNN 模型是一種具有多層隱含層的前饋神經(jīng)網(wǎng)絡(luò)模型。DNN 模型共有L+1 層,其中0 層為輸入層,1 到L-1 層為隱藏層,L 層是輸出層,相鄰層由前饋權(quán)值矩陣連接。
大多數(shù)情況下DNN 模型激活函數(shù)為Sigmoid 函數(shù):
σ(z)的輸出范圍是(0.1),這有助于獲得稀疏表達(dá)式,但它使得激活值不對(duì)稱。對(duì)于多分類任務(wù),每個(gè)輸出神經(jīng)元代表一類i∈{1,2,…,C},其中C=NL是類的數(shù)量。給定訓(xùn)練準(zhǔn)則可使用眾所周知的誤差反向傳播算法提取模型參數(shù)C=N,并利用鏈?zhǔn)揭?guī)則進(jìn)行推導(dǎo)。模型參數(shù)采用一階導(dǎo)數(shù)信息,按下式進(jìn)行優(yōu)化:
式中:和分別為第t 次迭代更新后第1 層的權(quán)值矩陣和偏差向量。
式(4)和式(5)分別為第t 次迭代后得到的平均權(quán)重矩陣梯度和平均偏差向量梯度,其中ε為學(xué)習(xí)速率,?XJ為J 相對(duì)于x 的梯度。
對(duì)于每個(gè)任務(wù),DNN 的模型參數(shù)需要由訓(xùn)練樣本S={(om,ym)|0 ≤m≤M} 進(jìn)行訓(xùn)練。式中M 為訓(xùn)練樣本個(gè)數(shù),om為第M 個(gè)觀察向量,ym為對(duì)應(yīng)的輸出向量。這個(gè)過(guò)程稱為訓(xùn)練過(guò)程或參數(shù)估計(jì)過(guò)程,需要給出一個(gè)訓(xùn)練標(biāo)準(zhǔn)和一個(gè)學(xué)習(xí)算法,在語(yǔ)音識(shí)別任務(wù)中,通過(guò)聲學(xué)模型訓(xùn)練完成這一過(guò)程。對(duì)于相鄰層間完全連通的DNN,權(quán)值初始化為一個(gè)較小的隨機(jī)值,以避免在一個(gè)擁有相同梯度的層中由于隱藏層太多而難以優(yōu)化所有隱藏單元。DNN 可能需要擴(kuò)展到測(cè)試數(shù)據(jù)集之外。語(yǔ)音符號(hào)是時(shí)間序列信號(hào),DNN 不能直接對(duì)其建模。利用HMM 對(duì)語(yǔ)音信號(hào)的動(dòng)態(tài)變化進(jìn)行建模,利用DNN 估計(jì)觀測(cè)概率。DNN-HMM 模型結(jié)構(gòu)如圖3 所示。
DNN-HMM 訓(xùn)練步驟如下:①將訓(xùn)練集與常規(guī)訓(xùn)練的DNN-HMM 模型進(jìn)行對(duì)齊,得到對(duì)齊信息;②建立上下文敏感狀態(tài)到語(yǔ)音ID 的映射;③根據(jù)訓(xùn)練DNN 所需的輸入和輸出標(biāo)簽生成信息;④獲取DNN 中需要的HMM 模型結(jié)構(gòu);⑤基于輸入和輸出標(biāo)簽估計(jì)語(yǔ)音的先驗(yàn)概率,利用反向傳播算法調(diào)整網(wǎng)絡(luò)參數(shù)得到DNN-HMM 模型。
Fig.3 DNN-HMM model structure圖3 DNN-HMM 模型結(jié)構(gòu)
本實(shí)驗(yàn)選擇開(kāi)源中文普通話語(yǔ)音數(shù)據(jù)庫(kù)aishell,對(duì)同一揚(yáng)聲器的測(cè)試集執(zhí)行數(shù)據(jù)庫(kù)中的語(yǔ)音材料。在安靜環(huán)境下使用電腦錄音軟件Cool Edit Pro 錄制語(yǔ)音信息,挑選8名演講者依次閱讀20 個(gè)教育詞匯,每個(gè)單詞讀10 次。采樣頻率設(shè)置為8kHz,每個(gè)采樣點(diǎn)被量化16 位并存儲(chǔ)在單聲道中,共獲得1 600 個(gè)語(yǔ)音樣本作為訓(xùn)練和識(shí)別語(yǔ)料庫(kù)。以前3 道和后3 道作為訓(xùn)練集,共有960 個(gè)樣本,使用中間4個(gè)樣本作為同一揚(yáng)聲器測(cè)試集,共640 個(gè)樣本。
在語(yǔ)音信號(hào)特征提取中,從訓(xùn)練集和同一說(shuō)話人測(cè)試集的每個(gè)預(yù)處理語(yǔ)音樣本中提取24 維Mel-frequency Ceps?trum(MFC)系數(shù)特征,并采用均值方差對(duì)其進(jìn)行正則化,該功能窗口大小為25ms,重疊時(shí)間為10ms。比較傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型和DNN 模型的語(yǔ)音識(shí)別性能,以語(yǔ)音識(shí)別正確率作為評(píng)價(jià)標(biāo)準(zhǔn),數(shù)值均為統(tǒng)計(jì)平均值。
語(yǔ)音關(guān)鍵字檢索系統(tǒng)包括系統(tǒng)索引和關(guān)鍵字檢索。其中,索引由索引語(yǔ)音識(shí)別、后處理語(yǔ)音識(shí)別、索引構(gòu)建組成。關(guān)鍵字檢索由關(guān)鍵字檢查和置信度評(píng)估兩部分組成,如圖4 所示。語(yǔ)音識(shí)別錯(cuò)誤和外來(lái)詞嚴(yán)重影響系統(tǒng)的查全率,模糊匹配方法能有效提高召回率,但增加了查詢時(shí)間。在關(guān)鍵字查詢過(guò)程中,可以在超類數(shù)據(jù)庫(kù)中執(zhí)行初始快速查找以縮小搜索范圍,然后在音節(jié)序列數(shù)據(jù)庫(kù)中執(zhí)行精確的查詢以加快搜索速度。
Fig.4 Composition of voice keyword retrieval system圖4 語(yǔ)音關(guān)鍵字檢索系統(tǒng)組成
語(yǔ)音關(guān)鍵字檢索系統(tǒng)依賴于識(shí)別結(jié)果,因此語(yǔ)音識(shí)別的性能對(duì)系統(tǒng)的檢索性能有著至關(guān)重要的影響。語(yǔ)音識(shí)別系統(tǒng)性能通常是通過(guò)識(shí)別錯(cuò)誤率和實(shí)時(shí)率來(lái)評(píng)價(jià)的。在語(yǔ)音關(guān)鍵字檢索系統(tǒng)中,語(yǔ)音數(shù)據(jù)的識(shí)別過(guò)程可以離線進(jìn)行而不必考慮實(shí)時(shí)指標(biāo)。識(shí)別結(jié)果表明,錯(cuò)誤類型包括插入錯(cuò)誤、刪除錯(cuò)誤和替換錯(cuò)誤。將識(shí)別最佳結(jié)果與參考文本進(jìn)行比較,可以得到識(shí)別錯(cuò)誤率。
語(yǔ)音信號(hào)特征參數(shù)的幀數(shù)設(shè)置為23,選取非線性tanh函數(shù)作為激活函數(shù)。輸出為30 個(gè)神經(jīng)元,使輸出神經(jīng)元的數(shù)目與待分類神經(jīng)元數(shù)目相同。以估計(jì)概率分布與實(shí)際概率提取之間的高斯熵作為目標(biāo)函數(shù),當(dāng)語(yǔ)音識(shí)別精度提高到0.2%以下時(shí)停止迭代。不同語(yǔ)音識(shí)別算法的識(shí)別準(zhǔn)確率結(jié)果如表1 所示。
Table 1 Recognition accuracy of different speech recognition algorithms表1 不同語(yǔ)音識(shí)別算法的識(shí)別精度 (%)
如表1 所示,基于LSTM-HMM 和DNN-HMM 模型的語(yǔ)音識(shí)別準(zhǔn)確率明顯高于傳統(tǒng)的GMM-HMM 模型,同時(shí)LSTM-HMM 模型的語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到96.5%,表明該模型具有更好的性能。LSTM 訓(xùn)練參數(shù)大小為436 570,DNN訓(xùn)練參數(shù)大小為698 100,GMM 訓(xùn)練參數(shù)大小為1 226 700。在訓(xùn)練集語(yǔ)音樣本有限的情況下,訓(xùn)練模型的過(guò)擬合會(huì)導(dǎo)致訓(xùn)練模型過(guò)擬合問(wèn)題。因此,基于DNN 的語(yǔ)音識(shí)別可以減小訓(xùn)練參數(shù)大小,有效避免訓(xùn)練模型的過(guò)擬合。
語(yǔ)音信號(hào)具有很強(qiáng)的隨機(jī)性,同一語(yǔ)音單元擴(kuò)展的語(yǔ)音特征參數(shù)及幀數(shù)可能不同,規(guī)則幀數(shù)對(duì)不同算法識(shí)別性能的影響如圖5 所示。隨著規(guī)則幀數(shù)的增加,輸入與原始特征參數(shù)的距離越來(lái)越近,兩種網(wǎng)絡(luò)模型的識(shí)別精度不斷提高。模型是通過(guò)隨機(jī)梯度下降法計(jì)算均方誤差,然后通過(guò)調(diào)整網(wǎng)絡(luò)參數(shù)減小均方誤差來(lái)實(shí)現(xiàn)。因此,網(wǎng)絡(luò)模型的收斂性直接反映了整體性能是否優(yōu)越。
Fig.5 Influence of regular frame number on recognition performance of different algorithms圖5 規(guī)則幀數(shù)對(duì)不同算法識(shí)別性能的影響
為解決傳統(tǒng)關(guān)鍵字檢測(cè)系統(tǒng)中GMM-HMM 聲學(xué)模型的低識(shí)別率問(wèn)題,本文將基于DNN 的語(yǔ)音識(shí)別算法應(yīng)用于關(guān)鍵字檢測(cè)。使用DNN-HMM 聲學(xué)模型代替原系統(tǒng)中的GMM-HMM 模型,并在此基礎(chǔ)上對(duì)關(guān)鍵字檢測(cè)進(jìn)行研究。通過(guò)對(duì)比實(shí)驗(yàn)選擇一個(gè)開(kāi)源普通話語(yǔ)音數(shù)據(jù)庫(kù)——aishell,它是在同一個(gè)揚(yáng)聲器的測(cè)試裝置上播放的。在安靜環(huán)境下,使用電腦錄音軟件Cool Edit Pro 錄制語(yǔ)音信息。實(shí)驗(yàn)表明,基于LSTM-HMM 模型和DNN-HMM 模型的語(yǔ)音識(shí)別準(zhǔn)確率分別為96.5% 和91.6%,顯著高于GMMHMM 的78.5%,說(shuō)明本文提出的LSTM-HMM 模型性能更好。在訓(xùn)練集語(yǔ)音樣本有限的情況下,會(huì)產(chǎn)生訓(xùn)練參數(shù)尺度過(guò)大、訓(xùn)練模型過(guò)擬合問(wèn)題?;贒NN 的語(yǔ)音識(shí)別算法可以減小訓(xùn)練參數(shù)尺度,從而有效避免訓(xùn)練模型過(guò)擬合問(wèn)題。
基于LSTM-HMM 的語(yǔ)音識(shí)別技術(shù)具有較高的準(zhǔn)確率,更適合于語(yǔ)音關(guān)鍵字檢索。但在復(fù)雜語(yǔ)音環(huán)境下,關(guān)鍵字檢測(cè)的魯棒性仍有很大的提升空間。因此,后續(xù)研究可以探索提取更魯棒的聲學(xué)特征方向,在有噪聲干擾的情況下準(zhǔn)確檢索所需的語(yǔ)音信息。