楊 博,何振華,馮立恒,郭 星,毛疆華
(1. 中國鐵路北京局集團(tuán)有限公司 調(diào)度所,北京 100036;2. 鄭州信大先進(jìn)技術(shù)研究院,鄭州 450000;3. 河南信大煜坤智能科技有限公司,鄭州 450000)
調(diào)度所是鐵路日常運(yùn)輸組織的指揮中樞,調(diào)度員口頭指示非常嚴(yán)肅,直接關(guān)系到運(yùn)輸生產(chǎn)效率與調(diào)度指揮安全,因此調(diào)度用語的標(biāo)準(zhǔn)化執(zhí)行與檢查工作尤為重要。日常調(diào)度錄音數(shù)據(jù)量龐大,對調(diào)度員的語音檢查只能通過錄音回放、人耳分辨形式進(jìn)行抽樣檢查,關(guān)鍵信息不能高效定位,無法滿足對全量調(diào)度語音進(jìn)行快捷有效檢查分析的需求。
針對上述情況,通過關(guān)鍵詞識別可實現(xiàn)對調(diào)度語音結(jié)果自動分析,智能快速查找關(guān)鍵信息,自動定位不規(guī)范用語、非正常情況的關(guān)鍵詞,并將結(jié)果直接反饋給相關(guān)人員,提升語音檢查效率,提高非正常情況處置速度,輔助調(diào)度語音標(biāo)準(zhǔn)化和應(yīng)急處置管理工作。
關(guān)鍵詞識別是一種從連續(xù)的音頻流中檢測出特定關(guān)鍵詞的語音技術(shù)[1]。過去40多年中,出現(xiàn)過許多技術(shù)用來解決關(guān)鍵詞識別任務(wù),主要可以劃分為3類:基于模板的關(guān)鍵詞識別技術(shù)、基于關(guān)鍵詞-廢料模型(Keyword-Filler Model)的關(guān)鍵詞識別技術(shù)[2]和基于大詞匯量連續(xù)語音識別的關(guān)鍵詞識別技術(shù)[3]。
(1)基于模板的關(guān)鍵詞識別是利用特定關(guān)鍵詞的已知語音片段,去匹配待檢測語音中的語音片段,是最早被用到關(guān)鍵詞識別任務(wù)的技術(shù)之一。如果待檢測語音片段中存在與模板相似的片段,則認(rèn)為此語音片段中包含關(guān)鍵詞。其主要分為2步,分別是模板生成和模板匹配。模板生成是將關(guān)鍵詞語音片段轉(zhuǎn)換成代表關(guān)鍵詞特征的模板的過程,常見的模板有原始語音片段、從原始語音片段提取出的梅爾頻率倒譜系數(shù)(MFCC,Mel-Frequency Cepstral Coefficient)和原始語音片段經(jīng)過神經(jīng)網(wǎng)絡(luò)得到的后驗概率等。模板匹配則是利用第1步生成的模板到待檢測音頻中進(jìn)行匹配,找到關(guān)鍵詞的過程,主要使用基于動態(tài)時間規(guī)整的方法。
(2)基于關(guān)鍵詞-廢料模型的關(guān)鍵詞識別是對關(guān)鍵詞和廢料進(jìn)行建模,廢料是指不包含關(guān)鍵詞的其他語音片段,將待檢測語音片段輸入系統(tǒng)進(jìn)行識別,對齊到關(guān)鍵詞或廢料模型上判斷是否包含關(guān)鍵詞。關(guān)鍵詞和廢料模型通常使用隱馬爾可夫模型(HMM,Hidden Markov Models)建模。這種方法模型簡單、參數(shù)量少、計算資源耗費低,多用于對實時性要求比較高的智能終端設(shè)備中。這種方法由于需要事先對關(guān)鍵詞進(jìn)行建模,用于檢測預(yù)定義的關(guān)鍵詞,如需增加額外關(guān)鍵詞,則需要對新增關(guān)鍵詞及系統(tǒng)識別模型重新進(jìn)行建模訓(xùn)練。
(3)基于大詞匯量連續(xù)語音識別的關(guān)鍵詞識別技術(shù)是先通過語音識別系統(tǒng)將待檢測語音數(shù)據(jù)轉(zhuǎn)寫為文本數(shù)據(jù),利用文本數(shù)據(jù)生成用來搜索關(guān)鍵詞的倒排索引,并直接從倒排索引中搜索文本關(guān)鍵詞。在實踐中,經(jīng)常會利用語音識別系統(tǒng)產(chǎn)生的詞格,將語音識別備選詞也列入到搜索范圍中以提高準(zhǔn)確率。由于大量詞匯連續(xù)語音識別只能將語音數(shù)據(jù)轉(zhuǎn)換成詞匯表中事先定義好的詞匯,所以在搜索集外詞、關(guān)鍵詞時也會應(yīng)用一些特殊的技巧,如模糊搜索、子詞系統(tǒng)等。這種方法常用于檢測非預(yù)定義的關(guān)鍵詞,其檢測的目標(biāo)通常為數(shù)據(jù)量較大的音頻,部署在計算資源和存儲空間都比較充足的設(shè)備上面,如PC、服務(wù)器或云計算平臺等。
目前,關(guān)鍵詞識別技術(shù)有2類主流的應(yīng)用,語音檢索和語音喚醒。
(1)語音檢索的主要任務(wù)是從海量的語音數(shù)據(jù)庫中找到感興趣的關(guān)鍵詞,并返回相應(yīng)的位置。語音檢索可被應(yīng)用到音視頻內(nèi)容的搜索上。
(2)語音喚醒的主要任務(wù)是實時地從音頻數(shù)據(jù)流中檢測出事先定義好的關(guān)鍵詞,被廣泛地應(yīng)用于語音助手中,如各個品牌手機(jī)的語音助手及智能音箱設(shè)備都使用了語音喚醒技術(shù),檢測各自設(shè)備的喚醒詞。由于語音喚醒技術(shù)運(yùn)行在設(shè)備端上,并需能實時地從語音數(shù)據(jù)流中檢測出關(guān)鍵詞,因此對算法的計算復(fù)雜度和實時率都有較高的要求。
本文討論的應(yīng)用場景不限于鐵路調(diào)度語音監(jiān)督應(yīng)用場景,同時希望將關(guān)鍵詞識別技術(shù)應(yīng)用于特定環(huán)境下的專業(yè)詞匯檢測,以此規(guī)范工作流程。
目前,大量詞匯連續(xù)語音識別針對方言的識別效果一般,如果重新訓(xùn)練針對方言的連續(xù)語音識別模型,則需大量語音數(shù)據(jù),這就需要長時間且大量的數(shù)據(jù)標(biāo)注工作,在短時間內(nèi)完成的可能性比較小。且此種特定專業(yè)方向的識別內(nèi)容中包含大量專業(yè)詞匯,這些專業(yè)詞匯不會存在于一般場景所訓(xùn)練的連續(xù)語音識別系統(tǒng)的詞匯表中,這也給基于連續(xù)語音識別的關(guān)鍵詞識別帶來了難度。此外,基于連續(xù)語音識別的關(guān)鍵詞檢測在實際部署過程中會需要較高的計算成本,對實時率要求也很難滿足。
由于在需求場景的工作流程中,所需要檢測的關(guān)鍵詞相對比較固定,因此,我們擬采用基于關(guān)鍵詞-廢料模型的關(guān)鍵詞識別技術(shù),利用一種端到端[4]的訓(xùn)練方法完成這種場景下的關(guān)鍵詞識別任務(wù)。在語料標(biāo)注過程中只需標(biāo)注出關(guān)鍵詞,節(jié)省了標(biāo)注所需的人力成本和時間成本。這套方法可識別的關(guān)鍵詞比較固定,如果想后期添加關(guān)鍵詞則需要重新建模,不過對于需求場景產(chǎn)生的影響較小。另外,這種方法也易于在移動終端平臺部署且能滿足實時率要求。
本文所使用的基于關(guān)鍵詞-廢料模型的識別系統(tǒng)由特征提取、聲學(xué)模型、語言模型及解碼器模塊組成,如圖1所示。
(1)特征提取模塊是針對輸入的音頻信號序列進(jìn)行聲學(xué)特征提取,所提取的聲學(xué)特征為MFCC。提取過程包括預(yù)處理、快速傅里葉變換、梅爾濾波器組、對數(shù)運(yùn)算、離散余弦變換和動態(tài)特征提取等步驟。
(2)聲學(xué)模型部分表示單詞音素狀態(tài)對應(yīng)到語音序列聲學(xué)特征的概率,即描述了“什么詞發(fā)什么音”的問題。聲學(xué)模型是語音識別系統(tǒng)的重要組成部分,它占據(jù)著語音識別大部分的計算開銷,決定著語音識別系統(tǒng)的性能。
(3)語言模型是針對識別語言進(jìn)行建模,描述單詞序列出現(xiàn)的概率。對于關(guān)鍵詞識別任務(wù),它的語言模型相對比較簡單,一般可分為2個部分,關(guān)鍵詞模型,對應(yīng)的也就是指定的關(guān)鍵詞在解碼圖中的路徑;廢料模型,對應(yīng)的也就是其他非喚醒詞,包括靜音、噪音和其他非喚醒詞語音的路徑。
(4)解碼器的主要任務(wù)是對輸入的語音信號進(jìn)行解碼,即依據(jù)聲學(xué)得分、語言得分和詞典,尋找該輸入信號最有可能對應(yīng)的文字序列。
在本文中,我們使用的關(guān)鍵詞識別框架參照文獻(xiàn)[5]進(jìn)行搭建。其中,識別模型采用了非詞格依賴的最大互信息(LF-MMI,Lattice Free Maximum Mutual Information )的訓(xùn)練準(zhǔn)則,LF-MMI訓(xùn)練準(zhǔn)則最初是針對連續(xù)語音識別任務(wù)提出的。在訓(xùn)練過程中,不再單獨訓(xùn)練獨立的聲學(xué)模型和語言模型,而是將它們作為識別模型的部件進(jìn)行整體優(yōu)化。模型訓(xùn)練不再依賴高斯混合模型 (GMM,Gaussian Mixture Model)-HMM模型生成對齊信息,無需對訓(xùn)練語料進(jìn)行解碼生成詞網(wǎng)格,直接進(jìn)行識別模型訓(xùn)練,簡化了訓(xùn)練流程。為了使其適用于我們的任務(wù),出于效率和性能的原因,對隱馬爾可夫拓?fù)?、聲學(xué)模型網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了一些必要的調(diào)整和更改,還使用了快速在線解碼器。這些將在后續(xù)小節(jié)中進(jìn)行詳細(xì)介紹。
基于關(guān)鍵詞-廢料模型的關(guān)鍵詞識別利用HMM為關(guān)鍵詞進(jìn)行建模。為了實現(xiàn)關(guān)鍵詞識別,需要為每個關(guān)鍵詞創(chuàng)建HMM,并且額外創(chuàng)建一個HMM表示廢料模型。通常情況下,表示關(guān)鍵詞的HMM來自組成關(guān)鍵詞的有效音素序列,即關(guān)鍵詞的每個音素對應(yīng)一個HMM的轉(zhuǎn)移狀態(tài)。
本文所采用的HMM模型是使用單個HMM針對整個關(guān)鍵詞進(jìn)行建模,即詞級別的HMM,該HMM 中不同狀態(tài)的數(shù)量是一個預(yù)定義的值,其狀態(tài)數(shù)量小于實際音素的數(shù)量。對于關(guān)鍵詞識別任務(wù),使用固定數(shù)量的HMM狀態(tài)已具備足夠的建模能力。類似的,針對廢料模型也采用了相同的HMM拓?fù)浣Y(jié)構(gòu)。
此外,使用一個額外的HMM專用于非語音聲音,即表示為SIL的非人聲片段,對于性能的改善也起到了至關(guān)重要的作用。SIL作為可選的靜音狀態(tài)添加到每個關(guān)鍵詞或廢料模型的開頭和結(jié)尾,以便能夠正確的對實際的靜音片段建模。HMM轉(zhuǎn)移狀態(tài)拓?fù)鋱D,如圖2所示。
圖2 HMM狀態(tài)拓?fù)?/p>
圖2(a)表示了關(guān)鍵詞和廢料模型的HMM狀態(tài)拓?fù)浣Y(jié)構(gòu),圖2(b)則用來表示靜音段的拓?fù)浣Y(jié)構(gòu)。2種結(jié)構(gòu)中分別具有4個和1個HMM發(fā)射狀態(tài),最后的狀態(tài)將不再進(jìn)行轉(zhuǎn)移。這樣的結(jié)構(gòu)可以減少HMM狀態(tài)的數(shù)量,可以有效提升解碼速率。
聲學(xué)模型采用了帶有跳躍連接機(jī)制的因子分解時延神經(jīng)網(wǎng)絡(luò)[6](TDNN-F,F(xiàn)actorized TDNN)進(jìn)行建模。在TDNN-F網(wǎng)絡(luò)中,將TDNN的參數(shù)矩陣M通過奇異值分解(SVD)分解為2個小矩陣相乘的形式M=A×B,從而有效減少了層參數(shù)量,以便在整體參數(shù)量相近的情況下,更好的利用網(wǎng)絡(luò)深度的優(yōu)勢。此外,為了避免因為隨機(jī)初始化參數(shù)導(dǎo)致的訓(xùn)練發(fā)散,在TDNN-F更新層參數(shù)的時候,使得其中一個因子矩陣B保持為半正定矩陣,控制層參數(shù)變化速度,使訓(xùn)練穩(wěn)定。
TDNN-F網(wǎng)絡(luò)引入的跳躍連接機(jī)制是指每個TDNN-F層會接收神經(jīng)網(wǎng)絡(luò)之前層的參數(shù)輸出,將輸出結(jié)果按一定比例縮小后再加到當(dāng)前層的輸入中,在本文中將其縮小至原來的0.66。跳躍連接的引入能夠保證信息向深層流入,有助于緩解梯度消失的問題。
本文使用的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,網(wǎng)路層數(shù)為20層,隱藏層參數(shù)維度為80,每個輸出幀覆蓋大小范圍為 80。每3幀會評估一次輸出的 LF-MMI 損失,以減少訓(xùn)練中的計算成本和測試時間。
針對關(guān)鍵詞識別任務(wù)的解碼方法是使用在線維特比解碼[7],它以令牌傳遞的方法表示推測過程。具體的解碼過程是先用一個詞級別的有限狀態(tài)轉(zhuǎn)錄機(jī)(FST,F(xiàn)inite-State Transducer)構(gòu)建解碼圖,指定所有可能出現(xiàn)詞路徑的先驗概率,解碼圖中開始狀態(tài)和最終狀態(tài)會合并形成一個環(huán),可針對關(guān)鍵詞和其他可能的語音相交叉的音頻進(jìn)行解碼識別。
在線解碼期間,每次處理完一段錄音中的固定長度塊之后,可沿著由2個最近的初始令牌分割的幀檢測是否在該部分中存在關(guān)鍵詞,如果找到則向系統(tǒng)報告,否則就繼續(xù)解碼過程。簡單來說,如果所有當(dāng)前推測都來自于前面步驟中相同的令牌,則該令牌之前的所有推測都可以通過修剪和標(biāo)記重組折疊為一個,從中可逐段檢查它是否包含關(guān)鍵詞。
本文將以目標(biāo)任務(wù)場景下采集到的語音數(shù)據(jù)訓(xùn)練此關(guān)鍵詞識別模型,并測試該模型的識別效果。
本文所使用的數(shù)據(jù)集為應(yīng)用環(huán)境下采集的真實語音,其與常見的開源數(shù)據(jù)集不同。采集到的錄音則摻雜有大量的背景噪音,且噪音的類型各不相同。所以在初期數(shù)據(jù)量沒有積累到一定程度的時候,識別效果不如實驗室開源數(shù)據(jù)集結(jié)果。當(dāng)然,這也是本文的任務(wù)之一,就是探究真實應(yīng)用場景需要至少積累到多少數(shù)據(jù)量,才會獲得一個可作為工業(yè)應(yīng)用的關(guān)鍵詞識別模型。
目前,采集并標(biāo)注完成的數(shù)據(jù)量十分有限,標(biāo)注關(guān)鍵詞總數(shù)量有35個,針對同一關(guān)鍵詞出現(xiàn)的頻次最多的也只有3000余條,人聲時長總計逾40 h,因此,實驗會對采集到的數(shù)據(jù)集作數(shù)據(jù)增強(qiáng)處理。由于數(shù)據(jù)集中已包含了各類噪聲,主要有機(jī)車運(yùn)行時加速或者剎車產(chǎn)生的噪音,檢測時鋼鐵碰撞聲以及戶外的風(fēng)噪,所以數(shù)據(jù)擴(kuò)增的主要方式為音量調(diào)整和音速調(diào)整。
實驗中用于模型訓(xùn)練和測試的設(shè)備是由一臺工作站來完成的。
實驗基于當(dāng)前較為流行的開源語音識別工具箱Kaldi[8],Kaldi的底層應(yīng)用程序由C++實現(xiàn),上層調(diào)用則主要是由shell腳本來實現(xiàn)的。本文采用nnet3作為訓(xùn)練工具,它是基于計算圖的神經(jīng)網(wǎng)絡(luò),通過定義相關(guān)的配置文件,可方便地實現(xiàn)各種深度神經(jīng)網(wǎng)絡(luò),也可進(jìn)行基于LF-MMI準(zhǔn)則的訓(xùn)練。
(1)數(shù)據(jù)準(zhǔn)備
利用 Kaldi 做語音識別,數(shù)據(jù)準(zhǔn)備一般包括數(shù)據(jù)集相關(guān)文件制作、詞典準(zhǔn)備和語言模型的構(gòu)建等。語音數(shù)據(jù)集的相關(guān)文件準(zhǔn)備,包括wav.scp、text、utt2spk和spk2utt等,這些都是和音頻文件存放位置、標(biāo)注及語音和說話人信息對應(yīng)的相關(guān)文件,一般按照Kaldi要求的格式來做即可。對于關(guān)鍵詞性能參數(shù)的測試,需構(gòu)建前文所介紹的解碼網(wǎng)絡(luò),這當(dāng)中所包含的語言模型實際上是一個關(guān)鍵詞構(gòu)成的1-gram語言模型。
(2)特征提取
本文按第2節(jié)中介紹的特征提取方法對語音數(shù)據(jù)進(jìn)行處理,為后續(xù)的鏈?zhǔn)侥P陀?xùn)練提供數(shù)據(jù)特征。對與神經(jīng)網(wǎng)絡(luò)相關(guān)的聲學(xué)模型訓(xùn)練,本文采用 13 維的MFCC特征。
(3)數(shù)據(jù)擴(kuò)增
針對原始數(shù)據(jù)做數(shù)據(jù)擴(kuò)增。實驗中會對原始數(shù)據(jù)做音量和音速調(diào)整處理,分別將數(shù)據(jù)的音量調(diào)整到原始音量的0.125~2倍之間,音速調(diào)整到0.9、1、1.1倍速,以此擴(kuò)充數(shù)據(jù)量。
(4)聲學(xué)模型訓(xùn)練
實驗核心的部分是關(guān)于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,基于LF-MMI準(zhǔn)則,在訓(xùn)練開始前,仍需做一些準(zhǔn)備工作,主要包括:HMM拓?fù)湫薷?,決策樹重建及分子詞圖和分母詞圖的構(gòu)建等。需要注意的是,實驗中為了盡量減少參數(shù)量,在決策樹重建時,限定其最終的葉子節(jié)點數(shù)不超過1000,這樣可顯著降低神經(jīng)網(wǎng)絡(luò)最后一層的參數(shù)數(shù)目。完成這些工作后,可配置神經(jīng)網(wǎng)絡(luò),并在LF-MMI準(zhǔn)則下進(jìn)行訓(xùn)練。
(5)解碼測試
完成聲學(xué)模型的訓(xùn)練后,結(jié)合(1)中建立的語言模型生成對應(yīng)的解碼圖,對測試集進(jìn)行解碼測試及實時因子的測量。其中,實時因子是在服務(wù)器集群中的同一個計算節(jié)點上進(jìn)行測量的,對上述測試集的隨機(jī)抽樣數(shù)據(jù)進(jìn)行多次解碼并計算平均的實時因子作為最終的測試結(jié)果。
在對關(guān)鍵詞識別進(jìn)行評測時,不同的使用場景有不同的評價指標(biāo),本文使用較為常見的召回率(Recall Rate)和誤識率(False Alarm Rate)作為性能評價指標(biāo), 召回率Precall和 誤識率PFA公式為
其中,TP為關(guān)鍵詞樣本被正確檢測為關(guān)鍵詞的個數(shù);
FP為非關(guān)鍵詞樣本被錯誤檢測為關(guān)鍵詞的個數(shù);
TN為關(guān)鍵詞樣本被錯誤檢測為非關(guān)鍵詞的個數(shù);
FN為非關(guān)鍵詞樣本被正確檢測為非關(guān)鍵詞的個數(shù)。
不同閾值下不同關(guān)鍵詞的識別測試結(jié)果,如表1、表2所示。
表1 關(guān)鍵詞1的測試結(jié)果
表2 關(guān)鍵詞2的測試結(jié)果
根據(jù)測試結(jié)果,目前在訓(xùn)練集正樣本數(shù),即關(guān)鍵詞數(shù)量有限的情況下,測試結(jié)果均能達(dá)到預(yù)期。通過調(diào)整關(guān)鍵詞識別閾值,將誤識率控制在較低的情況下,可達(dá)到一定的關(guān)鍵詞識別率。在本文實驗中,僅使用了3000條樣本數(shù)量就能達(dá)到如表1、表2所示的結(jié)果,說明此關(guān)鍵詞識別模型在語料充足的情況下能夠滿足識別要求。
本文對鐵路調(diào)度指揮調(diào)度作業(yè)指令關(guān)鍵詞識別系統(tǒng)進(jìn)行了研究,驗證了針對真實應(yīng)用環(huán)境下采集到的訓(xùn)練數(shù)據(jù)應(yīng)用到此關(guān)鍵詞識別系統(tǒng)的可行性。本文所述的關(guān)鍵詞識別系統(tǒng)模型結(jié)構(gòu)簡單,參數(shù)量小,且對計算平臺要求不高,適合在鐵路調(diào)度作業(yè)環(huán)境下部署。在后續(xù)工作中,將進(jìn)一步采集和標(biāo)注相應(yīng)環(huán)境下的關(guān)鍵詞 ,在積累到一定樣本數(shù)量后,對此關(guān)鍵詞系統(tǒng)進(jìn)行優(yōu)化,提高系統(tǒng)的召回率并降低誤識率。另外,在增加不同關(guān)鍵詞之后,語言模型也會進(jìn)行相應(yīng)的調(diào)整。