王心雨,景 輝
(1.中國(guó)鐵道科學(xué)研究院 研究生部,北京 100081;2.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081)
人類(lèi)主要依靠語(yǔ)言進(jìn)行交流溝通,但在使用計(jì)算機(jī)時(shí)卻離不開(kāi)雙手,通常使用鍵盤(pán)輸入計(jì)算機(jī)命令,或根據(jù)計(jì)算機(jī)提示進(jìn)行點(diǎn)擊操作。隨著語(yǔ)音搜索服務(wù)及智能音箱產(chǎn)品的日漸成熟,與語(yǔ)音識(shí)別技術(shù)相關(guān)的智能車(chē)載、智能家居、智能客服等應(yīng)用陸續(xù)走進(jìn)大眾生活,促使人們使用計(jì)算機(jī)的操作方式發(fā)生轉(zhuǎn)變。例如在身份識(shí)別的應(yīng)用方面,與指紋識(shí)別、虹膜識(shí)別等生物識(shí)別技術(shù)相比,語(yǔ)音識(shí)別技術(shù)無(wú)需記憶密碼,身份驗(yàn)證過(guò)程更為快捷,一條簡(jiǎn)短的語(yǔ)音指令即可代替以往的復(fù)雜操作,用戶(hù)易于接受,便于推廣應(yīng)用。
在深度學(xué)習(xí)技術(shù)興起之前,語(yǔ)音識(shí)別技術(shù)主要采用隱馬爾可夫模型[1](HMM,Hidden Markov Model)和高斯混合模型[2]( GMM,Gaussian Mixed Model);其中,HMM 用于描述音頻信號(hào)的動(dòng)態(tài)特性,GMM用于描述HMM每個(gè)狀態(tài)的靜態(tài)特性。這個(gè)時(shí)期因受技術(shù)所限,語(yǔ)音識(shí)別率提升緩慢,語(yǔ)音識(shí)別技術(shù)的發(fā)展一度停滯不前。隨著深度神經(jīng)網(wǎng)絡(luò)[3](DNN,Deep Neural Network)的興起,語(yǔ)音識(shí)別技術(shù)框架逐漸由GMM-HMM轉(zhuǎn)變?yōu)镈NN-HMM,以DNN模型替代GMM模型,無(wú)需假設(shè)語(yǔ)音數(shù)據(jù)的分布,即可獲得語(yǔ)音時(shí)序結(jié)構(gòu)信息,使得狀態(tài)分類(lèi)概率得以改善,語(yǔ)音識(shí)別準(zhǔn)確率顯著提升。特別是在端到端(E2E,End-to-End)機(jī)器學(xué)習(xí)策略出現(xiàn)后,語(yǔ)音識(shí)別技術(shù)開(kāi)始進(jìn)入百花齊放時(shí)代,涌現(xiàn)出多種復(fù)雜的訓(xùn)練網(wǎng)絡(luò)。其中,較為常用的E2E機(jī)器學(xué)習(xí)模型有:連接時(shí)序分類(lèi)(CTC,Connectionist Temporal Classification)模型[4]、遞歸神經(jīng)網(wǎng)絡(luò)傳感器 ( RNN-T,Recurrent Neural Network Transducer)模型[5]、LAS(Listen Attend and Spell)模型[6],T-T(Transformer-Transducer)模型[7]。與傳統(tǒng)語(yǔ)音識(shí)別模型不同,CTC模型不需要在訓(xùn)練數(shù)據(jù)前對(duì)語(yǔ)音與標(biāo)簽進(jìn)行對(duì)齊處理,節(jié)省了訓(xùn)練開(kāi)銷(xiāo), 但是CTC模型沒(méi)有考慮上下文之間的關(guān)系,生成的文本質(zhì)量較差。RNN-T 模型是在CTC模型的基礎(chǔ)上加以改進(jìn),能夠支持流式語(yǔ)音識(shí)別,具有語(yǔ)言模型建模能力,主要用于輔助文本的生成, 解決了CTC模型生成文本質(zhì)量差的問(wèn)題。LAS模型利用注意力(Attention)機(jī)制實(shí)現(xiàn)有效的對(duì)齊,因其考慮了上下文信息,在準(zhǔn)確度上會(huì)略高于其它模型,但正是因?yàn)樗枰舷挛男畔?,因而無(wú)法支持流式語(yǔ)音識(shí)別,且準(zhǔn)確度會(huì)受到輸入語(yǔ)音長(zhǎng)度的影響。T-T 模型是對(duì)RNN-T的改進(jìn),它將RNN-T中長(zhǎng)短時(shí)記憶[8](LSTM, Long Short Term Memory)編碼器替換為T(mén)ransformer[9]編碼器,Transformer是一種非循環(huán)的注意力機(jī)制,可以讓網(wǎng)絡(luò)執(zhí)行并行計(jì)算,能夠支持流式語(yǔ)音識(shí)別。
近年來(lái),我國(guó)鐵路運(yùn)輸能力和服務(wù)水平持續(xù)提升,鐵路憑借其便捷性、舒適性和安全性,成為民眾出行首選的交通方式。目前,語(yǔ)音識(shí)別技術(shù)在鐵路領(lǐng)域主要應(yīng)用于面向旅客的鐵路互聯(lián)網(wǎng)售票系統(tǒng)(簡(jiǎn)稱(chēng):12306)智能客服,在站車(chē)交互、移動(dòng)檢票、列車(chē)補(bǔ)票等業(yè)務(wù)中尚未廣泛應(yīng)用。研究面向鐵路旅客服務(wù)應(yīng)用的語(yǔ)音識(shí)別模型時(shí),首先要選用合適的語(yǔ)音識(shí)別模型進(jìn)行優(yōu)化改進(jìn),使其達(dá)到較高的識(shí)別準(zhǔn)確率,并針對(duì)特定的應(yīng)用場(chǎng)景構(gòu)造特定的鐵路領(lǐng)域訓(xùn)練數(shù)據(jù)集,將其用于語(yǔ)音識(shí)別模型的訓(xùn)練,以增強(qiáng)模型的鐵路領(lǐng)域特征;此外,目前的鐵路旅客服務(wù)涉及鐵路出行條例、旅客常問(wèn)問(wèn)題等眾多文本信息,為此,在語(yǔ)音識(shí)別模型的基礎(chǔ)上結(jié)合特定的文本處理機(jī)制,將進(jìn)一步有效地提高具體應(yīng)用的語(yǔ)音識(shí)別準(zhǔn)確率。
本文研究提出一種改進(jìn)的語(yǔ)音識(shí)別模型,借助RNN-T模型對(duì)于語(yǔ)音識(shí)別處理的優(yōu)勢(shì),用Conformer[10]結(jié)構(gòu)替換RNN-T中的RNN結(jié)構(gòu),Conformer結(jié)構(gòu)是以卷積增強(qiáng)的Transformer模型,Transformer能夠有效提取長(zhǎng)序列依賴(lài)關(guān)系,而卷積擅長(zhǎng)提取局部特征,Conformer結(jié)構(gòu)可將兩者結(jié)合起來(lái),以增強(qiáng)語(yǔ)音識(shí)別的效果;另外,在卷積模塊上加入注意力機(jī)制,發(fā)揮注意力機(jī)制參數(shù)少、速度快的優(yōu)勢(shì),且基于注意力機(jī)制的每一步計(jì)算不依賴(lài)于上一步的計(jì)算結(jié)果,可解決RNN不能并行計(jì)算的問(wèn)題,還能從較長(zhǎng)的文本信息中捕獲重要特征,解決長(zhǎng)文本信息被弱化的問(wèn)題。結(jié)合旅客常問(wèn)問(wèn)題查詢(xún)?cè)O(shè)備和車(chē)站智能服務(wù)機(jī)器人2個(gè)應(yīng)用場(chǎng)景中的旅客服務(wù)功能,利用改進(jìn)的語(yǔ)音識(shí)別模型完成定制化開(kāi)發(fā),使旅客可通過(guò)語(yǔ)音交互方式簡(jiǎn)單、快捷、高效地獲取所需服務(wù)。
CTC模型是一種可以把語(yǔ)音轉(zhuǎn)化文本的語(yǔ)音識(shí)別模型,只需要提供輸入的音頻序列和對(duì)應(yīng)的輸出文本序列,就可以對(duì)CTC模型進(jìn)行訓(xùn)練,解決了傳統(tǒng)語(yǔ)音識(shí)別模型訓(xùn)練時(shí)需要標(biāo)簽對(duì)齊的問(wèn)題。經(jīng)CTC解碼后,每一幀都能生成對(duì)應(yīng)的字詞,不需要進(jìn)行后續(xù)的處理,因而CTC模型能夠很好地支持流式語(yǔ)音識(shí)別。
如圖1所示,CTC模型完成語(yǔ)音識(shí)別的音頻數(shù)據(jù)處理流程為:(1)將音頻數(shù)據(jù)均分成若干段,每段都匹配一個(gè)音節(jié),生成預(yù)測(cè)序列,此處引入空白符用于分割音節(jié)(即圖1中表示為灰色框),空白符不對(duì)應(yīng)任何輸入,后續(xù)會(huì)從輸出中將其刪除;(2)合并重復(fù)的音節(jié),并去除空白符;(3)輸出對(duì)應(yīng)的文本序列。
圖1 CTC模型處理流程
CTC模型的缺點(diǎn)是忽略了音頻序列間的前后依賴(lài)關(guān)系,即認(rèn)為當(dāng)前幀yu與 前序各幀yi(i<u)沒(méi)有任何聯(lián)系。由于語(yǔ)音信號(hào)是連續(xù)的,不僅各個(gè)音素、音節(jié)以及詞之間沒(méi)有明顯邊界,各個(gè)發(fā)音單位還會(huì)受到上下文的影響。因此,對(duì)語(yǔ)音信號(hào)進(jìn)行建模時(shí),需要考慮音頻序列間前后依賴(lài)關(guān)系,否則會(huì)對(duì)模型的識(shí)別準(zhǔn)確率產(chǎn)生不良影響。
為解決這個(gè)問(wèn)題,RNN-T模型對(duì)CTC模型進(jìn)行了改進(jìn),在CTC模型的編碼器(Encoder)基礎(chǔ)上,加入了RNN結(jié)構(gòu),它將前面輸出的幀作為預(yù)測(cè)網(wǎng)絡(luò)(Prediction Network)的輸入,再將輸出的隱藏向量pu與由Encoder生成的聲音特征序列henc輸入到聯(lián)合網(wǎng)絡(luò)(Joint Network)中,經(jīng)聯(lián)合網(wǎng)絡(luò)處理后得到輸出值z(mì)i, 再將zi傳遞到Softmax層,最終得到對(duì)應(yīng)類(lèi)的概率P(y?i|x1,···,xti,y0,···,yui-1),其結(jié)構(gòu)如圖2所示。
RNN-T模型的特點(diǎn)是,可將預(yù)測(cè)網(wǎng)絡(luò)輸出的文本特征和語(yǔ)音信號(hào)的聲學(xué)特征較好地融合在一起,同時(shí)對(duì)兩者進(jìn)行聯(lián)合優(yōu)化,從而獲得較好的識(shí)別準(zhǔn)確率。
Conformer Encoder整體結(jié)構(gòu)如圖3所示,每個(gè)Conformer 塊類(lèi)似于一個(gè)三明治結(jié)構(gòu),前后用到2個(gè)Feed Forward Network(FFN)模塊,每個(gè)FFN模塊的輸出只取原輸出的一半。文獻(xiàn)[10]通過(guò)實(shí)驗(yàn)驗(yàn)證表明,與只取單個(gè)FFN結(jié)構(gòu)的全部輸出相比,各取2個(gè)FFN結(jié)構(gòu)的一半輸出,可使模型整體上表出更為優(yōu)異的性能。
Conformer Encoder的計(jì)算公式為
其中, F FN(x)、 M HSA(x)、 C onv(x)分別為FeedForward模塊、Multi-Head Self Attention模塊、Convolution模塊的計(jì)算結(jié)果,yi為這3個(gè)模塊經(jīng)Layernorm規(guī)范化處理后的輸出結(jié)果。
考慮到鐵路旅客服務(wù)應(yīng)用場(chǎng)景,存在眾多長(zhǎng)句表述的情況,且需要考慮上下文之間的聯(lián)系。Conformer結(jié)構(gòu)中的卷積模塊在訓(xùn)練中忽略了長(zhǎng)句中的局部特征,且音頻信息本身也存在難以獲取局部與整體之間關(guān)聯(lián)性的缺陷,為此需要對(duì)卷積模塊做出改進(jìn)。
原先的Conformer模型中的卷積模塊使用prenorm殘差、point-wise卷積和線性門(mén)單元(GLU,Gated Linear Unit)。為了解決難以將長(zhǎng)語(yǔ)音序列合理表示為對(duì)應(yīng)特征向量的問(wèn)題,在Conformer模型的卷積模塊中增加一條基于Attention機(jī)制的計(jì)算路徑,將原先卷積模塊的計(jì)算結(jié)果與Attention模塊的計(jì)算結(jié)果相乘,作為最終卷積模塊的結(jié)果,如圖4所示。
圖4 Conformer的卷積模塊結(jié)構(gòu)
Attention機(jī)制能夠較好地捕獲全局和局部間的聯(lián)系,在一定程度上彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)對(duì)局部與整體之間關(guān)聯(lián)性的忽略。改進(jìn)后的卷積模塊的計(jì)算公式為
其中, c onv(x)、 a tt(x)分別為卷積模塊、Attention模塊的計(jì)算結(jié)果, C onv(x)為兩個(gè)模塊相乘的結(jié)果。
Attention處理過(guò)程為:(1)對(duì)輸入進(jìn)行線性變換,得到 Query、Key、Value(分別記為 Q、K、V);(2)將Q與K進(jìn)行點(diǎn)積運(yùn)算,得到輸入詞之間的依賴(lài)關(guān)系;(3)進(jìn)行尺度變換、掩碼和softmax操作,最終生成Attention矩陣:
其中, dk為Q和K向量的維度,除以該參數(shù)是為了防止Q與K的點(diǎn)積運(yùn)算結(jié)果過(guò)大。
由公式(1)~(3)可得,改進(jìn)后的Conformer結(jié)構(gòu)的計(jì)算公式為
Conformer-Transducer(C-T)模型是對(duì) RNN-T模型的改進(jìn),用Conformer Encoder結(jié)構(gòu)替代RNN-T模型中的RNN Encoder結(jié)構(gòu),并且延用2.1節(jié)中提出的在卷積模塊中引入注意力機(jī)制的Conformer Encoder結(jié)構(gòu),預(yù)測(cè)網(wǎng)絡(luò)結(jié)構(gòu)選用雙層LSTM,其模型結(jié)構(gòu)如圖5所示。
圖5 Conformer-Transducer模型結(jié)構(gòu)
LSTM是對(duì)序列數(shù)據(jù)進(jìn)行操作,適用于對(duì)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)事件的處理。在堆疊式LSTM結(jié)構(gòu)中,上層的LSTM為下層的LSTM提供的是序列輸出,而不是單個(gè)值輸出。因此,該模型能夠更復(fù)雜地處理時(shí)間序列數(shù)據(jù),以不同的比例捕獲信息。選擇雙層LSTM作為預(yù)測(cè)網(wǎng)絡(luò)可增加神經(jīng)網(wǎng)絡(luò)的深度,提高訓(xùn)練效率,并獲得更高的識(shí)別準(zhǔn)確率。
為加強(qiáng)語(yǔ)音識(shí)別模型的領(lǐng)域特征,數(shù)據(jù)集的數(shù)據(jù)一部分來(lái)源于12306人工客服對(duì)話(huà)音頻資料,對(duì)旅客與客服間對(duì)話(huà)音頻進(jìn)行清洗和拆分,去除音頻中無(wú)人聲的部分音頻,提取的有效語(yǔ)音音頻時(shí)長(zhǎng)約為540 h;另有一部分?jǐn)?shù)據(jù)是組織專(zhuān)人錄制的鐵路出行條例及旅客常問(wèn)問(wèn)題的問(wèn)答對(duì)話(huà),錄制的有效語(yǔ)音音頻時(shí)長(zhǎng)約為200 h。數(shù)據(jù)集內(nèi)含約32萬(wàn)對(duì)語(yǔ)音-文本數(shù)據(jù)對(duì),按照7:3的比例,將數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集;其中,訓(xùn)練集用于對(duì)語(yǔ)音識(shí)別模型的訓(xùn)練,測(cè)試集用于對(duì)模型進(jìn)行測(cè)評(píng)。實(shí)驗(yàn)數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息
在語(yǔ)音識(shí)別任務(wù)上,采用字錯(cuò)誤率(CER,Character Error Rate)作為語(yǔ)音識(shí)別模型的準(zhǔn)確率評(píng)價(jià)指標(biāo),數(shù)值越低,表示效果越好;CER計(jì)算公式為
其中,S表示替換的字符數(shù)目;D表示刪除的字符數(shù)目;I表示插入的字符數(shù)目;N表示參考序列中字符總數(shù)。
實(shí)驗(yàn)環(huán)境配置如表2所示。
表2 實(shí)驗(yàn)環(huán)境配置
由于參數(shù)規(guī)模對(duì)模型準(zhǔn)確率會(huì)產(chǎn)生一定的影響,考慮了2種參數(shù)規(guī)模的Conformer模型(Conformer small 和Conformer big),其具體參數(shù)設(shè)置如表3所示。
表3 2種語(yǔ)音識(shí)別模型的參數(shù)規(guī)模設(shè)置
輸入幀使用了大小為 8 的上下文窗口,可生成 640維特征向量,將其作為傳感器編碼器的輸入,幀移位設(shè)置為 30 ms;所有模型的卷積核大小都設(shè)置為5;預(yù)測(cè)網(wǎng)絡(luò)選用2 個(gè)隱藏節(jié)點(diǎn)為720的 LSTM 層。2個(gè)模型分別在訓(xùn)練迭代12個(gè)epoch 和15個(gè)epoch后結(jié)果趨于穩(wěn)定,模型訓(xùn)練耗時(shí)約2~3天時(shí)間。
(1)數(shù)據(jù)處理:實(shí)驗(yàn)中音頻統(tǒng)一使用16 KHz的采樣率,若存在不符合16 KHz采樣率的音頻,則對(duì)其進(jìn)行采樣率轉(zhuǎn)化;音頻特征為80維log-mel FBank。
(2)預(yù)訓(xùn)練:采用wav2vec對(duì)Conformer編碼器網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練的掩碼起點(diǎn)以0.06的概率隨機(jī)選擇,掩碼步長(zhǎng)設(shè)置為10。使用Adam優(yōu)化器和Transformer學(xué)習(xí)率策略調(diào)節(jié)學(xué)習(xí)率,峰值學(xué)習(xí)率為2e-3,預(yù)熱步長(zhǎng)設(shè)置為25。Comformer small模型和Comformer big模型均使用Adam優(yōu)化器和指數(shù)移動(dòng)平均進(jìn)行訓(xùn)練。
(3)模型訓(xùn)練:與預(yù)訓(xùn)練相同,所有模型都使用Adam優(yōu)化器和指數(shù)移動(dòng)平均進(jìn)行訓(xùn)練,根據(jù)下游任務(wù)調(diào)整batch大小、學(xué)習(xí)率和預(yù)熱步長(zhǎng)。使用標(biāo)準(zhǔn)的自適應(yīng)SpecAugment策略,頻率掩碼F設(shè)置為27,時(shí)間掩碼的最大時(shí)間掩碼比Ps設(shè)置為0.05,使用2個(gè)頻率掩碼和10個(gè)時(shí)間掩碼對(duì)輸入進(jìn)行增強(qiáng)。
以RNN-T模型作為基線模型,對(duì)T-T模型和改進(jìn)前后的C-T模型進(jìn)行對(duì)比測(cè)試,不同模型的測(cè)評(píng)結(jié)果如表4所示。
表4 RNN-T基線模型、T-T模型和改進(jìn)前后的C-T模型的測(cè)評(píng)結(jié)果
結(jié)果表明:
(1)參數(shù)規(guī)模會(huì)對(duì)模型準(zhǔn)確率產(chǎn)生一定影響。從測(cè)評(píng)結(jié)果可以看出,相對(duì)于C-T (Conv) small模型,C-T (Conv) big模型的字錯(cuò)誤率降低0.09%;C-T(Conv+Attention) big模型較于C-T (Conv+Attention)small模型,在字錯(cuò)誤率上降低0.07%。2組實(shí)驗(yàn)均表明,參數(shù)規(guī)模的擴(kuò)大,在一定程度上能提高模型識(shí)別準(zhǔn)確率,提升模型的性能。
(2)Attention機(jī)制對(duì)卷積模塊具有一定的修正作用。相對(duì)于無(wú)Attention機(jī)制的C-T small模型,加入Attention機(jī)制的C-T small模型的字錯(cuò)誤率降低0.26%;相對(duì)于無(wú)Attention機(jī)制的C-T big模型,加入Attention機(jī)制的C-T big模型的字錯(cuò)誤率降低0.24%,識(shí)別準(zhǔn)確率達(dá)到92.09%。2組實(shí)驗(yàn)均表明,Attention機(jī)制在一定程度上能對(duì)卷積模塊的解碼結(jié)果進(jìn)行修正,從而提高模型的識(shí)別準(zhǔn)確率。
在鐵路旅客服務(wù)中,客服人員與旅客進(jìn)行語(yǔ)言交互,形成音頻信息。而鐵路旅客服務(wù)中語(yǔ)言交互內(nèi)容往往對(duì)應(yīng)著特定的文本信息,如鐵路出行條例匯編、旅客常問(wèn)問(wèn)題庫(kù)等。為此,可考慮利用領(lǐng)域特征文本信息來(lái)輔助語(yǔ)音識(shí)別,在語(yǔ)音識(shí)別模型中加入文本處理機(jī)制。針對(duì)特定的鐵路旅客服務(wù)語(yǔ)音識(shí)別應(yīng)用,除了對(duì)語(yǔ)音識(shí)別模型進(jìn)行改進(jìn)和基于領(lǐng)域特征數(shù)據(jù)集訓(xùn)練外,進(jìn)一步結(jié)合以下2種文本處理機(jī)制進(jìn)行定制化處理。
(1)語(yǔ)言模型:語(yǔ)言模型的作用是通過(guò)計(jì)算一句話(huà)的概率來(lái)判斷該語(yǔ)句的語(yǔ)序是否通順,分為統(tǒng)計(jì)語(yǔ)言模型和神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型2種類(lèi)型。統(tǒng)計(jì)語(yǔ)言模型是通過(guò)計(jì)數(shù)的方式對(duì)概率進(jìn)行求解,而神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型是通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行建模求解,但兩者都是基于模型對(duì)輸入文本進(jìn)行概率預(yù)估。最常用的統(tǒng)計(jì)語(yǔ)言模型是n-gram語(yǔ)言模型,該模型認(rèn)為當(dāng)前詞與前面的n-1個(gè)詞有關(guān),但該模型沒(méi)有充分考慮詞與詞之間的關(guān)系,容易導(dǎo)致數(shù)據(jù)稀疏;為了解決數(shù)據(jù)稀疏的問(wèn)題,研究人員提出了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,常用于構(gòu)建語(yǔ)言模型的神經(jīng)網(wǎng)絡(luò)有:循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、Transformer等。語(yǔ)言模型與語(yǔ)音識(shí)別模型的融合方式是,利用鐵路相關(guān)語(yǔ)料對(duì)語(yǔ)言模型進(jìn)行訓(xùn)練,再在語(yǔ)音識(shí)別模型的解碼階段,將語(yǔ)言模型進(jìn)行插值融合。
(2)熱詞賦權(quán):在語(yǔ)音識(shí)別模型中,對(duì)于常用詞匯的識(shí)別效果較好,但對(duì)于特有的人名、地名或者特定領(lǐng)域的專(zhuān)有詞匯來(lái)說(shuō),可能存在識(shí)別準(zhǔn)確率不高的情況。對(duì)于這些專(zhuān)有詞匯,可以建立語(yǔ)音識(shí)別任務(wù)專(zhuān)用的熱詞詞典,并設(shè)置熱詞賦權(quán)模塊,以顯著提升專(zhuān)有詞匯的識(shí)別準(zhǔn)確率。在語(yǔ)音識(shí)別模型的解碼階段,除了利用語(yǔ)言模型進(jìn)行插值融合外,還可以利用熱詞賦權(quán)模塊對(duì)解碼結(jié)果進(jìn)行修正。
鐵路12306官方網(wǎng)站按照車(chē)票、購(gòu)票、進(jìn)站乘車(chē)等不同階段,對(duì)旅客常問(wèn)問(wèn)題進(jìn)行分類(lèi)。旅客可根據(jù)查詢(xún)需求,通過(guò)索引或使用搜索框來(lái)尋找解答,這種查詢(xún)操作方式較為耗時(shí),更適合在電腦上進(jìn)行操作。目前,12306 App尚未提供旅客查詢(xún)旅客常問(wèn)問(wèn)題的搜索框,旅客撥打12306人工客服往往需要排隊(duì)等候較長(zhǎng)時(shí)間,才能獲得客服人員的問(wèn)題解答。
為此,設(shè)計(jì)了一款基于語(yǔ)音識(shí)別技術(shù)的旅客常問(wèn)問(wèn)題查詢(xún)?cè)O(shè)備,直接通過(guò)語(yǔ)音交互來(lái)完成旅客遇到的大多數(shù)問(wèn)題解答,旅客無(wú)需手動(dòng)輸入查詢(xún)條件,也不需要撥打客服電話(huà)咨詢(xún),極大地縮短旅客咨詢(xún)問(wèn)題的時(shí)間。鐵路旅客常問(wèn)問(wèn)題查詢(xún)?cè)O(shè)備的語(yǔ)音數(shù)據(jù)處理流程如圖6所示。
圖6 鐵路旅客常問(wèn)問(wèn)題查詢(xún)?cè)O(shè)備的語(yǔ)音數(shù)據(jù)處理流程
該設(shè)備結(jié)合流式與非流式2種語(yǔ)音識(shí)別模型。其中,流式語(yǔ)音識(shí)別模型能夠在處理音頻流的過(guò)程中實(shí)時(shí)返回識(shí)別結(jié)果,適用于要求查詢(xún)?cè)O(shè)備實(shí)時(shí)返回查詢(xún)結(jié)果的應(yīng)用場(chǎng)景。相對(duì)流式語(yǔ)音識(shí)別模型,非流式語(yǔ)音識(shí)別模型的識(shí)別結(jié)果更為準(zhǔn)確,可用于修正流式模型的識(shí)別結(jié)果。
在音頻編碼處理階段,將Transformer模型與Conformer模型相結(jié)合,充分結(jié)合兩種模型的優(yōu)點(diǎn),保證長(zhǎng)短句子的有效編碼。在音頻解碼處理階段,增加基于Transformer和n-gram的2種語(yǔ)言模型,利用鐵路相關(guān)語(yǔ)料對(duì)語(yǔ)言模型進(jìn)行訓(xùn)練。為提高音頻解碼的召回率,增加了CTC prefix beam search的解碼過(guò)程,該解碼算法可篩選出N條最佳解碼路徑。在完成音頻解碼處理后,增加了熱詞賦權(quán)模塊,設(shè)置旅客常用問(wèn)題熱詞詞典,根據(jù)這N條最佳解碼路徑中包含熱詞的情況進(jìn)行賦權(quán)加分,最終選定得分最高的那一條最佳解碼路徑作為識(shí)別結(jié)果。
通過(guò)搜集和整理旅客常問(wèn)問(wèn)題,在實(shí)驗(yàn)室環(huán)境對(duì)語(yǔ)音查詢(xún)功能進(jìn)行模擬測(cè)試,準(zhǔn)確率達(dá)約為92%。
隨著人工智能(AI,Artificial Intelligence)技術(shù)的逐漸成熟及智能機(jī)器人的應(yīng)用普及,鐵路車(chē)站新型智能機(jī)器人正朝著“AI+智能出行”方向發(fā)展。新型智能機(jī)器人的使用改變了傳統(tǒng)車(chē)站只能靠人工服務(wù)和標(biāo)識(shí)引導(dǎo)的方式開(kāi)展車(chē)站旅客服務(wù)工作,使鐵路旅客出行更加便捷、高效。目前,已有部分鐵路車(chē)站引入智能機(jī)器人為旅客提供向?qū)Х?wù),同時(shí)還能提供車(chē)次、公共交通線路、天氣、酒店等信息查詢(xún)服務(wù)。目前,這些查詢(xún)服務(wù)還需要旅客手動(dòng)操作,還沒(méi)有有效地結(jié)合語(yǔ)音識(shí)別技術(shù)。
為此,研發(fā)了“零操作”車(chē)站智能服務(wù)機(jī)器人,可通過(guò)語(yǔ)音交互方式為鐵路旅客提供更為全面的人性化服務(wù),車(chē)站智能服務(wù)機(jī)器人與鐵路旅客的交互過(guò)程如圖7所示。
圖7 車(chē)站智能服務(wù)機(jī)器人與鐵路旅客的交互過(guò)程
車(chē)站智能服務(wù)機(jī)器人與鐵路旅客的交互過(guò)程為:(1)機(jī)器人首先進(jìn)行語(yǔ)音識(shí)別,將語(yǔ)音信號(hào)轉(zhuǎn)化為文本;(2)通過(guò)自然語(yǔ)言理解技術(shù)對(duì)文本進(jìn)行語(yǔ)義理解,將其映射為旅客對(duì)話(huà)行為;(3)對(duì)話(huà)管理模塊根據(jù)旅客對(duì)話(huà)行為,結(jié)合旅客常問(wèn)問(wèn)題知識(shí)庫(kù)內(nèi)容,選擇機(jī)器人需要執(zhí)行的系統(tǒng)行為;(4)通過(guò)自然語(yǔ)音生成技術(shù),生成需要反饋給旅客的自然語(yǔ)言;(5)機(jī)器人將合成的問(wèn)題解答語(yǔ)音反饋給用戶(hù)。
本文提出的語(yǔ)音識(shí)別模型主要用于實(shí)現(xiàn)車(chē)站智能服務(wù)機(jī)器人的語(yǔ)音識(shí)別功能模塊,與通用的語(yǔ)音識(shí)別模型相比,為車(chē)站智能服務(wù)機(jī)器人定制開(kāi)發(fā)的語(yǔ)音識(shí)別模型在識(shí)別鐵路專(zhuān)有名詞方面效果甚佳。這個(gè)語(yǔ)音識(shí)別模型的訓(xùn)練集選用鐵路客服對(duì)話(huà)語(yǔ)料,且設(shè)置有鐵路專(zhuān)用字典,收錄了車(chē)站名、城市名、車(chē)次信息等鐵路相關(guān)行業(yè)術(shù)語(yǔ),以及行程所遇到問(wèn)題的關(guān)鍵詞,可顯著地提高車(chē)站智能服務(wù)機(jī)器人內(nèi)置的語(yǔ)音識(shí)別算法的適用性。車(chē)站智能服務(wù)機(jī)器人在與乘客的交互過(guò)程中,能更加準(zhǔn)確地識(shí)別出旅客所提出的問(wèn)題,例如“檢票口怎么走”、“如何做人臉核驗(yàn)”、“怎么取報(bào)銷(xiāo)憑證”之類(lèi)的常見(jiàn)問(wèn)題,從而給出符合旅客所問(wèn)問(wèn)題的解答。
除了為鐵路旅客提供所在車(chē)站、車(chē)站所在城市等出行相關(guān)資訊外,車(chē)站智能服務(wù)機(jī)器人還可提供火車(chē)線路查詢(xún)、車(chē)次時(shí)間、票價(jià)政策、乘車(chē)須知、失物招領(lǐng)、引導(dǎo)窗口、業(yè)務(wù)辦理等客服信息,能夠替代車(chē)站客服人員完成大量的旅客服務(wù)工作。
本文基于RNN-T模型進(jìn)行語(yǔ)音識(shí)別模型研究,用 Conformer結(jié) 構(gòu) 代 替 了 RNN Encoder, 并 對(duì)Conformer結(jié)構(gòu)的卷積模塊進(jìn)行了改進(jìn),并在其中加入注意力機(jī)制,彌補(bǔ)了卷積網(wǎng)絡(luò)訓(xùn)練的缺點(diǎn),可有效提高語(yǔ)音識(shí)別模型的識(shí)別準(zhǔn)確率??紤]到鐵路旅客服務(wù)通常都對(duì)應(yīng)著特定文本信息,在語(yǔ)音識(shí)別模型的基礎(chǔ)上融合了語(yǔ)言模型與熱詞賦權(quán)2種文本處理機(jī)制,使其在鐵路專(zhuān)有名詞的識(shí)別上優(yōu)于通用的語(yǔ)音識(shí)別算法。同時(shí),基于改進(jìn)后的語(yǔ)音識(shí)別模型,完成了旅客常問(wèn)問(wèn)題查詢(xún)?cè)O(shè)備與車(chē)站智能服務(wù)機(jī)器人中語(yǔ)音識(shí)別應(yīng)用的開(kāi)發(fā)。語(yǔ)音識(shí)別應(yīng)用有助于提高鐵路旅客服務(wù)水平,改善鐵路旅客出行體驗(yàn),還能更為有效地替代鐵路工作人員完成更多旅客服務(wù),促進(jìn)鐵路旅客服務(wù)工作實(shí)現(xiàn)減員增效。
在實(shí)際場(chǎng)景中,鐵路旅客使用鐵路旅客服務(wù)語(yǔ)音識(shí)別應(yīng)用時(shí),很難保證所處環(huán)境相對(duì)安靜,各種復(fù)雜的聲學(xué)環(huán)境會(huì)對(duì)語(yǔ)音識(shí)別的效果造成不良影響。此外,在日常生活中,人們說(shuō)話(huà)往往也較為隨意,語(yǔ)言習(xí)慣不一,如帶有明顯地方口音、經(jīng)常重復(fù)、停頓或插入,不會(huì)嚴(yán)格遵循語(yǔ)法要求。對(duì)于基于標(biāo)準(zhǔn)語(yǔ)音訓(xùn)練的語(yǔ)音識(shí)別模型而言,要做到準(zhǔn)確識(shí)別這類(lèi)缺乏足夠規(guī)范性的語(yǔ)音是相當(dāng)困難的。因此,如何逐步提升鐵路旅客服務(wù)語(yǔ)音識(shí)別技術(shù)的魯棒性將是下一階段的研究重點(diǎn)。