国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于遞歸神經(jīng)網(wǎng)絡(luò)的端到端語音識別?

2019-12-27 06:32:04王子龍李俊峰張劭韡王宏巖王思杰
關(guān)鍵詞:字符標(biāo)簽語音

王子龍 李俊峰 張劭韡 王宏巖 王思杰

(1.國家電網(wǎng)有限公司營銷部 北京 100031)(2.國家電網(wǎng)有限公司客戶服務(wù)中心 天津 300306)(3.北京中電普華信息技術(shù)有限公司 北京 100031)

1 引言

隨著算法和計(jì)算機(jī)硬件的不斷發(fā)展,使得現(xiàn)有研究能夠以端到端的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)[1~3]。目前,主流神經(jīng)網(wǎng)絡(luò)訓(xùn)練的交叉熵準(zhǔn)則是對聲學(xué)數(shù)據(jù)的每個(gè)幀進(jìn)行分類優(yōu)化[4],而連續(xù)語音識別是以序列級轉(zhuǎn)錄準(zhǔn)確性為性能度量[5]。文獻(xiàn)[6]采用基于序列級轉(zhuǎn)錄的端到端語音識別系統(tǒng),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)對輸入特征進(jìn)行處理,選取最佳的網(wǎng)絡(luò)結(jié)構(gòu)。文獻(xiàn)[7]采用綁定的三音子作為建模單元,解決建模單元的稀疏性問題,大幅提高聲學(xué)建模的區(qū)分度和魯棒性。然而這些模型復(fù)雜度較高,有限存儲空間成為進(jìn)一步訓(xùn)練大規(guī)模任務(wù)的瓶頸。文獻(xiàn)[8]指出遞歸神經(jīng)網(wǎng)絡(luò)模型在端到端語音識別訓(xùn)練效果中明顯優(yōu)于其他傳統(tǒng)方法,因此,本文選擇遞歸神經(jīng)網(wǎng)絡(luò)作為語音識別系統(tǒng)的模型框架。

本文的目的是將盡可能多的語音替換為單個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)構(gòu)。盡管可以使用RNN或受限制的Boltzmann機(jī)器學(xué)習(xí)特征可直接轉(zhuǎn)錄原始語音波形[9],但計(jì)算成本高且性能往往比傳統(tǒng)的預(yù)處理更差。因此,本文選擇頻譜圖作為最小預(yù)處理方案。

頻譜圖由深度雙向長短期記憶(LSTM)網(wǎng)絡(luò)處理[10],該網(wǎng)絡(luò)具有連接時(shí)間分類(CTC)輸出層[11]。網(wǎng)絡(luò)直接在文本抄本上進(jìn)行培訓(xùn),且不使用語音表示,因此不使用語音字典或狀態(tài)約束。此外,由于CTC整合了所有可能的輸入輸出對齊,因此不需要強(qiáng)制對齊來提供訓(xùn)練目標(biāo)。文獻(xiàn)[12]使用雙向LSTM和CTC的組合應(yīng)用于字符級語音識別,但是最佳字符錯(cuò)誤率約為20%,并不能直接應(yīng)用于端對端的語音識別系統(tǒng)中。

本文仍然使用雙向LSTM和CTC組合的形式構(gòu)造目標(biāo)函數(shù),同時(shí),引入轉(zhuǎn)錄損耗概念對目標(biāo)函數(shù)進(jìn)行修正,使得訓(xùn)練網(wǎng)絡(luò)對任意轉(zhuǎn)錄損失函數(shù)的期望最小化,直接優(yōu)化單詞錯(cuò)誤率,增強(qiáng)了語音識別系統(tǒng)的性能,從而降低語音識別過程中的單詞錯(cuò)誤率。最后對《華爾街日報(bào)》語音語料庫的實(shí)驗(yàn)表明,即使沒有語言模型或字典,該系統(tǒng)也能夠以合理的準(zhǔn)確度識別單詞。

2 網(wǎng)絡(luò)體系結(jié)構(gòu)

給定輸入序列x=(x1,…,xT),標(biāo)準(zhǔn)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)通過從t=1到T迭代計(jì)算隱式向量序列h=(h1,…,hT)和輸出向量序列 y=(y1,…,yT):

其中,W表示權(quán)重矩陣(例如,Wih是輸入隱式權(quán)重矩陣),b表示偏置向量(例如,bh是隱式偏置向量),Η是隱藏層激活函數(shù)。

通常Η是sigmoid函數(shù)。文獻(xiàn)[13]指出長短期記憶(LSTM)架構(gòu)使用專門構(gòu)建的內(nèi)存單元存儲信息,在查找和利用長期上下文方面更為出色。圖1說明了單個(gè)LSTM內(nèi)存單元。對于本文中使用的LSTM架構(gòu),Η通過以下復(fù)合函數(shù)實(shí)現(xiàn):

其中,σ為邏輯sigmoid函數(shù),i,f,o和c分別為輸入門、遺忘門、輸出門和單元激活向量,所有這些都與隱藏層向量h的大小相同,權(quán)重矩陣下標(biāo)具有不同的含義,如Whi為隱式輸入門矩陣,Wxo為輸入輸出門矩陣。從單元到門向量(例如Wci)的權(quán)重矩陣是對角矩陣,因此每個(gè)門向量中的元素m只接收單元向量的元素m的輸入。為了闡述簡潔,本文省略了偏置項(xiàng)(添加到i,f,o和c中)。

圖1 長短期記憶單元

傳統(tǒng)RNN的缺點(diǎn)是它們只能利用以前的上下文信息。在語音識別中,所有的語言都進(jìn)行同步轉(zhuǎn)錄,因此必須結(jié)合未來的上下文語境。雙向RNN(BRNN)通過使用兩個(gè)單獨(dú)的隱藏層在兩個(gè)方向上處理數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)發(fā)到相同的輸出層可實(shí)現(xiàn)利用未來的上下文語境[14]。如圖2所示,BRNN通過將向后層從t=T迭代到1,將向前層從t=1迭代到T,然后更新輸出層,分別計(jì)算出向前隱式序列h、向后隱式序列h和輸出序列y:

圖2 雙向遞歸神經(jīng)網(wǎng)絡(luò)

將BRNN與LSTM相結(jié)合可以得到了雙向LSTM,并可以在兩個(gè)輸入方向上訪問遠(yuǎn)程上下文[15]?;旌舷到y(tǒng)使用了深度架構(gòu)來逐步構(gòu)建更高級別的聲學(xué)數(shù)據(jù)模型,通過將多個(gè)RNN隱藏層疊加在一起,來創(chuàng)建深度RNN,其中,前一層的輸出序列形成下一層的輸入序列,如圖3所示。

圖3 深度遞歸神經(jīng)網(wǎng)絡(luò)

假設(shè)堆棧中所有N層都使用相同的隱藏層函數(shù),則從n=1到N,t=1到T迭代計(jì)算隱式向量序列hn為

其中,ho=x。則網(wǎng)絡(luò)輸出為

通過將每個(gè)隱式序列hn替換為正向序列hn和反向序列,并確保每個(gè)隱藏層同時(shí)接收來自下一層的正向?qū)雍头聪驅(qū)拥妮斎耄纯蓪?shí)現(xiàn)深度雙向RNN。如果將LSTM用于隱藏層,則完整的體系結(jié)構(gòu)可構(gòu)成深度雙向LSTM[16]。

3 連接時(shí)間分類(CTC)

神經(jīng)網(wǎng)絡(luò)(無論是前饋網(wǎng)絡(luò)還是遞歸網(wǎng)絡(luò))在語音識別中通常訓(xùn)練為幀級分類器。這就需要每一幀都有一個(gè)單獨(dú)的訓(xùn)練目標(biāo),而這又要求HMM來確定音頻和轉(zhuǎn)錄序列之間的對齊。然而,只有在分類器經(jīng)過訓(xùn)練后,對齊功能才發(fā)揮作用,從而導(dǎo)致分類和識別之間的遞歸依賴關(guān)系(在C語言中稱為Sayre悖論)。此外,對齊與大多數(shù)語音識別任務(wù)無關(guān)。CTC作為目標(biāo)函數(shù)時(shí),通過訓(xùn)練RNN進(jìn)行序列轉(zhuǎn)錄任務(wù),而輸入序列和目標(biāo)序列之間無需進(jìn)行任何先驗(yàn)對齊。

輸出層包含每個(gè)轉(zhuǎn)錄標(biāo)簽(字符、音素、音符等)的單獨(dú)單元以及額外的“空白”單元,其中,“空白”對應(yīng)于零發(fā)射。給定一個(gè)長度為T的輸入序列x,輸出向量 yt用SoftMax函數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,則在t時(shí)刻索引k發(fā)出標(biāo)簽(或空白)的概率為

其中,ytk是 yt的元素k。CTC對齊a是長度為T的空白與標(biāo)簽索引序列。a的概率Pr(a|x)是每個(gè)時(shí)間步長發(fā)射概率的乘積:

對于一個(gè)給定的轉(zhuǎn)錄序列,應(yīng)有盡可能多的對齊,因?yàn)橛胁煌姆椒▽?biāo)簽與空白分開。例如,使用“—”表示空白,對齊(a,—,b,c,—,—)和(—,—,a,—,b,c)都對應(yīng)于轉(zhuǎn)錄(a,b,c)。當(dāng)同一標(biāo)簽出現(xiàn)在對齊的連續(xù)時(shí)間步驟上時(shí),重復(fù)刪除部分,因此,(a,b,b,b,c,c)和(a,—,b,—,c,c)也對應(yīng)于(a,b,c)。用 B表示刪除第一次重復(fù)標(biāo)簽,然后去掉對齊空白的運(yùn)算符,觀察到輸出轉(zhuǎn)錄y的總概率等于對應(yīng)對齊的概率之和,因此可以寫:

這種在可能對齊上的“集成”使得網(wǎng)絡(luò)可以用未劃分的數(shù)據(jù)進(jìn)行訓(xùn)練。因此,把特定轉(zhuǎn)錄中的標(biāo)簽可能出現(xiàn)的所有地方加起來。式(15)可以通過動(dòng)態(tài)規(guī)劃算法[17]進(jìn)行有效的評估和劃分。給定一個(gè)目標(biāo)轉(zhuǎn)錄 y*網(wǎng)絡(luò)可以訓(xùn)練CTC最小化目標(biāo)函數(shù):

4 轉(zhuǎn)錄損耗

CTC的目標(biāo)函數(shù)是使序列轉(zhuǎn)錄完全正確的對數(shù)概率最大化。因此,不正確轉(zhuǎn)錄的相對概率容易被忽略。然而,在大多數(shù)情況下,在語音識別的轉(zhuǎn)錄性能中,標(biāo)準(zhǔn)度量是單詞錯(cuò)誤率(WER),其定義為真實(shí)單詞序列和轉(zhuǎn)錄器發(fā)出的最可能單詞序列之間的編輯差異率。因此,本文傾向于選擇高功率轉(zhuǎn)錄比的轉(zhuǎn)錄器。為了減少目標(biāo)函數(shù)和測試標(biāo)準(zhǔn)之間的差異,本文通過訓(xùn)練RNN來優(yōu)化輸出轉(zhuǎn)錄(如WER)上定義的任意損耗函數(shù)的預(yù)期值。網(wǎng)絡(luò)結(jié)構(gòu)和輸出激活表示為在特定時(shí)間步長發(fā)出標(biāo)簽(或空白)的概率,并與CTC保持相同。

給定輸入序列x,根據(jù)CTC定義的轉(zhuǎn)錄序列y上的分布Pr(y|x)和實(shí)值轉(zhuǎn)錄損耗函數(shù)L(x,y),可得到轉(zhuǎn)錄損耗期望值為

由于無法準(zhǔn)確地計(jì)算出這個(gè)期望值,本文使用蒙特卡羅抽樣法來近似L及其梯度。將式(15)代入式(17)可得:

由式(14)可知,從Pr(a|x)中獨(dú)立提取每個(gè)時(shí)間步長樣本中的Pr(k,t|x),并將結(jié)果連加起來,從而可以直接近似為

為了對網(wǎng)絡(luò)輸出L進(jìn)行微分,從式(13)中可得到:

將上式代入式(18),應(yīng)用恒等式?xf(x)=f(x)?xlog f(x),得到:

這種期望值也可以用Monte-Carlo抽樣來近似[18]。由于輸出概率是內(nèi)相關(guān)的,令=k,Pr(a|x)的無偏樣本ai可以轉(zhuǎn)化為Pr(a|x,at=k)的無偏樣本。因此,每個(gè)ai可以為每個(gè)Pr(k,t|x)提供一個(gè)梯度估計(jì):

因此,給定的無偏樣本ai加上的導(dǎo)數(shù)等于的損失與從 Pr(k',t|x)采樣的損耗期望值之間的差,即網(wǎng)絡(luò)只接收一個(gè)錯(cuò)誤項(xiàng)用于更改損耗的對齊方式。例如,如果丟失函數(shù)為“WORD ER?ROR RATE”,并且采樣對齊生成字符轉(zhuǎn)錄為“WTRDERRORRATE”,則梯度將根據(jù)輸出的第一個(gè)單詞的第二個(gè)輸出標(biāo)簽更改為“O”,同時(shí),阻止更改其他兩個(gè)輸出單詞。

為了使采樣程序有效,必須有一個(gè)合理的概率來選擇其變量接受不同損耗的對齊。從隨機(jī)初始化網(wǎng)絡(luò)中提取的絕大多數(shù)對手結(jié)果可能會(huì)產(chǎn)生完全錯(cuò)誤的轉(zhuǎn)錄,通過修改單個(gè)輸出來改變損耗的可能性很小。因此,本文將損耗期望值最小化來對已經(jīng)接受過CTC訓(xùn)練的網(wǎng)絡(luò)進(jìn)行再訓(xùn)練。

由于采樣校準(zhǔn)容易實(shí)現(xiàn),而重新計(jì)算校準(zhǔn)變量的損耗將帶來巨大的計(jì)算量。對于許多損耗函數(shù)(包括單詞錯(cuò)誤率),只需重新計(jì)算與對齊更改相對應(yīng)的那部分損耗,即可實(shí)現(xiàn)對其優(yōu)化。在本文實(shí)驗(yàn)中,每個(gè)序列采用5個(gè)樣本,則梯度估計(jì)值的方差較低,從而實(shí)現(xiàn)有效的訓(xùn)練。

5 解碼

CTC網(wǎng)絡(luò)的解碼(即為給定的輸入序列x找到最可能的輸出轉(zhuǎn)錄y)可以通過在每個(gè)時(shí)間步長中選擇單個(gè)最可能的輸出,并返回相應(yīng)的轉(zhuǎn)錄來達(dá)到近似:

使用波束搜索算法可以實(shí)現(xiàn)更精確的解碼,并同時(shí)形成集成語言模型。該算法類似于基于HMM系統(tǒng)的解碼方法,但由于網(wǎng)絡(luò)輸出的表示發(fā)生了變化,因此網(wǎng)絡(luò)輸出表示略有不同。在混合系統(tǒng)中,網(wǎng)絡(luò)輸出表示為狀態(tài)占用的后驗(yàn)概率與語言模型和HMM提供的轉(zhuǎn)換概率相結(jié)合。而CTC網(wǎng)絡(luò)輸出則直接表示轉(zhuǎn)換概率(在HMM中,標(biāo)簽激活是轉(zhuǎn)換到不同狀態(tài)的概率,空白激活是保持當(dāng)前狀態(tài)的概率)。在連續(xù)的時(shí)間步長中應(yīng)消除重復(fù)的標(biāo)簽排序,這就需要區(qū)分以空白結(jié)束的對齊和以標(biāo)簽結(jié)束的對齊。

算法1中的偽代碼描述了利用字典和語言模型集成CTC網(wǎng)絡(luò)的簡單波束搜索過程。將Pr-(y|x),Pr+(y|x)和Pr(y|x)分別定義為空白、非空白和輸出轉(zhuǎn)錄y部分的總概率,通過波束搜索進(jìn)行求解,并假設(shè)Pr(y|x)=Pr-(y|x)+Pr+(y|x)。通過對t時(shí)刻標(biāo)簽k定義 y的擴(kuò)展概率Pr(k,y,t),如下所示:

其中,Pr(k,t|x)表示k在t時(shí)刻的CTC發(fā)射概率,如等式(13)所定義,Pr(k|y)表示從 y到 y+k的轉(zhuǎn)換概率,ye表示 ye中的最終標(biāo)簽。最后,將 y?定義為y刪除最后一個(gè)標(biāo)簽的前綴,將?定義為空序列,其中,Pr+(?,t)=0。

算法1:CTC波束搜索

初始化:B←{?};Pr-(?,0)←1

for t=1 to T do

B?←B中最可能的W 序列

B←{}

for y∈B?do

if y≠? then

Pr+(y|x)← Pr+(y|t-1)Pr(ye,t|x)

if y?∈ B?then

Pr+(y|x)← Pr+(y|t)+Pr(ye,y?,t)

Pr-(y,t)←Pr(y,t-1)Pr(-,t|x)

將 y添加到B中

for k=1 to K do

Pr-(y+k,t)←0

Pr-(y+k,t)←Pr(y,k,t)

將(y+k)添加到B中

轉(zhuǎn)換概率Pr(k|y)可用于將先驗(yàn)語言信息集成到搜索中。如果標(biāo)準(zhǔn)CTC不存在,則所有Pr(k|y)都設(shè)置為1。如果(k+y)在字典中,則可以通過設(shè)置Pr(k|y)=1,來將搜索約束到字典單詞中。本文應(yīng)用統(tǒng)計(jì)語言模型,Pr(k|y)表示標(biāo)準(zhǔn)化的標(biāo)簽到標(biāo)簽的轉(zhuǎn)換概率,將單詞級語言模型轉(zhuǎn)換為標(biāo)簽級語言模型時(shí),任何標(biāo)簽序列 y都可以表示為y=w+p,其中,w是 y中字典單詞最長的完整序列,p是剩余單詞的前綴序列。由于w和 p可能都是空序列。因此,轉(zhuǎn)換概率可以表示為

其中,Prγ(w'|w)為歷史單詞w向單詞w'的轉(zhuǎn)移概率,p*為以p為前綴的字典單詞集,γ為語言模型權(quán)重因子。

6 實(shí)驗(yàn)分析

實(shí)驗(yàn)在《華爾街日報(bào)》(WSJ)語料庫上進(jìn)行(選用LDC語料庫中的ldc93s6b和ldc94s13b)。RNN在14小時(shí)子集“train-si84”和完整的81小時(shí)集合上進(jìn)行訓(xùn)練,并使用“test-dev93”開源集合上進(jìn)行驗(yàn)證。對于上述兩個(gè)訓(xùn)練集,RNN使用CTC網(wǎng)絡(luò)進(jìn)行訓(xùn)練,結(jié)合轉(zhuǎn)錄中的字符作為目標(biāo)序列,每個(gè)序列有五個(gè)對齊樣本對RNN進(jìn)行再訓(xùn)練來實(shí)現(xiàn)最小化單詞錯(cuò)誤率。

字符類型總共分為43種,包括大寫字母、標(biāo)點(diǎn)符號和分隔單詞的空白字符。輸入數(shù)據(jù)使用py?thon工具包的“specgram”函數(shù)從原始音頻文件中提取頻譜圖,并產(chǎn)生254個(gè)傅立葉窗口和127個(gè)重疊幀,并且每幀包含128個(gè)輸入。

該網(wǎng)絡(luò)有5層雙向LSTM隱藏層,每層有500個(gè)單元,總權(quán)重約為265。采用隨機(jī)梯度下降法進(jìn)行訓(xùn)練,每句話更新一次權(quán)重,學(xué)習(xí)速率為10,動(dòng)量為0.9。

將RNN與深度神經(jīng)網(wǎng)絡(luò)-HMM(DNN-HMM)混合模型進(jìn)行比較。DNN-HMM是基于SGMM-HMM系統(tǒng)的比對來創(chuàng)建,該系統(tǒng)使用Kaldi配方‘s5’和模型‘tri4b’進(jìn)行訓(xùn)練。使用14小時(shí)的子集來訓(xùn)練深度信念網(wǎng)絡(luò)(DBN),每個(gè)網(wǎng)絡(luò)有6個(gè)隱藏層,每個(gè)隱藏層有2000個(gè)單元。輸入15幀MEL級對數(shù)濾波器組,包括1個(gè)中心幀和7個(gè)上下文幀),系數(shù)、增量和加速度共有40個(gè)。DBN和DNN分別經(jīng)過分層訓(xùn)練和訓(xùn)練,將中央輸入幀分類為3385個(gè)三音素狀態(tài)之一。DNN采用隨機(jī)梯度下降訓(xùn)練,學(xué)習(xí)率為0.1,動(dòng)量為0.9。在每個(gè)時(shí)期結(jié)束時(shí)將學(xué)習(xí)速率除以2,這并不能降低開源集合上的幀錯(cuò)誤率。在六次嘗試失敗后,學(xué)習(xí)率被固定。在解碼過程中,用狀態(tài)先驗(yàn)的平方根除以DNN后驗(yàn)。

首先對RNN進(jìn)行無字典、無語言模型的解碼,利用空白字符將字符輸出劃分成單詞,從而計(jì)算WER。然后,該網(wǎng)絡(luò)使用146K單詞字典進(jìn)行解碼,得到字母組合、雙字母組合和三元語言模型。使用Kaldi配方“s5”中實(shí)現(xiàn)的一些擴(kuò)充規(guī)則將默認(rèn)的WSJ詞典擴(kuò)展為125K單詞。使用來自WSJ的數(shù)據(jù)(參見配方‘s5’中的腳本‘wsj extend dict.sh’和‘wsj train lms.sh’)構(gòu)建了語言模型。針對所有實(shí)驗(yàn)分別優(yōu)化了語言模型的權(quán)重,對于沒有語言信息的RNN實(shí)驗(yàn)和只有字典的RNN實(shí)驗(yàn),采用波束搜索算法進(jìn)行解碼。對于選用語言模型的RNN實(shí)驗(yàn),是為了確保與基準(zhǔn)系統(tǒng)進(jìn)行公平比較,從基準(zhǔn)DNN-HMM中提取最多300個(gè)候選轉(zhuǎn)錄的N個(gè)最佳列表,然后由RNN使用等式(16)進(jìn)行重新計(jì)算。最后將RNN得分與語言模型組合來重新排列N個(gè)最佳列表,并記錄最佳結(jié)果轉(zhuǎn)錄本的WER。獲得的最佳結(jié)果是RNN評分權(quán)重為7.7,語言模型權(quán)重為16。

在81小時(shí)的訓(xùn)練集中,字母組合、雙字母組合和三元語言的Oracle錯(cuò)誤率分別為8.9%、2%和1.4%,而字母組合和三元語言的反Oracle錯(cuò)誤率分別為45.5%和33%,即便使用更多N個(gè)最佳列表(最多N=1000)并沒有產(chǎn)生顯著的性能改進(jìn),因此,從中可以得出結(jié)論,足夠大的N個(gè)最佳列表可以近似得到RNN的真正解碼性能。

本文還進(jìn)行了RNN和DNN聯(lián)合作用的實(shí)驗(yàn)。在81小時(shí)的訓(xùn)練中,“RNN-WER”的候選得分與DNN聲學(xué)模型得分混合,并用于對候選得分進(jìn)行重新排序。語言模型權(quán)重為11,RNN得分權(quán)重為1,DNN得分權(quán)重為1。

表1 WSJ結(jié)果

表1中的結(jié)果表明,在完整的81小時(shí)訓(xùn)練集上,當(dāng)沒有語言模型時(shí),字符級RNN的性能優(yōu)于基準(zhǔn)模型。RNN經(jīng)過重新訓(xùn)練將錯(cuò)誤率降到最低(標(biāo)記為“RNN-WER”以區(qū)別于原來的“RNN-CTC”網(wǎng)絡(luò))。這是由于兩個(gè)因素引起:首先,RNN能夠?qū)W習(xí)聲學(xué)模型,從而學(xué)習(xí)到更多的聲學(xué)上下文;其次,它能夠從訓(xùn)練文本中學(xué)習(xí)隱式語言模型。然而,基準(zhǔn)系統(tǒng)在LM增強(qiáng)時(shí)超過了RNN,在這種情況下,RNN的隱式LM可能會(huì)通過干擾顯式模型來對抗RNN。盡管如此,考慮到先驗(yàn)信息(音頻預(yù)處理、發(fā)音字典、狀態(tài)、強(qiáng)制對齊)編碼到基準(zhǔn)系統(tǒng)中,因 此 ,隨 著 LM 的 增 強(qiáng) ,“RNN-CTC”和“RNN-WER”之間的差異也將減小。

基準(zhǔn)系統(tǒng)僅從14小時(shí)的訓(xùn)練集逐步增加到81小時(shí)的訓(xùn)練集,而RNN的錯(cuò)誤率大幅降低。這是由于14個(gè)小時(shí)的轉(zhuǎn)錄語音不足以讓RNN學(xué)會(huì)如何“拼寫”出準(zhǔn)確轉(zhuǎn)錄所需要的足夠多單詞,而只足以學(xué)會(huì)識別音素。

組合模型的性能明顯優(yōu)于RNN或基準(zhǔn)系統(tǒng)。超過基準(zhǔn)1%絕對值的改善要比通常模型平均值的輕微改善大得多,這是由于系統(tǒng)之間的差異更大。

7 具體示例

圖4給出了CTC層發(fā)出的幀級字符概率(每個(gè)字符的顏色不同,虛線表示“空白”)以及處理話語時(shí)相應(yīng)的訓(xùn)練錯(cuò)誤。目標(biāo)轉(zhuǎn)錄為”HISFRIENDS”,其中下劃線是單詞結(jié)尾的標(biāo)記,因此會(huì)產(chǎn)生稀疏的誤差信號(如果輸出概率為1,則無法對其他任何內(nèi)容進(jìn)行采樣,因此即使輸出錯(cuò)誤,梯度也為0)。在這種情況下,唯一的梯度來自‘S’之前的字符。常見序列中的字符(如“IS”,“RI”和“END”)會(huì)非常緊密地發(fā)出,這表明網(wǎng)絡(luò)將它們作為單個(gè)聲音進(jìn)行學(xué)習(xí)。

圖4 網(wǎng)絡(luò)輸出

為了提供字符級的轉(zhuǎn)錄,所提出的方法不僅要學(xué)習(xí)如何識別語音,還要學(xué)習(xí)如何將語音轉(zhuǎn)換成字母。在沒有字典或語言模型的情況下進(jìn)行解碼的示例如下。

原文:TOILLUSTRATE THE POINT A PROMI?NENT MIDDLE EAST ANALYST IN WASHINGTON RECOUNTSA CALL FROM ONE CAMPAIGN

識別:TWO ALSTRAIT THE POINT A PROMI?NENT MIDILLE EAST ANALYST IM WASHING?TONRECOUNCACALL FROMONECAMPAIGN

原文:T.W.A.ALSO PLANS TO HANG ITS BOUTIQUE SHINGLE IN AIRPORTS AT LAM?BERTSAINT

識別:T.W.A.ALSO PLANS TOHING ITS BOOTIK SINGLE IN AIRPORTS AT LAMBERT SAINT

原文:ALL THE EQUITY RAISING IN MILAN GAVE THAT STOCK MARKET INDIGESTION LASTYEAR

識別:ALL THE EQUITY RAISING IN MU?LONG GAVE THAT STACRK MARKET IN TO JUS?TIAN LASTYEAR

原文:THERE'S UNREST BUT WE'RE NOT GOINGTOLOSETHEMTODUKAKIS

識別:THERE'S UNREST BUT WERE NOT GOINGTOLOSETHEMTODEKAKIS

像所有的語音識別系統(tǒng)一樣,網(wǎng)絡(luò)也會(huì)犯語音錯(cuò)誤,比如“shingle”而不是“single”,有時(shí)還會(huì)混淆“two”和“to”等同音詞。由于發(fā)音相近的單詞在拼寫上可能差異很大,因此使用語言模型很難解決。與語音系統(tǒng)不同,網(wǎng)絡(luò)也會(huì)產(chǎn)生詞匯錯(cuò)誤,例如“boutique”和“bootik”,以及將兩者結(jié)合在一起的錯(cuò)誤,例如“alstrait”和“illustrate”。

所提的網(wǎng)絡(luò)識別方法也能夠正確地轉(zhuǎn)錄相當(dāng)復(fù)雜的單詞,如“campaign”、“analyst”和“equity”,這些單詞經(jīng)常出現(xiàn)在金融文本中,但同時(shí)也難以理解陌生單詞的發(fā)音和拼寫,如“milan”和“dukakis”等專有名稱。這表明,詞匯表以外的單詞可能仍然是字符級識別錯(cuò)誤的主要問題,即使在沒有字典的情況下也是如此。因此,所提方法能夠從訓(xùn)練轉(zhuǎn)錄中推斷出重要的語言信息,從而實(shí)現(xiàn)真正的端到端語音識別系統(tǒng)。

8 結(jié)語

本文通過最小化預(yù)處理和隱式語音表示的遞歸神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)字符級語音轉(zhuǎn)錄。所構(gòu)造的目標(biāo)函數(shù)可以對網(wǎng)絡(luò)的單詞錯(cuò)誤率進(jìn)行直接優(yōu)化,并給出了在解碼過程中將網(wǎng)絡(luò)輸出與語言模型集成的方法。最后通過將所提模型與基準(zhǔn)模型相結(jié)合的方式實(shí)現(xiàn)了較高精度的語音識別。

猜你喜歡
字符標(biāo)簽語音
尋找更強(qiáng)的字符映射管理器
字符代表幾
一種USB接口字符液晶控制器設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:50
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
消失的殖民村莊和神秘字符
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
义乌市| 汉寿县| 蕲春县| 喜德县| 浏阳市| 荣昌县| 理塘县| 凌海市| 临海市| 陵川县| 米林县| 尚义县| 吴江市| 抚远县| 大余县| 渭源县| 于都县| 自治县| 塘沽区| 深州市| 和政县| 宁南县| 濉溪县| 吉林市| 双城市| 保定市| 会东县| 石家庄市| 邵东县| 顺平县| 南靖县| 西城区| 兴文县| 稷山县| 大同市| 昔阳县| 安国市| 杭锦后旗| 全椒县| 新河县| 茂名市|