国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BLSTM 的語音識別解碼優(yōu)化算法探討

2020-07-04 08:53郭川玉蘇一敏
科學(xué)技術(shù)創(chuàng)新 2020年18期
關(guān)鍵詞:解碼語音神經(jīng)網(wǎng)絡(luò)

郭川玉 蘇一敏

(深圳航天科創(chuàng)實業(yè)有限公司,廣東 深圳518000)

1 概述

語音識別領(lǐng)域發(fā)展中,長期奮力追求的研究目標(biāo)在于實現(xiàn)識別準(zhǔn)確率上的“人類對等”。微軟團隊在研究語音識別技術(shù)方面付出較大的努力,且取得了良好的進步,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的聽覺和語言模型,促進語音識別的出錯率顯著下降,而引進CNN-BLSTM (convolutional neural network combined with bidirectional long-short-term memory,帶有雙向LSTM 的卷積神經(jīng)網(wǎng)絡(luò))模型,能夠有效提升語音建模實施效果。在語音識別領(lǐng)域中,需要重點解決的一個問題在于解碼優(yōu)化算法,從BLSTM出發(fā),將能夠起到良好效果。

2 語音識別的基本情況

語音識別(Automatic Speech Recognition,ASR)是一種交叉學(xué)科,是指讓機器通過分析和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的尖端技術(shù)。在語音識別領(lǐng)域之中,涉及到了較多方面的內(nèi)容,如信號處理、概率論和信息論、人工智能、模式識別、發(fā)聲機理和聽覺機理等。

在構(gòu)建智能語音技術(shù)服務(wù)平臺的過程中,需要著重強化語音識別引擎,使其表現(xiàn)出較多技術(shù)特性:(1)擁有廣泛的可識別內(nèi)容。對于新聞、紀(jì)錄片等方面媒體形式來說,語音技術(shù)關(guān)系到較多行業(yè)領(lǐng)域之中,想要確保語音能夠得到全面覆蓋,需要發(fā)揮語音識別引擎的作用,構(gòu)建起大型的語言模型,從而強化可識別內(nèi)容的范圍和準(zhǔn)確性。(2)具有較高的識別準(zhǔn)確率。為實現(xiàn)這一目標(biāo),需要積極引進最新的DNN(深層神經(jīng)網(wǎng)絡(luò))算法,可以大約降低30%錯誤率。(3)擁有快速的識別速度。積極構(gòu)建起完善系統(tǒng)的解碼網(wǎng)絡(luò),包含詞典、語言模型以及聲學(xué)共享音字集,這其中需要引進解碼器核心和有限狀態(tài)機(WFST)解碼網(wǎng)絡(luò)。(4)可以定制領(lǐng)域模型。語音識別系統(tǒng)應(yīng)用中,要能夠全面結(jié)合用戶的實際特點,制定出專門性的語言模型。(5)使得時間索引達到現(xiàn)實。從識別系統(tǒng)出發(fā),可以全面精確到字詞,還能夠引進倒排索引,便于多媒體信息檢索活動的順利實施。(6)支持多語種。引擎核心算法和語種之間不具備聯(lián)系,能夠移植到相關(guān)語種中。積極借助于機器學(xué)習(xí)訓(xùn)練和人工標(biāo)注方式,識別多個語種類型。(6)支持多音頻格式。多個錄音系統(tǒng)綜合應(yīng)用,形成綜合性的音頻,如8K16bit GSM610、8K16bit pcm、8K4bit vox、8K4bit alaw 等。

3 基于BLSTM 語音識別解碼優(yōu)化算法的可行性

3.1 BLSTM 的基本情況

BLSTM(Bidirectional Long Short-term Memory),是指雙向長短時記憶神經(jīng)網(wǎng)絡(luò),當(dāng)前自動語音識別中積極應(yīng)用這一網(wǎng)絡(luò)方式,實施聲學(xué)建模活動。BLSTM 的基本結(jié)構(gòu)單元如下圖所示,從其中能夠看出,其中存在著輸入門、忘記門以及輸出門這三個門結(jié)構(gòu)。

圖1 BLSTM 基本結(jié)構(gòu)單元圖

結(jié)合BLSTM 的基本結(jié)構(gòu)單元,實現(xiàn)準(zhǔn)確計算各項結(jié)構(gòu)參數(shù)的目標(biāo),需要采用科學(xué)可行的計算方式,即為:

3.2 應(yīng)用可行性

以往經(jīng)常使用到的聲學(xué)建模方法應(yīng)用中,存在著一些不足,積極引進BLSTM 方式,將其作為語音識別系統(tǒng)的重要基礎(chǔ),將能夠強調(diào)良好效果。需要注意到的是,BLSTM 實際應(yīng)用中還需要整句遞歸計算每一幀的后驗概率,這其中會產(chǎn)一些缺陷性問題,如解碼存在著延遲現(xiàn)象,無法切實保障實時率,無法保證好這類神經(jīng)網(wǎng)絡(luò)在實時場景中的有效應(yīng)用。針對這種情況,需要從BLSTM 出發(fā),積極研究語音識別解碼優(yōu)化算法,將能夠起到良好效果,更好發(fā)揮BLSTM 的優(yōu)勢和作用,支持語音識別系統(tǒng)的有效運行。

4 基于BLSTM 的語音識別解碼優(yōu)化算法

4.1 解碼優(yōu)化算法情況

語音識別系統(tǒng)設(shè)計和應(yīng)用過程中,積極引進BLSTM,將能夠更好轉(zhuǎn)變以往神經(jīng)網(wǎng)絡(luò)中的不足之處,提升語音識別準(zhǔn)確性和時效性。但是需要注意到的是,以BLSTM 作為基礎(chǔ)的語音識別系統(tǒng)運行中,還存在著一些解碼延遲的問題。BLSTM 實際開展解碼活動的過程中,解碼器需要達到一定狀態(tài)后才能夠?qū)嵤┖罄m(xù)解碼作業(yè),即是當(dāng)?shù)竭_整音頻之后才能夠完成的,這是因為前向傳播時間反方向的時候,需要有末尾的歷史信息作為支持。由此能夠看出,BLSTM 所存在著的延時問題,無法支持實時語音識別活動的開展。

(1)通過latency-controlled BLSTM(LC-BLSTM,延時控制-雙向LSTM),能夠有效應(yīng)對和解決這一問題。這些算法能夠切分整句,使其轉(zhuǎn)變?yōu)槿舾蓚€Chunks。將左右上下幀添加到每個Chunk 之中,將Chunk 作為重要的計算單位,推進前向計算活動的順利實施,從而能夠有效控制BLSTM 的延遲情況,使其保持在一個Chunk 的時長,不僅具有同等的準(zhǔn)確率,還能夠有效避免延遲問題的發(fā)生。

(2)現(xiàn)階段在BLSTM 網(wǎng)絡(luò)方式應(yīng)用的過程中,還可以積極引進CPSC 算法,這是按照上下文相關(guān)塊實施解碼的算法,能夠全面綜合給各個環(huán)節(jié),支持解碼優(yōu)化活動的順利實施。具體引進CPSC 算法的過程中,首先,要能夠按照固定窗長,針對語音幀序列進行細(xì)化和切分,使其形成較多個Chunk。其次,需要開展Chunk 拼接活動,使其形成具有一定長度的上下文,而在實施解碼活動的過程中,每個Chunk 都是最小的單元。再次,在實際開展拼接活動的過程中,上下文之間會產(chǎn)生重復(fù)計算現(xiàn)象,為有效解決這一問題,CPSC 算法以狀態(tài)拷貝為重要基準(zhǔn),將能夠起到良好效果。最后,在具體應(yīng)用環(huán)節(jié)中,需要針對每一個Chunk 初始幀的BLSTM-Cell 狀態(tài)實施初始化處理,這其中就需要使用到上一個Chunk 最后一幀的BLSTM-Cell 狀態(tài)情況,如此循環(huán)往復(fù)。整個操作進行當(dāng)中,左上文擴展所產(chǎn)生的計算開銷被取消,從而整個系統(tǒng)的實時率得以顯著上升。

4.2 實驗分析

從狀態(tài)拷貝方法出發(fā),積極實施上下文相關(guān)塊的解碼算法活動,能夠起到良好效果,可以將其應(yīng)用在實踐環(huán)節(jié)實施驗證。將這一方法應(yīng)用在2.0 小時中文電話對話語音測試集中,能夠發(fā)現(xiàn)在固定Chunk 大小的基礎(chǔ)上,當(dāng)合理增加上下文幀數(shù),將能夠有效降低識別字的錯誤率,需要注意到的是,隨著重復(fù)計算幀數(shù)有所增加,提升了實時率。而如果固定上下文幀數(shù),增加Chunk 的大小,不會降低識別字的錯誤率,而實時率則有所降低。積極引進狀態(tài)拷貝的CPSC 算法,在保證語音識別精度的前提下,能夠使得識別速度加快到0.3~0.4 倍,效果顯著。

5 結(jié)論

現(xiàn)階段人機語音通信活動,充分適應(yīng)人們的實際生產(chǎn)生活需求,在建立語音系統(tǒng)的過程中,語音識別技術(shù)和語音合成技術(shù)是關(guān)鍵技術(shù)手段。積極發(fā)揮BLSTM 的優(yōu)勢,以狀態(tài)拷貝為基礎(chǔ)的上下文相關(guān)塊解碼算法,將能夠起到良好效果。

猜你喜歡
解碼語音神經(jīng)網(wǎng)絡(luò)
《解碼萬噸站》
基于遞歸模糊神經(jīng)網(wǎng)絡(luò)的風(fēng)電平滑控制策略
解碼eUCP2.0
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
魔力語音
基于MATLAB的語音信號處理
基于MQ3與MP3的價廉物美的酒駕語音提醒器
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機