基于BLSTM 的語音識別解碼優(yōu)化算法探討

2020-07-04 08:53郭川玉蘇一敏

科學(xué)技術(shù)創(chuàng)新 2020年18期

郭川玉蘇一敏

（深圳航天科創(chuàng)實業(yè)有限公司，廣東深圳518000）

1 概述

語音識別領(lǐng)域發(fā)展中，長期奮力追求的研究目標(biāo)在于實現(xiàn)識別準(zhǔn)確率上的“人類對等”。微軟團隊在研究語音識別技術(shù)方面付出較大的努力，且取得了良好的進步，以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的聽覺和語言模型，促進語音識別的出錯率顯著下降，而引進CNN-BLSTM （convolutional neural network combined with bidirectional long-short-term memory，帶有雙向LSTM 的卷積神經(jīng)網(wǎng)絡(luò)）模型，能夠有效提升語音建模實施效果。在語音識別領(lǐng)域中，需要重點解決的一個問題在于解碼優(yōu)化算法，從BLSTM出發(fā)，將能夠起到良好效果。

2 語音識別的基本情況

語音識別（Automatic Speech Recognition，ASR）是一種交叉學(xué)科，是指讓機器通過分析和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的尖端技術(shù)。在語音識別領(lǐng)域之中，涉及到了較多方面的內(nèi)容，如信號處理、概率論和信息論、人工智能、模式識別、發(fā)聲機理和聽覺機理等。

在構(gòu)建智能語音技術(shù)服務(wù)平臺的過程中，需要著重強化語音識別引擎，使其表現(xiàn)出較多技術(shù)特性：（1）擁有廣泛的可識別內(nèi)容。對于新聞、紀(jì)錄片等方面媒體形式來說，語音技術(shù)關(guān)系到較多行業(yè)領(lǐng)域之中，想要確保語音能夠得到全面覆蓋，需要發(fā)揮語音識別引擎的作用，構(gòu)建起大型的語言模型，從而強化可識別內(nèi)容的范圍和準(zhǔn)確性。（2）具有較高的識別準(zhǔn)確率。為實現(xiàn)這一目標(biāo)，需要積極引進最新的DNN（深層神經(jīng)網(wǎng)絡(luò)）算法，可以大約降低30%錯誤率。（3）擁有快速的識別速度。積極構(gòu)建起完善系統(tǒng)的解碼網(wǎng)絡(luò)，包含詞典、語言模型以及聲學(xué)共享音字集，這其中需要引進解碼器核心和有限狀態(tài)機（WFST）解碼網(wǎng)絡(luò)。（4）可以定制領(lǐng)域模型。語音識別系統(tǒng)應(yīng)用中，要能夠全面結(jié)合用戶的實際特點，制定出專門性的語言模型。（5）使得時間索引達到現(xiàn)實。從識別系統(tǒng)出發(fā)，可以全面精確到字詞，還能夠引進倒排索引，便于多媒體信息檢索活動的順利實施。（6）支持多語種。引擎核心算法和語種之間不具備聯(lián)系，能夠移植到相關(guān)語種中。積極借助于機器學(xué)習(xí)訓(xùn)練和人工標(biāo)注方式，識別多個語種類型。（6）支持多音頻格式。多個錄音系統(tǒng)綜合應(yīng)用，形成綜合性的音頻，如8K16bit GSM610、8K16bit pcm、8K4bit vox、8K4bit alaw 等。

3 基于BLSTM 語音識別解碼優(yōu)化算法的可行性

3.1 BLSTM 的基本情況

BLSTM（Bidirectional Long Short-term Memory），是指雙向長短時記憶神經(jīng)網(wǎng)絡(luò)，當(dāng)前自動語音識別中積極應(yīng)用這一網(wǎng)絡(luò)方式，實施聲學(xué)建模活動。BLSTM 的基本結(jié)構(gòu)單元如下圖所示，從其中能夠看出，其中存在著輸入門、忘記門以及輸出門這三個門結(jié)構(gòu)。

圖1 BLSTM 基本結(jié)構(gòu)單元圖

結(jié)合BLSTM 的基本結(jié)構(gòu)單元，實現(xiàn)準(zhǔn)確計算各項結(jié)構(gòu)參數(shù)的目標(biāo)，需要采用科學(xué)可行的計算方式，即為：

3.2 應(yīng)用可行性

以往經(jīng)常使用到的聲學(xué)建模方法應(yīng)用中，存在著一些不足，積極引進BLSTM 方式，將其作為語音識別系統(tǒng)的重要基礎(chǔ)，將能夠強調(diào)良好效果。需要注意到的是，BLSTM 實際應(yīng)用中還需要整句遞歸計算每一幀的后驗概率，這其中會產(chǎn)一些缺陷性問題，如解碼存在著延遲現(xiàn)象，無法切實保障實時率，無法保證好這類神經(jīng)網(wǎng)絡(luò)在實時場景中的有效應(yīng)用。針對這種情況，需要從BLSTM 出發(fā)，積極研究語音識別解碼優(yōu)化算法，將能夠起到良好效果，更好發(fā)揮BLSTM 的優(yōu)勢和作用，支持語音識別系統(tǒng)的有效運行。

4 基于BLSTM 的語音識別解碼優(yōu)化算法

4.1 解碼優(yōu)化算法情況

語音識別系統(tǒng)設(shè)計和應(yīng)用過程中，積極引進BLSTM，將能夠更好轉(zhuǎn)變以往神經(jīng)網(wǎng)絡(luò)中的不足之處，提升語音識別準(zhǔn)確性和時效性。但是需要注意到的是，以BLSTM 作為基礎(chǔ)的語音識別系統(tǒng)運行中，還存在著一些解碼延遲的問題。BLSTM 實際開展解碼活動的過程中，解碼器需要達到一定狀態(tài)后才能夠?qū)嵤┖罄m(xù)解碼作業(yè)，即是當(dāng)?shù)竭_整音頻之后才能夠完成的，這是因為前向傳播時間反方向的時候，需要有末尾的歷史信息作為支持。由此能夠看出，BLSTM 所存在著的延時問題，無法支持實時語音識別活動的開展。

（1）通過latency-controlled BLSTM（LC-BLSTM，延時控制-雙向LSTM），能夠有效應(yīng)對和解決這一問題。這些算法能夠切分整句，使其轉(zhuǎn)變?yōu)槿舾蓚€Chunks。將左右上下幀添加到每個Chunk 之中，將Chunk 作為重要的計算單位，推進前向計算活動的順利實施，從而能夠有效控制BLSTM 的延遲情況，使其保持在一個Chunk 的時長，不僅具有同等的準(zhǔn)確率，還能夠有效避免延遲問題的發(fā)生。

（2）現(xiàn)階段在BLSTM 網(wǎng)絡(luò)方式應(yīng)用的過程中，還可以積極引進CPSC 算法，這是按照上下文相關(guān)塊實施解碼的算法，能夠全面綜合給各個環(huán)節(jié)，支持解碼優(yōu)化活動的順利實施。具體引進CPSC 算法的過程中，首先，要能夠按照固定窗長，針對語音幀序列進行細(xì)化和切分，使其形成較多個Chunk。其次，需要開展Chunk 拼接活動，使其形成具有一定長度的上下文，而在實施解碼活動的過程中，每個Chunk 都是最小的單元。再次，在實際開展拼接活動的過程中，上下文之間會產(chǎn)生重復(fù)計算現(xiàn)象，為有效解決這一問題，CPSC 算法以狀態(tài)拷貝為重要基準(zhǔn)，將能夠起到良好效果。最后，在具體應(yīng)用環(huán)節(jié)中，需要針對每一個Chunk 初始幀的BLSTM-Cell 狀態(tài)實施初始化處理，這其中就需要使用到上一個Chunk 最后一幀的BLSTM-Cell 狀態(tài)情況，如此循環(huán)往復(fù)。整個操作進行當(dāng)中，左上文擴展所產(chǎn)生的計算開銷被取消，從而整個系統(tǒng)的實時率得以顯著上升。

4.2 實驗分析

從狀態(tài)拷貝方法出發(fā)，積極實施上下文相關(guān)塊的解碼算法活動，能夠起到良好效果，可以將其應(yīng)用在實踐環(huán)節(jié)實施驗證。將這一方法應(yīng)用在2.0 小時中文電話對話語音測試集中，能夠發(fā)現(xiàn)在固定Chunk 大小的基礎(chǔ)上，當(dāng)合理增加上下文幀數(shù)，將能夠有效降低識別字的錯誤率，需要注意到的是，隨著重復(fù)計算幀數(shù)有所增加，提升了實時率。而如果固定上下文幀數(shù)，增加Chunk 的大小，不會降低識別字的錯誤率，而實時率則有所降低。積極引進狀態(tài)拷貝的CPSC 算法，在保證語音識別精度的前提下，能夠使得識別速度加快到0.3～0.4 倍，效果顯著。

5 結(jié)論

現(xiàn)階段人機語音通信活動，充分適應(yīng)人們的實際生產(chǎn)生活需求，在建立語音系統(tǒng)的過程中，語音識別技術(shù)和語音合成技術(shù)是關(guān)鍵技術(shù)手段。積極發(fā)揮BLSTM 的優(yōu)勢，以狀態(tài)拷貝為基礎(chǔ)的上下文相關(guān)塊解碼算法，將能夠起到良好效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡