基于行業(yè)詞表的自動(dòng)語音轉(zhuǎn)寫后優(yōu)化技術(shù)

2023-11-24 02:59:58馬曉亮安玲玲鄧從健杜德泉張國(guó)新

華南理工大學(xué)學(xué)報(bào)（自然科學(xué)版） 2023年8期

馬曉亮安玲玲鄧從健，3，4 杜德泉張國(guó)新

（1.西安電子科技大學(xué) 廣州研究院，廣東廣州 510555；2.中國(guó)電信股份有限公司廣州分公司，廣東廣州 510620；3.馬曉亮勞模和創(chuàng)新工匠工作室，廣東廣州 510620；4.廣州云趣信息科技有限公司，廣東廣州 510665；5.中國(guó)電信股份有限公司廣東分公司，廣東廣州 510080）

自動(dòng)語音識(shí)別（Automatic Speech Recognition，ASR）是指通過計(jì)算機(jī)將人類語音信號(hào)轉(zhuǎn)錄為具體命令和書面形式的文字進(jìn)行輸出的過程［1］，是使人與機(jī)器之間的交流變得更順暢的一種技術(shù)。早在2004年，王琦［2］就提出，應(yīng)將ASR技術(shù)作為關(guān)鍵技術(shù)融入新一代呼叫中心的系統(tǒng)結(jié)構(gòu)中，解決電話用戶按鍵輸入范圍有限、操作不方便的問題。ASR技術(shù)是智能語音客服系統(tǒng)的基礎(chǔ)，如互動(dòng)式語音應(yīng)答、用戶身份校驗(yàn)等功能，都需要準(zhǔn)確識(shí)別用戶的語音并轉(zhuǎn)為文本，才能進(jìn)入后續(xù)的知識(shí)庫檢索、用戶需求分流、數(shù)據(jù)核驗(yàn)等處理流程［3］。

ASR 技術(shù)最早可以追溯到20 世紀(jì)50 年代，貝爾實(shí)驗(yàn)室建立了世界第一個(gè)孤立的用于識(shí)別英文數(shù)字的語音識(shí)別系統(tǒng)Audrey［4］。20 世紀(jì)90 年代起，ASR技術(shù)逐漸被廣泛應(yīng)用，劍橋大學(xué)發(fā)布的開源工具包HTK 更是加速推動(dòng)了ASR 技術(shù)的應(yīng)用［5］。但是，ASR 技術(shù)的應(yīng)用也伴隨產(chǎn)生了新的問題。自20 世紀(jì)90 年代初以來，研究人員使用不同語言的標(biāo)準(zhǔn)語音數(shù)據(jù)庫進(jìn)行自動(dòng)語音識(shí)別研究，但大部分的數(shù)據(jù)集是在受控環(huán)境下記錄的（如廣播新聞和會(huì)議類型的語音數(shù)據(jù)），而呼叫中心領(lǐng)域的語音數(shù)據(jù)由于環(huán)境噪聲、頻繁的交替講話、語音重疊或不流暢、非語音事件等因素，使得能夠適用于呼叫中心領(lǐng)域語音識(shí)別的數(shù)據(jù)集很少。Madhab［6］針對(duì)呼叫中心領(lǐng)域創(chuàng)建了一個(gè)真實(shí)的對(duì)話語音數(shù)據(jù)集，其中包含環(huán)境噪聲等多類真實(shí)要素，用于實(shí)現(xiàn)真實(shí)通話環(huán)境中通話內(nèi)容的準(zhǔn)確識(shí)別。

目前，ASR技術(shù)已應(yīng)用在生活的各個(gè)方面，為社會(huì)生活提供了極大的便利［7-9］。但是，通用ASR引擎均是針對(duì)日常場(chǎng)景構(gòu)建的，行業(yè)關(guān)鍵詞識(shí)別準(zhǔn)確率較低，難以滿足語音識(shí)別在細(xì)分行業(yè)中應(yīng)用的精準(zhǔn)度要求，為后續(xù)業(yè)務(wù)組件開發(fā)增加了難度。一種解決方案是根據(jù)行業(yè)特點(diǎn)構(gòu)建一個(gè)專用于細(xì)分行業(yè)的ASR 引擎［10］，但這種方案需基于目前通用的ASR 引擎重新進(jìn)行行業(yè)化訓(xùn)練，成本高且適用性窄；另一種解決方案是在現(xiàn)有ASR引擎的基礎(chǔ)上對(duì)ASR轉(zhuǎn)寫后文本進(jìn)行糾錯(cuò)［11-15］。

對(duì)ASR轉(zhuǎn)寫后文本進(jìn)行糾錯(cuò)的相關(guān)研究存在兩類問題：一是基于日常場(chǎng)景數(shù)據(jù)集訓(xùn)練的ASR文本糾錯(cuò)模型［16-17］對(duì)ASR 識(shí)別錯(cuò)誤的細(xì)分行業(yè)專業(yè)術(shù)語的糾正準(zhǔn)確率較低；二是存在行業(yè)差異，如鐵路信號(hào)領(lǐng)域的ASR文本糾錯(cuò)方法是針對(duì)簡(jiǎn)短、專業(yè)性較強(qiáng)的鐵路車務(wù)術(shù)語設(shè)計(jì)［18-19］，而客服通話是客戶與專業(yè)人員之間的交流，通話內(nèi)容既有專業(yè)術(shù)語也有日常對(duì)話，將其他行業(yè)的技術(shù)直接遷移至呼叫中心領(lǐng)域應(yīng)用可能無法取得預(yù)期效果。

目前，學(xué)術(shù)界與工業(yè)界均沒有針對(duì)呼叫中心領(lǐng)域的ASR轉(zhuǎn)寫后優(yōu)化技術(shù)的相關(guān)研究。為了同時(shí)兼顧成本與效率，以一種低成本的方式滿足細(xì)分行業(yè)的實(shí)際工程需求，文中提出一種基于行業(yè)詞表的ASR轉(zhuǎn)寫后優(yōu)化技術(shù)，通過在目前流行的基于統(tǒng)計(jì)方法建立的ASR引擎之外加入一個(gè)優(yōu)化模塊，即構(gòu)建一個(gè)規(guī)則化的知識(shí)體，分段式地對(duì)通用ASR轉(zhuǎn)寫結(jié)果進(jìn)行糾錯(cuò)，優(yōu)化其在細(xì)分行業(yè)內(nèi)應(yīng)用的轉(zhuǎn)寫精準(zhǔn)度，并以呼叫中心為例對(duì)所提出的語音識(shí)別優(yōu)化技術(shù)進(jìn)行實(shí)驗(yàn)驗(yàn)證，以期幫助客服人員快速地理解、響應(yīng)并解決客戶提出的問題，滿足客戶需求，提升客服人員的工作效率。

1 技術(shù)路線及模型構(gòu)建

文中提出的ASR轉(zhuǎn)寫后優(yōu)化技術(shù)路線如圖1所示。首先，利用通用ASR對(duì)客戶通話語音進(jìn)行識(shí)別，得到客戶通話文本，以此為基礎(chǔ)進(jìn)行語音識(shí)別糾錯(cuò)，即根據(jù)細(xì)分行業(yè)糾錯(cuò)詞表進(jìn)行專業(yè)性詞語的錯(cuò)誤識(shí)別與替換，最終輸出經(jīng)優(yōu)化后的語音識(shí)別結(jié)果。

圖1 分時(shí)段轉(zhuǎn)寫糾錯(cuò)技術(shù)流程Fig.1 Flow chart of time-segment translation error correction technology

細(xì)分行業(yè)糾錯(cuò)詞表的構(gòu)建主要由文本摘要提取、掩碼語言模型（Masked Language Model，MLM）預(yù)測(cè)分詞兩個(gè)模塊構(gòu)成，下面做一詳細(xì)介紹。

1.1 文本摘要和關(guān)鍵詞提取

文本摘要提取模塊的作用是從通用ASR轉(zhuǎn)寫結(jié)果中提取細(xì)分行業(yè)關(guān)鍵詞，并對(duì)關(guān)鍵詞打標(biāo)簽。首先，利用通用ASR將音頻轉(zhuǎn)寫為文本，該文本為初始文本。然后，利用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）［20］進(jìn)行一次或多次卷積，從初始文本中提取重要特征，形成轉(zhuǎn)寫文本摘要。最后，利用分詞工具對(duì)轉(zhuǎn)寫文本的摘要進(jìn)行分詞，并剔除停用詞，同時(shí)按詞頻排序，獲得音頻關(guān)鍵詞，這些關(guān)鍵詞可以作為細(xì)分行業(yè)用詞的正確標(biāo)簽。

1.2 細(xì)分行業(yè)糾錯(cuò)詞表生成

采用BERT（Bidirectional Encoder Representation from Transformers）模型［21］結(jié)合MLM 算法［22］實(shí)現(xiàn)詞表、詞語的預(yù)測(cè)識(shí)別，模型框架如圖2所示。

圖2 細(xì)分行業(yè)糾錯(cuò)詞表的模型框架Fig.2 Model frame for building a reference word list in a segmented industry

經(jīng)過預(yù)訓(xùn)練的BERT 是一個(gè)蘊(yùn)含豐富語義知識(shí)的大規(guī)模語言模型，利用呼叫中心細(xì)分行業(yè)數(shù)據(jù)對(duì)BERT 進(jìn)行訓(xùn)練后的模型即可用于呼叫中心行業(yè)的詞語預(yù)測(cè)。在通用ASR 轉(zhuǎn)寫的文本中隨機(jī)選取詞語進(jìn)行掩蔽（即用［Mask］標(biāo)記替換原詞），利用訓(xùn)練后的BERT 預(yù)測(cè)［Mask］標(biāo)記位置的原詞，將預(yù)測(cè)結(jié)果與文本摘要的分詞結(jié)果進(jìn)行比對(duì)，比對(duì)結(jié)果一致的詞標(biāo)識(shí)為正確，比對(duì)結(jié)果不一致的詞進(jìn)行自動(dòng)+人工輔助糾錯(cuò)，同時(shí)將糾錯(cuò)詞對(duì)按照【錯(cuò)誤詞-正確詞】的對(duì)應(yīng)關(guān)系記錄在細(xì)分行業(yè)糾錯(cuò)詞表中。

使用預(yù)測(cè)分詞技術(shù)自動(dòng)生成糾錯(cuò)詞表，不僅提升了勞動(dòng)效率，而且糾錯(cuò)詞表準(zhǔn)確率達(dá)87.2%。具體工程實(shí)現(xiàn)和生產(chǎn)實(shí)例中，在人工輔助下準(zhǔn)確率達(dá)100%（結(jié)果詳見第3節(jié)）。

1.3 文本糾錯(cuò)模型

文中采用Soft-Masked BERT 模型來實(shí)現(xiàn)文本糾錯(cuò)［23］。如圖3 所示，該模型結(jié)構(gòu)包含5 個(gè)部分，分別是輸入層、檢測(cè)網(wǎng)絡(luò)（Detection Network）、軟遮蔽（Soft Masking）、糾錯(cuò)網(wǎng)絡(luò)（Correction Network）和Softmax分類器。

首先，輸入層將輸入序列S=(s1，s2，…，sn)轉(zhuǎn)換為包含每個(gè)字符的字向量、位置向量和片段向量之和的向量E=(e1，e2，…，en)。然后，檢測(cè)網(wǎng)絡(luò)通過雙向門控循環(huán)單元輸出每個(gè)字符識(shí)別正誤的概率標(biāo)簽，概率標(biāo)簽范圍為［0，1］，越接近0 表示識(shí)別錯(cuò)誤的概率越大，反之則識(shí)別錯(cuò)誤的概率越小。概率pi的計(jì)算公式如下：

其中，σ為sigmoid函數(shù)，Wd為全連接的權(quán)重矩陣，為雙向門控循環(huán)單元最后一層的隱藏狀態(tài)，bd為偏置參數(shù)。在軟遮蔽層，對(duì)輸入向量和檢測(cè)網(wǎng)絡(luò)的輸出概率pi進(jìn)行加權(quán)求和處理，得到軟遮蔽向量。第i個(gè)字符的軟遮蔽向量的計(jì)算公式如下：

式中，emask是以誤差率為權(quán)重的遮蔽向量。進(jìn)入糾正網(wǎng)絡(luò)，由BERT 模型處理輸入序列，其中BERT包含12 個(gè)編碼層，每個(gè)編碼層由多頭注意力機(jī)制與前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成。將BERT 最后一個(gè)編碼層的所有隱藏狀態(tài)和輸入向量相加進(jìn)行殘差連接，殘差連接的結(jié)果輸入到全連接層中映射為向量。最后，將生成的向量送入Softmax 分類器，從候選詞表中輸出概率最大的字符，即為糾正后的正確字符。

1.3.1 模型訓(xùn)練

使用廣州12345政務(wù)熱線真實(shí)電話錄音轉(zhuǎn)文本數(shù)據(jù)（普通話版本）作為模型訓(xùn)練集。為了避免短句過多導(dǎo)致模型在訓(xùn)練過程中損失n-gram 信息的問題，對(duì)訓(xùn)練集進(jìn)行了預(yù)處理，計(jì)算分析訓(xùn)練數(shù)據(jù)的句子長(zhǎng)度，對(duì)部分短句子進(jìn)行拼接處理，經(jīng)過融合打亂處理后，訓(xùn)練集的長(zhǎng)句與短句的比例為8∶2（結(jié)果詳見第3.3節(jié)）。

模型訓(xùn)練過程中，采取每3 輪1 次梯度歸零策略，即采取梯度累加策略。每次獲得1個(gè)批樣本數(shù)據(jù)就計(jì)算1次梯度，該次梯度不清空；累加到第3次后，根據(jù)累加的梯度更新網(wǎng)絡(luò)參數(shù)，然后清空梯度，進(jìn)行新一輪循環(huán)。這有助于在減少內(nèi)存消耗的同時(shí)獲得增大批樣本數(shù)量的效果，提升訓(xùn)練效果。

1.3.2 引入糾錯(cuò)詞表

在Soft-Masked BERT 模型外，增加細(xì)分行業(yè)糾錯(cuò)詞表作為知識(shí)體。對(duì)Softmax 分類器輸出的第一次糾正后字符，使用糾錯(cuò)詞表進(jìn)行錯(cuò)詞替換，完成二次糾錯(cuò)，進(jìn)一步提升糾錯(cuò)效果。

2 實(shí)驗(yàn)

根據(jù)權(quán)威的ASR 行業(yè)公開評(píng)測(cè)項(xiàng)目SpeechIO TIOBE在2022年第3季度公布的結(jié)果［24］，對(duì)音頻采樣率為16 kHz的互聯(lián)網(wǎng)識(shí)別場(chǎng)景，當(dāng)前領(lǐng)先的公共語音識(shí)別服務(wù)的字準(zhǔn)確率已達(dá)95%以上。由于電話呼叫中心音頻采樣率為8 kHz，加之細(xì)分行業(yè)數(shù)據(jù)的專業(yè)性，通用ASR在實(shí)際客服領(lǐng)域存在對(duì)行業(yè)專有用詞識(shí)別精度低的問題。文中結(jié)合廣州12345政務(wù)熱線真實(shí)電話錄音，將所提出的基于行業(yè)詞表的自動(dòng)語音轉(zhuǎn)寫后優(yōu)化技術(shù)加以訓(xùn)練并校正。

2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)硬件配置為4 核CPU、8 G 內(nèi)存、GeForce GTX 1660 顯卡，操作系統(tǒng)為Centos7.6，編程環(huán)境為Python3.7.0，深度學(xué)習(xí)框架為PyTorch 1.2.0。

2.2 數(shù)據(jù)集

（1）訓(xùn)練集

使用廣州12345 政務(wù)熱線真實(shí)電話錄音（普通話版本）作為訓(xùn)練集進(jìn)行模型訓(xùn)練，共1 638.4 M。對(duì)部分長(zhǎng)度較短的句子進(jìn)行拼接處理，確定最佳的訓(xùn)練集長(zhǎng)短句比例，以提升模型訓(xùn)練效果。

（2）驗(yàn)證集

使用廣州12345政務(wù)熱線真實(shí)電話錄音（普通話版本）作為驗(yàn)證集，進(jìn)行模型參數(shù)調(diào)優(yōu)，共409.6 M。

（3）測(cè)試集

使用廣州12345 政務(wù)熱線真實(shí)電話錄音（普通話版本）作為測(cè)試集，進(jìn)行模型調(diào)優(yōu)后的結(jié)果對(duì)比，共14.8 M。

2.3 基準(zhǔn)模型

選擇清華THASR與阿里ALIASR這兩個(gè)在國(guó)際上領(lǐng)先的通用ASR模型作為基線模型，利用文中提出的技術(shù)對(duì)基線模型的語音識(shí)別結(jié)果進(jìn)行優(yōu)化與對(duì)比，評(píng)估所提出的轉(zhuǎn)寫后優(yōu)化技術(shù)的效果。

2.4 評(píng)價(jià)指標(biāo)

2.4.1 Soft-Masked BERT模型評(píng)價(jià)指標(biāo)

采用準(zhǔn)確率、精確率、召回率和綜合評(píng)價(jià)指標(biāo)F1來評(píng)價(jià)Soft-Masked BERT 模型的糾錯(cuò)效果，各指標(biāo)的定義及計(jì)算方式為

準(zhǔn)確率（Accuracy）A：

查準(zhǔn)率（Precision）P：

召回率（Recall）R：

綜合評(píng)價(jià)指標(biāo)F1：

式中，NTP為將“正確”預(yù)測(cè)為“正確”（True Positive）的字?jǐn)?shù)，NTN為將“錯(cuò)誤”預(yù)測(cè)為“錯(cuò)誤”（True Negative）的字?jǐn)?shù)，NFP為將“錯(cuò)誤”預(yù)測(cè)為“正確”（False Positive，即誤報(bào)）的字?jǐn)?shù)，NFN為將“正確”預(yù)測(cè)為“錯(cuò)誤”（False Negative，即漏報(bào)）的字?jǐn)?shù)。

2.4.2 ASR轉(zhuǎn)寫結(jié)果評(píng)價(jià)指標(biāo)

文中主要采用插入錯(cuò)誤率RI、刪除錯(cuò)誤率RD、替換錯(cuò)誤率RS以及字準(zhǔn)確率Rw來評(píng)價(jià)不同ASR 轉(zhuǎn)寫結(jié)果的準(zhǔn)確率，各評(píng)價(jià)指標(biāo)定義如下：

式中，N為真實(shí)樣本字?jǐn)?shù)，D為刪除的錯(cuò)誤字?jǐn)?shù)，I為插入的錯(cuò)誤字?jǐn)?shù)，S為替換的錯(cuò)誤字?jǐn)?shù)（為使識(shí)別出來的字序列和標(biāo)準(zhǔn)的字序列之間保持一致，需要替換、刪除或者插入某些字）。

3 結(jié)果與分析

3.1 行業(yè)糾錯(cuò)詞表準(zhǔn)確率測(cè)試結(jié)果與分析

經(jīng)過測(cè)試驗(yàn)證，使用MLM 預(yù)測(cè)分詞技術(shù)生成的行業(yè)糾錯(cuò)詞表準(zhǔn)確率達(dá)87.2%，具體結(jié)果如表1所示。

表1 糾錯(cuò)詞表準(zhǔn)確率實(shí)驗(yàn)結(jié)果Table1 Experimental results of the accuracy of error correction vocabulary %

3.2 訓(xùn)練集長(zhǎng)短句比例實(shí)驗(yàn)結(jié)果與分析

在糾錯(cuò)模型訓(xùn)練中，為了避免短句過多損失n-gram信息的問題并確定長(zhǎng)短句的最佳比例，通過拼接增加長(zhǎng)句比例進(jìn)行了對(duì)比實(shí)驗(yàn)，結(jié)果如表2所示?？梢钥闯觯L(zhǎng)短句比例為8∶2時(shí)訓(xùn)練模型的效果最好，準(zhǔn)確率達(dá)85.1%。

表2 長(zhǎng)短句比例對(duì)模型訓(xùn)練效果的影響Table 2 Effect of the proportion of long-to-short sentences on model training results

3.3 Soft-Masked BERT 參數(shù)調(diào)優(yōu)實(shí)驗(yàn)結(jié)果與分析

Soft-Masked BERT 模型的參數(shù)設(shè)置會(huì)影響最終的糾錯(cuò)準(zhǔn)確率，因此，進(jìn)一步對(duì)模型進(jìn)行調(diào)優(yōu)實(shí)驗(yàn)，結(jié)果如表3-5所示。

表3 遮蔽率調(diào)優(yōu)實(shí)驗(yàn)結(jié)果Table 3 Experimental results of mask rate optimization

3.3.1 遮蔽率調(diào)優(yōu)結(jié)果

表3 所示為遮蔽率（Mask Rate）調(diào)優(yōu)實(shí)驗(yàn)結(jié)果?？梢钥闯?，遮蔽率設(shè)置為15%時(shí)，模型的糾錯(cuò)結(jié)果最優(yōu)。

3.3.2 丟失率調(diào)優(yōu)結(jié)果

表4所示為丟失率（Dropout）調(diào)優(yōu)實(shí)驗(yàn)結(jié)果?？梢钥闯?，丟失率設(shè)置為10%時(shí)，模型的糾錯(cuò)結(jié)果最優(yōu)。

表4 丟失率調(diào)優(yōu)實(shí)驗(yàn)結(jié)果Table 4 Experimental results of dropout optimization

3.3.3 學(xué)習(xí)率調(diào)優(yōu)結(jié)果

表5 所示為學(xué)習(xí)率（Learning Rate）調(diào)優(yōu)實(shí)驗(yàn)結(jié)果?？梢钥闯?，學(xué)習(xí)率設(shè)置為1×10-4時(shí)，模型的糾錯(cuò)結(jié)果最優(yōu)。

表5 學(xué)習(xí)率調(diào)優(yōu)實(shí)驗(yàn)結(jié)果Table 5 Experimental results of learning rate optimization

3.4 文本糾錯(cuò)技術(shù)對(duì)比實(shí)驗(yàn)結(jié)果與分析

直接使用通用Soft-Masked BERT 模型與加入糾錯(cuò)詞表的模型進(jìn)行對(duì)比，結(jié)果表明，引入糾錯(cuò)詞表后，模型的準(zhǔn)確率由85.1%上升到了92.9%，提高幅度達(dá)7.8個(gè)百分點(diǎn)。

3.5 模型總體提升結(jié)果

利用文中提出的轉(zhuǎn)寫后優(yōu)化技術(shù)對(duì)清華THASR、阿里ALIASR 兩個(gè)通用ASR 模型進(jìn)行優(yōu)化，分別得到表6所示的清華糾錯(cuò)THASR-E、阿里ALIASR-E的語音識(shí)別結(jié)果。

表6 不同ASR在普通話數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of different ASR on mandarin datasets

從表6 可以看出，通用模型THASR 與ALIASR的字準(zhǔn)確率在80%～ 85%之間，采用文中技術(shù)優(yōu)化后，THASR-E 與ALIASR-E 的字準(zhǔn)確率較通用模型均提高約10 個(gè)百分點(diǎn)，表明文中提出的轉(zhuǎn)寫后優(yōu)化技術(shù)對(duì)于提升語音識(shí)別結(jié)果的準(zhǔn)確率有顯著效果，而且不依賴于ASR引擎，有良好的適應(yīng)性。

3.6 案例分析

選擇廣州12345實(shí)際客服通話錄音轉(zhuǎn)寫文本進(jìn)行ASR轉(zhuǎn)寫后優(yōu)化案例分析。案例中共有313條語句，總字?jǐn)?shù)為5 770，其中通用ASR 轉(zhuǎn)寫結(jié)果中有506 個(gè)錯(cuò)誤的字，應(yīng)用文中提出的轉(zhuǎn)寫后優(yōu)化技術(shù)從中檢測(cè)到489 個(gè)錯(cuò)誤字，并對(duì)其中470 個(gè)錯(cuò)誤字進(jìn)行糾正，在原始ASR 轉(zhuǎn)寫結(jié)果基礎(chǔ)上實(shí)現(xiàn)了92.9%的提升。

選取部分糾錯(cuò)示例進(jìn)行詳細(xì)分析，結(jié)果如表7所示?？梢钥闯?，文中提出的轉(zhuǎn)寫后優(yōu)化技術(shù)可以對(duì)通用ASR引擎轉(zhuǎn)寫錯(cuò)誤的政務(wù)熱線行業(yè)用詞進(jìn)行有效糾錯(cuò)。

表7 實(shí)際12345客服通話轉(zhuǎn)寫糾錯(cuò)示例結(jié)果Table 7 Results of the examples of correcting the translation of real 12345 customer service calls

4 結(jié)語

目前，一些通用ASR產(chǎn)品在細(xì)分行業(yè)內(nèi)的應(yīng)用已經(jīng)十分廣泛，但針對(duì)通用場(chǎng)景所構(gòu)建的ASR引擎在窄帶低采樣的語音環(huán)境下無法準(zhǔn)確識(shí)別細(xì)分行業(yè)內(nèi)的專業(yè)術(shù)語，導(dǎo)致語音識(shí)別準(zhǔn)確率難以滿足行業(yè)需求。重新構(gòu)建一個(gè)細(xì)分行業(yè)專用ASR引擎需要花費(fèi)較高成本，而且已有的語音識(shí)別后文本糾錯(cuò)技術(shù)也存在不適用于呼叫中心細(xì)分行業(yè)的問題。有鑒于此，文中提出了一種兼顧工程實(shí)現(xiàn)成本與效率的ASR轉(zhuǎn)寫后優(yōu)化技術(shù)，以模板匹配方式高效地實(shí)現(xiàn)了對(duì)通用ASR識(shí)別結(jié)果的糾錯(cuò)。

該技術(shù)通過文本摘要技術(shù)和MLM 預(yù)測(cè)分詞技術(shù)，構(gòu)建了一個(gè)詞量約為3 000 的細(xì)分行業(yè)糾錯(cuò)詞表，用于解決現(xiàn)存專業(yè)詞匯識(shí)別不準(zhǔn)確的問題，通過對(duì)通用ASR轉(zhuǎn)寫結(jié)果進(jìn)行快速糾錯(cuò)，在不產(chǎn)生較大延遲的前提下，提升呼叫中心客服場(chǎng)景中通話語音轉(zhuǎn)寫為文本的準(zhǔn)確率。選取清華THASR、阿里ALIASR 兩個(gè)通用ASR 作為基線模型在廣州12345政務(wù)熱線真實(shí)電話錄音數(shù)據(jù)集上進(jìn)行測(cè)試，結(jié)果表明，文中提出的優(yōu)化后轉(zhuǎn)寫技術(shù)可將字準(zhǔn)確率提高約10 個(gè)百分點(diǎn)，且糾錯(cuò)速度較快，不會(huì)產(chǎn)生明顯延遲，具有良好的適用性，可幫助客服人員快速地理解、響應(yīng)并解決客戶提出的問題與需求，提升客服人員的工作效率。

本研究的貢獻(xiàn)可以概括如下：

1）以人工與自動(dòng)化結(jié)合的方式優(yōu)化通用ASR轉(zhuǎn)寫結(jié)果，相比純?nèi)斯せ蚣冏詣?dòng)化的方法，文中方法有效實(shí)現(xiàn)了運(yùn)行效率與準(zhǔn)確性的兼顧；

2）通過對(duì)通用ASR輸出結(jié)果進(jìn)行優(yōu)化，在實(shí)際應(yīng)用可接受的延遲時(shí)間內(nèi)，以較高的工程效率提高了語音識(shí)別準(zhǔn)確率；

3）采用自監(jiān)督學(xué)習(xí)的掩碼語言模型高效構(gòu)建了呼叫中心細(xì)分行業(yè)糾錯(cuò)詞表，有效節(jié)省了人工標(biāo)注數(shù)據(jù)所需花費(fèi)的時(shí)間成本與勞動(dòng)資源。

后續(xù)研究中，擬將ASR轉(zhuǎn)寫后優(yōu)化技術(shù)應(yīng)用到方言環(huán)境的轉(zhuǎn)寫糾錯(cuò)研究中，提升方言環(huán)境下細(xì)分行業(yè)的語音轉(zhuǎn)寫成功率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡