結(jié)合深度神經(jīng)網(wǎng)絡(luò)與內(nèi)容轉(zhuǎn)錄的語(yǔ)音識(shí)別研究

2021-08-02 07:40鄭磊

軟件導(dǎo)刊 2021年7期

鄭磊

（山東青年政治學(xué)院信息工程學(xué)院，山東濟(jì)南 250103）

0 引言

隨著數(shù)字時(shí)代的到來(lái)，信息爆炸式增長(zhǎng)，傳統(tǒng)的以文本形式保存信息的方式已經(jīng)不能滿足現(xiàn)代人對(duì)知識(shí)的需求［1］。聲音作為一種直接記錄和掩飾信息的媒介，在實(shí)時(shí)傳遞信息的同時(shí)，將情感傳遞給信息，對(duì)信息的記錄更有價(jià)值［2］。隨著多媒體文件的大量應(yīng)用，基于多媒體數(shù)據(jù)的信息檢索技術(shù)已成為信息學(xué)研究的熱點(diǎn)［3-5］。如何像檢索文本一樣快速、準(zhǔn)確地從各種多媒體文檔中查找最重要的信息成為當(dāng)前關(guān)注的熱點(diǎn)。

本文介紹了語(yǔ)音識(shí)別原理和相關(guān)算法。在此基礎(chǔ)上將深度神經(jīng)網(wǎng)絡(luò)算法（Deep Neural Network，DNN）應(yīng)用于大詞匯量連續(xù)識(shí)別系統(tǒng)，建立基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型關(guān)鍵詞檢測(cè)系統(tǒng)。在對(duì)比實(shí)驗(yàn)中，將所提出的深度神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于構(gòu)建聲學(xué)模型，與傳統(tǒng)GMM-HMM 進(jìn)行對(duì)比，深入分析了算法對(duì)識(shí)別系統(tǒng)性能的影響。

1 相關(guān)研究

關(guān)鍵詞檢測(cè)技術(shù)起源于20 世紀(jì)70 年代，最早研究是基于“給定詞”概念。語(yǔ)音識(shí)別作為關(guān)鍵字檢索的一項(xiàng)關(guān)鍵技術(shù)受到廣泛關(guān)注。2006 年，Mustafamk 等［6］提出深度學(xué)習(xí)概念。微軟研究人員將受限的Boltzmann machime（REM）和深度信念網(wǎng)絡(luò)（DBN）引入到語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練中，在大詞匯量語(yǔ)音識(shí)別系統(tǒng)中取得成功［7］。

我國(guó)語(yǔ)音識(shí)別研究起步較晚。在國(guó)家的大力支持下，中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)院聲學(xué)研究所等科研機(jī)構(gòu)在語(yǔ)音識(shí)別方面進(jìn)行了廣泛研究并取得顯著進(jìn)展。目前，微軟、1BM、谷歌等國(guó)外公司相繼開(kāi)發(fā)了中文語(yǔ)音識(shí)別系統(tǒng)［8-9］，中國(guó)的公司如百度訊飛、搜狗也推出了相應(yīng)的中文連續(xù)語(yǔ)音識(shí)別項(xiàng)目。語(yǔ)音識(shí)別技術(shù)與關(guān)鍵字檢測(cè)系統(tǒng)在未來(lái)有著非常廣闊的發(fā)展前景。但是，語(yǔ)音識(shí)別技術(shù)仍然面臨著各種挑戰(zhàn)，如無(wú)法有效避免語(yǔ)音識(shí)別錯(cuò)誤等［10］。本文希望通過(guò)對(duì)基于DNN 的語(yǔ)音識(shí)別算法進(jìn)行研究，為提高語(yǔ)音關(guān)鍵字檢索系統(tǒng)語(yǔ)音識(shí)別性能提供新的思路。

2 研究方法

2.1 語(yǔ)言識(shí)別流程和原則

一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)包括語(yǔ)音預(yù)處理、語(yǔ)音特征提取、語(yǔ)音模型庫(kù)構(gòu)建、語(yǔ)音模式匹配等功能。對(duì)于錄制的語(yǔ)音信號(hào)，首先進(jìn)行語(yǔ)音預(yù)處理操作。預(yù)處理包括采樣、量化、濾波、預(yù)加重、窗口加幀和端點(diǎn)檢測(cè)等步驟，然后進(jìn)行語(yǔ)音信號(hào)特征提取，目的是提取能夠表征語(yǔ)音信號(hào)性質(zhì)的特征參數(shù)，去除不相關(guān)的噪聲信號(hào)，獲得用于聲學(xué)模型或語(yǔ)音識(shí)別的輸入?yún)?shù)。語(yǔ)音識(shí)別和語(yǔ)音預(yù)處理流程如圖1 所示。

Fig.1 Speech recognition structure and speech preprocessing flow圖1 語(yǔ)音識(shí)別結(jié)構(gòu)和語(yǔ)音預(yù)處理流程

2.2 語(yǔ)音識(shí)別算法模型基礎(chǔ)

語(yǔ)音識(shí)別的核心是聲學(xué)模式，目前主要采用隱馬爾可夫模型對(duì)語(yǔ)音信號(hào)的時(shí)間變化建模。HMM 每一種狀態(tài)下的觀測(cè)概率估計(jì)方法可分為離散型、半連續(xù)型和連續(xù)型。目前，語(yǔ)音識(shí)別系統(tǒng)主要是連續(xù)或半連續(xù)的。通過(guò)HMM描述聲學(xué)層模型時(shí)，隱藏狀態(tài)對(duì)應(yīng)于聲學(xué)層相對(duì)穩(wěn)定的語(yǔ)音狀態(tài)，可以描述語(yǔ)音信號(hào)的動(dòng)態(tài)變化。

圖2 中HMM 模型有6 種狀態(tài)，其中4 種是啟動(dòng)狀態(tài)，第1 種狀態(tài)表示開(kāi)始狀態(tài)。每個(gè)隱藏狀態(tài)會(huì)根據(jù)概率分布向外發(fā)射一個(gè)狀態(tài)，然后轉(zhuǎn)到右邊的狀態(tài)。最右邊的結(jié)束狀態(tài)表示HMM 已經(jīng)結(jié)束。在某個(gè)時(shí)間節(jié)點(diǎn)模型有一系列狀態(tài)。在t+1 時(shí)，模型的每個(gè)狀態(tài)都會(huì)轉(zhuǎn)到一個(gè)新的狀態(tài)，表示一個(gè)新的狀態(tài)序列。這一過(guò)程最重要的特征是T 時(shí)刻狀態(tài)只與t-1 時(shí)刻的狀態(tài)相關(guān)，這被稱為馬爾科夫。HMM 基本組成包括：①狀態(tài)集S={s1,s2,...,sN}，其中N 表示音素的個(gè)數(shù)；②狀態(tài)轉(zhuǎn)移矩陣A；③表示每種狀態(tài)初始概率的輸出分布B={bj(x)} 。

Fig.2 HMM model structure圖2 HMM 模型結(jié)構(gòu)

2.3 DNN 與傳統(tǒng)聲學(xué)模型結(jié)合

關(guān)鍵字檢測(cè)系統(tǒng)通常基于大詞匯量連續(xù)語(yǔ)音識(shí)別器。在語(yǔ)音關(guān)鍵字檢索系統(tǒng)中，采用GMM 與HMM 相結(jié)合的GMM-HMM 模型作為L(zhǎng)VCSR 的聲學(xué)模型，但該模型對(duì)語(yǔ)音信號(hào)識(shí)別率較低。隨著深度學(xué)習(xí)技術(shù)在語(yǔ)音識(shí)別領(lǐng)域的發(fā)展，利用DNN 代替GMM 形成DNN-HMM 聲學(xué)模型引起廣泛關(guān)注。DNN 模型是一種具有多層隱含層的前饋神經(jīng)網(wǎng)絡(luò)模型。DNN 模型共有L+1 層，其中0 層為輸入層，1 到L-1 層為隱藏層，L 層是輸出層，相鄰層由前饋權(quán)值矩陣連接。

大多數(shù)情況下DNN 模型激活函數(shù)為Sigmoid 函數(shù)：

σ(z)的輸出范圍是（0.1），這有助于獲得稀疏表達(dá)式，但它使得激活值不對(duì)稱。對(duì)于多分類任務(wù)，每個(gè)輸出神經(jīng)元代表一類i∈{1,2,…,C}，其中C=NL是類的數(shù)量。給定訓(xùn)練準(zhǔn)則可使用眾所周知的誤差反向傳播算法提取模型參數(shù)C=N，并利用鏈?zhǔn)揭?guī)則進(jìn)行推導(dǎo)。模型參數(shù)采用一階導(dǎo)數(shù)信息，按下式進(jìn)行優(yōu)化：

式中：和分別為第t 次迭代更新后第1 層的權(quán)值矩陣和偏差向量。

式（4）和式（5）分別為第t 次迭代后得到的平均權(quán)重矩陣梯度和平均偏差向量梯度，其中ε為學(xué)習(xí)速率，?XJ為J 相對(duì)于x 的梯度。

對(duì)于每個(gè)任務(wù)，DNN 的模型參數(shù)需要由訓(xùn)練樣本S={(om,ym)|0 ≤m≤M} 進(jìn)行訓(xùn)練。式中M 為訓(xùn)練樣本個(gè)數(shù)，om為第M 個(gè)觀察向量，ym為對(duì)應(yīng)的輸出向量。這個(gè)過(guò)程稱為訓(xùn)練過(guò)程或參數(shù)估計(jì)過(guò)程，需要給出一個(gè)訓(xùn)練標(biāo)準(zhǔn)和一個(gè)學(xué)習(xí)算法，在語(yǔ)音識(shí)別任務(wù)中，通過(guò)聲學(xué)模型訓(xùn)練完成這一過(guò)程。對(duì)于相鄰層間完全連通的DNN，權(quán)值初始化為一個(gè)較小的隨機(jī)值，以避免在一個(gè)擁有相同梯度的層中由于隱藏層太多而難以優(yōu)化所有隱藏單元。DNN 可能需要擴(kuò)展到測(cè)試數(shù)據(jù)集之外。語(yǔ)音符號(hào)是時(shí)間序列信號(hào)，DNN 不能直接對(duì)其建模。利用HMM 對(duì)語(yǔ)音信號(hào)的動(dòng)態(tài)變化進(jìn)行建模，利用DNN 估計(jì)觀測(cè)概率。DNN-HMM 模型結(jié)構(gòu)如圖3 所示。

DNN-HMM 訓(xùn)練步驟如下：①將訓(xùn)練集與常規(guī)訓(xùn)練的DNN-HMM 模型進(jìn)行對(duì)齊，得到對(duì)齊信息；②建立上下文敏感狀態(tài)到語(yǔ)音ID 的映射；③根據(jù)訓(xùn)練DNN 所需的輸入和輸出標(biāo)簽生成信息；④獲取DNN 中需要的HMM 模型結(jié)構(gòu)；⑤基于輸入和輸出標(biāo)簽估計(jì)語(yǔ)音的先驗(yàn)概率，利用反向傳播算法調(diào)整網(wǎng)絡(luò)參數(shù)得到DNN-HMM 模型。

Fig.3 DNN-HMM model structure圖3 DNN-HMM 模型結(jié)構(gòu)

3 實(shí)驗(yàn)結(jié)果

3.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)選擇開(kāi)源中文普通話語(yǔ)音數(shù)據(jù)庫(kù)aishell，對(duì)同一揚(yáng)聲器的測(cè)試集執(zhí)行數(shù)據(jù)庫(kù)中的語(yǔ)音材料。在安靜環(huán)境下使用電腦錄音軟件Cool Edit Pro 錄制語(yǔ)音信息，挑選8名演講者依次閱讀20 個(gè)教育詞匯，每個(gè)單詞讀10 次。采樣頻率設(shè)置為8kHz，每個(gè)采樣點(diǎn)被量化16 位并存儲(chǔ)在單聲道中，共獲得1 600 個(gè)語(yǔ)音樣本作為訓(xùn)練和識(shí)別語(yǔ)料庫(kù)。以前3 道和后3 道作為訓(xùn)練集，共有960 個(gè)樣本，使用中間4個(gè)樣本作為同一揚(yáng)聲器測(cè)試集，共640 個(gè)樣本。

在語(yǔ)音信號(hào)特征提取中，從訓(xùn)練集和同一說(shuō)話人測(cè)試集的每個(gè)預(yù)處理語(yǔ)音樣本中提取24 維Mel-frequency Ceps?trum（MFC）系數(shù)特征，并采用均值方差對(duì)其進(jìn)行正則化，該功能窗口大小為25ms，重疊時(shí)間為10ms。比較傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型和DNN 模型的語(yǔ)音識(shí)別性能，以語(yǔ)音識(shí)別正確率作為評(píng)價(jià)標(biāo)準(zhǔn)，數(shù)值均為統(tǒng)計(jì)平均值。

3.2 基于語(yǔ)音識(shí)別的語(yǔ)音關(guān)鍵字檢索系統(tǒng)構(gòu)建

語(yǔ)音關(guān)鍵字檢索系統(tǒng)包括系統(tǒng)索引和關(guān)鍵字檢索。其中，索引由索引語(yǔ)音識(shí)別、后處理語(yǔ)音識(shí)別、索引構(gòu)建組成。關(guān)鍵字檢索由關(guān)鍵字檢查和置信度評(píng)估兩部分組成，如圖4 所示。語(yǔ)音識(shí)別錯(cuò)誤和外來(lái)詞嚴(yán)重影響系統(tǒng)的查全率，模糊匹配方法能有效提高召回率，但增加了查詢時(shí)間。在關(guān)鍵字查詢過(guò)程中，可以在超類數(shù)據(jù)庫(kù)中執(zhí)行初始快速查找以縮小搜索范圍，然后在音節(jié)序列數(shù)據(jù)庫(kù)中執(zhí)行精確的查詢以加快搜索速度。

Fig.4 Composition of voice keyword retrieval system圖4 語(yǔ)音關(guān)鍵字檢索系統(tǒng)組成

語(yǔ)音關(guān)鍵字檢索系統(tǒng)依賴于識(shí)別結(jié)果，因此語(yǔ)音識(shí)別的性能對(duì)系統(tǒng)的檢索性能有著至關(guān)重要的影響。語(yǔ)音識(shí)別系統(tǒng)性能通常是通過(guò)識(shí)別錯(cuò)誤率和實(shí)時(shí)率來(lái)評(píng)價(jià)的。在語(yǔ)音關(guān)鍵字檢索系統(tǒng)中，語(yǔ)音數(shù)據(jù)的識(shí)別過(guò)程可以離線進(jìn)行而不必考慮實(shí)時(shí)指標(biāo)。識(shí)別結(jié)果表明，錯(cuò)誤類型包括插入錯(cuò)誤、刪除錯(cuò)誤和替換錯(cuò)誤。將識(shí)別最佳結(jié)果與參考文本進(jìn)行比較，可以得到識(shí)別錯(cuò)誤率。

3.3 語(yǔ)音識(shí)別結(jié)果比較

語(yǔ)音信號(hào)特征參數(shù)的幀數(shù)設(shè)置為23，選取非線性tanh函數(shù)作為激活函數(shù)。輸出為30 個(gè)神經(jīng)元，使輸出神經(jīng)元的數(shù)目與待分類神經(jīng)元數(shù)目相同。以估計(jì)概率分布與實(shí)際概率提取之間的高斯熵作為目標(biāo)函數(shù)，當(dāng)語(yǔ)音識(shí)別精度提高到0.2%以下時(shí)停止迭代。不同語(yǔ)音識(shí)別算法的識(shí)別準(zhǔn)確率結(jié)果如表1 所示。

Table 1 Recognition accuracy of different speech recognition algorithms表1 不同語(yǔ)音識(shí)別算法的識(shí)別精度（%）

如表1 所示，基于LSTM-HMM 和DNN-HMM 模型的語(yǔ)音識(shí)別準(zhǔn)確率明顯高于傳統(tǒng)的GMM-HMM 模型，同時(shí)LSTM-HMM 模型的語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到96.5%，表明該模型具有更好的性能。LSTM 訓(xùn)練參數(shù)大小為436 570，DNN訓(xùn)練參數(shù)大小為698 100，GMM 訓(xùn)練參數(shù)大小為1 226 700。在訓(xùn)練集語(yǔ)音樣本有限的情況下，訓(xùn)練模型的過(guò)擬合會(huì)導(dǎo)致訓(xùn)練模型過(guò)擬合問(wèn)題。因此，基于DNN 的語(yǔ)音識(shí)別可以減小訓(xùn)練參數(shù)大小，有效避免訓(xùn)練模型的過(guò)擬合。

語(yǔ)音信號(hào)具有很強(qiáng)的隨機(jī)性，同一語(yǔ)音單元擴(kuò)展的語(yǔ)音特征參數(shù)及幀數(shù)可能不同，規(guī)則幀數(shù)對(duì)不同算法識(shí)別性能的影響如圖5 所示。隨著規(guī)則幀數(shù)的增加，輸入與原始特征參數(shù)的距離越來(lái)越近，兩種網(wǎng)絡(luò)模型的識(shí)別精度不斷提高。模型是通過(guò)隨機(jī)梯度下降法計(jì)算均方誤差，然后通過(guò)調(diào)整網(wǎng)絡(luò)參數(shù)減小均方誤差來(lái)實(shí)現(xiàn)。因此，網(wǎng)絡(luò)模型的收斂性直接反映了整體性能是否優(yōu)越。

Fig.5 Influence of regular frame number on recognition performance of different algorithms圖5 規(guī)則幀數(shù)對(duì)不同算法識(shí)別性能的影響

4 結(jié)語(yǔ)

為解決傳統(tǒng)關(guān)鍵字檢測(cè)系統(tǒng)中GMM-HMM 聲學(xué)模型的低識(shí)別率問(wèn)題，本文將基于DNN 的語(yǔ)音識(shí)別算法應(yīng)用于關(guān)鍵字檢測(cè)。使用DNN-HMM 聲學(xué)模型代替原系統(tǒng)中的GMM-HMM 模型，并在此基礎(chǔ)上對(duì)關(guān)鍵字檢測(cè)進(jìn)行研究。通過(guò)對(duì)比實(shí)驗(yàn)選擇一個(gè)開(kāi)源普通話語(yǔ)音數(shù)據(jù)庫(kù)——aishell，它是在同一個(gè)揚(yáng)聲器的測(cè)試裝置上播放的。在安靜環(huán)境下，使用電腦錄音軟件Cool Edit Pro 錄制語(yǔ)音信息。實(shí)驗(yàn)表明，基于LSTM-HMM 模型和DNN-HMM 模型的語(yǔ)音識(shí)別準(zhǔn)確率分別為96.5% 和91.6%，顯著高于GMMHMM 的78.5%，說(shuō)明本文提出的LSTM-HMM 模型性能更好。在訓(xùn)練集語(yǔ)音樣本有限的情況下，會(huì)產(chǎn)生訓(xùn)練參數(shù)尺度過(guò)大、訓(xùn)練模型過(guò)擬合問(wèn)題?；贒NN 的語(yǔ)音識(shí)別算法可以減小訓(xùn)練參數(shù)尺度，從而有效避免訓(xùn)練模型過(guò)擬合問(wèn)題。

基于LSTM-HMM 的語(yǔ)音識(shí)別技術(shù)具有較高的準(zhǔn)確率，更適合于語(yǔ)音關(guān)鍵字檢索。但在復(fù)雜語(yǔ)音環(huán)境下，關(guān)鍵字檢測(cè)的魯棒性仍有很大的提升空間。因此，后續(xù)研究可以探索提取更魯棒的聲學(xué)特征方向，在有噪聲干擾的情況下準(zhǔn)確檢索所需的語(yǔ)音信息。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡