基于神經(jīng)網(wǎng)絡(luò)的英語口音識別

2022-11-23 11:35劉輝翔趙云夢陳雯柏董立成

北京信息科技大學(xué)學(xué)報(自然科學(xué)版) 2022年5期

劉輝翔，趙云夢，陳雯柏，董立成

(1.北京信息科技大學(xué) 自動化學(xué)院,北京 100192；2.博鼎實華(北京)技術(shù)有限公司,北京 100096)

0 引言

世界上母語環(huán)境是英語的國家有十余個，把英語作為官方語言使用的國家有七十多個。由于本土的語言背景影響，不同地域存在英語的口音偏差，發(fā)音偏重和語速快慢均有不同，口音的特點有時會反映一個人的母語背景。人們在交流的過程中聽到不同于自己的口音時，一般會非常敏感地注意到這種差異，這種偏差在一定程度上影響了交流的效果。同時口音差異也會在一定程度上影響人機交互的準確度。

語音識別是一項融合了多學(xué)科的近代新興技術(shù)，已在智慧家居、醫(yī)療、車輛交通、電子通訊等領(lǐng)域[1-2]得到了廣泛應(yīng)用。自20世紀30年代美國貝爾實驗室的Homer Dudley提出語音分析與合成的系統(tǒng)模型以來，隱馬爾可夫模型(hidden Markov Model，HMM)、高斯混合模型(Gaussian mixed model，GMM)、梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients，MFCCs)等關(guān)鍵技術(shù)陸續(xù)被應(yīng)用在語音識別中。

隨著深度學(xué)習(xí)的興起，出現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型(deep neural networks hidden Markov model，DNN-HMM)，該模型用深度神經(jīng)網(wǎng)絡(luò)(deep neural network，DNN)對語音狀態(tài)進行建模，考慮了語音的時序結(jié)構(gòu)信息，使得語音狀態(tài)的分類概率有了明顯提升[5]。DNN超群的學(xué)習(xí)能力提升了模型對噪音、有地域特色語音的魯棒性和準確率。此外，應(yīng)用于圖像識別任務(wù)的主流框架卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)也被引入到語音識別模型中；同時，循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks，RNN)的代表模型長短時記憶(long short-term memory，LSTM)網(wǎng)絡(luò)和門限循環(huán)單元(gated recurrent unit，GRU)網(wǎng)絡(luò)、注意力機制(Attention)等語音識別的核心技術(shù)的發(fā)展都提升了語音識別模型的性能。

語音識別技術(shù)的提高，可以實現(xiàn)麥克風語音輸入轉(zhuǎn)文字時的高準確率，從而提升其在各個領(lǐng)域的應(yīng)用價值，而口音識別的技術(shù)研究，可以在一定范圍內(nèi)提高語音識別的準確率。

本文以英語為例，根據(jù)不同地域的發(fā)音習(xí)慣來確定說話對象來自的國家或地區(qū)，提高發(fā)音分類的準確率，促進人機交互領(lǐng)域?qū)σ阎牡赜蚩谝暨M行更準確的英語識別及翻譯。

1 相關(guān)工作

現(xiàn)代語音識別系統(tǒng)的核心主要是三大部分:聲學(xué)模型、語言模型和解碼器?？谝糇R別在國內(nèi)外的研究大部分都是基于各類神經(jīng)網(wǎng)絡(luò)，如DNN、RNN等，采用的特征主要包括MFCCs、Fbank、語譜圖、詞匯特性等，并以識別的準確率作為口音識別分類的評估機制。

國內(nèi)的研究主要是基于漢語普通話對不同地區(qū)的方言進行識別。漢語口音識別相對于英語口音識別來說，難點主要在于多音字、同音字、近音字對語句造成的影響。徐凡等[6]在2021年提出了一種融合了多種語言特征，基于自注意力的端到端的方言識別模型，在基準贛方言和客家方言兩類中表現(xiàn)較好，模型采用了雙向長短時記憶(bidirectional LSTM，BiLSTM)網(wǎng)絡(luò)結(jié)構(gòu)，在幀間特征提取方面具有優(yōu)勢。在漢語同音字、近音字研究上，呂坤儒等[7]提出了融合語言模型的端到端中文語音識別算法，攻克了語音模型中的誤差梯度無法傳遞給聲學(xué)模型的難點，字錯誤率被降低了21%。張盼等[8]針對對話語音，根據(jù)說話人口音進行自適應(yīng)識別，將詞錯誤率由40.6%降低到了20.6%。馮萌等[9]基于CNN-BiRNN-Attention模型對美國、澳大利亞、英國、加拿大、歐洲和印度6種口音進行區(qū)分，取得了86.24%的準確率以及85%的宏平均F1得分。師小凱等[10]基于極限學(xué)習(xí)機對阿拉伯、英國、中國、韓國、法國和西班牙6種口音進行區(qū)分，最終取得了82.75%的分類準確率。

科大訊飛公司[11]針對長時類的語音做了相關(guān)研究，把整句語音作為輸入，通過使用卷積層的堆疊直接進行建模，建立了深度全序列卷積神經(jīng)網(wǎng)絡(luò)(deep fully convolutional neural network，DFCNN)結(jié)構(gòu)。同時，阿里云的語音識別模型[12]基于前饋順序存儲器網(wǎng)絡(luò)(feed-forward sequential memory network，F(xiàn)FSMN)，在前饋全連接神經(jīng)網(wǎng)絡(luò)的隱含層中，通過添加一些可學(xué)習(xí)的記憶部分，同樣可以獲得對長時類的語音匹配性較好的模型。

國外相關(guān)的研究工作可追溯至1969年，美國佛羅里達亞特蘭大大學(xué)的Melvyn C.Resnick等[13]提出了針對同種語言不同口音的語音識別分類算法，而后在西班牙語的元音質(zhì)量分析、長度分析、方言等方面做了大量研究[14]。1996年，麻省理工學(xué)院林肯實驗室的Marc A.Zissman[15]建立了基于音素信息的語言模型，將語言模型與音位識別相結(jié)合，應(yīng)用于西班牙的古巴方言、秘魯方言的識別，準確率達到了84%，使得口音識別的研究向前邁了一大步。

2021年，印度班加羅爾大學(xué)的Shylaja S.S.等[16]在區(qū)分印度口音和美國口音的研究中，將MFCCs特征序列連接，并在數(shù)據(jù)上應(yīng)用適當?shù)谋O(jiān)督學(xué)習(xí)技術(shù)很好地解決了重音檢測和分類問題，平均準確率達76%。Das A.等[17]進一步探討使用單一模型進行多方言語音識別，利用LSTM網(wǎng)絡(luò)產(chǎn)生的注意力權(quán)重對集合的輸出進行線性組合，對美國口音、加拿大口音、英國口音和澳大利亞口音進行區(qū)分，結(jié)果表明，與基線模型相比，提出的最佳模型平均降低了4.74%的錯誤率。

2 基于CNN-LSTM的口音識別模型

2.1 CNN-LSTM模型

卷積神經(jīng)網(wǎng)絡(luò)[18]由于其良好的特征提取能力在各類任務(wù)中得到了廣泛應(yīng)用。音頻特征矩陣與圖像表示具有相似性，因此，CNN可被用來進一步提取音頻特征的局部特征，其特征提取過程可概括為式(1)所示。

am=σ(am-1*Wm+bm)

(1)

式中：m為所在層數(shù)；a為第m層的輸入；W為第m層的權(quán)重矩陣；b為第m層的偏置；σ為激活函數(shù)；*表示卷積。

CNN類模型通常是由若干個卷積層和池化層組成，其典型結(jié)構(gòu)如圖1所示。

圖1 CNN類模型結(jié)構(gòu)

LSTM網(wǎng)絡(luò)作為RNN的典型代表，引入了“門”的概念，借助于“記憶機制”解決RNN潛在的梯度爆炸和梯度消失問題。LSTM的內(nèi)部結(jié)構(gòu)如圖2所示。

圖2 LSTM的內(nèi)部結(jié)構(gòu)

圖2中，At-1為上一階段的信息狀態(tài)，ht-1為上一階段的隱藏狀態(tài)，At為當前階段的信息狀態(tài)，ht為當前階段的隱藏狀態(tài)和輸出，xt為當前階段的輸入向量。結(jié)構(gòu)中，At是“細胞狀態(tài)”部分，類比于神經(jīng)元，“輸入門”決定要在“細胞狀態(tài)”中存儲什么信息，“遺忘門”用來刪除過去的部分特征信息，“輸出門”負責更新并輸出特征信息。這些門的功能類似于新的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過濾重要信息，LSTM網(wǎng)絡(luò)的數(shù)學(xué)表達[19]如式(2)～(6)所示。

it=σ(Wxixt+Whiht-1+bi)

(2)

ft=σ(Wxfxt+Whfht-1+bf)

(3)

At=At-1⊙ft+it⊙tanh(Wxaxt+Whaht-1+ba)

(4)

ot=σ(Wxoxt+Whoht-1+bo)

(5)

ht=tanhAt⊙ot

(6)

式中：it、ft、ot分別為當前階段的輸入門、遺忘門和輸出門；Wxi、Wxf分別為輸入門、遺忘門輸入權(quán)重；Whi、Whf、Wha、Who為遺忘門循環(huán)權(quán)重；Wxa為“細胞狀態(tài)”輸入權(quán)重；Wxo為輸入權(quán)重；bi、bf、ba、bo分別為輸入門、遺忘門、細胞狀態(tài)和輸出門的偏置；ht計算LSTM的前向信息傳遞；⊙為哈達瑪積，表示矩陣對應(yīng)元素相乘。

1D-CNN-LSTM模型綜合考慮了CNN和LSTM各自的優(yōu)勢以及語音信號的特點，其基本結(jié)構(gòu)如圖3所示。

圖3 1D-CNN-LSTM模型結(jié)構(gòu)

1D-CNN包括卷積層和池化層，各層有卷積核和池化核，每層1D-CNN后連接最大池化層。LSTM包括兩層層單元，后接全連接層至輸出。

2.2 CNN-BiLSTM模型

在1D-CNN-LSTM網(wǎng)絡(luò)的基礎(chǔ)上，將LSTM層更新為BiLSTM，CNN層與全連接層不變，由此構(gòu)建的1D-CNN-BiLSTM模型結(jié)構(gòu)如圖4所示。

圖4 1D-CNN-BiLSTM模型結(jié)構(gòu)

口音的音頻信息通常是對上下信息相互關(guān)聯(lián)的，當前時間步的狀態(tài)不僅取決于前一個時間步，還受到下一時間步的影響，雙向的LSTM結(jié)構(gòu)較好地解決了單向LSTM網(wǎng)絡(luò)僅捕捉信息單向性關(guān)聯(lián)這一不足，使網(wǎng)絡(luò)能夠充分利用上下文信息，做出更加準確的預(yù)測。如圖4所示，在模型結(jié)構(gòu)中，模型輸入為前期處理過的特征矩陣，局部特征主要由兩層一維CNN網(wǎng)絡(luò)提?。蝗痔卣髦饕呻p向的LSTM網(wǎng)絡(luò)(BiLSTM層)進行提取，進而連接至全連接層(Dense層)，模型中用于特征提取的中間層均使用ReLU函數(shù)作為激活函數(shù)；最后，利用Softmax函數(shù)進行英語口音分類。值得注意的是，網(wǎng)絡(luò)中添加了Dropout層來防止訓(xùn)練過程的過擬合。

在CNN-BiLSTM網(wǎng)絡(luò)的基礎(chǔ)上，將雙向LSTM層中的LSTM單元更改為GRU單元，構(gòu)建成為CNN-BiGRU模型，作為實驗對比模型。

2.3 帶注意力機制的CNN-BiLSTM模型

注意力機制在近幾年來與深度學(xué)習(xí)相結(jié)合，被廣泛應(yīng)用于自然語言處理等領(lǐng)域，在語音情感識別[20]、文本分析[21]、圖像分類[22]等任務(wù)中取得了較好的效果。注意力機制使神經(jīng)網(wǎng)絡(luò)對特征相關(guān)的部分投入更多的關(guān)注，對于不相關(guān)的部分則關(guān)注較少。

在CNN-BiLSTM模型的基礎(chǔ)上引入注意力機制，對網(wǎng)絡(luò)中傳輸?shù)男畔⑦M行加權(quán)計算，增加某些特征的權(quán)重。以1D-CNN-BiLSTM為骨干網(wǎng)絡(luò)，帶注意力機制的1D-CNN-BiLSTM-Attention模型結(jié)構(gòu)如圖5所示。

圖5 1D-CNN-BiLSTM-Attention模型結(jié)構(gòu)

同樣地，模型輸入為前期處理過的特征矩陣，局部特征主要由兩層一維CNN網(wǎng)絡(luò)提取，全局特征主要由BiLSTM網(wǎng)絡(luò)進行提??；添加注意力模塊，通過注意機制對特征賦予不同權(quán)重，其計算過程如式(7)～(9)所示；最后，利用Softmax函數(shù)計算所有加權(quán)向量的概率分布，如式(10)所示，選擇概率最高的序列作為分類正確的結(jié)果序列。

at=tanh(st)

(7)

(8)

(9)

P=η(Wav+ba)

(10)

式中：st為BiLSTM層的輸出序列；at為目標注意力的權(quán)重；pt是通過Softmax函數(shù)生成的類別概率的向量；v是at的加權(quán)向量；Wa為權(quán)重矩陣；ba為偏置；η為Softmax函數(shù)；P為各類序列的概率分布。

3 實驗與討論

3.1 數(shù)據(jù)集介紹

實驗基于開源數(shù)據(jù)集VoxForge[23]中選取的5種地區(qū)的英語音頻數(shù)據(jù)，共1 143條，從每類口音數(shù)據(jù)樣本中隨機抽取30例作為測試集，剩下的作為訓(xùn)練集，各類樣本訓(xùn)練集和測試集的切分數(shù)量如表1所示。

表1 實驗數(shù)據(jù)集

由于MFCCs特征提取方法類似于人類聽覺感知的機制，利用梅爾濾波器組模擬人耳對聲音的非線性感知，可提取區(qū)分度更好的語音信號特征，使得模型魯棒性更強。所以本文選取MFCCs作為特征，通過數(shù)據(jù)預(yù)處理、數(shù)據(jù)分幀、加窗、快速傅里葉變換、帶通濾波將輸入信號轉(zhuǎn)化為梅爾頻率，最后進行倒譜分析提取MFCCs。

3.2 評價指標

實驗過程中，采用多種評價指標來綜合評估模型的性能，包括準確率、精確率、召回率和F1值。其中：準確率為正確預(yù)測的樣本占總樣本的比例；精確率為正確預(yù)測的正樣本占所有預(yù)測為正的樣本的比例；召回率為正確預(yù)測的正樣本占真實類別為正的樣本的比例；F1值為精確率與召回率的二倍乘積與和的比值，F(xiàn)1值越高，表示模型的性能越好。

3.3 實驗結(jié)果

1)CNN-LSTM模型

CNN-LSTM模型的超參數(shù)設(shè)置如表2所示。

表2 超參數(shù)設(shè)置

為了防止過擬合，分別在第一個CNN層、第二個CNN層和LSTM層中添加L2正則化參數(shù)為0.01、0.001、0.001，同時添加“dropout”結(jié)構(gòu)和“Early stopping”策略。

實驗過程中，我們首先探索了基于當前數(shù)據(jù)規(guī)模不同LSTM層數(shù)下模型的性能，實驗結(jié)果表明，在1D-CNN連接兩層LSTM時模型性能最好，準確率為70.0%。因此，在對比的所有模型中，均以兩層1D-CNN加兩層LSTM層(或一個雙向LSTM層)為骨干網(wǎng)絡(luò)。

1D-CNN-LSTM模型的綜合實驗結(jié)果如表3所示，實驗結(jié)果表明，在5類樣本中，CNN-LSTM模型在南非口音的判別方面性能表現(xiàn)最好，對美國口音的判別相對較好，對澳大利亞的口音判別效果一般，在英國口音和印度口音判別方面相對較差。

表3 1D-CNN-LSTM模型性能表現(xiàn) %

2)CNN-BiRNN模型

為了盡可能固定變量，參照1D-CNN-LSTM網(wǎng)絡(luò)模型，在1D-CNN-BiRNN網(wǎng)絡(luò)模型中添加相同數(shù)量的Dropout層，同時在兩層1DCNN和BiLSTM/BiGRU網(wǎng)絡(luò)中分別添加L2正則化參數(shù)為0.01、0.001、0.001。

CNN-BiLSTM與CNN-BiGRU綜合實驗結(jié)果如表4所示，可以看到兩種CNN-BiRNN模型在南非口音和美國口音的預(yù)測方面表現(xiàn)較好。相較而言，CNN-BiGRU模型對于南非口音、美國口音以及澳大利亞口音的識別性能優(yōu)于CNN-BiLSTM模型，對南非口音的識別召回率甚至可以達到100%；但CNN-BiGRU模型對印度口音的識別準確率略低于CNN-BiLSTM模型；在英國口音識別上，CNN-BiLSTM模型表現(xiàn)更好，比CNN-BiGRU模型的F1值高了19%。

表4 CNN-BiLSTM與CNN-BiGRU模型性能對比 %

3)CNN-BiLSTM-Attention模型

為固定變量，CNN-BiLSTM網(wǎng)絡(luò)部分的參數(shù)設(shè)置不變，帶注意力機制的1D-CNN-BiLSTM-Attention模型實驗結(jié)果如表5所示。

表5 1D-CNN-BiLSTM-Attention模型性能 %

通過表5，同時對比前續(xù)實驗結(jié)果可以看出，各類評價指標總體上有所下降，特別地，引入注意力機制后的模型對印度口音識別的準確率降低較明顯；但在澳大利亞口音識別中各指標值有小幅度的提升。

4)綜合對比

基于前面的實驗數(shù)據(jù)，對CNN-LSTM、CNN-BiLSTM、CNN-BiGRU、CNN-BiLSTM-Attention模型的識別性能進行了橫向?qū)Ρ?，各模型?類樣本的平均區(qū)分結(jié)果如表6所示。整體而言，CNN-BiLSTM模型取得了最佳性能表現(xiàn)，總體準確率達74%。

表6 不同模型的性能對比 %

此外，模型針對各地區(qū)口音的細分情況如表7所示。其中，在南非口音的識別方面，CNN-LSTM模型F1值高達97%；CNN-BiGRU模型和引入注意力機制的CNN-BiLSTM模型分別在美國口音和澳大利亞口音識別中性能表現(xiàn)最好；CNN-BiLSTM模型在英國口音和印度口音識別中的性能表現(xiàn)最好。

表7 不同模型在各地區(qū)口音識別中的F1值 %

4 結(jié)束語

在人工智能領(lǐng)域中，語音識別已然成為人們關(guān)注的焦點之一，也是有效利用人機交互的關(guān)鍵。本文基于神經(jīng)網(wǎng)絡(luò)對不同地域的英語口音識別展開研究。首先，提出了應(yīng)用于英語口音識別的骨干網(wǎng)絡(luò)模型CNN-LSTM；其次，在CNN-LSTM的基礎(chǔ)上，將LSTM由單向轉(zhuǎn)變?yōu)殡p向，各評價指標均得到了顯著提升，尤其是印度口音識別的F1值提升了20%；同時，對比了兩種CNN-BiRNN模型的性能，結(jié)果表明：CNN-BiGRU在南非口音和美國口音的識別中F1得分最高，分別達到了90%和84%，但CNN-BiLSTM綜合性能更好，在所有任務(wù)中獲得了74%的準確率；最后，在CNN-BiLSTM網(wǎng)絡(luò)的基礎(chǔ)上引入注意力機制，可能受限于樣本規(guī)模小、模型深度較淺，實驗過程中，注意力機制并未對模型性能有顯著的提升。

本文開展了基于神經(jīng)網(wǎng)絡(luò)的英語口音識別研究，綜合所有實驗結(jié)果，模型的性能指標還有提升空間，擴充數(shù)據(jù)集后，基于注意力機制模型可能會產(chǎn)生更好的實驗結(jié)果。除此之外，本文使用了微噪音的開源數(shù)據(jù)集，但在真實情景中，噪音對語音信號的影響可能更大，如何提升真實環(huán)境中模型的魯棒性和泛化性也是值得探索的方向之一。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡