劉輝翔,趙云夢,陳雯柏,董立成
(1.北京信息科技大學(xué) 自動化學(xué)院,北京 100192;2.博鼎實華(北京)技術(shù)有限公司,北京 100096)
世界上母語環(huán)境是英語的國家有十余個,把英語作為官方語言使用的國家有七十多個。由于本土的語言背景影響,不同地域存在英語的口音偏差,發(fā)音偏重和語速快慢均有不同,口音的特點有時會反映一個人的母語背景。人們在交流的過程中聽到不同于自己的口音時,一般會非常敏感地注意到這種差異,這種偏差在一定程度上影響了交流的效果。同時口音差異也會在一定程度上影響人機交互的準確度。
語音識別是一項融合了多學(xué)科的近代新興技術(shù),已在智慧家居、醫(yī)療、車輛交通、電子通訊等領(lǐng)域[1-2]得到了廣泛應(yīng)用。自20世紀30年代美國貝爾實驗室的Homer Dudley提出語音分析與合成的系統(tǒng)模型以來,隱馬爾可夫模型(hidden Markov Model,HMM)、高斯混合模型(Gaussian mixed model,GMM)、梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCCs)等關(guān)鍵技術(shù)陸續(xù)被應(yīng)用在語音識別中。
隨著深度學(xué)習(xí)的興起,出現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型(deep neural networks hidden Markov model,DNN-HMM),該模型用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)對語音狀態(tài)進行建模,考慮了語音的時序結(jié)構(gòu)信息,使得語音狀態(tài)的分類概率有了明顯提升[5]。DNN超群的學(xué)習(xí)能力提升了模型對噪音、有地域特色語音的魯棒性和準確率。此外,應(yīng)用于圖像識別任務(wù)的主流框架卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)也被引入到語音識別模型中;同時,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)的代表模型長短時記憶(long short-term memory,LSTM)網(wǎng)絡(luò)和門限循環(huán)單元(gated recurrent unit,GRU)網(wǎng)絡(luò)、注意力機制(Attention)等語音識別的核心技術(shù)的發(fā)展都提升了語音識別模型的性能。
語音識別技術(shù)的提高,可以實現(xiàn)麥克風語音輸入轉(zhuǎn)文字時的高準確率,從而提升其在各個領(lǐng)域的應(yīng)用價值,而口音識別的技術(shù)研究,可以在一定范圍內(nèi)提高語音識別的準確率。
本文以英語為例,根據(jù)不同地域的發(fā)音習(xí)慣來確定說話對象來自的國家或地區(qū),提高發(fā)音分類的準確率,促進人機交互領(lǐng)域?qū)σ阎牡赜蚩谝暨M行更準確的英語識別及翻譯。
現(xiàn)代語音識別系統(tǒng)的核心主要是三大部分:聲學(xué)模型、語言模型和解碼器??谝糇R別在國內(nèi)外的研究大部分都是基于各類神經(jīng)網(wǎng)絡(luò),如DNN、RNN等,采用的特征主要包括MFCCs、Fbank、語譜圖、詞匯特性等,并以識別的準確率作為口音識別分類的評估機制。
國內(nèi)的研究主要是基于漢語普通話對不同地區(qū)的方言進行識別。漢語口音識別相對于英語口音識別來說,難點主要在于多音字、同音字、近音字對語句造成的影響。徐凡等[6]在2021年提出了一種融合了多種語言特征,基于自注意力的端到端的方言識別模型,在基準贛方言和客家方言兩類中表現(xiàn)較好,模型采用了雙向長短時記憶(bidirectional LSTM,BiLSTM)網(wǎng)絡(luò)結(jié)構(gòu),在幀間特征提取方面具有優(yōu)勢。在漢語同音字、近音字研究上,呂坤儒等[7]提出了融合語言模型的端到端中文語音識別算法,攻克了語音模型中的誤差梯度無法傳遞給聲學(xué)模型的難點,字錯誤率被降低了21%。張盼等[8]針對對話語音,根據(jù)說話人口音進行自適應(yīng)識別,將詞錯誤率由40.6%降低到了20.6%。馮萌等[9]基于CNN-BiRNN-Attention模型對美國、澳大利亞、英國、加拿大、歐洲和印度6種口音進行區(qū)分,取得了86.24%的準確率以及85%的宏平均F1得分。師小凱等[10]基于極限學(xué)習(xí)機對阿拉伯、英國、中國、韓國、法國和西班牙6種口音進行區(qū)分,最終取得了82.75%的分類準確率。
科大訊飛公司[11]針對長時類的語音做了相關(guān)研究,把整句語音作為輸入,通過使用卷積層的堆疊直接進行建模,建立了深度全序列卷積神經(jīng)網(wǎng)絡(luò)(deep fully convolutional neural network,DFCNN)結(jié)構(gòu)。同時,阿里云的語音識別模型[12]基于前饋順序存儲器網(wǎng)絡(luò)(feed-forward sequential memory network,F(xiàn)FSMN),在前饋全連接神經(jīng)網(wǎng)絡(luò)的隱含層中,通過添加一些可學(xué)習(xí)的記憶部分,同樣可以獲得對長時類的語音匹配性較好的模型。
國外相關(guān)的研究工作可追溯至1969年,美國佛羅里達亞特蘭大大學(xué)的Melvyn C.Resnick等[13]提出了針對同種語言不同口音的語音識別分類算法,而后在西班牙語的元音質(zhì)量分析、長度分析、方言等方面做了大量研究[14]。1996年,麻省理工學(xué)院林肯實驗室的Marc A.Zissman[15]建立了基于音素信息的語言模型,將語言模型與音位識別相結(jié)合,應(yīng)用于西班牙的古巴方言、秘魯方言的識別,準確率達到了84%,使得口音識別的研究向前邁了一大步。
2021年,印度班加羅爾大學(xué)的Shylaja S.S.等[16]在區(qū)分印度口音和美國口音的研究中,將MFCCs特征序列連接,并在數(shù)據(jù)上應(yīng)用適當?shù)谋O(jiān)督學(xué)習(xí)技術(shù)很好地解決了重音檢測和分類問題,平均準確率達76%。Das A.等[17]進一步探討使用單一模型進行多方言語音識別,利用LSTM網(wǎng)絡(luò)產(chǎn)生的注意力權(quán)重對集合的輸出進行線性組合,對美國口音、加拿大口音、英國口音和澳大利亞口音進行區(qū)分,結(jié)果表明,與基線模型相比,提出的最佳模型平均降低了4.74%的錯誤率。
卷積神經(jīng)網(wǎng)絡(luò)[18]由于其良好的特征提取能力在各類任務(wù)中得到了廣泛應(yīng)用。音頻特征矩陣與圖像表示具有相似性,因此,CNN可被用來進一步提取音頻特征的局部特征,其特征提取過程可概括為式(1)所示。
am=σ(am-1*Wm+bm)
(1)
式中:m為所在層數(shù);a為第m層的輸入;W為第m層的權(quán)重矩陣;b為第m層的偏置;σ為激活函數(shù);*表示卷積。
CNN類模型通常是由若干個卷積層和池化層組成,其典型結(jié)構(gòu)如圖1所示。
圖1 CNN類模型結(jié)構(gòu)
LSTM網(wǎng)絡(luò)作為RNN的典型代表,引入了“門”的概念,借助于“記憶機制”解決RNN潛在的梯度爆炸和梯度消失問題。LSTM的內(nèi)部結(jié)構(gòu)如圖2所示。
圖2 LSTM的內(nèi)部結(jié)構(gòu)
圖2中,At-1為上一階段的信息狀態(tài),ht-1為上一階段的隱藏狀態(tài),At為當前階段的信息狀態(tài),ht為當前階段的隱藏狀態(tài)和輸出,xt為當前階段的輸入向量。結(jié)構(gòu)中,At是“細胞狀態(tài)”部分,類比于神經(jīng)元,“輸入門”決定要在“細胞狀態(tài)”中存儲什么信息,“遺忘門”用來刪除過去的部分特征信息,“輸出門”負責更新并輸出特征信息。這些門的功能類似于新的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過濾重要信息,LSTM網(wǎng)絡(luò)的數(shù)學(xué)表達[19]如式(2)~(6)所示。
it=σ(Wxixt+Whiht-1+bi)
(2)
ft=σ(Wxfxt+Whfht-1+bf)
(3)
At=At-1⊙ft+it⊙tanh(Wxaxt+Whaht-1+ba)
(4)
ot=σ(Wxoxt+Whoht-1+bo)
(5)
ht=tanhAt⊙ot
(6)
式中:it、ft、ot分別為當前階段的輸入門、遺忘門和輸出門;Wxi、Wxf分別為輸入門、遺忘門輸入權(quán)重;Whi、Whf、Wha、Who為遺忘門循環(huán)權(quán)重;Wxa為“細胞狀態(tài)”輸入權(quán)重;Wxo為輸入權(quán)重;bi、bf、ba、bo分別為輸入門、遺忘門、細胞狀態(tài)和輸出門的偏置;ht計算LSTM的前向信息傳遞;⊙為哈達瑪積,表示矩陣對應(yīng)元素相乘。
1D-CNN-LSTM模型綜合考慮了CNN和LSTM各自的優(yōu)勢以及語音信號的特點,其基本結(jié)構(gòu)如圖3所示。
圖3 1D-CNN-LSTM模型結(jié)構(gòu)
1D-CNN包括卷積層和池化層,各層有卷積核和池化核,每層1D-CNN后連接最大池化層。LSTM包括兩層層單元,后接全連接層至輸出。
在1D-CNN-LSTM網(wǎng)絡(luò)的基礎(chǔ)上,將LSTM層更新為BiLSTM,CNN層與全連接層不變,由此構(gòu)建的1D-CNN-BiLSTM模型結(jié)構(gòu)如圖4所示。
圖4 1D-CNN-BiLSTM模型結(jié)構(gòu)
口音的音頻信息通常是對上下信息相互關(guān)聯(lián)的,當前時間步的狀態(tài)不僅取決于前一個時間步,還受到下一時間步的影響,雙向的LSTM結(jié)構(gòu)較好地解決了單向LSTM網(wǎng)絡(luò)僅捕捉信息單向性關(guān)聯(lián)這一不足,使網(wǎng)絡(luò)能夠充分利用上下文信息,做出更加準確的預(yù)測。如圖4所示,在模型結(jié)構(gòu)中,模型輸入為前期處理過的特征矩陣,局部特征主要由兩層一維CNN網(wǎng)絡(luò)提?。蝗痔卣髦饕呻p向的LSTM網(wǎng)絡(luò)(BiLSTM層)進行提取,進而連接至全連接層(Dense層),模型中用于特征提取的中間層均使用ReLU函數(shù)作為激活函數(shù);最后,利用Softmax函數(shù)進行英語口音分類。值得注意的是,網(wǎng)絡(luò)中添加了Dropout層來防止訓(xùn)練過程的過擬合。
在CNN-BiLSTM網(wǎng)絡(luò)的基礎(chǔ)上,將雙向LSTM層中的LSTM單元更改為GRU單元,構(gòu)建成為CNN-BiGRU模型,作為實驗對比模型。
注意力機制在近幾年來與深度學(xué)習(xí)相結(jié)合,被廣泛應(yīng)用于自然語言處理等領(lǐng)域,在語音情感識別[20]、文本分析[21]、圖像分類[22]等任務(wù)中取得了較好的效果。注意力機制使神經(jīng)網(wǎng)絡(luò)對特征相關(guān)的部分投入更多的關(guān)注,對于不相關(guān)的部分則關(guān)注較少。
在CNN-BiLSTM模型的基礎(chǔ)上引入注意力機制,對網(wǎng)絡(luò)中傳輸?shù)男畔⑦M行加權(quán)計算,增加某些特征的權(quán)重。以1D-CNN-BiLSTM為骨干網(wǎng)絡(luò),帶注意力機制的1D-CNN-BiLSTM-Attention模型結(jié)構(gòu)如圖5所示。
圖5 1D-CNN-BiLSTM-Attention模型結(jié)構(gòu)
同樣地,模型輸入為前期處理過的特征矩陣,局部特征主要由兩層一維CNN網(wǎng)絡(luò)提取,全局特征主要由BiLSTM網(wǎng)絡(luò)進行提??;添加注意力模塊,通過注意機制對特征賦予不同權(quán)重,其計算過程如式(7)~(9)所示;最后,利用Softmax函數(shù)計算所有加權(quán)向量的概率分布,如式(10)所示,選擇概率最高的序列作為分類正確的結(jié)果序列。
at=tanh(st)
(7)
(8)
(9)
P=η(Wav+ba)
(10)
式中:st為BiLSTM層的輸出序列;at為目標注意力的權(quán)重;pt是通過Softmax函數(shù)生成的類別概率的向量;v是at的加權(quán)向量;Wa為權(quán)重矩陣;ba為偏置;η為Softmax函數(shù);P為各類序列的概率分布。
實驗基于開源數(shù)據(jù)集VoxForge[23]中選取的5種地區(qū)的英語音頻數(shù)據(jù),共1 143條,從每類口音數(shù)據(jù)樣本中隨機抽取30例作為測試集,剩下的作為訓(xùn)練集,各類樣本訓(xùn)練集和測試集的切分數(shù)量如表1所示。
表1 實驗數(shù)據(jù)集
由于MFCCs特征提取方法類似于人類聽覺感知的機制,利用梅爾濾波器組模擬人耳對聲音的非線性感知,可提取區(qū)分度更好的語音信號特征,使得模型魯棒性更強。所以本文選取MFCCs作為特征,通過數(shù)據(jù)預(yù)處理、數(shù)據(jù)分幀、加窗、快速傅里葉變換、帶通濾波將輸入信號轉(zhuǎn)化為梅爾頻率,最后進行倒譜分析提取MFCCs。
實驗過程中,采用多種評價指標來綜合評估模型的性能,包括準確率、精確率、召回率和F1值。其中:準確率為正確預(yù)測的樣本占總樣本的比例;精確率為正確預(yù)測的正樣本占所有預(yù)測為正的樣本的比例;召回率為正確預(yù)測的正樣本占真實類別為正的樣本的比例;F1值為精確率與召回率的二倍乘積與和的比值,F(xiàn)1值越高,表示模型的性能越好。
1)CNN-LSTM模型
CNN-LSTM模型的超參數(shù)設(shè)置如表2所示。
表2 超參數(shù)設(shè)置
為了防止過擬合,分別在第一個CNN層、第二個CNN層和LSTM層中添加L2正則化參數(shù)為0.01、0.001、0.001,同時添加“dropout”結(jié)構(gòu)和“Early stopping”策略。
實驗過程中,我們首先探索了基于當前數(shù)據(jù)規(guī)模不同LSTM層數(shù)下模型的性能,實驗結(jié)果表明,在1D-CNN連接兩層LSTM時模型性能最好,準確率為70.0%。因此,在對比的所有模型中,均以兩層1D-CNN加兩層LSTM層(或一個雙向LSTM層)為骨干網(wǎng)絡(luò)。
1D-CNN-LSTM模型的綜合實驗結(jié)果如表3所示,實驗結(jié)果表明,在5類樣本中,CNN-LSTM模型在南非口音的判別方面性能表現(xiàn)最好,對美國口音的判別相對較好,對澳大利亞的口音判別效果一般,在英國口音和印度口音判別方面相對較差。
表3 1D-CNN-LSTM模型性能表現(xiàn) %
2)CNN-BiRNN模型
為了盡可能固定變量,參照1D-CNN-LSTM網(wǎng)絡(luò)模型,在1D-CNN-BiRNN網(wǎng)絡(luò)模型中添加相同數(shù)量的Dropout層,同時在兩層1DCNN和BiLSTM/BiGRU網(wǎng)絡(luò)中分別添加L2正則化參數(shù)為0.01、0.001、0.001。
CNN-BiLSTM與CNN-BiGRU綜合實驗結(jié)果如表4所示,可以看到兩種CNN-BiRNN模型在南非口音和美國口音的預(yù)測方面表現(xiàn)較好。相較而言,CNN-BiGRU模型對于南非口音、美國口音以及澳大利亞口音的識別性能優(yōu)于CNN-BiLSTM模型,對南非口音的識別召回率甚至可以達到100%;但CNN-BiGRU模型對印度口音的識別準確率略低于CNN-BiLSTM模型;在英國口音識別上,CNN-BiLSTM模型表現(xiàn)更好,比CNN-BiGRU模型的F1值高了19%。
表4 CNN-BiLSTM與CNN-BiGRU模型性能對比 %
3)CNN-BiLSTM-Attention模型
為固定變量,CNN-BiLSTM網(wǎng)絡(luò)部分的參數(shù)設(shè)置不變,帶注意力機制的1D-CNN-BiLSTM-Attention模型實驗結(jié)果如表5所示。
表5 1D-CNN-BiLSTM-Attention模型性能 %
通過表5,同時對比前續(xù)實驗結(jié)果可以看出,各類評價指標總體上有所下降,特別地,引入注意力機制后的模型對印度口音識別的準確率降低較明顯;但在澳大利亞口音識別中各指標值有小幅度的提升。
4)綜合對比
基于前面的實驗數(shù)據(jù),對CNN-LSTM、CNN-BiLSTM、CNN-BiGRU、CNN-BiLSTM-Attention模型的識別性能進行了橫向?qū)Ρ?,各模型?類樣本的平均區(qū)分結(jié)果如表6所示。整體而言,CNN-BiLSTM模型取得了最佳性能表現(xiàn),總體準確率達74%。
表6 不同模型的性能對比 %
此外,模型針對各地區(qū)口音的細分情況如表7所示。其中,在南非口音的識別方面,CNN-LSTM模型F1值高達97%;CNN-BiGRU模型和引入注意力機制的CNN-BiLSTM模型分別在美國口音和澳大利亞口音識別中性能表現(xiàn)最好;CNN-BiLSTM模型在英國口音和印度口音識別中的性能表現(xiàn)最好。
表7 不同模型在各地區(qū)口音識別中的F1值 %
在人工智能領(lǐng)域中,語音識別已然成為人們關(guān)注的焦點之一,也是有效利用人機交互的關(guān)鍵。本文基于神經(jīng)網(wǎng)絡(luò)對不同地域的英語口音識別展開研究。首先,提出了應(yīng)用于英語口音識別的骨干網(wǎng)絡(luò)模型CNN-LSTM;其次,在CNN-LSTM的基礎(chǔ)上,將LSTM由單向轉(zhuǎn)變?yōu)殡p向,各評價指標均得到了顯著提升,尤其是印度口音識別的F1值提升了20%;同時,對比了兩種CNN-BiRNN模型的性能,結(jié)果表明:CNN-BiGRU在南非口音和美國口音的識別中F1得分最高,分別達到了90%和84%,但CNN-BiLSTM綜合性能更好,在所有任務(wù)中獲得了74%的準確率;最后,在CNN-BiLSTM網(wǎng)絡(luò)的基礎(chǔ)上引入注意力機制,可能受限于樣本規(guī)模小、模型深度較淺,實驗過程中,注意力機制并未對模型性能有顯著的提升。
本文開展了基于神經(jīng)網(wǎng)絡(luò)的英語口音識別研究,綜合所有實驗結(jié)果,模型的性能指標還有提升空間,擴充數(shù)據(jù)集后,基于注意力機制模型可能會產(chǎn)生更好的實驗結(jié)果。除此之外,本文使用了微噪音的開源數(shù)據(jù)集,但在真實情景中,噪音對語音信號的影響可能更大,如何提升真實環(huán)境中模型的魯棒性和泛化性也是值得探索的方向之一。