国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的漢語語音識別*

2020-09-25 03:04:10楊元維高賢君杜李慧蔣夢月張凈波
應(yīng)用聲學(xué) 2020年3期
關(guān)鍵詞:錯誤率音頻神經(jīng)元

李 鵬 楊元維 高賢君 杜李慧 周 意 蔣夢月 張凈波

(長江大學(xué)地球科學(xué)學(xué)院 武漢 430100)

0 引言

語音識別是指計(jì)算機(jī)能夠理解人的語言,將音頻信息轉(zhuǎn)換成文本信息。隨著互聯(lián)網(wǎng)技術(shù)和人工智能技術(shù)的飛速發(fā)展,語音識別被逐漸應(yīng)用到各個領(lǐng)域內(nèi),因此與之相關(guān)的研究也越來越受到重視。特別地,Google、Microsoft、科大訊飛、百度等公司,都爭相在語音識別上投入大規(guī)模的研發(fā),推出相關(guān)的算法、軟件及應(yīng)用。語音識別的產(chǎn)業(yè)化也進(jìn)一步推動著語音識別技術(shù)的發(fā)展。

語音識別的相關(guān)研究最早可以追溯至20 世紀(jì)50 年代AT&T 貝爾研究室。該研究室的Audry 系統(tǒng)基于簡單的孤立詞,能夠?qū)?0 個單音節(jié)單詞進(jìn)行識別。在60 年代提出的動態(tài)時間規(guī)整(Dynamic time warping,DTW)方法[1],有效解決了兩個不同長度音頻片段的對齊問題。隨后語音識別研究進(jìn)一步發(fā)展,線性預(yù)測分析技術(shù)(Linear predictive coding,LPC)被擴(kuò)展應(yīng)用[2],DTW也基本成熟。與此同時,隱馬爾科夫模型(Hidden Markov model,HMM)理論被提出。隨著HMM技術(shù)不斷成熟和完善,語音識別從原來的模板匹配的方法轉(zhuǎn)變?yōu)楦怕誓P偷姆椒╗3],并且以HMM 相關(guān)模型為主要研究方法[4]。而后,人工神經(jīng)網(wǎng)絡(luò)(Artificial neural net,ANN)逐漸被用于語音識別的研究中[5],以尋求新的突破。楊華民等[6]采用ANN 進(jìn)行語音識別的原理,給出了求解語音特征參數(shù)和典型神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程,通過具體的實(shí)例展示了ANN 技術(shù)的實(shí)用化。但傳統(tǒng)神經(jīng)網(wǎng)絡(luò)本身也存在需要大量標(biāo)記數(shù)據(jù)等問題。2006年,Hinton等[7]提出了深度學(xué)習(xí)的概念。此后,深度學(xué)習(xí)以其良好的普適性被應(yīng)用到語音識別領(lǐng)域里,打破了HMM的主導(dǎo)局面,極大地提升了基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)的性能,突破了某些應(yīng)用情景中的識別瓶頸[8]。

在深度學(xué)習(xí)的大環(huán)境下,最初應(yīng)用在語音識別里的是深度置信網(wǎng)絡(luò)(Deep belief network,DBN)[9],能夠?qū)ι窠?jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以達(dá)到使模型穩(wěn)定的效果。而后深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)等相繼問世,這引發(fā)了人們對各類神經(jīng)網(wǎng)絡(luò)進(jìn)行深入研究。張仕良[10]指出基于DNN 的訓(xùn)練速度相較于CNN 或RNN 的更快,然而利用DNN 進(jìn)行語音識別卻未能良好解決其中較為重要的時序問題。DNN 和CNN 對輸入的音頻信號的感受視野相對固定,所以對于與時序相關(guān)的問題不具有較好的處理能力。RNN 在隱含層存在反饋連接,它能通過遞歸來挖掘序列中上文的相關(guān)信息,在一定程度上克服DNN 和CNN 的缺點(diǎn)[11],但是卻無法挖掘序列中下文的相關(guān)信息。隨后,Schuster等[12]提出雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional RNN,Bi-RNN),并彌補(bǔ)了RNN 的缺點(diǎn),能夠同時利用上下文信息,在時序問題上相對于RNN識別正確率取得了進(jìn)一步的提升。因此本文基于Bi-RNN 模型在語音識別方面進(jìn)行研究,從言語產(chǎn)生與言語感知的角度對Bi-RNN 進(jìn)行更深層次的解讀,探討了Bi-RNN 模型在不同噪聲環(huán)境中的識別效果,并進(jìn)行大量的實(shí)驗(yàn),選取出一套適合本模型的參數(shù),進(jìn)一步地降低了語音識別錯誤率。

在進(jìn)行語音識別之前,本文首先對音頻進(jìn)行預(yù)處理。預(yù)處理包括對音頻進(jìn)行預(yù)加重、分幀和加窗。對預(yù)處理之后的音頻做語音特征提取,即將音頻轉(zhuǎn)化為梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficient,MFCC)。再用訓(xùn)練集迭代訓(xùn)練模型,將訓(xùn)練后的模型對測試集進(jìn)行實(shí)驗(yàn),最后得到識別結(jié)果。

1 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

1.1 人工神經(jīng)網(wǎng)絡(luò)

ANN 是一種由大量簡單處理單元(神經(jīng)元)按照不同的連接方式組成的運(yùn)算模型。一個神經(jīng)元的模型如圖1所示。在結(jié)構(gòu)上可以將人工神經(jīng)網(wǎng)絡(luò)劃分為3層——輸入層、隱含層、輸出層(圖2)。神經(jīng)網(wǎng)絡(luò)的輸入/輸出關(guān)系表示為下列公式:

圖1 神經(jīng)元模型Fig.1 Neuron model

圖2 神經(jīng)元網(wǎng)絡(luò)Fig.2 Neural network

其中:wij為連接權(quán)重,即神經(jīng)元i與神經(jīng)元j之間的連接強(qiáng)度;χj為神經(jīng)元i的某個狀態(tài)變量;θi為神經(jīng)元i的閾值;ui為神經(jīng)元i的活躍值;oj為神經(jīng)元i的一個輸出;f為激活函數(shù)。

1.2 單向循環(huán)神經(jīng)網(wǎng)絡(luò)

在DNN 或者CNN 中,它們的基本前提是每層之間的節(jié)點(diǎn)連接是相互獨(dú)立的。這樣的結(jié)構(gòu)存在一個潛在的弊端,即無法對具有時間特性的相關(guān)信息來建立模型。然而語音識別卻是一個典型的具有時間特性的問題[13],輸入順序是一個非常重要的因素,它不類似于圖像識別——對輸入的順序無特殊要求。因此為了解決DNN、CNN 的這種弊端,對RNN的研究在20世紀(jì)80年代迅速開展起來。

相較于DNN或者CNN,RNN最大的不同之處就是在隱含層中增加了節(jié)點(diǎn)之間的連接[14-15],這使得隱含層的輸入不僅來源于輸入層,還包含了隱含層前一時刻的輸出。RNN 是根據(jù)人的記憶原理而產(chǎn)生的。比如一句話“我要去飯吃了”,這句話聽起來很奇怪,這是因?yàn)榇竽X接收到這段話會受到刺激,進(jìn)而產(chǎn)生預(yù)測功能。如果“我要去”后面跟著“吃”,就感覺很正常。從言語產(chǎn)生和言語感知的角度來理解,這是因?yàn)榇竽X對每個字的先后順序是有一定的判斷的。其模型如圖3所示。

在RNN 中,上一時間點(diǎn)到當(dāng)前時間點(diǎn)變換過程中每層的權(quán)重W是共享的,這樣在很大程度上減少了訓(xùn)練參數(shù)數(shù)目。圖3 中,W0表示輸入層與隱含層之間的權(quán)重值,W1表示上一時刻隱含層到當(dāng)前時刻隱含層之間的權(quán)重值,W2表示隱含層與輸出層之間的權(quán)重值;S(t)表示隱含層的第t個RNN 節(jié)點(diǎn)的輸出狀態(tài)。

圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The structure of RNN

1.3 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)

由1.2 節(jié)可知,傳統(tǒng)的RNN 只是利用了上一時刻的信息,而在具有時間特性的語言序列中,有很多需要同時聯(lián)系過去與未來時刻的信息。同樣是這句話“我要去飯吃了”,如果說出“飯”的前面一個字是什么,大腦可能需要時間思考一下,甚至要再默念一遍這句話,而不是反著讀這句話“了吃飯去要我”,但最終都會找到這個字。這種現(xiàn)象引發(fā)了兩個很值得思考的問題:第一,大腦可以通過一定的規(guī)則而找到“飯”這個字前面的字,這種現(xiàn)象可以理解為大腦對于信息的存儲,并不是簡單的單獨(dú)存儲,而是一種鏈條式的存儲方式,這種方法有個極大的好處,大腦只要記住相關(guān)的存儲規(guī)則或者方法就可以,這樣大大節(jié)省了很多空間。第二,大腦很難進(jìn)行反方向的搜尋信息?;谶@種現(xiàn)象,Bi-RNN 應(yīng)運(yùn)而生,相對于CNN 結(jié)構(gòu)與DNN 結(jié)構(gòu),其最大的特點(diǎn)在于能夠?qū)⑦^去與未來的信息作為輸入再一次地輸入到神經(jīng)元,這種結(jié)構(gòu)非常適合具有時序性質(zhì)的數(shù)據(jù),但同時也可能需要更長的訓(xùn)練時間。Bi-RNN 結(jié)構(gòu)解決了其中較為重要的時序問題,能夠?qū)σ恍┯袝r間依賴性的數(shù)據(jù)進(jìn)行更好的學(xué)習(xí),如語音識別、情感分類、文本分類、機(jī)器翻譯、詞向量的生成等,將Bi-RNN 展開后,可看出在網(wǎng)絡(luò)結(jié)構(gòu)中有一部分參數(shù)是共享的,這在一定程度上大大減少了所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)參數(shù)個數(shù),同時也帶來了另一個優(yōu)勢——Bi-RNN 輸入可以是不固定長度的序列。因此基于傳統(tǒng)的RNN 計(jì)算原理,可對結(jié)構(gòu)進(jìn)行一定程度的改進(jìn),推導(dǎo)出Bi-RNN結(jié)構(gòu)。Bi-RNN 可以同時利用過去與未來時刻的信息,將時間序列信息分為前后兩個方向,輸入到模型里,并構(gòu)建向前層與向后層用來保存兩個方向的信息,同時輸出層需要等待向前層與向后層完成更新[16],才能進(jìn)行更新。其模型結(jié)構(gòu)如圖4所示。

Bi-RNN 的整個計(jì)算過程與單向循環(huán)神經(jīng)網(wǎng)絡(luò)類似,即在單向循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上增加了一層方向相反的隱含層。從輸入層到輸出層的傳播過程中,共有6個共享權(quán)值。圖4中,W0表示輸入層與向前層之間的權(quán)重值,W1表示上一時刻隱含層到當(dāng)前時刻隱含層之間的權(quán)重值,W2表示輸入層與向后層之間的權(quán)重值,W3表示向前層與輸出層之間的權(quán)重值,W4表示下一時刻隱含層到當(dāng)前時刻隱含層之間的權(quán)重值,W5表示向后層與輸出層之間的權(quán)重值。Bi-RNN 結(jié)構(gòu)向前傳播的計(jì)算過程如下列公式:

其中,X(t)表示在t時刻的輸入,S(t)表示向前層的第t個RNN 節(jié)點(diǎn)的輸出,H(t)表示向后層的第t個RNN 節(jié)點(diǎn)的輸出,O(t)表示在t時刻的輸出,b和b1表示偏置參數(shù),f和g均表示激活函數(shù)。相對于傳統(tǒng)的RNN 而言,Bi-RNN 實(shí)現(xiàn)了同時利用過去與未來時刻的信息,因此記憶效果比之前更佳。

圖4 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The structure of Bi-RNN

2 漢語識別實(shí)驗(yàn)

2.1 實(shí)驗(yàn)設(shè)計(jì)

本文基于tensorflow 深度學(xué)習(xí)平臺,使用Anaconda 軟件中自帶的spyder 編譯器進(jìn)行編譯,并進(jìn)行仿真實(shí)驗(yàn)。共設(shè)置了3組實(shí)驗(yàn):

實(shí)驗(yàn)1:為了說明Bi-RNN 在語音識別上的優(yōu)越性,分別用DNN 模型與Bi-RNN 模型對不帶噪聲的訓(xùn)練集進(jìn)行實(shí)驗(yàn),并與文獻(xiàn)[17]所提出的改進(jìn)CNN算法進(jìn)行比較;

實(shí)驗(yàn)2:為了測驗(yàn)基于某一個環(huán)境訓(xùn)練出的模型在不同背景噪聲的音頻識別效果,首先根據(jù)訓(xùn)練音頻類型共設(shè)置了3 組實(shí)驗(yàn),每組實(shí)驗(yàn)下再根據(jù)測試音頻類型分別設(shè)置3 個實(shí)驗(yàn);先用Bi-RNN 模型對3 個訓(xùn)練集分別進(jìn)行實(shí)驗(yàn),再基于3 種訓(xùn)練集所訓(xùn)練出的模型對其他噪聲類型的測試集進(jìn)行實(shí)驗(yàn);

實(shí)驗(yàn)3:為了研究隱含層中神經(jīng)元數(shù)量對實(shí)驗(yàn)效果的影響,本實(shí)驗(yàn)基于Bi-RNN模型,通過調(diào)整隱含層神經(jīng)元個數(shù),設(shè)置8組實(shí)驗(yàn),再使用不帶噪聲的訓(xùn)練集進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)流程圖如圖5所示。

圖5 實(shí)驗(yàn)流程圖Fig.5 Flow chart of experiment

2.2 數(shù)據(jù)集描述

本文采用了兩個版本的THCHS-30 語料庫:第一個是通過單個碳粒揚(yáng)聲器,在安靜的辦公室環(huán)境下錄制的無噪聲音頻;第二個是通過簡單的波形混合,在第一個版本的數(shù)據(jù)加上了白噪聲和咖啡館噪聲,噪聲和音頻的能量相等。THCHS-30 的文本是從大容量的新聞選取出1000 句,音頻總時長超過30 h。參與該語料庫錄音的人員,大部分是會說流利普通話的大學(xué)生。

由于計(jì)算機(jī)性能的限制,本文沒有對整個數(shù)據(jù)集進(jìn)行訓(xùn)練。選用句子的發(fā)音人數(shù)目為22人,包括15 名女生和7 名男生,每句話在30 字左右,其中陳述句居多,約為95%左右。雙音素占35%左右,三音素占53%左右,單音素與四音素共占12%左右,雙音素與三音素覆蓋率較好。本文共建立了3 個訓(xùn)練集以及3 個相對應(yīng)的測試集,每個訓(xùn)練集包括2241句話,測試集包括249句話,這3 個訓(xùn)練集的差別只是在于帶噪聲的類型,其他方面設(shè)置保持一致,并且訓(xùn)練集與測試集的文字內(nèi)容是相一致的。

2.3 模型的構(gòu)建

基于上述Bi-RNN 的優(yōu)點(diǎn),本文采用Bi-RNN構(gòu)建模型。在文獻(xiàn)[18]中,DNN 的性能并不是隨著層數(shù)增加而增加的,并表明3~5 個隱層的DNN 結(jié)構(gòu)是合適的。據(jù)此本文所構(gòu)建的模型共包括5層,其中第1 層、第2 層與第4 層都為852 個單元的全連接層,激活函數(shù)采用ReLU;第3 層為852 維的雙向循環(huán)神經(jīng)網(wǎng)絡(luò),為了減小模型產(chǎn)生過擬合現(xiàn)象,在每層后面加一個Dropout 層;第5層為全連接層,并采用(X+1)個單元的Softmax 用于分類,其中X表示字體的個數(shù),1 表示空白符號,X+1 表示字體與空白符號的概率分布。語音識別屬于神經(jīng)網(wǎng)絡(luò)中的時序類分類,通過聯(lián)結(jié)主義時間分類(Connectionist temporal classification,CTC)來解決輸入與輸出的序列長度不等的問題。使用ctc_loss 方法來計(jì)算損失值。模型如圖6所示。

圖6 模型結(jié)構(gòu)示意圖Fig.6 Schematic diagram of model structure

2.4 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)1

用上述Bi-RNN模型對無噪聲的訓(xùn)練集進(jìn)行訓(xùn)練,測試集也使用無噪聲的音頻;同時對DNN 與RNN 構(gòu)建模型,并采用相同的方法進(jìn)行實(shí)驗(yàn),其中DNN 的模型結(jié)構(gòu)是將上述Bi-RNN 模型的第3 層Bi-RNN 層換成全連接層。Bi-RNN 與DNN 實(shí)驗(yàn)訓(xùn)練集的損失函數(shù)值和正確率分別如圖7與圖8所示。

圖7 兩種不同模型的損失函數(shù)Fig.7 Loss function of two different models

圖8 兩種不同模型的識別正確率Fig.8 Recognition accuracy of two different models

由圖7 和圖8 可以看出,Bi-RNN 模型的損失函數(shù)值下降到穩(wěn)定的速度最快,且訓(xùn)練集的正確率也高。兩種模型的訓(xùn)練集的正確率相差不大,正確率都在93%左右。但測試集的效果顯示Bi-RNN 模型遠(yuǎn)強(qiáng)于DNN 模型。在用DNN 模型進(jìn)行訓(xùn)練時,其在訓(xùn)練集上的效果很好,但在測試集上錯誤率大大增加。從數(shù)據(jù)上表現(xiàn)出DNN模型產(chǎn)生了“過擬合”。

Bi-RNN 結(jié)構(gòu)相對于DNN 結(jié)構(gòu)更加復(fù)雜,Bi-RNN 對上下文相關(guān)性的擬合較強(qiáng),理論上Bi-RNN相對于DNN 更應(yīng)該陷入過擬合的問題,而結(jié)果顯示Bi-RNN 的識別錯誤率更低,因此單純用“過擬合”來解釋是自相矛盾的。通過對DNN的神經(jīng)元進(jìn)行多次調(diào)整,當(dāng)神經(jīng)元數(shù)量到612 時,其錯誤率最低為53.26%,相比Bi-RNN還是很高,因此并不能簡單地通過“過擬合”來解釋,說明產(chǎn)生這種現(xiàn)象根本原因在于Bi-RNN 與DNN 結(jié)構(gòu)的差異性。受到協(xié)同發(fā)音的影響,語音中的各幀之間有著很強(qiáng)的相關(guān)性,每一個字的發(fā)音受到前后幾個字的影響。在進(jìn)行輸入時,DNN 是把相鄰的幾幀進(jìn)行拼接,并且其輸入窗口是固定的。而Bi-RNN 在時序問題上能夠更好地體現(xiàn)長時相關(guān)性,可以將過去與未來的信息同時輸入得到輸出結(jié)果,以作為預(yù)測當(dāng)前的輸入,能夠更加深刻地了解其內(nèi)在聯(lián)系,因此降低了錯誤率。本文又與文獻(xiàn)[17]所提出的改進(jìn)CNN算法相比較,錯誤率也比其提出的方法較低,可見本文的Bi-RNN模型要比文獻(xiàn)[17]所提出的改進(jìn)CNN 模型在語音識別方面性能要好。其實(shí)驗(yàn)結(jié)果如表1所示。

表1 兩種模型的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of two models

實(shí)驗(yàn)2

在現(xiàn)實(shí)生活中,環(huán)境因素是動態(tài)易變的。為了測試模型在不同環(huán)境下的識別效果,首先將Bi-RNN 模型在不同類型且?guī)г胍纛l的、信噪比為0 dB 的條件下進(jìn)行訓(xùn)練再測試,實(shí)驗(yàn)結(jié)果如表2所示。

表2 基于不同音頻訓(xùn)練實(shí)驗(yàn)結(jié)果Table 2 Based on the experimental results of different audio training

由表2 可看出,Bi-RNN模型對3 種不同環(huán)境下的語音庫進(jìn)行訓(xùn)練以及測試。首先通過對表2 識別錯誤率中第1、4、7 三個數(shù)據(jù)的比較,表明訓(xùn)練和測試音頻類型相同時帶有噪聲的音頻的錯誤率要比無噪聲的音頻錯誤率要高,其中白噪聲的錯誤率最高,錯誤率為27.16%,這是因?yàn)榘自肼暫涂Х瑞^噪聲同屬于加性噪聲,白噪聲屬于平穩(wěn)噪聲,咖啡館噪聲屬于緩變噪聲。白噪聲是明確定義的,因?yàn)槠鋵拵c均勻連續(xù)特點(diǎn),噪聲信號與語音信號重合度很大,導(dǎo)致了對語音識別影響很大,其語譜圖如圖9所示。咖啡館噪聲的頻譜分析雖和語音類似,而噪聲信號與語音信號重合度相對較小,對語音識別影響相對較小,其語譜圖如圖10所示。通過與純凈語音語譜圖(圖11)進(jìn)行比較,可以看出白噪聲共振峰軌跡的干擾要比咖啡館噪聲大,因此白噪聲的識別錯誤率更高。然后通過對每組內(nèi)的3 個實(shí)驗(yàn)進(jìn)行比較時,即當(dāng)訓(xùn)練音頻與測試音頻的類型不同時,其識別錯誤率大大增加,這是因?yàn)橛糜谟?xùn)練音頻的背景噪聲與測試語音的背景噪聲不一致,訓(xùn)練環(huán)境與識別環(huán)境有著巨大的差異,最終導(dǎo)致了識別語音特征與模板特征之間的失配,系統(tǒng)的性能大大降低。

圖9 加白噪聲的音頻語譜圖Fig.9 Audio spectrum with white noise

圖10 加咖啡館噪聲的音頻語譜圖Fig.10 Audio spectrum with cafe noise

圖11 純凈音頻語譜圖Fig.11 Pure audio spectrum

實(shí)驗(yàn)3

為了研究隱含層中神經(jīng)元數(shù)量對實(shí)驗(yàn)效果的影響,采用Bi-RNN模型,通過對隱含層神經(jīng)元個數(shù)調(diào)整,進(jìn)行識別。

實(shí)驗(yàn)結(jié)果如表3所示,當(dāng)神經(jīng)元數(shù)量增加到512時,識別錯誤率大幅減少,這是因?yàn)殡[含層節(jié)點(diǎn)數(shù)量過少,導(dǎo)致網(wǎng)絡(luò)的學(xué)習(xí)與處理能力較差;而當(dāng)神經(jīng)元數(shù)量大于512時,識別錯誤率的減少程度較緩,說明了神經(jīng)元的數(shù)量將趨于飽和狀態(tài);當(dāng)神經(jīng)元數(shù)量大于等于1024 時,錯誤率出現(xiàn)增加趨勢,說明再增加神經(jīng)元數(shù)量,就會出現(xiàn)在訓(xùn)練集上有很好的識別效果,但是在測試集上的識別效果變差的現(xiàn)象,即出現(xiàn)過擬合現(xiàn)象。

表3 不同神經(jīng)元數(shù)量的實(shí)驗(yàn)結(jié)果Table 3 Experimental results for different numbers of neurons

從這3 個實(shí)驗(yàn)可看出,Bi-RNN 相對于DNN 在語音識別方面效果更加良好,兩個模型在無噪聲的訓(xùn)練集上效果相差不大。但是在測試集上,DNN 模型錯誤率在54.76%,文獻(xiàn)[17]所提出的改進(jìn)CNN 錯誤率在22.19%,而Bi-RNN 模型錯誤率為19.32%,相對于DNN模型與改進(jìn)的CNN模型都有了降低。由此可以看出,Bi-RNN 可同時利用上下文信息,發(fā)揮出其獨(dú)特的優(yōu)勢。當(dāng)使用Bi-RNN模型對3 種不同類型的音頻進(jìn)行實(shí)驗(yàn)時,在無噪聲的測試集上錯誤率為19.32%,在帶咖啡館噪聲的測試集的錯誤率為24.25%,在帶白噪聲的測試集的錯誤率為27.16%,在無噪聲的音頻條件下實(shí)驗(yàn)效果最好;當(dāng)采用基于某一語音庫所訓(xùn)練的模型對其他兩個環(huán)境下的音頻進(jìn)行測驗(yàn)時,效果很差,說明采用單個訓(xùn)練集訓(xùn)練的模型無法適應(yīng)不同噪聲類型的音頻,在以后的研究中將考慮聯(lián)合訓(xùn)練。在探索隱含層的神經(jīng)元數(shù)量對識別效果的實(shí)驗(yàn)中,當(dāng)隱含層每層神經(jīng)元數(shù)量在682~852時,效果最好。同時,識別錯誤率并不是隨著隱含層每層神經(jīng)元的增加而降低,甚至當(dāng)神經(jīng)元個數(shù)增加到一定程度時,識別錯誤率不下降反而上升。

3 結(jié)論

自深度學(xué)習(xí)的概念提出后,深度學(xué)習(xí)在語音識別方面相較于傳統(tǒng)的方法,如混合高斯模型,在性能有了很大的提升。其中基于Bi-RNN 模型在語音識別方面更是具其獨(dú)特的優(yōu)勢。本文使用Bi-RNN進(jìn)行語音方面了探索,并與DNN和改進(jìn)的CNN 進(jìn)行比較,初步驗(yàn)證了Bi-RNN 在語音識別方面的獨(dú)特優(yōu)勢。同時對含有噪聲的音頻的識別效果進(jìn)行測試,以及隱含層神經(jīng)元數(shù)量對識別效果的影響方面,做了初步的探索。結(jié)果如下:(1)在漢語語音識別中采用Bi-RNN 模型得到了在同樣條件下高于DNN和改進(jìn)的CNN 的識別率,成功地構(gòu)建了一個漢語識別模型;(2)初步考察了噪聲對Bi-RNN漢語識別模型的影響,分析了白噪聲的影響大于咖啡館噪聲的原因;(3)研究了Bi-RNN漢語識別模型中隱含層中神經(jīng)元數(shù)量對識別率的影響,提出了該模型中核心層神經(jīng)元數(shù)量為682~852的最優(yōu)設(shè)計(jì)。

本文由于一些軟件與硬件資源上的限制,有許多問題還需要進(jìn)一步的探索。主要有:

(1)在進(jìn)行探討隱含層神經(jīng)元的數(shù)量對識別效果的實(shí)驗(yàn)中,只是提出了神經(jīng)元數(shù)量并不是越多越好,但是對不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)神經(jīng)元數(shù)量的合理設(shè)定的范圍,并未給出結(jié)果,需要進(jìn)一步的探索。

(2)在本文中使用DNN 與Bi-RNN 相結(jié)合用以構(gòu)建模型。在使用DNN 時,由于參數(shù)太多,易出現(xiàn)過擬合現(xiàn)象,為了更好地解決這一問題,在接下來的學(xué)習(xí)與探索中,將CNN與Bi-RNN 相結(jié)合來構(gòu)建模型,并進(jìn)行實(shí)驗(yàn)。

猜你喜歡
錯誤率音頻神經(jīng)元
限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯誤率膨脹*
《從光子到神經(jīng)元》書評
自然雜志(2021年6期)2021-12-23 08:24:46
必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
正視錯誤,尋求策略
教師·中(2017年3期)2017-04-20 21:49:49
音頻分析儀中低失真音頻信號的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯誤原因
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
基于二次型單神經(jīng)元PID的MPPT控制
淮阳县| 万载县| 游戏| 苗栗县| 塘沽区| 凤庆县| 揭阳市| 长泰县| 祁连县| 双峰县| 佳木斯市| 朔州市| 金寨县| 确山县| 凤山县| 自贡市| 道真| 台东市| 托克托县| 平阳县| 于都县| 乾安县| 高尔夫| 报价| 尖扎县| 尼木县| 郸城县| 密山市| 榕江县| 阜宁县| 得荣县| 东宁县| 阳江市| 大厂| 闸北区| 南乐县| 台江县| 武清区| 鄂托克旗| 浦城县| 平阴县|