国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CNN-BGRU的音素識(shí)別研究

2020-12-18 07:31:22和麗華潘文林楊皓然
關(guān)鍵詞:語(yǔ)譜音素語(yǔ)音

和麗華,江 濤,潘文林,楊皓然

(云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650500)

現(xiàn)有的語(yǔ)音識(shí)別成果中,絕大部分學(xué)者的關(guān)注點(diǎn)還是集中于詞和句子級(jí)別,對(duì)于音素的研究還較為少見.文獻(xiàn)[1]在做區(qū)分漢語(yǔ)方言的研究時(shí),語(yǔ)音變化的中的聲韻母和變調(diào)能幫助人們進(jìn)行漢語(yǔ)方言的區(qū)分,對(duì)于聲韻母的標(biāo)注,也就是音素級(jí)別的標(biāo)注.文獻(xiàn)[2]做普通話韻律單元分析時(shí),對(duì)音節(jié)、詞、短語(yǔ)的聲學(xué)特征分析采用了音延、靜音段、音高上下限差值等聲學(xué)表現(xiàn)來(lái)做邊界區(qū)分.對(duì)于語(yǔ)音學(xué)領(lǐng)域來(lái)說(shuō),語(yǔ)音學(xué)者們更加關(guān)注語(yǔ)音識(shí)別的微觀正確率,音素作為組成1個(gè)讀音的最小的語(yǔ)音單位,具有區(qū)分語(yǔ)言含義及讀音的功能,不僅能解決人們學(xué)習(xí)新語(yǔ)言時(shí)的單詞拼讀問(wèn)題,還能幫助語(yǔ)音學(xué)者探索不同語(yǔ)言的發(fā)聲機(jī)理.

20世紀(jì)90年代語(yǔ)音識(shí)別中最主流的方法是采用隱馬爾科夫模型[3],但是使用HMM訓(xùn)練時(shí)需要進(jìn)行特征降維,這樣的做法導(dǎo)致許多有用信息的丟失.為了克服以上缺陷,采用了神經(jīng)網(wǎng)絡(luò)代替HMM進(jìn)行語(yǔ)音識(shí)別.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別打破了傳統(tǒng)語(yǔ)音識(shí)別對(duì)于手工設(shè)計(jì)特征的依賴,可以通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)提取淺層和深層的特征,節(jié)省了手工設(shè)計(jì)特征所帶來(lái)的大量前期工作.CNN、LSTM和DNN在建模能力上是互補(bǔ)的[4],CNN擅長(zhǎng)減少頻域的變化,LSTM提供長(zhǎng)時(shí)記憶,DNN適用于將特征映射分類,利用3個(gè)網(wǎng)絡(luò)不同的特性將它們組合在一起能有效提高語(yǔ)音識(shí)別的效率.文獻(xiàn)[5]采用RNN進(jìn)行音素識(shí)別,選取了具有雙向循環(huán)結(jié)構(gòu)的BLSTM網(wǎng)絡(luò)與CTC相結(jié)合,并在語(yǔ)音分幀階段去除相鄰幀的重合部分,減少神經(jīng)網(wǎng)絡(luò)輸入序列的數(shù)據(jù),大幅度地提升訓(xùn)練效率,在TIMIT英語(yǔ)音素語(yǔ)料庫(kù)上,BLSTM-CTC模型的效果優(yōu)于BLSTM-HMM模型.文獻(xiàn)[6]通過(guò)對(duì)LSTM進(jìn)行端到端的訓(xùn)練,利用RNN擁有更大空間狀態(tài)和LSTM的長(zhǎng)時(shí)記憶單元能較好地處理數(shù)據(jù)之間的長(zhǎng)期依賴關(guān)系的特點(diǎn),避免了使用HMM出現(xiàn)不正確標(biāo)簽作為訓(xùn)練目標(biāo)的問(wèn)題,在TIMIT英語(yǔ)音素語(yǔ)料庫(kù)上,音素識(shí)別的錯(cuò)誤率達(dá)到了最低17.7%.文獻(xiàn)[7]比多層感知器MLP、RNN、LSTM在音素識(shí)別任務(wù)上的訓(xùn)練效率和準(zhǔn)確率,LSTM為性能最優(yōu)的網(wǎng)絡(luò),后將LSTM和BiRNN兩種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行融合,提出了新的網(wǎng)絡(luò)結(jié)構(gòu)BLSTM,并在TIMIT英語(yǔ)語(yǔ)音語(yǔ)料庫(kù)上進(jìn)行音素分類任務(wù),證明雙向LSTM的性能優(yōu)于單向LSTM,上下文信息對(duì)于語(yǔ)音識(shí)別至關(guān)重要.文獻(xiàn)[8]采用簡(jiǎn)化版的LSTM網(wǎng)絡(luò)GRU,通過(guò)實(shí)驗(yàn)比較LSTM、GRU、tanh這3個(gè)單元在序列數(shù)據(jù)上建模的能力,結(jié)論證明GRU在網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)化且參數(shù)較少的情況下,性能與LSTM相當(dāng),但網(wǎng)絡(luò)訓(xùn)練收斂速度更快,在不同數(shù)據(jù)集上的泛化性能也更佳.

綜上所述,本文選取卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN和深層神經(jīng)網(wǎng)絡(luò)DNN組合進(jìn)行音素識(shí)別研究,其中RNN選取網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單且能獲取上下文含義的BGRU網(wǎng)絡(luò).基于上述研究提出了1種新的音素識(shí)別模型——CNN-BGRU模型.首先卷積神經(jīng)網(wǎng)絡(luò)模型VGGNet在圖像識(shí)別任務(wù)中效果出色且參數(shù)量較低,在保持圖像識(shí)別效果的同時(shí)對(duì)VGGNet網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)以降低網(wǎng)絡(luò)參數(shù)的數(shù)量,有效提升VGGNet模型的性能;其次經(jīng)過(guò)VGGNet模型輸出的特征向量作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的輸入,采用雙向循環(huán)單元(BGRU)對(duì)輸入特征進(jìn)行序列建模,并聯(lián)合前后文信息進(jìn)行預(yù)測(cè);最后通過(guò)softmax分類器輸出分類預(yù)測(cè)的結(jié)果.實(shí)驗(yàn)仿真證明:本文提出的CNN-BGRU模型與CNN(VGG)、CNN-RNN、CNN-BRNN、CNN-BLSTM這4個(gè)模型在TIMIT英語(yǔ)語(yǔ)音數(shù)據(jù)集上進(jìn)行音素語(yǔ)譜圖分類任務(wù),基于CNN-BGRU的混合模型在識(shí)別效果的準(zhǔn)確率明顯高于其它4個(gè)模型,基于CNN-BGRU的混合模型的正確率可以達(dá)98.6%.

1 相關(guān)工作

1.1 VGGNet模型

2014年GoogleNet和VGGNet分別獲得了ILSVRC圖像分類大賽的冠亞軍,兩個(gè)模型都注重從加深網(wǎng)絡(luò)深度的角度去提升卷積神經(jīng)網(wǎng)絡(luò)的性能.GoogleNet對(duì)傳統(tǒng)卷積層的結(jié)構(gòu)進(jìn)行了改進(jìn),而VGGNet則采用了較小的卷積核,卷積核小能一定程度上減少參數(shù)量且方便模型快速收斂,并且在模型層數(shù)上VGGNet也少于GoogleNet[9].所以本文選用VGGNet模型作為音素語(yǔ)譜圖的特征提取算法.

VGGNet模型的結(jié)構(gòu)特點(diǎn)如下:

1) 網(wǎng)絡(luò)結(jié)構(gòu)為13層卷積層、5層最大池化層、3層全連接層、1個(gè)SoftMax分類器.

2) 利用小的卷積核堆疊得到與大卷積核相當(dāng)?shù)母惺芤胺秶瑑蓚€(gè)3×3的卷積層堆疊獲得的感受野的范圍與一個(gè)5×5的卷積層相當(dāng),3個(gè)3×3的卷積層堆疊獲得的感受野的范圍與1個(gè)7×7的卷積層相當(dāng)[10],不同卷積核大小的影響如圖1所示:

3) 卷積核大小均為3×3,stride=1,pad=1.

4) 池化層均采用最大池化,池化窗口為2,stride=2.

5) 每一層隱藏層后都有激活函數(shù)ReLU和BatchNormalization.

6) 在每層全連接層后都有加Droupout,防止網(wǎng)絡(luò)過(guò)擬合.

VGGNet模型的參數(shù)如表1所示:

表1 VGGNet網(wǎng)絡(luò)參數(shù)表

1.2 LSTM和GRU

長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元網(wǎng)絡(luò)(GRU)都屬于循環(huán)神經(jīng)網(wǎng)絡(luò),它們都是為了改善由于循環(huán)神經(jīng)網(wǎng)絡(luò)迭代造成梯度彌散或是梯度爆炸的問(wèn)題而提出的[11].LSTM引入了長(zhǎng)時(shí)記憶單元Cell,并且由門控機(jī)制控制Cell的信息保留與否.LSTM模型有3個(gè)門控單元,分別是遺忘門、輸入門、輸出門,即圖2左邊圖LSTM中的的f、i、o,其中遺忘門控制上一時(shí)刻長(zhǎng)時(shí)記憶單元的信息是否被遺忘;輸入門控制輸入信息是否輸入長(zhǎng)時(shí)記憶單元的信息;輸出門控制長(zhǎng)時(shí)記憶單元的信息是否輸出.

GRU網(wǎng)絡(luò)是在LSTM網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了改進(jìn),由于LSTM網(wǎng)絡(luò)中的輸入門和遺忘門是1個(gè)互補(bǔ)的關(guān)系,在GRU網(wǎng)絡(luò)中將這2個(gè)門合并為1個(gè)門:更新門[12].此外,GRU網(wǎng)絡(luò)將長(zhǎng)時(shí)記憶單元Cell與當(dāng)前狀態(tài)進(jìn)行了合并,直接建立當(dāng)前狀態(tài)和歷史狀態(tài)之間的線性依賴關(guān)系.通過(guò)改進(jìn)后的GRU網(wǎng)絡(luò)在保留與LSTM網(wǎng)絡(luò)同樣效率的前提下,較大程度的簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu),減少了網(wǎng)絡(luò)參數(shù),具有更好的收斂性.LSTM網(wǎng)絡(luò)和GRU網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比圖如圖2所示:

圖2 LSTM和GRU結(jié)構(gòu)對(duì)比圖

與LSTM網(wǎng)絡(luò)不同,GRU網(wǎng)絡(luò)只有2個(gè)門控單元,分別為重置門和更新門,即圖3中的rt、zt.重置門rt控制歷史狀態(tài)信息ht-1有多少需要被遺忘,即rt=1時(shí)歷史狀態(tài)信息ht-1全部被遺忘,rt=0時(shí)歷史狀態(tài)信息ht-1全部被傳遞到當(dāng)前狀態(tài)ht;更新門zt控制歷史狀態(tài)信息ht-1有多少信息傳遞到當(dāng)前狀態(tài)ht,即當(dāng)zt=1時(shí),計(jì)算過(guò)程如下所示:

圖3 GRU結(jié)構(gòu)圖

.

(1)

ht=zt⊙ht-1+(1-zt)⊙ht

.

(2)

(3)

(4)

其中⊙表示向量對(duì)應(yīng)元素相乘.相較于LSTM網(wǎng)絡(luò),GRU網(wǎng)絡(luò)能在保證網(wǎng)絡(luò)性能的前提下達(dá)到同樣的實(shí)驗(yàn)效果,并且能大幅度提高網(wǎng)絡(luò)的訓(xùn)練效率,因此本文選用GRU網(wǎng)絡(luò)作為音素語(yǔ)譜圖的識(shí)別算法.

2 CNN-BGRU音素識(shí)別模型

2.1 改進(jìn)的VGGNet模型

VGGNet模型對(duì)于圖像得特征提取效果出色,但是由于網(wǎng)絡(luò)的層數(shù)較多,導(dǎo)致訓(xùn)練時(shí)計(jì)算量較大,網(wǎng)絡(luò)收斂速度較慢,因此為了提高網(wǎng)絡(luò)的訓(xùn)練效率,需要減少網(wǎng)絡(luò)參數(shù).本章對(duì)于VGGNet模型改進(jìn)主要包括兩個(gè)方面:

1) 由于全連接層的參數(shù)量較大,所以通過(guò)減少全連接層來(lái)降低整個(gè)網(wǎng)絡(luò)的參數(shù)總量,以此來(lái)提升VGGNet模型的性能,本文將VGGNet模型的3個(gè)全連接層減少為1個(gè)全連接層.

2) 由于全局均值池化層能通過(guò)加強(qiáng)特征圖與標(biāo)簽之間的對(duì)應(yīng)關(guān)系提升網(wǎng)絡(luò)的特征提取能力,所以本章使用全局均值池化層代替最后1個(gè)最大池化層,求得每個(gè)特征圖的平均值,然后將輸出的結(jié)果向量直接輸入softmax層,這樣可以在保證網(wǎng)絡(luò)性能的情況下,有效地減少網(wǎng)絡(luò)的參數(shù)數(shù)量.

改進(jìn)前后的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比如表2所示:

表2 VGGNet改進(jìn)前后網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比

2.2 雙向GRU單元(BGRU)

傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)只關(guān)注于上一時(shí)刻的信息,但是對(duì)于音素識(shí)別來(lái)說(shuō),下一時(shí)刻的信息也與預(yù)測(cè)值息息相關(guān),雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn),正好彌補(bǔ)了這個(gè)問(wèn)題[13].由于門控循環(huán)單元網(wǎng)絡(luò)只能獲取單向的數(shù)據(jù)序列信息,因此本文選取雙向的門控循環(huán)單元網(wǎng)絡(luò)(BGRU)實(shí)現(xiàn)音素語(yǔ)譜圖的序列信息表示,BGRU模型就是在傳統(tǒng)的GRU模型隱層上增加了正向傳遞的GRU和反向傳遞的GRU,即圖4中的G′和G,以便于從這2個(gè)方向提取上下文的信息,所以BGRU模型比GRU模型效果更好,計(jì)算過(guò)程如下所示:

BGRU模型結(jié)構(gòu)如圖4所示,其中G表示GRU模塊.

圖4 BGRU模型結(jié)構(gòu)圖

2.3 CNN-BGRU音素識(shí)別模型

卷積神經(jīng)網(wǎng)絡(luò)CNN對(duì)于圖像識(shí)別任務(wù)效果出色,VGGNet在提取圖像特征上具有優(yōu)勢(shì),循環(huán)神經(jīng)網(wǎng)絡(luò)RNN擅長(zhǎng)時(shí)序數(shù)據(jù)的處理,BGRU對(duì)于序列信息識(shí)別效果出色.本文提出的CNN-BGRU模型利用VGGNet提取音素語(yǔ)譜圖的圖像特征;然后將圖像特征輸入BGRU模型,通過(guò)正向傳遞隱層和反向傳遞隱層實(shí)現(xiàn)音素語(yǔ)譜圖的序列信息表示;最后輸入給SoftMax分類器輸出分類結(jié)果,VGG-BGRU模型結(jié)構(gòu)圖如圖5所示:

圖5 改進(jìn)CNN-BGRU模型結(jié)構(gòu)

改進(jìn)的CNN-BGRU模型:

1) 將英語(yǔ)音素語(yǔ)音轉(zhuǎn)換為語(yǔ)譜圖后輸入到改進(jìn)CNN-BGRU模型中進(jìn)行訓(xùn)練;

2) 添加多層卷積層,通過(guò)卷積運(yùn)算得到語(yǔ)譜圖的局部特征矩陣;

5.使用藥劑拌種來(lái)防止玉米粗縮病的發(fā)生。用吡蟲啉拌種,對(duì)灰飛虱有短期的防治效果,這樣有效的控制了灰飛虱在玉米苗期的發(fā)生數(shù)量,來(lái)達(dá)到控制玉米粗縮病毒的傳播。

3) 最后1層池化層為均值池化層,球的每個(gè)特征圖的平均值;

4) 添加雙向GRU單元層(BGRU),增強(qiáng)語(yǔ)音的序列信息表示;

5) 添加全連接層,將每一層神經(jīng)網(wǎng)絡(luò)提取出來(lái)的特征綜合起來(lái)進(jìn)行分類,然后對(duì)每個(gè)分類結(jié)果都輸出1個(gè)概率.

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)所選取的操作系統(tǒng)為Windows10,編程語(yǔ)言為Python,使用keras來(lái)構(gòu)建深度神經(jīng)網(wǎng)絡(luò),并使用CUDA技術(shù)對(duì)網(wǎng)絡(luò)進(jìn)行加速.

3.2 實(shí)驗(yàn)參數(shù)

輸入數(shù)據(jù)為二維的音素語(yǔ)譜圖,網(wǎng)絡(luò)參數(shù)如表3所示.在網(wǎng)絡(luò)訓(xùn)練方面,批次大小設(shè)置為30,訓(xùn)練次數(shù)為100次.

表3 CNN-BGRU模型參數(shù)配置表

3.3 實(shí)驗(yàn)數(shù)據(jù)

因?yàn)閷?shí)驗(yàn)所選取的語(yǔ)音基元為音素,所以選用音素種類齊全且多樣的TIMIT語(yǔ)料庫(kù)作為實(shí)驗(yàn)數(shù)據(jù)集.它由630名演講者,每人說(shuō)10個(gè)句子組成,總共6 300個(gè)句子,其中包括2個(gè)“sa”的方言句子、5個(gè)音素緊湊的“sx”句子、3個(gè)音素多樣的“si”句子.基于某些音素發(fā)音相近,甚至不發(fā)音,可以將這些音素統(tǒng)一化歸為1個(gè)音素,將61個(gè)音素簡(jiǎn)化為38個(gè)音素,對(duì)應(yīng)簡(jiǎn)化規(guī)則如表4所示[14].

表4 音素簡(jiǎn)化規(guī)則表

3.4 對(duì)比實(shí)驗(yàn)

本節(jié)實(shí)驗(yàn)的目的在于驗(yàn)證提出的CNN-BGRU音素識(shí)別模型的有效性.首先是對(duì)于模型參數(shù)的選擇,選擇不同的BGRU層隱藏層節(jié)點(diǎn)數(shù)、學(xué)習(xí)率、優(yōu)化器以識(shí)別率最為評(píng)價(jià)指標(biāo)進(jìn)行實(shí)驗(yàn),選出最優(yōu)的組合參數(shù).然后對(duì)CNN(VGG)、CNN-RNN、CNN-BRNN、CN-BLSTM、CNN-BGRU5個(gè)模型分別進(jìn)行音素識(shí)別,驗(yàn)證提出的CNN-BGRU模型對(duì)于提高音素識(shí)別準(zhǔn)確率的有效性.

表5為基于CNN-BGRU音素識(shí)別模型在學(xué)習(xí)率為0.000 1,BGRU層不同隱藏層節(jié)點(diǎn)數(shù)下的識(shí)別率.通過(guò)表格可以看出,BGRU層隱藏層節(jié)點(diǎn)數(shù)為64時(shí)CNN-BGRU模型在TIMIT數(shù)據(jù)集下的音素識(shí)別任務(wù)表現(xiàn)最佳,所以最終選定音素識(shí)別模型的BGRU層隱藏層節(jié)點(diǎn)數(shù)為64.

表5 BGRU隱藏層節(jié)點(diǎn)數(shù)對(duì)于音素識(shí)別的識(shí)別率

通過(guò)圖6可以看出基于CNN-BGRU音素識(shí)別模型在BGRU層隱藏層節(jié)點(diǎn)數(shù)為64時(shí),訓(xùn)練到最后的準(zhǔn)確率較高.

圖6 BGRU隱藏層節(jié)點(diǎn)數(shù)的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)圖

3.4.2 基于CNN-BGRU音素識(shí)別模型的學(xué)習(xí)率選擇

表6為基于CNN-BGRU音素識(shí)別模型在隱藏層節(jié)點(diǎn)數(shù)為64,不同學(xué)習(xí)率下的識(shí)別率.通過(guò)表格可以看出,學(xué)習(xí)率為0.000 1時(shí)CNN-BGRU模型在TIMIT數(shù)據(jù)集下的音素識(shí)別任務(wù)表現(xiàn)最佳,所以最終選定音素識(shí)別模型的學(xué)習(xí)率為0.000 1.

表6 不同學(xué)習(xí)率對(duì)于音素識(shí)別的識(shí)別率

通過(guò)圖7可以看出基于CNN-BGRU音素識(shí)別模型在學(xué)習(xí)率為0.000 1時(shí),訓(xùn)練到最后的準(zhǔn)確率較高.

3.4.3 基于CNN-BGRU音素識(shí)別模型的優(yōu)化器選擇

表7為基于CNN-BGRU音素識(shí)別模型在隱藏層節(jié)點(diǎn)數(shù)為64、學(xué)習(xí)率為0.000 1,不同優(yōu)化器下的識(shí)別率.通過(guò)表格可以看出,選用Adam優(yōu)化器時(shí)CNN-BGRU模型在TIMIT數(shù)據(jù)集下的音素識(shí)別任務(wù)表現(xiàn)最佳,所以最終選定音素識(shí)別模型的優(yōu)化器為Adam.

表7 不同優(yōu)化器對(duì)于音素識(shí)別的識(shí)別率

通過(guò)圖8可以看出基于CNN-BGRU音素識(shí)別模型在優(yōu)化器為Adam時(shí),訓(xùn)練到最后的準(zhǔn)確率較高.

圖8 不同優(yōu)化器的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)圖

3.4.3 不同模型對(duì)于音素識(shí)別率的影響

本文選擇CNN-BGRU模型與CNN(VGG)、CNN-RNN、CNN-BRNN、CN -BLSTM這四個(gè)模型在TIMIT數(shù)據(jù)集上進(jìn)行音素語(yǔ)譜圖分類任務(wù).通過(guò)準(zhǔn)確率和損失作為評(píng)估指標(biāo)進(jìn)行結(jié)果分析,驗(yàn)證了CNN-BGRU模型對(duì)于音素語(yǔ)譜圖分類任務(wù)的有效性.

通過(guò)表8中的實(shí)驗(yàn)結(jié)果可以知道,CNN-BGRU模型表現(xiàn)顯著優(yōu)于CNN-BRNN、CNN-BLSTM兩個(gè)模型的效果.

表8 不同模型的實(shí)驗(yàn)結(jié)果分析

1) RNN模型的有效性.從CNN(VGG)模型和CNN-RNN模型的實(shí)驗(yàn)結(jié)果對(duì)比可以看出,CNN-RNN模型的準(zhǔn)確率高于CNN(VGG)模型,同時(shí)且損失低于CNN(VGG)模型,由此可以得出CNN-RNN模型提升了音素語(yǔ)譜圖分類的結(jié)果.

2) 雙向GRU的有效性.對(duì)比CNN-BGRU模型和CNN-RNN、CNN-BRNN、CNN-BLSTM模型的實(shí)驗(yàn)結(jié)果可以看出,CNN-BGRU模型的準(zhǔn)確率高于CNN-RNN模型,準(zhǔn)確率提升了1.4%,驗(yàn)證了BGRU模型的效果優(yōu)于RNN模型.同時(shí)CNN-BGRU模型的準(zhǔn)確率顯著高于CNN-BRNN、CNN-BLSTM模型,且GRU模型的參數(shù)更少,可以有效提升模型的整體效率.

4 結(jié)語(yǔ)

本文提出了基于改進(jìn)CNN-BGRU模型實(shí)現(xiàn)音素語(yǔ)譜圖的分類,首先通過(guò)卷積網(wǎng)絡(luò)VGGNet提取音素語(yǔ)譜圖的特征信息;其次使用BGRU模型進(jìn)行圖像的前后文信息聯(lián)合預(yù)測(cè);最后通過(guò)softmax分類器輸出分類預(yù)測(cè)的結(jié)果.相較于其他的方法,基于改進(jìn)CNN-BGRU模型在提升模型分類準(zhǔn)確性的同時(shí),減少了模型中的參數(shù)數(shù)量,提升了模型的訓(xùn)練效率.后續(xù)工作是考慮基于多特征的音素語(yǔ)譜圖識(shí)別,結(jié)合多種語(yǔ)音特征以提升音素語(yǔ)譜圖識(shí)別的訓(xùn)練效率.

猜你喜歡
語(yǔ)譜音素語(yǔ)音
新目標(biāo)英語(yǔ)七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
依托繪本課程,培養(yǎng)學(xué)生英語(yǔ)音素意識(shí)
小學(xué)英語(yǔ)課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
魔力語(yǔ)音
HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識(shí)別研究
基于MATLAB的語(yǔ)音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對(duì)方正在輸入……
?不定冠詞a與an
基于時(shí)頻域特征的場(chǎng)景音頻研究
大荔县| 泉州市| 山阴县| 渭南市| 邢台市| 渝中区| 镇原县| 沙湾县| 额敏县| 当雄县| 沂南县| 乐清市| 罗平县| 五河县| 博乐市| 突泉县| 海阳市| 布拖县| 依安县| 芦溪县| 西平县| 泽库县| 阿图什市| 壶关县| 青河县| 鹤庆县| 普兰县| 泸定县| 高安市| 商都县| 千阳县| 辉县市| 白朗县| 韶山市| 呼伦贝尔市| 喀什市| 绩溪县| 双桥区| 琼结县| 阳江市| 济源市|