国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BLSTM-CTC的語音特征的音素識(shí)別研究

2022-07-23 15:51吳丹丹夏秀渝
現(xiàn)代計(jì)算機(jī) 2022年10期
關(guān)鍵詞:音素差分標(biāo)簽

吳丹丹,夏秀渝

(四川大學(xué)電子信息學(xué)院,成都 610065)

0 引言

音素作為自然語言體系中的最小單位,可以構(gòu)成更復(fù)雜的字、詞或者句子,根據(jù)此特性可以將它應(yīng)用于關(guān)鍵詞的識(shí)別和語音識(shí)別。音素相比于其它字詞單元來說,其規(guī)模較小、更易訓(xùn)練,對(duì)訓(xùn)練設(shè)備的要求更低。音素識(shí)別可以用在關(guān)鍵詞識(shí)別之中,通過音素先判斷該語音流中是否可能存在該詞,通過對(duì)音素的定位快速判斷該詞可能出現(xiàn)的位置,進(jìn)而快速地找到關(guān)鍵詞。除此之外也可以應(yīng)用于語音識(shí)別中,通過識(shí)別出的音素來構(gòu)建字詞,可以和目前的語音識(shí)別方法進(jìn)行融合從而提高識(shí)別性能。

總而言之,音素識(shí)別因其自身的規(guī)模小、泛型高的特點(diǎn),可以應(yīng)用在許多場(chǎng)合。所以音素識(shí)別的研究?jī)r(jià)值和應(yīng)用領(lǐng)域還是值得研究者們花大量精力去探索。

傳統(tǒng)的語音識(shí)別模型大部分都是利用高斯混合-隱馬爾科夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM),該系統(tǒng)性能的提升隨著應(yīng)用需求的加大受到了限制;隨著深度學(xué)習(xí)的興起,深層神經(jīng)網(wǎng)絡(luò)與隱馬爾可夫的結(jié)合(Deep Neural Network-Hidden Markov Model,DNN-HMM)相比于傳統(tǒng)的系統(tǒng)模型,其性能上有了很大的提升;針對(duì)深層神經(jīng)網(wǎng)絡(luò)無法解決序列上下文的問題,研究者們提出了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN);但由于循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)存在梯度消失問題,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)以及雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BLSTM)也隨之被提出。之前的語音識(shí)別系統(tǒng)的過程是將聲學(xué)模型和語言模型分開訓(xùn)練,并且在訓(xùn)練過程中會(huì)出現(xiàn)音頻與標(biāo)簽的對(duì)齊問題,為了解決這一問題,研究人員提出了端到端模型。相比于目前興起的注意力機(jī)制(attention)、時(shí)序聯(lián)接機(jī)制(Connectionist Temporal Classification,CTC),其規(guī)模更小,對(duì)數(shù)據(jù)量和網(wǎng)絡(luò)訓(xùn)練設(shè)備的要求更低。語音識(shí)別是將提供給系統(tǒng)的音頻數(shù)據(jù)經(jīng)過一系列的處理之后,得到人們能明白的語言文本,即將語音翻譯為文字。音素識(shí)別的過程與之大體相同,只是最后翻譯得到的文本為音素,因此語音識(shí)別的技術(shù)也可以用于音素識(shí)別。

傳統(tǒng)語音識(shí)別的關(guān)鍵技術(shù)大概分為三個(gè)部分:①語音信息的提取及處理;②聲學(xué)建模;③語言模型的建立。本文搭建的系統(tǒng)為端到端模型,因此沒有第三個(gè)語言模型的搭建。本文結(jié)合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTM)和時(shí)序聯(lián)接機(jī)制(CTC)搭建音素識(shí)別系統(tǒng),在系統(tǒng)建立的過程中,先后分別加入DNN網(wǎng)絡(luò)優(yōu)化網(wǎng)絡(luò)。除此之外,在特征數(shù)據(jù)處理方面主要利用基于幅度信息和相位信息對(duì)音頻數(shù)據(jù)提取特征,然后對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,最后對(duì)比實(shí)驗(yàn)效果。

1 語音特征

語音特征在語音識(shí)別系統(tǒng)中占據(jù)著很重要的地位,因此對(duì)語音特征的研究一直也是語音識(shí)別的熱門方向之一,不同的語音特征可能有不同的效果,對(duì)網(wǎng)絡(luò)模型的契合度可能也有所不同。所以在進(jìn)行語音特征的選取和改進(jìn)實(shí)驗(yàn)時(shí),需要對(duì)所研究的內(nèi)容和語音有一定的了解分析。

1.1 特征提取

目前常用的語音特征參數(shù)為梅爾倒譜系數(shù)(Mel Frequency Cepstral Coeffificients,MFCC),該特征在語音研究的各個(gè)領(lǐng)域都很流行。本文所采用的基于幅度的頻譜根倒譜系數(shù)(Magni?tudebased Spectral Root Cepstral Coeffificients,MSRCC)和基于相位的頻譜根倒譜系數(shù)(Phase?based Spectral Root Cepstral Coeffificients,PSRCC)。與MFCC相比,這一組特征主要使用了冪律非線性技術(shù),其可以將比較低的幅度信號(hào)的響應(yīng)歸于零,而不像MFCC趨近于負(fù)無窮,除此之外還提取到了相位特征,對(duì)幅度特征補(bǔ)充了語音信息,綜合發(fā)現(xiàn)該組特征具有較好的分類效果。該組特征提取的原理如圖1所示。

圖1 MSRCC和PSRCC特征原理圖

通過圖1可以看出,MSRCC與MFCC特征的主要不同是梅爾譜能量逆變換取次方得到次方,離散余弦變換(DCT)將個(gè)實(shí)數(shù)系數(shù)通過逆變換得到q個(gè)實(shí)數(shù)獨(dú)立的倒譜系數(shù),即可以獲得語音信號(hào)的主要信息,如公式(1)所示:

梅爾譜如公式(2)所示:

其中,()代表時(shí)域信號(hào)()的點(diǎn)DFT,H ()代表Mel濾波器的頻率響應(yīng)。

PSRCC特征是利用時(shí)域信號(hào)的短時(shí)傅里葉變換的相位信息,與MSRCC特征不同的是將MSRCC特征中的能量系數(shù)用相位系數(shù)代替,如公式(3)所示:

梅爾頻率相位如公式(4)所示:

1.2 動(dòng)態(tài)語音特征

動(dòng)態(tài)語音特征如對(duì)特征參數(shù)取一階差分或二階差分,其對(duì)神經(jīng)網(wǎng)絡(luò)的識(shí)別性能有不小的提升,一階差分或者二階差分在現(xiàn)實(shí)生活中有實(shí)際的物理意義,即速度和加速度,計(jì)算方式很簡(jiǎn)單。所以本文也研究語音特征的動(dòng)態(tài)性。

一階差分就是離散函數(shù)中連續(xù)相鄰兩項(xiàng)之差,原理如公式(5)所示:

其中()為原始信號(hào),Δ()為一階差分信號(hào)。物理意義就是當(dāng)前語音幀與前一幀之間的關(guān)系,體現(xiàn)幀與幀(相鄰兩幀)之間的聯(lián)系;在一階差分的基礎(chǔ)上,提取二階差分,原理如公式(6)所示:

其中Δ()為一階差分信號(hào),Δ()為二階差分信號(hào)。二階差分表示的是一階差分與一階差分之間的關(guān)系,即前一階差分與后一階差分之間的關(guān)系,體現(xiàn)到幀上就是相鄰三幀之間的動(dòng)態(tài)關(guān)系。

1.3 特征向量歸一化

數(shù)據(jù)規(guī)范化是數(shù)據(jù)處理常用的一種技術(shù),目前常用的規(guī)范化方法有最大值-最小值規(guī)范化、零均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化,本文采用零均值規(guī)范化,規(guī)范的方式如公式(7)所示:

其中,,std,'依次代表原始數(shù)據(jù)、原始數(shù)據(jù)的均值、原始數(shù)據(jù)的方差及規(guī)范后的數(shù)據(jù)。該過程可以將提取的語音特征數(shù)據(jù)統(tǒng)一尺度,有利于之后網(wǎng)絡(luò)模型參數(shù)的調(diào)節(jié),加快訓(xùn)練和網(wǎng)絡(luò)的收斂。

2 模型構(gòu)建

聲學(xué)建模是本文搭建的音素識(shí)別系統(tǒng)的一個(gè)重要分支,其系統(tǒng)的構(gòu)建極大地影響著識(shí)別性能,本文主要是結(jié)合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTM)和聯(lián)接時(shí)序分類(CTC),該模型的構(gòu)建簡(jiǎn)化了音素識(shí)別的過程且能更好地利用時(shí)序上下文的信息。

2.1 雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTM)

RNN利用序列信號(hào)的上下文信息,將過去的輸入和現(xiàn)在的輸入一起映射到現(xiàn)在的輸出,從而改善網(wǎng)絡(luò)的性能,一定程度上提升音素識(shí)別系統(tǒng)的性能,但是循環(huán)神經(jīng)網(wǎng)絡(luò)由于誤差信號(hào)在后向計(jì)算時(shí)存在梯度爆炸和梯度消失的問題,導(dǎo)致RNN很難較好地處理長(zhǎng)期依賴的序列信號(hào)。LSTM的提出較好地解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中的問題,LSTM網(wǎng)絡(luò)引入門的概念來控制網(wǎng)絡(luò)的輸入與輸出,優(yōu)化了網(wǎng)絡(luò)模型。LSTM網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。LSTM網(wǎng)絡(luò)有三個(gè)門,輸入門、忘記門和輸出門;通過門來控制和維護(hù)單元狀態(tài)。,,,分別代表遺忘門、輸入門、輸出門和cell狀態(tài)。

圖2 LSTM單元結(jié)構(gòu)圖

LSTM的工作原理如下:

(1)忘記門決定從細(xì)胞單元中遺忘的東西,過程可由公式(8)表示,其中是激活函數(shù),h 是隱藏值向量,代表各個(gè)部分的偏移量,是權(quán)重。

(2)輸入門控制哪些信息可以輸入到輸入門中,這一過程由兩個(gè)部分共同決定,一部分通過激活函數(shù),另一部分通過tanh層得到一個(gè)新的候選值向量,如公式(9)和公式(10)所示:

(3)更新單元狀態(tài),C 變?yōu)?span id="syggg00" class="emphasis_italic">C ,把原來的單元狀態(tài)與f 相乘,丟棄無用的信息,隨后將更新的狀態(tài)C 與輸入信號(hào)i 相卷積之后與之相加,據(jù)此可以得到新的候選向量,如公式(11)所示:

(4)計(jì)算輸出信號(hào)的大小,輸出值依賴于cell單元各個(gè)部分的狀態(tài),且是經(jīng)過過濾的值,先通過激活函數(shù)得到輸出信號(hào)部分,之后再將cell單元通過tanh層,最后將這兩個(gè)值相乘得到我們需要的有用的輸出信號(hào)信息,如公式(12)和公式(13)所示:

由以上可知,LSTM網(wǎng)絡(luò)可以很好地解決循環(huán)卷積網(wǎng)絡(luò)的梯度消失和爆炸的問題,但它只考慮了當(dāng)前時(shí)刻和過去時(shí)刻信號(hào)的信息,未能利用將來時(shí)刻的信號(hào),沒有很好地處理長(zhǎng)期依賴的信號(hào)。BLSTM針對(duì)這一問題提出雙向傳遞的概念,通過前向傳播和后向傳播,使網(wǎng)絡(luò)能夠充分利用輸入信號(hào)各個(gè)時(shí)刻的值來訓(xùn)練調(diào)節(jié)網(wǎng)絡(luò),更好地學(xué)習(xí)模仿信號(hào)的特點(diǎn)。BLSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。此網(wǎng)絡(luò)利用兩個(gè)單向的LSTM網(wǎng)絡(luò)疊加在一起,可以較好地應(yīng)用序列信號(hào)過去和未來時(shí)刻的信息,即上下文信息來優(yōu)化網(wǎng)絡(luò)的結(jié)構(gòu)。

圖3 BLSTM網(wǎng)絡(luò)結(jié)構(gòu)圖

2.2 聯(lián)接時(shí)序分類(CTC)

在端到端模型被提出之前,音素識(shí)別系統(tǒng)的建立大部分都是將語音按音素切分好,然后再分幀打標(biāo)簽,這個(gè)過程十分繁瑣,而且誤差也受切分音素的操作誤差影響,費(fèi)時(shí)費(fèi)力。CTC目標(biāo)函數(shù)的提出極大地簡(jiǎn)化了音素識(shí)別系統(tǒng)的步驟,使整個(gè)網(wǎng)絡(luò)不再需要語言模型,標(biāo)簽可以不需要按幀對(duì)齊,系統(tǒng)可以輸入整句語音直接識(shí)別出整句話的音素,這對(duì)語音研究帶來了里程碑式的影響。CTC目標(biāo)函數(shù)的工作原理是在網(wǎng)絡(luò)模型的預(yù)測(cè)過程中加入空白標(biāo)簽來使輸入序列和輸出序列對(duì)齊,然后在最后階段刪除重復(fù)的字符和空白標(biāo)簽來得到準(zhǔn)確的輸出信號(hào)。

其中,為所有標(biāo)簽個(gè)數(shù)(CTC網(wǎng)絡(luò)輸出層節(jié)點(diǎn)個(gè)數(shù)),CTC目標(biāo)函數(shù)學(xué)習(xí)得到的長(zhǎng)度為的標(biāo)注序列,是由63個(gè)音素和blank構(gòu)成的,那么整個(gè)序列的概率為:

對(duì)于給定的目標(biāo)序列,由于其他標(biāo)注的重復(fù)性存在以及blank插入的位置不同,與存在多對(duì)一的關(guān)系,所以可以把上述關(guān)系重寫如下:

其中,是→的映射,表示的逆過程。映射函數(shù)先將重復(fù)相鄰的標(biāo)簽合并,然后再去除空標(biāo)簽,最后確定,CTC目標(biāo)函數(shù)如公式(17)所示:

CTC目標(biāo)函數(shù)最后的輸出表示轉(zhuǎn)換概率,該網(wǎng)絡(luò)在連續(xù)的時(shí)間里除去了映射重復(fù)的標(biāo)簽,這樣使得網(wǎng)絡(luò)變得更加復(fù)雜,所以將空白結(jié)尾的對(duì)齊和標(biāo)簽結(jié)尾的對(duì)齊分開,CTC目標(biāo)函數(shù)的最佳結(jié)果就是找到概率最大的輸出序列,由公式(18)表示:

其中為T幀輸入序列的后驗(yàn)概率最大的輸出標(biāo)簽序列。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文是采用TIMIT語音數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估。該數(shù)據(jù)集來自美國(guó)8個(gè)主要方言地區(qū)的630位說話者,說話者大部分為白人男性,每個(gè)說話人講10個(gè)句子,TIMIT庫主要設(shè)計(jì)了三種類型的句子:①SA-方言句子,該句子體現(xiàn)了不同地區(qū)方言的差別,該句子不適合音素識(shí)別;②SX-音素緊湊的句子,由MIT設(shè)計(jì),里面的句子音素分布平衡;③SI-音素發(fā)散的句子,目的是增加句子類型和音素文本多樣性。因本實(shí)驗(yàn)為完成連續(xù)語音的音素識(shí)別,所以舍棄SA-方言句子,利用訓(xùn)練集中的所有SX和SI句子,總計(jì)5040句。測(cè)試集使用測(cè)試數(shù)據(jù)集中的200條句子,即每個(gè)區(qū)域隨機(jī)選取25句。

3.2 實(shí)驗(yàn)評(píng)測(cè)標(biāo)準(zhǔn)

本文使用訓(xùn)練和測(cè)試網(wǎng)絡(luò)分開的原則,先將模型完全訓(xùn)練之后再進(jìn)行測(cè)試。評(píng)價(jià)指標(biāo)采用CTC損失函數(shù)(CTC-loss)和音素標(biāo)簽識(shí)別錯(cuò)誤率(LER)。

3.2.1 CTC損失函數(shù)

CTC損失函數(shù)是衡量CTC網(wǎng)絡(luò)是否優(yōu)良的一個(gè)常用指標(biāo),用來表示在給定當(dāng)前的參數(shù)下的網(wǎng)絡(luò)模型和理想模型的差距,將此用來調(diào)整網(wǎng)絡(luò)模型的參數(shù),從而調(diào)整網(wǎng)絡(luò)。CTC損失函數(shù)的表示如公式(19)所示:

其中P (|)是輸入序列為時(shí)輸出為序列的概率,為訓(xùn)練集。()為給定輸入序列時(shí)輸出序列的每個(gè)樣本概率之和,但在實(shí)際中,輸出的標(biāo)簽概率并不是相互獨(dú)立的。本文主要是利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和CTC網(wǎng)絡(luò)組合構(gòu)建網(wǎng)絡(luò)模型,所以在整個(gè)系統(tǒng)中并沒有用到語言模型或者字典,在網(wǎng)絡(luò)中利用空白標(biāo)簽將音素與音素分開,從而計(jì)算音素的錯(cuò)誤率,然后利用網(wǎng)絡(luò)中構(gòu)造的音素字典對(duì)其解碼獲得與之相對(duì)應(yīng)的音素。

3.2.2 音素標(biāo)簽識(shí)別錯(cuò)誤率

本文基于音素進(jìn)行網(wǎng)絡(luò)建模,所以選取音素標(biāo)簽的錯(cuò)誤率(Label Error Rate,LER)用作網(wǎng)絡(luò)準(zhǔn)確度的評(píng)價(jià)指標(biāo),音素錯(cuò)誤率的計(jì)算原則如公式(20)所示:

其中,,分別為插入,替換,刪除的音素的個(gè)數(shù),代表輸出序列的音素個(gè)數(shù)。

3.3 實(shí)驗(yàn)結(jié)果分析

3.3.1 不同特征參數(shù)的實(shí)驗(yàn)對(duì)比

語音特征參數(shù)的提取方式的不同會(huì)較大地影響識(shí)別性能。第一組實(shí)驗(yàn)將對(duì)比不同特征參數(shù)對(duì)音素識(shí)別系統(tǒng)性能的影響。

從表1可以看出,基于MFCC特征的音素識(shí)別率和基于MSRCC特征的音素識(shí)別率兩者較好,MSRCC特征最高,識(shí)別準(zhǔn)確率可以達(dá)到80%,相比于MFCC高出3%,基于PSRCC特征的效果最差;且在訓(xùn)練過程中,基于MSRCC特征的損失最小,相比于其它兩種特征,其更能擬合理想模型,訓(xùn)練的效果更好;對(duì)于PSRCC特征其效果不是很理想,可能對(duì)于連續(xù)的語音來說其相位信息不能完全表征信號(hào),所以其效果不如另兩種特征,但如果能與提取過程相似的MSRCC特征結(jié)合可能會(huì)有不一樣的效果??偠灾?,從表1可以發(fā)現(xiàn),基于MSRCC特征的效果各方面考慮來看均優(yōu)于基于MFCC特征。

表1 基于不同特征參數(shù)的實(shí)驗(yàn)結(jié)果

3.3.2 基于MSRCC特征的動(dòng)態(tài)性

語音特征的動(dòng)態(tài)性也極大地影響著識(shí)別系統(tǒng)的好壞,對(duì)于特征的維數(shù)的探究也是研究音素識(shí)別系統(tǒng)的一個(gè)重要方面,接下來將從MSRCC特征的不同維數(shù)考察該特征的優(yōu)劣。

從表2可以看出,MSRCC特征加二階差分的效果最好,可以達(dá)到86%的識(shí)別準(zhǔn)確率,一階差分與其相比低了1%,靜態(tài)特征低了6%,更高階的差分相加的識(shí)別效果也不如二階動(dòng)態(tài)特征,說明動(dòng)態(tài)特征的取值也需要適當(dāng)?shù)倪x擇。特征的動(dòng)態(tài)性也是影響識(shí)別性能的因素之一。靜態(tài)的特征不能反映不同時(shí)刻之間的相關(guān)性,將其取差分可以將特征的動(dòng)態(tài)性融入到需要送入的數(shù)據(jù)中,更有利于序列信號(hào)的訓(xùn)練。相比于傳統(tǒng)的MFCC特征來說,音素識(shí)別率的準(zhǔn)確率提高了很多。

表2 基于MSRCC不同維數(shù)的實(shí)驗(yàn)結(jié)果

3.3.3 基于MSRCC與不同特征參數(shù)的融合

從表3可以看出MSRCC特征結(jié)合PSRCC特征實(shí)驗(yàn)效果最好,測(cè)試集的識(shí)別率可以達(dá)到83%,其次是結(jié)合MFCC特征,識(shí)別率可以達(dá)到81%,相比結(jié)合相位特征低了2%,但總的來說都比單獨(dú)使用MSRCC特征效果好,但缺點(diǎn)是結(jié)合其它特征訓(xùn)練的代價(jià)上升了,它與理想模型的差距更大了,所以在選擇特征時(shí)需要考慮實(shí)際環(huán)境和需求,如果準(zhǔn)確率要求高的環(huán)境,則可以使用融合特征;如果要求損失小且速度快,則可以選擇性能較好的單一特征。

表3 基于MSRCC與不同特征參數(shù)的融合實(shí)驗(yàn)結(jié)果

3.3.4 針對(duì)不同聲學(xué)模型的實(shí)驗(yàn)

本組實(shí)驗(yàn)主要研究了幾種常用網(wǎng)絡(luò)模型的對(duì)音素識(shí)別系統(tǒng)性能的影響,實(shí)驗(yàn)中語音特征參數(shù)采用靜態(tài)MSRCC特征。

從表4可以看出,相比傳統(tǒng)模型DNNHMM,RNN-CTC的訓(xùn)練錯(cuò)誤率和測(cè)試錯(cuò)誤率分別降低了7%和13%,說明模型的優(yōu)化可以很好地改善系統(tǒng)性能。在后三組實(shí)驗(yàn)中可以發(fā)現(xiàn),BLSTM-CTC的實(shí)驗(yàn)性能最好,訓(xùn)練錯(cuò)誤率和測(cè)試錯(cuò)誤率分別為2%和20%,相比于其它兩組實(shí)驗(yàn)效果都有一定的改善,驗(yàn)證了BLSTM在一定的環(huán)境下能提升LSTM和RNN的性能。

表4 基于不同網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果

4 結(jié)語

本文主要研究了語音特征參數(shù)和BLSTMCTC的音素識(shí)別系統(tǒng)性能,采用最新的語音特征參數(shù)MSRCC和PSRCC進(jìn)行了一系列實(shí)驗(yàn)研究,表明這兩種參數(shù)具有較好的分類功能,PSRCC參數(shù)的提出可以利用語音信號(hào)的相位信息,之前語音的相關(guān)研究都忽略了相位信息,但是在本文中使用PSRCC特征參數(shù)結(jié)合MSRCC特征具有較好的性能,音素識(shí)別聲學(xué)網(wǎng)絡(luò)模型的建立也十分關(guān)鍵,本文使用了BLSTM網(wǎng)絡(luò)和CTC網(wǎng)絡(luò)的結(jié)合,該模型簡(jiǎn)化之前復(fù)雜的識(shí)別系統(tǒng)的構(gòu)建,不需要對(duì)語音流做切分和標(biāo)簽對(duì)齊工作,大大地節(jié)約了識(shí)別系統(tǒng)構(gòu)建的時(shí)間。該實(shí)驗(yàn)也存在不足,只選取了一個(gè)語音數(shù)據(jù)集,在數(shù)據(jù)集的選用上可以使用多種數(shù)據(jù)集,除此之外,對(duì)MSRCC特征還可以進(jìn)一步改進(jìn),可以嘗試考慮把特征提取過程中的Mel濾波器換成gammatone濾波器;網(wǎng)絡(luò)模型也還可以嘗試?yán)萌诤暇矸e神經(jīng)網(wǎng)絡(luò)等。目前新提出了一些端到端的編碼解碼網(wǎng)絡(luò),新的端到端網(wǎng)絡(luò)與BLSTM結(jié)合也是值得探索的方向,接下來我們會(huì)從以上幾點(diǎn)出發(fā),開展進(jìn)一步深入的研究實(shí)驗(yàn)。

猜你喜歡
音素差分標(biāo)簽
一類分?jǐn)?shù)階q-差分方程正解的存在性與不存在性(英文)
依托繪本課程,培養(yǎng)學(xué)生英語音素意識(shí)
一個(gè)求非線性差分方程所有多項(xiàng)式解的算法(英)
小學(xué)英語課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
在拼讀閱讀課中培養(yǎng)學(xué)生英語閱讀素養(yǎng)
零基礎(chǔ)速記48個(gè)音標(biāo)音素
一類caputo分?jǐn)?shù)階差分方程依賴于參數(shù)的正解存在和不存在性
基于差分隱私的數(shù)據(jù)匿名化隱私保護(hù)方法
讓衣柜擺脫“雜亂無章”的標(biāo)簽
科學(xué)家的標(biāo)簽
安岳县| 榆中县| 兰州市| 化州市| 磐石市| 郸城县| 麦盖提县| 长垣县| 军事| 文成县| 巴塘县| 普兰店市| 阜阳市| 江西省| 牡丹江市| 永川市| 惠州市| 定陶县| 修文县| 德昌县| 梅州市| 文成县| 静乐县| 封开县| 手机| 内乡县| 嘉义县| 桦川县| 六盘水市| 高淳县| 湄潭县| 三河市| 平湖市| 马山县| 临沧市| 车致| 新民市| 固安县| 黎城县| 民丰县| 马山县|