晁 浩,宋 成,劉志中
河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000
語(yǔ)音識(shí)別中基于發(fā)音特征的聲調(diào)集成算法
晁 浩,宋 成,劉志中
河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000
隱馬爾科夫模型(Hidden Markov Model,HMM)是當(dāng)前連續(xù)語(yǔ)音識(shí)別領(lǐng)域應(yīng)用最為廣泛的聲學(xué)模型,但其語(yǔ)音幀之間相互獨(dú)立的假設(shè)并不符合語(yǔ)音信號(hào)真實(shí)分布[1]。為此,研究人員提出了分段模型,隨機(jī)段模型(Stochastic Segment Modeling,SSM)就是其中的一種[2-4]。相對(duì)于HMM,隨機(jī)段模型是一種更為精確的模型。此外,隨機(jī)段模型作為分段模型的一種,其建模和解碼均以語(yǔ)音段為基本單元,這就使其具有HMM所不具有的特性:段模型本身的結(jié)構(gòu)允許采用語(yǔ)音段層次上的特征,而作為超音段特征的聲調(diào)信息能很好地應(yīng)用于隨機(jī)段模型。為了進(jìn)一步提高隨機(jī)段模型系統(tǒng)的解碼精度,將聲調(diào)信息作為聲學(xué)特性信息的補(bǔ)充用于隨機(jī)段模型系統(tǒng)是十分必要的。
聲調(diào)是漢語(yǔ)普通話的一種重要屬性,在一定程度上承擔(dān)著構(gòu)字辨義的作用。因此,利用聲調(diào)信息來(lái)提高聲學(xué)模型的區(qū)分性是十分必要的,也是近年來(lái)的研究熱點(diǎn)[5-8]。
對(duì)于聲調(diào)模型,研究人員提出了不同的建模方法,如HMM[9]、人工神經(jīng)網(wǎng)絡(luò)[10]、決策樹(shù)分類(lèi)器[11]和支持向量機(jī)[12]、以及基于最大熵方法[13]和基于條件隨機(jī)場(chǎng)[14]的聲調(diào)建模方法等。從模型特征的角度,通過(guò)分析發(fā)音動(dòng)作的改變對(duì)基頻輪廓的影響,提出了基于發(fā)音特征和傳統(tǒng)基頻特征相結(jié)合的聲調(diào)建模方法[15]。
本文的研究工作分兩方面:首先進(jìn)一步完善了發(fā)音器官主要?jiǎng)幼鲗傩詣澐诸?lèi)別,補(bǔ)充了發(fā)音特征集,改進(jìn)了前面提出的基于發(fā)音特征的聲調(diào)建模方法;然后,根據(jù)隨機(jī)段模型的模型結(jié)構(gòu)和解碼原理將基于發(fā)音特征的聲調(diào)模型通過(guò)一遍解碼的方式集成到隨機(jī)段模型系統(tǒng)中。
2.1 發(fā)音特征獲取
漢語(yǔ)中的音節(jié)具有聲母-韻母的結(jié)構(gòu),對(duì)于同一種聲調(diào)模式,如果對(duì)應(yīng)音節(jié)中的聲韻母發(fā)音時(shí)發(fā)音動(dòng)作不一樣,那么就會(huì)使基頻輪廓在形狀或高度上發(fā)生改變。因此,在聲調(diào)建模及分類(lèi)過(guò)程中,必須考慮聲韻母的發(fā)音動(dòng)作這一因素的影響。在先前的研究中[15],發(fā)音特征主要體現(xiàn)了聲/韻母的發(fā)音方式和聲帶振動(dòng)信息,而這些只是描述發(fā)音器官動(dòng)作信息的一部分。這里補(bǔ)充了其他的發(fā)音器官動(dòng)作信息(見(jiàn)表1),使得發(fā)音特征得以更全面地表征發(fā)音器官的動(dòng)作屬性,并以此提出了改進(jìn)的發(fā)音特征提取方法。
表1 發(fā)音特征及其包含的類(lèi)別
所用的發(fā)音特征集主要包括:“發(fā)音位置”、“發(fā)音方式”、“是否送氣”等7種發(fā)音特征,每種發(fā)音特征包含各自的所屬類(lèi)別,總共35類(lèi)。
發(fā)音特征的提取主要采用統(tǒng)計(jì)方法:首先訓(xùn)練統(tǒng)計(jì)模型,然后利用模型計(jì)算語(yǔ)音信號(hào)屬于發(fā)音特征的各類(lèi)別的后驗(yàn)概率,根據(jù)概率大小判斷應(yīng)屬于哪類(lèi)發(fā)音特征。在文中,采用階層式神經(jīng)網(wǎng)絡(luò)計(jì)算聲母/韻母對(duì)應(yīng)的語(yǔ)音段屬于發(fā)音特征類(lèi)別的后驗(yàn)概率,如圖1所示。
(1)基于語(yǔ)音幀的發(fā)音特征
圖中第一層的多層感知器(Multilayer Perceptron classifiers,MLP)計(jì)算當(dāng)前幀語(yǔ)音信號(hào)屬于某類(lèi)發(fā)音特征的概率。對(duì)于發(fā)音特征集中的每一種發(fā)音特征,都有一個(gè)多層感知器相對(duì)應(yīng),因此一共要訓(xùn)練7個(gè)多層感知器。MLP的輸入數(shù)據(jù)采用頻譜特征,輸出數(shù)據(jù)的維數(shù)(或者說(shuō)輸出層節(jié)點(diǎn)的個(gè)數(shù))與每個(gè)發(fā)音特征的所屬類(lèi)別數(shù)相同。將每個(gè)MLP的輸出連接起來(lái)形成一個(gè)新的一維矢量,該矢量的維數(shù)為35,即表1中個(gè)發(fā)音特征的類(lèi)別數(shù)目總和。
(2)發(fā)音特征序列處理
對(duì)于一個(gè)語(yǔ)音幀,圖1中第一層感知器組的輸出輸出是一個(gè)描述該幀語(yǔ)音的發(fā)音信息、維數(shù)為35的特征矢量。對(duì)于包含多個(gè)語(yǔ)音幀的語(yǔ)音段(聲/韻母),第一層的多層感知器組的輸出實(shí)際上是一個(gè)后驗(yàn)概率矢量序列。
發(fā)音特征序列處理模塊將后驗(yàn)概率矢量序列按照3-4-3的比例分為三部分,得到三個(gè)較短的后驗(yàn)概率矢量序列,然后對(duì)每一部分的矢量序列求均值,得到三個(gè)均值矢量,每個(gè)矢量維數(shù)仍為35。將這三個(gè)均值矢量拼接起來(lái),再拼接一維該語(yǔ)音段時(shí)長(zhǎng)的對(duì)數(shù)值,組成一個(gè)新的特征矢量,作為第二層MLP的輸入,共106維。
(3)語(yǔ)音段后驗(yàn)概率的獲取
第二層的多層感知器共有兩個(gè),分別對(duì)應(yīng)聲母語(yǔ)音段和韻母語(yǔ)音段。這兩個(gè)模型訓(xùn)練時(shí)所用輸入為發(fā)音特征序列處理模塊的輸出,共106維。MLP-1為屬于聲母的多層感知器,有20個(gè)輸出節(jié)點(diǎn),分別對(duì)應(yīng)于表1中前4個(gè)發(fā)音特征的20個(gè)類(lèi)別;MLP-2為屬于韻母的多層感知器,有15個(gè)輸出節(jié)點(diǎn),對(duì)應(yīng)于表1中后3個(gè)發(fā)音特征的15個(gè)類(lèi)別。
2.2 聲調(diào)建模
在提取出發(fā)音特征后,將其與韻律特征一起用于建立聲調(diào)模型。
圖1 基于階層式人工神經(jīng)網(wǎng)絡(luò)的發(fā)音特征提取
(1)韻律特征
由于漢語(yǔ)的聲調(diào)主要通過(guò)對(duì)應(yīng)音節(jié)的基頻輪廓來(lái)表示,而時(shí)長(zhǎng)、能量也在一定程度上影響了聲調(diào)的感知,所以對(duì)于每一個(gè)音節(jié),采用基頻輪廓、時(shí)長(zhǎng)以及能量為聲調(diào)建模,具體如表2所示。
表2 聲調(diào)建模所用韻律特征
基頻特征共4個(gè):首先計(jì)算當(dāng)前音節(jié)對(duì)應(yīng)的基頻的均值,然后將當(dāng)前音節(jié)對(duì)應(yīng)的基頻均勻地分為三部分,每部分分別求均值。
能量特征:當(dāng)前音節(jié)能量的均值。
時(shí)長(zhǎng)特征:當(dāng)前音節(jié)的時(shí)長(zhǎng)。
相鄰音節(jié)基頻特征:前一個(gè)音節(jié)對(duì)應(yīng)的基頻均勻地分為三部分,取后面部分的基頻的均值;后一個(gè)音節(jié)對(duì)應(yīng)的基頻均勻地分為三部分,去前面部分基頻的均值。
(2)聲調(diào)模型
在獲取了發(fā)音特征和韻律特征后,將兩種特征相結(jié)合,用于訓(xùn)練聲調(diào)模型。聲調(diào)模型采用多層感知器,MLP模型包含一個(gè)隱含層,隱含層節(jié)點(diǎn)個(gè)數(shù)設(shè)置為2N+1,其中 N為輸入層的節(jié)點(diǎn)個(gè)數(shù),MLP模型采用WEKA的多層感知器算法來(lái)訓(xùn)練。
隨機(jī)段模型系統(tǒng)解碼時(shí),每一個(gè)語(yǔ)音幀都設(shè)有一個(gè)備選集和一個(gè)擴(kuò)展集。備選集是所有以該幀為最后切分點(diǎn)的路徑的集合;擴(kuò)展集是由該幀備選集中的路徑向下擴(kuò)展出來(lái)的聲學(xué)模型的集合。
對(duì)于當(dāng)前待解碼幀,所有以其為終點(diǎn),且起點(diǎn)在最大段長(zhǎng)允許范圍內(nèi)的語(yǔ)音幀的擴(kuò)展集,構(gòu)成當(dāng)前待解碼幀待定的備選集。解碼時(shí)每一個(gè)起始點(diǎn)幀都與待解碼幀形成了一個(gè)語(yǔ)音段,計(jì)算起始幀擴(kuò)展集中每一個(gè)聲學(xué)模型在該語(yǔ)音段上的概率得分,并以此選取最優(yōu)的聲學(xué)模型,也就是最優(yōu)的路徑,并將這些保留下來(lái)的路徑加入到解碼幀的備選集中。例如,待解碼幀為m,對(duì)于起點(diǎn)為t的語(yǔ)音段[t,m],根據(jù)t擴(kuò)展集中的所有模型在該語(yǔ)音段的得分的大小情況選取最佳聲學(xué)模型α,并將其添加到待解碼幀m的備選集合中。這就是隨機(jī)段模型解碼的第一層剪枝,其主要根據(jù)當(dāng)前語(yǔ)音段上的概率得分大小來(lái)剪枝。剪枝后形成的解碼幀m的備選集包含了大約幾千條路徑。
隨后,需要對(duì)當(dāng)前待解碼幀的備選集中的路徑根據(jù)發(fā)音詞典的規(guī)則進(jìn)行擴(kuò)展,從而形成該幀的擴(kuò)展集。在擴(kuò)展前需要對(duì)備選集中的路徑進(jìn)行第二層剪枝,剪枝的規(guī)則是保留路徑總得分最大的部分路徑。第二層剪枝后當(dāng)前待解碼幀的備選集中只保留了大約幾十條路徑用于后續(xù)的路徑擴(kuò)展。
聲調(diào)模型的加入是在第二層剪枝后,路徑擴(kuò)展之前,如圖2所示。加入的方式如下:
其中w1為時(shí)長(zhǎng)模型的權(quán)重系數(shù),w2為聲調(diào)模型的權(quán)重系統(tǒng)。
聲調(diào)建模和識(shí)別時(shí)需要預(yù)先知道聲韻母的邊界信息,但是在解碼時(shí)實(shí)際上不知道聲韻母真實(shí)的邊界信息,而第二層剪枝后保留下來(lái)的路徑其包含的邊界信息與真實(shí)的邊界信息比較相近,因此以這種方式加入聲調(diào)模型在一定程度上能解決真實(shí)邊界未知的問(wèn)題。
圖2 SSM二層剪枝示意圖
4.1 隨機(jī)段模型
實(shí)驗(yàn)所用的數(shù)據(jù)庫(kù)為國(guó)家863項(xiàng)目漢語(yǔ)廣播語(yǔ)音庫(kù)。訓(xùn)練集包括83位男性說(shuō)話人的數(shù)據(jù),其中共48 373句,約55.6 h。測(cè)試集包含6個(gè)男說(shuō)話人數(shù)據(jù),共240句話,約17.1 min。聲學(xué)特征包括12維梅爾頻率倒譜系數(shù)及1維標(biāo)準(zhǔn)化能量,以及它們的一階及二階差分,共39維。幀的窗長(zhǎng)為25.6 ms,幀移為10 ms。實(shí)驗(yàn)中采用的漢語(yǔ)普通話音素集包含24個(gè)聲母及37個(gè)韻母,每一個(gè)韻母含有五個(gè)聲調(diào)。去除訓(xùn)練庫(kù)中沒(méi)有出現(xiàn)的聲韻母,音素集中共包含191個(gè)基本音素。
實(shí)驗(yàn)所用的基線系統(tǒng)為基于隨機(jī)段模型的語(yǔ)音識(shí)別系統(tǒng)。隨機(jī)段模型的建模單元為聲韻母,采用背景相關(guān)的三音子結(jié)構(gòu),每個(gè)段模型包含15個(gè)域模型和一個(gè)基于伽馬分布的時(shí)長(zhǎng)模型。每個(gè)域模型由12混合數(shù)的高斯混合模型模擬。域模型采用基于音素的決策樹(shù)進(jìn)行參數(shù)合并。訓(xùn)練階段完成后,三音子模型一共有202 984個(gè),域模型的個(gè)數(shù)為24 180個(gè)。采用二元語(yǔ)言模型,詞典規(guī)模為48 188。
4.2 聲調(diào)識(shí)別結(jié)果
在對(duì)測(cè)試集中的240句話進(jìn)行強(qiáng)制切分后,利用訓(xùn)練好的MLP模型分別對(duì)切分出的語(yǔ)音段進(jìn)行了聲調(diào)識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。其中第一行為采用傳統(tǒng)韻律特征的聲調(diào)模型的識(shí)別結(jié)果;第二行為表征發(fā)音方式的特征(發(fā)音特征I)和韻律特征相結(jié)合后的聲調(diào)識(shí)別結(jié)果;最后一行則為對(duì)發(fā)音特征補(bǔ)充后(發(fā)音特征II)與韻律特征結(jié)合后的識(shí)別結(jié)果。
表3 基于不同特征的聲調(diào)模型(%)
與只用韻律特征的聲調(diào)模型相比,加入了發(fā)音特征后(不管是發(fā)音特征I還是發(fā)音特征II)聲調(diào)模型的精度均有較大程度上的提高。特別是輕聲,加入兩種發(fā)音特征后,聲調(diào)的準(zhǔn)確率分別提高了25.1%和34.6%。這是由于輕聲沒(méi)有固定的調(diào)值,并且受前一個(gè)音節(jié)聲調(diào)的影響較大,所以只根據(jù)韻律特征識(shí)別輕聲時(shí)效果并不理想。事實(shí)上,很多輕聲漢字的發(fā)音器官動(dòng)作比較固定或類(lèi)似,例如“吧,嗎,啊,阿,呢”以及“了,過(guò),的,得”。因此,如果先檢測(cè)出蘊(yùn)含發(fā)音器官動(dòng)作信息的發(fā)音特征,對(duì)應(yīng)輕聲的識(shí)別會(huì)很有幫助。相比發(fā)音特征I,發(fā)音特征II對(duì)發(fā)音器官動(dòng)作描述得更全面,也更精確。所以輕聲的識(shí)別率,采用發(fā)音特征II比發(fā)音特征I提高了9.5%。而對(duì)于一聲、二聲、三聲和四聲,采用發(fā)音特征I聲調(diào)模型的識(shí)別率也有輕微的提高,表明發(fā)音方式信息作為韻律信息的補(bǔ)充,能夠有效刻畫(huà)發(fā)音方式對(duì)基頻的影響,從而提升聲調(diào)識(shí)別的準(zhǔn)確率。采用發(fā)音特征II后四種聲調(diào)的識(shí)別率有了進(jìn)一步的提升,這表明如果能夠更精確地表征和提取語(yǔ)音信號(hào)中的發(fā)音信息會(huì)使得聲調(diào)模型的性能繼續(xù)提高,這也進(jìn)一步驗(yàn)證了發(fā)音特征在聲調(diào)建模中的潛力。
4.3 融入聲調(diào)模型后的語(yǔ)音識(shí)別
將聲調(diào)模型融入隨機(jī)段模型系統(tǒng)中后,對(duì)測(cè)試集中的240句話進(jìn)行識(shí)別并與隨機(jī)段模型的基線系統(tǒng)進(jìn)行對(duì)比。公式(1)中的聲調(diào)模型得分的權(quán)重通過(guò)實(shí)驗(yàn)人工設(shè)置。這里聲調(diào)的權(quán)重系數(shù)設(shè)置為5.5,時(shí)長(zhǎng)模型的權(quán)重系數(shù)設(shè)置為10。識(shí)別結(jié)果如表4所示。
表4中第一行為SSM基線系統(tǒng)的識(shí)別結(jié)果,第二行、第三行和第四行則是SSM系統(tǒng)融入了聲調(diào)模型后的識(shí)別結(jié)果。第二行的SSM系統(tǒng)使用的聲調(diào)模型只用韻律特征來(lái)建模;第三行SSM系統(tǒng)中的聲調(diào)模型則用了韻律特征和發(fā)音特征I(見(jiàn)表3中)來(lái)建模;最后一行的SSM系統(tǒng)中的聲調(diào)模型所用特征為補(bǔ)充后的發(fā)音特征(表3中發(fā)音特征II)與韻律特征。
不管使用哪種聲調(diào)模型,當(dāng)聲調(diào)模型融入SSM語(yǔ)音識(shí)別系統(tǒng)后,在測(cè)試集上漢語(yǔ)字的錯(cuò)誤率與基線系統(tǒng)相比均有所下降。將三種聲調(diào)模型集成到SSM后,插入錯(cuò)誤和刪除錯(cuò)誤都沒(méi)有發(fā)生變化,只是替代錯(cuò)誤的絕對(duì)值下降了。同時(shí),隨著聲調(diào)模型本身精度的提高,替代錯(cuò)誤也逐漸下降。這說(shuō)明聲調(diào)能夠提供補(bǔ)充性的區(qū)分性信息來(lái)糾正漢語(yǔ)語(yǔ)音識(shí)別中的替代錯(cuò)誤;而且聲調(diào)模型提供的區(qū)分性信息越準(zhǔn)確,SSM系統(tǒng)精度提升得也越多。
本文提出的聲調(diào)建模方法只需訓(xùn)練包括輕聲在內(nèi)的5個(gè)聲調(diào)模型,模型數(shù)量大大降低。在計(jì)算復(fù)雜度方面,聲調(diào)識(shí)別時(shí)算法的時(shí)間復(fù)雜度主要體現(xiàn)在發(fā)音特征的提取上,即多層感知器的計(jì)算。由于實(shí)驗(yàn)采用的多層感知器的各層節(jié)點(diǎn)數(shù)都不超過(guò)102,遠(yuǎn)遠(yuǎn)小于解碼時(shí)基于HMM的Viterbi搜索算法的時(shí)間復(fù)雜度O(N2T)(N為狀態(tài)數(shù),量級(jí)為103;T為時(shí)間,量級(jí)為102),所以將聲調(diào)模型通過(guò)一遍解碼的方式集成到語(yǔ)音識(shí)別系統(tǒng)中時(shí)并不會(huì)顯著增加解碼時(shí)間。
表4中的最后一列描述了解碼時(shí)間,用實(shí)時(shí)性來(lái)表示。為了消除解碼時(shí)計(jì)算機(jī)中其他程序?qū)獯a時(shí)間的影響,對(duì)于表中每一種系統(tǒng)都重復(fù)完成了10次解碼,時(shí)間取平均值。測(cè)試的硬件平臺(tái)為Intel3.20 GHz主頻和4 GB內(nèi)存的PC機(jī),運(yùn)行過(guò)程中內(nèi)存使用約為485~615 MB。第二行的SSM系統(tǒng)使用的聲調(diào)模型只用韻律特征來(lái)建模,聲調(diào)模型輸入特征的維數(shù)較低,并且特征提取時(shí)并未用多層感知器,所以解碼時(shí)間與基線系統(tǒng)相比只有略微的提高,由于提升程度有限,所以并沒(méi)有反映在實(shí)時(shí)性上;集成聲調(diào)模型I的系統(tǒng)中,在提取發(fā)音特征時(shí)所用階層式神經(jīng)網(wǎng)絡(luò)中第一層包含了19個(gè)MLP[14],而集成聲調(diào)模型II只用了7個(gè)MLP,所以集成聲調(diào)模型I所用時(shí)間反而較高。
表4 加入聲調(diào)信息的SSM系統(tǒng)的識(shí)別結(jié)果
分析發(fā)音時(shí)發(fā)音器官的動(dòng)作屬性后,補(bǔ)充了發(fā)音位置、是否送氣、舌位高低、舌位前后、嘴唇形狀等5種發(fā)音特征,從而建立了能夠更全面地表征發(fā)音器官的動(dòng)作屬性的發(fā)音特征集合,并以此提出了改進(jìn)的發(fā)音特征提取方法,并將新的發(fā)音特征和韻律特征一起用于聲調(diào)建模。最后根據(jù)隨機(jī)段模型的模型結(jié)構(gòu)和解碼方式提出聲調(diào)模型集成方式,從而將聲調(diào)信息應(yīng)用于SSM語(yǔ)音識(shí)別系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,采用了新的發(fā)音特征集合后聲調(diào)模型的精度有了進(jìn)一步提高;同時(shí)隨機(jī)段模型加入了聲調(diào)信息后系統(tǒng)性能有了進(jìn)一步的提高。
[1]Ostendorf M,Roukos S.A stochastic segment model for phoneme-based continuous speech recognition[J].IEEE Trans on Speech and Audio Processing,1989,37(12):1857-1869.
[2]唐赟,劉文舉,徐波.基于后驗(yàn)概率解碼段模型的漢語(yǔ)語(yǔ)音數(shù)字串識(shí)別[J].計(jì)算機(jī)學(xué)報(bào),2006,29(4):635-642.
[3]晁浩,劉文舉,楊占磊.漢語(yǔ)語(yǔ)音識(shí)別中聲學(xué)界標(biāo)點(diǎn)引導(dǎo)的隨機(jī)段模型解碼算法[J].計(jì)算機(jī)科學(xué),2013,40(10):208-212.
[4]Tang Yun,Liu Wenju,Zhang Hua.One-pass coarse-to-fine segmental speech decoding algorithm[C]//Proceedings of ICASSP,2006:441-444.
[5]Huang Hao,Li Binghu.Automatic context induction for tone model integration in Mandarin speech recognition[J]. Journal of China Universities of Posts and Telecommunications,2012,19(1):94-100.
[6]Tian Ye,Jia Jia,Wang Yongxin,et al.A real-time tone enhancement method for continuous Mandarin speeches[C]// International Symposium on Chinese Spoken Language Processing,2012:405-408.
[7]Wu Jiang,Zahorian S A,Hu Hongbing.Tone recognition in continuous Mandarin Chinese[J].The Journal of the Acoustical Society of America,2012,132(3).
[8]Wu Jiang,Zahorian S A,Hu Hongbing.Tone recognition for continuous accented Mandarin Chinese[C]//Proceedings of ICASSP,2013:7180-7183.
[9]Yang W J,Lee J C,Chang Y C,et al.Hidden Markov modelforMandarin lexicaltone recognition[J].IEEE Transactions on Acoustic Speech and Signal Processing,1988,36(7):988-992.
[10]Thubthong N,Kijsirikul B.Tone recognition of continuous Thai speech under tonal assimilation and declination effects using half-tone model[J].International JournalofUncertainty,F(xiàn)uzziness and Knowledge-Based Systems,2001,9(6):815-825.
[11]曹陽(yáng),黃泰翼,徐波.基于統(tǒng)計(jì)方法的漢語(yǔ)連續(xù)語(yǔ)音中聲調(diào)模式的研究[J].自動(dòng)化學(xué)報(bào),2004,30(2):191-198.
[12]PengG,Wang W S.Tonerecognitionofcontinuous Cantonese speech based on support vector machines[J]. Speech Communication,2005,45(1):49-62.
[13]Wang Xinhao.Maximum entropy based tone modeling for Mandarin speech recognition[C]//Proceedings of ICASSP,2010:4850-4853.
[14]Wei Hongxiu.Exploiting prosodic and lexical features for tone modeling in a conditional random field framework[C]// Proceedings of ICASSP,2008:4549-4552.
[15]Chao Hao,Yang Zhanlei,Liu Wenju.Improved tone modeling by exploiting articulatory features for Mandarin speech recognition[C]//Proceedings of ICASSP,2012:4741-4744.
CHAO Hao,SONG Cheng,LIU Zhizhong
School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo,Henan 454000,China
The tone model based on articulatory features is improved in this paper,and a framework is proposed which attempts to integrate the proposed tone model into stochastic segment based Mandarin speech recognition system.A set of seven articulatory features which represent the articulatory information is given.As well as prosodic features,the posteriors of speech signal belonging to the 35 pronunciation categories of articulatory features are used for tone modeling.The tone models are fused into the SSM-based speech recognition system after second pruning according to the property of segmental models.Tone recognition experiments conducted on“863-test”set indicate that about 3.11%absolute increase of accuracy can be achieved when using new articulatory features.When the proposed tone model is integrated into SSM system,the character error rate is reduced significantly.Thus,potential of the method is demonstrated.
speech recognition;stochastic segment modeling;tone modeling;articulatory feature;hierarchical multilayer perceptron classifiers
提出基于發(fā)音特征的聲調(diào)建模改進(jìn)方法,并將其用于隨機(jī)段模型的一遍解碼中。根據(jù)普通話的發(fā)音特點(diǎn),確定了用于區(qū)別漢語(yǔ)元音、輔音信息的7種發(fā)音特征,并以此為目標(biāo)值利用階層式多層感知器計(jì)算語(yǔ)音信號(hào)屬于發(fā)音特征的35個(gè)類(lèi)別后驗(yàn)概率,將該概率作為發(fā)音特征與傳統(tǒng)的韻律特征一起用于聲調(diào)建模。根據(jù)隨機(jī)段模型的解碼特點(diǎn),在兩層剪枝后對(duì)保留下來(lái)的路徑計(jì)算其聲調(diào)模型概率得分,加權(quán)后加入路徑總的概率得分中。在“863-test”測(cè)試集上進(jìn)行的實(shí)驗(yàn)結(jié)果顯示,使用了新的發(fā)音特征集合中聲調(diào)模型的識(shí)別精度提高了3.11%;融入聲調(diào)信息后隨機(jī)段模型的字錯(cuò)誤率從13.67%下降到12.74%。表明了將聲調(diào)信息應(yīng)用到隨機(jī)段模型的可行性。
語(yǔ)音識(shí)別;隨機(jī)段模型;聲調(diào)建模;發(fā)音特征;階層式多層感知器
A
TP391
10.3778/j.issn.1002-8331.1404-0306
CHAO Hao,SONG Cheng,LIU Zhizhong.Integrating tone models into speech recognition system based on articulatory feature.Computer Engineering and Applications,2014,50(23):21-25.
國(guó)家自然科學(xué)基金(No.61300124);河南省基礎(chǔ)與前沿技術(shù)研究計(jì)劃資助項(xiàng)目(No.132300410332)。
晁浩(1981—),男,博士,講師,研究領(lǐng)域?yàn)檎Z(yǔ)音識(shí)別;宋成(1980—),男,博士,講師,研究領(lǐng)域?yàn)樾畔踩?;劉志中?981—),男,博士,講師,研究領(lǐng)域?yàn)橹悄苡?jì)算。E-mail:chaohao@hpu.edu.cn
2014-04-21
2014-06-19
1002-8331(2014)23-0021-05
CNKI網(wǎng)絡(luò)優(yōu)先出版:2014-07-01,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1404-0306.html