陳彩華
(湖南三一工業(yè)職業(yè)技術(shù)學(xué)院,湖南 長(zhǎng)沙 410129)
計(jì)算機(jī)輔助普通話水平測(cè)試系統(tǒng)自試用以來(lái),已經(jīng)在全國(guó)十多個(gè)省市推廣。應(yīng)用該系統(tǒng)不僅減少傳統(tǒng)人工現(xiàn)場(chǎng)評(píng)分帶來(lái)的人力、物力、財(cái)力成本,而且能較好地解決人工長(zhǎng)時(shí)間工作所帶來(lái)的評(píng)分波動(dòng),實(shí)現(xiàn)評(píng)分的客觀公正。
現(xiàn)行系統(tǒng)屬于文本相關(guān)的評(píng)測(cè),考生按照標(biāo)準(zhǔn)文本發(fā)音,計(jì)算機(jī)根據(jù)發(fā)音質(zhì)量反饋出分?jǐn)?shù)。實(shí)際推廣的普通話水平測(cè)試系統(tǒng)采用自動(dòng)語(yǔ)音識(shí)別技術(shù),即采用目前公認(rèn)的最能反映標(biāo)準(zhǔn)度的基于隱馬爾科夫模型(HMM)的對(duì)數(shù)后概率算法,將考生的語(yǔ)音文本切分到音素,在音素基礎(chǔ)上計(jì)算出能夠反映考生發(fā)音標(biāo)準(zhǔn)度、流暢度的評(píng)分特征,再給出機(jī)器評(píng)分結(jié)果。HMM是一種基于統(tǒng)計(jì)的模型,各音素的發(fā)音分布描述只能依據(jù)高斯分布,各HMM之間易混淆,從而導(dǎo)致系統(tǒng)無(wú)法正確反映音段的發(fā)音質(zhì)量,這將嚴(yán)重影響系統(tǒng)的評(píng)分性能,但語(yǔ)音識(shí)別中的語(yǔ)言模型能夠較好地消除HMM混淆影響;因此,本文借鑒語(yǔ)音識(shí)別中的語(yǔ)言模型思想,將普通話發(fā)音的語(yǔ)言學(xué)知識(shí)引入到對(duì)數(shù)后驗(yàn)算法中,從語(yǔ)言模型的角度來(lái)重構(gòu)對(duì)數(shù)后驗(yàn)概率算法中的識(shí)別網(wǎng)絡(luò),消除概率空間中HMM的混淆影響,解決不同音素之間后驗(yàn)概率的不可比性。
如何削弱概率空間對(duì)語(yǔ)音測(cè)試系統(tǒng)的影響,提高系統(tǒng)的評(píng)測(cè)性能,學(xué)者進(jìn)行了不懈努力。文獻(xiàn) [1]提出 “根據(jù)聲韻母時(shí)長(zhǎng)比例調(diào)整后驗(yàn)概率”,根據(jù)時(shí)長(zhǎng)加重聲母的權(quán)重,改善聲韻母間的后驗(yàn)概率不一致問(wèn)題。文獻(xiàn) [2]提出音素混淆擴(kuò)展網(wǎng)絡(luò)的后驗(yàn)概率計(jì)算方法。這些方法的思想類似,都通過(guò)特定的方法減少概率空間中的音素個(gè)數(shù),達(dá)到減少概率空間對(duì)評(píng)測(cè)任務(wù)影響的目的。
本文從目前已有的普通話水平測(cè)試自動(dòng)評(píng)分系統(tǒng)出發(fā),在文獻(xiàn) [3]統(tǒng)計(jì)的4大類考生發(fā)音錯(cuò)誤的基礎(chǔ)上,將絕大多數(shù)考生的發(fā)音錯(cuò)誤規(guī)律引入到常用的后驗(yàn)概率評(píng)價(jià)算法中,對(duì)算法的概率空間進(jìn)行優(yōu)化,并在500份普通話水平現(xiàn)場(chǎng)考試數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,基于考生發(fā)音錯(cuò)誤的概率空間能有效降低概率空間帶來(lái)的混淆。
受語(yǔ)音識(shí)別技術(shù)的限制,現(xiàn)行的普通話水平測(cè)試系統(tǒng)只能對(duì)考生完全按事先指定的文本朗讀的題型進(jìn)行評(píng)測(cè),屬于文本相關(guān)的語(yǔ)音評(píng)測(cè)。文本相關(guān)的發(fā)音質(zhì)量自動(dòng)評(píng)測(cè)系統(tǒng)的流程如圖1所示。
圖1 文本相關(guān)發(fā)音質(zhì)量自動(dòng)評(píng)測(cè)系統(tǒng)流程圖
預(yù)處理模塊接收考生語(yǔ)音和標(biāo)準(zhǔn)文本,得到語(yǔ)音的聲學(xué)特征和語(yǔ)音識(shí)別所需要的信息;語(yǔ)音識(shí)別模塊根據(jù)聲學(xué)模型進(jìn)行識(shí)別,輸出音素及其邊界;評(píng)分特征提取模塊根據(jù)識(shí)別結(jié)果,結(jié)合文本和聲學(xué)模型,提取可量化的描述發(fā)音標(biāo)準(zhǔn)度、流暢度、完整度等評(píng)分特征;評(píng)分計(jì)算模塊根據(jù)評(píng)分特征計(jì)算并輸出考生的機(jī)器評(píng)分。
普通話水平測(cè)試系統(tǒng)中的語(yǔ)音評(píng)測(cè)是基于對(duì)數(shù)后驗(yàn)概率法的,即先在切分(forced alignment)[3]的音素邊界上按式(1)對(duì)單個(gè)音素進(jìn)行計(jì)算,然后對(duì)考生的整個(gè)語(yǔ)流按式(2)進(jìn)行規(guī)整,得到考生最終發(fā)音質(zhì)量評(píng)分。
(1)
(2)
式中:Oi是根據(jù)考生的待測(cè)語(yǔ)音所提取的聲學(xué)特征,即觀測(cè)數(shù)據(jù);di是Oi的時(shí)長(zhǎng)(幀數(shù));M為后概率空間;P(Oi|qi)是音素qi的似然度;N是考生整個(gè)語(yǔ)流中的音素個(gè)數(shù)。
式(1)中分母的輸出反映考生真實(shí)發(fā)音的音素級(jí)識(shí)別結(jié)果。實(shí)際發(fā)音評(píng)測(cè)中,因無(wú)法運(yùn)用語(yǔ)言模型,因此由漢語(yǔ)聲韻母構(gòu)成一個(gè)音素循環(huán)識(shí)別全網(wǎng)絡(luò),如表1所示,再在全網(wǎng)絡(luò)中求各音素的最大似然度。
表1 漢語(yǔ)聲韻母列表
國(guó)內(nèi)參加普通話水平測(cè)試的考生大都以漢語(yǔ)為母語(yǔ),發(fā)音質(zhì)量問(wèn)題大都是受方言的影響產(chǎn)生的,有很強(qiáng)的規(guī)律性。普通話測(cè)試專家已經(jīng)系統(tǒng)總結(jié)了帶方言口音普通話的各種音段錯(cuò)誤和缺陷的基本類型[4]。典型的聲母錯(cuò)誤包括: 1)將舌尖后音(翹舌音)讀作舌尖前音(平舌音);2)將舌尖前音(平舌音)讀作舌尖后音(翹舌音);3)將舌尖中鼻音讀作舌尖中邊音; 4)將舌尖中邊音讀作舌尖中鼻音。典型的韻母錯(cuò)誤包括: 1)將后半高不圓唇元音e讀作前中元音,或前半高元音; 2)忽略卷舌韻母er的卷舌; 3)舌尖前元音-i(前)沒有保持單元音狀態(tài),明顯向無(wú)元音的舌邊滑動(dòng); 4)舌尖后元音-i(后)沒有保持單元音的狀態(tài),明顯向無(wú)元音的舌邊滑動(dòng),同時(shí)含卷舌成分。
語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)是要將不同人的發(fā)音差別盡可能模糊掉,還原發(fā)音者想要表達(dá)的原文,但是系統(tǒng)受語(yǔ)言模型限制。普通話發(fā)音質(zhì)量評(píng)價(jià)系統(tǒng)的目標(biāo)是要對(duì)不同考生的發(fā)音差別盡可能準(zhǔn)確地進(jìn)行判斷,并以此來(lái)評(píng)判考生發(fā)音的標(biāo)準(zhǔn)程度,因此,不能直接使用語(yǔ)音識(shí)別中的語(yǔ)言模型;但是系統(tǒng)可以借鑒語(yǔ)音識(shí)別中的語(yǔ)言模型思想,利用普通話測(cè)試中的語(yǔ)言學(xué)知識(shí)對(duì)算法的識(shí)別網(wǎng)絡(luò)進(jìn)行精簡(jiǎn),即利用上述普通話常見聲韻母發(fā)音錯(cuò)誤情況來(lái)限制式(1)中對(duì)數(shù)分母的最大值計(jì)算范圍。修改后的計(jì)算公式為
(3)
式(3)用音素qj的常見發(fā)音錯(cuò)誤類型的模型集合Ej代替原來(lái)的全體聲韻母模型集合M,即用語(yǔ)言學(xué)知識(shí)[3]指導(dǎo)的精簡(jiǎn)網(wǎng)絡(luò)代替原來(lái)的全網(wǎng)絡(luò)。
精簡(jiǎn)網(wǎng)絡(luò)[1]是普通話測(cè)試專家在常見的語(yǔ)音錯(cuò)誤和語(yǔ)音缺陷的基礎(chǔ)上,進(jìn)一步實(shí)例化得到?!爸袊?guó)”一詞對(duì)應(yīng)的聲韻母識(shí)別網(wǎng)絡(luò)如表2所示。
表2 詞語(yǔ)“中國(guó)”的精簡(jiǎn)識(shí)別網(wǎng)絡(luò)
普通話水平測(cè)試屬于文本相關(guān)的發(fā)音質(zhì)量評(píng)測(cè),與語(yǔ)音識(shí)別中基于詞圖的后驗(yàn)概率有所區(qū)別。語(yǔ)音識(shí)別部分主要采用基于文本的切分方法,將考生的發(fā)音與標(biāo)準(zhǔn)文本強(qiáng)行對(duì)齊,得到由切分路徑構(gòu)成的簡(jiǎn)單識(shí)別網(wǎng)絡(luò),構(gòu)成式(1)的分子。式(1)的分母則為由精簡(jiǎn)網(wǎng)絡(luò)決定的解碼網(wǎng)絡(luò)。以“中國(guó)”為例,對(duì)應(yīng)式(1)中的分子、分母識(shí)別網(wǎng)絡(luò)如圖2所示。
圖2 高斯后驗(yàn)概率分子、分母識(shí)別網(wǎng)絡(luò)
(4)
式(1)中基于分子識(shí)別網(wǎng)絡(luò)的后驗(yàn)概率的計(jì)算公式為
(5)
在得到弧后驗(yàn)概率的計(jì)算結(jié)果后,狀態(tài)后驗(yàn)概率、高斯后驗(yàn)概率的計(jì)算基本與語(yǔ)音識(shí)別一致。由于在指定弧下,利用Viterbi方法[5-7]得到的狀態(tài)后驗(yàn)概率僅有0,1這2種值,因此,本文利用Viterbi算法計(jì)算狀態(tài)后驗(yàn)概率。
先將式(1)中分子、分母識(shí)別網(wǎng)絡(luò)中的每條弧切分至狀態(tài),再計(jì)算每幀的狀態(tài)后驗(yàn)概率,如圖3所示。其中,ong[1]描述發(fā)音‘ong’的HMM的第1個(gè)有效狀態(tài),ong[2]、ong[3]分別為第2、第3有效狀態(tài)。由Viterbi算法切分的狀態(tài)結(jié)果可知,在t時(shí)刻,狀態(tài)ong[2]的后驗(yàn)概率為1,狀態(tài)ong[1]、ong[3]的后驗(yàn)概率為0。
圖3 Viterbi算法中的弧狀態(tài)后驗(yàn)概率示意圖
(6)
利用概率空間中各HMM對(duì)待測(cè)語(yǔ)音的聲學(xué)特征Or,n進(jìn)行解碼。若弧i的第t幀狀態(tài)為s,則St(i,s,Or,n)=1,否則St(i,s,Or,n)=0。
在得到狀態(tài)后驗(yàn)概率的計(jì)算結(jié)果后,指定狀態(tài)下的高斯后驗(yàn)概率為當(dāng)前高斯的加權(quán)似然度占所有高斯的加權(quán)似然度之和的比例。
分母的高斯后驗(yàn)概率計(jì)算公式為
(7)
分子的高斯后驗(yàn)概率計(jì)算公式為
(8)
其中
基于優(yōu)化識(shí)別網(wǎng)絡(luò)的語(yǔ)音評(píng)測(cè)算法的實(shí)現(xiàn)流程如圖4所示。
圖4 優(yōu)化識(shí)別網(wǎng)絡(luò)語(yǔ)音評(píng)測(cè)算法流程
1)根據(jù)標(biāo)準(zhǔn)文本對(duì)考生語(yǔ)音進(jìn)行語(yǔ)音識(shí)別,得到音素級(jí)識(shí)別結(jié)果。
2)根據(jù)考生的朗讀文本將音素HMM模型拼接構(gòu)成強(qiáng)制匹配的分子識(shí)別網(wǎng)絡(luò),同時(shí)生成一個(gè)無(wú)語(yǔ)法模型限制的音素循環(huán)識(shí)別網(wǎng)絡(luò)。
3)按上述后驗(yàn)概率計(jì)算公式對(duì)音素和整個(gè)語(yǔ)流進(jìn)行歸整,得到考生的發(fā)音質(zhì)量評(píng)價(jià)得分。
普通話水平測(cè)試系統(tǒng)評(píng)測(cè)單字朗讀、雙字詞朗讀以及篇章朗讀3部分。實(shí)驗(yàn)主要采用英國(guó)劍橋大學(xué)的HTK工具包[8]作為研究測(cè)試平臺(tái),采用39維MFCC_0_D_A_Z聲學(xué)特征作為訓(xùn)練參數(shù),采用上下文無(wú)關(guān)的聲韻母模型作為聲學(xué)模型,共計(jì)67個(gè)HMM,包括聲母、韻母、零聲母、靜音、短時(shí)停頓、填充模型,每種模型壓縮至平均16高斯。
隨著普通話水平智能測(cè)試的推廣,全國(guó)各地的語(yǔ)音數(shù)據(jù)在數(shù)量上都有了極大的擴(kuò)充。為保證實(shí)驗(yàn)結(jié)果的普遍性,從全國(guó)各地普通話測(cè)試中心選擇有代表性的500份語(yǔ)音數(shù)據(jù),共計(jì)約83 h,涵蓋普通話水平測(cè)試大綱中的全部字、詞、短文,每份數(shù)據(jù)都有專家的精細(xì)評(píng)分。
由于機(jī)器評(píng)分與專家評(píng)分間的相關(guān)度體現(xiàn)了人機(jī)評(píng)分的一致程度,因此算法選擇人機(jī)相關(guān)度作為評(píng)價(jià)系統(tǒng)性能的指標(biāo)。人機(jī)相關(guān)度Corr計(jì)算公式為
(9)
實(shí)驗(yàn)采用對(duì)比法,在全概率空間、典型錯(cuò)誤概率空間分別考察后驗(yàn)概率對(duì)評(píng)分性能的影響。具體實(shí)驗(yàn)結(jié)果見表3。
表3 不同概率空間中后驗(yàn)概率算法評(píng)分性能
本文從普通話發(fā)音的角度,針對(duì)對(duì)數(shù)后驗(yàn)概率算法中各HMM模型之間混淆率較大的不足,借鑒語(yǔ)音識(shí)別中的語(yǔ)言模型思想,從普通話的語(yǔ)言知識(shí)出發(fā)對(duì)算法的識(shí)別網(wǎng)絡(luò)進(jìn)行簡(jiǎn)化,進(jìn)一步優(yōu)化算法的概率空間,同時(shí)結(jié)合發(fā)音空間對(duì)后驗(yàn)概率的計(jì)算進(jìn)行研究。實(shí)驗(yàn)表明,概率空間的優(yōu)化不僅能夠提高系統(tǒng)評(píng)測(cè)模型的性能,同時(shí)由于概率空間音素個(gè)數(shù)遠(yuǎn)小于全音素概率空間,因此還能顯著減少原有算法的運(yùn)算量。
[1]WEI Si, LIU Qingsheng, HU Yu, et al. Automatic Mandarin Pronunciation Scoring for Native Learners with Dialect Accent [C] // Proceedings of Interspeech 2006. Pittsburgh, Pennsylvania: International Speech Communication Association, 2006: 1383-1386.
[2]Ge F P, Lu L, Yan Y H. Experimental Investigation of Mandarin Pronunciation Duality Assessment System[C] // International Symposium Computer Science and Society (ISCCS).Kota Kinabalu: [s.n.],2011:235-239.
[3]WANG Renhua, LIU Qingfeng, WEI Si. Putonghua Proficiency Test and Evaluation [M].[S.l.]:Advances in Chinese Spoken Language Processing,2006:407-429.
[4]宋欣橋.普通話水平測(cè)試員實(shí)用手冊(cè)[M].北京:商務(wù)印書館,2005:139-151.
[5]Liu Qingsheng, Si Wei, Yu Hu,et al. The Application of Phone Weight in Putonghua Pronunciation Quality Assessment [C]// The 5th International Symposium on Chinese Spoken Language Processing. Singapore :[s.n.],2006:603-608.
[6]Young S, Evermann G, Gales M. The Hidden Markov Model Toolkit [EB/OL]. (2005-10-20). http://htk.eng.cam.ac.uk/.
[7]Jang R. Audio Signal Processing and Recognition [EB/OL]. (2009-05-30). http://neural.cs.nthu.edu.tw/jang/books/audiSignalProcessing/.
[8] Young S , Kershaw D, Odell J , et al.The HTK Book :for HTK Version 3.0 [M]. Redmond :Microsoft Corporation, 2000:23-45.