普通話智能測(cè)試系統(tǒng)的語(yǔ)音識(shí)別網(wǎng)絡(luò)研究

2014-09-04 03:47陳彩華

西華大學(xué)學(xué)報(bào)（自然科學(xué)版） 2014年2期

陳彩華

(湖南三一工業(yè)職業(yè)技術(shù)學(xué)院,湖南長(zhǎng)沙 410129)

0 引言

計(jì)算機(jī)輔助普通話水平測(cè)試系統(tǒng)自試用以來(lái)，已經(jīng)在全國(guó)十多個(gè)省市推廣。應(yīng)用該系統(tǒng)不僅減少傳統(tǒng)人工現(xiàn)場(chǎng)評(píng)分帶來(lái)的人力、物力、財(cái)力成本，而且能較好地解決人工長(zhǎng)時(shí)間工作所帶來(lái)的評(píng)分波動(dòng)，實(shí)現(xiàn)評(píng)分的客觀公正。

現(xiàn)行系統(tǒng)屬于文本相關(guān)的評(píng)測(cè)，考生按照標(biāo)準(zhǔn)文本發(fā)音，計(jì)算機(jī)根據(jù)發(fā)音質(zhì)量反饋出分?jǐn)?shù)。實(shí)際推廣的普通話水平測(cè)試系統(tǒng)采用自動(dòng)語(yǔ)音識(shí)別技術(shù)，即采用目前公認(rèn)的最能反映標(biāo)準(zhǔn)度的基于隱馬爾科夫模型(HMM)的對(duì)數(shù)后概率算法，將考生的語(yǔ)音文本切分到音素，在音素基礎(chǔ)上計(jì)算出能夠反映考生發(fā)音標(biāo)準(zhǔn)度、流暢度的評(píng)分特征，再給出機(jī)器評(píng)分結(jié)果。HMM是一種基于統(tǒng)計(jì)的模型，各音素的發(fā)音分布描述只能依據(jù)高斯分布，各HMM之間易混淆，從而導(dǎo)致系統(tǒng)無(wú)法正確反映音段的發(fā)音質(zhì)量，這將嚴(yán)重影響系統(tǒng)的評(píng)分性能，但語(yǔ)音識(shí)別中的語(yǔ)言模型能夠較好地消除HMM混淆影響；因此，本文借鑒語(yǔ)音識(shí)別中的語(yǔ)言模型思想，將普通話發(fā)音的語(yǔ)言學(xué)知識(shí)引入到對(duì)數(shù)后驗(yàn)算法中，從語(yǔ)言模型的角度來(lái)重構(gòu)對(duì)數(shù)后驗(yàn)概率算法中的識(shí)別網(wǎng)絡(luò)，消除概率空間中HMM的混淆影響，解決不同音素之間后驗(yàn)概率的不可比性。

如何削弱概率空間對(duì)語(yǔ)音測(cè)試系統(tǒng)的影響，提高系統(tǒng)的評(píng)測(cè)性能，學(xué)者進(jìn)行了不懈努力。文獻(xiàn) [1]提出 “根據(jù)聲韻母時(shí)長(zhǎng)比例調(diào)整后驗(yàn)概率”，根據(jù)時(shí)長(zhǎng)加重聲母的權(quán)重，改善聲韻母間的后驗(yàn)概率不一致問(wèn)題。文獻(xiàn) [2]提出音素混淆擴(kuò)展網(wǎng)絡(luò)的后驗(yàn)概率計(jì)算方法。這些方法的思想類似，都通過(guò)特定的方法減少概率空間中的音素個(gè)數(shù)，達(dá)到減少概率空間對(duì)評(píng)測(cè)任務(wù)影響的目的。

本文從目前已有的普通話水平測(cè)試自動(dòng)評(píng)分系統(tǒng)出發(fā)，在文獻(xiàn) [3]統(tǒng)計(jì)的4大類考生發(fā)音錯(cuò)誤的基礎(chǔ)上，將絕大多數(shù)考生的發(fā)音錯(cuò)誤規(guī)律引入到常用的后驗(yàn)概率評(píng)價(jià)算法中，對(duì)算法的概率空間進(jìn)行優(yōu)化，并在500份普通話水平現(xiàn)場(chǎng)考試數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，基于考生發(fā)音錯(cuò)誤的概率空間能有效降低概率空間帶來(lái)的混淆。

1 普通話智能測(cè)試系統(tǒng)結(jié)構(gòu)

受語(yǔ)音識(shí)別技術(shù)的限制，現(xiàn)行的普通話水平測(cè)試系統(tǒng)只能對(duì)考生完全按事先指定的文本朗讀的題型進(jìn)行評(píng)測(cè)，屬于文本相關(guān)的語(yǔ)音評(píng)測(cè)。文本相關(guān)的發(fā)音質(zhì)量自動(dòng)評(píng)測(cè)系統(tǒng)的流程如圖1所示。

圖1 文本相關(guān)發(fā)音質(zhì)量自動(dòng)評(píng)測(cè)系統(tǒng)流程圖

預(yù)處理模塊接收考生語(yǔ)音和標(biāo)準(zhǔn)文本，得到語(yǔ)音的聲學(xué)特征和語(yǔ)音識(shí)別所需要的信息；語(yǔ)音識(shí)別模塊根據(jù)聲學(xué)模型進(jìn)行識(shí)別，輸出音素及其邊界；評(píng)分特征提取模塊根據(jù)識(shí)別結(jié)果，結(jié)合文本和聲學(xué)模型，提取可量化的描述發(fā)音標(biāo)準(zhǔn)度、流暢度、完整度等評(píng)分特征；評(píng)分計(jì)算模塊根據(jù)評(píng)分特征計(jì)算并輸出考生的機(jī)器評(píng)分。

2 基于語(yǔ)言學(xué)知識(shí)的識(shí)別網(wǎng)絡(luò)重構(gòu)

2.1 普通話評(píng)測(cè)系統(tǒng)中的識(shí)別網(wǎng)絡(luò)

普通話水平測(cè)試系統(tǒng)中的語(yǔ)音評(píng)測(cè)是基于對(duì)數(shù)后驗(yàn)概率法的，即先在切分(forced alignment)[3]的音素邊界上按式(1)對(duì)單個(gè)音素進(jìn)行計(jì)算，然后對(duì)考生的整個(gè)語(yǔ)流按式(2)進(jìn)行規(guī)整，得到考生最終發(fā)音質(zhì)量評(píng)分。

(1)

(2)

式中：Oi是根據(jù)考生的待測(cè)語(yǔ)音所提取的聲學(xué)特征，即觀測(cè)數(shù)據(jù)；di是Oi的時(shí)長(zhǎng)(幀數(shù))；M為后概率空間；P(Oi|qi)是音素qi的似然度；N是考生整個(gè)語(yǔ)流中的音素個(gè)數(shù)。

式(1)中分母的輸出反映考生真實(shí)發(fā)音的音素級(jí)識(shí)別結(jié)果。實(shí)際發(fā)音評(píng)測(cè)中，因無(wú)法運(yùn)用語(yǔ)言模型，因此由漢語(yǔ)聲韻母構(gòu)成一個(gè)音素循環(huán)識(shí)別全網(wǎng)絡(luò)，如表1所示，再在全網(wǎng)絡(luò)中求各音素的最大似然度。

表1 漢語(yǔ)聲韻母列表

2.2 基于語(yǔ)言學(xué)知識(shí)的識(shí)別網(wǎng)絡(luò)重構(gòu)

國(guó)內(nèi)參加普通話水平測(cè)試的考生大都以漢語(yǔ)為母語(yǔ)，發(fā)音質(zhì)量問(wèn)題大都是受方言的影響產(chǎn)生的，有很強(qiáng)的規(guī)律性。普通話測(cè)試專家已經(jīng)系統(tǒng)總結(jié)了帶方言口音普通話的各種音段錯(cuò)誤和缺陷的基本類型[4]。典型的聲母錯(cuò)誤包括： 1)將舌尖后音(翹舌音)讀作舌尖前音(平舌音)；2)將舌尖前音(平舌音)讀作舌尖后音(翹舌音)；3)將舌尖中鼻音讀作舌尖中邊音； 4)將舌尖中邊音讀作舌尖中鼻音。典型的韻母錯(cuò)誤包括： 1)將后半高不圓唇元音e讀作前中元音，或前半高元音； 2)忽略卷舌韻母er的卷舌； 3)舌尖前元音-i(前)沒有保持單元音狀態(tài)，明顯向無(wú)元音的舌邊滑動(dòng)； 4)舌尖后元音-i(后)沒有保持單元音的狀態(tài)，明顯向無(wú)元音的舌邊滑動(dòng)，同時(shí)含卷舌成分。

語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)是要將不同人的發(fā)音差別盡可能模糊掉，還原發(fā)音者想要表達(dá)的原文，但是系統(tǒng)受語(yǔ)言模型限制。普通話發(fā)音質(zhì)量評(píng)價(jià)系統(tǒng)的目標(biāo)是要對(duì)不同考生的發(fā)音差別盡可能準(zhǔn)確地進(jìn)行判斷，并以此來(lái)評(píng)判考生發(fā)音的標(biāo)準(zhǔn)程度，因此，不能直接使用語(yǔ)音識(shí)別中的語(yǔ)言模型；但是系統(tǒng)可以借鑒語(yǔ)音識(shí)別中的語(yǔ)言模型思想，利用普通話測(cè)試中的語(yǔ)言學(xué)知識(shí)對(duì)算法的識(shí)別網(wǎng)絡(luò)進(jìn)行精簡(jiǎn)，即利用上述普通話常見聲韻母發(fā)音錯(cuò)誤情況來(lái)限制式(1)中對(duì)數(shù)分母的最大值計(jì)算范圍。修改后的計(jì)算公式為

(3)

式(3)用音素qj的常見發(fā)音錯(cuò)誤類型的模型集合Ej代替原來(lái)的全體聲韻母模型集合M，即用語(yǔ)言學(xué)知識(shí)[3]指導(dǎo)的精簡(jiǎn)網(wǎng)絡(luò)代替原來(lái)的全網(wǎng)絡(luò)。

精簡(jiǎn)網(wǎng)絡(luò)[1]是普通話測(cè)試專家在常見的語(yǔ)音錯(cuò)誤和語(yǔ)音缺陷的基礎(chǔ)上，進(jìn)一步實(shí)例化得到?！爸袊?guó)”一詞對(duì)應(yīng)的聲韻母識(shí)別網(wǎng)絡(luò)如表2所示。

表2 詞語(yǔ)“中國(guó)”的精簡(jiǎn)識(shí)別網(wǎng)絡(luò)

3 基于優(yōu)化概率空間的后驗(yàn)概率計(jì)算

普通話水平測(cè)試屬于文本相關(guān)的發(fā)音質(zhì)量評(píng)測(cè)，與語(yǔ)音識(shí)別中基于詞圖的后驗(yàn)概率有所區(qū)別。語(yǔ)音識(shí)別部分主要采用基于文本的切分方法，將考生的發(fā)音與標(biāo)準(zhǔn)文本強(qiáng)行對(duì)齊，得到由切分路徑構(gòu)成的簡(jiǎn)單識(shí)別網(wǎng)絡(luò)，構(gòu)成式(1)的分子。式(1)的分母則為由精簡(jiǎn)網(wǎng)絡(luò)決定的解碼網(wǎng)絡(luò)。以“中國(guó)”為例，對(duì)應(yīng)式(1)中的分子、分母識(shí)別網(wǎng)絡(luò)如圖2所示。

圖2 高斯后驗(yàn)概率分子、分母識(shí)別網(wǎng)絡(luò)

3.1 優(yōu)化概率空間中弧后驗(yàn)概率計(jì)算

(4)

式(1)中基于分子識(shí)別網(wǎng)絡(luò)的后驗(yàn)概率的計(jì)算公式為

(5)

3.2 優(yōu)化概率空間中狀態(tài)后驗(yàn)概率計(jì)算

在得到弧后驗(yàn)概率的計(jì)算結(jié)果后，狀態(tài)后驗(yàn)概率、高斯后驗(yàn)概率的計(jì)算基本與語(yǔ)音識(shí)別一致。由于在指定弧下，利用Viterbi方法[5-7]得到的狀態(tài)后驗(yàn)概率僅有0，1這2種值，因此，本文利用Viterbi算法計(jì)算狀態(tài)后驗(yàn)概率。

先將式(1)中分子、分母識(shí)別網(wǎng)絡(luò)中的每條弧切分至狀態(tài)，再計(jì)算每幀的狀態(tài)后驗(yàn)概率，如圖3所示。其中，ong[1]描述發(fā)音‘ong’的HMM的第1個(gè)有效狀態(tài)，ong[2]、ong[3]分別為第2、第3有效狀態(tài)。由Viterbi算法切分的狀態(tài)結(jié)果可知，在t時(shí)刻，狀態(tài)ong[2]的后驗(yàn)概率為1，狀態(tài)ong[1]、ong[3]的后驗(yàn)概率為0。

圖3 Viterbi算法中的弧狀態(tài)后驗(yàn)概率示意圖

(6)

利用概率空間中各HMM對(duì)待測(cè)語(yǔ)音的聲學(xué)特征Or,n進(jìn)行解碼。若弧i的第t幀狀態(tài)為s，則St(i,s,Or,n)=1，否則St(i,s,Or,n)=0。

3.3 優(yōu)化概率空間中高斯后驗(yàn)概率計(jì)算

在得到狀態(tài)后驗(yàn)概率的計(jì)算結(jié)果后，指定狀態(tài)下的高斯后驗(yàn)概率為當(dāng)前高斯的加權(quán)似然度占所有高斯的加權(quán)似然度之和的比例。

分母的高斯后驗(yàn)概率計(jì)算公式為

(7)

分子的高斯后驗(yàn)概率計(jì)算公式為

(8)

其中

3.4 基于優(yōu)化識(shí)別網(wǎng)絡(luò)的算法流程

基于優(yōu)化識(shí)別網(wǎng)絡(luò)的語(yǔ)音評(píng)測(cè)算法的實(shí)現(xiàn)流程如圖4所示。

圖4 優(yōu)化識(shí)別網(wǎng)絡(luò)語(yǔ)音評(píng)測(cè)算法流程

1)根據(jù)標(biāo)準(zhǔn)文本對(duì)考生語(yǔ)音進(jìn)行語(yǔ)音識(shí)別，得到音素級(jí)識(shí)別結(jié)果。

2)根據(jù)考生的朗讀文本將音素HMM模型拼接構(gòu)成強(qiáng)制匹配的分子識(shí)別網(wǎng)絡(luò)，同時(shí)生成一個(gè)無(wú)語(yǔ)法模型限制的音素循環(huán)識(shí)別網(wǎng)絡(luò)。

3)按上述后驗(yàn)概率計(jì)算公式對(duì)音素和整個(gè)語(yǔ)流進(jìn)行歸整，得到考生的發(fā)音質(zhì)量評(píng)價(jià)得分。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)配置

普通話水平測(cè)試系統(tǒng)評(píng)測(cè)單字朗讀、雙字詞朗讀以及篇章朗讀3部分。實(shí)驗(yàn)主要采用英國(guó)劍橋大學(xué)的HTK工具包[8]作為研究測(cè)試平臺(tái)，采用39維MFCC_0_D_A_Z聲學(xué)特征作為訓(xùn)練參數(shù)，采用上下文無(wú)關(guān)的聲韻母模型作為聲學(xué)模型，共計(jì)67個(gè)HMM，包括聲母、韻母、零聲母、靜音、短時(shí)停頓、填充模型，每種模型壓縮至平均16高斯。

4.2 實(shí)驗(yàn)數(shù)據(jù)庫(kù)

隨著普通話水平智能測(cè)試的推廣，全國(guó)各地的語(yǔ)音數(shù)據(jù)在數(shù)量上都有了極大的擴(kuò)充。為保證實(shí)驗(yàn)結(jié)果的普遍性，從全國(guó)各地普通話測(cè)試中心選擇有代表性的500份語(yǔ)音數(shù)據(jù)，共計(jì)約83 h，涵蓋普通話水平測(cè)試大綱中的全部字、詞、短文，每份數(shù)據(jù)都有專家的精細(xì)評(píng)分。

4.3 實(shí)驗(yàn)結(jié)果

由于機(jī)器評(píng)分與專家評(píng)分間的相關(guān)度體現(xiàn)了人機(jī)評(píng)分的一致程度，因此算法選擇人機(jī)相關(guān)度作為評(píng)價(jià)系統(tǒng)性能的指標(biāo)。人機(jī)相關(guān)度Corr計(jì)算公式為

(9)

實(shí)驗(yàn)采用對(duì)比法，在全概率空間、典型錯(cuò)誤概率空間分別考察后驗(yàn)概率對(duì)評(píng)分性能的影響。具體實(shí)驗(yàn)結(jié)果見表3。

表3 不同概率空間中后驗(yàn)概率算法評(píng)分性能

5 實(shí)驗(yàn)結(jié)論

本文從普通話發(fā)音的角度，針對(duì)對(duì)數(shù)后驗(yàn)概率算法中各HMM模型之間混淆率較大的不足，借鑒語(yǔ)音識(shí)別中的語(yǔ)言模型思想，從普通話的語(yǔ)言知識(shí)出發(fā)對(duì)算法的識(shí)別網(wǎng)絡(luò)進(jìn)行簡(jiǎn)化，進(jìn)一步優(yōu)化算法的概率空間，同時(shí)結(jié)合發(fā)音空間對(duì)后驗(yàn)概率的計(jì)算進(jìn)行研究。實(shí)驗(yàn)表明，概率空間的優(yōu)化不僅能夠提高系統(tǒng)評(píng)測(cè)模型的性能，同時(shí)由于概率空間音素個(gè)數(shù)遠(yuǎn)小于全音素概率空間，因此還能顯著減少原有算法的運(yùn)算量。

[1]WEI Si, LIU Qingsheng, HU Yu, et al. Automatic Mandarin Pronunciation Scoring for Native Learners with Dialect Accent [C] // Proceedings of Interspeech 2006. Pittsburgh, Pennsylvania: International Speech Communication Association, 2006: 1383-1386.

[2]Ge F P, Lu L, Yan Y H. Experimental Investigation of Mandarin Pronunciation Duality Assessment System[C] // International Symposium Computer Science and Society (ISCCS).Kota Kinabalu: [s.n.]，2011:235-239.

[3]WANG Renhua， LIU Qingfeng， WEI Si. Putonghua Proficiency Test and Evaluation [M]．[S.l.]:Advances in Chinese Spoken Language Processing，2006：407-429．

[4]宋欣橋.普通話水平測(cè)試員實(shí)用手冊(cè)[M].北京：商務(wù)印書館，2005：139-151.

[5]Liu Qingsheng, Si Wei, Yu Hu,et al. The Application of Phone Weight in Putonghua Pronunciation Quality Assessment [C]// The 5th International Symposium on Chinese Spoken Language Processing. Singapore :[s.n.],2006:603-608.

[6]Young S, Evermann G, Gales M. The Hidden Markov Model Toolkit [EB/OL]. (2005-10-20). http://htk.eng.cam.ac.uk/.

[7]Jang R. Audio Signal Processing and Recognition [EB/OL]. (2009-05-30). http://neural.cs.nthu.edu.tw/jang/books/audiSignalProcessing/.

[8] Young S , Kershaw D, Odell J , et al.The HTK Book :for HTK Version 3.0 [M]. Redmond :Microsoft Corporation, 2000:23-45.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡