張 峰,黃 超,戴禮榮
(1.中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系科大訊飛語音實(shí)驗(yàn)室,安徽合肥230027;2.微軟亞洲研究院,北京100080)
近年來,計(jì)算機(jī)輔助語言學(xué)習(xí)(Computer Assistant Language Learning,CALL)獲得了越來越廣泛的關(guān)注。在計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)中,給學(xué)習(xí)者提供一個整體說話水平評估是非常有幫助的。目前,這個方向已經(jīng)有了很多的研究[1-2]。除了話者的整體說話水平得分以外,提供一個更加詳細(xì)的具體的發(fā)音錯誤反饋,對于學(xué)習(xí)者的語言學(xué)習(xí)有更大的幫助。因此,本文專注于提高普通話的字發(fā)音錯誤自動檢測系統(tǒng)的性能研究。
現(xiàn)在的發(fā)音錯誤檢測方法的研究主要有兩大類。一類是基于語音學(xué)知識以及區(qū)分性特征的方法,例如Truong[3]利用時長、共振峰和基頻作為區(qū)分性的特征,Ito等[4]采用基于決策樹的多門限來檢測發(fā)音錯誤;另一類是基于統(tǒng)計(jì)語音識別框架的發(fā)音檢錯方法。在這兩類方法中,基于統(tǒng)計(jì)語音識別框架的檢測方法處于主流位置,本文采用此框架。基于此框架的很多研究集中于置信度標(biāo)準(zhǔn)的設(shè)置,其中Franco[5]采用基于隱馬爾科夫模型(Hidden Markov Model,HMM)的后驗(yàn)概率得分和基于高斯模型的似然比得分來檢測錯誤發(fā)音;Witt[2]采用了一種后驗(yàn)概率的變形方法——GOP(Goodness of Pronunciation)。
在基于統(tǒng)計(jì)語音識別框架的檢測方法中,除了研究更好的置信度度量外,通過改進(jìn)聲學(xué)模型的方法也是提高系統(tǒng)性能的有效途徑之一。最初用于自動語音識別(Automatic Speech Recognition,ASR)系統(tǒng)的話者自適應(yīng)技術(shù)能很好的改進(jìn)ASR系統(tǒng)的聲學(xué)模型。此技術(shù)對于發(fā)音檢測也同樣適用。但是考慮到自動語音識別和發(fā)音錯誤自動檢測系統(tǒng)的不同目的,本文采用了說話人自適應(yīng)訓(xùn)練(Speaker Adaptive Training,SAT)和選擇性最大似然線性回歸(Selective Maximum Likelihood Linear Regression,SMLLR)的說話人自適應(yīng)技術(shù),以適用于發(fā)音錯誤自動檢測問題。
雖然采用了以上的策略,發(fā)音錯誤自動檢測任務(wù)仍然是個巨大的挑戰(zhàn)。目前的發(fā)音錯誤自動檢測任務(wù)和與之類似的任務(wù)——說話人發(fā)音自動評分任務(wù),兩者的性能差距非常大,而后者的性能已經(jīng)能接近專家的水平[1]。一個主要的原因就是,對于發(fā)音錯誤自動檢測任務(wù),一般僅通過一個字的發(fā)音數(shù)據(jù)來做判斷;而對于說話人發(fā)音自動評分任務(wù),可以通過該說話人的很多個字的發(fā)音數(shù)據(jù)來生成一個得分。這提示我們?nèi)绻谡f話人的層次上檢測發(fā)音錯誤,將有效提高檢測的性能。為此,本文引入了說話人歸一化的方法。
本文具體組織如下:第二節(jié)介紹系統(tǒng)采用的普通話字發(fā)音質(zhì)量打分方法;第三節(jié)介紹通過說話人自適應(yīng)的方法來提高系統(tǒng)的聲學(xué)統(tǒng)計(jì)模型的檢錯性能;在第四節(jié)中,介紹了通過說話人歸一化的方法來改進(jìn)系統(tǒng)后端;第五節(jié)給出了各種方法的實(shí)驗(yàn)結(jié)果;最后是總結(jié)和展望。
本文基于統(tǒng)計(jì)語音識別框架,采用HMM統(tǒng)計(jì)模型來表示每個音素的標(biāo)準(zhǔn)發(fā)音。為了獲得某個測試音素的發(fā)音質(zhì)量,很多研究表明對數(shù)后驗(yàn)概率(Log-Posterior Probability,LPP)是個很好的參數(shù)。由于說話人特性的不同和信道的變化會導(dǎo)致輸入信號的頻譜不匹配,而該參數(shù)受頻譜變化的影響較小,能更加集中的反映發(fā)音質(zhì)量。
在實(shí)際的應(yīng)用中,由于聲學(xué)得分的動態(tài)范圍非常大,會導(dǎo)致 LPP值僅僅分布在幾個很窄的范圍內(nèi)。因此,需要把聲學(xué)得分做比例化處理,從而使得分具有可操作性。通過引入一個合適的比例化因子α,使得后驗(yàn)概率在0和1之間的分布更加均勻,經(jīng)過比例化的LPP值在本文中稱為比例化對數(shù)后驗(yàn)概率(Scaled Log-Posterior Probability,SLPP)。在一個基于HMM的語音識別器中,給定某個音素的觀察矢量O和它對應(yīng)的標(biāo)注qi,該音素的SLPP值可計(jì)算如下:
其中 L是維特比(Viterbi)解碼產(chǎn)生的網(wǎng)格(Lattice)中的路徑總數(shù),K是其中含有音素qi的路徑總數(shù),p(O|Ll)是網(wǎng)格中第l條路徑的似然比,p(O|)是網(wǎng)格中包含有qi的第k條路徑的似然比,p(qi)是音素qi的先驗(yàn)概率。
為了檢測普通話的字發(fā)音錯誤,首先要獲得每個音素的SLPP值。然后,每個字的得分就可以用其音素的SLPP值來做加權(quán)平均。由于普通話每個字一般都由聲母和韻母組成,則字的發(fā)音質(zhì)量得分可用下式表示:
其中wi和w f是聲母 qi和韻母q f,的權(quán)重。
為了改進(jìn)發(fā)音錯誤自動檢測系統(tǒng)的性能,除了改進(jìn)打分方法外,提高聲學(xué)模型的性能也很重要。本部分提出了兩個策略來獲得更好的聲學(xué)模型。在模型訓(xùn)練的時候,引入基于受限最大似然線性回歸(Constrained Maximum Likelihood Linear Regression,CMLLR)的SAT方法來進(jìn)行說話人歸一化,減少由于訓(xùn)練數(shù)據(jù)說話人特性不同而帶來的對模型參數(shù)的不可靠估計(jì);在測試時,引入最大似然線性回歸(Maximum Likelihood Linear Regression,MLLR)的技術(shù)來進(jìn)行說話人自適應(yīng),減少訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的不匹配。由于自動語音識別和發(fā)音錯誤自動檢測的目標(biāo)不一致,本文提出了選擇性最大似然線性回歸(SMLLR)技術(shù)。
【例4】(2018·福建中考·34)泡菜的制作工藝是我國悠久的食文化遺產(chǎn)之一。在制作泡菜過程中,應(yīng)控制亞硝酸鹽在一定濃度范圍內(nèi),以免對人體產(chǎn)生危害。興趣小組研究不同濃度食醋對泡白菜中亞硝酸鹽含量的影響,具體做法是:稱取等量白菜4份,每份均加入等量7%鹽水、鮮姜和辣椒,再加入食醋,調(diào)節(jié)料液的食醋濃度分別為0、0.3%、0.6%、0.9%。重復(fù)做3次。從泡菜制作第1天開始,每天測定其亞硝酸鹽含量,測定10天,結(jié)果如圖2所示。
為了估計(jì)HMM模型的參數(shù),訓(xùn)練數(shù)據(jù)通常需要包含大量的說話人。由于說話人特性的不同,導(dǎo)致說話人之間聲學(xué)特性的變化,從而影響模型參數(shù),尤其是方差。這不僅是自動語音識別系統(tǒng)產(chǎn)生錯誤的主要原因之一,也大大影響了發(fā)音錯誤自動檢測系統(tǒng)的性能。在說話人無關(guān)模型的訓(xùn)練中,基于SAT的說話人歸一化方法已經(jīng)證明可以有效的減少由于不同說話人的特性引發(fā)的交疊。SAT的方法通過最大似然準(zhǔn)則進(jìn)行線性變換,目的在于分離兩個過程,一個是說話人相關(guān)變化,另一個是語音信號的音素相關(guān)變化。主要有兩種實(shí)現(xiàn)SAT的方法,一個是不受限的要最大似然線性回歸[6],其均值和方差不相關(guān);另一個是受限的CMLLR[7],其均值 μ和方差∑的變換矩陣 A′是一致的。CMLLR的通常形式如下:
其中b′是偏移值??紤]到運(yùn)算量和性能[8],在我們的系統(tǒng)中采用了基于CMLLR的SAT方法。
在訓(xùn)練的時候,使用SAT的方法可以獲得說話人方差更小的模型。而在測試的時候,由于測試數(shù)據(jù)的說話人相關(guān)和語音學(xué)相關(guān)的變化,使得必須使用說話人自適應(yīng)技術(shù)來消除這種不匹配。在自動語音識別系統(tǒng)中,MLLR已經(jīng)證明是一種非常有效的方法來補(bǔ)償訓(xùn)練模型和測試數(shù)據(jù)的差異。對于發(fā)音錯誤自動檢測系統(tǒng),MLLR也是有效的。但是對這兩種系統(tǒng)使用MLLR技術(shù)有很大的不同。語音識別的目的是為了提高識別率,因此,語音識別中的說話人自適應(yīng)就需要盡可能的降低訓(xùn)練和測試數(shù)據(jù)的不匹配程度,無論它是由于說話人的特性還是由于說話人的錯誤發(fā)音引起的。而發(fā)音錯誤自動檢測的目的是判斷發(fā)音正確與否,因此,說話人自適應(yīng)的目的就是為了減少由于說話人特性帶來的不匹配,而不是由于說話人發(fā)音錯誤帶來的不匹配。這里我們采用兩個方法來實(shí)現(xiàn)這個目的。一個方法是在MLLR的時候利用一個全局變換矩陣,全局變換矩陣帶有更多的說話人特性和更少的音素相關(guān)的變化,除此以外,這個全局變換矩陣應(yīng)該盡可能少的用說話人錯誤發(fā)音數(shù)據(jù)來產(chǎn)生。因此,本文提出用自動挑選的發(fā)音水平高的數(shù)據(jù)來做MLLR自適應(yīng)。在獲得一個說話人的所有字的SLPP得分后,高分的字則被近似認(rèn)為是好的,發(fā)音錯誤少的。在這些被挑選的字?jǐn)?shù)據(jù)上做MLLR自適應(yīng),我們稱為選擇性的MLLR(SMLLR),它可以有效的降低自適應(yīng)中錯誤發(fā)音帶來的影響。
圖1表示了利用SAT和SMLLR來改進(jìn)聲學(xué)模型的方法。初始(步驟0),我們有一個性別相關(guān)(Gender Dependant,GD)的模型作為基線模型。在步驟1中,采用SAT的方法建立一個更加緊湊的GD+SAT的模型。步驟2,按照公式(2)對一個說話人的每個字計(jì)算其SLPP得分。步驟3,得分高的字被選中作為自適應(yīng)訓(xùn)練數(shù)據(jù)。步驟4中利用這些數(shù)據(jù)來做MLLR自適應(yīng)。在步驟5中,通過GD+SAT+SMLLR的模型和合適的門限選出錯誤發(fā)音。
圖1 改進(jìn)聲學(xué)模型的流程圖
近年來,對發(fā)音錯誤自動檢測的任務(wù),已經(jīng)有很多研究,提出了很多方法。但是,發(fā)音錯誤自動檢測系統(tǒng)離實(shí)際應(yīng)用還有很大的差距,該任務(wù)目前仍然是個巨大的挑戰(zhàn)。同時我們發(fā)現(xiàn),說話人整體發(fā)音自動評分任務(wù)與該任務(wù)非常類似,其目標(biāo)是通過一個說話人的幾十個甚至上百個字的發(fā)音,來給該說話人的發(fā)音水平評分。研究表明,此任務(wù)的性能已經(jīng)能接近專家的水平,可以達(dá)到實(shí)用[9]。兩者性能差距的一個主要原因就是,對于發(fā)音錯誤自動檢測任務(wù),我們僅通過一個字的數(shù)據(jù)來做判斷;而對于說話人整體發(fā)音自動評分任務(wù),我們可以通過該說話人的很多的數(shù)據(jù)來生成一個得分。信息量的差距很大。這提示了我們可以在說話人的層次上檢測發(fā)音錯誤。為此,本文引入了說話人歸一化的方法,將說話人整體發(fā)音得分作為一個新的判斷因素。
引入說話人整體發(fā)音得分除了可以提高信息量外,對于不同發(fā)音水平的說話人錯誤發(fā)音,專家的評價標(biāo)準(zhǔn)也不一樣。對于整體水平高的說話人,專家要求更嚴(yán)格,而對于整體水平低的說話人,專家要求較放松。我們將40個測試說話人按照其發(fā)音水平從1到4依次分為4個等級(1為最好,4為最差),計(jì)算對每個等級的說話人,專家認(rèn)為的正確發(fā)音和錯誤發(fā)音的SLPP得分均值和方差,結(jié)果如表1所示。
表1 不同等級說話人正確和錯誤發(fā)音得分
從該表中可以發(fā)現(xiàn)發(fā)音最好的說話人的錯誤發(fā)音得分甚至要好于發(fā)音最差的說話人的正確發(fā)音得分??梢钥闯?對于不同發(fā)音水平的說話人,專家的評判標(biāo)準(zhǔn)也是不一致的。因此,引入說話人整體發(fā)音得分作為一個新的參數(shù)是必要的。
在本文的系統(tǒng)中,使用一個合適的門限來判斷正確和錯誤的發(fā)音。由4.1可知,不同水平的說話人的判決門限應(yīng)該不一樣,因此,文中用說話人的整體得分來歸一化其每一個字的得分,如公式(5)所示:
式中的分子為一個字的原始得分,分母為說話人的得分,其中N為該說話人所說的字的個數(shù)。這里用的歸一化方法雖然還是一種很簡單的方法,但是后文的實(shí)驗(yàn)結(jié)果表明該方法的有效性。以后可以考慮采用更加復(fù)雜的方法。
普通話水平測試(Putonghua Shuiping Ceshi,PSC)是中國官方測試說話人普通話發(fā)音水平的考試。我們設(shè)計(jì)的實(shí)驗(yàn)數(shù)據(jù)庫,與 PSC的標(biāo)準(zhǔn)相一致。
數(shù)據(jù)庫中有 140個本國說話人(70個男性,70個女性),其中100個(50個男性,50個女性)發(fā)音標(biāo)準(zhǔn)的說話人用來訓(xùn)練標(biāo)準(zhǔn)發(fā)音模型,其余的40個說話人的發(fā)音水平從很好到很差,作為測試數(shù)據(jù)。每個說話人說兩題,每題包含4個部分:100個單字,由100個單字組成的49個詞,一段閱讀以及一段主題演講。100個標(biāo)準(zhǔn)發(fā)音說話人的前兩個部分用來訓(xùn)練單音素(mono-phone)模型。剩下的40個說話人的第一部分作為測試數(shù)據(jù)進(jìn)行發(fā)音錯誤檢測實(shí)驗(yàn)。
為了獲得錯誤發(fā)音的參考,我們邀請了三位獲得國家認(rèn)證的PSC評分專家來為每個說話人的每個字的發(fā)音標(biāo)準(zhǔn)與否做標(biāo)注。任何一個字只要有一個專家認(rèn)為發(fā)音有缺陷或者發(fā)音錯誤,我們就認(rèn)為該字發(fā)音錯誤。實(shí)驗(yàn)中,我們共有來自40個說話人的8000個字,其中錯誤發(fā)音有1746個。數(shù)據(jù)的專家一致性方面,兩個專家檢錯一致的發(fā)音占總錯誤發(fā)音的36%,三個專家檢錯一致的發(fā)音占總錯誤發(fā)音的13%。
我們知道,普通話是一種帶調(diào)語言,調(diào)對于普通話的發(fā)音很重要,例如方言發(fā)音者很容易發(fā)錯調(diào)。研究表明,F0相關(guān)的特征能夠有效地提高調(diào)的識別率,但是F0不連續(xù)一直是個很大的問題。
最早由 Tokuda[10]提出的多空間分布(Multispace Distribution,MSD)方法,能夠有效地處理F0不連續(xù)的問題,提高帶調(diào)語言的識別率和檢測調(diào)型錯誤[11]。因此,在我們的實(shí)驗(yàn)中采用了包含有184個單音素的MSD-HMM模型。聲學(xué)模型的特征由39維頻譜特征和5維F0特征組成。
對于任何檢測任務(wù),都有兩種錯誤類型。在發(fā)音錯誤自動檢測任務(wù)中,任何發(fā)音有缺陷或者有錯誤的都是我們的檢測目標(biāo)。因此,我們定義了兩種度量標(biāo)準(zhǔn),正確率(Precision)和召回率(Recall)。通過設(shè)置不同的門限,一個目標(biāo)字就可以判斷為正確或錯誤的發(fā)音。Precision為檢測出來的真正的錯誤發(fā)音占檢測出來的錯誤發(fā)音總數(shù)的比值;Recall為檢測出來的錯誤發(fā)音占所有真正錯誤發(fā)音數(shù)目的比值。后文中采用正確率—召回率曲線表示實(shí)驗(yàn)結(jié)果。
關(guān)于實(shí)驗(yàn)中聲母和韻母的權(quán)重問題,我們測試了平均加權(quán)、按時長加權(quán)和線性搜索最優(yōu)權(quán)重的方法。其中,線性搜索最優(yōu)權(quán)重的效果最好。通過測試集和開發(fā)集的驗(yàn)證,得出聲母和韻母的權(quán)重為1∶3較為合適。
5.3.1 SAT的性能
作為一種有效的說話人歸一化方法,基于CMLLR的SAT技術(shù)能夠獲得一個帶有更少說話人變更的標(biāo)準(zhǔn)模型,它在發(fā)音錯誤自動檢測任務(wù)中的性能如圖2所示??梢钥吹?在中部和低部Recall區(qū)域,SAT可以提高系統(tǒng)的性能。
圖2 SAT方法的性能
5.3.2 SMLLR的性能
在訓(xùn)練時采用SAT能夠改進(jìn)聲學(xué)模型,在測試時,MLLR的說話人自適應(yīng)技術(shù)能夠消除訓(xùn)練模型和測試數(shù)據(jù)的不匹配。實(shí)驗(yàn)中的M LLR采用了一個全局變換矩陣以反映說話人特性而忽略掉其發(fā)音變異。為了減少自適應(yīng)數(shù)據(jù)中錯誤發(fā)音的影響,采用了SM LLR技術(shù)。其具體實(shí)現(xiàn)細(xì)節(jié)如圖1所示。
我們用5.3.1節(jié)中的SLPP得分較高的字作為自適應(yīng)訓(xùn)練數(shù)據(jù)。實(shí)驗(yàn)中,大約用每個說話人40%的字用來做自適應(yīng),這個值實(shí)際上可按照說話人的水平來動態(tài)調(diào)整。SMLLR的性能如圖3所示,在低Recall區(qū)域,SMLLR能夠有效的增加Precision的值。從圖中可發(fā)現(xiàn),單純使用MLLR的性能沒有變好,因?yàn)樗矔e誤發(fā)音帶來的不匹配。
圖3 SMLLR方法的性能
5.3.3 后端說話人得分歸一化的性能
由于單個字的信息量過少和不同水平發(fā)音人評價等級不一致這兩個原因,我們引入了說話人整體打分的特征,并做了一個簡單的說話人得分歸一化處理,其效果如圖4所示??梢钥闯?該方法極大地改進(jìn)了系統(tǒng)的性能。
圖4 后端說話人得分歸一化方法的性能
以上所有實(shí)驗(yàn)的結(jié)果總結(jié)在表2中。由于我們認(rèn)為把正確發(fā)音誤判為錯誤發(fā)音對用戶的影響會遠(yuǎn)遠(yuǎn)大于錯誤發(fā)音沒有檢測出來的影響,所以,我們對正確率的值會更關(guān)注。因此,表中顯示了在相同召回率的情況下正確率的變化??梢钥吹?我們提出的方法一步步地提高了發(fā)音錯誤自動檢測系統(tǒng)的性能。
表2 各種方法的性能總結(jié)
本文從兩個方面提出了改進(jìn)普通話的發(fā)音錯誤自動檢測系統(tǒng)性能的方法:一方面用SAT和SMLLR方法來提高系統(tǒng)聲學(xué)模型的性能;另一方面引入說話人整體發(fā)音質(zhì)量來做說話人歸一化,以提高后端性能。實(shí)驗(yàn)結(jié)果驗(yàn)證了這些方法的可靠性,召回率為30%時,正確率從45.8%提升到了53.6%,召回率為10%時,正確率從64.6%提升到了79.9%。雖然系統(tǒng)性能有了很大的提高,但是離實(shí)際使用還有差距,其原因除了算法方面外,專家標(biāo)注的一致性不高和錯誤發(fā)音的樣本數(shù)不多也有影響。下一步考慮將更多的說話人信息融入到單個字的發(fā)音檢錯里面去。
[1]Zheng,J.,Huang,C.,Chu,M.,Soong,F.K.,Ye,W.,Generalized Segment Posterior Probability for Automatic Mandarin Pronunciation Evaluation[C]//Proc.ICASSP,Hawaii,USA,2007:201-204.
[2]Witt,S.,M,Use of Speech recognition in Computer assisted Language Learning[D].PhD Thesis,University of Cambridge,1999.
[3]Truong,K.,Automatic Pronunciation Error Detection in Dutch as a Second Language:an Acoustic-Phonetic Approach[D].Master's thesis,Utrecht University,Netherlands,2004.
[4]Ito,A.,Lim,Y.,Suzuki,M.,Makino,S.,Pronunciation Error Detection Method based on Error Rule Clustering using a Decision Tree[C]//Proc.EuroSpeech,2005:173-176.
[5]Franco,H.,Neumeyer,L.,Kim,Y.,Ronen,O.,Bratt,H.,Automatic Detection of phone-level mispronunciation for language learning[C]//Proc.Eurospeech,1999,2,851-854.
[6]Anastasakos,T.,McDonough,J.,Schwartz,R.&Makhoul,J.A compact model for speaker-adaptive training[C]//Proc.ICSLP, Philadelphia,1996:1137-1140.
[7]Giuliani,D.,Gerosa,M.,Brugnara,F.,Improved automatic speech recognition through speaker normalization[J].computer speech and language,2006,20,107-123.
[8]Gales,M.J.F,Maximum likelihood linear transformations for HMM-based speech recognition[J],Computer Speech and Language,1998,12,75-98.
[9]魏思,劉慶升,胡郁,王仁華,普通話水平測試電子化系統(tǒng)[J],中文信息學(xué)報,89-96,2006。
[10]Tokuda,K.,Masuko,T.,Miyazaki,N.,and Kobayashi,T.,Multi-space Probability Distribution HMM[J],IEICE Trans.Inf.&Syst.,E85-D(3):pp.455-464,2002.
[11]Zhang,L.,Huang,C.,Chu,M.,Soong,F.K.Automatic detection of tonemispronunciation in Mandarin Chinese[C]//Proc.ISCSLP,LNAI 4272,Springer,2006:590-601.