洪世勇
(九江職業(yè)大學(xué)信息工程學(xué)院,江西 九江 332000)
普通話水平測(cè)試中,語音測(cè)評(píng)是非常重要的內(nèi)容。隨著科學(xué)技術(shù)發(fā)展及經(jīng)驗(yàn)的總結(jié),目前前三題的字、詞、文章測(cè)試中,已成功實(shí)現(xiàn)機(jī)器評(píng)分,并取得良好效果。然而第四題測(cè)評(píng)依然采用人工方式,不僅工作量大,而且受評(píng)分人員主觀因素影響,可能有失考試的公正性[1]。為改進(jìn)這些不足,本文結(jié)合第四題測(cè)評(píng)的具體指標(biāo),嘗試采用基于深度神經(jīng)網(wǎng)絡(luò)的普通話智能評(píng)測(cè)關(guān)鍵技術(shù),以實(shí)現(xiàn)普通話水平測(cè)試中第四題測(cè)評(píng)的智能化,并分析其應(yīng)用效果,希望能為實(shí)際工作開展提供啟示。
普通話水平測(cè)試是國(guó)內(nèi)針對(duì)普通話水平等級(jí)的唯一權(quán)威考試。該考試采用口試方式,一共包括四個(gè)題目,前三題分別是朗讀給定的字、詞、文章,屬于文本相關(guān)的口語評(píng)測(cè),目前已成功實(shí)現(xiàn)機(jī)器評(píng)分,且機(jī)器評(píng)測(cè)與人工打分取得良好的一致性,已在全國(guó)范圍內(nèi)得到廣范推廣和應(yīng)用,其客觀性、公正性和權(quán)威性得到認(rèn)可。
然而,普通話水平測(cè)試第四題屬于給定話題的自由表述,由于機(jī)器無法準(zhǔn)確知曉考生表述的內(nèi)容,使該任務(wù)成為文本無關(guān)的口語評(píng)測(cè)任務(wù)。就目前實(shí)際而言,要想對(duì)該任務(wù)實(shí)現(xiàn)完全的機(jī)器自動(dòng)評(píng)分,依然存在較大難度。再加上投入的研究較少,實(shí)踐經(jīng)驗(yàn)不足,目前該題仍采用人工評(píng)分方式,這樣不僅需投入大量的人力,增加工作人員勞動(dòng)量,而且人工評(píng)分容易受周圍環(huán)境、工作人員心情、疲勞等因素影響,可能使評(píng)分有失公正性。
為改進(jìn)這些不足,確保第四題評(píng)分的客觀性與公正性,本文擬采用基于深度神經(jīng)網(wǎng)絡(luò)的普通話智能評(píng)測(cè)關(guān)鍵技術(shù),以實(shí)現(xiàn)第四題測(cè)評(píng)的智能化,減少工作人員勞動(dòng)量,確保評(píng)分結(jié)果的客觀與公正[2]。
為改進(jìn)人工評(píng)分的不足,確保測(cè)評(píng)結(jié)果的客觀與工作,本嘗試采用智能測(cè)評(píng)系統(tǒng)對(duì)考生進(jìn)行測(cè)評(píng),其關(guān)鍵技術(shù)和思路如下。
本研究所要實(shí)現(xiàn)的目標(biāo)是,實(shí)現(xiàn)普通話水平測(cè)試的“自由說話”項(xiàng)的智能評(píng)測(cè)。研究的關(guān)鍵技術(shù)是,深度神經(jīng)網(wǎng)絡(luò)框架深度神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)框架的結(jié)合;基于深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型框架的普通話語音識(shí)別聲學(xué)模型構(gòu)建;基于深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型框架的普通話發(fā)音錯(cuò)誤檢測(cè)算法;普通話智能評(píng)測(cè)系統(tǒng)開發(fā)。在研究分析中構(gòu)建深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型框架,計(jì)算對(duì)數(shù)后驗(yàn)概率。同時(shí)采用深度神經(jīng)網(wǎng)絡(luò)-語言模型對(duì)語音識(shí)別結(jié)果進(jìn)行重估計(jì),提升語音識(shí)別率,應(yīng)用多語種-神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)考生的方言口音進(jìn)行評(píng)估。
本研究將深度神經(jīng)網(wǎng)絡(luò)引入普通話水平測(cè)試自由說話評(píng)測(cè)任務(wù),用深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型混合建模方法取代傳統(tǒng)的混合高斯模型-隱馬爾科夫模型(GMM-HMM)建模方法,以彌補(bǔ)原模型的規(guī)模龐大、需要海量訓(xùn)練數(shù)據(jù)、訓(xùn)練效率低下、難于以并行方式快速訓(xùn)練等不足。
根據(jù)普通話水平測(cè)試中,目前還無法對(duì)考生在沒有文字憑借的“自由說話”項(xiàng)目上進(jìn)行機(jī)器評(píng)判的不足,研究過程中,將文本相關(guān)口語評(píng)測(cè)中,衡量發(fā)音標(biāo)準(zhǔn)程序和流暢程度的比較成熟的方法應(yīng)用于實(shí)際的文本無關(guān)測(cè)試中,以實(shí)現(xiàn)普通話水平測(cè)試自由說話項(xiàng)的機(jī)器評(píng)測(cè)任務(wù)。具體來說,普通話水平測(cè)試自由說話項(xiàng)的機(jī)器評(píng)測(cè)流程如圖1所示。
圖1 普通話水平測(cè)試自由說話項(xiàng)的機(jī)器評(píng)測(cè)流程
在具體應(yīng)用過程中,由于沒有給定文本,因而要想實(shí)現(xiàn)文本無關(guān)的普通話水平測(cè)試自由說話項(xiàng)的機(jī)器評(píng)測(cè),有必要在前端進(jìn)行完整的大詞匯量連續(xù)語音識(shí)別。通常以一遍解碼的識(shí)別結(jié)果,將其作為文本相關(guān)任務(wù)中的參考文本。然后計(jì)算此文本相對(duì)發(fā)音矢量的后驗(yàn)概率,在此后驗(yàn)概率基礎(chǔ)的之上,再計(jì)算各項(xiàng)評(píng)測(cè)特征及這些特征的預(yù)測(cè)機(jī)器分。從而對(duì)考生真實(shí)發(fā)音的標(biāo)準(zhǔn)程度、詞匯語法使用的規(guī)范程度、發(fā)音的流暢程度進(jìn)行評(píng)價(jià)[3],讓測(cè)評(píng)結(jié)果更加客觀、公正。
普通話水平測(cè)試第四題一共40分,主要從四個(gè)方面評(píng)價(jià)考生表述的內(nèi)容。第一項(xiàng)是語音標(biāo)準(zhǔn)程度,25分,主要測(cè)評(píng)語音發(fā)音錯(cuò)誤次數(shù)以及方言的明顯程度。第二項(xiàng)是自然流暢程度,5分,主要測(cè)評(píng)語音表達(dá)是否流暢,口語化程度如何,語調(diào)是否生硬。第三項(xiàng)是詞匯語法規(guī)范程度,10分,主要測(cè)評(píng)用詞和語法是否存在不規(guī)范現(xiàn)象。第四項(xiàng)是扣分項(xiàng),根據(jù)考生有效表述時(shí)長(zhǎng)不足三分鐘酌情扣分。根據(jù)這些測(cè)評(píng)指標(biāo)和要求,通過基于深度神經(jīng)網(wǎng)絡(luò)的普通話智能評(píng)測(cè)關(guān)鍵技術(shù)的應(yīng)用,構(gòu)建并使用相應(yīng)的模型,同時(shí)分析其應(yīng)用效果。
語音標(biāo)準(zhǔn)程度是普通話水平測(cè)試第四題的重要內(nèi)容,分值達(dá)25分。為更好反映考生真實(shí)發(fā)音的標(biāo)準(zhǔn)程度,研究中設(shè)計(jì)并使用基于深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型的語音識(shí)別模型,以更好識(shí)別考生發(fā)音的錯(cuò)誤,評(píng)估考生發(fā)音的方言程度。語音識(shí)別是將語音轉(zhuǎn)化為文字的過程,本質(zhì)上是對(duì)語音信號(hào)的解碼問題。目前主流的聲學(xué)模型建模通常采用隱馬爾科夫模型,由觀測(cè)到的矢量、可能的狀態(tài)集合、狀態(tài)轉(zhuǎn)移矩陣、狀態(tài)輸出概率密度分布和初始狀態(tài)的概率分布五部分組成,它的三個(gè)最關(guān)鍵的問題是評(píng)估問題、解碼問題和訓(xùn)練問題[4]。
一個(gè)包含有2個(gè)隱含層的深度神經(jīng)網(wǎng)絡(luò)如圖2所示,將深度神經(jīng)網(wǎng)絡(luò)用于隱馬爾科夫模型聲學(xué)模型建??蚣埽詈蟮玫缴疃壬窠?jīng)網(wǎng)絡(luò)-隱馬爾科夫聲學(xué)模型框架結(jié)構(gòu)圖。研究過程中,通過公式可將深度神經(jīng)網(wǎng)絡(luò)輸出的后驗(yàn)概率轉(zhuǎn)化為隱馬爾科夫模型框架下所需的狀態(tài)輸出條件概率,沿用隱馬爾科夫模型解碼。
圖2 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
在完成模型框架結(jié)構(gòu)圖的前提下,接下來最重要的任務(wù)是,如何計(jì)算語音評(píng)測(cè)任務(wù)中最能反映發(fā)音好壞性能的特征。研究中,以識(shí)別器一遍解碼的結(jié)果作為參考文本。為保證結(jié)果的客觀與公正,首先對(duì)一句話內(nèi)所有音素的后驗(yàn)概率取平均值,再對(duì)一段語音的所有句子取平均值,最終得到該段語音的后驗(yàn)概率特征的估計(jì)值。
1.較為準(zhǔn)確地識(shí)別考生本身發(fā)音的錯(cuò)誤
普通話水平測(cè)試第四題的評(píng)分標(biāo)準(zhǔn)中,對(duì)發(fā)音標(biāo)準(zhǔn)程度的評(píng)分有詳細(xì)規(guī)定,例如,“語音錯(cuò)誤在10次以下,方言較明顯,扣5分、6分”。試驗(yàn)研究表明,深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫聲學(xué)模型可在一定程度上反映發(fā)音的標(biāo)準(zhǔn)程度,且考生發(fā)音錯(cuò)誤的個(gè)數(shù)與最終評(píng)分具有相關(guān)性。
同時(shí)為較好地識(shí)別考生本身發(fā)音的錯(cuò)誤,研究中引入基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型,循環(huán)神經(jīng)網(wǎng)絡(luò)能將當(dāng)前時(shí)刻隱含層的輸出反饋至下一時(shí)刻,并與下一時(shí)刻描述單詞信息的矢量一起,組合成新的輸入,再進(jìn)行傳播。由此可見,隱含層的輸出保留該句話的歷史信息,有利于更加客觀、準(zhǔn)確地評(píng)價(jià)考生發(fā)音的好壞。
2.借助多語種深度神經(jīng)網(wǎng)絡(luò)方法,初步估算考生發(fā)音的方言程度
研究表明,在小語種測(cè)評(píng)過程中,多語種深度神經(jīng)網(wǎng)絡(luò)模型十分有效。普通話水平測(cè)試時(shí),部分考生往往存在方言口音,進(jìn)而降低發(fā)音質(zhì)量,導(dǎo)致成績(jī)不理想,專家評(píng)分時(shí)也會(huì)重點(diǎn)關(guān)注學(xué)生的方言口音程度。研究中通過收集真實(shí)的方言數(shù)據(jù),將其聚集在深度神經(jīng)網(wǎng)絡(luò)輸出層,并引入方言數(shù)據(jù)似然度得分,以衡量考生發(fā)音的方言程度,具體的評(píng)估流程如圖3所示。
圖3 多語種深度神經(jīng)網(wǎng)絡(luò)用于方言程度評(píng)估結(jié)構(gòu)圖
試驗(yàn)表明,采用這種方式,能較好地估算考生發(fā)音的方言程度,且與人工評(píng)分相匹配,這就進(jìn)一步證明該方法是可行的。
以前在評(píng)價(jià)考生發(fā)音流暢程度時(shí),通常直接從識(shí)別結(jié)果中獲取,但信息準(zhǔn)確度不足,難以準(zhǔn)確評(píng)價(jià)考生語音表述不連貫現(xiàn)象。為改進(jìn)這種不足,引入條件隨機(jī)場(chǎng)訓(xùn)練分句模型,以科學(xué)確定合適的句子邊界信息,獲得更加準(zhǔn)確的語速特征表述,準(zhǔn)確判定考生發(fā)音的流暢程度[5]。條件隨機(jī)場(chǎng)訓(xùn)練分句模型一般被看作是條件化的隱馬爾科夫模型,如圖4所示。
圖4 條件隨機(jī)場(chǎng)模型簡(jiǎn)介
試驗(yàn)研究中,將該模型用來評(píng)價(jià)考生表述的流程程度,并與人工評(píng)分的相關(guān)度進(jìn)行對(duì)比。結(jié)果表明,該模型測(cè)評(píng)得分與人工評(píng)分的相關(guān)度得到提升,利用該模型計(jì)算的語速特征,也更能準(zhǔn)確地反映考生發(fā)音的流程程度。
矢量空間模型是描述文本的簡(jiǎn)單而又經(jīng)典的方法,考生詞匯語法使用的規(guī)范程度也是普通話水平測(cè)試第四題的重要內(nèi)容。研究中應(yīng)用矢量空間模型來建模,并將該模型的識(shí)別結(jié)果與人工評(píng)分進(jìn)行線性回歸,得出回歸系數(shù),判定該模型評(píng)分的準(zhǔn)確度。按照該思路,得出的應(yīng)用矢量空間模型求得的反映詞匯語法使用標(biāo)準(zhǔn)程度的流程圖如圖5所示。
圖5 應(yīng)用矢量空間模型求得的反映詞匯語法使用標(biāo)準(zhǔn)程度的流程圖
在明確試驗(yàn)流程的前提下,接下來還要對(duì)考生陳述的內(nèi)容進(jìn)行離題檢測(cè),判定考生所說內(nèi)容是否偏離給定的主題。研究中首先按照?qǐng)D5的方法,求得機(jī)器分特征與人工分相關(guān)度,然后進(jìn)行離題檢測(cè)。同時(shí)采用線性回歸方法獲取機(jī)器的最終評(píng)分,并在測(cè)試集上預(yù)測(cè)機(jī)器評(píng)分[6]。在完成這些工作的基礎(chǔ)上,比較人工評(píng)分與機(jī)器評(píng)分的相關(guān)度,以衡量整個(gè)系統(tǒng)的綜合性能。在此次測(cè)評(píng)數(shù)據(jù)集的3 500份數(shù)據(jù)中,最終得到的機(jī)器評(píng)分與人工評(píng)分的相關(guān)度為0.757,該結(jié)果的準(zhǔn)確性基本能為大家所接受。
通過將深度神經(jīng)網(wǎng)絡(luò)引入普通話水平測(cè)試自由說話評(píng)測(cè)任務(wù),設(shè)計(jì)使用深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型的語音識(shí)別模型、矢量空間模型、條件隨機(jī)場(chǎng)訓(xùn)練分句模型。結(jié)果表明,通過該技術(shù)和模型的應(yīng)用,在智能化測(cè)評(píng)過程中,能較好地反映考生真實(shí)發(fā)音的標(biāo)準(zhǔn)程度,較為準(zhǔn)確地評(píng)估考生詞匯語法使用的規(guī)范程度,更加精準(zhǔn)地判定考生發(fā)音的流暢程度。并且驗(yàn)證表明,機(jī)器評(píng)分與人工評(píng)分的相關(guān)度為0.757,其結(jié)果準(zhǔn)確性能夠?yàn)榇蠹宜邮?。同時(shí)也表明,它的應(yīng)用在一定程度上也確保第四題評(píng)分的客觀性與公正性,該技術(shù)具有推廣和應(yīng)用的空間。