国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的中學(xué)生英語(yǔ)口語(yǔ)自動(dòng)評(píng)測(cè)技術(shù)

2018-08-02 03:17羅德安夏林中張春曉王立新
關(guān)鍵詞:音素后驗(yàn)聲學(xué)

羅德安,夏林中,張春曉,王立新

(1. 深圳信息職業(yè)技術(shù)學(xué)院人工智能技術(shù)應(yīng)用工程實(shí)驗(yàn)室,廣東 深圳 518172;2. 深圳市海云天科技股份有限公司創(chuàng)新研究院,廣東 深圳 518057)

引言

隨著計(jì)算機(jī)自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)技術(shù)的發(fā)展,基于ASR的口語(yǔ)自動(dòng)評(píng)測(cè)技術(shù)(Automatic Scoring)成為語(yǔ)音人工智能技術(shù)的一個(gè)重要應(yīng)用[1-3]。近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)結(jié)合傳統(tǒng)的隱馬爾可夫模型(Hidden Markov Model,HMM)在語(yǔ)音識(shí)別上取得的巨大成功,基于DNN的口語(yǔ)評(píng)測(cè)技術(shù)備受關(guān)注,已經(jīng)成為計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(Computer-Assisted Language Learning, CALL)領(lǐng)域的主流研究方向。隨著外語(yǔ)口語(yǔ)自動(dòng)評(píng)分技術(shù)可靠性的不斷提高,機(jī)器評(píng)分不僅僅廣泛應(yīng)用于學(xué)生平時(shí)的口語(yǔ)練習(xí),近年來(lái)在升學(xué)和資格考試等相關(guān)考試中也得到了采用[1-2]。

在實(shí)際的大規(guī)??谡Z(yǔ)考試環(huán)境中,相對(duì)于實(shí)驗(yàn)室里可控制條件,考場(chǎng)音頻因?yàn)樵O(shè)備的多樣化、多人同時(shí)說(shuō)話、考場(chǎng)實(shí)際狀況等因素,不可避免的帶來(lái)不穩(wěn)定的噪音干擾。此外,目前主流的外語(yǔ)口語(yǔ)評(píng)分技術(shù),是通過(guò)大規(guī)模母語(yǔ)說(shuō)話人的語(yǔ)音數(shù)據(jù)建立用于描述正確發(fā)音概率分布的聲學(xué)模型(Acoustic model),對(duì)非母語(yǔ)的考生錄音進(jìn)行語(yǔ)音識(shí)別并計(jì)算代表發(fā)音流利度的后驗(yàn)概率,以及其它跟發(fā)音和語(yǔ)言運(yùn)用能力相關(guān)的指標(biāo)特征量作為機(jī)器對(duì)考生音頻進(jìn)行評(píng)分和診斷的基本依據(jù)。然而,聲學(xué)模型訓(xùn)練使用的海量母語(yǔ)說(shuō)話人語(yǔ)音數(shù)據(jù)與本研究口語(yǔ)評(píng)測(cè)對(duì)象的中學(xué)生的音頻數(shù)據(jù)相比,在說(shuō)話人的年齡構(gòu)成、說(shuō)話習(xí)慣、錄音條件等存在著各種差異,會(huì)造成語(yǔ)音識(shí)別和評(píng)分性能的降低。在語(yǔ)音識(shí)別領(lǐng)域,這種模型和測(cè)試數(shù)據(jù)之間的不匹配(mismatch)現(xiàn)象可以通過(guò)說(shuō)話人及環(huán)境自適應(yīng)(Speaker and environment adaptation)來(lái)提高識(shí)別精度。而在基于ASR的口語(yǔ)評(píng)測(cè)領(lǐng)域,本文第一作者做了大量的研究, 取得了明顯的效果[3-4]。

過(guò)去的研究主要針對(duì)公開(kāi)數(shù)據(jù)集或?qū)嶒?yàn)室等限定環(huán)境下的錄音數(shù)據(jù),針對(duì)外語(yǔ)學(xué)習(xí)者的朗讀(Reading aloud)、影隨跟讀(Shadowing)、英語(yǔ)配音(Dubbing)等各種外語(yǔ)口語(yǔ)練習(xí)方法的學(xué)習(xí)者語(yǔ)音進(jìn)行自動(dòng)評(píng)測(cè),成果發(fā)表在INTERSPEECH等語(yǔ)音界頂級(jí)國(guó)際會(huì)議中[5-7],并應(yīng)用在日本、澳大利亞及中國(guó)的大學(xué)和中學(xué)英語(yǔ)口語(yǔ)教學(xué)中。近年來(lái),最前沿的語(yǔ)音技術(shù)應(yīng)用到了大規(guī)??谡Z(yǔ)考試中,如2017-2018年,口語(yǔ)評(píng)測(cè)技術(shù)在浙江省數(shù)市的中考、深圳市高三英語(yǔ)質(zhì)量調(diào)研統(tǒng)一考試等大規(guī)??荚囍蝎@得了成功的應(yīng)用,取得了良好的社會(huì)和經(jīng)濟(jì)效益[8]。

本文基于深度學(xué)習(xí)的語(yǔ)音識(shí)別及口語(yǔ)評(píng)測(cè)基本原理,介紹了中學(xué)生英語(yǔ)口語(yǔ)考試自動(dòng)評(píng)測(cè)技術(shù)上的最新研究。通過(guò)合作企業(yè)考試系統(tǒng)實(shí)際采集的大規(guī)模統(tǒng)一考試音頻數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),驗(yàn)證了改良算法的有效性。

1 口語(yǔ)自動(dòng)評(píng)測(cè)原理和算法

1.1 基于深度學(xué)習(xí)的語(yǔ)音識(shí)別

深度學(xué)習(xí)在語(yǔ)音識(shí)別中的應(yīng)用,并沒(méi)有改變語(yǔ)音識(shí)別基于HMM模型的基本架構(gòu)。在當(dāng)前最為流行的深度神經(jīng)網(wǎng)絡(luò)/隱馬爾可夫模型混合系統(tǒng)(DNN-HMM hybrid system)架構(gòu)中,DNN的作用在于通過(guò)深度神經(jīng)網(wǎng)絡(luò)輸出的后驗(yàn)概率除以從訓(xùn)練數(shù)據(jù)中獲得的先驗(yàn)概率來(lái)近似地計(jì)算出HMM每一個(gè)狀態(tài)生成的似然度概率,并取代傳統(tǒng)的通過(guò)高斯混合模型(Gaussian mixture model,GMM)獲得的似然度,從而獲得性能上的大幅提升。大部分研究文獻(xiàn)中,把傳統(tǒng)的GMM模型稱為GMM-HMM,而基于深度學(xué)習(xí)的混合模型稱為DNN-HMM,本文亦沿用這種稱法。

1.2 用于口語(yǔ)評(píng)測(cè)的GOP算法

基于音素后驗(yàn)概率的Goodness of Pronunciation(GOP)算法,最早由劍橋大學(xué)S.M. Witt等人提出[9],作為發(fā)音流利度的指標(biāo),被廣泛應(yīng)用于口語(yǔ)評(píng)測(cè)中。GOP分?jǐn)?shù)的定義如下:

在DNN-HMM 混合模型中, 微軟亞洲研究院W.Hu等人提出了幀平均后驗(yàn)概率的GOP實(shí)現(xiàn)方法[10],其定義如下:

1.3 本研究對(duì)傳統(tǒng)方法的改進(jìn)

在對(duì)不同的口語(yǔ)考試數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)中發(fā)現(xiàn)公式(4)中基于深度學(xué)習(xí)的GOP比公式(3)中用傳統(tǒng)GMM-HMM模型計(jì)算的GOP性能更加優(yōu)越。這主要得益于DNN模型更能從海量訓(xùn)練數(shù)據(jù)的高維度特征中獲得對(duì)各音素發(fā)音概率分布的更正確描述,建立的聲學(xué)模型更具備區(qū)分度。

但是在對(duì)上述兩種方法進(jìn)行深入分析后發(fā)現(xiàn),公式(4)的方法只是簡(jiǎn)單地把DNN針對(duì)測(cè)試數(shù)據(jù)輸出的后驗(yàn)概率,對(duì)于識(shí)別出來(lái)的音素 p 的長(zhǎng)度,求出該音素的幀平均概率。而公式(3)的方法盡管使用的是GMM-HMM聲學(xué)模型,其分子和分母都使用到了聲學(xué)模型對(duì)考生測(cè)試音頻的識(shí)別結(jié)果,如引言所提,聲學(xué)模型一般是用母語(yǔ)說(shuō)話人的海量語(yǔ)音數(shù)據(jù)訓(xùn)練而來(lái),與測(cè)試數(shù)據(jù)(在本研究中是指考生音頻)不可避免的存在著錄音環(huán)境和說(shuō)話人特性的不匹配。尤其是真實(shí)場(chǎng)景下的口語(yǔ)考試數(shù)據(jù),與訓(xùn)練聲學(xué)模型用到的相對(duì)安靜環(huán)境下錄音數(shù)據(jù)相比,具有較大的差異。公式(4)的GOP算法只用到了一次DNN聲學(xué)模型計(jì)算考生音頻的后驗(yàn)概率,模型和測(cè)試數(shù)據(jù)在環(huán)境和說(shuō)話人的不匹配因素會(huì)影響它的評(píng)分性能。而公式(3)因?yàn)榉肿雍头帜竿瑫r(shí)運(yùn)用了聲學(xué)模型對(duì)考生數(shù)據(jù)進(jìn)行識(shí)別,不匹配的因子因?yàn)橥瑫r(shí)出現(xiàn)在分子和分母中,某種程度得到了抵消。

因此,公式(4)的GOP計(jì)算方法更能利用DNN模型的高區(qū)分度優(yōu)勢(shì),而公式(3)的計(jì)算方法則更不容易受環(huán)境及說(shuō)話人不匹配因素的影響,具有更強(qiáng)的抗噪魯棒性。結(jié)合兩種方法的優(yōu)點(diǎn),本文提出一種新的GOP計(jì)算方法,該算法既能充分利用DNN帶來(lái)的高區(qū)分度模型優(yōu)勢(shì),又能抵消噪音干擾。其計(jì)算過(guò)程如下:

首先針對(duì)公式(3)的分子部分,用DNN輸出的狀態(tài)后驗(yàn)概率除以狀態(tài)先驗(yàn)概率來(lái)取代GMM的似然度:

其中 S 是所有DNN-HMM狀態(tài)的集合(又稱作senone),把式 (5) 和式(6) 代入到式(2), 得到新的GOP實(shí)現(xiàn)方式:

公式(7)既使用了深度神經(jīng)網(wǎng)絡(luò)的后驗(yàn)概率輸出,又因?yàn)樵诜肿雍头帜钢型瑫r(shí)進(jìn)行了聲學(xué)模型和測(cè)試數(shù)據(jù)的比對(duì)計(jì)算似然度概率,相對(duì)于公式(4)的方法更具抗噪魯棒性。

由于公式(7)和公式(4)一樣,還是基于每一幀的后驗(yàn)概率在音素長(zhǎng)度范圍內(nèi)進(jìn)行平均。而發(fā)音的過(guò)程是連續(xù)變化的,按幀切分計(jì)算每一幀相對(duì)于某個(gè)音素 p 的后驗(yàn)概率,尤其在三音子跨音素模型(Triphone models)中,HMM狀態(tài)(或者DNN里的senone)和每一幀特征量的對(duì)齊未必非常精準(zhǔn),容易造成局部誤差。因此,把音素 p 的整個(gè)發(fā)音段看作一個(gè)整體,將狀態(tài)級(jí)別的對(duì)齊模糊化,從而提高GOP的準(zhǔn)確率。具體做法是從DNN-HMM模型中把中間音素為 p 的所有senone(狀態(tài))找出來(lái)形成一個(gè)集合,每幀相對(duì)于 p 的后驗(yàn)概率不是根據(jù)狀態(tài)強(qiáng)制對(duì)齊的結(jié)果,而是集合內(nèi)的所有狀態(tài)后驗(yàn)概率的最大值。具體的公式如下:

2 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果

為了驗(yàn)證改良GOP算法的有效性,本研究使用了兩套真實(shí)考試場(chǎng)景下的口語(yǔ)數(shù)據(jù)進(jìn)行了驗(yàn)證實(shí)驗(yàn)。第一套數(shù)據(jù)是浙江省某市2017年中考口語(yǔ)模擬考試,共有5400人的朗讀題錄音,每位考生的答題錄音都由當(dāng)?shù)亟逃块T組織專家進(jìn)行人工評(píng)分,作為測(cè)試我們?cè)u(píng)分系統(tǒng)的指標(biāo)。第二套數(shù)據(jù)是2014年深圳市高三英語(yǔ)質(zhì)量檢查口語(yǔ)統(tǒng)一考試的朗讀題錄音數(shù)據(jù),排除異常后選取了6000人考生的答題音頻。跟中考數(shù)據(jù)一樣,每位考生都有教育部門組織的專家評(píng)分。

計(jì)算GOP得分的聲學(xué)模型采用開(kāi)源語(yǔ)音識(shí)別平臺(tái)Kaldi進(jìn)行訓(xùn)練[11],訓(xùn)練語(yǔ)料為開(kāi)放的大規(guī)模朗讀語(yǔ)音庫(kù)Librispeech[12],包含了共960小時(shí)的母語(yǔ)朗讀數(shù)據(jù)。DNN-HMM的訓(xùn)練方法采用Kaldi平臺(tái)業(yè)內(nèi)最先進(jìn)的TDNN_F深度神經(jīng)網(wǎng)絡(luò)[13],而GMM-HMM模型的訓(xùn)練則遵循Kaldi官方發(fā)布的訓(xùn)練腳本。值得一提的是,為了體現(xiàn)本研究提出的算法的普遍優(yōu)越性,本次實(shí)驗(yàn)并未對(duì)聲學(xué)模型進(jìn)行針對(duì)測(cè)試集數(shù)據(jù)的優(yōu)化,而采用開(kāi)放的工具與數(shù)據(jù)。

基于GMM-HMM的公式(2)的算法稱為GMM-GOP,公式(4)的算法稱為DNN-GOP,改進(jìn)后的兩種GOP算法,即公式(7)和公式(8)的算法分別稱為DNN-GOP2和DNN-GOP3。用這四種不同的算法,對(duì)考生朗讀音頻求出每一個(gè)音素的GOP分?jǐn)?shù),并按照識(shí)別出的所有音素個(gè)數(shù)求平均,最終得到該音頻的整體GOP分?jǐn)?shù)。這四種算法在浙江中考模擬考試數(shù)據(jù)集中,GOP分?jǐn)?shù)和專家評(píng)分的相關(guān)系數(shù)在表1中顯示。表2則是機(jī)器評(píng)分在深圳高三??紨?shù)據(jù)集中的表現(xiàn)。

表1: 中考??紨?shù)據(jù)集中機(jī)器分與專家分的相關(guān)系數(shù).Tab.1 Correlations between automatic scores and manual scores in the dataset of Senior High School Entrance Exam

表2: 高考??紨?shù)據(jù)集中機(jī)器分與專家分的相關(guān)系數(shù).Tab.2 Correlations between automatic scores and manual scores in the dataset of College Entrance Exam

由兩表中可見(jiàn),基于DNN的GOP算法優(yōu)于傳統(tǒng)GMM-GOP算法,而本文提出的改良算法DNNGOP2表現(xiàn)比微軟亞洲研究院提出的DNN-GOP1優(yōu)越,DNN-GOP3進(jìn)一步提高了評(píng)分性能。無(wú)論在中考還是高考??紨?shù)據(jù)集中都得到了同樣的驗(yàn)證。

本文針對(duì)這四種GOP特征訓(xùn)練了單回歸模型,通過(guò)留一交叉驗(yàn)證,求出機(jī)器擬合分?jǐn)?shù)和專家分?jǐn)?shù)的一致率,結(jié)果分別在表3、表4中體現(xiàn)。其中完全一致率和基本一致率是業(yè)內(nèi)統(tǒng)計(jì)高考和中考多方評(píng)分一致度的指標(biāo),完全一致率指的是兩者誤差范圍在15%以內(nèi),基本一致率是指誤差范圍25%以內(nèi)的分?jǐn)?shù)。從一致度的角度分析,我們提出的DNNGOP2和DNN-GOP3也比傳統(tǒng)的GMM-GOP和微軟亞洲研究院提出的DNN-GOP1性能更優(yōu)越。從而驗(yàn)證了前面這兩種方法更具抗噪魯棒性。

表3: 中考??紨?shù)據(jù)集中機(jī)器分與專家分的一致度Tab.3 Concordance rates between automatic scores and human scores in the dataset of Senior High School Entrance Exam

表4: 高考模考數(shù)據(jù)集中機(jī)器分與專家分的一致度Table 4 Concordance rates between automatic scores and human scores in the dataset of College Entrance Exam

3 結(jié)束語(yǔ)

本文介紹了基于深度學(xué)習(xí)的口語(yǔ)自動(dòng)評(píng)分基本原理,針對(duì)傳統(tǒng)方法和相關(guān)研究進(jìn)行了對(duì)比分析,提出了兩種更具抗噪魯棒性的GOP算法,并在中考和高考模考真實(shí)場(chǎng)景數(shù)據(jù)集中驗(yàn)證了其優(yōu)越性。

今后我們將在環(huán)境與說(shuō)話人自適應(yīng)方面對(duì)考生和考場(chǎng)數(shù)據(jù)進(jìn)行更有針對(duì)性的語(yǔ)音建模,同時(shí)對(duì)發(fā)音錯(cuò)誤檢測(cè)和中學(xué)生口語(yǔ)特點(diǎn)進(jìn)行更深入的分析,形成完整的口語(yǔ)教學(xué)輔助系統(tǒng)。

猜你喜歡
音素后驗(yàn)聲學(xué)
依托繪本課程,培養(yǎng)學(xué)生英語(yǔ)音素意識(shí)
愛(ài)的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
基于對(duì)偶理論的橢圓變分不等式的后驗(yàn)誤差分析(英)
小學(xué)英語(yǔ)課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
貝葉斯統(tǒng)計(jì)中單參數(shù)后驗(yàn)分布的精確計(jì)算方法
在拼讀閱讀課中培養(yǎng)學(xué)生英語(yǔ)閱讀素養(yǎng)
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
零基礎(chǔ)速記48個(gè)音標(biāo)音素