国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

發(fā)音屬性優(yōu)化建模及其在偏誤檢測(cè)中的應(yīng)用

2022-03-10 01:25:56郭銘昊解焱陸
中文信息學(xué)報(bào) 2022年1期
關(guān)鍵詞:偏誤檢測(cè)器母語(yǔ)

郭銘昊,解焱陸

(1.北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100080;2.天津大學(xué) 智能與計(jì)算學(xué)部,天津 300300; 3. 北京語(yǔ)言大學(xué) 語(yǔ)言資源高精尖創(chuàng)新中心,北京 100080)

0 引言

近年來(lái),隨著二語(yǔ)學(xué)習(xí)需求的增長(zhǎng),學(xué)習(xí)漢語(yǔ)的人越來(lái)越多?;谧詣?dòng)語(yǔ)音識(shí)別的計(jì)算機(jī)發(fā)音訓(xùn)練系統(tǒng)(The Computer-Aided Pronunciation Training System,CAPT)不僅能夠滿足當(dāng)下學(xué)習(xí)者碎片化學(xué)習(xí)時(shí)間的需要,還能彌補(bǔ)傳統(tǒng)課堂教學(xué)的劣勢(shì)。其主要核心功能有: ①提供反饋; ②評(píng)估發(fā)音質(zhì)量。從反饋形式的角度看,CAPT系統(tǒng)可大致分為發(fā)音質(zhì)量打分和發(fā)音偏誤檢測(cè)兩種類型,發(fā)音偏誤檢測(cè)任務(wù)的目標(biāo)是高精度檢測(cè)發(fā)音錯(cuò)誤并給出對(duì)應(yīng)的糾音反饋。研究發(fā)現(xiàn),即使以簡(jiǎn)單的形式提供糾音反饋,也能夠改善學(xué)習(xí)者在音素層級(jí)的發(fā)音質(zhì)量[1]。用于提供糾音反饋的研究有很多,例如,利用拓展識(shí)別網(wǎng)絡(luò)創(chuàng)建一個(gè)音素級(jí)的發(fā)音偏誤檢測(cè)和診斷的模型[2],利用發(fā)音屬性來(lái)提供診斷性反饋等。

通過(guò)研究人類識(shí)別語(yǔ)音的過(guò)程,人的記憶單元中字詞存儲(chǔ)的基本單位是段,并且通過(guò)一系列的特征集合來(lái)相互區(qū)分,這些用于描述語(yǔ)音學(xué)發(fā)音并區(qū)分語(yǔ)音段的特征稱為“區(qū)分性特征”。這些特征可以從語(yǔ)音的不同方面定義,如發(fā)音位置、發(fā)音方式等,這些“區(qū)分性特征”叫做發(fā)音屬性(Speech Attribute)。目前,發(fā)音屬性在二語(yǔ)學(xué)習(xí)中主要用于提供糾音反饋、簡(jiǎn)化二語(yǔ)語(yǔ)料庫(kù)標(biāo)注等,發(fā)音屬性的定義方法多采用國(guó)際音標(biāo)標(biāo)準(zhǔn)。

外國(guó)學(xué)生在學(xué)習(xí)漢語(yǔ)時(shí)出現(xiàn)的發(fā)音偏誤,往往就是由于發(fā)音位置等發(fā)音屬性的不準(zhǔn)確導(dǎo)致的。二語(yǔ)學(xué)習(xí)者受母語(yǔ)負(fù)遷移等作用影響,其發(fā)音屬性常常會(huì)傾向于母語(yǔ)中相似音的發(fā)音屬性。同樣地,如果二語(yǔ)中的發(fā)音屬性在其母語(yǔ)中缺失,則學(xué)習(xí)者將很難正確掌握新的發(fā)音方法。目前,在偏誤檢測(cè)任務(wù)上應(yīng)用發(fā)音屬性的方法有: 發(fā)音偏誤趨勢(shì)建模、發(fā)音屬性特征提取、多語(yǔ)言發(fā)音屬性建模等。

Cao等[3]根據(jù)來(lái)自于發(fā)音人發(fā)音位置和發(fā)音方法等發(fā)音屬性的不準(zhǔn)確,定義了包括高化、低化、前化、后化等發(fā)音偏誤趨勢(shì)。Li等人[4]基于發(fā)音偏誤趨勢(shì)的屬性進(jìn)行特征提取,用于提供診斷性反饋。但是,上述方法也存在很多局限性,例如,高度依賴擁有準(zhǔn)確標(biāo)注信息的大規(guī)模二語(yǔ)語(yǔ)料庫(kù)。采用多語(yǔ)言建模發(fā)音屬性的原因在于,發(fā)音屬性具備跨語(yǔ)言特性,且當(dāng)二語(yǔ)者在發(fā)音時(shí)發(fā)生母語(yǔ)負(fù)遷移現(xiàn)象,其偏誤發(fā)音的發(fā)音屬性會(huì)包含兩種語(yǔ)言的發(fā)音屬性。因此,若同時(shí)建模兩種語(yǔ)言的發(fā)音屬性,將有助于檢測(cè)偏誤發(fā)音的發(fā)音屬性[5]。理論上,通過(guò)多語(yǔ)言發(fā)音屬性建模,有助于建模任意母語(yǔ)背景二語(yǔ)者語(yǔ)料的發(fā)音屬性。采用多語(yǔ)言發(fā)音屬性建模也存在難點(diǎn),例如,難以建模所有已知語(yǔ)言、漢語(yǔ)與其他語(yǔ)言發(fā)音屬性定義存在差異(如,漢語(yǔ)元音“i”)。以上應(yīng)用中,使用發(fā)音屬性的方法往往采用國(guó)際音標(biāo)的定義,但是由于漢語(yǔ)和其他語(yǔ)言在發(fā)音屬性的定義上存在差異,國(guó)際音標(biāo)無(wú)法準(zhǔn)確地描述漢語(yǔ)的發(fā)音屬性。

假設(shè)在沒(méi)有足夠的二語(yǔ)數(shù)據(jù)集的情況下,本文針對(duì)整合多母語(yǔ)描述發(fā)音偏誤方法的難點(diǎn),提出了一個(gè)以學(xué)習(xí)漢語(yǔ)為目的發(fā)音屬性定義和優(yōu)化建模方法,即細(xì)顆粒度的發(fā)音屬性(FSA),將有助于改善漢語(yǔ)的發(fā)音偏誤檢測(cè)任務(wù)。在此基礎(chǔ)上,檢測(cè)屬性檢測(cè)器的跨語(yǔ)言能力,以及探究面對(duì)不同母語(yǔ)背景學(xué)習(xí)者語(yǔ)料時(shí)上述方法檢測(cè)發(fā)音偏誤的能力。由于發(fā)音屬性具備可跨語(yǔ)言的特點(diǎn),我們還探究了單語(yǔ)言訓(xùn)練的屬性檢測(cè)器的跨語(yǔ)言能力,通過(guò)控制建模時(shí)的上下文信息,降低了單語(yǔ)言屬性檢測(cè)器對(duì)漢語(yǔ)數(shù)據(jù)的過(guò)度適應(yīng),并設(shè)置了多個(gè)對(duì)照實(shí)驗(yàn),分別采用不同的上下文信息建模,在漢語(yǔ)和英語(yǔ)兩個(gè)測(cè)試集中進(jìn)行屬性檢測(cè),最后對(duì)比雙語(yǔ)言屬性檢測(cè)器的檢測(cè)結(jié)果來(lái)進(jìn)行分析。由于跨語(yǔ)言建模發(fā)音屬性具備描述發(fā)音偏誤的能力,我們還在母語(yǔ)為日語(yǔ)和俄羅斯語(yǔ)的學(xué)習(xí)者測(cè)試集上進(jìn)行次音段級(jí)和音段級(jí)的發(fā)音偏誤檢測(cè)。

1 發(fā)音屬性的定義

本文從四個(gè)方面對(duì)漢語(yǔ)聲母進(jìn)行描述: 發(fā)音位置(PA)、發(fā)音方式(MA)、是否送氣(AS)、清濁音(VO)。而漢語(yǔ)元音部分則包括四個(gè)類別: 舌位前后(TF)、舌位高低(TH)、唇形圓展(RO)、PA和VO。需要強(qiáng)調(diào)的是,由于在聲學(xué)音標(biāo)中輔音和元音的發(fā)音屬性定義不同[6],所以我們分別對(duì)輔音和元音的發(fā)音屬性進(jìn)行建模,并嘗試將它們?cè)赑A分類中合并建模。由于所有的漢語(yǔ)元音在AS和VO中都沒(méi)有子分類,所以將它們的詳情放在聲母發(fā)音屬性定義中呈現(xiàn)。

我們將所有的漢語(yǔ)輔音與IPA一一映射,根據(jù)IPA上對(duì)應(yīng)音素的知識(shí)信息,找到需要的屬性信息并給予分類標(biāo)簽。在PA類別中,所有元音部分都將被標(biāo)記為“vowels”,其中聲母的四個(gè)類別在映射表1的音素分類中產(chǎn)生[7]。在表1中,漢語(yǔ)輔音以拼音形式首先列出,其次則是以音素表示的英語(yǔ)輔音。該表還列出了英文中存在但中文中不存在的屬性,這些屬性沒(méi)有參與建模,以此不難看出漢語(yǔ)和英語(yǔ)屬性的區(qū)別。例如,英語(yǔ)中沒(méi)有AS屬性分類,Timit音素集中只有一個(gè)清化的元音“axh”。

漢語(yǔ)韻母由多個(gè)元音和鼻元音組成(en、an等),相對(duì)于聲母來(lái)說(shuō)比較復(fù)雜。因此,我們將每個(gè)漢語(yǔ)韻母描述為一組IPA音素,然后根據(jù)這些音素得到每個(gè)韻母的屬性集。表2中列出了四個(gè)漢語(yǔ)元音屬性類別,列出了漢語(yǔ)單元音和英語(yǔ)音素的屬性分類。

此外,漢語(yǔ)和英語(yǔ)的元音在舌位上有很大的差異。在過(guò)去的研究中,將音素舌位前后大致分為三大類: 前、中、后[8],這樣簡(jiǎn)單的分類顯然不能完全體現(xiàn)漢語(yǔ)元音在舌位前后的位置。為了找到更好的描述漢語(yǔ)的舌位前后的分類方法,我們將漢語(yǔ)元音分為五類和七類分類建模。由于五分類的舌位可以直接對(duì)應(yīng)于聲母的發(fā)音位置,所以我們?cè)赑A類中同時(shí)對(duì)韻母和聲母進(jìn)行建模,而在TF類中更詳細(xì)地分為七類。將PA與TF進(jìn)行比較,可以看出兩種分類方法的差異,如表2所示。另外,漢語(yǔ)的聲母在TF、RO和TH中被標(biāo)記為“輔音”。值得注意的是,漢語(yǔ)韻母中存在著三種屬性維度,它們描述了漢語(yǔ)韻母中存在的屬性數(shù)量。例如,漢語(yǔ)的最后一個(gè)“iao”被描述為三個(gè)IPA音素,所以它在每個(gè)類別中都有三維屬性。

表1 中英文輔音屬性類別表(部分)

表2 中英文元音屬性類別表(部分)

2 基于FSA方法的優(yōu)化建模

2.1 時(shí)延神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)

圖1 本研究的TDNN網(wǎng)絡(luò)結(jié)構(gòu)

對(duì)連續(xù)語(yǔ)流數(shù)據(jù)下的語(yǔ)音任務(wù)來(lái)說(shuō),由于語(yǔ)音是一種時(shí)序序列,所以上下文信息對(duì)于聲學(xué)模型的性能影響非常關(guān)鍵。在發(fā)音偏誤檢測(cè)任務(wù)中也是同樣。TDNN的優(yōu)點(diǎn)在于: 多層網(wǎng)絡(luò)訓(xùn)練時(shí)對(duì)輸入特征具有較強(qiáng)的時(shí)序建模能力,描述了語(yǔ)音特征在時(shí)間序列上的關(guān)系,具備時(shí)間不變性且不需要對(duì)樣本標(biāo)注進(jìn)行時(shí)間定位,適用于本研究的關(guān)鍵在于TDNN對(duì)動(dòng)態(tài)語(yǔ)音分類任務(wù)具有相當(dāng)好的性能表現(xiàn)[9]。圖1是本研究訓(xùn)練發(fā)音屬性時(shí)的TDNN模型結(jié)構(gòu),這種TDNN結(jié)構(gòu)對(duì)時(shí)間序列輸入數(shù)據(jù)[10,11,12]具有有限的動(dòng)態(tài)響應(yīng)。假設(shè)t是當(dāng)前幀,在輸入層(layer1),幀[t-2,t+2]被拼接在一起。層2,3和4我們分別將幀[t-1,t+2],[t-3,t+3]和[t-7,t+2]拼接在一起??偟膩?lái)說(shuō),神經(jīng)網(wǎng)絡(luò)的左上下文為13,右上下文為9。

2.2 I-Vector特征的提取

我們使用所有訓(xùn)練集特征建立GMM建模通用背景模型,得到GMM訓(xùn)練的統(tǒng)計(jì)量后重新訓(xùn)練GMM,得到UBM,其中訓(xùn)練特征40維,高斯數(shù)512個(gè);使用UBM初始化i-vector,獲取正規(guī)化(CMVN)的特征后驗(yàn)概率,計(jì)算統(tǒng)計(jì)量,根據(jù)統(tǒng)計(jì)量計(jì)算最后的i-vector模型F,其中,s維度為512×40,m維度512×40,w維度是100,因此T維度為512×100×40;拼接之后使用CMVN和LDA進(jìn)行特征處理,根據(jù)特征和UBM獲取每個(gè)話者的超向量,根據(jù)超向量s、UBM、F模型,得到i-vector特征[10-12]。最終得到100維的i-Vector特征和49維的MFCC特征,共同訓(xùn)練發(fā)音屬性檢測(cè)器組。

2.3 優(yōu)化訓(xùn)練數(shù)據(jù)不平衡問(wèn)題

建模時(shí),漢語(yǔ)聲母和韻母的建模分離和屬性分類差異導(dǎo)致訓(xùn)練數(shù)據(jù)分布不平衡。例如,聲母屬性分類器中無(wú)用的標(biāo)簽“vowels”包含了近一半的訓(xùn)練數(shù)據(jù)。我們采用基于音素背景建模(phone-basedbackground model,PBM)的方法來(lái)解決這一問(wèn)題,其關(guān)鍵是將無(wú)用分類和數(shù)據(jù)量龐大的分類進(jìn)行多標(biāo)簽表示,就像說(shuō)話者或話語(yǔ)驗(yàn)證的方法,通過(guò)非屬性類劃分獲得多標(biāo)簽。圖2為本文在屬性檢測(cè)器中使用PBM方法建模的示例圖,該示例圖為非屬性類“vowels”化子標(biāo)簽的做法,以建模發(fā)音方式(PA)為例,橫坐標(biāo)為屬性標(biāo)簽名,縱坐標(biāo)為屬性標(biāo)簽數(shù)量,斜線陰影表示是原始標(biāo)簽數(shù)據(jù)量,點(diǎn)狀表示是PBM算法進(jìn)行數(shù)據(jù)平衡后的各標(biāo)簽數(shù)量??梢钥吹剑本€陰影表示部分“vowels”標(biāo)簽數(shù)量遠(yuǎn)大于其他標(biāo)簽,但是該標(biāo)簽在PA中沒(méi)有任何意義,這樣的數(shù)據(jù)分布會(huì)導(dǎo)致模型訓(xùn)練不平衡;而使用PBM后的點(diǎn)狀部分,將原標(biāo)簽“vowels”的數(shù)量平均分為四個(gè)子標(biāo)簽“vowels”、“vowels-a”、“vowels-b”、“vowels-c”,這樣數(shù)據(jù)分布相對(duì)平滑。

圖2 使用PBM方法對(duì)PA建模的數(shù)據(jù)分布

2.4 基于FSA的雙語(yǔ)言屬性檢測(cè)器

眾所周知,發(fā)音屬性具備跨語(yǔ)言特性,為了探究基于FSA方法的跨語(yǔ)言屬性識(shí)別能力,我們通過(guò)設(shè)計(jì)實(shí)驗(yàn)對(duì)照組,觀察單語(yǔ)言和雙語(yǔ)言訓(xùn)練的發(fā)音屬性檢測(cè)器在雙語(yǔ)言屬性識(shí)別任務(wù)中的性能對(duì)比。因?yàn)檎纤姓Z(yǔ)言的發(fā)音屬性本身比較難,我們還探索了單語(yǔ)言訓(xùn)練的屬性檢測(cè)器是否具備良好的多語(yǔ)言屬性檢測(cè)能力。但是TDNN和基于屬性HMM同時(shí)建模發(fā)音屬性的方法,有可能使得模型過(guò)于適應(yīng)漢語(yǔ)發(fā)音習(xí)慣,而弱化發(fā)音屬性原本的語(yǔ)言通用性質(zhì)。因此,我們通過(guò)減少建模時(shí)使用的上下文的信息弱化模型對(duì)單個(gè)語(yǔ)言的適應(yīng)性和依賴性,之后對(duì)比雙語(yǔ)言訓(xùn)練的屬性檢測(cè)器的性能來(lái)驗(yàn)證這樣做的可行性。弱化上下文信息的屬性建模,我們采用Monophone-HMM和普通DNN模型作為對(duì)照組。

2.5 基于FSA的不同母語(yǔ)背景發(fā)音人的發(fā)音偏誤 檢測(cè)

利用上述已被驗(yàn)證的語(yǔ)言之間共享發(fā)音屬性的結(jié)論,可在發(fā)音偏誤檢測(cè)任務(wù)中用于建模發(fā)音偏誤。由于二語(yǔ)者受到母語(yǔ)負(fù)遷移的影響,其發(fā)音偏誤的發(fā)音屬性常常會(huì)傾向于母語(yǔ)中的相似發(fā)音的發(fā)音屬性,也就是說(shuō)偏誤發(fā)音實(shí)際上是介于二語(yǔ)者的母語(yǔ)和第二語(yǔ)言之間的發(fā)音。利用這一點(diǎn),結(jié)合整合語(yǔ)言的屬性檢測(cè)器,可用于直接建模該發(fā)音人的發(fā)音偏誤。理論上,在跨語(yǔ)言屬性檢測(cè)任務(wù)中性能良好的屬性檢測(cè)器,擁有描述不同母語(yǔ)背景學(xué)習(xí)者的發(fā)音偏誤的能力。

為此,針對(duì)上述基于FSA的單語(yǔ)言和雙語(yǔ)言訓(xùn)練的屬性檢測(cè)器,我們?cè)诓煌刚Z(yǔ)背景學(xué)習(xí)者的發(fā)音偏誤檢測(cè)任務(wù)上進(jìn)行測(cè)試,通過(guò)分析兩組屬性檢測(cè)器在該任務(wù)上的性能,來(lái)驗(yàn)證是否跨語(yǔ)言屬性識(shí)別性能良好的屬性檢測(cè)器,也會(huì)擁有更好的描述發(fā)音偏誤的能力。我們使用的兩種二語(yǔ)語(yǔ)料測(cè)試集,分別為母語(yǔ)俄語(yǔ)的發(fā)音人和母語(yǔ)日語(yǔ)的發(fā)音人。

3 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果

3.1 實(shí)驗(yàn)對(duì)照組

我們通過(guò)對(duì)比上下文相關(guān)的HMM(triphone)組合TDNN、上下文無(wú)關(guān)的HMM(monophone)組合TDNN、上下文無(wú)關(guān)的HMM(monophone)組合DNN的三種建模發(fā)音屬性的方法設(shè)置對(duì)照實(shí)驗(yàn),在英語(yǔ)、漢語(yǔ)屬性識(shí)別任務(wù)中,觀察三個(gè)對(duì)照實(shí)驗(yàn)的性能,測(cè)試單一語(yǔ)言訓(xùn)練數(shù)據(jù)下的三種方法建模發(fā)音屬性時(shí)的跨語(yǔ)言能力。

同時(shí),為了更直觀地觀察上述三個(gè)對(duì)照實(shí)驗(yàn)的效果,我們單獨(dú)設(shè)置了一個(gè)對(duì)照實(shí)驗(yàn),采用上下文相關(guān)的HMM(triphone)組合TDNN的建模方法, 數(shù)據(jù)上使用漢語(yǔ)和英語(yǔ)雙語(yǔ)語(yǔ)料作為訓(xùn)練集,兩語(yǔ)言訓(xùn)練數(shù)據(jù)量比例為1: 1,訓(xùn)練數(shù)據(jù)總量同上述三種方法一致,同樣在英語(yǔ)、漢語(yǔ)屬性識(shí)別任務(wù)中觀察性能。

在發(fā)音偏誤檢測(cè)任務(wù)上,我們?cè)趦蓚€(gè)測(cè)試集上設(shè)置了四組對(duì)照實(shí)驗(yàn),兩個(gè)測(cè)試集分別為母語(yǔ)俄語(yǔ)的學(xué)習(xí)者的中文語(yǔ)料、母語(yǔ)日語(yǔ)的學(xué)習(xí)者的中文語(yǔ)料。四組對(duì)照實(shí)驗(yàn)為: 單語(yǔ)言訓(xùn)練屬性檢測(cè)器組+俄語(yǔ)背景學(xué)習(xí)者測(cè)試集;單語(yǔ)言訓(xùn)練屬性檢測(cè)器組+日語(yǔ)背景學(xué)習(xí)者測(cè)試集;雙語(yǔ)言訓(xùn)練屬性檢測(cè)器組+俄語(yǔ)背景學(xué)習(xí)者測(cè)試集;雙語(yǔ)言訓(xùn)練屬性檢測(cè)器組+日語(yǔ)背景學(xué)習(xí)者測(cè)試集。

最后一項(xiàng)對(duì)照實(shí)驗(yàn)是基于FSA的屬性建模和基線屬性建模兩種方法的對(duì)比,我們針對(duì)二語(yǔ)學(xué)習(xí)任務(wù)設(shè)計(jì)了細(xì)顆粒度的發(fā)音屬性定義,并根據(jù)該定義建模了七種屬性檢測(cè)器,組成了前端屬性檢測(cè)器組。其中,只有兩種屬性與基線屬性定義差距較大,即舌位前后、舌位高低,因此我們?cè)O(shè)置了兩個(gè)對(duì)照組,分別觀察在這兩種屬性上基于FSA和基線屬性建模的兩項(xiàng)后端任務(wù)的性能,即屬性識(shí)別性能、偏誤檢測(cè)性能。圖3為對(duì)照實(shí)驗(yàn)設(shè)計(jì)示意圖。

圖3 對(duì)照實(shí)驗(yàn)設(shè)計(jì)示意圖

3.2 建??蚣?/h3>

本研究通過(guò)借鑒ASAT框架的整合思路,設(shè)計(jì)了基于FSA的建模框架。前端特征提取模塊包含了一組屬性分類器,用于提取屬性后驗(yàn)概率,再用于后端發(fā)音偏誤檢測(cè)任務(wù),可以在不同維度上定義偏誤檢測(cè),即超音段層級(jí)(如時(shí)長(zhǎng))、音段層級(jí)(如音素替換)和次音段層級(jí)(如清化音素)[13-14]。本研究主要在次音段層級(jí)完成偏誤檢測(cè)實(shí)驗(yàn),以及前端屬性提取器的性能測(cè)試,具體過(guò)程框架如圖4所示。

使用MFCC作為輸入特征,設(shè)置對(duì)照組分別為CD-HMMs、CI-HMMs,每個(gè)對(duì)照組包含七個(gè)基于發(fā)音屬性的HMM模型;使用MFCC和i-Vector作為輸入特征,兩組基于屬性的HMM做神經(jīng)網(wǎng)絡(luò)初始化,經(jīng)過(guò)PBM的數(shù)據(jù)平衡后,建?;趯傩缘腡DNN和DNN,總計(jì)四個(gè)對(duì)照實(shí)驗(yàn),每個(gè)對(duì)照實(shí)驗(yàn)七個(gè)模型;在每個(gè)前端分類器模型中,生成當(dāng)前幀在該分類器中每個(gè)屬性的概率,即幀層級(jí)屬性后驗(yàn)概率,作為前端輸出。總計(jì)兩個(gè)后端任務(wù),將每個(gè)屬性分類的幀層級(jí)后驗(yàn)概率用于評(píng)估基于FSA的建模方法在中文和英文測(cè)試集的性能,之后進(jìn)入強(qiáng)制對(duì)齊處理后轉(zhuǎn)化為音素級(jí)后屬性驗(yàn)概率進(jìn)行次音段級(jí)發(fā)音錯(cuò)誤檢測(cè),即中英文屬性測(cè)試和次音段、音段偏誤檢測(cè)兩項(xiàng)任務(wù)。

圖4 基于FSA的建??蚣?/p>

3.3 發(fā)音屬性檢測(cè)

本文使用的語(yǔ)料庫(kù)來(lái)自中國(guó)國(guó)家高技術(shù)項(xiàng)目863[15],以及開(kāi)源的Aishell 178h普通話語(yǔ)料庫(kù),英語(yǔ)語(yǔ)料庫(kù)分別使用來(lái)自LibriSpeech和Timit。單語(yǔ)言訓(xùn)練的屬性檢測(cè)器的訓(xùn)練數(shù)據(jù)共使用了1 800名說(shuō)話者(約300h)的25萬(wàn)個(gè)話語(yǔ)進(jìn)行聲學(xué)建模,雙語(yǔ)言訓(xùn)練的屬性監(jiān)測(cè)器的訓(xùn)練數(shù)據(jù)使用了LibriSpeech和Aishel兩個(gè)語(yǔ)料庫(kù)的數(shù)據(jù),共20 000條數(shù)據(jù),約300h,與單語(yǔ)言對(duì)照組的訓(xùn)練數(shù)據(jù)量保持一致,英語(yǔ)語(yǔ)料和漢語(yǔ)語(yǔ)料的比例為1:1,充足的數(shù)據(jù)保證了基于FSA方法建模的魯棒性。屬性識(shí)別實(shí)驗(yàn)的的測(cè)試集有兩個(gè),一個(gè)是來(lái)自Aishell語(yǔ)料庫(kù)的6 000條中文數(shù)據(jù),另一個(gè)是來(lái)自Timit的6 000條英文數(shù)據(jù)。

我們對(duì)單語(yǔ)言訓(xùn)練的屬性檢測(cè)器在母語(yǔ)(Ch)和跨語(yǔ)言(En)發(fā)音屬性檢測(cè)任務(wù)上進(jìn)行了評(píng)估;通過(guò)兩種建模方法(上下文相關(guān)CD、上下文無(wú)關(guān)CI)和兩個(gè)神經(jīng)網(wǎng)絡(luò)DNN模型、TDNN模型,每個(gè)對(duì)照組包含三組對(duì)照實(shí)驗(yàn)(Triphone、Monophone、CI)。所有屬性識(shí)別的實(shí)驗(yàn)結(jié)果如圖5、圖6所示。

由圖5可知,上方三條曲線表示在漢語(yǔ)(Ch)測(cè)試上表現(xiàn)出可靠的性能,即三個(gè)對(duì)照實(shí)驗(yàn)性能均在80%以上,且上下文相關(guān)和TDNN組合建模(Triphone-Ch)的準(zhǔn)確率,高于上下文無(wú)關(guān)和DNN組合(CI-Ch)建模的準(zhǔn)確率。下面三條曲線在跨語(yǔ)言測(cè)試集(En)中表現(xiàn)出相對(duì)較低的檢測(cè)準(zhǔn)確率,尤其是元音部分,這表現(xiàn)出英語(yǔ)元音的結(jié)構(gòu)與漢語(yǔ)差別很大,但是上下文無(wú)關(guān)和DNN組合(CI-En)建模的準(zhǔn)確率,在趨勢(shì)上高于上下文相關(guān)和TDNN組合(Triphone-En)的準(zhǔn)確率。經(jīng)過(guò)更深入的觀察,在跨語(yǔ)言屬性檢測(cè)任務(wù)中的多個(gè)屬性檢測(cè)器,如擦音(Fricative)和濁音(Voiced),可以獲得較好的準(zhǔn)確性(最高93%和78%)。我們還發(fā)現(xiàn),在英語(yǔ)測(cè)試集上分類更精細(xì)的TF的屬性集(表2)精度略優(yōu)于PA分類(表1)。此外,由依賴于上下文的建模方法并不比上下文獨(dú)立的建模優(yōu)異,甚至CI方法在某些屬性上也具有更好的效果,驗(yàn)證了發(fā)音屬性的語(yǔ)言獨(dú)立性。

圖5 在漢語(yǔ)和英語(yǔ)上的基于FSA方法的檢測(cè)準(zhǔn)確率

圖5 (續(xù))

我們同樣對(duì)單語(yǔ)言訓(xùn)練的和雙語(yǔ)言訓(xùn)練的屬性檢測(cè)器,在母語(yǔ)(Ch)和跨語(yǔ)言(En)發(fā)音屬性檢測(cè)任務(wù)上進(jìn)行了評(píng)估,對(duì)應(yīng)兩個(gè)對(duì)照組(Ch、En),每個(gè)對(duì)照組包含兩個(gè)對(duì)照實(shí)驗(yàn)(Monolingual、Bilingual),其中兩個(gè)對(duì)照組上下文相關(guān)組合TDNN,兩個(gè)對(duì)照組除訓(xùn)練數(shù)據(jù)不同以外無(wú)其他差別。另外,由于英語(yǔ)中并沒(méi)有AS屬性,所以我們使用PBM方法平衡了雙語(yǔ)訓(xùn)練集數(shù)據(jù)來(lái)訓(xùn)練AS屬性檢測(cè)器。所有屬性識(shí)別的實(shí)驗(yàn)結(jié)果如圖6所示,從中可以看出,準(zhǔn)確率最高的兩個(gè)曲線為漢語(yǔ)測(cè)試集上的屬性識(shí)別結(jié)果(Ch),識(shí)別準(zhǔn)確率在80%以上,且單語(yǔ)言訓(xùn)練的屬性檢測(cè)器識(shí)別準(zhǔn)確率(Monolingual-Ch)均高于雙語(yǔ)言訓(xùn)練的屬性檢測(cè)器識(shí)別準(zhǔn)確率(Bilingual-Ch)。圖中下兩條曲線反映了英語(yǔ)屬性識(shí)別對(duì)照組的情況,其中雙語(yǔ)言屬性檢測(cè)器識(shí)別準(zhǔn)確率(Bilingual-En)遠(yuǎn)高于單語(yǔ)言屬性檢測(cè)器識(shí)別準(zhǔn)確率(Monolingual-En)。

圖6 在漢語(yǔ)和英語(yǔ)上的基于FSA方法的檢測(cè)準(zhǔn)確率

3.4 發(fā)音偏誤檢測(cè)

發(fā)音偏誤檢測(cè)任務(wù)采用的二語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù),使用北京語(yǔ)言大學(xué)漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)[16],其中包含母語(yǔ)為俄語(yǔ)的普通話學(xué)習(xí)者的1 000條語(yǔ)音,母語(yǔ)為日語(yǔ)的普通話學(xué)習(xí)者1 000條語(yǔ)言。為了在次音段級(jí)和音段級(jí)上檢測(cè)發(fā)音偏誤,我們使用了兩個(gè)指標(biāo),即F-score和診斷準(zhǔn)確率(DA)來(lái)評(píng)估發(fā)音錯(cuò)誤檢測(cè)的性能。

其中,NM為檢測(cè)到的真實(shí)偏誤數(shù),檢測(cè)結(jié)果與人工標(biāo)注一致。NC是系統(tǒng)檢測(cè)到的真實(shí)正確發(fā)音的個(gè)數(shù)。Precision是真實(shí)偏誤數(shù)和所有檢測(cè)到的發(fā)音錯(cuò)誤的數(shù)量的比值,稱為準(zhǔn)確率。Recall為真實(shí)偏誤數(shù)和測(cè)試集中發(fā)音錯(cuò)誤總數(shù)的比值,稱為召回率。N為測(cè)試集中音素或?qū)傩缘膫€(gè)數(shù)。

在單語(yǔ)言訓(xùn)練的屬性檢測(cè)器組的對(duì)照實(shí)驗(yàn)中,我們選取了7個(gè)具有最好屬性識(shí)別性能的分類器,并在兩種測(cè)試集上對(duì)次音段級(jí)偏誤檢測(cè)性能進(jìn)行評(píng)估,之后將它們整合至音段級(jí)的偏誤檢測(cè)中,結(jié)果如表3、表4所示。我們可以看到,不論是母語(yǔ)為俄語(yǔ)還是日語(yǔ)的發(fā)音人測(cè)試集,基于FSA的方法都可以很好地檢測(cè)出不同的發(fā)音屬性的偏誤,尤其是單語(yǔ)言訓(xùn)練的屬性檢測(cè)器組(Monolingual-DA),次音段級(jí)診斷準(zhǔn)確率均在83%以上。更精細(xì)地體現(xiàn)漢語(yǔ)舌位變化的TF、PA、TH,不論是在兩個(gè)測(cè)試上(母語(yǔ)為俄語(yǔ)或日語(yǔ))還是單語(yǔ)言或雙語(yǔ)言訓(xùn)練(Monolingual-DA,Bilingual-DA)的屬性檢測(cè)器,表現(xiàn)均高于基線的T-T和H-H。

表3 母語(yǔ)俄語(yǔ)學(xué)習(xí)者次音段偏誤檢測(cè) (單位: %)

表4 母語(yǔ)日語(yǔ)學(xué)習(xí)者次音段偏誤檢測(cè) (單位: %)

在母語(yǔ)為俄語(yǔ)的二語(yǔ)者的測(cè)試集上,通過(guò)對(duì)比單語(yǔ)言訓(xùn)練和雙語(yǔ)言訓(xùn)練的屬性檢測(cè)器組的整體診斷準(zhǔn)確率(Monolingual-DA,Bilingual-DA),我們發(fā)現(xiàn)雙語(yǔ)言訓(xùn)練的屬性檢測(cè)器組的偏誤檢測(cè)診斷準(zhǔn)確率低于單語(yǔ)言訓(xùn)練的屬性檢測(cè)器。在母語(yǔ)為日語(yǔ)的二語(yǔ)者的測(cè)試集上的偏誤檢測(cè)結(jié)果顯示: 總體上母語(yǔ)為日語(yǔ)的學(xué)習(xí)者的次音段偏誤檢測(cè)準(zhǔn)確率比母語(yǔ)為俄語(yǔ)的學(xué)習(xí)者要高,可能是因?yàn)槟刚Z(yǔ)為日語(yǔ)的學(xué)習(xí)者的漢語(yǔ)總體水平高于母語(yǔ)為俄語(yǔ)的學(xué)習(xí)者。通過(guò)對(duì)比關(guān)于單語(yǔ)言訓(xùn)練和雙語(yǔ)言訓(xùn)練的屬性檢測(cè)器組的診斷準(zhǔn)確率(Monolingual-DA,Bilingual-DA),同樣發(fā)現(xiàn)雙語(yǔ)言訓(xùn)練的屬性檢測(cè)器總體表現(xiàn)低于單語(yǔ)言屬性檢測(cè)器。

將上述單語(yǔ)言和雙語(yǔ)言訓(xùn)練的屬性檢測(cè)器組分別整合后,與同數(shù)據(jù)量訓(xùn)練(Aishell,約300h)的基于音段的偏誤檢測(cè)(表5)相比(Monolingual,M),在兩種母語(yǔ)背景學(xué)習(xí)者的測(cè)試集上,基于FSA的偏誤檢測(cè)診斷準(zhǔn)確率更高,F(xiàn)-score更高,驗(yàn)證了本研究所提出的方法的有效性。此外,在母語(yǔ)為日語(yǔ)的發(fā)音人測(cè)試集中,音段偏誤檢測(cè)的性能均優(yōu)于在母語(yǔ)為俄語(yǔ)的發(fā)音人測(cè)試集中的性能,包括基線系統(tǒng)(Segment-based)的基于音段的偏誤檢測(cè)診斷準(zhǔn)確率;雙語(yǔ)言屬性檢測(cè)器組整合后(Bilingual,B),用于音段偏誤檢測(cè),在DA和F-score上低于單語(yǔ)言屬性檢測(cè)器組整合后的結(jié)果,這與次音段偏誤檢測(cè)中的結(jié)果一致。

表5 母語(yǔ)俄語(yǔ)/日語(yǔ)學(xué)習(xí)者音段偏誤檢測(cè) (單位: %)

4 結(jié)論

本文提出了一種基于細(xì)顆粒度發(fā)音屬性(FSA)識(shí)別方法,并在發(fā)音偏誤檢測(cè)中應(yīng)用。 實(shí)驗(yàn)結(jié)果表明, 在使用單一語(yǔ)言訓(xùn)練時(shí),該方法提取了可靠的幀層級(jí)發(fā)音屬性的準(zhǔn)確率,均在90%以上;在跨語(yǔ)言測(cè)試中,通過(guò)修改建模時(shí)使用的上下文信息,降低了檢測(cè)器在漢語(yǔ)上的過(guò)度適應(yīng),建模時(shí)使用的上下文信息越少,單語(yǔ)言屬性檢測(cè)器性能越好,驗(yàn)證了發(fā)音屬性的跨語(yǔ)言特性;但是,使用上下文信息最少的屬性檢測(cè)器組,跨語(yǔ)言測(cè)試的準(zhǔn)確率也遠(yuǎn)低于雙語(yǔ)言屬性檢測(cè)器在英語(yǔ)屬性識(shí)別任務(wù)中的性能,表明語(yǔ)言間音素結(jié)構(gòu)的巨大差異依然有很大影響。在漢語(yǔ)屬性識(shí)別任務(wù)中,單語(yǔ)言訓(xùn)練相比雙語(yǔ)言訓(xùn)練的屬性檢測(cè)器組準(zhǔn)確率平均高出7%,這表明雙語(yǔ)言屬性檢測(cè)器沒(méi)有很好地表現(xiàn)出發(fā)音屬性的語(yǔ)言獨(dú)立性。相比單語(yǔ)言訓(xùn)練,雙語(yǔ)言屬性檢測(cè)器組在英語(yǔ)屬性識(shí)別任務(wù)中的性能提升明顯,體現(xiàn)了屬性的語(yǔ)言通用性。

在二語(yǔ)學(xué)習(xí)者的偏誤檢測(cè)實(shí)驗(yàn)中,使用基于FSA的方法相比于傳統(tǒng)發(fā)音屬性定義的基線系統(tǒng),在次音段級(jí)別偏誤檢測(cè)任務(wù)中都表現(xiàn)了更優(yōu)的性能,表明基于FSA的方法在偏誤檢測(cè)任務(wù)中更能體現(xiàn)漢語(yǔ)語(yǔ)言發(fā)音的特點(diǎn);同時(shí),同數(shù)據(jù)量訓(xùn)練的基于發(fā)音屬性的方法(單語(yǔ)言)比起基于音段的方法,在音段偏誤檢測(cè)任務(wù)中獲得了更好的檢測(cè)性能,近一步驗(yàn)證了基于FSA方法的有效性。

理論上,該方法可以應(yīng)用于任何母語(yǔ)背景的學(xué)習(xí)者,我們通過(guò)在母語(yǔ)背景為俄語(yǔ)、日語(yǔ)的發(fā)音人語(yǔ)料庫(kù)上的發(fā)音偏誤檢測(cè),測(cè)試雙語(yǔ)言訓(xùn)練相比單語(yǔ)言訓(xùn)練的的屬性檢測(cè)器,是否能擁有更好的描述發(fā)音偏誤的能力。實(shí)驗(yàn)結(jié)果顯示,單語(yǔ)言訓(xùn)練的屬性檢測(cè)器性能更優(yōu)。經(jīng)過(guò)分析,可能由于雙語(yǔ)訓(xùn)練使用的第二語(yǔ)料庫(kù),并非使用發(fā)音人的第一語(yǔ)言,即日語(yǔ)和俄語(yǔ);雙語(yǔ)屬性檢測(cè)器在漢語(yǔ)屬性識(shí)別任務(wù)中的準(zhǔn)確率低于單語(yǔ)言屬性檢測(cè)器,即沒(méi)有體現(xiàn)屬性的語(yǔ)言獨(dú)立性。

猜你喜歡
偏誤檢測(cè)器母語(yǔ)
母語(yǔ)
草原歌聲(2020年3期)2021-01-18 06:52:02
“一……就……”句式偏誤研究
車(chē)道微波車(chē)輛檢測(cè)器的應(yīng)用
母語(yǔ)
草原歌聲(2017年3期)2017-04-23 05:13:47
新HSK六級(jí)縮寫(xiě)常見(jiàn)偏誤及對(duì)策
一種霧霾檢測(cè)器的研究與設(shè)計(jì)
我有祖國(guó),我有母語(yǔ)
母語(yǔ)寫(xiě)作的宿命——《圣天門(mén)口》未完的話
一體化火焰檢測(cè)器常見(jiàn)故障分析
河南科技(2014年22期)2014-02-27 14:18:12
3種HPLC檢測(cè)器測(cè)定單甘酯含量的方法比較
克拉玛依市| 陆河县| 安庆市| 班戈县| 尼勒克县| 札达县| 景德镇市| 镇赉县| 色达县| 乌海市| 自贡市| 岢岚县| 太仓市| 泸溪县| 堆龙德庆县| 星子县| 高青县| 云梦县| 中方县| 汕头市| 洪湖市| 西峡县| 包头市| 洛隆县| 梓潼县| 慈溪市| 泽库县| 普格县| 许昌市| 曲沃县| 忻城县| 朔州市| 邹城市| 内丘县| 犍为县| 嘉荫县| 长垣县| 宁远县| 江口县| 彭州市| 龙州县|