結(jié)合上下文多維度聲學(xué)特征組的漢語重音檢測*

2014-12-02 03:01:04趙云雪鄭世杰

哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào) 2014年3期

趙云雪，張瓏，鄭世杰

(哈爾濱師范大學(xué))

0 引言

在語音信號處理領(lǐng)域，韻律模型的研究已經(jīng)很好地用于英語、法語的語音識別［1-4］．近些年，隨著研究的不斷深入，技術(shù)的不斷進(jìn)步，韻律模型也開始逐步地應(yīng)用到漢語的語音識別領(lǐng)域．特別是基于朗讀語篇語料庫，語音的韻律特征成為語音識別技術(shù)中的研究焦點(diǎn)．

韻律規(guī)則是合成語音中的一個(gè)不可或缺的部分．在許多西方語言為母語的人眼里，漢語聽起來，有聲有色、有板有眼、快慢有致，像歌曲一樣優(yōu)美動聽．語流中這種由音高、音長、音強(qiáng)和時(shí)長等所體現(xiàn)出來的特征，稱為“韻律特征”，也叫“超音段特征”［5］，它們反映出語音信號不同特性之間的差異．韻律特征主要包括聲調(diào)、語調(diào)、重音和節(jié)奏等．聲調(diào)屬于音節(jié)層的韻律;語調(diào)屬于句子層，乃至語篇層的韻律．韻律對合成語音的自然度和可懂讀以及是否連貫的影響極大，甚至還會影響語音識別的可理解度．對于同一個(gè)音素，由于語境不同，重音的表現(xiàn)也會不同，并且聲學(xué)特征會表現(xiàn)出很大的差別．通過修改語音數(shù)據(jù)的聲學(xué)參數(shù)，如基頻、音長和音強(qiáng)，可以進(jìn)行重音和語調(diào)的模擬，實(shí)現(xiàn)語速和聲調(diào)的變化．

眾所周知，漢語可以分為字、詞、短語、句子、段落和篇章等不同部分．相應(yīng)地，漢語的重音也有與韻律結(jié)構(gòu)相對應(yīng)的層級結(jié)構(gòu)，可以分為:音節(jié)、音步、韻律詞、韻律短語和語調(diào)單位．從目前語音識別的研究狀況來看，我們常常關(guān)心詞與詞之間的或者句子與句子之間韻律層級．關(guān)于漢語韻律層級的劃分以及韻律劃分同句法和語法之間的關(guān)系，很多研究者給出了不同的結(jié)論．并且，我們也知道人們在進(jìn)行語言交流時(shí)，其交流的語言不僅僅是各個(gè)單元的層級結(jié)構(gòu)，還有各個(gè)單元的輕重也同樣起著非常重要的作用．一般說漢語的重音，是指說話或朗讀時(shí)讀的比較重的音素或短語，因此常常給人一種幻覺，語音的輕重是由氣流的強(qiáng)弱產(chǎn)生的．漢語普通話中，一般可以將漢語重音分為:詞重音和句重音．所謂詞重音，指詞的某個(gè)音節(jié)可分為重輕等級．漢語的語句重音是指一句話里重讀的某個(gè)音節(jié)或詞語．韻律的層級結(jié)構(gòu)和重音構(gòu)成了韻律研究中的兩個(gè)基本的問題．

現(xiàn)有的研究中，大部分都是基于大規(guī)模語料庫的統(tǒng)計(jì)方法．為了描述韻律特征的結(jié)構(gòu)信息、輕重音以及基頻運(yùn)動的模式，需要一個(gè)統(tǒng)一的框架．目前，已有很多這樣的描述框架，如 ToBI［6］、TILT［7］、Fujisaki 等人［8］、IViE［9］、C_ToBI［10］等．在構(gòu)建這些標(biāo)有韻律信息的韻律庫時(shí)，完全依靠人工標(biāo)注這些韻律結(jié)構(gòu)信息和輕重音是十分耗時(shí)的和低效的，并且也不準(zhǔn)確;還不利于韻律模型在自然語言理解中的應(yīng)用．因此，人們越來越傾向于利用計(jì)算機(jī)技術(shù)，通過建立模型對韻律進(jìn)行自動標(biāo)注．

該研究中將充分利用來自聲學(xué)(如基頻或音高、能量、音強(qiáng)、時(shí)長等方面)的信息以及上下文方面的信息，構(gòu)建漢語重音檢測的特征集，使用Weka中的機(jī)器學(xué)習(xí)的方法訓(xùn)練模型，進(jìn)而對漢語重音進(jìn)行檢測．

該文在第1部分中將詳細(xì)闡述本研究的國內(nèi)外研究概況和發(fā)展趨勢;在第2部分簡單介紹ASCDD朗讀語篇語料庫;在第3部分詳細(xì)介紹了本文所使用的上下文多維度聲學(xué)特征組;在第4部分對實(shí)驗(yàn)環(huán)境進(jìn)行描述;并對實(shí)驗(yàn)結(jié)果進(jìn)行分析;在第5部分，給出我們的實(shí)驗(yàn)結(jié)果和本研究領(lǐng)域的發(fā)展趨勢．

1 國內(nèi)外研究概況和發(fā)展趨勢

國內(nèi)研究狀況，對于漢語的重音檢測技術(shù)，胡偉湘等人［11］利用音長和音高聲學(xué)相關(guān)特征，采用基于分類回歸樹結(jié)構(gòu)的區(qū)分度模型，在韻律標(biāo)注語料庫ASCCD上能夠達(dá)到78%的重音檢測正確率．邵艷秋等人［12］又利用神經(jīng)網(wǎng)絡(luò)對聲學(xué)相關(guān)特征進(jìn)行漢語重音檢測，能夠達(dá)到78．4%的正確率．倪崇嘉等人［13］對漢語重音檢測做了進(jìn)一步的研究，利用聲學(xué)相關(guān)特征以及詞典語法相關(guān)特征對漢語重音進(jìn)行檢測，采用Boosting集成分類回歸樹對當(dāng)前音節(jié)的聲學(xué)相關(guān)特征以及詞典和語法相關(guān)特征進(jìn)行建模，同時(shí)還對詞典和語法相關(guān)特征采用條件隨機(jī)場方法建模，最后，將Boosting集成分類回歸樹模型和條件隨機(jī)場模型加權(quán)組合獲得識別率更高的混合模型，在ASCCD語料庫上能夠獲得76．3%重音檢測正確率．

國外研究狀況，對于英語的重音檢測技術(shù)，Ananthakrishnan等人［14］構(gòu)建了韻律識別系統(tǒng)，選用耦合隱馬爾可夫模型(CHMM)在音節(jié)和詞層次上對重音進(jìn)行檢測．在基于BURNC語料庫重音檢測的實(shí)驗(yàn)表明，在音節(jié)層次或音素層次上達(dá)到74．9%英語重音檢測正確率．2008年，Ananthakrishnan等人［15］又在上述研究的基礎(chǔ)上，在最大后驗(yàn)概率(Maximum A Prior，MAP)框架下，利用BURNC語料庫對英語重音進(jìn)行檢測，能夠達(dá)到86．75%的重音檢測正確率．然后，Ananthakrishnan等人［16］僅利用RFC特征和韻律語言模型對英語重音進(jìn)行檢測，在BURNC語料庫上能夠達(dá)到67．7%檢測正確率．Sridhar等人［17］在最大熵框架下，利用聲學(xué)和語法的特征對韻律進(jìn)行自動標(biāo)注，在波士頓大學(xué)廣播新聞?wù)Z料庫和波士頓Derection語料庫(Boston Directions Corpus，BDC)上對單個(gè)詞的重音檢測分別能夠達(dá)到86．0%和79．8%的正確率．Johnson等人［18］利用神經(jīng)網(wǎng)絡(luò)和高斯混合模型在BURNC語料庫上實(shí)驗(yàn)，結(jié)果充分表明，對單個(gè)詞的重音能夠達(dá)到84．2%檢測正確率．Rosenberg等人［19］試驗(yàn)了在2～20 bark上，僅采用能量相關(guān)特征，利用分類回歸樹的C4．5算法對重音進(jìn)行檢測，在BDC語料庫上對重音的檢測正確率能夠達(dá)到81．9%．Sun［20］利用 Pitch Target特征，同時(shí)結(jié)合時(shí)長、能量以及一些文本特征構(gòu)造特征集，采用集成機(jī)器學(xué)習(xí)的Boosting和Bagging方法訓(xùn)練分類器，分別能夠達(dá)到87．17%和84．26%的重音檢測正確率．Hun等人［21］利用聲學(xué)相關(guān)特征和詞典語法特征方面的信息，采用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法建立聲學(xué)-重音模型和語法-重音模型，并通過加權(quán)的方法對聲學(xué)-重音模型和語法-重音模型進(jìn)行組合，能夠達(dá)到89．84%的重音檢測正確率．Margolis等人［22］利用 Boosting方法、決策樹以及高斯線性分類器對重音進(jìn)行檢測，分別達(dá)到 88．0%、86．3%、87．1%的檢測正確率．

2 ASCCD朗讀語篇語料庫

ASCCD朗讀語篇語料庫(Annotated Speech Corpus of Chinese Discourse)由語篇語料、語音數(shù)據(jù)和語音學(xué)標(biāo)注信息組成，適用于語言語音研究、語音工程開發(fā)和基礎(chǔ)漢語普通話教學(xué)等領(lǐng)域．語料文本是18篇敘事體、議論體語篇，每篇3～5個(gè)自然段，每個(gè)自然段500～600個(gè)音節(jié)，總計(jì)9000個(gè)音節(jié)，共10個(gè)發(fā)音人，5男5女，分別記為 M001、M002、M003、M004、M005、F001、F002、F003、F004、F005，使用標(biāo)準(zhǔn)普通話，以自然的方式，標(biāo)準(zhǔn)的語速，流暢地朗讀語篇．所有語音都經(jīng)過標(biāo)注，音段采用SAMPA-C標(biāo)準(zhǔn)標(biāo)注［23］，韻律采用C-ToBI韻律標(biāo)注系統(tǒng)標(biāo)注，其標(biāo)注了音節(jié)拼音、聲韻母、聲調(diào)、韻律邊界等級以及語句重音信息［24］．標(biāo)記每個(gè)韻律單位的重音，共分0、1、2、3級．漢語的重音也是與韻律結(jié)構(gòu)對應(yīng)的層級結(jié)構(gòu)．韻律詞中最重音節(jié)重音標(biāo)為1，次要韻律短語中最重音節(jié)重音標(biāo)為2，主要韻律短語中最重音節(jié)重音標(biāo)為3，0則表示不重讀，即正常讀音．在本研究中，我們將音節(jié)分為輕音、正常讀音和重音，不細(xì)分它們之間的差別，將韻律詞重音和次要韻律短語(MIP)重音看做正常讀音，只把主要韻律短語(MAP)重音看作是重讀．ASCCD語料庫中重音的分布如表1所示．

表1 ASCCD語料庫中重音的分布

3 基于聲學(xué)特征相關(guān)特征的重音檢測

文獻(xiàn)［25］和文獻(xiàn)［26］表明，時(shí)長、強(qiáng)度和基頻等聲學(xué)特征，與重音有很強(qiáng)的相關(guān)性．因此，在本文采用時(shí)長、基頻、音強(qiáng)和能量等相關(guān)聲學(xué)特征對漢語重音進(jìn)行預(yù)測．重音是語音信號的一部分區(qū)域，那么，重音的表現(xiàn)也會受到周圍環(huán)境影響．因此，我們假設(shè)基于上下文的聲學(xué)特征能夠提高漢語重音的檢測正確率．為了驗(yàn)證我們的假設(shè)，我們提取了基頻、音強(qiáng)、能量和時(shí)長的上下文特征．漢語中單音節(jié)詞和雙音節(jié)詞所占的比重較高，故本文選取了八個(gè)上下文窗口:(1)當(dāng)前音節(jié)前一個(gè)音節(jié);(2)當(dāng)前音節(jié)后一個(gè)音節(jié);(3)當(dāng)前音節(jié)前兩個(gè)音節(jié);(4)當(dāng)前音節(jié)后兩個(gè)音節(jié);(5)當(dāng)前音節(jié)前一個(gè)音節(jié)和當(dāng)前音節(jié)后一個(gè)音節(jié);(6)當(dāng)前音節(jié)前一個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié);(7)當(dāng)前音節(jié)前兩個(gè)音節(jié)和當(dāng)前音節(jié)后一個(gè)音節(jié);(8)當(dāng)前音節(jié)前兩個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié)．本文是采用Z-SCORE算法對某些特征進(jìn)行標(biāo)準(zhǔn)化的．

3．1 對于基頻特征，為每一音節(jié)計(jì)算下列特征

f0_min:當(dāng)前音節(jié)的基頻最小值

f0_max:當(dāng)前音節(jié)的基頻最大值

f0_mean:當(dāng)前音節(jié)的基頻平均值

f0_stdev:當(dāng)前音節(jié)的基頻標(biāo)準(zhǔn)差

f0_zMax:當(dāng)前音節(jié)歸一化后的基頻最大值

norm_f0_min:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻最小值

norm_f0_max:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻最大值

norm_f0_mean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻平均值

norm_f0_stdev:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻標(biāo)準(zhǔn)差

norm_f0_zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)歸一化的基頻最大值

delta_f0_min:當(dāng)前音節(jié)基頻曲線傾斜度的最小值

delta_f0_max:當(dāng)前音節(jié)基頻曲線傾斜度的最大值

delta_f0_mean:當(dāng)前音節(jié)基頻曲線傾斜度的平均值

delta_f0_stdev:當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差

delta_f0_zMax:當(dāng)前音節(jié)基頻曲線傾斜度歸一化的最大值

delta_norm_f0_min:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的最小值

delta_norm_f0_max:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的最大值

delta_norm_f0_mean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的平均值

delta_norm_f0_stdev:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差

delta_norm_f0_zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度歸一化后的最大值

f0_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的基頻最大值

f0_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的基頻平均值

norm_f0_f2b0__zMean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化基頻平均值

norm_f0_f2b0__zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化基頻最大值

delta_f0_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化平均值

delta_f0_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化最大值

delta_norm_f0_f2b0__zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化最大值

delta_norm_f0_f2b0__zMean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化平均值

漢語中單音節(jié)和雙音節(jié)詞所占的比重較高，所以本文選取當(dāng)前音節(jié)前兩個(gè)音節(jié)、一個(gè)音節(jié)、零個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié)、一個(gè)音節(jié)、零個(gè)音節(jié)這樣八個(gè)上下文窗口，同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣，也計(jì)算了其他7個(gè)上下文窗口的基頻類似特征．

3．2 對于音強(qiáng)特征，為每一音節(jié)計(jì)算下列特征

I_min:當(dāng)前音節(jié)的音強(qiáng)最小值

I_max:當(dāng)前音節(jié)的音強(qiáng)最大值

I_mean:當(dāng)前音節(jié)的音強(qiáng)平均值

I_stdev:當(dāng)前音節(jié)的音強(qiáng)標(biāo)準(zhǔn)差

I_zMax:當(dāng)前音節(jié)歸一化后的音強(qiáng)最大值

norm_I_min:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最小值

norm_I_max:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最大值

norm_I_mean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)平均值

norm_I_stdev:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)標(biāo)準(zhǔn)差

norm_I_zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最大值

delta_I_min:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最小值

delta_I_max:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最大值

delta_I_mean:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的平均值

delta_I_stdev:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的標(biāo)準(zhǔn)差

delta_I_zMax:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度歸一化的最大值

delta_norm_I_min:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最小值

delta_norm_I_max:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最大值

delta_norm_I_mean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的平均值

delta_norm_I_stdev:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差

delta_norm_I_zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度歸一化的最大值

I_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的音強(qiáng)最大值

I_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的音強(qiáng)平均值

norm_I_f2b0__zMean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化音強(qiáng)平均值

norm_I_f2b0__zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化音強(qiáng)最大值

delta_I_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化平均值

delta_I_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化最大值

delta_norm_I_f2b0__zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化最大值

delta_norm_I_f2b0__zMean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化平均值

同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣，也計(jì)算了其他7個(gè)上下文窗口的音強(qiáng)類似特征．

3．3 對于能量特征，為每一音節(jié)計(jì)算下列特征

bark__mean:當(dāng)前音節(jié)500～2000 Hz頻率范圍內(nèi)能量的平均值

bark__zMax:當(dāng)前音節(jié)500～2000 Hz頻率范圍內(nèi)能量歸一化的最大值

bark__max:當(dāng)前音節(jié)500～2000 Hz頻率范圍內(nèi)能量的最大值

bark__stdev:當(dāng)前音節(jié)500～2000 Hz頻率范圍內(nèi)能量的標(biāo)準(zhǔn)值

bark__min:當(dāng)前音節(jié)500～2000 Hz頻率范圍內(nèi)能量的最小值

bark_tilt__stdev:當(dāng)前音節(jié)500～2000 Hz頻率范圍內(nèi)的能量與總能量的比值的標(biāo)準(zhǔn)差

bark_tilt__min:當(dāng)前音節(jié)500～2000 Hz頻率范圍內(nèi)的能量與總能量的比值的最小值

bark_tilt__mean:當(dāng)前音節(jié)500～2000 Hz頻率范圍內(nèi)的能量與總能量的比值的平均值

bark_tilt__zMax:當(dāng)前音節(jié)500～2000 Hz頻率范圍內(nèi)的能量與總能量的比值歸一化的最大值

bark_tilt__max最大值:當(dāng)前音節(jié)500～2000 Hz頻率范圍內(nèi)的能量與總能量的比值的最大值

bark_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500～2000 Hz頻率范圍內(nèi)能量歸一化的平均值

bark_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500～2000 Hz頻率范圍內(nèi)能量歸一化的最大值

bark_tilt_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500～2000 Hz頻率范圍內(nèi)能量與總能量的比值歸一化的最大值

bark_tilt_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500～2000 Hz頻率范圍內(nèi)能量與總能量的比值歸一化的平均值

英語重音和荷蘭語重音的研究表明:在500 Hz到2000 Hz頻帶上的能量與重音有密切的聯(lián)系［13］．同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣，也計(jì)算了其他7個(gè)上下文窗口的能量類似特征．

3．4 對于時(shí)長特征，為每一音節(jié)計(jì)算下列特征

duration_duration:當(dāng)前音節(jié)的時(shí)長

duration_follpause:當(dāng)前音節(jié)之后的停頓時(shí)間

duration_duration_f2b0_zNorm:當(dāng)前音節(jié)前兩個(gè)音節(jié)的時(shí)長標(biāo)準(zhǔn)化

同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣，也計(jì)算了其他7個(gè)上下文窗口的時(shí)長類似特征．

4 試驗(yàn)及實(shí)驗(yàn)結(jié)果分析

4．1 實(shí)驗(yàn)環(huán)境

在漢語語料庫ASCCD上，選擇F001、F002、F003和F005四個(gè)人作為訓(xùn)練集，選擇F004一個(gè)人作為測試集，在句子層次上訓(xùn)練集與測試集的大小是4∶1，在音節(jié)層次上訓(xùn)練集共包含了35060個(gè)音節(jié)，測試集上共包含了8761個(gè)音節(jié)，其中重音音節(jié)有964個(gè)．對于機(jī)器學(xué)習(xí)方法，我們采用WEKA的NaiveBayes分類器，并且使用WEKA的默認(rèn)設(shè)置訓(xùn)練得到．

貝葉斯分類器的分類原理是通過某對象的先驗(yàn)概率，利用貝葉斯公式計(jì)算出其后驗(yàn)概率，即該對象屬于某一類的概率，選擇具有最大后驗(yàn)概率的類作為該對象所屬的類．

4．2 實(shí)驗(yàn)結(jié)果及分析

表2 基于聲學(xué)特征的漢語重音檢測正確率

該文和文獻(xiàn)［13］最大的不同是選取的上下文窗口．文獻(xiàn)［13］認(rèn)為，漢語在重讀時(shí)，當(dāng)前音節(jié)之前的音節(jié)對重音的影響程度要大于當(dāng)前音節(jié)之后的影響，所以，只選擇了當(dāng)前音節(jié)之前的兩個(gè)音節(jié)以及之后的一個(gè)音節(jié)作為當(dāng)前音節(jié)的上下文窗口．該文實(shí)驗(yàn)表明，不同上下文窗口的優(yōu)化組合能更好檢測漢語重音，其結(jié)果見表2．

表3 各個(gè)聲學(xué)特征的檢測正確率

重音感知中不僅僅有聲學(xué)特征，還有詞典、語法特征．在眾多特征中，哪種特征是影響重音感知最重要的因素，不同人有不同的解釋．趙元任先生認(rèn)為，漢語重音特征表現(xiàn)為音域加寬、音程加大，其次才是氣流加強(qiáng)［27］．林茂燦等人認(rèn)為，漢語重音最重要的特征是音長增加，而音強(qiáng)的作用不是想象中那么大［28］．沈?yàn)热藙t認(rèn)為，在聽辨重音時(shí)，時(shí)長的作用并不明顯，而音高的作用很重要［29］．在該實(shí)驗(yàn)中，基頻、音強(qiáng)、時(shí)長和能量四種聲學(xué)特征之間進(jìn)行比較可得出，基頻是重音感知最重要的因素(見表3)．

5 總結(jié)與展望

該文基于ASCCD朗讀語篇語料庫，結(jié)合上下文多維度聲學(xué)相關(guān)特征進(jìn)行漢語重音檢測，采用NaiveBayes算法對當(dāng)前音節(jié)及前后音節(jié)的聲學(xué)特征組進(jìn)行建模，該方法充分利用了當(dāng)前音節(jié)及前后音節(jié)的相關(guān)特性．實(shí)驗(yàn)的結(jié)果表明Naive-Bayes分類器具有良好的分類效果．將來，我們要對所用的特征進(jìn)行簡化，嘗試使用其他的特征組合，比如語言學(xué)特征，并還要探索其他的建模方法和技術(shù)以刻畫重音的屬性．

［1］ Gallwitz F，Batliner A，Buckow J，et al．Integrated recognition of words and phrase boundaries［J］．Proceedings of the International Conference on Spoken Language Processing，1998(7):2883-2886．

［2］ Hirschberg Julia，Swerts Marc．Prosodic cues to recognition errors［J］．Proceedings of the Automatic Speech Recognition and Understanding Workshop，1999:345-352．

［3］ Hirschberg Julia，Litman Diane，Swerts Marc．Generalizing prosodic prediction of speech recognition errors［J］．Proceedings of the International Conference on Spoken Language Processing，2000:615-618．

［4］ Hirschberg Julia．Communication and prosody:Functional aspects of prosody［J］．Speech Communication，2002，36(1):31-43．

［5］韓紀(jì)慶，張磊，鄭鐵然．語音信號處理［M］．北京:清華大學(xué)出版社，2004．

［6］ Silverman K，Beckman M，Pitrelli J，et al．ToBI:A standard for labeling English prosody［C］．//Proceedings of the 1992 international conference on spoken language processing，1992(2):867-870．

［7］ Taylor P．The TILT intonation model［J］．Proceedings of the International Conference on Spoken Language Processing Sydney．Australia，1998(4):1383-1386．

［8］ Fujisaki H，Hirose K．Modeling the dynamic characteristics of voice fundamental frequency with application to analysis and synthesis of intonation［J］Proceedings of the International Congress of Linguistic．Tokyo，Japan，1982:57-70．

［9］ Grabe E，Nolan F，F(xiàn)arrar K．IViE-A comparative transcription system for international variation in English//Proceedings of the International Conference on Spoken Language Processing．Sydney，Australia，1998:1259-1262．

［10］ Li Aijun．Chinese prosody and prosodic labeling of spontaneous speech//Proceedings of the Speech Prosody 2002．Aixen-Provence，F(xiàn)rance，2002:39-46．

［11］胡偉湘，董宏輝，陶建華．等．漢語朗讀話語重音自動分類研究［J］．中文信息學(xué)報(bào)，2005，19(6):78-83．

［12］邵艷秋，韓紀(jì)慶，劉挺．等．自然風(fēng)格言語的漢語句重音自動判別研究［J］．聲學(xué)學(xué)報(bào)，2006，31(3):203-210．

［13］倪崇嘉，張愛英，劉文舉．基于聲學(xué)相關(guān)特征與詞典語法相關(guān)特征的漢語重音檢測［J］．計(jì)算機(jī)學(xué)報(bào)，2011，34(9):1638-1647．

［14］ Ananthakrishnan S，Narayanan S．An automatic prosody recognizer using a coupled multi-stream acoustic model and a syntactic-prosodic language model//Proceedings of the International Conference on Acoustics，Speech，and Signal Processing．Philadephia，PA，USA，2005．1-269-1-272．

［15］ Ananthakrishnan S，Narayanan S．Automatic prosodic event detection using acoustic，lexical，and syntactic evidence．IEEE Transactions on Audio，Speech，and Language Process，2008，16(1):216-228．

［16］ Ananthakrishnan S，Narayanan S．Fine-grained pitch accent and boundary tone labeling with parametric F0 features//Proceedings ofthe InternationalConference on Acoustics，Speech，and Signal Processing．Las Vegas，Nevada，USA，2008．4545-4548．

［19］ Sridhar V K R，et al．Exploiting acoustic and syntactic features for automatic prosody labeling in a maximum entropy framework．IEEE Transactions on Audio，Speech，and Language Process，2008，16(4):797-811．

［20］ Johnson M H，et al．Simultaneous recognition of words and prosody in Boston University radio speech corpus．Speech Communications，2005，46(3-4):418-438．

［21］ Rosenberg A，Hirschberg J．Detecting pitch accent using pitch-corrected energy-based predictors//Proceedings of the Interspeech．Antwerp，Belgium，2007．2777-2780．

［22］ Sun Xuejing．Pitch accent prediction using ensemble machine learning//Proceedings of the International Conference on Spoken Language Processing．Denver，Colorado，USA，2002．953-956．

［23］ Hun J，Liu Y．Automatic prosodic events detection using syllable-based acoustic and syntactic features//Proceedings of the International Conference on Acoustics，Speech，and Signal Processing．Taipei，Taiwan，China，2009:4565-4568．

［24］ Margolis A，Ostendorf M．Acoustic-based pitch-accent detection in speech:Dependence on word identity and insensitivity to variations in word usage//Proceedings of the International Conference on Acoustics，Speech，and Signal Processing．Taipei，Taiwan，Chhina，2009．4513-4516．

［25］ Chen Xiaoxia，Li Aijun，Sun Guohua，et al．An application of SAMPA-C for standard Chinese//Proceedings of the International Conference on Spoken Language Processing．Beijing，China，2000．652-655．

［26］ Li Aijun．Chinese prosody and prosodic labeling of spontaneous speech//Proceedings of the Speech Prosody 200．Aix-en-Provence，F(xiàn)rance，2002．39-46．

［27］ Pitrelli J F．ToBI prosodic analysis of a professional speaker of American English//Proceedings of the Speech Prosody．Nara，Japan，2004．557-560．

［28］ Nenkova A，Brenier J，Kothari A，et al．To memorize or to Predict:Prominence labeling in conversational speech//Proceedings of the HLT-NAACL．Rochester，NY，USA，2007．9-16．

［29］趙元任．語言問題．北京:商務(wù)印書館，1980．

［30］林茂燦．顏景助．孫國華．北京話兩字組正常重音的初步試驗(yàn)．方言，1984(1):57-73．

［31］沈炯，Hoek J H．漢語語勢重音的音理:簡要報(bào)告．語文研究，1994(3):10-15．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡