趙云雪,張 瓏,鄭世杰
(哈爾濱師范大學(xué))
在語音信號處理領(lǐng)域,韻律模型的研究已經(jīng)很好地用于英語、法語的語音識別[1-4].近些年,隨著研究的不斷深入,技術(shù)的不斷進(jìn)步,韻律模型也開始逐步地應(yīng)用到漢語的語音識別領(lǐng)域.特別是基于朗讀語篇語料庫,語音的韻律特征成為語音識別技術(shù)中的研究焦點(diǎn).
韻律規(guī)則是合成語音中的一個(gè)不可或缺的部分.在許多西方語言為母語的人眼里,漢語聽起來,有聲有色、有板有眼、快慢有致,像歌曲一樣優(yōu)美動聽.語流中這種由音高、音長、音強(qiáng)和時(shí)長等所體現(xiàn)出來的特征,稱為“韻律特征”,也叫“超音段特征”[5],它們反映出語音信號不同特性之間的差異.韻律特征主要包括聲調(diào)、語調(diào)、重音和節(jié)奏等.聲調(diào)屬于音節(jié)層的韻律;語調(diào)屬于句子層,乃至語篇層的韻律.韻律對合成語音的自然度和可懂讀以及是否連貫的影響極大,甚至還會影響語音識別的可理解度.對于同一個(gè)音素,由于語境不同,重音的表現(xiàn)也會不同,并且聲學(xué)特征會表現(xiàn)出很大的差別.通過修改語音數(shù)據(jù)的聲學(xué)參數(shù),如基頻、音長和音強(qiáng),可以進(jìn)行重音和語調(diào)的模擬,實(shí)現(xiàn)語速和聲調(diào)的變化.
眾所周知,漢語可以分為字、詞、短語、句子、段落和篇章等不同部分.相應(yīng)地,漢語的重音也有與韻律結(jié)構(gòu)相對應(yīng)的層級結(jié)構(gòu),可以分為:音節(jié)、音步、韻律詞、韻律短語和語調(diào)單位.從目前語音識別的研究狀況來看,我們常常關(guān)心詞與詞之間的或者句子與句子之間韻律層級.關(guān)于漢語韻律層級的劃分以及韻律劃分同句法和語法之間的關(guān)系,很多研究者給出了不同的結(jié)論.并且,我們也知道人們在進(jìn)行語言交流時(shí),其交流的語言不僅僅是各個(gè)單元的層級結(jié)構(gòu),還有各個(gè)單元的輕重也同樣起著非常重要的作用.一般說漢語的重音,是指說話或朗讀時(shí)讀的比較重的音素或短語,因此常常給人一種幻覺,語音的輕重是由氣流的強(qiáng)弱產(chǎn)生的.漢語普通話中,一般可以將漢語重音分為:詞重音和句重音.所謂詞重音,指詞的某個(gè)音節(jié)可分為重輕等級.漢語的語句重音是指一句話里重讀的某個(gè)音節(jié)或詞語.韻律的層級結(jié)構(gòu)和重音構(gòu)成了韻律研究中的兩個(gè)基本的問題.
現(xiàn)有的研究中,大部分都是基于大規(guī)模語料庫的統(tǒng)計(jì)方法.為了描述韻律特征的結(jié)構(gòu)信息、輕重音以及基頻運(yùn)動的模式,需要一個(gè)統(tǒng)一的框架.目前,已有很多這樣的描述框架,如 ToBI[6]、TILT[7]、Fujisaki 等人[8]、IViE[9]、C_ToBI[10]等.在構(gòu)建這些標(biāo)有韻律信息的韻律庫時(shí),完全依靠人工標(biāo)注這些韻律結(jié)構(gòu)信息和輕重音是十分耗時(shí)的和低效的,并且也不準(zhǔn)確;還不利于韻律模型在自然語言理解中的應(yīng)用.因此,人們越來越傾向于利用計(jì)算機(jī)技術(shù),通過建立模型對韻律進(jìn)行自動標(biāo)注.
該研究中將充分利用來自聲學(xué)(如基頻或音高、能量、音強(qiáng)、時(shí)長等方面)的信息以及上下文方面的信息,構(gòu)建漢語重音檢測的特征集,使用Weka中的機(jī)器學(xué)習(xí)的方法訓(xùn)練模型,進(jìn)而對漢語重音進(jìn)行檢測.
該文在第1部分中將詳細(xì)闡述本研究的國內(nèi)外研究概況和發(fā)展趨勢;在第2部分簡單介紹ASCDD朗讀語篇語料庫;在第3部分詳細(xì)介紹了本文所使用的上下文多維度聲學(xué)特征組;在第4部分對實(shí)驗(yàn)環(huán)境進(jìn)行描述;并對實(shí)驗(yàn)結(jié)果進(jìn)行分析;在第5部分,給出我們的實(shí)驗(yàn)結(jié)果和本研究領(lǐng)域的發(fā)展趨勢.
國內(nèi)研究狀況,對于漢語的重音檢測技術(shù),胡偉湘等人[11]利用音長和音高聲學(xué)相關(guān)特征,采用基于分類回歸樹結(jié)構(gòu)的區(qū)分度模型,在韻律標(biāo)注語料庫ASCCD上能夠達(dá)到78%的重音檢測正確率.邵艷秋等人[12]又利用神經(jīng)網(wǎng)絡(luò)對聲學(xué)相關(guān)特征進(jìn)行漢語重音檢測,能夠達(dá)到78.4%的正確率.倪崇嘉等人[13]對漢語重音檢測做了進(jìn)一步的研究,利用聲學(xué)相關(guān)特征以及詞典語法相關(guān)特征對漢語重音進(jìn)行檢測,采用Boosting集成分類回歸樹對當(dāng)前音節(jié)的聲學(xué)相關(guān)特征以及詞典和語法相關(guān)特征進(jìn)行建模,同時(shí)還對詞典和語法相關(guān)特征采用條件隨機(jī)場方法建模,最后,將Boosting集成分類回歸樹模型和條件隨機(jī)場模型加權(quán)組合獲得識別率更高的混合模型,在ASCCD語料庫上能夠獲得76.3%重音檢測正確率.
國外研究狀況,對于英語的重音檢測技術(shù),Ananthakrishnan等人[14]構(gòu)建了韻律識別系統(tǒng),選用耦合隱馬爾可夫模型(CHMM)在音節(jié)和詞層次上對重音進(jìn)行檢測.在基于BURNC語料庫重音檢測的實(shí)驗(yàn)表明,在音節(jié)層次或音素層次上達(dá)到74.9%英語重音檢測正確率.2008年,Ananthakrishnan等人[15]又在上述研究的基礎(chǔ)上,在最大后驗(yàn)概率(Maximum A Prior,MAP)框架下,利用BURNC語料庫對英語重音進(jìn)行檢測,能夠達(dá)到86.75%的重音檢測正確率.然后,Ananthakrishnan等人[16]僅利用RFC特征和韻律語言模型對英語重音進(jìn)行檢測,在BURNC語料庫上能夠達(dá)到67.7%檢測正確率.Sridhar等人[17]在最大熵框架下,利用聲學(xué)和語法的特征對韻律進(jìn)行自動標(biāo)注,在波士頓大學(xué)廣播新聞?wù)Z料庫和波士頓Derection語料庫(Boston Directions Corpus,BDC)上對單個(gè)詞的重音檢測分別能夠達(dá)到86.0%和79.8%的正確率.Johnson等人[18]利用神經(jīng)網(wǎng)絡(luò)和高斯混合模型在BURNC語料庫上實(shí)驗(yàn),結(jié)果充分表明,對單個(gè)詞的重音能夠達(dá)到84.2%檢測正確率.Rosenberg等人[19]試驗(yàn)了在2~20 bark上,僅采用能量相關(guān)特征,利用分類回歸樹的C4.5算法對重音進(jìn)行檢測,在BDC語料庫上對重音的檢測正確率能夠達(dá)到81.9%.Sun[20]利用 Pitch Target特征,同時(shí)結(jié)合時(shí)長、能量以及一些文本特征構(gòu)造特征集,采用集成機(jī)器學(xué)習(xí)的Boosting和Bagging方法訓(xùn)練分類器,分別能夠達(dá)到87.17%和84.26%的重音檢測正確率.Hun等人[21]利用聲學(xué)相關(guān)特征和詞典語法特征方面的信息,采用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法建立聲學(xué)-重音模型和語法-重音模型,并通過加權(quán)的方法對聲學(xué)-重音模型和語法-重音模型進(jìn)行組合,能夠達(dá)到89.84%的重音檢測正確率.Margolis等人[22]利用 Boosting方法、決策樹以及高斯線性分類器對重音進(jìn)行檢測,分別達(dá)到 88.0%、86.3%、87.1%的檢測正確率.
ASCCD朗讀語篇語料庫(Annotated Speech Corpus of Chinese Discourse)由語篇語料、語音數(shù)據(jù)和語音學(xué)標(biāo)注信息組成,適用于語言語音研究、語音工程開發(fā)和基礎(chǔ)漢語普通話教學(xué)等領(lǐng)域.語料文本是18篇敘事體、議論體語篇,每篇3~5個(gè)自然段,每個(gè)自然段500~600個(gè)音節(jié),總計(jì)9000個(gè)音節(jié),共10個(gè)發(fā)音人,5男5女,分別記為 M001、M002、M003、M004、M005、F001、F002、F003、F004、F005,使用標(biāo)準(zhǔn)普通話,以自然的方式,標(biāo)準(zhǔn)的語速,流暢地朗讀語篇.所有語音都經(jīng)過標(biāo)注,音段采用SAMPA-C標(biāo)準(zhǔn)標(biāo)注[23],韻律采用C-ToBI韻律標(biāo)注系統(tǒng)標(biāo)注,其標(biāo)注了音節(jié)拼音、聲韻母、聲調(diào)、韻律邊界等級以及語句重音信息[24].標(biāo)記每個(gè)韻律單位的重音,共分0、1、2、3級.漢語的重音也是與韻律結(jié)構(gòu)對應(yīng)的層級結(jié)構(gòu).韻律詞中最重音節(jié)重音標(biāo)為1,次要韻律短語中最重音節(jié)重音標(biāo)為2,主要韻律短語中最重音節(jié)重音標(biāo)為3,0則表示不重讀,即正常讀音.在本研究中,我們將音節(jié)分為輕音、正常讀音和重音,不細(xì)分它們之間的差別,將韻律詞重音和次要韻律短語(MIP)重音看做正常讀音,只把主要韻律短語(MAP)重音看作是重讀.ASCCD語料庫中重音的分布如表1所示.
表1 ASCCD語料庫中重音的分布
文獻(xiàn)[25]和文獻(xiàn)[26]表明,時(shí)長、強(qiáng)度和基頻等聲學(xué)特征,與重音有很強(qiáng)的相關(guān)性.因此,在本文采用時(shí)長、基頻、音強(qiáng)和能量等相關(guān)聲學(xué)特征對漢語重音進(jìn)行預(yù)測.重音是語音信號的一部分區(qū)域,那么,重音的表現(xiàn)也會受到周圍環(huán)境影響.因此,我們假設(shè)基于上下文的聲學(xué)特征能夠提高漢語重音的檢測正確率.為了驗(yàn)證我們的假設(shè),我們提取了基頻、音強(qiáng)、能量和時(shí)長的上下文特征.漢語中單音節(jié)詞和雙音節(jié)詞所占的比重較高,故本文選取了八個(gè)上下文窗口:(1)當(dāng)前音節(jié)前一個(gè)音節(jié);(2)當(dāng)前音節(jié)后一個(gè)音節(jié);(3)當(dāng)前音節(jié)前兩個(gè)音節(jié);(4)當(dāng)前音節(jié)后兩個(gè)音節(jié);(5)當(dāng)前音節(jié)前一個(gè)音節(jié)和當(dāng)前音節(jié)后一個(gè)音節(jié);(6)當(dāng)前音節(jié)前一個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié);(7)當(dāng)前音節(jié)前兩個(gè)音節(jié)和當(dāng)前音節(jié)后一個(gè)音節(jié);(8)當(dāng)前音節(jié)前兩個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié).本文是采用Z-SCORE算法對某些特征進(jìn)行標(biāo)準(zhǔn)化的.
f0_min:當(dāng)前音節(jié)的基頻最小值
f0_max:當(dāng)前音節(jié)的基頻最大值
f0_mean:當(dāng)前音節(jié)的基頻平均值
f0_stdev:當(dāng)前音節(jié)的基頻標(biāo)準(zhǔn)差
f0_zMax:當(dāng)前音節(jié)歸一化后的基頻最大值
norm_f0_min:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻最小值
norm_f0_max:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻最大值
norm_f0_mean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻平均值
norm_f0_stdev:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻標(biāo)準(zhǔn)差
norm_f0_zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)歸一化的基頻最大值
delta_f0_min:當(dāng)前音節(jié)基頻曲線傾斜度的最小值
delta_f0_max:當(dāng)前音節(jié)基頻曲線傾斜度的最大值
delta_f0_mean:當(dāng)前音節(jié)基頻曲線傾斜度的平均值
delta_f0_stdev:當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差
delta_f0_zMax:當(dāng)前音節(jié)基頻曲線傾斜度歸一化的最大值
delta_norm_f0_min:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的最小值
delta_norm_f0_max:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的最大值
delta_norm_f0_mean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的平均值
delta_norm_f0_stdev:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差
delta_norm_f0_zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度歸一化后的最大值
f0_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的基頻最大值
f0_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的基頻平均值
norm_f0_f2b0__zMean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化基頻平均值
norm_f0_f2b0__zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化基頻最大值
delta_f0_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化平均值
delta_f0_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化最大值
delta_norm_f0_f2b0__zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化最大值
delta_norm_f0_f2b0__zMean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化平均值
漢語中單音節(jié)和雙音節(jié)詞所占的比重較高,所以本文選取當(dāng)前音節(jié)前兩個(gè)音節(jié)、一個(gè)音節(jié)、零個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié)、一個(gè)音節(jié)、零個(gè)音節(jié)這樣八個(gè)上下文窗口,同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的基頻類似特征.
I_min:當(dāng)前音節(jié)的音強(qiáng)最小值
I_max:當(dāng)前音節(jié)的音強(qiáng)最大值
I_mean:當(dāng)前音節(jié)的音強(qiáng)平均值
I_stdev:當(dāng)前音節(jié)的音強(qiáng)標(biāo)準(zhǔn)差
I_zMax:當(dāng)前音節(jié)歸一化后的音強(qiáng)最大值
norm_I_min:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最小值
norm_I_max:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最大值
norm_I_mean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)平均值
norm_I_stdev:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)標(biāo)準(zhǔn)差
norm_I_zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最大值
delta_I_min:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最小值
delta_I_max:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最大值
delta_I_mean:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的平均值
delta_I_stdev:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的標(biāo)準(zhǔn)差
delta_I_zMax:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度歸一化的最大值
delta_norm_I_min:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最小值
delta_norm_I_max:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最大值
delta_norm_I_mean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的平均值
delta_norm_I_stdev:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差
delta_norm_I_zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度歸一化的最大值
I_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的音強(qiáng)最大值
I_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的音強(qiáng)平均值
norm_I_f2b0__zMean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化音強(qiáng)平均值
norm_I_f2b0__zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化音強(qiáng)最大值
delta_I_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化平均值
delta_I_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化最大值
delta_norm_I_f2b0__zMax:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化最大值
delta_norm_I_f2b0__zMean:說話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化平均值
同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的音強(qiáng)類似特征.
bark__mean:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的平均值
bark__zMax:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量歸一化的最大值
bark__max:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的最大值
bark__stdev:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的標(biāo)準(zhǔn)值
bark__min:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的最小值
bark_tilt__stdev:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的標(biāo)準(zhǔn)差
bark_tilt__min:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的最小值
bark_tilt__mean:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的平均值
bark_tilt__zMax:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值歸一化的最大值
bark_tilt__max最大值:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的最大值
bark_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量歸一化的平均值
bark_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量歸一化的最大值
bark_tilt_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量與總能量的比值歸一化的最大值
bark_tilt_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量與總能量的比值歸一化的平均值
英語重音和荷蘭語重音的研究表明:在500 Hz到2000 Hz頻帶上的能量與重音有密切的聯(lián)系[13].同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的能量類似特征.
duration_duration:當(dāng)前音節(jié)的時(shí)長
duration_follpause:當(dāng)前音節(jié)之后的停頓時(shí)間
duration_duration_f2b0_zNorm:當(dāng)前音節(jié)前兩個(gè)音節(jié)的時(shí)長標(biāo)準(zhǔn)化
同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的時(shí)長類似特征.
在漢語語料庫ASCCD上,選擇F001、F002、F003和F005四個(gè)人作為訓(xùn)練集,選擇F004一個(gè)人作為測試集,在句子層次上訓(xùn)練集與測試集的大小是4∶1,在音節(jié)層次上訓(xùn)練集共包含了35060個(gè)音節(jié),測試集上共包含了8761個(gè)音節(jié),其中重音音節(jié)有964個(gè).對于機(jī)器學(xué)習(xí)方法,我們采用WEKA的NaiveBayes分類器,并且使用WEKA的默認(rèn)設(shè)置訓(xùn)練得到.
貝葉斯分類器的分類原理是通過某對象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對象所屬的類.
表2 基于聲學(xué)特征的漢語重音檢測正確率
該文和文獻(xiàn)[13]最大的不同是選取的上下文窗口.文獻(xiàn)[13]認(rèn)為,漢語在重讀時(shí),當(dāng)前音節(jié)之前的音節(jié)對重音的影響程度要大于當(dāng)前音節(jié)之后的影響,所以,只選擇了當(dāng)前音節(jié)之前的兩個(gè)音節(jié)以及之后的一個(gè)音節(jié)作為當(dāng)前音節(jié)的上下文窗口.該文實(shí)驗(yàn)表明,不同上下文窗口的優(yōu)化組合能更好檢測漢語重音,其結(jié)果見表2.
表3 各個(gè)聲學(xué)特征的檢測正確率
重音感知中不僅僅有聲學(xué)特征,還有詞典、語法特征.在眾多特征中,哪種特征是影響重音感知最重要的因素,不同人有不同的解釋.趙元任先生認(rèn)為,漢語重音特征表現(xiàn)為音域加寬、音程加大,其次才是氣流加強(qiáng)[27].林茂燦等人認(rèn)為,漢語重音最重要的特征是音長增加,而音強(qiáng)的作用不是想象中那么大[28].沈?yàn)热藙t認(rèn)為,在聽辨重音時(shí),時(shí)長的作用并不明顯,而音高的作用很重要[29].在該實(shí)驗(yàn)中,基頻、音強(qiáng)、時(shí)長和能量四種聲學(xué)特征之間進(jìn)行比較可得出,基頻是重音感知最重要的因素(見表3).
該文基于ASCCD朗讀語篇語料庫,結(jié)合上下文多維度聲學(xué)相關(guān)特征進(jìn)行漢語重音檢測,采用NaiveBayes算法對當(dāng)前音節(jié)及前后音節(jié)的聲學(xué)特征組進(jìn)行建模,該方法充分利用了當(dāng)前音節(jié)及前后音節(jié)的相關(guān)特性.實(shí)驗(yàn)的結(jié)果表明Naive-Bayes分類器具有良好的分類效果.將來,我們要對所用的特征進(jìn)行簡化,嘗試使用其他的特征組合,比如語言學(xué)特征,并還要探索其他的建模方法和技術(shù)以刻畫重音的屬性.
[1] Gallwitz F,Batliner A,Buckow J,et al.Integrated recognition of words and phrase boundaries[J].Proceedings of the International Conference on Spoken Language Processing,1998(7):2883-2886.
[2] Hirschberg Julia,Swerts Marc.Prosodic cues to recognition errors[J].Proceedings of the Automatic Speech Recognition and Understanding Workshop,1999:345-352.
[3] Hirschberg Julia,Litman Diane,Swerts Marc.Generalizing prosodic prediction of speech recognition errors[J].Proceedings of the International Conference on Spoken Language Processing,2000:615-618.
[4] Hirschberg Julia.Communication and prosody:Functional aspects of prosody[J].Speech Communication,2002,36(1):31-43.
[5] 韓紀(jì)慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學(xué)出版社,2004.
[6] Silverman K,Beckman M,Pitrelli J,et al.ToBI:A standard for labeling English prosody[C].//Proceedings of the 1992 international conference on spoken language processing,1992(2):867-870.
[7] Taylor P.The TILT intonation model[J].Proceedings of the International Conference on Spoken Language Processing Sydney.Australia,1998(4):1383-1386.
[8] Fujisaki H,Hirose K.Modeling the dynamic characteristics of voice fundamental frequency with application to analysis and synthesis of intonation[J]Proceedings of the International Congress of Linguistic.Tokyo,Japan,1982:57-70.
[9] Grabe E,Nolan F,F(xiàn)arrar K.IViE-A comparative transcription system for international variation in English//Proceedings of the International Conference on Spoken Language Processing.Sydney,Australia,1998:1259-1262.
[10] Li Aijun.Chinese prosody and prosodic labeling of spontaneous speech//Proceedings of the Speech Prosody 2002.Aixen-Provence,F(xiàn)rance,2002:39-46.
[11]胡偉湘,董宏輝,陶建華.等.漢語朗讀話語重音自動分類研究[J].中文信息學(xué)報(bào),2005,19(6):78-83.
[12]邵艷秋,韓紀(jì)慶,劉挺.等.自然風(fēng)格言語的漢語句重音自動判別研究[J].聲學(xué)學(xué)報(bào),2006,31(3):203-210.
[13]倪崇嘉,張愛英,劉文舉.基于聲學(xué)相關(guān)特征與詞典語法相關(guān)特征的漢語重音檢測[J].計(jì)算機(jī)學(xué)報(bào),2011,34(9):1638-1647.
[14] Ananthakrishnan S,Narayanan S.An automatic prosody recognizer using a coupled multi-stream acoustic model and a syntactic-prosodic language model//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing.Philadephia,PA,USA,2005.1-269-1-272.
[15] Ananthakrishnan S,Narayanan S.Automatic prosodic event detection using acoustic,lexical,and syntactic evidence.IEEE Transactions on Audio,Speech,and Language Process,2008,16(1):216-228.
[16] Ananthakrishnan S,Narayanan S.Fine-grained pitch accent and boundary tone labeling with parametric F0 features//Proceedings ofthe InternationalConference on Acoustics,Speech,and Signal Processing.Las Vegas,Nevada,USA,2008.4545-4548.
[19] Sridhar V K R,et al.Exploiting acoustic and syntactic features for automatic prosody labeling in a maximum entropy framework.IEEE Transactions on Audio,Speech,and Language Process,2008,16(4):797-811.
[20] Johnson M H,et al.Simultaneous recognition of words and prosody in Boston University radio speech corpus.Speech Communications,2005,46(3-4):418-438.
[21] Rosenberg A,Hirschberg J.Detecting pitch accent using pitch-corrected energy-based predictors//Proceedings of the Interspeech.Antwerp,Belgium,2007.2777-2780.
[22] Sun Xuejing.Pitch accent prediction using ensemble machine learning//Proceedings of the International Conference on Spoken Language Processing.Denver,Colorado,USA,2002.953-956.
[23] Hun J,Liu Y.Automatic prosodic events detection using syllable-based acoustic and syntactic features//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing.Taipei,Taiwan,China,2009:4565-4568.
[24] Margolis A,Ostendorf M.Acoustic-based pitch-accent detection in speech:Dependence on word identity and insensitivity to variations in word usage//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing.Taipei,Taiwan,Chhina,2009.4513-4516.
[25] Chen Xiaoxia,Li Aijun,Sun Guohua,et al.An application of SAMPA-C for standard Chinese//Proceedings of the International Conference on Spoken Language Processing.Beijing,China,2000.652-655.
[26] Li Aijun.Chinese prosody and prosodic labeling of spontaneous speech//Proceedings of the Speech Prosody 200.Aix-en-Provence,F(xiàn)rance,2002.39-46.
[27] Pitrelli J F.ToBI prosodic analysis of a professional speaker of American English//Proceedings of the Speech Prosody.Nara,Japan,2004.557-560.
[28] Nenkova A,Brenier J,Kothari A,et al.To memorize or to Predict:Prominence labeling in conversational speech//Proceedings of the HLT-NAACL.Rochester,NY,USA,2007.9-16.
[29]趙元任.語言問題.北京:商務(wù)印書館,1980.
[30]林茂燦.顏景助.孫國華.北京話兩字組正常重音的初步試驗(yàn).方言,1984(1):57-73.
[31]沈炯,Hoek J H.漢語語勢重音的音理:簡要報(bào)告.語文研究,1994(3):10-15.