基于HMM語(yǔ)音識(shí)別的韻律標(biāo)記

2015-05-30 02:52熊艷嬌

中國(guó)新通信 2015年12期

熊艷嬌

【摘要】韻律結(jié)構(gòu)的準(zhǔn)確度決定語(yǔ)音合成的自然度，想要讓合成的語(yǔ)音具有較強(qiáng)的節(jié)奏感和較高的自然度，就需要正確地把握，然后恰當(dāng)?shù)貏澐猪嵚?。本文利用語(yǔ)音識(shí)別結(jié)果，提出基于聲韻母時(shí)長(zhǎng)的韻律標(biāo)記規(guī)則，以實(shí)現(xiàn)韻律自動(dòng)標(biāo)記，并給出具體實(shí)現(xiàn)方案和過程。實(shí)驗(yàn)結(jié)果表明：采用本文提出的規(guī)則實(shí)現(xiàn)韻律自動(dòng)標(biāo)記，其可接受率已達(dá)到HMM語(yǔ)音合成的要求。

【關(guān)鍵詞】隱馬爾可夫模型語(yǔ)音識(shí)別韻律標(biāo)記

語(yǔ)音合成的自然度與語(yǔ)音的韻律要素有著緊密的聯(lián)系[1]，想要讓合成的語(yǔ)音具有較強(qiáng)的節(jié)奏感和較高的自然度，就需要正確地把握韻律結(jié)構(gòu)，然后恰當(dāng)?shù)貏澐猪嵚伞?guó)外有學(xué)者對(duì)韻律結(jié)構(gòu)中的韻律單元的組成單位（音節(jié)或者是音素）的時(shí)長(zhǎng)關(guān)系進(jìn)行了研究，特別是在英語(yǔ)方面的相關(guān)研究中，取得了一定的成果。比如說(shuō)Oller通過研究發(fā)現(xiàn)，對(duì)于英語(yǔ)單詞的音長(zhǎng)，處于詞首的輔音比處于詞中的輔音長(zhǎng)，這種情況在很多語(yǔ)言中都有出現(xiàn)?？梢姡瑥臅r(shí)長(zhǎng)角度來(lái)研究韻律是可行的。

一、語(yǔ)音識(shí)別的實(shí)現(xiàn)

1.1構(gòu)建語(yǔ)音庫(kù)

用以聲韻母為基本單位的方法進(jìn)行語(yǔ)音識(shí)別[2]，生成識(shí)別結(jié)果的原始錄音數(shù)據(jù)是由特定實(shí)驗(yàn)對(duì)象來(lái)完成的。錄音結(jié)束，對(duì)結(jié)果做如下處理：

①利用音頻處理軟件Gold Wave將錄制的語(yǔ)音數(shù)據(jù)進(jìn)行重新采樣，其采樣速率設(shè)定為16KHz。

②將數(shù)據(jù)重新保存為mono格式，保存類型設(shè)置為wav。經(jīng)過重新采樣后的音質(zhì)與原始語(yǔ)音音質(zhì)差別不是很大，可以接受。

③將該錄音wav文件進(jìn)行人工切分，一個(gè)句子對(duì)應(yīng)一個(gè)wav文件。在實(shí)驗(yàn)中，最終使用的數(shù)據(jù)為 wav（Windows PCM），比特率為256kbps，采樣率為16KHz的16位mono格式。

1.2識(shí)別結(jié)果分析

由識(shí)別器生成基于HMM的識(shí)別結(jié)果。

識(shí)別結(jié)果源文件及解釋如圖1。

識(shí)別結(jié)果所攜帶的信息有四點(diǎn)：

①該句語(yǔ)音中所存在的停頓和開頭結(jié)尾靜音段的結(jié)束時(shí)間；

②組成該句語(yǔ)音的所有音素說(shuō)完對(duì)應(yīng)結(jié)束時(shí)間點(diǎn)；

③組成該語(yǔ)音的各個(gè)音素對(duì)應(yīng)的HMM狀態(tài)的結(jié)束時(shí)間。

④組成該句語(yǔ)音的各個(gè)音節(jié)的結(jié)束時(shí)間。

在此，需要特別說(shuō)明，識(shí)別結(jié)果中的音素與通常所熟知的聲母、韻母的書寫方式不同，其中還有一個(gè)轉(zhuǎn)換的問題。

二、韻律標(biāo)記劃分的實(shí)現(xiàn)

本文利用C語(yǔ)言編程實(shí)現(xiàn)韻律標(biāo)記劃分。以發(fā)音人A為例，具體過程如下：

（1）編寫C語(yǔ)言程序從識(shí)別結(jié)果中提取出聲母的時(shí)長(zhǎng)，然后進(jìn)行統(tǒng)計(jì)。

（2）利用excel統(tǒng)計(jì)發(fā)音人A所錄的1005句語(yǔ)料中各個(gè)聲母的時(shí)長(zhǎng)，還有在對(duì)應(yīng)時(shí)長(zhǎng)該聲母出現(xiàn)的頻率。以發(fā)音人A所錄語(yǔ)音中的聲母b為例，在1005句錄音中，對(duì)于聲母b，出現(xiàn)次數(shù)最多的時(shí)間段是90-100ms，其次就是70-80ms，最少的就是250-260ms，而200-210ms、220-230ms等都沒有出現(xiàn)。其余聲母以此類推。

（3）如果以上述的統(tǒng)計(jì)結(jié)果來(lái)總結(jié)規(guī)律，以每個(gè)聲母的時(shí)長(zhǎng)來(lái)分別進(jìn)行韻律劃分，就需要設(shè)定23個(gè)邊界。為了減少邊界的判斷次數(shù)，簡(jiǎn)化判斷條件，本文又就聲母發(fā)音方式的分類規(guī)則對(duì)各類聲母時(shí)長(zhǎng)做了進(jìn)一步統(tǒng)計(jì)研究，繪制成表格，如下表1。

（4）分析以上統(tǒng)計(jì)結(jié)果，綜合四個(gè)發(fā)音人的統(tǒng)計(jì)表，得出韻律邊界規(guī)律，從而設(shè)定出韻律邊界。

（5）人工校對(duì)確定最終邊界。人工校對(duì)歸納出按上述邊界劃分韻律不準(zhǔn)確的音節(jié)，然后在原來(lái)的邊界基礎(chǔ)上，對(duì)易出錯(cuò)的聲母的邊界進(jìn)行相應(yīng)調(diào)整。

（6）最后就將易出錯(cuò)的聲母單獨(dú)設(shè)定邊界，以最終確定的韻律邊界來(lái)進(jìn)行韻律劃分。

三、實(shí)驗(yàn)結(jié)果與分析

本文對(duì)這種基于聲母時(shí)長(zhǎng)統(tǒng)計(jì)信息標(biāo)記的方法進(jìn)行了主觀評(píng)測(cè)，以確定這種標(biāo)記方法是否能用于漢語(yǔ)的韻律自動(dòng)標(biāo)記。具體做法如下：

（1）在實(shí)驗(yàn)過程中，我們挑選了兩個(gè)識(shí)別的1005句語(yǔ)料進(jìn)行了韻律邊界預(yù)測(cè)的標(biāo)記和評(píng)測(cè)，另取200句作為集內(nèi)，200句用于集外。

（2）對(duì)于每一個(gè)句子，組織三位母語(yǔ)為漢語(yǔ)的評(píng)測(cè)人員根據(jù)表2的評(píng)分規(guī)則對(duì)預(yù)測(cè)結(jié)果以打分的方式進(jìn)行評(píng)測(cè)。

（3）根據(jù)下述可接受率公式進(jìn)行計(jì)算。

從表中可以看出，本文所采用的基于聲母時(shí)長(zhǎng)統(tǒng)計(jì)信息作為韻律預(yù)測(cè)標(biāo)記的方法可滿足在語(yǔ)音轉(zhuǎn)換系統(tǒng)中的初步應(yīng)用。但本文所采用的方法仍有一定局限性，其原因有四點(diǎn)：

（1）訓(xùn)練數(shù)據(jù)不充分，用于統(tǒng)計(jì)的聲母時(shí)長(zhǎng)的信息不夠多，韻律劃分邊界還有待調(diào)整。

（2）本文所采用的方法依賴于語(yǔ)音識(shí)別的時(shí)間信息。對(duì)于語(yǔ)音識(shí)別，由于不同發(fā)音人之間的差異，會(huì)使得相同的字具有不同的語(yǔ)音特征。故而，識(shí)別結(jié)果具有不確定性。

（3）人為對(duì)聲母時(shí)長(zhǎng)邊界的調(diào)整帶有很強(qiáng)的主觀性，每個(gè)人都有自己的一套特定的說(shuō)話規(guī)則。人工調(diào)整韻律，這樣做會(huì)對(duì)該方法的標(biāo)記結(jié)果有很大的影響。

（4）在做韻律劃分時(shí)，本文主要考慮了時(shí)長(zhǎng)和停頓，為了提高劃分的準(zhǔn)確度，在今后的研究中，應(yīng)進(jìn)一步研究音高和重音等因素對(duì)韻律的影響，如音高降階效應(yīng)、語(yǔ)流輕音等問題。

參考文獻(xiàn)

[1]韓紀(jì)慶，張磊，鄭軼然.語(yǔ)音信號(hào)處理.北京：清華大學(xué)出版社，2004：1-10，160-189

[2] M. Tamura， T. Masuko， K. Tokuda and T. Kobayashi. Speaker adaptation for HMM-based speech synthesis system using MLLR[J]. Proc. of ESCA/COCOSDA Third International Workshop on Speech Synthesis，1998：273-276.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于HMM語(yǔ)音識(shí)別的韻律標(biāo)記