国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于HMM語(yǔ)音識(shí)別的韻律標(biāo)記

2015-05-30 02:52熊艷嬌
中國(guó)新通信 2015年12期
關(guān)鍵詞:語(yǔ)音識(shí)別

熊艷嬌

【摘要】 韻律結(jié)構(gòu)的準(zhǔn)確度決定語(yǔ)音合成的自然度,想要讓合成的語(yǔ)音具有較強(qiáng)的節(jié)奏感和較高的自然度,就需要正確地把握,然后恰當(dāng)?shù)貏澐猪嵚?。本文利用語(yǔ)音識(shí)別結(jié)果,提出基于聲韻母時(shí)長(zhǎng)的韻律標(biāo)記規(guī)則,以實(shí)現(xiàn)韻律自動(dòng)標(biāo)記,并給出具體實(shí)現(xiàn)方案和過程。實(shí)驗(yàn)結(jié)果表明:采用本文提出的規(guī)則實(shí)現(xiàn)韻律自動(dòng)標(biāo)記,其可接受率已達(dá)到HMM語(yǔ)音合成的要求。

【關(guān)鍵詞】 隱馬爾可夫模型 語(yǔ)音識(shí)別 韻律標(biāo)記

語(yǔ)音合成的自然度與語(yǔ)音的韻律要素有著緊密的聯(lián)系[1],想要讓合成的語(yǔ)音具有較強(qiáng)的節(jié)奏感和較高的自然度,就需要正確地把握韻律結(jié)構(gòu),然后恰當(dāng)?shù)貏澐猪嵚伞?guó)外有學(xué)者對(duì)韻律結(jié)構(gòu)中的韻律單元的組成單位(音節(jié)或者是音素)的時(shí)長(zhǎng)關(guān)系進(jìn)行了研究,特別是在英語(yǔ)方面的相關(guān)研究中,取得了一定的成果。比如說(shuō)Oller通過研究發(fā)現(xiàn),對(duì)于英語(yǔ)單詞的音長(zhǎng),處于詞首的輔音比處于詞中的輔音長(zhǎng),這種情況在很多語(yǔ)言中都有出現(xiàn)??梢姡瑥臅r(shí)長(zhǎng)角度來(lái)研究韻律是可行的。

一、語(yǔ)音識(shí)別的實(shí)現(xiàn)

1.1構(gòu)建語(yǔ)音庫(kù)

用以聲韻母為基本單位的方法進(jìn)行語(yǔ)音識(shí)別[2],生成識(shí)別結(jié)果的原始錄音數(shù)據(jù)是由特定實(shí)驗(yàn)對(duì)象來(lái)完成的。錄音結(jié)束,對(duì)結(jié)果做如下處理:

①利用音頻處理軟件Gold Wave將錄制的語(yǔ)音數(shù)據(jù)進(jìn)行重新采樣,其采樣速率設(shè)定為16KHz。

②將數(shù)據(jù)重新保存為mono格式,保存類型設(shè)置為wav。經(jīng)過重新采樣后的音質(zhì)與原始語(yǔ)音音質(zhì)差別不是很大,可以接受。

③將該錄音wav文件進(jìn)行人工切分,一個(gè)句子對(duì)應(yīng)一個(gè)wav文件。在實(shí)驗(yàn)中,最終使用的數(shù)據(jù)為 wav(Windows PCM),比特率為256kbps,采樣率為16KHz的16位mono格式。

1.2識(shí)別結(jié)果分析

由識(shí)別器生成基于HMM的識(shí)別結(jié)果。

識(shí)別結(jié)果源文件及解釋如圖1。

識(shí)別結(jié)果所攜帶的信息有四點(diǎn):

①該句語(yǔ)音中所存在的停頓和開頭結(jié)尾靜音段的結(jié)束時(shí)間;

②組成該句語(yǔ)音的所有音素說(shuō)完對(duì)應(yīng)結(jié)束時(shí)間點(diǎn);

③組成該語(yǔ)音的各個(gè)音素對(duì)應(yīng)的HMM狀態(tài)的結(jié)束時(shí)間。

④組成該句語(yǔ)音的各個(gè)音節(jié)的結(jié)束時(shí)間。

在此,需要特別說(shuō)明,識(shí)別結(jié)果中的音素與通常所熟知的聲母、韻母的書寫方式不同,其中還有一個(gè)轉(zhuǎn)換的問題。

二、韻律標(biāo)記劃分的實(shí)現(xiàn)

本文利用C語(yǔ)言編程實(shí)現(xiàn)韻律標(biāo)記劃分。以發(fā)音人A為例,具體過程如下:

(1)編寫C語(yǔ)言程序從識(shí)別結(jié)果中提取出聲母的時(shí)長(zhǎng),然后進(jìn)行統(tǒng)計(jì)。

(2)利用excel統(tǒng)計(jì)發(fā)音人A所錄的1005句語(yǔ)料中各個(gè)聲母的時(shí)長(zhǎng),還有在對(duì)應(yīng)時(shí)長(zhǎng)該聲母出現(xiàn)的頻率。以發(fā)音人A所錄語(yǔ)音中的聲母b為例,在1005句錄音中,對(duì)于聲母b,出現(xiàn)次數(shù)最多的時(shí)間段是90-100ms,其次就是70-80ms,最少的就是250-260ms,而200-210ms、220-230ms等都沒有出現(xiàn)。其余聲母以此類推。

(3)如果以上述的統(tǒng)計(jì)結(jié)果來(lái)總結(jié)規(guī)律,以每個(gè)聲母的時(shí)長(zhǎng)來(lái)分別進(jìn)行韻律劃分,就需要設(shè)定23個(gè)邊界。為了減少邊界的判斷次數(shù),簡(jiǎn)化判斷條件,本文又就聲母發(fā)音方式的分類規(guī)則對(duì)各類聲母時(shí)長(zhǎng)做了進(jìn)一步統(tǒng)計(jì)研究,繪制成表格,如下表1。

(4)分析以上統(tǒng)計(jì)結(jié)果,綜合四個(gè)發(fā)音人的統(tǒng)計(jì)表,得出韻律邊界規(guī)律,從而設(shè)定出韻律邊界。

(5)人工校對(duì)確定最終邊界。人工校對(duì)歸納出按上述邊界劃分韻律不準(zhǔn)確的音節(jié),然后在原來(lái)的邊界基礎(chǔ)上,對(duì)易出錯(cuò)的聲母的邊界進(jìn)行相應(yīng)調(diào)整。

(6)最后就將易出錯(cuò)的聲母單獨(dú)設(shè)定邊界,以最終確定的韻律邊界來(lái)進(jìn)行韻律劃分。

三、實(shí)驗(yàn)結(jié)果與分析

本文對(duì)這種基于聲母時(shí)長(zhǎng)統(tǒng)計(jì)信息標(biāo)記的方法進(jìn)行了主觀評(píng)測(cè),以確定這種標(biāo)記方法是否能用于漢語(yǔ)的韻律自動(dòng)標(biāo)記。具體做法如下:

(1)在實(shí)驗(yàn)過程中,我們挑選了兩個(gè)識(shí)別的1005句語(yǔ)料進(jìn)行了韻律邊界預(yù)測(cè)的標(biāo)記和評(píng)測(cè),另取200句作為集內(nèi),200句用于集外。

(2)對(duì)于每一個(gè)句子,組織三位母語(yǔ)為漢語(yǔ)的評(píng)測(cè)人員根據(jù)表2的評(píng)分規(guī)則對(duì)預(yù)測(cè)結(jié)果以打分的方式進(jìn)行評(píng)測(cè)。

(3)根據(jù)下述可接受率公式進(jìn)行計(jì)算。

從表中可以看出,本文所采用的基于聲母時(shí)長(zhǎng)統(tǒng)計(jì)信息作為韻律預(yù)測(cè)標(biāo)記的方法可滿足在語(yǔ)音轉(zhuǎn)換系統(tǒng)中的初步應(yīng)用。但本文所采用的方法仍有一定局限性,其原因有四點(diǎn):

(1)訓(xùn)練數(shù)據(jù)不充分,用于統(tǒng)計(jì)的聲母時(shí)長(zhǎng)的信息不夠多,韻律劃分邊界還有待調(diào)整。

(2)本文所采用的方法依賴于語(yǔ)音識(shí)別的時(shí)間信息。對(duì)于語(yǔ)音識(shí)別,由于不同發(fā)音人之間的差異,會(huì)使得相同的字具有不同的語(yǔ)音特征。故而,識(shí)別結(jié)果具有不確定性。

(3)人為對(duì)聲母時(shí)長(zhǎng)邊界的調(diào)整帶有很強(qiáng)的主觀性,每個(gè)人都有自己的一套特定的說(shuō)話規(guī)則。人工調(diào)整韻律,這樣做會(huì)對(duì)該方法的標(biāo)記結(jié)果有很大的影響。

(4)在做韻律劃分時(shí),本文主要考慮了時(shí)長(zhǎng)和停頓,為了提高劃分的準(zhǔn)確度,在今后的研究中,應(yīng)進(jìn)一步研究音高和重音等因素對(duì)韻律的影響,如音高降階效應(yīng)、語(yǔ)流輕音等問題。

參 考 文 獻(xiàn)

[1]韓紀(jì)慶,張磊,鄭軼然.語(yǔ)音信號(hào)處理.北京:清華大學(xué)出版社,2004:1-10,160-189

[2] M. Tamura, T. Masuko, K. Tokuda and T. Kobayashi. Speaker adaptation for HMM-based speech synthesis system using MLLR[J]. Proc. of ESCA/COCOSDA Third International Workshop on Speech Synthesis,1998:273-276.

猜你喜歡
語(yǔ)音識(shí)別
空管陸空通話英語(yǔ)發(fā)音模板設(shè)計(jì)與應(yīng)用
通話中的語(yǔ)音識(shí)別技術(shù)
面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
語(yǔ)音識(shí)別的SVM模型選擇分析
農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
基于LD3320的非特定人識(shí)別聲控?zé)粝到y(tǒng)設(shè)計(jì)
航天三維可視化系統(tǒng)中語(yǔ)音控制技術(shù)的研究與應(yīng)用
基于語(yǔ)音識(shí)別的萬(wàn)能遙控器的設(shè)計(jì)
基于語(yǔ)音技術(shù)的商務(wù)英語(yǔ)移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
基于Android手機(jī)語(yǔ)音和Arduino控制板的機(jī)器人控制系統(tǒng)