国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

維吾爾語元音的聲頻特性分析和識別

2010-10-15 01:38王昆侖張貫虹吐爾洪江阿布都克力木
中文信息學(xué)報 2010年2期
關(guān)鍵詞:維語維吾爾語元音

王昆侖,張貫虹,吐爾洪江?阿布都克力木

(1.合肥學(xué)院計算機科學(xué)與技術(shù)系網(wǎng)絡(luò)與智能信息處理重點實驗室,安徽合肥230601,2.新疆師范大學(xué)數(shù)理信息學(xué)院,新疆烏魯木齊830001)

1 引言

現(xiàn)代維吾爾語(以下簡稱維語)屬阿爾泰語系突厥語族,維語語音音節(jié)由元音和輔音構(gòu)成,每個音節(jié)必須且只能有一個元音,維語語音的八個元音分別是/i、e、ε、a、o、?、u、y/ 。由于單元音可構(gòu)成音節(jié),因此在語音識別技術(shù)中常對元音進行精密的聲學(xué)測量。

隨著計算機多媒體技術(shù)的發(fā)展,各種語言的語音識別研究工作在深入展開。呼和[1]、伊?達瓦[2]對蒙古語的元音進行了定量和定性分析;李凈[3]等以擴展聲韻母為漢語連續(xù)語音識別的聲學(xué)建模識別基元,識別性能有了很大提高;曹劍芬[4]等采用聲學(xué)和生理實驗以及感知實驗相結(jié)合的方法,探討了漢語“2”與“8”的區(qū)別性語音學(xué)特征及其在二者識別中的作用。在缺乏聲調(diào)信息的情況下,第三共振峰(F3)的差異是決定性的區(qū)別特征。他們認為在自動語音識別中,加強對語音學(xué)特征知識的了解是個迫在眉睫的任務(wù),在系統(tǒng)中充分地綜合利用這些區(qū)別性特征信息,是提高識別率的有效途徑。張家騄[5]等根據(jù)漢語普通話語音知覺混淆的群集分析結(jié)果,建立了聲韻調(diào)體系的區(qū)別特征系統(tǒng)。易斌[6]對維語的/i/元音進行了聲學(xué)特征分析,結(jié)合聲學(xué)分析結(jié)果對該元音的音值進行了討論;陶梅[7]等根據(jù)維吾爾語的特點,分析設(shè)計了維吾爾語語音識別系統(tǒng)的總體結(jié)構(gòu),討論了維吾爾語最佳識別基元的選擇方法,提出建立基于決策樹聚類的上下文相關(guān)模型,并采用混合高斯分布(GMD)擬合觀測概率分布,優(yōu)化維吾爾語連續(xù)語音中HMM模型系統(tǒng)以提高識別性能。王昆侖[8-9]在維語語音識別和識別基元問題上做了初步的探討。更多的維語語音學(xué)的研究在元音、輔音的性質(zhì)、發(fā)音部位、發(fā)音方法等方面做了大量的工作,維語的實驗語音學(xué)方面有許多基礎(chǔ)性問題需要研究。本文運用實驗語音學(xué)的基本理論和方法,對維吾爾語八個元音進行聲頻特性統(tǒng)計分析和識別驗證。

2 聲學(xué)資料

本文實驗所采用的聲學(xué)資料來源于新疆師范大學(xué)建立的維吾爾語綜合語音數(shù)據(jù)庫[10]。發(fā)音人的選擇以標準音為準,年齡在18~30歲之間,同時兼顧各地區(qū)的特點,對發(fā)音人沒有地域方言限制,可以帶方言,常態(tài)自然發(fā)音。錄音環(huán)境為與實用環(huán)境相近的辦公室,噪音<45db。錄音工作以PC(386)機為主體,配以Sound Blaster—16位聲卡和駐極電容式話筒進行錄制,采樣頻率為22050Hz,采樣精度為16bits,多音節(jié)語料的錄音語速約4個音節(jié)/秒。錄音使用自編的錄音工具軟件進行,語音數(shù)據(jù)采用WAV文件格式存儲。同組發(fā)音人之間實行實時監(jiān)聽、監(jiān)控。語音數(shù)據(jù)庫以一個音節(jié)或詞為單位存儲,加上包含該語音數(shù)據(jù)有關(guān)參數(shù)的文件頭,參數(shù)包括發(fā)音人信息,語料信息和切分標注信息。

3 維吾爾語元音的共振峰頻率分析

3.2 實驗數(shù)據(jù)

為了使實驗具有一定的代表性,實驗從維吾爾語綜合語音數(shù)據(jù)庫[10]里任意抽取了男、女聲各10名共160個元音語音語料,我們分男聲、女聲和男女混合三組測量了八個元音的五個共振峰頻率值(F1、F2、F3、F4和F5)。全部樣點在元音共振峰的相對穩(wěn)定段選取,對所測得的共振峰數(shù)據(jù)進行了統(tǒng)計,統(tǒng)計結(jié)果見附錄A。其中離散度是標準差與平均值的比值,用來衡量各個體距平均值的遠近。

共振峰頻率是語音信號的一個很重要的特征參數(shù),它的配置和時間模式反映出語音音色的重要特征,在語音的分析、識別、合成等研究中被廣泛的利用。

3.1 分析方法

在語音信號的共振峰分析的眾多方法中,線性預(yù)測編碼(Linear Prediction Coding,LPC)[11]是一種常用的分析方法,LPC模型中,數(shù)字濾波器傳遞函數(shù)H(z)為公式(1)。

表1 維吾爾語元音共振峰頻率統(tǒng)計表

續(xù)表

根據(jù)表1的數(shù)據(jù),繪制的JOSS型聲學(xué)元音圖見圖1、圖2和圖3。每個元音音位的外圈以平均值為中心,半徑按“平均值±標準差”值大小繪制。這樣繪制成的聲學(xué)元音圖與元音舌位圖有很好的對應(yīng)性,元音外圈的大小反映該音位的離散度。

圖 1 維吾爾語八個元音 F1-F2分布(男性發(fā)音10人)

圖 2 維吾爾語八個元音 F1-F2分布(女性發(fā)音10人)

圖3 維吾爾語八個元音F1-F2分布(男女混合發(fā)音20人)

3.3 實驗分析及結(jié)果

Delatrre[12]對舌位和共振峰的關(guān)系進行的研究認為,用口腔開度(上、下門齒之間的距離)與F1相聯(lián)系,用舌頭整體的后縮前伸與F2相關(guān)聯(lián)。他的結(jié)論是:F1頻率增加同開口度直接相關(guān),頻率值越高開口度越大,頻率值越低開口度越小;F2降低同舌頭后縮直接相關(guān),頻率越低舌位越后,頻率越高舌位越前;另外F2與圓唇度有關(guān),唇越圓,F2也越低。

由本文實驗所得數(shù)據(jù)(表1、圖1、圖 2、圖3)分析得出:

1)維語的男聲和女聲兩類發(fā)音人的八個元音相對位置是完全一致的,在圖1、圖2和圖3上的排列是合理的。/i/、/y/是等高的前高元音,/e/和/?/是等高的的前次元音,/ε/是前次低元音;從后元音看,/u/是高元音,/o/是次高元音。/a/元音是所有元音中最低的元音,而且是居于中間位置。

2)/a/音位是最低的一個元音,其F1位于543~918Hz的區(qū)域內(nèi)。

3)/ε/元音音位相對集中,是維語元音中舌位最低的前元音,兩類發(fā)音人的F2均值分別為1905Hz、1640Hz。/ε/ 音位從總體上看,在高緯度(F1)上與/a/相當,在前后緯(F2)上,/ε/和/a/分得比較清楚,/ε/在前而/a/在后。

4)/e/、/?/元音在維語中的發(fā)音比較集中,離散度較小。這兩個元音都屬于前元音,但/?/的F2比/e/的降低了535Hz(女發(fā)音人)和409Hz(男發(fā)音人)。這種F2的降低、表明了該兩類元音發(fā)音的相對圓唇度和相對舌位后縮度。

5)/u/、/o/是彼此獨立又相互靠近的兩個后元音,它們的F2的離散度都大于10%,發(fā)音的舌位靠后。

6)/y/、/i/ 元音的F1、F2的離散度較大,因此在聲學(xué)元音圖上所占范圍較大。/y/與/i/相比,高度(F1)相當,但/y/的F2比/i/的小,這是因為/y/圓唇的影響。

7)從圖1、圖2和圖3中可以看出維吾爾語各個元音有較獨立的共振峰頻率分布,因此在通常的會話中各元音的音色聽起來比較清楚。

8)從表1中還可知維吾爾語各個元音的共振峰頻率F1、F2具有較大的差別,這表明各個元音具有不同的聲學(xué)特性,在用計算機進行維吾爾語元音的語音識別時,應(yīng)該有較高的正確識別率。

3.4 維語、漢語元音對比

我們參照吳宗濟[13]漢語普通話元音共振峰頻率數(shù)據(jù)(見表2和圖4),把漢語普通話10個元音和8個維語元音的共振峰頻率數(shù)據(jù)進行對比,可以看出:

1)漢、維語中都有前、半低、不圓唇元音/ε/、/er/,但維語/ε/比漢語/er/舌位略低,開口度略大,維語/ε/的 F1、F2值分別比漢語/er/ 降低了50Hz和 150Hz。

2)漢語中獨有的音位有/i/(資)、/i/(知)、/r/ 、/e/,維語中獨有的音位有/e/ 、/?/ 。

3)除了以上完全不同的音位外,漢維語中其他元音的音位大致上相對應(yīng),F1、F2共振峰頻率值相差不大。

表2 漢語普通話10個元音共振峰頻率數(shù)據(jù)表

圖4 漢語普通話十個元音聲學(xué)元音圖

圖5 維吾爾語八個元音聲學(xué)元音圖

4 維語元音語音識別及分析

本文使用隱馬爾可夫模型工具集[14](Hidden Markov Model ToolKit,HTK)對維語八個元音進行語音識別實驗,并分析實驗結(jié)果驗證維語八個元音共振峰頻率分布規(guī)律的正確性。

4.1 HTK及模型參數(shù)

聲學(xué)模型是識別系統(tǒng)的底層模型,和語言發(fā)音特點密切相關(guān),并且是語音識別系統(tǒng)中最關(guān)鍵的一部分[3-4]。通過概率密度函數(shù)計算語音參數(shù)對HMM模型的輸出概率,經(jīng)搜索最佳狀態(tài)序列,以最大后驗概率得到識別結(jié)果。對以上共振峰頻率的分析結(jié)果,用H TK進行元音識別實驗以確認分析結(jié)果的正確性。實驗數(shù)據(jù)所用的特征向量是39維的 MFCC(Mel-Frequency Cepstrum Coefficients),其中包括20階倒譜系數(shù)?;贖TK的語音識別流程見圖6,其中:

1)數(shù)據(jù)準備。準備訓(xùn)練及待識別語音文件(.wav),訓(xùn)練語音的特征文件(.mfc、.plp)。

2)創(chuàng)建模型及學(xué)習。首先構(gòu)建Proto文件,定義模型拓撲結(jié)構(gòu),構(gòu)建單音素模型。使用HComp V工具統(tǒng)計訓(xùn)練數(shù)據(jù)全局均值、方差,HInit估計出初始模型參數(shù)。然后通過多次使用HERest工具重估模型參數(shù),進行模型學(xué)習。

3)識別及評估。使用HVite工具進行識別,H Results工具進行評估。

圖6 基于HTK的語音識別流程

4.2 實驗及結(jié)果分析

由于男聲語音和女聲語音在聲學(xué)特征上有比較明顯的區(qū)分,為了得到更明顯的實驗結(jié)果,實驗分四組進行。實驗數(shù)據(jù)同3.2節(jié)所述,分別用10名男發(fā)音人語音和10名女發(fā)音人語音訓(xùn)練得到識別模型M 1和M2,從中任取3男3女語料作為集內(nèi)識別語音M-in-Set和F-in-Set,另外從文獻[10]中任取3男3女元音語料作為集外識別語音M-out-Set和F-out-Set。在識別模型M1和M 2中分別測試男、女聲和集內(nèi)、外的交叉語音識別結(jié)果如表3。

表3 維語八個元音的識別結(jié)果(識別率%)

實驗結(jié)果分析:

1)從表3中可知,維語八個元音具有很高的識別率,幾乎為百分之百的識別,其原因和前面3.3節(jié)所述是相同的。維吾爾語各個元音的共振峰頻率F1、F2具有較大的差別,這表明各個元音具有不同的聲學(xué)特性,在用計算機進行維吾爾語元音的語音識別時,具有很高的識別正確率,驗證了3.3節(jié)的分析結(jié)論。

2)表3中元音/?/,/y/在M 1模型下女聲識別集外識別率和元音/e/,/i/在M 2模型下男聲識別集外識別率略有下降。對實驗語料分析后,元音/?/,/y/在M1模型下女聲識別集外識別率略有下降的主要原因是個別男聲實驗語料的發(fā)音清晰度不夠,有4人的發(fā)音存在一定的混濁發(fā)音現(xiàn)象,另外,實驗語料存在男、女聲發(fā)音音強差別較大的問題;元音/e/,/i/在M 2模型下男聲識別集外識別率略有下降的主要原因除了上面的原因之外,我們還發(fā)現(xiàn)男聲集外識別集中的一男聲發(fā)音/e/的F2共振峰值發(fā)生了跳躍,如圖5所示,影響了語音識別的結(jié)果。所以,影響識別率的主要原因來自于第2節(jié)介紹的語料數(shù)據(jù)庫,如發(fā)音者發(fā)音狀態(tài)、方言和語料采集環(huán)境等因素。

圖7 男聲元音/e/的共振峰圖

5 結(jié)論

通過對維吾爾語八個元音進行的物理聲學(xué)分析,在維吾爾語綜合語音數(shù)據(jù)庫的實驗數(shù)據(jù)條件下,給出了維吾爾語八個元音的共振峰分布參數(shù)和實驗分析,同時通過元音識別實驗驗證了本次實驗結(jié)果的正確性??梢钥闯鼍S吾爾語的八個元音具有比較強的可區(qū)分聲頻特性,在進行語音識別時能夠獲取很高的識別率,因此對于維吾爾語元音語音信息傳送接受的估計正確性會比較高。

對于維吾爾語輔音聲頻特性及其分析以及在連續(xù)語音條件下,基于維吾爾語語言的構(gòu)詞規(guī)律以及發(fā)音規(guī)律的特殊性和特殊現(xiàn)象,將更為復(fù)雜,此方面的實驗結(jié)果我們將另文闡述。

附錄A 維吾爾語元音共振峰頻率統(tǒng)計表

續(xù)表

[1]呼和.蒙古語元音的聲學(xué)分析[J].民族語文,1999,(4):58-60.

[2]伊?達瓦,大川茂村,白井克彥.蒙古語七個元音聲頻特性計算機分析[J].聲學(xué)學(xué)報,1999,24(1):94-97.

[3]李凈,鄭方,張繼勇,吳文虎.漢語連續(xù)語音識別中上下文相關(guān)的聲韻母建模[J].清華大學(xué)學(xué)報(自然科學(xué)版),2004,44(1):61-64.

[4]曹劍芬,李愛軍,胡方,張利剛.語音學(xué)知識在語音識別中的應(yīng)用[J].清華大學(xué)學(xué)報(自然科學(xué)版),2008,S1:748-753.

[5]張家騄.漢語普通話區(qū)別特征系統(tǒng)[J].聲學(xué)學(xué)報,2005,30(6):506-514.

[6]易斌.現(xiàn)代維吾爾語元音/i/的實驗分析[J].語言與翻譯(漢文),2008,(1):20-24.

[7]陶梅,吾守爾?斯拉木,那斯爾江?吐爾遜.基于HTK的維吾爾語連續(xù)語音聲學(xué)建模[J].中文信息學(xué)報,2008,22(5):56-59.

[8]王昆侖.維吾爾語音節(jié)語音識別基元的研究[J].計算機科學(xué),2003,30(7):182-184.

[9]王昆侖.基于CDCPM的維吾爾語非特定人語音識別[J].計算機研究與發(fā)展,2001,38(10):1242-1246.

[10]王昆侖,樊志錦,吐爾洪江,方曉華,徐紹瓊,吾買爾.維吾爾語綜合語音數(shù)據(jù)庫系統(tǒng)[C]//第五屆全國人機語音通訊學(xué)術(shù)會議論文集,1998.

[11]楊行駿.語音信號與數(shù)字處理[M].電子工業(yè)出版社,1995.

[12]Delattre,P.The physiological interpretation of sound spectrogram[M].PLM A,Vol LXVI(5),1951.

[13]吳宗濟.普通話單音節(jié)語圖冊[M].中國社會科學(xué)出版社,1986.

[14]http://htk.eng.cam.ac.uk/.

猜你喜歡
維語維吾爾語元音
對比語言學(xué)視野下的維吾爾語與朝鮮語音義相近詞比較初探
元音字母和元音字母組合的拼讀規(guī)則
淺析維語口語技能的影響因素和提升路徑
元音字母和元音字母組合的拼讀規(guī)則
淺析維吾爾語表可能語氣詞
統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
漢維語數(shù)詞語法特征對比
指稱在維吾爾語語篇中的銜接方式及其功能
維吾爾語詞重音的形式判斷
Playing with “ar”
全南县| 沐川县| 昌图县| 佳木斯市| 军事| 那坡县| 大庆市| 新源县| 柳江县| 淮南市| 交口县| 全南县| 靖西县| 镇安县| 姜堰市| 宾阳县| 凤庆县| 黄大仙区| 高淳县| 齐齐哈尔市| 荣昌县| 长宁县| 泌阳县| 辰溪县| 辽中县| 新民市| 荃湾区| 廉江市| 文登市| 栾城县| 江孜县| 洞头县| 宜君县| 怀仁县| 柘城县| 普兰县| 金寨县| 巨野县| 建德市| 甘谷县| 庄河市|