国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

朝鮮語(yǔ)語(yǔ)音音節(jié)自動(dòng)切分算法的研究

2019-10-08 01:50:50李洺宇金小峰
關(guān)鍵詞:朝鮮語(yǔ)頻帶檢測(cè)器

李洺宇, 金小峰

( 延邊大學(xué) 工學(xué)院, 吉林 延吉 133002 )

0 引言

近年來(lái),語(yǔ)音技術(shù)得到了快速的發(fā)展和應(yīng)用.語(yǔ)料庫(kù)作為語(yǔ)音技術(shù)研究的底層,對(duì)語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音信號(hào)處理等具有重要的支撐作用.傳統(tǒng)的語(yǔ)音語(yǔ)料標(biāo)注采用的是人工標(biāo)注方法,需耗費(fèi)大量人力和時(shí)間[1],且已無(wú)法滿足語(yǔ)音語(yǔ)料日益增多的需求,因此研究語(yǔ)音自動(dòng)標(biāo)注算法變得尤為必要.目前,語(yǔ)音語(yǔ)料自動(dòng)標(biāo)注的方法主要分為基于語(yǔ)音識(shí)別的方法和非語(yǔ)音識(shí)別的方法.例如:王麗娟等[2]提出了一種基于HMM模型的語(yǔ)音單元邊界自動(dòng)切分方法;李詩(shī)心[3]針對(duì)傣語(yǔ)語(yǔ)音合成系統(tǒng)提出了一種自動(dòng)分詞技術(shù)與音子自動(dòng)切分技術(shù);韓虎[4]研究了一種漢語(yǔ)連續(xù)語(yǔ)音的音節(jié)自動(dòng)標(biāo)注算法;Tolegen Gulmira等[5]和Jaruwat Pailai等[6]將音素的邊界用其他標(biāo)簽表示,然后以標(biāo)簽作為檢測(cè)目標(biāo),即將邊界檢測(cè)任務(wù)視為序列標(biāo)注任務(wù).上述基于語(yǔ)音識(shí)別的方法,其音節(jié)切分準(zhǔn)確率較高,但依賴于訓(xùn)練好的語(yǔ)音模型.

除了基于語(yǔ)音識(shí)別的方法外,研究人員還從構(gòu)成語(yǔ)音單元(元音和輔音)的特征區(qū)分角度,提出了多特征參數(shù)組合的語(yǔ)音單元邊界檢測(cè)方法.例如:文獻(xiàn)[7-8]依據(jù)不同的特征參數(shù)對(duì)語(yǔ)音單元進(jìn)行區(qū)分,取得了較好的分割效果;王艷等[9]提出了一種基于元音檢測(cè)的漢語(yǔ)連續(xù)語(yǔ)音聲韻母的分割方法,這種方法具有較好的抗噪性;基于元音的能量遠(yuǎn)大于輔音的特點(diǎn),姚徐等[10]利用雙門限的方法設(shè)計(jì)并實(shí)現(xiàn)了音段自動(dòng)切分系統(tǒng),但該方法對(duì)元音的識(shí)別效果很大程度受閾值選取的影響;陳斌等[11]104提出了一種基于Seneff聽(tīng)覺(jué)譜特征的漢語(yǔ)連續(xù)語(yǔ)音聲韻母邊界檢測(cè)方法,該方法對(duì)語(yǔ)音單元尤其是音素切分有較好的效果.基于文獻(xiàn)[11]的研究,本文采用Seneff聽(tīng)覺(jué)模型,結(jié)合朝鮮語(yǔ)的發(fā)音特點(diǎn)提出一種朝鮮語(yǔ)語(yǔ)音語(yǔ)料音節(jié)自動(dòng)切分方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證本文方法的有效性.

1 朝鮮語(yǔ)發(fā)音特點(diǎn)

朝鮮語(yǔ)文字組字規(guī)則以音節(jié)為單位,一個(gè)音節(jié)組成一個(gè)朝鮮語(yǔ)文字.朝鮮語(yǔ)的音節(jié)由初聲子音(聲母)、中聲音(韻母)和終聲子音(韻尾) 3個(gè)部分組成,分為聲母+韻母+韻尾、聲母+韻母、韻母3種形式[12].在朝鮮語(yǔ)語(yǔ)音語(yǔ)流中,一個(gè)語(yǔ)音往往受鄰近語(yǔ)音的影響而發(fā)生音變[13],這些音變往往會(huì)給朝鮮語(yǔ)語(yǔ)音音節(jié)的檢測(cè)和分割帶來(lái)負(fù)面影響.常見(jiàn)的朝鮮語(yǔ)發(fā)音變化主要分為如下幾種:

5)輔音同化.兩個(gè)不同的輔音遇到一起時(shí),變?yōu)橄嗨苹蛘呦嗤囊?,這種同化現(xiàn)象分為鼻音化和音化現(xiàn)象兩類.①鼻音化.當(dāng)發(fā)音為//的收音后接以輔音/開(kāi)頭的音節(jié)時(shí),收音的發(fā)音要相應(yīng)地變?yōu)?/.當(dāng)收音/與以輔音開(kāi)頭的音節(jié)相遇時(shí),輔音的發(fā)音自動(dòng)變?yōu)?當(dāng)收音/與以輔音開(kāi)頭的音節(jié)相遇時(shí),輔音的發(fā)音自動(dòng)變?yōu)?;前面?相應(yīng)地變成鼻音/.②音化現(xiàn)象.在收音的后面或輔音的前面出現(xiàn)時(shí),的發(fā)音自動(dòng)變?yōu)槭找艋蚴禽o音.

2 Seneff聽(tīng)覺(jué)模型

Seneff聽(tīng)覺(jué)模型模擬了人耳耳蝸結(jié)構(gòu),具備良好的語(yǔ)音頻帶處理性能,被廣泛應(yīng)用于說(shuō)話人識(shí)別、語(yǔ)音識(shí)別、語(yǔ)音信號(hào)處理等領(lǐng)域[11]105.Seneff聽(tīng)覺(jué)模型框架如圖1所示.

圖1 Seneff聽(tīng)覺(jué)模型框架

Seneff聽(tīng)覺(jué)模型在處理語(yǔ)音信號(hào)時(shí),首先利用濾波器預(yù)處理聽(tīng)覺(jué)信號(hào)(去除高低頻),然后將預(yù)處理后的輸出信號(hào)輸入到個(gè)數(shù)為35的臨界頻帶濾波器組.因?yàn)榕R界頻帶濾波器在高頻段具有良好的時(shí)間分辨率,在低頻段具有良好的頻率分辨率,因此可以提高共振峰信息提取的準(zhǔn)確率.臨界頻帶濾波器的主要參數(shù)為臨界頻帶帶寬的頻率尺度,其求解方式為通過(guò)非線性映射函數(shù)將頻率尺度轉(zhuǎn)換為Bark尺度.一個(gè)Bark的頻率差為一個(gè)臨界帶寬,每個(gè)相鄰濾波器的頻率上下限采用式(1)計(jì)算:

(1)

利用公式(1)可求得臨界頻帶濾波器組的參數(shù)值(中心頻率),具體計(jì)算過(guò)程如下:以中心頻率f0先求出B0=B(f0), 然后倒轉(zhuǎn)得到頻率尺度中的濾波器上下限f(B0-1/2)和f(B0+1/2),每個(gè)上下限相鄰間隔大約為半個(gè)臨界帶寬.計(jì)算得到的中心頻率見(jiàn)表1.

表1 臨界頻帶濾波器中心頻率取值 Hz

利用式(2)對(duì)通過(guò)各臨界頻帶濾波器的輸出信號(hào)進(jìn)行具有飽和非線性的半波整流.

(2)

式(2)中CBi(n)為臨界頻帶濾波器的輸出,G=2.35,A=10,B=65.顯然,從公式(2)的分段情況可知:對(duì)于小輸入值,可進(jìn)行線性處理;對(duì)于大輸入值,可進(jìn)行壓縮處理.

信號(hào)經(jīng)半波整流后,系統(tǒng)被分成兩個(gè)分支:一個(gè)分支用以求解平均速率響應(yīng),另一個(gè)分支用以求解同步響應(yīng).平均速率響應(yīng)從短期自適應(yīng)和正向掩蔽(STA,short term adaptation)模塊開(kāi)始,然后依次為自動(dòng)增益(AGC,automatic gain control)模塊、包絡(luò)檢測(cè)器(ED,envelope detector).同步響應(yīng)路徑依次為低通濾波器(LPF,low-pass filter)、AGC和廣義同步檢測(cè)器.

STA模塊模擬的是在耳蝸反應(yīng)中發(fā)生的短期適應(yīng)效應(yīng)和正向掩蔽效應(yīng),這兩種效應(yīng)影響神經(jīng)遞質(zhì)濃度的機(jī)制可用如下公式表示:

(3)

STAi(n)=max{0,μa[Ri(n)-Ci(n-1)}.

(4)

其中,Ci(n)為區(qū)域內(nèi)神經(jīng)遞質(zhì)的濃度,Ri(n)為輸入(源區(qū)域)的濃度,常數(shù)μa=8.3 s,μb=58.3 s,初始值Ci(0)=0.STA模塊僅用于平均速率響應(yīng)分支中.若將STA模塊加入到同步響應(yīng)分支中,則會(huì)消除元音的共振峰結(jié)構(gòu).上述兩種機(jī)制對(duì)同步響應(yīng)分支僅產(chǎn)生輕微影響.

在產(chǎn)生平均速率響應(yīng)的分支上,信號(hào)最后通過(guò)的是包絡(luò)檢測(cè)器 (低通濾波器).包絡(luò)檢測(cè)器的作用是避免高頻信號(hào)產(chǎn)生脈沖響應(yīng),并平滑半波整流的輸出.包絡(luò)檢測(cè)器的輸出即為平均速率響應(yīng),表示為EDi(n).包絡(luò)檢測(cè)器的轉(zhuǎn)移函數(shù)為:

(5)

在產(chǎn)生同步響應(yīng)的分支上,信號(hào)首先通過(guò)的是低通濾波器.該低通濾波器的作用是模擬由神經(jīng)延遲和響應(yīng)抖動(dòng)而導(dǎo)致在高頻段發(fā)生的同步抑制現(xiàn)象,其輸出信號(hào)用LPFi(n)表示.該低通濾波器的傳遞函數(shù)為:

(6)

本文采用Seneff設(shè)計(jì)的GSD(generalize synchrony detector)[15]計(jì)算類似于自相關(guān)關(guān)系的輸出來(lái)檢測(cè)時(shí)間響應(yīng)中的周期性,生成每個(gè)濾波器輸出的和以及差的期望幅值和差值以及延遲的軟限制比,每個(gè)GSD的延遲必須與濾波器的中心頻率對(duì)應(yīng).GSD的計(jì)算公式為:

(7)

其中,y(n)為AGC的輸出HCi(n),As=4,δ=0.1,β=0.99,ni=fs/fi,fi為第i個(gè)濾波器的中心頻率.δ的作用是抑制對(duì)小幅度信號(hào)的響應(yīng),As的作用是控制輸入的線性范圍.

M.Ahmed等[16]研究表明,GSD包含明顯的偽峰,這些偽峰是由基頻F0、噪聲及其他因素的諧波引起的.為了消除偽峰,M.Ahmed等提出了平均局部同步檢測(cè)器(ALSD,average local sync detector),該檢測(cè)器的轉(zhuǎn)化過(guò)程如圖2所示.

圖2 同步檢測(cè)器轉(zhuǎn)化為平均局部同步檢測(cè)器的示意圖

圖2中,將各同步檢測(cè)器的計(jì)算結(jié)果取平均值,即可得到第i個(gè)濾波器的ALSDi.ALSDi的計(jì)算公式為:

(8)

其中n=n1+n2,n=3. 3的含義為在中心濾波器的每一側(cè)均有一個(gè)濾波器.

3 音節(jié)分割方法

3.1 基于Seneff聽(tīng)覺(jué)模型的音節(jié)自動(dòng)分割算法

檢測(cè)和分割朝鮮語(yǔ)語(yǔ)音音節(jié),首先需要能夠區(qū)分朝鮮語(yǔ)音節(jié)中的響音和阻塞音.因響音和阻塞音在不同頻段上存在差異,因此本文根據(jù)響音和阻塞音的頻率分布特性,采用Seneff聽(tīng)覺(jué)模型中的臨界頻帶濾波器對(duì)其進(jìn)行劃分.表2給出了部分響音和阻塞音與Seneff聽(tīng)覺(jué)模型中濾波器的對(duì)應(yīng)關(guān)系.

表2 部分頻帶范圍與Seneff聽(tīng)覺(jué)模型中濾波器的對(duì)應(yīng)關(guān)系

頻帶劃分頻帶范圍/Hz濾波器序號(hào)低頻帶200~<8001-12中頻帶800~<120013-16中高頻帶1200~500017-35全頻帶200~50001-35

發(fā)響音時(shí),因聲帶振動(dòng)的能量較高,且信號(hào)周期性和共振峰特性較為明顯,因此檢測(cè)時(shí)本文選擇對(duì)信號(hào)周期性及共振峰特性具有明顯效果的ALSD特征參數(shù).具體計(jì)算的參數(shù)包括低頻帶ALSD、全頻帶ALSD和ED中低高頻帶比.因響音的這3個(gè)參數(shù)值偏大,且ALSD譜的重心偏小,所以在確定邊界點(diǎn)時(shí),為了能夠與其他參數(shù)保持趨勢(shì)一致,采用負(fù)值描述ALSD譜重心.各參數(shù)計(jì)算公式如下:

(9)

(10)

(11)

(12)

其中LBE(n)表示低頻帶ALSD;ABEALSD(n)表示全頻帶ALSD;LHR(n)表示ED中低高頻帶比;SCGALSD(n)表示ALSD譜重心.

(13)

(14)

(15)

(16)

其中MHEALSD(n)表示中高頻帶ALSD;MHEED(n)表示中高頻帶ED;ABEED(n)表示全頻帶ED;SCGED(n)表示ED譜重心.

利用式(9)—(16)計(jì)算得到8個(gè)參數(shù)后,需要進(jìn)一步確認(rèn)準(zhǔn)確的突變點(diǎn),以此確定響音和阻塞音的邊界(切分點(diǎn)).為了消除野點(diǎn)對(duì)突變點(diǎn)的影響,采用Kaiser濾波器(通帶為4 Hz,阻帶為14 Hz)進(jìn)行時(shí)域平滑,采用高斯濾波器(μ=0,σ2=6)進(jìn)行頻域平滑[17].平滑后通過(guò)定位突變點(diǎn)的位置來(lái)表征響音和阻塞音的邊界位置.突變點(diǎn)有正負(fù)兩種類型.為消除這兩種類型的突變點(diǎn),將同時(shí)滿足式(17)中3個(gè)條件的突變點(diǎn)定義為正突變點(diǎn),并標(biāo)記為n+:

n+={n|diff(n)>diff(n-1);diff(n)>diff(n+1);diff(n)>θ+}.

(17)

其中:

diff(n)=x(n+1)-x(n);

(18)

θ+(x)=μ(x)+pσ(x),p=0.5;

(19)

(20)

(21)

類似地,負(fù)突變點(diǎn)n-定義為:

n-={n|diff(n)

(22)

其中,

θ-(x)=μ(x)-pσ(x),p=0.5.

(23)

圖3 語(yǔ)音“”的特征參數(shù)曲線

圖3中的曲線為能量和共振峰等特征經(jīng)Seneff聽(tīng)覺(jué)模型轉(zhuǎn)變?yōu)镋D和ALSD后在各頻段的分布情況.通過(guò)圖3中的曲線趨勢(shì)變化,可求得語(yǔ)音特征曲線的正負(fù)突變點(diǎn),從而實(shí)現(xiàn)音節(jié)邊界點(diǎn)的劃分.由于每個(gè)音節(jié)通常是由輔音加元音構(gòu)成,所以若根據(jù)各頻段中表示能量和共振峰的參數(shù)來(lái)確定音節(jié)的邊界點(diǎn),只需在求得的突變點(diǎn)中找到負(fù)突變點(diǎn)的位置即可確定音節(jié)的分割點(diǎn).結(jié)合朝鮮語(yǔ)發(fā)音特點(diǎn),本文提出的基于Seneff聽(tīng)覺(jué)模型的朝鮮語(yǔ)語(yǔ)言音節(jié)自動(dòng)分割算法(算法1)的步驟如下:

step 1 由式(17)—(23)初步確定各特征參數(shù)的突變點(diǎn)位置.

step 2 查找每個(gè)特征參數(shù)曲線中兩個(gè)連續(xù)波峰和波谷的時(shí)間間隔t, 若t>20 ms,保留該區(qū)間的所有正負(fù)突變點(diǎn);否則,保留區(qū)間內(nèi)前面的波峰或波谷的突變點(diǎn),同時(shí)刪除區(qū)間內(nèi)后面的突變點(diǎn).依據(jù)前一次迭代的情況保留波峰或波谷,如前一次迭代保留的是波峰,則本次保留波谷.

step 3 對(duì)所有保留下來(lái)的各參數(shù)的正負(fù)突變點(diǎn)以5 ms為單位進(jìn)行分段.每個(gè)波峰選1個(gè)最大的正突變點(diǎn)和2個(gè)最大的負(fù)突變點(diǎn),若兩個(gè)負(fù)突變點(diǎn)的時(shí)間間隔大于15 ms,保留位置靠后的負(fù)突變點(diǎn);否則保留斜率絕對(duì)值較大的負(fù)突變點(diǎn).

step 4 將所有特征參數(shù)曲線的負(fù)突變點(diǎn)以40 ms為閾值進(jìn)行聚類整合,獲取音節(jié)分割的邊界.

3.2 音節(jié)分割算法的改進(jìn)設(shè)計(jì)

采用算法1對(duì)朝鮮語(yǔ)語(yǔ)音音節(jié)進(jìn)行分割,結(jié)果如表4所示.由表4可以看出,算法1的召回率較為理想,但是準(zhǔn)確率偏低.準(zhǔn)確率偏低的主要原因是在檢測(cè)音節(jié)的過(guò)程中,靜音段中的噪聲以及鼻韻尾、摩擦音、塞音等引起的音節(jié)檢測(cè)錯(cuò)誤較多.檢測(cè)過(guò)程中分割錯(cuò)誤占比見(jiàn)表3.

表3 分割錯(cuò)誤占比

為了提高音節(jié)檢測(cè)的準(zhǔn)確率,本文提出改進(jìn)的基于Seneff聽(tīng)覺(jué)模型的音節(jié)自動(dòng)分割算法(算法2),具體步驟如下:

step 1 通過(guò)雙門限端點(diǎn)檢測(cè)算法檢測(cè)連續(xù)語(yǔ)音中的各個(gè)靜音段邊界,然后從算法1得到的候選音節(jié)邊界列表中刪除靜音段引起的錯(cuò)誤邊界.

step 2 設(shè)定過(guò)零率閾值,并將大于此閾值的候選邊界確定為摩擦音及塞擦音;設(shè)定閾值a, 若經(jīng)step1篩選后的塞擦音和摩擦音的邊界位置k滿足k≤邊界位置≤k+a, 則刪除該邊界.

step 3 設(shè)定閾值b, 若經(jīng)step 1和step 2篩選后剩余的候選邊界位置k滿足k≤邊界位置≤k+b, 則刪除該邊界.

在改進(jìn)的音節(jié)自動(dòng)切分算法中,靜音段、摩擦音/塞擦音以及塞音等的檢測(cè)閾值采用的是經(jīng)驗(yàn)值,若該值采用不當(dāng),會(huì)誤刪真實(shí)的邊界而導(dǎo)致召回率降低;因此,經(jīng)驗(yàn)值的選取非常關(guān)鍵.

4 實(shí)驗(yàn)結(jié)果及分析

選取朝鮮語(yǔ)連續(xù)語(yǔ)音語(yǔ)料(準(zhǔn)書面語(yǔ))中的100段音頻作為實(shí)驗(yàn)數(shù)據(jù),其中包含響音(元音/邊音/鼻音)、阻塞音(摩擦音/塞擦音)等各類語(yǔ)音.語(yǔ)音的采樣頻率為16 kHz,量化精度為16 bit.音節(jié)的真實(shí)邊界通過(guò)人工標(biāo)注獲得,并將算法自動(dòng)檢測(cè)出的音節(jié)邊界和人工標(biāo)注出的基準(zhǔn)邊界進(jìn)行比較.假設(shè)算法得到的邊界為ts, 人工標(biāo)注的基準(zhǔn)邊界為tp, 且定義|ts-tp|≤20 ms時(shí)為檢測(cè)準(zhǔn)確.

算法評(píng)估指標(biāo)采用準(zhǔn)確率P和召回率R.假設(shè)算法檢測(cè)出的邊界個(gè)數(shù)為Nt, 人工標(biāo)注的邊界個(gè)數(shù)為Nh, 邊界檢測(cè)錯(cuò)誤的個(gè)數(shù)為Nc, 則準(zhǔn)確率和召回率的計(jì)算公式為:

算法2的實(shí)驗(yàn)結(jié)果見(jiàn)表4.由表4可看出,雖然算法2的召回率較算法1略有降低,但是準(zhǔn)確率明顯提高,說(shuō)明算法2優(yōu)于算法1.另外,若將算法2與人工校正相結(jié)合,則可在后續(xù)的語(yǔ)料標(biāo)注過(guò)程中顯著提高標(biāo)注工作的效率.

表4 兩種算法的音節(jié)分割結(jié)果 %

5 結(jié)論

本文基于朝鮮語(yǔ)語(yǔ)音發(fā)音特點(diǎn),提出了一種基于Seneff聽(tīng)覺(jué)模型的朝鮮語(yǔ)語(yǔ)音語(yǔ)料音節(jié)自動(dòng)切分算法.測(cè)試結(jié)果表明,本文方法不依賴于事先訓(xùn)練好的語(yǔ)音模型,僅僅從語(yǔ)音特征參數(shù)即可實(shí)現(xiàn)音節(jié)的自動(dòng)切分,且切分效果顯著優(yōu)于傳統(tǒng)的基于Seneff聽(tīng)覺(jué)模型的分割算法.為提高音節(jié)分割的準(zhǔn)確率,今后我們將引入機(jī)器學(xué)習(xí)的方法對(duì)其進(jìn)行研究.

猜你喜歡
朝鮮語(yǔ)頻帶檢測(cè)器
朝鮮語(yǔ)專業(yè)實(shí)踐教學(xué)模式改革初探
Wi-Fi網(wǎng)絡(luò)中5G和2.4G是什么?有何區(qū)別?
單音及部分頻帶干擾下DSSS系統(tǒng)性能分析
雙頻帶隔板極化器
車道微波車輛檢測(cè)器的應(yīng)用
關(guān)于朝鮮語(yǔ)“-?-”句式和漢語(yǔ)“是”字句的對(duì)比
如何辦好散居地區(qū)朝鮮語(yǔ)廣播
新聞傳播(2016年4期)2016-07-18 10:59:20
一種霧霾檢測(cè)器的研究與設(shè)計(jì)
調(diào)諧放大器通頻帶的計(jì)算及應(yīng)用
以多元人才觀為引導(dǎo),深化朝鮮語(yǔ)專業(yè)人才培養(yǎng)
商南县| 罗江县| 故城县| 南溪县| 湖北省| 红安县| 阿荣旗| 合水县| 南城县| 桐梓县| 盘锦市| 桃江县| 察雅县| 土默特左旗| 江城| 来安县| 松滋市| 垦利县| 阳江市| 建始县| 桓台县| 鲁山县| 祁阳县| 泗阳县| 巴彦县| 固安县| 孟连| 盐源县| 陆河县| 繁昌县| 瑞丽市| 高邮市| 南靖县| 亚东县| 灌云县| 虞城县| 鄂托克旗| 九寨沟县| 门头沟区| 连城县| 安徽省|