国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于基音周期軌跡的連續(xù)漢語語音切分技術(shù)研究*

2023-05-12 02:26張二華
關(guān)鍵詞:濁音基音新春

高 橋 張二華

(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)

1 引言

連續(xù)語音切分技術(shù),就是從輸入的語音信號(hào)流中,自動(dòng)找出各種段落的始末點(diǎn)位置。連續(xù)語音切分技術(shù)不僅對(duì)連續(xù)語音識(shí)別有著至關(guān)重要的作用,也能夠應(yīng)用于語音分離、音頻制作等領(lǐng)域。

語音邊界的標(biāo)注是語音識(shí)別的重要環(huán)節(jié)。一直以來,隱馬爾科夫模型(HMM)在語音識(shí)別領(lǐng)域有著廣泛的應(yīng)用[1~2]。此類模型通過Viterbi解碼或幀同步算法進(jìn)行解碼并得到音素邊界[3],是語音識(shí)別由孤立詞識(shí)別發(fā)展為連續(xù)語音識(shí)別的關(guān)鍵里程碑。但HMM 模型沒有利用語音幀的上下文,忽略了語音信號(hào)的連續(xù)性,實(shí)際應(yīng)用的性能較為有限。

隨著深度學(xué)習(xí)的不斷發(fā)展,端到端語音識(shí)別模型拋棄了傳統(tǒng)的HMM 框架,旨在一步實(shí)現(xiàn)語音信號(hào)的輸入與解碼識(shí)別[4]。但端到端語音識(shí)別模型需要大量標(biāo)注的音素進(jìn)行訓(xùn)練,訓(xùn)練成本較高。如果能夠?qū)崿F(xiàn)準(zhǔn)確可靠連續(xù)語音切分算法,就可以替代HMM 實(shí)現(xiàn)音素邊界的界定,從而提升語音識(shí)別系統(tǒng)的性能,也可以應(yīng)用于語音分離等領(lǐng)域。

傳統(tǒng)的端點(diǎn)檢測(cè)技術(shù)[5~6]可用于連續(xù)語音的初步切分,將語音數(shù)據(jù)劃分為語音段和非語音段,然而端點(diǎn)檢測(cè)難以實(shí)現(xiàn)濁音與非濁音的判別,切分精度達(dá)不到連續(xù)語音識(shí)別系統(tǒng)的需求。相關(guān)研究通過分析語音信號(hào)的語譜圖[7]、共振峰結(jié)構(gòu)[8]、頻譜熵[9]、倒譜特征[10]等,實(shí)現(xiàn)連續(xù)語音切分,但大多存在穩(wěn)定性差、調(diào)參困難等缺點(diǎn),同時(shí)缺少噪聲環(huán)境下的性能測(cè)試,難以滿足語音識(shí)別系統(tǒng)的應(yīng)用需求。

為了實(shí)現(xiàn)一種低成本、低耗時(shí)、高精度,同時(shí)具有一定噪聲魯棒性的連續(xù)語音切分算法,本文依據(jù)漢語的發(fā)聲原理,以及語音信號(hào)的時(shí)域、頻域、倒譜域特征,實(shí)現(xiàn)了連續(xù)漢語語音切分算法。聽覺實(shí)驗(yàn)與數(shù)據(jù)對(duì)比表明,算法具有較好的準(zhǔn)確性,以及較好的噪聲魯棒性,能夠滿足語音識(shí)別系統(tǒng)的應(yīng)用需求。

2 語音信號(hào)的特征提取

2.1 語譜圖

語音信號(hào)具有短時(shí)平穩(wěn)性,任何語音信號(hào)的分析都要基于短時(shí)的基礎(chǔ),因此需要采用交疊分幀的方法[11],將語音信號(hào)劃分為多個(gè)語音幀,使每一幀語音信號(hào)都具有短時(shí)平穩(wěn)的特征。

分幀過程中常用的窗函數(shù)有矩形窗、Hanning窗和Hamming窗。矩形窗的頻譜側(cè)漏相對(duì)較大,因此常用后兩種窗函數(shù)進(jìn)行加窗分幀處理。本文使用窗函數(shù)為Hamming窗。

分幀后,可以通過短時(shí)傅里葉變換(STFT),得到每一幀語音信號(hào)的短時(shí)譜[12]。將第n 幀語音信號(hào)xn代入式(1),可以得到這一幀信號(hào)的短時(shí)譜Xn(ω)。

其中N 為幀長(zhǎng)。通過短時(shí)傅里葉變換得到的短時(shí)譜,根據(jù)式(2)可以轉(zhuǎn)化為振幅譜L。

其中,R為Xn(ω)的實(shí)部,I為Xn(ω)的虛部。將振幅譜轉(zhuǎn)化為灰度,振幅越大,灰度值越小,顏色越深(灰度值為0 代表黑色);反之振幅越小,灰度值越大。按照時(shí)間順序繪制每一幀的振幅譜,即可得到語譜圖。

圖1 為語音數(shù)據(jù)“那年正月新春”的語譜圖(上)和對(duì)應(yīng)的時(shí)域波形(下)。黑色線段代表人工標(biāo)記的音節(jié)邊界。

圖1 “那年正月新春”語譜圖(上)與時(shí)域波形(下)

語譜圖能夠直觀展現(xiàn)語音信號(hào)的頻域特征隨時(shí)間的變化,不同音節(jié)的頻域能量分布往往也有明顯的區(qū)別。

2.2 倒譜與基音周期譜

倒譜的本質(zhì)是頻譜的頻譜,能夠反映頻域中的變化特性,得到每一幀信號(hào)的基音周期與基音峰,是語音信號(hào)分析的重要特征[13]。將第n 幀語音信號(hào)的短時(shí)譜Xn(ω)代入式(3),可以得到這一幀信號(hào)的倒譜cn。

式中IFFT代表傅里葉逆變換。為了觀測(cè)基音周期隨時(shí)間的變化,將每一幀的倒譜幅度轉(zhuǎn)化為灰度,按照時(shí)間順序進(jìn)行拼接,即可得到基音周期譜,記為T。

圖2 為“那年正月新春”語音數(shù)據(jù)的基音周期譜圖與對(duì)應(yīng)的時(shí)域波形。

圖2 “那年正月新春”基音周期譜圖(上)與時(shí)域波形(下)

濁音段具有諧波結(jié)構(gòu)特征,諧波分布于基音頻率的整數(shù)倍附近,使?jié)嵋舳蔚念l譜具有一定的周期性,倒譜有明顯的基音周期峰值。相反,清音段、靜音段等非濁音段的倒譜沒有基音峰。

因此,可以依據(jù)基音周期軌跡檢測(cè)并切分濁音,在無噪環(huán)境下使用端點(diǎn)檢測(cè)算法檢測(cè)有聲段,去除濁音段即可得到清音。噪聲環(huán)境下,清音往往會(huì)失真,不需要?jiǎng)澐譃檎Z音段。

3 多級(jí)連續(xù)語音切分算法

3.1 基音周期軌跡的提取與濁音檢測(cè)

根據(jù)基音軌跡曲線的性質(zhì)可知,只有濁音段能夠形成清晰的連續(xù)性強(qiáng)的基音周期軌跡。因此,理論上可以通過提取語音信號(hào)的基音周期軌跡曲線,將對(duì)應(yīng)的區(qū)間標(biāo)記為濁音段,實(shí)現(xiàn)濁音檢測(cè)。

為了證實(shí)上述猜想,計(jì)算基音周期譜圖中每幀倒譜的灰度最值。因?yàn)榛叶却笮∨c倒譜幅度成反比,所以計(jì)算時(shí)取每幀倒譜的灰度最小值點(diǎn),從而得到倒譜峰值點(diǎn)軌跡曲線。

“那年正月新春”的倒譜峰值點(diǎn)軌跡曲線如圖3(上)所示,圖3(下)為對(duì)應(yīng)的基音周期譜圖。

圖3 “那年正月新春”倒譜峰值點(diǎn)軌跡曲線(上)與基音周期譜圖(下)

顯然,濁音段倒譜峰值點(diǎn)軌跡曲線相對(duì)平穩(wěn),并且與基音周期軌跡相符;非濁音段不存在基音周期軌跡,倒譜峰值點(diǎn)軌跡曲線的變化也沒有規(guī)律。

同時(shí)不難發(fā)現(xiàn),音節(jié)的起始段、截止段與過渡段,基音峰相對(duì)模糊,會(huì)引起基音周期軌跡的局部波動(dòng)。為了盡可能提高切分音節(jié)的完整性,本文采用多尺度分析的思想,計(jì)算局部灰度最小值,降低基音周期譜圖的分辨率,從而平滑基音周期軌跡曲線,提高曲線的連續(xù)性,進(jìn)而提高檢測(cè)得到的濁音的完整性。

為保證邊界區(qū)域的準(zhǔn)確性,同時(shí)保證邊緣信息的獲取,在進(jìn)行多尺度分析時(shí),需要按照神經(jīng)網(wǎng)絡(luò)的思想,將基音周期譜圖的邊緣進(jìn)行填充(pad?ding),將填充區(qū)域賦值為255(灰度最大值),保證輸入輸出數(shù)據(jù)的維度一致[14]。

圖4 為“那年正月新春”的多尺度分析基音周期譜圖(上)與對(duì)應(yīng)的時(shí)域波形(下),上方紅色線段代表檢測(cè)到的濁音段。

圖4 “那年正月新春”多尺度分析基音周期譜圖與濁音檢測(cè)結(jié)果

顯然,使用多尺度分析的方法能夠明顯提高基音周期軌跡的連通性,進(jìn)而提升音節(jié)完整性。然而,相鄰音節(jié)如果間隔較短,可能無法分開,例如“那年”、“正月”。因此,需要濁音檢測(cè)的基礎(chǔ)上,進(jìn)行更加精確的音節(jié)切分。

3.2 基音周期軌跡的斷點(diǎn)切分算法

為了盡可能放大濁音段與非濁音段的灰度差別,實(shí)現(xiàn)連續(xù)語音的單音節(jié)切分,可以按照sigmoid函數(shù)的思想,將灰度值進(jìn)行二分類,并利用符號(hào)函數(shù)將分類結(jié)果兩極化,從而實(shí)現(xiàn)基音周期譜的二值化,尋找相鄰音節(jié)之間的斷點(diǎn)。

為實(shí)現(xiàn)灰度的二分類,需要制定灰度閾值。將所有濁音段內(nèi)每一幀的基音峰(倒譜峰值)對(duì)應(yīng)的灰度進(jìn)行正序排序(0為黑色),選取前rate%的灰度分類為黑,另外1-rate%的灰度分類為白,排序位于rate%的灰度即為灰度閾值G0。

將基音周期譜T 代入式(4),得到二值化基音周期譜B_T。

其中,bio為二值化函數(shù),根據(jù)輸入數(shù)值的正或負(fù)返回1 或0。B_T(i,j)=1 代表第i 幀第j 個(gè)倒譜點(diǎn)有明顯的峰值,灰度偏黑;反之代表沒有明顯的峰值,灰度偏白。

將每個(gè)濁音段內(nèi)分類結(jié)果為0 的點(diǎn)視為斷點(diǎn),從而將濁音段進(jìn)行切分。為了保護(hù)音節(jié)的完整性,同時(shí)去除時(shí)長(zhǎng)過短的濁音段,可以合并相鄰間隔較短的濁音段。在合并結(jié)束后,根據(jù)人的語速特征[15],設(shè)定閾值去除時(shí)長(zhǎng)小于閾值的濁音段。

如果斷點(diǎn)切分算法能夠?qū)ふ业竭B續(xù)基音周期軌跡的斷點(diǎn),就能夠?qū)⒍鄠€(gè)音節(jié)組成的長(zhǎng)濁音段切分為單個(gè)濁音。但在實(shí)際應(yīng)用中,部分說話人的語速較快,部分音節(jié)之間幾乎不存在停頓,斷點(diǎn)切分算法難以應(yīng)對(duì)這類語音數(shù)據(jù)。

3.3 基音周期軌跡的斜率切分算法

為了應(yīng)對(duì)部分說話人語速較快的難點(diǎn),需要依據(jù)更多特征判斷音節(jié)的邊界。漢語音節(jié)具有“聲韻調(diào)”三要素,聲調(diào)不同的音節(jié),基音周期軌跡曲線的變化也不相同。如果能夠捕捉基音周期軌跡的斜率變化,尋找斜率分布的臨界點(diǎn),就能夠依據(jù)聲調(diào)的特征實(shí)現(xiàn)濁音切分。

例如,“正月”包含的兩個(gè)音節(jié)聲調(diào)不同,反映出的基音周期軌跡斜率分布有著明顯的差異??梢砸罁?jù)這個(gè)特征,以貪心算法的思想,選取左右兩側(cè)斜率分布差別最大的點(diǎn)作為臨界點(diǎn)。如果臨界點(diǎn)左右側(cè)的語音段長(zhǎng)度都大于一定時(shí)長(zhǎng),可以認(rèn)為臨界點(diǎn)左右兩側(cè)存在聲調(diào)不同的兩個(gè)音節(jié)。將這個(gè)臨界點(diǎn)作為切分點(diǎn),可以實(shí)現(xiàn)基音周期軌跡的斜率切分。

使用多級(jí)切分算法對(duì)“那年正月新春”進(jìn)行切分,得到結(jié)果如圖5 所示。圖中紅色線段代表濁音檢測(cè)結(jié)果,綠色線段代表多級(jí)切分的結(jié)果。為了方便觀察,將切分結(jié)果交錯(cuò)繪制。

圖5 “那年正月新春”濁音檢測(cè)與多級(jí)切分結(jié)果

從肉眼上能夠直觀地看出,“那年正月新春”被正確地切分為六個(gè)音節(jié),并且與人工標(biāo)記的區(qū)間相符。播放切分結(jié)果,也能夠證實(shí)連續(xù)語音切分算法的準(zhǔn)確性。

4 切分結(jié)果統(tǒng)計(jì)與分析

4.1 使用的數(shù)據(jù)

本文使用的語音數(shù)據(jù)來源于NJUST603實(shí)驗(yàn)室的語音庫(kù),內(nèi)容為作家劉紹棠的《師恩難忘》短文,全篇共593 個(gè)漢字。語音采樣共計(jì)包含男生210人,女生213 人。用于實(shí)驗(yàn)的噪聲數(shù)據(jù)來源于NoiseX-92噪聲庫(kù),采樣頻率均為16000Hz。

4.2 連續(xù)語音切分準(zhǔn)確率

隨機(jī)選取若干具有正常聽覺認(rèn)知能力的被試者,同時(shí)隨機(jī)選取語音庫(kù)中一位說話人的語音數(shù)據(jù),使用連續(xù)語音切分算法切分前38 個(gè)音節(jié)。切分完成后,將切分結(jié)果隨機(jī)打亂順序,在安靜環(huán)境下以正常音量播放,相鄰音節(jié)之間間隔1s,讓被試者復(fù)述聽到的音節(jié),與實(shí)際音節(jié)進(jìn)行對(duì)比,統(tǒng)計(jì)準(zhǔn)確率,結(jié)果如表1所示。

由表1 數(shù)據(jù)可知,被試者普遍能夠正常識(shí)別并復(fù)述出正確的音節(jié),證明通過聽覺認(rèn)知實(shí)驗(yàn),能夠認(rèn)為連續(xù)語音切分算法得到了正確的切分結(jié)果。同時(shí)通過數(shù)據(jù)對(duì)比可以發(fā)現(xiàn),多數(shù)女性說話人的聲音更容易辨識(shí)。

表1 連續(xù)語音切分準(zhǔn)確率統(tǒng)計(jì)結(jié)果

4.3 噪聲魯棒性檢驗(yàn)

絕大多數(shù)語音識(shí)別系統(tǒng)都要應(yīng)用于噪聲環(huán)境中。因此,需要在噪聲環(huán)境下進(jìn)行連續(xù)語音切分算法的性能測(cè)試,分析不同信噪比的噪聲對(duì)算法性能的影響。

由于低信噪比的噪聲會(huì)破壞語音段的共振峰結(jié)構(gòu),從而導(dǎo)致基音周期軌跡被破壞,使用連續(xù)語音切分算法可能會(huì)得到不完整的音節(jié)和原本不存在的虛假音節(jié)。同時(shí),部分音節(jié)信息可能會(huì)丟失。

選取4.2 節(jié)使用的一位說話人的語音段(共38音節(jié)),分別加入一定信噪比的白噪聲信號(hào),進(jìn)行連續(xù)語音切分,依據(jù)聽感與數(shù)據(jù)對(duì)比,將切分音節(jié)分為四類,分類結(jié)果如表2所示。

表2 不同信噪比的連續(xù)語音信號(hào)的切分結(jié)果

通過含噪語音切分實(shí)驗(yàn),證實(shí)本文提出的連續(xù)語音切分算法具有較好的噪聲魯棒性。低信噪比的噪聲會(huì)破壞基音周期軌跡曲線,因此會(huì)對(duì)算法性能產(chǎn)生較大影響。高信噪比環(huán)境下,算法性能較為穩(wěn)定,實(shí)際應(yīng)用中產(chǎn)生的偏差可以通過語言模型等方式進(jìn)行修正。

5 結(jié)語

本文提出的連續(xù)語音切分方法綜合利用了語音信號(hào)的時(shí)域、頻域和倒譜域特征,以及漢語發(fā)聲原理,通過檢測(cè)基音周期軌跡區(qū)分濁音段與非濁音段,依據(jù)基音周期軌跡的斷點(diǎn)與斜率進(jìn)行多級(jí)切分。經(jīng)過大量被試者的測(cè)試,證實(shí)了算法具有穩(wěn)定且較好的性能。不僅如此,加噪實(shí)驗(yàn)表明算法具有較好的噪聲魯棒性。

連續(xù)語音切分算法尚有改進(jìn)空間。濁音檢測(cè)與切分算法主要依據(jù)基音周期軌跡的特征,噪聲環(huán)境下一旦基音周期軌跡被破壞,算法的性能也會(huì)受到影響。同時(shí),需要依據(jù)不同的應(yīng)用場(chǎng)景,進(jìn)行一系列的參數(shù)調(diào)整。例如應(yīng)用于脫口秀、RAP等快速講話的字幕生成,需要調(diào)整參數(shù),在盡量不破壞完整音節(jié)的前提下盡可能提高切分性能。

猜你喜歡
濁音基音新春
獨(dú)占新春第一芳
基于基音跟蹤的語音增強(qiáng)研究
日語半濁音的變化規(guī)律研究
新春路上不輕松
清濁音分離抗噪的語音識(shí)別算法的研究
有關(guān)鼻濁音使用實(shí)態(tài)的研究
——以NHK新聞為中心
一種改進(jìn)的基音周期提取算法
日語與永州方言濁音相似點(diǎn)小議①
賀新春
一種高效的基音估計(jì)算法