李 琦 張二華
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)
連續(xù)語音的自動(dòng)切分,是指從連續(xù)的語音信號(hào)中切分獨(dú)立的音素、音節(jié)或單詞。漢字是單音節(jié)字[1],每個(gè)字都對(duì)應(yīng)一個(gè)音節(jié)。在語音識(shí)別過程中,不宜直接對(duì)整段語音進(jìn)行識(shí)別,因?yàn)槠渲锌赡馨罅繚h字。由單字組合成句子的情況太多,并且字庫的大小是有限的,必須通過連續(xù)語音的自動(dòng)切分技術(shù)對(duì)語音切分,才能進(jìn)行識(shí)別。
現(xiàn)有的連續(xù)語音自動(dòng)切分技術(shù)主要有兩類。一類是基于時(shí)域特征或頻域特征的切分方法?;陔p門限和倒譜的檢測方法[2]是一種傳統(tǒng)的連續(xù)語音切分方法,該方法對(duì)于不含明顯輔音音節(jié)的漢字難以正確切分。曹冠斌[2]等提出了一種多級(jí)切分方法,該方法在分析漢語語音基礎(chǔ)上利用雙門限端點(diǎn)檢測技術(shù)、基于倒譜的端點(diǎn)檢測技術(shù)、相干分析和基音周期軌跡檢測等方法對(duì)連續(xù)漢語語音進(jìn)行切分。
另一類是基于模型的切分方法,該方法需要輸入人工切分好的數(shù)據(jù),對(duì)模型進(jìn)行訓(xùn)練。張揚(yáng)[3]等提出了一種基于時(shí)間長度的音節(jié)切分方法,利用高斯函數(shù)擬合音節(jié)的長度對(duì)音節(jié)進(jìn)行切分。
本文綜合利用端點(diǎn)檢測、語譜圖分析、基音周期軌跡檢測等技術(shù)研究了漢語連續(xù)語音的自動(dòng)切分。研究了一種連續(xù)語音多級(jí)切分方法,計(jì)算流程如圖1。
圖1 連續(xù)語音多級(jí)切分計(jì)算過程
語音信號(hào)是一種短時(shí)信號(hào),在短時(shí)間內(nèi)可看作平穩(wěn)信號(hào)[6]。語音信號(hào)攜帶有語義和大量的說話人特征。語音特征參數(shù)可分為時(shí)域特征參數(shù)和頻域特征參數(shù)。
計(jì)算語音特征參數(shù)之前,要對(duì)語音信號(hào)進(jìn)行預(yù)處理,一般包括預(yù)加重、分幀和加窗[7]。預(yù)加重可以增強(qiáng)語音高頻部分能量,使語音特征更明顯。因?yàn)檎Z音信號(hào)具有短時(shí)平穩(wěn)性,所以對(duì)其進(jìn)行分幀和加窗,以便用處理平穩(wěn)信號(hào)的方法處理語音信號(hào)。
時(shí)域特征包括短時(shí)能量和短時(shí)過零率。短時(shí)能量表示每一幀語音信號(hào)包含能量的大?。欢虝r(shí)過零率表示一幀語音信號(hào)經(jīng)過零點(diǎn)的次數(shù)。時(shí)域特征是語音切分的基礎(chǔ),可以用來檢測有聲段邊界[8]。
頻域特征指的是信號(hào)的各個(gè)頻率成分振幅的強(qiáng)弱變化,頻域特征主要有頻譜、功率譜和頻譜包絡(luò)等,分析方法包括傅里葉變換法、線性預(yù)測法和帶通濾波器組法等。本文主要研究語音信號(hào)的語譜圖和基音周期譜圖。
相對(duì)于時(shí)域特征,頻譜特征對(duì)于外界的干擾具有一定的魯棒性。另外,頻譜具有非常明顯的聲學(xué)特征,頻域特征具有實(shí)際的物理意義,如共振峰參數(shù)和基音周期參數(shù)等。
2.3.1 語譜圖
語譜圖[9]可以顯示語音的時(shí)-頻特性。語譜圖的橫軸為時(shí)間(幀序號(hào)),縱軸為頻率,二維坐標(biāo)點(diǎn)的值表示對(duì)應(yīng)時(shí)刻、對(duì)應(yīng)頻率成分的振幅,通過用像素點(diǎn)的顏色深淺來表示。顏色越深表示該時(shí)-頻點(diǎn)的振幅越強(qiáng)。語譜圖的繪制過程如下:
1)預(yù)處理,對(duì)語音信號(hào)進(jìn)行分幀、加窗。
2)通過式(1),對(duì)第n 幀語音信號(hào)xn(m)做快速傅里葉變換,得到短時(shí)頻譜。
該函數(shù)物理意義為:當(dāng)n 固定時(shí),將窗函數(shù)起點(diǎn)移到n 處截取信號(hào)xn(m),再做傅里葉變換得到短時(shí)頻譜Xn(ω)。根據(jù)快速傅里葉變換的結(jié)果,可以得到每幀數(shù)據(jù)Xn(ω)對(duì)應(yīng)的實(shí)部R和虛部I,通過式(2)得到振幅譜c:
根據(jù)振幅譜c 繪制語譜圖,振幅越大,對(duì)應(yīng)的像素點(diǎn)顏色越深;振幅越小,對(duì)應(yīng)的像素點(diǎn)顏色越淺。因?yàn)閷?shí)數(shù)的振幅譜為偶函數(shù),每一幀數(shù)據(jù)都關(guān)于頻率中心點(diǎn)對(duì)稱,所以繪制語譜圖時(shí)只需在每一幀的起始位置繪制前一半的頻率樣點(diǎn)即可。
2.3.2 基音周期譜圖
人在發(fā)聲時(shí),聲帶振動(dòng)的頻率稱為基頻,相應(yīng)的周期稱為基音周期(pitch)?;糁芷谧V圖是基音周期隨時(shí)間的變化圖,能夠反映語音音調(diào)的變化、元音的起始位置和結(jié)束位置等多種信息?;糁芷谧V圖的繪制方法仿照語譜圖,根據(jù)式(3)求取倒譜ceps,根據(jù)ceps 振幅p 的排序繪制基音譜圖。振幅越大,對(duì)應(yīng)像素點(diǎn)顏色越深;振幅越小,對(duì)應(yīng)像素點(diǎn)顏色越淺。并且在每一幀的起始位置繪制前一半的倒譜樣點(diǎn)。
基于雙門限和倒譜的端點(diǎn)檢測技術(shù)是比較經(jīng)典的語音端點(diǎn)檢測方法。計(jì)算過程如下:
1)對(duì)語音做雙門限端點(diǎn)檢測,得到有聲段邊界。
2)對(duì)語音進(jìn)行倒譜端點(diǎn)檢測,得到元音段邊界。
3)根據(jù)漢語的發(fā)音規(guī)律,當(dāng)一個(gè)字的發(fā)音只有元音時(shí),那么該元音段的起始和結(jié)束邊界就是該漢字的語音邊界;當(dāng)一個(gè)字的發(fā)音既包含元音又包含輔音時(shí),輔音往往在元音的前面,此時(shí)將輔音的起始位置和元音的結(jié)束位置作為該字的語音邊界。從有聲段中搜索元音段,取元音段的末尾邊界作為切分的依據(jù)。
該方法對(duì)于基音周期軌跡不相連的多個(gè)字段切分正確率較高;但對(duì)于占少數(shù)的基音周期軌跡相連的字段,單字切分正確率不高。
語音切分點(diǎn)可分為三種。第一種切分點(diǎn)是有聲段和無聲段的交界處。連續(xù)語音往往包含有聲段和無聲段,它們在時(shí)間域的特征參數(shù)有著較大差異,可以通過雙門限端點(diǎn)檢測方法對(duì)其進(jìn)行區(qū)分。
第二種切分點(diǎn)是元音段和輔音段的邊界。因?yàn)橛新暥瓮鄠€(gè)字段,所以第二種切分點(diǎn)的檢測在有聲段內(nèi)部進(jìn)行。在多個(gè)連續(xù)字段中,如果后面字段有輔音,那么前一個(gè)字段的元音會(huì)和后一個(gè)字段的輔音相連,因此元音末尾成為單字切分的依據(jù)。
第三種切分點(diǎn)是基音周期軌跡相連的字段邊界。假設(shè)兩漢字元音段相連,即后面的漢字沒有輔音段。如“師恩難忘”的“師恩”,后面漢字“恩”的元音“en”可能會(huì)和前面漢字“一”的元音“i”連到一起。
盡管傳統(tǒng)的雙門限法[9]可以將大部分有聲段與無聲段的邊界找出,但存在輔音段丟失和將無聲段誤判為有聲段的情況。常規(guī)邊緣端點(diǎn)檢測在雙門限法的基礎(chǔ)上增設(shè)了疑似輔音段,提高了有聲段檢測的準(zhǔn)確率。
傳統(tǒng)雙門限法在檢測輔音時(shí),對(duì)于短時(shí)平均過零率Z設(shè)置閾值ZX。當(dāng)Z ≥ZX時(shí),判定該語音段為輔音。在此過程中,雙門限法忽略了短時(shí)能量的限制。這會(huì)導(dǎo)致一部分無聲段混入輔音段,造成語音段切分誤差。為解決此問題,增設(shè)短時(shí)能量閾值EC,定義如式(4):
其中0 ≤α1≤1,Eave為語音的短時(shí)能量,EL為雙門限法中短時(shí)能量的低門限。
在此基礎(chǔ)之上,增加判定輔音段的條件:當(dāng)短時(shí)能量參數(shù)E滿足EC≤E ≤EL,且短時(shí)平均過零率Z滿足Z ≥ZX時(shí),判定該段語音為輔音段。這種方法同時(shí)使用短時(shí)能量和短時(shí)平均過零率對(duì)輔音段進(jìn)行判斷,可以有效避免將無聲段誤檢測為輔音段。
傳統(tǒng)的雙門限法分別設(shè)置EH、EL分別作為高低兩個(gè)門限對(duì)元音段進(jìn)行檢測。當(dāng)E ≥EH時(shí),判定為元音段;當(dāng)EH≤E ≤EL時(shí),判定為過渡段,過渡段一般為輔音段;當(dāng)E 圖2 語音“師恩”的短時(shí)能量和語音波形圖 從圖2 可以看出,“師”的短時(shí)能量在元音段和輔音段的交界處大幅度降低,接近于無聲段,這樣會(huì)導(dǎo)致前面的輔音段整體丟失。因此,本文增設(shè)疑似輔音閾值ES,定義如式(5): 其中0 ≤α2≤1,Eave為語音的平均短時(shí)能量。在之前的判定基礎(chǔ)上增設(shè)條件:當(dāng)滿足ES≤E ≤EC,且Z≤ZX時(shí);或者滿足EC≤E ≤EL且Z ≤ZX時(shí),判定該段語音為疑似輔音段,在擴(kuò)展輔音段時(shí)將相鄰的疑似輔音段合并進(jìn)去。 基音周期譜圖橫軸為時(shí)間(采樣點(diǎn)序號(hào)),縱軸為語音對(duì)應(yīng)的基音周期T。它可以反映語音的元音段位置,同時(shí)還能顯示語音音調(diào)隨時(shí)間的變化。 4.3.1 基音周期軌跡不相連的音節(jié)切分 基音周期軌跡檢測目的是從基音周期譜圖中找出語音的元音段,并將元音段的結(jié)束位置作為單字切分的依據(jù)。具體切分步驟如下: 1)在有聲段內(nèi),檢測存在基音周期軌跡的語音段,標(biāo)記其起始和結(jié)束位置為W1、W2。在人的語音當(dāng)中,只有元音段的語音才有基音周期,因此確定W1W2語音段為元音段。 2)根據(jù)漢字發(fā)音規(guī)律,每個(gè)漢字的語音都存在元音段,但不一定存在輔音段。當(dāng)輔音段不存在時(shí),就將存在基音周期軌跡部分的語音認(rèn)定為該字對(duì)應(yīng)的語音;當(dāng)輔音段存在時(shí),將W1W2左側(cè)相鄰的無基音周期軌跡語音段認(rèn)定為該漢字的輔音段,如圖3。 圖3 語音“周歲”的基音周期譜圖 在圖3 中,找到元音段W1W2后,從W1向左延伸到上一段元音段的末尾,標(biāo)記為W0,W0W2為字段“歲”的語音范圍。若檢測的字段為有聲段的第一個(gè)字,在檢測到元音段邊界后,只需向左延伸到有聲段左邊界,將其作為該字段的邊界即可。 4.3.2 基音周期軌跡相連的音節(jié)切分 通過觀察大量數(shù)據(jù)發(fā)現(xiàn),當(dāng)音節(jié)發(fā)生變化時(shí),語譜圖中能量集中的位置也會(huì)發(fā)生變化。根據(jù)不同頻帶能量總和的變化,可以對(duì)基音周期軌跡相連且變化不明顯的多個(gè)字段,進(jìn)行單字切分。本文將語譜圖的頻率域分為多個(gè)頻帶,并對(duì)各個(gè)時(shí)間、各個(gè)頻帶的語音能量進(jìn)行求和,稱為頻帶能量。頻帶能量檢測就是通過統(tǒng)計(jì)不同頻帶的能量,找到相鄰音節(jié)之間頻帶能量發(fā)生突變的點(diǎn),作為單字切分依據(jù)。具體實(shí)現(xiàn)過程如下。 1)計(jì)算語音的頻譜并繪制其語譜圖。語譜圖的縱軸由256 個(gè)頻率采樣點(diǎn)有序排列構(gòu)成,頻率采樣間隔Δt的計(jì)算公式如式(6)所示,其中幀長N 取512,采樣頻率f取16000Hz。 2)將256 個(gè)數(shù)據(jù)點(diǎn)序號(hào)分成多個(gè)頻帶分,并對(duì)其能量進(jìn)行統(tǒng)計(jì)。由于元音段的能量主要集中在采樣點(diǎn)序號(hào)0~128 范圍內(nèi),因此將頻率域分成[0,31]、[32,63]、[64,127]、[128,191]、[192,255]五個(gè) 頻 帶,分 別 對(duì) 應(yīng)0~1000Hz、1000Hz~2000Hz、2000Hz~4000Hz、4000Hz~6000Hz、6000Hz~8000Hz頻帶,并將數(shù)據(jù)歸一化至0~100 范圍內(nèi),記為w1~w5,如圖4(a)。 圖4 語音“師恩”的語譜圖和頻帶能量曲線 3)檢測元音段相連的字段邊界。分別統(tǒng)計(jì)w1~w5范圍內(nèi)語音的頻帶能量,并繪制頻帶能量曲線。如圖4(b),“師恩”的元音段相連。在語音邊界處,曲線w2、w3、w4發(fā)生突變,可推斷此處能量變化較大。設(shè)置條件一:w2>40,w3>30,0 如“師恩難忘”其中“難”的輔音“n”和“恩”的元音段相連。“n”是濁輔音,它在語譜圖中的能量主要集中在低頻部分,且能量較低。設(shè)置條件二對(duì)其進(jìn)行切分:w3<40、w4<40、0 本實(shí)驗(yàn)采用的是南京理工大學(xué)NJUST603語音庫,該語音庫含男、女生語音200 段。語音的采樣頻率為16kHz,誦讀內(nèi)容為作家劉紹棠所著《師恩難忘》,包含593 個(gè)漢字。本文采用命中率(Hit Rate,HR)作為算法的評(píng)價(jià)標(biāo)準(zhǔn),HR 計(jì)算方式如式(7): 其中Nhit表示算法正確檢測的分段邊界個(gè)數(shù),Nref表示算法檢測的分段邊界數(shù)。本文設(shè)置了基于雙門限和倒譜的端點(diǎn)檢測技術(shù)作為對(duì)比實(shí)驗(yàn)。 根據(jù)4.1 節(jié)~4.4 節(jié)對(duì)連續(xù)語音切分基礎(chǔ)的闡述,可總結(jié)成連續(xù)語音多級(jí)切分方法,具體切分步驟如下: 1)利用改進(jìn)的雙門限法找出語音的有聲段,將有聲段范圍集合記為S1,無聲段集合記為S0。 2)利用基音周期軌跡檢測,找出有聲段S1中的元音段和輔音段,并根據(jù)輔音段和元音段的交界位置做切分,初步得到字與字之間的語音邊界,將切分得到的范圍集合記為S2。 3)根據(jù)4.2 節(jié),由于S2中可能存在兩個(gè)字的基音周期軌跡連續(xù),且語音的音調(diào)沒有明顯變化的情況。本文對(duì)每個(gè)S2中對(duì)應(yīng)的語音段做頻帶能量檢測,通過頻帶能量的變化對(duì)如“師恩”一類的語音做切分,得到最終的語音切分范圍集合S3,S3為最終得到的切分結(jié)果。 本實(shí)驗(yàn)選取男、女生語音共6 個(gè),采用“師恩難忘,原題,老師領(lǐng)進(jìn)門,劉紹棠,那年正月新春,我不滿六周歲,便到鄰近的鄉(xiāng)村小學(xué)去讀書”作為測試語音段,共228個(gè)音節(jié)。 本文結(jié)合常規(guī)邊緣端點(diǎn)檢測、語譜圖分析、基音周期軌跡檢測等技術(shù)將漢語語音切分為獨(dú)立音節(jié)。通過對(duì)實(shí)驗(yàn)語音庫的切分實(shí)驗(yàn),得到表1 的對(duì)比結(jié)果。由表1 可以看出,對(duì)于相同的測試樣本,多級(jí)切分方法的準(zhǔn)確率更高,比傳統(tǒng)的雙門限-倒譜端點(diǎn)檢測技術(shù)高出25.4%。 表1 多個(gè)語音實(shí)驗(yàn)結(jié)果對(duì)比 本文研究的連續(xù)語音多級(jí)切分方法綜合利用了聲學(xué)、語音學(xué)信號(hào)處理等知識(shí),綜合利用常規(guī)邊緣端點(diǎn)檢測、語譜圖分析、基音周期軌跡檢測等技術(shù),獲得了較高的準(zhǔn)確率。同時(shí),實(shí)驗(yàn)中也發(fā)現(xiàn)了一些問題需要解決,如一些詞語誦讀太快,音量偏小,能量較低,難以找到語音切分邊界的問題。這是本文之后的研究方向。4.3 基音周期軌跡檢測
5 實(shí)驗(yàn)設(shè)置
5.1 多級(jí)切分端點(diǎn)檢測方法
5.2 實(shí)驗(yàn)結(jié)果
6 結(jié)語