連續(xù)漢語語音的自動(dòng)切分研究*

2023-08-02 07:07張二華

計(jì)算機(jī)與數(shù)字工程 2023年4期

李琦張二華

（南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院南京 210094）

1 引言

連續(xù)語音的自動(dòng)切分，是指從連續(xù)的語音信號(hào)中切分獨(dú)立的音素、音節(jié)或單詞。漢字是單音節(jié)字［1］，每個(gè)字都對(duì)應(yīng)一個(gè)音節(jié)。在語音識(shí)別過程中，不宜直接對(duì)整段語音進(jìn)行識(shí)別，因?yàn)槠渲锌赡馨罅繚h字。由單字組合成句子的情況太多，并且字庫的大小是有限的，必須通過連續(xù)語音的自動(dòng)切分技術(shù)對(duì)語音切分，才能進(jìn)行識(shí)別。

現(xiàn)有的連續(xù)語音自動(dòng)切分技術(shù)主要有兩類。一類是基于時(shí)域特征或頻域特征的切分方法?；陔p門限和倒譜的檢測方法［2］是一種傳統(tǒng)的連續(xù)語音切分方法，該方法對(duì)于不含明顯輔音音節(jié)的漢字難以正確切分。曹冠斌［2］等提出了一種多級(jí)切分方法，該方法在分析漢語語音基礎(chǔ)上利用雙門限端點(diǎn)檢測技術(shù)、基于倒譜的端點(diǎn)檢測技術(shù)、相干分析和基音周期軌跡檢測等方法對(duì)連續(xù)漢語語音進(jìn)行切分。

另一類是基于模型的切分方法，該方法需要輸入人工切分好的數(shù)據(jù)，對(duì)模型進(jìn)行訓(xùn)練。張揚(yáng)［3］等提出了一種基于時(shí)間長度的音節(jié)切分方法，利用高斯函數(shù)擬合音節(jié)的長度對(duì)音節(jié)進(jìn)行切分。

本文綜合利用端點(diǎn)檢測、語譜圖分析、基音周期軌跡檢測等技術(shù)研究了漢語連續(xù)語音的自動(dòng)切分。研究了一種連續(xù)語音多級(jí)切分方法，計(jì)算流程如圖1。

圖1 連續(xù)語音多級(jí)切分計(jì)算過程

2 語音特征參數(shù)提取

語音信號(hào)是一種短時(shí)信號(hào)，在短時(shí)間內(nèi)可看作平穩(wěn)信號(hào)［6］。語音信號(hào)攜帶有語義和大量的說話人特征。語音特征參數(shù)可分為時(shí)域特征參數(shù)和頻域特征參數(shù)。

2.1 預(yù)處理

計(jì)算語音特征參數(shù)之前，要對(duì)語音信號(hào)進(jìn)行預(yù)處理，一般包括預(yù)加重、分幀和加窗［7］。預(yù)加重可以增強(qiáng)語音高頻部分能量，使語音特征更明顯。因?yàn)檎Z音信號(hào)具有短時(shí)平穩(wěn)性，所以對(duì)其進(jìn)行分幀和加窗，以便用處理平穩(wěn)信號(hào)的方法處理語音信號(hào)。

2.2 時(shí)域特征

時(shí)域特征包括短時(shí)能量和短時(shí)過零率。短時(shí)能量表示每一幀語音信號(hào)包含能量的大?。欢虝r(shí)過零率表示一幀語音信號(hào)經(jīng)過零點(diǎn)的次數(shù)。時(shí)域特征是語音切分的基礎(chǔ)，可以用來檢測有聲段邊界［8］。

2.3 頻域特征

頻域特征指的是信號(hào)的各個(gè)頻率成分振幅的強(qiáng)弱變化，頻域特征主要有頻譜、功率譜和頻譜包絡(luò)等，分析方法包括傅里葉變換法、線性預(yù)測法和帶通濾波器組法等。本文主要研究語音信號(hào)的語譜圖和基音周期譜圖。

相對(duì)于時(shí)域特征，頻譜特征對(duì)于外界的干擾具有一定的魯棒性。另外，頻譜具有非常明顯的聲學(xué)特征，頻域特征具有實(shí)際的物理意義，如共振峰參數(shù)和基音周期參數(shù)等。

2.3.1 語譜圖

語譜圖［9］可以顯示語音的時(shí)-頻特性。語譜圖的橫軸為時(shí)間（幀序號(hào)），縱軸為頻率，二維坐標(biāo)點(diǎn)的值表示對(duì)應(yīng)時(shí)刻、對(duì)應(yīng)頻率成分的振幅，通過用像素點(diǎn)的顏色深淺來表示。顏色越深表示該時(shí)-頻點(diǎn)的振幅越強(qiáng)。語譜圖的繪制過程如下：

1）預(yù)處理，對(duì)語音信號(hào)進(jìn)行分幀、加窗。

2）通過式（1），對(duì)第n 幀語音信號(hào)xn（m）做快速傅里葉變換，得到短時(shí)頻譜。

該函數(shù)物理意義為：當(dāng)n 固定時(shí)，將窗函數(shù)起點(diǎn)移到n 處截取信號(hào)xn（m），再做傅里葉變換得到短時(shí)頻譜Xn（ω）。根據(jù)快速傅里葉變換的結(jié)果，可以得到每幀數(shù)據(jù)Xn（ω）對(duì)應(yīng)的實(shí)部R和虛部I，通過式（2）得到振幅譜c：

根據(jù)振幅譜c 繪制語譜圖，振幅越大，對(duì)應(yīng)的像素點(diǎn)顏色越深；振幅越小，對(duì)應(yīng)的像素點(diǎn)顏色越淺。因?yàn)閷?shí)數(shù)的振幅譜為偶函數(shù)，每一幀數(shù)據(jù)都關(guān)于頻率中心點(diǎn)對(duì)稱，所以繪制語譜圖時(shí)只需在每一幀的起始位置繪制前一半的頻率樣點(diǎn)即可。

2.3.2 基音周期譜圖

人在發(fā)聲時(shí)，聲帶振動(dòng)的頻率稱為基頻，相應(yīng)的周期稱為基音周期（pitch）?；糁芷谧V圖是基音周期隨時(shí)間的變化圖，能夠反映語音音調(diào)的變化、元音的起始位置和結(jié)束位置等多種信息?；糁芷谧V圖的繪制方法仿照語譜圖，根據(jù)式（3）求取倒譜ceps，根據(jù)ceps 振幅p 的排序繪制基音譜圖。振幅越大，對(duì)應(yīng)像素點(diǎn)顏色越深；振幅越小，對(duì)應(yīng)像素點(diǎn)顏色越淺。并且在每一幀的起始位置繪制前一半的倒譜樣點(diǎn)。

3 傳統(tǒng)語音切分方法

基于雙門限和倒譜的端點(diǎn)檢測技術(shù)是比較經(jīng)典的語音端點(diǎn)檢測方法。計(jì)算過程如下：

1）對(duì)語音做雙門限端點(diǎn)檢測，得到有聲段邊界。

2）對(duì)語音進(jìn)行倒譜端點(diǎn)檢測，得到元音段邊界。

3）根據(jù)漢語的發(fā)音規(guī)律，當(dāng)一個(gè)字的發(fā)音只有元音時(shí)，那么該元音段的起始和結(jié)束邊界就是該漢字的語音邊界；當(dāng)一個(gè)字的發(fā)音既包含元音又包含輔音時(shí)，輔音往往在元音的前面，此時(shí)將輔音的起始位置和元音的結(jié)束位置作為該字的語音邊界。從有聲段中搜索元音段，取元音段的末尾邊界作為切分的依據(jù)。

該方法對(duì)于基音周期軌跡不相連的多個(gè)字段切分正確率較高；但對(duì)于占少數(shù)的基音周期軌跡相連的字段，單字切分正確率不高。

4 連續(xù)語音的多級(jí)切分

4.1 語音切分點(diǎn)類型

語音切分點(diǎn)可分為三種。第一種切分點(diǎn)是有聲段和無聲段的交界處。連續(xù)語音往往包含有聲段和無聲段，它們在時(shí)間域的特征參數(shù)有著較大差異，可以通過雙門限端點(diǎn)檢測方法對(duì)其進(jìn)行區(qū)分。

第二種切分點(diǎn)是元音段和輔音段的邊界。因?yàn)橛新暥瓮鄠€(gè)字段，所以第二種切分點(diǎn)的檢測在有聲段內(nèi)部進(jìn)行。在多個(gè)連續(xù)字段中，如果后面字段有輔音，那么前一個(gè)字段的元音會(huì)和后一個(gè)字段的輔音相連，因此元音末尾成為單字切分的依據(jù)。

第三種切分點(diǎn)是基音周期軌跡相連的字段邊界。假設(shè)兩漢字元音段相連，即后面的漢字沒有輔音段。如“師恩難忘”的“師恩”，后面漢字“恩”的元音“en”可能會(huì)和前面漢字“一”的元音“i”連到一起。

4.2 常規(guī)邊緣端點(diǎn)檢測

盡管傳統(tǒng)的雙門限法［9］可以將大部分有聲段與無聲段的邊界找出，但存在輔音段丟失和將無聲段誤判為有聲段的情況。常規(guī)邊緣端點(diǎn)檢測在雙門限法的基礎(chǔ)上增設(shè)了疑似輔音段，提高了有聲段檢測的準(zhǔn)確率。

傳統(tǒng)雙門限法在檢測輔音時(shí)，對(duì)于短時(shí)平均過零率Z設(shè)置閾值ZX。當(dāng)Z ≥ZX時(shí)，判定該語音段為輔音。在此過程中，雙門限法忽略了短時(shí)能量的限制。這會(huì)導(dǎo)致一部分無聲段混入輔音段，造成語音段切分誤差。為解決此問題，增設(shè)短時(shí)能量閾值EC，定義如式（4）：

其中0 ≤α1≤1，Eave為語音的短時(shí)能量，EL為雙門限法中短時(shí)能量的低門限。

在此基礎(chǔ)之上，增加判定輔音段的條件：當(dāng)短時(shí)能量參數(shù)E滿足EC≤E ≤EL，且短時(shí)平均過零率Z滿足Z ≥ZX時(shí)，判定該段語音為輔音段。這種方法同時(shí)使用短時(shí)能量和短時(shí)平均過零率對(duì)輔音段進(jìn)行判斷，可以有效避免將無聲段誤檢測為輔音段。

傳統(tǒng)的雙門限法分別設(shè)置EH、EL分別作為高低兩個(gè)門限對(duì)元音段進(jìn)行檢測。當(dāng)E ≥EH時(shí)，判定為元音段；當(dāng)EH≤E ≤EL時(shí)，判定為過渡段，過渡段一般為輔音段；當(dāng)E

圖2 語音“師恩”的短時(shí)能量和語音波形圖

從圖2 可以看出，“師”的短時(shí)能量在元音段和輔音段的交界處大幅度降低，接近于無聲段，這樣會(huì)導(dǎo)致前面的輔音段整體丟失。因此，本文增設(shè)疑似輔音閾值ES，定義如式（5）：

其中0 ≤α2≤1，Eave為語音的平均短時(shí)能量。在之前的判定基礎(chǔ)上增設(shè)條件：當(dāng)滿足ES≤E ≤EC，且Z≤ZX時(shí)；或者滿足EC≤E ≤EL且Z ≤ZX時(shí)，判定該段語音為疑似輔音段，在擴(kuò)展輔音段時(shí)將相鄰的疑似輔音段合并進(jìn)去。

4.3 基音周期軌跡檢測

基音周期譜圖橫軸為時(shí)間（采樣點(diǎn)序號(hào)），縱軸為語音對(duì)應(yīng)的基音周期T。它可以反映語音的元音段位置，同時(shí)還能顯示語音音調(diào)隨時(shí)間的變化。

4.3.1 基音周期軌跡不相連的音節(jié)切分

基音周期軌跡檢測目的是從基音周期譜圖中找出語音的元音段，并將元音段的結(jié)束位置作為單字切分的依據(jù)。具體切分步驟如下：

1）在有聲段內(nèi)，檢測存在基音周期軌跡的語音段，標(biāo)記其起始和結(jié)束位置為W1、W2。在人的語音當(dāng)中，只有元音段的語音才有基音周期，因此確定W1W2語音段為元音段。

2）根據(jù)漢字發(fā)音規(guī)律，每個(gè)漢字的語音都存在元音段，但不一定存在輔音段。當(dāng)輔音段不存在時(shí)，就將存在基音周期軌跡部分的語音認(rèn)定為該字對(duì)應(yīng)的語音；當(dāng)輔音段存在時(shí)，將W1W2左側(cè)相鄰的無基音周期軌跡語音段認(rèn)定為該漢字的輔音段，如圖3。

圖3 語音“周歲”的基音周期譜圖

在圖3 中，找到元音段W1W2后，從W1向左延伸到上一段元音段的末尾，標(biāo)記為W0，W0W2為字段“歲”的語音范圍。若檢測的字段為有聲段的第一個(gè)字，在檢測到元音段邊界后，只需向左延伸到有聲段左邊界，將其作為該字段的邊界即可。

4.3.2 基音周期軌跡相連的音節(jié)切分

通過觀察大量數(shù)據(jù)發(fā)現(xiàn)，當(dāng)音節(jié)發(fā)生變化時(shí)，語譜圖中能量集中的位置也會(huì)發(fā)生變化。根據(jù)不同頻帶能量總和的變化，可以對(duì)基音周期軌跡相連且變化不明顯的多個(gè)字段，進(jìn)行單字切分。本文將語譜圖的頻率域分為多個(gè)頻帶，并對(duì)各個(gè)時(shí)間、各個(gè)頻帶的語音能量進(jìn)行求和，稱為頻帶能量。頻帶能量檢測就是通過統(tǒng)計(jì)不同頻帶的能量，找到相鄰音節(jié)之間頻帶能量發(fā)生突變的點(diǎn)，作為單字切分依據(jù)。具體實(shí)現(xiàn)過程如下。

1）計(jì)算語音的頻譜并繪制其語譜圖。語譜圖的縱軸由256 個(gè)頻率采樣點(diǎn)有序排列構(gòu)成，頻率采樣間隔Δt的計(jì)算公式如式（6）所示，其中幀長N 取512，采樣頻率f取16000Hz。

2）將256 個(gè)數(shù)據(jù)點(diǎn)序號(hào)分成多個(gè)頻帶分，并對(duì)其能量進(jìn)行統(tǒng)計(jì)。由于元音段的能量主要集中在采樣點(diǎn)序號(hào)0～128 范圍內(nèi)，因此將頻率域分成［0，31］、［32，63］、［64，127］、［128，191］、［192，255］五個(gè) 頻帶，分別對(duì) 應(yīng)0～1000Hz、1000Hz～2000Hz、2000Hz～4000Hz、4000Hz～6000Hz、6000Hz～8000Hz頻帶，并將數(shù)據(jù)歸一化至0～100 范圍內(nèi)，記為w1～w5，如圖4（a）。

圖4 語音“師恩”的語譜圖和頻帶能量曲線

3）檢測元音段相連的字段邊界。分別統(tǒng)計(jì)w1～w5范圍內(nèi)語音的頻帶能量，并繪制頻帶能量曲線。如圖4（b），“師恩”的元音段相連。在語音邊界處，曲線w2、w3、w4發(fā)生突變，可推斷此處能量變化較大。設(shè)置條件一：w2>40，w3>30，0

如“師恩難忘”其中“難”的輔音“n”和“恩”的元音段相連。“n”是濁輔音，它在語譜圖中的能量主要集中在低頻部分，且能量較低。設(shè)置條件二對(duì)其進(jìn)行切分：w3<40、w4<40、0

5 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)采用的是南京理工大學(xué)NJUST603語音庫，該語音庫含男、女生語音200 段。語音的采樣頻率為16kHz，誦讀內(nèi)容為作家劉紹棠所著《師恩難忘》，包含593 個(gè)漢字。本文采用命中率（Hit Rate，HR）作為算法的評(píng)價(jià)標(biāo)準(zhǔn)，HR 計(jì)算方式如式（7）：

其中Nhit表示算法正確檢測的分段邊界個(gè)數(shù)，Nref表示算法檢測的分段邊界數(shù)。本文設(shè)置了基于雙門限和倒譜的端點(diǎn)檢測技術(shù)作為對(duì)比實(shí)驗(yàn)。

5.1 多級(jí)切分端點(diǎn)檢測方法

根據(jù)4.1 節(jié)～4.4 節(jié)對(duì)連續(xù)語音切分基礎(chǔ)的闡述，可總結(jié)成連續(xù)語音多級(jí)切分方法，具體切分步驟如下：

1）利用改進(jìn)的雙門限法找出語音的有聲段，將有聲段范圍集合記為S1，無聲段集合記為S0。

2）利用基音周期軌跡檢測，找出有聲段S1中的元音段和輔音段，并根據(jù)輔音段和元音段的交界位置做切分，初步得到字與字之間的語音邊界，將切分得到的范圍集合記為S2。

3）根據(jù)4.2 節(jié)，由于S2中可能存在兩個(gè)字的基音周期軌跡連續(xù)，且語音的音調(diào)沒有明顯變化的情況。本文對(duì)每個(gè)S2中對(duì)應(yīng)的語音段做頻帶能量檢測，通過頻帶能量的變化對(duì)如“師恩”一類的語音做切分，得到最終的語音切分范圍集合S3，S3為最終得到的切分結(jié)果。

5.2 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)選取男、女生語音共6 個(gè)，采用“師恩難忘，原題，老師領(lǐng)進(jìn)門，劉紹棠，那年正月新春，我不滿六周歲，便到鄰近的鄉(xiāng)村小學(xué)去讀書”作為測試語音段，共228個(gè)音節(jié)。

本文結(jié)合常規(guī)邊緣端點(diǎn)檢測、語譜圖分析、基音周期軌跡檢測等技術(shù)將漢語語音切分為獨(dú)立音節(jié)。通過對(duì)實(shí)驗(yàn)語音庫的切分實(shí)驗(yàn)，得到表1 的對(duì)比結(jié)果。由表1 可以看出，對(duì)于相同的測試樣本，多級(jí)切分方法的準(zhǔn)確率更高，比傳統(tǒng)的雙門限-倒譜端點(diǎn)檢測技術(shù)高出25.4%。

表1 多個(gè)語音實(shí)驗(yàn)結(jié)果對(duì)比

6 結(jié)語

本文研究的連續(xù)語音多級(jí)切分方法綜合利用了聲學(xué)、語音學(xué)信號(hào)處理等知識(shí)，綜合利用常規(guī)邊緣端點(diǎn)檢測、語譜圖分析、基音周期軌跡檢測等技術(shù)，獲得了較高的準(zhǔn)確率。同時(shí)，實(shí)驗(yàn)中也發(fā)現(xiàn)了一些問題需要解決，如一些詞語誦讀太快，音量偏小，能量較低，難以找到語音切分邊界的問題。這是本文之后的研究方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡