一種基于SVM的多特征參數(shù)清濁音判決算法

2016-09-13 09:13:15李克靖孫鳳梅石喬林

電子設(shè)計(jì)工程 2016年5期

關(guān)鍵詞：支持向量機(jī)特征參數(shù)

李克靖，孫鳳梅，石喬林

（中國(guó)電子科技集團(tuán)公司第五十八研究所，江蘇無(wú)錫　214035）

一種基于SVM的多特征參數(shù)清濁音判決算法

李克靖，孫鳳梅，石喬林

（中國(guó)電子科技集團(tuán)公司第五十八研究所，江蘇無(wú)錫214035）

為解決低速率聲碼器合成語(yǔ)音中，由于語(yǔ)音幀清濁判決不夠準(zhǔn)確而造成的偶發(fā)性嘶啞、機(jī)器音較重及變調(diào)等問(wèn)題，提出一種基于支持向量機(jī)（Support Vector Machine，SVM）并結(jié)合多種語(yǔ)音特征參數(shù)的清濁音判決優(yōu)化算法。實(shí)驗(yàn)結(jié)果顯示，該算法能夠有效降低清濁音的誤判率，進(jìn)而使合成語(yǔ)音的清晰度和自然度得到改善。將本算法應(yīng)用到正弦激勵(lì)線(xiàn)性預(yù)測(cè)算法中，在與相同碼率的其他算法的比較實(shí)驗(yàn)中，得到較高的PESQ-MOS分，顯示出一定的優(yōu)勢(shì)。關(guān)鍵詞：聲碼器；清濁判決；支持向量機(jī)；特征參數(shù)

隨著數(shù)字技術(shù)的發(fā)展，語(yǔ)音壓縮編碼技術(shù)在通信領(lǐng)域的應(yīng)用越來(lái)越深入和廣泛，同時(shí)，編碼速率也在不斷向低速化發(fā)展。然而，一些碼率下的語(yǔ)音編碼算法盡管已經(jīng)具有良好的性能，但其合成語(yǔ)音多數(shù)面臨著機(jī)器音較重、偶發(fā)性嘶啞及變調(diào)等問(wèn)題。究其原因，主要在于清濁音判決不夠準(zhǔn)確以及基音周期的倍/半頻錯(cuò)誤。因此，可通過(guò)提高參數(shù)提取的精度來(lái)得到更高質(zhì)量的合成語(yǔ)音。

清濁音判決是語(yǔ)音編碼中的一個(gè)重要參數(shù)，常常關(guān)系到語(yǔ)音合成時(shí)所用激勵(lì)的形式，對(duì)合成語(yǔ)音的質(zhì)量有較大的影響。傳統(tǒng)方法是通過(guò)提取語(yǔ)音幀的某些特征參數(shù)，然后進(jìn)行線(xiàn)性處理并根據(jù)預(yù)定閾值來(lái)進(jìn)行判斷，閾值一般依靠經(jīng)驗(yàn)來(lái)確定，其中較為經(jīng)典的算法所使用的分類(lèi)技術(shù)是一個(gè)貝葉斯決策過(guò)程［1］，該方法簡(jiǎn)單、容易實(shí)現(xiàn)，然而無(wú)法保證判斷結(jié)果的可靠性；隨著人工智能技術(shù)的發(fā)展，許多學(xué)者將它引入到語(yǔ)音編碼領(lǐng)域中，文獻(xiàn)［2］介紹了一種應(yīng)用不同特征參數(shù)和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的判別方法，但是傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)（如BP神經(jīng)網(wǎng)絡(luò)）方法存在著訓(xùn)練速度慢、容易陷入局部極小值點(diǎn)等缺陷，而且這種經(jīng)驗(yàn)非線(xiàn)性方法在網(wǎng)絡(luò)結(jié)構(gòu)的選擇以及權(quán)重初值的設(shè)定方面往往需要依靠人工經(jīng)驗(yàn)，缺乏統(tǒng)一的數(shù)學(xué)理論基礎(chǔ)；文獻(xiàn)［3］應(yīng)用監(jiān)督學(xué)習(xí)中的Fisher判決法，通過(guò)高維空間向一維空間投影，進(jìn)而在一維空間進(jìn)行判決，簡(jiǎn)化了分類(lèi)界面的求取，提高了判決的準(zhǔn)確度，然而，依然沒(méi)有擺脫需要人工確定判決門(mén)限所帶來(lái)的誤差。

1　基于貝葉斯準(zhǔn)則的清濁音判決

從本質(zhì)上講，清濁音判決是一個(gè)模式識(shí)別的問(wèn)題，其目標(biāo)是根據(jù)樣本選取合適的參數(shù)得到最優(yōu)劃分，降低清濁音誤判率。

1.1貝葉斯最小風(fēng)險(xiǎn)判決準(zhǔn)則

傳統(tǒng)清濁音判決方法一般采用最大短時(shí)自相關(guān)值作為語(yǔ)音特征值，通過(guò)貝葉斯最小風(fēng)險(xiǎn)判決準(zhǔn)則，試圖找到一個(gè)最佳判決閾值，使代價(jià)函數(shù)（1）的值達(dá)到最小［4］。

其中，r為最大短時(shí)自相關(guān)值，L1和L2分別表示清音誤判為濁音和濁音誤判為清音的代價(jià)因子，p1和p2分別為清音誤判和濁音誤判的概率，p（U）和p（V）則分別代表清音和濁音出現(xiàn)的概率。一般在聲碼器中，濁音誤判為清音對(duì)合成語(yǔ)音質(zhì)量帶來(lái)的負(fù)面影響遠(yuǎn)遠(yuǎn)大于濁音誤判為清音，因此代價(jià)因子L1＜＜L2。為使代價(jià)函數(shù)最小，常常需要犧牲清音判決的準(zhǔn)確度來(lái)降低濁音誤判率，實(shí)際應(yīng)用中一般取0.6為閾值。

1.2貝葉斯準(zhǔn)則誤判分析

利用貝葉斯準(zhǔn)則進(jìn)行清濁音判決時(shí)，存在大量清音的誤判，從而使合成語(yǔ)音濁音度過(guò)強(qiáng)、機(jī)器音較重，嚴(yán)重影響語(yǔ)音的自然度，并在一定程度上影響發(fā)音的清晰度，甚至造成部分語(yǔ)音變調(diào)。

另外，當(dāng)靜音段存在規(guī)律性的背景噪聲時(shí)，會(huì)有較大的自相關(guān)值，極易被誤判為濁音?；谪惾~斯準(zhǔn)則的判決算法僅以最大自相關(guān)值為判據(jù)，數(shù)據(jù)量小，誤判率高，需要引入其它語(yǔ)音特征參數(shù)以提高判決準(zhǔn)確度。

2　基于SVM的清濁音判決

支持向量機(jī)是一種典型的監(jiān)督學(xué)習(xí)方法，在小樣本、非線(xiàn)性和高維模式識(shí)別中有著許多特有的優(yōu)勢(shì)［5］。本文算法利用帶有清濁音標(biāo)記的語(yǔ)音樣本結(jié)合多個(gè)特征參數(shù)訓(xùn)練得到SVM分類(lèi)器，然后以待分類(lèi)語(yǔ)音幀的特征參數(shù)向量作為判據(jù)，通過(guò)分類(lèi)器得到分類(lèi)標(biāo)簽，實(shí)現(xiàn)語(yǔ)音幀的清濁判決。

2.1SVM原理簡(jiǎn)述

支持向量機(jī)最早是由Vapnik在1995年提出的，與傳統(tǒng)分類(lèi)器相比，該方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的，能夠根據(jù)有限的樣本信息在模型學(xué)習(xí)能力和復(fù)雜性之間尋求最佳折衷。

假設(shè)有n個(gè)維訓(xùn)練樣本（x1，y1），…，（xn，yn），xi∈Rk，yi∈｛-1，1｝是分類(lèi)標(biāo)簽，SVM的目標(biāo)是尋找一個(gè)間隔最大的最優(yōu)超平面，即存在w和b組成超平面wTx+b=0可以將所有訓(xùn)練數(shù)據(jù)無(wú)錯(cuò)誤地分開(kāi)：

且離超平面最近的向量與超平面之間的間隔是所有可能情況中最大的。其中，使等號(hào)成立的那些樣本就是支持向量（Supporting Vector）。

實(shí)際分類(lèi)問(wèn)題中往往不是線(xiàn)性可分的，這時(shí)可引入松弛變量ξi，通過(guò)求解以下優(yōu)化問(wèn)題得到超平面的參數(shù)w和b：

其中C＞0為懲罰因子，它表示對(duì)錯(cuò)分樣本的懲罰程度，C值越大表示對(duì)錯(cuò)誤分類(lèi)的懲罰越大。引入松弛變量用以實(shí)現(xiàn)最大分類(lèi)間隔和最少錯(cuò)分樣本之間的折衷，從而得到廣義的最優(yōu)分類(lèi)面。

對(duì)線(xiàn)性不可分的問(wèn)題，可以考慮通過(guò)某種非線(xiàn)性映射把訓(xùn)練數(shù)據(jù)映射到高維特征空間，然后利用支持向量在此空間中構(gòu)造出分類(lèi)超平面，用線(xiàn)性判別函數(shù)實(shí)現(xiàn)原始空間中的非線(xiàn)性判別函數(shù)。引入核函數(shù)后分類(lèi)器的決策函數(shù)為：

進(jìn)行SVM訓(xùn)練時(shí)，常常遇到樣本數(shù)目不均衡的情況，此時(shí)，得到的分類(lèi)面會(huì)偏向樣本數(shù)較少的一類(lèi)。這是由于在式（4）中使用了相同的懲罰因子C，從而使分類(lèi)面偏向樣本密度較小的一類(lèi)?？梢钥紤]對(duì)不同的類(lèi)設(shè)置不同的懲罰因子C，這樣能夠有效地根據(jù)不同類(lèi)別的錯(cuò)分代價(jià)進(jìn)行超平面的優(yōu)化，即構(gòu)造如下二次規(guī)劃問(wèn)題［6］：

其中C+和C-分別為正樣本和負(fù)樣本的懲罰因子。

可以看出，支持向量機(jī)是將輸入的樣本空間升維，從而使原問(wèn)題在高維空間中線(xiàn)性可分或接近線(xiàn)性可分。該方法之所以可行是因?yàn)榭臻g升維后的算法復(fù)雜度并不隨維數(shù)的增加而增加，同時(shí)，在高維空間中的推廣能力也不受維數(shù)的影響，很好地避免了“維數(shù)災(zāi)難”的問(wèn)題。

2.2語(yǔ)音特征參數(shù)選取

選取語(yǔ)音特征參數(shù)的原則是：參數(shù)要對(duì)不同模式的分類(lèi)可靠有效，提取簡(jiǎn)單，參數(shù)的取值范圍在各類(lèi)別中的重疊較少，各參數(shù)可以從不同角度描述樣本的特性，以提高分類(lèi)的準(zhǔn)確度。

文中算法采用最大自相關(guān)值（r）、過(guò)零率（z）、短時(shí)幀能量（e）和譜傾斜度（t）等4個(gè)特征參數(shù)作為判據(jù)，其定義如下［7］：

其中，s（i）為經(jīng)過(guò)濾波后的語(yǔ)音信號(hào)，N為每幀樣點(diǎn)數(shù)。4個(gè)參數(shù)組成特征向量X=（r，z，e，t）。

圖1給出了一段語(yǔ)音“天安門(mén)廣場(chǎng)”中前3個(gè)參數(shù)的變化與語(yǔ)音波形的對(duì)比圖，可以較為明顯地看出呈現(xiàn)如下規(guī)律：濁音段有較大的最大自相關(guān)值和短時(shí)幀能量，以及較小的過(guò)零率；清音段的最大自相關(guān)值和短時(shí)幀能量較小，而過(guò)零率較大。另外譜傾斜度與語(yǔ)音波形之間的聯(lián)系雖然不是較為直觀，但是作為一個(gè)重要的語(yǔ)音特征參數(shù)，可以在一定程度上提高訓(xùn)練所得分類(lèi)器的分類(lèi)準(zhǔn)確度，實(shí)驗(yàn)過(guò)程中也證明了這一點(diǎn)。

2.3實(shí)驗(yàn)結(jié)果與分析

算法實(shí)驗(yàn)所用語(yǔ)音文件選自中國(guó)科學(xué)院聲學(xué)研究所語(yǔ)音數(shù)據(jù)庫(kù)，均為PCM格式，采樣率8 000 Hz，16 bit。訓(xùn)練樣本發(fā)音人為兩男兩女，幀長(zhǎng)為25 ms，即200個(gè)樣點(diǎn)。訓(xùn)練樣本共有2 500幀，其中清音約占55%，濁音45%。訓(xùn)練樣本的清濁音分類(lèi)是通過(guò)觀察語(yǔ)音幀時(shí)域波形、頻域頻譜特性并結(jié)合其實(shí)際對(duì)應(yīng)的音素綜合判定的。圖2所示為“中”字的聲母、韻母的部分波形，由于濁音具有明顯的周期性且振幅較大，而清音波形類(lèi)似于白噪聲，振幅很小，沒(méi)有明顯的周期性，根據(jù)各幀波形及所屬音素可以相當(dāng)準(zhǔn)確地判定其清濁類(lèi)別。

圖1　部分參數(shù)變化與語(yǔ)音波形對(duì)比圖Fig.1　Change of some parameters compared with sound wave

圖2　典型清濁音波形示意圖Fig.2　Wave of typical voiced/unvoiced sound

首先進(jìn)行算法判決的準(zhǔn)確性測(cè)試，測(cè)試樣本來(lái)自DVSI網(wǎng)站公布的原始語(yǔ)音，包括男聲、女聲和男女混聲，共計(jì)2 000幀，由39%的濁音和61%的清音組成。同時(shí)對(duì)傳統(tǒng)貝葉斯判決及文獻(xiàn)［3］中Fisher判決方法進(jìn)行了測(cè)試，實(shí)驗(yàn)結(jié)果如表1所示，可以看出本文算法的判決準(zhǔn)確度明顯高于其他兩種算法，且對(duì)合成語(yǔ)音影響較大的濁音誤判也保持有比較理想的比例。

將本文算法應(yīng)用到正弦激勵(lì)線(xiàn)性預(yù)測(cè)（SELP）編解碼算法中進(jìn)行測(cè)試，同時(shí)實(shí)現(xiàn)了美國(guó)政府標(biāo)準(zhǔn)MELPe算法以及傳統(tǒng)的使用貝葉斯判決的SELP_B算法，各算法碼率均為2.4 kb/s。對(duì)測(cè)試樣本中部分語(yǔ)音文件進(jìn)行測(cè)試，包括Female、Male和 Mix 3個(gè)文件。測(cè)試指標(biāo)為平均意見(jiàn)得分（Mean Opinion Score，MOS），采用國(guó)際電信聯(lián)盟（International Telecommunication Union，ITU）建議的P.862 MOS分測(cè)試軟件，測(cè)試結(jié)果見(jiàn)表2?？梢?jiàn)使用本文清濁音判決算法后，SELP編解碼算法合成語(yǔ)音的PESQ-MOS分有一定的提高；另外，從安排多人進(jìn)行試聽(tīng)的反映來(lái)看，由于清濁音誤判而造成的偶發(fā)性嘶啞和變調(diào)問(wèn)題相對(duì)于其他算法也有一定程度的改善，進(jìn)一步證明了本文算法的有效性。

表1　算法誤判率比較Tab.1 Justice error of the algorithms

表2　算法PESQ-MOS分比較Tab.2 PESQ-MOS score of the algorithms

同時(shí)，筆者還將本文算法應(yīng)用到其他碼率（1200、600、300 bps）的SELP聲碼器中，所得合成語(yǔ)音的PESQ-MOS分相對(duì)于原對(duì)應(yīng)碼率的合成語(yǔ)音均有一定程度的提高。

3　結(jié)　論

本文將機(jī)器學(xué)習(xí)中支持向量機(jī)的方法應(yīng)用于語(yǔ)音編解碼中清濁音的判決，與傳統(tǒng)方法相比，避免了人工設(shè)定經(jīng)驗(yàn)閾值的局限性，且能夠通過(guò)較小的訓(xùn)練樣本集獲得相當(dāng)好的分類(lèi)性能，提高了清濁音判決的可靠性。將其應(yīng)用于SELP聲碼器中，對(duì)后續(xù)基音周期參數(shù)提取的準(zhǔn)確度也有一定的提高，進(jìn)而有效改善了合成語(yǔ)音的偶發(fā)性嘶啞和變調(diào)問(wèn)題，提高了其PESQ-MOS分，同時(shí)，具有相當(dāng)好的可懂度和自然度。

［1］Atal B，Rabiner L.A pattern recognition approach to voiced unvoiced-silence classification with applications to speech recognition［J］.IEEE Transactions on Acoustics，Speech and Signal Processing，1976，24（3）:201-212.

［2］Qi Y，Hunt B R.Voiced-unvoiced-silence classification of speech using hybrid features and a network classifier［J］. IEEE Transactions on Speech and Audio Processing，1993，1（2）:250-255.

［3］黨曉妍，魏旋.聲碼器清濁音判決算法優(yōu)化［J］.清華大學(xué)學(xué)報(bào)，2008，48（7）:1119-1122.

［4］Theodoridis S，Koutroumbas K.Pattern Recognition［M］. Beijing:Publishing House of Electronic Industry，2006.

［5］Vapnik Vladimir N.The Nature of Statistical Learning Theory［M］.Berlin Heidelberg，New York:Springer2Verlag，2000.

［6］Veropoulos K，Cambell C，Cristianini N.Controlling the sensitivity of support vector machines［C］.Proceedings of the International Joint Conference on AI，1999:55-60.

［7］計(jì)哲，李曄，崔慧娟.SELP聲碼器基音周期參數(shù)量化合成改進(jìn)算法［J］.高技術(shù)通訊，2010，20（1）:45-48.

Voiced-unvoiced classification based on SVM and multi-parameter

LI Ke-jing，SUN Feng-mei，SHI Qiao-lin
（China Electronic Technlogy Group Corporation No.58 Research Institute，Wuxi 214035，China）

The composed voice of low bit rate vocoders usually have occasionally hoarseness，out-of-tone speech，caused by the low veracity of voiced-unvoiced classification.To solve the problem，a new improved algorithm based on Support Vector Machine combined with several characteristic parameters is proposed.Experimental results show that the algorithm greatly reduces the voiced-unvoiced classification error rate，and enhances the articulation and spontaneousness of the composed voices.Use this method in SELP（sinuous excitation linear prediction）vocoder，compared with other method with same bit rate，it has higher PESQ-MOS score，which shows its advantage.

vocoders；voiced-unvoiced classification；support vector machine；characteristic parameters

TN 912.32

1674－6236（2016）05-0184-03

2015-04-20稿件編號(hào)：201504217

李克靖（1989—），男，安徽太和人，碩士。研究方向：語(yǔ)音壓縮編解碼。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于SVM的多特征參數(shù)清濁音判決算法

1 基于貝葉斯準(zhǔn)則的清濁音判決

2 基于SVM的清濁音判決

3 結(jié) 論

1　基于貝葉斯準(zhǔn)則的清濁音判決

2　基于SVM的清濁音判決

3　結(jié)　論