基于CELP編碼的語(yǔ)音幀擦除掩蔽算法

2019-09-10 02:38:44王春柳朱歡

現(xiàn)代信息科技 2019年17期

王春柳朱歡

摘 ?要：本文提出一種基于CELP解碼端的直線擬合的基音推導(dǎo)方法用于基音估計(jì)，該方法在CELP解碼端出現(xiàn)語(yǔ)音幀丟失時(shí)能夠更好地恢復(fù)丟失幀中的自適應(yīng)碼書部分，同時(shí)，為了保證丟失幀后的正常激勵(lì)信號(hào)與實(shí)際激勵(lì)信號(hào)同步，文中采用對(duì)聲門脈沖進(jìn)行再同步來(lái)提高幀擦除掩蔽后的語(yǔ)音合成質(zhì)量。將這兩種方法在ITU-T G.729編碼標(biāo)準(zhǔn)中進(jìn)行嘗試，結(jié)果表明，所建議方法能夠比原始方案取得更好的恢復(fù)效果，對(duì)基于CELP模型的語(yǔ)音編碼器幀擦除掩蔽都有很好的效果。

關(guān)鍵詞：基音估計(jì);幀擦除;幀擦除掩蔽;CELP

中圖分類號(hào)：TN912.3 ? ? 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2096-4706（2019）17-0055-04

Abstract：A novel pitch extrapolation based on straight line fitting in the decoder of CELP was proposed in this paper. This method can better recover the adaptive codebook part of the lost frame when the voice frame loss occurs at the CELP decoder. In addition，in order to ensure the synchronization of normal excitation signals and actual excitation signals after missing frames，a glottal pulse resynchronization method is used which improves the quality of speech synthesis after frame erasure concealment. We applied the two technologies to the ITU-T G.729 codec，the results show that the proposed method can achieve better recovery effect than the original scheme，and have good performance for frame erasure concealment of other speech codec based on CELP.

Keywords：pitch estimation;frame erasure;frame erasure concealment;CELP

0 ?引 ?言

隨著計(jì)算機(jī)網(wǎng)絡(luò)和通信技術(shù)的蓬勃發(fā)展，網(wǎng)絡(luò)電話VoIP（Voice over Internet Protocol）相對(duì)于傳統(tǒng)電話的低成本和多功能受到越來(lái)越多的關(guān)注[1]。然而，編碼后的語(yǔ)音幀根據(jù)實(shí)時(shí)傳輸協(xié)議（RTP，Real-Time Transprot Protocol）和用戶數(shù)據(jù)報(bào)協(xié)議（UDP，User Datagram Protocol）在打包傳輸?shù)倪^(guò)程中并不能保證傳輸?shù)目煽啃?，從而可能?dǎo)致語(yǔ)音包的丟失。總丟包數(shù)可以是由網(wǎng)絡(luò)擁塞所丟棄的，也可以是由接收方丟棄延遲到達(dá)的。當(dāng)語(yǔ)音包不能按時(shí)到達(dá)接收端用于解碼時(shí)，語(yǔ)音的質(zhì)量就會(huì)下降，因此在對(duì)語(yǔ)音傳輸質(zhì)量的研究主要集中在幀丟失隱藏系統(tǒng)（FLC，F(xiàn)rame Loss Concealment）的設(shè)計(jì)上。FLC系統(tǒng)的設(shè)計(jì)可以分為基于發(fā)送方和基于接收方兩種不同的設(shè)計(jì)方案[2]?；诎l(fā)送方的方案需要發(fā)送方的參與，主要基于前向糾錯(cuò)等冗余信息的傳輸，這是一種提高語(yǔ)音幀可靠性、減少恢復(fù)丟失幀所需時(shí)間的有效方法[3，4]。而基于接收方的方案僅限于接收方，該方案則試圖從相鄰幀中恢復(fù)丟失幀，恢復(fù)丟失幀的一種常見(jiàn)而簡(jiǎn)單的方法是插入一個(gè)替換幀，這個(gè)替換幀可以是一個(gè)靜音幀或一個(gè)噪聲幀[5]，或上一個(gè)接收幀的重復(fù)，簡(jiǎn)單性和低延遲要求是該方法的一大優(yōu)點(diǎn)，但不可避免的人為干擾以及該方法引入的自然語(yǔ)音和合成語(yǔ)音之間突然明顯的過(guò)渡，使得語(yǔ)音的感知質(zhì)量沒(méi)有明顯提高;恢復(fù)丟失幀的另一種方法是使用插值技術(shù)，利用相鄰幀的參數(shù)生成丟失幀[6]的替換等。

本文主要考慮基于接收方的幀丟失隱蔽方法，此方法應(yīng)用于ITU-T的8kB/s的G.729編碼方案，G.729具有低延遲的特點(diǎn)，廣泛應(yīng)用于各種VoIP通信設(shè)備，是一種共軛結(jié)構(gòu)的碼激勵(lì)線性預(yù)測(cè)（CS-CELP，Conjugate-Structure Code Excited Liner Predictive）編碼器[7]。由于CELP編碼器是根據(jù)其幀之間的相關(guān)性對(duì)其傳輸參數(shù)進(jìn)行解碼的，所以一幀信息的丟失不僅會(huì)影響當(dāng)前幀，還會(huì)將恢復(fù)幀的錯(cuò)誤繁衍到隨后的正常幀。特別是濁音幀的丟失，其影響將會(huì)持續(xù)6幀左右，濁音幀的脈沖變化非常緩慢，雖然通過(guò)對(duì)擦除幀恢復(fù)的激勵(lì)和沒(méi)有發(fā)生幀丟失之前的激勵(lì)是近似的，但差別可能在于周期脈沖的波形和周期脈沖的位置，特別是周期脈沖的位置將會(huì)嚴(yán)重影響合成語(yǔ)音的質(zhì)量。

本文采用一種聲門脈沖同步技術(shù)，能夠快速同步激勵(lì)信號(hào)，減少脈沖位置錯(cuò)位導(dǎo)致的合成語(yǔ)音質(zhì)量下降。此外基音周期的估計(jì)對(duì)聲門脈沖的同步起到關(guān)鍵作用，因此對(duì)基音周期采用新型線性預(yù)測(cè)來(lái)提高基音周期的準(zhǔn)確性，將該算法與G.729標(biāo)準(zhǔn)方法進(jìn)行性能比較，通過(guò)測(cè)試表明可以得到較高的語(yǔ)音質(zhì)量。本文首先簡(jiǎn)要介紹G.729的幀擦除掩蔽算法，然后詳細(xì)介紹聲脈沖同步技術(shù)等方法，最后給出實(shí)驗(yàn)結(jié)果。

1 ?G.729的幀擦除掩蔽算法

G.729中的幀丟失隱藏技術(shù)是基于以前接收到的信息來(lái)重構(gòu)丟失幀，不需要編碼端提供冗余信息。一旦檢測(cè)幀丟失，則重構(gòu)丟失幀的合成濾波器，其參數(shù)使用最后幀的合成濾波器的線性預(yù)測(cè)LP（Linear Predictive）參量;自適應(yīng)碼書增量和固定碼書增量分別建立在前一子幀的增益衰減基礎(chǔ)之上;增益預(yù)測(cè)器存儲(chǔ)器的衰減用接收好幀的固定碼本的能量進(jìn)行衰減來(lái)修正;丟失幀激勵(lì)信號(hào)的產(chǎn)生取決于最后重構(gòu)幀的分類：

如果最后的重構(gòu)幀是周期性的，則現(xiàn)行幀同樣考慮為周期性的，這樣的情況下，激勵(lì)信號(hào)只使用自適應(yīng)碼書部分，固定碼書部分的貢獻(xiàn)為零，基音延遲用前幀基音延遲的整數(shù)部分。為了避免過(guò)渡性的周期性，每移動(dòng)一個(gè)子幀，延遲就增加1，但以143為邊界。

如果最后的重構(gòu)幀是非周期性的，則現(xiàn)行幀同樣考慮為非周期性的，同時(shí)自適應(yīng)碼書的貢獻(xiàn)為零。固定碼書的貢獻(xiàn)是無(wú)規(guī)則的選擇碼書指針和碼書符號(hào)來(lái)產(chǎn)生的。無(wú)規(guī)則發(fā)生器采用函數(shù)式如下：

Seed=Seed*31821+13849

初始的Seed值為21845。固定碼書的指針是從下一個(gè)無(wú)規(guī)數(shù)的13個(gè)最低有效位得到，固定碼書的符號(hào)是從下一個(gè)無(wú)規(guī)數(shù)的4個(gè)最低有效位得到。

2 ?幀擦除掩蔽算法的改進(jìn)

幀擦除隱藏技術(shù)的優(yōu)劣在于對(duì)濁音幀恢復(fù)效果如何。自適應(yīng)碼書是表現(xiàn)濁音的最重要成分，而自適應(yīng)碼書是以基音周期為延遲，內(nèi)插過(guò)去激勵(lì)生成的，所以對(duì)于丟失幀，如果能有效地恢復(fù)基音周期，使其接近或等于未發(fā)生幀丟失時(shí)的值，則能大大提高丟失幀的合成效果，因此可以提高基音估計(jì)的準(zhǔn)確性，來(lái)更好地恢復(fù)丟失幀中的自適應(yīng)碼書部分。

2.1 ?基音估計(jì)

當(dāng)檢測(cè)最后重構(gòu)幀是周期信號(hào)時(shí)，原始幀擦除掩蔽算法中，前一基音信息被用于重新構(gòu)建當(dāng)前丟失幀。當(dāng)前估測(cè)的基音精度可直接影響原始信號(hào)的相位對(duì)齊程度，并對(duì)當(dāng)前丟失幀的重建質(zhì)量以及丟失幀之后接收到的幀起到很關(guān)鍵的作用。如果使用若干過(guò)去基音周期而非僅僅復(fù)制前一基音周期，這將使得基音估計(jì)在合成語(yǔ)音效果方面有更好的表現(xiàn)[8]。本文采用一種基于直線擬合的基音推導(dǎo)方法用于基音估計(jì)。如文獻(xiàn)[9]和[10]中所指出的，在幀邊界處對(duì)編碼的基音進(jìn)行線性插值來(lái)表示基音周期并不影響語(yǔ)音的質(zhì)量，該算法的主要優(yōu)點(diǎn)是采用加權(quán)誤差函數(shù)進(jìn)行線性擬合。

由于編碼器端沒(méi)有多余比特?cái)?shù)傳輸脈沖位置，所以丟失幀最后一個(gè)脈沖的位置P1并不確定，因此需要在解碼端通過(guò)第一個(gè)正確幀的參數(shù)“估計(jì)”得到最大脈沖的位置。文獻(xiàn)[11]提出了一種在解碼端通過(guò)估計(jì)得到幀尾最大脈沖的正確位置的方法。其方法是：假設(shè)當(dāng)前幀尾為丟失幀后的第一個(gè)正常幀，將更新的第一子幀自適應(yīng)碼書的存儲(chǔ)器設(shè)為零，自適應(yīng)碼書、固定碼書和對(duì)應(yīng)的增益的解碼不變，從而得到兩個(gè)子幀的激勵(lì)信號(hào)e0（n）。經(jīng)驗(yàn)證，該激勵(lì)信號(hào)的最大脈沖位置最接近正確的脈沖位置，通過(guò)在第二子幀基音周期范圍內(nèi)搜索可得到最大脈沖的位置P3，這樣可達(dá)到丟失幀后的正常幀脈沖同步的效果，但在丟失幀和第一個(gè)正常幀的銜接處存在不連續(xù)現(xiàn)象，這是由于幀間的基音周期突變?cè)斐傻模圆荒軐?duì)丟失幀后的第一個(gè)正常幀的激勵(lì)進(jìn)行脈沖同步，但對(duì)其后的正常幀可實(shí)現(xiàn)脈沖同步。

3 ?測(cè)試結(jié)果

為了評(píng)估改進(jìn)的CELP語(yǔ)音幀丟失掩蔽算法，本文實(shí)驗(yàn)采用ITU-T推出的PESQ（主觀語(yǔ)音質(zhì)量評(píng)估，Perceptual Evaluation of Speech Quality）軟件對(duì)合成語(yǔ)音的質(zhì)量進(jìn)行評(píng)估。

表1為G.729原始編碼器與根據(jù)本文方法修改后的編碼器幀擦除掩蔽效果對(duì)比情況，可見(jiàn)本文提出的方法能夠更好地恢復(fù)丟失幀。

圖1對(duì)G.729中的幀擦除掩蔽技術(shù)在3%幀錯(cuò)誤率下的語(yǔ)音性能進(jìn)行了質(zhì)量測(cè)試，可見(jiàn)，修正后編碼器在幀擦除掩蔽性能方面有了很大的提高。

5 ?結(jié) ?論

本文提出一種基于直線擬合的基音推導(dǎo)方法用于基音估計(jì)，同時(shí)采用對(duì)聲門脈沖進(jìn)行再同步技術(shù)來(lái)提高幀擦除掩蔽后的語(yǔ)音合成質(zhì)量，該方法主要用于G.729編碼器中，通過(guò)對(duì)不同幀擦除條件下的PESQ測(cè)量，與標(biāo)準(zhǔn)G.729編碼器中的擦除掩蔽算法相比，本文提出的方法提高了語(yǔ)音質(zhì)量，并取得良好的掩蔽效果。實(shí)驗(yàn)證明本文提出的方法對(duì)CELP模型的語(yǔ)音編碼器中幀擦除掩蔽有很好的效果。

參考文獻(xiàn)：

[1] Merazka F. Packet loss concealment by interpolation for speech over IP network services [C]//Signal Processing （CIWSP 2013），2013 Constantinides International Workshop on.IET，2013.

[2] Perkins C，Hodson O，Hardman V. A survey of packet loss recovery techniques for streaming audio [J].IEEE Network，2002，12（5）：40-48.

[3] 徐昶，王平，王紅霞.VoIP中的丟幀補(bǔ)償策略研究的概況 [J].艦船電子工程，2005，25（5）：100-102.

[4] Chua T K，Pheanis D C. Effects of Loss Characteristics on Loss-Recovery Techniques for VoIP [C]//International Conference on Systems & International Conference on International Conference on Networking，IEEE Computer Society，2006.

[5] Jayant N S，Christensen S W. Effect of Packet Losses in Waveform Coded Speech and Improvements Due to an Odd-Even Sample-Interpolation Procedure [J].IEEE Transactions on Communications，1981，29（2）：101-109.

[6] Gueham T，Merazka A，Markovic G，et al. An enhanced insertion packet loss concealment method for voice over IP network ?services [C]//2017 40th International Conference on Telecommunications and Signal Processing，2017：377-382.

[7] Internation Telecommunication Union. Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear prediction （CS-ACELP） [R/OL].（1999-09-15）.https：//www.itu.int/rec/T-REC-G.729-199611-S！AnnA/en.

[8] Lecomte J，Tomasek A，Markovic G，et al. Ehanced time domain packet loss concealment in switched speech/audio codec [C]//2015 IEEE International Conference on Acoustics，Speech and Signal Processing，2015：5922-5926.

[9] Kleijn W.B.，Ramachandran R.P.，Kroon P. Interpolation of the pitch-predictor parameters in analysisby-synthesis speech coders [C]//IEEE International Conference on Acoustic，Speech and Signal Processing （ICASSP），1994，2：42-54.

[10] Leong M，Kabal P.Smooth Speech Reconstruction Using Waveform Interpolation [C]//Speech Coding for Telecommunications，1993，Proceedings，IEEE Workshop on，1993：39-40.

[11] Chibani M，Lefebvre R，Gournay P. Resynchronization of the adaptive codebook in a constrained CELP codec after a frame erasure [C]//IEEE international Conference on Acoustics，Speech and Signal Processing，2006：13-16.

作者簡(jiǎn)介：王春柳（1989.01-），女，漢族，安徽宿州人，助教，碩士研究生，研究方向：語(yǔ)音編碼、DSP。

現(xiàn)代信息科技2019年17期

現(xiàn)代信息科技的其它文章: 應(yīng)急通信指揮平臺(tái)的設(shè)計(jì)及實(shí)際應(yīng)用; 集團(tuán)客戶專線接入方式探討; 數(shù)字電子技術(shù)在網(wǎng)絡(luò)中的實(shí)踐; 一種新型拓?fù)浣Y(jié)構(gòu)濾波器的設(shè)計(jì)與仿真驗(yàn)證; 電力基建施工問(wèn)題文本分類研究; 大數(shù)據(jù)時(shí)代人工智能在網(wǎng)絡(luò)信息檢索中的應(yīng)用分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于CELP編碼的語(yǔ)音幀擦除掩蔽算法