石喬林,韋 凱,吳 輝
(中國(guó)電子科技集團(tuán)公司第58研究所,江蘇 無(wú)錫 214035)
隨著通信、計(jì)算機(jī)網(wǎng)絡(luò)等技術(shù)的飛速發(fā)展,語(yǔ)音壓縮編碼技術(shù)得到了廣泛應(yīng)用。近年來(lái)隨著低速率聲碼器在軍事和衛(wèi)星通信中的成功運(yùn)用,使得低于2.4kbps語(yǔ)音編碼算法越來(lái)越受到關(guān)注?;旌霞?lì)線(xiàn)線(xiàn)性預(yù)測(cè)編碼(MELP)在二元激勵(lì)LPC模型基礎(chǔ)上,采用了混合激勵(lì)、非周期脈沖、自適應(yīng)增強(qiáng)、脈沖整形濾波等技術(shù),使語(yǔ)音質(zhì)量得到極大改善,在1996年,該算法被美國(guó)國(guó)防部語(yǔ)音信號(hào)處理協(xié)會(huì)(DDVPC)選定為新一代的2.4kbps聲碼器標(biāo)準(zhǔn);隨后其增強(qiáng)型算法(MELPe)被北大西洋公約組織(NATO)選為語(yǔ)音編碼標(biāo)準(zhǔn)STANAG-4591;目前國(guó)內(nèi)外很多研究機(jī)構(gòu)基于該算法的改進(jìn)型正在進(jìn)行更低速率語(yǔ)音編碼算法的研究[1~4]。
本文以增強(qiáng)型MELP算法為基礎(chǔ),將三個(gè)連續(xù)語(yǔ)音幀構(gòu)成一個(gè)超幀(每個(gè)語(yǔ)音幀幀長(zhǎng)25ms),利用幀間參數(shù)的相關(guān)性,采用多模式預(yù)測(cè)多級(jí)矩陣量化方法對(duì)LSF參數(shù)進(jìn)行量化[5];在增益量化中,將增益量化分為超幀增益平均值量化和各增益值與增益均值之差值量化相結(jié)合,并將增益差值量化與基因周期量化聯(lián)合到一起,通過(guò)聯(lián)合量化的方法提高量化性能。
在編碼過(guò)程(見(jiàn)圖1)中通過(guò)線(xiàn)性預(yù)測(cè)分析、增益計(jì)算、基音估計(jì)和多帶分析方法從語(yǔ)音信號(hào)中提取線(xiàn)性預(yù)測(cè)系數(shù)、增益均值、增益差值、基音周期和子帶清濁判決等參數(shù),然后通過(guò)量化進(jìn)入信道。
圖1 編碼過(guò)程
譯碼過(guò)程(見(jiàn)圖2)是通過(guò)將脈沖信號(hào)和噪聲信號(hào)根據(jù)子帶清濁判決結(jié)果,將其疊加在一起作為激勵(lì)信號(hào),然后通過(guò)自適應(yīng)譜增強(qiáng)、LPC合成濾波、增益校正、脈沖整形濾波處理,從而充分反映了語(yǔ)音信號(hào)的本質(zhì)特征,極大地提高了合成語(yǔ)音的質(zhì)量。
圖2 譯碼過(guò)程
在基于線(xiàn)性預(yù)測(cè)的語(yǔ)音編碼算法中,線(xiàn)性預(yù)測(cè)系數(shù)的量化精度對(duì)于語(yǔ)音合成質(zhì)量具有舉足輕重的影響。本算法將在線(xiàn)性預(yù)測(cè)(LPC)系數(shù)轉(zhuǎn)化為線(xiàn)譜頻率(LSF)系數(shù)后,LSF矢量通過(guò)多級(jí)預(yù)測(cè)矩陣量化(predictive multistage matrix quantization)方法進(jìn)行量化。首先,通過(guò)碼本訓(xùn)練獲得LSF矩陣的平均值矩陣,而需要量化的矩陣由轉(zhuǎn)化得到的LSF矩陣與LSF平均矩陣的差值組成。然后,通過(guò)線(xiàn)性預(yù)測(cè)的方法來(lái)獲得殘差的LSF矩陣消除連續(xù)超幀之間的相關(guān)性。預(yù)測(cè)系數(shù)與超幀中語(yǔ)音幀的清濁分布有關(guān)。對(duì)剩余的LSF矩陣進(jìn)行多級(jí)矩陣量化,量化分為3級(jí),每級(jí)碼本分別都含有256個(gè)碼矩陣。量化結(jié)果見(jiàn)表1。
表1 LSF失真測(cè)度對(duì)比表
從這組參數(shù)對(duì)比可以看出,本文采用的量化方式其量化效率得到了有效的提高。
MELP算法中包含5個(gè)子帶(0~500Hz,500Hz~1 000Hz,1000Hz~2 000Hz,2 000Hz~3 000Hz,3 000Hz~4 000Hz),子帶清濁音對(duì)合成語(yǔ)音的自然度有重要影響。當(dāng)子帶清濁音判清音過(guò)多,合成的語(yǔ)音比較沙?。划?dāng)子帶清濁音判濁音過(guò)多,合成的語(yǔ)音機(jī)械音比較重,并影響合成語(yǔ)音的可懂度。
本算法根據(jù)子帶清濁音的統(tǒng)計(jì)規(guī)律,采用加權(quán)的歐氏距離作為量化距離測(cè)度。
式中:M表示一個(gè)超幀中包含的語(yǔ)音幀幀數(shù),分別表示超幀中第i個(gè)語(yǔ)音幀第j子帶清濁判決,ωj為各個(gè)子帶的量化權(quán)值,根據(jù)每個(gè)子帶的重要性設(shè)置,低頻子帶的量化權(quán)值最高,高頻子帶權(quán)值最小。本文設(shè)置的權(quán)值
每個(gè)語(yǔ)音幀中提取2個(gè)增益參數(shù)。這樣3個(gè)連續(xù)語(yǔ)音幀組成的一個(gè)超幀得到的一個(gè)6維的增益矢量G={G1,G2,G3,…,G6},然后用5bit來(lái)均勻量化量化得到的量化值為Gavg。
基音是語(yǔ)音信號(hào)中最重要的參數(shù)之一,因此基音周期的提取和估計(jì)是語(yǔ)音信號(hào)處理中一個(gè)重要環(huán)節(jié)。本算法中基音周期估計(jì)的計(jì)算方法參照MELP。一個(gè)超幀有3個(gè)語(yǔ)音幀,能提取3個(gè)基音周期,基音周期的量化是在周期的對(duì)數(shù)值中進(jìn)行的,對(duì)于單獨(dú)量化的基音周期,其量化失真測(cè)度采用加權(quán)的歐氏距離算法:
式中:M表示一個(gè)超幀中包含的語(yǔ)音幀幀數(shù),分別表示超幀中的第i個(gè)語(yǔ)音幀的基音周期及其量化值。
增益差值是增益參數(shù)與增益平均值之間的差值gi=Gi-Gavg,若是單獨(dú)對(duì)增益差值進(jìn)行量化,失真測(cè)度為
其中M表示一個(gè)超幀中包含的語(yǔ)音幀幀數(shù),gi、分別表示超幀中第i個(gè)語(yǔ)音幀的增益差值及其量化值。
我們利用一個(gè)系數(shù)α將基音周期和增益差值聯(lián)合在一起進(jìn)行聯(lián)合量化,聯(lián)合量化的失真測(cè)度為:
權(quán)重因子α在聯(lián)合量化中可以顯示出基音周期和增益差值兩個(gè)參數(shù)在聯(lián)合量化失真測(cè)度計(jì)算中的重要程度。α是通過(guò)自適應(yīng)過(guò)程得到的,首先分別用公式(2)和公式(3)作為基音周期和增益差值單獨(dú)量化時(shí)的碼書(shū)設(shè)計(jì)失真距離公式,用GLA算法做碼書(shū)設(shè)計(jì)。用它們的失真距離初始化α,初始化值與它們成反比例。然后再用初始化后的權(quán)重因子α用公式(4)作為聯(lián)合量化時(shí)碼書(shū)設(shè)計(jì)失真距離公式,用GLA算法做碼書(shū)設(shè)計(jì),再用分別得到的基音周期和增益差值的失真距離來(lái)更新α,再進(jìn)行下一次碼書(shū)設(shè)計(jì)。最后取得到的最小失真距離時(shí)的值作為權(quán)重因子α和聯(lián)合量化的碼書(shū)。
表2列出600bps語(yǔ)音算法超幀的比特分配情況。每一超幀持續(xù)時(shí)間為75ms,量化45bit,即速率為600bit/s。
表2 量化比特分布表
選擇診斷押韻測(cè)試(DRT)和診斷可接受度測(cè)試(DAM)來(lái)做語(yǔ)音質(zhì)量主觀聽(tīng)覺(jué)測(cè)試。DRT主要用來(lái)評(píng)價(jià)合成語(yǔ)音的可懂度,DAM則用來(lái)評(píng)價(jià)語(yǔ)音質(zhì)量。實(shí)驗(yàn)室條件下錄制的相對(duì)純凈語(yǔ)音作為測(cè)試語(yǔ)音,其中男生5名,女生 4名。在1%隨機(jī)誤碼信道的仿真條件下做了仿真測(cè)試,表3給出了其在非正式主觀聽(tīng)覺(jué)測(cè)試的結(jié)果。
表3 主觀聽(tīng)覺(jué)測(cè)試結(jié)果
從測(cè)試結(jié)果可以看出,通過(guò)將連續(xù)語(yǔ)音幀組成超級(jí)幀進(jìn)行聯(lián)合量化,利用幀間參數(shù)的相關(guān)性,在大幅度壓縮編碼速率的條件下,獲得了較高質(zhì)量的合成語(yǔ)音。
超低速語(yǔ)音編碼是當(dāng)前語(yǔ)音編碼的熱點(diǎn)和難點(diǎn)。本文依據(jù)MELP語(yǔ)音編碼模型,采用多幀聯(lián)合結(jié)構(gòu),根據(jù)連續(xù)幀的幀間冗余,用多模式預(yù)測(cè)多級(jí)矩陣量化和基音周期與增益聯(lián)合量化算法,提高了量化效率和合成語(yǔ)音質(zhì)量。當(dāng)然在極低速率下實(shí)現(xiàn)高質(zhì)量語(yǔ)音編碼仍存在很多問(wèn)題有待解決,需要我們長(zhǎng)期而深入的研究。
[1] A McCree, K Brady, T F Quatieri. Multisensor very low bit rate speech coding using segment quantization[C].Proc.IEEE Int. Conf. Acoustic, Speech, Signal Processing, Las Vegas, NV, 2008.3997-4000.
[2] J W Zhang, T H Huo, J L Li, H J Cui, K Tang. High quality 0.6kb/s speech coding algorithm[J]. J. Tsinghua Univ. of Sci.&Tech. (Chinese), 2003,43(4) : 449-452.
[3] X Zou, X W Zhang. High Quality 0.6/1.2/2.4kbps Multi-Band LPC Speech Coding Algorithm[C].IEE International Conference on Wireless, Mobile & Multimedia Networks,Hangzhou, China, 2006.1061-1064.
[4] M W Chamberlain. A 600 bps MELP vocoder for use on HF channels[C].IEEE Military Communications Conference,2001. 447- 453.
[5] X Zou, X W Zhang. Efficient coding of LSF parameters using multi-mode predictive multistage matrix quantization[C]. IEEE International Conference on Signal Processing, Beijing, China, 2008. 542-545.
[6] Xia Zou, ChuanHua Wen, XiongWei Zhang, YaFei Zhang.An Improved 600bps Speech Codiing on Joint Quantization of pitch and Gain Shape[C].IEEE International Conference,2010.1303-1306.