多帶激勵(lì)MBE譜幅度估計(jì)與參數(shù)編解碼方案研究

2011-03-28 01:52李建鋒唐斌

電子設(shè)計(jì)工程 2011年16期

李建鋒，唐斌

（1.北京工商大學(xué)北京102488；2.總裝備部通信研究所北京101416）

隨著多帶激勵(lì)MBE模型的成功運(yùn)用，MBE語(yǔ)音編解碼算法也日新月易。在提高話音質(zhì)量的同時(shí)，編碼速率也在不斷地降低，從最初的8 kb/s，已經(jīng)能降到1.2 kb/s，甚至?xí)蚚1-4]。目前比較實(shí)用的MBE算法是IMBE（Improved MBE）算法[5-6]和AMBE（Advanced MBE）算法。1997年美國(guó)DVSI公司開發(fā)了3.6 kb/s AMBE編碼算法，在此基礎(chǔ)上生產(chǎn)了語(yǔ)音編碼芯片AMBE-1000TM[7]，并取得了廣泛應(yīng)用；IMBE算法也是由DVSI公司開發(fā)，碼速率為4.15 kb/s，其優(yōu)良的特性在商業(yè)化過程中取得了巨大成功，成為幾個(gè)全球衛(wèi)星通信服務(wù)的標(biāo)準(zhǔn)。

本方案計(jì)算MBE譜幅度參數(shù)及清濁音判決參數(shù)。在參數(shù)量化編碼時(shí)，則采用了IMBE編解碼方案，對(duì)譜幅度量化時(shí)，先進(jìn)行了離散余弦變換（DCT），然后進(jìn)行了矢量量化（VQ）。最終實(shí)驗(yàn)測(cè)定本文算法碼速率為4.4 kb/s。

1 MBE算法中的參數(shù)估計(jì)

設(shè)語(yǔ)音信號(hào)s（n）的采樣頻率為8 kHz，每幀取160個(gè)樣點(diǎn)，窗函數(shù)w（n）即為基音細(xì)搜索窗（寬度取為221個(gè)樣點(diǎn)的哈明窗）。設(shè)加窗語(yǔ)音信號(hào)為sw（n），則sw（n）=w（n）×s（n）。用Sw（w）表示sw（n）的傅立葉變換，可以看成是系統(tǒng)函數(shù)Hw（w）同激勵(lì)信號(hào)譜Ew（w）的乘積，即：

而重建語(yǔ)音信號(hào)可以寫成：

1.1 譜幅度估計(jì)

多帶激勵(lì)編碼過程都涉及3種參數(shù)的提取，它們是基音頻率，按基音頻率各次諧波分成頻帶后每個(gè)頻帶的譜包絡(luò)參數(shù)以及每個(gè)頻帶的V/U判決信息。統(tǒng)一提取這3個(gè)參數(shù)所涉及的計(jì)算量相當(dāng)大，目前在實(shí)際應(yīng)用中難以實(shí)時(shí)實(shí)現(xiàn)[2，6]。一種次優(yōu)的算法是分兩步來完成參數(shù)提取計(jì)算。第一步是確定基音頻率和每個(gè)分帶的譜幅度參數(shù)，第二步再對(duì)每個(gè)分帶進(jìn)行V/U判決。計(jì)算的過程是要使得原始語(yǔ)音譜模值|Sw（w）|合成語(yǔ)音譜模值|Swr（w）|之差的下列加權(quán)積分達(dá)到最?。?/p>

已經(jīng)獲得了每幀語(yǔ)音的基音周期P，則基音頻率ω0=2π/P。對(duì)于每一個(gè)基音頻率值，將ω=-π～π分成2M個(gè)頻帶，每個(gè)頻帶的頻率下限和上限依次為am=（m-1/2）ω0以及bm=（m+1/2）ω0，m=±1，±2，…，±M。并且在每個(gè)分帶[am，bm]中保持不變[2]，其值為譜幅度則第m個(gè)子帶所產(chǎn)生的擬合誤差為εm：

總的擬合誤差為：

式（6）表明，第m帶的譜值與該帶的激勵(lì)信號(hào)譜有關(guān)，若該帶為濁音帶，則可選用周期譜Pw（ω）來表示激勵(lì)信號(hào)Ewr（ω），若該帶為清音帶，激勵(lì)信號(hào)應(yīng)采用理想白噪聲譜，因此最終的譜值估計(jì)還應(yīng)在清濁判決后才能確定，當(dāng)?shù)趍帶為濁音帶時(shí)：

當(dāng)?shù)趍帶為清音帶時(shí)，由于白噪聲譜在所在頻率上保持為常數(shù)，則譜幅度為：

該式實(shí)際上表示的是加窗原始語(yǔ)音譜幅度在該帶內(nèi)的平均值。

以上是在頻域內(nèi)推導(dǎo)，下面用時(shí)域采樣點(diǎn)進(jìn)行計(jì)算。對(duì)加窗語(yǔ)音信號(hào)采用256點(diǎn)DFT

對(duì)窗函數(shù)采用16 384點(diǎn)DFT，以保證窗函數(shù)頻譜在頻域中移動(dòng)時(shí)能有足夠的精度。

當(dāng)基音頻率為ω0時(shí)，在-π～π之間有2π/ω0個(gè)諧波分量，兩個(gè)相鄰諧波之間含有256/2π個(gè)語(yǔ)音信號(hào)的DFT點(diǎn)，因此第l次諧波帶的上限和下限的計(jì)算公式：

其中[x]表示大于或等于x的最小整數(shù)。

根據(jù)式（7），可求出加窗語(yǔ)音激勵(lì)Pw（ω）在頻帶內(nèi)與窗主瓣包絡(luò)形狀相同，窗內(nèi)16 384點(diǎn)，而加窗語(yǔ)音256點(diǎn)，意味著語(yǔ)音改變一個(gè)樣點(diǎn)，窗就要改變64個(gè)樣點(diǎn)?？梢郧蟪鲎罴炎V幅度

當(dāng)?shù)趍帶為清音帶時(shí)，由式（9，10，11），則譜幅度為：

1.2 V/U判決

確定了基音頻率ω0和xm譜幅度后，可以利用歸一化誤差能量進(jìn)行V/U判決。歸一化誤差能量定義為[2]：

若ξm小于一定的閾值，則可以判該諧波頻帶為濁音區(qū)，反之為清音區(qū)。采用DFT時(shí)，式（14）表示的歸—化誤差應(yīng)改成：

上式中的合成信號(hào)譜定義為[1，8]：

如果編碼速率比較低，沒有足夠的比特來表示每一個(gè)諧波頻帶的V/Uv信息，可以將幾個(gè)相鄰的諧波頻帶合并成一個(gè)帶，根據(jù)該帶的總的擬合誤差作出該帶的V/U判決。這兒采用將每幀語(yǔ)音信號(hào)的頻譜最多分成12個(gè)頻帶的方法，首先確定諧波個(gè)數(shù)M[1，8]：

每個(gè)頻帶通常包含3個(gè)諧波分量，則每幀所含的頻帶數(shù)K:

2 MBE中的參數(shù)編、解碼算法

經(jīng)過上述語(yǔ)音分析，對(duì)每幀語(yǔ)音信號(hào)都可得到一套語(yǔ)音參數(shù)：基音頻率ω0，V/Uv判決信息Vk，1≤k≤K，和譜幅度xm，1≤m≤M，對(duì)于ω0和Vk，采用一般的標(biāo)量量化即可，分別分配8 bit和K bit。下面主要闡述譜幅度參數(shù)編解碼方法。

2.1 幅度譜的編碼

幅度譜的編碼主要利用幀間的相關(guān)性，首先計(jì)算預(yù)測(cè)殘差Tm，1≤m≤M，然后再對(duì)Tm進(jìn)行編碼，編碼框圖如圖1所示。譜幅度編碼算法的一個(gè)重要特征是傳遞差信息，這種預(yù)測(cè)殘差反映了當(dāng)前幀與過去幀在幅度譜上的差異，為了保證這種方案工作正常，編碼端要模擬解碼端的操作，用重建的過去幀的幅度譜來預(yù)測(cè)當(dāng)前幀的譜幅度，圖1中的反饋路徑就給出了解碼端的部分操作。

圖1 譜幅度編碼框圖Fig.1 Block diagram of spectral amplitude coding

圖中，xm（0）是當(dāng)前幀未量化的譜幅度，xm（-1）指過去的第一幀量化的譜幅度，ω0（0）和ω0（-1）指當(dāng)前幀的基音頻率和過去第一幀的基音頻率。在初始化時(shí)，ω0（-1）全部置為1.0，ω0（-1）置為0.02π。Tm為[2，6，9]：

這M個(gè)預(yù)測(cè)殘差被分成6塊，每塊的長(zhǎng)度記為Ji，1≤i≤6，分塊原則[7]如下：

第i塊的一個(gè)元素記為ci，j，1≤j≤Ji。每一塊再進(jìn)行離散余弦變換，第i塊的變換長(zhǎng)度為Ji，DCT系數(shù)記為Ci，k

現(xiàn)在將得到的DCT系數(shù)再分成兩組。第一組由每塊的第一個(gè)DCT系數(shù)組成，構(gòu)成了一個(gè)六維的矢量，稱之為PRBA（Prediction Residual Block Average）矢量；第二組由剩余的DCT系數(shù)組成。

PRBA矢量的編碼分為3步，第1步就是計(jì)算矢量元素的平均值mR：

對(duì)mR使用6比特的非均勻的標(biāo)量量化器，得量化值第二步是將PRBA矢量的每一個(gè)元素分別減去，得到零均值的PRBA矢量，然后用10比特的矢量碼本對(duì)其進(jìn)行矢量量化，得量化值碼本的產(chǎn)生利用LBG算法[4]。第三步是計(jì)算PRBA矢量的每個(gè)元素的量化誤差Qi：

其中Δ為量化階距，如果b落在0≤b≤2B-1范圍之外，則b取與此范圍內(nèi)的數(shù)據(jù)距離最近的值。

M-6個(gè)高階■C1，2，C1，3，…，C1，J1，…，C6，2，C6，3，…，C6，J6」DCT系數(shù)的編碼仍然采用均勻量化，每個(gè)系數(shù)分配的比特?cái)?shù)B通過查相關(guān)比特分配表確定[2，6]，DCT系數(shù)及Qi的比特分配表是根據(jù)M及它們的長(zhǎng)時(shí)統(tǒng)計(jì)特征確定的。最后編碼值b為

如b在0≤b≤2B-1之外，則b取與此范圍內(nèi)距離最近值。

2.2 幅度譜的解碼

譜幅度的解碼過程是編碼過程的逆過程，如圖1所示?；纛l率ω0解碼后，根據(jù)式（17）可得M，進(jìn)而根據(jù)式（23）和（24）確定塊長(zhǎng)Ji，然后解碼PRBA矢量，則

再解碼得到高階的DCT系數(shù)，就可得到6塊DCT系數(shù)Ci，k，對(duì)每塊DCT系數(shù)進(jìn)行DCT反變換，可得到ci，j

將這6塊Ci，j合并成一個(gè)長(zhǎng)度為M的矢量，記為Tm，1≤m≤M，即重建的幅度譜預(yù)測(cè)殘差。再根據(jù)式（20）確定，最后計(jì)算當(dāng)前幀的幅度譜[2，6，9]：

3 語(yǔ)音合成

合成語(yǔ)音信號(hào)sr（n）由清音部分su（n）和濁音部分sv（n）組成，合成時(shí)，這兩部分被分別合成，合成后再將其相加即可。

3.1 清音語(yǔ)音合成

首先要產(chǎn)生一個(gè)白噪聲激勵(lì)，對(duì)它加窗后進(jìn)行256點(diǎn)DFT，得到白噪聲譜Uw（m）：

根據(jù)當(dāng)前幀的V/Uv信息，對(duì)Uw（l）進(jìn)行修正得（l）。若m頻帶為濁音段，則

若m頻帶為清音段，則[1]

其中N表示幀長(zhǎng)。

3.2 濁音語(yǔ)音合成

合成語(yǔ)音濁音部分可用一組余弦波在時(shí)域中直接合成，[1]：

插值角頻率ωm（l，0）由本幀與上一幀第m次諧波頻率插值：

初始相位可用下式得到：

最后當(dāng)前幀的合成語(yǔ)音sr（n）為：

4 語(yǔ)音合成實(shí)驗(yàn)結(jié)果

取一幀實(shí)際語(yǔ)音，幀長(zhǎng)20 ms，采樣率8 kHz，實(shí)際語(yǔ)音波形如圖2所示，僅進(jìn)行語(yǔ)音分析合成實(shí)驗(yàn)，結(jié)果如圖3所示。

對(duì)比圖2、3，原始波形與合成波形除在相位上有偏差外，頻率、幅度幾乎一致。相位偏差因采用算法沒有對(duì)語(yǔ)音信號(hào)相位信息進(jìn)行傳遞，沒進(jìn)行編參數(shù)量化、編碼，所以得到的合成語(yǔ)音原始語(yǔ)音在頻率和幅度上幾乎一致，得到的合成語(yǔ)音質(zhì)量當(dāng)是最佳效果。

圖3 一幀合成語(yǔ)音波形Fig.3 A synthesized speech waveform

5 結(jié)論

實(shí)驗(yàn)表明：有噪聲環(huán)境下，該方法有良好的適應(yīng)性，恢復(fù)語(yǔ)音保留了較好的講話人特征，具有較高的自然度和可信度。

[1] PAN Sheng-xi，LIU Jia，WANGZuoying，et al.A new multimodel coding algorithm based on MBE and spectral amplitude correlation between successive frames[J].Chinese Journal of Acoustics，1998，17（3）:266-270.

[2] HARDWICK C J，J.A 4.8 kbps multi-band excitation speech coder[C]//Acoustics，Speech，and Signal Processing，1988.Icassp-88.，1988 International Conference on，1988:374-377.

[3] JAMROZIK M，J.Modified multiband excitation model at 2400 bps[C]//Acoustics，Speech，and Signal Processing，1997.Icassp-97.，1997 IEEE International Conference on，2.Munich，Germany，1997:1603-1606.

[4] ROWE D，SECKER P.A robust 2400bit/s MBE-LPC speech coder incorporating joint source and channel cod-ing[C]//Acoustics，Speech，and Signal Processing，1992.Icassp-92.，1992 IEEE International Conference on，2，1992:141-144.

[5] 戴懷宇，曹志剛.語(yǔ)音增強(qiáng)IMBE聲碼器研究[J].通信學(xué)報(bào)，1998，19（4）：43-49.DAI Huai-yu，CAO Zhi-gang.Study of IMBE vocoder with speech enhancement[J].Journal on Communications，1998，19（4）:43-49.

[6] Inmasat，Digital Voice System Inmarsat-MVoice Codec[S].Version 2.London，1991.

[7] 張連海.多帶激勵(lì)語(yǔ)音編碼算法研究與IMBE算法實(shí)現(xiàn)[D].鄭州：解放軍信息工程大學(xué)，2000.

[8] 袁春華.改進(jìn)型多帶激勵(lì)聲碼器的研究與實(shí)現(xiàn)[D].北京：北京郵電大學(xué)，1995.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡