国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

G.718音頻編碼器核心層的一種低延時編碼方案

2014-12-07 06:58陳利峰秦永左
關鍵詞:基音核心層開環(huán)

陳利峰,秦永左

(長春理工大學 電子信息工程學院,長春 130022)

語音編解碼延時是衡量語音編碼性能的重要指標之一,較大的編碼延時不僅會降低語音通信的服務質量,同時還可能減小系統容量。1992年ITU正式公布了G.728標準[1],即16kbit/s LD-CELP低延遲碼激勵線性預測編碼標準,它能達到0.625ms幀緩沖,一路編解碼延時小于2ms。1996年公布的8Kbps、15ms延時的G.729標準[2],比特率有所下降,音質也略低于G.728。文獻[3]提出的BI-CELP的算法,性能略高于G.729標準但延時仍為15ms。

ITU-T G.718編碼器[4]是ITU-T于2008年6月制定的全新的嵌入式寬帶語音和音頻編解碼器標準,編解碼器采用了嵌入式分層結構,即將低速率的碼流嵌入在高碼率的碼流中。G.718最主要的應用是分組語音傳輸,編碼器的嵌入式結構可以在不影響低層解碼的情況下丟棄高層,能夠適用于擁塞控制和服務質量管理。G.718的另一個重要應用是高質量的音頻和視頻會議。其他應用包括多點接入家庭網關和多媒體流等。

1 G.718編碼器核心層算法

G.718編碼器是在幀長為20ms下進行處理的。對于WB輸入和輸出,核心層的算法延時為32.875ms,其中包括20ms的幀長,1.875ms的輸入輸出重采樣濾波器延時,10ms的前向預測,以及1ms的后濾波延時。對于NB的輸入和輸出,核心層的算法延時為33.875ms,包括20ms的幀長,2ms的輸入重采樣濾波器延時,10ms的前向預測,以及1.875ms的輸出重采樣濾波器延時。

下面介紹G.718編碼器的信號分類、線性預測(LP)系數的分析和量化以及開環(huán)基音搜索過程。

1.1 G.718編碼器信號分類

為了在8Kbps時獲得最好的語音編碼性能,首先進行VAD(Voice Activitity Detection)檢測判斷語音信號是否為活動語音信號,非活動語音信號如果采用DTX(Discontinuous Transmission)可以按照 CNG(Comfort Noise Generator)進行編碼。對于非活動語音不采用DTX方式時和活動語音,核心層將信號分成清音(unvoiced)、濁音(voiced)、過渡音(transition)和普通音(generic)四種類型,對這四種類型信號分別采用不同的編碼模式:清音編碼UC(Unvoiced Coding)、濁音編碼VC(Voiced Coding)、過渡音編碼TC(Transition Coding)和普通音編碼GC(Generic Coding)。核心層編碼時的信號分類流程如圖1所示。

圖1 核心層編碼時的信號分類

1.2 G.718編碼器線性預測分析

在G.718編碼器編碼過程中,frame-end幀和mid-frame幀的LP(Linear Predictive)參數被估計,每一部分都使用一個25ms的對稱窗(漢明窗),在frame-end自相關計算中使用了10ms的前向預測。幀結構如圖2所示。

圖2 LP分析窗的相關位置和長度

frame-end語音幀利用相鄰幀間的ISF(Immittance Spectral Frequency)殘差系數進行量化。ISF參數采用了兩種不同的預測量化器進行量化:在第一個預測器中,預測系數值接近0.7,稱為strongly-predictive路徑;在第二個預測器中,預測系數值設置為0或0.3附近,分別稱為safety-net路徑和weakly-predictive路徑。

對于mid-frame幀,首先將ISF系數表示為前一幀和當前幀的量化frame-end幀ISF系數的加權和,然后在一個閉環(huán)方式內對權值進行搜索,使得未量化mid-frame幀ISF系數與這個加權和之間的均方誤差最小。另外,由于沒有足夠比特來傳輸每個ISF系數的權值,所以將ISF系數矢量分裂成一系列的子矢量,每個子矢量只傳輸一個權值。分裂點、每個分裂組的比特數和權值在不同編碼模式下是不同的。在TC模式下中間幀的ISF是不用量化的。

1.3 G.718編碼器開環(huán)搜索分析

開環(huán)基音分析是為了平滑基音演變輪廓,將閉環(huán)基音估計的值限定在開環(huán)估計值附近,以達到簡化基音分析過程的目的。

(1) 灌漿材料中的塊狀渣體含量對化學灌漿固結效果影響明顯,塊狀渣體占比越高(由5%提高至10%),其孔隙率相對增大,漿液擴散越容易,固結強度越高。

開環(huán)基音分析是將加權信號2倍后采樣進行運算的。開環(huán)基音分析在每幀進行三次估計,以找到基音延時的三個估計值(運算長度均為10ms),其中兩個在當前幀進行運算,第三個在前向預測中進行運算。

每個10ms區(qū)間的相關值是在兩組基音延時的基礎上的計算得來的,兩組的每個基音延時值的自相關函數由采樣信號sd(n)計算得來,公式為:

其中,求和上限Lsec取決于延時值所在的延時區(qū)間,對一個給定的延時值,在相關計算中至少包含一個基音周期。

2 基于G.718的低延時編碼方案

該方案在幀長為5ms基礎上進行編解碼。由于VC編碼模式比GC編碼模式的基音周期平穩(wěn),在幀長5ms的條件下無法得到基音周期的穩(wěn)定性,所以需要改變信號的分類過程。漢明窗不適合幀長較短的情況,在線性預測分析中使用非對稱混合窗[5]代替原來的對稱漢明窗,避免了前向預測,從而降低了延遲,并且改變了LPC參數量化方法,在降低延遲的同時盡可能少增加額外的比特率。在G.718編碼器中,開環(huán)搜索的自相關計算中加權長度隨基音延遲的變化而改變,在低延時方案中幀長有時不能包含一個周期,相關計算中采用統一的加權長度計算。

2.1 低延時編碼器的基本結構

由于低延時編碼中幀長為5ms,所以要在G.718編碼器核心層子幀的基礎上進行編碼。通過判斷每幀中四個子幀基音周期的平穩(wěn)性,G.718編碼器將語音編碼方式分為GC編碼模式和VC編碼模式,但由于本算法中幀長較短,無法得到基音周期的平穩(wěn)性估計,所以采用同一種編碼方式:VC編碼模式。另外,由于幀長的原因TC編碼模式也不適用,所以本算法中只采用VC編碼模式和UC編碼模式兩種編碼方式。語音分類過程如圖3所示。

圖3 低延時編碼時信號分類

2.2 線性預測分析

在不引入前向預測的情況下,本方案采用非對稱混合窗代替漢明窗,混合窗包含兩個部分,自回歸部分和非自回歸部分。相對于漢明窗,混合窗沒有使用前向預測,所以混合窗使得延時降低了10ms,如圖4所示。

圖4 LPC分析中的混合窗說明

混合窗函數wm(k)定義如下:

混合窗函數中參數b=0.988861084,α=0.992833749,c=0.0239,m=0.1673。該窗中長度為114個樣點(即N值為114),其中自回歸部分包括70個樣點(即L值為70),非自回歸部分包括64個樣點。加窗后語音信號仍采用自相關法和Durbin-Levinson算法得到LP參數,此窗相對于漢明窗不僅加強了當前幀的數據,而且避免了引入前向預測。

在低延時編碼器中,ISF參數的量化類似于G.718中frame-end部分的量化過程。VC模式和UC模式都采用strongly-predictive路徑和weakly-predictive路徑進行量化,比較兩種路徑加權誤差,選擇誤差較小的預測器量化值作為最后的量化結果。具體量化比特分配情況如表1所示。

在低延時編碼中對ISF參數進行多級矢量量化,對于每個編碼模式和每級的子碼本規(guī)劃如表2所示。

表1 ISF參數量化比特數分配

表2 子碼本規(guī)劃

表中U1(6)表示碼本U1的大小為6比特,在量化過程中,最后一級的碼本沒有全部使用。例如,對于VC,NB模式的safety-net量化方法,總的量化比特數(預測器選擇除外)為26比特,所以最后一級的量化只需要4個比特,盡管C3碼本有32個比特,但是只使用了C3的前一半碼本(8個碼字)進行量化。

2.3 開環(huán)搜索分析

由于幀長的限制,開環(huán)搜索自相關計算采用統一的加權長度,即幀長。開環(huán)搜索過程具體如下:

首先在以下三個區(qū)間內i=1:124,…,231;i=2:64,…,123;i=3:34,…,63通過自相關計算得到三個相關值最大值,信號s(n)自相關計算公式為

對于三個區(qū)間

保留下來的最大值R(ti)通過下式歸一化:

類似于G.718編碼器,通過比較t的大小決定最后的基音延時,為了避免選擇多個基音延時值,所以在三個最大值中更傾向于選擇較低范圍內的值作為最后的開環(huán)搜索值。

2.4 低延時編碼比特分配

在語音編碼中,在降低編碼延時的條件下,必須保證盡可能少地增加比特率,在本方案中濁音信號編碼(VC模式)和清音信號編碼(UC模式)比特數分配情況分別如表3和表4所示。

表3 VC模式的比特分配

表4 UC模式比特分配

由表3和表4可以看出,在VC編碼模式和UC編碼模式中使用的比特數為65bits,由于幀長為5ms,所以在低延時編碼方案中比特率為13kbit/s。

3 語音質量評測

本實驗使用了NTT-AT中文語料庫為實驗數據,包括8kHz語料和16kHz語料各96條(4男4女各12條),對算法進行性能估計。實驗通過對G.718編解碼器和它的低延時編解碼器合成語音進行PESQ(Perceptual Evaluation of Speech Quality)評分[6],表5為96句語音平均的PESQ得分對比,實驗結果表明,與G.718編碼器相比,低延時編碼器的重建語音質量只是略有下降,聽覺效果并無明顯差別。

表5 G.718低延時編碼器和G.718編碼器PESQ得分對比

4 結論

本文提出了基于G.718編碼器核心層的一種低延時編碼方案,它對于寬帶輸入和輸出具有7.875ms的算法延時,對于窄帶輸入和輸出具有8.875ms算法延時。該方案編碼速率為13kbit/s,而且具有接近G.718核心層的編碼質量。

[1]CCITT Recommendation G.728,Coding of speech at 16kbit/s using low-delay code excited linear prediction[S].Geneva,1992.

[2]ITU-T Recommendation G.729,Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear-prediction(CS-ACELP)[S].1996.

[3]Kwon S Y,Hochong Park,Hyokang Chang.A high quality BI-CELP speech coder at 8kbit/s and below[C].IEEE International Conference on Acoustics,Speech,and Signal Processing.1997.

[4]ITU-T Recommendation G.718,Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32kbit/s[S].2008.

[5]Zhang Gang,Xie Keming,Zhang Xueying.Improving G.728’s Hybrid Window and Excitation[C].IEEE APCCAS,2004:185-188.

[6]楊海.感知語音質量評價PESQ及其在通信系統中的應用[J].江西通信科技,2004(2):46-47.

猜你喜歡
基音核心層開環(huán)
十氫萘選擇性開環(huán)反應的研究進展
基于多分類支持向量機和主體延伸法的基音檢測算法
基于基音跟蹤的語音增強研究
淺談寬帶IP城域網結構規(guī)劃和建設
一種基音周期檢測中減小中值平滑誤差的方法
校園網核心層設計探究
政府辦公區(qū)域無線網絡覆蓋的設計
一種溫和環(huán)醚開環(huán)成雙酯的新方法
基于開環(huán)補償的飛機偏航角控制系統設計及仿真
比阿培南開環(huán)物雜質的確證及含量測定Δ