国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于核Fisher判別和加權(quán)碼書映射的音頻信號(hào)削波修復(fù)方法

2014-07-25 04:29:58鮑長(zhǎng)春
數(shù)據(jù)采集與處理 2014年2期
關(guān)鍵詞:子帶特征參數(shù)時(shí)域

鄧 峰 鮑長(zhǎng)春 鮑 楓

(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院,北京,100124)

引 言

在將老舊磁帶或唱片轉(zhuǎn)錄成數(shù)字信號(hào)的過程中,數(shù)字音頻信號(hào)經(jīng)常會(huì)發(fā)生削波現(xiàn)象[1-6],為了恢復(fù)原始音頻的聽覺效果,需對(duì)削波的數(shù)字音頻信號(hào)進(jìn)行修復(fù)。

削波主要分為兩類[5-6]:數(shù)字削波和模擬削波。數(shù)字削波是指音頻信號(hào)幅度超過了錄音存儲(chǔ)設(shè)備的幅值動(dòng)態(tài)范圍,從而會(huì)在峰值處產(chǎn)生削波現(xiàn)象,其削波的幅值嚴(yán)格相等;模擬削波是指在模擬系統(tǒng)中,由于高電平信號(hào)超出了模擬器件的線性區(qū)而產(chǎn)生削波現(xiàn)象,此時(shí)削波處的幅值不完全相等,會(huì)具有一些微小抖動(dòng)。本文主要考慮數(shù)字削波的修復(fù),圖1給出了一段音頻信號(hào)削波前后的波形對(duì)比圖。從圖1可以看出,削波信號(hào)的峰-峰值受到了嚴(yán)重?fù)p壞,峰-峰值趨于平坦。這種削波將嚴(yán)重影響聽覺質(zhì)量。

傳統(tǒng)的削波修復(fù)方法都在時(shí)域完成,即首先檢測(cè)削波的起始位置,然后修復(fù)削波。如,文獻(xiàn)[1]采用了基于概率模型的貝葉斯決策理論來檢測(cè)消波的起始位置,然后利用AR(Auto regressive)模型對(duì)削波信號(hào)進(jìn)行平滑,以達(dá)到修復(fù)削波的目的。文獻(xiàn)[2]則將音頻信號(hào)的削波樣點(diǎn)看作是缺失樣點(diǎn),并在帶限信號(hào)的約束條件下,將削波修復(fù)問題構(gòu)建為l2-范數(shù)的最小化問題,通過非削波樣點(diǎn)來重建削波樣點(diǎn),但是該方法僅適用于帶限信號(hào),不具有普適性。文獻(xiàn)[3]利用最大后驗(yàn)概率準(zhǔn)則,提出一種解卷積算法來修復(fù)削波,該算法雖然對(duì)削波的修復(fù)具有一定的效果,但是其計(jì)算復(fù)雜度較高,不適合實(shí)際的工程應(yīng)用。文獻(xiàn)[4]采用三次樣條插值的方法進(jìn)行削波修復(fù),該方法可以較好地修復(fù)削波音頻信號(hào)的時(shí)域波形,但是其不能有效消除因削波而引入的多余頻譜成份,從而導(dǎo)致修復(fù)音頻的聽覺質(zhì)量沒有得到有效改善。文獻(xiàn)[5]根據(jù)削波發(fā)生在音頻信號(hào)峰值附近的特點(diǎn),提出時(shí)域峰值檢測(cè)算法檢測(cè)削波的起始位置,然后假設(shè)這些削波樣點(diǎn)為缺失樣點(diǎn),采用最小二乘自回歸(Least square auto regressive,LSAR)模型進(jìn)行預(yù)測(cè)插值來恢復(fù)這些削波樣點(diǎn),該方法的性能嚴(yán)重依賴削波樣點(diǎn)的數(shù)目多少,普適性較差。文獻(xiàn)[6]也采用了時(shí)域峰值檢測(cè)方法來檢測(cè)削波的起始位置,然后提出軟閾值函數(shù)和譜加權(quán)函數(shù)相結(jié)合的方法來修復(fù)削波,該方法對(duì)音頻信號(hào)的削波具有一定的修復(fù)效果,但是存在較大的音頻失真。

上述削波修復(fù)方法的性能易受削波樣點(diǎn)數(shù)目的影響,削波樣點(diǎn)數(shù)越多,其修復(fù)效果越差。為了解決這個(gè)問題,本文在MDCT域提出了一種基于核Fisher判別(Kernel Fisher discriminant,KFD)和加權(quán)碼書映射(Weighted codebook mapping,WCBM)的削波修復(fù)方法,該方法首先利用KFD,判別檢測(cè)削波的發(fā)生,其次利用 WCBM修復(fù)削波。該方法有效提高了削波修復(fù)的性能。

圖1 削波前后的音頻信號(hào)波形對(duì)比Fig.1 Waveform comparison between original and clipped audios

1 本文削波修復(fù)方法

實(shí)驗(yàn)發(fā)現(xiàn),削波不僅影響音頻信號(hào)的時(shí)域波形,而且對(duì)其頻譜也有嚴(yán)重影響。圖2為一段音頻信號(hào)的原始音頻和削波音頻時(shí)頻分析對(duì)比圖。

圖2 原始音頻與削波音頻時(shí)頻分析對(duì)比圖Fig.2 Spectrogram comparison between original and clipped audios

從圖2可以看出,削波音頻時(shí)頻分析圖的中、高頻部分引入了多余的頻譜成分,這些成分使得原始音頻信號(hào)出現(xiàn)擾人的聲音,嚴(yán)重影響原始音頻信號(hào)的聽覺質(zhì)量。此外,本文還可以看出削波只影響部分音頻幀的頻譜,所以在進(jìn)行削波修復(fù)前,首先需要檢測(cè)音頻信號(hào)是否存在削波,然后再對(duì)其進(jìn)行修復(fù)處理。圖3給出了本文提出的削波修復(fù)流程。

圖3 本文削波修復(fù)方法流程圖Fig.3 Flow chart of proposed restoration method

本文提出的削波修復(fù)方法包括削波檢測(cè)和削波修復(fù)兩個(gè)模塊。首先對(duì)一幀輸入音頻信號(hào)進(jìn)行MDCT變換,并根據(jù)得到的MDCT系數(shù)進(jìn)行特征參數(shù)的提取;然后利用核Fisher非線性判別方法[7-9]檢測(cè)削波幀,如果當(dāng)前幀為削波音頻幀,則利用子帶包絡(luò)WCBM修復(fù)削波,得到修復(fù)的MDCT系數(shù);如果當(dāng)前幀為非削波音頻幀,則直接輸出MDCT系數(shù);最后將輸出的MDCT系數(shù)進(jìn)行MDCT逆變換得到修復(fù)音頻的時(shí)域信號(hào)。

1.1 基于核Fisher判別的削波檢測(cè)方法

對(duì)于一幀音頻信號(hào)的削波檢測(cè)問題,可以把他看作是一種只有兩個(gè)類別的分類問題,一類是削波音頻幀,表示為CLIP類,另一類是非削波音頻幀,表示為UNCLIP類。由于核Fisher判別是一種很好的兩類問題分類方法,因此,本文結(jié)合核Fisher判別提出了一種MDCT域的削波檢測(cè)方法,其基本原理如圖4所示。

圖4 削波檢測(cè)原理Fig.4 Block diagram of clipping detection method

削波檢測(cè)包含分類器訓(xùn)練和削波檢測(cè)兩個(gè)階段。在訓(xùn)練階段,首先將原始音頻訓(xùn)練數(shù)據(jù)集進(jìn)行削波處理,得到削波音頻訓(xùn)練數(shù)據(jù)集;其次對(duì)該訓(xùn)練數(shù)據(jù)集進(jìn)行MDCT變換,并根據(jù)得到的MDCT系數(shù)按幀提取削波音頻和非削波音頻的特征參數(shù);最后利用這些參數(shù)進(jìn)行核Fisher分類器的訓(xùn)練,確定核Fisher分類器的最優(yōu)投影向量和分類閾值。

在檢測(cè)階段,首先對(duì)測(cè)試音頻數(shù)據(jù)進(jìn)行MDCT變換;然后在MDCT域提取特征參數(shù);最后利用訓(xùn)練好的核Fisher最優(yōu)投影向量和分類閾值進(jìn)行削波的分類決策,檢測(cè)出削波類和非削波類,從而完成削波檢測(cè)。

1.1.1 特征參數(shù)的提取與選擇

特征參數(shù)提取和選擇的基本任務(wù)就是從許多特征中找出那些最有效的區(qū)別性特征。本文從傳統(tǒng)聽覺感知特征[10]和 MPEG-7[11-12]音色特征來考慮削波特征參數(shù)的選取,主要包括歸一化自相關(guān)函數(shù)系數(shù)、MDCT系數(shù)過零率、梯度指數(shù)、譜質(zhì)心、譜重心、子帶均方根能量、子帶通量、音頻擴(kuò)展度、譜熵、MDCT系數(shù)幅度方差和MDCT系數(shù)幅度均值參數(shù)。通過統(tǒng)計(jì)直方圖分析發(fā)現(xiàn),子帶均方根能量、子帶通量、MDCT系數(shù)幅度方差和MDCT系數(shù)幅度均值特征能有效區(qū)分削波,其他參數(shù)的區(qū)分性較小,從而可以得到各個(gè)特征參數(shù)用于削波檢測(cè)的能力,如表1所示。圖5給出了具有削波檢測(cè)的能力的特征參數(shù)的統(tǒng)計(jì)直方圖。

表1 削波特征參數(shù)的檢測(cè)性能Table 1 Feature selection for clippingdetection

從表1和圖5可以看出,本文選取的子帶均方根能量、子帶通量、MDCT系數(shù)幅度均值和MDCT系數(shù)幅度方差特征參數(shù)具有很好的削波辨別能力。

圖5 各特征參數(shù)統(tǒng)計(jì)直方圖Fig.5 Statistical histograms of the most discriminable features

下面將基于一幀音頻1 024點(diǎn)的MDCT,介紹上述4個(gè)特征參數(shù)[11-12]的具體提取方法。

(1)子帶均方根能量Frms(b):將一幀音頻信號(hào)劃分Nsubband=16個(gè)子帶,每個(gè)子帶的頻點(diǎn)數(shù)為L(zhǎng)subband=64,然后分別計(jì)算各子帶的均方根能量Frms(b)為

式中:b為子帶索引;k為 MDCT系數(shù)頻點(diǎn)索引;Y(k)為削波音頻信號(hào)的 MDCT 系數(shù);Bup(b)和Blow(b)分別為第b子帶對(duì)應(yīng)的頻率上界和下界。

(2)子帶通量Fflux:表示相鄰子帶能量局部變化的總和,其計(jì)算式如下

(3)MDCT系數(shù)幅度均值Fmean:根據(jù)一幀音頻信號(hào)的MDCT系數(shù),得

式中:N為幀長(zhǎng),即一幀音頻的MDCT系數(shù)的個(gè)數(shù)。

(4)MDCT系數(shù)幅度方差Fvar:根據(jù)一幀音頻信號(hào)的MDCT系數(shù),得

這樣,本文提取了Nsubband=16維的子帶均方根能量、1維子帶通量、1維MDCT系數(shù)幅度均值、1維MDCT系數(shù)幅度方差特征,構(gòu)成19維的特征參數(shù)向量,用于后面的核Fisher分類器的訓(xùn)練、削波檢測(cè)以及修復(fù)處理。

1.1.2 核Fisher判別[7-9]

KFD就是將Fisher線性判別方法與核函數(shù)相結(jié)合實(shí)現(xiàn)一種非線性判別。它的核心思想是通過一個(gè)變換函數(shù)Ф,將原始特征空間Rn中的非線性特征向量x變換到一個(gè)高維特征空間H中,得到一個(gè)新的線性特征向量Ф(x),然后在新的高維特征空間H中使用Fisher進(jìn)行線性判別。也就是說,它使原始特征空間Rn中的非線性不可分問題轉(zhuǎn)化為高維特征空間H中的線性可分問題。核Fisher非線性判別分析的步驟如下。

(1)核函數(shù)

變換函數(shù)Ф(x)通常利用滿足 Mercer條件[7]的核函數(shù)K(x,y)來完成。核函數(shù)K(x,y)是一種Ф(x)的內(nèi)積運(yùn)算,即對(duì)于所有的原始特征向量x,y∈Rn,滿足K(x,y)=Ф(x)TФ(y)。目前常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、雙曲正切核函數(shù)、徑向基(Radial basis function,RBF)核函數(shù)等。其中,RBF核函數(shù)最為常用。另外,通過實(shí)驗(yàn)發(fā)現(xiàn),采用RBF核函數(shù)獲得的削波修復(fù)性能優(yōu)于其他幾種核函數(shù),因此,本文采用RBF核函數(shù),其計(jì)算式為[7]

式中:x,y∈Rn為原始特征向量;σ為尺度參數(shù),控制RBF核函數(shù)的性能,本文取σ為1.0。

(2)核Fisher最優(yōu)投影方向

令X為包含兩類樣本集ψ中的某個(gè)樣本矢量,樣本集ψ由N個(gè)樣本組成,其中,削波類ψ1的樣本數(shù)為N1,非削波類ψ2的樣本數(shù)為N2,每個(gè)樣本X為前一小節(jié)提取的d=19維削波特征向量。通過變換函數(shù)Ф,將兩類樣本向量X變換到高維特征空間H,得到新的向量Ф(X),則H空間中兩類樣本向量的均值分別為

式中:n為樣本索引;表示第i類的第n個(gè)樣本。

設(shè)樣本向量X在H空間中的投影向量為W,將Ф(X)投影到W,得到投影樣本yX,即yX=WTФ(X),這樣,可以得到類ψi的投影樣本yX的類內(nèi)均值μi和類內(nèi)方差為

為了區(qū)分兩類樣本,KFD需使兩類樣本的類內(nèi)均值之差最大,并使兩類樣本的類內(nèi)方差最小。因此,定義KFD準(zhǔn)則函數(shù)為

將式(7,8)代入式(9),得

式中:Sb為投影樣本類間離散度矩陣,SW為投影樣本類內(nèi)離散度矩陣,即

Sb,SW和J(W)的計(jì)算依賴于變換函數(shù)Ф的獲取,根據(jù)再生核理論[7],在高維線性特征空間H中,任何一個(gè)向量W∈H都可表示為

根據(jù)式(6,13),可得

根據(jù)式(11,14),式(10)的分子可表示為

式中M=(M1-M2)(M1-M2)T。

根據(jù)式(12,14),式(10)的分母可表示為

將式(15,16)代入式(10),可得

利用拉格朗日乘子法求式(17)的最大值,可得到高維線性特征空間H中的最優(yōu)投影向量為

在實(shí)驗(yàn)中,為了防止F非正定,通常引入一個(gè)正則化參數(shù)λ=0.001,即用Fλ=F+λI代替F,其中I為N階單位矩陣。

(3)分類閾值y0

利用式(18)得到的最優(yōu)投影向量α,將原始特征向量X投影到α上,則投影樣本值yX為

這樣,前面提及的19維樣本矢量的分類問題轉(zhuǎn)化成了一維分類問題,因此只需要確定一個(gè)分類閾值y0,將投影樣本yX與y0相比較,就可進(jìn)行分類決策。本文利用先驗(yàn)知識(shí)來選定一維空間中的分類閾值y0,即它可以用兩類樣本投影到向量α上的投影樣本的均值來表示

式中:ρ,υ為經(jīng)驗(yàn)常數(shù),用于控制分類閾值的選定,滿足ρ+υ=2。μi(i=1,2)表示將ψi類的樣本矢量投影到向量α上得到的投影樣本yX的均值

(4)分類決策規(guī)則

對(duì)于任意待分類的未知特征樣本向量X,根據(jù)式(19)得到其投影樣本值yX,這樣,結(jié)合分類閾值y0,得到KFD的決策規(guī)則為

1.1.3 分類器的訓(xùn)練

本文選用44.1kHz采樣的音頻數(shù)據(jù)作為非削波類訓(xùn)練數(shù)據(jù)集,然后將這些音頻進(jìn)行削波處理,得到削波類訓(xùn)練數(shù)據(jù)集,同時(shí)把發(fā)生削波的幀索引號(hào)保存到削波幀索引文件中,用于提取削波音頻的特征參數(shù)。根據(jù)削波和非削波訓(xùn)練數(shù)據(jù)集,本文可得KFD分類器的訓(xùn)練流程如圖6所示。

圖6 核Fisher分類器訓(xùn)練流程圖Fig.6 Training flow chart of kernel Fisher analysis

從圖6可知KFD分類器的訓(xùn)練流程為:首先,將削波和非削波訓(xùn)練音頻數(shù)據(jù)分別加窗分幀并進(jìn)行MDCT變換,幀長(zhǎng)為1 024個(gè)樣點(diǎn)(約為23 ms);其次,根據(jù)削波幀索引文件,利用式(1~4)提取削波幀和非削波幀的子帶均方根能量、子帶通量、MDCT系數(shù)幅度均值和MDCT系數(shù)幅度方差四類特征參數(shù),這樣得到削波音頻和非削波音頻的19維特征參數(shù)集;然后,將這些特征參數(shù)集進(jìn)行歸一化處理;最后,訓(xùn)練核Fisher分類器,確定高維線性特征空間H中的最優(yōu)投影向量α和分類閾值y0。

1.1.4 削波檢測(cè)

首先,將待檢測(cè)音頻進(jìn)行加窗分幀并進(jìn)行MDCT變換;其次,提取一幀音頻信號(hào)的子帶均方根、子帶通量、MDCT系數(shù)幅度均值和MDCT系數(shù)幅度方差特征參數(shù)向量X,并對(duì)其進(jìn)行歸一化處理;然后,利用式(19)計(jì)算其在核Fisher分類器的最優(yōu)投影向量α上的投影值yX;最后,根據(jù)式(22)進(jìn)行削波檢測(cè)。

1.2 基于加權(quán)碼書映射的削波修復(fù)方法

本文實(shí)驗(yàn)結(jié)果表明,削波在音頻時(shí)頻分析圖的中、高頻處引入了多余的頻譜成分,使其譜包絡(luò)得到提升。圖7給出了原始音頻和削波音頻的包絡(luò)對(duì)比圖示例。

從圖7中可以看出,削波音頻的兩種包絡(luò)在中、高頻處要明顯高于原始音頻譜包絡(luò)。也就是說,對(duì)于削波的修復(fù),可以通過處理削波音頻的子帶包絡(luò)來實(shí)現(xiàn),因此,本文提出一種基于子帶包絡(luò)的WCBM方法來修復(fù)削波。

首先,根據(jù)一幀音頻信號(hào)的MDCT系數(shù)計(jì)算子帶均方根能量(即子帶包絡(luò))、子帶通量、MDCT系數(shù)幅度均值和方差4個(gè)特征參數(shù);然后,對(duì)當(dāng)前幀音頻信號(hào)的MDCT系數(shù)進(jìn)行去子帶包絡(luò)處理,得到去包絡(luò)的MDCT系數(shù);接著,利用 WCBM方法得到修復(fù)音頻的子帶包絡(luò);最后,根據(jù)該子帶包絡(luò)結(jié)合去包絡(luò)的音頻信號(hào)的MDCT系數(shù),進(jìn)行子帶包絡(luò)的恢復(fù)處理,得到修復(fù)音頻信號(hào)的MDCT系數(shù),從而實(shí)現(xiàn)削波的修復(fù)。

1.2.1 去子帶包絡(luò)處理

首先根據(jù)式(1)計(jì)算削波幀的子帶包絡(luò)Fclip-rms(b),其中,b∈[0,Nsubband)為子帶索引;然后利用Fclip-rms(b)對(duì)削波音頻信號(hào)的 MDCT系數(shù)Y(b,k)進(jìn)行去子帶包絡(luò)處理,得到去包絡(luò)的MDCT系數(shù)(b,k)

式中:k表示 MDCT系數(shù)索引號(hào);N=1 024為MDCT系數(shù)的個(gè)數(shù),Nsubband=16為子帶個(gè)數(shù);Lsubband=64為每個(gè)子帶的頻點(diǎn)數(shù)。

1.2.2 子帶包絡(luò)加權(quán)碼書映射

本文采用WCBM方法來修復(fù)子帶包絡(luò),其基本原理如圖8所示[14]。該方法包含削波特征參數(shù)和子帶包絡(luò)2個(gè)碼書,它們的碼字是一一對(duì)應(yīng)的。削波特征參數(shù)碼矢量為Fclip,它是由削波幀的19維特征參數(shù)構(gòu)成;子帶包絡(luò)碼矢量為Frms,它是由原始音頻的16維子帶包絡(luò)構(gòu)成。削波特征參數(shù)和子帶包絡(luò)碼書由LBG算法[13]離線訓(xùn)練得到,碼書大小為1 024。

圖8 加權(quán)碼書映射原理Fig.8 Block diagram of WCBM

WCBM的具體步驟如下:

(1)對(duì)于輸入的每一幀削波音頻信號(hào),首先在MDCT域提取19維削波特征參數(shù)矢量,這里定義為Fx。

(2)根據(jù)歐式距離測(cè)度,計(jì)算削波特征參數(shù)矢量Fx和削波特征參數(shù)碼書各個(gè)碼矢量Fclip間的距離,并選出M個(gè)歐式距離最小的碼矢量,將其歐式距離分別記作{d1,d2,…,dM},并且這M個(gè)碼矢量對(duì)應(yīng)的子帶包絡(luò)碼矢量分別記作{Frms(1),F(xiàn)rms(2),…,F(xiàn)rms(M)}。

(3)根據(jù)上述步驟得到的M個(gè)歐式距離{d1,d2,…,dM},計(jì)算削波特征參數(shù)矢量Fx與M個(gè)碼矢量之間的隸屬度[14]為

本文M取為3。

(4)利用隸屬度ρi計(jì)算M個(gè)子帶包絡(luò)碼矢量Frms(i)的權(quán)值ωi為

(5)利用權(quán)值ωi對(duì)M個(gè)子帶包絡(luò)碼矢量Frms(i)進(jìn)行加權(quán)求和,得到修復(fù)音頻信號(hào)的子帶包絡(luò)矢量rms

1.2.3 子帶包絡(luò)修復(fù)

利用式(26)得到的修復(fù)音頻信號(hào)的子帶包絡(luò)矢量rms,結(jié)合式(23)得到的去包絡(luò)的 MDCT系數(shù)(b,k)來修復(fù)削波,得到修復(fù)音頻信號(hào)的MDCT 系數(shù)(b,k)為

式中:b∈[0,Nsubband)為子帶索引;Nsubband=16為子帶數(shù)目;k為 MDCT系數(shù)索引;N=1 024為MDCT系數(shù)個(gè)數(shù)。

2 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證本文所提方法的性能,本文將從削波檢測(cè)和削波修復(fù)兩個(gè)方面分別進(jìn)行測(cè)試。

在測(cè)試實(shí)驗(yàn)中,測(cè)試音頻數(shù)據(jù)取自于MPEG標(biāo)準(zhǔn)音頻測(cè)試數(shù)據(jù)庫,采樣率為44.1kHz。它們不同于訓(xùn)練數(shù)據(jù)集,是訓(xùn)練數(shù)據(jù)集之外的音頻數(shù)據(jù),共計(jì)19段不同風(fēng)格的音頻數(shù)據(jù),包括大提琴、流行音樂、鼓樂、交響樂和混合樂等。將這些測(cè)試數(shù)據(jù)集進(jìn)行削波處理,得到削波測(cè)試數(shù)據(jù)集。本文的削波比例分別為其幅度的30%,40%和50%,即對(duì)音頻信號(hào)的幅度削去其幅度最大值的30%,40%和50%。

2.1 削波檢測(cè)性能測(cè)試

為了驗(yàn)證本文方法對(duì)削波檢測(cè)的有效性,本文采用虛警率RFAR、漏檢率RMDR以及準(zhǔn)確率RRIGHT來衡量,其定義式分別為[6]

式中:Nfalse表示未削波類被判為削波類的幀數(shù)目;Nnonclip表示實(shí)際未削波類幀數(shù)目;Nmiss表示削波類被判為未削波類的幀數(shù)目;Nclip表示實(shí)際CLIP類削波類幀數(shù)目;Ntotal表示總的幀數(shù)目,滿足Ntotal=Nclip+Nnonclip。

根據(jù)1.1.4節(jié)介紹的削波檢測(cè)方法,分別對(duì)3種不同削波比例的測(cè)試音頻信號(hào)進(jìn)行削波檢測(cè)測(cè)試,并統(tǒng)計(jì)不同音頻類別的檢測(cè)準(zhǔn)確率、虛警率和漏檢率,統(tǒng)計(jì)結(jié)果如表2所示。

從表2可以看出,本文算法在3種不同削波比例下,對(duì)不同類別音頻數(shù)據(jù)的削波檢測(cè)準(zhǔn)確率都達(dá)到90%以上。雖然有些音頻類別的虛警率或漏檢率較大,但也都低于10%。另外,從表中還可以看出,隨著削波比例的增大,檢測(cè)準(zhǔn)確率會(huì)增加,且虛警率和漏檢率都有所減小。這是因?yàn)殡S著削波比例的增大,削波失真對(duì)音頻信號(hào)產(chǎn)生的影響也會(huì)增大,即會(huì)引入更多的多余頻譜成分,這樣就會(huì)造成削波與非削波幀的特征差別增大,從而使得檢測(cè)準(zhǔn)確率提高,虛警率和漏檢率減小。

表2 削波檢測(cè)結(jié)果Table 2 Clipping detection test results %

傳統(tǒng)的削波檢測(cè)方法都是在時(shí)域進(jìn)行[5-6],檢測(cè)音頻信號(hào)的時(shí)域波形峰值,通過峰值來確定是否出現(xiàn)削波。對(duì)于數(shù)字削波,這些方法的檢測(cè)準(zhǔn)確率可以達(dá)到100%。而對(duì)于模擬削波,由于時(shí)域波形峰值存在微小抖動(dòng),所以時(shí)域峰值檢測(cè)方法的檢測(cè)準(zhǔn)確率會(huì)大大下降[5-6],并且其檢測(cè)準(zhǔn)確率與抖動(dòng)大小直接相關(guān),抖動(dòng)越大,檢測(cè)準(zhǔn)確率越低。但是,本文提出了一種頻域削波檢測(cè)方法,其不依賴音頻信號(hào)的時(shí)域波形,而是在MDCT域檢測(cè)音頻信號(hào)是否出現(xiàn)削波,也就是說,本文方法對(duì)數(shù)字削波和模擬削波會(huì)具有相同的檢測(cè)效果。因此,本文提出的削波檢測(cè)方法更具有通用性。

2.2 削波修復(fù)性能測(cè)試

在測(cè)試實(shí)驗(yàn)中,參考方法為三次樣條插值方法[4]、軟閾值和譜加權(quán)函數(shù)相結(jié)合的方法[6]。為了簡(jiǎn)化起見,這兩種參考算法分別記為三次插值法和軟閾值法。本文分別從音頻時(shí)域波形及時(shí)頻分析、譜包絡(luò)對(duì)比分析、對(duì)數(shù)譜失真(Log-spectral distortion,LSD)[15]和時(shí)域分段信噪比(SNRseg)4個(gè)方面與參考算法進(jìn)行修復(fù)性能比較。

2.2.1 音頻時(shí)域波形及時(shí)頻分析

圖9給出了原始音頻信號(hào)、削波音頻信號(hào)、本文算法和兩種參考算法的削波修復(fù)音頻信號(hào)的時(shí)域波形對(duì)比圖。從圖中可以看出,軟閾值法沒有明顯修復(fù)削波音頻的時(shí)域波形;三次插值法與本文方法能較好的修復(fù)時(shí)域波形。但是,本文方法修復(fù)音頻的時(shí)域波形與原始音頻最為相似,從而可以說明本文方法在修復(fù)時(shí)域波形方面優(yōu)于兩種參考算法。

為了進(jìn)一步說明本文方法的性能優(yōu)于參考算法,圖10給出了圖9中各音頻信號(hào)對(duì)應(yīng)的音頻時(shí)頻分析圖。

通過對(duì)比圖10的時(shí)頻分析圖可以發(fā)現(xiàn),削波音頻頻譜因削波引入了大量的多余成分;軟閾值修復(fù)方法修復(fù)音頻頻譜損失較大,且其削波修復(fù)效果較差;三次插值法對(duì)削波雖然具有一定的修復(fù)效果,但是其修復(fù)音頻頻譜仍然殘留不少的多余成分;本文方法能很好地消除削波引入的多余頻譜成分,并且音頻頻譜的失真較小。因此,從時(shí)頻分析圖上也可以說明本文方法的修復(fù)性能優(yōu)于兩種參考算法。

圖9 音頻信號(hào)時(shí)域波形對(duì)比圖Fig.9 Waveform comparison between original and clipping restoration audios

2.2.2 譜包絡(luò)對(duì)比分析

圖11,12分別給出了原始音頻、削波音頻以及本文算法和兩種參考算法的削波修復(fù)音頻的子帶包絡(luò)和LPC譜包絡(luò)對(duì)比圖,測(cè)試音頻片段與圖7相同。

從圖11,12可以看出,兩種參考算法在一定程度上降低了削波音頻中、高頻處的譜包絡(luò),但是與原始音頻的譜包絡(luò)還具有較大的偏差。而本文算法修復(fù)音頻的子帶包絡(luò)和LPC譜包絡(luò)都能較好跟蹤原始音頻的包絡(luò)趨勢(shì),偏差較小,即更好地消除了削波導(dǎo)致的擾人聲音。因此,可以說明本文方法的性能優(yōu)于兩種參考算法。

2.2.3 對(duì)數(shù)譜失真測(cè)試

本文采用LSD來衡量削波修復(fù)算法修復(fù)后音頻的頻譜相似性,其計(jì)算公式如下[15]

圖10 音頻時(shí)頻分析對(duì)比圖Fig.10 Spectrogram comparison between original and clipping restoration audios

式中:l為幀索引;k為頻點(diǎn)索引;L為總幀數(shù);N為FFT長(zhǎng)度;X(l,k)和(l,k)分別為原始音頻和修復(fù)后音頻第l幀、第k頻點(diǎn)的傅里葉變換系數(shù)。

根據(jù)各削波修復(fù)算法得到的修復(fù)音頻,在不同削波比例下分別進(jìn)行LSD測(cè)試,測(cè)試結(jié)果如表3所示。

圖11 子帶包絡(luò)對(duì)比圖Fig.11 Sub-band envelope comparison between kinds of audios

圖12 LPA譜包絡(luò)對(duì)比圖Fig.12 LPA comparison between kinds of audios

從表3可以看出,軟閾值法和三次插值法的LSD失真高于本文所提方法的LSD失真,即本文方法修復(fù)音頻的LSD失真最小,從而進(jìn)一步說明本文方法修復(fù)削波的有效性,其性能優(yōu)于參考算法。

2.2.4 時(shí)域分段信噪比測(cè)試

本文采用時(shí)域分段信噪比來衡量不同算法得到的修復(fù)音頻在時(shí)域波形上的差異程度。分段信噪比反應(yīng)了音頻序列幀信噪比的幾何平均,定義為

表3 LSD失真測(cè)試結(jié)果比較Table 3 Test results of LSD

式中:L為測(cè)試音頻信號(hào)的總幀數(shù);N為幀長(zhǎng);x(n)表示原始時(shí)域音頻信號(hào);y(n)表示削波時(shí)域音頻信號(hào)或修復(fù)后時(shí)域音頻信號(hào)。表4給出了削波前后分段信噪比提高的結(jié)果。

表4 分段信噪比提高測(cè)試結(jié)果比較Table 4 Test results of segmental SNR

從表4可以知道,本文算法的分段信噪比提高程度明顯好于兩種參考算法,從而再次說明本文算法比參考算法具有更好的削波修復(fù)性能。

2.2.5 計(jì)算復(fù)雜度分析

本文的計(jì)算量主要集中在特征提取以及加權(quán)碼書映射兩部分,而特征提取的計(jì)算復(fù)雜度為N(幀長(zhǎng))次加法操作,加權(quán)碼書映射的計(jì)算復(fù)雜度為碼書大小與碼書向量維數(shù)的乘積。因此,本文的計(jì)算復(fù)雜度較小,實(shí)時(shí)性較好,可以應(yīng)用于實(shí)時(shí)性要求較高的場(chǎng)合。

3 結(jié)束語

對(duì)于削波的檢測(cè)和修復(fù),傳統(tǒng)的方法都是在時(shí)域進(jìn)行,本文在MDCT域提出了一種新的削波檢測(cè)與修復(fù)方法。首先是基于KFD提出一種MDCT域的削波檢測(cè)方法。該方法根據(jù)音頻信號(hào)的MDCT系數(shù)提取子帶包絡(luò)等削波特征參數(shù),然后利用這些特征參數(shù)訓(xùn)練核Fisher分類器,用于檢測(cè)削波;最后根據(jù)檢測(cè)結(jié)果,提出一種基于子帶包絡(luò)的WCBM方法來修復(fù)削波,得到修復(fù)音頻信號(hào)的MDCT系數(shù),并將其變換到時(shí)域,實(shí)現(xiàn)削波的修復(fù)。測(cè)試結(jié)果表明,本文所提方法能有效修復(fù)音頻信號(hào)中的削波(削波比例分別為30%,40%和50%),并且其性能優(yōu)于參考修復(fù)方法。

[1]Godsill S J,Rayner p J W.Digital audio restoration—A statistical model-based approach[M].London:Springer-Verlag,1998:191-204.

[2]ABEL J S,Smith J O.Restoring a clipped signal[C]//ICASSP.[S.l.]:IEEE,1991:1745-1748.

[3]Olofsson T.Deconvolution and model-based restoration of clipped ultrasonic signals[J].IEEE Trans on Instrumentation and Measurement,2005,54(3):1235-1240.

[4]Audacity.Cubic interpolation method for declipping in clipfix plug in [EB/OL].http://www.gaclrecords.org.uk/audacity.html,2013.

[5]劉春花,付強(qiáng),楊家瑋,等.音頻信號(hào)截幅失真的檢測(cè)與修復(fù)[J].聲學(xué)技術(shù),2009,28(4):498-502.

Liu Chunhua,F(xiàn)u Qiang,Yang Jiawei,et al.The clipping detection and restoration for audio signal[J].Technical Acoustics,2009,28(4):498-502.

[6]Zhang D W,Bao C C,Deng F.et al,A restoration method of the clipped audio signals based on MDCT[C]//ISSPIT 2011.Bilbao,Spain:IEEE,2011:253-257.

[7]Li Z G,Wang F L,Zhu W Z.An optimal kernel Fisher nonlinear discriminant analysis method and applied on face recognition[C]//CIS 2008.Suzhou,China:IEEE,2008:233-237.

[8]Zhou X,Wu Y.Application of kernel fisher discriminant analysis to digital signal classification[J].Journal of Beijing University of Posts and Telecommunications,2011,34(2):35-39.

[9]Zhu J,Hoi S C H,Lyu M R.Face annotation using transductive kernel Fisher discriminant[J].IEEE Trans on Multimedia,2008,10(1):86-96.

[10]Larsen E R,Aarts R M.Audio bandwidth extension—Application of psychoacoustics,signal processing and loudspeaker design[M].UK:John Wiley &Sons Ltd,2004:145-234.

[11]Deng J D,Simmermacher C,Cranefield S.A study on feature analysis for musical instrument classification[J].IEEE Trans on Systems,Man,and Cybernetics,2008,38(2):429-438.

[12]MPGE Audio Group.Information technology—Multimedia content description interface-Part 4:Audio[S].ISO/IEC15938-4,2001.

[13]鮑長(zhǎng)春.數(shù)字語音編碼原理[M].西安:西安電子科技大學(xué)出版社,2007:109-153.

Bao Changchun.The principles of digital speech coding[M].Xi′an:Xidian University Press,2007:109-153.

[14]張勇,胡瑞敏.基于高斯混合模型的語音頻帶擴(kuò)展所發(fā)的研究[J].聲學(xué)學(xué)報(bào),2009,34(5):471-480.

Zhang Yong,Hu Ruimin.Speech wideband extension based on gaussian mixture model [J].Acta Acustica,2009,34(5):471-480.

[15]Pulakka H,LAaksonen L,Vainio M,et al.Evaluation of an artificial speech bandwidth extension method in three languages[J].IEEE Trans on Audio,Speech and Language Processing,2008,16(6):1124-1137.

猜你喜歡
子帶特征參數(shù)時(shí)域
一種基于奇偶判斷WPT的多音干擾抑制方法*
故障診斷中信號(hào)特征參數(shù)擇取方法
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
子帶編碼在圖像壓縮編碼中的應(yīng)用
電子制作(2019年22期)2020-01-14 03:16:24
基于時(shí)域信號(hào)的三電平逆變器復(fù)合故障診斷
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
基于極大似然準(zhǔn)則與滾動(dòng)時(shí)域估計(jì)的自適應(yīng)UKF算法
基于虛擬孔徑擴(kuò)展的子帶信息融合寬帶DOA估計(jì)
基于時(shí)域逆濾波的寬帶脈沖聲生成技術(shù)
統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識(shí)別
开鲁县| 平塘县| 阜城县| 广丰县| 盘山县| 浮山县| 许昌县| 石景山区| 泸西县| 右玉县| 黑龙江省| 陇西县| 陈巴尔虎旗| 彭水| 灵宝市| 柘城县| 金乡县| 全南县| 宣化县| 临夏市| 利川市| 合肥市| 南皮县| 三亚市| 新巴尔虎右旗| 汾西县| 荣昌县| 太原市| 老河口市| 芮城县| 滨州市| 霍城县| 盖州市| 内乡县| 桐梓县| 和田县| 顺义区| 鹿泉市| 元阳县| 永新县| 定州市|