賀 良, 郭海燕, 何宏森, 王學(xué)淵
(西南科技大學(xué) 信息工程學(xué)院,四川 綿陽(yáng) 621010)
陣列麥克風(fēng)信號(hào)的時(shí)延估計(jì)(TDE)是許多聲源定位算法的第一步,也是語(yǔ)音增強(qiáng)的第一步,在室內(nèi)聲學(xué)環(huán)境聲源定位和講話(huà)者跟蹤識(shí)別中起著重要作用。廣義互相關(guān)(GCC)[1]是迄今為止應(yīng)用最為廣泛的TDE技術(shù),該方法依賴(lài)于信號(hào)的頻譜特性,通過(guò)最大化互相關(guān)函數(shù)得到的時(shí)延值作為時(shí)延估計(jì)值。然而,當(dāng)混響或噪聲很強(qiáng)時(shí),可以發(fā)現(xiàn)GCC的TDE性能顯著惡化。由于接收信號(hào)的頻譜特性是通過(guò)房間中的多徑傳播來(lái)修改的,因此,可以通過(guò)強(qiáng)調(diào)與頻率相關(guān)的權(quán)重來(lái)使GCC功能更加穩(wěn)健?;谶@種思想,相位變換廣義互相關(guān)(GCC-PHAT)[2]通過(guò)PHAT加權(quán)使幅度譜嚴(yán)格預(yù)白化,在一定程度上提高了TDE對(duì)噪聲和混響的魯棒性。
就預(yù)白化而言,線(xiàn)性預(yù)測(cè)作為一項(xiàng)重要的技術(shù)已經(jīng)應(yīng)用于TDE算法[3]。傳統(tǒng)線(xiàn)性預(yù)測(cè)器的配置,采用長(zhǎng)期預(yù)測(cè)器和短期預(yù)測(cè)器級(jí)聯(lián)的方式來(lái)實(shí)現(xiàn),得到的預(yù)測(cè)系數(shù)向量非常稀疏[4]。然而,當(dāng)語(yǔ)音信號(hào)被噪聲污染時(shí),這種稀疏性降低甚至不存在,因而導(dǎo)致線(xiàn)性預(yù)測(cè)器的性能降低。針對(duì)這一問(wèn)題,一種可行的方案是,將線(xiàn)性預(yù)測(cè)器系數(shù)向量的稀疏性用于構(gòu)造L2/L1范數(shù)優(yōu)化模型,進(jìn)而預(yù)白化用于時(shí)間延遲估計(jì)的麥克風(fēng)信號(hào);結(jié)果表明,L2/L1-LP預(yù)白化的TDE算法對(duì)于噪聲和混響的免疫性得到有效提高[5]。
基于稀疏性約束的原理,本文提出一種基于改進(jìn)L2/L1范數(shù)線(xiàn)性預(yù)測(cè)(improved L2/L1-norm linear prediction,Im-L2/L1-LP)預(yù)白化的時(shí)延估計(jì)器。
假設(shè)在遠(yuǎn)場(chǎng)有一個(gè)寬帶聲源輻射平面波,利用麥克風(fēng)陣列來(lái)拾取聲音信號(hào)。這里采用線(xiàn)性預(yù)測(cè)器預(yù)濾波麥克風(fēng)信號(hào),為此,可以利用通道過(guò)去的樣本來(lái)預(yù)測(cè)其當(dāng)前樣本[5],即
x(n)=X(n)a+e(n)
(1)
式中 誤差信號(hào)向量e(n)可用于定義最小化的代價(jià)函數(shù),解這個(gè)函數(shù)就能找到預(yù)測(cè)器系數(shù)向量a的最佳估計(jì)。在文獻(xiàn)[5]中,利用系數(shù)向量的稀疏性構(gòu)造L2/L1-LP預(yù)白化的時(shí)延遲估計(jì)器,獲得了對(duì)噪聲的魯棒性。然而,在反射主導(dǎo)環(huán)境中,這種稀疏性減弱甚至消失,導(dǎo)致預(yù)測(cè)器對(duì)麥克風(fēng)信號(hào)的白化能力變?nèi)酢?/p>
眾所周知,純凈語(yǔ)音信號(hào)的短時(shí)傅立葉變換(STFT)的幅度譜|FX(n)|是稀疏的。經(jīng)驗(yàn)觀察表明,在混響主導(dǎo)環(huán)境中麥克風(fēng)信號(hào)的STFT的幅度譜也是稀疏的,如圖1(a)所示;并且,麥克風(fēng)信號(hào)的短時(shí)變化趨勢(shì)(反映其低頻成分)通??梢灶A(yù)測(cè)。因此,預(yù)測(cè)信號(hào)矢量X(n)a的幅度譜|FX(n)a|通常具有稀疏性。為了增強(qiáng)TDE對(duì)混響的魯棒性,在預(yù)測(cè)信號(hào)X(n)a的幅度譜上引入對(duì)最小二乘模型的稀疏性約束。為此,提出以下凸約束線(xiàn)性預(yù)測(cè)模型
(2)
式中 ‖·‖1和‖·‖2分別為L(zhǎng)1范數(shù)和L2范數(shù),λ1>0和λ2>0為正則化參數(shù)。
實(shí)驗(yàn)結(jié)果表明,語(yǔ)音幅度譜稀疏性的引入增強(qiáng)了預(yù)測(cè)器的預(yù)白化能力(比較圖1(c)和圖1(b)可以看出)。值得注意的是,當(dāng)λ2=0時(shí),優(yōu)化模型(2)與文獻(xiàn)[5]模型一致;當(dāng)λ1=0時(shí),優(yōu)化模型(2)則退化為L(zhǎng)asso模型。
圖1 混響主導(dǎo)環(huán)境預(yù)白化效果對(duì)比
通過(guò)引入輔助向量u和p,采用split-Bregman迭代方法[6]可以獲得求解式(2)的迭代算法如下:
初始化:k=0,a0=u0=p0=b0=g0=0
ak+1=[(1+λ)XT(n)X(n)+λI]-1×[XT(n)x(n)+λ(uk-bk)+λXT(n)F-1(pk=gk)]
bk+1=bk+ak+1-uk+1
gk+1=gk+FX(n)ak+1-pk+1
k=k+1
end while
λ>0為懲罰參數(shù),b,g為Bregman向量,F(xiàn)-1為傅立葉矩陣F的逆矩陣。shrink(·)為軟函數(shù):shrink(ξ,μ)=sgn(ξ)⊙max{|ξ|-μ,0},?ξ∈RK+L,μ>0,其中,sgn(·)為符號(hào)函數(shù),⊙為點(diǎn)積,K為預(yù)測(cè)器的長(zhǎng)度,L為幀長(zhǎng)。
一旦利用Im-L2/L1-LP對(duì)麥克風(fēng)信號(hào)實(shí)施預(yù)白化處理,就可以找到預(yù)測(cè)誤差信號(hào)e(n)之間互相關(guān)函數(shù)(CC)的最大值,從而實(shí)現(xiàn)TDE。
對(duì)于前兩種算法,預(yù)測(cè)器長(zhǎng)度設(shè)置為128。對(duì)于所提出的算法,向量a,u,p,b和g的初始狀態(tài)均為零向量,迭代次數(shù)設(shè)置為50,δ1= 0.001,δ2= 0.001,懲罰參數(shù)λ=1.0。
實(shí)驗(yàn)在7 m×6 m×3 m的模擬房間內(nèi)進(jìn)行。房間中的位置由三維坐標(biāo)(x,y,z)來(lái)指定,以房間地面的西南角作為坐標(biāo)原點(diǎn)。兩個(gè)麥克風(fēng)間距為0.1 m,分別放置于(1.94,4.00,1.40)和(2.00,4.08,1.40),聲源位于(4.09,1.19,1.40)。使用image模型[7]生成從聲源到兩個(gè)麥克風(fēng)的脈沖響應(yīng)。通過(guò)將語(yǔ)音源信號(hào)與生成的脈沖響應(yīng)進(jìn)行卷積產(chǎn)生混響語(yǔ)音信號(hào),然后加入零均值高斯白噪聲以控制信噪比(SNR),進(jìn)而獲得麥克風(fēng)輸出信號(hào)。這里采用均方根誤差(RMSE)[8]來(lái)評(píng)估所提算法的性能。聲源信號(hào)是來(lái)自男女朗讀聲的語(yǔ)音信號(hào)段,采樣率48 kHz,信號(hào)時(shí)長(zhǎng)約為2.5 min。在仿真過(guò)程中,麥克風(fēng)信號(hào)被分成互不重疊的幀,測(cè)試總幀數(shù)為1 000幀,幀長(zhǎng)128 ms,真實(shí)時(shí)延為4.0個(gè)樣本間隔。仿真結(jié)果如圖2所示。
圖2(a)描繪了輕度混響環(huán)境(T60=200 ms)時(shí)延估計(jì)的均方根誤差與信噪比的關(guān)系。從圖中可以看出,在噪聲主導(dǎo)(例如,SNR< 10dB)的環(huán)境中,L2/L1-LP算法比GCC-PHAT獲得更好的噪聲魯棒性;隨著信噪比提高,在混響主導(dǎo)(例如,SNR>20 dB)的環(huán)境中, GCC-PHAT由于具有對(duì)混響更好的免疫能力,反而比L2/L1-LP算法獲得更好的魯棒性。從圖中還可以看出,無(wú)論是在噪聲主導(dǎo)還是在混響主導(dǎo)的環(huán)境,所提出的Im-L2/L1-LP算法性能相比于L2/L1-LP算法都較為明顯的提高,而且在混響主導(dǎo)的環(huán)境中獲得了與GCC-PHAT相近且更優(yōu)的魯棒性。
圖2(b)展示了弱噪聲環(huán)境(SNR=10 dB)時(shí)延估計(jì)的均方根誤差與混響時(shí)間的關(guān)系。從圖中可以看出,當(dāng)T60=0 ms時(shí),Im-L2/L1-LP算法獲得最佳性能,表明該算法確實(shí)對(duì)噪聲具有魯棒性,而GCC-PHAT算法對(duì)噪聲相對(duì)敏感。比較兩種線(xiàn)性預(yù)測(cè)算法可以看出,所提算法在噪聲主導(dǎo)環(huán)境(例如,T60<200 ms)獲得了與L2/L1-LP算法相近且更好的性能,而在中度和重度混響混響環(huán)境(例如,T60>300 ms)較大程度提高了TDE算法的魯棒性。
圖2 仿真結(jié)果
噪聲與混響測(cè)試實(shí)驗(yàn)表明:模型中幅度譜稀疏性約束的引入,使得所提算法在保留并優(yōu)化L2/L1-LP算法抗噪性能的同時(shí),顯著提高了其抗混響能力(尤其是在混響主導(dǎo)環(huán)境),在三種預(yù)白化的時(shí)延估計(jì)算法中獲得最佳魯棒性。