孟維鑫 厲 劍 鄭成詩 李曉東
(1.中國科學(xué)院聲學(xué)研究所,北京 100190;2.中國科學(xué)院大學(xué),北京 100049)
在室內(nèi)應(yīng)用場(chǎng)景,傳聲器拾取的語音信號(hào)將不可避免地受到室內(nèi)環(huán)境噪聲和混響的共同影響,這不僅會(huì)造成語音質(zhì)量和可懂度的下降,同時(shí)也會(huì)導(dǎo)致自動(dòng)語音識(shí)別(Automatic Speech Recognition,ASR)系統(tǒng)識(shí)別率下降。因此,抑制傳聲器拾取信號(hào)中的噪聲和混響成分,并提取高質(zhì)量的目標(biāo)語音一直是研究熱點(diǎn)。
相比于單通道語音增強(qiáng)技術(shù),基于傳聲器陣列的多通道語音增強(qiáng)技術(shù)可以充分利用目標(biāo)信號(hào)與干擾信號(hào)的空間統(tǒng)計(jì)特性差異及通道間的相關(guān)性差異,更好地實(shí)現(xiàn)噪聲抑制和混響去除[1-2]。因此,相比于單通道語音增強(qiáng)技術(shù),多通道語音增強(qiáng)技術(shù)一般具有更好的去噪去混響性能。典型的傳聲器陣列自適應(yīng)波束形成器包括最小方差無失真響應(yīng)(Minimum Variance Distortionless Response,MVDR)波束形成器[3-4]、最小功率無失真響應(yīng)波束形成器(Minimum Power Distortionless Response,MPDR)、廣義旁瓣消除器(Generalized Sidelobe Cancellation,GSC)[5]、多通道維納濾波(Multichannel Wiener filtering,MWF)[6]和最大似然無失真響應(yīng)(Maximum Likelihood Distortionless Response,MLDR)[7]波束形成器等。在弱混響環(huán)境下,自適應(yīng)波束形成器對(duì)方向性干擾噪聲具有較好的抑制作用;但在強(qiáng)混響條件下,其抑制性能會(huì)有不同程度的下降。這是由于混響是由方向性干擾噪聲多次反射形成,且隨著混響增加,方向性干擾噪聲將逐漸退化為各向同性均勻分布的擴(kuò)散噪聲,因而通過自適應(yīng)零陷設(shè)計(jì)的方法的性能會(huì)有不同程度的下降。針對(duì)去混響任務(wù),許多學(xué)者提出了多種經(jīng)典算法,包括基于波束形成的算法[8],基于譜增強(qiáng)的算法[9],以及直接估計(jì)晚期混響逆濾波器的算法等[10-11]。其中,多通道加權(quán)預(yù)測(cè)誤差(Weighted Prediction Error,WPE)自適應(yīng)混響抵消算法及其改進(jìn)算法[10-11]具有良好的去混響性能和魯棒性,被廣泛研究和應(yīng)用。WPE 算法使用復(fù)高斯模型建模期望語音的復(fù)頻譜,在最大似然準(zhǔn)則下推導(dǎo)得到了抑制晚期混響的最優(yōu)濾波器。然而,WPE 算法在推導(dǎo)過程中忽略了噪聲的影響,因此在噪聲環(huán)境中,WPE 算法的去混響效果會(huì)有一定程度的下降。
去噪算法和去混響算法既可通過獨(dú)立優(yōu)化而后級(jí)聯(lián)實(shí)現(xiàn),也可通過聯(lián)合優(yōu)化實(shí)現(xiàn)。前者將去噪去混響任務(wù)分解成兩個(gè)子任務(wù),各自獨(dú)立優(yōu)化,實(shí)現(xiàn)較為簡(jiǎn)單,但理論上并非全局最優(yōu);后者通過聯(lián)合優(yōu)化去噪去混響兩個(gè)子任務(wù)來設(shè)計(jì)算法,算法設(shè)計(jì)較為復(fù)雜,但理論上可實(shí)現(xiàn)全局最優(yōu)。有學(xué)者將WPE 算法和MPDR 波束形成器進(jìn)行級(jí)聯(lián)[12-13],先對(duì)陣列拾取信號(hào)去除混響,再在此基礎(chǔ)上進(jìn)一步去除噪聲。這類方法中的WPE算法由于噪聲的存在,難以達(dá)到最優(yōu)的去混響性能;同理,由于WPE 算法未實(shí)現(xiàn)理想的去混響性能,后續(xù)MPDR 波束形成器的去噪性能也會(huì)受到負(fù)面影響。此外,推導(dǎo)WPE去混響濾波器和MPDR 波束形成器使用的優(yōu)化準(zhǔn)則不同,因而難以保證級(jí)聯(lián)算法的去噪去混響性能在同一個(gè)準(zhǔn)則下達(dá)到最優(yōu)。近年來,有學(xué)者在復(fù)高斯分布假設(shè)條件下推導(dǎo)得到了基于最大似然準(zhǔn)則的聯(lián)合去噪去混響算法,即加權(quán)功率無失真響應(yīng)(Weighted Power minimization Distortionless response,WPD)波束形成器[14]。同WPE 算法相同,WPD 算法也使用復(fù)高斯模型建模語音時(shí)頻域信號(hào),并將去噪去混響任務(wù)的多個(gè)濾波器合并為一個(gè)濾波器,在最大似然準(zhǔn)則下推導(dǎo)得到了最優(yōu)聯(lián)合去噪去混響濾波器。Nakatani 等人[14]研究表明,WPD 波束形成器比WPE 算法級(jí)聯(lián)MPDR 波束形成器具有更優(yōu)的去噪去混響性能,同時(shí)解決了傳統(tǒng)級(jí)聯(lián)方法兩個(gè)模塊優(yōu)化準(zhǔn)則不一致的問題。
已有研究表明[11,15],語音信號(hào)在統(tǒng)計(jì)上并非理想的高斯信號(hào),其分布更偏向于超高斯模型,相應(yīng)地其復(fù)頻譜也服從復(fù)超高斯分布。2007 年,Jensen等人[15]提出采用復(fù)廣義高斯模型中的復(fù)超高斯模型來建模語音,并推導(dǎo)了單通道最小均方誤差(Minimum Mean Squared Error,MMSE)準(zhǔn)則下的增益因子表達(dá)式,取得了比基于復(fù)高斯模型的最優(yōu)濾波器更好的語音增強(qiáng)效果。2015 年,Juki? 等人[11]將復(fù)超高斯模型引入到WPE算法中,提出了復(fù)廣義高斯模型加權(quán)預(yù)測(cè)誤差算法(Complex Generalized Gaussian distribution based Weighted Prediction Error,CGG-WPE)。不同于WPE 算法,該算法使用復(fù)超高斯模型建模期望語音的復(fù)頻譜并在最大似然準(zhǔn)則下推導(dǎo)抑制晚期混響的最優(yōu)濾波器,獲得了更好的去混響效果。
綜上所述,基于復(fù)超高斯模型的語音增強(qiáng)算法在單通道語音增強(qiáng)和傳聲器陣列去混響應(yīng)用中已得到一定的研究,但基于復(fù)超高斯模型的傳聲器陣列聯(lián)合去噪去混響算法尚未有完整的理論推導(dǎo)和實(shí)驗(yàn)研究?;趶?fù)超高斯模型,本文首次通過理論推導(dǎo)得到了一種傳聲器陣列聯(lián)合去噪去混響方法,記為復(fù)廣義高斯分布加權(quán)功率無失真響應(yīng)(Complex Generalized Gaussian distribution based Weighted Power minimization Distortionless response,CGG-WPD)波束形成器。本文采用復(fù)廣義高斯模型對(duì)目標(biāo)語音進(jìn)行建模,并使用聯(lián)合優(yōu)化的方法同時(shí)完成去噪與去混響兩個(gè)任務(wù)。理論推導(dǎo)表明,本文所提算法是WPD 波束形成器以及WPE 算法和MPDR 波束形成器級(jí)聯(lián)算法的一般化形式,且可以通過選取適當(dāng)?shù)膮?shù)獲得較現(xiàn)有聯(lián)合去噪去混響算法更優(yōu)的性能。仿真實(shí)驗(yàn)和實(shí)際實(shí)驗(yàn)結(jié)果表明,本文提出的聯(lián)合去噪去混響算法比WPD 波束形成器具有更好的去噪去混響性能,在語音質(zhì)量等客觀指標(biāo)上的測(cè)試結(jié)果也優(yōu)于WPD 波束形成器以及WPE 算法和MPDR 級(jí)聯(lián)算法。
假設(shè)室內(nèi)期望語音信號(hào)與不相關(guān)噪聲被任意形狀的傳聲器陣列拾取,該陣列包含M個(gè)全指向性傳聲器。此時(shí)拾取信號(hào)不僅包含期望信號(hào)的直達(dá)聲,也包含早期反射聲以及晚期混響。對(duì)拾取的時(shí)域信號(hào)做短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT),拾取信號(hào)的時(shí)頻域系數(shù)可以表示為:
其中,k代表頻域索引,l代表幀數(shù)索引,x(k,l)=為所有傳聲器拾取信號(hào)的時(shí)頻域系數(shù);s(k,l)代表純凈語音的時(shí)頻域系 數(shù);代表聲學(xué)傳遞函數(shù),L代表卷積長(zhǎng)度;n(k,l)=代表干擾和加性噪聲。進(jìn)一步式(1)可以重寫為:
其中:
其中,b為預(yù)測(cè)延遲幀數(shù)。式(2)第一部分d(k,l)包含直達(dá)聲和早期反射聲,統(tǒng)稱為期望信號(hào);第二部分為晚期混響r(k,l),第三部分為噪聲信號(hào)n(k,l)。在實(shí)際應(yīng)用中,混響情況下語音增強(qiáng)的目標(biāo)為保留含有直達(dá)聲和早期反射聲的期望信號(hào)部分。為了方便對(duì)比,本節(jié)將簡(jiǎn)要介紹WPE 算法與MPDR 波束形成器,以及WPE 算法級(jí)聯(lián)MPDR 波束形成器的兩種級(jí)聯(lián)方式。為了表述方便,下文中將WPE 和MPDR級(jí)聯(lián)算法記為WPE+MPDR算法。
忽略加性噪聲n(k,l),采用多通道自回歸模型將公式(1)重寫為:
其中,Lw為自回歸預(yù)測(cè)模型的階數(shù),W(k,τ)為M×M多通道線性預(yù)測(cè)濾波器系數(shù)。式(5)右側(cè)第二項(xiàng)為期望信號(hào),即預(yù)測(cè)誤差。加權(quán)預(yù)測(cè)誤差去混響算法使用時(shí)變方差復(fù)高斯模型建模期望信號(hào),即通道m(xù)的期望語音信號(hào)在時(shí)頻域上服從零均值能量不斷變化的復(fù)高斯模型:
其中,期望信號(hào)功率即時(shí)變方差λd(k,l)是需要估計(jì)的變量。此時(shí)在最大似然準(zhǔn)則下構(gòu)建的優(yōu)化問題可表示為[10]:
不失一般性,選取第一通道作為參考通道,并假設(shè)期望信號(hào)在頻域上可以近似為相對(duì)傳遞函數(shù)(Relative Transfer Function,RTF)[3]與純凈語音的乘積。進(jìn)一步將晚期混響作為噪聲的一部分,此時(shí)公式(1)可改寫為:
MPDR 波束形成器旨在設(shè)計(jì)一個(gè)空間濾波器,在無失真約束情況下最小化波束形成輸出信號(hào)能量,從而達(dá)到提取目標(biāo)語音并抑制噪聲的目的。設(shè)計(jì)MPDR 波束形成器最優(yōu)濾波器時(shí),優(yōu)化問題可以寫為[3]:
該優(yōu)化問題的閉式解可表示為:
為樣本協(xié)方差矩陣。此時(shí)拾取信號(hào)經(jīng)過波束形成器最優(yōu)濾波器濾波得到的期望信號(hào)可表示為:
從上述的推導(dǎo)可知,MPDR 波束形成器具有同時(shí)去除噪聲和混響的能力。但在傳聲器數(shù)量較少時(shí),MPDR 波束形成器沒有足夠多的自由度同時(shí)消除噪聲和混響,因此在實(shí)現(xiàn)去噪去混響任務(wù)時(shí),通常需要在MPDR 波束形成器模塊前級(jí)聯(lián)多通道去混響模塊。
WPE去混響算法級(jí)聯(lián)MPDR波束形成器的去噪去混響算法通常分為兩個(gè)階段,第一階段通過多通道去混響算法去除混響,第二階段通過波束形成器抑制部分殘留混響以及噪聲。根據(jù)迭代方式的不同可以分為具有反饋模塊的級(jí)聯(lián)方式,以及不含反饋模塊的級(jí)聯(lián)方式。其中不存在反饋模塊的級(jí)聯(lián)方式,去混響模塊和波束形成模塊相互獨(dú)立,如圖1(a)所示;存在反饋模塊的級(jí)聯(lián)方式,波束形成模塊的結(jié)果將影響去混響模塊的迭代過程,如圖1(b)所示。
實(shí)際應(yīng)用中,兩種級(jí)聯(lián)方式在各階段濾波器均分開獨(dú)立設(shè)計(jì),因此其設(shè)計(jì)難度低,易于實(shí)現(xiàn)。但該方式也存在以下問題:WPE 算法是在無噪聲環(huán)境下使用最大似然準(zhǔn)則推導(dǎo)出的最優(yōu)去混響濾波器,而MPDR 波束形成器是在最小輸出能量準(zhǔn)則下推導(dǎo)出的最優(yōu)空間濾波器,兩者的優(yōu)化準(zhǔn)則不同,因此沒有在同一準(zhǔn)則下實(shí)現(xiàn)全局最優(yōu)。
本節(jié)將在最大似然準(zhǔn)則下首次推導(dǎo)得到基于復(fù)廣義高斯模型先驗(yàn)的聯(lián)合去噪去混響算法,即CGG-WPD算法。根據(jù)式(12)和式(18),可以得到:
其中,γ為尺度參數(shù),p為復(fù)廣義高斯分布的形狀參數(shù),Γ(·)為伽馬函數(shù)(Gamma Function)。根據(jù)p的取值范圍,復(fù)廣義高斯分布可以分為以下三種:復(fù)超高斯分布(0 <p<2)、復(fù)高斯分布(p=2)以及復(fù)亞高斯分布(p>2)。假設(shè)期望信號(hào)服從復(fù)超高斯分布,即0 <p<2,根據(jù)凸分析理論[16],式(20)所描述的概率密度函數(shù)還可以表示為縮放時(shí)變方差復(fù)高斯模型的最大值,即:
其中,ψ(λs(k,l))為縮放函數(shù)。
根據(jù)上述模型,在最大似然準(zhǔn)則下聯(lián)合去噪去混響的優(yōu)化問題可以表示為:
值得注意的是,式(22)中的優(yōu)化問題與期望信號(hào)s(k,l)及其功率λs(k,l)有關(guān),但在實(shí)際應(yīng)用中期望信號(hào)一般是未知的,只能獲得估計(jì)值。因此,為了得到優(yōu)化問題的解,本文使用期望信號(hào)的估計(jì)值代替其理論值。對(duì)式(22)取對(duì)數(shù)并使用估計(jì)值代替真實(shí)值,式(22)的等價(jià)優(yōu)化問題可表示為:
采用拉格朗日乘子法求解上述優(yōu)化問題,構(gòu)造代價(jià)函數(shù)如下:
αk為拉格朗日乘子。優(yōu)化問題式(23)需要同時(shí)優(yōu)化兩個(gè)變量,導(dǎo)致該優(yōu)化問題不存在閉式解。為了解決這一問題,本文提出一種交替迭代優(yōu)化的算法,最終收斂到全局最優(yōu)解。假設(shè)wˉ(k)已知,此時(shí)式(24)對(duì)求偏導(dǎo)并令其偏導(dǎo)為0可得:
其中:
觀察式(28)和式(29)可知,式(28)的波束形成器最優(yōu)濾波器系數(shù)不受常數(shù)影響,因此式(29)可等價(jià)為:
為避免式(30)中分母項(xiàng)為零,本文將在式(30)的分母項(xiàng)中添加小量ε,即:
在實(shí)際應(yīng)用中,可以使用對(duì)角加載技術(shù)提高波束形成器的魯棒性,此時(shí)波束形成器最優(yōu)濾波器系數(shù)為:
本節(jié)將給出3.1 節(jié)中CGG-WPD 波束形成器的分解形式,同時(shí)將從理論上分析其與現(xiàn)有級(jí)聯(lián)算法的內(nèi)在聯(lián)系,進(jìn)而證明本文所提算法的優(yōu)越性。假設(shè)CGG-WPD 波束形成器可以拆分為兩個(gè)獨(dú)立濾波器:
此時(shí)代價(jià)函數(shù)式(27)可展開寫為:
其中:
其中,
對(duì)q(k)求偏導(dǎo)并令偏導(dǎo)為零得:
式(42)得到的空間濾波器,即為根據(jù)去混響濾波器輸出信號(hào)的空間特性構(gòu)建的自適應(yīng)波束形成器。該自適應(yīng)波束形成器最優(yōu)濾波器表達(dá)式類似于MPDR 波束形成器以及文獻(xiàn)[7]中提到的MLDR波束形成器。當(dāng)p= 2時(shí),此波束形成器為MPDR波束形成器最優(yōu)濾波器;當(dāng)p= 0 時(shí),此波束形成器為MLDR 波束形成器最優(yōu)濾波器;當(dāng)0 <p<2 時(shí),此波束形成器為在復(fù)超高斯分布先驗(yàn)條件下推導(dǎo)得到的最大似然波束形成器最優(yōu)濾波器,本文將其稱為CGG-MLDR 波束形成器。下面本文將進(jìn)一步證明,相比于MPDR 波束形成器濾波器,CGG-MLDR波束形成器具有更優(yōu)的去噪能力。
假設(shè)去混響濾波器的L幀輸出信號(hào)為,其中有L1幀只包含噪聲和干擾,有L2幀不僅包含噪聲并且同時(shí)包含期望信號(hào),此時(shí)式(41)所代表的總協(xié)方差矩陣重寫為:
其中,λn為噪聲功率譜密度;;為輸入信噪比;Υss(k)為信號(hào)相關(guān)矩陣,Υnn(k)為噪聲相關(guān)矩陣。由式(43)可知,總協(xié)方差矩陣為信號(hào)和噪聲相關(guān)矩陣的線性組合,為便于分析,定義兩個(gè)線性組合系數(shù)的比值為:
由式(44)可知,此比值反映了同樣快拍數(shù)下自適應(yīng)波束形成器的魯棒性程度,比值越大證明魯棒性越強(qiáng)。當(dāng)p=0 時(shí),;當(dāng)p=2時(shí)比值為,即此時(shí)比值取決于包含期望信號(hào)的幀數(shù)和輸入信噪比。當(dāng)λs(k,l)>ε時(shí),r0(k)>r2(k)。由于ε是小量,因而λs(k,l)>ε這一條件十分容易滿足,所以當(dāng)p=0時(shí)得到的波束形成器優(yōu)于MPDR 波束形成器,同理可證當(dāng)0 <p<2時(shí)得到的CGG-MLDR波束形成器也同樣優(yōu)于MPDR波束形成器。同時(shí)根據(jù)文獻(xiàn)[11]的研究,當(dāng)p=0.5時(shí)CGG-WPE 算法明顯優(yōu)于WPE 算法(p=0),而CGG-WPD去噪去混響算法等價(jià)于CGG-WPE算法與CGG-MLDR 算法的級(jí)聯(lián),因此可知,當(dāng)p=0.5時(shí),本文提出的聯(lián)合去噪去混響算法應(yīng)明顯優(yōu)于WPE+MPDR算法。
在實(shí)際應(yīng)用中不僅要考慮算法的性能,還應(yīng)考慮應(yīng)用算法的計(jì)算復(fù)雜度。表1 給出了CGG-WPD算法、WPD 算法以及WPD+MPDR 算法的理論計(jì)算復(fù)雜度,以及本文第4 節(jié)仿真實(shí)驗(yàn)所用參數(shù)即,M=6,Lw=10,b=4,I=5 時(shí)的計(jì)算復(fù)雜度。從表1 中可以發(fā)現(xiàn),在相同迭代次數(shù)時(shí),CGG-WPD 算法與WPD 算法的計(jì)算復(fù)雜度相當(dāng),都略高于WPE+MPDR 算法。但圖2 的仿真結(jié)果表明CGG-WPD 算法在迭代2~3 次時(shí)已經(jīng)達(dá)到WPD 算法迭代10 次時(shí)的性能,所以在實(shí)際應(yīng)用中CGG-WPD 算法可以使用更少的迭代次數(shù)來降低計(jì)算復(fù)雜度。
表1 三種算法計(jì)算復(fù)雜度分析Tab.1 Computational complexity analysis of three algorithms
本文評(píng)測(cè)CGG-WPD 算法在不同聲學(xué)場(chǎng)景下的去噪去混響性能,并將其與WPE+MPDR 算法,以及WPD 算法比較。測(cè)試所用純凈語音由從TIMIT 數(shù)據(jù)集[17]中選取的30 條男聲與30 條女聲組成;測(cè)試所用噪聲為NOISEX-92 數(shù)據(jù)庫[18]中的babble 噪聲。仿真實(shí)驗(yàn)所用的房間脈沖響應(yīng)由鏡像法[19]生成,房間尺寸為6 m × 10 m × 4 m。這里選用M=6 的均勻線陣,其陣元間距為0.043 m,陣列放置在房間中心,期望信號(hào)在距離陣列中心2 m 處從端射方向的0°方向入射,另有一個(gè)干擾從45°方向入射。所有算法使用的預(yù)延遲b=4,自回歸模型階數(shù)Lw=10,幀長(zhǎng)為64 ms,幀移為16 ms。本文使用語音質(zhì)量感知評(píng)估測(cè)度(Perceptual evaluation of speech quality score,PESQ)[20]、擴(kuò)展短時(shí)客觀可懂度(Extended Short-Time Objective Intelligibility,ESTOI)[21]、信號(hào)失真比(Signal to Distortion Ratio,SDR)[22]、語音混響調(diào)制能量比(Speech-to-Reverberation Modulation energy Ratio,SRMR)[23]作為各算法去噪去混響能力的客觀評(píng)價(jià)標(biāo)準(zhǔn)。實(shí)驗(yàn)所用相對(duì)傳遞函數(shù)使用協(xié)方差矩陣白化法[24]求得。
首先設(shè)計(jì)仿真實(shí)驗(yàn)測(cè)試不同p值下所提算法隨迭代次數(shù)的變化情況。這里設(shè)置混響時(shí)間為T60=320 ms,輸入信干噪比為SINR=5 dB。圖2給出了仿真實(shí)驗(yàn)結(jié)果,從中可以發(fā)現(xiàn)p值的選取對(duì)CGG-WPD 算法的性能有較大影響。在各項(xiàng)客觀評(píng)價(jià)指標(biāo)中,p=0.5 時(shí)CGG-WPD 算法都取得了最優(yōu)的性能,且高于已有WPE+MPDR 算法以及WPD 算法。同時(shí)CGG-WPD 算法(p=0.5)在低迭代次數(shù)時(shí)(2~3 次)已經(jīng)達(dá)到WPD 算法接近收斂時(shí)的性能。從圖中還可發(fā)現(xiàn)當(dāng)混響時(shí)間較短時(shí),WPE+MPDR算法隨著迭代次數(shù)的增加,各項(xiàng)客觀指標(biāo)沒有明顯提升,但WPD和本文所提算法性能提升明顯。由于WPD 算法在第一階段的去混響算法與WPE+MPDR算法一致,由此可知性能提升的主要原因是第二階段的CGG-MLDR 波束形成器較MPDR 波束形成器具有更強(qiáng)的去噪能力。由于上述實(shí)驗(yàn)已經(jīng)證明在p=0.5 時(shí)所提算法取得最優(yōu)性能,且在迭代5 次時(shí)接近收斂,因此在后續(xù)所有實(shí)驗(yàn)中,CGG-WPD 算法固定參數(shù)p=0.5,迭代次數(shù)為5次。
第二個(gè)仿真實(shí)驗(yàn)測(cè)試不同輸入信干噪比條件下所提算法的去噪能力,混響時(shí)間設(shè)為T60=320 ms。實(shí)驗(yàn)結(jié)果如圖3 所示。本文已在3.2 節(jié)中證明了CGG-WPD 算法等價(jià)于CGG-WPE 去混響算法和CGG-MLDR波束形成器的級(jí)聯(lián)。為進(jìn)一步通過仿真實(shí)驗(yàn)證明推導(dǎo)的正確性,本文在圖3的仿真實(shí)驗(yàn)結(jié)果中同時(shí)給出聯(lián)合算法以及與其等價(jià)的級(jí)聯(lián)算法的實(shí)驗(yàn)結(jié)果。本文使用“(Jointly)”和“(Separate)”來區(qū)分聯(lián)合濾波器以及其等價(jià)的級(jí)聯(lián)濾波器,其中級(jí)聯(lián)濾波器是通過圖1(a)所示的級(jí)聯(lián)結(jié)構(gòu)實(shí)現(xiàn)濾波。從圖3中可知,在不同輸入信干噪比環(huán)境下,CGG-WPD算法在各項(xiàng)客觀指標(biāo)中都高于WPD 算法及WPE+MPDR算法。但隨著信干噪比的增加,CGG-WPD算法和WPD算法在PESQ打分和ESTOI打分這兩項(xiàng)客觀指標(biāo)的差距逐漸縮小,在高信噪比時(shí)近乎相同。同時(shí)觀察聯(lián)合算法以及其相對(duì)應(yīng)的級(jí)聯(lián)算法的實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn),兩者的各項(xiàng)客觀指標(biāo)近似一致,這也驗(yàn)證了3.2節(jié)理論推導(dǎo)的正確性。
最后,本文設(shè)計(jì)仿真實(shí)驗(yàn)比較不同混響條件下各算法的去混響性能。除了混響時(shí)間發(fā)生變化外,其余實(shí)驗(yàn)參數(shù)同仿真實(shí)驗(yàn)2,且固定輸入信干噪比SINR=5 dB。由圖4 中可知,在不同混響時(shí)間下,本文所提的CGG-WPD 算法都優(yōu)于WPD 算法和WPE+MPDR 算法。但隨著混響時(shí)長(zhǎng)的增加,各算法的各項(xiàng)客觀指標(biāo)的提升量都有不同程度的下降,且WPE+MPDR 算法與其他算法在各項(xiàng)客觀指標(biāo)上的性能差距不斷減小。
本節(jié)測(cè)試實(shí)際噪聲和混響環(huán)境下各算法的去噪去混響性能。實(shí)際房間脈沖響應(yīng)選自REVERB Challenge 數(shù)據(jù)集,選擇其中一點(diǎn)播放語音信號(hào)作為期望信號(hào),另一點(diǎn)播放噪聲作為干擾。測(cè)試所用純凈語音由從TIMIT 數(shù)據(jù)集中選取的30 條男聲與30條女聲組成;測(cè)試所用噪聲為NOISEX-92 數(shù)據(jù)庫中的babble 噪聲。同時(shí)本文還測(cè)試了CHiME-3 數(shù)據(jù)集中不同場(chǎng)景的實(shí)錄噪聲下各算法的語音增強(qiáng)性能。實(shí)驗(yàn)中的相對(duì)傳遞函數(shù)均使用協(xié)方差矩陣白化法估計(jì)得到。
表2 至表4 給出了各算法在不同房間5 次迭代時(shí)的客觀指標(biāo)結(jié)果。從表2~表4 中可以發(fā)現(xiàn)CGGWPD 算法在不同信干噪比,不同房間的各項(xiàng)客觀指標(biāo)都是最優(yōu)的。比較不同房間的實(shí)驗(yàn)結(jié)果可知,隨著混響時(shí)間的增加,各算法的各項(xiàng)客觀指標(biāo)的提升量都有所下降。比較同一房間不同信干噪比的實(shí)驗(yàn)結(jié)果可知,高信干噪比時(shí)所提算法各項(xiàng)客觀指標(biāo)的提升量較低信干噪比時(shí)更高。這與仿真實(shí)驗(yàn)結(jié)果有差異,分析其主要原因是仿真實(shí)驗(yàn)中的混響時(shí)間較短,主要反映了所提算法的降噪能力;而真實(shí)房間混響時(shí)間較長(zhǎng),一般都在0.5 s 以上,三種算法在高信干噪比下具有更好的去混響性能。圖5為某測(cè)試樣例的語譜圖,從語譜圖中可以發(fā)現(xiàn)CGGWPD 算法的噪聲和混響殘留明顯少于WPE+MPDR算法。同時(shí)CGG-WPD 算法相較WPD 算法能更好的保留期望信號(hào)的諧頻結(jié)構(gòu),例如圖5(e)和圖5(f)的白色圓圈部分。
表2 REVERB Challenge小型房間測(cè)試結(jié)果Tab.2 Experiment results of small room in REVERB Challenge
表3 REVERB Challenge中等房間測(cè)試結(jié)果Tab.3 Experiment results of medium room in REVERB Challenge
表4 REVERB Challenge大型房間測(cè)試結(jié)果Tab.4 Experiment results of large room in REVERB Challenge
表5給出了在CHiME-3比賽中提供的四種常見場(chǎng)景噪聲下不同算法的實(shí)驗(yàn)結(jié)果,各場(chǎng)景下的實(shí)驗(yàn)結(jié)果為40 條測(cè)試數(shù)據(jù)的平均值。從表5 的實(shí)驗(yàn)結(jié)果中可知,CGG-WPD 算法的PESQ 及ESTOI 指標(biāo)在BUS和STR 兩種噪聲場(chǎng)景下明顯優(yōu)于WPD 算法,在CAF 和PED 噪聲場(chǎng)景下略優(yōu)于WPD 算法。此外,CGG-WPD 與WPD 算法在各噪聲場(chǎng)景下都顯著優(yōu)于WPE+MPDR算法。
表5 CHiME-3測(cè)試結(jié)果Tab.5 Experiment results of CHiME-3
采用復(fù)廣義高斯模型建模期望語音信號(hào),本文提出了一種新的聯(lián)合去噪去混響算法。通過理論推導(dǎo)證明了該算法是WPD等聯(lián)合去噪去混響算法的一般化形式,同時(shí)其也等價(jià)于去混響模塊與去噪模塊的級(jí)聯(lián)形式。仿真實(shí)驗(yàn)證明通過選擇合適的參數(shù),本文提出的CGG-WPD 算法的去噪去混響性能在多項(xiàng)客觀指標(biāo)上都優(yōu)于現(xiàn)有的WPD以及WPE+MPDR算法。對(duì)比其他參數(shù)發(fā)現(xiàn),p=0.5是較優(yōu)的參數(shù)選擇。仿真實(shí)驗(yàn)及實(shí)際實(shí)驗(yàn)結(jié)果證明,CGG-WPD算法在不同的聲學(xué)場(chǎng)景下的去噪去混響性能也都優(yōu)于WPD及WPE+MPDR 算法。但本文所有研究的波束形成器在最優(yōu)濾波器迭代更新中,都需要對(duì)協(xié)方差矩陣進(jìn)行求逆運(yùn)算,當(dāng)矩陣維度較高,且迭代次數(shù)較多時(shí),計(jì)算復(fù)雜度較高。因此,可將加快其收斂速度或降低每一次迭代的計(jì)算復(fù)雜度作為下一步研究方向。