王勁夫 楊飛然,3 梁兆杰 楊軍,3
(1.中國(guó)科學(xué)院聲學(xué)研究所,北京 100190;2.中國(guó)科學(xué)院大學(xué),北京 100049;3.中科新聲(蘇州)科技有限公司,江蘇蘇州 215163;4.深圳供電局有限公司,廣東深圳 518000)
在人機(jī)交互或語音通信中,傳聲器采集的語音信號(hào)不可避免地會(huì)包含其他的非期望信號(hào),如環(huán)境噪聲、干擾說話人聲以及房間混響等。這些非期望信號(hào)會(huì)降低采集語音的質(zhì)量,影響人和機(jī)器對(duì)語音內(nèi)容的理解。實(shí)際中,采用基于傳聲器陣列的自適應(yīng)波束形成技術(shù)可以有效抑制非期望信號(hào)[1]。
在過去幾十年內(nèi),關(guān)于參數(shù)化多通道維納濾波(Parametric Multichannel Weiner Filter,PMWF)[2]、最小方差無失真(Minimum Variance Distortionless Response,MVDR)波束形成器[3]和線性約束方差最?。↙inearly Constrained Minimum Variance,LCMV)波束形成器[4]等統(tǒng)計(jì)最優(yōu)波束形成器的理論性能分析已經(jīng)比較完備。但這些波束形成器的實(shí)現(xiàn)需要準(zhǔn)確地估計(jì)一些參數(shù),如相對(duì)傳遞函數(shù)(Relative Transfer Function,RTF)、噪聲協(xié)方差矩陣等。常用RTF估計(jì)方法有協(xié)方差矩陣相減法(Covariance Sub?traction,CS)[5]和協(xié)方差矩陣白化法(Covariance Whiten,CW)[6],而噪聲協(xié)方差矩陣通常需要從采集的混合信號(hào)中進(jìn)行盲估計(jì)。盡管有大量的研究[7-9]探討了如何準(zhǔn)確地估計(jì)噪聲協(xié)方差矩陣,但是在實(shí)際環(huán)境下,噪聲協(xié)方差矩陣的魯棒估計(jì)仍然是一個(gè)未解決的問題。
近期,基于波束形成器輸出服從零均值時(shí)變高斯模型的假設(shè),Cho 提出了一種最大似然無失真(Maximum Likelihood Distortionless Response,MLDR)波束形成器[10]。MLDR波束形成器的一個(gè)重要特點(diǎn)是無需直接估計(jì)噪聲協(xié)方差矩陣,而是通過計(jì)算輸出能量加權(quán)的樣本協(xié)方差矩陣來設(shè)計(jì)波束形成器。進(jìn)一步的,基于遞歸最小二乘(Recursive Least Square,RLS)算法,Cho 提出了一種在線迭代估計(jì)的MLDR波束形成器[11],即RLS-MLDR。然而,RLS算法在迭代估計(jì)時(shí)存在諸如計(jì)算復(fù)雜度較高以及存在數(shù)值不穩(wěn)定性等固有缺陷。與之相反,基于卡爾曼(Kal?man)濾波的迭代算法可實(shí)現(xiàn)參數(shù)的魯棒估計(jì),同時(shí)其收斂速度也較快。值得一提的是,已有學(xué)者提出利用約束型Kalman 濾波器來在線估計(jì)MVDR 波束形成器[12-14]。
基于約束型Kalman 濾波,本文提出了MLDR 波束形成器的一種新的實(shí)現(xiàn)方式,記做KF-MLDR(Kalman Filter-based MLDR)。將MLDR 波束形成器作為約束型Kalman濾波的內(nèi)部狀態(tài),其變化過程用一階馬爾科夫過程進(jìn)行建模,而其代價(jià)函數(shù)則作為約束型Kalman濾波的觀測(cè)方程,推導(dǎo)出精確實(shí)現(xiàn)的KF-MLDR 波束形成器。同時(shí),本文提出了一種采用對(duì)角化處理的簡(jiǎn)化KF-MLDR 波束形成器的更新方式,極大地降低了算法的計(jì)算復(fù)雜度。在實(shí)錄數(shù)據(jù)集CHiME-3 上的測(cè)試結(jié)果驗(yàn)證了本文所提的算法可在更低的計(jì)算復(fù)雜度下保持和RLS-MLDR相近的語音增強(qiáng)效果。
本文考慮一個(gè)由M個(gè)傳聲器構(gòu)成的陣列,在室內(nèi)環(huán)境下進(jìn)行語音信號(hào)的采集。在短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)域,在n時(shí)刻第k個(gè)頻率柜處所有傳聲器接收的信號(hào)向量y(k,n)=[Y1(k,n),…,YM(k,n)]T可以表示為:
3.2 化學(xué)防治 梨樹芽萌動(dòng)時(shí),全樹噴1次具有鏟除作用的10~20倍液尿素,殺死在芽鱗內(nèi)越冬的菌絲,對(duì)減少初侵染源有明顯效果。
其中x(k,n)和v(k,n)分別表示傳聲器接收的期望語音信號(hào)向量和噪聲信號(hào)向量,Xr(k,n)表示傳聲器接收的不含噪聲的語音信號(hào)。將第r個(gè)傳聲器為參考傳聲器,RTF可表示為:
其中(?)T表示向量轉(zhuǎn)置符,Hr(k,n)表示期望語音到第r個(gè)傳聲器的聲學(xué)傳遞函數(shù)。后文中所有的波束形成均是在單個(gè)頻率柜處獨(dú)立進(jìn)行,為簡(jiǎn)潔敘述,后續(xù)將省略頻率索引k。
波束形成的目的是從采集的帶噪多通道語音信號(hào)中恢復(fù)出期望語音信號(hào)。為了實(shí)現(xiàn)這一目的,一般對(duì)采集的多通道帶噪信號(hào)進(jìn)行復(fù)數(shù)加權(quán)累加,即:
其中w(n)=[W1(n),…,WM(n)]T表示長(zhǎng)度為M的波束形成器,(?)H表示向量的共軛轉(zhuǎn)置。
其中?(n)是最優(yōu)波束形成器對(duì)應(yīng)的輸出信號(hào)在n時(shí)刻的能量,wHgr=1 表示的是波束形成器在期望方向上的無失真約束,λ是拉格朗日乘子。上述代價(jià)函數(shù)中有兩個(gè)相互耦合的待優(yōu)化變量w和?(n),其最優(yōu)解的解析形式并不存在,實(shí)際中,一般通過迭代更新的方式來計(jì)算這兩個(gè)變量,即:
近期,一種基于RLS 的MLDR 波束形成器的在線更新算法被提出[11],本文將其記做RLS-MLDR。RLS-MLDR 將式(4)中不同時(shí)刻的變量進(jìn)行指數(shù)加權(quán),通過令加權(quán)后的代價(jià)函數(shù)關(guān)于w和?(n)的導(dǎo)數(shù)為0得到了對(duì)應(yīng)的在線更新準(zhǔn)則,即[11]
隨著瀝青砂漿厚度的增加,其抗拉強(qiáng)度并未出現(xiàn)明顯變化,當(dāng)瀝青砂漿過渡層厚度達(dá)到8 cm后,拉伸試驗(yàn)各項(xiàng)性能指標(biāo)趨于穩(wěn)定。
其中η為一參數(shù)因子,可保證Kalman 濾波器在收斂后仍然可以保持較快的跟蹤速度。
式(9)和式(10)對(duì)應(yīng)的狀態(tài)-空間模型可以在Kalman 濾波的框架下進(jìn)行遞歸求解,求解方式為[13]:
其中k(n)為卡爾曼增益,e(n)是誤差向量,P(n)是狀態(tài)誤差協(xié)方差矩陣。假定??(n) 足夠小且?w(n)=0,可以證明上述的卡爾曼濾波器將最終收斂于:
約束型Kalman 濾波器曾用于在線估計(jì)MVDR波束形成器[13],但是其估計(jì)過程中直接將接收信號(hào)向量用于建立觀測(cè)方程,即(n)=y(n),此時(shí)實(shí)際上是利用Kalman 濾波對(duì)最小功率無失真(Minimum Power Distortionless Response,MPDR)波束形成器進(jìn)行遞歸估計(jì),這里將其記做KF-MPDR。相關(guān)研究表明[16],MPDR 波束形成器在導(dǎo)向矢量估計(jì)有誤時(shí)容易出現(xiàn)期望信號(hào)自消的問題。此外,當(dāng)MPDR 波束形成器用于語音信號(hào)增強(qiáng)時(shí),用于計(jì)算樣本協(xié)方差矩陣的時(shí)間幀數(shù)須足夠長(zhǎng),否則可能導(dǎo)致期望語音失真。
計(jì)算k(n) 以及P(n) 的復(fù)雜度為O(M2),和RLS-MLDR波束形成器的計(jì)算復(fù)雜度接近。為了降低Kalman濾波的計(jì)算復(fù)雜度,這里給出對(duì)角化近似處理的約束型Kalman 濾波。Kalman 濾波器的內(nèi)部狀態(tài)可看作是相互獨(dú)立的,故在Kalman濾波器收斂后,可將狀態(tài)誤差協(xié)方差矩陣P(n)用對(duì)角化矩陣近似,即:
進(jìn)一步的,將k(n)A(n) 近似為k(n)A(n)=(tr(kH(n)AH(n))/M)IM,則?P(n)的更新公式為:
將式(13)代入式(11)中,則化簡(jiǎn)后的Kalman 增益k(n)可以表示為:
其中δ(n)=?ε(n)/?P(n-1)。采用對(duì)角化近似處理的KF-MLDR 波束形成器的更新公式和采用正則化因子的仿射投影(Affine Projection,AP)算法類似。需要注意的是,雖然簡(jiǎn)化后的更新中仍然涉及矩陣求逆,但該矩陣為2 階方陣,其逆有解析解,僅僅需要1 次除法以及6 次乘法即可實(shí)現(xiàn)矩陣求逆運(yùn)算。后文我們將此處對(duì)角化近似處理的KF-MLDR記做diagonalized KF-MLDR。
圖1 給出了三種在線實(shí)現(xiàn)的波束形成器所需的復(fù)數(shù)乘法數(shù),可以發(fā)現(xiàn),RLS-MLDR 和所提的精確實(shí)現(xiàn)的KF-MLDR 的計(jì)算復(fù)雜度接近,均為O(M2),而diagonalized KF-MLDR 的計(jì)算復(fù)雜度則為O(M),和前兩種波束形成器相比其計(jì)算效率更高。
這里將評(píng)測(cè)前文提到的三種波束形成器在實(shí)錄數(shù)據(jù)集CHiME-3 上的效果,三種波束形成器分別為RLS-MLDR[11],KF-MPDR[14]以及本文提出的對(duì)角化近似的KF-MLDR。此外,我們也給出了另外兩種波束形成器的評(píng)測(cè)結(jié)果作為對(duì)比,這兩種波束形成器分別是廣義旁瓣消除器[17](Generalized Sidelobe Canceller,GSC)以及匹配無失真(Matched Distor?tionless Response,MDR)波束形成器[18]。評(píng)測(cè)指標(biāo)為寬帶感知語音質(zhì)量(WideBand Perceptual Evalua?tion of Speech Quality,WB-PESQ)[19]和擴(kuò)展短時(shí)客觀可懂度(Extended Short-TimeObjectiveIntelligibil?ity,ESTOI)[20]。這兩個(gè)指標(biāo)常用于評(píng)價(jià)語音質(zhì)量和語音可懂度,它們的值越大,表明語音信號(hào)質(zhì)量越好、可懂度越高。
CHiME-3 數(shù)據(jù)集由六麥平面陣采集得到,該平面陣安裝于一個(gè)平板電腦上,說話人手持平板進(jìn)行規(guī)定語句的朗讀,錄制時(shí)所處的噪聲環(huán)境分為四類:公交車(BUS),街道(STR),咖啡館(CAF)以及行人區(qū)(PED)。CHiME-3 數(shù)據(jù)集分為訓(xùn)練集、開發(fā)集以及測(cè)試集,本文僅使用測(cè)試集進(jìn)行算法的測(cè)試。測(cè)試集又分為仿真數(shù)據(jù)部分和實(shí)錄數(shù)據(jù)部分,因?yàn)閃B-PESQ 和ESTOI 的計(jì)算均需要干凈的語音信號(hào)作為參考信號(hào),所以測(cè)試時(shí)僅選用包含干凈語音信號(hào)的仿真數(shù)據(jù)部分。測(cè)試集中各個(gè)噪聲場(chǎng)景下分別包含330 條長(zhǎng)度不等的數(shù)據(jù),共包含1320 條多通道音頻數(shù)據(jù)。關(guān)于該數(shù)據(jù)集更具體的信息可以參見CHiME-3數(shù)據(jù)集的介紹[21]。
音頻數(shù)據(jù)的采樣率為16 kHz,STFT所用窗函數(shù)為漢明窗,處理幀長(zhǎng)設(shè)置為1024 點(diǎn),幀移設(shè)置為256點(diǎn)。對(duì)角化KF-MLDR,KF-MPDR 和RLSMLDR 波束形成器均選用MPDR 波束形成器進(jìn)行初始化,MPDR 波束形成器選用前10 幀帶噪信號(hào)估計(jì)樣本協(xié)方差矩陣;采用CW[6]法對(duì)RTF 進(jìn)行估計(jì)。對(duì)于對(duì)角化KF-MLDR,設(shè)b=[10-5,1]T,η=10-3,實(shí)驗(yàn)中發(fā)現(xiàn),?ε設(shè)為固定值時(shí)效果更好,仿真時(shí)設(shè)為?ε=10。RLS-MLDR 的其他參數(shù)則根據(jù)原始文獻(xiàn)[11]設(shè)置。
圖2繪制了波束形成器在四種不同場(chǎng)景下的處理結(jié)果與原始帶噪語音相比WB-PESQ 和ESTOI 的相對(duì)提升量以及在不同場(chǎng)景下的平均提升量。從仿真結(jié)果中可以發(fā)現(xiàn),不同波束形成器的兩個(gè)客觀指標(biāo)提升量在不同場(chǎng)景下的變化趨勢(shì)基本一致,且提升量均為正值,即均提升了語音信號(hào)的質(zhì)量與可懂度。幾種波束形成器中,MDR 波束形成器是空間白噪聲場(chǎng)假設(shè)下的最優(yōu)固定波束形成器[18],而實(shí)際中的噪聲場(chǎng)往往不符合該假設(shè),故其性能最差。在幾種自適應(yīng)波束形成器中,KF-MPDR波束形成器的性能相對(duì)較差,主要是因?yàn)镵F-MPDR 波束形成器是MPDR 波束形成器的一種在線實(shí)現(xiàn)形式,而MPDR 對(duì)于模型參數(shù)估計(jì)誤差不夠魯棒,實(shí)際中可能損傷期望語音信號(hào)。相較而言,RLS-MLDR 和對(duì)角化的KF-MLDR 的性能接近,且均遠(yuǎn)好于KFMPDR 波束形成器,主要原因是使用了將輸出能量作為SVAD 的能量加權(quán)樣本協(xié)方差矩陣。此外,由圖1 可知,在本文6 麥陣列仿真數(shù)據(jù)的配置下,對(duì)角化的KF-MLDR 的計(jì)算復(fù)雜度僅僅為RLS-MLDR 的一半左右。
為了更好地比較不同波束形成器的實(shí)際降噪效果,圖3 給出了帶噪語音和不同波束形成器處理結(jié)果的語譜圖,圖中的帶噪語音是由CHiME-3 中編號(hào)為‘M06 447C020X’的語音在PED 場(chǎng)景下生成的測(cè)試數(shù)據(jù)。觀察可以發(fā)現(xiàn),幾種自適應(yīng)波束形成器均消除了一定量的噪聲,但是在靜音區(qū)域以及低頻區(qū)域內(nèi),RLS-MLDR和對(duì)角化的KF-MLDR波束形成器取得了比其他幾種波束形成器更好的降噪效果,語音共振峰的保留程度也更好。
本文提出了一種新的MLDR 波束形成器實(shí)現(xiàn)方式,其核心思路是利用約束型Kalman 濾波對(duì)MLDR 波束形成器進(jìn)行遞歸估計(jì)。進(jìn)一步的,假定狀態(tài)誤差協(xié)方差矩陣為對(duì)角陣,本文給出了一種簡(jiǎn)化的KF-MLDR,其計(jì)算復(fù)雜度僅僅和傳聲器數(shù)目呈線性關(guān)系。在CHiME-3 數(shù)據(jù)集上的測(cè)試結(jié)果驗(yàn)證了本文所提簡(jiǎn)化算法的優(yōu)越性,即在計(jì)算復(fù)雜度更低的情況下取得了和現(xiàn)有的在線實(shí)現(xiàn)的RLS-MLDR相近的性能。