韓 哲 鄭成詩(shī) 柯雨璇 李曉東
(1 中國(guó)科學(xué)院噪聲與振動(dòng)重點(diǎn)實(shí)驗(yàn)室(聲學(xué)研究所)北京 100190)
(2 中國(guó)科學(xué)院大學(xué) 北京 100049)
隨著現(xiàn)代微電子技術(shù)(Micro-electro-mechanical systems, MEMS)與無(wú)線通信傳輸技術(shù)的發(fā)展,低功耗、模塊化的無(wú)線傳感網(wǎng)絡(luò)(Wireless sensor network, WSNs)開始普及[1]。本文主要討論的分布式無(wú)線聲傳感網(wǎng)絡(luò)(Wireless acoustic sensor networks, WASNs)具有多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)由一個(gè)或多個(gè)傳聲器以及數(shù)據(jù)處理模塊與通信模塊構(gòu)成,分別實(shí)現(xiàn)信號(hào)拾取、運(yùn)算和與其他節(jié)點(diǎn)通訊的功能。由于靠近聲源可以采集到更高信噪比(Signal-to-noise ratio, SNR)或者信混比(Signalto-reverberant ratio, SRR)的信號(hào),相較于傳統(tǒng)固定位置的集中式傳聲器陣列,WASNs 可實(shí)現(xiàn)更大空間內(nèi)的聲源語(yǔ)聲拾取。此外,通過(guò)各節(jié)點(diǎn)的數(shù)據(jù)處理模塊進(jìn)行去中心化運(yùn)算,可增強(qiáng)系統(tǒng)的擴(kuò)展性與魯棒性。
在WASNs 中,如果存在數(shù)據(jù)中心可以接收所有傳聲器拾取的信號(hào)并進(jìn)行運(yùn)算,就可以采用集中式算法,理論上可獲得最優(yōu)解,但傳輸與運(yùn)算能耗較大;若每個(gè)節(jié)點(diǎn)僅使用局部信號(hào),則對(duì)應(yīng)單節(jié)點(diǎn)算法,性能會(huì)有不同程度的降低。在WASNs中通過(guò)節(jié)點(diǎn)分布式計(jì)算,以盡可能少通道數(shù)的信號(hào)傳輸,達(dá)到集中式算法最優(yōu)性能的分布式語(yǔ)聲增強(qiáng)算法的開發(fā),變得越來(lái)越重要[2?8]。
截止至今,已有多種應(yīng)用于WASNs 的分布式語(yǔ)聲增強(qiáng)算法。文獻(xiàn)[3]在雙耳無(wú)線助聽器系統(tǒng)中,基于多通道維納濾波(Multi-channel wiener filter,MWF)提出了降低傳輸帶寬的分布式多通道維納(Distributed MWF, DB-MWF)語(yǔ)聲增強(qiáng)算法,該算法在單個(gè)聲源被穩(wěn)態(tài)噪聲干擾的情況下,將兩節(jié)點(diǎn)間傳輸通道降為1,并被驗(yàn)證了其性能隨迭代收斂于集中式算法。文獻(xiàn)[4]中考慮了更一般的更多節(jié)點(diǎn)情況,提出了分布式自適應(yīng)節(jié)點(diǎn)特定信號(hào)估計(jì)(Distributed adaptive node-specific signal estimation, DANSE)算法,該算法通過(guò)控制約束,實(shí)現(xiàn)各節(jié)點(diǎn)彼此不同的特定輸出。文獻(xiàn)[5]介紹了通過(guò)在DANSE 算法中引入廣義特征值分解MWF(Generalized eigenvalue decomposition MWF,GEVD-MWF)得到的GEVD-DANSE算法,并利用WASNs 中節(jié)點(diǎn)的先驗(yàn)信息,提升了GEVDDANSE算法的收斂速度。文獻(xiàn)[6]中基于廣義旁瓣消除(Generalized sidelobe canceler, GSC)算法提出了分布式GSC(Distributed multiple constraints GSC, DGSC)算法,該文獻(xiàn)在WASNs 中所有節(jié)點(diǎn)保持同約束、同輸出的假設(shè)下,基于一種特殊變換,證明了集中式GSC 算法可以等效為多個(gè)節(jié)點(diǎn)GSC輸出之和。文獻(xiàn)[7]在WASNs中對(duì)節(jié)點(diǎn)間傳輸數(shù)據(jù)的碼率而非通道數(shù)進(jìn)行限制,提出了碼率分配分布式線性約束最小方差(Rate-distributed linearly constrained minimum variance, RD-LCMV)算法,達(dá)到了降低傳輸成本的目的。文獻(xiàn)[8]同樣基于LCMV 算法,通過(guò)隨機(jī)排列交替方向乘子法(Randomly permuted alternating direction method of multiplier, RP-ADMM)對(duì)LCMV 進(jìn)行逐塊優(yōu)化,從而實(shí)現(xiàn)了分布式LCMV算法的構(gòu)造。
除了噪聲,混響也會(huì)造成聲源定位誤差以及語(yǔ)聲質(zhì)量下降[9?10]。在室內(nèi)應(yīng)用場(chǎng)景,例如智能家居的語(yǔ)聲控制、電話會(huì)議等遠(yuǎn)場(chǎng)應(yīng)用,傳聲器除了直達(dá)聲,往往也會(huì)拾取到被稱為混響的墻壁與其他物體的反射聲波,混響可以營(yíng)造空間感[11],但也會(huì)造成語(yǔ)聲質(zhì)量下降,降低語(yǔ)聲識(shí)別準(zhǔn)確性和語(yǔ)聲聽感。為了抑制混響,許多去混響的算法及其改進(jìn)算法被提出[12?16]。文獻(xiàn)[17]中提出的加權(quán)預(yù)測(cè)誤差(Weighted prediction error, WPE)算法是一種基于自適應(yīng)多通道線性預(yù)測(cè)模型的盲去混響算法,通常使用遞歸最小二乘(Recursive least squares, RLS)算法進(jìn)行濾波器系數(shù)的自適應(yīng)更新,該算法性能穩(wěn)定,通??勺鳛椴ㄊ纬苫蛘邌瓮ǖ澜翟氲念A(yù)處理,因而得到了廣泛使用。文獻(xiàn)[18] 便利用了WPE算法與基于神經(jīng)網(wǎng)絡(luò)的波束形成器結(jié)合,在低信噪比下獲得了更好的語(yǔ)聲增強(qiáng)效果。文獻(xiàn)[19]對(duì)去混響算法的更新方式進(jìn)行了討論,引入了豪斯霍爾德RLS(Householder RLS, HRLS)與豪斯霍爾德最小二乘格型(Householder least squares lattice, HLSL)算法來(lái)代替RLS,在保持系統(tǒng)快速收斂能力的同時(shí)增強(qiáng)了穩(wěn)定性。
在WASNs 中,去混響算法也同樣被關(guān)注。文獻(xiàn)[20–21]中提出了應(yīng)用于自組織無(wú)線聲傳感網(wǎng)絡(luò)中的多通道去混響算法,通過(guò)在網(wǎng)絡(luò)中選擇拾取信號(hào)混響程度低的傳聲器子集來(lái)實(shí)現(xiàn)混響抑制,但這兩種算法均未考慮分布式運(yùn)算以及傳輸與能量限制。為解決以上問(wèn)題,本文提出一種應(yīng)用于WASNs的分布式WPE(Distributed WPE, DWPE)算法??紤]在高混響空間內(nèi)單個(gè)聲源的情況,通過(guò)調(diào)整各節(jié)點(diǎn)內(nèi)濾波器系數(shù)的更新流程,可在顯著降低節(jié)點(diǎn)傳輸信號(hào)通道數(shù)與節(jié)點(diǎn)內(nèi)運(yùn)算復(fù)雜度的同時(shí),實(shí)現(xiàn)與集中式算法相同的去混響性能。本文提出的分布式算法無(wú)需預(yù)先已知房間的聲學(xué)傳遞函數(shù)(Acoustic transfer function, ATF)、聲源信號(hào)統(tǒng)計(jì)特性等信息,延續(xù)了集中式WPE算法的優(yōu)點(diǎn)。
本文將按如下結(jié)構(gòu)展開。第1節(jié)中介紹WASNs中的信號(hào)模型。WPE 算法的簡(jiǎn)介以及DWPE算法的具體介紹將會(huì)在第2節(jié)中給出,包括WASNs中信號(hào)的發(fā)送與接收、各節(jié)點(diǎn)RLS 更新流程等。第3 節(jié)通過(guò)仿真與主客觀實(shí)驗(yàn)驗(yàn)證了DWPE 算法對(duì)于集中式算法性能的收斂性,并對(duì)比了分布式算法與集中式算法在擴(kuò)散噪聲場(chǎng)景下的穩(wěn)定性。
如圖1所示,一個(gè)WASN包含若干個(gè)任意分布節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)中含有不同數(shù)目的傳聲器,在全連接模型中每個(gè)節(jié)點(diǎn)都可以與其余所有節(jié)點(diǎn)使用無(wú)線傳輸?shù)姆绞浇粨Q信息,每個(gè)節(jié)點(diǎn)均具有屬于自己的處理器,可以處理本地與從其他節(jié)點(diǎn)接收的數(shù)據(jù)。
圖1 分布式無(wú)線聲傳感網(wǎng)絡(luò)示例Fig.1 Example of an WASN
本節(jié)中考慮一個(gè)由M個(gè)傳聲器組成的J個(gè)節(jié)點(diǎn)的WASN(M≥J),每個(gè)節(jié)點(diǎn)中的傳聲器個(gè)數(shù)為Mj,j ∈{1,···,J},則。設(shè)s(k,n)為純凈語(yǔ)聲的短時(shí)傅里葉變換(Short-time Fourier transform, STFT)域表示,n表示幀索引,k ∈{1,···,K}表示頻帶索引,共有K個(gè)頻帶,可得第m個(gè)傳聲器拾取的帶混響信號(hào)在時(shí)頻域可被建模為
其中,hm(k,l)為聲源到第m個(gè)傳聲器的ATF,Lh由混響時(shí)間、STFT 窗長(zhǎng)及幀移決定,該模型對(duì)語(yǔ)聲逐頻帶運(yùn)算,為了表達(dá)簡(jiǎn)潔,下文中將省略頻帶索引(k)。由式(1)模型,可證明混響信號(hào)可被表示為多通道自回歸(Multi-channel autoregressive,MCAR)系統(tǒng)的輸出,這是自適應(yīng)去混響算法的理論基礎(chǔ)[22?23]。由MCAR 系統(tǒng)可知,各通道信號(hào)可被寫成多通道線性預(yù)測(cè)(Multi-channel linear prediction, MCLP)的形式:
其中,[·]H表示共軛轉(zhuǎn)置,[·]ref代表從所有傳聲器中任意選取的參考信號(hào);gm(l)為聲源到第m個(gè)傳聲器的空間回歸系數(shù)(Room regression coefficient),在特定房間靜態(tài)聲源場(chǎng)景下不隨時(shí)間改變,其長(zhǎng)度Lg與Lh有關(guān);為直達(dá)聲與早期混響的和,表示目標(biāo)信號(hào);τ為預(yù)測(cè)時(shí)延,它的存在可避免語(yǔ)聲處理中的過(guò)白化[23]。為了表達(dá)方便,式(2)可轉(zhuǎn)化為矩陣形式:
其中,g=[g1(0),···,g1(Lg ?1),···,gM(0),···,gM(Lg ?1)]T∈CMLg×1與q(n)=[x1(n?τ),···,x1(n?τ ?Lg+1),···,xM(n?τ),···,xM(n?τ ?Lg+1)]∈CMLg×1表示空間回歸系數(shù)gm(l)與存儲(chǔ)延時(shí)信號(hào)xm(n)按照時(shí)間與傳聲器順序構(gòu)成的數(shù)據(jù)矢量。同時(shí)由上可得,在MCLP模型中,對(duì)傳聲器拾取信號(hào)進(jìn)行去混響的過(guò)程即為對(duì)空間回歸系數(shù)g自適應(yīng)估計(jì)的過(guò)程,去混響后的輸出的目標(biāo)信號(hào)估計(jì)為
在WASNs 中拾取到的信號(hào)可按照節(jié)點(diǎn)為單位被表示為
其中,[·]T表示轉(zhuǎn)置,(n)代表第j個(gè)節(jié)點(diǎn)的全部Mj個(gè)傳聲器所拾取到的信號(hào),xji(n)代表第j個(gè)節(jié)點(diǎn)的第i個(gè)傳聲器所拾取到的信號(hào)。類似的,式(3)和式(4)中的矢量被表示為
其中,gji= [gji(0),···,gji(Lg ?1)]T與qji(n)=[xji(n ?τ),···,xji(n ?τ ?(Lg ?1))]T分別代表對(duì)應(yīng)于第j個(gè)節(jié)點(diǎn)的第i個(gè)傳聲器的空間回歸系數(shù)與所存儲(chǔ)的延時(shí)信號(hào)。
WPE 算法是一種基于MCLP 的算法,估計(jì)位置參數(shù)g時(shí),對(duì)目標(biāo)語(yǔ)聲STFT 域信號(hào)采用時(shí)變高斯模型(Time-varying Gaussian, TVG)進(jìn)行建模[24]。假設(shè)目標(biāo)語(yǔ)聲信號(hào)d(n)可被建模為零均值的復(fù)高斯模型,則期望信號(hào)的概率密度函數(shù)可被表示為
其中,λ(n)表示期望信號(hào)在n時(shí)刻概率密度函數(shù)的方差,是一個(gè)未知量。由概率密度函數(shù)可以寫出一段時(shí)間內(nèi)的似然函數(shù):
其中,參數(shù)g和λ(n)的估計(jì)可以通過(guò)最大化式(6)中的似然函數(shù)得到,對(duì)其取負(fù)對(duì)數(shù),可得到優(yōu)化目標(biāo)函數(shù)[23]:
g和λ(n)的聯(lián)合優(yōu)化是困難的,在離線算法中采用兩個(gè)參數(shù)交替優(yōu)化的方法,兩個(gè)參數(shù)在每個(gè)時(shí)頻點(diǎn)交替優(yōu)化直到收斂或達(dá)到最大迭代次數(shù),得到參數(shù)g的估計(jì)后使用式(4)得到目標(biāo)信號(hào)估計(jì)。由于計(jì)算量較大,這種算法較難在線使用,實(shí)時(shí)算法中通常選取參考信號(hào)直接估計(jì)λ(n)[25?27],λ(n)的估計(jì)可寫作:
在線算法中當(dāng)λ(n)已經(jīng)估計(jì)得到,則式(7)中的優(yōu)化目標(biāo)轉(zhuǎn)化為
使用形如式(9)的優(yōu)化目標(biāo)對(duì)參數(shù)進(jìn)行估計(jì)的算法即為WPE算法,通常使用RLS對(duì)其求解,具體過(guò)程見表1[26,28]。
表1 在線WPE 算法實(shí)現(xiàn)細(xì)節(jié)Table 1 The details of the online WPE method
表1中,k(n)被稱為增益向量,P(n)為輸入信號(hào)q(n)的協(xié)方差矩陣的逆,α為平滑因子,用于保持算法的自適應(yīng)性。在穩(wěn)定環(huán)境中,經(jīng)過(guò)迭代g會(huì)收斂到一個(gè)穩(wěn)定值,通過(guò)式(4)輸出增強(qiáng)后信號(hào)。在RLS 濾波器中有先驗(yàn)估計(jì)誤差與后驗(yàn)估計(jì)誤差的概念,其中先驗(yàn)誤差為即為式(11)中得到的估計(jì)值(n)。設(shè)后驗(yàn)誤差為(n),可表達(dá)為
進(jìn)一步定義后驗(yàn)估計(jì)誤差(n)與先驗(yàn)估計(jì)誤差(n)的比值稱為收斂因子γ(n),可得
其值由各通道的延時(shí)信號(hào)q(n)以及其協(xié)方差矩陣的逆P唯一確定。需要注意在RLS 算法中是以優(yōu)化后驗(yàn)誤差的均方和為目的[28]。顯然αλ(n)>0,且由于P為正定矩陣,則qH(n)P(n ?1)q(n)>0,γ(t)期望值小于1,這表明了RLS算法是收斂的。下文中將依此分析DWPE算法的收斂性。
WPE算法在估計(jì)空間回歸系數(shù)與目標(biāo)信號(hào)時(shí),一定范圍內(nèi)增加所獲取的傳聲器信號(hào)通道數(shù)會(huì)提升去混響效果[27,29]。在分布式系統(tǒng)中若各節(jié)點(diǎn)使用第2.1 節(jié)介紹的集中式算法,可以獲得最優(yōu)的結(jié)果,但傳輸與運(yùn)算能耗會(huì)相當(dāng)可觀,失去分布式系統(tǒng)的意義。本節(jié)將會(huì)介紹應(yīng)用于WASNs中的DWPE算法,并給出其收斂性證明。第3 節(jié)中的仿真測(cè)試表明,通過(guò)分布式運(yùn)算,DWPE 可在傳聲器節(jié)點(diǎn)之間傳輸更少通道的信號(hào)的同時(shí),達(dá)到與集中式算法相當(dāng)?shù)娜セ祉懶阅堋?/p>
2.2.1 分布式算法構(gòu)造
由于考慮單個(gè)說(shuō)話人的情況,因此在分布式算法中,WASNs 每個(gè)節(jié)點(diǎn)采用相同的參考信號(hào)xref,該參考信號(hào)從M個(gè)傳聲器通道中選擇,該傳聲器被稱為“參考傳聲器”,其所在的節(jié)點(diǎn)被稱為“參考節(jié)點(diǎn)”,參考信號(hào)由此節(jié)點(diǎn)分發(fā)給其他節(jié)點(diǎn)。參考信號(hào)的選擇可以使用文獻(xiàn)[6]中的方法,選擇信噪比或信混比最高的通道;各節(jié)點(diǎn)輸出分發(fā)給其他所有節(jié)點(diǎn),求和之后得到(n)作為輸出的同時(shí),也用于各節(jié)點(diǎn)濾波器系數(shù)的更新。分布式系統(tǒng)中各節(jié)點(diǎn)之間的傳輸關(guān)系由圖2表示,算法具體過(guò)程見表2。
表2 在線DWPE 算法實(shí)現(xiàn)細(xì)節(jié)Table 2 The details of the proposed online DWPE method
圖2 分布式WPE 算法框架Fig.2 Framework of DWPE
表3總結(jié)了單節(jié)點(diǎn)WPE(SN-WPE)、集中式WPE(Cen-WPE)和本文中提出的DWPE 三種方式的傳輸通道數(shù)和節(jié)點(diǎn)內(nèi)濾波器維度。表4中展示了3 種方法的計(jì)算復(fù)雜度,其中一次復(fù)數(shù)加法或一次復(fù)數(shù)乘法都被算作一次浮點(diǎn)運(yùn)算(Floating point operation, FLOP)[30]。
從表3可以看出,與集中式WPE 相比,DWPE需要的傳輸數(shù)據(jù)和濾波器維度數(shù)明顯減小。由表4可以看出,由于濾波器維數(shù)的減少,DWPE 算法復(fù)雜度相較集中式算法明顯降低,以一個(gè)M= 9、Mj= 3、Lg= 4、J= 3 的WASN 為例,單節(jié)點(diǎn)、集中式與分布式算法各節(jié)點(diǎn)每運(yùn)算100個(gè)時(shí)頻點(diǎn)所需計(jì)算FLOPs次數(shù)分別約為4.315×105、1.006×107與4.319×105,且易得運(yùn)算次數(shù)降低幅度會(huì)隨著網(wǎng)絡(luò)規(guī)模以及Lg的增大而進(jìn)一步擴(kuò)大。
表3 節(jié)點(diǎn)j 濾波器系數(shù)維度與每時(shí)頻點(diǎn)收發(fā)通道數(shù)Table 3 Filter dimensions and the numbers of channels transmitted per TF-bin of the three methods at the j-th node
表4 第j 個(gè)節(jié)點(diǎn)每個(gè)時(shí)頻點(diǎn)運(yùn)算復(fù)雜度Table 4 Computational complexity of the three methods per TF-bin at the j-th node
2.2.2 收斂性證明
本節(jié)將通過(guò)分析DWPE 算法中先驗(yàn)誤差與后驗(yàn)誤差之間的關(guān)系,證明DWPE算法可以利用所有通道數(shù)據(jù)的信息,具有與集中式算法相同的收斂性。本節(jié)中為了區(qū)分集中式算法和分布式算法,對(duì)部分參數(shù)添加下標(biāo),如(n)代表集中式算法輸出的去混響信號(hào),(n)代表分布式算法中輸出的去混響信號(hào)。
使用(n)和(n)替換式(16)中的(n)和(n),則式(16)可重新寫作:
由文獻(xiàn)[28]可知,在RLS 算法中使代價(jià)函數(shù)降低時(shí),后驗(yàn)誤差相較于先驗(yàn)誤差具有更大的意義。在2.2.1 節(jié),由表2中DWPE 算法具體過(guò)程中可以看出,分布式各節(jié)點(diǎn)輸出的去混響語(yǔ)聲信號(hào)為
節(jié)點(diǎn)j濾波器系數(shù)(n)的更新過(guò)程為
將式(25)代入式(26)可得
可得節(jié)點(diǎn)1更新時(shí)分布式算法的收斂因子為
由(28)可見,雖然在節(jié)點(diǎn)1 更新時(shí)只使用了本節(jié)點(diǎn)數(shù)據(jù)構(gòu)造增益向量(n),但得益于使用了所有節(jié)點(diǎn)輸出之和(n)作為更新參數(shù),單個(gè)節(jié)點(diǎn)參數(shù)更新產(chǎn)生的影響使得整個(gè)分布式系統(tǒng)后驗(yàn)輸出與先驗(yàn)輸出之間存在著與集中式算法相似的關(guān)系,收斂因子由(n)與(n)唯一確定,保持了穩(wěn)定性。當(dāng)所有節(jié)點(diǎn)同步更新時(shí)收斂因子表示為
在γdis(n)中同樣為正定矩陣,類似于對(duì)式(16)的分析,DWPE算法在時(shí)間平均意義上同樣是收斂的,同時(shí)從式(29)中求和項(xiàng)可知,在DWPE算法對(duì)濾波器系數(shù)進(jìn)行更新時(shí)可以如集中式算法一樣利用全局信息。在第3 節(jié)的仿真實(shí)驗(yàn)測(cè)試中,將進(jìn)一步證明DWPE 算法可使系統(tǒng)達(dá)到與集中式算法相當(dāng)?shù)男阅堋?/p>
本節(jié)對(duì)DWPE進(jìn)行仿真測(cè)試,并使用其輸出進(jìn)行主客觀實(shí)驗(yàn),驗(yàn)證了所提出的分布式算法對(duì)于集中式算法性能的收斂性。首先在3.1 小節(jié)對(duì)仿真設(shè)置進(jìn)行介紹;3.2小節(jié)將會(huì)在仿真環(huán)境中對(duì)比集中式算法與分布式算法的性能和運(yùn)算復(fù)雜度;3.3小節(jié)將會(huì)在環(huán)境噪聲較高時(shí)對(duì)比集中式算法與分布式算法的穩(wěn)定性,3.4 小節(jié)將會(huì)進(jìn)行主觀性測(cè)聽實(shí)驗(yàn)。本節(jié)內(nèi)若不做特殊說(shuō)明,為便于比較算法性能,均默認(rèn)選擇參考節(jié)點(diǎn)進(jìn)行單節(jié)點(diǎn)算法測(cè)試。
如圖3所示,共設(shè)置兩種房間大小。圖3(a)房間尺寸為5 m×5 m×3 m,對(duì)應(yīng)兩種混響時(shí)間,分別為T60= 450 ms與T60= 650 ms,共有3 個(gè)節(jié)點(diǎn),設(shè)置2 個(gè)說(shuō)話人位置,Position 1 模擬說(shuō)話人在房間內(nèi)的一般狀況,Position 2 模擬說(shuō)話人在角落的情況;圖3(b)房間尺寸為7.5 m×7.5 m×3 m,對(duì)應(yīng)T60= 900 ms 與T60= 1100 ms 兩種較高的混響時(shí)間,共有4 個(gè)節(jié)點(diǎn),設(shè)置2 個(gè)說(shuō)話人位置,Position 3模擬說(shuō)話人在房間內(nèi)的一般狀況,Position 4 模擬說(shuō)話人距離所有節(jié)點(diǎn)距離相似的狀況。每個(gè)節(jié)點(diǎn)是一個(gè)具有3 個(gè)傳聲器的均勻線陣,傳聲器之間距離為5 cm。以上設(shè)置可驗(yàn)證在房間大小、混響時(shí)間、節(jié)點(diǎn)數(shù)量與說(shuō)話人位置等參數(shù)發(fā)生變化時(shí),所提出的分布式算法的普適性。聲源語(yǔ)聲信號(hào)從TIMIT 數(shù)據(jù)庫(kù)中取得,抽取30 名男性與30 名女性,共計(jì)60人語(yǔ)聲,每人25 s。各傳聲器拾取到的信號(hào)為純凈語(yǔ)聲與說(shuō)話人位置到傳聲器的房間沖激響應(yīng)函數(shù)(Room impulse response,RIR)卷積得到,RIR通過(guò)鏡像法[31]計(jì)算獲得。
圖3 測(cè)試仿真房間設(shè)置Fig.3 Room setup for evaluation
每個(gè)傳聲器設(shè)置固定的30 dB 的本底噪聲,信號(hào)STFT長(zhǎng)度為512,幀疊為50%,Lg=8,τ=1。性能測(cè)試指標(biāo)為客觀語(yǔ)聲質(zhì)量評(píng)價(jià)(Perceptual evaluation of speech quality, PESQ)[32]、短時(shí)客觀可懂度(Short-time objective intelligibility, STOI)[33]、語(yǔ)聲混響調(diào)制能量比(Speech-to-reverberation modulation energy ratio, SRMR)[34]。運(yùn)行算法的計(jì)算機(jī)處理器為i7-8750H,內(nèi)存為16 GB。
在算法的運(yùn)算復(fù)雜度與收斂性測(cè)試中,選取兩種設(shè)置。分別為說(shuō)話人位于位置1、T60= 650 ms以及說(shuō)話人位于位置3、T60= 900 ms 兩種情況。使用已有語(yǔ)聲進(jìn)行60 次測(cè)試。表5展示了仿真實(shí)驗(yàn)中單個(gè)節(jié)點(diǎn)在運(yùn)行單節(jié)點(diǎn)(SN-WPE)、集中式(Cen-WPE)與分布式(DWPE)算法處理25 s 混響語(yǔ)聲所需的平均時(shí)間,測(cè)試中保持節(jié)點(diǎn)算力一致,且忽略數(shù)據(jù)傳輸時(shí)間。
圖4展示了單節(jié)點(diǎn)WPE 算法(Single Node1-WPE、Single Node2-WPE 與Single Node3-WPE)、集中式(Cen-WPE)與分布式(DWPE)算法輸出語(yǔ)聲在PESQ分?jǐn)?shù)的提升幅度隨時(shí)間變化的趨勢(shì)。由于收斂速度會(huì)受到空間相對(duì)位置影響,所以在圖4中對(duì)所有節(jié)點(diǎn)的單節(jié)點(diǎn)算法收斂性均進(jìn)行了展示。由表5耗時(shí)情況可知,分布式算法處理時(shí)間與單節(jié)點(diǎn)算法相似并低于集中式算法,且WASN 規(guī)模越大,耗時(shí)降低幅度會(huì)越明顯,這一結(jié)果與2.2 小節(jié)中運(yùn)算復(fù)雜度分析相吻合。由圖4可知單節(jié)點(diǎn)WPE算法最快收斂至穩(wěn)定,但語(yǔ)聲質(zhì)量提升性能不及集中式算法與分布式算法;由于分布式算法中每節(jié)點(diǎn)的濾波器系數(shù)維度小于集中式,因此在更新初期性能與收斂速度上均優(yōu)于集中式算法,分布式算法于3 s 左右達(dá)到穩(wěn)定,集中式算法于6 s 左右達(dá)到穩(wěn)定,兩者穩(wěn)定后客觀指標(biāo)性能處于同一水平。
圖4 各算法隨時(shí)間的收斂性Fig.4 Convergence of the tested methods over time
表5 各算法在不同設(shè)置下處理時(shí)間Table 5 Processing time of the tested methods in different settings
圖5展示了聲源分別布置在位置1、位置2 與位置3、位置4 時(shí)在不同混響情況下單節(jié)點(diǎn)(SNWPE)、集中式(Cen-WPE)及分布式(DWPE)算法結(jié)果各項(xiàng)指標(biāo)相對(duì)于原始信號(hào)(Ref)的提升值。每個(gè)位置、每種混響時(shí)間同樣進(jìn)行60 次實(shí)驗(yàn)。由圖5可知,分布式算法能夠達(dá)到集中式算法的性能,且明顯優(yōu)于使用通道數(shù)較少的單節(jié)點(diǎn)WPE算法。
圖5 隨混響時(shí)間增加各算法在不同位置下的性能對(duì)比測(cè)試Fig.5 Performance comparison of the three methods along increasing reverberation times at different positions
假設(shè)環(huán)境為球各向同性噪聲聲場(chǎng)(Spherically isotropic noise filed),除30 dB 本底噪聲外,給傳聲器注入不同程度的擴(kuò)散噪聲[35]。圖6展示了分別注入10 dB、15 dB、20 dB、25 dB、30 dB 擴(kuò)散噪聲時(shí),說(shuō)話人位于位置1、T60= 650 ms 以及說(shuō)話人位于位置3、T60= 900 ms 兩種情況下,集中式(Cen-WPE)、分布式(DWPE)及單節(jié)點(diǎn)(SN-WPE)算法結(jié)果的各項(xiàng)評(píng)價(jià)指標(biāo)。大部分情況下,分布式算法與集中式算法依舊好于單節(jié)點(diǎn)算法輸出,但由于WPE 算法無(wú)降噪能力,隨著噪聲量的增加,λ的估計(jì)準(zhǔn)確度下降、各算法輸出結(jié)果在混響部分的差異降低,3 種算法的性能逐漸接近;此外,從所有測(cè)試指標(biāo)均可看出,隨噪聲量增加,分布式算法的穩(wěn)定性優(yōu)于集中式算法。
圖6 不同噪聲情況下各算法性能對(duì)比測(cè)試Fig.6 Performance comparison of the three methods with different levels of noise
為了進(jìn)一步測(cè)試DWPE 算法性能,借鑒文獻(xiàn)[36]的方法,采用主觀測(cè)聽的方法進(jìn)行了DWPE算法與集中式算法以及DWPE 算法與單節(jié)點(diǎn)算法對(duì)混響語(yǔ)聲處理性能的對(duì)比測(cè)試。從TIMIT 數(shù)據(jù)庫(kù)中選取6 名女性、6 名男性,共12 名說(shuō)話人語(yǔ)聲,生成650 ms、900 ms 或1100 ms 三種程度的混響信號(hào),使用3 種算法進(jìn)行去混響處理,從處理結(jié)果中抽取生成測(cè)試材料。實(shí)驗(yàn)共16 名被試,每人的聽力材料由12組對(duì)比測(cè)試組成,其中有4組為DWPE與單節(jié)點(diǎn)算法(SN-WPE)的對(duì)比,其余8 組為DWPE與集中式算法(Cen-WPE)的對(duì)比。每組測(cè)試需要先聽一遍未處理混響語(yǔ)聲,再測(cè)聽兩種算法處理結(jié)果,選擇主觀感受混響更低的進(jìn)行記錄,如果不能聽出差異,選擇“無(wú)差異”。所有測(cè)試數(shù)據(jù)均是被打亂過(guò)的,測(cè)試結(jié)果以百分比的形式在表6與表7中展示,“Equal”表示無(wú)差異。從測(cè)試結(jié)果可見,DWPE效果顯然優(yōu)于單節(jié)點(diǎn)算法,且大多數(shù)結(jié)果都指向了DWPE 算法與集中式算法的等效性。這證明了DWPE算法充分利用整合了多節(jié)點(diǎn)的數(shù)據(jù),并且性能收斂于集中式算法。
表6 DWPE 與SN-WPE 處理結(jié)果主觀測(cè)聽實(shí)驗(yàn)偏好度對(duì)比Table 6 Comparison of preferences for the subjective listening test between DWPE and SN-WPE results
表7 DWPE 與Cen-WPE 處理結(jié)果主觀測(cè)聽實(shí)驗(yàn)偏好度對(duì)比Table 7 Comparison of preferences for the subjective listening test between DWPE and Cen-WPE results
本文將WPE算法應(yīng)用到WASNs上,提出了一種實(shí)時(shí)分布式運(yùn)算的自適應(yīng)去混響DWPE 算法。在該方法中,所有節(jié)點(diǎn)共享相同的參考信號(hào),并交換本地輸出,進(jìn)行并行分布式計(jì)算。文中以理論推導(dǎo)的方式證明了DWPE算法的收斂性,在第3 節(jié)通過(guò)仿真以及主客觀實(shí)驗(yàn),證明了DWPE算法在顯著降低計(jì)算和傳輸成本的同時(shí),能夠達(dá)到與集中式算法相當(dāng)?shù)娜セ祉懶阅?。此外,收斂速度與噪聲測(cè)試實(shí)驗(yàn)結(jié)果表明,提出的方法比集中式方法具有更快的收斂速度和更高的穩(wěn)定性。