王華松,趙 鑫
(92941部隊,遼寧葫蘆島 125001)
關(guān)鍵字:端點檢測;脈沖聲源定位;廣義互相關(guān);時延提取
基于傳聲器陣列的聲源定位問題,就是將一組傳聲器按一定方式布置在空間特定的位置上,形成傳聲器陣列,用傳聲器接收語音信號,相當(dāng)于對空間分布的聲場信號進(jìn)行采樣,得到聲源的空間離散觀測數(shù)據(jù),通過一定的信號處理算法,估計聲源的空間位置。基于傳聲器陣列的定位方法按照定位原理大體上可以分為3類[1]:基于最大輸出功率的可控波束形成技術(shù)、基于高分辨率譜估計的定位技術(shù)和基于到達(dá)時間差(Time Difference Of Arrival,TDOA)的定位技術(shù)。本文主要研究第三種定位方法,這種方法分為兩步:第一步獲得麥克風(fēng)兩個時間延遲估計(Time Delay Estimation, TDE),常用的方法有互相關(guān)法(Cross Correlation, CC)[2]、互功率譜相位法(Cross PowerSpectrum Phase, CSP)[3]、自適應(yīng)特征值分解法(Adaptive Eigenvalue Decomposition,AED)[4]等;第二步進(jìn)行空間定位,常用的方法有最小二乘法、最優(yōu)化方法等?;赥DOA的定位方法計算量小,原理簡單,易于實時實現(xiàn),可用于單脈沖聲源的定位。
時延估計是聲源定位中的關(guān)鍵環(huán)節(jié),對于語音信號,由于持續(xù)時間比較長,可以運用滑動平均的方式[5]來消除部分誤差。但是,對于短時脈沖聲信號,由于持續(xù)時間比較短,受混響干擾比較明顯,這種方式不再有效。本文運用傳統(tǒng)的互相關(guān)方法求出時延值,利用端點檢測信息判斷時延值的優(yōu)劣,提取好的時延值,再利用最優(yōu)化方法進(jìn)行空間定位,提出了一種在非高斯白噪聲與高混響環(huán)境下室內(nèi)脈沖聲定位的方案。為了驗證方案的有效性,實際構(gòu)建了由6個麥克風(fēng)組成的傳聲器陣列,模擬點聲源在室內(nèi)的真實聲場環(huán),開展相關(guān)定位實驗,并對定位精度進(jìn)行分析比較。實驗結(jié)果表明,該方案能夠?qū)崿F(xiàn)單個脈沖聲源的定位并且具有較高的定位精度。
為了抑制噪聲的影響,可在頻域內(nèi)對互相關(guān)函數(shù)進(jìn)行加權(quán),這種方法稱為廣義互相關(guān)法(Generalized Cross Correlation, GCC)[2]。本文主要運用廣義互相關(guān)-相位變換算法(Generalized Cross Correlation PHAse Transformation, GCC-PHAT),該方法相當(dāng)于對互功率譜函數(shù)進(jìn)行白化濾波,只保留信號的相位信息,可使互相關(guān)函數(shù)峰值更加尖銳。但是這種方法是建立在非混響模型基礎(chǔ)上的,通常適用于低混響和低信噪比信號的場合[6],對于高混響和非相關(guān)白噪聲環(huán)境下,不能很準(zhǔn)確地估計出時延值。
基于TDOA的聲源定位,就是根據(jù)距離差均方誤差最小值原則,求解聲源所在位置。
當(dāng)確定了N組時延值之后,即可按照最優(yōu)化的方式來求解聲源所在的位置。該最優(yōu)化問題可以表示為
采用廣義互相關(guān)法得到的TDOA相對比較精確,但是該方法易受噪聲和混響的干擾,會出現(xiàn)較大偏差的TDOA。
由于受到同步非高斯白噪聲的影響,在零時延處廣義互相關(guān)波形存在偽峰,偽峰的幅值甚至可能超過真實峰值的幅值,造成時延估計的錯誤。分別對傳聲器接收到的原始信號和噪聲信號進(jìn)行頻譜分析,對原始脈沖聲信號進(jìn)行帶通濾波,保留有效頻率成分。實驗中我們發(fā)現(xiàn)濾波后部分處于零時延的幅值已經(jīng)低于真實時延處的幅值,零時延處的虛假峰值在一定程度上被抑制。
由于受到混響影響,互相關(guān)函數(shù)也會出現(xiàn)偽峰。假設(shè)麥克風(fēng)對空間距離為l,聲源到麥克風(fēng)對的距離差為d,由三角形幾何關(guān)系可知,d<l,因此時延估計中互相關(guān)函數(shù)峰值存在區(qū)間為■-lfsc,lfsc■,其中fs為采樣頻率,峰值區(qū)間以采樣點為單位。通過限定搜索區(qū)間,如圖1所示,可將部分偽峰排除在搜索區(qū)間之外,這種方法可以一定程度上改善由于混響產(chǎn)生的偽峰影響,提高時延估計的性能。
圖1 限定互相關(guān)函數(shù)峰值搜索區(qū)間Fig.1 Limitation of the peak search range of CC function
在時延估計過程中,端點檢測是一個重要環(huán)節(jié)。端點檢測的目的是從包含脈沖聲信號的一段信號中確定脈沖聲的起始點。有效的端點檢測技術(shù)能夠排除部分噪聲段的干擾,還可以為截取有效信號參與互相關(guān)運算提供依據(jù),節(jié)約數(shù)據(jù)處理時間。傳聲器接收到的一路原始信號和對應(yīng)的短時能量如圖2所示,其信噪比為23.27。由于信噪比較高,脈沖聲信號短時能量遠(yuǎn)遠(yuǎn)大于噪聲段的短時能量,本文中端點檢測采用基于短時能量的算法,設(shè)置合適的能量閾值即可判斷脈沖到達(dá)的時間點。信號x的短時能量定義為[8]
圖2 傳聲器接收信號和對應(yīng)的短時能量Fig.2 Signal received by microphone and the corresponding short-term energy
采用端點檢測方法可得到時延的粗略估計,端點檢測結(jié)果為幀長一半的倍數(shù),因此對信號分幀時應(yīng)盡量減小幀長以提高時延估計精度。采用該方法得到的TDOA,不易受噪聲和混響的干擾,不會出現(xiàn)較大偏差的TDOA;但是該方法時延估計精度偏低。
盡管進(jìn)行濾波處理并且縮小峰值搜索區(qū)間可以提高時延估計精度,但在實驗中發(fā)現(xiàn),混響對于時延估計精度的影響仍然比較大。與語音信號的時延估計不同,脈沖聲信號持續(xù)時間很短,無法通過滑動平均的方式消除部分時延估計誤差。在混響環(huán)境中,根據(jù)端點檢測信息,截除部分噪聲段,截取端點后很少一部分信號段,盡可能地將反射波排除在有效信號段之外,僅利用部分有效信號段進(jìn)行互相關(guān)處理,可提高時延估計精度,減少計算量。但存在的主要問題是,在聲源定位過程中,在預(yù)先不知道聲源具體位置的情況下,很難準(zhǔn)確地截取直達(dá)波部分,截取的有效信號段不可避免地包含一部分反射波信號,給精確的時延估計帶來很大的困難。如果直接利用所有時延值進(jìn)行定位估計,會帶入誤差比較大的時延估計值,定位誤差會比較大,得不到理想結(jié)果。
采用端點檢測得到時延估計的方法,時延估計精度為幀長的一半,精度偏低,但是這種方法不易受到噪聲和混響的影響,不會出現(xiàn)較大偏差的時延估計。互相關(guān)方法得到的時延估計是以采樣點個數(shù)來進(jìn)行描述的,其精度取決于采樣頻率,理論上講,時延估計精度應(yīng)該高于端點檢測法得到的結(jié)果。但是對于短時脈沖聲信號而言,互相關(guān)法特別容易受混響的影響,異常值較多。
可以將2.1和2.2節(jié)的兩種時延估計方法相結(jié)合,充分利用端點檢測法不易受到噪聲和混響的影響和互相關(guān)法精度較高的優(yōu)點??紤]利用端點檢測信息提取部分精度較高的互相關(guān)時延估計進(jìn)行定位,將誤差較大的互相關(guān)時延估計剔除掉不參與定位。如果兩種方法得到的時延估計比較接近,說明兩者精度都較高,我們更傾向于選擇互相關(guān)法得到的時延估計,并將其提取出來,把其余TDOA值舍去。具體實現(xiàn)方法為
式中:τij為互相關(guān)方法得到的時延;τi′j為端點檢測方法得到的時延;G為設(shè)定的閾值,G的選取和采樣頻率有關(guān),當(dāng)采樣頻率較高時,G的取值可以適當(dāng)大一些。保留滿足式(11)的時延即為精確的時延,利用這些可用時延可完成脈沖聲源定位。
這種精確時延提取方法綜合了兩種時延估計方法的優(yōu)點,時延估計精度較高,且不易受噪聲和混響干擾。
基于第2節(jié)提出的精確時延提取方法,本文設(shè)計了由6個麥克風(fēng)構(gòu)成的傳聲器陣列(陣列結(jié)構(gòu)在第4節(jié)進(jìn)行進(jìn)一步描述),一共產(chǎn)生16組時延。任意四個傳聲器都可以包含三維空間信息,至少提取四組較好的時延,就可以包含四個傳聲器接收到的聲信號。因此,提取四組以上較好的時延就可以比較準(zhǔn)確地估計出聲源的空間位置。
本文提出的聲源定位方案框圖如圖3所示。該方案首先對采集的脈沖聲信號進(jìn)行濾波處理,接著利用能量信息進(jìn)行端點檢測,根據(jù)端點相減的方法求取時延,再截取有效信號段運用互相關(guān)方法求時延。將互相關(guān)法求得的時延與端點相減求得的時延對比,保留差值小于4個采樣點的時延,最后按照最優(yōu)化方式求出聲源的估計位置。
圖3 脈沖聲源定位方案流程圖Fig.3 Flowchart of the pulse sound source positioning scheme
為了驗證時延提取方法有較好的聲源估計性能,下面分別對時延提取前后,時延估計誤差和聲源估計誤差與端點之后截取點數(shù)的關(guān)系進(jìn)行比較。端點之后截取點數(shù)越多,信號包含的反射波信號成分也越多,混響越強。聲源位置為s=(2.785 m,1.025 m, -0.43 m)。定義聲源估計誤差為估計值和實際值之間的空間距離;時延估計誤差為時延估計值和實際時延值差值絕對值的均值,以采樣點度量;異常點百分比[9]為時延估計值偏離實際時延值大于3個采樣點的個數(shù)在所有時延估計個數(shù)中的百分比。表1和表2中K0和K1分別表示時延提取前后的異常點百分比,由此可知,時延提取后,異常點百分比有所降低。圖4~6表明,提取時延后,互相關(guān)時延估計誤差在5個采樣點之內(nèi),時延估計性能較時延提取前有較大改善,有比較強的抗混響能力。圖7和圖8表明,時延提取后與直接利用16組時延相比,定位精度大大提高。如果直接利用一般互相關(guān)法得到的16組時延直接定位,由于時延估計異常點較多,誤差會達(dá)到10 m甚至更大,導(dǎo)致定位結(jié)果出現(xiàn)錯誤。圖9為時延提取后一般互相關(guān)和廣義互相關(guān)定位誤差對比,由圖可知,時延提取后定位精度都能達(dá)到分米級;在端點之后截取點數(shù)較多的情況下,廣義互相關(guān)時延估計性能明顯優(yōu)于一般互相關(guān),運用廣義互相關(guān)法完成定位,其定位精度基本能達(dá)到厘米級。
表1 時延提取前后一般互相關(guān)方法的異常點百分比Table 1 The percentage of abnormal points of common CC method before and after extracting TDE value
表2 時延提取前后廣義互相關(guān)方法的異常點百分比Table 2 The percentage of abnormal points of GCC method before and after extracting TDE value
圖4 時延提取前后一般互相關(guān)方法的時延估計誤差對比Fig.4 Comparison of TDE error before and after extracting TDE value for common CC method
圖5 時延提取前后廣義互相關(guān)方法的時延估計誤差對比Fig.5 Comparison of TDE error before and after extracting TDE value for GCC method
圖6 時延提取后一般互相關(guān)和廣義互相關(guān)方法的時延估計誤差Fig.6 TDE errors after extracting TDE value for common CC and GCC methods
圖7 時延提取前后一般互相關(guān)定位估計誤差對比Fig.7 Comparison of localization error before and after extracting TDE value for common CC
圖8 時延提取前后廣義互相關(guān)方法的定位估計誤差對比Fig.8 Comparison of localization error before and after extracting TDE value for GCC method
圖9 時延提取后一般互相關(guān)和廣義互相關(guān)方法的定位誤差Fig.9 Localization error after extracting TDE value for common CC and GCC methods
實驗系統(tǒng)由六個麥克風(fēng)構(gòu)成的傳聲器陣列組成,麥克風(fēng)陣列空間擺放位置如圖10所示,參考傳聲器m1為坐標(biāo)原點,麥克風(fēng)孔徑L為0.5 m。各個陣元坐標(biāo)如表3所示。實驗在一個7 m×5 m×4 m的室內(nèi)空間進(jìn)行,存在空調(diào)、燈、CPU風(fēng)扇等噪聲源。敲擊鋼管模擬點聲源。麥克風(fēng)將聲音信號轉(zhuǎn)換為電信號,經(jīng)過兩個四通道信號調(diào)理器放大,再通過阿爾泰PCI8510數(shù)據(jù)采集卡將六路信號采集到主機,采樣頻率為100 kHz。六個麥克風(fēng)兩兩結(jié)合構(gòu)成15個麥克風(fēng)對,共產(chǎn)生15組時延。在不同的位置做六組實驗,每組實驗在相同的環(huán)境下重復(fù)模擬點聲源。
表3 傳聲器陣列各麥克風(fēng)坐標(biāo)(L=0.5 m)Table 3 The coordinates of each microphone (L=0.5 m)
圖10 麥克風(fēng)陣列布設(shè)圖Fig.10 Layout of microphone array
表4為六組實驗定位結(jié)果,其中t表示實測環(huán)境溫度,r表示聲源位置到參考麥克風(fēng)距離。REMS定義為聲源估計位置到實際位置距離的均值。徑向誤差定義為聲源估計位置到麥克風(fēng)參考點M1(坐標(biāo)原點)距離和實際位置到參考點距離的差值的均值。我們認(rèn)為定位誤差(REMS)大于0.5 m時,定位失敗。由表4可知,聲源距離參考麥克風(fēng)距離近時(≤3 m),定位成功率比較高,都能達(dá)到90%以上;定位精度比較高,除第二組外,定位精度可達(dá)到厘米級。第二組由于聲源離墻角比較近,受墻面反射影響比較嚴(yán)重,誤差比較大,定位精度為分米級。聲源距離參考麥克風(fēng)距離遠(yuǎn)時(3~6 m),定位成功率相對較低,定位誤差相對較大,定位精度為分米級。實驗結(jié)果表明,本文提出的方案可以在很大程度上克服非高斯白噪聲和室內(nèi)混響的影響,有效實現(xiàn)近場單脈沖聲源的實時準(zhǔn)確定位。實驗中還發(fā)現(xiàn),提高信噪比有利于提高定位成功率和定位精度。
表4 六組實驗定位結(jié)果Table 4 The positioning results of six groups of tests
對于短時脈沖聲信號,由于易受噪聲及混響影響,運用互相關(guān)法進(jìn)行時延估計異常點比較多,直接運用所有時延值無法得出準(zhǔn)確的聲源估計結(jié)果。本文主要運用端點檢測信息,對互相關(guān)法估計的時延值進(jìn)行提取,挑選好的時延值進(jìn)行空間位置估計。
實驗過程中發(fā)現(xiàn),由于室內(nèi)混響的影響,端點信號后的信號截取點數(shù)對時延估計精度有很大影響,利用端點相減求出的時延與用互相關(guān)法求出時延進(jìn)行對比判斷,提取四組以上好的時延估計,這種方法綜合了互相關(guān)法精度較高和端點檢測法不易受噪聲和混響干擾的優(yōu)點,可降低異常點百分比,同時能夠克服噪聲和混響的影響。在互相關(guān)法求峰值過程中,利用傳聲器對的距離信息,減小峰值搜索區(qū)間,可提高時延估計性能。
實驗證明,該方案實現(xiàn)簡單,一次定位的時間不超過4 s,可實現(xiàn)單脈沖聲源的實時準(zhǔn)確定位,定位精度可達(dá)到分米甚至厘米級,并且有較好的魯棒性。
今后進(jìn)一步研究的重點為,在保證定位精度的前提下,盡量減少傳聲器的數(shù)量,減小算法的復(fù)雜性。以較小的硬件為代價,實現(xiàn)單脈沖聲源的實時準(zhǔn)確定位。