趙小燕 周 琳 吳鎮(zhèn)揚
(1東南大學(xué)信息科學(xué)與工程學(xué)院, 南京 210096)(2南京林業(yè)大學(xué)輕工科學(xué)與工程學(xué)院, 南京 210037)
基于壓縮感知的麥克風(fēng)陣列聲源定位算法
趙小燕1,2周 琳1吳鎮(zhèn)揚1
(1東南大學(xué)信息科學(xué)與工程學(xué)院, 南京 210096)(2南京林業(yè)大學(xué)輕工科學(xué)與工程學(xué)院, 南京 210037)
為了提高麥克風(fēng)陣列在高混響、低信噪比環(huán)境中的定位性能,提出了一種基于壓縮感知的聲源定位算法.該算法將聲源定位問題轉(zhuǎn)化為稀疏信號的重構(gòu)問題,將不同位置的房間沖激響應(yīng)作為特征以構(gòu)建字典.首先,將麥克風(fēng)接收信號轉(zhuǎn)換至頻域,從具有較高能量的頻點中求得一組擴展的頻域聲源信號矢量,該矢量中包含了聲源的位置信息.然后,在頻域中整合這些擴展的聲源信號矢量,使聲源的位置信息更突出,矢量中最大元素所對應(yīng)的空間位置即為聲源的位置估計.仿真實驗結(jié)果表明,與相位變換加權(quán)的可控響應(yīng)功率(SRP-PHAT)定位算法相比,所提算法的定位成功率更高,對混響的魯棒性更強,更適合高混響低信噪比環(huán)境中的聲源位置估計.
麥克風(fēng)陣列;聲源定位;壓縮感知
基于麥克風(fēng)陣列的聲源定位技術(shù)廣泛應(yīng)用于視頻會議、智能機器人、語音增強等領(lǐng)域.傳統(tǒng)的聲源定位算法主要分為高分辨率譜估計的算法、基于時延估計的算法和基于可控響應(yīng)功率的算法.相位變換加權(quán)的廣義互相關(guān)(GCC-PHAT)算法是最常用的時延估計算法,該算法對混響具有較強的魯棒性,但是在低信噪比環(huán)境中性能較差.相位變換加權(quán)的可控響應(yīng)功率(SRP-PHAT)定位算法結(jié)合了可控響應(yīng)功率和相位變換加權(quán)的優(yōu)點[1-2],比基于時延估計的定位算法具有更好的性能.當(dāng)混響和噪聲較強時,傳統(tǒng)的聲源定位算法性能急劇惡化,尤其是當(dāng)麥克風(fēng)接收不到聲源發(fā)出的直達(dá)聲時,傳統(tǒng)算法將無法正確估計聲源位置[3].
壓縮感知(CS)理論廣泛應(yīng)用于模式識別[4]、信道估計[5]、雷達(dá)信號處理[6]等領(lǐng)域.該理論包括兩大組成部分:信號的壓縮采樣和稀疏重構(gòu).將壓縮感知理論與陣列信號處理相結(jié)合以進(jìn)行波達(dá)方向(DOA)估計,已成為新的研究熱點.文獻(xiàn)[7]提出了一種時域壓縮采樣的DOA估計算法;文獻(xiàn)[8]建立了一種基于陣列協(xié)方差矢量聯(lián)合稀疏表示的壓縮感知DOA估計模型;針對無混響環(huán)境中窄帶信號的DOA估計問題,文獻(xiàn)[9]基于壓縮感知理論,提出了一種采用單個數(shù)據(jù)快拍即可實現(xiàn)DOA估計的算法;文獻(xiàn)[10]提出了一種基于空域壓縮感知DOA估計算法,可實現(xiàn)寬帶信號DOA估計;文獻(xiàn)[11]將寬帶信號DOA問題轉(zhuǎn)化為多任務(wù)學(xué)習(xí)的貝葉斯壓縮感知問題;文獻(xiàn)[12]建立了一種適用于窄帶信號和寬帶信號的稀疏表示模型,可用于近場入射信號的DOA估計.
對于室內(nèi)混響環(huán)境中的語音聲源定位問題,入射信號為未經(jīng)任何調(diào)制的自然語音信號,具有寬帶非平穩(wěn)特性;同時,接收信號并非聲源延遲信號與噪聲的簡單疊加,而是聲源信號和房間沖激響應(yīng)的卷積結(jié)果與環(huán)境噪聲之和.本文建立了一種室內(nèi)混響環(huán)境中麥克風(fēng)陣列接收信號的稀疏表示模型,提出了一種基于壓縮感知的聲源定位算法.
室內(nèi)環(huán)境中,對于由M個麥克風(fēng)組成的陣列,第m個麥克風(fēng)接收到的信號xm(n)可以表示為
(1)
式中,n為離散時間索引;s(n)為聲源信號,聲源位于rs處;hm(rs,n)為聲源位置rs到第m個麥克風(fēng)的房間沖激響應(yīng);wm(n)為第m個麥克風(fēng)接收到的噪聲;L為房間沖激響應(yīng)的長度.假設(shè)每個麥克之間的噪聲不相關(guān),噪聲與信號也不相關(guān).
2.1 壓縮感知理論
假設(shè)N×1維復(fù)矢量Y={Y1,Y2,…,YN}T在基矩陣Ψ={Ψ1,Ψ2,…,ΨN}上可線性表示為
(2)
式中,S={S1,S2,…,SN}T表示N×1維的系數(shù)矢量.
若矢量S中非零元素的個數(shù)‖S‖0滿足
‖S‖0=P?N
(3)
則稱信號Y為基矩陣Ψ上的稀疏信號.其中,P為Y的稀疏度,Ψ為稀疏基.
壓縮感知理論表明,如果信號Y在某已知基矩陣Ψ下的系數(shù)是稀疏的,則稀疏信號Y可線性投影到低維空間上,根據(jù)低維的壓縮采樣信號可以高概率地?zé)o損重構(gòu)出高維的原始信號.通常,用一個M×N維觀測矩陣Φ對信號Y進(jìn)行線性變換,得到M×1維的觀測矢量為
X=ΦY=ΦΨS=ΘS
(4)
式中,X={X1,X2,…,XM}T(M?N)為觀測矢量;Θ=ΦΨ為CS矩陣.
研究表明,如果CS矩陣Θ滿足約束等距性(RIP)條件,則可實現(xiàn)信號的高概率準(zhǔn)確重構(gòu)[13].當(dāng)隨機觀測矩陣Φ滿足M≥CPlog(N/P)時(C為一個與恢復(fù)精度有關(guān)的常數(shù)),CS矩陣Θ能以較大的概率滿足RIP條件.在信號Y為稀疏的前提下,欠定方程組X=ΘS可通過l0范數(shù)最小化的方式來求解,即
(5)
實際上,觀測噪聲往往不可避免,需引入加性噪聲項,即
X=ΘS+W
(6)
式中,W為有界噪聲.
由此可將式(5)修正為
(7)
式中,ε為與噪聲有關(guān)的常量.
在一定條件下,可采用lp范數(shù)(0
信號的重構(gòu)是壓縮感知理論的核心問題.目前已有的重構(gòu)算法包括正交匹配追蹤(OMP)算法、基追蹤(BP)算法等.
2.2 基于壓縮感知的定位算法描述
麥克風(fēng)信號xm(n)經(jīng)過加窗后,由離散傅里葉變換得到頻域信號Xm(k).如果房間沖激響應(yīng)的長度L遠(yuǎn)小于窗函數(shù)長度,則麥克風(fēng)信號在頻域下可以表示為
Xm(k)=Hm(rs,k)S(k)+Wm(k)m=1,2,…,M
(8)
式中,Xm(k),S(k),Hm(rs,k),Wm(k)分別為xm(n),s(n),hm(rs,n),wm(n)的離散傅里葉變換.頻域信號模型可以用矢量描述為
X(k)=H(rs,k)S(k)+W(k)
(9)
式中
X(k)={X1(k),X2(k),…,XM(k)}TH(rs,k)={H1(rs,k),H2(rs,k),…,HM(rs,k)}TW(k)={W1(k),W2(k),…,WM(k)}T
式中,X(k)為頻域的麥克接收信號矢量;H(rs,k)為來自聲源位置rs處的房間頻域響應(yīng)矢量;W(k)為頻域的噪聲矢量.
聲源可能存在的空間位置集為{r1,r2, …,rI}.空間位置ri對應(yīng)的房間頻域響應(yīng)矢量為H(ri,k).假設(shè)空域離散位置的個數(shù)I遠(yuǎn)大于目標(biāo)聲源的個數(shù),則冗余的房間頻域響應(yīng)矩陣為
D(k)={H(r1,k),H(r2,k),…,H(rI,k)}
(10)
將冗余的房間頻域響應(yīng)矩陣D(k)稱為字典.在字典D(k)下,可將式(9)改寫為
(11)
然而,在實際情況下,房間沖激響應(yīng)的長度L遠(yuǎn)大于窗函數(shù)的長度,麥克風(fēng)信號在頻域下只能近似表示為
Xm(k)≈Hm(rs,k)S(k)+Wm(k)m=1,2,…,M
(12)
式(9)左右兩邊只能近似相等,式(11)改寫為
(13)
(14)
(15)
為驗證算法的有效性,在計算機仿真環(huán)境中,比較了基于CS的聲源定位算法與SRP-PHAT定位算法在不同混響時間和信噪比下的聲源定位性能.
3.1 仿真條件
仿真的矩形房間長、寬、高分別為7,6,3 m.由3個全向麥克風(fēng)組成的三角陣位于房間內(nèi)部,3個麥克風(fēng)分別位于(3.60, 2.00, 1.00)m,(3.45, 2.09, 1.00)m和(3.45, 1.91, 1.00)m處.說話人與陣列處于同一水平面,其到陣列中心的距離為1.5 m.將聲源可能存在的空間離散為36個位置(0°, 10°,…,350°).本次實驗中,36個空間位置的房間沖激響應(yīng)已知.字典D(k)列向量的個數(shù)即為房間沖激響應(yīng)矢量的個數(shù)36.語音信號從TIMIT數(shù)據(jù)庫中隨機選取,采樣率為16 kHz.房間沖激響應(yīng)由Image法生成,與語音信號卷積后加上不同比例的高斯白噪聲.信號幀長為32 ms,每幀信號加漢寧窗.
3.2 閾值的影響
實驗中取信噪比SNR=20 dB,混響時間T60=0.2,0.4,0.6 s.采用基于CS的定位算法對每幀信號進(jìn)行512點離散傅里葉變換.
SRP-PHAT定位算法與不同閾值η下本文算法的定位成功率見圖1.由圖可見,不同閾值η下,本文算法的定位成功率均高于SRP-PHAT定位算法.當(dāng)SNR=20 dB,T60=0.6 s時,SRP-PHAT定位算法的定位成功率約為69%,不同閾值η下文本算法的定位成功率則均大于83%.閾值η的取值會影響本文算法的性能.當(dāng)0.1≤η<0.4時,本文算法的定位成功率逐漸增大;當(dāng)η≥0.4時,本文算法的定位成功率隨η的增加變化甚微.這是因為當(dāng)η=0.1時,用于定位的頻點過少,此時本文算法的定位成功率最低;當(dāng)η=0.4時,被選頻點的能量約占總能量的90%,增大閾值已不會對本文算法的性能造成顯著影響.
圖1 不同定位算法的定位成功率(SNR=20 dB)
此外,閾值η的增加會導(dǎo)致用于定位的頻點個數(shù)增多,而本文算法的計算量正比于用于定位的頻點個數(shù),因此閾值η的增加也會導(dǎo)致本文算法計算量的增加.
由此可知,當(dāng)η=0.4時,本文算法具有較高的定位成功率,且算法計算量較小.后續(xù)實驗中均取η=0.4.
3.3 混響時間和信噪比的影響
不同混響時間與信噪比條件下,對SRP-PHAT定位算法與本文算法(η=0.4)進(jìn)行對比仿真實驗.實驗中取T60=0.1~0.6 s, SNR=5,15 dB.
不同混響時間下,SRP-PHAT定位算法與本文算法定位成功率對比見圖2.由圖可見,本文算法對混響的魯棒性更強,且相對SRP-PHAT定位算法定位成功率提升幅度隨混響時間的增加而增大.當(dāng)SNR=15 dB時,T60由0.1 s增大至0.6 s,本文算法相對SRP-PHAT定位算法的定位成功率提升幅度由10%增至20%.此外,這一提升效果在較低信噪比條件下更顯著.當(dāng)T60=0.4 s,SNR=15 dB時,本文算法相對SRP-PHAT定位算法的定位成功率提升幅度為17%;當(dāng)T60=0.4 s,SNR=5 dB時,本文算法相對SRP-PHAT定位算法的定位成功率提升幅度為31%.綜上所述,本文算法的定位性能明顯優(yōu)于SRP-PHAT定位算法,尤其是在高混響低信噪比環(huán)境下,本文算法的優(yōu)越性更顯著.
(a) SNR=15 dB
(b) SNR=5 dB
在高混響低信噪比環(huán)境下,SRP-PHAT定位算法的性能急劇惡化.本文算法將不同位置的房間沖激響應(yīng)作為特征以構(gòu)建字典,算法本身已將房間混響的因素考慮在內(nèi),故對混響具有更強的魯棒性.理論上,房間混響不再成為本文算法在進(jìn)行聲源定位時的干擾.但在真實環(huán)境中,混響增加,房間沖激響應(yīng)中多徑分量的幅度也隨之增大,時間隨之延長,最終導(dǎo)致式(13)左右兩邊的近似程度降低,即本文算法的定位精度依然隨混響的增加而下降.此外,本文算法利用語音信號的特征,將具有較高能量的頻點用于定位,提高了算法對噪聲的魯棒性.
本文提出了一種基于CS的聲源定位算法.該算法首先將麥克風(fēng)接收信號轉(zhuǎn)換至頻域,利用OMP算法從具有較高能量的頻點中求得一組擴展的頻域聲源信號矢量;然后,在頻域中利用這組矢量加強聲源的位置信息,獲得更為魯棒的聲源位置估計.仿真實驗結(jié)果表明,在房間沖激響應(yīng)已知的情況下,本文算法的定位成功率明顯高于SRP-PHAT定位算法.然而,在真實環(huán)境中,房間沖激響應(yīng)由測量手段獲得,測量值與真實值之間的誤差將導(dǎo)致字典模型存在誤差.對于存在字典模型誤差時的基于壓縮感知的聲源定位算法還有待進(jìn)一步研究.
References)
[1]DiBiase J H. A high-accuracy, low-latency technique for talker localization in reverberant environments using microphone arrays [D]. Providence, Rhode Island,USA: Brown University, 2000.
[2]Zhao Xiaoyan, Tang Jie, Zhou Lin, et al. Accelerated steered response power method for sound source localization via clustering search [J].ScienceChinaPhysics,MechanicsandAstronomy, 2013, 56(7): 1329-1338.
[3]Wan Xinwang, Wu Zhenyang. Sound source localization based on discrimination of cross-correlation functions [J].AppliedAcoustics, 2013, 74(1): 28-37.
[4]Wright J, Yang A Y, Ganesh A, et al. Robust face recognition via sparse representation [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2009, 31(2): 210-227.
[5]Berger C R, Wang Z, Huang J, et al. Application of compressive sensing to sparse channel estimation [J].IEEECommunicationsMagazine, 2010, 48(11): 164-174.
[6]Potter L C, Ertin E, Parker J T, et al. Sparsity and compressed sensing in radar imaging [J].ProceedingsofIEEE, 2010, 98(6): 1006-1020.
[7]Gurbuz A C, Cevher V, McClellan J H. Bearing estimation via spatial sparsity using compressive sensing [J].IEEETransactionsonAerospaceandElectronicSystems, 2012, 48(2): 1358-1369.
[8]Yin Jihao, Chen Tianqi. Direction-of-arrival estimation using a sparse representation of array covariance vectors [J].IEEETransactionsonSignalProcessing, 2011, 59(9): 4489-4493.
[9]Li X, Ma X, Yan S, et al. Single snapshot DOA estimation by compressive sampling [J].AppliedAcoustics, 2013, 74(7): 926-930.
[10]Malioutov D, ?etin M, Willsky A S. A sparse signal reconstruction perspective for source localization with sensor arrays [J].IEEETransactionsonSignalProcessing, 2005, 53(8): 3010-3022.
[11]孫磊. 基于壓縮感知的陣列信號處理算法研究[D]. 南京:解放軍理工大學(xué)通信工程學(xué)院,2013.
[12]Model D, Zibulevsky M. Signal reconstruction in sensor arrays using sparse representations [J].SignalProcessing, 2006, 86(3): 624-638.
[13]Candès E J, Romberg J, Tao T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information [J].IEEETransactionsonInformationTheory, 2006, 52(2): 489-509.
[14]Tropp J A, Gilbert A C. Signal recovery from random measurements via orthogonal matching pursuit [J].IEEETransactionsonInformationTheory, 2007, 53(12): 4655-4666.
Compressed sensing-based sound source localization algorithm for microphone array
Zhao Xiaoyan1, 2Zhou Lin1Wu Zhenyang1
(1School of Information Science and Engineering, Southeast University, Nanjing 210096, China)(2School of Light Industry Science and Engineering, Nanjing Forestry University, Nanjing 210037, China)
To improve the sound source localization performance of microphone arrays under the conditions with high reverberation and low signal-to-noise ratio (SNR), a compressed sensing-based sound source localization algorithm is proposed. In the proposed algorithm, the problem of sound source localization is converted to the reconstruction problem of sparse signal, and the room impulse responses at different locations are treated as the features used to construct the dictionary. First, the received signals of the microphone array are transformed to the frequency domain, and a set of extended source signal vectors in the frequency domain, which contain the location information of the sound source, are calculated from the frequency components with higher power. Then, the extended source signal vectors are integrated in the frequency domain to enhance the location information of the sound source, and the spatial location corresponding to the maximum element of the integrated vector is the location estimation of the sound source. The simulation results show that compared with the steered response power-phase transform (SRP-PHAT) localization algorithm, the proposed algorithm has a higher localization rate, and is more robust against reverberation and more suitable for location estimation under the conditions with high reverberation and low SNR.
microphone array; sound source localization; compressed sensing
10.3969/j.issn.1001-0505.2015.02.001
2014-09-22. 作者簡介: 趙小燕(1986—),女,博士生;吳鎮(zhèn)揚(聯(lián)系人),男,教授,博士生導(dǎo)師,zhenyang@seu.edu.cn.
國家自然科學(xué)基金資助項目(61201345,61302152).
趙小燕,周琳,吳鎮(zhèn)揚.基于壓縮感知的麥克風(fēng)陣列聲源定位算法[J].東南大學(xué)學(xué)報:自然科學(xué)版,2015,45(2):203-207.
10.3969/j.issn.1001-0505.2015.02.001
TN912.3
A
1001-0505(2015)02-0203-05