姚 歡,朱夢(mèng)堯,朱曉強(qiáng)
(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)
麥克風(fēng)陣列是以特定方式排列,從而能夠準(zhǔn)確獲取空間聲場(chǎng)的一種拾音設(shè)備.基于麥克風(fēng)陣列的典型應(yīng)用涵蓋現(xiàn)場(chǎng)錄音、節(jié)目直播、會(huì)議通信、人機(jī)交互等領(lǐng)域.顯然,性能優(yōu)異的麥克風(fēng)陣列技術(shù)及其解決方案為音樂、廣播、電視、電影等文化產(chǎn)業(yè)發(fā)展提供了更多差異化的功能,必將得到廣泛應(yīng)用[1].
麥克風(fēng)陣列信號(hào)處理的一個(gè)主要功能是估計(jì)源信號(hào)的位置.目前,基于麥克風(fēng)陣列的聲源定位方法大體上可分為3類: 1) 基于子空間的定位技術(shù)[2];2) 基于可控波束形成的定位技術(shù)[2];3) 基于到達(dá)時(shí)延差(Time Differences Of Arrival, TDOA)的定位技術(shù)[2].其中,基于到達(dá)時(shí)延差估計(jì)定位法計(jì)算量較小,硬件成本較低,定位精度較高,同時(shí)也易于實(shí)時(shí)實(shí)現(xiàn),是目前聲源定位法中常用的方法.TDOA方法首先求出聲音到達(dá)不同位置麥克風(fēng)的時(shí)延,再利用這些時(shí)延求得聲音到達(dá)不同位置麥克風(fēng)的距離差,最后用搜索或幾何知識(shí)確定聲源位置.目前已經(jīng)出現(xiàn)了多種時(shí)延差估計(jì)算法,如廣義互相關(guān)(Generalized Cross-Correlation, GCC)方法[3-4]、自適應(yīng)最小均方方法[5]、基于空間的特征值分解方法[6]等.時(shí)延估計(jì)算法主要根據(jù)麥克風(fēng)采集的信號(hào)進(jìn)行定位,麥克風(fēng)性能的好壞對(duì)后續(xù)數(shù)據(jù)的分析和處理影響極大,確保多路麥克風(fēng)采集信號(hào)的一致性、有效性和保真性,是準(zhǔn)確計(jì)算后續(xù)時(shí)延估計(jì)的關(guān)鍵.
然而,市場(chǎng)上麥克風(fēng)僅給出頻響范圍、總諧波失真、信噪比、靈敏度等參數(shù),受環(huán)境中溫濕度影響,麥克風(fēng)之間的參數(shù)波動(dòng)不利于構(gòu)造一致性高的麥克風(fēng)陣列.目前,有通過標(biāo)準(zhǔn)傳聲器的參數(shù)對(duì)待校準(zhǔn)傳聲器的參數(shù)進(jìn)行校準(zhǔn)的方式[7],選擇高度一致性的麥克風(fēng)對(duì),但該方法僅適用于特定的麥克風(fēng),推廣的成本高;有通過已知方位的校正源對(duì)陣列麥克風(fēng)之間存在的幅度/相位響應(yīng)誤差進(jìn)行校正,但該方法僅適用于高分辨率算法,不適用于時(shí)延估計(jì)算法[8-9];有自校正方法[10],無需設(shè)置校正源,可同時(shí)估計(jì)陣列誤差和波達(dá)方向,但此類算法需要對(duì)陣列誤差與波達(dá)方向進(jìn)行聯(lián)合迭代,或者需要對(duì)它們進(jìn)行非線性多維尋優(yōu),因此計(jì)算量很大,在實(shí)際應(yīng)用中具有較大限制.為此,本文提出一種新的麥克風(fēng)一致性性能指標(biāo),選取滿足一定指標(biāo)值的麥克風(fēng)對(duì),即可實(shí)現(xiàn)對(duì)聲源到達(dá)時(shí)延差的有效估計(jì).本方法適用于時(shí)延估計(jì)算法,且計(jì)算量小,便于實(shí)際應(yīng)用.本文建立了3組不同性能的麥克風(fēng)陣列,且均可在實(shí)際環(huán)境中進(jìn)行角度估計(jì).通過對(duì)3組不同一致性性能指標(biāo)的麥克風(fēng)陣列進(jìn)行角度估計(jì)結(jié)果分析,驗(yàn)證了此指標(biāo)對(duì)麥克風(fēng)陣列選型的指導(dǎo)意義.
假設(shè)聲場(chǎng)中只有一個(gè)聲源,在無回聲的開放空間里,語音源信號(hào)s(k)向外輻射傳播,考慮只有兩個(gè)麥克風(fēng),兩個(gè)麥克風(fēng)接收的信號(hào)y1(k)和y2(k)可表示為:
y1(k)=α1s(k-τ1)+n1(k),
(1)
y2(k)=α2s(k-τ2)+n2(k),
(2)
式中:α1,α2為由于傳播效應(yīng)導(dǎo)致的衰減因子,它的范圍是0~1;s(k)為未知源信號(hào);τ1,τ2為聲源到麥克風(fēng)1和2的時(shí)間延遲;n1(k),n2(k)為麥克風(fēng)接收的加性噪聲信號(hào).
兩個(gè)接收信號(hào)y1(k)和y2(k)之間的互相關(guān)函數(shù)定義為:
(3)
將式(1),(2)帶入式(3),容易推導(dǎo)出:
(4)
若假設(shè)噪聲信號(hào)n1(k)與源信號(hào)s(k)和另一麥克風(fēng)接收的噪聲信號(hào)n2(k)都不相關(guān),式(4)可表示為:
(5)
(6)
在會(huì)議環(huán)境中,不可避免的混響和噪聲使得相關(guān)函數(shù)的最大值被弱化,甚至出現(xiàn)偽峰,造成角度誤判.1976年Knapp和Cater提出了廣義互相關(guān)(GCC)算法[3],其表達(dá)式為:
(7)
式中:F-1[·]表示離散時(shí)間傅里葉逆變換(Inverse Discrete-Time Fourier Transform, IDTFT);
(8)
為信號(hào)的互功率譜,且
(9)
?(f)為頻域加權(quán)函數(shù).
由式(9)可以看出,TDOA的估計(jì)信息是通過互功率譜的相位而不是幅度來表示的.因此采用舍棄幅度保留相位的的加權(quán)函數(shù)
(10)
得到相位變換(Phase Transform, PHAT)[11]方法,此時(shí)廣義互功率譜為
(11)
將式(11)帶入式(7),得理想GCC函數(shù)
(12)
再將式(12)帶入式(6),即可得到無混響且一定噪聲強(qiáng)度下兩個(gè)麥克風(fēng)之間的時(shí)延
(13)
上述的廣義互相關(guān)算法中,角度估計(jì)的結(jié)果完全取決于時(shí)延估計(jì)的準(zhǔn)確性,而時(shí)延估計(jì)的計(jì)算完全根據(jù)麥克風(fēng)采集的信號(hào)進(jìn)行,故麥克風(fēng)采集信號(hào)的一致性、有效性和保真性對(duì)結(jié)果有直接影響.實(shí)際應(yīng)用中,麥克風(fēng)在不同溫濕度條件下性能的差異,在基于麥克風(fēng)陣列的廣義互相關(guān)算法上主要表現(xiàn)為陣元之間估計(jì)時(shí)延差值與理想時(shí)延的差異.據(jù)此,本文提出一種新的時(shí)延誤差指標(biāo),該指標(biāo)建立在麥克風(fēng)估計(jì)時(shí)延差值與理想時(shí)延的差異上,與麥克風(fēng)之間的一致性相比,具有更廣的適用性.
將上述廣義互相關(guān)算法得出的估計(jì)時(shí)延值與理想時(shí)延值之間存在的誤差,定義為時(shí)延誤差Δτθk,表達(dá)式如下:
(14)
時(shí)延誤差的均值表達(dá)式如下:
(15)
式中:n表示聲源在角度θk時(shí),一段語音幀內(nèi)兩兩麥克風(fēng)之間時(shí)延誤差Δτθk的個(gè)數(shù).
時(shí)延誤差的方差表達(dá)式如下:
(16)
以兩個(gè)麥克風(fēng)為例,兩麥克風(fēng)的間距為6cm,聲速取340m/s,根據(jù)聲源到達(dá)兩麥克風(fēng)的時(shí)延差和聲源與兩個(gè)麥克風(fēng)的幾何關(guān)系,可得出時(shí)延差與聲源角度的關(guān)系,如圖1所示.
為方便后文表述,時(shí)延差與角度估計(jì)的幾何關(guān)系,用F表示.
圖1 時(shí)延差與角度估計(jì)的關(guān)系Fig.1 The relation between delay and angle estimation
角度估計(jì)的誤差表達(dá)式為:
(17)
角度估計(jì)的方差表達(dá)式為:
(18)
據(jù)此,定義麥克風(fēng)陣列一致性性能估計(jì)指標(biāo)λθk:
λθk=-20lg(Δτθk/τθk).
(19)
理論上,在同一聲源角度θk時(shí),λθk的值越大,麥克風(fēng)陣列估計(jì)的時(shí)延值越接近理想值,所估計(jì)的角度也越接近聲源的真實(shí)值.
(20)
式中:N表示聲源角度的個(gè)數(shù).
為對(duì)比3組不同性能麥克風(fēng)陣列在實(shí)際環(huán)境中單聲源角度估計(jì)的性能,在一個(gè)大小為8m×7m×5m的會(huì)議室中進(jìn)行實(shí)驗(yàn).市面上的麥克風(fēng)往往只提供頻響范圍、總諧波失真、信噪比等基本參數(shù),如表1所示.
表1 3組麥克風(fēng)陣列麥克風(fēng)單元的基本參數(shù)
A組麥克風(fēng)采用4個(gè)A單元作陣元,B組麥克風(fēng)陣列采用4個(gè)B單元作陣元,C組麥克風(fēng)陣列采用4個(gè)C單元作陣元.每組麥克風(fēng)陣列上,陣元間距為6cm,一字排開,即每個(gè)陣列總長(zhǎng)度為18cm.3組麥克風(fēng)陣列實(shí)物圖如圖2所示.
圖2 3組麥克風(fēng)陣列實(shí)物圖Fig.2 The picture of three sets of microphone arrays
在環(huán)境中選取點(diǎn)O作為麥克風(fēng)陣列的中心點(diǎn),將A組麥克風(fēng)陣列的中心置于該點(diǎn),麥克風(fēng)陣列的4個(gè)麥克風(fēng)陣元所在直線與房間的最長(zhǎng)邊平行.考慮到線性麥克風(fēng)陣列的對(duì)稱性,只需在麥克風(fēng)陣列前左半平面放置聲源,即可得到不同的角度及其時(shí)延差值.據(jù)此,選取了30°~90°內(nèi)7個(gè)點(diǎn)(n1,n2,n3,n4,n5,n6,n7)作聲源的放置點(diǎn).
采用一段純凈的女聲作為待估計(jì)的單聲源信號(hào),在以上7個(gè)點(diǎn)分別播放該語音30s,麥克風(fēng)陣列以24kHz的采樣率去采樣聲源信號(hào),語音數(shù)據(jù)的幀長(zhǎng)為1024個(gè)采樣點(diǎn),相鄰兩幀重疊為1/2.根據(jù)以上7個(gè)角度可得到兩兩麥克風(fēng)不同的時(shí)延差值.
將3組麥克風(fēng)陣列采集的信號(hào),根據(jù)相位變換的廣義互相關(guān)算法,求出聲源處于某點(diǎn)(以n6為例)時(shí),相鄰麥克風(fēng)之間的時(shí)延估計(jì)值.將估計(jì)時(shí)延值與理想時(shí)延值做差,即時(shí)延誤差Δτθk的結(jié)果進(jìn)行對(duì)比,如圖3所示.
從圖3可以看出,相比于B組和C組麥克風(fēng)陣列,A組麥克風(fēng)的時(shí)延誤差值接近于0的數(shù)目最多,說明實(shí)際應(yīng)用中,有估計(jì)時(shí)延更為接近理想時(shí)延,不同差值的占有數(shù)目的發(fā)散程度處于3組中的中間水平.相比于A組和B組麥克風(fēng)陣列,C組麥克風(fēng)陣列的時(shí)延誤差在某區(qū)間內(nèi)具有3組中最多的數(shù)目,表現(xiàn)出最為集中的時(shí)延誤差分布,說明實(shí)際應(yīng)用中,其估計(jì)時(shí)延的穩(wěn)定性更高.B組麥克風(fēng)陣列的時(shí)延誤差值為0的數(shù)目與A組相當(dāng),但有一個(gè)明顯的次高峰,表現(xiàn)出大量的估計(jì)時(shí)延與理想時(shí)延有較大誤差,時(shí)延誤差的分布較為發(fā)散,說明實(shí)際應(yīng)用中,容易出現(xiàn)較大的估計(jì)時(shí)延偏差,穩(wěn)定性最差.
將每組麥克風(fēng)陣列上相鄰麥克風(fēng)在各個(gè)角度上所有數(shù)目的時(shí)延誤差取平均值(圖4曲線中各點(diǎn))及其方差(圖4 曲線中各點(diǎn)上下線段),然后對(duì)3組麥克風(fēng)進(jìn)行對(duì)比,其結(jié)果如圖4所示.
圖3 3組麥克風(fēng)陣列估計(jì)時(shí)延與理想時(shí)延的差值分布Fig.3 Estimation of delay and ideal delay difference distribution in three sets of microphone arrays
圖4 3組麥克風(fēng)陣列在各個(gè)角度上估計(jì)時(shí)延的誤差Fig.4 Three sets of microphone arrays estimate the error of the delay at each angle
從圖4可以看出,A組麥克風(fēng)陣列的時(shí)延誤差均值在90°時(shí)最低,越遠(yuǎn)離90°,時(shí)延誤差均值越大.理論上,根據(jù)幾何關(guān)系,理想的時(shí)延估計(jì)在90°最小,由廣義互相關(guān)得出的時(shí)延估計(jì)也最小,故二者作差后,時(shí)延誤差也相對(duì)偏小,A曲線基本符合理論依據(jù).C組麥克風(fēng)陣列表現(xiàn)出與A組類似的特性,而B組麥克風(fēng)陣列,時(shí)延誤差均值在各個(gè)角度基本持平,在時(shí)延估計(jì)時(shí),出現(xiàn)了較大偏差,符合圖3得出的結(jié)論.從圖4還可以看出,相比于A組和B組麥克風(fēng)陣列,C組麥克風(fēng)陣列在各個(gè)角度上時(shí)延誤差的方差最小,說明其角度估計(jì)上可能有更高的穩(wěn)定性.
根據(jù)式(19)求取3組麥克風(fēng)陣列在不同的角度上的估計(jì)時(shí)延誤差一致性性能指標(biāo),計(jì)算結(jié)果如圖5所示.
從圖5可以看出,聲源在90°時(shí),性能指標(biāo)最小,越遠(yuǎn)離90°,性能指標(biāo)越高.因?yàn)樵?0°時(shí),理想時(shí)延值接近為0,無論時(shí)延誤差多小,都使得理想時(shí)延值與時(shí)延誤差的比值趨向一個(gè)極小值,表現(xiàn)在性能指標(biāo)上,就是取值極?。?0°時(shí),理想時(shí)延值為較大值,基于相位變換廣義互相關(guān)算法計(jì)算的估計(jì)時(shí)延值與理想時(shí)延的偏差不會(huì)很大,使得理想時(shí)延值與時(shí)延誤差的比值比較大,表現(xiàn)在性能指標(biāo)上,就是取值較大.3組麥克風(fēng)陣列的性能指標(biāo)隨角度的變化符合理論依據(jù).在3組麥克風(fēng)陣列中,A組麥克風(fēng)陣列的平均性能指標(biāo)最高,B組和C組在60°之后,C組的性能指標(biāo)相對(duì)較高,而在60°之前,互有優(yōu)劣.
根據(jù)廣義互相關(guān)算法得出的時(shí)延估計(jì),經(jīng)過幾何關(guān)系,可得到3組麥克風(fēng)陣列在實(shí)際環(huán)境中的角度估計(jì)值.因聲源角度已知,可得到3組麥克風(fēng)陣列在各個(gè)角度上估計(jì)的方差,其結(jié)果如圖6所示.
圖5 3組麥克風(fēng)陣列估計(jì)時(shí)延誤差性能指標(biāo)Fig.5 Error performance parameters of estimating delay of three sets of microphone arrays
圖6 3組麥克風(fēng)陣列在各個(gè)角度上估計(jì)的方差Fig.6 The estimated variance of three sets of microphone arrays at each angle
從圖6看出,聲源在陣列前方90°方向時(shí),A組麥克風(fēng)陣列角度估計(jì)的方差最小,隨著聲源越來越偏離麥克風(fēng)陣列中軸線,A組麥克風(fēng)陣列的角度估計(jì)的方差逐漸增大.理論上,聲源在陣列正前方時(shí),麥克風(fēng)之間的時(shí)延最小,互相關(guān)算法得出的估計(jì)時(shí)延誤差小,對(duì)應(yīng)的角度估計(jì)誤差也??;而聲源位置偏向麥克風(fēng)陣列中軸線一側(cè)后,麥克風(fēng)采集的信號(hào)之間受多徑和混響等因素的影響變大,進(jìn)而互相關(guān)算法計(jì)算的估計(jì)時(shí)延出現(xiàn)偏差的范圍變廣,影響最終的角度估計(jì).B組和C組麥克風(fēng)陣列的角度估計(jì)的方差出現(xiàn)了與A組麥克風(fēng)陣列類似的趨勢(shì),符合理論依據(jù).比較3組麥克風(fēng)陣列,可以看出A組麥克風(fēng)陣列的角度估計(jì)性能最強(qiáng),B組麥克風(fēng)陣列在約為65°之前,其角度估計(jì)性能強(qiáng)于C組麥克風(fēng)陣列,而在約65°之后,C組的角度估計(jì)性能略好于B組麥克風(fēng)陣列.
對(duì)每一個(gè)角度,按公式(18)和(19)計(jì)算麥克風(fēng)陣列角度估計(jì)的方差與一致性性能估計(jì)指標(biāo).以麥克風(fēng)陣列一致性性能估計(jì)指標(biāo)為橫坐標(biāo),以角度估計(jì)的方差為縱坐標(biāo),將每組麥克風(fēng)所得結(jié)果繪制成曲線.將每組麥克風(fēng)的一致性性能指標(biāo)按照公式(20)進(jìn)行計(jì)算得出一致性平均性能指標(biāo),將結(jié)果標(biāo)注于各條曲線上.3組麥克風(fēng)的一致性性能估計(jì)指標(biāo)與角度估計(jì)的方差的關(guān)系,其結(jié)果如圖7所示.
圖7 3組麥克風(fēng)陣列性能指標(biāo)與角度估計(jì)的方差的關(guān)系Fig.7 The relation between the performance indexes of three sets of microphone arrays and the variance of angle estimation
從圖7可以看出,A組麥克風(fēng)的性能指標(biāo)越小,角度估計(jì)的方差也越小,性能指標(biāo)增大,角度估計(jì)的方差也隨之增大.結(jié)合圖5,因不同角度有不同的理想時(shí)延和估計(jì)時(shí)延,在麥克風(fēng)陣列正前方有較小的性能指標(biāo)和估計(jì)時(shí)延,符合理論依據(jù).B組和C組麥克風(fēng)陣列性能指標(biāo)與角度估計(jì)的方差之間的關(guān)系與A類似,不再贅述.
從圖7中還可以看出,A組麥克風(fēng)陣列時(shí)延誤差的平均性能指標(biāo)最高,相應(yīng)地其麥克風(fēng)陣列角度估計(jì)的方差最小,具有最好的角度估計(jì)性能.結(jié)果還表明,麥克風(fēng)陣列一致性指標(biāo)的平均值在14dB時(shí),其角度估計(jì)的性能最好,而麥克風(fēng)陣列一致性指標(biāo)的平均值在10dB時(shí),角度估計(jì)的方差明顯差于14dB的情況.據(jù)此,根據(jù)麥克風(fēng)陣列一致性指標(biāo)的平均值篩選麥克風(fēng)陣元,構(gòu)造的麥克風(fēng)陣列,具有良好的角度估計(jì)性能.
本文提出了一種新的麥克風(fēng)一致性性能參考指標(biāo),構(gòu)建了實(shí)際環(huán)境進(jìn)行數(shù)據(jù)采集,搭建了3組不同性能的麥克風(fēng)陣列,驗(yàn)證了該指標(biāo)與角度估計(jì)的聯(lián)系.為后續(xù)校正非理想指標(biāo)值的麥克風(fēng)陣列的研究提供了一種思路.實(shí)驗(yàn)結(jié)果表明,滿足一定該指標(biāo)值的麥克風(fēng)陣列具有更準(zhǔn)確更穩(wěn)定的聲源角度估計(jì)結(jié)果.因此,該指標(biāo)的提出為麥克風(fēng)陣列選型提供了指導(dǎo)意義.
[1] BENESTY J, CHEN J D, HUANG Y T. Microphone array signal processing [J].JournaloftheAcousticalSocietyofAmerica, 2009,125(6): 4096-4098.
[2] BRANDSTEIN M, WARD dr D.Microphone arrays [J].JournaloftheAcousticalSocietyofAmerica, 2002,112(3): 793.
[3] KNAPP C H, CARTER G C. The generalized correlation method for estimation of time delay [J].IEEETransAcoust,Speech,SignalProcess, 1976,24(4): 320-327.
[4] CARTER G C, NUTTALL A H, CABLE P G. The smoothed coherence transform(SCOT) [J].ProceedingsofIEEE, 1973,61(10): 1497-1498.
[5] REED F A, FEINTUCH P L, BERSHAD N J. Time delay estimation using the LMS adaptive filter-static behavior [J].IEEETransactionsonAcoustics,SpeechandSignalProcessing, 1981,29(3): 561-571.
[6] BENESTY J. Adaptive eigenvalue decomposition algorithm for passive acoustic source localization [J].JournaloftheAcousticSocietyofAmerica, 2000,107(1): 384-391.
[7] 王 利,王同慶.一種經(jīng)濟(jì)型測(cè)量傳聲器的改裝、校準(zhǔn)及應(yīng)用 [J].航空動(dòng)力學(xué)報(bào),2010,25(9): 2041-2049.
[8] 王 敏,馬曉川,鄢社鋒,等.陣列幅度/相位誤差的有源校正新方法 [J].信號(hào)處理,2015,31(11): 1389-1395.
[9] 賈永康,保 錚,吳 洹.一種陣列天線陣元位置、 幅度及相位誤差的有源校正方法 [J].電子學(xué)報(bào),1996,24(3): 47-52.
[10] 陳德莉,盧煥章,張 聰.空間非平穩(wěn)噪聲環(huán)境下陣列通道幅相誤差自校正算法 [J].信號(hào)處理,2008,24(4): 525-529.
[11] CHERRY E C. Some experiments on the recognition of speech, with one and with two ears [J].JournaloftheAcousticalSocietyofAmerica,1953,25(5): 975-979.