黃 雯,李立鵬,藍(lán)少敏,俞兆輝
(天津商業(yè)大學(xué) 天津300134)
聽覺是機(jī)器人智能化的重要指標(biāo)之一,是信息傳輸、人機(jī)交互的關(guān)鍵技術(shù)。在一些復(fù)雜特定空間內(nèi),人們可以依托機(jī)器人平臺(tái)實(shí)現(xiàn)聲音的定位,完成下一步任務(wù)。當(dāng)前聲音探測(cè)技術(shù)主要采用聲音傳感設(shè)備融合聲學(xué)基本原理,采集聲音傳播信息,進(jìn)而實(shí)現(xiàn)定位以及追蹤聲源目標(biāo)?;邴溈孙L(fēng)陣列的聲源定位研究作為語音信號(hào)處理技術(shù)的研究熱點(diǎn),在強(qiáng)噪聲復(fù)雜空間聲源定位、語音識(shí)別前端信息采集等研究方向有著較好的應(yīng)用前景與意義。
該定位裝置以正四面體麥克風(fēng)陣列作為聲信號(hào)采集器,實(shí)現(xiàn)了四元立體模型構(gòu)建,通過 NI USB-9215A四路同步數(shù)據(jù)采集卡實(shí)現(xiàn)聲音信號(hào)采樣,在LabVIEW 平臺(tái)應(yīng)用 NI-DAQ實(shí)現(xiàn)了數(shù)據(jù)采集、測(cè)試以及測(cè)量,經(jīng)過廣義互相關(guān)算法確定了四路聲源的時(shí)延,通過構(gòu)建的三維四元數(shù)學(xué)模型可以確定聲源信息的俯仰角、水平角等位置參數(shù),進(jìn)而實(shí)現(xiàn)了定位精準(zhǔn)、性能可靠的聲源定位系統(tǒng),較好地完成了機(jī)器人聲源定位需求,保證了機(jī)器人適應(yīng)環(huán)境、人機(jī)交互的需要。
系統(tǒng)總體結(jié)構(gòu)如圖1:
圖1 系統(tǒng)總體結(jié)構(gòu)Fig.1 Overall structure of system
為實(shí)現(xiàn)立體空間聲源目標(biāo)準(zhǔn)確定位,獨(dú)立的時(shí)延值要保證在 3個(gè)以上,根據(jù)技術(shù)需求和實(shí)際需要,本裝置將4個(gè)全向麥克風(fēng)排列為正四面體陣列,實(shí)現(xiàn)三維四元模型架構(gòu),如圖 2所示。為構(gòu)建空間模型,將陣列的幾何中心設(shè)為原點(diǎn)。
圖2 正四面體麥克風(fēng)陣列模型Fig.2 Tetrahedral microphone array model
空間模型原點(diǎn)O位于邊長(zhǎng)為 a的正四面體麥克風(fēng)陣列形成的外接球圓心,4個(gè)全向型麥克風(fēng)在立體模型的方位用m0、m1、m2和m3表示。其中m0處于 z軸的正向,其余 3個(gè)都是在o點(diǎn)下側(cè),通過投影m1落在xoy平面上x的正半軸,連接m2與m3正好同y軸平行。因此可以確定4個(gè)麥克風(fēng)的立體坐標(biāo)為:
將聲源設(shè)定為 s,將其投影至 xoy平面上為s′,那么os′同 x正半軸的夾角φ即為聲源的水平夾角,os和os′的夾角θ為俯仰角,發(fā)聲位置 s與原點(diǎn) o距離為r。已知正四面體的邊長(zhǎng)為a,發(fā)聲位置s到4個(gè)麥克風(fēng)的聲音路程分別為d0、d1、d2和d3,發(fā)聲位置s到m1、m2和m3與到m0的聲程差分別為d10、d20、d30。已知聲速c,則 di0=c·τi0,(i=1,2,3)。式中,τi0系聲達(dá)時(shí)間差,即聲信號(hào)到mi和m0的時(shí)間差。
設(shè)聲源 s坐標(biāo)為(x,y,z),通過幾何關(guān)系構(gòu)建數(shù)學(xué)定位模型,具體可列出下式:
在一般應(yīng)用當(dāng)中,默認(rèn)聲源為遠(yuǎn)場(chǎng)聲信號(hào),在忽略陣列位置變化的情況,認(rèn)可2d0數(shù)值大大超過d10、d20和d30。
故簡(jiǎn)化(12)和(13),確定遠(yuǎn)場(chǎng)幾何定向模型:
1.3.1 時(shí)延獲取的原理
系統(tǒng)選用基于聲達(dá)時(shí)間差(TDOA)原理。首先得到時(shí)延值,接著確定聲源方位,即先求出聲源傳到陣列不同位置傳聲器的時(shí)間差,進(jìn)而得到聲源到達(dá)不同位置麥克風(fēng)的距離差,最終利用空間幾何模型表示出聲源方位。過程中通過兩步走的方式實(shí)現(xiàn)了定位。
首先需要進(jìn)行時(shí)延估計(jì),明確陣列各麥克風(fēng)對(duì)的聲達(dá)時(shí)間差,正四面體麥克風(fēng)陣列中的傳感器采集到聲音模擬信號(hào),經(jīng) AD轉(zhuǎn)換之后形成數(shù)字信號(hào),進(jìn)而通過數(shù)學(xué)計(jì)算確定聲源信號(hào)到達(dá)不同麥克風(fēng)的相對(duì)時(shí)延;接著,通過得出的時(shí)延估計(jì)值,利用空間幾何模型得出聲源的方位。
綜合聲源定位領(lǐng)域大量仿真研究,盡管時(shí)延估計(jì)算法很多,但廣義互相關(guān)(Generalized Cross Correlation,GCC)算法速度更快、實(shí)時(shí)性更強(qiáng)、計(jì)算量更小。其工作原理是:首先確定 2個(gè)信號(hào)間x1(w)和x2(w)的互功率譜函數(shù),接著在頻域內(nèi)通過不同的加權(quán)運(yùn)算,最后將頻域的函數(shù)反變換到時(shí)域,最終得到2組信號(hào)的互相關(guān)函數(shù)。互相關(guān)函數(shù)的峰值所對(duì)應(yīng)的時(shí)間就是2組信號(hào)間的時(shí)延值。具體流程如圖3所示。
所謂相關(guān)表征是指 2個(gè)信號(hào)在時(shí)域內(nèi)的相似程度。假設(shè)2個(gè)傳感器獲取聲信號(hào)模型為:
式中:S(n)表示聲源的信號(hào),n1(n)、n2(n)表示高斯白噪聲,這3種信號(hào)彼此互不相關(guān);τ1和τ2表示信號(hào)從聲源傳播到2個(gè)不同麥克風(fēng)的時(shí)間,2個(gè)不同麥克風(fēng)彼此的時(shí)延值便是τ12=τ1-τ2。
圖3 廣義互相關(guān)時(shí)延估計(jì)流程Fig.3 Generalized cross correlation delay estimation process
故X1(n)和X2(n)的相關(guān)函數(shù)R12(τ)為:
將式(18)、(19)代入(20):
根據(jù)自相關(guān)函數(shù)的性質(zhì),當(dāng)τ-(τ1-τ2) =0時(shí),R12(*)為最大值,因此求得R12(τ)最大值對(duì)應(yīng)的時(shí)間τ即為所求時(shí)延值τ12。
1.3.2 時(shí)延獲取的實(shí)現(xiàn)
LabVIEW 互相關(guān)法模塊有著運(yùn)算量低、硬件需求小的特點(diǎn),麥克風(fēng)陣列中傳感器彼此間距不大使得互相關(guān)算法速度更快、更加便捷,實(shí)時(shí)性更強(qiáng)。本裝置利用一維互相關(guān)模塊,如圖 4所示,該模塊中有 X和Y兩端輸入,輸出互相關(guān)函數(shù)便是Rxy。
圖4 一維互相關(guān)圖Fig.4 One dimensional cross correlation graph
通過3組互相關(guān)模塊便能獲得M0麥克風(fēng)與M1、M2和M3其他 3路麥克風(fēng)的互相關(guān)函數(shù)(R10、R20、R30)。通過確定 3組互相關(guān)函數(shù)峰值對(duì)應(yīng)的時(shí)間便可以確定τ10、τ20和τ30。程序框圖如圖5所示。
圖5 時(shí)延模塊程序Fig.5 Program diagram of delay module
確定了時(shí)延估計(jì)值后,利用空間幾何模型即可確定聲源的方位角。
結(jié)合上文式(16)和(17)進(jìn)行程序編程即可得到聲源信號(hào)的水平角與俯仰角。函數(shù)arctg僅可以表示90°~+90°角度,但是實(shí)際水平角要覆蓋 180°~+180°角度,所以在編程中先通過時(shí)延值確定水平角象限,如果在第二象限就加上 180°,如果是第三象限就減去 180°,如果是第一、四象限便等于測(cè)量值(圖6)。最終在上位機(jī)前面板上顯示方位角。
圖6 定位計(jì)算模塊Fig.6 Positioning calculation module
在 LabVIEW 平臺(tái)上編程設(shè)計(jì)了數(shù)據(jù)采集、獲取時(shí)延以及定位計(jì)算等模塊,如圖 7所示,進(jìn)一步完善前面板,最終可以展示 3路互相關(guān)函數(shù)、4路信號(hào)波形以及聲源信息的水平角、方位角。
圖7 系統(tǒng)總程序框圖Fig.7 General program block diagram of system
聲源定位是機(jī)器人的關(guān)鍵技術(shù),立足當(dāng)前移動(dòng)機(jī)器人發(fā)展實(shí)際,本文設(shè)計(jì)開發(fā)了一種基于正四面體結(jié)構(gòu)的聲源定位系統(tǒng)裝置,該裝置利用4個(gè)麥克風(fēng)傳感器形成正四面體陣列,架構(gòu)了立體空間模型。完成4路數(shù)據(jù)同步采樣之后,在 LabVIEW 平臺(tái)上獲得互相關(guān)函數(shù)進(jìn)而確定時(shí)延值,最終根據(jù)既定算法確定聲源方位角。在大量實(shí)驗(yàn)之后,通過數(shù)據(jù)分析比較,系統(tǒng)基本可行,接下來需要在多聲源、強(qiáng)噪聲混響等環(huán)境下作進(jìn)一步改進(jìn)和研究。