国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用于視頻監(jiān)控的特定聲實(shí)時定位系統(tǒng)

2010-09-17 07:53曾春燕竇維蓓
電視技術(shù) 2010年1期
關(guān)鍵詞:槍聲傳聲器聲源

張 勇,曾春燕,竇維蓓

(清華大學(xué) 電子工程系,北京 100084)

1 引言

聲音定位技術(shù)有廣闊的應(yīng)用前景,比如多媒體安全監(jiān)控[1-2]。在多媒體安全監(jiān)控系統(tǒng)中,聲音定位系統(tǒng)可以估算出聲源方向,以此控制攝像頭的方向,可以提高攝像鏡頭對異常事件的捕捉能力,對室內(nèi)外環(huán)境進(jìn)行有效監(jiān)控。

常用的聲音定位技術(shù)主要有:基于TDoA的聲音定位技術(shù)[3-5],基于高分辨力的空間譜估計(jì)的聲音定位技術(shù)[6-7],基于神經(jīng)網(wǎng)絡(luò)的定位技術(shù),基于頭相關(guān)傳遞函數(shù)的聲音定位技術(shù)[8-10]。在這些定位技術(shù)中,后3種技術(shù)的復(fù)雜度相對比較高,而基于TDoA的聲音定位技術(shù)相對來說比較簡單,適合于低成本的實(shí)時系統(tǒng),而且性能能夠滿足大多數(shù)應(yīng)用場合的要求,所以應(yīng)用得比較多。

基于TDoA的定位算法的現(xiàn)有研究中,大多在努力提高定位的精度。但是,在實(shí)際的應(yīng)用中,除了希望提高定位精度,更希望系統(tǒng)只對特定的聲音進(jìn)行定位,忽略其他類型的聲音。這可以大大提高系統(tǒng)的抗干擾能力,提高系統(tǒng)的實(shí)用性。

為此,筆者提出了一種對特定聲定位的系統(tǒng),它利用廣義互相關(guān)(GCC)方法估算聲音到達(dá)傳聲器(即麥克風(fēng))的時間差TDoA,以此確定聲源的方向;同時利用特定聲檢測技術(shù),只有檢測到特定聲時,才輸出定位結(jié)果。特定聲定位系統(tǒng)框圖如圖1所示。

圖1 基于DSP的特定聲定位系統(tǒng)

在本系統(tǒng)中,首先對傳聲器的采集信號進(jìn)行預(yù)處理,然后對聲源方向進(jìn)行定位并且檢測聲音類型,最后根據(jù)當(dāng)前幀的聲音類別決定是否輸出定位結(jié)果。

2 基于TDoA的定位

基于TDoA的聲源定位如圖2所示,S表示聲源,m1和m2分別表示2個傳聲器,聲源相對于傳聲器連接線的方向角是θ,從S傳來的聲音到達(dá)這2個傳聲器的距離差是△d,這將帶來時間差△t。而且這個時間差△t和方向角θ密切相關(guān),不同的θ對應(yīng)不同的時間差,當(dāng)方向角θ是0°或者180°的時候,時間差最大。當(dāng)θ角是90°的時候,時間差是0。

2.1 廣義互相關(guān)計(jì)算TDoA

在圖2所示的模型中,可以用式(1)表示2個傳聲器的接收信號

圖2 基于TDoA的聲源定位

式中: s(t)表示聲源信號;m1(t)和 m2(t)表示 2 個傳聲器接收的信號;n1(t)和 n2(t)表示 2 個傳聲器上獨(dú)立的噪聲,比如電噪聲;t0表示信號到達(dá)兩個傳聲器的時間延遲;α表示2個信號在幅度上的差別,假如傳聲器的距離不大,聲源到達(dá)2個傳聲器的路徑差別不是很大的時候,可以假定α=1。估算t0的簡單有效方法就是互相關(guān)。一個信號的自相關(guān)函數(shù)在0點(diǎn)達(dá)到最大值,假如把一個信號延時t0后與原信號做互相關(guān),它的峰值將會延時t0。所以在式(1)中,估算出 m1(t)和 m2(t)的互相關(guān)函數(shù)的峰值點(diǎn),就知道了它們的延時t0。

然而,考慮到噪聲 n1(t)和 n2(t)或者室內(nèi)混響的影響,這種方法的定位性能不穩(wěn)定。為了提高各種復(fù)雜環(huán)境下聲音定位的性能,人們研究出了各種廣義互相關(guān)算法。

廣義互相關(guān)先對傳聲器接收信號 m1(t),m2(t)進(jìn)行處理,然后再做相關(guān),如圖3所示。

圖3 廣義互相關(guān)算法的示意圖[11]

圖3中的H1,H2表示2個濾波器的傳遞函數(shù)。濾波后的2個信號求互相關(guān)函數(shù),最后,進(jìn)行峰值檢測,找到峰值點(diǎn),這就是 m1(t)和 m2(t)之間的相對延時。

不同的濾波器就對應(yīng)了不同的廣義互相關(guān)算法。文獻(xiàn)中,有的互相關(guān)算法是適用于噪聲環(huán)境下的定位,比如最大似然法(HT)[12],也有的算法適用于混響環(huán)境的定位,比如相位變換方法(PHAT)[11]。也有利用聲源本身的特點(diǎn)對聲源定位,比如利用人聲的基音[5]或者是線性預(yù)測誤差[13]。在混響環(huán)境中,人聲的頻譜會產(chǎn)生畸變,但是基音的頻率和線性預(yù)測誤差的時間規(guī)律不會改變,所以這些算法適合于混響環(huán)境。

在本文的系統(tǒng)中,要對室內(nèi)和室內(nèi)的特定聲方向進(jìn)行定位,分別采用PHAT和HT方法。PHAT方法的原理推導(dǎo)在文獻(xiàn)[11]中有詳細(xì)推導(dǎo),這里只給出計(jì)算公式

2.2 根據(jù)時間差確定聲源方向

根據(jù)TDoA和傳聲器排列的幾何位置定位方法主要有最大似然算法和閉式表達(dá)式法。閉式表達(dá)式法算法復(fù)雜度低,其性能在實(shí)際應(yīng)用中也能滿足要求,所以得到了廣泛的應(yīng)用。閉式表達(dá)式法主要有交叉雙曲線、球插值算法等。假定聲音是遠(yuǎn)場信號,還可以用簡單的方法得到聲源的方向角。遠(yuǎn)場信號示意圖如圖4所示。

圖4 系統(tǒng)實(shí)現(xiàn)框架圖

圖4中,L,R代表2個傳聲器,dm是2個傳聲器的距離,ds是到達(dá)距離差(TDoA乘以聲波速度)。方向角θ為

計(jì)算出每一幀的角度后,還需要對異常結(jié)果進(jìn)行處理。在筆者提出的特定聲定位系統(tǒng)中,計(jì)算出了聲源的方向角,就可以控制攝像機(jī)轉(zhuǎn)向聲源方向,對該方向的場景進(jìn)行監(jiān)控。

3 特定聲的檢測

特定聲是指在特定的應(yīng)用場合中需要特別關(guān)注的聲音。比如在安全監(jiān)控中,槍聲的出現(xiàn)意味著有異常事件的發(fā)生,所以槍聲就是特定聲。

為了檢測特定聲,對現(xiàn)場采錄的信號進(jìn)行特征提取和分析,把當(dāng)前聲音進(jìn)行分類。在本系統(tǒng)中,采用如圖5所示的二級分類樹。

在第一級分類中,以過零率作為特征,把聲音分為噪聲和非噪聲。在第二級分類中,利用子帶能量等特征把非噪聲分為槍聲和人聲。過零率和子帶能量等特征的提取過程都不復(fù)雜,適合在DSP中實(shí)現(xiàn)。

圖5 特定聲檢測用的分類樹

4 DSP實(shí)時系統(tǒng)的構(gòu)建和試驗(yàn)結(jié)果

為了驗(yàn)證特定聲定位系統(tǒng)的精度以及特定聲檢測模塊對槍聲檢測的準(zhǔn)確性,構(gòu)建了一個基于ADI公司的Blackfin 16位定點(diǎn)處理器ADSP-BF561的特定聲定位實(shí)時系統(tǒng)。

4.1 實(shí)時定位系統(tǒng)的組成

實(shí)時定位系統(tǒng)由3個子系統(tǒng)組成,如圖1所示,聲音采集放大、數(shù)據(jù)處理和輸出結(jié)果的圖形顯示等子系統(tǒng)。

在聲音采集放大子系統(tǒng)中,使用2個型號是SMM310的硅微傳聲器,它們的間距是12.75 cm。硅微傳聲器的對稱性比較好,信噪比64.5 dB,靈敏度-42 dB。由于傳聲器信號的輸出電壓范圍是微伏級,而后級的AD轉(zhuǎn)換器輸入的動態(tài)范圍是0~1 V,所以設(shè)計(jì)了一個用運(yùn)放組成的負(fù)反饋放大電路,它的放大倍數(shù)是100倍。

數(shù)據(jù)處理子系統(tǒng)中,采用ADI公司的ADSP-BF561 EZkit Lite,它有AD1836作為AD轉(zhuǎn)換器,采樣頻率可以高達(dá)96 kHz。其DSP處理器是ADI公司的Blackfin系列中的雙核16位定點(diǎn)處理器,2個獨(dú)立的DSP核,可以工作到750 MHz。系統(tǒng)中,一個核做輸出結(jié)果的圖形化顯示,另外一個核做聲音定位和特定聲檢測計(jì)算。

輸出結(jié)果的圖形化顯示是由東方迪碼公司的SSK-561完成,這是ADSP-BF561 EZkit Lite的接口擴(kuò)展板,板上的TFT顯示器是TopSun公司的TS35ND1501, 24位真彩色,分辨力是240×320。

圖6是筆者設(shè)計(jì)的定位結(jié)果輸出圖形界面,圖中半圓表示聲源定位的有效范圍,本系統(tǒng)只對傳聲器前方180°范圍的聲源定位。圓上的小球指示了當(dāng)前聲源的大致方向,下面的數(shù)字表示聲源的角度。左下方的圖標(biāo)表示當(dāng)前聲音類別是槍聲,右下方圖標(biāo)表示當(dāng)前聲音是人聲。

4.2 誤差計(jì)算方法

本測試中,為了驗(yàn)證定位系統(tǒng)的估算角度與實(shí)際角度的偏差,測量了音箱相對于傳聲器的實(shí)際角度。但是,由于直接測量音箱到傳聲器陣列的絕對角度比較困難,筆者測試的是相對角度。把傳聲器固定后,音箱先后在2個不同的方位角播放聲音,系統(tǒng)估算出2個角度,它們之間的角度差就是相對角度。最大誤差是指定位系統(tǒng)估算出聲源角度,經(jīng)過排除孤立的異常結(jié)果后,各幀結(jié)果與均值的最大差值。

4.3 室內(nèi)測試結(jié)果

在室內(nèi)測試中,混響場空間參數(shù)為:長7 m,寬4 m,高2.9 m。測試場中有很多矮隔板和電腦,混響時間約為120~180 ms。聲源是漫步者電腦音箱R1900T-Ⅲ,它在不同的方位角上不斷播放槍聲、人聲和其他聲音,調(diào)整音量,使信噪比在10 dB以上。音箱距離傳聲器陣列約4 m。表1是室內(nèi)槍聲的定位結(jié)果。特定聲檢測模塊對槍聲的檢出率是89.7%,準(zhǔn)確率是78.2%。

圖6 聲音定位系統(tǒng)的界面

表1 室內(nèi)槍聲定位的誤差均值和方差

4.4 室外測試結(jié)果

室外測試中,選擇校園內(nèi)一個交通路口旁邊一小塊空曠地作為測試場地,測試場中有汽車行駛的噪聲、大功率空調(diào)主機(jī)噪聲、輕軌和火車行駛噪聲,以及一些自然風(fēng)聲等。調(diào)整音箱的音量大小,使信噪比達(dá)到10 dB。測試方法和4.2節(jié)一樣,數(shù)據(jù)處理幀長是1 000個采樣點(diǎn)。定位結(jié)果見表2。

表2 室外槍聲的定位結(jié)果

從表2看出,在室外的聲音定位中,當(dāng)聲源偏離傳聲器正前方±30°以內(nèi),定位偏差在5°以內(nèi)。如果聲源偏離角度增大,這個偏差也會增大。特定聲檢測模塊對槍聲的檢出率是90%,好于室內(nèi)測試結(jié)果,而準(zhǔn)確率是75%,略差于室內(nèi)的測試結(jié)果。這是因?yàn)槭彝飧蓴_聲比較大,有時候會有很多干擾聲被識別成槍聲。

5 小結(jié)

筆者提出的結(jié)合基于TDoA的聲音定位和特定聲檢測的特定聲方向定位系統(tǒng)可以實(shí)時地進(jìn)行特定聲的檢測和定位,它的抗干擾能力也較強(qiáng)。當(dāng)它的輸出設(shè)備是TFT顯示器的時候,可以直觀顯示聲源的方向;如果用本定位系統(tǒng)的輸出角度控制攝像機(jī)云臺,攝像機(jī)就能夠及時轉(zhuǎn)向并跟蹤特定聲聲源方向,有效提高視頻監(jiān)控的有效性。在沒有檢測到特定聲的時候,如果該系統(tǒng)關(guān)閉攝像機(jī),就可以在很大程度上降低視頻監(jiān)控系統(tǒng)的能耗。

[1]YITENG H,BENESTY J,ELKO G W.Passive acoustic source localization for video camera steering[C]//Proc.2002 IEEE International Conference on Acoustics, Speech, and Signal.[S.l.]:IEEE Press,2000:909-912.

[2]CLAVEL C,EHRETTE T,RICHARD G.Events detection for an audio-based surveillance system [C]//IEEE Conference on Multimedia and Expo 2005.[S.l.]:IEEE Press,2005:1308-1309.

[3]CHAN Y, RILEY J, PLANT J.A parameter estimation approach to time-delay estimation and signal detection[J].IEEE Transactions on Acoustics, Speech, and Signal Processing, 1980, 28(1):8-16.

[4]STEPHENNE A,CHAMPAGNE B.Cepstral prefiltering for time delay estimation in reverberant environments[EB/OL].[2009-06-02].http://eprints.kfupm.edu.sa/29439.

[5]BRANDSTEIN,M S.A pitch-based approach to time-delay estimation of reverberant speech[EB/OL].[2009-06-02].http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=625637.

[6]ARGENTRERI S,DANES P.Broadband variations of the MUSIC highresolution method for sound source localization in robotics[EB/OL].[2009-06-02].http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=4399422.

[7]LEON D F A,MARCIANO J J S.Source localization using music in a multipath environment[EB/OL].[2009-06-02].http://d.wanfangdata.com.cn/NSTLHY_NSTL_HY14773667.aspx.

[8]KEYROUZ F,MAIER W,DIEPOLD K.A novel humanoid binaural 3D sound localization and separation algorithm[EB/OL].[2009-06-02].http://d.wanfangdata.com.cn/NSTLHY_NSTL_HY17814078.aspx.

[9]ROMAN N,DELIANG W,BROWN G J.Speech segregation based on sound localization[EB/OL].[2009-06-02].http://www.cse.ohio-state.edu/~dwang/papers/RWB.jasa03.pdf.

[10]FAKHEREDINE K,KLAUS D.An enhanced binaural 3D sound localization algorithm[EB/OL].[2009-06-02].http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=4042325.

[11]KNAPP C,CARTER G.The generalized correlation method for estimation of time delay[J].IEEE Trans.Signal Acoustics, Speech, and Signal Processing, 1976,24(4):320-327.

[12]VALENZISE G,GEROSA L,TAQLIASACCHI M,et al.Scream and gunshot detection and localization for audio-surveillance systems[EB/OL].[2009-06-02].http://www.citeulike.org/user/tiboeret/article/5095282.

[13]CHENG E, BURNETT I, RITZ C.Using spatial audio cues from speech excitation for meeting speech segmentation[EB/OL].[2009-06-02].http://ieeexplore.ieee.org/iel5/4128765/4129618/04129778.pdf?arnumber=4129778.

猜你喜歡
槍聲傳聲器聲源
水禽耳邊有槍聲
虛擬聲源定位的等效源近場聲全息算法
表面?zhèn)髀暺餍?zhǔn)技術(shù)研究
紅六軍團(tuán)的正義槍聲
基于GCC-nearest時延估計(jì)的室內(nèi)聲源定位
運(yùn)用內(nèi)積相關(guān)性結(jié)合迭代相減識別兩點(diǎn)聲源
力-聲互易在水下聲源強(qiáng)度測量中的應(yīng)用
傳聲器拾音技術(shù)
傳聲器淺析——技術(shù)、類型、應(yīng)用及型號(二)
傳聲器淺析——技術(shù)、類型、應(yīng)用及型號(一)