陳炳文 ,王文偉 ,秦前清
(1.武漢大學(xué) 電子信息學(xué)院,湖北 武漢 430079;2.武漢大學(xué) 測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430079)
視頻監(jiān)控是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)研究對(duì)象之一。它采用圖像處理、模式識(shí)別和計(jì)算機(jī)視覺(jué)等技術(shù),抽取并分析視頻源中的關(guān)鍵信息,及時(shí)發(fā)現(xiàn)并處理監(jiān)控場(chǎng)景下的異常情況。視頻監(jiān)控系統(tǒng)在民用和軍事領(lǐng)域中都有極大的應(yīng)用前景。
由于單攝像機(jī)的視野域有限,因此在實(shí)際的目標(biāo)跟蹤系統(tǒng)中,更多采用多攝像機(jī)系統(tǒng)。多攝像機(jī)的使用有利于解決遮擋、場(chǎng)景混亂、環(huán)境光照突變情況下的運(yùn)動(dòng)目標(biāo)跟蹤等問(wèn)題,但它同時(shí)也帶來(lái)了一些新難題,包括多攝像機(jī)之間的目標(biāo)匹配、攝像機(jī)協(xié)作、攝像機(jī)之間的自動(dòng)切換和數(shù)據(jù)融合等。
在集中式系統(tǒng)結(jié)構(gòu)[1]中,各個(gè)攝像機(jī)采集的視頻數(shù)據(jù)直接被送到融合中心,在那里進(jìn)行數(shù)據(jù)對(duì)準(zhǔn)、數(shù)據(jù)相關(guān)、航跡記錄、預(yù)測(cè)與綜合跟蹤等,而相機(jī)無(wú)自主處理能力。這種結(jié)構(gòu)的特點(diǎn)是信息損失小、精度高,但其對(duì)系統(tǒng)通信要求較高,融合中心計(jì)算負(fù)荷重,系統(tǒng)效率低,實(shí)時(shí)性差。因此該結(jié)構(gòu)的實(shí)用性差,生存能力低。
基于攝像機(jī)的系統(tǒng)構(gòu)架[2-4]主要分為傳感器處理單元SPU(Sensor Processing Unit)、中央處理單元 CPU(Central Processing Unit)和用戶接口GUI(Graphics User Interface)三部分。系統(tǒng)構(gòu)架如圖1所示。
圖1 基于攝像機(jī)的系統(tǒng)構(gòu)架
(1)傳感器處理單元。由單個(gè)攝像機(jī)和處理機(jī)組成,攝像機(jī)可以是紅外的或全方位的攝像機(jī)。該模塊有自主處理能力,能夠自動(dòng)獲取視頻數(shù)據(jù),并進(jìn)行單攝像機(jī)內(nèi)目標(biāo)的檢測(cè)、分類、跟蹤等。然后把檢測(cè)結(jié)果數(shù)據(jù),如目標(biāo)類型、位置、速度、時(shí)間戳、攝像機(jī)參數(shù)(位移、旋轉(zhuǎn)、放大倍數(shù)等)等傳遞給CPU。
(2)中央處理單元。主要完成SPU間的信息融合,建立SPU間的通信,并進(jìn)行相關(guān)信息的數(shù)據(jù)庫(kù)操作。攝像機(jī)的分配調(diào)度是CPU的關(guān)鍵功能,根據(jù)任務(wù)的優(yōu)先級(jí)、SPU的負(fù)擔(dān)、攝像機(jī)的可視度因素進(jìn)行分配。
(3)用戶接口。用戶通過(guò)GUI可以獲取目標(biāo)在三維場(chǎng)景和目前地圖中的信息,也可以對(duì)檢測(cè)跟蹤過(guò)程進(jìn)行一定的約束,如通過(guò)設(shè)置感興趣區(qū)域(ROI)對(duì)特定的區(qū)域進(jìn)行嚴(yán)密監(jiān)控。
[5]提出了一種面向?qū)ο蟮亩鄶z像機(jī)結(jié)構(gòu)。系統(tǒng)主要分為檢測(cè)代理SDA(Specialized Detection Agency)、處理組單元 PRC(Processing Cluster)、群組管理單元CM(Cluster Manager)和用戶接口GUI等。系統(tǒng)構(gòu)架如圖2所示。
圖2 面向?qū)ο蟮南到y(tǒng)構(gòu)架
(1)檢測(cè)代理。該模塊與基于攝像機(jī)結(jié)構(gòu)的傳感器處理單元一樣,也是完成單攝像機(jī)下的處理工作,但是增加了與PRC間的接口。
(2)處理組單元。系統(tǒng)為每個(gè)跟蹤目標(biāo)分配一個(gè)處理組單元。每個(gè)PRC根據(jù)指定目標(biāo)對(duì)象的情況動(dòng)態(tài)控制多個(gè)SDA。動(dòng)態(tài)攝像機(jī)管理單元(DSM)根據(jù)目標(biāo)、SDA的參數(shù)和所估計(jì)的觀測(cè)質(zhì)量動(dòng)態(tài)挑選SDA。全部PRC組成SDA和CM間的動(dòng)態(tài)層,是最復(fù)雜的處理單元層。PRC的內(nèi)部結(jié)構(gòu)如圖3所示。
圖3 處理組單元的內(nèi)部結(jié)構(gòu)
(3)群組管理單元。負(fù)責(zé)管理動(dòng)態(tài)層的PRC,為每個(gè)目標(biāo)分配最優(yōu)的PRC。用戶可通過(guò)CM設(shè)置PRC的參數(shù)。
(4)用戶接口。該模塊的功能與基于攝像機(jī)結(jié)構(gòu)的GUI一樣,不再重復(fù)。
基于攝像機(jī)的結(jié)構(gòu)與集中式結(jié)構(gòu)的區(qū)別在于:前者的每個(gè)攝像機(jī)單元有自主處理能力,送往融合中心的數(shù)據(jù)是經(jīng)過(guò)加工的精煉數(shù)據(jù)。相對(duì)于集中式系統(tǒng),此類系統(tǒng)的可靠性高,可以減小通信量,減小帶寬需求,有利于大范圍的目標(biāo)跟蹤作業(yè)。面向?qū)ο蟮南到y(tǒng)構(gòu)架與基于攝像機(jī)的構(gòu)架的不同之處在于它為每個(gè)目標(biāo)對(duì)象單獨(dú)設(shè)置一個(gè)處理單元,將多目標(biāo)處理化為多個(gè)單目標(biāo)處理,可擴(kuò)展性強(qiáng),通信量也較小。集中式的系統(tǒng)構(gòu)架因其效率低、實(shí)時(shí)性差、生存能力低,實(shí)時(shí)跟蹤系統(tǒng)一般不予采用。目前多攝像機(jī)目標(biāo)跟蹤系統(tǒng)架構(gòu)應(yīng)用較多的是分布式結(jié)構(gòu)。
視頻運(yùn)動(dòng)目標(biāo)檢測(cè)就是從視頻序列中檢測(cè)出運(yùn)動(dòng)區(qū)域,并對(duì)運(yùn)動(dòng)區(qū)域進(jìn)行分類,找到感興趣目標(biāo),如人、車等。
2.1.1 研究現(xiàn)狀
目前提出的運(yùn)動(dòng)檢測(cè)算法比較多,根據(jù)不同的用途和不同的環(huán)境,每種算法都有其優(yōu)缺點(diǎn)。參考國(guó)內(nèi)外文獻(xiàn),本文將檢測(cè)算法分為四大類。
(1)基于運(yùn)動(dòng)場(chǎng)的檢測(cè)。其基本思想是:用光流矢量場(chǎng)[6-7]估計(jì)出每幀的運(yùn)動(dòng)場(chǎng),然后根據(jù)每點(diǎn)的運(yùn)動(dòng)矢量分割出運(yùn)動(dòng)區(qū)域。該類方法可得到較好的目標(biāo)邊緣,局部性能好。但該方法要求目標(biāo)的幀間運(yùn)動(dòng)量不能太大,需要很高的采樣率,而實(shí)際的采集系統(tǒng)并不能滿足此要求,且該算法復(fù)雜,計(jì)算量大,很難滿足實(shí)時(shí)性要求。
(2)基于變化的檢測(cè)。其基本思想是:對(duì)視頻幀差圖像進(jìn)行檢測(cè),幀差可以是相鄰幀的幀差或幾幀間的幀差。該方法具有較強(qiáng)的場(chǎng)景變化適應(yīng)能力,抗光照變化和抗噪聲能力強(qiáng),但容易產(chǎn)生空洞現(xiàn)象,目標(biāo)不完整。VSAM項(xiàng)目提出了一種自適應(yīng)背景減除與三幀差分相結(jié)合的混合算法,能解決空洞現(xiàn)象。
(3)基于概率的檢測(cè)。其基本思想是:為像素建立概率模型,并可根據(jù)場(chǎng)景設(shè)定概率模型的類型和數(shù)目,從概率論的角度進(jìn)行檢測(cè)。該方法的理論基礎(chǔ)扎實(shí),可以加入先驗(yàn)知識(shí),檢測(cè)效果好?;旌细咚狗?、非參數(shù)法、隱馬爾科夫模型法等是其典型代表。
(4)基于模板的檢測(cè)。其基本思想是:預(yù)先建立對(duì)象模板,采用模板匹配的思想實(shí)現(xiàn)目標(biāo)檢測(cè)。該類方法由于加入了對(duì)象的先驗(yàn)知識(shí),對(duì)于復(fù)雜的對(duì)象檢測(cè)效果更好。對(duì)象模板可以通過(guò)學(xué)習(xí)的方法建立,也可以由人機(jī)交互產(chǎn)生。該類方法需預(yù)先對(duì)目標(biāo)進(jìn)行建模,對(duì)象模板的優(yōu)劣會(huì)直接影響到檢測(cè)結(jié)果,所以該類算法一般適用于特定對(duì)象的檢測(cè)。
2.1.2 存在的問(wèn)題及發(fā)展趨勢(shì)
視頻檢測(cè)的困難性體現(xiàn)在以下方面:抗光照變化(快或慢)、抗抖動(dòng)、抗背景擾動(dòng)(樹木擺動(dòng)、背景物體消失或出現(xiàn))、抗陰影、抗顏色相似等。雖然人們研究了各種各樣的檢測(cè)方法來(lái)解決這些問(wèn)題,并在某個(gè)方面取得了一定的效果,但目前還沒(méi)有一種通用的算法。
有人結(jié)合了概率模型和預(yù)測(cè)器如卡爾曼濾波器[12]來(lái)檢測(cè)目標(biāo);有的人融合了時(shí)域、空域(特別是梯度域),如封春升提出時(shí)域和梯度域相結(jié)合的視頻對(duì)象提取算法[10],該方法結(jié)合了背景差分法、幀差分法和梯度域。
視頻檢測(cè)的研究重點(diǎn)仍是以下幾個(gè)方面:優(yōu)良(如自適應(yīng))的模型或模板、高效的算法、較好的預(yù)處理和后處理等。就檢測(cè)的發(fā)展來(lái)看,研究較多的還是變化檢測(cè)法和概率模型法,一些預(yù)測(cè)技術(shù)、時(shí)空融合技術(shù)的結(jié)合也是研究熱點(diǎn)。
目標(biāo)跟蹤就是對(duì)檢測(cè)出來(lái)的感興趣目標(biāo)進(jìn)行持續(xù)的尾隨觀測(cè),獲得目標(biāo)的狀態(tài)參數(shù)如位置和速度等,以便進(jìn)行下一步的處理分析,如行為分析等。
2.2.1 研究現(xiàn)狀
從20世紀(jì)80年代到現(xiàn)在,出現(xiàn)了眾多的跟蹤算法,文獻(xiàn)[11]將視頻跟蹤算法分為四類,分別是基于區(qū)域的跟蹤、基于特征點(diǎn)的跟蹤、基于變形模板的跟蹤和基于模型的跟蹤。本文考慮多攝像機(jī)的條件,參考相關(guān)文獻(xiàn)將實(shí)用的跟蹤算法主要分為兩種:基于特征的跟蹤和基于模型的跟蹤。
(1)基于特征的跟蹤。其基本思想是:提取目標(biāo)的特征,使用匹配算法、代價(jià)準(zhǔn)則進(jìn)行匹配跟蹤。針對(duì)多相機(jī)條件下,同一目標(biāo)在不同視野內(nèi)的觀測(cè)值相差較大,故提取的特征應(yīng)與視點(diǎn)無(wú)關(guān)。如VSAM項(xiàng)目組采用物體的3D軌跡、歸一化色度直方圖作為特征。
該類方法由于采用不變量性質(zhì)的特征,故可以將特征信息傳遞給后續(xù)相機(jī)以實(shí)現(xiàn)持續(xù)跟蹤,而不用考慮攝像機(jī)間的視野交叉與否,因此更符合實(shí)際情況。該類方法的核心是特征的提取,而大部分工作是單視野內(nèi)的目標(biāo)跟蹤,故可以在單視野內(nèi)使用其他更有效的算法(如區(qū)域相關(guān)法、Snake模板法等)來(lái)提高精度。
(2)基于模型的跟蹤。其基本思想是:利用多相機(jī)的交叉視野建立3D模型(汽車、人)來(lái)進(jìn)行跟蹤。文獻(xiàn)[12]結(jié)合多源數(shù)據(jù)進(jìn)行3D定位,并利用3D卡爾曼濾波器進(jìn)行預(yù)測(cè)跟蹤。該方法先利用先驗(yàn)知識(shí)建立目標(biāo)的結(jié)構(gòu)模型,再根據(jù)實(shí)際觀測(cè)值得到模型參數(shù)值。
該類方法可得到精確的3D軌跡,跟蹤可靠性高,但其模型的建立較難,特別是像人這樣的非剛性物體,且因在3D空間上進(jìn)行跟蹤,運(yùn)算量也較大。
2.2.2 存在的問(wèn)題及發(fā)展趨勢(shì)
上述的兩類方法都或多或少存在缺點(diǎn)。顯然,特征的有效提取是基于特征方法的一大難點(diǎn),且該類方法在單視野內(nèi)有時(shí)還要解決遮擋問(wèn)題。相對(duì)而言,基于模型的方法一般無(wú)遮擋問(wèn)題,但很難建立一個(gè)通用的模板(如變形模板)。另外如何定義匹配的量度來(lái)使跟蹤更精確又是一大難題。
無(wú)論哪種方法,魯棒性、準(zhǔn)確性、快速性都是當(dāng)前跟蹤技術(shù)的努力方向[11]。融合兩類方法,在建立模型的基礎(chǔ)上提取其不變量是跟蹤算法的發(fā)展趨勢(shì)。
數(shù)據(jù)融合就是根據(jù)給定的融合算法對(duì)各個(gè)相機(jī)給出的信息完成數(shù)據(jù)配準(zhǔn),做出決策并進(jìn)行狀態(tài)更新。數(shù)據(jù)融合可分成三個(gè)部分:數(shù)據(jù)配準(zhǔn)、數(shù)據(jù)關(guān)聯(lián)和決策處理。數(shù)據(jù)配準(zhǔn)就是將不同時(shí)間、不同視角、不同設(shè)備獲得的數(shù)據(jù)變換到同一個(gè)參考框架中,使之具有可比性。大多數(shù)的數(shù)據(jù)配準(zhǔn)方法都由四個(gè)步驟組成:特征點(diǎn)的提取、特征匹配、變換模型估計(jì)和數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)關(guān)聯(lián)就是將配準(zhǔn)后的信息和目標(biāo)建立對(duì)應(yīng)關(guān)系。決策處理就是針對(duì)每個(gè)目標(biāo)的信息更新狀態(tài),調(diào)整調(diào)度策略,并給出下一階段的預(yù)測(cè)信息。
2.3.1 研究現(xiàn)狀
由于目標(biāo)跟蹤中處理的數(shù)據(jù)一般是圖像,參考文獻(xiàn)[1],本文把數(shù)據(jù)融合分為3類:像素級(jí)融合、特征級(jí)融合和決策級(jí)融合。
(1)像素級(jí)融合。該方法融合各個(gè)相機(jī)的信息,再?gòu)闹刑崛√卣鬟M(jìn)行判斷識(shí)別,屬于較低層的數(shù)據(jù)處理。該方法的優(yōu)點(diǎn)是信息量損失最小,決策可信度高,但該方法計(jì)算復(fù)雜度高,抗干擾性差,不靈活。文獻(xiàn)[15]結(jié)合多源數(shù)據(jù)進(jìn)行3D定位、預(yù)測(cè)處理的方法就是屬于該類方法。
(2)特征級(jí)融合。該類方法是由每個(gè)相機(jī)自己抽取特征信息,融合中心再進(jìn)行特征分析處理。該方法的數(shù)據(jù)量有了一定的壓縮,有利于實(shí)時(shí)處理,其性能處于像素級(jí)和決策級(jí)之間。
(3)決策級(jí)融合。該類方法先由各相機(jī)自主做出決策,然后在融合中心完成決策的融合。該類方法的抗干擾性強(qiáng),靈活性好,但信息損失量最大、精度最低,一般不宜采用。
2.3.2 存在的問(wèn)題及發(fā)展趨勢(shì)
上述三類方法各有優(yōu)缺點(diǎn),像素級(jí)融合要解決數(shù)據(jù)的標(biāo)定問(wèn)題,特征級(jí)融合要解決特征的有效提取,而決策級(jí)融合要提高精度就要提高各個(gè)相機(jī)決策的可信度。目前用的最多的是特征級(jí)融合和像素級(jí)融合,而決策級(jí)融合因信息損失太大而很少被采用。
本文詳細(xì)介紹了基于多攝像機(jī)的目標(biāo)跟蹤系統(tǒng),對(duì)國(guó)內(nèi)外的研究現(xiàn)狀進(jìn)行了總結(jié)。描述了多攝像機(jī)目標(biāo)跟蹤系統(tǒng)的系統(tǒng)構(gòu)架并進(jìn)行了對(duì)比;詳細(xì)闡述了各模塊的功能,分別就算法研究現(xiàn)狀、存在的問(wèn)題及發(fā)展趨勢(shì)進(jìn)行了分析和總結(jié)。
隨著硬件技術(shù)的逐漸成熟,多攝像機(jī)目標(biāo)跟蹤將是監(jiān)控業(yè)未來(lái)的重要技術(shù)應(yīng)用,不同的研究方向也有相應(yīng)的研究重點(diǎn):(1)研究多源數(shù)據(jù)融合。采用光學(xué)傳感器、紅外傳感器等同時(shí)進(jìn)行數(shù)據(jù)的采集,或使用多分辨率的數(shù)據(jù)進(jìn)行跟蹤。這有助于擴(kuò)展時(shí)空的覆蓋范圍,提高系統(tǒng)的魯棒性。(2)研究客觀的評(píng)價(jià)標(biāo)準(zhǔn)。系統(tǒng)的性能好壞需要用通用的標(biāo)準(zhǔn)進(jìn)行評(píng)定,就目前而言,較多的還是使用主觀的評(píng)價(jià)標(biāo)準(zhǔn),客觀的評(píng)價(jià)標(biāo)準(zhǔn)還有待研究。
參考文獻(xiàn)
[1]韓崇昭,朱洪艷,段戰(zhàn)勝,等.多源信息融合[M].北京:清華大學(xué)出版社,2006.
[2]ELLIS T.Multi-cameravideosurveillance[C].Secaritg Technology,2002.Proceedings.36th Annual 2002 International Carnahan Conterence on 2002:228-233.
[3]Nakazawa atsushi, Kato hirokazu, Hiura shinsaku, et al.Tracking multiple people using distributed vision systems[C].IEEE international conference on robotics and automation.Washington.DC, IEEE,2002:2974-2981.
[4]CHANG TH,GONG S.Tracking multiple people with a multi-camera system[C].IEEE Workshop on Multi-Object Tracking,2001:19-26.
[5]MONARI E, VOTH S, KROSCHEL K.An object-and task-oriented architecture for automated video surveillance[C].AVSS’08.IEEE Fifth InternationalConcerence on 2008:339-346.
[6]LUCAS B D,KANADE T.An iterative image-registration technique with an application to stereo vision[C].Proceedings of the International Joint Conference on Artificial Intelligence.Vancouver, BC, Canada:William Kaufmann,1981,674-679.
[7]Horn Berthold K P,Schunck Brain G.Determining optical flow[J].Artificial Intelligence, 1981,17(123):185-203.
[8]錢淵,張曉燕,夏靖波.視頻對(duì)象分割技術(shù)綜述[J].探測(cè)與控制學(xué)報(bào),2008,30(2):64-67.
[9]WREN C, AZABAYEJANI A, DARREL T, et a1.Pfinder:Real-time tracking of the human body[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997,19(7):780-785.
[10]封春升,郝愛(ài)民,何兵,等.一種時(shí)域和梯度域相結(jié)合的視頻對(duì)象提取算法[J].中國(guó)圖象圖形學(xué)報(bào),2008,13(3):494-498.
[11]侯志強(qiáng),韓崇昭.視覺(jué)跟蹤技術(shù)綜述[J].自動(dòng)化學(xué)報(bào),2006,32(4):603-616.
[12]JIN H,QIAN G, RAJKO S.Real-time multi-view 3D object tracking in cluttered scenes[M].Springer Berlin/Heidelberg,2006:647-656.