陳 曦,殷華博
(1.石家莊鐵路運輸學(xué)校,河北石家莊050081;2.河北遠東哈里斯通信有限公司,河北石家莊050081)
計算機視覺是人工智能的一個重要分支,其研究目的就是用計算機代替人對環(huán)境和景物進行感知、解釋和理解。計算機視覺的研究融合了圖像處理、模式識別、人工智能和自動控制等多方面的知識。
基于視覺的目標(biāo)跟蹤技術(shù)在許多方面都有著廣泛的應(yīng)用。因此研究基于視覺的運動目標(biāo)的檢測和跟蹤具有很重要的現(xiàn)實意義和應(yīng)用價值。
視覺分析一般步驟包括視覺檢測(Visual Detection)、視覺跟蹤(Visual Tracking)和視覺理解(Visual Understanding)[1]。
運動目標(biāo)的跟蹤,即通過目標(biāo)的有效表達,在圖像序列中尋找與目標(biāo)模板最相似候選目標(biāo)區(qū)位置的過程。簡單來說就是在序列圖像中為目標(biāo)定位。
除了對運動目標(biāo)建模外,目標(biāo)跟蹤中常用到的目標(biāo)特性表達主要包括視覺特征(圖像邊緣、輪廓、形狀、紋理、區(qū)域)、統(tǒng)計特征(直方圖、各種矩特征)、變換系數(shù)特征(傅里葉描繪子、自回歸模型)和代數(shù)特征(圖像矩陣的奇異值分解)等[2]。除了使用單一特征外,也可通過融合多個特征來提高跟蹤的可靠性。
對運動目標(biāo)進行特性提取之后,需要采用一定的相似性度量算法與幀圖像進行匹配,從而實現(xiàn)目標(biāo)跟蹤。圖像處理與分析理論中,常見的相似性度量方法有歐氏距離、街區(qū)距離、棋盤距離、加權(quán)距離、巴特查理亞系數(shù)和Hausdorff距離等,其中應(yīng)用最多和最簡單的是歐氏距離。
目標(biāo)跟蹤過程中,直接對場景中的所有內(nèi)容進行匹配計算,尋找最佳匹配位置,需要處理大量的冗余信息,這樣運算量比較大,而且沒有必要。采用一定的搜索算法對未來時刻目標(biāo)的位置狀態(tài)進行估計假設(shè),縮小目標(biāo)搜索范圍便具有了非常重要的意義。其中一類比較常用的方法是預(yù)測運動體下一幀可能出現(xiàn)的位置,在其相關(guān)區(qū)域內(nèi)尋找最優(yōu)點。常見的預(yù)測算法有Kalman濾波、擴展的Kalman濾波和粒子濾波方法等。
Kalman濾波器是一個對動態(tài)系統(tǒng)的狀態(tài)序列進行線性最小方差估計的算法。它通過狀態(tài)方程和觀測方程來描述一個動態(tài)系統(tǒng),基于系統(tǒng)以前的狀態(tài)序列對下一個狀態(tài)作最優(yōu)估計,預(yù)測時具有無偏、穩(wěn)定和最優(yōu)的特點,且具有計算量小、可實時計算的特點,可以準(zhǔn)確地預(yù)測目標(biāo)的位置和速度,但其只適合于線性且呈高斯分布的系統(tǒng)。相對于卡爾曼濾波算法,粒子濾波器特別適用于非線性和非高斯系統(tǒng)。粒子濾波算法是一種基于蒙特卡洛和貝葉斯估計理論的最優(yōu)算法,以遞歸的方式對測量數(shù)據(jù)進行序貫處理,因而無需對以前的測量數(shù)據(jù)進行存儲和再處理,節(jié)省了大量的存儲空間。在跟蹤多形式的目標(biāo)以及在非線性運動和測量模型中,粒子濾波器具有極好的魯棒性。
另一類減小搜索范圍的算法是優(yōu)化搜索方向。均值漂移算法(Meanshift)、連續(xù)自適應(yīng)均值漂移算法(Camshift)和置信區(qū)域算法都是利用無參估計的方法優(yōu)化目標(biāo)模板和候選目標(biāo)距離的迭代收斂過程,以達到縮小搜索范圍的目的。Meanshift算法是利用梯度優(yōu)化方法實現(xiàn)快速目標(biāo)定位能夠?qū)Ψ莿傂阅繕?biāo)實時跟蹤,適合于非線性運動目標(biāo)的跟蹤,對目標(biāo)的變形和旋轉(zhuǎn)等運動有較好的適用性。但是Meanshift算法在目標(biāo)跟蹤過程中沒有利用目標(biāo)在空間中的運動方向和運動速度信息,當(dāng)周圍環(huán)境存在干擾時(如光線、遮擋),容易丟失目標(biāo)。Camshift算法是在Meanshift算法的基礎(chǔ)上進行了一定的擴展,結(jié)合目標(biāo)色彩信息形成的一種改進的均值漂移算法。由于目標(biāo)圖像的直方圖記錄的是顏色出現(xiàn)的概率,這種方法不受目標(biāo)形狀變化的影響,可以有效地解決目標(biāo)變形和部分遮擋的問題,且運算效率較高,但該算法在開始前需要由人工指定跟蹤目標(biāo)。
視覺跟蹤簡單地說就是估計一個對象的運動軌跡。另外,一個跟蹤系統(tǒng)還可以獲得被跟蹤對象的一些信息:對象的運動方向、速度、加速度和位置,從而為進一步處理與分析,實現(xiàn)對運動對象的行為理解完成更高一級的任務(wù)做準(zhǔn)備。
一個理想的視覺跟蹤算法應(yīng)具有以下特性:
①快捷性:視覺跟蹤算法應(yīng)該能夠有效地跟蹤運動目標(biāo),同時對場景的突然變化做出反應(yīng),這是視覺跟蹤算法的根本目的;
②魯棒性:魯棒性意味著可用性。被跟蹤對象從3-D投影到2-D時會造成信息損失、圖像中的噪聲、物體運動的復(fù)雜、物體的非剛性或關(guān)節(jié)的本質(zhì)、部分和全部遮擋造成的信息暫時消失、物體姿態(tài)的復(fù)雜性、場景的光照變化等,客戶希望在這些復(fù)雜環(huán)境和情況下可以隨時應(yīng)用視覺跟蹤算法;
③透明性:視覺跟蹤算法對客戶應(yīng)是透明的,客戶得到的結(jié)果僅僅是快速的響應(yīng)和良好的可用性;
④高效性:視覺跟蹤算法帶來的運算開銷越小越好;
⑤穩(wěn)定性:視覺跟蹤算法不應(yīng)給后續(xù)的運動識別帶來不穩(wěn)定因素;
⑥簡單性:視覺跟蹤算法越容易實現(xiàn)則越容易被普遍接受,一個理想的視覺跟蹤配置應(yīng)簡單易行。
通常,為了更快地運行視覺跟蹤算法,減少對資源的需求,視覺跟蹤算法應(yīng)該設(shè)計得更簡單;為了實行更準(zhǔn)確的跟蹤目標(biāo),視覺跟蹤算法又往往但要設(shè)計得很復(fù)雜。
視覺跟蹤的數(shù)學(xué)解決方法有自底向上和自頂向下2類。自底向上方法通常是通過分析圖像內(nèi)容來重建目標(biāo)狀態(tài),如重建參數(shù)化的形狀。這種方法在計算量上是有效的,但它的健壯性很大程度依賴于對圖像的分析能力。自頂向下方法產(chǎn)生和估計一系列基于目標(biāo)模型的狀態(tài)假設(shè),通過估計和校正這些圖像觀測的假設(shè)來實現(xiàn)跟蹤,它通常有4個組成成分:目標(biāo)表示、觀測表示、假設(shè)的產(chǎn)生和假設(shè)的估計這種方法的健壯性較少依賴于對圖像的分析,這是因為目標(biāo)假設(shè)作為分析圖像的限制條件;但是它的性能很大程度是由產(chǎn)生和校正這些假設(shè)的方法來決定的,為了獲得健壯的跟蹤效果,需要很多目標(biāo)假設(shè),而對這些假設(shè)進行估計又需要大量的計算。其中后者是目前視覺跟蹤的主流方法,但將這2種數(shù)學(xué)方法結(jié)合起來有助于提高跟蹤算法的健壯性又可以減少計算量。
視覺跟蹤算法之間的差別一般有以下幾方面[3]:
①跟蹤對象的表示;
②跟蹤對象的外表、運動和形狀的表示;
③圖像特征的選擇。
傳統(tǒng)的跟蹤對象可以表示成點、原始的幾何形狀(如矩形、橢圓形等)、對象的輪廓和投影、骨架模型、關(guān)節(jié)狀模型等[3]。
視覺跟蹤算法一般分成基于主動輪廓的跟蹤算法(Active Contour-based Tracking Algorithm)、基于特征的跟蹤算法(Feature-based Tracking Algorithm)、基于區(qū)域的跟蹤算法(Region-based Tracking Algorithm)和基于模型的跟蹤算法(Model-basedTracking Algorithm)[4]。
Kass等人提出的主動輪廓模型,即Snake模型,是在圖像域內(nèi)定義的可變形曲線,通過對其能量函數(shù)的最小化,動態(tài)輪廓逐步調(diào)整自身形狀與目標(biāo)輪廓相一致,該可變形曲線又稱為Snake曲線。Snake技術(shù)可以處理任意形狀物體的任意形變,首先將分割得到的物體邊界作為跟蹤的初始模板,然后確定表征物體真實邊界的目標(biāo)函數(shù),并通過降低目標(biāo)函數(shù)值,使初始輪廓逐漸向物體的真實邊界移動。
基于主動輪廓跟蹤的優(yōu)點是不但考慮來自圖像的灰度信息,而且考慮整體輪廓的幾何信息,增強了跟蹤的可靠性。由于跟蹤過程實際上是解的尋優(yōu)過程,帶來的計算量比較大而且由于Snake模型的盲目性,對于快速運動的物體或者形變較大的情況,跟蹤效果不夠理想[5]。
基于特征匹配的跟蹤方法不考慮運動目標(biāo)的整體特征,只通過目標(biāo)圖像的一些顯著特征來進行跟蹤。假定運動目標(biāo)可以由惟一的特征集合表達,搜索到該相應(yīng)的特征集合就認為跟蹤上了運動目標(biāo)。除了用單一的特征來實現(xiàn)跟蹤外,還可以采用多個特征信息融合在一起作為跟蹤特征?;谔卣鞯母欀饕ㄌ卣魈崛『吞卣髌ヅ?個方面。
①特征提取是指從景物的原始圖像中提取圖像的描繪特征,理想的圖像特征應(yīng)具備的特點是:特征應(yīng)具有直觀意義,符合人們的視覺特性;特征應(yīng)具備較好的分類能力,能夠區(qū)分不同的圖像內(nèi)容;特征計算應(yīng)該相對簡單,以便于快速識別;特征應(yīng)具備圖像平移、旋轉(zhuǎn)和尺度變化等不變性。目標(biāo)跟蹤中常用的運動目標(biāo)的特征主要包括顏色、紋理、邊緣、塊特征、光流特征、周長、面積、質(zhì)心和角點等。提取對尺度伸縮、形變和亮度變化不敏感的有效特征至今仍是圖像處理研究領(lǐng)域中一個比較活躍的方面;
②特征匹配提取的目的是進行幀間目標(biāo)特征的匹配,并以最優(yōu)匹配來跟蹤目標(biāo)。常見的基于特征匹配的跟蹤算法[6]有基于二值化目標(biāo)圖像匹配的跟蹤、基于邊緣特征匹配或角點特征匹配的跟蹤、基于目標(biāo)灰度特征匹配的跟蹤和基于目標(biāo)顏色特征匹配的跟蹤等?;谔卣鞯母櫵惴ǖ膬?yōu)點在于對運動目標(biāo)的尺度、形變和亮度等變化不敏感,即使目標(biāo)的某一部分被遮擋,只要還有一部分特征可以被看到,就可以完成跟蹤任務(wù);另外,這種方法與Kalman濾波器聯(lián)合使用,也具有很好的跟蹤效果。但是其對于圖像模糊和噪聲等比較敏感,圖像特征的提取效果也依賴于各種提取算子及其參數(shù)的設(shè)置,此外,連續(xù)幀間的特征對應(yīng)關(guān)系也較難確定,尤其是當(dāng)每一幀圖像的特征數(shù)目不一致、存在漏檢、特征增加或減少等情況;
基于區(qū)域的跟蹤算法基本思想是:得到包含目標(biāo)的模板,該模板可通過圖像分割獲得或預(yù)先人為確定,模板通常為略大于目標(biāo)的矩形,也可為不規(guī)則形狀;在序列圖像中,運用相關(guān)算法跟蹤目標(biāo)。這種算法的優(yōu)點在于當(dāng)目標(biāo)未被遮擋時,跟蹤精度非常高、跟蹤非常穩(wěn)定。但其缺點首先是費時,當(dāng)搜索區(qū)域較大時情況尤其嚴(yán)重;其次,算法要求目標(biāo)變形不大,且不能有太大遮擋,否則相關(guān)精度下降會造成目標(biāo)的丟失。近年來,對基于區(qū)域的跟蹤方法關(guān)注較多的是如何處理模板變化時的情況,這種變化是由運動目標(biāo)姿態(tài)變化引起的,如果能正確預(yù)測目標(biāo)的姿態(tài)變化,則可實現(xiàn)穩(wěn)定跟蹤。
基于模型的跟蹤是通過一定的先驗知識對所跟蹤目標(biāo)建立模型,然后通過匹配跟蹤目標(biāo)進行模型的實時更新。對于剛體目標(biāo)來說,其運動狀態(tài)變換主要是平移和旋轉(zhuǎn)等,可以利用該方法實現(xiàn)目標(biāo)跟蹤。但是實際應(yīng)用中跟蹤的不僅僅是剛體,還有一大部分是非剛體,目標(biāo)確切的幾何模型不容易得到。
這種方法不易受觀測視角的影響,具有較強的魯棒性,模型匹配跟蹤精度高,適合于機動目標(biāo)的各種運動變化,抗干擾能力強,但由于計算分析復(fù)雜、運算速度慢,模型的更新較為復(fù)雜,實時性較差。準(zhǔn)確建立運動模型是模型匹配能否成功的關(guān)鍵。
盡管視覺跟蹤技術(shù)在近幾年已經(jīng)取得了很大的研究進展,但是仍然有許多問題和難點需要解決:
①針對人的感知特性,如何建立一個感知特性的數(shù)學(xué)模型。因為視覺跟蹤的過程與人的感知特性緊密聯(lián)系,它又是很多問題的基礎(chǔ)。比如建立適當(dāng)?shù)囊曈X注意機制、發(fā)現(xiàn)輔助物的數(shù)量和可靠性的關(guān)系、如何快速發(fā)現(xiàn)輔助物、在短時間內(nèi)發(fā)現(xiàn)更多的輔助物、在更長的時間內(nèi)發(fā)現(xiàn)少而更可靠的輔助物等,這就需要以后對這個問題作深入的研究,進行統(tǒng)計建模;
②針對多線索的融合,如何建立一個多線索融合的模型,尤其是多線索之間的同步和每個線索的異步更新。如在視覺跟蹤中,通過顏色分布、運動軌跡預(yù)測、被跟蹤對象輪廓和輔助物等多線索實現(xiàn)跟蹤;在多人視覺跟蹤中,可以引入音頻跟蹤技術(shù),提高定位的準(zhǔn)確性,解決一定程度的遮擋問題;
③針對視覺跟蹤方法的性能,如何建立一個多種視覺跟蹤方法相互配合的跟蹤系統(tǒng),提高整體性能。因為不同的方法在計算成本和結(jié)果的準(zhǔn)確性方面有不同的性能特點,對計算成本過高的方法對其復(fù)雜性進行研究,構(gòu)造快速算法;另外,鑒于純數(shù)學(xué)的算法通常要較長的計算時間,因此應(yīng)用人工智能技術(shù),采用專家系統(tǒng),降低對尋優(yōu)精度的要求,從而提高速度,也是一種現(xiàn)實的途徑;
④針對2-D和3-D跟蹤算法的融合,如何決定使用2-D跟蹤算法和3-D跟蹤算法的時間。當(dāng)跟蹤算法從2-D轉(zhuǎn)到3-D時,如何根據(jù)2-D跟蹤算法的跟蹤結(jié)果來初始化3-D跟蹤算法的姿態(tài)參數(shù)。因為2-D跟蹤算法和3-D跟蹤算法各有優(yōu)缺點;
⑤全方位視覺。因為能搜集到360°的場景信息,成本也越來越低而逐漸得到人們的重視,但需要解決全方位視覺鏡頭造成的圖像扭曲和圖像細節(jié)丟失等情況。
向用戶提供快捷、穩(wěn)定、準(zhǔn)確和低成本的跟蹤結(jié)果是視覺跟蹤系統(tǒng)追求的目標(biāo),也是視覺跟蹤取得成功的關(guān)鍵。文中介紹了視覺跟蹤算法的研究現(xiàn)狀,包括視覺跟蹤算法的分類、常有數(shù)學(xué)方法,討論了遮擋問題和輔助物的利用等。但是因為被跟蹤對象周圍環(huán)境的多樣性和復(fù)雜性,使得視覺跟蹤技術(shù)仍然有很多需要解決的問題擺在研究者面前。
[1]WANG Liang,HU Wei-ming,TAN Tie-niu.Recent Developments in Human Motion Analysis[J].Pattern Recognition,2003,36(3):585-601.
[2]KOR NPROBST P,DERICHE R.Image Sequence Analysis via Partial Difference Equations[J].Mathematical Imaging and Vision,1999,11(1):5-26.
[3]YIL MAZ P,JAVED O,SHAH M.Object Tracking:a Survey[J].ACM Computing Surveys(CSUR),2006,38(4):1-45.
[4]HU Wei-ming,TAN Tie-niu,WANG Liang,et al.A Survey on Visual Surveillance of Objec Tmotion and Behaviors[J].IEEE Transactions on Systems,Man,and Cybernetics,Part C:Applications and Reviews,2004,34(3):334-352.
[5]王素玉,沈藍蓀.智能視覺監(jiān)控技術(shù)研究進展[J].中國圖象圖形學(xué)報,2007,12(9):1505-1514.
[6]STAUFFER C,GRIMSONW E L.Learning Patterns of Activity Usingreal-time Tracking[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8):747-757.