顧 超
(東南大學(xué)機(jī)械工程學(xué)院,江蘇 南京211189)
近年來,目標(biāo)實(shí)時(shí)跟蹤是視覺識別以及圖像處理領(lǐng)域中備受關(guān)注的前沿方向.攝像頭獲取圖像信息后,選中目標(biāo),然后實(shí)時(shí)跟蹤目標(biāo).實(shí)現(xiàn)目標(biāo)跟蹤的關(guān)鍵在于合理的提取特征和準(zhǔn)確的識別目標(biāo),同時(shí)要考慮算法實(shí)現(xiàn)的時(shí)間,保證實(shí)時(shí)性.目前,許多目標(biāo)跟蹤算法都已在工程中得到運(yùn)用,運(yùn)用較為廣泛的算法有:(1)基于模板匹配的目標(biāo)跟蹤算法[1],這一算法的基本原理是,首先選取跟蹤目標(biāo)的特征(一般是邊緣特征),作為模板,然后在以后的每一幀中,搜尋此模板,實(shí)現(xiàn)目標(biāo)的跟蹤.這種方法匹配速度比較慢,對噪聲敏感,不適應(yīng)匹配對象在旋轉(zhuǎn)和縮放情況下的匹配問題.(2)粒子群優(yōu)化(PSO)算法是一種基于群體智能的技術(shù)[2],該算法從一組隨機(jī)解出發(fā),通過迭代搜尋最優(yōu)解,但是它沒有像遺傳算法那樣應(yīng)用交叉和變異算子,而是粒子在解空間追隨最優(yōu)的粒子進(jìn)行搜索.該算法雖然取得了一定的成功,但該算法存在局部搜索能力差的缺點(diǎn),不適合復(fù)雜環(huán)境下的目標(biāo)跟蹤.(3)TLD目標(biāo)跟蹤算法[3],TLD 即Tracking-Learning-Detection 的縮寫,譯為“跟蹤-學(xué)習(xí)-檢測”.顧名思義,TLD 目標(biāo)跟蹤有三部分組成,包括跟蹤器、學(xué)習(xí)過程和檢測器.在系統(tǒng)運(yùn)作后,跟蹤器和檢測器并不是順序工作,二者同時(shí)工作,不分先后.跟蹤與檢測的結(jié)果都作用于學(xué)習(xí)過程,學(xué)習(xí)的結(jié)果又反作用于跟蹤器和檢測器,系統(tǒng)得以實(shí)時(shí)更新,這樣就形成一個(gè)閉環(huán)的跟蹤系統(tǒng),解決了跟蹤目標(biāo)外觀變化帶來的影響.TLD 技術(shù)有效的融合了跟蹤與檢測的過程,是一種自我更新的跟蹤技術(shù),但此方法具有較高計(jì)算量,算法還不成熟.(4)MeanShift 跟蹤算法[4],是一種在一組數(shù)據(jù)的密度分布中尋找局部極值的穩(wěn)定方法,穩(wěn)定是相對的,在背景干擾較大以及目標(biāo)被遮擋的情況,易出現(xiàn)跟蹤目標(biāo)丟失的情況.針對上述各種方法的不足,本文提出一種基于基于顏色直方圖和深度信息的CamShift 目標(biāo)追蹤算法.
CamShift 算法的全稱是"Continuously Adaptive Mean-Shift",即連續(xù)自適應(yīng)的MeanShift 算法[5].“連續(xù)”是指該算法將對視頻序列的每一幀都做meanshift 迭代,“自適應(yīng)”是指該算法搜索窗口會自我調(diào)整尺寸.CamShift 算法具體步驟如下:
(1)選中搜索目標(biāo),記錄輸入的搜索窗口.
(2)根據(jù)顏色直方圖求出跟蹤目標(biāo)的反向投影圖.
(3)在反向投影圖上進(jìn)行meanshift 迭代,meanshift 向量指向重心,體現(xiàn)在反向投影圖上就是向概率密度大的地方移動,最終移動到目標(biāo)上.
(4)在操作下一幀圖像時(shí),參與迭代的搜索窗口用前一幀輸出的窗口更新.
目標(biāo)區(qū)域的初始化是指,在視頻序列的第一幀圖像之中,用一個(gè)窗口(窗口可以使對稱的或歪斜的),獲取初始目標(biāo)區(qū)域的位置以及大小信息,由此可以計(jì)算出他的顏色直方圖,一單確定了目標(biāo)區(qū)域,就可以啟動目標(biāo)跟蹤,目標(biāo)區(qū)域在跟蹤過程中自行調(diào)整.
圖1 彩色圖(左)與反向投影圖(右)
圖2 彩色圖(左)與反向投影圖(右)
直方圖是一種數(shù)據(jù)分布的統(tǒng)計(jì)圖[6],這些統(tǒng)計(jì)數(shù)據(jù)可以是諸如梯度、方向、色彩或其他特征,將統(tǒng)計(jì)數(shù)據(jù)組織到一系列事先定義好的bin 中,最終每個(gè)bin 的值都是相關(guān)數(shù)據(jù)的統(tǒng)計(jì)總量.在視覺跟蹤領(lǐng)域,由于顏色特征不受物體扭曲、旋轉(zhuǎn)等的影響,所以一般取顏色作為直方圖統(tǒng)計(jì)對象.攝像頭輸出的圖像格式一般為RGB 格式或YUV 格式,這兩種數(shù)據(jù)格式離散而復(fù)雜,給后期處理帶來麻煩.所以首先要將RGB 格式轉(zhuǎn)化成一種有利于數(shù)字化操作的格式,這就涉及到顏色空間的轉(zhuǎn)換[7].在各種顏色空間中,HSI 模型可以滿足需求,HSI 中的H 分量表示色調(diào),S 分量表示飽和度,I 表示強(qiáng)度.由于色調(diào)表示人的感官對不同顏色的感受,所以在顏色數(shù)據(jù)的處理時(shí),可以將其他的色彩空間的值轉(zhuǎn)化到HSI 空間,提取其中的H 分量,求出H 分量的顏色直方圖.
根據(jù)獲得的顏色直方圖將原始圖像轉(zhuǎn)化成色彩概率分布圖像,這個(gè)過程就被稱作求反向投影.反向投影圖與輸入圖像的大小相同,每點(diǎn)像素值設(shè)為顏色直方圖中相關(guān)的bin 值.如果直方圖是歸一化的,此值便于一個(gè)概率值相關(guān).以下是檢驗(yàn)步驟:
(1)對測試圖像中的每個(gè)像素(p(i,j)),獲取色調(diào)數(shù)據(jù)并找到該色調(diào)(hi,j,si,j)在直方圖中的bin 位置.
(2)查詢模型直方圖中對應(yīng)bin 的數(shù)值.
(3)將此數(shù)值存儲在新的反向投影圖像中.也可以先歸一化直方圖數(shù)值到0 ~255 范圍,這樣可以直接顯示反向投影圖像(單通道圖像).這樣,如果顏色相似度越高,bin 數(shù)值就越大,體現(xiàn)在反向投影圖中就越白.
(4)通過測試圖像中的每個(gè)像素采用以上步驟,可以得到最終的反向投影圖像.在圖1(左),選取一個(gè)方形的目標(biāo)物,提取顏色直方圖,得到反向投影圖1(右).
圖3 Meanshift 向量圖
圖4 Meanshift 迭代結(jié)果
僅有顏色信息的反向投影圖中,需要跟蹤的目標(biāo)易與環(huán)境中同顏色物體相混淆,如上圖所示,圖像中亮的部分為與跟蹤目標(biāo)相同顏色分布的物體,因此會給下面的處理造成很大的麻煩,有可能導(dǎo)致追蹤失敗.由此,需要一定的濾波方法,處理這些干擾.
深度信息是指場景中所有物體到攝像機(jī)的距離,不同的距離將會被轉(zhuǎn)化成不同的灰度值,形成明暗層次鮮明的深度圖.微軟公司的kinect 攝像機(jī)可以同時(shí)給出深度圖與彩色圖,并且兩幅圖大小可以設(shè)為相同的640*480,每個(gè)像素點(diǎn)一一對應(yīng),所以融合深度信息的顏色直方圖反向投影成為可能.
所謂融合深度信息的反向投影圖,就是在原有的顏色直方圖反向投影圖的基礎(chǔ)上,以深度數(shù)據(jù)為權(quán)重,達(dá)到濾波的目的.具體步驟如下.假設(shè)在當(dāng)前幀,跟蹤目標(biāo)的質(zhì)心離攝像機(jī)的距離為d,兩幀圖像之間目標(biāo)的移動距離大約為m.于是在下一幀,深度圖中數(shù)值在(d-2m,d+2m)區(qū)間的像素點(diǎn)將會以權(quán)重系數(shù)值1 映射到反向投影圖中,即原來值為a,處理后將變成a*1.深度數(shù)值在(d-4m,d-2m)U(d+2m,d+4m)區(qū)間的像素點(diǎn)將會以權(quán)重系數(shù)值0.8 映射到反向投影圖中,即原來值若為b,處理后變?yōu)閎*0.8.以此類推,根據(jù)深度值偏移的大小賦予相應(yīng)的權(quán)重系數(shù).上面描述中,權(quán)重系數(shù)可按實(shí)際情況修改.融合深度信息的反向投影如圖2.
Meanshift 算法是一種在一組數(shù)據(jù)的密度分布中尋找局部極值的穩(wěn)定的方法,meanshift 只估計(jì)數(shù)據(jù)分布的梯度(變化方向),變化為0 的地方則表示是這個(gè)分布的峰值(雖然可能是局部的).Meanshift 算法步驟如下:
(1)選擇搜索窗口.
(2)計(jì)算窗口的重心:設(shè)(x,y)是搜索窗口的像素點(diǎn),I(x,y)是對應(yīng)反向投影圖中(x,y)的像素值,搜索窗口的零階矩M00,一階矩M10,M01計(jì)算如下:
像素分布的重心為:
(3)將窗口的中心移動到重心處:Meanshift矢量公式(3),其中Sk為搜索窗口,xi是指窗口內(nèi)的每一個(gè)點(diǎn),x 是指窗口的中心,Mh是所有點(diǎn)的合成矢量.從公式可以得出,窗口中心將會向著重心的方向移動,每一次移動之后將得到一個(gè)新的中心,直到中心和重心重合,迭代結(jié)束.具體步驟如下:
1)以搜索窗口的中心為圓心,搜索框內(nèi)所有點(diǎn)都會和圓心產(chǎn)生一個(gè)向量,然后把這些向量都相加,相加的結(jié)果就是Meanshift 向量,如圖3.
2)再以meanshift 向量的終點(diǎn)為圓心,重復(fù)以上步驟,就可得到一個(gè)新的meanshift 向量.如此重復(fù)下去,meanshift 算法可以收斂到概率密度最大得地方.也就是最稠密的地方,最終結(jié)果如圖4.
要實(shí)現(xiàn)對目標(biāo)的實(shí)時(shí)追蹤,需要對每一幀圖像都作MeanShift 運(yùn)算,并將上一幀的結(jié)果(即搜索窗口的中心位置和窗口大小)作為下一幀搜索窗口的初始值,更新搜索窗口,如此一來,即使跟蹤目標(biāo)的大小變化或者外形扭曲等,該算法也可以自我更新搜索窗口繼續(xù)跟蹤.
表1 包括兩個(gè)實(shí)驗(yàn),實(shí)驗(yàn)1 采用本文所論述的基于跟蹤方法,實(shí)驗(yàn)2 采用僅基于顏色直方圖的Camshift 這一傳統(tǒng)的跟蹤方法.兩個(gè)實(shí)驗(yàn)在同一實(shí)驗(yàn)環(huán)境下進(jìn)行,檢測兩種方法跟蹤目標(biāo)物體的魯棒性.實(shí)驗(yàn)1 中,手持目標(biāo)物體移動到相似顏色的大物體附近,然后再移開目標(biāo)物體,整個(gè)過程中,跟蹤環(huán)始終跟隨目標(biāo)物移動.實(shí)驗(yàn)2 中,采用和實(shí)驗(yàn)1同樣的檢測方法,當(dāng)目標(biāo)物體靠近相似顏色物時(shí),跟蹤環(huán)發(fā)生偏移,不再跟隨目標(biāo)物.
對比兩個(gè)實(shí)驗(yàn)結(jié)果,融合基于顏色直方圖與深度信息的跟蹤方法較僅基于顏色直方圖的傳統(tǒng)跟蹤方法在跟蹤目標(biāo)物體魯棒性方面有較大改進(jìn).
在視覺跟蹤領(lǐng)域,對于含有相似物體的環(huán)境或是環(huán)境較為復(fù)雜的情況,單獨(dú)用顏色跟蹤不能獲得良好的效果,本文提出一種融合顏色信息和深度信息的跟蹤方案.實(shí)驗(yàn)結(jié)果表明,該方案的跟蹤性能較傳統(tǒng)方案有較強(qiáng)的魯棒性.
表1 對比實(shí)驗(yàn)結(jié)果
[1] 付永會,張風(fēng)超,張憲民.一種改進(jìn)的基于顏色直方圖的實(shí)時(shí)目標(biāo)跟蹤算法[J].數(shù)據(jù)采集與處理,2001,(03):309-314.
[2] 唐紅艷,徐正光.基于PSO-RBF 的神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[A].冶金自動化研究設(shè)計(jì)院.全國煉鋼連鑄過程自動化技術(shù)交流會論文集[C].冶金自動化研究設(shè)計(jì)院,2006,(3).
[3] 李曉飛.基于視覺的船舶跟蹤與三維定位技術(shù)研究與應(yīng)用[D].廣東工業(yè)大學(xué),2014.
[4] 王年,丁業(yè)兵,唐俊,等.帶寬自適應(yīng)的Mean-Shift 目標(biāo)跟蹤算法[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,39,(10):44-49.
[5] 劉雙.動態(tài)融合梯度信息的Camshift 算法改進(jìn)研究[J].無線互聯(lián)科技,2014,04:181-183.
[6] 汪啟偉.圖像直方圖特征及其應(yīng)用研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2014.
[7] 張學(xué)習(xí),楊宜民.彩色圖像工程中常用顏色空間及其轉(zhuǎn)換[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(5):1210-1212.