(陸軍工程大學(xué)石家莊校區(qū)納米技術(shù)與微系統(tǒng)實驗室,河北石家莊,050003)
目標(biāo)跟蹤是計算機視覺領(lǐng)域的重要研究方向,通?;趩文繑z像頭實現(xiàn)行人、車輛、障礙物以及標(biāo)志物等目標(biāo)信息的采集,給出目標(biāo)在初始幀中的位置和大小,進而估計出目標(biāo)在后續(xù)幀圖像中的狀態(tài)。但是,單目攝像頭采集的目標(biāo)特征信息有限,相比較而言,雙目攝像頭可以更加全面地反映目標(biāo)特征信息,獲取精確的深度特征。目標(biāo)跟蹤按照有無檢測過程的參與一般可以劃分為判別式跟蹤與生成式跟蹤[1]。判別式跟蹤主要包括兩大類:基于相關(guān)濾波和深度學(xué)習(xí)的跟蹤算法。HENRIQUES等[2-8]在相關(guān)濾波研究方面做出了重要貢獻,提出了CSK,KCF/DCF,Staple,CN,DSST,C-COT[7]和ECO[8]等算法,分別從特征表達、尺度更新、降低邊界效應(yīng)、模型更新策略、精簡訓(xùn)練集等角度進行優(yōu)化?;谏疃葘W(xué)習(xí)的跟蹤算法性能優(yōu)異,學(xué)者們從不同角度解決訓(xùn)練數(shù)據(jù)缺失的問題[9-10]。判別式跟蹤算法考慮了背景信息,一般情況下魯棒性更強,但其對訓(xùn)練樣本的依賴程度較高,受訓(xùn)練樣本影響極大。MeanShift屬于生成式跟蹤算法,其調(diào)節(jié)參數(shù)少、魯棒性強、速度快,是當(dāng)前目標(biāo)跟蹤領(lǐng)域的重要研究方向之一[11],VOT 2015官方推薦的實時算法就包括基于MeanShift框架的ASMS(scale-adaptivemean-shift)[12],平均幀率達125幀/s。然而,MeanShift只考慮了目標(biāo)的顏色直方圖特征,當(dāng)目標(biāo)與背景顏色相近時,易受這些相似區(qū)域的干擾。張鐵等[13-14]通過結(jié)合粒子濾波的方法提高了算法的分辨力,但粒子濾波一定程度上影響了算法的實時性。近年來,RGBD傳感器越來越多地應(yīng)用于3D人機交互界面應(yīng)用中,已能夠?qū)崿F(xiàn)手勢識別等功能[15],2015年美國Stereolab公司推出3D攝像機ZED,可用于實時獲取深度特征。在此基礎(chǔ)上,本文作者基于雙目立體像機ZED引入圖像RGB-D特征,在MeanShift框架基礎(chǔ)上提出了基于RGB-D的實時跟蹤算法。首先,提出優(yōu)化二次型距離的相似性度量方法代替Bhattacharyya系數(shù),提高了度量的合理性與準(zhǔn)確性;其次,基于顏色和深度特征,完善了權(quán)重在線自適應(yīng)調(diào)整機制和目標(biāo)模型更新策略;最后,通過仿真和實驗分析的方法驗證算法的有效性。
MeanShift是一種常用的目標(biāo)跟蹤算法,針對算法中目標(biāo)易受到周圍相似區(qū)域干擾的問題,本文引入RGB-D特征,將深度特征與顏色特征相融合,借鑒顏色直方圖的模式,基于深度圖構(gòu)建深度特征直方圖。實驗中發(fā)現(xiàn),跟蹤過程中存在目標(biāo)丟失現(xiàn)象,進一步觀察發(fā)現(xiàn):當(dāng)目標(biāo)發(fā)生微小位移時,Bhattacharyya系數(shù)產(chǎn)生急劇變化,某次調(diào)試過程中前一幀相似值高達0.898 6,而下一幀迭代時突降到0.588 3,這是由于Bhattacharyya系數(shù)假設(shè)直方圖各個子空間是正交而導(dǎo)致的。該假設(shè)條件不適用于深度特征直方圖,因此,本文提出了一種新穎的相似性度量方法優(yōu)化二次型距離(advanced quadratic-form distance, AQFD), 充 分考慮了不同子空間之間的相關(guān)性和可分辨性?;陬伾卣骱蜕疃忍卣鳎岢隽艘环N在線特征權(quán)重自適應(yīng)調(diào)整機制。利用不同特征間的互補性,針對匹配度低及可信度差的特征進行更新,每一幀最多只選擇1種特征,兼顧目標(biāo)模型的適應(yīng)性與穩(wěn)健性,進一步完善了目標(biāo)模型更新策略。
提出的優(yōu)化算法流程如圖1所示。
假設(shè)第t幀跟蹤結(jié)果為(x0,y0,σ0),其中(x0,y0)代表目標(biāo)中心位置,σ0代表目標(biāo)尺度,則(t+1)幀的算法如下。
Step 1基于(x0,y0,σ0)獲取候選目標(biāo)區(qū)域并得到候選目標(biāo)模型puc(f),pud(f);
Step 2計算權(quán)重圖像wi,其中wi是顏色權(quán)重圖像wic和深度權(quán)重圖像wid的加權(quán)和;
Step 3保持尺度σ0不變,進行空間維迭代,得到新的目標(biāo)中心位置其中具體參數(shù)見文獻[16];
Step 4保持(x0,y0)不變,即以(x0,y0)為中心,進行尺度維迭代,得到新的尺度參數(shù)σ0←σ0×bs′,其中具體參數(shù)見文獻[16];
Step 5將步驟4得到的結(jié)果代替步驟1中的輸入?yún)?shù),重復(fù)步驟1~4直到空間維和尺度維均收斂或達到指定迭代次數(shù);
Step 6滿足更新策略的進行目標(biāo)模型的更新。
圖1 優(yōu)化算法流程圖Fig.1 Flow chart of advanced algorithm
由于傳統(tǒng)的相似性度量方法Bhattacharyya系數(shù)的前提條件是假設(shè)直方圖各子空間是正交的,而深度直方圖不滿足該假設(shè)條件,因此,本文提出了一種新的相似性度量方法。二次型距離(quadratic-form distance,QFD)充分考慮了不同子空間之間的相關(guān)性,它通過Mahalanobis距離演化生成,定義為
式中,Σ為直方圖各子空間距離的協(xié)方差矩陣,為方便敘述,令A(yù)=Σ-1,
A表示各子空間之間的相關(guān)程度,{dij|i=1,…,m;j=1,…,m}代表直方圖中第i個子空間與第j個子空間之間的距離,即dij=|i-j|,dmax=max(dij)。當(dāng)A為對稱正定矩陣時,A=GTG。此時,式(1)可以表示為
雖然QFD考慮了子空間之間的相關(guān)性,但各子空間相關(guān)性區(qū)分度低,為此,將余弦距離與QFD相結(jié)合,旨在提高各子空間的可分辨性。余弦距離公式為
式(4)默認直方圖各子空間相互獨立,結(jié)合式(3),將式(4)優(yōu)化為
稱為優(yōu)化二次型距離。由式(2)可知,擁有m個子空間的直方圖中距離為k的2個子空間之間的相關(guān)系數(shù)為1-dk/dmax=1-k/(m-1),該系數(shù)與距離k線性相關(guān)。為提高各子空間的可分辨性,將式(6)中的G定義為m維相關(guān)矩陣G=[kij]m×m,其中:
σ為衰減控制因子,一般取值范圍為(5%~10%)m,σ越大,衰減越慢;反之越快。從式(7)也可以看出:當(dāng)索引值相同時,kii=1;當(dāng)索引值不同時,kij隨著子空間距離的增大呈指數(shù)下降趨勢,各子空間之間的可分辨性提高。
優(yōu)化二次型距離既考慮了不同子空間之間的相關(guān)性,同時也兼顧了子空間之間的可分辨性。舉例說明:令p=[0.15,0.1,0.1,0.35,0.25,0.05],q1=[0.2,0.15,0.15,0.3,0.2,0],q2=[0.1,0.05,0.05,0.4,0.3,0.1],采用QFD和AQFD分別度量p與q1和q2的相似性,測量結(jié)果如表1所示。由表1可知,采用QFD度量時,向量p與q1和q2的相似度相同;采用AQFD度量時,向量p與q2距離更小,相似度更大,這更加符合人眼的直觀感受。
表1 QFD和AQFD相似性度量結(jié)果對比Table1 Measurement results of QFD andAQFD
基于多特征的MeanShift常采用聯(lián)合直方圖方法[17],將深度作為新特征,但聯(lián)合直方圖一般具有較高維數(shù),目標(biāo)特征分布稀疏,易受到光照、運動圖像模糊等因素干擾。分別基于顏色和深度直方圖建立目標(biāo)模型,并在線自適應(yīng)調(diào)整特征權(quán)重,以適應(yīng)目標(biāo)的實時變化。puc(f)與pud(f)分別代表候選模型顏色、深度特征的概率密度:
令ρc(f)與ρd(f)分別為顏色與深度特征在候選區(qū)域的優(yōu)化二次型距離,并分別引入特征權(quán)重λc和λd,則ρ(f)定義為聯(lián)合優(yōu)化二次型距離:
式中:λc+λd=1。
為適應(yīng)目標(biāo)與周圍環(huán)境的實時變化,采用在線特征權(quán)重自適應(yīng)調(diào)整機制,自適應(yīng)調(diào)整參數(shù)λc和λd,從而實時改變顏色與深度特征對跟蹤效果的影響?;舅枷霝椋阂罁?jù)前一幀圖像中ρc和ρd之間的關(guān)系決策當(dāng)前幀特征權(quán)重λc和λd。目標(biāo)跟蹤過程中,通常前后幀目標(biāo)變化是連續(xù)的,因此,假設(shè)前一幀中優(yōu)化二次型距離較小的特征在當(dāng)前幀獲得更高的權(quán)重是合理的。設(shè)(t-1)幀顏色與深度特征優(yōu)化二次型距離分別為ρc(t-1)和ρd(t-1),令
由式(10)可知,r取值范圍為(-∞,+∞)。鑒于λc,λd∈[0,1],本文引入σ函數(shù)(如圖2所示),即
式中:b為曲線傾斜因子,控制曲線的傾斜程度。
令
式(12)表明特征權(quán)重只與參數(shù)r和b有關(guān),一般取b=1,令λc=1-λc′,λd=1-λd′。
實際應(yīng)用過程中,由于外部(光照、視角等)變化和自身(形變、姿態(tài)等)因素的影響,目標(biāo)模型存在漸變的過程,因此,建立合理的目標(biāo)模型更新策略[18]是長時間有效跟蹤目標(biāo)的必要條件。合理的目標(biāo)模型更新策略即在目標(biāo)的適應(yīng)性與穩(wěn)健性之間尋找平衡,經(jīng)典更新策略如下:
式中,q(t)為當(dāng)前幀目標(biāo)模型;p(t)為當(dāng)前幀跟蹤結(jié)果;q(t-1)代表前一幀目標(biāo)模型;α為模型更新速率因子。
圖2 b不同時的σ函數(shù)Fig.2 Functionσof differentb
對于多特征模型,可利用特征之間的互補性解決模型漂移問題。當(dāng)(t-1)幀跟蹤收斂后,可求得距離ρc(t-1)與ρd(t-1)以及下一幀的特征權(quán)重λc(t)與λd(t),優(yōu)化二次型距離反映了當(dāng)前幀特征與目標(biāo)模型的匹配度,特征權(quán)重反映了下一幀特征的可信度。
本文采用的目標(biāo)模型更新策略主要針對匹配度低及可信度差的特征,這樣既可以避免錯誤的更新造成整個目標(biāo)模型的漂移,又可以使得目標(biāo)模型對環(huán)境具有一定的適應(yīng)性。分別為優(yōu)化二次型距離與特征權(quán)重設(shè)置閾值ρL,ρH和λH,則更新策略為
當(dāng)且僅當(dāng)滿足式(14)的閾值條件時,才更新該特征模型,否則保持不變。每一幀最多只選擇一種特征更新,以避免整個目標(biāo)模型漂移。
2015年美國Stereolab公司推出的3D攝像機ZED是國際上首款能夠應(yīng)用于室外環(huán)境、實現(xiàn)大量程深度檢測的攝像機。ZED量程為0.5~20.0 m,長×寬×高為175 mm×30 mm×30 mm,基線為120 mm,支持多幀率、多分辨率工作模式,支持Linux,Windows,Mac操作系統(tǒng),支持ARM架構(gòu)與X86架構(gòu)處理器。
本文提出的跟蹤算法需要利用目標(biāo)的深度特征,而現(xiàn)有公開測評集多是基于2D圖像序列,無法提供深度信息。因此,本文基于ZED攝像機采集了測評集,并標(biāo)定了每幀圖像中目標(biāo)位置的真值,便于進行不同算法間性能的定量對比。在i5-7300HQ處理器、8GB內(nèi)存、Matlab R2017b條件下,分別采用文獻[19]中的經(jīng)典MeanShift算法、本文算法和Staple算法[4]處理測評集A,分別抽取了第16幀、23幀、25幀、27幀和29幀圖像便于觀察,各算法跟蹤效果如圖3所示。
圖3 MeanShift算法、本文算法和Staple在測評集A中的跟蹤結(jié)果Fig.3 Results of MeanShift,proposed method and Staple in benchmarkA
由圖3可知:MeanShift算法在目標(biāo)被遮擋前跟蹤效果良好,當(dāng)目標(biāo)被相似背景遮擋后,跟蹤任務(wù)失敗,而本文算法雖然也是基于MeanShift框架的,但是引入深度特征后,可以很好地區(qū)分開目標(biāo)與顏色相近的背景區(qū)域,提高算法的辨別力與可靠性,完成目標(biāo)跟蹤任務(wù)。定性來看,本文算法和Staple均較好地完成了相似背景區(qū)域干擾實驗,對比每幀圖像的跟蹤結(jié)果與真值之間的距離,獲得每幀圖像的像素偏差,如圖4所示,計算每幀圖像的覆蓋率,即其中A和B分別為跟蹤框和真值框的面積,如圖5所示。實驗結(jié)果表明:本文算法和Staple算法的平均像素偏差分別為0.89和1.10,平均覆蓋率分別為0.92和0.90,2種評價指標(biāo)中本文算法均優(yōu)于Staple算法,Staple算法以HOG和顏色直方圖作為特征,雖實現(xiàn)了相似區(qū)域干擾條件下的目標(biāo)跟蹤,但跟蹤精度不如本文算法的跟蹤精度。
圖4 本文算法和Staple算法在測評集A中的像素偏差Fig.4 Pixel error of proposed method and Staple in benchmarkA
圖5 本文算法和Staple算法在測評集A中的覆蓋率Fig.5 Overlap rate of proposed method and Staple in benchmarkA
為進一步實驗本文算法的跟蹤效果,采用一個跟蹤難度系數(shù)更高的測評集B,并與在上一測評集中表現(xiàn)良好的Staple算法進行對比,分別抽取了第10幀、25幀、28幀、30幀和33幀圖像便于觀察,跟蹤效果如圖6所示,像素偏差和覆蓋率分別如圖7和圖8所示。實驗結(jié)果表明:本文算法在受到相似背景干擾情況下,仍能夠?qū)崿F(xiàn)目標(biāo)的穩(wěn)定、可靠跟蹤,展現(xiàn)了較強的魯棒性,而Staple算法跟蹤失敗,本文算法和Staple算法的平均像素偏差分別為14.82和86.14,平均覆蓋率分別為0.72和0.51。
圖6 本文算法和Staple算法在測評集B中的跟蹤結(jié)果Fig.6 Results of proposed method and Staple in benchmark B
圖7 本文算法和Staple算法在測評集B中的像素偏差Fig.7 Pixel error of proposed method and Staple in benchmark B
圖8 本文算法和Staple算法在測評集B中的覆蓋率Fig.8 Overlap rate of proposed method and Staple in benchmark B
系統(tǒng)硬件平臺主要由嵌入式人工智能超級計算平臺Jetson TX2和3D攝像機ZED組成,本地主機采用i5-4590 CPU、4GB內(nèi)存和Ubuntu14.04 64-bit操作系統(tǒng),ZED分辨率設(shè)置為2 560×720。本文算法可實現(xiàn)對任意選定目標(biāo)的跟蹤,本實驗中,選擇鼠標(biāo)作為最初跟蹤目標(biāo),過程中利用另一個鼠標(biāo)去遮擋原始目標(biāo),跟蹤效果如圖9所示。
圖9 實時跟蹤效果圖Fig.9 Real-time tracking results
實驗結(jié)果表明:本文算法可實現(xiàn)任意選定目標(biāo)的跟蹤,同時在具有相近顏色特征的背景區(qū)域干擾下,仍順利地完成目標(biāo)跟蹤任務(wù),展現(xiàn)了較強的魯棒性。在分辨率為2 560×720的條件下,平均處理速度約為30幀/s,大于制式要求的24幀/s,滿足系統(tǒng)實時性要求。
1)基于雙目立體像機ZED引入RGB-D特征,在MeanShift框架基礎(chǔ)上提出了基于RGB-D的實時跟蹤算法。該算法是基于優(yōu)化二次型距離的相似性度量方法,實現(xiàn)了特征權(quán)重在線自適應(yīng)調(diào)整并完善了目標(biāo)模型的更新策略。
2)當(dāng)目標(biāo)被周圍相似背景區(qū)域干擾時,本文算法仍能夠完成目標(biāo)跟蹤任務(wù),平均像素偏差和覆蓋率分別為0.89和0.92,優(yōu)于Staple算法。
3)本文算法在難度系數(shù)更高的測評集中仍能夠穩(wěn)定、可靠地完成目標(biāo)跟蹤任務(wù),平均像素偏差和覆蓋率分別為14.82和0.72,優(yōu)于Staple算法。
4)本文算法基于Jetson TX2平臺的處理速度達30幀/s,滿足系統(tǒng)實時性要求。