羅 建 華
(河源職業(yè)技術(shù)學(xué)院 廣東 河源 517000)
為了提升視頻目標(biāo)跟蹤的魯棒性,基于機(jī)器學(xué)習(xí)的視頻目標(biāo)跟蹤得到了許多研究人員的研究和發(fā)展[1-4]。其中半監(jiān)督學(xué)習(xí)技術(shù)在目標(biāo)跟蹤中得到了廣泛使用。使用半監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn)在于可以利用大量的無標(biāo)簽數(shù)據(jù)信息,這樣將減少對目標(biāo)進(jìn)行打標(biāo)簽而帶來的人工成本,具有較強(qiáng)的實用價值。但是,半監(jiān)督學(xué)習(xí)不能完全解決視頻跟蹤的目標(biāo)外觀變化問題。文獻(xiàn)[5]研究表明,當(dāng)無標(biāo)簽樣本信息和有標(biāo)簽樣本信息的統(tǒng)計分布不同時,半監(jiān)督學(xué)習(xí)的分類預(yù)測性能相比有監(jiān)督學(xué)習(xí)沒有任何優(yōu)勢可言。
因此,根據(jù)運(yùn)動的視頻幀具有連續(xù)性的特點(diǎn),并且假定視頻目標(biāo)跟蹤中包含較多的先驗信息。在此基礎(chǔ)上,對獲取的目標(biāo)先驗信息進(jìn)行編碼,以作為訓(xùn)練樣本的置信度。在視頻目標(biāo)跟蹤過程中,視頻目標(biāo)所在的前景和背景信息有時候可能比較相近,而且視頻幀的相關(guān)內(nèi)容信息可能有助于目標(biāo)的檢測,雖然這些內(nèi)容信息不是真實所需要跟蹤目標(biāo)的一部分;如果跟蹤器在某些地方?jīng)]有精準(zhǔn)地定位到目標(biāo)所在位置,這樣目標(biāo)的外觀表征模型將基于這些不準(zhǔn)確的標(biāo)簽數(shù)據(jù)進(jìn)行更新,相應(yīng)的,跟蹤誤差將會不斷累積,最終導(dǎo)致跟蹤失敗。
因此,為了減少目標(biāo)跟蹤的累積誤差,提升跟蹤的魯棒性能,提出一種基于改進(jìn)提升學(xué)習(xí)模型的目標(biāo)跟蹤方法。對有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)分別設(shè)計基于一種置信度最大化的分類器,然后將分類器進(jìn)行加權(quán)組合,形成一個強(qiáng)分類器,用于目標(biāo)跟蹤。
融合有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù),基于改進(jìn)提升學(xué)習(xí)策略,減輕目標(biāo)跟蹤的誤差累積。同時,在樣本選擇的過程中基于權(quán)重配置策略,選擇置信度較高的樣本用于分類器學(xué)習(xí),以減少訓(xùn)練樣本的數(shù)量,保障目標(biāo)跟蹤方法的效率。
E[C(i)]=p+(i)e-F(xi)+p-(i)eF(xi)
(1)
進(jìn)一步,基于訓(xùn)練樣本數(shù)據(jù)的損失函數(shù)可表示為:
(2)
式中:C被稱為置信度。為了最小化置信度C,考慮一種兩階段的組合分類器F(x)+αtft(x),其中F(x)是第一階段的分類器,ft(x)是第二階段產(chǎn)生的分類器函數(shù),相應(yīng)的,損失函數(shù)可表示為:
(3)
設(shè)ft(xi)={1,-1},損失函數(shù)對投票權(quán)重αt求導(dǎo),可得:
(4)
(5)
(6)
綜合以上分析,ft可重寫為:
(7)
2) 結(jié)合無標(biāo)簽樣本的提升改進(jìn)算法 在視頻跟蹤中,無標(biāo)簽樣本的數(shù)據(jù)信息要豐富得多,原因是標(biāo)簽樣本需要花費(fèi)大量的人力、物力去給樣本打標(biāo)簽。由于無標(biāo)簽樣本沒有標(biāo)簽類別信息,所以假設(shè)這些無標(biāo)簽數(shù)據(jù)的標(biāo)簽類別為隨機(jī)變量,定義為:U=[u1,u2,…]。因此,對所有無標(biāo)簽樣本,損失函數(shù)可表示為:
(8)
由于無標(biāo)簽樣本U=[u1,u2,…]為無觀測隨機(jī)變量,所以采用期望最大化算法EM(Expectation Maximization)來最小化損失函數(shù)。主要的步驟如下:
(1) E步Q函數(shù)為:
(9)
式中:第一項與u不相關(guān),所以有:
(10)
(11)
(12)
綜上分析,基于改進(jìn)提升模型的視頻跟蹤算法詳細(xì)步驟為:
步驟1對第一視頻幀V1訓(xùn)練弱分類器。
步驟2對接下來的每個視頻幀Vj,重復(fù)以下步驟:
步驟2.1獲取前t個視頻幀Vj-1,…,Vj-t,相應(yīng)的矩形框位置設(shè)置為:lj-1,…,lj-t,對在這些矩形框內(nèi)和外部的圖像像素值和相應(yīng)的標(biāo)簽數(shù)據(jù)進(jìn)行整合,形成標(biāo)簽樣本集。
步驟2.2提取前t個視頻幀Vj-1,…,Vj-t中的局部二值模式LBP(Local Binary Pattern)特征信息,采用最小二乘方法預(yù)測出前t個視頻幀Vj-1,…,Vj-t中無標(biāo)簽樣本的類別標(biāo)簽信息,結(jié)合步驟2.1中的有標(biāo)簽數(shù)據(jù),形成整個有標(biāo)簽數(shù)據(jù)。
步驟2.4將步驟2.2和步驟2.3獲取的標(biāo)簽樣本和無標(biāo)簽樣本分別采用自適應(yīng)提升的改進(jìn)算法和結(jié)合無標(biāo)簽樣本的提升改進(jìn)算法進(jìn)行分類,然后將兩個分類器進(jìn)行加權(quán)組合,獲取最終的強(qiáng)分類器。
步驟2.5輸出目標(biāo)跟蹤結(jié)果,即在視頻幀Vj上給出分類器在無標(biāo)簽樣本上的分類置信度和相應(yīng)的矩形框位置lj。
步驟3根據(jù)步驟2獲得所有視頻幀的跟蹤結(jié)果,輸出跟蹤結(jié)果的矩形框位置l2,…,ln。
為了測試視頻目標(biāo)跟蹤算法的性能,采用Benchmark測試集[6]中的視頻序列數(shù)據(jù)用于跟蹤性能的比較分析,并且與近年來的三種目標(biāo)跟蹤算法進(jìn)行比較,分別是文獻(xiàn)[7]給出的目標(biāo)跟蹤方法[7]TLD(Tracking-Learning Detection)、在線多示例學(xué)習(xí)跟蹤算法[8]MIL(multiple instance learning)、稀疏協(xié)同目標(biāo)跟蹤方法SCM(Sparse Collaborative Model)[9]。 實驗測試環(huán)境為一臺普通計算機(jī)、CPU為Intel CoreTM i5 處理器、主頻3.3 GHz、內(nèi)存8 GB ,操作系統(tǒng)為64位Windows 7,算法仿真平臺為MATLAB2012b。其中測試的對象為Caviar和Car6兩組視頻序列。
由于每種跟蹤算法都具有一定的隨機(jī)性,所以每種方法在測試集上都運(yùn)行了10次并取平均結(jié)果作為最終的比較數(shù)據(jù)。在樣本數(shù)據(jù)的選擇中,每一個樣本均提取了 120個LBP 特征用于分類器學(xué)習(xí)。
為了度量視頻跟蹤的性能,采用平均中心點(diǎn)誤差和平均重疊率作為衡量準(zhǔn)則。其中中心點(diǎn)誤差能反映目標(biāo)跟蹤方法的穩(wěn)定性,一般情況下,如果在一個視頻序列中中心點(diǎn)平均誤差不超過20個像素就認(rèn)為跟蹤成功。平均重疊率可以體現(xiàn)跟蹤性能的魯棒性,因為它不但考慮了跟蹤框的位置還考慮了跟蹤框的姿態(tài)、面積、旋轉(zhuǎn)等因素。
表1和表2分別給出了文中跟蹤算法與其他幾種跟蹤算法的平均中心點(diǎn)誤差和平均重疊率結(jié)果比較。從表1和表2中可以看出,文中提出的跟蹤改進(jìn)算法性能較好,表明提出的跟蹤改進(jìn)算法具有較強(qiáng)的魯棒性。
表1 平均中心點(diǎn)誤差 像素
表2 平均重疊率 %
為了更進(jìn)一步驗證上述幾種跟蹤算法的性能,圖1-圖4分別給出了文中算法與其他三種跟蹤算法的誤差對比曲線結(jié)果。從圖1-圖4中也可以看出,文中提出的跟蹤改進(jìn)算法較其他三種算法性能較好,總結(jié)起來,原因包括以下兩點(diǎn):
1) 文中提出的跟蹤改進(jìn)算法有效利用了樣本的無標(biāo)簽先驗信息,將有標(biāo)簽樣本和無標(biāo)簽樣本結(jié)合起來,設(shè)計了一種改進(jìn)提升的強(qiáng)分類器,提高了跟蹤的準(zhǔn)確率。
2) 在樣本采集過程中基于權(quán)重策略來選擇置信度較大的樣本,并利用樣本的LBP特征,用于視頻跟蹤的分類器學(xué)習(xí)中,有效解決了視頻跟蹤中隨目標(biāo)外觀變化而造成的誤差累積問題,提高了目標(biāo)跟蹤的穩(wěn)定性和魯棒性。
圖1 Caviar視頻的中心點(diǎn)誤差比較
隨著視頻目標(biāo)跟蹤技術(shù)的發(fā)展,為減少跟蹤中出現(xiàn)的累積誤差問題,本文結(jié)合無標(biāo)簽樣本和有標(biāo)簽樣本數(shù)據(jù),提出了一種基于改進(jìn)提升的視頻目標(biāo)跟蹤算法。本文利用選擇的樣本集來訓(xùn)練分類器,利用了無標(biāo)簽樣本的局部二值模式特征信息,有效保留了樣本空間的局部幾何結(jié)構(gòu),進(jìn)一步減少了視頻跟蹤中隨目標(biāo)外觀變化而造成的誤差累積問題,提升了視頻目標(biāo)跟蹤的魯棒性能。
[1] Li G,Huang Q,Qin L,et al.SSOCBT:A Robust Semisupervised Online CovBoost Tracker That Uses Samples Differently[J].IEEE Transactions on Circuits and Systems for Video Technology,2013,23(4):695-709.
[2] Zhang T,Liu S,Ahuja N,et al.Robust Visual Tracking Via Consistent Low-Rank Sparse Learning[J].International Journal of Computer Vision,2015,111(2):171-190.
[3] Lee K H,Hwang J N.On-Road Pedestrian Tracking Across Multiple Driving Recorders[J].IEEE Transactions on Multimedia,2015,17(9):1429-1438.
[4] Li A,Lin M,Wu Y,et al.NUS-PRO:A New Visual Tracking Challenge[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(2):335.
[5] Li Y F,Zhou Z H.Towards making unlabeled data never hurt[C]//International Conference on International Conference on Machine Learning.Omnipress,2011:1081-1088.
[6] Wu Y,Lim J,Yang M H.Online object tracking:A benchmark[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR),2013:2411-2418.
[7] Kalal Z,Mikolajczyk K,Matas J.Tracking-Learning-Detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(7):1409-1422.
[8] Babenko B,Yang M H,Belongie S.Robust object tracking with online multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1619-1632.
[9] Zhong W,Lu H,Yang M H.Robust object tracking via sparse collaborative appearance model[J] .IEEE Transactions on Image Processing,2014,23(5):2356-2368.