劉雨情, 肖 嵩, 李 磊
(西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗室,陜西 西安 710071)
基于視頻序列的目標(biāo)跟蹤技術(shù),一直以來都是計算機(jī)視覺領(lǐng)域的核心問題,在智能交通、軍事航天以及人機(jī)交互領(lǐng)域都有著廣泛的應(yīng)用.國內(nèi)外學(xué)者通過不斷研究也提出了許多有效的目標(biāo)跟蹤算法[1-5].
近年來,超像素特征作為一種新興的中層視覺特征,被廣泛研究和應(yīng)用于各種計算視覺任務(wù)中,如圖像分割、人體姿態(tài)估計和目標(biāo)識別等.2014年,文獻(xiàn)[5]將超像素用于目標(biāo)跟蹤中,提出了一種魯棒性的超像素跟蹤(robust SuperPixel Tracking,SPT)算法.該算法能出色解決目標(biāo)跟蹤中的挑戰(zhàn)性難題,如復(fù)雜背景、非剛性形變和快速運(yùn)動等,并在PASCAL VOC tests上取得了比跟蹤學(xué)習(xí)檢測(Tracking Learning Detection,TLD)算法[3]、視覺跟蹤分解(Visual Tracking Decomposition,VTD)算法[7]等主流目標(biāo)跟蹤算法更好的跟蹤性能.但由于該算法每次在更新外觀模型時積累了海量的超像素信息(平均達(dá)上千個),采用MeanShift方法進(jìn)行聚類對外觀建模非常耗時,達(dá)不到實(shí)時性要求.此外,該算法在目標(biāo)遮擋時易出現(xiàn)跟蹤漂移,具有一定的局限性.
針對SPT[5]算法建模速度慢的缺陷,筆者提出了一種新的表觀模型構(gòu)建機(jī)制,創(chuàng)新性地將超像素特征和超限學(xué)習(xí)機(jī)相結(jié)合,用于處理超大樣本集的快速特征學(xué)習(xí)問題,將收集到的大量帶標(biāo)簽的目標(biāo)前景-背景數(shù)據(jù)集結(jié)合超限學(xué)習(xí)機(jī)的監(jiān)督型學(xué)習(xí)算法,訓(xùn)練得到一個超像素前景-背景分類器,實(shí)現(xiàn)前景-背景粗分類.在此基礎(chǔ)上,結(jié)合k-d樹實(shí)現(xiàn)快速K近鄰(K-Nearest Neighbor,KNN)聚類,對前景和背景特征空間進(jìn)行細(xì)分割,精確構(gòu)建目標(biāo)前景和背景的外觀模型(即特征詞典).筆者所改進(jìn)的這種從粗到精的前景-背景建模方法顯著降低了表觀建模的時間開銷,將每次模型構(gòu)建時間從原來的幾十秒控制在 1 s 以內(nèi).最后,算法結(jié)合粒子濾波和相關(guān)濾波實(shí)現(xiàn)了魯棒性的目標(biāo)跟蹤.文中所提算法的框架如圖1所示.
圖1 目標(biāo)跟蹤方法訓(xùn)練和跟蹤過程框架圖
由于顏色統(tǒng)計特征在目標(biāo)發(fā)生非剛性形變、旋轉(zhuǎn)和快速運(yùn)動時具備不變性,但不具備光照不變性.而方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征對光照、尺度等具備不變性,但卻不適應(yīng)非剛性形變和快速運(yùn)動.文中算法將顏色統(tǒng)計特征和HOG特征相結(jié)合,取得對目標(biāo)更強(qiáng)的描述能力.
設(shè)第t幀目標(biāo)的狀態(tài)St={Xt,Yt,Wt,Ht},其中,{Xt,Yt}表示目標(biāo)的中心位置,{Wt,Ht}表示目標(biāo)的寬和高.在訓(xùn)練階段如圖1(a)所示,收集前幾幀的目標(biāo)和背景信息,然后將每個訓(xùn)練幀分割為Nt個超像素s(r,t),r=1,2,…,Nt,其中,s(r,t)為第t幀的第r個超像素.統(tǒng)計每個超像素中屬于目標(biāo)框和不屬于目標(biāo)框的像素個數(shù),將與目標(biāo)框重合的超像素標(biāo)記為前景,其余情況全部標(biāo)記為背景.第r個超像素的標(biāo)簽l(r)可表示為
(1)
在得到超像素信息后,提取每個超像素的顏色特征構(gòu)成該超像素塊的特征.
針對SPT[5]算法建模耗時大的問題,筆者用超像素特征訓(xùn)練超限學(xué)習(xí)機(jī)學(xué)習(xí)前景和背景表觀特征,結(jié)合KNN聚類減少建模耗時.文中所提算法在跟蹤中對一定區(qū)域內(nèi)的超像素依據(jù)訓(xùn)練好的超限學(xué)習(xí)機(jī)進(jìn)行前景-背景特征的分類,之后,依據(jù)超像素塊的置信值來收集超限學(xué)習(xí)機(jī)的更新訓(xùn)練數(shù)據(jù).
1.2.1 訓(xùn)練超限學(xué)習(xí)機(jī)
超限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)[6]是一種含單個隱藏層的前饋型神經(jīng)網(wǎng)絡(luò),在1.1節(jié)中通過超像素分割和特征提取獲得大量帶有標(biāo)記的超像素訓(xùn)練樣本(Xj,tj),j=1,2,…,N,Xj= (x1,x2,…,xn)T∈Rn,為提取的超像素特征向量,tj為每個特征對應(yīng)的類別.假設(shè)隱藏層節(jié)點(diǎn)數(shù)為L,需訓(xùn)練得到一個超限學(xué)習(xí)機(jī)最小化網(wǎng)絡(luò)預(yù)測標(biāo)簽與訓(xùn)練數(shù)據(jù)標(biāo)簽間的差值:
其中,σ1>0,σ2>0,u,v=2,H為隱藏層輸出矩陣(隨機(jī)初始化的矩陣),β為隱藏層與輸出層的連接權(quán)矩陣.網(wǎng)絡(luò)的前向預(yù)測輸出fL(X)為
(3)
其中,ai為隱藏層神經(jīng)元的輸入權(quán)值,bi為偏置,βi為隱藏層與輸出層的連接權(quán)值,Gi(·)為隱藏層神經(jīng)元的特征映射函數(shù).例如,在映射函數(shù)為徑向基函數(shù)的情況下,隱藏層節(jié)點(diǎn)的響應(yīng)為
(4)
在目標(biāo)跟蹤的初始訓(xùn)練階段,由于在訓(xùn)練樣本集中采用區(qū)域規(guī)劃策略采集到大量的負(fù)樣本,冗余的負(fù)樣本會影響ELM的分類性能.為此在訓(xùn)練過程中采用困難負(fù)樣本挖掘策略將負(fù)樣本分組,每次迭代求解ELM時僅將后一組中的假正樣本加入到前面組組成的背景特征集,學(xué)習(xí)到更具區(qū)分性的負(fù)樣本集,從而提高超限學(xué)習(xí)機(jī)的分類準(zhǔn)確率.
1.2.2 KNN聚類
在收集到目標(biāo)表觀特征池,F(xiàn)t= {s(i,t)|l(i)=1},F(xiàn)b= {s(i,t)|l(i)=0} 的基礎(chǔ)上,在特征池內(nèi)部采用k-d樹實(shí)現(xiàn)快速KNN聚類,分割前景和背景特征空間,構(gòu)建帶置信度的前景-背景特征詞典.在聚類中將近鄰的參數(shù)設(shè)置為常數(shù)(近鄰的參數(shù)設(shè)置過高會降低跟蹤的準(zhǔn)確度,過低會影響算法的實(shí)時運(yùn)行速度,為了兼顧跟蹤的速度與準(zhǔn)確度,通過大量實(shí)驗仿真將近鄰的參數(shù)設(shè)置為經(jīng)驗值10),并將距離小于固定值的近鄰聚為一類.記C(j)為每類的置信度,則有
C(j)=S+(i)-S-(i)S+(i)+S-(i) ,i=1,2,…,Nt,(7)
其中,S+(i)和S-(i)分別為屬于和不屬于目標(biāo)框的像素數(shù).在特征空間中,與目標(biāo)框重合度高的類其前景置信度就越高(置信值越趨近于1);相反,與目標(biāo)框重合度低的類其背景置信度就越高(置信值越趨近于 -1).
跟蹤過程中,文中算法在一定的搜索區(qū)域Pt內(nèi),依據(jù)目標(biāo)的大小變化先進(jìn)行變尺度超像素分割,搜索區(qū)域Pt以{Xt-1,Yt-1}為中心,以λd{Wt-1,Ht-1}為大?。S后提取每個超像素的特征并輸入到超限學(xué)習(xí)機(jī),對超像素進(jìn)行前景-背景分類,之后,通過模塊匹配快速找到其最近鄰和所屬的類j.每個超像素的前景-背景置信度由其所屬類的置信度C(j)和其最小類內(nèi)距計算得出,即
(8)
?l=1,2,…,N.(9)
(10)
在頻域表示內(nèi),對式(10)中的H進(jìn)行逐元素求偏導(dǎo),最終得所需濾波器H*的解析解為
(11)
在當(dāng)前目標(biāo)中心位置{Xt,Yt}處,利用所得相關(guān)濾波器搜索目標(biāo)的尺寸,搜索尺寸設(shè)置為尺度金字塔的m個尺度級數(shù).當(dāng)新的一幀到來時,提取不同尺度目標(biāo)圖像塊的HOG特征并求得其頻域為Z,利用得到的濾波器計算每個尺度的相關(guān)響應(yīng),求得相關(guān)得分為
yi=F-1(H*⊙Zi) ,i=1,2,…,m.(12)
從中將響應(yīng)值最大的尺度和粒子濾波的結(jié)果進(jìn)行加權(quán)處理后,作為當(dāng)前幀的尺度S,后續(xù)依據(jù)固定的學(xué)習(xí)速率對濾波器進(jìn)行更新.
文中所提算法仿真的實(shí)驗環(huán)境配置為3.30 GHz Intel(R) Core(TM)i3-3220 CPU的臺式機(jī),軟件環(huán)境為Matlab R2016b (64 bit).
(1) 算法耗時分析.文中選取4個典型的視頻序列,通過平均聚類樣本數(shù)、外觀建模時間和平均跟蹤速度3項對比分析了SPT[5]算法和文中所提算法,具體數(shù)據(jù)如表1所示.SPT[5]算法在4個視頻序列中聚類的樣本數(shù)每次均達(dá)到 4 000 以上,每次的聚類耗時最少的為Bird2序列達(dá)到了 22.68 s.SPT[5]算法在外觀模型聚類上的耗時導(dǎo)致算法每幀的跟蹤用時至少為 2 s,達(dá)不到實(shí)時要求.文中所提算法將表觀建模時間降至 1 s 以內(nèi),每幀的處理時耗降至 0.15 s 左右,顯著提高了目標(biāo)跟蹤的速度.
表1 算法時間性能對比分析表
(2) 算法性能驗證.SPT[5]算法針對12個測試視頻進(jìn)行了性能分析,由于原算法需由作者根據(jù)視頻序列目標(biāo)的運(yùn)動信息預(yù)先人工設(shè)定不同的運(yùn)動參數(shù)(共6個),所以筆者基于這12個視頻序列和原算法以及一些主流跟蹤算法進(jìn)行比較,包括TLD算法[3]、核結(jié)構(gòu)輸出(Structured output kernels,Struck)算法[1]、VTD算法[7].算法針對各個測試視頻的跟蹤性能采用中心位置誤差(Center Location Error,CLE)和成功跟蹤幀數(shù)(Successfully Tracked Frames,STF)指標(biāo)表示,其中,CLE表示跟蹤算法預(yù)測出的目標(biāo)中心與真實(shí)目標(biāo)中心的像素距離值在每個序列上的平均值,STF表示序列中跟蹤算法預(yù)測出的目標(biāo)框與真實(shí)目標(biāo)框的重合率在50%以上的總幀數(shù).
由表2可知,文中所提算法在9個測試視頻上具有穩(wěn)定的跟蹤效果,且算法的總體平均性能優(yōu)于TLD算法[3]、Struck算法[1]和VTD算法[7]的性能.
表2 算法對于測試視頻序列的CLE、STF性能指標(biāo)
(3) 算法性能分析.為了進(jìn)一步驗證算法的性能,選取另外一些測試視頻并將算法與一些跟蹤算法進(jìn)行了跟蹤結(jié)果的比較,部分視頻序列的跟蹤結(jié)果如圖2所示.比較算法包括TLD算法[3]、稀疏聯(lián)合模型(Sparsity-based Collaborative Model,SCM)算法[8]和核關(guān)聯(lián)濾波(Kernelized Correlation Filters,KCF)算法[4].
圖2 不同算法的跟蹤結(jié)果
筆者在超像素分割的基礎(chǔ)上提出了一種新的目標(biāo)跟蹤算法,算法利用超像素分割和特征提取分別獲取大量前景和背景模板,之后利用ELM和KNN聚類分別構(gòu)建目標(biāo)和背景的判別式外觀模型,實(shí)現(xiàn)前景和背景建模的分離,并結(jié)合粒子濾波得到目標(biāo)的最優(yōu)位置;最后,結(jié)合相關(guān)濾波策略對目標(biāo)進(jìn)行尺度估計.在大量測試視頻序列上,通過定量的實(shí)驗分析,證明了文中所提算法在處理速度上優(yōu)于原算法,并針對目標(biāo)的遮擋、快速移動、形變以及尺度變化,均具有良好的魯棒性.
[1] HARE S, GOLODETZ S, SAFFARI A, et al. Struck: Structured Output Tracking with Kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2096-2109.
[2] 張浪, 侯志強(qiáng), 余旺盛, 等. 利用快速傅里葉變換的雙層搜索目標(biāo)跟蹤算法[J]. 西安電子科技大學(xué)學(xué)報, 2016, 43(5): 153-159.
ZHANG Lang, HOU Zhiqiang, YU Wangsheng, et al. Two-level Searching Tracking Algorithm Based on Fast Fourier Transform[J]. Journal of Xidian University, 2016, 43(5): 153-159.
[3] KALAL Z, MIKOLAJCZYK K, MATAS J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422.
[4] LI Y, ZHU J. A Scale Adaptive Kernel Correlation Filter Tracker with Feature Integration[C]//Lecture Notes in Computer Science: 8926. Heidelberg: Springer Verlag, 2014: 254-265.
[5] YANG F, LU H, YANG M H. Robust Superpixel Tracking[J]. IEEE Transactions on Image Processing, 2014, 23(4): 1639-1651.
[6] KWON J, LEE K M. Visual Tracking Decomposition[C]//Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2010: 1269-1276.
[7] TANG J, DENG C, HUANG G B. Extreme Learning Machine for Multilayer Perceptron[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(4): 809-821.
[8] ZHONG W, LU H, YANG M H. Robust Object Tracking via Sparsity-based Collaborative Model[C]//Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2012: 1838-1845.