張銘珂, 張選德
(陜西科技大學(xué) 電子信息與人工智能學(xué)院, 陜西 西安 710021)
目標(biāo)追蹤是計算機(jī)視覺領(lǐng)域的熱點問題之一,目前已廣泛應(yīng)用于人機(jī)交互、自動駕駛、交通控制等各個領(lǐng)域[1-3].單目標(biāo)跟蹤可以描述為:給定目標(biāo)在第一幀中的位置,預(yù)測目標(biāo)物體在后續(xù)幀中的運動軌跡.盡管在過去幾十年中研究人員已經(jīng)取得了巨大的進(jìn)展,但由于存在光照變化、形變、遮擋、平面內(nèi)/外旋轉(zhuǎn)等問題的干擾,目標(biāo)跟蹤仍然是一項具有挑戰(zhàn)性的任務(wù)[4-6].
目前,目標(biāo)追蹤算法主要分為判別式[7-9]和生成式兩類.生成式目標(biāo)追蹤算法首先在初始幀中對目標(biāo)物體進(jìn)行建模,通過在后續(xù)幀中搜索與生成模型相似的區(qū)域來確定目標(biāo)物體所在位置.生成式方法主要有卡爾曼濾波法[10]、Mean-Shift[11]以及粒子濾波[12]等.判別式目標(biāo)追蹤方法則是在初始幀提取正負(fù)樣本,利用樣本學(xué)習(xí)判別器,將在后續(xù)幀中尋找目標(biāo)位置的問題轉(zhuǎn)化為判斷目標(biāo)區(qū)域和背景區(qū)域的二分類問題.
近年來,判別相關(guān)濾波追蹤算法在跟蹤精度和速度之間取得了很好的平衡,備受關(guān)注.2010年,Bolme等[13]提出最小輸出平方誤差和(MOSSE)算法,首次將相關(guān)濾波器引入目標(biāo)追蹤,實現(xiàn)了極高的跟蹤速度.2012年,Henriques等[14]通過應(yīng)用循環(huán)結(jié)構(gòu)和嶺回歸提出利用核檢測追蹤的循環(huán)結(jié)構(gòu)算法(CSK),在保持追蹤速度的基礎(chǔ)上,提高了追蹤精度.2015年,Henriques等[15]在CSK算法的基礎(chǔ)上,引入多通道特征的核相關(guān)濾波追蹤算法(KCF),將原本的灰度特征改為多通道HOG特征,大幅提高了追蹤性能.2014年,Danelljan等[16]提出使用顏色特征的相關(guān)濾波追蹤算法(CN),使用顏色特征的追蹤算法利用目標(biāo)物體豐富的顏色信息,在彩色視頻序列中具有較好的表現(xiàn).能夠有效區(qū)分目標(biāo)與周圍背景的特征在視覺跟蹤中起到非常重要的作用.2014年,Danelljan等[8]利用尺度金字塔基于相關(guān)濾波追蹤框架解決了精確估計尺度的難題.2015年,Danelljan等[7]又提出空間正則化的相關(guān)濾波追蹤算法(SRDCF),在濾波器上作用倒高斯形狀的系數(shù)函數(shù),抑制邊界效應(yīng)的影響,達(dá)到很好的追蹤結(jié)果.2018年,F(xiàn)eng Li等[17]提出時空正則化的相關(guān)濾波追蹤算法(STRCF),在空間正則化的基礎(chǔ)上引入時間正則化來控制濾波器的更新.2020年,Yiming Li等[18]在STRCF的基礎(chǔ)上提出自動時空正則化的相關(guān)濾波追蹤算法(AutoTrack).根據(jù)濾波結(jié)果響應(yīng)圖自動調(diào)整時間正則化項和空間正則化項,使用傳統(tǒng)手工特征HOG在速度和精度上超越許多優(yōu)秀的算法.
手工設(shè)計的特征已經(jīng)不能滿足追蹤問題的需要,隨著近年來深度學(xué)習(xí)的發(fā)展,許多跟蹤器[19-23]選擇使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)提取的特征作為跟蹤目標(biāo)的表示,在精度和魯棒性方面取得了很大的進(jìn)展.在2015~2017年,Danelljan等[23]將深度特征引入相關(guān)濾波追蹤框架中,提出Deep SRDCF、C-COT[9]、ECO[5]等算法,達(dá)到較高的追蹤精度.2019年,Qi等[20]使用多層CNNs特征分別計算多個追蹤器,引入孿生網(wǎng)絡(luò)來比較追蹤器的結(jié)果,得到了較好的追蹤結(jié)果.
視頻序列中,目標(biāo)物體隨著時間的推移發(fā)生不可預(yù)測的變化,這種變化發(fā)生在遮擋、形變、背景雜亂和旋轉(zhuǎn)等各種場景中,可能導(dǎo)致濾波器無法根據(jù)當(dāng)前幀中的外觀特征在感興趣區(qū)域中識別跟蹤目標(biāo),所以無論是使用深度網(wǎng)絡(luò)特征還是手工特征,濾波器的更新策略至關(guān)重要.相關(guān)濾波類追蹤算法近年來迅速發(fā)展,但更新策略還是沿用之前簡單的加權(quán)方法,這限制了追蹤算法的性能.
本文針對上述相關(guān)濾波追蹤算法中濾波器的更新問題,提出一種基于正定矩陣流形測地線的改進(jìn)更新策略.濾波器的更新本質(zhì)上可以看作是自相關(guān)核矩陣的更新,利用前一幀與當(dāng)前幀產(chǎn)生的兩自相關(guān)核,在正定矩陣流形測地線上求得更新后的核函數(shù)矩陣,進(jìn)而計算出更新后的濾波器.通過在更新中引入自相關(guān)核矩陣間的幾何先驗信息,在這種幾何約束的基礎(chǔ)上,更好的融合歷史幀與當(dāng)前幀中含有的目標(biāo)物體信息,提高追蹤性能.將提出的濾波器更新策略分別應(yīng)用于使用HOG特征的KCF、DCF以及使用CNNs特征的TCCF,提出相應(yīng)的改進(jìn)更新策略的相關(guān)濾波追蹤算法Ours_g、Ours_l和TCCF_l.在OTB-50公開數(shù)據(jù)集上對改進(jìn)算法與相對應(yīng)的基線算法進(jìn)行了廣泛的對比實驗.實驗結(jié)果表明本文所提出的更新策略可以提高追蹤效果,并且能夠作為一個獨立模塊合并于相關(guān)濾波追蹤算法中,具有廣泛的可推廣性.
相關(guān)濾波追蹤算法[15]以學(xué)習(xí)判別器為核心,學(xué)習(xí)到的判別相關(guān)濾波器作用于連續(xù)幀中的感興趣區(qū)域,找到濾波器響應(yīng)最大的位置,即目標(biāo)所在位置.訓(xùn)練樣本xi是由目標(biāo)樣本循環(huán)移位產(chǎn)生,通過將目標(biāo)樣本在搜索窗口中的所有可能的平移建模為循環(huán)移位并將它們連接起來形成數(shù)據(jù)矩陣來實現(xiàn),循環(huán)的結(jié)構(gòu)有利于非常有效地解決頻率域中以下的嶺回歸問題,即樣本xi與其回歸目標(biāo)yi之間的平方誤差和最小.
(1)
式(1)中:f(z)=wTz,λ為正則化參數(shù),y為回歸標(biāo)簽.
式(1)的最小化問題有封閉的解,可以表示為
w=(XTX+λI)-1XTY
(2)
式(2)中:數(shù)據(jù)陣X中每行代表一個樣本xi,y的每個元素都代表一個回歸標(biāo)簽,I是單位矩陣.
將上式轉(zhuǎn)化到頻率域求解可得
(3)
式(3)中: ∧代表傅里葉變換,?代表元素間的乘.
KCF提出使用核技巧將線性問題的輸入映射到非線性特征空間φ(x).首先將解w表示為樣本xi的線性組合
(4)
由于
φT(x)φ(x′)=k(x,x′)
(5)
可以推出
(6)
此時,α在核空間中的解為
α=(kxx+λI)-1y
(7)
由于式(7)中的kxx為循環(huán)矩陣,可得式(7)在頻率域中的解為
(8)
為適應(yīng)目標(biāo)物體在視頻序列中發(fā)生的各種變化,相關(guān)濾波追蹤算法采用的更新策略為
(9)
目標(biāo)響應(yīng)可由下式求出
(10)
流形M是一個拓?fù)淇臻g,任一點的局部鄰域都近似于一個歐氏空間.當(dāng)M在切空間具有一個連續(xù)的度量,例如內(nèi)積,則該流形可稱為黎曼流形.測地線[24,25]即黎曼流形上兩點間的最短曲線,測地線的長度被定義為測地距離.設(shè)M是一個黎曼流形,x,y是流形M上的兩個點,γ是連接x和y的測地線,那么γ具有如下參數(shù)化形式[25]:
γx,y:[0,1]→M
s.t.γxy(0)=x,γxy(1)=y
(11)
記正定矩陣流形為Pd,對于任意的X,Y∈Pd,它們之間的測地線有閉式解[24]:
γxy(s):=X1/2(X-1/2YX-1/2)sX1/2
0≤s≤1
(12)
圖1 基于正定矩陣流形測地線的更新策略
基于以上分析,對k′的計算如下:
(13)
由于自相關(guān)核矩陣可由離散傅里葉變換(DFT)對角化[15],即
(14)
(15)
式(13)可以寫為
(16)
由此,得到式(13)在頻域的表達(dá)式.
(17)
式(17)中: 為頻率域中,更新后的自相關(guān)核.
(18)
基于上述理論推導(dǎo),本文在表1中給出相應(yīng)的改進(jìn)更新策略的相關(guān)濾波追蹤算法.
表1 改進(jìn)更新策略的相關(guān)濾波追蹤算法
圖2為基于正定矩陣流形測地線更新策略的追蹤算法流程示意圖.頻率域中第t+1幀的特征與第t+2幀的特征進(jìn)行核相關(guān)得到互相關(guān)核矩陣,通過濾波器與互相關(guān)核矩陣在時域的卷積操作,即式(10)中在頻率域的相乘操作,得到響應(yīng)圖.根據(jù)響應(yīng)圖中峰值的位置預(yù)測目標(biāo)物體在t+2幀中的位置.
圖2 基于正定矩陣流形測地線更新策略的追蹤算法
本文提出的算法實現(xiàn)平臺為Windows10系統(tǒng)Matlab2016a,計算機(jī)配置為Intel(R) Core(TM) i7-8750HCPU @2.20GHz 2.21GHz CPU,NVIDIA GeForce GTX 1070和16.0GB內(nèi)存.使用VGG-16[26]網(wǎng)絡(luò)在Caffe[27]框架上進(jìn)行深度特征的提取.S的取值為0.04.
將提出的更新策略應(yīng)用到使用HOG特征的核相關(guān)濾波追蹤算法KCF、DCF和使用CNNs特征的TCCF[21]上.由于KCF和DCF算法分別使用的是高斯核和線性核,所以將改進(jìn)算法分別命名為Ours_g,Ours_l.TCCF的改進(jìn)算法命名為TCCF_l.在OTB-50[28]上對提出的算法與基線算法進(jìn)行比較實驗,分為定量與定性兩個部分.并將提出的三種算法與其他先進(jìn)的追蹤算法Struck、TLD進(jìn)行比較.使用的評價標(biāo)準(zhǔn)為成功率和精確率,其中成功率定義為預(yù)測跟蹤框與標(biāo)注跟蹤框之間的重疊率超過某一閾值的幀數(shù)占總幀數(shù)的比例,精確率圖定義為預(yù)測跟蹤框與標(biāo)注跟蹤框之間的中心位置誤差小于某一閾值的幀數(shù)占總幀數(shù)的比例.
精確率圖和成功率圖如圖3(a)、(b)所示.無論是精確率還是成功率,Ours_g、Ours_l相比其他追蹤算法Struck、TLD具有更好的結(jié)果.Ours_g相對于KCF追蹤算法精確率提高了0.3%,成功率持平,Ours_l相對于DCF追蹤算法精確率提高了0.2%,成功率提高了0.3% .
以TCCF為基線算法的TCCF_l在兩個評價標(biāo)準(zhǔn)上均有提高.在精確率上提高2.6%,在成功率上提高4%.
結(jié)果表明,無論是基于深度特征還是手工特征,在僅對更新策略進(jìn)行改進(jìn)的條件下都相對提升了追蹤效果.雖然改進(jìn)算法在總體追蹤結(jié)果上提升并不大,但更新策略作為獨立模塊可以和目前跟蹤效果領(lǐng)先的多種相關(guān)濾波算法結(jié)合.即本文的更新策略比原有更新策略有稍好的性能且具有廣泛的推廣能力.
(a)精確率圖
(b)成功率圖圖3 本文提出的算法在數(shù)據(jù)集OTB-50 上的精確率對比和成功率對比
OTB-50數(shù)據(jù)集包含多個具有不同屬性的視頻序列,不同屬性對應(yīng)于跟蹤過程中可能出現(xiàn)的多種具有挑戰(zhàn)性的情況,針對不同的視頻屬性對四個追蹤算法進(jìn)行評價.其中包含的屬性包括:遮擋(OCC)、尺度變化(SV)、非剛性形變(DEF)、平面內(nèi)旋轉(zhuǎn)(IPR)、平面外旋轉(zhuǎn)(OPR)、光照變化(IV)、運動模糊(MB)、快速運動(FM)、背景雜亂(BC)、超出視野(OV)以及低分辨率(LR)共11種.為了進(jìn)一步比較各算法的性能,下面將對追蹤器進(jìn)行不同屬性上的實驗.
如表2所示,Ours_g在11種視頻屬性中的6種屬性上取得了更好的精確率結(jié)果,Ours_l在10種屬性上的精確率結(jié)果都超過了基線算法DCF.在表3中,Ours_g在5種屬性上取得了最好的成功率結(jié)果,Ours_l在全部11種視頻屬性上的成功率結(jié)果都超過了DCF.上述實驗結(jié)果表明,本文所提出的自相關(guān)核矩陣更新策略對比原始濾波器更新策略,相對提高了整體跟蹤性能.
表2 4種追蹤算法在11種視頻屬性
表3 4種追蹤算法在11種視頻屬性
表4和表5是TCCF_l與其基線算法在10種不同的屬性上進(jìn)行的精確率和成功率比較.可以看到,在追蹤精確率方面,除屬性BC得到一樣的結(jié)果外,其余屬性改進(jìn)算法的精確率均有所提高.而在成功率比較中,只有屬性IV上改進(jìn)算法結(jié)果稍差.
本文所提出的自相關(guān)核更新策略引入了前后兩幀計算的自相關(guān)核之間的幾何關(guān)系,通過利用這種幾何約束,增強(qiáng)了追蹤算法的魯棒性.對比實驗表明,追蹤算法在面對視頻序列中具有挑戰(zhàn)性的情況時,本文所提出的更新策略的可行性及有效性.
表4 2種追蹤算法在10種視頻屬性
表5 2種追蹤算法在10種視頻屬性
這里選取了Ours_g、Ours_l、KCF、DCF 4種追蹤算法在OTB-50數(shù)據(jù)集中的5個具有代表性的視頻序列上的結(jié)果進(jìn)行分析,分別是:Soccer、Doll、Faceocc、Suv、Bolt.這5個視頻序列涉及到遮擋、形變、平面內(nèi)/平面外旋轉(zhuǎn)、運動模糊以及快速運動等屬性.如圖4所示,Soccer視頻序列中,發(fā)生運動模糊以及遮擋情況時,DCF追蹤算法跟蹤框漂移,無法繼續(xù)定位目標(biāo)物體,但采用本文所提出的自相關(guān)核矩陣更新的Ours_l還能定位目標(biāo)物體.這表明更新策略對追蹤結(jié)果有較大的影響.
Doll視頻序列以及Faceocc視頻序列的追蹤結(jié)果表明,目標(biāo)物體在發(fā)生各種無法預(yù)測的變化時,雖然經(jīng)典算法能夠定位目標(biāo)物體,但都存在偏移.本文所提出的Ours_g與Ours_l追蹤算法,能更精準(zhǔn)的定位目標(biāo).Suv視頻序列與Bolt視頻序列中,因為追蹤結(jié)果相同,追蹤框重疊.追蹤結(jié)果表明,在基準(zhǔn)算法KCF與DCF能準(zhǔn)確定位目標(biāo),良好追蹤時,本文所提出的算法取得了和基線算法相同的結(jié)果.
圖4 4種追蹤算法在5個視頻序列上的追蹤結(jié)果
圖5展示了TCCF和TCCF_l兩追蹤算法在Soccer、Sylvester、Ironman和Subway四個視頻序列上的追蹤結(jié)果.在Soccer和Sylvester視頻序列中,雖然兩追蹤器都能定位目標(biāo),但從Sylvester的第676幀、781幀以及Soccer的第52幀、123幀可以看出,TCCF_l可以更準(zhǔn)確的定位目標(biāo).而在Ironman視頻序列中,目標(biāo)物體發(fā)生了快速運動和運動模糊等情況,此時由于使用本文所提出的更新策略,引入自相關(guān)核間的幾何關(guān)系,追蹤器能正確定位目標(biāo),表現(xiàn)出更好的追蹤結(jié)果.在Subway視頻序列中,因為目標(biāo)行人發(fā)生了被遮擋的情況,此時TCCF_l依然能夠準(zhǔn)確定位目標(biāo),TCCF追蹤器出現(xiàn)了跟蹤框漂移.
綜上,在8個視頻序列上的定性分析表明,本文提出的算法在保持了原始算法優(yōu)秀的追蹤結(jié)果的同時,改善了原始算法表現(xiàn)相對較弱的視頻序列上的結(jié)果.對比結(jié)果突出了更新策略的重要性,證明了引入自相關(guān)核矩陣幾何約束的有效性.
圖5 2種追蹤算法在4個視頻序列上的追蹤結(jié)果
本文針對相關(guān)濾波追蹤算法,提出一種基于正定矩陣流形測地線的改進(jìn)濾波器更新策略.原始算法中采用的更新策略為簡單加權(quán),這種更新策略雖然融合了當(dāng)前幀與歷史幀的目標(biāo)信息,能達(dá)到一定的適應(yīng)目標(biāo)物體變化、提高魯棒性的目的,但忽視了前后兩幀自相關(guān)核函數(shù)之間本就存在的幾何關(guān)系.本文提出的自相關(guān)核函數(shù)更新策略正是基于這種關(guān)系,將前后兩幀圖像產(chǎn)生的自相關(guān)核矩陣在一定的幾何約束下融合,求得更加魯棒的濾波器,以達(dá)到更好的追蹤效果.在OTB-50上對使用不同特征的相關(guān)濾波追蹤算法進(jìn)行了實驗,結(jié)果表明,本文所提出的更新策略在不影響追蹤速度的基礎(chǔ)上,提高了算法的追蹤性能.另外,該更新策略是一種適用范圍廣、可遷移的更新策略,可以作為獨立的模塊與相關(guān)濾波類追蹤算法進(jìn)行融合,具有廣泛的應(yīng)用前景.