宋建鋒,苗啟廣,申 猛,權(quán)義寧,陳毓生
(1.西安電子科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710071;2.中國(guó)人民解放軍96963部隊(duì) 北京 100000)
紅外成像設(shè)備可以在弱光照條件下成像,相對(duì)于可見光成像擁有更好的適用性。因此,紅外成像在夜間監(jiān)控、搶險(xiǎn)和救援等領(lǐng)域應(yīng)用廣泛[1],而在這些應(yīng)用領(lǐng)域,目標(biāo)跟蹤發(fā)揮著不可或缺的作用。與可見光目標(biāo)跟蹤相比,紅外目標(biāo)跟蹤可以在弱光條件下應(yīng)用,同時(shí)其受光照變化影響較小。但是,紅外圖像中物體沒有顏色信息,因此跟蹤算法無(wú)法利用顏色信息判斷目標(biāo),而且紅外圖像通??臻g信息較少,這導(dǎo)致難以提取到可辨識(shí)的特征進(jìn)行跟蹤[2]。
目標(biāo)跟蹤方法主要有基于點(diǎn)的跟蹤方法和基于外觀的跟蹤方法。基于點(diǎn)的跟蹤方法將目標(biāo)看成一個(gè)點(diǎn),卡爾曼濾波方法即是一種典型的基于點(diǎn)的跟蹤方法;基于外觀的跟蹤方法,提取目標(biāo)的外觀,用于尋找目標(biāo),主要使用模板匹配方法,常用方法有支持向量機(jī)跟蹤算法和相關(guān)濾波跟蹤算法等。文獻(xiàn)[3]提出最小平方和誤差 (Minimum Output Sum of Squared Error , MOSSE)算法,將相關(guān)濾波方法引入目標(biāo)跟蹤領(lǐng)域。文獻(xiàn)[4]提出的核化循環(huán)結(jié)構(gòu)檢測(cè)跟蹤 (Circulant Structure of tracking-by-detection with Kernels, CSK)算法,在 MOSSE 算法的基礎(chǔ)上,加入了正則化項(xiàng),防止濾波器過擬合,使用了核函數(shù),并且引入了循環(huán)矩陣來進(jìn)行稠密采樣。文獻(xiàn)[5]在CSK算法的基礎(chǔ)上,引入了顏色特征。文獻(xiàn)[6]在CSK算法的基礎(chǔ)上,引入方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征,提出了核相關(guān)濾波 (Kernelized Correlation Filter, KCF)算法。這些特征的加入,能提取到更多的信息,有效提高了相關(guān)濾波跟蹤器的跟蹤準(zhǔn)確率。近年來,卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺諸多領(lǐng)域取得了巨大成功,文獻(xiàn)[7]提出了多層卷積特征(Hierarchical Convolutional Features, HCF)算法。該算法使用多層卷積特征分別訓(xùn)練相關(guān)濾波模型,然后對(duì)響應(yīng)圖進(jìn)行加權(quán)融合,取得了較好的跟蹤效果。文獻(xiàn)[8]使用多個(gè)卷積層進(jìn)行相關(guān)濾波,對(duì)多個(gè)響應(yīng)圖進(jìn)行融合,用于紅外跟蹤,該算法在視覺目標(biāo)跟蹤 (Visual Object Tracking , VOT)紅外數(shù)據(jù)集上取得了很好的成績(jī)。文獻(xiàn) [9] 針對(duì)視覺跟蹤中目標(biāo)表觀變化、尺度及旋轉(zhuǎn)變化問題,提出了基于快速傅里葉變換的雙層搜索目標(biāo)跟蹤算法, 對(duì)表觀變化、尺度及旋轉(zhuǎn)變化具有較強(qiáng)的魯棒性,而且跟蹤實(shí)時(shí)性較好。文獻(xiàn) [10] 提出一種基于響應(yīng)圖和熵函數(shù)來評(píng)估各卷積神經(jīng)網(wǎng)絡(luò)層跟蹤性能的方法,較大提升了跟蹤準(zhǔn)確率。文獻(xiàn)[11]改進(jìn)了多層卷積特征算法中各個(gè)卷積層融合策略,提出了HCFTstar 算法, 進(jìn)一步提高了跟蹤準(zhǔn)確度。
針對(duì)紅外單目標(biāo)跟蹤問題,筆者以相關(guān)濾波跟蹤算法作為基礎(chǔ)框架,使用卷積神經(jīng)網(wǎng)絡(luò)的卷積層來提取特征,并使用差分圖像和形態(tài)學(xué)操作來提取目標(biāo)的運(yùn)動(dòng)信息,將該運(yùn)動(dòng)信息作為一種特征,動(dòng)態(tài)融合不同特征層相關(guān)濾波響應(yīng)圖,結(jié)合不同特征的優(yōu)勢(shì),以獲得更好的跟蹤準(zhǔn)確率。
對(duì)于樣本集X的每一個(gè)元素Xi,設(shè)定一個(gè)期望輸出yi,需要找到一個(gè)w,使得f(w)=wTXi逼近yi,使用最小二乘法求w:
(1)
其中,λ是正則化參數(shù),防止過擬合。式 (1)中, ‖Xw-y‖2+λ‖w‖2對(duì)w求導(dǎo),并令導(dǎo)數(shù)為零,得到
w=(XTX+λI)-1XTy。
(2)
由于使用循環(huán)采樣構(gòu)建樣本集X,由循環(huán)矩陣的性質(zhì),利用傅里葉變換矩陣進(jìn)行對(duì)角化,有
(3)
(4)
其中,⊙ 表示矩陣對(duì)應(yīng)元素相乘,x*表示x的共軛矩陣。
在樣本集中,中心處為基礎(chǔ)樣本,四周是由基礎(chǔ)樣本循環(huán)移位得到的移位樣本,因此期望輸出y的中心值最大,向四周遞減。在實(shí)際使用中,期望輸出y通常使用一個(gè)高斯分布。在跟蹤過程中,輸入第1幀圖像和目標(biāo)位置信息,獲取基礎(chǔ)樣本,使用式 (4)初始化模型,在后續(xù)幀中,輸入樣本z,則可求得響應(yīng)圖R(Z)為
(5)
得到了響應(yīng)圖,即可求得新的一幀目標(biāo)的位置,然后使用得到位置的目標(biāo)樣本更新模型。
VGG是由牛津大學(xué)的視覺幾何組(Visual Geometry Group)提出的一種卷積網(wǎng)絡(luò)模型[12],其在圖像識(shí)別領(lǐng)域取得了巨大成功。筆者使用 VGG 16 網(wǎng)絡(luò)第1組到第5組的最后一個(gè)卷積層提取特征,作為相關(guān)濾波跟蹤器的特征,對(duì)比不同卷積層特征的跟蹤效果,這5個(gè)特征層分別為第1組第2層(命名為C12),第2組第2層(C22),第3組第3層(C33),第4組第3層(C43),第5組第3層(C53)。筆者使用林雪平熱紅外數(shù)據(jù)集(the Link?ping Thermal InfraRed dataset, LTIR)[13],該數(shù)據(jù)集由瑞典林雪平大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室制作,主要用于單目標(biāo)的短時(shí)紅外目標(biāo)跟蹤方法的評(píng)價(jià)。該數(shù)據(jù)集包含 20 個(gè)紅外視頻序列,目標(biāo)主要包含人、動(dòng)物、車輛和四軸飛行器,序列平均長(zhǎng)度為 563 幀。圖 1 是各個(gè)卷積層在 LTIR 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,使用Object Tracking Benchmark (OTB)[14]提出的精確度和成功率兩個(gè)評(píng)價(jià)指標(biāo)對(duì)跟蹤器進(jìn)行評(píng)測(cè)??梢钥闯?,C33 卷積層精確度和成功率得分均較高,因此選擇第3組第3層卷積層作為卷積特征提取層進(jìn)行跟蹤。
圖1 不同卷積層特征實(shí)驗(yàn)結(jié)果
基于卷積特征的相關(guān)濾波跟蹤算法,當(dāng)紅外圖像序列中目標(biāo)和背景灰度相差較小時(shí),容易出現(xiàn)跟蹤失敗的情況。卷積特征提取的是目標(biāo)的空間域的信息,而在目標(biāo)跟蹤任務(wù)中,前后幀是相關(guān)聯(lián)的,目標(biāo)隨著時(shí)間變化的信息也很重要,通過提取目標(biāo)的運(yùn)動(dòng)信息,可以有效利用目標(biāo)的時(shí)間域信息。很多方法可以從圖像序列中提取運(yùn)動(dòng)信息,比如光流法、幀差法和背景減除法等。幀差法計(jì)算復(fù)雜度低,利于實(shí)時(shí)處理;幀差法對(duì)圖像序列的連續(xù)兩幀圖像做差分運(yùn)算(即兩幅圖像中對(duì)應(yīng)像素點(diǎn)的差值),得到運(yùn)動(dòng)目標(biāo)的輪廓,然后使用形態(tài)學(xué)操作去除噪點(diǎn)并使目標(biāo)連通。圖2 中是使用幀差法得到的差分圖像。
使用差分圖像特征的跟蹤器,在一些序列上跟蹤準(zhǔn)確率高于卷積特征的跟蹤器,但是總體準(zhǔn)確率低于卷積特征跟蹤器,差分圖像特征和C33卷積特征的跟蹤器精確度和成功率曲線如圖 3 所示。
圖2 連續(xù)兩幀和它們的差分圖像
圖3 差分圖像特征和C33卷積層特征跟蹤對(duì)比結(jié)果
卷積特征跟蹤器在多數(shù)序列中表現(xiàn)良好,而差分圖像跟蹤器在某些目標(biāo)和背景較難辨別的序列中表現(xiàn)較好。結(jié)合二者的優(yōu)勢(shì),通過分別訓(xùn)練不同特征的相關(guān)濾波模型,使用一定的權(quán)重系數(shù)融合不同模型得到的響應(yīng)圖來融合不同的特征,最終響應(yīng)圖R的表達(dá)式為
(6)
其中,Rn代表各個(gè)特征的響應(yīng)圖,dn是各層的系數(shù)。
固定權(quán)重融合特征的跟蹤器,無(wú)法充分發(fā)揮兩種特征的優(yōu)勢(shì),若要最大程度發(fā)揮兩種特征的優(yōu)勢(shì),需要根據(jù)不同的情況,調(diào)整權(quán)重系數(shù),使對(duì)跟蹤貢獻(xiàn)大的特征響應(yīng)圖的權(quán)重高,通過為權(quán)重系數(shù)dn設(shè)置不同的值來實(shí)現(xiàn)動(dòng)態(tài)融合。MOSSE 算法中使用峰值旁瓣比(Peak to sidelobe ratio,P)檢測(cè)跟蹤失敗,P可表示為
(7)
其中,gmax表示響應(yīng)圖最大值,σsl表示旁瓣的平均值,μsl表示旁瓣的標(biāo)準(zhǔn)差。
峰值旁瓣比可以用于表征峰值區(qū)域是目標(biāo)的置信度,因此,可以使用峰值旁瓣比作為各個(gè)特征的權(quán)重依據(jù),最終響應(yīng)圖R的計(jì)算公式可表示為
(8)
其中,fn為一個(gè)預(yù)設(shè)權(quán)重,max(Rn)表示第n個(gè)特征響應(yīng)值的最大值。
因?yàn)榫矸e特征總體上表現(xiàn)較好,因此預(yù)設(shè)權(quán)重較大。通過實(shí)驗(yàn)選擇卷積特征和差分圖像特征的預(yù)設(shè)權(quán)重為1.1∶1 ,使用式 (8)進(jìn)行多特征融合。圖4 是使用卷積特征和差分圖像特征融合的跟蹤器(Muti-feature fusion Correlation Filter,MCF)和單獨(dú)使用兩種特征的跟蹤器的跟蹤對(duì)比。融合特征的跟蹤器精確度和成功率分別為 0.756 和 0.539,C33卷積特征跟蹤器的精確度和成功率分別為 0.652 和 0.498,差分圖像特征的跟蹤器的精確度和成功率分別為 0.437 和 0.342。從整體上看,融合特征的跟蹤器與單獨(dú)使用卷積特征的跟蹤器相比,精確度提升了約 16%,成功率提升了約 8% 。
圖4 融合特征和C33卷積層特征及差分圖像特征跟蹤對(duì)比結(jié)果
在 LTIR 紅外數(shù)據(jù)集上,使用文中的算法和其他跟蹤算法進(jìn)行了實(shí)驗(yàn)對(duì)比。文中選取了 KCF[6]、DSST[15]、CSK[16]和SiamFC[17]4種跟蹤算法進(jìn)行對(duì)比。實(shí)驗(yàn)對(duì)比了跟蹤器的精確度、成功率和算法運(yùn)行效率。
圖 5 為對(duì)比實(shí)驗(yàn)的精確度圖和成功率圖,其中加入了單獨(dú)使用C33 卷積特征的跟蹤器進(jìn)行對(duì)比。從圖中可以看出,文中提出的多特征融合算法 MCF的精確度和成功率都超過對(duì)比跟蹤器的精確度和成功率。
圖5 文中算法與其他跟蹤器的精確度和成功率對(duì)比結(jié)果
表 1 是各跟蹤器精確度、成功率和運(yùn)行速度的對(duì)比,速度單位是幀每秒。筆者提出的MCF算法與同類算法中最好的KCF算法相比,精確度提高了12%,成功率提高了6.4%。CSK 算法由于使用了循環(huán)采樣,并且直接使用原始灰度圖,沒有特征提取的過程,因此運(yùn)算速度遠(yuǎn)高于其他算法,但是其跟蹤準(zhǔn)確率較低。
表1 各跟蹤器得分和速度
筆者提出了一種多特征融合的相關(guān)濾波紅外單目標(biāo)跟蹤算法,通過多種特征的動(dòng)態(tài)融合,能夠有效發(fā)揮各個(gè)特征的優(yōu)勢(shì),提高紅外目標(biāo)跟蹤的準(zhǔn)確率。實(shí)驗(yàn)表明,筆者提出的算法在林雪平熱紅外數(shù)據(jù)集上的跟蹤的精確度和成功率比KCF算法的分別高12%和6.4% ,尤其是在一些目標(biāo)和背景難以區(qū)分的序列中,跟蹤準(zhǔn)確率提升較大。