孫夢宇,王鵬,徐均琪,李曉艷,郜輝,邸若海
(1 西安工業(yè)大學(xué) 光電工程學(xué)院,西安 710021)
(2 西安工業(yè)大學(xué) 電子信息工程學(xué)院,西安 710021)
視覺目標(biāo)跟蹤任務(wù)作為機(jī)器視覺領(lǐng)域中的重要環(huán)節(jié)近年來受到了廣泛的關(guān)注[1-4]。紅外目標(biāo)跟蹤是基于熱紅外圖像對目標(biāo)進(jìn)行跟蹤的視覺任務(wù),根據(jù)熱紅外圖像的成像原理,在目標(biāo)受到部分掩體遮擋時(shí),依然能夠獲取目標(biāo)信息,且在黑夜條件下,紅外相機(jī)能夠?qū)δ繕?biāo)進(jìn)行觀測,而可見光無法獲取目標(biāo)圖像。但紅外圖像相較于可見光圖像而言缺少紋理信息,并且紅外圖像中目標(biāo)邊界模糊且存在噪聲,使得目標(biāo)與背景區(qū)分難度更高[5-8]。
依據(jù)在線訓(xùn)練的優(yōu)勢,相關(guān)濾波算法具備良好的魯棒性[9-12],同時(shí)基于手工特征的相關(guān)濾波算法無需圖形處理器(Graphics Processing Unit,GPU)或神經(jīng)網(wǎng)絡(luò)處理單元(Neural-Network Processing Unit,NPU),適用于部署在計(jì)算能力弱的嵌入式硬件平臺上。由于相關(guān)濾波算法訓(xùn)練無關(guān)圖像模態(tài),因此較多學(xué)者以基于可見光圖像的濾波算法[13-16]作為基礎(chǔ)開展研究,但直接將其應(yīng)用難以獲取較好的表現(xiàn)。GUNDOGDU E等[17]訓(xùn)練了紅外卷積網(wǎng)絡(luò)用于特征提取。YU Tianwen 等[18]提出了基于連續(xù)卷積和自適應(yīng)特征融合的魯棒性紅外跟蹤器(Robust TIR tracker based on the Continuous Correlation Filters and adaptive feature fusion,RCCF-TIR),采用相關(guān)峰值作為權(quán)重實(shí)現(xiàn)響應(yīng)圖的融合。ZHANG He 等[19]提出了基于水平集的ECO 算法(Efficient Convolution Operators based on the Level Set method,ECO_LS),額外加入圖像分割器,將分割結(jié)果與跟蹤結(jié)果融合。YUAN Di 等[20]提出了自適應(yīng)多特征融合模型(Adaptively Multi-Feature fusion Tracker,AMFT),根據(jù)Kullback-Leibler 散度衡量各個(gè)特征對應(yīng)的響應(yīng)圖。上述濾波算法更多關(guān)注于融合深度特征與手工特征,運(yùn)算負(fù)擔(dān)較大,而ECO_LS 僅采用手工特征,獲得了較好的表現(xiàn),但其采用的并行結(jié).構(gòu)同樣使其無法完成實(shí)時(shí)運(yùn)算。
近年來深度學(xué)習(xí)的目標(biāo)跟蹤算法收到了廣泛的關(guān)注[21-22]。目標(biāo)感知的深度跟蹤算法(Target-Aware Deep Tracking,TADT)[23]利用回歸損失和排序損失提高網(wǎng)絡(luò)對前景的分辨能力;結(jié)合分割的孿生網(wǎng)絡(luò)跟蹤算法(SiamMask)[24]將分割結(jié)合作為頭部加入跟蹤網(wǎng)絡(luò)中,獲得更為精確的目標(biāo)狀態(tài)信息;交叉模態(tài)蒸餾的判別預(yù)測模型(Discriminative Model Prediction with Cross-Modal Distillation,CMD-DiMP)[25]利用知識蒸餾將可見光信息轉(zhuǎn)化為紅外信息,獲取更高的跟蹤精度;HUANG Yueping 等[7]提出利用無監(jiān)督方法優(yōu)化特征提取網(wǎng)絡(luò),采用多通道濾波融合深度與淺層特征,獲得更好的目標(biāo)表達(dá)能力;LI Yingchao 等[26]將紅外圖像轉(zhuǎn)換至希爾伯特空間,并級聯(lián)多個(gè)通道注意力機(jī)制獲取更好的跟蹤精度。但基于深度學(xué)習(xí)的網(wǎng)絡(luò)需要大量的計(jì)算資源以及存儲(chǔ)資源的支持,須具備較好的硬件平臺才能達(dá)到實(shí)時(shí)表現(xiàn)。
針對上述問題,本文提出了自適應(yīng)信息選擇的變尺度相關(guān)濾波紅外目標(biāo)跟蹤算法,為增強(qiáng)紅外目標(biāo)特征表達(dá)能力,在原有提取的手工特征上,重新提取尺度為2 的梯度信息,豐富目標(biāo)信息,并在響應(yīng)圖融合階段加入權(quán)值,獲取更高的跟蹤精度;在訓(xùn)練過程中,將各個(gè)通道信息獨(dú)立看待,對每個(gè)通道做空間選擇,從而獲取更為準(zhǔn)確的表達(dá)能力;為適應(yīng)目標(biāo)邊界框比例的變換,在傳統(tǒng)的尺度估計(jì)后,構(gòu)建變尺度濾波器,調(diào)整邊界框比例,獲取更為準(zhǔn)確的邊界框。
提出的紅外目標(biāo)跟蹤算法的整體結(jié)構(gòu)如圖1 所示,紅色連接線表示樣本幀特征流向,綠色連接線表示當(dāng)前幀特征流向,黃色箭頭表示跟蹤過程。wt表示本幀的濾波器系數(shù),wt-1表示上一幀求解的濾波器系數(shù),f表示樣本特征,y表示理想響應(yīng)函數(shù)。
圖1 算法整體框架Fig.1 Overall algorithm architecture
算法共分為三個(gè)部分,分別是特征提取器、定位濾波器以及尺度濾波器。首先,在樣本幀和當(dāng)前幀中選取提取區(qū)域,將其送入特征提取器中提取特征信息,在特征提取器中,采用梯度直方圖以及灰度特征作為基礎(chǔ)特征,提取灰度特征后,在其基礎(chǔ)上額外提取新的梯度直方圖[27],用于補(bǔ)充目標(biāo)特征;然后,樣本幀特征信息將會(huì)輸入至定位濾波器中,在學(xué)習(xí)定位濾波器的階段,加入時(shí)間正則項(xiàng)以及空間信息選擇,以通道作為單位學(xué)習(xí)每個(gè)通道的空間權(quán)重,減少濾波器系數(shù);其次,學(xué)習(xí)到的定位濾波器系數(shù)將會(huì)與當(dāng)前幀的特征信息進(jìn)行卷積運(yùn)算,將多種特征對應(yīng)的響應(yīng)圖加權(quán)融合,獲取目標(biāo)位置;最后,從獲取的目標(biāo)位置提取變尺度樣本,根據(jù)所求的尺度濾波系數(shù)進(jìn)行卷積,獲取對應(yīng)的尺度因子,從而確定邊界框比例,獲取最終目標(biāo)的邊界框。
由于紅外圖像分辨率低,可能會(huì)出現(xiàn)圖像模糊、背景區(qū)分度不高等情況,如圖2 所示,這會(huì)導(dǎo)致原始提取到的手工特征難以表示目標(biāo)信息,并且模糊部分過多,原始的手工特征感受野過小,所提取到的特征與原有特征難以匹配。為此,在提取的灰度特征圖中重新提取梯度直方圖,其具備更大的感受野,并且與原始的梯度直方圖不同,能夠提取到不同表示的梯度信息,增強(qiáng)對目標(biāo)的表達(dá)能力。
圖2 數(shù)據(jù)集圖像Fig.2 The images in datasets
圖3 展示了部分特征可視化結(jié)果,為了方便展示,將特征均重新縮放至樣本大小,其中梯度直方圖部分與基于灰度特征的梯度直方圖部分均是選用了同一梯度方向通道的可視化結(jié)果,可以看到雖然兩種特征對應(yīng)的梯度方向一致,但其所獲得信息不同。由此完成了特征提取,所提取的特征將用于構(gòu)建定位濾波器。
圖3 特征可視化Fig.3 The visualization of features
由于目標(biāo)跟蹤為時(shí)序任務(wù),目標(biāo)在整個(gè)跟蹤過程中是運(yùn)動(dòng)的,其背景同樣會(huì)出現(xiàn)變化,為了有效提高濾波器時(shí)序表達(dá)能力,在構(gòu)建定位濾波器過程中加入時(shí)間正則項(xiàng),有效應(yīng)對目標(biāo)運(yùn)動(dòng)、部分遮擋等情況帶來的特征變化明顯的問題。同時(shí)在圖3 中可以看到,并不是所有特征均能對目標(biāo)有較好的表達(dá)能力,部分特征對目標(biāo)表達(dá)能力較弱,因此在定位濾波器中加入了通道獨(dú)立的空間信息選擇,由此保留對目標(biāo)定位有效的信息,從而獲的更高的定位精度。
假設(shè)目標(biāo)樣本特征為f∈RH×W×N,其中H和W分別表示特征空間大小,N表示通道數(shù)量,濾波器系數(shù)為w∈RH×W×N,理想響應(yīng)函數(shù)為y∈RH×W×N,則定位濾波器公式為
式中,上角標(biāo)i表示第i個(gè)特征通道,‖ ? ‖F(xiàn)表示F 范數(shù),?表示循環(huán)卷積運(yùn)算,wt-1表示前一幀保存的濾波器系數(shù),λ1和λ2分別表示空間信息選擇項(xiàng)和時(shí)間正則項(xiàng)的正則化系數(shù)。‖w‖F(xiàn)用于稀疏化濾波器系數(shù),時(shí)間正則項(xiàng)則是在訓(xùn)練過程中,讓本幀訓(xùn)練出的濾波器系數(shù)接近上一幀的濾波器系數(shù),搭建時(shí)序的聯(lián)系。
用增廣拉格朗日對式(1)求解,定義松弛變量w′=w,式(1)重寫為
式中,Γ為拉格朗日乘子,μ為懲罰系數(shù)。
將式(2)拆分,分別求解w、w′,則
由于式(3)中含有卷積運(yùn)算,為了加快對w的求解速率,將其轉(zhuǎn)換至頻域,由此式(3)中的上式改寫為
式中,符號^為變量的頻域表示。
式(4)具備解析解,根據(jù)Sherman-Morrison 公式,頻域下濾波器系數(shù)可表示為
根據(jù)式(5)求解出濾波器系數(shù)w后,將其帶入w′的求解式(3)中,對w′繼續(xù)求解。式(3)存在解析解,因此,w′可表示為
隨后更新拉格朗日乘子以及懲罰因子,更新公式為
式中,α為尺度因子,用于平滑更新過程。
由此整個(gè)定位濾波器求解完成,將其迭代兩次,獲取濾波器系數(shù)w的近似解。在求解過程中,獲得第一次迭代結(jié)果后,對求解的變量取均值,將小于均值的變量置0,將其帶入下一次迭代過程。
隨后,在提取下一幀的圖像特征后,利用求解的濾波器系數(shù)與特征進(jìn)行卷積,獲取位置濾波響應(yīng)圖為
提取了3 種特征,共計(jì)算獲取3 個(gè)位置濾波響應(yīng)圖,將其縮放至同一尺度,進(jìn)行加權(quán)求和,獲取最終響應(yīng)圖Sf為
式中,Sgray、Shog、Sgray_hog分別表示灰度特征、梯度直方圖以及基于灰度特征的梯度直方圖的響應(yīng)圖,β為權(quán)重,設(shè)為0.01?;诨叶忍卣鞯奶荻戎狈綀D用于補(bǔ)充目標(biāo)特征信息,增強(qiáng)目標(biāo)表達(dá)能力,但由于數(shù)據(jù)集中存在較多小目標(biāo),如圖2(b),此特征具有較大的感受野,包含了較多的背景信息,使得目標(biāo)信息淹沒,無法發(fā)揮作用,因此將其權(quán)重設(shè)置較低。
目標(biāo)在運(yùn)動(dòng)過程中,其尺度不斷變化,邊界框比例同樣可能產(chǎn)生變化,但原有的目標(biāo)尺度估計(jì)方式無法應(yīng)對邊界框比例變化問題,僅通過在定位階段選擇多個(gè)固定比例尺度采集尺度樣本,對每個(gè)尺度樣本均進(jìn)行定位,選擇響應(yīng)值最高的結(jié)果作為估計(jì)尺度。
在原有尺度估計(jì)后,重新構(gòu)建了用于變尺度估計(jì)的尺度濾波器,以原有的尺度估計(jì)結(jié)果作為基礎(chǔ),在其基礎(chǔ)上重新采集變尺度樣本,并將其展平為1 維特征進(jìn)行拼接。
假設(shè),s=1,2,…,M表示邊界框變化比例,在采集變尺度樣本時(shí),以本幀估計(jì)的目標(biāo)位置作為中心點(diǎn),設(shè)c×c為目標(biāo)基礎(chǔ)空間尺寸,變尺度采集的空間尺度為aKc×aKc,a表示尺度因子,其中,表示向下取整,在此將M設(shè)置為5,但由于采集的是變尺度樣本,實(shí)際樣本數(shù)量為M2,即25 個(gè)變尺度樣本,長和寬分別對應(yīng)5 個(gè)尺度變化,并對其進(jìn)行排列組合,將s設(shè)置為1.01。
由于灰度特征無法用于準(zhǔn)確判別樣本的尺度變換,因此在尺度樣本提取的過程中,僅利用窗口大小為4的梯度直方圖作為尺度特征。在獲取到樣本后,構(gòu)建尺度濾波器,公式為
下角標(biāo)s 表示尺度濾波,將式(10)轉(zhuǎn)換至頻移,其具有解析解,解析解形式為
求解后對所獲得的變尺度樣本特征進(jìn)行卷積,即
由此,獲得多個(gè)變尺度下的尺度響應(yīng)圖,選擇其中響應(yīng)值最大的對應(yīng)的尺度,即為所估計(jì)的尺度。
在原有的尺度估計(jì)基礎(chǔ)上進(jìn)行二次變尺度估計(jì),構(gòu)建的變尺度估計(jì)濾波器雖具備在邊界比例變換的情況下的尺度,但單獨(dú)使用并不能夠有效提高算法精度,主要原因有:
1)尺度濾波器若單獨(dú)工作,在定位階段將提取單尺度樣本,缺乏尺度信息,從而使得定位濾波器精度下降,此現(xiàn)象與尺度自適應(yīng)多特征跟蹤器(Scale Adaptive with Multiple Features tracker,SAMF)[28]和判別式尺度空間跟蹤器(Discriminatiive Scale Space Tracker,DSST)[29]兩種算法相同,兩種算法采用相同的基礎(chǔ)定位濾波器,但SAMF 在定位階段采集多尺度樣本,在獲取目標(biāo)邊界框估計(jì)能力的同時(shí),也提升了算法定位精度,DSST 則設(shè)計(jì)了額外的固定邊界框比例的尺度濾波器,其定位精度低于SAMF。
2)目標(biāo)在整個(gè)運(yùn)動(dòng)過程中前后兩幀的邊界框比例變化不大,采用定尺度估計(jì)的方法可以判別目標(biāo)框整體變化情況,本文所設(shè)計(jì)的變尺度濾波器則進(jìn)行進(jìn)一步微調(diào),在整體估計(jì)后的基礎(chǔ)上,重新采集變尺度樣本,能夠有效減小變尺度濾波器中樣本采集的數(shù)量,降低變尺度濾波器的計(jì)算負(fù)擔(dān)。
所提算法的偽代碼如表1 所示。
為了驗(yàn)證算法的有效性,選擇LSOTB-TIR 數(shù)據(jù)集[30]與PTB-TIR 數(shù)據(jù)集[31]作為測試集。LSOTB-TIR數(shù)據(jù)集共包含了120 個(gè)測試序列,序列最大長度為2 110 幀,最小長度為105 幀,平均長度為684 幀,共計(jì)82 000 幀圖像,包含了22 種目標(biāo)類別,12 種類別屬性,對序列采集場景進(jìn)行了標(biāo)注,類別與標(biāo)注信息如表2和表3 所示。
表2 場景定義Table 2 The definition of scenarios
表3 序列屬性Table 3 The attributes of sequences
PTB-TIR 數(shù)據(jù)集是紅外行人跟蹤數(shù)據(jù)集,目標(biāo)尺寸變化較小,包含60 個(gè)測試序列,9 種類別屬性,共30 029 幀圖像,最小序列長度為50 幀,最大序列長度為1 792 幀。共選取了8 個(gè)算法作為對比算法,用于展現(xiàn)本文所提算法的優(yōu)越性,其中有效卷積算子跟蹤器(Efficient Convolution Operators for tracking,ECO)、自適應(yīng)學(xué)習(xí)判別式相關(guān)濾波(Learning Adaptive Discriminative Correlation Filters,LADCF)、自適應(yīng)通道選擇跟蹤器(Adaptive Channel Selection Mechanism for Discriminative Correlation Filters,ACSDCF)、基于空間正則項(xiàng)的判別式相關(guān)濾波器(Spatially Regularized Discriminative Correlation Filters,SRDCF)[32]為相關(guān)濾波算法,僅使用了手工特征,即梯度直方圖以及灰度特征,TADT、SiamMask、多域卷積神經(jīng)網(wǎng)絡(luò)跟蹤算法(Multi-Domain convolutional neural Networks for visual tracking,MDNet)[33]和SiamFC 為深度學(xué)習(xí)算法。LADCF 與ACSDCF 的結(jié)果均采用作者公布的原始代碼在數(shù)據(jù)集中測試獲得,其余對比算法的結(jié)果均來自于數(shù)據(jù)集官方公布的測試結(jié)果。實(shí)驗(yàn)均在MATLAB2018a 上進(jìn)行,實(shí)驗(yàn)平臺處理器為Intel(R) Core(TM)i7-7700HQ CPU @ 2.80 GHz 2.81 GHz,內(nèi)存為8 G。
2.1.1 LSOTB-TIR 數(shù)據(jù)集測試結(jié)果
依據(jù)LSOTB-TIR 數(shù)據(jù)集官方的測評指標(biāo),共采用3 種指標(biāo)對算法進(jìn)行對比,分別為精確度、歸一化精確度以及成功率。其中精確度與歸一化精確度均以中心位置誤差進(jìn)行衡量,中心位置誤差計(jì)算公式為
式中,x和y分別表示中心點(diǎn)x坐標(biāo)和y坐標(biāo),下角標(biāo)g 和p 分別表示真值和預(yù)測值。精確度和歸一化精確度則是根據(jù)不同的中心位置誤差作為閾值,統(tǒng)計(jì)全部序列結(jié)果計(jì)算獲得。
成功率根據(jù)重疊率(Intersection of Union,IoU)計(jì)算獲取,計(jì)算公式為
式中,B表示邊界框。與精確度和歸一化精確度類似,成功率同樣依據(jù)不同IOU 閾值計(jì)算獲取。
3 種指標(biāo)的曲線如圖4 所示??梢钥吹奖疚乃崴惴ㄔ? 個(gè)指標(biāo)中均取得了最優(yōu)的表現(xiàn)。與相關(guān)濾波算法對比,本文算法在精確度上超過第二名的ECO 算法2.7%,相較于LADCF 和ACSDCF 分別提高了3.1%和3.4%;在歸一化精確度中,本文算法相較于第二名的LADCF 算法提高了1.6%;在成功率曲線中,本文算法相較于LADCF 和ACSDCF 分別提高了2.5%和2.9%。證明了進(jìn)行通道獨(dú)立的空間信息選擇策略的有效性,同時(shí)額外提取的基于灰度特征的梯度直方圖信息能夠進(jìn)一步提供目標(biāo)信息,變尺度濾波器使得邊界框估計(jì)效果得到了提升。
圖4 LSOTB-TIR 數(shù)據(jù)集測試結(jié)果Fig.4 The evaluation results of LSOTB-TIR dataset
與深度學(xué)習(xí)算法對比,本文算法相較于TADT 在3 種指標(biāo)下分別提高了0.7%、1% 和0.7%,比SiamMask 分別高出了1.2%、0.8%和1.5%,該算法在僅利用手工特征的基礎(chǔ)上,可以超過部分深度學(xué)習(xí)算法,同時(shí),算法無需訓(xùn)練,在線推理過程中也僅利用CPU 即可,所需計(jì)算資源較少。
2.1.2 PTB-TIR 數(shù)據(jù)集測試結(jié)果
PTB-TIR 數(shù)據(jù)集采用了精確度和成功率作為評價(jià)指標(biāo),測試結(jié)果曲線如圖5 所示。
圖5 PTB-TIR 數(shù)據(jù)集測試結(jié)果Fig.5 The evaluation results of PTB-TIR dataset
可以看到,本文所提算法在成功率指標(biāo)中取得了優(yōu)異的表現(xiàn)。與相關(guān)濾波算法相比,本文算法與SRDCF 在精確度指標(biāo)中取得了同樣的表現(xiàn),而成功率提高了1.8%。相較于LADCF 和ACSDCF,本文算法的精確度指標(biāo)分別提高了2.3%和3.0%,成功率分別提高了2.3%和3.1%。由于PTB-TIR 數(shù)據(jù)集中目標(biāo)的邊界框比例變化較小,且比例變換屬性下的序列數(shù)量少,因此變尺度濾波器對算法提高較小,數(shù)據(jù)集中更注重前景與背景的區(qū)分,因此所提的特征提取與信息選擇策略發(fā)揮了更為重要的作用。
相較于深度學(xué)習(xí)算法而言,MDNet 的精確度高于本文算法1.3%,MDNet 依據(jù)于所獲取的初始樣本,在線對網(wǎng)路中的頭部進(jìn)行更新,速率較慢,但能夠取得更高的分類精度,而本文算法的成功率相較于MDNet提高了0.7%,說明MDNet 雖對前景與背景區(qū)分效果更好,但邊界框回歸效果較差。本文算法在僅利用手工特征的基礎(chǔ)上,可以獲取更為準(zhǔn)確的邊界框。
為了驗(yàn)證各個(gè)模塊的有效性,在LSOTB-TIR 數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn),以LADCF 和ACSDCF 作為基礎(chǔ)算法,本文所提算法和這兩種算法所采用的優(yōu)化過程相似,LADCF 僅考慮空間信息,對每個(gè)通道采用同樣的空間采樣模板,而ACSDCF 則認(rèn)為通道應(yīng)該獨(dú)立看到,僅對通道做了選擇,本文算法則是將在各個(gè)通道中對空間信息做不同的選擇方式。消融實(shí)驗(yàn)結(jié)果如表4 所示。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 The results of ablation experiments
從表4 中可以看到,采用通道獨(dú)立的空間信息選擇的方法,可以達(dá)到0.707 的精確度和0.589 的成功率,相較于LADCF 和ACSDCF 分別高出了0.21、0.24 的精確度以及0.2、0.24 的成功率,同時(shí)每秒幀數(shù) (Frames Per Second,F(xiàn)PS)均高于兩者,證明了本文采用的信息選擇方式更為有效,所學(xué)習(xí)到的濾波器更為稀疏,加快整體優(yōu)化過程;而在加入變尺度估計(jì)后,精確度提高了0.06,成功率提高了0.02,F(xiàn)PS 僅下降了1.49,說明變尺度濾波器可以在原有尺度濾波的基礎(chǔ)上進(jìn)一步優(yōu)化邊界框估計(jì)效果;加入基于灰度特征的梯度直方圖后,精確度提高至0.717,成功率提高至0.594,F(xiàn)PS 下降了3.49,說明加入的新特征可以豐富目標(biāo)表達(dá)的能力,有效提高跟蹤精度,并且本文所提算法最終可達(dá)34.85 的FPS,達(dá)到實(shí)時(shí)處理效果。
為了驗(yàn)證超參數(shù)對本文算法的影響,以LSOTB-TIR 數(shù)據(jù)集作為測試集,對定位融合權(quán)重β、尺度樣本數(shù)量M兩個(gè)超參數(shù)進(jìn)行實(shí)驗(yàn)分析。
2.3.1 定位融合權(quán)重
對定位融合權(quán)重進(jìn)行消融實(shí)驗(yàn)時(shí),將尺度樣本數(shù)量固定為5,其余參數(shù)不變,結(jié)果如圖6 所示??梢钥吹疆?dāng)定位融合權(quán)重β為0.001 時(shí)效果最好。當(dāng)權(quán)重增大時(shí),曲線下面積 (Area Under the Curve,AUC)降低,分析認(rèn)為是所提取的基于灰度特征的梯度直方圖雖能補(bǔ)充目標(biāo)信息,但由于其感受野較大,使得其所提取特征中包含了部分背景信息,致使響應(yīng)圖主峰周圍存在較多的次峰,過多融合相應(yīng)的響應(yīng)圖,使得主峰不再突出,降低了目標(biāo)定位的精度。而當(dāng)權(quán)重進(jìn)一步降低時(shí),基于灰度特征的梯度直方圖所能提供的信息過少,無法達(dá)到較好的補(bǔ)充效果,因此與未加入基于灰度特征的梯度直方圖的表現(xiàn)無明顯區(qū)別。
圖6 定位融合權(quán)重消融實(shí)驗(yàn)結(jié)果Fig.6 The ablation result of location fusion weight
2.3.2 尺度樣本數(shù)目
對尺度樣本數(shù)量進(jìn)行消融實(shí)驗(yàn)時(shí),將定位融合權(quán)重固定為0.001,其余參數(shù)不變,結(jié)果如圖7 所示??梢钥吹?,當(dāng)尺度樣本數(shù)量M選擇為5 時(shí),效果最好。當(dāng)尺度樣本數(shù)目設(shè)置過多時(shí),尺度池中存在長寬比例變化較為嚴(yán)重的尺度,在目標(biāo)定位位置存在一定偏差或僅定位到目標(biāo)部分信息時(shí),易對目標(biāo)的部分區(qū)域進(jìn)行邊界框估計(jì),從而獲取錯(cuò)誤的估計(jì)結(jié)果,因此導(dǎo)致AUC 下降。而當(dāng)尺度樣本數(shù)目較少時(shí),無法適應(yīng)全部的變化情況,邊界框估計(jì)結(jié)果不準(zhǔn)確。
圖7 尺度樣本數(shù)目消融實(shí)驗(yàn)結(jié)果Fig.7 The ablation result of the number of scales
在LSOTB-TIR 數(shù)據(jù)集中選擇了4 個(gè)序列,將跟蹤結(jié)果進(jìn)行了展示。圖8 中,藍(lán)色框?yàn)楸疚乃惴ǜ櫧Y(jié)果,紅色框?yàn)锳CSDCF 跟蹤結(jié)果,綠色框?yàn)長ADCF 跟蹤結(jié)果,黑色框?yàn)镋CO 跟蹤結(jié)果。
在bus_V_003 序列中,目標(biāo)車輛處于運(yùn)動(dòng)狀態(tài),其視角在整個(gè)運(yùn)動(dòng)過程中發(fā)生了變化,從而導(dǎo)致目標(biāo)車輛在圖像中的邊界框比例發(fā)生了變化,可以看到本文算法可以適應(yīng)目標(biāo)車輛的比例變化情況。在第2、3、4 列的圖像中,其余算法雖然依然可以跟蹤到目標(biāo)車輛,但其邊界框估計(jì)結(jié)果保留了原始長寬比例,本文算法則可根據(jù)目標(biāo)車輛的比例變化改變所估計(jì)的邊界框長寬比例,其跟蹤效果更好。
在person_D_023 序列中,目標(biāo)周圍存在同類型目標(biāo),且在運(yùn)動(dòng)過程中兩者在圖像中出現(xiàn)了重疊。在第2 列的圖像中,相似物距離目標(biāo)較近,ACSDCF 跟蹤產(chǎn)生漂移,跟蹤錯(cuò)誤目標(biāo);在第3 列相似物與目標(biāo)在圖像中重疊后分開,LADCF 跟蹤錯(cuò)誤,而在后續(xù)中,LADCF 重新跟蹤目標(biāo),可以看到本文算法和ECO 可一直準(zhǔn)確跟蹤目標(biāo);但在第4 列的結(jié)果中,本文算法的尺度估計(jì)更為準(zhǔn)確。
在boat_D_001 序列中,目標(biāo)快速移動(dòng),并在運(yùn)動(dòng)過程中背景存在干擾物。在第2 列和第3 列圖像中可以看到,目標(biāo)快速移動(dòng),同時(shí)鏡頭發(fā)生位移,導(dǎo)致目標(biāo)運(yùn)動(dòng)距離較大,ACSDCF 和LADCF 兩種算法均跟蹤失敗,而本文算法和ECO 算法跟蹤成功。
在airplane_H_001 序列中,目標(biāo)在起飛階段與背景區(qū)分度較低,而在飛行過程中其尺度發(fā)生變化。可以看到在第2 列的圖像中,ACSDCF 未能準(zhǔn)確區(qū)分背景與前景,導(dǎo)致跟蹤漂移,在后續(xù)序列中重新跟蹤到目標(biāo);在第3 列中,目標(biāo)尺度發(fā)生快速變化,所有算法雖能成功跟蹤目標(biāo),但尺度估計(jì)效果一般,本文算法和ECO 算法估計(jì)效果更好,ACSDCF 由于尺度估計(jì)錯(cuò)誤未能跟蹤目標(biāo)主體;在第4 列中,可以看到ACSDCF由于尺度估計(jì)偏差嚴(yán)重,在后續(xù)序列中未能跟蹤目標(biāo),其余算法均可以跟蹤目標(biāo),但可以看到本文算法的尺度估計(jì)效果更好。
本文算法通過在灰度特征圖中額外提取梯度信息,增強(qiáng)目標(biāo)表達(dá)能力,并且在定位濾波器訓(xùn)練過程中,設(shè)計(jì)通道獨(dú)立的空間信息選擇,使得所設(shè)計(jì)出的定位濾波器更具判別能力,能夠在目標(biāo)快速運(yùn)動(dòng)、背景存在同類別物體或相似目標(biāo)時(shí)準(zhǔn)確區(qū)分目標(biāo),如序列person_D_023 和boat_D_001;設(shè)計(jì)的變尺度濾波器能夠有效應(yīng)對目標(biāo)由于勢角變換等情況導(dǎo)致的邊界框比例變換的問題,能夠自適應(yīng)調(diào)整比例變換,如序列bus_V_003 和airplane_H_001,證明了本文算法改進(jìn)的有效性。
本文提出了自適應(yīng)信息選擇的變尺度相關(guān)濾波紅外目標(biāo)跟蹤算法,能夠在紅外跟蹤序列下準(zhǔn)確跟蹤到目標(biāo)。在提取紅外圖像特征的過程中,為了彌補(bǔ)目標(biāo)信息少以及圖像模糊、分辨率較低等帶來目標(biāo)特征不明顯的問題,在原有的灰度特征基礎(chǔ)上重新提取了梯度直方圖信息,豐富目標(biāo)表現(xiàn)能力;在濾波器訓(xùn)練中則是加入時(shí)間正則項(xiàng)與通道獨(dú)立的空間信息選擇,將每個(gè)通道信息獨(dú)立看待,同時(shí)對空間信息進(jìn)行獨(dú)立選擇,有效保留判別信息,增強(qiáng)濾波器判別能力;在原有尺度濾波的基礎(chǔ)上,將目標(biāo)的長寬信息分別看待,設(shè)計(jì)獨(dú)立的變尺度濾波器,采集多尺度樣本信息,從而適應(yīng)目標(biāo)在運(yùn)動(dòng)過程中比例變化的問題。
本文算法在LSOTB-TIR 數(shù)據(jù)集中跟蹤效果顯著,精確度和成功率分別達(dá)到了71.7%和59.4%,相較于同樣進(jìn)行信息選取的濾波器算法LADCF 和ACSDCF,精確度分別提高了3.1%和3.4%,成功率分別提高了2.5%和2.9%,同時(shí)超過了部分深度學(xué)習(xí)跟蹤算法的表現(xiàn),僅在CPU 上運(yùn)行,達(dá)到了34.85 幀/s 的運(yùn)行速率,具備良好的實(shí)時(shí)性以及跟蹤精度。
本文算法依然存在一定的局限性。算法雖能夠應(yīng)對尺度比例變化問題,但當(dāng)結(jié)合尺度的定位置信度較高時(shí),變尺度濾波器并不能完全發(fā)揮其作用,僅能保持原有目標(biāo)比例;在背景干擾物較多的情況下,傳統(tǒng)手工特征難以準(zhǔn)確區(qū)分目標(biāo),與基于紅外的深度網(wǎng)絡(luò)所提取的特征相比存在一定差異;算法中存在較多的超參,雖大部分參數(shù)在不同數(shù)據(jù)集下敏感度低,無需變化,但需要人為設(shè)定,依賴經(jīng)驗(yàn)值和實(shí)驗(yàn)數(shù)據(jù)。