吳 捷,段艷艷,馬小虎
基于KL散度與通道選擇的熱紅外目標(biāo)跟蹤算法
吳 捷1,段艷艷1,馬小虎2
(1. 泰州職業(yè)技術(shù)學(xué)院 信息技術(shù)學(xué)院,江蘇 泰州 225300;2. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
為了解決單一跟蹤器無法有效應(yīng)對(duì)復(fù)雜背景及目標(biāo)外觀的顯著變化,對(duì)于熱紅外目標(biāo)跟蹤準(zhǔn)確度不高的問題,基于全卷積孿生網(wǎng)絡(luò)提出了一種多響應(yīng)圖集成的跟蹤算法用于熱紅外跟蹤。首先,使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)來提取熱紅外目標(biāo)的多個(gè)卷積層的特征并進(jìn)行通道選擇,在此基礎(chǔ)上分別構(gòu)建3個(gè)對(duì)應(yīng)的跟蹤器,每個(gè)跟蹤器獨(dú)立執(zhí)行跟蹤并返回一個(gè)響應(yīng)圖。然后,利用Kullback–Leibler(KL)散度對(duì)多個(gè)響應(yīng)圖進(jìn)行優(yōu)化集成,得到一個(gè)更強(qiáng)的響應(yīng)圖。最后利用集成后的響應(yīng)圖來確定目標(biāo)位置。為了評(píng)估所提算法的性能,在當(dāng)前最全面的熱紅外跟蹤基準(zhǔn)LSOTB-TIR(Large-Scale Thermal Infrared Object Tracking Benchmark)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提算法能夠適應(yīng)復(fù)雜多樣的紅外跟蹤場(chǎng)景,綜合性能超過了現(xiàn)有的紅外跟蹤算法。
熱紅外;全卷積孿生網(wǎng)絡(luò);多響應(yīng)圖;通道選擇;KL散度
近年來,借助于深度學(xué)習(xí)等理論,視覺目標(biāo)跟蹤技術(shù)取得了重大突破。但現(xiàn)有跟蹤算法大多是針對(duì)可見光場(chǎng)景,對(duì)于熱紅外目標(biāo)跟蹤的研究文獻(xiàn)較少,只有LIU等人[1-4]進(jìn)行了較為深入的研究。
與可見光目標(biāo)跟蹤相比,熱紅外跟蹤具有不受照明變化影響的優(yōu)點(diǎn),可以在完全黑暗的情況下跟蹤目標(biāo)。因此,熱紅外跟蹤在災(zāi)難救援、視頻監(jiān)控和夜間巡邏等領(lǐng)域具有廣闊的應(yīng)用前景[5]。隨著熱紅外成像設(shè)備在民用領(lǐng)域的普及化使用,熱紅外目標(biāo)跟蹤正逐步成為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn)。
和可見光跟蹤相似,熱紅外跟蹤也面臨著不少挑戰(zhàn)。首先,熱紅外圖像缺少顏色信息,較難獲得目標(biāo)對(duì)象的判別特征,從而降低了跟蹤性能[6]。比如兩個(gè)不同顏色的相似物體在熱紅外圖像中幾乎是相同的。除此之外,熱紅外跟蹤還面臨如遮擋、外觀變化和運(yùn)動(dòng)模糊等挑戰(zhàn)。
近年來,深度學(xué)習(xí)已成功應(yīng)用到視覺跟蹤中,取得了一系列重要成果。與基于手工特征的跟蹤器相比,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的跟蹤器可以獲得更優(yōu)越的跟蹤性能。因?yàn)閱蝹€(gè)卷積層特征對(duì)跟蹤中的各種挑戰(zhàn)(例如形變和背景雜斑)魯棒性不強(qiáng),現(xiàn)有基于深度學(xué)習(xí)的跟蹤算法大多是融合淺層和深層特征進(jìn)行跟蹤,比如HCF(Hierarchical Convolutional Features)[7]基于KCF(Kernel Correlation Filter)框架,使用預(yù)訓(xùn)練的VGG-19(Visual Geometry Group-19)網(wǎng)絡(luò)提取目標(biāo)的Conv3-4(Convolution 3-4)、Conv4-4、Conv5-4層特征進(jìn)行融合,而TADT(Target-Aware Deep Tracking)[8]基于全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese Network,SiamFC)[9]框架使用預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò)提取Conv4-1、Conv4-3層特征并進(jìn)行融合等等。上述算法均屬于特征層融合,并沒有實(shí)現(xiàn)決策層融合,而且使用單一跟蹤器無法有效應(yīng)對(duì)復(fù)雜背景及目標(biāo)外觀變化等挑戰(zhàn)因素。
考慮到卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表征能力及其在視覺跟蹤中的成功應(yīng)用,本文將在可見光圖像數(shù)據(jù)集上預(yù)訓(xùn)練的CNN用于熱紅外跟蹤任務(wù),并基于此設(shè)計(jì)了一個(gè)多響應(yīng)圖集成的熱紅外目標(biāo)跟蹤方法。
全卷積孿生網(wǎng)絡(luò)是ECCV 2016(European Conference on Computer Vision 2016)會(huì)議[9]上提出的一種全新的目標(biāo)跟蹤框架,其通過比較初始目標(biāo)模板和當(dāng)前幀中搜索區(qū)域的特征來進(jìn)行跟蹤。其實(shí)現(xiàn)流程可以由下式定義:
(,)=()*()+(1)
式中:()為第一幀中模板圖像對(duì)應(yīng)的特征圖;()為后續(xù)幀中待搜索區(qū)域的特征圖;*為卷積運(yùn)算符,為偏置項(xiàng)。圖1給出了SiamFC網(wǎng)絡(luò)結(jié)構(gòu)圖。
本文算法選擇全卷積孿生網(wǎng)絡(luò)作為目標(biāo)跟蹤的基本框架,主要原因在于:①全卷積孿生網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,可以在較大的搜索圖像中定位目標(biāo)模版,并且跟蹤速度快。②在跟蹤過程中目標(biāo)模板不更新,可以有效應(yīng)對(duì)目標(biāo)遮擋等挑戰(zhàn)。
圖1 SiamFC網(wǎng)絡(luò)結(jié)構(gòu)
雖然Siamese框架是在大型視頻數(shù)據(jù)集 ILSVRC15(Large Scale Visual Recognition Challenge 2015)上預(yù)先訓(xùn)練的,但是Siamese跟蹤器沒有充分利用與特定目標(biāo)對(duì)象相關(guān)的語(yǔ)義信息。因此在本文算法中,我們借鑒了TADT的做法,從一個(gè)預(yù)先訓(xùn)練好的CNN中選擇對(duì)于目標(biāo)最具判別性以及對(duì)于目標(biāo)尺度變化最為敏感的卷積濾波器(特征通道)來生成目標(biāo)深度特征。在本文中,我們選擇使用VGG-16卷積網(wǎng)絡(luò)來提取對(duì)于熱紅外目標(biāo)敏感的特征。在2.2節(jié)中將給出特征通道的選擇方法。
諸如VGG、ResNet(Residual Network)等卷積網(wǎng)絡(luò)中的參數(shù)是在龐大的數(shù)據(jù)集中預(yù)訓(xùn)練獲得的,相對(duì)于當(dāng)前要跟蹤的對(duì)象存在許多冗余的特征通道信息。冗余的特征通道會(huì)占用大量的計(jì)算資源,這也是許多基于深度學(xué)習(xí)的跟蹤算法執(zhí)行速度較慢的原因。除此之外,冗余的特征通道還會(huì)對(duì)跟蹤造成干擾,影響跟蹤精度。本文在特征提取過程中進(jìn)行通道選擇,減少冗余特征通道對(duì)當(dāng)前跟蹤目標(biāo)的不利影響。
本文的通道選擇是基于文獻(xiàn)[10]提出的GCAM(Grad-Class Activation Mapping)模型來實(shí)現(xiàn)的。GCAM模型根據(jù)每個(gè)輸入像素點(diǎn)的梯度來表示其屬于給定類別標(biāo)記的重要性,通過沿特征通道計(jì)算加權(quán)和,生成一個(gè)類活動(dòng)映射。特征通道的權(quán)值是通過對(duì)該通道中所有梯度的全局平均池化(Global Average Pooling,GAP)來計(jì)算的,權(quán)值高的特征通道對(duì)當(dāng)前類的貢獻(xiàn)大。公式如下:
式中:表示計(jì)算出的第個(gè)通道的重要性;AP是全局平均池化函數(shù);是損失函數(shù);z指的是第個(gè)過濾器的輸出特征。
借鑒該理論,本文算法在提取深度特征后計(jì)算每個(gè)特征通道的梯度值,從中選擇最能標(biāo)記目標(biāo)特征也就是重要性較高的特征通道進(jìn)行后續(xù)運(yùn)算。
雖然當(dāng)前主流跟蹤算法都使用了深度特征,但使用單個(gè)跟蹤器在某些場(chǎng)景下仍然很難獲得優(yōu)秀的跟蹤性能?;诖?,本文提出利用多個(gè)互補(bǔ)的卷積層特征構(gòu)建一個(gè)集成式熱紅外目標(biāo)跟蹤方法。本文利用VGG-16卷積網(wǎng)絡(luò)分別提取待跟蹤目標(biāo)的Conv4-1、Conv4-2、Conv4-3和Conv5-1層特征,并形成如下3種特征組合:{Conv4-2、Conv4-1}、{Conv4-3、Conv4-1}、{Conv5-1、Conv4-1}。利用上述3種特征組合分別設(shè)計(jì)跟蹤器1、跟蹤器2、跟蹤器3,在3種特征組合中均包含Conv4-1層,這是因?yàn)槲墨I(xiàn)[8]的實(shí)驗(yàn)表明Conv4-1層特征最適合用來進(jìn)行目標(biāo)的尺度估計(jì)。每個(gè)跟蹤器的計(jì)算過程都是相似的,下面以跟蹤器1為例給出具體跟蹤過程:
1)提取待跟蹤目標(biāo)的Conv4-1和Conv4-2層特征(每層共包含512個(gè)特征通道);
2)利用2.2節(jié)中提到的方法計(jì)算所有特征通道的梯度信息,選擇對(duì)于目標(biāo)活動(dòng)和尺度變化較為敏感的特征通道參與后序的互相關(guān)操作。經(jīng)過通道選擇后,降低了卷積層的維度,提高了卷積層的有效性。本文按照重要性高低對(duì)所有特征通道進(jìn)行排序并選擇了Conv4-2層的前300個(gè)通道和Conv4-1層的前80個(gè)通道進(jìn)行融合參與后續(xù)運(yùn)算。
3)通過互相關(guān)操作獲取目標(biāo)響應(yīng)圖。
利用2.3節(jié)的方法可以獲得多個(gè)響應(yīng)圖,在本節(jié)將給出利用KL散度將多個(gè)響應(yīng)圖進(jìn)行集成的過程。
我們可以用P表示第個(gè)跟蹤器產(chǎn)生的目標(biāo)位置響應(yīng)圖,?R×表示集成后的響應(yīng)圖。然后采用KL散度度量他們之間的廣義距離,該距離越小則認(rèn)為他們之間的分布差異越小,也就意味著集成后的概率圖更能反映每一個(gè)概率圖P中一致的部分,即目標(biāo)出現(xiàn)概率最大的區(qū)域。通過最小化該KL散度,可以達(dá)到優(yōu)化概率圖的目的,具體過程如下式:
其中:
由于在跟蹤場(chǎng)景中可能存在背景雜斑等干擾,因此在響應(yīng)圖中會(huì)存在“多峰”現(xiàn)象,即存在多個(gè)目標(biāo)位置響應(yīng)。文獻(xiàn)[1]提供了一個(gè)行之有效的去噪策略,本文借鑒該策略將2.3節(jié)中得到的響應(yīng)圖進(jìn)行過濾,下式給出過濾過程:
P,z=P⊙P(5)
式中:={1,2,…,-1},={+1,+2,…,}。
在式(5)中代表跟蹤器的數(shù)量;⊙表示點(diǎn)乘操作。按照式(5)進(jìn)行去噪處理可以使過濾后的概率圖具有更高的置信度,提高跟蹤的精確度。個(gè)響應(yīng)圖進(jìn)行兩兩去噪處理后可以得到((-1))/2個(gè)噪音更少、置信度更高的概率圖={1,2,1,3,…,2,3,…P-1,n}。因此公式(3)可以被重寫成如下形式:
根據(jù)拉格朗日乘數(shù)法,令:
對(duì)所有的p、q求偏導(dǎo)并令¢()和¢()等于0,最終可求得:
通過取式(8)中響應(yīng)圖中的最大值可以得到目標(biāo)的位置(,):
我們?cè)赪in10系統(tǒng)中使用Matlab2016b編程語(yǔ)言實(shí)現(xiàn)了所提出的目標(biāo)跟蹤算法。為了驗(yàn)證本文所提算法的有效性,在配備I7-10700 2.9GHz CPU和GTX-1080 GPU的PC上進(jìn)行了實(shí)驗(yàn),對(duì)比算法有HCF[7]、SiamFC[9]、TADT[8]、MDNet(Multi-Domain Convolutional Neural Networks)[11]、ATOM(Accurate Tracking by Overlap Maximization)[12]、MCFTS(Multi-Layer Convolutional Features for Thermal Infrared Tracking)[1]、HSSNet(Hierarchical Spatial-Aware Siamese Network)[2]、MLSSNet(Multi-Level Similarity Network)[3]、MMNet(Multi-Task Matching Network)[4]。其中MCFTS、MLSSNet、HSSNet和MMNet是專用紅外目標(biāo)跟蹤算法,其他5種算法均為近年來優(yōu)秀的可見光跟蹤算法。
因?yàn)槟壳肮_的紅外視頻數(shù)據(jù)集非常少,所以很多學(xué)者使用VOT-TIR16(The Thermal Infrared Visual Object Tracking 2016)[13]和PTB-TIR(Thermal Infrared Pedestrian Tracking Benchmark)[14]作為熱紅外跟蹤評(píng)估數(shù)據(jù)集。VOT-TIR16數(shù)據(jù)集中視頻序列過少,只包含25個(gè)紅外視頻序列,部分跟蹤算法可以通過調(diào)參的方式去適應(yīng)。PTB-TIR數(shù)據(jù)集中雖然包含60個(gè)紅外視頻序列,但跟蹤目標(biāo)均為行人,類別較為單一,無法評(píng)估跟蹤算法對(duì)通用目標(biāo)的跟蹤效果。
2020年8月發(fā)布的LSOTB-TIR[15]有效解決了上述問題。LSOTB-TIR是迄今為止規(guī)模最大,多樣性最強(qiáng)的熱紅外目標(biāo)跟蹤數(shù)據(jù)集。包含120個(gè)跟蹤序列,涵蓋22個(gè)目標(biāo)類別,超過8.2萬幀圖像。LSOTB-TIR中定義了4種場(chǎng)景屬性,這4種場(chǎng)景中的紅外視頻分別由車載、手持、無人機(jī)載和監(jiān)控設(shè)備拍攝,保證了視頻來源的多樣性。著名的可見光數(shù)據(jù)集OTB-100(Object Tracking Benchmark)定義了11種挑戰(zhàn)屬性,LSOTB-TIR則定義了紅外目標(biāo)跟蹤中的12種挑戰(zhàn)屬性。在這12種挑戰(zhàn)屬性中,有8種屬性和OTB-100中的類似,分別為遮擋、出視野、背景雜斑、形變、尺度變化、低分辨率、快速運(yùn)動(dòng)和運(yùn)動(dòng)模糊,這里不再贅述。剩余的4種為熱紅外跟蹤中特有的挑戰(zhàn)屬性,具體定義在表1中列出。
因?yàn)長(zhǎng)SOTB-TIR的全面性和多樣性,所以本文選擇使用LSOTB-TIR作為評(píng)估數(shù)據(jù)集。需要說明的是,本文并沒有選擇全部視頻序列進(jìn)行測(cè)試,而是從上述4種應(yīng)用場(chǎng)景數(shù)據(jù)集中隨機(jī)選擇了40個(gè)典型紅外短視頻序列進(jìn)行測(cè)試,這是因?yàn)長(zhǎng)SOTB-TIR沒有跟蹤失敗重啟機(jī)制,在長(zhǎng)視頻序列中如果在某一幀丟失目標(biāo)并且在后續(xù)幀無法找回將極大影響跟蹤成功率,采用短視頻序列測(cè)試更加公平。本文所提算法在40個(gè)視頻序列上的平均跟蹤速度約為11.2FPS。
表1 LSOTB-TIR定義的的4種熱紅外挑戰(zhàn)屬性
3.3.1 定量分析
圖2為本文算法與MDNet等9種對(duì)比算法在LSOTB-TIR上生成的總精確度圖和成功率圖,本文提出的算法在這兩項(xiàng)重要指標(biāo)上均排名第一。與參照算法TADT相比,跟蹤精確度和成功率分別提高了3.6%和4.2%,大幅超過了MMNet等紅外目標(biāo)跟蹤算法,證明了本文采用的響應(yīng)圖集成策略取得較好的效果。圖3給出了10種算法在變形、背景雜斑、運(yùn)動(dòng)模糊、相似物干擾等4種復(fù)雜場(chǎng)景下的精確度曲線圖,本文所提算法均體現(xiàn)了較強(qiáng)的魯棒性。相比優(yōu)秀的可見光跟蹤器ATOM,本文算法的跟蹤精確度率分別提高了13.2%、10.5%、13.9%和27.8%,說明本文所提算法更適合于紅外目標(biāo)跟蹤。
圖2 10種算法在LSOTB-TIR的距離精度曲線圖和成功率曲線
3.3.2 定性分析
為了更直觀地評(píng)估本文所提算法的跟蹤性能,圖4給出了本文算法與另外3種在LSOTB-TIR數(shù)據(jù)集上表現(xiàn)優(yōu)異的算法(TADT、ATOM和MDNet)在car_S_003、cow_H_001、person_S_015、street_S_001等4個(gè)視頻序列的可視化跟蹤結(jié)果。這4個(gè)視頻序列非常具有代表性,包括汽車、動(dòng)物、行人和環(huán)境復(fù)雜的街道,幾乎涵蓋了重要種類的地面紅外目標(biāo)。定性分析過程如下:
圖3 10種算法在LSOTB-TIR上4種挑戰(zhàn)性場(chǎng)景下精確度曲線圖
圖4 本文算法與另外三種算法跟蹤結(jié)果比較
1)car_S_003視頻序列中跟蹤目標(biāo)為行進(jìn)中的汽車。ATOM跟蹤器在第9幀時(shí)即受到周圍相似物的干擾而發(fā)生漂移,第52幀中TADT和MDNet也接近丟失目標(biāo),第105幀時(shí)只有本文算法可以準(zhǔn)確跟蹤。
2)cow_H_001跟蹤目標(biāo)為右起第二只羊,從視頻截圖可以看出,ATOM和MDNet均受到相似物和周圍環(huán)境干擾丟失目標(biāo),只有本文算法和TADT可以持續(xù)準(zhǔn)確跟蹤。
3)person_S_015視頻序列中跟蹤目標(biāo)為右邊的行人,旁邊有個(gè)撐傘的行人和其同步前進(jìn),存在相似物及熱交叉等干擾。ATOM、TADT分別在第30幀、第210幀時(shí)跟蹤失敗。相比MDNet,本文算法定位更為精確。
4)street_S_001視頻序列中跟蹤目標(biāo)為街道上背包的行人,該視頻序列包含熱交叉、背景雜斑、遮擋等多種挑戰(zhàn)。從視頻截圖可以看出其他幾種算法跟蹤框均漂移到相似的行人上,而本文算法因?yàn)榧闪硕鄠€(gè)跟蹤器可以正確跟蹤。
本節(jié)通過標(biāo)準(zhǔn)數(shù)據(jù)集LSOTB-TIR上的消融實(shí)驗(yàn)來驗(yàn)證算法相關(guān)模塊設(shè)計(jì)的合理性。首先,為了驗(yàn)證通道選擇的有效性,以跟蹤器1(Ours_1)為例,比較了不進(jìn)行通道選擇(No_CS)和進(jìn)行通道選擇的效果對(duì)比。如圖5(a)所示,本文算法在只選擇了300個(gè)通道的情況下跟蹤精度還提高了0.6%,證明冗余通道可以丟棄,并且丟棄冗余通道后跟蹤速度有了顯著提升,因此利用通道選擇后的跟蹤器參與后續(xù)集成更加高效。其次,為了驗(yàn)證集成方法的有效性,將本文提出的集成方法(Ours)與跟蹤器1(Ours_1)、跟蹤器2(Ours_2)及跟蹤器3(Ours_3)分別單獨(dú)跟蹤的結(jié)果進(jìn)行了對(duì)比。如圖5(b)所示,可以看出集成算法較其他3個(gè)單獨(dú)跟蹤方法在跟蹤精確度上分別提升了2.5%、3.6%和1.6%。消融結(jié)果證明了本文所提算法的有效性。
圖5 消融實(shí)驗(yàn)
基于簡(jiǎn)潔高效的全卷積孿生網(wǎng)絡(luò)框架提出了一種多響應(yīng)圖集成的紅外目標(biāo)跟蹤算法。算法的創(chuàng)新之處在于利用預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò)來提取熱紅外目標(biāo)的深度特征并進(jìn)行通道選擇,進(jìn)而通過對(duì)不同層次的深度特征進(jìn)行組合設(shè)計(jì)了3個(gè)跟蹤器。最后基于KL散度將3個(gè)跟蹤器的響應(yīng)圖進(jìn)行集成以獲取最優(yōu)結(jié)果。為了驗(yàn)證本文算法的實(shí)際效果,在大型熱紅外數(shù)據(jù)集LSOTB-TIR上進(jìn)行了測(cè)試并和近年來幾種先進(jìn)的目標(biāo)跟蹤算法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,本文所提算法性能良好,具有一定的實(shí)際應(yīng)用價(jià)值。
[1] LIU Q, LU X H, HE Z Y, et al. Deep convolutional neural networks for thermal infrared object tracking[J]., 2017, 134: 189-198.
[2] LI X, LIU Q, FAN Nana, et al. Hierarchical spatial-aware Siamese network for thermal infrared object tracking[J].2019, 166: 71-81.
[3] LIU Q, LI X, HE Z Y, et al. Learning deep multi-level similarity for thermal infrared object tracking[J]., 2021, 23: 2124-2126.
[4] LIU Q, LI X, HE Z Y, et al. Multi-task driven feature models for thermal infrared tracking[C]//34th, 2020: 11604-11611.
[5] 張晉, 王元余, 林丹丹, 等. 基于相關(guān)濾波的紅外目標(biāo)跟蹤抗遮擋處理[J]. 紅外技術(shù), 2022, 44(3): 277-285.
ZHANG Jin, WANG Yuanyu, LIN Dandan, et al. Anti-occlusion process of infrared target tracking based on correlation filters[J]., 2022, 44(3): 277-285.
[6] 李暢, 楊德東, 宋鵬, 等. 基于全局感知孿生網(wǎng)絡(luò)的紅外目標(biāo)跟蹤[J]. 光學(xué)學(xué)報(bào), 2021, 41(6): 0615002-1-0615002-11.
LI Chang, YANG Dedong, SONG Pen, et al. Global-Aware siamese network for thermal infrared object tracking[J]., 2021, 41(6): 0615002-1-0615002-11.
[7] MA C, HUANG J B, YANG X, et al. Hierarchical convolutional features for visual racking[C]//, 2015: 3074-3082.
[8] LI X, MA C, WU B Y, et al. Target-aware deep tracking[C]//(CVPR), 2019: 1369-1378.
[9] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking [C]//, 2016: 850-865.
[10] Selvaraju R, Cogswell M, Das A, et al. Grad-cam: visual explanations from deep networks via gradient based localization[C]//, 2017: 618-626.
[11] Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking[C]//, 2016: 4293-4302.
[12] Danelljan M, Bhat G, Khan F S, et al. Atom: Accurate tracking by overlap max-imization[C]//, 2019: 4660-4669.
[13] Felsberg M, Kristan M, others. The thermal infrared visual object tracking VOT-TIR2016 challenge results[C]//, 2016: 824-849.
[14] LIU Q, HE Z, LI X, et al. PTB-TIR: A thermal infrared pedestrian tracking bench-mark[J]., 2019, 22(3): 666-675.
[15] LIU Q, LI X, LI C L. LSOTB-TIR: A large-scale high-diversity thermal infrared object tracking benchmark[C/OL]//28, 2020, https://arxiv.org/abs/2008.00836.
Thermal Infrared Target Tracking Algorithm Based on KL Divergence and Channel Selection
WU Jie1,DUAN Yanyan1,MA Xiaohu2
(1. College of Information Technology, Taizhou Polytechnic College, Taizhou 225300, China;2. School of Computer Science and Technology, Soochow University, Suzhou 215006, China)
To solve the problem that a single tracker cannot effectively deal with the complex background and significant changes in target appearance, leading to the problem of low accuracy of thermal infrared target tracking, a tracking algorithm based on a fully-convolutional Siamese network is proposed for thermal infrared tracking. First, a pre-trained convolution neural network is used to extract the features of multiple convolution layers of thermal infrared targets and select channels. On this basis, three corresponding trackers are constructed, and each tracker performs tracking independently and returns a response map. Then, the Kullback Leibler (KL) divergence is used to optimize and integrate multiple response maps to obtain a stronger response map. Finally, the integrated response map is used to determine the target location. To evaluate the performance of the proposed algorithm, experiments were conducted using the most comprehensive thermal infrared tracking benchmark, LSOTB-TIR. The experimental results show that the proposed algorithm can adapt to complex and diverse infrared tracking scenes, and its comprehensive performance is better than that of existing infrared tracking algorithms.
thermal infrared, fully-convolutional siamese network, multi response maps, channel selection, kullback-leibler divergence
TP391.41
A
1001-8891(2023)01-0033-07
2022-07-25;
2022-08-23.
吳捷(1982-),男,副教授,主要研究方向:視覺目標(biāo)跟蹤。E-mail:37323736@qq.com。
國(guó)家自然科學(xué)基金(61402310);江蘇省自然科學(xué)基金(BK20141195);泰州職業(yè)技術(shù)學(xué)院重點(diǎn)科研項(xiàng)目(1821819039)。