唐 鑫,彭 博,滕 飛
(西南交通大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,成都 611756)
紅外成像具有抗干擾能力強(qiáng)、成像清楚,精確率高等優(yōu)點(diǎn),被廣泛應(yīng)用于飛機(jī)制導(dǎo)、夜視導(dǎo)航和遙感等軍事和民用領(lǐng)域。當(dāng)目標(biāo)距離較遠(yuǎn)時(shí),在生成的紅外圖像中通常呈現(xiàn)像素?cái)?shù)小于9×9的小目標(biāo);同時(shí)由于紅外圖像的特性,紅外小目標(biāo)具有信噪比低、缺乏有效的顏色、紋理、形狀等特征的問題,而且在實(shí)際應(yīng)用過程中,紅外小目標(biāo)夾雜在戈壁、海洋、云層等復(fù)雜背景中,這都給紅外小目標(biāo)的跟蹤帶來了較大的挑戰(zhàn)。
目前紅外小目標(biāo)跟蹤算法可以分為生成式法、判別式法和基于深度學(xué)習(xí)的方法[1]。生成式法是對待跟蹤目標(biāo)建立特征模型并在下一幀中尋找目標(biāo)模型的最優(yōu)匹配,代表算法有卡爾曼濾波[2]、粒子濾波[3]、均值漂移[4]等。這些算法對變化場景中的運(yùn)動目標(biāo)處理能力較差,實(shí)際跟蹤效果不理想。判別式法是將目標(biāo)區(qū)域和背景區(qū)域劃分為正負(fù)樣本,訓(xùn)練分類器將目標(biāo)和背景進(jìn)行區(qū)分,代表算法有相關(guān)多示例學(xué)習(xí)[5]、隨機(jī)森林[6]等。判別式法的缺點(diǎn)是在跟蹤輪廓模糊的小目標(biāo)時(shí)容易丟失目標(biāo)。
近年來,基于深度學(xué)習(xí)的小目標(biāo)跟蹤方法因獨(dú)特的深度特征、穩(wěn)定的跟蹤效果、弱邊界效應(yīng)等優(yōu)點(diǎn)引起了人們的廣泛關(guān)注。Liu 等[7]提出區(qū)域卷積 神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)框架,利用候選區(qū)域提取深度特征完成對小目標(biāo)的跟蹤。Li 等[8]提出孿生候選區(qū)域生成網(wǎng)絡(luò)(Siamese Region Proposal Network,SiamRPN),將整體的跟蹤任務(wù)分解為多個(gè)局部性檢測任務(wù)。胡陽光等[9]提出基于多域?qū)W習(xí)的神經(jīng)網(wǎng)絡(luò)框架,將長寬比和均值對比度與深度特征進(jìn)行融合,在單一特征的小目標(biāo)跟蹤中具有良好的精度。Gazzaley 等[10]提出一種自頂向下的調(diào)制機(jī)制(Top-Down Modulation,TDM),對多層特征圖進(jìn)行選擇和融合,這些特征繼承了局部更大的感受野,極大地改善了小目標(biāo)的跟蹤效果??傊矸e網(wǎng)絡(luò)感知目標(biāo)的結(jié)構(gòu)和內(nèi)部幾何分布信息是有效的,但由于紅外小目標(biāo)成像面積小、特征不明顯、噪聲干擾等,現(xiàn)有的大多數(shù)方法在面對紅外小目標(biāo)時(shí)難以滿足跟蹤穩(wěn)定性的要求。
一些基于低秩稀疏矩陣分解的方法[11-12]認(rèn)為紅外弱小目標(biāo)本身是稀疏的,相對的背景則是低秩的。針對紅外小目標(biāo)跟蹤,關(guān)注目標(biāo)的周圍環(huán)境信息與目標(biāo)本身是同等重要的。對此,本文提出一種新的針對紅外小目標(biāo)的跟蹤方法。對于紅外小目標(biāo),本文方法不僅關(guān)注目標(biāo)本身,也關(guān)注小目標(biāo)及其周圍場景這個(gè)整體。它可以提取當(dāng)前幀有用的狀態(tài)信息并按序列傳播到下一幀,該狀態(tài)信息表示待跟蹤目標(biāo)周圍的其他對象在連續(xù)幀中的運(yùn)動情況。狀態(tài)信息與分類器得分一起用于預(yù)測每一幀的目標(biāo)狀態(tài)與位置。本文主要工作如下。
1)提出了一種針對紅外小目標(biāo)的跟蹤方法,利用傳播的狀態(tài)信息對紅外小目標(biāo)進(jìn)行跟蹤。提出了一種新的分類器,通過當(dāng)前幀和上一幀的特征信息區(qū)分目標(biāo)與背景。
2)提出了一個(gè)分?jǐn)?shù)融合模塊,能有效地將分類器的分類結(jié)果和狀態(tài)信息結(jié)合起來,輸出最后的分?jǐn)?shù)以確定待跟蹤目標(biāo)最終的位置。
3)在DIRST(Dataset for Infrared detection and tRacking of dim-Small aircrafT)數(shù)據(jù)集[13]上進(jìn)行實(shí)驗(yàn),對比了通用目標(biāo)跟蹤方法和紅外小目標(biāo)跟蹤方法,取得了96.2%的召回率和97.3%的精確率。
由于紅外小目標(biāo)缺乏紋理和形狀信息,只依賴外觀模型對單獨(dú)某一幀進(jìn)行處理是不全面的,所以本文提出一種新的跟蹤方法,結(jié)合前一幀的狀態(tài)信息對紅外圖像中的小目標(biāo)進(jìn)行跟蹤。
本文方法的整體結(jié)構(gòu)如圖1 所示,由特征提取器、分類器、融合模塊、傳播模塊和IoU-Net[14]組成。跟蹤不僅僅依賴分類器的分類結(jié)果,還利用了傳播的狀態(tài)信息,通過為目標(biāo)領(lǐng)域中的每個(gè)區(qū)域維護(hù)一個(gè)狀態(tài)向量實(shí)現(xiàn)傳播狀態(tài)信息;通過對該區(qū)域存在的目標(biāo)、背景、干擾物信息編碼得到狀態(tài)向量。當(dāng)目標(biāo)對象在序列中移動時(shí),首先通過估計(jì)連續(xù)幀之間的密集對應(yīng)關(guān)系修正狀態(tài)向量,傳播相應(yīng)的狀態(tài)向量。然后將傳播的狀態(tài)向量與目標(biāo)外觀模型結(jié)合,預(yù)測目標(biāo)最終位置的置信度,再利用IoU-Net 獲取目標(biāo)的邊界框。最后通過卷積門控循環(huán)單元(Convolutional Gated Recurrent Unit,ConvGRU)神經(jīng)網(wǎng)絡(luò)[15]更新狀態(tài)向量,使之能夠在連續(xù)幀中傳播。
圖1 本文方法的整體結(jié)構(gòu)Fig.1 Overall structure of the proposed method
本文方法的輸入為連續(xù)序列中第0 幀~第N幀的紅外圖像和初始標(biāo)簽信息。紅外圖像輸入到以ResNet(Residual Network)-50[16]為基礎(chǔ)的骨干網(wǎng)絡(luò)中提取特征信息。對于初始幀,先通過一個(gè)小型網(wǎng)絡(luò)γ將初始幀圖像中目標(biāo)位置的標(biāo)簽b0初始化為初始狀態(tài)向量,然后通過分類器、狀態(tài)傳播、融合模塊預(yù)測待跟蹤目標(biāo)的中心點(diǎn),同時(shí)更新當(dāng)前幀的狀態(tài)信息,最終通過IoU-Net 輸出每一幀中待跟蹤目標(biāo)的邊界框(x1,y1,x2,y2),其中x1,y1為邊界框左上角坐標(biāo),x2,y2為邊界框右下角坐標(biāo)。
雖然紅外小目標(biāo)的像素較少,但它的外觀特征信息也可以作為跟蹤的一個(gè)重要線索。為了使本文方法更具有魯棒性,設(shè)計(jì)基于兩個(gè)線索完成對于紅外小目標(biāo)的跟蹤,即使用當(dāng)前幀中目標(biāo)與背景的大致分布和隨幀數(shù)傳播的狀態(tài)信息。分類器的作用是區(qū)分目標(biāo)和背景。在使用分類器C 之前,需要先通過特征提取器提取當(dāng)前幀的特征信息ft,本文選擇ResNet-50 作為骨干網(wǎng)絡(luò)提取特征。分類器C 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 分類器C的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of classifier C
圖3 融合模塊M中分?jǐn)?shù)融合部分的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of score fusion part in fusion module M
分類器C 的設(shè)計(jì)參考DiMP(Discriminative Model Prediction)追蹤器[17],DiMP 作為一個(gè)端到端的網(wǎng)絡(luò)結(jié)構(gòu),在圖像跟蹤方面有良好的表現(xiàn)。但由于紅外小目標(biāo)的像素少,缺乏紋理顏色等信息,直接使用外觀模型區(qū)分目標(biāo)與背景效果不夠明顯。為了使分類器更適應(yīng)于紅外小目標(biāo),將單個(gè)卷積層的權(quán)重重新進(jìn)行參數(shù)化。由于紅外小目標(biāo)的像素少,僅僅使用當(dāng)前幀的特征信息不利于區(qū)分目標(biāo)與背景。考慮到小目標(biāo)在兩幀圖像之間移動的相對距離較小,在實(shí)際預(yù)測時(shí),保留上一幀的特征信息ft-1,結(jié)合當(dāng)前幀與上一幀的特征信息輸入空間相關(guān)性取樣器中得到相關(guān)特征,將該相關(guān)特征輸?shù)骄矸e層中得到分類輸出,即置信度st。表示在第t幀圖像中的位置r∈Ω:={0,1,…,W-1}×{0,1,…,H-1}的得分,其中Ω表示一維向量空間。該位置為目標(biāo)中心的可能性,用于區(qū)分位置r是目標(biāo)還是背景。
由于初始幀圖像帶有人工標(biāo)注的目標(biāo)位置框,實(shí)際運(yùn)用分類器是從第二幀圖像開始的,此時(shí)上一幀的特征信息來自初始幀。使用損失函數(shù)式(1)對模型參數(shù)進(jìn)行優(yōu)化:
其中y=由訓(xùn)練圖像中所提取的深度特征ft和相應(yīng)的目標(biāo)標(biāo)簽cj的映射組成;殘差函數(shù)r(sω,c)計(jì)算分類器C的預(yù)測值sω與真實(shí)值c的誤差;λ是正則化參數(shù)。
對于目標(biāo)跟蹤問題,需要確定待跟蹤目標(biāo)的中心點(diǎn)。參考Bhat 等[18]的工作,對目標(biāo)置信分?jǐn)?shù)預(yù)測模塊重新設(shè)計(jì)使之更適用于紅外小目標(biāo)的跟蹤。
在獲得當(dāng)前幀目標(biāo)分?jǐn)?shù)后,還需要更新當(dāng)前幀的狀態(tài)向量供下一幀使用,利用ConvGRU 實(shí)現(xiàn)狀態(tài)更新。如圖4 所示,將分類器C 的預(yù)測分?jǐn)?shù)st與?t按最大值進(jìn)行連接,得到εt∈RW×H×4。前一幀的狀態(tài)向量和εt作為ConvGRU 的輸入,得到當(dāng)前幀的狀態(tài)向量vt。
其中:Ns為當(dāng)前連續(xù)序列的幀數(shù)總和;zt是通過標(biāo)簽獲取的真實(shí)分?jǐn)?shù);α為超參數(shù),確定L′對整個(gè)損失函數(shù)的影響。
為了驗(yàn)證本文方法的可行性,使用國防科技大學(xué)ATR實(shí)驗(yàn)室于2019 年發(fā)布的紅外小目標(biāo)數(shù)據(jù)集DIRST[13]進(jìn)行對比和消融實(shí)驗(yàn)。所有實(shí)驗(yàn)均在單張NVIDIA GTX 2080 GPU上進(jìn)行。
本章先介紹實(shí)驗(yàn)所用到的DIRST 數(shù)據(jù)集以及針對紅外小目標(biāo)的評價(jià)體系,再分別介紹對比實(shí)驗(yàn)和消融實(shí)驗(yàn)。
DIRST 數(shù)據(jù)集由22 個(gè)數(shù)據(jù)段構(gòu)成,共包含 30 條運(yùn)動軌跡和 16 177 張紅外圖片,每個(gè)數(shù)據(jù)段包含紅外圖像序列和與之對應(yīng)的標(biāo)注文件,標(biāo)注主要記錄小目標(biāo)中心點(diǎn)的橫縱坐標(biāo)。DIRST 數(shù)據(jù)集包含30 條運(yùn)動軌跡和16 177 張紅外圖片。DIRST 所包含的復(fù)雜場景有:天空、山脈、森林、平原、丘陵和房屋建筑,其中包含多個(gè)目標(biāo)交叉飛行、地面叢林干擾和地面車輛干擾。由于該數(shù)據(jù)集沒有單獨(dú)劃分訓(xùn)練集和測試集,為了使對比實(shí)驗(yàn)更加公平,本文訓(xùn)練集和測試集的劃分和文獻(xiàn)[19]中劃分保持一致。
小目標(biāo)最終的邊界框小于9×9,而交并比(Intersection over Union,IoU)和ROC(Receiver Operating Characteristic)曲線下面積(Area Under the ROC Curve,AUC)評價(jià)體系主要用于大目標(biāo),所以該評價(jià)體系并不適用于小目標(biāo)。將預(yù)測得到的小目標(biāo)邊界框中心點(diǎn)與小目標(biāo)真實(shí)中心點(diǎn)作比較,如果預(yù)測的中心點(diǎn)在真實(shí)中心點(diǎn)的3×3 范圍內(nèi),認(rèn)為該預(yù)測是有效的。使用召回率(Recall,R)、精確率(Precision,P)和綜合評價(jià)指標(biāo)(F-Measure,F(xiàn)1)(其中取參數(shù)α=1)作為指標(biāo)衡量本文方法的有效性。
為了驗(yàn)證本文方法對紅外小目標(biāo)的跟蹤具有較好的性能,選用的幾種對比方法包括:1)通用檢測方法YOLOv3(You Only Look Once version 3)[20],在anchor box 的選擇上YOLOv3更適用于小目標(biāo)的檢測;2)通用跟蹤方法KeepTrack[21],KeepTrack 作為state-of-the-art 的通用跟蹤方法在眾多跟蹤基準(zhǔn)數(shù)據(jù)集上有優(yōu)秀的表現(xiàn);3)針對紅外小目標(biāo)的檢測方法ISTDet[22],ISTDet是一種基于CNN 的檢測方法,用來檢測紅外小目標(biāo);4)針對紅外小目標(biāo)的跟蹤方法SSD-ST(Single Shot multiBox Detector for Small Target)-1+APF(Adaptive Pipeline Filter)和SSD-ST-2+APF[23],其中APF 是用于多幀濾波階段的一個(gè)自適應(yīng)管道濾波器。實(shí)驗(yàn)對比結(jié)果如表1所示。
表1 不同方法的評估結(jié)果 單位:%Tab.1 Evaluation results of different methods unit:%
從表1 可以看出,本文方法在DIRST 數(shù)據(jù)集上的R 相較于 YOLOv3、ISTDet、SSD-ST-1+APF、SSD-ST-2+APF、KeepTrack 分別提高了10.0、4.0、6.4、6.1 和3.7 個(gè)百分點(diǎn);P分別提高了8.9、4.3、2.2、2.3 和3.7 個(gè)百分點(diǎn);F1分別提高了9.4、4.1、4.3、4.2 和3.7 個(gè)百分點(diǎn)。最高達(dá)到97.3%的精確率,這表明本文所提出的針對紅外小目標(biāo)的跟蹤方法比通用的檢測、跟蹤以及其他針對紅外小目標(biāo)的檢測跟蹤方法具有更好的性能。
由于紅外小目標(biāo)自身像素少,最后包含目標(biāo)的邊界框小,所以直接將跟蹤得到的邊界框與真實(shí)標(biāo)簽進(jìn)行比較不夠直觀。為了更直觀地展示本文方法對紅外小目標(biāo)進(jìn)行跟蹤的優(yōu)秀性能,提供圖5 所示的紅外小目標(biāo)中心點(diǎn)真實(shí)軌跡與跟蹤軌跡對比。DIRST 數(shù)據(jù)集包括22 個(gè)數(shù)據(jù)段,數(shù)據(jù)段1 對應(yīng)的是數(shù)據(jù)包中名為data1 的文件夾,數(shù)據(jù)集2 對應(yīng)的是名為data2 的文件夾,以此類推,數(shù)據(jù)段22 對應(yīng)data22,故圖5中data 后數(shù)字代表第幾個(gè)數(shù)據(jù)段。本文通過計(jì)算連續(xù)序列中所有幀的邊界框的中心點(diǎn),然后將全部中心點(diǎn)放在畫布上形成一條中心點(diǎn)軌跡。圖5 中包含較復(fù)雜的軌跡,本文方法預(yù)測的結(jié)果與真實(shí)軌跡基本一致,表明即使在復(fù)雜的背景和軌跡下仍能準(zhǔn)確地完成對紅外小目標(biāo)的跟蹤。綜上所述,本文方法針對紅外小目標(biāo)具有良好的跟蹤性能。
圖5 紅外小目標(biāo)真實(shí)軌跡與本文方法跟蹤的軌跡對比Fig.5 Comparison between real trajectories and trajectories tracked by the proposed method for infrared small targets
為分析各個(gè)組件對本文方法的影響,在DIRST 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果如表2 所示。
表2 消融實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Ablation experiment results unit:%
在分類器輸入中加入上一幀特征信息的作用 分類器的設(shè)計(jì)是為了區(qū)分背景與目標(biāo)。為了判斷上一幀特征信息在分類過程中是否起作用。本節(jié)設(shè)計(jì)了一個(gè)僅將當(dāng)前幀的特征信息輸入分類器的實(shí)驗(yàn)跟蹤方法。在這種方法下得到置信度st,此置信度與上一幀特征信息無關(guān)。如表2 所示,如果不將上一幀特征信息輸入分類器,跟蹤性能將下降,表明將上一幀特征信息加入到分類器中有助于獲得更好的跟蹤表現(xiàn)。
傳播模塊的作用 傳播模塊的作用是將上一幀狀態(tài)向量vt-1針對當(dāng)前幀進(jìn)行修正,使得修正后的狀態(tài)向量輸入融合模塊時(shí)更能準(zhǔn)確描述當(dāng)前幀的狀態(tài)信息。為了驗(yàn)證傳播模塊的有效性,將未修正的狀態(tài)向量vt-1直接輸入融合模塊進(jìn)行對比,結(jié)果如表2 所示。結(jié)果顯示,不使用傳播模塊進(jìn)行修正的情況下F1下降了9.3 個(gè)百分點(diǎn),表明利用連續(xù)幀之間的密集對應(yīng)關(guān)系將上一幀的狀態(tài)向量進(jìn)行修正是有必要的。
屏蔽層的作用 屏蔽層的作用是當(dāng)待跟蹤小目標(biāo)被遮擋或者多個(gè)目標(biāo)出現(xiàn)交叉時(shí),避免最后的融合分?jǐn)?shù)?t將遮擋物或其他目標(biāo)誤認(rèn)為該目標(biāo)的中心點(diǎn)。為了驗(yàn)證屏蔽層在融合模塊的作用,本節(jié)去掉屏蔽層,直接將中間分?jǐn)?shù)?^t輸入Iou-Net 中得到邊界框。結(jié)果如表2 所示,通過屏蔽層能有效減少跟蹤方法的誤檢率,提高召回率,引入屏蔽層后召回率提高了3.7 個(gè)百分點(diǎn)。
本文提出一種基于狀態(tài)信息的紅外小目標(biāo)跟蹤方法,該方法用于連續(xù)序列中紅外小目標(biāo)的跟蹤。首先利用相鄰兩幀的深度特征信息區(qū)分待跟蹤目標(biāo)與背景,然后結(jié)合連續(xù)幀之間的狀態(tài)向量定位小目標(biāo),最后在整個(gè)序列中傳播這些狀態(tài)向量,完成對整個(gè)序列的跟蹤。在包含天空、山脈、森林、平原、丘陵和房屋建筑等復(fù)雜場景的DIRST 數(shù)據(jù)集上評估本文方法,并與其他5 種方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,本文方法在各種復(fù)雜場景中具有良好的魯棒性,可達(dá)到96.2%的召回率和97.3%的精確率。驗(yàn)證了本文方法能夠很好地完成對連續(xù)序列中紅外小目標(biāo)的跟蹤任務(wù)。本文方法在復(fù)雜的紅外圖像場景中跟蹤速率較慢,并且模型的空間占用較大,未來可以從這兩方面入手優(yōu)化模型。