晏開祥,周冬明,王長城,周子為
(云南大學 信息學院,云南 昆明 650500)
視覺目標追蹤(Visual Object Tracking,VOT)作為計算視覺領域的一項基礎任務,具有廣闊的科研和工業(yè)價值[1]。近年來,以相關濾波和Siamese Net為基礎的多項目標跟蹤算法在跟蹤速度和精度上均取得了令人矚目的成績[2]。但可見光傳感器在惡劣環(huán)境(如雨雪、濃霧、夜晚等情況)下有限的圖像捕捉能力限制了跟蹤算法性能的進一步提升。因此,克服上述問題是該領域的一個重要研究方向[3-4]。紅外光傳感器因其獨特的成像原理,可有效識別出目標(熱源)與背景的信號差異,能夠在雨雪、濃霧和夜晚等情況下,保持跟蹤目標的圖像獲取能力。因此,融合了紅外光與可見光(RGB and Thermal,RGBT)互補特性的目標跟蹤算法已成為視覺目標跟蹤領域的一個熱門研究方向。近期,多項基于RGBT的目標跟蹤研究結果[5-7]表明,引入紅外光圖像作為補充手段,可有效提高目標跟蹤性能。例如,MANet[6]通過共享RGBT圖像的特征編碼權重,實現(xiàn)了遠高于傳統(tǒng)可見光跟蹤算法的任務性能。DAPNet[7]通過全局平均池化和加權隨機選擇,去除噪聲和冗余特征,從而提高了該模型的跟蹤性能。TFNet[8]通過評估來自雙模態(tài)的特征信息,增強其中特定模態(tài)的部分特征信息,強化特征圖對目標所在區(qū)域的特征表現(xiàn)。這些RGBT跟蹤算法雖然實現(xiàn)了很好的跟蹤效果,但在真實場景中存在的干擾情況[9-10](例如畫面模糊、目標快速移動、目標特征變化和鏡頭抖動等)使得上述算法難以保持穩(wěn)定的跟蹤狀態(tài)。這些干擾往往不具備統(tǒng)一的尺度和類似的形態(tài),所以傳統(tǒng)的卷積網(wǎng)絡無法利用其固定大小的卷積核識別目標與背景的差別[11]。為降低此類多尺度和多形態(tài)的干擾,增強大尺度變化下的目標特征提取能力,本文設計了一種基于多尺度選擇注意力機制的RGBT融合目標跟蹤算法(Selective Kernel Attention Fusion Tracking Network,SKANet)。通過在神經(jīng)網(wǎng)絡的單個卷積層中嵌入并行的多尺度卷積核提取不同尺度和形態(tài)下的目標特征,再利用通道選擇注意力篩選出其中目標特征質量較高的特征圖,可有效提升算法的追蹤精度和穩(wěn)定性。在開源的公開數(shù)據(jù)集RGBT234[12]和GTOT[13]上的實驗結果表明,SKANet具備良好的穩(wěn)定性和跟蹤精度。
針對上述問題,本文的主要貢獻如下:
① 提出了一個用于RGBT目標跟蹤的算法(SKANet)。該算法通過內部并行的三條通道分別提取可見光、紅外光以及紅外可見光融合模態(tài)特征,從而增強RGBT目標跟蹤性能。
② 提出了多分支選擇卷積模塊(Diverse-branches Selected-convolution Module,DSM)。DSM通過提取不同尺度的圖像特征,不僅保留了不同尺度級別的圖像語義信息,還降低了其中低質量特征和圖像干擾信息對算法精度的影響。
③ 設計了一個動態(tài)自適應融合模塊(Adaptive Fusion Module,AFM)。AFM為各尺度級的圖像特征匹配了一個自適應權重參數(shù),并利用該參數(shù)對送入的各尺度級的圖像特征進行加權求和,從而實現(xiàn)對各尺度級的圖像特征的融合。
目標跟蹤任務中,為全面覆蓋真實的目標跟蹤場景,跟蹤視頻序列往往采集自低照度、黑夜、雨雪和沙塵等極端場景。這類極端場景極大地影響了算法的跟蹤精度和魯棒性[14-15]。為應對此類情況,大量研究嘗試利用紅外與可見光圖像的互補特性,設計RGBT目標跟蹤算法,以此增強跟蹤算法的穩(wěn)定性和精度[16-17]。例如,Lu等[6]通過對紅外光模態(tài)、可見光模態(tài)以及紅外可見光融合模態(tài)分別建立特征提取通道,設計了用于RGBT融合目標追蹤的多適配器跟蹤算法。該算法不僅保留了RGBT所特有的模態(tài)信息,還建立了紅外與可見光融合信息編碼器。在此基礎上,Lu等[18]利用雙門機制分類處理各類干擾問題,進一步提升了目標跟蹤的連續(xù)性和穩(wěn)定性。Tu等[19]則在其設計的跟蹤算法模型中加入了相關濾波塊,以此衡量上級神經(jīng)網(wǎng)絡特征圖的可靠性,并選擇其中可靠性更高的特征圖作為下一級神經(jīng)網(wǎng)絡的輸入,有效地提高了跟蹤算法的魯棒性。此外,隨著注意力機制[20]在計算機視覺領域中的快速發(fā)展,涌現(xiàn)了一批基于視覺注意力機制的RGBT跟蹤算法。例如Feng等[21]在其研究中利用Resnet50作為特征提取基干,使用Transformer機制作為特征融合策略,實現(xiàn)了特征增強和深層次語義特征提取,改善了以往模型中因本地特征匹配精度較低造成的跟蹤誤差。Liu等[22]在雙模態(tài)獨立卷積特征提取結構的基礎上,引入了空間-軸向多頭注意力,在軸向與空間2個維度上分別進行注意力機制計算,實現(xiàn)了特征圖的像素級融合以及對目標位置信息的上下文編碼。
注意力機制在自然語言處理領域的大規(guī)模應用推動了基于視覺注意力機制的追蹤算法的快速發(fā)展[20]。通過對高密度信息和高質量特征區(qū)域進行編碼和權值重排,注意力機制可以將模型的注意力權重合理地分配到目標所在區(qū)域,同時抑制特征中存在的部分噪聲,改善低質量特征對模型帶來的不利影響。參考自然語言處理中的注意機制將句子視為序列的做法,ViT[23]將圖像轉換為序列,并將其送入多頭注意機制中進行分類,進而實現(xiàn)了注意力機制在計算機視覺中的應用。王淑賢等[24]設計的SiamMCA通過多尺度通道注意力沿特征圖軸向維度,建立選擇向量空間,選擇軸向維度上特征表現(xiàn)更優(yōu)的特征圖,實現(xiàn)了注意力機制在跟蹤算法中的應用。江英杰等[25]使用Transformer建立了一個雙流編解碼追蹤網(wǎng)絡,通過Transformer構成的編碼-解碼器學習追蹤目標的圖像特征,提高了跟蹤算法的魯棒性。
現(xiàn)有的RGBT雙模態(tài)數(shù)據(jù)集中,視頻序列不僅在可見光模態(tài)中存在前文所述的多類型干擾,還在紅外光模態(tài)中存在熱交叉、紅外傳感器底噪和紅外目標重疊等干擾情況[26]。隨著目標的快速移動,這些干擾使得畫面質量迅速惡化,固定尺寸的感受野無法穩(wěn)定捕捉目標特征[8]。為改善這一情況,本文設計了一種具備多尺度SKANet。通過配備的多尺度的卷積核,在不同尺度上獲取圖像的特征信息,再經(jīng)過通道選擇注意力,增強各尺度特征圖中跟蹤目標的特征信息,降低上述提及的各類型干擾,提高RGBT跟蹤的精度和穩(wěn)定性。
為克服不同尺度和形態(tài)的干擾,本文通過多個感受野所組成的卷積模塊獲取來自各度級的卷積特征,以增強算法應對目標大小變化、畫面干擾的能力。SKANet整體結構如圖1所示。
圖1 SKANet 整體結構Fig.1 Structure of SKANet
SKANet主要由并行的融合通道(Conv1~Conv3)、可見光通道(R DSM1~R DSM3)、紅外光通道(T DSM1~T DSM3)以及一個實例分類模塊(Instance Classification Module,ICM)組成。其中3個并行的融合通道和可見光通道、紅外光通道分別用于提取紅外-可見光融合模態(tài)、可見光模態(tài)和紅外光模態(tài)的圖像特征,而實例分類模塊則用于確認跟蹤目標是否存在于這些特征之中。可見光通道與紅外光通道結構類似,由3個多分支選擇卷積模塊(Multi-branch Selective Convolution,DSM)級聯(lián)而成,由淺到深地提取圖像特征。融合通道中Conv1與Conv2結構相同,由卷積層、ReLU激活層和最大池化層組成,而Conv3僅包含卷積層和ReLU激活層。Conv1~Conv3中所有可學習權重參數(shù)結合了可見光和紅外光各自的圖像特性,增強了2種模態(tài)特征提取的特點。實例分類模塊由3個全連接層級聯(lián)而成,分別是FC1、FC2和FC3。Conv1~Conv3、 R DSM1~R DSM3、T DSM1~T DSM3的主要輸入輸出參數(shù)如表1所示。
表1 模型中主要模塊輸入輸出參數(shù)Tab.1 Input and output parameters of main modules in the model
為從不同尺度的感受域提取目標特征,并合理地融合這些特征,本文在SKANet中設計了DSM,結構如圖2所示。
圖2 DSM結構Fig.2 Structure of DSM
單個DSM主要由多尺度卷積(Multi-scale Convolution Module,MCM),選擇注意力(Selected Attention Module,SAM)以及AFM三部分組成。MCM由K1~K4四個不同尺度的卷積塊構成,每個卷積塊均由卷積層、BatchNorm層、ReLU激活層和最大池化層級聯(lián)而成,K1~K4卷積層的卷積核大小分別為1×1、3×3、5×5、7×7。為充分利用特征圖中的高質量特征信息,MCM在K1~K4之后還分別級聯(lián)了一個SAM模塊,沿特征圖的軸向挑選各尺度的卷積特征圖。最后將挑選后的特征圖交由AFM進行自適應權重融合。該過程的詳細步驟是:首先將輸入特征fin∈B×C×H×W同時輸入Ki(i=1,2,3,4) 分支,相應得到特征fi∈C×H×W(i=1,2,3,4) 。而后將fi分為其中輸入對應的SAM模塊Attentioni(i=1,2,3,4)得到對應的注意力圖ai∈C×H×W(i=1,2,3,4),將ai與進行哈德瑪積運算,從而得到分支Ki的輸出結果ki∈C×H×W(i=1,2,3,4) 。最后利用AFM對ki進行自適應特征融合后,得到最終的輸出結果output∈C×H×W。在自適應特征融合過程中,為避免數(shù)據(jù)溢出造成的數(shù)值發(fā)散,引入了非線性歸一化函數(shù),對自適應權重值進行了歸一化運算。其中SAM和AFM模塊的詳細過程如下:
(4)
式中:i=1,2,3,4,Fi∈B×C×H×W,wi表示Fi所對應的可學習的自適應權重。
為實現(xiàn)模型的訓練及驗證,SKANet模型利用ICM模塊對輸入的正負樣本特征進行評分,按照正負樣本的分值,將輸入樣本確定為目標或背景(分值為正值的是正樣本,反之為負樣本)。ICM的整體結構可參見圖1,ICM由3個全連接層(FC1~FC3)組成,詳細參數(shù)情況如表2所示。其中FC1與FC2結構類似,由Linear層、Dropout層和ReLU激活層組成,FC3則只包含Linear層與ReLU層。FC3的輸出結果是形狀為2×1的向量。
表2 實例分類模塊詳情Tab.2 Details of instance classification
SKANet的中的二分類損失函數(shù)(Binary Loss)通過計算輸出結果中記錄的正負樣本損失值,逐步優(yōu)化模型參數(shù),從而提高模型區(qū)分采樣框中目標和背景的能力。為防止在損失計算過程中出現(xiàn)數(shù)據(jù)值溢出,SKANet在損失函數(shù)計算的基礎上扣除最大值,并利用非線性歸一化函數(shù)將損失值約束為0~1。損失函數(shù)的詳細計算過程如下:
式中:posi表示記錄在FC3輸出結果向量中第i個正樣本的損失值,posmax表示單個批次(batch)中正樣本損失中最大值,在實際訓練過程中設置單批次的正樣本數(shù)n1=32,負樣本數(shù)n2=96,negi表示第i個負樣本的損失值,negmax表示所有正樣本損失中最大值,Losspos表示正樣本損失,Lossneg表示負樣本損失,總損失Loss等于正負樣本損失之和。
為詳細驗證和比較算法模型性能,本文利用開源數(shù)據(jù)集RGBT234和GTOT進行了交叉訓練和驗證,并與MANet++[6]、JMMAC[27]、ECO、MANet[28]、MDNet+RGBT、DAPNet[7]、SGT[29]等7項目前主流的RGBT目標追蹤算法進行性能比較。實驗平臺配置:處理器intel i7 10700k,顯卡NVIDIA RTX 3080 Ti,內存32 GB DDR4 3 200 Hz,開發(fā)框架Pytorch1.9.1,編程語言Python3.6。
RGBT234數(shù)據(jù)集由234個真實場景下拍攝的視頻序列組成,每個序列均包含RGBT兩個模態(tài)的圖像。RGBT234數(shù)據(jù)集中標注了12類挑戰(zhàn)屬性:無遮擋(No Occlusion,NO)、局部遮擋(Partial Occlusion,PO)、嚴重遮擋( Heavy Occlusion,HO)、低照度(Low Illumination,LI)、低分辨率(Low Resolution,LR)、熱交叉( Thermal Crossover,TC),畸變(Defor-mation,DEF)、快速運動(Fast Motion,FM)、尺度變化(Scale Variation,SV),運動模糊(Motion Blur,MB),相機運動(Camera Moving,CM) 和背景干擾(Background Clutter,BC)。
與RGBT234數(shù)據(jù)集不同的是,GTOT數(shù)據(jù)集由50個場景序列構成,且僅包含7類挑戰(zhàn)屬性:OCC、SO、LSV、LI、FM、TC以及DEF。
訓練時, SKANet圍繞輸入目標樣本中心點,按照標準正態(tài)分布或均勻分布分別生成指定數(shù)量的正樣本或負樣本采樣點(SKANet訓練過程中正樣本數(shù)量為32,負樣本數(shù)量為96),而后以這些采樣點為采樣框中心,按照指定的正、負樣本數(shù)量裁切出用于訓練的樣本(裁切樣本與標定樣本的交并比值(IoU)大于0.6的設為正樣本,小于0.3的設為負樣本)。為匹配不同模塊的訓練速度,SKANet將模型中的融合通道、可見光通道、紅外光通道以及實例分類模塊的可學習參數(shù)的學習率分別設置為0.000 5、0.000 5、0.000 5以及0.000 1。因為RGBT234與GTOT數(shù)據(jù)集的數(shù)量差異,SKANet在2個數(shù)據(jù)集上的訓練輪次分別是200、120。
驗證時,SKANet的工作流程分為初始化訓練與單幀跟蹤。初始化訓練時,SKANet利用每一個序列的第一幀中標記框位置,生成500個正樣本和5 000個負樣本,并利用這些正負樣本對FC1~FC3進行50輪次的初始化訓練。單幀跟蹤時,SKANet基于上一幀的預測結果中心點,按照均勻采樣生成256個樣本。根據(jù)256個樣本在SKANet中的預測結果,選取其中得分排名前五的樣本框,使用這5個樣本框的中心點、長寬值的平均值作為該幀的預測結果。
為量化地評估算法在數(shù)據(jù)集上的性能表現(xiàn),實驗中使用精度(Precision Ratio,PR)和成功率(Success Ratio,SR)來分別衡量算法的精度和穩(wěn)定性。具體的計算如下:
式中:pi表示當前第i幀是否符合實驗中設定的成功率精度,若其預測框bbi中心與標記的真實框gti的歐氏距離低于門限值thrPR則取1(使用GTOT數(shù)據(jù)集時設置為5像素值,使用RGBT234數(shù)據(jù)集時設置為20像素值),否則取0。而整個數(shù)據(jù)集上的平均PR,則需要累加整個數(shù)據(jù)集上所有的序列幀后求平均。SR的計算與PR計算有區(qū)別的地方是計算IoU,再與門限值thrSR(文中設置為0.6)相比較,從而判斷是否滿足要求。
SKANet在RGBT234數(shù)據(jù)集上的驗證結果如表3所示,可以看出,在共同驗證的8項算法中,SKANet的平均PR、SR值均為第一,且分別超過第二名0.5%、0.4%。而在RGBT234數(shù)據(jù)集的12項詳細測試結果中,SKANet的SR值在BC、FM、HO、LR、PO等5項場景下位列第一;在CM、DEF、MB、NO、TC等5項場景下位列第二。而PR值在BC、FM、LR、PO、TC等5項場景下位列第一;在DEF、HO、LI等3項場景下位列第二。由上述結果可以看出,SKANet在RGBT234數(shù)據(jù)集上擁有更強的穩(wěn)定性,相較于平均SR值位列第二的JMMAC,SKANet在FM、HO、LR、PO等場景下具有更穩(wěn)定的跟蹤性能,能夠更好地抵抗BC、FM、HO、LR、PO、TC等5項場景中存在的相機快速移動、畫面嚴重污染、低分辨率和畫面部分遮擋帶來的不良影響。
表3 RGBT234驗證結果Tab.3 Evaluated result on RGBT234
SKANet在GTOT數(shù)據(jù)集上的驗證結果如表4所示??梢钥闯?在共同驗證的8項算法中,SKANet的平均PR、SR值均為第一,分別超過第二名0.7%、0.3%。SKANet的PR值在OCC、SO、FM、TC等4項場景下位列第一;在LSV、LI等2項場景下位列第二。其SR值在OCC、LSV、TC、DEF等4項場景下位列第一;在SO、LI等2項場景下位列第二。通過各分類PR、SR值可以看出,SKANet在GTOT數(shù)據(jù)上相較于比較算法擁有更高的準確率和相對持平的穩(wěn)定性,同時在面對畫面存在遮擋、跟蹤目標較小和鏡頭快速晃動等情況時具備明顯優(yōu)于比較算法的跟蹤性能,能夠保持較高的跟蹤精度和跟蹤穩(wěn)定性。
表4 GTOT分類驗證詳情Tab.4 Evaluated result on GTOT
為在跟蹤畫面中直觀展示SKANet的跟蹤性能,本文挑選了JMMAC[27]、 ECO、MANet[28]、MDNet+RGBT、 SGT[29]等5項算法作為對比對象,選取RGBT234數(shù)據(jù)集中4個典型序列的連續(xù)3幀跟蹤結果進行可視化展示??梢暬母櫧Y果如圖3所示。
(a)目標干擾(第299、300、301幀)
(b)鏡頭抖動(第34、35、36幀)
(c)部分遮擋(第12、13、14幀)
(d)鏡頭眩光(第235、236、237幀)圖3 部分可視化跟蹤結果Fig.3 Visual results of partial sequences
可以看出,本文提出的SKANet在4個序列中的跟蹤結果均優(yōu)于比較算法。同時,從存在目標干擾時的結果(圖3(a))可以看出,在跟蹤畫面中存在與跟蹤對象外形相似的其他跟蹤目標時,SKANet能識別目標與干擾對象之間的差異。從存在鏡頭抖動時的跟蹤結果(圖3(b))可以看出,跟蹤畫面在第35幀時出現(xiàn)了明顯的鏡頭抖動,因而產(chǎn)生了明顯的虛影和扭曲,但SKANet仍然能夠穩(wěn)定地保持對目標的跟蹤。從存在部分遮擋時的跟蹤結果(圖3(c))可以看出,當目標運動至畫面中的電線桿附近時,被電線桿及附近灌木叢遮擋了部分特征,除SKANet與JMMAC之外的大部分比較算法因無法應對此類干擾而丟失目標。從存在鏡頭眩光時的跟蹤結果(圖3(d))可以看出,在可見光模態(tài)下,畫面中充斥著因車輛燈光直射而產(chǎn)生的大量鏡頭眩光,目標的可見光特征因此被大部分遮擋,除SKANet、JMMAC和MANet之外的其他對比算法的跟蹤框皆產(chǎn)生了更大的漂移。
為分析驗證SKANet中各部分的效能,設計了3個消融實驗:① 使用融合通道中的Conv1~Conv3替換可見光通道中的R DSM1~R DSM3,建立SKANet的變體網(wǎng)絡:SKANet-V1。② 使用融合通道中的Conv1~Conv3替換紅外通道中的T DSM1~T DSM3,建立SKANet的變體網(wǎng)絡:SKANet-V2。 ③ 使用融合通道中的Conv1~Conv3替換可見光以及紅外通道中的R DSM1~R DSM3與T DSM1~T DSM3,建立SKANet的變體網(wǎng)絡:SKANet-V3。使用與實驗中同樣的訓練策略與驗證設置,在RGBT234數(shù)據(jù)集上對SKANet-V1、SKANet-V2以及SKANet-V3進行訓練,然后使用GTOT數(shù)據(jù)集對其進行驗證。
消融實驗結果如表5所示??梢钥闯?通過引入DSM,建立用于可見光模態(tài)的特征提取通道可有效提高算法的跟蹤精度和穩(wěn)定性;通過引入紅外光模態(tài)圖像,建立紅外光模態(tài)的DSM特征提取通道,可將跟蹤精度從89.9%提升至90.9%,將跟蹤成功率從72.8%提升至73.5%,較建立可見光模態(tài)的DSM特征提取通道效果更為明顯;通過分別建立RGBT模態(tài)的DSM特征提取通道,可將跟蹤精度提升1.5%、成功率提升1.1%。
表5 消融實驗結果Tab.5 Result of ablation experiments
在真實場景中,目標跟蹤任務不僅需要克服跟蹤目標尺度大范圍變化造成的特征變化,還要抵抗真實場景中復雜背景條件和圖像捕捉裝置自身因素產(chǎn)生的干擾。本文設計的SKANet,通過DSM,從多尺度感受野上提取追蹤目標圖像特征,再利用SAM對這些圖像特征進行過濾和篩選,降低其中存在干擾的特征圖對整個模型跟蹤精度和穩(wěn)定性的影響。通過實驗結果以及消融實驗可以看出,SKANet利用紅外與可見光圖像的互補特性,顯著地提高了視覺目標的跟蹤精度和魯棒性。相較于其他主流RGBT跟蹤算法,SKANet在跟蹤畫面存在干擾時,能夠保持更高的跟蹤精度和穩(wěn)定性。