王傳云,蘇陽,王琳霖,王田,王靜靜,高騫,*
1.沈陽航空航天大學(xué) 人工智能學(xué)院,沈陽 110136
2.沈陽航空航天大學(xué) 計算機學(xué)院,沈陽 110136
3.北京航空航天大學(xué) 人工智能研究院,北京 100191
4.中國電子科技集團公司 電子科學(xué)研究院,北京 100041
隨著現(xiàn)代戰(zhàn)爭形態(tài)向信息化、無人化、智能化的轉(zhuǎn)變,無人機(Unmanned Aerial Vehicle,UAV)已被廣泛應(yīng)用于軍事領(lǐng)域中的情報、偵察、監(jiān)視、干擾、誘餌、精確打擊、毀傷評估等作戰(zhàn)任務(wù)。由于戰(zhàn)場環(huán)境復(fù)雜多變,強對抗的作戰(zhàn)任務(wù)對單架無人機的戰(zhàn)時生存能力、執(zhí)行任務(wù)能力提出了新的挑戰(zhàn)。因此,由成百上千架小尺寸、低成本的無人機構(gòu)成集群,以自組網(wǎng)的方式遂行復(fù)雜作戰(zhàn)任務(wù)的作戰(zhàn)樣式正引起高度關(guān)注和廣泛研究。無人機集群作戰(zhàn)利用多架無人機協(xié)同作戰(zhàn),通過行動協(xié)調(diào),突破敵方的嚴(yán)密防空圈,完成復(fù)雜的情報和偵察任務(wù),以及協(xié)同攻擊與毀傷評估等任務(wù),表現(xiàn)出高度的協(xié)同能力和智能化水平[1]。無人機集群作戰(zhàn)具有智能化和靈活多變等特點,具有更快速的偵查效率,使得傳統(tǒng)的防御體系很難對目標(biāo)進行有效的打擊,即便能夠?qū)ζ溥M行有效的反擊,也會因為其龐大的數(shù)量而加重防空體系的負荷,最終影響到整個防御體系的效力。此外,當(dāng)集群內(nèi)的某些個體被破壞或失去功能時,無人機集群的合作網(wǎng)絡(luò)可以重新構(gòu)建出新的攻擊結(jié)構(gòu)[2]。
由于無人機集群具有數(shù)量多、分布式、無中心、自組織、成本低、機動靈活、協(xié)同突防和協(xié)同攻擊等特點。低空空域反制無人機集群研究面臨著極大的挑戰(zhàn)。目前,低空空域反制無人機集群方法主要包括探測識別類、平臺摧毀類、載荷毀傷類、航程消耗類、鏈路干擾類、綜合防護類和主動反制類[3]。探測識別類方法的隱蔽性極強,主要包括雷達探測技術(shù)、無線電探測技術(shù)和光電探測技術(shù);平臺摧毀類方法的機動性能較差,主要包括傳統(tǒng)彈炮系統(tǒng)和新型彈藥技術(shù);載荷毀傷類方法的自身防護較弱,主要包括電子器件毀傷和輻射毀傷;航程消耗類方法的作戰(zhàn)航程較短,主要包括摧毀蜂巢、偽裝遮障和誘餌欺騙;鏈路干擾類方法對通信依賴較多,主要包括指控鏈路干擾和導(dǎo)航鏈路干擾;綜合防護類方法的毀傷能力較弱,主要包括低成本防護技術(shù)、立體防護技術(shù)和關(guān)鍵點防護;主動反制類方法主要包括格斗型無人機和無人機集群對抗。然而,進行上述反制無人機集群方法的前提是對入侵的無人機集群進行有效的識別、跟蹤和定位。
反無人機集群系統(tǒng)依靠各種技術(shù)來探測、跟蹤和識別無人機,其中最常見的是雷達、光學(xué)傳感器和聲傳感器。但是,無人機具有較低的雷達散射截面(Radar Cross Section,RCS)和相對較低的速度,這些特點使得探測任務(wù)具有挑戰(zhàn)性。雷達探測器以其較遠的探測距離、較高的靈敏度和全天候適應(yīng)能力等優(yōu)勢,已被廣泛應(yīng)用于無人機探測與跟蹤。但是,雷達探測器的價格昂貴、靈活性差、隱蔽性不好等問題,嚴(yán)重制約了其應(yīng)用場景和作戰(zhàn)效能。與此相對,近年來,低成本、高分辨率的視覺傳感器技術(shù)發(fā)展日新月異,紅外、可見光等視覺探測技術(shù)在無人機探測與跟蹤方面表現(xiàn)出優(yōu)異的性能,受到越來越多的研究人員關(guān)注[4]。視覺探測技術(shù)的主要優(yōu)點包括探測結(jié)果直觀、系統(tǒng)成本低、探測距離遠、適用場景高等,這些優(yōu)點決定了視覺探測技術(shù)是低空空域探測預(yù)警無人機集群技術(shù)不可或缺的一部分。
由于無人機具有幾何尺寸小、雷達散射面小等特點,所以普通防空系統(tǒng)很難及時發(fā)現(xiàn)和截獲目標(biāo)。近年來,研究人員主要依靠紅外和可見光探測系統(tǒng)等進行探測與跟蹤,基于計算機視覺的多目標(biāo)跟蹤(Multiple Object Tracking,MOT)技術(shù)成為反無人機集群系統(tǒng)中關(guān)鍵探測技術(shù)之一。MOT 主要研究目的是對視頻中多個感興趣目標(biāo)定位的同時,維持目標(biāo)各自的身份識別號(Identification,ID),并記錄連續(xù)的運動軌跡,因此MOT亦可視為一個數(shù)據(jù)關(guān)聯(lián)問題[5-6]。CTrackerV1[7]模型是一個端到端的MOT 模型,通過輸入相鄰兩幀的信息,在一個單一的回歸模型中進行聯(lián)合檢測和跟蹤,同時對相鄰兩幀對中同時出現(xiàn)的成對邊界框進行回歸,大大提高了跟蹤準(zhǔn)確性并降低了跟蹤耗時;SORT(Simple Online and Realtime Tracking)[8]模型重點解決了跟蹤的實時性問題,通過提供給跟蹤器過去幀和當(dāng)前幀的信息,在視頻序列幀之間關(guān)聯(lián)檢測結(jié)果;Deep-SORT(Deep Learning-based SORT)[9]模型是針對SORT 模型的一次改進,在數(shù)據(jù)關(guān)聯(lián)方面引入外觀模型的信息,從而提高關(guān)聯(lián)的魯棒性。ByteTrack[10]模型提出了一種簡單、有效和通用的關(guān)聯(lián)方法,通過關(guān)聯(lián)幾乎所有檢測框而不是只關(guān)聯(lián)高分的檢測框來進行跟蹤,對于低分檢測框,利用與軌跡的相似性來恢復(fù)真實對象并過濾掉背景檢測框。FairMOT[11]模型屬于一階段MOT 模型,采用無錨點框(Anchor-Free)目標(biāo)檢測方法,檢測模型和重識別(Re-ID)模型同時進行訓(xùn)練,提升了運行速率。
本文主要在無人機集群的運動場景下進行研究,相較于傳統(tǒng)的以行人為目標(biāo)的MOT 研究方向,以無人機為目標(biāo)的MOT 研究應(yīng)更加傾向于解決無人機尺寸小、飛行速度快、目標(biāo)之間互相重疊遮擋及復(fù)雜背景等問題?,F(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN )的目標(biāo)檢測模型依賴有錨點框(Anchor-Based),此類模型易導(dǎo)致被小目標(biāo)漏識別,并且當(dāng)2 個目標(biāo)相距過近時,存在將2 個目標(biāo)誤識別為同一個ID 的現(xiàn)象。因此,為了提高模型的識別精度,本文采用“點即是目標(biāo)”的思路。具體來說,通過基于Anchor-Free 的目標(biāo)檢測模型來緩解對齊問題與誤識別問題,同時降低Re-ID學(xué)習(xí)特征的維數(shù),通過多層特征聚合來進一步優(yōu)化網(wǎng)絡(luò)的識別速度。綜合考慮下,選擇Fair-MOT 模型的多分支Anchor-Free 預(yù)測結(jié)構(gòu)展開研究。
結(jié)合無人機目標(biāo)相較于行人目標(biāo)尺寸更小、運動速度更快、背景更復(fù)雜等問題,提出了UAVS-MOT 多目標(biāo)跟蹤模型,具體創(chuàng)新點如下所示。
1)針對無人機目標(biāo)尺寸小、背景與目標(biāo)易混淆等難點,在主干網(wǎng)絡(luò)引入坐標(biāo)注意力(Coordinate Attention,CA)[12],將位置信息嵌入到通道注意力中,同時考慮了通道間關(guān)系和位置信息,有助于算法更好地定位和識別目標(biāo)。
2)針對無人機之間互相遮擋導(dǎo)致ID 頻繁切換、關(guān)聯(lián)錯誤ID 等難點。本文將Re-ID 分支的損失函數(shù)替換為ArcFace Loss[13]進行訓(xùn)練,使其能提取更精確的表觀特征,增強判別能力。
3)針對無人機飛行速度快、頻繁飛入飛出導(dǎo)致軌跡不連續(xù)等難點。本文將數(shù)據(jù)關(guān)聯(lián)部分更換為BYTE 數(shù)據(jù)關(guān)聯(lián)方法,利用檢測框和跟蹤軌跡之間的相似性,在保留高分檢測結(jié)果的同時,從低分檢測結(jié)果中去除背景,挖掘出真正的物體(遮擋、模糊等困難樣本),從而降低漏檢并提高軌跡的連貫性。
MOT 模型主要分為一階段模型和兩階段模型,其中一階段模型是將目標(biāo)檢測和Re-ID 這2 個部分共享在同一個網(wǎng)絡(luò)中,2 個任務(wù)同時進行,加速推理。本文提出的UAVS-MOT 多目標(biāo)跟蹤模型是基于Anchor-Free 的一階段MOT 模型,可以有效解決以無人機集群為探測目標(biāo)的漏檢、誤檢和跟蹤精度下降等問題。
UAVS-MOT 模型是從提取更精確的外觀特征、使用更具有判別能力的損失函數(shù)與替換更加優(yōu)質(zhì)的數(shù)據(jù)關(guān)聯(lián)方法3 個方面對FairMOT 模型進行改進,整體模型框架如圖1 所示。
圖1 UAVS-MOT 模型框架圖Fig.1 Diagram of UAVS-MOT model framework
在本模型框架中,輸入的圖像首先經(jīng)過添加CA 注意力的編碼器-解碼器來提取特征,然后將得到的嵌入特征分別經(jīng)過檢測分支和Re-ID 分支,最終通過BYTE 關(guān)聯(lián)策略來跟蹤目標(biāo)。其中檢測分支分別輸出heatmap、box size和offset,各分支通過hm_loss、wh_loss和offset_loss 來進行優(yōu)化。對于Re-ID 分支,將嵌入特征進一步進行特征提取,然后通過ArcFace_loss 進行優(yōu)化。需要注意的是,CA 注意力添加在編碼器的Level 0 層和Level 1層,并且訓(xùn)練時跟蹤器并不參與訓(xùn)練。
UAVS-MOT 采用ResNet-34 作為主干網(wǎng)絡(luò),以便在準(zhǔn)確性和速度之間取得良好的平衡。為了容納不同規(guī)模的目標(biāo),在主干網(wǎng)絡(luò)上應(yīng)用了深度聚合網(wǎng)絡(luò)(Deep Layer Aggregation,DLA)[14]的增強版本DLA-34。相較于 初始版本,DLA-34 在低級特征和高級特征之間增加了更多的跳躍連接,類似于特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[15]結(jié)構(gòu),并且把上采樣模塊中的所有卷積層替換為可變形卷積層,使其能夠根據(jù)目標(biāo)尺寸和姿態(tài)動態(tài)的調(diào)整感受野。
輸入圖像的尺寸為Himage×Wimage,輸出特征圖的形狀為C×H×W。其中,H=Himage/4,W=Wimage/4。
為了使UAVS-MOT 的主干網(wǎng)絡(luò)能更準(zhǔn)確地進行特征提取,本文在編碼器的Level 0 層和Level 1 層中引入CA 注意力機制,使其能更準(zhǔn)確地定位感興趣目標(biāo)的確切位置,從而幫助整個模型更好地識別。另外,CA 注意力的引入方式非常靈活,幾乎沒有計算開銷。
一些經(jīng)典的注意力通常會忽略位置信息,而位置信息對于生成空間選擇性注意力圖是非常重要的。CA 注意力將位置信息嵌入到通道注意力中,并且將通道注意力分解為2 個1D 特征編碼過程,分別沿2 個空間方向聚合特征。通過這種方式捕獲長期依賴關(guān)系,既可以獲取一個空間方向上的遠程依賴關(guān)系,又可以保留另一個空間方向上的精確位置信息。然后,生成的特征圖被分別編碼成方向感知和位置感知的注意力圖,這對注意力圖可以互補地應(yīng)用于輸入特征圖,以增加感興趣對象的表示。與SE(Squeeze-and-Excitation)注意力[16]和CBAM(Convolutional Block Attention Module)注意力[17]一樣,CA 注意力可以看作是一個模塊,方便嵌入到其他網(wǎng)絡(luò)型中,旨在增強移動網(wǎng)絡(luò)學(xué)習(xí)特征的表達能力。它可以采用任何中間特征張量X=[x1x2… xc]∈RC×H×W作為輸入,并輸出 具有與相同大小的增廣表示Y=[y1y2… yc]的變換張量。CA 注意力通過坐標(biāo)信息嵌入和坐標(biāo)注意力生成兩個步驟來編碼通道注意力關(guān)系和遠程依賴關(guān)系,用X Avg Pool和Y Avg Pool 分別表示1D 水平全局池化和1D 垂直全局池化,CA 注意力模塊的示意圖如圖2 所示。
圖2 CA 注意力模塊示意圖Fig.2 Schematic diagram of CA attention module
CA 注意力模塊具體實現(xiàn)步驟如下所示:
步驟1坐標(biāo)信息嵌入
為了使注意力在空間上捕捉精確的位置信息,CA 注意力分解式(1)中的全局池化變?yōu)橐粚σ痪S的特征向量。CA 注意力將全局池化操作分解為沿著輸入特征圖的水平方向(kernel(H,1))和垂直方向(kernel(1,W))分別進行池化操作,從而獲得輸入特征圖的H,W 相關(guān)的位置信息。
式中:水平方向得到的一維特征定義如式(2)所示,垂直方向得到的一維特征定義如式(3)所示:
式(2)和式(3)所述2 種變換分別沿2 個空間方向聚合特征,生成一對方向感知的特征映射。這2 種轉(zhuǎn)換還可以讓CA 注意力在一個空間方向上獲取長期依賴關(guān)系,并在另一個空間方向上保存精確的位置信息,這有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的對象。
步驟2坐標(biāo)注意力生成
坐標(biāo)嵌入過程中,式(2)和式(3)獲得輸入特征的全局感受野和編碼精確的位置信息。利用生成的坐標(biāo)信息,CA 注意力利用該坐標(biāo)信息生成坐標(biāo)注意力圖。生成注意力圖有以下3 個標(biāo)準(zhǔn):①對于移動環(huán)境中的應(yīng)用來說,這種轉(zhuǎn)換應(yīng)該盡可能簡單高效;② 可以充分利用捕獲到的位置信息,精確定位感興趣區(qū)域;③能夠有效地捕捉通道之間的關(guān)系。
將水平和垂直的池化結(jié)果連接到一起,并送入一個1×1 卷積獲得注意力圖,定義為式(4):
式中:F1表示為將水平和垂直池化結(jié)果的連接操作;f ∈RC/r×(H+W);r 是控制模塊大小的一個超參數(shù),經(jīng)過激活函數(shù)獲得非線性的數(shù)據(jù)之后,再將輸出的結(jié)果重新按照水平和垂直方向分為2 組特征圖,定義為式(5)和式(6):
再分別經(jīng)過1×1 卷積之后,利用激活函數(shù)獲得注意力的權(quán)重數(shù)據(jù)。最后,再將輸入的特征圖數(shù)據(jù)與水平和垂直權(quán)重相乘獲得CA 注意力輸出特征圖,定義為式(7):
UAVS-MOT 的檢測分支建立在Center-Net[18]的基礎(chǔ)上,檢測分支中包含Heatmap head、Center offset head和Box size head。3 個平行 頭部被附加到DLA-34上,每個頭部由一個256 通道的卷積層和一個1×1 卷積層組成。
1)Heatmap head
Heatmap head 負責(zé)估計目標(biāo)中心的位置。heatmap 的尺寸為1×H×W,圖像中的每個GT box 為bi=目標(biāo)中 心點為通過劃分步幅來獲得目標(biāo)在特征圖上的位置。在 點(x,y)處的heatmap 響應(yīng)定 義為式(8):
式中:N 表示圖像中的目標(biāo)個數(shù),σc表示標(biāo)準(zhǔn)偏差。
損失函數(shù)定義如式(9):
2)Center offset head和Box size head
式中:λs表示加權(quán)參數(shù),并且設(shè)置為0.1。
UAVS-MOT 中Re-ID 分支負責(zé)提取能夠區(qū)分不同目標(biāo)對象的身份特征,本文使用Arc-Face Loss 進行訓(xùn)練,使其能提取更精確的表觀特征,增強判別能力。
Softmax 損失函數(shù)在訓(xùn)練過程中占主導(dǎo)地位,因為基于整數(shù)的乘法角余量使目標(biāo)邏輯回歸曲線非常陡峭,從而阻礙了收斂。Deng等[13]提出了ArcFace Loss,以進一步提高模型的判別力并穩(wěn)定訓(xùn)練過程。
最廣泛使用的分類損失函數(shù)Softmax Loss:
式中:xi∈Rd表示第i 個樣本的深度特征,屬于第yi類,將嵌入特征維度d 設(shè)置為512;Wj∈Rd表示權(quán)重W ∈Rd×N的第j列,bj∈Rd是偏置項;批量大小和類數(shù)分別為N和n。
為了簡單起見,ArcFace Loss修正了偏差bj=0,將邏輯回歸轉(zhuǎn)換為=‖Wj‖‖xi‖cos θj,其中θj是權(quán)重Wj和特征xi之間的角度。然后,通過l2歸一化來固定單個權(quán)重‖Wj‖=1,還通過l2歸一化來固定嵌入特征‖xi‖,并將其重新縮放到s,特征和權(quán)重的歸一化步驟使預(yù)測僅取決于特征和權(quán)重之間的角度。因此,學(xué)習(xí)的嵌入特征分布在半徑為s 的超球面上,如式(12)所述:
由于嵌入特征分布在超球面上的每個特征中心周圍,所以在xi和之間添加了一個附加角余量懲罰m,這樣可以同時增強類內(nèi)相關(guān)性和類間差異性。由于提出的附加角余量懲罰等于歸一化超球面中的測地距離余量懲罰,所以Arc-Face Loss 定義如式(13)所述:
本文實驗中ArcFace Loss 的超參數(shù)s 設(shè)置為32,m 設(shè)置為0.5。通過Lheat、Lbox和LArcFace一起訓(xùn)練檢測分支和Re-ID 分支,并通過不確定損失[19]來自動平衡這2 個分支任務(wù)。損失函數(shù)如式(14)和式(15)所述:
式中:w1和w2表示平衡2 個分支任務(wù)的可學(xué)習(xí)參數(shù)。
UAVS-MOT 模型的數(shù)據(jù)關(guān)聯(lián)部分使用BYTE 數(shù)據(jù)關(guān)聯(lián)方法,使其從低分檢測結(jié)果中去除背景,挖掘出真正的物體(遮擋、模糊等困難樣本),從而降低漏檢并提高軌跡的連貫性。BYTE數(shù)據(jù)關(guān)聯(lián)方法保留每個檢測框,并將其分為高分檢測框和低分檢測框。首先,將高分檢測框與軌跡相關(guān)聯(lián)(當(dāng)目標(biāo)之間相互遮擋、運動模糊或尺度變換時,有些軌跡和檢測框不匹配)。然后,將低分數(shù)檢測框和這些不匹配的軌跡相關(guān)聯(lián),這樣可以恢復(fù)低分數(shù)檢測框中的目標(biāo),并且可以過濾掉背景。BYTE 數(shù)據(jù)關(guān)聯(lián)方法具體流程如下所示:
1)BYTE 數(shù)據(jù)關(guān)聯(lián)方法的輸入是視頻序列V、目標(biāo)檢測器Det和卡爾曼濾波器KF。設(shè)置3 個閾值Thigh=0.6、Tlow=0.1和∈=0.7,Thigh和Tlow是檢測分數(shù)閾值,∈是跟蹤分數(shù)閾值。輸出軌跡集合T,T 中每個軌跡都包含每個幀中的目標(biāo)的邊界框和ID。對于視頻中的每一幀,通過目標(biāo)檢測器Det 得到檢測框和檢測分數(shù),對于檢測分數(shù)高于Thigh的檢測框,將它們保留到Dhigh中;對于檢測分數(shù)處于Thigh和Tlow之間的檢測框,將它們保留到Dlow中。把檢測框分離成2 部分之后,使用KF 來預(yù)測T 中每個軌跡的新位置。
2)在Dhigh和T(包括丟失的軌跡Tlost)之間執(zhí)行第一次關(guān)聯(lián)。首先,通過Dhigh和T 的預(yù)測框之間的交并比(Intersectionover Union,IoU)來計算相似性。然后,使用匈牙利算法來完成基于相似度的匹配,如果檢測框和軌跡框之間的IoU<0.2,則拒絕匹配。最后,將不匹配的檢測框保留到Dremain,將不匹配的軌跡保留到Tremain。其中,Re-ID 特征被添加到第1 次關(guān)聯(lián)中。
3)在Dlow和Tremain之間執(zhí)行第2 次關(guān)聯(lián),將不匹配的軌跡保留到Tre-remain,刪除所有不匹配的低分檢測框(被視為背景)。在第2 次匹配中,僅僅使用IoU 作為相似性。因為低得分檢測框通常包含嚴(yán)重的遮擋或運動模糊,外觀特征是不可靠的。因此,將BYTE 應(yīng)用于UAVS-MOT時,在第2 次關(guān)聯(lián)中不使用外觀相似性。
4)在2 次關(guān)聯(lián)完成后,對于仍無法匹配的軌跡Tre-remain,將它們保留到Tlost中。對于Tlost中的每個軌跡,只有當(dāng)它存在超過30 幀時,才將其從T 中刪除。否則,將Tlost保留在T中。
5)最后,從第一次關(guān)聯(lián)之后保留的不匹配高分檢測框Dremain中初始化新的軌跡。對于Dremain中的每個檢測框,如果其檢測得分高于∈,并且存在于2 個連續(xù)幀,則初始化一個新的軌跡。BYTE 數(shù)據(jù)關(guān)聯(lián)算法如算法1 所示。
在Linux 系統(tǒng)上進行實驗,所用的編程語言為Python,具體實驗配置如表1 所述。
表1 實驗配置Table 1 Experimental configuration
使用UAVSwarm Dataset[20](https:∥github.com/UAVSwarm/UAVSwarm-dataset/)進行試驗,共有12 598 張圖像,其中訓(xùn)練集有6 844張,測試集有5 754張。選擇UAVSwarm Dataset 訓(xùn)練集的全部樣本進行訓(xùn)練,UAVSwarm Dataset測試集的全部樣本進行測試。
MOT 算法需同時兼顧目標(biāo)定位和時序關(guān)聯(lián)問題,往往較難用單一指標(biāo)來評測整個算法的性能。在MOT Challenge[21]中提供了一套學(xué)術(shù)屆公認的指標(biāo)來評價多目標(biāo)跟蹤算法性能,其主要由CLEAR MOT 指標(biāo)[22]和ID 指標(biāo)[23-24]構(gòu)成。本文選擇MOT Challenge 指標(biāo)作為評分標(biāo)準(zhǔn)。各指標(biāo)含義如表2 所述。
表2 多目標(biāo)跟蹤評價指標(biāo)含義Table 2 Meanings of multi-object tracking evaluation indicators
UAVS-MOT 模型使用FairMOT 模型作為基本框架并進行3 點改進,在主干網(wǎng)絡(luò)引入CA注意力,將Re-ID 分支的損失函數(shù)替換為Arc-Face Loss 進行訓(xùn)練,并在數(shù)據(jù)關(guān)聯(lián)部分使用BYTE 關(guān)聯(lián)策略。本文通過Lheat、Lbox和LArcFace同時訓(xùn)練檢測分支和Re-ID 分支,并通過Ltotal自動平衡這2 項任務(wù)。UAVS-MOT 僅使用單個圖像作為輸入,并且為每一個邊界框分配唯一的ID,把數(shù)據(jù)集上每一個目標(biāo)實例都看作單獨的類。UAVS-MOT 不使用預(yù)訓(xùn)練參數(shù)初始化模型,使用Adam 優(yōu)化器在UAVSwarm Dataset 的訓(xùn)練集上進行30 輪訓(xùn)練,batch size 設(shè)置為2。UAVSMOT 使用標(biāo)準(zhǔn)的HSV 增強技術(shù),包括旋轉(zhuǎn)、縮放、平移、剪切和顏色抖動。輸入圖像大小調(diào)整為1 088 pixel×608 pixel,特征圖分辨率為272 pixel×152 pixel。
在本實驗中,對提出的多目標(biāo)跟蹤模型進行消融驗證。本實驗主要針對FairMOT(模型A)、增加CA 注意力的FairMOT(模型B)、增加CA 注意力和ArcFace Loss 的FairMOT(模型C)、增加CA 注意力和ArcFace Loss 以及BYTE 的Fair-MOT(模型D)的消融實驗對比。如圖3 所示,4 種消融模型的召回率(Recall)、IDF1和MOTA 的精度曲線呈上升趨勢,可以看出本文的3 種改進模型中,模型D 的相關(guān)評價指標(biāo)最高,實驗結(jié)果最好。
圖3 消融模型的Recall、IDF1和MOTA 的精度曲線Fig.3 Accuracy curves of Recall,IDF1,and MOTA for ablation models
詳細消融實驗結(jié)果如表3 所述。其中,引入CA 注意力的B 模型的MOTA 提升了2.6%,IDF1提升了1.0%,可見CA 注意力能更準(zhǔn)確地定位感興趣目標(biāo)的確切位置,從而幫助整個模型更好地識別;C 模型在B 模型的基礎(chǔ)上增加了ArcFace Loss,MOTA 提升了3.6%,IDF1 提升了1.5%,MT 有所升高,可見ArcFace Loss 對Re-ID 分支的優(yōu)化效果較好,能提取更精確的表觀特征,增強其判別能力;D 模型在C 模型的結(jié)構(gòu)上增加了BYTE數(shù)據(jù)關(guān)聯(lián)方法,MOTA 較Baseline 提升了5.7%,IDF1 提升了2.9%,F(xiàn)N(漏檢總數(shù))有所下降,ML(低于20%的幀數(shù)被正確跟蹤的軌跡數(shù)量或百分比)有所下降,Recall達到了最高,可見BYTE 數(shù)據(jù)關(guān)聯(lián)方法較原關(guān)聯(lián)方法更能降低漏檢數(shù)并提高軌跡的連貫性。綜上所述,D 模型為最優(yōu)改進方案。
表3 消融實驗結(jié)果Table 3 Results of ablation experiments
圖4~圖6展示了4種消融模型在UAVSwarm Dataset 訓(xùn)練集上的部分測試可視化結(jié)果。圖4中模型A 在第0 幀共跟蹤到6 個目標(biāo),直到第16 幀才跟蹤到7 個目標(biāo);模型B 從第0 幀開始便已跟蹤到7 個目標(biāo),并一直跟蹤到序列結(jié)束。由此看出,模型B 相較于模型A 能更準(zhǔn)確地識別出目標(biāo)并進行持續(xù)定位。圖5 中模型A 在第0 幀共跟蹤到13 個目標(biāo),在第17 幀中ID 為126 的目標(biāo)因為頻繁遮擋導(dǎo)致跟蹤丟失,在第28 幀依然未恢復(fù)跟蹤;模型C 在第0 幀共跟蹤到13 個目標(biāo),在第17 幀中ID 為111 的目標(biāo)切換ID 為133,在第28 幀中ID 為133 的目標(biāo)切換ID 為141。由此看出,模型C 對比模型A 增加了目標(biāo)識別的準(zhǔn)確性,但同時也增加了ID 切換次數(shù)。圖6 中模型A在第38 幀共跟蹤到7 個目標(biāo),在第64 幀共跟蹤到13 個目標(biāo),存在許多漏檢目標(biāo);模型D 在第38 幀共跟蹤到10 個目標(biāo),在第51 幀中ID 為144 的目標(biāo)和背景重合無法跟蹤到,在第64 幀中ID 為144的目標(biāo)被重新跟蹤到,且ID 號保持不變。由此看出,模型D 相較于模型A 不僅可以對目標(biāo)進行準(zhǔn)確的識別和跟蹤,又能保證目標(biāo)軌跡的連續(xù)性。
圖4 模型A和模型B 在UAVSwarm-10 序列上可視化結(jié)果(從左到右依次為第0、16和57 幀)Fig.4 Visualization results of Model A and Model B on UAVSwarm-10 sequence(Frame 0,16,and 57 from left to right)
圖5 模型A和模型C 在UAVSwarm-14 序列上可視化結(jié)果(從左到右依次為第0、17、28 幀)Fig.5 Visualization results of Model A and Model C on UAVSwarm-14 sequence(Frame 0,17,and 28 from left to right)
圖6 模型A和模型D 在UAVSwarm-16 序列上可視化結(jié)果(從左到右依次為第38、51和64 幀)Fig.6 Visualization results of Model A and Model D on UAVSwarm-16 sequence(Frame 38,51,and 64 from left to right)
為了證明本文所提模型的有效性,在同等實驗環(huán)境下,將UAVS-MOT 模型與CTrackerV1模型、SORT 模型、DeepSORT 模型、ByteTrack模型、FairMOT 模型進行對比。圖7 展示了本文模型與其他5 種多目標(biāo)跟蹤模型的MOTA 指標(biāo)與IDF1 指標(biāo)對比情況,結(jié)果顯示UAVS-MOT模型的MOTA 精確度均高于其他5 種模型,IDF1 精確度略低于ByteTrack 模型。詳細對比結(jié)果如表4 所述。
表4 對比試驗結(jié)果Table 4 Results of comparative tests
圖7 對比模型的MOTA 與IDF1 精確度Fig.7 MOTA and IDF1 of models in comparison
從表4 中可以看出,本文所提出的UAVSMOT 模型在MOTA、FN、MT、ML和Recall 指標(biāo)上明顯優(yōu)于其他5 種模型。在UAVSwarm Dataset 測試集上,UAVS-MOT 模型的MOTA比基準(zhǔn)模型高出5.7%,IDF1 高出2.9%。由此可見,改進后的UAVS-MOT 模型能更準(zhǔn)確的提取目標(biāo)的表觀特征,大幅提高目標(biāo)間互相關(guān)聯(lián)的準(zhǔn)確度,提高模型跟蹤精度。通過實驗數(shù)據(jù)的對比,可以發(fā)現(xiàn)本文所提出的UAVS-MOT 在MOTA 指標(biāo)表現(xiàn)出色,相較于其他5 種多目標(biāo)跟蹤模型具有顯著優(yōu)勢。但是,IDS 指標(biāo)和FP 指標(biāo)略低于其他模型,解決目標(biāo)ID 切換頻繁和誤檢的問題仍有很大的進步空間。
圖8 展示了UAVS-MOT 模型與其他5 種多目標(biāo)跟蹤模型的可視化跟蹤對比,可以看出本文模型能更穩(wěn)定的檢測運動中的目標(biāo),并抗背景雜波干擾,從復(fù)雜背景中挖掘真正的目標(biāo),減少漏檢和誤檢數(shù)量。例如,在第74 幀中,CTrackerV1 模型和SORT 模型都存在漏識別現(xiàn)象,而本文模型檢測效果穩(wěn)定;在第95 幀中,DeepSORT 模型和ByteTrack 模型都將路燈誤識別為無人機,而本文模型識別準(zhǔn)確。
圖8 其他多目標(biāo)跟蹤模型與本文模型跟蹤效果對比(從左到右依次為第74、95和104 幀)Fig.8 Comparison of tracking performance between other multi-objective tracking models and this model(Frame 74,95,and 104 from left to right)
圖9 展示了在遠距離探測背景下,UAVSMOT 模型相較于FairMOT 模型檢測效果更好。例如,在第13 幀中,F(xiàn)airMOT 模型只檢測到了5 個目標(biāo),漏檢情況嚴(yán)重,而UAVS-MOT 模型檢測到了9個目標(biāo);在第66幀中,UAVS-MOT 模型檢測到了6 個目標(biāo),并且ID 與第39 幀中檢測到的目標(biāo)ID 連續(xù),而FairMOT 模型檢測的目標(biāo)ID顯示不連續(xù)。
圖9 FairMOT 模型與UAVS-MOT 模型遠距離檢測效果對比(從左到右依次為第13、39和66 幀)Fig.9 Comparison of long range detection performance between FairMOT model and UAVS-MOT model(Frame 13,39,and 66 from left to right)
從反制無人機集群的角度出發(fā),對低空空域探測和跟蹤無人機集群展開研究。針對在復(fù)雜場景及遠距離探測條件下無人機集群目標(biāo)之間相互遮擋、無人機為弱小目標(biāo)等原因造成的檢測精度降低和跟蹤精度降低問題,提出了UAVSMOT 多目標(biāo)跟蹤模型。
1)針對無人機目標(biāo)尺寸小、背景與目標(biāo)易混淆等難點,在DLA-34 主干網(wǎng)絡(luò)引入坐標(biāo)注意力,將位置信息嵌入到通道注意力中,同時考慮了通道間關(guān)系和位置信息,有助于算法更好地定位和識別目標(biāo)。
2)針對無人機之間互相遮擋導(dǎo)致ID 頻繁切換、關(guān)聯(lián)錯誤ID 等難點,將Re-ID 分支的損失函數(shù)替換為ArcFace Loss 進行訓(xùn)練,使其能提取更精確的表觀特征,增強判別能力。
3)針對無人機飛行速度快、頻繁飛入飛出導(dǎo)致軌跡不連續(xù)等難點,將數(shù)據(jù)關(guān)聯(lián)部分更換為BYTE 數(shù)據(jù)關(guān)聯(lián)方法,利用檢測框和跟蹤軌跡之間的相似性,在保留高分檢測結(jié)果的同時,從低分檢測結(jié)果中去除背景,挖掘出真正的物體。