趙 琰,劉 荻,趙凌君*
(1.國防科技大學 CEMEE國家重點實驗室,長沙 410073;2.國防科技大學 ATR重點實驗室,長沙 410073)
紅外熱成像設備作為一種被動式傳感器,具有隱蔽性好、機動性強、可全天候工作的特點,被廣泛應用于戰(zhàn)場監(jiān)視、精確制導等方面。作為紅外圖像處理的關鍵技術,紅外目標的檢測與跟蹤(Infrared search and track, IRST)是現(xiàn)代預警系統(tǒng)的關鍵支撐,也是國家空天安全的重要保障,是各國軍事部門研究的重點和熱點問題。紅外目標的檢測與跟蹤,是根據(jù)紅外傳感器的成像特性與目標的先驗性信息,從復雜的背景中提取并篩選目標可能存在的感興趣區(qū)域,并對目標進行動態(tài)跟蹤的過程。傳統(tǒng)的紅外目標檢測與跟蹤算法可分為單幀檢測法與多幀檢測法。單幀檢測法通過對紅外圖像序列中的某一幀進行處理,對目標進行檢測與跟蹤,為提高檢測準確性,單幀檢測算法大多需要對紅外圖像進行預處理,使目標與背景分離,增強目標特征,抑制背景噪聲干擾。常用的預處理算法有最大類間方差法[1]、極小值點閾值法[2]、最優(yōu)閾值法[3]等。相比較單幀檢測法,多幀檢測法充分結合前后幀之間目標的時間與空間等多維信息,對其進行檢測與跟蹤,代表算法有先檢測后追蹤(DBT)算法[4-6]和先跟蹤后檢測(TBD)[7-8]算法,傳統(tǒng)的算法依賴于對紅外圖像中目標與背景的精確分離與信息的準確提取,計算難度大。同時,算法的適應能力較差,在后處理中無法針對虛警進行有效去除。近年來,隨著深度學習技術的不斷發(fā)展,基于卷積神經網絡的目標檢測算法在光學近景檢測任務中已經表現(xiàn)出巨大的優(yōu)勢,目標檢測的算法層出不窮[9-11]。
受限于紅外目標檢測數(shù)據(jù)集獲取困難,基于深度學習的紅外目標檢測的研究也較為有限。吳雙忱[10]等人將弱小目標的檢測問題轉化為對小目標的位置分布的分類問題,通過構建全卷積網絡與分類網絡并引入了SENet模塊,對紅外目標特征進行強化,并抑制背景噪聲的影響,對低信噪比條件下的紅外目標具有較好的檢測效果。然而,由于其預處理過程較為復雜,難以實現(xiàn)特征的共享,且其采用的網絡層數(shù)有限,對紅外目標的特征提取能力較低,依舊存在較多的虛警。陳鐵明[11]等人針對紅外末端制導在局部信息缺失等問題,結合Adam算法與動量法的優(yōu)勢,對YOLOv3的損失函數(shù)進行加權,采用聯(lián)合訓練的方法在紅外目標數(shù)據(jù)集上進行了驗證。然而,由于其所采用的數(shù)據(jù)中目標的尺寸依舊較大,且目標與背景的區(qū)別較為明顯,因而無法驗證網絡對弱小的紅外目標的特征提取能力,網絡對紅外弱小目標的檢測能力有待進一步驗證。在實際應用中,受到紅外傳感器平臺、目標成像距離、目標幾何形狀以及地形地物等多種因素的影響,復雜環(huán)境下的紅外弱小目標檢測依舊困難重重。當前紅外目標檢測算法存在流程復雜、檢測率低、虛警多、實時性差等問題。針對以上問題,本文通過對紅外弱小目標的幾何特性進行深入分析,以YOLOv3目標檢測網絡為基礎,通過設計多種不同尺度的目標框,對復雜環(huán)境中的紅外弱小目標進行檢測。算法處理流程簡單,且對紅外弱小目標檢測的準確率提升顯著,在多種紅外弱小目標數(shù)據(jù)集的測試中均取得較好的檢測效果,具備較強的泛化能力與應用前景。
相較于可見光圖像,紅外圖像的信噪比較低,圖像中目標的幾何輪廓較為模糊,且與真實形態(tài)可能存在較大差異。對其成像特征進行分析,可提升檢測網絡對目標的適配能力,提升網絡的特征提取能力。在紅外探測中,首先由于傳感器等因素的制約,目標成像存在紋理細節(jié)信息弱化、幾何結構性較差等問題。相比光學圖像,紅外圖像的分辨率普遍較低,為網絡對目標特征的提取帶來困難。紅外傳感器的空間分辨率計算公式如下:
(1)
式中:Ps為像間距;Lfl為鏡頭焦距;R為空間分辨率。比較可見光成像系統(tǒng),紅外傳感器主要對物體的熱輻射特征進行表征。然而,由于熱輻射的峰值大多集中于目標的中心,在目標周邊部件分布較少。因此,紅外圖像中的目標輪廓不僅不能代表目標真實的幾何結構特征,且可能存在較大的差異,為傳統(tǒng)的基于幾何模板相似度匹配的檢測算法帶來了困難。在凈空背景中,紅外圖像與可見光圖像條件下,同一目標的成像效果對比,如圖1所示。紅外圖像中目標細節(jié)性信息較差(發(fā)動機,機身流線型變化無法可見),光學圖像中的目標輪廓則更加清晰。
圖1 紅外與光學中的飛機目標圖像
Fig.1 Infrared and optical airplane images
在實際應用中,紅外成像設備與目標距離較遠,這導致目標在紅外圖像中僅占據(jù)少量的像素位置。在軍事應用中,紅外傳感器的空間分辨率多為0.1 mrad,意味著即便是體積龐大的飛機、艦船等,其成像尺寸也較小,為目標的準確檢測帶來了巨大的困難。其次,目標自身的尺寸也存在較大差異,傳統(tǒng)算法依賴于設計多種不同尺寸的滑動框或構建圖像金字塔來實現(xiàn)多尺度的目標檢測,這種方法檢測精度差,檢測速度也較為緩慢。圖2展示了紅外弱小目標的多尺度像素特征。在圖2(a)中,目標的長寬所占像素分別為(14,9)與(9,3),核心目標僅僅占據(jù)4個像素左右。在圖2(b)中,目標的長寬分別為(10,10),核心目標為15個像素左右。
圖2 紅外弱小目標像素特征
Fig.2 Pixel characters of infrared weak targets
F(x,y)=fobject(x,y)+fbkg(x,y)+fnoise(x,y)
(2)
其中:F(x,y)為紅外目標點的探測值;fobject(x,y)為目標點的真實值;fbkg(x,y)為目標點的背景值;fnoise(x,y)為目標點的噪聲值。圖3展示了在復雜環(huán)境條件下,目標的紅外成像效果圖。圖3(a)為凈空背景,圖3(b)~(d)為林地背景,其中圖3(d)中存在多個與目標紅外特性相似的點。
圖3 復雜環(huán)境紅外目標成像
Fig.3 Infrared targets in complex environments
在紅外目標的檢測方面,傳統(tǒng)方法的檢測效果依賴于對目標特性的準確建模。一旦模型失配,其檢測效果將會大大降低。此外,傳統(tǒng)算法流程復雜,算法需要針對不同的場景分別進行建模處理,泛化能力弱,為紅外算法的工程化快速應用造成了巨大困難。借鑒深度卷積神經網絡(DCNN)在光學近景目標檢測中的廣泛應用,通過對當前經典單階段目標檢測網絡進行分析,采用YOLOv3對紅外弱小目標進行檢測,可有效提升模型的檢測準確率與算法的泛化能力。
為了對復雜環(huán)境下紅外弱小目標進行快速、準確的檢測,需要對多層特征進行融合,以提升網絡對不同尺度紅外目標的特征表示能力。通過對當前目標檢測網絡進行分析,結合兩階段目標檢測網絡的高準確率與單階段目標檢測網絡的高速度兩大優(yōu)勢,本文以YOLOv3目標檢測網絡為基礎,對紅外弱小目標進行檢測。整體目標檢測流程如圖4所示。
圖4 紅外弱小目標檢測流程圖
Fig.4 Flowchart of infrared weak target detection
整體網絡可分為三大模塊,待檢測的紅外圖像作為輸入,首先通過特征提取網絡獲得多層級的語義特征;第二個模塊為多尺度特征融合,通過特征重采樣與卷積相疊加,獲得精細化的語義特征表示;第三個模塊為分類與回歸輸出模塊,其主要在尺度的語義特征圖中對目標進行預測,獲得最終的輸出表示。
作為YOLO系列目標檢測網絡之一,YOLOv3采用了與YOLOv1相似的基礎特征提取網絡Darknet。為了提升網絡對高層語義特征的表示能力,其層數(shù)從原始的24層加深到53層,如圖5所示。其可包含有5個殘差與卷積模塊,通過卷積操作,特征圖的尺度進一步降低,而包含的語義信息也更加豐富。
圖5 特征提取網絡
Fig.5 Feature extraction network
借鑒ResNet網絡的結構,Darknet-53中采用了多個跳躍鏈接(Skip-connection),嵌入了多個殘差模塊,有效加速了網絡的收斂能力并解決了梯度消失問題。殘差模塊的設計如圖6所示。
殘差連接包含兩個卷積層,第一個卷積層的卷積核尺寸為1,第二個卷積層的卷積核尺寸為3,網絡將輸入的x與經過兩層卷積后的輸出F(x)相加,并采用ReLU激活函數(shù)作為最終模塊的輸出。
YOLOv1采用特征提取網絡的最后一層對目標進行預測,由于在網絡前向傳播中,小尺寸的目標經過多層卷積后細節(jié)信息丟失嚴重,為了提升對弱小尺寸目標的表示能力,YOLOv3在基礎特征網絡(Darknet-53)后,對高層特征圖進行反卷積操作,上采樣為較大的特征圖以強化小尺寸目標的特征表示。利用得到的多尺度特征圖分別對目標進行預測,改善了網絡對弱小目標的特征表示能力。圖7為YOLOv3的特征融合示意圖。
圖6 殘差模塊
圖7 特征融合網絡
Fig.7 Feature fusion network
經過Conv2d Top輸出后,由于其輸出的特征圖尺寸較小,具備高層語義信息,被用來檢測較大尺寸的目標。為了檢測中等尺寸的目標,Conv2d Top輸出的特征圖,經過上采樣與卷積操作后,獲得與ResBlock 8×512 具有相同尺寸的特征圖,通過特征圖之間的拼接,可獲得原圖下采樣16倍大小的精細化特征圖。為了強化網絡對弱小尺寸目標的檢測能力,中間層的特征經過再一次上采樣與卷積,與ResBlock 8×256輸出的特征拼接,從而獲得原圖下采樣8倍大小的特征圖。在網絡的訓練與測試中,分別在三個特征圖上對目標進行預測,強化網絡對多尺度目標的特征提取能力。
實驗中所使用的數(shù)據(jù)為五段在多種復雜環(huán)境下所采集的包含有無人機的紅外視頻序列。訓練集的標簽為目標的中心點坐標,圖像的尺寸均為256×256像素。數(shù)據(jù)集概況如表1所示,圖1(a)、圖2~3展示了數(shù)據(jù)集的部分成像效果圖。
表1 紅外數(shù)據(jù)集概況
數(shù)據(jù)集劃分時,從每組數(shù)據(jù)中隨機抽取70%作為訓練數(shù)據(jù),選用20%作為驗證數(shù)據(jù),剩余的10%則作為測試數(shù)據(jù)。經過劃分后,訓練集、驗證集以及測試集的數(shù)據(jù)劃分如表2。
表2 實驗數(shù)據(jù)集分布
實驗中對訓練數(shù)據(jù)集進行隨機水平鏡像對稱,擴增數(shù)據(jù)集容量,提升模型的泛化能力。
由于紅外目標幾何尺寸較小,為提升網絡對弱小目標特征的學習能力,需要將其進行擴展,強化目標與背景之間的聯(lián)系。通過對數(shù)據(jù)集進行分析,針對不同尺寸的無人機目標,其目標整體所占像素數(shù)被劃分為四個等級。根據(jù)所劃分的等級,設計基于中心點擴展的多種目標框尺寸,如表3所示。
表3 點擴展目標尺寸
網絡每次迭代輸入24張圖片,一共訓練了100輪次,實驗中每隔20個輪次對訓練模型進行記錄。所有實驗在配備了CUDA的Ubuntu 18.04電腦上進行訓練與測試,采用Adam優(yōu)化器對網絡進行迭代優(yōu)化,學習速率設置為2e-5,動量設置為0.9,權重衰減值設置為5e-4。
為了獲得每個網絡最佳性能,選取在驗證集上AP值最高的網絡模型進行測試。實驗對比了SSD300, RFBNet和RefineDet,采用AP(Average Precision)值作為評價指標,并記錄了算法運算的速度FPS,測試結果如表4所示。
表4 測試結果
由表4可以看出,YOLOv3的AP值達到了0.995 73%,相比較RefineDet,RFBNet和SSD300分別提升了9.084%,20.235%,20.698%。SSD300僅采用了多層特征圖作為預測輸出,隨著網絡加深,導致弱小目標的特征進一步弱化,網絡無法對其進行有效表征。RFBNet雖然引入了空洞卷積,但由于目標尺度過小,有可能導致空洞卷積后,紅外弱小目標特征丟失較為嚴重,并未提升對其的檢測能力。RefineDet構建了特征金字塔,相比較SSD300與RFBNet有效地提升了對紅外弱小目標的檢測能力,然而由于其處理基礎網絡較為簡單,相比較YOLOv3所采用的DarkNet-53網絡依舊缺乏對紅外目標的特征提取。
不同算法檢測結果對比如圖8所示。其中每一列對應不同的測試紅外數(shù)據(jù),每一行分別對應每種算法的測試效果。
可以看出,在第一列凈空環(huán)境的對比測試中,四種算法均能夠對目標進行有效檢測。然而,對比目標的精細化位置,YOLOv3對于弱小目標的定位更加準確,其他三種方法預測目標框與真實目標中心點偏差較大;在第二列凈空環(huán)境中,由于SSD300與RFBNet為缺乏更有效的多尺度的特征提取,因而均無法針對更弱小的目標進行有效的檢測,存在漏檢情況。RefineDet所預測的目標框偏移較大;在第三列林地背景對比中,SSD300,RFBNet,RefineDet無法對紅外目標進行有效檢測,而YOLOv3對目標可準確的檢測。在第四列林地背景中,由于林地背景的不均勻性,導致其存在較多的假目標,對檢測算法可能造成較多干擾。對比的三種方法均存在虛警情況發(fā)生,而YOLOv3則可以將目標準確地檢測。實驗表明基于紅外目標特性的YOLOv3可有效對紅外弱小目標進行檢測。
圖8 不同模型檢測效果
Fig.8 Detection results of different models
本文結合紅外弱小目標的幾何特性,以及目標與環(huán)境信息,提出了基于YOLOv3的紅外弱小目標檢測算法,與其他基于深度學習的算法相比較,該算法在不過多降低檢測速度的同時,大幅度提升了對紅外弱小目標的檢測能力。同時,算法處理流程簡單,工程化應用性強,為基于深度學習的紅外弱小目標檢測算法提供了新的思路。在下一步的工作中,將對網絡的結構以及紅外弱小目標在網絡中的特征進行研究,對網絡參量進行壓縮,進一步提升對紅外弱小目標的檢測效率。