王恒慧,曹 東,趙 楊,楊 陽
(中國空氣動力研究與發(fā)展中心計算空氣動力研究所,四川 綿陽 621000)
準確且高效地定位出圖像中目標所在位置,是目標檢測的核心任務,同時也是圖像識別、目標分割、目標跟蹤等任務的關鍵基礎。作為計算機視覺的研究重點和熱點,目標檢測技術在智能導航、智能駕駛、檢測監(jiān)視系統(tǒng)、航空航天、軍事國防等[1~4]諸多領域取得了顯著的成果,且其技術發(fā)展的成熟度決定了這些領域未來的發(fā)展方向。
當前,可見光圖像以其豐富的顏色、紋理等特征占據(jù)目標檢測領域的絕大部分,隨著計算機視覺的迅猛發(fā)展,基于可見光圖像的目標檢測算法性能越來越高,應用也越發(fā)廣泛。但可見光設備存在的成像距離有限、穿透能力差、夜間無法拍攝等問題極大的制約了檢測領域的發(fā)展。相比而言,被動接受物體發(fā)射的紅外波段電磁波成像的紅外探測系統(tǒng),其被動接收、隱蔽性強等特點有效的解決了夜間監(jiān)視及遠距離探測問題。然而,當前紅外圖像的目標檢測技術還存在著巨大的技術短板,傳統(tǒng)檢測算法如基于濾波[5]的紅外弱小目標檢測算法思路簡單、計算量小,但只能在一定程度上起到抑制均勻背景的作用,無法不能解決復雜背景的問題且檢測率低、魯棒性差;基于人類視覺系統(tǒng)的檢測方法簡單易于實現(xiàn),但是局限性大,檢測效果差;基于低秩稀疏恢復[6]的方法可以適應信噪比較低的圖像,且對于比較復雜的異構(gòu)背景具有較高的可靠性,是目前使用最多效果最好的一類算法,但其對于背景復雜且目標較暗的紅外圖像處理時虛警率高且計算繁雜耗時長。傳統(tǒng)算法作用有限但基于深度學習的紅外弱小目標圖像檢測算法寥寥無幾,在人工智能飛速發(fā)展的今天,基于可見光圖像的深度學習目標檢測算法取得越來越耀眼的成果,因此,借鑒基于可見光圖像的深度學習目標檢測算法應用于紅外圖像目標檢測中,對于紅外圖像目標檢測算法的發(fā)展極具發(fā)展前景。
文章首先介紹紅外弱小目標的圖像特征,然后以可見光的目標檢測算法為參考,依據(jù)網(wǎng)絡結(jié)構(gòu)以及設計思想的不同,將基于深度學習的目標檢測算法分為候選框系列、回歸系列以及GAN系列網(wǎng)絡四種類型進行詳細介紹。
紅外線是波長介于750 nm~1 mm之間的電磁波[7],任何高于絕對零度的物體都會主動發(fā)射紅外波段的電磁波。紅外熱成像通過被動的收集目標發(fā)射的紅外輻射,將其繪制成圖像獲取信息,是一種不輻射電磁波的被動式目標探測跟蹤設備,具有全天侯工作、穿透云霧等惡劣天氣影響的能力,同時具有較強的抗干擾能力和隱蔽性,在目標探測領域具有不可替代的作用,廣泛應用于智能監(jiān)控、自動駕駛、電力設施智能檢測、醫(yī)療生物、導彈制導、戰(zhàn)場偵察等領域[8]。
(1)為了盡早檢測到目標的出現(xiàn),紅外探測系統(tǒng)在分辨率一定的情況下受視場選取、云層變化、多重背景疊加等各種因素的影響,背景極其復雜多變;
(2)紅外圖像中大部分的背景相關性極強,呈現(xiàn)連續(xù)分布狀態(tài),中間不會出現(xiàn)過大的起伏,除了背景邊緣信息頻率較高以外,其他均屬于圖像中的低頻部分;
(3)紅外圖像中背景占據(jù)了絕大多部分像素,整個紅外圖像的灰度值主要集中在背景部分。
(1)由于成像距離遠,目標所具有的能量會隨著距離的增大顯著降低,導致最后在圖像上顯示非常暗淡,因此,紅外弱小目標非常容易淹沒在背景雜波和傳感器噪聲中,與背景沒有明顯的邊界,對比度較低;
(2)由于成像距離遠,探測的相對廣度就有所擴大,小目標非常稀疏,而背景則會占據(jù)圖像的絕大部分,導致了目標區(qū)域和背景區(qū)域分布之間的嚴重不平衡。
(3)由于作用距離的限制,目標往往所占的有效像素只有幾個或幾十個,相比于如今分辨率越來越大的圖像而言,目標有效像素比極小,通常表現(xiàn)為點狀或者斑點狀[9]。
相對于可見光圖像而言,紅外圖像不具備豐富的顏色信息,甚至于由于成像距離遠,紋理和結(jié)構(gòu)信息都不具備,對于背景復雜的紅外圖像,目標的邊緣信息亦是難以清晰描述的,種種特質(zhì)無疑大大增加了紅外目標的檢測難度,但也因此,紅外弱小目標檢測方向擁有巨大的研究潛力,也必將是后續(xù)研究應用的熱點之一。
候選框系列目標檢測算法又稱為Two-Stage網(wǎng)絡算法,是指將輸入圖像通過相應算法生成一定量的可能包含目標位置的候選框圖像,然后將候選框圖像送入到檢測網(wǎng)絡中實現(xiàn)分類與定位的網(wǎng)絡結(jié)構(gòu),在降低搜索計算量的同時顯著提高了檢測的準確率。
R-CNN[10]首先將候選框和卷積神經(jīng)網(wǎng)絡有效結(jié)合,使得深度學習在目標檢測領域取得重大突破,開啟了目標檢測算法新思路,為神經(jīng)網(wǎng)絡的發(fā)展奠定了基石,其網(wǎng)絡結(jié)構(gòu)如圖1所示。網(wǎng)絡通過預先使用Selective Search[11]算法選取候選框圖像縮小了檢測范圍,提升了目標的檢測精度。但作為先驅(qū),候選框數(shù)量過多、固定尺寸的要求易導致圖像扭曲甚至丟失目標、訓練步驟復雜、檢測速度慢等缺陷使得R-CNN擁有巨大的提升空間。2016年,Faster R-CNN[12]網(wǎng)絡提出RPN(Region Proposal Network)生成候選框并引入具有多尺度和平移不變性的anchor機制、共享卷積特征等一系列的改進措施既提升了候選框的質(zhì)量又降低了候選框的數(shù)量,同時還解決了目標形變問題,有效的提高了網(wǎng)絡的檢測性能,達到了17 f/s的準實時檢測速度,并且成為首個真正意義上的端到端深度學習算法。
圖1 R-CNN網(wǎng)絡結(jié)構(gòu)
對于紅外圖像而言,由于成像距離遠且存在多場景多跨度等問題影響,導致目標呈現(xiàn)弱、小狀態(tài),并且像素分辨率占比極少。而前述候選框算法設計了深卷積網(wǎng)絡結(jié)構(gòu),導致輸出特征圖分辨率低、信息流失嚴重,無法有效檢測小目標。2016年,HyperNet[13]網(wǎng)絡考慮到淺層網(wǎng)絡特征圖分辨率高、細節(jié)完整但語義特征較少且深層網(wǎng)絡具有語義特征豐富但分辨率小、細節(jié)流失嚴重、定位性能較差等特點,將淺層與深層網(wǎng)絡特征結(jié)合起來壓縮放至Hyper Feature空間中,保證了小目標的信息完整性,隨后緊跟一個與非極大值抑制算法相結(jié)合的小型區(qū)域生成模塊,輸出定位更加準確且相互重合度較低的候選框組合,最后送入檢測模塊中進行最后的分類與目標精確定位,在高IOU的情況下小目標檢測的mAP提高了3.1 %。其網(wǎng)絡結(jié)構(gòu)如圖2所示。
圖2 HyperNet網(wǎng)絡結(jié)構(gòu)圖
基于候選框系列算法在目標檢測中以高檢測率而聞名,在候選框系列算法不發(fā)展完善中,發(fā)現(xiàn)網(wǎng)絡特征所包含的信息量與網(wǎng)絡層數(shù)關聯(lián)性較強,其中淺層網(wǎng)絡特征圖分辨率高、細節(jié)完整但語義特征較少;而深層網(wǎng)絡則相反,具有語義特征豐富但分辨率小、細節(jié)流失嚴重、定位性能較差等特點。因此,將淺層與深層特征圖結(jié)合起來,利用多尺度特征補充弱小的細節(jié)特征信息,可以有效提升弱小目標檢測準確率。
回歸系列目標檢測算法也稱為One-stage檢測算法,是指將圖像輸入到網(wǎng)絡架構(gòu)中直接判斷目標類別和位置的一類網(wǎng)絡。這種一步即成的架構(gòu)極大地簡化了算法的實現(xiàn)過程,同時運算速度也得到了成倍的提升。
3.2.1 YOLO系列
2016年,針對候選框系列算法步驟復雜、訓練速度慢等問題,Joseph Redmon等人提出了YOLO[14]算法結(jié)構(gòu),如圖3所示。該算法直接劃分輸入圖像,省去了搜索圖像、生成候選框的過程,真正意義上實現(xiàn)了端到端的目標檢測算法,檢測速度可以達到實時處理的標準。但是也正是由于減少了候選框的搜索過程,該算法不能夠精確地定位目標所在,檢測的準確率和召回率有很大的提升空間。YOLOv2[15]模型增加了Batch Normalization、anchor box結(jié)構(gòu)提升了網(wǎng)絡檢測精度。在其基礎上,林旭鵬[16]以紅外圖像中的移動目標為檢測對象,使用維度聚類分析目標所在的邊界框位置,提升了目標定位的精確度,使邊界框更加貼合目標邊界,并且也在一定程度上減少了誤檢漏檢情況,提升了檢測的準確度。更為經(jīng)典的YOLOv3[17]結(jié)構(gòu)結(jié)合殘差思想獲取目標特征,采用類FPN結(jié)構(gòu)融合不同卷積層的特征圖,極大的保留了特征圖所包含的細節(jié)信息,提高了網(wǎng)絡對于小目標的檢測精度,且由于其出色的檢測精度和速度,在多個領域中應用廣泛。網(wǎng)絡結(jié)構(gòu)所圖4所示。2020年,文獻[18]、[19]在YOLOv3卷積神經(jīng)網(wǎng)絡的基礎上,加深網(wǎng)絡結(jié)構(gòu),通過密集連接和擴大小目標檢測特征圖尺寸、增加特征檢測的尺度數(shù)量等手段使得小目標的檢測性能提高了約2個百分點。黃樂弘[20]使用K-means算法對初始目標框進行聚類分析,并且針對空中紅外目標的邊緣檢測算法進行改進,有效的降低了虛警率,提升了小目標的檢測效果。宮婷[21]結(jié)合K-means算法和核函數(shù)與抽樣,提高了初始目標框的準確性,通過增加一個尺度和三個anchor數(shù)量提高了小目標識別的精確性。徐金逗[22]結(jié)合更深的殘差網(wǎng)絡進行特征提取,借鑒特征金字塔網(wǎng)絡的思想,使用特征融合的方法增強特征國土所包含的信息量,提升了網(wǎng)絡對多尺度目標的預測能力。
圖3 YOLO網(wǎng)絡結(jié)構(gòu)
圖4 YOLOv3網(wǎng)絡結(jié)構(gòu)圖
從YOLO系列算法的演變過程中,引入殘差結(jié)構(gòu)、增加反卷積與上采樣操作與原特征圖相結(jié)合、對初始目標框聚類分析等操作,均豐富了待檢測的特征細節(jié),改善了弱小目標的檢測準確率。
3.2.2 SSD系列
2016年,LIU W等人提出了另一類回歸系列目標檢測算法SSD[23],考慮到深、淺層網(wǎng)絡特征圖中所包含目標信息量的不同,算法對不同尺度的特征圖進行特征提取,有效提升了小目標的檢測率。而且與候選框系列相比,SSD將所有的計算都整合到一個網(wǎng)絡中,同時刪除候選框以及特征重采樣部分,使得整個網(wǎng)絡結(jié)構(gòu)簡單且易于訓練。與YOLO算法相比,檢測效率提高了14 f/s且檢測精確度提升了近11 %;且在與Faster R-CNN相當?shù)臋z測精確度情況下,檢測速度提升了9倍。DSSD[24]網(wǎng)絡引用殘差思想,通過反卷積操作和上采樣與原卷積特征圖融合,增加了特征圖所包含的細節(jié)信息,進一步提高小目標的檢測精度。RSSD[25]網(wǎng)絡使用rainbow concatenation(pooling+deconvolution)融合不同網(wǎng)絡層的特征圖,有效增加了特征圖的數(shù)量和加強了特征圖之間的聯(lián)系,提升了小目標檢測性能。FSSD[26]網(wǎng)絡增加高效的輕量級特征融合模塊,加強了深、淺層網(wǎng)絡之間的信息交互,提高了小目標檢測的魯棒性,其結(jié)構(gòu)如圖5所示。多級特征金字塔網(wǎng)絡[27](Multi-level Feature Pyramid Network,MLFPN)融合主干網(wǎng)絡特征,提取更具代表性的多級多尺度特征并融合得到多級特征金字塔的操作,使得M2Det網(wǎng)絡成為一個高效的端到端回歸系列檢測算法,提高了目標的檢測性能。華夏[28]在SSD的基礎上設計了基于增強學習的動態(tài)區(qū)域放大網(wǎng)絡框架(DRZN),將低分辨率下的弱小目標區(qū)域放大至高分辨率再進行檢測,對于小目標的檢測效果提升顯著。
圖5 FSSD網(wǎng)絡結(jié)構(gòu)
SSD系列算法發(fā)展中考慮到弱小目標的檢測問題,增加了多尺度檢測框架,用來提升小目標的檢測率。表1中列舉了YOLOv2、SSD、DSSD及FSSD在MS COCO數(shù)據(jù)集上的檢測結(jié)果,可以發(fā)現(xiàn)DSSD及FSSD網(wǎng)絡中采用的殘差思想、增加反卷積、上采樣以及放大小分辨率特征圖等操作有效的改進了SSD網(wǎng)絡結(jié)構(gòu),提升了弱小目標的檢測準確率。
表1 MS COCO2015數(shù)據(jù)集的檢測結(jié)果
2014年,Ian J.Goodfellow等人提出了對抗生成網(wǎng)絡GAN[29],提出生成—判別雙模塊結(jié)構(gòu),采用零和博弈思想促使生成模型盡可能學習真實樣本的特性并將隨機輸入偽裝為真實目標迷惑判別模型,判別模型則盡可能識別輸入的數(shù)據(jù)是真實樣本還是生成模型輸出的虛假樣本,通過相互博弈的過程逐步提高生成模塊和判別模塊的性能。2019年,MDvsFA-cGAN[30]網(wǎng)絡根據(jù)紅外圖像中弱小目標特性提出使用雙生成器+單判別器的網(wǎng)絡結(jié)構(gòu)來平衡降低漏檢(MD)和虛警率(FA),其結(jié)構(gòu)如圖6所示,其中,生成器G1用于減小MD,G2用于降低FA,每個生成器將輸入圖像映射到圖像S上用于顯示分割結(jié)果,將判別器D視為介質(zhì)連接G1和G2,加強它們之間的信息流動并回饋給生成器,盡可能降低MD和FA。在網(wǎng)絡實現(xiàn)過程中,兩個生成器更加緊密的綁定在一起,產(chǎn)生一致的分割效果,取其平均值作為最終的分割結(jié)果。從像素級別上很好的平衡了MD和FA,并且在合理的召回率范圍內(nèi)達到了最高的目標檢測精度,性能優(yōu)于現(xiàn)有的ISOS(Infrared Small Object Segmentation)方法。文獻[31]基于Neyman-Pearson準則在上下文聚合網(wǎng)絡(CAN)的基礎上,將檢測模型劃分為全局和局部兩個分網(wǎng)絡,分別用于全局觀察紅外圖像和聚焦圖像中一個小的局部區(qū)域,簡化了端到端的映射任務,使單幀目標檢測的模型訓練更容易實踐,明顯的提高系統(tǒng)的整體性能。
圖6 MDvsFA-cGAN網(wǎng)絡結(jié)構(gòu)
在GAN系列網(wǎng)絡中,通過生成器與判別器的博弈完成真實目標特征的提取,將紅外弱小目標檢測分解為抑制誤檢率和降低虛警率兩個子任務,引用對抗式學習實現(xiàn)兩者之間的最佳平衡,使得同時降低MD和FA成為可能,為后續(xù)的ISOS研究提供了一個全新的視角,對方法的創(chuàng)新有參考性意義。
目前,基于深度學習的紅外弱小圖像檢測算法還仍處于新興階段,數(shù)據(jù)集嚴重匱乏,并且針對紅外弱小目標的檢測性能還有巨大的提升空間,而立足于見光圖像的目標檢測算法再創(chuàng)新,對于紅外圖像目標檢測算法有事半功倍之效。作為一種被動式、全天候的目標探測跟蹤設備,紅外探測系統(tǒng)可使用的場景多樣且性能優(yōu)越,在目標探測領域具有不可替代的優(yōu)越性。因此,基于深度學習的紅外弱小目標檢測算法必將掀起一股研究熱潮,設計出性能更高、速度更快、體積更小的檢測網(wǎng)絡結(jié)構(gòu)并應用到實時系統(tǒng)中將會成為未來重要的研究方向。