趙曉楓, 徐葉斌,*, 吳 飛, 牛家輝, 蔡 偉, 張志利
(1. 火箭軍工程大學(xué)導(dǎo)彈工程學(xué)院, 陜西 西安 710025;. 兵器發(fā)射理論與技術(shù)國(guó)家重點(diǎn)學(xué)科實(shí)驗(yàn)室, 陜西 西安 710025)
紅外輻射是物體的固有屬性,當(dāng)物體溫度高于絕對(duì)零度時(shí),就會(huì)向外輻射熱量,因此可以對(duì)目標(biāo)的紅外特征進(jìn)行全天時(shí)的探測(cè)與識(shí)別。當(dāng)前根據(jù)物體的紅外特征對(duì)目標(biāo)進(jìn)行準(zhǔn)確且實(shí)時(shí)的檢測(cè),已成為軍事偵察、視頻檢測(cè)、偽裝防護(hù)等領(lǐng)域重點(diǎn)關(guān)注的問(wèn)題。
基于傳統(tǒng)方法的紅外目標(biāo)檢測(cè),主要應(yīng)用在空基小目標(biāo)的偵察和預(yù)警,以單幀紅外目標(biāo)檢測(cè)和多幀紅外目標(biāo)檢測(cè)(又稱(chēng)序列紅外目標(biāo)檢測(cè))為主。近年來(lái),深度學(xué)習(xí)的興起,產(chǎn)生了基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的目標(biāo)檢測(cè)方法,這類(lèi)方法通過(guò)直接構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征進(jìn)行提取、分類(lèi)和目標(biāo)預(yù)測(cè),提升了檢測(cè)精度和檢測(cè)速度,降低了誤檢和漏檢率?;贑NN的目標(biāo)檢測(cè)算法主要分為區(qū)域CNN(region-CNN, R-CNN)、Fast R-CNN、Faster R-CNN、Mask R-CNN、Cascade R-CNN等基于候選區(qū)域的兩階段目標(biāo)檢測(cè)算法和SSD(single shot multibox detector)、RetinaNet、YOLO等基于回歸的一階段目標(biāo)檢測(cè)方法。兩階段的目標(biāo)檢測(cè)算法先將圖像輸入主干網(wǎng)絡(luò)進(jìn)行特征提取,選出待檢測(cè)區(qū)域,再進(jìn)行目標(biāo)分類(lèi)和預(yù)測(cè)框回歸對(duì)目標(biāo)進(jìn)行檢測(cè)。該類(lèi)算法在增加網(wǎng)絡(luò)計(jì)算復(fù)雜度和犧牲速度的前提下,使目標(biāo)檢測(cè)模型保持較好的檢測(cè)精度,但實(shí)時(shí)性較差。以YOLO為代表的一階段目標(biāo)檢測(cè)算法則是通過(guò)遍歷將預(yù)測(cè)框與真實(shí)框相關(guān)聯(lián),利用IOU(intersection over union)機(jī)制將相關(guān)度量化并使用最大值抑制機(jī)制抑制關(guān)聯(lián)度不高的預(yù)測(cè)框,采用該類(lèi)目標(biāo)檢測(cè)算法對(duì)目標(biāo)進(jìn)行檢測(cè)時(shí),減少了候選區(qū)域提取過(guò)程,能夠滿足較多場(chǎng)景下實(shí)時(shí)檢測(cè)的需求,被廣泛應(yīng)用。
將基于CNN的目標(biāo)檢測(cè)算法應(yīng)用到紅外目標(biāo)的檢測(cè)中,降低誤檢和漏檢率,已經(jīng)成為紅外探測(cè)領(lǐng)域的研究熱點(diǎn)。苗壯等提出了一種基于關(guān)鍵點(diǎn)的快速紅外目標(biāo)檢測(cè)算法,通過(guò)壓縮模型尺寸,提高了對(duì)紅外小目標(biāo)的檢測(cè)速度。吳雙忱等提出了基于全CNN的紅外小目標(biāo)檢測(cè)算法,該算法實(shí)現(xiàn)了在復(fù)雜背景下對(duì)低信噪比且存在運(yùn)動(dòng)模糊目標(biāo)的檢測(cè)。劉俊明等提出了基于全CNN和視覺(jué)顯著性的紅外小目標(biāo)檢測(cè),并引入注意力機(jī)制實(shí)現(xiàn)對(duì)空基復(fù)雜環(huán)境下的紅外小目標(biāo)檢測(cè)。Dong等將視覺(jué)注意力機(jī)制應(yīng)用到了海面紅外目標(biāo)的檢測(cè),明顯降低了虛警率。Du等通過(guò)重新設(shè)計(jì)錨框,減小噪聲的影響,針對(duì)空中目標(biāo)進(jìn)行檢測(cè)。梁杰等通過(guò)網(wǎng)絡(luò)特征層的合并和引入中心損失函數(shù)對(duì)YOLOv2算法進(jìn)行改進(jìn),實(shí)現(xiàn)對(duì)煙幕遮擋的目標(biāo)進(jìn)行檢測(cè),提高制導(dǎo)精度。Hu等通過(guò)融合多尺度特征和局部二進(jìn)制紋理分析的方法,對(duì)入侵的紅外小目標(biāo)進(jìn)行檢測(cè)。Zhao等將YOLOv3與雙向特征融合的多尺度特征融合方式相結(jié)合,增強(qiáng)信息的重利用,實(shí)現(xiàn)對(duì)地面背景下的紅外目標(biāo)進(jìn)行檢測(cè)。
本文針對(duì)復(fù)雜地面背景下干擾因素多,目標(biāo)檢測(cè)易受影響的問(wèn)題,通過(guò)多尺度池化對(duì)網(wǎng)絡(luò)最后一層輸出特征進(jìn)行池化處理,并使用跳躍連接將池化前和池化后的特征融合,增強(qiáng)特征的重利用,從而增加模型的全局信息感知能力,減小環(huán)境背景對(duì)目標(biāo)檢測(cè)任務(wù)的干擾;以平滑標(biāo)簽的方式降低單目標(biāo)置信度,提出平滑焦點(diǎn)損失函數(shù)(soft focal loss,S-FL)。從而避免對(duì)圖像內(nèi)其他目標(biāo)造成忽視,產(chǎn)生漏檢誤檢的情況,同時(shí)優(yōu)化地面復(fù)雜環(huán)境對(duì)目標(biāo)檢測(cè)產(chǎn)生的干擾。最終構(gòu)造了基于全局感知機(jī)制的Infrared-YOLO紅外目標(biāo)檢測(cè)方法,提高了對(duì)地面背景下紅外目標(biāo)的檢測(cè)精度,并實(shí)現(xiàn)了實(shí)時(shí)檢測(cè)。
基于全局感知機(jī)制的目標(biāo)檢測(cè)模型如圖1所示,包含骨干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和目標(biāo)預(yù)測(cè)網(wǎng)絡(luò)3個(gè)部分。輸入圖片首先在骨干網(wǎng)絡(luò)中進(jìn)行下采樣操作,降低特征圖大小,提取不同層次特征,并將最后一層輸出使用全局感知模塊進(jìn)行全局池化。再使用特征融合網(wǎng)絡(luò)進(jìn)行不同尺度特征的融合,實(shí)現(xiàn)低維空間信息和高維語(yǔ)義信息的互補(bǔ)。最后,將融合后的特征圖作為目標(biāo)預(yù)測(cè)網(wǎng)絡(luò)的輸入,進(jìn)行目標(biāo)分類(lèi)和邊界框的回歸,完成目標(biāo)的檢測(cè)。
圖1 Infrared-YOLO網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of Infrared-YOLO
圖2是部分紅外圖像和可見(jiàn)光圖像的對(duì)比圖,從圖中可以看到,地面背景下可見(jiàn)光圖像比紅外圖像具有更多的細(xì)節(jié)特征和紋理特征。對(duì)于地面背景下的紅外車(chē)輛目標(biāo)而言,可見(jiàn)光圖像下目標(biāo)特征比較明顯。而紅外圖像中目標(biāo)特征被背景特征淹沒(méi)的情況,也存在背景特征與目標(biāo)特征相似度較高,極易混淆的情況。因此,增加了對(duì)目標(biāo)進(jìn)行準(zhǔn)確分類(lèi)和定位的難度,出現(xiàn)漏檢和誤檢等情況,導(dǎo)致檢測(cè)精度不高。
圖2 可見(jiàn)光圖像與紅外圖像對(duì)比Fig.2 Comparison of visible light image and infrared image
為了提高模型對(duì)圖像的整體感受域,減少背景和目標(biāo)的誤判,設(shè)計(jì)了具有全局信息融合的金字塔池化模塊(spatial pyramid pooling module for global information fusion,GIF-SPP),如圖3所示。全局信息融合的金字塔池化模塊以主干網(wǎng)絡(luò)最后一個(gè)卷積層產(chǎn)生的特征圖作為輸入,考慮到最后一層特征圖經(jīng)過(guò)主干網(wǎng)絡(luò)32倍下采樣后,為10×10大小的高維特征,特征信息較多,使用以區(qū)域最大值作為代表信息的最大池化機(jī)制會(huì)導(dǎo)致部分信息丟失。因此,使用以平均值作為區(qū)域代表信息,且能夠?qū)斎雸D像進(jìn)行動(dòng)態(tài)池化,產(chǎn)生特定大小輸出的自適應(yīng)平均池化操作對(duì)輸入特征進(jìn)行處理,減少重要信息的丟失,同時(shí)提升模型訓(xùn)練的穩(wěn)定性。
圖3 全局信息融合的金字塔池化模塊Fig.3 Pyramid pooling module for global information fusion
將輸入特征圖劃分為1×1、2×2、4×4、6×6共4個(gè)子區(qū)域進(jìn)行平均池化。其中1×1子區(qū)域?yàn)榈谝粚?在整個(gè)特征圖上執(zhí)行最粗略層次的池化操作,生成一個(gè)池化后的特征。藍(lán)色為第二層,將特征圖分割成2×2的子區(qū)域進(jìn)行平均池化。其余層依次類(lèi)推,將特征映射分割到不同的子區(qū)域并形成不同尺度的池化表示,灰色為最后一層,將特征圖劃分為6×6的子區(qū)域,執(zhí)行最細(xì)層次的平均池化。經(jīng)過(guò)不同尺度的池化,不同級(jí)別的輸出形成多種尺度的特征映射。對(duì)不同層次池化特征,使用1×1的卷積進(jìn)行通道和維度調(diào)整,再經(jīng)過(guò)上采樣以雙線性差值的方式將尺度調(diào)整到原始特征圖大小。再使原始特征與池化后的特征通過(guò)跳躍連接的方式完成特征融合,最終形成了具有原始特征信息和池化后信息的融合輸出,使模型具有更強(qiáng)的全局感知能力。
交叉熵是香農(nóng)信息論中的重要概念,主要用于度量?jī)蓚€(gè)概率分布間的差異性信息,在神經(jīng)網(wǎng)絡(luò)中將其作為損失函數(shù)結(jié)合反向傳播對(duì)模型進(jìn)行優(yōu)化。交叉熵?fù)p失函數(shù)會(huì)將所有樣本的損失都進(jìn)行求和計(jì)算,這樣會(huì)帶來(lái)兩個(gè)問(wèn)題:一是簡(jiǎn)單易分類(lèi)樣本的損失很低,但大量損失計(jì)算累加到一起,對(duì)小樣本產(chǎn)生抑制作用,無(wú)法提取有效特征;二是在計(jì)算過(guò)程中,會(huì)激勵(lì)概率較大的類(lèi),結(jié)合反向傳播,使得模型對(duì)大樣本過(guò)度自信,對(duì)小樣本關(guān)注不足,導(dǎo)致泛化能力變差,降低模型的自適應(yīng)能力。針對(duì)傳統(tǒng)交叉熵?fù)p失函數(shù)存在的問(wèn)題,焦點(diǎn)損失函數(shù)通過(guò)增加聚焦參數(shù),對(duì)大樣本的損失積累進(jìn)行抑制,關(guān)注小樣本目標(biāo),促使模型擁有更好的平衡能力。
針對(duì)紅外圖像的車(chē)輛目標(biāo)檢測(cè)任務(wù)中,存在背景特征與車(chē)輛特征相似度較高,以及紅外圖像中車(chē)輛目標(biāo)被路面特征淹沒(méi),而導(dǎo)致誤檢、漏檢和檢測(cè)置信度不高的問(wèn)題。本文將類(lèi)別標(biāo)記轉(zhuǎn)換成獨(dú)熱向量形式,并將獨(dú)熱向量中置信度為1的項(xiàng)衰減,生成平滑標(biāo)簽。平滑后待檢測(cè)目標(biāo)的置信度降低,其他相鄰目標(biāo)獲得更多被檢測(cè)機(jī)會(huì)。獨(dú)熱向量的標(biāo)簽平滑定義如下:
′()=(1-),+()
(1)
式中:為衰減因子;為類(lèi)別數(shù);()為一個(gè)概率分布,此處采用均勻分布。,定義為
(2)
最終,得到本文提出的S-FL,定義如下:
(3)
式中:
(4)
()為類(lèi)別概率;′()為經(jīng)平滑后的指定類(lèi)別;為聚焦參數(shù),可以平滑地調(diào)整簡(jiǎn)單樣本的權(quán)重;=20,=025,=2,=01。
當(dāng)前,紅外圖像的公開(kāi)數(shù)據(jù)集較難獲得,為了對(duì)提出的基于全局感知機(jī)制的紅外目標(biāo)檢測(cè)模型進(jìn)行訓(xùn)練和評(píng)估。本課題組使用光譜范圍為75~14 μm的紅外成像儀在不同時(shí)段、不同背景、不同氣候條件下拍攝公交車(chē)和小汽車(chē)的紅外圖像。通過(guò)圖像增強(qiáng)制成大小為320×320的待標(biāo)注圖像集,使用Labeling完成圖像的標(biāo)注,生成含有車(chē)輛位置和真實(shí)框?qū)捀咝畔⒌膞ml文件,最終制成包含公交車(chē)圖像761張、小汽車(chē)圖像1 336 張的Infrared-VOC320紅外數(shù)據(jù)集,并將訓(xùn)練集、驗(yàn)證集、測(cè)試集按7∶1∶2劃分。
為了驗(yàn)證紅外數(shù)據(jù)集的科學(xué)性和合理性,與公開(kāi)的標(biāo)準(zhǔn)可見(jiàn)光數(shù)據(jù)集PASCAL VOC2007中各類(lèi)樣本數(shù)量進(jìn)行對(duì)比。如圖4所示,其中黑色為Infrared-VOC320數(shù)據(jù)集中目標(biāo)類(lèi)別和數(shù)量,灰色為PASCAL VOC2007數(shù)據(jù)集中目標(biāo)類(lèi)別和數(shù)量。從圖4中可以看出,Infrared-VOC320數(shù)據(jù)集中小汽車(chē)和公交車(chē)的數(shù)量分別為1 336 張和761張,而PASCAL VOC2007數(shù)據(jù)集中數(shù)量少于761張圖像的有16類(lèi),表明Infrared-VOC320數(shù)據(jù)集中小汽車(chē)和公交車(chē)的數(shù)量可以用來(lái)進(jìn)行目標(biāo)檢測(cè)模型的訓(xùn)練和評(píng)估。
圖4 數(shù)據(jù)集數(shù)量關(guān)系對(duì)比圖Fig.4 Comparison of data set quantity relationship
為了評(píng)估本文改進(jìn)算法的性能,從準(zhǔn)確率、檢測(cè)速度、平均檢測(cè)精度(average precision, AP)和AP均值(mean AP, mAP)出發(fā),對(duì)本文改進(jìn)的算法和幾種主流算法進(jìn)行對(duì)比。同時(shí)引入空間復(fù)雜度、模型參數(shù)進(jìn)行消融實(shí)驗(yàn),探究各模塊對(duì)改進(jìn)模型的作用。
基于Infrared-VOC320數(shù)據(jù)集對(duì)Infrared-YOLO模型進(jìn)行訓(xùn)練時(shí),初始學(xué)習(xí)率為0.01,在迭代至第30次、第60次和第90次時(shí)分別縮小10倍,Batch size設(shè)為48,共迭代100次,完成模型的訓(xùn)練。文中實(shí)驗(yàn)平臺(tái)使用系統(tǒng)為L(zhǎng)inux18.04,CPU為Inter Core i9-9900K CPU @3.60 GHz,GPU為Nvidia P6000,24 GB,在pytorch1.7.1框架下采用CUDA11.0和cudnn8.0.4.30進(jìn)行加速訓(xùn)練。
基于Infrared-VOC320數(shù)據(jù)集的不同目標(biāo)檢測(cè)算法實(shí)驗(yàn)結(jié)果如表1所示,Infrared-YOLO目標(biāo)檢測(cè)算法針對(duì)紅外目標(biāo)檢測(cè)的mAP達(dá)到80.1個(gè)百分點(diǎn),在一階段目標(biāo)檢測(cè)算法中,比YOLOv3高出4.4個(gè)百分點(diǎn),比SSD300高出9.7個(gè)百分點(diǎn)。通常一個(gè)具有實(shí)時(shí)性的模型,需要達(dá)到每秒30 FPS以上,本文檢測(cè)模型檢測(cè)速度達(dá)到56.4 FPS,能夠滿足實(shí)時(shí)檢測(cè)的需求。同時(shí)比二階段目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN高出4.5個(gè)百分點(diǎn),檢測(cè)速度是其8倍。上述實(shí)驗(yàn)證明Infrared-YOLO保持實(shí)時(shí)檢測(cè)速度的同時(shí)提升了針對(duì)地面紅外目標(biāo)檢測(cè)的平均精度。
表1 基于Infrared-VOC320數(shù)據(jù)集的不同目標(biāo)檢測(cè)算法實(shí)驗(yàn)結(jié)果
為了理解Infrared-YOLO中各改進(jìn)模塊對(duì)檢測(cè)效果的影響,表2是逐步增加相關(guān)改進(jìn)模塊的消融實(shí)驗(yàn),圖5是訓(xùn)練過(guò)程損失函數(shù)曲線圖。從表2中可以看到,YOLOv3目標(biāo)檢測(cè)模型的mAP為75.7個(gè)百分點(diǎn),AP差值為4.2個(gè)百分點(diǎn),基準(zhǔn)模型結(jié)合平滑焦點(diǎn)損失后,mAP提升至77.7個(gè)百分點(diǎn),AP間差值縮小至0.8個(gè)百分點(diǎn),表明本文設(shè)計(jì)的平滑焦點(diǎn)函數(shù)具有關(guān)注難分樣本的能力,并且提升了對(duì)目標(biāo)的平均檢測(cè)精度?;鶞?zhǔn)模型結(jié)合GIF-SPP模塊后,mAP提升了3.1個(gè)百分點(diǎn),類(lèi)間差值減小到0.5個(gè)百分點(diǎn),驗(yàn)證了全局信息融合的金字塔池化模塊通過(guò)不同尺度的池化,增大了模型的感受野,提高了尺度不變性,并且能夠與原始特征進(jìn)行特征信息的互相補(bǔ)充,有利于檢測(cè)網(wǎng)絡(luò)對(duì)全局信息的感知,提升了檢測(cè)精度,此外全局感知模塊還能夠緩解樣本的不平衡。最終Infrared-YOLO的mAP達(dá)到80.1個(gè)百分點(diǎn),結(jié)合圖5和表2可以看出,通過(guò)損失函數(shù)和特征表征兩個(gè)方面的優(yōu)化,能夠提升模型的檢測(cè)精度和數(shù)據(jù)集平衡能力,加速模型收斂。
圖5 損失函數(shù)曲線對(duì)比Fig.5 Comparison of loss function curve
表2 基于Infrared-VOC320的消融實(shí)驗(yàn)
為了更進(jìn)一步比較全局信息融合的空間金字塔池化模塊與SPP模塊對(duì)于模型檢測(cè)精度提升的程度,進(jìn)行關(guān)于這兩種模塊的消融實(shí)驗(yàn)。使用原始YOLOv3為基準(zhǔn)模型,在相同位置使用不同的池化模塊進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比實(shí)驗(yàn)結(jié)果如表3所示。通過(guò)表3中的數(shù)據(jù)可以發(fā)現(xiàn),SPP模塊通過(guò)5×5、9×9、13×13這3個(gè)尺度對(duì)最后一層的特征輸出執(zhí)行最大池化操作,增大了模型的感受野,與YOLOv3模型相比,mAP提升了0.8%,空間復(fù)雜度比基準(zhǔn)模型提高了0.8,參數(shù)量幾乎保持不變;使用全局信息融合金字塔池化模塊的Infrared-YOLO目標(biāo)檢測(cè)模型,mAP比基準(zhǔn)模型提升了3.1個(gè)百分點(diǎn),參數(shù)量減少了20.4個(gè)百分點(diǎn),空間復(fù)雜度增加了17.3個(gè)百分點(diǎn)。通過(guò)對(duì)比發(fā)現(xiàn),本文中所使用的全局信息融合的金字塔池化模塊雖然增加了空間復(fù)雜度,需要更多的顯存對(duì)模型進(jìn)行訓(xùn)練,但GIF-SPP使用較小的池化子區(qū)域和全卷積對(duì)池化特征進(jìn)行連接,減少了模型的參數(shù)量,有利于模型后期的遷移和部署。
表3 SPP與GIF-SPP的對(duì)比實(shí)驗(yàn)
圖6是Infrared-YOLO和YOLOv3在Infrared-VOC測(cè)試集中對(duì)目標(biāo)的檢測(cè)結(jié)果。在第1、2、3行中,單張圖片內(nèi)具有多個(gè)目標(biāo)的情況,改進(jìn)后檢測(cè)模型的置信度明顯高于原始的YOLOv3算法;對(duì)于第4、5行圖片中,背景對(duì)目標(biāo)干擾較嚴(yán)重場(chǎng)景下,改進(jìn)后的目標(biāo)檢測(cè)模型依舊能夠?qū)δ繕?biāo)進(jìn)行較好的檢測(cè);對(duì)于第6、7行圖片中遠(yuǎn)處相對(duì)較小的目標(biāo),原始YOLOv3算法存在因目標(biāo)的相互遮擋產(chǎn)生漏檢和將樹(shù)蔭當(dāng)作目標(biāo)造成誤檢的情況。檢測(cè)結(jié)果對(duì)比表明,改進(jìn)后的Infrared-YOLO目標(biāo)檢測(cè)模型能夠有效提升紅外目標(biāo)檢測(cè)的測(cè)置信度,優(yōu)化了地面紅外目標(biāo)受背景干擾導(dǎo)致的誤檢和漏檢問(wèn)題。
圖6 Infrared-VOC320測(cè)試集上對(duì)目標(biāo)的檢測(cè)結(jié)果對(duì)比Fig.6 Detection results comparison of targets on the Infrared-VOC320 dataset
本文提出的基于全局感知機(jī)制的紅外目標(biāo)檢測(cè)模型通過(guò)全局信息融合的空間金字塔池化模塊,增強(qiáng)網(wǎng)絡(luò)對(duì)所提取特征的全局聯(lián)系,再結(jié)合S-FL降低單一目標(biāo)置信度,有效優(yōu)化了地面背景下紅外車(chē)輛目標(biāo)檢測(cè)準(zhǔn)確率不高、易漏檢誤檢的問(wèn)題。在Infrared-VOC320數(shù)據(jù)集上平均檢測(cè)精度達(dá)到80.1%,與當(dāng)前主流的幾種目標(biāo)檢測(cè)模型相比表現(xiàn)出較好的檢測(cè)性能。基于全局感知機(jī)制的目標(biāo)檢測(cè)模型對(duì)地面紅外目標(biāo)的檢測(cè)具有較高檢測(cè)精度的同時(shí)實(shí)現(xiàn)了實(shí)時(shí)的檢測(cè)性能,對(duì)軍事偵察、偽裝防護(hù)等地面復(fù)雜背景下的紅外目標(biāo)檢測(cè)研究有著較好的借鑒意義。