摘" 要:視頻合成孔徑雷達(dá)圖像中動(dòng)目標(biāo)陰影可反映其真實(shí)位置,針對(duì)目前利用深度學(xué)習(xí)檢測(cè)陰影的方法來(lái)檢測(cè)動(dòng)目標(biāo)存在檢測(cè)概率低和虛警等問(wèn)題,提出一種改進(jìn)的YOLOv5模型。該算法以YOLOv5框架為基礎(chǔ),一方面添加小目標(biāo)檢測(cè)層、引入兼顧通道和空間的三維注意力機(jī)制,并調(diào)整損失函數(shù)計(jì)算方法為最小點(diǎn)距交并比方法,來(lái)提升網(wǎng)絡(luò)對(duì)動(dòng)目標(biāo)陰影的感知能力;另一方面增加道路提取作為判定條件,來(lái)降低道路外側(cè)靜止物體陰影對(duì)檢測(cè)動(dòng)目標(biāo)陰影的干擾。經(jīng)實(shí)驗(yàn)驗(yàn)證,該算法與YOLOv5相比在平均精度上提高7.12%,滿足動(dòng)目標(biāo)檢測(cè)需求。
關(guān)鍵詞:視頻SAR;運(yùn)動(dòng)目標(biāo)檢測(cè);深度學(xué)習(xí);YOLOv5;陰影檢測(cè)
中圖分類號(hào):TN951" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號(hào):2095-2945(2024)26-0054-06
Abstract: The shadows of moving targets in video synthetic aperture radar (Video SAR) images can reflect their real positions, and an improved YOLOv5 model is proposed to address the problems of low detection probability and 1 alarms in the current method of detecting shadows using deep learning to detect moving targets. The algorithm is based on the YOLOv5 framework. On the one hand, it adds a small target detection layer, introduces a three-dimensional attention mechanism that takes into account the channel and space, and adjusts the loss function calculation method to the intersection over union based on minimum point distance method to improve the network's ability to detect shadows of moving targets; on the other hand, it adds the road extraction as a decision condition to reduce the interference of the shadows of static objects outside the road in detecting the shadows of moving targets. After experimental verification, the algorithm improves the average accuracy by 7.12% compared with YOLOv5, which meets the requirements of moving target detection.
Keywords: Video SAR; moving target detection; deep learning; YOLOv5; shadow detection
合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)[1]由于其高分辨率、可多頻段模式工作以及具有穿透能力、不受天氣等惡劣環(huán)境影響等優(yōu)勢(shì),目前已被廣泛應(yīng)用于諸多軍事、民用領(lǐng)域。然而傳統(tǒng)SAR成像幀率較低,合成孔徑時(shí)間較長(zhǎng),兩幅圖像之間常常間隔幾十秒鐘,在執(zhí)行地面運(yùn)動(dòng)目標(biāo)指示(Ground Moving Target Indication,GMTI)工作時(shí)十分容易錯(cuò)過(guò)監(jiān)測(cè)目標(biāo)的運(yùn)動(dòng)變化從而丟失目標(biāo)。2003年,美國(guó)桑迪亞國(guó)家實(shí)驗(yàn)室(Sandia National Laboratories,SNL)提出視頻合成孔徑雷達(dá)(Video Synthetic Aperture Radar,Video SAR)[2]這一概念。Video SAR相比傳統(tǒng)SAR具有更高幀率成像的特點(diǎn),可以對(duì)感興趣的目標(biāo)區(qū)域進(jìn)行連續(xù)成像,同時(shí)對(duì)監(jiān)測(cè)區(qū)域內(nèi)的運(yùn)動(dòng)目標(biāo)有清晰感知,因此其一經(jīng)提出便受到國(guó)內(nèi)外學(xué)者廣泛關(guān)注[3-4]。在Video SAR模式下,由于圖像中部分區(qū)域雷達(dá)波束被物體遮擋,導(dǎo)致照射不到的位置會(huì)形成陰影,而目標(biāo)在運(yùn)動(dòng)時(shí)能量會(huì)發(fā)生散焦,在圖像中目標(biāo)的實(shí)際位置就會(huì)顯示出陰影,因此只要能成功檢測(cè)到陰影就會(huì)得到運(yùn)動(dòng)目標(biāo)的實(shí)際位置,這給動(dòng)目標(biāo)檢測(cè)提供了新的思路。
目前針對(duì)Video SAR圖像的動(dòng)目標(biāo)陰影檢測(cè)主要有兩類方法,第一類是基于背景差分的方法,例如聊蕾等[5]提出的利用背景對(duì)齊和單高斯建模獲得背景模型,并二值化圖像提取目標(biāo)陰影的方法,以及張營(yíng)等[6]提出的利用幀間背景補(bǔ)償與最大化閾值分割方法分離背景,并結(jié)合三幀間差分法提取動(dòng)目標(biāo)陰影的方法。第二類是基于深度學(xué)習(xí)的方法,如丁金閃[7]利用Faster-RCNN檢測(cè)運(yùn)動(dòng)目標(biāo)陰影,通過(guò)添加密度聚類和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)提升網(wǎng)絡(luò)檢測(cè)性能;Yang等[8]利用FairMOT框架為基礎(chǔ)添加三元注意力機(jī)制,達(dá)到了跟蹤Video SAR圖像中多個(gè)動(dòng)目標(biāo)陰影的效果;張笑博等[9]提出一種從零開始的深度學(xué)習(xí)模型,并結(jié)合卡爾曼濾波和逐幀數(shù)據(jù)關(guān)聯(lián)實(shí)現(xiàn)動(dòng)目標(biāo)跟蹤。由于Video SAR圖像中目標(biāo)在圖像占比很小,陰影特征不明顯,且圖像中存在許多特征相似的靜止物體陰影造成檢測(cè)干擾,當(dāng)前深度學(xué)習(xí)方法常常出現(xiàn)誤檢和漏檢的問(wèn)題,因此有必要提出一種性能更好的運(yùn)動(dòng)目標(biāo)陰影檢測(cè)方法。
本文將YOLOv5模型應(yīng)用在了Video SAR圖像的運(yùn)動(dòng)目標(biāo)陰影檢測(cè),針對(duì)陰影目標(biāo)特征難以學(xué)習(xí)以及目標(biāo)像小的問(wèn)題,通過(guò)添加小目標(biāo)檢測(cè)層、引入三維注意力機(jī)制以及調(diào)整邊界框損失函數(shù)進(jìn)行改進(jìn),成功提升了網(wǎng)絡(luò)對(duì)運(yùn)動(dòng)目標(biāo)陰影檢測(cè)的性能,并在此基礎(chǔ)上增加了對(duì)圖像的道路提取作為判定條件,降低了道路外側(cè)非運(yùn)動(dòng)目標(biāo)陰影對(duì)檢測(cè)動(dòng)目標(biāo)的干擾。整體網(wǎng)絡(luò)模型檢測(cè)運(yùn)動(dòng)目標(biāo)陰影效果有較好提升,誤檢和漏檢的問(wèn)題得到較大改善。
1" 基于YOLOv5改進(jìn)的網(wǎng)絡(luò)模型
本文提出的運(yùn)動(dòng)目標(biāo)陰影檢測(cè)模型是在YOLOv5基礎(chǔ)上改進(jìn)的,YOLOv5模型主要由骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和檢測(cè)頭三部分組成,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。骨干網(wǎng)絡(luò)使用CSPDarknet53[10],頸部網(wǎng)絡(luò)由PANet[11]組成,檢測(cè)頭輸出3種尺寸大小的預(yù)測(cè)圖。其中, Conv模塊為一個(gè)二維卷積層、Batch Normalization層與SiLu激活函數(shù)組成;Focus模塊為4次Slice操作后使用Concat操作整合,再經(jīng)過(guò)一個(gè)Conv模塊的結(jié)果;C3-n模塊為BottleneckCSP模塊的改進(jìn)結(jié)果,經(jīng)過(guò)n個(gè)Bottleneck模塊后使用Concat操作整合,同時(shí)激活函數(shù)也調(diào)整為SiLu;SPPF模塊使用3個(gè)最大池化層,最后同樣使用Concat操作整合。
1.1" 小目標(biāo)檢測(cè)層
在基本的YOLOv5模型中,輸入圖片通過(guò)骨干網(wǎng)絡(luò)經(jīng)過(guò)一系列卷積操作后會(huì)生成20×20、40×40、80×80 3種特征圖傳輸給頸部網(wǎng)絡(luò)進(jìn)行特征融合,這3種特征圖分別對(duì)應(yīng)大、中、小尺度目標(biāo)的特征。這些特征圖各有優(yōu)缺點(diǎn),經(jīng)過(guò)深層卷積的20×20特征圖具有更加豐富的語(yǔ)義特征,但是其分辨率低,丟失了部分目標(biāo)的位置信息,對(duì)細(xì)節(jié)的感知能力較差;相反,80×80的特征圖因?yàn)闇\層網(wǎng)絡(luò)感受野較小,感受野重疊區(qū)域也較小,因此可以捕捉到更多的細(xì)節(jié)和位置信息,但相對(duì)來(lái)說(shuō)其語(yǔ)義性更低。
YOLOv5模型中的特征融合網(wǎng)絡(luò)是路徑聚合網(wǎng)絡(luò) (path aggregation network, PAN)[12]思想的體現(xiàn),通過(guò)特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)[13]自頂向下傳遞深層網(wǎng)絡(luò)的語(yǔ)義特征以及自底向上地傳遞淺層網(wǎng)絡(luò)的位置信息,并在每層進(jìn)行對(duì)應(yīng)信息融合,使模型對(duì)大尺度目標(biāo)和小尺度目標(biāo)都有較好的檢測(cè)效果。
針對(duì)Video SAR圖像中運(yùn)動(dòng)目標(biāo)陰影非常小的情況,本文在YOLOv5模型上提出了改進(jìn),如圖2所示白色為原始網(wǎng)絡(luò)結(jié)構(gòu),灰色為新增的小目標(biāo)檢測(cè)層。首先,在骨干網(wǎng)絡(luò)上80×80特征圖輸出前增加一個(gè)更大的160×160特征圖輸出,這個(gè)特征圖有更大的分辨率,因此對(duì)運(yùn)動(dòng)目標(biāo)陰影這類小目標(biāo)的特征提取效果更好。相對(duì)應(yīng)地,在頸部特征融合網(wǎng)絡(luò)上新增檢測(cè)層,將80×80的特征圖先經(jīng)過(guò)上采樣變?yōu)?60×160尺寸,并與骨干網(wǎng)絡(luò)新加入的160×160特征圖融合,將融合結(jié)果一面?zhèn)鬟f給檢測(cè)頭,另一面經(jīng)過(guò)下采樣獲得80×80尺寸的特征圖連接在隨后的網(wǎng)絡(luò)中。
1.2" 注意力機(jī)制
為了進(jìn)一步加強(qiáng)對(duì)Video SAR圖像中運(yùn)動(dòng)目標(biāo)陰影的檢測(cè),本文選擇在骨干網(wǎng)絡(luò)特征圖輸出前增加注意力機(jī)制?,F(xiàn)有的卷積網(wǎng)絡(luò)注意力機(jī)制主要有2種:第一種是通道注意力,這種注意力機(jī)制通過(guò)提升重點(diǎn)通道權(quán)重,抑制影響較小通道權(quán)重來(lái)達(dá)到注意力目的;第二種是空間注意力,通過(guò)提升重點(diǎn)空間位置權(quán)重、抑制非重點(diǎn)空間位置權(quán)重達(dá)到效果。可以考慮將2種注意力機(jī)制有機(jī)結(jié)合,基于此啟發(fā)文獻(xiàn)[14]提出簡(jiǎn)單無(wú)參注意力機(jī)制(A Simple Parameter-Free Attention Module, SimAM),利用優(yōu)化的能量函數(shù)來(lái)判斷每個(gè)神經(jīng)元的重要性,賦予每個(gè)神經(jīng)元一個(gè)獨(dú)特的權(quán)重,從而同時(shí)兼顧通道和空間注意力。SimAM有較為簡(jiǎn)單的工作原理,在深度學(xué)習(xí)中,具有更重要地位的神經(jīng)元會(huì)與周圍的神經(jīng)元不同,且會(huì)對(duì)周圍其他神經(jīng)元產(chǎn)生空間抑制,因此只需要判斷神經(jīng)元之間的線性可分性即可找到重要的神經(jīng)元。假設(shè)輸入的特征圖為X∈RC×H×W,C、H、W分別表示特征圖的通道數(shù)、高度和寬度。t為目標(biāo)神經(jīng)元,xi為單個(gè)通道中其他神經(jīng)元,每個(gè)神經(jīng)元都有如下能量函數(shù)
公式表明神經(jīng)元t的e越低,其與周圍神經(jīng)元越不相同,需要把注意力更加集中在這個(gè)位置,本文將這一思想融入 YOLOv5模型,在骨干網(wǎng)絡(luò)中的每個(gè)特征圖輸出前加入SimAM模塊來(lái)達(dá)到加強(qiáng)陰影特征識(shí)別能力的效果。添加SimAM模塊的部分如圖2中骨干網(wǎng)絡(luò)所示。
1.3" 邊界框損失函數(shù)
YOLOv5模型默認(rèn)采用CIoU(Complete-IoU)[15]來(lái)解決預(yù)測(cè)框A與真實(shí)框B的交并比(Intersection over Union, IoU)[16]計(jì)算問(wèn)題。交并比計(jì)算方法的發(fā)展是經(jīng)歷了一系列階段的,初始的IoU計(jì)算公式如下所示
在預(yù)測(cè)框和真實(shí)框之間相交面積相同時(shí),兩框會(huì)有多種不同的相交場(chǎng)景,為了解決這種情況下IoU計(jì)算失效的問(wèn)題,有學(xué)者引入最小外接矩形概念,提出了GIoU(Generalized-IoU)[17]的計(jì)算方法。然而GIoU在一框完全覆蓋另一框的情況下又會(huì)退化為IoU,因此DIoU(Distance-IoU)[15]思想應(yīng)運(yùn)而生。DIoU思想將GIoU中計(jì)算矩形間的交并改為計(jì)算檢測(cè)框中心點(diǎn)的歐氏距離,從而解決了GIoU的問(wèn)題。但是DIoU沒(méi)有考慮兩框之間的寬高比,當(dāng)面對(duì)預(yù)選框和真實(shí)框中心點(diǎn)重合的情況時(shí)依然會(huì)退化為IoU。CIoU綜合了重疊面積、中心點(diǎn)距離以及寬高比,是考慮IoU損失較為全面的思想,公式如下
式中:ρ2(Actr,Bctr)為A、B兩框中心點(diǎn)間距;c2為兩框最小外接矩形的對(duì)角線;α為權(quán)重系數(shù);υ為預(yù)測(cè)框與實(shí)際框長(zhǎng)寬比差距。
盡管CIoU的思想已經(jīng)相對(duì)來(lái)說(shuō)考慮得十分全面,但是其在寬高比方面考慮的是比例相同,而不是實(shí)際的寬高值相同,因此會(huì)出現(xiàn)這樣一個(gè)場(chǎng)景,當(dāng)預(yù)選框和真實(shí)框中心點(diǎn)相同且寬高比相同,但是其寬高不相同時(shí),CIoU就會(huì)失效。此外,歷經(jīng)多次改良CIoU計(jì)算方法變得較為復(fù)雜,計(jì)算量很大。因此本文采用基于最小點(diǎn)距交并比(Intersection over Union based on Minimum Point Distance,MPDIoU)[18]計(jì)算方法來(lái)計(jì)算邊界框損失函數(shù),MPDIoU利用預(yù)選框和真實(shí)框的頂點(diǎn)坐標(biāo)來(lái)計(jì)算交并比,成功解決了CIoU的問(wèn)題。
假設(shè)預(yù)測(cè)框和真實(shí)框左上角頂點(diǎn)和右下角頂點(diǎn)分別為(x,y)、(x,y)以及(x,y)、(x,y),輸入圖片的寬和高分別是w、h,有MPDIoU損失函數(shù)公式如下
式中: " " "。
使用MPDIoU作為邊界框損失函數(shù)計(jì)算方法不僅解決了傳統(tǒng)邊界框損失函數(shù)存在的失效問(wèn)題,而且簡(jiǎn)化了預(yù)選框和真實(shí)框之間的相似性比較計(jì)算,對(duì)檢測(cè)速度會(huì)有所提升。
完整的網(wǎng)絡(luò)改進(jìn)結(jié)果如圖3所示。
2" 動(dòng)目標(biāo)檢測(cè)與道路分割融合
除網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整外,本文還利用YOLOv5-v7.0版本的實(shí)例分割對(duì)Video SAR圖像做道路提取,利用提取的結(jié)果輔助運(yùn)動(dòng)目標(biāo)陰影檢測(cè),從而進(jìn)一步提升模型檢測(cè)能力。
Video SAR圖像中由于雷達(dá)波束被物體遮擋,導(dǎo)致照射不到的位置會(huì)形成陰影,目標(biāo)運(yùn)動(dòng)能量散焦會(huì)使陰影暴露出來(lái),這是檢測(cè)運(yùn)動(dòng)目標(biāo)的理論依據(jù)。但所檢測(cè)圖像中除了運(yùn)動(dòng)目標(biāo)的陰影外,還有建筑物、樹木等這些靜止的物體形成的陰影。這些非運(yùn)動(dòng)目標(biāo)形成的陰影在運(yùn)動(dòng)目標(biāo)陰影檢測(cè)時(shí)十分容易造成虛警干擾,可以通過(guò)一個(gè)典型的例子說(shuō)明這個(gè)問(wèn)題。如圖4(a)所示是美國(guó)桑迪亞國(guó)家實(shí)驗(yàn)室Video SAR拍攝視頻中的一幀,此時(shí)場(chǎng)景中短框標(biāo)注的位置,在道路中有少許車輛通過(guò)形成陰影;同時(shí)道路周圍長(zhǎng)框標(biāo)注的位置,樹木也會(huì)在圖片中呈現(xiàn)陰影,且特征與運(yùn)動(dòng)目標(biāo)較為相似,因此在YOLOv5模型下進(jìn)行運(yùn)動(dòng)目標(biāo)陰影檢測(cè)的結(jié)果并不理想,周圍的樹木陰影造成了一定的虛警干擾,檢測(cè)結(jié)果如圖4(b)所示。
本文針對(duì)這一問(wèn)題提出了改進(jìn)策略,由于一般場(chǎng)景下道路內(nèi)部比較光滑平整,除運(yùn)動(dòng)目標(biāo)陰影外很少存在其他陰影干擾檢測(cè),而上述類似樹木等造成的干擾陰影一般處于道路以外,因此考慮在對(duì)運(yùn)動(dòng)目標(biāo)陰影檢測(cè)判定前生成掩膜對(duì)所檢測(cè)圖像中非道路區(qū)域進(jìn)行遮擋,如果檢測(cè)到的運(yùn)動(dòng)目標(biāo)陰影在遮擋區(qū)域中則可將其作為虛警排除。掩膜的工作原理如圖5所示,假設(shè)圖片對(duì)應(yīng)的黑色區(qū)域?yàn)樾枰獧z測(cè)的區(qū)間,白色區(qū)域?yàn)樾枰谀ふ趽醯膮^(qū)間,將原圖中的每個(gè)像素與掩膜中對(duì)應(yīng)的像素進(jìn)行與運(yùn)算,即可得到掩膜遮蓋后的圖像。在YOLOv5-v7.0版本中,YOLOv5作者更新了網(wǎng)絡(luò)功能使其可以實(shí)現(xiàn)實(shí)例分割,并且在Video SAR圖像場(chǎng)景中,道路沿線特征較為鮮明,因此本文嘗試使用YOLOv5模型對(duì)Video SAR圖像做道路實(shí)例分割,將道路分割后的結(jié)果形成上述掩膜來(lái)作為運(yùn)動(dòng)目標(biāo)陰影檢測(cè)的條件補(bǔ)充,從而彌補(bǔ)道路外側(cè)靜止物體陰影干擾造成的虛警問(wèn)題。整體流程如圖6所示,輸入端分別將Video SAR圖像輸入到道路分割和運(yùn)動(dòng)目標(biāo)陰影檢測(cè)網(wǎng)絡(luò)中,將道路分割得到的結(jié)果融合進(jìn)陰影檢測(cè)網(wǎng)絡(luò)中,最終得到檢測(cè)結(jié)果。
3" 實(shí)驗(yàn)結(jié)果
3.1" 實(shí)驗(yàn)平臺(tái)與數(shù)據(jù)集
本文使用的實(shí)驗(yàn)環(huán)境如下:CPU配置為Intel酷睿i5-13400F,使用NVIDIA GeForce RTX 2080Ti顯卡進(jìn)行計(jì)算,顯存大小為13 GB,操作系統(tǒng)為Windows 10,Python語(yǔ)言版本為3.1.0,Pytorch版本為1.8.0,CUDA版本為11.1。
實(shí)驗(yàn)使用到的數(shù)據(jù)集來(lái)自于桑迪亞實(shí)驗(yàn)室發(fā)布的Video SAR拍攝數(shù)據(jù)。本實(shí)驗(yàn)從該視頻中截取到900 幀圖像,使用LabelImg標(biāo)注車輛陰影標(biāo)簽,并使用Labelme標(biāo)注道路標(biāo)簽。由于數(shù)據(jù)集較少難以訓(xùn)練,因此使用裁剪、旋轉(zhuǎn)、平移、鏡像和模糊等方式進(jìn)行數(shù)據(jù)集擴(kuò)充,共得到9 900張圖像,按照7∶1.5∶1.5劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集展開實(shí)驗(yàn)。
3.2" 評(píng)估指標(biāo)
本實(shí)驗(yàn)采用準(zhǔn)確度P(precision)、召回率R(recall)、平均準(zhǔn)確度均值mAP@0.5(mean average precision)和每秒檢測(cè)圖片幀數(shù)FPS(frames per second)作為檢測(cè)本文算法的性能指標(biāo)。上述性能指標(biāo)計(jì)算公式為
式中:tp為被模型預(yù)測(cè)為正類的正樣本;fp為被模型預(yù)測(cè)為正類的負(fù)樣本;fn為被模型預(yù)測(cè)為負(fù)類的負(fù)樣本。由于本實(shí)驗(yàn)只有一個(gè)檢測(cè)類別,因此公式中APi只有一個(gè)值,mAP取值直接使用AP的計(jì)算結(jié)果。
3.3" 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)結(jié)果見表1,本文提出的改進(jìn)算法在準(zhǔn)確度、召回率和mAP@0.5均有提升,其分別增加了7.96%、4.16%以及7.12%。由于對(duì)網(wǎng)絡(luò)改進(jìn)增加了計(jì)算量,因此檢測(cè)速度有所降低,F(xiàn)PS降低了約39幀/s,不過(guò)由于一般場(chǎng)景下對(duì)視頻的檢測(cè)達(dá)到30幀/s以上即可滿足要求,且目前Video SAR成像幀率大約在5幀/s,在實(shí)際使用時(shí)完全可以滿足要求。
選取特定場(chǎng)景對(duì)YOLOv5和本文算法的檢測(cè)結(jié)果進(jìn)行分析。如圖7所示,在圖7(a)中白色框標(biāo)注的位置由于針對(duì)小目標(biāo)的特征學(xué)習(xí)不夠?qū)е耏OLOv5算法并沒(méi)有檢測(cè)到,而使用本文改進(jìn)算法針對(duì)小目標(biāo)的網(wǎng)絡(luò)改進(jìn)充分發(fā)揮了作用,成功檢測(cè)到漏警目標(biāo)。而在圖7(b)場(chǎng)景中,存在上文描述到的道路周圍樹木陰影,使用YOLOv5模型檢測(cè)的結(jié)果會(huì)有虛警現(xiàn)象,而添加道路提取限定檢測(cè)區(qū)域后,虛警現(xiàn)象基本得到了抑制。
3.4" 消融實(shí)驗(yàn)
為了驗(yàn)證實(shí)驗(yàn)各個(gè)改進(jìn)點(diǎn)的有效性,本文設(shè)計(jì)了幾組消融實(shí)驗(yàn)進(jìn)行單獨(dú)驗(yàn)證,實(shí)驗(yàn)結(jié)果見表2。其中改進(jìn)點(diǎn)A為增加小目標(biāo)檢測(cè)層,改進(jìn)點(diǎn)B為增加SimAM模塊,改進(jìn)點(diǎn)C為修改邊界框損失函數(shù)為MPDIoU,改進(jìn)點(diǎn)D為添加道路提取限定檢測(cè)區(qū)域。
從實(shí)驗(yàn)結(jié)果可以看出,在增加小目標(biāo)檢測(cè)層后準(zhǔn)確度、召回率和mAP@0.5均有提升,而由于增加了參數(shù)量因此檢測(cè)幀率有所下降;增加SimAM注意力機(jī)制的算法在保持檢測(cè)速度基本不變的情況下在各方面精度均有提升;而調(diào)整邊界框損失函數(shù)計(jì)算方法為MDPIoU的實(shí)驗(yàn)在小幅提升各方面數(shù)值的情況下同時(shí)在檢測(cè)速度上有所提升;添加道路提取限定檢測(cè)區(qū)域的方法主要提升了算法的準(zhǔn)確度,即虛警問(wèn)題得到了抑制,同時(shí)由于增加了檢測(cè)工作因此檢測(cè)速度有所下降。綜合考慮,本文算法在平均精度上提升了7.12%,雖然算法改進(jìn)導(dǎo)致檢測(cè)速度有所下降,但是整體速度依然可以勝任實(shí)時(shí)Video SAR運(yùn)動(dòng)目標(biāo)陰影檢測(cè)任務(wù)。
3.5" 對(duì)比實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證算法的改進(jìn)效果,本文測(cè)試了目前主流的幾種深度學(xué)習(xí)模型在本實(shí)驗(yàn)數(shù)據(jù)集上的學(xué)習(xí)效果并與本文算法進(jìn)行對(duì)比,包括Faster-RCNN、SSD、YOLOv3以及YOLOv4。利用mAP@0.5和FPS作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見表3。
從表3中可以看到,F(xiàn)aster-RCNN作為雙階段檢測(cè)算法在檢測(cè)精度上有一些優(yōu)勢(shì),但其檢測(cè)速度相較于其他單階段檢測(cè)算法比較低;相反SSD具有很高的檢測(cè)速度但檢測(cè)精度得不到保障;YOLO系列算法在保證檢測(cè)精度的同時(shí)檢測(cè)速度依然保持較好;本文算法相比于上述主流算法在保證檢測(cè)速度的前提下在檢測(cè)精度上有較大的優(yōu)勢(shì)。
4" 結(jié)論
本文基于YOLOv5檢測(cè)模型,提出了一種改進(jìn)的Video SAR圖像運(yùn)動(dòng)目標(biāo)陰影檢測(cè)網(wǎng)絡(luò)。所提出的網(wǎng)絡(luò)通過(guò)增加小目標(biāo)檢測(cè)層、添加SimAM模塊、修改邊界框損失函數(shù)計(jì)算方法為MPDIoU以及增加道路提取限定檢測(cè)范圍,更好地適應(yīng)了運(yùn)動(dòng)目標(biāo)陰影較小、難以檢測(cè)的特點(diǎn)。實(shí)驗(yàn)結(jié)果證明,所提出的網(wǎng)絡(luò)具有很好的檢測(cè)性能,相比于主流的目標(biāo)檢測(cè)網(wǎng)絡(luò),本網(wǎng)絡(luò)在檢測(cè)精度方面具有較大優(yōu)勢(shì),同時(shí)檢測(cè)速度也可以滿足實(shí)時(shí)需求。
參考文獻(xiàn):
[1] RANEY R K. Synthetic aperture imaging radar and moving targets [J]. IEEE Transactions on Aerospace and Electronic Systems,1971(3):499-505.
[2] WELLS L, SORENSEN K, DOERRY A, et al. Developments in SAR and IFSAR systems and technologies at Sandia National Laboratories [C]//2003 IEEE Aerospace Conference Proceedings(Cat No 03TH8652),2003.IEEE:2_1085-1082_1095.
[3] KIM S-H, FAN R, DOMINSKI F. ViSAR: A 235 GHz radar for airborne applications [C]//2018 IEEE Radar Conference (RadarConf18),2018.IEEE:1549-1554.
[4] PALM S, SOMMER R, JANSSEN D, et al. Airborne circular W-band SAR for multiple aspect urban site monitoring [J].IEEE Transactions on Geoscience and Remote Sensing, 2019,57(9):6996-7016.
[5] 聊蕾,左瀟麗,云濤,等.基于圖像序列的VideoSAR動(dòng)目標(biāo)檢測(cè)方法[J].雷達(dá)科學(xué)與技術(shù),2016,14(6):563-567,573.
[6] 張營(yíng),朱岱寅,俞翔,等.一種VideoSAR動(dòng)目標(biāo)陰影檢測(cè)方法[J].電子與信息學(xué)報(bào),2017,39(9):2197-2202.
[7] 丁金閃.視頻SAR成像與動(dòng)目標(biāo)陰影檢測(cè)技術(shù)[J].雷達(dá)學(xué)報(bào),2020,9(2):321-334.
[8] YANG X, SHI J, CHEN T, et al. Fast multi-shadow tracking for video-SAR using triplet attention mechanism[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-12.
[9] 張笑博,吳迪,朱岱寅.基于深度學(xué)習(xí)的ViSAR多運(yùn)動(dòng)目標(biāo)檢測(cè)[J].雷達(dá)科學(xué)與技術(shù),2022,20(5):513-519.
[10] WANG C-Y, BOCHKOVSKIY A, LIAO H-Y M. Scaled-yolov4: Scaling cross stage partial network [C]//Proceedings of the IEEE/cvf conference on computer vision and pattern recognition,2021.13029-13038.
[11] YANG J, FU X, HU Y, et al. PanNet: A deep network architecture for pan-sharpening [C]//Proceedings of the IEEE international conference on computer vision,2017.5449-5457.
[12] LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation [C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2018.8759-8768.
[13] LIN T-Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2017.2117-2125.
[14] YANG L, ZHANG R-Y, LI L, et al. Simam: A simple, parameter-free attention module for convolutional neural networks [C]//International conference on machine learning, 2021.PMLR:11863-11874.
[15] ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: Faster and better learning for bounding box regression [C]//Proceedings of the AAAI conference on artificial intelligence,2020.12993-13000.
[16] YU J, JIANG Y, WANG Z, et al. Unitbox: An advanced object detection network [C]//Proceedings of the 24th ACM international conference on Multimedia, 2016.516-520.
[17] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: A metric and a loss for bounding box regression [C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019.658-666.
[18] MA S, XU Y. MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression [J]. arXiv:230707662,2023.
第一作者簡(jiǎn)介:白浩琦(1998-),男,碩士。研究方向?yàn)檫\(yùn)動(dòng)目標(biāo)檢測(cè)、深度學(xué)習(xí)。