黃帥,張毅
(1.中國科學(xué)院 空天信息研究院,北京1 000190;2.中國科學(xué)院大學(xué) 電子電氣與通信工程學(xué)院,北京 100049)
合成孔徑雷達(dá)能夠全天時、全天候地監(jiān)控,可以在復(fù)雜條件下提供高分辨率的圖像。合成孔徑雷達(dá)圖像中的目標(biāo)檢測在區(qū)域管理、信息篩選等領(lǐng)域具有重要作用。但合成孔徑雷達(dá)圖像中目標(biāo)的尺度多樣性和背景散射的強(qiáng)干擾,給研究工作帶來了極大的挑戰(zhàn)。近年來,研究人員針對這些問題提出了各種解決方案。
傳統(tǒng)的SAR 圖像目標(biāo)檢測方法中,恒虛警檢測(Constant False Alarm Rate,CFAR)算法及其變種是典型的檢測算法。恒虛警率檢測器通過比較噪聲處理后的輸入信號與預(yù)設(shè)的閾值來確定是否有目標(biāo)。但CFAR 算法的準(zhǔn)確率在很大程度上受閾值影響,許多學(xué)者對此進(jìn)行了改進(jìn)。文獻(xiàn)[1]提出一種新型的閉環(huán)CFAR 處理器,通過移位寄存器和神經(jīng)網(wǎng)絡(luò)選擇最佳CFAR,從而保證其性能的連續(xù)性。文獻(xiàn)[2]針對密集目標(biāo)提出一種基于稀疏信號處理的方法。文獻(xiàn)[3]提出一種基于AIS 數(shù)據(jù)輔助的瑞利恒虛警率艦船檢測算法,通過設(shè)計一種基于自適應(yīng)閾值的雜波修整方法,消除局部背景窗口中的高度異常值。與文獻(xiàn)[3]類似,AI等[4]提出一種基于雙邊閾值的策略,通過自動裁剪局部參考窗口中的樣本,消除高強(qiáng)度和低強(qiáng)度的異常值。這些方法的性能在很大程度上取決于海雜波的統(tǒng)計建模和所選模型的參數(shù)估計,而相關(guān)研究方法的改進(jìn)也多是基于這2 個方面。考慮到海雜波的非均勻性,相關(guān)研究人員提出了各種雜波模型來擬合復(fù)雜的海況,比如對稱alpha 分布[5]和廣義gamma 分布[6-7]。但是這些方法都是基于特定場景,手工設(shè)計特征的魯棒性較差,尤其在復(fù)雜場景下容易產(chǎn)生虛警,不恰當(dāng)?shù)慕^(qū)域建模會導(dǎo)致許多內(nèi)陸地區(qū)散射的誤報。此外,手工設(shè)計的特征相對復(fù)雜,給研究工作帶來一定工作量。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)在SAR 圖像上進(jìn)行特征自動提取表現(xiàn)出優(yōu)越的性能。物體檢測方法分為無錨的方法和基于錨的方法兩類。文獻(xiàn)[8]將對象邊界框視作一對關(guān)鍵點,即左上角的點和右下角的點,然后使用卷積神經(jīng)網(wǎng)絡(luò)檢測成對的關(guān)鍵點。文獻(xiàn)[9]將對象檢測看作基于外觀的關(guān)鍵點估計問題,再通過關(guān)鍵點估計網(wǎng)絡(luò),以檢測5 個關(guān)鍵點,包括最頂部點、最底部點、最左側(cè)點、最右側(cè)點。文獻(xiàn)[10]將對象檢測框看作3 個關(guān)鍵點來進(jìn)行檢測。FU等[11]提出一種新的特征平衡與細(xì)化網(wǎng)絡(luò),在解決SAR 圖像中的背景干擾問題與小目標(biāo)難以檢測問題的同時,進(jìn)一步提高定位精度。文獻(xiàn)[12]提出密集注意力特征聚合網(wǎng)絡(luò),該方法通過密集連接和迭代融合獲取多尺度的高分辨率特征圖。MAO等[13]在U-Net 的基礎(chǔ)上進(jìn)行簡化,提出一種輕量級的檢測網(wǎng)絡(luò)。CUI等[14]在CenterNet中引入空間混洗組增強(qiáng)注意力模塊來抑制噪聲和獲得更強(qiáng)的語義特征。這些方法在提高檢測速度的同時,也帶來了一些問題。當(dāng)2 個物體的中心重合時,無錨的方法會產(chǎn)生語義模糊,導(dǎo)致檢測器的準(zhǔn)確度下降。
基于錨的方法根據(jù)是否存在感興趣區(qū)域提議分為單步檢測器和兩步檢測器。兩步檢測器如Faster RCNN、mask RCNN,首先在特征圖上進(jìn)行感興趣區(qū)域提取,然后對物體進(jìn)行檢測。WANG等[15]提出一種基于faster RCNN 自動標(biāo)記方位歧義進(jìn)行檢測的方法。GUI等[16]提出一種將上下文信息進(jìn)行多層融合的網(wǎng)絡(luò),從而獲得語義互補(bǔ)的特征圖。相比于單步檢測器,兩步檢測器雖然具有更高的檢測準(zhǔn)確度,但是網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,運(yùn)算速度更慢。
本文提出一種可以在復(fù)雜場景下對SAR 圖像進(jìn)行多尺度目標(biāo)檢測的網(wǎng)絡(luò),稱為梯形的跨尺度特征耦合網(wǎng)絡(luò)。為有效提取多尺度目標(biāo)的特征,提出一種梯形的特征金字塔網(wǎng)絡(luò)(Trapezoidal Feature Pyramid Network,TFPN),在TFPN 網(wǎng)絡(luò)中省略跳連結(jié)構(gòu)而采用交叉結(jié)構(gòu),使目標(biāo)的語義信息能更有效地在網(wǎng)絡(luò)中傳遞和被提取。由于不同層級的特征圖對輸出的語義貢獻(xiàn)并不一樣,本文在特征圖傳遞與融合的過程中引入額外的權(quán)重因子,用來表征不同層級的語義特征圖對網(wǎng)絡(luò)輸出的重要程度。基于定位分支與分類分支之間的弱相關(guān)性,本文設(shè)計一種定位分類耦合模塊,使分類輸出和定位輸出進(jìn)行耦合,加強(qiáng)兩者之間的聯(lián)系,并引入可變形卷積對定位進(jìn)行二次校準(zhǔn)。
OverFeat 網(wǎng)絡(luò)[17]是早期單步檢測器的代表之一,通過累積邊界框增加檢測置信度。文獻(xiàn)[18]采用雙向密集連接模塊降低網(wǎng)絡(luò)運(yùn)行的復(fù)雜度。文獻(xiàn)[19]在SSD[20]的基礎(chǔ)上引入額外的大尺度上下文信息,提高對小目標(biāo)的檢測精度。谷歌團(tuán)隊[21]對主干網(wǎng)絡(luò)、特征提取網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)同時進(jìn)行寬度、深度、分辨率的統(tǒng)一復(fù)合尺度縮放,以此提高模型的檢測效率。文獻(xiàn)[22]提出一種更加簡單、靈活的檢測框架,通過省略錨框和提議框來避免復(fù)雜的計算,并在文獻(xiàn)[23-25]的基礎(chǔ)上,分別提出一些技巧在模型檢測速度和準(zhǔn)確性之間實現(xiàn)平衡。LIN等[26]發(fā)現(xiàn)單步檢測器的性能落后于兩步檢測器的主要原因在于極端的前景與背景類別失衡,并針對這一問題創(chuàng)造性地提出焦點損失。相似地,文獻(xiàn)[27]提出一種在線困難樣本挖掘算法來自動選擇困難樣本并對其進(jìn)行訓(xùn)練,在一定程度上解決了正負(fù)樣本不均衡的問題。
但是,上述網(wǎng)絡(luò)在SAR 圖像的復(fù)雜雜波干擾下進(jìn)行特征的有效提取仍然存在一定困難。例如近岸的船舶很難被有效檢測出來,小目標(biāo)會存在漏檢的情況。此外,在檢測網(wǎng)絡(luò)中,分類分支與定位分支之間的相關(guān)性較弱,導(dǎo)致定位不準(zhǔn)確。在標(biāo)準(zhǔn)的非極大值抑制過程中,這種弱相關(guān)性會導(dǎo)致高定位準(zhǔn)確度低的分類置信度預(yù)測結(jié)果被低定位準(zhǔn)確度高的分類置信度預(yù)測結(jié)果抑制。文獻(xiàn)[28]針對邊界框回歸的不確定問題提出一種新的邊界框回歸損失算法,通過網(wǎng)絡(luò)學(xué)習(xí)定位方差提高定位精度。WU等[29]通過增加一個IoU 預(yù)測分支來加強(qiáng)分類預(yù)測與定位預(yù)測之間的相關(guān)性。JIANG等[30]直接將預(yù)測的IoU 作為分類置信度來優(yōu)化NMS 程序。文獻(xiàn)[31]在非極大值抑制算法的基礎(chǔ)上提出Soft-NMS 算法并表現(xiàn)出良好的性能。YU等[32]設(shè)計一種IoU 損失函數(shù)將檢測的4 個邊界作為一個整體進(jìn)行回歸預(yù)測。UnitBox[32]不僅可以進(jìn)行準(zhǔn)確定位,而且具有強(qiáng)大的魯棒性。文獻(xiàn)[33]提出Fitness NMS 方法來更好地匹配IoU 最大化的目標(biāo),該方法還可以與Soft NMS一起使用。
在SAR 圖像中,由于目標(biāo)的尺度大小往往并不一致,因此在檢測過程中,進(jìn)行跨尺度地識別極為必要。特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)[34]通過自上而下的橫向連接提取各種尺度的語義特征圖,從而適應(yīng)不同規(guī)模的目標(biāo)檢測。NASFPN 網(wǎng)絡(luò)[35]通過神經(jīng)體系結(jié)構(gòu)搜索,在結(jié)構(gòu)空間中發(fā)現(xiàn)新的金字塔結(jié)構(gòu)。在自下而上的路徑中,路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)[36]使用定位信號縮短較低層與最頂層語義特征圖之間的信息路徑。并行特征金字塔網(wǎng)絡(luò)(Parallel Feature Pyramid Network,PFPNet)[37]通過增加網(wǎng)絡(luò)寬度而非網(wǎng)絡(luò)深度來生成多尺度特征圖。文獻(xiàn)[38-40]針對這一問題提出了各種改進(jìn)方案。
注意力機(jī)制可以讓模型專注于重要的信息而忽略不重要的信息,以此提升模型的性能。注意力機(jī)制通常分為空間域注意力和通道域注意力。SENet[41]是通道域注意力的典型代表之一。SENet網(wǎng)絡(luò)通過擠壓進(jìn)行特征聚合,之后再通過激勵進(jìn)行特征的再次校準(zhǔn)。BELLO等[42]提出一種二位相對自注意力模塊生成注意力特征圖,通過與卷積特征圖級聯(lián)來增強(qiáng)特征圖的語義表示。與文獻(xiàn)[42]不同,CBAM[43]將注意力特征圖與卷積特征圖相乘來自動地適應(yīng)細(xì)化特征。WANG等[44]則表明避免降維對通道域注意力很重要,并提出ECA 模塊來平衡網(wǎng)絡(luò)性能與復(fù)雜性。
傳統(tǒng)的特征金字塔網(wǎng)絡(luò)包括FPN 網(wǎng)絡(luò)、PANet網(wǎng)絡(luò)、NAS-FPN 網(wǎng)絡(luò)、BiFPN 網(wǎng)絡(luò)[21]等,通常由自下而上的下采樣路徑和自上而下的上采樣路徑組成,如圖1 所示。
圖1 傳統(tǒng)特征金字塔網(wǎng)絡(luò)Fig.1 Traditional feature pyramid network
和絕大多數(shù)物體檢測網(wǎng)絡(luò)相似,本文網(wǎng)絡(luò)由3 個部分組成:用于特征提取的主干網(wǎng)絡(luò)、用于多尺度特征生成的梯形金字塔網(wǎng)絡(luò)和用于精確檢測與定位的預(yù)測模塊。本文選取殘差網(wǎng)絡(luò)[45]作為主干網(wǎng)絡(luò)。
SAR 圖像經(jīng)過殘差網(wǎng)絡(luò)分別輸出3 個不同尺度的特征圖,表示為Cl,其中l(wèi)=3,4,5。這些表示不同尺度的特征圖通過梯形金字塔網(wǎng)絡(luò)產(chǎn)生更具表征能力和包含更多語義信息的多級特征圖,表示為Pi,其中i=3,4,5,6,7。得到多級語義信息Pi之后,本文將其分別送入用于定位與分類的檢測模塊,從而得到輸出結(jié)果。
接下來,本文將詳細(xì)介紹網(wǎng)絡(luò)的各個部分,并給出具體的實現(xiàn)細(xì)節(jié)。
梯形特征金字塔網(wǎng)絡(luò)TFPN 與圖1 類似,其結(jié)構(gòu)如圖2 所示。
圖2 梯形特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of trapezoidal feature pyramid network
TFPN 網(wǎng)絡(luò)需要五級輸入特征Pi,但是經(jīng)過主干網(wǎng)絡(luò)的輸出卻只有三級特征,所以P6與P7通過以下方式獲得:
其中:Conv1×1表示卷積核為1×1 的卷積層;BN 表示批歸一化操作;MaxPool 表示最大值池化操作,用來對特征圖進(jìn)行下采樣,同時保證操作前后特征圖分辨率不變。其過程如圖3 所示,先對特征進(jìn)行填充,ptop、pbottom、pleft、pright分別表示為了保持分辨率不變所需要的上、下、左、右方向的填充數(shù),可由以下公式計算得到:
圖3 下采樣操作Fig.3 Downsampling operation
其中:W、H分別表示特征的分辨率;s、k分別表示最大池化操作的步進(jìn)與核大??;W*、H*分別是填充后圖片的寬度和高度。
Pl_in(l=3,4,5)可通過一個卷積層來獲得,計算式如式(9)所示:
FPN[34]只通過一條自上而下的路徑對多尺度信息進(jìn)行有限程度的聚合,PANet[36]在FPN 的基礎(chǔ)上增加了一條自下而上的路徑,但作用有限。BiFPN[21]增加了交叉結(jié)構(gòu)與直連結(jié)構(gòu)來增強(qiáng)語義信息的表達(dá)能力。NAS-FPN[35]使用神經(jīng)架構(gòu)搜索以尋找最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu),但是最終得出的網(wǎng)絡(luò)往往不規(guī)則,難以修改與遷移到其他場景。此外,使用神經(jīng)架構(gòu)搜索需要耗費大量的時間,這是極不劃算的。FPG[46]采用大量的橫向連接與密集的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行語義信息的聚合,但這種方法需要大量而冗余的參數(shù)和較高的計算成本。
不難想象,低層次的特征圖包含更多的語義信息,但是同時也包含更多的噪聲。相應(yīng)地,本文需要更深的網(wǎng)絡(luò)對它進(jìn)行處理。高層次的特征圖經(jīng)過低層次的特征圖提煉而來,因而包含更加精確的語義信息和更少的噪聲,但是語義信息的廣度也相應(yīng)更少。所以,本文只需要對其進(jìn)行簡單處理,這意味著只需要更淺的網(wǎng)絡(luò)。針對這種不同層次不同尺度的語義特征圖進(jìn)行不同深度的網(wǎng)絡(luò)處理,形成梯形的結(jié)構(gòu),如圖2 所示,本文將其稱為梯形金字塔網(wǎng)絡(luò),處理過程如式(10)所示:
其中:i=3,4,5,6,7 表示特征的層次;l=0,1,…,7-i表示網(wǎng)絡(luò)的層次;D表示下采樣;U表示上采樣;sw表示激活函數(shù)。sw的計算式如下所示:
在梯形金字塔網(wǎng)絡(luò)的最后一層,也就是輸出層,式(10)則變?yōu)槭剑?2),此處的l=8-i。
得益于文獻(xiàn)[35,46]的啟發(fā),本文既想在空間中搜索最佳的神經(jīng)網(wǎng)絡(luò)架構(gòu),又想訓(xùn)練時間和計算成本不至于太高,為此本文設(shè)計了一種權(quán)重因子,其表達(dá)式如式(13)所示:
其中:i=3,4,5,6,7;l=0,1,2,3;k=0,1,2。由于不同尺度的特征包含的語義信息量并不相同,對模型的輸出重要程度也不相同,因此這里的權(quán)重因子可以通過訓(xùn)練獲得最佳值。梯形金字塔網(wǎng)絡(luò)可表述如式(14)所示:
需要注意的是,本文提出梯形金字塔網(wǎng)絡(luò)中的特征圖分辨率是在變化的。舉個例子,如果輸出的SAR 圖像分辨率為640×1 024 像素,則P3的分辨率為80×128 像素,P7的分辨率為5×8 像素。換句話說,在第i級的特征圖具有輸入圖像的1/2i的分辨率。
注意力機(jī)制能夠有效判別信息是否重要。為盡量在模型性能與模型復(fù)雜度之間取得平衡,本文在梯形金字塔結(jié)構(gòu)中引入有效的通道注意力(Efficient Channel Attention,ECA)模塊[44]。在對特征圖進(jìn)行下采樣的過程中引入注意力模塊,從而使有用信息進(jìn)一步被增強(qiáng),無用噪聲進(jìn)一步被抑制。ECA-Net首先通過全局平均池化操作來聚合特征,然后通過內(nèi)核大小為k的快速一維卷積生成注意力通道權(quán)重。令特征圖為x∈RC×W×H,其中C、W、H分別為通道數(shù)、寬度和高度。Channel-wise 全局平均池化可表示為式(15)所示:
通道權(quán)重ω的計算式如式(16)所示:
其中:σ是Sigmoid 函數(shù)。卷積核的大小k由通道數(shù)C來確定,如式(17)所示:
其中:α、λ為人為設(shè)置的參數(shù);[x]odd表示距離x最近的奇數(shù)。整個注意力網(wǎng)絡(luò)如圖4 所示。
圖4 注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of attention network
在梯形金字塔結(jié)構(gòu)中引入改進(jìn)的ECA-Net,則有:
在SAR 圖像中,由于散射的模糊性和較低分辨率的影響,對目標(biāo)進(jìn)行精確定位往往存在較大難度。與此同時,以往的檢測網(wǎng)絡(luò)在定位與分類兩個分支之間缺少有效的聯(lián)系與相互作用,導(dǎo)致定位分支的精確度下降。如圖5 所示,由于船尾散射較弱,導(dǎo)致定位精確的圖5(a)中置信度反而小于定位次精確的圖5(b)。此外,對于高速航行的船舶,其尾部的水浪也會產(chǎn)生定位模糊,如圖5(c)和圖5(d)所示。
圖5 以往檢測網(wǎng)絡(luò)的結(jié)果Fig.5 Results of previous networks
針對上述問題,本文提出如圖6 所示的檢測網(wǎng)絡(luò),并稱其為定位分類耦合檢測頭(Positioning and Classification Coupling Detection Head,PCCDH)。xl表示各個尺度的特征圖,也就是梯形網(wǎng)絡(luò)的輸出。xl分別經(jīng)過4 層內(nèi)核大小為3×3 的卷積層,得到分類輸出和回歸輸出。圖6 中的Attention 結(jié)構(gòu)可見于圖4。與ECA-Net 不同的是,最終階段的逐元素乘積為與相乘。最終預(yù)測結(jié)果yl如下:
圖6 定位分類耦合檢測頭Fig.6 Positioning and classification coupling detection head
其中:Deform 表示可變形卷積網(wǎng)絡(luò)[47]。
可變形卷積通過在標(biāo)準(zhǔn)卷積的常規(guī)采樣網(wǎng)格中附加一個額外的偏置,使采樣網(wǎng)格可以任意地變形,從而增強(qiáng)卷積網(wǎng)絡(luò)的跨界信息抽取能力。網(wǎng)格的偏置是二維的,并且可通過另一個卷積層學(xué)習(xí)語義信息得到。令在特征圖xl∈RC×W×H中的規(guī)則網(wǎng)格為G,計算式如式(21)所示:
令網(wǎng)格偏置為{Δpj|j=1,2,…,|G|},則在任意位置p0處進(jìn)行可變形卷積的輸出為:
其中:v(p0)表示在p0處的像素值。當(dāng)p0+pi+Δpj表示一個分?jǐn)?shù)值時,本文采用雙線性差值獲得該位置的像素值。
在訓(xùn)練中本文使用的損失函數(shù)包含分類損失Lcls和回歸損失Lreg,表達(dá)式如式(23)所示:
采用焦點損失[19]作為分類損失Lcls,表達(dá)式如式(24)所示:
采用焦點損失可以在一定程度上緩解正負(fù)樣本不均衡的影響[48]。至于回歸損失Lreg,本文采用smooth L1 Loss 函數(shù),表達(dá)式如式(26)所示:
采用精度(Precision)、召回率(Recall)、f1-score、均值平均精度(mean Average Precision,mAP),包括mAP0.5:0.95、mAP0.5、mAP0.75來定量評估模型的性能,其中mAP0.5表示在閾值ξ=0.5 下的均值平均精度,以此類推。使用IIoU表示預(yù)測框與Ground Truth 的交并比,用TTP表示IIoU大于閾值ξ的檢測框數(shù)量,用FFP表示IIoU小于或者等于ξ的檢測框數(shù)量,用FFN表示沒有檢測到Ground Truth 的數(shù)量。各指標(biāo)的計算式如下:
本文將Precision 作為縱坐標(biāo),將Recall 作為橫坐標(biāo)繪制PR 曲線,并計算PR 曲線下的面積,其計算式如式(30)所示:
其中:Ω表示目標(biāo)的類別集合;N為集合Ω中元素數(shù)目。對于mAP0.5:0.95則有:
本節(jié)將展示實驗的具體結(jié)果并證明本文方法的有效性。
采用SSDD 數(shù)據(jù)集訓(xùn)練和測試算法性能。SSDD 數(shù)據(jù)集共有1 160 張圖像和2 456 個艦船。這些圖像分別來自RadarSat-2、TerraSAR 和Sentinel-1這3 種不同傳感器,具有HH、HV、VV、VH 共4 種極化方式,分辨率在1~15 m 之間,包含近岸地區(qū)、離岸海域等不同場景。本文將其分為訓(xùn)練集和測試集兩部分,其中訓(xùn)練集包含928 張圖片,測試集包含232 張圖片。首先對所有圖片進(jìn)行歸一化操作,之后將其左右翻轉(zhuǎn)。最后本文將每張圖片按其寬高比近似調(diào)整到128 像素的整數(shù)倍,但是不超過640×1 024分辨率。當(dāng)然,本文也會對訓(xùn)練標(biāo)簽與圖片進(jìn)行相同的處理。采用預(yù)訓(xùn)練的ResNet152 作為主干網(wǎng)絡(luò),并引入Adam 作為優(yōu)化器,其初始學(xué)習(xí)率設(shè)為1×10-5。鑒于圖片分辨率和GPU 顯存大小的限制,本文將批大小設(shè)為1,并通過8 次梯度累積得到與批大小為8時相同的結(jié)果。在訓(xùn)練網(wǎng)絡(luò)時,如果超過3 個epoch損失不再下降,將動態(tài)地調(diào)整學(xué)習(xí)率。本文實驗在Pytorch 1.6 框架中實現(xiàn),在NVIDIA 2070 Super 上實施。
本文共提出3 個模塊用于SAR 圖像的艦船目標(biāo)檢測。為分析和說明這些模塊的性能及其對模型的性能的影響,本文實施了幾組消融實驗。在控制變量的前提下,研究只改變某一模塊對實驗結(jié)果帶來的影響。表1 給出了各個模塊定量化的模型貢獻(xiàn)度,其中Precision,Recall,f1-score 均是在閾值ξ=0.5 時的數(shù)據(jù),相應(yīng)的PR 曲線如圖7 所示。
圖7 消融實驗PR 曲線Fig.7 PR curve of ablation experiment
表1 消融實驗結(jié)果Table 1 Results of ablation experiment %
由表1 可知,本文提出的2 個子模塊均可在不同程度上提高模型的檢測性能。與基線網(wǎng)絡(luò)相比,TFPN 模塊的引入明顯改進(jìn)了性能,在mAP0.5、mAP0.75兩個指標(biāo)上分別提高了1.860、6.174個百分點。在f1-score 指標(biāo)上TFPN 模塊相比基線網(wǎng)絡(luò)提高了3.137 個百分點。TFPN 模塊采用交叉結(jié)構(gòu),使語義信息可以很好地在網(wǎng)絡(luò)中流動和傳遞,其中的特征通過加權(quán)進(jìn)行融合,能夠有效篩選語義信息。PCCDH 模塊在基線網(wǎng)絡(luò)的基礎(chǔ)上mAP0.5、mAP0.75分別提高了1.740、3.943 個百分點。PCCDH 模塊側(cè)重于解決精準(zhǔn)定位的問題,因此它在mAP0.75上提升的性能幾乎是在mAP0.5上的兩倍。這意味著,本文提出的模塊可以很好地解決預(yù)測邊界框與Ground Truth 之間的定位偏移問題。
圖8 所示為有無TFPN 檢測模塊的結(jié)果,可以看出,當(dāng)同一場景具有多個不同尺度的目標(biāo)時,基線網(wǎng)絡(luò)往往存在漏檢的情況。相反,TFPN 模塊可以很好地處理多尺度目標(biāo),尤其是場景中的小目標(biāo)。這意味著相比于FPN 模塊,本文提出的TFPN 模塊能夠更有效地抽取多尺度物體的語義信息。
圖8 有無TFPN 檢測模塊的結(jié)果對比Fig.8 Comparison of results with and without TFPN detection module
圖9 所示為有無PCCDH 檢測模塊的結(jié)果對比(彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版本),其中紅色方框代表沒有檢測到或被錯誤檢測的艦船目標(biāo),橙色方框代表不夠精確的檢測結(jié)果(這種不夠精確主要是將艦船運(yùn)動的尾跡也當(dāng)做了艦船的一部分)。由圖9 可以看出,加入PCCDH 模塊后,模型對緊密接觸的物體可以辨別和區(qū)分。同時,對高速運(yùn)動的目標(biāo),其尾跡和物體本身也能被模型甄別出來。在綜合TFPN 模塊和PCCDH 模塊后,模型的性能達(dá)到了最優(yōu),mAP0.5為94.948%,mAP0.75為68.121%。TFPN 模塊能有效聚合語義特征,PCCDH 模塊能精準(zhǔn)地定位目標(biāo)位置信息,這兩種改進(jìn)措施加到一起,進(jìn)一步提高了網(wǎng)絡(luò)的表現(xiàn)性能。
圖9 有無PCCDH 檢測模塊的結(jié)果對比Fig.9 Comparison of results with or without PCCDH detection module
本文提出兩種改進(jìn)措施來提高網(wǎng)絡(luò)對SAR 圖像物體檢測性能,并與現(xiàn)有網(wǎng)絡(luò)[49]進(jìn)行比較,包括FasterRCNN、RetinaNet、CascadeRCNN 等網(wǎng)絡(luò),結(jié)果如表2 所示,相應(yīng)的PR 曲線見圖10。
由表2 可知,本文網(wǎng)絡(luò)的f1-score、mAP0.5、mAP0.75值分別超過其他網(wǎng)絡(luò)4、2、1 個百分點以上,顯著提高了各種場景下的船舶檢測性能。對圖5 所描述的情況,本文網(wǎng)絡(luò)取得了一定程度上的性能提升,這一點可以從圖10 中看出(意味著更加嚴(yán)格的定位標(biāo)準(zhǔn)),本文網(wǎng)絡(luò)的PR 曲線位于最外圍,這意味著本文網(wǎng)絡(luò)具有最佳的性能。此外,對于多尺度的小目標(biāo)問題,本文網(wǎng)絡(luò)可以得到更精確的檢測結(jié)果。
圖10 不同網(wǎng)絡(luò)的PR 曲線Fig.10 PR curves of different networks
由表2 可知,無錨網(wǎng)絡(luò)FCOS 和YOLOv3 的檢測性能相較于有錨網(wǎng)絡(luò)更差,這是因為預(yù)先設(shè)置的錨點包含了目標(biāo)尺寸的先驗信息,從而降低了訓(xùn)練的難度。表2 中幾種網(wǎng)絡(luò)的實際檢測效果如圖11 所示。
表2 不同網(wǎng)絡(luò)的定量檢測性能比較Table 2 Comparison of quantitative detection performance of different networks %
圖11 不同網(wǎng)絡(luò)的檢測結(jié)果對比Fig.11 Comparison of detection results of different networks
對于近岸場景,傳統(tǒng)網(wǎng)絡(luò)很容易受到干擾而檢測出許多并不存在的船舶。這一點可以從圖11 中看出,圖11(c)和圖11(d)顯示出很多錯誤的檢測結(jié)果。而且其他網(wǎng)絡(luò)并不能很好地區(qū)分船舶的邊界,導(dǎo)致實際上只有一個船舶,檢測器卻檢測出多個。圖11(e)的檢測結(jié)果不夠精確,這一點可以從圖中的檢測置信度看出(圖中方框上的數(shù)字表示檢測置信度),而本文網(wǎng)絡(luò)能很好地解決這些問題。對于其他不同場景,本文將在下一節(jié)討論。
本節(jié)將定量分析模型在不同情況下的性能以及模型的魯棒性。
3.4.1 背景干擾對模型性能的影響
由于檢測環(huán)境復(fù)雜,不同背景散射會對模型造成不同影響[50-51]。已知在對船舶檢測時,內(nèi)陸的背景干擾要遠(yuǎn)超過近海地區(qū),導(dǎo)致近岸船舶的檢測比近海船舶的檢測更加困難。本文分別對兩種情況下的模型性能進(jìn)行對比,結(jié)果如表3 所示。由表3 可知,在近岸場景下,模型的性能會受到一定程度的影響。但相較于基線網(wǎng)絡(luò),本文網(wǎng)絡(luò)在mAP0.5、f1-score 指標(biāo)上分別提高了16.75、14.65 個百分點。造成在近岸場景下本文網(wǎng)絡(luò)性能下降的原因主要有2 個:
表3 不同場景下的檢測性能對比Table 3 Comparison of detection performance indifferent scenarios %
1)近岸地區(qū)的船舶一般比較密集,導(dǎo)致船舶之間的邊界不清晰;
2)近岸地區(qū)的港口等環(huán)境造成的散射對模型區(qū)分目標(biāo)造成了一定的困難。
3.4.2 網(wǎng)絡(luò)寬度對模型性能的影響
網(wǎng)絡(luò)寬度是影響模型性能的另一個超參數(shù)。網(wǎng)絡(luò)寬度越大,模型的參數(shù)越多,檢測精度越高,但是泛化能力越低;反之,網(wǎng)絡(luò)寬度越小,模型的參數(shù)越少,檢測精度越低,但是泛化能力越高。為了在檢測精度與模型泛化能力之間取得平衡,本文選取模型寬度為256α,并給出在不同α下模型的性能曲線,如圖12 所示。
圖12 網(wǎng)絡(luò)寬度對模型性能的影響Fig.12 Influence of network width on model performance
由圖12 可知,當(dāng)α小于1 時,隨著α的增大,模型性能也在增強(qiáng)。當(dāng)α大于1 時,隨著α的增大,模型的性能有小幅下降,這是因為模型參數(shù)過多,導(dǎo)致模型過擬合。由圖12(a)可知,當(dāng)模型寬度為256 時,模型具有最佳性能。由圖12(b)可知,隨著網(wǎng)絡(luò)寬度的增大,模型參數(shù)也在變多,導(dǎo)致檢測所耗時間更長。
本文提出一種能在復(fù)雜場景下對SAR 圖像進(jìn)行多尺度目標(biāo)檢測的網(wǎng)絡(luò),通過設(shè)計梯形特征金字塔模塊TFPN,并采用交叉結(jié)構(gòu)代替跳連結(jié)構(gòu),提高泛化能力和語義表征能力。將改進(jìn)的ECA 模塊嵌入到TFPN 模塊中,提高檢測性能。引入可訓(xùn)練的權(quán)重因子,使不同層級間的特征能更好地進(jìn)行融合,并在定位分類耦合檢測頭中加入可分離卷積,以進(jìn)行二次校準(zhǔn),提高檢測精度。實驗結(jié)果表明,與FasterRCNN、CascadeRCNN、RetinaNet 等主流網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)顯著提高了檢測精度和魯棒性。下一步將通過模型剪枝、輕量化網(wǎng)絡(luò)設(shè)計等方法,在保證精度的前提下,提高SAR 圖像艦船檢測模型的運(yùn)算速度。