摘 要:針對SAR 圖像船舶檢測任務(wù)在船舶組合和船舶融合場景下低檢測精度的問題,提出了一種輕量化船舶檢測算法———RGDET-Ship,有效提高了SAR 圖像在復(fù)雜場景下的船舶檢測精度。該算法的創(chuàng)新點(diǎn)包括:① 構(gòu)建基于改進(jìn)ResNet的基礎(chǔ)主干網(wǎng)絡(luò),增強(qiáng)深淺網(wǎng)絡(luò)早特征融合,保留更豐富的有效特征圖,并利用RegNet 進(jìn)行模型搜索得到一簇最優(yōu)結(jié)構(gòu)子網(wǎng)絡(luò)RegNet and Early-Add (RGEA),實(shí)現(xiàn)模型的輕量化;② 在FPN Neck 基礎(chǔ)上,結(jié)合EA-fusion 策略設(shè)計(jì)出FPN and EarlyAdd Fusion (FEAF)Neck 網(wǎng)絡(luò),進(jìn)一步加強(qiáng)深淺特征晚融合,提高中大船舶目標(biāo)特征的提??;③ 通過細(xì)粒度分析改進(jìn)RPN網(wǎng)絡(luò)得到Two-RPN (TRPN) 網(wǎng)絡(luò),提高模型的檢測粒度和預(yù)測框準(zhǔn)確性;④ 引入多任務(wù)損失函數(shù)———Cross Entropy Lossand Smooth L1 Loss (CE_S),包括分類任務(wù)和回歸任務(wù),進(jìn)一步提升檢測性能。通過在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集SSDD 上進(jìn)行大量實(shí)驗(yàn),驗(yàn)證了RGDET-Ship 模型的有效性和健壯性。實(shí)驗(yàn)結(jié)果表明,相較于Faster RCNN 和Cascade RCNN,RGDET-Ship 在mAP_ 0. 5:0. 95 上分別提升了5. 6% 和3. 3% ,在AR 上分別提升了9. 8% 和7. 6% 。
關(guān)鍵詞:船舶檢測;深淺特征融合;細(xì)粒度設(shè)計(jì);RGDET-Ship
中圖分類號:TP391. 41 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
文章編號:1003-3106(2024)05-1123-13
0 引言
SAR 圖像船舶檢測是海上目標(biāo)檢測中一項(xiàng)重要且具有挑戰(zhàn)性的工作。船舶檢測可以提高許多海上任務(wù)的效率,有助于在海上救災(zāi)搶險(xiǎn)和海洋安全監(jiān)測領(lǐng)域中快速有效地鎖定可疑目標(biāo)并采取相應(yīng)措施[1-2]。
受益于深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的有效特征表示,許多基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法實(shí)現(xiàn)了較好的效果[3-4]。然而準(zhǔn)確的船舶檢測仍然存在一些挑戰(zhàn)。例如,SAR 圖像中船舶與非船舶物體具有不同的語義,但具有相似的特征(例如白色光點(diǎn))。如果沒有高級語義和全局上下文,很難區(qū)分它們。另一方面,由于SAR 圖像中小尺寸船舶通常是小目標(biāo),特征單一,大尺寸船舶又具有較多的局部特征,若圖像中存在多尺寸的船舶信息,高級語義則很難準(zhǔn)確檢測所有船舶。因此,低級和高級特征信息對于準(zhǔn)確的船舶檢測是互補(bǔ)的?,F(xiàn)有的SAR 船舶要么僅對小船舶目標(biāo)進(jìn)行了快速檢測[4-6],要么構(gòu)建更深層網(wǎng)絡(luò)對中大尺寸船舶進(jìn)行精確的檢測[3,7-8]。多數(shù)研究并沒有結(jié)合這2 個特性,從而導(dǎo)致在不同場景下會有檢測不準(zhǔn)確的問題。船舶檢測中的其他常見問題是多船舶組合行駛和碼頭干擾。碼頭干擾是由于船舶與碼頭高度融合導(dǎo)致船舶很難被識別。多船舶組合行駛是由于多只船舶組合在一起導(dǎo)致整體結(jié)構(gòu)失去了船舶的典型特征。
為克服這些缺點(diǎn),本文提出了RGDET-Ship 模型,一種增強(qiáng)特征融合并細(xì)化檢測粒度的輕量化SAR圖像船舶檢測算法。具體來說,將包含一只或多只船舶的圖像作為輸入,首先構(gòu)建RegNet and Early-Add(RGEA)主干網(wǎng)絡(luò)從SAR 船舶圖像中提取不同深度的圖像特征;然后,構(gòu)建FPN and Early Add Fusion(FEAF)網(wǎng)絡(luò)結(jié)合各個特征層關(guān)系生成新的全局記憶特征圖;其次,設(shè)計(jì)Two-RPN(TRPN)區(qū)間建議生成網(wǎng)絡(luò),生成可預(yù)測的特征圖;最終,構(gòu)建多任務(wù)損失函數(shù),分類損失和回歸損失。實(shí)驗(yàn)結(jié)果表明,RGDET-Ship 船舶檢測模型很大程度上優(yōu)于現(xiàn)有的方法,在SSDD[9]數(shù)據(jù)集上mAP =0. 650,在HRSID[10]數(shù)據(jù)集上mAP =0. 690,FPS =14。
1 相關(guān)算法介紹
與小目標(biāo)檢測和網(wǎng)絡(luò)深度擴(kuò)建不同[5,8],RGDET-Ship檢測是通過擴(kuò)大感受野和細(xì)化檢測粒度來精準(zhǔn)檢測定位SAR 圖像中較為復(fù)雜情形下的所有船舶。以下是實(shí)現(xiàn)本文算法的前期積累。
Zhang 等[11]使用深度卷積和逐點(diǎn)卷積相結(jié)合替換原普通卷積,有效減少了檢測網(wǎng)絡(luò)中的參數(shù)量;文獻(xiàn)[8]在FPN 網(wǎng)絡(luò)結(jié)構(gòu)中通過巧妙組合感受野模塊(RFB)和卷積塊注意力模塊(CBAM)有效增強(qiáng)了特征融合操作;文獻(xiàn)[12]通過設(shè)計(jì)一種新型雙向特征融合模塊(bi-DFM)有效地聚合了多尺度特征,從而增強(qiáng)了深淺特征層的融合;Vu 等[13]對RPN 網(wǎng)絡(luò)進(jìn)行了細(xì)粒度分析后設(shè)計(jì)了一種用于提高區(qū)域建議框質(zhì)量的網(wǎng)絡(luò)Cascade RPN。此外,SSDD 數(shù)據(jù)集由Zhang 等[9]首次提出,并提供了相應(yīng)的船舶真實(shí)框和標(biāo)簽信息,Wei 等[10]提出了名為HRSID 的新SAR 圖像船舶數(shù)據(jù)集,該數(shù)據(jù)集包含了更多場景下的船舶圖像信息。
在傳統(tǒng)目標(biāo)檢測過程中隨著網(wǎng)絡(luò)的加深,出現(xiàn)了訓(xùn)練集準(zhǔn)確率下降的現(xiàn)象。出現(xiàn)此類現(xiàn)象的原因是在傳統(tǒng)的卷積操作全連接過程中信息的傳遞會存在信息丟失和消耗等問題,同時(shí)還會導(dǎo)致梯度爆炸或消失,從而阻礙了網(wǎng)絡(luò)收斂,無法訓(xùn)練。ResidualNeural Network(ResNet)由He 等[14]提出,通過使用ResNet Unit 成功訓(xùn)練出了152 層的神經(jīng)網(wǎng)絡(luò)。加入了直連通道(Highway Network)思想的ResNet 結(jié)構(gòu)可以極快地加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練且模型準(zhǔn)確率也有較大提升。
在目標(biāo)檢測網(wǎng)絡(luò)中,識別不同大小的物體是網(wǎng)絡(luò)實(shí)現(xiàn)檢測的基本需求。Lin 等[15]提出了FPN 金字塔特征提取網(wǎng)絡(luò)結(jié)構(gòu),它是一種自頂向下的特征融合方法。首先通過將更小的目標(biāo)放在更高分辨率的卷積特征圖上預(yù)測,將大目標(biāo)分配到分辨率較低的預(yù)測層進(jìn)行預(yù)測;其次進(jìn)行連續(xù)上采樣和跨層融合機(jī)制;最終使得輸出的特征兼具底層視覺信息和高層語義信息。
2 算法改進(jìn)
2 算法改進(jìn)
本文提出一種新的細(xì)化檢測粒度并增強(qiáng)深淺特征融合的SAR 圖像船舶輕量化檢測模型———RGDET-Ship。RGDET-Ship 由4 個主要部分組成:① 擴(kuò)大感受野增強(qiáng)深淺特征早融合的RGEA 主干網(wǎng)絡(luò);② 用于增強(qiáng)深淺特征晚融合的FEAF Neck 網(wǎng)絡(luò);③ 具有更高細(xì)粒度的候選區(qū)生成器TRPN 網(wǎng)絡(luò);④ 用于計(jì)算分類和回歸誤差的Cross EntropyLoss and Smooth L1 Loss(CE_S)損失函數(shù)。本文提出的RGDET-Ship 模型總體設(shè)計(jì)架構(gòu)如圖1 所示。
2. 1 RGEA 主干網(wǎng)絡(luò)
在主干網(wǎng)絡(luò)特征信息傳遞過程中,底層特征分辨率更高,包含更多位置和細(xì)節(jié)信息但相對卷積更少,噪聲更多,而高層特征具有更強(qiáng)語義信息但分辨率低,對細(xì)節(jié)的感知能力較差。融合不同尺度的特征是提高檢測性能的一個重要手段。本文提出了Early Add-fusion(EA-fusion)早融合策略,通過add并行連接方式將2 個特征向量組合成復(fù)合向量,對于輸入特征x 和y,輸出特征如下:
z = αx + βy, (1)
式中:α 和β 為權(quán)重值,x 和y 為輸入特征,z 為輸出特征。
本文以ResNet[14]為關(guān)鍵組件,首先使用可變性卷積代替原有的普通卷積來擴(kuò)大特征圖的感受野獲得更多特征信息。
其次使用EA-fusion 結(jié)合自注意力機(jī)制Attention 對stage1 特征層和stage3 特征層以及stage2 特征層和stage4 特征層進(jìn)行融合從而增強(qiáng)深淺特征早融合,給定輸入圖像x∈R3×H×W ,通過RGEA的4 層特征層后依次輸出特征圖形狀滿足:
式中:i 表示當(dāng)前階段數(shù),i∈{1,2,3,4};C(i)表示當(dāng)前特征圖的通道數(shù),D(i)表示當(dāng)前特征圖的長寬比原輸入圖片的長寬減少多少倍。
最后使用RegNet 搜索策略[16]在上述模型中進(jìn)行搜索最優(yōu)的網(wǎng)絡(luò)設(shè)計(jì)空間,從而得到一簇性能較好的簡單網(wǎng)絡(luò)子模型RGEA。使用RegNet 搜索策略生成較好的網(wǎng)絡(luò)子模型的過程如圖2 所示。
2. 2 FEAF Neck 網(wǎng)絡(luò)
在主干網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)之后本文構(gòu)建了以FPN為基礎(chǔ)改進(jìn)的FEAF 特征融合網(wǎng)絡(luò)層。FPN 是典型的深淺特征晚融合策略[15]。將從主干網(wǎng)絡(luò)中提取到的多尺度特征信息進(jìn)行融合,進(jìn)而提高目標(biāo)檢測的精度。為盡可能多地提取到有效特征信息,本文在晚融合操作前依次對stage2、stage3 和stage4 的輸出特征層再進(jìn)行了EAfusion 融合,實(shí)現(xiàn)了增強(qiáng)深淺特征晚融合的FEAF 網(wǎng)絡(luò)。
如圖1 所示,FEAF 首先把RGEA 輸出的4 層特征圖都?xì)w為一個stage,特征圖形狀表現(xiàn)為x∈R256×H/D×W/D(D∈{4,8,16,32})并結(jié)合EA-fusion 策略進(jìn)行特征深淺早融合保留更多的特征信息。
其次進(jìn)行2 倍的雙線性插值上采樣操作,對應(yīng)特征圖的高和寬滿足下式:
Hout = [Hin × scale_factor], (5)
Wout = [Win × scale_factor], (6)
式中:Hin 表示輸入特征圖的高,Hout 表示輸出特征圖的高,Win 表示輸入特征圖的寬,Wout 表示輸出特征圖的寬,scale_factor 表示指定輸出為輸入的多少倍數(shù)。
最后結(jié)合EA-fusion 策略進(jìn)行橫向連接將處理好的RGEA 輸出結(jié)果與相同上采樣得到的特征層進(jìn)行融合,并使用3×3 標(biāo)準(zhǔn)卷積消除混疊效應(yīng)生成可預(yù)測的特征圖。
2. 3 TRPN 區(qū)間建議生成網(wǎng)絡(luò)
RPN[17]用于篩選出可能會存在目標(biāo)的框。它依靠在共享特征圖上的一個滑動窗口,為每個位置生成9 種anchor,并通過卷積回歸當(dāng)前anchor 和真實(shí)框之間的差值來進(jìn)行精調(diào),但因?yàn)檎鎸?shí)框與anchor 是非對齊的,所以會出現(xiàn)大量回歸誤差。為了緩解對齊問題,本文設(shè)計(jì)了TRPN 網(wǎng)絡(luò),框架如圖2所示。
將回歸序列f t,分類器g,以及特征圖x 作為輸入?yún)?shù),并在特征圖圖像上均勻初始化錨點(diǎn)集1 ={a1 }。在進(jìn)行生成區(qū)間建議框過程中,首先T1 部分對特征圖x 進(jìn)行了標(biāo)準(zhǔn)RPN 操作得到了初始化錨點(diǎn)a,在特征圖上進(jìn)行精調(diào)后的anchor 定義為a并進(jìn)行了回歸預(yù)測;其次T2 部分通過式(7)可計(jì)算得出特征與anchor 的偏移1 = {o1 },并對特征圖x進(jìn)行了膨脹卷積,膨脹系數(shù)r 由o 的大小來決定。最終進(jìn)行使用特征圖x 和偏移o 來計(jì)算得分s =g(x,o)并使用NMS 操作從= {a}和= {s}中導(dǎo)出區(qū)間建議框,該建議框會映射到EAFPN 輸出的特征圖中得到模型的預(yù)測結(jié)果。
o = octr + oshp , (7)
式中:octr = (ax -px,ay -py)為中心點(diǎn)偏移,oshp 為形狀偏移量,由anchor 的形狀和卷積核大小決定。
2. 4 CE_S Loss 損失函數(shù)
目標(biāo)檢測任務(wù)中的損失計(jì)算大多由兩部分組成:船舶目標(biāo)預(yù)測與真實(shí)目標(biāo)之間的分類損失Lcls以及船舶目標(biāo)檢測框的回歸損失Lbox。本文的CE_S多任務(wù)損失函數(shù)由交叉熵分類損失和Smooth L1 回歸損失組合而成:
CE_S = LCE + LSmooth_L1 , (8)
式中:LCE 表示交叉熵分類損失,LSmooth_L1 表示Smooth L1 回歸損失。
分類交叉熵?fù)p失函數(shù)如下:
LCE = CELoss(Xi,Yi) = - Σcj = 1yij × lb(pij), (9)
LCE = CELoss(Xi,Yi) = - Σcj = 1yij × lb(pij), (9)式中:c 表示類別數(shù),yij 表示第i 個樣本是否屬于類別j,如果屬于則yij = 1,否則yij = 0;pij 表示第i 個樣本屬于類別j 的概率。本文采用SoftMax 函數(shù)得到樣本屬于每種類別的概率pij。
對于預(yù)測框的回歸損失,本文采用Smooth L1損失函數(shù)。本文的船舶檢測屬于單樣本,定義x 為預(yù)測值和真實(shí)值的差值,則對應(yīng)的Smooth L1 損失函數(shù)可表示為:
3 實(shí)驗(yàn)與分析
3. 1 數(shù)據(jù)集
本文在SSDD 數(shù)據(jù)集[9]和HRSID 數(shù)據(jù)集[10]上訓(xùn)練和測試船舶檢測模型。模型訓(xùn)練過程中使用的SSDD 數(shù)據(jù)集共1 160 張SAR 船舶圖像,本文按7 ∶2 ∶ 1 的比例劃分出了訓(xùn)練集、驗(yàn)證集和測試集。HRSID 作為模型定量分析的實(shí)驗(yàn)數(shù)據(jù)集。為滿足SSDD 與HRSID 數(shù)據(jù)集格式相同,本文統(tǒng)一將圖像標(biāo)簽設(shè)置為COCO 數(shù)據(jù)格式。
通過對SSDD 數(shù)據(jù)集中的每張船舶圖像進(jìn)行統(tǒng)計(jì)分析得出以下3 點(diǎn)船舶特點(diǎn):① 如圖3(a)所示,數(shù)據(jù)集中大多數(shù)船舶均為小尺寸目標(biāo),也存在有少量的大尺寸船舶目標(biāo),即船舶尺寸分布不均衡,檢測大尺寸的船舶目標(biāo)模型會出現(xiàn)欠擬合現(xiàn)象;② 如圖3(b)所示,只存在一只船舶的圖像數(shù)量最多,其余圖像中平均存在2 ~ 3 只船舶,也存在少數(shù)圖像包含大量船舶元素,可以看出船舶空間分布不均衡,在檢測含有大量船舶目標(biāo)的圖像時(shí)會出現(xiàn)漏檢現(xiàn)象;③ 如圖3(c)和圖3(d)所示,船舶目標(biāo)框多為小方型和扁長型且anchor 框的寬高比率集中在2 上,由此可設(shè)置船舶檢測模型中anchor 比例初始值為[0. 5,1. 0,2. 0]。
為避免模型出現(xiàn)大目標(biāo)船舶樣本欠擬合現(xiàn)象,以及由于圖像中船舶空間分布不均衡而出現(xiàn)漏檢現(xiàn)象,本文采用縮放、翻轉(zhuǎn)、旋轉(zhuǎn)以及添加各類噪聲的方式對SSDD 數(shù)據(jù)集進(jìn)行了數(shù)據(jù)增強(qiáng),從而平衡數(shù)據(jù)樣本。數(shù)據(jù)集的各類增強(qiáng)效果如圖4 所示。
3. 2 評價(jià)指標(biāo)與實(shí)驗(yàn)環(huán)境詳細(xì)信息
為評估RGDET-Ship 算法在SAR 圖像船舶檢測任務(wù)中的性能,本文采用了準(zhǔn)確率(P )、召回率(R)、平均精度(mAP)以及平均召回率(AR)作為評估指標(biāo)。構(gòu)成目標(biāo)檢測評價(jià)指標(biāo)的基本參數(shù)是真陽性(TP)、假陽性(FP)和假陰性(FN)。TP 表示預(yù)測陽性目標(biāo)和實(shí)際是陽性目標(biāo)的數(shù)量,即當(dāng)且僅當(dāng)RGDET-Ship 準(zhǔn)確地檢測并定位船舶目標(biāo)時(shí),結(jié)果才被視為真陽性;FP 表示預(yù)測陽性目標(biāo)但實(shí)際是陰性目標(biāo)的數(shù)量;FN 表示預(yù)測的陰性目標(biāo)但實(shí)際是陽性目標(biāo)的數(shù)量。
實(shí)驗(yàn)首先使用coco 格式數(shù)據(jù)集訓(xùn)練初始化網(wǎng)絡(luò),其次使用batch_size 為16 的SGD 優(yōu)化器對模型進(jìn)行了30 輪的訓(xùn)練。其中,主干網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)為0. 02,動能為0. 9,數(shù)據(jù)集圖像歸一化后的均值為[0. 155 909 70,0. 155 913 68,0. 155 889 38],方差為[0. 108 753 29,0. 108 760 05,0. 108 695 34]。本文所有實(shí)驗(yàn)均在NVIDIA GeForce RTX 3060 GPU上進(jìn)行。
3. 3 與最新技術(shù)的比較
RGDET-Ship 與各檢測類型中SAR 圖像船舶檢測方法的主要定量比較如表1 所示。具體來說,由于各大類目標(biāo)檢測算法的檢測機(jī)制有所不同,因此本文進(jìn)行了分類比較。
在Anchor-free 類型中使用FCOS[18]和Corner-Net[19]模型作為基準(zhǔn)模型的SAR 船舶檢測算法較多,其中CP-FCOS[12]以FCOS 框架為基礎(chǔ),重構(gòu)建了網(wǎng)絡(luò)層并加入類別位置(CP)模塊層用于優(yōu)化網(wǎng)絡(luò)中回歸分支的特征,有效提升了模型性能但同時(shí)也增加了模型層數(shù)。在單階段檢測類型中,多數(shù)學(xué)者受YOLO 系列算法的啟發(fā)開始自主實(shí)現(xiàn)相關(guān)的檢測模型,CRAS-YOLO[5]和FASC-Net[6]基于一階段算法思想構(gòu)建的網(wǎng)絡(luò)模型,在小目標(biāo)檢測任務(wù)上都有著出色的表現(xiàn),但在整體精度AP_0. 5:0. 95 上并無明顯增長。在多階段檢測類型中,多數(shù)研究使用Faster RCNN[17]和Cascade RCNN[20]為基準(zhǔn)模型進(jìn)行改進(jìn),CRTransSar[7]以Swin Transfromer 為基本框架提出了一種基于上下文聯(lián)合表示學(xué)習(xí)的主干網(wǎng)絡(luò),但模型體積和參數(shù)量過于龐大。PVTSAR[8]的突出優(yōu)勢在于使用二階段算法有效地提高了小目標(biāo)檢測的精度。與目前存在的多種目標(biāo)檢測方法相比,本文的RGDET-Ship 作為二階段SAR 圖像船舶檢測模型仍然具有較好的性能,能夠在保持小目標(biāo)檢測效率的同時(shí)提高大目標(biāo)檢測模型。
3. 4 消融研究
本節(jié)進(jìn)行了大量實(shí)驗(yàn),以證明RGDET-Ship 船舶檢測模型的有效性。消融實(shí)驗(yàn)使用的基礎(chǔ)數(shù)據(jù)集是SSDD 數(shù)據(jù)集。
3. 4. 1 RGEA 主干網(wǎng)絡(luò)
為提高模型對SAR 圖像船舶的特征提取能力,本文在ResNet50 基礎(chǔ)上提出了RGEA 主干網(wǎng)絡(luò)。該主干網(wǎng)絡(luò)主要包含了3 處改進(jìn):① 使用膨脹卷積并結(jié)合EA-fusion 策略實(shí)現(xiàn)深淺特征早融合,從而保留更多有效信息;② 添加自注意力機(jī)制,使得模型具有捕捉遠(yuǎn)距離上下文信息的能力,從而有效檢測圖像占比較大的船舶目標(biāo);③ 使用RegNet 網(wǎng)絡(luò)搜索策略在模型中進(jìn)行搜索最優(yōu)的網(wǎng)絡(luò)設(shè)計(jì)空間,從而得到一簇性能較好的網(wǎng)絡(luò)子模型。以下是對3 處改進(jìn)的消融實(shí)驗(yàn)分析。
① EA-fusion 策略參數(shù)匹配。本文提出的EA-fusion 融合策略由2 個主要特征向量組成:淺層特征向量和當(dāng)前層的特征向量。具體地,將包含了更豐富信息的淺層特征向量與相較淺層特征具有更高的語義解釋性的深層特征向量(當(dāng)前層的特征向量)進(jìn)行融合操作。在這種情況下,本文進(jìn)行消融實(shí)驗(yàn)以進(jìn)一步得到相對較好的結(jié)合方式:淺層特征向量占比大還是深層特征向量占比大?如表2 所示,在α = 1,β = 2 的情況下獲得最佳結(jié)果,這表明在融合過程中,當(dāng)前層的特征向量相較于淺層特征向量依然占主導(dǎo)作用。
② 自注意力機(jī)制。自注意力機(jī)制作為RGEA主干網(wǎng)絡(luò)中與EA-fusion 融合策略相結(jié)合的重要組成部分,具有捕捉遠(yuǎn)距離上下文信息的能力。對于自注意力機(jī)制,使用熱力圖進(jìn)行比較,以驗(yàn)證引入自注意力的有效性。如圖5 所示,使用典型的大型船舶和??康拇白鳛轵?yàn)證圖像,可以看出有自注意力機(jī)制的模型比沒有自注意力機(jī)制的模型能提取更有效的特征信息,在典型大船舶的熱力圖中,添加了自注意力機(jī)制的模型可以更好地將船舶輪廓展示出來,在多船舶的熱力圖中,添加了自注意力機(jī)制的模型可以更好地區(qū)分船舶與非船舶物體部分。
③ RegNet 網(wǎng)絡(luò)搜索策略。RegNet 網(wǎng)絡(luò)搜索策略通過對模型進(jìn)行搜索最優(yōu)的網(wǎng)絡(luò)設(shè)計(jì)空間,并從中得到一簇性能較好的網(wǎng)絡(luò)子模型。在相同的訓(xùn)練設(shè)計(jì)和FLOPs 條件下,將結(jié)合了RegNet[16]網(wǎng)絡(luò)搜索策略的檢測模型與原檢測模型進(jìn)行模型性能分析,如表3 所示。
由表3 可以看出,RegNet 網(wǎng)絡(luò)搜索策略在SAR圖像船舶檢測任務(wù)中表現(xiàn)很出色。
3. 4. 2 FEAF Neck 網(wǎng)絡(luò)
特征金字塔FPN 網(wǎng)絡(luò)[15],主要用于提取不同尺度特征圖并提供給后面的網(wǎng)絡(luò)執(zhí)行預(yù)測任務(wù)。為驗(yàn)證FEAF 模塊在SAR 船舶檢測模型中的有效貢獻(xiàn),本文將FEAF 與現(xiàn)有的各類主流Neck 網(wǎng)絡(luò)進(jìn)行了對比實(shí)驗(yàn),如表4 所示,展示了不同Neck 網(wǎng)絡(luò)在SSDD 數(shù)據(jù)集上的表現(xiàn)。
由表4 可知,本文設(shè)計(jì)的FEAF 網(wǎng)絡(luò)在SAR 圖像船舶檢測任務(wù)中有較好的優(yōu)勢。使用主流改進(jìn)的CARFPN 和PAFPN 都有明顯的精度下降,導(dǎo)致此結(jié)果的原因是此類數(shù)據(jù)集屬于單色簡單目標(biāo)類型,在進(jìn)行特征晚融合過程中若進(jìn)行過多卷積操作反而會丟失更多的有效特征信息。相反,FEAF 中通過結(jié)合EA-fusion 策略豐富了輸入特征信息,從而FEAF可提取到更多的有效特征信息。
3. 4. 3 TRPN 區(qū)間建議生成網(wǎng)絡(luò)
為細(xì)化RGDET-Ship 模型的檢測粒度,本文提出的TRPN 建議區(qū)間生成網(wǎng)絡(luò),主要通過設(shè)計(jì)2 個主從關(guān)系的RPN 來生成較高質(zhì)量的建議框。本文將TRPN 與現(xiàn)有各類主流RPN 網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn)。不同RPN 網(wǎng)絡(luò)在SSDD 數(shù)據(jù)集上的表現(xiàn)如表5 所示。
區(qū)域生成網(wǎng)絡(luò)RPN 主要用于篩選出可能會有目標(biāo)的框。由表5 可得,基于RPN 改進(jìn)的2 類主流網(wǎng)絡(luò)CRPN 和GARPN 在本實(shí)驗(yàn)中均有較好的表現(xiàn)。CRPN 專注于強(qiáng)調(diào)anchor 的對齊規(guī)則,使用自適應(yīng)卷積來精調(diào)每個階段的anchor。GARPN 專注于判斷目標(biāo)點(diǎn)概率是否超出閾值進(jìn)而調(diào)整anchor,GARPN 相較于CRPN 大尺寸船舶定位框更準(zhǔn)確。本文通過結(jié)合二者優(yōu)點(diǎn)而設(shè)計(jì)的TRPN 擁有2 個主從關(guān)系的RPN,使用anchor 對齊規(guī)則對預(yù)測框的位置進(jìn)行精調(diào),并將擁有更高閾值的船舶預(yù)測框送入第2 個階段再次進(jìn)行細(xì)調(diào)。最終TRPN 在SAR 圖像船舶檢測任務(wù)中擁有更突出的表現(xiàn)。
3. 4. 4 CE_S 損失函數(shù)
為驗(yàn)證CE_S 損失函數(shù)在RGDET-Ship 模型上的有效性,本文進(jìn)行了如圖6 所示的3 組對比實(shí)驗(yàn)。由圖6(a)可知,在分類損失中使用Focal Loss 有顯著優(yōu)勢,模型收斂速度也快;由圖6 (b)可以看出Smooth L1 Loss 在模型訓(xùn)練中充分發(fā)揮了其優(yōu)勢;圖6(b)將CE Loss 和Focal Loss 分別結(jié)合SmoothL1 Loss 進(jìn)行了總圖損失的比較,Focal Loss 和Smooth L1 Loss 相結(jié)合的效果與CE Loss 和SmoothL1 Loss 相結(jié)合的總體損失相似。
如表6 所示,Focal Loss 雖然在圖6(a)樣本分類損失計(jì)算中有較好的收斂性和表現(xiàn),但精度相較于用CE Loss 訓(xùn)練模型的結(jié)果有明顯的下降。在自然圖像檢測中,Focal Loss 從樣本難度分類角度出發(fā),使得Loss 聚焦于難分樣本,從而解決了樣本非平衡的問題,同時(shí)提高了自然圖像檢測模型的整體性能。然而本文數(shù)據(jù)集中有一個明顯的特點(diǎn),即船舶目標(biāo)和非船舶目標(biāo)物體差異較小并且噪聲干擾情況下,船舶形狀也會發(fā)生變化,在Focal Loss 的訓(xùn)練中就會針對此類船舶樣本進(jìn)行過多解讀,進(jìn)而導(dǎo)致本文的模型精度有所下降。因此本文采用CE_S 作為RGDET-Ship 模型的損失函數(shù)。
3. 5 模型推理
通過模型推理過程和推理結(jié)果,詳細(xì)分析模型的健壯性和模型的效率。
3. 5. 1 模型健壯性
在實(shí)際應(yīng)用中,如拍攝高度、環(huán)境噪聲和圖片亮度是最常見的船舶信息變化,而SSDD 數(shù)據(jù)集中現(xiàn)有的船舶圖像場景有限,因此額外復(fù)雜場景下的船舶圖像對驗(yàn)證模型魯棒性來說至關(guān)重要,本文在不同雷達(dá)衛(wèi)星拍攝的圖像中選取了幾類不同場景復(fù)雜度的SAR 船舶圖像。如圖7 所示,使用RGDET-Ship 與Cascade R-CNN 和Faster R-CNN 進(jìn)行對比實(shí)驗(yàn)并分析RGDET-Ship 模型的健壯性。圖7 列出3 種不同船舶檢測場景。綠色框表示模型預(yù)測的船舶定位;紅色框表示模型出現(xiàn)錯檢、漏檢以及重檢的船舶目標(biāo)。
由圖7 可知,Faster R-CNN 只適用于檢測常規(guī)船舶,面對各類復(fù)雜環(huán)境的船舶檢測場景容易出現(xiàn)漏檢和錯檢現(xiàn)象。Cascade R-CNN 檢測粒度較大且上下文語義聯(lián)系較弱從而出現(xiàn)錯檢和重復(fù)檢測的問題。在與Cascade R-CNN 和Faster R-CNN 對比下,本文提出的RGDET-Ship 船舶檢測模型在不同復(fù)雜場景下具有更高的魯棒性,面對不同近岸干擾和不同的尺寸大小情況下的船舶都有較好的檢測能力。
3. 5. 2 模型泛化性
為驗(yàn)證RGDET-Ship 模型的泛化性,本文通過繪制相關(guān)的Precision-Recall(P-R)曲線進(jìn)行全面分析。P-R 曲線上的某一個點(diǎn)代表著在某一閾值下模型將大于該閾值的結(jié)果判定為正樣本,否則為負(fù)樣本,并返回結(jié)果對應(yīng)的召回率和準(zhǔn)確率。所以,P-R曲線是檢測模型泛化能力的重要指標(biāo)。
如圖8 所示,將Cascade R-CNN 和Faster R-CNN分別與RGDET-Ship 進(jìn)行對比,其中分別選取了IoU = [0. 5,0. 6,0. 7]下的P-R 曲線進(jìn)行對比分析,結(jié)果表明本文提出的RGDET-Ship 模型與經(jīng)典算法Faster R-CNN 和Cascade R-CNN 有著較高的重合度。其中圖8(b)和圖8(c)在IoU 為0. 6 和0. 7 的情況下,RGDET-Ship 的性能略勝于Faster R-CNN。總而言之,RGDET-Ship 有著較好的泛化性。
3. 5. 3 模型大小與效率
目前常用于評價(jià)模型大小以及效率的指標(biāo)有:訪存量(Memory)、參數(shù)量(Params)以及推理速度(Frame Per Second,FPS)等,這些指標(biāo)從不同的緯度評價(jià)了模型的大小和效率。Memory 是模型計(jì)算所需訪問的單元字節(jié)大小,反映模型對存儲單元帶寬的需求;Params 是模型中參數(shù)的總和,用于評價(jià)模型體積的大??;FPS 指模型每秒內(nèi)推理的圖片數(shù)量,用于評估模型的整體效率。
本小節(jié)使用不同模型效率評價(jià)指標(biāo)對RGDET-Ship 檢測模型進(jìn)行了詳細(xì)的分析,如表7 所示。CRTransSar[7]和PVT-SAR[8]作為改進(jìn)的二階段檢測算法在整體檢測精度上有所提升(見表1),但其模型Params 明顯增大并且模型FPS 也大幅降低。作為一階段算法擁有快速檢測的顯著優(yōu)點(diǎn),FASC-Net[6]在小目標(biāo)檢測上有突出表現(xiàn)但大目標(biāo)檢測精度較低(見表1)。在各目標(biāo)檢測模型性能對比下,由FPS 指標(biāo)可看出模型的FPS 控制較好,由Params可知模型的大小略高,Memory 體現(xiàn)出模型對存儲單元的帶寬需求正常。
綜上所述,RGDET-Ship 與其他檢測算法相比各項(xiàng)指標(biāo)均在可行范圍之內(nèi),在保持小目標(biāo)檢測效率的同時(shí)增大了中大目標(biāo)的檢測準(zhǔn)確率,并且模型的推理性能和模型大小并未存在較大消耗。
3. 6 定量分析
為了評估RGDET-Ship 模型在實(shí)際應(yīng)用中的表現(xiàn),本文使用HRSID 數(shù)據(jù)集進(jìn)行定量分析。該數(shù)據(jù)集包含了在真實(shí)云霧、陰雨、建筑干擾以及SAR 拍攝尺度不同等多場景下的船舶特征。所有檢測模型均使用SSDD 數(shù)據(jù)集的預(yù)訓(xùn)練權(quán)重對HRSID 數(shù)據(jù)集進(jìn)行訓(xùn)練。定量結(jié)果如表8 所示,可以看出本文的RGDET-Ship 模型以顯著的優(yōu)勢勝于其余方法。
4 結(jié)束語
本文所提出的方法用于對海上船舶進(jìn)行檢測和定位。作為一項(xiàng)以船只為中心的檢測任務(wù),研究成果可用于海上民生安全以及禁航區(qū)域的船舶監(jiān)測等領(lǐng)域。同時(shí)認(rèn)為使用RGDET-Ship 模型進(jìn)行SAR 圖像海上船舶檢測任務(wù)是更合理的,因?yàn)樵趯?shí)際應(yīng)用中會由于SAR 拍攝的距離和環(huán)境不同而導(dǎo)致船舶尺寸和噪聲等因素變化較大,使用RGDET-Ship 不僅增強(qiáng)了船舶的特征提取,同時(shí)細(xì)化了檢測粒度,即保證了有較高小目標(biāo)檢測準(zhǔn)確率、增大了大目標(biāo)檢測的準(zhǔn)確率。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了模型具有強(qiáng)大的性能,證明了RGDET-Ship 模型在海洋觀測和救災(zāi)中可以發(fā)揮有效作用。下一步工作將針對多尺度復(fù)雜環(huán)境中的船舶航行進(jìn)行視頻多幀分析檢測。
參考文獻(xiàn)
[1] 方小宇,黃麗佳. 基于全局位置信息和殘差特征融合的SAR 船舶檢測算法[J / OL]. 系統(tǒng)工程與電子技術(shù):1-13[2023-08-26]. http:∥kns. cnki. net / kcms / detail /11. 2422. TN. 20230411. 1715. 004. html.
[2] 徐志京,謝安東. 基于細(xì)節(jié)增強(qiáng)的級聯(lián)多分類光電船舶檢測[J]. 光電子·激光,2023,34(3):241-249.
[3] 張陽,劉小芳,周鵬成. 改進(jìn)Faster RCNN 的SAR 圖像船舶檢測技術(shù)[J]. 無線電工程,2022,52 (12 ):2280-2287.
[4] 李佳東,張丹普,范亞瓊,等. 基于改進(jìn)YOLOv5 的輕量級船舶目標(biāo)檢測算法[J]. 計(jì)算機(jī)應(yīng)用,2023,43(3):923-929.
[5] ZHAO W X,SYAFRUDIN M,FITRIYANI N L. CRASYOLO:A Novel Multicategory Vessel Detection and Classification Model Based on YOLOv5s Algorithm [J ].IEEE Access,2023,11:11463-11478.
[6] YU J M,ZHOU G Y,ZHOU S B,et al. A Fast and Lightweight Detection Network for Multiscale SAR Ship Detection Under Complex Backgrounds [J]. Remote Sensing,2022,14(1):31.
[7] XIA R F,CHEN J,HUANG Z X,et al. CRTransSar:AVisual Transformer Based on Contextual Joint Representation Learning for SAR Ship Detection [J]. Remote Sensing,2022,14(6):1488.
[8] ZHOU Y,JIANG X,XU G Z,et al. PVTSAR:An Arbitrarily Oriented SAR Ship Detector with Pyramid VisionTransformer [J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2023,16:291-305.
[9] ZHANG T W,ZHANG X L,LI J W,et al. SAR Ship DetectionDataset (SSDD):Official Release and Comprehensive DataAnalysis [J]. Remote Sensing,2021,13(18):3690.
[10]WEI S J,ZENG X F,QU Q Z,et al. HRSID:A HighresolutionSAR Images Dataset for Ship Detection and Instance Segmentation [J]. IEEE Access,2020,8:120234-120254.
[11] ZHANG T W,ZHANG X L,SHI J,et al. Depthwise Separable Convolution Neural Network for Highspeed SARShip Detection [J]. Remote Sensing,2019,11(21):2483.
[12] SUN Z Z,DAI M C,LENG X G,et al. An AnchorfreeDetection Method for Ship Targets in Highresolution SARImages [J]. IEEE Journal of Selected Topics in AppliedEarth Observations and Remote Sensing,2021,14:7799-7816.
[13] VU T,JANG H,PHAM T X,et al. Cascade RPN:Delvinginto Highquality Region Proposal Network with AdaptiveConvolution[C]∥ Proceedings of the 33rd InternationalConference on Neural Information Processing Systems.Vancouver:Curran Associates Inc. ,2019:1432-1442.
[14] HE K,ZHANG X Y,REN S Q,et al. Deep ResidualLearning for Image Recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition. LasVegas:IEEE,2016:770-778.
[15] LIN T Y,DOLL?R P,GIRSHICK R,et al. Feature Pyramid Networks for Object Detection[C]∥ Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition. Honolulu:IEEE,2017:936-944.
[16] RADOSAVOVIC I,KOSARAJU R P,GIRSHICK R,et al.Designing Network Design Spaces [C]∥ Proceedings ofthe IEEE / CVF Conference on Computer Vision andPattern Recognition. Seattle:IEEE,2020:10425-10433
[17] REN S Q,HE K,GIRSHICK R,et al. Faster RCNN:Towards Realtime Object Detection with Region ProposalNetworks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2017,39(6):1137-1149.
[18] TIAN Z,SHEN C H,CHEN H,et al. FCOS:Fully Convolutional Onestage Object Detection[C]∥2019 IEEE / CVFInternational Conference on Computer Vision. Seoul:IEEE,2019:9626-9635.
[19] LAW H,DENG J. CornerNet:Detecting Objects as PairedKeypoints[C]∥Proceedings of the European Conference onComputer Vision (ECCV). Munich:Springer,2018:765-781.
[20] CAI Z W,VASCONCELOS N. Cascade RCNN:HighQuality Object Detection and Instance Segmentation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(5):1483-1498.
[21] FENG Y,CHEN J,HUANG Z X,et al. A Lightweight Positionenhanced Anchorfree Algorithm for SAR Ship Detection [J]. Remote Sensing,2022,14(8):1908.
[22] LIU W,ANGUELOV D,ERHAN D,et al. SSD:SingleShot Multibox Detector [C ]∥ Computer VisionECCV2016:14th European Conference. Amsterdam:Springer,2016:21-37.
[23]YU L,WU H Y,ZHONG Z,et al. TWCNet:A SAR Ship Detection Using Twoway Convolution and Multiscale FeatureMapping [J]. Remote Sensing,2021,13(13):2558.
[24] BAI L,YAO C,YE Z,et al. Feature EnhancementPyramid and Shallow Feature Reconstruction Network forSAR Ship Detection [J ]. IEEE Journal of SelectedTopics in Applied Earth Observations and RemoteSensing,2023,16:1042-1056.
[25] WANG J Q,CHEN K,XU R,et al. CARAFE:Contentaware Reassembly of Features[C]∥2019 IEEE / CVF International Conference on Computer Vision. Seoul:IEEE,2019:3007-3016.
[26] GE Z,LIU S T,WANG F,et al. Yolox:Exceeding YOLOSeries in 2021[EB / OL]. (2021-07-18)[2023-09-01]https:∥arxiv. org / abs / 2107. 08430.
[27] WANG J Q,CHEN K,YANG S,et al. Region Proposal byGuided Anchoring[C]∥2019 IEEE / CVF Conference onComputer Vision and Pattern Recognition. Long Beach:IEEE,2019:2960-2969.
作者簡介
鄭莉萍 女,(1998—),碩士研究生。主要研究方向:目標(biāo)檢測和深度學(xué)習(xí)。
(*通信作者)趙良軍 男,(1980—),博士,副教授,高級工程師,碩士生導(dǎo)師。主要研究方向:衛(wèi)星遙感、深度學(xué)習(xí)和圖像處理。
寧 峰 男,(2000—),碩士研究生。主要研究方向:目標(biāo)檢測和深度學(xué)習(xí)。
譚 亮 男,(1996—),碩士研究生。主要研究方向:計(jì)算機(jī)視覺和圖像分割。
肖 波 男,(1997—),碩士研究生。主要研究方向:遙感技術(shù)和目標(biāo)檢測。
胡月明 男,(1964—),博士,教授。主要研究方向:耕地質(zhì)量監(jiān)測評價(jià)與土地大數(shù)據(jù)融合應(yīng)用。
何中良 男,(1995—),碩士研究生。主要研究方向:遙感技術(shù)和深度學(xué)習(xí)。
席裕斌 男,(1999—),碩士研究生。主要研究方向:目標(biāo)檢測和遙感技術(shù)。
梁 剛 男,(1999—),碩士研究生。主要研究方向:計(jì)算機(jī)視覺和圖像處理。
基金項(xiàng)目:四川省科技計(jì)劃項(xiàng)目(2023YFS0371);四川省智慧旅游研究基地項(xiàng)目(ZHZJ22-03)