廖 歡,朱文球,雷源毅,徐 軻
(湖南工業(yè)大學(xué), 湖南 株洲 412000)
遙感圖像的目標(biāo)檢測(cè)技術(shù)在軍用和民用領(lǐng)域都發(fā)揮著不可或缺的作用,具有重要的應(yīng)用價(jià)值。遙感圖像目標(biāo)檢測(cè)技術(shù)旨在復(fù)雜的遙感背景圖像中找到需要的目標(biāo),如飛機(jī)、油罐、車(chē)輛等[1],并精確地對(duì)其進(jìn)行位置定位和分類(lèi)。然而,由于遙感圖像背景復(fù)雜度高、目標(biāo)尺寸多樣性高等特點(diǎn),使得檢測(cè)的目標(biāo)存在過(guò)高的誤檢和漏檢問(wèn)題。傳統(tǒng)基于人工提取圖像特征,如HoGDetector、DMP算法,其設(shè)計(jì)復(fù)雜、效率以及泛化能力低下。近些年來(lái),深度學(xué)習(xí)在目標(biāo)檢測(cè)中取到了重大的進(jìn)展。通過(guò)構(gòu)建深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練大量數(shù)據(jù)來(lái)學(xué)習(xí)目標(biāo)的特征信息,較傳統(tǒng)的手工提取特征算法已經(jīng)取得了更好的精度,并且實(shí)現(xiàn)起來(lái)更加方便、效率更高。目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為2種類(lèi)型。一類(lèi)是基于候選框的兩階段目標(biāo)檢測(cè)算法,最經(jīng)典的是Girschick提出的R-CNN[2]、Fast-RCNN[3]和Faster-RCNN[4]算法,其設(shè)計(jì)復(fù)雜、消耗資源多且檢測(cè)速度較慢;另一類(lèi)是基于回歸的單階段目標(biāo)檢測(cè)算法,具有代表性的是SSD[5]、Retina-Net[6]和YOLO[7-10]系列方法。相較于兩階段目標(biāo)檢測(cè)算法,單階段目標(biāo)檢測(cè)算法不僅在在網(wǎng)絡(luò)設(shè)計(jì)結(jié)構(gòu)層次方面更加簡(jiǎn)單,而且在檢測(cè)精度、速度方面也更優(yōu)。其中YOLO系列的YOLOv5模型在精度和速度方法具有很高的檢測(cè)能力,在學(xué)術(shù)界和工業(yè)界都使用廣泛。
綜上所述,本文中提出一種融合全局上下文注意力機(jī)制的遙感圖像目標(biāo)檢測(cè)算法。在YOLOv5s的6.1版本基礎(chǔ)上,設(shè)計(jì)一種全局上下文注意力機(jī)制和YOLOv5中C3結(jié)構(gòu)融合的模塊C3_GC,提升網(wǎng)絡(luò)模型對(duì)圖像全局特征的捕捉能力;使用VariFocal Loss作為模型置信度和分類(lèi)損失,以此提高對(duì)圖像小目標(biāo)的召回率;采用基于歸一化的注意力模塊,用來(lái)降低圖像中不太顯著的權(quán)重;利用動(dòng)態(tài)卷積在降低模型參數(shù)情況下,提升網(wǎng)絡(luò)模型對(duì)目標(biāo)的檢測(cè)精度。
YOLOv5根據(jù)網(wǎng)絡(luò)深度和寬度的不同,劃分了YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x等4個(gè)網(wǎng)絡(luò)模型,其中YOLOv5s是模型容量、復(fù)雜度最小的一個(gè)。由于本實(shí)驗(yàn)數(shù)據(jù)集不夠大,因此選取YOLOv5s的6.1版本模型作為基礎(chǔ)模型,具體結(jié)構(gòu)如圖1所示。
YOLOv5s主干網(wǎng)絡(luò)主要由C3、CBS和SPPF結(jié)構(gòu)組成。C3結(jié)構(gòu)主要借鑒了跨階段網(wǎng)絡(luò)CSPNet[11]的思想,將輸入特征分為2個(gè)部分處理。主干部分通過(guò)卷積、歸一化和激活函數(shù)逐步提取特征,分支僅僅通過(guò)卷積層調(diào)整通道;通過(guò)劃分梯度信息,消除了大量的梯度冗余信息。CBS結(jié)構(gòu)由卷積Conv、歸一化BatchNorm和激活函數(shù)SiLU組成,用于提取模型的特征。SPPF結(jié)構(gòu)將輸入特征串行通過(guò)多個(gè)5×5的最大池化層,再經(jīng)由CBS網(wǎng)絡(luò)結(jié)構(gòu)提取堆疊的特征,能夠增大網(wǎng)絡(luò)的感受野,提升網(wǎng)絡(luò)的表征能力。
圖1 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)示意圖
YOLOv5s模型沿用了YOLOv4中自頂向下和自定向下的多尺度融合方式,并且引入了CSP結(jié)構(gòu),然后將特征信息傳入到檢測(cè)層中。
YOLOv5s一共有80×80、40×40和20×20等3個(gè)不同尺度的檢測(cè)層,用于預(yù)測(cè)大中小目標(biāo)的類(lèi)別和位置預(yù)測(cè)。然后通過(guò)非極大值抑制算法等后處理操作,輸出置信度分?jǐn)?shù)最高物體的類(lèi)別信息。
在目標(biāo)檢測(cè)領(lǐng)域中,一般通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)去提取圖像的特征信息。而深度卷積神經(jīng)網(wǎng)絡(luò)是基于其局部的像素點(diǎn)進(jìn)行感知,要想獲得長(zhǎng)距離的依賴關(guān)系,一般通過(guò)多次堆疊卷積層來(lái)獲取。然而,直接重復(fù)堆疊卷積層使得模型計(jì)算效率低下,且在長(zhǎng)距離間會(huì)導(dǎo)致信息傳遞困難,難以優(yōu)化。
圖2 Global Context Modeling網(wǎng)絡(luò)結(jié)構(gòu)示意圖
GC[12]模塊由Context Modeling和Transform 2個(gè)模塊組成,其結(jié)構(gòu)示意圖如圖2所示。圖2中,H和W分別表示特征圖的高度和寬,C表示特征圖的通道數(shù)。輸入圖像首先通過(guò)Context Modeling中1×1的卷積和Softmax操作計(jì)算出注意力權(quán)重特征圖,然后和輸入進(jìn)來(lái)的H*W*C進(jìn)行矩陣相乘,且將每一個(gè)通道的特征層內(nèi)所有值相加得到C*1*1的全局關(guān)系。然后,通過(guò)Transform結(jié)構(gòu)中,2個(gè)1×1的卷積降低參數(shù)量,此外還采用了LayerNorm來(lái)減少模型優(yōu)化的難題。最后通過(guò)廣播機(jī)制將H*W*C和C*1*1的全局信息按元素信息進(jìn)行相加,得到強(qiáng)化圖像全局重要信息的輸出結(jié)果。為了解決長(zhǎng)距離信息依賴問(wèn)題,提出一種融合全局上下文注意力機(jī)制的C3模塊,命名為C3_GC。圖3即為C3_GC模塊的結(jié)構(gòu)示意圖。
圖3 C3_GC網(wǎng)絡(luò)結(jié)構(gòu)示意圖
遙感圖像目標(biāo)檢測(cè)較難的一個(gè)問(wèn)題是圖像中目標(biāo)類(lèi)別和背景類(lèi)別極端不平衡,其中檢測(cè)目標(biāo)僅僅占很少的圖像區(qū)域。這會(huì)導(dǎo)致網(wǎng)絡(luò)模型對(duì)檢測(cè)目標(biāo)的學(xué)習(xí)效率降低,過(guò)多地去關(guān)注背景類(lèi)的特征信息。Focal Loss[13]損失函數(shù)可以解決目標(biāo)類(lèi)與背景類(lèi)數(shù)據(jù)不平衡的問(wèn)題,定義為
(1)
式(1)中:p是模型預(yù)測(cè)為目標(biāo)的概率,取值在0和1之間;y的取值為-1或者1,分別代表背景和或者目標(biāo);α為可調(diào)節(jié)平衡因子;(1-p)γ為目標(biāo)類(lèi)調(diào)節(jié)因子,γ為背景類(lèi)調(diào)節(jié)因子。2種調(diào)節(jié)因子可以提高對(duì)難檢測(cè)、誤檢的重視程度,且減少簡(jiǎn)單樣本對(duì)模型損失的貢獻(xiàn),使得Focal Loss能夠解決模型訓(xùn)練時(shí)樣本數(shù)據(jù)不均衡的問(wèn)題。
Focal Loss采用平等對(duì)待正負(fù)樣本的方式,而在實(shí)際的目標(biāo)檢測(cè)中,正樣本對(duì)模型的貢獻(xiàn)更為重要。因此,提出一種基于binary cross entropy loss的損失函數(shù),命名為varifocal loss[14]定義為:
(2)
式(2)中:p是IACS預(yù)測(cè)值,表示預(yù)測(cè)為目標(biāo)類(lèi)的得分;q表示分類(lèi)的條件,對(duì)于目標(biāo)類(lèi)來(lái)說(shuō),將其設(shè)置為真實(shí)框和預(yù)測(cè)框之間的IOU閾值,否則設(shè)置為0,對(duì)于背景類(lèi)來(lái)說(shuō),q值為0。
如式(2)所示,通過(guò)使用γ的因子縮放損失,varifocal loss僅僅減少了負(fù)樣本的損失貢獻(xiàn),而不會(huì)對(duì)正樣本進(jìn)行比例的縮放。負(fù)樣本損失貢獻(xiàn)減少,而正樣本損失相對(duì)來(lái)說(shuō)增大,使模型能夠更加關(guān)注于目標(biāo)類(lèi)的相關(guān)特征信息。
注意力機(jī)制一般用于捕捉圖像的特征信息,不同的注意力機(jī)制是通過(guò)不同的關(guān)注機(jī)制獲取圖像不同特征維度上的信息。然而,常見(jiàn)的注意力機(jī)制缺乏分辨捕捉特征的重要程度,導(dǎo)致提取的特征效率低下。因此,提出一種基于歸一化的注意力模塊(NAMAttention)。
NAMAttention[15]從空間和通道2個(gè)維度去關(guān)注圖像的特征;較常規(guī)注意力機(jī)制不同的是,它通過(guò)控制比例縮放因子來(lái)判斷空間或者通道的方差值,以此來(lái)表示它們的重要程度。比例縮放因子越大,證明所捕捉圖像的空間或者通道特征更加重要,使得網(wǎng)絡(luò)會(huì)更加關(guān)注這些特征。
通道注意力機(jī)制模塊如圖4所示,比例因子γi的權(quán)重Wi反應(yīng)出各個(gè)通道變化的大小以及通道的重要程度。
由于深度神經(jīng)網(wǎng)絡(luò)模型一般隨著深度的增加,特征圖的通道數(shù)會(huì)增大,更多的信息存放在通道信息中。因此,這里將NAMAttention的通道注意力機(jī)制模塊,加入到Y(jié)OLOv5s的檢測(cè)頭位置,充分獲取通道的特征信息。
圖4 通道注意力機(jī)制
在深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域,常規(guī)卷積只有一個(gè)靜態(tài)卷積且與輸入樣本沒(méi)有建立聯(lián)系,導(dǎo)致卷積缺乏動(dòng)態(tài)變化性,提取特征效果差。近些年來(lái),動(dòng)態(tài)卷積使用越來(lái)越廣泛,如DyConv和CondConv,它們?cè)诰矸e核上添加注意力機(jī)制,使卷積核與輸入的樣本存在緊密關(guān)系,賦予了卷積核的動(dòng)態(tài)特性,使模型的精度得到進(jìn)一步的提高,它們都忽略了輸入通道、卷積核空間和輸出通道維度的注意力關(guān)注。因此,提出一種多維動(dòng)態(tài)的卷積(ODConv)。
ODConv沿著空間、輸入通道、輸出通道以及卷積核空間的核維度學(xué)習(xí)更豐富的注意力,且采用更少的卷積核,使其在取得更優(yōu)性能的同時(shí)也能降低計(jì)算量。詳細(xì)結(jié)構(gòu)如圖5所示。
圖5 多維動(dòng)態(tài)卷積
實(shí)驗(yàn)環(huán)境如表1所示,集成開(kāi)發(fā)工具使用Pycharm。
表1 實(shí)驗(yàn)環(huán)境配置
實(shí)驗(yàn)使用的遙感數(shù)據(jù)集是NWPU VHR-10。NWPU VHR-10是一個(gè)用于空間物體檢測(cè)的10級(jí)地理遙感數(shù)據(jù)集,由西北工業(yè)大學(xué)于2014年發(fā)布,擁有650張包含目標(biāo)的圖像和150張背景圖像。數(shù)據(jù)集種類(lèi)包括田徑場(chǎng)、港口、橋梁、飛機(jī)、油罐、艦船、汽車(chē)、網(wǎng)球場(chǎng)、籃球場(chǎng)和棒球場(chǎng)10個(gè)類(lèi)別。
目標(biāo)檢測(cè)領(lǐng)域中,通常使用準(zhǔn)確率(Precision)、召回率(Recall)和平均檢測(cè)精度(mAP)來(lái)衡量模型的好壞。
(3)
(4)
(5)
(6)
式(3)—式(6)中:TP為正確檢測(cè)出正樣本的數(shù)量;FN為漏檢的正樣本數(shù)量;FP為誤檢的負(fù)樣本數(shù)量;AP為單個(gè)類(lèi)別的準(zhǔn)確率;mAP為平均檢測(cè)精度;c代表類(lèi)別的個(gè)數(shù)。
由于實(shí)驗(yàn)數(shù)據(jù)集的數(shù)據(jù)量較少,這里選擇YOLOv5s作為實(shí)驗(yàn)基礎(chǔ)模型,且開(kāi)啟Mosaic數(shù)據(jù)增強(qiáng)。
實(shí)驗(yàn)使用ImageNet上的YOLOv5s的預(yù)訓(xùn)練權(quán)重進(jìn)行遷移學(xué)習(xí)。選取數(shù)據(jù)集中70%樣本為訓(xùn)練集,20%樣本作為驗(yàn)證集,10%樣本作為測(cè)試集。實(shí)驗(yàn)采用隨機(jī)梯度下降優(yōu)化器(SGD),批處理大小(batch size)設(shè)置為16,循環(huán)次數(shù)設(shè)置為100個(gè)epochs。
YOLOv5s模型訓(xùn)練包括目標(biāo)框、置信度和分類(lèi)三大損失,實(shí)驗(yàn)改進(jìn)方法在驗(yàn)證集上的損失率曲線如圖6所示。
圖6 損失率曲線
模型的損失隨著迭代次數(shù)的增加而減少,在迭代次數(shù)達(dá)到80次之后損失值趨于穩(wěn)定,且接近為0,說(shuō)明模型訓(xùn)練已達(dá)到最優(yōu)效果。
通過(guò)在NWPU VHR-10數(shù)據(jù)集的驗(yàn)證集上進(jìn)行了消融實(shí)驗(yàn),來(lái)證明改進(jìn)之后模型的有效性,實(shí)驗(yàn)結(jié)果如表2所示。
表2 消融實(shí)驗(yàn)
進(jìn)一步對(duì)實(shí)驗(yàn)表格進(jìn)行可視化展示,如圖7所示。
圖7 mAP橫向?qū)Ρ?/p>
其中,C3_GC代表在C3模塊中融合GC全局上下文注意力機(jī)制;VF代表varifocal loss;NAM代表的是歸一化注意力機(jī)制;ODConv代表的是動(dòng)態(tài)卷積。
實(shí)驗(yàn)提出改進(jìn)方法的消融實(shí)驗(yàn)結(jié)果如表2所示,提出的新模塊C3_GC,P、R、mAP分別提升2.5%、0.6%、1%;損失函數(shù)改進(jìn)為VF,P、R、mAP分別提升3.9%、2.3%、2%;采用NAM,P、R、mAP分別提升1.1%、1.5%、1.7%;利用ODConv,P、mAP分別提升3%、0.4%,R下降0.8%;整體的P、R、mAP分別提升了1.8%、4.7%和2.2%。雖然本文中方法的mAP不是最高,但從P、R和mAP綜合來(lái)看是最優(yōu)模型。
通過(guò)分析數(shù)據(jù)集圖像,提出的C3_GC模塊,讓骨干網(wǎng)絡(luò)捕捉到更多的淺層特征信息;使用歸一化通道注意力機(jī)制,增強(qiáng)網(wǎng)絡(luò)模型對(duì)深層次信息的關(guān)注,與SE、ECA等常規(guī)注意力機(jī)制相對(duì)比,mAP提升更高,如表3所示。這些操作都使得模型的平均檢測(cè)精度更高;改進(jìn)的多維動(dòng)態(tài)卷積,在不同維度上提取特征圖的信息,提升了模型的檢測(cè)精度,即使召回率有些許下降,但模型的計(jì)算量也隨之下降,如表4所示。另外varifocal loss 通過(guò)突出正樣本數(shù)據(jù),顯著提高了模型的召回率。
表3 注意力機(jī)制對(duì)比
表4 模型計(jì)算量
為了驗(yàn)證實(shí)驗(yàn)所改進(jìn)算法的先進(jìn)性,同樣采用驗(yàn)證集,對(duì)算法進(jìn)行對(duì)比實(shí)驗(yàn),將其與主流的目標(biāo)檢測(cè)算法進(jìn)行對(duì)比。由表5可知,改進(jìn)的實(shí)驗(yàn)方法獲得了最優(yōu)的mAP值結(jié)果。
表5 模型性能對(duì)照表
進(jìn)一步,對(duì)所改進(jìn)方法在測(cè)試集的目標(biāo)檢測(cè)結(jié)果進(jìn)行可視化展示,圖8、圖9和圖10給出了YOLOv5s和所改進(jìn)方法在幾個(gè)典型遙感圖像樣本上的檢測(cè)結(jié)果示例,其中左圖表示原YOLOv5s模型,右圖表示改進(jìn)后的算法模型。從圖8可以看出,在高空拍攝下改進(jìn)后的算法模型能夠減少漏檢小目標(biāo)的問(wèn)題;從圖9可以看出,檢測(cè)目標(biāo)附近有各種不同的復(fù)雜背景信息;通過(guò)對(duì)比,改進(jìn)算法在復(fù)雜背景下檢測(cè)的置信度更高,并且能夠檢測(cè)出由于遮擋而被漏檢的目標(biāo),從而在一定程度上提升了網(wǎng)絡(luò)模型的檢測(cè)效果。從圖10可以看出,改進(jìn)后的算法模型能夠提升多尺度目標(biāo)的檢測(cè)效果。
圖8 高空小目標(biāo)檢測(cè)效果
圖9 復(fù)雜背景下檢測(cè)效果
圖10 多尺度下檢測(cè)效果
通過(guò)驗(yàn)證集實(shí)驗(yàn)數(shù)據(jù)表明,本文中所改進(jìn)的方法有效提升了遙感圖像目標(biāo)檢測(cè)的準(zhǔn)確率、召回率和平均檢測(cè)精度,同時(shí)降低了模型的計(jì)算量。此外,當(dāng)前Mosaic4數(shù)據(jù)增強(qiáng),雖然能夠增加數(shù)據(jù)樣本的多樣性,但同時(shí)也讓小目標(biāo)的尺寸相對(duì)變的更小,會(huì)導(dǎo)致模型檢測(cè)精度、召回率難以有質(zhì)的提升,后續(xù)研究將在不改變目標(biāo)相對(duì)尺寸的前提下,嘗試更多的數(shù)據(jù)增強(qiáng)方式。