鄭 哲 雷 琳 孫 浩 匡綱要
(國防科技大學(xué)電子科學(xué)學(xué)院電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國家重點(diǎn)實(shí)驗(yàn)室, 湖南長沙 410073)
目標(biāo)檢測是遙感圖像判讀中的一個重要研究方向,在軍事偵察、智能監(jiān)測、智慧城市等多個領(lǐng)域都有著廣泛的應(yīng)用需求。近些年來隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,不斷涌現(xiàn)出一些優(yōu)秀的目標(biāo)檢測算法[1- 8],卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)也已成為遙感圖像目標(biāo)檢測任務(wù)中的有力工具[9]。如Cheng等[10]提出了RIFD-CNN模型,該方法通過在訓(xùn)練過程中引入旋轉(zhuǎn)不變正則化和Fisher判別正則化有效提高了遙感圖像目標(biāo)檢測精度。為了使目標(biāo)邊框回歸更加準(zhǔn)確,Long等[11]提出了一種基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督評分邊界框回歸方法USB-BBR。為了消除候選區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network, RPN)對人工設(shè)計的依賴,學(xué)者們將Faster R-CNN[1]框架應(yīng)用到遙感圖像中并在此基礎(chǔ)上進(jìn)行改進(jìn),如Li等[12]提出了一個旋轉(zhuǎn)不敏感RPN,該方法在RPN中引入多角度錨,可以有效的處理遙感圖像中目標(biāo)方向旋轉(zhuǎn)變化的問題,此外該方法設(shè)計了一種雙通道特征組合網(wǎng)絡(luò)來學(xué)習(xí)目標(biāo)的局部和上下文信息,有效提高了目標(biāo)檢測精度。Zhong等[13]利用位置敏感平衡方法來提高生成候選區(qū)域的質(zhì)量,該方法在殘差網(wǎng)絡(luò)ResNet[14]的基礎(chǔ)上引入全卷積網(wǎng)絡(luò)[15],解決目標(biāo)檢測中的平移變化和圖像分類中的平移不變性之間的矛盾。Xu 等[16]提出受長寬比約束的非最大值抑制來提高候選區(qū)域的質(zhì)量,并利用可變形的CNN來建模物體的幾何變化,有效改善了目標(biāo)檢測效果。Tang等[17]借鑒了SSD[6]的思路進(jìn)行車輛目標(biāo)檢測,在特征圖中每個位置生成一組不同尺度的默認(rèn)邊框,通過預(yù)測每個默認(rèn)邊框的偏移量來進(jìn)行目標(biāo)定位。Liu等[18]將傳統(tǒng)的邊界框替換為可旋轉(zhuǎn)邊框嵌入SSD中,使得該算法可以預(yù)測目標(biāo)的方向角,具有旋轉(zhuǎn)不變性。Liu等[19]以YOLOv2為基礎(chǔ)設(shè)計了一種可以檢測任意方向艦船的框架。雖然上述方法通過各種設(shè)計在一定程度上改善了遙感圖像目標(biāo)檢測的性能,但由于圖像分辨率不同或者目標(biāo)尺度不一而導(dǎo)致的尺度差異依然是遙感圖像中目標(biāo)檢測一個難題,如何提高多尺度目標(biāo)的檢測精度仍需進(jìn)一步研究。
針對上述問題,本文以經(jīng)典檢測框架Cascade R-CNN網(wǎng)絡(luò)為基礎(chǔ),設(shè)計了基于特征增強(qiáng)和錨點(diǎn)自動生成的遙感圖像目標(biāo)檢測算法。該算法首先將ResNet50骨干網(wǎng)絡(luò)中每個模塊的3*3卷積替換為可操控的空洞卷積(Switch Atrous Convolution, SAC)[20]模塊,使得同一特征圖中包含不同感受野下提取的特征信息。在此基礎(chǔ)上設(shè)計了增強(qiáng)特征金字塔網(wǎng)絡(luò)(Enhanced Feature Pyramid Network, EFPN),引導(dǎo)前向傳播得到的每層特征圖信息流入傳統(tǒng)特征金字塔的對應(yīng)層次融合特征圖上,使得被弱化的特征信息得到增強(qiáng),增強(qiáng)網(wǎng)絡(luò)對不同尺度特征的表達(dá)能力。為了獲得更高質(zhì)量的候選區(qū)域,在區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network, RPN)中引入可以自動學(xué)習(xí)錨點(diǎn)框位置和形狀的錨點(diǎn)框自動生成模塊(Anchor Automatic Generation Module, AAGM)[21]。經(jīng)實(shí)驗(yàn)證明,本文所提方法可以有效提高遙感圖像中多類多尺度目標(biāo)的檢測精度。
本文所提方法的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,首先將ResNet50骨干網(wǎng)絡(luò)中的3*3的卷積層全部替換為SAC模塊,該模塊利用不同的膨脹率的空洞卷積,使得特征圖的不同區(qū)域可以動態(tài)的選擇感受野,提取多尺度特征信息。為避免特征通道縮減導(dǎo)致的信息丟失以及更加充分的利用低層特征信息的細(xì)節(jié)表達(dá)能力和高層特征信息的語義表達(dá)能力搭建了增強(qiáng)特征金字塔網(wǎng)絡(luò),在原始特征金字塔的基礎(chǔ)上,提出殘差特征增強(qiáng)通道,將骨干網(wǎng)絡(luò)前向傳播得到的原始特征圖與特征金字塔的融合特征圖連接,并設(shè)計自適應(yīng)插值融合模塊將兩者融合,增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力。在RPN網(wǎng)絡(luò)中利用錨點(diǎn)框生成模塊自動學(xué)習(xí)錨點(diǎn)框的位置和長寬,避免了人工預(yù)設(shè)錨點(diǎn)框形狀和大小等相關(guān)參數(shù)所帶來的限制。在分類回歸網(wǎng)絡(luò)中借鑒Cascade R-CNN中的級聯(lián)思想,將多個分類回歸階段級聯(lián),前一個階段回歸得到的邊框區(qū)域作為候選區(qū)域輸入到下一個分類回歸階段,通過逐次提高各個階段的交并比(Intersection over Union, IoU)閾值來找到IoU更高的正樣本。
圖1 目標(biāo)檢測整體流程Fig.1 The flowchart of our method
經(jīng)研究表明,大尺度感受野對大尺度目標(biāo)特征提取效果較好,小尺度感受野對小尺度目標(biāo)特征提取效果較好[22],因此本文使用不同膨脹率的空洞卷積來改變卷積層濾波器的感受野大小,提高網(wǎng)絡(luò)多尺度特征提取能力。已有的算法通常使用原始的ResNet網(wǎng)絡(luò)進(jìn)行特征提取,而本文將ResNet網(wǎng)絡(luò)前向傳播過程中的所有卷積核為3×3的標(biāo)準(zhǔn)卷積層全部替換為SAC模塊,增加網(wǎng)絡(luò)感受野大小的多樣性。SAC模塊結(jié)構(gòu)如圖2所示,在SAC模塊的首部和尾部分別設(shè)計兩個全局上下文信息模塊,降低噪聲的干擾, 增強(qiáng)目標(biāo)信息,達(dá)到特征優(yōu)選的目的。輸入的特征首先通過一個全局平均池化層進(jìn)行壓縮,然后連接一個1×1的卷積層,將卷積得到的特征圖與輸入特征圖相加,這種上下文模塊可以有效的豐富特征圖的全局信息,利于提取更穩(wěn)健的特征信息。SAC的中間部分分為三條支路,其中上下兩條分別是膨脹率為1和r的空洞卷積支路,中間一條支路即可切換函數(shù)S(.),由一個5×5的平均池化層和一個1×1卷積層組成,將得到的結(jié)果分別乘以其他兩個支路得到的特征圖,然后將兩者相加得到融合的特征圖。若在特征圖某個位置的S值大于 0.5,則融合特征圖的大部分信息來自膨脹率為1的分支,若S值小于0.5則最終特征圖中的信息大部分來自膨脹率為r的分支。在訓(xùn)練過程中,利用預(yù)訓(xùn)練模型的權(quán)重來初始化膨脹率為r的卷積層的權(quán)重,具體的轉(zhuǎn)化如公式(1)所示:
圖2 SAC模塊結(jié)構(gòu)Fig.2 The architecture of SAC model
(1)
其中x是輸入的特征圖,1和r是SAC的超參數(shù),也即膨脹率,這里設(shè)置r=3,w是預(yù)訓(xùn)練模型的權(quán)重,Δw是可訓(xùn)練的權(quán)重,初始化為0。
為了改善多尺度目標(biāo)的檢測效果,現(xiàn)有的算法通常在特征融合網(wǎng)絡(luò)部分使用特征金字塔結(jié)構(gòu),通過橫向連接中的1×1的卷積直接將原始特征圖通道數(shù)降到256[23],在通道減少的同時也會損失一部分的原始特征圖通道特征信息,并且融合相鄰層次的原始特征圖在增加其他特征層特征信息的同時也會對本層特征信息產(chǎn)生弱化作用?;谝陨峡紤]本文在特征融合網(wǎng)絡(luò)中增加了一條殘差特征增強(qiáng)通道,通過增強(qiáng)空間上下文信息來彌補(bǔ)通道減少帶來的信息丟失,在特征金字塔融合特征圖的基礎(chǔ)上,將對應(yīng)層的原始特征圖信息經(jīng)過一個聚合模塊,該模塊使用不同的比例參數(shù)α1、α2、α3來進(jìn)行自適應(yīng)池化操作實(shí)現(xiàn)下采樣,提取不同尺度的上下文信息。下采樣后的寬高分別αi×w、αi×h,接著利用一個1×1的卷積將不同尺度的特征圖的通道維持在256,再利用雙線性插值將三者上采樣到w×h大小,接著對上采樣結(jié)果進(jìn)行自適應(yīng)空間融合。融合的過程也即提取注意力的過程,首先將三個上采樣結(jié)果concat,然后逐次經(jīng)過一個1×1和3×3的卷積,最后利用sigmoid函數(shù)得到最后的注意力圖,通過split操作將得到的總注意力圖分離成三個子注意力分別應(yīng)用于對應(yīng)的輸入特征圖,最后將三個包含不同尺度上下文信息的特征圖聚合后注入到原始的融合特征圖中,使得特征得到進(jìn)一步的增強(qiáng)。具體的融合過程如圖3所示。
圖3 EFPN網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The architecture of EFPN
常用的RPN網(wǎng)絡(luò)需要針對不同的任務(wù)人工預(yù)定義一組錨點(diǎn)框的尺度和長寬比,這在很大程度上依賴于先驗(yàn)知識,若預(yù)設(shè)的參數(shù)與數(shù)據(jù)集不匹配則會很大程度的影響目標(biāo)檢測精度??紤]到包含目標(biāo)的錨點(diǎn)框的位置和長寬與圖像內(nèi)容、感興趣目標(biāo)的位置和形狀密切相關(guān),同時為了降低計算成本,生成相對稀疏的高質(zhì)量的錨點(diǎn)框,本文在RPN中使用錨點(diǎn)自動生成模塊代替?zhèn)鹘y(tǒng)的錨點(diǎn)框生成法。如圖4所示,首先將輸入的融合特征圖送入兩個分支,一個分支對錨點(diǎn)框位置進(jìn)行預(yù)測,對特征圖進(jìn)行1×1的卷積得到尺寸不變的概率圖,其維度為W×H×1,其中每個位置上的值表示在該位置存在目標(biāo)中心的可能性,然后使用Sigmoid函數(shù)將其轉(zhuǎn)換成概率值。同時設(shè)定一個閾值,當(dāng)某個位置的概率值高于閾值時,就認(rèn)為在該位置可能存在目標(biāo)。另一個分支對錨點(diǎn)框的形狀進(jìn)行預(yù)測,對輸入的特征圖進(jìn)行1×1的卷積,生成一個維度為W×H×2的兩通道映射圖,分別對應(yīng)每個位置候選框的偏移量dw和dh,然后通過一個逐元素的非線性變換層將其映射為候選框的w、h,具體的變換如公式(2)所示。
圖4 ARPN網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The architecture of ARPN
w=σ·s·edw,h=σ·s·edh
(2)
其中s是步幅,σ是經(jīng)驗(yàn)比例因子,本文設(shè)為8。通過預(yù)測特征圖中每個位置的最佳形狀,使其最大程度的接近真值框區(qū)域。結(jié)合兩條支路的預(yù)測結(jié)果,即可得到最終的錨點(diǎn)框。常用的RPN中每個位置的錨點(diǎn)框都均勻的享有相同的尺寸,在同一個卷積層的不同位置,感受野的尺寸是相同的,因此特征圖可以學(xué)習(xí)到連續(xù)的特征表示,而錨點(diǎn)自動生成模塊生成的不同位置上的錨點(diǎn)框可能具有不同的形狀和尺寸,并且由研究可知,較大錨點(diǎn)框在較大的區(qū)域上進(jìn)行編碼,較小的錨點(diǎn)框應(yīng)在較小的區(qū)域上進(jìn)行編碼[24],所以本文使用特征自適應(yīng)模塊對特征圖進(jìn)行調(diào)整,首先在上述錨點(diǎn)框形狀預(yù)測分支的輸出上使用1×1的卷積得到錨點(diǎn)框形狀的偏移量,然后通過3×3的形變卷積[25]將偏移量信息融入到輸入的特征圖中對其進(jìn)行調(diào)整。經(jīng)過這種設(shè)計使得特征的有效范圍和錨點(diǎn)框區(qū)域更加接近,得到更高質(zhì)量的錨點(diǎn)框區(qū)域。
在本文算法中,由于加入了錨點(diǎn)框的位置預(yù)測和形狀預(yù)測兩個設(shè)計,相應(yīng)的,在進(jìn)行端到端的訓(xùn)練時多任務(wù)損失函數(shù)也要進(jìn)行相應(yīng)的改變,除了基本的分類損失和回歸損失之外,還需要學(xué)習(xí)錨點(diǎn)框的位置和形狀,因此還要再加上相對應(yīng)的兩個損失函數(shù)部分。完整的損失函數(shù)部分如公式(3)所示。
L=λ1Lloc+λ2Lshape+Lcls+Lreg
(3)
本文使用focal loss[7]計算錨點(diǎn)框的位置損失Lloc,通過減少易分類樣本的權(quán)重,使得網(wǎng)絡(luò)更專注于難分類的樣本,具體如公式(4)所示。
FL(pt)=-αt(1-pt)γlog(pt)
(4)
其中pt是錨點(diǎn)框區(qū)域?qū)儆谡龢颖净蜇?fù)樣本的概率,由公式(5)得到,其中y∈{±1},代表樣本類別,p∈[0,1]是網(wǎng)絡(luò)對于樣本的標(biāo)簽類別為1的概率估計。αt為權(quán)重參數(shù),由公式(5)得到,其中α∈[0, 1]。公式(4)中的(1-pt)γ為調(diào)節(jié)因子,γ≥0為可調(diào)節(jié)聚焦參數(shù),當(dāng)pt→1時,調(diào)節(jié)因子(1-pt)γ→0,因此易分類樣本的權(quán)重就會減小,其對loss的貢獻(xiàn)越小,相反的,難分類樣本的權(quán)重會增大,進(jìn)而使得網(wǎng)絡(luò)更加關(guān)注難分類樣本,通過這種動態(tài)調(diào)節(jié)方式盡可能的緩解樣本的不平衡問題。
(5)
在學(xué)習(xí)錨點(diǎn)框的長寬時,常用的方法是先計算出和當(dāng)前真值最匹配的寬高,然后計算損失函數(shù),但是本文采用的方法中錨點(diǎn)框的形狀不固定,所以要尋找和真值的IoU盡可能大的寬高,實(shí)際計算非常復(fù)雜,因此為了盡可能高效的在連續(xù)的寬和高的取值范圍內(nèi)找到最優(yōu)值,我們對w和h的一些常用值進(jìn)行采樣,以模擬所有w和h的枚舉,從理論上講,采樣的對越多,則近似值越準(zhǔn)確,但計算量會越大,因此本文借鑒RPN網(wǎng)絡(luò)中預(yù)設(shè)錨框的思想,使用9對w和h,也即給定一個錨點(diǎn)框的中心點(diǎn),使用9對w和h得到的錨框來計算不同位置預(yù)設(shè)錨框與真值框的IoU,在這9對寬高中找到最大的IoU值用作vIoU(awh,gt)的近似值。其中預(yù)設(shè)錨框的相關(guān)參數(shù)設(shè)置參考文獻(xiàn)[7],錨框尺寸分別為{20,21/3,22/3},寬高比分別為{0.5,1.0,2.0}。使用公式(6)計算不固定形狀的錨點(diǎn)框和真值框之間的IoU。
(6)
其中IoUnormal表示常用的IoU計算方法,awh表示變化的錨點(diǎn)框的長和寬,gt表示地面真值的長和寬。最后利用bounded IoU loss[26]計算錨點(diǎn)框的形狀損失Lshape。具體如公式(7)所示。
(7)
其中w,h,wg,hg分別表示錨點(diǎn)框和地面真值的寬和高,L1表示smooth L1 loss[27]。
本文在NWPU VHR-10遙感數(shù)據(jù)集[28]上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集總共包含分辨率及尺寸不一的650幅圖像,目標(biāo)一共被標(biāo)記為如表1所示的十個類別,其中每類目標(biāo)都涵蓋了多種不同的形狀和尺度。為滿足卷積神經(jīng)網(wǎng)絡(luò)對于大量數(shù)據(jù)的需求,需要通過裁剪,旋轉(zhuǎn)和翻轉(zhuǎn)等操作進(jìn)行數(shù)據(jù)擴(kuò)充。為了降低十類目標(biāo)數(shù)量的差異,我們對包含橋梁、田徑場、籃球場和港口四類目標(biāo)的圖像分別進(jìn)行水平翻轉(zhuǎn)和垂直翻轉(zhuǎn),然后進(jìn)行一次隨機(jī)的亮度調(diào)整。得到最終的數(shù)據(jù)集后將其劃分為訓(xùn)練集和測試集,本文隨機(jī)選取了其中60%作為訓(xùn)練集,其余的作為測試集,其中訓(xùn)練集中樣本量為8431,測試集中樣本量為5453。
表1 NWPU VHR-10數(shù)據(jù)集目標(biāo)信息統(tǒng)計
本文實(shí)驗(yàn)所采用的硬件配置為Intel i9-CPU,NIVIDIA GeForce RTX 2080 Ti顯卡,采用深度學(xué)習(xí)工具包Pytorch完成實(shí)驗(yàn)。本文采用平均精度(average precision, AP)和平均精度均值(Mean Average Precision,mAP)作為評價指標(biāo),AP是每類目標(biāo)的平均檢測精度,mAP是針對數(shù)據(jù)集中十類目標(biāo)的總體評價指標(biāo),值越高越好。
為了找到更合適的參數(shù)設(shè)置,本文在RSOD數(shù)據(jù)集[11]上對SAC模塊中的膨脹率r以及特征融合網(wǎng)絡(luò)中的比例參數(shù)αi進(jìn)行了實(shí)驗(yàn)并根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行討論分析。首先按照3.1節(jié)所述對數(shù)據(jù)集進(jìn)行處理,然后按照表2中不同的參數(shù)取值組合進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。
由表2可知,隨著SAC中膨脹率r以及特征增強(qiáng)網(wǎng)絡(luò)中的αi在不同的值時,得到mAP差異較大,這說明參數(shù)的設(shè)置對網(wǎng)絡(luò)檢測性能的影響至關(guān)重要。在SAC中膨脹率r在分別設(shè)置為1、3、5時,隨著αi取值不斷增大,mAP的變化雖偶有波動,但總體趨勢是在不斷減小,這表明在特征融合網(wǎng)絡(luò)中,設(shè)置較小的比例參數(shù)可使獲得的不同尺度的上下文信息更好的彌補(bǔ)減少通道中的信息損失,使得融合特征圖的信息更加豐富。通過橫向?qū)Ρ劝l(fā)現(xiàn),在三組膨脹率r的實(shí)驗(yàn)中,r為3時的mAP為最高,r為1時的mAP最低,這說明使用空洞卷積可以使網(wǎng)絡(luò)更有效的提取多尺度特征信息,但將膨脹率設(shè)置太大,反而減弱這種改善效果,導(dǎo)致mAP降低,檢測性能下降。結(jié)合實(shí)驗(yàn)結(jié)果及上述分析,發(fā)現(xiàn)設(shè)置膨脹率r為3,融合比例參數(shù)αi分別為0.1、0.2以及0.3時,網(wǎng)絡(luò)的mAP最高,檢測性能最好。
表2 不同參數(shù)的影響分析
為了分析算法中各個模塊的有效性,本文設(shè)計了七組對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示,隨著SAC、EFPN以及ARPN模塊的加入,算法的檢測精度逐漸提高。實(shí)驗(yàn)1中是基礎(chǔ)算法,沒有加入任何模塊。實(shí)驗(yàn)2加入SAC模塊,mAP提升0.7%,因此在骨干網(wǎng)絡(luò)中加入空洞卷積可以動態(tài)的選擇感受野,有效的改善多尺度特征的提取。實(shí)驗(yàn)3加入EFPN模塊,mAP相比于實(shí)驗(yàn)1增加了0.8%,證明通過短接支路可以成功的增強(qiáng)特征圖中的有效信息。實(shí)驗(yàn)4加入了ARPN 模塊,相比于實(shí)驗(yàn)1,mAP值增加了0.8%,證明錨點(diǎn)框自動生成模塊的有效性。由前四組實(shí)驗(yàn)可知,SAC、EFPN以及ARPN三個模塊都可以在不同程度上改善算法的檢測性能。實(shí)驗(yàn)5在基礎(chǔ)算法上同時加入了SAC和ARPN模塊,mAP比基礎(chǔ)算法提升了1.2%,實(shí)驗(yàn)6同時加入了SAC和EFPN模塊,mAP提升了1.1%,實(shí)驗(yàn)7同時加入EFPN和ARPN模塊,mAP提升了1.4%,最后一組實(shí)驗(yàn)同時加入三個模塊,也即本文所提算法,mAP值為99.2%,比基礎(chǔ)算法提高了1.9%。綜合以上8組實(shí)驗(yàn)結(jié)果可知,本文所提算法中可以更有效的挖掘多尺度特征信息,有效增強(qiáng)了算法的尺度自適應(yīng)性,提高了算法的檢測性能。
表3 不同模塊對檢測性能的影響
為了證明本文方法的有效性,本文對比分析了多個經(jīng)典目標(biāo)檢測算法,不同算法的mAP統(tǒng)計結(jié)果如表4所示,每類目標(biāo)中的最高AP用黑色粗體表示。
表4 不同算法檢測性能對比
由表4可知, 在NWPU VHR-10數(shù)據(jù)集上RICNN[28]算法的mAP值為72.6%, 在幾類對比方法中檢測精度最低,該算法沒有對得到的邊界框位置進(jìn)行回歸和優(yōu)化,而是直接將提取的深度特征輸入到支持向量機(jī)中進(jìn)行分類,因此檢測精度較低。FRCN-VGG是基于VGG[29]的Faster RCNN算法,該算法使用RPN網(wǎng)絡(luò)預(yù)先篩選候選區(qū)域,同時對候選區(qū)域的深度特征進(jìn)行分類和回歸學(xué)習(xí),使得其檢測精度相對于RICNN提升了3.8%,但相對于其他算法檢測精度仍是較低。YOLO[5]由于其本身算法的設(shè)計,只有一個目標(biāo)分類和回歸的階段,因此會存在較多的漏檢和誤檢,并且該方法需要對特征圖進(jìn)行網(wǎng)格劃分,因此不適用于小尺度以及排列密集的目標(biāo)檢測任務(wù)。SSD算法相比于YOLO使用了多個層次的特征圖,提高了于目標(biāo)的尺度自適應(yīng)性,檢測精度也有所提高。與YOLO算法相比,YOLOv3[30]使用了新的網(wǎng)絡(luò)結(jié)構(gòu)darknet53,并且借鑒了殘差網(wǎng)絡(luò)的做法,加入殘差通道,同時利用多個尺度的特征圖進(jìn)行預(yù)測,這在一定程度上改善了多尺度目標(biāo)檢測的效果,檢測精度得到提升。
FRCN-Deform是以RseNet網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò)并加入形變卷積和形變池化[25]的Faster RCNN算法, ResNet網(wǎng)絡(luò)通過疊加殘差單元來實(shí)現(xiàn)更深層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使得網(wǎng)絡(luò)可以學(xué)得更高質(zhì)量的特征,并且在形變卷積和形變池化的加持下,網(wǎng)絡(luò)可以根據(jù)目標(biāo)的形狀自動調(diào)整感受野,因此其檢測精度達(dá)到91.7%。R-FCN[2]算法設(shè)計了位置敏感得分映射來對目標(biāo)空間位置信息進(jìn)行建模,同時將全部池化層和全連接層替換為卷積層,實(shí)現(xiàn)了所有卷積層的計算共享,避免了重復(fù)計算,進(jìn)一步提高了檢測精度和速度。FPN是在以ResNet為骨干網(wǎng)絡(luò)的Faster RCNN中設(shè)計了特征金字塔網(wǎng)絡(luò),通過逐次融合多個層次的特征圖將不同尺度的特征信息融合在一起,然后進(jìn)行多尺度訓(xùn)練和檢測,使得檢測精度達(dá)到93.1%,后續(xù)很多算法都借鑒了這種特征融合結(jié)構(gòu)。RetinaNet[7]網(wǎng)絡(luò)在單階段算法中使用特征金字塔結(jié)構(gòu),同時在訓(xùn)練中引入了Focal loss來調(diào)整不同樣本所分配的權(quán)重,若為易分類樣本,則減小其所對應(yīng)的權(quán)重,若為難分類樣本則提高其所對應(yīng)的權(quán)重,通過動態(tài)的權(quán)重調(diào)整來解決正負(fù)樣本不平衡的問題,在這種策略下該算法檢測精度提升到94.2%。NAS-FPN[31]以RetinaNet算法為基礎(chǔ),在一個覆蓋所有跨尺度連接的可擴(kuò)展搜索空間中,使用神經(jīng)網(wǎng)絡(luò)搜索找到一種性能最好的特征金字塔結(jié)構(gòu),與FPN相比,檢測精度提升了2.6%。MSDN[32]和MSCNN[33]算法則是分別在算法中的特征提取部分使用了形變卷積和空洞卷積,并且使用多層特征圖進(jìn)行分類回歸,有效改善了不同尺度目標(biāo)的檢測效果。Mask-RCNN則是在以ResNet為骨干網(wǎng)絡(luò)的Faster RCNN中原本的兩個分支(分類+回歸)上增加了第三個支路用于語義分割,同時將損失函數(shù)改變?yōu)榉诸悡p失、回歸損失和掩膜損失三者之和,利用掩膜分支來為目標(biāo)檢測提供輔助信息,其檢測精度相比于NAS-FPN提高了1.1%。Cascade-RCNN算法則是利用迭代的思想級聯(lián)了幾個檢測網(wǎng)絡(luò),不斷提高子檢測網(wǎng)絡(luò)的IoU閾值,從而達(dá)到不斷優(yōu)化預(yù)測結(jié)果的目的,在本文實(shí)驗(yàn)中該算法的檢測精度達(dá)到97.3%,是對比算法中最優(yōu)檢測算法。相比于上述對比算法,本文所提算法取得了最高檢測精度99.2%,針對艦船目標(biāo)比次優(yōu)算法檢測精度高出1.6%,對油罐目標(biāo)比次優(yōu)算法檢測精度高出2.3%,對于棒球場、網(wǎng)球場、籃球場以及田徑場網(wǎng)球場目標(biāo)則是全部都被檢測到,檢測精度達(dá)到百分百。對于港口目標(biāo)比次優(yōu)算法檢測精度高出5.1%,對于橋梁目標(biāo)比次優(yōu)算法檢測精度高出3.6%,對于車輛目標(biāo)比次優(yōu)算法檢測精度高出4.1%。對比可知,飛機(jī)、油罐、棒球場、田徑場等幾類目標(biāo)在所列出的對比算法中的檢測精度差別不大,這是因?yàn)樵陲w機(jī)和油罐等目標(biāo)的邊界框形狀比較規(guī)則,并且棒球場和田徑場的尺度相對較大,語義信息相對豐富,因此檢測效果相近。而對于艦船、港口、橋梁和車輛等幾類目標(biāo)檢測效果相差較大,本文算法在這幾類目標(biāo)的檢測效果均為最優(yōu),因?yàn)榕灤蛙囕v等目標(biāo)尺度較小,經(jīng)過若干次的卷積操作之后,損失了部分特征信息,而本文所提算法中的特征增強(qiáng)模塊可以有效的解決小尺度目標(biāo)檢測效果較差的問題。對于網(wǎng)球場、棒球場、港口和橋梁等目標(biāo),則是由于其長寬比差異較大,針對這種情況,預(yù)先尋找到更為合適的候選區(qū)域?qū)罄m(xù)的分類回歸影響極大,而本文中的錨點(diǎn)自動生成模塊可以有效的緩解這個問題。圖5分別展示了本文所提算法以及幾種對比算法的檢測結(jié)果示例。從圖中也可以看出。幾種對比算法中不乏存在漏檢、錯誤檢測以及重疊的情況存在。對比之下,本文算法針對多類多尺度目標(biāo)的檢測效果更勝一籌。
圖5 對比算法檢測結(jié)果示例Fig.5 Detection results with different methods
為了進(jìn)一步驗(yàn)證本文所提算法的有效性,搜集制作了光學(xué)遙感飛機(jī)目標(biāo)檢測數(shù)據(jù)集。首先從網(wǎng)上搜集美國、日本、俄羅斯以及歐洲多個國家的主要飛機(jī)類型以及相關(guān)參數(shù)信息,并找到相應(yīng)類別飛機(jī)常駐地的地理坐標(biāo),利用這些坐標(biāo)從谷歌地球上下載相應(yīng)地點(diǎn)的光學(xué)遙感數(shù)據(jù),圖像分辨率為0.6 m,共計下載約833幅大場景遙感圖像,均包含一個完整的機(jī)場。最后綜合各方面的信息,確定無誤之后在大圖上進(jìn)行人工標(biāo)注。此時數(shù)據(jù)集中飛機(jī)目標(biāo)相關(guān)信息如表5所示。標(biāo)注完成后對原始圖像進(jìn)行如3.1節(jié)所述的裁剪和旋轉(zhuǎn),最后從擴(kuò)充數(shù)據(jù)集中隨機(jī)抽取60%作為訓(xùn)練集,其余作為測試集。實(shí)驗(yàn)中初始學(xué)習(xí)率設(shè)置為0.0025,動量設(shè)置為0.9,正則化系數(shù)設(shè)置為0.0005,批量處理大小為2。
表5 飛機(jī)目標(biāo)數(shù)據(jù)集中的目標(biāo)相關(guān)信息
從表5可以看出所制作的飛機(jī)數(shù)據(jù)集所含目標(biāo)種類較多,且同類目標(biāo)以及不同類目標(biāo)之間都有著較大的尺寸差異,符合包含多類多尺度目標(biāo)的條件,經(jīng)過數(shù)據(jù)擴(kuò)充數(shù)據(jù)量訓(xùn)練樣本為15788,測試樣本數(shù)量為9738,可以滿足神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)集規(guī)模的要求。
由眾多文獻(xiàn)以及前面的實(shí)驗(yàn)可知已知Cascade-RCNN算法為對比算法中性能最優(yōu)的算法,因此本節(jié)擴(kuò)展實(shí)驗(yàn)僅使用Cascade-RCNN (表格中簡稱為Casc)算法以及本章所提算法在飛機(jī)數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),并對兩者的性能進(jìn)行對比分析,實(shí)驗(yàn)結(jié)果如表6所示。
表6 兩類算法針對飛機(jī)目標(biāo)數(shù)據(jù)集的檢測精度
對比可知在飛機(jī)數(shù)據(jù)集上本文所提方法性能依然優(yōu)于Cascade-RCNN算法,與之相比,本文所提方法的mAP提高了8.4%,且在20類目標(biāo)中有16類目標(biāo)的平均檢測精度最優(yōu)。從表格6中可知,對于B-1、C-5、F-15和E-3四類目標(biāo),Cascade-RCNN的檢測效果優(yōu)于本文所提算法,在遙感圖像中,F-15外形以及尺寸和F-16極其相似,肉眼分辨都具有一定難度。并且經(jīng)常會為這些飛機(jī)目標(biāo)涂上偽裝顏色使其與周圍的環(huán)境融為一體,增加了分類的難度,因此存在漏檢和誤檢情況,檢測效果較差一些,同時這也對該遙感領(lǐng)域目標(biāo)檢測技術(shù)提出了更高的要求。對于較小尺度的飛機(jī)目標(biāo)如F- 4、EA- 6B、CH- 46等目標(biāo),本文所提算法的檢測精度得到了大幅度的提升,其AP值分別提高了45%、30.9%、44.2%,這三類目標(biāo)在數(shù)據(jù)集中屬于尺度較小的目標(biāo),除此之外還有Trainer、A-10以及F-5等小尺度飛機(jī)目標(biāo)的檢測精度也分別有不同程度的提升,由此可知本文所提算法對小尺度目標(biāo)的檢測效果非常好,印證了本文的特征增強(qiáng)策略可以彌補(bǔ)網(wǎng)絡(luò)多次卷積和下采樣所帶來的小尺度目標(biāo)信息丟失,有效的增強(qiáng)小尺度目標(biāo)特征信息,提高小尺度目標(biāo)的檢測效果。本文所提算法對于如F-16、P-3、Plane以及Busine等中等尺度的飛機(jī)目標(biāo)的檢測性能也比較優(yōu)異,這些目標(biāo)的尺度相對較大,可辨識的深層抽象語義特征也比較豐富,因此對于中等尺度飛機(jī)目標(biāo)的分類和定位也比較準(zhǔn)確,分別比Cascade-RCNN算法的AP值提升了0.8%、5.7%、1.9%和14.2%。不難看出本文所提方法針對飛機(jī)數(shù)據(jù)集中的絕大部分目標(biāo)都比較友好,充分證明了本文所提方法在多類多尺度目標(biāo)檢測任務(wù)中的優(yōu)勢。圖6展示了部分本文所提算法在飛機(jī)數(shù)據(jù)集上的檢測結(jié)果示例。
圖6 本文所提算法在飛機(jī)數(shù)據(jù)集上部分檢測結(jié)果Fig.6 Number of object detection results on aircraft dataset of the algorithm proposed
針對遙感圖像中不同尺度目標(biāo)檢測算法精度有待提高的問題,本文設(shè)計了一種基于特征增強(qiáng)和錨點(diǎn)自動生成模塊的多類多尺度目標(biāo)檢測框架。該框架以ResNet50為基礎(chǔ)網(wǎng)絡(luò),并在ResNet50中引入可操控的空洞卷積模塊來調(diào)整卷積感受野大小,有效提取不同尺度的目標(biāo)特征信息。在特征融合網(wǎng)絡(luò)部分設(shè)計了增強(qiáng)特征金字塔,構(gòu)造短接支路將原始特征圖信息與金字塔特征圖融合,實(shí)現(xiàn)特征增強(qiáng),有效提高網(wǎng)絡(luò)對多尺度信息的表征能力。在候選區(qū)域生成網(wǎng)絡(luò)中利用錨點(diǎn)自動生成模塊學(xué)習(xí)更加準(zhǔn)確的錨點(diǎn)框信息,生成更高質(zhì)量的稀疏的錨點(diǎn)框。綜上幾點(diǎn)分析以及在多個數(shù)據(jù)集上的實(shí)驗(yàn)證明,本文所提方法對于多類多尺度目標(biāo)的特征提取效果更加友好,能夠更加準(zhǔn)確的檢測遙感圖像多尺度目標(biāo)。