国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度特征融合的遙感圖像小目標(biāo)檢測

2022-05-10 12:13:14茍于濤宋怡萱
光電工程 2022年4期
關(guān)鍵詞:尺度卷積特征

馬 梁,茍于濤,雷 濤,靳 雷,宋怡萱

1中國科學(xué)院光電探測技術(shù)研究室,四川 成都 610209;

2中國科學(xué)院光電技術(shù)研究所,四川 成都 610209;

3中國科學(xué)院大學(xué),北京 100049

1 引 言

近年來,隨著遙感光學(xué)技術(shù)的不斷發(fā)展,高分辨率遙感圖像的大量獲取促進了環(huán)境監(jiān)測、動物保護、交通管理、國防軍事等領(lǐng)域的建設(shè)。在眾多的遙感圖像視覺任務(wù)中,遙感飛機檢測對于民用和國防具有重要意義。與大中型目標(biāo)的檢測精度已提升到一個全新的高度相比,小型目標(biāo)的檢測受特征信息少以及目標(biāo)區(qū)域存在復(fù)雜背景等影響,使得檢測精度不高。因此,本文針對遙感小目標(biāo)檢測展開研究,以期對相關(guān)領(lǐng)域的發(fā)展起到一定的推動作用。

目前,基于深度學(xué)習(xí)的目標(biāo)檢測器大致可分為兩大類:雙階段檢測器(如:RCNN[1]、Fast R-CNN[2]、Faster R-CNN[3])和單階段檢測器 (如:SSD[4]、YOLOv3[5]、RetinaNet[6])。這些方法在大中型目標(biāo)檢測任務(wù)中取得了優(yōu)異的成績,但小目標(biāo)檢測的效果較差。為了提升小目標(biāo)的檢測能力,Lin[7]提出的FPN(feature pyramid networks)結(jié)構(gòu)通過將神經(jīng)網(wǎng)絡(luò)中包含高級語義特征的深層特征圖與包含豐富紋理細節(jié)特征的淺層特征圖相融合。基于此工作,隨后研究人員提出了多種特征融合方法[8-17],檢測性能均得到不同程度的提升。Pang[18]通過引入注意力模型,降低了復(fù)雜背景對小目標(biāo)檢測的影響,降低了虛警率。針對遙感目標(biāo)尺度變化大、遙感圖像背景復(fù)雜等問題,文獻[19]基于RCNN 和FPN 結(jié)構(gòu)進行改進,設(shè)計并融合了全局上下文網(wǎng)絡(luò)和金字塔局部上下文網(wǎng)絡(luò),分別在全局和局部提取上下文信息并引入空間感知注意力模塊,引導(dǎo)網(wǎng)絡(luò)關(guān)注信息更豐富的區(qū)域并生成更合適的圖像特征。最近,Gong[20]開始對特征融合時的權(quán)重進行研究,其通過統(tǒng)計的方法生成一組融合權(quán)重引入FPN 結(jié)構(gòu),進一步提升了小目標(biāo)的檢測性能。這些檢測算法在自然圖像中雖有出色的檢測能力,但在遙感小目標(biāo)檢測方面的表現(xiàn)與應(yīng)用均欠佳,主要原因有以下幾點:

1) 模型復(fù)雜,實時性差。很多基于深度學(xué)習(xí)的檢測方法是通過增加網(wǎng)絡(luò)深度和模型的復(fù)雜度來提升檢測性能,龐大的計算量對硬件提出了更高的要求。與之相反,很多遙感檢測任務(wù)需要在一些算力有限的邊緣設(shè)備上部署,對模型的實時性有一定要求。因此,很多優(yōu)秀的檢測算法無法應(yīng)用到其中。

2) 遙感圖像背景復(fù)雜且目標(biāo)尺度分布范圍較廣。小目標(biāo)自身可用于區(qū)分的特征相對較少,因此相似的背景會對小目標(biāo)檢測產(chǎn)生嚴重干擾。如圖1 所示,與飛機形狀過于接近的背景增加了網(wǎng)絡(luò)訓(xùn)練的難度。同時,不同圖像間由于分辨率不同,可能導(dǎo)致目標(biāo)類內(nèi)甚至類間巨大的尺度差異,大大增加了目標(biāo)檢測的難度。單一尺度很難覆蓋所有的目標(biāo),因此,多尺度目標(biāo)檢測成為遙感圖像檢測的標(biāo)配方式。

另外,目前雖有一些公開的遙感目標(biāo)檢測數(shù)據(jù)集如DOTA[21]、DOAI[22],但其多針對通用檢測任務(wù)。對于特定任務(wù)(如:遙感小目標(biāo)檢測)的數(shù)據(jù)集極度匱乏。針對這一問題,一些檢測或跟蹤算法[23-28]采用的方式是基于大型公開數(shù)據(jù)集(如:ImageNet[29])上預(yù)訓(xùn)練好的模型在遙感數(shù)據(jù)上微調(diào)。而將通用數(shù)據(jù)集作為某一特定任務(wù)的數(shù)據(jù)支撐,其最終結(jié)果很難有保證。還有針對遙感目標(biāo)方向任意分布的問題,文獻[30-32]提出了多種基于旋轉(zhuǎn)框的目標(biāo)檢測算法。其中,文獻[32]的實驗結(jié)果顯示,基于旋轉(zhuǎn)框的檢測算法在面對不同目標(biāo)類別時表現(xiàn)出了不同的性能:在檢測飛機、棒球場這些長寬比接近1:1 的目標(biāo)時性能下降;在檢測網(wǎng)球場、足球場等這些近似矩形目標(biāo)時性能提升,說明旋轉(zhuǎn)框并不適用于所有遙感目標(biāo)。

圖1 遙感圖像中的復(fù)雜背景Fig.1 Complex background in remote sensing images

為了解決上述問題,本論文提出了一種魯棒的基于多尺度特征融合的遙感圖像小目標(biāo)檢測方法,其主要特點是:1) 由于圖像輸入常用的神經(jīng)網(wǎng)絡(luò)(如:ResNet、VGG-16)后會進行多次采樣和卷積,造成小目標(biāo)特征嚴重丟失,影響最終的檢測精度。為此,根據(jù)數(shù)據(jù)集中所有目標(biāo)尺寸的分布情況(即:先驗知識),我們提出了一種基于動態(tài)選擇機制的輕量化特征提取模塊,它允許每個神經(jīng)元依據(jù)目標(biāo)的不同尺度自適應(yīng)地分配用于檢測的感受野大小并控制采樣次數(shù)。2) FPN 雖已被廣泛用于解決小目標(biāo)漏檢問題,但是不同尺度特征所反應(yīng)的信息量通常各不相同且各有側(cè)重,因此提出了基于自適應(yīng)特征加權(quán)融合的FPN 模塊,它利用分組卷積的方式對所有特征通道分組且組間互不影響,從而進一步增加圖像特征表達的準(zhǔn)確性。3) 針對遙感小目標(biāo)數(shù)據(jù)集匱乏的問題,本文自建了一個遙感飛機小目標(biāo)數(shù)據(jù)集,并對DOTA 數(shù)據(jù)集中的飛機和小汽車目標(biāo)做處理,使其尺寸分布滿足小目標(biāo)檢測的任務(wù)。最后,在DOTA 和自建數(shù)據(jù)集上的實驗結(jié)果表明,本文所提方法與主流檢測算法相比均是最優(yōu)結(jié)果。

2 方法原理

基于多尺度特征融合的遙感圖像小目標(biāo)檢測方法,由基于動態(tài)選擇機制的輕量化特征提取模塊、基于自適應(yīng)特征加權(quán)融合的FPN 模塊、目標(biāo)分類及位置回歸模塊組成,其網(wǎng)絡(luò)框架見圖2。

2.1 網(wǎng)絡(luò)概述

遙感圖像的尺寸一般較大,直接輸入網(wǎng)絡(luò)會導(dǎo)致龐大的計算量,從而引起內(nèi)存不足。受文獻[33]工作的啟發(fā),本文對大尺寸遙感圖像預(yù)處理,以圖像中任一目標(biāo)為中心統(tǒng)一裁剪為600 pixels×600 pixels 大小,超出部分用0 填充,然后輸入網(wǎng)絡(luò)進行訓(xùn)練。網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。首先,基于動態(tài)選擇機制的輕量化特征提取模塊負責(zé)對輸入圖像進行特征提取,隨后通過自適應(yīng)特征加權(quán)融合的FPN 模塊實現(xiàn)多尺度特征間的信息互補與加強,增強后的特征用來進行目標(biāo)分類和位置回歸。整個網(wǎng)絡(luò)可以端到端從頭訓(xùn)練模型。

2.2 基于動態(tài)選擇機制的輕量化特征提取模塊

圖2 網(wǎng)絡(luò)框架Fig.2 Network framework

圖3 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Network structure

目前,大多數(shù)目標(biāo)檢測方法都采用VGG16、ResNet50、ResNet101 等網(wǎng)絡(luò),訓(xùn)練時基于ImageNet上預(yù)訓(xùn)練好的模型在自己的數(shù)據(jù)上進行微調(diào)。這種方式雖在一定程度上可以加快模型的收斂速度,但也存在一些弊端:1) 上述提到的特征提取網(wǎng)絡(luò)參數(shù)量龐大,在要求實時性的任務(wù)中并不適用,此外當(dāng)訓(xùn)練數(shù)據(jù)不足時模型泛化性也較差;2) VGG[34]和ResNet[35]網(wǎng)絡(luò)原本是針對圖像分類任務(wù)設(shè)計的,過多的下采樣操作可能導(dǎo)致深層特征無法有足夠的分辨率來支持目標(biāo)檢測任務(wù),這一點對小目標(biāo)尤為不利;3) 由于自然圖像和遙感圖像間存在一定的特征鴻溝,將自然圖像的預(yù)訓(xùn)練模型應(yīng)用到遙感圖像中可能導(dǎo)致次優(yōu)的訓(xùn)練結(jié)果。

為了解決前述問題,本文提出了一種基于動態(tài)選擇機制的輕量化特征提取模塊,其結(jié)構(gòu)如圖3(a)所示。首先,我們統(tǒng)計數(shù)據(jù)集目標(biāo)的整體尺寸分布情況(作為一種先驗知識),然后依據(jù)數(shù)量將目標(biāo)近似均勻地劃分為多個尺度,同時根據(jù)劃分的尺度分別計算用于檢測的感受野大小(小尺度目標(biāo)自身特征稀少,需要上下文信息輔助判斷,因此感受野與目標(biāo)尺度比值要略大)。隨后,模型依據(jù)輸入目標(biāo)的尺寸以及對應(yīng)的感受野大小自主動態(tài)選擇相應(yīng)的特征圖進行檢測。感受野計算表達式如下:

式中:RF(i)表 示網(wǎng)絡(luò)第i層 的感受野大小,k表示第i層卷積核的大小,S j表 示第j層的卷積步長。根據(jù)式(1)可知,感受野大小與網(wǎng)絡(luò)的深度和累積卷積步長成正相關(guān)關(guān)系。因此需要合理設(shè)置卷積層的卷積步長,使網(wǎng)絡(luò)既能快速達到滿足檢測所有目標(biāo)的感受野大小,保證網(wǎng)絡(luò)輕量化,同時又能使小目標(biāo)在深層網(wǎng)絡(luò)中保留盡可能多的特征信息。

通過實驗分析,該模塊具有以下優(yōu)勢:1) 網(wǎng)絡(luò)參數(shù)量少。如表1 所示,相比VGG 和ResNet,我們的參數(shù)量大幅度減少,這使得可以不用依賴任何預(yù)訓(xùn)練模型就可以快速從頭訓(xùn)練網(wǎng)絡(luò),這也規(guī)避了不同數(shù)據(jù)集間因存在特征鴻溝而引起的模型性能下降。2) 網(wǎng)絡(luò)結(jié)構(gòu)易于修改,普適性高??筛鶕?jù)任務(wù)需求快速修改網(wǎng)絡(luò)結(jié)構(gòu),同時還便于和其他通用檢測模塊相結(jié)合,如FPN,進而執(zhí)行更復(fù)雜的檢測任務(wù)。

2.3 基于自適應(yīng)特征加權(quán)融合的FPN 模塊

區(qū)別于圖像中的大中型目標(biāo),小目標(biāo)往往呈現(xiàn)外觀模糊,不易察覺的特點,有些小目標(biāo)甚至只有幾個像素到十幾個像素,這就導(dǎo)致小目標(biāo)存在特征稀少、高區(qū)分度特征提取困難等問題。神經(jīng)網(wǎng)絡(luò)淺層特征缺乏足夠的語義信息,較小的感受野很難提取到全局語義,因此需要高層語義的融合,輔助淺層網(wǎng)絡(luò)檢測小目標(biāo)。

表1 不同網(wǎng)絡(luò)的參數(shù)量Table 1 Parameters of different networks

自FPN 問世后,當(dāng)前對多尺度特征融合的研究多集中在以下幾個方面:

1) 多尺度融合結(jié)構(gòu)的探索。通過構(gòu)建更加復(fù)雜的融合結(jié)構(gòu)和融合策略來提升目標(biāo)檢測的性能,但復(fù)雜的結(jié)構(gòu)帶來了大量運算和內(nèi)存開銷。另外,不同尺度的特征對融合的貢獻值不同。絕大多數(shù)融合結(jié)構(gòu)都是將多尺度特征無差別的1:1 直接融合,這種策略并非在所有任務(wù)中都能產(chǎn)生最優(yōu)的融合效果。一個10 像素的目標(biāo)在經(jīng)過三次兩倍下采樣操作后,在特征圖上僅剩1 到2 個像素的信息,幾乎沒有可用來檢測的特征。這種情況下,傳統(tǒng)的FPN 結(jié)構(gòu)可能并非最優(yōu)方案甚至在某些情況下帶來負面影響。

2) 目標(biāo)尺度匹配問題研究,F(xiàn)SAF[36]拋開錨框匹配策略,提出了一種目標(biāo)自適應(yīng)尺度匹配方法,但過多的計算開銷以及不易設(shè)計合理的損失函數(shù)使其在實際應(yīng)用中比較困難。

為了充分發(fā)揮多尺度特征間的互補作用,本文提出了一種基于自適應(yīng)特征加權(quán)融合的FPN 模塊,如圖3(b)所示。具體研究思路如下:我們首先對特征圖的通道進行分組操作。然后,通過分組卷積操作使各特征f獨立取得融合因子α 并獲得加權(quán)特征圖(見圖4),其計算表達式:

式中:1 ≤i≤G;1 ≤j≤C/G,G和C分別表示分組數(shù)目和特征圖的通道數(shù),fij表示第i組第j個通道的特征,αij是作用于fij上的融合因子。在模型訓(xùn)練過程中,它可以根據(jù)不同的數(shù)據(jù)和目標(biāo)函數(shù),通過梯度反向傳播不斷學(xué)習(xí)優(yōu)化,最終達到最優(yōu)的融合效果。注意:在組內(nèi)進行常規(guī)卷積運算,組間互不影響。另外,該方法具有壓縮計算量的特點。其參數(shù)量是相同標(biāo)準(zhǔn)卷積的1/G。在獲得加權(quán)特征圖Frefined的基礎(chǔ)上,進一步融合其它尺度的特征,獲得信息更完整,更有區(qū)分度的特征Fdet_i,從而提升目標(biāo)檢測的精度。多尺度特征融合表達式如下:

圖4 基于分組卷積的特征加權(quán)方法Fig.4 Feature weighting method based on grouped convolution

式中:Fdet_i表示用于檢測第i個尺度目標(biāo)的最終特征圖,fi表 示第i個 尺度的原始特征圖,conv和Deconv分別表示卷積和反卷積運算,k1、k2、k3、k4分別表示各卷積運算對應(yīng)的卷積核。

2.4 目標(biāo)分類及回歸模塊

Anchor-base 是一種常見的目標(biāo)分類與回歸策略,但這種方式存在一些不足:錨框尺寸、長寬比以及數(shù)量都需要根據(jù)目標(biāo)的尺度分布情況而定,這是一個相當(dāng)繁瑣的過程。

人眼能看到的區(qū)域稱為“視場”,只有進入其中的目標(biāo)才有可能被人發(fā)現(xiàn),卷積網(wǎng)絡(luò)某一層的特征圖的某個位置的特征向量是從前一層的特定區(qū)域計算出來的,即感受野。如圖5(a)所示,對于3×3 卷積,底部左下角的3×3 紅色區(qū)域就是頂部左下角的感受野。而感受野就是神經(jīng)網(wǎng)絡(luò)的“視場”。我們基于感受野對目標(biāo)進行分類和回歸,如圖5(b)所示,紅色虛線框代表某一感受野范圍,當(dāng)目標(biāo)位于其中時,分為正樣本(綠色標(biāo)定目標(biāo)),反之為負樣本(藍色標(biāo)定目標(biāo));若目標(biāo)同時處于多個感受野內(nèi)時,則將其忽略(黃色標(biāo)定目標(biāo))。分類損失采用交叉熵損失,回歸損失使用L2 損失。

其中:y和yi表 示目標(biāo)值,y?和f(xi)表示預(yù)測值。

3 實驗結(jié)果

3.1 數(shù)據(jù)集

圖5 (a)卷積網(wǎng)絡(luò)感受野示意圖;(b)基于感受野的目標(biāo)分類策略Fig.5 (a) Schematic diagram of convolutional network receptive field;(b) Object classification strategy based on receptive field

DOTA-v1.5:武漢大學(xué)公開發(fā)布的航空圖像目標(biāo)檢測數(shù)據(jù)集,共計2806 張,尺寸800 pixels×800 pixels~4000 pixels×4000 pixels 不等,包含16 個類別共計40 萬個實例。數(shù)據(jù)集的飛機目標(biāo)尺度分布范圍較廣,我們所關(guān)注的目標(biāo)主要是32 pixels 以下的小目標(biāo)。將數(shù)據(jù)集中所有的飛機目標(biāo)選出后進行處理,最終99.7%的目標(biāo)分布在6 pixels~70 pixels 之間,且6 pixels~30 pixels 的小目標(biāo)占比達到74.8%,其中,訓(xùn)練集646 張圖像,13790 個目標(biāo);測試集160 張圖像,3102 個目標(biāo)。此外,我們還將數(shù)據(jù)集中的小汽車(small-vehicle)目標(biāo)選出后進行處理,最終99.8%的目標(biāo)分布在6 pixels~60 pixels 之間,且6 pixels~25 pixels 的小目標(biāo)占比達到74.7%,其中,訓(xùn)練集9120 張圖像,185044 個目標(biāo);測試集2610 張圖像,60193 個目標(biāo)。

自建數(shù)據(jù)集:本文建立了一個包含3576 張圖像,24853 個目標(biāo)實例的遙感飛機小目標(biāo)數(shù)據(jù)集。其中,99.7%的目標(biāo)分布在6 pixels~50 pixels 之間,且20 pixels 以下的目標(biāo)占比達到了64.2%,其中,訓(xùn)練集有2835 張圖像,19722 個目標(biāo);測試集741 張圖像,5131 個目標(biāo)。

實驗數(shù)據(jù)集目標(biāo)的尺度分布統(tǒng)計情況見圖6,經(jīng)過預(yù)處理后DOTA 數(shù)據(jù)集中飛機與小汽車的訓(xùn)練集和測試集樣圖見圖7。

3.2 數(shù)據(jù)預(yù)處理

為了得到泛化能力更強的檢測模型,在數(shù)據(jù)輸入網(wǎng)絡(luò)進行訓(xùn)練前,我們對數(shù)據(jù)進行了如下預(yù)處理:

1) 通用數(shù)據(jù)增強方法:為了提升數(shù)據(jù)的表達能力,我們對數(shù)據(jù)進行了翻折、隨機亮度調(diào)整、隨機飽和度調(diào)整、隨機對比度調(diào)整、均值濾波以及高斯濾波。通過這些方法讓圖像數(shù)據(jù)體現(xiàn)更多實際中的場景,進而提升訓(xùn)練模型的泛化能力。

圖6 數(shù)據(jù)集目標(biāo)尺度分布Fig.6 Object scale distribution of the dataset

圖7 DOTA 數(shù)據(jù)集中的飛機與小汽車圖像樣例。(a)訓(xùn)練集,(b)測試集Fig.7 Sample of plane and small-vehicle image of DOTA dataset used in the experiment.(a) Training set;(b) Testing set

2) 隨機目標(biāo)中心裁剪:為了讓網(wǎng)絡(luò)學(xué)習(xí)更加泛化的特征,每次隨機以圖像中的某個目標(biāo)為中心,裁剪一張600 pixels×600 pixels 的“新圖像”,然后送入網(wǎng)絡(luò)進行訓(xùn)練。這樣處理可以進一步提高訓(xùn)練數(shù)據(jù)的多樣性,即使同一張圖像,在不同mini-batch 的訓(xùn)練中,也可以生成完全不同的訓(xùn)練數(shù)據(jù),同時隨機裁剪又可以避免網(wǎng)絡(luò)學(xué)習(xí)一些無關(guān)緊要的位置信息,迫使其學(xué)習(xí)更加魯棒的目標(biāo)特征。

3) 小目標(biāo)增強:目標(biāo)越小越難以捕捉和學(xué)習(xí)其特征,我們使用的數(shù)據(jù)集中有大量6 pixels~15 pixels 的極小目標(biāo),為了保證網(wǎng)絡(luò)對這些小目標(biāo)的學(xué)習(xí)能力,在每個mini-batch 的數(shù)據(jù)中,至少保證有一個目標(biāo)處于該尺度,否則重新選擇一批數(shù)據(jù)送入網(wǎng)絡(luò)訓(xùn)練。這樣處理可以使網(wǎng)絡(luò)在每次訓(xùn)練的過程中都有這些極小目標(biāo)的特征去學(xué)習(xí),從而避免網(wǎng)絡(luò)過多學(xué)習(xí)大尺寸目標(biāo)的特征而導(dǎo)致對小目標(biāo)檢測能力的下降。

4) 目標(biāo)剪切粘貼:DOTA 數(shù)據(jù)集處理完成后,統(tǒng)計發(fā)現(xiàn)15 pixels 以下的飛機目標(biāo)數(shù)量較少,而該尺度內(nèi)的小目標(biāo)最難檢測,需要保證有足夠數(shù)量的目標(biāo)位于該尺度范圍內(nèi)。因此采用隨機裁剪粘貼的方法,裁剪目標(biāo)一共嘗試了兩種方案:沿物體邊緣將目標(biāo)摳出和連帶目標(biāo)周圍小部分背景按矩形扣出。接下來,對摳出的目標(biāo)隨機進行數(shù)據(jù)增強,包括翻折,旋轉(zhuǎn),對比度、飽和度變換等,使目標(biāo)更好地模擬實際遙感圖像中可能出現(xiàn)的不同情況,并且能夠進一步增加數(shù)據(jù)量。最后,將目標(biāo)隨機粘貼到背景中的某一區(qū)域。經(jīng)過實驗發(fā)現(xiàn),按第一種裁剪目標(biāo)方案摳出的目標(biāo)會導(dǎo)致網(wǎng)絡(luò)不收斂。主要原因是按邊緣裁剪會破壞目標(biāo)自身的邊緣特征,而目標(biāo)的邊緣特征是網(wǎng)絡(luò)執(zhí)行目標(biāo)回歸重要的信息支撐,這些被破壞的邊緣特征分布與其他真實目標(biāo)的邊緣特征分布不一致,模型難以在這樣的數(shù)據(jù)下擬合。為了避免邊緣的影響,最終采用了第二種目標(biāo)裁剪方案,該方案不會對目標(biāo)的邊緣信息造成破壞。該方法流程如圖8 所示。

5) 目標(biāo)標(biāo)注優(yōu)化:首先,在處理DOTA 數(shù)據(jù)集時,我們經(jīng)過了降采樣處理,處理之后的某些小目標(biāo)已經(jīng)無法辨認,如果將這些目標(biāo)繼續(xù)作為正樣本參與訓(xùn)練會干擾模型的擬合效果,因此將這些目標(biāo)剔除作為負樣本,剔除方法包括真值框去除和背景覆蓋兩種形式。其次,對剪切粘貼后的擴充目標(biāo)重新標(biāo)記。最后,對一些密集排布的小目標(biāo)標(biāo)注框重新標(biāo)注校正,確保標(biāo)簽可靠準(zhǔn)確。

3.3 評估指標(biāo)

圖8 目標(biāo)剪切粘貼流程示意圖Fig.8 Objects cut and copy flow diagram

目標(biāo)檢測常用的評價指標(biāo)有準(zhǔn)確率(precision)、召回率(recall)、AP (average precision)和mAP (mean average precision)。單純依靠準(zhǔn)確率或召回率來進行算法優(yōu)劣的評價是不嚴謹?shù)模驗橥环N算法可以通過調(diào)整置信度閾值來改變準(zhǔn)確率或者召回率。而AP是P-R 曲線與坐標(biāo)軸所圍區(qū)域的面積,其值可以綜合反映算法在準(zhǔn)確率和召回率上的優(yōu)劣,越接近1 算法性能越好。mAP 是所有類別AP 值的均值。由于我們的檢測目標(biāo)只有飛機一個類別,因此,對于本文的任務(wù)來說,mAP 和AP 指標(biāo)一致。

3.4 參數(shù)設(shè)置

我們使用SGD 優(yōu)化器訓(xùn)練網(wǎng)絡(luò),動量設(shè)為0.9,權(quán)重衰減為0.00001。mini-batch 為8,初始學(xué)習(xí)率為0.1,共訓(xùn)練50 萬次,其中在30 萬和45 萬次后學(xué)習(xí)率下調(diào)10 倍。NMS 閾值設(shè)為0.4。

3.5 對比實驗與數(shù)據(jù)分析

3.5.1 不同金字塔層數(shù)的融合對比實驗

根據(jù)自建數(shù)據(jù)集目標(biāo)尺度的分布情況,將目標(biāo)分為多個尺度,我們實驗了兩種方案:劃分為2 個尺度和3 個尺度,并分別計算其對應(yīng)的感受野大小,具體參數(shù)見表2。實驗結(jié)果見表3 (B_x表示特征提取網(wǎng)絡(luò)有x個Basic unit)。其中,雙尺度方案使mAP 提升0.4%,三尺度方案使mAP 提升1.1%,同時,準(zhǔn)確率和召回率相比前者也均有明顯提升。這是由于前者在單一尺度上劃分比較廣,導(dǎo)致用較大感受野檢測小目標(biāo),同時4 倍下采樣使小目標(biāo)信息丟失嚴重,對小目標(biāo)檢測造成較大干擾。作為對比,后者在尺度劃分和感受野大小匹配上更加精細,在提供小目標(biāo)檢測所需上下文信息的同時,保留了更多小目標(biāo)自身的特征信息。

表2 特征圖感受野與對應(yīng)目標(biāo)尺寸參數(shù)Table 2 Receptive field of feature map and corresponding object size parameters

表3 不同特征融合方案的檢測結(jié)果Table 3 Detection results of different feature fusion schemes

之后的所有實驗都采用3 個尺度的劃分方案。雖然此實驗是在自建的數(shù)據(jù)集上進行的,但根據(jù)統(tǒng)計信息,處理后的DOTA 數(shù)據(jù)集目標(biāo)尺度分布情況與其非常接近,因此,訓(xùn)練檢測DOTA 數(shù)據(jù)集也沿用該方案。

3.5.2 基于自適應(yīng)特征加權(quán)融合的FPN 模塊的有效性

我們的融合因子取自1×1 卷積核,隨后通過分組卷積實現(xiàn)融合因子與特征圖的加權(quán)操作。為了驗證融合因子的有效性,在DOTA 和自建數(shù)據(jù)集上分別進行了多組對比實驗,實驗結(jié)果如表4、表5 和表6。可以看出,不同方式下的加權(quán)融合相比傳統(tǒng)FPN 均帶來不同程度的性能提升。同時如圖9 和圖10 所示,模型收斂速度進一步加快。具體檢測效果如圖11、圖12 所示。

特征圖的每個通道都包含了一組特定的特征信息,它們彼此之間的關(guān)聯(lián)性有強有弱,有效地利用它們之間的關(guān)聯(lián)性,可以進一步提升融合特征圖的信息表達能力。具體的融合方式有兩種:1) 利用分組卷積組間計算互不影響的特點,對特征通道進行不同數(shù)量的分組(例如分為3 組等),然后通過實驗結(jié)果可以在某種程度上間接分析這些通道特征之間的關(guān)聯(lián)性。但這種方式缺乏理論支撐,只能盲目地通過實驗不斷嘗試。2) 考慮到每一個通道特征都有決定最終融合效果的能力。直接將分組卷積的分組數(shù)量設(shè)為與對應(yīng)特征圖通道(channel)數(shù)量相等,這樣即考慮了每一個通道特征對于融合的貢獻值,又使每個通道特征都獨立獲得一個屬于自己的融合權(quán)重,加之通過網(wǎng)絡(luò)的不斷學(xué)習(xí),最終得到一組最佳的融合權(quán)值。我們進行了一系列對比實驗(見表4、表5 和表6),結(jié)果證明了所提方法的有效性。同時分組卷積相比常規(guī)卷積,可以大大降低計算量,分組數(shù)量越多,計算量越小。因此,該方法在提升目標(biāo)檢測性能的同時,還最大程度兼顧了算法的實時性。

與可自適應(yīng)學(xué)習(xí)的融合因子一樣,常數(shù)因子也可用于融合加權(quán),例如FPN 的融合權(quán)重為常數(shù)1??紤]到某一尺度的目標(biāo)越多,其產(chǎn)生的損失往往也越大,這可能導(dǎo)致網(wǎng)絡(luò)偏向于學(xué)習(xí)該尺度的目標(biāo)特征,降低模型的性能。因此,我們稍作改變:根據(jù)目標(biāo)在相鄰尺度區(qū)間內(nèi)分布數(shù)量的比值作為常數(shù)融合因子(見表7)。實驗發(fā)現(xiàn),其性能在不同數(shù)據(jù)集上會產(chǎn)生不一致的結(jié)果。主要原因是:神經(jīng)網(wǎng)絡(luò)是將網(wǎng)絡(luò)產(chǎn)生的損失值通過梯度反向傳播的方式來不斷優(yōu)化網(wǎng)絡(luò)的擬合效果。FPN 的結(jié)構(gòu)決定了每個尺度的損失都會受其他尺度損失的影響,融合因子可以調(diào)節(jié)各尺度損失在其他尺度損失中的占比,從而使各尺度更有效地學(xué)習(xí)各自所需的特征。由于訓(xùn)練時不同mini-batch 中的目標(biāo)尺度分布情況不一定與總體分布一致,因此使用基于數(shù)據(jù)集整體目標(biāo)尺度分布統(tǒng)計得到的固定融合因子去訓(xùn)練網(wǎng)絡(luò)可能會得到次優(yōu)甚至不收斂的情況。

表4 網(wǎng)絡(luò)不同配置下的DOTA 飛機數(shù)據(jù)集測試結(jié)果Table 4 DOTA plane dataset test results under different network configurations

表5 網(wǎng)絡(luò)不同配置下的DOTA 小汽車數(shù)據(jù)集測試結(jié)果Table 5 DOTA small-vehicle dataset test results under different network configurations

表6 網(wǎng)絡(luò)不同配置下的自建數(shù)據(jù)集測試結(jié)果Table 6 Test results of our dataset under different network configurations

圖9 網(wǎng)絡(luò)在DOTA 飛機訓(xùn)練集上訓(xùn)練的loss 曲線Fig.9 The loss curve of the network trained on the DOTA plane training set

圖10 網(wǎng)絡(luò)在DOTA 小汽車訓(xùn)練集上訓(xùn)練的loss 曲線Fig.10 The loss curve of the network trained on the DOTA small-vehicle training set

圖11 部分飛機檢測結(jié)果。黃色圓圈代表虛警,綠色圓圈代表漏檢。Fig.11 Partial plane test results.Yellow circles represent false alarms and green circles represent missed detection.

除以上探討的因素外,自適應(yīng)融合因子的初始值也是決定特征融合結(jié)果的重要因素。因此,在DOTA數(shù)據(jù)集(飛機類目標(biāo))上對比了融合因子不同初始化方法對檢測結(jié)果的影響。實驗結(jié)果見表8。隨機初始化融合因子會導(dǎo)致檢測性能驟降。主要是因為隨機初始化權(quán)重值偏小,甚至接近于0。過小的融合權(quán)重在一開始就稀釋了太多的特征信息,致使后續(xù)檢測無法獲取足夠的特征導(dǎo)致模型性能衰退。初值為1 可以保證特征信息在一開始不會受到損失,隨后網(wǎng)絡(luò)通過學(xué)習(xí)不斷優(yōu)化融合權(quán)重,最終得到一組最優(yōu)解。同時,圖13 展示了融合因子在不同初始值下的模型收斂過程??梢钥闯?,初值為1 情況下的模型收斂速度不僅更快,而且更趨向于收斂到最優(yōu)解。

表7 數(shù)據(jù)集各尺度目標(biāo)分布數(shù)量統(tǒng)計Table 7 Statistics of the distribution of each scale objects number

表8 融合因子初始值對檢測性能的影響Table 8 Influence of initial value of fusion factor on detection performance

圖13 融合因子不同初始值下的模型收斂情況Fig.13 Model convergence under different initial values of fusion factors

3.5.3 與不同方法的對比

為了讓網(wǎng)絡(luò)更多地關(guān)注小目標(biāo)本身的語義特征,避免背景信息的干擾,嘗試引入CBAM[37]注意力機制方法,其主要包含兩個模塊:通道注意力和空間注意力。通道注意力關(guān)注物體類別的判定,通過均值池化和最大池化聚合每一個通道的空間信息,通過多層感知機判斷不同通道對類別判斷的重要性,生成通道注意力權(quán)重??臻g注意力則關(guān)注物體空間位置的判定,在通道維實現(xiàn)最大池化和均值池化,強化空間特征,利用卷積生成空間注意力權(quán)重。

CBAM 的通道注意力思想與本文提出的多尺度特征自適應(yīng)加權(quán)融合有相似之處,都是通過生成一組權(quán)重來衡量通道間特征的一個重要程度。但前者只是在單一特征圖上進行這一操作,并未增加特征的信息量;后者在分析單一特征圖各通道權(quán)重的同時進一步融合了多個尺度特征間的信息,增強了特征圖信息的表達能力。同時生成權(quán)值采用的方式也不一樣。

對兩種方法的實驗對比結(jié)果如表9 所示。本文的方法在檢測性能以及模型推理速度方面要全面優(yōu)于CBAM 注意力機制。主要原因是CBAM 并沒有增加特征圖的信息量,對后續(xù)目標(biāo)檢測任務(wù)的支持能力有限;其次,CBAM 模塊引入了大量計算,直接導(dǎo)致推理速度下降三分之一左右,而本文采用分組卷積的方法,在引入自適應(yīng)融合因子的同時帶來了極小的額外計算開銷。

為了進一步驗證本文方法的有效性,與多種目標(biāo)檢測算法進行比較,實驗結(jié)果見表10。本文的方法在三個數(shù)據(jù)集上均是最優(yōu)的。同時,DOTA 數(shù)據(jù)集是彩色圖像,我們的數(shù)據(jù)集是灰度圖像,這證明本文的算法不受彩色圖或灰度圖的限制。此外,在DOTA數(shù)據(jù)集上進一步測試了基于自適應(yīng)特征加權(quán)融合的FPN 模塊在雙階段檢測器上的效果,實驗見表11。結(jié)果表明該模塊在雙階段檢測器上依然適用。本文的算法是魯棒的。

表9 CBAM 與自適應(yīng)融合模塊對檢測性能的影響Table 9 Influence of CBAM and adaptive fusion module on detection performance

表10 不同方法檢測性能對比Table 10 Comparison of detection performance of different methods

表11 基于自適應(yīng)特征加權(quán)融合的FPN 模塊在Faster R-CNN 上的性能Table 11 Performance of FPN module based on adaptive feature weighted fusion on Faster R-CNN

4 結(jié) 論

針對遙感小目標(biāo)易受復(fù)雜背景干擾、通用檢測算法表現(xiàn)不佳以及相關(guān)數(shù)據(jù)集匱乏的問題,本文提出了解決方法:首先提出了一種基于動態(tài)選擇機制的輕量化特征提取模塊,它允許每個神經(jīng)元依據(jù)目標(biāo)的不同尺度自適應(yīng)地分配用于檢測的感受野大小,降低復(fù)雜背景對小目標(biāo)檢測的影響。其次,不同尺度特征所反應(yīng)的信息量各不相同且各有側(cè)重,提出了基于自適應(yīng)特征加權(quán)融合的FPN 模塊,它利用分組卷積的方式對所有特征通道分組且組間互不影響,從而進一步增加圖像特征表達的準(zhǔn)確性。另外,深度學(xué)習(xí)需要大量數(shù)據(jù)驅(qū)動,本文自建了一個遙感飛機小目標(biāo)數(shù)據(jù)集,并對DOTA 數(shù)據(jù)集中的飛機和小汽車目標(biāo)做處理,使其尺寸分布滿足小目標(biāo)檢測的任務(wù)。最后,在DOTA 飛機目標(biāo)、DOTA 小汽車目標(biāo)和自建數(shù)據(jù)集上的實驗結(jié)果顯示,所采用的方法分別達到了83.6%、68.7%和91%的mAP,相比傳統(tǒng)FPN 帶來了1.6%、2.8%和0.8%的mAP 提升。同時也驗證了本文所提出的自適應(yīng)融合模塊在雙階段檢測器上同樣適用,我們的方法是魯棒的。但是,該網(wǎng)絡(luò)目前也存在不足之處,如:對于密集排布的小目標(biāo)存在漏檢問題,后續(xù)的工作將進一步展開研究。

猜你喜歡
尺度卷積特征
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
財產(chǎn)的五大尺度和五重應(yīng)對
如何表達“特征”
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
不忠誠的四個特征
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
抓住特征巧觀察
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
9
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
房产| 保德县| 景东| 永春县| 栖霞市| 峨山| 湛江市| 巍山| 上高县| 富川| 新干县| 迭部县| 汉寿县| 张家川| 寿阳县| 临桂县| 台南县| 外汇| 图们市| 盘山县| 塔河县| 武强县| 新营市| 大姚县| 昭觉县| 诸暨市| 安塞县| 大理市| 桑植县| 清丰县| 佛冈县| 双鸭山市| 阿勒泰市| 万载县| 米林县| 扶沟县| 阿拉善左旗| 保亭| 柯坪县| 张北县| 灵石县|