陳 丁,萬(wàn) 剛,李 科
信息工程大學(xué),河南 鄭州 450001
光學(xué)遙感影像的目標(biāo)檢測(cè),是遙感影像分析中一項(xiàng)極具挑戰(zhàn)的研究?jī)?nèi)容,其廣泛應(yīng)用于土地規(guī)劃、環(huán)境監(jiān)測(cè)、城市安防、交通規(guī)劃和軍事指揮等眾多領(lǐng)域,近年來(lái)受到越來(lái)越多的關(guān)注[1]。與此同時(shí),深度學(xué)習(xí)作為大數(shù)據(jù)、高性能計(jì)算環(huán)境下快速發(fā)展的一門(mén)新興機(jī)器學(xué)習(xí)技術(shù),具備超強(qiáng)的數(shù)據(jù)學(xué)習(xí)能力和高度的特征抽象能力,如何將深度學(xué)習(xí)應(yīng)用于遙感影像的目標(biāo)檢測(cè)成為新的研究熱點(diǎn)。
在自然圖像領(lǐng)域,深度學(xué)習(xí)的應(yīng)用極大地提升了目標(biāo)檢測(cè)的性能,并出現(xiàn)了許多優(yōu)秀的算法,主要分為基于區(qū)域推薦(region proposals)的檢測(cè)方法和基于回歸的檢測(cè)方法[2-6]。然而,與自然圖像不同,深度學(xué)習(xí)應(yīng)用于遙感影像的目標(biāo)檢測(cè)更具挑戰(zhàn)性。如圖1所示,對(duì)比VOC2007數(shù)據(jù)集[7]和NWPU VHR-10數(shù)據(jù)集[8],可以看出:
(1) 目標(biāo)尺度多樣。遙感影像拍攝高度從幾百米到上萬(wàn)米,即使是同類(lèi)目標(biāo)成像也大小不一。
(2) 小目標(biāo)居多。VOC數(shù)據(jù)集中目標(biāo)占據(jù)圖像的大部分區(qū)域,而遙感影像中多為小目標(biāo)。小目標(biāo)攜帶信息量較小,而CNN采樣會(huì)讓信息量進(jìn)一步減少甚至無(wú)法區(qū)分。
(3) 目標(biāo)外觀相似性。如圖1所示,道路和橋梁以及籃球場(chǎng)和田徑場(chǎng)場(chǎng)地,相似外觀增加了區(qū)分的難度,此時(shí)需要利用上下文(河流和跑道)輔助目標(biāo)的判別。
(4) 目標(biāo)背景復(fù)雜。光學(xué)遙感影像是對(duì)全空間全天候地物信息的真實(shí)反映,目標(biāo)所處的背景信息十分復(fù)雜,因此要求檢測(cè)算法具有較強(qiáng)的抗復(fù)雜背景干擾能力。
圖1 VOC2007數(shù)據(jù)集與NWPU VHR-10數(shù)據(jù)集對(duì)比Fig.1 Comparison of VOC2007 dataset with NWPU VHR-10 dataset
利用深度學(xué)習(xí)解決遙感影像目標(biāo)檢測(cè)問(wèn)題,學(xué)者們已經(jīng)做了許多工作。文獻(xiàn)[9]在CNN中添加反卷積層融合CNN網(wǎng)絡(luò)深層和淺層特征,用于遙感影像中建筑物的檢測(cè);文獻(xiàn)[10]引入優(yōu)化的ResNet模型解決遙感影像的顯著性檢測(cè)問(wèn)題;文獻(xiàn)[11]依據(jù)影像中飛機(jī)成像大小選取感受野適中的CNN特征,并采樣深層CNN特征和淺層CNN特征進(jìn)行疊加融合;文獻(xiàn)[12]引入了馬爾可夫隨機(jī)場(chǎng)和全卷積神經(jīng)網(wǎng)絡(luò)生成高質(zhì)量的候選區(qū)域;文獻(xiàn)[13]融合多層CNN特征來(lái)描述遙感影像中車(chē)輛目標(biāo),并改用層級(jí)boost分類(lèi)器判別取得了較好的效果;文獻(xiàn)[14]利用CNN不同層特征分別檢測(cè)不同尺度的目標(biāo),并結(jié)合上下文信息改進(jìn)了檢測(cè)效果;文獻(xiàn)[15]對(duì)樣本數(shù)據(jù)進(jìn)行擴(kuò)充并且結(jié)合目標(biāo)上下文特征用于遙感影像中飛機(jī)目標(biāo)的檢測(cè)??梢钥闯觯横槍?duì)遙感影像中目標(biāo)尺度多樣性和小目標(biāo)問(wèn)題,融合CNN網(wǎng)絡(luò)中不同卷積層所對(duì)應(yīng)的特征,即融合CNN中淺卷積層富含的細(xì)節(jié)信息和深卷積層富含的語(yǔ)義信息進(jìn)行特征提取是一種很好的思路[16],但采用維度拼接或逐像素相加/乘的形式融合多層特征較少考慮不同層特征的分布及尺度差異,特征融合仍是研究的難點(diǎn);另外,遙感影像中背景復(fù)雜性對(duì)目標(biāo)檢測(cè)干擾較大,需要重點(diǎn)關(guān)注上下文信息對(duì)目標(biāo)檢測(cè)的影響。
基于上述分析,本文參考區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region convolutional neural network,R-CNN)方法的兩階段檢測(cè)框架,利用混合受限玻爾茲曼機(jī)(hybrid restricted boltzmann machine,HRBM)模型,提出一種能夠融合CNN多層特征和上下文信息的目標(biāo)檢測(cè)方法。本文的主要工作包括:一是提出細(xì)節(jié)—語(yǔ)義特征融合網(wǎng)絡(luò),構(gòu)建富含細(xì)節(jié)信息和語(yǔ)義信息的高級(jí)目標(biāo)特征表示,強(qiáng)化特征描述能力;二是結(jié)合上下文信息,輔助補(bǔ)充目標(biāo)特征表示,進(jìn)一步提高特征判別能力;三是采用難負(fù)樣本挖掘(hard negative mining)策略,加速SVM分類(lèi)器訓(xùn)練,有效提升模型檢測(cè)性能。
本文算法的整體結(jié)構(gòu)如圖2所示,算法實(shí)現(xiàn)主要分為4個(gè)步驟:給定一幅圖像,首先利用選擇性搜索(Selective Search)算法[17]生成一系列感興趣區(qū)域(regions of interest,ROI);其次選取1.0×和1.5×的ROI區(qū)域,如圖2中上下兩個(gè)分支所示,作為目標(biāo)局部(local)區(qū)域和目標(biāo)上下文(context)區(qū)域,分別提取能夠融合細(xì)節(jié)信息(conv3)和語(yǔ)義信息(conv5)的目標(biāo)局部特征和目標(biāo)上下文特征(與人類(lèi)視覺(jué)類(lèi)似,CNN自動(dòng)學(xué)習(xí)的過(guò)程也呈分層特性,淺層如conv3學(xué)習(xí)到的特征反映物體形狀、邊緣、紋理等細(xì)節(jié)信息,而深層如conv5則能學(xué)習(xí)到對(duì)物體位置和尺度等敏感性更低的抽象特征,反映語(yǔ)義信息[18]);然后利用兩層HRBM模型融合目標(biāo)局部特征和目標(biāo)上下文特征,獲取最終用于檢測(cè)的特征表示;最后將局部—上下文融合特征分別輸入SVM分類(lèi)器和位置回歸模型,實(shí)現(xiàn)目標(biāo)類(lèi)別預(yù)測(cè)和邊界框位置修正。
圖2 本文目標(biāo)檢測(cè)模型架構(gòu)示意Fig.2 The architecture of our geospatial object detection model
傳統(tǒng)目標(biāo)檢測(cè)方法中通常利用不同尺度的滑動(dòng)窗口實(shí)現(xiàn)“窮舉”式檢測(cè)目標(biāo),算法簡(jiǎn)單但存在大量冗余計(jì)算。顯然,滑動(dòng)窗口用于CNN目標(biāo)檢測(cè),高昂的計(jì)算代價(jià)是無(wú)法接受的。因此,迫切希望能夠采用一種高效的ROI提取方法。Selective Search算法是一種十分有效的ROI提取方法。算法首先通過(guò)圖像分割獲得超像素構(gòu)成的子區(qū)域,然后利用顏色、紋理、大小等多種合并策略實(shí)現(xiàn)層次化的子區(qū)域合并,得到較少的可能存在目標(biāo)的ROI[17]。Selective Search算法通過(guò)分割和層次化合并保證了ROI的多尺度,而多樣化的合并策略則保證了ROI的多適應(yīng)性。此外比較常用的ROI提取方法還有文獻(xiàn)[19]提出的采用BING特征的Edge Box算法,以及最近提出的利用CNN特征的ROI提取方法[20-21]。本文選用Selective Search算法來(lái)生成遙感影像中的ROI。
受限玻爾茲曼機(jī)(RBM)具有優(yōu)秀的數(shù)據(jù)擬合能力,常用來(lái)描述變量間的高階相互作用,研究人員常采用單層或多層RBM結(jié)構(gòu)來(lái)提取特征。文獻(xiàn)[22]中系統(tǒng)介紹了RBM模型的訓(xùn)練,將RBM表示為基于能量的模型,其數(shù)學(xué)形式如下
E(y,v,h;θ)=-hTWv-bTv-cTh-dTy-hTUy
(1)
式中,v=(v1,v2,…,vn)為可見(jiàn)層變量;h=(h1,h2,…,hm)為隱層變量;y表示樣本的標(biāo)簽,采用獨(dú)熱(one-hot)編碼;其余變量為系統(tǒng)構(gòu)建參數(shù)θ=(W,U,b,c,d),W、U表示聯(lián)結(jié)權(quán)重,b、c、d則分別表示可視層、隱層節(jié)點(diǎn)和標(biāo)簽層的偏差量。
那么,給定樣本k,隱層和可見(jiàn)層變量的聯(lián)合概率分布可定義為
(2)
式中,Z(θ)為歸一化常量,代表整個(gè)模型系統(tǒng)的能量總和,用于確保將能量函數(shù)轉(zhuǎn)化成有效的概率分布形式。
相應(yīng)的,可以給出單個(gè)樣本(v,h,y)的條件概率公式
(3)
(4)
(5)
式中,σ(x)=1/(1+exp(-x),代表sigmoid函數(shù)。
可知,RBM模型的訓(xùn)練目標(biāo)就是通過(guò)最大化似然求解優(yōu)化參數(shù)集θ。根據(jù)學(xué)習(xí)方式不同,RBM又可分為生成式模型(generative RBM,GRBM)和判別式模型(discriminative RBM,DRBM),對(duì)應(yīng)目標(biāo)函數(shù)定義如下
(6)
(7)
二者本質(zhì)區(qū)別在于建模對(duì)象不同,GRBM可以增量學(xué)習(xí),能夠應(yīng)付數(shù)據(jù)不完整的情況,而DRBM模型的優(yōu)勢(shì)在于容易學(xué)習(xí)且生成特征更能反映類(lèi)間差異性[23]。為了結(jié)合兩種模型的優(yōu)點(diǎn),本文采用HRBM模型,目標(biāo)函數(shù)定義如下
Lhybrid(Dtrain)=αLgen(Dtrain)+Ldisc(Dtrain)
(8)
式中,α為權(quán)重參數(shù),用來(lái)平衡Ldisc和Lgen在目標(biāo)函數(shù)中的比重。
如前所述,CNN自動(dòng)學(xué)習(xí)的過(guò)程呈分層特性,學(xué)習(xí)到的淺層特征反映細(xì)節(jié)信息,深層特征反映語(yǔ)義信息。而對(duì)于目標(biāo)檢測(cè)的兩個(gè)子任務(wù),分類(lèi)任務(wù)希望特征更多反映語(yǔ)義信息,位置回歸任務(wù)則希望特征更多反映細(xì)節(jié)信息,因此需要學(xué)習(xí)同時(shí)保留圖像語(yǔ)義信息和細(xì)節(jié)信息的特征表示。如圖3所示,本文設(shè)計(jì)了細(xì)節(jié)—語(yǔ)義特征融合網(wǎng)絡(luò)(detail-semantic feature fusion network,D-SFN),利用HRBM模型的去噪和特征變換能力,實(shí)現(xiàn)CNN中細(xì)節(jié)特征和語(yǔ)義特征的融合?;A(chǔ)網(wǎng)絡(luò)采用AlexNet模型[24],保留前5個(gè)卷積層(第1和第2卷積層后跟有池化層),各卷積層通道(channel)數(shù)分別為96、256、384、384、256。第1層卷積核尺寸(size)為5×5,其余各層卷積核size=3×3,卷積步長(zhǎng)(stride)固定為1。池化層采用最大池化(max-pooling)方式,窗口size=2×2,stride=2。后續(xù)連接3個(gè)全連接層,用于對(duì)模型進(jìn)行微調(diào)優(yōu)化,在微調(diào)后將被棄用。最后一個(gè)全連接層(fc8)節(jié)點(diǎn)數(shù)由目標(biāo)類(lèi)別決定,本文為11(10類(lèi)目標(biāo)+背景)。
圖3 細(xì)節(jié)—語(yǔ)義特征融合網(wǎng)絡(luò)Fig.3 Detail-semantic feature fusion network
(9)
式中,C表示特征圖的通道數(shù),將特征重組成一維向量訓(xùn)練HRBM。
然后將式(9)得到的優(yōu)化的conv3′和conv5′特征拼接作為可見(jiàn)層,訓(xùn)練HRBM模型ffuse,學(xué)習(xí)細(xì)節(jié)—語(yǔ)義融合特征Ffuse
(10)
遙感影像中的復(fù)雜背景信息對(duì)目標(biāo)檢測(cè)的影響是不容忽視的,本節(jié)將上下文信息引入目標(biāo)檢測(cè)模型以提高目標(biāo)檢測(cè)的精度。設(shè)圖像大小w,h,ROI區(qū)域坐標(biāo)(xmin,ymin,xmax,ymax),尺度比例s,定義對(duì)應(yīng)上下文區(qū)域
(11)
如圖2中上下兩個(gè)分支所示,上面分支對(duì)應(yīng)目標(biāo)局部區(qū)域(1.0倍ROI),下面分支對(duì)應(yīng)目標(biāo)上下文區(qū)域(1.5倍ROI),分別提取融合細(xì)節(jié)—語(yǔ)義信息的目標(biāo)局部特征和目標(biāo)上下文特征。與1.3節(jié)類(lèi)似,目標(biāo)局部特征和上下文特征的融合也采用HRBM模型,不同之處是增加了對(duì)上下文影響的控制。將學(xué)習(xí)到的局部特征Flocal和上下文特征Fcontext拼接作為新的可見(jiàn)層數(shù)據(jù)訓(xùn)練HRBM模型,由于歸一化操作會(huì)導(dǎo)致目標(biāo)局部特征和上下文特征的激活響應(yīng)相等,考慮到背景信息的復(fù)雜性,引入可學(xué)習(xí)抑制參數(shù)λ=(λ1,λ2…,λm),將上下文特征激活值分成m組分別對(duì)其進(jìn)行約束(本文取m=14),得到最終的目標(biāo)特征表示,本文稱(chēng)之為局部—上下文特征,如公式(12)所示
Fjoint=fjoint[normalize(Flocal⊕λ*Fcontext)]
(12)
式中,fjoint代表HRBM模型;λ*Fcontext表示組內(nèi)逐元素(element-wise)相乘;⊕代表拼接操作。
本文使用線性SVM對(duì)目標(biāo)特征進(jìn)行判定,給出每個(gè)候選框的類(lèi)別預(yù)測(cè)。對(duì)每類(lèi)目標(biāo)都訓(xùn)練一個(gè)線性SVM分類(lèi)器,訓(xùn)練樣本的采集以候選框與該類(lèi)目標(biāo)真實(shí)邊界框的交并比(intersection over union,IoU)為依據(jù),IoU大于0.9的候選框?yàn)檎龢颖?,IoU小于0.3的候選框?yàn)樨?fù)樣本,其余則忽略。由于采集到的負(fù)樣本數(shù)量遠(yuǎn)遠(yuǎn)多于正樣本,正負(fù)樣本不均衡會(huì)導(dǎo)致訓(xùn)練的分類(lèi)器產(chǎn)生較多誤判,因此本文使用了難負(fù)樣本挖掘(hard negative mining)策略[25],在訓(xùn)練過(guò)程中,保證正負(fù)樣本比例1∶3,訓(xùn)練步驟如下:
(1) 使用所有的正樣本,并從IoU小于0.1的負(fù)樣本中隨機(jī)挑選一部分訓(xùn)練分類(lèi)器。
(2) 用訓(xùn)練好的分類(lèi)器對(duì)所有負(fù)樣本進(jìn)行檢測(cè),挑出誤判為目標(biāo)的負(fù)樣本作為難負(fù)樣本。
(3) 使用所有正樣本,從IoU小于0.1的負(fù)樣本和步驟(2)獲取的難負(fù)樣本構(gòu)成的集合中隨機(jī)挑選一部分,重新訓(xùn)練分類(lèi)器。
(4) 重復(fù)步驟(2)、(3),直到分類(lèi)器性能不再提升。
使用難負(fù)樣本挖掘策略,可以有效減少分類(lèi)器誤判情況,加快訓(xùn)練速度。同時(shí)為了提高目標(biāo)定位的精度,本文利用最終獲取的目標(biāo)特征訓(xùn)練了一個(gè)線性回歸模型來(lái)修正候選框的位置。
本文使用試驗(yàn)數(shù)據(jù)來(lái)源于NWPU VHR-10遙感影像數(shù)據(jù)集,經(jīng)過(guò)進(jìn)一步整理得到。NWPU VHR-10由西北工業(yè)大學(xué)公開(kāi),共包含800張圖像,圖像采集自谷歌地球并由領(lǐng)域?qū)<疫M(jìn)行標(biāo)注。數(shù)據(jù)集共包含10類(lèi)目標(biāo):飛機(jī)、艦船、油罐、棒球場(chǎng)、網(wǎng)球場(chǎng)、籃球場(chǎng)、田徑場(chǎng)、港口、橋梁和汽車(chē)。本文使用了其中650張含有目標(biāo)的圖像(另外150張圖像為背景圖像,用于半監(jiān)督或弱監(jiān)督學(xué)習(xí)),由于數(shù)據(jù)集中圖像尺寸差異較大(最小533×597像素,而最大1728×1028像素),通過(guò)對(duì)圖像進(jìn)行裁剪得到仍然包含10類(lèi)目標(biāo)圖像1172張(圖像大小統(tǒng)一為400×400像素)。從中選取879張影像(約為數(shù)據(jù)集的75%)作為訓(xùn)練集,剩余的293張影像作為測(cè)試集,進(jìn)行后續(xù)試驗(yàn)驗(yàn)證分析。試驗(yàn)環(huán)境主要包括Intel Core i7 CPU、NvidiaTitan X GPU和64 GB內(nèi)存,操作系統(tǒng)為Ubuntu16.04 LTS。
為了定量評(píng)價(jià)試驗(yàn)結(jié)果,本文采用平均準(zhǔn)確率(average precision,AP)和類(lèi)別均值平均準(zhǔn)確率(mean average precision,mAP)作為算法檢測(cè)性能分析的主要指標(biāo)。準(zhǔn)確率計(jì)算的是在所有預(yù)測(cè)為正例的數(shù)據(jù)中,真正例所占的比例,如式(13)所示
(13)
式中,TP、FP分別代表預(yù)測(cè)結(jié)果中真正例、偽正例的數(shù)量,當(dāng)候選框與真實(shí)框的IoU大于0.5為正例,反之為負(fù)例。
本文CNN特征提取模型在ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的AlexNet模型基礎(chǔ)上進(jìn)行微調(diào)優(yōu)化,最后一個(gè)全連接層節(jié)點(diǎn)數(shù)改為11,前面5個(gè)卷積層直接使用預(yù)訓(xùn)練參數(shù),全連接層參數(shù)采用“xavier”策略進(jìn)行初始化,偏置設(shè)為0。采用隨機(jī)梯度下降法更新權(quán)值,并設(shè)置動(dòng)量0.9,權(quán)值衰減0.000 5。設(shè)置最大迭代次數(shù)70 000次,學(xué)習(xí)率為0.001,迭代50 000次,然后學(xué)習(xí)率設(shè)為0.000 1,迭代10 000次,最后學(xué)習(xí)率設(shè)為0.000 01,再迭代10 000次。為擴(kuò)充訓(xùn)練集,對(duì)所有訓(xùn)練樣本圖像進(jìn)行旋轉(zhuǎn)增強(qiáng),旋轉(zhuǎn)角度{20°,40°,…,340°}。
本文特征提取網(wǎng)絡(luò)采用逐層貪婪預(yù)訓(xùn)練方式學(xué)習(xí)深度HRBM模型,隱層節(jié)點(diǎn)數(shù)量和平衡影響因子α采用交叉驗(yàn)證方式確定。經(jīng)過(guò)試驗(yàn),參數(shù)設(shè)置見(jiàn)圖4。
圖4 特征提取網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)設(shè)置Fig.4 Overall architecture and parameters of feature extraction network
2.3.1 細(xì)節(jié)—語(yǔ)義特征融合試驗(yàn)及分析
為了驗(yàn)證細(xì)節(jié)—語(yǔ)義融合特征用于目標(biāo)檢測(cè)的有效性,如表1所示,設(shè)計(jì)了7組對(duì)比試驗(yàn),分別選擇CNN單層特征以及不同層融合特征作為目標(biāo)特征表示,輸入SVM分類(lèi)器和回歸模型進(jìn)行訓(xùn)練,然后在測(cè)試集上測(cè)試。從測(cè)試結(jié)果可以發(fā)現(xiàn),在飛機(jī)、棒球場(chǎng)、田徑場(chǎng)、籃球場(chǎng)、網(wǎng)球場(chǎng)和港口等6類(lèi)目標(biāo)上使用CNN單層特征(conv3、conv4或conv5)檢測(cè)精度(AP)差別不大;但在汽車(chē)、橋梁、艦船和油罐等4類(lèi)目標(biāo)上使用conv5層特征檢測(cè)精度明顯較差;相比單層特征,使用融合特征檢測(cè)各類(lèi)目標(biāo),檢測(cè)精度有不同程度提升。表1最后一列給出了各組試驗(yàn)在測(cè)試集上的mAP,可以發(fā)現(xiàn)融合特征相比單層特征的mAP提升顯著,說(shuō)明多層特征融合能獲得更好的特征表示。其中,融合3、4、5層特征的mAP最好,融合3、4層特征mAP提升不明顯,融合3、5層特征相比融合4、5層特征檢測(cè)精度有0.3的提升??紤]到多層特征融合的計(jì)算成本,本文選擇融合3、5層特征,后續(xù)試驗(yàn)也都是基于融合3、5層特征的方式。
表1 不同層特征融合試驗(yàn)對(duì)比
2.3.2 結(jié)合上下文試驗(yàn)及分析
本小節(jié)試驗(yàn)在2.3.1小節(jié)試驗(yàn)基礎(chǔ)上進(jìn)行,用于驗(yàn)證融合細(xì)節(jié)—語(yǔ)義特征后,結(jié)合上下文信息能否進(jìn)一步提高算法檢測(cè)精度。細(xì)節(jié)—語(yǔ)義特征融合采用conv3+conv5方式,如表2所示,分別取s=1.0,s=1.5和s=2.0倍的ROI進(jìn)行特征采樣,設(shè)計(jì)了6組對(duì)比試驗(yàn)。通過(guò)試驗(yàn)可以發(fā)現(xiàn):
(1) 1、2、3組試驗(yàn)對(duì)比。擴(kuò)大候選區(qū)域算法檢測(cè)精度降低,表明候選區(qū)域過(guò)大會(huì)導(dǎo)致不能有效提取目標(biāo)特征。此外,可以發(fā)現(xiàn)候選區(qū)域變化對(duì)油罐、汽車(chē)等小目標(biāo)檢測(cè)精度影響較大,表明上下文信息對(duì)小目標(biāo)檢測(cè)尤為重要。
(2) 1、2、5組試驗(yàn)對(duì)比。針對(duì)網(wǎng)球場(chǎng)、籃球場(chǎng)、田徑場(chǎng)、港口、橋梁和汽車(chē)等目標(biāo),使用局部—上下文聯(lián)合特征檢測(cè)效果提升顯著,表明引入上下文信息能進(jìn)一步增強(qiáng)了目標(biāo)特征表示的判別能力。
(3) 4、5組試驗(yàn)對(duì)比。試驗(yàn)差別在于邊界框位置回歸使用特征不同,第4組僅使用目標(biāo)局部特征,而第5組使用局部—上下文特征。兩組試驗(yàn)在測(cè)試集上檢測(cè)精度相差只有0.7個(gè)百分點(diǎn),說(shuō)明本文算法提取的上下文信息對(duì)位置回歸影響不大。
(4) 5、6組試驗(yàn)對(duì)比。上下文區(qū)域過(guò)大算法檢測(cè)精度降低。說(shuō)明由于目標(biāo)背景的復(fù)雜性,目標(biāo)特征表示中上下文信息占比不宜過(guò)大/過(guò)多,以免產(chǎn)生干擾。根據(jù)試驗(yàn)結(jié)果,本文選用上下文區(qū)域的比例s=1.5。
表2 結(jié)合上下文試驗(yàn)對(duì)比
2.3.3 不同RBM模型對(duì)比
本節(jié)試驗(yàn)用于驗(yàn)證不同RBM模型對(duì)特征融合的影響,由于特征提取網(wǎng)絡(luò)包含多個(gè)RBM模型,為了保證公平性,試驗(yàn)算法主干網(wǎng)絡(luò)保持一致,僅修改目標(biāo)局部特征和上下文特征融合RBM模型(即圖2中最后一層RBM模型),分別使用GRBM、DRBM和HRBM模型。訓(xùn)練好的模型在測(cè)試集上的檢測(cè)結(jié)果如表3所示,可以看出使用DRBM模型的檢測(cè)精度要好于使用GRBM模型,而使用HRBM模型的檢測(cè)精度要顯著優(yōu)于GRBM和DRBM模型。試驗(yàn)結(jié)果表明HRBM模型確實(shí)能夠綜合GRBM模型和DRBM模型各自的優(yōu)勢(shì),更好地實(shí)現(xiàn)特征融合。
表3 不同RBM模型(局部—上下文特征融合)測(cè)試結(jié)果對(duì)比
2.3.4 與其他方法對(duì)比試驗(yàn)
為進(jìn)一步驗(yàn)證本文方法有效性,將本文方法與幾種已有方法進(jìn)行對(duì)比:COPD[8]、Transferred CNN[24]、RICNN[26]和R-CNN[2]。為保證試驗(yàn)可比性,幾種方法參照原有訓(xùn)練參數(shù)設(shè)置,在本文的訓(xùn)練集上重新訓(xùn)練。如表4所示,是幾種方法在測(cè)試集上的測(cè)試結(jié)果,其中文本加粗項(xiàng)代表本類(lèi)目標(biāo)最高檢測(cè)精度。本文方法在飛機(jī)、艦船、棒球場(chǎng)、田徑場(chǎng)、港口和橋梁等6類(lèi)目標(biāo)的AP值均為最高,特別是對(duì)艦船、港口和橋梁3類(lèi)目標(biāo)的檢測(cè)效果相比對(duì)比方法提高顯著。從整體看,本文方法mAP超過(guò)對(duì)比方法至少6個(gè)百分點(diǎn),充分驗(yàn)證了本文方法的有效性。此外,試驗(yàn)6是未經(jīng)過(guò)微調(diào)而直接使用預(yù)訓(xùn)練AlexNet模型提取特征的試驗(yàn)結(jié)果,與試驗(yàn)7的mAP相差近3個(gè)百分點(diǎn),這也證明了自然圖像和遙感影像數(shù)據(jù)存在較大差異,表明針對(duì)任務(wù)數(shù)據(jù)的微調(diào)十分必要。表中最后一列給出了幾種方法檢測(cè)單張圖像所需時(shí)間,相比對(duì)比方法,本文方法由于利用多層RBM模型提取特征,檢測(cè)耗時(shí)有所增加。
表4 對(duì)比算法和本文算法在測(cè)試集上性能比較
如圖5所示,是本文方法在測(cè)試集部分圖像上的檢測(cè)結(jié)果,其中紅色框代表真正例目標(biāo)(正確檢測(cè)),綠色代表偽正例目標(biāo)(誤判),黃色代表偽負(fù)例目標(biāo)(漏判)。邊界框左上角數(shù)字1—10代表預(yù)測(cè)類(lèi)別,依次為:飛機(jī)、艦船、油罐、棒球場(chǎng)、網(wǎng)球場(chǎng)、籃球場(chǎng)、田徑場(chǎng)、港口、橋梁和汽車(chē)。從圖中可以看出:影像中10類(lèi)目標(biāo)的尺度差異很大(田徑場(chǎng)等目標(biāo)充滿(mǎn)整幅圖像,而汽車(chē)、艦船等目標(biāo)僅占圖像很小范圍);同類(lèi)目標(biāo)紋理形狀差異較大,而不同類(lèi)目標(biāo)卻存在一定相似性;目標(biāo)分布在復(fù)雜的背景中。面對(duì)這些挑戰(zhàn),本文方法能夠成功檢測(cè)出圖像中大部分的目標(biāo),檢測(cè)性能穩(wěn)定,證明了本文方法的有效性。
本文設(shè)計(jì)了基于CNN和HRBM的一體化特征提取網(wǎng)絡(luò),用于生成融合細(xì)節(jié)—語(yǔ)義信息和上下文信息的目標(biāo)特征表示,融合細(xì)節(jié)—語(yǔ)義特征解決目標(biāo)尺度多樣性和小目標(biāo)問(wèn)題,結(jié)合上下文信息解決目標(biāo)外觀相似和背景復(fù)雜問(wèn)題。通過(guò)在10類(lèi)目標(biāo)構(gòu)成的NWPU數(shù)據(jù)集上進(jìn)行比較試驗(yàn),驗(yàn)證了本文方法的有效性。盡管本文方法在測(cè)試集上檢測(cè)效果提升顯著,相比對(duì)比方法提高6個(gè)百分點(diǎn)以上,但仍存在一些問(wèn)題沒(méi)有解決:①檢測(cè)較為耗時(shí),本文方法雖然檢測(cè)精度有了明顯提高,但計(jì)算量相對(duì)較大;②上下文利用不夠,如圖5中飛機(jī)、油罐等目標(biāo)的分布存在一定的線性、集聚特點(diǎn),更好地利用這些特點(diǎn)可能進(jìn)一步提高檢測(cè)精度。后續(xù)工作中將研究候選區(qū)域生成方法,提高候選區(qū)域生成質(zhì)量并減少計(jì)算量,同時(shí)深入挖掘上下文信息應(yīng)用,探索目標(biāo)間分布關(guān)聯(lián)關(guān)系以及上下文信息在位置回歸中的利用,進(jìn)一步提高光學(xué)遙感影像目標(biāo)檢測(cè)的精度。