陳少波,雷澤人
(中南民族大學(xué) 電子與信息工程學(xué)院,武漢 430074)
遙感圖像中的目標(biāo)檢測(cè)旨在定位圖像中的感興趣物體并且識(shí)別它們的類別.隨著遙感技術(shù)的不斷進(jìn)步,遙感圖像的成像質(zhì)量越來越高,依賴于遙感圖像的應(yīng)用越來越多;因此,遙感圖像中的目標(biāo)檢測(cè)問題也成為了計(jì)算機(jī)視覺[1]中的一個(gè)熱門研究方向.與傳統(tǒng)的自然圖像不同,遙感圖像特殊的拍攝視角導(dǎo)致遙感圖像中的目標(biāo)始終是任意方向分布的;此外,目標(biāo)尺度之間的大差異性,高度復(fù)雜的背景和目標(biāo)的密集分布也進(jìn)一步加大了遙感圖像目標(biāo)檢測(cè)的難度.現(xiàn)有的許多通用的檢測(cè)方法[2]都依賴于R-CNN框架[3],這些方法通常都使用水平的邊界框作為感興趣區(qū)域(RoI),然后通過基于區(qū)域的特征來識(shí)別目標(biāo)的類別[1].遙感圖像中的目標(biāo)檢測(cè)是一種定向且密集的目標(biāo)檢測(cè)任務(wù)[4].遙感圖像中的目標(biāo)尺度小,分布密集且大多都具備方向,水平方向上的檢測(cè)框通常會(huì)使多個(gè)目標(biāo)擁擠在同一個(gè)水平的感興趣區(qū)域中,使得提取物體特征的檢測(cè)器難以訓(xùn)練并且加大了識(shí)別物體精確位置的難度.
任意方向目標(biāo)檢測(cè)的最新進(jìn)展主要是通過使用旋轉(zhuǎn)邊界框[5]或四邊形[6]來表示任意方向目標(biāo)信息,從而對(duì)經(jīng)典目標(biāo)檢測(cè)方法改進(jìn)來推動(dòng)的.2018年由MA J等人提出的RRPN[7]就是通過直接生成具有不同尺度、長寬比和角度的錨框來得到有向邊界框;然后調(diào)整角度信息進(jìn)行邊界框回歸,得到帶角度的候選區(qū)域;接著用RRoI Pooling產(chǎn)生長度固定的特征向量;最后用兩層全連接層對(duì)候選區(qū)域進(jìn)行類別校準(zhǔn).DING J等人提出的RoI Transformer[8],也是用旋轉(zhuǎn)邊界框來解決任意方向問題的兩階段檢測(cè)器;該方法首先生成水平方向上的錨框,在得到水平感興趣區(qū)域(HRoI)之后,通過有監(jiān)督的旋轉(zhuǎn)感興趣區(qū)域(RRoI)學(xué)習(xí)和基于位置敏感對(duì)齊的特征提取來實(shí)現(xiàn)遙感圖像有向目標(biāo)的檢測(cè).HE W等人在Direct Regression方法[9]中首次提出直接回歸的概念,不使用錨框作為橋梁,直接學(xué)習(xí)四個(gè)頂點(diǎn)相對(duì)于中心點(diǎn)的偏移量,得到用于表示任意方向目標(biāo)的四邊形從而實(shí)現(xiàn)有向目標(biāo)的檢測(cè).ZHANG C等人提出的LOMO[10]算法由直接回歸單元(DR)、迭代優(yōu)化模塊(IRM)和任意形狀表達(dá)模塊(SEM)三部分組成;DR生成文本區(qū)域的四邊形檢測(cè)框,IRM將四邊形檢測(cè)框提取的特征塊進(jìn)行迭代優(yōu)化逐步感知整個(gè)長文本,最后通過SEM模塊在文本區(qū)域的幾何特征和IRM的基礎(chǔ)上重建更加精確的多邊形文本區(qū)域表示.
盡管上述方法在任意方向目標(biāo)檢測(cè)中取得了不錯(cuò)的效果,但它們?nèi)匀痪哂幸恍┚窒扌?第一,對(duì)于使用旋轉(zhuǎn)邊界框進(jìn)行檢測(cè),直接生成帶有角度信息錨框的方法,通常會(huì)在分類和回歸階段遇到高計(jì)算復(fù)雜度的問題.第二,采用傳統(tǒng)的錨框生成策略將一系列預(yù)定義好尺度和長寬比的錨框部署在特征圖上,然而大多數(shù)的錨框都部署在了不太可能有目標(biāo)的位置.第三,基于四邊形回歸的方法通常在定義Ground-Truth(GT)四個(gè)頂點(diǎn)順序時(shí)含糊不清,從而對(duì)某些方向的目標(biāo)產(chǎn)生意外的檢測(cè)結(jié)果.針對(duì)上述問題,文中設(shè)計(jì)了一種基于GA-RoI Transformer的任意方向目標(biāo)檢測(cè)算法.該算法在第一階段依然采用水平方向的錨框;不同之處在于,使用導(dǎo)向錨[11]的方法利用語義信息引導(dǎo)錨框的生成,它包含兩個(gè)分支,一個(gè)用于定位中心點(diǎn)的位置,一個(gè)根據(jù)中心點(diǎn)的位置來預(yù)測(cè)物體的形狀,它可以預(yù)測(cè)任意形狀的目標(biāo);然后結(jié)合兩個(gè)分支的輸出結(jié)果來生成高質(zhì)量錨框;進(jìn)一步,還可以通過特征適配模塊根據(jù)錨框的形狀來增強(qiáng)特征.第二階段采用RoI Transformer模塊將得到的HRoI轉(zhuǎn)換成RRoI,來解決任意方向的問題.最后,從得到的RRoI中提取旋轉(zhuǎn)不變特征,有效的提高物體分類和邊界框回歸的性能.
基于GA-RoI Transformer的任意方向目標(biāo)檢測(cè)器的網(wǎng)絡(luò)整體框架如圖1所示.該框架主要由特征提取模塊、錨框生成模塊和旋轉(zhuǎn)模塊組成.特征提取模塊通過特征金字塔使得到的特征圖能夠包含更多的特征信息.在錨框生成模塊中,首先利用語義信息引導(dǎo)錨框的生成,預(yù)測(cè)出感興趣物體的中心位置和不同位置的尺度、長寬比;并結(jié)合這些信息生成水平方向上的高質(zhì)量錨框.其中,特征適配模塊能夠根據(jù)錨框的形狀增強(qiáng)特征,解決錨框和特征的錯(cuò)位問題.其次,用高質(zhì)量錨框作為候選框得到HRoI之后,通過旋轉(zhuǎn)模塊的RRoI學(xué)習(xí)器將HRoI轉(zhuǎn)換成RRoI.這樣可避免傳統(tǒng)有向目標(biāo)檢測(cè)方法需要設(shè)計(jì)大量帶角度信息錨框的問題.最后,將特征圖和RRoI輸入到RRoI warping中提取旋轉(zhuǎn)不變特征,進(jìn)行后續(xù)的分類和回歸.其中,為了更好的避免錯(cuò)位問題,直接使用有向邊界框之間的IoU作為匹配標(biāo)準(zhǔn).下面詳細(xì)介紹各組成模塊.
圖1 GA-RoI Transformer整體框架Fig.1 GA-RoI Transformer Overall Architecture
現(xiàn)有主流的框架都假定錨框均勻排列在圖像中,一系列被定義好尺度和長寬比的錨框?qū)?huì)部署在W×H,步長為s的特征圖上.這種方案效率很低,因?yàn)榇蠖鄶?shù)的錨框都被放置在了不太可能存在感興趣對(duì)象的區(qū)域中;而且,這種假定目標(biāo)具有一系列固定的尺度和長寬比,不符合實(shí)際情形.為了得到更有效的錨框生成方案,考慮到對(duì)象位置和形狀的不均勻分布,采用Guided Anchoring[11]的方法,其工作原理如圖2.
圖2 Guided anchoring工作原理Fig.2 The theory of Guided anchoring
給定圖像I,首先得到特征圖F;接著位置預(yù)測(cè)分支會(huì)產(chǎn)生一個(gè)概率圖,該概率圖估計(jì)出目標(biāo)可能存在的位置,而形狀預(yù)測(cè)分支則會(huì)預(yù)測(cè)與位置有關(guān)的形狀;結(jié)合兩個(gè)分支的輸出,通過選擇預(yù)測(cè)概率值高于某一個(gè)閾值和每個(gè)選擇位置上最可能出現(xiàn)形狀的位置來生成一組錨框.錨框的形狀可能變化,因此不同位置上的錨框應(yīng)該有不一樣的感受野;基于此進(jìn)一步引入了特征適配模塊,該模塊利用錨框的形狀適配特征信息.
1.2.1 中心位置預(yù)測(cè)
如圖2所示,錨框位置預(yù)測(cè)分支會(huì)產(chǎn)生一個(gè)與輸入特征圖F相同大小的概率圖p(·|F),其中對(duì)于每個(gè)p(i,j|F)對(duì)應(yīng)于I上坐標(biāo)為((i+1/2)s,(j+1/2)s)的位置,s表示特征圖的步長,即每個(gè)相鄰錨框之間的距離.p(i,j|F)的值表示對(duì)象中心位于該位置的概率.
概率圖p(i,j|F)是將一個(gè)1×1的卷積應(yīng)用于特征圖F上獲得的目標(biāo)得分圖,然后通過逐元素相乘的Sigmoid函數(shù)將其轉(zhuǎn)換為概率值.在卷積層之后再進(jìn)行Sigmoid變換可以在準(zhǔn)確率和效率之間取得良好的平衡.基于這個(gè)概率圖,通過選擇那些概率值高于預(yù)定閾值?L的位置,來確定可能存在目標(biāo)的區(qū)域.
1.2.2 形狀預(yù)測(cè)
在確定目標(biāo)的可能存在位置之后,下一步就是確定每一個(gè)位置目標(biāo)的形狀,這一步由形狀預(yù)測(cè)分支完成.這個(gè)分支與常規(guī)的邊界框回歸不同,因?yàn)樗鼪]有改變錨框的位置,所以不存在錨框和特征圖不匹配的問題.具體而言,給定一個(gè)特征圖F,該分支預(yù)測(cè)每一個(gè)位置的形狀(w,h),預(yù)測(cè)出的形狀可能與最近的GT邊界框有較高的覆蓋范圍.
w和h這兩個(gè)數(shù)字的范圍較大,直接預(yù)測(cè)這兩個(gè)數(shù)字并不方便,故采用如式(1)所示的預(yù)測(cè)方法,
形狀預(yù)測(cè)分支將會(huì)輸出dw和dh,然后將它們通過上式映射到(w,h),其中s是步長.這種非線性變換將輸出空間從大約[0,1000]映射到[-1,1],得到一個(gè)更簡單更穩(wěn)定的學(xué)習(xí)目標(biāo).該分支包含一個(gè)進(jìn)行形狀預(yù)測(cè)的1×1的卷積層(該卷積層產(chǎn)生一個(gè)包含dw和dh值的兩通道映射值)和一個(gè)逐元素相乘的變換層.
該方法和常規(guī)的錨框生成策略的不同之處在于:一個(gè)位置只生成一個(gè)高質(zhì)量錨框,而不是一系列的錨框.由于位置和形狀之間緊密的關(guān)系,該方法具有較高的召回率、且可以更好地捕捉到那些具有極端形狀目標(biāo)信息.
1.2.3 特征適配
在采用滑動(dòng)窗口策略的常規(guī)RPN或單級(jí)檢測(cè)器中,錨框在整個(gè)特征圖上是均勻的,即它們?cè)诿恳粋€(gè)位置共享相同的尺度和形狀,所以特征圖可以學(xué)到連續(xù)的表示.在理想情況下,較大的錨框應(yīng)該對(duì)應(yīng)較大的感受野,而較小的錨框?qū)?yīng)較小的感受野;因此,按照以前的方法將全卷積分類器均勻的作用在特征圖上并不一定是一個(gè)好的選擇;所以就有了根據(jù)每個(gè)位置上錨框形狀來調(diào)整特征形狀的特征適配組件,
式(2)中fi是第i個(gè)位置的特征,(wi,hi)是相應(yīng)錨框的特征.對(duì)于這種和位置無關(guān)的轉(zhuǎn)換,N采用3×3的可變形卷積[12].如圖2所示,首先從錨框形狀預(yù)測(cè)分支得到偏移量,然后將帶有偏移量的可變形卷積層應(yīng)用在原始的特征圖中以獲得,之后在新得到的特征圖上進(jìn)行接下來的分類和回歸操作.
旋轉(zhuǎn)分支分成兩部分,第一部分為RRoI學(xué)習(xí)器,第二部分為RRoI的旋轉(zhuǎn)變形.RRoI學(xué)習(xí)器是一個(gè)PS RoI Align后面跟著一個(gè)5層的全連接層,它回歸了旋轉(zhuǎn)Ground Truths(RGTs)相對(duì)于水平RoI的偏移量;RRoI的旋轉(zhuǎn)變形是為了讓旋轉(zhuǎn)區(qū)域特征變形以保持旋轉(zhuǎn)不變特性.
1.3.1 RRoI學(xué)習(xí)器
RRoI主要負(fù)責(zé)從水平的RoI特征圖中學(xué)習(xí)RRoIs.假如已經(jīng)得到了n個(gè)水平RoI,用{Hi}表示;其中,利用(x,y,w,h)用來表示水平RoI的2D位置、寬度和高度等相關(guān)信息;相應(yīng)的特征圖表示為{Fi}.在理想情況下,每一個(gè)水平的RoI都是旋轉(zhuǎn)RoI的外部矩形;故可嘗試用全連接層從每個(gè)特征圖Fi中推斷出RRoI的幾何形狀.
式(3)中(xr,yr,wr,hr,θr)分別表示旋轉(zhuǎn)RoI的位置,寬度,高度和方向.(x*,y*,w*,h*,θ*)是定向邊界框(OBB)的Ground Truth的相關(guān)信息參數(shù).mod操作用于調(diào)整[0,2π)中的角度偏移目標(biāo)如式(4)所示,全連接層為每一個(gè)特征圖Fi輸出一個(gè)向量(tx,ty,tw,th,tθ).
上式中G代表全連接層,Θ是G的權(quán)重參數(shù),F(xiàn)是每個(gè)水平RoI的特征圖.
在訓(xùn)練期間,需要將輸入的水平RoI和定向邊界框(OBB)的Ground Truth(GT)進(jìn)行匹配.為了提高效率,匹配過程是在水平RoI和與坐標(biāo)軸對(duì)齊的邊界框(水平邊界框,而不是原始的GT)之間進(jìn)行;水平RoI和OBB的GT匹配成功后,可以根據(jù)公式(4)中計(jì)算出t*.對(duì)于每一個(gè)向前傳遞中的預(yù)測(cè)t,都通過偏移量解碼為RRoI的參數(shù),也就是說RRoI的參數(shù)都是從水平的RoI特征圖F中學(xué)習(xí)來的.回歸的損失函數(shù)使用Smooth L1損失函數(shù).
1.3.2 旋轉(zhuǎn)不變特征的提取
得到RRoI的參數(shù)后,可通過RRoI旋轉(zhuǎn)變形模塊為定向目標(biāo)提取旋轉(zhuǎn)不變特征.給定形狀為(H,W,K×K×C)的特征圖D和RRoI(xr,yr,wr,hr,θr),其中(xr,yr)表示RRoI的中心,(wr,hr)表示RRoI的寬度和高度,θr則給出了RRoI的方向.利用RPS RoI Align方法將RRoI分成K×K塊,并且輸出大小為(K×K×C)的特征圖Y.對(duì)于輸出通道c(0≤c<C),且索引為(i,j)(0≤i,j<K)的塊,其特征圖可表示如下,
公式(6)通過雙線性插值來實(shí)現(xiàn).
仿真實(shí)驗(yàn)數(shù)據(jù)集采用DOTA[13]數(shù)據(jù)集.DOTA數(shù)據(jù)集包含2806張航拍圖像(圖片的大小從800×800~4000×4000不等),且數(shù)據(jù)集中包含不同方向和形狀的目標(biāo)信息;數(shù)據(jù)集中有15個(gè)不同種類的目標(biāo)信息;DOTA數(shù)據(jù)集對(duì)188282個(gè)目標(biāo)實(shí)例信息進(jìn)行了標(biāo)注;DOTA數(shù)據(jù)集中有1411張訓(xùn)練集圖片、458張驗(yàn)證圖片和937張測(cè)試圖片.同時(shí),DOTA數(shù)據(jù)集的官方主頁為研究者們開放了算法評(píng)估功能.
仿真實(shí)驗(yàn)中將訓(xùn)練集和驗(yàn)證集都用于訓(xùn)練,測(cè)試集用于測(cè)試.實(shí)驗(yàn)采用多尺度訓(xùn)練,測(cè)試時(shí)則采用單尺度和多尺度進(jìn)行對(duì)比實(shí)驗(yàn).為了擴(kuò)充有限的數(shù)據(jù),用0.5、1.0和1.5三個(gè)尺度對(duì)訓(xùn)練集和驗(yàn)證集的圖像進(jìn)行縮放,之后將圖像裁剪為一系列1024×1024的圖像塊.
骨架網(wǎng)絡(luò)采用Resnet101,訓(xùn)練12個(gè)epochs,總共進(jìn)行214200次迭代訓(xùn)練;學(xué)習(xí)率在前500次線性增長到0.005,在第8和11個(gè)epoch時(shí)衰減為前一階段的1/10.當(dāng)IoU>0.7時(shí)將錨框設(shè)置為正樣本,當(dāng)IoU<0.3時(shí)將錨框設(shè)置為負(fù)樣本.采用mAP作為檢測(cè)性能的評(píng)價(jià)指標(biāo),文中報(bào)告的mAP結(jié)果都是通過將預(yù)測(cè)信息提交給DOTA官方的評(píng)估服務(wù)器以后獲得的.實(shí)驗(yàn)的可視化結(jié)果如圖3所示.表1給出了在DOTA數(shù)據(jù)集上評(píng)估定向邊界框(OBB)任務(wù)的性能結(jié)果.
圖3 實(shí)驗(yàn)結(jié)果可視化Fig.3 Visualization of results
文中除了與官方提供的Baseline進(jìn)行比較之外,還將所提出的方法與現(xiàn)有針對(duì)任意方向目標(biāo)的檢測(cè)方法[15]進(jìn)行了比較.表1給出了各種方法的量化評(píng)估數(shù)據(jù).從表1中可以看出,由于RoITransformer[8]、SCRDet[14]等方法采用了特征融合的思想,所以在密集小目標(biāo)檢測(cè)方面表現(xiàn)出較好的性能.從表1中可以看出所提出的方法的檢測(cè)精度達(dá)到了78.17%,優(yōu)于基線5.1%;特別在在橋、港口的檢測(cè)性能上都優(yōu)于其它方法.這是由于文中所提出的方法采用了基于語義信息引導(dǎo)的錨框生成子網(wǎng),能夠在不同尺度的特征圖上生成高質(zhì)量的錨框作為候選框;對(duì)于橋和港口等極端形狀目標(biāo)信息,通過形狀預(yù)測(cè)模塊預(yù)先獲取它們的長寬比信息,從而有助于生成高質(zhì)量的錨框.對(duì)一張包含許多密集排列目標(biāo)信息和極端形狀目標(biāo)信息的圖片利用所提出的方法和Baseline的方法進(jìn)行目標(biāo)檢測(cè),檢測(cè)結(jié)果如圖4所示.圖4中左邊是所提出方法的檢測(cè)結(jié)果,圖4右邊是Baseline方法的檢測(cè)結(jié)果.
圖4 可視化結(jié)果對(duì)比圖Fig.4 Comparisons with detection results
表1 在DOTA上和最新方法的對(duì)比 %Tab.1 Comparisons with state-of-the-art detectors on DOTA %
為了進(jìn)一步剖析所提出方法,在DOTA數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn).消融實(shí)驗(yàn)中使用Faster R-CNN結(jié)合RoITransformer[8]作為基準(zhǔn),然后逐漸的更改其中的設(shè)置;根據(jù)不同設(shè)置所得到的結(jié)果如表2所示.
如表2的第二和第四列所示,在加入GuidedAnchoring模塊后mAP有4.41%的提升;因?yàn)閷?dǎo)向錨模塊在錨框生成過程中考慮了目標(biāo)中心的位置、長寬比等,能夠生成更多高質(zhì)量的錨框.從表2的前兩列和最后兩列可發(fā)現(xiàn),在實(shí)驗(yàn)設(shè)置中不使用NMS操作,而其mAP更高;這是合理的,因?yàn)樵跊]有添加NMS的情況下可以得到更多的感興趣區(qū)域,致使召回率提高導(dǎo)致的.
表2 消融實(shí)驗(yàn)Tab.2 Ablation study
為了解決遙感圖像中任意方向的目標(biāo)檢測(cè)問題,文中構(gòu)建了一種新的針對(duì)多類別、多方向目標(biāo)的檢測(cè)算法.考慮到傳統(tǒng)錨框生成網(wǎng)絡(luò)網(wǎng)絡(luò)只能生成水平方向的錨框等問題,設(shè)計(jì)了一個(gè)新的導(dǎo)向錨網(wǎng)絡(luò)模塊來生成錨框:該模塊首先通過預(yù)測(cè)的目標(biāo)中心位置和長寬比等信息來生成任意形狀的非均勻分布的高質(zhì)量錨框;其次通過特征適配子模塊將錨框的信息融入到特征圖中,解決錨框與特征的錯(cuò)位;最后,在用高質(zhì)量的候選框得到HRoI之后,RRoI學(xué)習(xí)器可以將HRoI轉(zhuǎn)換成RRoI,避免了需要設(shè)計(jì)大量旋轉(zhuǎn)錨框的問題.在DOTA數(shù)據(jù)集進(jìn)行仿真,所提出的方法取得了78.17%的檢測(cè)精度,高于基準(zhǔn)5.1%;此外通過仿真發(fā)現(xiàn)新方法對(duì)極端形狀目標(biāo)的檢測(cè)效果尤其突出.
中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年3期