張磊,張永生,于英,馬永政,2,姜懷剛,3
1.信息工程大學(xué) 地理空間信息學(xué)院,鄭州450001;
2.集美大學(xué),廈門(mén)361000;
3.海圖信息中心,天津300450
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中一項(xiàng)基礎(chǔ)但又十分具有挑戰(zhàn)性的任務(wù)(張烽,2019;姚艷清等,2021),其不僅在資源勘測(cè)、環(huán)境監(jiān)測(cè)、城市規(guī)劃等民用領(lǐng)域有重要的作用(朱煜等,2020),而且在戰(zhàn)場(chǎng)目標(biāo)信息獲取、目標(biāo)捕捉、目標(biāo)情報(bào)獲取等軍用領(lǐng)域也扮演著重要的角色(于野等,2020)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)DCNN(Deep Convolutional Neural Network)(LeCun等,2015)的自然圖像目標(biāo)檢測(cè)算法取得了長(zhǎng)足的進(jìn)步。然而與自然圖像相比,遙感圖像背景復(fù)雜度更高,同時(shí)遙感圖像中的物體目標(biāo)也具有尺度差異大、分布密集、方向多樣(張磊等,2019)等特點(diǎn),若直接將基于自然圖像的目標(biāo)檢測(cè)算法應(yīng)用至遙感圖像,并不能取得理想的效果。
基于R-CNN(Region-based Convolutional Neural Network)(Girshick等,2014)的水平框目標(biāo)檢測(cè)算法,如Fast R-CNN(Girshick,2015)、Faster R-CNN(Ren等,2017)、Mask R-CNN(He等,2017)等已經(jīng)被廣泛應(yīng)用于遙感圖像目標(biāo)的檢測(cè),但該類算法主要存在以下幾種缺陷:(1)對(duì)于遙感圖像中長(zhǎng)寬比較大的細(xì)長(zhǎng)目標(biāo)(如港口、艦船等),如果目標(biāo)傾斜角度過(guò)大,則使用水平候選區(qū)域會(huì)引入大量的背景噪聲,給目標(biāo)的分類造成了一定的干擾,如圖1(a)所示;(2)該類方法一般使用非極大值抑制NMS(Non-Maximum Suppression)作為后處理操作,對(duì)于相鄰目標(biāo),二者的交并比IoU(Intersection over Union)可能很大,在執(zhí)行NMS操作時(shí),很有可能抑制其中的某個(gè)目標(biāo),進(jìn)而導(dǎo)致目標(biāo)的漏檢;(3)不能提供目標(biāo)精確的朝向和尺度信息,這給實(shí)際應(yīng)用(如遙感圖像目標(biāo)變化檢測(cè)、多方向自然文本的字符識(shí)別等)帶來(lái)了一定的困難。針對(duì)水平邊界框在檢測(cè)多方向目標(biāo)時(shí)出現(xiàn)的問(wèn)題,眾多研究者受自然場(chǎng)景下文本檢測(cè)算法(如RRPN(Ma等,2018)、R2CNN(Jiang等,2018))的啟發(fā)提出了一系列針對(duì)遙感圖像的傾斜框目標(biāo)檢測(cè)算法。對(duì)比水平邊界框,使用傾斜邊界框檢測(cè)遙感圖像中的多方向目標(biāo)主要具有以下優(yōu)勢(shì):(1)傾斜邊界框緊密包裹目標(biāo),避免過(guò)多噪聲的引入,提升了目標(biāo)分類的精度;(2)傾斜邊界框使用傾斜非極大值抑制Skew-NMS(Skew Non-Maximum Suppression)作為后處理操作,避免了傳統(tǒng)NMS方法的過(guò)分抑制問(wèn)題;(3)可以保留目標(biāo)的朝向信息,這對(duì)于檢測(cè)遙感圖像中的某些特定目標(biāo)(如艦船等)(王昌安,2019)十分有用,如圖1(b)所示(圖1中黃色點(diǎn)是船頭的位置)。
圖1 水平邊界框與傾斜邊界框檢測(cè)結(jié)果對(duì)比Fig.1 Comparison of detection results between horizontal and inclined bounding boxes
受實(shí)際應(yīng)用的推動(dòng)和海量數(shù)據(jù)的支撐,近幾年涌現(xiàn)了大量有關(guān)遙感圖像目標(biāo)檢測(cè)的研究(Girshick,2015;Redmon等,2016;Liu等,2016;Law和Deng,2018),且均取得了較傳統(tǒng)機(jī)器學(xué)習(xí)算法更加優(yōu)異的效果。但多數(shù)是基于自然圖像的算法,應(yīng)用于遙感圖像經(jīng)常出現(xiàn)目標(biāo)的漏檢和誤檢問(wèn)題。即使有些學(xué)者注意到此類問(wèn)題,提出一些相應(yīng)的傾斜邊界框檢測(cè)算法(Ma等,2018;Jiang等,2017;Liao等,2018a),但尚缺乏系統(tǒng)地總結(jié)和歸納的文獻(xiàn)。針對(duì)上述問(wèn)題,本文將對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的傾斜框目標(biāo)檢測(cè)算法的研究進(jìn)展和現(xiàn)狀進(jìn)行系統(tǒng)的分析和歸納,著重介紹該類算法在遙感圖像目標(biāo)檢測(cè)中的應(yīng)用。通過(guò)簡(jiǎn)述水平邊界框目標(biāo)檢測(cè)算法的原理,重點(diǎn)敘述現(xiàn)有部分基于遙感圖像的傾斜框目標(biāo)檢測(cè)算法的原理及其優(yōu)勢(shì)與不足,對(duì)各傾斜框目標(biāo)檢測(cè)算法的性能進(jìn)行展示,并進(jìn)行綜合的分析和總結(jié);最后,對(duì)傾斜框目標(biāo)檢測(cè)算法的現(xiàn)存問(wèn)題進(jìn)行一定的總結(jié)和對(duì)其發(fā)展趨勢(shì)進(jìn)行合理的預(yù)測(cè)。
傳統(tǒng)的目標(biāo)檢測(cè)算法(如HOG(Dalal和Triggs,2005)、DPM(Felzenszwalb等,2010)),受限于人工設(shè)計(jì),很難獲得強(qiáng)魯棒性的特征,極易受環(huán)境噪聲的干擾,其檢測(cè)精度和效率均無(wú)法令人滿意。近年來(lái),深度學(xué)習(xí)技術(shù)迅速發(fā)展,而卷積神經(jīng)網(wǎng)絡(luò)作為應(yīng)用最為廣泛的深度學(xué)習(xí)模型之一,以其強(qiáng)大的特征表示能力和端到端的學(xué)習(xí)能力極大地提高了目標(biāo)檢測(cè)的精度和效率(李東子等,2018)。
目前,基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法層出不窮。各算法按不同的分類方式會(huì)產(chǎn)生不同的分類結(jié)果:按是否產(chǎn)生候選區(qū)域可以分為基于候選區(qū)域的目標(biāo)檢測(cè)算法(又稱雙階段(twostage)目標(biāo)檢測(cè)算法)和基于回歸的目標(biāo)檢測(cè)算法(又稱單階段(single-stage)目標(biāo)檢測(cè)算法);根據(jù)輸出檢測(cè)結(jié)果的不同可分為水平邊界框(Horizontal Bounding Box)目標(biāo)檢測(cè)算法(以下簡(jiǎn)稱水平框檢測(cè)算法)和傾斜邊界框(Rotated(Oriented)Bounding Box)目標(biāo)檢測(cè)算法(以下簡(jiǎn)稱傾斜框檢測(cè)算法)。表1給出了一些經(jīng)典的基于深度學(xué)習(xí)的水平框檢測(cè)算法的提出年份和作者以及其所屬類別。
表1 經(jīng)典水平框目標(biāo)檢測(cè)算法Table 1 Classical horizontal bounding box object detection algorithms
基于深度學(xué)習(xí)的水平框目標(biāo)檢測(cè)旨在由水平框定位出目標(biāo)在圖像中的位置,并判斷目標(biāo)的具體類別(溫捷文,2018)。水平框檢測(cè)算法按是否產(chǎn)生候選區(qū)域可分為雙階段檢測(cè)算法和單階段檢測(cè)算法;而單階段檢測(cè)算法根據(jù)其是否使用錨框又可分為基于錨框的檢測(cè)算法和基于關(guān)鍵點(diǎn)的檢測(cè)算法。以R-CNN系列為代表的雙階段目標(biāo)檢測(cè)算法,將目標(biāo)檢測(cè)過(guò)程分為候選區(qū)域生成、候選區(qū)域特征提取、目標(biāo)的分類和位置坐標(biāo)回歸3個(gè)部分。與傳統(tǒng)的目標(biāo)檢測(cè)算法不同,該類算法中的目標(biāo)特征并不是由人工設(shè)計(jì),而是由深度卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練獲得,這極大地提高了目標(biāo)檢測(cè)的效率和準(zhǔn)確度。
圖2展示了最經(jīng)典的雙階段目標(biāo)檢測(cè)算法Faster R-CNN的結(jié)構(gòu)。該算法的主要貢獻(xiàn)為:設(shè)計(jì)了區(qū)域候選網(wǎng)絡(luò)RPN(Region Proposal Networks),利用CNN卷積后的特征圖來(lái)生成候選區(qū)域,代替了傳統(tǒng)的選擇性搜索SS(Selective Search)(Van De Sande等,2011)、EdgeBoxes(Zitnick和Dollár,2014)等算法,實(shí)現(xiàn)了候選區(qū)域網(wǎng)絡(luò)RPN與檢測(cè)網(wǎng)絡(luò)Fast R-CNN卷積層的共享,加快了檢測(cè)速度。
圖2 Faster R-CNN算法結(jié)構(gòu)Fig.2 Structure of Faster R-CNN algorithm
單階段目標(biāo)檢測(cè)算法則沒(méi)有候選區(qū)域生成的環(huán)節(jié),該類算法將目標(biāo)檢測(cè)問(wèn)題作為回歸問(wèn)題求解,即直接將整幅圖像劃分為固定數(shù)量的網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)檢測(cè)中心落在該網(wǎng)格中的目標(biāo),一次性預(yù)測(cè)所有網(wǎng)格所含目標(biāo)的邊界框、定位置信度以及屬于所有類別概率,完成從原始圖像的輸入到檢測(cè)結(jié)果的輸出(Redmon等,2016;Liu等,2016)。圖3和圖4展示了兩個(gè)經(jīng)典的單階段目標(biāo)檢測(cè)算法YOLO-v1和SSD的算法結(jié)構(gòu)。
圖3 YOLOv1算法結(jié)構(gòu)Fig.3 Structure of YOLOv1
圖4 SSD算法結(jié)構(gòu)Fig.4 Structure of SSD
一般而言,雙階段檢測(cè)算法相比于單階段算法多進(jìn)行了一次候選區(qū)域的分類(背景和前景的判斷)和位置坐標(biāo)回歸,其檢測(cè)精度較高;單階段目標(biāo)檢測(cè)算法直接在特征圖上對(duì)目標(biāo)進(jìn)行類別和坐標(biāo)位置的回歸,其算法復(fù)雜度較小,檢測(cè)速度優(yōu)勢(shì)明顯。
YOLO系列、SSD等單階段目標(biāo)檢測(cè)算法均是基于錨框的檢測(cè)算法,Law和Deng(2018)受人體關(guān)鍵點(diǎn)檢測(cè)算法的啟發(fā),提出了基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)算法CornerNet。具體而言,該算法不再使用錨框來(lái)預(yù)定位目標(biāo),而是直接通過(guò)回歸目標(biāo)的關(guān)鍵點(diǎn)(如水平框的左上角點(diǎn)和右下角點(diǎn))來(lái)訓(xùn)練和預(yù)測(cè)邊界框的具體位置,其算法結(jié)構(gòu)如圖5所示。
圖5 CornerNet算法結(jié)構(gòu)Fig.5 Structure of CornerNet algorithm
上述基于深度學(xué)習(xí)的水平框檢測(cè)算法雖已在自然圖像上取得斐然的成績(jī),但應(yīng)用于遙感圖像時(shí),還存在諸多的不足。與自然圖像相比,遙感圖像中的目標(biāo)具有尺度多樣、分布密集、方向任意等特點(diǎn),僅用水平框表示遙感圖像中的目標(biāo)是遠(yuǎn)遠(yuǎn)不夠的。因此,在遙感圖像目標(biāo)檢測(cè)領(lǐng)域,基于傾斜框的目標(biāo)檢測(cè)算法越來(lái)越受到眾多學(xué)者的重視。
與水平框檢測(cè)算法類似,傾斜框檢測(cè)算法也經(jīng)歷了從雙階段到單階段發(fā)展歷程。因此,傾斜框檢測(cè)算法也同樣可分為雙階段檢測(cè)算法和單階段檢測(cè)算法。
現(xiàn)有的傾斜框目標(biāo)檢測(cè)算法多是基于水平框算法的改進(jìn)。雙階段算法均是在Faster R-CNN的基礎(chǔ)之上,添加了旋轉(zhuǎn)角度這一回歸參數(shù)來(lái)定位旋轉(zhuǎn)矩形框(R2CNN、RRPN等),或設(shè)計(jì)損失函數(shù)對(duì)4個(gè)頂點(diǎn)進(jìn)行回歸以定位多邊形框(TextBoxes++、Gliding Vertex等);除此之外,為了提升算法的檢測(cè)性能,相關(guān)算法還對(duì)各個(gè)模塊進(jìn)行了一定的改進(jìn),如基于特征提取網(wǎng)絡(luò)的改進(jìn)(ICN、FADet、R2CNN++等)、基于錨框與候選區(qū)域設(shè)計(jì)的改進(jìn)(RoI Transformer、APE、Gliding Vertex等)、基于損失函數(shù)的改進(jìn)(SCRDet、RSDet等)。單階段傾斜框檢測(cè)算法同樣如此,如PRSDet是基于CenterNet算法的改進(jìn),并為傾斜邊界框設(shè)計(jì)了獨(dú)特的極坐標(biāo)表示方法,以將水平框和傾斜框的檢測(cè)進(jìn)行巧妙的結(jié)合;R3Det算法是基于RetinaNet算法的改進(jìn),并為傾斜框設(shè)計(jì)了特征精調(diào)模塊。傾斜邊界框目標(biāo)檢測(cè)算法的發(fā)展過(guò)程如表2所示。
表2 傾斜框檢測(cè)算法發(fā)展歷程Table 2 Development of tilting bounding box object detection algorithms
3.1.1 基于文本的雙階段傾斜框檢測(cè)算法
針對(duì)水平框表示傾斜目標(biāo)的缺陷問(wèn)題,Ma等(2018)提出了基于Faster R-CNN的傾斜框檢測(cè)算法RRPN(Rotation Region Proposal Networks),用于自然場(chǎng)景中文本的檢測(cè)。算法的主要貢獻(xiàn)為:
(1)增加旋轉(zhuǎn)錨框(Rotated Anchor)的設(shè)計(jì)。即除了規(guī)定錨框的尺度和寬高比之外,還選取這6個(gè)矩形旋轉(zhuǎn)角度作為角度參數(shù),如圖6(a)所示。
圖6 旋轉(zhuǎn)錨框設(shè)計(jì)與旋轉(zhuǎn)交并比計(jì)算Fig.6 Design of the rotating anchor and calculation of rotatiing IoU
(2)設(shè) 計(jì) 了 傾 斜 交 并 比Skew-IoU(Skew Intersection over union)的計(jì)算,其計(jì)算方式為(以圖6(b)為例):首先尋找內(nèi)點(diǎn)(A、C)和兩旋轉(zhuǎn)矩形的交點(diǎn)(I、J、L、K);然后將點(diǎn)按順時(shí)針排序;最后將相交區(qū)域劃分為若干個(gè)三角形,通過(guò)計(jì)算三角形面積的和來(lái)計(jì)算相交面積。最終,相交面積與相并面積之比便是Skew-IoU,通過(guò)判斷Skew-IoU是否大于閾值,將旋轉(zhuǎn)錨框劃分為正負(fù)樣本,用以產(chǎn)生旋轉(zhuǎn)候選區(qū)域(Rotated Region Proposal)。
(3)通過(guò)設(shè)計(jì)旋轉(zhuǎn)感興趣區(qū)域池化RRoI pooling(Rotation Region of Interest pooling)將提取的旋轉(zhuǎn)候選區(qū)域特征變?yōu)槎ㄩL(zhǎng)特征,以用于隨后候選區(qū)域的分類和坐標(biāo)回歸。最后,通過(guò)設(shè)計(jì)傾斜非極大值抑制(Skew-NMS)得出最終的檢測(cè)結(jié)果。
RRPN的設(shè)計(jì)思想值得借鑒,但其劣勢(shì)也十分明顯,即需要設(shè)計(jì)大量帶有角度信息的錨框,不僅計(jì)算量明顯增大,而且用有限個(gè)數(shù)的角度參數(shù)去覆蓋任意朝向的目標(biāo)顯然無(wú)法實(shí)現(xiàn)(Ma等,2018)。針對(duì)RRPN出現(xiàn)的問(wèn)題,Jiang等(2017)提出相應(yīng)的改進(jìn)算法R2CNN(Rotational Region CNN)。該算法同樣以Faster R-CNN為基礎(chǔ),其改進(jìn)如下:
(1)不再設(shè)計(jì)復(fù)雜的帶有角度信息的旋轉(zhuǎn)錨框,而是仍使用RPN生成水平的候選區(qū)域。原因是:旋轉(zhuǎn)候選區(qū)域與水平候選區(qū)域的關(guān)系只有3種情況,即旋轉(zhuǎn)候選區(qū)域分別位于水平候選區(qū)域的水平、垂直或?qū)蔷€方向,因此,無(wú)需設(shè)計(jì)復(fù)雜旋轉(zhuǎn)錨框,水平錨框仍然可用。
(2)改進(jìn)傾斜框表示方法。不再采用(x,y,w,h,θ)的中心點(diǎn)寬高形式(圖7(a)),而采用(x1,y1,x2,y2,h)的兩點(diǎn)高形式(圖7(b))來(lái)表示旋轉(zhuǎn)候選框。原因是:兩個(gè)旋轉(zhuǎn)角度分別為90°和-90°的邊界框,在不考慮首尾的情況下,二者十分相近,但角度相差較大,這給網(wǎng)絡(luò)的訓(xùn)練回歸帶來(lái)一定的困難。
圖7 旋轉(zhuǎn)邊界框表示方法比較Fig.7 Comparison of rotating bounding box representation methods
RRPN和R2CNN均是基于文本檢測(cè)設(shè)計(jì)的傾斜框檢測(cè)算法,與自然場(chǎng)景下的文本目標(biāo)不同,遙感圖像中的目標(biāo)具有背景復(fù)雜、排列緊密、類別多樣的特點(diǎn),針對(duì)遙感圖像的傾斜框目檢測(cè)任務(wù)將更加復(fù)雜。
3.1.2 基于遙感圖像的雙階段傾斜框檢測(cè)算法
近兩年,不少學(xué)者根據(jù)遙感圖像中目標(biāo)的特點(diǎn),借鑒RRPN和R2CNN的思想對(duì)雙階段傾斜框檢測(cè)算法進(jìn)行了不同方式的改進(jìn),有效地提高了目標(biāo)檢測(cè)算法的性能。本部分將從特征提取網(wǎng)絡(luò)、錨框與候選區(qū)域設(shè)計(jì)、損失函數(shù)3個(gè)方面對(duì)相關(guān)改進(jìn)算法進(jìn)行概括論述。
(1)基于特征提取網(wǎng)絡(luò)的改進(jìn)。Azimi等(2018)提出無(wú)約束的遙感圖像傾斜框目標(biāo)檢測(cè)算法ICN(Image Cascade Network)。該算法通過(guò)一種獨(dú)特的自適應(yīng)權(quán)重共享方式完美地將圖像金字塔與特征金字塔結(jié)合在一起,使得提取到的特征圖既包含準(zhǔn)確的位置信息又含有豐富的語(yǔ)義信息,其結(jié)構(gòu)如圖8所示。該算法是傾斜框檢測(cè)算法應(yīng)用于遙感圖像的初步嘗試,雖然其精度較文本目標(biāo)檢測(cè)算法有較大的提升,但仍存在一些問(wèn)題。首先,該算法并未針對(duì)小目標(biāo)的檢測(cè)做特殊的設(shè)計(jì),導(dǎo)致其小目標(biāo)的檢測(cè)精度較低;其次,圖像金字塔本身計(jì)算量較大,再加上額外的特征金字塔,導(dǎo)致算法的整體計(jì)算量較大,計(jì)算效率不高。
圖8 ICN結(jié)構(gòu)示意Fig.8 Schematic diagram of ICN
Li等(2019)提出基于遙感圖像的特征注意力機(jī)制算法FADet(Feature-Attention object Detection)。該算法主要包括3個(gè)部分:(1)基于注意力機(jī)制的特征金字塔網(wǎng)絡(luò)FA-FPN(Feature-Attentioned FPN),該網(wǎng)絡(luò)通過(guò)使用通道級(jí)和像素級(jí)注意力機(jī)制來(lái)融合分別含有語(yǔ)義信息和位置信息的深層與淺層特征;(2)基于多重感受野注意力機(jī)制的區(qū)域候選網(wǎng)絡(luò)
RFA-RPN(multiple Receptive Fields Attention based RPN),該網(wǎng)絡(luò)負(fù)責(zé)產(chǎn)生具有不同寬高比的水平候選區(qū)域。(3)區(qū)域級(jí)基于注意力機(jī)制的感興趣區(qū)域模塊PA-RoI(Proposal-level Attention based Region of Interest),該模塊能夠更好地預(yù)測(cè)目標(biāo)的類別,同時(shí)通過(guò)使用多層卷積和特征表示來(lái)更準(zhǔn)確地定位目標(biāo)的位置。算法的總體框架如圖9所示。該算法通過(guò)使用多重注意力機(jī)制解決遙感圖像中背景復(fù)雜度高的問(wèn)題,但其針對(duì)小目標(biāo)并未做過(guò)多的設(shè)計(jì),且計(jì)算量較大,無(wú)法做到實(shí)時(shí)檢測(cè)。
Yang等(2018)提出了基于多維注意力機(jī)制和魯棒性錨框采樣策略的傾斜框檢測(cè)算法R2CNN++。具體來(lái)說(shuō),該算法主要包括兩個(gè)部分:特征融合網(wǎng)絡(luò)IF-Net(Inception Fusion Network)、多維注意力機(jī)制網(wǎng)絡(luò)MDA-Net(Multi-Dimensional Attention Network)。IF-Net首先使用特征金字塔網(wǎng)絡(luò)FPN(Feature Pyramid Network)將淺層特征圖與深層特征圖融合,使得淺層特征圖同樣具有豐富的語(yǔ)義信息;然后通過(guò)對(duì)比實(shí)驗(yàn)得到最佳的錨框采樣步長(zhǎng)(S=6),使用該步長(zhǎng)對(duì)特征圖進(jìn)行錨框采樣,以得到大量可用的候選區(qū)域,其結(jié)構(gòu)如圖10所示。而MDA-Net則通過(guò)融合有監(jiān)督的像素注意網(wǎng)絡(luò)和通道注意網(wǎng)絡(luò)來(lái)增強(qiáng)目標(biāo)特征,同時(shí)削弱背景噪聲??偨Y(jié)而言,IF-Net保證了數(shù)量充足的正樣本,而MDA-Net則保證了樣本的質(zhì)量,二者結(jié)合顯著提高了小目標(biāo)的檢測(cè)精度。該算法改善了遙感圖像背景復(fù)雜,目標(biāo)尺度差異大的問(wèn)題,提高了小目標(biāo)的檢測(cè)精度。但算法的整體設(shè)計(jì)較為復(fù)雜,算法的性能受超參數(shù)設(shè)置的影響較大,且計(jì)算量大,耗費(fèi)較大的計(jì)算資源。
圖10 IF-Net結(jié)構(gòu)示意Fig.10 Structure schematic of IF-Net
(2)基于錨框和候選區(qū)域設(shè)計(jì)的改進(jìn)。在前述提到的RRPN和R2CNN均針對(duì)其具體的應(yīng)用場(chǎng)景,對(duì)錨框的設(shè)計(jì)進(jìn)行了一定的改進(jìn)。針對(duì)遙感圖像中的目標(biāo),部分學(xué)者也同樣考慮到了該問(wèn)題(Ding等,2019;Li等;2017;Zhou等,2017;Zhu等,2020)。
Ding等(2019)提出RoI Transformer算法,論文認(rèn)為,傳統(tǒng)的形變卷積(Deformable Convolution)僅使用通用的幾何形變,且未使用標(biāo)注框信息,不具有普適性。而遙感圖像中的目標(biāo)僅存在剛性形變,并且多邊形標(biāo)注框是可用的。因此在這種情況下,如何消除感興趣區(qū)域與真實(shí)目標(biāo)區(qū)域之間的誤匹配(尤其針對(duì)密集分布的目標(biāo))以及提取旋轉(zhuǎn)不變區(qū)域特征便尤為重要。該算法主要包括兩個(gè)部分:(1)旋轉(zhuǎn)感興趣區(qū)域?qū)W習(xí)模塊(RRoI Learner)學(xué)習(xí)從水平候選區(qū)域到旋轉(zhuǎn)候選區(qū)域時(shí)的變換參數(shù);(2)旋轉(zhuǎn)感興趣區(qū)域?qū)R模塊(Rotated Position Sensitive RoI Align)用于提取候選區(qū)域的旋轉(zhuǎn)不變特征。算法易于嵌入到其他檢測(cè)器中,Li等(2017)僅將該算法整合到lighthead RCNN(輕量級(jí)的目標(biāo)檢測(cè)網(wǎng)絡(luò)),便獲得了十分優(yōu)異的檢測(cè)性能。該算法通過(guò)設(shè)計(jì)感興趣區(qū)域?qū)W習(xí)模塊改善了遙感圖像中感興趣區(qū)域與真實(shí)目標(biāo)特征區(qū)域的誤匹配問(wèn)題,具有高效、輕量、易嵌入的特點(diǎn),但其仍以旋轉(zhuǎn)矩形框的形式定位目標(biāo),仍然存在角度回歸的邊界性問(wèn)題,并未對(duì)損失函數(shù)進(jìn)行改進(jìn)來(lái)改善此問(wèn)題。
Zhu等(2020)提出以自適應(yīng)周期嵌入方法來(lái)表示遙感圖像中的目標(biāo)傾斜邊界框,并據(jù)此提出相應(yīng)的檢測(cè)算法APE(Adaptive Period Embedding)。該算法的貢獻(xiàn)主要有3個(gè):
1)正負(fù)樣本的確定方式。與傳統(tǒng)的雙階段檢測(cè)算法不同,該算法借鑒EAST(Zhou等,2017)算法的思想,不產(chǎn)生候選區(qū)域,直接采用收縮法(Shrinking Method)確定每個(gè)像素為正樣本或者負(fù)樣本。如圖11所示,算法確定正負(fù)樣本的方式為:首先,給定收縮參數(shù)r1=0.1、r2=0.25和多邊形標(biāo)注框;然后,先以r2=0.25的比例收縮標(biāo)注框,位于收縮邊界框1(黃色區(qū)域)中的像素,將其設(shè)置為正樣本,再以r1=0.1的比例收縮標(biāo)注框,位于收縮邊界框2與收縮邊界框1之間的區(qū)域(藍(lán)色區(qū)域),將其設(shè)置為“無(wú)影響”區(qū)域,將收縮邊界框2之外的像素設(shè)置為負(fù)樣本。
圖11 收縮法確定正負(fù)樣本(Zhu等,2020)Fig.11 Shrinking method to determine positive and negative samples(Zhu et al.,2020)
2)旋轉(zhuǎn)角度表示方法。角度參數(shù)的回歸是傾斜框目檢測(cè)中最重要的挑戰(zhàn),而多數(shù)算法受限于旋轉(zhuǎn)矩形框的表示方式,一直沒(méi)能很好地解決該問(wèn)題。與x,y,w,h這4個(gè)變量不同,角度θ具有周期性:對(duì)于某個(gè)旋轉(zhuǎn)矩形,若矩形的寬和高相等,即矩形為正方形,則角度的周期為90°;其余情況角度的周期均為180°。而在神經(jīng)網(wǎng)絡(luò)中,周期屬性不能用變量來(lái)表示,因此該論文提出一種自適應(yīng)周期嵌入APE(Adaptive Period Embedding)的方法,方法使用兩個(gè)二維的向量來(lái)表示角度這一周期變量(Xu等,2019;Zhu和Du,2021)。其中,第一個(gè)向量的周期為90°,即:
式中,θ表示旋轉(zhuǎn)矩形長(zhǎng)邊的旋轉(zhuǎn)角度。
第二個(gè)向量的周期是180°,它由以下公式計(jì)算而來(lái):
式中,λ的值設(shè)為0.5,w和h分別為矩形的長(zhǎng)短邊。根據(jù)以上定義,兩向量每個(gè)元素值的范圍均在[-1,1]之間。
3)長(zhǎng)度無(wú)關(guān)交并比。對(duì)于以(x,y,w,h,θ)這5個(gè)參數(shù)表示的旋轉(zhuǎn)矩形框,角度的略微偏差便可導(dǎo)致較大的交并比差異,尤其是對(duì)于長(zhǎng)寬比較大的目標(biāo)。為保證更多的正樣本參與訓(xùn)練,論文創(chuàng)造性地提出長(zhǎng)度無(wú)關(guān)交并比LIIoU(Length Independent IoU)的概念(Shi等,2017),其計(jì)算過(guò)程如圖12所示,藍(lán)色框?yàn)轭A(yù)測(cè)框,綠色框?yàn)闃?biāo)注框。首先,過(guò)預(yù)測(cè)框的中心點(diǎn)C做標(biāo)注框中線AB的垂線,垂足為D;然后,在標(biāo)注框上以D為中心,預(yù)測(cè)框的寬度w為寬獲得截?cái)鄻?biāo)注框;最后,計(jì)算截?cái)鄻?biāo)注框與預(yù)測(cè)框之間的交并比作為參考標(biāo)準(zhǔn)。
圖12 長(zhǎng)度無(wú)關(guān)交并比計(jì)算過(guò)程Fig.12 Computational process of LIIoU
該算法通過(guò)以向量表示角度的方式,在一定程度上改善了傾斜框檢測(cè)算法角度回歸的邊界性問(wèn)題;以收縮法確定正負(fù)樣本,避免了人為設(shè)置錨框大小與比例的局限性;長(zhǎng)度無(wú)關(guān)交并比的提出顯著提高了長(zhǎng)寬比較大目標(biāo)的檢測(cè)精度。通過(guò)以上這3點(diǎn)改進(jìn),使得該算法具有較高的檢測(cè)性能。但算法仍將水平框檢測(cè)與傾斜框檢測(cè)區(qū)分開(kāi)來(lái),并沒(méi)有將二者進(jìn)行結(jié)合,且理論復(fù)雜,可解釋性不高,不易進(jìn)行改進(jìn)。
Xu等(2021)提出Gliding Vertex算法,該算法通過(guò)滑動(dòng)水平框4個(gè)頂點(diǎn),來(lái)實(shí)現(xiàn)目標(biāo)的傾斜框定位。具體而言,該算法首先獲得物體的水平框候選區(qū)域,然后通過(guò)回歸水平框4個(gè)頂點(diǎn)的相對(duì)偏移得到物體的傾斜邊界框,如圖13所示。除此之外,論文提出利用傾斜因子(即傾斜邊界框與水平邊界框面積之比)來(lái)判斷物體的傾斜程度,進(jìn)而判斷使用傾斜或水平邊界框作為檢測(cè)結(jié)果的輸出,以此將水平框檢測(cè)與傾斜框檢測(cè)恰當(dāng)?shù)亟Y(jié)合在一起,具有一定的啟發(fā)意義。
圖13 Gliding Vertex算法結(jié)構(gòu)Fig.13 Structure of Gliding Vertex
(3)基于損失函數(shù)的改進(jìn)。Yang等(2021)提出SCRDet(Small,Cluttered and Rotated object Detection),以改進(jìn)傾斜框目標(biāo)檢測(cè)中的角度邊界問(wèn)題(下文詳述)。該算法采用(x,y,w,h,θ)這5個(gè)參數(shù)形式表示傾斜框,但其具體定義有所不同:(x,y)仍是傾斜框的幾何中心;θ指由x軸正向逆時(shí)針旋轉(zhuǎn)至矩形框第一條邊的角度,并將此邊定義為w,另一條邊定義為h;由此,角度θ的范圍始終為[-90°,0],該定義方法也與OpenCV中定義旋轉(zhuǎn)矩形的方式一致。算法指出,用此方式定義傾斜框,在回歸時(shí)容易出現(xiàn)角度邊界性問(wèn)題:如圖14(Yang等,2021)所示,理想的回歸方式應(yīng)是藍(lán)色實(shí)線框逆時(shí)針旋轉(zhuǎn)至紅色虛線框,但該情況下,由于角度會(huì)超出定義范圍,即大于-90°(負(fù)號(hào)僅表示方向),損失函數(shù)會(huì)變得很大。因此,回歸時(shí)為了使損失函數(shù)變小,藍(lán)色候選框只能順時(shí)針轉(zhuǎn)至某個(gè)邊界框,于是造成了檢測(cè)不準(zhǔn)確的問(wèn)題,如圖15(a)所示。
圖14 角度邊界問(wèn)題示意(Yang等,2021)Fig.14 Schematic of boundary problem(Yang et al.,2021)
圖15 Smooth L1損失與IoU-Smooth L1損失檢測(cè)結(jié)果對(duì)比Fig.15 Detection results comparison of Smooth L1 loss and IoU-Smooth L1 loss
傳統(tǒng)的傾斜框檢測(cè)算法,其損失函數(shù)的形式如下:
式中,Ncls為參與訓(xùn)練的候選區(qū)域的數(shù)量,pi為樣本分類的概率值,為樣本的標(biāo)定值。候選區(qū)域?yàn)檎?、?fù)樣本時(shí)的取值分別為1、0。
Lcls(p,p*)定義為分類損失函數(shù),具體形式為
式中,λ為平衡參數(shù),Nreg為錨框位置的數(shù)量,以Faster R-CNN為例,其是以最后一層特征圖(大小為約60×40)為基準(zhǔn),在原圖上生成不同大小和寬高比的錨框,則此時(shí)Nreg的值為60×40=2400。
Lreg(v,v*)定義為位置回歸損失函數(shù)(即標(biāo)準(zhǔn)Smooth L1損失函數(shù)),其具體形式為
vi和vi*的定義如下:
式中,x,y,w,h,θ分別表示預(yù)測(cè)框的中心點(diǎn)的
針對(duì)角度邊界問(wèn)題,論文提出了新的損失函數(shù),其形式為:
式中,λ1、λ2為平衡參數(shù),N為候選區(qū)域的個(gè)數(shù),IoU表示預(yù)測(cè)框與標(biāo)注框之間的交并比,其余定義方式與式(3)相同。
損失函數(shù)進(jìn)行改進(jìn)之后,上述理想的回歸情況下,IoU≈1,|-log(IoU)|≈0,故損失函數(shù)也接近于0,角度邊界問(wèn)題得到了很好的解決。對(duì)比圖15(a)和15(b),檢測(cè)效果得到了明顯的改善。該算法是改進(jìn)傾斜框檢測(cè)算法損失函數(shù)的初步嘗試,算法的思想十分具有借鑒意義,但仍有一定的進(jìn)步空間,且算法僅針對(duì)旋轉(zhuǎn)矩形邊界框的角度回歸問(wèn)題進(jìn)行了改進(jìn),針對(duì)多邊形邊界框的回歸邊界問(wèn)題并未涉及。
Qian等(2021)提出了RSDet(Rotation Sensitive Detector)。論文將回歸邊界問(wèn)題稱為旋轉(zhuǎn)敏感性誤差RSE(Rotation Sensitivity Error),并提出無(wú)論是以(x,y,w,h,θ)這5個(gè)參數(shù)形式表示的旋轉(zhuǎn)矩形 框還 是以(x1,y1,x2,y2,x3,y3,x4,y4)這8個(gè)參數(shù)形式表示的多邊形邊界框,均存在一定的旋轉(zhuǎn)敏感性誤差,如圖16所示。對(duì)于5個(gè)參數(shù)形式(圖16(a)),理想的回歸方式應(yīng)是候選框(藍(lán)色實(shí)線)逆時(shí)針旋轉(zhuǎn)至預(yù)測(cè)框(紅色虛線),但由于角度超過(guò)定義范圍,導(dǎo)致?lián)p失函數(shù)變得很大。因此,受損失函數(shù)的約束,候選區(qū)域不得不以更復(fù)雜的回歸方式,即先順時(shí)針旋轉(zhuǎn)后縮放至實(shí)際預(yù)測(cè)框(灰色實(shí)線)。8個(gè)參數(shù)形式雖天然具有參數(shù)的一致性,但在回歸時(shí)卻往往面臨4個(gè)角點(diǎn)的排序問(wèn)題,如圖16(b)所示,理想的回歸情況應(yīng)是{(a→B),(b→C),(c→D),(d→A)},此時(shí)距離最小。但按回歸距離的定義,實(shí)際回歸情況是{(a→A),(b→B),(c→C),(d→D)},該情況下,損失函數(shù)會(huì)變大(即距離變大)。
圖16 旋轉(zhuǎn)敏感誤差示意(Qian等,2021)Fig.16 Schematic of RSE(Qian et al.,2021)
為此,論文針對(duì)5個(gè)參數(shù)和8個(gè)參數(shù)分別提出相應(yīng)改進(jìn)的損失函數(shù)。對(duì)于5個(gè)參數(shù)表示方法,其改進(jìn)損失函數(shù)形式為
式中,?Lcp表示傾斜框中心點(diǎn)的誤差(由標(biāo)準(zhǔn)Smooth L1損失函數(shù)計(jì)算而得);(x1,y1,w1,h1,θ1)、(x2,y2,w2,h2,θ2)分別表示紅色虛線框和灰色實(shí)線框的表示參數(shù);t的定義方式如下:
式中,第二方程式的第一行為標(biāo)準(zhǔn)Smooth L1損失,第二行為修正損失。無(wú)邊界問(wèn)題時(shí),修正損失大于標(biāo)準(zhǔn)損失;而當(dāng)出現(xiàn)邊界問(wèn)題時(shí),標(biāo)準(zhǔn)損失則遠(yuǎn)大于修正損失,取二者較小值可以有效解決邊界問(wèn)題。
式中,xi、yi表示候選框與預(yù)測(cè)框的第i個(gè)頂點(diǎn)的坐標(biāo)偏移;則表示標(biāo)注框與候選框的第i個(gè)頂點(diǎn)的偏移。
式(10)的核心思想為:將排好序的角點(diǎn)各向前或向后移動(dòng)一位,然后計(jì)算各自的損失,取最小值,便可有效改善8個(gè)參數(shù)表示形式的回歸邊界問(wèn)題。
該算法針對(duì)旋轉(zhuǎn)矩形邊界框和多邊形邊界框的回歸邊界問(wèn)題,均提出了相應(yīng)損失函數(shù)的改進(jìn),且均取得了一定的改善效果,但算法的損失函數(shù)設(shè)計(jì)較為復(fù)雜,進(jìn)一步增加了雙階段檢測(cè)算法的計(jì)算量,影響了檢測(cè)效率。
現(xiàn)在使用較多的目標(biāo)檢測(cè)定量評(píng)價(jià)指標(biāo)為平均精度均值(即mAP),各算法在DOTA數(shù)據(jù)集上的性能表現(xiàn)如表3所示,對(duì)比各算法的改進(jìn)內(nèi)容及其性能表現(xiàn),可以得到3點(diǎn)結(jié)論:(1)算法SCRDet,R2CNN++的性能遠(yuǎn)優(yōu)于R2CNN(mAP值從60.67%提升至72.00%左右)。就其總體結(jié)構(gòu)來(lái)看,前者是基于后者的改進(jìn),即在原有骨干網(wǎng)絡(luò)的基礎(chǔ)上,添加了加強(qiáng)特征提取網(wǎng)絡(luò)IF-Net與MDA-Net,IF-Net通過(guò)使用更加合適的錨框采樣步長(zhǎng)以及融合多尺度特征圖改善了特征提取網(wǎng)絡(luò)對(duì)小目標(biāo)的敏感性;MDA-Net則通過(guò)使用標(biāo)注信息增強(qiáng)了網(wǎng)絡(luò)的注意力機(jī)制,將目標(biāo)從背景中更好地提取出來(lái)。二者的結(jié)合極大的提高了算法的性能,這說(shuō)明,針對(duì)特征提取網(wǎng)絡(luò)的改進(jìn)確有必要。(2)算法APE、Gliding Vertex的性能相較SCRDet、R2CNN++仍有較大的提高(mAP值從72%提升至75%左右),其原因是APE為角度這一回歸參數(shù)設(shè)置了獨(dú)特的表示方法,改善了角度回歸的邊界問(wèn)題;Gliding Vertex則根據(jù)水平邊界框回歸多邊形的4個(gè)頂點(diǎn),以此來(lái)確定多邊形邊界框,并通過(guò)設(shè)計(jì)傾斜因子將水平框和傾斜框檢測(cè)結(jié)合在一起,從而在一定程度上解決了多邊形邊界框檢測(cè)的頂點(diǎn)排序問(wèn)題。(3)算法SCRDet的檢測(cè)精度較R2CNN++有略微的提高(從71.16%至72.61%,提升1.50%左右),且比較二者各類目標(biāo)的AP,發(fā)現(xiàn)對(duì)于細(xì)長(zhǎng)的目標(biāo)(如橋梁、艦船等)其性能提高更加明顯。其主要原因是SCRDet對(duì)損失函數(shù)進(jìn)行了一定的改進(jìn),即將邊界框回歸函數(shù)從標(biāo)準(zhǔn)的Smooth L1函數(shù)修改為IoU損失函數(shù),改善了角度的邊界問(wèn)題,但對(duì)于其他目標(biāo)的檢測(cè)效果仍然不夠理想。這表明了對(duì)于損失函數(shù)的改進(jìn),還需做進(jìn)一步的深入研究。
表3 各算法在DOAT數(shù)據(jù)集上的檢測(cè)性能比較(旋轉(zhuǎn)框檢測(cè)任務(wù))Table 3 Comparison of detection performance of each algorithm on DOAT dataset(OBB task)/%
雙階段傾斜框檢測(cè)算法,精度雖高,但仍面臨著不可避免的問(wèn)題。首先是雙階段模型的設(shè)計(jì)本身就比較復(fù)雜,再加上角度這一周期性的變量,使得網(wǎng)絡(luò)的回歸變得更加復(fù)雜,進(jìn)而導(dǎo)致算法計(jì)算量大,計(jì)算效率低(張?bào)汴系龋?020);其次,雙階段網(wǎng)絡(luò)的設(shè)計(jì)包含許多超參數(shù),如錨框形狀的設(shè)計(jì)和正負(fù)樣本的選擇數(shù)量比等,多數(shù)雙階段檢測(cè)算法只針對(duì)某一特定目標(biāo)有效,不具有普適性(周鉑焱和楊鵬,2020)。因此,基于雙階段的目標(biāo)檢測(cè)算法還有一定可提升的空間。
(1)單階段文本目標(biāo)傾斜框檢測(cè)算法。與雙階段檢測(cè)算法一樣,單階段傾斜框檢測(cè)算法同樣首先在文本檢測(cè)上得到應(yīng)用。Liao等(2018a)提出一種端到端的單階段文本檢測(cè)器TextBoxes++,以用于高效率、高精度地檢測(cè)自然場(chǎng)景下的文本。該算法是TextBoxes(Liao等,2017)的拓展形式,其主要改進(jìn)有3點(diǎn):1)改進(jìn)了TextBoxes,使其能夠檢測(cè)多方向的文本;2)修改并提高了網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練過(guò)程,使檢測(cè)性能得到了進(jìn)一步的提高;3)調(diào)整了檢測(cè)與識(shí)別之間的結(jié)合方法,使改進(jìn)后的算法更加易于整合至文本識(shí)別框架之中。
(2)單階段遙感圖像傾斜框檢測(cè)算法。與文本目標(biāo)不同,遙感圖像中的目標(biāo)具有更復(fù)雜的背景,且目標(biāo)的種類多樣。近年來(lái),許多學(xué)者針對(duì)遙感圖像提出了一些有效的單階段傾斜框檢測(cè)算法,如P-RSDet(Zhou等,2020)、R3Det(Yang等,2019)等。
現(xiàn)有的多數(shù)性能優(yōu)異的檢測(cè)器通常是基于錨框的方法,且在直角坐標(biāo)系下執(zhí)行回歸任務(wù),這就導(dǎo)致了旋轉(zhuǎn)檢測(cè)器設(shè)計(jì)的復(fù)雜性,因?yàn)橥ǔRO(shè)計(jì)嚴(yán)格的傾斜框表示方法、傾斜交并比以及傾斜非極大值抑制等。為了解決此問(wèn)題,Zhou等(2020)提出在極坐標(biāo)系下執(zhí)行目標(biāo)檢測(cè)任務(wù),大大降低了檢測(cè)器設(shè)計(jì)的復(fù)雜性。論文提出極坐標(biāo)遙感目標(biāo)檢測(cè)器P-RSDet(Polar Remote Sensing object Detector),是一種單階段無(wú)錨框的傾斜框檢測(cè)算法。該算法借鑒CenterNet的思想,首先預(yù)測(cè)目標(biāo)的中心點(diǎn),然后以此中心點(diǎn)為極點(diǎn),以水平向右方向?yàn)闃O軸的方向,并以逆時(shí)針?lè)较蜃鳛闃O角的正向建立極坐標(biāo)系。目標(biāo)邊界框在極坐標(biāo)系中的表示如圖17所示,目標(biāo)邊界框的4個(gè)頂點(diǎn)可表示為{(ρ1,θ1),(ρ2,θ2),(ρ3,θ3),(ρ4,θ4)}。而 根據(jù)矩形的屬性可以得到如下的關(guān)系:
故無(wú)論該邊界框是水平還是傾斜,僅需要3個(gè)參數(shù)ρ、θ1、θ2便可在極坐標(biāo)系中表示一個(gè)邊界框,這就大大簡(jiǎn)化了檢測(cè)器的設(shè)計(jì)。
針對(duì)傾斜框檢測(cè)算法中預(yù)測(cè)框與目標(biāo)特征的不匹配問(wèn)題,Yang等(2019)基于RetinaNet(Lin等,2017b)提出了基于特征精調(diào)模塊的單階段傾斜框檢測(cè)器R3Det(Refined Rotation RetinaNet)。論文的貢獻(xiàn)主要有兩點(diǎn):(1)作者通過(guò)研究發(fā)現(xiàn)旋轉(zhuǎn)錨框可以在目標(biāo)排列密集的場(chǎng)景中發(fā)揮更好的效果,而水平錨框也能以更少的數(shù)量實(shí)現(xiàn)更高的召回率。因此本文采用兩種錨框的組合形式,即在第一階段使用水平錨框以提高網(wǎng)絡(luò)訓(xùn)練效率,并保證有充足的候選框,然后第二階段,再使用旋轉(zhuǎn)錨框以適應(yīng)密集目標(biāo)的場(chǎng)景。(2)論文還提出,與單階段水平框檢測(cè)算法(如YOLO、SSD等)類似,傾斜框檢測(cè)算法也同樣存在預(yù)測(cè)框與目標(biāo)實(shí)際特征的不匹配問(wèn)題(圖18),進(jìn)而影響了目標(biāo)的分類和位置回歸。針對(duì)該問(wèn)題,作者提出了特征精調(diào)模塊FRM(Feature Refinement Module),其實(shí)現(xiàn)過(guò)程如圖19所示,其中圖19(c)展示了特征插值算法(雙線性插值),未知點(diǎn)特征值可以由以下公式計(jì)算得出:
圖18 特征不匹配問(wèn)題Fig.18 Feature mismatch problem
圖19 特征精調(diào)方法示意(Yang等,2019)Fig.19 Schematic of feature refinement method(Yang et al.,2019)
論文通過(guò)大量實(shí)驗(yàn)證明,特征精調(diào)模塊能夠顯著提升算法的檢測(cè)性能。該算法也在3個(gè)公開(kāi)傾斜框目標(biāo)檢測(cè)數(shù)據(jù)集上獲得了SOTA(state-of-theart)的性能。
P-RSDet算法在CenterNet的基礎(chǔ)上加以改進(jìn),其使用極坐標(biāo)表示目標(biāo)邊界框,不再區(qū)分水平框和傾斜框,大大簡(jiǎn)化了傾斜框的設(shè)計(jì),自然也避免的角度回歸的周期性問(wèn)題及多邊形邊界框的頂點(diǎn)排序問(wèn)題,與雙階段檢測(cè)算法APE有著異曲同工之妙。該算法的思想具有開(kāi)拓性意義,創(chuàng)新度較高,但在實(shí)際實(shí)驗(yàn)中其檢測(cè)精度表現(xiàn)并不理想,仍有較大的改進(jìn)空間。R3Det通過(guò)設(shè)計(jì)特征精調(diào)模塊解決了候選錨框與實(shí)際目標(biāo)區(qū)域特征的不對(duì)應(yīng)問(wèn)題,可以簡(jiǎn)單理解為單階段的RoI Align,這一改進(jìn)也使得單階段傾斜框檢測(cè)算法的性能得到較大提升,基本達(dá)到雙階段算法的平均檢測(cè)精度。
單階段傾斜框檢測(cè)算法雖然檢測(cè)精度略低于雙階段算法,但其檢測(cè)效率較高,可用于實(shí)時(shí)目標(biāo)檢測(cè),仍然有較大的優(yōu)勢(shì)。
深度學(xué)習(xí)技術(shù)之所以能夠得到廣泛普及,一些大規(guī)模數(shù)據(jù)集的出現(xiàn)扮演了至關(guān)重要的角色。數(shù)據(jù)集不僅是衡量和檢驗(yàn)算法性能好壞的標(biāo)準(zhǔn),還進(jìn)一步推動(dòng)了算法向更準(zhǔn)確、更高效的方向不斷發(fā)展??捎糜趦A斜框目標(biāo)檢測(cè)的數(shù)據(jù)集很多,本文選取兩個(gè)遙感圖像數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,分別是DOTA(Xia等,2018)和HRSC2016(Liu等,2017)。
DOTA(A large-scale Dataset for Object deTection in Aerial images)數(shù)據(jù)集是目前較為常用的數(shù)據(jù)集之一,現(xiàn)有兩個(gè)版本,即DOTA-v1.0和DOTAv1.5。該數(shù)據(jù)集由武漢大學(xué)團(tuán)隊(duì)標(biāo)注,共包含2806張來(lái)自不同傳感器和平臺(tái)的遙感影像(圖像尺寸范圍為800×800像 素 至4000×4000像 素,共 含15類18282個(gè)實(shí)例,對(duì)于每個(gè)實(shí)例,均有直框和斜框(即記錄目標(biāo)邊界框4個(gè)頂點(diǎn)的坐標(biāo))兩種標(biāo)注方式。其目前有兩個(gè)檢測(cè)任務(wù),即傾斜框檢測(cè)(OBB task)和水平框檢測(cè)(HBB task)。DOTA數(shù)據(jù)集因具有圖像尺度大、所含目標(biāo)實(shí)例較小的特點(diǎn)而被大部分目標(biāo)檢測(cè)算法使用。
HRSC2016(High Resolution Ship Collections 2016)是在遙感圖像艦船檢測(cè)中使用最多的數(shù)據(jù)集,該數(shù)據(jù)集收集了來(lái)自6個(gè)著名港口的共1061張艦船影像,圖像尺寸從300×300像素至1500×1500像素不等,圖像空間分辨率在0.4—2.0 m之間。該數(shù)據(jù)集的標(biāo)注方式同樣包含直框標(biāo)注與斜框標(biāo)注,其中,斜框標(biāo)注的方式為五參數(shù)標(biāo)注(即目標(biāo)框中點(diǎn)坐標(biāo)(x,y),高度和h寬度w,以及長(zhǎng)邊與x軸的夾角)。此外,該數(shù)據(jù)集的標(biāo)注方式還包括船頭的坐標(biāo)(headerx,headery),這對(duì)于艦船朝向的檢測(cè)十分有用。
與其他視覺(jué)任務(wù)相同,目標(biāo)檢測(cè)也有統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn),其評(píng)價(jià)指標(biāo)主要包括5個(gè):準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、平均精度AP(Average Precision)以及平均精度均值mAP(mean Average Precision)。除此之外,為了更加直觀顯示算法性能的好壞,還通常引入P-R曲線,P-R曲線的橫軸為召回率,縱軸為精確率,曲線與坐標(biāo)軸圍成圖形的面積則為平均精度,面積越大表示算法的性能越好。平均精度均值是平均精度除以類別總數(shù)的結(jié)果,該指標(biāo)更能客觀地從數(shù)量上反映算法性能的優(yōu)劣。
各傾斜框檢測(cè)算法在DOTA-v1.0數(shù)據(jù)集上的檢測(cè)性能如表3和表4所示。其中,F(xiàn)R-H表示Faster R-CNN的原始版本,F(xiàn)R-O表示Faster RCNN的修改版本,修改后算法可用于多方向目標(biāo)的檢測(cè)。各目標(biāo)類別的縮寫(xiě)分別代表:PL-Plane,
表4 各算法在DOAT數(shù)據(jù)集上的檢測(cè)性能比較(水平框檢測(cè)任務(wù))Table 4 Comparison of detection performance of each algorithm on DOAT dataset(HBB task)/%
BD-Baseball diamond,BR-Bridge,GTF-Ground track field,SV-Small vehicle,LV-Large vehicle,SH-Ship,TC-Tennis court,BC-Basketball court,ST-Storage tank,SBF-Soccer ball field,RA-Roundabout,HA-Harbor,SP-Swimming pool,HC-Helicopter。其中,各最高平均精度以及最高平均精度均值均已加粗顯示。
從表3中可以得出以下結(jié)論:
(1)傾斜框設(shè)計(jì)與表示十分必要。FR-O的mAP值明顯低于其他算法,就是因?yàn)樵谛薷腇aster R-CNN算法時(shí)并沒(méi)有單獨(dú)設(shè)計(jì)傾斜框的表示方法。
(2)各類別檢測(cè)的最高平均精度分布于不同的算法之中。這說(shuō)明不同的傾斜框檢測(cè)算法各有一定的優(yōu)缺點(diǎn),并沒(méi)有普適的檢測(cè)算法。
(3)目前主流的基于深度學(xué)習(xí)的遙感圖像傾斜框檢測(cè)算法中,雙階段算法的檢測(cè)精度較高,mAP最高可達(dá)到75.75%(APE);而單階段檢測(cè)算法的mAP最高為72.20%(RSDet)。對(duì)于雙階段目標(biāo)檢測(cè)算法而言,算法的改進(jìn)可以使檢測(cè)的精度從68.16%(ICN)提升至75.75%(APE);其中,APE算法通過(guò)設(shè)計(jì)角度參數(shù)的特殊表示,使得其檢測(cè)精度達(dá)到最高,Gliding Vertex同樣是通過(guò)改進(jìn)邊界框的回歸方法,達(dá)到了75.02%的檢測(cè)精度。就單階段目標(biāo)檢測(cè)算法而言,算法的改進(jìn)可以使檢測(cè)精度從65.98%(Axis Learning)提升至72.2%(RSDet);其中,RSDet算法通過(guò)改善角度回歸敏感誤差,使得其檢測(cè)精度達(dá)到最高。由此可見(jiàn),無(wú)論是雙階段算法還是單階段算法,角度回歸的敏感性都會(huì)對(duì)算法的檢測(cè)性能造成一定的影響,如何改進(jìn)傾斜框的表示方式以避免引入角度這一特殊的周期變量或者改善角度回歸的敏感性,將會(huì)是以后傾斜框檢測(cè)算法的主要研究方向。
從表4中可以達(dá)到如下結(jié)論:
(1)傳統(tǒng)的基于自然圖像目標(biāo)檢測(cè)算法,無(wú)論是雙階段的Faster R-CNN還是單階段的SSD和YOLO在DOTA數(shù)據(jù)集上的表現(xiàn)均不好,這說(shuō)明遙感圖像與自然圖像具有明顯的差異,也說(shuō)明了DOTA數(shù)據(jù)集具有一定的復(fù)雜性,可作為現(xiàn)實(shí)世界的一種代表。
(2)A2RMNet(Qiu等,2019)算法通過(guò)融合目標(biāo)的多尺度特征以及設(shè)計(jì)寬高比注意力機(jī)制網(wǎng)絡(luò)的方式,使檢測(cè)性能達(dá)到現(xiàn)階段最高(78.45%),這說(shuō)明:對(duì)于水平框目標(biāo)檢測(cè),其關(guān)鍵任務(wù)在于如何改進(jìn)特征提取網(wǎng)絡(luò)以使其更適應(yīng)于特殊目標(biāo)的檢測(cè)。
對(duì)比表3和表4可以發(fā)現(xiàn),許多算法在OBB任務(wù)上的檢測(cè)精度比HBB任務(wù)更低。但理論上,OBB可以更緊密地包圍目標(biāo),其檢測(cè)精度應(yīng)該更高。出現(xiàn)此結(jié)果的原因可能是傾斜框檢測(cè)算法發(fā)展不夠成熟,算法設(shè)計(jì)的復(fù)雜性一定程度上影響了傾斜框目標(biāo)檢測(cè)的發(fā)展。
各傾斜框檢測(cè)算法在HRSC2016數(shù)據(jù)集上的檢測(cè)性能如表5所示,HRSC2016數(shù)據(jù)集中雖然包含20種類別的船只,但多數(shù)算法只檢測(cè)船只的第一級(jí)別,即只區(qū)別船只與背景,不在對(duì)具體類別加以細(xì)分。表5中,RetinaNet-H和RetinaNet-R分別表示檢測(cè)時(shí)使用水平錨框和旋轉(zhuǎn)錨框。
表5 各算法在HRSC2016數(shù)據(jù)集上的檢測(cè)性能比較Table 5 Comparison of detection performance of each algorithm on HRSC2016 dataset
從表5可以看出,對(duì)于HRSC2016數(shù)據(jù)集的第一級(jí)別檢測(cè)任務(wù)來(lái)說(shuō),單階段目標(biāo)檢測(cè)算法無(wú)論是檢測(cè)精度還是檢測(cè)速度均有一定的優(yōu)勢(shì),由此可見(jiàn),對(duì)于簡(jiǎn)單數(shù)據(jù)集,研究單階段目標(biāo)檢測(cè)算法更有必要。
遙感圖像目標(biāo)檢測(cè)作為遙感圖像解譯的一個(gè)重要組成部分,受到了廣泛的關(guān)注。隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,依賴于深度學(xué)習(xí)的自然圖像目標(biāo)檢測(cè)算法已經(jīng)取得了長(zhǎng)足的進(jìn)步,但該類算法應(yīng)用于遙感圖像其性能往往不盡如人意,其主要原因是遙感圖像與自然圖像存在較大的差異。遙感圖像具有成像尺寸大、背景復(fù)雜度高等特性,圖像中的目標(biāo)也呈現(xiàn)出尺寸較小、方向任意、分布不均衡的特點(diǎn)。針對(duì)遙感圖像的特殊性,部分學(xué)者已經(jīng)提出相應(yīng)的改進(jìn)算法,但目前的檢測(cè)性能仍有待進(jìn)一步的提高。借鑒已有的研究方法和最新的研究思路,本文對(duì)基于深度學(xué)習(xí)的遙感圖像傾斜框目標(biāo)檢測(cè)技術(shù)的現(xiàn)存問(wèn)題及未來(lái)發(fā)展趨勢(shì)進(jìn)行合理的展望。
(1)數(shù)據(jù)預(yù)處理方法的探索。數(shù)據(jù)深度學(xué)習(xí)是一門(mén)數(shù)據(jù)至上的技術(shù),沒(méi)有數(shù)據(jù)的支撐,再好的深度學(xué)習(xí)算法只能是一紙空談。在數(shù)據(jù)集數(shù)量和質(zhì)量有限的條件下,數(shù)據(jù)預(yù)處理可以最大限度發(fā)揮數(shù)據(jù)的可用性。數(shù)據(jù)預(yù)處理主要包括兩個(gè)部分:數(shù)據(jù)清洗(Data Cleaning)和數(shù)據(jù)增廣(Data Augmentation)。數(shù)據(jù)清洗是指對(duì)數(shù)據(jù)進(jìn)行重新審查和校檢的過(guò)程,其目的在于使數(shù)據(jù)更加的規(guī)范化、標(biāo)準(zhǔn)化。數(shù)據(jù)增廣則是指對(duì)原始數(shù)據(jù)集進(jìn)行一定的隨機(jī)處理,以產(chǎn)生相似但又不同的訓(xùn)練樣本以達(dá)到擴(kuò)充數(shù)據(jù)集的目的(李新葉等,2020)。探索自動(dòng)化的數(shù)據(jù)清洗方法以及更加高效具有針對(duì)性的數(shù)據(jù)增廣方法,將會(huì)是所有目標(biāo)檢測(cè)算法共同努力的方向。
(2)骨干網(wǎng)絡(luò)的改進(jìn)。目標(biāo)檢測(cè)任務(wù)中,骨干網(wǎng)絡(luò)用于提取圖像特征,骨干網(wǎng)絡(luò)的好壞以及使用是否合理將直接影響目標(biāo)檢測(cè)算法的性能(趙永強(qiáng)等,2020)。目前,骨干網(wǎng)絡(luò)的使用具有一定的盲目性,存在多種檢測(cè)任務(wù)使用同一種骨干網(wǎng)絡(luò)的情況,如現(xiàn)有的大多數(shù)檢測(cè)算法均使用ResNet作為特征提取網(wǎng)絡(luò)。因此,遙感圖像目標(biāo)檢測(cè)領(lǐng)域骨干網(wǎng)絡(luò)的使用將從以下幾個(gè)方面加以改進(jìn):1)針對(duì)不同的檢測(cè)任務(wù),使用不同的骨干網(wǎng)絡(luò)。不應(yīng)片面追求檢測(cè)精度,在計(jì)算資源有限的條件下,骨干網(wǎng)絡(luò)的參數(shù)量及檢測(cè)效率應(yīng)當(dāng)予以考慮;2)提高骨干網(wǎng)絡(luò)針對(duì)小目標(biāo)的敏感性。遙感圖像中,小目標(biāo)占多數(shù),因此提高骨干網(wǎng)絡(luò)對(duì)于小目標(biāo)的敏感性將從根本上提高檢測(cè)算法的性能,如表3中,算法R2CNN++相較于R2CNN,其檢測(cè)精度提升了接近11%(從60.67%提升至71.16%),主要原因是前者針對(duì)遙感圖像中的小目標(biāo)設(shè)計(jì)了獨(dú)特的錨框策略,以及使用標(biāo)注信息使得特征提取網(wǎng)絡(luò)能夠更好地從復(fù)雜的背景中提取目標(biāo)的特征;3)提高骨干網(wǎng)絡(luò)的計(jì)算效率。目標(biāo)檢測(cè)的未來(lái)發(fā)展一定是趨向于實(shí)時(shí)化,因此目標(biāo)檢測(cè)速度的提升迫切需要提高骨干網(wǎng)絡(luò)的計(jì)算效率,即對(duì)于一些數(shù)據(jù)量相對(duì)較少的數(shù)據(jù)集(如HRSC2016等),可以考慮使用輕量化的特征提取網(wǎng)絡(luò),在盡量減少精度損失的前提下著重提高檢測(cè)效率,并減少計(jì)算量。
(3)傾斜邊界框的設(shè)計(jì)?,F(xiàn)階段普遍使用的傾斜框表示方法主要有兩種:一種是帶有角度的旋轉(zhuǎn)矩形框,另一種是由4個(gè)頂點(diǎn)表示的多邊形邊界框。但此兩種方法均存在一定的不足之處,旋轉(zhuǎn)矩形框受限于角度這一周期變量與其他變量的不一致性,而多邊形邊界框則往往面臨著頂點(diǎn)的排列順序錯(cuò)亂問(wèn)題。針對(duì)此問(wèn)題,部分學(xué)者已經(jīng)提出了一定的改進(jìn)方案,如Gliding Vertex直接通過(guò)水平邊界框來(lái)回歸多邊形邊界框的4個(gè)頂點(diǎn);PRSDet采用極坐標(biāo)的方式表示邊界框等,二者均是將水平框與傾斜框統(tǒng)一到了一起,目前來(lái)看這兩種算法均取得了良好的效果。因此,傾斜邊界框的設(shè)計(jì)以及如何將水平框與傾斜框進(jìn)行有效的結(jié)合仍是傾斜框檢測(cè)算法的重中之重。
(4)損失函數(shù)的改進(jìn)。目標(biāo)檢測(cè)包括目標(biāo)分類和位置回歸兩個(gè)任務(wù),其損失函數(shù)自然也是多任務(wù)損失函數(shù)。目前分類損失函數(shù)的使用較為統(tǒng)一,均是Softmax交叉熵?fù)p失;而位置回歸損失函數(shù)卻形式多樣,原因是標(biāo)準(zhǔn)的回歸損失函數(shù)Smooth L1損失在回歸角度這一周期變量時(shí),往往出現(xiàn)損失不連續(xù)的現(xiàn)象。算法SCRDet和RSDet均對(duì)損失函數(shù)進(jìn)行了一定的改進(jìn),并取得了不錯(cuò)的檢測(cè)效果(結(jié)果如表3所示,SCRDet和RSDet相較于R2CNN++,三者的骨干網(wǎng)絡(luò)及其余部分設(shè)計(jì)均相似,前兩者僅針對(duì)損失函數(shù)進(jìn)行了改進(jìn),便可將檢測(cè)精度提升1.5%左右),但其損失函數(shù)的設(shè)計(jì)較為復(fù)雜,不利于計(jì)算。因此,回歸損失函數(shù)的設(shè)計(jì)依然應(yīng)當(dāng)成為傾斜框檢測(cè)算法中重點(diǎn)關(guān)注的問(wèn)題。
(5)無(wú)錨框檢測(cè)算法的探索。現(xiàn)有的傾斜框檢測(cè)算法,尤其是雙階段算法均是實(shí)現(xiàn)設(shè)置一定大小和寬高比的錨框,然后通過(guò)計(jì)算其與標(biāo)注框的IoU從大量錨框中篩選一定的數(shù)量的候選區(qū)域,然后利用候選區(qū)域進(jìn)一步回歸最終的檢測(cè)結(jié)果。這一過(guò)程一方面會(huì)因引入過(guò)多的超參數(shù),普適性不好;另一方面,也會(huì)增加算法的計(jì)算量。鑒于此,部分學(xué)者提出了無(wú)錨框的檢測(cè)算法,如APE、P-RSDet等。該類算法,雖避免了錨框設(shè)計(jì)的復(fù)雜性,也減少了一定的計(jì)算量,提高了檢測(cè)效率,但其檢測(cè)精度一直有限。因此,探索高性能的無(wú)錨框傾斜框檢測(cè)算法十分必要。
(6)傾斜框目標(biāo)檢測(cè)框架的構(gòu)建及檢測(cè)軟件的開(kāi)發(fā)。基于深度學(xué)習(xí)的二維圖像水平框目標(biāo)檢測(cè)算法已經(jīng)趨于成熟,許多公司也已經(jīng)開(kāi)發(fā)了相應(yīng)的目標(biāo)檢測(cè)框架,如Facebook公司的detectron2(https://github.com/facebookresearch/detectron2[2021-02-15]),以及商湯科技公司的mmdetection(https://github.com/open-mmlab/mmdetection[2021-02-15])。此外,商湯科技公司還初步探索開(kāi)發(fā)了遙感圖像解譯軟件SenseEarth(https://rs.sensetime.com/se/#/[2021-02-15]),雖然功能較少,且檢測(cè)效率有待改善,但其商業(yè)價(jià)值巨大。如何整合現(xiàn)有的傾斜框檢測(cè)算法,設(shè)計(jì)出一套傾斜框目標(biāo)檢測(cè)框架或者在現(xiàn)有的框架中加入傾斜框的部分,仍是一個(gè)十分值得研究的課題。
本文以傾斜框目標(biāo)檢測(cè)為主題,著重總結(jié)了基于遙感圖像的傾斜框檢測(cè)算法的發(fā)展現(xiàn)狀。論文首先分析了常用的自然圖像水平框檢測(cè)算法應(yīng)用于遙感圖像時(shí)的局限性;接著簡(jiǎn)單敘述了水平框檢測(cè)算法的原理;然后重點(diǎn)闡述了現(xiàn)有的基于遙感圖像的傾斜框檢測(cè)算法的結(jié)構(gòu)和改進(jìn)之處;最后,展示了現(xiàn)有的傾斜框檢測(cè)算法在兩個(gè)公開(kāi)遙感數(shù)據(jù)集DOTA和HRSC2016上的檢測(cè)性能,并對(duì)現(xiàn)有的傾斜框檢測(cè)算法存在的問(wèn)題以及未來(lái)的發(fā)展趨勢(shì)提出了一定的展望。