陳占龍,李雙江,徐永洋,徐道柱,馬 超,趙軍利
1. 中國(guó)地質(zhì)大學(xué)(武漢)地理與信息工程學(xué)院,湖北 武漢 430078; 2. 中國(guó)地質(zhì)大學(xué)(武漢)地質(zhì)探測(cè)與評(píng)估教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430074; 3. 自然資源部城市國(guó)土資源監(jiān)測(cè)與仿真重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518034; 4. 西安測(cè)繪研究所,陜西 西安 710054; 5. 地理信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710054; 6. 中國(guó)地質(zhì)大學(xué)(武漢)計(jì)算機(jī)學(xué)院,湖北 武漢 430078; 7. 中南電力設(shè)計(jì)院有限公司,湖北 武漢 430071
遙感影像具備監(jiān)測(cè)范圍大、信息傳輸快、全天候工作的特點(diǎn),使政府在智能化監(jiān)測(cè)與評(píng)估的工作中節(jié)約了大量的人力、物力及財(cái)力的運(yùn)作成本,為國(guó)土的規(guī)劃、資源調(diào)配及可持續(xù)發(fā)展提供了更為高效、可靠的手段。當(dāng)前,在機(jī)器視覺技術(shù)的協(xié)助下通過(guò)遙感影像提取地面目標(biāo)信息是重要的研究課題之一[1-3]。特別是在城建區(qū)域內(nèi),基于機(jī)器視覺的建筑物檢測(cè)方法在城市規(guī)劃、災(zāi)情評(píng)估、國(guó)土資源、城市地理信息系統(tǒng)平臺(tái)建設(shè)、地圖更新、違章建筑物檢測(cè)、智慧城市建設(shè)、軍事偵察等方面均獲得了廣泛的應(yīng)用[4-9]。
傳統(tǒng)的建筑物目標(biāo)檢測(cè)算法側(cè)重于描述建筑物的底層視覺特征,例如建筑物顏色、形狀、紋理、陰影等單一特征檢測(cè)建筑物[10-13]或是幾種特征的簡(jiǎn)單組合[14-15],并且加入了激光雷達(dá)、DEM等其他數(shù)據(jù)源的建筑物檢測(cè)算法[16-17]。然而,這類方法往往受到與建筑物具有相似特征的地物干擾,使得檢測(cè)結(jié)果不夠準(zhǔn)確。此外,特征提取很多情況下需要人工干預(yù)來(lái)完成,這很難完整地表達(dá)建筑物目標(biāo)特征,在面對(duì)海量數(shù)據(jù)時(shí)缺乏泛化能力且費(fèi)時(shí)費(fèi)力,同時(shí)也不易通過(guò)圖像特征訓(xùn)練出一個(gè)較好的分類器。
近年來(lái),基于深度學(xué)習(xí)的模型往往能夠憑借強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)對(duì)大量數(shù)據(jù)進(jìn)行學(xué)習(xí),不僅能夠提取目標(biāo)的淺層信息,還能夠挖掘出目標(biāo)潛藏的深層語(yǔ)義信息來(lái)解決復(fù)雜的遙感圖像檢測(cè)問(wèn)題;在特征提取方面也有著巨大的優(yōu)勢(shì),泛化能力強(qiáng)、穩(wěn)健性好,解決了傳統(tǒng)建筑物目標(biāo)檢測(cè)的不足[18-20]。目前,應(yīng)用于建筑物檢測(cè)的深度學(xué)習(xí)模型主要有兩類:一類是基于候選區(qū)域的雙階段方法。首先通過(guò)區(qū)域推薦網(wǎng)絡(luò)(region proposal network,RPN)生成候選區(qū)域,然后利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類和邊框修正,該方法檢測(cè)精度較高,但檢測(cè)速度較慢,如Fast R-CNN[21]、Faster R-CNN[22]、Mask R-CNN[23]等。另一類是基于回歸的單階段方法,將目標(biāo)檢測(cè)框的定位問(wèn)題轉(zhuǎn)化為回歸問(wèn)題來(lái)處理,不用產(chǎn)生候選框,直接使用單一的卷積神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)類別和位置進(jìn)行預(yù)測(cè)。該類算法檢測(cè)速度快[24],例如YOLO[25]和SSD[26]等。由于在工程項(xiàng)目中需要考慮時(shí)間成本的原因,單階段方法要比雙階段方法更為常用。
具體地,文獻(xiàn)[27—28]通過(guò)優(yōu)化特征圖分辨率、調(diào)整先驗(yàn)框維度以得到一種適合遙感圖像中小型建筑物檢測(cè)的網(wǎng)絡(luò)模型。文獻(xiàn)[29]以提升建筑物檢測(cè)速度為目的進(jìn)行模型設(shè)計(jì)。然而,以上方法沒(méi)有顧及密集型建筑物的檢測(cè)。此外,文獻(xiàn)[30—31]提出的模型在密集型建筑物檢測(cè)中有良好的性能,但是所用的建筑物數(shù)據(jù)較為規(guī)則,數(shù)據(jù)集中不包含檢測(cè)框重疊比高的樣本?;诖耍疚氖紫韧ㄟ^(guò)構(gòu)建形狀多樣的密集型建筑物數(shù)據(jù)集,然后提出一種Correg-YOLOv3方法,該方法以YOLOv3模型為基礎(chǔ),通過(guò)嵌入角點(diǎn)回歸機(jī)制,增設(shè)一個(gè)關(guān)于頂點(diǎn)相對(duì)于邊界框中心點(diǎn)的偏移量的額外損失項(xiàng),使其可同時(shí)輸出矩形檢測(cè)框及建筑物角點(diǎn),實(shí)現(xiàn)了檢測(cè)框重疊比高的建筑物的精準(zhǔn)定位。
本文以YOLOv3模型為基礎(chǔ)進(jìn)行算法設(shè)計(jì),該算法引入特征金字塔網(wǎng)絡(luò),能夠降低小目標(biāo)的漏檢率,由于其顯著的速度和識(shí)別優(yōu)勢(shì),已成為深度學(xué)習(xí)目標(biāo)檢測(cè)領(lǐng)域最受關(guān)注的網(wǎng)絡(luò)模型,相對(duì)于YOLOv4、YOLOv5模型,YOLOv3訓(xùn)練模型較小,能大大提高模型的訓(xùn)練效率,提高計(jì)算資源的利用率[32]。
本文方法流程如圖1所示。主要分為模型訓(xùn)練和模型測(cè)試兩個(gè)階段。首先獲取高分辨率遙感影像數(shù)據(jù)并制作樣本集,然后利用本文方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練并調(diào)整參數(shù),多次迭代訓(xùn)練網(wǎng)絡(luò)模型,利用訓(xùn)練好的網(wǎng)絡(luò)對(duì)測(cè)試樣本進(jìn)行檢測(cè),判斷測(cè)試結(jié)果是否符合試驗(yàn)要求,如果不符合試驗(yàn)要求,則重新調(diào)整預(yù)訓(xùn)練參數(shù)進(jìn)行訓(xùn)練,直到測(cè)試結(jié)果符合試驗(yàn)要求為止,最后得到優(yōu)化的建筑物檢測(cè)模型。
圖1 目標(biāo)檢測(cè)方法Fig.1 The object detection method flowchart
本文充分地利用YOLOv3在目標(biāo)檢測(cè)中的優(yōu)勢(shì),對(duì)其進(jìn)行改進(jìn)使其適應(yīng)密集建筑物的精準(zhǔn)檢測(cè),提出一種Correg-YOLOv3方法。該方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,Darknet53卷積網(wǎng)絡(luò)是特征提取器,如圖2紫色虛線框所示。Darknet53主要由一系列1×1和3×3的卷積層組成,共53層。每個(gè)卷積層后面都有一個(gè)批量歸一化(BN)[33]層和Leakyrelu層。Darknet53中引入了許多殘差網(wǎng)絡(luò)模塊,它是從ResNet[34]中派生出來(lái)的。添加殘差層的目的是解決網(wǎng)絡(luò)中梯度消失或梯度爆炸的問(wèn)題,這樣就可以更容易地控制梯度的傳播并進(jìn)行網(wǎng)絡(luò)訓(xùn)練。此外,還采用了多尺度預(yù)測(cè)、特征融合、邊界框回歸和角點(diǎn)回歸等多種策略。
(1) 多尺度預(yù)測(cè):采用多尺度預(yù)測(cè)方法,最終輸出3個(gè)不同尺度的特征圖,每個(gè)特征圖分配3組不同大小的錨框,以適應(yīng)不同尺寸目標(biāo)的檢測(cè),如圖2紅色虛線部分,由于輸出網(wǎng)格的感受野不同,錨框的尺寸也需要做出調(diào)整,實(shí)現(xiàn)不同尺度上的目標(biāo)檢測(cè)。錨框大小可以通過(guò)K-means算法聚類得到,以提升算法的檢測(cè)能力。
(2) 特征融合:采用類似特征金字塔結(jié)構(gòu)實(shí)現(xiàn)深層特征與淺層特征融合,如圖2中Concat部分,將深層網(wǎng)絡(luò)提取的細(xì)粒度特征經(jīng)過(guò)上采樣后與淺層網(wǎng)絡(luò)提取的粗粒度特征進(jìn)行融合,在保留了位置信息的同時(shí)提升細(xì)節(jié)感知能力,融合淺層特征與深層特征能進(jìn)一步提升對(duì)紋理、顏色和邊緣信息相對(duì)較少的目標(biāo)的檢測(cè)精度。
圖2 Correg-YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Correg-YOLOv3 network structure
(3) 邊界框回歸:采用邊界框回歸的方式預(yù)測(cè)相對(duì)于特征圖網(wǎng)格單元的偏移,用以確定中心點(diǎn)坐標(biāo),同時(shí)預(yù)測(cè)相對(duì)于錨框?qū)捀叩谋壤禂?shù),用以確定目標(biāo)大小。目標(biāo)框與錨框的關(guān)系圖如圖3所示。
回歸公式為
bx=σ(tx)+cx
(1)
by=σ(ty)+cy
(2)
bw=pw×etw
(3)
bh=ph×eth
(4)
式中,(bx,by,bw,bh)為目標(biāo)邊界框的中心點(diǎn)坐標(biāo)及寬和高;(tx,ty,tw,th)為網(wǎng)格預(yù)測(cè)的邊界框中心點(diǎn)偏移量和寬高偏移量;(cx,cy)為目標(biāo)中心點(diǎn)所在的網(wǎng)格單元左上角在特征圖上的位置偏移;(pw,ph)為與目標(biāo)邊界框最匹配的錨框的寬和高;σ為Sigmoid函數(shù)。
圖3 目標(biāo)框與錨框之間的關(guān)系Fig.3 Relationship between target box and anchor box
(4) 角點(diǎn)回歸:本文方法增設(shè)一種角點(diǎn)回歸預(yù)測(cè)的方法,如圖3所示,4個(gè)角點(diǎn)1、2、3、4到中心點(diǎn)坐標(biāo)的水平與垂直偏移量分別為(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),從而使用邊界框回歸和角點(diǎn)回歸共同預(yù)測(cè)建筑物的位置。
角點(diǎn)的偏移和邊界框?qū)捀叩念A(yù)測(cè)方式相同,計(jì)算公式如下
(5)
(6)
(7)
(8)
式中,(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)分別為左上、右上、右下、和左下4個(gè)頂點(diǎn)的水平與垂直偏移量;(tx1,ty1)、(tx2,ty2)、(tx3,ty3)、(tx4,ty4)分別為預(yù)測(cè)4個(gè)頂點(diǎn)的偏移量;(pw,ph)為與目標(biāo)邊界框最匹配的錨框的寬和高。
本文方法的損失函數(shù)包括中心點(diǎn)坐標(biāo)損失、寬高損失、置信度損失、類別概率損失和角點(diǎn)偏移損失。具體使用的損失函數(shù)分別為:①中心點(diǎn)x、y的調(diào)整參數(shù)使用BCELoss;②anchor的寬高w、h的調(diào)整參數(shù)使用MSELoss;③置信度confidence使用BCELoss;④類別預(yù)測(cè)class使用BCELoss;⑤角點(diǎn)偏移參數(shù)調(diào)整使用smoothL1計(jì)算,計(jì)算公式為
(9)
本方法損失函數(shù)L的計(jì)算公式如式(10)所示
(10)
為了定量評(píng)估所選模型的性能,本文采用準(zhǔn)確率(p)、召回率(r)、平均檢測(cè)精度(AP)、F1作為檢測(cè)評(píng)價(jià)指標(biāo)。
精確率和召回率的計(jì)算公式分別為
(11)
(12)
式中,TP表示被預(yù)測(cè)為建筑物,實(shí)際為建筑物;FP表示被預(yù)測(cè)為建筑物,實(shí)際為非建筑物;FN表示被預(yù)測(cè)為非建筑物,實(shí)際為非建筑物。
通常定義的平均精度(average precision)是指召回率在0~1之間的平均精度值,也是精度召回曲線下的區(qū)域。一般地,平均精度越高,模型性能越好。每個(gè)類別都可以根據(jù)準(zhǔn)確率(precision)和召回率(recall)繪制一條曲線,具體可表示為
(13)
F1用于評(píng)估模型的綜合性能,計(jì)算公式為
(14)
2.1.1 遙感影像數(shù)據(jù)
本文高分辨率遙感影像數(shù)據(jù)空間分辨率為0.6 m,圖像覆蓋了中國(guó)的不同城市住區(qū),包括北京、石家莊、鄭州、西安、太原等,影像裁剪為416×416像素。該影像數(shù)據(jù)集部分?jǐn)?shù)據(jù)如圖4所示,建筑物種類豐富、形狀各異、大小不一、色彩鮮明、地物清晰、質(zhì)量很高,可以滿足試驗(yàn)要求。
圖4 遙感影像建筑物數(shù)據(jù)(部分)Fig.4 Building data from remote sensing images (part)
2.1.2 數(shù)據(jù)集制作
通過(guò)人工篩選及手動(dòng)標(biāo)注,采用了LabelImg標(biāo)注工具,該標(biāo)注工具可以框出目標(biāo)物體,并通過(guò)所選定的目標(biāo)類型進(jìn)行標(biāo)簽文件生成。當(dāng)前,YOLOv3、SSD、Faster-RCNN等目標(biāo)檢測(cè)所需要的數(shù)據(jù)集,均需借助此工具標(biāo)定圖像中的目標(biāo),所生成的XML文件遵循PASCAL VOC數(shù)據(jù)的格式。標(biāo)簽文件記錄了目標(biāo)位置和目標(biāo)類別,位置信息是由左上角和右下角坐標(biāo)表示。共標(biāo)注建筑物樣本1757張,其中訓(xùn)練集1405張,測(cè)試集352張。
2.1.3 訓(xùn)練樣本增強(qiáng)
數(shù)據(jù)增強(qiáng)是深度學(xué)習(xí)模型訓(xùn)練的關(guān)鍵組成部分。作為本文主要的檢測(cè)目標(biāo),建筑物在不同區(qū)域的影像中的分布規(guī)律多樣,形狀大小多變(多為不規(guī)則的多邊形),房屋的排列方向也不同。為了防止模型在訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合現(xiàn)象,本文采用的數(shù)據(jù)增強(qiáng)方式有圖像旋轉(zhuǎn)、翻轉(zhuǎn)、HSV、高斯噪聲、亮度、HSV+亮度、HSV+亮度+高斯噪聲。數(shù)據(jù)增強(qiáng)結(jié)果如圖5所示,其中旋轉(zhuǎn)是在原始影像上旋轉(zhuǎn)90°、180°和270°,翻轉(zhuǎn)是在旋轉(zhuǎn)的基礎(chǔ)上進(jìn)行了翻轉(zhuǎn);HSV變化用來(lái)調(diào)節(jié)圖像色調(diào)、飽和度、明度。除此之外,還有添加高斯噪聲、調(diào)整亮度及HSV+亮度、HSV+亮度+高斯噪聲等數(shù)據(jù)增強(qiáng)方式。
圖5 數(shù)據(jù)增強(qiáng)處理結(jié)果Fig.5 Data enhancement processing results
本文的模型均搭建在PyTorch深度學(xué)習(xí)框架下,操作系統(tǒng)環(huán)境為Ubuntu18.04,配置2路12 GB顯存的Nvidia 3080GPU,并使用Cuda11.1和cudnn-8.0.5進(jìn)行GPU加速計(jì)算,深度學(xué)習(xí)算法代碼和訓(xùn)練得到的模型都被保存在Ubuntu系統(tǒng)環(huán)境下,方便保存和維護(hù)。對(duì)于模型軟件環(huán)境,本文試驗(yàn)所有網(wǎng)絡(luò)模型都是由Pytorch實(shí)現(xiàn)的,初始學(xué)習(xí)率設(shè)定為0.000 1,批處理大小為8,epoch為200。
為了驗(yàn)證本文方法的有效性,以自建高分辨率遙感影像數(shù)據(jù)集為基礎(chǔ),訓(xùn)練集共有1405張,測(cè)試集352張,通過(guò)樣本數(shù)據(jù)增強(qiáng)使得訓(xùn)練集為18 265張,訓(xùn)練過(guò)程中隨機(jī)抽出10%作為驗(yàn)證集,通過(guò)調(diào)整網(wǎng)絡(luò)參數(shù),如學(xué)習(xí)率、訓(xùn)練次數(shù)和錨框大小等,并將準(zhǔn)備好的數(shù)據(jù)放入網(wǎng)絡(luò)中訓(xùn)練,最后分別利用改進(jìn)前后訓(xùn)練好的模型進(jìn)行測(cè)試。
由于建筑物大小不一、形狀各異,錨框尺寸也需要做出調(diào)整。針對(duì)建筑物數(shù)據(jù)集,采用K-means算法聚類計(jì)算出9個(gè)錨框的大小,并將其均分到3個(gè)尺度的特征圖,以此來(lái)獲得更多的目標(biāo)邊緣信息,錨框大小分別為:(128,64)、(140,64)、(165,50)、(64,64)、(92,32)、(112,40)、(32,32)、(48,48)、(64,48)。分辨率較小的13×13的特征圖有較大的感受野,故采用較大的錨框(128,64)、(140,64)、(165,50);分辨率為26×26的特征圖對(duì)于檢測(cè)中等大小的目標(biāo)有利,故采用中等的錨框(64,64)、(92,32)、(112,40);分辨率較大的52×52的特征圖有較小的感受野,故采用較小的錨框(32,32)、(48,48)、(64,48)。
本文分別對(duì)YOLOv3和Correg-YOLOv3方法在先驗(yàn)框聚類前后進(jìn)行了試驗(yàn)對(duì)比分析(表1)。由表1可知,不管是YOLOv3還是Correg-YOLOv3方法,采用K-means調(diào)整先驗(yàn)框維度后的結(jié)果都相較于原始先驗(yàn)框檢測(cè)結(jié)果都好,精度、召回率和平均精度都有所提升。本文方法檢測(cè)精度、召回率和平均精度分別達(dá)到了96.45%、95.75%和98.05%,較原算法YOLOv3分別提高了2.73%、5.4%和4.73%。
表1 YOLOv3與Correg-YOLOv3方法調(diào)整先驗(yàn)框前后試驗(yàn)對(duì)比
此外,本文對(duì)比了YOLOv3和Correg-YOLOv3方法調(diào)整先驗(yàn)框前后訓(xùn)練時(shí)損失的變化情況(圖6),可以看出不管是否加入K-means算法調(diào)整先驗(yàn)框維度,本文方法的損失收斂較快,如圖6黃色線和藍(lán)色線所示,在epoch大約為15時(shí)趨向于平穩(wěn),而原始YOLOv3方法收斂較緩慢,如圖6綠色線和紅色線所示,在epoch大約為30時(shí)才趨向于平穩(wěn)。此外,再經(jīng)過(guò)多次迭代訓(xùn)練,可以看出4種方法的損失值相差較小,但調(diào)整先驗(yàn)框維度后的Correg-YOLOv3方法的損失在epoch為160時(shí),開始始終低于其他3種方法的損失,這也體現(xiàn)了本文方法的優(yōu)越性。
圖6 YOLOv3和Correg-YOLOv3方法調(diào)整先驗(yàn)框前后損失變化Fig.6 YOLOv3 and Correg-YOLOv3 were used to adjust the loss changes before and after the prior frame
為了驗(yàn)證本文方法的可行性,本文又對(duì)原始YOLOv3方法和本文方法的檢測(cè)效果圖及流行的目標(biāo)檢測(cè)方法SSD和Faster R-CNN進(jìn)行對(duì)比分析,如圖7、圖8所示。通過(guò)對(duì)比發(fā)現(xiàn),本文方法對(duì)密集型建筑物檢測(cè)效果較好,漏檢明顯減少。
圖7展示了4種網(wǎng)絡(luò)模型對(duì)于密集建筑物場(chǎng)景下的檢測(cè)效果,第1行檢測(cè)結(jié)果對(duì)比可以看出,SSD和Faster R-CNN方法檢測(cè)的建筑物定位不準(zhǔn)確,漏檢較多,YOLOv3方法大部分檢測(cè)結(jié)果還可以,僅僅對(duì)難以區(qū)分邊界的建筑物(圖7黃色箭頭所指向區(qū)域)檢測(cè)結(jié)果較差,本文方法能夠有較好的檢測(cè)結(jié)果(圖7藍(lán)色箭頭所指向區(qū)域);第2行檢測(cè)結(jié)果對(duì)比可以發(fā)現(xiàn),YOLOv3和SSD方法對(duì)圖7黃色框內(nèi)建筑物誤認(rèn)為是一個(gè)建筑物,F(xiàn)aster R-CNN方法比YOLOv3和SSD檢測(cè)結(jié)果相比檢測(cè)較好,但存在檢測(cè)框定位不準(zhǔn)確的問(wèn)題,而本文方法能夠有較好的檢測(cè)結(jié)果(圖7藍(lán)色箭頭所指向區(qū)域)。圖8展示了對(duì)于非水平排列的建筑物中4種網(wǎng)絡(luò)模型檢測(cè)效果的對(duì)比,第1行檢測(cè)結(jié)果對(duì)比可以看出,雖然SSD和Faster R-CNN方法對(duì)于黃色框區(qū)域內(nèi)建筑物檢測(cè)效果較好,但是這兩種方法存在漏檢、錯(cuò)檢較多,以至于影響建筑物整體檢測(cè)結(jié)果,本文方法不僅能夠改善非水平排列密集型建筑物檢測(cè)效果,而且整體上也檢測(cè)較好;第2行檢測(cè)結(jié)果對(duì)比也可以發(fā)現(xiàn),SSD和Faster R-CNN方法錯(cuò)檢、漏檢較多,本文方法整體上檢測(cè)效果較好。
圖7 密集建筑物檢測(cè)效果對(duì)比Fig.7 Comparison of detection results of dense buildings
圖8 非水平排列密集建筑物檢測(cè)效果對(duì)比Fig.8 Comparison of detection results of non-horizontal arrangement of dense buildings
為了驗(yàn)證改進(jìn)算法的可行性,本文又與當(dāng)前目標(biāo)檢測(cè)比較流行的Faster R-CNN、SSD進(jìn)行了定量對(duì)比,分別采用相同閾值IoU=0.5時(shí)進(jìn)行測(cè)試,不同模型的評(píng)價(jià)指標(biāo)結(jié)果見表2。
表2 不同模型評(píng)價(jià)指標(biāo)對(duì)比分析
由表2可以看出,當(dāng)前流行的Faster R-CNN、SSD、YOLOv3方法中YOLOv3有較大的優(yōu)勢(shì),主要是因?yàn)閅OLOv3采用類似特征金字塔結(jié)構(gòu),對(duì)大小不一的目標(biāo)檢測(cè)相對(duì)于其他兩種網(wǎng)路比較友好,這也是本文選擇在YOLOv3上做進(jìn)一步改進(jìn)的原因。以上3種流行的方法都是利用邊界框回歸的方式進(jìn)行預(yù)測(cè)的,而本文方法是通過(guò)嵌入角點(diǎn)回歸機(jī)制,增設(shè)建筑物角點(diǎn)損失,擴(kuò)展其輸出維度,使其可同時(shí)輸出矩形檢測(cè)框及建筑物角點(diǎn),利用邊界框回歸和角點(diǎn)回歸共同預(yù)測(cè),對(duì)密集排列的建筑物起到了較好的檢測(cè)效果,充分說(shuō)明了本文方法在密集建筑物檢測(cè)領(lǐng)域的先進(jìn)性。
為了進(jìn)一步驗(yàn)證本文方法的性能,本文模型對(duì)不同IoU閾值下的各評(píng)價(jià)指標(biāo)進(jìn)行了統(tǒng)計(jì),見表3。
表3 本文算法在不同IoU閾值下的評(píng)價(jià)指標(biāo)
將表3中的結(jié)果與表2中閾值設(shè)置為0.5的其他模型相比,可以看出,本文方法在閾值為0.65時(shí),各評(píng)價(jià)指標(biāo)仍然具有明顯的優(yōu)勢(shì)。隨著閾值的增大,準(zhǔn)確率開始下降,是因?yàn)殚撝翟龃蠛?,F(xiàn)P增多所致,另外AP在閾值為0.75時(shí),仍然保持較高的平均精度,充分證明了本文方法的優(yōu)越性。
本文針對(duì)現(xiàn)有的以先驗(yàn)框回歸方式輸出的目標(biāo)檢測(cè)算法在密集型建筑物檢測(cè)中存在檢測(cè)框重疊比高的問(wèn)題,提出了一種基于YOLOv3的高分辨率遙感影像中密集建筑物檢測(cè)方法Correg-YOLOv3。該方法是以YOLOv3為基礎(chǔ),通過(guò)嵌入角點(diǎn)回歸機(jī)制,增設(shè)一個(gè)關(guān)于頂點(diǎn)相對(duì)于邊界框中心點(diǎn)的偏移量的額外損失項(xiàng),使其可同時(shí)輸出矩形檢測(cè)框及建筑物角點(diǎn)。同F(xiàn)aster R-CNN、SSD、YOLOv3方法相比,本文方法在準(zhǔn)確率、召回率、平均檢測(cè)精度、F1等方面都有較為顯著的提升,有效解決了高分影像中密集型建筑物的檢測(cè)問(wèn)題。
本文方法雖然在一定程度上提升了建筑物檢測(cè)的精度,但仍然還有提升的空間,如圖像中建筑物背景模糊、樹木遮擋、高建筑物遮擋,以及城中村建筑物小且密集難以區(qū)分邊界等情況,因此會(huì)導(dǎo)致對(duì)此類建筑物難以檢測(cè)出來(lái)。在接下來(lái)的工作中,可以通過(guò)融合紋理特征、優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、擴(kuò)充建筑物數(shù)據(jù)種類等措施,提升模型在上述難以檢測(cè)的環(huán)境下的建筑物檢測(cè)精度。