黎江 許明慧 張羽
傳統(tǒng)的城鎮(zhèn)空間規(guī)劃主要依靠對(duì)多波段遙感影像分析結(jié)果,以多光譜的Landsat-8遙感影像為代表[1].高分辨率的遙感影像具有真實(shí)、實(shí)時(shí)以及便捷等特點(diǎn),精確的圖像分割是統(tǒng)計(jì)分析的前提.圖像邊緣檢測(cè)利用圖像的邊緣信息實(shí)現(xiàn)圖像分割是圖像處理研究的一個(gè)基礎(chǔ)方向,相關(guān)算法有LoG算子[2]、Sobel算子[3]、Canny算子[4]、Roberts算子[5]等.加拿大的Hay等[6]提出了多尺度分割方法對(duì)衛(wèi)星影像進(jìn)行分割;彭志平等[7]針對(duì)我國(guó)常用地圖中的棕、藍(lán)、綠、黑4種顏色在彩色空間的分布規(guī)律提出了快速閾值分割算法.為了提高圖像分割效率,比利時(shí)的Vancoillie等[8]在處理圖像分割時(shí)使用了遺傳算法以及神經(jīng)網(wǎng)絡(luò).
近年來(lái),具有較強(qiáng)特征學(xué)習(xí)能力的深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)廣泛應(yīng)用在圖像分割領(lǐng)域[9-10].CNNs通過(guò)大量標(biāo)注圖像數(shù)據(jù)的訓(xùn)練,利用學(xué)習(xí)到的這些攜帶了豐富的語(yǔ)義和空間信息的特征去進(jìn)行圖像分割[11-12].此外,DeepMask和SharpMask[13]直接從圖像像素生成分割對(duì)象,然后將其分類(lèi)為不同的類(lèi)別.在Faster R-CNN[14]算法的基礎(chǔ)上,結(jié)合經(jīng)典語(yǔ)義分割算法FCN[15],He等[16]提出了用于實(shí)例分割與關(guān)鍵點(diǎn)檢測(cè)的Mask R-CNN,該網(wǎng)絡(luò)框架由4部分組成,分別是卷積神經(jīng)網(wǎng)絡(luò)CNN、區(qū)域建議網(wǎng)絡(luò)、ROIAlign與輸出模塊,使像素分類(lèi)和提取的準(zhǔn)確率得到極大提高,研究結(jié)果表明基于Mask R-CNN的遙感影像土地分割和輪廓提取是可行的.
為了在遙感影像上實(shí)現(xiàn)一次性對(duì)土地的高精度分割和輪廓提取,本文提出一種基于骨干網(wǎng)絡(luò)為ResNet-101-RPN的Mask R-CNN的遙感影像土地分割與輪廓提取方法.如圖1所示,整個(gè)方法包括幾個(gè)步驟:首先選用17級(jí)谷歌地圖(Google Maps)瓦片作為訓(xùn)練和測(cè)試數(shù)據(jù)集;其次根據(jù)谷歌地圖瓦片的特點(diǎn)利用暗通道去霧算法進(jìn)行去霧處理獲得無(wú)霧圖像;然后由土地統(tǒng)計(jì)分析確定分割對(duì)象;最后進(jìn)行土地分割和輪廓提取.在對(duì)遙感影像進(jìn)行一次精確統(tǒng)計(jì)分析土地時(shí),本文所提出的方法有效地解決了在有霧的地圖瓦片圖像上實(shí)現(xiàn)精確的土地分割與輪廓提取問(wèn)題.
本文的模型訓(xùn)練和測(cè)試是在地圖數(shù)據(jù)上進(jìn)行的,使用目前應(yīng)用最為廣泛的Google地圖瓦片方案.Google地圖分為混合地圖、普通地圖以及衛(wèi)星地圖.瓦片數(shù)據(jù)使用金字塔方式組織,Google地圖向用戶提供0~22縮放等級(jí),縮放等級(jí)越高,所包含地理范圍越小,但是包含的地理要素卻越精細(xì).每張地圖瓦片保存格式為PNG和JPG,像素大小為256×256.
圖1 基于Mask R-CNN的遙感影像土地分割與輪廓提取流程Fig.1 Flow chart of remote sensing image segmentation and contour extraction based on Mask R-CNN
選取訓(xùn)練數(shù)據(jù)不但要考慮圖像的清晰程度,同時(shí)也要考慮各類(lèi)數(shù)據(jù)的平衡性,這樣訓(xùn)練出來(lái)的模型才具有更好的泛化能力,因此要遵循以下原則:第一,選取的地圖瓦片要具有適應(yīng)性和代表性;第二,土地分類(lèi)數(shù)據(jù)要平衡;第三,一張地圖瓦片中要盡量包含多種土地類(lèi)別,如選取的地圖瓦片要包含森林、城鎮(zhèn)、耕地等土地要素.本文采集的遙感影像是縮放等級(jí)為17級(jí)的衛(wèi)星地圖瓦片,空間分辨率2.28 m,即一個(gè)像素點(diǎn)表示地面2.28 m×2.28 m的面積,圖片格式為JPG.針對(duì)研究區(qū)域采集1 000張地圖瓦片作為訓(xùn)練集,100張作為測(cè)試集,使用標(biāo)注工具Labelme對(duì)數(shù)據(jù)集樣本進(jìn)行分割掩碼標(biāo)記,完成圖像中土地的標(biāo)注.
由于受到大氣中霧霾細(xì)小顆粒、水蒸氣等雜質(zhì)影響,衛(wèi)星從高空直接拍攝得到的地圖瓦片圖像會(huì)出現(xiàn)模糊、不清晰的現(xiàn)象,如果直接訓(xùn)練模型和測(cè)試不容易取得理想的結(jié)果,因此為了避免這種不良影響,首先要對(duì)采集的圖像進(jìn)行預(yù)處理.結(jié)合Google地圖瓦片的特點(diǎn),本文采用文獻(xiàn)[17]算法對(duì)圖像進(jìn)行去霧處理.
1.2.1 暗通道先驗(yàn)
暗通道假設(shè)圖像中非天空彩色區(qū)域每個(gè)像素只有一個(gè)很低的顏色通道值,對(duì)于任意輸入的一個(gè)地圖瓦片圖像,暗通道的數(shù)學(xué)模型:
(1)
在式(1)中,JC為非天空彩色圖像的3個(gè)不同顏色分量,Ω(x)是一個(gè)以像素x為中心的窗口.通過(guò)對(duì)大量非天空無(wú)霧彩色圖像統(tǒng)計(jì)表明Jdark→0,這就是暗通道先驗(yàn)定理.
1.2.2 大氣散射模型
大氣散射模型:
I(x)=J(x)t(x)+A(1-t(x))
(2)
在圖像處理領(lǐng)域被廣泛應(yīng)用.其中,I(x)為待去霧的地圖瓦片圖像,J(x)為無(wú)霧圖像,A是全球大氣光照強(qiáng)度,t(x)為透射率,若通過(guò)有霧的瓦片圖像I(x)求出無(wú)霧的瓦片圖像J(x),需求解t(x)和A.
將式(2)進(jìn)行整理得:
(3)
(1-t(x)),
(4)
其中,JC(x)是要求解的無(wú)霧瓦片圖像.所以根據(jù)暗通道先驗(yàn)定理得:
(5)
式(5)代入式(4)得:
(6)
其中,w為[0,1]之間的一個(gè)值,根據(jù)Google地圖的特點(diǎn),本文取w=0.9.
(7)
圖像去霧的性能如圖2所示.將去霧圖像與原圖像進(jìn)行比較,可以看出居民區(qū)、森林、耕地區(qū)域明顯改善,去霧后的圖像清晰度得到了提高.
圖2 原圖像與去霧圖像對(duì)比Fig.2 Comparison between original images (a) and defogged images (b)
如果將土地詳細(xì)分為30多類(lèi),則可以分為水田、城市、公路用地、森林、村莊、茶園、裸地、湖泊、建制鎮(zhèn)、草地、建筑用地和沼澤地等.如果依據(jù)30多類(lèi)對(duì)象利用Labelme軟件標(biāo)注地圖瓦片,不但使標(biāo)注任務(wù)艱巨,而且訓(xùn)練得到的模型分割和輪廓提取精度將會(huì)下降,因此要結(jié)合實(shí)際情況重新將對(duì)象細(xì)分和粗分.
根據(jù)實(shí)際情況和實(shí)例分割使用經(jīng)驗(yàn),將土地對(duì)象細(xì)分為9類(lèi):建筑用地、道路用地、裸地、綠化、草地、森林、耕地、水域和其他,并把細(xì)分的9類(lèi)粗分為建設(shè)用地、生態(tài)用地和耕地3類(lèi),其中建筑用地、道路用地、裸地以及綠化為建設(shè)用地,草地、森林、水域和其他為生態(tài)用地,剩下的是耕地.土地對(duì)象細(xì)分和粗分最終結(jié)果和說(shuō)明如表1所示.因此圖像標(biāo)記對(duì)象為建設(shè)用地、生態(tài)用地、耕地.
表1 土地分類(lèi)
遙感影像土地統(tǒng)計(jì)分析需要計(jì)算研究區(qū)域的建設(shè)用地緊湊指數(shù)、生態(tài)用地斑塊密度指數(shù)以及耕地破碎指數(shù).建設(shè)用地緊湊指數(shù)(CI,其量值記為IC)主要描述城鎮(zhèn)建設(shè)用地的飽和以及緊湊程度,當(dāng)城鎮(zhèn)的緊湊指數(shù)越大,表示其中心區(qū)域越集中和經(jīng)濟(jì)效益價(jià)值更大,它的數(shù)學(xué)描述為
(8)
其中,IC為建設(shè)用地緊湊指數(shù),Si為城鎮(zhèn)建設(shè)用地面積,Pi為城鎮(zhèn)建設(shè)用地的輪廓周長(zhǎng).IC在0和1之間,它的值越大,緊湊度越大,表示城鎮(zhèn)形態(tài)越飽滿.
基于像素大小為256×256的地圖瓦片圖像計(jì)算生態(tài)用地斑塊密度指數(shù)和耕地破碎指數(shù),它們的數(shù)學(xué)描述相同,均為
(9)
對(duì)于生態(tài)用地斑塊密度指數(shù)IPD,ni為地圖瓦片圖像的生態(tài)用地塊數(shù),A為地圖瓦片圖像實(shí)際區(qū)域的生態(tài)用地面積;對(duì)于耕地破碎指數(shù)IPD,ni為地圖瓦片圖像的耕地塊數(shù),A為地圖瓦片圖像實(shí)際區(qū)域的耕地面積.A值越小,分別表明圖像實(shí)際區(qū)域的生態(tài)用地越集中和耕地越破碎.
本文的研究重點(diǎn)是將土地從地圖瓦片中分割以及提取出來(lái),這是一個(gè)典型的實(shí)例分割任務(wù).基于骨干網(wǎng)絡(luò)為ResNet-101-RPN的Mask R-CNN的土地分割與輪廓提取方法是將識(shí)別土地種類(lèi)、提取不同土地像素結(jié)合起來(lái)進(jìn)行的,符合遙感影像統(tǒng)計(jì)分析的要求.
圖3 基于Mask R-CNN的土地分割與輪廓提取框架Fig.3 Framework for image segmentation and contour extraction based on Mask R-CNN
Mask R-CNN作為一種非常靈活的神經(jīng)網(wǎng)絡(luò)框架,它在Faster R-CNN的基礎(chǔ)上增加一個(gè)語(yǔ)義分割FCN分支.基于Mask R-CNN的土地分割與輪廓提取框架如圖3所示,它包括2個(gè)部分:1)卷積骨干部分負(fù)責(zé)的是對(duì)整個(gè)地圖瓦片的特征提取;2)頭部部分執(zhí)行邊框識(shí)別和掩碼預(yù)測(cè).區(qū)域建議網(wǎng)絡(luò)RPN計(jì)算區(qū)域提案,然后RoIAlign從每個(gè)提案中結(jié)合特征圖提取特征并執(zhí)行2個(gè)平行操作.在全連接層FC進(jìn)行土地的檢測(cè)、分類(lèi)以及邊框回歸.在全卷積層FCN輸出高精度土地分割和輪廓提取.
由于使用了高級(jí)語(yǔ)義信息和高分辨率特征映射,特征金字塔網(wǎng)絡(luò)FPN[18]能對(duì)土地目標(biāo)進(jìn)行精確定位.為了提高模型的精度和速度,本文使用基于FPN的殘差網(wǎng)絡(luò)ResNet101[19]作為卷積骨干.
對(duì)于每張地圖瓦片圖像,首先使用ResNet-101-RPN提取瓦片圖像的土地特征,然后RPN在特征圖上使用滑動(dòng)窗口方法來(lái)計(jì)算邊框方案.其次,RoIAlign通過(guò)雙線性插值原理將任意大小的感興趣空間區(qū)域映射到固定的空間分辨率.最后,利用Mask R-CNN頭部預(yù)測(cè)目標(biāo)類(lèi)別,細(xì)化邊框定位,同時(shí)生成土地分割掩膜.
為了提高M(jìn)ask R-CNN分割和土地輪廓提取的性能,將使用更多的特征信息.因此選擇強(qiáng)大的ResNet-101作為主干.它由5個(gè)階段組成,對(duì)應(yīng)5個(gè)不同比例尺的特征圖[C1,C2,C3,C4,C5].利用這些特征映射建立FPN網(wǎng)絡(luò)的特征金字塔,分別得到新的特征圖[P1,P2,P3,P4,P5].使用P1即計(jì)算C1對(duì)應(yīng)的特征映射需要花費(fèi)大量的時(shí)間,因此通過(guò)下采樣P5得到P6來(lái)替代P1.特征圖對(duì)應(yīng)關(guān)系如下:
(10)
其中,conv為卷積計(jì)算,sum為逐元素對(duì)齊操作,upsample和downsample分別為上采樣和下采樣.
區(qū)域建議網(wǎng)絡(luò)RPN收到特征圖[P1,P2,P3,P4,P5]并使用滑動(dòng)窗口找到土地所在RoI區(qū)域.RPN網(wǎng)絡(luò)有兩個(gè)輸出,第一個(gè)輸出判斷描點(diǎn)是背景還是土地對(duì)象,第二個(gè)輸出用于校正邊界框,以更好地適應(yīng)土地對(duì)象.在對(duì)RPN網(wǎng)絡(luò)進(jìn)行處理和預(yù)測(cè)后,可以得到一系列邊界框.邊界框會(huì)出現(xiàn)相會(huì)重疊的現(xiàn)象,可以利用非最大值抑制(NMS)來(lái)獲取土地對(duì)象分?jǐn)?shù)較高的邊界框并將其傳遞給下一級(jí).
在頭部之前,為了產(chǎn)生標(biāo)準(zhǔn)尺寸的輸入以輸入到分類(lèi)器,RoIAlign用于將描點(diǎn)的尺寸調(diào)整為固定大小.通過(guò)RoIAlign網(wǎng)絡(luò),將提取的特征圖與輸入圖像進(jìn)行適當(dāng)?shù)貙?duì)齊,解決了區(qū)域建議與特征映射之間定義對(duì)應(yīng)區(qū)域時(shí)的亞像素錯(cuò)位問(wèn)題,使像素分割和提取更加精確,有助于獲取更好的像素分割和提取結(jié)果.
通過(guò)RoIAlign網(wǎng)絡(luò)層得到的特征被送入全連接層FC進(jìn)行目標(biāo)分類(lèi)和邊界框回歸,同時(shí)被送入全卷積層FCN進(jìn)行分割.分類(lèi)是通過(guò)將使用所有特征的FC層的輸出通過(guò)Softmax層來(lái)完成的,土地邊界回歸只能使用從原始區(qū)域建設(shè)中獲得的特征完成,同時(shí)進(jìn)行Mask R-CNN頭部分割和提取土地區(qū)域.
對(duì)于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,損失函數(shù)為預(yù)測(cè)值與真實(shí)值之間的差值,它在土地分割與輪廓提取模型訓(xùn)練中起著重要的作用.在基于Mask R-CNN的土地分割與輪廓提取網(wǎng)絡(luò)中,使用聯(lián)合損失函數(shù)訓(xùn)練邊框回歸、分類(lèi)和掩膜預(yù)測(cè).使用的聯(lián)合損失函數(shù)如下:
L=Lcls+Lbbox+Lmask,
(11)
其中,Lcls為土地分類(lèi)錯(cuò)誤,Lbbox為土地邊框回歸錯(cuò)誤,Lmask為掩膜分支錯(cuò)誤.
遙感衛(wèi)星統(tǒng)計(jì)分析需要計(jì)算建設(shè)用地緊湊指數(shù)、生態(tài)用地斑塊密度指數(shù)以及耕地破碎指數(shù),涉及到城鎮(zhèn)建設(shè)用地面積輪廓周長(zhǎng)、生態(tài)用地面積和耕地面積,因此可以通過(guò)分割的土地圖像來(lái)獲取輪廓周長(zhǎng)和面積.在Mask R-CNN實(shí)例分割中,每個(gè)分割后的圖像都會(huì)被轉(zhuǎn)換成一個(gè)二值矩陣,其中土地像素得分為‘1’,背景像素為‘0’,由背景像素‘0’包圍的‘1’像素是土地的輪廓線,根據(jù)一個(gè)像素點(diǎn)代表2.28 m×2.28 m的區(qū)域求得土地輪廓周長(zhǎng)和面積.
采用均值平均精度(mAP,其量值記為ηmAP)評(píng)價(jià)土地分割的性能.mAP是圖像分割的一個(gè)非常流行的評(píng)估指標(biāo),根據(jù)精確率與召回率,每個(gè)類(lèi)別可以繪制一條曲線,該曲線與坐標(biāo)軸圍成的面積就是平均精度(AP,其量值記為ηAP),則AP的平均值為mAP,其計(jì)算公式為:
(12)
(13)
(14)
(15)
式中,R為召回率,P為精確率,TP為正樣本被預(yù)測(cè)正確的數(shù)量,F(xiàn)P為負(fù)樣本被預(yù)測(cè)錯(cuò)誤的數(shù)量,F(xiàn)N為正樣本被預(yù)測(cè)錯(cuò)誤的數(shù)量,n為測(cè)試集大小.
對(duì)于土地輪廓提取,利用真值的mADE評(píng)估:
(16)
(17)
式中,εADE為真值的平均距離誤差,εmADE為εADE的均值,Aunion是預(yù)測(cè)掩膜和真值所包圍的區(qū)域,Aoverlap為預(yù)測(cè)掩膜和標(biāo)記真值之間重疊區(qū)域,Tcontour為標(biāo)記真值區(qū)域,n為測(cè)試集大小,mADE的值越小表明輪廓提取越精確.
本文采用TensorFlow[20]結(jié)合GPU訓(xùn)練基于Mask R-CNN的土地分割與輪廓提取模型,本實(shí)驗(yàn)的硬件和軟件信息如表2所示.
表2 實(shí)驗(yàn)環(huán)境配置
在整個(gè)數(shù)據(jù)集中,根據(jù)地圖瓦片選取原則,一共選擇1 100張地圖瓦片.另外,根據(jù)是否進(jìn)行去霧處理,有相應(yīng)的原始和去霧圖像數(shù)據(jù)集.在采集的數(shù)據(jù)集中,前1 000張地圖瓦片作為訓(xùn)練集,剩余的100張作為測(cè)試集.為了滿足模型訓(xùn)練和測(cè)試要求,利用Labelme軟件[21]手動(dòng)標(biāo)記不同種類(lèi)的土地區(qū)域.此外,為了加快神經(jīng)網(wǎng)絡(luò)訓(xùn)練,采用基于COCO數(shù)據(jù)集[22]的預(yù)訓(xùn)練權(quán)重.為了驗(yàn)證去霧圖像的有效性,分別對(duì)原始圖像和去霧圖像數(shù)據(jù)集訓(xùn)練基于兩個(gè)不同骨干網(wǎng)絡(luò)的Mask R-CNN的分割與輪廓提取模型,兩個(gè)骨干網(wǎng)絡(luò)分別為ResNet-101-RPN和ResNet-50-RPN.根據(jù)實(shí)驗(yàn),設(shè)學(xué)習(xí)率為0.001,每次迭代的批處理量為50,該模型一共迭代了20 000次.
圖4 土地分割與輪廓提取結(jié)果在原圖像和去霧圖像上的對(duì)比Fig.4 Land segmentation and contour extraction results on original images (a) and defogged images (b)
圖5 基于骨干網(wǎng)絡(luò)為ResNet-101-RPN的Mask R-CNN在去霧圖像上的分割與輪廓提取Fig.5 Land segmentation and contour extraction on defogged images using Mask R-CNN with Resnet-101-RPN as backbone network
原始和去霧圖像的分割與輪廓提取結(jié)果圖4所示.可以看出,在圖4a的原圖像中,骨干網(wǎng)絡(luò)為ResNet-50-RPN的分割與輪廓提取結(jié)果顯示無(wú)法分割識(shí)別圖像中的建設(shè)用地,而在去霧圖像中,骨干網(wǎng)絡(luò)為ResNet-101-RPN的基本能把圖像中的建設(shè)用地分割識(shí)別出來(lái),如圖4b所示.其主要原因是采用文獻(xiàn)[17]算法進(jìn)行去霧減輕了大氣中霧霾細(xì)小顆粒、水蒸氣等雜質(zhì)對(duì)地圖瓦片的影響,減少了對(duì)土地對(duì)象的誤判,同時(shí)骨干網(wǎng)絡(luò)ResNet-101-RPN有更復(fù)雜的特征提取網(wǎng)絡(luò).
此外,所提出骨干網(wǎng)絡(luò)為ResNet-101-RPN的Mask R-CNN方法的一些多土地實(shí)例分割與輪廓提取結(jié)果如圖5所示,可以看出,即使生態(tài)用地被夾在兩塊建設(shè)用地邊緣,所提出的方法依然可以分割以及提取每一塊土地.表3為土地分割的均值平均精度mAP和輪廓提取的mADE評(píng)估.結(jié)果表明在土地分割精度上,骨干網(wǎng)絡(luò)為ResNet-101-RPN在去霧圖像數(shù)據(jù)集獲取的mAP值比原圖像數(shù)據(jù)集高出3.7個(gè)百分點(diǎn);在土地輪廓提取精度中,骨干網(wǎng)絡(luò)為ResNet-101-RPN在去霧圖像數(shù)據(jù)集的mADE為31.33像素,優(yōu)于原圖像數(shù)據(jù)集的34.67像素.結(jié)果表明,在去霧圖像上,改進(jìn)后的圖像質(zhì)量有助于土地分割與輪廓提取,同時(shí)骨干網(wǎng)絡(luò)ResNet-101-RPN提取土地特征的效果比ResNet-50-RPN更優(yōu).綜上所述,在對(duì)遙感影像進(jìn)行土地統(tǒng)計(jì)分析時(shí),本文所提出的基于骨干網(wǎng)絡(luò)為ResNet-101-RPN的Mask R-CNN在去霧圖像上能對(duì)土地進(jìn)行精確分割和輪廓提取.
表3 土地分割的均值平均精度和輪廓提取的均值平均距離誤差
在國(guó)家城鎮(zhèn)規(guī)劃中,高精度的土地分割和輪廓提取是遙感影像進(jìn)行土地統(tǒng)計(jì)分析的基礎(chǔ).為了在不清晰的地圖瓦片上實(shí)現(xiàn)土地的分割和輪廓提取,本文提出了一種基于骨干為ResNet-101-RPN的Mask R-CNN的土地分割和輪廓提取方法.首先利用Google Maps瓦片方案選用數(shù)據(jù)集,采用文獻(xiàn)[17]算法進(jìn)行去霧處理,通過(guò)降低大氣中霧霾細(xì)小顆粒、水蒸氣等雜質(zhì)影響來(lái)提高圖像的質(zhì)量,進(jìn)而實(shí)現(xiàn)高精度的土地分割和輪廓提取.實(shí)驗(yàn)結(jié)果表明,基于骨干網(wǎng)絡(luò)為ResNet-101-RPN的Mask R-CNN在去霧圖像數(shù)據(jù)集的mAP為0.907,比原圖像數(shù)據(jù)集提高了3.7個(gè)百分點(diǎn),同時(shí)土地輪廓提取的評(píng)估指標(biāo)mADE為31.33像素.因此,在遙感影像土地統(tǒng)計(jì)分析中,本文提出的方法能夠?qū)崿F(xiàn)高精度的土地分割和輪廓提取.以后將通過(guò)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提高重疊土地區(qū)域的分割和提取能力.