宋建輝,程思宇,劉硯菊,于 洋
(沈陽理工大學(xué) 自動化與電氣工程學(xué)院 沈陽 110159)
城市土地作為城市經(jīng)濟(jì)發(fā)展的重要載體,土地利用的變化對社會經(jīng)濟(jì)和城市環(huán)境造成很大的影響[1]。隨著社會經(jīng)濟(jì)的高速發(fā)展和城市面積的不斷擴(kuò)大,人類活動密集以及土地利用不合理等原因?qū)е鲁鞘协h(huán)境質(zhì)量有所下降。城市土地包括城市地表、綠地、水域等,精確的識別城市土地類別決定了城市土地分布信息的有效性,因此設(shè)計(jì)精準(zhǔn)、有效的城市地物分割技術(shù)成為重中之重。傳統(tǒng)的圖像分割技術(shù)有基于閾值分割法、區(qū)域分割法和邊緣檢測分割法等[2-3],這些方法大多計(jì)算比較簡單、效率高,在邊界清晰的簡單場景下不同物體之間能取得很好的分割效果,但在復(fù)雜場景或存在遮擋的情況下,目標(biāo)邊界分割不精確,所以使用傳統(tǒng)方法對圖像進(jìn)行分割效果往往不是很好。
隨著科技的不斷進(jìn)步,圖形處理器(GPU)在執(zhí)行復(fù)雜的數(shù)字和幾何計(jì)算方面有很強(qiáng)的能力。近年來,依靠GPU強(qiáng)大的計(jì)算能力,深度學(xué)習(xí)得到廣泛的應(yīng)用。圖像的語義分割屬于像素級分割,是在普通分割的基礎(chǔ)上,添加每塊分割區(qū)域的語義信息。最初利用卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural network,CNN)的分割方法[4],在PASCAL VOC 2012 圖像分割數(shù)據(jù)集上的均交并比(Mean intersection-over-union,MIOU)達(dá)到51.6%,當(dāng)時達(dá)到了最佳性能。Long等[5]提出的全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)為語義分割奠定了良好的基礎(chǔ),將網(wǎng)絡(luò)的全連接層換成卷積層,通過反卷積輸出與原圖等大的分割圖,在PASCAL VOC 2012上MIOU達(dá)到62.2%。Badrinarayanan等[6]提出SegNet網(wǎng)絡(luò)延用FCN的網(wǎng)絡(luò)結(jié)構(gòu),將最大池化指數(shù)轉(zhuǎn)移至解碼器中,改善了分割分辨率,MIOU達(dá)到了63.6%。Yu等[7]在多尺度聚集條件下使用擴(kuò)張卷積聚合上下文信息,這是一種可用于密集預(yù)測的卷積層,MIOU達(dá)到了67.6%。Zhao等[8]提出金字塔池化方法(PSPNet),在復(fù)雜的場景中獲取全局特征,在PASCAL VOC 2012上MIOU達(dá)到85.4%。Chen等[9]提出改進(jìn)了空間維度上的金字塔空洞池化方法(Atrous Spatial Pyramid Pooling,ASPP),采用殘差網(wǎng)絡(luò)模塊,設(shè)計(jì)Deeplabv3網(wǎng)絡(luò),相比于文獻(xiàn)[10],由于加入了批量歸一化層和使用了更優(yōu)的方法來編碼多尺度背景,在性能上有所提高,在PASCAL VOC 2012上MIOU達(dá)到85.7%。Chen等[11]在Deeplabv3的基礎(chǔ)上提出了Deeplabv3+,這是一個全新的encoder-decoder架構(gòu),使用Deeplabv3作為encoder模塊,并添加了一個簡單卻有效的decoder模塊,這種架構(gòu)可以獲得清晰的物體邊界,在PASCAL VOC 2012上驗(yàn)證模型的有效性,MIOU達(dá)到89%。
Deeplabv3+可以說是深度學(xué)習(xí)語義分割中的最佳模型,具有精度高、邊界分割清晰、處理速度快等優(yōu)點(diǎn);將其用于無人機(jī)拍攝的地物場景圖像分割,在精確分割地物場景并附上語義標(biāo)簽的同時,還能計(jì)算其面積及所在區(qū)域的空間分布。參考國內(nèi)外文獻(xiàn),目前對無人機(jī)影像進(jìn)行語義分割的研究相對較少,大多是對衛(wèi)星遙感圖像的分割。圖像獲取周期時間長,易受自然環(huán)境影響,而無人機(jī)遙感圖像由于是低空拍攝,具有機(jī)動性強(qiáng)、獲取圖像分辨率高、成本低等優(yōu)點(diǎn),能很好的解決這些問題[12]。本文采用Deeplabv3+深度學(xué)習(xí)方法對無人機(jī)拍攝的地物場景影像進(jìn)行6種類別的分割,這6種分別是樓房、汽車、草地、道路、樹木和水源;使用兩種網(wǎng)絡(luò)骨干模型xception_65和mobilenet_v2分別進(jìn)行實(shí)驗(yàn),對比兩種模型測試的結(jié)果,選擇最佳模型,對最佳模型進(jìn)行二次遷移訓(xùn)練,對比遷移前后分割效果并計(jì)算出各類別覆蓋面積。
Deeplabv3+網(wǎng)絡(luò)是在v3的基礎(chǔ)上做了改進(jìn),分為編碼器與解碼器兩個部分,這兩部分常用于計(jì)算機(jī)視覺任務(wù)中,包括人體姿態(tài)識別、目標(biāo)檢測和語義分割。編碼器-解碼器網(wǎng)絡(luò)包含:(1)編碼器模塊可逐漸減少特征圖并捕獲更高層次的語義信息;(2)解碼器模塊可逐漸恢復(fù)圖像的空間信息。在Deeplabv3+中用Deeplabv3網(wǎng)絡(luò)作為編碼器模塊,使用簡單的網(wǎng)絡(luò)作為解碼器實(shí)現(xiàn)圖像的語義分割。Deeplabv3+網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 Deeplabv3+網(wǎng)絡(luò)結(jié)構(gòu)圖
編碼器部分,原有的Deeplabv3網(wǎng)絡(luò)在改進(jìn)ASPP模塊的基礎(chǔ)上,以ResNet-101[13]網(wǎng)絡(luò)為骨架網(wǎng)絡(luò)進(jìn)行特征提取。Deeplabv3+網(wǎng)絡(luò)將ResNet-101網(wǎng)絡(luò)改為Xception[14]網(wǎng)絡(luò)作為骨架網(wǎng)絡(luò)。Xception網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 Deeplabv3+中的Xception網(wǎng)絡(luò)結(jié)構(gòu)
Xception網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集[15]上進(jìn)行圖像分類具有快速計(jì)算能力,這里對模型有所改動:網(wǎng)絡(luò)層數(shù)變深,中間流程重復(fù)16次;最大池化操作使用深度可分離卷積來替換;在每次3×3深度卷積后添加ReLU激活函數(shù)。然后在Xception網(wǎng)絡(luò)后導(dǎo)入ASPP得到特征圖,將其輸入到1×1卷積層中,卷積后得到的高層次特征圖輸入到解碼器中。ASPP模塊最初在Deeplabv2中由文獻(xiàn)[10]提出,Deeplabv3中對ASPP又有所改進(jìn),多了1×1的卷積層和全局平均池化層;1×1卷積層相當(dāng)于rate很大的空洞卷積,得到的整個特征圖使用全局平均池化層求取平均值。ASPP結(jié)構(gòu)如圖3所示。
圖3 ASPP結(jié)構(gòu)圖
解碼器部分,首先連接低層次特征,利用1×1卷積層對特征圖進(jìn)行卷積,得到低層次特征圖,然后將低層次特征圖與編碼器經(jīng)過4倍上采樣得到的高層次特征圖進(jìn)行融合,最后經(jīng)過3×3卷積操作和4倍的上采樣恢復(fù)至原圖分辨率,得到與最初輸入圖像等大的分割圖,實(shí)現(xiàn)對無人機(jī)圖像的像素級語義分割。
圖像語義分割評價(jià)指標(biāo)很多,普遍是像素精度(Pixel Accuracy,PA)及交并比(Intersection over Union,IOU)的一些改進(jìn)。文獻(xiàn)[16]對語義分割評價(jià)標(biāo)準(zhǔn)做了詳細(xì)介紹,假設(shè)需要分割的圖像中共有k+1個類(其中包括背景類),Pij表示屬于i類的像素?cái)?shù)量但被預(yù)測為j類的像素?cái)?shù)量。Pii代表真正預(yù)測的數(shù)量,Pij和Pji則分別表示為假正和假負(fù)。以下是幾種常用的語義分割的精度評價(jià)標(biāo)準(zhǔn)。
像素精度PA是最基礎(chǔ)的度量方式,表示正確像素占整體像素的比例。
(1)
均像素精度(Mean Pixel Accuracy,MPA):在PA基礎(chǔ)上的改進(jìn),先計(jì)算每個類的PA,然后求所有類別的平均值。
(2)
MIOU是語義分割常用的標(biāo)注評價(jià)指標(biāo)。IOU為真實(shí)值和預(yù)測值兩個集合的交集與并集之比。計(jì)算完每類的IOU求和取平均即為MIOU。
(3)
頻權(quán)交并比(Frequency Weighted Intersection over Union,F(xiàn)WIOU)是MIOU的一種提升,根據(jù)每個類出現(xiàn)的頻率對各個類別的IOU進(jìn)行加權(quán)求和。
(4)
在以上的評價(jià)指標(biāo)中,由于MIOU代表性強(qiáng),因此成為最常用的評價(jià)指標(biāo),大部分研究人員都使用該指標(biāo)匯報(bào)結(jié)果。
覆蓋面積的計(jì)算是對圖像中的像素點(diǎn)數(shù)統(tǒng)計(jì),找到可知覆蓋面積的目標(biāo)作為參照物,根據(jù)參照物所占像素得到圖像的空間解析度,計(jì)算公式為
R=a/n
(5)
式中:R為空間解析度(m2/像素點(diǎn)數(shù));a為參照物面積(m2);n為參照物像素點(diǎn)數(shù)。
根據(jù)空間解析度,統(tǒng)計(jì)圖像中其他類別的像素?cái)?shù)量,即可得到各個類別的覆蓋面積,面積計(jì)算公式為
Si=RNi
(6)
式中:Si為圖像中第i類目標(biāo)的覆蓋面積;Ni為圖像中第i類的像素點(diǎn)數(shù)。
數(shù)據(jù)集上使用德國波茨坦和Vaihingen城市的無人機(jī)遙感圖像以及大型虛擬現(xiàn)實(shí)游戲中高空錄像截幀獲取圖像,通過人工標(biāo)注得到標(biāo)注文件,經(jīng)過處理得到標(biāo)注圖像,將原圖像和標(biāo)注圖像整理成自制數(shù)據(jù)集;由于數(shù)據(jù)樣本少,將獲取的圖像進(jìn)行平移、翻轉(zhuǎn)達(dá)到數(shù)據(jù)翻倍。最后將數(shù)據(jù)分為訓(xùn)練集和測試集進(jìn)行訓(xùn)練。
本文采集的數(shù)據(jù)集數(shù)量較少,對訓(xùn)練完測試得到的結(jié)果會有所影響,故采用遷移學(xué)習(xí)訓(xùn)練。遷移訓(xùn)練可以加快網(wǎng)絡(luò)損失的收斂和提高測試的準(zhǔn)確率。遷移學(xué)習(xí)是用現(xiàn)有領(lǐng)域?qū)W習(xí)的知識,通過遷移到新環(huán)境中,去解決領(lǐng)域相關(guān)的其他問題。目前大型數(shù)據(jù)集訓(xùn)練的預(yù)訓(xùn)練模型已經(jīng)公開,利用遷移學(xué)習(xí)可以將這些預(yù)訓(xùn)練模型應(yīng)用到本文的數(shù)據(jù)集中去解決類似的問題。
遷移學(xué)習(xí)的方法大致分為:(1)特征選擇的遷移學(xué)習(xí)方法;(2)特征映射的遷移學(xué)習(xí)方法;(3)權(quán)重的遷移學(xué)習(xí)方法[17]。特征選擇的遷移學(xué)習(xí)方法是使用高度相關(guān)的特征去解決目標(biāo)問題,需要將大量數(shù)據(jù)集分為不同特征子集去進(jìn)行驗(yàn)證[18]。特征映射的遷移學(xué)習(xí)方法需要源領(lǐng)域與目標(biāo)領(lǐng)域數(shù)據(jù)擁有相同的分布[19]。權(quán)重遷移學(xué)習(xí)方法是使源領(lǐng)域訓(xùn)練的權(quán)重用于目標(biāo)領(lǐng)域??紤]到數(shù)據(jù)集較少,本文采用權(quán)重遷移學(xué)習(xí)的方法對數(shù)據(jù)進(jìn)行遷移訓(xùn)練。本文的預(yù)訓(xùn)練模型選擇已在Cityscapes數(shù)據(jù)集上訓(xùn)練好的Xception_65模型,該模型底層提取物體的通用特征,一般有局部的紋理、顏色及輪廓,保留Xception_65模型的這些特征,用本文自制的數(shù)據(jù)集來訓(xùn)練目標(biāo)物體的高層特征。
采用Deeplabv3+網(wǎng)絡(luò)模型對城市地物場景圖像進(jìn)行語義分割,實(shí)驗(yàn)分三部分進(jìn)行:(1)對城市地物場景圖像目標(biāo)分別進(jìn)行提取,經(jīng)過測試,根據(jù)分割結(jié)果分析該模型對地物場景每個類別的分割效果;(2)對不同網(wǎng)絡(luò)主干的Deeplabv3+網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,將測試結(jié)果進(jìn)行對比,選出最佳網(wǎng)絡(luò)主干;(3)采用遷移學(xué)習(xí)對Deeplabv3+網(wǎng)絡(luò)進(jìn)一步訓(xùn)練,對比遷移前后的分割精度,測算出測試結(jié)果各個類別的覆蓋面積。
實(shí)驗(yàn)主要硬件配置:CPU(Inter core i7-8700k 3.2GHz);GPU(GeForce RTX 2070);內(nèi)存(16G)。
數(shù)據(jù)集中每個類別的大小都不同,對最后的分割效果也會有影響,故對測試集中每個類別分別進(jìn)行提取。數(shù)據(jù)集共計(jì)2138張,其中訓(xùn)練集2038張,測試集100張。網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)使用交叉熵函數(shù)[20],采用隨機(jī)梯度下降法對訓(xùn)練進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)為10-4;衰減學(xué)習(xí)率每2000步下降0.1,學(xué)習(xí)動量設(shè)為0.9,訓(xùn)練批次大小設(shè)為1;ASPP模塊中三個擴(kuò)展率設(shè)為[6,12,18],模型使用xception_65。由于建筑、汽車、草地、道路、樹木、水源以及背景這七種類別的像素?cái)?shù)量各不相同,無法達(dá)到平衡,故在訓(xùn)練階段對建筑、汽車、草地、道路、樹木、水源這六類設(shè)置較大的權(quán)值,背景與這六類的權(quán)值比分別設(shè)定為1∶1、1∶2、1∶2、1∶1、1∶2、1∶3。訓(xùn)練步數(shù)100000步后,對測試集進(jìn)行精度測試,每個類別的測試結(jié)果如表1所示。
表1 Deeplabv3+模型上各個類別的IOU指數(shù) %
由表1可以看出,建筑物的精度最高,汽車的分割精度最低,MIOU達(dá)到73.97%。測試集在Deeplabv3+模型上測試的效果圖如圖4所示。
圖4 不同類別的Deeplabv3+模型可視化結(jié)果
取其中四類逐類進(jìn)行分析。結(jié)合表1給出的分割精度,可以看出,建筑、樹木、道路和汽車的分割精度是從大到小逐漸降低,說明Deeplabv3+網(wǎng)絡(luò)對較大目標(biāo)的分割精度高于小目標(biāo)。從圖4b和圖4c中可以看到,建筑的標(biāo)注圖和測試圖分布基本一致,分割精度最高。從圖4h和圖4i道路的標(biāo)注圖和測試圖中可以看出,雖然有部分遮擋,但也能將道路的區(qū)域分割出來,說明模型對部分遮擋的目標(biāo)也能進(jìn)行準(zhǔn)確的分割。從圖4k和圖4l中可以看到,汽車總體上被分割出來,與標(biāo)注圖相差不大,相鄰的汽車分割出現(xiàn)融合,說明圖像中目標(biāo)像素值太少,影響了最后的分割效果??傮w來說,Deeplabv3+對于大目標(biāo)分割精度高,整體分割效果與標(biāo)注圖一致;小目標(biāo)分割上會有所偏差。
不同的網(wǎng)絡(luò)主干模型對目標(biāo)特征的擬合程度往往不同。本文針對Deeplabv3+中的兩種網(wǎng)絡(luò)主干模型mobilenet_v2和xception_65分別進(jìn)行訓(xùn)練,分析兩種網(wǎng)絡(luò)主干對模型分割效果的影響,實(shí)驗(yàn)測試可視化結(jié)果如圖5所示,分割精度對比如表2所示。
圖5 不同網(wǎng)絡(luò)主干的Deeplabv3+模型可視化結(jié)果
表2 不同網(wǎng)絡(luò)主干的Deeplabv3+模型地物場景分割結(jié)果 %
從表2可知,xception_65模型的分割精度結(jié)果整體都高于mobilenet_v2模型,mobilenet_v2和xception_65的模型均像素精度都在75%以上。其中xception_65的均像素精度達(dá)到了79.06%。這是因?yàn)閤ception_65的網(wǎng)絡(luò)層數(shù)更深,可以更好的擬合特征,獲得更強(qiáng)大的表達(dá)能力和逐層的特征學(xué)習(xí)能力。圖像上各類別分布不同,網(wǎng)絡(luò)模型越深,學(xué)習(xí)到各個類別的特征信息就越多,xception_65通過逐層學(xué)習(xí)特征信息,得到更精準(zhǔn)的結(jié)果。圖5中,分割的是建筑、汽車、道路、草地和樹木,兩種模型的測試結(jié)果圖基本與標(biāo)注圖一致,均能準(zhǔn)確分割城市地物場景各個類別,但xception_65模型的測試結(jié)果分割更清晰,效果更好。
表3為不同網(wǎng)絡(luò)主干的Deeplabv3+模型訓(xùn)練測試時間。
表3 不同網(wǎng)絡(luò)主干的Deeplabv3+模型訓(xùn)練測試時間
從表3可以看出,mobilenet_v2的訓(xùn)練時間只需要2.5h,這是因?yàn)閙obilenet_v2的網(wǎng)絡(luò)層數(shù)少于xception_65的網(wǎng)絡(luò)層數(shù),所以在訓(xùn)練時間上要快很多。在測試單張圖片上xception_65比mobilenet_v2要快。mobilenet_v2雖然計(jì)算速度快,但得到的結(jié)果精度卻低于xception_65。所以在不考慮訓(xùn)練時間的情況下,可選用精度更高的xception_65網(wǎng)絡(luò)主干。
使用遷移學(xué)習(xí)對少量數(shù)據(jù)集訓(xùn)練可以使分割結(jié)果有所優(yōu)化。最初使用公開數(shù)據(jù)集提供的預(yù)訓(xùn)練模型訓(xùn)練,由于公開的預(yù)訓(xùn)練模型訓(xùn)練的場景數(shù)據(jù)不包括無人機(jī)拍攝的場景數(shù)據(jù),故為得到更好的訓(xùn)練效果,采用二次遷移的方式,先用預(yù)訓(xùn)練模型訓(xùn)練小批次,再用生成的模型進(jìn)行遷移繼續(xù)訓(xùn)練。兩次訓(xùn)練的步數(shù)都為10萬步,分割結(jié)果見表4所示。損失對比圖如圖6所示。
表4 兩種訓(xùn)練方式的分割結(jié)果 %
從表4可以看出,遷移訓(xùn)練后各項(xiàng)指標(biāo)都有小幅的提升,說明遷移訓(xùn)練對結(jié)果的優(yōu)化有效。
圖6 遷移訓(xùn)練與原始訓(xùn)練的損失對比圖
從圖6中可以看到,遷移后的損失趨勢更加穩(wěn)定,這是因?yàn)椴捎眠w移學(xué)習(xí)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練時,網(wǎng)絡(luò)的前幾層就已經(jīng)可以學(xué)習(xí)到遷移部分的效果。
經(jīng)過遷移訓(xùn)練后各項(xiàng)指標(biāo)有所提升,表5是對遷移前后每個類別分割精度的測試結(jié)果。
表5 遷移前后各個類別的IOU指數(shù) %
從表5中可以看出,在建筑、汽車、草地、道路、樹木、水源這6類的語義分割上,使用遷移訓(xùn)練的分割精度分別提高了0.3%、1.6%、0.5%、2.4%、1.5%、2.8%,MIOU提高了1.48%。
根據(jù)遷移訓(xùn)練后的Deeplabv3+模型測試的預(yù)測圖,統(tǒng)計(jì)圖中每個類別的像素點(diǎn)數(shù),由標(biāo)注圖中參照物汽車的實(shí)際覆蓋面積和其在圖中所占的像素點(diǎn)數(shù)得到空間解析率;將得到的空間解析率分別與測試圖中各個類別的像素點(diǎn)數(shù)相乘,得到相應(yīng)的覆蓋面積。測算結(jié)果如表6所示。由表6可以看到,汽車的誤差較大,這是因?yàn)槟P蛯π∧繕?biāo)的分割精度較低所致;其它類別的誤差都在10%以下,平均誤差為4.79%。
表6 單張測試圖目標(biāo)面積測算結(jié)果
基于Deeplabv3+模型對無人機(jī)拍攝的城市地面場景進(jìn)行語義分割,實(shí)驗(yàn)結(jié)果表明,基于深度卷積網(wǎng)絡(luò)的無人機(jī)地物場景語義分割技術(shù)能夠?qū)Φ匚飯鼍皥D像進(jìn)行準(zhǔn)確分割;使用xception_65為網(wǎng)絡(luò)主干的Deeplabv3+模型得到的分割精度最高,該模型對圖像中大目標(biāo)分割效果較好,有小面積遮擋的情況也能較好地分割出目標(biāo)的大致輪廓;對該模型進(jìn)行二次遷移訓(xùn)練,分割精度有所提高。通過對測試結(jié)果圖像計(jì)算覆蓋面積,得到城市地面場景的分布信息,為城市土地規(guī)劃提供了依據(jù)。