古煜民,閻福禮
(1 中國科學院空天信息創(chuàng)新研究院, 北京 100094; 2 中國科學院大學資源與環(huán)境學院, 北京 100190)
建筑物是城市數(shù)字化、城市變化檢測和快速制圖的重要目標,是城市規(guī)劃、防災減災應用的核心承災體,研究如何利用高新技術精確識別、快速提取和高頻次監(jiān)測建筑物變化信息,不僅具有重要的科學意義,也具有重要的應用價值[1]。隨著遙感傳感器技術的飛速發(fā)展,越來越多的航空、航天高分辨率數(shù)據(jù)不斷涌現(xiàn)。如美國Worldview數(shù)據(jù)達到0.3 m,中國GF-2號數(shù)據(jù)達到1 m,中國科學院遙感飛機的ADS-80達到0.5 m,無人機航拍數(shù)據(jù)可達到0.05 m。高分辨率影像能夠精細刻畫包括建筑物在內的地物目標的光譜、幾何、紋理特征,為高精度建筑物提取提供了可能[2]。但是高分辨率遙感數(shù)據(jù)的建筑物提取,存在存儲數(shù)據(jù)量大、人工解譯工作量大,傳統(tǒng)的建筑物提取算法誤差大的特點,基于遙感手段的快速、準確、高頻次地建筑物自動提取逐漸成為研究的熱點。
傳統(tǒng)的高分影像建筑物自動提取主要分為4大類:一是多尺度分割提取方法[3-5],最常見的多尺度分割算法為eCongnition的分形網絡演化算法(fractal net evolution approach,F(xiàn)NEA)算法[6];二是邊緣和焦點檢測與匹配的提取方法[7-8],依據(jù)影像中不同區(qū)域邊界灰度級變化,從而檢測建筑物邊緣實現(xiàn)分割;三是區(qū)域分割提取方法[9],有區(qū)域生長法、四叉樹法和分水嶺法等;四是基于數(shù)學工具、新理論及多種方法結合的提取方法[10-11]。傳統(tǒng)方法在建立模型時往往以人為主觀性為主,不能自動地提取建筑物深層特性。
隨著計算機圖像技術發(fā)展,能夠主動提取圖像深層特征的深度神經網絡出現(xiàn)了。比較有代表的深度卷積神經網絡有VGG_Net[12],GoogLeNet[13]和ResNet[14]等。隨著基于卷積神經網絡的目標識別技術在傳統(tǒng)圖像領域的發(fā)展,使得深度學習開始小規(guī)模在遙感領域進行應用。Mnih[15]將深度卷積神經網絡應用于建筑物目標自動提取,并引入條件隨機場對分類結果后期處理,總精度達76.38%;Saito等[16]在深度卷積神經網絡的基礎上,將分類器由softmax替換為通道抑制多分類器(channel-wise inhibited softmax),提取總精度為80.87%。卷積計算的平滑效應造成了有用信息的損失,導致對于建筑物邊緣的識別精度較低。2015年全卷積神經網絡(fully convolutional networks,FCN)[17]發(fā)布,F(xiàn)CN是第一個端對端的圖像語義分割網絡,此后卷積神經網絡模型開始大規(guī)模在遙感分類領域應用。劉文濤等[18]基于FCN網絡進行微調,對建筑物屋頂進行提取,總精度達到92.39%。劉浩等[19]基于UNet網絡,添加特征激活層,對建筑物進行提取,總精度達到94.72%。但由于模型結構較為基礎,對于復雜建筑物的識別能力受到限制,仍具有可提升的空間。
遙感建筑物提取應用涉及大場景的真實遙感圖像,包含大量類似建筑物的復雜場景,如花壇、大棚、水泥地面。本文針對高分辨率影像建筑物自動提取,引入深度學習特征功能模塊和傳統(tǒng)遙感應用技術驗證環(huán)節(jié),形成多種不同骨架模塊、UNet++網絡和真實性檢驗的建筑物遙感提取功能模塊嵌合的深度學習業(yè)務化應用技術體系,在UNet++網絡的基礎上,將經典的卷積神經網絡的VGG系列[12]、ResNet系列[14]和InceptionNet系列[13,20-22]作為骨架對其進行改造,分別在模型深度和廣度不同層面對模型進行強化,提升性能,使模型可以更好地學習建筑物輪廓深度信息。加入批量歸一化層(batch normalization-layer,BN層)[22],設置DropOut系數(shù)[23],使之能取得更好的提取效果,同時針對二分類和數(shù)據(jù)的特性選擇Dice系數(shù)[24]結合cross-entropy作為損失函數(shù),平衡訓練數(shù)據(jù)。通過真實性檢驗驗證算法的有效性、適用性,展示完整的遙感應用技術鏈條。與傳統(tǒng)的非全卷積網絡模型和全卷積網絡模型相比,本文方法在建筑物提取精度上擁有顯著的優(yōu)勢。
本節(jié)主要闡述建筑物提取應用的基本流程。首先介紹實驗所采用的基礎實驗原理,然后描述相關基礎網絡特性及其如何發(fā)揮網絡優(yōu)勢。為了適應二分類應用任務訓練,損失函數(shù)采用Dice系數(shù)和交叉熵結合的損失函數(shù),并結合傳統(tǒng)圖像分割和遙感分類相關精度評價表。總體應用流程圖以InceptionV3-UNet++模型為例,如圖1所示。
圖1 建筑物提取流程圖
UNet模型[25]以編碼器-解碼器(encoder-decoder)[26]結構為基礎,基本結構如圖2(a)所示。UNet++模型[27]在UNet模型的基礎上,結合DenseNet[28]和深度監(jiān)督[29]原理,其主要結構如圖2(b)所示。和UNet相比,它主要在殘差鏈接部分增加了一些解碼器單元并采用殘差鏈接的方法連接起來。其中,每一個單元的計算結構大致如下所示:
圖2 UNet/UNet++網絡結構[27]
(1)
基礎的UNet++模型簡潔有效地解決了參數(shù)回傳的問題,但直接將其應用于建筑物提取任務,精度較低。為了提高它的分類精度,本研究選擇將不同的深度學習模型作為骨架(backbone)來改造UNet++基礎模型。分別選用了VGG16,Resnet50和InceptionV3,對UNet和UNet++進行改造。
ResNet模型[14]結構可以加速神經網絡訓練,其主要思想是在網絡中增加直連通道,即Highway Network的思想。此前的網絡結構是線性輸入做一個非線性變換,而Highway Network則允許保留之前網絡層的一定比例的輸出,允許原始輸入信息直接傳到后面的層中。殘差網絡的具體結構如圖3所示。
圖3 殘差結構[14]
由兩個子單元組成,它的表達式如下:
(2)
(3)
式中:σ代表ReLU層,然后通過短鏈接和第2個ReLU層得到輸出y。
Inception網絡模塊中,除常見的3×3和5×5卷積網絡之外,引入額外的1×1卷積層,以此限制輸入信道的數(shù)量,信道數(shù)的減少可以有效地降低計算成本,同時不改變計算的結果。最終經過多個版本的迭代,Inception網絡模型發(fā)展到了V4版本,本文選取V3版本對UNet++網絡進行改造。其中3個子模塊結構分別如圖4(a)、4(b)、4(c)所示。
圖4 3種Inception結構[13]
本文將3種基礎網絡的編碼器部分按照表1分割為5個部分,分別將Conv1~5作為跳躍鏈接層,替換原始UNet++模型編碼器中的各個卷積模塊,然后在各模塊中加入Dropout層和BN層進一步提升收斂速度和魯棒性。基于InceptionV3的UNet/UNet++模型在模型深度增加的前提下,計算量增加并不明顯,可以有效提高模型的運行和計算效率。
表1 VGG16、ResNet50、InceptionV3模型結構表(編碼器)
Dice系數(shù)是一種集合相似度函數(shù),常用于計算樣本的相似度,其表達式如下
(4)
其中:∣X∩Y∣為兩集之間的交集,∣X∣和∣Y∣分別表示X和Y的元素個數(shù)。將Dice系數(shù)作為損失函數(shù)應用于二分類場景,使得兩種類別的相似度最小,因此用Dice系數(shù)取相反數(shù)就可以得到Dice損失函數(shù)。
為了保留交叉熵收斂效能,本文將二元交叉熵(binary cross-entropy)和Dice loss兩種損失函數(shù)進行疊加組合,按式(4)的損失值分配到每一個層次的輸出,以此進行反向傳播運算。
(5)
在測試模型的性能時,考慮到傳統(tǒng)圖像分割領域和遙感分類領域精度評價標準差異,使用每個類別的生產者精度(producer accuracy)、用戶精度(user accuracy)、臨界成功指數(shù)(critical success index,CSI)、F1分數(shù)以及Kappa系數(shù)為評價標準。其中生產者精度、用戶精度和Kappa系數(shù)是遙感分類中最為常用的精度評價指標,CSI常見于氣象學科的分類中,F(xiàn)1分數(shù)能綜合體現(xiàn)生產精度和用戶精度分類效果,是計算機圖像領域中最為常用的分類指標。這幾個指標的表達式分別表示如下:
(6)
(7)
(8)
(9)
(10)
式中:Users表示用戶精度,Producers表示生產者精度;TP表示預測正確實際也正確的像元數(shù)量,F(xiàn)P表示預測為正確像元但實際是錯誤像元的數(shù)量,TN表示預測為錯誤實際也分類錯誤的像元數(shù)量,F(xiàn)N表示預測為錯誤但實際為正確像元的數(shù)量;po是每一類正確分類的樣本數(shù)量之和除以總樣本數(shù),也就是總體分類精度;pe是所有類別分別對應的實際與預測數(shù)量的乘積的總和,除以樣本總數(shù)的平方。
馬薩諸塞州建筑物數(shù)據(jù)集(Mnih Massachusetts building dataset)由馬薩諸塞州波士頓地區(qū)的151張航拍圖像組成,空間分辨率為1 m,每幅圖像的大小為1 500像素×1 500像素,面積為2.25 km2。因此,整個數(shù)據(jù)集大約覆蓋340 km2。整個數(shù)據(jù)集由Mnih創(chuàng)建,他通過柵格化OpenStreetMap項目獲得的建筑輪廓線來獲取精確的建筑物輪廓。此數(shù)據(jù)僅保留平均遺漏噪聲水平小于或等于5%的區(qū)域。波士頓地區(qū)為OpenStreetMap項目貢獻了整個城市的建筑分布數(shù)據(jù),所以可以收集到大量高質量的建筑物提取數(shù)據(jù)。我們將數(shù)據(jù)隨機分為137個圖像的訓練集,10個圖像的測試集和4個圖像的驗證集。航空影像數(shù)據(jù)和標簽數(shù)據(jù)如圖5(a)、5(b)所示。標簽數(shù)據(jù)中建筑物輪廓以房屋屋頂為標準,并將其在標簽數(shù)據(jù)中標記為1,其余像素都標記為0。為了充分利用GPU顯存,同時確保實驗進行,本研究采用滑動裁剪將影像裁剪為512像素×512像素大小,每張原始影像被裁剪為25張小影像,每張影像的重疊度為50%。
圖5 馬薩諸塞州建筑物數(shù)據(jù)集示例
我們在獲取到原始的深度學習數(shù)據(jù)集后,不會馬上將數(shù)據(jù)投入訓練,往往還要經過數(shù)據(jù)的預處理和增強處理。數(shù)據(jù)預處理和增強主要為了擴充數(shù)據(jù)集樣本數(shù)量,一般而言,數(shù)據(jù)量越大,模型能夠更好地學習數(shù)據(jù)集的特性,提高泛化能力,同時增加一定的噪聲數(shù)據(jù),保障更好的魯棒性能。數(shù)據(jù)預處理首先對基礎的數(shù)據(jù)集進行切割,得到模型適用的輸入尺寸大小的新數(shù)據(jù)集,在新數(shù)據(jù)集的基礎上對數(shù)據(jù)進行增強。數(shù)據(jù)增強常用的方法有:翻轉、旋轉、縮放、裁切、平移、添加噪聲等。我們對馬薩諸塞州建筑物數(shù)據(jù)集進行預處理得到3 425個訓練樣本,然后對訓練樣本進行增強,得到50 000個訓練樣本組成的訓練集用于模型的訓練。
采用Keras+Tensorflow作為學習框架。Tensorflow是Google Brain推出的基于數(shù)據(jù)流編程的深度學習框架,被廣泛應用于學術和工業(yè)界,具有很高的可操作性。Keras是一種以Tensorflow為后端的高級神經網絡API,采用python開發(fā)。
卷積神經網絡在訓練過程中會不斷迭代自身的網絡參數(shù),但是為了使模型迭代更快,得到更好的訓練效果,常常需要人為設置一些超參數(shù)。這里主要設置的參數(shù)有批處理的大小(batch size)、損失函數(shù)的優(yōu)化器、迭代輪數(shù)(epoch)、初始學習率、初始權重以及Dropout層的比例等。經過多次的實驗和經驗,同時考慮服務器處理能力,設置batch size大小為8,優(yōu)化器為自適應學習率Adam函數(shù)[30],初始學習率為0.01,權重衰減參數(shù)為10-7,epoch大小為100次并輔以早停設置,采用ImageNet數(shù)據(jù)集上訓練好的權重參數(shù)作為初始權重。Dropout層比例設置為0.5。本實驗采用2塊英偉達Tesla P100的Linux服務器進行訓練。
除了對本文涉及的網絡進行精度對比分析之外,還對Mnih[15],Saito等[16]以及劉文濤等[18]提出的方法對同實驗數(shù)據(jù)的實驗結果進行對比,這里主要參考了他們的總精度。本文實驗了基于VGG16、ResNet50、InceptionV3為骨架的UNet++和UNet網絡,同時也對基礎的UNet++和UNet網絡進行了實驗,主要評價指標有生產者精度、用戶精度、CSI、F1分數(shù)、Kappa系數(shù)以及總精度,結果如表2所示。
表2 不同模型精度分析表
Mnih和Satio主要采用非全卷積網絡,在解碼器部分采用全連接層和最后的分類器結構,他們的總精度相較于效果最差的標準的UNet而言分別低了10.88%和6.39%,這說明全卷積網絡結構在高分辨率影像建筑物提取應用上相較于普通的卷積網絡而言有著非常大的優(yōu)勢。與標準的UNet和UNet++網絡對比,UNet++網絡各項精度評價指標都要優(yōu)于UNet網絡,這說明在一定程度上,UNet++網絡結構在高分辨率建筑物提取任務上要優(yōu)于UNet網絡。同時由表2可得,兩種標準網絡提取結果在生產者精度上都表現(xiàn)較差,用戶精度表現(xiàn)稍好,但其他精度評價指標上表現(xiàn)較差。再分析本文提出的采用不同骨架改造的UNet/UNet++網絡,從表2和圖6可以發(fā)現(xiàn)通過改造后的網絡分類結果要明顯好于標準模型,和同為全卷積網絡的劉文濤等[18]和劉浩等[19]提出的網絡模型相比總精度也有一定優(yōu)勢。選取5幅提取結果進行分析,其中圖6(1)列以小型建筑物獨立別墅分布為主,圖6(2)、6(3)列為各種大小建筑混合分布,圖6(4)列以中大型建筑分布為主,圖6(3)、6(4)列存在一定的高層建筑,形成了較大的建筑物陰影。
首先比較以VGG16為骨架的兩種網絡,從精度評價參數(shù)上看,VGG16-UNet++網絡的生產者精度要好于VGG16-UNet,而用戶精度要略差,但是其他評價指標都要更優(yōu),最終總精度也略好。對圖6提取結果進行分析可以發(fā)現(xiàn),對于中大型建筑物,如圖6.ef(3)和6.ef(4)列中,VGG16-UNet的正確率要高于VGG16-UNet++,VGG16-UNet++存在一定漏檢和誤檢率,而對于獨棟建筑小型建筑,從圖6.ef(1)和6.ef(2)列中可以發(fā)現(xiàn)VGG16-UNet++的精度要更高,同時對于高層建筑造成的陰影,如圖6.ef(3)和6.ef(4)列中,VGG16-UNet++的誤檢率也要更低。VGG16骨架模型相較于標準模型改動不大,主要區(qū)別體現(xiàn)在BN層和DropOut層的引入,由此可以發(fā)現(xiàn),BN層和DropOut層可以明顯提高模型的分類效果。
兩種以ResNet50為骨架的模型,從評價指標上來看,ResNet50-UNet++模型的各項指數(shù)都要明顯優(yōu)于ResNet50-UNet模型,橫向與基于VGG16的模型進行比較,可以發(fā)現(xiàn)基于ResNet50的兩種模型整體也更加優(yōu)秀。說明一定程度上提升網絡模型的深度可以明顯提升模型的性能。但是不可忽視的是,隨著模型深度的提升,計算量也隨之增大。具體分析提取結果,從圖6.gh(4)列中可以發(fā)現(xiàn),在大型建筑物檢測上,ResNet50-UNet++模型的誤檢率和漏檢率都要優(yōu)于ResNet50-UNet模型,對于小型建筑物分類效果,兩種模型相差不大,從圖6.gh(3)列發(fā)現(xiàn),對于多陰影的高層建筑物,ResNet50-UNet++模型受到的干擾較小,但對于邊緣的大型建筑仍存在一定的漏檢現(xiàn)象。
兩種基于InceptionV3的網絡,通過與VGG16和ResNet50兩種模型進行對比分析可以發(fā)現(xiàn),通過增加網絡模型的廣度,也可以提升模型的分類效率。ResNet50-UNet和InceptionV3-UNet兩者性能相近,InceptionV3-UNet模型的生產者精度、CSI、F1分數(shù)都略差于ResNet-UNet模型,用戶精度和總精度則要略有優(yōu)勢。而Inception-UNet++模型的各項參數(shù)則要優(yōu)于ResNet-UNet++模型。具體分析分類結果,對于大型建筑而言,從圖6.ij(3)列所示,InceptionV3-UNet++雖然還存在一定的漏檢率,但誤檢率已明顯好于其他模型,對于陰影與建筑物本體的區(qū)分度也表現(xiàn)更優(yōu)秀。由圖6.ij(1)列,小型建筑上Inception-UNet++也有一定的優(yōu)勢。
(a)原始影像(b)標簽數(shù)據(jù)(c)Standard-UNet提取結果(d)Standard-UNet++提取結果(e)VGG16-UNet提取結果(f)VGG16-UNet++提取結果(g)ResNet50-UNet提取結果(h)ResNet50-UNet++提取結果(i)InceptionV3-UNet提取結果(j)InceptionV3-UNet++提取結果綠色表示正確分類的建筑物;紅色表示誤檢的建筑物;藍色表示漏檢的建筑物
通過對各模型提取結果進行分析,從圖6可以看出,對標準的UNet++模型的骨架進行改造,使得各個模型相較于標準網絡和非全卷積網絡可以取得更好的分類效果。隨著影像分辨率的提高,建筑物在影像上表現(xiàn)的形式越來越具體,越來越復雜,要使得模型可以充分學習建筑物在高分辨率影像中的各種特性,需要的網絡模型的復雜程度也越高。通過引入BN層和DropOut層,一定程度增加模型的深度和廣度,都可以更好地讓模型學習到更具表達能力的深層特征,以此提高模型的學習能力。本文驗證了UNet++為代表的圖像分割網絡模型,在經過不同骨架的改造后,可以適用于復雜的擁有大量現(xiàn)存訓練標注樣本集的建筑物提取任務。
為了進一步驗證模型在其他數(shù)據(jù)集的適用性,驗證其魯棒性能,本文選用InceptionV3-UNet++在Mnih數(shù)據(jù)集上訓練得到的模型,在WHU(衛(wèi)星影像Ⅰ)數(shù)據(jù)集[31]上進行遷移學習,WHU數(shù)據(jù)集包含了從0.3~2.5空間分辨率的ZY-3、IKONOS和WorldView系列等多種衛(wèi)星影像數(shù)據(jù)制成的建筑物輪廓數(shù)據(jù)集,影像涵蓋全球十多個不同城市,非常適合測試建筑物提取算法的魯棒性。該模型對WHU數(shù)據(jù)集的驗證集提取結果如表3所示,提取結果示例如圖7所示。
表3 WHU驗證集提取結果精度分析表
圖7 WHU數(shù)據(jù)集提取結果可視化示例
經過簡單的遷移學習,InceptionV3-UNet++模型取得了較好的建筑物提取效果,總精度達到94.34%,Kappa系數(shù)達到0.843 9,這證明該模型具有良好的魯棒性能。具體分析提取結果示例可以發(fā)現(xiàn),對于小型建筑物提取效果較好,建筑物邊界較為清晰,但由于底層建筑物可能存在部分樹木遮擋,造成了一定的漏檢,同時誤檢部分主要為靠近建筑物的規(guī)則裸露空地。
本文針對高空間分辨率遙感影像的建筑物提取問題,以3種不同傳統(tǒng)卷積神經網絡VGG16、ResNet50和InceptionV3為骨架對標準UNet++進行改造,得到多種強化網絡,以馬薩諸塞州建筑物數(shù)據(jù)集進行訓練,然后進行對比分析,得出以下結論:
1)比較VGG16-UNet++模型與標準UNet/UNet++模型不同的網絡特性和實驗結果發(fā)現(xiàn),通過增加BN層和DropOut層等一系列參數(shù)層和操作可以有效提升建筑物提取的精度,并一定程度提升模型的收斂效率,總提取精度提升6.17%和5.07%。
2)比較ResNet50-UNet++模型與標準UNet/UNet++模型不同的網絡特性和實驗結果發(fā)現(xiàn),在計算機能力允許的情況下,適當增加模型深度,雖然模型復雜度提高,計算量提升,但可以有效地提升模型提取建筑物的效果。
3)比較InceptionV3-UNet++模型與標準UNet/UNet++模型不同的網絡特性和實驗結果發(fā)現(xiàn),在模型深度有限的情況下,提升卷積模塊的廣度也可以有效提升模型建筑物提取的效果,Inception模塊雖然使模型復雜度提升,但計算量增加不大,有效提升了模型的運行效率。
4)通過對標準模型進行改造,使得模型對建筑物的提取精度提升明顯,特別是基于InceptionV3骨架的UNet++網絡,在馬薩諸塞州建筑物數(shù)據(jù)集的實驗結果在生產者精度、用戶精度、CSI、F1分數(shù)、Kappa系數(shù)和總精度上分別達到85.14%、90.50%、0.781 6、0.877 4、0.850 4和95.57%,相較于傳統(tǒng)的非全卷積網絡模型和全卷積網絡模型,各項參數(shù)均有明顯優(yōu)勢。
5)通過對InceptionV3-UNet++模型進行遷移學習,在WHU數(shù)據(jù)集上取得較好的分類精度,證明該模型具有良好的魯棒性能。
本文基于不同骨架的UNet++在馬薩諸塞州建筑物數(shù)據(jù)集取得了很好的分類結果,但仍然有一定的改進空間:
1)通過提升模型的卷積深度提升了建筑物提取效果,但沒有探究模型深度提升與建筑物提取效果的具體關系,隨著模型深度的增加,雖然可以使模型復雜度提升,但是也使得計算量增加,而對于建筑物提取而言復雜度和提取效果是否存在一定關系,后續(xù)可以探究以ResNet34、ResNet50、ResNet101以及ResNet152為骨架不同深度的模型對建筑物提取的精度影響。
2)使用VGG16、ReNet50和InceptionV3為骨架改造UNet++,其中的InceptionV3-UNet++骨架模型為建筑物提取取得了很好的效果,隨著卷積神經網絡在圖像領域的發(fā)展,很多新的模型不斷被提出,可以繼續(xù)探討不同基礎卷積網絡為骨架對建筑物提取效果的影響。
3)在模型輸出分類結果后,沒有進一步對提取結果進行后處理,后續(xù)可以探討通過適當后處理方法優(yōu)化提升提取結果。
4)僅采用馬薩諸塞州建筑物公開數(shù)據(jù)集進行實驗,并用WHU數(shù)據(jù)集進行了遷移學習驗證,下一步可以探討在更小樣本情況下在其他數(shù)據(jù)集上的適用性,提升模型的應用能力。