基于深度學(xué)習(xí)模型的遙感圖像分割方法

2019-11-15 04:49許玥馮夢如皮家甜陳勇

計算機(jī)應(yīng)用 2019年10期

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

許玥馮夢如皮家甜陳勇

摘要：利用遙感圖像快速準(zhǔn)確地檢測地物信息是當(dāng)前的研究熱點。針對遙感圖像地表物的傳統(tǒng)人工目視解譯分割方法效率低下和現(xiàn)有基于深度學(xué)習(xí)的遙感圖像分割算法在復(fù)雜場景下準(zhǔn)確率不高、背景噪聲多的問題，提出一種基于改進(jìn)的U-net架構(gòu)與全連接條件隨機(jī)場的圖像分割算法。首先，融合VGG16和U-net構(gòu)建新的網(wǎng)絡(luò)模型，以有效提取具有高背景復(fù)雜度的遙感圖像特征;然后，通過選取適當(dāng)?shù)募せ詈瘮?shù)和卷積方式，在提高圖像分割準(zhǔn)確率的同時顯著降低模型預(yù)測時間;最后，在保證分割精度的基礎(chǔ)上，使用全連接條件隨機(jī)場進(jìn)一步優(yōu)化分割結(jié)果，以獲得更加細(xì)致的分割邊緣。在ISPRS提供的標(biāo)準(zhǔn)數(shù)據(jù)集Potsdam上進(jìn)行的仿真測試表明，相較于U-net，所提算法的準(zhǔn)確率、召回率和均交并比（MIoU）分別提升了15.06個百分點、29.11個百分點和0.3662，平均絕對誤差（MAE）降低了0.02892。實驗結(jié)果驗證了該算法具備有效性和魯棒性，是一種有效的遙感圖像地表物提取算法。

關(guān)鍵詞：深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);深度可分離卷積;全連接條件隨機(jī)場

中圖分類號：TP391.4

文獻(xiàn)標(biāo)志碼：A

Abstract： To detect surface object information quickly and accurately by using remote sensing images is a current research hot spot. In order to solve the problems of inefficiency of the traditional manual visual interpretation segmentation method as well as the low accuracy and a lot of background noise of the existing remote sensing image segmentation based on deep learning in complex scenes， an image segmentation algorithm based on improved U-net network architecture and fully connected conditional random field was proposed. Firstly， a new network model was constructed by integrating VGG16 and U-net to effectively extract the features of remote sensing images with highly complex background. Then， by selecting the appropriate activation function and convolution method， the image segmentation accuracy was improved while the model prediction time was significantly reduced. Finally， on the basis of guaranteeing the segmentation accuracy， the segmentation result was further improved by using fully connected conditional random field. The simulation test on the standard dataset Potsdam provided by ISPRS showed that the accuracy， recall and the Mean Intersection over Union （MIoU） of the proposed algorithm were increased by 15.06 percentage points， 29.11 percentage points? and 0.3662 respectively， and the Mean Absolute Error （MAE） of the algorithm was reduced by 0.02892 compared with those of U-net. Experimental results verify that the proposed algorithm is an effective and robust algorithm for extracting surface objects from remote sensing images.Key words：? deep learning; Convolutional Neural Network （CNN）; depth separable convolution; fully connected conditional random field

0 引言

對地物分割的研究已有幾十年的歷史，國內(nèi)外學(xué)者針對不同的應(yīng)用場景和數(shù)據(jù)源，提出并發(fā)表了眾多方法和研究成果。傳統(tǒng)的分割方法多基于閾值設(shè)定，所以針對不同地物的分布、形狀、結(jié)構(gòu)、紋理與色調(diào)信息，[1]采用的方法也不一。

針對植被分割，巫兆聰?shù)萚2]結(jié)合光譜紋理和形狀結(jié)構(gòu)信息分割森林植被，改善了分割質(zhì)量;Yuan等[3]提出結(jié)合光譜和紋理特征的遙感圖像分割方法提高了不同地物目標(biāo)的分割效率和準(zhǔn)確度;Palenichka等[4]提出基于視覺注意的森林植被多尺度分割方法。針對不透水表面分割有最近鄰[5]、支持向量機(jī)[6]、隸屬度函數(shù)[7]、形態(tài)學(xué)濾波[8]、矢量化[9]等方法。針對建筑物分割有均質(zhì)區(qū)域識別[10]、形態(tài)學(xué)房屋指數(shù)計算[11]、聚類提取城市變化[12]、先驗形狀約束水平集模型[13]等方法和模型。

以上方法只能分割單一種類地物，針對某種地物的信息特征采用對應(yīng)方法，所以以上方法不能用于解決本文的多分類問題。

現(xiàn)階段深度學(xué)習(xí)被普遍應(yīng)用在計算機(jī)視覺領(lǐng)域，其中卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network， CNN）[14]以其局部權(quán)值共享的特殊結(jié)構(gòu)以及良好的容錯能力、并行處理能力和自學(xué)習(xí)能力被廣泛地應(yīng)用于圖像分類[15]、對象檢測[16]、語義分割[17]、人臉識別[18]等諸多計算機(jī)視覺領(lǐng)域。

在Long等[17]提出了全卷積網(wǎng)絡(luò)（Fully Convolutional Network， FCN）原理之后，卷積神經(jīng)網(wǎng)絡(luò)的分類目標(biāo)由對象精確至像素，拓展到了語義分割領(lǐng)域，這種end-to-end的全卷積神經(jīng)網(wǎng)絡(luò)被用來解決PASCAL VOC2012和Microsoft COCO等數(shù)據(jù)集的像素分類問題，達(dá)到了很好的效果并被作為基準(zhǔn)。這些數(shù)據(jù)集來自日常人類視角的生活場景，而在本文中所使用的是地球觀測數(shù)據(jù)，因同為語義分割任務(wù)則選用與FCN同樣是全卷積神經(jīng)網(wǎng)絡(luò)的encoder-decoder結(jié)構(gòu)的U-net[19]作為基礎(chǔ)構(gòu)架，但由于U-net構(gòu)架較淺不能明確表征復(fù)雜的地物特征，所以在基礎(chǔ)構(gòu)架上增加網(wǎng)絡(luò)層數(shù)以表征更高維的特征信息，構(gòu)建為D-Unet;針對U-net的激活函數(shù)——線性整流函數(shù)（Rectified Linear Unit， ReLU）[20]易使神經(jīng)元失活的問題，在D-Unet中使用ELU（Exponential Linear Units）函數(shù)[21]替換;針對加深網(wǎng)絡(luò)層而導(dǎo)致的模型體積與參數(shù)量激增的問題，使用深度可分離卷積（Depthwise Separable Convolution）[22-23]替換標(biāo)準(zhǔn)卷積構(gòu)建新的輕量級網(wǎng)絡(luò)模型DS-Unet，降低訓(xùn)練與預(yù)測時的計算量，提高模型運行效率;針對神經(jīng)網(wǎng)絡(luò)過擬合問題，使用Dropout[13]降低網(wǎng)絡(luò)層節(jié)點間的關(guān)聯(lián)性，提高了模型泛化能力;最后將神經(jīng)網(wǎng)絡(luò)輸出結(jié)果作為全連接條件隨機(jī)場（Fully Connected Conditional Random Field）[24]的輸入，對分割結(jié)果進(jìn)一步優(yōu)化，進(jìn)行對比實驗。改進(jìn)的模型擁有很強的學(xué)習(xí)能力，擁有較強的泛化能力，性能穩(wěn)定、魯棒性強。

1 數(shù)據(jù)集及其預(yù)處理

研究采用國際攝影測量與遙感學(xué)會（International Society for Photogrammetry and Remote Sensing， ISPRS）提供的機(jī)載圖像數(shù)據(jù)集2D Semantic Labeling Potsdam。Potsdam是一座典型的歷史悠久的城市，擁有大型建筑、狹窄的街道和密集的沉降結(jié)構(gòu)，這為遙感圖像地物測繪提供了先決條件。該數(shù)據(jù)集包括高分辨率的真實正射影像（True Ortho Photo， TOP）和從密集圖像匹配技術(shù)派生的數(shù)字表面模型（Digital Surface Model， DSM）[25]。TOP和DSM的地面采樣距離為5cm，這為分割后依據(jù)像素點統(tǒng)計分類目標(biāo)地物提供先決條件。該數(shù)據(jù)集包含38個（相同大小的）TOP區(qū)塊（6000×6000像素），如圖1所示。

1.1 基準(zhǔn)值處理

本文分割目標(biāo)為4類（植被、不透水表面、建筑、背景）。因Potsdam數(shù)據(jù)集提供的gt共分為6類（不透水表面、建筑、低植被、樹木、車輛、背景），而本文所探討的是遙感圖像地物測繪，不透水表面上的車輛并不作為地物信息所統(tǒng)計，因車輛與不透水表面在二維空間上重合，則車輛類歸類為不透水表面類。本文主要探討卷積模型的優(yōu)化改進(jìn)，卷積神經(jīng)網(wǎng)絡(luò)的輸入只有R、G、B三個通道，沒有使用數(shù)據(jù)集所提供的DSM;又因低植被與樹木的光譜、形狀、空間信息相似，必須借助于DSM作為分類的依據(jù)，則最終把樹木與低植被歸為植被類，用以統(tǒng)計植被覆蓋。不透水表面與車輛、低植被與樹木的類別合并后詳見表2。

數(shù)據(jù)集中提供的gt的每個通道的光譜分辨率為8位，而深度學(xué)習(xí)框架需要輸入的gt為灰度圖像，通過對RGB圖像的R、G、B三個分量進(jìn)行加權(quán)平均（加權(quán)平均算法）達(dá)到灰度化處理的目的，加權(quán)平均算法如式（1）所示：

1.2 使用eCognition標(biāo)注未標(biāo)注數(shù)據(jù)

原數(shù)據(jù)集提供38個區(qū)塊的TOP，僅部分TOP提供標(biāo)記的gt，其余場景的gt未發(fā)布，所以使用eCognition對未標(biāo)注的14個TOP進(jìn)行標(biāo)注。

eCognition采用面向?qū)ο蟮姆诸惣夹g(shù)對像素進(jìn)行分類，這是一種基于目標(biāo)對象的分類方法，因其能充分利用遙感圖像的光譜、紋理、形狀、空間信息、相鄰關(guān)系等特征對像素分類，所以精度相對較高，能夠接近人工目視解譯精度，所以本文采用此方法標(biāo)注剩余數(shù)據(jù)。面向?qū)ο蟮募夹g(shù)有兩個重要特征和技術(shù)關(guān)鍵：選取合適的分割尺度對圖像進(jìn)行分割，使檢測的地物能在最合適（圖像首先被分割成一個個object，然后進(jìn)行sample標(biāo)記，最合適意味著用最少的object表達(dá)最為精確的地物邊緣）的分割尺度中凸顯出來;選取分割對象的多種典型特征建立地物的分類規(guī)則進(jìn)行檢測或分類。[26]

本文首先使用eCognition中的multiresolution segmentation算法根據(jù)不同圖像的特征設(shè)定不同的參數(shù)對地物信息進(jìn)行初始分割，遙感圖像（圖3（a））的部分區(qū)域（圖4（a））的初始分割結(jié)果如圖4（b）所示，此圖像采用的參數(shù)Scale Parameter、Shape及Compactness分別為100、0.1與0.5。其中Scale Parameter表示分割的區(qū)塊大小，一般參數(shù)設(shè)置越小，區(qū)塊越小，分割越為精細(xì);Shape表示形狀參數(shù)，它與color（顏色參數(shù)）的權(quán)重和為1;compactness代表緊湊度，它與smoothness（平滑度）的權(quán)重和為1。然后選取合適的特征作為地物的分類規(guī)則，本文針對不同地物的光譜反射不同選擇Layer Values特征，依據(jù)不透水表面與建筑物的面積、長寬差異度大而選定Area（Pxl）、Length/Width特征，依據(jù)植被與其他地物的邊界光滑性差異度大而選擇shape index（地物邊長與其面積開四次方的比值）特征。最后使用eCognition中的classification算法對每個像素點進(jìn)行分類，得到gt，如圖3（b）所示。

2 遙感圖像語義分割模型

本文改進(jìn)的遙感圖像語義分割深度神經(jīng)網(wǎng)絡(luò)命名為D-Unet與DS-Unet，用于從遙感圖像中提取有效的地物信息。2.1 基于改進(jìn)U-net的遙感圖像語義分割模型

2.1.1 改進(jìn)U-net構(gòu)架

U-net常被用于醫(yī)學(xué)圖像的分割，它所處理的醫(yī)學(xué)圖像背景單一、復(fù)雜度低，所以使用低復(fù)雜度的基礎(chǔ)模型U-net能夠達(dá)到很高的精度且在精度與復(fù)雜度之間達(dá)到平衡，U-net的網(wǎng)絡(luò)架構(gòu)如圖5所示。

本文所使用的Potsdam遙感圖像數(shù)據(jù)背景復(fù)雜，包含豐富的地物種類，且遙感光譜范圍廣泛，U-net并不能有效地提取復(fù)雜的遙感圖像的像素特征，所以通過加深U-net的深度構(gòu)建D-Unet以提取更加復(fù)雜的光譜特征。D-Unet的網(wǎng)絡(luò)架構(gòu)如圖6所示。

網(wǎng)絡(luò)的左半部分為下采樣模塊，依據(jù)VGG16所構(gòu)建，它是卷積神經(jīng)網(wǎng)絡(luò)中的一種典型結(jié)構(gòu)，通過逐漸縮減輸入數(shù)據(jù)的空間維度以提取高維特征。其核心為5組conv與MaxPooling，其中第1、2組采用2次3×3的卷積運算，卷積核數(shù)量分別是64與128，第3、4、5組采用3次3×3的卷積運算，卷積核數(shù)量分別為256、512、512。在每一個卷積運算以后加入BN（Batch Normalization）層，對網(wǎng)絡(luò)層的每一層的特征都做歸一化，使得每層的特征分布更加均勻，在提高模型收斂速度的同時又能夠提高模型的容錯能力。[26]

網(wǎng)絡(luò)的右半部分與左半部分呈中心對稱，它由一系列的上采樣層構(gòu)成，其核心為與下采樣相對應(yīng)的5組Upsampling與conv，每一組conv的輸入除了上一層進(jìn)行Upsampling得到的深層抽象特征外，還有與其對應(yīng)的下采樣層輸出的淺層局部特征，將深層特征與淺層特征通過Concatente方式融合，從而恢復(fù)了特征圖細(xì)節(jié)并保證其相應(yīng)的空間信息維度不變。[26]

從圖7可看出：相對于ReLU函數(shù)，ELU函數(shù)在輸入為負(fù)值時有輸出，而且這部分輸出還具有一定的抗干擾能力，這樣可以消除在反向傳播過程中的神經(jīng)元失活問題。由于其特性，使用ELU激活函數(shù)替換ReLU函數(shù)構(gòu)建的D-Unet（ELU）模型的分類的準(zhǔn)確率比D-Unet（ReLU）高。

2.1.3 更改卷積方式

在2.1.1節(jié)中為了增強網(wǎng)絡(luò)的特征提取能力加深網(wǎng)絡(luò)層，導(dǎo)致模型參數(shù)急劇增加，使得模型訓(xùn)練、預(yù)測時計算時間冗長，受到的Xception[22]與MobileNet[23]的啟發(fā)，使用深度可分離卷積替代標(biāo)準(zhǔn)卷積以減少網(wǎng)絡(luò)模型的參數(shù)量。[26]Xception[22]中指出，對于卷積來說卷積核可以看作是一個三維的濾波器：通道維+空間維（Feature Map的寬和高），常規(guī)的卷積操作其實就是實現(xiàn)通道相關(guān)性和空間相關(guān)性的聯(lián)合映射。在深度可分離卷積中提出將通道和區(qū)域分離，也就是對空間信息和深度信息進(jìn)行去耦，將空間信息與深度信息分開映射能夠達(dá)到更好的效果，并且在此過程中通過拆分標(biāo)準(zhǔn)卷積有效地減少了參數(shù)量，降低了模型的復(fù)雜度，同時提高了模型的泛化能力[26]。圖8為標(biāo)準(zhǔn)卷積核。

當(dāng)卷積核大小為3×3時，理論上深度可分離卷積的計算量為標(biāo)準(zhǔn)卷積的1/9。

本文主要利用深度可分離卷積降低參數(shù)量的特性，在D-Unet（ELU）基礎(chǔ)上構(gòu)建輕量級模型DS-Unet（ELU），其參數(shù)量大致減為原參數(shù)量的1/6，模型的預(yù)測時間大致為原時間的1/3。

2.1.4 預(yù)防過擬合

過擬合是所有深度模型在訓(xùn)練過程中都會遇到的問題，一般可以采用Dropout正則化解決。Dropout是以某個概率值暫時丟棄隱藏層的神經(jīng)元來達(dá)到對網(wǎng)絡(luò)進(jìn)行“瘦身”的目的以降低網(wǎng)絡(luò)的復(fù)雜度。

當(dāng)某一節(jié)點在某次迭代中被隨機(jī)選為拋棄點，那么神經(jīng)網(wǎng)絡(luò)在此次迭代中的forward過程會將此節(jié)點輸出設(shè)為0，在backward過程中不會更新其權(quán)重和偏置項，則在某次迭代中節(jié)點隨機(jī)失活不會參與訓(xùn)練，減弱了神經(jīng)元節(jié)點間的聯(lián)合適應(yīng)性，增強了泛化能力。在此模型中添加rate=0.5的Dropout層用以防止過擬合。

2.2 基于全連接條件隨機(jī)場的細(xì)分割

全卷積神經(jīng)網(wǎng)絡(luò)雖然能夠?qū)崿F(xiàn)像素級別的分類，但是得到的分割結(jié)果往往不夠精細(xì)，存在邊界不平滑和像素點定位不準(zhǔn)確等問題，主要原因在于全卷積網(wǎng)絡(luò)在像素點分類過程中很難考量到像素與像素之間的空間關(guān)系，導(dǎo)致像素級分類結(jié)果缺乏空間一致性。已有研究表明，使用全卷積網(wǎng)絡(luò)得到像素級分類結(jié)果之后，再使用條件隨機(jī)場（Conditional Random Field， CRF）綜合圖像的空間信息，能夠得到更加精細(xì)并且具有空間一致性的結(jié)果[24，27]。針對本文中的分割問題，使用條件隨機(jī)場考量像素點之間的空間位置關(guān)系，可進(jìn)一步改進(jìn)像素分割結(jié)果。條件隨機(jī)場試圖對多個變量在給定觀測值后的條件概率進(jìn)行建模。具體來說，若令

條件隨機(jī)場的能量函數(shù)E（Y|X）主要由一階勢函數(shù)φ1和二階勢函數(shù)φ2組成。在像素級分類任務(wù)中，通過訓(xùn)練使條件隨機(jī)場的勢能最小，則可以使相似的像素有較大的概率分為同一類別，定義如式（10）所示：

3 實驗與分析

3.1 實驗

3.1.1 實驗環(huán)境

本文實驗環(huán)境分為網(wǎng)絡(luò)訓(xùn)練和網(wǎng)絡(luò)測試兩個部分。

網(wǎng)絡(luò)訓(xùn)練部分使用TeslaV100，內(nèi)存16GB，共享內(nèi)存8GB;軟件環(huán)境為Ubuntu16.04，Python3.5，TensorFlow1.9.0，Keras2.2.4。

網(wǎng)絡(luò)測試部分使用MacBookPro，CPU 2.2GHz Intel Core i7，內(nèi)存16GB，顯卡Intel Iris Pro 1536MB;軟件環(huán)境為MacOSMojave10.14.3，Python3.5，Tensorflow1.9.0，Keras2.2.4。

3.1.2 數(shù)據(jù)增強

在第1章中的38張TOP及其對應(yīng)的gt中隨機(jī)選取24張進(jìn)行隨機(jī)切割、旋轉(zhuǎn)、鏡像、模糊、光照調(diào)整以及噪聲（高斯噪聲、椒鹽噪聲）等數(shù)據(jù)增強處理，生成30萬張256×256大小的訓(xùn)練及驗證集，剩余的14張TOP及其對應(yīng)的gt用作測試集。

3.1.3 模型訓(xùn)練

在3.1.1節(jié)中的實驗環(huán)境下對圖5所示的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。模型在使用Tensorflow作為后臺的Keras深度學(xué)習(xí)框架下訓(xùn)練。權(quán)值初始化采用Glorot等[28]提出的方法。模型訓(xùn)練采用批處理方式，將300000×0.75（75%的圖片作為訓(xùn)練集，其余作為驗證集）張圖片每32張作為一個批次（batch）輸入模型進(jìn)行訓(xùn)練，總共需要3984個批次完成一個epoch，設(shè)定模型總共遍歷數(shù)據(jù)集50輪。訓(xùn)練時使用multi_gpu_model（）函數(shù)同時調(diào)用4個GPU進(jìn)行，優(yōu)化器選用sgd，損失函數(shù)使用多分類的對數(shù)損失函數(shù)。在模型訓(xùn)練的過程中使用Callbacks函數(shù)中的ModelCheckpoint存儲最優(yōu)模型，設(shè)定監(jiān)測對象為準(zhǔn)確率，當(dāng)它最大時自動保存最優(yōu)權(quán)值;訓(xùn)練時使用Callbacks函數(shù)中的EarlyStopping監(jiān)測模型訓(xùn)練情況，當(dāng)達(dá)到指標(biāo)時可提前終止訓(xùn)練，節(jié)省時間并且能夠預(yù)防過擬合;訓(xùn)練過程中的學(xué)習(xí)率使用Callbacks函數(shù)中的ReduceLROnPlateau自適應(yīng)調(diào)整，以適應(yīng)訓(xùn)練過程中的動態(tài)變化，如圖12所示;訓(xùn)練過程使用Tensorboard監(jiān)測并可視化。訓(xùn)練模型的部分參數(shù)如表3所示。

從圖13～14可看出，隨著迭代次數(shù)的增加，曲線波動減小，準(zhǔn)確率與訓(xùn)練損失變化趨于平緩，模型趨于收斂。圖15～16反映了隨著迭代次數(shù)的增加，驗證集的準(zhǔn)確率與損失值變化趨于平緩，損失函數(shù)基本收斂，表明模型達(dá)到了最優(yōu)。

3.1.4 數(shù)據(jù)可視化

使用訓(xùn)練模型預(yù)測的結(jié)果被寫入灰度圖中，像素值位于0～3，將其轉(zhuǎn)化為RGB圖像，轉(zhuǎn)化關(guān)系如表4所示。

3.1.5 基于像素的面積測算

數(shù)據(jù)集Potsdam的地面采樣距離為5cm，為依據(jù)像素點數(shù)量進(jìn)行面積測算提供了先決條件，每個像素點所表示的面積為5×5cm2，則只要統(tǒng)計像素數(shù)量即可進(jìn)行遙感圖像主要地物信息的面積測算，如式（13）所示：

其中：g為地面采樣距離;n為像素點數(shù)量。

3.2 分析

3.2.1 性能評價

對分類后的遙感圖像，使用混淆矩陣[29-30]、均交并比（Mean Intersection over Union， MIoU）與平均絕對誤差（Mean Absolute Error， MAE）進(jìn)行評估。遙感圖像信息提取被視為一種多分類問題，可用混淆矩陣將預(yù)測輸出的分類結(jié)果和gt進(jìn)行像素級比較，評價每個像素的預(yù)測輸出結(jié)果，即該像素分類結(jié)果取真陽性（True Positive，TP）、假陽性（False Positive，F(xiàn)P）、真陰性（True Negative，TN）、假陰性（False Negative，F(xiàn)N）四種結(jié)果中的一種，然后根據(jù)這四個指標(biāo)計算以下指標(biāo)：

3.2.2 結(jié)果分析

圖17前兩列為TOP、gt以及使用不同方法分割并可視化的結(jié)果，其中D-Unet（ELU）_CRF相對于D-Unet（ELU）是在粗分割的基礎(chǔ)上使用CRF進(jìn)行了細(xì)分割。

對比D-Unet（ReLU）與U-net（ReLU）的分割結(jié)果可看出：U-net網(wǎng)絡(luò)構(gòu)架改進(jìn)后能夠更精確地對地物像素點進(jìn)行分類;在使用ELU函數(shù)替換ReLU函數(shù)后，D-Unet（ELU）的分割結(jié)果明顯優(yōu)于D-Unet（ReLU）;在使用深度可分離卷積代替標(biāo)準(zhǔn)卷積構(gòu)建為DS-Unet（ELU）后，模型分割準(zhǔn)確率會略微下降，但是其由于網(wǎng)絡(luò)參數(shù)少，預(yù)測時間減少很多，可用于對預(yù)測精度要求不高但有時效性要求的場景下。

對比D-Unet（ELU）_CRF與D-Unet（ELU）的分割結(jié)果可看出：在使用全連接條件隨機(jī)場對粗分割結(jié)果進(jìn)行優(yōu)化后，在保證地物區(qū)域完整性的前提下精細(xì)化邊界區(qū)域，增強了地物信息的完整性，得到了更為優(yōu)異的分割結(jié)果。

圖17后六列是對前兩列的局部細(xì)節(jié)展示，分別是各個模型對植被、不透水表面（白色區(qū)域為不透水表面）與建筑物的分割結(jié)果。從中可看出：D-Unet（ELU）_CRF所得結(jié)果在精確度、邊緣明晰度上要明顯優(yōu)于其他方法。在使用全連接條件隨機(jī)場細(xì)分割后，對于D-Unet（ELU）存在的明顯錯分類進(jìn)行了糾正，邊緣也更加接近gt;

而D-Unet（ReLU）與DS-Unet（ELU）分割出的結(jié)果孤立點較多，且建筑物分割不太完整，邊緣的錯誤比較顯著，U-net（ReLU）模型甚至存在嚴(yán)重的錯分類與欠分割問題，在建筑物的像素分類上尤為明顯。

從表5可看出：

D-Unet（ReLU）的準(zhǔn)確率、精確率、召回率、F1-score、MIoU分別較U-net提升了12.47個百分點、22.25個百分點、25.98個百分點、0.2604、0.3235，平均絕對誤差降低了0.01744，驗證了模型結(jié)構(gòu)改進(jìn)的有效性;

D-Unet（ELU）的準(zhǔn)確率、精確率、召回率、F1-score、MIoU分別較D-Unet（ReLU）提升了2.59個百分點、2.12個百分點、4.13個百分點、0.0257、0.0427，平均絕對誤差降低了0.01148，表明改用ELU函數(shù)后模型分割的效果更佳。

在使用全連接條件隨機(jī)場對D-Unet（ELU）的粗分割結(jié)果優(yōu)化以后，遙感圖像分割的準(zhǔn)確率準(zhǔn)確率、精確率、召回率、F1-score、MIoU較D-Unet（ELU）有略微的提升，平均絕對誤差略微下降，說明了所構(gòu)建的D-Unet（ELU）_CRF模型的有效性。

在使用深度可分離卷積替換標(biāo)準(zhǔn)卷積后，模型的表現(xiàn)性能有所下降，的準(zhǔn)確率、精確率、召回率、F1-score、MIoU分別較D-Unet（ELU）下降了2.85個百分點、1.98個百分點、3.7個百分點、0.0286、0.0474，DS-Unet（ELU）的平均絕對誤差較D-Unet（ELU）升高了0.01542，但是與D-Unet（ReLU）相比性能差異不大。其優(yōu)勢體現(xiàn)在模型體積更小與預(yù)測效率的提升，因為其參數(shù)量更小，為標(biāo)準(zhǔn)卷積構(gòu)成網(wǎng)絡(luò)的1/6～1/5，具體見表6～7。

表7比較了D-Unet（ELU）、DS-Unet（ELU）與最先進(jìn)的深度模型SegNet、FCN-8s、DeconvNet、Deeplab-ResNet以及RefineNet的復(fù)雜性。通過使用Intel Core i7對圖像（平均尺寸2392×2191像素）執(zhí)行測試的時間獲得時間復(fù)雜度，同時表7還展示了深度模型的空間復(fù)雜度。可看出本文提出的D-Unet（ELU）模型在時間與空間復(fù)雜度上具有一定的競爭力，在使用深度可分離卷積卷積構(gòu)建為DS-Unet（ELU）后在預(yù)測時間的消耗上大為減少，模型的大小也大為縮減。

在Potsdam的基準(zhǔn)測試中，不同方法的定量比較如表8所示。其中：SVL_3算法使用SVL（Stair Vision Library）、歸一化數(shù)字植被指數(shù)（Normalized Digital Vegetation Index，NDVI）、飽和度和歸一化數(shù)字地表模型（Normalized Digital Surface Model，NDSM）訓(xùn)練基于AdaBoost的分類器以獲得最優(yōu)結(jié)果。Volpi等[31]的算法UZ_1與AZ1算法分別構(gòu)建了不同的encoder-decoder結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)。RIT_L2算法使用RGB與合成數(shù)據(jù)（紅外線（Infrared Radiation，IR）、NDVI和NDSM）訓(xùn)練兩個SegNet并進(jìn)行特征融合。Sherrah[32]的算法DST_2使用FCN作為卷積模型并應(yīng)用CRF作后處理。

從表8可看出，所有的方法都獲得了良好的結(jié)果，本文所提出的分割模型D-Unet（ELU）的準(zhǔn)確率最高，輕量級模型DS-Unet（ELU）也獲得了較高的準(zhǔn)確率。

本文所提出的網(wǎng)絡(luò)優(yōu)勢在于只使用原始的RGB數(shù)據(jù)訓(xùn)練單個網(wǎng)絡(luò)，在數(shù)據(jù)量以及模型對地物的分割精確率上都具有優(yōu)勢。

4 結(jié)語

針對目前人為勘測地物信息的任務(wù)耗費人力物力、辦事效率低下等問題，本文提出了一種全卷積神經(jīng)網(wǎng)絡(luò)和全連接條件隨機(jī)場的遙感圖像地物信息分割方法，構(gòu)建D-Unet（ELU）和DS-Unet（ELU）模型，對遙感圖像實現(xiàn)像素級別的分類，解決了傳統(tǒng)方法普遍存在的過程繁瑣、方法普適性低、泛化能力弱的問題。其中D-Unet（ELU）的分割準(zhǔn)確率高，但時效性較低，適用于對分割精度高但時效性要求不高的應(yīng)用場景;DS-Unet（ELU）的分割精確度較D-Unet（ELU）略微降低，但時效性高，適用于對精度要求不嚴(yán)苛卻對時效性要求高且設(shè)備性能低的應(yīng)用場景。本文首先通過對遙感圖像進(jìn)行標(biāo)注、數(shù)據(jù)增強，將處理好的數(shù)據(jù)放入D-Unet與DS-Unet模型中擬合;然后將輸出結(jié)果放入全連接條件隨機(jī)場中進(jìn)一步處理，使得分割結(jié)果更接近gt;最后利用遙感圖像具有地面采樣距離這一特點提出了基于像素的面積測算方法。與測試集進(jìn)行對比后發(fā)現(xiàn)所提出的方法能夠精確地分割目標(biāo)地物，具有高效性、可實施性。但因參數(shù)batchsize受限于硬件設(shè)備，不能設(shè)置為較為理想的數(shù)值，在一定程度上影響了邊緣分割的精細(xì)度，訓(xùn)練模型的時效性還有待提升。如何在保證精確性的情況下進(jìn)一步降低模型參數(shù)減少模型訓(xùn)練時間與預(yù)測時間是接下來的工作重心。

參考文獻(xiàn)（References）

[1] 高海燕，吳波. 結(jié)合像元形狀特征分割的高分辨率影像面向?qū)ο蠓诸怺J]. 遙感信息， 2010（6）： 67-72. （GAO H Y， WU B. Object-oriented classification of high spatial resolution remote sensing imagery based on image segmentation with pixel shape feature[J]. Remote Sensing Information， 2010（6）： 67-72.）

[2] 巫兆聰，胡忠文，張謙，等. 結(jié)合光譜、紋理與形狀結(jié)構(gòu)信息的遙感影像分割方法[J]. 測繪學(xué)報， 2013， 42（1）： 44-50. （WU Z C， HU Z W， ZHANG Q， et al. On combining spectral， textural and shape features for remote sensing image segmentation[J]. Acta Geodaetica et Cartographica Sinica， 2013， 42（1）： 44-50.）

[3] YUAN J， WANG D， LI R. Remote sensing image segmentation by combining spectral and texture features[J]. IEEE Transactions on Geoscience and Remote Sensing， 2014， 52（1）： 16-24.

[4] PALENICHKA R， DOYON F， LAKHSSASSI A， et al. Multi-scale segmentation of forest areas and tree detection in LiDAR images by the attentive vision method[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing， 2013， 6（3）： 1313-1323.

[5] 都偉冰，王雙亭，王春來. 基于機(jī)載LiDAR粗糙度指數(shù)和回波強度的道路提取[J]. 測繪科學(xué)技術(shù)學(xué)報， 2013， 30（1）： 63-67. （DU W B， WANG S T， WANG C L. Road extraction based on roughness index and echo intensity of airborne LiDAR[J]. Journal of Geomatics Science and Technology， 2013， 30（1）： 63-67.）

[6] 張曦，胡根生，梁棟，等. 基于時頻特征的高分辨率遙感圖像道路提取[J]. 地理空間信息， 2016， 14（6）： 18-21， 24. （ZHANG X， HU G S， LIANG D， et al. Road extraction from high resolution remote sensing image based on time frequency feature[J]. Geospatial Information， 2016， 14（6）： 18-21， 24.）

[7] 周紹光，陳超，赫春曉. 基于形狀先驗和Graph Cuts原理的道路分割新方法[J]. 測繪通報， 2013（12）： 55-57. （ZHOU S G， CHEN C， HE C X. A new road segmentation based on shape prior and graph cuts[J]. Bulletin of Surveying and Mapping， 2013（12）： 55-57.）

[8] 周家香，周安發(fā)，陶超，等. 一種高分辨率遙感影像城區(qū)道路網(wǎng)提取方法[J]. 中南大學(xué)學(xué)報（自然科學(xué)版）， 2013， 44（6）： 2385-2391. （ZHOU J X， ZHOU A F， TAO C， et al. A methodology for urban roads network extraction from high resolution remote sensing imagery [J]. Journal of Central South University （Science & Technology）， 2013， 44（6）： 2385-2391.）

[9] 曾發(fā)明，楊波，吳德文，等. 基于Canny邊緣檢測算子的礦區(qū)道路提取[J]. 國土資源遙感， 2013， 25（4）： 72-78. （ZENG F M， YANG B， WU D W， et al. Extraction of roads in mining area based on Canny edge detection operator[J]. Remote Sensing for Land & Resources， 2013， 25（4）： 72-78.）

[10] BEUMIER C， IDRISSA M. Building change detection from uniform regions[C]// Proceeddings of the 2012 Iberoamerican Congress on Pattern Recognition， LNCS 7441. Berlin： Springer， 2012： 648-655.

[11] HUANG X， ZHANG L， ZHU T. Building change detection from multitemporal high-resolution remotely sensed images based on a morphological building index[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing， 2013， 7（1）： 105-115.

[12] 李煒明，吳毅紅，胡占義. 視角和光照顯著變化時的變化檢測方法研究[J]. 自動化學(xué)報， 2009， 35（5）： 449-461. （LI W M， WU Y H， HU Z Y. Urban change detection under large view and illumination variations[J]. Acta Automatica Sinica， 2009， 35（5）： 449-461.）

[13] 田昊，楊劍，汪彥明，等. 基于先驗形狀約束水平集模型的建筑物提取方法[J]. 自動化學(xué)報， 2010， 36（11）： 1502-1511. （TIAN H， YANG J， WANG Y M， et al. Towards automatic building extraction： variational level set model using prior shape knowledge[J]. Acta Automatica Sinica， 2010， 36（11）： 1502-1511.）

[14] LECUN Y， BOTTOU L， BENGIO Y， et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE， 1998， 86（11）： 2278-2324.

[15] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. New York： Curran Associates Inc.， 2012： 1097-1105.

[16] HE K， GKIOXARI G， DOLLR P， et al. Mask R-CNN[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2017： 2961-2969.

[17] LONG J， SHELHAMER E， DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（4）： 640-651.

[18] FARFADE S S， SABERIAN M J， LI L. Multi-view face detection using deep convolutional neural networks[C]// Proceedings of the 5th ACM International Conference on Multimedia Retrieval. New York： ACM， 2015： 643-650.

[19] RONNEBERGER O， FISCHER P， BROX T. U-net： convolutional networks for biomedical image segmentation[C]// MICCAI 2015： Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin： Springer， 2015： 234-241.

[20] GLOROT X， BORDES A， BENGIO Y. Deep sparse rectifier neural networks[J]. Journal of Machine Learning Research， 2011， 15： 315-323.

[21] CLEVERT D， UNTERTHINER T， HOCHREITER S. Fast and accurate deep network learning by Exponential Linear Units （ELUs） [EB/OL]. [2019-01-10]. http：//de.arxiv.org/pdf/1511.07289.

[22] CHOLLET F. Xception： deep learning with depthwise separable convolutions[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition， 2017： 1800-1807.

[23] HOWARD A G， ZHU M， CHEN B， et al. MobileNets： efficient convolutional neural networks for mobile vision applications[EB/OL]. [2019-01-10]. https：//arxiv.org/pdf/1704.04861.pdf.

[24] KRHENBHL P， KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]// Proceedings of the 2011 International Conference on Neural Information Processing Systems. New York： Curran Associates Inc.， 2011： 109-117.

[25] ALTMAIER A， KANY C. Digital surface model generation from CORONA satellite images[J]. ISPRS Journal of Photogrammetry and Remote Sensing， 2002， 56（4）： 221-235.

[26] 許玥. 基于改進(jìn)Unet的遙感影像語義分割在地表水體變遷中的應(yīng)用[D].重慶：重慶師范大學(xué)，2019：16-35. （XU Y. Application of semantic segmentation of remote sensing image based on improved unet in surface water change[D]. Chongqing： Chongqing Normal University，2019：16-35.）

[27] ZHENG S， JAYASUMANA S， ROMERA-PAREDES B， et al. Conditional random fields as recurrent neural networks[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2015： 1529-1537.

[28] GLOROT X， BENGIO Y. Understanding the difficulty of training deep feedforward neural networks[J]. Journal of Machine Learning Research， 2010， 9： 249-256.

[29] ODENA A. Semi-supervised learning with generative adversarial networks[EB/OL]. [2019-01-10]. https：//arxiv.org/pdf/1606.01583.pdf.

[30] HUANG B， ZHAO B， SONG Y. Urban land-use mapping using a deep convolutional neural network with high spatial resolution multispectral remote sensing imagery[J]. Remote Sensing of Environment， 2018， 214： 73-86.

[31] VOLPI M， TUIA D. Dense semantic labeling of subdecimeter resolution images with convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing， 2016， 55（2）： 881-893.

[32] SHERRAH J. Fully convolutional networks for dense semantic labelling of high-resolution aerial imagery[EB/OL]. [2019-01-10]. https：//arxiv.org/pdf/1606.02585.pdf.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)模型的遙感圖像分割方法