惠健 秦其明,3,? 許偉 隋娟
基于多任務(wù)學(xué)習(xí)的高分辨率遙感影像建筑實(shí)例分割
惠健1,2秦其明1,2,3,?許偉1,2隋娟1
1.北京大學(xué)遙感與地理信息系統(tǒng)研究所, 北京大學(xué)地球與空間科學(xué)學(xué)院, 北京 100871; 2.空間信息集成與3S 工程應(yīng)用北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100871; 3.自然資源部地理信息系統(tǒng)技術(shù)創(chuàng)新中心, 北京 100871; ?通信作者, E-mail: qmqinpku@163.com
針對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的高分辨率遙感影像建筑物提取算法中將建筑物提取視為二分類問題(即將遙感影像中的像素點(diǎn)劃分為建筑物與非建筑兩類)而無法區(qū)分建筑物個(gè)體的局限性, 將基于 Xception module 改進(jìn)的 U-Net 深度神經(jīng)網(wǎng)絡(luò)方法與多任務(wù)學(xué)習(xí)方法相結(jié)合進(jìn)行建筑物實(shí)例分割, 在獲取建筑物二分類結(jié)果的同時(shí), 區(qū)分不同建筑物個(gè)體, 并選擇 Inria 航空影像數(shù)據(jù)集對(duì)該方法進(jìn)行驗(yàn)證。結(jié)果表明, 在高分辨率遙感影像的建筑物二分類提取方面, 基于 Xception module 改進(jìn)的 U-Net 方法明顯優(yōu)于 U-Net 方法, 提取精度升高 1.4%; 結(jié)合多任務(wù)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)方法不僅能夠?qū)崿F(xiàn)建筑物的實(shí)例分割, 而且可將二分類建筑物的提取精度提升約 0.5%。
多任務(wù)學(xué)習(xí); 建筑物提取; 深度神經(jīng)網(wǎng)絡(luò); 實(shí)例分割
建筑物提取是遙感影像信息獲取的關(guān)鍵環(huán)節(jié)和研究熱點(diǎn), 近十年來, 相關(guān)研究成果已廣泛應(yīng)用于監(jiān)測(cè)土地利用變化、城市擴(kuò)張和災(zāi)害預(yù)警評(píng)估等方面, 對(duì)政府部門的政策制定和地理信息數(shù)據(jù)庫的更新具有重要的參考意義[1?2]。隨著深度學(xué)習(xí)理論的發(fā)展, 深度神經(jīng)網(wǎng)絡(luò)模型已被不同行業(yè)廣泛使用, 并在計(jì)算機(jī)視覺任務(wù)中取得良好的表現(xiàn)[3?4]。人們?cè)谏疃葘W(xué)習(xí)與遙感影像應(yīng)用相結(jié)合方面進(jìn)行探索, 驗(yàn)證使用深度神經(jīng)網(wǎng)絡(luò), 尤其是卷積神經(jīng)網(wǎng)絡(luò)處理遙感數(shù)據(jù)的可行性, 并提出適用于高分辨率遙感影像建筑物提取的深度神經(jīng)網(wǎng)絡(luò)模型。
Mnih[5]提出基于塊狀區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)和航空遙感影像的道路與建筑物提取方法。Alshehhi 等[6]改進(jìn) Minh 的模型, 用全局平均池化層(global average layer)替代全連接層(fully connected layer), 改善了建筑物與道路的預(yù)測(cè)精度。Maggiori 等[7]和 Huang等[8]分別利用全卷積神經(jīng)網(wǎng)絡(luò)[9]及其變種進(jìn)行建筑物提取, 消除由塊狀區(qū)域帶來的不連續(xù)性, 同時(shí)提高建筑物提取精度。Wu 等[10]使用 U-Net 網(wǎng)絡(luò)[11]提取建筑物, 并提出多約束方法, 增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)的多尺度特征表示。除使用成熟的深度神經(jīng)網(wǎng)絡(luò)外, 一些學(xué)者結(jié)合遙感影像的特點(diǎn)(如多源數(shù)據(jù)和多尺度特性), 在改進(jìn)現(xiàn)有模型的基礎(chǔ)之上, 設(shè)計(jì)適用于遙感影像的深度神經(jīng)網(wǎng)絡(luò)模型??紤]到遙感影像的多尺度特征, Audebert 等[12]設(shè)計(jì)多核卷積層(multi-kernel convolution layer), 改進(jìn)原有的 SegNet 網(wǎng)絡(luò)模型[13], 提高了預(yù)測(cè)精度。Xu 等[14]和 Chen 等[15]利用 ResNet 網(wǎng)絡(luò)[16]提取影像特征, 改善了全卷積神經(jīng)網(wǎng)絡(luò)對(duì)遙感影像中目標(biāo)的分割精度。Pan 等[17]考慮遙感數(shù)據(jù)的多源特性, 提出融合 Lidar 數(shù)據(jù)與光學(xué)遙感數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)模型。
雖然基于高分辨率遙感影像與深度神經(jīng)網(wǎng)絡(luò)融合的建筑物提取結(jié)果表現(xiàn)良好, 但是利用改進(jìn)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來提高建筑物提取精度的研究尚有很大的發(fā)展空間, 還需進(jìn)行深入的研究。
多任務(wù)學(xué)習(xí)指同時(shí)訓(xùn)練基于一組相同參數(shù)的多個(gè)任務(wù)。Zhang 等[18]通過增加 4 個(gè)輔助任務(wù)(包括臉部屬性識(shí)別、頭部姿勢(shì)判別等), 提高了人臉特征點(diǎn)檢測(cè)的精度。Bischke 等[19]同時(shí)訓(xùn)練建筑物二分類提取和遙感影像中建筑物內(nèi)部點(diǎn)距離分類, 提升了深度卷積神經(jīng)網(wǎng)絡(luò)提取遙感影像建筑物的精度。Mou 等[20]通過增加輔助任務(wù), 減少遙感影像中車輛邊界的粘連, 提高目標(biāo)提取的效果。由此可見, 將多任務(wù)與深度學(xué)習(xí)算法相融合, 可以有效地提高目標(biāo)提取的精度。然而, 基于高分辨率遙感影像、多任務(wù)學(xué)習(xí)和改進(jìn)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的算法研究比較少見, 需要進(jìn)一步探索和挖掘。
目前, 利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行高分辨率遙感影像建筑物提取的研究中, 通常將遙感影像的像素點(diǎn)分為建筑物與非建筑物兩類, 沒有區(qū)分不同的建筑物個(gè)體。本文采用多任務(wù)學(xué)習(xí)方法, 在對(duì)遙感影像的像素點(diǎn)進(jìn)行二分類的基礎(chǔ)上, 增加輔助任務(wù), 產(chǎn)生遙感影像中不同建筑物個(gè)體的像素點(diǎn)對(duì)應(yīng)的高維特征向量, 使得同一建筑物個(gè)體的像素點(diǎn)對(duì)應(yīng)的高維向量在高維空間中聚集, 不同建筑物個(gè)體的向量聚類中心彼此遠(yuǎn)離; 以二分類預(yù)測(cè)算法為掩膜濾除非建筑物像素點(diǎn), 使用聚類算法對(duì)高維特征向量進(jìn)行聚類, 完成不同建筑物個(gè)體的區(qū)分。同時(shí), 本文引入 Xception module[21]改造 U-Net 神經(jīng)網(wǎng)絡(luò), 以期提高深度神經(jīng)網(wǎng)絡(luò)的特征提取能力。
本文選用年法國國家信息與自動(dòng)化研究所 2018年發(fā)布的 Inria 航空影像數(shù)據(jù)集[22]作為研究數(shù)據(jù)。該數(shù)據(jù)集的空間分辨率為 0.3 m, 包含覆蓋 5 個(gè)城市的180 張影像, 每個(gè)城市擁有 36 張高分辨率遙感影像。由于需要區(qū)分建筑物個(gè)體, 本文選用美國奧汀區(qū)域(30°16′2″N, 97°45′50″W)的 36 張影像, 并采用Maggiori 等[22]的劃分方法, 將其中 31 張用于訓(xùn)練, 5 張用于測(cè)試。每張影像的像素點(diǎn)為 5000×5000, 覆蓋范圍約為 2.25km2??紤]到計(jì)算機(jī)性能, 以 384個(gè)像素點(diǎn)為步長, 將測(cè)試影像原圖裁剪為 416×416個(gè)像素點(diǎn), 并剔除沒有建筑物的影像, 得到 4526 張訓(xùn)練樣本和 762 張測(cè)試樣本。為了生成實(shí)例分割對(duì)應(yīng)的樣本標(biāo)簽, 本文采用 scikit-image 中的函數(shù), 由二分類真值圖像生成對(duì)應(yīng)的實(shí)例標(biāo)記, 給不同建筑物分配不同的標(biāo)簽值。樣本情況如圖 1 所示, 圖1(c)中相同顏色的像素點(diǎn)表示屬于同一個(gè)建筑物個(gè)體, 具有相同的標(biāo)簽值。
本文提出基于 Xception module 的優(yōu)化 U-Net 深度卷積網(wǎng)絡(luò)模型。將 U-Net 中編碼部分的連續(xù)卷積層用 Xception module 替換, 從而改善深度神經(jīng)網(wǎng)絡(luò)在高分遙感影像建筑物分類過程中特征提取的效果。同時(shí), 為了區(qū)分遙感影像中的建筑物個(gè)體, 在U-Net 所有具有“編碼?解碼”的結(jié)構(gòu)中增加一個(gè)解碼器, 用以生成遙感影像中建筑物像素點(diǎn)對(duì)應(yīng)的高維向量, 即生成與遙感圖像具有相同空間分辨率的三維矩陣, 其中第 3 個(gè)維度為高維特征向量。兩個(gè)任務(wù)分別具有各自的“解碼器”, 共享同一個(gè)“編碼器”。通過共享特征、訓(xùn)練相近任務(wù)的方式, 提高模型所提取特征的表示能力與預(yù)測(cè)精度。兩個(gè)任務(wù)各自的損失函數(shù)之和構(gòu)成模型的總損失函數(shù)。使用梯度下降算法或其改進(jìn)算法(本文采用 Adam 算法), 迭代更新其模型權(quán)重, 直到損失函數(shù)值收斂。本文使用的模型如圖2所示。
(a)原圖; (b)二分類(真值); (c)實(shí)例分割(真值)
width為影像寬度, height為影像高度, channel為影像波段數(shù), embedding_dim為高維向量的維度。下同
本文中模型的實(shí)例分割及高維特征向量的低維可視化工作流程如圖 3 所示, 其中代表像素點(diǎn)。首先輸入遙感影像, 通過深度神經(jīng)網(wǎng)絡(luò)的正向(forward)運(yùn)算后, 得到二分類預(yù)測(cè)結(jié)果(即建筑物與非建筑)及像素點(diǎn)分別對(duì)應(yīng)的高維特征向量構(gòu)成的多維矩陣。在進(jìn)行建筑物的實(shí)例分割時(shí), 使用深度神經(jīng)網(wǎng)絡(luò)建筑物二值分類結(jié)果作為掩膜, 濾除高維矩陣中所有非建筑物像素點(diǎn)對(duì)應(yīng)的高維特征向量, 所有建筑物像素點(diǎn)(數(shù)目為)對(duì)應(yīng)的高維特征向量(維度為embedding_dim)組成一個(gè)含個(gè)向量的向量集合。隨后, 對(duì)該高維特征向量集合進(jìn)行聚類, 得到最終的實(shí)例分割結(jié)果。圖3左下角虛線框內(nèi)展示判別損失函數(shù)解碼器生成的特征圖(feature map)(即圖 3 中遙感影像所有像素點(diǎn)對(duì)應(yīng)的高維特征向量), 以二分類結(jié)果為掩模, 濾除非建筑物像素點(diǎn)對(duì)應(yīng)的向量, 最終得到所有建筑物像素點(diǎn)對(duì)應(yīng)向量的過程。
U-Net 是一個(gè)經(jīng)典的全卷積神經(jīng)網(wǎng)絡(luò)模型, 包括編碼器和解碼器兩部分, 每個(gè)部分由連續(xù)的卷積層構(gòu)成。在編碼器中, 每?jī)蓚€(gè)卷積層之后會(huì)有一個(gè)池化層, 用于對(duì)特征圖進(jìn)行降尺度。與之相對(duì)應(yīng), 在解碼器中同樣存在一個(gè)上采樣層, 用于提高特征圖的分辨率。在編碼過程中, 輸入圖像經(jīng)過不斷的卷積與池化, 得到不同尺度的特征圖, 在此期間特征維度不斷增加, 所學(xué)習(xí)的特征抽象程度不斷提高, 分辨率不斷降低。在相應(yīng)的解碼過程中, 特征維度降低, 分辨率增加, 最終得到與輸入圖像尺度相同的分類結(jié)果。在編碼器中, 每次進(jìn)行池化操作前, 不同尺度的特征圖都被保存, 并通過跳躍式連接(skip-connection)的方式, 將保存的特征圖傳遞給對(duì)應(yīng)尺度的解碼器, 為解碼器提供不同尺度的特征信息。通過跳躍式連接的方式, 恢復(fù)由于池化操作降低分辨率帶來的空間信息損失, 同時(shí)為解碼器提供不同分辨率的特征。
圖3 實(shí)例分割及高維特征向量的低維可視化總體流程
Xception 是由 Chollet[21]于 2017 年提出的用于圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型, 在收斂速度和精度方面優(yōu)于 esNet 等深度神經(jīng)網(wǎng)絡(luò)模型。Xcep-tion 中使用 Xception module 作為 Inception module的改進(jìn)版本, 用空間相關(guān)性與波段相關(guān)性解耦的方式處理圖像數(shù)據(jù), 明顯提升分類精度[3,23?25]。Mah-dianpari 等[26]驗(yàn)證了 Xception 處理遙感影像數(shù)據(jù)的有效性。由于遙感影像的多尺度特性[27?28], 同時(shí)考慮到內(nèi)存限制以及建筑物形狀較為規(guī)則, 參照 No-waczyński[29]的方法, 本研究減少 U-Net 對(duì)應(yīng)層的濾波器數(shù)目, 增加網(wǎng)絡(luò)的層數(shù), 同時(shí), 在 U-Net 的編碼器部分引入 Xception module 結(jié)構(gòu), 用 Xceptionmodule 替換掉卷積層, 從而改善 U-Net 的分類精度。
本文網(wǎng)絡(luò)結(jié)構(gòu)如圖 4 所示, bs 為批次數(shù)(batch size)。實(shí)驗(yàn)中, 設(shè) bs 為 2, height 和 width 為 416, embedding_dim 為 16。Max-Pooling 表示最大池化, upsample 表示上采樣, 此處使用 Conv2dTranspose, batchnorm 為批標(biāo)準(zhǔn)化, relu 為 ReLU 激活函數(shù), separable conv 表示深度可分卷積。圖 4 中卷積層(包括分離卷積層)具有相同參數(shù)設(shè)置, 核步長為 1, 核大小為 3, 濾波器數(shù)目分別為(64, 64, 128, 128, 256, 256, 5 12 (編碼器)及256, 128, 128, 64, 64, 2(二分類解碼器)/16 (判別損失函數(shù)); 每個(gè)尺度的卷積層(或 Xception module)的輸出都標(biāo)明維度,,,和分別代表特征圖的批次數(shù)、維度、高度和寬度, 兩個(gè)解碼器中所有維度一致, 除最終卷積層的輸出外, 二分類的特征圖維度為 2, 判別損失函數(shù)解碼器的特征圖維度為 16(即 embedding_dim)。圖4 的網(wǎng)絡(luò)結(jié)構(gòu)部分包括一個(gè)編碼器和兩個(gè)解碼器, 其中二分類解碼器生成大小為(bs, 2, height, width)的特征圖, 通過 softmax 層后, 生成建筑物和非建筑兩類的概率分布, 得到二分類結(jié)果, 或者用于計(jì)算損失交叉熵?fù)p失值; 判別損失函數(shù)解碼生成大小為(bs, embedding_dim, height, width)的特征圖, 即所有像素點(diǎn)對(duì)應(yīng)的高維特征, 這些特征向量將用于計(jì)算判別損失函數(shù)值。
(a)網(wǎng)絡(luò)結(jié)構(gòu); (b) Xception module和successive layer的結(jié)構(gòu)
多任務(wù)學(xué)習(xí)是一種基于共享表示, 把多個(gè)相關(guān)的任務(wù)放在一起學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。將多任務(wù)學(xué)習(xí)方法應(yīng)用于深度學(xué)習(xí)時(shí), 多個(gè)相關(guān)任務(wù)并行學(xué)習(xí), 對(duì)應(yīng)的損失函數(shù)同時(shí)通過反向傳播算法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新。這樣, 多個(gè)任務(wù)能夠通過共享特征而相互促進(jìn)學(xué)習(xí), 提升精度及泛化效果。本文采用多任務(wù)學(xué)習(xí)方法, 建立如下兩個(gè)相關(guān)任務(wù)來完成遙感影像建筑物的實(shí)例分割: 1)對(duì)高分辨率遙感影像進(jìn)行建筑物的二分類提取; 2)在高維特征空間中, 生成遙感影像中建筑物像素點(diǎn)對(duì)應(yīng)的高維特征向量, 如圖 2 所示。前者需要從網(wǎng)絡(luò)中提取的特征能夠區(qū)分建筑物與非建筑物, 后者生成對(duì)應(yīng)每個(gè)建筑物像素點(diǎn)的高維特征向量。在高維空間中, 屬于相同建筑物的像素點(diǎn)對(duì)應(yīng)的特征向量在空間中聚集, 不同建筑物像素點(diǎn)的特征向量彼此遠(yuǎn)離。
本文采用判別損失函數(shù)[30]訓(xùn)練深度神經(jīng)網(wǎng)絡(luò), 使其能夠生成對(duì)應(yīng)不同建筑物個(gè)體像素點(diǎn)的高維特征向量。當(dāng)判別損失函數(shù)收斂時(shí), 使得生成的高維特征向量能滿足: 1)具有相同標(biāo)簽的建筑物個(gè)體對(duì)應(yīng)像素點(diǎn)的高維特征向量在特征空間中應(yīng)該彼此聚集; 2)具有不同標(biāo)簽的建筑物個(gè)體像素點(diǎn)的聚類中心在高維空間中應(yīng)該彼此遠(yuǎn)離。判別損失函數(shù)如式(1)和(2)所示。
圖 5 為一個(gè)判別損失函數(shù)的示意圖, 用二維平面代替高維空間。假設(shè)遙感影像中存在兩個(gè)建筑物個(gè)體, 經(jīng)過多次迭代訓(xùn)練后, 在圖中可以看到屬于相同建筑物個(gè)體的像素點(diǎn)聚集在其聚類中心周圍,兩個(gè)建筑物的聚類中心則相互遠(yuǎn)離。
表示建筑物個(gè)體的高維空間聚類中心,表示方差,表示聚類中心間的距離
本文中, 基于深度神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)模型的總損失函數(shù)為建筑物二分類的交叉熵?fù)p失函數(shù)與判別損失函數(shù)之和, 計(jì)算公式如下:
實(shí)驗(yàn)中, 在不使用多任務(wù)學(xué)習(xí)的情況下, 分別訓(xùn)練 U-Net 和本文提出的基于 Xception 的 U-Net, 比較兩種網(wǎng)絡(luò)二分類提取建筑物的表現(xiàn), 結(jié)果如表1 所示。本文提出的基于 Xception 的 U-Net 表現(xiàn)優(yōu)于 U-Net, 精度提升約1.4%。
圖 6 為不同網(wǎng)絡(luò)結(jié)構(gòu)的建筑物提取結(jié)果, 顯示測(cè)試樣本在不同模型中的表現(xiàn)情況。與原始模型相比, 本文改進(jìn)后的 U-Net 模型產(chǎn)生更少的錯(cuò)分像素點(diǎn)。圖 6(d)中, 少量建筑物像素點(diǎn)被誤判為非建筑物(藍(lán)色), 主要是由樹木遮擋和陰影造成的。
表1 不同網(wǎng)絡(luò)結(jié)構(gòu)建筑物提取精度
圖 7 展示建筑物分布較稀疏時(shí)實(shí)例分割的效果。圖 7(d)~(f)中, 屬于不同建筑物類別的像素點(diǎn)被賦予不同的標(biāo)簽, 相同的建筑物像素點(diǎn)具有相同的顏色, 黑色為背景顏色。實(shí)例分割真值中建筑物數(shù)目為 8, 兩次聚類結(jié)果中建筑物數(shù)目分別為 13 和 5。
從圖 7 可以看出, 屬于不同建筑物個(gè)體的像素點(diǎn)在聚類之后, 能夠被明確地分開。圖 7 中被紅色圓圈標(biāo)記的兩部分, 在二分類建筑物提取結(jié)果(圖8(c))中并不存在, 屬于樣本標(biāo)記錯(cuò)誤(原圖(圖 8(a))中沒有對(duì)應(yīng)的建筑物)。在使用二分類樣本標(biāo)記作為掩膜的聚類分析結(jié)果(圖 8(e))中, 標(biāo)記錯(cuò)誤區(qū)域產(chǎn)生多個(gè)聚類點(diǎn), 并且屬于多個(gè)聚類中心的像素點(diǎn)混雜在一起, 也說明建筑物的二分類提取任務(wù)與生成高維向量任務(wù)是相關(guān)的, 即在二分類結(jié)果中沒有建筑物像素點(diǎn)的區(qū)域, 其像素點(diǎn)(圖 7 中紅色圓圈內(nèi))對(duì)應(yīng)的高維向量雜散地分布, 沒有規(guī)律可循。因此, 原圖中建筑物數(shù)目實(shí)際上為 6, 使用預(yù)測(cè)二分類值作為掩膜, 聚類后得到 5 個(gè)聚類中心, 缺失的建筑物為原圖(圖 7(a))左上角的小片建筑物區(qū)域。這是因?yàn)樵诙诸愵A(yù)測(cè)時(shí), 將該建筑物的像素點(diǎn)誤判為非建筑物像素點(diǎn), 導(dǎo)致聚類時(shí)輸入向量中缺失對(duì)應(yīng)建筑物區(qū)域的高維特征向量, 使得聚類中心缺失一個(gè), 造成建筑物數(shù)目預(yù)測(cè)的誤差。
將本方法應(yīng)用于建筑物較密集區(qū)域時(shí), 依然可以獲得較好的建筑物二值提取和實(shí)例分割結(jié)果(圖8)。實(shí)例分割真值中具有的建筑物數(shù)目為 34, 基于預(yù)測(cè)的二分類結(jié)果作為掩膜時(shí), 得到聚類中心 32個(gè), 相差僅 2 個(gè), 即在建筑物較密集分布的情況下, 該算法仍然能夠有效地劃分建筑物區(qū)域, 提取建筑物個(gè)體。
表 2 給出建筑物實(shí)例分割精度, 其中|DiC| (使用二分類真值為掩膜)表示以二分類真值(此處為建筑物提取)為掩膜進(jìn)行聚類后, 聚類中心數(shù)目與實(shí)例中建筑物真實(shí)個(gè)數(shù)之差的絕對(duì)值(absolute diffe-rence in count)[31]。從表 2 可以看出, 在多任務(wù)學(xué)習(xí)的框架下同時(shí)訓(xùn)練兩個(gè)相關(guān)任務(wù), 建筑物二分類的精度提高約 0.5%, 完成建筑物實(shí)例的區(qū)分??紤]到樣本標(biāo)記存在錯(cuò)誤, 預(yù)計(jì)在樣本標(biāo)記錯(cuò)誤更少的數(shù)據(jù)集中本文方法的表現(xiàn)會(huì)更好。
t-SNE 算法是 Maaten 等[32]提出的一種用于數(shù)據(jù)降維的機(jī)器學(xué)習(xí)算法, 可以將高維數(shù)據(jù)映射到適合觀察的 2 維或 3 維空間。本文將所有對(duì)應(yīng)建筑物像素點(diǎn)的高維特征向量作為輸入數(shù)據(jù), 使用 t-SNE 算法, 對(duì)圖 7 中實(shí)例分割產(chǎn)生的高維特征向量進(jìn)行可視化分析, 觀察經(jīng)過判別損失函數(shù)訓(xùn)練產(chǎn)生的高維向量的空間聚類情況。
圖 9 展示實(shí)例分割結(jié)果以及深度神經(jīng)網(wǎng)絡(luò)生成的高維特征向量的低維可視化結(jié)果。圖 9(a)表示用于聚類生成實(shí)例分割結(jié)果的高維特征向量, 濾波后僅保留對(duì)應(yīng)建筑物像素點(diǎn)的向量; 圖 9(b)為實(shí)例分割結(jié)果, 其中不同的建筑物個(gè)體具有不同的顏色(即不同的標(biāo)簽值), 非建筑物像素點(diǎn)為黑色; 圖 9 (c)為 t-SNE 可視化結(jié)果, 將圖 9(a)中屬于建筑物像素點(diǎn)的高維特征向量集合作為輸入數(shù)據(jù), 得到其低維可視化圖像, 同一建筑物實(shí)例個(gè)體具有相同的顏色。圖 9(b)中共生成 5 個(gè)建筑物, 在圖 9(c)中主要對(duì)應(yīng) 5 種顏色, 相同建筑物的高維向量聚集在一起, 說明通過判別損失函數(shù)訓(xùn)練得到的高維特征向量學(xué)習(xí)到建筑物個(gè)體的語義信息。圖 9(c)中淺藍(lán)色像素點(diǎn)屬于同一建筑物個(gè)體, 由于從高維投影至低維平面, 因此形成兩個(gè)聚集區(qū), 但仍然呈現(xiàn)聚集狀態(tài)。從圖 9 還可以看出, 深藍(lán)色像素點(diǎn)對(duì)應(yīng)在真實(shí)標(biāo)簽中為非建筑物點(diǎn)而誤分類為建筑物的像素點(diǎn), 混雜于不同簇團(tuán)中, 表明不同建筑物個(gè)體周圍存在被誤分類的非建筑物點(diǎn), 主要原因是二分類提取建筑物掩膜時(shí), 對(duì)一些建筑物邊界產(chǎn)生錯(cuò)誤的分類。
(a)原圖; (b)二分類(真值); (c)U-Net預(yù)測(cè)值; (d)改進(jìn)后U-Net預(yù)測(cè)值。綠色: 真正, 表示建筑物像素點(diǎn)被正確分類; 紅色: 假正, 表示非建筑物像素點(diǎn)被誤判為建筑物(錯(cuò)分); 藍(lán)色: 假負(fù), 表示建筑物像素點(diǎn)被誤判為非建筑物(漏分)
(a)原圖; (b)二分類真值; (c)建筑物提取(二分類預(yù)測(cè)結(jié)果); (d)實(shí)例分割真值; (e)基于多任務(wù)學(xué)習(xí)二分類預(yù)測(cè)結(jié)果的實(shí)例分割結(jié)果(使用二分類真值); (f)基于建筑物真實(shí)二分類標(biāo)簽的實(shí)例分割結(jié)果(使用預(yù)測(cè)值)
(a)原圖; (b)二分類真值; (c)建筑物提取(二分類預(yù)測(cè)結(jié)果); (d)實(shí)例分割真值; (e)基于多任務(wù)學(xué)習(xí)二分類預(yù)測(cè)結(jié)果的實(shí)例分割結(jié)果(使用二分類真值); (f)基于建筑物真實(shí)二分類標(biāo)簽的實(shí)例分割結(jié)果(使用預(yù)測(cè)值)
表2 建筑物實(shí)例分割結(jié)果
(a)高維特征向量; (b)實(shí)例分割(預(yù)測(cè)值); (c) t-SNE可視化
本文基于 Inria 航空影像, 利用 Xception module對(duì) U-Net 深度神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn), 同時(shí)融合多任務(wù)學(xué)習(xí)算法, 提高了基于高分遙感影像的建筑物提取和實(shí)例分割精度, 得到的主要結(jié)論如下。
1)對(duì)于高分遙感影像, 使用基于 Xception mo-dule 的 U-Net 深度神經(jīng)網(wǎng)絡(luò), 建筑物二值提取的精度明顯優(yōu)于原始 U-Net 模型。
2)通過多任務(wù)學(xué)習(xí)和聚類分析, 進(jìn)一步提升深度神經(jīng)網(wǎng)絡(luò)進(jìn)行建筑物二值提取的精度, 并實(shí)現(xiàn)基于高分遙感影像的建筑物實(shí)例分割。
后續(xù)工作中, 我們將基于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)識(shí)別算法, 進(jìn)一步提高建筑物識(shí)別與分割的精度。
[1]劉瑩, 李強(qiáng). 融合多特征的高分辨率遙感影像震害損毀建筑物檢測(cè). 測(cè)繪與空間地理信息, 2018, 41 (6): 61?64
[2]趙云涵, 陳剛強(qiáng), 陳廣亮, 等. 耦合多源大數(shù)據(jù)提取城中村建筑物——以廣州市天河區(qū)為例. 地理與地理信息科學(xué), 2018, 34(5): 7?13
[3]Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, 2015: 1?9
[4]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks// Advances in Neural Information Processing Systems. South Lake Tahoe, 2012: 1097?1105
[5]Mnih V. Machine learning for aerial image labeling [D]. Toronto: University of Toronto, 2013
[6]Alshehhi R, Marpu P R, Woon W L, et al. Simulta-neous extraction of roads and buildings in remote sensing imagery with convolutional neural networks. ISPRS Journal of Photogrammetry and Remote Sen-sing, 2017, 130: 139?149
[7]Maggiori E, Tarabalka Y, Charpiat G, et al. Convolu-tional neural networks for large-scale remote-sensing image classification. IEEE Transactions on Geosci-ence and Remote Sensing, 2017, 55(2): 645?657
[8]Huang Z, Cheng G, Wang H, et al. Building extraction from multi-source remote sensing images via deep de-convolution neural networks // Geoscience and Re-mote Sensing Symposium (IGARSS), 2016 IEEE In-ternational. Beijing: IEEE, 2016: 1835?1838
[9]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, 2015: 3431?3440
[10]Wu G, Shao X, Guo Z, et al. Automatic building segmentation of aerial imagery using multi-constraint fully convolutional networks. Remote Sensing, 2018, 10(3): 407
[11]Ronneberger O, Fischer P, Brox T. U-Net: convolu-tional networks for biomedical image segmentation // Proceedings of the International Conference on Medi-cal Image Computing and Computer-Assisted Inter-vention. Munich, 2015: 234?241
[12]Audebert N, Le Saux B, Lefèvre S. Semantic segmen-tation of earth observation data using multimodal and multi-scale deep networks // Asian Conference on Computer Vision. Taipei, 2016: 180?196
[13]Badrinarayanan V, Kendall A, Cipolla R. Segnet: a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481?2495
[14]Xu Y, Wu L, Xie Z, et al. Building extraction in very high resolution remote sensing imagery using deep learning and guided filters. Remote Sensing, 2018, 10(1): 144
[15]Chen Q, Wang L, Wu Y, et al. Aerial imagery for roof segmentation: a large-scale dataset towards automatic mapping of buildings. ISPRS Journal of Photogram-metry and Remote Sensing, 2019, 147: 42?55
[16]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition // Proceedings of the IEEE Conference on Computer Vision and Pattern Recog-nition. Las Vegas, 2016: 770?778
[17]Pan X, Gao L, Marinoni A, et al. Semantic labeling of high resolution aerial imagery and Lidar data with fine segmentation network. Remote Sensing, 2018, 10(5): 743
[18]Zhang Z, Luo P, Loy C C, et al. Facial landmark de-tection by deep multi-task learning // European Con-ference on Computer Vision. Zurich: Springer, 2014: 94?108
[19]Bischke B, Helber P, Folz J, et al. Multi-task learning for segmentation of building footprints with deep neu-ral networks [EB/OL]. (2017?09?18) [2018?10?26]. https://arxiv.org/abs/1709.05932
[20]Mou L C, Xiang Z X. Vehicle instance segmenta- tion from aerial image and video using a multitask learning residual fully convolutional network. IEEE Transactions on Geoscience and Remote Sensing, 2018: 1?13
[21]Chollet F. Xception: deep learning with depthwise separable convolutions // Proceedings of the IEEE Conference on Computer Vision and Pattern Recog-nition. Honolulu, 2017: 1251?1258
[22]Maggiori E, Tarabalka Y, Charpiat G, et al. Can semantic labeling methods generalize to any city? the inria aerial image labeling benchmark // IEEE Inter-national Symposium on Geoscience and Remote Sen-sing (IGARSS). Fort Worth, 2017: 3226?3229
[23]Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision // Pro-ceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 2818? 2826
[24]Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-resnet and the impact of residual connec-tions on learning // AAAI Conference on Artificial Intelligence. San Francisco, 2017: 4278? 4284
[25]He K, Zhang X, Ren S, et al. Identity mappings in deep residual networks // European Conference on Computer Vision. Amsterdam: Springer, 2016: 630? 645
[26]Mahdianpari M, Salehi B, Rezaee M, et al. Very deep convolutional neural networks for complex land cover mapping using multispectral remote sensing imagery. Remote Sensing, 2018, 10(7): 1119
[27]鄭卓, 方芳, 劉袁緣, 等. 高分辨率遙感影像場(chǎng)景的多尺度神經(jīng)網(wǎng)絡(luò)分類法. 測(cè)繪學(xué)報(bào), 2018, 47(5): 620?630
[28]林雨準(zhǔn), 張保明, 徐俊峰, 等. 多特征多尺度相 結(jié)合的高分辨率遙感影像建筑物提取. 測(cè)繪通報(bào), 2017(12): 53?57
[29]Nowaczyński A. Deep learning for satellite image- ry via image segmentation [EB/OL]. (2017?04?12) [2018?10?26]. https://deepsense.ai/deep-learning-for-satellite-imagery-via-image-segmentatio
[30]De Brabandere B, Neven D, Van Gool L. Semantic in-stance segmentation with a discriminative loss func-tion [EB/OL]. (2017?08?08) [2018?12?26]. https:// arxiv.org/abs/1708.02551
[31]Scharr H, Minervini M, French A P, et al. Leaf segmentation in plant phenotyping: a collation study. Machine Vision & Applications, 2016, 27(4): 585?606
[32]Maaten L, Hinton G. Visualizing data using t-SNE. Journal of Machine Learning Research, 2008, 9: 2579?2605
Instance Segmentation of Buildings from High-Resolution Remote Sensing Images with Multitask Learning
HUI Jian1,2, QIN Qiming1,2,3,?, XU Wei1,2, SUI Juan1
1. Institute of Remote Sensing and Geographic Information System, School of Earth and Space Sciences, Peking University, Beijing 100871; 2. Beijing Key Lab of Spatial Information Integration and 3S Application, Beijing 100871; 3. Geographic Information System Technology Innovation Center, Ministry of Natural Resources, Beijing 100871; ? Corresponding author, E-mail: qmqingpku@163.com
At present, building extraction from high-resolution remote sensing images using deep neural network is viewed as a binary classification problem, which divides the pixels into two categories, building and non-building, but it cannot distinguish individual buildings. To solve this problem, the U-Net modified with Xception module and multitask learning are combined to apply to the instance segmentation of buildings, which both acquires the binary classification and distinguishes the individual buildings. Inria aerial imagery is used as the research dataset to validate the algorithm. The results show that the binary classification performance of U-Net modified with Xception outperforms U-Net by about 1.4%. The multitask driven deep neural network not only accomplishes the instance segmentation of buildings, but also improves the accuracy by about 0.5%.
multitask learning; building extraction; deep neural network; instance segmentation
10.13209/j.0479-8023.2019.106
國家重點(diǎn)研發(fā)計(jì)劃(2017YFB0503905)資助
2019?01?02;
2019?05?09