劉宇承,羅芳,杜清運,黃文麗,石儀瑋
1. 自然資源部城市國土資源監(jiān)測與仿真重點實驗室,深圳 518034;
2. 深圳市規(guī)劃和自然資源調(diào)查測繪中心,深圳 518034;
3. 武漢大學 資源與環(huán)境科學學院,武漢 430079
明確土地利用類型是城市進行土地生產(chǎn)利用與規(guī)劃管理的前提,有利于城市進行合理的土地配置,維護生態(tài)環(huán)境與自然資源,促進經(jīng)濟發(fā)展,保障人民健康生活(張增祥等,2016)。遙感技術是獲取空間地理信息的重要方式,海量的高分辨率和多時相遙感數(shù)據(jù),為土地利用監(jiān)管提供了充足的信息來源。
遙感影像解譯是遙感應用的基礎任務。早期解譯主要依靠人工目視和基于統(tǒng)計聚類思想的計算機輔助分類;其后,發(fā)展出了基于超平面分割思想的支持向量機(support vector machine,SVM)、基于樹狀結構的決策樹、基于集成多分類器思想的隨機森林(random forest,RF),以及從高分辨率獲取更多幾何與紋理特征的面向?qū)ο蠓诸惙椒?;目前,主流的遙感影像解譯方法以深度學習模型為代表(張繼賢等,2021)??傮w而言,解譯單元經(jīng)歷了像素、對象和場景等語義單元的發(fā)展階段,解譯方法從人工和簡單分類器逐漸發(fā)展成基于集成學習和深度神經(jīng)網(wǎng)絡的方法(周培誠等,2021)。
圍繞土地覆蓋/土地利用分類方法,學者們展開了許多研究。季順平等(2020)利用全空洞卷積神經(jīng)網(wǎng)絡,基于高分辨率影像對武漢市進行了城市土地覆蓋類型分類。王協(xié)等(2020)設計了多尺度特征學習的神經(jīng)網(wǎng)絡,并與全卷積神經(jīng)網(wǎng)絡(fully convolutional network,F(xiàn)CN)和支持向量機的分類結果進行了比較。王俊強等(2021)結合改進的金字塔場景解析網(wǎng)絡和全連接條件隨機場提升了遙感影像分割精度。任向宇等(2021)研究了多端元混合像素分解與面向?qū)ο蠓诸惤Y合的分類方法。許澤宇等(2022)、邵振峰等(2022)分別對DeepLab模型和U-Net 模型兩種主流語義分割進行了智能優(yōu)化改進。徐進勇等(2022)提出了對中國土地資源多尺度遙感智能解譯分類體系。
在區(qū)域?qū)嶋H生產(chǎn)中,還需考慮不同方法精度、效率與可操作性。當前將第三次全國國土調(diào)查(簡稱國土“三調(diào)”)成果和0.2 m 超高分辨率影像用于解譯土地利用類型的研究還較少。本文結合這兩類數(shù)據(jù),參考土地利用分類國家標準,構建面向深圳市土地分類樣本庫;實驗比較了傳統(tǒng)機器學習模型和深度學習模型中分類效果最好的模型、比較了在數(shù)據(jù)量較少或充足的不同情況下適用的分類方法,以及分類單位為像素或?qū)ο髸r分類結果的差異;最終得出在深圳市寶安區(qū)大范圍實際生產(chǎn)場景中,應用效果較好的土地利用智能分類方法。
廣東省深圳市是沿海城市,經(jīng)濟發(fā)展迅速,城市化程度高,地處亞熱帶季風氣候區(qū),自然資源類型多樣,有著“花園城市”之稱。寶安區(qū)(113° 90′E,22° 57′ N),位于深圳市西北部沿海地區(qū),土地面積397 km2,占全市的19.9%。寶安區(qū)屬低山丘陵濱海區(qū),地貌類型多樣全年溫暖濕潤,平均氣溫為22℃,年降水量為1926 mm。
本文以2019 年深圳市寶安區(qū)超高分辨率RGB三通道光學航空遙感影像(0.2 m)、國土“三調(diào)”地理信息系統(tǒng)矢量成果為數(shù)據(jù)源。
首先結合國家標準《土地利用現(xiàn)狀分類》(GB/T 21010—2017)和《第三次全國國土調(diào)查技術規(guī)程》(TD/T 1055—2019)確定分類體系。在國土“三調(diào)”數(shù)據(jù)基礎上人工修正部分標簽,構建寶安區(qū)地表自然資源豐富區(qū)域的樣本庫。每張圖片尺寸為1024像素×1024 像素,標簽包含林地、建設用地、水域、草地、濕地、耕地、園地及無數(shù)據(jù)的背景類8 個類別。樣本庫主要有三部分:①大容量樣本a,含訓練樣本2499 張、驗證樣本92 張、測試樣本894 張;②小容量樣本b,在大容量樣本a 中選取部分影像,含訓練樣本44 張、測試樣本15 張,用于比較傳統(tǒng)機器學習與深度學習模型;③人工選取樣本c,含各類別樣本數(shù)較均衡的12 張,用于測試各模型最終分類效果。樣本位置分布與示例,如圖1 所示。
圖1 樣本分布Fig.1 Overview of the data sample
早期遙感影像解譯,以像素為最小分類單元。同類地物在不同波段中的光譜亮度、空間紋理結構和其他相關信息,會在特征空間中構成集群。通過選取特征和樣本,再訓練分類器,可將像素預測為所屬的地物類別。隨著遙感技術發(fā)展,高空間分辨率遙感影像成像波段普遍較少,光譜信息減少的同時,空間細節(jié)信息大幅增多。面向?qū)ο蠓诸惙椒ㄒ杂跋穹指詈蟮膶ο鬄樽钚》诸悊卧?,其提取幾何和紋理特征的能力更強。
3.1.1 特征選擇
傳統(tǒng)機器學習分類器對輸入特征有強依賴性?;谙袼胤诸悤r常用光譜特征,如各波段光譜值、歸一化植被指數(shù)(normalized difference vegetation index,NDVI)和歸一化水體指數(shù)(normalized difference water index,NDWI)等,影像紋理特征,即經(jīng)局部二值模式(local binary pattern,LBP)、Gabor 濾波等方法提取,并通過多項式的方式交互光譜和紋理特征;利用面向?qū)ο笏枷敕诸悤r,進一步選擇以對象為最小分類單元的特征,如對象位置、與鄰域?qū)ο箨P系、長度等形狀因子,灰度共生矩陣等紋理特征,使目標地物分類更準確。
3.1.2 分類器
1)K 近鄰
K 近鄰(k-nearest neighbour,KNN)是Cover和Hart(1967)提出的分類算法。K值選取較為重要,以樣本在特征空間中最鄰近K個樣本類別判斷該樣本類別。KNN 算法原理成熟且易于理解,模型訓練時間快,需要調(diào)整的參數(shù)少,本文選為基線模型進行參考。
2)支持向量機
支持向量機是Cortes 和Vapnik(1995)提出的經(jīng)典機器學習模型。其通過在特征空間中建立間隔最大的超平面進行二分類,使用核方法進行非線性分類,并構建多個二分類模型來執(zhí)行多分類任務。
3)隨機森林
Breiman(2001)在決策樹算法的基礎上,結合Bagging 集成學習與隨機子空間方法,提出了隨機森林。決策樹依照最優(yōu)分裂特征不斷遞歸迭代,將數(shù)據(jù)集分為不同特征的部分。隨機森林模型則集成多個互不關聯(lián)決策樹,預測時每棵決策樹分別判斷,最終通過統(tǒng)計所有樹的判斷投票產(chǎn)生結果。
4)梯度提升決策樹
梯度提升決策樹(gradient boosting decision tree,GBDT)采用Boosting 集成學習方法,依據(jù)錯誤率來取樣,通常比隨機森林有更高準確度(Friedman,2001)。本文采用的GBDT 模型,集成決策樹類型回歸樹,在預測分類時,通過累加所有結果,將概率最高的類作為預測結果。
在當今大數(shù)據(jù)和高算力背景下,深度學習相較傳統(tǒng)機器學習方法,能從海量數(shù)據(jù)中學習更多特征,在遙感影像分類任務中有顯著優(yōu)勢。其應用于遙感影像分類主要分為對切片的對象識別、基于對象的分類和端對端的語義分割(周培誠等,2021)。
3.2.1 語義分割
語義分割是在像素級別上的分類,如全卷積神經(jīng)網(wǎng)絡將卷積神經(jīng)網(wǎng)絡中全連接層替換為卷積層,實現(xiàn)端到端像素級分類(Long 等,2015)。常用語義分割模型有U-Net(Ronneberger 等,2015)、DeepLab(Chen 等,2018a)、DeepLabV3(Chen 等,2017)和DeepLabV3+模型(Chen 等,2018b)等。
本文選取DeepLabV3+、Resnet50-unet 和U-Net三種深度學習語義分割模型進行測試。在大容量樣本集a 上進行測試,損失函數(shù)選擇焦點損失,其中,超參數(shù)γ表示難分類樣本的權重。采用總體精度(overall accuracy,OA)和語義分割常用評價指標平均交并比(mean intersection over union,MIoU)進行精度評價,結果如表1 所示。使用焦點損(γ=5)的DeepLabV3+模型在深圳市寶安區(qū)樣本庫中的分類效果最佳(總體精度0.83,平均交并比0.61),因此,本文將其作為深度學習方法的代表。
表1 深度學習語義分割模型分類結果Tab.1 Classification results of deep learning semantic segmentation model
3.2.2 DeepLabV3+模型
DeepLabV3+網(wǎng)絡結構,如圖2 所示,其整體使用編碼器解碼器結構。首先,通過編碼器卷積和下采樣方式,減少特征圖尺寸,獲取更多低級特征和更高級語義信息;通過解碼器融合,提取特征并上采樣恢復到輸入影像空間維度進行預測。其次,影像輸入模型中,通過帶有空洞卷積的深度卷積神經(jīng)網(wǎng)絡(deep convolutional neural network,DCNN)分別輸出高級特征和低級特征。高級特征在空間金字塔池化后連接,經(jīng)過1×1 卷積融合后進行4 倍上采樣,再與經(jīng)過1×1 卷積進行降維的低級特征連接。最后,采用3×3 卷積進一步融合特征,4 倍上采樣還原成原始空間大小進行語義分割。
圖2 DeepLabV3+網(wǎng)絡結構示意Fig.2 Structure of DeepLabV3+
DeepLabV3+ 模型中, DCNN 是改進的Xception。與DeepLabV3 的模型骨干網(wǎng)絡ResNet(He 等,2016)相比,改進的Xception 使用了深度可分離卷積,通過逐個通道卷積和逐點卷積方式,減少計算量的同時提升了網(wǎng)格分割效果。
基于前述構建的寶安區(qū)樣本庫,本研究設計了三組實驗,如表2 所示:①在對大容量樣本a 隨機抽樣的情況下,KNN、SVM、RF 與GBDT 四種傳統(tǒng)機器學習模型的比較;②在小容量樣本b 下,傳統(tǒng)機器學習模型GBDT 和深度學習模型DeepLabV3+的比較;③在大容量樣本a 下,傳統(tǒng)機器學習模型RF 與深度學習模型DeepLabV3+的比較。三組實驗采用OA、Kappa 系數(shù)、F1 分數(shù)(F1-score)和MIoU進行精度評價。
表2 實驗使用的數(shù)據(jù)集與模型Tab.2 Data sets and models selected for the experiments
基于Scikit Learn與LightGBM庫構建傳統(tǒng)機器學習模型,在像素分類時選擇的特征為RGB 值、LBP、Gabor 濾波提取的紋理特征。
面向?qū)ο蠓诸愂褂胑Cognition 實現(xiàn)。以尺度參數(shù)為100,形狀因子為0.3,緊致度因子為0.5 進行多尺度分割,在RF 分類器中輸入特征包含RGB 三波段均值、亮度值、對象長寬比、灰度共生矩陣0°、45°、90°和135°方向的均值與對比度、對象密度指數(shù)?;赥ensorFlow 構建DeepLabV3+模型,損失函數(shù)設為焦點損失(γ=5),初始學習率設為0.00005。操作系統(tǒng)為Ubuntu 20.04.3 LTS,GPU 硬件配置為NVIDIA 3090 Ti,通過CUDA 進行加速。
以像素作為最小分類單元進行比較,使用大容量樣本a 中的訓練樣本,對每張1024 像素×1024 像素尺寸的影像隨機抽取1000 個點,按6∶4 隨機分成訓練集與測試集。
由表3 知,RF 模型相較KNN、SVM 與GBDT模型,有更高的OA(0.64)、Kappa 系數(shù)(0.49)、F1 分數(shù)(0.67)和MIoU(0.37)。由于訓練樣本林地和建設用地兩類數(shù)目較多,分類器存在過擬合現(xiàn)象,即傾向?qū)y試樣本分成該兩類別。SVM 模型的過擬合現(xiàn)象尤為明顯,分類結果較低。
表3 傳統(tǒng)機器學習模型的分類結果Tab.3 Classification results of the traditional machine learning model
比較傳統(tǒng)機器學習與深度學習模型時,以相同訓練集作為前提。深度學習模型訓練需以整張影像方式進行輸入,單張影像尺寸較大。傳統(tǒng)機器學習模型,過大數(shù)據(jù)量會導致模型難擬合。經(jīng)測試得到,滿足模型擬合且訓練數(shù)據(jù)量最多的傳統(tǒng)機器學習模型為GBDT。在小容量樣本b 下,本文選擇對GBDT 模型與DeepLabV3+模型進行比較。
由表4 知,DeepLabV3+模型的OA(0.68)、Kappa 系數(shù)(0.55)、F1 分數(shù)(0.62)和MIoU(0.34)均優(yōu)于GBDT 模型;但由于訓練樣本量不足,難以發(fā)揮出深度學習復雜的模型的優(yōu)勢,其解譯結果存在意義不明的問題,如圖3(Ⅰ)、(Ⅲ)所示,有大面積的錯誤。GBDT 模型的優(yōu)勢在于訓練對硬件條件的要求低,所需人工標注數(shù)據(jù)也較少,且訓練和預測時間耗時均較短;同時,解譯結果邊界清晰,可解釋性強,但“椒鹽噪聲”問題嚴重,如圖3 所示。
表4 GBDT 與DeepLabV3+模型的分類結果Tab.4 Classification results of GBDT and DeepLabV3+
圖3 GBDT 與DeepLabV3+分類結果示例Fig.3 Classification samples of GBDT and DeepLabV3+
深度學習相較于傳統(tǒng)機器學習方法,能從更多數(shù)據(jù)中學習特征,在大容量樣本a 上訓練后,能充分發(fā)揮出DeepLabV3+模型的優(yōu)勢。作為比對,選擇隨機森林作為基于像素分類的傳統(tǒng)機器學習分類器。此外,面向?qū)ο蠓诸愒诟叻直媛视跋駪弥心塬@取更多的空間細節(jié)特征,也作為一種分類方式進行比較,在多尺度分割的影像上,對中心區(qū)域周圍八鄰域1024 像素×1024 像素的影像進行對象級的標注后,也輸入隨機森林分類器中。
在各類別像素數(shù)目較為均衡的測試集(c.測試樣本)上的分類結果,如表5 所示,DeepLabV3+分類方法有最高的OA(0.86)、Kappa 系數(shù)(0.83)、F1 分數(shù)(0.85)和MIoU(0.63),如圖4 所示,除濕地外,各類別準確度都較高。隨機森林(基于像素)分類精度最低,其主要原因包括:分類任務相對復雜,超高分影像空間分辨率高(0.2 m)但光譜分辨率低;寶安區(qū)樣本庫中仍存在類別不均衡現(xiàn)象,導致RF(基于像素)模型出現(xiàn)過擬合。另外,RF(面向?qū)ο螅┑姆椒ㄒ杂跋穹指詈髮ο鬄樽钚》诸悊卧?,獲取了高分辨率影像中較多空間特征,其分類結果優(yōu)于RF(基于像素)的分類方法。
表5 RF(基于像素)、RF(面向?qū)ο螅┡cDeepLabV3+模型的分類結果Tab.5 Classification results of RF (pixel-based), RF(object-oriented) and DeepLabV3+
圖4 RF(基于像素)、RF(面向?qū)ο螅┡cDeepLabV3+模型的混淆矩陣Fig.4 Confusion matrices of RF (pixel-based), RF (object-oriented), and DeepLabV3+
局部解譯結果示例,如圖5 所示。RF(基于像素)分類方法解譯結果錯誤最多,預測多為水域、林地和建設用地,難以細分出其他類別,且“椒鹽噪聲”問題嚴重。RF(面向?qū)ο螅┓诸惙椒ɑ窘鉀Q了“椒鹽噪聲”問題,解譯結果整體性較強,但存在特征相近的類別難以區(qū)分的問題,如園地類型預測為林地和草地(圖5(Ⅱ)),以及耕地與濕地類別解譯錯誤較多(圖5(Ⅲ)~(Ⅴ))。DeepLabV3+分類方法的結果整體準確較好,解譯結果與真實標簽基本相同,輪廓清晰,內(nèi)部較為完整,如圖5(Ⅰ)、(Ⅱ)、(Ⅳ)、(Ⅴ)所示。
圖5 RF(基于像素)、RF(面向?qū)ο螅┡cDeepLabV3+分類結果示例Fig.5 Classification samples of RF (pixel-based), RF (object-oriented), and DeepLabV3+
最后,本文以DeepLabV3+模型作為土地利用遙感分類方法,應用在寶安區(qū)整體區(qū)域得到寶安區(qū)土地利用分類圖,如圖6 所示。結果表明,深圳市寶安區(qū)的北部與東部林地、草地、水域、耕地與園地等自然資源較為豐富,西部沿海建設用地面積廣且集中,城市化水平較高,符合國土“三調(diào)”情況。對比分析結果表明,對于超高分辨率遙感影像多類別土地利用分類,在具備深度學習模型訓練環(huán)境和充足數(shù)據(jù)量情況下,DeepLabV3+模型分類精度遠高于傳統(tǒng)機器學習模型,解譯結果與實際情況相近,且能應用于大范圍區(qū)域。
圖6 基于DeepLabV3+模型的寶安區(qū)分類Fig.6 Classification map of Bao’an District based on DeepLabV3+
本文參考超高分辨率航拍影像和經(jīng)人工修正的國土“三調(diào)”數(shù)據(jù),構建面向深圳市寶安區(qū)的土地利用分類樣本庫,針對城市自然資源和土地現(xiàn)代化監(jiān)管精度與效率需求,比較了有代表性的傳統(tǒng)機器學習和深度學習分類方法,得到以下主要結論。
(1) 傳統(tǒng)機器學習方法難以適用于大范圍超高分辨率航拍影像土地利用類型分類。基于像元的分類結果存在較嚴重的“椒鹽噪聲”問題。面向?qū)ο蠓诸惙椒?,將影像分割后對象作為最小分類單元,有效解決了“椒鹽噪聲”問題,可較好地區(qū)分超高分影像中不同土地利用類型,但在大范圍應用時仍存在效率較低的問題。
(2) 樣本量和算力對分類方法選取起重要作用。訓練樣本容量較小時,傳統(tǒng)機器學習分類結果可解釋性較強,比深度學習方法算力要求低。較充足樣本量情況下,傳統(tǒng)機器學習方法僅用RGB 影像難以區(qū)分多種土地利用類型;以DeepLabV3+為代表的深度學習方法,能兼顧大范圍區(qū)域土地利用類型數(shù)據(jù)生產(chǎn)的精度和效率要求。
本文還存在一些不足。一是使用的遙感影像雖然空間分辨率較高(0.2 m)但只含RGB 波段影響了分類精度,后續(xù)研究將以數(shù)據(jù)融合方式加入對于植被信息更為敏感的紅外波段特征,以提升分類精度。二是本文實驗比較不同方法分類結果時,以保證采用相同的訓練集和測試集為前提,但模型結構不同導致訓練方式存在一定差別,為了提升結果可比性以支撐結論,實驗設計仍需進一步優(yōu)化。