郭玉寶,池天河,彭 玲,劉吉磊,楊麗娜
(1.中國(guó)科學(xué)院遙感與數(shù)字地球研究所,北京 100101; 2. 中國(guó)科學(xué)院大學(xué),北京 100049)
?
利用隨機(jī)森林的高分一號(hào)遙感數(shù)據(jù)進(jìn)行城市用地分類
郭玉寶1,2,池天河1,彭玲1,劉吉磊1,2,楊麗娜1
(1.中國(guó)科學(xué)院遙感與數(shù)字地球研究所,北京 100101; 2. 中國(guó)科學(xué)院大學(xué),北京 100049)
為了探究國(guó)產(chǎn)高分一號(hào)衛(wèi)星遙感影像數(shù)據(jù)面向城市用地分類的實(shí)際應(yīng)用方法和效果,本文以北京市某區(qū)域?yàn)槔?,基于高分一?hào)PMS數(shù)據(jù),使用隨機(jī)森林、支持向量機(jī)、最大似然法3種分類器進(jìn)行了城市用地分類對(duì)比研究。結(jié)果表明,隨機(jī)森林和支持向量機(jī)的總體分類精度明顯優(yōu)于最大似然法;最大似然法在運(yùn)算時(shí)間上明顯優(yōu)于隨機(jī)森林和支持向量機(jī)。綜合分析發(fā)現(xiàn),隨機(jī)森林算法表現(xiàn)更優(yōu)。它既能保證分類精度,又能保持一定的時(shí)間效率,更適合高分辨率、大數(shù)據(jù)量、多特征參數(shù)的高分一號(hào)遙感影像分類的實(shí)際生產(chǎn)應(yīng)用。
隨機(jī)森林;城市用地;高分一號(hào);圖像分類
城市用地是城市各種經(jīng)濟(jì)活動(dòng)的場(chǎng)所,是市民居住生活的空間,也是城市生態(tài)環(huán)境質(zhì)量評(píng)估、城市規(guī)劃建設(shè)的重要指標(biāo)。城市用地類型多種多樣,結(jié)構(gòu)復(fù)雜是影響遙感影像分類精度的主要原因。高分辨率遙感影像具有豐富的空間結(jié)構(gòu)和紋理信息,合理利用這些信息可有效提高分類精度[1]。在遙感影像分類中,由于影像類型特點(diǎn)不同,研究區(qū)類型種類復(fù)雜,各種分類器也各具優(yōu)缺點(diǎn),很難找到一個(gè)同時(shí)合適多種需求的分類器[2-3]。隨機(jī)森林(random forests,RF)作為集成分類中的一種,因其運(yùn)算速度較快,分類精度較好,較穩(wěn)定等特點(diǎn)被廣泛應(yīng)用于醫(yī)學(xué)、經(jīng)濟(jì)、制造業(yè)等各個(gè)領(lǐng)域的數(shù)據(jù)挖掘、數(shù)據(jù)分類。在遙感中也廣泛用于多光譜、多時(shí)相、多源數(shù)據(jù)結(jié)合分類應(yīng)用[4]。
近年來,基于高分辨率遙感衛(wèi)星數(shù)據(jù)的遙感信息分類技術(shù)在城市用地分類中得到廣泛應(yīng)用,常用的高分辨率數(shù)據(jù)有Landsat TM、QuickBird、IKONOS、World View、資源三號(hào)等[5]。隨著國(guó)產(chǎn)衛(wèi)星的發(fā)展和高分辨率衛(wèi)星的相繼發(fā)射,我國(guó)高分辨率數(shù)據(jù)自給率有了很大提升。“高分一號(hào)”(GF-1)衛(wèi)星于2013年4月升空,星上搭載了兩臺(tái)2 m分辨率全色/8 m分辨率多光譜相機(jī),4臺(tái)16 m分辨率多光譜相機(jī)。GF-1衛(wèi)星是太陽(yáng)同步回歸軌道衛(wèi)星,軌道高度為645 km,傾角為98.050 6°。全色波段光譜范圍為0.45~0.90 μm,多光譜波段光譜范圍為0.45~0.52 μm,0.52~0.59 μm,0.63~0.69 μm,0.77~0.89 μm;幅寬為60 km,重訪周期為4 d(側(cè)擺時(shí)),覆蓋周期為41 d(不側(cè)擺時(shí))。目前應(yīng)用國(guó)產(chǎn)衛(wèi)星數(shù)據(jù)進(jìn)行城市遙感方面的研究是一個(gè)較新的研究點(diǎn),且基于GF-1衛(wèi)星遙感數(shù)據(jù)的應(yīng)用研究比較少。GF-1衛(wèi)星遙感數(shù)據(jù)面向城市用地分類的實(shí)際應(yīng)用效果有待探究。
本文以GF-1衛(wèi)星多光譜和全色影像為主要數(shù)據(jù)源,以北京市某區(qū)域?yàn)槔?,探討利用集成學(xué)習(xí)中的隨機(jī)森林算法進(jìn)行城市用地分類的技術(shù)方法,并將隨機(jī)森林與SVM、最大似然法兩種傳統(tǒng)分類方法進(jìn)行效率、精度對(duì)比分析,為隨機(jī)森林算法在城市用地分類方面的應(yīng)用提供可行的參考依據(jù)。運(yùn)用GF-1衛(wèi)星影像作為研究數(shù)據(jù)源,以期推動(dòng)GF-1數(shù)據(jù)在城市遙感分類領(lǐng)域的應(yīng)用,為解決智慧城市中用地規(guī)劃、建設(shè)和改造方面的問題作出貢獻(xiàn)。
1. 隨機(jī)森林
隨機(jī)森林是由Leo Breiman和Adele Cutler于2001年提出的一種集成學(xué)習(xí)方法[6],是一種基于分治法原理的集成學(xué)習(xí)策略,是若干決策樹集成的分類器,相較于決策樹其更加穩(wěn)健,泛化性能更好[7]。隨機(jī)森林核心思想是對(duì)輸入樣本在記錄數(shù)據(jù)(行)和特征變量(列)的使用上隨機(jī)化。它通過隨機(jī)選擇向量生長(zhǎng)成決策樹,每棵樹都會(huì)完全生長(zhǎng),而不需要修剪,并且在生成決策樹時(shí),每個(gè)節(jié)點(diǎn)都是從隨機(jī)選出的幾個(gè)變量中最優(yōu)分裂產(chǎn)生,生成所有決策樹之后,用投票的方法對(duì)所有決策樹的分類結(jié)果進(jìn)行綜合,得出最終結(jié)果[7-8]。森林中每一棵樹都依賴于一個(gè)隨機(jī)向量,森林中的所有向量都是獨(dú)立分布的。隨機(jī)森林的預(yù)測(cè)精度與單個(gè)樹的強(qiáng)度和樹間的相關(guān)性有關(guān)[6]。
隨機(jī)森林決策樹學(xué)習(xí)過程為:①隨機(jī)從訓(xùn)練樣本N中有放回地抽樣n個(gè)作為決策樹的輸入樣本;②從M個(gè)樣本特征中隨機(jī)選取m個(gè)特征,作為每一個(gè)結(jié)點(diǎn)的輸入樣本特征,其中m遠(yuǎn)小于M;③以m個(gè)特征的最優(yōu)分裂作為該結(jié)點(diǎn)的分裂規(guī)則;④每一棵決策樹均最大限度地生長(zhǎng),不剪枝。
由于生成決策樹的過程是獨(dú)立的,隨機(jī)森林算法便于并行計(jì)算,在處理大數(shù)據(jù)時(shí)表現(xiàn)優(yōu)異。尤其在處理高維數(shù)據(jù)分類時(shí),更能體現(xiàn)出隨機(jī)森林的速度快、精度高、穩(wěn)定性好的優(yōu)勢(shì)[9]。對(duì)于決策樹分類,隨機(jī)森林對(duì)于大規(guī)模數(shù)據(jù)集有較高的準(zhǔn)確率,并可估算特征變量的重要性[10]。
應(yīng)用隨機(jī)森林模型分類器需要設(shè)定2個(gè)重要參數(shù):①生成樹個(gè)數(shù)(number_of_trees),該值決定了模型中集成的決策樹個(gè)數(shù)。該值越大模型收斂性越好,但運(yùn)行時(shí)間增加,且當(dāng)樹的個(gè)數(shù)過多時(shí),模型會(huì)出現(xiàn)過飽和現(xiàn)象。②隨機(jī)抽取最大特征數(shù)(max_features),該值表示生成每一棵決策樹時(shí)從特征空間中隨機(jī)抽取特征的最大數(shù)。該值越大模型中每棵決策樹強(qiáng)度越大,但決策樹間相關(guān)性也增大。因此,max_features需根據(jù)oob誤差率來調(diào)優(yōu),以達(dá)到一定精度。
隨機(jī)森林分類器的優(yōu)點(diǎn)為[6]:①算法精度高;②可以處理大數(shù)據(jù)集,無(wú)需對(duì)大量的輸入特征變量進(jìn)行刪減;③可以給出變量的重要性估計(jì);④在模型建立過程中可以產(chǎn)生一個(gè)對(duì)一般誤差的無(wú)偏估計(jì),不會(huì)過度估計(jì);⑤可以有效處理缺失數(shù)據(jù)的情況;⑥產(chǎn)生的森林模型易于保存和未來重復(fù)利用;⑦可以擴(kuò)展到無(wú)類別數(shù)據(jù)中,進(jìn)行非監(jiān)督分類。
2. 其他方法
支持向量機(jī)(SVM)由Vapnik V等在1995年首先提出,是建立在統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)模型最小原理基礎(chǔ)上的一種學(xué)習(xí)方法,是從線性可分情況下的最優(yōu)超平面發(fā)展而來的。SVM能夠在有限樣本信息的條件下,在學(xué)習(xí)精度和學(xué)習(xí)效果之間找到最佳平衡[11]。支持向量機(jī)具有小樣本學(xué)習(xí)、抗噪聲性能好、學(xué)習(xí)效率高和適合推廣等優(yōu)點(diǎn),被廣泛用于遙感影像處理領(lǐng)域,一些主要的應(yīng)用如高光譜遙感分類、遙感影像融合、土地利用類型分類等。SVM方法尋找最佳超平面的思路與RF邊緣最大化的思想有一定的相似性。
最大似然法(max likelihood)是一種基于統(tǒng)計(jì)識(shí)別理論的方法[7]。它假定各類分布函數(shù)為正態(tài)分布,用統(tǒng)計(jì)方法根據(jù)貝葉斯判決準(zhǔn)則,選擇訓(xùn)練樣本集,建立非線性判別規(guī)則,計(jì)算各分類樣區(qū)的歸屬概率進(jìn)行分類。該方法樣本較多時(shí)收斂性較好,并且相對(duì)其他方法簡(jiǎn)單、運(yùn)算速度快,是一種廣泛應(yīng)用的遙感分類方法。
本文從北京市“高分一號(hào)”高分辨率遙感影像中選取北京城區(qū)東北部分,覆蓋面積約16 km2,影像接收時(shí)間為2013年5月29日,共5個(gè)波段。多波段影像具有4個(gè)波段,空間分辨率為8 m;全色影像1個(gè)波段,空間分辨率為2 m;研究區(qū)域內(nèi)有建筑、道路、植被、水域和普通地面等。該地區(qū)地勢(shì)比較平整,城市地物目標(biāo)種類豐富。
軟件平臺(tái)使用EnMap-Box結(jié)合ENVI 5.1。EnMap-Box是德國(guó)一款基于ENVI/IDL二次開發(fā)的遙感處理工具箱軟件,集成了許多種機(jī)器學(xué)習(xí)算法,可進(jìn)行數(shù)據(jù)分類、回歸處理及精度評(píng)價(jià)。
1. 數(shù)據(jù)預(yù)處理
本研究利用數(shù)字高程模型(DEM)和控制點(diǎn)數(shù)據(jù)對(duì)影像做了幾何校正。然后,利用HPF(high pass filter)融合方法將全色波段和多光譜波段進(jìn)行圖像融合。該算法能簡(jiǎn)單、快速地將高頻的空間信息與低頻的光譜信息融合,保證圖像能夠兼顧地物的空間和光譜特征[12]。結(jié)合實(shí)地對(duì)比勘測(cè)的數(shù)據(jù),參考常用分類系統(tǒng),將該地區(qū)地物分為5類即建筑用地、道路、水體、植被、裸地。通過對(duì)影像進(jìn)行解譯,所選樣本中不同地物光譜特征具有良好的區(qū)分性,滿足分類要求。
常用的分類特征主要有NDVI、波段反射率等光譜特征,為提高分類精度,研究中還使用了紋理特征,主要包括均值、方差、熵、同質(zhì)性等,這些紋理特征通過計(jì)算灰度共生矩陣獲得。對(duì)所有的特征進(jìn)行內(nèi)部歸一化處理,以排除紋理特征和光譜特征在數(shù)值和類型上的不同所產(chǎn)生的影響。
2. 隨機(jī)森林建模
本試驗(yàn)中訓(xùn)練樣本為42 437個(gè),特征為37個(gè)。經(jīng)過對(duì)結(jié)果的分析比較,隨機(jī)森林分類器參數(shù)max_features取值為6,number_of_trees取值為100時(shí),結(jié)果相對(duì)穩(wěn)定。因此按照分析選擇該參數(shù)組合(6,100)進(jìn)行分類,分類結(jié)果如圖1所示。
從圖中可以看出,最大似然法分類器的分類結(jié)果總體上明顯劣于SVM和RF。SVM和RF的分類結(jié)果總體差別不大,但是各類別之間差別較大,主要是裸地和道路,裸地和建筑用地的區(qū)分方面。
結(jié)合實(shí)地調(diào)查和影像解譯數(shù)據(jù),分別對(duì)3種分類器的分類結(jié)果建立混淆矩陣進(jìn)行精度檢驗(yàn),計(jì)算出3個(gè)分類器的總體分類精度和Kappa系數(shù)見表1。從表1中可以看出,隨機(jī)森林的分類精度和Kappa系數(shù)最高,隨機(jī)森林整體分類效果最好。支持向量機(jī)的分類精度相對(duì)隨機(jī)森林較低,但是僅差1.39%,整體分類結(jié)果也較優(yōu)。最大似然法在3種分類結(jié)果中相對(duì)最差。從表1看出,3種方法對(duì)植被分類較好,用戶精度方面,隨機(jī)森林和支持向量機(jī)甚至達(dá)到100%。但裸地分類精度方面隨機(jī)森林和支持向量機(jī)均比較差,分別只有66.78%和59.14%。雖然最大似然法對(duì)裸地的生產(chǎn)者精度較高達(dá)86.58%,但是用戶精度較低且出現(xiàn)道路和裸地混分現(xiàn)象,這是導(dǎo)致最大似然法的整體分類精度相對(duì)較低的主要原因。3種方法均出現(xiàn)建筑用地、裸地和道路3類不同程度的混分情況。經(jīng)過對(duì)比研究區(qū)的實(shí)際情況,發(fā)現(xiàn)研究區(qū)中裸地和道路相連、相接,同時(shí)裸地與建筑用地相間,容易出現(xiàn)混分現(xiàn)象。
表1 3種方法精度評(píng)價(jià)表 (%)
在分類運(yùn)算速度方面,隨機(jī)森林分類器分類樹設(shè)置為100時(shí),分類時(shí)間為3763 s,最大似然法用時(shí)497 s,支持向量機(jī)時(shí)間最長(zhǎng)為8235 s,約2 h 17 min。最大似然法雖然總體分類精度令兩者有14%~15%的差距,但分類速度是最快的。支持向量機(jī)運(yùn)算速度最慢,耗時(shí)超過2 h。隨機(jī)森林雖然總體精度是最高的但是分類耗時(shí)約為最大似然的7.57倍,比支持向量機(jī)快約1倍。因此整體角度上,隨機(jī)森林分類器相較于支持向量機(jī)和最大似然法分類效果較好。
本文結(jié)果表明相比兩種常用的傳統(tǒng)方法,隨機(jī)森林具有較好的提取精度、較快的分類速度,但是隨機(jī)森林方法提取效果受決策樹個(gè)數(shù)的影響。為保證算法既有較快的運(yùn)算速度又能滿足所需精度,應(yīng)選擇合適的生成樹個(gè)數(shù)。如何根據(jù)應(yīng)用區(qū)域和精度目標(biāo)估算適合的決策樹個(gè)數(shù)、最小分裂條件等模型參數(shù),還需要進(jìn)一步分析與研究。本文結(jié)果也證明了隨機(jī)森林算法在GF-1衛(wèi)星數(shù)據(jù)影像的城市用地分類上具有良好的適用性,這對(duì)于擴(kuò)大高分系列衛(wèi)星數(shù)據(jù)的應(yīng)用具有一定實(shí)際意義。
[1]馮盺,杜世宏,張方利,等.基于多尺度融合的高分辨率影像城市用地分類[J].地理與地理信息科學(xué),2013,29(3):43-47.
[2]NIKUNJ C O, KAGAN T. Classifier Ensembles: Select Realworld Applications[J]. Information Fusion,2008,9(1):1-37.
[3]呂京國(guó).基于神經(jīng)網(wǎng)絡(luò)集成的遙感圖像分類與建模研究[J].測(cè)繪通報(bào),2014(3):17-20.
[4]劉海娟,張婷,侍昊,等.基于RF 模型的高分辨率遙感影像分類評(píng)價(jià)[J].南京林業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,39(1):99-103.
[5]王野.基于資源三號(hào)衛(wèi)星影像的城市綠地信息提取方法探討[J].測(cè)繪工程,2014,23(7):65-67.
[6]BREIMAN L. Random Forests [J]. Machine Learning,2001,45(1):5-32.
[7]王棟,岳彩榮,田傳召,等.基于隨機(jī)森林的大姚縣TM遙感影像分類研究[J].林業(yè)調(diào)查規(guī)劃, 2014,4(39):1-5.
[8]雷震.隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D].上海:上海交通大學(xué),2012.
[9]劉毅,杜培軍,鄭輝,等.基于隨機(jī)森林的國(guó)產(chǎn)小衛(wèi)星遙感影像分類研究[J].測(cè)繪科學(xué),2012,37(4):194-196.
[10]李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報(bào),2013,50(4):1190-1197.
[11]張錦水,何春陽(yáng),潘耀忠,等.基于SVM的多源信息復(fù)合的高空間分辨率遙感數(shù)據(jù)分類研究[J].遙感學(xué)報(bào),2006,10(1):49-57.
[12]鄭著彬,李俊,任靜麗.HPF圖像融合技術(shù)在大理市遙感影像中的運(yùn)用探討[J].云南地理環(huán)境研究,2007,19(6):96-98.
Classification of GF-1 Remote Sensing Image Based on Random Forests for Urban Land-use
GUO Yubao,CHI Tianhe,PENG Ling,LIU Jilei,YANG Lina
10.13474/j.cnki.11-2246.2016.0159.
2015-04-13
國(guó)家自然科學(xué)基金青年科學(xué)基金(41201397)
郭玉寶(1989—),男,碩士,主要研究方向?yàn)檫b感在智慧城市中的應(yīng)用。E-mail:17022793@qq.com
P23
B
0494-0911(2016)05-0073-04
引文格式: 郭玉寶,池天河,彭玲,等. 利用隨機(jī)森林的高分一號(hào)遙感數(shù)據(jù)進(jìn)行城市用地分類[J].測(cè)繪通報(bào),2016(5):73-76.