張丹璐, 呂京國(guó), 成 喆, 白穎奇
(北京建筑大學(xué) 測(cè)繪與城市空間信息學(xué)院, 北京 100044)
隨著遙感技術(shù)的不斷進(jìn)步,可以獲取的遙感影像的時(shí)間分辨率、空間分辨率、光譜分辨率和輻射分辨率也越來(lái)越高. 在空間分辨率較高的遙感影像上,地物的光譜特征更加豐富,同類地物內(nèi)的光譜差異增大,不同地物間的光譜差異減少,同物異譜及同譜異物現(xiàn)象更加普遍[1-3]. 因此,高空間分辨率遙感影像分類的要求也越來(lái)越高.
對(duì)于高空間分辨率的遙感影像的分類,傳統(tǒng)的基于像素的分類方法通常會(huì)產(chǎn)生“椒鹽現(xiàn)象”,所以一般采用的是面向?qū)ο蟮倪b感影像分類方法. 使用面向?qū)ο蟮倪b感影像分類方法進(jìn)行分類時(shí),除了要考慮影像分割方法、特征提取與特征選擇,分類器的選擇也很重要[4-5]. 針對(duì)高分遙感影像,不同分類器的分類結(jié)果差異較大. 許多學(xué)者也對(duì)高分遙感影像的分類方法做了一系列的研究. 趙丹平等[6]面向地理國(guó)情普查中的地表覆蓋分類應(yīng)用,以 3個(gè)典型區(qū)域(山區(qū)、平原、城區(qū))的多源高分辨率遙感影像為實(shí)驗(yàn)數(shù)據(jù),從分類效果、分類精度等方面對(duì)比分析支持向量機(jī)、決策樹(shù)、隨機(jī)森林3種分類方法的優(yōu)劣. 刁彥華等[7]以高校地區(qū)高分影像分類為例,研究了基于SVM的高分遙感分類方法,實(shí)驗(yàn)結(jié)果表明了SVM方法的有效性. 顧海燕等[8]提出了基于隨機(jī)森林的地理要素面向?qū)ο笞詣?dòng)解譯方法,通過(guò)與支持向量機(jī)分類的對(duì)比實(shí)驗(yàn)證明該方法可以自動(dòng)進(jìn)行特征優(yōu)選及分類模型的構(gòu)建.
本文針對(duì)城市地區(qū)高空間分辨率遙感影像,選取了兩種不同數(shù)據(jù)源的高分城區(qū)遙感數(shù)據(jù),先進(jìn)行多尺度分割、特征提取和特征選擇,再通過(guò)5種分類方法對(duì)遙感影像進(jìn)行分類,并對(duì)比分析不同分類方法的分類結(jié)果及精度. 本文實(shí)驗(yàn)流程如圖1所示. 研究結(jié)果為城區(qū)高分遙感影像的分類提供了一定的參考.
研究中利用BF+CFS進(jìn)行特征選擇,選出最優(yōu)的特征子集,用于影像分類. BF+CFS特征選擇方法是以最佳優(yōu)先搜索(Bestfirst,BF)為尋優(yōu)方法、以特征關(guān)聯(lián)法(Correlation based Feature Selection,CFS)作為適應(yīng)度函數(shù)進(jìn)行最優(yōu)特征子集的選擇[9].
其中,最佳優(yōu)先搜索是一種啟發(fā)式搜索算法,它在廣度優(yōu)先搜索的基礎(chǔ)之上,用啟發(fā)估價(jià)函數(shù)對(duì)將要被遍歷到的點(diǎn)進(jìn)行估價(jià),然后選擇代價(jià)小的進(jìn)行遍歷,直到找到目標(biāo)節(jié)點(diǎn)或者遍歷完所有點(diǎn).
特征關(guān)聯(lián)法是一種基于相關(guān)性的特征子集評(píng)價(jià)方法,計(jì)算各子集中每個(gè)特征與類特征的關(guān)聯(lián)度及特征之間的冗余度,關(guān)聯(lián)度越大、冗余度越小,則評(píng)價(jià)值越高.
研究中使用以下5種分類方法.
K最近鄰(K-Nearest Neighbor,KNN)分類算法,是用基于特征空間中最近的訓(xùn)練數(shù)據(jù)對(duì)待分類對(duì)象進(jìn)行分類的方法,是一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一[10-11].
貝葉斯(Bayes)分類器是一種簡(jiǎn)單的概率分類器,它基于貝葉斯定理,具有很強(qiáng)的獨(dú)立性[12-13].
支持向量機(jī)(Support Vector Machine,SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法[14-15]. 它通過(guò)解算最優(yōu)化問(wèn)題,在高維特征空間中尋找最優(yōu)分類超平面,從而解決復(fù)雜數(shù)據(jù)的分類及回歸問(wèn)題.
決策樹(shù)(Decision Tree,DT)是一類相對(duì)比較簡(jiǎn)單的分類技術(shù),它的決策依賴于一個(gè)由問(wèn)題和答案構(gòu)成的樹(shù)[16-17].
隨機(jī)森林(Random Forest,RF)是一種基于分治法原理的集成學(xué)習(xí)策略,是若干決策樹(shù)集成的分類器,相較于決策樹(shù)其更加穩(wěn)健,泛化性能更好[18-21].
實(shí)驗(yàn)選取了兩種不同數(shù)據(jù)源、不同分辨率的城區(qū)高空間分辨率遙感影像進(jìn)行了實(shí)驗(yàn).
數(shù)據(jù)一為城市地區(qū)WorldView- 2高空間分辨率多光譜遙感影像,影像包含紅、綠、藍(lán)、近紅外四個(gè)波段. 影像成像時(shí)間為2013年9月21日,它的地面分辨率為1.8 m. 影像區(qū)域?yàn)楸本┦形鞒菂^(qū).
數(shù)據(jù)二是城市地區(qū)資源三號(hào)高空間分辨率多光譜影像,影像包含紅、綠、藍(lán)、近紅外四個(gè)波段. 影像成像時(shí)間為2015年7月24日,地面分辨率為5.8 m. 影像區(qū)域?yàn)閷幭幕刈遄灾螀^(qū)銀川市.
由于篇幅限制,下面的實(shí)驗(yàn)過(guò)程只介紹數(shù)據(jù)一中WorldView- 2遙感影像數(shù)據(jù)的具體實(shí)驗(yàn)情況.
2.2.1 影像分割
在實(shí)驗(yàn)中,使用eCognition軟件、采用多尺度分割的分割方式對(duì)遙感影像進(jìn)行分割. 由于分割尺度對(duì)分割結(jié)果影響最大,主要對(duì)分割尺度的選取進(jìn)行多次實(shí)驗(yàn)并對(duì)比分割結(jié)果. 對(duì)于其他參數(shù),根據(jù)實(shí)驗(yàn)篩選,將光譜因子的權(quán)重設(shè)置為0.9,形狀因子的權(quán)重0.1,平滑度因子和緊致度因子權(quán)重分別為0.5,各波段權(quán)重都為1. 對(duì)于分割尺度,分別設(shè)置了不同的分割尺度進(jìn)行反復(fù)實(shí)驗(yàn),經(jīng)過(guò)對(duì)比篩選,選取120作為后續(xù)實(shí)驗(yàn)的分割尺度.
2.2.2 樣本選擇
針對(duì)所選城市地區(qū)影像地物分布特點(diǎn),將影像劃分為5類地物,分別是建筑物、道路、水體、植被和裸地. 從中選取了各類地物的分類樣本.
2.2.3 特征提取
實(shí)驗(yàn)中利用eCognition軟件計(jì)算分割后的影像對(duì)象的光譜、形狀、紋理等特征,根據(jù)知識(shí)經(jīng)驗(yàn)提取了54個(gè)特征,包括光譜均值、亮度、標(biāo)準(zhǔn)差、周長(zhǎng)、面積、形狀指數(shù)、對(duì)比度、歸一化植被指數(shù)(NDVI)等,見(jiàn)表1,構(gòu)成初始特征空間. 這56個(gè)特征提供了對(duì)地物的廣泛理解.
2.2.4 特征選擇
經(jīng)過(guò)BF+CFS特征選擇之后,得到16個(gè)特征,作為最優(yōu)特征子集,用于分類.
這16個(gè)特征分別為:GLCM相關(guān)(quick 8/11)、緊致度、GLCM熵、GLCM角二階矩、藍(lán)波段光譜均值、紅波段光譜均值、近紅波段光譜均值、藍(lán)波段標(biāo)準(zhǔn)差、GLCM標(biāo)準(zhǔn)差(quick 8/11)、GLDV相異性、長(zhǎng)度、最大化差異度量、GLCM標(biāo)準(zhǔn)差、密度、NDVI、NDWI.
2.2.5 分類器參數(shù)設(shè)置
K最近鄰:經(jīng)過(guò)多次實(shí)驗(yàn),將k值設(shè)置為2.
貝葉斯:此分類器無(wú)參數(shù)設(shè)置.
支持向量機(jī):經(jīng)過(guò)多次實(shí)驗(yàn),將懲罰系數(shù)C設(shè)置為2,核函數(shù)類型設(shè)置為線性的.
決策樹(shù):實(shí)驗(yàn)中采用的是CART算法,經(jīng)過(guò)多次實(shí)驗(yàn),將深度設(shè)置為0,最小樣本數(shù)設(shè)置為3,交叉驗(yàn)證數(shù)設(shè)置為3,最大類別數(shù)設(shè)置為16.
隨機(jī)森林:經(jīng)過(guò)多次實(shí)驗(yàn),將深度設(shè)置為0,最小樣本數(shù)設(shè)置為3,最大類別數(shù)設(shè)置為16,森林中樹(shù)的最大數(shù)設(shè)置為50,訓(xùn)練誤差設(shè)置為0.01.
2.2.6 分類
分別使用K最近鄰、貝葉斯、支持向量機(jī)、決策樹(shù)、隨機(jī)森林等5種分類器對(duì)影像進(jìn)行分類,分類結(jié)果如圖2所示,分類精度見(jiàn)表2,分類所用時(shí)長(zhǎng)見(jiàn)表3.
2.3.1 分類結(jié)果分析
從目視結(jié)果來(lái)看,5種方法都得到了較好的分類結(jié)果. 其中,隨機(jī)森林的分類效果最好,決策樹(shù)和貝葉斯分類結(jié)果次之,K最鄰近和支持向量機(jī)的分類結(jié)果相對(duì)較差.
從精度評(píng)價(jià)結(jié)果來(lái)看,除了支持向量機(jī)之外的4種方法都取得了較好的分類精度,而支持向量機(jī)的分類精度則相對(duì)較差. 其中,隨機(jī)森林的分類精度最高,達(dá)到了98%,而貝葉斯分類和決策樹(shù)分類的精度次之,也都在90%以上;K最鄰近和支持向量機(jī)的分類精度較差,都在90%以下.
表1 提取的特征表Tab.1 The table of extracted feature
表2 不同分類器的分類結(jié)果精度對(duì)比
Tab.2 Comparison of classification accuracy of different classifiers
類別KNNBayesSVMDTRF生產(chǎn)精度/%用戶精度/%生產(chǎn)精度/%用戶精度/%生產(chǎn)精度/%用戶精度/%生產(chǎn)精度/%用戶精度/%生產(chǎn)精度/%用戶精度/%建筑物85.4585.4581.8110077.2777.9889.110096.3699.07道路87.1090.0010088.5787.1084.3890.3296.5510093.94水體80.0096.9710095.2472.5096.6797.590.710097.56植被93.4487.6998.3693.7593.4483.8296.7293.6598.36100裸地76.9258.8210010038.4631.2510059.110092.85總體精度/%86.2796.0879.6092.9498.04Kappa系數(shù)0.80800.94580.710.90340.9727
表3 不同分類器的分類所用時(shí)長(zhǎng)對(duì)比Tab.3 Comparison of the length of time used for classification of different classifiers
從分類時(shí)間上來(lái)看,5種分類器的訓(xùn)練分類器時(shí)間和分類時(shí)間都相差不多,訓(xùn)練分類器時(shí)間都在30 s左右,而分類時(shí)間都在150 s左右. 其中,貝葉斯分類所用時(shí)間最短,而隨機(jī)森林所用時(shí)間最長(zhǎng),最短時(shí)間和最長(zhǎng)時(shí)間相差不超過(guò)5 s.
現(xiàn)針對(duì)每一種分類方法得到的分類結(jié)果進(jìn)行具體分析,如下:
K最近鄰:從上述分類結(jié)果圖可以看出,KNN分類方法有部分建筑物被錯(cuò)分為水體,道路和建筑物也有一定的錯(cuò)分,植被的分類結(jié)果最好. 從分類精度表來(lái)看,KNN的分類精度相比于其他方法而言,精度不高.
貝葉斯分類:從圖表可以看出貝葉斯分類的分類結(jié)果無(wú)論從目視效果方面還是分類精度、分類時(shí)間上來(lái)看,結(jié)果都相對(duì)較好. 就分類過(guò)程而言,此分類方法不需要調(diào)試參數(shù),分類過(guò)程比較簡(jiǎn)單. 因此,這一方法分類不僅比較簡(jiǎn)單,分類精度和效果也較好,比較適合實(shí)際的遙感分類生產(chǎn)應(yīng)用.
支持向量機(jī):就結(jié)果而言,支持向量機(jī)的分類結(jié)果最差. 從分類結(jié)果圖來(lái)看,各地物錯(cuò)分比較嚴(yán)重,尤其是較多建筑物被錯(cuò)分為水體、道路和裸地,導(dǎo)致建筑物在分類結(jié)果中占的比例小了很多,不符合城區(qū)遙感影像的地物分布特點(diǎn). 此外,由于城市地區(qū)建筑物較多,且建筑物較高,因此高分遙感影像中建筑物形成的陰影較多,導(dǎo)致遙感影像中的建筑物的陰影容易被錯(cuò)分為水體、道路等地物. 所以此分類方法不太適用于城市地區(qū)的遙感影像分類.
決策樹(shù):從圖表的結(jié)果來(lái)看,決策樹(shù)分類中水體、裸地和建筑物也有部分錯(cuò)分,其中裸地的錯(cuò)分程度較高,而道路和植被的分類結(jié)果較好. 此方法和隨機(jī)森林類似,要設(shè)置的參數(shù)較多,但相比隨機(jī)森林而言,分類結(jié)果的各方面都不如隨機(jī)森林.
隨機(jī)森林:從結(jié)果來(lái)看,隨機(jī)森林分類這一方法對(duì)高分遙感影像的分類結(jié)果最為準(zhǔn)確. 不僅各類地物的分類結(jié)果都比較準(zhǔn)確,錯(cuò)分、漏分少,而且分類精度高. 但這一分類器分類時(shí)需要設(shè)置的參數(shù)較多,選取合適的參數(shù)需要經(jīng)過(guò)多次實(shí)驗(yàn)對(duì)比,相對(duì)而言分類過(guò)程工作量多一些,因此對(duì)于實(shí)際生產(chǎn)應(yīng)用的適用性不高.
2.3.2 特征數(shù)對(duì)分類結(jié)果的影響
為了研究特征數(shù)量對(duì)不同分類器的分類結(jié)果的影響程度,研究中做了補(bǔ)充實(shí)驗(yàn). 實(shí)驗(yàn)中選取了56個(gè)特征,按照特征的重要性進(jìn)行排序,使用前6,11,16,21,26,31,36,41,46,51個(gè)特征分別進(jìn)行分類,得到不同分類器的分類結(jié)果精度變化如圖3所示.
隨著特征數(shù)的增加,5種分類器的總體分類精度都呈現(xiàn)先升高后降低,最后趨于平衡的趨勢(shì),并且分類特征數(shù)越多,分類所用時(shí)間越長(zhǎng). 其中,特征數(shù)為16,即特征選擇選出來(lái)的特征數(shù)時(shí),各分類器的分類精度最高. 相對(duì)而言,隨機(jī)森林和K最鄰近對(duì)于特征數(shù)量變化而導(dǎo)致的分類精度的變化不明顯,而支持向量機(jī)受分類特征數(shù)量變化的影響較大,說(shuō)明這一分類方法對(duì)特征數(shù)要求較高.
2.3.3 數(shù)據(jù)源對(duì)分類結(jié)果的影響
針對(duì)不同數(shù)據(jù)源的高分遙感城市地區(qū)影像,其各自的多種分類器分類結(jié)果精度見(jiàn)表4.
表4 不同傳感器遙感數(shù)據(jù)的分類精度對(duì)比Tab.4 Comparison of classification accuracy of remote sensing data of different sensors %
由實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),不同數(shù)據(jù)源的遙感影像對(duì)各分類器的分類結(jié)果的影響差別不大. 其原因可能在于以下兩方面:一方面從空間分辨率來(lái)說(shuō),高分遙感影像的共性在于純像元所占比例很大,降低了混合像元對(duì)分類結(jié)果的影響,多是一個(gè)像元對(duì)應(yīng)一個(gè)單一類別(即像元純度高);另外一方面從傳感器的成像特點(diǎn)來(lái)說(shuō),分類器的分類過(guò)程與成像差異性的關(guān)系不大,都是光學(xué)影像的通用影像特征,與成像方式、軌道高度、回訪周期、掃描寬度等無(wú)關(guān),即對(duì)傳感器之間的差異性不敏感,因而不同數(shù)據(jù)源的高分影像對(duì)實(shí)驗(yàn)結(jié)果的影響也不大.
高分遙感數(shù)據(jù)的整個(gè)分類過(guò)程的每一個(gè)步驟都影響著分類結(jié)果的精度,包括影像分割、樣本選擇、特征選擇、分類器選擇等,實(shí)驗(yàn)表明高分遙感影像的分類精度受分類特征和分類器的影響較大. 其中,光譜特征、形狀特征和紋理特征都能較好地表達(dá)高分遙感數(shù)據(jù)的特點(diǎn),可以用于區(qū)分城市地區(qū)典型地物的類型. 而不同分類器對(duì)分類結(jié)果的影響最大,所以在分類過(guò)程中分類器的選擇至關(guān)重要.
實(shí)驗(yàn)結(jié)果表明,K最鄰近和支持向量機(jī)對(duì)于高分城區(qū)遙感數(shù)據(jù)的分類性能較差,可能是受樣本選擇和特征選擇的影響,導(dǎo)致分類結(jié)果較差,也說(shuō)明這兩種分類器穩(wěn)定性不高. 而在分類精度較高的3個(gè)分類器中,與貝葉斯、決策樹(shù)相比,隨機(jī)森林一方面不易于陷入過(guò)擬合,減少了特征冗余對(duì)于分類精度的干擾,另一方面,多棵樹(shù)的投票機(jī)制,增加了分類的穩(wěn)定性,分類魯棒性較高,使得其分類精度也相對(duì)較高且較穩(wěn)定. 此外,貝葉斯分類器算法過(guò)程較簡(jiǎn)單,但使用時(shí)相對(duì)隨機(jī)森林而言更易受特征數(shù)影響、不夠穩(wěn)定,決策樹(shù)的分類性能在結(jié)果上表現(xiàn)不如隨機(jī)森林.
高分遙感影像中,光譜特征、紋理特征、形狀特征等都屬于分類特征,可以作為分類的判斷依據(jù)和標(biāo)準(zhǔn)進(jìn)行分類. 但研究表明,并不是特征信息越多越好,過(guò)多的特征信息會(huì)造成“維數(shù)災(zāi)難”. 分類精度會(huì)隨著特征維數(shù)的增加先增加后減小,而特征冗余度會(huì)隨著特征維數(shù)增加而增加. 對(duì)于特征選擇問(wèn)題的研究,可以有效提高遙感分類精度和效率. 高分遙感圖像分辨率高,所以特征信息較多,導(dǎo)致它的特征空間維數(shù)也高,冗余度也高,進(jìn)行分類時(shí)運(yùn)算時(shí)間長(zhǎng). 在相同訓(xùn)練樣本和分類器的條件下,高分遙感影像的分類精度會(huì)隨著特征維數(shù)的增大而呈現(xiàn)先增后減的趨勢(shì),分類器的泛化能力也會(huì)隨之變?nèi)? 此外,能夠用于分類的特征很多,不僅有不同波段的光譜值,還可以進(jìn)行形狀指數(shù)、紋理特征、植被指數(shù)等派生特征的計(jì)算. 因此,在特征信息豐富的情況下,選擇哪些特征就變得非常重要.
本文通過(guò)K最近鄰、貝葉斯、支持向量機(jī)、決策樹(shù)、隨機(jī)森林等5種不同分類器實(shí)現(xiàn)了對(duì)不同數(shù)據(jù)源的高分遙感城市地區(qū)影像的分類. 實(shí)驗(yàn)結(jié)果表明,貝葉斯、決策樹(shù)和隨機(jī)森林分類對(duì)城區(qū)高分影像的分類精度較高,而K最近鄰和支持向量機(jī)在分類實(shí)驗(yàn)中表現(xiàn)相對(duì)較差. 其中,K最鄰近和支持向量機(jī)易受樣本選擇和特征選擇的影響,分類結(jié)果較差;決策樹(shù)分類性能不如隨機(jī)森林分類;隨機(jī)森林分類方法的分類結(jié)果最準(zhǔn)確,但參數(shù)的選擇設(shè)置較復(fù)雜,對(duì)于實(shí)際生產(chǎn)應(yīng)用的適用性不高;而貝葉斯分類操作簡(jiǎn)單、分類精度也較高,更適用于城區(qū)高分遙感數(shù)據(jù)的生產(chǎn)應(yīng)用. 研究結(jié)果為城區(qū)高分遙感影像的分類提供了一定的參考,但對(duì)于具體分類任務(wù),還需根據(jù)實(shí)際分析選擇合適的分類器,充分發(fā)揮分類器的優(yōu)勢(shì).