陳鑫亞,楊昆,王加勝
(1.云南師范大學(xué)信息學(xué)院;2.云南師范大學(xué)地理學(xué)部;3.西部資源環(huán)境地理信息技術(shù)教育部工程研究中心,云南昆明 650500)
山區(qū)城鎮(zhèn)化最顯著的特征是大量不透水面取代了以植被為主的自然地表。不透水面是指道路、停車場等人工地表,不透水面能夠阻止地表水下滲,從而破壞了地表能量平衡和生物多樣性,容易導(dǎo)致洪澇災(zāi)害、熱島效應(yīng)等問題。城鎮(zhèn)化對山區(qū)生態(tài)環(huán)境的影響尤為顯著,因此快速、準(zhǔn)確地提取山區(qū)不透水面,可為優(yōu)化山區(qū)發(fā)展規(guī)劃、加強(qiáng)環(huán)境保護(hù)與治理提供決策支持。
遙感影像因其具有成本低、覆蓋范圍廣等優(yōu)點成為快速不透水面制圖的重要數(shù)據(jù)來源。由于山區(qū)地物交錯分布,低分辨率影像受空間分辨率和地物異質(zhì)性的影響,混合像元占比較高。分辨率高的影像中的混合像元較少,Sentinel-2影像是目前免費的分辨率最高的光學(xué)影像,常被用于不同地物的遙感提取。受山區(qū)云雨天氣的影響,光學(xué)影像的云量較高。同時,不透水面與裸土等地物容易出現(xiàn)光譜混淆的情況。因此,僅使用光學(xué)影像無法準(zhǔn)確提取不透水面。有研究表明,融合Sentinel-2等光學(xué)影像和Sentinel-1合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)影像等多源數(shù)據(jù)可以提高分類精度。
多源數(shù)據(jù)融合容易導(dǎo)致特征冗余,特征優(yōu)選能夠降低特征維度,提高分類性能。JM距離、隨機(jī)森林(RF)和ReliefF算法是目前最為常用的3種優(yōu)選方法。例如,文獻(xiàn)[11]篩選出JM值處于一定范圍的特征用于不同分類算法,以提取江蘇夏收作物;文獻(xiàn)[12]結(jié)合JM距離和RF算法對三七種植區(qū)進(jìn)行遙感監(jiān)測;文獻(xiàn)[13]基于RF的袋外數(shù)據(jù)誤差評估特征重要性,將特征從28個降至13個,以提取湖北洪湖濕地信息;文獻(xiàn)[14]采用RF的平均不純度減少衡量特征重要性后,對中南半島進(jìn)行了土地覆蓋分類;文獻(xiàn)[15]結(jié)合ReliefF算法和信息熵改進(jìn)分離閾值算法進(jìn)行特征優(yōu)選,對華北平原地區(qū)作物進(jìn)行分類;文獻(xiàn)[16]使用基于ReliefF與粒子群優(yōu)化算法的混合特征選擇法用于土地分類,總體精度為85.88%。
目前,許多研究傾向于使用一種特征優(yōu)選方法進(jìn)行特征降維,并未對比不同優(yōu)選方法在具體應(yīng)用中的優(yōu)劣和有效性。此外,大多數(shù)相關(guān)研究主要針對平原地區(qū),特征優(yōu)選方法在山區(qū)不透水面提取中的應(yīng)用能力有待驗證。為此,本文基于谷歌地球云計算平臺(Google Earth Engine,GEE),以典型山地城市昆明市為例,比較了3種常用特征優(yōu)選方法在不透水面提取中的有效性,并基于最優(yōu)特征子集提取了昆明市2020年的不透水面。
昆明市(見圖1)位于云南省中部,屬低緯亞熱帶高原季風(fēng)氣候,全年干濕分明。地勢由北向南呈階梯狀降低,大部分地區(qū)為海拔在1 500~2 800m之間的山區(qū)或半山區(qū)。云南省地處中國西南邊境,與南亞、東南亞多國鄰接,作為云南省的政治經(jīng)濟(jì)文化中心,昆明市城鎮(zhèn)化水平發(fā)展迅速。
Fig.1 Overview of the study area圖1 研究區(qū)概況
(1)Sentinel-2 MSI數(shù)據(jù)。Sentinel-2攜帶多光譜成像儀(MultiSpectral Instrument,MSI),最高分辨率為10m。使用GEE上2020年Level-1C級別的影像共360景,數(shù)據(jù)已經(jīng)過輻射校正和幾何校正。篩選出云量低于10%的影像,并用具有云掩膜信息的QA60波段去云。為減少植被物候因素對分類的影響,將影像按歸一化差異植被指數(shù)的最大值進(jìn)行合成,并按研究區(qū)范圍剪裁影像。
(2)Sentinel-1 SAR數(shù)據(jù)。Sentinel-1提供的合成孔徑雷達(dá)數(shù)據(jù)最高分辨率為10m。為減少山區(qū)陰影和疊掩的影響,收集了2020年雙軌道、雙極化(VV+VH)和IW工作模式的影像共323景。影像都進(jìn)行了熱噪聲去除、輻射校準(zhǔn)和地形校正。將所有影像按均值進(jìn)行合成,并按研究區(qū)范圍進(jìn)行剪裁。
(3)DEM數(shù)據(jù)。使用GEE上用于完成航天飛機(jī)雷達(dá)地形測繪任務(wù)的數(shù)字高程模型(Digital Eevation Model,DEM),數(shù)據(jù)分辨率為30m,將其按研究區(qū)范圍進(jìn)行裁剪。使用GEE的ee.Algorithms.Terrain(input)函數(shù)計算出海拔、坡度、坡向作為地形特征。
(4)樣本數(shù)據(jù)。使用Google Earth進(jìn)行線上樣本采集。首先通過分層隨機(jī)采樣生成2 000個隨機(jī)均勻分布的樣本點,再基于Google Earth上2020年的影像,通過目視解譯將樣本標(biāo)記為透水面和不透水面兩類。透水面包括植被、水體和裸土,分別得到透水面和不透水面樣本1 748與252個。
(5)土地覆蓋分類數(shù)據(jù)。目前可免費獲取的基于其他方法的土地覆蓋數(shù)據(jù)有限,因此收集了2020年30m分辨率的全球地表覆蓋數(shù)據(jù)集(GLC30)、2018年30m的全球人工不透水面數(shù)據(jù)集(GAIA)和2017年10m的全球土地覆蓋觀測與監(jiān)測數(shù)據(jù)集(FROM-GLC10)用于結(jié)果精度驗證,并將產(chǎn)品重分類為透水面和不透水面兩類。
本文基于GEE平臺,首先獲取并對遙感數(shù)據(jù)進(jìn)行預(yù)處理,完成光譜、光譜紋理、地形及SAR紋理特征構(gòu)建;然后,分別基于JM距離、RF模型、ReliefF算法優(yōu)選出3組特征子集,評價不同特征子集的分類精度;最后,基于最佳的特征優(yōu)選方法與RF分類算法提取昆明市2020年的不透水面分布信息。
(1)光譜特征。通過Sentinel-2影像提取的光譜特征包括藍(lán)波段(Blue)、綠波段(Green)、紅波段(Red)、近紅外波段(NIR)、短波紅外(SWIR1、SWIR2)以及歸一化差異建筑指數(shù)(NDBI)、改進(jìn)的歸一化差異水體指數(shù)(MNDWI)、歸一化差異植被指數(shù)(NDVI)和裸土指數(shù)(BSI)。
(2)光譜紋理特征。紋理特征能夠反映地物大小形態(tài)、疏密程度和規(guī)整程度。鑒于不透水面在短波紅外波段中具有較高反射率,基于灰度共生矩陣對Sentinel-2影像的B12波段計算紋理特征。使用GEE函數(shù)glcmTexture()得到常用的5個紋理特征:角二階矩(B12_ASM)、對比度(B12_Contrast)、逆差矩(B12_IDM)、熵(B12_ENT)和方差(B12_VAR)。
(3)地形特征。地形因素通常限制著山區(qū)城市的分布與擴(kuò)張。因此,采用由DEM數(shù)據(jù)計算得到的海拔(ELEVATION)、坡度(SLOPE)和坡向(ASPECT)3個地形特征分量參與特征集構(gòu)建。
(4)SAR紋理特征。相關(guān)研究表明,SAR的紋理特征相比光譜紋理特征具有更豐富的紋理信息。本文通過glcmTexture()函數(shù)計算得到VV和VH極化方式的常用紋理特征:VV_asm、VV_contrast、VV_idm、VV_ent、VV_var、VH_asm、VH_contrast、VH_idm、VH_ent、VH_var。
特征選擇即將高維空間的特征通過映射或變換方法轉(zhuǎn)換到低維空間,剔除冗余和不相關(guān)特征。特征選擇的原則是在不顯著降低分類精度、不影響類分布的前提下優(yōu)選出盡可能小且穩(wěn)定的特征子集。本文構(gòu)建了4類特征:光譜特征10個,光譜紋理特征5個,地形特征3個,SAR紋理特征10個,共28個原始特征。若不進(jìn)行優(yōu)選,冗余特征將會影響分類性能。
2.2.1 基于JM距離的特征優(yōu)選
JM距離(Jeffries-Matusita distance)是反映類間可分性的重要指標(biāo)。在特征正態(tài)分布的前提下,計算類間樣本的JM距離可衡量不同類別基于某一特征的可分離性。對于類別i
和類別j
,其JM值的計算方法見式(1)和式(2)。2.2.2 基于RF模型的特征優(yōu)選
隨機(jī)森林(Random Forest,RF)是集成多棵決策樹的學(xué)習(xí)算法,每棵決策樹通過隨機(jī)選取樣本和特征獨立生成。決策樹節(jié)點在分裂時,由最優(yōu)分裂特征得到的子節(jié)點樣本在理想狀態(tài)下屬于同一類。利用基尼指數(shù)(Gini index)衡量樣本集合的不純度,Gini index越小,樣本的錯分概率越小?;赗F模型的特征優(yōu)選通過對比特征在決策樹上的平均貢獻(xiàn)率來評估特征重要性,通常使用Gini index或袋外數(shù)據(jù)錯誤率作為衡量標(biāo)準(zhǔn)。本文基于Gini index進(jìn)行評估,并將所有特征貢獻(xiàn)率的均值作為閾值,優(yōu)選出貢獻(xiàn)率大于均值的特征用于分類。
2.2.3 基于ReliefF算法的特征優(yōu)選
ReliefF特征優(yōu)化算法能夠解決分類及回歸問題,算法效率高且不限制數(shù)據(jù)類型,為較常用的特征選擇方法之一。ReliefF算法每次從訓(xùn)練樣本集中隨機(jī)取出一個樣本x
,并從與x
同類的樣本集中找出x
的k個近鄰樣本,從與x
不同類的樣本集中找出k個近鄰樣本,然后更新每個特征權(quán)重,重復(fù)m次。特征權(quán)重計算方法見式(3)。Diff
()表示樣本在特征f
上的距離,H
(x
)、M
(x
)分別為與x
同類和非同類的最鄰近樣本,p
(x
)表示類別x
的概率,m
為迭代次數(shù),k
為最近鄰樣本個數(shù)。特征權(quán)重越大,表示該特征對樣本的區(qū)分效果越好。本文將所有特征權(quán)重均值作為閾值選擇最優(yōu)特征子集。本文運用RF分類算法提取不透水面。RF是對多棵決策樹投票結(jié)果進(jìn)行集成的分類器,采用bootstrap抽樣策略選取訓(xùn)練樣本用于生成決策樹,具有分類精度較高、不易出現(xiàn)過擬合等優(yōu)點,較少受噪聲和特征選擇的影響,適用于多類別與多特征分類。決策樹數(shù)量和特征選取個數(shù)是RF建立的關(guān)鍵參數(shù),通過以50為間隔調(diào)整參數(shù)的方法,選取分類精度最高的決策樹數(shù)量。通過多次實驗,將決策樹數(shù)量設(shè)置為200,特征個數(shù)設(shè)置為特征維數(shù)的平方根。
通過構(gòu)建混淆矩陣可對基于不同優(yōu)選方法的分類結(jié)果進(jìn)行精度評價,具體評價指標(biāo)有生產(chǎn)者精度(Producer′s Accuracy,PA)、用戶精度(User′s Accuracy,UA)、總體精度(Overall Accuracy,OA)和Kappa系數(shù)。其中,OA和Kappa系數(shù)可反映總體分類精度,PA、UA用來衡量不透水面的錯分和漏分誤差。運用交叉驗證方法,隨機(jī)選取約7/10的樣本用于模型訓(xùn)練,約3/10的樣本作為測試樣本用于精度驗證。對每個特征子集進(jìn)行10次精度驗證,并對10次驗證結(jié)果求平均值。
3.1.1 基于JM距離的特征優(yōu)選結(jié)果
計算出單個特征的JM距離以及同類特征JM距離的均值,并將同類特征中JM距離低于均值的特征剔除,完成同類特征優(yōu)選(見表1),再將優(yōu)化后的不同類特征進(jìn)行組合,計算JM距離(見表2)。
Table1 Features of the same category and their JM distance after optimization表1 優(yōu)選后的同類特征及其JM距離
Table 2 JM distance of combinations of features belong to different categories表2 不同類特征組合的JM距離
由表1可知,對同類特征進(jìn)行優(yōu)選后,共減少了13個特征。表2表明將不同類特征進(jìn)行組合能增大JM距離,紋理特征的貢獻(xiàn)率較高。其中,S+T+ST和S+T+ST+D的JM距離最大。由于S+T+ST特征數(shù)量更少,因此選擇Blue、Green、Red、SWIR2、NDVI、BSI、B12_asm、B12_contrast、B12_var、VV_asm、VV_var、VH_contrast、VH_var共13個特征用于構(gòu)建特征子集。
3.1.2 基于RF模型的特征優(yōu)選結(jié)果
基于RF模型的特征重要性如圖2所示,計算出特征重要性均值為0.035 7。其中,B12_idm、B12_asm、B12_ent、B12_contrast、VV_contrast、BSI、NDVI、Blue的貢獻(xiàn)率超過3%;Red、NDBI、SLOPE、VV_idm、VV_ent、VV_asm和VH_contrast的貢獻(xiàn)率在2.5~3%之間,表明紋理特征的貢獻(xiàn)率最高,且VV紋理特征貢獻(xiàn)率高于VH紋理特征。貢獻(xiàn)率高于均值的特征包括Blue、NDVI、BSI、B12_asm、B12_contrast、B12_ent、B12_idm、VV_contrast共8個特征,用于構(gòu)建特征子集。
Fig.2 Feature contribution rate based on RF model圖2 基于RF模型的特征貢獻(xiàn)率
3.1.3 基于ReliefF算法的特征優(yōu)選結(jié)果
基于ReliefF算法的特征權(quán)重如圖3所示,特征權(quán)重的均值為0.017。NDVI、NDBI、BSI、B12_ent、B12_idm的權(quán)重超過3%,Blue、VV_ent、VV_idm、ASPECT、SLOPE的權(quán)重處于2~3%之間,其余特征的權(quán)重低于2%。因此,權(quán)重高于均值的特征包括Blue、NDBI、NDVI、BSI、B12_ent、B12_idm、VV_ent、VV_idm、SLOPE、ASPECT共10個特征,用于構(gòu)建特征子集。
Fig.3 Feature weight based on ReliefF algorithm圖3 基于Relief F算法的特征權(quán)重
基于JM距離、RF模型、ReliefF算法構(gòu)建的特征子集分別用于訓(xùn)練RF分類器,并提取不透水面,將提取結(jié)果分別命名為JM_2020、RF_2020和ReliefF_2020。基于不同特征子集的分類精度和分類模型訓(xùn)練時間見表3。為進(jìn)一步展現(xiàn)3種方法在不透水面提取上的差異,選取昆明市3個典型區(qū)域,對比JM_2020、RF_2020和ReliefF_2020的分類精度,見圖4。
Table 3 Evaluation index of different feature selection methods表3 不同特征優(yōu)選方法評價指標(biāo)
Fig.4 Extraction results of impervious surface based on different feature optimization methods圖4 基于不同特征優(yōu)選方法的不透水面提取結(jié)果
由表3 可知,相比原始特征,特征優(yōu)選剔除了大量冗余或無關(guān)特征,提高了分類效率和精度。其Kappa 值和PA值有所提高,模型訓(xùn)練時間驟減?;赗eliefF 算法的優(yōu)選特征數(shù)量較少,相比JM 距離和RF 模型,Kappa 值分別提高了2%和3%,PA 值分別提高了7%和4%,模型訓(xùn)練時間分別減少了84s和16s。
分析圖4 可知,(a)區(qū)域為居民區(qū),RF_2020 和JM_2020 在居民樓密集區(qū)都存在不透水面高估現(xiàn)象。在(b)、(c)區(qū)域中,JM_2020的不透水面低估情況相比其他兩種方法更嚴(yán)重,漏分了大量不透水面。根據(jù)Sentinel-2 的地面真實影像,與RF_2020 和JM_2020 相比,ReliefF_2020 更接近不透水面的真實分布,提取效果明顯優(yōu)于其他兩種方法。因此,本研究將ReliefF 作為最優(yōu)的特征選擇方法,ReliefF_2020為最優(yōu)的不透水面提取結(jié)果。
為進(jìn)一步驗證ReliefF_2020 的精度,選取昆明市內(nèi)具有不同城鎮(zhèn)化程度的3 個典型區(qū)域,將ReliefF_2020 與基于其他方法獲取的土地覆蓋數(shù)據(jù)精度進(jìn)行比較,見圖5。
區(qū)域(a)中FROM_GLC10和GAIA 都存在低估現(xiàn)象,區(qū)域(b)中FROM_GLC10 和ReliefF_2020 精度較高,區(qū)域(c)中的大棚作物種植區(qū)(Sentinel-2 中亮白色區(qū)域)易與不透水面混淆,F(xiàn)ROM_GLC10 和GAIA 中的混淆現(xiàn)象嚴(yán)重。GLC30 具有最低精度,ReliefF_2020 與Sentinel-2 目視解譯效果基本一致。因此,ReliefF_2020 的精度僅次于FROM_GLC10,但高于GAIA 和GLC30。
Fig.5 Accuracy comparison of land cover data圖5 土地覆蓋數(shù)據(jù)精度比較
本研究融合多源遙感數(shù)據(jù),對比了3 種特征優(yōu)選方法(JM 距離、RF 模型和ReliefF 算法)在山地城市不透水面提取中的有效性,得到以下結(jié)論:
(1)融合光學(xué)衛(wèi)星和雷達(dá)衛(wèi)星數(shù)據(jù)能有效提高山區(qū)不透水面的提取精度。在所有特征中,光譜紋理特征與SAR 紋理特征的重要性較高。
(2)特征優(yōu)選方法能減少大量冗余特征,減少模型訓(xùn)練時間,提高分類效率和精度?;赗eliefF 算法優(yōu)選出的特征較少,模型訓(xùn)練時間最少,不透水面提取結(jié)果具有最高的Kappa和PA 值,因此成為最優(yōu)的特征優(yōu)選方法。
(3)最終提取結(jié)果中存在不透水面的高估與低估現(xiàn)象,主要與特征優(yōu)選時閾值的不確定性、研究區(qū)的特殊性、樣本的準(zhǔn)確性,以及山區(qū)的光譜混淆、混合像元等問題有關(guān)。
以特征權(quán)重均值作為閾值具有一定的不確定性。未來研究將根據(jù)特征類型與數(shù)量,對比不同閾值的優(yōu)選效果或?qū)ふ易詣踊拈撝荡_定方法。同時,將樣本的線上選取與線下檢驗相結(jié)合以提高樣本準(zhǔn)確度。