萬佳華,魏加華,,3*,李 瓊,任 燕
(1.青海大學(xué)水利電力學(xué)院,青海 西寧 810016; 2.省部共建三江源生態(tài)與高原農(nóng)牧業(yè)國家重點(diǎn)實(shí)驗(yàn)室,青海大學(xué),青海 西寧 810016;3.清華大學(xué)水沙科學(xué)與水利水電工程國家重點(diǎn)實(shí)驗(yàn)室,北京 100084)
黃河源區(qū)是黃河流域最重要的徑流來源區(qū)及生態(tài)涵養(yǎng)地,素有“黃河水塔”之稱[1]。在全球變暖和人類活動影響加劇背景下,黃河源區(qū)土地覆被(Land Cover,LC)類型發(fā)生了顯著變化[2-3]。LC變化與近地表面的蒸散發(fā)、下滲等水文要素及產(chǎn)匯流過程密切相關(guān),也是大多數(shù)氣候變化、水文變化區(qū)域響應(yīng)模型的基礎(chǔ)數(shù)據(jù)[4]。因此,快速獲取黃河源區(qū)土地覆被信息,了解該區(qū)域不同地物類型的空間分布格局與特征,是研究該區(qū)域下墊面變化以及氣候變化的關(guān)鍵內(nèi)容。
相關(guān)學(xué)者[5-8]對黃河源流域或者更大范圍的三江源區(qū)域的土地利用/土地覆被變化進(jìn)行了研究,多數(shù)研究用人機(jī)交互的目視解譯方法完成研究區(qū)域的地物分類工作。目視解譯方法雖然可以滿足精度的要求,但耗時長,工作量大,有一定的限制性。隨著計算機(jī)與信息化技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)(Machine Learning,ML)在土地覆被分類(Land Cover Classification,LCC)中得到廣泛的關(guān)注,支持向量機(jī)[9-10](Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、隨機(jī)森林[11-15](Random Forest,RF)、K近鄰(K-Nearest Neighbor,KNN)等方法被用于地物信息提取,成果豐碩,其中RF、KNN和SVM算法取得的分類效果較好[16-17]。黃首暢[18]在對高光譜數(shù)據(jù)進(jìn)行降維之后,使用SVM、最大似然(Maximum Likelihood Classification,MLC)、RF 3種方法進(jìn)行三江源國家公園黃河源區(qū)核心區(qū)鄂陵湖西部和北部的植被分類。對于地物類型相似、空間分布格局較復(fù)雜地區(qū),采用單一的影像特征將導(dǎo)致分類效果不理想。因此,結(jié)合能反應(yīng)地物差異的特征變量[19-22],如光譜、植被、水體、紋理等[23-25]是提高LCC精度的關(guān)鍵。安如等[26]對黃河源典型區(qū)瑪多縣范圍的濕地信息進(jìn)行提取,確定其有效特征(包括光譜、紋理、地形和結(jié)構(gòu)特征),構(gòu)建面向?qū)ο蟮倪b感濕地提取方法,總精度可達(dá)90.13%,Kappa 系數(shù)為 88.33%。
黃河源園區(qū)屬于類型相對復(fù)雜且類別分布嚴(yán)重失衡的高寒高海拔地區(qū),目前對該區(qū)域的土地覆被分類的研究較少,特別是對于多特征組合的研究鮮有涉及。本文以三江源國家公園黃河源園區(qū)為研究對象,在綜合分析區(qū)域植被類型和覆蓋特征的基礎(chǔ)上,首先構(gòu)建特征集(光譜特征、植被特征、水體特征及紋理特征);然后利用Relief F特征選擇方法,對不同特征在土地覆被分類中的重要性進(jìn)行評估,完成特征優(yōu)選;通過組合不同的特征,構(gòu)建多種試驗(yàn)方案,基于RF方法對比分析不同方案的土地覆被分類結(jié)果;對優(yōu)選特征組合,采用DT、KNN、感知機(jī)(Perceptron,PPN)和SVM 4種分類方法與RF方法進(jìn)行對比,利用精度最優(yōu)實(shí)驗(yàn)方案完成黃河源園區(qū)的土地覆被分類,這對高海拔地區(qū)土地覆被自動分類的研究具有一定的參考價值。
1.1研究區(qū)概況黃河源園區(qū)主體位于三江源國家公園,在果洛藏族自治州瑪多縣境內(nèi)(圖1),總面積1.91 萬km2,屬于高寒生態(tài)脆弱區(qū)和國家重點(diǎn)生態(tài)功能區(qū)的重疊區(qū)域,平均海拔4 200 m以上,多年平均氣溫-4 ℃左右,年降水量247.8~484.8 mm。區(qū)域內(nèi)植被類型和結(jié)構(gòu)相對簡單,以高寒草原、草甸和高山稀疏植被為主[27]。
1.2遙感數(shù)據(jù)及預(yù)處理本文選取Landsat 8 OLI多光譜影像作為數(shù)據(jù)源。Landsat 8 OLI傳感器包括9個波段,成像寬幅185 km×185 km,除全色波段的空間分辨率為15 m外,其余波段空間分辨率為30 m,回歸周期為16 d。影像數(shù)據(jù)來源于地理空間數(shù)據(jù)云(www.gscloud.cn)。以2017年7月—2017年8月影像為主,2015年7月—2015年8月和2016年7月—2016年8月影像作為補(bǔ)充,影像數(shù)據(jù)信息見表1。
表1 研究區(qū)域Landsat 8 OLI影像數(shù)據(jù)信息
對影像進(jìn)行輻射定標(biāo),使DN值變?yōu)榻^對輻射亮度值,然后進(jìn)行FLAASH大氣校正,獲得地物反射率等真實(shí)物理模型參數(shù),最后將三景影像拼接,用來源于國家青藏高原科學(xué)數(shù)據(jù)中心(http://data.tpdc.ac.cn)的黃河源園區(qū)矢量文件[28],裁剪出研究區(qū)域。
1.3樣本點(diǎn)選取根據(jù)研究區(qū)實(shí)際的土地覆被情況,參考GB/T 21010—2017《土地利用分類標(biāo)準(zhǔn)》[29]、中國科學(xué)院地理科學(xué)與資源研究所和中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心發(fā)布的《中國多時期土地利用/土地覆蓋遙感監(jiān)測數(shù)據(jù)庫說明》確定黃河源園區(qū)地物分類系統(tǒng),見表2。
表2 黃河源園區(qū)土地覆被分類系統(tǒng)
在研究區(qū)影像資料的基礎(chǔ)上,結(jié)合中國科學(xué)院2018年黃河源園區(qū)的土地覆蓋圖,在Landsat 8 OLI影像上隨機(jī)選取樣本點(diǎn)并保證樣本均勻分布,樣本數(shù)量按各類地物面積占比設(shè)置。選擇112 316個像元作為樣本數(shù)據(jù),隨機(jī)抽取30%數(shù)據(jù)作為測試數(shù)據(jù),每類樣本點(diǎn)數(shù)量見表3。
表3 樣本數(shù)量統(tǒng)計
2.1特征變量選取光譜、植被、水體和紋理特征構(gòu)建特征集(表4)。由于纓帽變換能夠增強(qiáng)圖像的植被信息,還能去除各波段之間的冗余信息,將變換后的亮度指數(shù)(Brightness index,BI)、綠度指數(shù)(Green index,GI)和濕度指數(shù)(Wetness index,WI)前3個分量用于LCC。本文纓帽變換的系數(shù)矩陣采用文獻(xiàn)[30]的研究成果。紋理通過統(tǒng)計像素點(diǎn)與周圍其他像素點(diǎn)間的關(guān)系確定,用于反映地物空間結(jié)構(gòu)[31-32]。在原始影像上通過主成分分析得到方差占比為94.35%的第一主成分,采用灰度共生矩陣(Grey-Level Co-occurrence Matrix,GLCM)進(jìn)行紋理特征的提取。對3×3、5×5、7×7、9×9四種滑動窗口進(jìn)行對比試驗(yàn),確定滑動窗口為9×9,移動步長為1。為抑制不同方向的影響,取0°、45°、90°、135°四個統(tǒng)計方向分別計算GLCM,對求得的角二階矩、相關(guān)性、對比度、能量、相異性和協(xié)同性6個二階統(tǒng)計量取平均。
表4 特征描述
2.2特征選擇算法Relief F算法基本原理是根據(jù)特征對相鄰樣本的區(qū)分能力賦予特征不同的權(quán)重,對權(quán)重降序排列,取前n個權(quán)重所對應(yīng)的特征作為降維后的數(shù)據(jù)。每次從樣本中隨機(jī)取出一個樣本x,然后從x的同類樣本集中找k個近鄰樣本H(x),從每個x的異類樣本集中均找出k個近鄰樣本M(x),最后計算樣本x與k個近鄰樣本H(x)和M(x)的距離和,并根據(jù)距離大小更新特征權(quán)重,權(quán)重更新公式如下:
(1)
式中:diffa表示在特征a上不同樣本間的距離,本文采用歐幾里德范數(shù)表示;H(x)和M(x)分別表示與x的同類和異類樣本集中的最近相鄰樣本;P表示類的概率,本文簡化該項(xiàng)為1/(N-1),N為樣本類別數(shù);m表示抽取樣本次數(shù);k為最近相鄰樣本個數(shù)。
2.4試驗(yàn)方案基于RF方法研究不同特征組合對分類效果的影響,設(shè)計6種試驗(yàn)方案。方案1:光譜特征(6個輸入變量);方案2:光譜特征+植被特征(11個輸入變量);方案3:光譜特征+水體特征(8個輸入變量);方案4:光譜特征+紋理特征(12個輸入變量);方案5:所有特征(19個輸入變量);方案6:Relief F算法優(yōu)選的特征。對優(yōu)選的特征組合,用RF與KNN、SVM、DT、PPN方法進(jìn)行對比。
精度評價采用混淆矩陣(Confusion Matrix,CM)方法,CM方法能夠反映預(yù)測結(jié)果與真實(shí)LC間的相關(guān)信息[35]。通過CM方法分析出總體精度(Overall Accuracy,OA)、平均精度(Average Accuracy,AA)、Kappa 系數(shù)、生產(chǎn)者精度(Producer’s Accuracy,PA)和用戶精度(User’s Accuracy,UA),對各方案進(jìn)行評價。
3.1特征變量重要性評估利用Relief F算法對19個特征變量進(jìn)行重要性評估,設(shè)置最近相鄰樣本個數(shù)k=100,隨機(jī)抽取樣本次數(shù)為總體樣本數(shù)量的0.4倍。為消除隨機(jī)抽取樣本的影響,迭代計算5次取平均,將特征權(quán)重從大到小進(jìn)行排序(圖2a)。從圖2a可以看出,不同特征的權(quán)重差異較大,特征變量重要性排序?yàn)镈VI>NDWI>NDVI>B7>B6>correlation>ASM>WI>GI>energy>RVI>B5>BI>B4>homogeneity>B3>dissimilarity>B2>contras??偟膩砜?,紋理特征權(quán)重和最大,其次是植被特征(圖2b)。
3.2基于不同特征組合分類結(jié)果的比較基于RF方法,6種試驗(yàn)方案的分類精度見表5。由表可以看出,在加入水體特征和紋理特征后,林地和高覆蓋度草地的精度有所提升,尤其加入紋理特征后,河流、灘地和沼澤地分類精度提高明顯,其中沼澤地提升幅度最大。由Relief F算法得到的各特征的權(quán)重,紋理特征權(quán)重和最大,故加入紋理特征后,效果也較好。由于植被特征由光譜特征計算而來,所以在光譜特征的基礎(chǔ)上加入植被特征,對分類精度提升貢獻(xiàn)率不大。方案4和方案5結(jié)果相差不大,其中方案5,OA為96.02%,AA為92.64%,Kappa系數(shù)為0.94。從工作效率來看,方案6用時最短,時間相對于方案5和方案4縮短了一倍。由以上分析可知,綜合優(yōu)選特征可以兼顧分類精度和時間效率。
表5 各方案分類精度統(tǒng)計
3.3基于優(yōu)選特征不同分類方法的比較為評估RF方法的效果,對優(yōu)選特征使用DT、K近鄰、PPN和SVM方法與RF方法進(jìn)行對比(表6)。由表可知,各分類器都取得了較好的分類精度,OA均在85%以上,其中RF方法的分類效果最好,DT分類性能最差?;赗F方法,林地和高覆蓋度草地PA較低,均低于50%,說明這兩種地物的漏分誤差比較大;而UA均在80%以上,錯分誤差較低。這是由于各類別像元個數(shù)極度不平衡,導(dǎo)致樣本個數(shù)較少的幾類地物存在漏分的情況??傮w來看,RF方法比DT、PPN、K近鄰和SVM方法更能有效地提取土地覆蓋信息。
表6 基于優(yōu)選特征各分類器分類精度
3.4基于所有特征的分類結(jié)果分析基于RF方法,綜合所有特征對黃河源園區(qū)分類,結(jié)果見圖3b,各類地物面積占比如圖4所示。由圖4看出,在整個黃河源園區(qū)草地的面積占比最高為85.74%,湖泊的面積占比為7.46%,河流的面積占比為0.33%,林地的面積占比最小為0.06%。在草地中以中低覆蓋度的草地為主,低覆蓋度草地面積>中覆蓋度草地面積,而高覆蓋度草地面積很小,占比僅為0.25%。
本文以Landsat 8 OLI為數(shù)據(jù)源提取多種特征變量,利用Relief F算法完成特征優(yōu)選,基于RF方法構(gòu)建6種試驗(yàn)方案,得到不同特征的重要性并驗(yàn)證了RF方法的適用性,完成了黃河源園區(qū)土地覆被分類。侯蒙京等[36]在高寒濕地地區(qū)同樣基于多特征組合也驗(yàn)證了RF的適用性。通過本研究得到以下結(jié)論:(1)基于Relief F算法對特征重要性進(jìn)行評估,得到特征重要性排序?yàn)镈VI>NDWI>NDVI>B7>B6>correlation>ASM>WI>GI>energy>RVI>B5>BI>B4>homogeneity>B3>dissimilarity>B2>contrast;(2)不同特征對LCC的影響不同,在光譜特征的基礎(chǔ)上加入紋理特征有利于提升LCC的精度,綜合所有特征取得的分類效果最好,OA為96.02%,AA為92.64%,Kappa系數(shù)為0.94;(3)RF法與DT、K近鄰、PPN和SVM方法對比,RF方法在高寒地區(qū)LCC中具有一定的優(yōu)勢。(4)分類結(jié)果表明黃河源園區(qū)地物類型以植被為主,中低覆蓋度草地面積占比較大,林地最小。
本研究仍存在一些不足之處:(1)樣本的選取基于目視解譯,具有一定的主觀性,還需進(jìn)行實(shí)地考察進(jìn)一步對模型進(jìn)行驗(yàn)證;(2)對于林地和高覆蓋度草地的識別較差,需要進(jìn)一步研究,以提高兩者的識別精度。