張德軍,顏 瑋,陳志軍,祝 好,何澤能,饒志杰,楊世琦
1. 重慶市氣象科學(xué)研究所,重慶 401147; 2. 永川區(qū)氣象局,重慶 永川 402160; 3. 四川省西充縣氣象局,四川 西充 637200
隨著人類本身對地球環(huán)境影響速率的加快,全球變化已成為研究地球系統(tǒng)整體行為的熱點問題[1].土地利用/土地覆蓋變化作為影響地球環(huán)境變化最直接的因素,影響了全球生物多樣性、 生物系統(tǒng)的承載力和服務(wù)功能[2].因而,能及時有效地獲取土地覆蓋信息對于研究全球地表環(huán)境變化至關(guān)重要.
真實有效的土地覆蓋數(shù)據(jù)為監(jiān)測地球環(huán)境變化、 評估可持續(xù)發(fā)展以及建立生態(tài)氣候模型提供了重要的數(shù)據(jù)支持[3].衛(wèi)星遙感技術(shù)具有宏觀、 快速、 經(jīng)濟(jì)等特點,能實現(xiàn)不同尺度下地表環(huán)境的觀測[4],為全球范圍土地覆蓋和地表環(huán)境變化監(jiān)測提供可能.目前,大尺度的地表環(huán)境遙感觀測主要以低分辨率遙感數(shù)據(jù)為主(300 m~1 km)[5-6],如美國地質(zhì)調(diào)查局、 馬里蘭大學(xué)、 波士頓大學(xué)和歐洲發(fā)布的4套空間分辨率為1 km的全球土地覆蓋產(chǎn)品,以及歐空局制作的空間分辨率為300 m的GLOBCOVER產(chǎn)品[7].但低分辨率土地覆蓋產(chǎn)品存在空間分辨率低、 時間跨度短以及分類精度低等問題[8].中高分辨率土地覆蓋產(chǎn)品數(shù)據(jù)雖然具有高精度、 高空間分辨率等優(yōu)點,但此類產(chǎn)品制作過于依賴分類算法和人工目視解譯,存在自動化程度低、 效率差、 費時費力等缺點[4,9].如何利用中高分辨率遙感數(shù)據(jù)實現(xiàn)土地覆蓋類型的快速、 自動化提取以及動態(tài)監(jiān)測已成為遙感研究的熱點和難點.
人工智能技術(shù)的加入,使得土地覆蓋分類催生出了諸多新的算法,其中包括人工智能神經(jīng)元網(wǎng)絡(luò)分類方法[10]、 決策樹分類法[11-12]、 支持向量機(jī)法[13-14]和隨機(jī)森林算法[15-16]等.人工智能與遙感技術(shù)的結(jié)合,為實現(xiàn)土地覆蓋類型的自動化識別和提取提供了可能.新算法充分利用了中高分辨率遙感數(shù)據(jù)的光譜、 紋理和空間特征,極大地提高了土地覆蓋產(chǎn)品的制作效率和分類精度.李亞飛等[17]以向量的形式融合了遙感圖像的光譜、 紋理和空間結(jié)構(gòu)等特征,并將特征融合后用于卷積神經(jīng)網(wǎng)絡(luò)模型中,使得融合后的模型能識別更抽象、 更具有代表性的高層特征,提高了土地覆蓋信息的分類精度.王恩德等[18]設(shè)計了一種結(jié)合ResNet18網(wǎng)絡(luò)預(yù)訓(xùn)練模型的雙通道遙感圖像特征提取網(wǎng)絡(luò),同時采用標(biāo)準(zhǔn)化層和帶有位置索引的最大池化方法進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高了遙感圖像的語義分割效果和分類精度.肖國峰等[19]利用Landsat數(shù)據(jù)和HJ-1A數(shù)據(jù)采用CART決策樹法,提取得到1990-2017年山東省慶云縣和無棣縣土地利用圖,并制定了撂荒地的識別規(guī)則,依據(jù)識別規(guī)則提取了研究區(qū)的撂荒地空間分布.為推廣國產(chǎn)高分?jǐn)?shù)據(jù)在森林樹種分類方面的應(yīng)用,同時探究不同時相、 分類特征及分類器的組合對樹種分類結(jié)果的影響,李哲等[20]利用3景高分二號影像構(gòu)建了3種單時相和4種多時相,通過多尺度分割、 C5.0特征優(yōu)選及SVM和RF兩種分類器分別實現(xiàn)了不同時相及特征維度下面向?qū)ο蟮?個樹種的分類.為評估機(jī)器學(xué)習(xí)算法在復(fù)雜地表環(huán)境下覆蓋類型土地分類的精度,本文以國產(chǎn)GF-1 PMS為數(shù)據(jù)源,利用支持向量機(jī)、 隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò)算法提取重慶市永川區(qū)土地覆蓋類型,并結(jié)合不同地物類型之間NDVI以及形狀因子的差異,對機(jī)器學(xué)習(xí)算法分類結(jié)果中混淆像元進(jìn)行修正,以期最終得到高精度、 高空間分辨率的地物分類結(jié)果.
研究區(qū)位于105°48′E~105°52′E,29°8′N~29°11′N的重慶市永川區(qū)南部,東西橫跨6.9 km,南北向?qū)? km,區(qū)域總面積為34.5 km2.該區(qū)域地貌主要以丘陵、 低山和平壩為主[21],海拔高度介于280 m~506 m.土地覆蓋類型主要包括林地、 農(nóng)田、 建筑、 道路、 水體和大棚等.為詳細(xì)分析試驗區(qū)各典型地物的提取效果,本文選擇了5個559×559像元大小的區(qū)域(圖1).其中,紅色區(qū)域被用于分析林地和道路提取效果,紫色區(qū)域為建筑物聚集地,黃色區(qū)域為農(nóng)田,淺綠色區(qū)域為不規(guī)則水體,藍(lán)色區(qū)域含有部分種植大棚.
底圖來源于自然資源部標(biāo)準(zhǔn)地圖服務(wù)網(wǎng),審圖號: CS(2019)3333.圖1 研究區(qū)地理位置及GF-1號真彩色圖像
文中數(shù)據(jù)源為國產(chǎn)GF-1 PMS影像,包括空間分辨率為2 m的全色波段和8 m的多光譜波段,PMS數(shù)據(jù)波段介紹如表1所示.影像時間為2017年7月10日,云覆蓋量為1%.GF-1 PMS數(shù)據(jù)處理主要包括輻射定標(biāo)、 大氣校正、 正射校正、 圖像融合、 圖像鑲嵌和裁剪等步驟[14].公式(1)為GF-1圖像輻射定標(biāo)方程,式中Gain為定標(biāo)斜率,DN為衛(wèi)星載荷觀測值,Bias為定標(biāo)截距,Lλ的單位為W/(m2*um*sr),各定標(biāo)參數(shù)來源于中國資源衛(wèi)星應(yīng)用中心(http: //www.cresda.com).輻射定標(biāo)后,利用FLASSH模型進(jìn)行大氣校正,校正后的數(shù)據(jù)借助DEM對圖像中的每個像元進(jìn)行地形誤差校正,使得遙感圖像滿足正射投影的需要.然后采用NNDiffuse融合技術(shù)生成高光譜、 高空間分辨率的圖像.最后,利用研究區(qū)矢量范圍對融合后的高光譜、 高空間分辨率數(shù)據(jù)進(jìn)行拼接和裁剪.
Lλ=Gain*DN+Bias (1)
1995年Vapnik等人基于統(tǒng)計學(xué)理論的VC維理論(Vapnik-Chervonenkis)和結(jié)構(gòu)風(fēng)險最小化(Structural Risk Minimization,SRM)準(zhǔn)則提出了一種機(jī)器學(xué)習(xí)方法——支持向量機(jī)法[22].該方法具有易用、 穩(wěn)定和精度高等特點,能較好地解決小樣本、 非線性、 高維數(shù)據(jù)等實際問題[4].
圖2 線性可分條件下的最優(yōu)平面
SRM的基本思想是尋找能夠正確劃分訓(xùn)練數(shù)據(jù)集,且劃分的幾何間隔最大的分離超平面[22].此平面有許多種可能性,因此需要找出最佳的超平面(Optimal Separating Hyperplane,OSH),使類別間區(qū)分距離最遠(yuǎn).一般情況下,樣本到超平面距離的遠(yuǎn)近被用于表征樣本分類預(yù)測的準(zhǔn)確程度.圖2中H為線性可分條件下的OSH[4],H1和H2之間的距離M稱為分類間隔.
2001年Breiman L提出了一種利用多棵樹對樣本進(jìn)行訓(xùn)練和預(yù)測的分類方法——隨機(jī)森林算法[23].該算法很好地解決了決策樹過擬合的缺點,較好地容忍了訓(xùn)練過程中出現(xiàn)的噪聲和異常值,在高維度數(shù)據(jù)分類過程中具有良好的并行性和可擴(kuò)展性[24].其優(yōu)異的分類性能,使得RF分類算法在醫(yī)學(xué)、 生物學(xué)、 地理學(xué)等領(lǐng)域得到廣泛的應(yīng)用.RF模型中包含了多個由Bagging集成技術(shù)訓(xùn)練生成的決策樹,以這些決策樹為分類器,由各單個決策樹分類結(jié)果進(jìn)行投票決定最終的分類結(jié)果(圖3).
圖3 隨機(jī)森林算法示意圖
圖4 人工神經(jīng)網(wǎng)絡(luò)算法示意圖
人工神經(jīng)網(wǎng)絡(luò)最早于20世紀(jì)40年代,由心理學(xué)家W. S. McCulloch和數(shù)理邏輯學(xué)家W. Pitts提出的,他們通過MP模型提出了神經(jīng)元的形式化數(shù)學(xué)描述和網(wǎng)絡(luò)結(jié)構(gòu)方法,證明了單個神經(jīng)元能執(zhí)行邏輯功能,從而開創(chuàng)了人工神經(jīng)網(wǎng)絡(luò)研究的時代[25].到了20世紀(jì)70年代,擁有自學(xué)習(xí)、 聯(lián)想存儲和高速尋找優(yōu)化解等優(yōu)勢的ANN算法開始被應(yīng)用于高分辨率遙感影像地表覆蓋類型分類中,由于ANN算法在地表含混度較高、 地物紋理特征豐富的區(qū)域分類效果較好,通過改變隱含層的節(jié)點,從而較好地解決了地物分類過程中存在的“同物異譜”和“異物同譜”的現(xiàn)象[26].圖4為人工神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu)圖,圖中xi為輸入層接收的特征向量,hΘx為輸出層預(yù)測的結(jié)果,介于輸入層與輸出層之間的是隱含層.
目前,用于評估土地覆蓋類型分類精度以及分類算法可靠性檢驗的方法有兩種,一種是通過混淆矩陣計算得到總體分類精度(公式2)和Kappa系數(shù)(公式3); 另一種以ROC曲線圖形來表達(dá)分類精度.本文選擇利用分類后結(jié)果與檢驗樣本間的混淆矩陣,以數(shù)字的形式更直觀地評價各分類算法的精度.
(2)
(3)
公式(2)為總體分類精度P0的計算公式,式中n為被正確分類的像元總數(shù),n′為圖像內(nèi)總像元個數(shù).公式(3)為Kappa系數(shù)的計算公式,其中P0是總體分類精度; 假設(shè)每一類的真實樣本格式分別為α1、α2、 …、αn; 而預(yù)測出來的每一類的樣本個數(shù)分別為b1、b2、 …bn,總樣本個數(shù)為m,則有:
(4)
在選擇訓(xùn)練樣本時,必須遵循樣本本身典型、 具有足夠的充分性,且樣本個數(shù)要滿足分類器的要求.本文結(jié)合研究區(qū)地表實際情況,將研究區(qū)土地覆蓋類型劃分為林地、 道路、 大棚、 農(nóng)田、 水體以及建筑用地6類,每類地物選擇50個訓(xùn)練樣本以及100個用于評估分類精度的檢驗樣本.
為檢驗地物樣本選擇的合理性,避免人為誤差對地物分類造成的影響,本文利用Export ROIs to n-visualizer 將樣本進(jìn)行多維展示,以判斷不同樣本間的分離程度.圖5為不同地物訓(xùn)練樣本在三維空間上的展示,不同地物數(shù)據(jù)團(tuán)離得越遠(yuǎn),表明分類效果越明顯.在不同角度下,林地、 建筑、 農(nóng)田數(shù)據(jù)團(tuán)間距離相對較遠(yuǎn),不存在混雜融合的情況,說明林地、 建筑和農(nóng)田3類地物訓(xùn)練樣本間可分離性較好.但林地與水體,大棚與道路地物樣本點混合在一起,可分離性相對較差.為更直觀地判斷訓(xùn)練樣本間可分離度,本文采用Compute ROI Separability工具對各樣本可分離性進(jìn)行定量評估,采用Jeffries-Matusita(JM),Transformed Divergence(TD)參數(shù)評估不同樣本間可分離程度,結(jié)果如表2所示.JM和TD的值域范圍為0~2.0之間,當(dāng)JM或TD值大于1.8,表明訓(xùn)練樣本間可分離性較好,屬于合格樣本; 當(dāng)JM或TD值介于1.0~1.8,則需要對樣本進(jìn)行編輯或修改; JM或TD值小于1則需要考慮將兩類樣本合成一類樣本.從表2中可以發(fā)現(xiàn),林地和水體之間的JM為1.01,TD值為1.25; 農(nóng)田和大棚之間的JM值為1.30,大棚與建筑之間的JM值為1.38.較低的JM和TD表明,林地與水體、 農(nóng)田與大棚以及大棚和建筑訓(xùn)練樣本間可分離度較低,在執(zhí)行分類運算前,我們還需對這部分訓(xùn)練樣本進(jìn)行修正.
林地(紅色)、 道路(綠色)、 農(nóng)田(黃色)、 水體(藍(lán)綠色)、 建筑(紫色)和大棚(藍(lán)色).圖5 不同訓(xùn)練樣本在三維空間上的分布
表2 ROI樣本可分離性
圖6為RF算法(a)、 SVM算法(b)和ANN算法(c)提取的研究區(qū)地表類型分類結(jié)果.對比圖6a、 圖6b和圖6c可以看出,在相同的訓(xùn)練樣本條件下,RF、 SVM和ANN 3種分類算法分類結(jié)果差異相對較大,尤其是水體和林地兩類地物分類差異最明顯.結(jié)合原始高分?jǐn)?shù)據(jù)(圖1)目視判斷可知,RF算法的分類結(jié)果與原始高分?jǐn)?shù)據(jù)中地類分布較為一致,SVM和ANN算法分類結(jié)果中明顯存在大量林地像元被錯分為水體和農(nóng)田的現(xiàn)象,ANN算法分類結(jié)果中還存在道路像元被錯分為大棚.
本文從原始高分圖像中每類地物選擇100個檢驗樣本,用于定量評估各算法的分類精度.表3、 表4和表5分別為研究區(qū)域RF算法、 SVM算法和ANN算法轉(zhuǎn)移矩陣,從表3中可以看出,檢驗樣本中98.2%的林地、 92.68%的道路和97.85%的農(nóng)田被正確分類,而在水體分類檢驗中僅有72.31%的像元被正確分類,建筑和大棚被正確分類的像元百分比分別為79.60%和70.12%.在SVM轉(zhuǎn)移矩陣中,林地、 道路、 農(nóng)田、 水體、 建筑和大棚的正確劃分百分比分別為69.40%、 86.26%、 98.11%、 73.95%、 80.75%和39.59%.ANN算法分類轉(zhuǎn)移矩陣中,林地、 道路、 農(nóng)田、 水體、 建筑和大棚的正確劃分百分比分別為63.95%、 38.44%、 97.65%、 75.42%、 77.67%和37.02%.對比可知,RF分類結(jié)果中林地、 道路和大棚3類地物被正確分類的比例與SVM和ANN算法分類結(jié)果間存在較大差異,且RF分類結(jié)果中正確分類像元所占百分比均高于SVM和ANN算法.
總精度驗證結(jié)果表明(表6),RF算法的總體分類精度為85.74%,Kappa系數(shù)為0.828; SVM算法的總體分類精度為73.17%,Kappa系數(shù)為0.679; ANN算法的總體分類精度為63.80%,Kappa系數(shù)為0.57.表明在復(fù)雜地表環(huán)境下RF算法地表分類精度最高,SVM次之,ANN算法的分類精度最差.為詳細(xì)分析3種算法不同地物的分類精度,本研究通過轉(zhuǎn)移矩陣獲得RF、 SVM和ANN 3種算法不同地物的精度評價結(jié)果(表6).除建筑地物外,其余地物SVM算法的錯分誤差均高于RF算法,而ANN算法所有地物的錯分誤差均高于RF算法.尤其是道路、 水體和大棚3類,ANN算法錯分誤差高達(dá)49.59%、 40.87%和49.99%; SVM算法錯分誤差高達(dá)50.97%、 40.61%和25.28%; 而RF錯分誤差則為33.68%、 2.11%和13.53%.ANN算法林地、 道路和大棚的漏分誤差分別為36.05%、 61.56%和62.98%; 相對應(yīng)的SVM算法的漏分誤差分別為30.60%、 13.74%和60.41%; RF算法的漏分誤差分別為1.80%、 7.32%和29.88%.RF算法林地、 道路和大棚的制圖精度(98.20%、 92.68%和70.12%)均優(yōu)于SVM算法(69.40%、 86.26%和39.59%)和ANN算法(63.95%、 38.44%和37.02%); 除建筑地物RF算法用戶精度與SVM算法相近外(RF為98.55%; SVM為98.99%),其余各類地物RF算法的用戶精度均高于SVM算法和ANN算法.
以上精度驗證結(jié)果表明,在復(fù)雜地表環(huán)境狀態(tài)下,基于RF算法地物分類精度要優(yōu)于SVM算法和ANN算法,尤其是林地、 道路和大棚3類地物RF算法分類精度與SVM算法分類精度之間具有較大差異; 而相較于ANN算法,RF算法在各地物的分類精度均優(yōu)于ANN算法.綜上所述,本研究將采用RF算法實現(xiàn)復(fù)雜地表環(huán)境下地物覆蓋類型的精確提取.
圖6 基于RF算法(a)、 SVM算法(b)和ANN算法(c)試驗區(qū)地表分類結(jié)果圖
表3 RF轉(zhuǎn)移矩陣
表4 SVM轉(zhuǎn)移矩陣 %
表5 ANN轉(zhuǎn)移矩陣 %
表6 精度評價結(jié)果
3.3.1 區(qū)分易混淆像元
雖然在復(fù)雜地表環(huán)境下,RF算法的分類精度明顯優(yōu)于SVM算法.但結(jié)合RF地表分類結(jié)果(圖6a)和轉(zhuǎn)移矩陣(表3)中可以發(fā)現(xiàn),RF分類結(jié)果中依舊存在部分林地和水體、 道路和大棚像元錯分和漏分現(xiàn)象(圖7).對比真彩色高分遙感圖像,圖7a黑色框體內(nèi)地物類型為水體,而在RF分類結(jié)果圖7a′中,該區(qū)域被錯分為林地; 在圖7b中,黑框內(nèi)地物類型實為大棚,而在RF分類結(jié)果圖7b′中,該部分像元被錯分為道路.精度評價表6顯示,RF分類結(jié)果中林地、 道路、 農(nóng)田和大棚的錯分誤差均超過了10%,水體、 建筑和大棚的漏分誤差超過了20%.較大的錯分和漏分誤差,使得基于RF算法直接得到的地物分類結(jié)果不滿足當(dāng)前精細(xì)化遙感業(yè)務(wù)的需求,因此,針對機(jī)器學(xué)習(xí)分類結(jié)果的處理至關(guān)重要.
圖7 部分區(qū)域GF-1真彩色圖像(a、 b)與對應(yīng)的RF分類結(jié)果(a′、 b′)
通常,利用機(jī)器學(xué)習(xí)和人工目視解譯相結(jié)合的方法可以實現(xiàn)分類后數(shù)據(jù)的再處理[4].雖然人工目視解譯的加入會提高高分辨率遙感數(shù)據(jù)地物分類的精度,但該方法存在工作量大、 效率低等缺點.本文通過對RF地物轉(zhuǎn)移矩陣(表3)的分析發(fā)現(xiàn),分類結(jié)果中易混淆的地物類型主要為林地和水體以及大棚和道路,這是因為RF算法是通過訓(xùn)練樣本的光譜特征來區(qū)分地物,而本文僅從GF-1 RGB波段組成的真彩色圖像中選擇的訓(xùn)練樣本,常存在異物同譜或同物異譜現(xiàn)象,致使水體與林地,以及大棚與道路像元混淆難以區(qū)分.
為快速準(zhǔn)確地實現(xiàn)易混淆像元的區(qū)分,作者對研究區(qū)內(nèi)各典型地物分別提取了50個像元樣本(圖8),并統(tǒng)計了典型地物樣本的NDVI值(圖9).NDVI統(tǒng)計結(jié)果顯示,水體和林地之間NDVI值相差較大,林地像元NDVI值介于0.5~1.0之間,水體像元NDVI值小于0,通過NDVI值域范圍的差異能快速分離混淆的林地和水體像元.
大棚和道路兩類地物,由于其光譜特性接近,加之其NDVI值也接近(圖9),直接通過RF算法和NDVI無法將兩者區(qū)分開.但我們發(fā)現(xiàn)兩地物在形狀上存在明顯的差異,道路接近于線狀,大棚更接近于面狀.本文利用IDL程序語言,以道路(或大棚)為中心像元,建立了一個101×101的移動窗口(圖10),通過統(tǒng)計移動窗口內(nèi)道路(或大棚)像元占總像元的百分比可以發(fā)現(xiàn),3個試驗區(qū)道路像元占總像元的百分比分別為8.66%、 4.77%和15.46%; 3個大棚試驗區(qū)像元占比分別為48.24%、 32.14%和45.84%.通過以上分析我們發(fā)現(xiàn),帶狀道路在移動窗口內(nèi)像元占比小于20%,而成片的大棚在移動窗口內(nèi)像元占比高于20%.因此,本文設(shè)定以20%像元占比為劃分界限,當(dāng)滿足中心像元為道路(或大棚),且101×101移動窗口內(nèi)道路(或大棚)像元所占百分比大于20%,則認(rèn)定該中心像元為大棚; 反之,當(dāng)?shù)缆?或大棚)像元所占百分比小于20%,則判定該中心像元為道路.
紅色為林地,綠色為道路,黃色為農(nóng)田,淺綠色為水體,紫色為建筑,藍(lán)色為大棚.圖8 各類地物特征分析提取點
紅色為林地,綠色為道路,黃色為農(nóng)田,淺綠色為水體,紫色為建筑,藍(lán)色為大棚.圖9 研究區(qū)內(nèi)典型地物NDVI值分布圖
圖11為經(jīng)上述判定規(guī)則修改后的分類結(jié)果.對比圖10a-10c與圖11a-11c,基于道路和大棚形狀上的差異,道路中夾雜的被錯分為大棚的像元已經(jīng)被修正為道路像元,提高了道路的完整性和連續(xù)性.對比圖10d-10f與圖11d-11f可知,在圖10e和圖10f中大量被錯分為道路的像元,經(jīng)形狀因子判識后,將其正確修正為大棚類,并且在圖10d中穿插在大棚間的道路像元依舊被較好地保留.以上結(jié)果表明,基于形狀因子能較好地將大棚與道路地類區(qū)分開,修正后的分類結(jié)果與地表真實覆蓋情況相符.圖11g和圖11h分別為基于NDVI值修正前后區(qū)域內(nèi)地表分類結(jié)果,圖11g顯示,RF分類結(jié)果中部分林地像元被錯分為水體像元,而經(jīng)NDVI值修正后(圖11h),錯分像元被正確地修正為林地像元,表明利用林地和水體NDVI值域范圍的差異能較好地區(qū)分兩類地物,對提高RF地物分類精度有重要幫助.
圖a-c中心像元為道路; 圖d-f中心像元為大棚.百分比值為中心像元對應(yīng)地物的面積占移動窗口總面積的百分比.圖10 移動窗口內(nèi)地物分布情況
3.3.2 小圖斑處理
采用機(jī)器學(xué)習(xí)算法得到的分類結(jié)果一般為初步結(jié)果,分類的精度難以達(dá)到實際業(yè)務(wù)應(yīng)用的要求,雖然基于形狀特征和NDVI值域差異等特性實現(xiàn)了RF分類結(jié)果中混淆像元的修正,但從圖11中清晰地看出,修正后的分類結(jié)果中存在部分面積較小的小圖斑,這部分小圖斑不僅會影響后期專題圖的制作,在實際應(yīng)用中也會帶來干擾.因此,極有必要對該部分小圖斑進(jìn)行剔除或重新分類.
本文利用ENVI遙感圖像處理平臺中的Majority/Minority分析工具將較大類別中的虛假像元歸到該類中,并借助Clump工具將鄰近的類似分類區(qū)域聚類并進(jìn)行合并,從而實現(xiàn)了RF分類結(jié)果中小圖斑的去除,使得調(diào)整后的RF分類結(jié)果更符合實際情況.最后利用GIS軟件,將柵格數(shù)據(jù)轉(zhuǎn)換為矢量文件,以供后期分類結(jié)果的統(tǒng)計和專題圖的制作(圖12).
為對比RF、 SVM和ANN算法在復(fù)雜地表環(huán)境下地物分類的能力和適用性,本文以重慶市永川區(qū)為例,以國產(chǎn)GF-1 PMS遙感數(shù)據(jù)為數(shù)據(jù)源,分別采用RF、 SVM和ANN算法實現(xiàn)研究區(qū)內(nèi)地表覆蓋類型的提?。畬Ρ冉Y(jié)果表明: ① 利用原始GF-1數(shù)據(jù)目視判斷可知,在訓(xùn)練樣本相同的條件下,RF算法分類結(jié)果與原始高分?jǐn)?shù)據(jù)中地類分布較為一致,SVM算法分類結(jié)果中明顯存在大量林地像元被錯分為水體的現(xiàn)象,ANN算法分類結(jié)果中還存在大量道路像元被錯分為大棚.② 精度評估結(jié)果表明,RF算法地物分類精度要優(yōu)于SVM和ANN算法,尤其是林地、 道路和大棚3類地物RF算法分類精度與SVM和ANN算法分類精度之間差異較大.
道路(a~c),大棚(d~f),水體與林地(g、 h).圖11 修正RF分類結(jié)果中的混淆像元
雖然在復(fù)雜地表環(huán)境下,RF算法的分類精度明顯優(yōu)于SVM算法,但RF分類結(jié)果中依舊存在部分林地和水體、 道路和大棚像元錯分和漏分現(xiàn)象,不能滿足當(dāng)前精細(xì)化遙感業(yè)務(wù)的需求.本文利用易混淆像元在NDVI和形狀上的差異,實現(xiàn)了RF分類結(jié)果中易混淆像元的修正,從而提高了地物分類的精度.而后,利用ENVI和GIS軟件實現(xiàn)了RF修正后結(jié)果中小圖斑的去除,柵格數(shù)據(jù)轉(zhuǎn)換成矢量,并最終制作完成研究區(qū)地表覆蓋類型分布圖.
本文雖然利用易混淆像元在NDVI值域和形狀上的差異,能較好地實現(xiàn)混淆像元的修正和區(qū)分,但依舊存在以下幾個問題值得我們繼續(xù)思考和探究: (1) 復(fù)雜地表環(huán)境下,混淆在不同背景地物中的目標(biāo)地物很難通過單一的規(guī)則進(jìn)行提取和修正.雖然利用NDVI值域的差異能較好地區(qū)分林地和水體兩類地物,但對于建筑和道路兩類地物,繼續(xù)采用NDVI作為區(qū)分因子是不合適的.我們可以嘗試引入歸一化建筑指數(shù)(NDBI)作為建筑和道路之間的區(qū)分標(biāo)準(zhǔn),但GF-1 PMS數(shù)據(jù)中缺少中紅外波段,無法生成NDBI,從而失去了區(qū)分建筑和道路的能力.(2) 由于矢量數(shù)據(jù)是由柵格數(shù)據(jù)轉(zhuǎn)換而成,使得矢量文件中各地物圖塊邊界不平滑.(3) 地物劃分種類較少.本文中,作者通過對GF-1 PMS真彩色圖像的分析,將試驗區(qū)地表覆蓋類
圖a為整個研究區(qū)地物分類結(jié)果,圖b-圖g分別為大棚、 道路、 建筑、 林地、 農(nóng)田和水體分類細(xì)節(jié)展示圖.圖12 易混淆像元修正后RF地物分類圖
型主要劃分為林地、 道路、 農(nóng)田、 水體、 建筑和大棚,忽略了裸土和草地,這使得被劃分為林地的像元中有少量像元真實地表覆蓋類型為草地,而裸土像元則更多的被劃分為農(nóng)田.