宗 影,李玉鳳,劉紅玉
(南京師范大學海洋科學與工程學院,江蘇 南京 210023)
遙感因其數(shù)據(jù)獲取方便、監(jiān)測范圍廣被逐漸應用到農(nóng)田濕地的分類研究中. 目前,利用遙感進行分類的方式包括基于像素和對象兩種[1]. 基于像素的分類以單個像素為最小單元,分類時只考慮到地物的光譜、大小與位置信息[2],但這種分類方式會產(chǎn)生椒鹽現(xiàn)象從而制約分類的精度. 而面向?qū)ο蠓诸愐院喜⒅蟮膶ο鬄榛咎幚韱卧?減少了分類破碎的現(xiàn)象,可以同時考慮地物的光譜、紋理等信息,分類精度更高、提取效果更好[3-5],目前被廣泛應用于植被的分類中. 如邵亞婷等[6]使用面向?qū)ο蟮姆诸惙椒▽}城濱海濕地的植被進行分類,6個時期的影像分類精度均達到90%以上. 張蓉等[7]以Landsat多時相影像為數(shù)據(jù)源,用面向?qū)ο蟮姆诸惙椒▽Υ笾榻侵薜募t樹林進行分類,分類精度均保持在85%以上. 隨著大量遙感衛(wèi)星的發(fā)射和計算機技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡、決策樹與隨機森林等方法逐漸運用到地物分類中,并得到較高的分類精度[8-9]. 其中隨機森林分類方法能夠利用樣本之間存在的差異,并且可以更好的處理高維數(shù)據(jù)[10-11]. 隨機森林方法對農(nóng)田、濕地植被的分類,都取得了較好的分類結(jié)果. 如張磊等[12]基于 Sentinel-2 數(shù)據(jù)利用不同的特征組合對黃河三角洲的植被進行提取,并用隨機森林模型進行分類,總體精度高達90.93%. 劉家福等[13]利用融合后的Landsat OLI影像在特征優(yōu)選的基礎(chǔ)上構(gòu)建隨機森林模型提取黃河口濱海濕地植被,取得了較好的分類效果. 谷曉天等[14]基于Landsat OLI影像數(shù)據(jù)、DEM數(shù)據(jù),用多種分類方法對復雜地形的土地利用類型進行分類,研究表明隨機森林的分類效果最好. 目前已有部分學者使用隨機森林與面向?qū)ο蠓诸惙椒ㄏ嘟Y(jié)合進行濱海濕地植被的分類[15-17],但是大部分研究都是以高分辨率影像為數(shù)據(jù)源包括GF-2、QuikBird與無人機影像,這些高分辨率的影像價格昂貴,應用于大尺度遙感提取的方法成本較高.
另外,當前濕地分類研究主要集中于內(nèi)陸濕地,對濱海濕地遙感分類研究較少,且存在不足. 由于濱海濕地是海陸相互作用形成的特殊地理區(qū)域,濕地形成與演變處于高度動態(tài)變化中. 江蘇濱海濕地主要分布于鹽城海岸,是典型淤泥質(zhì)潮間帶濕地,以草本濕地植被類型為主要特征,空間上動態(tài)演變十分明顯,各類型之間交錯帶植被分布較為復雜. 因此,如何利用遙感方法對其進行分類,成為區(qū)域濕地分布研究的重要科學問題. 因此本文以Sentinel-2影像為數(shù)據(jù)源,通過面向?qū)ο笈c隨機森林結(jié)合的算法,試驗不同的特征組合方案的分類精度,找出適合鹽城濱海濕地分類的最佳特征組合,以提高區(qū)域內(nèi)植被的分類精度.
選擇江蘇典型濱海濕地分布區(qū)為研究對象. 該區(qū)位于江蘇鹽城國家級珍禽自然保護區(qū)核心區(qū),北臨新洋港,南接斗龍港,面積1.92×104hm2(如圖1所示). 濕地植被類型以蘆葦、堿蓬和互花米草為優(yōu)勢種群. 由于區(qū)域位于淤長型海岸地段,濕地以每年50~100 m速度向海淤進[18],在地形、地貌、土壤與水文等生態(tài)環(huán)境要素綜合作用下,濕地植被類型自陸向海呈帶狀分布格局,并且處于高度敏感和動態(tài)演變過程中,各類型之間交錯帶植被分布十分復雜.
圖1 研究區(qū)地理位置圖Fig.1 Geographic location of the study area
1.2.1 遙感數(shù)據(jù)
Sentinel-2遙感數(shù)據(jù)有13個波段,包括10 m、20 m和60 m 3種空間分辨率(如圖1(b))所示. 其中紅光波段(B4)、綠光波段(B3)、藍波段(B2)、近紅外波段(B8)分辨率為10 m;紅邊波段(B5、B6、B7)、近紅外波段(B8A)、短波紅外波段(B11、B12)分辨率為20 m;海岸波段(B1)、水汽波段(B9)、卷云波段(B10)分辨率為60 m. 此數(shù)據(jù)分辨率較高,且包含易于植被區(qū)分的紅邊波段. 因此為開展鹽城保護區(qū)核心區(qū)植被分類研究,選取2018年6月23日質(zhì)量較好的Sentinel-2影像作為數(shù)據(jù)源. 數(shù)據(jù)從歐空局網(wǎng)站(https://scihub.copernicus.eu/)下載,數(shù)據(jù)級別為LIC級,此數(shù)據(jù)已經(jīng)過幾何校正和輻射校正,因此使用SNAP軟件進行大氣校正,大氣校正后將所有波段分辨率重采樣成10 m.
1.2.2 樣本數(shù)據(jù)
本研究使用現(xiàn)場實測數(shù)據(jù)并結(jié)合2017年的GF-2影像(1m)采用目視解譯方式進行樣本點的選取. 2018年6月對研究區(qū)進行了現(xiàn)場采樣,利用GPS對不同的植被類型樣點進行定位,同時以GF-2影像為基礎(chǔ)影像選取樣本點以增加樣本數(shù)量. 綜合考慮影像的分辨率與前人研究內(nèi)容,將研究區(qū)分為互花米草、蘆葦、堿蓬、光灘和水體5種類別.
面向?qū)ο笥跋裉幚硐葘τ跋襁M行分割,分割之后對影像進行分類. 分割算法有棋盤分割、多尺度分割等[19]. 本研究使用的是多尺度分割算法,它對相鄰像元或分割之后較小的對象進行合并,使對象內(nèi)部像元之間的同質(zhì)性最大[20],進行分割時分割尺度對分割的結(jié)果產(chǎn)生較大的影響. 本研究的分割尺度由eCognition9.0中的ESP2工具來確定,ESP2工具基于分割對象的局部方差(LV)及其變化率(ROC)度量尺度分割的合理性,ROC-LV曲線的峰值點所對應的尺度就是影像的最優(yōu)分割尺度[21-22]. 本研究在ESP2分割結(jié)果的基礎(chǔ)上,選出3個較高的峰值,然后分別試驗峰值對應下3個尺度的分割效果. 由于本文研究植被的分類,形狀參數(shù)對其分類影響不大,因此采用默認參數(shù),其中形狀因子為0.1,緊密度為0.5,各波段權(quán)重設(shè)為1,影像的分割結(jié)果如圖2所示,選取95、120與127分別進行分割,對比植被在3個尺度下的分割效果,選取的最終分割尺度為95.
圖2 最優(yōu)分割尺度估計結(jié)果Fig.2 Optimal segmentation scale estimation results
研究區(qū)主要由水體和植被組成,因為水中含有泥沙,其反射率會在可見光波段增加[23]. 植被光譜特征在可見光、近紅外波段表現(xiàn)出雙峰和雙谷的特征,即在紅光波段吸收而近紅外波段高反射和高透射,常利用這兩個波段進行相關(guān)運算對植被進行分類,同時紋理特征也可以提高分類的精度. 因此本文選取灰度共生矩陣計算紋理特征,共選取植被指數(shù)、水體指數(shù)、光譜特征與紋理特征4種類型的特征變量. 具體特征指標如表1所示.
表1 影像對象的分類特征描述Table 1 Description of classification features of image objects
表2 不同試驗方案組合Table 2 Combination of different test scenarios
在eCognition9.0中分割的基礎(chǔ)上,計算表1所示的不同特征. 為了提高濕地植被的分類精度,并探究不同的特征對于分類的重要性,將表1所示的分類特征進行不同的組合,設(shè)計如表2所示的5種不同的組合進行試驗,研究適合本研究區(qū)植被分類的特征組合.
隨機森林于2001年首次提出,以決策樹為基本單元,將多棵決策樹集合在一起的一種算法[24-25]. 每個決策樹相當于一個分類器,隨機森林包括兩層的隨機選擇:隨機選擇樣本數(shù)據(jù)和隨機選擇分類特征,這使得隨機森林不易過擬合,具備很好的抗干擾能力[26].
隨機森林建立可分為以下三步:(1)在所有樣本中,采用隨機且有放回的方式進行抽樣,組成訓練樣本集,每個訓練樣本集的樣本數(shù)大約為總樣本數(shù)量的2/3. (2)對抽取的訓練樣本集進行訓練,在決策樹生長過程中,每棵樹的每個節(jié)點處任意抽取特征,每個決策樹根據(jù)輸入的樣本數(shù)據(jù)與特征進行分類. (3)重復(1)、(2),通過多次樣本抽取和訓練得到多個決策樹模型,最后根據(jù)不同的決策樹分類結(jié)果投票決定最終的分類結(jié)果.
特征選擇可以在多維特征中篩選出最有利于分類的特征子集,進而提升隨機森林模型的效率和分類精度[27]. 選擇袋外數(shù)據(jù)(out-of-bag,OOB)誤差和Kappa系數(shù)進行模型評估以確定模型最優(yōu)特征數(shù)量. 在模型訓練過程中,通常將訓練數(shù)據(jù)按7∶3的比例分為訓練集和測試集,對測試集的預測值與真實值計算得到Kappa系數(shù)[28]. 而OOB誤差是指在抽樣的過程中約有1/3的原始樣本數(shù)據(jù)未被選中. OOB誤差是隨機森林用未進行模型訓練的袋外數(shù)據(jù)計算得到的泛化誤差,可以表征特征的重要性(variable important,VI)[29]. 公式為
在特征重要性的基礎(chǔ)上,采用遞歸消除法進行特征選擇. 步驟如下:(1)計算所有特征的重要性并進行排序,選定要消除特征的比例. (2)以特征重要性為基礎(chǔ)消除排序靠后的特征,得到新的特征集. (3)用新的特征集再次進行隨機森林建模同時計算袋外誤差率,重復此步驟,最后剩下M個特征[31]. 通過以上方式得到不同特征集和每個特征集對應的袋外誤差率,選擇袋外誤差率較低和Kappa系數(shù)較高的特征作為最優(yōu)特征集.
以2017年9月14日經(jīng)過融合后的GF-2影像數(shù)據(jù)為依據(jù),在ArcGIS中生成500個均勻分布在整個研究區(qū)范圍內(nèi)的隨機點作為驗證樣本. 通過對驗證樣本和分類結(jié)果的比較,得到混淆矩陣,從混淆矩陣中計算總體精度(OA)、制圖精度(PA)、用戶精度(UA)和Kappa系數(shù)對不同特征組合的分類結(jié)果進行評價.
制圖精度(生產(chǎn)者精度)指影像被分類為A的像元數(shù)與實際A的像元數(shù)之比. 用戶精度指影像正確分類為A的像元數(shù)和與分出的所有A類像元數(shù)之比. 總體精度指被正確分類的像元總和與總像元數(shù)之比. 而Kappa系數(shù)與總體分類精度相比,將漏分和錯分的像元也同時考慮進來[32].
圖3 2018年不同地物光譜曲線與指數(shù)圖Fig.3 Spectral curves of different features and vegetation in 2018
在ENVI5.3中以影像為基礎(chǔ),選取不同地物的純凈樣本,統(tǒng)計不同地物類型的光譜反射率與部分植被指數(shù)值,組成數(shù)據(jù)集. 根據(jù)這些統(tǒng)計值做典型地物的光譜曲線,如圖3所示. 圖中地物的光譜特征存在差別,光灘、水體與植被單獨使用光譜特征便可以進行區(qū)分. 3種植被的光譜信息較為相近,其中蘆葦在紅邊波段至近紅外波段(B6-B8A)與其他2種植被的光譜差異較大,但互花米草與堿蓬的光譜值極為相近,使用光譜特征難以區(qū)分. 由圖3(c)可知,蘆葦?shù)母鞣N指數(shù)反射率值較高且與其他兩種植被差別較大,可以與其他2種植被進行區(qū)分,3種植被在REDNDVI的反射率有所差別,可以用來植被間的區(qū)分,而堿蓬與互花米草的另外3個指數(shù)的值十分相近,很難進行直接的區(qū)分. 雖然單波段與單指數(shù)可以實現(xiàn)個別地物的區(qū)分,但是區(qū)分效果不同且全部地物不能依靠單一特征進行有效區(qū)分,因此要對特征進行組合. 不同的植被指數(shù)、水體指數(shù)與光譜的組合對地物分類的作用不同,多個特征的組合會優(yōu)于單個特征,但是特征數(shù)量過多又會增加數(shù)據(jù)的冗余度,因此找出合適地物分類的特征組合十分重要.
根據(jù)表1的分類特征與表2的實驗方案,本文采用R軟件實現(xiàn)隨機森林模型的構(gòu)建. 在模型訓練中,需要對參數(shù)進行尋優(yōu),包括決策樹的數(shù)量、特征數(shù)量、樹的最大深度與葉節(jié)點最大數(shù)目等. 其中決策樹的數(shù)量與特征的數(shù)量對模型分類精度影響較大,因此對這兩個參數(shù)進行優(yōu)化[33]. 首先采用逐一增加變量的方法建模,根據(jù)OOB誤差確定用于分類的特征數(shù)量. 在特征數(shù)量確定后,建立相應的模型,并對其進行可視化分析,繪制模型誤差與決策樹數(shù)量的關(guān)系圖,從而確定決策樹的數(shù)量. 如圖4為對所有的特征進行建模的決策樹的數(shù)量與誤差精度圖. 可見,當樹的數(shù)量大于700后,模型精度基本無變化,因此最終選取的決策樹的數(shù)量為700.
圖4 模型誤差與決策樹數(shù)量關(guān)系圖Fig.4 Plot of model error versus number of decision trees
本文首先使用所有的特征進行建模,并對特征重要性進行計算排序,每次去掉排序靠后的20%的特征,然后使用其余的特征再次進行隨機森林建模,在此基礎(chǔ)上共進行13次迭代消除. 每次迭代消除后計算OOB誤差與Kappa系數(shù),根據(jù)OOB誤差與Kappa系數(shù)進行特征的優(yōu)選.
由圖5可知,Kappa系數(shù)隨著分類特征數(shù)量的不斷減少呈現(xiàn)波動下降趨勢,當分類特征數(shù)量減少到25時,模型精度上升. 隨著特征數(shù)量的不斷減少,精度總體呈下降趨勢. 隨著分類特征數(shù)量減少,OOB誤差總體呈現(xiàn)較大的波動,可能是本研究選取的特征數(shù)量較少,因此每次迭代消除的數(shù)量也較少,使OOB缺乏規(guī)律. 最終,當剩余25個特征時Kappa系數(shù)最高為0.81,此時OOB誤差也較小,因此選擇重要性前25的特征作為最優(yōu)特征集用于植被分類,選取的25個特征重要性排序如圖6所示. 在排序靠前的特征中,植被指數(shù)占得比例較大,且得分較高.
圖5 模型誤差與特征數(shù)量關(guān)系圖Fig.5 Map of relationship between model error and number of feature
圖6 特征重要性得分圖Fig.6 Map of feature importance ranking chart
5種不同方案的分類結(jié)果如圖7所示,從分類圖中可以定性地判斷不同分類方案的分類效果. 方案1、方案2與方案3的分類效果較差,方案1中互花米草被錯分為堿蓬的較多,部分蘆葦也錯分為堿蓬,方案2中較多蘆葦被錯分為互花米草,方案3中堿蓬與互花米草的交錯帶被錯分為蘆葦,方案4與方案5的分類效果相比于前3種方案分類效果較好,但方案4中也有部分的蘆葦被錯分為互花米草. 在所有的分類方案中,蘆葦與互花米草交錯帶都出現(xiàn)了不同程度的錯分,分析原因可能是相鄰植被常常混生分布,之間沒有明確的界限,在中等分辨率的影像中常以混合像元形式存在,從而導致濕地類型的誤判斷.
對5種試驗方案的分類結(jié)果進行對比,由表3可知,方案1的總體精度為83%,Kappa系數(shù)為0.78,在所有方案里的分類精度最低. 方案2中植被指數(shù)與水體指數(shù)利用了波段之間的相互運算,分類精度有所提高. 方案3是光譜、植被指數(shù)與水體指數(shù)的綜合分類,總體精度達到了84.50%,Kappa系數(shù)提高到了0.80,分類效果進一步提升. 方案4中在方案3的基礎(chǔ)上加入了紋理特征,總體精度比方案3增高了0.1%. 方案5是按照特征重要性排序選出的優(yōu)選組合,相比于前4種分類方案,總體精度為87.07,Kappa系數(shù)為0.84,在所有的分類方案中精度最高,分類效果較好.
圖7 不同方案分類結(jié)果圖Fig.7 Classification results of different scenarios
表3 分類結(jié)果精度統(tǒng)計Table 3 Classification results precision statistics
從植被的分類效果來看,5種分類方案中水體與光灘的分類精度均較高,這與分類圖中展現(xiàn)的一致. 對于植被分類精度,經(jīng)過特征優(yōu)選的方案5互花米草的用戶精度達到了97.73%,精度較高. 蘆葦?shù)挠脩舴诸惥葹?4%,而堿蓬分類精度較差. 本研究區(qū)內(nèi)的3種植被的光譜特征較為相近,因此想通過增加分類特征進行區(qū)分,但是特征數(shù)量過多會增加數(shù)據(jù)的冗余,也不利于分類精度的提高. 通過特征優(yōu)選對變量進行了部分篩選,通過分類圖來看,植被整體的分類效果較好,但對于3種植被類型交錯帶部分,因植被之間的混生分布,導致植被的分類精度有所下降.
本研究以Sentinel-2遙感影像為數(shù)據(jù)源,通過面向?qū)ο蠓椒ㄟM行分割,結(jié)合ESP2工具確定分割尺度為95. 在分割的基礎(chǔ)上計算光譜特征、植被指數(shù)、水體指數(shù)以及紋理特征4種基本特征變量,并且使用R構(gòu)建隨機森林模型進行特征重要性的計算及植被分類研究. 為了研究不同特征變量的分類精度設(shè)計了 5種試驗方案,并用隨機森林算法對不同方案的分類精度進行分析. 結(jié)果表明:以光譜數(shù)據(jù)為基礎(chǔ),增加不同特征變量對濕地分類的精度影響不同. 單獨以光譜數(shù)據(jù)進行分類,分類效果較差,Kappa系數(shù)為0.78. 使用植被指數(shù)與水體指數(shù)結(jié)合分類,相比于使用光譜特征分類的效果好,Kappa系數(shù)提升為0.79. 光譜特征、植被指數(shù)與水體指數(shù)共同參與分類,分類效果進一步提升. 通過特征重要性選擇出的特征優(yōu)選組合相比于前4種方案,分類效果最好,總體精度為87.07%,Kappa系數(shù)為0.84. 說明基于特征優(yōu)選的面向?qū)ο笈c隨機森林相結(jié)合的分類算法對濱海濕地植被的分類效果較好,可以用于濕地的植被分類研究.