李煜 李崇貴 劉思涵 馬婷 吳夢月
(西安科技大學,西安,710054)
森林樹種識別及其分布情況制圖對于森林管理、森林擾動監(jiān)測、環(huán)境和生物多樣性評估以及碳儲量和蓄積量估算至關重要[1]。遙感數(shù)據(jù)(如光學遙感數(shù)據(jù)、主動式雷達遙感數(shù)據(jù)等)均可實時獲取大量關于森林物種組成的信息,并且與傳統(tǒng)的實地監(jiān)測相比,所需的時間更少,并且可以實現(xiàn)大面積制圖以及覆蓋到人類難以進入的森林區(qū)域。多光譜圖像一直是森林物種組成制圖中最常用的數(shù)據(jù)(特別是來自Landsat 8的圖像)[2-4],然而,由于混合像素的出現(xiàn),中等空間分辨率遙感數(shù)據(jù)的使用面臨挑戰(zhàn)[5]。一般情況下,中低空間分辨率數(shù)據(jù)雖然可以繪制森林類型覆蓋圖,但是分類結果沒有詳細分析樹種組成,不能被森林管理者使用。高光譜影像數(shù)據(jù)和激光雷達數(shù)據(jù)的出現(xiàn)使得森林樹種精細分類制圖成為可能[6-7]。首先高光譜傳感器可以對每個空間像元經(jīng)過色散,形成幾十個乃至幾百個窄波段以進行連續(xù)的光譜覆蓋,從而更加細致的捕獲到植被的生化變化過程,因此在許多研究中高光譜數(shù)據(jù)的結果都優(yōu)于多光譜影像。然而高光譜遙感圖像各波段間存在著高相關性和高冗余度,在處理上有一定的困難,高光譜影像也需要更高的計算能力[8]。此外,陸地激光雷達雖然也能用于樹種分類,提供關于森林結構的詳細的信息,但是由于激光雷達和高光譜數(shù)據(jù)的操作使用限制以及高額的使用成本,這些數(shù)據(jù)的適用性在大區(qū)域研究或全球范圍內(nèi)仍然是有限的,所以在大區(qū)域植被和森林覆蓋研究中,哨兵2A(具有相對密集、可自由獲取的多光譜影像)是更為優(yōu)勢的數(shù)據(jù)來源。李哲等[9]利用高分二號影像構建了多種單時相及多時相影像組合,利用支持向量機(SVM)和隨機森林(RF)兩種分類器,分別實現(xiàn)了不同時相及特征維度的面向對象的8個樹種的分類,總體精度為63.5%~83.5%、卡帕(Kappa)系數(shù)為0.57~0.81。蔡林菲等[10]基于高分二號影像結合多種遙感及GIS特征因子,比較支持向量機、隨機森林和極端梯度提升(XGBoost)等3種分類算法,對龍泉市的闊葉樹、馬尾松、杉木和毛竹等4種主要優(yōu)勢樹種進行分類,采用極端梯度提升分類模型的分類總精度為83.88% ,卡帕系數(shù)為0.78,比支持向量機和隨機森林分類方法有明顯提高。林志瑋等[11]以福建安溪縣為例,采用無人機獲取不同高度的航拍影像,采用卷積神經(jīng)網(wǎng)絡(DenseNet)建立樹種識別模型,表明不同航拍高度的樹種識別模型,其分類精度均達 80% 以上,最高精度為87.54%。Laurel et al.[12]使用激光雷達數(shù)據(jù),對美國加州國家保護區(qū)及周邊峽谷森林樹種進行分類,研究使用支持向量機和隨機森林分類器,結果表明所有的分類結果的整體準確率在90%以上,當使用額外的訓練樣本時,支持向量機的表現(xiàn)優(yōu)于隨機森林,增加訓練樣本也可以提高支持向量機分類器的個體性能。Nicola et al.[13]研究了哨兵2A在地中海進行森林類型制圖的能力,結果表明夏季獲取的單個哨兵2A圖像無法區(qū)分森林類型,需要在不同物候期收集的多時相圖像,最佳時相組合影像的準確度大于83%。物候變化可以提高樹種間光譜的可分性,物候周期引起的反射率變化有助于森林樹種的準確分類。在利用多光譜影像進行森林樹種分類,關鍵問題是多時相數(shù)據(jù)的選擇和組合方法[14]。本研究應用夏季、秋季和冬季的哨兵-2A時間序列影像對樹種進行分類,探討哨兵-2A最佳影像組合、影像采集日期和哨兵-2A各波段對樹種分類精度提高的貢獻大小。
大孤家林場位于清原縣東北部,東經(jīng)124°45′58″~125°8″,北緯42°25′1″~42°15′55″。地勢呈東高西低,地貌為低山丘陵,海拔200~600 m。氣候屬于溫帶大陸性氣候,年平均氣溫6 ℃,年降水量500~800 mm,降水量主要集中在7、8月份。大孤家林場是國家級的林木良種繁育基地,林場面積230 hm2,樹種以日本落葉松(Larixkaempferi(Lamb.) Carr)為主體,兼有紅松(PinuskoraiensisSieb. et Zucc.)、白樺(BetulaplatyphyllaSuk.)、水曲柳(FraxinusmandshuricaRupr.)等。土壤為棕色森林土。
哨兵-2A衛(wèi)星攜帶多光譜成像儀(MSI),高度為786 km,可覆蓋13個光譜波段,幅寬達290 km,地面分辨率分別為10、20和60 m,衛(wèi)星的重訪周期為10 d,兩顆互補,重訪周期為5 d,從可見光和近紅外到短波紅外,具有不同的空間分辨率,在光學數(shù)據(jù)中,哨兵2A數(shù)據(jù)在紅邊范圍內(nèi)含有3個波段的數(shù)據(jù),這對監(jiān)測植被健康信息非常有效[15]。
哨兵-2A遙感數(shù)據(jù)來源于哥白尼開放存取中心(https://scihub.copernicus.eu/)提供的2018年覆蓋研究區(qū)的6景不同季節(jié)的無云影像(見圖1),其他輔助數(shù)據(jù)包括森林二類調查數(shù)據(jù)以及研究區(qū)行政區(qū)劃數(shù)據(jù)。研究中選擇了哨兵-2A影像10 m和20 m空間分辨率的波段(見表1)。
圖1 以森林為例的哨兵2A影像
表1 本研究使用的哨兵-2A光譜波段信息
樹種分類的樣地數(shù)據(jù)是通過研究區(qū)二類調查數(shù)據(jù),結合谷歌地球上的多時相影像人工采集得到。即將二類調查數(shù)據(jù)加載到谷歌地球專業(yè)版中,結合谷歌地球的歷史影像數(shù)據(jù)庫提供的時間序列遙感影像,通過目視解譯選擇各類型樹種樣地,解譯生成樣本數(shù)據(jù)。依據(jù)二類調查數(shù)據(jù)資料優(yōu)勢樹種屬性在研究區(qū)域內(nèi)共采集了包含落葉松、紅松、闊葉林、其他常綠針葉、非林地(耕地、建筑、水體)等主要特征地物樣本。通過地理信息系統(tǒng)檢查空間拓撲關系,刪除了覆蓋混合像元的樣地,以確保樣地完全落在單一林種區(qū)域,減少因為像元光譜混合造成的分類精度誤差。研究中所有樣地均設置為0.08 hm2矩形樣地。各類樹種訓練樣本統(tǒng)計數(shù)據(jù)見表2。
表2 訓練樣本信息
樹種分類方法選擇隨機森林分類器進行,隨機森林是通過集成學習的思想將多棵樹集成的一種算法,基本單元是決策樹,其本質屬于機器學習的一大分支——集成學習方法。集成分類器假設是當使用一組弱學習器時,與僅使用它們中的單個分類器相比,可以獲得更好的性能。隨機森林與其他非參數(shù)分類器相比,具有計算速度更快,成本更低的優(yōu)勢。此外,隨機森林可以抵抗過擬合問題的發(fā)生,并且可以管理許多輸入變量而無需刪除變量,這些優(yōu)勢決定了隨機森林適合時間序列遙感影像分類。實驗在Enmap-Box軟件的監(jiān)督分類函數(shù)中應用了隨機森林算法,將生成的樣本數(shù)據(jù)用作分類的輸入數(shù)據(jù),并且按照7∶3的比例將其隨機分成訓練樣本和驗證樣本,然后進行模型訓練,生成隨機森林模型變量的重要性報告。通過對不同單時相影像和根據(jù)隨機森林變量重要性報告進行的不同多時相影像組合進行多次分類實驗,將具有較高總體分類精度(OA)和Kappa系數(shù)的影像或影像組合認為是最佳分類效果。
隨機森林可以對特征變量重要性進行排序,隨機森林模型在得到特征變量的重要性得分后,可以根據(jù)特征變量重要性評級得分,按照從大到小的順序降序排列,完成變量選擇過程[16]。并且可以在特征變量選擇開始之前設定特征變量子集大小,根據(jù)子集的大小選取變量[17-18]。對于每顆樹,按照基尼系數(shù)和信息熵給變量特征排序,然后對整個森林取平均值[19]。隨機森林模型在分類中通常應用基尼系數(shù)或信息熵進行特征變量重要性評級。實驗計算了60個波段信息的重要性統(tǒng)計信息,這里僅選取20個最重要的特征變量,即20個分別具有最高基尼系數(shù)和信息熵值的變量(見圖2)。
由圖2可知,基尼系數(shù)和信息熵統(tǒng)計數(shù)據(jù)都顯示10月18日和11月10日的短波紅外2波段和紅邊2波段在隨機森林分類器中對樹種分類的重要性最高。總體上,對分類貢獻度高的影像大多是秋冬季節(jié),波段分布以紅邊范圍內(nèi)波段為主,這也符合哨兵2A數(shù)據(jù)在紅邊范圍設計3個波段用以監(jiān)測植被健康信息的目的。其次貢獻度較高波段為兩個短波紅外波段以及紅光波段,均是對植被比較敏感的監(jiān)測波段。
圖2 對樹種分類最重要的20個變量的基尼系數(shù)和信息熵
結合兩種重要性評價方法所得重要性排序圖以及單時相影像,共設計分類組別9組,分別對6景不同時相遙感影像、兩組按照重要性所得20個波段進行組合的多時相遙感影像以及由6景影像全部波段組合形成的遙感影像應用隨機森林分類器的監(jiān)督分類。
由表3可知,在應用單時相哨兵2A影像進行監(jiān)督分類實驗時,8月2日的影像取得了最高精度,總體精度為82.17%,其次是5月24日以及10月18日的影像,總體精度分別為82.14%和82.09%。在多時相組合圖像的分類結果中,總體精度大幅提高。組合了所有影像波段的影像分類效果最好,總體精度高達87.45%。按照基尼系數(shù)所得統(tǒng)計信息的影像組合分類總體精度為86.65%,信息熵的影像組合總體精度為84.97%,相較于季相信息豐富的單時相影像沒有很大提升。
表3 單時相影像及影像組合的分類總體精度和Kappa系數(shù)
應用精度評估數(shù)據(jù),最終選擇使用所有波段影像獲得大孤家林場樹種分類專題圖(見圖3)。
圖3 大孤家林場樹種分類專題圖
以大孤家林場為例,使用2018年獲取的6景哨兵2A無云影像,影像獲取的時間序列包含了大部分樹種關鍵生長期,因此可以全面獲得有關樹種光譜值隨時間變化的趨勢。本研究驗證了使用多時相遙感影像可以提高樹種分類的精度的結論。使用多時相影像組合的分類精度明顯優(yōu)于單時相影像分類精度,不同季節(jié)、不同樹種生長期的影像組合能夠大幅度提高樹種識別率。通過使用多時相影像,一些樹種的特定差異會表現(xiàn)的更加明顯,比如落葉松與其他常綠針葉的差異。而對于季相差異不是很大的樹種,增加不同生長期的波段組合并不能改善分類精度,因為它們的光譜之間具有高度相關性,無法體現(xiàn)出差異。從隨機森林模型的變量重要性報告中可知,對總體精度提升貢獻最高的影像波段都來自于10月18日(秋季)和11月10日(冬季)的影像,從這兩景影像中也可直觀看到地物顏色發(fā)生了明顯改變。物候差異一直都是影響光學遙感影像進行不同植被覆蓋分類的重要因素,闊葉林最重要的物候變化來自于10月份的影像,針葉林在生長初期的影像更能進行分辨。
研究發(fā)現(xiàn)哨兵2A影像的多個波段都提供了大量有關植被特性的有價值的信息,基尼系數(shù)和信息熵的統(tǒng)計數(shù)據(jù)都表明,并非所有光譜波段都能對樹種分類精度提高做出同等貢獻。研究中最重要的波段信息都來自于哨兵2A影像的3個紅邊波段、2個短波紅外波段以及近紅外波段(窄)、可見光紅色和綠色。有類似研究結論也證實了哨兵2A影像短波紅外和紅邊波段的對樹種分類重要性[20],這與本研究中選擇的對樹種分類精度改善提供高貢獻度的波段吻合。
基于光學遙感影像的森林樹種分類存在的重要問題是森林覆蓋區(qū)域復雜的環(huán)境條件以及生物多樣性。一方面,森林覆蓋區(qū)域的影像受云層覆蓋、大氣和地形等因素影響,很難獲得各樹種關鍵物候期的高質量和無云影像,但哨兵2A衛(wèi)星具有較短的重訪周期克服了該問題。另一方面,林分因子的異質性和破碎化導致不占優(yōu)勢的樹種難以收集足夠的樣本來進行細化,常見的優(yōu)勢樹種分類精度更高,而小類別樹種更容易錯分,這是森林樹種的光譜相似性以及樣本量不足以形成均質林分導致。后續(xù)研究中可以增加小類別樹種樣地數(shù)量以期降低該類別樹種錯分誤差。因此,利用哨兵2A多時相遙感影像以及隨機森林方法在森林樹種分類應用方面具有較高的精度,可應用多時相遙感影像對林分樹種制圖與監(jiān)測。