趙志國
(上海元易勘測設(shè)計有限公司, 上海 201203)
植被是構(gòu)成地球生態(tài)循環(huán)的重要組成部分,可以有效監(jiān)測地球的生態(tài)變化。如今伴隨著衛(wèi)星技術(shù)以及傳感器的發(fā)展,多光譜遙感影像的應(yīng)用越來越廣泛。現(xiàn)在多光譜遙感影像經(jīng)常用于植被分類,傳統(tǒng)的人工目視解譯法耗費時間,而且對于解譯者來說需要有十分專業(yè)的知識,花費大量的人力才能夠完成工作。深度學(xué)習(xí)被大量應(yīng)用于各種不同的研究領(lǐng)域,原因是深度學(xué)習(xí)在計算機應(yīng)用中顯示出的極高效率,遙感領(lǐng)域也是如此,以前超大數(shù)據(jù)量的運算和處理,人工無法勝任,深度學(xué)習(xí)到來之后就變得不再那么遙不可及。遙感領(lǐng)域中對數(shù)據(jù)的發(fā)掘以及利用都可以通過深度學(xué)習(xí)來實現(xiàn)。
在遙感影像植被分類中,中低分辨率的多光譜影像能夠用于較大尺度的植被群落級別的分類,我們通過使用Google Engine合成多個時段的中分辨率成像光譜儀(Moderate-resolution Imaging Spectroradiometer,MODIS)反射率數(shù)據(jù)構(gòu)建新的偽高光譜數(shù)據(jù),該數(shù)據(jù)具有時間特性,在一定程度上可以保留全年的相關(guān)信息,也可以降低云霧等信息造成的干擾。
本研究所用的遙感影像數(shù)據(jù)為2016年1月1日至2016年12月31的MODIS數(shù)據(jù),影像地區(qū)是上海、福建、陜西、遼寧。數(shù)據(jù)源選擇的是2016年目標(biāo)區(qū)域全年MODIS數(shù)據(jù),共366 d的樣本反射率數(shù)據(jù)。
訓(xùn)練集數(shù)據(jù)選取的是MODIS數(shù)據(jù)中的MOD09GA.006 Terra Surface Reflectance Daily Global 1 km和500 m影像集,其對大氣氣體以及氣溶膠的低水平數(shù)據(jù)進行了校正,MOD09GA提供了1~7個波段,訓(xùn)練集所選取的是較為常見的紅光、藍光、綠光和近紅外光4個波段。
驗證集數(shù)據(jù)采用的是MODIS Land Cover(MCD12Q1)土地覆蓋數(shù)據(jù)集,MCD12Q1產(chǎn)品數(shù)據(jù)中含有13套分類標(biāo)準(zhǔn),選擇其中LC_Type3葉面積指數(shù)(Leaf Area Index,LAI),此套標(biāo)準(zhǔn)中含有11個分類類型,足夠500 m分辨率下進行分類研究[1]。
在使用MODIS官網(wǎng)下載的影像過程中發(fā)現(xiàn),找尋無云數(shù)據(jù)十分困難,而且有云數(shù)據(jù)在計算過程中有干擾作用,良好的無云數(shù)據(jù)會使試驗效果更真實。為此,我們選擇使用Google平臺上的MODIS數(shù)據(jù)。Google Earth Engine平臺上存儲著公開可用的2000年至今的MODIS數(shù)據(jù)。由于每個遙感影像數(shù)據(jù)并不是所有部分都被大量云霧所遮蓋,利用這個特點,找出不同影像上含云量稀少部分,進行裁剪,之后將所有裁剪下來的部分進行拼接,成為一幅“無云”的遙感影像。通過實驗發(fā)現(xiàn)每8個數(shù)據(jù)就能很好地拼接一個無云數(shù)據(jù)。于是使用8 d合成算法選出 8 d內(nèi)云霧、觀測角度、太陽角度等干擾最小的反射率數(shù)據(jù),根據(jù)所需數(shù)據(jù)量可合成相應(yīng)數(shù)據(jù)[2]。
通過真實值數(shù)據(jù)中的分類點,進行隨機選點來制作測試集、驗證集和訓(xùn)練集,其中訓(xùn)練集隨機選取了1萬個點作為訓(xùn)練數(shù)據(jù),驗證集選取了總大小的20%的點,剩下的點作為測試集。在進行隨機選點的過程中確保三個數(shù)據(jù)集中沒有重合的部分,為了減少計算量,使用掩膜對矩陣進行處理,掩膜矩陣中的0和1分別代表是否選取該位置點。
本文為了驗證時序影像對分類精度的影響,從Google Earth Engine下載了1個月、3個月、6個月、9個月以及12個月數(shù)據(jù)量的影像,利用matlab對影像數(shù)據(jù)進行處理并將影像矩陣進行堆疊,提取出對應(yīng)時間長度的紅綠藍(Red Green Blue,RGB)三色波段數(shù)據(jù)單獨作為一個輸入數(shù)據(jù),圖1為預(yù)處理流程。
圖1 預(yù)處理流程
1995年,貝爾實驗室的Tin Kam Ho提出了隨機決策森林。隨機森林(Random Forest,RF)是以決策樹為基礎(chǔ)的一種高級算法。形似決策樹一般,隨機森林既可以用來回歸也可以用來分類。隨機構(gòu)建一個森林,森林中由許多獨立的決策樹組成。實際上隨機森林從本質(zhì)上來說是屬于機器學(xué)習(xí)中的一個重要分支,叫作集成學(xué)習(xí)。集成學(xué)習(xí)通過建立幾個模型的組合來集中解決單一的預(yù)測問題。它的工作原理是通過生成多個分類器,各自獨立學(xué)習(xí)特征并且做出預(yù)測[3]。
然后將這些預(yù)測合成為單一預(yù)測,所以比任何一個單分類的方法做出的預(yù)測都要準(zhǔn)確。隨機森林在分類中的精度要優(yōu)于單棵決策樹,隨機森林較之于決策樹引入了隨機變量來控制每一棵樹的生長。對于第i棵樹引進的隨機變量θi,它和前面的i-1隨機變量θ1,θ2,…,θi-1是獨立分布的[4]。
目前,隨機森林方法相較于其他神經(jīng)網(wǎng)絡(luò)計算方法,其計算量要小很多且結(jié)果精度有一定保證,因此,常用于大面積農(nóng)業(yè)遙感影像分類、森林火災(zāi)預(yù)警、森林資源調(diào)查等方面,對于地理國情監(jiān)測和土地分類覆蓋方面有著較為重要的作用。
對MCD12Q1中的圖表數(shù)據(jù)對應(yīng)的遙感影像做好標(biāo)記得到真實值數(shù)據(jù),反射率數(shù)據(jù)預(yù)處理后將目標(biāo)的區(qū)域作為訓(xùn)練的數(shù)據(jù),然后將這其中的20%作為驗證組,將數(shù)據(jù)輸入訓(xùn)練方法中進行訓(xùn)練,得到結(jié)果后對真實值數(shù)據(jù)進行精度對比,之后再將數(shù)據(jù)作為初始數(shù)據(jù)代入之前的方法中進行訓(xùn)練。設(shè)定隨機森林生成樹木最大為500,挑選出其中精度最高的一組作為植被分類圖,使用python將矩陣數(shù)據(jù)進行上色,得到可視化的植被分類圖。
在完成隨機森林模型建立后,將1個月、3個月、6個月、9個月以及12個月的數(shù)據(jù)依次帶入模型中進行計算,得到的數(shù)據(jù)如表1所示。
表1 識別準(zhǔn)確率表 單位:%
分析以上結(jié)果可以得出:影像時序豐度越大,得到的分類精度越高,但隨著時序豐度的增加,準(zhǔn)確率曲線對于其敏感度會下降,最終準(zhǔn)確率會在一年準(zhǔn)確率的范圍內(nèi)進行微小波動,不再大幅度提升。其原因在于,在一年時間內(nèi),由于選用驗證數(shù)據(jù)標(biāo)準(zhǔn)為葉面積指數(shù)(Leaf Area Inde,LAI),針對植被變化會較為敏感,而且影像分辨率為500 m,對于小范圍變化同樣不敏感,所以當(dāng)時序數(shù)據(jù)量達到12個月時該地區(qū)的目前狀況下的特征提取已經(jīng)比較完備,所以準(zhǔn)確率會進行波動,不再增長。
本次試驗針對四個目標(biāo)區(qū)域進行了對比,分類結(jié)果如表2所示。
表2 隨機森林分類結(jié)果的橫向?qū)Ρ?/p>
表2中左側(cè)GT為MCD12Q1中真實值數(shù)據(jù)影像,之后依次為本地區(qū)1個月、3個月、6個月、9個月以及12個月的數(shù)據(jù)帶入模型中進行計算得到的識別結(jié)果,圖中的空白區(qū)域為水體。根據(jù)表2的分類結(jié)果,可以看到,隨機森林分類方法精度效果受水體限制較大,在上海區(qū)域內(nèi)擁有較多水體,在進行隨機森林決策樹訓(xùn)練的時候較多參數(shù)分配給了水體的識別,而且在圖中可以發(fā)現(xiàn)分類精度較高的地區(qū)分類種類相較于低精度地區(qū)都較少,分類種類較少時隨機森林的分類精度更高。
本文使用MOD09GA數(shù)據(jù)并且用其中LAI層植被反射率數(shù)據(jù)作為輸入矩陣,運用GEE通過8 d合成算法對數(shù)據(jù)進行處理,得到云量最低反射角度最好的數(shù)據(jù),通過RGB三波段輔助判斷,先對植被邊緣進行篩選。針對上海、遼寧、陜西、福建四個地區(qū)的MODIS影像數(shù)據(jù),建立每個地區(qū)5個時間序列的訓(xùn)練集,通過隨機森林機器學(xué)習(xí)方法,學(xué)習(xí)一年內(nèi)目標(biāo)區(qū)域的時序變化規(guī)律,從而獲取更為精確的分類效果,根據(jù)區(qū)域特點對比研究該算法對于上述四個地區(qū)識別方法的優(yōu)劣。實驗結(jié)果顯示:隨機森林分類法在沒有海部的地區(qū)識別效果能夠達到90%以上,使用訓(xùn)練集數(shù)據(jù)量越大,識別率越高,數(shù)據(jù)量達到一年左右后,識別率只有微小波動。
隨機森林分類法已經(jīng)證明是同類分類法中效果最好的一種,其運算速度較為迅速而且分類精度也有一定的保障;在我們以往的工作過程中發(fā)現(xiàn),隨機森林分類方法的穩(wěn)定性超過了神經(jīng)元網(wǎng)絡(luò)分類法,受工作時間及硬件的限制,本次試驗并沒有將現(xiàn)有數(shù)據(jù)進行神經(jīng)元網(wǎng)絡(luò)分類識別,在以后的試驗中我們會增加分類識別的方法以獲得更完善的結(jié)論。
去云處理將產(chǎn)生影像部分不連續(xù),這在一定程度上會導(dǎo)致識別率下降,增加時序影像的數(shù)量一定程度上能夠彌補這種不足,使隨機森林分類法得到更高的準(zhǔn)確率。比較遺憾的是本次試驗只用了反射率數(shù)據(jù)作為輸入數(shù)據(jù),并沒有比較EVI和NDVI的時間序列數(shù)據(jù),理論上,通過增加時間序列數(shù)據(jù)的輸入應(yīng)該可以對訓(xùn)練數(shù)據(jù)的準(zhǔn)確性進行二次修正,會進一步提升隨機森林分類法的精度。