李 斌,李崇貴,李 煜
(西安科技大學,西安 710054)
華北落葉松(Larixprincipis-rupprechtii)是我國華北地區(qū)高山針葉林帶中的主要森林樹種,其具有耐寒、耐濕、耐旱,對土壤適應性強且材質(zhì)良好、用途廣等優(yōu)秀特點[1]。塞罕壩機械林場是大型國有林場,落葉松人工林是林場森林經(jīng)營管理的主體,應用遙感技術(shù)快速提取落葉松具有重要的現(xiàn)實意義?,F(xiàn)有的遙感分類方法中,建立在統(tǒng)計理論基礎(chǔ)上的機器學習方法已經(jīng)成為影像分類的可靠方法[2-4],然而這些大多是基于單機分類,耗時長、效率低下。
Google Earth Engine(GEE)是由谷歌提供的基于云的地理空間分析平臺,它代表了谷歌先進的存儲與計算能力,為科研人員提供多種類型的遙感數(shù)據(jù)集用以快速解決諸如自然資源、災害、環(huán)境等方面的問題。盧獻健等[5]使用GEE平臺,應用遙感影像結(jié)合不同比值指數(shù)實現(xiàn)了桉樹(Eucalyptusrobustasmith)的快速提取,結(jié)果表明,使用決策樹和隨機森林分類器的分類效果最好,Kappa系數(shù)均在0.8以上,且一致性較高;何昭欣等[6]利用GEE結(jié)合Sentinel-2數(shù)據(jù)構(gòu)建遙感指數(shù)+紋理+地形多特征數(shù)據(jù)集并對特征進行優(yōu)化,實現(xiàn)江蘇省夏收作物遙感提取,結(jié)果表明,使用隨機森林分類器的效果最好,總體分類精度為93%;邵亞奎等[7]利用GEE平臺構(gòu)建多源數(shù)據(jù)(Landsat/Sentinel-2)的多特征數(shù)據(jù)集,采用隨機森林分類器對西天山森林自動分類,研究發(fā)現(xiàn),各數(shù)據(jù)源的分類精度均在80%以上,Kappa系數(shù)均大于0.7,其中使用Sentinel-2的分類精度與Kappa系數(shù)最高;郭瑞霞[8]利用多源數(shù)據(jù)實現(xiàn)孟家崗林場落葉松人工林提取,研究發(fā)現(xiàn),落葉松人工林在近紅外波段與其他樹種差異明顯,引入DEM并使用NDVI,DVI等比值特征對落葉松提取有一定的指導作用。本研究利用GEE平臺,實現(xiàn)塞罕壩機械林場中主要樹種分類,以及落葉松的提取,研究內(nèi)容包括:1)原始遙感影像數(shù)據(jù)集的構(gòu)建。對2019年覆蓋研究區(qū)309景Sentinel-2影像數(shù)據(jù)進行預處理,按月合成12景影像數(shù)據(jù)集。2)比值特征的構(gòu)建。通過GEE計算數(shù)據(jù)集中影像的比值特征組成比值特征集。3)紋理及地形特征的構(gòu)建。4)特征優(yōu)選。比較不同地類樣本點上的特征變化曲線,篩選出能較好區(qū)分落葉松的波段。5)比較最小距離分類器、CART分類器及隨機森林分類器的分類精度,以獲取效果最好的分類結(jié)果。
塞罕壩機械林場位于河北省承德市圍場滿族蒙古族自治縣以北(42°02′~42°36′N,116°51′~117°39′E),是省屬大型國有林場和國家級森林公園、國家級自然保護區(qū)。全場土地總面積 92 634.7hm2,有林地面積68 842.5hm2,約占林場總面積的74.32%。塞罕壩林場海拔1 000~2 000m,屬寒溫性大陸季風氣候區(qū),年均氣溫零下1.2℃。林場植被主要由針葉林、闊葉林、灌叢、草叢、草甸和沼生植被組成[9-10]。
Sentinel-2A是歐洲航天局2015年發(fā)射的一顆高分辨率多光譜成像衛(wèi)星,衛(wèi)星攜帶一枚多光譜成像儀,高度786km,覆蓋13個光譜波段,幅寬達290km。地面分辨率分別為10,20,60m,與Sentinel-2B衛(wèi)星互補,重訪周期為5d。在光學數(shù)據(jù)中,Sentinel-2是唯一一個在紅邊范圍包含3個波段的數(shù)據(jù),這對植被信息的獲取非常有效。
本研究使用存儲在GEE平臺中的Sentinel2-L2A級產(chǎn)品,該產(chǎn)品經(jīng)過了幾何校正和大氣校正,預處理的主要內(nèi)容是按照CCD數(shù)據(jù)范圍上傳矢量邊界,按影像的獲取日期篩選出研究區(qū)范圍內(nèi)的309景影像;Sentinel-2的QA60 波段包含了影像的云信息,利用該波段對所有影像去云,逐月像素級融合成12景代表研究區(qū)的最佳合成影像。
ALOS衛(wèi)星POLSAR數(shù)據(jù)集包含了12.5m分辨率的DEM數(shù)據(jù),數(shù)據(jù)獲取的網(wǎng)址為https://search.asf.alaska.edu/。下載研究區(qū)DEM數(shù)據(jù)上傳至GEE,裁剪并重采樣成10m分辨率的DEM數(shù)據(jù)。
按照塞罕壩林場的主要樹種分為落葉松、闊葉樹、云杉(PiceaasperataMast)、樟子松(PinussylvestrisLinn.var.mongolica)、其他地物等5類。以無人機獲取的0.2m分辨率CCD數(shù)據(jù)為參考,通過ArcGIS布設(shè)漁網(wǎng)數(shù)據(jù),挑選出影像上的主要地物樣本共1 113個。樣本選取按照隨機且分布整個林場的原則,將選取的樣本點上傳至GEE。各地類樣點的選取數(shù)量如表1所示。
表1 樣本數(shù)據(jù)Tab.1 Sample data
對研究區(qū)數(shù)據(jù)預處理后,分別計算其比值特征,紋理特征,地形特征,與原始影像波段共同構(gòu)建分類特征集,比較最小距離分類器、CART分類器及隨機森林分類器下的分類精度,研究的主要技術(shù)流程如圖1所示。
圖1 技術(shù)路線圖Fig.1 Technical roadmap
主要使用NDVI指數(shù),適用于植被生長早期與中期檢測;RVI指數(shù),較好反映植被生長狀況檢測;DVI指數(shù),對土壤背景變化靈敏,適用于植被和水體檢測;RI指數(shù),用于校正土壤對植被影像參數(shù);MTVI指數(shù),適用于多時段植被類型變化檢測,本文中使用R波段和NIR波段兩種差值植被指數(shù)。
紋理是遙感影像的重要屬性,它反映了像素鄰域灰度空間的分布規(guī)律,紋理特征是影像分類中避免“同譜異物”,“同物異譜”現(xiàn)象的常用方法。GEE提供的glcmTexture()方法可以快速提取落葉松生長旺盛期B8波段的18種紋理信息,經(jīng)實驗選取相關(guān)性(corr)、方差(var)、逆差矩(idm)、對比度(con)、熵(ent)、角二階矩(asm)等6種紋理特征。
GEE提供的Terrain.product()方法可以快速計算海拔高度(el-evation)、坡度(slope)、坡向(aspect)及山體陰影(hillshade)特征。本研究使用的是坡度和坡向特征。
GEE提供的image.reduceRegion()方法可以對1 113個樣本點進行統(tǒng)計,篩選各特征中較好區(qū)分落葉松的波段組合;樣本點部分特征曲線如圖2所示。經(jīng)實驗篩選出差異較大特征波段共計138個;由于預處理中的去云算法會讓影像中部分區(qū)域出現(xiàn)空值,所以剔除含有無效值的波段后,最終確定進行分類實驗數(shù)的多特征數(shù)據(jù)集中各波段。具體統(tǒng)計結(jié)果如表2—表4所示。
表2 原始波段優(yōu)選Tab.2 Original bands optimization
表3 比值波段優(yōu)選Tab.3 Vegetation index optimization
表4 紋理地形特征Tab.4 Texture & Topographic feature
圖2 各特征變化曲線Fig.2 Variation curve of each characteristic
3.5.1最小距離法
最小距離分類器是最基本的分類器之一,它通過計算樣本與各特征的向量中心距離確定樣本的類型[11]。GEE提供3種“距離”計算,分別是歐式距離,余弦距離和馬氏距離。本文使用歐氏距離進行分類。
3.5.2決策樹(CART)
CART是由Breiman等[12]提出的一種快速構(gòu)建分類樹的算法,決策樹的基本思想是構(gòu)建二叉樹實現(xiàn)輸入值的歸類;二叉樹的節(jié)點是通過算法確定,以能夠劃分樣本數(shù)據(jù)的最優(yōu)特征作為節(jié)點對樣本二分和細化,通過遞歸實現(xiàn)分類樹的構(gòu)建[13]。
3.5.3隨機森林(RF)
隨機森林(RF)分離器是集成學習的代表算法之一,它通過“有放回”的抽樣方式建立多顆決策樹[14],根據(jù)決策樹投票最多的分類結(jié)果確定輸入值的類型。隨機森林的隨機性包含兩方面:1)樣本選取的隨機性。從按照一定比例劃分的樣本中隨機選取訓練樣本建立模型。2)特征選取的隨機性。在構(gòu)建決策樹時,隨機選擇不同的特征創(chuàng)建最優(yōu)決策樹。隨機森林的特性使得在構(gòu)建模型時會選取2/3的訓練樣本,而剩下的1/3訓練樣本可以用于模型驗證,因此隨機森林模型不需要再進行交叉驗證。
遙感圖像分類通常使用混淆矩陣(confusion matrix)進行分類精度評價,通過混淆矩陣可以計算總體精度(overall accuracy)、用戶精度(user accuracy)、制圖精度(producer accuracy)和Kappa系數(shù)等評價指標,以用于分類精度評定[15-16]。
按照7∶3的比例對樣本點隨機劃分,即:70%樣本用于構(gòu)建分類器,30%樣本用于評估分類器在未知數(shù)據(jù)上的表現(xiàn)。圖3為不同分類器疊加CCD影像的局部結(jié)果圖,不同分類器下分類精度如表5所示。從圖3可以看出:在落葉松大面積分布的區(qū)域,CART與隨機森林分類結(jié)果相近,而最小距離分類器存在錯分情況,整體來說,3種分類器的分類效果都比較好;在混交林區(qū)域,最小距離分類器和隨機森林分類器的分類結(jié)果中“椒鹽”現(xiàn)象都低于CART的分類結(jié)果,但最小距離分類器存在明顯的漏分現(xiàn)象,而隨機森林分類器平衡了前兩種分類器的分類結(jié)果,較好地提取了落葉松;在落葉松與其他樹種的分界區(qū)域,3種分類器的“椒鹽”現(xiàn)象均有所下降,但最小距離分類器的錯分現(xiàn)象明顯高于其余兩種分類器。綜上可知,最小距離分類和隨機森林分類器分類結(jié)果的“椒鹽”現(xiàn)象低于CART分類結(jié)果;CART和隨機森林分類器的錯分,漏分現(xiàn)象好于最小距離分類結(jié)果;隨機森林分類器的分類效果是三者中最好的。
圖3 各分類器疊加CCD影像局部圖Fig.3 Partial view of superimposed CCD image of each classifier
圖4為使用隨機森林分類器在GEE平臺對多特征數(shù)據(jù)集分類的結(jié)果。落葉松作為林場的優(yōu)勢樹種分布于整個林場,其分類精度以混淆矩陣形式顯示(表6)??梢钥闯觯涸隍炞C集上落葉松的150個樣本,其中,143個被正確分類,7個被錯誤分為其他類;制圖精度0.95;總體精度0.92。
表6 隨機森林算法混淆矩陣Tab.6 Confusion matrix of random forest algorithm
圖4 CCD數(shù)據(jù)范圍林場分類結(jié)果示意圖Fig.4 CCD data range forest farm classification results
本研究基于Google Earth Engine云平臺,以提高落葉松人工林提取精度為目的,通過Sentinel-2和DEM數(shù)據(jù)計算的植被指數(shù)特征、紋理特征和地形因子構(gòu)建多特征數(shù)據(jù)集來提取落葉松人工林,試驗了最小距離法、CART、隨機森林3種算法并比較了分類精度,快速獲取了塞罕壩林場的主要樹種分類圖,主要結(jié)論如下:
1)GEE平臺不僅有豐富的公共遙感數(shù)據(jù),還具備強大的圖像處理及空間分析能力,通過平臺提供的接口可以高度自由化地實現(xiàn)遙感數(shù)據(jù)的處理。傳統(tǒng)單機需要幾周時間處理的數(shù)據(jù),通過GEE可能不到5 min就可以完成,這使得GEE平臺可以應用于更大尺度及宏觀問題的研究中,這也是GEE區(qū)別于傳統(tǒng)單機平臺的顯著特征。
2)本文使用研究區(qū)全年的Sentinel-2數(shù)據(jù),對數(shù)據(jù)按月劃分,平均每個月大約有25景影像。對這些數(shù)據(jù)均進行去云處理,最后融合成每個月的最佳影像,以保證原始數(shù)據(jù)的質(zhì)量,這有效避免了以往處理遙感數(shù)據(jù)時,由于鑲嵌時因數(shù)據(jù)量不夠,而選擇臨近月份鑲嵌接邊線產(chǎn)生色差問題,同時減弱了鑲嵌影像中,同類地物內(nèi)光譜特征的差異。
3)本研究對比了3種分類器的分類結(jié)果,最終發(fā)現(xiàn)隨機森林分類器的分類效果最好。隨機森林分類器能更好地應對有大量樣本情況下的分類任務,隨機森林較其他兩種分類器能有效降低“錯分”“漏分”現(xiàn)象,并且分類結(jié)果的“椒鹽”現(xiàn)象更低。因此,隨機森林算法能夠處理較為復雜的遙感圖像分類任務。
目前,國內(nèi)關(guān)于GEE平臺的應用和研究還處于起步階段,在遙感影像分類領(lǐng)域使用GEE平臺結(jié)合深度學習算法的研究幾乎沒有,一些技術(shù)細節(jié)在現(xiàn)有的研究中也少有提及,下一步的研究任務應是使用平臺結(jié)合深度學習算法實現(xiàn)塞罕壩林場或其他區(qū)域影像的分類,以及在云平臺上對分類算法的優(yōu)化。