紀(jì) 童,王 波,楊軍銀,李 強(qiáng),何國興,潘冬榮,柳小妮*
1.甘肅農(nóng)業(yè)大學(xué)草業(yè)學(xué)院,甘肅 蘭州 730070 2.草業(yè)生態(tài)系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室(甘肅農(nóng)業(yè)大學(xué)),甘肅 蘭州 730070 3.甘肅省草原技術(shù)推廣總站,甘肅 蘭州 730070
高光譜遙感在世界各地都受到高度的重視,發(fā)達(dá)國家把農(nóng)業(yè)遙感作為國內(nèi)決策支持的重要手段,對主要農(nóng)產(chǎn)品的產(chǎn)量、全球資源環(huán)境變化等狀況進(jìn)行長期動態(tài)監(jiān)測。高光譜遙感具有分辨率高波段多且連續(xù)的特點(diǎn),滿足連續(xù)性與光譜可分性的要求,能夠區(qū)別同一種地物的不同類別,可以作為植物和群落分類的依據(jù)。王波等[1]研究了東祁連山高寒灌叢6種灌木植物的光譜特征,通過原始光譜數(shù)據(jù)的變換,提高了不同灌木植物光譜曲線間的可辨析度,并篩選出了灌木植物識別的敏感區(qū),發(fā)現(xiàn)敏感波段的REF均值或GABS面積計(jì)算的NDVI值和RVI值可有效辨別東祁連山高寒灌叢的6種灌木植物;尼加提·卡斯木等[2]為解決沙漠腹地綠洲遙感圖像植物群落背景較易混淆問題,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的高分辨率遙感影像植物群落自動分類方法,分類結(jié)果表明,訓(xùn)練樣本數(shù)量不低于200時(shí),基于CNN的Res Net50模型表現(xiàn)出最佳的分類結(jié)果。
在高光譜分析中,單一原始光譜反射率有時(shí)對植物指標(biāo)反映不敏感且光譜測定時(shí)易收到外界環(huán)境影響如土壤背景、大氣溶膠等影響,此時(shí)常常對原始光譜數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖儞Q和篩選處理,或結(jié)合不同波段的原始光譜反射率,形成了各種植被指數(shù),以增強(qiáng)植物某一指標(biāo)特征或消除環(huán)境因子的影響。自高光譜發(fā)展至今,光譜植被指數(shù)已有150多種,如典型的歸一化植被指數(shù)(NDVI)、比值植被指數(shù)(EVI),植物分類領(lǐng)域中利用光譜數(shù)據(jù)轉(zhuǎn)換和植被指數(shù)進(jìn)行植被光譜特征分析十分常見,束美艷等[3]對小麥(Triticum aestivum L.)葉面積指數(shù)高光譜反演研究結(jié)果表明,新構(gòu)建的紅邊抗水植被指數(shù)(RRWVI)取得了比NDVI、標(biāo)準(zhǔn)化差分紅邊指數(shù)(NDRE)等常用植被指數(shù)更為可靠的效果。賈學(xué)勤等[4]利用篩選出的特征色素簡單比值指數(shù)c(PSSRc)、改進(jìn)紅邊比值植被指數(shù)(MSR705)和中分辨率陸地葉綠素成像指數(shù)(MTCI)建立了復(fù)合式PLSR模型,提高了冬小麥地上干生物量估測精度。很多分類模型也被廣泛應(yīng)用于植物遙感分類識別中。如李嬋等[5]采用K最鄰近(KNN)、支持向量機(jī)(SVM )和隨機(jī)森林(RF)3種方法對農(nóng)業(yè)區(qū)域8種不同植物進(jìn)行分類,結(jié)果表明SVM模型分類精度要優(yōu)于KNN與RF模型;楊珺雯等[6]以北京小湯山農(nóng)業(yè)試驗(yàn)區(qū)高光譜作為數(shù)據(jù),利用RF與SVM模型對目標(biāo)進(jìn)行分類,結(jié)果表明RF各項(xiàng)分類精度優(yōu)于SVM;邵琦等[7]通過Boruta算法對玉米品種533~893.4 nm光譜進(jìn)行篩選,在全波段、全波段和紋理信息、有效波段以及有效波段和紋理信息4種特征組合下,利用RF與偏最小二乘法進(jìn)行玉米品種識別,結(jié)果表明RF分類準(zhǔn)確率優(yōu)于偏最小二乘法判別模型。
目前隨機(jī)森林(RF)、支持向量機(jī)(SVM)與K-鄰近(KNN)分類模型被廣泛應(yīng)用于森林植物和農(nóng)作物的遙感分類,并取得了較好的分類識別效果。但針對草地尤其是荒漠草地植物的分類識別研究較少。寧夏鹽池縣荒漠草地屬于中溫帶干旱氣候,由于過度利用出現(xiàn)不同程度的退化,退化指示種比重增大,造成不同荒漠草地群落組成差異也很大。如何區(qū)別不同荒漠草地植物,并據(jù)此對退化指示種進(jìn)行動態(tài)監(jiān)測是了解荒漠草地退化程度的關(guān)鍵。為此,通過對寧夏鹽池縣荒漠草地主要植物反射光譜的分析,利用隨機(jī)森林模型(RF)、支持向量機(jī)(SVM)與K-鄰近(KNN)分類方法,建立了主要植物的分類模型。
鹽池縣位于寧夏東部,處于半干旱區(qū)與干旱區(qū)的過渡地帶,地勢南高北低,由東南至西北為廣闊的干草原和荒漠草原。屬典型的大陸性季風(fēng)氣候,光能豐富,熱量偏少。受季風(fēng)影響,降水主要集中在夏秋兩季,年際變化大,氣候干燥,蒸發(fā)強(qiáng)烈,年均蒸發(fā)量是年均降水量的6~7倍,境內(nèi)土壤主要為灰鈣土、風(fēng)沙土,大多數(shù)土壤結(jié)構(gòu)松散、肥力較低,土壤瘠薄,部分地區(qū)土壤的次生鹽漬化嚴(yán)重。
試驗(yàn)地位于寧夏鹽池縣二步坑、馮記溝、高沙窩和麻黃山的溫性荒漠草原,試驗(yàn)地概況如表1所示。
表1 樣地設(shè)置Table 1 Types and geographical positions of the grassland communities
1.2.1 光譜數(shù)據(jù)獲取與校正
2017年7月,在上述4個(gè)樣地,采用ASD地物光譜儀(表2)采集主要植物的光譜數(shù)據(jù)。光譜采集時(shí)光纖探頭垂直向下,距植被冠層垂直高度依據(jù)樣品冠層大小及探頭視場角(25°)確定,使樣品冠層恰能位于探頭視場范圍內(nèi)。如待測植物冠層范圍存在其余雜物,則清除雜物,以保證光譜準(zhǔn)確性。每種植物隨機(jī)測定10株,每株測定10次,取其均值作為該株植物的原始光譜反射率。共采集32種植物(表3)。每測一個(gè)點(diǎn)前用標(biāo)準(zhǔn)白板進(jìn)行校正,減少天氣變化帶來的誤差。
表2 儀器參數(shù)及要求Table 2 Instrument parameters and requirements
表3 植物名錄Table 3 Plant directory
光譜測量易受天氣、空氣水分、冠層水分等因素影響,光譜曲線難免會出現(xiàn)異常,因此在進(jìn)行光譜數(shù)據(jù)分析之前,應(yīng)剔除有明顯異常的數(shù)據(jù)。使用地物光譜儀自帶的View Spec Pro軟件對植物光譜進(jìn)行多次重復(fù)測量值進(jìn)行平均處理,消除光譜噪音的影響,得到光譜反射率數(shù)據(jù)。
1.2.2 植被指數(shù)選取
植物光譜除受自身生理生化指標(biāo)影響外,還易受周圍環(huán)境變化影響如土壤背景、大氣溶膠等影響,常常利用不同的植被指數(shù)以增強(qiáng)植物某一指標(biāo)特征或消除環(huán)境因子的影響[14]。根據(jù)寧夏荒漠植被與環(huán)境特點(diǎn),篩選出7個(gè)植被指數(shù)(表4)。
表4 植被指數(shù)Table 4 Spectral Index
這些植被指數(shù)與植物特征密切相關(guān),或有助于光譜精度提升。如NDVI705對植被冠層結(jié)構(gòu)、GNDVI對植被冠層綠度、PRI對植物類胡蘿卜素、NDWI對植被冠層水分較敏感;PSRI多用于植被健康的監(jiān)測與檢測,OSAVI可有效消除土壤背景的影響,VARI可以有效矯正大氣溶膠影響,消除部分輻射誤差。
植物冠層反射光譜(圖1)表明,不同植物光譜反射率均符合綠色植物特征,但各植物原始光譜不同波段之間存在明顯差異。
圖1 荒漠草地植物原始光譜反射率Fig.1 The original reflectance spectra of desert grassland plants
可見光波段550 nm附近,出現(xiàn)了第一個(gè)葉綠素吸收峰,北方獐牙菜波峰光譜反射率最低無芒稗、虎尾草、大針茅較高。
植株在680 nm附近反射率快速上升,形成植物所特有的 “紅邊”,與其他植物不同。其中白蓮蒿的紅邊斜率最低,乳漿大戟的紅邊斜率最高,白蓮蒿紅邊斜率區(qū)別于其余植物,但整體紅邊趨勢相差不大。
在近紅外波段,甘草、大針茅的光譜反射率較高。所有植物在954~973,1 084~1 198和1 440~1 462 nm這3個(gè)波段均存在明顯的吸收谷,在1 450 nm附近水分吸收谷處光譜反射率最大值為0.35(狗尾草),最小值為0.079(沙蔥)。
2.2.1 RF分類模型
RF分類模型n_tree誤差表明,當(dāng)ntree=100時(shí)模型內(nèi)草種誤差基本穩(wěn)定,即ntree取100。
由圖2可知,白蓮蒿(4.3%)、白云香(9.5%)、蟲實(shí)(4%)、甘草(3.3%)和乳漿大戟(33%)存在分類誤差。RF模型精度為0.9816,袋外誤差OOB為1.04%,說明RF分類結(jié)果較好,可區(qū)分32種荒漠植物。
圖2 隨機(jī)森林模型混淆矩陣圖注:圖中對角線以外的氣泡代表誤判,氣泡大小代表判斷數(shù)量,樣本數(shù)量越大氣泡越大,Error代表植物誤判率,下同F(xiàn)ig.2 Obfuscation matrix of random forest modelNote:the off-diagonal bubbles represent misjudgment,and the size of the bubbles represents the number of judgment.The larger the number of samples,the larger the bubble
圖3為RF模型變量重要性圖。
由圖3可知,RF模型重要性指標(biāo)由大到小分別為NDWI,PRI,OSAVI,NDVI705,GNDVI,VARI和PSRI。RF模型Gini系數(shù)由大到小分別為NDWI,PRI,VARI,OSAVI,GNDVI,NDVI705和PSRI。NDWI為重要性指標(biāo)和Gini系數(shù)最高的變量。
圖3 隨機(jī)森林分類模型變量重要性圖注:圖中藍(lán)色圓柱為變量重要性,變量值越大說明變量的重要性越強(qiáng),黃色圓柱為基尼系數(shù),圖中系數(shù)越高,分類切割越好Fig.3 Variale importance of random forest classification modelNote:The blue column in the figure is the importance of the variable.The larger the value of the variable,the stronger the importance of the variable.The yellow column is the Gini coefficient.The higher the coefficient,the better the classification cut
2.2.2 SVM分類模型
表5為支持向量機(jī)gamma與cost不同參數(shù)設(shè)置錯(cuò)誤率。
根據(jù)表5所示當(dāng)選擇gamma=1×10-1、cost=100作為SVM分類模型參數(shù)時(shí)誤差最小,將gamma=1×10-1,cost=100作為SVM分類模型原始參數(shù)。
表5 gamma與cost設(shè)置Table 5 Gamma and cost
圖4為支持向量機(jī)SVM分類模型的混淆矩陣氣泡圖。由圖可知32種植物進(jìn)行分類時(shí),支持向量機(jī)SVM分類模型的混淆矩陣中,18份白蓮蒿,有8份被誤判為北蕓香(44.4%)、15份甘草樣本有1份被誤判為蟲實(shí)(6.7%),總樣本數(shù)162,誤判樣本數(shù)9。
圖4 支持向量機(jī)SVM模型混淆矩陣圖Fig.4 Obfuscation matrix of SVM model
支持向量機(jī)SVM模型精度為0.94,kappa系數(shù)為0.94,說明支持向量機(jī)SVM模型較好,能較好的區(qū)分32種荒漠植物。
2.2.3 KNN分類模型
采用交叉驗(yàn)證法來選擇較優(yōu)的K值,圖5為不同k值下KNN模型誤差圖。
由圖5可知,當(dāng)k=1時(shí),KNN模型精度最高(0.981 8),因此選取k=1作為模型k值。
圖5 KNN模型誤差圖Fig.5 KNN model error graph
圖6為KNN分類模型的混淆矩陣氣泡圖。由圖6可知,32種植物進(jìn)行分類時(shí),KNN分類模型的混淆矩陣中,其中12份白蓮蒿中2份被誤判為北蕓香(16.7%)、4份蟲實(shí)樣本中1份被誤判為甘草(25%),總樣本數(shù)165,誤判樣本數(shù)3。KNN模型分類精度為0.982。
圖6 KNN模型混淆矩陣圖Fig.6 Obfuscation matrix of KNN model
綠色植物區(qū)別于其他地物具有明顯的光譜反射特征,植物反射光譜與植物生長發(fā)育、健康狀況有著密切關(guān)系[10]。植物體內(nèi)含有大量色素,其中以葉綠素對可見光波段光譜響應(yīng)較為敏感,在藍(lán)光(450 nm)與紅光(650 nm)的兩個(gè)波段內(nèi),葉綠素會吸收光輻射能量,從而在550 nm附近形成吸收峰[11]。本研究發(fā)現(xiàn),32種荒漠草地植物中,大針茅反射率最高,北方獐牙菜反射率最小。造成此類現(xiàn)象的可能因素是因?yàn)榇筢樏?、虎尾草、無芒稗均已抽穗,植株冠層多為褐色,葉綠素含量較少,光輻射吸收較小,導(dǎo)致綠光波段反射率高。
在可見光波段與近紅外光波段之間680~760 nm附近處,反射率急劇上升,形成植物所特有的紅邊現(xiàn)象,這是植物區(qū)分于其他地物光譜最明顯的特征,是植物光譜研究的重點(diǎn)。但本研究中荒漠草地植物與其他植物有所不同,在干旱脅迫下發(fā)生了紅邊藍(lán)移現(xiàn)象,在680 nm形成“紅邊”。干旱環(huán)境下荒漠草地植物形態(tài)有著很大變化,如植株緊湊、低矮、葉片萎縮,細(xì)胞結(jié)構(gòu)的改變成為各植物在近紅外波段差異的重要因素。
中紅外波段主要與葉片水分有關(guān),受干旱氣候影響,所有荒漠草地植物均在(1 350~2 500 nm)出現(xiàn)了兩個(gè)水分吸收峰,且各植物水分吸收峰光譜反射率差異顯著。魏懷東等[12]對民勤10種荒漠植物冠層含水率與光譜進(jìn)行相關(guān)性分析,發(fā)現(xiàn)10種荒漠植物冠層含水量差異顯著,且10種植物冠層水分含量指數(shù)與冠層含水量相關(guān)系數(shù)較高,與本研究結(jié)果相似。
本研究結(jié)果表明3種分類模型中,RF分類精度為0.980 6,帶外數(shù)據(jù)OOB為1.04%,精度最高,能夠?qū)幭牡貐^(qū)32種荒漠草地植物進(jìn)行良好區(qū)分。這主要是RF引入了2個(gè)隨機(jī)性——隨機(jī)選擇樣本(bootstrap sample)和隨機(jī)選擇特征進(jìn)行訓(xùn)練,使RF不容易陷入過擬合,并增加了其的抗噪能力。植被指數(shù)NDWI與PRI在RF中的Mean Decrease Accuracy與Mean Decrease Gini中數(shù)值較高,說明NDWI與PRI在RF分類模型中重要性極高。究其原因,主要是在干旱脅迫下,不同植物于水分的利用率不同,其冠層葉片相對含水量也存在顯著差異,表現(xiàn)在光譜水分吸收波段的差異,因此對冠層水分含量的變化十分敏感的NDWI成為分類識別的重要指標(biāo)。另外,類胡羅卜素具有抗氧化脅迫和猝滅光誘導(dǎo)的激發(fā)能,因而具有保護(hù)植物免受脅迫傷害的作用[13],荒漠草地植物葉片(同化枝)類胡蘿卜素含量相對較高,且一般隨其抗干旱脅迫能力的增加而增加[14],體現(xiàn)在植物光譜上,從而使對植物類胡蘿卜素變化十分敏感的PRI成為影響植物分類的重要因素。相關(guān)研究中魏懷東等[12]對10種的光譜反演也發(fā)現(xiàn)NDWI與荒漠草種含水率相關(guān)性較高;楊紅飛等[15]對新疆3種草地類型進(jìn)行光譜特征分析,發(fā)現(xiàn)PRI與荒漠類草地相關(guān)性高,與本文植被指數(shù)NDWI、PRI為區(qū)分荒漠草地植物的主要植被指數(shù)的觀點(diǎn)相同。
3種分類模型均對白蓮蒿與北蕓香、蟲實(shí)與甘草發(fā)生了誤判。從圖7可看出,北蕓香與白蓮蒿在水分敏感波段的原始光譜反射率非常接近;而甘草與蟲實(shí)在全波段上也較為相似,存在異物同譜的現(xiàn)象,較難區(qū)分。
圖7 原始光譜反射率Fig.7 Original reflectance spectra
利用植被指數(shù)建立荒漠草原植物分類模型(SVM,RF和KNN)。RF分類模型的分類精度為0.980 6,帶外數(shù)據(jù)OOB為1.04%,支持向量機(jī)SVM模型精度為0.94,kappa系數(shù)為0.94,KNN模型分類精度為0.982,其中隨機(jī)森林分類模型精度最高,原因主要為RF具有很高的預(yù)測準(zhǔn)確率對異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過擬合;RF不僅是一種自然的非線性建模工具,也是一種極佳的分類工具,是目前數(shù)據(jù)挖掘、生物信息學(xué)的最熱門的前沿研究領(lǐng)域之一。
(1)荒漠草地植物光譜具有典型植物的光譜特征,但因環(huán)境的干旱和高溫脅迫,出現(xiàn)紅移現(xiàn)象,各植物原始光譜水分吸收波段差異也較明顯;
(2)RF和KNN分類模型對32種荒漠草地植物的識別效果較好;
(3)植被指數(shù)NDWI與PRI為區(qū)分荒漠草種的關(guān)鍵指標(biāo),即荒漠植物冠層水分含量與類胡蘿卜素含量是影響光譜分類的重要因素。
采用的高光譜數(shù)據(jù)是基于葉片冠層光譜反射率,通過比較不同植被指數(shù)和機(jī)器學(xué)習(xí)算法進(jìn)行植物的分類識別,由于植物樣本有限,可能對模型的分類精度有一定程度的影響。