吳 芳,李映雪,張緣園,張雪紅,鄒曉晨
(1.南京信息工程大學(xué)應(yīng)用氣象學(xué)院,江蘇南京 210044;2.南京信息工程大學(xué)遙感與測繪工程學(xué)院,江蘇南京 210044)
高光譜遙感具有分辨率高、波段連續(xù)性強(qiáng)、光譜信息量大等特點(diǎn),通過對光譜數(shù)據(jù)挖掘,可獲得較多的植物化學(xué)組分、生理生態(tài)等參數(shù)信息,使其不僅可以用來提高識別作物和植被類型的能力,還可以用來監(jiān)測作物的長勢和反演作物的理化參數(shù)。這也促使高光譜遙感技術(shù)在農(nóng)業(yè)領(lǐng)域上得到廣泛重視。目前,高光譜數(shù)據(jù)挖掘技術(shù)在葉面積指數(shù)、生物量、水分和氮素營養(yǎng)的遙感估測等方面已做大量的研究,并在大范圍農(nóng)業(yè)資源監(jiān)測、作物產(chǎn)量預(yù)測、農(nóng)情預(yù)報(bào)等方面發(fā)揮了重要作用[1]。
在農(nóng)業(yè)生態(tài)系統(tǒng)中,生物量是表征作物冠層結(jié)構(gòu)的重要參數(shù)和作物長勢的重要指標(biāo),同時(shí)也是作物產(chǎn)量估算的重要依據(jù)。黃春燕等[2]認(rèn)為,基于棉花在敏感波段構(gòu)建的光譜參數(shù),可定量估算棉花地上部鮮生物量。 賀 佳等[3]發(fā)現(xiàn),在拔節(jié)期、孕穗期、抽穗期、灌漿期、成熟期可以用GNDVI、RVI、MSAVI、RTVI和MTVIⅡ有效監(jiān)測冬小麥生物量。作物生物量的實(shí)時(shí)、動(dòng)態(tài)監(jiān)測對農(nóng)業(yè)生產(chǎn)管理具有重要的意義。
生物量的估算大多基于遙感數(shù)據(jù)。Prasad[4]用窄波段歸一化植被指數(shù)分別建立棉花、馬鈴薯、大豆和玉米的鮮生物量模型,解釋了不同作物64%~66%變量的生理變化。Hanson等[5]研究表明,NDVI與冬小麥綠色生物量的指數(shù)關(guān)系最佳。陳鵬飛等[6]認(rèn)為,紅邊三角植被指數(shù)RTVI是估測作物冠層生物量的最好指標(biāo)。近年來,很多學(xué)者用機(jī)器學(xué)習(xí)算法建立農(nóng)作物的遙感估測模型[7-8]。其中隨機(jī)森林(RF)算法是由Breiman[9]于2001 年提出的一種預(yù)測具有較高準(zhǔn)確率的分類、回歸算法,其對異常值和噪聲具有較好的容忍度,對高光譜遙感等高維度數(shù)據(jù)訓(xùn)練和學(xué)習(xí)效果較佳,近年來被應(yīng)用于多個(gè)領(lǐng)域[10]。王愛麗等[11]使用隨機(jī)森林回歸算法構(gòu)建小麥葉片SPAD值遙感反演模型;程立真等[12]建立基于高光譜數(shù)據(jù)的磷素含量隨機(jī)森林模型,對蘋果磷素營養(yǎng)狀況進(jìn)行估測。RF回歸算法應(yīng)用于作物生物量監(jiān)測方面的研究較少[13-14],也少有針對作物不同生育時(shí)期來建立植被指數(shù)與生物量之間的隨機(jī)森林回歸模型。
本研究利用2011-2014年冬小麥抽穗期前、抽穗期、開花期和灌漿期的生物量值和同步獲取的高光譜數(shù)據(jù),分析了8種常用的植被指數(shù)與冬小麥生物量的相關(guān)性。以冬小麥生物量為因變量,8個(gè)植被指數(shù)為自變量,采用隨機(jī)森林算法(RF)、支持向量回歸(SVR)和偏最小二乘算法(PLS)針對冬小麥生長的4個(gè)生育時(shí)期,分別構(gòu)建生物量估算模型。通過對3種機(jī)器學(xué)習(xí)算法在冬小麥不同生育時(shí)期估算生物量的精度和穩(wěn)定性分析,探索適用于冬小麥不同生育時(shí)期的高光譜估算方法,以期為實(shí)現(xiàn)冬小麥生物遙感監(jiān)測提供技術(shù)和方法。
本研究區(qū)位于南京信息工程大學(xué)農(nóng)業(yè)氣象試驗(yàn)站(118°7′E,32°2′N),屬于亞熱帶季風(fēng)氣候,無霜期237 d,年平均降水量1 106.5 mm。試驗(yàn)田前茬為水稻,土壤為黃棕壤土,2010年試驗(yàn)前觀測的土壤有機(jī)質(zhì)含量為1.89%,全氮0.07%,速效磷15.08 mg·kg-1,速效鉀174.65 mg·kg-1,堿解氮80.275 mg·kg-1。試驗(yàn)田一共劃分為18個(gè)小區(qū),每個(gè)小區(qū)面積為9 m2(3 m×3 m),基本苗為2.0×106個(gè)·hm-2,行距25 cm。設(shè)3個(gè)施氮水平,分別為0、150、300 kg·hm-2(分別用N1、N2、N3表示)。氮肥60%作基肥,40%作拔節(jié)肥。每小區(qū)基施P2O5150 kg·hm-2和K2O 150 kg·hm-2。本研究一共進(jìn)行了4個(gè)田間試驗(yàn),涉及4個(gè)年份,每年2個(gè)冬小麥品種,其中2010-2011年度供試冬小麥品種為徐麥31和寧麥12,2011-2012年度為揚(yáng)麥13和鎮(zhèn)麥168,2012-2013年度為揚(yáng)麥13和揚(yáng)麥16,2013-2014年度為揚(yáng)麥13和寧麥13。
1.2.1 冬小麥冠層高光譜測量
光譜儀選用美國ASD公司生產(chǎn)的FieldSpace 3,其光譜范圍為350~2 500 nm,其中,350~1 000 nm波段的采樣間隔為1.4 nm,1 000~2 500 nm波段的采樣間隔為2 nm,視場角是25°。選擇晴朗無風(fēng)無云的天氣,于上午10:00到下午14:00時(shí)間段,分別在抽穗期前、抽穗期、開花期和灌漿期測量冬小麥的冠層光譜反射率,每項(xiàng)光譜測量重復(fù)3次,求平均值,每次數(shù)據(jù)采集前都進(jìn)行標(biāo)準(zhǔn)白板校正(標(biāo)準(zhǔn)白板反射率視為1,這樣所測得的目標(biāo)物光譜是無量綱的相對反射率)。
1.2.2 冬小麥生物量獲取
每次測量光譜后,在相應(yīng)的樣區(qū)進(jìn)行實(shí)地采樣,在實(shí)驗(yàn)室將冬小麥葉、莖分離,分別測鮮重和干重,然后分別計(jì)算各生育時(shí)期冬小麥的生物量。
將4年的數(shù)據(jù)按生育時(shí)期分別集合在一起,按7∶3的比例分為2部分,其中70%的數(shù)據(jù)作為訓(xùn)練樣本用來建模,30%的數(shù)據(jù)作為測試樣本用來評價(jià)模型。抽穗期前、抽穗期、開花期和灌漿期的訓(xùn)練樣本分別是63個(gè)、50個(gè)、63個(gè)和50個(gè);測試樣本則分別為27個(gè)、22個(gè)、27個(gè)和22個(gè)。
1.2.3 光譜指數(shù)的計(jì)算
光譜數(shù)據(jù)可以構(gòu)建許多對植株相對敏感的植被指數(shù),本研究選取了表1中所示的與生物量相關(guān)性較高的高光譜指數(shù),用來進(jìn)行生物量的估測。
表1 與生物量相關(guān)性較高的光譜指數(shù)Table 1 Higher spectral index associated with biomass
RF實(shí)質(zhì)是包含多個(gè)決策樹的分類器,它是利用多個(gè)決策樹算法對相同現(xiàn)象做重復(fù)的預(yù)測[23]。每一個(gè)決策樹是由葉子節(jié)點(diǎn)和分叉組成,在生成樹的時(shí)候,系統(tǒng)會(huì)隨機(jī)生成每棵樹的每個(gè)節(jié)點(diǎn),然后每個(gè)節(jié)點(diǎn)再進(jìn)行分叉形成多個(gè)決策樹,所以稱為“隨機(jī)森林”[24]。建立隨機(jī)森林過程就是尋找葉子節(jié)點(diǎn)過程,用隨機(jī)森林算法做回歸,來算出因變量的預(yù)測值。RF算法的具體過程是:
(1)從原始樣本集中使用Bootstraping方法隨機(jī)抽取n個(gè)訓(xùn)練樣本,然后進(jìn)行k輪抽取,得到k個(gè)訓(xùn)練集,并且k個(gè)訓(xùn)練集之間相互獨(dú)立,元素可以有重復(fù)。
(2)對于這k個(gè)訓(xùn)練集,可以建立k個(gè)訓(xùn)練模型,并且可根據(jù)具體問題而定,比如決策樹等。每棵樹自頂向下遞歸分枝,并遵循分枝優(yōu)度準(zhǔn)則,直到滿足分割終止條件。
(3)對于回歸問題,由k個(gè)模型預(yù)測結(jié)果的均值作為最后預(yù)測結(jié)果(所有模型的重要性相同)。
在EXCEL中計(jì)算表1中的光譜植被指數(shù)。將冬小麥4年數(shù)據(jù)的訓(xùn)練樣本分為抽穗期前、抽穗期、開花期和灌漿期,利用SPSS分析冬小麥各生育時(shí)期的生物量與光譜植被指數(shù)之間的相關(guān)性,在Matlab中編程實(shí)現(xiàn)RF算法、SVR算法和偏最小二乘(PLS)算法?;诿糠N算法,分別建立4個(gè)生育時(shí)期的4種回歸模型,用擬合的決定系數(shù)r2和均方根誤差RMSE作為評價(jià)指標(biāo),評價(jià)每個(gè)模型的適用性能。為檢驗(yàn)?zāi)P偷念A(yù)測能力,利用劃分的預(yù)測樣本,將模型預(yù)測值與生物量實(shí)測值進(jìn)行回歸擬合并繪制1∶1關(guān)系圖,比較每個(gè)生育時(shí)期3種算法模型的預(yù)測能力。
將選取的表1中8個(gè)植被指數(shù)與冬小麥實(shí)測的生物量進(jìn)行相關(guān)性分析。結(jié)果(表2)表明,抽穗期、開花期和灌漿期的冬小麥生物量與8個(gè)植被指數(shù)均存在極顯著相關(guān)關(guān)系;在抽穗前期,除WII和NDMI外,其余6個(gè)植被指數(shù)與冬小麥生物量有極顯著相關(guān)性。因此,可以用這8個(gè)植被指數(shù)建立回歸監(jiān)測模型。
表2 冬小麥生物量與光譜植被指數(shù)間的相關(guān)性Table 2 Correlation between winter wheat biomass value and spectral vegetation index
*:P<0.05; **:P<0.01.
基于以上的相關(guān)性分析結(jié)果,以冬小麥生物量作為因變量,以表1中的8個(gè)植被指數(shù)作為自變量,采用隨機(jī)森林回歸算法、支持向量回歸算法和偏最小二乘回歸算法分別構(gòu)建冬小麥4個(gè)生育時(shí)期的生物量高光譜估測模型RF-biomass、SVR-biomass和PLS-biomass。
構(gòu)建RF模型時(shí),經(jīng)過參數(shù)優(yōu)選和多次訓(xùn)練,確定4個(gè)生育時(shí)期中決策樹均為2 000,節(jié)點(diǎn)處的變量數(shù)均為3。
構(gòu)建SVR模型時(shí),通過對不同類型及核函數(shù)的SVM學(xué)習(xí)算法進(jìn)行比較,選擇了最優(yōu)的徑向基函數(shù)(RBF),需要優(yōu)化該算法的2個(gè)參數(shù)即懲罰系數(shù)c和核函數(shù)參數(shù)g。用交叉驗(yàn)證法和網(wǎng)格搜索法確定最優(yōu)參數(shù)(表3)。
構(gòu)建PLS模型時(shí),通過交叉有效性分析確定,開花期的最佳成分個(gè)數(shù)為2,其余3個(gè)生育時(shí)期的最佳成分個(gè)數(shù)為3。
表3 SVR算法參數(shù)Table 3 SVR algorithm parameters
以r2和RMSE為依據(jù),比較3種模型的適用能力和預(yù)測能力。結(jié)果(表4和圖1~圖4)相關(guān)表明,這三個(gè)模型中冬小麥生物量實(shí)測值和模型預(yù)測值都相關(guān)極顯著,其中評價(jià)指標(biāo)r2和RMSE結(jié)果也是較為理想,說明可以用這三個(gè)模型來估測冬小麥生物量。綜合考慮,當(dāng)r2最大且RMSE最小時(shí)可作為冬小麥生物量監(jiān)測的最佳模型。對于模型的適用能力,RF-Biomass模型在每個(gè)生育時(shí)期r2都超過0.7,均高于另外兩個(gè)模型,并且RMSE也是低于或接近于另外兩個(gè)模型。對于模型的預(yù)測能力,由表5可知,RF-Biomass模型的r2均在0.6以上,抽穗期前、抽穗期和開花期RF-Biomass模型的r2均最大,同時(shí)相應(yīng)的RMSE均最小,那么RF-Biomass模型可作為這三個(gè)生育時(shí)期監(jiān)測的最佳模型;灌漿期,SVR-Biomass模型的r2最大且相應(yīng)的RMSE最低,此模型可作為該生育時(shí)期的最佳模型。結(jié)果還表明,RF-Biomass模型在每個(gè)生育時(shí)期的預(yù)測能力相比于適用能力都稍低,可能是因?yàn)殡S機(jī)森林算法生成樹的時(shí)候出現(xiàn)一些差異較小的樹,影響了部分決策。
表4 冬小麥生物量值估算模型比較Table 4 Comparison of winter wheat biomass estimation models
圖1 抽穗期前冬小麥生物量實(shí)測值與模型預(yù)測值關(guān)系Fig.1 Relationship between measured winter wheat biomass and model prediction before heading date
圖2 抽穗期冬小麥生物量實(shí)測值與模型預(yù)測值關(guān)系Fig.2 Relationship between measured biomass values and model predictions at heading stage of winter wheat
總之,RF-Biomass模型與另外兩個(gè)參比模型想比,反演得到的冬小麥生物量預(yù)測值也較為理想,適用能力和預(yù)測能力均較好,可用來監(jiān)測冬小麥生物量。
圖3 開花期冬小麥生物量實(shí)測值與模型預(yù)測值關(guān)系Fig.3 Relationship between measured values of biomass and model prediction at flowering stage of winter wheat
圖4 灌漿期冬小麥生物量實(shí)測值與模型預(yù)測值關(guān)系Fig.4 Relationship between measured biomass values and model predictions at grain filling stage of winter wheat
農(nóng)作物生物量在不同生育時(shí)期、不同營養(yǎng)狀況條件下存在差異,并且冠層結(jié)構(gòu)和作物葉片生理生化參數(shù)的季節(jié)性變化[25]也會(huì)引起冠層光譜反射率的變化,導(dǎo)致光譜反射率對作物參數(shù)的敏感性在不同的生育時(shí)期存在差異[26-27],進(jìn)而基于植被光譜指數(shù)構(gòu)建的估算模型會(huì)受到作物生長狀況和環(huán)境的影響,造成多個(gè)生育時(shí)期遙感估算作物參數(shù)存在困難,并且不同的研究人員構(gòu)建的模型往往不一致[3,13],這些因素導(dǎo)致了高光譜遙感估算模型精度不高。
植被指數(shù)在估算作物參數(shù)方面存在飽和問題,單純的植被指數(shù)法在生物量估算時(shí)往往造成較大誤差[13],因此許多學(xué)者嘗試?yán)脵C(jī)器學(xué)習(xí)算法估算作物生物量,如支持向量回歸、偏最小二乘、神經(jīng)網(wǎng)絡(luò)等算法[7,8,28]。但針對于冬小麥不同生育時(shí)期構(gòu)建高光譜估算模型的研究卻十分有限。為了構(gòu)建適用于冬小麥不同生育時(shí)期的高光譜估算模型,本研究采用的是隨機(jī)森林(RF)回歸算法與植被指數(shù)相結(jié)合,在Matlab軟件中編程實(shí)現(xiàn)對冬小麥生物量的估測,同時(shí)與支持向量回歸和偏最小二乘回歸這兩種算法進(jìn)行比較,表明可以用RF回歸算法構(gòu)建冬小麥生物量的高光譜遙感估測模型,模型訓(xùn)練集的預(yù)測值與實(shí)測值之間的擬合r2和RMSE在抽穗期前分別為0.79和44.82 g·m-2,在抽穗期分別為0.71和62.07 g·m-2,在開花期分別為0.70和97.63 g·m-2,在灌漿期分別為0.71和106.98 g·m-2;模型預(yù)測集的預(yù)測值與實(shí)測值之間的擬合r2和RMSE在抽穗期前分別為0.60和72.54 g·m-2,在抽穗期分別為0.60和75.07 g·m-2,在開花期分別為0.68和109.9 g·m-2,在灌漿期分別為0.61和127.93 g·m-2。三種方法比較,RF算法對冬小麥生物量的預(yù)測能力高于或接近于SVR算法,高于PLS回歸算法。隨機(jī)森林算法在4個(gè)生育時(shí)期均表現(xiàn)出很好的穩(wěn)定性,預(yù)測精度r2都在0.6以上,這與Wang等[29]對冬小麥生物量的估算研究精度一致(針對不同生育時(shí)期r2在0.6~0.7之間)。雖然,目前還不能實(shí)現(xiàn)對冬小麥生物量的高精度估算,但用RF回歸算法遙感監(jiān)測冬小麥生物量值,在精度上還有很大的提升空間,可進(jìn)一步優(yōu)化模型做到更加精確,滿足農(nóng)業(yè)生產(chǎn)需求,為冬小麥精確管理提供基礎(chǔ)信息和技術(shù)支持。
RF回歸算法優(yōu)勢在于有較強(qiáng)的抗噪音和快速運(yùn)算能力,而且不容易過度擬合;而SVR算法關(guān)鍵在于核函數(shù),由于確定核函數(shù)的已知數(shù)據(jù)存在一定的誤差,且引入松弛系數(shù)和懲罰系數(shù)兩個(gè)參變量也有限制,此算法在應(yīng)用上具有一定的局限性,PLS回歸算法用于建立預(yù)測模型的得分因子之間必須線性無關(guān),而且需要降維,會(huì)損失點(diǎn)數(shù)據(jù)信息。因此,優(yōu)選RF回歸算法來構(gòu)建冬小麥生物量的高光譜遙感估測模型。
如今,算法用來遙感建模已炙手可熱,選擇一個(gè)合適的算法,有利于遙感估算精度的提高。本文利用RF回歸算法建立用光譜植被指數(shù)反演冬小麥生物量的模型,從抽穗期前、抽穗期、開花期和灌漿期4個(gè)生育時(shí)期分別反演,能夠很好地反映整個(gè)研究區(qū)域小麥的生長狀況。但RF算法是否和其他算法一樣,適用于其他作物的其他長勢參數(shù)的反演,需要進(jìn)一步的研究與驗(yàn)證,從而來提高RF算法在農(nóng)業(yè)遙感監(jiān)測中的應(yīng)用價(jià)值。