費帥鵬,禹小龍,蘭銘,李雷,夏先春,何中虎, 3,肖永貴
基于高光譜遙感和集成學(xué)習(xí)方法的冬小麥產(chǎn)量估測研究
費帥鵬1, 2,禹小龍2,蘭銘2,李雷2,夏先春2,何中虎2, 3,肖永貴2
1河南理工大學(xué)測繪與國土信息工程學(xué)院,河南焦作 454003;2中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,北京 100081;3CIMMYT中國辦事處,北京 100081
【】利用2種灌溉處理下不同發(fā)育階段的冬小麥冠層高光譜信息,通過機器學(xué)習(xí)方法對小麥籽粒產(chǎn)量進行估測精度研究,明確產(chǎn)量最佳估測模型,對于育種工作有著重要應(yīng)用價值。以黃淮麥區(qū)207個主栽小麥品種為材料,于2018—2019和2019—2020年度連續(xù)2個生長季在河南省新鄉(xiāng)基地的正常灌溉和節(jié)水處理下種植,并調(diào)查開花期、灌漿前期和灌漿中期的冠層高光譜數(shù)據(jù),分別以6種機器學(xué)習(xí)方法和集成方法建立光譜指數(shù)產(chǎn)量估測模型。2種灌溉處理下,3個生育期各光譜指數(shù)均與產(chǎn)量呈極顯著相關(guān)(<0.0001),且表現(xiàn)出較高的遺傳力(0.61-0.85),主要受遺傳因素控制。在正常灌溉處理下,與傳統(tǒng)機器學(xué)習(xí)方法表現(xiàn)最佳的模型相比,集成學(xué)習(xí)方法在3個生育期的平均決定系數(shù)(R) 分別由0.610、0.611和0.640提高至0.649、0.612和0.675,平均均方根誤差 () 分別降低至0.607、0.612和0.593 t·hm-2;節(jié)水處理下,3個生育期的平均R分別由0.461、0.408和0.452提高至0.467、0.433和0.498,平均分別降低至0.519、0.559和0.504 t·hm-2。利用集成方法將不同模型估測結(jié)果進行結(jié)合,能夠有效地提高產(chǎn)量估測精度,2種灌溉處理下均在灌漿中期估測精度最佳,可為冬小麥育種工作中產(chǎn)量估測提供參考。
冬小麥;產(chǎn)量;高光譜;集成方法;機器學(xué)習(xí)
【研究意義】在育種工作中,需要在多個生長環(huán)境下對大量品種和高代品系進行評價。產(chǎn)量作為主要指標[1],可通過作物早期的生理性狀進行評估,而傳統(tǒng)方法在調(diào)查性狀時效率低下且具有破壞性[2]。利用冠層光譜信息對冬小麥產(chǎn)量進行無損估測并明確最佳估測時期和模型,對于提高育種工作效率和保障國家糧食安全具有重要意義?!厩叭搜芯窟M展】基于冠層光譜反射率構(gòu)造的光譜指數(shù)與作物生長狀況之間存在顯著相關(guān)性,已被廣泛應(yīng)用于作物產(chǎn)量的評估[3-4],且將多個光譜指數(shù)作為輸入特征表現(xiàn)出了比單個光譜指數(shù)更高的估測精度[5-6]。高光譜遙感具有分辨率高、波段連續(xù)性強和光譜信息量大等特點[7],基于不同波長范圍光譜反射率構(gòu)造的光譜指數(shù)能夠提供較高的作物參數(shù)反演精度,同時高光譜數(shù)據(jù)的巨大容積性和多樣性將導(dǎo)致“大數(shù)據(jù)”問題[2],即需要先進的算法對其進行解析以生成生理參數(shù)評估模型。憑借優(yōu)異的特征提取能力和數(shù)據(jù)推斷能力,機器學(xué)習(xí)算法在與高光譜數(shù)據(jù)結(jié)合構(gòu)建高維作物參數(shù)反演模型上受到了研究人員的重視[8],隨機森林[9](random forest,RF)、支持向量機[10](support vector machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)[11](artificial neural network,ANN)等算法已被應(yīng)用于作物生物量[12]、葉面積指數(shù)[13]、葉綠素含量[8],葉片含水量[14],產(chǎn)量[2]等參數(shù)的評估,表現(xiàn)出了較高的估測精度和魯棒性。近年來,集成學(xué)習(xí)以其優(yōu)異的模型性能被廣泛關(guān)注[15],Stacking是一種使用“學(xué)習(xí)法”的多模型集成方法,由Breiman于1992年提出[16],通過次級模型對多個初級模型的輸出預(yù)測值再次訓(xùn)練,從而將不同模型解析數(shù)據(jù)的能力進行結(jié)合,使用多元線性回歸(multiple linear regression, MLR)作為次級模型,集成效果較佳[17]。Stacking集成通常能得到比單一模型更高的估測精度,對異常值和噪聲具有較好的容忍度,對高光譜遙感等高維度數(shù)據(jù)進行訓(xùn)練時效果顯著,已在森林變化監(jiān)測,植物光合能力估測等遙感領(lǐng)域得到應(yīng)用[18-19]?!颈狙芯壳腥朦c】多數(shù)研究在構(gòu)造作物產(chǎn)量估測模型時僅使用單一算法,在特定環(huán)境或生長階段具有優(yōu)異表現(xiàn)的算法在應(yīng)用到其他生長條件時,較難得到最佳的產(chǎn)量估測效果。模型集成方法在冬小麥產(chǎn)量評估中的應(yīng)用較少,考慮到不同算法在解析數(shù)據(jù)時的異質(zhì)性,研究基于Stacking的多模型集成,有助于提高冬小麥產(chǎn)量估測模型的估測精度和泛化能力?!緮M解決的關(guān)鍵問題】本研究使用冬小麥開花期與灌漿前、中期冠層高光譜數(shù)據(jù),構(gòu)造了多個光譜指數(shù),以SVM、RF、ANN、高斯過程[20](gaussian process,GP)、嶺回歸[21](ridge regression,RR)和MLR作為初級模型,分別構(gòu)建正常灌溉處理和節(jié)水處理下多個生育期的產(chǎn)量估測模型,并以MLR作為次級模型對初級模型輸出預(yù)測結(jié)果進行再次訓(xùn)練和測試,以期獲取一種具有較高估測精度的作物產(chǎn)量評估方法。
本研究選用黃淮麥區(qū)主要栽培品種207份,分別于2018—2019年和2019—2020年2個生長季種植于中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所新鄉(xiāng)實驗基地(113°51’E,35°18’N)。設(shè)置正常灌溉(越冬水、拔節(jié)水、灌漿水)和節(jié)水(越冬水)2種處理,每次灌溉灌水量約為2 250—2 700 m3·hm-2。試驗采用隨機區(qū)組設(shè)計,2次重復(fù),小區(qū)長3 m,寬1.4 m,行距為20 cm,小區(qū)面積為4.2 m2。為保證小區(qū)產(chǎn)量的可靠性,出苗后對缺苗斷垅處采取移栽方式進行處理,確保苗全苗勻。田間管理按照當(dāng)?shù)刎S產(chǎn)田標準進行,并防治病蟲害及雜草。
本研究采用美國 ASD Field Spec3高光譜輻射儀實施冠層光譜測量,波長范圍為 350—2 500 nm,采樣間隔為1.4 nm(350—1 000 nm)和2 nm(1 000—2 500 nm),重采樣間隔為 1 nm,視場角為25°。在小麥開花期(Zadok 65)、灌漿前期(Zadok 73)和灌漿中期(Zadok 85)采集冠層高光譜數(shù)據(jù)。在晴朗、無云且光照條件較好時(北京時間10:00—14:00)對所有小區(qū)進行冠層光譜采集,采集時將探頭垂直向下置于冠層上方1 m處。在每個小區(qū)對分布均勻的4個點進行測量,每個點測量10次,取平均值作為該小區(qū)的冠層光譜反射率,每采集10個小區(qū),使用漫反射標準白板進行反射率校正。成熟后,使用小區(qū)聯(lián)合收割機(Wintersteiger Classic)進行收獲,對每個小區(qū)單獨裝袋,晾曬后籽粒含水量約12.5% 時進行稱重測定產(chǎn)量。
光譜指數(shù)是由不同波段的反射率以代數(shù)形式組合成的一種參數(shù),可降低條件背景對光譜反射率數(shù)據(jù)的干擾,比單波段具有更好的靈敏性[22]。本研究選擇用于估測產(chǎn)量的光譜指數(shù)如表1所示。
表1 本研究選用的光譜指數(shù)
Stacking 集成方法如圖1所示,首先從與原始數(shù)據(jù)中訓(xùn)練出多種類型的初級模型,然后將初級模型的輸出當(dāng)作次級模型的輸入,原始數(shù)據(jù)的響應(yīng)變量仍被當(dāng)作次級模型的響應(yīng)變量,最后對數(shù)據(jù)進行再次訓(xùn)練。若直接使用初級模型的訓(xùn)練集來產(chǎn)生次級訓(xùn)練集,則存在過擬合的風(fēng)險,通常利用交叉驗證的方式用訓(xùn)練初級模型未使用的樣本來產(chǎn)生次級模型的訓(xùn)練樣本[37],具體步驟如下[38]:
(1)將原始數(shù)據(jù)劃分為訓(xùn)練集L1和測試集T1。
(2)將訓(xùn)練集隨機劃分為 K份樣本量相等的子集,初級模型將其中 1 份作為K折測試集,其余K-1 份作為K折訓(xùn)練集,此過程迭代K次,即為K折交叉驗證。利用 K折訓(xùn)練集訓(xùn)練每個初級模型,并對 K 折測試集進行估測,將各初級模型在K折測試集上的估測結(jié)果進行結(jié)合,構(gòu)成樣本外估測值矩陣(out-of- sample predictions matrix, OSPM),作為次級模型的訓(xùn)練集L2。
(3)每個初級模型對原始測試集T1進行K次估測,并對其求平均作為次級模型的測試集T2。
(4)在次級模型中仍利用K折交叉驗證進行訓(xùn)練和測試,輸出K次測試結(jié)果并求平均作為最終輸出估測值。
本研究將各個生育期的原始數(shù)據(jù)以4﹕1的比例劃分為訓(xùn)練集與測試集,此劃分方式迭代20次以減少偶然因素的影響。在每次劃分后以ANN、GP、MLR、RF、RR和SVM為初級模型,以MLR為次級模型并使用10折交叉驗證法進行訓(xùn)練和測試。對原始數(shù)據(jù)進行訓(xùn)練集和測試集的20次劃分后,各初級模型與次級模型均在測試集上產(chǎn)生200次測試,以此200次測試產(chǎn)生的決定系數(shù)2和均方根誤差的平均值作為精度評價指標,對每種模型的適用性能進行評價,同一灌溉處理下不同生育期均采用相同的10折交叉驗證劃分方式。
利用R語言(v 4.0.2)實現(xiàn)了光譜指數(shù)計算、相關(guān)性分析和產(chǎn)量估測模型構(gòu)造。結(jié)合QTL IciMapping軟件計算2種灌溉處理下各光譜指數(shù)及產(chǎn)量2年間的最佳線性無偏估計值(best linear unbiased estimates,BLUE)和遺傳力(heritability,2)。
圖1 使用Stacking集成方法建立產(chǎn)量估測模型流程圖
2年間冬小麥開花期、灌漿前期和灌漿中期光譜指數(shù)的BLUE值與產(chǎn)量BLUE值相關(guān)性分析表明(表2—3),2種灌溉處理下各生育期全部光譜指數(shù)均與產(chǎn)量呈極顯著相關(guān)(<0.0001)。正常灌溉處理下,灌漿中期(||=0.61—0.73)光譜指數(shù)與產(chǎn)量的相關(guān)系數(shù)絕對值高于開花期(||=0.45—0.72)和灌漿前期(||=0.43—0.67)。節(jié)水處理下各光譜指數(shù)與產(chǎn)量的相關(guān)性低于正常灌溉處理,開花期、灌漿前期和灌漿中期光譜指數(shù)與產(chǎn)量的相關(guān)系數(shù)絕對值(||)范圍分別為0.44—0.57、0.41—0.61和0.49—0.58。各光譜指數(shù)在2種灌溉處理下各生育期均表現(xiàn)出了較高的遺傳力(0.61—0.85),主要受遺傳因素調(diào)控。綜上,建立產(chǎn)量估測模型時使用全部15個光譜指數(shù)作為各模型的輸入特征。
將15個光譜指數(shù)作為輸入特征構(gòu)造冬小麥產(chǎn)量估測模型。開花期各初級模型在測試集上產(chǎn)生的2和的分布如圖2所示,結(jié)果表明正常灌溉處理下 RF與SVM模型估測精度較低,ANN、GP、MLR和RR模型平均2相近且較高,其中GP模型估測精度最高,平均R為0.610,為0.643 t·hm-2;節(jié)水處理下,RR模型的估測精度最高,平均2為0.461,平均為0.524 t·hm-2。
在灌漿前期(圖3),正常灌溉處理下 RF模型估測精度較低,ANN、GP、MLR、RR和SVM模型估測精度相近,其中RR模型估測精度最高,平均2為0.611,為0.638 t·hm-2;節(jié)水處理下,6種模型的平均2相差較小,其中MLR的估測精度最高,平均2為0.408,平均為0.564 t·hm-2。
在灌漿中期(圖4),正常灌溉處理下各模型估測精度均高于開花期與灌漿前期,除RF外各模型的平均2均大于0.6,其中RR模型的估測精度最高,平均2為0.640,平均為0.645 t·hm-2;節(jié)水處理下GP模型的估測精度最高,平均R為0.452,平均為0.519 t·hm-2。
表2 正常灌溉處理下光譜指數(shù)與產(chǎn)量相關(guān)性分析和光譜指數(shù)遺傳力
***表示在<0.0001 水平下顯著。下同
*** indicates significant at<0.0001. The same as below
表3 節(jié)水處理下光譜指數(shù)與產(chǎn)量相關(guān)性分析和光譜指數(shù)遺傳力
在2種灌溉處理下,以MLR作為次級模型,將各初級模型輸出的估測產(chǎn)量作為輸入特征建立產(chǎn)量估測模型。結(jié)果表明(圖5), 在正常灌溉處理下,開花期的平均2由初級模型中估測精度最高的0.610(gp)提升至0.649,平均降至0.607 t·hm-2;灌漿前期的平均2由初級模型中估測精度最高的0.611(rr)提升至0.627,平均降至0.612 t·hm-2;灌漿中期的平均2由初級模型中估測精度最高的0.640(RR)提升至0.675,平均降至0.593 t·hm-2。在節(jié)水處理下,開花期的模型估測精度提升效果微弱,平均2由初級模型中估測精度最高的0.461(RR)提升至0.467,平均為0.519 t·hm-2;灌漿前期的平均2由初級模型中估測精度最高的0.408(mlr)提升至0.433,平均降至0.559 t·hm-2;灌漿中期的平均2由初級模型中估測精度最高的0.452(GP)提升至0.498,平均降至0.504 t·hm-2。次級模型的產(chǎn)量估測精度分析表明,Stacking集成方法能夠?qū)⒏魉惴ń馕鰯?shù)據(jù)的能力進行結(jié)合以獲得兼具穩(wěn)定性和精確性的模型,從而提高產(chǎn)量估測精度,提升育種工作效率。
圖3 灌漿前期6種初級模型交叉驗證過程在測試集上R2(a)和RMSE(b)分布
圖4 灌漿中期6種初級模型交叉驗證過程在測試集上R2(a)和RMSE(b)分布
對初級模型對應(yīng)輸出產(chǎn)量估測值在次級模型(MLR)交叉驗證過程中擬合方程的回歸系數(shù)進行分析(表4),較高的系數(shù)表示在次級模型訓(xùn)練過程中所占權(quán)重較大。在正常灌溉處理下,開花期模型集成性能在較大程度上取決于MLR和RR,平均系數(shù)分別為6.13和1.91;RR、ANN和SVM模型在灌漿前期模型訓(xùn)練中所占權(quán)重較大,平均系數(shù)分別為0.61、0.43和0.42;在灌漿中期,MLR、RR和SVM模型平均系數(shù)較高,分別為4.51、4.32和2.34。在節(jié)水處理下,開花期RR、SVM和GP模型平均系數(shù)分別為3.47、2.43和2.10,所占權(quán)重較大;RR和GP模型在灌漿前期模型訓(xùn)練中所占權(quán)重較大,平均系數(shù)分別為4.06和0.77;在灌漿中期,RR、ANN和GP模型平均系數(shù)較高,分別為3.28、0.93和0.86?;貧w系數(shù)分析結(jié)果表明次級模型在不同的建模條件下對各個初級模型的輸出估測值進行合理的權(quán)重分配,以將各初級模型解析不同類型數(shù)據(jù)的優(yōu)勢結(jié)合,從而得到更高的估測精度。
圖5 次級模型交叉驗證過程在測試集上R2(a)和RMSE(b)分布
表4 次級模型建模過程各模型系數(shù)平均值
地面空間異質(zhì)性隨作物的生長發(fā)育而發(fā)生變化,導(dǎo)致不同生長階段的冠層光譜指數(shù)與產(chǎn)量相關(guān)性大小有所差異[39]。開花期和灌漿期與冬小麥產(chǎn)量三要素中的穗粒數(shù)和千粒重緊密相關(guān),這2個時期的光譜指數(shù)在先前的研究中具有較高的產(chǎn)量估測精度[1,3],常被視為產(chǎn)量估測的理想時期。
作物冠層結(jié)構(gòu)在不同的生長階段、營養(yǎng)條件和品種之間均存在差異,也會導(dǎo)致冠層光譜反射率的變化[40],而研究人員構(gòu)建作物產(chǎn)量估測模型時大都選擇單一算法,單一算法在解析不同數(shù)據(jù)時模型性能有所差異,使其較難在不同的建模條件下均得到最優(yōu)的產(chǎn)量估測效果。Stacking是一種集成學(xué)習(xí)方法,對數(shù)據(jù)的適應(yīng)能力較強,相對單一算法具有較強的抗噪性能和擬合能力。本研究通過Stacking方法將6種算法結(jié)合,構(gòu)建了產(chǎn)量估測集成模型,結(jié)果表明集成學(xué)習(xí)方法的估測精度在2種灌溉處理下不同生育期均明顯優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法。本文和前人研究表明Stacking方法能夠在植物表型評估中提升模型性能,F(xiàn)ENG等[15]將大量光譜指數(shù)作為輸入特征對苜蓿產(chǎn)量進行評估,將模型集成后R在各條件下均能得到不同程度的提升。FU等[18]使用350— 2 500 nm波長范圍的全部波段反射率作為Stacking方法輸入特征,對煙葉光合作用能力進行評估,集成模型的提升效果明顯,參數(shù)c,maxh和max的估測精度(R)分別提升0.10和0.08。此外,F(xiàn)ENG等[41]有關(guān)大氣PM2.5評估的研究顯示,Stacking方法的精度提升效果與初級模型的數(shù)量成正比,在進一步的作物產(chǎn)量估測研究中可增加初級模型的數(shù)量以獲取更高的模型精度。
充分性和多樣性是Stacking方法選擇初級模型的2個主要原則[42]。首先,集成方法結(jié)合了單一模型的估測值,致使每個初級模型的性能將會影響最終集成結(jié)果,故每個初級模型都應(yīng)具有良好的估測能力[15]。其次,模型之間也應(yīng)具有差異性,某些算法對冬小麥產(chǎn)量的真實假設(shè)通常不在當(dāng)前選用模型所計算的假設(shè)空間內(nèi),使用此模型對數(shù)據(jù)進行學(xué)習(xí)時將會無效,而不同類型的算法考慮的假設(shè)空間也會有所差異[37],將多種回歸算法通過Stacking方法集成后,相應(yīng)的假設(shè)空間會在一定程度上擴大,從而得到更好的近似。本研究中正常灌溉處理下開花期與灌漿中期及節(jié)水處理下灌漿中期對初級模型進行集成后,估測精度提升明顯,2均能提高0.03以上,其余情況提升效果微弱,在此情況下對數(shù)據(jù)進行訓(xùn)練時,各模型假設(shè)空間類似或重疊,與VAN等[43]得出的結(jié)論相近,即某些建模條件下Stacking方法集成結(jié)果估測精度“漸近等價”于表現(xiàn)最佳的初級模型。
本研究發(fā)現(xiàn),產(chǎn)量估測模型在正常灌溉處理下的2較高,節(jié)水處理下R較低。分析可能原因:(1)冬小麥受到水分脅迫時,冠層面積較小,群體覆蓋率低,導(dǎo)致冠層光譜反射率易受到土壤背景干擾,影響高光譜數(shù)據(jù)精度[44];(2)水分虧缺導(dǎo)致節(jié)水處理下冬小麥衰老速率增加,致使灌漿時間縮短,使得最終產(chǎn)量降低[4],而收獲過程中由于人為因素和機器因素等影響,每個小區(qū)會損失部分產(chǎn)量,此部分誤差對節(jié)水處理下各小區(qū)產(chǎn)量的影響大于正常灌溉處理,導(dǎo)致節(jié)水處理下產(chǎn)量估測精度低于灌溉處理。因此,建議在做不同品種產(chǎn)量估測模型精度提升研究時,品種應(yīng)在正常適宜灌溉處理下充分進行產(chǎn)量試驗,并保證產(chǎn)量收獲精度,提升模型優(yōu)化。
選取性能優(yōu)異的算法精準估測小麥產(chǎn)量對于提升育種工作效率具有重要意義。本研究表明,使用Stacking集成方法能夠獲得比單一算法更高的產(chǎn)量估測精度。在正常灌溉處理下,3個生育期的平均2分別提高至0.649、0.627和0.675,平均降至0.607、0.612和0.593 t·hm-2。節(jié)水處理下,3個生育期平均2分別提高至0.467、0.433和0.498,平均降至0.519、0.559和0.504 t·hm-2。不同的灌溉處理和發(fā)育階段對產(chǎn)量估測精度均有影響,使用模型集成方法在正常灌溉處理下,灌漿中期得到最佳估測精度,可作為一種新的方法在育種工作中對作物產(chǎn)量進行早期評估。
[1] HERNANDEZ J, LOBOS G A, MATUS I, DEL POZO A, SILVA P, GALLEGUILLOS M. Using ridge regression models to estimate grain yield from field spectral data in bread wheat (L. ) grown under three water regimes. Remote Sensing, 2015, 7(2): 2109-2126.
[2] MONTESINOS-LóPEZ O A, MONTESINOS-LóPEZ A, CROSSA J, DELOS G, CAMPOS, ALVARADO G, SUCHISMITA M, RUTKOSKI J, GONZáLEZ-PéREZ L, BURGUE?O J. Predicting grain yield using canopy hyperspectral reflectance in wheat breeding data. Plant Methods, 2017, 13: 4.
[3] HASSAN M A, YANG M, RASHEED A, YANG G, REYNOLDS M, XIA X, XIAO Y, HE Z. A rapid monitoring of NDVI across the wheat growth cycle for grain yield prediction using a multi-spectral UAV platform. Plant Science, 2019, 282: 95-103.
[4] HASSAN M A, YANG M, RASHEED A, JIN X, XIA X, XIAO Y, HE Z. Time-series multispectral indices from unmanned aerial vehicle imagery reveal senescence rate in bread wheat. Remote Sensing, 2018, 10 (6): 809.
[5] GITELSON A A, PENG Y, ARKEBAUER T J, SCHEPERS J. Relationships between gross primary production, green LAI, and canopy chlorophyll content in maize: Implications for remote sensing of primary production. Remote Sensing of Environment, 2014, 144: 65-72.
[6] BOLTON D K, FRIEDL M A. Forecasting crop yield using remotely sensed vegetation indices and crop phenology metrics. Agricultural & Forest Meteorology, 2013, 173: 74-84.
[7] 李嵐?jié)? 李靜, 明金, 汪善勤, 任濤, 魯劍巍. 冬油菜葉面積指數(shù)高光譜監(jiān)測最佳波寬與有效波段研究. 農(nóng)業(yè)機械學(xué)報, 2018, 49(2): 156-165.
LI L T, LI J, MING J, WANG S Q, REN T, LU J W. Selection optimization of hyperspectral bandwidth and effective wavelength for predicting leaf areaindex in winter oilseed rape. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(2): 156-165. (in Chinese)
[8] SHAH S H, ANGEL Y, HOUBORG R, ALI S, MCCABE M F. A random forest machine learning approach for the retrieval of leaf chlorophyll content in wheat. Remote Sensing, 2019, 11: 920.
[9] BREIMANL. Random forests. Machine Learning, 2001, 45: 5-32.
[10] SAIN, STEPHAN R. The nature of statistical learning theory. Technometrics, 1996, 38: 409.
[11] BRADLEY J B. Neural networks: A comprehensive foundation. Information Processing & Management, 1995, 31: 786.
[12] WANG L, ZHOU X, ZHU X, DONG Z, GUO W. Estimation of biomass in wheat using random forest regression algorithm and remote sensing data. The Crop Journal, 2016, 4: 212-219.
[13] YUAN H, YANG G, LI C, WANG Y, LIU J, YU H, FENG H, XU B, ZHAO X, YANG X. Retrieving soybean leaf area index from unmanned aerial vehicle hyperspectral remote sensing: Analysis of RF, ANN, and SVM regression models. Remote Sensing, 2017, 9: 309.
[14] JIN X, XU X, SONG X, LI Z, WANG J, GUO W. Estimation of leaf water content in winter wheat using grey relational analysis-partial least squares modeling with hyperspectral data. Agronomy Journal, 2013, 105: 1385-1392.
[15] FENG L, ZHANG Z, MA Y, DU Q, WILLIAMS P, DREWRY J, LUCK B. Alfalfa yield prediction using UAV-based hyperspectral imagery and ensemble learning. Remote Sensing, 2020, 12(12): 2028.
[16] WOLPERT D H. Stacked generalization. Neural Networks, 1992, 5: 241-259.
[17] TING K M, WITTEN I H. Issues in stacked generalization. Journal of Artificial Intelligence Research, 1999, 10: 271-289.
[18] FU P, MEACHAM-HENSOLD K, GUAN K, BERNACCHI C J. Hyperspectral leaf reflectance as proxy for photosynthetic capacities: An ensemble approach based on multiple machine learning algorithms. Frontiers in Plant Science, 2019, 10.
[19] HEALEY S P, COHEN W B, YANG Z, KENNETH BREWER C, BROOKS E B, GORELICK N, HERNANDEZ A J, HUANG C, JOSEPH HUGHES M, KENNEDY R E, LOVELAND T R, MOISEN G G, SCHROEDER T A, STEHMAN S V, VOGELMANN J E, WOODCOCK C E, YANG L, ZHU Z. Mapping forest change using stacked generalization: An ensemble approach. Remote Sensing of Environment, 2018, 204: 717-728.
[20] WILLIAMSCK, RASMUSSENCE. Gaussian processes for machine learning. Cambridge, CA: MIT Press, 2006.
[21] MCDONALD G C. Ridge regression. Wiley Interdisciplinary Reviews Computational Statistics, 2009, 1: 93-100.
[22] LIANG L, DI L P, ZHANG L P, DENG M X, QIN Z H, ZHAO S H, LIN H. Estimation of crop LAI using hyperspectral vegetation indices and a hybrid inversion method. Remote Sensing of Environment, 2015, 165: 123-134.
[23] SIMS D A, GAMON J A. Relationships between leaf pigment content and spectral reflectance across a wide range of species, leaf structures and developmental stages. Remote Sensing of Environment, 2002, 81(2/3): 337-354.
[24] DAUGHTRY C S T, WALTHALL C L, KIM M S, DE COLSTOUN E B, MCMURTREY J E. Estimating corn leaf chlorophyll concentration from leaf and canopy reflectance. Remote Sensing of Environment, 2000, 74: 229-239.
[25] RODRIGUEZ D, FITZGERALD G J, BELFORD R, CHRISTENSEN L K. Detection of nitrogen deficiency in wheat from spectral reflectance indices and basic crop eco-physiological concepts. Australian Journal of Agricultural Research, 2006, 57: 781-789.
[26] GITELSON A A, KAUFMAN Y J, MERZLYAK M N. Use of a green channel in remote sensing of global vegetation from EOS-MODIS. Remote Sensing of Environment, 1996, 58: 289-298.
[27] GITELSON A A, VINA A, CIGANDA V, RUNDQUIST D C, ARKEBAUER T J. Remote estimation of canopy chlorophyll content in crops. Geophysical Research Letters, 2005, 32: 1-4.
[28] HABOUDANE D, MILLER J R, PATTEY E, ZARCO-TEJADA P J, STRACHAN I B. Hyperspectral vegetation indices and novel algorithms for predicting green LAI of crop canopies: Modeling and validation in the context of precision agriculture. Remote Sensing of Environment, 2004, 90: 337-352.
[29] DASH J, CURRAN P J. Evaluation of the meris terrestrial chlorophyll index (MTCI). Advances in Space Research, 2007, 39: 100-104.
[30] SIMS D A, GAMON J A. Relationships between leaf pigment content and spectral reflectance across a wide range of species, leaf structures and developmental stages. Remote Sensing of Environment, 2002, 81: 337-354.
[31] ROUJEAN J L, BREON F M. Estimating PAR absorbed by vegetation from bidirectional reflectance measurements. Remote Sensing of Environment, 1995, 51: 375-384.
[32] PENUELAS J, FILELLA I, BIEL C S, SERRANO L, SAVE R. The Reflectance at the 950-970 Nm region as an indicator of plant water status. International Journal of Remote Sensing, 1993, 14(10): 1887-1905.
[33] GUPTARK, VIJAYAND, PRASADTS. New hyperspectral vegetation characterization parameters. Advances in Space Research, 2001, 28(1): 201-206.
[34] VOGELMANN J, ROCK B, MOSS D. Red edge spectral measurements from sugar maple leaves. Remote Sensing. 1993, 14: 1563-1575.
[35] KAUFMAN Y J, TANRE D. Atmospherically resistant vegetation index (ARVI) for eos-modis. IEEE Transactions on Geoscience and Remote Sensing, 1992, 30: 261-270.
[36] WANG L, HUNT E R, JR, QU J J, HAO X, DAUGHTRY C S T. Towards estimation of canopy foliar biomass with spectral reflectance measurements. Remote Sensing of Environment, 2011, 115(3): 836-840.
[37] 周志華. 機器學(xué)習(xí). 第一版. 北京:清華大學(xué)出版社, 2016: 181-182.
ZHOU Z H. Machine Learning. 1st edition. Beijing: Tsinghua University Press, 2016: 181-182. (in Chinese)
[38] 鄧威, 郭釔秀, 李勇, 朱亮, 劉定國. 基于特征選擇和Stacking集成學(xué)習(xí)的配電網(wǎng)網(wǎng)損估測. 電力系統(tǒng)保護與控制, 2020, 48: 108-115.
DENG W, GUO Y X, LI Y, ZHU L, LIU D G. Power losses prediction based on feature selection and Stacking integrated learning. Power System Protection and Control, 2020, 48: 108-115. (in Chinese)
[39] JULIANE B, ANDREAS B, SIMON B, JANIS B, SILAS E, GEORG B. Estimating biomass of barley using crop surface models (CSMs) derived from UAV-Based RGB imaging. Remote Sensing, 2014, 6(11):10395-10412.
[40] ZOU X C, MOTTUS M. Sensitivity of common vegetation indices to the canopy structure of field crops. Remote Sensing, 2017, 9: 994.
[41] FENG L, LI Y, WANG Y, DU Q. Estimating hourly and continuous ground-level PM2.5 concentrations using an ensemble learning algorithm: The ST-Stacking model. Atmospheric Environment, 2020, 223: 117242.
[42] FRAME J, MERRILEES D W. The effect of tractor wheel passes on herbage production from diploid and tetraploid ryegrass swards. Grass and Forage Science, 1996, 51: 13-20.
[43] VAN D L, M J, POLLEY E C, HUBBARDAE. Super learner. Statistical Applications in Genetics & Molecular Biology, 2007, 6(1): 25.
[44] 陳智芳, 宋妮, 王景雷, 孫景生. 基于高光譜遙感的冬小麥葉水勢估測模型. 中國農(nóng)業(yè)科學(xué), 2017, 50(5):871-880.
CHEN Z F, SONG N, WANG J L, SUN J S. Leaf water potential estimating models of winter wheat based on hyperspectral remote sensing. Scientia Agricultura Sinica, 2017, 50(5): 871-880. (in Chinese)
Research on Winter Wheat Yield Estimation Based on Hyperspectral Remote Sensing and Ensemble Learning Method
FEI ShuaiPeng1,2, YU XiaoLong2, LAN Ming2, LI Lei2, XIA XianChun2, HE ZhongHu2,3, XIAO YongGui2
1School of Surveying and Land Information Engineering, Henan Polytechnic University, Jiaozuo 454003, Henan;2Institute of Crop Sciences, Chinese Academy of Agricultural Sciences, Beijing 100081;3CIMMYT-China Office, c/o CAAS, Beijing 100081
【】Using the hyperspectral data of winter wheat canopy at different development stages under two irrigation treatments, the estimation accuracy of wheat grain yield was studied by machine learning method, and the best yield estimation model was defined, which had the important application value for crop breeding. 【】 A total of 207 widely-grown wheat varieties in the Yellow and Huai Valleys Winter Wheat Zone (YHVWWZ) of China were planted under full irrigation and limited irrigation treatments in Xinxiang, Henan province during two consecutive growing seasons of 2018-2019 and 2019-2020, the canopy hyperspectral was investigated at three growth stages after flowering, and six machine learning methods and ensemble methods were adopted to establish yield prediction model by using spectral index as input features.【】 The spectral indices at each growth stage were significantly correlated with yield (<0.0001) under both the two irrigation treatments, and also showed high heritability (0.61-0.85) across all the three growth stages under both the irrigation treatment, which were mainly controlled by genetic factors. Under the full irrigation treatment, compared with the model with the best performance of traditional machine learning methods, the average coefficient of determination (2) of ensemble learning method in the three growth stages increased from 0.610, 0.611 and 0.640 to 0.649, 0.612 and 0.675, respectively, and the average root mean square error () decreased to 0.607, 0.612 and 0.593 t·hm-2, respectively; Under the limited irrigation treatment, the average2increased from 0.461, 0.408 and 0.452 to 0.467, 0.433 and 0.498, respectively, and the averagedecreased to 0.519, 0.559 and 0.504 t·hm-2, respectively.【】Combining the prediction results of different models with the ensemble learning method could effectively improve the yield estimation accuracy, and the mid grain filling achieved the best prediction accuracy under both the two irrigation treatments. Overall, this study could provide the reference for yield estimation in winter wheat breeding.
winter wheat; grain yield; hyperspectral; ensemble method; machine learning
10.3864/j.issn.0578-1752.2021.16.005
2020-11-18;
2021-04-08
國家自然科學(xué)基金(31671691)
費帥鵬,E-mail:feishuaipeng@163.com。通信作者肖永貴,E-mail:xiaoyonggui@caas.cn
(責(zé)任編輯 楊鑫浩)