劉欣蓓 ,蘇 濤 ※,雷 波 ,朱 菲 ,邸俊楠 ,孟 成 ,徐良泉 ,王仁義
(1. 安徽理工大學(xué)空間信息與測(cè)繪工程學(xué)院,淮南 232001;2. 中國(guó)水利水電科學(xué)研究院水利研究所,北京 100048)
花生作為中國(guó)重要的經(jīng)濟(jì)和油料作物,富含油脂、蛋白、膳食纖維及微量營(yíng)養(yǎng)素,具有豐富的功能成分和極高的營(yíng)養(yǎng)價(jià)值,保障其產(chǎn)量的穩(wěn)定性對(duì)于中國(guó)油料安全至關(guān)重要[1]。色素是植物進(jìn)行光合作用的重要物質(zhì)基礎(chǔ),主要包括葉綠素(Chlorophyll,Chls)和類胡蘿卜素(Carotenoids,Caros)。葉綠素含量與植被的光合能力、生長(zhǎng)發(fā)育以及營(yíng)養(yǎng)狀況有密切的關(guān)系,可有效反映其脅迫、生長(zhǎng)和衰老等狀況[2]。類胡蘿卜素能吸收和傳遞太陽(yáng)輻射能,在植被光能過(guò)剩時(shí),還可以發(fā)散過(guò)剩能量來(lái)保護(hù)光合系統(tǒng)[3]。因此,快速準(zhǔn)確預(yù)測(cè)葉片光合色素含量對(duì)花生生長(zhǎng)監(jiān)測(cè)、營(yíng)養(yǎng)診斷、產(chǎn)量評(píng)估和病蟲(chóng)害的早期預(yù)警等科學(xué)化管理有重要價(jià)值[4]。傳統(tǒng)的光合色素含量檢測(cè)方法技術(shù)投入大,受環(huán)境影響,消耗時(shí)間長(zhǎng)且為有損檢測(cè)[5]。由于高光譜遙感技術(shù)具有高效、無(wú)損等優(yōu)勢(shì),因此,現(xiàn)已廣泛應(yīng)用于作物生理指標(biāo)及生長(zhǎng)狀態(tài)的快速檢測(cè)[6-7]。馬春艷等[8]對(duì)冬小麥光譜數(shù)據(jù)與葉綠素含量進(jìn)行分析與建模,驗(yàn)證光譜反射率與葉綠素含量呈正相關(guān)性。柳維揚(yáng)等[3]采用不同的建模方法構(gòu)建棗樹(shù)冠層色素的光譜定量反演模型,結(jié)果表明利用光譜數(shù)據(jù)預(yù)測(cè)色素含量的精度較高。然而以往此類研究中對(duì)作物生理指標(biāo)預(yù)測(cè),忽略了葉片近紅外光譜的吸收峰重疊嚴(yán)重,導(dǎo)致光譜中冗余信息較多,影響高光譜預(yù)測(cè)色素含量模型的精度[9]。因此,如何更好地去除冗余信息,對(duì)提升模型運(yùn)行效率、簡(jiǎn)化模型結(jié)構(gòu)和增強(qiáng)模型穩(wěn)定性具有重要的應(yīng)用價(jià)值[7]。
變量篩選算法是常見(jiàn)的對(duì)高光譜波段進(jìn)行信息挖掘的方法。篩選方法可分為2 類,一類是以變量數(shù)理統(tǒng)計(jì)特征為基礎(chǔ),主要包括無(wú)信息變量消除法(uninformative variable elimination,UVE)[10]、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)取樣法(competitive adaptive reweighted sampling,CARS)[11]、連續(xù)投影算法(successive projections algorithm,SPA)[12]和相關(guān)系數(shù)分析法(correlation coefficient,CC)[13]等。另一類是基于智能優(yōu)化算法的特征波長(zhǎng)尋優(yōu)方法,主要有遺傳算法(genetic algorithm,GA)[14]、灰狼算法(grey wolf optimization algorithm,GWO)[15]、隨機(jī)蛙跳算法(random frog,RF)[16-17]等。劉爽等[18]應(yīng)用CARS 和SPA 等算法篩選光譜特征變量并建立大豆生理信息模型,校正集和預(yù)測(cè)集的相關(guān)系數(shù)Rc和Rp值提升至0.944 和0.911。YUAN 等[13]使用CC 和IRIV 等算法篩選特征波段并建立辣椒葉片相對(duì)葉綠素含量反演模型,決定系數(shù)R2cv和均方根誤差RMSEcv分別達(dá)到0.81 和2.76。但此類基于高光譜技術(shù)檢測(cè)作物生理指標(biāo)的研究常采用單一算法進(jìn)行特征變量提取,盡管這些算法可剔除部分包含冗余信息的變量或可全局搜索有效信息變量,但單獨(dú)使用時(shí)仍存在保留變量過(guò)多、篩選結(jié)果存在較低信噪比變量或運(yùn)算過(guò)程耗時(shí)長(zhǎng)、模型參數(shù)復(fù)雜且難以徹底搜索所有可能變量組合等不足[9]。因此,尋找一種更合適的高光譜數(shù)據(jù)特征提取方法和更簡(jiǎn)潔的預(yù)測(cè)模型,以解決花生葉片光合色素含量的無(wú)損檢測(cè)問(wèn)題。
本文針對(duì)以上研究中的問(wèn)題,嘗試在單一變量篩選算法基礎(chǔ)上,對(duì)提升模型精度效果最佳的部分算法進(jìn)行耦合,擬通過(guò)提取最少量有效信息變量,簡(jiǎn)化模型結(jié)構(gòu),提高預(yù)測(cè)模型精確性及穩(wěn)定性,為精準(zhǔn)快速且無(wú)損的檢測(cè)花生光合色素含量提供思路。
試驗(yàn)區(qū)位于安徽省淮南市田家庵區(qū)農(nóng)田(32°33'58.11"N,117°1'11.54"E),位置如圖1 所示。試驗(yàn)區(qū)地處亞熱帶季風(fēng)氣候和暖溫帶季風(fēng)氣候的過(guò)渡地帶,受自然條件影響,淮南農(nóng)作物具有明顯的區(qū)域性和季節(jié)性。主要的農(nóng)作物有水稻、小麥、玉米、油菜、花生等,綜合生產(chǎn)能力較強(qiáng)。
圖1 研究區(qū)位置及田塊分布Fig.1 Location and field distribution of study area
1.2.1 數(shù)據(jù)源
試驗(yàn)于2023 年6 月27 日10:00—14:00 時(shí)進(jìn)行,試驗(yàn)當(dāng)天天氣晴朗且無(wú)風(fēng)無(wú)云。研究選用花生物候期的開(kāi)花下針期,在選定的研究區(qū)范圍內(nèi),劃分100 個(gè)采樣區(qū)域進(jìn)行樣本采集。采用Analytical Spectral Devices(ASD)分析光譜儀器公司生產(chǎn)的Field Spec4 型地物光譜輻射儀采集花生冠層葉片反射光譜,采集現(xiàn)場(chǎng)如圖2。該儀器的光譜波長(zhǎng)范圍為350~2 500 nm,采樣間隔為1.4 nm(350~1 000 nm)、2 nm(1 000~2 500 nm)。光譜儀使用前預(yù)熱20 min,每次測(cè)量前進(jìn)行標(biāo)準(zhǔn)白板校正。測(cè)量時(shí)探頭始終保持垂直向下,距離花生冠層葉片高度大約50 cm,對(duì)每個(gè)區(qū)域選取的采樣點(diǎn)重復(fù)測(cè)量5 次,取平均值作為該樣本反射光譜測(cè)量結(jié)果,試驗(yàn)共采集69 個(gè)花生葉片樣本。
圖2 花生葉片數(shù)據(jù)測(cè)量Fig.2 Measurement of peanut leaf data
花生樣本葉片色素含量的測(cè)定采用分光光度法。在光譜測(cè)量完成后將樣本葉片剪下放入密封袋中,及時(shí)放入4 ℃冰箱內(nèi)避光冷藏帶回實(shí)驗(yàn)室。剪取主葉脈兩邊的葉片0.2 g,將樣品剪碎研磨后加入95%的乙醇定容至25 ml,置于暗室浸提24 h,浸提后的溶液用分光光度計(jì)分別對(duì)波長(zhǎng)470、649 和665 nm 進(jìn)行測(cè)定,通過(guò)計(jì)算可得樣本中葉綠素a、葉綠素b 和類胡蘿卜素含量,其中葉綠素a、b 含量之和為葉綠素總含量。表1 對(duì)樣本數(shù)據(jù)集色素含量進(jìn)行描述性統(tǒng)計(jì)。
表1 數(shù)據(jù)集色素含量的描述性統(tǒng)計(jì)Table 1 Descriptive statistics of the pigment content of the dataset
1.2.2 數(shù)據(jù)預(yù)處理
試驗(yàn)使用的光譜儀測(cè)定波長(zhǎng)范圍是350~2 500 nm,已有的研究結(jié)果表明,葉片光譜在可見(jiàn)光波段與光合色素呈較強(qiáng)相關(guān)性[9],故截取400~1 000 nm 作為本次研究波長(zhǎng)范圍。地面高光譜數(shù)據(jù)受自身和背景環(huán)境等多種因素影響,為消除噪聲等干擾因素對(duì)模型精度的影響,本研究采用Savitzky-Golay 卷積平滑(SG)結(jié)合標(biāo)準(zhǔn)正態(tài)變換(standard normal variate transformation,SNV)的預(yù)處理方式[18],有效過(guò)濾噪聲,提高信噪比,同時(shí)減弱表面散射以及光程變化對(duì)漫反射光譜的影響[19]。
將預(yù)處理后的光譜數(shù)據(jù)分別通過(guò)CC、RF、UVE、SPA、CARS、IRIV 和GA 7 種單一變量篩選算法進(jìn)行特征波長(zhǎng)提取。CC 法計(jì)算光譜矩陣中每個(gè)波長(zhǎng)和樣本色素含量的相關(guān)系數(shù),其相關(guān)系數(shù)值的絕對(duì)值越大,波段所包含的信息就越多[18],將400~1 000 nm 整個(gè)波段的原始光譜反射率分別與花生葉片葉綠素含量、類胡蘿卜素含量進(jìn)行相關(guān)性分析,通過(guò)P=0.05 的顯著性水平檢驗(yàn),選取相關(guān)系數(shù)絕對(duì)值較大的波長(zhǎng);RF 法通常選擇概率值較高的部分變量,或人為設(shè)置一個(gè)概率閾值,取概率值高于閾值的變量作為特征波長(zhǎng)變量[20]。本研究RF 法參數(shù)設(shè)置為運(yùn)行次數(shù)N為10 000 次,主成分個(gè)數(shù)A為10,蛙跳初始模型中的變量數(shù)Q為2;UVE 法由PLSR 回歸系數(shù)衡量變量相關(guān)性,引入變量穩(wěn)定指數(shù)作為篩選標(biāo)準(zhǔn),消除在閾值線之間具有穩(wěn)定性的無(wú)信息變量[21];SPA 法運(yùn)算過(guò)程中不同的波長(zhǎng)子集分別建立不同的多元線性回歸模型,分別計(jì)算模型的RMSE 值[22];CARS 法中的蒙特卡羅采樣會(huì)隨不同采樣次數(shù)得出不同的運(yùn)算結(jié)果,因此試驗(yàn)設(shè)定不同的采樣次數(shù)獨(dú)立運(yùn)算來(lái)篩選相對(duì)較好的變量[23]。本試驗(yàn)經(jīng)過(guò)驗(yàn)證,將采樣次數(shù)設(shè)為50 次時(shí)呈現(xiàn)最佳運(yùn)算結(jié)果;迭代保留信息變量法(iteratively retains informative variables,IRIV)[24]經(jīng)過(guò)多次測(cè)試后確定最大主成分個(gè)數(shù)為10,交叉驗(yàn)證次數(shù)為10;GA 法進(jìn)行特征波長(zhǎng)提取,其參數(shù)設(shè)置為群體數(shù)目69,交叉概率0.5,變異概率0.01,迭代次數(shù)100 次,依照上述參數(shù)獨(dú)立運(yùn)行GA100 次,每次輸出0~1 二進(jìn)制編碼字符串,計(jì)算波長(zhǎng)點(diǎn)標(biāo)識(shí)為“1”的概率[25]。但單一算法在篩選特征波長(zhǎng)時(shí)仍存在一些局限性,如保留變量冗余度高、共線性強(qiáng),導(dǎo)致模型運(yùn)行速度緩慢。因此,本試驗(yàn)通過(guò)建立單一算法篩選特征波長(zhǎng)變量模型,根據(jù)模型評(píng)價(jià)指標(biāo)優(yōu)選出3 種最佳的算法進(jìn)行兩兩耦合,利用耦合算法對(duì)高維光譜數(shù)據(jù)進(jìn)行降維,簡(jiǎn)化模型結(jié)構(gòu),提升模型精度。
本試驗(yàn)使用偏最小二乘回歸(partial least squares regression,PLSR)[26]、支持向量回歸(support vector regression,SVR)[27-28]、梯度提升樹(shù)(gradient boosting decision tree,GBDT)[29]和極端梯度提升(extreme gradient boosting,XGBoost)[30]這4 種模型來(lái)建立花生葉片色素含量預(yù)測(cè)模型。使用等間隔抽樣法將69 個(gè)樣本以2:1 的比例劃分為46 個(gè)建模樣本集和23 個(gè)驗(yàn)證樣本集。本研究以單一算法和耦合算法所篩選的特征波長(zhǎng)作為輸入變量,構(gòu)建花生葉片光合色素含量反演模型,通過(guò)模型的精度評(píng)估耦合算法的可行性。模型的預(yù)測(cè)精度由決定系數(shù)R2和均方根誤差RMSE 的參數(shù)確定。R2反映了模型建立和預(yù)測(cè)的穩(wěn)定性,R2值越接近于1,表明模型的穩(wěn)定性及擬合度高;RMSE 值(RMSE)越接近于0,表明模型預(yù)測(cè)能力越強(qiáng)。
CC 法篩選花生葉片特征波長(zhǎng)結(jié)果如圖3a、3b。
圖3 CC、RF、UVE 和SPA 方法篩選特征波長(zhǎng)Fig.3 Characteristic wavelengths selected by CC (correlation coefficient),RF (random frog),UVE (uninformative variable elimination) and SPA (successive projections algorithm) algorithm
分別選取閾值線±0.3(Chls)和±0.55(Caros),篩選出特征波長(zhǎng)變量分別為196 和271 個(gè);圖3c、3 d 為RF 法運(yùn)行后每個(gè)波長(zhǎng)變量被選擇的概率,選取0.1 為閾值,分別得到滿足條件的51(Chls)和61 個(gè)(Caros)波長(zhǎng)變量;圖3e、3f 為UVE 法變量穩(wěn)定性分析結(jié)果,左側(cè)曲線為光譜變量矩陣,右側(cè)為添加的與光譜變量數(shù)相同的隨機(jī)噪聲矩陣,圖3e 閾值線分別為21.303 6 和-22.337 3,圖3f 閾值線分別為20.662 8 和-17.807 9,兩閾值線之間為被剔除的無(wú)用變量,閾值線外分別篩選出32(Chls)和30 個(gè)(Caros)波長(zhǎng)變量;SPA 法運(yùn)行過(guò)程中隨變量數(shù)的增加,RMSE 值整體趨勢(shì)下降,圖3 g 中方框表示當(dāng)RMSE 為最小值0.230 53 mg/g 時(shí),對(duì)應(yīng)的子集包含23 個(gè)波長(zhǎng),圖3 h 中RMSE 為最小值0.027 43 mg/g時(shí),對(duì)應(yīng)的子集包含24 個(gè)波長(zhǎng),篩選出的兩個(gè)子集即為最優(yōu)特征波長(zhǎng)變量;CARS 法運(yùn)行結(jié)果如圖4,采樣次數(shù)低時(shí),在指數(shù)衰減函數(shù)的作用下保留的波長(zhǎng)變量數(shù)呈迅速下降趨勢(shì),當(dāng)采樣次數(shù)上升時(shí),保留變量數(shù)量下降速度減緩。經(jīng)過(guò)十折交互檢驗(yàn)所得交叉驗(yàn)證均方根誤差RMSECV的變化趨勢(shì)圖結(jié)合所有變量在每次采樣過(guò)程中的回歸系數(shù)路徑變化圖,分析發(fā)現(xiàn)第19(Chls)和第25 次(Caros)采樣時(shí),RMSECV值最小即所選擇的光譜變量子集最優(yōu),對(duì)應(yīng)的最優(yōu)變量數(shù)分別為74 和37 個(gè);IRIV 法運(yùn)行結(jié)果如圖5a、5b,分別進(jìn)行了5(Chls)和7 輪(Caros)迭代,光譜波長(zhǎng)變量從601 個(gè)迅速減少,基本剔除了無(wú)用信息波長(zhǎng)和干擾波長(zhǎng),在反向消除后最終得到18(Chls)和11 個(gè)(Caros)特征波長(zhǎng)變量,因篇幅所限,僅展示兩個(gè)色素反向消除前一輪迭代后余下波長(zhǎng)的DMEAN 和P值;GA 法運(yùn)行結(jié)果如圖5e、5f,篩選出頻率較高的18(Chls)和24 個(gè)(Caros)特征波長(zhǎng)變量。
圖4 CARS 方法篩選特征波長(zhǎng)Fig.4 Characteristic wavelengths selected by CARS (competitive adaptive reweighted sampling) algorithm
圖5 IRIV 和GA 方法篩選特征波長(zhǎng)Fig.5 Characteristic wavelengths selected by IRIV (iteratively retains informative variables) and GA (genetic algorithm)
圖6 是針對(duì)不同算法在400~1 000 nm 波長(zhǎng)中篩選特征波長(zhǎng)變量結(jié)果,其結(jié)果顯示花生葉片光合色素的敏感波長(zhǎng)所在位置。7 種算法所提取出來(lái)的葉綠素含量反演模型變量數(shù)量順序如下:CC >CARS >RF>UVE>SPA>IRIV=GA,分別為196、74、51、32、23、18 和18個(gè)特征波長(zhǎng)變量,提取波長(zhǎng)數(shù)量分別占全波段的32.61%、12.31%、8.49%、5.32%、3.83%、3.00%和3.00%;所提取出來(lái)的類胡蘿卜素含量反演模型變量數(shù)量順序如下:CC >RF>CARS>UVE>SPA=GA>IRIV,分別為271、61、37、30、24、24 和11 個(gè)特征波長(zhǎng)變量,提取波長(zhǎng)數(shù)量分別占全波段的45.09%、10.15%、6.16%、4.99%、3.99%、3.99%和1.83%,結(jié)果顯示單一算法篩選特征波長(zhǎng)能有效剔除冗余光譜信息,提高建模效率。
圖6 單一算法篩選特征波長(zhǎng)分布Fig.6 Screening characteristic wavelength distribution by single algorithm
表2 是由不同色素的7 種單一變量篩選方法建立的模型預(yù)測(cè)結(jié)果。表2 在葉綠素含量反演模型中,基于UVE、IRIV 和GA 法變量壓縮率達(dá)到94.68%、97.00%和97.00%,所建模型性能整體優(yōu)于全波段所建模型。其中,UVE-XGBoost 模型達(dá)到了全局最佳精度,R2=0.591,RMSE=0.244 mg/g;在類胡蘿卜素含量反演模型中,基于UVE、IRIV 和GA 法變量壓縮率分別為95.00%、98.17%和96.01%,基于GA 法所建模型精度整體提升,UVEPLSR 和IRIV-XGBoost 模型則達(dá)到全局最佳精度,R2=0.565,RMSE=0.056 mg/g。CC、RF、SPA 和CARS 法雖也對(duì)變量進(jìn)行了有效降維,但就總體模型精度而言,無(wú)明顯提升。由此表明,UVE、IRIV 和GA 法適用于篩選花生葉片光合色素含量的特征波長(zhǎng),能夠有效壓縮建模數(shù)據(jù)量,提高模型運(yùn)行效率和穩(wěn)健性,效果優(yōu)于其他4 種算法。
表2 基于7 種單一算法的不同色素含量模型預(yù)測(cè)結(jié)果Table 2 Prediction results of different pigment content model based on 7 single algorithms
本試驗(yàn)將優(yōu)選出的UVE、IRIV 和GA 3 種算法進(jìn)行兩兩耦合,結(jié)合光譜數(shù)據(jù)和試驗(yàn)的實(shí)際情況,設(shè)計(jì)耦合方式為UVE-IRIV、GA-IRIV 和GA-UVE 三種形式,圖7是耦合算法篩選特征波長(zhǎng)變量結(jié)果。在基于耦合算法的葉綠素含量反演模型中,利用UVE-IRIV、GA-IRIV 和GA-UVE 法二次降維,分別提取出8、10、10 個(gè)變量;類胡蘿卜素含量反演模型中,利用UVE-IRIV、GA-IRIV和GA-UVE 法分別提取出10、14、11 個(gè)變量。
圖7 耦合算法篩選特征波長(zhǎng)分布Fig.7 Screening characteristic wavelength distribution by coupling algorithms
分別將UVE-IRIV、GA-IRIV 和GA-UVE 法提取的特征波長(zhǎng)作為輸入變量來(lái)建立花生葉片光合色素的定量分析模型,表3、圖8、圖9 結(jié)果表明,利用耦合算法篩選特征波長(zhǎng)所建立的色素含量反演模型整體精度有明顯提升。其中,基于GA-IRIV-XGBoost 的葉綠素含量反演模型預(yù)測(cè)集為R2=0.622,RMSE=0.235 mg/g,相對(duì)全波段、單一算法及其他耦合算法提取的特征波長(zhǎng)所建立的模型,該模型達(dá)到最佳精度,同時(shí)變量壓縮率可達(dá)98.34%;最佳類胡蘿卜素含量反演模型為UVE-IRIV-XGBoost 模型,預(yù)測(cè)集為R2=0.575,RMSE=0.056 mg/g,變量壓縮率同為98.34%。此結(jié)果進(jìn)一步證明了本研究所采用的耦合算法篩選波長(zhǎng)方法可對(duì)全波段的進(jìn)行有效變量信息提取,減少變量數(shù)目和建模時(shí)間,提升模型魯棒性。
表3 基于3 種耦合方式不同色素含量建模預(yù)測(cè)集結(jié)果Table 3 Prediction results of different pigment content model based on 3 coupling algorithms
圖8 不同耦合算法和建模方法的葉綠素含量反演模型預(yù)測(cè)結(jié)果 (mg·g-1)Fig.8 Prediction results of chlorophyll content inversion model with different coupling algorithms and modeling methods
圖9 不同耦合算法和建模方法的類胡蘿卜素含量反演模型預(yù)測(cè)結(jié)果 (mg·g-1)Fig.9 Prediction results of carotenoid content inversion model with different coupling algorithms and modeling methods
CC、RF、UVE、SPA、CARS、IRIV 和GA 7 種波長(zhǎng)篩選算法能在極短的計(jì)算時(shí)間內(nèi)提取出少量包含有用信息的特征波長(zhǎng),實(shí)現(xiàn)變量有效降維,提升模型運(yùn)行速率和預(yù)測(cè)精度。形成此結(jié)果的原因是近紅外光譜波長(zhǎng)間存在嚴(yán)重自相關(guān)性,基于高光譜反演光合色素含量的研究若未充分考慮這一情況,將會(huì)導(dǎo)致波長(zhǎng)變量與色素含量的相關(guān)性較弱[9,13]。UVE、IRIV 和GA 法 3 種算法在本研究中表現(xiàn)出優(yōu)異效果,其中,在單一算法篩選特征波長(zhǎng)變量建立類胡蘿卜素含量預(yù)測(cè)模型中,IRIVXGBoost 模型達(dá)到最高精度;以耦合方式建立色素含量預(yù)測(cè)模型時(shí),GA-IRIV-XGBoost 葉綠素含量預(yù)測(cè)模型和UVE-IRIV-XGBoost 類胡蘿卜素含量預(yù)測(cè)模型表現(xiàn)出最好預(yù)測(cè)效果。從上述結(jié)果可以看出,IRIV 算法無(wú)論是單一使用還是耦合使用,都表現(xiàn)出優(yōu)于其他算法的性能。YUAN 等[13]采用CC、sCARS 和IRIV 反演辣椒相對(duì)葉綠素含量的研究中也證實(shí)了這種情況。這是由于信息量較強(qiáng)的變量由于相互間具有顯著的積極影響,被選取為最佳變量集,但信息量較弱的變量所具有的積極影響被忽略了,因此并不一定達(dá)到最優(yōu)變量集。IRIV 算法注重波長(zhǎng)變量間的協(xié)同效應(yīng),通過(guò)多次迭代循環(huán)消除無(wú)信息或干擾的變量后再進(jìn)行反向消除,搜索出重要變量的同時(shí)保留了信息量較小的變量[9,24,31]。對(duì)比單一算法和耦合算法提取的特征波長(zhǎng)變量數(shù)目和建立的反演模型結(jié)果(表2、表3),耦合算法在降低模型復(fù)雜性和提高模型精確性上具有明顯優(yōu)勢(shì),與許麗佳等[17]和WANG 等[31]的試驗(yàn)呈現(xiàn)相同結(jié)果。主要原因可能在于單一算法篩選特征波長(zhǎng)變量較為集中,導(dǎo)致多樣性缺乏,部分包含有用信息的波段缺失。而耦合算法能一定程度上改善光譜信息缺失問(wèn)題,提高特征波段的多樣性,所以具有更好的光譜信息提取性能。
本研究選用1 個(gè)線性模型PLSR 和3 個(gè)非線性模型SVR、GBDT 和XGBoost,在基于高光譜技術(shù)預(yù)測(cè)花生葉片光合色素含量階段均取得了良好的結(jié)果。且同陳倩等[32]采用 PLSR 和 XGBoost 等模型反演冬小麥葉片相對(duì)葉綠素含量的結(jié)果,GBDT 和XGBoost 相比于PLSR 和SVR,大多數(shù)情況表現(xiàn)出更優(yōu)的預(yù)測(cè)效果。這是因?yàn)镻LSR 是一種線性回歸模型,在處理高維數(shù)據(jù)時(shí)具有一定的局限性,而GBDT 和XGBoost 可以更好地解決自變量和因變量之間的復(fù)雜非線性關(guān)系問(wèn)題[13]。且與已有研究YUAN 等[13]的試驗(yàn)結(jié)果相同,GBDT 和XGBoost模型精度接近,但不同的是本研究中這兩種模型的精度高于PLSR。這可能是由于作物類型和環(huán)境因素不同,以及GBDT 和XGBoost 模型所配置的參數(shù)不同導(dǎo)致的結(jié)果。
綜合以上討論,能夠進(jìn)一步說(shuō)明耦合算法對(duì)提高作物生理指標(biāo)含量檢測(cè)精度方面具有有效性,在本研究中,耦合算法可以最大限度地提取具有有效信息的特征波長(zhǎng),能夠簡(jiǎn)化模型結(jié)構(gòu)并增強(qiáng)模型魯棒性,對(duì)花生葉片光合色素含量預(yù)測(cè)具有一定的指導(dǎo)和實(shí)踐意義。GBDT和XGBoost 在各變量組中體現(xiàn)出的優(yōu)勢(shì),說(shuō)明了此類模型應(yīng)用到花生葉片光合色素含量定量分析中具有較強(qiáng)的適用性、較高的預(yù)測(cè)精度和泛化能力,有著重要的研究?jī)r(jià)值。
本研究雖對(duì)基于高光譜技術(shù)預(yù)測(cè)花生葉片光合色素含量進(jìn)行了充分的研究并取得一定成果,但鑒于試驗(yàn)采用的數(shù)據(jù)量有限和作物生長(zhǎng)期單一等因素限制,該研究結(jié)果能否應(yīng)用于作物整個(gè)生長(zhǎng)期還需進(jìn)一步考察。且由于不同環(huán)境因素和所選用各種算法方案影響,模型參數(shù)會(huì)產(chǎn)生差異,所以研究結(jié)果是否通用于不同試驗(yàn)方案還需進(jìn)一步探究。
以開(kāi)花下針期花生葉片為研究對(duì)象測(cè)量冠層葉片的高光譜和光合色素含量數(shù)據(jù),對(duì)原始高光譜進(jìn)行SG 結(jié)合SNV 預(yù)處理后分別采用7 種單一算法篩選特征波長(zhǎng)變量,建立PLSR、SVR、GBDT 和XGBoost 花生葉片色素含量預(yù)測(cè)模型,從模型預(yù)測(cè)結(jié)果中優(yōu)選出3 種篩選變量算法進(jìn)行兩兩耦合后再次篩選建立預(yù)測(cè)模型。研究結(jié)果表明:
1)通過(guò)對(duì)比研究采用的7 種單一篩選波長(zhǎng)變量算法可知,7 種算法均對(duì)變量進(jìn)行了有效降維,且優(yōu)選出UVE、IRIV 和GA 算法。其中,葉綠素含量反演最佳模型為UVE-XGBoost 模型,R2=0.591,RMSE=0.244 mg/g;類胡蘿卜素含量反演最佳模型為 UVE-PLSR 和IRIVXGBoost 模型,R2=0.565,RMSE=0.056 mg/g。
2)對(duì)于分別基于UVE-IRIV、GA-IRIV 和GA-UVE 3 種耦合算法的光合色素含量預(yù)測(cè)模型,模型精度整體提升。在葉綠素含量反演模型中,GA-IRIV-XGBoost 模型達(dá)到最高精度,R2=0.622,RMSE=0.235 mg/g;在類胡蘿卜素含量反演模型中,UVE-IRIV-XGBoost 模型達(dá)到最高精度,R2=0.575,RMSE=0.056 mg/g。研究表明耦合算法可以有效壓縮變量、簡(jiǎn)化模型且提高模型穩(wěn)健性,可為花生葉片光合色素含量預(yù)測(cè)提供新的思路。
3)通過(guò)對(duì)比花生葉片葉綠素含量和類胡蘿卜素含量反演模型的預(yù)測(cè)精度,表明葉綠素含量的預(yù)測(cè)精度優(yōu)于類胡蘿卜素含量。