郭 陽,郭俊先,史 勇,*,李雪蓮,黃 華
(新疆農(nóng)業(yè)大學(xué) a. 機(jī)電工程學(xué)院;b. 數(shù)理學(xué)院,新疆 烏魯木齊 830052)
光合作用是作物產(chǎn)量的根本來源,葉片是植物進(jìn)行光合作用的主要器官,而光合作用強(qiáng)弱主要與葉綠素相關(guān),同時光合作用越強(qiáng)植物長勢越好,這使得葉片葉綠素含量會影響植物生長和營養(yǎng)水平。傳統(tǒng)方法是采用化學(xué)方法在實(shí)驗(yàn)室內(nèi)測定葉片葉綠素a和葉綠素b等元素,但這種測量方法具有破壞性、費(fèi)時費(fèi)力等缺點(diǎn);研究發(fā)現(xiàn),使用SPAD葉綠素儀測定的結(jié)果與化學(xué)方法獲得的結(jié)果相關(guān)性很高,這表明可以用葉綠素相對含量(SPAD值)來表征葉綠素含量,但葉綠素儀的檢測普遍存在費(fèi)時,以及在大田檢測的使用中精度受天氣和光照強(qiáng)度的影響等問題。因此,利用光譜分析技術(shù)可以為大田哈密瓜冠層葉片SPAD值預(yù)測提供一種新的研究思路。
目前,近紅外光譜已經(jīng)成為在工農(nóng)業(yè)生產(chǎn)過程質(zhì)量監(jiān)控領(lǐng)域中不可或缺的重要分析手段之一,這與該技術(shù)具有的本質(zhì)特點(diǎn)是分不開的,主要包括測試方便、儀器成本低、分析速度快等特點(diǎn),利用近紅外光譜可以實(shí)現(xiàn)對待測目標(biāo)的理化指標(biāo)和理化性質(zhì)進(jìn)行無損檢測。光譜技術(shù)在植物葉綠素的無損測定中同樣應(yīng)用廣泛。例如閆明壯等采用光譜和圖像紋理特征融合技術(shù)檢測綠蘿葉片的葉綠素含量,其建立的模型校正集決定系數(shù)為0.961 2,預(yù)測集決定系數(shù)為0.957 1。劉寧等在比較過隨機(jī)森林(RF)、競爭性自適應(yīng)重加權(quán)采樣算法(CARS)、蒙特卡羅無信息變量消除算法(MU-UVE)3種特征篩選算法后,發(fā)現(xiàn)RF篩選的特征波長變量能夠較全面地反映馬鈴薯葉綠素的相關(guān)信息,最優(yōu)的結(jié)果為0.786,交叉驗(yàn)證均方差(RMSECV)為3.145。李雪等利用CARS對經(jīng)過一階求導(dǎo)和標(biāo)準(zhǔn)正態(tài)變換預(yù)處理過的光譜數(shù)據(jù)進(jìn)行特征篩選,然后結(jié)合偏最小二乘算法(PLS)建立了油菜籽葉綠素的定量預(yù)測模型,結(jié)果表明,該模型可以準(zhǔn)確預(yù)測,決定系數(shù)為0.944 6,RMSECV為1.36。吳文強(qiáng)等基于PCA-BP神經(jīng)網(wǎng)絡(luò)算法對桃樹葉片SPAD值的預(yù)測研究效果非常顯著,模型的預(yù)測精度最高可達(dá)到0.974。陳曉等提取光譜全波段的前5個主成分,然后分別結(jié)合多元線性回歸和BP神經(jīng)網(wǎng)絡(luò)建立甘蔗葉片葉綠素的預(yù)測模型,最終預(yù)測精度為0.892??蝶惖冗\(yùn)用CARS、主成分分析(PCA)選取特征變量,然后分別結(jié)合PLS、支持向量回歸(SVR)、BP神經(jīng)網(wǎng)絡(luò)(BPNN)構(gòu)建了水稻葉片SPAD值估測模型,通過對比分析得出最優(yōu)模型為PCA-BPNN,其預(yù)測集決定系數(shù)為0.808 2。王璐等使用CARS、PCA、連續(xù)投影算法(SPA)對經(jīng)過預(yù)處理的大豆冠層葉片光譜數(shù)據(jù)進(jìn)行特征波長的提取,將提取的特征波長作為輸入變量分別結(jié)合偏最小二乘回歸(PLS)和多元線性回歸(MLR)建立冠層葉片SPAD定量分析模型,對比模型效果表明CARS-MLR效果最佳,其校正集和預(yù)測集的均方根誤差分別為5.67和5.94。以上所述是利用光譜技術(shù)對作物葉綠素的研究檢測,但對預(yù)處理過的光譜數(shù)據(jù)都是在全波段的基礎(chǔ)上進(jìn)行單一的特征波長提取和數(shù)據(jù)壓縮,而這可能存在特征選擇方法在篩選特征波長的時候會出現(xiàn)獲得的數(shù)量較多的情況或者數(shù)據(jù)處理易受到樣本個數(shù)的影響的問題;數(shù)據(jù)壓縮的本質(zhì)是通過線性和非線性的特征提取算法將光譜數(shù)據(jù)從高維度空間映射到低維度的空間中,然后將低維度空間內(nèi)的數(shù)據(jù)作為預(yù)測模型的輸入變量來建立預(yù)測模型,但是實(shí)質(zhì)上參與模型運(yùn)算的光譜數(shù)據(jù)量并沒有減少,故單一的特征波長選擇和數(shù)據(jù)壓縮可能導(dǎo)致模型的精度出現(xiàn)誤差。先對預(yù)處理過的光譜數(shù)據(jù)進(jìn)行波段的選擇,再結(jié)合特征波長提取對組合區(qū)間的波長進(jìn)行選擇,這種數(shù)據(jù)降維的方法在農(nóng)作物的葉綠素檢測中還未見報(bào)道。
綜上,本研究以新疆特色農(nóng)作物哈密瓜冠層葉片為例,使用基于BiPLS的特征波段選擇和CARS、連續(xù)投影算法(SPA)、遺傳算法(GA)、MC-UVE相結(jié)合的光譜數(shù)據(jù)降維的方法,結(jié)合PLS、極限學(xué)習(xí)機(jī)(ELM)建立新疆哈密瓜植株生長期冠層葉片葉綠素相對含量(SPAD值)的定量分析預(yù)測模型,以期實(shí)現(xiàn)光譜技術(shù)對新疆哈密瓜植株生長的無損監(jiān)測。
選取新疆哈密地區(qū)巴里坤縣三塘湖鎮(zhèn)中湖村為試驗(yàn)地點(diǎn),該地形呈西高東低之勢,氣候干燥酷熱多風(fēng),屬典型的大陸性氣候。試驗(yàn)田位置為東經(jīng)93°51′,北緯43°48′,土壤類型為砂壤土,pH值6.8,堿解氮含量126.42 mg·kg,有效磷含量267.52 mg·kg,速效鉀含量41.91 mg·kg。
試驗(yàn)田按照滴灌量,追肥量兩因子進(jìn)行全因素組合設(shè)計(jì),每個處理劃分3個重復(fù)區(qū)。于2020年6月27日在甜瓜的成長期施加氮磷鉀復(fù)合肥(N+ PO+KO),施肥量設(shè)為3個水平,分別為低(72 kg·hm)、中(90 kg·hm)、高(108 kg·hm);滴灌量設(shè)為2個水平,分別為過盈和缺水,加上對照組一共7個處理,21個重復(fù)區(qū),每個處理中有一個重復(fù)是專門用來做破壞實(shí)驗(yàn),試驗(yàn)所用的葉片樣本都在該重復(fù)區(qū)內(nèi)采摘,實(shí)驗(yàn)田按照大田管理方式進(jìn)行管理。
于2020年在哈密瓜植株成長期(M1)、開花期(M2)、結(jié)果期(M3)、成熟期(M4)隨機(jī)取25個哈密瓜葉片樣本,一共采集100個作為實(shí)驗(yàn)樣本。用浙江托普云農(nóng)生產(chǎn)的TYS-B葉綠素測定儀避開主葉脈在葉片左、中、右3個點(diǎn)采集葉片葉綠素的相對含量(SPAD值),每個點(diǎn)采集3次數(shù)據(jù),取平均值作為參考值,最后取3個點(diǎn)的平均值作為樣本葉綠素的參考值,該儀器的測量精度優(yōu)于±3.0 SPAD,重復(fù)性優(yōu)于±0.3 SPAD(SPAD值介于0~99.0),測量樣本SPAD值的同時用黑色水筆在采集過光譜的位置做好圓圈標(biāo)記,并保證水筆的墨水不能弄到葉綠素儀測量過的位置。結(jié)合前人的研究可以確定葉綠素儀測定的SPAD值與通過化學(xué)方法測定的葉綠素含量顯著相關(guān)。因此,SPAD值可以作為光譜數(shù)據(jù)的參考值。
對葉片光譜數(shù)據(jù)的采集由于實(shí)驗(yàn)設(shè)備性質(zhì)的限制,采用離線的方式采集葉片光譜數(shù)據(jù)。在田間將樣本采摘并裝進(jìn)密封袋內(nèi)進(jìn)行編號,帶回實(shí)驗(yàn)室,使用美國海洋光學(xué)公司的Maya2000微型光纖光譜儀,光譜測定范圍為200~1 234 nm,光譜采樣間隔為0.2 s。主要工作參數(shù)設(shè)置包括積分時間為7 200,掃描次數(shù)為10,平滑點(diǎn)數(shù)為3。采集光譜數(shù)據(jù)時避開主葉脈,在葉片左、中、右3個點(diǎn)采集近紅外數(shù)據(jù),再用3次數(shù)據(jù)的平均值作為樣本的原始光譜。
反向區(qū)間偏最小二乘法(BiPLS)是以間隔偏最小二乘法(iPLS)為基礎(chǔ),對光譜數(shù)據(jù)進(jìn)行特征波段選擇的方法,該方法是一種只進(jìn)不出的算法,其基本原理是將全光譜數(shù)據(jù)等均分成N個子區(qū)間,然后對全光譜數(shù)據(jù)建立PLS的回歸預(yù)測模型,以均方根誤差(RMSE)作為模型的評價,對各個子區(qū)間進(jìn)行剔除,每次剔除的子區(qū)間是RMSE值最小所對應(yīng)的子區(qū)間,最終對所有剔除出來的子區(qū)間聯(lián)合建模。
為進(jìn)一步降低輸入變量的維度,提高模型的預(yù)測精度,本研究在BiPLS的基礎(chǔ)上分別結(jié)合GA、CARS、MC-UVE、SPA4種常見的特征波長選擇算法,對BiPLS篩選出來的聯(lián)合子區(qū)間進(jìn)行特征波長的選擇,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)降維,簡化模型,提高模型預(yù)測精度的目的。
極限學(xué)習(xí)機(jī)(ELM)相比于前饋神經(jīng)網(wǎng)絡(luò)等在運(yùn)算過程中不需設(shè)定大量的參數(shù),且運(yùn)算速度更快,只需按照實(shí)際情況選擇合適的激勵函數(shù)(AF),在算法運(yùn)行過程中隨機(jī)產(chǎn)生網(wǎng)絡(luò)的輸入權(quán)值及隱含層單元偏置,且不需要調(diào)整,比較容易實(shí)現(xiàn)。因此,ELM具有學(xué)習(xí)速度快,高強(qiáng)的泛化能力促使模型只有唯一的最優(yōu)解等特點(diǎn)。偏最小二乘法(PLS)是一種基于因子分析的多變量校正方法,在分析過程中,自變量和因變量數(shù)據(jù)的分解同時進(jìn)行,并將因變量引入自變量數(shù)據(jù)分解過程中,使得自變量與分析組分相關(guān)。并且該方法在定量分析中應(yīng)用非常廣泛。
預(yù)測模型的評價指標(biāo)為相關(guān)系數(shù)()和均方根誤差(RMSE)。其中校正集均方根誤差為RMSEC,預(yù)測集均方根誤差為RMSEP;校正集相關(guān)系數(shù)為、預(yù)測集相關(guān)系數(shù)為,預(yù)測模型的相關(guān)系數(shù)越大表示相關(guān)性越高;預(yù)測模型的RMSEP越小,模型的預(yù)測效果越好。
考慮到SPXY(sample set partitioning based on joint x-y distance)算法能同時研究光譜特征與樣本理化性質(zhì)的能力,使用該劃分方法按照3∶1的比例將原始數(shù)據(jù)劃分為樣本校正集和預(yù)測集,其結(jié)果如表1所示。
從表1中可以看出,甜瓜葉綠素相對含量SPAD值的最大值和最小值都被劃分到了校正集中,并且劃分到預(yù)測集的數(shù)據(jù)值都在校正集區(qū)間內(nèi),表明利用SPXY劃分的樣本集的分布合理,使得定量分析模型也能得到較好的結(jié)果。
表1 甜瓜葉綠素相對含量 SPAD 值
本研究分別用多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量交化(SNV)、標(biāo)準(zhǔn)化(Autoscales)、Savitzky-Golay卷積平滑法(SG-平滑)、歸一化(normalization)、移動平均平滑(moving average,MA)對原始近紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理;標(biāo)準(zhǔn)正態(tài)變量變換一般用來消除樣本表面散射及光程變化帶來的光譜誤差;多元散射校正可以減小光譜數(shù)據(jù)的差異;卷積平滑法可以消除基線漂移;標(biāo)準(zhǔn)化可以使所有波長變量都有相同的權(quán)重。
表2是以7個經(jīng)過預(yù)處理和原始的光譜數(shù)據(jù)作為變量結(jié)合PLS建立預(yù)測模型來選取最優(yōu)的光譜預(yù)處理方法,模型的評價指標(biāo)為最佳主成分個數(shù)(PC)、剩余預(yù)測殘差(RPD),其中RPD小于1表示模型效果差,無法應(yīng)用;RPD為1.0~1.4表示模型僅能分辨出理化性質(zhì)的高低,無法用做定量預(yù)測;RPD為1.4~2.0表示模型一般,可能用于定量預(yù)測;RPD大于2.0表示模型可用于定量分析。
由表2可見,原始光譜做多元散射校正時,建立的PLS模型預(yù)測集為0.799 6,RMSEP為1.214 4,最佳主成分個數(shù)相對其他方法是最少的,只有5個最佳主成分,RPD為2.233 9,RPD大于2表示建立的模型可用于模型預(yù)測分析。因此,選取經(jīng)過多元散射校正的光譜變量作為后續(xù)分析的輸入變量。
表2 不同預(yù)處理方法的葉綠素含量PLS模型RPD值對比
在全波段下進(jìn)行數(shù)據(jù)降維和建模時,全波段的近紅外光譜信息中會存在一些與葉片葉綠素含量無關(guān)的光譜信息,這樣不僅會影響模型的準(zhǔn)確性還會影響計(jì)算速度。因此,本研究使用反向區(qū)間偏最小二乘法(BiPLS)將全波段的光譜分成不同的區(qū)間,然后選擇相關(guān)性最好的區(qū)間進(jìn)行數(shù)據(jù)降維。不同區(qū)間總數(shù)的劃分結(jié)果如表3所示。
表3 不同區(qū)間總數(shù)的劃分結(jié)果
由表4可確定將全光譜數(shù)據(jù)等分成16個子區(qū)間,然后把這些子區(qū)間進(jìn)行聯(lián)合建模,當(dāng)篩選出3個子區(qū)間時,其光譜反射率變量區(qū)間范圍分別為[313~416]、[1248~1352]、[1560~1664],RMSECV的值最小為1.306 5,此時入選的光譜變量個數(shù)為312。
表4 子區(qū)間優(yōu)選結(jié)果
圖1為CARS算法篩選特征波長變量過程。由圖1可知,在特征波長變量篩選過程中,可以看出變量總數(shù)在不斷減少,直至達(dá)到最優(yōu)迭代次數(shù)。當(dāng)RMSECV為1.085 3時,對應(yīng)的最優(yōu)迭代次數(shù)為63,然后確定從原始312個波長中篩選的特征波長變量為13個,分別為527.73、537.25、538.15、540.25、547.20、967.00、978.10、1 080.21、1 081.47、1 085.68、1 106.69、1 107.11、1 110.68 nm。
a,變量優(yōu)化過程;b,RMSECV變化趨勢;c,回歸系數(shù)變化。a, Variable optimization process; b, Change trend of RMSECV; c, Change of regression coefficient.圖1 CARS篩選光譜變量過程Fig.1 CARS screening spectral variable process
MC-UVE就是消除無用的光譜信息,篩選出與SPAD相關(guān)性高的光譜波長,設(shè)定迭代次數(shù)為=1 000,然后將波長變量按照8個變量為一組把312個波長變量劃分成39組;然后以迭代累加的方式,使用每次疊加的變量構(gòu)建PLS模型,選取PLS的最大值的組數(shù)作為最終選取的變量個數(shù),其過程如圖2和圖3所示。
圖2 光譜變量穩(wěn)定圖Fig.2 Spectral variable stability map
圖3 MC-UVE篩選光譜變量個數(shù)Fig.3 The number of spectral variables screened by MC-UVE
從圖3得出的最大值為0.813 2,對應(yīng)的組數(shù)為9組,因此篩選前9組作為最佳變量,一共有72個特征波長變量。
本研究中,GA的控制參數(shù)設(shè)置為:初始種群數(shù)為100(樣本數(shù)為100個),變異概率0.01,遺傳迭代次數(shù)為100,變異概率0.5。圖4為GA所選光譜變量的頻率,一共篩選出28個特征光譜變量,分別為550.82、939.63、1 078.10、528.18、1 080.21、567.53、940.48、942.20、1 078.52、529.54、557.15、567.98、940.06、942.63、1 086.94、529.09、941.77、1 076.42、527.73、551.27、943.05、1 079.00、1 087.36、1 080.63、1 076.00、1 075.58、557.60、577.20 nm。
圖4 光譜變量頻率圖Fig.4 Spectrum variable frequency chart
使用SPA算法對經(jīng)過BiPLS選擇的312個光譜變量進(jìn)行特征波長選擇,進(jìn)一步降低光譜數(shù)據(jù)的維度。設(shè)置SPA的變量選擇為1到20,變量的選擇過程如圖5所示,當(dāng)RMSE的最小值為1.017 8時,選擇的最優(yōu)變量數(shù)為8,分別為563.01、537.70、547.20、949.48、1 084.84、1 074.73、1 089.89、1 102.50 nm。
圖5 SPA優(yōu)選變量過程Fig.5 The SPA optimization variable process
采用BiPLS以及與特征波長篩選算法相結(jié)合的共5種數(shù)據(jù)降維方法,其最終得到的變量數(shù)為312、8、28、13、72,再分別結(jié)合PLS、ELM建立預(yù)測模型,經(jīng)過對比研究發(fā)現(xiàn),最優(yōu)降維方法為BiPLS-CARS,其分析結(jié)果如表5所示。
表5 數(shù)據(jù)降維下結(jié)合PLS的建模預(yù)測效果
從兩個模型的所有結(jié)果,可以分析出偏最小二乘法(PLS)整體的預(yù)測效果是要優(yōu)于極限學(xué)習(xí)機(jī)(ELM)的,極限學(xué)習(xí)的預(yù)測精度主要受隱含神經(jīng)元個數(shù)和激勵函數(shù)的影響,而隱含神經(jīng)元個數(shù)沒有固定的方法確定,一般設(shè)置為樣本的個數(shù),故極限學(xué)習(xí)機(jī)雖然具有學(xué)習(xí)速度快等優(yōu)點(diǎn),但同時模型預(yù)測精度也會受到樣本個數(shù)的影響,可能這也是ELM的所有模型精度普遍都低于PLS的原因;同時兩個模型中校正集均方根誤差(RMSEC)與預(yù)測集均方根誤差(RMSEP)之差的絕對值越小,表明所建立的預(yù)測模型穩(wěn)健性越好,模型的精度越高。從表5和表6中通過對比分析,可以發(fā)現(xiàn)最優(yōu)的預(yù)測模型為MSC+BiPLS+CARS+PLS,模型中校正集均方根誤差(RMSEC)與預(yù)測集均方根誤差(RMSEP)之差的絕對值最小為0.078 9,表明模型的穩(wěn)健性最優(yōu)。
表6 數(shù)據(jù)降維下結(jié)合ELM的建模預(yù)測效果
基于光譜技術(shù)結(jié)合化學(xué)計(jì)量法對大田哈密瓜冠層葉片的葉綠素含量的無損檢測進(jìn)行了研究,利用MSC、SNV、Autoscales、SG-平滑、Normalization、MA共6種光譜預(yù)處理方法對冠層葉片的原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,然后結(jié)合PLS算法篩選出最優(yōu)的光譜預(yù)處理方法,對其處理過的光譜數(shù)據(jù)利用BiPLS以及與GA、CARS、MC-UVE、SPA的組合算法提取特征波長,分別結(jié)合線性模型PLS與非線性模型ELM分析冠層葉片葉綠素的預(yù)測模型效果。結(jié)果表明:(1)不同預(yù)處理方法結(jié)合PLS建立的定量預(yù)測模型中,最優(yōu)的預(yù)處理方法為MSC,其預(yù)測集的相關(guān)系數(shù)和均方根誤差RMSEP分別為0.799 6與1.214 4,可以看出全波長下建立的定量預(yù)測模型精度不是很高。(2)為提高模型的精度,將MSC預(yù)處理過的光譜變量,使用BiPLS對其進(jìn)行特征區(qū)間選擇,分別結(jié)合PLS和ELM建立了預(yù)測模型,其中最優(yōu)模型預(yù)測集的和RMSEP分別為0.922 9和1.135 2,通過對比分析可以發(fā)現(xiàn),模型的預(yù)測精度得到了極大的提升,模型也更加穩(wěn)健,但BiPLS篩選出來的聯(lián)合子區(qū)間的變量數(shù)高達(dá)312個,其使得模型的精度和穩(wěn)健性仍然有提升的空間,同時過高的數(shù)據(jù)維度也會使模型計(jì)算時間耗時過長。(3)本研究分別利用GA、CARS、MC-UVE、SPA 4種特征波長選擇算法對BiPLS篩選出的聯(lián)合子區(qū)間進(jìn)行特征波長提取,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)降維的目的;同時結(jié)合PLS和ELM建立了預(yù)測模型,發(fā)現(xiàn)在經(jīng)過BiPLS特征區(qū)間選擇的基礎(chǔ)進(jìn)行特征波長選擇后,所有的模型預(yù)測精度都有所提升,這表明特征區(qū)間選擇和特征波長選擇相結(jié)合,不僅能實(shí)現(xiàn)數(shù)據(jù)降維的目的,還能提高模型的預(yù)測精度,其最優(yōu)的預(yù)測模型為MSC+BiPLS+CARS+PLS,預(yù)測集的和RMSEP分別為0.942 4與1.006 2。
本研究在利用光譜技術(shù)建立大田哈密瓜冠層葉片葉綠素含量無損檢測的過程中,主要分析了特征區(qū)間選擇和特征波長選擇相結(jié)合下對模型的影響,同時實(shí)現(xiàn)了數(shù)據(jù)降維的目的,極大提升了模型的效果。但樣本的數(shù)量還相對較少,同時建立的葉綠素反演模型只是針對當(dāng)?shù)卦囼?yàn)田內(nèi)的哈密瓜品種,對于其它產(chǎn)地和其它品種的葉綠素反演是否精確還需進(jìn)一步的研究。因此,在未來的研究中增加不同地區(qū)和不同品種哈密瓜葉片樣本,同時針對不同生育期分別建立其SPAD值的反演模型,提高預(yù)測模型的適普性,以此來實(shí)現(xiàn)對大田哈密瓜植株生長的無損監(jiān)測,為哈密瓜生長的田間管理提供理論依據(jù)。