李冬冬 王浩瑛 王 蒙 王 銘 李國梁 何思洋 陳紹江 劉文欣*
(1.中國農(nóng)業(yè)大學(xué) 農(nóng)學(xué)院/作物雜種優(yōu)勢研究與利用教育部重點實驗室/作物遺傳改良北京市重點實驗室/國家玉米改良中心,北京 100193;2.中國農(nóng)業(yè)大學(xué) 國家能源非糧生物質(zhì)原料研發(fā)中心,北京 100193)
玉米是我國重要的主糧作物,產(chǎn)量高且具有飼料和能源等多重價值。玉米產(chǎn)量的穩(wěn)產(chǎn)和高產(chǎn)在保障我國糧食安全方面發(fā)揮了重要作用。磷是植物生長必須的大量元素,參與植物體內(nèi)許多重要的代謝途徑[1]。然而我國大量土地處于缺磷狀態(tài)[2],土壤中絕大部分磷素以難溶性磷酸鹽和有機(jī)磷形式存在,有效磷的含量較低[3],磷短缺將成為玉米生產(chǎn)的一大挑戰(zhàn)[4]。我國每年磷肥施用量超過700萬t[5],一定程度上提高了農(nóng)業(yè)生產(chǎn)成本,但施磷肥并不能從根本上解決問題,且過量使用會給環(huán)境帶來一定的負(fù)面影響[6]。從長遠(yuǎn)來看,培育耐低磷和磷高效利用的玉米品種是更為有效的手段,要實現(xiàn)這一育種目標(biāo),首先需要能快速準(zhǔn)確測量植物磷含量的方法。
目前測定植物磷含量的方法有很多,如比色法[7]、原子吸收光譜法[8]、電感耦合等離子質(zhì)譜法[9]和原子發(fā)射光譜法[10]等。但這些方法均需對樣品進(jìn)行前處理,存在程序繁瑣、成本高以及易受干擾等問題,因此急需創(chuàng)制一種簡單便捷且易用有效的植物磷含量測定技術(shù)。
上個世紀(jì)六十年代,使用近紅外光譜(NIRS)來進(jìn)行物質(zhì)測定的研究就已經(jīng)開始[11]。近年來,隨著光譜學(xué)技術(shù)的發(fā)展,近紅外光譜測量已成熟應(yīng)用于定性與定量分析。定性分析如李偉等[12]使用機(jī)器學(xué)習(xí)方法對玉米單倍體種子進(jìn)行鑒別,使用樸素貝葉斯、決策樹、K近鄰及支持向量機(jī)(SVM)等常用方法構(gòu)建出了近紅外玉米單倍體鑒別模型,其中前饋神經(jīng)網(wǎng)絡(luò)和偏最小二乘(PLS)的模型效果最好。定量分析如對土壤全磷含量[13]和煙草中磷含量[14]的測定等,其中土壤磷含量的預(yù)測相關(guān)系數(shù)為 0.83,在0.05顯著水平下,利用近紅外光譜技術(shù)所得的煙草根、莖和葉中磷含量的預(yù)測值與測定值之間不存在顯著差異。目前近紅外定量分析技術(shù)已應(yīng)用于植物秸稈組分的分析,Payne等[15]利用PLS建立的近紅外物質(zhì)測定模型,對玉米秸稈、水稻秸稈和高粱秸稈等多種原料組成的物質(zhì)中的葡聚糖、木聚糖、木質(zhì)素和灰分都起到了很好的預(yù)測效果,決定系數(shù)(R2)在0.90左右;Hu等[16]將可見光和近紅外反射光譜和改進(jìn)的PLS相結(jié)合,建立了預(yù)測不同水稻群體木質(zhì)素單體含量的校正模型,建立了預(yù)測對羥基苯基、愈創(chuàng)木酚和丁香基木質(zhì)素單元含量及其總量的4個最佳方程;Fan等[17]采用NIR監(jiān)測了高粱秸稈固態(tài)發(fā)酵過程,PLS在糖、乙醇、水和pH的含量預(yù)測中表現(xiàn)良好,其多元回歸模型的R2分別為 0.93、0.94、0.87和0.95,而均方根誤差(RMSE)僅分別為0.013、0.006、0.008和0.150。這些研究表明,近紅外光譜是一種快速準(zhǔn)確的可用于秸稈組分分析的方法。
近紅外光譜分析法具有速度快、無損和操作簡便的優(yōu)點,但目前針對玉米秸稈磷含量的快速檢測模型未見報道。本研究比較了PLS、最小絕對值收斂和選擇算子(LASSO)、SVM和回歸樹(RT)這幾種建模方法,旨在建立玉米秸稈磷含量快速精確的預(yù)測模型,為NIRS技術(shù)應(yīng)用于植物磷含量測定提供依據(jù),為磷高效玉米材料的篩選和遺傳學(xué)研究奠定基礎(chǔ)。
試驗材料來源于本課題組2018年種植于中國農(nóng)業(yè)大學(xué)上莊試驗站磷長期定位試驗地的玉米自交系群體。該群體來源廣泛,包含106個溫帶、48個熱帶和亞熱帶的種質(zhì)資源。玉米成熟后,混合收獲其地上部分的莖和葉組織,于65 ℃烘箱烘干至恒重,再用植物粉碎機(jī)粉碎,封存于紙袋中并儲存在干燥避光的環(huán)境中。
將等量粉末狀樣品小心放入樣品盤中,用壓樣器壓樣并刮去多余樣品。采用Thermo Scientific公司Antaris系列傅立葉近紅外儀和附帶軟件采集樣品光譜,光譜范圍4 000~10 000 cm-1,掃描10次,分辨率為4 cm-1。
利用鉬銻抗比色法測定樣品的磷含量,具體方法參照國家標(biāo)準(zhǔn)NY/T 2421—2013[18],該試驗由中國農(nóng)業(yè)大學(xué)國家能源非糧生物質(zhì)原料研發(fā)中心分析測試中心完成。
使用pls[19]、lars[20]、kernlab[21]和rpart[22]R語言程序包中的PLS、LASSO、SVM和RT 4種方法建模,并使用caret[23]R語言程序包計算PLS模型的最優(yōu)主成分?jǐn)?shù)。
采用5折交叉驗證策略評價模型預(yù)測準(zhǔn)確性和精度[24],將200份樣品按4∶1進(jìn)行隨機(jī)抽樣,分別作為訓(xùn)練集(training set)和測試集(test set),用以建立模型和評價模型。該步驟重復(fù)1 000次。對于PLS而言,由于每次抽樣所得訓(xùn)練集包含的個體不一樣,所以在評價模型時,所選用主成分?jǐn)?shù)量也不相等。而PLS的主成分?jǐn)?shù)量選擇十分關(guān)鍵,對預(yù)測結(jié)果的影響較大,本研究首先使用訓(xùn)練集來選取最優(yōu)的主成分?jǐn)?shù),具體方法為將訓(xùn)練集再分為5份,其中1份作為驗證集,選擇不同的主成分?jǐn)?shù)量來進(jìn)行交叉驗證,最終選取RMSE最小的主成分?jǐn)?shù)量來對測試集進(jìn)行預(yù)測。LASSO使用訓(xùn)練集進(jìn)行5折交叉驗證來確定最優(yōu)解的步數(shù),SVM選取最佳的核函數(shù),RT也選擇最適合的參數(shù)。將測試集真實值與預(yù)測值的相關(guān)系數(shù)(rtest)和訓(xùn)練集真實值與預(yù)測值的相關(guān)系數(shù)(rtraining)作為模型的評價指標(biāo)。相關(guān)系數(shù)越大,所建立模型的預(yù)測準(zhǔn)確性越高。
用11種方法對光譜數(shù)據(jù)進(jìn)行預(yù)處理,包括一階導(dǎo)數(shù)(First Derivative, d1)、二階導(dǎo)數(shù)(Second Derivative, d2)、多元散射校正(Multiplicative Scatter Correction, MSC)、歸一化(Scale)、平滑化(Smooth)、標(biāo)準(zhǔn)正態(tài)變換(Standard Normal Variate, SNV)、一階導(dǎo)數(shù)+多元散射校正(d1_msc)、一階導(dǎo)數(shù)+歸一化(d1_scale)、平滑化+一階導(dǎo)數(shù)(sm_d1)、平滑化+一階導(dǎo)數(shù)+歸一化(sm_d1_scale)和平滑化+二階導(dǎo)數(shù)(sm_d2)預(yù)處理。所有預(yù)處理均使用matlab軟件完成。
200份玉米秸稈樣品的原始光譜如圖1所示,每條光譜由1 557個變量組成。由圖1可知,光譜曲線趨勢一致,且不同樣品的光譜吸收有差異,這說明光譜數(shù)據(jù)可用于近紅外定量分析。
圖1 200份玉米秸稈樣品的原始近紅外光譜圖Fig.1 Original NIRS of 200 maize straw samples
利用鉬銻抗比色法測定的200份玉米秸稈磷含量分布如圖2。磷含量變化范圍為0.62~2.79 mg/g,平均值為1.41 mg/g,中位數(shù)為1.33 mg/g,變異系數(shù)為32.58%。這表明本研究選取的200份玉米秸稈樣品的磷含量變異較大,具有代表性。
圖中虛線表示均值。The dotted line in the figure represents the mean value.圖2 200份玉米秸稈樣品的磷含量分布Fig.2 Distribution of phosphorus concentration of 200 straw samples
對于PLS 模型,在訓(xùn)練集中進(jìn)行5折交叉驗證,來選擇最佳的主成分?jǐn)?shù)目。其中,主成分?jǐn)?shù)目最多可以選擇到訓(xùn)練集數(shù)目減去1,在此過程中,模型的RMSE先逐步下降再緩步上升(圖3(a)),但在選取的主成分?jǐn)?shù)目過大時,模型很不穩(wěn)定,出現(xiàn)了RMSE的陡升,但主成分?jǐn)?shù)目選擇并不受影響。對于SVM,核函數(shù)對于結(jié)果的影響很大,于是我們對SVM的6種不同的核函數(shù)進(jìn)行了比較,最終選取的是表現(xiàn)最佳的線性函數(shù)“vanilladot”(圖3(b))。LASSO也是在訓(xùn)練集中進(jìn)行了5折交叉驗證,用RMSE來選取最優(yōu)解的步數(shù)。在RT中, rpart函數(shù)中的參數(shù)“method”,選取最適合本研究的“anova”。
(a)中虛線表示選取的RMSE最小時的主成分?jǐn)?shù);(b)中不同小寫字母代表差異性顯著(LSD法,α=0.05)。下同。The dotted line in Figure (a) represents the number of principal components when the selected RMSE is the smallest. Different letters represent a significant difference in Figure (b) (LSD method, α=0.05). The same below.圖3 PLS最佳主成分?jǐn)?shù)和SVM最佳核函數(shù)的選擇Fig.3 The best selection of number of principal components for PLS and kernels for SVM
利用PLS、LASSO、SVM和RT等4種算法構(gòu)建光譜數(shù)據(jù)與化學(xué)測定結(jié)果的數(shù)學(xué)關(guān)系模型,各模型預(yù)測準(zhǔn)確性表現(xiàn)如圖4。結(jié)果顯示,4種算法對于訓(xùn)練集和測試集的預(yù)測準(zhǔn)確性均具有顯著性差異。其中,PLS表現(xiàn)最優(yōu),對訓(xùn)練集的擬合準(zhǔn)確性為0.97±0.03,對測試集的預(yù)測準(zhǔn)確性達(dá)到了0.80±0.05。LASSO通過限制回歸方程各系數(shù)絕對值之和,達(dá)到降維的效果,它會壓縮部分系數(shù)為0,從而會導(dǎo)致部分信息喪失,因而模型效果并不理想,測試集的預(yù)測準(zhǔn)確性為0.67±0.08;SVM的最終性能是由核函數(shù)直接決定的,本模型中選取的是線性核函數(shù),但其擬合和預(yù)測效果都不及PLS,測試集的預(yù)測相關(guān)系數(shù)為0.69±0.08;RT所得模型的測試集預(yù)測相關(guān)系數(shù)僅為0.03±0.15,訓(xùn)練集擬合的相關(guān)系數(shù)為0.68±0.03,擬合與預(yù)測效果在4種方法中表現(xiàn)最差,這說明該方法不適用于本類型的數(shù)據(jù)建模。
圖4 4種模型預(yù)測的相關(guān)系數(shù)Fig.4 The prediction correlation coefficients of the four models
基于以上結(jié)果,PLS為篩選出的最優(yōu)建模方法。將PLS結(jié)合不同預(yù)處理方式來探究不同光譜預(yù)處理方法對磷含量預(yù)測相關(guān)性的影響,結(jié)果如圖5(a)和5(b)所示,主成分?jǐn)?shù)量的選取如圖5(c)所示。結(jié)果表明,對于訓(xùn)練集的預(yù)測,原始數(shù)據(jù)、歸一化和平滑化表現(xiàn)最好,二階導(dǎo)數(shù)和平滑化+二階導(dǎo)數(shù)表現(xiàn)最差;對于測試集的預(yù)測,也呈現(xiàn)出相似的趨勢。這說明對于磷含量的預(yù)測,原始數(shù)據(jù)的表現(xiàn)已經(jīng)很好,所采取的這些預(yù)處理方法意義不大,是否有更好的預(yù)處理方法,值得我們進(jìn)一步的探究。
圖5 不同預(yù)處理方法結(jié)合PLS所得模型的預(yù)測相關(guān)系數(shù)和選取的主成分?jǐn)?shù)量Fig.5 The prediction accuracy of different pre-processing methods combined with PLS model and the number of principal components selected
通常情況下樣本量的大小影響建模的精度和實用性。為了探究建模所需的最少樣本數(shù),本研究將200份樣品分成了不同比例,探索訓(xùn)練集與測試集不同比例(分別為2∶8、3∶7、4∶6、5∶5、6∶4、7∶3、8∶2 及9∶1)時,對測試集的預(yù)測效果。結(jié)果顯示,隨著訓(xùn)練集數(shù)目的增多,訓(xùn)練集的擬合相關(guān)系數(shù)和測試集的預(yù)測相關(guān)系數(shù)均不斷上升。但是訓(xùn)練集數(shù)目達(dá)到160,即訓(xùn)練集∶測試集為8∶2時,測試集的相關(guān)系數(shù)達(dá)到了0.80,再增大訓(xùn)練集比例也并沒有顯著提高預(yù)測準(zhǔn)確性。留一法是只將一個樣本作為測試集,剩下的樣本都作為訓(xùn)練集,最大限度地選取了訓(xùn)練集,能夠計算模型的最大預(yù)測相關(guān)性[25]。留一法的擬合結(jié)果如圖6(c)所示,呈現(xiàn)出較好的擬合效果,但是其得到的rtest與5折交叉驗證無顯著差異(圖6(b))。這說明,對于本研究來說,5折交叉驗證已經(jīng)足夠,無需采取計算難度更大的留一法。
(b)中虛線為留一法測試集的預(yù)測相關(guān)系數(shù);(c)中紅色點代表真實值最大的15個樣品,藍(lán)色點代表真實值最小的15個樣品。In Figure (b), the dotted line is the rtest of Leave-One-Out method. In Figure (c), the red dots represent the 15 samples with the largest true values, and the blue dots represent the 15 samples with the smallest true values.圖6 不同訓(xùn)練集比例和留一法結(jié)合PLS模型的預(yù)測相關(guān)系數(shù)Fig.6 The prediction correlation of different training set ratios and Leave-One-Out method combined with PLS model
近紅外光譜是研究分子運動的吸收光譜[26],主要基于C-H、N-H、O-H和C-O這些基團(tuán)的振動倍頻和合頻的吸收,其中振動效應(yīng)的特殊性為物理化學(xué)提供了大量的獨立的高價值光譜信息[27],因為不同樣品對近紅外光譜的選擇性吸收,可以對物質(zhì)進(jìn)行定性和定量分析,應(yīng)用于物質(zhì)磷含量的測定。Murguzur 等[28]使用NIR對植物葉片磷含量進(jìn)行測定,決定系數(shù)為0.76;Lin等[29]使用NIR對混合土壤全磷含量進(jìn)行測定,決定系數(shù)約為0.60。前人的研究也充分證明了使用近紅外光譜建立磷含量測定的模型有較高的研究價值。
本研究是將近紅外光譜技術(shù)應(yīng)用于玉米秸稈磷含量的定量分析,比較了不同建模方法和不同預(yù)處理方式對模型預(yù)測準(zhǔn)確性和穩(wěn)定性的影響,并研究了建模時所需的最小樣本數(shù)目。在玉米秸稈磷含量的定量分析中,對4 000~10 000 cm-1波段的光譜數(shù)據(jù)采用PLS進(jìn)行建模,所得模型最優(yōu)。所得模型的訓(xùn)練集的擬合相關(guān)系數(shù)為0.97±0.03,測試集的預(yù)測相關(guān)系數(shù)為0.80±0.05。Baye等[30]的研究證明了PLS在NIR預(yù)測玉米籽粒營養(yǎng)物質(zhì)方面也具有卓越的性能,尤其是對玉米籽粒中蛋白質(zhì)含量的預(yù)測準(zhǔn)確性達(dá)到了0.90,對淀粉含量的預(yù)測相關(guān)性達(dá)到了0.87。Kahrman等[31]的研究也獲得了類似的結(jié)果。這說明,PLS非常適合用于建立玉米干物質(zhì)含量NIR定量分析的模型。Carra等[32]開發(fā)了PLS模型用NIR預(yù)測土壤中磷含量,其測試集的決定系數(shù)達(dá)到了0.95,這進(jìn)一步說明了NIR和PLS在快速檢測磷含量上的應(yīng)用價值,也說明本研究模型還有待改進(jìn)。前人的研究及我們得到的結(jié)論均表明,近紅外光譜技術(shù)可應(yīng)用于玉米秸稈磷含量的快速測定,這為植物磷含量的測定提供了一種快速、簡便和實用的方法,使得大量樣本的測定變得更加方便。
在生產(chǎn)上,采用化學(xué)方法測定物質(zhì)含量是十分繁雜的,而近紅外光譜的測定則十分容易,只需要采用化學(xué)方法測定小部分樣品的物質(zhì)含量,作為訓(xùn)練集,建立PLS模型,便可以快速預(yù)測大量的樣本,大大加快科學(xué)研究的進(jìn)程。