王麗萍,趙興忠,陳文杰,田建華,李殿榮
(陜西省雜交油菜研究中心,國家油料作物改良中心陜西分中心,陜西大荔 715105)
近紅外光譜分析技術(shù)(NIRS)是一種高效、快速的現(xiàn)代分析技術(shù)。該法操作簡單、分析速度快、測試效率高,特別是可以非破壞性地同時分析多項指標、測試過程無污染等優(yōu)點,使其在農(nóng)業(yè)領(lǐng)域得到廣泛應用[1]。芥酸、硫苷及油份含量是油菜籽最重要的育種品質(zhì)指標,國內(nèi)外應用近紅外光譜技術(shù)測定油菜籽芥酸[2,3]、硫苷[4,5]和含油量[6-8]已有大量的文獻報道。眾所周知,影響近紅外模型預測性能的因素有很多,來源主要包括樣品、儀器和操作者三種因素,而樣品的代表性是近紅外建模及維護過程中影響模型預測性能的首要因素。通常情況下,為了獲得一個穩(wěn)健的近紅外預測模型,定標集樣品選擇一定要有代表性,數(shù)量太少,不足以反映待測樣品的群體常態(tài)分布規(guī)律,數(shù)量太多將增加分析和篩選的工作量[9]。徐志龍等為減小溫度對模型的影響,提出包含溫度影響因子的混合建模方法[10]。姚勝等研究了實驗誤差對模型準確性的影響,認為精確度越高模型的準確性越好[11]。在近紅外模型測定中,近紅外預測值與化學值之間都存在一定的偏差,只是偏差大小的區(qū)別。由此設想存在一定偏差的樣品有可能是模型之外的樣品。因此我們將這些不同偏差的樣品添加至原模型后對模型的預測性能進行了考察。在此基礎(chǔ)上,本文著重從偏差角度出發(fā),以含油量模型為例,探討了近紅外模型維護時樣品選擇的一些基本規(guī)律,以期為提高近紅外光譜分析法在油菜籽品質(zhì)測定中的準確性提供一定的科學參考。
光譜采集使用德國BRUKER公司的MPA型傅里葉變換近紅外光譜儀(配有鍍金積分球,樣品旋轉(zhuǎn)器和4.2 cm石英樣品杯,單粒樣品臺和2.0 cm安培瓶,鍍金背景和 PbS檢測器),譜區(qū)范圍12000~4000 cm-1,分辨率8 cm-1,掃描次數(shù)64次,室溫26~27℃,OPUS 5.5軟件包用于數(shù)據(jù)分析。
所用實驗材料均由陜西省雜交油菜研究中心育種分析室提供,選取水分含量基本一致,含油量變化范圍大,千粒重、粒色不同而且包括特殊種質(zhì)在內(nèi)的多種基因型樣品223份,建立標準模型樣品集和檢驗集。
殘余法(化學法)測定油菜籽的含油量(化學法GB/T 10359-1989)。
測定油菜籽中的含油量。
在近紅外建模過程中,一個好的數(shù)學模型要求建模樣品具有代表性。為此,所選用223份樣品基本覆蓋了預測集可能出現(xiàn)的含量范圍,同時含量分布均勻。并對這些樣品采集近紅外光譜和測定化學值。
在近紅外光譜分析中,由近紅外光譜儀采集得到的光譜除包含有樣品的自身信息外,還包含一些無關(guān)信息和噪聲(噪聲主要來源于3個方面:儀器、樣品以及操作)。如果直接使用這些原始光譜信號進行定量分析,必然會影響最終所建模型的準確性與精度[12]。為濾除噪音的影響,在 OPUS 5.5軟件分析包中,首先對采集的光譜數(shù)據(jù)進行光譜預處理,其方法主要包括矢量歸一化(VN)、多元散射校正(MSC)、線性補償差減法(COE)、直線差減法(SLS)、最大-最小歸一法(MMN)、一階導數(shù)(FD)和二階導數(shù)(SD)等。然后運用偏最小二乘法(PLS)對經(jīng)過不同數(shù)學預處理的光譜進行分析,建立并優(yōu)化近紅外光譜法測定值與化學測定值的關(guān)系模型,其交互驗證的相關(guān)圖及誤差分布如圖1所示。所建模型的交互驗證均方根誤差(RMSECV)和決定系數(shù)(R2)分別為 0.39 和 0.9891,偏差在 ±1.2%之間。
近紅外模型的維護工作是一項重要的工作,一般情況下,維護應該是校正,而不是重建,即保持模型的原有狀態(tài)。若添加少量特殊樣品,模型自動檢測為異常值,若添加大量特殊樣品,則極易使原模型失效。這與近紅外建模樣品的選擇相比,要求更苛刻一些。因此,樣品的選擇在近紅外模型的維護中同樣十分重要。在近紅外測定過程中,我們經(jīng)常會遇到近紅外預測值與化學測定值出現(xiàn)一定偏差的情況,本研究主要征對上述情況進行了一些探討。即添加至模型中的樣品偏差對模型的預測性能有無影響,以及不同偏差的樣品對模型預測性能的改善效果是否一致。為此,設計了如下四個模型:A模型是向原模型添加偏差小于0.5%的樣品,B模型是向原模型添加偏差介于0.5% ~1%之間的樣品,C模型是向原模型添加偏差介于1%~2%之間的樣品,D模型是向原模型添加偏差介于0~2%之間的樣品。用于建模樣品的品質(zhì)參數(shù)見表1。添加不同樣品至原模型所建立的模型參數(shù)見表2。從表2可以看出A和B兩個模型的RMSECV和R2均優(yōu)于原模型,C模型參數(shù)變化不顯著,而D模型由于添加了偏差較大的樣品使模型的參數(shù)變差。然而,一個優(yōu)秀的校正模型不但要有較小的RMSECV和較高的R2值,還要有良好的預測性能,并且應以模型的預測性能作為模型質(zhì)量的最終評判指標。
圖1 油菜籽含油量交互驗證預測值與化學值的相關(guān)性(A)及誤差分布(B)Fig.1 Correlation between NIRS predicted results and chemical determinationvalues(A)and error distribution(B)of oil content in rapeseed
為了全面評價各模型的預測性能,共選用了四個預測集。第一預測集是偏差小于0.5%的樣品集,第二預測集是偏差介于0.5% ~1%之間的樣品集,第三預測集是偏差介于1%~2%之間的樣品集,第四預測集是偏差介于0~2%之間的樣品集。其評價結(jié)果見表3。由3表可以看出對于同一預測集,A、B、C、D四個模型檢驗的結(jié)果分別是,A模型對第一預測集的預測性能最好;B模型對第二預測集的測性能最好;C模型對第三預測集的預測性能最好,D模型對第四預測集的預測性能最好。這表明所添加樣品的偏差對模型的預測性能有重要的影響,而且當向原模型添加某一偏差區(qū)間的樣品后,所建立的模型可以更好地修正相應區(qū)間的近紅外預測值。另外,對第一預測集而言,A、B、C模型的均方根預測誤差(RMSEP)依次變大及R2依次變小,這說明當用大偏差的樣品修正小偏差的模型時,模型的預測性能會變差。也就是說如果添加大量特殊樣品會降低模型的整體預測性能。對第三預測集而言,A、B、C模型的RMSEP依次變小及R2依次變大,這說明小偏差的樣品可以改善大偏差模型的預測性能,但此時添加大偏差的樣品對模型的修正效果更好。同時,D模型對第四預測集的預測效果明顯優(yōu)于其它模型,這是由于預測集的樣品覆蓋了整個偏差區(qū)間,而D模型則是通過向原模型添加各個偏差區(qū)間的樣品而建立的。由此可以得出,要修正整個偏差區(qū)間必須向模型添加各個偏差區(qū)間的樣品,而且我們還發(fā)現(xiàn)B模型對第四預測集的預測性能僅次于D模型,即添加中等偏差的樣品至原模型,仍可以獲得較好的預測效果。在近紅外模型的維護過程中,考察樣品的偏差,實質(zhì)上是綜合考慮了樣品栽培地的生態(tài)類型、籽粒形狀、含量分布、光譜的獨特性等因素的影響。因此,按照偏差大小選擇校正集樣品也是近紅外模型維護過程中選取代表性樣品的一條重要途徑。
表1 NIRS建模樣品的品質(zhì)參數(shù)Tab.1 Quality factors of NIRS calibration samples
表2 油菜籽含油量不同預測模型的建模參數(shù)比較Tab.2 Parameter comparison of oil content in rapeseed in different calibration models
表3 四個預測集對定標模型質(zhì)量的評價結(jié)果Tab.3 Validation results of four test sets to calibration models
本文從偏差的角度出發(fā)提出了近紅外模型維護過程中,樣品選擇的一些規(guī)律。結(jié)果發(fā)現(xiàn),添加樣品的偏差對改善模型的預測性能有重要影響。因此,在近紅外模型的修正過程中,首先應分析原模型的預測偏差分布情況,然后結(jié)合模型的特點選擇一些偏差合適的樣品。這樣不僅避免了片面追求樣品的特殊性,而且克服了樣品選擇的盲目性,從而為建立高效、實用的近紅外模型提供了依據(jù)。
[1]康月瓊,郝風,柴勇,等.油菜品質(zhì)近紅外檢測模型建立的研究[J].中國農(nóng)學通報,2011,27(5):144-148.KANG Yueqiong,HAO Feng,CHAI Yong,et al.Study on construction of determination model of rapeseed quality with near-infrared spectroscopy[J].Chinese Agricultural Science Bulletin,2011,27(5):144-148.
[2]丁小霞,李培武,劉培,等.無效變量消除法在油菜籽芥酸近紅外無損速測中的應用[J].中國油料作物學報,2010,32(3):441-446.DING Xiaoxia,LI Peiwu,LIU Pei,et al.Application of uninformative variables elimination in intact prediction of rapeseed erucic acid with near-infrared reflectance spectroscopy[J].Chinese Journal of Oil Crop Sciences,2010,32(3):441-446.
[3]陳蛋,陳斌,陸道禮,等.近紅外光譜分析法測定菜籽油中芥酸的含量[J].農(nóng)業(yè)工程學報,2007,23(1):234-237.CHEN Dan,CHEN Bin,LU Daoli,et al.Determination of the erucic acid content in rapeseed oil by near-infrared spectroscopy[J].Transactions of the CSAE,2007,23(1):234-237.
[4]楊翠玲,陳文杰,趙興忠,等.近紅外光譜法同時分析油菜9種品質(zhì)參數(shù)的研究[J].西北農(nóng)林科技大學學報(自然科學版),2006,34(3):61-67.YANG Cuiling,CHEN Wenjie,ZHAO Xingzhong,et al.Determination of quality factors in intact rapeseed by near infrared reflectance spectroscopy(NIRS)[J].Journal of Northwest Sci-Tech University of Agriculture and Forest(Nat Sci Ed),2006,34(3):61-67.
[5]芮玉奎,黃昆侖,王為民,等.近紅外光譜技術(shù)在檢測轉(zhuǎn)基因油菜籽中芥酸和硫甙上的應用研究[J].光譜學與光譜分析,2006,26(12):2190-2192.RUI Yukui,HUANG Kunlun,WANG Weimin,et al.Detection of erucic acid and glucosinolate in intact rapeseed by near-infrared diffuse reflectance spectroscopy[J].Spectroscopy and Spectral Analysis,2006,26(12):2190-2192.
[6]高建芹,張潔夫,浦惠明,等.近紅外光譜法在測定油菜籽含油量及脂肪酸組成中的應用[J].江蘇農(nóng)業(yè)學報,2007,23(3):189-195.GAO Jianqin,ZHANG Jiefu,PU Huiming,et al.Analysis of oil,oleic acid and erucic acid contents in rapeseed by near infrared reflectance spectroscopy(NIRS)[J].Jiangsu Journal of Agriculture Science,2007,23(3):189-195.
[7]甘莉,孫秀麗,金良,等.NIRS定量分析油菜種子含油量、蛋白質(zhì)含量數(shù)學模型的創(chuàng)建[J].中國農(nóng)業(yè)科學,2003,36(12):1609-1613.GAN Li,SUN Xiouli,JIN Liang,et al.Establishment of math models of NIRS analysis for oil and protein contents in seed of brassica napus[J].Scientia Agricultura Sinica,2003,36(12):1609-1613.
[8]賀啟川,蒙大慶,李芝凡,等.近紅外光譜儀快速檢測油菜硫苷、芥酸及油份含量數(shù)學模型的建立[J].激光生物學報,2009,18(6):815-818.HE Qichuan,MENG Daqing,LI Zhifan,et al.Establishment of mathematical models for glucosinolates,erucic acid and oil content analysis in Rapeseeds by near-infrared reflectance spectroscopy[J].Acta Laser Biology Sinica,2009,18(6):815-818.
[9]李勇,魏益民,王鋒.影響近紅外光譜分析結(jié)果準確性的因素[J].核農(nóng)學報,2005,19(3):236-240.LI Yong,WEI Yimin,WANG Feng.Affecting factors on the accuracy of near-infrared spectroscopy analysis[J].Acta Agriculturae Nucleatae Sinica,2005,19(3):236-240.
[10]徐志龍,趙龍蓮,嚴衍祿.減小樣品溫度對近紅外定量分析數(shù)學模型影響的建模方法[J].現(xiàn)代儀器,2004,5:29-31.XU Zhilong,ZHAO Longlian,YAN Yanlu.A method of modeling the mathematical model of NIR quantitative analysis for diminishing influence of sample temperature[J].Modern Instruments,2004,5:29-31.
[11]姚勝,武國峰,周舒珂,等.實驗誤差對近紅外模型準確性的影響[J].光譜學與光譜分析,2011,31(5):1216-1219.YAO Sheng,WU Guofeng,ZHOU Shuke,et al.The influence of reference data noise on the NIR prediction results[J].Spectroscopy and Spectral Analysis,2011,31(5):1216-1219.
[12]吳靜珠,李慧,王克棟,等.光譜預處理在農(nóng)產(chǎn)品近紅外模型優(yōu)化中的應用研究[J].農(nóng)機化研究,2011,3:178-181.WU Jingzhu,LI Hui,WANG Kedong,et al.Application of spectrum preprocessing algorithms in optimizing NIR models of agricultural products[J].Journal of Agricultural Mechanization Research,2011,3:178-181.