吳靜珠,李 慧,劉翠玲,王克棟
(北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京100048)
基于近紅外的蔬菜農(nóng)殘快速定性檢測(cè)技術(shù)研究
吳靜珠,李 慧,劉翠玲,王克棟
(北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京100048)
將基于統(tǒng)計(jì)學(xué)理論的支持向量機(jī)(SVM)和近紅外光譜(NIR)技術(shù)相結(jié)合,用于蔬菜上有機(jī)磷農(nóng)藥殘留的快速檢測(cè)分析。實(shí)驗(yàn)以蔬菜上常用的毒死蜱農(nóng)藥為分析對(duì)象,配制了濃度為0.005~5mg/kg共86個(gè)模擬的蔬菜農(nóng)殘樣品,分別采用含量梯度法和Kennard-Stone法挑選訓(xùn)練集樣品,以0.05mg/kg為檢測(cè)閾值,建立基于樣品近紅外光譜的支持向量機(jī)定性識(shí)別模型,通過對(duì)懲罰參數(shù)的調(diào)整取得了滿意的鑒別效果,為實(shí)現(xiàn)對(duì)蔬菜上的農(nóng)藥殘留分析進(jìn)行快速檢測(cè)提供了一條可能的途徑。
近紅外光譜,支持向量機(jī),定性分析,農(nóng)藥殘留
Abstract:This paper presented a novel classifier built by support vector machines( S ∨M)and near infrared spectroscopy(NIR)to identify pesticide residue in vegetable rapidly.86 unit Chlorpyrifos samples were confected from 0.005mg/kg to 5mg/kg,which simulated pesticide residue samples of vegetables.According to the national standard,the detection value of Chlorpyrifos was 0.05mg/kg.The experimental samples were selected by content of the gradient and Kennard-Stone respectively.The satisfying classifier can be built by adjusting the penalty parameter of S∨M.Results indicated that the combination of S∨M and NIR can detect pesticide residue on the vegetable directly and lossless,it also provided a possible way of rapid detection on vegetable in the future.
Key words:NIR;S∨M;qualitative analysis;pesticide residue
農(nóng)藥的發(fā)明和使用大大提高了農(nóng)作物的產(chǎn)量。但是隨著農(nóng)藥的大量和不合理使用,農(nóng)作物中農(nóng)藥殘留對(duì)人體健康的危害及農(nóng)藥的使用對(duì)環(huán)境造成的負(fù)面影響也日益暴露出來,特別是蔬菜中由于使用高毒農(nóng)藥或禁用農(nóng)藥而引起中毒事件時(shí)有發(fā)生。目前廣泛應(yīng)用于農(nóng)藥殘留檢測(cè)的方法主要有氣相色譜法、高效液相色譜法和氣相色譜-質(zhì)譜法等經(jīng)典方法[1]。這些方法精度很高,但是費(fèi)時(shí)長、檢測(cè)費(fèi)用高,難以實(shí)現(xiàn)對(duì)蔬菜中農(nóng)殘進(jìn)行現(xiàn)場(chǎng)快速檢測(cè)。因此研究一種快速、預(yù)處理簡(jiǎn)單的農(nóng)殘檢測(cè)技術(shù)是當(dāng)前亟待解決的問題。近紅外光譜分析技術(shù)是20世紀(jì)90年代以來發(fā)展最快、最引人注目的分析檢測(cè)析技術(shù),快速、無破壞性和多組分分析以及分析過程的綠色化使該技術(shù)具有典型的時(shí)代特征。該技術(shù)目前已經(jīng)在我國農(nóng)業(yè)、食品等品質(zhì)檢測(cè)領(lǐng)域的應(yīng)用得到了迅速的發(fā)展,尤其是在線檢測(cè)和現(xiàn)場(chǎng)檢測(cè)方面,NIR技術(shù)具有很大的發(fā)展?jié)摿蛻?yīng)用空間。目前,李文秀等利用高殘留農(nóng)藥敵百蟲和敵敵畏在蔬菜汁溶劑的紅外吸收情況,可以直接對(duì)蔬菜上的農(nóng)藥殘留進(jìn)行檢測(cè)[2]。周向陽等以農(nóng)藥甲胺磷為主要研究對(duì)象,分析了各種蔬菜樣品近紅外光譜圖的差異,采用差譜技術(shù)、導(dǎo)數(shù)預(yù)處理等進(jìn)行指認(rèn),與GC-MS法比對(duì),取得滿意的鑒別效果[3]。本工作探索將基于統(tǒng)計(jì)學(xué)理論的支持向量機(jī)[4]和近紅外光譜技術(shù)相結(jié)合,以蔬菜上常用的農(nóng)藥毒死蜱為分析對(duì)象,根據(jù)其農(nóng)殘樣品的近紅外光譜,建立支持向量機(jī)農(nóng)殘定性識(shí)別模型,為實(shí)現(xiàn)對(duì)蔬菜上的農(nóng)藥殘留快速檢測(cè)提出一種可能的途徑。
支持向量機(jī)(SVM)是一種新的通用的機(jī)器學(xué)習(xí)方法,以其小樣本下良好的推廣能力而被廣泛用于各種模式分類問題。支持向量機(jī)的基本思想是通過事先確定的非線性映射將輸入向量映射到一個(gè)高維特征空間中,然后在此高維空間中構(gòu)建最優(yōu)分類面。在最優(yōu)分類面中采用適當(dāng)?shù)膬?nèi)積核函數(shù)K(xi,xj),就可以實(shí)現(xiàn)某一非線性變換后的線性分類,而計(jì)算復(fù)雜度卻沒有增加。此時(shí),SVM分類函數(shù)形式類似于一個(gè)神經(jīng)網(wǎng)絡(luò),輸出是中間節(jié)點(diǎn)的線性組合,每個(gè)中間節(jié)點(diǎn)對(duì)應(yīng)一個(gè)支持向量,如圖1所示。
圖1 支持向量機(jī)示意圖
設(shè)訓(xùn)練集為{xi,yi},i=1,…,n,xi∈Rn,yi∈{-1,1},則SVM分類器的一般形式如下所示:
已有證明,如果訓(xùn)練集中的樣本能被SVM建立的最優(yōu)超平面完全劃分,則在測(cè)試未知樣本的最大出錯(cuò)概率,即支持向量機(jī)期望風(fēng)險(xiǎn)的上界為:
上式表明,支持向量的數(shù)目越少,支持向量機(jī)期望風(fēng)險(xiǎn)的上界越小,該支持向量機(jī)泛化能力越強(qiáng)。
以1mg/mL的毒死蜱和甲醇溶液的標(biāo)準(zhǔn)物質(zhì)(來自國家標(biāo)準(zhǔn)物質(zhì)樣品信息中心)為母液,以甲醇和水作為稀釋溶液,分別配制毒死蜱濃度范圍為0.005~5mg/kg的樣品共86個(gè)。配制時(shí),每個(gè)樣品的背景溶液甲醇和水的比例均作正交設(shè)計(jì)??紤]到蔬菜中可能含有的維生素和糖,因此每個(gè)樣品都隨機(jī)添加蔗糖、維生素C來模擬蔬菜汁溶液。將所配不同濃度的溶液樣品分別裝入20mL茶色螺口小瓶中。
感量0.1mg的電子天平預(yù)熱15min,將每個(gè)小瓶在加入稀釋液之前,除皮,然后加入水、甲醇、維生素C及蔗糖共20g,再使用移液槍把毒死蜱和甲醇的標(biāo)準(zhǔn)品加入小瓶中,標(biāo)準(zhǔn)品的量視所配濃度而定。
實(shí)驗(yàn)采用德國BRUKER公司生產(chǎn)的MATRIX-F型傅立葉近紅外光譜儀,光纖探頭長2m,光程池1mm。測(cè)量時(shí),在室溫下液體光纖探頭插入裝有樣本溶液的茶色小瓶中,采用透反射采樣模式,對(duì)12500~4000cm-1譜區(qū)掃描,分辨率為 8cm-1,每個(gè)樣品掃描32次。圖2所示是在MATRIX-F上采集的86個(gè)農(nóng)殘樣品的近紅外采光譜圖。
圖2 86個(gè)農(nóng)殘樣品的近紅外譜圖
近紅外光譜建模分析中,首先考慮的是訓(xùn)練集和測(cè)試集樣本的劃分。為了充分考慮可能存在的偶然因素,本文分別從濃度差異和光譜差異兩個(gè)角度來劃分訓(xùn)練集和測(cè)試集樣品,并且分別建立定性模型進(jìn)行農(nóng)殘鑒別。從濃度差異劃分,采用含量梯度法,以2∶1的比例劃分訓(xùn)練集和測(cè)試集的樣品。從光譜差異劃分,采用 Kennard-Stone 法[5]。
SVM核函數(shù)主要有三類:多項(xiàng)式核函數(shù);高斯徑向基函數(shù)(RBF)核函數(shù);Sigmoid核函數(shù)。根據(jù)文獻(xiàn)所述[6],RBF徑向基函數(shù)是SVM首先的核函數(shù)。因此,本實(shí)驗(yàn)以RBF徑向基函數(shù)為支持向量機(jī)的核函數(shù),在其他參數(shù)保持不變的情況下,討論懲罰參數(shù)c的選擇對(duì)SVM定性模型性能的影響。本文在Matlab 6.5中調(diào)用SVM模式識(shí)別與回歸的軟件包LIBSVM(http://www.csie.ntu.edu.tw/~ cjlin/下載)實(shí)現(xiàn) SVM的訓(xùn)練和預(yù)測(cè)過程。由于支持向量機(jī)適合處理高維數(shù)據(jù),其計(jì)算復(fù)雜性與輸入模式的維數(shù)沒有直接關(guān)系,因此實(shí)驗(yàn)中直接將訓(xùn)練樣品原始光譜集歸一化后作為SVM的輸入。
依據(jù)中華人民共和國農(nóng)業(yè)行業(yè)標(biāo)準(zhǔn)NY/T743-2003中規(guī)定的綠色食品綠葉類蔬菜衛(wèi)生指標(biāo),毒死蜱的檢出值應(yīng)≤0.05mg/kg,因此將所有毒死蜱含量低于0.05mg/kg的樣品標(biāo)記為-1,反之則標(biāo)記為1。
在化學(xué)計(jì)量學(xué)中,評(píng)價(jià)定性判別模型的效果和預(yù)測(cè)精度通常使用識(shí)別率和預(yù)測(cè)率。所謂識(shí)別率,即是在訓(xùn)練中得到的正確判別率,而用測(cè)試集所得到的正確判別率則稱為預(yù)測(cè)率,一般說來,預(yù)測(cè)率對(duì)模型好壞的判別比識(shí)別率更重要[7]。
對(duì)樣本集86個(gè)樣本采用含量梯度法劃分訓(xùn)練集的樣品個(gè)數(shù)為58個(gè),測(cè)試集樣品個(gè)數(shù)為28個(gè)。由于SVM參數(shù)的選擇對(duì)SVM的預(yù)測(cè)能力有著重要影響,但是目前SVM方法參數(shù)的選擇,國際上還沒有形成一個(gè)統(tǒng)一的模式。本實(shí)驗(yàn)中采用LIBSVM軟件包參數(shù)設(shè)置如下:SVM類型采用C-SVC,核函數(shù)采用RBF函數(shù),首先以默認(rèn)的懲罰參數(shù)(默認(rèn)為1)建立SVM模型。
根據(jù)模型的定性識(shí)別結(jié)果,在其他參數(shù)保持不變的情況下,調(diào)整懲罰參數(shù)在0.1~1000的范圍內(nèi)分別建立SVM模型,以期找到一個(gè)穩(wěn)健的且定性鑒別結(jié)果可行的SVM模型。實(shí)驗(yàn)結(jié)果如表1所示。從表中可以得出,當(dāng)懲罰參數(shù)為100和1000時(shí)建立的SVM定性識(shí)別模型的識(shí)別率達(dá)到了100%,而預(yù)測(cè)率也達(dá)到了92.85717%(26/28,即28個(gè)預(yù)測(cè)樣品中有26個(gè)分類正確),且支持向量數(shù)為16。因此根據(jù)濃度差異劃分的訓(xùn)練集樣品建立的SVM定性識(shí)別模型達(dá)到了較高的識(shí)別率和預(yù)測(cè)率。
表1 含量梯度法劃分的SVM模型
對(duì)樣本集86個(gè)樣本采用Kennard-Stone法劃分訓(xùn)練集的樣品個(gè)數(shù)為56個(gè),測(cè)試集樣品個(gè)數(shù)為30個(gè)。同上選取了在懲罰參數(shù)0.1~1000的范圍內(nèi)分別建立了SVM模型。實(shí)驗(yàn)結(jié)果如表2所示。根據(jù)式(3)得出結(jié)論:支持向量的數(shù)目越少,支持向量機(jī)期望風(fēng)險(xiǎn)的上界越小,該支持向量機(jī)泛化能力越強(qiáng)。從表中可以得出,當(dāng)懲罰參數(shù)為10時(shí),支持向量數(shù)為20,建立的SVM定性識(shí)別模型的識(shí)別率達(dá)到了100%,而預(yù)測(cè)率也達(dá)到了96.6667%(29/30,即30個(gè)預(yù)測(cè)樣品中有29個(gè)分類正確),此時(shí)的模型鑒別結(jié)果可行且泛化能力較強(qiáng)。因此根據(jù)光譜差異劃分的訓(xùn)練集樣品建立的SVM快速定性識(shí)別模型達(dá)到了較高的識(shí)別率和預(yù)測(cè)率。
表2 Kennard-Stone法劃分的SVM模型
本工作以蔬菜上常用的毒死蜱農(nóng)藥為分析對(duì)象,通過實(shí)驗(yàn)配制了濃度0.005~5mg/kg共86個(gè)模擬的蔬菜農(nóng)殘樣品。分別采用含量梯度法和Kennard-Stone法挑選訓(xùn)練集樣品,以0.05mg/kg為檢測(cè)閾值,建立基于樣品近紅外光譜的支持向量機(jī)模型,通過對(duì)懲罰參數(shù)的調(diào)整建立快速定性識(shí)別模型,均取得了滿意的鑒別效果。該方法為實(shí)現(xiàn)對(duì)蔬菜農(nóng)藥殘留的快速檢測(cè)提供了一條可能的途徑。
[1]王朝瑾,蔡琦.農(nóng)產(chǎn)品中農(nóng)藥殘留的檢測(cè)趨勢(shì)[J].現(xiàn)代科學(xué)儀器,2006(1):106-108.
[2]李文秀,徐可欣.蔬菜農(nóng)藥殘留檢測(cè)的紅外光譜法研究[J].光譜學(xué)與光譜分析,2004,24(10):1202-1204.
[3]周向陽,林純忠,胡祥娜.近紅外光譜法(NIR)快速診斷蔬菜中有機(jī)磷農(nóng)藥殘殘留[J].食品科學(xué),2004,25(5):151-154.
[4]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000,26(1):32-34.
[5]吳靜珠,王一鳴,張小超.近紅外光譜分析中定標(biāo)集樣品挑選方法研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2006,37(4):80-82.
[6]B Sholkopf,K Sung,CJ C Burges,et al.Comparing support vector machine with Gaussian kernels to radial basis function classifiers[J].IEEE Trans Signal Processing,1997,45:2758-2765.
[7]梁逸增,俞汝勤.化學(xué)計(jì)量學(xué)[M].北京:高等教育出版社,2003:
191-202.
Study on rapid qualitative analysis of pesticide residue in vegetable based on near infrared spectroscopy
WU Jing-zhu,LI Hui,LIU Cui-ling,WANG Ke-dong
(School of Computer Science and Information Engineering,Beijing Technology and Business University,Beijing 100048,China)
TS207.3
A
1002-0306(2010)10-0377-03
2009-04-23
吳靜珠(1979-),女,博士,講師,主要從事基于近紅外光譜的農(nóng)產(chǎn)品品質(zhì)檢測(cè)技術(shù)研究。
北京市自然科學(xué)基金項(xiàng)目(4073031);北京市優(yōu)秀人才資助項(xiàng)目(20081D0500300130)。