朱向榮 李高陽 江 靖 謝運河 單 楊 *
(1湖南省農(nóng)業(yè)科學(xué)院 湖南省農(nóng)產(chǎn)品加工研究所 長沙 410125
2湖南大學(xué)研究生院隆平分院 長沙 410125
3湖南省土壤肥料研究所 長沙 410125)
水稻是全球重要的糧食作物,然而由于水稻自身擁有的某些獨特基因,使水稻米粒吸收土壤中某些重金屬,特別是吸鎘能力明顯強于玉米、大豆等其它作物品種。水稻鎘污染對稻米生產(chǎn)、加工及質(zhì)量安全構(gòu)成了潛在威脅。目前,原子吸收光譜法[1]、原子熒光法[2]及電感耦合等離子體質(zhì)譜法[3]等分析方法常用于稻米中鎘含量的測定。這些方法準(zhǔn)確性好、靈敏度高,然而存在著儀器設(shè)備昂貴、樣品前處理繁雜以及環(huán)境不友好等缺點。近紅外 (near infrared spectroscopy,NIR) 光譜具有快速、高效、環(huán)保等優(yōu)點,在稻米的營養(yǎng)品質(zhì)檢測中均有應(yīng)用[4-7]。無機元素在近紅外光譜區(qū)并沒有吸收,而蛋白質(zhì)、淀粉、纖維素與半纖維素等有機物質(zhì)與無機元素結(jié)合,形成的絡(luò)合物和螯合物能夠在NIR光譜區(qū)反映出來[8-9],這為NIR光譜檢測鎘稻米提供理論依據(jù)。國內(nèi)外學(xué)者采用NIR光譜對動物源食品[10-12]、植物源食品[13-16]、農(nóng)作物[17-19]以及水樣[20-22]中的重金屬元素進行定性、定量分析,而對鎘污染稻米鮮有研究報道。稻米待檢的Cd含量低,特征變量較難識別。作者在前期研究中,采用NIR光譜結(jié)合變量篩選方法對鎘稻米進行二分類識別[23]、定量檢測[24],取得滿意的效果。
鎘超標(biāo)稻米中雖有鎘超標(biāo)較嚴(yán)重的稻米,但更多的是鎘輕微超標(biāo)稻米。后者鎘含量超過現(xiàn)有國家標(biāo)準(zhǔn)0.2 mg/kg,普遍低于0.4 mg/kg。鎘污染稻米可以通過淀粉提取工藝優(yōu)化,提取到的淀粉中鎘含量顯著下降[25]。本文將鎘污染稻米分為4類:合格稻米(小于 0.2 mg/kg),輕度污染(0.2~0.4 mg/kg),中度污染(0.4~1.0 mg/kg)以及重度污染(大于1.0 mg/kg)。首先采用主成分分析法(partial component analysis,PCA)對光譜進行解析,然后采用偏最小二乘識別分析 (partial least squares discriminant analysis,PLS-DA)、 徑向基人工神經(jīng)網(wǎng)絡(luò) (radical basis function-artificial neural network,RBF-ANN) 及支持向量機 (support vector machine,SVM)3種多分類模式識別算法進行識別分析,系統(tǒng)研究不同的光譜預(yù)處理方法對模型的影響,同時比較不同方法的建模效果差異,為稻米食用安全以及鎘污染稻米加工利用奠定基礎(chǔ)。
2014年10月在湖南省湘潭、婁底、衡陽等地采集281個稻米樣本,均為晚秈稻谷。所有樣品在85℃烘干4 h,冷卻至常溫,用礱谷機脫殼,用粉碎機粉碎至40目,備用。
Nicolet AntarisⅡ傅里葉變換近紅外光譜儀,配有積分球漫反射采樣系統(tǒng)與銦鎵砷(In-GaAs)檢測器,Omnic7.3光譜采集軟件,TQ Analyst v6.2.1分析軟件,美國熱電尼高力公司;Agilent 7700X電感耦合等離子體質(zhì)譜儀,美國安捷倫科技有限公司;JLG-1礱谷機,國家糧食儲備局成都糧食儲藏科學(xué)研究所;,F(xiàn)W80高速萬能粉碎機,天津泰斯特有限公司;SY-2恒溫沙浴鍋,江蘇金壇市成輝儀器廠;BSA124S分析天平,賽多利斯北京科學(xué)儀器有限公司;實驗用硝酸為優(yōu)級純,西隴化工有限公司;鎘標(biāo)準(zhǔn)貯備液(1 000 mg/L)與大米粉中鎘成分分析標(biāo)準(zhǔn)物質(zhì)(GBW08511)(0.504 mg/L),國家標(biāo)準(zhǔn)物質(zhì)中心提供。實驗用水為18 MΩ去離子水,美國Millipore超純水系統(tǒng)。其它試劑均為分析純級。
1.3.1 樣品前處理 采用GB/T 5009/15-2003《食品中鎘的測定》方法測定。準(zhǔn)確稱量0.5 g樣品,置250 mL錐形瓶中,加入20 mL硝酸,加蓋浸泡過夜。采用沙浴加熱進行消化,加熱至錐形瓶中的溶液澄清停止加熱。冷卻后,用去離子水溶解并定容25 mL容量瓶中,待上機。每批均采用含鎘稻米標(biāo)準(zhǔn)物質(zhì)進行質(zhì)控,并以空白樣品(僅試劑)消除背景。試驗用玻璃器皿包括容量瓶、移液管、燒杯等均用(1+4)硝酸浸泡24 h,然后依次用自來水、蒸餾水、超純水沖洗3次,烘干備用。
1.3.2 電感耦合等離子體質(zhì)譜測定條件 儀器工作條件:高頻發(fā)射功率1 500 W,蠕動泵0.1 rps,載氣流量1.05 L/min,輔助器流量0.36 L/min,霧化室溫度2℃,溶液提升比1.0 mL/min,等離子體氣體15 L/min,采樣深度8 mm,掃描方式為跳峰,每點積分時間0.3 s,重復(fù)測量2次。電感耦合等離子體質(zhì)譜儀經(jīng)調(diào)諧使儀器處于最佳狀態(tài),依次測定元素標(biāo)準(zhǔn)溶液,方法空白和稻米消解待測液,儀器自動繪制標(biāo)準(zhǔn)曲線,計算待測液中Cd元素的含量。
1.3.3 近紅外光譜方法 近紅外光譜掃描采用漫反射檢測系統(tǒng),NIR光譜掃描波數(shù)范圍10 000~4 000 cm-1,優(yōu)化光譜掃描條件,確定掃描次數(shù)32次,分辨率8 cm-1,增益2。內(nèi)置背景為參照。每次試驗前先掃描背景光譜,所有掃描得到的譜圖都是扣除背景光譜后的樣本NIR純光譜。每批樣品做3次平行試驗,取其平均光譜,以消除樣品不均勻性帶來的干擾。
1.3.4 數(shù)據(jù)處理軟件 所有程序均在Matlab7.1軟件(Mathwork Inc.)實現(xiàn),SVM算法由臺灣大學(xué)林智仁(Lin Chin-Jen)提供“LibSVM”改編。 此外還使用classification_toolbox_3.0工具箱 (下載網(wǎng)址:www.disat.unimib.it/chm)進行分類模式識別,人工神經(jīng)網(wǎng)絡(luò)工具包由MATLAB7.1軟件自帶。其它程序為本實驗室自行編制。
圖1為樣本的近紅外光譜圖,記錄了10 000~4 000 cm-1波數(shù)樣本的NIR光譜曲線。所有樣本的NIR光譜無明顯差異,肉眼很難辨別,必須采用化學(xué)計量學(xué)方法進行數(shù)據(jù)預(yù)處理和建立模型。
采用Kennard Stone(KS)法從281個樣本挑選出211個樣本作為校正集,其余的70個樣本作為預(yù)測集。圖2為采用PCA法樣本的主成分得分圖,可以看出,校正集樣本(“o”形)在主成分上分布均勻,預(yù)測集樣本被包括在校正集樣本(“*”形)的分布空間中,這使得校正集樣本的光譜信息包括預(yù)測集樣品的光譜信息。通過上述劃分,能夠提高鑒別模型的泛化能力。然而,樣本的NIR光譜差異太小,PCA得分圖重疊嚴(yán)重,很難采用PCA對不同污染程度的鎘稻米進行區(qū)分。
表1列出4類樣品在校正集與預(yù)測集中的分配情況。數(shù)據(jù)集211個樣品被分配成4類,其中合格(qualified)樣品所占比例較高,達到 146/281×100%=69%,輕度污染(lightly polluted)樣品所占比例為64/281×100%=22.7%,中度污染(moderate-ly polluted) 所占比例為51/281×100%=18.1%,重度污染(severely polluted)較少,所占比例為 24/281×100%=8.8%。
圖1 樣本的近紅外光譜圖Fig.1 The near infrared spectra of representative samples
圖2 樣本的第1主成分與第2主成分分布圖Fig.2 Distribution of PC1 and PC2 for the samples
表1 樣本集中4類樣本的劃分情況Table1 The partition of four classes in data set
采集的NIR原始光譜分別經(jīng)過無處理(none)、范圍歸一化(range scaling)、均值中心化(mean centering)、自歸一化(autoscaling)、多元散射校正(MSC)、一階導(dǎo)數(shù)(D1)及其組合共11種預(yù)處理方法,如表2所示。以交叉驗證準(zhǔn)確率為指標(biāo),最終確定最優(yōu)的預(yù)處理autoscaling方法。
采用PLS-DA建立稻米鎘4種類別的分類模型。采用十折法(10-fold)交叉驗證,確定了最佳的潛變量數(shù)為8。模型的校正集鑒別準(zhǔn)確率為80.1%,模型的預(yù)測集鑒別準(zhǔn)確率為77.1%。采用特異度(1-specificity)和靈敏度(sensitivity)為評價指標(biāo),對模型進行評價。圖3左為4類樣本的ROC曲線圖,其中,第1類樣本(圖3左-a)與第4類樣本(圖3左-d)的ROC曲線下面積最大,識別率較高;第2類樣本的ROC曲線下面積(圖3左-b)最小,識別率最低。圖2右為4類樣本的閾值變化圖,由于分配給每個樣本分類閾值 (the class threshold)的靈敏度與特異度是發(fā)生變化的,在靈敏度線與特異度線交叉時,此時的假陽性與假陰性最小,分類閾值就可以確定[26]。以分類準(zhǔn)確率最高的第4類樣本為例(圖3右-d),其分類閾值為0.05,而高于0.05的閾值都可以劃分鎘重度污染稻米。
表2 PLS-DA模型光譜預(yù)處理優(yōu)化Table2 The optimization of spectral pretreatment of PLS-DA models
圖3 4類樣本的ROC曲線圖(左)及閾值變化圖(右)Fig.3 ROC curves (left) and plots of the class threshold change (right) for four classes
采用RBF核時,要對懲罰參數(shù)cost(C)與徑向核函數(shù)gamma(γ)這兩個最重要參數(shù)進行選擇[27-28]。本文采用SVM中的徑向基核函數(shù),利用五折交叉驗證法(five-fold cross validation)進行交叉驗證[29]。通過Python3.5軟件自動參數(shù)優(yōu)化,采用Gnuplot5.0軟件畫出等高線圖。SVM校正模型的參數(shù)優(yōu)化得到的徑向基系數(shù)γ=0.036,懲罰參數(shù)C=256,交叉驗證準(zhǔn)確率為71.1%。對預(yù)測集進行驗證,預(yù)測準(zhǔn)確率為67.2%。
在RBF-ANN網(wǎng)絡(luò)訓(xùn)練中,如預(yù)定的最大神經(jīng)元個數(shù)比指定的樣本數(shù)量小很多,那么ANN達不到給定的誤差,模型精度就會降低;而最大神經(jīng)元個數(shù)又不能太大,如太大會導(dǎo)致模型輸出結(jié)果錯誤[30]。本文將最大神經(jīng)元個數(shù)設(shè)為其樣本數(shù)211個,不會對運算造成負擔(dān)。采用newrb函數(shù)對散布常數(shù)(spread)進行優(yōu)化。采用多輸出 RBF神經(jīng)網(wǎng)絡(luò),將歸一后的NIR光譜變量作為4類不同稻米鎘樣本的輸出,其中(1001)為合格稻米,(0100)為輕度鎘污染稻米,(0010)為中度鎘污染稻米,(00 01)為重度鎘污染稻米。通過優(yōu)化確定,最佳的spread常數(shù)為3.5時,預(yù)測集的識別率最高,預(yù)測集中70個樣本有48個預(yù)測正確,22個預(yù)測錯誤,正確識別率為68.5%。
表3比較了3種建模方法的鑒別正確率差異,其中PLS-DA的分類結(jié)果最好,優(yōu)于SVM與RBF-ANN,校正集與預(yù)測集的鑒別準(zhǔn)確率分別達到80.1%與77.1%。這是由于PLS-DA是基于PLS回歸的模式識別方法,將NIR光譜數(shù)據(jù)與樣本屬性進行回歸后,通過建立判定函數(shù)更容易得到精度更高的預(yù)測集鑒別結(jié)果。而在多分類SVM中,通過核函數(shù)構(gòu)建可分的稻米鎘多分類超平面非常困難,導(dǎo)致分類結(jié)果較差;訓(xùn)練樣本的數(shù)量嚴(yán)重影響訓(xùn)練的速度與支持向量的數(shù)量,導(dǎo)致SVM模型的泛化能力下降。由于樣本的NIR光譜數(shù)據(jù)特征并不具有完全的代表性和典型性,不能完全表征每類樣本的屬性狀態(tài),因此,樣本的質(zhì)量能夠在很大程度上影響RBF-ANN的識別精度,導(dǎo)致RBF-ANN也難獲得最優(yōu)解。
表3 3種建模方法的比較Table3 Comparisons of three modeling methods
1)采用傅里葉變換近紅外光譜結(jié)合模式識別分析方法,初步實現(xiàn)了不同污染程度的稻米多分類識別。
2)3種建模方法中,PLS-DA法建立的模型性能最優(yōu),預(yù)測集準(zhǔn)確率為77.1%。對比3種判別分析方法,PLS-DA是最為經(jīng)典、常用的線性判別方法。ANN與SVM均為非線性判別分析方法,這兩種分析方法對于非線性數(shù)據(jù)來說,通??扇〉幂^好的判別結(jié)果,而對于本研究中復(fù)雜的多分類數(shù)據(jù)卻沒有取得最優(yōu)解,說明在特定的研究對象下,選擇合適的建模方法尤為重要。
3)將擴大樣品量,提高模型的穩(wěn)健性與準(zhǔn)確性。
本研究結(jié)果為近紅外光譜技術(shù)在不同鎘污染程度的稻米樣品類型快速識別上提供試驗依據(jù)。