沈樂丞,曾秀英,溫志剛,張遠聰,劉賢標(biāo),王 玫,劉 婷,范偉華,鄒 輝
(國家油茶產(chǎn)品質(zhì)量監(jiān)督檢驗中心/贛州市產(chǎn)品質(zhì)量監(jiān)督檢驗所,江西 贛州 341000)
油茶籽油,又名茶油、木籽油、山茶油,取自山茶科山茶屬油茶樹種子,是我國特有木本植物油之一[1]。油茶籽油富含油酸、亞油酸等不飽和脂肪酸[2],其脂肪酸組成與橄欖油非常相似[3],被稱為“東方橄欖油”[4]。
油茶籽油既可以食用也可以入藥,市場上的價格比普通植物油高5~10倍。隨著人們生活水平的提高和健康意識的增強,油茶籽油受到消費者的關(guān)注[5]。一些不法經(jīng)營者以高額利潤為目標(biāo),在油茶籽油中混入相對便宜的普通植物油作為純油茶籽油出售,嚴(yán)重?fù)p害了消費者和合法經(jīng)營者的正當(dāng)權(quán)益。目前,油茶籽油的摻假鑒別方法主要有氣相色譜法[6-7]、氣質(zhì)聯(lián)用法[8-10]、液相色譜法[11]、核磁共振法[12-13]、電子鼻[14-15]、電子舌[16]等方法。這些方法對儀器設(shè)備要求較高,需要大型、昂貴的設(shè)備或復(fù)雜的預(yù)處理[17],因此整個檢測過程耗時、復(fù)雜且成本高,無法滿足快速鑒別摻假油茶籽油的要求。近紅外光譜技術(shù)近年來發(fā)展迅速[18],其不需要任何處理,可以直接測試[19],具有高效率、高速、無損耗、綠色等特點,還可以同時測定幾種不同的成分[20-21]。目前,已經(jīng)報道了一些應(yīng)用近紅外光譜技術(shù)檢測摻假油茶籽油的研究[22-24]。上述研究方法一般采用整個光譜的數(shù)據(jù)或吸收峰附近的一些光譜數(shù)據(jù)作為研究對象,導(dǎo)致數(shù)據(jù)的冗余或缺失,從而無法有效地提取對建模有用的信息,同時主成分?jǐn)?shù)對模型效果的影響研究很少,目前也沒有線性建模方法和非線性建模方法對油茶籽油摻假鑒別的比較研究。
針對上述問題,本文以贛南茶油為研究對象,通過摻入不同植物油如玉米油、花生油、菜籽油、葵花籽油和大豆油等制備摻假油茶籽油,應(yīng)用近紅外光譜技術(shù)采集其光譜特征信息,對比不同預(yù)處理方法和主成分?jǐn)?shù),并結(jié)合線性和非線性建模方法建立油茶籽油摻假鑒別模型,研究快速無損鑒別摻假油茶籽油的可行性,為準(zhǔn)確識別油茶籽油真?zhèn)翁峁┮环N快速鑒別方法,也為后續(xù)開發(fā)便攜式摻假油茶籽油檢測儀提供基礎(chǔ)數(shù)據(jù)。
1.1.1 試驗樣品
本試驗共選取5個贛南茶油樣品,為保證樣品真實性,均來源于贛州本地油茶籽自榨。模擬摻假的植物油有玉米油、葵花籽油、花生油、菜籽油、大豆油,各類植物油均來自3個不同產(chǎn)地,模擬摻假的植物油樣品共計15個。準(zhǔn)備樣品時,將這15個模擬摻假的植物油樣品摻入5個贛南茶油樣品中,摻假比例分別為1%、3%、6%、10%、15%和20%,每份樣品約10 g,共得到450份摻假油茶籽油樣品。另外,按混合比例10%、20%、40%、80%、100%將5個純油茶籽油樣品兩兩混勻,共獲得45份不同的純油茶籽油樣品。
試驗用油均由國家油茶產(chǎn)品質(zhì)量監(jiān)督檢驗中心提供,經(jīng)檢驗均符合相關(guān)國家標(biāo)準(zhǔn)。試驗期間,所有樣品均在保質(zhì)期內(nèi)。
1.1.2 試驗儀器及軟件
DS2500型近紅外光譜儀(配備漿狀杯),福斯分析儀器有限公司;近紅外光譜儀自帶的光譜分析軟件WinSI;Matlab2019軟件,美國The MathWork公司。
1.2.1 近紅外光譜采集
利用DS2500型近紅外光譜儀采集樣品的近紅外漫反射光譜。測試參數(shù)為:光譜掃描范圍833~2 500 nm(12 000 ~4 000 cm-1);掃描次數(shù)32次;光譜分辨率3.5 nm;采集溫度為室溫(23~25 ℃)。每個樣品測試3次,取平均值作為該樣品的最終光譜。
1.2.2 光譜預(yù)處理
采集的近紅外光譜含有豐富的信息,主要反映的是含氫基團的合頻吸收以及倍頻吸收特征。另一方面,這些信息中存在信噪比低、譜帶重疊激烈、頻譜信息的專業(yè)屬性差等影響模型預(yù)測效果的要素。因此,在建模前需要對采集的原始光譜進行預(yù)處理。典型的光譜預(yù)處理方法有均值中心化(MC)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、多元散射校正(MSC)、一階微分(FD)、二階微分(SD)等。MC可以將每個數(shù)據(jù)矩陣減去平均值,簡化和穩(wěn)定后續(xù)數(shù)據(jù)處理單元的計算;SNV和MSC可以消除表面散射、固體顆粒尺寸和光程變化對近紅外漫反射光譜的影響,實現(xiàn)噪聲去除效果;FD、SD等導(dǎo)數(shù)預(yù)處理方法可以降低由系統(tǒng)內(nèi)部引起的隨機噪聲,并且可以提高處理后信號頻率的分辨率[25]。選擇上述幾種方法對光譜進行預(yù)處理。
1.2.3 建模方法和評價指標(biāo)
油茶籽油摻假信息與近紅外光譜數(shù)據(jù)之間的關(guān)系是線性的還是非線性還有待研究,因此在本試驗中,嘗試用線性判別分析(LDA)和人工神經(jīng)網(wǎng)絡(luò)(ANN)構(gòu)建茶油摻假鑒別模型。詳細建模過程如圖1所示。
圖1 油茶籽油摻假鑒別模型構(gòu)建過程
由圖1可見,油茶籽油摻假鑒別模型構(gòu)建具體過程為:①將不同摻假比例油茶籽油進行賦值,即純油茶籽油為1,非純油茶籽油為2,此為分類變量Yt;②對原始光譜進行預(yù)處理,既去除噪聲影響又增強光譜特征;③主成分分析(PCA)降維,簡化模型;④采用LDA和ANN分別構(gòu)建分類變量與光譜之間的線性和非線性模型,以識別準(zhǔn)確率(純油茶籽油樣品和摻假油茶籽油樣品被正確判別的比例)、靈敏度(純油茶籽油樣品被正確判別為純油茶籽油的比例)、特異性(摻假油茶籽油樣品被正確判別為摻假油茶籽油的比例)作為油茶籽油摻假鑒別模型的評價指標(biāo),分別優(yōu)選出最佳模型;⑤以該模型預(yù)測訓(xùn)練集和驗證集樣本,得到預(yù)測值Yp,并判別其真假。具體判別依據(jù):分類變量預(yù)測值Yp,真實分類變量Yt,當(dāng)Yp-Yt=0,則屬于該類別,判別正確;當(dāng)Yp-Yt=-1,則屬于將非純油茶籽油判別為純油茶籽油,判別錯誤;當(dāng)Yp-Yt=1,則屬于將純油茶籽油判別為非純油茶籽油,判別錯誤。
本研究共采集到495份純油茶籽油和摻假油茶籽油樣品的近紅外光譜圖,所有樣品的原始近紅外光譜如圖2所示。
圖2 所有樣品的原始近紅外光譜
2.2.1 樣本劃分與主成分?jǐn)?shù)的確定
將 495 份樣本隨機劃分為訓(xùn)練集和驗證集,訓(xùn)練集為 330 份樣本(摻偽油茶籽油和純油茶籽油分別為300份和30 份),驗證集為165份樣本(摻偽油茶籽油和純油茶籽油分別為150份和15 份)。
選用合理的主成分?jǐn)?shù)不僅可以提高模型的穩(wěn)定性和精密度,還可以減少運算時間[27]。在本研究中,使用交叉驗證法[28]確定鑒別模型的最佳主成分?jǐn)?shù),主成分?jǐn)?shù)從1至10,每隔一個數(shù)分別試建LDA模型,以訓(xùn)練識別準(zhǔn)確率和交叉驗證識別準(zhǔn)確率作為評價指標(biāo),確定LDA模型的最佳主成分?jǐn)?shù)。LDA模型在不同主成分?jǐn)?shù)下訓(xùn)練和驗證的結(jié)果如圖3所示。
圖3 LDA模型在不同主成分?jǐn)?shù)下訓(xùn)練和驗證的結(jié)果
由圖3可知,主成分?jǐn)?shù)對LDA識別模型的預(yù)測結(jié)果有較大影響,當(dāng)主成分?jǐn)?shù)小于8時,隨著主成分?jǐn)?shù)的增加,訓(xùn)練集和驗證集模型的識別準(zhǔn)確率都迅速上升,當(dāng)主成分?jǐn)?shù)達到8時,驗證集識別準(zhǔn)確率達到最高,為97.58%,對應(yīng)的訓(xùn)練集識別準(zhǔn)確率為95.45%,隨后驗證集識別準(zhǔn)確率隨著主成分?jǐn)?shù)的增加總體下降。良好的識別模型不僅需要高訓(xùn)練集識別準(zhǔn)確率,而且需要較高的驗證集識別準(zhǔn)確率,通常后者更重要。因此,本研究選擇8作為LDA識別模型的最佳主成分?jǐn)?shù)。
2.2.2 不同預(yù)處理方法的LDA模型預(yù)測結(jié)果
選擇前述主成分?jǐn)?shù)進行LDA建模,不同預(yù)處理方法下 LDA 建模的預(yù)測結(jié)果見表1。
表1 不同預(yù)處理方法下 LDA 建模的預(yù)測結(jié)果 %
從表1可以看出,經(jīng)SD預(yù)處理后,LDA模型的訓(xùn)練識別準(zhǔn)確率與未處理相比上升了1.22百分點,其他4種預(yù)處理方法的模型訓(xùn)練識別準(zhǔn)確率與未處理相比均有不同程度的降低,可能是由于SD消除了基線的旋轉(zhuǎn)和背景干擾引起的數(shù)據(jù)偏差,而MC、FD、MSC、SNV在去除基線漂移和減少樣本信號噪聲影響的同時也丟失了一部分有用信息。經(jīng)SD預(yù)處理后所有樣品的近紅外光譜圖如圖4所示,其所建模型的訓(xùn)練識別準(zhǔn)確率和交叉驗證識別準(zhǔn)確率在5種預(yù)處理方法中最高,分別為96.67%和97.58%。因此,SD聯(lián)合LDA建模的效果更好。
圖4 經(jīng)SD預(yù)處理后所有樣品的近紅外光譜圖
2.2.3 LDA模型對油茶籽油摻假鑒別與分析
應(yīng)用SD聯(lián)合LDA模型,對訓(xùn)練集和驗證集樣本進行判別分析,SD-LDA模型鑒別油茶籽油摻假統(tǒng)計結(jié)果見表2。
表2 SD-LDA模型鑒別油茶籽油摻假統(tǒng)計結(jié)果
由表2可知,該模型對訓(xùn)練集和驗證集的誤判個數(shù)分別為11、 4。在訓(xùn)練集的樣本鑒別過程中,將2個純油茶籽油誤判為摻假油茶籽油,9個摻假油茶籽油誤判為純油茶籽油,靈敏度和特異性分別為93.33%和97.00%;在驗證集樣本鑒別過程中,將純油茶籽油全部識別正確,4個摻假油茶籽油誤判為純油茶籽油,靈敏度和特異性分別為100%和97.33%。SD-LDA模型對訓(xùn)練集和驗證集的識別準(zhǔn)確率分別為96.67%、97.58%。
2.3.1 樣本劃分與主成分?jǐn)?shù)的確定
將 495 份樣本按3∶1∶1隨機劃分為訓(xùn)練集、驗證集和測試集,訓(xùn)練集為 297 份樣本,驗證集為99份樣本,測試集為99份樣本,其中測試集樣本不參與建模,只供最后測試模型性能用。
原始光譜數(shù)據(jù)維數(shù)較高,若將其直接作為神經(jīng)網(wǎng)絡(luò)的輸入變量,模型太復(fù)雜、運算時間過長。本研究選用 PCA提取主成分,通過降維處理,以提高建模速度和準(zhǔn)確度。不同主成分?jǐn)?shù)的累積貢獻率如圖5所示。
圖5 不同主成分?jǐn)?shù)的累積貢獻率
由圖 5可知,前 8 個主成分累積貢獻率已達到99.96%,說明前 8 個主成分包含了原始 315個波長中 99.96%的信息,滿足建模需求,故本次ANN油茶籽油摻假鑒別模型的最佳主成分?jǐn)?shù)確定為8。
2.3.2 不同預(yù)處理方法的ANN模型預(yù)測結(jié)果
本試驗采用兩層前饋神經(jīng)網(wǎng)絡(luò),將上述8個主成分作為輸入層神經(jīng)元,選用 sigmoid 和 softmax 作為隱藏層和輸出層的轉(zhuǎn)換函數(shù),訓(xùn)練函數(shù)選用 trainscg。網(wǎng)絡(luò)訓(xùn)練時,最大訓(xùn)練步數(shù)為 1 000,當(dāng)驗證樣本的交叉熵誤差增加時,停止訓(xùn)練。根據(jù)多次訓(xùn)練結(jié)果確定隱含層節(jié)點數(shù)為10,神經(jīng)網(wǎng)絡(luò)構(gòu)造圖如圖6所示。不同預(yù)處理方法下 ANN 建模的預(yù)測結(jié)果見表 3 。
圖6 神經(jīng)網(wǎng)絡(luò)構(gòu)造圖
表3 不同預(yù)處理方法下 ANN 建模的預(yù)測結(jié)果 %
從表3可以看出,不同預(yù)處理方法的交叉驗證識別準(zhǔn)確率在 91.31%~99.60%范圍內(nèi),與未處理相比,除了FD,其余4種預(yù)處理方法交叉驗證識別準(zhǔn)確率均有不同程度提高。經(jīng)SNV預(yù)處理后所有樣品的近紅外光譜圖如圖7所示,其建模效果最優(yōu),訓(xùn)練識別準(zhǔn)確率和交叉驗證識別準(zhǔn)確率分別為 100%和99.60%。
圖7 經(jīng)SNV預(yù)處理后所有樣品的近紅外光譜圖
2.3.3 ANN模型對油茶籽油摻假鑒別與分析
應(yīng)用SNV聯(lián)合ANN模型,對訓(xùn)練集和驗證集樣本進行判別分析,SNV-ANN模型鑒別油茶籽油摻假統(tǒng)計結(jié)果見表4。
表4 SNV-ANN模型鑒別油茶籽油摻假統(tǒng)計結(jié)果
從表4可以看出,該模型對訓(xùn)練集和驗證集的誤判個數(shù)分別為0和1。在訓(xùn)練集樣本的鑒別過程中,模型能完全識別純油茶籽油和摻假油茶籽油,靈敏度和特異性均為100%;在驗證集樣本鑒別過程中,將純油茶籽油全部識別正確,1個摻偽油茶籽油誤判為純油茶籽油,靈敏度和特異性分別為100%和98.88%。SNV-ANN模型對訓(xùn)練集和驗證集的識別準(zhǔn)確率分別為100%和98.99%。
根據(jù)表1和表3對兩種模型性能進行比較后可知,除FD外,其他預(yù)處理方法下所建LDA模型的訓(xùn)練識別準(zhǔn)確率和交叉驗證識別準(zhǔn)確率均比ANN模型的低,說明ANN模型性能更強。根據(jù)表2和表4對兩種建模方法所得的最優(yōu)模型的靈敏度、特異性進行比較,發(fā)現(xiàn)SD-LDA模型和SNV-ANN模型對純油茶籽油識別能力相當(dāng),對摻假油茶籽油識別能力后者更強,說明非線性模型更適于油茶籽油摻假判別。此外,兩個模型的輸入主成分?jǐn)?shù)只有 8 個,對于模型的簡化、操作時間的減少、快速識別目的的實現(xiàn)以及隨后的便攜式摻假油茶籽油檢測設(shè)備的開發(fā)具有重要的意義。
本研究利用近紅外光譜技術(shù)采集了不同模擬摻假油茶籽油的光譜數(shù)據(jù),比較不同的預(yù)處理方法和主成分?jǐn)?shù),進行了線性和非線性建模,結(jié)合線性和非線性建模方法,開展了油茶籽油摻假快速鑒別問題研究,結(jié)果表明: SD聯(lián)合線性判別分析(SD-LDA)、SNV聯(lián)合人工神經(jīng)網(wǎng)絡(luò)(SNV-ANN)分別為最優(yōu)線性和非線性模型,其訓(xùn)練識別準(zhǔn)確率和交叉驗證識別準(zhǔn)確率分別為96.67%、97.58%和100%、98.99%。SD-LDA模型與SNV-ANN模型對純油茶籽油識別能力相當(dāng),后者對摻假油茶籽油識別能力更強,說明非線性模型在油茶籽油摻假判別方面更具有優(yōu)勢。因此,SNV-ANN 可以更準(zhǔn)確地鑒別油茶籽油是否摻假。