吳雪輝,何俊華,王澤富
(1.華南農(nóng)業(yè)大學(xué) 食品學(xué)院,廣州510642; 2.廣東省油茶工程技術(shù)研究中心,廣州510642)
油茶籽油又稱為茶油、山茶油、茶籽油、野山茶油等,是從山茶科植物油茶(CamelliaoleiferaAbel.)種子中提取的木本食用油。油茶籽油的脂肪酸組成與橄欖油相似,其中的單不飽和脂肪酸油酸含量高達80%以上[1-3]。油茶籽油中還含有多種功能活性成分,如角鯊烯、植物甾醇、多酚、脂溶性維生素等,具有很高的營養(yǎng)價值和保健功效[4-8]。
脂肪酸作為油茶籽油的主要成分,其組成、含量是評價油茶籽油品質(zhì)的重要指標(biāo),也是決定油茶籽油高營養(yǎng)價值的主要因素。因此,快速、準(zhǔn)確地測定油茶籽油的脂肪酸組成十分重要。目前,檢測油脂中脂肪酸組成主要采用氣相色譜法,樣品前處理過程煩瑣,時間長,成本高,不能滿足快速分析的需要[9]。紅外光譜分析技術(shù)是近年來迅速發(fā)展起來的無損檢測技術(shù),被廣泛應(yīng)用于油脂品質(zhì)及摻偽檢測[10-13]。吳雪輝等[14]利用偏最小二乘法(PLS)建立了油茶籽油中甾醇、維生素E和類胡蘿卜素含量的預(yù)測模型,應(yīng)用于油茶籽油中功能活性成分含量的快速檢測。He等[15]基于分離富集得到的植物油不皂化物紅外光譜圖,采用偏最小二乘判別分析法(PLS-DA)和正交偏最小二乘判別分析法(OPLS-DA)構(gòu)建了芝麻油鑒定模型。陳洪亮等[16]應(yīng)用近紅外光譜(NIR)分析技術(shù),結(jié)合聯(lián)合間隔偏最小二乘法(SiPLS)和帶極值擾動的簡化粒子群優(yōu)化算法(tsPSO)建立了芝麻油中大豆油摻偽含量預(yù)測模型。Du等[17]采用近紅外光譜結(jié)合偏最小二乘法,通過優(yōu)化建模的預(yù)處理方法,建立了山茶油、菜籽油和葵花籽油多元摻假模型,模型的預(yù)測效果良好,其決定系數(shù)大于0.995,校正標(biāo)準(zhǔn)偏差(RMSEC)和預(yù)測標(biāo)準(zhǔn)偏差(RMSEP)分別小于6.79和4.98。何小三等[18]采用NIRFlexN-500型近紅外光譜儀采集油茶籽油的紅外光譜圖譜,通過PLS建立了脂肪酸組成模型,除十七烷酸和α-亞麻酸有個別值相對偏差大于10%,其他脂肪酸相對偏差均小于10%。但是這些研究主要集中在采用近紅外光譜技術(shù)結(jié)合線性偏最小二乘法建立食用油相關(guān)指標(biāo)的快速檢測模型,而應(yīng)用紅外光譜建立油脂中主要成分脂肪酸組成檢測的模型研究較少,且大多采用線性的PLS建模方法,效果不理想。因此,本研究采用傅里葉紅外光譜結(jié)合非線性的支持向量機(SVM)和BP人工神經(jīng)網(wǎng)絡(luò)(ANN)建立油茶籽油中主要脂肪酸的定量回歸預(yù)測模型,旨在尋找一種快速、有效、無損檢測油茶籽油中脂肪酸組成的方法。
86個油茶籽油樣本采集于廣東省多家油茶籽油生產(chǎn)企業(yè),樣本包含有不同原料品種、不同提油方法、不同精煉工藝條件得到的油茶籽油。
Nicolet iS 10傅里葉變換紅外光譜儀,賽默飛世爾科技有限公司;Agilent 7890B氣相色譜儀,安捷倫科技(中國)有限公司。
1.2.1 脂肪酸組成的測定
脂肪酸甲酯化的方法參照GB 5009.168—2016稍作修改。稱取50 mg油茶籽油樣本于20 mL試管中,分別依次加入正己烷1 mL、濃度為0.5 mol/L氫氧化鉀-甲醇溶液1 mL,振搖1 min之后再加入水5 mL,繼續(xù)振搖1 min左右,等待溶液分層,取上清液用于色譜分析。
脂肪酸組成測定采用氣相色譜法。檢測條件:色譜柱采用DB-23毛細管柱(60 m×0.25 mm×0.25 μm);進樣口溫度250℃;進樣量1.0 μL;載氣(N2)流速2 mL/min;燃氣(H2)流速30 mL/min;分流比100∶1;檢測器溫度250℃;升溫程序為色譜柱起始溫度130℃,然后以10℃/min速度上升至180℃,保持10 min,然后以15℃/min速度上升至215℃,保持5 min,最后以5℃/min速度上升到230℃,保持5 min。
1.2.2 紅外光譜采集及光譜數(shù)據(jù)預(yù)處理
參照何小三等[18]的方法稍作修改,紅外光譜采集范圍400~4 000 cm-1,分辨率4 cm-1,掃描次數(shù)64次,每個樣品平行采集3次,以平均光譜作為樣品光譜。
由于采集的紅外光譜原始數(shù)據(jù)不僅包含了樣本的化學(xué)信息,還包含了許多外界干擾信息,因此有必要采用合理的預(yù)處理方法消除干擾因素,以提高模型的準(zhǔn)確性。經(jīng)前期研究優(yōu)化出油酸、棕櫚酸和亞油酸的最佳預(yù)處理方法分別為Savitzky-Golay平滑(SG)、標(biāo)準(zhǔn)正態(tài)變換(SNV)和二階導(dǎo)數(shù)(SD)[19]。
1.2.3 模型的建立與評價
分別采用支持向量機(SVM)和BP人工神經(jīng)網(wǎng)絡(luò)(ANN)建模,內(nèi)部驗證采用留一法交叉驗證。
1.2.4 數(shù)據(jù)處理
采用MATLAB 2016b、Unscrambler X10.1和Microsoft Excel 2016等分析軟件進行數(shù)據(jù)處理。
采用氣相色譜法測定了86個油茶籽油樣本的脂肪酸組成,由測定結(jié)果可知,油茶籽油中主要脂肪酸為棕櫚酸(C16∶0)6.92%~11.33%、硬脂酸(C18∶0)1.51%~3.34%、油酸(C18∶1)71.72%~83.42%、亞油酸(C18∶2)0.83%~13.20%、亞麻酸(C18∶3)0%~0.67%和花生一烯酸(C20∶1)0.25%~0.64%等6種,其中棕櫚酸、油酸和亞油酸含量較高,平均值分別為9.16%、79.42%、7.88%,合計占油茶籽油脂肪酸總量的97%左右,因此后面的模型建立選擇這3種脂肪酸作為研究對象。同時將86個油茶籽油樣本按照3∶1左右的比例,隨機劃分為校正集和預(yù)測集,校正集樣本66個,預(yù)測集樣本20個。油茶籽油劃分樣本主要的脂肪酸含量見表1。
表1 油茶籽油劃分樣本主要的脂肪酸含量 %
86個油茶籽油樣本的紅外光譜圖如圖1所示。
圖1 86個油茶籽油樣本的紅外光譜圖
由于油茶籽油中物質(zhì)含量與紅外光譜吸收是非線性的,導(dǎo)致采用線性的最小二乘法回歸建模方法存在一定的局限性,其相對標(biāo)準(zhǔn)偏差雖然小于10%,但是沒有達到小于5%的水平[19]。因此,本研究選用常用的非線性建模方法——支持向量機進行建模。為了提高模型的預(yù)測效果,很好地提取3種脂肪酸的光譜信息,首先通過前期研究篩選出油酸、棕櫚酸和亞油酸各自的最優(yōu)子區(qū)間,其光譜波段分別為:油酸,763~1 125 cm-1、2 575~2 934 cm-1和2 995~3 644 cm-1;棕櫚酸,400~763 cm-1、763~1 125 cm-1和1 847~2 205 cm-1;亞油酸,763~1 125 cm-1、1 125~1 488 cm-1和1 850~2 209 cm-1。
支持向量機的參數(shù)優(yōu)化主要包括懲罰因子(C)、徑向基核函數(shù)和松弛系數(shù)(g)。本研究基于網(wǎng)格全局法尋找最優(yōu)C和g,網(wǎng)格全局尋優(yōu)算法是將參數(shù)的尋優(yōu)范圍劃分為網(wǎng)格形式并遍歷網(wǎng)格內(nèi)的所有參數(shù)點去搜尋最優(yōu)值,采用網(wǎng)格全局尋優(yōu)算法得到油酸、棕櫚酸、亞油酸的懲罰因子(C)分別為0.25、0.1、0.25,松弛系數(shù)(g)分別為0.6、0.35、1,在此條件下建立SVM模型,得到油酸、棕櫚酸、亞油酸的實測值與預(yù)測值的校正集、預(yù)測集樣本散點分布情況,結(jié)果分別如圖2、圖3、圖4所示。
圖2 油酸實測值與預(yù)測值的校正集、預(yù)測集樣本散點分布圖
圖3 棕櫚酸實測值與預(yù)測值的校正集、預(yù)測集樣本散點分布圖
圖4 亞油酸實測值與預(yù)測值的校正集、預(yù)測集樣本散點分布圖
圖2~圖4顯示:油酸、棕櫚酸、亞油酸校正集中所得到預(yù)測值與實測值的相關(guān)系數(shù)(R)分別為0.998 3、0.945 1、0.997 6,預(yù)測集中所得到預(yù)測值與實測值的相關(guān)系數(shù)分別為0.870 7、0.623 4、0.974 2,模型的相對標(biāo)準(zhǔn)偏差均小于5%(其中亞油酸的小于1%),預(yù)測效果達到應(yīng)用檢測水平;但是棕櫚酸的預(yù)測集相關(guān)系數(shù)只有0.623 4,表明建立的棕櫚酸定量回歸模型泛化能力差,出現(xiàn)過度擬合情況,可能是選擇幾個子區(qū)間聯(lián)合作為建模波段,波段點數(shù)較多,造成數(shù)據(jù)量過大,建模過程中支持向量機個數(shù)偏多,導(dǎo)致每一個樣本出現(xiàn)一個臨界域,這樣建模集精確度很高,但泛化能力一般會很低。
雖然非線性SVM建模效果較好,但沒有交叉驗證,且3個子區(qū)間輸入的變量數(shù)為282,而建模樣本數(shù)只有66個,遠小于建模輸入的變量,很容易導(dǎo)致過度擬合,造成模型的泛化能力差。因此,進一步采用具有內(nèi)部交叉驗證的非線性方法BP人工神經(jīng)網(wǎng)絡(luò)建模。
構(gòu)建BP人工神經(jīng)網(wǎng)絡(luò)模型,參數(shù)選擇:網(wǎng)絡(luò)結(jié)構(gòu)選擇一個3層的人工神經(jīng)網(wǎng)絡(luò),輸入分別為優(yōu)化后的聯(lián)合子區(qū)間,輸出分別為油酸、棕櫚酸、亞油酸含量,同時需對輸入、輸出層參數(shù)進行歸一化處理。對隱含層神經(jīng)元數(shù)、傳遞函數(shù)、訓(xùn)練函數(shù)、學(xué)習(xí)函數(shù)、網(wǎng)絡(luò)性能函數(shù)、仿真函數(shù)、訓(xùn)練校驗次數(shù)、學(xué)習(xí)速率等參數(shù)進行優(yōu)化,將數(shù)據(jù)輸入設(shè)定好的網(wǎng)絡(luò)模型中,對模型進行訓(xùn)練。應(yīng)用建立BP的人工神經(jīng)網(wǎng)絡(luò)模型對校正集和預(yù)測集樣本進行仿真應(yīng)用,得到油酸、棕櫚酸、亞油酸的實測值與預(yù)測值的校正集、預(yù)測集樣本散點分布情況,結(jié)果分別如圖5、圖6、圖7所示。
從圖5~圖7可以看出:3種脂肪酸的校正集和預(yù)測集樣本基本均勻地分布在回歸線上,油酸、棕櫚酸、亞油酸的校正集中所得到預(yù)測值與實測值的相關(guān)系數(shù)(R)分別為0.998 7、0.945 1、0.995 7,預(yù)測集中所得到預(yù)測值與實測值的相關(guān)系數(shù)分別為0.955 7、0.926 2、0.981 6,表明模型預(yù)測值與實測值非常接近,模型的預(yù)測效果較好;3種脂肪酸模型的相對標(biāo)準(zhǔn)偏差分別小于1%、5%和1%。
圖5 油酸實測值與預(yù)測值的校正集、預(yù)測集樣本散點分布圖
圖6 棕櫚酸實測值與預(yù)測值的校正集、預(yù)測集樣本散點分布圖
圖7 亞油酸實測值與預(yù)測值的校正集、預(yù)測集樣本散點分布圖
通過對從企業(yè)收集的86個油茶籽油樣本進行脂肪酸組成測定和紅外光譜掃描,利用非線性回歸方法SVM、ANN分別建立油茶籽油中油酸、棕櫚酸和亞油酸的定量回歸模型。對油酸和棕櫚酸而言,ANN建立的定量回歸模型精確度比SVM高,油酸的ANN模型校正集和預(yù)測集相關(guān)系數(shù)分別為0.998 7和0.955 7,相對標(biāo)準(zhǔn)偏差小于1%,棕櫚酸的校正集和預(yù)測集相關(guān)系數(shù)分別為0.945 1和0.926 2,相對標(biāo)準(zhǔn)偏差小于5%;亞油酸的SVM和ANN定量分析模型相對標(biāo)準(zhǔn)偏差均小于1%,校正集和預(yù)測集相關(guān)系數(shù)分別為0.997 6、0.995 7和0.974 2、0.981 6。說明紅外光譜替代傳統(tǒng)的氣相色譜法快速測定油茶籽油中脂肪酸組成是完全可行的。