孫婷婷,鐘瑾璟,劉劍波,任佳麗,鐘海雁,周 波
(林產(chǎn)可食資源安全與加工利用湖南省重點(diǎn)實(shí)驗(yàn)室1,長(zhǎng)沙 410004) (中南林業(yè)科技大學(xué)食品科學(xué)與工程學(xué)院2,長(zhǎng)沙 410004) (岳陽市質(zhì)量計(jì)量檢驗(yàn)檢測(cè)中心食品檢驗(yàn)所3,岳陽 414000) (海普諾凱營養(yǎng)品有限公司4,長(zhǎng)沙 410004)
目前準(zhǔn)確快速鑒別食用植物油摻偽的研究大部分是首先利用先進(jìn)的實(shí)驗(yàn)儀器和檢測(cè)技術(shù)獲得大量復(fù)雜的結(jié)構(gòu)化量測(cè)數(shù)據(jù),然后采用各種數(shù)學(xué)方法從數(shù)據(jù)中挖掘和提取出摻偽鑒別所需的特征信息[1]。目前使用較為廣泛的檢測(cè)技術(shù)和方法包括常規(guī)理化檢測(cè)法[2]、色譜法[3,4]、核磁共振法[5]、近紅外光譜法[6,7]、拉曼光譜法[8]、熒光光譜法[9,10]、電子鼻技術(shù)[11]及穩(wěn)定同位素比質(zhì)譜法[12]等,常規(guī)理化檢測(cè)法獲取數(shù)據(jù)較為簡(jiǎn)單,但數(shù)據(jù)在摻偽后特征變化不明顯,使摻偽鑒別具有一定局限性;近紅外光譜法具有獲取數(shù)據(jù)簡(jiǎn)單便捷、沒有污染、對(duì)樣品不易破壞等優(yōu)點(diǎn),但當(dāng)樣品量較小時(shí),效果相對(duì)不佳;核磁共振和穩(wěn)定同位素比質(zhì)譜等大型儀器設(shè)備操作復(fù)雜繁瑣,無法滿足市場(chǎng)快速檢測(cè)的需求;電子鼻技術(shù)獲得的數(shù)據(jù)不穩(wěn)定;而色譜法具有靈敏度高、選擇性強(qiáng)、分析速度快、操作簡(jiǎn)便、樣品用量少等優(yōu)勢(shì),是目前廣泛應(yīng)用在植物油摻偽鑒別中的量測(cè)數(shù)據(jù)獲得方法。
基于先進(jìn)和成熟的檢測(cè)技術(shù)和方法獲得大量復(fù)雜的結(jié)構(gòu)化量測(cè)數(shù)據(jù)后,根據(jù)鑒別需求和問題性質(zhì),需要采用不同的機(jī)器學(xué)習(xí)算法來挖掘和提取出摻偽鑒別所需的特征信息。食品的摻偽鑒別問題分為兩類,分別是定性摻偽鑒別和定量摻偽預(yù)測(cè),二者分別屬于分類問題和回歸問題。目前用于食品摻偽量預(yù)測(cè)的機(jī)器學(xué)習(xí)算法主要包括人工神經(jīng)網(wǎng)絡(luò)(ANN)[13-17]、偏最小二乘回歸(PLSR)[18-20]、多元線性回歸(MLR)[21]等。ANN對(duì)摻偽量的預(yù)測(cè)準(zhǔn)確率高,低摻樣本預(yù)測(cè)能力強(qiáng),但訓(xùn)練操作耗時(shí)且復(fù)雜,計(jì)算復(fù)雜度較高,模型可解釋性差,訓(xùn)練所需數(shù)據(jù)規(guī)模大;PLSR模型綜合考慮了多種特征性物質(zhì)與摻偽含量的映射關(guān)系,但其只能擬合線性相關(guān)關(guān)系,摻偽量數(shù)值與作為特征物質(zhì)的含量值間非線性因素增強(qiáng)會(huì)影響鑒別結(jié)果;MLR模型可以擬合摻偽量值與摻偽油脂的多個(gè)特征性變量之間的線性相關(guān)關(guān)系,模型原理簡(jiǎn)單易于理解,但當(dāng)變量之間存在非線性相關(guān)性時(shí)模型的適用性較差,并且當(dāng)自變量個(gè)數(shù)較多時(shí)計(jì)算較為復(fù)雜[22]。此外,摻偽鑒別方法的準(zhǔn)確率不僅取決于所采用的機(jī)器學(xué)習(xí)算法,在很大程度上還受到實(shí)驗(yàn)樣本數(shù)據(jù)的影響,如當(dāng)實(shí)驗(yàn)樣本的覆蓋性較弱時(shí),訓(xùn)練集無法充分反映摻偽樣本的全部特征,在此基礎(chǔ)上訓(xùn)練得到的不同機(jī)器學(xué)習(xí)算法模型的鑒別準(zhǔn)確性就會(huì)受到影響,無法對(duì)訓(xùn)練集未覆蓋的樣本做出準(zhǔn)確的摻偽鑒別,同時(shí)在沒有充分訓(xùn)練實(shí)驗(yàn)樣本的前提下,訓(xùn)練得到的機(jī)器學(xué)習(xí)模型對(duì)于新出現(xiàn)的新品種油脂(化合物組成種類和含量不同)的檢測(cè)精度受到影響[22]。
茶油是來源于山茶科(Theaceae)山茶屬(Camellia)的植物種子制備而成的一種營養(yǎng)豐富的食用植物油脂,主要生產(chǎn)地在湖南、江西、浙江、廣西和貴州等地,與橄欖油、棕櫚油和椰子油并列世界四大木本油脂[23]。茶油的營養(yǎng)功能價(jià)值和商品價(jià)格要高于其他食用植物油脂,導(dǎo)致市場(chǎng)上用低質(zhì)低價(jià)食用植物油摻偽茶油的現(xiàn)象較普遍[24],嚴(yán)重?fù)p害了茶油生產(chǎn)者和消費(fèi)者的利益,所以建立快速、精準(zhǔn)的檢測(cè)技術(shù)和方法來鑒別茶油摻偽是保障我國茶油生產(chǎn)和銷售市場(chǎng)正常秩序以及實(shí)現(xiàn)茶油高質(zhì)量發(fā)展的必然需求。本研究基于脂肪酸和甘油三酯的色譜數(shù)據(jù),運(yùn)用Python語言建立并對(duì)比分析偏最小二乘回歸模型和多元線性回歸模型應(yīng)用于摻偽茶油摻偽量的定量預(yù)測(cè)效果,以期為鑒別摻偽茶油純度及定量分析調(diào)和茶油配比提供參考。
1.1.1 主要試劑及儀器
脂肪酸甲酯標(biāo)準(zhǔn)品(FAMEs)、色譜純乙腈和色譜純異丙醇、甘油三酯標(biāo)準(zhǔn)品。
BSA124S電子分析天平(0.000 1 g),GC 2014氣相色譜儀,VORTEX-5渦旋混勻儀,LC-20AD高效液相色譜儀(配備有CMB-20A控制器,LC-20AD二元泵,SIL-20A自動(dòng)進(jìn)樣器和CTO-10AS柱溫箱,蒸發(fā)光散射檢測(cè)器-2000ES),ZORBAX SB-C18色譜柱(4.6 mm×250 mm;5 μm)。
1.1.2 茶油及其他摻偽植物油脂肪酸和甘油三酯
茶油及其他摻偽植物油脂肪酸和甘油三酯的實(shí)驗(yàn)數(shù)據(jù)是基于本實(shí)驗(yàn)室已報(bào)道的研究[25,26]。
設(shè)計(jì)茶油 (n=53) 中分別摻入米糠油、玉米油、棕櫚油、葵花籽油、大豆油、花生油、棉籽油及葡萄籽油的摻偽模型,設(shè)計(jì)2個(gè)摻偽梯度,自定為高摻偽梯度(10%、15%、20%、40%、60%、80%)和低摻偽梯度(2%、4%、6%、8%、10%)。高和低摻偽茶油樣本數(shù)據(jù)量為318條和265條。各摻偽濃度均含53條數(shù)據(jù),每條數(shù)據(jù)包含對(duì)應(yīng)摻偽濃度下該種類摻偽茶油的14個(gè)脂肪酸和甘油三酯特征性物質(zhì)指標(biāo)含量數(shù)據(jù)。
運(yùn)用Python語言,利用sklearn.cross_decomposition庫中的PLS回歸函數(shù)和Linear回歸函數(shù)對(duì)數(shù)據(jù)分別構(gòu)建偏最小二乘回歸(Partial Least Squares Regression, PLSR)模型和多元線性回歸模型(Multiple Linear Regression, MLR)。2種模型都采用5-折交叉驗(yàn)證法進(jìn)行訓(xùn)練和評(píng)價(jià),使得每個(gè)樣本都有機(jī)會(huì)作為測(cè)試集進(jìn)行摻偽量的預(yù)測(cè)。采用的指標(biāo)包括決定系數(shù)(Coefficient of Determination,R2)、均方根誤差(Root Mean Squared Error, RMSE)和相對(duì)誤差 (Relative Error, RE)來評(píng)價(jià)PLS和多元線性回歸模型對(duì)摻偽茶油摻偽量預(yù)測(cè)的精度。
本研究所有模型和算法均基于Python 3.7編程語言在PyCharm 2018 IDE平臺(tái) (JetBrains (Prague), Czech Republic) 進(jìn)行程序編寫,所有實(shí)驗(yàn)均在一臺(tái)蘋果 (Apple Computer Inc.) 筆記本上開展,詳細(xì)配置為因特爾酷睿i5 CPU (Intel (R) Core (TM) @1.70GHz),4 GB內(nèi)存,NVIDIA GeForce 320M顯卡。
高摻偽梯度下,PLS回歸模型對(duì)茶油摻偽量定量預(yù)測(cè)的平均R2值高達(dá)0.994,但平均RMSE值較差,為1.99,尤其是對(duì)葵花籽油、葡萄籽油、菜籽油和棕櫚油,PLS回歸模型的RMSE值都在2.2以上(表1),這表明PLS回歸模型的預(yù)測(cè)摻偽量與真實(shí)摻偽量之間的誤差相對(duì)較大,準(zhǔn)確率較低。低摻偽梯度下,PLSR模型對(duì)茶油摻偽量的定量預(yù)測(cè)效果較差,PLS回歸模型對(duì)茶油摻偽量定量預(yù)測(cè)的平均R2值為0.889,平均RMSE值為0.907,尤其是對(duì)棕櫚油的摻偽量預(yù)測(cè)能力最差(平均R2值=0.748,平均RMSE值=1.418)。PLS回歸模型對(duì)于高摻偽梯度下茶油摻偽量定量預(yù)測(cè)的精準(zhǔn)率高,但準(zhǔn)確率差,而低摻偽梯度下精準(zhǔn)率和準(zhǔn)確率都較差,故PLS回歸模型不能很好的實(shí)現(xiàn)茶油摻偽量的定量預(yù)測(cè)。
高和低摻偽梯度下,ML回歸模型對(duì)茶油摻偽量定量預(yù)測(cè)的平均R2值分別達(dá)到了0.999和0.994,平均RMSE值分別達(dá)到了0.146和0.136(表1),ML回歸模型的精準(zhǔn)度和準(zhǔn)確度都要高于PLS回歸模型,ML回歸模型相比于PLS回歸模型能更好的實(shí)現(xiàn)茶油摻偽量的定量預(yù)測(cè)。
表1 不同摻偽梯度下PLS回歸模型和ML回歸模型的摻偽量預(yù)測(cè)精度指標(biāo)值
針對(duì)高/低摻偽梯度下多元線性回歸模型,得到不同植物油摻偽量預(yù)測(cè)的多元線性回歸函數(shù)方程(表2)。
同時(shí),從各類摻偽茶油樣本中的摻偽量預(yù)測(cè)結(jié)果進(jìn)行分析表明,無論高摻偽梯度還是低摻偽梯度,PLS回歸模型對(duì)大部分樣本的預(yù)測(cè)值與真實(shí)值之間的相對(duì)誤差均較大(0.1~0.3),個(gè)別樣本的相對(duì)誤差甚至達(dá)到了0.5以上,預(yù)測(cè)效果欠佳,尤其是摻偽質(zhì)量分?jǐn)?shù)越低,相對(duì)誤差越大,在0.3左右,個(gè)別甚至達(dá)到1.7。ML回歸模型對(duì)不同種類摻偽茶油樣本的預(yù)測(cè)值與真實(shí)值的相對(duì)誤差普遍較小(0.001~0.01),許多樣本的相對(duì)誤差接近于0,預(yù)測(cè)效果較好。
為了更為直觀地展示摻偽量預(yù)測(cè)結(jié)果,以摻入大豆油和花生油為例,基于PLS回歸模型和ML回歸模型對(duì)摻偽茶油的定量預(yù)測(cè)結(jié)果的“真實(shí)摻偽量-預(yù)測(cè)摻偽量”散點(diǎn)圖進(jìn)行分析。散點(diǎn)圖中橫坐標(biāo)代表樣本的真實(shí)摻偽量,縱坐標(biāo)代表模型對(duì)樣本摻偽量的預(yù)測(cè)值。圖中每個(gè)點(diǎn)代表一個(gè)樣本,樣本點(diǎn)的坐標(biāo)由其真實(shí)摻偽量和預(yù)測(cè)摻偽量共同決定,當(dāng)樣本點(diǎn)越接近直線y=x,表示模型對(duì)樣本摻偽量的預(yù)測(cè)效果越好。
表2 不同摻偽梯度下多元線性回歸模型的摻偽量預(yù)測(cè)函數(shù)
高摻偽梯度下,PLS回歸模型定量預(yù)測(cè)的預(yù)測(cè)值相對(duì)于真實(shí)值存在一定程度的浮動(dòng),其中摻偽質(zhì)量分?jǐn)?shù)為10%、15%、20%的樣本浮動(dòng)區(qū)間較大,摻偽質(zhì)量分?jǐn)?shù)為40%、60%、80%的樣本的浮動(dòng)程度逐漸降低,預(yù)測(cè)值與真實(shí)值較為接近(圖1a和圖1b),低摻偽梯度下,PLS回歸模型定量預(yù)測(cè)的預(yù)測(cè)值相對(duì)于真實(shí)值之間的浮動(dòng)程度更大(圖1c和圖1d)。結(jié)果表明PLS回歸模型對(duì)茶油摻偽的定量預(yù)測(cè)能力較差,且隨著摻偽質(zhì)量分?jǐn)?shù)和摻偽梯度的下降定量預(yù)測(cè)能力更差。
圖1 高摻偽和低摻偽梯度下PLS回歸模型定量預(yù)測(cè)結(jié)果的散點(diǎn)圖
高摻偽梯度下,ML回歸模型對(duì)摻偽茶油摻偽量的預(yù)測(cè)值和真實(shí)值之間的浮動(dòng)程度較小,所包含的樣本點(diǎn)基本上分別匯聚在一條直線上(圖2a和圖2b)。與PLS回歸模型相比(圖1a和圖1b),浮動(dòng)程度明顯減小,這說明在高摻偽梯度下ML回歸模型對(duì)摻偽茶油的定量預(yù)測(cè)的相對(duì)誤差小,結(jié)果準(zhǔn)確率高。
低摻偽梯度下,ML回歸模型對(duì)摻偽茶油摻偽量的預(yù)測(cè)值和真實(shí)值之間的浮動(dòng)程度較小,所包含的樣本點(diǎn)基本上分別匯聚在一條直線上(圖2c和圖2d)。與PLS回歸模型相比(圖1c和圖1d),ML回歸模型對(duì)摻偽大豆油和花生油的茶油樣本的預(yù)測(cè)值與真實(shí)值之間的浮動(dòng)程度明顯減小,這說明ML回歸模型能很好的實(shí)現(xiàn)對(duì)摻偽茶油摻偽量的定量預(yù)測(cè)。
在高摻偽梯度下,PLS回歸模型對(duì)摻入米糠油、棉籽油的茶油樣本的定量預(yù)測(cè)效果最好,樣本的預(yù)測(cè)摻偽量與真實(shí)摻偽量之間的相對(duì)誤差大部分集中在0~0.5之間(圖3a),對(duì)摻偽菜籽油、棕櫚油、葵花籽油和葡萄籽油的茶油的定量預(yù)測(cè)效果較差,其中對(duì)摻偽菜籽油的茶油的定量預(yù)測(cè)相對(duì)誤差結(jié)果中有接近1.4的離群點(diǎn)樣本(圖3a)。低摻偽梯度下PLS回歸模型對(duì)摻偽茶油定量預(yù)測(cè)的相對(duì)誤差普遍較高(>0.5),對(duì)摻偽花生油、菜籽油、棕櫚油、米糠油的茶油的摻偽量預(yù)測(cè)的相對(duì)誤差都在2.0以上,其中對(duì)摻偽棕櫚油的茶油樣本的定量預(yù)測(cè)的相對(duì)誤差結(jié)果中有接近3.0的離群點(diǎn)樣本(圖3b)。這進(jìn)一步說明PLSR模型對(duì)摻偽茶油的定量預(yù)測(cè)能力較差。
圖2 高摻偽和低摻偽梯度下ML回歸模型定量預(yù)測(cè)結(jié)果的散點(diǎn)圖
圖3 高摻偽和低摻偽梯度下PLS回歸模型定量預(yù)測(cè)相對(duì)誤差箱型圖
高摻偽梯度下,ML回歸模型對(duì)棕櫚油摻偽量的定量預(yù)測(cè)效果稍差(相對(duì)誤差≤0.25),其次是花生油(0.05≤相對(duì)誤差≤0.1)和葡萄籽油(相對(duì)誤差≤0.05),其他摻偽茶油樣本的定量預(yù)測(cè)結(jié)果相對(duì)誤差集中在0~0.05之間(圖4a)。ML回歸模型對(duì)摻偽大豆油、葵花籽油、棉籽油、葡萄籽油、米糠油的定量預(yù)測(cè)效果最好,明顯優(yōu)于PLS回歸模型的定量預(yù)測(cè)效果,相對(duì)誤差大大降低(ML回歸模型的最大相對(duì)誤差接近0.05,PLS回歸模型的最大相對(duì)誤差接近1.4)(圖3a和圖4a)。低摻偽梯度下,ML回歸模型對(duì)棕櫚油摻偽量的定量預(yù)測(cè)效果稍差(相對(duì)誤差0.8左右),其次是花生油(0.2≤相對(duì)誤差≤0.4)和葡萄籽油(0.2≤相對(duì)誤差≤0.3),其他摻偽茶油樣本的定量預(yù)測(cè)結(jié)果相對(duì)誤差集中在0~0.3之間(圖4b)。ML回歸模型對(duì)大豆油、葵花籽油、棉籽油、葡萄籽油、米糠油的定量預(yù)測(cè)效果最好,明顯優(yōu)于PLS回歸模型的定量預(yù)測(cè)效果,相對(duì)誤差大大降低(ML回歸模型的最大相對(duì)誤差接近1.0,PLS回歸模型的最大相對(duì)誤差接近3.0)(圖3b和圖4b)。
圖4 不同摻偽梯度下ML回歸模型定量預(yù)測(cè)相對(duì)誤差結(jié)果的箱型圖
結(jié)果進(jìn)一步說明ML回歸模型對(duì)摻偽茶油油樣的定量預(yù)測(cè)能力較強(qiáng),在不同摻偽質(zhì)量分?jǐn)?shù)和摻偽梯度下對(duì)摻偽茶油的摻偽量預(yù)測(cè)效果較好。
本研究面向摻偽不同種類食用植物油的茶油摻偽量預(yù)測(cè)問題,基于14個(gè)特征性脂肪酸和甘油三酯指標(biāo),運(yùn)用Python語言構(gòu)建并對(duì)比分析了偏最小二乘(PLS)回歸模型和多元線性(ML)回歸模型用于摻偽茶油摻偽量的定量預(yù)測(cè)的效果。實(shí)驗(yàn)結(jié)果顯示ML回歸模型的摻偽量預(yù)測(cè)能力更強(qiáng),可用于不同摻偽含量和摻偽梯度茶油樣本的定量預(yù)測(cè)。
本研究構(gòu)建的摻偽量預(yù)測(cè)模型可在實(shí)際的摻偽量預(yù)測(cè)場(chǎng)景中得到應(yīng)用。基于現(xiàn)有摻偽茶油樣本的特征物質(zhì)含量和摻偽量實(shí)驗(yàn)數(shù)據(jù)對(duì)茶油摻偽量預(yù)測(cè)模型進(jìn)行訓(xùn)練。待模型訓(xùn)練完畢后,面向摻入特定品種食用植物油的摻偽量待測(cè)定茶油樣本時(shí),測(cè)定樣本的脂肪酸和甘油三酯含量數(shù)據(jù),代入事先訓(xùn)練好的摻偽量預(yù)測(cè)模型中,即可得到摻偽量預(yù)測(cè)值。
后續(xù)可對(duì)我國油茶籽油和常見食用植物油的甘油三酯結(jié)構(gòu)開展系統(tǒng)性研究,以期提高油茶籽油摻偽鑒別模型的效果和能力。