李艷坤,許東情
(華北電力大學(xué)(保定)環(huán)境科學(xué)與工程系,河北省燃煤電站煙氣多污染物協(xié)同控制重點(diǎn)實(shí)驗(yàn)室,河北 保定 071003)
作為食物烹飪過程中的基礎(chǔ)材料之一,食用植物油的安全和質(zhì)量至關(guān)重要.當(dāng)前市場上,由于不同類型的植物食用油成分含量、加工工藝、產(chǎn)地等不同,導(dǎo)致不同食用油之間的價(jià)格差異較大,從而發(fā)生在價(jià)格較高的食用油中摻兌低價(jià)格食用油或非食用油或?qū)U棄食用油脂等進(jìn)行脫水、脫色等簡單加工后提煉出“地溝油”的現(xiàn)象.這些劣質(zhì)油經(jīng)過了酸敗、氧化、分解等一系列的化學(xué)過程后質(zhì)量極差,會產(chǎn)生含砷、鉛等對人體有毒有害的物質(zhì).再加上油脂本身成分復(fù)雜多樣,每種油的經(jīng)典理化特性(酸值、過氧化值、碘價(jià)等)數(shù)值范圍很寬以及所含微量成分和特殊成分的差異,使得目前用于食用植物油(摻偽)檢測的傳統(tǒng)理化指標(biāo)檢測法有時(shí)難以檢出攙兌或鑒別準(zhǔn)確度不高.此時(shí)需要聯(lián)合多種儀器方法檢測多種指標(biāo)參數(shù),如熒光分光光度法、核磁共振法和氣相色譜技術(shù)[1-3].這些實(shí)驗(yàn)方法存在費(fèi)時(shí)長、費(fèi)用高、預(yù)處理或檢測過程繁瑣等弊端,而且易引入有毒有害試劑.
傅里葉變換中紅外光譜法(fourier transform infrared, FTIR)是目前廣泛應(yīng)用的一種分析方法.絕大多數(shù)有機(jī)和無機(jī)化合物的化學(xué)鍵振動基頻均在中紅外區(qū)域出現(xiàn),分子的結(jié)構(gòu)特點(diǎn)主要由吸收波長的位置及其強(qiáng)度反映出來.目前該技術(shù)已應(yīng)用于茶葉質(zhì)量、葡萄酒參數(shù)檢測、中藥材[4-6]等食品藥品領(lǐng)域的分析.它能夠?qū)w系進(jìn)行整體、宏觀地鑒定,但對于含有大量有機(jī)物組分的復(fù)雜體系,中紅外譜峰的重疊、移位或特征減弱等會給傳統(tǒng)的譜圖鑒別帶來很大的局限和困難.目前,相關(guān)中紅外光譜的研究大多集中于對植物油多種品質(zhì)指標(biāo)的檢測[7-8],尚未系統(tǒng)地展開化學(xué)計(jì)量學(xué)模型對食用油品質(zhì)判別的研究.因此,本研究系統(tǒng)展開了各種模式識別(分類)方法[9]結(jié)合傳統(tǒng)傅里葉透射紅外光譜對食用油摻偽的解析.結(jié)果表明:非相關(guān)線性判別分析模型[10-11](uncorrelated linear discrimination analysis, ULDA)可以有效地提取出類別相關(guān)特征信息,實(shí)現(xiàn)摻偽食用油的定性及定量分析,為油脂品質(zhì)的評價(jià)與控制提供新的方法借鑒.
德國布魯克公司傅里葉變換紅外光譜儀(Tensor 2.0);市售正品食用油:魯花5S壓榨一級花生油(山東魯花集團(tuán)有限公司,河北省衡水市);炸貨油:個(gè)體攤點(diǎn)反復(fù)油炸食物的植物油(濾去固體雜質(zhì)).
1.2.1 樣本配置
不同比例摻偽樣本的配制:在上述正品食用油基礎(chǔ)上,分別摻入質(zhì)量分?jǐn)?shù)為5%、15%、25%、35%、45%、55%、65%、75%、85%、95%的炸貨油.每個(gè)質(zhì)量分?jǐn)?shù)下平行配制6個(gè)樣本,共計(jì)60個(gè)樣本;另配置23個(gè)正品食用油和23個(gè)炸貨油樣本.
1.2.2 光譜采集
戴上手指套,在KBr窗口片中央滴1滴油試樣,使其分散均勻后,用另一KBr窗口片壓于其上.窗片上下加橡膠墊圈裝入液體池,然后裝入傅里葉變換紅外光譜儀測試架進(jìn)行測定.測試完成后取下液體池及KBr窗片,用酒精棉擦洗窗片表面,并待酒精全部揮發(fā)后,重復(fù)進(jìn)行下一個(gè)樣品的測定.紅外光譜儀需開機(jī)預(yù)熱30 min后采集常規(guī)透射光譜,掃描條件:波數(shù)400~4 000 cm-1,掃描間隔約1.42 cm-1、掃描32次.參比為空氣,環(huán)境溫度為25 ℃,每個(gè)樣品重復(fù)測定3次,取其平均值作為原始光譜(2 525個(gè)變量).
樣本集劃分:純正品油和炸貨油樣本中分別隨機(jī)選取12個(gè)樣本組成24個(gè)樣本做訓(xùn)練集,其余22個(gè)樣本做為預(yù)測集;為使訓(xùn)練樣本覆蓋所有摻偽比例(5%~95%),每種摻偽比例下隨機(jī)抽取3個(gè)樣本組成30個(gè)摻偽樣本做為訓(xùn)練集,其余30個(gè)樣本做為預(yù)測集.
光譜預(yù)處理:經(jīng)過優(yōu)化,對原始光譜進(jìn)行5點(diǎn)Savitzky-Golay平滑求二階導(dǎo)數(shù)(second derivative, SD)預(yù)處理,以消除光譜中的背景噪音,增強(qiáng)樣本中成分相關(guān)的光譜吸收信息.
使用MATLAB R2018b建模分析.模型識別靈敏度、特異度和準(zhǔn)確度計(jì)算公式如下:
(1)
(2)
(3)
其中,SEN為靈敏度,SPE為特異度,ACC為準(zhǔn)確度,A為實(shí)際的摻偽樣數(shù)目,B為實(shí)際的正品油樣數(shù)目,C為模型預(yù)測的假摻偽樣數(shù)目,D為模型預(yù)測的假正品油樣數(shù)目.本文計(jì)算時(shí)將炸貨油樣看作是摻偽比例為100%的摻偽油樣.
模式(分類)識別方法根據(jù)有無訓(xùn)練樣本分為有監(jiān)督識別方法和無監(jiān)督識別方法.無監(jiān)督識別是在沒有樣本類別歸屬信息的情況下直接根據(jù)某種規(guī)則進(jìn)行分類決策,包括主成分聚類分析(principal component analysis, PCA)、距離判別分析(distance discriminant analysis, DDA)、非負(fù)矩陣(因式)分解(nonnegative matrix factorization, NMF)等;有監(jiān)督識別方法包括偏最小二乘判別分析(partial least squares discrimination analysis, PLS-DA)、線性判別分析方法(linear discrimination analysis, LDA)、支持向量機(jī)(support vector machine, SVM)等.本研究主要采用以下方法進(jìn)行綜合解析:
主成分分析[12]是一種把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)的降維方法.通過保留低階主成分,忽略高階主成分,從而減少數(shù)據(jù)集維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集中對方差貢獻(xiàn)最大的特征;非負(fù)矩陣分解[13]是在數(shù)據(jù)分解過程中加入非負(fù)矩陣的約束條件,使原矩陣由低維的系數(shù)矩陣和基矩陣乘積所表示;距離判別分析將每個(gè)樣本看成多維空間的一個(gè)點(diǎn),通過度量樣本間的某種空間距離來衡量其相似程度,從而實(shí)現(xiàn)樣本的聚類;偏最小二乘判別分析[14]是基于偏最小二乘校正與線性判別分析相結(jié)合,將原始數(shù)據(jù)降維后得到的得分矢量進(jìn)行線性判別分析,得到分類判別函數(shù)從而建立分類模型.
非相關(guān)線性判別分析方法(uncorrelated linear discrimination analysis, ULDA)[15]的基本思想是在傳統(tǒng)Fisher判別的基礎(chǔ)上,對轉(zhuǎn)換矩陣向量間的不相關(guān)性加以考慮,以此來減少數(shù)據(jù)在降維后的冗余度.從而得到最有效的分類特征,盡可能地使類內(nèi)樣本距離最小化,類間樣本距離最大化.通過找出原始光譜數(shù)據(jù)矩陣X的轉(zhuǎn)換矩陣G后,將X投影得到新的低維矩陣(非相關(guān)判別矢量UDV),從UDV投影圖可以直觀地進(jìn)行樣本類別的判斷.轉(zhuǎn)換矩陣G可以看做是變量的“負(fù)荷量”,它以初始變量組合為特征,其絕對值大小可以反映出對應(yīng)變量對于識別類別特征的重要性,據(jù)此本文進(jìn)行了特征波長(變量)篩選的研究與探討.
UDV=XG.
(4)
將正品油、摻偽油和炸貨油按照上述的實(shí)驗(yàn)方法進(jìn)行測定,隨機(jī)抽取樣本的原始中紅外光譜如圖1所示.由圖1可以看出,在3 010 cm-1附近呈現(xiàn)不飽和碳鏈的C—H伸縮振動峰,在2 926、2 856 cm-1附近出現(xiàn)飽和碳鏈C—H的伸縮振動峰,1 747 cm-1附近出現(xiàn)C=O的伸縮振動峰,1 465 cm-1附近有甲基的變形振動峰,1 164 cm-1附近出現(xiàn)甘油三酯C—O的伸縮振動峰,在725 cm-1附近出現(xiàn)順式烯烴彎曲振動峰,以上基團(tuán)特征峰位標(biāo)于圖1中.
經(jīng)比較,3類油樣的中紅外光譜透射圖輪廓近似,特征譜峰的峰形、峰位幾乎相同,而且透過率值也很相近.單憑觀察比對譜圖參數(shù)的差異,基本無法實(shí)現(xiàn)區(qū)分鑒別.因此,采取將二階導(dǎo)數(shù)處理后的光譜數(shù)據(jù)結(jié)合化學(xué)計(jì)量學(xué)模型進(jìn)行特征類別的提取與鑒別分析.
a.正品油;b.炸貨油;c.摻偽油圖1 原始中紅外光譜圖Fig.1 Example of raw mid-infrared spectra
首先,采用傳統(tǒng)的主成分分析方法對光譜數(shù)據(jù)進(jìn)行解析,經(jīng)計(jì)算前2個(gè)主成分PC1與PC2累計(jì)所占方差貢獻(xiàn)率為99.60%,因此提取樣本的第1和第2主成分進(jìn)行分析.如圖2所示,正品油、摻偽油和炸貨油在各自類內(nèi)有一定的聚集趨勢,但在類間分布上相互交叉重疊嚴(yán)重,無法實(shí)現(xiàn)區(qū)分.同樣采用非負(fù)矩陣分解法進(jìn)行解析,分類結(jié)果如圖3所示.3類樣本都不具有各自的聚集區(qū)域,分布雜亂.盡管許多模型學(xué)習(xí)過程中的降維任務(wù)由PCA完成,但當(dāng)數(shù)據(jù)變量間存在多重相關(guān)性時(shí),即使是簡單的線性組合,PCA對分類特征的解釋及提取能力變差[16],會影響樣本聚類結(jié)果的準(zhǔn)確性;而NMF雖實(shí)現(xiàn)了非線性的維數(shù)約減,但受其分解后產(chǎn)生分量的非負(fù)性要求約束,可能丟失原光譜的類特征信息,因而使樣本聚類變得困難.
圖2 主成分分析的分類結(jié)果Fig.2 Analysis results of PCA
圖3 非負(fù)矩陣分解的分類結(jié)果Fig.3 Analysis results of NMF
3.3.1 偏最小二乘判別分析(PLS-DA)
將正品油標(biāo)記為1類[1,0,0],摻偽油標(biāo)記為2類[0,1,0],炸貨油標(biāo)記為3類[0,0,1],與相對應(yīng)的訓(xùn)練集樣本光譜之間建立PLS-DA模型,然后對預(yù)測集樣本進(jìn)行分類,結(jié)果如圖4所示.結(jié)果表明:正品油中有1個(gè)樣本分類錯(cuò)誤,摻偽油中出現(xiàn)8個(gè)樣本分類錯(cuò)誤,炸貨油中有2個(gè)樣本分類錯(cuò)誤,判別靈敏度為80.39% (41/51),特異度為91.67%(11/12),準(zhǔn)確度為78.85%(41/52).相對于PCA,PLS-DA更關(guān)注相應(yīng)變量的特征,消除了不包含分類信息但卻具有強(qiáng)烈共線性的變量對數(shù)據(jù)分析的影響,使得偏最小二乘的特征變量吸取了更多的相應(yīng)變量的特征信息,從而得到更好的分類效果.然而,當(dāng)存在變量含有部分分類信息同時(shí)又有一定的共線性時(shí),PLS-DA可能會受這類變量的影響,做出不正確的判斷[15].
圖4 偏最小二乘判別分析分類結(jié)果Fig.4 Analysis results of PLS-DA
3.3.2 非相關(guān)線性判別分析(ULDA)
a.全部變量;b.500個(gè)變量圖5 非相關(guān)線性判別分析的分類結(jié)果Fig.5 Analysis results of ULDA
同時(shí),將訓(xùn)練集光譜與其摻偽比例之間采用偏最小二乘法建立定量關(guān)系模型,對預(yù)測集樣本的摻偽比例進(jìn)行預(yù)測,結(jié)果如圖6所示,預(yù)測結(jié)果和實(shí)際結(jié)果呈現(xiàn)出很好的線性關(guān)系.因此,可用于植物油摻偽比例的定量預(yù)測.
利用各種聚類和判別的模式識別方法、光譜預(yù)處理方法結(jié)合中紅外光譜對食用植物油摻偽進(jìn)行了較系統(tǒng)的研究.通過綜合解析,提出了高效、精確的判別食用油摻偽的SD-ULDA模型.基于此提出特征波長篩選策略,構(gòu)建了更加簡潔、高效的定性判別模型.同時(shí),對食用油摻偽比例也進(jìn)行了準(zhǔn)確地預(yù)測.研究成果對于油脂的品質(zhì)鑒定和質(zhì)量分析具有理論和應(yīng)用價(jià)值,為光譜特征波長的篩選提供新方法,可以有效提升模型的預(yù)測能力,有望拓展應(yīng)用到其他食品的真?zhèn)?、?yōu)劣的鑒別中.
圖6 PLS預(yù)測摻偽比例的結(jié)果Fig.6 Quantitative prediction results of PLS