王 歡,胡樂(lè)乾,尹春玲,宋 穎
(河南工業(yè)大學(xué) 化學(xué)化工學(xué)院,河南 鄭州 450001)
食品品質(zhì)的追溯是構(gòu)建食品品質(zhì)系統(tǒng)的首要方面.通過(guò)創(chuàng)建國(guó)內(nèi)食品品質(zhì)的可追溯制度,不但有利于避免食品質(zhì)量問(wèn)題的出現(xiàn),還可以實(shí)時(shí)妥善地解決食品質(zhì)量監(jiān)督和管理過(guò)程中出現(xiàn)的問(wèn)題,對(duì)追查原因、確定責(zé)任,完善食品安全制度有很大幫助.但是,可追溯制度的確立是以已經(jīng)創(chuàng)建好的一個(gè)覆蓋食品從半成品到最終商品各個(gè)階段資料的信息庫(kù)為基礎(chǔ),并且經(jīng)過(guò)全面的識(shí)別管制來(lái)實(shí)現(xiàn)的[1-2].而對(duì)于很多缺少標(biāo)記信息、沒(méi)有完成具體信息實(shí)名備案的食品,想達(dá)到商品原產(chǎn)地、種類(lèi)等一些相應(yīng)食品信息的溯源,就需要確立一套更為可靠和確切的分析分類(lèi)方案,以便在沒(méi)有完整商品信息的情況下完成商品的追溯調(diào)查.
食鹽是人類(lèi)生存生活過(guò)程中最常用也是最需要的物質(zhì),它已經(jīng)完全地融入了人類(lèi)生存生活的各個(gè)方面.目前,我國(guó)針對(duì)食鹽還沒(méi)有確立完善而有效的可追溯體系,正因如此,建立一種對(duì)于食鹽產(chǎn)地、原料品種等產(chǎn)品信息的識(shí)別分析技術(shù),對(duì)實(shí)現(xiàn)食鹽產(chǎn)地、品種溯源,加強(qiáng)地理標(biāo)識(shí)產(chǎn)品以及品種保護(hù),都具有非常重要的意義.就食鹽本身而言,產(chǎn)地是影響食鹽品質(zhì)的主要要素之一.不同地域生產(chǎn)出來(lái)的食鹽成品在質(zhì)量方面具有一定的區(qū)別,因此對(duì)食鹽的經(jīng)濟(jì)價(jià)值也會(huì)帶來(lái)一定程度的影響.由此,產(chǎn)品的產(chǎn)地和種類(lèi)溯源是食鹽可追溯體系中的重中之重[3].
近紅外光譜分析技術(shù)相對(duì)于與其他分析技術(shù),具有分析速度快,分析過(guò)程中不破壞樣本、不引入污染等優(yōu)點(diǎn),除此之外,還具有近紅外光譜數(shù)據(jù)量大、光譜特性穩(wěn)定、有良好的重復(fù)性等特點(diǎn)[4],在品種鑒別[5]、產(chǎn)地溯源[6]等諸多應(yīng)用領(lǐng)域前景廣闊.本研究以近紅外光譜技術(shù)為基礎(chǔ),結(jié)合不同的化學(xué)計(jì)量學(xué)分析方法如PLS、SVM[7-8]等,以市場(chǎng)上銷(xiāo)售的不同產(chǎn)地或不同原料品種的商品食鹽為研究對(duì)象,嘗試建立食鹽產(chǎn)品的品種分類(lèi)模型,并確立一種食鹽品種和產(chǎn)地溯源的新方法.
XDS Rapid Content Analyzer 型紅外光譜儀、配套樣品池:丹麥福斯(FOSS)公司;數(shù)據(jù)處理軟件MATLAB.
喜馬拉雅山脈克烏拉鹽礦的礦物鹽、巴基斯坦所產(chǎn)礦物鹽、天津漢沽鹽場(chǎng)精制鹽、哈密無(wú)碘天山湖鹽、澳洲海晶鹽5 種食鹽樣品:市售.
將不同產(chǎn)地的食鹽樣本適當(dāng)研磨,各稱(chēng)取2.0 g 用超純水完全溶解,并定容于50 mL 容量瓶中,配制成0.04 g/mL 的樣品溶液.然后完成近紅外光譜的采集,所采集光譜波長(zhǎng)確定在400~2 498 nm,間隔為2 nm,每種產(chǎn)地的食鹽樣本重復(fù)掃描50次.最后把所獲得的近紅外光譜數(shù)據(jù)進(jìn)行數(shù)據(jù)分析.
支持向量機(jī)(SVM)是由Cortes 和Vapnik 于1995 年提出的一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的學(xué)習(xí)算法.SVM 算法的高效性和良好的穩(wěn)健性已經(jīng)在分類(lèi)及回歸預(yù)測(cè)問(wèn)題中得到了廣泛的驗(yàn)證[9-10].
對(duì)于分類(lèi)問(wèn)題,SVM 的思路是:假如是一個(gè)兩種樣本的判別分類(lèi)問(wèn)題,可以找到一個(gè)或者一組分類(lèi)邊界把它們分開(kāi),在二維空間中該分類(lèi)邊界表現(xiàn)為一條線,在三維中表現(xiàn)為一個(gè)平面,一般計(jì)算過(guò)程是在高維(三維以上)空間中進(jìn)行,此時(shí)對(duì)應(yīng)的分類(lèi)邊界稱(chēng)為超平面,在眾多的超平面中,與分類(lèi)樣本間隔最大的超平面稱(chēng)作最優(yōu)超平面,SVM的本質(zhì)就是找到該最優(yōu)超平面.要找到最優(yōu)超平面就得使距離超平面最近的樣本點(diǎn)的間距最大,最終問(wèn)題可以轉(zhuǎn)化成二次規(guī)劃問(wèn)題求解.SVM 在解決非線性問(wèn)題時(shí)是將低維空間不能分開(kāi)的數(shù)據(jù)轉(zhuǎn)化到高維空間,然后在高維空間中用線性函數(shù)解決,引入核函數(shù)可以解決從低維向高維映射時(shí)可能出現(xiàn)的維數(shù)災(zāi)難問(wèn)題.由于不同核函數(shù)背后的映射方法不同,因此選擇核函數(shù)對(duì)于數(shù)據(jù)分類(lèi)的結(jié)果非常重要,由于徑向基函數(shù)具有較強(qiáng)的非線性逼近能力,同時(shí)線性函數(shù)在計(jì)算過(guò)程相對(duì)簡(jiǎn)單,所以作者擬用這兩種函數(shù)對(duì)5 種食鹽進(jìn)行鑒別:
(1)線性核函數(shù):k(u,v)u′v;
偏最小二乘(PLS-DA)是在響應(yīng)變量X 和目標(biāo)變量Y 之間基于隱變量建立起來(lái)的一種數(shù)學(xué)建模工具,最早由H.Wold 提出,其思想是利用降維技術(shù)對(duì)原始變量進(jìn)行降維,以剔除變量中冗余的信息.和主成分分析不同的是,PLS 同時(shí)對(duì)響應(yīng)變量X 和目標(biāo)變量Y 進(jìn)行主成分分析,因此較主成分分析可以更加充分地提高算法的分類(lèi)或者回歸能力.在PLS 中一般利用交互檢驗(yàn)確定隱變量數(shù),借助隱變量使變量中的主要信息與誤差分離.偏最小二乘算法可以用下面的式子簡(jiǎn)單描述:
式中:T、t 及P、p 為響應(yīng)變量的得分變量和載荷變量;U、u 及Q、q 為目標(biāo)變量的得分變量和載荷變量;E 和F 代表變量誤差.
經(jīng)過(guò)非線性迭代后給出回歸系數(shù)B,B=XTU(TTXXTU)-1TTY,由回歸系數(shù)可以對(duì)新的目標(biāo)變量進(jìn)行預(yù)測(cè):=XB.
偏最小二乘分類(lèi)分析方法已經(jīng)應(yīng)用于很多種食品品質(zhì)的分類(lèi)分析過(guò)程中,效果顯著,例如法國(guó)白蘭地[11]和洋蔥粉[12]等.
圖1 5 種食鹽的近紅外光譜圖Fig.1 Near infrared spectra of 5 kinds of the salt
在試驗(yàn)過(guò)程中所檢測(cè)的食鹽樣本中,超純水作為溶劑占比較大,溶解在其中的食鹽成分則相對(duì)偏少,因此食鹽樣本中的O—H 鍵居多,由此會(huì)帶來(lái)較為強(qiáng)烈的近紅外光譜,相比之下溶質(zhì)食鹽中所含物質(zhì)的紅外吸收則非常弱.從圖1 中可以看出,5 種食鹽樣本的近紅外光譜圖相互重疊嚴(yán)重,這說(shuō)明幾乎所有樣本的近紅外吸收均來(lái)自水以及晶體食鹽中的相似成分.同時(shí),不同產(chǎn)地的食鹽,經(jīng)過(guò)取材和加工處理后,都會(huì)保留下來(lái)一些礦物質(zhì)和其他鹽類(lèi)物質(zhì),如氯化鎂和碳酸鈣等.正是由于這些礦物質(zhì)和鹽類(lèi)物質(zhì)的存在,對(duì)不同產(chǎn)地的食鹽樣品的近紅外光譜產(chǎn)生影響,使其近紅外光譜出現(xiàn)差異,由此便可以利用近紅外光譜技術(shù)對(duì)食鹽進(jìn)行產(chǎn)地的溯源研究.
每種食鹽均隨機(jī)選擇34 個(gè)樣品作為校正集構(gòu)建模型,另外16 個(gè)作為測(cè)試集驗(yàn)證模型準(zhǔn)確度.依次把喜馬拉雅山脈克烏拉鹽礦的礦物鹽、巴基斯坦所產(chǎn)礦物鹽、天津漢沽鹽場(chǎng)精制鹽、哈密無(wú)碘天山湖鹽、澳洲海晶鹽標(biāo)記為1、2、3、4、5.
若使用所得近紅外光譜的全部信息來(lái)構(gòu)建分類(lèi)模型,其識(shí)別的準(zhǔn)確率不高,原因是溶劑本身對(duì)光譜影響比較大,弱化了不同食鹽之間的差別,這樣的模型并不能準(zhǔn)確地識(shí)別出5 種食鹽,考慮選擇干擾小且盡可能多的數(shù)據(jù),最終把波長(zhǎng)確定在400~1 198 nm 范圍內(nèi),間隔2 nm 掃描的400 個(gè)數(shù)據(jù)建立模型.
選擇分類(lèi)問(wèn)題中常用的C-SVC 模型和非線性映射徑向基(RBF)核函數(shù)構(gòu)建食鹽識(shí)別模型,懲罰參數(shù)c 和核函數(shù)參數(shù)g 用網(wǎng)格尋優(yōu)的方法尋找,尋優(yōu)后的等高線如圖2 所示,在c 值為256,g 值為84.448 5 時(shí),代入模型中進(jìn)行計(jì)算,獲得預(yù)測(cè)準(zhǔn)確率95.02%為最佳.
圖2 參數(shù)選擇的等高線Fig.2 The contour graph of the parameter selection
測(cè)試組中的5 種食鹽,每組均有16 組樣品,預(yù)測(cè)情況見(jiàn)表1,可以看出,只有喜馬拉雅山脈克烏拉鹽礦的礦物鹽和哈密天山無(wú)碘湖鹽識(shí)別準(zhǔn)確率為100%,能與其他3 種食鹽準(zhǔn)確分開(kāi).除此之外,巴基斯坦所產(chǎn)礦物鹽識(shí)別準(zhǔn)確率為93.8%,有一個(gè)誤判成了喜馬拉雅山脈克烏拉礦物鹽;澳洲海晶鹽識(shí)別準(zhǔn)確率為93.8%,有一個(gè)誤判成了天津漢沽鹽場(chǎng)精制鹽;天津漢沽鹽場(chǎng)精制鹽識(shí)別準(zhǔn)確率為87.5%,有兩個(gè)誤判,分別誤判成了哈密天山無(wú)碘湖鹽和澳洲海晶鹽.因此,這3 種食鹽沒(méi)有能夠準(zhǔn)確地分開(kāi).
表1 SVM對(duì)5種食鹽的預(yù)測(cè)情況Table 1 Prediction identification results of 5 kinds of salt by SVM
由此可見(jiàn),利用SVM 建立針對(duì)不同產(chǎn)地所生產(chǎn)的食鹽樣本的鑒別模型,識(shí)別效果一般,誤判出現(xiàn)較多.
為了進(jìn)一步優(yōu)化PLS-DA 對(duì)食鹽樣品的預(yù)測(cè)效果,在開(kāi)始建立模型前,需要對(duì)所得到的近紅外光譜數(shù)據(jù)進(jìn)行處理,所用到的前處理方法有標(biāo)準(zhǔn)正態(tài)變量校正法(SNV)、多元散射校正法(MSC)、一階求導(dǎo)、二階求導(dǎo),通過(guò)這4 種前處理方法分別對(duì)近紅外光譜數(shù)據(jù)進(jìn)行了預(yù)處理.結(jié)果顯示,采用二階求導(dǎo)后的近紅外光譜數(shù)據(jù)來(lái)進(jìn)行PLS-DA 法分類(lèi)效果最好.另一方面,PLS-DA 中隱變量數(shù)的選擇非常重要,文中采用留一法交互檢驗(yàn)確定PLS算法的隱變量數(shù),通過(guò)隱變量及對(duì)應(yīng)的交互檢驗(yàn)誤差選擇隱變量數(shù)以確定最佳的預(yù)測(cè)模型,結(jié)果顯示當(dāng)隱變量是7 時(shí)預(yù)測(cè)結(jié)果最好,因此本研究中PLS-DA 采用的隱變量數(shù)是7.經(jīng)過(guò)二階求導(dǎo)處理后的近紅外光譜如圖3 所示.最終選擇采用二階求導(dǎo)對(duì)近紅外光譜進(jìn)行預(yù)處理.結(jié)合二階求導(dǎo)處理后的5 種食鹽的PLS 分類(lèi)結(jié)果如圖4 所示.
圖3 5 種食鹽的近紅外光譜二階求導(dǎo)結(jié)果Fig.3 Second derivative results of the near infrared spectra of 5 kinds of salt
圖4 PLS-DA 對(duì)5 種食鹽的分析結(jié)果Fig.4 The analysis results of 5 kinds of salt by PLSDA
PLS 分類(lèi)的結(jié)果顯示,1-16 號(hào)樣品為喜馬拉雅山脈克烏拉鹽礦所產(chǎn)的礦物鹽,預(yù)測(cè)只有一個(gè)預(yù)測(cè)錯(cuò)誤,該樣品被誤判為天津漢沽鹽場(chǎng)精制鹽;17-32 號(hào)樣品為巴基斯坦所產(chǎn)礦物鹽,16 個(gè)預(yù)測(cè)樣品完全預(yù)測(cè)準(zhǔn)確;33-48 號(hào)樣品為天津漢沽鹽場(chǎng)精制鹽,預(yù)測(cè)結(jié)果完全正確;49-64 號(hào)樣品為哈密天山無(wú)碘湖鹽,預(yù)測(cè)結(jié)果完全準(zhǔn)確;65-80 號(hào)為澳洲海晶鹽,同樣預(yù)測(cè)完全正確.通過(guò)建立模型對(duì)這5 種不同產(chǎn)地的食鹽樣品進(jìn)行預(yù)測(cè),各產(chǎn)地食鹽的預(yù)測(cè)準(zhǔn)確率如表2 所示.
表2 PLS-DA 對(duì)5 種食鹽預(yù)測(cè)識(shí)別結(jié)果Table 2 Prediction identification results of 5 kinds of salt by PLS-DA
由表2 可知,利用PLS-DA 法對(duì)5 種不同產(chǎn)地的食鹽樣品分別構(gòu)建分類(lèi)模型,其識(shí)別的準(zhǔn)確率可依次達(dá)到93.75%、100%、100%、100%、100%.結(jié)果顯示,利用PLS-DA 法可建立針對(duì)不同產(chǎn)地所生產(chǎn)的食鹽樣本的鑒別模型,且該模型具有良好的識(shí)別效果,可以用于更多不同產(chǎn)地制成的食鹽成品的鑒別.
本試驗(yàn)分別采用SVM 和PLS 結(jié)合近紅外光譜對(duì)5 種食鹽進(jìn)行識(shí)別,并且將這兩種方法所得結(jié)果作了對(duì)比.從兩種方法的結(jié)果可以看出,雖然通過(guò)SVM 的方法來(lái)建立模型,其模型結(jié)構(gòu)簡(jiǎn)單、運(yùn)算過(guò)程速度快、泛化能力強(qiáng)等特點(diǎn),但是其在解決多分類(lèi)問(wèn)題中仍然存在局限性,在處理本試驗(yàn)的分類(lèi)過(guò)程中,PLS-DA 取得了分類(lèi)準(zhǔn)確率98.75%,相比支持向量機(jī)的處理方法分類(lèi)準(zhǔn)確率95.02%要好,由此可見(jiàn),針對(duì)食用鹽種類(lèi)識(shí)別的方法,利用近紅外光譜結(jié)合偏最小二乘是一種可行的分析分類(lèi)方法.這種分析分類(lèi)方法不應(yīng)僅局限于這5 種食鹽,同樣可以推廣到其他不同產(chǎn)地的食鹽乃至更多種類(lèi)的食品.
[1]杜國(guó)明.農(nóng)產(chǎn)品責(zé)任與可追溯制度[J].廣東農(nóng)業(yè)科學(xué),2008(2):101-103.
[2]李廣領(lǐng),張利麗,吳艷兵,等.中國(guó)農(nóng)產(chǎn)品質(zhì)量安全可追溯體系建設(shè)[J].湖南農(nóng)業(yè)科學(xué),2009(2):120-123.
[3]成浩,王麗鴛,周建,等.基于化學(xué)指紋圖譜的綠茶原料品種判別分析[J].中國(guó)農(nóng)業(yè)科學(xué),2008,41(8):2413-2418.
[4]Williams P,Norris K.Near-infrared technology in the agricultural and food industries(second edition)[M].Minnesota:The American of Cereal Chemists,Inc St Paul,2001:99-102.
[5]陳全勝,趙杰文,張海東,等.SIMCA 模式識(shí)別方法在近紅外光譜識(shí)別茶葉中的應(yīng)用[J].食品科學(xué),2006,27(4):186-189.
[6]張曉慧,劉建學(xué).近紅外光譜技術(shù)鑒別連翹產(chǎn)地[J].激光與紅外,2008,38(4):342-344.
[7]Ortiz C,Zhang D,Xie Y,et al.Identification of insulin variants using raman spectroscopy[J].Anal Biochem,2004,332(2):245-252.
[8]Lutz U,Lutz R W,Lutz W K.Metabolic profiling of glucuronides in human urine by LC-MS/MS and partial least-squares discriminant analysis for classification and prediction of gender[J].Analytical Chemistry,2006,78(13):4564-4571.
[9]Chauchard F,Cogdill R,Roussel S,et al.Application of LS-SVM to non-linear phenomena in NIR spectroscopy:development of a robust and portable sensor for acidity prediction in grapes[J].Chemometrics and Intelligent Laboratory Systems,2004,71:141-150.
[10]Zhao Jiewen,Chen Quansheng,Huang Xingyi,et al.Qualitative identification of tea categories by near infrared spectroscopy and support vector machine[J].Journal of Pharmaceutical and Biomedical Analysis,2006,41:1198-1204.
[11]Jerome Ledauphin,Claude Le Milbeau,Daniel Barillier,et al.Differences in the volatile compositions of french labeled brandies(Armagnac,Calvados,Cognac,and Mirabelle)using GC -MS and PLS -DA[J].Agric Food Chem,2010,58:7782-7793.
[12]Santosh Lohumi,Sangdae Lee,Wang-Hee Lee,et al.Detection of starch adulteration in onion powder by FT-NIR and FT-IR spectroscopy[J].Agric Food Chem,2014,62:9246-9251.