趙政杰 趙原爽
摘 要:研究發(fā)現(xiàn)葡萄酒中礦物質(zhì)元素含量與產(chǎn)地土壤中礦物質(zhì)組成有一定的關(guān)聯(lián)性,通過(guò)檢測(cè)葡萄酒中礦物質(zhì)含量,以及相互比例,建立數(shù)學(xué)模型,可以實(shí)現(xiàn)葡萄酒的產(chǎn)地溯源。本文運(yùn)用單因素方差分析、獨(dú)立t檢驗(yàn)、Duncan多重比較、主成分分析(PCA)、逐步距離判別分析、聚類(lèi)分析等統(tǒng)計(jì)學(xué)方法成功實(shí)現(xiàn)了對(duì)兩個(gè)葡萄酒樣品的產(chǎn)地溯源。
關(guān)鍵詞:大數(shù)據(jù) 葡萄酒 產(chǎn)地溯源
中圖分類(lèi)號(hào):TS261 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2018)01(a)-0077-02
葡萄酒中礦物質(zhì)元素含量與產(chǎn)地土壤中礦物質(zhì)組成有一定的關(guān)聯(lián)性[1],通過(guò)檢測(cè)葡萄酒中礦物質(zhì)含量,以及相互比例,建立數(shù)學(xué)模型,可以實(shí)現(xiàn)葡萄酒的產(chǎn)地溯源。
以Slavonia地區(qū)中16個(gè)葡萄酒2號(hào)待測(cè)樣品4種礦物質(zhì)的檢測(cè)結(jié)果為例。
根據(jù)每組樣品所含的m種礦物質(zhì)含量數(shù)據(jù),建立礦物質(zhì)含量及組成比例與產(chǎn)地相關(guān)聯(lián)的數(shù)學(xué)模型,由于需要分析產(chǎn)地類(lèi)型,而數(shù)據(jù)所給礦物質(zhì)含量較多,不能直接判斷所給元素是否都能夠來(lái)代表地區(qū)特征,我們通過(guò)對(duì)礦物質(zhì)含量及組成比例進(jìn)行Duncan多重比較、主成分分析(PCA)等統(tǒng)計(jì)方法[2]篩選出部分元素作為三個(gè)產(chǎn)地特征元素,然后在已知總體類(lèi)別的基礎(chǔ)上,由大量各類(lèi)樣品的觀(guān)測(cè)值建立判別模型。
在已知1號(hào)待測(cè)樣品來(lái)自Slavonia地區(qū),2號(hào)待測(cè)樣品來(lái)自Vojvodina地區(qū)的情況下,由于Slavonia地區(qū)要對(duì)葡萄酒產(chǎn)地進(jìn)行進(jìn)一步劃分,我們先建立聚類(lèi)分析模型將該產(chǎn)地進(jìn)行進(jìn)一步劃分,再用模型二中的判別分析法模型判斷1號(hào)待測(cè)樣品來(lái)自哪個(gè)具體類(lèi)別。
運(yùn)用t檢驗(yàn)來(lái)判斷兩個(gè)樣品的歸屬產(chǎn)地。
按照下面的公式計(jì)算t統(tǒng)計(jì)量:
將置信區(qū)間設(shè)置為95%,P<0.05,數(shù)據(jù)具有統(tǒng)計(jì)意義,說(shuō)明該元素在該地區(qū)內(nèi)差異比較小,并且含量數(shù)值波動(dòng)不大[1],所以可以用該元素作為該地區(qū)的特征元素,由此得出Fe、Li、Al、Be、Bi、Cr、Se、Sr、Ti、As元素符合上述條件。
該方法是考慮葡萄酒多個(gè)變量之間的相關(guān)性的一種多元統(tǒng)計(jì)方法,研究如何通過(guò)原始變量的幾個(gè)主要成分,即特征元素,使它們盡可能保留原始變量信息,實(shí)現(xiàn)降維目的。
假設(shè)有n個(gè)樣本,每個(gè)樣本共有p個(gè)變量,構(gòu)成一個(gè)n×p階的數(shù)據(jù)矩陣:
當(dāng)p較大時(shí),在p維空間中考察問(wèn)題比較麻煩。為了克服這一困難,就需要進(jìn)行降維處理,即用較少的綜合指標(biāo)代替原來(lái)較多的變量指標(biāo),而且使這些綜合指標(biāo)既能盡可能地反映原來(lái)指標(biāo)反映的信息,同時(shí)它們之間又是彼此獨(dú)立的。
(1)利用下式將原始數(shù)據(jù)標(biāo)準(zhǔn)化:
(2)設(shè)X已標(biāo)準(zhǔn)化,計(jì)算變量Xi*的相關(guān)系數(shù)陣式中rij為原變量的Xi與Xj之間的相關(guān)系數(shù):
(3)計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率。主成分的貢獻(xiàn)和率累計(jì)貢獻(xiàn)率分別為:
一般取累計(jì)貢獻(xiàn)率達(dá)85%~95%的特征值λ1,λ2,…,λm所對(duì)應(yīng)的第1,2,…,m(m≤p)個(gè)主成分。
當(dāng)選取Cu、Fe、Li等前16種礦物質(zhì)元素時(shí),累計(jì)貢獻(xiàn)率達(dá)到了99.987%,可以作為辨別產(chǎn)地的指標(biāo)。
經(jīng)過(guò)對(duì)數(shù)據(jù)的Duncan多重比較以及主成分分析,篩選出的5種特征元素分別是Fe、Li、Al、Cr、Ti,使用這5種元素的含量及其比例建立與產(chǎn)地關(guān)聯(lián)的模型。進(jìn)一步對(duì)這些特征元素進(jìn)行判別分析,從而分類(lèi)待測(cè)樣品。
所得數(shù)據(jù)見(jiàn)圖1和圖2。
經(jīng)分析,1號(hào)待測(cè)樣品和Slavonia地區(qū)Mahalanobis距離最近,即1號(hào)待測(cè)樣品的數(shù)據(jù)與Slavonia地區(qū)的數(shù)據(jù)具有高度相似性,所以我們可認(rèn)為1號(hào)待測(cè)樣品屬于Slavonia地區(qū),同理我們可認(rèn)為2號(hào)待測(cè)樣品屬于Vojvodina地區(qū)。
運(yùn)用聚類(lèi)分析(Cluster analysis)[3],該方法在Slavonia地區(qū)葡萄酒元素含量相似的基礎(chǔ)上收集數(shù)據(jù)進(jìn)行分類(lèi)、衡量不同數(shù)據(jù)源間的相似性,將Slavonia地區(qū)進(jìn)行進(jìn)一步分類(lèi),分到不同的簇中。
設(shè)數(shù)據(jù)矩陣A=(xij)nxm,衡量被分類(lèi)對(duì)象間的相似程度用rij=(ei,ej)表示xi,xj的相似程度,則稱(chēng)之為相似系數(shù)。由此得到模糊相似矩陣R=(rij)nxm,運(yùn)用計(jì)算rij的歐氏距離法:
(1)取λ1=1最大值,對(duì)于每個(gè)xi作相似類(lèi):[xj]R={xj|rij=1},即使?jié)M足rij=1的xi和xj視為一類(lèi),構(gòu)成相似類(lèi)。
(2)取λ2(λ1<λ2)為次大值,從R中直接找出相似程度的元素(xi,xj)即rij≥λ2,并相應(yīng)地將對(duì)應(yīng)于λ1=1的等價(jià)分類(lèi)中xi與xj所在的類(lèi)合并為一類(lèi),即可得到λ2水平上的等價(jià)分類(lèi)。
(3)依次取λ1>λ2>λ3…,按步驟(2)的方法依次類(lèi)推,直到合并到X成為一類(lèi)為止,最后可以動(dòng)態(tài)聚類(lèi)。
利用特征元素,對(duì)Slavonia地區(qū)的16個(gè)品牌建立聚類(lèi)分析模型并通過(guò)SPSS計(jì)算。第2、7組Mahalanobis距離最近,即第2、7組數(shù)據(jù)具有高度相似性,因此我們可認(rèn)為1號(hào)待測(cè)樣品屬于組別2,即Traminac。
參考文獻(xiàn)
[1] 王丙濤,陳波,涂小珂,等.葡萄酒中元素分布與其原產(chǎn)地關(guān)系的分類(lèi)模型[J].食品科學(xué),2014,35(2):213-216.
[2] 孫淑敏,郭波莉,魏益民,等.多礦物元素分析在羊肉產(chǎn)地溯源中的應(yīng)用[A].中國(guó)農(nóng)業(yè)工程學(xué)會(huì)[C].2009.
[3] SPITZKE M E,F(xiàn)AUHL-HASSEK C. Determination of the 13C/12C ratios of ethanol and higher alcohols in wine by GC-C-IRMS analysis[J].Uropean Food Research and Technology,2010,231(2):247-257.