趙建國,何嘉玉,李怡婷,祝利杰
(河南師范大學(xué),河南 新鄉(xiāng) 453000)
確定葡萄酒的質(zhì)量好壞需要有資質(zhì)的評酒員對其進(jìn)行分類指標(biāo)打分,最后綜合確定葡萄酒的質(zhì)量。釀酒葡萄的質(zhì)量直接決定了所釀葡萄酒的質(zhì)量,葡萄酒和釀酒葡萄中所檢測出的理化指標(biāo)也在一定程度上反映了葡萄酒和葡萄的質(zhì)量。
1.1.1 正態(tài)分布檢驗(yàn)
分析品酒員評分的平均值是否符合正態(tài)分布,需要繪制相應(yīng)的圖表。如果正態(tài)概率圖中期望累計(jì)概率和觀測累計(jì)概率分布近似分布在斜率為1的直線上,則該數(shù)據(jù)近似或服從正態(tài)分布[1]。經(jīng)過對圖表的分析可知,兩組數(shù)據(jù)均可看作近似正態(tài)分布。
1.1.2 參數(shù)的顯著性差異
運(yùn)用單因素方差分析法[2],因各組數(shù)據(jù)個數(shù)相等,稱為均衡數(shù)據(jù),所以采用處理均衡數(shù)據(jù)的用法為:p=anoval(x)進(jìn)行處理。第一組與第二組紅葡萄酒p=0.117 5>α=0.05,即第一組,第二組紅葡萄酒的品嘗評分無顯著差異;白葡萄酒與此類似,得出第一組與第二組白葡萄酒p=0.022 6<α=0.05,即第一組,第二組白葡萄酒的品嘗評分有明顯差異。
1.2.1 多元線性回歸方程的建立
由主成分分析模型我們得出了5個主成分,為了利用這5個主成分建立聚類分析模型,先根據(jù)這5個理化指標(biāo)建立葡萄對葡萄酒質(zhì)量的多元線性回歸模型。利用附錄程序三可以得出與F對應(yīng)的概率P=0.042 5<0.05,回歸模型:
(y:葡萄酒質(zhì)量;x1:氨基酸;x2:蛋白質(zhì);x3:花色苷;x4:有機(jī)酸;x5:酚類)成立。
1.2.2 聚類分析模型的建立
我們把5個主成分經(jīng)過線性回歸可以得到一個較好的回歸模型,所以用這5個主成分的數(shù)據(jù)進(jìn)行聚類,聚類得到樹型圖,橫軸為紅葡萄的樣品名,縱軸代表類間的最長距離。我們可以根據(jù)主觀判斷在中間添加一條橫線,將紅葡萄聚類成4類[3](數(shù)字代表樣品號)。
第一類:3,6,4,10,25,20,19,23
第二類:2,9,14,5,13,26
第三類:1,8,24
第四類:7,22,12,15,18,21,11,16,17,27
對每一類分別計(jì)算平均得分,結(jié)果如下:
紅葡萄第一類:71.825 等級(二);第二類:72.950等級(一):第三類:68.533 等級(四);第四類:68.600等級(三)。
計(jì)算每個等級紅葡萄各理化指標(biāo)均值,結(jié)果如表1所示。
表1 每個等級紅葡萄各理化指標(biāo)均值
等級一優(yōu)于其他等級的主要原因很可能是因?yàn)槠咸训牡鞍踪|(zhì)的含量遠(yuǎn)大于其他組。同理,之后進(jìn)行線性回歸,可以得出與F對應(yīng)的概率P=0.034 11<0.05,回歸結(jié)果為:
(y:白葡萄酒質(zhì)量;x1:氨基酸;x2:蛋白質(zhì);x3:花色苷;x4:有機(jī)酸;x5:酚類;x6:醇類;x7:還原糖)成立。所以,我們可以利用這7個主成分建立聚類模型,將白葡萄聚類成4類。
第一類:6,27,13,17
第二類:4,8,16,9,19,7
第三類:1,11,15,18,24,2,21
第四類:3,28,5,20,22,10,14,25,12,23,26
對每一類分別計(jì)算平均得分,結(jié)果如下:
白葡萄第一類(76.675),第二類(74.583),第三類(76.500),第四類(77.564)。
計(jì)算每個等級紅葡萄各理化指標(biāo)均值,等級一優(yōu)于其他等級的主要原因很可能是因?yàn)槠咸训陌被岷瓦€原糖的含量遠(yuǎn)大于其他組[4]。
1.2.3 求解結(jié)果
通過最后的數(shù)據(jù)分析,假設(shè)上述聚類分析是合理的,可以看出,品質(zhì)差的葡萄不能釀出好的葡萄酒,品質(zhì)好的葡萄并不一定能釀出質(zhì)量高的葡萄酒,可能會涉及許多其他的因素,如釀造的過程,工藝水平還有葡萄酒本身的理化指標(biāo);可以得出與題設(shè)一樣的結(jié)論,釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系。
1.3.1 相關(guān)系數(shù)模型
相關(guān)系數(shù)模型中的相關(guān)系數(shù)是判斷相關(guān)程度的指標(biāo),相關(guān)系數(shù)用r表示,|r|越大,相關(guān)程度越大。相關(guān)系數(shù)的計(jì)算方法如下:
相關(guān)系數(shù)模型針對葡萄和葡萄酒相同的理化指標(biāo)進(jìn)行分析,經(jīng)匯總發(fā)現(xiàn)紅葡萄與紅葡萄酒有9個相同的理化指標(biāo),白葡萄與白葡萄酒有8個相同的理化指標(biāo),由于每個指標(biāo)都有不同的權(quán)重和性質(zhì),所以首先對各個原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。相關(guān)系數(shù)如表2所示。
由表2可知,紅葡萄酒中,花色苷、單寧、總酚、酒總黃酮、1,1-二苯基-2-三硝基苯肼(1,1-diphenyl-2-picrylhydrazyl,DPPH)相關(guān)性比較強(qiáng)。同理,可得到白葡萄酒中,單寧、總酚、酒總黃酮的相關(guān)性比較強(qiáng)。
表2 紅葡萄酒各指標(biāo)相關(guān)系數(shù)
1.3.2 逐步回歸模型
逐步回歸過程使用sterwise函數(shù)[5]分別對紅葡萄酒和白葡萄酒中每一個理化指標(biāo)與紅葡萄和白葡萄的每一個理化指標(biāo)的相關(guān)性進(jìn)行分析 ,根據(jù)分析結(jié)果,只有x4,x6是方程中的變量,其他的都從模型中移去,所以表達(dá)式為:
1.4.1 釀酒葡萄和葡萄酒的理化指標(biāo)對葡萄酒質(zhì)量的影響
葡萄酒的每個指標(biāo)都受釀酒葡萄中某些理化指標(biāo)的影響[6],例如對于紅葡萄酒的花色苷指標(biāo)受紅葡萄的花色苷和出汁率兩個指標(biāo)的綜合影響,函數(shù)為:
1.4.2 釀酒葡萄和葡萄酒的理化指標(biāo)對葡萄酒質(zhì)量的影響
篩選出來的理化指標(biāo)應(yīng)該與相應(yīng)的葡萄酒質(zhì)量存在較大的關(guān)聯(lián)度,由問題三的解答中可以知道紅葡萄酒與花色苷、單寧、總酚、酒總黃酮、DPPH相關(guān)性等理化指標(biāo)相關(guān)性較強(qiáng),白葡萄酒與單寧、總酚、酒總黃酮的理化指標(biāo)相關(guān)性比較強(qiáng)。
(1)對于問題一建立的模型不僅適合于解決評分的差異性顯著判斷,還可以用于社會科學(xué)、行為科學(xué)、生物科學(xué)和數(shù)理科學(xué)等領(lǐng)域。
(2)主成分分析模型中的降維技術(shù)也可用到多種多影響成分的分析中去,另外,聚類模型也可以用于生活中大部分的分級問題。
(3)對于問題三建立的相關(guān)系數(shù)模型和逐步回歸模型,可以推廣到其他領(lǐng)域,如生物科學(xué)、數(shù)理科學(xué)等,分析兩個變量之間的關(guān)系。
[參考文獻(xiàn)]
[1]楊希冬.實(shí)驗(yàn)數(shù)據(jù)異常值的剔除方法[J].唐山師范學(xué)院學(xué)報,1998(5):56-57.
[2]劉榮,馮國生,丁維岱.SAS統(tǒng)計(jì)分析與應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2011.
[3]聶繼云,李明強(qiáng),張桂芳,等.白梨品質(zhì)評價指標(biāo)的聚類分析[J].中國果樹,2000(2):16-17.
[4]百度百科.葡萄酒[EB/OL].(2010-09-09)[2018-04-08].http://baike.baidu.com/view/23275.htm.
[5]謝中華.MATLAB統(tǒng)計(jì)分析與應(yīng)用:40個案例分析[M].北京:北京航空航天大學(xué)出版社,2010.
[6]韓中庚.數(shù)學(xué)建模方法及其應(yīng)用[M].北京:高等教育出版社,2009.