朱立云 劉媛華
摘 要:葡萄酒的化學(xué)成分是辨別葡萄酒品種的主要依據(jù)。考慮到常規(guī)檢測(cè)方法復(fù)雜、繁瑣,準(zhǔn)確率低,選擇機(jī)器學(xué)習(xí)方法識(shí)別葡萄酒種類。針對(duì)目前常用的K均值算法在葡萄酒識(shí)別中存在的問(wèn)題,嘗試使用支持向量機(jī)進(jìn)行分類,并與K均值算法進(jìn)行對(duì)比分析。結(jié)果表明,基于支持向量機(jī)的模型分類性能更好,準(zhǔn)確率達(dá)到98.15%。
關(guān)鍵詞:葡萄酒識(shí)別;機(jī)器學(xué)習(xí);支持向量機(jī);K均值
DOI:10. 11907/rjdk. 201277
中圖分類號(hào):TP301 ??? 文獻(xiàn)標(biāo)識(shí)碼:A?????? 文章編號(hào):1672-7800(2020)011-0029-04
Application of Support Vector Machines in the Type Identification of Italian Wine
ZHU Li-yun,LIU Yuan-hua
(Management College,University of Shanghai for Science and Technology, Shanghai 200093, China)
Abstract:The chemical composition of wine is the main basis for distinguishing wine varieties. Considering that the conventional detection methods are complicated and cumbersome, and the accuracy is low, we employ the machine learning method to identify the type of wine. Aiming at the problems existing in the commonly used K-means algorithm in wine recognition, we use support vector machine to classify and compare with K-means. The results show that the classification performance based on support vector machine is better, and the accuracy rate reaches 98.15%.
Key Words:wine recognition; machine learning; support vector machines; K-means
0 引言
葡萄酒的化學(xué)成分復(fù)雜,因此是區(qū)分不同葡萄酒的重要依據(jù)。在進(jìn)行葡萄酒識(shí)別時(shí),目前國(guó)內(nèi)外常用的檢測(cè)方法是化學(xué)成分分析法和感官評(píng)價(jià)法?;瘜W(xué)成分分析法[1]是指采用近紅外光譜[2]和三維熒光光譜等技術(shù)檢測(cè)葡萄酒化學(xué)成分,從而區(qū)分不同葡萄酒。采用該技術(shù)需要專業(yè)的化學(xué)知識(shí),步驟繁瑣、成本高,而且無(wú)法檢測(cè)葡萄酒所有化學(xué)成分。感官評(píng)價(jià)法是指根據(jù)品酒師個(gè)人經(jīng)驗(yàn),憑借感官鑒別葡萄酒種類。該方法雖然成本較低,但是主觀性很強(qiáng),分類準(zhǔn)確率很容易受到品酒師個(gè)人經(jīng)驗(yàn)的影響。因此,本文使用機(jī)器學(xué)習(xí)方法識(shí)別葡萄酒種類。
目前機(jī)器學(xué)習(xí)領(lǐng)域常用的幾種分類器為:邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)和支持向量機(jī)。邏輯回歸[3-4]操作簡(jiǎn)單、容易解釋,支持?jǐn)?shù)值變量和分類變量,是學(xué)者們最常使用的分類器,但其更適用于二分類問(wèn)題,即只有兩個(gè)類別,而本文葡萄酒類別有3個(gè),出于準(zhǔn)確率的考慮,本文舍棄該方法;在樣本量充足的情況下,人工神經(jīng)網(wǎng)絡(luò)[5-7]分類準(zhǔn)確率較高,但本文樣本只有178個(gè),不滿足神經(jīng)網(wǎng)絡(luò)對(duì)樣本量的要求;決策樹(shù)[8-9]簡(jiǎn)單、直觀,但在實(shí)際使用時(shí)經(jīng)常會(huì)出現(xiàn)過(guò)擬合的情況,即訓(xùn)練集準(zhǔn)確率很高,而測(cè)試集準(zhǔn)確率很低;支持向量機(jī)在解決小樣本識(shí)別問(wèn)題中體現(xiàn)出其它分類器所不具備的優(yōu)勢(shì),并且通過(guò)定義恰當(dāng)?shù)暮撕瘮?shù)可解決神經(jīng)網(wǎng)絡(luò)局部最優(yōu)問(wèn)題。鑒于上述分析,本文選擇支持向量機(jī)進(jìn)行葡萄酒種類識(shí)別。
1 數(shù)據(jù)來(lái)源與可視化
1.1 數(shù)據(jù)來(lái)源
本文葡萄酒數(shù)據(jù)來(lái)自于UCI數(shù)據(jù)庫(kù)的wine數(shù)據(jù)集,記錄了意大利同一地區(qū)3種不同品種葡萄酒的13種化學(xué)成分。本次擬分類樣本共有178個(gè),每個(gè)樣本有13個(gè)屬性。葡萄酒共分為3種類別,其中類別1包含59個(gè)樣本,類別2包含71個(gè)樣本,類別3包含48個(gè)樣本。
1.2 字段解釋
數(shù)據(jù)集共包括以下13個(gè)字段,都為葡萄酒化學(xué)成分,屬性含義如表1所示。
1.3 數(shù)據(jù)可視化
通過(guò)畫(huà)出屬性的二維散點(diǎn)圖,以直觀分析數(shù)據(jù)分布情況。樣本散點(diǎn)圖如圖1所示。
由于從圖1中很難區(qū)分出每種葡萄酒屬于哪個(gè)類別,因此接下來(lái)構(gòu)建支持向量機(jī)模型對(duì)葡萄酒進(jìn)行分類。
2 基于支持向量機(jī)的模型構(gòu)建
2.1 理論介紹
支持向量機(jī)[10-12]簡(jiǎn)稱SVM,是一種非常常見(jiàn)的廣義線性分類器,主要用于小樣本數(shù)據(jù)的分類與回歸問(wèn)題,其最終目標(biāo)是找到一個(gè)最優(yōu)超平面對(duì)樣本進(jìn)行分割。支持向量機(jī)可分為3種類別:完全線性可分支持向量機(jī)、部分線性可分支持向量機(jī)與線性不可分支持向量機(jī)。
完全線性可分支持向量機(jī)原理如圖2所示。圖中,實(shí)心點(diǎn)和空心點(diǎn)代表兩類不同樣本,[H]為分類超平面,[H1、H2]為經(jīng)過(guò)兩類樣本的所有平面中,離分類超平面最近,且平行于分類超平面的平面,[H1]與[H2]之間距離稱為分類間隔。所謂最優(yōu)分類面就是在正確區(qū)分兩類樣本的同時(shí),使分類間隔達(dá)到最大的分類面。