陳婉嬌 龍衛(wèi)江
摘要:在當(dāng)今的大數(shù)據(jù)時代,機器學(xué)習(xí)越來越廣泛地應(yīng)用于生活中,為人們解決實際生活生產(chǎn)的需要。其中,支持向量機算法是機器學(xué)習(xí)中重要的算法之一,應(yīng)用廣泛且有效。文章主要介紹了支持向量機的原理和模型,還介紹了核函數(shù)在支持向量機中的應(yīng)用和交叉驗證法的理論。在實驗部分,文章將支持向量機應(yīng)用于葡萄酒數(shù)據(jù)集上,通過分析對比,得到了以下的結(jié)論:對于葡萄酒數(shù)據(jù)集,采用R語言對多種支持向量機模型進(jìn)行比較,當(dāng)支持向量機的類型為nu-classification,核函數(shù)為線性核函數(shù)時,識別的正確率最高,達(dá)到了98.86%,并且應(yīng)用交叉驗證法進(jìn)行驗證,降低了識別誤差。
關(guān)鍵詞:機器學(xué)習(xí);支持向量機;核函數(shù);葡萄酒數(shù)據(jù)集;交叉驗證法
中圖分類號:O242.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2019)04-0154-03
Abstract: Today is the era of big data and machine learning is widely used in life to solve the needs of real life production. Among them, the support vector machine (SVM) algorithm is one of the important algorithms in machine learning, and it is widely used and effective. The article mainly introduces the principle and model of support vector machine, and also introduces the application of kernel function in SVM. In addition, the principle of cross-validation is introduced. In the experiments, the paper applies the SVM to the wine dataset. Through analysis and comparison, the following conclusions are obtained: For the wine dataset, a variety of support vector machine models are used for comparison. When the type of SVM is nu-classification, and the kernel function is the linear kernel, the recognition rate is the highest, which is 98.86%. In addition, the cross-validation method is applied in this paper, which reduces the recognition error.
Key words: machine learning; support vector machine(SVM); kernel function; wine data set; cross-validation method
1 引言
在當(dāng)今大數(shù)據(jù)時代,人工智能廣泛應(yīng)用于生活中的各個領(lǐng)域,機器學(xué)習(xí)在科學(xué)研究中占據(jù)著越來越重要的地位,科學(xué)工作者致力于研究機器學(xué)習(xí)算法,機器學(xué)習(xí)算法通過已有數(shù)據(jù)進(jìn)行學(xué)習(xí),獲得學(xué)習(xí)規(guī)律,用于預(yù)測判別等等[1]。機器學(xué)習(xí)算法可分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí),其中支持向量機是一種監(jiān)督學(xué)習(xí)算法。
支持向量機也是機器學(xué)習(xí)中的一個重要的統(tǒng)計學(xué)習(xí)方法,應(yīng)用廣泛且有效,在模式識別、函數(shù)逼近、函數(shù)擬合、回歸估計等均有很好的應(yīng)用[2]。
本文主要研究支持向量機的算法,并將支持向量機應(yīng)用于葡萄酒數(shù)據(jù)集上,選擇合適的核函數(shù),采用交叉驗證法,探究支持向量機算法在該數(shù)據(jù)集上的判別效果。
2 基礎(chǔ)知識
2.1支持向量機模型
機器學(xué)習(xí)中的分類模型有很多,支持向量機就是其中的一種,它原始的模型主要是在特征空間中將樣本盡可能地分開,使得樣本間間隔最大化,但是并非所有的樣本都是完全線性可分的,于是有了軟間隔的解決方法,但是對于一些樣本是線性不可分的,就引出了核函數(shù),將樣本映射到高維空間中,使得樣本在高維特征空間中可分,解決了樣本非線性問題。因此對于支持向量機可以分為硬間隔SVM,軟間隔SVM和非線性SVM[3][4]。
2.2 間隔與支持間隔
對于分類模型,屬于監(jiān)督學(xué)習(xí)范疇,是希望可以在空間中找到某個超平面,可以將類別不一樣的樣本區(qū)分開來,而且這樣的超平面并不是唯一的,但最優(yōu)化算法是可以找到最能區(qū)分樣本空間的超平面,選擇位于兩類訓(xùn)練樣本正中間的劃分超平面,原因是這個超平面的分類結(jié)果最魯棒,泛化能力最強[5]。
2.4 交叉驗證法
交叉驗證法在機器學(xué)習(xí)中很常用,通常用于檢驗?zāi)P退惴ǖ男阅?,基本的想法是將樣本進(jìn)行分組,分為訓(xùn)練集與測試集,交替多次進(jìn)行訓(xùn)練與檢驗,以得到更為客觀的評價模型算法的性能指標(biāo),常見的方法有以下兩種:
1)留一法
留一法是每次將樣本中的一個樣本作為測試集,其他的樣本作為訓(xùn)練集,假設(shè)樣本有n個,則需要重復(fù)進(jìn)行n次檢驗,n次分類準(zhǔn)確率的平均值作為分類準(zhǔn)確率,被實際評估的模型與期望評估的模型很相似,但比較適合小樣本的情況[8]。
2)K-折交叉驗證
將樣本平均分為k組,每次試驗將其中一組作為測試集,其他k-1組作為訓(xùn)練集,則需要進(jìn)行k次試驗,將k次分類準(zhǔn)確率的平均值作為分類準(zhǔn)確率,通常k的取值均大于1,常見的有5折和10折交叉驗證法[8]。
3 實驗與應(yīng)用
3.1 數(shù)據(jù)描述
本文的數(shù)據(jù)來自UCI上的機器學(xué)習(xí)數(shù)據(jù)庫,為葡萄酒數(shù)據(jù)集,表示的是意大利同一地區(qū)3中不同品種的葡萄酒13中化學(xué)成分含量,以期通過某種模型算法,可以將葡萄酒自動分類[9]。
本次分類的數(shù)據(jù)共有178個樣本,每個樣本有13個屬性,并提供每個樣本的正確分類,共有三類葡萄酒,現(xiàn)在選取兩個屬性Flavanoids和Hue對葡萄酒數(shù)據(jù)進(jìn)行展示,可以看到,三類葡萄酒數(shù)據(jù)基本可由一定的超平面將其分開。
3.3 實驗
本文采用的R語言進(jìn)行建模,采用支持向量機軟件包e1071,采用svm函數(shù),其中,變量type在R語言中可選參數(shù)有C-classification、nu-classification、one-classification、eps-regression、nu-regression[10][11],前三種針對字符型結(jié)果變量的分類方式,第三種屬于邏輯判斷,后兩種針對數(shù)量型結(jié)果變量的分類方式,在R語言中,變量kernel可選參數(shù)有Linear、polynomial、radial、sigmoid,分別為線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)、Sigmod核函數(shù),分別將type為C-classification、nu-classification、one-classification和kernel為Linear、polynomial、radial、sigmoid[10][11]組合的12種模型應(yīng)用于葡萄酒數(shù)據(jù)集上,用十折交叉驗證法比較這12種組合模型的效果,采用10折檢驗數(shù)據(jù)的正確率的平均值作為模型檢驗的正確率。
可見,表現(xiàn)最差的是type為one-classification的支持向量機模型,無論核函數(shù)取哪一種正確率仍很低,表現(xiàn)最好的模型是type為nu-classification,核函數(shù)為線性核函數(shù)的支持向量機模型,識別的正確率為98.86%,通過觀察這一類模型十折交叉驗證正確率最高的為100%,共有八次達(dá)到正確分類,另外兩次的正確率分別是:94.12%和94.44%。因此我們可以看到這一葡萄酒數(shù)據(jù)集在支持向量機模型中分類判別表現(xiàn)較好。
4 總結(jié)
文章將支持向量機應(yīng)用在葡萄酒數(shù)據(jù)集的分類識別中,通過實驗說明了當(dāng)類型為nu-classification,核函數(shù)為線性核函數(shù)的支持向量機模型時,識別正確率最高,達(dá)到了98.86%。此外,通過了多種模型的比較,并且應(yīng)用交叉驗證法進(jìn)行驗證,降低了分類的誤差。
參考文獻(xiàn):
[1] 周志華. 機器學(xué)習(xí)[M]. 清華大學(xué)出版社, 2016.
[2] 李航. 統(tǒng)計學(xué)習(xí)方法[M]. 清華大學(xué)出版社, 2012.
[3] Saurabh Paul, Malik Magdon-Ismail, Petros Drineas. Feature selection for linear SVM with provable guarantees[J]. Pattern Recognition, 2016, 60:205-214.
[4] Pirasteh A, Maghooli K, Mousavizadeh S. Iris recognition using localized zernikes feature and SVM[J]. Applied Mathematics & Computation, 2016, 168(2):1128-1144.
[5] Shang W, Li L, Wan M, et al. Industrial communication intrusion detection algorithm based on improved one-class SVM[C]// Industrial Control Systems Security. IEEE, 2016:21-25.
[6] 李彤. 支持向量機的分解理論算法研究[J]. 河南科技, 2013(2):9-10.
[7] 姚迪, 劉會杰, 劉潔, 等. 基于支持向量機的認(rèn)知無線電頻譜感知[J]. 電子設(shè)計工程, 2018(21).
[8] Xu P, Davoine F, Zha H, et al. Evidential calibration of binary SVM classifiers[J]. International Journal of Approximate Reasoning, 2016, 72(C):55-70.
[9] Available at http://blog.csdn.net/zjccoder/article/category/2397449
[10] 肖敏, 王小天, 韓路朋. 基于SVM的露天邊坡穩(wěn)定性預(yù)測模型研究及R語言實現(xiàn)[J]. 露天采礦技術(shù), 2018, 33(1): 38-42.
[11] 姚興山. 基于統(tǒng)計的中文文本分類研究[J]. 情報理論與實踐, 2009, 32(5):95-98.
【通聯(lián)編輯:王力】