郭金玲
(山西大學(xué)商務(wù)學(xué)院,山西太原 030031)
一種基于圓形分布的支撐向量機(jī)核選擇方法
郭金玲
(山西大學(xué)商務(wù)學(xué)院,山西太原 030031)
針對(duì)目前支撐向量機(jī)核函數(shù)的選擇沒有統(tǒng)一規(guī)則的現(xiàn)狀,提出了一種結(jié)合數(shù)據(jù)分布特征進(jìn)行支撐向量機(jī)核選擇的方法。首先,采用多維尺度分析方法對(duì)高維數(shù)據(jù)集合理降維,提出判斷數(shù)據(jù)集是否呈圓形分布的算法,在得到數(shù)據(jù)集分布特征的基礎(chǔ)上進(jìn)行核選擇,達(dá)到結(jié)合數(shù)據(jù)分布特征合理選擇支撐向量機(jī)核函數(shù)的目的。實(shí)驗(yàn)結(jié)果表明:呈圓形分布的數(shù)據(jù)集采用極坐標(biāo)核進(jìn)行分類,識(shí)別率達(dá)到100%,訓(xùn)練時(shí)間短,優(yōu)于采用神經(jīng)網(wǎng)絡(luò)、決策樹、高斯核及多項(xiàng)式核的分類效果。該方法提高了支撐向量機(jī)的泛化能力。
支撐向量機(jī);核選擇;圓形分布;極坐標(biāo)
支撐向量機(jī)(SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的學(xué)習(xí)方法[1],主要被用來(lái)解決數(shù)據(jù)的回歸與分類問(wèn)題。在使用SVM進(jìn)行回歸或分類時(shí)常用的核函數(shù)有高斯核、多項(xiàng)式核構(gòu)造SVM最重要的一個(gè)問(wèn)題是SVM核的正確選擇,因此,目前SVM的一個(gè)重要研究?jī)?nèi)容就是如何有效進(jìn)行核函數(shù)的選擇。
在采用SVM處理數(shù)據(jù)分類問(wèn)題時(shí),基于數(shù)據(jù)依賴的SVM核函數(shù)選擇方法[5-8]主要是在SVM訓(xùn)練之前對(duì)核及參數(shù)進(jìn)行優(yōu)化處理。如文獻(xiàn)[7-8]提出的極小化R2/△2的核選擇方法、兩步迭代法等?;跀?shù)據(jù)獨(dú)立的SVM核函數(shù)選擇方法[9-10]主要利用有關(guān)問(wèn)題的先驗(yàn)信息進(jìn)行SVM核函數(shù)選擇,代表性的方法有留一交叉校驗(yàn)法[9]等。數(shù)據(jù)依賴的方法具有通用性,但泛化能力差。數(shù)據(jù)獨(dú)立的方法計(jì)算代價(jià)太大,一般只作為參考。
在現(xiàn)有的方法中,很少利用到數(shù)據(jù)集中包含的幾何分布信息,本文提出一種結(jié)合數(shù)據(jù)集幾何分布特征進(jìn)行核選擇的方法,通過(guò)數(shù)值實(shí)驗(yàn),驗(yàn)證了該方法可以降低計(jì)算代價(jià),分類效果較好,直觀性較強(qiáng)。
設(shè)實(shí)驗(yàn)數(shù)據(jù)集包含兩類樣本,分別是A類樣本和B類樣本?;趫A形分布的SVM核選擇方法具體過(guò)程如下:
步驟1:實(shí)際問(wèn)題中大多都是高維數(shù)據(jù)集,可首先對(duì)數(shù)據(jù)集進(jìn)行降維處理。多維尺度分析方法(MDS)[11]是把原來(lái)多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的降維處理方法,是較好的一種線性降維方法,首先采用該方法對(duì)高維數(shù)據(jù)集進(jìn)行降維,處理成二維數(shù)據(jù)集。
步驟2:設(shè)A類樣本的重心為O,A類樣本各點(diǎn)到O的距離計(jì)為數(shù)組dA,B類樣本各點(diǎn)到O的距離計(jì)為數(shù)組dB。兩個(gè)數(shù)組中的最大值分別記為dAmax和dBmax;最小值分別記為dAmin和dBmin。判斷dAmax<dBmin或dBmax<dAmin是否成立,如果成立,可以判定該數(shù)據(jù)集呈圓形分布。
步驟3:結(jié)合樣本集的分布選擇相應(yīng)的核函數(shù),樣本集呈圓形分布,相應(yīng)的SVM選擇極坐標(biāo)核;反之,選擇常用的高斯核或多項(xiàng)式核。
2.1 數(shù)值實(shí)驗(yàn)
為驗(yàn)證基于圓形分布的SVM核選擇方法是否有效,分別采用4組數(shù)據(jù)在Matlab環(huán)境中進(jìn)行數(shù)值實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。
其中,第1組實(shí)驗(yàn)數(shù)據(jù)為人工構(gòu)造的圓形數(shù)據(jù)集D1。數(shù)據(jù)集D1包含兩類樣本,A類樣本滿足條件x2+y2≤1,用圓圈表示;B類樣本滿足條件x2+y2>1,用‘*’表示,隨機(jī)生成100個(gè)樣本,其分布如圖1所示。
第2組數(shù)據(jù)集D2采用了鳶尾植物數(shù)據(jù)集Iris.data,該數(shù)據(jù)集包括70個(gè)訓(xùn)練樣本,30個(gè)測(cè)試樣本,每個(gè)樣本有5個(gè)屬性。由于數(shù)據(jù)集D2為高維數(shù)據(jù)集,首先使用MDS方法對(duì)D2進(jìn)行降維,降維后得到的數(shù)據(jù)集E1的分布情況如圖2所示。
圖1 數(shù)據(jù)集D1的分布情況
圖2 數(shù)據(jù)集D2的分布情況
第3組真實(shí)數(shù)據(jù)集D3是一個(gè)呈雙正弦線分布的二維數(shù)據(jù)集,分類要求是把x-y坐標(biāo)平面上兩條不同正弦線上的點(diǎn)正確的分開,由于正弦分布是呈周期變化的,所以實(shí)驗(yàn)中取了4個(gè)周期的點(diǎn)。數(shù)據(jù)分布如圖3所示,圓圈和“*”分別代表不同的正弦線,每類120個(gè)采樣點(diǎn),每個(gè)樣本點(diǎn)有兩個(gè)屬性。
第4組數(shù)據(jù)集D4是一個(gè)隨機(jī)生成的基本呈均勻分布的二維數(shù)據(jù)集,樣本數(shù)為50,其分布如圖4所示。
圖3 4個(gè)周期的雙正弦線
圖4 數(shù)據(jù)集D4的分布情況
采用文中提出的算法對(duì)數(shù)據(jù)集D1、D2、D3、D4進(jìn)行檢測(cè),可得出結(jié)論:D1、D2、D3呈圓形分布,D4不呈圓形分布。分別采用神經(jīng)網(wǎng)絡(luò)方法(NN)[12]、決策樹方法[13]、極坐標(biāo)核SVM、高斯核SVM、多項(xiàng)式核SVM對(duì)4組數(shù)據(jù)集進(jìn)行了分類實(shí)驗(yàn),分別進(jìn)行了12次數(shù)值實(shí)驗(yàn),取平均結(jié)果作為最后結(jié)果。
采用不同方法對(duì)D1、D2、D3、D4進(jìn)行分類的結(jié)果具體見表1。
表1 采用不同方法的分類結(jié)果比較
2.2 實(shí)驗(yàn)結(jié)果分析
從實(shí)驗(yàn)結(jié)果可以看出:呈圓形分布的數(shù)據(jù)集D1、D2、D3,采用極坐標(biāo)核進(jìn)行分類實(shí)驗(yàn)的效果優(yōu)于其他幾種方法,分類效果最好。
由文獻(xiàn)[4]可知:運(yùn)用極坐標(biāo)核進(jìn)行分類實(shí)驗(yàn),原始數(shù)據(jù)經(jīng)過(guò)映射φ到達(dá)特征空間:
分析該函數(shù)可以計(jì)算出:只要數(shù)據(jù)集滿足圓形分布,經(jīng)過(guò)該映射φ在特征空間可以被一條直線有效地分割開。因此,呈圓形分布的數(shù)據(jù)集采用極坐標(biāo)核進(jìn)行分類實(shí)驗(yàn),識(shí)別率可達(dá)到100%,分類效果好。
本文提出一種結(jié)合數(shù)據(jù)分布特征進(jìn)行核選擇的方法,實(shí)驗(yàn)結(jié)果證明了該方法的有效性和正確性。本文僅討論了呈圓形分布的數(shù)據(jù)集如何有效地選擇核函數(shù),而數(shù)據(jù)集的分布是多樣化、復(fù)雜化的,數(shù)據(jù)集呈其他形狀分布時(shí),SVM核函數(shù)的正確選取值還需進(jìn)一步探討和研究。
[1] Vapnik V.The Nature of Statitiscal Learning Theory[M].New York:Spring Verlag Press,1995.
[2] Wang W J,Xu Z B,Lu W Z.Determination of the Spread Parameter in the Gaussian Kernel for Classification and Regression[J].Neurocomputing,2003,55(3):643-663.
[3] 孫建濤,郭崇慧,陸玉昌,等.多項(xiàng)式核支持向量機(jī)文本分類器泛化性能分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(8):1321-1326.
[4] 張莉,周偉達(dá),焦李成.一類新的支撐矢量機(jī)核[J].軟件學(xué)報(bào),2002,13(4):713-718.
[5] Wang X M,Chung F L,Wang S T.Theoretical Analysis for Solution of Support Vector Data Description[J].Neural Networks,2011,24(4):360-369.
[6] Gao SH,Tsang IW H,Chia L T,et al.Local Features are not Lonely Laplacian Sparse Coding For Image Classification[J].CVPR,2010,18(6):126-138.
[7] 周偉達(dá),張莉,焦李成.一種改進(jìn)的推廣能力度量標(biāo)準(zhǔn)[J].計(jì)算機(jī)學(xué)報(bào),2003,26(5):598-604.
[8] Wu S,Amari S.Conformal Transformation of Kernel Functions:A Data-dependentWay to Im prove Support Vector Machine Classifiers[J].Neural Processing Letters,2002,15:59-67.
[9] Chapelle O,Vapnik V.Model Selection for Support Vector Machines[C]//Smola A,Leen T,Mullereds K.Advances in Neural Information Processing Systems 12.Cambridge,MA:MIT Press,2001.
[10] Choi Y S.Least Squares One-class Support Vector Machine[J].Pattern Recognition Letters,2009,30(13):1236-1240.
[11] Cox T,Cox M.Multidimensional Scaling[M].London:Chapman&Hall,1994.
[12] W idyanto M R,Nobuhara H,Kawamoto K,et al.Improving Recognition and Generalization Capability of Back-propagation NN[J].Applied Soft Computing,2005,6(1):72-84.
[13] Brydon M,Gemino A.Classification Trees and Decision Analytic Feedforward Control:A Case Study from the Video Game Industry[J].Data Ming and Know ledge Discovery,2008,17(2):317-342.
TP301
A
1672-6871(2014)03-0055-03
國(guó)家自然科學(xué)基金項(xiàng)目(61273291);山西省高等學(xué)??萍佳芯块_發(fā)項(xiàng)目(20121131);山西大學(xué)商務(wù)學(xué)院基金項(xiàng)目(2012014)
郭金玲(1982-),女,山西長(zhǎng)治人,講師,碩士,主要從事機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘方面的研究.
2013-09-01