一種基于圓形分布的支撐向量機(jī)核選擇方法

2014-06-07 10:03:43郭金玲

河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版) 2014年3期

關(guān)鍵詞：極坐標(biāo)降維向量

郭金玲

（山西大學(xué)商務(wù)學(xué)院，山西太原 030031）

一種基于圓形分布的支撐向量機(jī)核選擇方法

郭金玲

（山西大學(xué)商務(wù)學(xué)院，山西太原 030031）

針對(duì)目前支撐向量機(jī)核函數(shù)的選擇沒有統(tǒng)一規(guī)則的現(xiàn)狀，提出了一種結(jié)合數(shù)據(jù)分布特征進(jìn)行支撐向量機(jī)核選擇的方法。首先，采用多維尺度分析方法對(duì)高維數(shù)據(jù)集合理降維，提出判斷數(shù)據(jù)集是否呈圓形分布的算法，在得到數(shù)據(jù)集分布特征的基礎(chǔ)上進(jìn)行核選擇，達(dá)到結(jié)合數(shù)據(jù)分布特征合理選擇支撐向量機(jī)核函數(shù)的目的。實(shí)驗(yàn)結(jié)果表明：呈圓形分布的數(shù)據(jù)集采用極坐標(biāo)核進(jìn)行分類，識(shí)別率達(dá)到100%，訓(xùn)練時(shí)間短，優(yōu)于采用神經(jīng)網(wǎng)絡(luò)、決策樹、高斯核及多項(xiàng)式核的分類效果。該方法提高了支撐向量機(jī)的泛化能力。

支撐向量機(jī)；核選擇；圓形分布；極坐標(biāo)

0 引言

支撐向量機(jī)（SVM）是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的學(xué)習(xí)方法［1］，主要被用來(lái)解決數(shù)據(jù)的回歸與分類問(wèn)題。在使用SVM進(jìn)行回歸或分類時(shí)常用的核函數(shù)有高斯核、多項(xiàng)式核構(gòu)造SVM最重要的一個(gè)問(wèn)題是SVM核的正確選擇，因此，目前SVM的一個(gè)重要研究?jī)?nèi)容就是如何有效進(jìn)行核函數(shù)的選擇。

在采用SVM處理數(shù)據(jù)分類問(wèn)題時(shí)，基于數(shù)據(jù)依賴的SVM核函數(shù)選擇方法［5－8］主要是在SVM訓(xùn)練之前對(duì)核及參數(shù)進(jìn)行優(yōu)化處理。如文獻(xiàn)［7－8］提出的極小化R2／△2的核選擇方法、兩步迭代法等?；跀?shù)據(jù)獨(dú)立的SVM核函數(shù)選擇方法［9－10］主要利用有關(guān)問(wèn)題的先驗(yàn)信息進(jìn)行SVM核函數(shù)選擇，代表性的方法有留一交叉校驗(yàn)法［9］等。數(shù)據(jù)依賴的方法具有通用性，但泛化能力差。數(shù)據(jù)獨(dú)立的方法計(jì)算代價(jià)太大，一般只作為參考。

在現(xiàn)有的方法中，很少利用到數(shù)據(jù)集中包含的幾何分布信息，本文提出一種結(jié)合數(shù)據(jù)集幾何分布特征進(jìn)行核選擇的方法，通過(guò)數(shù)值實(shí)驗(yàn)，驗(yàn)證了該方法可以降低計(jì)算代價(jià)，分類效果較好，直觀性較強(qiáng)。

1 基于圓形分布的支撐向量機(jī)核選擇方法

設(shè)實(shí)驗(yàn)數(shù)據(jù)集包含兩類樣本，分別是A類樣本和B類樣本?；趫A形分布的SVM核選擇方法具體過(guò)程如下：

步驟1：實(shí)際問(wèn)題中大多都是高維數(shù)據(jù)集，可首先對(duì)數(shù)據(jù)集進(jìn)行降維處理。多維尺度分析方法（MDS）［11］是把原來(lái)多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的降維處理方法，是較好的一種線性降維方法，首先采用該方法對(duì)高維數(shù)據(jù)集進(jìn)行降維，處理成二維數(shù)據(jù)集。

步驟2：設(shè)A類樣本的重心為O，A類樣本各點(diǎn)到O的距離計(jì)為數(shù)組dA，B類樣本各點(diǎn)到O的距離計(jì)為數(shù)組dB。兩個(gè)數(shù)組中的最大值分別記為dAmax和dBmax；最小值分別記為dAmin和dBmin。判斷dAmax＜dBmin或dBmax＜dAmin是否成立，如果成立，可以判定該數(shù)據(jù)集呈圓形分布。

步驟3：結(jié)合樣本集的分布選擇相應(yīng)的核函數(shù)，樣本集呈圓形分布，相應(yīng)的SVM選擇極坐標(biāo)核；反之，選擇常用的高斯核或多項(xiàng)式核。

2 實(shí)驗(yàn)與分析

2.1 數(shù)值實(shí)驗(yàn)

為驗(yàn)證基于圓形分布的SVM核選擇方法是否有效，分別采用4組數(shù)據(jù)在Matlab環(huán)境中進(jìn)行數(shù)值實(shí)驗(yàn)，并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。

其中，第1組實(shí)驗(yàn)數(shù)據(jù)為人工構(gòu)造的圓形數(shù)據(jù)集D1。數(shù)據(jù)集D1包含兩類樣本，A類樣本滿足條件x2＋y2≤1，用圓圈表示；B類樣本滿足條件x2＋y2＞1，用‘*’表示，隨機(jī)生成100個(gè)樣本，其分布如圖1所示。

第2組數(shù)據(jù)集D2采用了鳶尾植物數(shù)據(jù)集Iris.data，該數(shù)據(jù)集包括70個(gè)訓(xùn)練樣本，30個(gè)測(cè)試樣本，每個(gè)樣本有5個(gè)屬性。由于數(shù)據(jù)集D2為高維數(shù)據(jù)集，首先使用MDS方法對(duì)D2進(jìn)行降維，降維后得到的數(shù)據(jù)集E1的分布情況如圖2所示。

圖1 數(shù)據(jù)集D1的分布情況

圖2 數(shù)據(jù)集D2的分布情況

第3組真實(shí)數(shù)據(jù)集D3是一個(gè)呈雙正弦線分布的二維數(shù)據(jù)集，分類要求是把x-y坐標(biāo)平面上兩條不同正弦線上的點(diǎn)正確的分開，由于正弦分布是呈周期變化的，所以實(shí)驗(yàn)中取了4個(gè)周期的點(diǎn)。數(shù)據(jù)分布如圖3所示，圓圈和“*”分別代表不同的正弦線，每類120個(gè)采樣點(diǎn)，每個(gè)樣本點(diǎn)有兩個(gè)屬性。

第4組數(shù)據(jù)集D4是一個(gè)隨機(jī)生成的基本呈均勻分布的二維數(shù)據(jù)集，樣本數(shù)為50，其分布如圖4所示。

圖3 4個(gè)周期的雙正弦線

圖4 數(shù)據(jù)集D4的分布情況

采用文中提出的算法對(duì)數(shù)據(jù)集D1、D2、D3、D4進(jìn)行檢測(cè)，可得出結(jié)論：D1、D2、D3呈圓形分布，D4不呈圓形分布。分別采用神經(jīng)網(wǎng)絡(luò)方法（NN）［12］、決策樹方法［13］、極坐標(biāo)核SVM、高斯核SVM、多項(xiàng)式核SVM對(duì)4組數(shù)據(jù)集進(jìn)行了分類實(shí)驗(yàn)，分別進(jìn)行了12次數(shù)值實(shí)驗(yàn)，取平均結(jié)果作為最后結(jié)果。

采用不同方法對(duì)D1、D2、D3、D4進(jìn)行分類的結(jié)果具體見表1。

表1 采用不同方法的分類結(jié)果比較

2.2 實(shí)驗(yàn)結(jié)果分析

從實(shí)驗(yàn)結(jié)果可以看出：呈圓形分布的數(shù)據(jù)集D1、D2、D3，采用極坐標(biāo)核進(jìn)行分類實(shí)驗(yàn)的效果優(yōu)于其他幾種方法，分類效果最好。

由文獻(xiàn)［4］可知：運(yùn)用極坐標(biāo)核進(jìn)行分類實(shí)驗(yàn)，原始數(shù)據(jù)經(jīng)過(guò)映射φ到達(dá)特征空間：

分析該函數(shù)可以計(jì)算出：只要數(shù)據(jù)集滿足圓形分布，經(jīng)過(guò)該映射φ在特征空間可以被一條直線有效地分割開。因此，呈圓形分布的數(shù)據(jù)集采用極坐標(biāo)核進(jìn)行分類實(shí)驗(yàn)，識(shí)別率可達(dá)到100%，分類效果好。

3 結(jié)束語(yǔ)

本文提出一種結(jié)合數(shù)據(jù)分布特征進(jìn)行核選擇的方法，實(shí)驗(yàn)結(jié)果證明了該方法的有效性和正確性。本文僅討論了呈圓形分布的數(shù)據(jù)集如何有效地選擇核函數(shù)，而數(shù)據(jù)集的分布是多樣化、復(fù)雜化的，數(shù)據(jù)集呈其他形狀分布時(shí)，SVM核函數(shù)的正確選取值還需進(jìn)一步探討和研究。

［1］ Vapnik V.The Nature of Statitiscal Learning Theory［M］.New York：Spring Verlag Press，1995.

［2］ Wang W J，Xu Z B，Lu W Z.Determination of the Spread Parameter in the Gaussian Kernel for Classification and Regression［J］.Neurocomputing，2003，55（3）：643－663.

［3］孫建濤，郭崇慧，陸玉昌，等.多項(xiàng)式核支持向量機(jī)文本分類器泛化性能分析［J］.計(jì)算機(jī)研究與發(fā)展，2004，41（8）：1321－1326.

［4］張莉，周偉達(dá)，焦李成.一類新的支撐矢量機(jī)核［J］.軟件學(xué)報(bào)，2002，13（4）：713－718.

［5］ Wang X M，Chung F L，Wang S T.Theoretical Analysis for Solution of Support Vector Data Description［J］.Neural Networks，2011，24（4）：360－369.

［6］ Gao SH，Tsang IW H，Chia L T，et al.Local Features are not Lonely Laplacian Sparse Coding For Image Classification［J］.CVPR，2010，18（6）：126－138.

［7］周偉達(dá)，張莉，焦李成.一種改進(jìn)的推廣能力度量標(biāo)準(zhǔn)［J］.計(jì)算機(jī)學(xué)報(bào)，2003，26（5）：598－604.

［8］ Wu S，Amari S.Conformal Transformation of Kernel Functions：A Data-dependentWay to Im prove Support Vector Machine Classifiers［J］.Neural Processing Letters，2002，15：59－67.

［9］ Chapelle O，Vapnik V.Model Selection for Support Vector Machines［C］／／Smola A，Leen T，Mullereds K.Advances in Neural Information Processing Systems 12.Cambridge，MA：MIT Press，2001.

［10］ Choi Y S.Least Squares One-class Support Vector Machine［J］.Pattern Recognition Letters，2009，30（13）：1236－1240.

［11］ Cox T，Cox M.Multidimensional Scaling［M］.London：Chapman＆Hall，1994.

［12］ W idyanto M R，Nobuhara H，Kawamoto K，et al.Improving Recognition and Generalization Capability of Back-propagation NN［J］.Applied Soft Computing，2005，6（1）：72－84.

［13］ Brydon M，Gemino A.Classification Trees and Decision Analytic Feedforward Control：A Case Study from the Video Game Industry［J］.Data Ming and Know ledge Discovery，2008，17（2）：317－342.

TP301

1672－6871（2014）03－0055－03

國(guó)家自然科學(xué)基金項(xiàng)目（61273291）；山西省高等學(xué)?？萍佳芯块_發(fā)項(xiàng)目（20121131）；山西大學(xué)商務(wù)學(xué)院基金項(xiàng)目（2012014）

郭金玲（1982－），女，山西長(zhǎng)治人，講師，碩士，主要從事機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘方面的研究.

2013－09－01

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于圓形分布的支撐向量機(jī)核選擇方法

0 引言

1 基于圓形分布的支撐向量機(jī)核選擇方法

2 實(shí)驗(yàn)與分析

3 結(jié)束語(yǔ)