基于ν－最大間隔超球體支持向量機(jī)的非平衡數(shù)據(jù)分類

2012-09-18 02:20:08李秋林

重慶理工大學(xué)學(xué)報(自然科學(xué)) 2012年12期

李秋林

(西南大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院，重慶 400715)

經(jīng)典的支持向量機(jī)(SVM)［1］通過構(gòu)造最優(yōu)超平面來分隔兩類樣本，由于其簡單和良好的泛化能力使得其在眾多領(lǐng)域得到廣泛應(yīng)用［2－8］。Tax和 Duin［9－10］受支持向量機(jī)的啟發(fā)，提出了超球體支持向量機(jī)(HSSVM)，用于支持向量數(shù)據(jù)描述分類，其主要思想是建立包含樣本的最小超球體。HSSVM已廣泛應(yīng)用于人臉識別、預(yù)警技術(shù)、故障檢測等方面。在此基礎(chǔ)上，有學(xué)者相繼提出了最大間隔最小體積球形支持向量機(jī)［11］、不等距超球體支持向量機(jī)［12］、最大邊界模糊核超球分類方法［13］等。

非平衡數(shù)據(jù)集是指數(shù)據(jù)集中某些類的樣本數(shù)量比其他類的樣本數(shù)量大很多，其中樣本少的類為少數(shù)類(稱為正類)，樣本多的類為多數(shù)類(稱為負(fù)類)。非平衡數(shù)據(jù)集普遍存在于機(jī)器學(xué)習(xí)的許多實際應(yīng)用領(lǐng)域中。利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法分類，對于正類來說分類精度很低，而對于負(fù)類則相對較高。若少數(shù)類別的數(shù)據(jù)有很大的分類代價，少數(shù)類樣本被錯誤分類所帶來的危害要比多數(shù)類樣本被錯誤分類大得多。如何有效地提高分類器對非平衡數(shù)據(jù)集的分類性能是目前機(jī)器學(xué)習(xí)和模式識別領(lǐng)域的一個熱點研究問題。本文通過直接采用最大化間隔，并引入?yún)?shù)ν來建立一種新的模型，稱之為ν－最大間隔超球體支持向量機(jī)(ν－MMHSSVM)，即構(gòu)造2個同心超球，并使其間隔最大，小超球?qū)⒄惏渲?，大超球?qū)⒇?fù)類樣本排除在外。實驗仿真結(jié)果表明，該算法對非平衡數(shù)據(jù)集的分類效果明顯好于傳統(tǒng)的算法。

1 超球體支持向量機(jī)

對于超球體支持向量機(jī)(HSSVM)，以a為中心、R為半徑的圓可以包含所有的樣本點，并且要求這個圓盡可能地小。不失一般性，超球體算法為了解決非線性問題，通過核函數(shù)把訓(xùn)練樣本映射到高維特征空間。設(shè)初始訓(xùn)練樣本集合X={xi|xi∈RN，i=1，…，l}，則原始優(yōu)化問題為:

其中 K(xi，xj)=(Φ(xi)，Φ(xj))。通過求解對偶問題(2)，最終可以得到判決函數(shù)為

其中x為支持向量。

2 ν－最大間隔超球體支持向量機(jī)

2.1 ν－最大間隔超球體支持向量機(jī)

HSSVM是通過構(gòu)造最小超球半徑為目標(biāo)進(jìn)行分類，因此，在處理非平衡數(shù)據(jù)集時容易降低正類分類準(zhǔn)確率，從而導(dǎo)致其泛化能力有限，所以，本文以最大化間隔、最小化超球半徑為目標(biāo)來建立一種新的超球體SVM算法，并引入?yún)?shù)ν，用于調(diào)節(jié)間隔和超球半徑，得到ν－最大間隔超球體支持向量機(jī)(ν－MMHSSVM)。如圖1所示，記“+”正類樣本為，記“－”負(fù)類樣本為，正負(fù)類間間隔為ρ，得到2個同心超球S1和S2，其中:S1半徑為R;S2半徑為R+ρ。

圖1 ν－最大間隔超球體支持向量機(jī)

建立的數(shù)學(xué)優(yōu)化模型為:

下面求解原始問題(4)的對偶問題，其Lagrange函數(shù)為:

其中α≥0，β≥0，為 Lagrange乘子向量。由 KKT條件可得:

通過求解式(12)，得到最優(yōu)解α，代入式(8)可得超球球心。

由KKT條件得:

引入核函數(shù)，令 K(xi·xj)=(φ(xi)·φ(xj))，其間隔為ρ=‖φ()－a‖－‖φ()－a‖，并記，則原問題的判決規(guī)則為:對于測試樣本 x，若‖x －a‖≤R1，記

則判定其為正類，反之判定其為負(fù)類。決策函數(shù)為

2.2 算法復(fù)雜度分析

算法復(fù)雜度由規(guī)劃中變量和約束方程的個數(shù)決定。SVM、HSSVM、ν－MMHSSVM求解的都是凸二次規(guī)劃問題。用Q(d，s)表示一個凸二次規(guī)劃問題，CQ(d，s)表示對應(yīng)的復(fù)雜度，其中d為變量個數(shù)，s為約束方程的個數(shù)。若訓(xùn)練樣本數(shù)為n，則SVM、HSSVM、ν－MMHSSVM 算法的復(fù)雜度分別表示為 CQ(n，2n+1)、CQ(n，2n+1)、CQ(n，2n+2)。SVM在時間和空間上的復(fù)雜度為O(n2)［14］，即

令式(14)中的n取值n+1，則有

顯然式(16)成立。

由式(14)～(16)可得 CQ(n，2n+2)=O(n2)，故各個算法復(fù)雜度同級。

3 實驗仿真

3.1 人工數(shù)據(jù)集

先通過人造數(shù)據(jù)集來驗證ν-MMHSSVM的有效性。隨機(jī)產(chǎn)生容量為100的訓(xùn)練集，其中正類點5個，負(fù)類點各95個，這樣就構(gòu)造出了一組人工非平衡數(shù)據(jù)集。用ν-MMHSSVM進(jìn)行訓(xùn)練，并調(diào)節(jié)參數(shù)ν來調(diào)節(jié)超球分割，分類結(jié)果見圖2、3。

若正負(fù)類超球線性可分，從圖2、3可知:參數(shù)ν越小，則包裹正類的超球半徑就越大;參數(shù)ν越大，則包裹正類的超球半徑就越小。故通過調(diào)節(jié)參數(shù)ν，就可以提高正類的分類準(zhǔn)確率。

圖2 ν=0.5時最大間隔超球體支持向量機(jī)

圖3 ν=5時最大間隔超球體支持向量機(jī)

若正負(fù)類超球線性不可分，通過核函數(shù)映射到高維空間超球可分，其參數(shù)ν的變化、超球分割面變化的情況與線性情形下類似，結(jié)果如圖4、5所示。

圖4 ν=0.5，σ=0.5時最大間隔超球體支持向量機(jī)

圖5 ν=5，σ=0.5時最大間隔超球體支持向量機(jī)

從上面的模擬可知，隨著參數(shù)ν的變化，ν－MMHSSVM對線性和非線性情況都進(jìn)行了正確分類。

3.2 真實數(shù)據(jù)集

從UCI公共數(shù)據(jù)庫中選取了5組數(shù)據(jù)集進(jìn)行了實驗。表1中列出了本次實驗所用的數(shù)據(jù)。為了方便，這里的實驗數(shù)據(jù)都是正樣本數(shù)相對于負(fù)樣本數(shù)極其稀少的情況。表1中對正負(fù)類的情況進(jìn)行了標(biāo)號，并給出了正負(fù)類各占整個數(shù)據(jù)集的比例情況，然后通過徑向基核函數(shù)映射后，并采用HSSVM、MMHSSVM進(jìn)行訓(xùn)練，最后給出訓(xùn)練對比的結(jié)果。

表1 實驗中使用的數(shù)據(jù)集

3.2.1 評價標(biāo)準(zhǔn)

類準(zhǔn)確率是評價模型分類器最常用的標(biāo)準(zhǔn)，它可以反映分類器對于數(shù)據(jù)集的整體分類性能。但是，它不能正確評價非均衡數(shù)據(jù)集的分類結(jié)果。例如，100個樣本中，正類樣本數(shù)為5，負(fù)類樣本數(shù)為95。如果將所有樣本分為負(fù)類樣本，分類的正確度仍為95%，這個評價結(jié)果顯然是不合理的，若此時正類分類代價較高，誤判帶來結(jié)果就比較嚴(yán)重。因此，對于非均衡數(shù)據(jù)集分類需要一個合理的評價標(biāo)準(zhǔn)。

對于本次實驗，采用文獻(xiàn)［16］中正負(fù)查全率(Recall)和g均值方法來評價實驗結(jié)果:

其中:TP、TN表示正確分類的正類和負(fù)類;FN、FP錯誤分類的正類和負(fù)類;Recall+、Recall－表示2個類的查全率。

表2是不同算法對各個數(shù)據(jù)集的正負(fù)查全率，表3為不同算法對各個數(shù)據(jù)集的g均值及平均值。

表2 不同算法的分類精度

表3 不同數(shù)據(jù)集的g均值及平均值

從表2可以看出，HSSVM有較高的負(fù)查全率，且遠(yuǎn)高于正查全率，但正查全率較低。而ν－M MHSSVM不但有較高的正查全率，而且還有較高的負(fù)查全率。通過表3可以看出，ν－MMHSSVM的各個數(shù)據(jù)集上的g均值均高于HSSVM在各個數(shù)據(jù)集上的g均值，ν－MMHSSVM的g均值平均值也明顯高于HSSVM的g均值平均值。

4 結(jié)束語

基于ν－MMHSSVM的非平衡數(shù)據(jù)分類既能提高正類的聚類性，也能保證正負(fù)類類間間隔的距離最大，進(jìn)而提高了模型分類器的性能，且模型的算法復(fù)雜度與其他算法是同級的。通過上面的實驗仿真可以得出結(jié)論:與傳統(tǒng)的HSSVM算法相比，本文提出的ν－MMHSSVM分類算法大大提高了對正類的查全率，從而有效地提高了對非平衡數(shù)據(jù)集的分類性能。

［1］Vapnik V N.The Nature of Statistical Learning Theory［M］.London，UK:Springer-Verlag，1995.

［2］鄔嘯，魏延，吳瑕.基于混合核函數(shù)的支持向量機(jī)［J］.重慶理工大學(xué)學(xué)報:自然科學(xué)版，2011(10):66－70.

［3］余珺，鄭先斌，張小海.基于多核優(yōu)選的裝備費(fèi)用支持向量機(jī)預(yù)測法［J］.四川兵工學(xué)報，2011(6):118－119.

［4］萬輝.一種基于最小二乘支持向量機(jī)的圖像增強(qiáng)算法［J］.重慶理工大學(xué)學(xué)報:自然科學(xué)版，2011(6):53－57.

［5］羅沛清，梁青陽，江欽龍，等.基于分層聚類的支持向量機(jī)模擬電路故障診斷［J］.四川兵工學(xué)報，2011(9):92 －95..

［6］崔建國，李明，陳希成.基于支持向量機(jī)的飛行器健康診斷方法［J］.壓電與聲光，2009(2):266－269.

［7］張宏蕾，張立亭，羅亦泳，等.基于支持向量機(jī)的土地利用預(yù)警研究［J］.安徽農(nóng)業(yè)科學(xué)，2010(35):20503－20504.

［8］唐曉芬，趙秉新.基于支持向量機(jī)的農(nóng)村勞動力轉(zhuǎn)移預(yù)測［J］.安徽農(nóng)業(yè)科學(xué)，2011(11):6837－6838.

［9］Tax D，Duin R.Support vector domain description［J］.Pattern Recognition Letters，2003，20:11 －13.

［10］Tax D，Duin R.Support vector domain description［J］.Machine Leaning，2004(1):45 －66.

［11］文傳軍，詹永照，陳長軍.最大間隔最小體積球形支持向量機(jī)［J］.控制與決策，2010，25(1):79 －83.

［12］張慧敏，柴毅.不等距超球體支持向量機(jī)［J］.計算機(jī)工程與應(yīng)用，2011，47(11):19 －22.

［13］王娟，胡文軍，王士同.最大邊界模糊核超球分類方法［J］.計算機(jī)應(yīng)用 2011，31(9):2542 －2545.

［14］Collobert R，Bengio S.SVMTorch:Support vector machine for large-scale regression problems［J］.J of Machine Learning Research，2001，1(2):143 － 160.

［15］Frank A.Asuncion A UCI repository of machine learning databases［EB/OL］.［2012 － 06 － 18］.http://archive.ics.uci.edu/ml.

［16］Joshi M V.On Evaluating Performance of Classifiers for Rare Classes［C］//Proc of the 2nd IEEE International Conference on Data Mining.Maebishi，Japan:［s.n.］，2002:641－644.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡