何旭, 席佩瑤, 辛云宏
(陜西師范大學(xué)物理學(xué)與信息技術(shù)學(xué)院,陜西,西安 710072)
在科學(xué)研究和實際應(yīng)用中,人工智能[1-2]越來越受到研究者的青睞,而數(shù)據(jù)挖掘是人工智能重要組成部分,數(shù)據(jù)分類作為數(shù)據(jù)挖掘的基本手段和重要方法,也被深入研究和優(yōu)化。文獻(xiàn)[3]為提高下肢表面肌電信號步態(tài)識別的準(zhǔn)確性,提出了一種基于粒子群(PSO)算法優(yōu)化SVM的模式識別方法;文獻(xiàn)[4]將最小閉合球算法引入AdaBoost-SVM算法框架中構(gòu)成CSVM算法;文獻(xiàn)[5]提出了基于貝葉斯分類器和Boosting算法的SVM組合模型,有效提高了軟測量模型的泛化能力;文獻(xiàn)[6]提出了自適應(yīng)增強(qiáng)的SVM集成算法(SVME)在一定程度上提高了對風(fēng)機(jī)故障類型診斷的識別正確率。本文通過采用SVM對數(shù)據(jù)樣本進(jìn)行識別分類,提出一種基于代價敏感思想和自適應(yīng)增強(qiáng)的SVM集成數(shù)據(jù)分類算法(CAB-SVM)。通過實驗結(jié)果表明,CAB-SVM集成算法與個體SVM和SVME集成算法相比正確識別率提高了。
CAB-SVM算法的基本框架如圖1所示,首先輸入樣本數(shù)據(jù)集,利用AdaBoost算法迭代訓(xùn)練SVM弱分類器,同時計算弱分類器的分類誤差和在弱分類器中所占權(quán)重。在權(quán)重更新階段,要增加被分錯樣本權(quán)值,為了加快這部分樣本權(quán)值增加,引入代價敏感思想,即當(dāng)被分錯的樣本權(quán)值快速增加,被正確分類的樣本權(quán)值加快減小。更新結(jié)束后得到新的樣本集的權(quán)重分布,再抽取樣本組成臨時訓(xùn)練集訓(xùn)練下一個新的SVM弱分類器。繼續(xù)進(jìn)行迭代訓(xùn)練,直至結(jié)束。最后將訓(xùn)練出的所有SVM弱分類器根據(jù)權(quán)重線性相加,得到強(qiáng)分類器集成模型。
圖1 CAB-SVM算法體系結(jié)構(gòu)
支持向量機(jī)是在結(jié)構(gòu)風(fēng)險最小化[7]原則的基礎(chǔ)上提出的一種機(jī)器學(xué)習(xí)方法,它是定義在特征空間上間隔最大的分類器。對于實現(xiàn)二分類問題,假設(shè)訓(xùn)練集G中存在d維t個樣本,G=(xt,yt),其中xi∈Rd,yi∈{+1,1},i=1,…,t。超平面(wo·x)+b=0把這些樣本分類,設(shè)定決策函數(shù)為
f(x)=sign(wox+b)
(1)
接下來引入松弛變量δi和松弛因子c以構(gòu)造約束最優(yōu)化問題,構(gòu)造Lagrange函數(shù),再對β、b、δi求偏導(dǎo),分別使其等于0,根據(jù)KKT條件,可得到ω和b的最優(yōu)解ω*和b*:
(2)
(3)
再將最優(yōu)解ω*和b*代入式(1),對于引入核函數(shù)K(xi,yj)的核支持向量機(jī)的情況,判別函數(shù)為
(4)
AdaBoost[8]算法在1995年由Freund等提出,是典型的Boosting算法,AdaBoost-SVM算法近年來被許多有關(guān)學(xué)者廣泛關(guān)注[9]。本文提出基于SVM分類器上引入自適應(yīng)增強(qiáng)算法和代價敏感思想[10-11]的分類算法CAB-SVM,詳細(xì)流程圖見算法1。
算法1: CAB-SVM算法步驟輸入:訓(xùn)練樣本集X=(xt,yt)輸出:H(x)1:式(5)計算初始化樣本權(quán)值分布D12:計算每類樣本的數(shù)目nk.3:式(9)計算樣本的錯分代價Ci4:for q=1,…,Q a.式(7)計算抽中概率 b.優(yōu)化參數(shù)σ和c c.訓(xùn)練弱分類器 d.式(8)計算分類誤差eq e.式(9)計算分類器所占權(quán)重αq f.式(10)(11)更新訓(xùn)練集的權(quán)值分布endReturn 1,…,q,…,hQ5:式(11)輸出強(qiáng)分類器H(x)
首先進(jìn)行樣本權(quán)重初始化,每個樣本賦予相同的權(quán)重,D1是表示初始樣本權(quán)重分布,wi表示訓(xùn)練樣本權(quán)重,如式(5):
(5)
從樣本集t個樣本中抽取h個樣本作為臨時訓(xùn)練樣本集,樣本抽中概率為
(6)
樣本集權(quán)值調(diào)整更新階段,將代價調(diào)整函數(shù)ζ引入公式中。ζ函數(shù)的公式如下:
ζ+,i=-0.7(yifq(xq))ci+0.7
ζ-,i=0.7(yifq(xq))ci+0.7
(7)
其中:
(8)
式(8)~式(9)中,t表示樣本集總數(shù),nk表示第k類樣本共nk個樣本,ζ+表示模型預(yù)測正確時函數(shù),ζ-表示為模型預(yù)測錯誤時的函數(shù)。
當(dāng)hq(Xq(i))≠yi,下一輪權(quán)重分布如式(9):
(9)
當(dāng)fq(Xq(i))=yi,下一輪權(quán)重分布如式(10):
(10)
最后將訓(xùn)練出的SVM弱分類器據(jù)權(quán)重線性相加得到強(qiáng)分類器,如式(11):
(11)
綜上,CAB-SVM模型算法通過AdaBoost用于SVM弱學(xué)習(xí)器的訓(xùn)練中,繼而引入代價調(diào)整函數(shù),以至在下次迭代時弱分類器著重學(xué)上輪錯分樣本。
為了檢驗本文提出CAB-SVM算法的識別性能,實驗數(shù)據(jù)組data-20、data-21是信號檢測實驗室現(xiàn)場采集,另外使用UCI標(biāo)準(zhǔn)數(shù)據(jù)庫中的數(shù)據(jù)集,它們分別是vowel、ecoli、glass。實驗數(shù)據(jù)集信息如表1所示。
表1 實驗數(shù)據(jù)集信息表
本文實驗將CAB-SVM算法與SVME集成算法、SVM算法結(jié)果進(jìn)行比較,分析這3種算法的正確識別率。在分類實驗中,訓(xùn)練樣本集數(shù)目和測試樣本集數(shù)目比值為4∶1,分類結(jié)果如表2所示。
表2 基于不同方法的SVM分類器分類效果比較
將每套數(shù)據(jù)分別代入3種算法中測試,每套數(shù)據(jù)在每個算法中分別進(jìn)行10次實驗,最終取10次實驗結(jié)果的平均值為最終的實驗結(jié)果。由圖2可以看出,本文提出的CAB-SVM集成算法具有更高的正確識別率,是因為其區(qū)別于個體SVM的以下優(yōu)勢:①迭代訓(xùn)練個體SVM的樣本集不同;②迭代訓(xùn)練個體SVM的RBF核函數(shù)的參數(shù)σ和懲罰因子c不同;③迭代訓(xùn)練個體SVM中,樣本權(quán)重更新公式引入了代價敏感思想;④迭代訓(xùn)練個體SVM的分類識別性能逐漸強(qiáng)大。
(a) data-21的實驗結(jié)果
圖2為利用CAB-SVM和SVME兩種集成方法對這10組數(shù)據(jù)集分別進(jìn)行訓(xùn)練的實驗結(jié)果。橫坐標(biāo)表示用集成算法的分類器個數(shù),縱坐標(biāo)表示相應(yīng)的集成方法的正確識別率。
由圖2可知,當(dāng)集成算法的分類器個數(shù)較少時,分類器集成的正確識別率較低。實驗結(jié)果證明,CAB-SVM和SVME兩種集成算法在達(dá)到相同較高的正確識別率時,CAB-SVM所用的分類器集成個數(shù)總體上少于SVME所用的分類器集成個數(shù)。綜上所述,CAB-SVM算法相比SVME算法有效地減少了迭代次數(shù),更適宜應(yīng)用到有關(guān)數(shù)據(jù)識別分類的工作當(dāng)中。
本文在傳統(tǒng)SVM分類器研究基礎(chǔ)上,提出了一種自適應(yīng)增強(qiáng)CAB-SVM算法即在集成算法的每次迭代學(xué)習(xí)中通過快速更新樣本的權(quán)重,個體分類器主要學(xué)習(xí)訓(xùn)練易錯分的樣本,這樣使得分類器的識別性能和效率都得到了有效的提升。本文實驗中所提出的自適應(yīng)增強(qiáng)CAB-SVM算法雖然提高了正確識別率,但是在運算過程中所需運行時間較長,對于這一點還需進(jìn)一步研究和改進(jìn)。