姚 瑞,唐 泉
(新疆師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,烏魯木齊 830017)
統(tǒng)計(jì)學(xué)習(xí),也稱為統(tǒng)計(jì)機(jī)器學(xué)習(xí),在計(jì)算機(jī)及其應(yīng)用領(lǐng)域中具有重要意義.統(tǒng)計(jì)學(xué)習(xí)[1]的主要方法是基于數(shù)據(jù)建立統(tǒng)計(jì)模型來預(yù)測和分析數(shù)據(jù),由監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)組成,包括k近鄰法、樸素貝葉斯方法、支持向量機(jī)等方法.半監(jiān)督學(xué)習(xí)是一種同時兼顧標(biāo)簽樣本和無標(biāo)簽樣本的學(xué)習(xí)方法,利用標(biāo)記樣本的優(yōu)點(diǎn)來精確描述單個樣本,同時使用大量無標(biāo)記數(shù)據(jù)來進(jìn)一步提高分類器的性能[2].半監(jiān)督支持向量機(jī)(S3VM)最初應(yīng)用于文本分類[3],主要有梯度下降法(Gradient descent)[4]、確定性退火方法(Deterministic annealing)[5]和半正定規(guī)劃方法(Semi-definite programming)[6]等研究方法.模糊支持向量機(jī)在傳統(tǒng)支持向量機(jī)基礎(chǔ)上提出,分類精度和回歸精度更高,查翔等[7]提出了一種基于多區(qū)域劃分的模糊支持向量機(jī)方法;譚萍等[8]結(jié)合模糊C-均值與FSVM 提出了一種多級的模糊支持向量機(jī)對說話人進(jìn)行語音識別;Muscat R 等[9]提出了分層模糊支持向量機(jī)模型.本文討論支持向量機(jī)模型,對支持向量機(jī)模型的基本思想、發(fā)展完善及應(yīng)用情況進(jìn)行概述,并深入探討一種通過識別誤分類點(diǎn)來構(gòu)造半監(jiān)督的模糊支持向量機(jī)模型及算法實(shí)現(xiàn).
對于模糊訓(xùn)練集
模糊約束規(guī)劃為:
其中,λ(0 ≤λ≤1)為置信區(qū)間.
其對偶問題為:
Step4:計(jì)算ω*和b*,如式(4);
Step5:構(gòu)造最優(yōu)分類超平面(ω*·x)+b*=0,得到最優(yōu)分類函數(shù)式(5).
對于模糊非線性問題,引入變換
則對應(yīng)的模糊非線性訓(xùn)練集變換為:
其中,Xi=Φ(xi) (i=1,···,l).在置信水平λ(0 ≤λ≤1)下,模糊分類問題轉(zhuǎn)化為:
其中,C>0為懲罰參數(shù);ξi=(ξ1,…,ξl)T為松弛變量.
該二次規(guī)劃存在最優(yōu)解,通過取適當(dāng)?shù)暮撕瘮?shù),使得K(xi,xj)=Φ(xi)·Φ(xj).可求得二次規(guī)劃式的對偶問題為:
最優(yōu)分類超平面為(ω*·x)+b*=0,令g(x)=(ω*·x)+b*,最優(yōu)分類函數(shù)為:
模糊支持向量機(jī)的算法:
Step1:構(gòu)造隸屬度函數(shù),確定隸屬度
Step2:給定模糊非線性可分的訓(xùn)練集
Step3:求解線性規(guī)劃式(8)得到最優(yōu)解
Step4:求解(10),計(jì)算b*;
Step5:構(gòu)造最優(yōu)分類超平面(ω*·x)+b*=0,得到最優(yōu)分類函數(shù)式(11).
由于可疑的誤標(biāo)記點(diǎn)仍包含有用信息,如特征位置信息,在數(shù)據(jù)分類中仍起重要作用,為充分利用可疑的誤標(biāo)記點(diǎn),下文使用位置信息的方法獲得最佳分離.
對于集合S中任一點(diǎn),保留位置信息xi,刪除標(biāo)簽yi.令Xl=S表示所有標(biāo)簽訓(xùn)練點(diǎn)數(shù)據(jù)集,Xu={1,…,n} 是無標(biāo)簽訓(xùn)練點(diǎn)的數(shù)據(jù)集.假設(shè)令yi表示標(biāo)簽向量,軟間隔的半監(jiān)督二次曲面支持向量機(jī)(SSQSSVM)模型:
令α≥0n為拉格朗日對偶變量,則問題(12)的拉格朗日函數(shù)可寫為:
對于一個給定的yu,任意向量α(yu) 使D(α(yu),yu)≤maxαD(α,yu).
SVM 最優(yōu)值為下界,所有葉節(jié)點(diǎn)中目標(biāo)函數(shù)的最優(yōu)值為上界.
輸入:訓(xùn)練數(shù)據(jù)集(xi,yi) (i=1,…,n);ε.
Step1:用CL-stability 算法檢測訓(xùn)練集中可疑的錯誤標(biāo)記點(diǎn)并刪除標(biāo)簽.獲得數(shù)據(jù)集Xl和Xuχu.設(shè)k=1,U=+∞.將原始問題重新定義為(12).
Step3:找到具有最小下界L的節(jié)點(diǎn).如果U-L<ε,則在該節(jié)點(diǎn)獲得返回值uˉ,算法停止并進(jìn)行Step4;否則,遵循深度優(yōu)先策略到達(dá)下一個節(jié)點(diǎn).給無標(biāo)記的點(diǎn)si分配標(biāo)簽yi,用分支相應(yīng)的si及標(biāo)簽-yi探索相反的分支.返回Step2.
Step4:通過分解(14)中的uˉ得到原始空間中的分離二次曲面.
圖1 和圖2 是人工數(shù)據(jù)集分類結(jié)果,準(zhǔn)確率達(dá)到100%.
圖1 線性可分支持向量機(jī)
圖2 線性不可分支持向量機(jī)
圖3 使用Iris 數(shù)據(jù)集,在實(shí)驗(yàn)精度0.80的閾值下,選取數(shù)據(jù)中前兩個特征值,進(jìn)行實(shí)驗(yàn).
圖3 Iris數(shù)據(jù)集實(shí)驗(yàn)
本節(jié)將支持向量機(jī)應(yīng)用到國有企業(yè)管理者的考評系統(tǒng)中,將企業(yè)管理者的表現(xiàn)分為優(yōu)、良、中、差四個等級,由于支持向量機(jī)是二分類模型,所以需要將多個支持向量機(jī)以子分類器的形式加以組合.
表1將14家國有控股企業(yè)的管理者作為樣本,數(shù)據(jù)來源于毛惠媛對東北地區(qū)企業(yè)家管理創(chuàng)新機(jī)制的研究[10],用支持向量機(jī)對企業(yè)管理者的績效進(jìn)行考核等級的分類處理.
表1 國有企業(yè)管理者評價指標(biāo)得分表
由表1 可以看出,對企業(yè)管理者的考評打分的量綱是不同的,為了消除這一偏差,我們先對所有數(shù)據(jù)進(jìn)行歸一化處理,得到如表2中數(shù)據(jù).
表2 國有企業(yè)管理者評價指標(biāo)得分歸一化處理結(jié)果
在給出的14 位企業(yè)管理者的數(shù)據(jù)中,首先選定1~12 號企業(yè)管理者的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),13 號與14 號企業(yè)管理者為測試數(shù)據(jù)集.1—3 號企業(yè)管理者的分類為優(yōu);4—6 號企業(yè)管理者的分類為良,7—9 號企業(yè)管理者的分類為中,10—12 號企業(yè)管理者的分類為差.
將上述分類數(shù)據(jù)兩兩組合構(gòu)造子分類器,既構(gòu)造優(yōu)-良、優(yōu)-中、優(yōu)-差、良-中、良-差、中-差六個分類器,對進(jìn)行數(shù)據(jù)訓(xùn)練.由于上述訓(xùn)練數(shù)據(jù)集可能存在誤分類數(shù)據(jù),于是可以構(gòu)造模糊支持向量機(jī),將測試集分別帶入6 個子分類器中,出現(xiàn)頻數(shù)最多的分類結(jié)果認(rèn)定為對企業(yè)管理者績效的分類最終結(jié)果.訓(xùn)練得到六個子分類器的分類閾值分別為:-0.0244;-0.0082;-0.0214;0.5579;-0.2947;0.479.(詳見表3)
表3 測試集分類結(jié)果
從表3知,13號企業(yè)管理者的績效考核分類結(jié)果為“差”,14 號企業(yè)管理者的績效考核分類結(jié)果為“中”.
本文提出的半監(jiān)督模糊支持向量機(jī)方法有效地縮短了計(jì)算時間,該算法比基準(zhǔn)SDP 松弛方法更高效.另外,本文將SVM 方法應(yīng)用于企業(yè)管理者的表現(xiàn)等級評定系統(tǒng)這一實(shí)際問題,得到較好的分類結(jié)果.但該方法處理大規(guī)模的數(shù)據(jù)集(n>>1000)方面受限制.后續(xù),我們將考慮如何解決此問題.