王建國,陳肖潔,張文興
(內蒙古科技大學 機械工程學院,內蒙古 包頭 014010)
在支持向量機(support vector machine,SVM)中,關于 SVM的核函數選擇,高斯核備受青睞。究其原因為高斯核具有穩(wěn)定優(yōu)越的性能,可以使SVM獲得較好的推廣性[1-2]。高斯核的寬度參數決定了樣本數據分布的復雜程度,進而,影響特征空間中最優(yōu)分類超平面的泛化性能,高斯核的形式:
為了體現樣本中不同特征的重要性程度,即區(qū)別各個特征對分類貢獻率的差異,引入了多寬度(多參數)高斯核[3],假設x有D個特征量,xi[m],xj[m]是其中的第m個特征量,其形式如下:
顯然,我們可以利用fm值的大小來衡量不同特征的重要性差異,將其應用到特征選擇中。特征選擇一般是指按照某種評估標準從輸入特征集中選擇出最優(yōu)的特征子集,去除冗余、無關特征以達到提高學習精度的目的。現在,關鍵問題是,fm值的確定問題。高斯核的核參數優(yōu)化方法主要有:(1)不斷循環(huán)SVM分類器迭代優(yōu)化算法[4]和粒子群優(yōu)化尋優(yōu)算法[2],該兩種方法的缺點為計算量大;(2)獨立于分類器SVM的核度量標準[5]的方法,如最大化核極化的算法[6-8],不足之處是以SVM為分類器,求解凸二次規(guī)劃問題來取的最優(yōu)解。因此,我們采用優(yōu)化獨立于分類算法的核度量標準—核極化來優(yōu)化多參數高斯核中的多參數,并以最小二乘支持向量機(leastsquaressupportvectormachine,LSSVM)為學習器,求解一組線性方程組來得到方程的最優(yōu)值,簡化計算量,提高計算效率。
式中:k(xi,xj)—核函數;b—偏置量;αi≠0 的訓練樣本為支持向量,這里αi,?i通過求解下面的線性方程獲得:
式中:矩陣 Ω=yiyjφT(xi)φ(xj)=yiyjk(xi,xj),i,j=1,L,l;YT=[y1,L,yl];I—單位矩陣,與 Ω 同階;I1=[1,L,1]T;α=[α1,L,αl]T。
式(4)的約束優(yōu)化問題是[9]:
式中:γ—規(guī)則化因子;ei—誤差變量;φ(xi)—非線性映射,將樣本集從輸入空間映射到高維特征空間。構建Lagrange方程,并對原始優(yōu)化參數求偏導,整理,可得式(4)[10]。
針對多分類問題時,目前主要采用多目標優(yōu)化和組合編碼2種方法[4]。一次性求解所有分類參數的多目標優(yōu)化方法,因其求解變量數目較大,求解過程復雜,在實際應用中,并不適用。因此,我們主要討論組合編碼方法中的一對一編碼,構造多個二分類LSSVM來實現多分類分類。
2005年,文獻[5]借用物理學概念,提出了核極化度量標準(kernel polarization,KP),即:
式中:k—核矩陣;yyT—理想核矩陣;<·,·>F—矩陣之間的Frobenius內積。
由式(6)可知:當同類樣本點靠近(k(xi,xj)取較大值),異類樣本點遠離(k(xi,xj)取較小值)時,可以使核極化值P較大。由此可知,最優(yōu)核參數fm可以通過最大化P得到,若某一特征x[im]越重要,則fm值越大,對應的Pm值越大。具體的特征選擇算法步驟如下:
步驟 1:初始化 f=diag(1,L,1);
式中:0.05—學習因子,迭代停止條件為fm的相鄰兩次的函數值之差的絕對值小于10-5;
步驟3:轉步驟2,直至滿足停機條件;
步驟5:排序fm,并記錄其從大到小的先后順序ftoped;
步驟6:按ftoped的順序,依次增添樣本中的一個特征量(即選取第一個,前兩個,…,所有特征)到LSSVM分類器,進行LSSVM的訓練和測試。
我們將核極化優(yōu)化多參數高斯核的算法和特征選擇聯合起來考慮,利用核極化獨立于學習算法的優(yōu)勢來,測定不同特征對分類的重要性貢獻,和進行樣本的特征選擇,并用LSSVM分類器驗證核極化的特征選擇算法的正確性。所提算法的流程圖,如圖1所示。
圖1 算法流程圖Fig.1 The Flow Chat of the Algorithm
實驗以LSSVM為載體來驗證核極化優(yōu)化多參數高斯核的特征選擇算法的有效性。實驗環(huán)境為Window7 32位系統,E-450 CPU,2GB RAM以及Matlab 2011a。從UCI機器學習數據庫中選取5個數據集,基本屬性如表1所示。
表1 實驗數據集Tab.1 The Datasets of Experiments
Heart為二分類數據集,Heart包含270個樣本,一個樣本含有13個特征分量,具體特征屬性為:年紀、性別、胸部疼痛類型、靜息血壓、血清類固醇、空腹血糖、靜息心電圖結果、最大心率、運動誘發(fā)的心絞痛、相對靜止運動引起的抑郁癥、峰值運動時的斜率、主要的血管數和患者類型。
Australian的數據集全稱為Australian Credit Approval,二分類,包含690×14個樣本。
Wisconsin Breast Cancer Database簡稱為Breast,二分類:良性(Benign)和惡性(Malignant)。該數據原有699個樣本,因16個樣本數據缺失,故實驗中采用的樣本個數為683個。實驗時,采用的9個輸入樣本特征分別為腫塊密度、細胞大小的均勻性、細胞形狀的均勻性、邊緣粘連性、單上皮細胞的大小、裸核、溫和的染色質、正常核和有絲分裂等。
Iris是Iris Plants Database的簡稱,數據集為150×4,即包含150個樣本,每個樣本含有4個屬性特征,如萼片和花瓣的長度等。Iris的類別為setosa、versicolor、virginica 3類,每個類別有50個樣本。
Wine為經常使用的多分類數據集,全稱為Wine Recognition Data,數據來源是對意大利同一地區(qū)不同品種的三種酒的大量研究、分析。Wine數據集的數據完整,沒有空缺值,大小為178×13,三分類,178個樣本,每個樣本具有13個輸入特征,即酒精、羥基丁二酸、灰燼、灰分堿度、鎂、總酚、黃酮類化合物、非黃酮類物質酚類、花青素苷、彩色亮度、色調、提取稀釋的葡萄酒物質和脯氨酸。在數據文本“wine.data”中,178行,行代表酒的樣本,其中,第1類:59個樣本,第2類:71個樣本,第3類:48個樣本,即共有178個樣本;14列,第一列:類標志屬性,標記為“1”,“2”,“3”等三類;第2列到第14列為樣本輸入特征的樣本值。
實驗(a):對于每一個數據集,選取樣本的為訓練集,剩余樣本的作為測試集。實驗中,首先,利用第3部分介紹的核極化的特征選擇算法,排列出各個特征的先后順序和記錄其相應的fm值;然后,設置分類器LSSVM的參數為:高斯核σ=1,γ=0.06;最后,對于每添加一個特征,進行LSSVM訓練和預測,記錄相應的預測準確率。實驗結果,如圖2所示。通過條形圖顯示了Heart數據集各個特征的重要性程度,如圖3所示。
實驗(b):在數據集的所有特征上,進行SVM和LSSVM的訓練和預測,訓練集和測試集的設置,如圖2(a)所示。分類器的參數為:高斯核,σ=1,C=100,γ=0.06,進行 10 次的獨立實驗,表 2記錄了10次實驗運行時間的平均值(單位為s),表3記錄了10次實驗分類準確率的平均值和標準差,表2和表3中的粗體數值為該設置參數下最好的實驗結果值。表4給出實驗(b)的統計檢驗結果(在Excel 2007分析工具庫中,首先,利用“F-檢驗:雙樣本方差”判斷兩樣本的總體方差是否相同;然后,若兩總體方差齊,則進行“t-檢驗:雙樣本等方差假設”,否則,進行“t-檢驗:雙樣本異方差假設”)。
圖2 算法實驗結果圖Fig.2 Experimental Results of the Algorithm
表2 LSSVM和SVM運行時間的實驗結果Tab.2 The Running Time of LSSVM and SVM
表3 LSSVM和SVM分類準確率的實驗結果Tab.3 The Accuracy of LSSVM and SVM
圖3 Heart數據集不同特征的重要性程度Fig.3 The Importance of Different Features on Heart Dataset
實驗(a):對于表1的每個數據集,遵循樣本特征重要性大小的先后的原則,圖2顯示,LSSVM對于每添加一個特征的實驗準確率均有或大或小的提高。具體而言,重要性程度大的特征對分類貢獻較大,原因是圖像由開始的比較陡峭漸變?yōu)楹髞淼钠椒€(wěn)(如Heart、Australian和Breast數據集)。圖3的條形圖說明數據集的各個特征對分類的貢獻大小是有差異的。實驗(a)的結果表明,采用核極化的特征選擇方法是有效的。在實際應用中,我們完全可以采用對分類貢獻率比較大的樣本特征來預測樣本,節(jié)省運算時間,提高預測效率。
實驗(b):表2的數據表明,在4個數據集的運行時間上,LSSVM明顯都優(yōu)于SVM;在分類準確率上,如表3數據所示,采用LSSVM所達到的實驗結果在3個數據集上都優(yōu)于SVM,在Iris和Wine上,2種方法的實驗結果基本相當。為了確保實驗結果的客觀性,我們對分類準確率和運行時間進行了顯著性水平為0.05的t假設統計檢驗,統計結果記錄在表4中。就分類準確率而言,表4的統計結果顯示,LSSVM在3個數據集上顯著性差異地優(yōu)于SVM,且在Wine上相對于SVM沒有顯著性差異;僅在Iris上劣于SVM,但根據表3的Iris的分類準確率95.8824(SVM)和94.3137(LSSVM)可知,2種方法所得結果差異很小。表4的統計結果同樣說明,使用LSSVM相比SVM能明顯地提高計算效率。從實驗(b)的結果可以判斷,LSSVM作為特征選擇的分類器是高效的。
表4 數據集上的實驗結果的t假設檢驗結果Tab.4 The t Hypothesis Testing of Datasets Experiments
為了解決LSSVM的特征選擇問題,提出了核極化的特征選擇算法,并將選擇出的特征應用于LSSVM。UCI數據集上的實驗結果表明,所提的特征選擇算法的有效性和LSSVM分類器計算的高效性。