周 頔
(1.四川文理學(xué)院達州智能制造產(chǎn)業(yè)技術(shù)研究院,四川 達州 635000; 2.重慶大學(xué)人工智能與健康監(jiān)護實驗室,重慶 400044)
支持向量機(SVM)[1]是一種基于統(tǒng)計學(xué)習(xí)的VC維理論和結(jié)構(gòu)風(fēng)險最小原理的分類算法,通過在學(xué)習(xí)能力和模型復(fù)雜性間尋求最佳折中來獲得較好的分類效果。它能有效求解高維、非線性分類問題,能在小樣本條件下建立精準的系統(tǒng)模型,并表現(xiàn)出較強的泛化能力,目前廣泛應(yīng)用于數(shù)據(jù)分類、模式識別、函數(shù)逼近、智能控制等領(lǐng)域[2]。
但是支持向量機的學(xué)習(xí)精度和泛化能力取決于其參數(shù)優(yōu)化選擇,因此國內(nèi)外學(xué)者從不同的角度對SVM參數(shù)選取問題進行廣泛的研究,取得了不錯的效果。金晶等[3]引入粒子群優(yōu)化算法,提出一種SVM不敏感損失函數(shù)的X參數(shù)尋優(yōu)方法。任江濤等[4]利用二進制PSO算法優(yōu)化SVM參數(shù),提出了一種PSO-SVM算法。于化龍等[5]提出一種改進的離散PSO和SVM的特征基因選擇算法。姚全珠等[6]提出了一種基于PSO的LS-SVM參數(shù)的優(yōu)化算法。陳治明[7]提出一種量子粒子群優(yōu)化算法,用于優(yōu)化最小二乘支持向量機(LS-SVM)的參數(shù)。單黎黎等[8]提出一種改進的PSO算法,用于優(yōu)化混合核ε-SVM的參數(shù)。劉春衛(wèi)等[9]利用PSO算法優(yōu)化具有學(xué)習(xí)能力和泛化性能的SVM參數(shù),實現(xiàn)一種基于混合核函數(shù)的PSO-SVM分類方法。寧愛平等[10]提出基于人工蜂群和粒子群的并行混合優(yōu)化算法,用于優(yōu)化SVM核參數(shù),獲得最優(yōu)參數(shù)組合。劉佳等[11]提出一種基于網(wǎng)格搜索法和粒子群優(yōu)化算法的SVM參數(shù)優(yōu)化方法,實現(xiàn)礦井涌水量的預(yù)測。
這些SVM參數(shù)優(yōu)化方法,較好地解決了SVM的參數(shù)選擇問題,但使用的優(yōu)化方法都存在各自的問題,如PSO收斂速度快,可調(diào)參數(shù)少,但容易陷入局部最優(yōu)解。因此,本文將混合擾動算子引入QPSO算法中,用于獲取平均最優(yōu)位置,建立一種基于混合擾動算子的QPSO算法改進方法(IQPSO),用于對SVM的參數(shù)進行優(yōu)化選擇,建立基于改進量子粒子群的支持向量機參數(shù)優(yōu)化方法(IQPSO-SVM),利用測試函數(shù)對提出的IQPSO-SVM建模方法進行有效驗證。
粒子群優(yōu)化算法(PSO)[12]是一種模擬自然界生物活動的進化算法。PSO描述如下:在d維的搜索空間中,由m個粒子組成的種群,第i個粒子的位置為Xi=(xi1,xi2,…,xid),速度為Vi=(vi1,vi2,…,vid), i=1,2,…,m。第i個粒子的最優(yōu)位置為Pi=(pi1,pi2,…,pid)(pbest), i=1,2,…,m;整個種群的最優(yōu)位置為Pg=(pg1,pg2,…,pgd)(gbest), i=1,2,…,m。該粒子速度和位置更新公式:
vid(t+1)=vid(t)+c1r1(pbestid)-xid(t))+
c2r2(gbestid(t)-xid(t))
(1)
xid(t+1)=xid(t)+vid(t+1)
(2)
其中,i表示第i個粒子,d表示粒子維數(shù);t表示第t代;c1和c2表示加速度系數(shù),又稱學(xué)習(xí)因子,表示粒子的學(xué)習(xí)能力,一般取值為0~2.5;r1和r2為2個[0,1]之間的隨機數(shù),表示對學(xué)習(xí)的記憶能力。
1.2.1 QPSO算法
QPSO算法[13]是改進經(jīng)典PSO算法進化搜索策略的一種算法。它是基于不同粒子滿足的聚集態(tài),搜索整個解空間,從而簡化了進化方程的形式,減少了算法參數(shù)。在QPSO算法中,每一個粒子必須收斂于各自的隨機點P, P=(p1,p2,…,pd),第i個粒子點P的第j維坐標(biāo)為:
(3)
在粒子群中,一個全局點被用于計算粒子下次迭代的變量,并定義為所有粒子局部最優(yōu)位置的平均值Mbest(Mainstream Thought or Mean Best),計算公式如下:
(4)
Pi=r1×Pij+r2×Pgj
(5)
(6)
其中,m是粒子個數(shù),Mbest是種群pbest中間位置,d是粒子維數(shù),Pi是粒子最佳位置,Pij是粒子搜到的最優(yōu)解pbest,Pgj是種群搜到的最優(yōu)解gbest,Xi(t)是粒子的相關(guān)位置信息;β是收縮擴張系數(shù),r1、r2和u是[0, 1]上的隨機數(shù)。
控制參數(shù)β的選擇和控制關(guān)系到QPSO算法的收斂速度。第t次迭代時β一般可取如下值:
β=0.5+0.5×(Tmax-t)/Tmax
(7)
其中,Tmax表示最大迭代次數(shù)。
1.2.2 基于混合擾動算子的QPSO改進方法(IQPSO)
由于QPSO算法在搜索后期,容易出現(xiàn)算法早熟收斂現(xiàn)象。因此,在QPSO算法中加入擾動操作,可以使算法跳出局部最優(yōu),達到提高計算精度的目的。本文在迭代后期的平均最優(yōu)位置增加混合擾動算子來改進QPSO算法?;旌蠑_動算子如下:
βt=ζ1[Ct(0,1)+ζ2Nt(0,1)]
(8)
其中,ζ1和ζ2是擾動系數(shù),Ct(0,1)是服從標(biāo)準柯西分布的隨機數(shù),Nt(0,1)是服從標(biāo)準高斯分布的隨機數(shù)。
(9)
這里通過對一些經(jīng)典函數(shù)進行測試和修正,以獲得算法參數(shù)的最合理初始值。因此這些最優(yōu)解和最合理的運行時間的算法參數(shù)值為ζ1max=2.0, ζ1min=0.5, ζ2max=5.0, ζ2min=0.1, t是當(dāng)前迭代次數(shù),Tmax是最大迭代次數(shù)。
(10)
SVM是一個二分類問題,主要目標(biāo)是尋找最優(yōu)超平面,使分類間隔最大[14]。給定訓(xùn)練樣本{xi,yi|i=1,2,3,…,m}, m為樣本數(shù),輸入向量xi∈Rd,期望輸出矢量yi∈{+1,-1}, SVM采用φ(·)(非線性函數(shù))映射原數(shù)據(jù)到高維空間,構(gòu)造一個最優(yōu)分類超平面,滿足:
yi[w*φ(xi)+b]-1≥0, i=1,2,3,…,m
(11)
其中,w是權(quán)值矢量,b是閾值,此時分類間隔為2/w。引入松弛變量ξi,計算實際值yi與輸出間的距離。因此數(shù)據(jù)分離問題變?yōu)椋?/p>
(12)
其中,C為懲罰參數(shù)。
引入Lagrangian乘子αi和核函數(shù)k(xi,yi)=φ(xi)φ(xj),式(12)轉(zhuǎn)化為二次規(guī)劃優(yōu)化問題:
(13)
αi>0對應(yīng)的點稱為支持向量。分類決策函數(shù)為:
(14)
SVM中常用的核函數(shù)有徑向基函數(shù)(RBF)k(xi,xj)=exp(-‖xi-xj‖/(2σ2))(σ為RBF的參數(shù))、多項式函數(shù)k(xi,xj)=(xixj+b)d、S形函數(shù)k(xi,xj)=tanh [k(xi,xj)+v] (k>0, v<0),本文取徑向基核函數(shù)作為內(nèi)積核函數(shù)。
在SVM分類中,當(dāng)取值較小的懲罰系數(shù)C值時,表明經(jīng)驗風(fēng)險大、學(xué)習(xí)機器復(fù)雜度和經(jīng)驗誤差懲罰較小,反之亦然。因此,取過大或過小的懲罰系數(shù)C值,都將減弱系統(tǒng)的泛化能力。核參數(shù)σ2是用于確立映射函數(shù)和特征空間的對應(yīng)關(guān)系,選擇合適的σ2將有助于投影數(shù)據(jù)到合適的特征空間。而合適的核參數(shù)σ2和懲罰系數(shù)C值又很難預(yù)先確定。因此,有效選擇合適的SVM參數(shù)值對SVM分類至關(guān)重要。IQPSO算法是一種基于混合擾動算法改進的QPSO算法,具有全局搜索的能力。因此針對目前尚無通用有效的SVM參數(shù)選取方法,本文提出利用QPSO算法的全局搜索能力來優(yōu)化SVM懲罰系數(shù)C和核參數(shù)σ2,建立一種基于IQPSO算法的高精度SVM模型。
由于SVM參數(shù)取值對其性能有較大的影響,為了獲得較高性能的SVM,需要獲得較優(yōu)的懲罰參數(shù)C、徑向基核參數(shù)σ2的組合取值。所以采用具有全局尋優(yōu)能力的IQPSO算法對SVM參數(shù)進行優(yōu)化,得到基于改進量子粒子群算法和SVM的IQPSO-SVM模型,其流程如圖1所示。
圖1 基于IQPSO算法優(yōu)化SVM模型流程圖
IQPSO-SVM算法的具體步驟如下:
Step1初始化。
設(shè)定最大迭代次數(shù)Tmax、當(dāng)前迭代次數(shù)t=1,在解空間隨機產(chǎn)生m個粒子x1,x2,…,xm組成初始種群X(t),每個粒子的位置xi∈[-1,1];參數(shù)β從1.0到0.5線性遞減。
Step2參數(shù)編碼。
采用IQPSO算法優(yōu)化SVM的參數(shù)C和σ2時,將每個粒子當(dāng)作一組潛在的解,該參數(shù)組為:vi=(γ,σ1,σ2,…,σm-1)。
Step3選擇適應(yīng)度函數(shù)。
適應(yīng)度函數(shù)是算法性能的檢測,在這里,選擇如下函數(shù):
(15)
其中,RMSE(C,σ)是均方根誤差,目的是找到最大適應(yīng)度函數(shù)值對應(yīng)的C和σ2最優(yōu)組合。
Step4更新每個粒子的新局部最優(yōu)位置Pij及其他相關(guān)變量。
Step5更新全局最優(yōu)位置Pgj及其他相關(guān)變量。
Step6計算中值最優(yōu)位置Mbest。
Step7計算每個粒子隨機點Pi。
Step8執(zhí)行擾動操作,更新粒子位置。
Step9令t=t+1,重復(fù)執(zhí)行Step2~Step5,直到滿足條件為止。
Step10將得到的最優(yōu)參數(shù)代入SVM模型,獲得優(yōu)化SVM模型。
為了驗證IQPSO優(yōu)化SVM的有效性,選擇含有噪聲的二維函數(shù)f(x1,x2)=sin x1cos x2+σ0。其中x1,x2∈[-π,π], σ0是均值為0,偏差為0.01、0.05、0.10的高斯噪聲。分別采用PSO算法、量子PSO(QPSO)算法和IQPSO算法優(yōu)化SVM的參數(shù)20次,用MSE(平均誤差)和MAD(平均絕對誤差)作為評價指標(biāo)。假設(shè)Tmax=1000,種群規(guī)模m=50, SVM初始參數(shù)σ∈[0,10], γ∈[0,1000], λ∈[0,1],以避免盲目搜索。實驗仿真結(jié)果如表1所示,不同算法仿真結(jié)果如圖2所示。
表1 SVM參數(shù)選擇的平均結(jié)果
偏差訓(xùn)練方法σ2CMSEMAD0.01SVM360.3650.2817.404E-042.671E-02PSO-SVM341.3470.2423.853E-046.469E-03QPSO-SVM338.4730.1955.145E-057.064E-03IQPSO-SVM322.4630.1833.743E-054.753E-030.05SVM323.4720.6062.352E-048.482E-02PSO-SVM315.3280.5496.543E-036.197E-02QPSO-SVM311.4850.4743.439E-033.572E-02IQPSO-SVM307.7490.4181.753E-031.208E-020.10SVM313.5720.6278.687E-021.305E-01PSO-SVM306.6480.5734.364E-028.374E-02QPSO-SVM301.4370.5131.250E-025.371E-02IQPSO-SVM297.6490.4756.976E-033.046E-02
圖2 不同算法仿真結(jié)果
從表1和圖2可知,在不同的噪聲干擾下,QPSO算法的平均誤差和平均絕對誤差要好于PSO算法,但要次于改進QPSO算法。改進QPSO算法優(yōu)化SVM時,獲得的平均誤差和平均絕對誤差是最小的。實驗結(jié)果表明,改進QPSO算法具有較好的全局優(yōu)化能力,IQPSO-SVM模型具有更高的求解精度,提高了SVM模型的泛化能力。
為了驗證IQPSO-SVM的分類有效性,從UCI機器學(xué)習(xí)數(shù)據(jù)庫選擇數(shù)據(jù)為實驗數(shù)據(jù)。將遺傳算法優(yōu)化SVM(GA-SVM)、蟻群算法優(yōu)化SVM(ACO-SVM)和自適應(yīng)蟻群算法優(yōu)化SVM(SACO-SVM)用于比較IQPSO-SVM的分類能力。實驗數(shù)據(jù)描述如表2所示,UCI數(shù)據(jù)分類結(jié)果如表3所示。
表2 UCI實驗數(shù)據(jù)信息
序號名稱樣本數(shù)屬性數(shù)分類1Auto392732Glass214973Wine178131334Breast683925Pima768826Vehicle8461847Iris15043
表3 UCI數(shù)據(jù)分類結(jié)果
序號名稱分類正確率/%GA-SVMACO-SVMSACO-SVMIQPSO-SVM1Auto76.5377.8179.3781.892Glass55.6160.7565.8969.633Wine78.3289.8291.8292.714Breast87.8594.1495.9097.075Pima76.1382.8687.1184.516Vehicle78.6181.4482.9886.887Iris92.6796.0097.3399.33
從表3可以看出,對于UCI實驗數(shù)據(jù)Auto、Glass、Wine、Breast、Vehicle和Iris,本文提出的IQPSO-SVM分類器比GA-SVM分類器、ACO-SVM分類器和SACO-SVM分類器獲得更好的分類結(jié)果。對于UCI機器學(xué)習(xí)數(shù)據(jù)庫Wine、Breast和Iris實驗數(shù)據(jù),分類準確率分別為92.71%、97.07%和99.33%。但對于Pima數(shù)據(jù),SACO-SVM分類器能獲得最好的分類效果。實驗結(jié)果表明,本文提出的IQPSO算法具有較好的優(yōu)化能力,IQPSO-SVM分類器具有更高的分類精度。
本文在分析PSO算法、QPSO算法和SVM的基礎(chǔ)上,將混合擾動算子引入改進QPSO算法,提出一種基于混合擾動算子的QPSO改進算法。然后將具有快速全局優(yōu)化能力的改進QPSO和具有非線性擬合特點的SVM算法相結(jié)合,提出一種基于改進量子粒子群優(yōu)化算法的支持向量機參數(shù)優(yōu)化方法(IQPSO-SVM)。該方法充分利用了改進QPSO算法的優(yōu)點來優(yōu)化支持向量機參數(shù),獲得最優(yōu)的參數(shù)組合值,得到優(yōu)化SVM模型。為了驗證IQPSO-SVM優(yōu)化性能,將IQPSO-SVM方法用于函數(shù)優(yōu)化和UCI機器學(xué)習(xí)數(shù)據(jù)分類。實驗結(jié)果表明,改進QPSO算法具有較好的全局優(yōu)化能力,IQPSO-SVM模型具有更高的求解精度,提高了SVM模型的泛化能力。