郭金玲
(山西大學(xué)商務(wù)學(xué)院信息學(xué)院,太原 030031)
一種基于高斯分布的SVM回歸方法
郭金玲
(山西大學(xué)商務(wù)學(xué)院信息學(xué)院,太原 030031)
核函數(shù)參數(shù)選擇是支撐向量機(jī)(SVM)研究的主要問(wèn)題之一。提出檢驗(yàn)樣本是否呈高斯分布的方法,確定最優(yōu)核參數(shù)選擇的依據(jù),采用兩組數(shù)據(jù)集分別進(jìn)行回歸實(shí)驗(yàn),驗(yàn)證所提出方法的有效性。
支撐向量機(jī);回歸;高斯分布
支撐向量機(jī)是上世紀(jì)90年代V.Vapnik提出的一種機(jī)器學(xué)習(xí)方法,該方法可用于解決大數(shù)據(jù)領(lǐng)域中的單分類(lèi)、多分類(lèi)以及預(yù)測(cè)問(wèn)題等[1-3]。許多學(xué)者將該技術(shù)應(yīng)用于空氣監(jiān)測(cè)、金融評(píng)測(cè)、醫(yī)學(xué)分析、地質(zhì)勘查等實(shí)際問(wèn)題的解決過(guò)程中。胡世前等利用SVM構(gòu)建了預(yù)測(cè)精度較高、有效檢測(cè)大氣質(zhì)量的預(yù)警系統(tǒng),實(shí)驗(yàn)表明該預(yù)警系統(tǒng)的高效性[4]。蔡丹莉等利用SVM技術(shù),結(jié)合蛋白質(zhì)特征,對(duì)蛋白質(zhì)相互藥理作用及性能影響進(jìn)行了高效預(yù)測(cè)[5]。王奉偉等在分析了大壩變形有關(guān)數(shù)據(jù)的特定規(guī)律基礎(chǔ)上,利用SVM方法實(shí)現(xiàn)了對(duì)大壩變形的高精度、多尺度預(yù)測(cè)[6]。
SVM方法通過(guò)引入核函數(shù),將樣本映射到高維空間實(shí)現(xiàn)預(yù)測(cè)及分類(lèi),其預(yù)測(cè)最優(yōu)化過(guò)程可描述為:
經(jīng)過(guò)轉(zhuǎn)化處理,采用最小二乘法求得a和b的值,回歸函數(shù)如下:
由于高斯核具備計(jì)算量小、泛化性能高等優(yōu)點(diǎn),目前被廣泛應(yīng)用于SVM分類(lèi)及預(yù)測(cè)模型中[7-8]。在實(shí)際問(wèn)題的解決過(guò)程中,核函數(shù)的參數(shù)選取是最為關(guān)鍵的,而核參數(shù)的選取是一直以來(lái)的研究熱點(diǎn)。本文探討了在樣本基本符合高斯分布時(shí),如何高效正確選取核參數(shù)的過(guò)程,實(shí)驗(yàn)結(jié)果證明該方法的有效性。
文中選取了兩組樣本集進(jìn)行實(shí)驗(yàn),樣本集D1是人工構(gòu)造的高斯分布數(shù)據(jù)集,具體分布見(jiàn)圖1;樣本集D2呈不規(guī)則分布,具體見(jiàn)圖2。
圖1 高斯分布數(shù)據(jù)集D1
圖2 不規(guī)則分布數(shù)據(jù)集D2
對(duì)于實(shí)驗(yàn)樣本集{(x1,y1),…,(xl,yl)},采用以下算法檢驗(yàn)其是否呈高斯分布,具體過(guò)程如下[9-10]:
步驟1:取m=n,將實(shí)軸分為n+1個(gè)區(qū)間;
步驟2:采用極大似然法計(jì)算出α,σ的估計(jì)值;
步驟3:計(jì)算出統(tǒng)計(jì)量v'
步驟4:若v'近似服從x2分布,則斷定該樣本集呈高斯分布,同時(shí)在以上判斷過(guò)程中,可計(jì)算出形狀分布參數(shù)。
結(jié)論:如果實(shí)驗(yàn)樣本集基本呈高斯分布,采用高斯核進(jìn)行回歸實(shí)驗(yàn)時(shí),其最優(yōu)核參數(shù)可以選取樣本集的形狀分布參數(shù)。
采用文中的方法對(duì)樣本集D1、D2分別檢測(cè),通過(guò)以上四個(gè)步驟的計(jì)算,可得到結(jié)論:D1呈高斯分布,且形狀參數(shù)為0.7;D2不呈高斯分布。分別采用高斯核SVM和多項(xiàng)式核SVM對(duì)D1和D2進(jìn)行回歸實(shí)驗(yàn),采用不同核函數(shù)參數(shù)進(jìn)行多次回歸實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果圖見(jiàn)圖3、圖4、圖5、圖6、圖7及圖8。
圖3 D1回歸圖(高斯核,σ=0.7)
圖4 D1回歸圖(高斯核,σ=1)
圖5 D1回歸圖(高斯核,σ=10)
圖6 D1回歸圖 (多項(xiàng)式核,d=2)
圖7 D2回歸圖(高斯核,σ=1)
圖8 D2回歸圖 (多項(xiàng)式核,d=3)
通過(guò)比較以上數(shù)值實(shí)驗(yàn),可以看到:數(shù)據(jù)集呈高斯分布時(shí),采用高斯核SVM,且核參數(shù)和其形狀參數(shù)一致時(shí),回歸效果最好,擬合度最高且支持向量個(gè)數(shù)較少。
本文探討了數(shù)據(jù)集呈高斯分布時(shí),如何高效選取核函數(shù)及參數(shù)的過(guò)程。首先給出了判斷數(shù)據(jù)呈高斯分布的方法,采用人工構(gòu)造的數(shù)據(jù)集進(jìn)行了數(shù)值實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明文中提出的方法的正確性及有效性。
[1]W.J.Wang,Z.B.Xu,W.Z.Lu,X.Y.Zhang.Determination of the Spread Parameter in the Gaussian Kernel for Classification and Regression[J].Neurocomputing,2003,55:643-663.
[2]K.B.Duan,S.Keethi,A.N.Poo Evaluation of Simple Performance Measure for Tuning SVM Hyperparameters[J].Neurocomputing, 2003,51:41-59.
[3]V.Cherkassky,Y.Q.Ma.Practical Selection of SVM Parameters and Noise Estimation for SVM Regression[J].Neural Networks,2004, 17:113-126.
[4]胡世前,姜倩雯,凌冰,尹偉東.基于改進(jìn)支持向量機(jī)的空氣質(zhì)量監(jiān)測(cè)預(yù)警模型[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,34(4):38-42.
[5]蔡丹莉,郭 紅.基于混合核函數(shù)SVM的蛋白質(zhì)相互作用預(yù)測(cè)方法[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,42(6):834-840.
[6]王奉偉,周世健,周清,池其才.局部均值分解結(jié)合支持向量回歸的大壩變形預(yù)測(cè)[J].測(cè)繪科學(xué),2016,34(3):42-47.
[7]B.Krawczyk,M.Wozniak,F.Herrera.On the Usefulness of One-Class Classifier Ensembles for Decomposition of Multi-Class Problems[J].Pattern Recognition,2015,48(12):3969-3982.
[8]Wang Xiao-ming,Chung F L,Wang Shi-tong.Theoretical Analysis for Solution of Support Vector Data Description[J].Neural Networks,2011,24(4):360-369.
[9]A.T.Walden.NonGaussian,Reflectivity,Entropy,and Reconvolution[J].Geophysics,2011,50(12):2862-2888.
[10]趙倩,李宏偉等.一種產(chǎn)生廣義高斯分布隨機(jī)數(shù)的算法[J].應(yīng)用數(shù)學(xué),2010,5:64-69.
Support Vector Machine;Regression;Gauss Distribution
A Kind of SVM Regression Method Based on Gaussian Distribution
GUO Jin-ling
(School of Information,Business College of Shanxi University,Taiyuan Shanxi 030031)
The kernel parameter selection is one of the key problems for support vector machine (SVM).Presented a new way to select the kernel function and its parameter,it is based on the characteristics of data distribution.Presents an approach to determine Gauss distribution, and then on the basis of determining Gauss distribution,discusses how to select the kernel function and its parameter.The simulation experiments demonstrate the feasibility and the effectiveness of the presented approach.
1007-1423(2016)19-0006-03
10.3969/j.issn.1007-1423.2016.19.002
山西省科技廳自然科學(xué)基金資助項(xiàng)目(No.2014011018-1)、山西大學(xué)商務(wù)學(xué)院院基金(No.2015009)
郭金玲(1982-),女,山西長(zhǎng)子人,碩士研究生,講師,研究方向?yàn)闄C(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘
2016-06-25
2016-07-01