国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

后驗概率支持向量機模型在目標分類中的應(yīng)用

2014-02-09 07:46米麗萍邢清華
計算機工程與設(shè)計 2014年4期
關(guān)鍵詞:后驗訓(xùn)練樣本交叉

米麗萍,邢清華

(1.山西青年職業(yè)學(xué)院計算機系,山西太原030032;2.空軍工程大學(xué)防空反導(dǎo)學(xué)院,陜西西安710051)

0 引 言

為了解決傳統(tǒng)支持向量機[1](support vector machine,SVM)在不確定分類問題中不能輸出后驗概率的缺陷[2,3],Wahba和Platt最先將后驗概率運用于SVM方法中,來擴展傳統(tǒng)SVM的能力[4,5]。常用貝葉斯框架理論或直接擬合后驗概率而不計算類概率密度等方法來確定后驗概率,這些都是在傳統(tǒng)SVM中引入后驗概率的有益嘗試[6,7]。本文提出一種基于相對交叉熵的后驗概率SVM建模方法,給出了分類問題中交叉熵與相對交叉熵的確定方法,以相對交叉熵最小化作為優(yōu)化模型的目標函數(shù),建立相應(yīng)的優(yōu)化模型,并對優(yōu)化模型求解,以獲得最優(yōu)的概率SVM模型參數(shù)。該方法中,每個支持向量機給出的分類結(jié)果采用后驗概率的方式確定樣本的類別,使樣本分類可以得到定性和定量的解釋和評價。

1 支持向量機后驗概率模型的確定

傳統(tǒng)SVM的標準輸出為[8]

其中:f(x)=(w*×x)+b*,w*與b*分別為最優(yōu)分類面的權(quán)系數(shù)向量和分類的域值。

任意樣本點x與分類面之間的距離可以表示為:rx=

由此得到

對于SVM的分類,如圖1所示,從超平面的幾何角度分析,樣本在兩類分類問題中屬于其中哪一類的程度更大是通過樣本與最優(yōu)分類面間的距離確定的,而f(x)是rx與rsv的比率,于是樣本的后驗概率可以依據(jù)SVM的標準輸出f(x)來度量,因此,后驗概率模型可以看成是f(x)的函數(shù)。

圖1 最優(yōu)分類面相對位置

概率輸出函數(shù)需要滿足兩個條件,一是函數(shù)的取值范圍必須是[0,1]區(qū)間;二是必須為單調(diào)函數(shù)。通過對能夠作為概率輸出函數(shù)的幾種單調(diào)函數(shù)的分析發(fā)現(xiàn),含有參數(shù)A和B的sigmoid函數(shù)對SVM的輸出概率建模具有更大地靈活性,實際應(yīng)用時也能夠呈現(xiàn)出很好的分類精度,因此后驗概率模型可以采用含A、B兩個參數(shù)的sigmoid函數(shù)來確定。

對于兩類分類問題,如果采用含參數(shù)A、B的sigmoid函數(shù),其SVM的概率輸出可以表示為如下形式

其中:sigmoid函數(shù)的形態(tài)用參數(shù)A和B控制;SVM中樣本x的標準輸出值用f(x)表示?;诖耍绻脗鹘y(tǒng)SVM概率建模的話,樣本x的類別可以根據(jù)式子(3)確定,而樣本隸屬于所在類的程度大小由后驗概率的大小來體現(xiàn),對于傳統(tǒng)SVM方法,可以通過式(1)中y=1或y=-1來確定樣本x的類別。

2 基于相對交叉熵的后驗概率SVM模型參數(shù)確定方法

可以通過SVM的標準輸出f(x)來建立sigmoid函數(shù)的后驗概率模型,那么接下來如何確定概率模型中的A和B這兩個參數(shù)呢?這里提出采用最小化相對交叉熵方法來確定概率模型(3)的參數(shù)。

2.1 分類問題中交叉熵與相對交叉熵的確定

設(shè)隨機變量x服從某一未知分布p(x),且該未知分布p(x)可由一已知分布(如某種參數(shù)模型)q(x)表示。q(x)與p(x)間的交叉熵(cross entropy)定義為

只有當參數(shù)模型q(x)等于p(x)時,交叉熵才可以取得最小值。

針對兩類分類問題,假設(shè)y=p(c1|x),1-y=p(c2|x),即若x屬于c1時應(yīng)該得到t=1的輸出,若x屬于c2時應(yīng)得到t=0的輸出,于是

可見p(t|x)服從Bernoulli分布,若訓(xùn)練樣本(xi,ti)(i=1,2,…,n)是獨立選取的,則其似然函數(shù)可寫為即

該式取負對數(shù)后有

可以證明這就是y(x)與目標t的分布間的交叉熵

如果把yi=ti代入式(7),可得E1的最小值為

對于兩類問題中ti取1或0的情況,Emin=0,對于ti?。?,1)間連續(xù)值的情況,Emin≠0,因此我們可以從式(7)減去式(8),得到一種誤差函數(shù)形式為

該誤差函數(shù)實質(zhì)上是實際輸出yi與應(yīng)有輸出ti的相對熵,我們把它叫做相對交叉熵,誤差越小,E1與Emin越接近,同時y(x)與目標t越接近。

2.2 基于相對交叉熵最小化的SVM概率模型參數(shù)確定方法

有了上面的準備工作,我們設(shè)訓(xùn)練樣本集(xi,yi)(i=1,2,…,n)為SVM的訓(xùn)練樣本,將另一組樣本(fi,yi)(fi=f(xi))(i=1,2,…,n)作為訓(xùn)練樣本,以求取參數(shù)A、B,f(xi)表示SVM的標準輸出值,yi∈{-1,1}。

在原始數(shù)據(jù)集中加入噪聲,可以避免對Sigmoid函數(shù)采用小數(shù)據(jù)集擬合時出現(xiàn)的過擬合現(xiàn)象,也就是說在重構(gòu)的訓(xùn)練樣本集中,f(xi)為正樣本的SVM輸出值,正樣本對應(yīng)的目標值為ti=1-ε+,而負樣本對應(yīng)的目標值為ti=ε-,采用Bayes后驗概率估計和可以得到一組重新定義的訓(xùn)練樣本(fi,ti)(i=1,2,…,n),其中ti為加入噪聲后,f(xi)對應(yīng)的目標值。具體表達如下

為確定模型pi,需求出表達式pi中的參數(shù)A和B的值,使pi與ti的值盡可能地接近,建立pi與ti的相對交叉熵函數(shù)為

最小化相對交叉熵,可以求得sigmoid函數(shù)中的參數(shù)A、B。若用向量Z=(A,B)T來表示求解出的A和B兩個參數(shù),則可以得到下面的公式

利用逆向線性搜索特點的牛頓迭代方法,對上式求解參數(shù)A和B。

2.3 迭代求解算法的基本思想

對參數(shù)A和B的求解。采用迭代求解算法,其基本思想如下:

第一:求F(Z)的梯度▽F(Z)和F(Z)的Hessian矩陣G(Z),其表達式如下

給定初始點Z0,參數(shù)σ≥0,以使得H(Z0)+σI是正定的。

第二:我們將上述問題的求解轉(zhuǎn)換為下式的迭代求解式

若F(Zk)=0,則求解結(jié)束;

否則αk依次從序列1,…中取值,滿足F(Zk+αkδk)≤F(Zk)+0.0001·αk(F(Zk)Tδk)的序列中的第一個元素作為αk。設(shè)Zk+1=Zk+αkδk,繼續(xù)迭代。

這樣,通過迭代求解,即可得到A、B的值,從而根據(jù)式(3)計算出樣本x屬于某類的后驗概率。

2.4 實驗分析

為了檢驗后驗概率SVM模型的合理性,采用heart_scale、ionosphere_scale、liver-disorders_scale和ijcnn1數(shù)據(jù),進行概率支持向量機的實驗,heart_scale樣本總數(shù)為300個,其中正樣本140,負樣本160個,數(shù)據(jù)特征維數(shù)是13;ionosphere_scale樣本個數(shù)為360個,其中正樣本數(shù)是220個,負樣本數(shù)140個,數(shù)據(jù)特征維數(shù)是34;liver-disorders_scale樣本總數(shù)為350,其中正樣本155個,負樣本195個,數(shù)據(jù)特征維數(shù)是6;ijcnn1實驗將訓(xùn)練樣本與測試樣本相分離,訓(xùn)練樣本35022個,測試樣本91803個,數(shù)據(jù)特征維數(shù)為22。表1列出了利用相對交叉熵最小化的概率建模方法和利用標準支持向量機方法進行數(shù)據(jù)分類的結(jié)果。

由表1可以看出,采用后驗概率SVM的分類效果顯然比傳統(tǒng)SVM的分類效果好。

3 多類分類中的后驗概率SVM模型

3.1 多類分類器設(shè)計

上面給出的是一個兩類分類問題的后驗概率建模方法,實際的分類問題更多的是多類分類問題,對于多類分類的問題,文獻[9-11]等采用了計算比較復(fù)雜的集成學(xué)習方法,本文采用“一對一”的分類方法,先構(gòu)造M(M-1)/2個兩類后驗概率SVM分類器,再綜合利用M(M-1)/2個兩類后驗概率分類器計算后驗概率,最后利用得到的后驗概率來確定在每個分類中樣本的最終后驗概率。其示意圖如圖2所示。

表1 利用不同方法進行樣本分類的分類正確率

圖2 多個分類器組合求解最終后驗概率

測試樣本x屬于第Ci類的最終后驗概率計算如下

3.2 多類分類仿真實驗

以空中目標分類為例,依據(jù)分類原則[12]給出目標特征向量分布參數(shù)見表2。

為了測試模型,這里針對每類目標生成50個訓(xùn)練樣本和6個測試樣本,針對5類目標共生成訓(xùn)練樣本250個(簡稱為樣本A),測試樣本30個(簡稱為樣本B)。

表2 樣本A的特征向量分布

目標類別代號與目標類別名稱對照具體見表3所示。

表3 目標類別的代號名稱對應(yīng)表

下面給出樣本B中每個測試樣本所屬類別的后驗概率計算過程:

首先:將樣本A中的訓(xùn)練樣本進行歸一化處理,并以此為基礎(chǔ),利用徑向基核函數(shù)對上節(jié)中的支持向量機進行訓(xùn)練,得到10個兩類后驗概率支持向量機中每個分類器模型中參數(shù)A、B的值。具體值的列表略。

然后:將樣本B歸一化后得到的樣本作為測試樣本集對訓(xùn)練得到的模型進行測試,并利用上節(jié)(13)式的多類分類器模型計算后驗概率值,得到如表4所示的后驗概率及目標的所屬類別。

從表4數(shù)據(jù)可以看出,對于測試樣本B,后驗概率SVM模型對它的識別率是96.7%,然而采用文獻[13]方法,對其識別率只有76.7%。

4 結(jié)束語

在目標分類問題中,分類結(jié)果經(jīng)常需以后驗概率的形式輸出,而傳統(tǒng)SVM方法不能滿足這一要求,本文從交叉熵的角度,采用相對交叉熵最小化的方法,建立后驗概率SVM模型,給出了具有逆向線性搜索特點的牛頓迭代方法求解后驗概率SVM模型參數(shù)的方法。該方法不但使SVM的分類正確率得到了改善,而且能給出樣本所屬類別的量度。在此基礎(chǔ)上設(shè)計了基于后驗概率SVM的多類分類器,并應(yīng)用于空中目標分類,實驗結(jié)果表明,后驗概率支持向量機可以有效提高分類正確率。

表4 多類別分類中目標的后驗概率值及其所屬類別

3 0.00413558 0.0133134 0.981796 0.000421501 0.000333325 3 4 0.00353095 0.127527 0.0225832 0.845818 0.000541004 4 5 0.010623 0.0106912 0.0152331 0.00272993 0.960723 5 1 0.969591 0.00559093 0.0166665 0.00381363 0.00433755 1 2 0.00293516 0.672011 0.323081 0.000696744 0.001276 2 3 0.00381991 0.000753352 0.991478 0.000686705 0.0032617 3 4 0.00781341 0.0803295 0.0369331 0.814962 0.0599624 4 5 0.00598957 0.00591069 0.0103939 0.00213264 0.975573 5 1 0.973356 0.00452927 0.013324 0.00311687 0.00567392 1 2 0.00934335 0.948051 0.0187119 0.0111845 0.0127093 2 3 0.00333391 0.0793888 0.576721 0.337717 0.00283915 3 4 0.00436924 0.0789715 0.0161308 0.898253 0.00227517 4 5 0.0196133 0.00909373 0.0163751 0.00255307 0.952365 5 1 0.970823 0.00606837 0.00600331 0.00235171 0.0147534 1 2 0.00737461 0.973206 0.00794391 0.00182058 0.0096545 2 3 0.0105619 0.00568334 0.956984 0.0025174 0.0242538 3 4 0.00586149 0.0698278 0.0212333 0.887497 0.0155806 4 5 0.00757814 0.00965415 0.0225287 0.00381244 0.956427 5 1 0.951522 0.0173767 0.00536047 0.00562711 0.0201137 1 2 0.00207347 0.992592 0.00217638 0.00278346 0.000375063 2 3 0.00319638 0.067679 0.928009 0.000638311 0.000477201 3 4 0.00624763 0.0458183 0.0694339 0.80692 0.0715799 4 5 0.00554806 0.0277235 0.0450976 0.168463 0.753168 5 1 0.940864 0.0268203 0.00742096 0.00461744 0.020277 1 4 0.00470158 0.23067 0.27119 0.49006 0.00337813 2 3 0.00337171 0.026324 0.963727 0.00557892 0.000998284 3 4 0.00382561 0.093183 0.0157115 0.886434 0.000845728 4 5 0.00379318 0.0128395 0.0420917 0.0145445 0.926731 5

[1]WEN Chuanjun,ZHAN Yongzhao,CHEN Changjun.Maximal-margin minimal-volume hypersphere support vector machine[J].Control and Decision,2010,25(1):79-83(in Chinese).[文傳軍,詹永照,陳長軍.最大間隔最小體積球形支持向量機[J].控制與決策,2010,25(1):79-83.]

[2]SHEN Juhong,HUANG Yongdong.Fuzzy support vector machine based on possibility measure[J].Journal of Natural Science of Heilongjiang University,2012,29(2):204-206(in Chinese).[沈菊紅,黃永東.一種可能性測度的模糊支持向量機[J].黑龍江大學(xué)自然科學(xué)學(xué)報,2012,29(2):204-206.]

[3]SU Zhan,XIU Lixia.Review on support vector machine based on bayes theorem[J].Computer Applications and Software,2010,27(5):179-181(in Chinese).[蘇展,徐麗霞.基于貝葉斯理論的支持向量機綜述[J].計算機應(yīng)用與軟件,2010,27(5):179-181.]

[4]ZHANG Xiang,XIAO Xiaoling,XU Guangyou.Weighted posterior probability output for support vector machines[J].Journal of Tsinghua University(Natural Science),2007,47(10):1689-1691(in Chinese).[張翔,肖小玲,徐光祐.支持向量機方法中加權(quán)后驗概率建模方法[J].清華大學(xué)學(xué)報(自然科學(xué)版),2007,47(10):1689-1691.]

[5]LI Yongli,LIU Yanheng,XIAO Jiantao,et al.Incremental learning algorithm based on support vector machine[J].Journal of Jilin University(Science Edition),2010,48(3):464-467(in Chinese).[李永麗,劉衍珩,肖見濤,等.基于支持向量機的增量學(xué)習算法[J].吉林大學(xué)學(xué)報(理學(xué)版),2010,48(3):464-467.]

[6]HU Wenliang,WANG Huiwen.Prediction modeling based on Bayes support vector machine[J].Journal of Beijing University of Aeronautics and Astronautics,2010,36(4):486-489(in Chinese).[呼文亮,王惠文.基于貝葉斯準則的支持向量機預(yù)測模型[J].北京航空航天大學(xué)學(xué)報,2010,36(4):486-489.]

[7]ZHAO Chunjie,WANG Shuxun.Research of support vector machine in the primal[J].Journal of Shanxi University of Technology(Natural Science Edition),2010,26(2):58-64(in Chinese).[趙春婕,王樹勛.支持向量機原始問題研究綜述[J].陜西理工學(xué)院學(xué)報(自然科學(xué)版),2010,26(2):58-64.]

[8]YANG Zhiming,LIU Guangli.Principle and application of uncertainty support vector machines[M].Beijing:Science Press,2007:32-51(in Chinese).[楊志明,劉廣利.不確定性支持向量機原理及應(yīng)用[M].北京:科學(xué)出版社,2007:32-51.]

[9]ZHANG Shuning,WANG Fuli,YOU Fuqiang,et al.Robust least squares support vector machine based on robust learning algorithm and its application[J].Control and Decision,2010,25(8):1169-1172(in Chinese).[張淑寧,王福利,尤富強,等.基于魯棒學(xué)習的最小二乘支持向量機及其應(yīng)用[J].控制與決策,2010,25(8):1169-1172.]

[10]Mao Shasha,Jiao Licheng,Xiong Lin,et al.Greedy optimization classifiers ensemble based on diversity[J].Pattern Recognition,2011,44(6):1245-1261.

[11]Li Ye,Cai Yunze,Yin Rupo,et al.Support vector machine ensemble based on evidence theory for multi-class classification[J].Journal of Computer Research and Development,2008,45(4):571-578(in Chinese).[李燁,蔡云澤,尹汝潑,等.基于證據(jù)理論的多類分類支持向量機集成[J].計算機研究與發(fā)展,2008,45(4):571-578.]

[12]Indrajit Saha,Ujjwal Maulik,Sanghamitra Bandyopadhyay,et al.SVMeFC:SVM ensemble fuzzy clustering for satellite image segmentation[J].IEEE Geoscience and Remote Sensing Letters,2012,9(1):52-55.

[13]XING Qinghua,LIU Fuxian,WANG Lei,et al.On air targets recognition based on probability support vector machines[C]//Proceedings of the 30th Chinese Control Conference,2011:3239-3242(in Chinese).[邢清華,劉付顯,王磊,等.基于概率支持向量機的空中目標識別研究[C]//中國自動化學(xué)會控制理論專業(yè)委員會D卷(中國會議),2011:3239-3242.]

猜你喜歡
后驗訓(xùn)練樣本交叉
菌類蔬菜交叉種植一地雙收
反艦導(dǎo)彈輻射源行為分析中的貝葉斯方法*
三種常用周跳探測與修復(fù)方法的性能分析
人工智能
“六法”巧解分式方程
基于小波神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測研究
貝葉斯統(tǒng)計推斷思想探究與簡明綱要
連數(shù)
連一連
湘潭市| 山东省| 楚雄市| 闽清县| 新营市| 石嘴山市| 桦南县| 阿拉善盟| 蚌埠市| 岱山县| 阿鲁科尔沁旗| 婺源县| 克拉玛依市| 精河县| 田东县| 青岛市| 海淀区| 茶陵县| 页游| 扬中市| 阳西县| 东光县| 海盐县| 林州市| 美姑县| 民权县| 卫辉市| 南陵县| 商城县| 无为县| 成安县| 镇巴县| 阳东县| 嫩江县| 元阳县| 绥芬河市| 白河县| 黄石市| 屏东市| 平乡县| 来凤县|