LIBSVM，LIBLINEAR，SVM比較研究

2016-03-27 09:44:44崔萌張春雷濱州醫(yī)學(xué)院網(wǎng)絡(luò)信息中心濱州醫(yī)學(xué)院解剖教研室

數(shù)碼世界 2016年7期

崔萌張春雷.濱州醫(yī)學(xué)院網(wǎng)絡(luò)信息中心 .濱州醫(yī)學(xué)院解剖教研室

崔萌1張春雷2
1.濱州醫(yī)學(xué)院網(wǎng)絡(luò)信息中心 2.濱州醫(yī)學(xué)院解剖教研室

SVM是Vapnik等人在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上針對(duì)線性分類器提出的一種最佳分類準(zhǔn)則，被廣泛應(yīng)用于文本、圖像、語(yǔ)音等多個(gè)領(lǐng)域的分類問題。LIBSVM、LIBLINEAR、SVM是基于支持向量機(jī)（SVM）原理集成的兩類或多類分類器工具包，這三種工具均實(shí)現(xiàn)了對(duì)數(shù)據(jù)的最優(yōu)化分類，但彼此之間也有各自的特點(diǎn)。對(duì)于不同規(guī)模的數(shù)據(jù)集，即樣本數(shù)與特征數(shù)比例不同的數(shù)據(jù)集的分類結(jié)果會(huì)存在差異。因此，本文從訓(xùn)練時(shí)間（Training Time），分類準(zhǔn)確率（Precision）和采用的線性核函數(shù)（Kernel Function）這三個(gè)方面對(duì) 各個(gè)工具包的分類性能進(jìn)行詳細(xì)分析，從而給出三種工具的各自的優(yōu)缺點(diǎn)，以便為使用這三種工具的研究者們提供一些經(jīng)驗(yàn)支持。實(shí)驗(yàn)結(jié)果表明，針對(duì)線性可分的數(shù)據(jù)，LIBLINEAR工具包具有訓(xùn)練時(shí)間短，分類準(zhǔn)確率高的特點(diǎn)，非常適用于大規(guī)模數(shù)據(jù)的分類。

LIBSVM LIBLINEAR SVMmulticlass 比較研究

支持向量機(jī)（SVM，Suppor t Vector Machine）屬于一種線性分類器，是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC 維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的基礎(chǔ)上，根據(jù)有限的訓(xùn)練集，在模型的復(fù)雜性和學(xué)習(xí)性之間尋求最佳的折中，以獲得最好的泛化能力的經(jīng)典分類方法。對(duì)于SVM可以簡(jiǎn)單的理解為（以二分類為例）根據(jù)訓(xùn)練集中數(shù)據(jù)及其label找到一個(gè)分割面把兩類準(zhǔn)確的分開，分割面的確定是根據(jù)支持向量和分割面的距離最大化確定的。SVM是當(dāng)前最好的有監(jiān)督學(xué)習(xí)算法，它的出現(xiàn)解決了神經(jīng)網(wǎng)絡(luò)的局部最優(yōu)化的問題，得到全局最優(yōu)化，因此一經(jīng)提出到現(xiàn)在得到廣泛的應(yīng)用。

SVM是由SVMlight T具包發(fā)展而來(lái)的，是SVMlight的“升級(jí)版”。SVMlight是僅支持傳統(tǒng)二元分類自@SVMl ight2K具包，后由根據(jù)多分類的需求，由康奈爾大學(xué)的Thorsten Joachims開發(fā)并將SVMl ight集成為目前支持多元分類的SVM也是林智仁（Chih—Jen Lin）教授開發(fā)的，于2011年創(chuàng)建，它支持邏輯回歸和線性支持向量機(jī)，最新的版本為1.96，更新于2014年11月15日。LIBLINEAR是基于LIBSVM的基礎(chǔ)上提出的。LIBSVM、LIBLINEARTHSVM也是林智仁（Chih—Jen Lm）教授開發(fā)的，于2011年創(chuàng)建，它支持邏輯回歸和線性支持向量機(jī)，最新的版本為1.96，更新于2014年11月15日。LIBLINEAR是基于LIBSVM的基礎(chǔ)上提出的。LIBSVM、LIBLINEAR和SvM…l t”la”都是跨平臺(tái)的通用工具庫(kù)，其中LIBSVM和LIBLINEAR的版本更新比較近，支持windows/linux/macos系統(tǒng)，開發(fā)環(huán)境為C++，同時(shí)也有mat lab、python、j ava， c/c++擴(kuò)展接口，可在不同語(yǔ)言環(huán)境的使用。然而，雖然LIB SVM、LIBLINEAR和SVM都是基于SVM理論解決兩類及多類分類問題的工具，但是它們?cè)谑褂梅矫孢€是會(huì)有效果上的差別。例如對(duì)于LIBSVM，林智仁教授是這樣描述它的：LIBSVM is an integrated sof tware for support vector classif ication，（C—SVC， nu—svc），regression（epsi l on—SVR，nu—SVR）and dis t r ibut ion est imat ion（one—c lass SVM）.It suppor ts mul t i—c lass classi ficat ion.說(shuō)明LIBSVM是一個(gè)整合了支持向量機(jī)、回歸、分布估計(jì)的軟件，而且支持多類的分類。對(duì)于L I B L I N E AR，官網(wǎng)上是這樣介紹的： “LIBLINEAR is a linear c lassi f ier for data wi th mi l l ions of instances and features”，即主要專門為百萬(wàn)級(jí)數(shù)據(jù)和特征實(shí)現(xiàn)的線性分類器。因此本文從訓(xùn)練時(shí)間（Training Time），測(cè)試結(jié)果準(zhǔn)確率（Precision）以及是否采用線性核函數(shù)（Kernel Function）這三個(gè)方面進(jìn)行對(duì)上述三種工具包進(jìn)行對(duì)比分析。

1　SVM原理

支持向量機(jī)（Support Vector Machine，SVM），屬于線性分類器，它能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū)域，因此也稱為最大邊緣區(qū)分類器。它的原理是構(gòu)造一個(gè)或多個(gè)超平面（下面稱為決策面），將這個(gè)決策面放置在兩類中離超平面最近的點(diǎn)（支持向量）最遠(yuǎn)的位置。

這是一個(gè)在不等式約束下的優(yōu)化問題，求解過程用Lagrange方法，相關(guān)過程可參見C.J.C Burges 的《模式識(shí)別支持向量機(jī)指南》［10］［41，這里不做贅述。SVM對(duì)于無(wú)法直接線性可分的情況，引用核函數(shù)映射到高維空間，使其接近于或等于線性可分。并且為了不讓噪聲點(diǎn)影響決策面的確定，引入懲罰因子和松弛變量進(jìn)行優(yōu)化，這里也不做詳細(xì)介紹。

2　工具配置比較

SVM、LIBSVM乖HLIBLINEAR工具包中均存在訓(xùn)練程序和測(cè)試程序，但命名方式不同。通過訓(xùn)練集訓(xùn)練后會(huì)生成模型文件（model f ile），記錄 SVM模型的類別數(shù)、特征數(shù)、核函數(shù)類型、支持向量等模型必須的參數(shù)。LIBLINEAR不提供核函數(shù)選項(xiàng)，其本身可以理解為是一個(gè)線性分類器。SVM和 LIBSVM提供多種核函數(shù)供選擇，共同包含線性核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)，不同的是SVM還包含高斯核函數(shù)，而LIBSVM 則包含徑向基函數(shù)（RBF，Radial Basis Function）。SVM默認(rèn)為線性核函數(shù)，LIBSVM默認(rèn)為RBF。SVM對(duì)數(shù)據(jù)格式的要求也比較嚴(yán)格。它要求類別標(biāo)簽必須為整數(shù)，而且特征向量必須為正整數(shù)且升序排列。而LIBSVM和HLIBLINEAR并沒有這些要求，應(yīng)用更為方便。還有一個(gè)重要的不同是，SVM不提供自動(dòng)調(diào)參，尋找最優(yōu)參數(shù)的過程，而LIBSVM會(huì)通過網(wǎng)格遍歷的方法自動(dòng)尋找最優(yōu)的參數(shù)c fH3，使輸出模型為當(dāng)前配置下的最優(yōu)模型。這個(gè)方面的差異可能會(huì)給實(shí)驗(yàn)結(jié)果帶來(lái)負(fù)面影響。

3　樣本數(shù)大于特征數(shù)性能比較

3.1數(shù)據(jù)來(lái)源

在本章中，主要針對(duì)樣本數(shù)大于特征數(shù)的數(shù)據(jù)集的分類結(jié)果進(jìn)行對(duì)比研究。Train 1到Train 5數(shù)據(jù)集來(lái)自加利福尼亞大學(xué)爾灣分校（UCI，Universi ty of Cali fornia，Irvine）的機(jī)器學(xué)習(xí)知識(shí)庫(kù)（Machine Learning Repository），是（John C .Plat t et a1.1999）論文的數(shù)據(jù)集。Train 6來(lái)自于Delve Datasets，Train 7f fgLIBSVM具包自帶樣例數(shù)據(jù)集。

3.2訓(xùn)練時(shí)間比較

在比較訓(xùn)練時(shí)間的過程中，SVM、 LIBSVM和13LIBLINEAR在相同的可調(diào)參數(shù)選項(xiàng)中設(shè) 置了相同的參數(shù)。在訓(xùn)練數(shù)據(jù)中。Train 1至l j Train 5 為特征數(shù)相同但樣本數(shù)逐次增力N-i，）l l練數(shù)據(jù)，用以在等特征數(shù)的條件下進(jìn)行對(duì)比試驗(yàn)。Train 6fHTrain 7 是與訓(xùn)練數(shù)據(jù)Train 1至1］Train 5不同的數(shù)據(jù)集，為了驗(yàn)證這三種工具對(duì)不同數(shù)據(jù)集的泛化能力。在7種訓(xùn)練數(shù)據(jù)中，LIBLINEAR在訓(xùn)練時(shí)間方面的優(yōu)勢(shì)非常明顯，而且隨著樣本數(shù)與特征數(shù)比值的增大，訓(xùn)練時(shí)間的優(yōu)勢(shì)就更加明顯，例如，在Train l中sl f；為8.25時(shí)，LIBLINEARi）I｛練時(shí)間為L(zhǎng)IBSVM的0.191，但在Train 5中s/偽165.83 時(shí)，LIBLINEARJ，JI［練時(shí)間僅為L(zhǎng)IBSVMf l@O.014。SVM的訓(xùn)練時(shí)間小于LIBSVM，這樣的結(jié)果是因?yàn)镾VM的默認(rèn)核函數(shù)為線性核函數(shù)，而 LIBSVM的默認(rèn)核函數(shù)為徑向基函數(shù)（RBF，Radial Basis Function）。線性核函數(shù)的運(yùn)算時(shí)間小于徑向基函數(shù)。僅從數(shù)據(jù)的訓(xùn)練時(shí)間對(duì)三種工具作出的評(píng)價(jià)是片面的，所以下面比較了在相同訓(xùn)練集和測(cè)試集下的準(zhǔn)確率。

3.3分類準(zhǔn)確率比較

在進(jìn)行準(zhǔn)確率比較的實(shí)驗(yàn)中，SVM、 LIBSVM和LIBLINEAR均采用與上一節(jié)相同的配置、相同的訓(xùn)練數(shù)據(jù)。由實(shí)驗(yàn)數(shù)據(jù)可以看出，總體來(lái)看，SVM的準(zhǔn)確率要低于LIBSVM和LIBLINEAR。對(duì)于 LIBSVM和LIBLINEAR，在s/f/｝、的情況、LIBSVM的準(zhǔn)確率要優(yōu)于LIBLINEAR，然而在sl t’N日大的過程中，LIBLINEAR的準(zhǔn)確率逐漸優(yōu)于LIBSVM，并且隨著s/f的值越大，準(zhǔn)確率的差距越明顯。

3.4結(jié)論

在實(shí)際應(yīng)用中，數(shù)據(jù)集樣本數(shù)大于特征數(shù)的情況是比較普遍的，因此3.2和3.3中的實(shí)驗(yàn)中重點(diǎn)考慮了這種情況下SVM、LIBSVM和WLIBLINEAR 在訓(xùn)練時(shí)間和準(zhǔn)確率方面的比較。結(jié)合訓(xùn)練時(shí)間和準(zhǔn)確率兩方面來(lái)看，LIBLNEAR在訓(xùn)練時(shí)間上的優(yōu)勢(shì)很大，而且在s/大的情況下，無(wú)論訓(xùn)練時(shí)間和準(zhǔn)確率都占優(yōu)，因此在樣本數(shù)大于特征數(shù)時(shí)，當(dāng)樣本數(shù)的數(shù)量級(jí)比較大，LIBLINEAR的表現(xiàn)最佳： LIBSVM在樣本數(shù)相對(duì)較小的情況下準(zhǔn)確率是最高的，訓(xùn)練時(shí)間與LIBLINEAR相差很小，且均為毫秒級(jí)，這種差距在實(shí)際應(yīng)用中基本可以忽略，所以在樣本數(shù)與特征數(shù)比值較小時(shí)，LIBSVM的表現(xiàn)最佳：SVMmul t ic lass雖然在訓(xùn)練時(shí)間和準(zhǔn)確率方面均還算可觀，但均不是效果最好的，而且從前面介紹的更新時(shí)間為2008年，而LIBSVM幣ILIBLINEAR為2014年，這個(gè)工具在近幾年并沒有更新，可以間接推斷出SVM對(duì)于當(dāng)前數(shù)據(jù)類型的適應(yīng)能力也沒有LIBSVM幣ILIBLINEAR表現(xiàn)好，因此我們?cè)谙旅娴膶?shí)驗(yàn)中只對(duì)LIBSVM乖ILIBLINEAR進(jìn)行比較。

4　特征數(shù)大于樣本數(shù)性能比較

4.1數(shù)據(jù)來(lái)源

本節(jié)主要對(duì)樣本數(shù)遠(yuǎn)小于特征數(shù)的數(shù)據(jù)集進(jìn)行對(duì)比分析。Train 8來(lái)自（T.R.Golub et a1.，1998）‘7］論文的數(shù)據(jù)集，Train 9J陲自（M.Westet a1.，1998）‘6］論文的數(shù)據(jù)集，Train 10來(lái)自（U.Alon et a1.，1999）惻論文的數(shù)據(jù)集。4.2訓(xùn)練時(shí)間比較在訓(xùn)練時(shí)間的比較實(shí)驗(yàn)中，L I B S vM和LIBLINEAR均采用默認(rèn)設(shè)置。由于網(wǎng)絡(luò)上可利用的被公認(rèn)為的特征數(shù)大于樣本數(shù)的數(shù)據(jù)集比較少，所以本章只給出了三組實(shí)驗(yàn)結(jié)果比較。其中Train 8和 Train 9在相同的特征數(shù)條件下做對(duì)比試驗(yàn)，Train 10 為不同類型特征數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果。

可以看出，LIBLINEAR的訓(xùn)練時(shí)間在三種訓(xùn)練集下均仁？，LIBSVM快。而且隨著s/增大， LIBLINEAR在訓(xùn)練時(shí)間方面的優(yōu)勢(shì)越明顯。這種時(shí)間的差距主要是因?yàn)長(zhǎng)IBLINEAR沒有計(jì)算核函數(shù)參數(shù)（kernel value），而LIBSVM要計(jì)算RBF的核函數(shù)參數(shù)Y，而且特征數(shù)比較大，使特征維度很高，對(duì)于核函數(shù)的計(jì)算也增加了難度，因止LLIBLINEAR的速度會(huì)明顯快于LIBSVM。但是近從訓(xùn)練時(shí)間就對(duì)樣本數(shù)遠(yuǎn)小于特征數(shù)的數(shù)據(jù)集情況下兩種工具的優(yōu)劣進(jìn)行評(píng)價(jià)明顯很單薄，所以在相同的條件下進(jìn)行了準(zhǔn)確率的比較。

4.3從分類準(zhǔn)確率比較

在準(zhǔn)確率的比較實(shí)驗(yàn)中，采用了與5.1同樣實(shí)驗(yàn)配置和數(shù)據(jù)集。由上述實(shí)驗(yàn)數(shù)據(jù)可以看出，LIBLINEAR在三種訓(xùn)練集下的準(zhǔn)確率均I：kLIBSVM要高。造成這樣的結(jié)果可能因?yàn)楫?dāng)特征維度相對(duì)樣本數(shù)很大的情況下，每個(gè)樣本的分類依據(jù)很強(qiáng)，線性分類器就足以將其準(zhǔn)確的分開。但對(duì)于LIBSVM，由于上述樣本中的數(shù)據(jù)過少，對(duì)于RBF核函數(shù)參數(shù)的調(diào)節(jié)不是很充分，所以會(huì)造成準(zhǔn)確率的不理想。

4.4結(jié)論

在實(shí)際應(yīng)用中，特征數(shù)與樣本數(shù)的比值較大的情況相對(duì)較少，例如，自然語(yǔ)言處理（NLP）的關(guān)系抽取。由4.2和4.3的比較結(jié)果可以看出，在特征數(shù)與樣本數(shù)的比值較大的情況下，LIBLINEAR無(wú)論在訓(xùn)練時(shí)間和準(zhǔn)確率方面都要優(yōu)于LIBSVM。造成這種絕對(duì)的情況說(shuō)明線性分類在處理特征數(shù)遠(yuǎn)大于樣本數(shù)的數(shù)據(jù)集有著絕對(duì)的優(yōu)勢(shì)。

5　總結(jié)

SVM、LIBSVM和ILIBLINEAR是當(dāng)前比較常用的三個(gè)基于SVM原理的分類工具。由我們的實(shí)驗(yàn)結(jié)果可以看出，在特征數(shù)與樣本數(shù)的比值較大的情況下，利用LIBLINEART時(shí)間和準(zhǔn)確率均有著很大的優(yōu)勢(shì)：在樣本數(shù)遠(yuǎn)大于特征數(shù)的情況下，LIBLINEAR的效果的優(yōu)勢(shì)也非常明顯。因此在處理數(shù)據(jù)量或數(shù)據(jù)特征量非常大的情況下，宜利用LIBLINEAR進(jìn)行分類。在特征數(shù)和樣本數(shù)相對(duì)較小的情況下，雖然利用LIB SVM的訓(xùn)練時(shí)間比LIBLINEAR要長(zhǎng)，但這個(gè)訓(xùn)練時(shí)間是在完全可以接受的范圍內(nèi)，而且準(zhǔn)確率最高，所以宜采用 LIBSVM。SVM的處理效果適中，但沒有突出的優(yōu)勢(shì)，而且參數(shù)也不能自動(dòng)調(diào)參，而需要人工設(shè)定，所以在大部分情況下建議使用LIBSVM和LIBLINEAR。

［1］Rong—En Fan，Kai—Wei Chang，Cho—Jui Hsieh，Xiang—Rui Wang，Chih—Jen Lin.LIBLINEAR：A Library for Large Linear Cl assi f icat ion，Journa l of Machine Learning Research 9（2008）187 1—1 874.

［2］K.Crammer and Y.Singer.Ont heAl gorithmic Imp lementation of Multi—class SVMs，JMLR，2001.

［3］I.Tsochantar idis，T.Hofmann，T.Joachims，and YAl tun.Support Vector Learning for Interdependent and Structured Output Spaces，ICML，2004.

［4］ Chih—W西Hsu，Chih—Chung Chang，and Chih—Jen Lin .A pract ical guide to supportvector classification . Technical report，Department of Computer Science，Nat ional Taiwan University，2003.

［5］C.一C.Chang and C.一J.Lin.LIBSVM：a library for suppor tvector machines.ACM Transactions on Intel ligent Systems and Technology，2：27：1一一27：27，2011.

［6］ M.West，C.Blanchet te，H.Dressman，E.Huang，S. Ishida，R.Spang，H.Zuzan，J.A.Ol son，Jr.，J.R. Marks，and J.R.Nevins.Predicting the clinical status ofhuman breast cancer by using gene expression prof i les .Proceedings of the National Academy of Sciences，98： 11462—11467，2001.

［7］T.R.Golub，D.K.Slonim，P.Tamayo，C.Huard，M. Gaasenbeek，J.P.Mesirov，H.Col ler，M.L.Loh， J.R. Downing，M.A.Cal igiur i，C.D.Bloomf ield， and E，S .Lander.Molecular classi fication of cancer： class d iscovery and class predi ction by gene expression monitoring.Science，286（5439）：53 1，1999.

［8］.b1111 C.Plat t.Fast training of suppor t vec tor machines using sequent ia lminimalop timizat ion. In Bernhard Sch61kopf，Chr is topher J.C.Burges，and Alexander J. Smola，edi tors，Advances in Kernel Methods—Support Vector Learning，Cambr idge，MA，1 998 .

［9］U.Alon，N.Barkai，D.A.Not terman，K.Gish， S. Ybarra，D.Mack，and A.J.Levine.Broad paaems of gene expression revealed by cluster ing analysis of tumor and normal colon tissues probed by 01igonucleotidear rays. Cell Biology，96：6745—6750.1999.

［10］Burges C J C.A tutorial on support vector machines for pat tern recogni tion［J］.Data mining and knowledge discovery，1998，2（2）：121—167.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

LIBSVM，LIBLINEAR，SVM比較研究

1 SVM原理

2 工具配置比較

3 樣本數(shù)大于特征數(shù)性能比較

4 特征數(shù)大于樣本數(shù)性能比較

5 總結(jié)

1　SVM原理

2　工具配置比較

3　樣本數(shù)大于特征數(shù)性能比較

4　特征數(shù)大于樣本數(shù)性能比較

5　總結(jié)