国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多類支持向量機(jī)分類技術(shù)及實(shí)證

2015-02-18 04:56韓兆洲林少萍鄭博儒
統(tǒng)計(jì)與決策 2015年19期
關(guān)鍵詞:訓(xùn)練樣本分類器向量

韓兆洲,林少萍,鄭博儒

(暨南大學(xué) 經(jīng)濟(jì)學(xué)院統(tǒng)計(jì)學(xué)系,廣州 510632)

0 引言

支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)是由Vapnik與其領(lǐng)導(dǎo)的貝爾實(shí)驗(yàn)室研究小組開發(fā)研究的一種新的機(jī)器學(xué)習(xí)技術(shù),誕生于20世紀(jì)60年代,成熟于90年代中期,成為機(jī)器學(xué)習(xí)領(lǐng)域新的研究熱點(diǎn),已被廣泛運(yùn)用于航空、醫(yī)療、水利、金融等相關(guān)領(lǐng)域。支持向量機(jī)模式識(shí)別準(zhǔn)確率與預(yù)測(cè)精確度均高于聚類分析、判別分析、神經(jīng)網(wǎng)絡(luò)等方法。支持向量機(jī)的技術(shù)特色,通過核函數(shù)實(shí)現(xiàn)特征空間映射,有效地解決了分類中普遍存在的小樣本、非線性、高維數(shù)和局部極小點(diǎn)等問題。目前支持向量機(jī)在處理分類和回歸問題上已相對(duì)成熟,知識(shí)架構(gòu)縱深拓展,適用于各種研究領(lǐng)域,但在多類問題上尚未被廣泛應(yīng)用,算法設(shè)計(jì)與實(shí)證分析仍然鮮見。

我國中小企業(yè)已經(jīng)成為社會(huì)經(jīng)濟(jì)發(fā)展的重要支柱之一。據(jù)統(tǒng)計(jì),我國中小企業(yè)已占企業(yè)總數(shù)的99%以上,實(shí)現(xiàn)工業(yè)總產(chǎn)值比重為60%。中小企業(yè)的生產(chǎn)經(jīng)營方式契合了人類自身的多樣化需求,具有分散性、家庭化等特色,在可持續(xù)發(fā)展模式下的中國經(jīng)濟(jì)市場(chǎng),中小企業(yè)快速健康發(fā)展,能有效解決就業(yè),促進(jìn)科技進(jìn)步,實(shí)現(xiàn)社會(huì)穩(wěn)定。然而,融資難題一直成為制約中小企業(yè)發(fā)展的瓶頸。政府對(duì)中小企業(yè)的資金支持有限,如何完善中小企業(yè)信用擔(dān)保體制,建立銀企信貸支持系統(tǒng)仍是解決融資難題的關(guān)鍵。

本文創(chuàng)新性地應(yīng)用多類支持向量機(jī)技術(shù),通過對(duì)中小企業(yè)信用風(fēng)險(xiǎn)的綜合評(píng)價(jià)實(shí)例,從多類角度識(shí)別企業(yè)的信用歸類,不僅為政府部門和銀行機(jī)構(gòu)提供信貸依據(jù),同時(shí),也將促進(jìn)企業(yè)健康發(fā)展,營造符合自身的發(fā)展模式。

1 多類支持向量機(jī)分類技術(shù)理論依據(jù)

目前支持向量機(jī)在多類問題應(yīng)用上以及算法設(shè)計(jì)上仍然鮮見。如何將支持向量機(jī)技術(shù)從二類識(shí)別拓展到多類識(shí)別,這不僅具有重要的理論研究意義,更具有重要的實(shí)踐操作價(jià)值。本文認(rèn)為解決該難題,有兩種方法可以考慮:一是在最優(yōu)化問題中考慮多類識(shí)別,如1998年Weston提出的全局優(yōu)化法,該方法成倍地增加了計(jì)算的復(fù)雜度,可行性較低;二是將多類問題轉(zhuǎn)化為多個(gè)二類問題,該方法雖然加大了程序的運(yùn)算量,但沒有方法上的限制,實(shí)用性較強(qiáng)。本文將采用第二種方法將二類拓展到多類,屬于方法上的創(chuàng)新,并將研究對(duì)象深入到具有代表性的中小企業(yè),使研究更富針對(duì)性。

1.1 二類支持向量機(jī)(B-SVM)

構(gòu)造序列(x1,x2,…,xN),N為訓(xùn)練樣本數(shù),其中,因素xi為第i個(gè)樣本的各指標(biāo)值,表示為xi=(xi1,xi2,…,xiM),其中M為指標(biāo)總數(shù),假定訓(xùn)練樣本的分類結(jié)果為Y=(y1,y2,…,yN),其中,yi=1或 -1,表示每個(gè)樣本的二類分類結(jié)果。二類支持向量機(jī)的基本思想是獲取超平面w·x+b=0將多維特征空間X精確劃分,其中滿足方程w·x+b=±1的向量x稱為支持向量。當(dāng)超平面對(duì)特征空間不完全可分時(shí),通過添加松弛項(xiàng)ξi≥0,使特征空間在ξi的誤差范圍內(nèi)完全可分,并建立約束條件:

為了獲取最優(yōu)超平面,必須使得二類間距最大。已知支持向量間距為2‖w‖,因此,最優(yōu)化目標(biāo)等價(jià)于求的最小值。另外,由于增加了松弛項(xiàng)ξi,折衷考慮最小錯(cuò)分樣本和最大分類間隔,引入常數(shù)C對(duì)錯(cuò)分樣本進(jìn)行懲罰,歸結(jié)出最優(yōu)化目標(biāo):

求解上述最優(yōu)化問題,引入Lagrange乘子αi≥0,i=1,…,N,滿足0≤αi≤C,運(yùn)用對(duì)偶原理,求得最優(yōu)化分類函數(shù)為:

結(jié)合訓(xùn)練結(jié)果,將測(cè)試樣本值輸入式子(4)得出預(yù)測(cè)結(jié)果,并于初始分類進(jìn)行對(duì)比分析,可得出支持向量機(jī)分類技術(shù)的預(yù)測(cè)準(zhǔn)確度。

1.2 多類支持向量機(jī)(M-SVM)

一般而言,二類支持向量機(jī)技術(shù)廣泛適用于模式識(shí)別領(lǐng)域,但對(duì)于信用綜合評(píng)價(jià)問題,二類方法卻遠(yuǎn)遠(yuǎn)不足,有必要向多類方向拓展。在統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域,多類分類器的設(shè)計(jì)已然成為新的研究熱點(diǎn),而目前較為成熟的設(shè)計(jì)方法有二類組合法、導(dǎo)向無環(huán)圖、二叉樹、糾錯(cuò)輸出編譯法。本文主要運(yùn)用二類組合法對(duì)中小企業(yè)進(jìn)行信用評(píng)級(jí)分類,其分為“一對(duì)多”和“一對(duì)一”兩種。

(1)“一對(duì)多”法,簡(jiǎn)稱OAA(one against all)。是指對(duì)于M類問題,構(gòu)造M個(gè)BSVM,在第i個(gè)BSVM中將第i類的訓(xùn)練樣本歸為一類,其他訓(xùn)練樣本歸為另一類,訓(xùn)練得出M個(gè)決策函數(shù)的方法。該方法對(duì)樣本進(jìn)行測(cè)試時(shí),將指標(biāo)值輸入,可得到M個(gè)輸出結(jié)果,若在其中的第k個(gè)BSVM輸出“+1”,則該樣本屬于第k類;若輸出結(jié)果中均沒有出現(xiàn)“+1”或者不止出現(xiàn)一個(gè)“+1”,則找出其中g(shù)(x)的最大輸出值,對(duì)應(yīng)的BSVM則為該測(cè)試樣本所屬的類,因此,該方法存在一定的決策盲區(qū)。

以四類分類器為例,如圖1(a)所示,區(qū)域G1、G3、G7、G9的判別結(jié)果中包括兩個(gè)“+1”,需根據(jù)正值大小進(jìn)行類型識(shí)別;區(qū)域G2、G4、G6、G8的判別結(jié)果中只有一個(gè)“+1”,分別歸屬于D、A、B、C類;區(qū)域G5的判別結(jié)果中不存在“+1”,即所謂的決策盲區(qū),需根據(jù)負(fù)值大小進(jìn)行識(shí)別。

(2)“一對(duì)一”法。是指對(duì)于N類問題,將訓(xùn)練樣本中任意兩類抽出構(gòu)造BSVM,以此計(jì)算,總共構(gòu)造M(M-1)/2個(gè)BSVM,整合全部則為一對(duì)一多類支持向量機(jī)的方法。其中,對(duì)于每個(gè)BSVM,通過最優(yōu)化理論計(jì)算決策函數(shù),即總共有M(M-1)/2個(gè)決策函數(shù)。將要測(cè)試的樣本數(shù)據(jù)輸入這些函數(shù),得出M(M-1)/2個(gè)結(jié)果。結(jié)果中出現(xiàn)頻率最高的類即為該樣本所屬的類。

以四類分類器為例,如圖1(b)所示,利用六條直線表示表示6個(gè)BSVM的決策函數(shù),判別結(jié)果顯示,區(qū)域G1、G2、G3、G4、G17、G18屬于D類;區(qū)域G5、G6、G7屬于C類;區(qū)域G8、G9、G13、G14、G15、G16屬于B類;區(qū)域G10、G11、G12屬于A類,不存在決策盲區(qū)。

圖1 支持向量機(jī)四類分類器區(qū)域劃分情況

2 多類支持向量機(jī)實(shí)證基礎(chǔ)

2.1 構(gòu)建中小企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)

指標(biāo)構(gòu)建是綜合評(píng)價(jià)的基本前提,本文以企業(yè)整體經(jīng)營規(guī)模、財(cái)務(wù)狀況、現(xiàn)金流量為主,按照指標(biāo)體系構(gòu)建的適應(yīng)性、針對(duì)性、可測(cè)性、全面性和非相關(guān)性等原則,參考國際權(quán)威投資信用評(píng)估機(jī)構(gòu)——穆迪投資者服務(wù)公司(Moody's Investors Service)企業(yè)資信財(cái)務(wù)評(píng)估指標(biāo),初選了經(jīng)濟(jì)實(shí)力、償債能力、營運(yùn)能力、盈利能力、成長(zhǎng)能力、現(xiàn)金流量等6大項(xiàng)20個(gè)財(cái)務(wù)指標(biāo)。并從財(cái)經(jīng)網(wǎng)站上獲取評(píng)估對(duì)象(深證交易所中小企業(yè)板塊信息技術(shù)行業(yè)50家企業(yè))的財(cái)務(wù)數(shù)據(jù),通過數(shù)據(jù)的預(yù)處理,其結(jié)果顯示,流動(dòng)比率和速動(dòng)比率的相關(guān)系數(shù)為0.996,流動(dòng)比率和現(xiàn)金比率的相關(guān)系數(shù)為0.985,速動(dòng)比率和現(xiàn)金比率的相關(guān)系數(shù)為0.994,流動(dòng)資產(chǎn)周轉(zhuǎn)率和總資產(chǎn)周轉(zhuǎn)率的相關(guān)系數(shù)為0.971,銷售凈利率和成本費(fèi)用利潤(rùn)率的相關(guān)系數(shù)為0.983,經(jīng)營現(xiàn)金凈流量對(duì)負(fù)債比率和現(xiàn)金流量比率的相關(guān)系數(shù)為0.998,具體結(jié)果限于篇幅略去。為了評(píng)價(jià)結(jié)果的精確性,剔除相關(guān)程度高的累贅指標(biāo),如流動(dòng)比率、現(xiàn)金比率、總資產(chǎn)周轉(zhuǎn)率、成本費(fèi)用利潤(rùn)率、經(jīng)營現(xiàn)金凈流量對(duì)負(fù)債比率等5個(gè)指標(biāo)。最終確定中小企業(yè)6大項(xiàng)15個(gè)信用風(fēng)險(xiǎn)指標(biāo)體系如下:

圖2 中小企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系

2.2 中小企業(yè)信用水平的初步評(píng)估

本文考察對(duì)象為深圳證券交易所中小企業(yè)板塊信息技術(shù)行業(yè)中50個(gè)企業(yè),數(shù)據(jù)取自2010年年度財(cái)務(wù)報(bào)表。經(jīng)查閱,還沒有相關(guān)機(jī)構(gòu)對(duì)以上企業(yè)進(jìn)行信用評(píng)估,企業(yè)的信用水平排名也沒有得到初步認(rèn)證。根據(jù)支持向量機(jī)多類分類的算法要求,訓(xùn)練樣本必須事先歸類,為此,必須先對(duì)上述企業(yè)的信用水平進(jìn)行初步排名。為使初評(píng)結(jié)果更具合理性,下面綜合了主成分分析法、因子分析法、層次分析法、專家評(píng)估法等四種方法,并對(duì)結(jié)果進(jìn)行組合評(píng)價(jià),得出企業(yè)綜合排名如下表,并以30%、30%、30%、10%的比重將企業(yè)分為四類,即信用水平高、中、低、差(即A、B、C、D)。

表1 研究樣本的初始分類結(jié)果(組合評(píng)價(jià)法)

3 多類支持向量機(jī)算法設(shè)計(jì)

3.1 樣本選取和數(shù)據(jù)再處理

針對(duì)本數(shù)據(jù)樣本的特點(diǎn),若以規(guī)格化后數(shù)據(jù)為輸入值,即為50×15的矩陣,列數(shù)太多,通過支持向量機(jī)算法運(yùn)行,極有可能出現(xiàn)過度擬合現(xiàn)象,即不管數(shù)據(jù)質(zhì)量如何,分類結(jié)果正確率均達(dá)到100%。為了滿足算法的可行性,對(duì)數(shù)據(jù)進(jìn)行第二次處理,將6大項(xiàng)的各個(gè)小項(xiàng)數(shù)值加權(quán)(權(quán)重以層次分析法方案層權(quán)重為準(zhǔn)),合計(jì)各大項(xiàng)的得分,將矩陣進(jìn)行降維,變成50×6的矩陣。隨機(jī)選擇35個(gè)樣本作為訓(xùn)練樣本,包括10個(gè)A類、10個(gè)B類、12個(gè)C類、3個(gè)D類;另外的15個(gè)樣本作為測(cè)試樣本。

3.2 算法步驟

表2 “一對(duì)多”多類分類器輸出結(jié)果

(1)“一對(duì)多”法:建立4個(gè)BSVM,分別為[A Vs(B,C,D)],[B Vs(A,C,D)],[C Vs(A,B,D)],[D Vs(A,B,C)]。得出各自的分類決策函數(shù),當(dāng)采用線性方法時(shí),其中φ(xj)=xj。將測(cè)試樣本數(shù)據(jù)作為輸入值,以各決策函數(shù)輸出結(jié)果作為測(cè)試企業(yè)信用評(píng)價(jià)的依據(jù)。

(2)“一對(duì)一”法:建立4×(4 -1) 2=6個(gè)BSVM,分別為(A Vs B),(A Vs C),(A Vs D),(B Vs C),(B Vs D),(C Vs D),求出各自的決策函數(shù),將測(cè)試樣本數(shù)據(jù)輸入各決策函數(shù),判別輸出結(jié)果中各類的頻率,頻率最大的則為該企業(yè)的歸類。本文運(yùn)用Markway軟件中支持向量機(jī)功能模塊,計(jì)算相應(yīng)的輸出值與分類結(jié)果如表2和表3。

4 多類支持向量機(jī)實(shí)證分析

4.1 “一對(duì)多”法多類分類器運(yùn)算結(jié)果分析

分類結(jié)果顯示,測(cè)試的準(zhǔn)確率為10/15=66.7%,誤判的樣本均為A或C類樣本,且測(cè)試結(jié)果均為類別B。其中,[B Vs(A,C,D)],[C Vs(A,B,D)]兩個(gè)BSVM的訓(xùn)練精度明顯比其他兩個(gè)差,這在一定程度上是由于多樣本組合如(A,C,D)和(A,B,D)的空間不連貫性所致。為了消除這種因素的影響,下面進(jìn)行“一對(duì)一”多類分類。

4.2 “一對(duì)一”法多類分類器運(yùn)算結(jié)果分析

分類結(jié)果顯示,測(cè)試的準(zhǔn)確率為10/15=66.7%,其中兩個(gè)D類樣本均上升為C類,另外漢王科技與雷柏科技下降為B類,銀河電子從B類將為C類。從組合評(píng)價(jià)排名中可以看出,這三家企業(yè)均排在該類別信用水平的末端,存在降級(jí)的危險(xiǎn),分類的結(jié)果沒有存在顯著差錯(cuò)。上述分析充分顯示了“一對(duì)一”多類分類器具有準(zhǔn)確度高,綜合評(píng)價(jià)性能強(qiáng)的特征。

表3 “一對(duì)一”多類分類器輸出結(jié)果

5 結(jié)論與展望

(1)綜上所述,將多類支持向量機(jī)分類技術(shù)應(yīng)用于中小企業(yè)信用評(píng)價(jià),與原始分類結(jié)果進(jìn)行對(duì)比,得知“一對(duì)多”、“一對(duì)一”兩種方法的精確度相近,但“一對(duì)一”方法更具參考價(jià)值。由此體現(xiàn)支持向量機(jī)技術(shù)的優(yōu)越性,克服其它綜合評(píng)價(jià)方法的主觀性、小樣本問題等缺陷,具有較高預(yù)測(cè)精度。

(2)通過多類支持向量機(jī)技術(shù)識(shí)別中小企業(yè)信用水平,在加深對(duì)企業(yè)經(jīng)營水平、經(jīng)營模式的認(rèn)識(shí)的同時(shí),對(duì)加強(qiáng)企業(yè)管理體制改革,從而提高企業(yè)的良性競(jìng)爭(zhēng)力,建立依托于中小企業(yè)體系的政府或銀行資金支持系統(tǒng),具有重要的現(xiàn)實(shí)意義。

(3)本文將支持向量機(jī)中的二類拓展到多類,屬于方法上的創(chuàng)新,并將研究對(duì)象深入到具有代表性的中小企業(yè),使研究結(jié)果更富針對(duì)性。

(4)由于中小企業(yè)自身的特點(diǎn),對(duì)其進(jìn)行信用綜合評(píng)價(jià)時(shí),可進(jìn)一步量化包括企業(yè)體制規(guī)模、管理組織因素、信用記錄在內(nèi)的定性指標(biāo),結(jié)合財(cái)務(wù)指標(biāo)進(jìn)行綜合分析,使評(píng)價(jià)結(jié)果更加全面化。

[1]薛寧靜.多類支持向量機(jī)分類器對(duì)比研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,(5).

[2]姚奕,葉中行.基于支持向量機(jī)的銀行客戶信用評(píng)估系統(tǒng)研究[J].系統(tǒng)仿真學(xué)報(bào),2004,(4).

[3]汪曉玲.支持向量機(jī)在銀行客戶信用評(píng)估中的應(yīng)用[J].科學(xué)技術(shù)與工程,2007,(8).

[4]肖文兵,費(fèi)奇.基于支持向量機(jī)的個(gè)人信用評(píng)估模型及最優(yōu)參數(shù)選擇研究[J].系統(tǒng)工程理論與實(shí)踐,2006,(10).

[5]劉閩,林成德.基于支持向量機(jī)的商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估模型[J].廈門大學(xué)學(xué)報(bào),2005,(1).

猜你喜歡
訓(xùn)練樣本分類器向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
人工智能
基于差異性測(cè)度的遙感自適應(yīng)分類器選擇
基于實(shí)例的強(qiáng)分類器快速集成方法
基于小波神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測(cè)研究
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
基于層次化分類器的遙感圖像飛機(jī)目標(biāo)檢測(cè)
德保县| 怀柔区| 镇远县| 霞浦县| 梁山县| 黔西县| 上栗县| 区。| 宁国市| 都安| 靖江市| 阳山县| 宁河县| 武义县| 滨州市| 鹤壁市| 延津县| 泉州市| 永定县| 高碑店市| 淳化县| 阳江市| 南京市| 南通市| 日土县| 台江县| 同江市| 沙雅县| 息烽县| 藁城市| 寻乌县| 棋牌| 东海县| 黎川县| 元氏县| 甘洛县| 桃园县| 弥勒县| 内江市| 新邵县| 铜陵市|