趙嶺峰
摘要:支持向量機(jī)是20世紀(jì)90年代中期發(fā)展起來的機(jī)器學(xué)習(xí)技術(shù),在眾多分類算法中,支持向量機(jī)因其出色的學(xué)習(xí)能力,成為機(jī)器學(xué)習(xí)界的研究熱點(diǎn)。著重于介紹支持向量機(jī),先把采集來的企業(yè)申報(bào)數(shù)據(jù)隨機(jī)分為訓(xùn)練樣本和測(cè)試樣本,然后通過臺(tái)灣大學(xué)林智仁(Lin Chih-Jen)副教授開發(fā)設(shè)計(jì)的支持向量機(jī)工具LIBSVM,用訓(xùn)練樣本獲得SVM模型,并用這個(gè)SVM模型預(yù)測(cè)測(cè)試樣本企業(yè)是否有問題,通過已知結(jié)果得到模型預(yù)測(cè)的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果說明該方法是一種有效的方法,完全可以作為稅務(wù)稽查選案的參考。
關(guān)鍵詞:稅務(wù)稽查選案;支持向量機(jī);機(jī)器學(xué)習(xí)
中圖分類號(hào):F810.42 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-7394(2016)02-0022-04
稅務(wù)稽查選案,即通過計(jì)算機(jī)、人工或兩者相結(jié)合的方法,對(duì)各類稅務(wù)信息進(jìn)行歸集分類處理,在眾多納稅人、扣繳義務(wù)人中選定最有可能有問題的對(duì)象。稅務(wù)稽查選案目前廣泛應(yīng)用方法是以信息化手段調(diào)取指標(biāo)偏差厲害的納稅人,然后逐戶分析可能存在的問題,通過人工篩選,依靠以往的稽查和征管工作經(jīng)驗(yàn),確定檢查方向和檢查對(duì)象。
在本文中我們將嘗試使用另一種方法(20世紀(jì)90年代中期發(fā)展起來的機(jī)器學(xué)習(xí)技術(shù)——支持向量機(jī)),來分析判斷企業(yè)是否存在問題。支持向量機(jī)是一種機(jī)器學(xué)習(xí)的方法,它從訓(xùn)練資料中學(xué)習(xí)并建立一個(gè)模型,并通過此模型推測(cè)新的實(shí)例,可以廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析。目前,這一機(jī)器學(xué)習(xí)方法已在多個(gè)方向上得到應(yīng)用,如人臉檢測(cè),汽輪發(fā)電機(jī)組的故障診斷,文本挖掘,手寫體相似字識(shí)別,巖爆預(yù)測(cè)的支持向量機(jī)等。
1 SVM簡(jiǎn)介
支持向量機(jī)(Support Vector Machine,SVM)是Corinna Cortes和Vapnik8等于1995年首先提出的,它通過尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來提高學(xué)習(xí)機(jī)泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,從而達(dá)到在統(tǒng)計(jì)樣本量較少的情況下,亦能獲得良好統(tǒng)計(jì)規(guī)律的目的。因?yàn)樗诮鉀Q小樣本、非線性及高維模式識(shí)別中表現(xiàn)出的許多特有的優(yōu)勢(shì),所以研究發(fā)展迅速,現(xiàn)在已經(jīng)在許多領(lǐng)域(生物信息學(xué),文本和手寫識(shí)別等)都取得了成功的應(yīng)用。
支持向量機(jī)是一種機(jī)器學(xué)習(xí)的方法,它從訓(xùn)練資料中學(xué)習(xí)并建立一個(gè)模型,并通過此模型預(yù)測(cè)任何可能出現(xiàn)的輸入的值的輸出。訓(xùn)練資料是由輸入(如企業(yè)申報(bào)數(shù)據(jù))和預(yù)期輸出(如稽查結(jié)果,有無問題)所組成。
SVM的主要思想可以概括為兩點(diǎn):它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。
SVM是一種有堅(jiān)實(shí)理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測(cè)度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計(jì)方法。從本質(zhì)上看,它避開了從歸納到演繹的傳統(tǒng)過程,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡(jiǎn)化了通常的分類和回歸等問題。
SVM的最終決策函數(shù)只由少數(shù)的支持向量所確定,計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。而少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡(jiǎn)單,而且具有較強(qiáng)的健壯性。例如增、刪非支持向量樣本對(duì)模型幾乎沒有影響,下面我們的實(shí)驗(yàn)也會(huì)體現(xiàn)這一點(diǎn)。
2 實(shí)驗(yàn)分析
2.1 實(shí)驗(yàn)?zāi)康?/p>
驗(yàn)證通過svm分類算法建立的企業(yè)模型,對(duì)未知企業(yè)是否有問題的預(yù)測(cè)準(zhǔn)確性。
2.2 樣本來源
筆者通過便利條件,直接從數(shù)據(jù)庫按年抽取了某市2009到2012年所有稽查過的制造業(yè)企業(yè),同時(shí)匹配一些相關(guān)年度申報(bào)數(shù)據(jù)(如銷售收入,應(yīng)納增值稅稅額,存貨平均數(shù),主營(yíng)業(yè)務(wù)利潤(rùn)等),然后在這些企業(yè)中通過excel隨機(jī)函數(shù),隨機(jī)抽取了2000戶作為實(shí)驗(yàn)樣本。實(shí)驗(yàn)樣本數(shù)據(jù)如表1。
2.3 實(shí)驗(yàn)涉及的工具說明
采用臺(tái)灣大學(xué)林智仁(Lin Chih-Jen)副教授等開發(fā)設(shè)計(jì)的軟件包LIBSVM,該軟件包提供了簡(jiǎn)單易用和快速有效的SVM模式識(shí)別與回歸方法,這使得我們不必要花費(fèi)大量的時(shí)間理解SVM算法的深?yuàn)W數(shù)學(xué)原理和計(jì)算機(jī)程序設(shè)計(jì)。該軟件包可以在http://www.csie.ntu.edu.tw/-cjlin/免費(fèi)獲得。
2.4 詳細(xì)實(shí)驗(yàn)步驟
2.4.1 產(chǎn)生符合軟件要求的數(shù)據(jù)文件
將樣本隨機(jī)劃分為1500戶企業(yè)的訓(xùn)練樣本和500戶企業(yè)的測(cè)試樣本,并按照LIBSVM軟件要求將訓(xùn)練樣本和驗(yàn)證樣本分別格式化成文件train和文件test。
按照LIBSVM軟件要求,將文件格式化成如下格式:
0 1:14 871 030.39,2:27 256.24。3:2 965 841.805.4:1 532 128.27
1 1:950 897.44,2:57 423.99,3:30 925.5,4:2 546.66
0 1:210 508 744.31.2:5454 538.9,3:15 784 275.23.4:1 130 826.74
1 1:2 802 448.68,2:102 103.41,3:86 128,4:136 084.47
0 1:21 472 084.19.2:1 101 170.56.3:3 204 356.755.4:118 902.49
0 1:6 275 138 578.79。2:-372 343 321.62,3:461 957 600.77.4:993 078 657.52
1 1:1 577 484.9,2:40 859.68,3:101 973.92,4:33 422.62
0 1:301 643 912.2,2:2 690 974.51,3:4 500 019.87.4:5 520 681.07
其中第一個(gè)數(shù)字,表示該稽查下來是否有問題,1代表有問題0,代表無問題。
冒號(hào)前的1,2,3,4代表序號(hào),可以是不連續(xù)的。
1,2,3,4冒號(hào)后的值分別代表銷售收入,應(yīng)納增值稅稅額,存貨平均數(shù),主營(yíng)業(yè)務(wù)利潤(rùn)。
2.4.2 對(duì)數(shù)據(jù)文件進(jìn)行縮放
為了避免一些特征值范圍過大而另一些特征值范圍過小,以及避免在訓(xùn)練時(shí)為了計(jì)算核函數(shù)而計(jì)算內(nèi)積的時(shí)候引起數(shù)值計(jì)算的困難,因此通常將數(shù)據(jù)縮放到[-1,1]或者是[0,1]之間。
本步驟通過svm-scale.exe訓(xùn)練樣本train自動(dòng)產(chǎn)生縮放規(guī)則range和縮放后的訓(xùn)練樣本train.scale,然后通過縮放規(guī)則range產(chǎn)生縮放后的驗(yàn)證文件test.scale。以下為實(shí)例命令:
svm-scale.exe-s range train>train.scale
svm-scale.exe-r range test>test.scale
2.4.3 獲得SVM模型
本步驟通過svm-train.exe實(shí)現(xiàn)對(duì)縮放后的訓(xùn)練樣本train.scale的訓(xùn)練,獲得SVM模型model。
svm-train.exe train.scale model
2.4.4 驗(yàn)證模型預(yù)測(cè)的準(zhǔn)確率
本步驟通過svm-predict.exe根據(jù)訓(xùn)練獲得的模型model,對(duì)縮放后的驗(yàn)證樣本test.scale進(jìn)行分析,生成結(jié)果集result。
svm-predict.exe test.scale model resuh
程序返回:Accuracy=81.2%f406/5001(classi-fication)
說明我們預(yù)測(cè)的準(zhǔn)確率為81.2%。
2.5 實(shí)驗(yàn)分析
在1 500戶企業(yè)的訓(xùn)練樣本和500戶企業(yè)的測(cè)試樣本下測(cè)試改變屬性值數(shù)量對(duì)分類的影響,4個(gè)屬性值時(shí),反饋預(yù)測(cè)準(zhǔn)確率81.2%,6個(gè)屬性值時(shí),反饋預(yù)測(cè)準(zhǔn)確率81%,8個(gè)屬性值時(shí),反饋預(yù)測(cè)準(zhǔn)確率81.2%,10個(gè)屬性值時(shí),反饋預(yù)測(cè)準(zhǔn)確率81.2%,可見屬性數(shù)量的增加確實(shí)會(huì)影響預(yù)測(cè)準(zhǔn)確性,但是影響不大。數(shù)據(jù)分類屬性越多,問題的復(fù)雜程度就越厲害,SVM引入了核函數(shù)來應(yīng)付樣本的屬性數(shù),使得樣本的屬性可以很多,而且效率上面并沒有多大變化。
改變樣本數(shù)量,在測(cè)試樣本均為500企業(yè)情況下,訓(xùn)練樣本為300企業(yè),反饋預(yù)測(cè)準(zhǔn)確率81.2%,訓(xùn)練樣本為600企業(yè),反饋預(yù)測(cè)準(zhǔn)確率81.2%,訓(xùn)練樣本為1000企業(yè),反饋預(yù)測(cè)準(zhǔn)確率81.2%,訓(xùn)練樣本為1500企業(yè),反饋預(yù)測(cè)準(zhǔn)確率81.2%,實(shí)驗(yàn)結(jié)果驗(yàn)證了SVM的健壯性,增、刪非支持向量樣本對(duì)模型幾乎沒有影響,小樣本數(shù)據(jù)即可取得很好的效果。
3 結(jié)語
隨著信息化的快速發(fā)展,稅收分析在稅收工作中越來越重要。新技術(shù)的學(xué)習(xí)和使用是提高分析水平的重要途徑和手段之一,本文拋磚引玉,提出使用機(jī)器學(xué)習(xí)方法,利用支持向量機(jī)來分析判斷企業(yè)是否有問題,實(shí)驗(yàn)結(jié)果表明識(shí)別準(zhǔn)確率達(dá)到81.2%,完全可以作為稅務(wù)稽查選案的又一參考。
責(zé)任編輯 祁秀春