衣柏衡,朱建軍,李 杰
(南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院,江蘇 南京 211106)
?
基于改進(jìn)SMOTE的小額貸款公司客戶信用風(fēng)險(xiǎn)非均衡SVM分類
衣柏衡,朱建軍,李 杰
(南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院,江蘇 南京 211106)
研究了小額貸款公司對(duì)客戶進(jìn)行信用風(fēng)險(xiǎn)評(píng)估時(shí)面臨的問(wèn)題,構(gòu)建了信用風(fēng)險(xiǎn)評(píng)估指標(biāo)體系,改進(jìn)了支持向量機(jī)(Support Vector Machine, SVM)對(duì)非均衡樣本分類時(shí)分類超平面偏移的不足。首先分析小額貸款公司業(yè)務(wù)區(qū)域性強(qiáng)、信用數(shù)據(jù)來(lái)源不規(guī)范、評(píng)價(jià)標(biāo)準(zhǔn)不一致等特點(diǎn),給出用于客戶信用風(fēng)險(xiǎn)評(píng)估的四個(gè)維度指標(biāo)。針對(duì)傳統(tǒng)SMOTE算法在處理非均衡數(shù)據(jù)時(shí)對(duì)全部少數(shù)類樣本操作的問(wèn)題,提出僅對(duì)錯(cuò)分樣本人工合成的改進(jìn)思想,給出具體算法步驟。將改進(jìn)算法用于某小額貸款公司客戶信用風(fēng)險(xiǎn)評(píng)估案例中,分類精確度較其他算法有所提升,表明該方法的可行性和有效性。
小額貸款;信用風(fēng)險(xiǎn);支持向量機(jī);非均衡數(shù)據(jù);SMOTE
小額貸款公司作為新興的民間金融服務(wù)機(jī)構(gòu),在一定程度上解決了小微企業(yè)和低收入人群融資難問(wèn)題,同時(shí)對(duì)“地下錢莊”這類非法借貸活動(dòng)起到抑制作用[1-2]。相比于城市金融市場(chǎng),國(guó)有銀行、大型商業(yè)銀行、農(nóng)村合作信用社在農(nóng)村和欠發(fā)達(dá)地區(qū)貸款業(yè)務(wù)的普及和推廣仍有諸多障礙和滯后,而民營(yíng)小額貸款公司的出現(xiàn),與前者一同構(gòu)成較為完善的金融體系層次,彌補(bǔ)了政策限制、信貸配給不平衡、管理成本高等缺點(diǎn)和不足,是促進(jìn)社會(huì)金融組織體系多樣化、健康化發(fā)展的有益嘗試[3]。然而,小額貸款公司面臨的信用風(fēng)險(xiǎn)有其行業(yè)特殊性[4]。除去企業(yè)本身的財(cái)務(wù)杠桿比率、短期債務(wù)比率、流動(dòng)資金等因素,客戶質(zhì)量和其違約情況是小額貸款公司的主要風(fēng)險(xiǎn)來(lái)源[5]。目前,小額貸款公司用于風(fēng)險(xiǎn)評(píng)估的數(shù)據(jù)主觀性較大,通常是審核人員與借款人面對(duì)面交流,加上從其他渠道側(cè)面獲得的借款人信息來(lái)綜合評(píng)估風(fēng)險(xiǎn),這些數(shù)據(jù)可能出現(xiàn)造假或辨識(shí)度不高的問(wèn)題。最重要的是,在進(jìn)行信用風(fēng)險(xiǎn)評(píng)估的過(guò)程中,經(jīng)常面臨評(píng)價(jià)標(biāo)準(zhǔn)不一致,輸入數(shù)據(jù)維度高、復(fù)雜度高這類問(wèn)題,傳統(tǒng)的決策方法不足以抓住導(dǎo)致違約的關(guān)鍵因素,不能合理將評(píng)價(jià)指標(biāo)組合并做出判斷。此時(shí),小額貸款公司需要使用新的評(píng)價(jià)模型和方法,針對(duì)性解決上述信用風(fēng)險(xiǎn)評(píng)估中的問(wèn)題[6]。
許多學(xué)者在信用風(fēng)險(xiǎn)評(píng)估問(wèn)題上做了大量工作并應(yīng)用到不同的領(lǐng)域。張大斌等[7]建立了信用風(fēng)險(xiǎn)評(píng)價(jià)的差分進(jìn)化自動(dòng)聚類模型,并將其應(yīng)用到我國(guó)上市公司信用風(fēng)險(xiǎn)評(píng)價(jià)中。陳庭強(qiáng)等[8]從信用風(fēng)險(xiǎn)持有者的心理和行為角度對(duì)信用風(fēng)險(xiǎn)傳染過(guò)程進(jìn)行了分析,通過(guò)引入信用風(fēng)險(xiǎn)傳染的主體行為因素,建立了信用風(fēng)險(xiǎn)傳染的網(wǎng)絡(luò)模型。Moges等[9]從數(shù)據(jù)質(zhì)量角度出發(fā),通過(guò)對(duì)世界范圍內(nèi)的金融機(jī)構(gòu)進(jìn)行問(wèn)卷調(diào)查,給出了數(shù)據(jù)質(zhì)量的定義、測(cè)度,并結(jié)合信用風(fēng)險(xiǎn)數(shù)據(jù)庫(kù)分析了評(píng)價(jià)數(shù)據(jù)質(zhì)量的關(guān)鍵指標(biāo)。在個(gè)人信貸風(fēng)險(xiǎn)評(píng)估方面,Verbraken等[10]提出基于期望利潤(rùn)最大化(Expected Maximum Profit, EMP)思想,在預(yù)期損失和收益間進(jìn)行權(quán)衡,進(jìn)而給出允許向客戶放貸的閾值。Li Yongbin等[11]提出基于猶豫三角模糊數(shù)的多屬性決策模型,并用于商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)估案例。Zhang Zhiwang等[12]提出融合核函數(shù)、模糊隸屬度和罰函數(shù)的多準(zhǔn)則優(yōu)化分類器,以解決個(gè)人信用風(fēng)險(xiǎn)評(píng)估中非線性和不確定性等問(wèn)題。
計(jì)算科學(xué)和機(jī)器學(xué)習(xí)的快速發(fā)展,催生了一批新的智能數(shù)據(jù)挖掘方法,其中基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的SVM克服了傳統(tǒng)分類器局部最優(yōu)解、過(guò)擬合、維數(shù)災(zāi)難等缺點(diǎn)[13]。Harris[14]提出聚類SVM來(lái)降低傳統(tǒng)方法處理高維信用數(shù)據(jù)的計(jì)算復(fù)雜度。然而在信用風(fēng)險(xiǎn)評(píng)估問(wèn)題中,數(shù)據(jù)不均衡是影響SVM分類精度最主要的原因,分類超平面偏移現(xiàn)象嚴(yán)重[15]。為此,Bagging、boosting、SMOTE和一些組合算法被相繼提出,來(lái)解決分類問(wèn)題中的數(shù)據(jù)不均衡問(wèn)題[16]。Chawla等[17]提出的SMOTE借助少數(shù)類樣本及其鄰域樣本生成新數(shù)據(jù),抗噪性能較好。但通常SMOTE與SVM結(jié)合是對(duì)全部少數(shù)類樣本進(jìn)行操作,而只有分類面附近的少量樣本會(huì)影響最終結(jié)果[18]。文傳軍等[19]從SVM求解過(guò)程出發(fā),對(duì)上述問(wèn)題進(jìn)行了分析。章少平等[20]提出采用KSMOTE對(duì)非平衡數(shù)據(jù)處理并用Bootstrap抽樣來(lái)生成基SVM分類器,再通過(guò)投票機(jī)制得出最終結(jié)果。
總體來(lái)看,現(xiàn)有文獻(xiàn)大多融合SMOTE與其他算法來(lái)解決非均衡分類問(wèn)題,而較少?gòu)腟VM角度分析SMOTE所合成樣本對(duì)其分類面的影響。基于此,本文提出一種改進(jìn)的SMOTE思想,對(duì)SMOTE算法進(jìn)行迭代,且僅選擇上一次迭代中被錯(cuò)分的樣本作為下一次迭代的起始樣本,直到少數(shù)類和多數(shù)類樣本數(shù)量均衡或不再有少數(shù)類樣本被錯(cuò)分,算法停止。在實(shí)證分析中,本文對(duì)小額貸款公司客戶信用風(fēng)險(xiǎn)評(píng)估的各項(xiàng)指標(biāo)加以分析,構(gòu)建了4個(gè)維度16個(gè)指標(biāo)的評(píng)價(jià)體系,并將本文模型應(yīng)用到具有高不均衡率的真實(shí)借貸數(shù)據(jù)中,算法精度有所提高,違約樣本能被較好識(shí)別。
為保證敘述的完整性,本節(jié)首先簡(jiǎn)要介紹支持向量機(jī)理論,具體可參閱文獻(xiàn)[21];結(jié)合小額貸款公司客戶信用風(fēng)險(xiǎn)評(píng)估的特點(diǎn),分析支持向量機(jī)在處理非均衡數(shù)據(jù)分類問(wèn)題中的缺陷;最后提出改進(jìn)SMOTE的SVM分類算法,并給出具體算法流程。
2.1 現(xiàn)有方法及問(wèn)題分析
給定訓(xùn)練集T={(x1,y1),(x2,y2),…,(xl,yl)}∈(n×)l,其中每個(gè)樣本點(diǎn)(xi,yi)中xi∈n是包含n維屬性的向量,yi={+1,-1}是對(duì)應(yīng)的類別標(biāo)簽。支持向量機(jī)試圖尋找n空間上的一個(gè)使分類邊界最小的實(shí)數(shù)函數(shù)g(x)=(wT·x+b),以便用決策函數(shù)f(x)=sgn(g(x))推斷任意新輸入x對(duì)應(yīng)的分類類別y。對(duì)于線性分類問(wèn)題,求解最優(yōu)分類超平面可表示為求解下列二次規(guī)劃:
(1)
其中C>0為罰函數(shù),ξi為允許數(shù)據(jù)點(diǎn)xi偏離的松弛變量。
為方便求解,構(gòu)造拉格朗日函數(shù):
(2)
對(duì)L關(guān)于w,b,ξ求極小,并將結(jié)果帶回(2),可得到原問(wèn)題(1)的對(duì)偶問(wèn)題:
(3)
求解對(duì)偶問(wèn)題(3)得到αi,進(jìn)而推倒出w和b。
傳統(tǒng)SVM分類算法大都基于數(shù)據(jù)集中正負(fù)類樣本數(shù)量大致相同的假設(shè),然而這一假設(shè)在很多現(xiàn)實(shí)應(yīng)用領(lǐng)域并不成立。在信用風(fēng)險(xiǎn)評(píng)估中,無(wú)違約記錄通常占絕大多數(shù),只有極個(gè)別的用戶出現(xiàn)違約。作為小額貸款公司,并不會(huì)過(guò)多關(guān)注無(wú)違約記錄,相反希望能夠準(zhǔn)確識(shí)別出可能存在違約風(fēng)險(xiǎn)的客戶,甚至在很多時(shí)候?yàn)榱丝刂骑L(fēng)險(xiǎn),寧愿將處于無(wú)違約風(fēng)險(xiǎn)邊緣的客戶劃為違約風(fēng)險(xiǎn)客戶。而傳統(tǒng)SVM在處理非均衡數(shù)據(jù)分類問(wèn)題,分類平面會(huì)向少數(shù)類偏移,即將更多的少數(shù)類樣本錯(cuò)分為多數(shù)類,這樣勢(shì)必會(huì)增大小額貸款公司的放貸風(fēng)險(xiǎn)。
為方便說(shuō)明問(wèn)題,用matlab隨機(jī)生成兩類高斯樣本,樣本數(shù)分別為20個(gè)和200個(gè),不均衡比例為10。一類樣本中心為(1.5,1.5),另一類樣本中心為(2.5,2.5),兩類樣本的方差均為0.5。用傳統(tǒng)SVM進(jìn)行分類,選用線性核函數(shù),罰函數(shù)C取2,分類結(jié)果如圖1所示:
圖1 傳統(tǒng)SVM在非均衡數(shù)據(jù)中的分類效果
從圖 1可明顯看出,SVM的分類邊界向少數(shù)類方向偏移,部分少數(shù)類樣本被分類成多數(shù)類。這是由于傳統(tǒng)SVM對(duì)兩個(gè)類別的樣本采用了相同的罰函數(shù)C,為了使SVM的目標(biāo)函數(shù)最小化,分類平面需向密度較小的少數(shù)類樣本移動(dòng)以換取對(duì)多數(shù)類樣本更少的錯(cuò)分懲罰。因此,為了提高少數(shù)類樣本的識(shí)別精度,必須解決SVM算法在處理非均衡數(shù)據(jù)下的分類面偏移問(wèn)題。
SMOTE算法由Chawla等人在2002年提出,通過(guò)人工合成少數(shù)類樣本以達(dá)到與多數(shù)類樣本的均衡。具體操作如下:首先找到少數(shù)類樣本xi的k個(gè)鄰近同類樣本,在這k個(gè)樣本中隨機(jī)選取一個(gè)xj,通過(guò)下列公式合成新的樣本:
xnew=xi+rand(0,1)×(xi-xj)
(4)
利用SMOTE算法生成新樣本后,再對(duì)上述例子進(jìn)行分類,結(jié)果如圖2所示。相比圖1,分類平面明顯向多數(shù)類發(fā)生了偏移,但仍有部分原始少數(shù)類樣本被錯(cuò)分為多數(shù)類。不難發(fā)現(xiàn),SMOTE在原始數(shù)據(jù)包絡(luò)里隨機(jī)生成新樣本,而影響SVM分類結(jié)果的只有分界面附近的樣本,所以傳統(tǒng)SMOTE算法生成的部分樣本是沒(méi)有實(shí)際意義的,因此需要對(duì)此加以改進(jìn)。
圖2 SMOTE-SVM在非均衡數(shù)據(jù)中的分類效果
2.2 基于改進(jìn)SMOTE的非均衡數(shù)據(jù)SVM分類算法
針對(duì)上文涉及的問(wèn)題,本節(jié)提出一種改進(jìn)SMOTE的非均衡數(shù)據(jù)SVM分類算法。區(qū)別于傳統(tǒng)SMOTE算法在所有少數(shù)類樣本中隨機(jī)生成新樣本,本文算法關(guān)注影響分類面位置的錯(cuò)分樣本,根據(jù)錯(cuò)分樣本人工合成新樣本,來(lái)提高這些關(guān)鍵樣本在分類過(guò)程中的重要程度,具體算法設(shè)計(jì)如下:
1)設(shè)原始數(shù)據(jù)T={(x1,y1),(x2,y2),…,(xl,yl)}∈(n×)l中少數(shù)類為正類P,多數(shù)類為負(fù)類N,樣本數(shù)量分別為nP和nN。
2)用原始SVM模型對(duì)T進(jìn)行分類,并用原始數(shù)據(jù)T對(duì)模型進(jìn)行驗(yàn)證,找出所有錯(cuò)分的少數(shù)類樣本,生成集合P_mis。
3)判斷P_mis是否為空集,若是,結(jié)束算法;若不是,令新集合S=T,進(jìn)入下一步。
4)用SMOTE算法對(duì)P_mis中的所有樣本人工合成一次,合成的新樣本加入到集合S中。
5)用原始SVM模型對(duì)S進(jìn)行分類,并用原始數(shù)據(jù)T對(duì)模型進(jìn)行驗(yàn)證,找出所有錯(cuò)分的少數(shù)類樣本,更新集合P_mis。
6)重復(fù)步驟4和步驟5,直到集合S中原始少數(shù)類樣本數(shù)nP與合成樣本數(shù)之和大于等于多數(shù)類樣本數(shù)nN,算法終止。
利用本文算法對(duì)上文中的例子進(jìn)行分類,結(jié)果如圖3所示,分類平面繼續(xù)向多數(shù)類移動(dòng),對(duì)少數(shù)類樣本基本達(dá)到100%的識(shí)別精度,由此證明本文方法可以很好解決傳統(tǒng)SVM和SMOTE算法的各自問(wèn)題。
圖3 本文方法在非均衡數(shù)據(jù)中的分類效果
3.1 數(shù)據(jù)來(lái)源
為驗(yàn)證改進(jìn)SMOTE的非均衡數(shù)據(jù)SVM分類算法在小額貸款公司客戶信用風(fēng)險(xiǎn)評(píng)估中的效果,本文從某小額貸款公司采集393條借款記錄作為實(shí)驗(yàn)原始數(shù)據(jù),借款日期從2009年11月到2013年5月。這一區(qū)域中小企業(yè)和低收入人群占比較大,因此研究這一區(qū)域的小額貸款公司數(shù)據(jù),能更加真實(shí)的反映出小額貸款行業(yè)面臨的問(wèn)題和風(fēng)險(xiǎn)。在數(shù)據(jù)集中,無(wú)違約記錄369條,違約記錄24條,不均衡比例為15.38,因此需要使用針對(duì)非均衡數(shù)據(jù)的分類方法進(jìn)行風(fēng)險(xiǎn)評(píng)估。
3.2 信用風(fēng)險(xiǎn)評(píng)估指標(biāo)構(gòu)建
在信用風(fēng)險(xiǎn)評(píng)估中,指標(biāo)的選取起到了關(guān)鍵作用。在小額貸款行業(yè)特征和公司實(shí)際運(yùn)營(yíng)基礎(chǔ)上,要求審核人員充分挖掘借款人的經(jīng)濟(jì)、社會(huì)、信用等各方面信息,以確保規(guī)避風(fēng)險(xiǎn)的前提下為公司贏得最大收益。從國(guó)內(nèi)外的文獻(xiàn)研究來(lái)看,借款客戶的信用風(fēng)險(xiǎn)評(píng)估指標(biāo)體系主要集中在個(gè)人信息、信用信息、借款信息和擔(dān)保信息四個(gè)維度,數(shù)據(jù)類型大多是數(shù)值型和類別型。
在四個(gè)維度中,個(gè)人信息包括年齡、性別、婚姻和文化程度四個(gè)指標(biāo),由于小額貸款公司的服務(wù)對(duì)象多為務(wù)農(nóng)人員、個(gè)體工商戶這類低文化水平客戶,因此在對(duì)文化程度分類時(shí)按照小學(xué)、初中、高中、大專和本科及以上五個(gè)等級(jí)較為合適。信用信息則涵蓋借款人在正規(guī)金融機(jī)構(gòu)的歷史信用記錄、名下是否擁有住房、是否為本公司的歷史借款客戶、現(xiàn)有業(yè)務(wù)從業(yè)年限,這四個(gè)二級(jí)指標(biāo)能反應(yīng)出客戶生活、工作、經(jīng)濟(jì)情況是否穩(wěn)定,也是是否構(gòu)成違約潛在風(fēng)險(xiǎn)的主要因素。另一方面,大額高息借款用于長(zhǎng)時(shí)間的房地產(chǎn)開(kāi)發(fā),風(fēng)險(xiǎn)可能會(huì)大于小額低息借款用于短期家庭裝修,因此從借款本身考慮,借款金額、用途、期限以及借款利息率作為風(fēng)險(xiǎn)評(píng)估的指標(biāo)較為合適。最后,一旦客戶出現(xiàn)違約,其抵押擔(dān)??蓻_抵部分違約損失,使小額貸款公司風(fēng)險(xiǎn)有效降低,其中是否有擔(dān)保、是否有抵押品、抵押方式和抵押品是否足值四個(gè)較易獲得數(shù)據(jù)被納入信用風(fēng)險(xiǎn)評(píng)估的指標(biāo)當(dāng)中。由此,將小額貸款公司客戶信用風(fēng)險(xiǎn)評(píng)估的指標(biāo)在表1中列出。
3.3 精確度測(cè)量標(biāo)準(zhǔn)
對(duì)于均衡數(shù)據(jù)集,通常采用整體分類誤差作為模型性能的評(píng)估指標(biāo),但對(duì)于非均衡數(shù)據(jù)集,整體誤差難以反應(yīng)分類器在少數(shù)類樣本中的表現(xiàn)。舉例說(shuō)明,若訓(xùn)練集包括95%的多數(shù)類樣本和5%的少數(shù)類樣本,即使全部少數(shù)類樣本被錯(cuò)分為多數(shù)類,整體的分類精度仍然在95%,而少數(shù)類的分類精度為0。為此,在非均衡數(shù)據(jù)實(shí)驗(yàn)中,許多學(xué)者提出使用G-mean和F-measure來(lái)評(píng)價(jià)分類器的性能。定義非均衡數(shù)據(jù)集中少數(shù)類為正類P,多數(shù)類為負(fù)類N;FN表示將正類錯(cuò)分成負(fù)類的樣本數(shù),F(xiàn)P表示將負(fù)類錯(cuò)分為正類的樣本數(shù),TN和TP分別表示負(fù)類和正類被正確分類的樣本數(shù)。由此可以得到:
少數(shù)類樣本查全率:
TPR=TP/(TP+FN)
(5)
多數(shù)類樣本查全率:
TNR=TN/(TN+FP)
(6)
少數(shù)類樣本查準(zhǔn)率:
Precision=TP/(TP+FP)
(7)
綜合G-mean:
(8)
少數(shù)類樣本F-measure:
(9)
表1 小額貸款公司借款人信息
G-mean考慮了兩類樣本的分類性能,只有分類平面不發(fā)生偏移,兩類樣本都有較大的查全率時(shí),G值才會(huì)較大。F-measure考慮了少數(shù)類的查全率和查準(zhǔn)率,任何一個(gè)值的變化都能影響F的大小,因此能全面反映分類器對(duì)少數(shù)類樣本的分類性能。
表2 SVM、SMOTE-SVM與本文方法的比較
3.4 結(jié)果及分析
本文采用LibSVM工具箱[22]在小額貸款公司客戶信貸數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),對(duì)比傳統(tǒng)SVM和對(duì)全體少數(shù)類人工合成的SMOTE-SVM兩種模型,驗(yàn)證本文方法的有效性。實(shí)驗(yàn)采用RBF核函數(shù),罰函數(shù)C取10,gamma取1,由于SMOTE生成新數(shù)據(jù)的隨機(jī)性,SMOTE-SVM和本文方法分別進(jìn)行10次后取平均值,傳統(tǒng)SVM不涉及生成樣本,只需進(jìn)行1次實(shí)驗(yàn)。由于個(gè)人信貸數(shù)據(jù)包含不同類別、不同范圍的數(shù)據(jù),因此首先需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,利用公式(10)將原始數(shù)據(jù)進(jìn)行歸一化,然后利用三種模型進(jìn)行學(xué)習(xí),最后用G-mean和F-measure衡量各方法的分類精確度,結(jié)果如表2所示。
(10)
其中k=1,2,…,n,i=1,2,…,l,xi(k)表示第i個(gè)借款人的第k個(gè)指標(biāo)。
從三種方法的比較結(jié)果可以看出,由于未考慮非均衡樣本的問(wèn)題,傳統(tǒng)SVM在三者中表現(xiàn)最差,G-mean和F-measure分別只有84.16%和82.93%。使用SMOTE算法生成新樣本后,多數(shù)類和少數(shù)類樣本達(dá)到一致,分類精度有了明顯提升,G-mean和F-measure分別達(dá)到98.52%和83.57%。本文方法同時(shí)考慮了SVM和SMOTE-SVM方法的不足,對(duì)關(guān)鍵樣本進(jìn)行人工合成,實(shí)驗(yàn)精度有了進(jìn)一步提升。其中,本文方法G-mean的最小值與SMOTE-SVM方法G-mean的最大值相同,而本文方法F-measure全部結(jié)果均大于SMOTE-SVM中的結(jié)果,充分說(shuō)明本文方法在處理小額貸款公司客戶信用風(fēng)險(xiǎn)評(píng)估案例中的有效性,數(shù)據(jù)非均衡情況得到了良好改善,即更多具有潛在違約風(fēng)險(xiǎn)的借款人被識(shí)別出來(lái),小額貸款公司所面臨的借款人違約風(fēng)險(xiǎn)大幅降低。
本文以某小額貸款公司為例,分析了在對(duì)客戶放貸前信用風(fēng)險(xiǎn)評(píng)估過(guò)程中涉及的諸多因素,制訂了個(gè)人信息、信用信息、借款信息和擔(dān)保信息四個(gè)維度下的評(píng)價(jià)指標(biāo)體系。通過(guò)對(duì)傳統(tǒng)SVM分類器的研究,指出其在處理非均衡數(shù)據(jù)時(shí)分類平面向少數(shù)類偏移的現(xiàn)象,同時(shí)說(shuō)明在使用傳統(tǒng)SMOTE算法對(duì)全體少數(shù)類樣本進(jìn)行人工合成時(shí),沒(méi)有考慮不同樣本對(duì)分類平面具有不同的重要性。因此,提出一種改進(jìn)SMOTE的SVM分類算法,考慮可以改變分類平面位置的錯(cuò)分樣本,通過(guò)對(duì)這些樣本使用SMOTE人工合成新樣本,不僅使多數(shù)類和少數(shù)類樣本數(shù)量得到均衡,而且讓存在違約風(fēng)險(xiǎn)的少數(shù)類樣本被反復(fù)學(xué)習(xí),從而更好的識(shí)別不良借款人以降低小額貸款公司的借貸風(fēng)險(xiǎn)。本文方法在人造數(shù)據(jù)集和真實(shí)信用數(shù)據(jù)集的實(shí)驗(yàn)中均表現(xiàn)出較高的分類精度,優(yōu)于傳統(tǒng)SVM和SMOTE-SVM方法,說(shuō)明本文方法具有較強(qiáng)的實(shí)用性。后續(xù)工作可在人工合成樣本的同時(shí),考慮噪聲和野值點(diǎn)的影響,使非均衡數(shù)據(jù)的人工合成更為精確、合理。
[1] Armendariz B, Morduch J.The economics of microfinance[M]. 2nd, Cambridge, MA: MIT Press, 2010.
[2] 鄭毓盛, 于點(diǎn)默. 小額貸款的理論、實(shí)踐和危機(jī)[J]. 中國(guó)農(nóng)村經(jīng)濟(jì), 2013, (8): 88-95.
[3] Banerjee A, Chandrasekhar A G, Duflo E, et al. The diffusion of microfinance[J]. Science, 2013,341(6144).
[4] 龐素琳. 基于貸款風(fēng)險(xiǎn)損失比的農(nóng)戶信貸模型與應(yīng)用[J]. 管理科學(xué)學(xué)報(bào), 2012, 15(11): 11-22.
[5] Yang Jian, Zhou Yinggang. Credit risk spillovers among financial institutions around the global credit crisis: Firm-level evidence[J]. Management Science, 2013, 59(10): 2343-2359.
[6] Kruppa J, Schwarz A, Arminger G, et al. Consumer credit risk: Individual probability estimates using machine learning[J]. Expert Systems with Applications, 2013, 40(13):5125-5131.
[7] 張大斌, 周志剛, 許職, 等. 基于差分進(jìn)化自動(dòng)聚類的信用風(fēng)險(xiǎn)評(píng)價(jià)模型研究[J]. 中國(guó)管理科學(xué), 2015, 23(4): 39-45.
[8] 陳庭強(qiáng), 何建敏. 基于復(fù)雜網(wǎng)絡(luò)的信用風(fēng)險(xiǎn)傳染模型研究[J]. 中國(guó)管理科學(xué), 2014, 22(11): 1-10.
[9] Moges H T, Dejaeger K, Lemahieu W, et al. A multidimensional analysis of data quality for credit risk management: New insights and challenges[J]. Information & Management, 2013, 50(1):43-58.
[10] Verbraken T, Bravo C, Weber R, et al. Development and application of consumer credit scoring models using profit-based classification measures[J]. European Journal of Operational Research, 2014, 238(2):505-513.
[11] Li Yongbin, Zhang Jianping. Approach to multiple attribute decision making with hesitant triangular fuzzy information and their application to customer credit risk assessment[J]. Journal of Intelligent & Fuzzy Systems, 2014, 26(6): 2853-2860.
[12] Zhang Zhiwang, Gao Guangxia, Shi Yong. Credit risk evaluation using multi-criteria optimization classifier with kernel, fuzzification and penalty factors[J]. European Journal of Operational Research, 2014, 237(1):335-348.
[13] Marqués A I, García V, Sánchez J S. A literature review on the application of evolutionary computing to credit scoring[J]. Journal of the Operational Research Society, 2013, 64(9):1384-1399.
[14] Harris T. Credit scoring using the clustered support vector machine[J]. Expert Systems with Applications, 2015, 42(2):741-750.
[15] Sun Zhongbin, Song Qinbao, Zhu Xiaoyan, et al. A novel ensemble method for classifying imbalanced data[J]. Pattern Recognition, 2015, 48(5): 1623-1637.
[16] Li Qiujie, Mao Yaobin.A review of boosting methods for imbalanced data classification[J]. Pattern Analysis and Applications, 2014, 17(4): 679-693.
[17] Chawla N V, Bowyer K W, Kegelmeyer W P. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2002,16: 321-357.
[18] 陶新民, 郝思媛, 張冬雪,等. 基于樣本特性欠取樣的不均衡支持向量機(jī)[J]. 控制與決策, 2013, 28(7): 978-984.
[19] 文傳軍, 詹永照. 基于自調(diào)節(jié)分類面SVM的平衡不平衡數(shù)據(jù)分類[J]. 系統(tǒng)工程, 2009, 27(3): 110-114.
[20] 章少平, 梁雪春. 優(yōu)化的支持向量機(jī)集成分類器在非平衡數(shù)據(jù)集分類中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用, 2015, 35(5): 1306-1309.
[21] 鄧乃楊, 田英杰. 支持向量機(jī)——理論、方法與拓展[M]. 北京: 科學(xué)出版社, 2009.
[22] Chang C C, Lin C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011,2(3):1-27.
Imbalanced Data Classification on Micro-Credit Company Customer Credit Risk Assessment Using Improved SMOTE Support Vector Machine
YI Bai-heng, ZHU Jian-jun, LI Jie
(School of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China)
A great number of machine learning methods have been successfully applied for customer credit risk assessment cases, and support vector machine (SVM) is considered as an “off-the-shelf” supervised learning algorithm to solve classification problem by many researchers. Unfortunately, SVM fails to provide excellent enough classification performance when the data set is imbalanced, i.e., the accuracy of the majority class is usually much higher than that of the minority class due to the shifting of the hyper-plane. In most cases, people pay more attention on the minority class such as fault diagnosis and credit default. Thus, a Synthetic Minority Over-sampling Technique (SMOTE) is presented to deal with the imbalanced classification by generating new samples in the whole minority class. However, in the process of solving SVM by Sequential Minimal Optimization (SMO) algorithm, only those support vector samples xiwith the corresponding αi>0 can affect the position of the hyper-plane while the samples far from the hyper-plane have no influence on the final result. It is obvious that the classic SMOTE algorithm can generate more redundant samples which are far from the hyper-plane. In this article, an improved method for classic SMOTE algorithm is proposed that SMOTE is looped and only misclassified samples in the previous loop are selected to be processed in the next loop until the minority class outnumbers the majority class or all minority class samples are correctly classified. In the empirical study, a data set granted by a micro-credit company in Jiangsu Province is studied. The data set originates from a company that provides loans to local individuals and enterprises for the house condition improving, farm production expanding, business operating and so on. The customers’ information are analyzed according to the characteristics of micro-loan industry, and a credit risk assessment index system is suggested from four aspects with sixteen attributes in this paper. G-mean and F-measure score are used to evaluate the classification performance of the minority class, which is the accuracy of detecting default customers in this case. The results show high prediction accuracy of default customers, indicating the effectiveness of our method on credit risk assessment.
micro-credit; credit risk; support vector machine; imbalanced data; SMOTE
1003-207(2016)03-0024-07
10.16381/j.cnki.issn1003-207x.2016.03.004
2015-05-30;
2015-10-09
國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目(14AZD049);國(guó)家自然科學(xué)基金資助項(xiàng)目(71171112,71401064);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助(NS2014086);廣義虛擬經(jīng)濟(jì)研究專項(xiàng)(GX2013-1017 (M))
簡(jiǎn)介:衣柏衡(1990-),男(漢族),天津人,南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院碩士研究生,研究方向:數(shù)據(jù)挖掘、系統(tǒng)分析與決策,E-mail: ysb900818@126.com.
F830.5;TP391
A