陳繼強,余志鵬,張 峰,張麗娜
(河北工程大學(xué) 數(shù)理科學(xué)與工程學(xué)院,河北 邯鄲 056038)
個人信用評估是指銀行等金融機構(gòu)通過對影響借貸人還款的各種主客觀條件環(huán)境的綜合考察,運用嚴(yán)謹(jǐn)?shù)目茖W(xué)方法評估借貸人的借貸信用及其還款能力,從而對借貸人是否具有履行償還銀行等金融機構(gòu)的借貸能力進(jìn)行評估,本質(zhì)上是一個不平衡數(shù)據(jù)集的二分類問題。然而,我國的信征體系發(fā)展較晚,個人信用評估模型的研究尚不完善,亟需進(jìn)行深入研究。
專家評分模型[1]是最早被應(yīng)用于個人信用評估的模型,但是由于其評估結(jié)果易受主觀因素干擾等問題,逐漸被舍棄。后來,Carter& Catlett[2]將Fisher判別分析運用到個人信用評估領(lǐng)域,Orgler[3]利用線性回歸分析方法建立了個人信用評估模型,都取得了一定的成果。然而,這種基于統(tǒng)計學(xué)的方法難以處理信貸數(shù)據(jù)集中的噪聲數(shù)據(jù)。后來,隨著機器學(xué)習(xí)理論的發(fā)展,一些學(xué)者將決策樹與支持向量機等機器學(xué)習(xí)算法應(yīng)用于信貸評估[4-12],均取得較好的效果。但是,這類方法在處理不平衡信貸數(shù)據(jù)集時的分類能力是有限的。隨著科學(xué)技術(shù)水平的發(fā)展,一些學(xué)者致力于集成模型在個人信用評估領(lǐng)域中的應(yīng)用研究。例如,丁嵐駱等[13]構(gòu)建了Stacking集成策略的借貸人違約風(fēng)險評估模型。夏國斌[14]將基于Bagging集成法的集成支持向量機模型運用于個人信用評估中,饒希[15]將基于Boosting集成法的邏輯回歸與支持向量的集成模型運用于個人信用評估中。郭孝敬[16]運用了基于邏輯回歸與決策樹的集成模型,王思懿[17]將隨機森林與邏輯回歸的集成模型運用到個人信用評估中,張碧月[18]實驗結(jié)果表明RF-APSOLSSVM的預(yù)測精度比RF模型和APSOLSSVM模型的精度高。王黎等[19]的實驗結(jié)果表明GBDT模型明顯優(yōu)于支持向量機和邏輯回歸的效果。趙天傲等[20]將XGBoost算法應(yīng)用在個人信用風(fēng)評估中,與決策樹、支持向量機等模型進(jìn)行對比分析,實證結(jié)果表明XGBoost模型比單一模型的預(yù)測精度提升效果比較明顯。雖然集成模型分類效果相對于其單一模型分類效果較好,但是它們同單一模型一樣也沒有考慮不平衡信貸數(shù)據(jù)集中噪聲數(shù)據(jù)對于分類結(jié)果的影響。
綜上所述,當(dāng)前關(guān)于個人信用評估問題的研究,現(xiàn)有方法沒有很好地處理不平衡信貸數(shù)據(jù)集中噪聲對模型分類精度的影響。因此,為了降低噪聲數(shù)據(jù)對模型分類精度的影響,本文考慮了不同樣本在分類問題中的不同作用,構(gòu)建了一種基于異類類內(nèi)超平面的模糊支持向量機,為信貸評估問題提供了一種新方法。
支持向量機是20世紀(jì)90年代中期由Cortes和Vapink提出的一種有監(jiān)督的學(xué)習(xí)方法。其基本思想是通過最大化間隔尋找最優(yōu)分類超平面,從而對數(shù)據(jù)進(jìn)行分類,自提出以來被廣泛應(yīng)用[21-23]。
為不失一般性,這里以二分類問題為例。假設(shè)給定的訓(xùn)練集為
T={(x1,y1),…,(xn,yn)}
(1)
其中xi∈Rm,yi∈{-1,+1}為類標(biāo)簽,i=1,2,…,n。對于非線性分類問題,通過映射φ(x),將訓(xùn)練數(shù)據(jù)集從原空間映射到高維特征空間,使得映射后的數(shù)據(jù)集在特征空間中線性可分。因此,支持向量機的學(xué)習(xí)問題可用如下二次規(guī)劃問題來描述:
s.tyi(ω·φ(xi)+b)≥1-ξi
ξi≥0,i=1,2,…,n
(2)
其中‖·‖表示向量的模,C>0為懲罰參數(shù),ξi為松弛變量。原問題(2)的求解可通過構(gòu)造拉格朗日函數(shù),轉(zhuǎn)化為如下對偶問題來求解:
0≤αi≤C,i=1,2,…,n(3)
問題(3)中K(xi,xj)=(φ(xi),φ(xj))為核函數(shù),αi為拉格朗日乘子。
通過求解對偶問題(3)可得分類函數(shù)為
進(jìn)一步可得決策函數(shù)為
f(x)=sgn(g(x))
這樣,對于新的樣本x′,其預(yù)測類別為f(x′)。
隸屬函數(shù)是模糊數(shù)學(xué)中的一個重要內(nèi)容,可用于為不同樣本設(shè)定不同的權(quán)重[24-27]。本文考慮到在支持向量機中對確定最優(yōu)分類超平面起決定性作用的只有支持向量,而支持向量的位置一般又位于距離異類點較近的區(qū)域。為此將模糊理論引入支持向量機中,設(shè)計了基于異類類內(nèi)超平面距離的隸屬函數(shù)。該方法的思想是根據(jù)每個向量到異類類內(nèi)超平面距離的不同,將樣本輸入xi到異類類內(nèi)平面距離的函數(shù)作為隸屬函數(shù),對訓(xùn)練集中的輸入xi賦予相應(yīng)的權(quán)重(隸屬度)來提高支持向量在訓(xùn)練樣本中的作用。
如圖1所示,對于訓(xùn)練樣本集{(x1,y1),(x2,y2),…,(xn,yn)},假設(shè)正類樣本(在圖中用菱形表示)數(shù)目為n1,負(fù)類樣本(在圖中用圓形表示)數(shù)目為n2,n1+n2=n。在線性不可分時,通過映射φ(x),將數(shù)據(jù)集從樣本空間映射到特征空間,數(shù)據(jù)集變?yōu)閧(φ(x1),y1),(φ(x2),y2),…,(φ(xn),yn)}。
圖1 基于異類類內(nèi)超平面的距離示意圖Fig.1 Diagram for the distance of heterogeneous hyperplane
因此,正類樣本點xi到負(fù)類類內(nèi)超平面l2的距離可定義為
(4)
同理,負(fù)類樣本點xi到正類類內(nèi)超平面l1的距離可定義為
(5)
=|(x+-x-)·(φ(xi)-x-)|
同理,當(dāng)yi=-1時,di-的分子及r-可分別表示為
這樣,為了表示第i個樣本隸屬于對應(yīng)類標(biāo)簽的程度,可設(shè)計如下基于樣本點到異類類內(nèi)超平面距離的隸屬函數(shù)
(6)
式(6)中σ是一個給定的很小的正數(shù),目的是為了保證隸屬函數(shù)μi的取值大于0。
傳統(tǒng)的支持向量機是把所有的訓(xùn)練樣本看作同等重要的,這使得獲得的分類超平面對噪聲數(shù)據(jù)或者非支持向量樣本較為敏感,從而導(dǎo)致獲得的最優(yōu)分類超平面存在偏差,進(jìn)而影響分類器的分類精度。為了克服上述問題,本小節(jié)將上節(jié)設(shè)計的隸屬函數(shù)賦予每個向量不同的權(quán)重,并結(jié)合傳統(tǒng)支持向量機,構(gòu)建基于異類類內(nèi)超平面的模糊支持向量機。
在引入隸屬函數(shù)μi后,訓(xùn)練樣本集{φ(xi),yi}變?yōu)閧φ(xi),yi,μi}其中0≤ui≤1,i=1,2,…,n,它表示第i個樣本隸屬于對應(yīng)類標(biāo)簽的程度。這樣,可建立如下二次規(guī)劃問題:
s.tyi(ω·φ(xi)+b)≥1-ξi
ξi≥0,i=1,2,…,n
(7)
其中C>0為懲罰參數(shù),μi為式(6)給出的隸屬函數(shù),ξi為松弛變量。對于原問題(7),通過構(gòu)造拉格朗日函數(shù),可轉(zhuǎn)化為如下對偶問題:
0≤αi≤μiC,i=1,2,…,n
(8)
其中K(xi,xj)=(φ(xi),φ(xj))為核函數(shù),αi為拉格朗日乘子。結(jié)合傳統(tǒng)支持向量機,可設(shè)計求解上述優(yōu)化問題的求解算法,該算法就稱為基于異類類內(nèi)超平面的模糊支持向量機。
下面將通過UCI數(shù)據(jù)集和信用評估問題的實驗驗證所設(shè)計算法的有效性。
UCI數(shù)據(jù)庫是加州大學(xué)歐文分校(University of CaliforniaIrvine)開發(fā)的用于機器學(xué)習(xí)的數(shù)據(jù)庫,UCI數(shù)據(jù)集是眾多學(xué)者常用的標(biāo)準(zhǔn)測試數(shù)據(jù)集。為了驗證上述構(gòu)建的基于異類類內(nèi)超平面的模糊支持向量機的有效性,本節(jié)將首先利用UCI數(shù)據(jù)集選擇部分?jǐn)?shù)據(jù)進(jìn)行實驗,然后在個人信用評估問題中驗證該方法的有效性。
考慮到數(shù)據(jù)集的不平衡性,選取F1值。F1是非平衡數(shù)據(jù)集分類問題中有效的評價準(zhǔn)則之一[28],它是基于混淆矩陣的一個評估指標(biāo),詳見式(9)。
在分類任務(wù)中,混淆矩陣是一個N×N的矩陣,其中N是被預(yù)測的類別數(shù),在本文中由于是一個二分類任務(wù),所以混淆矩陣是一個2×2的矩陣。表1是一個二分類任務(wù)中的混淆矩陣實例表。
表1 基于二分類的混淆矩陣
F1的計算表達(dá)式為[25]
(9)
本小節(jié)選取UCI數(shù)據(jù)庫中4個不同的數(shù)據(jù)集進(jìn)行實驗,各數(shù)據(jù)集的樣本數(shù)量、屬性數(shù)量、正負(fù)類樣本數(shù)量詳見表2。
表2 數(shù)據(jù)集描述
為了驗證本文提出的基于異類超平面的模糊支持向量機(DHFSVM)的有效性,將它與傳統(tǒng)的支持向量機(SVM)、決策樹(DTC)、高斯樸素貝葉斯模型(GNB)三種模型分別在4種UCI數(shù)據(jù)集上進(jìn)行實驗,實驗結(jié)果如圖2所示。
從圖2中可以看出,DHFSVM算法在Bupa、Diabetes、Habeman等3個數(shù)據(jù)集上的F1值為最高,在Banknote數(shù)據(jù)集上為第二高。這說明,本文所構(gòu)建的DHFSVM算法考慮了不平衡數(shù)據(jù)集中不同樣本在分類過程中的不同作用,有效地提高了不平衡數(shù)據(jù)分類的準(zhǔn)確性。
圖2 基于GNB、SVM、DTC與DHFSVM在數(shù)據(jù)集上的F1值柱狀圖Fig.2 Histogram of F1value with GNB,SVM,DTC and DHFSVM
在個人信用評估問題中,信貸數(shù)據(jù)涉及到個人隱私等問題,眾多信貸數(shù)據(jù)無法開放獲取,因此本文中采用來自Kaggle數(shù)據(jù)科學(xué)競賽平臺上的信貸數(shù)據(jù)集,該數(shù)據(jù)集的名稱為“Give Me Some Credit”。在該數(shù)據(jù)集中,包含10個解釋變量xi,i=1,2,…,10,一個被解釋變量y。具體如表3所示。
表3 變量及其描述
由于該數(shù)據(jù)集數(shù)量較大(將近15萬條),本實驗隨機選取了其中的1 000條數(shù)據(jù),其中違約數(shù)據(jù)為200條,未違約數(shù)據(jù)為800條。在圖3中,給出了GNB、SVM、DTC以及DHFSVM基于“Give Me Some Credit”數(shù)據(jù)集的分類混淆矩陣。
由式(9)F1值及如圖3所示的混淆矩陣可以計算得出各個模型對應(yīng)的F1值,結(jié)果如圖4所示。
圖3 基于GNB、SVM、DTC和DHFSVM的混淆矩陣Fig.3 Confusion matrices with GNB,SVM,DTC and DHFSVM
由圖4所示的結(jié)果可以看出,在GNB、SVM、DTC和DHFSVM 4種算法中,本文所構(gòu)建的DHFSVM算法表現(xiàn)最好,取得了最大的F1值0.87。這說明,在分類算法的構(gòu)建時,充分考慮不平衡數(shù)據(jù)中不同樣本點(包含噪聲)所起的不同作用,可有效提高分類算法的精度,也說明了本文所構(gòu)建的DHFSVM算法可以較好地應(yīng)用于個人信用評估問題。
圖4 基于GNB、SVM、DTC與DHFSVM在信貸數(shù)據(jù)集上的F1值柱狀圖Fig.4 Histogram of F1 value on the credit data with GNB,SVM,DTC and DHFSVM
本文結(jié)合模糊數(shù)學(xué)理論、經(jīng)典支持向量機,構(gòu)建了一種基于異類類內(nèi)超平面的模糊支持向量機(DHFSVM)。與GNB、DTC、SVM 3種方法對比發(fā)現(xiàn):(1)DHFSVM算法在Bupa、Diabetes、Habeman等3個數(shù)據(jù)集上的F1值最高,在Banknote數(shù)據(jù)集上第二高,表明所構(gòu)建的DHFSVM算法可通過賦予不同樣本不同的權(quán)重來降低噪聲對風(fēng)險評估帶來的影響;(2)在Kaggle數(shù)據(jù)科學(xué)競賽平臺上提供的真實信貸數(shù)據(jù)集進(jìn)行的實驗發(fā)現(xiàn),DHFSVM算法表現(xiàn)最好,取得了最大的F1值。表明DHFSVM算法可有效提高不平衡信貸數(shù)據(jù)集的分類準(zhǔn)確性,可為個人貸款業(yè)務(wù)中個人信用風(fēng)險評估問題提供借鑒。