基于證據(jù)權(quán)重及信息價值篩選的信用卡透支風(fēng)險檢測模型的建構(gòu)

2020-12-01 00:32:48徐公偉

宿州學(xué)院學(xué)報 2020年10期

謝軍,徐公偉

宿州學(xué)院商學(xué)院，安徽宿州，234000

透支是信用卡的常見形式，也是人們選擇使用信用卡的重要原因，可促進信用卡市場發(fā)展。近年來人們對生活質(zhì)量要求的提高，加上信用卡發(fā)行機構(gòu)之間市場份額的競爭，信用卡透支現(xiàn)象較為普遍，但透支逾期不還現(xiàn)象也頻發(fā)。在司法實踐中，信用卡借款過期無法歸還擾亂了市場金融秩序[1]，由此產(chǎn)生的糾紛雖不應(yīng)認定為詐騙罪，但應(yīng)通過民事訴訟途徑解決或貸款詐騙類犯罪追究刑事責(zé)任[2]。由于信用卡借款存在一定透支風(fēng)險，有必要運用信貸管理中的技術(shù)手段預(yù)先評估持卡人的信用狀況。

針對網(wǎng)絡(luò)借貸客戶的相關(guān)信息，劉志惠等[3]使用XGBoost機器學(xué)習(xí)模型，陳戰(zhàn)勇[4]篩選出特征信息后使用邏輯回歸模型，預(yù)測個人信用風(fēng)險準(zhǔn)確率分別為77.16%和82.10%。機器學(xué)習(xí)模型的預(yù)測準(zhǔn)確率顯著高于傳統(tǒng)回歸模型，尤其隨機森林、決策樹算法相較于傳統(tǒng)邏輯回歸模型準(zhǔn)確率高，但模型的可解釋性不強而且存在過擬合的問題。

利用證據(jù)權(quán)重方法測度信用風(fēng)險，甘信軍等[5]定量刻畫了商業(yè)銀行客戶的違約概率，違約客戶辨識率為88%。肖龍階等[6]結(jié)合證據(jù)權(quán)重和邏輯回歸針對個人網(wǎng)貸評估了其信用風(fēng)險，預(yù)測準(zhǔn)確率為86.45%，但僅研究1 382筆貸款數(shù)據(jù)，難以說明其方法的有效性。

從借款人信息角度考慮，Herzenstein等[7]認為,借款人信用狀況、個人背景對能否如期還款有顯著影響。廖理等[8]使用Probit模型研究認為借貸個人學(xué)歷水平越高，客戶違約風(fēng)險越低。

個人財務(wù)狀況直接影響著借款人的還款能力，財務(wù)狀況越差，意味著借款人無法按時還款的可能性越大，本文利用持卡人特征、信用歷史記錄、交易記錄等信息進行系統(tǒng)分析，挖掘數(shù)據(jù)蘊含的行為模式、信用特征，構(gòu)建透支風(fēng)險的檢測模型。如果檢測持卡人的透支風(fēng)險在發(fā)行機構(gòu)所設(shè)定的界限以內(nèi)，則借貸申請?zhí)幱诳山邮艿娘L(fēng)險水平并將被批準(zhǔn)；否則將拒絕或給予標(biāo)示以便進一步審查。本文將在完成證據(jù)權(quán)重理論推導(dǎo)后，量化評估信用卡的透支風(fēng)險，為個人信貸提供可靠的風(fēng)險檢測方法。

1 數(shù)據(jù)來源及相關(guān)指標(biāo)

信用卡透支檢測相關(guān)的案例較少，考慮商業(yè)數(shù)據(jù)的敏感性，數(shù)據(jù)來源于美國數(shù)據(jù)挖掘與預(yù)測的“kaggle”競賽，該競賽在線提供了Give Me Some Credit訓(xùn)練數(shù)據(jù)共計約15萬條，測試數(shù)據(jù)43 607條。該原始數(shù)據(jù)屬于個人消費類貸款，從可實施信用測評的角度考查，具體指標(biāo)如表1所示。

將透支數(shù)據(jù)與交易數(shù)據(jù)相匹配，透支賬戶在透支期間(第一次透支日到被發(fā)現(xiàn)之日)之間的所有記錄即為透支使用；對非透支賬戶，其所有使用即為非透支性使用[9]。透支賬戶在第一次透支日之前的正常使用只為透支賬戶建立檔案，信用卡這些正常使用作為非透支性使用也進入建模樣本[10]。通過跟蹤信用卡賬戶的歷史數(shù)據(jù)，可以提煉賬戶的使用行為模式[11]。如果當(dāng)前的使用與歷史行為模式差別較大，則透支的可能性較大；判斷當(dāng)前的這筆是否可能透支，需要將當(dāng)前的信息與建立的評分模型對比，相差越大則透支的可能越大[12-13]。

表1 數(shù)據(jù)的指標(biāo)

2 數(shù)據(jù)預(yù)處理

x5、x10分別表示月收入和家庭人數(shù)指標(biāo)的有效數(shù)據(jù)量，經(jīng)過缺失值處理發(fā)現(xiàn)，月收入共缺失29 731個值，家庭人數(shù)缺失3 924個值。這種情況在現(xiàn)實中很普遍，為使后續(xù)的分析方法得以正常應(yīng)用，需要進行缺失值處理。其中，月收入指標(biāo)缺失率較大，采用隨機森林法(Random Forest)，根據(jù)指標(biāo)之間的相關(guān)關(guān)系填補缺失值。采用python的pearson相關(guān)系數(shù)計算各變量間的相關(guān)性，各變量間相關(guān)性較小，共線性可能性小(表2)。

表2 多變量的相關(guān)性

3 相關(guān)假設(shè)與證據(jù)權(quán)重的理論推導(dǎo)

為將上述數(shù)據(jù)轉(zhuǎn)化為證據(jù)權(quán)重，假設(shè)x是類別變量或分箱處理過的連續(xù)變量，含R個類別或分段，取值于樣本集{C1,…,Cr,…,CR}；y是目標(biāo)變量，取值為0(Good)或1(Bad)。定義變量x第r類的證據(jù)權(quán)重WOE為：

因此WOE有監(jiān)督的方法，可以將計算變量x的WOE看作是x擬合y的優(yōu)化過程，則證據(jù)權(quán)重WOE關(guān)于x的函數(shù)寫作：

WOE(x)=δ1WOE1+δ2WOE2+…+δrWOEr+…+δRWOER

其中,δ1，…，δR是二元虛擬變量，如果變量x取第r類，則δr=1或0。

通過以上定義和假設(shè)可知，證據(jù)權(quán)重WOE是變量x第r類中Bad與Good的比率與整個樣本中Bad與Good的比率之比的對數(shù)值，其是衡量第r類對Bad和Good的比率的影響程度。當(dāng)WOE等于0時，表示該類別中Bad與Good的比率與整體樣本中Bad與Good的比率相等，說明該類別完全沒有區(qū)分度；當(dāng)WOE大于0時，表示該類別中Bad與Good的比率大于整體樣本中Bad與Good的比率，說明第r類Bad和Good的比率的影響程度大；當(dāng)WOE小于0時，表示該類別中Bad與Good的比率小于整體樣本中Bad與Good的比率，說明第r類Bad和Good的比率的影響程度小。

下面根據(jù)證據(jù)權(quán)重WOE的定義建立信用卡透支風(fēng)險檢測的模型函數(shù)：

其對數(shù)損失函數(shù)可定義為：

l(y,p)=-ylnp-(1-y)ln(1-p)

=yln(1+e-f(x))-(1-y)(-f(x)-ln(1+e-f(x)))

=(1-y)f(x)+ln(1+e-f(x))

=(1-y)(WOE(x)+b)+ln(1+e-WOE(x)+b)

則整體樣本的損失函數(shù)L記為：

ln(1+e-(WOE(xi)+b))]

ln(1+e-(WOEr+b))]

其中,Ir={i|xi=cr}為x的樣本集，i=1,2,…,10。因此，WOE是使損失最小化的編碼方式，計算WOE就是一次單變量建模過程，得到的WOE值使損失最小，即信息損失最小。常數(shù)b的不同取值會產(chǎn)生不同的WOE編碼值，但不影響WOE編碼的效果。由前述的推導(dǎo)可知，經(jīng)過WOE編碼后的單變量擬合邏輯回歸模型將得到變量系數(shù)為1，截距項為b。

下面令損失函數(shù)L(y,p)的計算損失最小，即令整體樣本的損失函數(shù)L關(guān)于WOEr的偏導(dǎo)數(shù)為0。

4 透支風(fēng)險的檢測模型

信用卡評分模型的分組操作常用等距分段、等深分段和最優(yōu)分段三種，本文采用最優(yōu)分段。定義信息價值函數(shù)(IV，Information Value)

IVi=(pyi-pni)*WOEi

是衡量第i個自變量xi的預(yù)測能力，則整個檢測系統(tǒng)的信息價值函數(shù)IV=sum(IVi),i=1，…，10。從經(jīng)驗上看，過高的信息價值(IV)可能有潛在的風(fēng)險，而且自變量分組越細，信息價值IV越高。

信息價值IV的預(yù)測能力：<0.05，無預(yù)測能力；0.05～0.09，低；0.10～0.39，中等；>0.40，高。通過以上各變量的樣本值分組后計算得到各分組的WOE值，其中貸款利用情況x1與年齡x2的WOE如表3所示。

表3 貸款利用情況x1與年齡x2的證據(jù)權(quán)重

(續(xù)表)

由各變量WOE值進一步計算每個變量的信息價值(IV)，確定各自變量的預(yù)測能力(表4)。

表4 各自變量的信息價值

由于構(gòu)建評分檢測模型需要參照多種變量，有些變量預(yù)測能力強，有些能力弱，如果不篩選會影響檢測效率。而且，變量的子集(分組)之間很可能高度相關(guān)，造成“過擬合”，將影響模型的準(zhǔn)確性、可靠性，在測試樣本檢測效果佳但由于訓(xùn)練過度，造成推廣至新樣本效果反而不佳[14]。因此有必要對以上自變量進行刪選，這里的相關(guān)性分析只是初步檢測，進一步檢測的信息價值IV作為篩選變量的依據(jù)。

本文選取邏輯回歸模型對因變量預(yù)測分析，屬于廣義線性回歸模型，表達簡單、預(yù)測能力有限。將單變量分組之后，每個變量具有單獨的權(quán)重，這相當(dāng)于為模型引入了非線性的變量，提升了模型的表達能力、預(yù)測精度，同時也降低了模型過擬合風(fēng)險。

當(dāng)IV值<0.1時，預(yù)測能力較弱，不帶入模型進行擬合，故剔除負債比例、月收入、財產(chǎn)狀況、貸款額度和家庭人數(shù)這5個變量，留下貸款利用情況、年齡、30天未還、90天未還、60天未還這5個變量。

在邏輯回歸模型中，用優(yōu)質(zhì)客戶與違約客戶發(fā)生比率的對數(shù)表示為各變量的線性關(guān)系。信用卡評分模型用來評估信用卡持卡人是否會在未來出現(xiàn)90天逾期未還的現(xiàn)象，評分根據(jù)各變量的分配分數(shù)是WOE乘該變量的回歸系數(shù)，加上回歸截距offset再乘比例因子factor，即各變量的分配分數(shù)相加就得到了信用評分。

邏輯回歸模型：Logit=log(優(yōu)質(zhì)客戶數(shù)/違約客戶數(shù))

信用評分：Score=offset+factor(WOE×b)

計算得到邏輯回歸模型的模型及其系數(shù)：

y=9.738 849 + 0.638 002x1+ 0.505 995x2+ 1.032 246x3+ 1.790 041x7+1.131 956x9。

計算結(jié)果顯示觀測數(shù)據(jù)量101 747條，偽R2=0.239 7，其余如表5所示。

表5 邏輯回歸的結(jié)果

邏輯回歸的擬合結(jié)果顯示誤差較小，有泛化性能，各變量系數(shù)通過顯著性檢驗，各變量與是否違約之間有顯著關(guān)系，滿足要求。最后使用計算信用評分AUC值為0.85，說明檢測方法真實性較高，正確率較高，信用卡評分模型的預(yù)測效果較佳。

5 結(jié) 語