謝 軍,徐公偉
宿州學(xué)院商學(xué)院,安徽宿州,234000
透支是信用卡的常見形式,也是人們選擇使用信用卡的重要原因,可促進信用卡市場發(fā)展。近年來人們對生活質(zhì)量要求的提高,加上信用卡發(fā)行機構(gòu)之間市場份額的競爭,信用卡透支現(xiàn)象較為普遍,但透支逾期不還現(xiàn)象也頻發(fā)。在司法實踐中,信用卡借款過期無法歸還擾亂了市場金融秩序[1],由此產(chǎn)生的糾紛雖不應(yīng)認定為詐騙罪,但應(yīng)通過民事訴訟途徑解決或貸款詐騙類犯罪追究刑事責(zé)任[2]。由于信用卡借款存在一定透支風(fēng)險,有必要運用信貸管理中的技術(shù)手段預(yù)先評估持卡人的信用狀況。
針對網(wǎng)絡(luò)借貸客戶的相關(guān)信息,劉志惠等[3]使用XGBoost機器學(xué)習(xí)模型,陳戰(zhàn)勇[4]篩選出特征信息后使用邏輯回歸模型,預(yù)測個人信用風(fēng)險準(zhǔn)確率分別為77.16%和82.10%。機器學(xué)習(xí)模型的預(yù)測準(zhǔn)確率顯著高于傳統(tǒng)回歸模型,尤其隨機森林、決策樹算法相較于傳統(tǒng)邏輯回歸模型準(zhǔn)確率高,但模型的可解釋性不強而且存在過擬合的問題。
利用證據(jù)權(quán)重方法測度信用風(fēng)險,甘信軍等[5]定量刻畫了商業(yè)銀行客戶的違約概率,違約客戶辨識率為88%。肖龍階等[6]結(jié)合證據(jù)權(quán)重和邏輯回歸針對個人網(wǎng)貸評估了其信用風(fēng)險,預(yù)測準(zhǔn)確率為86.45%,但僅研究1 382筆貸款數(shù)據(jù),難以說明其方法的有效性。
從借款人信息角度考慮,Herzenstein等[7]認為,借款人信用狀況、個人背景對能否如期還款有顯著影響。廖理等[8]使用Probit模型研究認為借貸個人學(xué)歷水平越高,客戶違約風(fēng)險越低。
個人財務(wù)狀況直接影響著借款人的還款能力,財務(wù)狀況越差,意味著借款人無法按時還款的可能性越大,本文利用持卡人特征、信用歷史記錄、交易記錄等信息進行系統(tǒng)分析,挖掘數(shù)據(jù)蘊含的行為模式、信用特征,構(gòu)建透支風(fēng)險的檢測模型。如果檢測持卡人的透支風(fēng)險在發(fā)行機構(gòu)所設(shè)定的界限以內(nèi),則借貸申請?zhí)幱诳山邮艿娘L(fēng)險水平并將被批準(zhǔn);否則將拒絕或給予標(biāo)示以便進一步審查。本文將在完成證據(jù)權(quán)重理論推導(dǎo)后,量化評估信用卡的透支風(fēng)險,為個人信貸提供可靠的風(fēng)險檢測方法。
信用卡透支檢測相關(guān)的案例較少,考慮商業(yè)數(shù)據(jù)的敏感性,數(shù)據(jù)來源于美國數(shù)據(jù)挖掘與預(yù)測的“kaggle”競賽,該競賽在線提供了Give Me Some Credit訓(xùn)練數(shù)據(jù)共計約15萬條,測試數(shù)據(jù)43 607條。該原始數(shù)據(jù)屬于個人消費類貸款,從可實施信用測評的角度考查,具體指標(biāo)如表1所示。
將透支數(shù)據(jù)與交易數(shù)據(jù)相匹配,透支賬戶在透支期間(第一次透支日到被發(fā)現(xiàn)之日)之間的所有記錄即為透支使用;對非透支賬戶,其所有使用即為非透支性使用[9]。透支賬戶在第一次透支日之前的正常使用只為透支賬戶建立檔案,信用卡這些正常使用作為非透支性使用也進入建模樣本[10]。通過跟蹤信用卡賬戶的歷史數(shù)據(jù),可以提煉賬戶的使用行為模式[11]。如果當(dāng)前的使用與歷史行為模式差別較大,則透支的可能性較大;判斷當(dāng)前的這筆是否可能透支,需要將當(dāng)前的信息與建立的評分模型對比,相差越大則透支的可能越大[12-13]。
表1 數(shù)據(jù)的指標(biāo)
x5、x10分別表示月收入和家庭人數(shù)指標(biāo)的有效數(shù)據(jù)量,經(jīng)過缺失值處理發(fā)現(xiàn),月收入共缺失29 731個值,家庭人數(shù)缺失3 924個值。這種情況在現(xiàn)實中很普遍,為使后續(xù)的分析方法得以正常應(yīng)用,需要進行缺失值處理。其中,月收入指標(biāo)缺失率較大,采用隨機森林法(Random Forest),根據(jù)指標(biāo)之間的相關(guān)關(guān)系填補缺失值。采用python的pearson相關(guān)系數(shù)計算各變量間的相關(guān)性,各變量間相關(guān)性較小,共線性可能性小(表2)。
表2 多變量的相關(guān)性
為將上述數(shù)據(jù)轉(zhuǎn)化為證據(jù)權(quán)重,假設(shè)x是類別變量或分箱處理過的連續(xù)變量,含R個類別或分段,取值于樣本集{C1,…,Cr,…,CR};y是目標(biāo)變量,取值為0(Good)或1(Bad)。定義變量x第r類的證據(jù)權(quán)重WOE為:
因此WOE有監(jiān)督的方法,可以將計算變量x的WOE看作是x擬合y的優(yōu)化過程,則證據(jù)權(quán)重WOE關(guān)于x的函數(shù)寫作:
WOE(x)=δ1WOE1+δ2WOE2+…+δrWOEr+…+δRWOER
其中,δ1,…,δR是二元虛擬變量,如果變量x取第r類,則δr=1或0。
通過以上定義和假設(shè)可知,證據(jù)權(quán)重WOE是變量x第r類中Bad與Good的比率與整個樣本中Bad與Good的比率之比的對數(shù)值,其是衡量第r類對Bad和Good的比率的影響程度。當(dāng)WOE等于0時,表示該類別中Bad與Good的比率與整體樣本中Bad與Good的比率相等,說明該類別完全沒有區(qū)分度;當(dāng)WOE大于0時,表示該類別中Bad與Good的比率大于整體樣本中Bad與Good的比率,說明第r類Bad和Good的比率的影響程度大;當(dāng)WOE小于0時,表示該類別中Bad與Good的比率小于整體樣本中Bad與Good的比率,說明第r類Bad和Good的比率的影響程度小。
下面根據(jù)證據(jù)權(quán)重WOE的定義建立信用卡透支風(fēng)險檢測的模型函數(shù):
其對數(shù)損失函數(shù)可定義為:
l(y,p)=-ylnp-(1-y)ln(1-p)
=yln(1+e-f(x))-(1-y)(-f(x)-ln(1+e-f(x)))
=(1-y)f(x)+ln(1+e-f(x))
=(1-y)(WOE(x)+b)+ln(1+e-WOE(x)+b)
則整體樣本的損失函數(shù)L記為:
ln(1+e-(WOE(xi)+b))]
ln(1+e-(WOE(xi)+b))]
ln(1+e-(WOEr+b))]
其中,Ir={i|xi=cr}為x的樣本集,i=1,2,…,10。因此,WOE是使損失最小化的編碼方式,計算WOE就是一次單變量建模過程,得到的WOE值使損失最小,即信息損失最小。常數(shù)b的不同取值會產(chǎn)生不同的WOE編碼值,但不影響WOE編碼的效果。由前述的推導(dǎo)可知,經(jīng)過WOE編碼后的單變量擬合邏輯回歸模型將得到變量系數(shù)為1,截距項為b。
下面令損失函數(shù)L(y,p)的計算損失最小,即令整體樣本的損失函數(shù)L關(guān)于WOEr的偏導(dǎo)數(shù)為0。
=0
信用卡評分模型的分組操作常用等距分段、等深分段和最優(yōu)分段三種,本文采用最優(yōu)分段。定義信息價值函數(shù)(IV,Information Value)
IVi=(pyi-pni)*WOEi
是衡量第i個自變量xi的預(yù)測能力,則整個檢測系統(tǒng)的信息價值函數(shù)IV=sum(IVi),i=1,…,10。從經(jīng)驗上看,過高的信息價值(IV)可能有潛在的風(fēng)險,而且自變量分組越細,信息價值IV越高。
信息價值IV的預(yù)測能力:<0.05,無預(yù)測能力;0.05~0.09,低;0.10~0.39,中等;>0.40,高。通過以上各變量的樣本值分組后計算得到各分組的WOE值,其中貸款利用情況x1與年齡x2的WOE如表3所示。
表3 貸款利用情況x1與年齡x2的證據(jù)權(quán)重
(續(xù)表)
由各變量WOE值進一步計算每個變量的信息價值(IV),確定各自變量的預(yù)測能力(表4)。
表4 各自變量的信息價值
由于構(gòu)建評分檢測模型需要參照多種變量,有些變量預(yù)測能力強,有些能力弱,如果不篩選會影響檢測效率。而且,變量的子集(分組)之間很可能高度相關(guān),造成“過擬合”,將影響模型的準(zhǔn)確性、可靠性,在測試樣本檢測效果佳但由于訓(xùn)練過度,造成推廣至新樣本效果反而不佳[14]。因此有必要對以上自變量進行刪選,這里的相關(guān)性分析只是初步檢測,進一步檢測的信息價值IV作為篩選變量的依據(jù)。
本文選取邏輯回歸模型對因變量預(yù)測分析,屬于廣義線性回歸模型,表達簡單、預(yù)測能力有限。將單變量分組之后,每個變量具有單獨的權(quán)重,這相當(dāng)于為模型引入了非線性的變量,提升了模型的表達能力、預(yù)測精度,同時也降低了模型過擬合風(fēng)險。
當(dāng)IV值<0.1時,預(yù)測能力較弱,不帶入模型進行擬合,故剔除負債比例、月收入、財產(chǎn)狀況、貸款額度和家庭人數(shù)這5個變量,留下貸款利用情況、年齡、30天未還、90天未還、60天未還這5個變量。
在邏輯回歸模型中,用優(yōu)質(zhì)客戶與違約客戶發(fā)生比率的對數(shù)表示為各變量的線性關(guān)系。信用卡評分模型用來評估信用卡持卡人是否會在未來出現(xiàn)90天逾期未還的現(xiàn)象,評分根據(jù)各變量的分配分數(shù)是WOE乘該變量的回歸系數(shù),加上回歸截距offset再乘比例因子factor,即各變量的分配分數(shù)相加就得到了信用評分。
邏輯回歸模型:Logit=log(優(yōu)質(zhì)客戶數(shù)/違約客戶數(shù))
信用評分:Score=offset+factor(WOE×b)
計算得到邏輯回歸模型的模型及其系數(shù):
y=9.738 849 + 0.638 002x1+ 0.505 995x2+ 1.032 246x3+ 1.790 041x7+1.131 956x9。
計算結(jié)果顯示觀測數(shù)據(jù)量101 747條,偽R2=0.239 7,其余如表5所示。
表5 邏輯回歸的結(jié)果
邏輯回歸的擬合結(jié)果顯示誤差較小,有泛化性能,各變量系數(shù)通過顯著性檢驗,各變量與是否違約之間有顯著關(guān)系,滿足要求。最后使用計算信用評分AUC值為0.85,說明檢測方法真實性較高,正確率較高,信用卡評分模型的預(yù)測效果較佳。
本文按數(shù)據(jù)的預(yù)處理、選擇變量、建模分析的步驟建立了信用評分機制。根據(jù)該信用評分機制,銀行可以從持卡人的信貸經(jīng)歷,即貸款利用情況、兩年內(nèi)逾期還款次數(shù)考查持卡人透支信用卡的風(fēng)險。這樣構(gòu)建的評分檢測模型可幫助銀行及時發(fā)現(xiàn)異常賬戶,及時發(fā)現(xiàn)透支風(fēng)險,避免金融損失,對惡意透支的用戶發(fā)出預(yù)警信息,促使用戶適度消費,同時這種機制也可以用來幫助持卡人做出最佳財務(wù)決策。