任師攀,彭一寧
(1.國務(wù)院發(fā)展研究中心辦公廳,北京100010;2.申萬宏源證券有限公司,北京100033)
消費金融是指金融機構(gòu)向消費者提供消費貸款的一種服務(wù)方式,是關(guān)系到國計民生的核心金融業(yè)務(wù)[1]。據(jù)國家統(tǒng)計局公開數(shù)據(jù),2018 年我國全部金融機構(gòu)人民幣消費貸款余額377903 億元,占全部金融機構(gòu)本外幣各項貸款余額的26.65%,這一比例比2014 年提高約8.95 個百分點,較2010 年提高約11.9個百分點。居民消費貸款需求不斷提高,消費金融的重要性逐步凸顯。
邢天才和張夕(2019)[2]通過實證研究驗證了互聯(lián)網(wǎng)消費金融的產(chǎn)生和快速發(fā)展對我國城鎮(zhèn)居民的消費水平和消費行為有極強的帶動作用。許文彬和王希平(2010)[3]對比分析了英美兩國消費金融公司的模式,指出消費信貸拉動經(jīng)濟增長,我國消費金融公司在業(yè)務(wù)上應(yīng)側(cè)重發(fā)掘銀行信貸難以覆蓋的客戶群體,同時由于平臺承擔的違約風險更高,所以需要更嚴格的風險控制。鐘鼎禮(2018)[4]指出消費金融面臨的風險具有復(fù)雜性、隱蔽性和滯后性等特點。2018 年,上海交通大學(xué)凱原法學(xué)院進行的中國消費金融行業(yè)問卷調(diào)查結(jié)果顯示,我國消費金融市場的主要風險是用戶信用風險、欺詐與套現(xiàn)風險、法律滯后糾紛頻發(fā)風險等。尹振濤和程雪軍(2019)[5]分析這是由于忽視行業(yè)風控、監(jiān)管體系不健全、征信體系不完善等導(dǎo)致的,我國消費金融公司必須加強與人工智能的結(jié)合,提高風險識別和防范能力,更好完善風控體系。
隨著互聯(lián)網(wǎng)金融和人工智能的蓬勃發(fā)展,機器學(xué)習算法在違約風險評估領(lǐng)域的應(yīng)用越來越多。Khandani 等(2010)[6]基于2005 年1 月至2009 年4 月某大型商業(yè)銀行的用戶交易數(shù)據(jù)和征信數(shù)據(jù),采用決策樹算法構(gòu)建消費信貸風險評估模型。陸愛國等(2012)[7]將改進的支持向量機算法應(yīng)用于信用評分中,在公開數(shù)據(jù)集上驗證了該方法的有效性。張國政等(2015)[8]基于商業(yè)銀行個人消費信貸的實際操作數(shù)據(jù)和Logistic 回歸模型構(gòu)建個人信用評分系統(tǒng)。Guégan和Hassani(2018)[9]分別采用支持向量機、Logistic 回歸、神經(jīng)網(wǎng)絡(luò)、隨機森林等模型進行信用評估研究,實驗結(jié)果表明隨機森林AUC 指標最大,預(yù)測效果最優(yōu)。He 等(2018)[10]采用隨機森林和XGBoost作為基學(xué)習器設(shè)計融合模型用于信用評估,實現(xiàn)了更優(yōu)的預(yù)測性能。馬曉君等(2018)[11]采用P2P平臺Lending Club 的借貸數(shù)據(jù),構(gòu)建基于LightGBM算法的個人信用評級模型,并指出在選取指標時需要重點關(guān)注貸款金額、利率、年收入、月還款金額、居住地、貸款年份等因素。
現(xiàn)有文獻在實證分析中普遍只基于平臺自身數(shù)據(jù)構(gòu)建模型,對第三方征信數(shù)據(jù)關(guān)注較少,數(shù)據(jù)存在體量小、維度低的問題;在評價模型時僅采用AUC、準確率等數(shù)學(xué)指標,沒有從實際應(yīng)用場景出發(fā)進一步分析;而且現(xiàn)有文獻多關(guān)注P2P 信貸違約風險評估,對消費金融的相關(guān)研究有較大空白。本文基于大規(guī)模消費信貸數(shù)據(jù)和征信數(shù)據(jù),將軟投票融合模型應(yīng)用于消費信貸違約風險評估,在有效降低違約率、減少損失的同時,合理控制誤拒率,更好發(fā)揮平臺的普惠金融作用,為消費金融健康發(fā)展提供保障。
捷信集團(Home Credit Group)1997 年成立,致力于為缺乏信用記錄的用戶提供貸款,是國際領(lǐng)先的消費金融服務(wù)提供商。2010 年,捷信集團在中國成立全資子公司——捷信消費金融有限公司。截至2019 年7 月,捷信在中國的業(yè)務(wù)覆蓋了29 個?。ㄗ灾螀^(qū))和直轄市,是國內(nèi)凈利潤最高的消費金融平臺(根據(jù)國內(nèi)各消費金融公司2018 年的財報分析,捷信消費金融公司凈利潤為13.96 億元,排名第一)。由于捷信平臺業(yè)務(wù)覆蓋范圍廣、盈利能力強且數(shù)據(jù)公開,選擇其貸款數(shù)據(jù)進行研究具有較強的代表性和現(xiàn)實意義。
本文采用的數(shù)據(jù)是捷信集團2018年8月公開的貸款數(shù)據(jù)集(https://www.kaggle.com/c/home-creditdefault-risk/data)。如圖1 所示,數(shù)據(jù)集共包含7 個數(shù)據(jù)表,記錄了用戶貸款申請信息、第三方機構(gòu)征信數(shù)據(jù)和平臺歷史貸款數(shù)據(jù)。
圖1 數(shù)據(jù)集結(jié)構(gòu)
Application_train 是整個數(shù)據(jù)集的主表(下文簡稱“主表”),記錄用戶貸款申請數(shù)據(jù),主鍵是“SK_ID_CURR”(每筆貸款的唯一標識號)。目標變量是“TARGET”,取值為0 代表正常還款,取值為1代表違約。主表共307511行、122列,每行記錄一筆貸款。主要列屬性有貸款類型、金額、分期付款額、申請人性別、年齡、受教育程度、當前工作從事時間、收入、車產(chǎn)、房產(chǎn)、居住環(huán)境、最近一次更改身份證明文件的時間、外部數(shù)據(jù)源的標準化評分、申請人社交環(huán)境中違約的觀測數(shù)等。
Bureau 記錄了用戶征信記錄中的貸款信息,主鍵是“SK_BUREAU_ID”(征信記錄中每筆貸款的唯一標識號),外鍵是“SK_ID_CURR”,共1716428 行、17 列,主要列屬性包括貸款金額、類型、申請時間、貸款狀況、逾期天數(shù)、剩余期限、逾期最大金額等。
Bureau_balance 記錄了用戶征信記錄中貸款的每月結(jié)算狀態(tài),外鍵是“SK_BUREAU_ID”,共27299925 行、3 列,列屬性分別是外鍵、結(jié)算月份和貸款結(jié)算狀態(tài)。
Previous_application 記錄了用戶在捷信平臺上的歷史貸款信息,主鍵是“SK_ID_PREV”(捷信平臺歷史貸款的唯一標識號),外鍵是“SK_ID_CURR”,共1670214 行、37 列,主要列屬性包括申請貸款金額、最終貸款金額、貸款類型、利率、分期付款額、貸款期限、貸款目的、合同狀態(tài)等。
POS_CASH_balance 記錄了用戶在捷信平臺上的歷史POS 貸款和現(xiàn)金貸款的每月結(jié)算簡況,外鍵是“SK_ID_CURR”和“SK_ID_PREV”,共10001358行、8 列,主要列屬性包括結(jié)算月份、貸款期限、剩余還款周期、還款狀態(tài)、貸款逾期天數(shù)等。
Credit_card_balance 記錄了用戶在平臺上歷史信用卡貸款的每月結(jié)算簡況,外鍵是“SK_ID_CURR”和“SK_ID_PREV”,共3840312 行、23列,主要列屬性包括結(jié)算月份、當月最低還款金額、當月還款金額、已還款總額、已還款分期數(shù)、貸款逾期天數(shù)、信用卡額度、當月提取金額、當月購物次數(shù)等。
Installments_payments 記錄了用戶在捷信平臺上的歷史還款行為,外鍵是“SK_ID_CURR”和“SK_ID_PREV”,共13605401行,8個屬性,主要列屬性包括還款分期數(shù)、還款方式、應(yīng)還款時間、實際還款時間、本期應(yīng)還金額、本期實際還款金額等。
主表中共包含307511 筆貸款信息,其中正常還款標的282686 筆,違約標的24825 筆,違約率為8.07%。
圖2 各年齡貸款標的數(shù)占比及違約率
貸款類型方面,現(xiàn)金貸款、循環(huán)貸款標的數(shù)分別占比90.48%、9.52%,分別對應(yīng)8.35%、5.48%的違約率。性別方面,女性貸款標的數(shù)接近男性的二倍,違約率為7%,比男性低3.14 個百分點。由此可見,女性對消費信貸的需求更多,整體上比男性更重視信用,履約能力更強。
如圖2 所示,平臺用戶的年齡在20 歲至70 歲之間;27 歲至64 歲,各個年齡對應(yīng)的貸款次數(shù)分布比較均勻,其他年齡的用戶貸款次數(shù)較少;整體來看,違約率隨年齡的增長逐漸下降。
圖3 各從事年數(shù)的貸款標的數(shù)占比及違約率
如圖3所示,貸款用戶大多從事當前工作0年至15 年,貸款標的數(shù)隨著當前工作從事年數(shù)的增長逐漸下降;違約率和當前工作從事年數(shù)呈負相關(guān)趨勢。
借款人學(xué)歷方面,初中學(xué)歷僅占1.24%,高中學(xué)歷占71.02%,高等教育占27.74%,三種學(xué)歷分別對應(yīng)10.93%、8.94%、5.73%的違約率,表明平臺的主要服務(wù)對象是受過高等教育或高中教育的人群,而且學(xué)歷層次越高,貸款的違約率越低。
資產(chǎn)實力反映借款人的償債能力,與違約率呈負相關(guān)關(guān)系。擁有房產(chǎn)或公寓的借款人占總數(shù)的69.3%,違約率為7.96%;沒有房產(chǎn)或公寓的借款人群體違約率為8.32%。擁有汽車的借款人占總數(shù)的34%,違約率為7.24%;沒有汽車的借款人群體違約率為8.5%。居住條件方面,租住公寓、與父母同住的借款人群體違約率分別是12.31%、11.7%,遠高于其他群體。居住環(huán)境方面,10.5%的借款人居住地被評定為一級,73.8%為二級,15.7%為三級,三個等級分別對應(yīng)4.82%、7.89%、11.1%的違約率。
1.缺失值和異常值處理
由于XGBoost 和LightGBM 具備缺失值處理能力,所以數(shù)據(jù)預(yù)處理階段沒有對數(shù)值型變量進行缺失值填充;對于類別型變量中的缺失值,將其作為“nan”類進行獨熱編碼(One-Hot)處理。數(shù)據(jù)集中“DAYS_EMPLOYED”(當前工作從事天數(shù))等涉及時間距離的字段存在異常值,用空值將其代替。
2.衍生變量
如表1 所示,為了更多角度地描述借款人信息,本文構(gòu)建了9個衍生變量。
表1 衍生變量
3.數(shù)據(jù)集構(gòu)建
為了更直觀地分析征信記錄和歷史貸款信息的重要性,本文在原始數(shù)據(jù)基礎(chǔ)上構(gòu)建了app、app_bureau、app_pre、app_bureau_pre 四個數(shù)據(jù)集(如表2 所示),分別訓(xùn)練軟投票融合模型,對比分析不同數(shù)據(jù)集下模型的預(yù)測能力。
將其他原始數(shù)據(jù)表的統(tǒng)計信息連接到主表中,并且劃分出訓(xùn)練集(用于訓(xùn)練模型、調(diào)優(yōu)超參數(shù))和測試集(用于評價模型的預(yù)測能力),主要有以下步驟。
處理Bureau_balance 表:對分類變量進行獨熱編碼,按照“SK_ID_BUREAU”(信用記錄中貸款的唯一標識號)分組后統(tǒng)計“MONTHS_BALANCE”(結(jié)算月份)變量的最小值(首個還款月)、最大值(最近還款月)、元素個數(shù)(已還款周期數(shù)),以及“STATUS”(貸款狀態(tài))變量生成的各個啞變量字段的平均值(各個貸款狀態(tài)的出現(xiàn)次數(shù)占已還款周期數(shù)的比例),生成以“SK_ID_BUREAU”為主鍵的征信記錄結(jié)算信息統(tǒng)計表。通過“SK_ID_BUREAU”列將生成的信息統(tǒng)計表連接到Bureau表中。
表2 數(shù)據(jù)集描述
處理Bureau、Previous_applications、POS_CASH_balance、Credit_card_balance、Installments_payments表:首先對分類變量進行獨熱編碼,然后按照“SK_ID_CURR”(主表中貸款申請的唯一標識號)分組后,統(tǒng)計數(shù)字型變量的最大值、最小值、平均值等,并且計算分類變量生成的各個啞變量字段的平均值,生成以“SK_ID_CURR”為主鍵的征信信息統(tǒng)計表、平臺歷史貸款信息統(tǒng)計表、POS貸款和現(xiàn)金貸款的每月結(jié)算信息統(tǒng)計表、信用卡貸款每月結(jié)算信息統(tǒng)計表、平臺歷史還款信息統(tǒng)計表。
處理主表:將分類變量進行獨熱編碼后,通過“SK_ID_CURR”列連接其他原始數(shù)據(jù)表生成的信息統(tǒng)計表,然后以19:1的樣本比例劃分得出訓(xùn)練集(含292131個樣本)和測試集(含15376個樣本)。
1.梯度提升決策樹
梯度提升決策樹(gradient boosting decision tree,GBDT)以決策樹為基學(xué)習器,利用損失函數(shù)的負梯度值作為近似殘差擬合模型,是統(tǒng)計學(xué)習中性能最好的方法之一。
如式(1)所示,GBDT 可以表示為若干決策樹的加法模型:
其中,T(x;θn)表示決策樹,θn為決策樹的參數(shù),x表示特征變量,N表示決策樹的個數(shù)。
GBDT 的訓(xùn)練是一個多輪迭代的過程,初始決策樹f0(x)=0。第n次迭代中,模型如式(2)所示,其中fn-1(x)在第n-1輪已經(jīng)得出。
損失函數(shù)如式(3)所示,其中y是目標變量值。
GBDT 利用損失函數(shù)loss 的負梯度值作為近似殘差擬合模型。當N輪迭代后,得到最終模型fN(x)。
目前,GBDT 有許多不同的實現(xiàn),其中最具代表性的是XGBoost和LightGBM。
2.XGBoost
XGBoost(extreme gradient boosting)是一個開源的高度可擴展的梯度提升樹系統(tǒng),已經(jīng)在許多機器學(xué)習和數(shù)據(jù)挖掘任務(wù)中得到廣泛應(yīng)用[12]。XGBoost受到廣泛歡迎的重要原因是它可以擴展到風險預(yù)測、網(wǎng)絡(luò)文本分類、惡意軟件識別、顧客行為預(yù)測等眾多應(yīng)用場景中。
XGBoost 的主要特點有:采用稀疏感知算法處理稀疏數(shù)據(jù);采用加權(quán)分位數(shù)草圖近似實現(xiàn)樹模型的學(xué)習;采用緩存感知塊結(jié)構(gòu),實現(xiàn)了樹模型的核外學(xué)習;并行和分布式計算加速模型的訓(xùn)練。
3.LightGBM
當數(shù)據(jù)維度高、數(shù)據(jù)量大時,GBDT 對于每個特征都需要掃描所有數(shù)據(jù)點,計算所有可能的分割節(jié)點的信息增益,導(dǎo)致效率較低。LightGBM(light gradient boosting machine)分別采用基于梯度的單側(cè)采樣(gradient-based one-side sampling,GOSS)和互斥特征捆綁(exclusive feature bundling,EFB)來解決數(shù)據(jù)量大和特征維度高的問題[13]。其中,GOSS方法減少了梯度較小的樣本的比例,僅僅采用具有較大梯度的樣本計算信息增益;EFB 方法通過捆綁互斥的特征減少了特征數(shù)量。多個公開數(shù)據(jù)集上的實驗結(jié)果表明,LightGBM 可以使傳統(tǒng)GBDT 的訓(xùn)練過程加速20倍以上,同時實現(xiàn)了幾乎相同的精度[13]。
4.軟投票(soft voting)融合模型
本文設(shè)計的軟投票融合模型(下文簡稱“融合模型”)如圖4所示。訓(xùn)練階段,采用貝葉斯優(yōu)化和5折交叉檢驗方法對模型進行參數(shù)調(diào)優(yōu),求解最優(yōu)參數(shù)組合;測試階段,以特征變量作為XGBoost 和Light-GBM 的輸入,并且對它們輸出的類別概率進行軟投票得出預(yù)測結(jié)果。如式(4)和式(5)所示,軟投票是指對XGBoost 和LightGBM 輸出的類別概率取平均值后,根據(jù)閾值(默認為0.5)確定最終結(jié)果。其中,Pm是指模型m 預(yù)測的當前貸款申請違約的概率,“threshold”代表閾值,“Result”為融合模型的預(yù)測結(jié)果,1表示違約,0表示正常還款。
圖4 模型設(shè)計
二分類任務(wù)中常用的評價指標有AUC(area under the curve)、KS(kolmogorov-smirnov)值、準確率等,它們均可由混淆矩陣(如表3所示)計算得出。
準確率(accuracy)是指分類正確的樣本數(shù)占總樣本的比例。
真正例率(True Positive Rate,TPR)是指1 類(違約)樣本被正確預(yù)測的比例。
假正例率(False Positive Rate,FPR)是指0類(正常還款)樣本被錯誤預(yù)測的比例。
表3 混淆矩陣
分類模型在結(jié)果預(yù)測時,首先得出各個類別的概率值,然后根據(jù)閾值做出分類判斷。由此可見,設(shè)定不同的閾值會得到不同的分類結(jié)果,模型的準確率、真正例率等指標都會隨之變化。
如圖5 所示,受試者工作特征曲線(receiver operating characteristic,ROC)呈現(xiàn)了不同閾值設(shè)定下真正例率和假正例率間的關(guān)系。真正例率越高,假正例率越低(ROC 曲線越向上彎曲),模型的預(yù)測能力越強。AUC,即ROC 曲線下區(qū)域的面積,一般在0.5和1之間,值越大表明模型預(yù)測越準確。
KS值反映了模型區(qū)分正負樣本的能力。如圖6所示,以閾值為自變量,真正例率、假正例率為因變量得到的兩條曲線,即KS 曲線。KS 值是指兩條曲線之間的最大間隔距離,值越大表明模型區(qū)分正負樣本的能力越強。借助KS 曲線,可以選擇最優(yōu)閾值。例如,圖6中KS值為0.44,最優(yōu)閾值為0.39。
圖5 ROC曲線
圖6 KS曲線
在二分類模型評價中,AUC、KS 值通常比其他指標更有效,主要原因有:一是相較于準確率、真正例率等依賴閾值的指標,AUC、KS 值綜合評價了不同閾值設(shè)定下模型的預(yù)測能力;二是AUC、KS 值對正負樣本比例不敏感,適用于樣本不平衡問題。
實際應(yīng)用中,模型預(yù)測為0 類(正常還款)的貸款申請會被通過,預(yù)測為1 類(違約)的申請則會被拒絕。為了更全面地評價模型,除采用AUC、KS 值和準確率指標外,本文還結(jié)合實際場景,設(shè)置了違約率和誤拒率兩個指標。如式(9)和式(10)所示,違約率是預(yù)測正常還款的貸款標的中實際違約的樣本比例,誤拒率是預(yù)測違約但實際可以正常還款的貸款標的數(shù)占樣本總數(shù)的比例。誤拒率越低,平臺因錯誤拒絕具備償債能力的申請人而導(dǎo)致的用戶流失越少,盈利能力越強,越有能力發(fā)揮普惠金融作用。
表4、表5 中,準確率、違約率、誤拒率是在默認閾值(0.5)下得出的。從app_bureau_pre 數(shù)據(jù)集上三個模型的實驗結(jié)果來看,融合模型的AUC、KS 值和準確率指標最高,表明其預(yù)測最準確,區(qū)分正負樣本的能力最強;違約率和誤拒率最低,表明其不僅可以更好地降低壞賬損失,而且更少誤拒用戶的貸款申請,保障平臺的用戶規(guī)模。
表4 app_bureau_pre 數(shù)據(jù)集上三個模型的各項指標對比
從不同數(shù)據(jù)集上融合模型的各項指標來看,征信記錄、歷史貸款記錄的引入均提高了模型的AUC、KS 值和準確率,即提高了模型的預(yù)測準確性和區(qū)分正負樣本的能力;誤拒率雖然略有增高,但是仍處于較低的水平。以app 數(shù)據(jù)集(僅含主表)為基礎(chǔ),引入征信記錄后,違約率降低0.08%;引入歷史貸款記錄后,違約率降低0.18%;引入征信記錄和歷史貸款記錄后,違約率降低0.28%,充分證明了征信記錄和歷史貸款記錄的重要性。
表5 不同數(shù)據(jù)集上融合模型的各項指標對比
經(jīng)過上述分析,app_bureau_pre數(shù)據(jù)集上訓(xùn)練的融合模型表現(xiàn)最優(yōu)。由于模型違約率、誤拒率與閾值的設(shè)定相關(guān),本文對融合模型在不同閾值設(shè)定下違約率和誤拒率的變化情況進行了探索。如圖7 所示,隨著閾值的增加,模型違約率先迅速增長后趨于穩(wěn)定,誤拒率則先迅速下降后趨于穩(wěn)定。模型違約率和誤拒率呈負相關(guān)關(guān)系,這意味著在降低違約率減小損失的過程中,不可避免地增高誤拒率,影響用戶規(guī)模。極端情況下,當閾值為0.05時,模型違約率為2.34%,但是誤拒率卻高達38.55%,導(dǎo)致大量擁有償債能力的用戶流失,對平臺的發(fā)展極為不利。因此,選擇一個合適的閾值非常重要。
本文采用反映模型正負樣本區(qū)分能力的KS 曲線選擇閾值。如圖8 所示,KS 兩條曲線最大間隔距離(KS值)為0.44,對應(yīng)的閾值為0.32,即得出最優(yōu)閾值。從圖7 可以得出,當閾值為0.32 時,模型違約率為6.85%,誤拒率為1.98%。與數(shù)據(jù)集中捷信平臺8.07%的貸款違約率相比,軟投票融合模型可以將違約率降低1.22 個百分點,僅以捷信集團2018 年總貸款額203 億歐元測算,可以減少約2.48 億歐元的損失。實際運營中,違約往往比誤拒對平臺造成的損失更大。與違約率1.22%的降幅相比,1.98%的誤拒率處在合理水平。
圖7 閾值與模型違約率、誤拒率的關(guān)系
圖8 融合模型的KS曲線
本文統(tǒng)計了重要度前50 位的特征變量的來源。如表6 所示,17 個特征來源于主表,重要度占比50.88%;17 個特征來自征信記錄的統(tǒng)計信息,重要度占比24.27%;16 個來自平臺歷史貸款的統(tǒng)計信息,重要度占比24.85%。結(jié)果表明,在違約風險評估中,主表中的信息重要程度最高,征信記錄和歷史貸款信息重要程度基本相當。
表6 特征來源及重要度占比
圖9 展示了融合模型重要度較高的部分特征,依次是分期付款額/貸款金額、3 個外部數(shù)據(jù)源的標準化評分、年齡、當前工作的從事年數(shù)、分期付款額、在捷信平臺上的歷史貸款還款期限的均值、最近一次在平臺上還款的時間、最近一次更改身份證明文件的時間、征信記錄中最近一筆活躍貸款的申請時間、用戶歷史還款平均逾期天數(shù)、當前工作從事年數(shù)/年齡、分期付款額/收入。
圖9 融合模型特征重要度排序
綜合上述分析,總結(jié)得出在消費信貸違約風險評估中最重要的七類因素。
第一,貸款基本情況,如貸款金額、分期付款額、還款期限。分期付款額與貸款金額的比值反映了利率的大小,利率、貸款金額越高,違約風險越高。還款期限可以反映借款人的償債能力,還款期限越長,表明借款人償債能力越弱,違約風險越高。
第二,外部數(shù)據(jù)源的標準化評分。完備的風控體系一般由多個子系統(tǒng)構(gòu)成,其他子系統(tǒng)的評分對違約風險評估系統(tǒng)有重要的積極意義。
第三,借款人基本信息,如年齡、當前工作從事年數(shù)等。違約率隨著年齡和當前工作從事年數(shù)的增長而降低。當前工作從事年數(shù)和年齡的比值反映了借款人收入的穩(wěn)定性,比值越高,違約風險越低。
第四,借款人行為信息,如最近一次更改身份證明文件的時間、最近一次修改注冊信息的時間等。身份證明文件是校驗借款人身份的重要依據(jù),是提取借款人征信記錄和歷史貸款信息的重要媒介。身份證明文件、注冊信息修改越頻繁,違約風險越高。
第五,借款人資產(chǎn)實力,如收入、房產(chǎn)、車產(chǎn)等。資產(chǎn)實力直觀地反映了借款人的償債能力。收入越高,分期付款額和收入的比值越小,借款人還款壓力越小,違約風險越低。另外,擁有房產(chǎn)、車產(chǎn)也會降低違約風險。
第六,歷史貸款信息,如還款期限均值、最近還款時間、歷史還款平均逾期天數(shù)等。借款人在平臺上的歷史貸款申請信息和行為信息是其信用記錄的重要體現(xiàn)。還款期限均值越小,表明借款人償債能力越強;歷史還款平均逾期天數(shù)越低,代表借款人越重視信用,違約風險也越低。
第七,征信信息,如征信記錄中最近一筆活躍貸款的申請時間、逾期次數(shù)等。征信記錄反映了借款人在其他平臺的歷史貸款申請信息和行為信息。實驗結(jié)果表明,征信記錄在違約風險評估中相當重要。
本文基于大規(guī)模消費信貸數(shù)據(jù)和相關(guān)征信記錄,構(gòu)建軟投票融合模型預(yù)測貸款申請的違約風險;除采用AUC、KS值、準確率三個數(shù)學(xué)指標外,還從實際場景出發(fā)提出了違約率和誤拒率,完善模型評價體系;識別出違約率和誤拒率的負相關(guān)關(guān)系,采用KS 曲線選擇閾值,在降低違約率的同時,將誤拒率控制在合理水平。實驗結(jié)果表明,軟投票融合模型預(yù)測能力優(yōu)于XGBoost 和LightGBM,準確率高達91.99%,可以將違約率降低1.22%,僅以捷信集團2018 年總貸款額203 億歐元測算,減少了約2.48 億歐元的損失。本文總結(jié)了違約風險評估中需要關(guān)注的七類因素,供相關(guān)研究和實際應(yīng)用參考。同時,對消費金融平臺提出以下建議。
第一,利用數(shù)字化手段構(gòu)建線上線下雙向融合的反欺詐機制,確保輸入違約風險評估模型的貸款基本情況、借款人基本信息、行為信息、資產(chǎn)實力等數(shù)據(jù)的真實性和有效性。
第二,充分利用第三方征信數(shù)據(jù)和歷史貸款數(shù)據(jù)。目前,我國征信體系不斷完善,國內(nèi)消費金融公司可以通過與第三方權(quán)威征信機構(gòu)合作擴充數(shù)據(jù)源,結(jié)合平臺用戶數(shù)據(jù)和歷史貸款數(shù)據(jù),構(gòu)建具備自身特色的征信系統(tǒng),有效控制違約風險。
第三,多角度評價模型。構(gòu)建違約風險評估模型時,不僅要關(guān)注AUC、KS、準確率等技術(shù)指標,還要從場景出發(fā),在降低違約率、減少損失的同時,也要保證誤拒率處于合理水平,減少因模型“錯誤決策”而導(dǎo)致的用戶流失。