林奕皓 王宇森 李旭東 許永峰
摘要:為提升互聯(lián)網(wǎng)金融行業(yè)貸款人決策的直觀性與層次性,提出一種信用分級模型。對歷史樣本的信用評價指標進行主成分分析,提取關(guān)鍵信息。利用Logit回歸模型得到“是否違約”和“評價指標主成分”的關(guān)系,依據(jù)回歸方程所得的“違約概率”對借款人進行信用分級。采用遺傳模擬退火算法(GSAA)改進的BP神經(jīng)網(wǎng)絡,學習“等級”和“評價指標”間的映射規(guī)則。利用Kaggle網(wǎng)站信用數(shù)據(jù)集進行實驗,結(jié)果表明,Logit回歸結(jié)果可信度高,“依概率分級”區(qū)分度高,GSAA算法可有效提升BP神經(jīng)網(wǎng)絡的精準分級率。分級模型在測試樣本上的可信度為99.02%,優(yōu)于二值分類和指標賦權(quán)模型,可有效降低貸款人資金風險,推動互聯(lián)網(wǎng)金融行業(yè)高質(zhì)量發(fā)展。
關(guān)鍵詞:互聯(lián)網(wǎng)金融;信用等級;Logit模型;BP神經(jīng)網(wǎng)絡;遺傳模擬退火算法
DOI:10.11907/rjdk.201160 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)006-0029-06
0 引言
隨著普惠金融政策不斷推進,互聯(lián)網(wǎng)金融行業(yè)持續(xù)發(fā)展。在過去幾年,網(wǎng)絡借貸產(chǎn)業(yè)作為一種創(chuàng)新借貸模式,將互聯(lián)網(wǎng)技術(shù)、電子商務技術(shù)、民間借貸資本市場和金融服務模式有機結(jié)合,突破民間借貸地域受限、市場規(guī)模小、需求難匹配等局限,提高傳統(tǒng)金融市場效率,在一定程度上實現(xiàn)金融借貸民主化與公開化。
作為互聯(lián)網(wǎng)金融借貸的代表,P2P網(wǎng)絡借貸在發(fā)展過程中產(chǎn)生諸多問題,面臨很大風險,不少貸款人面臨巨大投資損失。征信體系不完善、披露機制不健全、監(jiān)管法規(guī)不夠有效等因素嚴重制約網(wǎng)絡借貸產(chǎn)業(yè)發(fā)展。2019年9月,互聯(lián)網(wǎng)金融風險專項整治工作領(lǐng)導小組發(fā)布《關(guān)于加強P2P網(wǎng)貸領(lǐng)域征信體系建設的通知》,明確互聯(lián)網(wǎng)金融信用評估的重要性。2020年以來,全國范圍持續(xù)推進網(wǎng)絡借貸行業(yè)出清,不少P2P平臺機構(gòu)向小貸公司轉(zhuǎn)型,申請互聯(lián)網(wǎng)小貸牌照。當前,借貸行業(yè)風險出清呈加速趨勢,其中信用風險問題始終是社會熱議話題。
由此可見,建立有效的借款人信用評估模型,有利于貸款人作出合理決策,保障貸款人資金安全,也有利于網(wǎng)絡借貸產(chǎn)業(yè)走出發(fā)展困境,推動互聯(lián)網(wǎng)金融產(chǎn)業(yè)高質(zhì)量發(fā)展。
1 文獻述評
近年來,針對借款人建立信用評價模型的研究較多,主要有主客觀組合賦權(quán)、回歸分析和機器學習3種方法。當前,絕大多數(shù)學者將研究重心放在算法改進與創(chuàng)新上,追求更高的預測精度。本文從信用評價結(jié)果形式角度梳理相關(guān)文獻,將其分為二值分類和得分評定兩種。
基于二值分類模型針對借款人是否違約進行預測。該模型將信用評價歸結(jié)為0-1二值分類問題:不違約或違約。如Altman基于二值分類提出Z-score模型,將回歸分析方法應用于信用評價領(lǐng)域;Desai等、王春峰等通過判別分析建立信用評價模型;許艷秋等利用層次分析法計算指標權(quán)重,用支持向量機對個人信用數(shù)據(jù)分類;劉瀟雅等利用C4.5信息熵增益率進行屬性選擇,將基于支持向量機的信用評估模型優(yōu)化;楊勝剛等利用決策樹方法篩選個人信用指標,結(jié)合BP神經(jīng)網(wǎng)絡建立兩階段信用評估模型;李淑錦等通過納入宏觀經(jīng)濟變量,提高P2P平臺借款人信用評估預測精度;熊志斌通過引入混沌和小生境技術(shù),提出一種改進粒子群算法,結(jié)合模糊神經(jīng)網(wǎng)絡預測公司信用狀況。
基于得分評定的模型針對借款人信用量化得分進行預測。這種模型主要利用主客觀賦權(quán)給評價指標確定權(quán)重,構(gòu)建信用評價測度體系。如Che等使用數(shù)據(jù)包絡法和模糊層次分析法賦權(quán),構(gòu)建臺灣中小企業(yè)信用評分模型;張目等應用可變模糊集理論和相對熵指標組合賦權(quán),構(gòu)建戰(zhàn)略性新興產(chǎn)業(yè)信用評價模型;陳曉紅等利用層次分析法主觀賦權(quán),利用因子分析法客觀賦權(quán),設計一種改進的模糊綜合評價信用模型;李步軍等采用灰區(qū)間關(guān)聯(lián)分析對信用評價指標賦權(quán),構(gòu)建個人信用評估模型;李戰(zhàn)江將Logit回歸和統(tǒng)計抽樣中的分層思想結(jié)合,構(gòu)建小企業(yè)信用評價模型。
對上述模型設計進行分析發(fā)現(xiàn)存在以下局限:
(1)對于二值分類模型,模型預測輸出是二元離散變量:違約或不違約。考慮整個借貸市場處于不同信用水平的借款人數(shù)量應滿足某個概率分布,不局限于好客戶或壞客戶兩個極端。二值分類評價結(jié)果有局限性,評價層次感不足。
(2)對于得分評定模型,模型預測輸出是連續(xù)變量:信用評分值。若貸款人是個人,由于其它借款人信息的保密性,貸款人較難通過一個具體得分值評估出借款人信用在全體人員中的相對排名。若貸款人是企業(yè)或公司,由于評分具有個體差異性,貸款公司難以開展分級管理,不利于業(yè)務精簡。
綜合以上分析,有必要建立基于等級劃分的信用評估模型,為貸款人提供更全面的決策參考。此外,信用等級劃分有利于借款人認清自身信用的相對水平,提高借款人對信用的重視程度,規(guī)范借貸行為,降低壞賬風險。近年來也有少數(shù)學者構(gòu)建的模型蘊含該思想,如張成虎等結(jié)合層次分析法和決策實驗室法確定指標體系權(quán)重,將評級得分換算成具體的信用等級。本文基于上述研究,創(chuàng)新地提出用Logit回歸方程所得的違約概率對歷史借款人信用進行等級劃分,利用BP神經(jīng)網(wǎng)絡預測借款人信用等級,為完善我國個人信用評價體系提供參考。
2 模型構(gòu)建
信用分級模型設計思路:提取歷史樣本中信用評價指標主成分,減小指標間相關(guān)程度,從而避免Logit回歸出現(xiàn)嚴重的多重共線性問題;利用Logit回歸構(gòu)建“是否違約”和“評價指標主成分”關(guān)系;利用Logit回歸方程得到的違約概率對樣本劃分等級;通過訓練BP神經(jīng)網(wǎng)絡,獲取“等級”和“評價指標”的映射規(guī)則。利用訓練好的BP神經(jīng)網(wǎng)絡分析新樣本的信用等級。模型構(gòu)建流程如圖l所示。
2.1 主成分分析
對歷史樣本中的信用評價指標進行主成分分析,所得主成分作為Logit模型的輸入變量。若統(tǒng)計檢驗顯示指標變量不適合主成分提取,則直接將各評價指標視為主成分。
主成分分析通過線性變換降維思想,在丟失很少信息的前提下把多個指標轉(zhuǎn)化為若干個不相關(guān)指標。歷史樣本中信用評價指標主成分提取步驟如下:
(1)設數(shù)據(jù)集中樣本個數(shù)為n,原始評價指標個數(shù)為p,xij為第i個樣本中第j個評價指標值。根據(jù)式(1)對原始數(shù)據(jù)作標準化處理:
(2)根據(jù)標準化后的數(shù)據(jù)矩陣計算相關(guān)系數(shù)矩陣和相應的特征值λj。
(3)根據(jù)式(2)計算各特征值的貢獻率η,將貢獻率從大到小排序:
選擇累計貢獻率大于85%(有時也取80%或90%)的特征值λj所對應的主成分作為原始評價指標進行替代。
2.2 Logit回歸與等級劃分
利用Logit回歸構(gòu)建歷史樣本中“是否違約”和“評價指標主成分”的映射關(guān)系。設被解釋變量“是否違約”為y,解釋變量“評價指標主成分”為x1,x2,…xk。由于y是二分性質(zhì)變量,即違約(1)或不違約(0),故選用的分類器函數(shù)形式為:
根據(jù)式(3)可得每個樣本的違約概率,基于違約概率對歷史樣本分級。假設將樣本分為M級,信用等級最高的為R1,最低的為RM,等級為i的樣本占總體比例為ri,得到的分級結(jié)果如表1所示。
2.3 GSAA-BP神經(jīng)網(wǎng)絡
通過等級劃分,可得每個歷史樣本的評價指標和對應的信用等級。利用BP神經(jīng)網(wǎng)絡學習“等級”和“評價指標”映射規(guī)則。為獲得更優(yōu)的神經(jīng)網(wǎng)絡,采用遺傳模擬退火算法(GSAA)優(yōu)化神經(jīng)網(wǎng)絡的初始閾值與權(quán)值。對于新樣本,只需將評價指標輸入訓練好的神經(jīng)網(wǎng)絡即可得到對應的信用等級。
2.3.1 BP神經(jīng)網(wǎng)絡
BP神經(jīng)網(wǎng)絡具有自學習能力,利用梯度搜索技術(shù)學習輸入到輸出的非線性映射關(guān)系。三層BP神經(jīng)網(wǎng)絡具有很好的映射能力,將隱含層設定為一層。BP神經(jīng)網(wǎng)絡結(jié)構(gòu)如圖2所示,輸人為所有信用評價指標,輸出為對應的信用等級。
2.3.2 遺傳模擬退火算法(GSAA)優(yōu)化神經(jīng)網(wǎng)絡原理
BP神經(jīng)網(wǎng)絡收斂速度較慢,訓練時容易陷入局部最優(yōu)解,因此選用遺傳模擬退火算法優(yōu)化神經(jīng)網(wǎng)絡權(quán)值與閾值。遺傳模擬退火算法是一種混合智能算法,遺傳算法基于仿生思想,能有效處理目標函數(shù)和約束條件相關(guān)的優(yōu)化問題,但在實際應用中存在早熟、局部范圍搜索能力較差等缺點,模擬退火算法能較好地彌補這些缺陷。
遺傳模擬退火算法優(yōu)化神經(jīng)網(wǎng)絡初始權(quán)值與閾值步驟如下:
(1)種群初始化。隨機給定一系列神經(jīng)網(wǎng)絡初始權(quán)值與閾值稱其為種群。其中每一組初始權(quán)值與閾值稱為個體。優(yōu)化神經(jīng)網(wǎng)絡初始權(quán)值與閾值過程就是選取最優(yōu)個體過程。
(2)選取個體適應度函數(shù)。個體適應度廠取期望輸出和預測輸出的誤差均值的倒數(shù),即:
式(6)中,N為神經(jīng)網(wǎng)絡輸出個數(shù)。實際與預測輸出誤差越小則適應度越大。
(3)遺傳算法。遺傳算法根據(jù)個體對樣本數(shù)據(jù)的適應度對種群實現(xiàn)尋優(yōu),使問題解空間不斷逼近最優(yōu)解,算法分為選擇、交叉、變異3部分。
選擇操作:利用賭輪盤思想,設種群大小為M,個體j的適應度為fj,則個體j被選擇的概率為:
個體適應度和被選擇的概率成正比,可保證擇優(yōu)原則。
交叉操作:交叉操作指交換個體之間的遺傳基因從而產(chǎn)生新的個體。設兩個體分別為Xa和Xb,對每個基因作以下交叉運算:
式(8)中,r為[0,1]中均勻分布的隨機數(shù)。
變異操作:在個體基因中隨機選取一個變異元,根據(jù)變異元取值范圍隨機選取一個數(shù)代替原來的基因取值。
(4)模擬退火算法。假設初始適應度最高的個體為S,經(jīng)過遺傳算法操作后得到新的種群中適應度最高的個體為S'。若。f(S')≥f(S),則令S'為當前最優(yōu)解;若f(S')T,接受S'為當前最優(yōu)解。概率PT計算公式為
式(9)中,T為當前迭代溫度,經(jīng)過每次迭代溫度都會依據(jù)冷卻系數(shù)而降低。
(5)判斷算法是否終止。根據(jù)設定的迭代次數(shù)判斷算法是否終止。若是則計算當前所有個體適應度,選擇具有最高適應度的個體作為最終取值;否則轉(zhuǎn)步驟(3)。
利用遺傳模擬退火算法優(yōu)化BP神經(jīng)網(wǎng)絡權(quán)值與閾值步驟如圖3所示。
圖3中,f為適應度函數(shù),gen為循環(huán)計數(shù)器,T為當前溫度值,k為冷卻系數(shù),rand()表示[0,1]之間的隨機數(shù),Gmax為最大遺傳代數(shù)。
3 實驗分析
3.1 數(shù)據(jù)說明
3.1.1 樣本選取
本文實驗數(shù)據(jù)來自Kaggle網(wǎng)站Give me some credit信用數(shù)據(jù)集。該數(shù)據(jù)是當?shù)劂y行開展線上貸款業(yè)務搜集的數(shù)據(jù),共有150000條,其中違約樣本點有10026個,占總樣本點的6.68%;特征變量有10個,分類變量1個:0代表不違約,1代表違約。具體描述如表2所示。
3.1.2 數(shù)據(jù)處理
數(shù)據(jù)集存在缺失值和異常值。對于缺失值,由于樣本數(shù)據(jù)量大,要刪除缺失值所在樣本。對于異常值,采用箱線圖法處理。由于樣本具有不平衡性,部分變量(x3、x7、x9)在處理后的取值僅有1個,根據(jù)實際經(jīng)驗增加可能的取值。經(jīng)處理,樣本共有102699條數(shù)據(jù),其中違約樣本點有6139個,占總樣本點的5.98%。
隨機選取80%的樣本(82159個)作為訓練集,剩余20%的樣本作為測試集。為消除變量間量綱不同帶來的影響,采用最小最大規(guī)范化方法對數(shù)據(jù)歸一化處理,將變量取值映射到[0,1]區(qū)間內(nèi),轉(zhuǎn)換公式如下:
式(10)中,Xmax和Xmin。分別表示變量取值的最大值和最小值。
3.2樣本分級
對訓練集中的信用評價指標進行KMO和Bartlett球形度檢驗,得KMO值為0.54。評價指標不適合做主成分分析,將各指標視作主成分,作為Logit模型的解釋變量。
首先將所有評價指標引入方程,Logit回歸結(jié)果顯示x8的系數(shù)在10%的顯著性水平下不顯著,故剔除x8后再次求解,結(jié)果顯示回歸結(jié)果在1%的顯著性水平下通過檢驗。各變量回歸系數(shù)如表3所示。
分析回歸系數(shù)符號,可知貸款數(shù)量、逾期拖欠次數(shù)、生活負擔人數(shù)等指標對違約具有正向影響,月收入等指標具有負向影響,這符合實際認知,進一步說明模型結(jié)果可信。利用Logit回歸方程計算得到的違約概率對訓練集樣本分級。不失一般性,考慮將訓練樣本分為5級。假設訓練集中違約樣本比例為a,將違約概率排名百分比位于a后的樣本歸人E級,其余樣本平均劃分,結(jié)果如表4所示。
由等級劃分結(jié)果可知,隨著信用等級降低,違約樣本比例逐步提升,表明基于違約概率對樣本等級劃分的方法是科學的。
3.3 GSAA-BP神經(jīng)網(wǎng)絡建立
3.3.1 隱含層神經(jīng)元個數(shù)確定
建立三層BP神經(jīng)網(wǎng)絡,輸人層是信用數(shù)據(jù)集的10個原始評價指標,輸出層為等級劃分結(jié)果。將訓練集樣本分為BP神經(jīng)網(wǎng)絡訓練集和BP神經(jīng)網(wǎng)絡驗證集兩組,其中BP神經(jīng)網(wǎng)絡訓練集占80%,為65727條,用于訓練含有不同隱含層的BP神經(jīng)網(wǎng)絡。令等級為A、B、C、D、E樣本的網(wǎng)絡輸出分別為1,2,3,4,5。對于某樣本,若網(wǎng)絡預測輸出值與實際值誤差小于等于0.05,則稱該樣本實現(xiàn)精準分級。根據(jù)不同神經(jīng)網(wǎng)絡在BP神經(jīng)網(wǎng)絡驗證集上的精準分級率確定隱含層神經(jīng)元個數(shù)。
神經(jīng)網(wǎng)絡有關(guān)參數(shù)設定如下:訓練函數(shù)為trainlm函數(shù),隱含層傳遞函數(shù)為tansig函數(shù),輸出層傳遞函數(shù)為purelin函數(shù),最大訓練次數(shù)為10000,學習率為0.01,最大訓練精度為10-3。BP神經(jīng)網(wǎng)絡訓練結(jié)果如圖4所示。
由圖4可知設定BP神經(jīng)網(wǎng)絡隱含層神經(jīng)元個數(shù)為20。
3.3.2 GSAA-BP神經(jīng)網(wǎng)絡訓練
沿用前文使用的訓練參數(shù),設定BP神經(jīng)網(wǎng)絡網(wǎng)格結(jié)構(gòu)為10-20-1。在BP神經(jīng)網(wǎng)絡訓練集上訓練GSAA-BP神經(jīng)網(wǎng)絡,然后在BP神經(jīng)網(wǎng)絡測試集上檢驗相應的精準分級率,取精準分級率最高的GSAA-BP神經(jīng)網(wǎng)絡用于新樣本的信用等級評估。遺傳模擬退火算法有關(guān)參數(shù)設定如下:最大遺傳代數(shù)為30,種群規(guī)模為10,交叉概率為0.9,變異概率為0.05,初始溫度為100,冷卻系數(shù)為0.95。
為驗證遺傳模擬退火算法對神經(jīng)網(wǎng)絡優(yōu)化的有效性,在BP神經(jīng)網(wǎng)絡訓練集上分別訓練GSAA-BP神經(jīng)網(wǎng)絡和普通BP神經(jīng)網(wǎng)絡,將這兩種神經(jīng)網(wǎng)絡應用于神經(jīng)網(wǎng)絡驗證集,通過5次重復試驗對比精準分級率,結(jié)果如圖5所示。
由圖5可知,GSAA-BP神經(jīng)網(wǎng)絡效果更優(yōu)。對于神經(jīng)網(wǎng)絡驗證集,普通BP神經(jīng)網(wǎng)絡平均精準分級率為86.1%,而GSAA-BP神經(jīng)網(wǎng)絡平均精準分級率達96.0%,說明遺傳模擬退火算法對神經(jīng)網(wǎng)絡的優(yōu)化有效。
3.4 模型檢驗與分析
3.4.1 模型可信度指標
基于貸款人視角建立模型可信度指標。根據(jù)借款人信用預測結(jié)果確定可靠借款人群體,則貸款人更愿意把資金借給該群體借款人。設可靠借款人群體人數(shù)為n1,其中實際違約人數(shù)為m1,構(gòu)建模型可信度指標β如下:
由式(11)可知,模型的β值越高,貸款人的資金安全越有保障,該模型在實際運用中更有優(yōu)勢。
3.4.2 模型可信度指標對比
計算分級模型可信度指標,利用訓練好的GSAA-BP神經(jīng)網(wǎng)絡對20540個測試樣本分級,將測試樣本的10個信用評價指標作為神經(jīng)網(wǎng)絡輸入可得到對應的信用級別。一般來說,貸款人傾向借款給信用等級為A、B的借款人,故可靠借款人群體為信用等級A、B的樣本。經(jīng)計算得模型可信度為99.02%,遠高于測試集樣本中不違約的樣本比例94.02%,初步說明構(gòu)建的信用分級模型有效可信。
為進一步說明分級模型優(yōu)勢,將該模型與二值分類模型作對比?;诙捣诸惖哪P蛯⒔杩钊朔譃楹每蛻艉蛪目蛻魞深悾士煽拷杩钊巳后w預測結(jié)果為好客戶樣本。針對訓練集,依次選取Logit回歸、BP神經(jīng)網(wǎng)絡、KNN、支持向量機(SVM、SVC)、決策樹算法、隨機森林算法、XGBoost算法建立二分類模型。將模型運用于測試集,所得可信度與分級模型對比并排序,結(jié)果如表5所示。
由表5可知,分級模型可信度優(yōu)于主流的基準二分類器。盡管近年來在分類領(lǐng)域熱門的RF算法和XGBoost算法性能顯著優(yōu)于傳統(tǒng)的機器學習方法,但在貸款人視角下,其可信度和本文建立的分級模型仍有一定差距。
最后,將分級模型與基于指標賦權(quán)的得分評定模型作對比。主觀賦權(quán)法受決策者經(jīng)驗影響較大,信用預測可信度難以確定,在此選用熵權(quán)法作為研究對象。參考Logit模型的回歸系數(shù)判斷指標正負向,在訓練集中運用熵權(quán)法得到各指標權(quán)重,利用所得權(quán)重計算測試集中樣本的信用得分。假設分級模型中預測信用等級為A或B的樣本個數(shù)為y,則選取測試集中信用評分排名位于前y位的樣本作為可靠借款人群體。經(jīng)實驗,基于熵權(quán)法賦權(quán)的模型可信度為98.13%,低于分級模型可信度。經(jīng)分析,可能是因為熵權(quán)法賦權(quán)過于依賴評價指標的特征,沒有利用好借款人是否違約的信息,而分級模型中采用的Logit模型充分利用該信息以提升預測精度。
綜上,通過橫向?qū)Ρ瓤烧撟C本文信用分級模型有效可信,可顯著降低貸款人資金風險,保障貸款人作出科學決策。
4 結(jié)語
針對互聯(lián)網(wǎng)金融信用風險評估問題,本文綜合運用主成分分析、Logit模型、GSAA-BP神經(jīng)網(wǎng)絡,兼顧客觀數(shù)據(jù)和主觀意愿,構(gòu)建出一種信用分級模型。通過科學劃分借款人信用等級,有效測度借款人違約風險,為貸款人提供直觀的決策參考。
本研究的創(chuàng)新點如下:①對借款人信用評價采用等級劃分,使評價結(jié)果有層次,解決了二值分類和得分評定的局限性;②提出依概率分級理念,充分利用Logit回歸方程所得的違約概率進行等級劃分;③使用主成分分析對評價指標進行預處理,有效避免了Logit回歸可能存在的多重共線性問題。后續(xù)研究可從以下方面人手:①豐富信用評價視角,如從借款人、管理部門人手;②完善信用分級方法,使評價結(jié)果更精準可靠。隨著相關(guān)研究的深入,規(guī)避金融風險手段會更有效,以推動互聯(lián)網(wǎng)金融高質(zhì)量發(fā)展。