李佳欣
基于逐步Logistic回歸下分類算法的個(gè)人信用評(píng)估分析
李佳欣
(西南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 重慶, 400700)
為了給消費(fèi)者信貸決策提供合理依據(jù), 基于真實(shí)的客戶信貸數(shù)據(jù), 運(yùn)用逐步Logistic回歸方法依據(jù)AIC準(zhǔn)則進(jìn)行變量選擇建立經(jīng)典決策樹(shù)、條件推斷樹(shù)、隨機(jī)森林、支持向量機(jī)等分類模型, 并對(duì)4個(gè)分類模型的預(yù)測(cè)結(jié)果進(jìn)行比較。結(jié)果表明: 基于逐步Logistic回歸建立的隨機(jī)森林分類模型準(zhǔn)確率達(dá)97%,預(yù)測(cè)效果最優(yōu); 隨機(jī)森林算法具有較高的分類精度,可以很好地應(yīng)用在個(gè)人信用評(píng)估問(wèn)題研究中。
逐步Logistic回歸; AIC準(zhǔn)則; 個(gè)人信用評(píng)估; 變量選擇
隨著消費(fèi)信貸和互聯(lián)網(wǎng)金融的快速發(fā)展, 我國(guó)的消費(fèi)信貸市場(chǎng)迅速擴(kuò)大。由于消費(fèi)信貸的增加, 商業(yè)銀行將消費(fèi)信貸的發(fā)展視為未來(lái)發(fā)展戰(zhàn)略的重要組成部分。但是, 日益擴(kuò)大的信貸規(guī)模給商業(yè)銀行帶來(lái)了很高的信貸風(fēng)險(xiǎn), 導(dǎo)致大量信貸資產(chǎn)流失。信貸風(fēng)險(xiǎn)是指客戶未按照合同履行義務(wù)所造成的經(jīng)濟(jì)損失風(fēng)險(xiǎn), 是主要的金融風(fēng)險(xiǎn)類型。信貸業(yè)務(wù)運(yùn)營(yíng)的核心內(nèi)容是信用評(píng)估, 銀行將客戶的歷史信用數(shù)據(jù)應(yīng)用于信貸風(fēng)險(xiǎn)模型, 預(yù)測(cè)客戶是否屬于能夠及時(shí)償還債務(wù)的可以相信的“好”客戶, 為消費(fèi)者信貸決策提供合理依據(jù)。基于上述背景, 建立有效、合理的個(gè)人信用評(píng)估模型對(duì)繼續(xù)發(fā)展消費(fèi)信貸具有重要的理論和實(shí)踐意義。
分類模型預(yù)測(cè)方法是一種有效的信用評(píng)估手段, 該模型可以對(duì)貸方進(jìn)行科學(xué)有效的信用預(yù)測(cè)。目前, 最被廣泛使用的模型預(yù)測(cè)方法是統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)2類[1–3], 每種模型在預(yù)測(cè)準(zhǔn)確性、穩(wěn)健性、可解釋性方面都有其自身的優(yōu)點(diǎn)和缺點(diǎn)。個(gè)人信用評(píng)估分析一直以來(lái)是許多學(xué)者密切關(guān)注的問(wèn)題, 李太勇等[4]提出使用稀疏貝葉斯學(xué)習(xí)方法模型來(lái)進(jìn)行個(gè)人信用評(píng)估研究, 是一種有效的個(gè)人信用評(píng)估方法。方匡南等[5]提出運(yùn)用Lasso-logistic模型處理個(gè)人信用評(píng)估問(wèn)題, 預(yù)測(cè)準(zhǔn)確率更高。于曉虹等[6]成功將隨機(jī)森林和回歸算法運(yùn)用到個(gè)人信用評(píng)估中, 結(jié)果表明模型具備較高的預(yù)測(cè)能力。李毅等[7]結(jié)合互聯(lián)網(wǎng)個(gè)人信用數(shù)據(jù), 運(yùn)用決策樹(shù)、隨機(jī)森林、支持向量機(jī)等模型分析個(gè)人信用評(píng)估問(wèn)題, 成功反駁“變量越多預(yù)測(cè)結(jié)果越準(zhǔn)確”的觀點(diǎn)。
考慮到虛擬變量的創(chuàng)建涉及很多變量, 將所有解釋變量直接應(yīng)用于分類模型存在問(wèn)題: 選入一些無(wú)關(guān)變量會(huì)干擾對(duì)變量之間關(guān)系的理解, 從而增加模型的復(fù)雜性[8–10]。因此, 在個(gè)人信用評(píng)估分析的研究中需要變量選擇。本文將逐步Logistic回歸依據(jù)AIC準(zhǔn)則的變量選擇方法思想與個(gè)人信用評(píng)估模型的實(shí)際情況結(jié)合起來(lái)建立經(jīng)典決策樹(shù)、條件推斷樹(shù)、隨機(jī)森林、支持向量機(jī)分類預(yù)測(cè)模型, 對(duì)個(gè)人信用評(píng)估的影響因素進(jìn)行選擇和分析。
考慮信用卡客戶資料數(shù)據(jù)集, 響應(yīng)變量只取兩個(gè)值0(“瑕疵戶”)或1(“非瑕疵戶”)。Logistic回歸模擬屬于一個(gè)類的概率, 而不是直接對(duì)響應(yīng)變量建模?;谛庞每蛻魵v史數(shù)據(jù), Logistic回歸建立“瑕疵戶”概率模型。給定時(shí), 可以記為() =(= 0|)(()取值范圍在0到1之間)。
用一條直線擬合一個(gè)編碼為0, 1的二元響應(yīng)變量, 原則上總可以找到的一些值, 使預(yù)測(cè)的() < 0, 而對(duì)的另一些值() > 1(除非的范圍是限定的), 為避免這類問(wèn)題, 需要找到一個(gè)函數(shù)建立針對(duì)() 的模型, 使對(duì)任意值該函數(shù)的輸出結(jié)果都在0和1之間。在Logistic回歸中, 使用Logistic函數(shù)
由此Logistic函數(shù)產(chǎn)生一個(gè)S形曲線, 并且無(wú)論取何值, 總能得到一個(gè)合理的函數(shù)輸出值。
通過(guò)整理式(1), 可得
()/[1-()]的值稱為發(fā)生比, 取值范圍為0到∞, 其值接近0表示是“瑕疵戶”的概率非常低, 接近于∞則表示是“瑕疵戶”的概率非常高。
對(duì)式(2)兩邊同時(shí)取對(duì)數(shù), 得到
式(3)的左邊稱為對(duì)數(shù)發(fā)生比或分對(duì)數(shù), 由此Logistic回歸模型可以看作是分對(duì)數(shù)變換下關(guān)于的一個(gè)線性模型。
在Logistic模型中, 從預(yù)測(cè)的角度來(lái)說(shuō), 不會(huì)將系數(shù)未通過(guò)顯著性檢驗(yàn)(即值大于0.1)的變量納入最終模型?;诖? 逐步Logistic回歸用于生成具有較少解釋變量的模型, 其目的是通過(guò)添加或移除變量來(lái)獲得較小的AIC值, 從而生成簡(jiǎn)化的模型, 簡(jiǎn)化后的模型在驗(yàn)證集上的誤差小于全變量模型[11]。
本文采用的數(shù)據(jù)是某銀行的客戶信貸數(shù)據(jù)。數(shù)據(jù)集有4 626條記錄, 包含9個(gè)屬性, 前8個(gè)屬性是貸款申請(qǐng)人的個(gè)人特征信息, 最后一個(gè)屬性是銀行對(duì)客戶信用評(píng)級(jí)的定義: 0表示“瑕疵戶”, 1表示“非瑕疵戶”。
基于本文使用的數(shù)據(jù)涉及較多的定性變量, 需要為定性變量設(shè)置虛擬變量。利用R軟件的nnet程序包的class.ind()函數(shù)為定性變量設(shè)置虛擬變量, 編碼后的變量說(shuō)明(解釋變量8組共41個(gè), 因變量1個(gè))見(jiàn)表1。
表1 變量說(shuō)明
注: 表1中未列出的屬性包括: 實(shí)際年齡(8)是連續(xù)型數(shù)據(jù); 信用記錄(, 1表示“非瑕疵戶”, 0表示“瑕疵戶”)
原始數(shù)據(jù)中, 實(shí)際年齡(8)為連續(xù)型數(shù)據(jù), 為克服量綱的影響, 將其標(biāo)準(zhǔn)化處理后再進(jìn)行分析。
本文所用的數(shù)據(jù)集中, 包括3 700條信用“非瑕疵戶”和926條信用“瑕疵戶”, 分別從中利用R軟件的sample()函數(shù)隨機(jī)抽取80%作為訓(xùn)練集, 剩余20%作為測(cè)試集。訓(xùn)練集中客戶信用被評(píng)級(jí)為“瑕疵戶”和“非瑕疵戶”的數(shù)量比為1︰15, 存在嚴(yán)重的數(shù)據(jù)不平衡問(wèn)題, 為減少數(shù)據(jù)不平衡對(duì)個(gè)人信用評(píng)估分析造成的影響, 利用R軟件的ROSE程序包, 同時(shí)采取Oversampling和Undersampling這2類方法[12], 對(duì)小類樣本采取有放回的過(guò)采樣而對(duì)大類樣本采取無(wú)放回的欠采樣。最終使得訓(xùn)練集中客戶信用被評(píng)級(jí)為“瑕疵戶”和“非瑕疵戶”的數(shù)量比接近為1︰1, 利用此訓(xùn)練集參與建立模型。
本文采用逐步Logistic回歸進(jìn)行變量選擇的方法通過(guò)R軟件的glm()和step()函數(shù)完成, 根據(jù)AIC準(zhǔn)則, 生成具有較少解釋變量的簡(jiǎn)化模型, 得到包含27個(gè)解釋變量的新模型。剔除15個(gè)回歸系數(shù)的值對(duì)方程的貢獻(xiàn)不顯著變量, 重新擬合模型, 新模型的每個(gè)回歸系數(shù)均十分顯著(< 0.05), 見(jiàn)表2。
表2 Logistic 模型系數(shù)P值表
基于兩模型嵌套(新模型是全模型的一個(gè)子集), 利用R軟件的anova()函數(shù)對(duì)它們進(jìn)行比較, 卡方值不顯著(= 0.917 8), 表明包含27個(gè)預(yù)測(cè)變量的新模型即簡(jiǎn)化后的模型與包含42個(gè)完整預(yù)測(cè)變量的模型擬合程度相當(dāng), 因此可以依據(jù)更簡(jiǎn)單的模型進(jìn)行分析。
由基于逐步Logistic回歸依據(jù)AIC準(zhǔn)則變量選擇后建立的新Logistic模型可知: 學(xué)歷(2)越高的客戶, 違約概率越小; 職業(yè)(3)為農(nóng)林漁牧自營(yíng)的客戶, 違約概率最小; 個(gè)人平均每月收入(4)隨著收入增加的客戶, 違約概率有增大的趨勢(shì); 個(gè)人平均每月開(kāi)銷(5)越低的客戶, 違約概率越小(5.1>5.2>5.3); 住房情況(6)為本人所有的客戶, 違約概率最小; 平均每月信用卡刷卡金額(7)隨著刷卡金額增加的客戶, 違約概率呈增大的趨勢(shì), 且平均每月信用卡刷卡金額為[18 401, 23 000]元之間的客戶, 違約概率最大; 實(shí)際年齡(8)的系數(shù)為正, 表明年齡越大的客戶, 違約概率越大。因逐步Logistic回歸依據(jù)AIC準(zhǔn)則剔除掉的婚姻狀況(1), 表明這個(gè)解釋變量對(duì)是否違約的影響不顯著。
本文在應(yīng)用逐步Logistic回歸依據(jù)AIC準(zhǔn)則方法進(jìn)行變量選擇后, 其訓(xùn)練集用于建立如下分類模型: 經(jīng)典決策樹(shù)、條件推斷樹(shù)、隨機(jī)森林和支持向量機(jī); 測(cè)試集用于評(píng)估每個(gè)模型的有效性。
通過(guò)幾種有監(jiān)督機(jī)器學(xué)習(xí)方法對(duì)個(gè)人信用級(jí)別進(jìn)行分類, 準(zhǔn)確率(即分類器是否始終能夠正確地劃分樣本單元)是從中選出最準(zhǔn)確的方法常用到的統(tǒng)計(jì)量之一。盡管準(zhǔn)確率承載的信息量很大, 這一指標(biāo)仍不足以選出最準(zhǔn)確的方法, 還需要分類器的敏感度和特異性, 即成功預(yù)測(cè)正類樣本單元的概率和成功預(yù)測(cè)負(fù)類樣本單元的概率, 以評(píng)估各種分類模型的有效性。其模型預(yù)測(cè)準(zhǔn)確性度量結(jié)果見(jiàn)表3。
由表3可知, 隨機(jī)森林成功鑒別了97%的非瑕疵戶樣本和95%的瑕疵戶樣本, 總體來(lái)說(shuō)預(yù)測(cè)準(zhǔn)確率高達(dá)97%, 在4個(gè)分類模型中預(yù)測(cè)準(zhǔn)確率上是最優(yōu)的。97%被判為非瑕疵戶的樣本單元確實(shí)是非瑕疵戶(即3%正例錯(cuò)誤率), 95%被判為瑕疵戶的樣本單元確實(shí)是瑕疵戶(即5%負(fù)例錯(cuò)誤率)。從個(gè)人信用評(píng)估的角度來(lái)說(shuō), 特異性(即成功鑒別瑕疵戶樣本的概率)這一指標(biāo)格外重要。
表3 分類模型預(yù)測(cè)準(zhǔn)確性度量 /%
將逐步Logistic回歸依據(jù)AIC準(zhǔn)則的變量選擇方法思想與個(gè)人信用評(píng)估模型的實(shí)際情況結(jié)合起來(lái),通過(guò)對(duì)個(gè)人信用評(píng)估模型的研究, 得出如下結(jié)論:
(1) 研究個(gè)人信用評(píng)估問(wèn)題時(shí), 定性變量作為其主要的解釋變量, 要構(gòu)建數(shù)學(xué)模型, 需要設(shè)置較多的虛擬變量, 在這種情況下, 需要變量選擇。本文采用逐步Logistic回歸依據(jù)AIC準(zhǔn)則進(jìn)行變量選擇, 生成一個(gè)包含更少解釋變量的模型, 在驗(yàn)證集上的誤差相對(duì)全變量模型更小;
(2) 本文利用某銀行的客戶信貸數(shù)據(jù), 建立基于逐步Logistic回歸依據(jù)AIC準(zhǔn)則變量選擇方法的經(jīng)典決策樹(shù)、條件推斷樹(shù)、隨機(jī)森林、支持向量機(jī)等分類模型, 并對(duì)比分析了這4個(gè)分類模型的預(yù)測(cè)準(zhǔn)確率, 發(fā)現(xiàn)逐步Logistic回歸依據(jù)AIC準(zhǔn)則變量選擇方法建立的隨機(jī)森林分類模型, 在預(yù)測(cè)準(zhǔn)確率上是最優(yōu)的;
(3) 隨機(jī)森林算法的分類精度通常高于其他分類方法。隨機(jī)森林算法可以處理多樣本單元、多變量問(wèn)題, 可以處理包含大量缺失值的數(shù)據(jù), 并且可以處理樣本單元遠(yuǎn)遠(yuǎn)小于變量數(shù)量的數(shù)據(jù)。袋外預(yù)測(cè)誤差的計(jì)算和變量重要性的度量是隨機(jī)森林算法的2個(gè)優(yōu)點(diǎn)。因此, 基于逐步Logistic回歸依據(jù)AIC準(zhǔn)則變量選擇方法建立的隨機(jī)森林模型, 可以很好地應(yīng)用在個(gè)人信用評(píng)估問(wèn)題研究中。銀行可以基于客戶實(shí)際的信貸數(shù)據(jù), 利用逐步Logistic回歸建立基于AIC準(zhǔn)則變量選擇方法的隨機(jī)森林分類模型, 選擇對(duì)信用評(píng)估有顯著影響的變量, 根據(jù)信貸申請(qǐng)人信用評(píng)級(jí)后的結(jié)果, 決定是否給予貸款, 可以很大程度上降低個(gè)人信貸風(fēng)險(xiǎn)。
[1] 郭仌, 梁世棟, 方兆本. 消費(fèi)者信用評(píng)估分析綜述[J]. 系統(tǒng)工程, 2001(6): 9–15.
[2] 石慶焱, 靳云匯. 多種個(gè)人信用評(píng)分模型在中國(guó)應(yīng)用的比較研究[J]. 統(tǒng)計(jì)研究, 2004, 21(6): 43–47.
[3] 朱曉明, 劉治國(guó). 信用評(píng)分模型綜述[J]. 統(tǒng)計(jì)與決策, 2007(1): 103–105.
[4] 李太勇, 王會(huì)軍, 吳江, 等. 基于稀疏貝葉斯學(xué)習(xí)的個(gè)人信用評(píng)估[J]. 計(jì)算機(jī)應(yīng)用, 2013, 33(11): 3 094–3 096, 3 148.
[5] 方匡南, 章貴軍, 張惠穎. 基于Lasso-logistic模型的個(gè)人信用風(fēng)險(xiǎn)預(yù)警方法[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究, 2014, 31(2): 125–136.
[6] 于曉虹, 樓文高. 基于隨機(jī)森林的P2P網(wǎng)貸信用風(fēng)險(xiǎn)評(píng)價(jià)、預(yù)警與實(shí)證研究[J]. 金融理論與實(shí)踐, 2016(2): 53–58.
[7] 李毅, 姜天英, 劉亞茹. 基于不平衡樣本的互聯(lián)網(wǎng)個(gè)人信用評(píng)估研究[J]. 統(tǒng)計(jì)與信息論壇, 2017, 32(2): 84–90.
[8] 胡小寧, 何曉群. 基于Group Lasso的個(gè)人信用評(píng)價(jià)分析[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2015, 45(6): 89–90.
[9] 胡小寧, 何曉群, 馬學(xué)俊. 基于Group MCP Logistic的個(gè)人信用評(píng)價(jià)分析[J]. 現(xiàn)代管理科學(xué), 2015, 8: 18–19.
[10] 何曉群, 劉文卿. 應(yīng)用回歸分析(第三版)[M]. 北京: 中國(guó)人民大學(xué)出版社, 2011.
[11] Robert I. Kabacoff. R語(yǔ)言實(shí)戰(zhàn)(第二版)[M]. 北京: 人民郵電出版社, 2016.
[12] http://link.zhihu.com/?target=http%3A//www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/
Personal credit evaluation analysis based on gradual logistic regression classification algorithm
Li Jiaxin
(School of Mathematics and Statistics, Southwest University, Chongqing 400700, China)
In order to provide a reasonable basis for consumer credit decision-making, based on real customer credit data, the stepwise logistic regression method is used to select variables according to akaike information criterion to establish classification models such as classic decision trees, conditional inference trees, random forests, and support vector machines. The prediction results of four classification models are compared. The research shows that the accuracy rate of the random forest classification model based on stepwise logistic regression is 97%, and the prediction effect is the best; the random forest algorithm has high classification accuracy and can be well applied in the research of personal credit evaluation.
stepwise logistic regression; Akaike Information Criterion; personal credit rating; variable selection
10.3969/j.issn.1672–6146.2021.01.002
TP 181; F 832.4
A
1672–6146(2021)01–0005–04
李佳欣, 18392414816@163.com。
2020–06–25
(責(zé)任編校: 張紅)