郭建山 錢軍浩
摘? 要:近些年信用卡的違約情況呈現(xiàn)逐年上升的趨勢,使商業(yè)銀行面臨嚴(yán)重的經(jīng)營風(fēng)險(xiǎn),商業(yè)銀行若想在信用卡業(yè)務(wù)中獲得利潤,必須控制信用卡的違約率。關(guān)于信用卡違約的研究主要圍繞信用評級展開,鑒于傳統(tǒng)單一分類器預(yù)測模型擬合不足或過擬合的缺陷,提出改進(jìn)后的隨機(jī)森林預(yù)測模型,并在實(shí)證分析中與KNN、邏輯回歸、決策樹和GBDT相比較。模型提高了信用卡違約識別率,降低了違約風(fēng)險(xiǎn),對提高商業(yè)銀行的風(fēng)險(xiǎn)管控能力具有積極意義。
關(guān)鍵詞:信用卡違約;邏輯回歸;GBDT;ROC曲線;隨機(jī)森林
中圖分類號:TP391? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)03-0001-05
Abstract:In recent years,the default situation of credit cards has been increasing year by year,which makes commercial Banks face serious operational risks. If commercial banks want to gain profits from credit card business,they must control the default rate of credit cards. The research on credit card default mainly focuses on credit rating. In view of the deficiency or over fitting of the traditional single classifier prediction model,an improved stochastic forest prediction model is proposed and compared with KNN,logistic regression,decision tree and GBDT in the empirical analysis. The model improves the credit card default recognition rate and reduces the default risk,which is of positive significance to improve the risk control ability of commercial Banks.
Keywords:credit card default;logistic regression;GBDT;ROC curve;random forest
0? 引? 言
隨著近些年我國金融體制的改革發(fā)展以及支付方式的變革,信用卡在支付領(lǐng)域扮演著越來越重要的角色。從中國信用卡行業(yè)市場現(xiàn)狀可以發(fā)現(xiàn),信用卡累計(jì)發(fā)卡量以及信用卡人均持卡量逐年增長,與此同時(shí),信用卡應(yīng)償信貸余額以及授信使用率也在逐步提高,這也導(dǎo)致消費(fèi)額和透支額的擴(kuò)大,不可避免地會產(chǎn)生一定的風(fēng)險(xiǎn)。因此,如何有效地利用信用卡用戶產(chǎn)生的數(shù)據(jù),通過數(shù)據(jù)挖掘找到降低違約風(fēng)險(xiǎn)的方法,顯得尤為重要。
對于信用卡違約的研究,比較常用的方法是建立信用評分模型,也就是根據(jù)過去的用戶信貸記錄、個(gè)人信息以及是否違約情況,來預(yù)測將來是否會違約。國外對于這方面的研究較早也比較成熟,早在1999年,Brause[1]等就提出了將關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)結(jié)合起來預(yù)測信用卡欺詐,2018年,Mohamad Jeragh和Mousa AlSulaimi[2]研究了一種基于自動編碼器和支持向量機(jī)(OSVM)相結(jié)合的新型無監(jiān)督學(xué)習(xí)模型,效果也得以改善。國內(nèi)關(guān)于這方面的研究起步較晚,不過發(fā)展迅速。2004年鄒權(quán)[3]采用決策樹和邏輯回歸進(jìn)行分析和評分,以此對接受的申請者給出不同的信用政策,2018年張雙全[4]在傳統(tǒng)智能算法的基礎(chǔ)上結(jié)合模糊集理論、平均影響值法和支持向量機(jī)技術(shù),得出改進(jìn)的智能算法——IFBPNN模型,結(jié)論表明該模型相比傳統(tǒng)模型預(yù)測效果更好。
縱觀當(dāng)前的研究現(xiàn)狀,違約預(yù)測模型評估通常采用單一的分類器,較容易出現(xiàn)過擬合問題,擬合效果不是很理想。本文通過研究學(xué)習(xí)曲線,從樹的數(shù)量、最大深度、葉節(jié)點(diǎn)最小樣本數(shù)和最佳分割時(shí)的特征數(shù)4個(gè)方面,改進(jìn)傳統(tǒng)的隨機(jī)森林模型,并與K近鄰算法(KNN)、邏輯回歸、決策樹(CART)和梯度提升決策樹(GBDT)這4種單一擬合效果較好的算法相比較分析,研究發(fā)現(xiàn)改進(jìn)后的模型相比其他模型效果較好,提高了用戶信用卡違約預(yù)測的精度和識別率,某種程度上對提高商業(yè)銀行的風(fēng)險(xiǎn)管控能力具有積極意義。
筆者所學(xué)專業(yè)為計(jì)算機(jī)技術(shù),研究方向?yàn)閿?shù)據(jù)挖掘,在當(dāng)前學(xué)習(xí)階段主修機(jī)器學(xué)習(xí)、人工智能等方面的課程,并有一定的實(shí)踐基礎(chǔ),與本文涉及到的研究方法相關(guān),希望對該方面的研究有一定貢獻(xiàn)。
1? 隨機(jī)森林預(yù)測模型
1.1? 算法原理
基本思想:隨機(jī)森林算法的基本思想基于集成學(xué)習(xí)(ensemble),也就是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則整合各學(xué)習(xí)結(jié)果,從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。通過取長補(bǔ)短,克服了一些算法的局限性。
隨機(jī)森林算法的基本原理主要基于Bootstrapping中的Bagging。首先利用Bootstrap抽樣方法從原始數(shù)據(jù)集中抽取M個(gè)樣本,然后在每個(gè)樣本上訓(xùn)練分類器ai(x),建立M個(gè)決策樹模型,再對每個(gè)單獨(dú)分類器的輸出取均值形成組合分類器,最后進(jìn)行投票預(yù)測決定最終分類結(jié)果[5],即a(x)=? ,如圖1所示。
1.2? 算法流程
1.2.1? 使用隨機(jī)子空間方法構(gòu)建集成模型
(1)設(shè)樣本數(shù)為n,特征維度數(shù)為d,模型數(shù)目為M。
(2)對于每個(gè)模型m,選擇特征數(shù)dm (3)對每個(gè)模型m,通過在整個(gè)d特征集合上隨機(jī)選擇dm個(gè)特征創(chuàng)建一個(gè)訓(xùn)練集。 (4)訓(xùn)練每個(gè)模型。 (5)通過組合M個(gè)模型的結(jié)果,將生成的整體模型應(yīng)用于新數(shù)據(jù)中。 1.2.2? 構(gòu)建N棵樹的隨機(jī)森林算法 (1)對每個(gè)k=1,…,N,生成Bootstrap樣本Xk。 (2)在樣本Xk上創(chuàng)建一棵決策樹[6]bk。 (3)根據(jù)設(shè)定的標(biāo)準(zhǔn)選擇最佳的特征維度。根據(jù)該特征分割樣本以創(chuàng)建樹的新層。重復(fù)這一流程,直到樣本用盡。 (4)創(chuàng)建樹,直到任何葉節(jié)點(diǎn)包含的實(shí)例不超過nmin個(gè),或者達(dá)到特定深度。 (5)每次分割,首先從d個(gè)原始特征中隨機(jī)選擇m個(gè)特征,接著只在該子集上搜索最佳分割。 最終的分類器為:a(x)=,m=,nmin= 1。 1.2.3? 隨機(jī)森林的參數(shù) 本文采用scikit-learn庫中的RandomForestClassifier類,用到的參數(shù)如下: n_estimators:隨機(jī)森林中樹的數(shù)量; max_depth:隨機(jī)森林中樹的最大深度; min_samples_leaf:隨機(jī)森林葉節(jié)點(diǎn)的最小樣本數(shù); max_features:尋找最佳分割時(shí)的特征數(shù)。 2? 隨機(jī)森林預(yù)測模型的實(shí)證分析 本文采用臺灣某銀行用戶信用卡數(shù)據(jù)集進(jìn)行實(shí)證研究,通過多種機(jī)器學(xué)習(xí)算法分析比較,以此得出最后的結(jié)論。 2.1? 數(shù)據(jù)預(yù)處理 該數(shù)據(jù)集共有30 000條樣本,包含24個(gè)變量。前23個(gè)輸入變量描述用戶信息特征,最后一個(gè)輸出變量描述用戶次月違約情況,“0”表示履約,“1”表示違約。其中有10個(gè)變量為分類數(shù)據(jù),14個(gè)變量為數(shù)值型數(shù)據(jù),變量描述如表1所示。 該數(shù)據(jù)集中“X3”教育水平變量包含14個(gè)缺失值;“X4”婚姻狀態(tài)變量包含54個(gè)缺失值;“X12”中9月賬單結(jié)算金額為負(fù)數(shù)時(shí)表示有存款結(jié)余無需還款,這種情況不存在違約的可能性,但樣本卻顯示違約的數(shù)量有109個(gè),此類數(shù)據(jù)為無效數(shù)據(jù)應(yīng)舍去。經(jīng)過前期處理后得到的實(shí)際樣本數(shù)為29 823條。 本文將預(yù)處理后的樣本數(shù)據(jù)隨機(jī)劃分為兩部分,其中70%作為訓(xùn)練集訓(xùn)練模型,剩下30%作為測試集測試模型的效果。 2.2? 實(shí)證結(jié)果分析 2.2.1? 特征選擇 由于輸入變量較多,但并不是每個(gè)變量都有助于模型的訓(xùn)練預(yù)測,反而有可能因?yàn)橄嚓P(guān)性降低模型的有效性,因此需要先進(jìn)行特征選擇[7],剔除重要性較低的變量。 本文通過調(diào)用SelectKBest包,采用F評分和P值兩個(gè)指標(biāo),對23個(gè)輸入變量的重要性進(jìn)行評分,根據(jù)Support選出重要性較高的前10個(gè)變量:“X1”“X6”“X7”“X8”“X9”“X10”“X11”“X18”“X19”“X21”,如表2所示。 本文利用GBDT對選取的10個(gè)變量進(jìn)行重要性分析,排名如圖2所示。 2.2.2? 模型評估 本文主要分析比較5種分類模型,分別是KNN、邏輯回歸、決策樹、GBDT和隨機(jī)森林,均在Python中實(shí)現(xiàn)。本文采用的模型評估[8]度量指標(biāo)為Accuracy、F1_score和ROC曲線。 在KNN中,通過循環(huán)遍歷數(shù)組,得出正確率較高的K值為14;在邏輯回歸算法中,找到最佳正則化系數(shù)C為0.1,并以此驗(yàn)證學(xué)習(xí)曲線;在決策樹算法中,分割標(biāo)準(zhǔn)選擇更優(yōu)的Gini系數(shù),通過參數(shù)調(diào)優(yōu),得出最大深度為3,最佳分割時(shí)的特征數(shù)為7;在GBDT算法中,損失函數(shù)選擇最小二乘(LS)回歸,學(xué)習(xí)速率為0.1,最大深度為7,并作出特征重要性排名;在隨機(jī)森林算法中,分割標(biāo)準(zhǔn)選擇更優(yōu)的Gini系數(shù),通過改進(jìn)樹的數(shù)量、改進(jìn)樹的最大深度,改進(jìn)樹的葉節(jié)點(diǎn)最小樣本數(shù)和改進(jìn)最佳分割時(shí)的特征數(shù)4個(gè)方面,找到該算法的最佳參數(shù),分別為100、5、20、8。 本文通過特征選擇,劃分?jǐn)?shù)據(jù)集,建立了相應(yīng)的評分模型,并訓(xùn)練模型,最后對30%的測試集進(jìn)行了評估,正確率(Accuracy)和F1值(F1_score)對比如表3所示。 通過對比可以看出,決策樹、GBDT、隨機(jī)森林以及改進(jìn)隨機(jī)森林模型正確率都在0.800 0以上,但改進(jìn)隨機(jī)森林模型較高一些,除了KNN模型的F1值較低之外,其余的均較接近。因此改進(jìn)隨機(jī)森林模型擬合效果較好。 在二元分類問題中,一般設(shè)定預(yù)測為正的正樣本為TP,預(yù)測為正的負(fù)樣本為FP,預(yù)測為正的負(fù)樣本為FN,預(yù)測為負(fù)的負(fù)樣本為TN。準(zhǔn)確度為Accuracy,精確度為Precision,召回率(即靈敏度)為Recall,精確度和召回率的調(diào)和平均為F1_score,在F1_score計(jì)算公式中,Precision簡稱P,Recall簡稱R。具體公式如下: 根據(jù)圖3的曲線,樹的數(shù)量達(dá)到100時(shí)正確率較高,一般來說樹的數(shù)量越多擬合效果越好,但達(dá)到一定程度時(shí)泛化性能會降低,也可能出現(xiàn)過擬合的情況,因此取100較為合適。根據(jù)圖4的曲線,由于特征變量較多,應(yīng)限制樹的最大深度,當(dāng)最大深度為5時(shí),正確率最高,擬合效果也較好。根據(jù)圖5的曲線,樹的葉節(jié)點(diǎn)最小樣本數(shù)達(dá)到20時(shí)正確率較高,如果再增大可能會出現(xiàn)偏差,取20較為合適。根據(jù)圖6的曲線,當(dāng)構(gòu)建決策樹達(dá)到最優(yōu)模型時(shí),最大特征數(shù)為8正確率最高,擬合效果也較好。通過改進(jìn)原有的隨機(jī)森林模型,使正確率提高了0.200 0。
ROC曲線(即受試者工作特征曲線)是指在特定條件下,根據(jù)一系列不同的二分類方式(分界值或決定閾值),以假正率(False Positive Rate)為橫坐標(biāo),以真正率(True Positive Rate)為縱坐標(biāo),反映敏感性與特異性關(guān)系的曲線。ROC曲線越靠近左上角,模型的查全率就越高。各個(gè)算法對應(yīng)的ROC曲線如圖7所示。
由圖7可知,相比其他模型,改進(jìn)隨機(jī)森林模型的ROC曲線較光滑,沒有出現(xiàn)過擬合的情況,AUC(即圖例中的area,指曲線與坐標(biāo)軸圍成的面積,也就是曲線下方面積。)[10]的值較高,曲線下方面積較大,正確率較高,模型的預(yù)測效果較好。
通過Accuracy、F1_score和ROC曲線三個(gè)度量指標(biāo)綜合對比,可以看出決策樹類的預(yù)測效果較好,決策樹類中改進(jìn)后的隨機(jī)森林模型預(yù)測效果最佳,可以認(rèn)為改進(jìn)隨機(jī)森林模型比其他單一分類器模型具有更好的預(yù)測效果。
3? 結(jié)? 論
在當(dāng)前銀行市場,信用卡用戶的管理至關(guān)重要,充分利用過去的客戶借貸記錄,挖掘客戶違約的特征信息,有助于提高銀行對違約客戶的識別能力。本文從數(shù)據(jù)集出發(fā),首先對數(shù)據(jù)集進(jìn)行前期處理,其次通過特征選擇選取重要性較高的變量,在各個(gè)算法中對參數(shù)進(jìn)行調(diào)整,最后采用Accuracy、F1_score和ROC曲線3個(gè)指標(biāo)進(jìn)行模型效果的評估。通過對比可以看出,雖然改進(jìn)隨機(jī)森林模型的F1值不是最高的,但跟其他模型相接近,同時(shí)改進(jìn)隨機(jī)森林模型的正確率最高,ROC曲線效果最好??梢缘贸鼋Y(jié)論,改進(jìn)隨機(jī)森林模型相比其他模型擬合效果更好,違約風(fēng)險(xiǎn)預(yù)測效果更佳。
當(dāng)然在研究中也發(fā)現(xiàn)了不少問題,比如月度賬單結(jié)算金額和月度支付金額變量存在大量為空的數(shù)據(jù),是否應(yīng)該對這些數(shù)據(jù)進(jìn)行處理;主要的分類變量有性別、教育水平和婚姻狀態(tài),是否可以考慮增加諸如收入水平或住房情況等個(gè)人信息;各種算法的變量復(fù)雜,參數(shù)調(diào)整是否達(dá)到了最優(yōu)程度等等。相信這些問題在之后的研究中會得到解決。
在未來的研究中,將會嘗試更多不同的機(jī)器學(xué)習(xí)算法,應(yīng)用集成學(xué)習(xí)的思想,組合單一的分類器,對現(xiàn)有的模型加以改進(jìn),適當(dāng)提高算法復(fù)雜度,考慮并行化和樣本權(quán)重,以期實(shí)現(xiàn)更好的預(yù)測效果。
參考文獻(xiàn):
[1] BRAUSE R,LANGSDORF T,HEPP M. Neural data mining for credit card fraud detection [C]// Tools with Artificial Intelligence,1999. Proceedings. 11th IEEE International Conference on,1999:103-106.
[2] JERAGH M,ALSULAIMI M. Combining Auto Encoders and One Class Support Vectors Machine for Fraudulant Credit Card Transactions Detection [C]// 2018 Second World Conference on Smart Trends in Systems,Security and Sustainability (WorldS4),London,England:2018:178-184.
[3] 鄒權(quán).基于數(shù)據(jù)挖掘的信用卡申請者信用評分模型研究[D].成都:西南財(cái)經(jīng)大學(xué),2004.
[4] 張雙全.基于改進(jìn)智能算法的信用卡客戶違約預(yù)測研究 [D].長春:長春工業(yè)大學(xué),2018.
[5] 余以勝.基于隨機(jī)森林的用戶行為識別模型研究 [J].電腦知識與技術(shù),2017,13(7):156-157.
[6] KUMAR M. S,SOUNDARYA V,KAVITHA S,et al. Credit Card Fraud Detection Using Random Forest Algorithm [C]// 2019 3rd International Conference on Computing and Communications Technologies (ICCCT),Chennai,India:2019:149-153.
[7] XIE Y,LIU G,CAO R,et al. A Feature Extraction Method for Credit Card Fraud Detection [C]// the 2ndIEEE International Conference on Intelligent Autonomous Systems(ICoIAS2019),Singapore,2019:70-75.
[8] MITTAL S,TYAGI S. Performance Evaluation of Machine Learning Algorithms for Credit Card Fraud Detection [C]// 2019 9th International Conference on Cloud Computing,Data Science & Engineering (Confluence),Noida,India:2019:320-324.
[9] MACHADO M. R,KARRAY S,SOUSA I. T. LightGBM:an Effective Decision Tree Gradient Boosting Method to Predict Customer Loyalty in the Finance Industry [C]// 2019 14th International Conference on Computer Science & Education (ICCSE),Toronto,ON,Canada:2019:1111-1116.
[10] GOY G,GEZER C,GUNGOR V. C. Credit Card Fraud Detection with Machine Learning Methods [C]// 2019 4th International Conference on Computer Science and Engineering (UBMK),Samsun,Turkey:2019:350-354.
作者簡介:郭建山(1995.11-),男,漢族,福建莆田人,碩士研究生,研究方向:數(shù)據(jù)挖掘。