基于混合特征選擇模型CatBoost-LightGBM的違約風(fēng)險預(yù)測研究

2021-01-14 00:47程楠楠

現(xiàn)代信息科技 2021年14期

摘 ?要：疫情后，互聯(lián)網(wǎng)消費金融在國民經(jīng)濟復(fù)蘇增長中發(fā)揮積極作用，但因其產(chǎn)品本身特殊性及過快的發(fā)展性，也伴隨大量的風(fēng)險。文中在算法可解析性、模型應(yīng)用性（識別性、準(zhǔn)確性、低成本、穩(wěn)定性）基礎(chǔ)上構(gòu)建了混合特征選擇模型CatBoost-LightGBM，并將此模型應(yīng)用于某知名信貸平臺。結(jié)果表明，混合特征選擇模型CatBoost-LightGBM在綜合評價上顯著優(yōu)于單一模型，對基礎(chǔ)模型LR有0.19的提升，對基礎(chǔ)特征的LightGBM、XGboost等模型有0.03的提升。

關(guān)鍵詞：違約風(fēng)險預(yù)測;消費金融;大數(shù)據(jù)風(fēng)控;特征選擇;梯度提升算法

中圖分類號：TP183 ? ? ?文獻(xiàn)標(biāo)識碼：A文章編號：2096-4706（2021）14-0116-05

Abstract： After the epidemic， internet consumer finance plays a positive role in the recovery and growth of the national economy， but due to the particularity and rapid development of its products， it is also accompanied by a large number of risks. In this paper， a hybrid feature selection model catboost-LightgBM is constructed on the basis of the analytical ability of the algorithm and the application of the model. Finally， the model is applied to a well-known credit platform. The results show that the hybrid feature selection model catboost-LightgBM is significantly better than the single model in the comprehensive evaluation. It improves the basic model LR by 0.19 and the lightgbm， xgboost and other models with basic features by 0.03.

Keywords： default risk prediction; consumer finance; big data risk control; feature selection; gradient lifting algorithm

0 ?引 ?言

我國消費金融在經(jīng)歷起步、探索、發(fā)展等階段后，與互聯(lián)網(wǎng)和信息技術(shù)融合，呈現(xiàn)出新特點。但由于過快增長，也積聚了一定風(fēng)險。2021年是“十四五”規(guī)劃開局之年，如何更好地利用新契機、新需求，直面存在的不足和問題，提升內(nèi)生的風(fēng)控能力和水平，是消費金融能否實現(xiàn)可持續(xù)健康發(fā)展的關(guān)鍵。

消費金融產(chǎn)品的特性是放款金額小，審批速度快，規(guī)模數(shù)量大，風(fēng)險細(xì)節(jié)多[1]。因此構(gòu)建一個高效、精準(zhǔn)、客觀、低成本但同時普適的風(fēng)控模型非常重要，一方面不僅僅給企業(yè)自己帶來利潤的提升（減少壞賬率），還能通過賦能影響給整個系統(tǒng)帶來穩(wěn)健性，防止大規(guī)模金融風(fēng)險。

隨著大數(shù)據(jù)、人工智能的發(fā)展，機器學(xué)習(xí)逐漸應(yīng)用于金融貸款風(fēng)險預(yù)測中，國內(nèi)外學(xué)者主要分三個研究方向：一是利用單一的機器學(xué)習(xí)模型或其改進(jìn)模型，比如Lobna等人采用Logistic回歸來區(qū)分“壞”的貸款人[2]，王曉燕等人通過構(gòu)建logit-linear 兩部模型對銀行貸款違約預(yù)測研究[3];二是集成學(xué)習(xí)算法，集成學(xué)習(xí)方法因為具有精度高，可解釋性強等特點，近年來在風(fēng)控評估模型中的應(yīng)用也越來越廣泛。例如卞凌志（2021）在周志華深度森林模型的基礎(chǔ)上借鑒殘差學(xué)習(xí)的思想，建立了級聯(lián)殘差森林（grcForest）的模型進(jìn)一步提高特征提取的多樣性[4]。李澤遠(yuǎn)使用LightGBM對比卷積神經(jīng)網(wǎng)絡(luò)，LightGBM模型性能和穩(wěn)定性結(jié)果顯著[5]。三是深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型，Stevenson利用Deep Learning和NLP技術(shù)建立基于文本的貸款違約預(yù)測模型并用實驗證明其有效性[6]。

在風(fēng)險評估模型研究上，近三年的機器學(xué)習(xí)應(yīng)用模型給本課題的研究開拓了思路。聚焦在金融風(fēng)控領(lǐng)域，算法的“黑箱”與“歧視”[7]可能會導(dǎo)致監(jiān)管和法律風(fēng)險，因此神經(jīng)網(wǎng)絡(luò)等復(fù)雜的模型或者深度學(xué)習(xí)模型很難在企業(yè)中實際落地。集成決策樹算法是個很好的建模方向，它可以有深度學(xué)習(xí)的準(zhǔn)確度，也有統(tǒng)計學(xué)泛線性模型（例如邏輯回歸）的解釋性。目前的集成決策樹算法在信貸風(fēng)險評估模型應(yīng)用中可能會出現(xiàn)過擬合和穩(wěn)定性差等問題，需要進(jìn)一步深化研究，為此本課題試圖在平衡業(yè)務(wù)可解釋性、模型預(yù)測精度、穩(wěn)定性及可維護(hù)性之間構(gòu)建一個不降低精確度但業(yè)務(wù)成本最低的風(fēng)控模型，以期更好的適配消費金融的小額信貸場景。

1 ?數(shù)據(jù)分析與數(shù)據(jù)處理

1.1 ?數(shù)據(jù)獲取與變量分析

本次實驗數(shù)據(jù)來源于國內(nèi)某頭部互聯(lián)網(wǎng)信貸平臺的貸款記錄，總數(shù)據(jù)量超過120萬條，包含47列變量信息，其中15列為匿名變量，為用戶隱私安全考慮，特將employmentTitle、purpose、postCode和title等信息進(jìn)行脫敏，部分?jǐn)?shù)據(jù)變量信息如表1所示。

1.2 ?數(shù)據(jù)業(yè)務(wù)分析

基于業(yè)務(wù)邏輯理解和業(yè)務(wù)分析方法，預(yù)測用戶未來一期的還款情況，主要從以下兩個方面進(jìn)行評估。一是用戶的還款意愿，二是用戶的還款能力。本文還款意愿的刻畫可以從貸款人的基本信息和信用狀況變量入手，還款能力需要綜合貸款信息、貸款人信息及貸款人的財務(wù)情況進(jìn)行分析刻畫。

本實驗信貸平臺平均逾期率在20%左右。從時間維度來看2009—2017年逐年升高，2018年開始公司不斷優(yōu)化自身的風(fēng)險控制系統(tǒng)，不斷增強違約預(yù)測模型的效率來提升平臺的良性發(fā)展。具體如圖1所示。

1.2.1 ?違約用戶影響因素

1.2.1.1 ?貸款利率和貸款期限

該貸款產(chǎn)品業(yè)務(wù)周期持續(xù)139天，貸款期限有3年期和5年期，違約用戶更傾向于選擇5年期，5年期的逾期率32%，是3年期的2倍，表2所示。

綜合分析貸款利率和貸款期限對逾期率的影響，兩種產(chǎn)品違約用戶的貸款利率平均比正常用戶高2～3個點。因為前期貸款時，風(fēng)險較低的借款人獲得的貸款利率較低，而風(fēng)險相對較高的人拿到的貸款利率就越高，如圖2所示。其中isDefault=1代表違約。

1.2.1.2 ?貸款金額

貸款金額的分布來看，貸款金額與違約情況有比較強的相關(guān)性，違約的貸款金額均值高于正常用戶的貸款金額，也就是說單指標(biāo)來看，貸款金額越高違約的風(fēng)險也就越，如圖3所示。

1.2.1.3 ?工作年限

工作年限是用戶自己填寫，有部分失真，目前看和違約率關(guān)系不大，工作年限違約用戶分析圖如圖4所示。

1.3 ?數(shù)據(jù)異常分析與處理

本文用到的數(shù)據(jù)是業(yè)務(wù)給到的原始數(shù)據(jù)，存在缺失、異常等問題，并不能直接建模，需要進(jìn)行一系列的數(shù)據(jù)清洗處理才可使用。

1.3.1 ?缺失值處理

首先刪除無意義的變量，比如PolicyCode只有一個值，無業(yè)務(wù)分類意義。然后對留下來的數(shù)據(jù)進(jìn)行缺失值處理。其中工作年限EmploymentLength缺失率高達(dá)5.85%，部分信用指標(biāo)如RevolUtil缺失率在0.07%，財務(wù)狀況指標(biāo)Dti缺失率在0.03%。為保持?jǐn)?shù)據(jù)集的完整性，利用均值插補法對缺失值進(jìn)行填充。

1.3.2 ?類別變量處理

類別變量主要分為有序類別變量和無序類別變量，對于有序類別變量如Grade、subgrade、EmploymentLength進(jìn)行1到n的序數(shù)編碼。

對日期類型變量IssueDate按照產(chǎn)品上市日期進(jìn)行數(shù)值變化為天數(shù)。對信用類變量EarliesCreditLine字符串進(jìn)行數(shù)值提取轉(zhuǎn)換。

2 ?算法模型介紹

2.1 ?混合特征選擇模型CatBoost-LightGBM

整個算法模型架構(gòu)如圖5所示，將數(shù)據(jù)分成兩組，一組進(jìn)行傳統(tǒng)的清洗、補空、數(shù)值歸一化等處理然后入模;另外一組先入模集成樹CatBoost-LightGBM模型，篩選重要特征進(jìn)行構(gòu)造衍生，并將其和基本特征進(jìn)行混合再次入模對比試驗。

數(shù)據(jù)入模CatBoost和LightGBM算法，并給出特征重要性排序。兩種算法模型的TOP20特征如圖6所示。其中CatBoost的特征重要性原理是計算包含與不包含該特征下模型的損失函數(shù)，差別越大表明該個越重要。LightGBM的特征重要性是基于使用該特征作為分割帶來的總增益來計算。

對兩個模型TOP20重要性的特征進(jìn)行重合度分析，共有12個重合特征，然后對這12個特征按照業(yè)務(wù)規(guī)則再進(jìn)行特征構(gòu)造。比如IssueDate進(jìn)行周、月維度的構(gòu)造;對貸款金額進(jìn)行WOE分箱離散化;將貸款金額和工作年限做比例;對貸款金額和年收入做比例等。這樣將新特征共計87個入模LightGBM進(jìn)行遞歸后向消除特征法RFE篩選，最終得到74個混合特征兩種算法模型的TOP20特征圖如圖6所示。

2.2 ?梯度提升算法Boosting

梯隊提升Boosting算法是一種集成學(xué)習(xí)思想，它是把K個專家（K個分類器）進(jìn)行加權(quán)融合，形成一個新的超級專家（強分類器），讓這個超級專家做判斷。梯隊提升算法按已經(jīng)被證明是一個非常重要的算法策略，許多成功的機器學(xué)習(xí)算法因Boosting而起。

2.2.1 ?XGBoost

XGBoost[8]的全稱是Extreme Gradient Boosting，由華盛頓大學(xué)的陳天奇博士提出。它是由k個基模型組成的一個加法運算式：

其中yi是第i個樣本的預(yù)測值，fk為第k個樣本的基模型。

XGBoost訓(xùn)練的時候，是通過加法進(jìn)行訓(xùn)練，也就是每一次只訓(xùn)練一棵樹出來，最后的預(yù)測結(jié)果是所有樹的加和表示。實現(xiàn)過程利用了預(yù)排序和近似算法可以降低尋找最優(yōu)分裂點的計算量，但在節(jié)點分裂過程中仍需要遍歷整個數(shù)據(jù)集。

2.2.2 ?LightGBM

LightGBM[9]是2017年由微軟推出的可擴展機器學(xué)習(xí)系統(tǒng)，可以看作是XGBoost的升級豪華版，在獲得與XGBoost近似精度的同時，又提供了更快的訓(xùn)練速度與更少的內(nèi)存消耗。首先它基于直方圖算法進(jìn)行優(yōu)化，使數(shù)據(jù)存儲更加方便、運算更快、魯棒性強、模型更加穩(wěn)定等。其次該算法使用了帶有深度限制的按葉子生長策略，可以降低誤差，得到更好的精度。再其次通過單邊梯度采樣來平衡數(shù)據(jù)量和算法精度。

2.2.3 ?CatBoost

CatBoost[10]是俄羅斯的搜索巨頭Yandex在2017年開源的機器學(xué)習(xí)庫，是Boosting族算法的一種。CatBoost是一種基于對稱決策樹（oblivious trees）為基學(xué)習(xí)器實現(xiàn)的參數(shù)較少、支持類別型變量和高準(zhǔn)確性的GBDT框架，主要解決的痛點是高效合理地處理類別型特征，此外，CatBoost還解決了梯度偏差（Gradient Bias）以及預(yù)測偏移（Prediction shift）的問題，從而減少過擬合的發(fā)生，進(jìn)而提高算法的準(zhǔn)確性和泛化能力。

3 ?模型實驗

3.1 ?評價指標(biāo)

對于二分類模型來說，經(jīng)常會用AUC來度量。ROC（Receiver Operator Characteristic）即一個二維坐標(biāo)軸中的曲線，AUC（Area under ROC Curve）即ROC曲線下的面積。AUC越接近1.0，檢測方法真實性越高，代表分類效果越好。但是對于不平衡數(shù)據(jù)且bad rate會有變化的數(shù)據(jù)，AUC的效果容易失真，需額外使用KS（Kolmogorov-Smirnov）值，KS值評估模型的區(qū)分度（discrimination）是在模型中用于區(qū)分預(yù)測正負(fù)樣本分隔程度的評價指標(biāo)。KS的計算方法直觀就是：

KS=max（abs（TPR-FPR））

其中TPR：TP/（TP+FN）真陽率或者召回率;FPR：FP/（FP+TN）假陽率或者誤診率。

考慮到模型最終應(yīng)用企業(yè)的通暢性，本實驗額外增加兩個刻畫模型成本的指標(biāo)，一是模型運行耗時，二是模型穩(wěn)定性（Stability）。運行耗時可通過Python內(nèi)置的time庫得到。穩(wěn)定性的計算公式為：

Stablity=-log（abs（AUC|test-AUC）train）

如圖7所示，該模型穩(wěn)定性為：-log（abs（0.735 1-0.773 6））=1.41。圖8中的穩(wěn)定性為：1-abs（0.731 5-0.740 4）×10=2.05?？梢钥闯?，圖8的穩(wěn)定性明顯好于圖7。

3.2 ?不平衡處理

為了增強模型的穩(wěn)健性，對于風(fēng)控的不平衡樣本現(xiàn)狀（違約用戶在總用戶中占比小，會導(dǎo)致模型偏向多數(shù)類，從而降低少數(shù)類的分類精度），使用SMOTE方法來對bad的部分加擾動，這樣就能平衡訓(xùn)練集中的各標(biāo)簽比例。

3.3 ?工具選擇

本實驗的操作系統(tǒng)為Windows10系統(tǒng)，16 GB內(nèi)存，i7-8700CPU，Python版本為3.8。編程工具為Pycharm+ Anaconda3。

4 ?實驗結(jié)果分析

為了驗證混合特征選擇模型的有效性，本文選用阿里云天池公開的某信貸平臺120萬條數(shù)據(jù)作為實驗數(shù)據(jù)，并對其分別使用單分類器（邏輯回歸、決策樹、樸素貝葉斯）、集成學(xué)習(xí)算法（隨機森林、LightGBM、Catboost、XGboost）、神經(jīng)網(wǎng)絡(luò)MLP算法對比試驗。模型參數(shù)均使用默認(rèn)參數(shù)。從表3來看，混合特征入模后對比之前基礎(chǔ)特征八大算法效果均有提升，其中因為標(biāo)準(zhǔn)化和分箱處理的原因，邏輯回歸LR的結(jié)果提升明顯，有0.19個提升點。但是三大梯度提升樹Boosting模型因為對數(shù)值極值不敏感，且可實現(xiàn)自動編碼，初始入模效果也較好。

在均使用混合特征的試驗下，本實驗從模型性能、穩(wěn)定性和成本等綜合維度評價分析，邏輯回歸LR耗時和穩(wěn)定性是最好的，但是分類效果相較三大梯度提升算法仍有差距。MLP神經(jīng)網(wǎng)絡(luò)也可達(dá)到很好的AUC結(jié)果但是耗時和穩(wěn)定性相對較差。綜合耗時、穩(wěn)定性和算法性能指標(biāo)AUC、KS不難發(fā)現(xiàn)，LightGBM在本實驗場景下是相對較優(yōu)的算法分類器，如表4所示。

5 ?結(jié) ?論

在金融風(fēng)控領(lǐng)域，由于銀行監(jiān)管要求，風(fēng)控模型需要滿足解釋型要求才能批準(zhǔn)上線。加上消費金融產(chǎn)品用戶多、貸款金額小等特別，風(fēng)險管控的成本和難度更大。本文通過Boosting集成思想提出了一種基于混合特征選擇的CatBoost-LightGBM集成樹模型，在描述風(fēng)險影響因素、預(yù)測違約風(fēng)險上是顯著有效的，且對基礎(chǔ)模型LR有0.19的提升，對基礎(chǔ)特征的LightGBM、XGboost等模型有0.03的提升。

本文僅在公開的數(shù)據(jù)表含有的特征中進(jìn)行挖掘建模，未來還會綜合用戶的社交屬性、疫情災(zāi)害等外部條件的約束對用戶無法按時還款造成的影響，來進(jìn)一步提高模型的準(zhǔn)確性和普適性。

參考文獻(xiàn)：

[1] 單良，喬楊.數(shù)據(jù)化風(fēng)控 [M].北京：電子工業(yè)出版社，2018.

[2] ABID L，MASMOUDI A，ZOUARI-GHORBEL S. The Consumer Loan’s Payment Default Predictive Model：an Application of the Logistic Regression and the Discriminant Analysis in a Tunisian Commercial Bank [J].Journal of the Knowledge Economy，2018，9：948-962.

[3] 王小燕，袁騰，段湘斌.基于零膨脹分位數(shù)兩部模型的銀行貸款違約預(yù)測研究 [J/OL].中國管理科學(xué)：1-15[2021-04-25].https：//doi.org/10.16381/j.cnki.issn1003-207x.2020.0441.

[4] 周波，李俊峰. 結(jié)合目標(biāo)檢測的人體行為識別 [J]. 自動化學(xué)報，2020（9）：1961-1970.

[5] 李澤遠(yuǎn).可超越評分卡模型么？基于LightGBM與卷積神經(jīng)網(wǎng)絡(luò)在貸款違約風(fēng)險預(yù)測的研究 [J].特區(qū)經(jīng)濟，2021（5）：67-69.

[6] STEVENSON M，MUES C，BRAVO C. The value of text for small business default prediction：A Deep Learning approach [J].European Journal of Operational Research，2021，295（2）：758-771.

[7] 黃益平，邱晗.大科技信貸：一個新的信用風(fēng)險管理框架 [J].管理世界，2021，37（2）：12-21+50+2+16.

[8] CHEN T Q，GUESTRIN C. XGBoost：A Scalable Tree Boosting System [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledeg Discovery and Data Mining.New York：ACM，2016：1-10.

[9] KE G L，MENG Q，F(xiàn)INLEY T，et al. LightGBM：a highly efficientgradient boosting decision tree [C]//Proceedings of the 30thInternational Conference on Neural Information ProcessingSystems. Red Hook：Curran Associates Inc. ，2017：3146-3154.

[10] PROKHORENKOVA L，GUSEV G，VOROBEV A，et al. CatBoost：unbiased boosting with categorical features [C]//Advances in Neural Information Processing Systems.Montreal，2018：6638-6648.

作者簡介：程楠楠（1987.12—），女，漢族，江蘇南通人，其他高級，碩士，研究方向：商業(yè)分析、機器學(xué)習(xí)、大數(shù)據(jù)風(fēng)控。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于混合特征選擇模型CatBoost-LightGBM的違約風(fēng)險預(yù)測研究