国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)及機(jī)器學(xué)習(xí)方法的貸款違約風(fēng)險(xiǎn)評估

2021-11-29 16:04程朋媛天津財(cái)經(jīng)大學(xué)
營銷界 2021年26期
關(guān)鍵詞:借款人機(jī)器信用

程朋媛(天津財(cái)經(jīng)大學(xué))

■ 前言

Fintech 推動了數(shù)字時代金融經(jīng)濟(jì)的創(chuàng)新和可持續(xù)發(fā)展。它全面涵蓋了營銷、風(fēng)險(xiǎn)控制、貸款、投資顧問和客戶服務(wù)、移動支付的誕生、數(shù)字貸款、在線保險(xiǎn)等重要業(yè)務(wù)流程。對金融產(chǎn)業(yè)鏈、供應(yīng)鏈和增值鏈產(chǎn)生了深遠(yuǎn)的影響。

一方面,互聯(lián)網(wǎng)金融的發(fā)展,為更多有融資需求的客戶提供了便利快捷的服務(wù)。無論是傳統(tǒng)的金融機(jī)構(gòu),還是新興的P2P 行業(yè),都希望獲得盡可能多的客戶,同時控制風(fēng)險(xiǎn),因此研究我國個人信用評估、有效識別消費(fèi)貸款信用風(fēng)險(xiǎn)顯得尤為重要。另一方面,越來越多的商業(yè)銀行利用所收集的信息進(jìn)行信用風(fēng)險(xiǎn)評估,構(gòu)建評分模型,期望達(dá)到提高運(yùn)營效率和降低貸款成本的效果。本文嘗試運(yùn)用不同的機(jī)器學(xué)習(xí)方法,探究機(jī)器學(xué)習(xí)方法在信用風(fēng)險(xiǎn)評估方面的應(yīng)用,為商業(yè)銀行在控制信用風(fēng)險(xiǎn)方面提供新的可能。

■ 模型理論與方法

(一)機(jī)器學(xué)習(xí)方法

本文主要選取了以下八種機(jī)器學(xué)習(xí)算法:

(1)邏輯回歸算法(Logistic Regression,LR)

(2)隨機(jī)森林Random Forest

(3)梯度提升樹GBDT(Gradient Boosting Decision Tree)

(4)決策樹ID3

(5)KNN 學(xué)習(xí)模型

(6)樸素貝葉斯(Naive Bayes)分類算法

(7)XGBoost

(8)LightGBM

(二)評估方法

本文用AUC 作為評價(jià)指標(biāo),AUC 大小是指ROC 曲線和坐標(biāo)軸圍成的面積,以此來度量分類模型的好壞程度。ROC(Receiver Operator Characteristic)是一個二維坐標(biāo)軸中的曲線,橫坐標(biāo)是偽正例率(FPR=FP/(FP+TN)),縱坐標(biāo)是真正例率(TPR=TP/(TP+FN))。ROC 沒有具體數(shù)值,所以出現(xiàn)了AUC 值。一般來說,AUC 越大表示預(yù)測性越好。

■ 數(shù)據(jù)處理與特征工程

(一)數(shù)據(jù)介紹

出于銀行數(shù)據(jù)安全性及可得性考慮,未采用真實(shí)客戶信息,而是以天池貸款數(shù)據(jù)集為基礎(chǔ),對算法進(jìn)行實(shí)現(xiàn)。

天池違約數(shù)據(jù)集中總數(shù)據(jù)量100 萬行,維度包含客戶id及對應(yīng)的各項(xiàng)特征,具體有:用戶id、貸款金額、利率、分期付款金額、貸款等級和子級、就業(yè)職稱、年限、房屋所有權(quán)狀況、年收入、驗(yàn)證狀態(tài)、貸款發(fā)放的月份、貸款人在貸款申請時的貸款用途類別、借款人郵政編碼前3 位、地區(qū)編碼、債務(wù)收入比、借款人過去2 年信用檔案中逾期30 天以上的違約事件數(shù)量、借款人在貸款發(fā)放時的fico 所屬的上、下限范圍、借款人信用檔案中未結(jié)信用額度的數(shù)量、貶損公共記錄的數(shù)量、公開記錄清除的數(shù)量、信貸周轉(zhuǎn)余額合計(jì)、循環(huán)額度利用率、借款人信用檔案中當(dāng)前的信用額度總數(shù)、貸款的初始列表狀態(tài)、表明貸款是個人申請還是與兩個共同借款人的聯(lián)合申請、借款人最早報(bào)告的信用額度開立的月份、借款人提供的貸款名稱、公開可用的策略_代碼=1 新產(chǎn)品不公開可用的策略_代碼=2、匿名特征n0-n14。

(二)數(shù)據(jù)預(yù)處理

1.內(nèi)存優(yōu)化

原始數(shù)據(jù)有100 多萬條,后續(xù)進(jìn)行特征工程會導(dǎo)致更多的內(nèi)存損耗,因此有必要進(jìn)行內(nèi)存優(yōu)化,減少數(shù)據(jù)占用存儲空間大小。

2.缺失值處理

數(shù)值型特征用中位數(shù)填充,對象型特征用眾數(shù)填充。

3.時間格式處理

issueDate 日期變量,貸款發(fā)放時間,轉(zhuǎn)換為離數(shù)據(jù)集最早的發(fā)放時間的天數(shù)差,貸款人最早報(bào)告的信用額度的時間轉(zhuǎn)化為距離2021 的年數(shù)。

4.對象類型特征數(shù)值化

對象類型特征有“grade”,“subGrade”和“employmentLength”“grade”和“subGrade”都是表示貸款等級的特征,因此應(yīng)該是有一定的順序的,比如A >B,A1 >A2 之類,因此可以直接映射成數(shù)值。

(三)特征工程

主要流程為:

1.根據(jù)相關(guān)性特征剔除部分變量,再根據(jù)理論剔除對貸款違約概率影響微小的用戶特征。

2.為衡量用戶價(jià)值與創(chuàng)利能力,自定義以下可解釋特征。

就業(yè)后的總收入=年收入×就業(yè)年限;每年貸款金額=貸款額/貸款年限

本息和=分期付款金額×貸款年限;負(fù)債收入比=每年貸款額/每年收入

每年剩余收入=年收入-貸款額;剩余信用額度=總額度-周轉(zhuǎn)額度

3.對匿名的十五個特征計(jì)算常用統(tǒng)計(jì)量,根據(jù)不同統(tǒng)計(jì)量與違約概率的相關(guān)性選取平均值和方差這兩個特征變量替代原有的匿名特征。

■ 貸款違約風(fēng)險(xiǎn)評估模型建立及分析

(一)模型設(shè)計(jì)

本文基于天池貸款數(shù)據(jù)集,將數(shù)據(jù)分為訓(xùn)練集與測試集,先對客戶各個指標(biāo)進(jìn)行特征分析,選出最終使用的用戶特征,再以不同算法對模型進(jìn)行訓(xùn)練,通過對精度進(jìn)行比較,選出預(yù)測最準(zhǔn)的算法作為我們的后臺。同時連接數(shù)據(jù)庫,搭建面向客戶的前臺,對新舊客戶進(jìn)行區(qū)分,老客戶只需輸入id 號(代表身份證號,虛擬數(shù)據(jù)集因此用id 顯示)即可得到對該客戶的信用評分及其違約的概率。新客戶需要輸入一些基本信息(id、年收入、貸款金額、貸款期限、貸款利率、工齡時間、是否有房),以此為基礎(chǔ)對其信用評分及違約概率進(jìn)行預(yù)測。

(二)主要建模流程

1.特征工程:對數(shù)據(jù)進(jìn)行預(yù)處理,刪除冗余特征,通過特征工程對特征進(jìn)行篩選,選出較為關(guān)鍵的特征。

2.機(jī)器學(xué)習(xí)算法:采用八種不同的機(jī)器學(xué)習(xí)算法對模型進(jìn)行訓(xùn)練(LR、Random Forest、GDBT、ID3、KNN、NB、Xgboost、lightgbm)。

3.模型評估:以AUC 值為評估標(biāo)準(zhǔn),選取AUC 值較大的算法,采用網(wǎng)格搜索調(diào)參進(jìn)一步優(yōu)化,得到訓(xùn)練好的模型作為最終預(yù)測模型。

(三)訓(xùn)練模型結(jié)果

通過AUC 值對比,Lightgbm 模型最優(yōu),通過網(wǎng)格調(diào)參進(jìn)行進(jìn)一步優(yōu)化,得到最終要選用的模型。

■ 總結(jié)

本文著眼于金融科技對銀行的運(yùn)用,在金融行業(yè)構(gòu)建風(fēng)險(xiǎn)模式、模擬貸款違約的背景下,嘗試將機(jī)器學(xué)習(xí)應(yīng)用于金融風(fēng)險(xiǎn)控制領(lǐng)域。使用天池貸款的默認(rèn)數(shù)據(jù)進(jìn)行模擬,分別試驗(yàn)了8 種不同的機(jī)器學(xué)習(xí)算法,預(yù)測了貸款的違約概率和個人顧客的信用評價(jià)。結(jié)果,Lightgbm 優(yōu)于其他模型,達(dá)到較高的AUC,在測試組中表現(xiàn)出更強(qiáng)的穩(wěn)定性。展望未來,金融科技發(fā)展有以下趨勢:隱私計(jì)算關(guān)注度快速提升;妥善解決數(shù)據(jù)安全和數(shù)據(jù)質(zhì)量通點(diǎn)成為金融科技高質(zhì)量發(fā)展的重要前提;深耕技術(shù)是企業(yè)發(fā)展策略的中心,加大研發(fā)和人員投入是關(guān)鍵著力點(diǎn)等。

對銀行應(yīng)用金融科技有以下幾點(diǎn)建議:

(1)堅(jiān)持強(qiáng)化金融科技創(chuàng)新應(yīng)用的惠民利企導(dǎo)向。

(2)健全開放、共贏、平衡的金融科技生態(tài)體系。積極支持通過聯(lián)合實(shí)驗(yàn)室等形式,加強(qiáng)關(guān)鍵共性技術(shù)研發(fā)和金融應(yīng)用項(xiàng)目攻關(guān);支持政產(chǎn)學(xué)研多方合作參與甚至主導(dǎo)有關(guān)國際標(biāo)準(zhǔn)規(guī)則研制;推動大型機(jī)構(gòu)向中小機(jī)構(gòu)輸出風(fēng)控、合規(guī)、運(yùn)營等數(shù)字化工具;支持中小機(jī)構(gòu)依托行業(yè)協(xié)會、產(chǎn)業(yè)聯(lián)盟等平臺,適度降低數(shù)字化轉(zhuǎn)型成本。

(3)繼續(xù)發(fā)揮引導(dǎo)行業(yè)規(guī)范發(fā)展的作用。建議進(jìn)一步發(fā)揮行業(yè)自律在支撐配合行政監(jiān)管、規(guī)范從業(yè)機(jī)構(gòu)行為等方面的積極作用,持續(xù)加強(qiáng)行業(yè)統(tǒng)計(jì)和風(fēng)險(xiǎn)監(jiān)測體系建設(shè),精準(zhǔn)開展金融消費(fèi)者保護(hù)和政策宣貫,積極推進(jìn)金融科技國際雙向交流合作。

猜你喜歡
借款人機(jī)器信用
機(jī)器狗
機(jī)器狗
中美信用減值損失模型的比較及啟示
關(guān)于“債”的事兒,你必須知道
加快信用立法 護(hù)航“誠信河南”
信用收縮是否結(jié)束
未來機(jī)器城
小微企業(yè)借款人
熱詞
信用消費(fèi)有多爽?
宁明县| 竹北市| 蕲春县| 沅陵县| 江北区| 三明市| 安新县| 文登市| 宜兰县| 东阳市| 九龙坡区| 临城县| 阳新县| 上林县| 垫江县| 论坛| 永嘉县| 密山市| 大名县| 南涧| 临江市| 永吉县| 夏河县| 西乡县| 柳州市| 牡丹江市| 柞水县| 如东县| 洛南县| 嘉鱼县| 台安县| 两当县| 和田县| 祁阳县| 峨边| 翁源县| 荃湾区| 连城县| 连州市| 溆浦县| 旬阳县|