国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于集成模型的個(gè)人信用風(fēng)險(xiǎn)評(píng)估研究

2020-03-24 08:50李思瑤
時(shí)代金融 2020年5期
關(guān)鍵詞:機(jī)器學(xué)習(xí)風(fēng)險(xiǎn)管理

李思瑤

摘要:隨著金融科技的快速發(fā)展,機(jī)器學(xué)習(xí)在大數(shù)據(jù)風(fēng)控領(lǐng)域的應(yīng)用也越來(lái)越成熟,尤其在在線信貸中被廣泛應(yīng)用。本文從消費(fèi)金融行業(yè)的實(shí)際業(yè)務(wù)出發(fā),提出了一套基于多源數(shù)據(jù)的子模型框架系統(tǒng),該系統(tǒng)可以根據(jù)不同的數(shù)據(jù)維度獨(dú)立建立,再將模型進(jìn)行自由組合。研究表明,基于多源數(shù)據(jù)的子模型系統(tǒng)的評(píng)分有效性比單個(gè)機(jī)器學(xué)習(xí)評(píng)分模型更好。

關(guān)鍵詞:風(fēng)險(xiǎn)管理?? 信用評(píng)分? 機(jī)器學(xué)習(xí)

一、引言

如今風(fēng)險(xiǎn)管理部門已經(jīng)成為諸多企業(yè)中的重要職能部門之一,為實(shí)現(xiàn)企業(yè)的經(jīng)營(yíng)目標(biāo)提供有力保障。隨著互聯(lián)網(wǎng)的迅猛發(fā)展,大數(shù)據(jù)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等新興技術(shù)開(kāi)始出現(xiàn)并在企業(yè)的經(jīng)營(yíng)決策過(guò)程中得到應(yīng)用。

大數(shù)據(jù):作為一項(xiàng)新興技術(shù),目前在IT界較為認(rèn)可的定義是:在可承受的時(shí)間范圍內(nèi),無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具進(jìn)行分析利用的數(shù)據(jù)集。

(一)大數(shù)據(jù)在風(fēng)險(xiǎn)管理中的應(yīng)用

最早應(yīng)用大數(shù)據(jù)風(fēng)險(xiǎn)管理的正是風(fēng)險(xiǎn)管理出現(xiàn)最早的保險(xiǎn)業(yè)。保險(xiǎn)業(yè)工作人員利用客戶的銀行系統(tǒng)征信數(shù)據(jù)和在互聯(lián)網(wǎng)上產(chǎn)生的涉及人際關(guān)系、歷史消費(fèi)行為、身份特征等方面的數(shù)據(jù),通過(guò)大數(shù)據(jù)“畫像”技術(shù),對(duì)用戶進(jìn)行全面的定位,據(jù)此來(lái)預(yù)測(cè)用戶的履約能力進(jìn)而降低信貸風(fēng)險(xiǎn)。

大數(shù)據(jù)技術(shù)成功應(yīng)用的案例很多,比如CanadianTire公司曾做過(guò)的一次將消費(fèi)者行為和信用風(fēng)險(xiǎn)相掛鉤的突破性調(diào)查。通過(guò)詳細(xì)分析消費(fèi)者在多家店鋪使用本公司所發(fā)行信用卡消費(fèi)的情況,CanadianTire公司發(fā)現(xiàn)延遲交付、信用卡違約都是可以預(yù)測(cè)的,辦法就是通過(guò)研究人們購(gòu)買的商品種類、品牌以及所光顧的酒吧類型。結(jié)果證明,這種預(yù)測(cè)比傳統(tǒng)的行業(yè)預(yù)測(cè)方法更為精準(zhǔn)。金融業(yè)工作人員可以利用大數(shù)據(jù)的優(yōu)勢(shì),通過(guò)將多樣化的數(shù)據(jù)集引入計(jì)算,提高對(duì)風(fēng)險(xiǎn)的防范意識(shí)并降低風(fēng)險(xiǎn)。

(二)機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)技術(shù)并不是剛剛起步,而是隨著電子計(jì)算機(jī)的出現(xiàn)而出現(xiàn)的一種技術(shù)。互聯(lián)網(wǎng)的普及讓機(jī)器學(xué)習(xí)以大數(shù)據(jù)應(yīng)用技術(shù)的全新面目呈現(xiàn)出勃勃生機(jī)。簡(jiǎn)言之,機(jī)器學(xué)習(xí)就是通過(guò)各種算法對(duì)海量的歷史數(shù)據(jù)進(jìn)行有監(jiān)督或無(wú)監(jiān)督的學(xué)習(xí)分析,總結(jié)規(guī)律,并利用分析結(jié)果對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)的一種技術(shù)。機(jī)器學(xué)習(xí)目前有很多應(yīng)用方向,包括風(fēng)險(xiǎn)識(shí)別、模式識(shí)別、圖像識(shí)別、智能決策等。

二、模型簡(jiǎn)介

(一)XGBoost算法

XGBoost的目標(biāo)函數(shù)由兩部分構(gòu)成:一部分用來(lái)衡量預(yù)測(cè)分?jǐn)?shù)和真實(shí)分?jǐn)?shù)的差距,另一部分則是正則化項(xiàng)。正則化項(xiàng)同樣包含兩部分:一部分用于控制葉子結(jié)點(diǎn)的個(gè)數(shù),另一部分用于避免葉子節(jié)點(diǎn)的分?jǐn)?shù)過(guò)大,防止過(guò)擬合。XGBoost還提出了兩種防止過(guò)擬合的方法:Shrinkage and Column Subsampling。Shrinkage方法就是在每次迭代中對(duì)樹(shù)的每個(gè)葉子結(jié)點(diǎn)的分?jǐn)?shù)乘上一個(gè)縮減權(quán)重η,這可以使得每一棵樹(shù)的影響力不會(huì)太大,留下更大的空間給后面生成的樹(shù)去優(yōu)化模型。Column Subsampling類似于隨機(jī)森林中的選取部分特征進(jìn)行建樹(shù)。其可分為兩種,一種是按層隨機(jī)采樣,在對(duì)同一層內(nèi)每個(gè)結(jié)點(diǎn)分裂之前,先隨機(jī)選擇一部分特征,然后只需要遍歷這部分的特征,來(lái)確定最優(yōu)的分割點(diǎn)。另一種是隨機(jī)選擇特征,則建樹(shù)前隨機(jī)選擇一部分特征然后分裂就只遍歷這些特征。一般情況下前者效果更好。當(dāng)樣本的第i個(gè)特征值缺失時(shí),無(wú)法利用該特征進(jìn)行劃分時(shí),XGBoost的處理思路是將該樣本分別劃分到左結(jié)點(diǎn)和右結(jié)點(diǎn),分別計(jì)算增益,劃分到增益大的一邊。

(二)LightGBM

lightGBM主要有以下特點(diǎn):基于Histogram的決策樹(shù)算法、帶深度限制的Leaf-wise的葉子生長(zhǎng)策略、直方圖做差加速、直接支持類別特征(CategoricalFeature)、Cache命中率優(yōu)化、基于直方圖的稀疏特征優(yōu)化、多線程優(yōu)化。Leaf-wise的方法是從當(dāng)前所有葉節(jié)點(diǎn)中尋找信息增益最多的方向進(jìn)行分裂,這樣的設(shè)計(jì)比Leaf-wise方法的預(yù)測(cè)精度更高而誤差更小。而且為了防止過(guò)擬合,LightGBM在分裂的時(shí)候?qū)ψ畲笊疃纫策M(jìn)行了限制。

三、集成模型框架設(shè)計(jì)

傳統(tǒng)銀行評(píng)分卡使用的變量較少,一般10個(gè)左右的強(qiáng)信息變量,包含三種類型:基本信息、個(gè)人信用和貸款人社會(huì)關(guān)系。與傳統(tǒng)銀行信用卡業(yè)務(wù)相比,在線信貸由于大多為模型自動(dòng)決策,而基于傳統(tǒng)評(píng)分卡模型的建模方法數(shù)據(jù)維度較少,在互聯(lián)網(wǎng)時(shí)代下少數(shù)的幾個(gè)維度很難對(duì)借款用戶進(jìn)行精準(zhǔn)畫像。因此,為了彌補(bǔ)評(píng)分卡模型中的信息缺失,將各種維度的數(shù)據(jù)分別訓(xùn)練為子模型,再進(jìn)行融合為最終模型是一種更好的解決方案。

為了提高網(wǎng)絡(luò)借貸中的信用風(fēng)險(xiǎn)評(píng)估,本文提出一種集成模型框架,基本思想是:首先,根據(jù)不同場(chǎng)景、不同客戶群的不同數(shù)據(jù),將數(shù)據(jù)分組后分別訓(xùn)練子評(píng)分模型;然后根據(jù)訓(xùn)練好的模型輸出的結(jié)果作為輸入變量進(jìn)行重新建模,得到最終的信用評(píng)估結(jié)果。本文中選用根據(jù)消費(fèi)金融公司主要數(shù)據(jù)源進(jìn)行分析建模,包括:多頭借貸、高風(fēng)險(xiǎn)特征、運(yùn)營(yíng)商信息、銀行卡信息、第三方信用評(píng)分、人行征信報(bào)告。先將數(shù)據(jù)源按照這6種維度分別進(jìn)行子模型訓(xùn)練,再把訓(xùn)練得到的6個(gè)子模型輸出結(jié)果整合成一個(gè)6列矩陣(將每個(gè)子模型的預(yù)測(cè)結(jié)果轉(zhuǎn)換為具體分?jǐn)?shù)),再重新利用機(jī)器學(xué)習(xí)融合成新的模型評(píng)分。

在該案例中,集成模型框架根據(jù)不同的數(shù)據(jù)來(lái)源,構(gòu)建了6個(gè)機(jī)器學(xué)習(xí)子評(píng)分模型,子模型的數(shù)量和選用的算法都可以自由選擇,而且隨著數(shù)據(jù)源的豐富還可以不斷的增加子模型的數(shù)量。雖然各子模型都能較好的預(yù)測(cè)用戶的信用風(fēng)險(xiǎn),但集成模型的預(yù)測(cè)準(zhǔn)確率更高,并且預(yù)測(cè)效果也更穩(wěn)定。當(dāng)面對(duì)不同的借貸場(chǎng)景或不同的客群時(shí),模型可用的數(shù)據(jù)也不同。這時(shí),先將數(shù)據(jù)根據(jù)來(lái)源或客群分組,然后自由選擇入模數(shù)據(jù),自由選擇模型算法,自由組合入框架的子模型,可以大大提高數(shù)據(jù)的使用效率且節(jié)約數(shù)據(jù)采購(gòu)成本。

四、實(shí)證分析

實(shí)驗(yàn)數(shù)據(jù)為2018年1~9月11996筆小額在線貸款數(shù)據(jù),壞樣本定義為歷史逾期最長(zhǎng)天數(shù)不低于90天的客戶,標(biāo)記為1;好樣本定義為沒(méi)有逾期記錄且已經(jīng)有完整的借款表現(xiàn)期的客戶,標(biāo)記為0。其中壞樣本共2999個(gè),占比25%,好樣本共8997個(gè),占比75%,Odds=3,表5為本次實(shí)驗(yàn)數(shù)據(jù)的基本情況。

首先,本實(shí)驗(yàn)將6個(gè)子模型所包含的全部超過(guò)100個(gè)變量全部作為輸入,預(yù)測(cè)違約概率。為了找到分類效果最佳的模型,本文嘗試了GBDT、Adaboost、RandomForest、LightGBM、XGBoost多種機(jī)器學(xué)習(xí)方法,根據(jù)AUC、KS、準(zhǔn)確率等評(píng)價(jià)指標(biāo)挑選出最佳模型,對(duì)比結(jié)果見(jiàn)表1。

實(shí)驗(yàn)中,數(shù)據(jù)集按4:1的比例拆分為訓(xùn)練集和測(cè)試集,表2展示的是各模型在測(cè)試集上的表現(xiàn)??芍?,在測(cè)試集上表現(xiàn)最佳的是LightGBM模型。與其他模型相比,其準(zhǔn)確率、AUC、KS的數(shù)值都較大,說(shuō)明該模型區(qū)分能力更高。

為了驗(yàn)證組合模型思想模型的有效性,我們對(duì)6個(gè)子模型分別訓(xùn)練,并對(duì)預(yù)測(cè)有效性做了分別統(tǒng)計(jì),又將6個(gè)子模型的預(yù)測(cè)概率轉(zhuǎn)化為具體評(píng)分,再把6個(gè)評(píng)分作為最終的模型輸入變量,重新再利用進(jìn)行機(jī)器學(xué)習(xí)進(jìn)行建模,6個(gè)子模型的結(jié)果如表2所示。

從表2可以看出,6個(gè)機(jī)器學(xué)習(xí)評(píng)分模型中,風(fēng)險(xiǎn)行為數(shù)據(jù)與某第三方信用評(píng)分模型的預(yù)測(cè)效果最好,這也說(shuō)明網(wǎng)絡(luò)借貸業(yè)務(wù)往往面臨較高的信用風(fēng)險(xiǎn)。最后,將6個(gè)子模型的預(yù)測(cè)結(jié)果作為輸入變量融合成一個(gè)集成機(jī)器學(xué)習(xí)模型,對(duì)比結(jié)果見(jiàn)表3。

從表3的試驗(yàn)對(duì)比可以看出,將子模型的預(yù)測(cè)結(jié)果作為輸入重新構(gòu)建的機(jī)器學(xué)習(xí)模型,可以獲得比直接進(jìn)行全變量輸入更好的預(yù)測(cè)精度,其中最優(yōu)算法LightGBM的預(yù)測(cè)KS值從65.45上升到了66.28,且其他算法的預(yù)測(cè)精度也有了一定的提升。

表4展示了在LightGBM模型下測(cè)試集樣本的通過(guò)率和誤放率的情況。模型在預(yù)設(shè)概率為0.45~0.50的條件下(即只有當(dāng)某個(gè)客戶被預(yù)測(cè)為壞人的概率大于0.45時(shí)才通過(guò)篩選),KS0.663,通過(guò)率最高可達(dá)67.40%,而其對(duì)應(yīng)的誤放率很低,為6.70%。這說(shuō)明通過(guò)LightGBM模型篩選的客群能夠保證較高的質(zhì)量。

五、結(jié)論

本文通過(guò)嘗試GBDT、Adboost、RandomForest、LightGBM、XGBoost多種機(jī)器學(xué)習(xí)方法,根據(jù)多種評(píng)價(jià)指標(biāo)篩選對(duì)比,得出如下結(jié)論:

第一,對(duì)大數(shù)據(jù)而言,機(jī)器學(xué)習(xí)方法能夠更好地探索數(shù)據(jù)的內(nèi)在結(jié)構(gòu),形成的分類模型也更加精準(zhǔn)。在本文嘗試的幾種機(jī)器學(xué)習(xí)方法中,XGBoost、LightGBM模型的分類效果最好。

第二,基于多源數(shù)據(jù)的子模型框架可以根據(jù)不同的數(shù)據(jù)維度獨(dú)立建模,每個(gè)子模型可以用不同的方法進(jìn)行訓(xùn)練,且訓(xùn)練的好的子模型也可以進(jìn)行自由的組合。本研究只是簡(jiǎn)單的將子模型再重新進(jìn)行了一次利用LightGBM算法的重新組合就獲得了比直接進(jìn)行全變量建模方式。實(shí)際上,子模型還能通過(guò)傳統(tǒng)評(píng)分卡建模的方式構(gòu)建評(píng)分卡模型,使得機(jī)器學(xué)習(xí)算法也能獲得很好的解釋效果,或者利用決策樹(shù)方法,將子模型構(gòu)建為一個(gè)基于決策樹(shù)方法的策略集也是一個(gè)非常有價(jià)值的研究方向。

參考文獻(xiàn):

[1]Chen T,He T,Benesty M . xgboost: Extreme Gradient Boosting[J]. 2016.

[2]Jerome H. Friedman. Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics,2001,29(5):1189-1232.

[3]王春峰,萬(wàn)海暉,張維.《商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估及其實(shí)證研究》[J].《管理科學(xué)學(xué)報(bào)》,1998第1期.

[4]李旭升,郭春香,郭耀煌.《擴(kuò)展的樹(shù)增強(qiáng)樸素貝葉斯網(wǎng)絡(luò)信用評(píng)估模型》[J].《系統(tǒng)工程理論與實(shí)踐》,2008年第6期.

[5]涂艷,王翔宇.基于機(jī)器學(xué)習(xí)的P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)預(yù)警研究——來(lái)自“拍拍貸”的借貸交易證據(jù)[J].統(tǒng)計(jì)與信息論壇,2018,33(6):75-82.

作者系蘭州財(cái)經(jīng)大學(xué)金融學(xué)院2019級(jí)碩士研究生

猜你喜歡
機(jī)器學(xué)習(xí)風(fēng)險(xiǎn)管理
探討風(fēng)險(xiǎn)管理在呼吸機(jī)維護(hù)與維修中的應(yīng)用
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
護(hù)理風(fēng)險(xiǎn)管理在冠狀動(dòng)脈介入治療中的應(yīng)用
本地化科技翻譯的風(fēng)險(xiǎn)管理
風(fēng)險(xiǎn)管理在工程建設(shè)中的應(yīng)用
新版GMP中質(zhì)量風(fēng)險(xiǎn)管理實(shí)施初探
津市市| 高雄县| 当涂县| 什邡市| 鹤山市| 大连市| 阜康市| 米易县| 乌审旗| 罗甸县| 徐州市| 营山县| 承德市| 韶山市| 崇礼县| 英山县| 嘉黎县| 连山| 辽阳市| 庆安县| 姜堰市| 淮南市| 桦川县| 吉林省| 西藏| 新丰县| 永新县| 望都县| 西城区| 福泉市| 瑞金市| 富平县| 芦山县| 怀仁县| 永定县| 盐津县| 蚌埠市| 郁南县| 镇沅| 鸡泽县| 石楼县|