基于機(jī)器學(xué)習(xí)的個(gè)人信用模型實(shí)證分析

2020-04-07 11:41:56張志明

宿州學(xué)院學(xué)報(bào) 2020年1期

張暉，張志明

銅陵學(xué)院金融學(xué)院，安徽銅陵，244061

1 引言

隨著信息技術(shù)的高速發(fā)展和互聯(lián)網(wǎng)的普及，征信領(lǐng)域發(fā)生了巨大的變化。大數(shù)據(jù)征信逐漸開始取代傳統(tǒng)征信模式。傳統(tǒng)征信數(shù)據(jù)來(lái)源單一，主要以傳統(tǒng)商業(yè)銀行的違約記錄作為征信依據(jù)，覆蓋人群范圍較小，不能準(zhǔn)確判斷個(gè)人實(shí)際征信狀況。大數(shù)據(jù)征信以互聯(lián)網(wǎng)為平臺(tái)，采用數(shù)據(jù)抓取和數(shù)據(jù)挖掘技術(shù)，運(yùn)用合理的算法判斷個(gè)人或企業(yè)的信用狀況。其數(shù)據(jù)種類多樣，來(lái)源廣泛，具備綜合判斷的能力。近年來(lái)，個(gè)人信用模型不斷完善，從早期的判別分析模型到今天的基于機(jī)器學(xué)習(xí)的個(gè)人征信模型層出不窮。本文通過(guò)P2P平臺(tái)，在經(jīng)過(guò)用戶允許的情況下，采集1 000名用戶的個(gè)人信息，運(yùn)用四種不同的機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比，將數(shù)據(jù)按照7∶3比例劃分，70%數(shù)據(jù)用于訓(xùn)練，30%數(shù)據(jù)用于驗(yàn)證模型，分析在有限數(shù)據(jù)情況下不同算法的準(zhǔn)確度。

2 個(gè)人征信模型發(fā)展綜述

個(gè)人征信模型是以評(píng)分對(duì)象過(guò)去的社會(huì)經(jīng)歷和交易記錄為數(shù)據(jù)，采用數(shù)理統(tǒng)計(jì)的方法，分析和判斷個(gè)人的信用狀況。1941年，Durand在其編寫的《消費(fèi)者分期付款信貸的風(fēng)險(xiǎn)因素》一書中，提出了數(shù)理統(tǒng)計(jì)模型用于消費(fèi)者授信決策的統(tǒng)計(jì)方法［1］。1958年，F(xiàn)air等利用判別分析法建立了第一個(gè)真正現(xiàn)代意義上的商業(yè)化信用評(píng)分系統(tǒng)FICO，其產(chǎn)品在商業(yè)金融領(lǐng)域迅速得到了廣泛應(yīng)用［2］。

計(jì)算機(jī)和信息技術(shù)的發(fā)展提高了個(gè)人征信模型的數(shù)據(jù)處理能力。在互聯(lián)網(wǎng)時(shí)代，個(gè)人征信的數(shù)據(jù)來(lái)源海量增長(zhǎng)，機(jī)器學(xué)習(xí)的方法有助于處理大數(shù)據(jù)性質(zhì)的征信數(shù)據(jù)。基于機(jī)器學(xué)習(xí)的個(gè)人征信模型的核心是通過(guò)搜集和挖據(jù)互聯(lián)網(wǎng)以及其他平臺(tái)的數(shù)據(jù)，把人類的經(jīng)驗(yàn)通過(guò)訓(xùn)練的方式讓機(jī)器進(jìn)行學(xué)習(xí)，經(jīng)過(guò)反復(fù)檢驗(yàn)后得出正確率高的算法或模型，用于預(yù)測(cè)個(gè)人違約概率。

近幾十年來(lái)，機(jī)器學(xué)習(xí)算法層出不窮。1967年，Cover和 Hart提出了 KNN算法（臨近算法）［3］。其全稱為K-Nearest Neighbor，意思是K個(gè)最靠近的鄰居。20世紀(jì)80年代，Breiman等人發(fā)明了決策樹算法，通過(guò)反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類或回歸，大大降低了計(jì)算量［4］。2001年，Breiman在決策樹的基礎(chǔ)上提出了隨機(jī)森林算法，利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練和預(yù)測(cè)［5］。樸素貝葉斯分類器（Naive Bayes Classifier，或NBC）發(fā)源于古典數(shù)學(xué)理論，有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)以及穩(wěn)定的分類效率。同時(shí)樸素貝葉斯模型所需估計(jì)的參數(shù)很少，對(duì)缺失數(shù)據(jù)不太敏感，算法也比較簡(jiǎn)單［6］。從理論上來(lái)看，樸素貝葉斯模型與其他方法相比誤差較小，但由于假設(shè)條件嚴(yán)格，現(xiàn)實(shí)中往往并不成立。1995年，Vapnik等人對(duì)線性分類器提出了另一種假設(shè)，即支持向量機(jī)（Support Vector Machine，簡(jiǎn)稱SVM），其核心思想是尋找一個(gè)超平面把數(shù)據(jù)集的樣本空間劃分成不同的樣本用于分析判斷［7］。

綜上所述，可以看出當(dāng)前機(jī)器學(xué)習(xí)數(shù)據(jù)處理方法取得了諸多的成果，并運(yùn)用到了個(gè)人征信領(lǐng)域中。如美國(guó)金融科技公司ZestFinance的個(gè)人信用評(píng)分模型，從3 500個(gè)數(shù)據(jù)項(xiàng)提取70 000個(gè)變量，利用10個(gè)預(yù)測(cè)分析模型進(jìn)行訓(xùn)練和學(xué)習(xí)，從而分析消費(fèi)者的信用狀況［8］。國(guó)內(nèi)支付寶旗下的芝麻信用以及騰訊金融、京東金融等互聯(lián)網(wǎng)金融平臺(tái)也都紛紛建立了自己的信用評(píng)分體系。

3 實(shí)證分析

3.1 數(shù)據(jù)描述

本文數(shù)據(jù)來(lái)源于P2P平臺(tái)貸款客戶資料，變量指標(biāo)共14項(xiàng)，分別為“年齡”“職業(yè)”“收入”“婚姻狀況”“教育程度”“存款”“房產(chǎn)”“車輛”“網(wǎng)購(gòu)消費(fèi)金額”“債務(wù)余額”“違法記錄”“公積金”“支付寶年齡”“違約記錄”。

3.2 數(shù)據(jù)處理

上述征信數(shù)據(jù)中，既有文本型數(shù)據(jù)，也有數(shù)字?jǐn)?shù)據(jù)，原始數(shù)據(jù)無(wú)法直接適用于評(píng)估模型。同時(shí)，數(shù)據(jù)中的連續(xù)變量可能造成數(shù)據(jù)之間不同的區(qū)分度，因此需要對(duì)連續(xù)變量做進(jìn)一步編碼，使得編碼后的數(shù)據(jù)能夠充分反映變量的變化，可以被模型充分學(xué)習(xí)。

年齡變量是一個(gè)連續(xù)型變量，其數(shù)值對(duì)客戶信用可能呈“U型”分布，即在年齡數(shù)值較小時(shí)或較大時(shí)對(duì)客戶可信度具有負(fù)作用，中間數(shù)值呈正作用［9］。因此直接使用數(shù)據(jù)作為判斷依據(jù)，可能對(duì)線性模型的評(píng)估帶來(lái)障礙，需要對(duì)數(shù)據(jù)進(jìn)行重新編碼。針對(duì)年齡變量，以5歲為一個(gè)階段劃分區(qū)間，將年齡數(shù)據(jù)分為：（0，15］、（15，20］、（20，25］、（25，30］、（30，35］、（35，40］、（40，45］、（45，50］、（50，55］、（55，60］、（60，65］、（65，70］，共12個(gè)區(qū)間。通過(guò)重新編碼，將年齡1維數(shù)據(jù)轉(zhuǎn)換成12維數(shù)據(jù)，讓模型避免“U型”難點(diǎn)。經(jīng)過(guò)重新編碼后部分結(jié)果如表1所示。

表1 年齡變量數(shù)據(jù)處理

收入數(shù)據(jù)按照2017年個(gè)人所得稅征稅級(jí)距為梯度劃分。收入數(shù)據(jù)雖然不存在“U型”數(shù)據(jù)難點(diǎn)，但是工資的額度增加不一定與信用評(píng)分呈線性關(guān)系，因此需要對(duì)工資進(jìn)行再編碼，使工資變換能夠被分類器學(xué)習(xí)，并將收入映射到梯度區(qū)間。但是，由于其數(shù)值較大，可能會(huì)帶來(lái)因數(shù)據(jù)單位不一致帶來(lái)的參數(shù)變化，使得模型泛化能力較低，因此對(duì)其取以2為底的對(duì)數(shù)。一方面可以反映數(shù)據(jù)的變化趨勢(shì)，另一方面可壓縮數(shù)值，避免因?yàn)閿?shù)據(jù)變化造成模型的效果差。與年齡不同的是，工資的每個(gè)階段都有實(shí)質(zhì)作用，因此需要記錄每個(gè)階段的數(shù)值，處理后部分結(jié)果如表2所示。

表2 收入變量數(shù)據(jù)處理

職業(yè)劃分按照商業(yè)銀行個(gè)人信用評(píng)估的一般標(biāo)準(zhǔn)，劃分為無(wú)職業(yè)、個(gè)體、教師、醫(yī)護(hù)人員、職員、公務(wù)員和金融從業(yè)者。其中職員又可分為初級(jí)職員、中級(jí)職員和高級(jí)職員。在職員部分做進(jìn)一步編碼如表3所示。

表3 職業(yè)變量數(shù)據(jù)處理

網(wǎng)購(gòu)消費(fèi)金額一般數(shù)值較大，通過(guò)對(duì)其進(jìn)行標(biāo)準(zhǔn)化數(shù)據(jù)壓縮，將原始數(shù)據(jù)映射到［0，1］區(qū)間，避免因數(shù)據(jù)數(shù)值過(guò)大帶來(lái)的模型誤差，部分結(jié)果見(jiàn)表4。

表4 網(wǎng)購(gòu)消費(fèi)金額變量處理

存款數(shù)據(jù)數(shù)額較大，在處理上對(duì)其以2為底取對(duì)數(shù)，進(jìn)行壓縮，部分結(jié)果如表5所示。

表5 存款數(shù)據(jù)變量處理

教育程度范圍大致可分為，小學(xué)、初中、高中、本科、碩士、博士。受教育程度是一種遞進(jìn)關(guān)系，適合使用連續(xù)編碼方式表示，處理結(jié)果如表6所示。

表6 教育程度變量處理

債務(wù)余額記錄可分為：房貸、車貸和其他貸款。原始數(shù)據(jù)中有很多數(shù)據(jù)表示不明，無(wú)法確認(rèn)具體貸款額度，所以在操作中將其標(biāo)記為是否有該項(xiàng)貸款，確認(rèn)貸款信息，部分結(jié)果如表7所示。

表7 債務(wù)余額變量處理

房產(chǎn)、車輛、公積金信息根據(jù)有無(wú)劃分為1、0，婚姻狀態(tài)未婚為0，已婚為1，離異為2；支付寶年限可以直接使用。

3.3 模型選擇

分別選用SVM、決策樹、隨機(jī)森林、樸素貝葉斯進(jìn)行個(gè)人信用數(shù)據(jù)分析，對(duì)比不同模型的分析結(jié)果。

SVM本質(zhì)上是針對(duì)線性可分情況進(jìn)行分析，通過(guò)設(shè)置軟間隔距離，保證了分類的泛化性，降低過(guò)擬合情況。當(dāng)分類特征是非線性時(shí)，通過(guò)非線性映射算法，將低維非線性特征映射成高維空間乃至無(wú)窮維，使其線性可分。從而使得利用線性分割法完成對(duì)非線性空間的劃分［10］。方案使用高斯核函數(shù)將輸入向量映射到高緯空間，借助網(wǎng)格搜索法，調(diào)節(jié)“軟間隔”距離，選擇最優(yōu)訓(xùn)練模型。

決策樹主要包括ID3，C4.5和CART。信息增益是ID3的分裂標(biāo)準(zhǔn)，它定義了一個(gè)特征的信息量：攜帶的信息越大，該特征在分裂篩選過(guò)程中權(quán)重越大。實(shí)踐發(fā)現(xiàn)：以信息增益為分裂標(biāo)準(zhǔn)時(shí)，分裂過(guò)程中偏向于選擇數(shù)據(jù)種類較多的分類屬性。C4.5將信息增益率作為劃分標(biāo)準(zhǔn)，優(yōu)化了ID3弊端，但仍舊難以避免決策樹中結(jié)構(gòu)復(fù)雜、規(guī)模大、運(yùn)行效率低等問(wèn)題。CART使用GINI系數(shù)，在前人的基礎(chǔ)上，降低了決策樹復(fù)雜性，提高決策樹算法執(zhí)行效率［11］。方案使用CART算法，以單個(gè)最小節(jié)點(diǎn)為2個(gè)樣本點(diǎn)為分割終止點(diǎn)，對(duì)分類器進(jìn)行評(píng)價(jià)。

隨機(jī)森林從bootstrap重采樣法等角度，構(gòu)建集成決策樹可緩解上述問(wèn)題。本方案通過(guò)使用35棵CART決策樹，以GINI系數(shù)為分割依據(jù)。通過(guò)網(wǎng)格化自動(dòng)搜索，不同的分割深度、最小分割樣本點(diǎn)數(shù)等參數(shù)，選擇最優(yōu)訓(xùn)練模型。

樸素貝葉斯方法是基于貝葉斯定理的一組有監(jiān)督學(xué)習(xí)算法，即“簡(jiǎn)單”地假設(shè)每對(duì)特征之間相互獨(dú)立。盡管其假設(shè)過(guò)于簡(jiǎn)單，在很多實(shí)際情況下，樸素貝葉斯工作得很好，特別是文檔分類和垃圾郵件過(guò)濾等數(shù)據(jù)量大，特征稀疏的分類環(huán)境。方案使用服從多項(xiàng)分布數(shù)據(jù)的樸素貝葉斯算法，將alpha平滑因子設(shè)置為1進(jìn)行分類。

采用Pyhton3.6.0軟件，根據(jù)常規(guī)搜索算法調(diào)整模型參數(shù)，將數(shù)據(jù)隨機(jī)分成訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩份，比例為7∶3。訓(xùn)練數(shù)據(jù)用于訓(xùn)練模型，測(cè)試數(shù)據(jù)用于對(duì)模型進(jìn)行評(píng)價(jià)。評(píng)價(jià)指標(biāo)主要包括準(zhǔn)確率、召回率和F1值。準(zhǔn)確率是評(píng)估捕獲的成果中目標(biāo)成果所占得比例；召回率是從關(guān)注領(lǐng)域中召回目標(biāo)類別的比例；F1值則是綜合這二者指標(biāo)的評(píng)估指標(biāo)，用于綜合反映整體的指標(biāo)。結(jié)果如表8所示。

表8 機(jī)器學(xué)習(xí)個(gè)人征信模型測(cè)試結(jié)果比較

結(jié)果顯示：（1）從準(zhǔn)確度來(lái)看，SVM和隨機(jī)森林算法的個(gè)人信用評(píng)價(jià)明顯好于樸素貝葉斯和決策樹，其對(duì)正常用戶分類的準(zhǔn)確率分別為90%和94%，對(duì)違約用戶分類的準(zhǔn)確率分別為92%和87%。將SVM與隨機(jī)森林對(duì)比發(fā)現(xiàn)，SVM能更好地捕捉違約用戶，隨機(jī)森林可以更好地捕捉正常用戶。（2）從召回率來(lái)看，SVM對(duì)正常用戶的召回率最高達(dá)到97%，隨機(jī)森林對(duì)違約用戶的召回率最高達(dá)到84%，說(shuō)明上述機(jī)器學(xué)習(xí)的算法，能夠有效地將目標(biāo)用戶查全，避免遺漏。結(jié)合F1值來(lái)看，SVM和隨機(jī)森林算法在綜合評(píng)價(jià)方面同樣表現(xiàn)較好。

4 結(jié) 論

本文通過(guò)搜集和整理P2P平臺(tái)1 000名真實(shí)客戶信息，運(yùn)用4種不同的機(jī)器學(xué)習(xí)算法對(duì)客戶的信用進(jìn)行分類評(píng)價(jià)，并對(duì)各算法結(jié)果進(jìn)行比較。結(jié)果表明：機(jī)器學(xué)習(xí)個(gè)人征信模型相比傳統(tǒng)個(gè)人征信評(píng)價(jià)在數(shù)據(jù)來(lái)源相同的情況下，可以避免主觀上的失誤，結(jié)果更加明確和直觀。從實(shí)際效果來(lái)看，SVM和隨機(jī)森林是當(dāng)前較為成熟的個(gè)人征信模型算法，準(zhǔn)確度和召回率較高，可適用于商業(yè)銀行、P2P、小貸公司等機(jī)構(gòu)進(jìn)行個(gè)人征信評(píng)價(jià)。機(jī)器學(xué)習(xí)算法在樣本數(shù)量較少、個(gè)人數(shù)據(jù)相對(duì)不足的情況下也能夠?qū)€(gè)人征信有著較為準(zhǔn)確的評(píng)價(jià)。在大數(shù)據(jù)背景下，未來(lái)個(gè)人征信數(shù)據(jù)將會(huì)更加充足，基于機(jī)器學(xué)習(xí)算法的個(gè)人征信模型可以進(jìn)一步優(yōu)化數(shù)據(jù)處理和算法，提高個(gè)人征信評(píng)模型的準(zhǔn)確度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡