国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的個(gè)人信用模型實(shí)證分析

2020-04-07 11:41:56張志明
宿州學(xué)院學(xué)報(bào) 2020年1期
關(guān)鍵詞:決策樹貝葉斯機(jī)器

張 暉,張志明

銅陵學(xué)院金融學(xué)院,安徽銅陵,244061

1 引 言

隨著信息技術(shù)的高速發(fā)展和互聯(lián)網(wǎng)的普及,征信領(lǐng)域發(fā)生了巨大的變化。大數(shù)據(jù)征信逐漸開始取代傳統(tǒng)征信模式。傳統(tǒng)征信數(shù)據(jù)來(lái)源單一,主要以傳統(tǒng)商業(yè)銀行的違約記錄作為征信依據(jù),覆蓋人群范圍較小,不能準(zhǔn)確判斷個(gè)人實(shí)際征信狀況。大數(shù)據(jù)征信以互聯(lián)網(wǎng)為平臺(tái),采用數(shù)據(jù)抓取和數(shù)據(jù)挖掘技術(shù),運(yùn)用合理的算法判斷個(gè)人或企業(yè)的信用狀況。其數(shù)據(jù)種類多樣,來(lái)源廣泛,具備綜合判斷的能力。近年來(lái),個(gè)人信用模型不斷完善,從早期的判別分析模型到今天的基于機(jī)器學(xué)習(xí)的個(gè)人征信模型層出不窮。本文通過(guò)P2P平臺(tái),在經(jīng)過(guò)用戶允許的情況下,采集1 000名用戶的個(gè)人信息,運(yùn)用四種不同的機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比,將數(shù)據(jù)按照7∶3比例劃分,70%數(shù)據(jù)用于訓(xùn)練,30%數(shù)據(jù)用于驗(yàn)證模型,分析在有限數(shù)據(jù)情況下不同算法的準(zhǔn)確度。

2 個(gè)人征信模型發(fā)展綜述

個(gè)人征信模型是以評(píng)分對(duì)象過(guò)去的社會(huì)經(jīng)歷和交易記錄為數(shù)據(jù),采用數(shù)理統(tǒng)計(jì)的方法,分析和判斷個(gè)人的信用狀況。1941年,Durand在其編寫的《消費(fèi)者分期付款信貸的風(fēng)險(xiǎn)因素》一書中,提出了數(shù)理統(tǒng)計(jì)模型用于消費(fèi)者授信決策的統(tǒng)計(jì)方法[1]。1958年,F(xiàn)air等利用判別分析法建立了第一個(gè)真正現(xiàn)代意義上的商業(yè)化信用評(píng)分系統(tǒng)FICO,其產(chǎn)品在商業(yè)金融領(lǐng)域迅速得到了廣泛應(yīng)用[2]。

計(jì)算機(jī)和信息技術(shù)的發(fā)展提高了個(gè)人征信模型的數(shù)據(jù)處理能力。在互聯(lián)網(wǎng)時(shí)代,個(gè)人征信的數(shù)據(jù)來(lái)源海量增長(zhǎng),機(jī)器學(xué)習(xí)的方法有助于處理大數(shù)據(jù)性質(zhì)的征信數(shù)據(jù)。基于機(jī)器學(xué)習(xí)的個(gè)人征信模型的核心是通過(guò)搜集和挖據(jù)互聯(lián)網(wǎng)以及其他平臺(tái)的數(shù)據(jù),把人類的經(jīng)驗(yàn)通過(guò)訓(xùn)練的方式讓機(jī)器進(jìn)行學(xué)習(xí),經(jīng)過(guò)反復(fù)檢驗(yàn)后得出正確率高的算法或模型,用于預(yù)測(cè)個(gè)人違約概率。

近幾十年來(lái),機(jī)器學(xué)習(xí)算法層出不窮。1967年,Cover和 Hart提出了 KNN算法(臨近算法)[3]。其全稱為K-Nearest Neighbor,意思是K個(gè)最靠近的鄰居。20世紀(jì)80年代,Breiman等人發(fā)明了決策樹算法,通過(guò)反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類或回歸,大大降低了計(jì)算量[4]。2001年,Breiman在決策樹的基礎(chǔ)上提出了隨機(jī)森林算法,利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練和預(yù)測(cè)[5]。樸素貝葉斯分類器(Naive Bayes Classifier,或NBC)發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)以及穩(wěn)定的分類效率。同時(shí)樸素貝葉斯模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單[6]。從理論上來(lái)看,樸素貝葉斯模型與其他方法相比誤差較小,但由于假設(shè)條件嚴(yán)格,現(xiàn)實(shí)中往往并不成立。1995年,Vapnik等人對(duì)線性分類器提出了另一種假設(shè),即支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM),其核心思想是尋找一個(gè)超平面把數(shù)據(jù)集的樣本空間劃分成不同的樣本用于分析判斷[7]。

綜上所述,可以看出當(dāng)前機(jī)器學(xué)習(xí)數(shù)據(jù)處理方法取得了諸多的成果,并運(yùn)用到了個(gè)人征信領(lǐng)域中。如美國(guó)金融科技公司ZestFinance的個(gè)人信用評(píng)分模型,從3 500個(gè)數(shù)據(jù)項(xiàng)提取70 000個(gè)變量,利用10個(gè)預(yù)測(cè)分析模型進(jìn)行訓(xùn)練和學(xué)習(xí),從而分析消費(fèi)者的信用狀況[8]。國(guó)內(nèi)支付寶旗下的芝麻信用以及騰訊金融、京東金融等互聯(lián)網(wǎng)金融平臺(tái)也都紛紛建立了自己的信用評(píng)分體系。

3 實(shí)證分析

3.1 數(shù)據(jù)描述

本文數(shù)據(jù)來(lái)源于P2P平臺(tái)貸款客戶資料,變量指標(biāo)共14項(xiàng),分別為“年齡”“職業(yè)”“收入”“婚姻狀況”“教育程度”“存款”“房產(chǎn)”“車輛”“網(wǎng)購(gòu)消費(fèi)金額”“債務(wù)余額”“違法記錄”“公積金”“支付寶年齡”“違約記錄”。

3.2 數(shù)據(jù)處理

上述征信數(shù)據(jù)中,既有文本型數(shù)據(jù),也有數(shù)字?jǐn)?shù)據(jù),原始數(shù)據(jù)無(wú)法直接適用于評(píng)估模型。同時(shí),數(shù)據(jù)中的連續(xù)變量可能造成數(shù)據(jù)之間不同的區(qū)分度,因此需要對(duì)連續(xù)變量做進(jìn)一步編碼,使得編碼后的數(shù)據(jù)能夠充分反映變量的變化,可以被模型充分學(xué)習(xí)。

年齡變量是一個(gè)連續(xù)型變量,其數(shù)值對(duì)客戶信用可能呈“U型”分布,即在年齡數(shù)值較小時(shí)或較大時(shí)對(duì)客戶可信度具有負(fù)作用,中間數(shù)值呈正作用[9]。因此直接使用數(shù)據(jù)作為判斷依據(jù),可能對(duì)線性模型的評(píng)估帶來(lái)障礙,需要對(duì)數(shù)據(jù)進(jìn)行重新編碼。針對(duì)年齡變量,以5歲為一個(gè)階段劃分區(qū)間,將年齡數(shù)據(jù)分為:(0,15]、(15,20]、(20,25]、(25,30]、(30,35]、(35,40]、(40,45]、(45,50]、(50,55]、(55,60]、(60,65]、(65,70],共12個(gè)區(qū)間。通過(guò)重新編碼,將年齡1維數(shù)據(jù)轉(zhuǎn)換成12維數(shù)據(jù),讓模型避免“U型”難點(diǎn)。經(jīng)過(guò)重新編碼后部分結(jié)果如表1所示。

表1 年齡變量數(shù)據(jù)處理

收入數(shù)據(jù)按照2017年個(gè)人所得稅征稅級(jí)距為梯度劃分。收入數(shù)據(jù)雖然不存在“U型”數(shù)據(jù)難點(diǎn),但是工資的額度增加不一定與信用評(píng)分呈線性關(guān)系,因此需要對(duì)工資進(jìn)行再編碼,使工資變換能夠被分類器學(xué)習(xí),并將收入映射到梯度區(qū)間。但是,由于其數(shù)值較大,可能會(huì)帶來(lái)因數(shù)據(jù)單位不一致帶來(lái)的參數(shù)變化,使得模型泛化能力較低,因此對(duì)其取以2為底的對(duì)數(shù)。一方面可以反映數(shù)據(jù)的變化趨勢(shì),另一方面可壓縮數(shù)值,避免因?yàn)閿?shù)據(jù)變化造成模型的效果差。與年齡不同的是,工資的每個(gè)階段都有實(shí)質(zhì)作用,因此需要記錄每個(gè)階段的數(shù)值,處理后部分結(jié)果如表2所示。

表2 收入變量數(shù)據(jù)處理

職業(yè)劃分按照商業(yè)銀行個(gè)人信用評(píng)估的一般標(biāo)準(zhǔn),劃分為無(wú)職業(yè)、個(gè)體、教師、醫(yī)護(hù)人員、職員、公務(wù)員和金融從業(yè)者。其中職員又可分為初級(jí)職員、中級(jí)職員和高級(jí)職員。在職員部分做進(jìn)一步編碼如表3所示。

表3 職業(yè)變量數(shù)據(jù)處理

網(wǎng)購(gòu)消費(fèi)金額一般數(shù)值較大,通過(guò)對(duì)其進(jìn)行標(biāo)準(zhǔn)化數(shù)據(jù)壓縮,將原始數(shù)據(jù)映射到[0,1]區(qū)間,避免因數(shù)據(jù)數(shù)值過(guò)大帶來(lái)的模型誤差,部分結(jié)果見(jiàn)表4。

表4 網(wǎng)購(gòu)消費(fèi)金額變量處理

存款數(shù)據(jù)數(shù)額較大,在處理上對(duì)其以2為底取對(duì)數(shù),進(jìn)行壓縮,部分結(jié)果如表5所示。

表5 存款數(shù)據(jù)變量處理

教育程度范圍大致可分為,小學(xué)、初中、高中、本科、碩士、博士。受教育程度是一種遞進(jìn)關(guān)系,適合使用連續(xù)編碼方式表示,處理結(jié)果如表6所示。

表6 教育程度變量處理

債務(wù)余額記錄可分為:房貸、車貸和其他貸款。原始數(shù)據(jù)中有很多數(shù)據(jù)表示不明,無(wú)法確認(rèn)具體貸款額度,所以在操作中將其標(biāo)記為是否有該項(xiàng)貸款,確認(rèn)貸款信息,部分結(jié)果如表7所示。

表7 債務(wù)余額變量處理

房產(chǎn)、車輛、公積金信息根據(jù)有無(wú)劃分為1、0,婚姻狀態(tài)未婚為0,已婚為1,離異為2;支付寶年限可以直接使用。

3.3 模型選擇

分別選用SVM、決策樹、隨機(jī)森林、樸素貝葉斯進(jìn)行個(gè)人信用數(shù)據(jù)分析,對(duì)比不同模型的分析結(jié)果。

SVM本質(zhì)上是針對(duì)線性可分情況進(jìn)行分析,通過(guò)設(shè)置軟間隔距離,保證了分類的泛化性,降低過(guò)擬合情況。當(dāng)分類特征是非線性時(shí),通過(guò)非線性映射算法,將低維非線性特征映射成高維空間乃至無(wú)窮維,使其線性可分。從而使得利用線性分割法完成對(duì)非線性空間的劃分[10]。方案使用高斯核函數(shù)將輸入向量映射到高緯空間,借助網(wǎng)格搜索法,調(diào)節(jié)“軟間隔”距離,選擇最優(yōu)訓(xùn)練模型。

決策樹主要包括ID3,C4.5和CART。信息增益是ID3的分裂標(biāo)準(zhǔn),它定義了一個(gè)特征的信息量:攜帶的信息越大,該特征在分裂篩選過(guò)程中權(quán)重越大。實(shí)踐發(fā)現(xiàn):以信息增益為分裂標(biāo)準(zhǔn)時(shí),分裂過(guò)程中偏向于選擇數(shù)據(jù)種類較多的分類屬性。C4.5將信息增益率作為劃分標(biāo)準(zhǔn),優(yōu)化了ID3弊端,但仍舊難以避免決策樹中結(jié)構(gòu)復(fù)雜、規(guī)模大、運(yùn)行效率低等問(wèn)題。CART使用GINI系數(shù),在前人的基礎(chǔ)上,降低了決策樹復(fù)雜性,提高決策樹算法執(zhí)行效率[11]。方案使用CART算法,以單個(gè)最小節(jié)點(diǎn)為2個(gè)樣本點(diǎn)為分割終止點(diǎn),對(duì)分類器進(jìn)行評(píng)價(jià)。

隨機(jī)森林從bootstrap重采樣法等角度,構(gòu)建集成決策樹可緩解上述問(wèn)題。本方案通過(guò)使用35棵CART決策樹,以GINI系數(shù)為分割依據(jù)。通過(guò)網(wǎng)格化自動(dòng)搜索,不同的分割深度、最小分割樣本點(diǎn)數(shù)等參數(shù),選擇最優(yōu)訓(xùn)練模型。

樸素貝葉斯方法是基于貝葉斯定理的一組有監(jiān)督學(xué)習(xí)算法,即“簡(jiǎn)單”地假設(shè)每對(duì)特征之間相互獨(dú)立。盡管其假設(shè)過(guò)于簡(jiǎn)單,在很多實(shí)際情況下,樸素貝葉斯工作得很好,特別是文檔分類和垃圾郵件過(guò)濾等數(shù)據(jù)量大,特征稀疏的分類環(huán)境。方案使用服從多項(xiàng)分布數(shù)據(jù)的樸素貝葉斯算法,將alpha平滑因子設(shè)置為1進(jìn)行分類。

采用Pyhton3.6.0軟件,根據(jù)常規(guī)搜索算法調(diào)整模型參數(shù),將數(shù)據(jù)隨機(jī)分成訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩份,比例為7∶3。訓(xùn)練數(shù)據(jù)用于訓(xùn)練模型,測(cè)試數(shù)據(jù)用于對(duì)模型進(jìn)行評(píng)價(jià)。評(píng)價(jià)指標(biāo)主要包括準(zhǔn)確率、召回率和F1值。準(zhǔn)確率是評(píng)估捕獲的成果中目標(biāo)成果所占得比例;召回率是從關(guān)注領(lǐng)域中召回目標(biāo)類別的比例;F1值則是綜合這二者指標(biāo)的評(píng)估指標(biāo),用于綜合反映整體的指標(biāo)。結(jié)果如表8所示。

表8 機(jī)器學(xué)習(xí)個(gè)人征信模型測(cè)試結(jié)果比較

結(jié)果顯示:(1)從準(zhǔn)確度來(lái)看,SVM和隨機(jī)森林算法的個(gè)人信用評(píng)價(jià)明顯好于樸素貝葉斯和決策樹,其對(duì)正常用戶分類的準(zhǔn)確率分別為90%和94%,對(duì)違約用戶分類的準(zhǔn)確率分別為92%和87%。將SVM與隨機(jī)森林對(duì)比發(fā)現(xiàn),SVM能更好地捕捉違約用戶,隨機(jī)森林可以更好地捕捉正常用戶。(2)從召回率來(lái)看,SVM對(duì)正常用戶的召回率最高達(dá)到97%,隨機(jī)森林對(duì)違約用戶的召回率最高達(dá)到84%,說(shuō)明上述機(jī)器學(xué)習(xí)的算法,能夠有效地將目標(biāo)用戶查全,避免遺漏。結(jié)合F1值來(lái)看,SVM和隨機(jī)森林算法在綜合評(píng)價(jià)方面同樣表現(xiàn)較好。

4 結(jié) 論

本文通過(guò)搜集和整理P2P平臺(tái)1 000名真實(shí)客戶信息,運(yùn)用4種不同的機(jī)器學(xué)習(xí)算法對(duì)客戶的信用進(jìn)行分類評(píng)價(jià),并對(duì)各算法結(jié)果進(jìn)行比較。結(jié)果表明:機(jī)器學(xué)習(xí)個(gè)人征信模型相比傳統(tǒng)個(gè)人征信評(píng)價(jià)在數(shù)據(jù)來(lái)源相同的情況下,可以避免主觀上的失誤,結(jié)果更加明確和直觀。從實(shí)際效果來(lái)看,SVM和隨機(jī)森林是當(dāng)前較為成熟的個(gè)人征信模型算法,準(zhǔn)確度和召回率較高,可適用于商業(yè)銀行、P2P、小貸公司等機(jī)構(gòu)進(jìn)行個(gè)人征信評(píng)價(jià)。機(jī)器學(xué)習(xí)算法在樣本數(shù)量較少、個(gè)人數(shù)據(jù)相對(duì)不足的情況下也能夠?qū)€(gè)人征信有著較為準(zhǔn)確的評(píng)價(jià)。在大數(shù)據(jù)背景下,未來(lái)個(gè)人征信數(shù)據(jù)將會(huì)更加充足,基于機(jī)器學(xué)習(xí)算法的個(gè)人征信模型可以進(jìn)一步優(yōu)化數(shù)據(jù)處理和算法,提高個(gè)人征信評(píng)模型的準(zhǔn)確度。

猜你喜歡
決策樹貝葉斯機(jī)器
機(jī)器狗
機(jī)器狗
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
未來(lái)機(jī)器城
電影(2018年8期)2018-09-21 08:00:06
貝葉斯公式及其應(yīng)用
基于決策樹的出租車乘客出行目的識(shí)別
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
電子器件(2015年5期)2015-12-29 08:43:15
無(wú)敵機(jī)器蛛
呼和浩特市| 三台县| 平顶山市| 焦作市| 武川县| 涟源市| 和静县| 长白| 安泽县| 济阳县| 冕宁县| 汝城县| 绥阳县| 合江县| 都江堰市| 古丈县| 上犹县| 敦化市| 财经| 清远市| 东阳市| 长治市| 自治县| 莆田市| 武山县| 博罗县| 论坛| 望奎县| 霍州市| 大邑县| 库伦旗| 翼城县| 太和县| 鹤峰县| 叶城县| 扬州市| 林州市| 巩义市| 临江市| 尉氏县| 安义县|