国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數據挖掘的信用卡信用評分模型

2014-08-16 01:08:38劉武成談超洪
網絡安全與數據管理 2014年9期
關鍵詞:申請人數據挖掘信用

劉武成,談超洪

(1.廣西大學 計算機與電子信息學院,廣西 南寧 530004;2.廣西經濟信息中心,廣西 南寧 530022)

銀行通常運用判斷技術或信用評分模型來決定是否接受一個客戶的信貸。大部分銀行采用基于性格、資金、抵押品、能力和條件的3C、4C或5C的判斷方法。而對于信用卡申請客戶,銀行使用信用評分或者預測模型對申請人分類。通常,線性判別分析和Bayes判別是兩種在信用評分模型中常用的統(tǒng)計方法[1-5]。但是,隨著信息與計算機技術的發(fā)展進步,數據挖掘的新技術不斷出現(xiàn)。SAS/EM和SPSS等數據挖掘工具不但提供經典的方法,同時支持一些新興的預測模型和分類技術,例如決策樹、神經網絡、支持向量機(SVM)和 K-臨近值(KNN)。參考文獻[5]將神經網絡模型應用在評估埃及銀行的信用風險并比較其與判別分析、概率值分析和邏輯回歸的傳統(tǒng)的技術的性能。一個大型的信用卡供應商每年必須評估數萬甚至數十萬的信用卡申請人。因此,統(tǒng)計方法和自動化申請程序是極其必要的。數據挖掘軟件的出現(xiàn),銀行可以方便地部署一個預測模型快速而有效地分析大量申請人。此外,一個好的信用風險記分模型可以讓管理者在處理信用卡申請人時做出更好更正確的決定。本文的目的是提出一種信用卡申請人分類的信用評分模型,以解決現(xiàn)有信用評分模型難以適應大規(guī)模非結構化數據、缺失數據等問題,并比較該信用評分模型下分類回歸樹模型 (CART)、Bayes模型和神經網絡模型(NN)在信用卡申請人分類預測中的性能表現(xiàn)。

1 信用評分模型的基本方法

信用評分模型能夠將信用卡申請人的未來行為以量化形式進行預測,使用指標形式清晰地表示,可判斷申請人在未來特定時間里違約的概率。信用評分模型廣泛使用在銀行、信貸公司、事業(yè)單位、保險公司等涉及消費信用的企事業(yè)單位中。信用評分模型運用先進的數據挖掘技術,通過對申請人的人口特征、信用歷史記錄和行為記錄等大量的數據進行系統(tǒng)分析,挖掘數據中蘊含的行為模式、信用特征,捕捉歷史信息和未來信用表現(xiàn)之間的關系,預測申請人今后的信用表現(xiàn)。

根據大量可量化的借貸人特征,信用評分模型評估借貸人的信貸風險,即貸款人按照承諾償還貸款的可能性。近些年來,信用評分模型已應用在住房貸款、小型企業(yè)貸款、保險的申請和續(xù)延[4]。信用評分是一個基于統(tǒng)計和數據挖掘研究方法的分類過程。一直以來,判別分析和線性回歸是構建信用評分模型應用最廣泛的技術。除此之外,還有 Logistic回歸、概率單元分析、非線性平滑方法特別是K-臨近值、最優(yōu)化理論、馬爾可夫模型、遞歸劃分、專家模式、遺傳算法和神經網絡等[1]。

構建一個信用評分模型,首先獲取申請人填寫的客戶相關資料和銀行提供的內部信息,接著對信息進行量化處理,然后選用合適的數據挖掘技術,建立信用評分模型,對數據進行分析驗證,得出客戶的綜合信用評分,設定一個合理的閾值,判定客戶是否通過申請。其流程如圖1所示。

圖1 信用評分模型流程圖

一個預測效果好的記分模型需要先前發(fā)放貸款或申請人的歷史數據和借貸人特征數據,實現(xiàn)對于信用良好的客戶評定的分數高,對于信用欠佳的客戶評定的分數低的結果。個人信用評分模型的重要指標可以大體劃分為人口、經濟、就業(yè)和行為指標[3]。人口指標包括年齡、性別、婚姻狀況、地址所屬區(qū)、民族、家屬人數。這些變量典型地反映了很多區(qū)域、性別和其他相關差異。經濟指標包括月收入、財產等;就業(yè)指標包括工作年數、工作技能等;行為指標包括借貸歷史、借貸數目等。模型的重要指標可以幫助更好地分辨好/壞的申請人[3]。舉例來說,年長女性的風險通常低于年輕男人。通常情況下,年紀越大,違約風險越低,已婚申請人的家屬的違約風險較高。

從文獻綜述和銀行信用卡中心部門的可靠數據可知,選用典型合適的指標構建模型,其具體描述如表1所示。

不同指標對信用評分的結果影響不同。因此,本文提出根據指標對結果的相關性,對指標進行量化處理時,將不同指標乘上相應的影響因子,以便達到更準確的評估判別結果。其表達式為:

其中,xi表示指標i量化后的值,δi表示歸一化后的指標i的影響因子,yi表示修改后的指標的量化值。δi=1,n表示指標數。本文中n為14。

表1 變量描述

2 基于數據挖掘的信用評分模型

2.1 三種數據挖掘方法

分類回歸樹是基于統(tǒng)計理論的非參數的數據挖掘技術[6]。基本思想是從根節(jié)點開始采用自頂向下的(Topdown)的遞歸方式在每個節(jié)點上對樣本集按照給定標準選擇分支屬性,然后按照相應屬性的所有可能取值向下建立分支、劃分訓練樣本,直到一個節(jié)點上的所有樣本都被劃分到同一個類,或者某一節(jié)點中的樣本數量低于給定值。其特點是在計算過程中充分利用二叉樹的結構,即根節(jié)點包含所有樣本,在一定的分割規(guī)則下根節(jié)點被分割為兩個子節(jié)點,這個過程又在子節(jié)點上重復進行,成為一個回歸過程,直至不可再分成為葉節(jié)點為止[7]。本文CART采用“二分法”進行分支,其定義公式為:

貝葉斯(Bayes)判別分析方法是在信用評分模型中常用的統(tǒng)計方法。其思路是基于貝葉斯統(tǒng)計理論,根據已獲得的每個類別的樣本數據,分析并總結客觀事物分類的規(guī)律性,建立合適的判別函數,然后利用判別函數對新樣本所屬類別進行判定[8-9]。貝葉斯定理求出某類總體的后驗概率,即:

其中,qj是 j類的先驗概率,pj(x)是 j類的概率密度分布函數,k為類的個數。

神經網絡是對人腦或自然的神經網絡結構和功能的抽象和模擬,主要由輸入層、隱藏層和輸出層構成[10]。BP神經網絡的主要思想是采用Delta學習規(guī)則的權值修正策略,把學習的過程分為兩個部分,一部分是信息流經過輸入和隱含層的處理計算輸出,另一部分是利用輸出層誤差估計前一層的誤差,再用這個誤差估計更前一層的誤差,形成誤差值的反向傳播,借此調節(jié)網絡的權重[11]。本文神經網絡隱藏側節(jié)點采用的激活函數為tansig函數,表達式如式(4)所示,輸出層及誒單的激活函數為logsig函數,表達式如式(5)所示。

2.2 基于數據挖掘的評分模型

SPSS是一款應用十分廣泛、集成度非常高的數據挖掘軟件,它提供了新興的預測模型和分類技術。本文選取分類回歸樹、Bayes判別和神經網絡3種方法,運用SPSS軟件平臺,分別構建分類回歸樹模型、Bayes判別模型和神經網絡模型。具體步驟如下。

(1)數據輸入和抽樣。去除缺失數據,把未缺失數據作為輸入數據。

(2)數據轉換。信用評分模型的目標變量是申請人狀態(tài),即一個具有接受或拒絕兩個狀態(tài)的二進制變量。即設置目標變量 Tar,如果 Tar=0,說明為壞客戶;反之Tar=1,說明為好客戶。

(3)數據屬性調整和設定目標變量。設置Tar為定位目標變量,其他為輸入變量。

(4)數據集劃分。把樣本集合劃分成訓練集和驗證集,訓練樣本數據用來訓練模型,驗證樣本數據用來驗證所建模型。樣本數據分為訓練樣本(65%)和驗證樣本(35%)。

(5)選擇數據挖掘方法。本文選取了分類回歸樹、Bayes判別和神經網絡3種方法。在模型中分別運用分類回歸樹、Bayes判別和神經網絡進行分析驗證。數據樣本包括3 610個信用卡申請人,其中 1 083(30%)申請人被拒絕,2 527(70%)申請人被接受。

首先,步驟(1)提出了缺失數據,這是由于海量信用信息數據中,直接剔除缺失數據,并不會影響數據集的整體完備性;步驟(2)及步驟(3)可以保證對非結構化數據的有效處理;步驟(4)可以保證利用已有數據進行分析訓練和后繼的驗證;步驟(5)可以驗證本信用評分模型在3種數據挖掘方法下的性能表現(xiàn),選出最適應本信用評分模型的數據挖掘方法。

3 實驗分析

在SPSS數據挖掘工具中構建分類回歸樹、Bayes判別和神經網絡的信用記分模型,并分別對應相應的模型輸出。將分類回歸樹、Bayes判別和神經網絡3個預測模型被連接到計算準確率的節(jié)點進行運算,同時利用評價節(jié)點進行分析評估。

3.1 分類回歸樹實驗結果

決策樹易于理解并且可以簡單轉換成一組規(guī)則;另外,它不需要先驗數據就可以對范疇數據和數值數據進行分類。由于具有以上優(yōu)勢,決策樹方法廣泛應用于分類與預測。分類回歸樹是剪枝過程中基于最小成本原則的決策樹方法。根據實驗結果分析,分類回歸樹模型有5條判別申請人狀態(tài)的規(guī)則,具體如表2所示。

表2 申請人狀態(tài)規(guī)則

3.2 Bayes判別模型實驗結果

Bayes判別是線性判別中一種常用的方法。考慮各樣本總體出現(xiàn)概率的大小,預報的后驗概率及錯判率的估計以及錯判之后造成的損失,是Bayes判別應用于分類與預測的主要優(yōu)勢。

在SPSS工具中,選擇Mahalanobis距離逐步判別法,得到兩個線性判別函數的變量和相關系數。應用Bayes判別模型,在預測申請人狀態(tài)里采用9個具有統(tǒng)計意義的輸入變量,分別是年齡、性別、就業(yè)、財產、貸款數目、住房、家庭電話、期限和貸款歷史。表3的兩個線性函數分別對應兩個申請人狀態(tài),每一列數字都是個判定方程對應自變量的系數。

通過計算樣本在每個判定函數的判定方程的值,根據最大函數值來確定該樣本所對應的級別。判別結果表明女性和年長的申請人被接受的可能性更大。更大數目和更長期限的申請人很可能被拒絕。

表3 Bayes判別結果

3.3 神經網絡模型實驗結果

采用一個具有以下特征的BP神經網絡模型進行信用卡申請人分類。

用于構建NN模型的13個輸入變量:年齡、性別、婚姻狀況、財產、工作、現(xiàn)居地址、住房、家庭電話、期限、借貸歷史、借貸數目、就業(yè),借貸次數。

只有兩個值的一個輸出變量:1表示接受,0表示拒絕。

神經網絡模型中,輸入層有29個神經元輸入,隱藏層有3個神經元輸入,輸出層有1個神經元輸出。在神經網絡中,沒有數學模型,只有重要性按降序排列的輸入變量如表4所示。最重要的5個變量是借貸歷史、期限、貸款數目、現(xiàn)居地址和現(xiàn)存貸款數目。

表4 神經網絡輸入變量

3.4 各模型之間的比較

在提出的模型條件下,為了選出預測申請人狀態(tài)效果最佳的模型,對3個模型進行比較。訓練樣本和驗證樣本的準確率如表5所示。相對而言,神經網絡模型預測準確率較高。

表5 各模型比較

數據挖掘技術包括傳統(tǒng)的統(tǒng)計方法以及在機器學習和人工智能方面的非傳統(tǒng)的方法。非傳統(tǒng)的統(tǒng)計學方法中最重要的兩種方法是神經網絡和決策樹。這兩種數據挖掘技術比傳統(tǒng)的統(tǒng)計學方法更能模擬復雜的非線性和交互作用。本次研究的重點是構建和評估包括邏輯回歸、決策樹和神經網絡在內的3種信用記分模型,旨在進行信用卡申請人分類。結果顯示神經網絡模型具有相對稍高的預測準確度。信用評分模型的性能取決于數據結構,數據質量和分類的目的。

成熟的技術,如 ANNS,MARS和 SVM,已經證明只能稍微提高分類準確率。在實際應用中,用戶更加喜歡相對容易理解的分類方式,如決策樹和邏輯回歸。隨著數據挖掘軟件的發(fā)展,越來越多的銀行已經意識到數據挖掘模型易于部署并能夠有效增加其競爭優(yōu)勢。

[1]VEDALA R,KUMAR B R.An application of Naive Bayes classification for credit scoring in e-lending platform[C].International Con-ference on Data Science& Engineering(ICDSE), 2012:81-84.

[2]MARIKKANNU P,SHANMUGAPRIYA K.Classification of customer credit data for intelligent credit scoring system using fuzzy setand MC2-Domain driven approach[C].Electronics Computer Technology(ICECT),2011(3):410-414.

[3]HE JING, Zhang Yanchun, Shi Yong, et al.Domaindriven classification based on multiple criteria and multiple Constraint-Level programming for intelligent credit scoring[C].IEEE Transactions on Knowledge and Data Engineering,2010,22(6):826-838.

[4]VOJTEK M,KOCENDA E.Creditscoringmethods[J].Czech Journal of Economics and Finance, 2006,56(3-7):152-167.

[5]ABDOU H, POINTON J, EL-MASRY A.Neural nets versus conventional techniques in credit scoring in Egyptian banking[J].Expert System with Applications, 2008(35):1275-1292.

[6]董連英,邢立新,潘軍,等.高光譜圖像植被類型的CART 決策樹分類[J].吉林大學學報,2013,1(1):83-89.

[7]馮少榮,肖文俊.基于樣本選取的決策樹改進算法[J].西南交通大學學報,2009,10(5):643-647.

[8]胡國勝.入侵檢測的 Fisher、Bayes和 MSE識別算法及等價性證明[J].計算機應用與軟件,2012(4):293-296.

[9]董文娟,朱遠鑫,萬明剛,等.沉積環(huán)境判別與分類的Bayes判別分析法[J].成都大學學報,2011,2(30):139-142.

[10]周玉,錢旭,張俊彩,等.可拓神經網絡研究綜述[J].計算機應用研究,2010,1(27):1-5.

[11]王燕妮,樊養(yǎng)余.改進BP神經網絡的自適應預測算法[J].計算機工程與應用,2010,46(17):23-26.

猜你喜歡
申請人數據挖掘信用
探討人工智能與數據挖掘發(fā)展趨勢
為食品安全加把“信用鎖”
7月1日起澳洲簽證費將全面漲價上調幅度達到5.4%
留學(2019年12期)2019-07-29 07:04:12
信用收縮是否結束
中國外匯(2019年9期)2019-07-13 05:46:30
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
信用中國網
信用消費有多爽?
一種含碘氫碘酸濃度的分析方法
一種黃霉素A組分的分離純化方法
一種基于Hadoop的大數據挖掘云服務及應用
呼伦贝尔市| 绩溪县| 洛川县| 巴塘县| 庆安县| 武威市| 亚东县| 长海县| 乌苏市| 东阳市| 九龙坡区| 上犹县| 文山县| 子洲县| 绥滨县| 五大连池市| 江北区| 南木林县| 时尚| 甘肃省| 垫江县| 龙岩市| 永嘉县| 玛沁县| 西充县| 嘉祥县| 绥滨县| 勐海县| 洪江市| 黄骅市| 松潘县| 友谊县| 武汉市| 张家口市| 佛山市| 都兰县| 三河市| 河北省| 沽源县| 贡觉县| 灵川县|