張宇敬 杜光輝
摘 要:貸款風(fēng)險(xiǎn)是金融風(fēng)險(xiǎn)中的主要類型,本文運(yùn)用數(shù)據(jù)挖掘中的決策樹技術(shù)對(duì)貸款風(fēng)險(xiǎn)進(jìn)行預(yù)警,應(yīng)用規(guī)則對(duì)客戶貸款信息進(jìn)行預(yù)測,為貸款部門提供決策依據(jù)。
關(guān)鍵詞:決策樹技術(shù);貸款風(fēng)險(xiǎn)
1 引言
貸款風(fēng)險(xiǎn)是金融風(fēng)險(xiǎn)中主要類型,我國銀行貸款風(fēng)險(xiǎn)管理比較側(cè)重于風(fēng)險(xiǎn)控制的事中和事后的控制,而忽視了風(fēng)險(xiǎn)的事前管理。國外大量的成功案例表明,銀行在其經(jīng)營過程中,一些風(fēng)險(xiǎn)隱患發(fā)現(xiàn)的越早,對(duì)銀行造成的損失就越小。因此,加強(qiáng)銀行貸款風(fēng)險(xiǎn)水平的事前監(jiān)測管理,使用數(shù)據(jù)挖掘技術(shù)——決策樹算法對(duì)以往海量貸款數(shù)據(jù)進(jìn)行分析,建立和完善貸款風(fēng)險(xiǎn)預(yù)警體系,提高自身的風(fēng)險(xiǎn)管理水平,是銀行持續(xù)發(fā)展的重要基礎(chǔ)。
2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining)目的就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)。
決策樹算法是數(shù)據(jù)挖掘十大經(jīng)典算法之一。決策樹提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。一般情況下都是由上而下根據(jù)相應(yīng)規(guī)則生成而來的,每個(gè)決策或者是每個(gè)事件所產(chǎn)生的后果都有可能引起兩種或兩種以上的的事件,導(dǎo)致不同的結(jié)果。把這種決策分支以圖形的方式畫出來很像一顆倒立的樹結(jié)構(gòu),所以稱為決策樹。
決策樹包含許多不同的算法,其中最典型的算法有ID3,C4.5,CART等。ID3算法由Qullan在1986年提出的,該算法以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納分類,假設(shè)用X代表當(dāng)前樣本集,用Q候選屬性集,候選屬性集中所有屬性皆為離散型,或數(shù)值屬性事先經(jīng)過預(yù)處理轉(zhuǎn)化成離散型。ID3算法描述如下。
ID3算法的核心思想就是在決策樹中的各層分支節(jié)點(diǎn)上利用信息增益的方式選擇屬性。在樹的每個(gè)節(jié)點(diǎn)上,將具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測試屬性,使用獲得的屬性對(duì)樣本集進(jìn)行樣本劃分之后,系統(tǒng)的信息量是最小的。并確保找到一棵簡單的樹。
設(shè)S是s個(gè)數(shù)據(jù)樣本的集合,假定類標(biāo)號(hào)屬性具有m個(gè)不同值,定義m個(gè)不同類Ci(i=1,2,3...m)。設(shè)Si是類Ci的樣本數(shù)。對(duì)于一個(gè)給定的樣本分類所需的期望信息由下式給出:
其中pi是任意樣本屬于Ci的概率,一般可用Si/S來估計(jì)。
設(shè)Sij是子集Sj中類Ci的樣本數(shù)。根據(jù)由上劃分子集的熵(熵是對(duì)事件對(duì)應(yīng)的屬性的不確定性的度量)由下式給出:
其中熵值越小,子集劃分的純度就越高。
由期望信息和熵值可以得到相應(yīng)的信息增益值。對(duì)于在分支上將獲得的信息增益可以由下面的公式得到:
ID3算法計(jì)算每個(gè)屬性的信息增益。并選取具有最高增益的屬性作為給定集合的測試屬性,對(duì)被選擇的測試屬性創(chuàng)建一個(gè)節(jié)點(diǎn),并以該屬性標(biāo)記,對(duì)于該屬性的每個(gè)值創(chuàng)建一個(gè)分支,并據(jù)此劃分樣本。
3 利用ID3算法構(gòu)造貸款風(fēng)險(xiǎn)預(yù)警分析決策樹
3.1 構(gòu)造決策樹
抽取某銀行的貸款數(shù)據(jù),對(duì)個(gè)人貸款風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)定。為了簡化僅選用4個(gè)屬性值進(jìn)行確定,各屬性值的取值范圍是這樣定義的。
年齡(age):1、2、3,(1代表20-31歲,2代表32-41歲,3代表42-50歲);年收入(income):0,1,2,3(0代表100000以下,1代表100000-200000,2代表200000-300000,3代表300000以上);存款(poist):0、1、2、3(0代表100000以下,1代表100000-200000,2代表200000-300000,3代表300000以上);負(fù)債(debt):0,1(0代表有負(fù)債,1代表沒有負(fù)債);風(fēng)險(xiǎn)等級(jí)(grade):A、B、C、D、E(A代表正常類,B代表關(guān)注類,C代表次級(jí)類,D代表可疑類,E代表損失類)。表3-1給出了訓(xùn)練樣本集。
最終需要分類的屬性為grade,它有5個(gè)不同的值A(chǔ)、B、C、D、E,A有3個(gè)樣本,B有2個(gè)樣本,C有2個(gè)樣本,D有1個(gè)樣本,E有2個(gè)樣本。
為計(jì)算每個(gè)屬性的信息增益,首先給定樣本grade分類所需的期望信息:
age屬性的樣本值分布如下所示:
最后計(jì)算的信息增益是:
類似的,可以計(jì)算:
Gain(income)=0.964 Gain(poist)=0.482 Gain(debt)=0.243
由于age在四個(gè)屬性中具有最高的信息增益,所以首先被選為測試屬性,并據(jù)此建根節(jié)點(diǎn)。用age標(biāo)記,并對(duì)于每個(gè)屬性值,引出一個(gè)分支,數(shù)據(jù)集被分為兩個(gè)子集age結(jié)點(diǎn)及其分支如圖3.1所示。
類似的可以計(jì)算出各個(gè)屬性的信息增益,經(jīng)過計(jì)算可得知信息增益最大的為收入income,其次為存款poist,最后才是負(fù)債debt。按照上述過程最終可得出決策樹如圖3.2所示。
3.2 提取分類規(guī)則
4 結(jié)論
數(shù)據(jù)挖掘技術(shù)作為一個(gè)新興的研究領(lǐng)域,其應(yīng)用前景及發(fā)展空間十分廣闊,特別對(duì)于銀行業(yè)及銀行監(jiān)管部門。銀行貸款風(fēng)險(xiǎn)預(yù)警系統(tǒng)有助于強(qiáng)化貸前管理。通過對(duì)貸款客戶的收入、存款和負(fù)債情況分析,確定是否有風(fēng)險(xiǎn)。如果客戶屬于較重風(fēng)險(xiǎn)和嚴(yán)重風(fēng)險(xiǎn)的等級(jí),則不予貸款;如果屬于中度風(fēng)險(xiǎn)的等級(jí),則需在貸款后加強(qiáng)貸后管理,關(guān)注客戶經(jīng)營情況,及時(shí)回收;如果屬于輕微風(fēng)險(xiǎn)和無風(fēng)險(xiǎn),則貸款給客戶。
[參考文獻(xiàn)]
[1]郭景峰,等.決策樹算法的并行性研究.計(jì)算機(jī)工程,2002.
[2]賀向明.《企業(yè)財(cái)務(wù)危機(jī)預(yù)警模型基于商業(yè)銀行信貸決策的分析》.2004.
[3]楊明,張載鴻.決策樹學(xué)習(xí)算法ID3的研究.微機(jī)發(fā)展,2002.