国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

銀行貸款客戶違約分析

2016-06-27 10:31:44白燕燕楚菲菲蘭州財經(jīng)大學(xué)統(tǒng)計學(xué)院甘肅蘭州730000
關(guān)鍵詞:歸類決策樹準確率

白燕燕,楚菲菲(蘭州財經(jīng)大學(xué)統(tǒng)計學(xué)院,甘肅 蘭州 730000)

?

銀行貸款客戶違約分析

白燕燕,楚菲菲
(蘭州財經(jīng)大學(xué)統(tǒng)計學(xué)院,甘肅蘭州730000)

[摘要]隨著互聯(lián)網(wǎng)金融的迅速發(fā)展,商業(yè)銀行更加重視貸款風(fēng)險管理,判別出違約客戶對風(fēng)險管理異常重要。所以,基于C5.0算法的決策樹模型應(yīng)用而生,根據(jù)銀行客戶數(shù)據(jù)建立決策樹模型,提出分類規(guī)則,對新出現(xiàn)申請貸款的客戶是否會違約進行分類預(yù)測。通過交叉驗證得到可靠穩(wěn)定的決策樹模型,并在決策樹模型的基礎(chǔ)上,加入成本矩陣,提高對違約客戶判別的準確率,達到局部最優(yōu),從而提高商業(yè)銀行對客戶的風(fēng)險管理和貸款控制。這既能滿足個人融資的需求,又能降低商業(yè)銀行的貸款風(fēng)險。

[關(guān)鍵詞]客戶違約率;決策樹;C5.0算法;成本矩陣;交叉驗證

金融作為現(xiàn)代經(jīng)濟的核心,其發(fā)展程度對經(jīng)濟有著直接的影響。而銀行貸款作為金融業(yè)的主要組成部分,對其風(fēng)險的管理情況關(guān)系著貸款的資產(chǎn)質(zhì)量,關(guān)系著金融業(yè)的發(fā)展。[1]因此,國家和企業(yè)必須重視對銀行貸款風(fēng)險的管理,及時發(fā)現(xiàn)銀行貸款存在的風(fēng)險,并采取多種有效的措施降低風(fēng)險,不斷提高銀行貸款的資產(chǎn)質(zhì)量,促進金融與經(jīng)濟的發(fā)展。

在互聯(lián)網(wǎng)金融迅速發(fā)展的今天,貸款機構(gòu)愈加重視對個人違約率的預(yù)測,從而降低客戶違約帶來的風(fēng)險,以下是對算法和相關(guān)概念的介紹。

一、C5.0算法

決策樹的實現(xiàn)算法有很多種,眾所周知的是C5.0算法。這種算法是C4.5算法的改進,它們都基于ID3算法之上。C5.0算法已經(jīng)變成了產(chǎn)生決策樹的標準算法,因為對于大多數(shù)問題,決策樹都是直接可用的。與其它的機器學(xué)習(xí)算法相比,基于C5.0算法的決策樹模型性能很好,而且容易理解。該算法的缺點相對較小,而且很容易避免。以下是它的優(yōu)缺點:

(一)選擇最優(yōu)分裂法

決策樹的首要問題是確定哪一個特征進行優(yōu)先分類,如果分類結(jié)果只有一個類,那么被認為樣本數(shù)據(jù)不含有信息量,對于分類標準,有不同的測量方法,而C5.0算法利用了信息熵的測量方法。借鑒了熱力學(xué)的概念,把信息中排除了冗余后的平均信息量稱為“信息熵”,一個樣本數(shù)據(jù)的熵所表示的是類值的混亂程度;[2]熵的最小值為0,表示樣本數(shù)據(jù)完全同類,當熵的值為1時,表示混亂程度達到最大,即每一類的概率相當。以下是信息熵的公式:

公式中S表示數(shù)據(jù)集,c表示類的個數(shù),Pi表示數(shù)據(jù)落在第i個類中的概率。例如,假設(shè)我們有一個包含分兩個類的數(shù)據(jù)集:分別為紅色(60%)、白色(40%),則熵的計算如下(本文出現(xiàn)的代碼都是R語言):

>-0.60 * log2(0.60)-0.40 * log2(0.40)

[1]0.9709506(上面代碼輸出結(jié)果)

我們研究以下數(shù)據(jù)只能分為兩類的情況,如果知道其中一類的概率是x,則另一類的概率是1-x,用curve()函數(shù)畫出在任何概率x情況下的熵。

>curve(-x*log2(x)-(1-x)*log2(1-x),col=2,xlab="x",ylab="Entropy",lwd=4)

優(yōu)點對于大多數(shù)的問題都是通用的擁有高度自動化學(xué)習(xí)過程,能夠處理數(shù)字特征、名義特征和缺失數(shù)據(jù)只提取最主要的特征沒有數(shù)學(xué)背景也可以理解模型結(jié)果(決策樹比較小時)比其它復(fù)雜模型更加高效缺點決策樹模型往往有較大的分裂層很容易產(chǎn)生過擬合或不擬合模型依賴于平行軸分割的關(guān)系很難被建模訓(xùn)練數(shù)據(jù)集發(fā)生小的改變可能會導(dǎo)致決策邏輯發(fā)生大的變化大的決策樹可能很難被解釋,而且有可能做出違反實際情況的決策

圖1 信息熵與類概率的關(guān)系

>-0.50 * log2(0.50)- 0.50 * log2(0.50)

[1]1

由此可知當x=0.5時,熵達到最大值1,即表示數(shù)據(jù)集的每一類的概率越接近,熵越大值越接近1,每一類的概率相差越大,熵越小值越接近0。

給定了純度度量方法,C5.0算法還必須確定用哪一個特證進行分類,將可能的特征加入到系統(tǒng)分類中再次進行分類,對于不同的分類結(jié)果計算熵的變化,這就是信息增益。在信息增益中,衡量標準是分類特征能夠為分類系統(tǒng)帶來信息量的多少,帶來的信息越多,該特征越重要。[3]對一個特征而言,系統(tǒng)有它和沒它時信息量將發(fā)生變化,而前后信息量即熵的差值就是這個特征給系統(tǒng)帶來的信息量。這個差值就是信息增益,對于特征F,信息增益是計算加入特征F前分類信息量S1與加入特征F后分類信息量S1的差值。公式如下:

InfoGain(F)=Entropy(S1)-Entropy(S2)

(二)修剪決策樹

決策樹根據(jù)分裂特性,可以無限期地增長,使得每個例子在訓(xùn)練數(shù)據(jù)上得到最好的分類。然而,如果形成的樹過大,過于具體化,則容易在訓(xùn)練數(shù)據(jù)上形成過擬合模型,修剪決策樹以減少它的大小,使其有更好的外推性。解決這個問題的方法有兩種,一種方法是設(shè)置一個閾值,樹增長的大小一旦達到這個閾值就停止其增長。[4]這被稱為先剪枝,避免了不必要的工作。但其缺點是無法知道該決策樹模型是否會錯過微小的但很重要的決策節(jié)點。另一種方法是后剪枝,即當形成的決策樹過大時,用基于在節(jié)點處的分類錯誤率的剪枝標準對其進行剪枝,使得決策樹達到一個合適的水平。這種方法可以發(fā)現(xiàn)所有重要的數(shù)據(jù)結(jié)構(gòu),使模型具有更好的外推性。

二、相關(guān)概念

交叉驗證(Cross Validation)是用來驗證分類器性能的一種驗證方法,基本思想是在某種意義下將原始數(shù)據(jù)進行分組,一部分作為訓(xùn)練集(train set),另一部分作為驗證集(validation set)。首先用訓(xùn)練集對分類器進行訓(xùn)練,再利用驗證集來測試模型,以此來評價分類器的性能。[5]常用的精度測試方法主要是交叉驗證,例如10折交叉驗證(10-fold cross validation),將數(shù)據(jù)分成十份,輪流將其中的九份做訓(xùn)練,一份做驗證,10次結(jié)果的均值作為對算法精度的估計,交叉驗證的目的是得到可靠穩(wěn)定的模型。

測量指標。評估模型的指標有Precision,Recall,F(xiàn)-Measure(F1),TP Rate,F(xiàn)P Rate為了容易理解這些指標,以信息檢索為例,在信息檢索中這些指標的界定。信息檢索、分類、識別、翻譯等領(lǐng)域兩個最基本指標是召回率(Recall Rate)和準確率(Precision Rate),概念公式:

召回率(Recall)=系統(tǒng)檢索到的相關(guān)文件/系統(tǒng)所有相關(guān)的文件總數(shù)

準確率(Precision)=系統(tǒng)檢索到的相關(guān)文件/系統(tǒng)所有檢索到的文件總數(shù)

圖2 準確率和召回率

準確率和召回率是互相影響的,理想情況下肯定是做到兩者都高,但是一般情況下準確率高、召回率就低,召回率低、準確率高,當然如果兩者都低,那就是什么地方出問題了。如果是做搜索,那就是保證召回的情況下提升準確率;如果做疾病監(jiān)測、反垃圾,則是保準確率的條件下,提升召回。所以,在兩者都要求高的情況下,可以用F1來衡量,F(xiàn)1公式如下:

TPR是True Positive Rate的縮寫,TPR代表能將正例分對的概率,F(xiàn)PR是False Positive Rate的縮寫,F(xiàn)PR代表將負例錯分為正例的概率,如下圖和公式:

圖3 TPR與FPR關(guān)系圖

三、實證研究

在2007—2008年的全球金融危機中,已經(jīng)凸顯出銀行業(yè)務(wù)透明度和精度的重要性。銀行客戶信用級別的有效性非常有限,越來越多的銀行收緊了信貸系統(tǒng),轉(zhuǎn)向機器學(xué)習(xí)來更準確地識別高風(fēng)險貸款。

(一)使用C5.0算法識別銀行貸款風(fēng)險

由于決策樹是以簡潔的語言來制定高精度統(tǒng)計模型,所以這種方法在銀行業(yè)中被廣泛使用。在許多國家,政府機構(gòu)嚴格監(jiān)控貸款操作流程,要求管理人員必須解釋為什么某個申請人貸款被拒絕而其他人被批準,這些信息對于那些信用等級偏低的人來說非常有用,有利于他們提高自己的信用等級。

自動化信用評分模型用于即刻批準電話和網(wǎng)絡(luò)申請信貸。我們采用C5.0決策樹模型,開發(fā)一個簡單的信貸審批調(diào)整模型,能減少錯誤所導(dǎo)致的金融機構(gòu)的損失。[2]

(二)數(shù)據(jù)說明

我們的信用模型背后的理念是導(dǎo)致申請人更高的違約風(fēng)險的確定因素。因此,我們需要獲得大量的過去銀行貸款和貸款是否違約的數(shù)據(jù)以及關(guān)于申請人的信息。這里所用的數(shù)據(jù)集包含了1 000個申請貸款人的信息。這些信息包括支票賬戶結(jié)余、儲蓄賬戶結(jié)余、貸款時間、信用級別、貸款目的、貸款金額等17個變量(金額以萬為單位)。這些信息說明了貸款特征和貸款申請人的特征,貸款是否違約作為一個類變量,我們需要做的是利用數(shù)據(jù)挖掘算法,預(yù)測申請人貸款違約情況。部分數(shù)據(jù)結(jié)構(gòu)如下:

>str(credit)

'data.frame':1000 obs. of 17 variables:

$ checking_balance : Factor w/ 4 levels "<0 RMB",">2 RMB",…

$ saving_balance : Factor w/ 4 levels "<1RMB",">10 RMB",…

$ months_loan_duration: int 6 48 12 ...

$ credit_history : Factor w/ 5 levels "critical","good",...$ purpose : factor w/ 6 levels "business","car",... $ amount : int 11.69 59.51 20.96 ...

$ default: Factor w/ 2 levels "yes","no",......

貸款金額amount范圍在2.5萬元-184.20萬元,貸款時間最短4個月,最長72個月。default變量有兩個類,yes表示違約,no表示不違約。銀行為了降低貸款損失的比例,希望客戶違約率越低越好,所以我們根據(jù)歷史貸款客戶信息建立模型,找出未來更可能違約的客戶,從而降低金融機構(gòu)的損失。

1.決策樹模型

將現(xiàn)有的1000條數(shù)據(jù)分成兩個部分:用訓(xùn)練數(shù)據(jù)集構(gòu)建決策樹模型,用測試數(shù)據(jù)集評估模型性能。將90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),10%的數(shù)據(jù)作為測試數(shù)據(jù)。數(shù)據(jù)的選取遵循隨機原則,在R軟件中實現(xiàn),形成決策樹模型如下:

括號里的數(shù)字是判別結(jié)果,如第一行(358/44)表示358個客戶被歸類為no,其中有44個申請人被錯誤的歸類為no,有314個歸類正確,也就是說,決策樹模型將314個客戶歸類正確,預(yù)測結(jié)果與實際相同。44個客戶歸類錯誤,與實際結(jié)果相反。

2.模型評估

用已經(jīng)形成的決策樹模型對訓(xùn)練數(shù)據(jù)做預(yù)測,創(chuàng)建一個類向量值,作為100條測試數(shù)據(jù)中default的預(yù)測值,將實際的default值與預(yù)測的default作對比,形成混淆矩陣,結(jié)果如下:

圖4 R軟件的預(yù)測結(jié)果

由混淆矩陣可知,100個測試貸款申請的記錄,模型預(yù)測的準確率為73%,其中57%是不違約,16%是違約;錯誤率為27%,將11%的不違約客戶誤歸類為違約,16%的違約客戶歸類為不違約。同時更要注意的是,該模型在32個違約客戶中,只找出了50%的違約客戶,這樣的錯誤將會使貸款機構(gòu)付出很高的代價。為了減少貸款機構(gòu)的損失,需要進一步改善模型。

(三)改善模型的性能

上面模型的錯誤率可能因過高而無法應(yīng)用于實時信用評分。事實上,我們不構(gòu)建模型,直接將100個測試數(shù)據(jù)歸類為“no default”,正確率也能達到68%,總體上并不比構(gòu)建的決策樹模型差多少,而且簡單易行,所以利用900個訓(xùn)練數(shù)據(jù)構(gòu)建高效的模型是個具有挑戰(zhàn)性的問題。

金融機構(gòu)對于違約客戶所持有的態(tài)度應(yīng)該是“寧肯錯殺,不肯放過”,所以構(gòu)建模型更應(yīng)該重視對違約人群歸類的準確率的提高。通過一些方法來調(diào)整C5.0算法,有助于提高模型的性能,使其更有利于貸款機構(gòu)。[6]

1.提高模型的精度

C5.0算法是在C4.5算法的基礎(chǔ)上增強了自適應(yīng)性,也就是在決策樹模型形成的過程中,使得每個樣本做最好的歸類。每一種數(shù)據(jù)挖掘算法都存在其自身的優(yōu)缺點,對于某個特定的問題,所謂“團結(jié)就是力量”,結(jié)合幾種算法,彌補各自的優(yōu)缺點,在很大程度上,可以提高分類器的精度。[2]

決策樹模型中,樹的規(guī)模過大容易過擬合,導(dǎo)致其外推性變差,所以對迭代次數(shù)加以限制,設(shè)置迭代上限為10(在R語言中設(shè)置C5.0函數(shù)的參數(shù)trial=10即可實現(xiàn)),控制樹的規(guī)模,用新的決策樹模型對測試數(shù)據(jù)進行預(yù)測,其結(jié)果如下:

圖5 改善模型后的預(yù)測結(jié)果

由此可知,模型的改進使得預(yù)測的總體誤差從27%降到23%,但是對違約率的預(yù)測精度仍然未得到改善,將47%(15/32)的違約客戶預(yù)測為不違約。為了提高對違約客戶預(yù)測的準確率,我們需要對模型做進一步的改善。

2.違約客戶分類精度的提高

給一個可能違約的貸款申請人貸款,需要付出高昂的代價,所以我們的目的是減少將違約客戶錯判為不違約的概率,降低銀行貸款客戶的違約率,這樣才能使銀行在高風(fēng)險的貸款中獲得的利益遠遠大于客戶違約所帶來的損失。在C5.0算法中加入成本矩陣,這里假設(shè)貸款違約的成本是錯過一個不違約客戶所帶來的收益的4倍,創(chuàng)建一個兩行兩列的成本矩陣作為參數(shù),在R中實現(xiàn),新的預(yù)測結(jié)果如下:

圖6 最終預(yù)測結(jié)果

由此可以看出,加入成本矩陣后,模型對違約客戶判斷的精確度大大提高,違約客戶的錯判率從47%降到19%(6/32)。結(jié)合兩次改善模型的各自優(yōu)點,從而增加不違約客戶分類的準確性,降低銀行貸款的風(fēng)險。

結(jié)論

傳統(tǒng)理念認為,“客戶就是上帝”;而客戶關(guān)系管理的理念認為,“客戶并非都是上帝”。統(tǒng)計資料表明,有相當一部分客戶是會讓銀行產(chǎn)生虧損的,如可能違約的客戶。所以說,銀行應(yīng)集中精力抓住最有價值的客戶,并且努力開拓這一客戶群,滿足已有高價值客戶的需求,挖掘?qū)儆谠摽蛻羧旱男碌匿N售機會。

穩(wěn)定的目標客戶群是任何一家商業(yè)銀行生存和發(fā)展的基礎(chǔ)。商業(yè)銀行利用數(shù)據(jù)挖掘等現(xiàn)代信息技術(shù)建立預(yù)測模型完成對客戶群的劃分后,應(yīng)針對不同產(chǎn)品或服務(wù)確定目標客戶群,達到對客戶信息集中收集、及時傳達、迅速反饋,服務(wù)客戶,使客戶滿意。商業(yè)銀行積累了大量的數(shù)據(jù)信息,包括對客戶的服務(wù)歷史和銷售記錄、關(guān)于客戶的人口統(tǒng)計學(xué)資料和生活方式的數(shù)據(jù)。商業(yè)銀行應(yīng)該充分有效的利用這些數(shù)據(jù)信息,將這些信息資源綜合起來建立起一個完整的客戶資料庫,這有助于銀行對客戶的管理。

參考文獻:

[1]王虹,方丹.商業(yè)銀行貸款風(fēng)險的探討[J].時代金融旬刊,2015,(29):118-119.

[2]Brett Lantz.Machine Learning with R[M].PACKT,2013.8.

[3]朱愛群.客戶關(guān)系管理與數(shù)據(jù)挖掘[M].北京:中國財政經(jīng)濟出版社,2001,(5):36-40.

[4]陳增圭.建立以客戶關(guān)系管理為核心的新型商業(yè)銀行[J].中國金融電腦,2003,(7):2-3.

[5]Tillett L ScoR.Banks Mine Customer Data.Intemet Week,2000,83l:45-46.

[6]Groth R.Data Mining:Building Competitive Advantages.Prentice-Hall Pit,1999.

[責(zé)任編輯:于明霞]

Bank Loan Customer Default Analysis

BAI Yan-yan,CHU Fei-fei
(Statistics Institute,Lanzhou University of Finance and Economics,Lanzhou 730000,China)

Abastract:With the rapid development of internet finance,commercial banks pay more attention to the loan risk management,so it is very important to identify the default customer. Meanwhile,the decision tree model based on C5.0 algorithm was presented. According to the bank customer data,decision tree model is established,and put forward the classification rules to predict whether the new loan customers will default to classify ones. Reliable and stable decision tree model is obtained by cross validation,and on the basis of the decision tree model,adding cost matrix,improve the accuracy of judgment for breach of contract customers,to achieve local optimization. So as to improve the management of commercial banks to the customer and the loan risk control. At the same time,it not only solve the problem of personal financing,but guarantee for individual entrepreneurs to provide funds,and reduce the loan risk of commercial banks.

Key words:customer default rate;decision tree;C5.0 algorithm;cost matrix;cross validation

[中圖分類號]F832.33

[文獻標識碼]A

[收稿日期]2016-03-08

[文章編號]1671-6671(2016)03-0024-07

[作者簡介]白燕燕(1991-),女,陜西延安人,蘭州財經(jīng)大學(xué)統(tǒng)計學(xué)院碩士研究生,研究方向:基于數(shù)據(jù)挖掘技術(shù)的客戶關(guān)系管理。楚菲菲(1990-),女,陜西西安人,蘭州財經(jīng)大學(xué)統(tǒng)計學(xué)院碩士研究生,研究方向:國民經(jīng)濟統(tǒng)計。

猜你喜歡
歸類決策樹準確率
電表“對”與“錯”歸類巧掌握
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
Happiness through honorable actions
決策樹和隨機森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
高速公路車牌識別標識站準確率驗證法
分式方程應(yīng)用題歸類解說
基于決策樹的出租車乘客出行目的識別
华容县| 黑河市| 聊城市| 乌拉特前旗| 离岛区| 靖西县| 遂溪县| 阜城县| 汶上县| 甘肃省| 明星| 灯塔市| 横峰县| 双柏县| 文山县| 革吉县| 博白县| 巴里| 探索| 曲阳县| 曲沃县| 延吉市| 南平市| 徐水县| 青龙| 渑池县| 怀仁县| 上林县| 隆化县| 罗田县| 东光县| 当阳市| 博湖县| 泰宁县| 贡嘎县| 朝阳县| 青岛市| 凤山县| 宜州市| 泉州市| 黄石市|