国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹技術(shù)的農(nóng)戶小額貸款客戶信用評(píng)價(jià)研究

2019-12-16 01:48:12尹水軍
電腦知識(shí)與技術(shù) 2019年29期
關(guān)鍵詞:小額貸款結(jié)點(diǎn)決策樹

尹水軍

摘要:本文研究決策樹分類算法lD3算法、C4.5算法和C5.0算法的基礎(chǔ)上,通過比較決策樹幾種分類算法優(yōu)劣,選擇決策樹C5.0算法作為本文模型建立方法,并以某市農(nóng)村商業(yè)銀行農(nóng)戶小額貸款數(shù)據(jù)信息作為數(shù)據(jù)源,利用SPSS Clemen—tinel2.0開發(fā)環(huán)境建立了決策樹分類模型,建立農(nóng)戶小額貸款客戶信用評(píng)價(jià)的決策樹模型,并以此幫助農(nóng)村商業(yè)銀行對(duì)農(nóng)戶信用進(jìn)行評(píng)價(jià),并作為貸款與否的依據(jù)。

關(guān)鍵詞:決策樹;C5.0 算法;農(nóng)戶小額貸款;信用評(píng)價(jià)

中圖分類號(hào):G642文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)29-0259-04

1概述

決策樹是一顆判定樹,其內(nèi)部結(jié)點(diǎn)代表屬性判定,分支結(jié)點(diǎn)代表測(cè)試結(jié)果,葉子節(jié)點(diǎn)就代表一個(gè)判定類別。決策樹根結(jié)點(diǎn)信息量最大,樹的中間結(jié)點(diǎn)是子樹中信息量最大的屬性,決策樹的葉子結(jié)點(diǎn)是樣本的類別值。決策樹的構(gòu)建是一種自上而下的歸納過程。從根結(jié)點(diǎn)開始,對(duì)每個(gè)非葉子結(jié)點(diǎn),找出其樣本集中的一個(gè)屬性對(duì)樣本集進(jìn)行測(cè)試。根據(jù)測(cè)試結(jié)果將樣本集劃分成子樣本集,子樣本集構(gòu)成新葉子結(jié)點(diǎn)。對(duì)新葉子結(jié)點(diǎn)再重復(fù)上述過程,直至達(dá)到終止條件。構(gòu)建決策樹的關(guān)鍵環(huán)節(jié)是測(cè)試屬性的選擇和樣本集的劃分。構(gòu)建決策樹后可對(duì)一個(gè)新數(shù)據(jù)對(duì)象進(jìn)行分析,從而判定出新數(shù)據(jù)對(duì)象的分類或取值。

決策樹的歸納學(xué)習(xí)是以樣本集為基礎(chǔ)的,它是從一組無序樣本集中形成分類規(guī)則。它采用遞歸方式,其內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較,根據(jù)判定并得到向下分支。最終得到判定結(jié)論。得出分類模型后,取一級(jí)已知類別的數(shù)據(jù)作為測(cè)試集,用測(cè)試集對(duì)分類模型進(jìn)行測(cè)試,以驗(yàn)證其分類判定的正確性。決策樹的生成過程可表示為如圖1所示,從圖中可知決策樹的生成過程是一種歸納一測(cè)試一演繹過程。由訓(xùn)練集得到?jīng)Q策樹分類模型的過程稱歸納一過程,用測(cè)試集對(duì)分類模型進(jìn)行測(cè)試稱為測(cè)試過程,再由分類模型對(duì)新數(shù)據(jù)進(jìn)行分類的過程稱為演繹過程。

2ID3算法

ID3算法是一種基于信息熵的由Quinlan提出的決策樹分類算法,其選擇測(cè)試屬性的依據(jù)是信息熵的下降速度,屬性集的取值確定其類別。在構(gòu)造決策樹時(shí),ID3算法屬性選取的標(biāo)準(zhǔn)是信息增益,決策結(jié)點(diǎn)即為信息增益最大的屬性,并由其建立分支,再遞歸調(diào)用該方法建立決策樹結(jié)點(diǎn)的子分支,直至僅包含同一類別的數(shù)據(jù)為止。

5農(nóng)村商業(yè)銀行農(nóng)戶小額貸款分類模型實(shí)證研究

5.1實(shí)證背景

農(nóng)戶小額貸款作為金融服務(wù)的新品種,自推出以來,就受到了廣大農(nóng)民的歡迎,這一新的支農(nóng)金融政策為支持農(nóng)村經(jīng)濟(jì)發(fā)展發(fā)揮了積極的作用。然而農(nóng)戶小額信用貸款向農(nóng)戶發(fā)放的無抵押擔(dān)保的貸款,是農(nóng)村商業(yè)銀行的一種創(chuàng)新產(chǎn)品。因?yàn)檗r(nóng)戶小額貸款對(duì)象經(jīng)營的是一受自然災(zāi)害的制約因素較多的產(chǎn)業(yè),導(dǎo)致各類逃債的現(xiàn)象極為頻繁,不良貸款比率遠(yuǎn)遠(yuǎn)高于其他商業(yè)貸款,嚴(yán)重?fù)p害了農(nóng)村商業(yè)銀行的利益。因此,農(nóng)村商業(yè)銀行業(yè)面臨的緊迫問題是建立一個(gè)信用風(fēng)險(xiǎn)評(píng)估模型,以降低農(nóng)村商業(yè)銀行的信貸風(fēng)險(xiǎn)。將決策樹技術(shù)應(yīng)用于信用評(píng)估模型,能在一定程度上解決農(nóng)村商業(yè)銀行所面臨的信貸風(fēng)險(xiǎn)問題。本文以某市農(nóng)村商業(yè)銀行農(nóng)戶小額貸款數(shù)據(jù)信息作為數(shù)據(jù)源,利用決策樹分類模型C5.0對(duì)農(nóng)戶信用進(jìn)行評(píng)價(jià),并作為貸款與否的依據(jù)。

5.2商業(yè)理解

在實(shí)施決策樹分類前,要充分理解項(xiàng)目的商業(yè)目標(biāo)。如果不能完全理解項(xiàng)目的商業(yè)目標(biāo),挖掘模型很難符合要求。在項(xiàng)目進(jìn)行需求分析之后才能進(jìn)行項(xiàng)目實(shí)施,以此確定系統(tǒng)的目標(biāo)。決策樹挖掘模型能將重要信息從海量數(shù)據(jù)中挖掘出來,以形成有用的規(guī)劃,且這些重要信息人們很難通過觀察直接得到,我們可以利用形成的規(guī)則來確定信用等級(jí)。本文以農(nóng)戶小額貸款相關(guān)數(shù)據(jù)信息作為測(cè)試對(duì)象,運(yùn)用決策樹模型形成的規(guī)則幫助農(nóng)村商業(yè)銀行進(jìn)行信用評(píng)估,分析出農(nóng)戶哪些因素能確定農(nóng)戶信用等級(jí),并用決策樹的形式顯示其相關(guān)程度,為農(nóng)村商業(yè)銀行發(fā)放小額貸款提供參考依據(jù)。

5.3數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備是決策樹分類過程中一個(gè)重要環(huán)節(jié),數(shù)據(jù)準(zhǔn)備階段工作量巨大。要對(duì)某一項(xiàng)目建立決策樹分類模型,必須有明確的數(shù)據(jù)樣本,因此,準(zhǔn)備數(shù)據(jù)就成為決策樹分類過程中的非常關(guān)鍵的一個(gè)過程。本文的數(shù)據(jù)信息主要來自某市農(nóng)村商業(yè)銀行2018年貸款農(nóng)戶的基本數(shù)據(jù)信息,考慮到運(yùn)用決策樹分類技術(shù)是為了發(fā)現(xiàn)規(guī)律,作為農(nóng)戶借款的依據(jù),我們只選取了與農(nóng)戶信用評(píng)價(jià)關(guān)系較為密切的信息。我們總共選取采集了600份農(nóng)戶信息,其中300份農(nóng)戶信息作為訓(xùn)練數(shù)據(jù)集。另外300份農(nóng)戶信息作為測(cè)試數(shù)據(jù)集。

5.4數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理的目的是得到完整的、含噪聲相對(duì)較少的、基本一致的數(shù)據(jù)。本文的農(nóng)戶數(shù)據(jù)信息雖然都來自某農(nóng)村商業(yè)銀行網(wǎng)點(diǎn),但由于農(nóng)戶辦理小額貸款全部分散到全市所有的營業(yè)網(wǎng)點(diǎn),其數(shù)據(jù)的填寫并非完全一致,將其整理成為一個(gè)數(shù)據(jù)庫,有很多與本研究主題無關(guān)的信息需要將其摒棄,有的數(shù)據(jù)還需要進(jìn)行離散化處理。

(1)數(shù)據(jù)變換。在農(nóng)戶信息數(shù)據(jù)庫中,保存著農(nóng)戶基本信息,其中有很大一部分是與此次挖掘任務(wù)無關(guān)的信息,如果用全部數(shù)據(jù)進(jìn)行挖掘,就會(huì)使此次挖掘變得毫無意義。本文中的農(nóng)戶數(shù)據(jù)信息來自不同的營業(yè)網(wǎng)點(diǎn),部分?jǐn)?shù)據(jù)缺失且不規(guī)范,將來這些來自多數(shù)據(jù)源的數(shù)據(jù)按統(tǒng)一格式組合、連接到一起,將部分不規(guī)范的數(shù)據(jù)屬性作規(guī)范化變換。例如。本次挖掘模型中,為方便運(yùn)用挖掘模型,將家庭收入來源分為三類,包括純種植業(yè)收入、種植業(yè)和畜牧業(yè)、種植業(yè)、畜牧業(yè)及其他混合。

(2)數(shù)據(jù)清洗。采集來的數(shù)據(jù)中有些是與個(gè)人信用風(fēng)險(xiǎn)評(píng)估無關(guān)的數(shù)據(jù),在數(shù)據(jù)模型建立前必須將其清除,否則將會(huì)影響建模效果。本次采集的數(shù)據(jù)中。由于源數(shù)據(jù)庫包含的個(gè)人客戶信息很多,有些信息與個(gè)人信用評(píng)估基本沒有關(guān)系,如農(nóng)戶姓名、農(nóng)戶身份證號(hào)碼、農(nóng)戶住址、電話號(hào)碼、合同編號(hào)、合同簽訂日期、貸款調(diào)查人、貸后管理人員等,為簡單起見,直接從數(shù)據(jù)庫中刪除。

(3)噪聲處理。在最終形成的農(nóng)戶信息數(shù)據(jù)庫中,有一些數(shù)據(jù)明顯偏離預(yù)期挖掘目標(biāo)、不符合建模要求、空缺值多、有誤差等數(shù)據(jù)進(jìn)行清洗或修正,最終得到比較整齊的、干凈的、可以用作數(shù)據(jù)處理和模型開發(fā)的數(shù)據(jù)樣本。

此次采集到的數(shù)據(jù),通過多次使用上述方法進(jìn)行數(shù)據(jù)預(yù)處理,從農(nóng)戶小額貸款處理數(shù)據(jù)集形成一個(gè)適合數(shù)據(jù)挖掘任務(wù)的數(shù)據(jù)集,這個(gè)集合共有600條記錄,每條記錄由9個(gè)字段組成,分別為:農(nóng)戶年齡、婚姻狀況、供養(yǎng)人數(shù)、家庭年平均收入、月還款收入比、家庭收入來源、貸款用途、貸款數(shù)額以及信用記錄。

5.5基于C5.0算法的數(shù)據(jù)挖掘模型的構(gòu)造

將決策樹預(yù)測(cè)應(yīng)用于農(nóng)村商業(yè)銀行農(nóng)戶貸款信用評(píng)價(jià)問題中,基本思路是:根據(jù)已知的樣本與原始信用評(píng)價(jià)狀態(tài),運(yùn)用決策樹發(fā)現(xiàn)貸款人信用狀態(tài)與其某些特征屬性之間的關(guān)系,使得能夠通過對(duì)農(nóng)戶這些屬性的具體觀察值,對(duì)貸款人的信用情況進(jìn)行預(yù)測(cè)。

本文采用SPSS Clementine12.0數(shù)據(jù)挖掘分析工具設(shè)計(jì)數(shù)據(jù)挖掘流,得出挖掘結(jié)果并進(jìn)行針對(duì)主題的分析,根據(jù)需求所建立的數(shù)據(jù)挖掘模型如圖2所示。

5.6挖掘模型執(zhí)行結(jié)果分析

由于挖掘模型選擇月還款收入百分比作為根結(jié)點(diǎn),所以能夠得出的結(jié)論是:農(nóng)村商業(yè)銀行要對(duì)農(nóng)戶進(jìn)行貸款前的評(píng)估,農(nóng)戶的月還款與收入的比值與農(nóng)戶的評(píng)估等級(jí)關(guān)系最為密切,其次是家庭收人來源,這兩項(xiàng)對(duì)評(píng)估農(nóng)戶的信用等級(jí)最為重要,再是家庭平均收入和貸款數(shù)額,這兩項(xiàng)也與評(píng)估農(nóng)戶的信用等級(jí)關(guān)系較為密切。此外,婚姻狀況、信用記錄、供養(yǎng)人數(shù)、貸款用途也與評(píng)估農(nóng)戶信用等級(jí)存在一定的關(guān)系。農(nóng)戶年齡雖然與評(píng)估農(nóng)戶的信用等級(jí)相關(guān),但相關(guān)度還是非常弱的。通過用決策樹C5.0算法對(duì)農(nóng)戶信息數(shù)據(jù)庫的實(shí)證分析,筆者認(rèn)為農(nóng)村商業(yè)銀行對(duì)農(nóng)戶進(jìn)行貸款,不應(yīng)重點(diǎn)關(guān)注貸款數(shù)額的多少,更應(yīng)該注重農(nóng)戶的還款能力,而且應(yīng)重點(diǎn)關(guān)注農(nóng)戶的家庭收入來源。

對(duì)上面的分析結(jié)果,也可以用圖表形式瀏覽挖掘模型,當(dāng)選擇數(shù)據(jù)模型頁面中的Viewer頁面后,得到一個(gè)瀏覽窗口,該瀏覽窗口是用一個(gè)形象的樹來描述模型,且能清晰地看到各個(gè)結(jié)點(diǎn)中客戶信用評(píng)級(jí)情況,如圖3所示。

5.7C5.0模型準(zhǔn)確度分析

前面用C5.0決策樹模型分析農(nóng)戶信用評(píng)估信息后,利用訓(xùn)練集的數(shù)據(jù)來檢驗(yàn)此模型的準(zhǔn)確程度,執(zhí)行測(cè)試集的數(shù)據(jù)流的分析結(jié)果如圖4所示。

從C5.0模型準(zhǔn)確度分析圖可以看出,用C5.0算法對(duì)農(nóng)戶訓(xùn)練數(shù)據(jù)集進(jìn)行測(cè)試后,此模型的準(zhǔn)確率為86%,數(shù)據(jù)總數(shù)為300個(gè),錯(cuò)誤率為14%。從準(zhǔn)確率來看,用此模型對(duì)農(nóng)戶數(shù)據(jù)信息進(jìn)行分析的結(jié)果具有一定的參考價(jià)值。但不意味著具有這些特征的農(nóng)戶都只要放心貸款,因?yàn)榇四P偷腻e(cuò)誤率為14%,略為偏高,分析其原因可能是本次挖掘所得到的數(shù)據(jù)并不全面,或是農(nóng)戶數(shù)據(jù)信息過少引起的,或者是所選擇的數(shù)據(jù)中還有一部分?jǐn)?shù)據(jù)也具有一定的噪聲。因此,在數(shù)據(jù)挖掘中,應(yīng)該選擇農(nóng)戶數(shù)據(jù)信息足夠多,且必須花大量工作來進(jìn)行數(shù)據(jù)預(yù)處理,這樣才能為農(nóng)村商業(yè)銀行提供有真正意義的貸款依據(jù)。

6結(jié)束語

農(nóng)戶小額貸款是面向農(nóng)村的金融服務(wù)的新品種,是國家高度重視“三農(nóng)”問題的真實(shí)體現(xiàn)。如何充分地利用農(nóng)戶信息,把數(shù)據(jù)挖掘技術(shù)應(yīng)用到小額貸款業(yè)務(wù)是當(dāng)前農(nóng)村商業(yè)銀行面臨的一個(gè)非常重要的現(xiàn)實(shí)問題,通過建立新的評(píng)價(jià)模型輔助信貸管理人員進(jìn)行決策與分析,真正地做到對(duì)農(nóng)戶進(jìn)行客觀的評(píng)價(jià),從而達(dá)到加強(qiáng)信貸能力減少不良貸款產(chǎn)生的目的。

猜你喜歡
小額貸款結(jié)點(diǎn)決策樹
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
加強(qiáng)小額貸款企業(yè)風(fēng)險(xiǎn)管理與防范探討
活力(2019年22期)2019-03-16 12:47:12
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
基于決策樹的出租車乘客出行目的識(shí)別
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
山東:首次表彰小額貸款先進(jìn) 累計(jì)發(fā)放貸款471.16億元
商戶小額貸款信用評(píng)價(jià)模型
基于Raspberry PI為結(jié)點(diǎn)的天氣云測(cè)量網(wǎng)絡(luò)實(shí)現(xiàn)
河北省小額貸款公司發(fā)展情況表
宝兴县| 乃东县| 黄骅市| 原平市| 台北市| 叙永县| 宁国市| 米林县| 潜山县| 太保市| 嘉兴市| 临泽县| 垦利县| 夏河县| 九江县| 鹿邑县| 黄梅县| 会东县| 兖州市| 江北区| 修文县| 龙川县| 百色市| 兴仁县| 陆川县| 兰溪市| 满城县| 巴楚县| 浪卡子县| 开平市| 舒城县| 班戈县| 永清县| 汝阳县| 双流县| 兴和县| 安福县| 东兰县| 龙州县| 宜君县| 屯门区|