姜志旺+張紅霞+鄭艷娟+張宇敬+曹瑩
摘 要:隨著小額貸款規(guī)模的擴(kuò)大化和貸款對(duì)象的多樣化,金融機(jī)構(gòu)的信貸風(fēng)險(xiǎn)問(wèn)題日益突出,成為制約其發(fā)展的短板。本文運(yùn)用數(shù)據(jù)挖掘技術(shù),對(duì)金融機(jī)構(gòu)信用風(fēng)險(xiǎn)評(píng)估進(jìn)行研究,通過(guò)建立決策樹(shù)、神經(jīng)網(wǎng)絡(luò)模型,從建模結(jié)果、預(yù)測(cè)精度等方面對(duì)信貸風(fēng)險(xiǎn)進(jìn)行比較分析,為其提供決策依據(jù),從而提高風(fēng)險(xiǎn)防范能力。
關(guān)鍵詞:數(shù)據(jù)挖掘 決策樹(shù) 神經(jīng)網(wǎng)絡(luò) 小貸公司
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2014)01(c)-0032-02
隨著河北省農(nóng)戶、個(gè)體工商戶以及中小企業(yè)的迅猛發(fā)展,信貸需求和融資需求成為這些企業(yè)的發(fā)展和壯大所必須的金融服務(wù),于是小額貸款公司應(yīng)運(yùn)而生,在一定程度上解決了對(duì)這些“三農(nóng)”及中小企業(yè)的融資難題,也對(duì)河北省金融市場(chǎng)進(jìn)行了有益的補(bǔ)充。但是小額貸款公司在其業(yè)務(wù)發(fā)展和借貸過(guò)程中,由于其貸款融資業(yè)務(wù)的單一性,貸款客戶的違約信用風(fēng)險(xiǎn)成為小額貸款公司目前需要面對(duì)的主要風(fēng)險(xiǎn)。而小額貸款公司當(dāng)前由于對(duì)信用風(fēng)險(xiǎn)缺乏科學(xué)合理有針對(duì)性的準(zhǔn)確評(píng)估,導(dǎo)致企業(yè)在運(yùn)營(yíng)和發(fā)展中缺乏相應(yīng)的有效的風(fēng)險(xiǎn)預(yù)警控制能力。本文通過(guò)旨在對(duì)小額貸款公司的信用風(fēng)險(xiǎn)評(píng)估方法進(jìn)行研究,提出通過(guò)建立信用模型進(jìn)行風(fēng)險(xiǎn)預(yù)警的機(jī)制,以點(diǎn)帶面,以期達(dá)到借鑒作用。
1 數(shù)據(jù)挖掘技術(shù)
1.1 決策樹(shù)方法
決策樹(shù)學(xué)習(xí)[1]是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí),是一種逼近離散函數(shù)值的算法,從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)表示形式的分類規(guī)則,然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析,本質(zhì)上決策樹(shù)是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程。
C4.5算法是一種典型的決策樹(shù)算法,首先定義“分裂信息”,可以表示成:
(1)
然后,增益率被定義為:
(2)
1.2 神經(jīng)網(wǎng)絡(luò)方法
分層網(wǎng)絡(luò)[2]是一種經(jīng)典的神經(jīng)網(wǎng)絡(luò)算法,將一個(gè)神經(jīng)元網(wǎng)絡(luò)模型中的所有神經(jīng)元按功能分為若干層,一般有輸入層、中間層和輸入層,各層順序連接,第I層的輸入僅與第I-1層輸出相關(guān)聯(lián)。在神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)過(guò)程就是訓(xùn)練過(guò)程,即將數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)的過(guò)程中,按照一定的方式去調(diào)整神經(jīng)元之間的連接權(quán)值,使得網(wǎng)絡(luò)能將數(shù)據(jù)集的內(nèi)涵以連接權(quán)值矩陣的方式存儲(chǔ)起來(lái),從而使得在網(wǎng)絡(luò)接受輸入時(shí),可以給出恰當(dāng)?shù)妮敵觥?/p>
2 信用模型建立與分析
通過(guò)對(duì)大量既存的客戶基本信息和相關(guān)資料的數(shù)據(jù)透視分析,分別建立決策樹(shù)模型和神經(jīng)網(wǎng)絡(luò)模型,并基于這兩個(gè)模型進(jìn)行評(píng)估和分析對(duì)比,以尋求一個(gè)最適用的模型。再根據(jù)該模型對(duì)客戶的信用風(fēng)險(xiǎn)進(jìn)行分析與評(píng)分,從而得到了“好客戶、壞客戶”的最有效的區(qū)分辦法和途徑,以便為企業(yè)提供科學(xué)的輔助決策。
2.1 數(shù)據(jù)預(yù)處理[3]
本文實(shí)驗(yàn)所使用的數(shù)據(jù)是某銀行提供給的業(yè)務(wù)數(shù)據(jù),來(lái)源于信用業(yè)務(wù)系統(tǒng)。通過(guò)對(duì)數(shù)據(jù)的分析和處理,最后進(jìn)入建模的輸入變量為:Break強(qiáng)制??ㄓ涗?、Age年齡、Mar婚否、Sex性別、Bad_debt呆賬記錄、Card_num卡數(shù)、Per持卡人月平均收入、Spend持卡人月平均開(kāi)銷、Card_spend信用卡月平均刷卡金額Rufuse拒往記錄、Reture退票記錄、Frequence刷卡頻率,目標(biāo)變量定義為Cus客戶類別,把樣本中的信用卡持有者分成兩類:類標(biāo)號(hào)為“1”的“好”客戶和類標(biāo)號(hào)為“2的差”客戶。在建立了最佳模型后,在申請(qǐng)后,如果模型判斷為“好”客戶,則批準(zhǔn),如果判斷為“差”客戶,則拒絕。
2.2 模型建立
(1)決策樹(shù)模型。
(2)神經(jīng)網(wǎng)絡(luò)模型。
這里利用平衡抽樣后分割的訓(xùn)練數(shù)據(jù)集進(jìn)行神經(jīng)網(wǎng)絡(luò)建模,采用Neural Net節(jié)點(diǎn)進(jìn)行建模分析。在構(gòu)建模型的過(guò)程中,采用快速建模的方式,設(shè)置預(yù)防過(guò)度訓(xùn)練參數(shù)以及取消隨機(jī)數(shù)種子,終止條件為默認(rèn)。網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如下:輸入層有14個(gè)神經(jīng)元,隱藏層有3個(gè)神經(jīng)元,輸出層有1個(gè)神經(jīng)元。另外,輸入變量對(duì)模型的相對(duì)重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通過(guò)對(duì)測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試,對(duì)模型進(jìn)行評(píng)估。
按照上述步驟構(gòu)建模型后,生成神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)是一種“黑箱”技術(shù),根據(jù)樣本不斷調(diào)整模型,提高預(yù)測(cè)準(zhǔn)確率,因而預(yù)測(cè)結(jié)果缺乏解釋力,而且不能觀察到中間的學(xué)習(xí)過(guò)程。此次所建模型的估計(jì)精確性達(dá)到71.429%。
3 結(jié)論
(1)在建模之前,進(jìn)行數(shù)據(jù)的預(yù)處理是很必要的。
(2)在對(duì)數(shù)據(jù)進(jìn)行探索性分析中發(fā)現(xiàn),它行強(qiáng)制??ㄓ涗洠˙reak)、逾期情況屬性分析(Over)、呆賬記錄屬性分析(Bad_debt)、借款余額(Loan)及退票記錄(Return)這五個(gè)變量對(duì)預(yù)測(cè)一個(gè)客戶的“好”“壞”有顯著影響。
(3)通過(guò)使用Clementine對(duì)本文采用的客戶數(shù)據(jù)的建模分析,從建模結(jié)果、預(yù)測(cè)精度、運(yùn)行效率及理論這四個(gè)角度考慮,得出決策樹(shù)方法最優(yōu)。
參考文獻(xiàn)
[1] 張?jiān)茲徚?數(shù)據(jù)挖掘原理與技術(shù)[M].電子工業(yè)出版社,2004.
[2] (意)Paolo Giudici.實(shí)用數(shù)據(jù)挖掘[M].袁方,王煜,王麗娟,譯.電子工業(yè)出版社,2003.
[3] (美)林·C.托馬斯,戴維·B.埃德?tīng)柭瑔碳{森·N.克魯克.信用評(píng)分及其應(yīng)用[M].王曉蕾,石慶焱,吳曉惠,譯.中國(guó)金融出版社,2005.endprint
摘 要:隨著小額貸款規(guī)模的擴(kuò)大化和貸款對(duì)象的多樣化,金融機(jī)構(gòu)的信貸風(fēng)險(xiǎn)問(wèn)題日益突出,成為制約其發(fā)展的短板。本文運(yùn)用數(shù)據(jù)挖掘技術(shù),對(duì)金融機(jī)構(gòu)信用風(fēng)險(xiǎn)評(píng)估進(jìn)行研究,通過(guò)建立決策樹(shù)、神經(jīng)網(wǎng)絡(luò)模型,從建模結(jié)果、預(yù)測(cè)精度等方面對(duì)信貸風(fēng)險(xiǎn)進(jìn)行比較分析,為其提供決策依據(jù),從而提高風(fēng)險(xiǎn)防范能力。
關(guān)鍵詞:數(shù)據(jù)挖掘 決策樹(shù) 神經(jīng)網(wǎng)絡(luò) 小貸公司
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2014)01(c)-0032-02
隨著河北省農(nóng)戶、個(gè)體工商戶以及中小企業(yè)的迅猛發(fā)展,信貸需求和融資需求成為這些企業(yè)的發(fā)展和壯大所必須的金融服務(wù),于是小額貸款公司應(yīng)運(yùn)而生,在一定程度上解決了對(duì)這些“三農(nóng)”及中小企業(yè)的融資難題,也對(duì)河北省金融市場(chǎng)進(jìn)行了有益的補(bǔ)充。但是小額貸款公司在其業(yè)務(wù)發(fā)展和借貸過(guò)程中,由于其貸款融資業(yè)務(wù)的單一性,貸款客戶的違約信用風(fēng)險(xiǎn)成為小額貸款公司目前需要面對(duì)的主要風(fēng)險(xiǎn)。而小額貸款公司當(dāng)前由于對(duì)信用風(fēng)險(xiǎn)缺乏科學(xué)合理有針對(duì)性的準(zhǔn)確評(píng)估,導(dǎo)致企業(yè)在運(yùn)營(yíng)和發(fā)展中缺乏相應(yīng)的有效的風(fēng)險(xiǎn)預(yù)警控制能力。本文通過(guò)旨在對(duì)小額貸款公司的信用風(fēng)險(xiǎn)評(píng)估方法進(jìn)行研究,提出通過(guò)建立信用模型進(jìn)行風(fēng)險(xiǎn)預(yù)警的機(jī)制,以點(diǎn)帶面,以期達(dá)到借鑒作用。
1 數(shù)據(jù)挖掘技術(shù)
1.1 決策樹(shù)方法
決策樹(shù)學(xué)習(xí)[1]是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí),是一種逼近離散函數(shù)值的算法,從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)表示形式的分類規(guī)則,然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析,本質(zhì)上決策樹(shù)是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程。
C4.5算法是一種典型的決策樹(shù)算法,首先定義“分裂信息”,可以表示成:
(1)
然后,增益率被定義為:
(2)
1.2 神經(jīng)網(wǎng)絡(luò)方法
分層網(wǎng)絡(luò)[2]是一種經(jīng)典的神經(jīng)網(wǎng)絡(luò)算法,將一個(gè)神經(jīng)元網(wǎng)絡(luò)模型中的所有神經(jīng)元按功能分為若干層,一般有輸入層、中間層和輸入層,各層順序連接,第I層的輸入僅與第I-1層輸出相關(guān)聯(lián)。在神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)過(guò)程就是訓(xùn)練過(guò)程,即將數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)的過(guò)程中,按照一定的方式去調(diào)整神經(jīng)元之間的連接權(quán)值,使得網(wǎng)絡(luò)能將數(shù)據(jù)集的內(nèi)涵以連接權(quán)值矩陣的方式存儲(chǔ)起來(lái),從而使得在網(wǎng)絡(luò)接受輸入時(shí),可以給出恰當(dāng)?shù)妮敵觥?/p>
2 信用模型建立與分析
通過(guò)對(duì)大量既存的客戶基本信息和相關(guān)資料的數(shù)據(jù)透視分析,分別建立決策樹(shù)模型和神經(jīng)網(wǎng)絡(luò)模型,并基于這兩個(gè)模型進(jìn)行評(píng)估和分析對(duì)比,以尋求一個(gè)最適用的模型。再根據(jù)該模型對(duì)客戶的信用風(fēng)險(xiǎn)進(jìn)行分析與評(píng)分,從而得到了“好客戶、壞客戶”的最有效的區(qū)分辦法和途徑,以便為企業(yè)提供科學(xué)的輔助決策。
2.1 數(shù)據(jù)預(yù)處理[3]
本文實(shí)驗(yàn)所使用的數(shù)據(jù)是某銀行提供給的業(yè)務(wù)數(shù)據(jù),來(lái)源于信用業(yè)務(wù)系統(tǒng)。通過(guò)對(duì)數(shù)據(jù)的分析和處理,最后進(jìn)入建模的輸入變量為:Break強(qiáng)制停卡記錄、Age年齡、Mar婚否、Sex性別、Bad_debt呆賬記錄、Card_num卡數(shù)、Per持卡人月平均收入、Spend持卡人月平均開(kāi)銷、Card_spend信用卡月平均刷卡金額Rufuse拒往記錄、Reture退票記錄、Frequence刷卡頻率,目標(biāo)變量定義為Cus客戶類別,把樣本中的信用卡持有者分成兩類:類標(biāo)號(hào)為“1”的“好”客戶和類標(biāo)號(hào)為“2的差”客戶。在建立了最佳模型后,在申請(qǐng)后,如果模型判斷為“好”客戶,則批準(zhǔn),如果判斷為“差”客戶,則拒絕。
2.2 模型建立
(1)決策樹(shù)模型。
(2)神經(jīng)網(wǎng)絡(luò)模型。
這里利用平衡抽樣后分割的訓(xùn)練數(shù)據(jù)集進(jìn)行神經(jīng)網(wǎng)絡(luò)建模,采用Neural Net節(jié)點(diǎn)進(jìn)行建模分析。在構(gòu)建模型的過(guò)程中,采用快速建模的方式,設(shè)置預(yù)防過(guò)度訓(xùn)練參數(shù)以及取消隨機(jī)數(shù)種子,終止條件為默認(rèn)。網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如下:輸入層有14個(gè)神經(jīng)元,隱藏層有3個(gè)神經(jīng)元,輸出層有1個(gè)神經(jīng)元。另外,輸入變量對(duì)模型的相對(duì)重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通過(guò)對(duì)測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試,對(duì)模型進(jìn)行評(píng)估。
按照上述步驟構(gòu)建模型后,生成神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)是一種“黑箱”技術(shù),根據(jù)樣本不斷調(diào)整模型,提高預(yù)測(cè)準(zhǔn)確率,因而預(yù)測(cè)結(jié)果缺乏解釋力,而且不能觀察到中間的學(xué)習(xí)過(guò)程。此次所建模型的估計(jì)精確性達(dá)到71.429%。
3 結(jié)論
(1)在建模之前,進(jìn)行數(shù)據(jù)的預(yù)處理是很必要的。
(2)在對(duì)數(shù)據(jù)進(jìn)行探索性分析中發(fā)現(xiàn),它行強(qiáng)制??ㄓ涗洠˙reak)、逾期情況屬性分析(Over)、呆賬記錄屬性分析(Bad_debt)、借款余額(Loan)及退票記錄(Return)這五個(gè)變量對(duì)預(yù)測(cè)一個(gè)客戶的“好”“壞”有顯著影響。
(3)通過(guò)使用Clementine對(duì)本文采用的客戶數(shù)據(jù)的建模分析,從建模結(jié)果、預(yù)測(cè)精度、運(yùn)行效率及理論這四個(gè)角度考慮,得出決策樹(shù)方法最優(yōu)。
參考文獻(xiàn)
[1] 張?jiān)茲?,龔?數(shù)據(jù)挖掘原理與技術(shù)[M].電子工業(yè)出版社,2004.
[2] (意)Paolo Giudici.實(shí)用數(shù)據(jù)挖掘[M].袁方,王煜,王麗娟,譯.電子工業(yè)出版社,2003.
[3] (美)林·C.托馬斯,戴維·B.埃德?tīng)柭瑔碳{森·N.克魯克.信用評(píng)分及其應(yīng)用[M].王曉蕾,石慶焱,吳曉惠,譯.中國(guó)金融出版社,2005.endprint
摘 要:隨著小額貸款規(guī)模的擴(kuò)大化和貸款對(duì)象的多樣化,金融機(jī)構(gòu)的信貸風(fēng)險(xiǎn)問(wèn)題日益突出,成為制約其發(fā)展的短板。本文運(yùn)用數(shù)據(jù)挖掘技術(shù),對(duì)金融機(jī)構(gòu)信用風(fēng)險(xiǎn)評(píng)估進(jìn)行研究,通過(guò)建立決策樹(shù)、神經(jīng)網(wǎng)絡(luò)模型,從建模結(jié)果、預(yù)測(cè)精度等方面對(duì)信貸風(fēng)險(xiǎn)進(jìn)行比較分析,為其提供決策依據(jù),從而提高風(fēng)險(xiǎn)防范能力。
關(guān)鍵詞:數(shù)據(jù)挖掘 決策樹(shù) 神經(jīng)網(wǎng)絡(luò) 小貸公司
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2014)01(c)-0032-02
隨著河北省農(nóng)戶、個(gè)體工商戶以及中小企業(yè)的迅猛發(fā)展,信貸需求和融資需求成為這些企業(yè)的發(fā)展和壯大所必須的金融服務(wù),于是小額貸款公司應(yīng)運(yùn)而生,在一定程度上解決了對(duì)這些“三農(nóng)”及中小企業(yè)的融資難題,也對(duì)河北省金融市場(chǎng)進(jìn)行了有益的補(bǔ)充。但是小額貸款公司在其業(yè)務(wù)發(fā)展和借貸過(guò)程中,由于其貸款融資業(yè)務(wù)的單一性,貸款客戶的違約信用風(fēng)險(xiǎn)成為小額貸款公司目前需要面對(duì)的主要風(fēng)險(xiǎn)。而小額貸款公司當(dāng)前由于對(duì)信用風(fēng)險(xiǎn)缺乏科學(xué)合理有針對(duì)性的準(zhǔn)確評(píng)估,導(dǎo)致企業(yè)在運(yùn)營(yíng)和發(fā)展中缺乏相應(yīng)的有效的風(fēng)險(xiǎn)預(yù)警控制能力。本文通過(guò)旨在對(duì)小額貸款公司的信用風(fēng)險(xiǎn)評(píng)估方法進(jìn)行研究,提出通過(guò)建立信用模型進(jìn)行風(fēng)險(xiǎn)預(yù)警的機(jī)制,以點(diǎn)帶面,以期達(dá)到借鑒作用。
1 數(shù)據(jù)挖掘技術(shù)
1.1 決策樹(shù)方法
決策樹(shù)學(xué)習(xí)[1]是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí),是一種逼近離散函數(shù)值的算法,從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)表示形式的分類規(guī)則,然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析,本質(zhì)上決策樹(shù)是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程。
C4.5算法是一種典型的決策樹(shù)算法,首先定義“分裂信息”,可以表示成:
(1)
然后,增益率被定義為:
(2)
1.2 神經(jīng)網(wǎng)絡(luò)方法
分層網(wǎng)絡(luò)[2]是一種經(jīng)典的神經(jīng)網(wǎng)絡(luò)算法,將一個(gè)神經(jīng)元網(wǎng)絡(luò)模型中的所有神經(jīng)元按功能分為若干層,一般有輸入層、中間層和輸入層,各層順序連接,第I層的輸入僅與第I-1層輸出相關(guān)聯(lián)。在神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)過(guò)程就是訓(xùn)練過(guò)程,即將數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)的過(guò)程中,按照一定的方式去調(diào)整神經(jīng)元之間的連接權(quán)值,使得網(wǎng)絡(luò)能將數(shù)據(jù)集的內(nèi)涵以連接權(quán)值矩陣的方式存儲(chǔ)起來(lái),從而使得在網(wǎng)絡(luò)接受輸入時(shí),可以給出恰當(dāng)?shù)妮敵觥?/p>
2 信用模型建立與分析
通過(guò)對(duì)大量既存的客戶基本信息和相關(guān)資料的數(shù)據(jù)透視分析,分別建立決策樹(shù)模型和神經(jīng)網(wǎng)絡(luò)模型,并基于這兩個(gè)模型進(jìn)行評(píng)估和分析對(duì)比,以尋求一個(gè)最適用的模型。再根據(jù)該模型對(duì)客戶的信用風(fēng)險(xiǎn)進(jìn)行分析與評(píng)分,從而得到了“好客戶、壞客戶”的最有效的區(qū)分辦法和途徑,以便為企業(yè)提供科學(xué)的輔助決策。
2.1 數(shù)據(jù)預(yù)處理[3]
本文實(shí)驗(yàn)所使用的數(shù)據(jù)是某銀行提供給的業(yè)務(wù)數(shù)據(jù),來(lái)源于信用業(yè)務(wù)系統(tǒng)。通過(guò)對(duì)數(shù)據(jù)的分析和處理,最后進(jìn)入建模的輸入變量為:Break強(qiáng)制停卡記錄、Age年齡、Mar婚否、Sex性別、Bad_debt呆賬記錄、Card_num卡數(shù)、Per持卡人月平均收入、Spend持卡人月平均開(kāi)銷、Card_spend信用卡月平均刷卡金額Rufuse拒往記錄、Reture退票記錄、Frequence刷卡頻率,目標(biāo)變量定義為Cus客戶類別,把樣本中的信用卡持有者分成兩類:類標(biāo)號(hào)為“1”的“好”客戶和類標(biāo)號(hào)為“2的差”客戶。在建立了最佳模型后,在申請(qǐng)后,如果模型判斷為“好”客戶,則批準(zhǔn),如果判斷為“差”客戶,則拒絕。
2.2 模型建立
(1)決策樹(shù)模型。
(2)神經(jīng)網(wǎng)絡(luò)模型。
這里利用平衡抽樣后分割的訓(xùn)練數(shù)據(jù)集進(jìn)行神經(jīng)網(wǎng)絡(luò)建模,采用Neural Net節(jié)點(diǎn)進(jìn)行建模分析。在構(gòu)建模型的過(guò)程中,采用快速建模的方式,設(shè)置預(yù)防過(guò)度訓(xùn)練參數(shù)以及取消隨機(jī)數(shù)種子,終止條件為默認(rèn)。網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如下:輸入層有14個(gè)神經(jīng)元,隱藏層有3個(gè)神經(jīng)元,輸出層有1個(gè)神經(jīng)元。另外,輸入變量對(duì)模型的相對(duì)重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通過(guò)對(duì)測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試,對(duì)模型進(jìn)行評(píng)估。
按照上述步驟構(gòu)建模型后,生成神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)是一種“黑箱”技術(shù),根據(jù)樣本不斷調(diào)整模型,提高預(yù)測(cè)準(zhǔn)確率,因而預(yù)測(cè)結(jié)果缺乏解釋力,而且不能觀察到中間的學(xué)習(xí)過(guò)程。此次所建模型的估計(jì)精確性達(dá)到71.429%。
3 結(jié)論
(1)在建模之前,進(jìn)行數(shù)據(jù)的預(yù)處理是很必要的。
(2)在對(duì)數(shù)據(jù)進(jìn)行探索性分析中發(fā)現(xiàn),它行強(qiáng)制??ㄓ涗洠˙reak)、逾期情況屬性分析(Over)、呆賬記錄屬性分析(Bad_debt)、借款余額(Loan)及退票記錄(Return)這五個(gè)變量對(duì)預(yù)測(cè)一個(gè)客戶的“好”“壞”有顯著影響。
(3)通過(guò)使用Clementine對(duì)本文采用的客戶數(shù)據(jù)的建模分析,從建模結(jié)果、預(yù)測(cè)精度、運(yùn)行效率及理論這四個(gè)角度考慮,得出決策樹(shù)方法最優(yōu)。
參考文獻(xiàn)
[1] 張?jiān)茲徚?數(shù)據(jù)挖掘原理與技術(shù)[M].電子工業(yè)出版社,2004.
[2] (意)Paolo Giudici.實(shí)用數(shù)據(jù)挖掘[M].袁方,王煜,王麗娟,譯.電子工業(yè)出版社,2003.
[3] (美)林·C.托馬斯,戴維·B.埃德?tīng)柭?,喬納森·N.克魯克.信用評(píng)分及其應(yīng)用[M].王曉蕾,石慶焱,吳曉惠,譯.中國(guó)金融出版社,2005.endprint