国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于FWGKNN算法的個(gè)人違約率的應(yīng)用

2020-04-08 07:52葛傳明
現(xiàn)代計(jì)算機(jī) 2020年7期
關(guān)鍵詞:互信息實(shí)例灰色

葛傳明

(安徽工業(yè)大學(xué)管理科學(xué)與工程學(xué)院,安徽 243002)

0 引言

隨著中國制造2025的出臺(tái),信息技術(shù)中大數(shù)據(jù)與云計(jì)算越來越受到各方重視,其中創(chuàng)新性的機(jī)器學(xué)習(xí)算法依然是未來信息技術(shù)突破的關(guān)鍵。面對(duì)復(fù)雜繁多的海量數(shù)據(jù),如何快速、準(zhǔn)確地處理數(shù)據(jù)將成為未來數(shù)據(jù)管理方向的主流。現(xiàn)如今,信用風(fēng)險(xiǎn)是商業(yè)貸款風(fēng)險(xiǎn)的主要來源,也是銀行和和其他金融機(jī)構(gòu)嚴(yán)格監(jiān)管和政策辯論的主題,它通常被定義為債務(wù)人未能按時(shí)履行還款所造成的風(fēng)險(xiǎn)損失[1]。精確地評(píng)估信用風(fēng)險(xiǎn)是所有金融機(jī)構(gòu)貸款人關(guān)心的問題。解決這個(gè)具有挑戰(zhàn)性的問題,構(gòu)建信用風(fēng)險(xiǎn)模型是一個(gè)常見的適用方式[2,3]。銀行或者其他貸款機(jī)構(gòu)通常構(gòu)建模型來評(píng)估信用風(fēng)險(xiǎn)。在信用風(fēng)險(xiǎn)模型的構(gòu)建中違約率(PD)是一種主要的評(píng)測(cè)指標(biāo),用于估算債務(wù)人在即將到來的一年違約的可能性以及因此而造成的損失。評(píng)估PD的主要目的是為了對(duì)特定債務(wù)人的信用質(zhì)量做一個(gè)全面的了解[4]。個(gè)人違約概率可以根據(jù)一系列的因素來計(jì)算如債務(wù)比率、月收入、借款人年齡等。然而,個(gè)人信用數(shù)據(jù)是一個(gè)龐大而復(fù)雜的數(shù)據(jù)量,如何根據(jù)這些復(fù)雜多樣的數(shù)據(jù)來計(jì)算出個(gè)人違約率是估算個(gè)人信用的關(guān)鍵一步。

PD的傳統(tǒng)評(píng)價(jià)方法都集中在使用技術(shù)方面,如判別分析和線性回歸來區(qū)分貸款申請(qǐng)人屬于兩類之一,即好的和壞的信貸風(fēng)險(xiǎn)。之前國內(nèi)外的研究中使用了很多方法來計(jì)算違約率。Wiginton率先提出了使用邏輯回歸來對(duì)PD進(jìn)行計(jì)算,目前已經(jīng)被成功的應(yīng)用[5,6]。盡管這些技術(shù)能夠獲得不錯(cuò)的效果,但是他們忽略數(shù)據(jù)缺失可能造成的影響,數(shù)據(jù)缺失可能由很多因素造成,包括調(diào)查無應(yīng)答、受訪者拒絕回答某些項(xiàng)目的問卷以及數(shù)據(jù)本身的損失[7]。一般來說,相關(guān)特征值的缺失可以嚴(yán)重影響分類的性能,在這方面為了準(zhǔn)確地計(jì)算違約率,填補(bǔ)缺失數(shù)據(jù)是一個(gè)實(shí)際可行的方法?,F(xiàn)有文獻(xiàn)提出了很多用機(jī)器學(xué)習(xí)方法來估算缺失的屬性值,如最大期望算法(EM)、決策樹歸納法、貝葉斯方法以及多只填補(bǔ)等。

目前在各種機(jī)器學(xué)習(xí)算法中用來解決數(shù)據(jù)缺失填補(bǔ)最流行的就是K近鄰(KNN)算法,因?yàn)樗鼘?shí)現(xiàn)起來比較簡(jiǎn)單且能獲得較高的精度。該算法最初由Cover和Hard提出,是一個(gè)標(biāo)準(zhǔn)的非參數(shù)化方法主要用于概率密度函數(shù)估計(jì)和分類[8]。在此基礎(chǔ)上,Kim等人提出了一種新的基于集群的填補(bǔ)方法稱為殼近鄰(SKNN)算法。該方法按順序來填補(bǔ)實(shí)例中的缺失值,并使用填補(bǔ)后數(shù)值來估算下一個(gè)缺失值[9]。為了提高填補(bǔ)的性能,各種使用歐氏距離或其變體KNN改進(jìn)算法被提出來。在最近的研究中,已被實(shí)驗(yàn)證明了比歐氏距離或其他距離方法更適合捕獲“近似”值(兩個(gè)實(shí)例間的距離或關(guān)系)的灰色關(guān)聯(lián)分析法(GRA)已經(jīng)被用來描述所有實(shí)例之間的關(guān)系結(jié)構(gòu)[10]。例如,李漢明提出了一個(gè)基于灰色關(guān)聯(lián)分析的最近鄰(GBNN)方法[11]。張師超提出了基于灰色關(guān)聯(lián)分析的最近鄰(GKNN)迭代填補(bǔ)方法已廣泛應(yīng)用于缺失數(shù)據(jù)的填補(bǔ)[10]。然而,在衡量特征屬性之間的關(guān)系時(shí),現(xiàn)有的基于灰色關(guān)聯(lián)分析的最近鄰填補(bǔ)方法基本都是將所有特征屬性同等對(duì)待。這些研究忽略了一個(gè)至關(guān)重要的問題:隨機(jī)特性之間的相關(guān)性對(duì)特征屬性之間相似性度量有著顯著影響,這可能導(dǎo)致偏見進(jìn)而對(duì)最近鄰的選擇產(chǎn)生誤差影響。

本文為了更精確的計(jì)算個(gè)人違約率引用一種特征權(quán)重灰色K近鄰(FWGKNN)的新算法來填補(bǔ)信用數(shù)據(jù)的缺失[12]。計(jì)算過程中,使用多元非線性回歸來擬合各變量和違約率之間的非線性參數(shù)方程。首先,通過FWGKNN算法將不完整訓(xùn)練集中的缺失數(shù)據(jù)填補(bǔ)完整;其次,使用多元非線性回歸方法分別求得基于原始不完整訓(xùn)練集和填補(bǔ)后的完整訓(xùn)練集的參數(shù)方程;然后,通過上述求得的兩個(gè)參數(shù)方程分別使用相應(yīng)的數(shù)據(jù)集求出兩個(gè)違約率;最后使用均方根誤差(RMSE)和誤差降低率(ERR)來評(píng)估預(yù)測(cè)的各方法的準(zhǔn)確性。實(shí)驗(yàn)中,使用了某競(jìng)賽組織提供的10000個(gè)借款人的信用信息,并且為了驗(yàn)證該方法的性能,分別使用均值/模式填補(bǔ)法(Mean/mode imputation)、模糊 K-means聚類填補(bǔ)法(FKMI)以及基于灰色關(guān)聯(lián)分析的最近鄰迭代填補(bǔ)法(GKNN)來對(duì)實(shí)驗(yàn)進(jìn)行比較分析[10,11]。

本文主要框架如下:第二部分介紹了違約率PD的計(jì)算方法;第三部分描述了詳細(xì)的實(shí)驗(yàn)設(shè)計(jì);第四部分主要是實(shí)驗(yàn)結(jié)果分析與討論;第五部分是結(jié)論。

1 違約率PD的計(jì)算

在本節(jié)中,主要介紹使用FWGKNN算法對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)以及使用多元非線性回歸擬合各變量與違約率PD之間參數(shù)方程。

1.1 FW W G G K K N N N N 算法

FWGKNN算法主要是在互信息和灰色關(guān)聯(lián)分析理論的基礎(chǔ)上設(shè)計(jì)的,該方法通過考慮缺失特征屬性和其他特征屬性之間的關(guān)系來選擇K個(gè)最近鄰。設(shè)實(shí)例數(shù)據(jù)集為T,T={X1,X2,…,Xn},每一條實(shí)例有m個(gè)特征屬性,設(shè)為為特征類集合并且Xci代表特征類C中第i條實(shí)例。假設(shè)第X條實(shí)例的第j個(gè)屬性是未知的,在計(jì)算X實(shí)例和其他實(shí)例的灰色關(guān)聯(lián)度(GRG)之后,實(shí)例X的K近鄰就為,V是根據(jù)灰色關(guān)聯(lián)度的大小降序排列的。k進(jìn)而可以通過平均值規(guī)則求出未知值MVj:

該方法一個(gè)非常重要的改進(jìn)是根據(jù)實(shí)例間的灰色關(guān)聯(lián)度來計(jì)算每一個(gè)鄰居的相應(yīng)權(quán)重。如果缺失數(shù)據(jù)是數(shù)值型數(shù)據(jù),設(shè)每一個(gè)鄰居的權(quán)重為wk,最近鄰MVj:

這里

其中使用互信息來確定隨機(jī)變量之間的關(guān)系,互信息(MI)的數(shù)學(xué)表達(dá)式如下:

對(duì)于連續(xù)隨機(jī)變量,其熵值和互信息(MI)表達(dá)式如下:

這里熵值和互信息需要滿足如下條件:

FWGKNN算法利用了灰色關(guān)聯(lián)分析理論,其表達(dá)式如下:

基于互信息理論,我們提出了灰色關(guān)聯(lián)度(GRG):

1.2 多元非線性回歸計(jì)算P P D D的基本理論

非線性回歸是一種統(tǒng)計(jì)方法,用來幫助描述非線性關(guān)系,并根據(jù)實(shí)驗(yàn)數(shù)據(jù)做出預(yù)測(cè)。非線性回歸模型通常設(shè)定一些參數(shù),模型被描述為一個(gè)非線性方程。參數(shù)化非線性回歸模型是結(jié)合非線性參數(shù)來描述一個(gè)或多個(gè)自變量和因變量之間的函數(shù)關(guān)系,模型可以是單變量的也可以是多變量的。模型所使用函數(shù)可以是指數(shù)型、三角變量型、冪函數(shù)型或其他類型的非線性函數(shù),通常使用迭代算法來確定非線性參數(shù)的估計(jì),簡(jiǎn)化公式表示如下:

這里,x是自變量(Xi,i=1,2,…,10),y是因變量(PD),β是非線性參數(shù)估計(jì),ε是誤差因子。

11..33違約率計(jì)算的算法設(shè)計(jì)

本小節(jié)主要包含兩部分:算法1步驟和算法2步驟。

算法1步驟:FWGKNN算法填補(bǔ)缺失數(shù)據(jù)。

輸入:

T:n×m維不完整數(shù)據(jù)集

輸出:

T^:n×m維完整數(shù)據(jù)集

1):使用最小最大化規(guī)則對(duì)數(shù)據(jù)集T進(jìn)行預(yù)處理

2):根據(jù)特征類集合D對(duì)每個(gè)實(shí)例Xi進(jìn)行分類

4):對(duì)數(shù)據(jù)集T中的每一個(gè)特征屬性,如果是數(shù)值型屬性則使用均值法(mean)來預(yù)測(cè)缺失值;如果是分類屬性則使用模式識(shí)別法(mode)來預(yù)測(cè)缺失值

6):對(duì)每一個(gè)特征類C,假設(shè)數(shù)據(jù)集中某一實(shí)例的第一個(gè)缺失值已被填補(bǔ)好,余下的填補(bǔ)數(shù)據(jù)將會(huì)作為已知值。根據(jù)公式(8)帶有缺失值實(shí)例與其他完整實(shí)例間的灰色關(guān)聯(lián)度GRG,并按降序排列

8):根據(jù)公式(2)每一個(gè)鄰居的權(quán)重,然后使用權(quán)重最高的鄰居代替缺失值

9):將填補(bǔ)后的數(shù)據(jù)當(dāng)作已知值去預(yù)測(cè)下一個(gè)缺失值。重復(fù)步驟6)-8)直到所有的缺失值都被填補(bǔ)完成

10):重復(fù)步驟6)-9)直到迭代時(shí)間到達(dá)N

算法2步驟:多元非線性回歸計(jì)算違約率。

輸入:

T^:n×m維完整數(shù)據(jù)集

T:n×m維不完整數(shù)據(jù)集

輸出:

違約率(PDs)

1):使用最小最大化規(guī)則對(duì)數(shù)據(jù)集T進(jìn)行預(yù)處理

2):隨機(jī)將數(shù)據(jù)集T分拆為訓(xùn)練集T1和測(cè)試集T2

3):根據(jù)多元非線性回歸方法分別使用原始不完整訓(xùn)練集T1和填補(bǔ)后的完整訓(xùn)練集T1*得到兩個(gè)參數(shù)方程y0和y1

4):根據(jù)參數(shù)方程y0使用原始不完整測(cè)試集T2計(jì)算出違約率PD1

5):根據(jù)參數(shù)方程y1使用填補(bǔ)后的完整測(cè)試集T2*計(jì)算出違約率PD2

2 實(shí)驗(yàn)設(shè)計(jì)

2.1 數(shù)據(jù)集

本文所采用的原始數(shù)據(jù)集T由競(jìng)賽組織所提供,包括10000個(gè)借款人的信用信息。為了方便對(duì)實(shí)驗(yàn)進(jìn)行分析,我們隨機(jī)地將數(shù)據(jù)集進(jìn)行分拆,其中2/3為訓(xùn)練集T1,1/3為測(cè)試集T2。

表1列出了數(shù)據(jù)集中所包括的變量:因變量(Y)和自變量(X1,X2,… ,X10)。

表1數(shù)據(jù)集描述

2.2 比較方法和評(píng)測(cè)指標(biāo)

本節(jié)主要介紹實(shí)驗(yàn)對(duì)比所使用的比較方法以及各方法的評(píng)測(cè)指標(biāo)。

為了方便對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析比較,這里我們使用4種方法作為對(duì)比:均值/模式填補(bǔ)法(Mean/mode imputation)、模糊 K-means聚類填補(bǔ)法(FKMI)、基于灰色關(guān)聯(lián)分析的最近鄰迭代填補(bǔ)法(GKNN)以及不使用任何填補(bǔ)法(Not imputed)。

為了準(zhǔn)確評(píng)測(cè)各方法的填補(bǔ)預(yù)測(cè)效果,本文主要使用兩種評(píng)測(cè)指標(biāo)來對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)測(cè):均方根誤差(RMSE)和誤差降低率(ERR)

這里ei表示真實(shí)值,表示填補(bǔ)后的缺失值,m表示缺失值的個(gè)數(shù)。

這里error0表示根據(jù)違約率PD1和真實(shí)違約率PD計(jì)算出的RMSE,error1表示根據(jù)違約率PD2和真實(shí)違約率PD計(jì)算出的RMSE。

3 實(shí)驗(yàn)結(jié)果及分析

本次實(shí)驗(yàn)在Windows平臺(tái)上運(yùn)行,使用MATLAB編程語言,相關(guān)機(jī)器配置是AMD6380(2.50GHz)處理器,8GBRAM。整個(gè)實(shí)驗(yàn)所用時(shí)間為160.05秒。

3.1 實(shí)驗(yàn)結(jié)果比較分析

為了測(cè)試FWGKNN算法對(duì)違約率預(yù)測(cè)的精度,我們對(duì)各方法的實(shí)驗(yàn)結(jié)果進(jìn)行分析比較。表2和表3分別提供了帶有缺失值(X5和X10)的個(gè)人信用信息實(shí)例被填補(bǔ)后的結(jié)果。

實(shí)驗(yàn)中,我們分別根據(jù)原始不完整數(shù)據(jù)集和填補(bǔ)后的完整數(shù)據(jù)集求出各自相應(yīng)的參數(shù)方程y0(x,β)和y1(x,β)。其他對(duì)比方法求得參數(shù)方程為y2(x,β),y3(x,β)和y4(x,β)。參數(shù)方程的特征表達(dá)式如下:

表2缺失屬性X5的個(gè)人信用信息實(shí)例及各方法的填補(bǔ)結(jié)果

表3缺失屬性X10的個(gè)人信用信息實(shí)例及各方法的填補(bǔ)結(jié)果

圖1 FWGKNN算法和未填補(bǔ)方法求得預(yù)測(cè)值的差值(D-value)對(duì)比

β4=(0.8377,-0.1024,4.1070,0.0261,-0.0606,-0.0262,3.2253,0.0151,-6.9358,0.0499)

ε4=0.0944

圖2各方法間求得預(yù)測(cè)值的差值(D-value)對(duì)比

實(shí)驗(yàn)中使用的觀測(cè)指標(biāo)是目標(biāo)值和真實(shí)值之間的差值(D-value),差值越小說明填補(bǔ)效果越好。圖1展示了實(shí)際值和FGWKNN算法所得結(jié)果的比較,其中X軸表示測(cè)試集中實(shí)例的個(gè)數(shù),Y軸表示目標(biāo)值與真實(shí)值之間的差值(D-value)。從圖1中我們可以看出,使用FWGKNN算法求得的差值比未填補(bǔ)方法得到的差值要小很多,這是因?yàn)樵谟?jì)算違約率PD時(shí),考慮特征屬性間的相關(guān)性來選擇最近鄰要更好。從圖2中也可以看出相似的結(jié)果,F(xiàn)WGKNN算法所求得的差值也要比其他填補(bǔ)方法求得結(jié)果要小。

圖3展示4種方法使用測(cè)試集數(shù)據(jù)的多項(xiàng)式曲線擬合效果,從圖中可以看出使用不同方法求得的預(yù)測(cè)值和實(shí)際值之間的變化趨勢(shì)。

3.2 各方法的精度比較

為了更形象的描述實(shí)驗(yàn)結(jié)果,我們使用均方根誤差(RMSE)和誤差降低率(ERR)來違約率計(jì)算的預(yù)測(cè)精度。分析結(jié)果表4以及圖4和圖5所示。

圖3多項(xiàng)式曲線擬合

表4

各實(shí)驗(yàn)方法的RMSE和ERR。

圖4各實(shí)驗(yàn)方法的RMSE

圖5各實(shí)驗(yàn)方法的ERR

從表4和圖4中可以清晰地看出,使用FWGKNN能夠得到更好的實(shí)驗(yàn)結(jié)果:RMSE=0.0053,它遠(yuǎn)遠(yuǎn)小于不適用任何方法得到的結(jié)果。同時(shí),與其他填補(bǔ)方法相比,其結(jié)果也要優(yōu)越很多,且有著更高的ERR。

4 結(jié)語

本文引用一種新算法FWGKNN來計(jì)算個(gè)人信貸的違約率,該方法主要是基于互信息和灰色關(guān)聯(lián)分析法來實(shí)現(xiàn)的。通過一系列的對(duì)比實(shí)驗(yàn)及分析可知,該方法能夠?qū)θ笔е颠M(jìn)行更好地填補(bǔ),進(jìn)而能夠?qū)`約率進(jìn)行更加準(zhǔn)確的預(yù)測(cè)。因此,使用這種方法,當(dāng)面臨客戶信息丟失或不確定的情況下,一些銀行和金融機(jī)構(gòu)仍可以相對(duì)準(zhǔn)確地計(jì)算出個(gè)人信貸違約率PD,這對(duì)銀行和金融貸款機(jī)構(gòu)有著重大的現(xiàn)實(shí)意義。更為重要的是,這對(duì)未來信息技術(shù)的發(fā)展和應(yīng)用提供了另一個(gè)方向。雖然使用我們的方法可以取得一些不錯(cuò)的效果,但是這種方法仍然存在一些現(xiàn)實(shí)的問題。例如,如何自動(dòng)選擇最近鄰K值,以及如何更有效地評(píng)估個(gè)人違約率PD等。未來工作的研究重點(diǎn)將是進(jìn)一步提高對(duì)個(gè)人信貸違約率的預(yù)測(cè)精度。

猜你喜歡
互信息實(shí)例灰色
淺灰色的小豬
基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
灰色時(shí)代
她、它的灰色時(shí)髦觀
基于互信息和小波變換的圖像配準(zhǔn)的研究
感覺
基于互信息的圖像分割算法研究與設(shè)計(jì)
基于改進(jìn)SIFT與互信息的異源圖像匹配
完形填空Ⅱ
完形填空Ⅰ
安远县| 闵行区| 海盐县| 鸡西市| 东乌珠穆沁旗| 信宜市| 新巴尔虎右旗| 内丘县| 湘乡市| 扎囊县| 辽源市| 泰顺县| 邛崃市| 法库县| 福鼎市| 凤阳县| 即墨市| 旌德县| 万载县| 义乌市| 杭锦旗| 青河县| 横山县| 镇巴县| 攀枝花市| 阳春市| 海门市| 双柏县| 云梦县| 财经| 沙河市| 绥江县| 丰县| 福清市| 石柱| 兴城市| 淅川县| 宁陵县| 通化县| 永清县| 三河市|