郭帥+韓勝+劉妍
摘要:隨著“互聯(lián)網(wǎng)+”時(shí)代的來(lái)臨,國(guó)內(nèi)P2P網(wǎng)貸平臺(tái)迅猛發(fā)展,這種貸款模式憑借著投資高收益、低門檻和操作簡(jiǎn)便等優(yōu)點(diǎn),已成為時(shí)下炙手可熱的互聯(lián)網(wǎng)金融新模式。但由于準(zhǔn)入門檻低,個(gè)人信用評(píng)估體系的不完善,使得平臺(tái)面臨巨大的信用風(fēng)險(xiǎn)。本文提出了基于PCA-BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估模型,利用PCA對(duì)個(gè)人信用風(fēng)險(xiǎn)評(píng)估的眾多指標(biāo)進(jìn)行降維,得到幾個(gè)主分量,將主分量作為BP神經(jīng)網(wǎng)絡(luò)的輸入因子,利用BP神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)、自調(diào)整以及非線性映射功能,使得在個(gè)人信用評(píng)估時(shí)實(shí)現(xiàn)了全自動(dòng)化。
關(guān)鍵詞:個(gè)人信用評(píng)估;P2P網(wǎng)貸;PCA;BP神經(jīng)網(wǎng)絡(luò);動(dòng)態(tài)量化
隨著“互聯(lián)網(wǎng)+”時(shí)代的來(lái)臨,P2P平臺(tái)數(shù)量有了爆發(fā)式的增長(zhǎng),這種新模式憑借著低門檻、高收益等優(yōu)點(diǎn)以迅雷不及掩耳之勢(shì)深入人心,但另一方面行業(yè)飛速發(fā)展的背后一定存在著一些問(wèn)題,P2P行業(yè)種種“跑路”、違約風(fēng)險(xiǎn)接踵而至。我國(guó)個(gè)人信用評(píng)估體系存在個(gè)人信息不準(zhǔn)確、個(gè)人信用觀念和個(gè)人信用評(píng)估體系不成熟等問(wèn)題,由此,本文提出了一種基于PCA-BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估模型和算法,在有效降低眾多指標(biāo)維數(shù)的同時(shí),利用BP神經(jīng)網(wǎng)絡(luò)自組織、自適應(yīng)、自學(xué)習(xí)的功能,使得在個(gè)人信用評(píng)估時(shí)實(shí)現(xiàn)了全自動(dòng)化。
1.PCA與BP神經(jīng)網(wǎng)絡(luò)算法簡(jiǎn)介
1.1 PCA算法簡(jiǎn)介
信息安全風(fēng)險(xiǎn)評(píng)估值的變化具有不確定性和非線性等特點(diǎn)。風(fēng)險(xiǎn)評(píng)估值受諸多因素的影響,并且因素之間還存在一定的相關(guān)性。傳統(tǒng)的線性預(yù)測(cè)方法無(wú)法正確反應(yīng)風(fēng)險(xiǎn)評(píng)估值的變化規(guī)律。而PCA可以去除因素之間的相關(guān)性,減小BP神經(jīng)網(wǎng)絡(luò)的輸入變量,優(yōu)化BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[1]。主成分分析法 ( principal component analysis,PCA) 是將多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法。它將一組給定的相關(guān)變量通過(guò)線性變換,轉(zhuǎn)換成另一組不相關(guān)的變量,變換中保持變量的總方差不變,新變量按照方差依次遞減的順序排列。經(jīng)過(guò)主成分分析,可以在保留信息安全風(fēng)險(xiǎn)因素主要信息的基礎(chǔ)上降低支持向量機(jī)的輸入維數(shù)。
1.2BP神經(jīng)網(wǎng)絡(luò)算法簡(jiǎn)介
人工神經(jīng)網(wǎng)絡(luò)是由大量簡(jiǎn)單的基本原件——神經(jīng)元相互連接,通過(guò)模擬人的大腦神經(jīng)處理信息的方式,進(jìn)行信息并行處理和非線性轉(zhuǎn)換的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是多輸入多輸出實(shí)現(xiàn)了數(shù)據(jù)的并行處理以及自學(xué)習(xí)能力。前向反饋網(wǎng)絡(luò)和徑向基網(wǎng)絡(luò)是目前技術(shù)最成熟、應(yīng)用范圍最廣泛的兩種網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),它的名字源于在網(wǎng)絡(luò)訓(xùn)練中,調(diào)整網(wǎng)絡(luò)權(quán)值的訓(xùn)練算法是反向傳播算法。圖1為含有一個(gè)隱層的BP網(wǎng)絡(luò)。
由圖1知,BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)包括輸入層、隱含層和輸出層,上下層之間實(shí)現(xiàn)全連接,而同一層的神經(jīng)元之間無(wú)連接,每層節(jié)點(diǎn)的輸出只影響上一層節(jié)點(diǎn)的輸出,每個(gè)節(jié)點(diǎn)都具有單個(gè)神經(jīng)元結(jié)構(gòu)。
2.基于PCA-BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估模型構(gòu)建
2.1 基于PCA算法個(gè)人信用評(píng)估模型指標(biāo)的確定
由于商業(yè)銀行個(gè)人信貸數(shù)據(jù)不公開,難以取得足夠多的樣本,所以本文選取了德國(guó)某商業(yè)銀行在個(gè)人信用評(píng)分領(lǐng)域比較有名的數(shù)據(jù)集[2]用于演示模型的求解及實(shí)證檢驗(yàn)。該數(shù)據(jù)一共有20個(gè)指標(biāo)變量,1000個(gè)樣本點(diǎn),其中沒(méi)有違約的客戶為700個(gè),違約客戶為300個(gè)。將該數(shù)據(jù)的各個(gè)指標(biāo)進(jìn)行賦值進(jìn)行數(shù)值化處理,對(duì)20個(gè)指標(biāo)利用PCA進(jìn)行降維[3],得到的結(jié)果見(jiàn)表1。
在輸出的主成分結(jié)果中,第一列為10個(gè)主成分;第二列為對(duì)應(yīng)的“特征值”,表示所解釋的方差的大?。坏谌袨閷?duì)應(yīng)的成分所包含的方差占總方差的百分比;第四列為累計(jì)的百分比。一般來(lái)說(shuō),SPSS默認(rèn)選擇“特征值”大于1的成分作為主成分。在上表中,前8個(gè)成分的特征值大于1,他們的累計(jì)貢獻(xiàn)率為69.006%。由于所研究的指標(biāo)較多,因此我們可以認(rèn)為前8個(gè)成分能夠作為主成分,其余成分所包含的信息較少,故可以舍去。
2.2基于BP神經(jīng)網(wǎng)絡(luò)構(gòu)建個(gè)人信用評(píng)估模型
2.2.1數(shù)據(jù)的歸一化處理
8個(gè)影響因子作為學(xué)習(xí)樣本中的輸入因子,輸出因子為個(gè)人信用風(fēng)險(xiǎn)的評(píng)估結(jié)果。在進(jìn)行樣本訓(xùn)練之前,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理[4],用來(lái)加快神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度以及運(yùn)算的結(jié)果,歸一化處理方法如下。
2.2.2 神經(jīng)網(wǎng)絡(luò)的構(gòu)建
取700組數(shù)據(jù)作為訓(xùn)練樣本,300組數(shù)據(jù)作為檢驗(yàn)樣本,隱層節(jié)點(diǎn)數(shù)設(shè)為5,輸出層有1個(gè)節(jié)點(diǎn),輸出結(jié)果1表示優(yōu)質(zhì)客戶,2表示違約客戶。隱層采用激活函數(shù)為softmax函數(shù),輸出層采用的函數(shù)為恒等函數(shù)。得到的輸出結(jié)果如表3所示。
3.小結(jié)
從表3可看出BP神經(jīng)網(wǎng)絡(luò)模型對(duì)全部樣本的回判(預(yù)測(cè))準(zhǔn)確率為83.4%,其中對(duì)優(yōu)質(zhì)客戶樣本的回判準(zhǔn)確率高達(dá)94.4%,對(duì)劣質(zhì)用戶樣本的回判準(zhǔn)確率為68.3%。從實(shí)證檢驗(yàn)的過(guò)程及預(yù)測(cè)效果來(lái)看,神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)精度最高并且擬合性也很好,對(duì)樣本回判測(cè)試的總準(zhǔn)確率為83.4%。該模型對(duì)劣質(zhì)客戶預(yù)測(cè)準(zhǔn)確率偏低,是因?yàn)檫@里所使用的數(shù)據(jù)都是曾經(jīng)通過(guò)了審核并獲得了貸款的用戶,而商業(yè)銀行更多地是保留了通過(guò)借款申請(qǐng)并已發(fā)放貸款的客戶的資料,對(duì)未通過(guò)借款申請(qǐng)的客戶的資料則保留得較少,因此造成建模樣本中劣質(zhì)客戶的樣本數(shù)量不足,模型對(duì)這些樣本的預(yù)判也因而受到影響。
參考文獻(xiàn):
[1]姜起源.數(shù)學(xué)模型(第三版)[M].北京:高等教育出版社,2003
[2]張健.商業(yè)銀行個(gè)人信用評(píng)估模型研究[D].2012
[3]肖智.基于主成分分析和支持向量機(jī)的個(gè)人信用評(píng)估[J].2010
[4]張道宏.基于BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估模型[J].2006endprint