劉傳哲 馬達亮 夏雨霏
摘 要:本文借鑒了傳統(tǒng)信用評分方法,提出了適用于P2P網(wǎng)絡(luò)借貸環(huán)境的動態(tài)異質(zhì)集成分類模型DSHE。該模型能夠?qū)崿F(xiàn)對冗余特征變量的篩選,具有一定的高維數(shù)據(jù)處理能力;其異質(zhì)集成結(jié)構(gòu)與動態(tài)篩選策略能夠?qū)崿F(xiàn)基礎(chǔ)模型權(quán)重的自適應(yīng)調(diào)整,從而提高信用評估性能。使用UCI數(shù)據(jù)庫中的數(shù)據(jù)和網(wǎng)貸真實數(shù)據(jù)進行實證分析,結(jié)果表明,異質(zhì)集成模型整體表現(xiàn)較優(yōu);DSHE模型在預(yù)測準確率上表現(xiàn)突出,在4個評價指標下的平均秩優(yōu)于Logistic回歸等對比模型。
關(guān)鍵詞:信用評分;動態(tài)異質(zhì)集成;P2P網(wǎng)絡(luò)借貸
中圖分類號:F832 文獻標識碼:B 文章編號:1674-2265(2018)09-0024-08
DOI:10.19647/j.cnki.37-1462/f.2018.09.004
一、引言
P2P網(wǎng)絡(luò)借貸是指資金供需雙方通過互聯(lián)網(wǎng)平臺實現(xiàn)的直接借貸,是互聯(lián)網(wǎng)金融的重要組成部分。但是,P2P網(wǎng)絡(luò)借貸的壞賬率遠高于同期商業(yè)銀行的平均水平,信用風(fēng)險不容小覷:由于其在線交易、陌生人交易和缺乏抵押品的特點,P2P網(wǎng)絡(luò)借貸的投資決策常依賴于非標準化的、未經(jīng)驗證的軟信息;出借人多不具備專業(yè)知識,所做的投資決策常為非理性的,且無充足資金構(gòu)建投資組合以分散風(fēng)險。因此,急需開發(fā)一套適用于P2P網(wǎng)絡(luò)借貸環(huán)境的準確、易操作的信用評分系統(tǒng)來識別信用風(fēng)險,協(xié)助投資者做出理性的決策。
信用風(fēng)險的研究具有較高的理論與應(yīng)用價值,一直是學(xué)術(shù)界的熱點。信用評分可實現(xiàn)對違約概率的預(yù)測,是識別和管理信用風(fēng)險的重要工具。很多研究關(guān)注傳統(tǒng)金融領(lǐng)域的客戶信用評分問題,涌現(xiàn)出大量建模方法。近年來,集成模型尤為受到關(guān)注:根據(jù)偏差—方差均衡理論,集成分類模型可通過融合多個基礎(chǔ)分類模型提高其預(yù)測結(jié)果的方差,從而實現(xiàn)降低預(yù)測誤差的目的。如吳沖和夏晗(2008)、肖進等(2015)等學(xué)者提出的集成支持向量機信用評分模型;West等(2005)、Tsai等(2008)提出的集成神經(jīng)網(wǎng)絡(luò)的信用風(fēng)險評估模型。盡管這些集成模型取得了不錯的效果,但是從結(jié)構(gòu)上看,大多數(shù)為同質(zhì)集成模型,即僅集成了一種分類模型,根據(jù)“沒有免費午餐理論”,這可能對模型的外推性和泛化能力產(chǎn)生不良影響;從集成方法上看,大多數(shù)模型使用了簡單的靜態(tài)集成方法,如多數(shù)投票法、Dempster-Shafer等方法,未能充分考慮樣本特征對集成模型進行自適應(yīng)調(diào)整。另外,當(dāng)前對P2P網(wǎng)絡(luò)借貸的信用評分關(guān)注還不多。一些研究對P2P網(wǎng)絡(luò)借貸的信用評分系統(tǒng)進行了探索,比較有代表性的是Guo等(2016)基于核方法度量P2P網(wǎng)絡(luò)借貸的信用風(fēng)險、Emekter等(2015)的Logistic回歸模型、Malekipirbazari 和 Aksakalli(2015)的隨機森林信用評分模型、傅彥銘等(2014)的支持向量機模型。但總體而言,這些模型以單一模型為主,結(jié)構(gòu)比較簡單且預(yù)測精度尚有待提高。有鑒于此,有必要借鑒傳統(tǒng)金融領(lǐng)域的信用評分模型,并結(jié)合P2P網(wǎng)絡(luò)借貸特點,構(gòu)建適應(yīng)于P2P網(wǎng)絡(luò)借貸環(huán)境的信用評分模型。在傳統(tǒng)金融領(lǐng)域,Visentini等(2016)提出使用F分數(shù)對信用評分模型中的基礎(chǔ)模型進行動態(tài)篩選;Alaraj和Abbod(2016)提出了一種基于議會系統(tǒng)的異質(zhì)集成信用評分模型。
本文借鑒先前信用評分的研究,并充分考慮P2P網(wǎng)絡(luò)借貸的特點,提出了動態(tài)選擇異質(zhì)集成模型(Dynamic Selective Heterogeneous Ensemble Model, DSHE)。相較于先前模型,本文提出的DSHE模型的創(chuàng)新點主要體現(xiàn)在以下幾個方面:第一,DSHE是一種異質(zhì)集成模型,引入了多個常用的數(shù)據(jù)挖掘分類算法,擴展了監(jiān)督學(xué)習(xí)的假設(shè)空間,從而提高了模型的泛化能力和對不同數(shù)據(jù)集的預(yù)測能力,而當(dāng)前應(yīng)用至信用評分領(lǐng)域的異質(zhì)集成模型還較少,且相較于劉大洪等(2013)提出的動態(tài)模糊聚類信用評分模型,DSHE模型采用的是有監(jiān)督學(xué)習(xí)的集成分類方法,而非無監(jiān)督學(xué)習(xí)的聚類方法,二者建模思想上存在較大差別。第二,DSHE使用AUC-H指標對基礎(chǔ)模型進行篩選,可依據(jù)測試樣本的特征自動調(diào)整基礎(chǔ)模型的決策權(quán)重,實現(xiàn)有選擇性的集成,從而進一步提高模型的性能,而當(dāng)前研究多使用F分數(shù)或準確率進行篩選。第三,該模型充分考慮了P2P網(wǎng)絡(luò)借貸中的冗余變量問題,在模型中包含了變量篩選算法,可刪除高維度的P2P網(wǎng)絡(luò)借貸信用數(shù)據(jù)中的冗余變量,提高模型的運算速度和精度。更為重要的是,實驗結(jié)果表明,在多個信用數(shù)據(jù)集中,該模型的表現(xiàn)優(yōu)于當(dāng)前的主流信用評估模型。
二、動態(tài)選擇異質(zhì)集成模型
(一)基本思想
當(dāng)前實證研究所使用的數(shù)據(jù)集多來自加州大學(xué)歐文分校提出的用于機器學(xué)習(xí)的UCI數(shù)據(jù)庫,這些數(shù)據(jù)集中特征變量數(shù)通常少于20個,且樣本數(shù)在1000個以下;而本文所關(guān)注的P2P網(wǎng)絡(luò)借貸領(lǐng)域具有高維度、高噪聲、復(fù)雜性等特點,比如當(dāng)前全球最大的P2P網(wǎng)絡(luò)借貸平臺Lending Club的公開交易記錄中具有55維特征變量且樣本數(shù)眾多,連續(xù)變量與離散變量混雜。本文提出的DSHE模型旨在根據(jù)P2P網(wǎng)絡(luò)借貸的信用數(shù)據(jù)特點,構(gòu)建適合的信用評分模型。
假設(shè)Dtrain與Dtest分別為信用評分問題中的訓(xùn)練集和測試集。信用評分的目標是將測試集中的每個樣本分成違約與非違約兩類。DSHE的構(gòu)建共包含三個階段(見圖1)。
第一階段為變量篩選階段。原始數(shù)據(jù)集中的冗余特征變量會增加模型訓(xùn)練時間、降低預(yù)測精度,本階段通過變量選擇算法篩選出具有代表性的特征變量子集[D*train]用于訓(xùn)練基礎(chǔ)模型。
第二階段為建立基礎(chǔ)模型池??紤]到不同分類模型在處理不同類型數(shù)據(jù)、噪聲敏感性和多樣性上存在差異,本文使用異質(zhì)集成結(jié)構(gòu),即引入三種主流數(shù)據(jù)挖掘信用評分模型——支持向量機(SVM)、多層感知器神經(jīng)網(wǎng)絡(luò)(MLP)和決策樹(DT)建模。為進一步提高集成分類模型的多樣性,引入了Bagging算法對[D*train]重復(fù)抽樣,并逐個構(gòu)建基礎(chǔ)模型組成基礎(chǔ)池,然后針對測試集Dtest中第i個樣本輸出預(yù)測分類和概率(ci,pi)。
第三階段對基礎(chǔ)分類模型池進行篩選、組合。對于Dtest中的每一個樣本xj,在[D*train]中尋找xj的近鄰作為驗證集Dvalid,然后以模型在檢驗集中的表現(xiàn)為依據(jù)對基礎(chǔ)模型池中每個模型賦予權(quán)重,對檢驗集預(yù)測較為準確的模型會被賦予較高的權(quán)重,反之則賦予較低的權(quán)重。最后通過加權(quán)多數(shù)投票的方式得到分類的最終結(jié)果。
需要注意的是,DSHE獲得的驗證集越貼近測試集,理論上基于驗證集調(diào)整的各基礎(chǔ)模型權(quán)重對測試集樣本預(yù)測精度的提高越明顯。特別是當(dāng)樣本數(shù)量較大時,在訓(xùn)練集中可以尋找到與測試集更為相近的樣本。因此該方法一定程度上克服了Nascimento等(2014)提出的動態(tài)篩選方法的不足,更加適用于P2P網(wǎng)絡(luò)借貸信用評分這種樣本數(shù)量多的情況。
(二)變量篩選
變量篩選有助于降低數(shù)據(jù)集維度,提高模型運行效率。變量篩選的目標主要為兩個:第一,保留與結(jié)果變量高度相關(guān)的特征;第二,刪除冗余變量。因此該問題通??梢暈閮?yōu)化問題,即保留與結(jié)果變量高度相關(guān)的特征的同時,盡可能降低特征間的相關(guān)性。DSHE引入遺傳算法求解該優(yōu)化問題。將特征變量的非空子集視為遺傳算法中相互競爭的個體,每個個體具有k個基因的二元染色體,每個基因?qū)?yīng)代表原始數(shù)據(jù)集中的特征變量。若某基因位點數(shù)值為1,則表示其被選中組成子集用于構(gòu)建基礎(chǔ)模型。初始種群確定后,按照適應(yīng)度函數(shù)計算適應(yīng)值,并通過選擇、交叉、變異等算子形成新的群體并記錄適應(yīng)值,經(jīng)多次迭代后在滿足預(yù)先設(shè)定的停止規(guī)則后輸出最優(yōu)解。DSHE模型采取了基于相關(guān)系數(shù)的適應(yīng)度函數(shù)作為該遺傳算法的優(yōu)化規(guī)則。適應(yīng)度函數(shù)如式(1)所示:
[fλ=kλ×rλ,cfkλ+kλkλ-1rλ,if] (1)
其中[λ]表示第[λ]個特征變量子集,[kλ]表示子集中特征變量數(shù)量。式(1)越大,則說明該特征變量子集越優(yōu)。[rλ,cf]代表該子集與結(jié)果變量的平均相關(guān)系數(shù),而[rλ,if]表示子集中各變量間的平均相關(guān)系數(shù)。[rλ,cf]與[rλ,if]指標由Symmetrical Uncertainty(SU)度量。SU是一種基于信息理論的相關(guān)性度量方法,其計算如下:
[SUX,Y=IGX|YHX+H(Y)] (2)
其中[IGX|Y]表示觀察到Y(jié)后對X的信息增益,[HX]與[H(Y)]分別表示X與Y的信息熵。SU值范圍為[0,1],1表示兩變量完全相關(guān),0則表示相互獨立。根據(jù)SU定義分別計算[rλ,cf]與[rλ,if]。值得注意的是,式(1)的分子表示該子集的預(yù)測能力,而分母則衡量了子集中變量的冗余程度。與結(jié)果變量相關(guān)度低或與子集中其他特征高度相關(guān)的變量會使適應(yīng)度函數(shù)值變小而被排除。因此,式(1)同步實現(xiàn)了變量篩選保留預(yù)測變量和刪除冗余變量的目標。經(jīng)篩選后的最優(yōu)特征訓(xùn)練子集[D*train]被用于下一階段的基礎(chǔ)模型池訓(xùn)練。
(三)基礎(chǔ)模型池構(gòu)建
為使基礎(chǔ)模型池更具多樣性,DSHE模型使用Bagging方法對訓(xùn)練集[D*train]進行了重復(fù)抽樣:從具有N個樣本的[D*train]中隨機有放回抽取N個樣本組成訓(xùn)練子集Dtrain并用其訓(xùn)練基礎(chǔ)模型,如此往復(fù)進行k次隨機抽樣。本文的基礎(chǔ)模型池中包含三類常用于信用評分領(lǐng)域的分類模型,包括多層感知器神經(jīng)網(wǎng)絡(luò)、決策樹和支持向量機。接下來對這三類分類模型進行簡要描述。
MLP作為最常見的神經(jīng)網(wǎng)絡(luò)之一,其核心思想是將輸入/輸出的映射問題轉(zhuǎn)化為非線性優(yōu)化問題,其一般由輸入層、隱含層和輸出層等三層組成,每層各包含若干個節(jié)點,每層節(jié)點與鄰層節(jié)點相互連接,而同層節(jié)點之間沒有連接。當(dāng)數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)后,由輸入層經(jīng)由隱含層向輸出層傳播,隨后按照網(wǎng)絡(luò)實際輸出與期望輸出間的均方誤差(MSE)進行反向傳播,根據(jù)梯度下降算法經(jīng)多次迭代修正網(wǎng)絡(luò)權(quán)值,以實現(xiàn)MSE的最小化。神經(jīng)網(wǎng)絡(luò)具有較強的泛化能力和模式識別優(yōu)勢,較符合信用風(fēng)險分類這一特點。
DT是一種基于信息理論建立的由上到下的樹狀結(jié)構(gòu),由一系列結(jié)點和分支組成。決策樹的構(gòu)建本質(zhì)上是一個依據(jù)特定規(guī)則對數(shù)據(jù)的拆分過程:每個結(jié)點對應(yīng)一個特征變量,結(jié)點延伸出的分支對應(yīng)按該結(jié)點對應(yīng)特征變量的臨界值拆分出的樣本集。理想情況下,分支對應(yīng)的樣本應(yīng)屬于同一類別。使用決策樹進行決策的過程就是從根結(jié)點開始,測試待分類項中相應(yīng)的特征屬性,屬性選擇?;谛畔⒃鲆妫↖D3算法)和信息增益率(C4.5算法),然后按照其值選擇輸出分支,直到到達葉子結(jié)點,將葉子結(jié)點存放的類別作為決策結(jié)果。決策樹具有較強的可讀性和描述性,與信用評分的特點較為吻合。
SVM是基于結(jié)構(gòu)風(fēng)險最小化建立的機器學(xué)習(xí)方法,其基本思想是將低維線性不可分的訓(xùn)練集按照映射函數(shù)投射至更高維度使其線性可分,從而找到一個最優(yōu)分類超平面區(qū)分輸入樣本。SVM結(jié)構(gòu)簡單、推廣能力強,在處理非線性及高維度模式識別中具有優(yōu)勢,因此在信用評分領(lǐng)域得到廣泛應(yīng)用。
令Bagging次數(shù)為k,使用Bagging方法對訓(xùn)練集[D*train]重復(fù)抽樣獲得的訓(xùn)練子集被分別用上述三類方法構(gòu)建分類模型,共訓(xùn)練[C1,C2,???,C3k],共計3k個模型作為基礎(chǔ)模型池以備下階段模型篩選,并對測試集Dtest中的樣本進行預(yù)測,輸出分類矩陣[ctest]及樣本非違約的概率矩陣[ptest]。
(四)模型動態(tài)篩選
DSHE模型使用一種基于遺傳算法的篩選準則對構(gòu)建的基礎(chǔ)模型池進行篩選,其基本思路是從基礎(chǔ)模型池中挑選恰當(dāng)?shù)淖蛹?,對每一基礎(chǔ)模型測試集預(yù)測結(jié)果的權(quán)重進行自適應(yīng)調(diào)整。為實現(xiàn)上述過程,模型首先從訓(xùn)練集[D*train]中逐個尋找與測試集Dtest中每個樣本最為相似的樣本。經(jīng)過特征變量選擇階段,訓(xùn)練集中特征變量間的相關(guān)性已經(jīng)比較低,本文使用歐式距離衡量用作樣本間相似性的度量,n維向量[xi]和[xj]的歐氏距離定義為:
[Dxi,xj=l=1n(xil-xjl)2] (3)
通過式(3)從訓(xùn)練集中找到與測試集中最為相近的樣本組成驗證集Dvalid,使用基礎(chǔ)模型池中的所有模型對Dvalid進行預(yù)測。對于Dvalid中的任意樣本[si],輸出分類結(jié)果[cvalidi=ci|C1,ci|C2,???,ci|C3kT]與樣本非違約的可信度:
[pvalidi=Pci=1C1,Pci=1C2,???,P(ci=1)|C3kT]
(4)
為實現(xiàn)對基礎(chǔ)分類模型[Cii=1,2,…,3k]的篩選,本文引入第二個遺傳算法以對每個基礎(chǔ)模型池賦予恰當(dāng)?shù)臋?quán)重。先前研究多基于基礎(chǔ)模型預(yù)測結(jié)果的多樣性指標修剪模型,常用的指標有Yule Q 統(tǒng)計量、Kohavi-Wolpert方差、Kuncheva熵等,但是上述指標經(jīng)常會對同一組分類器的多樣性度量產(chǎn)生分歧。而基于精度的篩選是另一種思路,Visentini等(2016)比較了精度和多樣性的篩選規(guī)則,并提出一種基于F分數(shù)的模型修剪方法。本文提出一種基于精度指標AUC-H的篩選規(guī)則,AUC-H指標由Hand(2009)提出,修正了傳統(tǒng)AUC指標受模型可信度輸出分布的影響導(dǎo)致的結(jié)果缺乏可比性的弊病,本文使用該指標作為基礎(chǔ)模型池的篩選準則。
令[AUCH(*)]為給定一組可信度和實際類別后的AUC-H值,給定[pvalidi],使用遺傳算法尋找基礎(chǔ)模型池中各模型的最優(yōu)權(quán)重[w*],遺傳算法適應(yīng)度函數(shù)為
[fs=argmax[AUCHpvalidi×w*]] (5)
求得[w*]后,對輸出分類矩陣[ctest]及樣本非違約的概率矩陣[ptest]進行加權(quán)處理,DSHE模型對驗證集中任一樣本[xi]的最終預(yù)測結(jié)果為:
[cxi=1,pxi=ptest×w*≥0.5-1,pxi=ptest×w*<0.5] (6)
三、實證分析
為驗證DSHE模型對P2P網(wǎng)絡(luò)借貸信用評分性能,本文選用美國P2P網(wǎng)絡(luò)借貸平臺Lending Club和中國平臺人人貸的真實交易記錄作為原始數(shù)據(jù)集;另外為驗證模型的普適性,本文也引入UCI數(shù)據(jù)庫中的經(jīng)典信用評分數(shù)據(jù)集German進行實證分析。同時,將DSHE模型同以下幾種常見的信用評分模型進行比較、驗證。這些常用信用評分模型包括樸素貝葉斯(na?ve Bayesian,NB)、K近鄰(KNN)、Logistic回歸(LR)、MLP、DT和RBF核支持向量機等單一分類模型以及MLP-bagging、DT-bagging、SVM-bagging、隨機森林(Random Forest,RF)、AdaBoost和LogitBoost等同質(zhì)集成分類模型以及基于三種不同篩選策略的異質(zhì)集成分類模型:多數(shù)投票、局部類別精度(Local Class Accuracy,LCA)、總體精度(Total Accuracy)。
(一)數(shù)據(jù)集描述
German數(shù)據(jù)集是UCI數(shù)據(jù)庫中著名的信用數(shù)據(jù)集,常被用于構(gòu)建信用評分模型,實現(xiàn)模型間的橫向比較。該數(shù)據(jù)集共包含24個屬性變量和1個類別變量,共包含1000個樣本,類別變量將全體樣本劃分為good和bad兩類,分別由1和-1表示,其中g(shù)ood樣本有700個,bad樣本有300個。
Lending Club的數(shù)據(jù)可從其網(wǎng)站下載。原始數(shù)據(jù)集共包含55維屬性變量和1個類別變量。去除難以量化或與信用評分無關(guān)的變量,如借款描述、借款人地區(qū)、政策編碼等,剩余14個特征變量。變量說明見表1。本文從2014年1月和2月發(fā)生的交易中各抽取2642個具有還款結(jié)果(類別變量為全部還清或發(fā)生違約,分別由1和-1表示)的樣本組成的數(shù)據(jù)集。數(shù)據(jù)集中非違約貸款有1322個,違約貸款1320個。
人人貸數(shù)據(jù)集由Spider爬蟲軟件抓取,獲得人人貸平臺2015年1月間的交易記錄,共包含借款人年齡、教育水平、平臺評級等在內(nèi)的14個特征變量,樣本數(shù)共計2842個,其中非違約貸款有2144個,違約貸款有698個。
所有特征變量在進行投入模型前均實施[0,1]標準化以消除量綱影響。需要說明的是,上述數(shù)據(jù)集均不存在缺失值。
(二)實驗設(shè)置
實驗首先應(yīng)確定Bagging的實施次數(shù),Paleologo 等(2010)發(fā)現(xiàn)抽樣次數(shù)定為20—50次會獲取較好的分類效果。本文設(shè)置Bagging次數(shù)為50,即各構(gòu)建50個SVM、MLP和DT模型,共構(gòu)建150個基礎(chǔ)分類模型。
三類分類算法——SVM、MLP和DT的參數(shù)設(shè)置參考Nascimento等(2014)的研究。SVM使用徑向基函數(shù)核,成本參數(shù)C以及RBF核寬度γ使用網(wǎng)格搜索法尋優(yōu);MLP設(shè)置隱含層數(shù)為1,隱含層節(jié)點數(shù)按照公式“隱含層節(jié)點數(shù)=2[×]輸入層節(jié)點數(shù)+1”設(shè)置;DT則使用C4.5算法,置信值設(shè)置為0.25。
為客觀檢驗DSHE模型與上述信用評分模型的評估性能,本文采用十折交叉檢驗,即將全體樣本隨機十等分,每次取其中一份作為測試集,其他作為訓(xùn)練集,如此循環(huán)10次。為使實驗結(jié)果更加穩(wěn)定,本文對每個模型共進行30次十折交叉檢驗并取平均數(shù)作為該模型的表現(xiàn)。本文的實驗基于Matlab R2015a和Weka 3.6.12實現(xiàn)。
(三)評價準則
為實現(xiàn)各模型間評估性能的比較,本文使用下列4種評價指標:準確率(AR)、第一類錯誤率(Error I)、第二類錯誤率(Error II)和AUC-H。指標具體的計算公式引入混淆矩陣進行說明。
表3為標準的二分類混淆矩陣,TP、FP、FN、TN分別表示預(yù)測結(jié)果與實際結(jié)果的4種情況。其中,
表3:混淆矩陣示意圖
[預(yù)測結(jié)果
實際結(jié)果 正類 負類 正類(信用好) TP FN TP+FN 負類(信用差) FP TN FP+TN TP+FP FN+TN TP+FP+FN+TN ]
[AR=TP+FNTP+FP+FN+TN] (6)
[Error I=FPFP+TN] (7)
[Error II=FNTP+FN] (8)
Hand(2009)指出傳統(tǒng)的AUC假設(shè)不同分類模型的誤分類成本不同,但實際上該成本取決于分類問題本身而非模型,因此提出了改進的AUC-H指標。該指標使用[β]分布,修正了不同分類模型誤分類成本的不同,使指標更加可信。
針對不同的指標和數(shù)據(jù)集,模型間往往互有優(yōu)劣。由于分類模型間的比較會違背參數(shù)檢驗的假設(shè),本文引入非參數(shù)的Friedman檢驗,利用秩檢驗多個總體分布是否存在顯著差異。Friedman檢驗的統(tǒng)計量值表示如下:
[χ2F=12DK(K+1)k=1KAvR2j-K(K+1)24] (9)
其中[AvR2j=1Di=1Drji],D為數(shù)據(jù)集個數(shù),K是分類模型個數(shù),[rji]表示第j個模型在第i個數(shù)據(jù)集上的平均排序。當(dāng)Friedman檢驗的零假設(shè)被拒絕后,可實施post-hoc檢驗,用于確認分類模型間的總體分布差異是否顯著。本文使用post-hoc檢驗中的Nemenyi檢驗。該檢驗認為如果兩個分類模型的平均排名大于某一臨界值CD則存在顯著差別。CD的計算如式(10)所示:
[CD=qα,∞,kK(K+1)12D] (10)
其中[qα,∞,k]值大小基于t統(tǒng)計量。為將本文提出的DSHE模型與其他基準模型比較,本文對CD進行Bonferroni-Dunn修正。
(四)結(jié)果分析
表4給出了DSHE模型與其他對比模型在German數(shù)據(jù)集、Lending Club數(shù)據(jù)集和人人貸數(shù)據(jù)集上的性能,表中的粗體字表示每一列對應(yīng)的最佳表現(xiàn)。根據(jù)模型在各評價指標上的表現(xiàn)由好至壞排序,分別賦予1,2,…,16,最后通過對每個模型對應(yīng)的序值取平均,即可得到平均秩。從中可以得出:
1. 對于單一分類模型而言,LR的表現(xiàn)優(yōu)于其他統(tǒng)計學(xué)方法和SVM、MLP、DT等數(shù)據(jù)挖掘方法,這與Lessmann等(2015)、晏艷陽和蔣恒波(2010)的研究結(jié)果是一致的。LR取得了最低的平均秩且錯誤率較為平衡。加之LR易于操作,使得其在當(dāng)今信用評分領(lǐng)域仍占據(jù)一席之地;而樸素貝葉斯和K近鄰的表現(xiàn)較差,這是因為這兩個模型較容易過擬合。
2. 在同質(zhì)集成模型中,比較單一模型及應(yīng)用Bagging方法構(gòu)建的集成模型,發(fā)現(xiàn)MLP集成模型的精度提升較大,而SVM集成模型的提升較小,這也從側(cè)面證明Bagging、Boosting等集成方法較適宜能夠提供更高多樣性的不穩(wěn)定分類模型。隨機森林在同質(zhì)集成模型中表現(xiàn)最佳,Lessmann等(2015)也提出將隨機森林作為新的信用評分模型的對照模型。
3. 異質(zhì)集成模型的表現(xiàn)整體上優(yōu)于單一分類模型和同質(zhì)集成模型,簡單的多數(shù)投票異質(zhì)模型(HE-MV)就取得了相當(dāng)可觀的分類效果,包含行業(yè)標桿的LR和隨機森林模型,這可能是由于不同類型的基礎(chǔ)模型提供了不同的假設(shè)空間和搜索空間,從而增強了模型的泛化能力。這一結(jié)果為構(gòu)建信用評分模型提供了新的思路,可繼續(xù)探索異質(zhì)集成信用評分模型。本文提出的DSHE模型是在HE-MV模型的基礎(chǔ)上更進一步,在P2P網(wǎng)絡(luò)借貸數(shù)據(jù)集和傳統(tǒng)信用數(shù)據(jù)集均取得令人滿意的效果,特別是AR和AUC-H兩個指標,處于全體模型的前兩位。而對于信用評分中比較關(guān)心的第一類錯誤,DSHE的表現(xiàn)也比較好,在集成分類模型中均處于前列,這也從側(cè)面說明本文提出的基于AUC-H指標的動態(tài)篩選策略的有效性。
為更加清晰地分析各模型跨數(shù)據(jù)集和跨評價準則的表現(xiàn),使用式(9)對表2中各模型性能使用非參數(shù)Friedman檢驗,得到[χ2F=65.875],對應(yīng)p值小于0.001,拒絕零假設(shè),各模型的平均秩存在顯著差異,進而實施Nemenyi檢驗比較DSHE是否與其他模型存在統(tǒng)計學(xué)上的顯著差異進行具體分析,其結(jié)果如圖2所示。
圖2中橫軸表示各模型,縱軸則表示模型在3個數(shù)據(jù)集、共計12個評價準則下的平均秩。平均秩越大,則表明該模型表現(xiàn)越差。其中DSHE模型具有最低的平均秩,說明其綜合表現(xiàn)最優(yōu);針對其他模型而言,若高于對比線,則表明在該顯著水平下其平均表現(xiàn)顯著地劣于DSHE模型。在最為嚴格的p=0.01的水平下,DSHE的平均秩顯著低于全體單一模型和除隨機森林外的絕大部分同質(zhì)集成模型,DSHE相較于當(dāng)前的主流方法能夠提供更佳的信用評估性能。而DSHE與大部分其他異質(zhì)集成模型的表現(xiàn)在統(tǒng)計學(xué)上不存在顯著差別,表明異質(zhì)集成模型整體上取得令人滿意的評估性能。
四、結(jié)論
建立準確且易操作的信用評分體系,對于P2P網(wǎng)絡(luò)借貸的參與者而言具有十分重大的意義。本文借鑒了傳統(tǒng)信用評分方法,特別地對P2P網(wǎng)絡(luò)借貸的信用評分進行了研究,相比于相關(guān)集成信用評分模型研究,在結(jié)構(gòu)和集成策略上進行了改進,提出了三階段的動態(tài)異質(zhì)集成信用評估模型DSHE,并使用UCI數(shù)據(jù)庫中的數(shù)據(jù)集和P2P網(wǎng)絡(luò)借貸的真實數(shù)據(jù)進行了實證分析,結(jié)果發(fā)現(xiàn)在3個數(shù)據(jù)集中DSHE的平均表現(xiàn)最佳,特別是在準確率和AUC-H指標上表現(xiàn)較為突出,其綜合表現(xiàn)顯著優(yōu)于包括行業(yè)普遍使用的LR模型在內(nèi)的大部分基準模型,從而為異質(zhì)集成信用評分模型的建模提供了一個新的思路:在今后的信用評分模型的構(gòu)建中,可充分考慮引入評估性能更具優(yōu)勢的異質(zhì)集成模型,對P2P借款人信用情況做出更準確的預(yù)測。
參考文獻:
[1]吳沖,夏晗.基于支持向量機集成的電子商務(wù)環(huán)境下客戶信用評估模型研究[J].中國管理科學(xué),2008,24(S1).
[2]肖進,劉敦虎,顧新.銀行客戶信用評估動態(tài)分類器集成選擇模型[J].管理科學(xué)學(xué)報,2015,17(3).
[3]傅彥銘,臧敦剛,戚名鈺.P2P網(wǎng)絡(luò)貸款信用的風(fēng)險評估[J].統(tǒng)計與決策,2014,29(21).
[4]劉大洪,廖檢文,陳柳潔.動態(tài)模糊聚類信用評價模型及其應(yīng)用研究[J].企業(yè)導(dǎo)報,2013,19(16).
[5]晏艷陽,蔣恒波.信用評分模型應(yīng)用比較研究——基于個體工商戶數(shù)據(jù)的檢驗[J].統(tǒng)計與信息論壇,2010, 25(5).
[6]Guo Y,Zhou W,Luo C, et al. 2016. Instance-Based Credit Risk Assessment for Investment Decisions in P2P Lending[J].European Journal of Operational Research,249(2).
[7]West D,Dellana S,Qian J. 2005. Neural network ensemble strategies for financial decision applications[J].Computers & operations research,32(10).
[8]Tsai C-F,Wu J-W. 2008. Using neural network ensembles for bankruptcy prediction and credit scoring[J].Expert systems with applications,34(4).
[9]Wolpert D H,Macready W G. 1997. No free lunch theorems for optimization[J].IEEE transactions on evolutionary computation,1(1).
[10]Emekter R,Tu Y,Jirasakuldech B,et al. 2015. Evaluating credit risk and loan performance in online Peer-to-Peer (P2P) lending[J]. Applied Economics,47(1).
[11]Malekipirbazari M,Aksakalli V. 2015. Risk assessment in social lending via random forests[J].Expert Systems with Applications,42(10).
[12]Visentini I,Snidaro L,F(xiàn)oresti G L. 2016. Diversity-aware classifier ensemble selection via f-score[J].Information Fusion,28.
[13]Ala'raj M,Abbod M F. 2016. Classifiers consensus system approach for credit scoring[J].Knowledge-Based Systems,10.
[14]Nascimento D S,Coelho A L,Canuto A M. 2014. Integrating complementary techniques for promoting diversity in classifier ensembles: A systematic study[J].Neurocomputing,138(8).
[15]Visentini I,Snidaro L,F(xiàn)oresti G L. 2016. Diversity-aware classifier ensemble selection via f-score[J].Info Infus, 28(3).
[16]Hand D J. 2009. Measuring classifier performance: a coherent alternative to the area under the ROC curve[J]. Machine learning,77(1).
[17]Paleologo G,Elisseeff A,Antonini G. 2010. Subagging for credit scoring models[J].European Journal of Operational Research,201(2).
[18]Dem?ar J. 2006. Statistical comparisons of classifiers over multiple data sets[J].J Mach Learn Res,7(1).
[19]Lessmann S,Baesens B,Seow H-V,et al. 2015. Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research[J].European Journal of Operational Research,247(1).
Abstract:Following the mechanism of traditional credit scoring methods,a novel dynamic selective heterogeneous ensemble(DSEH)model suitable to the application of P2P lending is proposed. The model provides a feature selection algorithm,which is able to filter redundant features and handle high-dimension data. The heterogeneous structure and dynamic selection strategy can adaptively adjust the weights of base models and thus,enhance the evaluation capability. UCI credit dataset and real dataset from two P2P lending platforms are used to validate the proposal. The results show that DSHE outperforms other mainstream credit scoring approaches in several measures. The average rank of proposed DSHE is superior to baseline models including logistic regression.
Key Words:credit scoring,dynamic selective heterogeneous ensemble model,P2P lending
(責(zé)任編輯 耿 欣;校對 LX,GX)