汪政元, 伍業(yè)鋒
(暨南大學(xué) 經(jīng)濟(jì)學(xué)院,廣東 廣州 510632)
基于貢獻(xiàn)度隨機(jī)森林模型的公司債信用風(fēng)險實證分析*
汪政元, 伍業(yè)鋒
(暨南大學(xué) 經(jīng)濟(jì)學(xué)院,廣東 廣州 510632)
運用貢獻(xiàn)度隨機(jī)森林方法(CRF)方法探討公司債財務(wù)指標(biāo)比率與其違約率的關(guān)系.運用連續(xù)屬性離散化方法(OB)進(jìn)行財務(wù)指標(biāo)最優(yōu)降維;運用WOE變換進(jìn)行模型變量約簡.研究表明,CRF模型的分類性能顯著優(yōu)于其他模型,測試集評估總體正確率達(dá)90.47%,AUC統(tǒng)計量、AR比率及K-S值分別提升了2.6%、7.6%、4.38%,變量貢獻(xiàn)度量化了各財務(wù)指標(biāo)對違約率影響,為詮釋隨機(jī)森林預(yù)測機(jī)制提供了依據(jù).
財務(wù)管理;違約預(yù)測;實證分析; 貢獻(xiàn)度隨機(jī)森林; 連續(xù)屬性離散化; WOE變換
隨著金融體系的快速發(fā)展,金融市場不斷實現(xiàn)快速迭代不斷更新,取得顯著成就的同時,危機(jī)事件卻頻出不窮.2016年以來國內(nèi)先后出現(xiàn)多起銀行危機(jī)事件,先后有中國農(nóng)業(yè)銀行39.15億元票據(jù)案件、中信銀行9.69億票據(jù)案件、天津銀行7.86億票據(jù)案件.上述危機(jī)之所以爆發(fā),一個重要原因就是風(fēng)險管理不當(dāng).而信用風(fēng)險作為Basel新資本協(xié)議所強(qiáng)調(diào)的重要風(fēng)險之一,由于其復(fù)雜多變,對信用風(fēng)險的識別、計量往往面臨更大的挑戰(zhàn).如何對借債企業(yè)的信用風(fēng)險進(jìn)行評估、預(yù)判其違約概率是信用風(fēng)險管理的重點內(nèi)容.因此,建立科學(xué)有效的信用風(fēng)險評估模型,無論是對商業(yè)銀行增強(qiáng)抵御風(fēng)險能力,還是對企業(yè)管理者宏觀審慎的戰(zhàn)略決策均有顯著意義.
從信用風(fēng)險的現(xiàn)有研究成果來看,方法體系多分布于傳統(tǒng)的統(tǒng)計分析方法、定性評級法、基于期權(quán)理論以及現(xiàn)代數(shù)據(jù)挖掘類方法.其中,最早研究開始于Altman(1968)[1], 認(rèn)為企業(yè)違約可能性的大小與其財務(wù)健全與否有直接密切聯(lián)系,選擇五個重要的財務(wù)比率,建立了區(qū)別倒閉公司與非倒閉公司的Altman模型.Deakin(1972)[2]認(rèn)為,己經(jīng)破產(chǎn)、無力償還債務(wù)的公司容易發(fā)生信用風(fēng)險.由于我國目前信用評級機(jī)構(gòu)尚不完善,信用評級數(shù)據(jù)嚴(yán)重缺失,國內(nèi)關(guān)于企業(yè)信用風(fēng)險的研究多從財務(wù)數(shù)據(jù)中提取特征指標(biāo)建立相應(yīng)信用評價模型.Prinzie(2008)[3]將隨機(jī)森林方法與logistic方法相結(jié)合,利用隨機(jī)森林的構(gòu)造決策樹的思想構(gòu)建logistic決策森林,提高了logistic模型的估計精度.Yeh等(2012)[4]利用實際金融市場數(shù)據(jù),基于KMV模型、隨機(jī)森林方法、粗糙集理論構(gòu)建混合KNV-RF-RST模型,評價企業(yè)信用風(fēng)險問題.張奇等(2015)[5]構(gòu)建了Logit-SVM混合評價模型,提高了模型在訓(xùn)練集上的二分類預(yù)測能力.Cui (2015)等[6]充分利用社交媒體大數(shù)據(jù),結(jié)合BP神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建現(xiàn)代商業(yè)銀行信用風(fēng)險評價模型,拓展了傳統(tǒng)的信用風(fēng)險研究指標(biāo)選擇方式.上述研究從不同角度充實了信用風(fēng)險評價研究,但多數(shù)研究都注重模型精度的提高,而忽略了在提高模型精度的同時增加模型的解釋能力.如何改進(jìn)已有的學(xué)習(xí)算法,在提高模型精度的同時也保證模型的解釋能力、量化評估指標(biāo)的貢獻(xiàn)度.基于此,本文采用最優(yōu)分箱(Optimal Binning,OB)和證據(jù)權(quán)重變換(Weight Of Evidence,WOE)對數(shù)據(jù)集進(jìn)行轉(zhuǎn)變進(jìn)一步提升模型預(yù)測精度,并提出貢獻(xiàn)度隨機(jī)森林(Contribution Random Forest,CRF)方法分解預(yù)測函數(shù),在提升預(yù)測性能同時也提升了傳統(tǒng)RF模型的解釋能力.
2.1 隨機(jī)森林原理回顧
隨機(jī)森林是Breiman(2001)[8]提出的一種組合分類算法.隨機(jī)森林通過隨機(jī)的方式建立多個決策樹,利用bootstrap抽樣方法從樣本數(shù)據(jù)中抽取k個bootstrap樣本Si(i=1,2,…,k),再每次從原始M個自變量中選擇n輸入變量(n?M),由被選擇的n個自變量構(gòu)成隨機(jī)特征輸入向量X,并利用分類回歸樹(CART)算法建立相應(yīng)無剪枝的元決策樹分類器,最后利用這k個元分類器構(gòu)成一個組合分類決策系統(tǒng),最終采用簡單投票法做出最終預(yù)測.
2.2 連續(xù)屬性離散化與WOE變換
原始隨機(jī)森林算法模型雖然分類精度高,但計算負(fù)荷大、評估速度慢,在數(shù)據(jù)集指標(biāo)維度過大時這一點尤為明顯.而對于采用信息熵、Gini指數(shù)作為節(jié)點分裂標(biāo)準(zhǔn)的隨機(jī)森林而言,在決策樹的生成過程中傾向于選擇取值分布廣的連續(xù)變量,無法有效處理連續(xù)變量屬性,而通過離散化連續(xù)變量,恰可以消除這一影響.根據(jù)Fayyad和Irani(1993)[10]的基于熵的連續(xù)變量離散化最優(yōu)分箱方法,以下簡稱最優(yōu)分箱(Optimal Binning,OB),其原理和步驟如下:
設(shè)訓(xùn)練集S,某連續(xù)變量V的取值序列為Sv={v1,v2,…,vn},設(shè)定每次劃分帶來的信息增益最小閾值為ΔGain,變量最大分組數(shù)為K,則對變量V的離散化操作為:
(1)對序列為{v1,v2,…,vn}按升序排序,得到S'v={v'1,v'2,…,v'n};
(4)計算劃分后的信息增益,若最佳分割點為Cutj,計算該劃分帶來的信息增益Gain(S,V,Cutj),判斷該信息增益是否大于最小信息增益閾值ΔGain,若Gain(S,V,Cutj)>ΔGain,則接受將Cuti作為分割點.
(5)對分割后的左右子集,重復(fù)上述步驟,直至達(dá)到最大分組數(shù)K.
通過對連續(xù)變量進(jìn)行OB分箱,一方面約束了連續(xù)變量的取值維度,使得各變量之間利用信息增益、Gini指數(shù)作為節(jié)點分裂標(biāo)準(zhǔn)有了可比性,且在一定程度上避免了極端值的影響;另一方面變量取值的降維大大降低了算法的開銷.在上述連續(xù)變量分箱后,相當(dāng)于若干個虛擬變量,這就導(dǎo)致原始數(shù)據(jù)集變量取值過于稀疏,因此需要對分箱后的數(shù)據(jù)進(jìn)一步規(guī)約,考慮進(jìn)行證據(jù)權(quán)重變換(Weight of Evidence,WOE)[10],對分箱后的變量進(jìn)行重新編碼.
設(shè)在訓(xùn)練集S中,對某個連續(xù)變量V按上述熵分箱方法進(jìn)行分箱處理,在變量V分箱的約束下,原始訓(xùn)練集劃分為{Sv1,Sv2,…,Svk},在Cuti的作用下,每個子集Svi中正例樣本、負(fù)例樣本的占比總正例、負(fù)例的比率分別為Pvi,good、Pvi,bad,則定義
其中nvi,bad為負(fù)例樣本個數(shù),nbad為訓(xùn)練集總負(fù)例樣本數(shù),nvi,good為正例樣本個數(shù),ngood為訓(xùn)練集總正例樣本數(shù).WOE不僅可以反映分組內(nèi)部正例、負(fù)例相對總體的占比差異,還可以反映每個分箱中負(fù)例、正例的比例與總體中負(fù)例、正例的比例的差異,若樣本中的負(fù)例與正例的比率大于總體中負(fù)例與正例的比率,或者說子集中負(fù)例占比總負(fù)例的比率大于集中正例占比總正例的比率,則WOE值為正,反之則為負(fù).
2.3 貢獻(xiàn)度隨機(jī)森林構(gòu)建
基于傳統(tǒng)隨機(jī)森林方法計算的變量重要性是從整體層面分析分析各特征變量在隨機(jī)森林決策中發(fā)揮的作用,為評估在個案研究中,還需要評估某次具體的分類預(yù)測各特征變量發(fā)揮的作用,為此就需要打破隨機(jī)森林的“黑盒”限制.考慮對隨機(jī)森林的預(yù)測函數(shù)進(jìn)行改變,先在預(yù)測函數(shù)中計算決策路徑下每個節(jié)點的貢獻(xiàn)度,再映射得到每個特征變量在預(yù)測結(jié)果中的貢獻(xiàn)度,通過貢獻(xiàn)度判斷特征變量對預(yù)測結(jié)果的影響大小,得到貢獻(xiàn)度隨機(jī)森林(Contribution Random Forest,CRF).
在訓(xùn)練集S中,對于一個具有M個葉子節(jié)點的決策樹,其決策空間可以劃分為M個區(qū)域Rm(m (1) 其中,Rm為第m個葉子節(jié)點所從屬的決策區(qū)域.I(·)示性函數(shù),當(dāng)輸入向量X落入Rm時取值為1,否則為0.Cm為常數(shù)向量,表示Rm區(qū)域中目標(biāo)變量被預(yù)測為某一類的概率.對于每個決策路徑下,第i+1個節(jié)點的貢獻(xiàn)值為第i+1個節(jié)點的決策值與其父節(jié)點(第i個節(jié)點)的決策值之差: contribi+1=Ci+1-Ci(i=0,1,2,…,p-1) , (2) 其中,p為某個決策路徑下所具有的節(jié)點數(shù).將每個節(jié)點的貢獻(xiàn)值映射到該節(jié)點所對應(yīng)的特征變量,得到某個決策路徑下每個特征的貢獻(xiàn)值,定義某特征變量的貢獻(xiàn)度函數(shù)為: (3) 其中,node(i)為第i個節(jié)點對應(yīng)的特征變量,xk為特征向量X中第k個特征變量.將決策路徑下每個特征變量的貢獻(xiàn)度加總,即為該路徑下所有特征變量的貢獻(xiàn)度之和: (4) 其中,n為特征變量的個數(shù).式(4)給出了決策路徑下所有特征變量的貢獻(xiàn)度之和,考慮到根節(jié)點處已有一個初始決策值C0(不使用任何特征變量所能達(dá)到的決策效果),對式(4)修正,可得最終預(yù)測函數(shù): (5) 隨機(jī)森林中預(yù)測類別占比最大者即為最終預(yù)測結(jié)果,因此,可重新定義隨機(jī)森林的預(yù)測函數(shù)為: (6) 其中,J為隨機(jī)森林中樹的數(shù)量.對式(6)進(jìn)行變形得最終CRF模型的預(yù)測函數(shù): (7) 從式(7)可以看出,CRF模型預(yù)測值可以分解為各決策樹的初始決策值的平均值與各特征變量的平均貢獻(xiàn)值之和.CRF模型雖然對隨機(jī)森林對預(yù)測函數(shù)進(jìn)行了分解,但最終對響應(yīng)變量的預(yù)測結(jié)果和傳統(tǒng)隨機(jī)森林的投票法完全一致. 3.1 數(shù)據(jù)準(zhǔn)備與指標(biāo)體系說明 選取發(fā)行公司債券的滬深上市公司作為研究對象,數(shù)據(jù)來源于WIND金融咨詢終端,樣本包括截止2016年8月1日已到期債券和已摘牌債券.由于企業(yè)的財務(wù)狀況是企業(yè)經(jīng)營現(xiàn)狀的直接反饋,其信用風(fēng)險亦可從財務(wù)指標(biāo)角度考察,因此從財務(wù)指標(biāo)比率的角度建立信用風(fēng)險評價模型.參考中誠信、鵬元資信、大公國際等評級機(jī)構(gòu)信用風(fēng)險評價指標(biāo)體系,結(jié)合劉暢[11]等提出的中小企業(yè)信用風(fēng)險預(yù)警指標(biāo)體系,從資本結(jié)構(gòu)、盈利能力、償債能力、營運能力、發(fā)展能力以及現(xiàn)金流量情況6個方面,遴選以下25項財務(wù)比率指標(biāo)作為信用風(fēng)險評估候選指標(biāo)集,見表1.在研究樣本中,剔除數(shù)據(jù)缺失嚴(yán)重的樣本,最終初始樣本量為230.在230只債券中,已發(fā)生違約的債券有28只,記為Bad類,正常債券202只,記為Good類.在數(shù)據(jù)時間截點選擇上,選擇債券違約發(fā)生前一年或被評級機(jī)構(gòu)降級前一年的財務(wù)數(shù)據(jù),以此達(dá)到建模預(yù)警目的.由于現(xiàn)有樣本Bad類樣本過少,為平衡樣本結(jié)構(gòu),對于債券或主體評級為BBB-以下、債券(主體)評級或評級展望被連續(xù)降級的也歸為Bad類,最后利用SMOTE[12]方法選擇每個Bad類樣本臨近的5個樣本合成部分Bad類樣本,最終Bad類樣本為166. 表1 信用風(fēng)險評估指標(biāo)集 3.2 模型設(shè)定 設(shè)定訓(xùn)練集與測試集比例為7:3,分別設(shè)定隨機(jī)森林中元分類器數(shù)量為100、200、300、400,設(shè)定候選特征數(shù)的變化范圍為2-25,訓(xùn)練集中各模型的OOB誤差如圖1所示. 圖1 不同元分類器數(shù)量和不同候選特征數(shù)條件下OOB誤差情況 在n=100,候選特征數(shù)為 8時,OOB誤差達(dá)最小值為0.0702;在n=200,候選特征數(shù)為 4時,OOB誤差達(dá)最小值為0.0742;在n=300,候選特征數(shù)為 4時,OOB誤差達(dá)最小值為0.0661;在n=400,候選特征數(shù)為 3時,OOB誤差達(dá)最小值為0.0713 .綜合來看,隨著模型訓(xùn)練次數(shù)的增加,OOB誤差逐漸收斂于穩(wěn)定水平,過高的訓(xùn)練次數(shù)范圍反而增加計算負(fù)荷,而候選特征數(shù)不宜過大或多小,因此設(shè)定模型元分類器數(shù)量為300,候選特征數(shù)為4.在實施最優(yōu)分箱過程中,對連續(xù)變量的分組數(shù)不宜過大也不宜過小,過大則無法達(dá)到降維的目的,過小則區(qū)分度不足.設(shè)定每次劃分帶來的信息增益最小閾值為0.01,最大分組數(shù)K的變動范圍為3—10,不同分組條件下,隨機(jī)森林模型的準(zhǔn)確率情況如表2所示.當(dāng)分組數(shù)等于3時,模型的準(zhǔn)確率最低;當(dāng)分組數(shù)等于5或6時,準(zhǔn)確率達(dá)最大;當(dāng)分組數(shù)大于6時,準(zhǔn)確率開始下降.因此,設(shè)定最大分組數(shù)為5或6為宜,為減小計算負(fù)荷,此處設(shè)為5. 表2 不同分箱數(shù)條件下隨機(jī)森林準(zhǔn)確率 3.3 模型比較 經(jīng)過前述OB-WOE變換、預(yù)測函數(shù)貢獻(xiàn)度分解,即得變換后的CRF模型,為評估最優(yōu)分箱WOE變換對其他模型影響,考察決策樹、支持向量機(jī)、logistic回歸、貝葉斯分類、KNN最近鄰分類以及神經(jīng)網(wǎng)路在最優(yōu)分箱WOE變換下的預(yù)測表現(xiàn),如表3所示. 表3 最優(yōu)分箱WOE變換前后各模型準(zhǔn)確率情況 在實施最優(yōu)分箱WOE變換的訓(xùn)練集中,隨機(jī)森林對Good類樣本的準(zhǔn)確率為98.39%,相比不變化情況上升了6.07個百分點;對Bad類的準(zhǔn)確率為98.17%,上升了8.5個百分點.在測試集中,變換后的數(shù)據(jù)集對Good類樣本的準(zhǔn)確率為91.80%,對Bad類的準(zhǔn)確率為89.13%,分別上升了2.5、6.5個百分點.由此可見,無論是對于訓(xùn)練集還是測試集,對于隨機(jī)森林分類方法而言,OB-WOE變換后的數(shù)據(jù)集能顯著提升模型分類效果.對于其他模型而言,提升效果較為明顯的是logistic回歸、神經(jīng)網(wǎng)絡(luò).其中,logistic回歸對于Good類的預(yù)測能力的提升效果尤為明顯,訓(xùn)練集中由76.45%上升到90.32%,測試集中由76.82%上升到86.36%.對于神經(jīng)網(wǎng)絡(luò)而言,無論是測試集還是訓(xùn)練集,其Good類準(zhǔn)確率和Bad類準(zhǔn)確率都上升了10個百分點以上.究其原因,最優(yōu)分箱本質(zhì)是對數(shù)據(jù)集的一種規(guī)約,通過降低自變量取值維度來提煉各樣本之間的共性,故對于分類評估模型而言,最優(yōu)分箱后的數(shù)據(jù)往往更能提升分類效果.模型準(zhǔn)確率只是模型評估的一方面,為綜合評估一個信用風(fēng)險評價模型,還需要從ROC曲線、K-S曲線、CAP曲線等角度綜合度量. 3.4 模型總體效應(yīng)評估 考慮到準(zhǔn)確率只是評估模型優(yōu)劣的一種方法,在信用風(fēng)險評估研究中還經(jīng)常從ROC曲線、CAP曲線及K-S曲線三個角度考察模型的曲線性質(zhì).其中,ROC曲線是在混合矩陣基礎(chǔ)上利用圖形綜合揭示模型預(yù)測的靈敏性和誤報率的一種方法,橫軸表示誤報率(模型錯誤預(yù)測的Bad類占比總Good類比率),縱軸表示靈敏性(模型正確預(yù)測到Bad類占比總Bad類比率).CAP曲線又稱累計正確率曲線,CAP和準(zhǔn)確性比率(AR)通常廣泛用于信用評級領(lǐng)域,通過模型為受評對象計算一個風(fēng)險評分,將風(fēng)險評分作為其信用的綜合評價,評分越高風(fēng)險越大,通過求得不同風(fēng)險評分范圍百分比下累計違約的概率部分來刻畫CAP曲線.K-S曲線是對模型區(qū)分Good類樣本和Bad類樣本的另一種評估方法,利用評估模型為每個研究樣本計算一個違約概率,再將所有樣本進(jìn)行K等分分割,對每部分樣本按照違約概率大小進(jìn)行降序,計算每個樣本中違約與正常百分比的累計分布,二者之間的差異就是K-S曲線的構(gòu)成要素. 圖2A 進(jìn)行OB-WOE變換下的ROC曲線、 圖2B 不進(jìn)行OB-WOE變換下的ROC曲線、 如圖2所示,從各模型的測試集的ROC曲線來看,在誤報率在0.05左右時,變換后的CRF模型對Bad類的覆蓋率已達(dá)到92%,AUC統(tǒng)計量達(dá)0.943,而不變化的CRF模型模型對Bad類的覆蓋率約88%,AUC統(tǒng)計量統(tǒng)計量為0.917.對于其他模型,變換前后效果也很明顯,其中神經(jīng)網(wǎng)絡(luò)模型的AUC統(tǒng)計量有0.653提升到0.872,在誤報率為0.1時的覆蓋率由0.38左右提升到0.8.綜合來看,實施變換后,各模型的優(yōu)劣次序依次為隨機(jī)森林、SVM、KNN、神經(jīng)網(wǎng)絡(luò)、logistics回歸、貝葉斯、決策樹,與測試集準(zhǔn)確率評估結(jié)果基本一致.從各模型的CAP曲線來看,在前40%左右的樣本,變換后的CRF模型的CAP曲線貼近理想結(jié)果,其AR比例為0.891,不變換的CRF模型的CAP曲線與理想結(jié)果有一定差距,最終其AR比率為0.815,說明進(jìn)行最優(yōu)分箱變換能提高模型對Bad類的辨識度.從K-S曲線來看,變換后的模型,其K-S值達(dá)到0.8204,而不變換的CRF模型其K-S值為0.776 6,處于較高水平,進(jìn)一步說明進(jìn)行連續(xù)變量的OB-WOE變換能提升模型的分類性能. 3.5 變量重要性與變量貢獻(xiàn)度比較 根據(jù)式(7)建立變換后的CRF模型,以“11超日債”2013年年度財務(wù)數(shù)據(jù)為例,評估其變量貢獻(xiàn)度,并對比隨機(jī)森林方法下的變量重要性. 在變量貢獻(xiàn)度分析方法下,各變量變量貢獻(xiàn)度之和為0.802,即說明劃分為Bad類的概率為0.802,從而可以認(rèn)為其風(fēng)險較高.評級機(jī)構(gòu)在超日債違約后才將其信用等級下調(diào)至C級,在某種程度上有一定時滯.而根據(jù)變換后的CRF模型,基于“超日債”發(fā)債主體2013年年度財務(wù)指標(biāo)數(shù)據(jù)可判斷其違約概率為0.802,在判別“11超日債”為違約過程中,各變量的變量變量貢獻(xiàn)度如表4所示. 表4 基于“11超日債” 違約預(yù)測變量重要性與變量貢獻(xiàn)度對比結(jié)果 注:“11超日債”是超日太陽于2012年3月7日發(fā)行的公司債,于2014年3月7日無法按期支付利息構(gòu)成違約,成為國內(nèi)首支違約的的公募債券. 由(7)式可知,在判斷“11超日債”為Bad類過程中,貢獻(xiàn)度排在前5位的變量與變量重要性排在前5位的變量重復(fù)率為40%;貢獻(xiàn)度排在前10位的變量與變量重要性排在前10位的變量重復(fù)率為60%;貢獻(xiàn)度排在前15位的變量與變量重要性排在前15位的變量重復(fù)率為73%;貢獻(xiàn)度排在前20位的變量與變量重要性排在前20位的變量重復(fù)率為85%.其中吻合度較高的變量為EBITtoSaale、Asset_TR、Gro_profit、TAtoD_R、AR_TR;差異較大的變量為Z_Value、Inventory_TR、EM、LDA_R.這是因為變量重要性是對全部樣本共性的提煉,旨在說明在各變量在總體數(shù)據(jù)集的表現(xiàn)情況,多用于從大量指標(biāo)中選擇有作用的變量;而變量貢獻(xiàn)度側(cè)重評估對象個性的描述,旨在說明在判斷其為Good類或Bad類過程中,哪些變量發(fā)揮的作用相對明顯,可用于個體分析判斷.從貢獻(xiàn)度來看,ROE的貢獻(xiàn)度最大,說明從ROE角度相對最能說明超日債的風(fēng)險情況,其次是EBITtoSaale、GropToRev、NetPro_M等等,這也與實際的財務(wù)分析理念一致.企業(yè)長期經(jīng)營戰(zhàn)略必須提升其ROE,ROE過低則自有資產(chǎn)利用效率低,償債壓力增大.此外,還注意到貢獻(xiàn)排名前12的變量中,其WOE值均為正,說明該分組子集中負(fù)例占比總負(fù)例的比率大于集中正例占比總正例的比率,即落入該分組的個案更多體現(xiàn)Bad類別的特征.結(jié)合 “11超日債”實際財務(wù)數(shù)據(jù)來看,其ROE為-1169.6,EBITtoSaale 為-793.56、GropToRev為-64.317、ROA為-65.783等均遠(yuǎn)低于平均水平,而其Z_Value為-3.34,遠(yuǎn)遠(yuǎn)低于Altman的破產(chǎn)概率預(yù)警閾值1.8[1],從而上述指標(biāo)在 “11 超日債”的判別過程中區(qū)分能力強(qiáng),對違約率影響顯著. 因此,從預(yù)測結(jié)果分解的維度上來看,CRF模型是對預(yù)測過程的一個分解,將“黑盒”的決策過程還原為各變量的貢獻(xiàn)度之和,進(jìn)而衡量在預(yù)測過程中哪些變量發(fā)揮的作用相對明顯,再從財務(wù)分析角度予以對比印證,在個案分析層面增加了模型的可解釋性. 針對傳統(tǒng)隨機(jī)森林方法的“黑盒”弊端提出貢獻(xiàn)度隨機(jī)森林方法,通過變量貢獻(xiàn)度視角研究了財務(wù)指標(biāo)與違約率的關(guān)系.利用對數(shù)據(jù)集進(jìn)行基于熵的最優(yōu)分箱處理、WOE變換實現(xiàn)數(shù)據(jù)集約簡目的,并進(jìn)一步構(gòu)建CRF模型評估變量在個案預(yù)測過程中的貢獻(xiàn)度,實現(xiàn)預(yù)測過程的可解釋性,最后基于ROC曲線、CAP曲線、K-S曲線對模型進(jìn)行評估.經(jīng)對比分析,實施最優(yōu)分箱、WOE變換能有效提升各模型的準(zhǔn)確率,但仍屬CRF模型準(zhǔn)確率最高,達(dá)90.47%.相比不變換的CRF模型,其AUC統(tǒng)計量、AR比率、K-S值分別提升了2.6%、7.6%、4.38%.在“11 超日債”單個樣本評估分析中,變量貢獻(xiàn)度和指標(biāo)重要性排在前5、10、15、20位指標(biāo)的重復(fù)度分別為40%、60%、73%、85%,兩種評估方式一致程度高.變量貢獻(xiàn)度排名靠前的指標(biāo)均對違約率影響顯著,通過變量貢獻(xiàn)度角度分解了隨機(jī)森林預(yù)測過程,量化各項指標(biāo)的影響大小,增加了模型的可解釋性. [1] Altman E I. Financial Ratios, Discriminate analysis and the prediction of corporate bankruptcy[J].Journal of Finance,1968, 12(23):589-609. [2] Deakin E B. A discriminate analysis of prediction for business failure[J]. Journal of Accounting Research,1972, 14(10):167-169. [3] Prinzie A, Van den Poel D. Random forests for multiclass classification: Random multinomial logit[J]. Expert systems with Applications, 2008, 34(3): 1721-1732. [4] Yeh C C, Lin F, Hsu C Y. A hybrid KMV model, random forests and rough set theory approach for credit rating [J]. Knowledge-Based Systems, 2012, 22(33):166-172. [5] 張奇, 胡藍(lán)藝, 王玨. 基于Logit與SVM的銀行業(yè)信用風(fēng)險評價模型研究[J]. 系統(tǒng)工程理論與實踐,2015, 10(7):1784-1790. [6] Cui D. Financial credit risk warning based on big data analysis [J]. Journal of Accounting Research , 2015, 8(10):133-141. [7] 李軍,信聰,陳暮紫,楊曉光. 訴訟處置不良貸款違約損失率估計的模型簇[J].系統(tǒng)工程,2015, 11(08):123-132. [8] Breiman L. Random forests[J].Machine Learning,2001, 45(1):145-168. [9] Fayyad U M, Irani K B. Multi-interval discretization of continuous valued attributes for classification learning[J]. Thirteenth International Joint Conference on Articial Intelligence, 1993, 12(2):1022-1027 [10] Bill H Y, Mykola T . Modeling exposure at default and loss given default: Empirical approaches and technical implementation [J]. Journal of Credit Risk, 2012, 8(2):81-102 [11] 劉暢, 郭敏, 莫鈮, 等. 基于巴塞爾協(xié)議Ⅱ內(nèi)部評級法構(gòu)建我國商業(yè)銀行中小企業(yè)貸款信用風(fēng)險有效度量和預(yù)警指標(biāo)體系[J]. 金融監(jiān)管研究, 2012, 12(7):26-39. [12]Chawla N, Bowyer K, Hall L. Smote: Synthetic minority Over-Sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16(3):321-357. The Empirical Analysis of the Credit Risk of Corporate Bond Based on the Contribution Random Forest Model WANG Zheng-yuan,WU Ye-feng (School of Economics, Jinan University, Guangzhou 510632) The contribution forest model(CRF) was used to research the inner connection between the corporate bonds and its financial index ratio,. The method of discretization and WOE transformation were applied to reduce the dimension of these indexes. The results show that the CRF model's performance significantly outperforms the other models, and the performance of the model on test dataset reaches a accuracy of 90.47%. And the other assessment indexes,AUC statistics, AR ratio and K-S values, are improved by 2.6%, 7.6%, 4.38%. Furthermore, the contribution of variables evaluated its influence on probability of default in a quantitative way, which provides a new point of view to interpret the process of forecast of random forest. financial management; default prediction; empirical analysis ; contribution andom forest model; discretization; WOE transformation 2016-08-31 中央高校基本科研業(yè)務(wù)費專項資金暨南遠(yuǎn)航計劃(12JNYH002) 汪政元(1991—),男,湖北黃岡人,碩士研究生E-mail:zhengyuanwang@outlook.com F224 A3 實證分析
4 結(jié) 論