国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹(shù)集成的債券發(fā)行企業(yè)財(cái)務(wù)預(yù)警研究

2020-03-30 03:44宋宇李鴻禧
財(cái)會(huì)月刊·下半月 2020年3期
關(guān)鍵詞:財(cái)務(wù)預(yù)警

宋宇 李鴻禧

【摘要】在我國(guó),債券發(fā)行人中財(cái)務(wù)危機(jī)企業(yè)數(shù)量遠(yuǎn)小于財(cái)務(wù)健康企業(yè),樣本的非平衡性導(dǎo)致一般的財(cái)務(wù)預(yù)警模型在訓(xùn)練時(shí)對(duì)財(cái)務(wù)危機(jī)企業(yè)的特征挖掘不足、預(yù)警精度低。利用“聚類(lèi)Bagging”集成方法,將樣本數(shù)量較多的財(cái)務(wù)健康企業(yè)樣本分成多組,將多組財(cái)務(wù)健康樣本與財(cái)務(wù)危機(jī)樣本進(jìn)行兩兩配對(duì),形成兩類(lèi)樣本大致平衡的多個(gè)訓(xùn)練子集。在多個(gè)訓(xùn)練子集上分別構(gòu)建決策樹(shù)模型作為基學(xué)習(xí)器,使得決策樹(shù)基學(xué)習(xí)器可以大致同等地學(xué)習(xí)健康樣本與危機(jī)樣本的特征。利用基學(xué)習(xí)器在測(cè)試集上的預(yù)測(cè)精度AUC值作為權(quán)重,對(duì)決策樹(shù)基學(xué)習(xí)器進(jìn)行加權(quán),得到?jīng)Q策樹(shù)集成模型,作為最終的財(cái)務(wù)預(yù)警模型。以制造業(yè)債券發(fā)行企業(yè)為樣本,實(shí)證對(duì)比發(fā)現(xiàn)基于決策樹(shù)集成的財(cái)務(wù)預(yù)警模型精度更高,說(shuō)明本模型能夠在總體預(yù)警正確率較高的前提下提高對(duì)財(cái)務(wù)危機(jī)企業(yè)的正確識(shí)別率。

【關(guān)鍵詞】財(cái)務(wù)預(yù)警;決策樹(shù)集成;AUC;預(yù)警指標(biāo)體系;債券發(fā)行

【中圖分類(lèi)號(hào)】F830? ? ? 【文獻(xiàn)標(biāo)識(shí)碼】A? ? ? 【文章編號(hào)】1004-0994(2020)06-0045-6

一、引言

隨著債券市場(chǎng)規(guī)模不斷擴(kuò)張、債券品種逐漸多樣化,債市信用風(fēng)險(xiǎn)越來(lái)越難以把控。2018年以來(lái)我國(guó)金融市場(chǎng)上的債務(wù)違約呈現(xiàn)常態(tài)化。2018年全年違約債券125只、違約規(guī)模高達(dá)1160億元,超過(guò)2014 ~ 2017年之和??梢?jiàn),我國(guó)金融市場(chǎng)的信用風(fēng)險(xiǎn)形勢(shì)愈加嚴(yán)峻。在債券違約常態(tài)化的大趨勢(shì)下,對(duì)債券發(fā)行人的財(cái)務(wù)風(fēng)險(xiǎn)及時(shí)進(jìn)行預(yù)警顯得尤為重要。財(cái)務(wù)預(yù)警是指通過(guò)挖掘企業(yè)數(shù)據(jù)和財(cái)務(wù)風(fēng)險(xiǎn)之間的關(guān)聯(lián)關(guān)系,預(yù)測(cè)企業(yè)發(fā)生財(cái)務(wù)危機(jī)的概率。對(duì)債券企業(yè)進(jìn)行財(cái)務(wù)預(yù)警,一方面能夠提前給出風(fēng)險(xiǎn)信號(hào),便于企業(yè)管理者及早改善經(jīng)營(yíng),避免破產(chǎn)違約的發(fā)生;另一方面能夠?yàn)殂y行、基金等機(jī)構(gòu)提供投資決策參考,使其免遭巨額損失。

財(cái)務(wù)預(yù)警模型的現(xiàn)有研究大致可分為三類(lèi):

一是基于統(tǒng)計(jì)計(jì)量方法的模型,其中有代表性的方法包括判別、聚類(lèi)、邏輯回歸等。楊貴軍等[1] 在財(cái)務(wù)預(yù)警體系中增加了Benford因子,并利用Lasso-logistic模型構(gòu)建財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型。張發(fā)明等[2] 利用Topsis-GRA方法構(gòu)造動(dòng)態(tài)信用評(píng)價(jià)加權(quán)決策矩陣,得到動(dòng)態(tài)信用評(píng)價(jià)結(jié)果。周憶等[3] 基于卡爾曼濾波算法構(gòu)建了僵尸企業(yè)風(fēng)險(xiǎn)動(dòng)態(tài)預(yù)警模型。Mizen等[4] 利用次序Probit回歸模型預(yù)測(cè)美國(guó)債券發(fā)行人的違約風(fēng)險(xiǎn)。

二是基于機(jī)器學(xué)習(xí)方法的模型,其中有代表性的方法包括決策樹(shù)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。蔡立新等[5] 在分析大數(shù)據(jù)技術(shù)與企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警需求的基礎(chǔ)上,構(gòu)建了大數(shù)據(jù)視角下的企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警機(jī)制。李茜等[6] 利用三種BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)算法構(gòu)建財(cái)務(wù)預(yù)警模型,在預(yù)測(cè)精度上進(jìn)行對(duì)比分析。Sevim等[7] 利用決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、邏輯回歸建立了貨幣危機(jī)的預(yù)警系統(tǒng)。

三是基于多種方法的組合模型。楊勝剛等[8] 利用決策樹(shù)方法對(duì)個(gè)人信用指標(biāo)進(jìn)行篩選,再利用神經(jīng)網(wǎng)絡(luò)構(gòu)建分類(lèi)模型。丁嵐等[9] 以logistic回歸、決策樹(shù)、支持向量機(jī)作為初級(jí)學(xué)習(xí)器,以支持向量機(jī)作為次級(jí)學(xué)習(xí)器,預(yù)測(cè)P2P網(wǎng)貸的違約風(fēng)險(xiǎn)。Javier De Andrés等[10] 將模糊聚類(lèi)和多元自適應(yīng)回歸模型結(jié)合,對(duì)企業(yè)的破產(chǎn)概率進(jìn)行預(yù)測(cè)。

決策樹(shù)模型的概念最早由Hunt等在1966年提出,最有影響力的模型是Quinlan提出的基于ID3算法的模型,其以信息增益選擇結(jié)點(diǎn)分裂屬性為基礎(chǔ)。后來(lái)又提出了改進(jìn)后的C4.5算法,其以信息增益比率選擇屬性為基礎(chǔ)。而C5.0算法在C4.5算法的基礎(chǔ)上又進(jìn)一步提高了識(shí)別率。近年來(lái),決策樹(shù)C5.0算法在風(fēng)險(xiǎn)預(yù)警和信用評(píng)級(jí)方面應(yīng)用廣泛。龐素琳等[11] 將決策樹(shù)C5.0算法用于構(gòu)造銀行個(gè)人信用評(píng)級(jí)模型。王茂光等[12] 通過(guò)決策樹(shù)C5.0算法建立了小額網(wǎng)貸平臺(tái)的風(fēng)險(xiǎn)監(jiān)控模型。

上述決策樹(shù)財(cái)務(wù)預(yù)警模型忽略了財(cái)務(wù)正常樣本與危機(jī)樣本之間數(shù)量比例不平衡的問(wèn)題。在當(dāng)前我國(guó)資本市場(chǎng)上,發(fā)生財(cái)務(wù)危機(jī)、資不抵債的融資企業(yè)(發(fā)債主體、借款人等)仍是少數(shù),大多數(shù)融資企業(yè)都處于財(cái)務(wù)正常狀態(tài)。這種危機(jī)樣本與正常樣本數(shù)量不均衡的現(xiàn)象,會(huì)導(dǎo)致分類(lèi)模型在訓(xùn)練時(shí)更多地學(xué)習(xí)正常樣本的數(shù)據(jù)規(guī)律,而忽略了對(duì)危機(jī)樣本的規(guī)律挖掘,從而對(duì)危機(jī)樣本的預(yù)測(cè)精度過(guò)低。所以,本文在考慮債券發(fā)行人中財(cái)務(wù)危機(jī)企業(yè)數(shù)量遠(yuǎn)小于財(cái)務(wù)健康企業(yè)的這種非平衡數(shù)據(jù)特征的前提下,構(gòu)建決策樹(shù)集成模型,旨在解決非平衡數(shù)據(jù)特征下的信用危機(jī)預(yù)警問(wèn)題,并提高預(yù)警的精度。

二、基于決策樹(shù)集成的財(cái)務(wù)預(yù)警模型

集成學(xué)習(xí)是將多個(gè)機(jī)器學(xué)習(xí)模型(稱(chēng)為“個(gè)體學(xué)習(xí)器”)按照一定的方法集成到一起。經(jīng)典的集成方法有AdaBoost、Bagging、隨機(jī)森林,這些經(jīng)典方法的特點(diǎn)是能讓個(gè)體學(xué)習(xí)器保持差異化,以保證每個(gè)個(gè)體學(xué)習(xí)器都能反映不同的信息,集成后的結(jié)果能夠更加全面,從而提升預(yù)測(cè)的精度。

本文采用的是同質(zhì)集成,即集成中只包含同種類(lèi)型的個(gè)體學(xué)習(xí)器,此時(shí)的個(gè)體學(xué)習(xí)器稱(chēng)為“基學(xué)習(xí)器”。本文采用決策樹(shù)C5.0算法構(gòu)建決策樹(shù)基學(xué)習(xí)器,通過(guò)“聚類(lèi)Bagging”方法將多個(gè)決策樹(shù)基學(xué)習(xí)器進(jìn)行集成,以解決非平衡數(shù)據(jù)特征下的財(cái)務(wù)預(yù)警精度問(wèn)題。

(一)基學(xué)習(xí)器的構(gòu)建

1. 決策樹(shù)C5.0算法。決策樹(shù)C5.0算法依據(jù)的是信息增益比率,選取該節(jié)點(diǎn)上信息增益比率最大的指標(biāo)作為分裂變量,劃分樣本生成下一層新的結(jié)點(diǎn)。信息增益比率的計(jì)算過(guò)程如下:

其中,n(Sj)為樣本子集Sj的樣本數(shù)量,n為樣本總數(shù)。條件信息熵E(S|X)反映了樣本集合按照指標(biāo)X的取值進(jìn)行分類(lèi)之后,對(duì)于財(cái)務(wù)危機(jī)的平均分辨能力。條件信息熵E(S|X)越小,指標(biāo)X對(duì)于財(cái)務(wù)危機(jī)的分辨能力越強(qiáng)。

信息增益G(X)反映了指標(biāo)X對(duì)于“是否發(fā)生財(cái)務(wù)危機(jī)”的分辨能力。信息增益G(X)越大,指標(biāo)X對(duì)于“是否發(fā)生財(cái)務(wù)危機(jī)”的分辨能力越強(qiáng),從而可以更準(zhǔn)確地將財(cái)務(wù)危機(jī)樣本識(shí)別出來(lái)。為了消除指標(biāo)取值種類(lèi)數(shù)目的影響,進(jìn)一步計(jì)算信息增益比率R(X):

其中,n(Sj)為樣本集合按照指標(biāo)X取值劃分后的樣本子集Sj的樣本數(shù)量,n為樣本總數(shù)。

以上為信息增益比率的計(jì)算過(guò)程。以信息增益比率為關(guān)鍵參數(shù)構(gòu)建一個(gè)決策樹(shù)模型,步驟如下:

Step1:以樣本全集作為決策樹(shù)的根結(jié)點(diǎn),計(jì)算全部評(píng)價(jià)指標(biāo)的信息增益比率R(Xi)。選取信息增益比率最大的指標(biāo)作為根結(jié)點(diǎn)的分裂變量。按照分裂變量的取值將樣本分成若干個(gè)子集,每個(gè)子集作為下一層的一個(gè)結(jié)點(diǎn)。假設(shè),指標(biāo)“學(xué)歷”為全部指標(biāo)中信息增益比率最大的指標(biāo),選取“學(xué)歷”為根結(jié)點(diǎn)上的分裂變量。根據(jù)“學(xué)歷”指標(biāo)下的四種取值{高中,本科,碩士及以上,其他}將樣本分為四類(lèi),形成第二層的四個(gè)節(jié)點(diǎn)。

Step2:在決策樹(shù)第二層中,對(duì)于每一個(gè)結(jié)點(diǎn)上的樣本集合,計(jì)算在該樣本集合上各個(gè)指標(biāo)的信息增益比率,選擇信息增益比率最大的指標(biāo)作為當(dāng)前結(jié)點(diǎn)上的分裂變量。同樣,根據(jù)分裂變量的取值繼續(xù)分裂成第三層上的結(jié)點(diǎn)。

Step3:以此類(lèi)推逐層生成結(jié)點(diǎn),直到滿(mǎn)足如下三種情況之一時(shí)停止:①當(dāng)前結(jié)點(diǎn)的樣本集合中所有的樣本都屬于同一類(lèi)別(在本研究中,同屬于財(cái)務(wù)危機(jī)企業(yè)或財(cái)務(wù)正常企業(yè)),當(dāng)前結(jié)點(diǎn)為葉結(jié)點(diǎn)。②當(dāng)前結(jié)點(diǎn)的樣本集合在所有指標(biāo)上的取值均相同,無(wú)法進(jìn)一步劃分樣本。此時(shí),用當(dāng)前結(jié)點(diǎn)上多數(shù)樣本所屬的類(lèi)別標(biāo)記當(dāng)前結(jié)點(diǎn),當(dāng)前結(jié)點(diǎn)為葉結(jié)點(diǎn)。③當(dāng)前結(jié)點(diǎn)包含的樣本集合為空。用當(dāng)前結(jié)點(diǎn)的父節(jié)點(diǎn)(該結(jié)點(diǎn)上一層直接關(guān)聯(lián)的結(jié)點(diǎn))中多數(shù)樣本所屬的類(lèi)別標(biāo)記當(dāng)前結(jié)點(diǎn),當(dāng)前結(jié)點(diǎn)為葉結(jié)點(diǎn)。

2. 剪枝。由于在決策樹(shù)的生成中,為了盡可能正確識(shí)別出財(cái)務(wù)危機(jī)企業(yè),從而不斷地劃分樣本,造成決策樹(shù)過(guò)于龐大,對(duì)于訓(xùn)練樣本擬合得過(guò)好,由此喪失了對(duì)于訓(xùn)練樣本外新樣本的預(yù)測(cè)能力。為了避免過(guò)擬合問(wèn)題,本文采用EBP(基于錯(cuò)誤的剪枝)方法,自下而上地對(duì)決策樹(shù)的每個(gè)結(jié)點(diǎn)進(jìn)行剪枝。其基本思路是,分別計(jì)算剪枝前后的預(yù)測(cè)錯(cuò)誤率,若剪枝后的錯(cuò)誤率相比剪枝前并沒(méi)有明顯增大,說(shuō)明這個(gè)子樹(shù)對(duì)于預(yù)測(cè)效果的影響很小,屬于冗余的分枝,應(yīng)該剪掉。

假設(shè)Tj為以結(jié)點(diǎn)j為根的子樹(shù),剪枝前的葉結(jié)點(diǎn)是子樹(shù)Tj的葉結(jié)點(diǎn),剪枝后以結(jié)點(diǎn)j作為葉結(jié)點(diǎn)。采用悲觀(guān)錯(cuò)誤率計(jì)算方法,計(jì)算剪枝前后該子樹(shù)上樣本的預(yù)測(cè)錯(cuò)誤率e1、e2。假設(shè)樣本預(yù)測(cè)錯(cuò)誤率是一個(gè)服從二項(xiàng)分布U(e,n)的隨機(jī)變量。給定一個(gè)置信度CF,可以求出關(guān)于錯(cuò)誤率的一個(gè)置信區(qū)間[LCF,UCF]。若剪枝后的錯(cuò)誤率期望值n×e2小于剪枝前的錯(cuò)誤率上分位點(diǎn)UCF,說(shuō)明剪枝后的錯(cuò)誤率相比剪枝前并沒(méi)有明顯增大,那么剪枝;否則不剪枝。置信度CF越大,則剪枝越嚴(yán)重,CF一般取0.75。

(二)決策樹(shù)集成

市場(chǎng)上的債券發(fā)行人絕大多數(shù)都是財(cái)務(wù)健康的企業(yè),而發(fā)生財(cái)務(wù)危機(jī)的不良發(fā)行人不足5%,兩類(lèi)樣本的數(shù)量極其不平衡。這種情況會(huì)導(dǎo)致決策樹(shù)模型在訓(xùn)練時(shí)更多地學(xué)習(xí)財(cái)務(wù)健康企業(yè)的數(shù)據(jù)特征,而忽略了對(duì)財(cái)務(wù)危機(jī)企業(yè)的特征挖掘。這種現(xiàn)象被稱(chēng)為非平衡樣本問(wèn)題。

本文基于“聚類(lèi)Bagging”集成方法,通過(guò)K均值聚類(lèi)的方法,將數(shù)量較多的財(cái)務(wù)健康企業(yè)樣本分成K組,將K組財(cái)務(wù)健康樣本與財(cái)務(wù)危機(jī)樣本進(jìn)行兩兩配對(duì),形成K個(gè)大致平衡的訓(xùn)練子集。在K個(gè)訓(xùn)練子集上分別構(gòu)建決策樹(shù)作為基學(xué)習(xí)器,然后再集成,形成最終的預(yù)警模型,從而解決財(cái)務(wù)預(yù)警模型構(gòu)建過(guò)程中的非平衡樣本問(wèn)題。具體的模型構(gòu)建過(guò)程如下:

Step1:聚類(lèi)。將樣本劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集是為了訓(xùn)練模型的樣本集合,測(cè)試集是為了驗(yàn)證訓(xùn)練出的模型的預(yù)測(cè)精度。在訓(xùn)練集中,假設(shè)D為財(cái)務(wù)健康樣本集,F(xiàn)為財(cái)務(wù)危機(jī)樣本集。利用K均值聚類(lèi)法將健康企業(yè)樣本D分成K份{D1,D2,…,DK}。由于聚類(lèi)方法的特性,可以保證各類(lèi)樣本之間的差異化最大,這樣就保證了不同樣本子集訓(xùn)練出的決策樹(shù)基學(xué)習(xí)器具有差異性。

Step2:生成多個(gè)訓(xùn)練樣本。將{D1,D2,…,DK}中每個(gè)集合與危機(jī)樣本集合F進(jìn)行兩兩配對(duì),形成K個(gè)訓(xùn)練子集{D1∪F,D2∪F,…,DK∪F }。由于原本數(shù)量過(guò)多的健康樣本集D被拆成了K份,每一份健康樣本子集Di中樣本數(shù)量大大減少,因此新形成的訓(xùn)練子集Di∪F中,健康樣本數(shù)量與危機(jī)樣本數(shù)量變得相對(duì)平衡,從而大大削弱了總體樣本中的非平衡樣本問(wèn)題。

Step3:決策樹(shù)基學(xué)習(xí)器。利用前文所述的方法,分別在上述K個(gè)訓(xùn)練子集上構(gòu)造決策樹(shù),形成K個(gè)基學(xué)習(xí)器{M1,M2,…,MK}。聚類(lèi)的方法特性使得不同訓(xùn)練子集之間具有差異性,保證了不同子集訓(xùn)練出的決策樹(shù)基學(xué)習(xí)器具有差異性。

Step4:決策樹(shù)集成。根據(jù)決策樹(shù)基學(xué)習(xí)器的預(yù)測(cè)精度對(duì)基學(xué)習(xí)器進(jìn)行加權(quán),預(yù)測(cè)準(zhǔn)確性越高,權(quán)重越高,從而形成決策樹(shù)集成學(xué)習(xí)器。具體方法為:利用K個(gè)基學(xué)習(xí)器{M1,M2,…,MK}在測(cè)試集上進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果與實(shí)際財(cái)務(wù)狀態(tài)進(jìn)行對(duì)比,畫(huà)出ROC曲線(xiàn)。

ROC曲線(xiàn)的橫坐標(biāo)是偽正率,即預(yù)測(cè)為正例但實(shí)際為負(fù)的樣本占所有負(fù)例樣本的比例(在本文中“發(fā)生財(cái)務(wù)危機(jī)”是研究對(duì)象,為正例);縱坐標(biāo)是真正率,即預(yù)測(cè)為正例且實(shí)際為正的樣本占所有正例樣本的比例。AUC值是ROC曲線(xiàn)與橫坐標(biāo)包圍的面積,AUC值綜合反映預(yù)測(cè)模型的準(zhǔn)確度和靈敏度。以AUC值作為權(quán)重對(duì)決策樹(shù)基學(xué)習(xí)器進(jìn)行加權(quán),得到?jīng)Q策樹(shù)集成學(xué)習(xí)器,作為財(cái)務(wù)預(yù)警模型。

經(jīng)過(guò)上述過(guò)程,將決策樹(shù)基學(xué)習(xí)器集成,最終得到財(cái)務(wù)預(yù)警模型。上述過(guò)程如圖1所示。

三、實(shí)證分析

1. 樣本的選取。本研究選取我國(guó)2014 ~ 2018年有存續(xù)債的1159家制造業(yè)企業(yè)為實(shí)證樣本。將這些債券發(fā)行人在2014 ~ 2018年中有債券存續(xù)年份的數(shù)據(jù)作為實(shí)證數(shù)據(jù),數(shù)據(jù)來(lái)自Wind數(shù)據(jù)庫(kù)。相同企業(yè)不同年份的數(shù)據(jù)可以看成不同的樣本,共得到3858個(gè)實(shí)證樣本。

本研究將以下兩種情況標(biāo)記為“企業(yè)發(fā)生財(cái)務(wù)危機(jī)”:一是債券發(fā)行人從違約前一年直至債券到期均標(biāo)記為發(fā)生財(cái)務(wù)危機(jī),這是由于絕大多數(shù)債券發(fā)行人在發(fā)生違約的之前一段時(shí)間,就已經(jīng)因經(jīng)營(yíng)不善或投資失敗出現(xiàn)資金流短缺等財(cái)務(wù)困境問(wèn)題。二是對(duì)于上市公司的債券發(fā)行人,將標(biāo)記?ST當(dāng)年及前三年、ST當(dāng)年及前兩年均標(biāo)記為發(fā)生財(cái)務(wù)危機(jī),主要是因?yàn)楸?ST說(shuō)明連續(xù)三年出現(xiàn)財(cái)務(wù)虧損或經(jīng)營(yíng)不善等財(cái)務(wù)狀況惡化現(xiàn)象,被ST說(shuō)明連續(xù)兩年出現(xiàn)財(cái)務(wù)問(wèn)題。

因此,3858個(gè)實(shí)證樣本中有3773個(gè)樣本為財(cái)務(wù)正常樣本、85個(gè)樣本為財(cái)務(wù)危機(jī)樣本,財(cái)務(wù)正常記為0、財(cái)務(wù)危機(jī)記為1。采用分層抽樣,分別從正常樣本和危機(jī)樣本中隨機(jī)抽取10%的樣本(包含378個(gè)財(cái)務(wù)正常樣本、9個(gè)危機(jī)樣本)作為測(cè)試集Test,剩余的3471個(gè)樣本(包含3395個(gè)財(cái)務(wù)正常樣本、76個(gè)危機(jī)樣本)作為訓(xùn)練集Train。

2. 預(yù)警指標(biāo)的海選。本研究借鑒穆迪、中誠(chéng)信等國(guó)內(nèi)外評(píng)級(jí)機(jī)構(gòu)及文獻(xiàn)中的高頻指標(biāo),從企業(yè)財(cái)務(wù)運(yùn)營(yíng)和經(jīng)營(yíng)環(huán)境兩個(gè)層面來(lái)構(gòu)建指標(biāo)體系,如表1所示。

3. 決策樹(shù)集成。本研究中3471個(gè)訓(xùn)練樣本包含3395個(gè)財(cái)務(wù)正常樣本(記為集合D)和76個(gè)危機(jī)樣本(記為集合F),兩類(lèi)樣本的比例約為45∶1,兩類(lèi)樣本的數(shù)量極其不平衡。

對(duì)應(yīng)前文所述的步驟,構(gòu)建決策樹(shù)集成的財(cái)務(wù)預(yù)警模型:

Step1:聚類(lèi)。采用K均值聚類(lèi)的方法,將訓(xùn)練樣本中的財(cái)務(wù)正常樣本集合D分為四類(lèi){D1,D2,D3,D4},樣本個(gè)數(shù)分別為1633、1403、90、269。

Step2:生成多個(gè)訓(xùn)練樣本。將Step1中劃分的四類(lèi)樣本{D1,D2,D3,D4},分別與財(cái)務(wù)危機(jī)樣本集F進(jìn)行兩兩配對(duì),形成了4個(gè)訓(xùn)練子集{D1∪ F,D2∪ F,D3∪ F,D4∪ F},4個(gè)訓(xùn)練子集中兩類(lèi)樣本的比例分別為21∶1、18∶1、1.2∶1和3.5∶1。相比整體訓(xùn)練樣本中兩類(lèi)樣本的比例45∶1,訓(xùn)練子集中非平衡樣本問(wèn)題被大大削弱了。

Step3:決策樹(shù)基學(xué)習(xí)器。利用前文所述方法,分別針對(duì)4個(gè)訓(xùn)練子集{D1∪ F,D2∪ F,D3∪ F,D4∪ F},利用決策樹(shù)C5.0算法訓(xùn)練模型,并在置信度CF=0.75的設(shè)置下對(duì)決策樹(shù)進(jìn)行剪枝,從而訓(xùn)練出4個(gè)決策樹(shù)基學(xué)習(xí)器{M1,M2,M3,M4}。此處以第一個(gè)訓(xùn)練子集訓(xùn)練出的決策樹(shù)基學(xué)習(xí)器M1為例進(jìn)行展示,見(jiàn)圖2。

Step4:決策樹(shù)集成。將四個(gè)決策樹(shù)基學(xué)習(xí)器{M1,M2,M3,M4}在測(cè)試集Test上進(jìn)行危機(jī)預(yù)測(cè),分別計(jì)算四個(gè)決策樹(shù)基學(xué)習(xí)器的預(yù)測(cè)總體正確率、財(cái)務(wù)危機(jī)的預(yù)測(cè)正確率(將實(shí)際危機(jī)樣本預(yù)測(cè)正確的比率)。并根據(jù)畫(huà)出每個(gè)決策樹(shù)基學(xué)習(xí)器的ROC曲線(xiàn),計(jì)算ROC曲線(xiàn)下方面積,即AUC值,如表2所示。以AUC值為權(quán)重對(duì)四個(gè)決策樹(shù)基學(xué)習(xí)器進(jìn)行集成,得到?jīng)Q策樹(shù)集成學(xué)習(xí)器,即為最終的財(cái)務(wù)預(yù)警模型。

在測(cè)試集上進(jìn)行財(cái)務(wù)危機(jī)預(yù)警的檢驗(yàn),預(yù)警的精度指標(biāo)如表3第二行所示。基于決策樹(shù)集成的財(cái)務(wù)預(yù)警模型對(duì)于測(cè)試集整體的預(yù)測(cè)正確率達(dá)到78.3%,財(cái)務(wù)危機(jī)的預(yù)測(cè)正確率達(dá)到77.8%。與表2中的基學(xué)習(xí)器相比,決策樹(shù)學(xué)習(xí)器預(yù)警模型在總體正確率較高的基礎(chǔ)上,大大提高了財(cái)務(wù)危機(jī)企業(yè)的正確識(shí)別率,兼顧了總體樣本的預(yù)測(cè)正確率和財(cái)務(wù)危機(jī)樣本的預(yù)測(cè)正確率,說(shuō)明決策樹(shù)基學(xué)習(xí)器的集成是有效的。

4. 對(duì)比分析。本研究采用“聚類(lèi)Bagging”方法構(gòu)建決策樹(shù)集成模型,目的是解決財(cái)務(wù)危機(jī)樣本過(guò)少情況下對(duì)于危機(jī)樣本的預(yù)測(cè)準(zhǔn)確度過(guò)低的問(wèn)題。因此,將本研究構(gòu)建的決策樹(shù)集成模型與普通的決策樹(shù)模型進(jìn)行對(duì)比分析。對(duì)比模型是將全部訓(xùn)練樣本直接構(gòu)建一個(gè)決策樹(shù)模型,再對(duì)訓(xùn)練集進(jìn)行預(yù)警精度的檢測(cè),決策樹(shù)中其他參數(shù)的設(shè)置均與本模型相同。將本模型與對(duì)比模型在測(cè)試集上的預(yù)警精度進(jìn)行對(duì)比,結(jié)果如表3所示。

由表3可以看出,對(duì)比模型對(duì)于財(cái)務(wù)危機(jī)的預(yù)警幾乎失效,近80%的危機(jī)企業(yè)都沒(méi)有被識(shí)別出來(lái),沒(méi)有達(dá)到財(cái)務(wù)預(yù)警的根本目的。相較對(duì)比模型,本模型在財(cái)務(wù)危機(jī)樣本的預(yù)測(cè)正確率上提高了55.6%,能夠?qū)⒔^大多數(shù)的危機(jī)企業(yè)正確預(yù)測(cè)出來(lái),且能夠使得總體樣本的預(yù)測(cè)正確率達(dá)到78%以上的較高水平。這說(shuō)明本預(yù)警模型在總體預(yù)測(cè)正確率較高的前提下大大提高了財(cái)務(wù)危機(jī)的正確識(shí)別率,更為合理。

四、結(jié)論

本文考慮了債券發(fā)行人中財(cái)務(wù)危機(jī)企業(yè)數(shù)量遠(yuǎn)小于財(cái)務(wù)健康企業(yè)的這種非平衡數(shù)據(jù)特征,借鑒“聚類(lèi)Bagging”集成方法,通過(guò)K均值聚類(lèi)的方法,將樣本數(shù)量較多的財(cái)務(wù)健康企業(yè)樣本分成K組,將K組財(cái)務(wù)健康樣本與財(cái)務(wù)危機(jī)樣本進(jìn)行兩兩配對(duì),形成K個(gè)大致平衡且有差異性的訓(xùn)練子集。利用決策樹(shù)C5.0算法,在K個(gè)訓(xùn)練子集上分別構(gòu)建決策樹(shù)模型作為基學(xué)習(xí)器,使得決策樹(shù)基學(xué)習(xí)器可以大致同等地學(xué)習(xí)健康樣本與危機(jī)樣本的特征,避免由于非平衡數(shù)據(jù)導(dǎo)致預(yù)警模型對(duì)數(shù)量較少的危機(jī)樣本預(yù)測(cè)精度過(guò)低的問(wèn)題。利用基學(xué)習(xí)器在測(cè)試集上的預(yù)測(cè)精度AUC值作為權(quán)重,對(duì)決策樹(shù)基學(xué)習(xí)器進(jìn)行加權(quán),得到?jīng)Q策樹(shù)集成模型,作為最終的財(cái)務(wù)預(yù)警模型,這使得預(yù)測(cè)精度高的基學(xué)習(xí)器在決策樹(shù)集成模型中發(fā)揮更大的作用,提高了集成模型的預(yù)警精度。

經(jīng)過(guò)測(cè)試集檢驗(yàn)和對(duì)比分析,本文建立的基于決策樹(shù)集成的財(cái)務(wù)預(yù)警模型精度較高,總體的預(yù)警正確率達(dá)到78%,對(duì)財(cái)務(wù)危機(jī)企業(yè)的正確識(shí)別率達(dá)到77.8%。而簡(jiǎn)單的決策樹(shù)模型對(duì)于財(cái)務(wù)危機(jī)的預(yù)警幾乎失效,近80%的危機(jī)企業(yè)都沒(méi)有被識(shí)別出來(lái),說(shuō)明本模型能夠在總體預(yù)警正確率較高的前提下大大提高財(cái)務(wù)危機(jī)的正確識(shí)別率。

【 主 要 參 考 文 獻(xiàn) 】

[ 1 ]? ?楊貴軍,周亞夢(mèng),孫玲莉.基于Benford-Logistic模型的企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警方法[ J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2019(10):149 ~ 164.

[ 2 ]? ?張發(fā)明,王偉明,李小霜.TOPSIS-GRA法下的企業(yè)動(dòng)態(tài)信用評(píng)價(jià)方法及其應(yīng)用[ J].運(yùn)籌與管理,2018(9):136 ~ 142.

[ 3 ]? ?周憶,張友棠.基于卡爾曼濾波的僵尸企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)動(dòng)態(tài)預(yù)警研究[ J].財(cái)會(huì)通訊,2019(23):110 ~ 114.

[ 4 ]? ?Mizen P.,Tsoukas S.. Forecasting US bond default ratings allowing for previous and initial state dependence in an ordered probit model[ J].International Journal of Forecasting,2012(1):273 ~ 287.

[ 5 ]? ?蔡立新,李嘉歡.大數(shù)據(jù)時(shí)代企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警機(jī)制與路徑探究[ J].財(cái)會(huì)月刊,2018(15):40 ~ 45.

[ 6 ]? ?李茜,唐恒書(shū).基于三種BP-NNs改進(jìn)算法的財(cái)務(wù)預(yù)警研究[ J].會(huì)計(jì)之友,2019(6):57 ~ 64.

[ 7 ]? ?Sevim C., Oztekin A., Bali O., et al.. Developing an early warning system to predict currency crises[ J].European Journal of OperationalResearch,2014(3):1095 ~ 1104.

[ 8 ]? ?楊勝剛,朱琦,成程.個(gè)人信用評(píng)估組合模型的構(gòu)建——基于決策樹(shù)—神經(jīng)網(wǎng)絡(luò)的研究[ J].金融論壇,2013(2):57 ~ 61.

[ 9 ]? ?丁嵐,駱品亮.基于Stacking集成策略的P2P網(wǎng)貸違約風(fēng)險(xiǎn)預(yù)警研究[ J].投資研究,2017(4):43 ~ 56.

[10]? ?Javier De Andrés, Lorca P., Juez F. J. D. C., et al.. Bankruptcy forecasting: A hybrid approach using fuzzy c-means clustering and multi-variate adaptive regression splines (MARS)[ J].Expert Systems with Applications,2011(3):1866 ~ 1875.

[11]? ?龐素琳,鞏吉璋.C5.0分類(lèi)算法及在銀行個(gè)人信用評(píng)級(jí)中的應(yīng)用[ J].系統(tǒng)工程理論與實(shí)踐,2009(12):94 ~ 104.

[12]? ?王茂光,葛蕾蕾,趙江平.基于C5.0算法的小額網(wǎng)貸平臺(tái)的風(fēng)險(xiǎn)監(jiān)控研究[ J].中國(guó)管理科學(xué),2016(S1):356 ~ 363.

猜你喜歡
財(cái)務(wù)預(yù)警
企業(yè)財(cái)務(wù)危機(jī)預(yù)警問(wèn)題研究
淺談企業(yè)如何實(shí)施財(cái)務(wù)預(yù)警分析
企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)成因分析及控制
基于Logit模型的上市公司財(cái)務(wù)預(yù)警分析
杜邦分析法用于財(cái)務(wù)預(yù)警的適用性
企業(yè)財(cái)務(wù)分析與風(fēng)險(xiǎn)預(yù)警財(cái)務(wù)分析
重慶市獨(dú)立院校財(cái)務(wù)風(fēng)險(xiǎn)監(jiān)測(cè)與預(yù)警管理研究
重慶市獨(dú)立院校財(cái)務(wù)風(fēng)險(xiǎn)監(jiān)測(cè)與預(yù)警管理研究
临朐县| 望都县| 普宁市| 宜宾市| 大新县| 济源市| 乌兰察布市| 绥中县| 台江县| 文安县| 闽侯县| 于田县| 池州市| 芦溪县| 西安市| 镇远县| 朝阳市| 哈尔滨市| 分宜县| 阿城市| 建湖县| 疏附县| 徐闻县| 南京市| 涟源市| 宜兰县| 辉南县| 昔阳县| 古交市| 花莲市| 宁远县| 霍林郭勒市| 白朗县| 河间市| 汨罗市| 奉贤区| 德阳市| 额敏县| 伊通| 白银市| 宜川县|