夏婷婷
摘 要:由于在實(shí)際企業(yè)信用評(píng)級(jí)中,通常存在著大量的未標(biāo)記樣本,同時(shí)在少量的有標(biāo)記樣本中,企業(yè)信用評(píng)級(jí)的數(shù)據(jù)往往呈現(xiàn)非均衡分布的特點(diǎn),因此本文將半監(jiān)督學(xué)習(xí)和非均衡數(shù)據(jù)分類(lèi)方法結(jié)合起來(lái),提出一種基于混合學(xué)習(xí)策略的企業(yè)信用評(píng)級(jí)方法,同時(shí)通過(guò)企業(yè)評(píng)級(jí)數(shù)據(jù)集對(duì)提出的方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。
關(guān)鍵詞:半監(jiān)督;非均衡數(shù)據(jù)分類(lèi);混合學(xué)習(xí);企業(yè)信用評(píng)級(jí)
1 引言
在現(xiàn)代經(jīng)濟(jì)生活中,信用作為市場(chǎng)經(jīng)濟(jì)的基礎(chǔ),對(duì)企業(yè)的生存和發(fā)展有著重要的影響。然而,企業(yè)信用缺失已成為制約我國(guó)經(jīng)濟(jì)可持續(xù)發(fā)展的突出問(wèn)題之一,據(jù)相關(guān)資料統(tǒng)計(jì),我國(guó)企業(yè)每年由信用缺失導(dǎo)致的經(jīng)濟(jì)損失高達(dá)6000億元[1]。因此如何建立一個(gè)適用的企業(yè)信用評(píng)級(jí)模型,強(qiáng)化企業(yè)信用風(fēng)險(xiǎn)管理,已成為學(xué)術(shù)界和產(chǎn)業(yè)界迫切需要解決的問(wèn)題。
目前在企業(yè)的信用評(píng)級(jí)領(lǐng)域,常見(jiàn)的企業(yè)信用評(píng)級(jí)方法主要有基于統(tǒng)計(jì)分析的方法和基于機(jī)器學(xué)習(xí)的方法,其中根據(jù)建立判別函數(shù)形式和樣本的假定不同,基于統(tǒng)計(jì)分析的方法主要有一元判別模型、多元判別模型、Logistic回歸模型、Probit 模型等[2]。由于基于統(tǒng)計(jì)分析的方法對(duì)樣本數(shù)據(jù)都有嚴(yán)格的假設(shè)條件,如多元正態(tài)分布、等協(xié)方差等,在現(xiàn)實(shí)中這些假設(shè)一般都不成立,極大地限制了基于統(tǒng)計(jì)分析方法的應(yīng)用。因此,基于機(jī)器學(xué)習(xí)的方法越來(lái)越多地被應(yīng)用到企業(yè)信用評(píng)級(jí)中[3]?;跈C(jī)器學(xué)習(xí)的方法需要構(gòu)建一個(gè)具有良好性能的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)模型,這就需要大量的有標(biāo)記樣本,然而在企業(yè)信用評(píng)級(jí)實(shí)際應(yīng)用中,通常存在著大量的未標(biāo)記樣本,有標(biāo)記樣本相對(duì)較少,與此同時(shí),在少量的有標(biāo)記樣本中,企業(yè)信用評(píng)級(jí)的數(shù)據(jù)集往往呈現(xiàn)非均衡分布的特點(diǎn),因此,本研究提出了基于混合學(xué)習(xí)策略的方法,用來(lái)解決企業(yè)信用評(píng)級(jí)中存在的問(wèn)題。
基于混合學(xué)習(xí)策略的方法是一種把半監(jiān)督學(xué)習(xí)和非均衡數(shù)據(jù)分類(lèi)方法結(jié)合起來(lái)的學(xué)習(xí)方法,它利用少量的有標(biāo)記樣本和大量的未標(biāo)記樣本,將非均衡數(shù)據(jù)分類(lèi)方法引入到半監(jiān)督學(xué)習(xí)方法中,從而形成一種混合學(xué)習(xí)策略的企業(yè)信用評(píng)級(jí)方法。通過(guò)本研究,豐富和完善了企業(yè)信用評(píng)級(jí)研究的理論研究體系,為及時(shí)準(zhǔn)確地預(yù)測(cè)企業(yè)的信用風(fēng)險(xiǎn)提供了行之有效的方法,加強(qiáng)了企業(yè)的信用風(fēng)險(xiǎn)管理,保護(hù)了企業(yè)利益相關(guān)者的利益,具有重要的意義。
2 基于混合學(xué)習(xí)策略的企業(yè)信用評(píng)級(jí)方法
2.1 自訓(xùn)練方法
自訓(xùn)練算法是最早提出的半監(jiān)督學(xué)習(xí)方法,也是半監(jiān)督學(xué)習(xí)中較為常見(jiàn)的方法之一。它通過(guò)已有的少量有標(biāo)記樣本訓(xùn)練出分類(lèi)器,然后利用該分類(lèi)器預(yù)測(cè)大量未標(biāo)記樣本的類(lèi)別,選出置信度較高的樣本加入到訓(xùn)練集中重新訓(xùn)練,重復(fù)執(zhí)行以上過(guò)程,直到滿(mǎn)足條件為止[4]。算法的流程如圖1所示。
2.2 非均衡數(shù)據(jù)分類(lèi)方法
2.2.1基于取樣的非均衡數(shù)據(jù)分類(lèi)方法
基于取樣的方法主要是將原本非均衡的樣本類(lèi)別變得均衡,從而提高分類(lèi)器對(duì)少數(shù)類(lèi)樣本的分類(lèi)準(zhǔn)確率,常用的基于取樣的方法有欠取樣方法(Under Sampling)和過(guò)取樣方法(Over Sampling)[5]。欠取樣方法通過(guò)隨機(jī)去掉多數(shù)類(lèi)樣本來(lái)降低數(shù)據(jù)集的非均衡程度,但這種方法會(huì)丟失多數(shù)類(lèi)的一些重要信息;而過(guò)取樣方法與欠取樣方法相反,它通過(guò)隨機(jī)復(fù)制少數(shù)類(lèi)樣本的方式來(lái)使數(shù)據(jù)集達(dá)到均衡,這種方法雖然保留了已有樣本的所有分類(lèi)信息,但容易造成分類(lèi)器的過(guò)度擬合。為了克服上述隨機(jī)欠取樣和過(guò)取樣方法存在的缺點(diǎn),研究者提出了SMOTE取樣方法,它根據(jù)一定的規(guī)則,在一些相距較近的少數(shù)類(lèi)樣本間加入“合成”樣本,隨機(jī)生成新的少數(shù)類(lèi)樣本,并將這些新生成的少數(shù)類(lèi)樣本加入到原來(lái)的數(shù)據(jù)集中,從而對(duì)少數(shù)類(lèi)樣本進(jìn)行擴(kuò)充,產(chǎn)生新的訓(xùn)練數(shù)據(jù)集。通過(guò)SMOTE方法增加的少數(shù)類(lèi)樣本并不存在原來(lái)的樣本中,因此SMOTE可以避免過(guò)取樣的缺陷。
2.2.2基于集成學(xué)習(xí)的非均衡數(shù)據(jù)分類(lèi)方法
基于集成學(xué)習(xí)的方法通過(guò)訓(xùn)練多個(gè)分類(lèi)器并將其結(jié)果按照一定的方式進(jìn)行有效的組合,以此來(lái)獲得比單個(gè)分類(lèi)器更好的性能。當(dāng)前,構(gòu)建集成學(xué)習(xí)的方法主要有Bagging和Boosting方法[6]。Bagging方法首先對(duì)原始的訓(xùn)練樣本集進(jìn)行有放回隨機(jī)抽樣,得到若干個(gè)樣本數(shù)量與初始樣本數(shù)量相當(dāng)?shù)挠?xùn)練樣本子集,其次對(duì)每個(gè)樣本子集進(jìn)行訓(xùn)練,得到若干個(gè)基分類(lèi)器,最后采用少數(shù)服從多數(shù)的投票方式將這若干個(gè)基分類(lèi)器的結(jié)果進(jìn)行組合。Boosting 方法首先賦予原始訓(xùn)練樣本集中的每一個(gè)樣本相同的初始權(quán)重,由這個(gè)訓(xùn)練集訓(xùn)練第一個(gè)基分類(lèi)器,計(jì)算分類(lèi)錯(cuò)誤率,提高那些被錯(cuò)誤分類(lèi)的訓(xùn)練樣本的權(quán)重,降低那些被正確分類(lèi)的樣本權(quán)重,從而得到一個(gè)權(quán)重被調(diào)整后的訓(xùn)練樣本集,其次由這個(gè)權(quán)重被調(diào)整后的訓(xùn)練樣本集訓(xùn)練第二個(gè)基分類(lèi)器,重復(fù)這一過(guò)程,直到生成若干個(gè)基分類(lèi)器,最后采用加權(quán)合并的方式進(jìn)行多個(gè)分類(lèi)器的集成。
2.3 基于混合學(xué)習(xí)策略的方法
由于常用的半監(jiān)督學(xué)習(xí)方法主要有自訓(xùn)練和協(xié)同訓(xùn)練方法,常用的非均衡數(shù)據(jù)分類(lèi)方法主要有基于取樣的方法和基于集成學(xué)習(xí)的方法,故本文從以下兩個(gè)角度構(gòu)建了基于混合學(xué)習(xí)策略的企業(yè)信用評(píng)級(jí)方法,分別為:基于取樣和自訓(xùn)練的企業(yè)信用評(píng)級(jí)方法和基于集成學(xué)習(xí)和自訓(xùn)練的企業(yè)信用評(píng)級(jí)方法。
基于取樣和自訓(xùn)練的企業(yè)信用評(píng)級(jí)方法,首先采用取樣方法對(duì)有標(biāo)記樣本進(jìn)行處理使得樣本類(lèi)別分布均衡,其次訓(xùn)練類(lèi)別均衡的有標(biāo)記樣本得到一個(gè)分類(lèi)器,最后對(duì)未標(biāo)記樣本進(jìn)行訓(xùn)練來(lái)提高這個(gè)分類(lèi)器的分類(lèi)性能。算法流程如圖2所示。
基于集成學(xué)習(xí)和自訓(xùn)練的企業(yè)信用評(píng)級(jí)方法,首先采用集成學(xué)習(xí)方法生成基礎(chǔ)分類(lèi)器,其次利用基礎(chǔ)分類(lèi)器對(duì)未標(biāo)記樣本進(jìn)行標(biāo)記,最后將置信度高的未標(biāo)記樣本添加到有標(biāo)記樣本中,重復(fù)這一過(guò)程來(lái)提高分類(lèi)器的分類(lèi)性能。算法流程如圖3所示:
3 實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證基于混合學(xué)習(xí)策略的方法在企業(yè)信用評(píng)級(jí)領(lǐng)域中的有效性,本文選取了中國(guó)工商銀行2006年至2007年間共239家企業(yè)進(jìn)行試驗(yàn),該數(shù)據(jù)集包含企業(yè)的財(cái)務(wù)數(shù)據(jù)及銀行評(píng)定的信用風(fēng)險(xiǎn)狀況,包括148家無(wú)風(fēng)險(xiǎn)企業(yè)和91家有風(fēng)險(xiǎn)企業(yè)。本研究采用工商銀行征信部門(mén)專(zhuān)家提出的18個(gè)財(cái)務(wù)指標(biāo)作為企業(yè)信用評(píng)級(jí)指標(biāo),具體指標(biāo)見(jiàn)表1。
實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)使用目前常用的評(píng)價(jià)指標(biāo):平均分類(lèi)精度(Average Accuracy),指的是被分類(lèi)器正確預(yù)測(cè)的樣本數(shù)據(jù)占全部樣本數(shù)據(jù)的百分比。當(dāng)實(shí)驗(yàn)數(shù)據(jù)集類(lèi)別分布均衡時(shí),平均分類(lèi)精度作為評(píng)價(jià)指標(biāo)能夠很好的評(píng)價(jià)分類(lèi)器的性能,然而由于企業(yè)信用評(píng)級(jí)問(wèn)題的數(shù)據(jù)分布是非均衡的,采用平均分類(lèi)精度指標(biāo)已經(jīng)不能恰當(dāng)?shù)姆从撤诸?lèi)器的性能,因此本文還采用非均衡數(shù)據(jù)分類(lèi)領(lǐng)域常用的AUC作為評(píng)價(jià)指標(biāo)。
實(shí)驗(yàn)選用了目前常用的機(jī)器學(xué)習(xí)分類(lèi)器Decision Tree(DT)作為基礎(chǔ)分類(lèi)器,半監(jiān)督方法選取Self-training方法,非均衡取樣方法選取Under Sampling、Over Sampling和SMOTE方法。對(duì)于自訓(xùn)練與非均衡數(shù)據(jù)分類(lèi)方法相結(jié)合的方法,采用本文提出的Self-US、Self-OS、Self-SMOTE、Self-Bagging、Self-Boosting方法。本文使用5次10倍交叉驗(yàn)證法來(lái)提高實(shí)驗(yàn)結(jié)果的可信性,因此,最終的實(shí)驗(yàn)結(jié)果取5次10倍交叉驗(yàn)證的平均值。
4 實(shí)驗(yàn)結(jié)果與分析
根據(jù)以上實(shí)驗(yàn)設(shè)計(jì),最終實(shí)驗(yàn)結(jié)果如表2所示。
從表2中我們可以看出,當(dāng)標(biāo)記比例為0.4時(shí),Self-Boosting取得了最高的平均分類(lèi)精度:87.37%,同時(shí)取得了最高的AUC:0.9285。當(dāng)標(biāo)記比例為0.8時(shí),Self-Boosting取得了最高的平均分類(lèi)精度和最高的AUC,分別為88.35%和0.9296。實(shí)驗(yàn)結(jié)果表明,在平均分類(lèi)精度指標(biāo)和AUC指標(biāo)上,本研究提出的基于混合學(xué)習(xí)策略的企業(yè)信用評(píng)級(jí)方法取得了很好的實(shí)驗(yàn)結(jié)果,證明了本研究提出的基于混合學(xué)習(xí)的方法在企業(yè)信用評(píng)級(jí)中的有效性。
為了分析不同的半監(jiān)督學(xué)習(xí)方法在企業(yè)信用評(píng)級(jí)中應(yīng)用的效果,我們通過(guò)公式(3.1)計(jì)算自訓(xùn)練方法相對(duì)于基礎(chǔ)分類(lèi)器DT的AUC提高的百分比,得到圖4。
從圖4中可以看出,在不同的標(biāo)記比例下,自訓(xùn)練方法在AUC上都有了顯著的提高,這表明與基礎(chǔ)分類(lèi)器方法相比,本文提出的基于混合學(xué)習(xí)策略的企業(yè)信用評(píng)級(jí)方法,能夠充分解決了企業(yè)信用評(píng)級(jí)數(shù)據(jù)中存在的未標(biāo)記樣本學(xué)習(xí)和數(shù)據(jù)分布非均衡問(wèn)題,因此取得了較好的實(shí)驗(yàn)結(jié)果,驗(yàn)證了本文方法的有效性。
5 總結(jié)
為了解決企業(yè)信用評(píng)級(jí)實(shí)際應(yīng)用中存在的未標(biāo)記樣本學(xué)習(xí)和數(shù)據(jù)分布非均衡問(wèn)題,本文提出了基于混合學(xué)習(xí)策略的企業(yè)信用評(píng)級(jí)方法,并在企業(yè)信用評(píng)級(jí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,與單一學(xué)習(xí)方法相比,基于混合學(xué)習(xí)策略的企業(yè)信用評(píng)級(jí)方法能夠有效解決企業(yè)信用評(píng)級(jí)中存在的問(wèn)題。然而本文主要關(guān)注企業(yè)信用評(píng)級(jí)領(lǐng)域,在未來(lái)的研究中,本文提出的方法也可以應(yīng)用于其它領(lǐng)域,對(duì)方法的可靠性進(jìn)行驗(yàn)證。
參考文獻(xiàn)
[1] 何平, 金夢(mèng). 信用評(píng)級(jí)在中國(guó)債券市場(chǎng)的影響力[J]. 金融研究, 2010, (04): 15-28.
[2] 姚瀟, 余樂(lè)安. 模糊近似支持向量機(jī)模型及其在信用風(fēng)險(xiǎn)評(píng)估中的應(yīng)用[J]. 系統(tǒng)工程理論與實(shí)踐, 2012, (03): 549-554.
[3] 蔣盛益, 汪珊, 蔡余沖. 基于機(jī)器學(xué)習(xí)的上市公司財(cái)務(wù)預(yù)警模型的構(gòu)建[J]. 統(tǒng)計(jì)與決策, 2010, (09): 166-167.
[4] 丁濤. 半監(jiān)督自訓(xùn)練分類(lèi)模型的研究與實(shí)現(xiàn)[D]. 大連理工大學(xué), 2009.
[5] 高嘉偉, 梁吉業(yè). 非平衡數(shù)據(jù)集分類(lèi)問(wèn)題研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué), 2008, (04): 10-13.
[6] 韓敏, 朱新榮. 不平衡數(shù)據(jù)分類(lèi)的混合算法[J]. 控制理論與應(yīng)用, 2011, (10): 1485-1489.