楊青龍,田曉春,胡佩媛
(中南財(cái)經(jīng)政法大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,武漢430073)
基于LASSO方法的企業(yè)財(cái)務(wù)困境預(yù)測
楊青龍,田曉春,胡佩媛
(中南財(cái)經(jīng)政法大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,武漢430073)
文章綜合考慮企業(yè)的財(cái)務(wù)和非財(cái)務(wù)因素,利用LASSO方法對(duì)企業(yè)財(cái)務(wù)困境預(yù)測指標(biāo)進(jìn)行篩選,然后使用決策樹、隨機(jī)森林、SVM、最近鄰法這四種數(shù)據(jù)挖掘方法,以及常見的logistic模型,分別建立企業(yè)財(cái)務(wù)困境預(yù)測模型。結(jié)果表明:不能忽視非財(cái)務(wù)因素在企業(yè)財(cái)務(wù)困境預(yù)測中的作用;并非所有數(shù)據(jù)挖掘方法都優(yōu)于常用的logistic模型;LASSO方法能在降維的同時(shí)保證企業(yè)財(cái)務(wù)困境預(yù)測的準(zhǔn)確性,實(shí)現(xiàn)模型的精簡。
財(cái)務(wù)困境預(yù)測;LASSO;變量選擇
準(zhǔn)確地預(yù)測企業(yè)財(cái)務(wù)困境,有助于保護(hù)投資者、債權(quán)人,以及企業(yè)其它利益相關(guān)者的利益,也有助于經(jīng)營者防范企業(yè)陷于財(cái)務(wù)困境,更有助于政府監(jiān)管部門對(duì)企業(yè)質(zhì)量和證券市場進(jìn)行有效監(jiān)控。因此無論是學(xué)術(shù)研究還是實(shí)際應(yīng)用中,關(guān)于企業(yè)財(cái)務(wù)困境預(yù)測的研究一直受到廣泛的關(guān)注。
近些年來,國內(nèi)許多學(xué)者對(duì)企業(yè)財(cái)務(wù)困境預(yù)測問題進(jìn)行了探討,但是進(jìn)行實(shí)證分析的文獻(xiàn)不多。本文將綜合考慮影響企業(yè)財(cái)務(wù)困境的財(cái)務(wù)和非財(cái)務(wù)因素,利用在大規(guī)模數(shù)據(jù)變量模型中具有良好的變量選擇性質(zhì)的LASSO方法進(jìn)一步篩選預(yù)測指標(biāo)。另外,我們知道判別分析法只能用于自變量全部為數(shù)量變量的情形,而本文的預(yù)測指標(biāo)還包括一些分類變量,因此本文最后選擇最常用的logistic模型,以及決策樹、隨機(jī)森林、SVM、KNN等數(shù)據(jù)挖掘方法建立預(yù)測模型,通過對(duì)比指標(biāo)篩選前后的均方誤差和預(yù)測準(zhǔn)確度來選擇最符合國情的企業(yè)財(cái)務(wù)困境預(yù)測模型。
1.1 LASSO基本思想
Tibshirani(1996)在Frank(1993)的橋回歸(Bridge Regression)和Bireman(1995)的非負(fù)絞除法(Non-negative Garrote)基礎(chǔ)上,提出了一種新的變量選擇方法,即LASSO(Least absolute shrinkage and selection operator)。它的基本思想是加入一個(gè)懲罰項(xiàng)來約束回歸系數(shù)的大小,將變量的系數(shù)進(jìn)行壓縮并使得某些較小系數(shù)變?yōu)榱?,從而達(dá)到變量選擇的目的,即在約束條件下,變量的系數(shù)要滿足的條件為:
這等價(jià)于:
其中式(2)中的第一部分表示模型的擬合的優(yōu)劣,第二部分就是所加入的懲罰項(xiàng)。LASSO方法確定的變量系數(shù)既要使得殘差平法和小,同時(shí)又要壓縮系數(shù),避免其膨脹。另外,調(diào)和系數(shù)λ(λ>0)越小,模型的懲罰力度越小,保留的變量就越多;λ越大,模型的懲罰力度就越大,保留的變量就越少。我們的目的是進(jìn)行變量選擇,在提供足夠信息的條件下盡量減少變量個(gè)數(shù),使得模型能夠更精煉,因此我們必須要在模型的擬合優(yōu)度和簡潔性之間進(jìn)行權(quán)衡。在確定λ的問題上一般是用交叉驗(yàn)證或者M(jìn)allows CP等準(zhǔn)則通過計(jì)算來確定。MallowsCP統(tǒng)計(jì)量是用來評(píng)價(jià)回歸的一個(gè)準(zhǔn)則,如果從k個(gè)自變量中選取P個(gè)(k>p)參與回歸,則CP統(tǒng)計(jì)量具有定義:
基于MallowsCP準(zhǔn)則,使用迭代算法,找到使得CP統(tǒng)計(jì)量最小的λ,再將此最優(yōu)的λ代入式(2),得到基于懲罰約束條件下變量系數(shù)的估計(jì)值。
1.2 五折交叉驗(yàn)證
在樣本量充足的情況下,為了選擇模型,可以將樣本集隨機(jī)地分為訓(xùn)練集、驗(yàn)證集和測試集,其中,訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于選擇模型,而測試集則用于最終對(duì)模型的評(píng)估。但是,在實(shí)際應(yīng)用中樣本量常常不夠充分,為了選擇好的模型,可以采用交叉驗(yàn)證的方法,其基本思想是重復(fù)地使用樣本。以下對(duì)五折交叉驗(yàn)證方法進(jìn)行詳細(xì)說明。
隨機(jī)地將樣本切分為5個(gè)互不相交的大小相等的子集,然后用4個(gè)子集的樣本訓(xùn)練模型,而利用余下的子集測試模型,將這一過程對(duì)可能的5種選擇重復(fù)進(jìn)行,最后選出5次評(píng)測中標(biāo)準(zhǔn)化均方誤差(NMSE)最小的模型。
需要注意的是,如果僅用均值來做預(yù)測,那么NMSE應(yīng)該為1,因此,若是模型中NMSE大于1,說明模型很糟糕,還不如直接用均值做預(yù)測。
1.3 評(píng)價(jià)指標(biāo)介紹
企業(yè)財(cái)務(wù)困境預(yù)測模型本質(zhì)上就是二類分類問題,而二類分類問題常用的評(píng)價(jià)指標(biāo)就是精確率(precision)和召回率(recall),以及F1值。這三個(gè)指標(biāo)越大,說明模型預(yù)測效果越好。通常以關(guān)注的類為正類,在本文中,企業(yè)發(fā)生財(cái)務(wù)困境為正類,財(cái)務(wù)健康為負(fù)類。模型在測試數(shù)據(jù)集上的預(yù)測情況一共有4種情況,各種情況出現(xiàn)的次數(shù)分別記為:
TP ∶將財(cái)務(wù)困境企業(yè)預(yù)測為財(cái)務(wù)困境;
FN ∶將財(cái)務(wù)困境企業(yè)預(yù)測為財(cái)務(wù)健康;
FP ∶將財(cái)務(wù)健康企業(yè)預(yù)測為財(cái)務(wù)困境;
TN ∶將財(cái)務(wù)健康企業(yè)預(yù)測為財(cái)務(wù)健康。
于是,將精確率定位為:
召回率定義為:
F1是精確率和召回率的調(diào)和均值,定義為:
2.1 樣本選擇
本文選取了截止于2014年底仍被ST的48家上市公司,對(duì)照組為2665家未被ST上市公司。在對(duì)數(shù)據(jù)進(jìn)行缺失值和異常值處理后,剩余38家被ST的上市公司和2362家未被ST的上市公司。所有數(shù)據(jù)均來源于wind數(shù)據(jù)庫。另外,在多數(shù)文獻(xiàn)中會(huì)按照1:1的比例選取ST公司和非ST公司,這與這類文章一般選擇準(zhǔn)確率(accuracy rate)作為模型的評(píng)價(jià)指標(biāo)有關(guān),準(zhǔn)確率定義為:
其中,TP+TN表示正確做出判斷的樣本數(shù)量,N表示所有樣本量。當(dāng)樣本出現(xiàn)傾斜時(shí),即樣本中非ST公司的數(shù)量遠(yuǎn)遠(yuǎn)多于ST公司數(shù)量,若我們將所有測試集樣本都判斷為非ST公司,那么我們也可以得到較高的準(zhǔn)確率,然而此時(shí)模型顯然是有問題的。本文用于評(píng)級(jí)模型的指標(biāo)是精確率,召回率以及F1,可以避免出現(xiàn)這樣的問題,因此本文不按照1:1的比例選取ST公司和非ST公司。
2.2 指標(biāo)篩選
2.2.1 備選指標(biāo)
目前企業(yè)財(cái)務(wù)困境預(yù)測研究中所使用的指標(biāo),不再局限于傳統(tǒng)的反映企業(yè)償債能力、盈利能力、運(yùn)營能力、發(fā)展能力以及現(xiàn)金流量等方面的財(cái)務(wù)指標(biāo),而是開始引入包括企業(yè)組織結(jié)構(gòu)、市場變量和宏觀經(jīng)濟(jì)變量等在內(nèi)的非財(cái)務(wù)指標(biāo)。本文參考其他文獻(xiàn),同樣是考慮了企業(yè)償債、盈利、運(yùn)營、發(fā)展能力,以及現(xiàn)金流量等方面的財(cái)務(wù)指標(biāo),另外,還加入了“前十大股東持股比例合計(jì)”來反映企業(yè)股權(quán)的集中程度,“BETA值”和“股價(jià)年振幅”來反映企業(yè)對(duì)市場的敏感程度。最后,考慮了各企業(yè)前三年的財(cái)務(wù)狀況對(duì)企業(yè)當(dāng)前財(cái)務(wù)表現(xiàn)的影響。具體的財(cái)務(wù)困境預(yù)測指標(biāo)如表1所示。
表1 備選財(cái)務(wù)困境預(yù)測指標(biāo)
2.2.2 LASSO回歸篩選指標(biāo)
本文用R軟件進(jìn)行LASSO回歸來選擇財(cái)務(wù)預(yù)測指標(biāo)。結(jié)果如表2所示,指標(biāo)x2、x9、x10、x11、x13、x14、x15的回歸系數(shù)均不顯著,而這些指標(biāo)基本上是屬于企業(yè)的運(yùn)營能力、發(fā)展能力和現(xiàn)金流量,這說明存在多余變量,原本的23個(gè)備選指標(biāo)經(jīng)過篩選后剩余16個(gè)指標(biāo)。另外,各指標(biāo)系數(shù)的絕對(duì)值大小也體現(xiàn)了各個(gè)指標(biāo)對(duì)預(yù)測結(jié)果的重要性大小,我們可以發(fā)現(xiàn),重要性排名前五的指標(biāo)中有4個(gè)是非財(cái)務(wù)指標(biāo),且與排名在五名之后指標(biāo)系數(shù)的大小也有明顯的差距,說明非財(cái)務(wù)指標(biāo)是企業(yè)財(cái)務(wù)困境預(yù)測研究中的重要因素。
表2 LASSO回歸系數(shù)
2.3 建立模型
除了最常用的logistic模型,本文還用了決策樹、隨機(jī)森林、SVM、最近鄰法的數(shù)據(jù)挖掘方法建立了企業(yè)財(cái)務(wù)困境預(yù)測模型。需要注意的是,在使用這些方法時(shí),我們會(huì)改變各個(gè)函數(shù)中的參數(shù)默認(rèn)值,盡量使各個(gè)模型達(dá)到最佳結(jié)果。根據(jù)這5種方法建模的5折交叉驗(yàn)證結(jié)果如圖1所示。圖1中的黑色條形表示用篩選前的23個(gè)指標(biāo)進(jìn)行建模時(shí)的標(biāo)準(zhǔn)化均方誤差,灰色條形表示用篩選后的16個(gè)指標(biāo)進(jìn)行建模時(shí)的標(biāo)準(zhǔn)化均方誤差。從5折交叉驗(yàn)證的原理我們知道,選擇模型的標(biāo)準(zhǔn)為:選擇測試集中標(biāo)準(zhǔn)化均方誤差最小的模型。指標(biāo)篩選前決策樹、隨機(jī)森林、SVM、最近鄰法、logistic模型選擇的分別是第3、3、5、3、5組數(shù)據(jù)所建立的模型,而指標(biāo)篩選后,相應(yīng)組別的數(shù)據(jù)所建立模型的標(biāo)準(zhǔn)化均方誤差基本上能保持在原有水平,其中決策樹、SVM以及l(fā)ogistic模型在指標(biāo)篩選后還能夠降低模型的標(biāo)準(zhǔn)化均方誤差。另外,對(duì)比常用的logistic模型,和其他數(shù)據(jù)挖掘方法,發(fā)現(xiàn)logistic模型的標(biāo)準(zhǔn)化均方誤差低于SVM,但仍遠(yuǎn)遠(yuǎn)高于其余三種數(shù)據(jù)挖掘模型。
圖1 財(cái)務(wù)困境預(yù)測指標(biāo)篩選前后的模型選擇情況(黑色:篩選前,灰色:篩選后)
本文精確率反映的是判斷為財(cái)務(wù)困境的企業(yè)實(shí)際上就是陷于財(cái)務(wù)困境企業(yè)的準(zhǔn)確性,與它對(duì)應(yīng)的統(tǒng)計(jì)學(xué)概念是犯第Ⅱ類錯(cuò)誤(納偽)的概率,精確度越大,犯第Ⅱ類錯(cuò)誤的概率就越小。從表3可以看出,對(duì)于四種數(shù)據(jù)挖掘模型,不管是否經(jīng)過指標(biāo)篩選,訓(xùn)練集合測試集的精確率都達(dá)到100%,即不會(huì)犯第Ⅱ類錯(cuò)誤;而對(duì)于logistic模型,經(jīng)過指標(biāo)篩選后,訓(xùn)練集的精確率得到提高,而測試集的精確率從85.71%降低至83.33%,但相差不大。召回率反映的則是實(shí)際陷于財(cái)務(wù)困境的企業(yè)被識(shí)別出來的概率,與之對(duì)應(yīng)的統(tǒng)計(jì)學(xué)概念就是犯第Ⅰ類錯(cuò)誤(拒真)的概率,召回率越大,犯第Ⅰ類錯(cuò)誤的概率就越小。
表3 模型預(yù)測結(jié)果對(duì)比 (單位:%)
同樣從表3可以看出就本文的樣本數(shù)據(jù)而言,SVM模型雖然有較高的精確率,但召回率較低,甚至低于logistic模型,然而logistic模型比SVM模型簡單得多,此時(shí)SVM的優(yōu)勢無法體現(xiàn)。我們知道在樣本量確定的情況下,犯第Ⅰ類錯(cuò)誤和犯第Ⅱ類錯(cuò)誤的概率一般是此消彼長的,這種關(guān)系同樣適用于精確率和召回率,為了均衡考慮這兩個(gè)指標(biāo),我們可以直接比較F1值。通過比較F1值,我們發(fā)現(xiàn)對(duì)于本文的樣本數(shù)據(jù),決策樹、隨機(jī)森林,以及最近鄰法這三種數(shù)據(jù)挖掘模型的預(yù)測效果優(yōu)于logistic模型,而logistic模型又優(yōu)于SVM。另外,指標(biāo)篩選前后,決策樹、隨機(jī)森林,SVM以及最近鄰法這四種數(shù)據(jù)挖掘模型的預(yù)測效果沒有發(fā)生變化;對(duì)于logistic模型,指標(biāo)篩選后,訓(xùn)練集的預(yù)測效果得到提升,而測試集的預(yù)測效果則是變差了。經(jīng)過LASSO指標(biāo)篩選后的logistic模型,模型得到精簡,對(duì)訓(xùn)練樣本的擬合優(yōu)度也得到提高,但是模型的泛化能力受到一定程度的影響。
本文利用LASSO方法對(duì)企業(yè)財(cái)務(wù)困境預(yù)測指標(biāo)進(jìn)行篩選,然后用決策樹、隨機(jī)森林、SVM、最近鄰法這四種數(shù)據(jù)挖掘方法,以及最常用的logistic模型,分別建立了企業(yè)財(cái)務(wù)困境預(yù)測模型,研究發(fā)現(xiàn):(1)非財(cái)務(wù)指標(biāo)的LASSO回歸系數(shù)遠(yuǎn)遠(yuǎn)大于財(cái)務(wù)指標(biāo),這說明在企業(yè)財(cái)務(wù)困境預(yù)測的研究中不應(yīng)該只限于對(duì)財(cái)務(wù)報(bào)表的分析,而應(yīng)該看到企業(yè)所處的市場和宏觀環(huán)境,以及企業(yè)自身的組織結(jié)構(gòu)等非財(cái)務(wù)因素;(2)無論指標(biāo)是否經(jīng)過篩選,SVM方法都不如常用的logistic模型,但其他三種數(shù)據(jù)挖掘方法都能優(yōu)于logistic模型;(3)指標(biāo)是否經(jīng)過篩選對(duì)于四種基于數(shù)據(jù)挖掘方法的企業(yè)財(cái)務(wù)困境預(yù)測模型沒有產(chǎn)生影響,也就意味著用較少的預(yù)測指標(biāo)能夠達(dá)到同樣良好的預(yù)測效果,而對(duì)于logistic模型,指標(biāo)篩選提高了模型的擬合優(yōu)度,雖然降低了模型的泛化能力,但以較少的預(yù)測指標(biāo)(更精簡的模型)仍可以得到在可接受范圍內(nèi)的預(yù)測效果,由此可以認(rèn)為LASSO方法在企業(yè)財(cái)務(wù)困境預(yù)測中的指標(biāo)選擇問題上有良好的表現(xiàn)。
[1]Altman E I.Predicting Financial Distress of Companies:Revisiting the Z-score and ZETA models[J].SternSchool of Business,2000.
[2]Reisz AS,Perlich C.A Market-based Framework For Bankruptcy Pre?diction[J].Journal of Finance Stability,2007,3(2).
[3]Bharath S T,Shumway T.Forecasting Default With the Merton Dis?tance to Default Model[J].Review of Financial Studies,2008,21(3).
[4]Bauer J,Agarwal V.Are Hazard Models Superior to Traditional Bank?ruptcy Prediction Approaches?A Comprehensive Test[J].Journal of Banking&Finance,2014,(40).
[5]Zhou L,Lai K K,Yen J.Empirical Models Based on Features Rank?ing Techniques for Corporate Financial Distress Prediction[J].Com?puters and Mathematics With Applications.2012,64(8).
[6]Liang D,Tsai C F,Wu H T.The Effect of Feature Selection on Finan?cial Distress Prediction[J].Knowledge-Based Systems.2015,(73).
[7]崔毅,蔡玉蘭.企業(yè)財(cái)務(wù)困境預(yù)測研究的國際進(jìn)展及啟示[J].技術(shù)經(jīng)濟(jì)與管理研究.2014,(11).
[8]董景榮,陳軍.論經(jīng)典統(tǒng)計(jì)財(cái)務(wù)困境預(yù)測模型的理論誤區(qū)[J].統(tǒng)計(jì)與決策.2010,(4).
[9]方匡南,章貴軍,張惠穎.基于LASSO-logistic模型的個(gè)人信用風(fēng)險(xiǎn)預(yù)警方法[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究.2014,(2).
(責(zé)任編輯/浩 天)
F270.5
A
1002-6487(2016)23-0170-04
國家自然科學(xué)基金資助項(xiàng)目(11301545)
楊青龍(1981—),男,河南南陽人,博士,副教授,研究方向:金融統(tǒng)計(jì)。
田曉春(1991—),女,福建三明人,碩士研究生,研究方向:金融統(tǒng)計(jì)。