何勝美 方茂揚 王響
摘 要 1:1樣本配比的財務(wù)預(yù)警模型的系數(shù)和概率估計是有偏的,全市場公司的樣本數(shù)據(jù)又高度不平衡.為克服兩類樣本不平衡給預(yù)警模型帶來的影響,引入公司誤判代價分析,以ST公司誤判代價為權(quán)重,通過最小化加權(quán)的對數(shù)似然損失函數(shù),建立誤判代價加權(quán)的Logistic回歸財務(wù)預(yù)警模型.實證結(jié)果表明,誤判代價加權(quán)的Logistic回歸模型具有較好的預(yù)警效果,2007年的訓(xùn)練樣本上正常公司和ST公司的識別率為89.43%和93.33%,2008年測試樣本上兩類公司的識別率分別為:92.1%和95.83%.
關(guān)鍵詞 數(shù)理經(jīng)濟學(xué);財務(wù)預(yù)警模型;加權(quán)Logistic回歸;不平衡數(shù)據(jù)
中圖分類號 F061.5文獻標識碼 A
Abstract The estimated coefficients and probability are biased in Prediction of Financial Distress with traditional 1:1 sample ratio,and the sample data based on the whole market is highly imbalanced.So in order to overcome the influence of imbalance,the misclassification cost of two kinds of companies was analyzed.Taking misclassification cost of ST Company as the weight,minimizing the weighted log likelihood loss function,a weighted Logistic regression model was used in Prediction of Financial Distress.The empirical results show that the weighted Logistic regression model has perfect effect.The recognition rate between normal financial company and ST company on training data in 2007 year was 89.43% and 93.33%,respectively;while the recognition rate of the two types of company is 92.1% and 95.83%,respectively,in the independent test sample in 2008 year.
Key words mathematical economics;financial distress prediction;weighted logistics regression;imbalanced data
1 引 言
企業(yè)財務(wù)預(yù)警實證研究方法一般有如下幾種:單變量模型(如一元判別模型),多變量模型(如多元線性判別模型、多元邏輯回歸模型、多元概率比回歸模型、基于現(xiàn)代機器學(xué)習(xí)的判別模型),逐步深入的研究,取得了許多典型的成果.
早在上世紀三十年代,國外就開始了企業(yè)財務(wù)預(yù)警研究.Fitzpatrick P J(1932)[1]首次以財務(wù)比率預(yù)測財務(wù)困境.Beaver W(1966)[2]也利用單變量分析法建立財務(wù)預(yù)警模型,發(fā)現(xiàn)可以提前至少5年對公司財務(wù)困境進行預(yù)測.針對單變量分析的局限性,Altman E(1968)[3]提出了著名的多元Z值判定模型(稱為Z-score模型),為客觀地評價企業(yè)財務(wù)狀況開創(chuàng)了一種新思路.為了克服線性判別模型對預(yù)測指標有著嚴格的聯(lián)合正態(tài)分布要求這一局限性,Martin D(1977)[4]引入Logistic回歸分析法建立企業(yè)財務(wù)預(yù)警模型,Ohlson J A(1980)[5]嘗試試用Probit模型來建立財務(wù)危機預(yù)警模型.上世紀九十年代以后,由于人工智能技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)開始被引入財務(wù)預(yù)警研究當(dāng)中,被證實有一定的預(yù)測能力,比如Odour M D(2012)[6]等.吳世農(nóng)(1986)[7]在我國首次撰文介紹企業(yè)破產(chǎn)的財務(wù)分析指標與預(yù)測模型之后相關(guān)的研究報告.陳靜(1999)[8]借鑒了Altman E的財務(wù)困境模型,利用單變量分析和判別分析的fishin準則得出判斷函數(shù),標志著國內(nèi)研究財務(wù)困境問題的開始.張玲(2000)[9]選取了滬深兩市14個行業(yè)120家上市公司為樣本,從15個財務(wù)比率指標中選擇了4個指標構(gòu)建預(yù)警模型,研究發(fā)現(xiàn)模型具有超前4年的預(yù)測結(jié)果.吳世農(nóng)(2001)[10]分別利用多元判別分析、線性概率分析和Logistic回歸分析進行建模預(yù)測,研究結(jié)果表明Logistic預(yù)測模型效果最好.楊寶安(2001)[11]針對判別分析存在的問題,引入人工神經(jīng)網(wǎng)絡(luò)構(gòu)建模型.各種人工智能包括機器學(xué)習(xí)的方法陸續(xù)引入到相關(guān)研究當(dāng)中,如李秉祥提出的組合預(yù)警模型;郭德仁(2009)[12]構(gòu)建了基于模糊聚類和模糊模式識別的模型;蔣盛益(2010)[13]基于機器學(xué)習(xí)理論,探討了貝葉斯網(wǎng)絡(luò)、決策樹、基于規(guī)則分類、最近鄰分類、多層感應(yīng)機、BP神經(jīng)網(wǎng)絡(luò)和Logistic回歸在企業(yè)財務(wù)預(yù)警研究中的實證效果.盡管財務(wù)預(yù)警研究取得了長足發(fā)展,吳星澤(2011)[14]總結(jié)分析研究現(xiàn)狀,提出以往研究在研究框架上也存在一定的問題.
第2期何勝美等:基于誤判代價加權(quán)的Logistic財務(wù)預(yù)警模型研究
首先,在樣本的選擇上存在一定問題.市場上正常公司樣本和財務(wù)不正常公司樣本比例往往是很高的,以2017年5月滬深上市公司為例,共有3241家非ST公司(財務(wù)正常),而ST和*ST公司只有74家,正常公司和陷入財務(wù)困境公司比例約為43:1.但過往大部分研究樣本采用1:1樣本配對,選擇樣本時,先選定好財務(wù)失敗的公司做為負類樣本,然后根據(jù)一定規(guī)則,從財務(wù)正常的公司中按照1:1比例選擇正常公司配對,形成總的研究樣本.這種樣本的選擇(尤其是正常公司樣本的選擇)是非隨機的,它會導(dǎo)致模型系數(shù)和概率的估計有偏(Zmijewski M E,1984)[15],吳星澤[14]從Bayes定理證明了這一點,彭大慶(2006)[16]的實證研究也說明這個問題.但如果對于正常公司的選擇采用隨機抽樣,那么建立起來的預(yù)警模型效果將受到隨機抽樣的影響,這樣得到的預(yù)警模型不穩(wěn)定,結(jié)果也不可靠(何勝美等,2014)[17].所以單純1:1樣本配對建立財務(wù)預(yù)警模型不太可行.如果采用全樣本建模,那么樣本比例不均衡(當(dāng)前滬深上市公司約為43:1).對于高度不平衡的數(shù)據(jù)集的分類,訓(xùn)練的識別模型將嚴重偏向樣本數(shù)量多的類,從而導(dǎo)致數(shù)量少的類的識別效果偏低(Hai-bo H,2009)[18].何勝美等(2014)[17]研究表明,不加處理采用全樣本建立的財務(wù)預(yù)警模型幾乎將所有的ST公司誤判成了正常公司,同時能保持很高的總體識別率.無論對于企業(yè)管理者還是投資者,都是不可接受的.針對這問題,SMOTO和Bagging算法引入到財務(wù)預(yù)警研究當(dāng)中,一定程度上改進了上述問題.