王文勝,沈 超
(杭州電子科技大學 經(jīng)濟學院,浙江 杭州 310018)
自我國經(jīng)濟從高速向高質(zhì)量發(fā)展轉(zhuǎn)型以來,經(jīng)濟進入新常態(tài),增速逐漸放緩,企業(yè)管理水平面臨巨大挑戰(zhàn)。部分企業(yè)經(jīng)營效率低下、對外界市場不確定性的應變能力不足,導致企業(yè)財務危機屢見不鮮,不僅破壞企業(yè)穩(wěn)健運營,同時也損害了廣大投資者的利益,故建立科學高效的財務預警模型,推動企業(yè)在危機惡化前采取有效措施,對企業(yè)和投資者雙方都有積極意義。
上市企業(yè)財務預警本質(zhì)上歸屬二分類問題,預警模型主要分為兩類,統(tǒng)計模型和機器學習。前者包括單變量預測[1]、多元判別分析[2]等,后者包含邏輯斯蒂回歸(Logistic)、支持向量機(SVM)等。與統(tǒng)計模型相比,機器學習能夠更有效地處理數(shù)據(jù)間的復雜關(guān)系,準確率更高[3],逐漸成為主流。Ohlson[4]采用Logistic對企業(yè)財務危機進行預警,并對樣本企業(yè)輸出破產(chǎn)概率,證明Logistic有效性;方匡南等[5]針對財務指標間的網(wǎng)絡結(jié)構(gòu)關(guān)系,構(gòu)建基于網(wǎng)結(jié)構(gòu)的Logistic模型;李長山[6]利用因子分析和Logistic建立風險預警,著重強調(diào)企業(yè)的獲利能力和償債能力;朱發(fā)根等[7]首次將SVM運用于高新技術(shù)上市公司財務預警,整體準確率高達90%;劉玉敏等[8]結(jié)合粒子群優(yōu)化算法改進傳統(tǒng)SVM,精確尋找最優(yōu)參數(shù),模型預測效率得到提升。但Logistic、SVM在財務預警領(lǐng)域仍存在一些難以克服的缺陷:Logistic決策面是基于線性的,難以處理財務預警這類非線性問題,并且其對樣本量大小要求比較高,現(xiàn)實中往往無法滿足;SVM能較好適應非線性、小樣本場景,但其核函數(shù)、超參數(shù)選取困難,往往需要借助粒子群優(yōu)化、遺傳算法等[9]參數(shù)尋優(yōu)方法。因此有必要討論一種新的有效方法來識別財務風險問題。
高斯過程分類(GPC)是一種新穎性的非參概率分類算法,理論基礎(chǔ)嚴密,具備計算簡單、參數(shù)自適應獲取、后驗概率估計更加精確等優(yōu)勢,同樣適用于非線性、小樣本場景。Huang[10]利用變分高斯過程分類對信用評級進行預測,每年最低預測錯誤率GPC均優(yōu)于Logistic、SVM等;Antunes等[11]針對財務破產(chǎn)概率進行分析與可視化,相比Logistic、SVM,GPC除更鮮明的概率解釋外,破產(chǎn)預測準確率更高,表明GPC在財務預警領(lǐng)域具有可行性。
財務預警領(lǐng)域普遍存在數(shù)據(jù)不平衡性,即正常企業(yè)數(shù)遠遠大于風險企業(yè)。若使用不平衡樣本直接建模,會導致分類結(jié)果偏向多數(shù)類[12]從而丟失模型預警能力。王澤霞和李正治[13]采用配對樣本方式解決數(shù)據(jù)不平衡,檢驗管理層語調(diào)是否能改善模型預警效率;但數(shù)據(jù)進行配對時,會丟失部分多數(shù)類樣本信息。熊毅和張友棠[14]運用全部樣本構(gòu)建Logit模型,通過確定F計分臨界值進行預警;模型處理全部不平衡樣本時,分類閾值會發(fā)生偏移,Provost[15]提出閾值移動可解決不平衡問題,但閾值的確定較為困難。聶瑞華和石洪波[16]通過SMOTE對數(shù)據(jù)進行預處理,反復試驗確定過采樣比例,再結(jié)合貝葉斯網(wǎng)絡進行分類,在平均準確率和標準差方面取得較優(yōu)結(jié)果;過采樣能緩解數(shù)據(jù)不平衡性,但其抽樣比例需反復試驗確定,若選取不當,結(jié)果會適得其反,此外過采樣還會破壞原始數(shù)據(jù)結(jié)構(gòu),增加噪聲引入的可能性。Huang等[17]構(gòu)建組合核函數(shù),在特征加權(quán)基礎(chǔ)上運用單類支持向量機(OCSVM)構(gòu)建財務困境預測模型;OCSVM屬于新穎性檢測,建模時僅運用到單一類別樣本,而財務預警歸屬二分類,亦會丟失部分樣本信息。
此外,財務預警領(lǐng)域代價敏感問題也不容忽視,在現(xiàn)實中,風險企業(yè)的錯分代價往往大于正常企業(yè)。張濤等[18]構(gòu)建樣本依賴矩陣,通過最小風險貝葉斯決策對分類結(jié)果進行后處理,實現(xiàn)代價敏感,在UCI標準信用數(shù)據(jù)集上取得優(yōu)良結(jié)果;羅康洋和王國強[19]利用改進MRMR算法結(jié)合代價敏感支持向量機建模預測,少數(shù)類識別率有所提高;馬彪等[20]將代價敏感引入變分高斯過程中,在傳統(tǒng)GPC聯(lián)合似然函數(shù)上引入不同權(quán)重系數(shù),使得錯分少數(shù)類樣本的代價大于錯分多數(shù)類樣本的代價,最終實現(xiàn)改善少數(shù)類樣本預測精度的目的。
文獻回顧發(fā)現(xiàn),從模型選取來看,GPC相對于傳統(tǒng)Logistic、SVM模型具備非線性擬合能力強,超參數(shù)自適應獲取等優(yōu)勢,但其在財務預警領(lǐng)域的應用研究不多;從樣本不平衡角度來看,配對樣本和單類學習會丟失部分樣本信息,閾值移動和過采樣則是臨界點和抽樣比例難以確定;從代價敏感角度來看,已有學者證明加權(quán)高斯過程分類算法的有效性,但并未運用至財務領(lǐng)域?qū)嵶C研究,并且其樣本的權(quán)重矩陣設(shè)定困難。因此,本文首先將GPC應用于財務預警領(lǐng)域;其次針對數(shù)據(jù)不平衡性,以配對樣本為基礎(chǔ)樣本,運用單類支持向量機充分挖掘剩余正常企業(yè)蘊含的信息,以此形式綜合考慮整體樣本;最后,利用訓練好的OCSVM對配對樣本進行異常檢測,憑借輸出的異常分數(shù)進行樣本權(quán)重矩陣設(shè)定,結(jié)合加權(quán)高斯過程分類構(gòu)建財務預警模型,以此檢驗GPC能否提高財務預警效力以及剩余正常企業(yè)樣本是否包含財務預警的信息增量。
財務預警數(shù)據(jù)中正常企業(yè)數(shù)量遠多于風險企業(yè),本文以配對樣本為基礎(chǔ)樣本,采用單類支持向量機模型(OCSVM)挖掘剩余正常企業(yè)信息。OCSVM是標準支持向量機的變體形式,對數(shù)據(jù)異常值點具有出色的識別能力。其有兩種學習形式,超球法和超平面法,本文采用超球法。它將樣本數(shù)據(jù)通過核函數(shù)映射至高維空間,使得大部分樣本盡可能被包含在超球體區(qū)域內(nèi),少部分點位于超球體外。若樣本點落在區(qū)域內(nèi),則認為該點為正常點,反之則為異常點。涵蓋剩余正常企業(yè)的超球體表達式如下:
(1)
其中a表示球體中心,R表示球體半徑,ξi表示松弛變量,其允許將超球體區(qū)域外的部分點視為正常點。為平衡球體體積與目標樣本數(shù)量,添加懲罰項系數(shù)C,因此目標函數(shù)為:
(2)
通過引入拉格朗日乘子,將式(1)代入式(2),構(gòu)建拉格朗日函數(shù),然后通過偏導求極值。最終目標函數(shù)簡化為:
(3)
(4)
由式(3)、式(4)解出αi便可知球體中心α、R,當樣本點與α之間距離大于R,則視為異常點;反之,則視為正常點。在財務預警領(lǐng)域,異常點即代表風險企業(yè),利用訓練好的OCSVM對配對樣本進行異常檢測,輸出異常分數(shù)并對其歸一化至0-1區(qū)間,用score表示,用于權(quán)重設(shè)置。score越小,樣本點屬于異常點的幾率就越大。基于錯分代價敏感思想,通過加大異常點的樣本權(quán)重以期望提高風險企業(yè)識別率,參考孟安波等[21]的做法,權(quán)重表達式如下:
ui=exp(1-scorei)
(5)
高斯過程分類(GPC)是結(jié)合貝葉斯方法和核技巧的非參概率分類算法,通過訓練數(shù)據(jù)對目標變量的后驗概率進行建模,再采用非線性映射函數(shù)將隱函數(shù)值轉(zhuǎn)換至0-1之間。相比于傳統(tǒng)Logistic、SVM等模型,GPC非線性求解能力出色,參數(shù)自適應獲取,模型收斂能力更強。假設(shè)X為樣本的特征空間,D={(x1,y1),(x2,y2),…,(xn,yn)}為訓練數(shù)據(jù)集合,其中n表示樣本個數(shù),xi∈X,yi∈[-1,1]。
1.先驗分布
二元分類基本思想為確定潛在映射函數(shù)f(x),對測試樣本進行分類。高斯過程分類便假定f(x)為一個高斯過程,即在f(x)上添加零均值,協(xié)方差為K的高斯分布先驗,即f(X|θ)~GP(0,K),相應的概率密度函數(shù)可表示為:
(6)
其中K表示協(xié)方差函數(shù),也稱作核函數(shù),本文采用平方指數(shù)協(xié)方差函數(shù),其表示如下:
(7)
式(6)的θ={σf,l}表示超參數(shù),可通過極大似然估計自適應獲得。
2.加權(quán)聯(lián)合似然函數(shù)
傳統(tǒng)二分類中,樣本屬于某標簽的可能性用條件概率表示:
p(yi|fi)=φ(yifi)
(8)
(9)
其中φ表示擠壓函數(shù),將輸出值轉(zhuǎn)化為概率值,一般采用Logistic回歸函數(shù),形式如式(9)所示?;跇颖惊毩⑿约僭O(shè),二分類樣本y服從伯努利分布,其聯(lián)合似然函數(shù)表示為:
(10)
財務預警領(lǐng)域錯分代價敏感,為提高風險企業(yè)識別率,結(jié)合經(jīng)OCSVM處理后所得的樣本權(quán)重ui,改進為加權(quán)聯(lián)合似然函數(shù)[22]:
(11)
3.后驗分布及其Laplace近似
根據(jù)上述先驗分布以及加權(quán)聯(lián)合似然函數(shù),結(jié)合貝葉斯原理可得后驗分布:
(12)
那么,與x*對應的潛在函數(shù)f*的后驗分布為:
(13)
計算過程中后驗分布p(f|D,θ)積分困難,參考文獻[23]使用Laplace進行高斯近似,最終f*的近似后驗分布為:
(14)
4.概率預測
最后,通過f*的近似后驗分布進行預測:
(15)
(16)
本文數(shù)據(jù)來源為國泰安數(shù)據(jù)庫,以滬深A股制造業(yè)上市企業(yè)為研究對象,選取其在2016—2020年的經(jīng)營狀態(tài)為樣本,以被特殊處理作為風險的標志,ST企業(yè)記為1,正常企業(yè)記為0。參照石曉軍等[24]做法,以t-2年的財務數(shù)據(jù)預測t年是否會被特殊處理,因此選取2014—2018年財務數(shù)據(jù)進行匹配。樣本共搜集ST企業(yè)91家,正常企業(yè)546家,按照1:2配比原則,隨機選取182家正常企業(yè)與91家ST企業(yè)配對,其余364家正常企業(yè)作為剩余樣本用作異常檢測。獲取總體樣本之后,需進行數(shù)據(jù)預處理,主要包括:一是對缺失值進行填補,運用指標均值進行填充;二是對各項指標進行歸一化處理。
參照文獻一般做法,從償債能力、發(fā)展能力、經(jīng)營能力、盈利能力方面共選取25個初始變量,具體如表1所示。
表1 初始候選變量
1.指標雙重顯著性檢驗
針對初始變量能否有效區(qū)分ST與正常企業(yè)進行雙重顯著性檢驗,即雙樣本Kolmogorov-Smirnov(K-S)檢驗和Mann Whitney-U(MW-U)檢驗。兩樣本K-S檢驗其分布是否存在顯著差異,MW-U檢驗兩樣本均值是否存在顯著差異,初始變量的雙重顯著性檢驗結(jié)果如表2、表3所示。
表2 K-S檢驗結(jié)果
表3 MW-U檢驗結(jié)果
為保證變量篩選嚴格性,只有當某指標在雙重檢驗中結(jié)果均不顯著才會被剔除,綜上結(jié)果保留所有變量。
2.主成分提取
多指標建模會存在多重共線性問題,導致模型預測精度下降,因此采用主成分分析提取主成分,避免多重共線性。運用整體樣本進行主成分降維,KMO統(tǒng)計量值為0.719,Bartlett球形檢驗顯著性為0;以80%累計方差貢獻率作為提取標準,共選擇12個主成分,累計方差貢獻率為81.51%。
本文將風險企業(yè)記作正例,用1表示;正常企業(yè)記作負例,用0表示。TP表示實際為正例預測也為正例的樣本;FN表示實際為正例但預測為負例的樣本;FP表示實際為負例但預測為正例的樣本;TN表示實際為負例同時預測也為負例的樣本。由此可計算FPR、TPR,F(xiàn)PR表示實際為負例但預測為正例的比例,TPR表示實際為正例預測也為正例的占比。Roc曲線下方面積大小(AUC)為TPR、FPR構(gòu)成的曲線面積大小,通常以此度量模型對正負例樣本的區(qū)分能力,AUC值越大,模型分類效果越好;在數(shù)據(jù)平衡情況下,準確率(ACC)能較好反映對正負例樣本整體的分類精度;召回率(Recall)則更注重少數(shù)類識別率,表示實際為正例的樣本中被預測為正例的樣本比例,1-Recall即表示第一類錯誤率(棄真),Recall越高,第一類錯誤率越低,對風險企業(yè)識別率越高。在現(xiàn)實生活中誤判風險企業(yè)的代價往往比誤判正常企業(yè)高得多,因此著重關(guān)注Recall。故本文選用三項指標AUC、ACC、Recall作為分類評價標準,均由混淆矩陣給出,具體表達式如下:
表4 混淆矩陣
(17)
(18)
AUC=AreaTPR-FPR
(19)
(20)
(21)
從配對樣本的91家ST企業(yè)和182家正常企業(yè)中,隨機選取64家ST企業(yè)和127家正常企業(yè)作為訓練樣本,剩余27家ST企業(yè)和55家正常企業(yè)作為測試樣本。通過python進行模擬實驗,預測結(jié)果如表5所示。
表5 預警模型訓練和測試結(jié)果
從表5測試集表現(xiàn)可看出,未引入OCSVM異常權(quán)重時,使用Logistic模型27家ST企業(yè)中有8家企業(yè)被誤判,55家正常企業(yè)中有5家被誤判;使用SVM模型27家ST企業(yè)中有8家企業(yè)被誤判,55家正常企業(yè)中有4家被誤判;使用GPC模型27家ST企業(yè)中有10家企業(yè)被誤判,55家正常企業(yè)中有2家被誤判,表明相較于Logistic和SVM,GPC對正常企業(yè)識別率更高,而對風險企業(yè)識別率稍有不足。從整體測試集表現(xiàn)來看,GPC與SVM優(yōu)于Logistic模型,均達到85.4%,結(jié)合圖1來看,未引入剩余正常企業(yè)信息時,GPC的AUC達到0.929 3,優(yōu)于Logistic、SVM,表明GPC模型對于上市企業(yè)財務風險具有良好的預警效果。
現(xiàn)實中往往存在代價敏感問題,風險企業(yè)的識別率高低占據(jù)主導。綜合考慮剩余正常企業(yè)信息,引入OCSVM異常檢測后,結(jié)合GPC,27家ST企業(yè)中僅有8家企業(yè)被誤判,55家正常企業(yè)中有2家被誤判,風險企業(yè)識別率從63.0%提升至70.4%,整體預測準確率從85.4%提升至87.8%。結(jié)合圖1來看,引入剩余正常企業(yè)信息后,OCSVM-GPC的AUC進一步提升至0.934 7,表明GPC融入剩余正常企業(yè)信息后,模型預測效力進一步提高,在建模時需綜合利用整體樣本信息,僅使用配對樣本會導致部分信息增量丟失。
圖1 Roc曲線
進行穩(wěn)健性檢驗,排除因訓練集、測試集劃分不一致而導致的結(jié)果偏差。進行100次不同的子集劃分,劃分比例均保持7 ∶3,觀察其AUC、ACC、Recall均值及標準差,試驗結(jié)果如表6所示。
表6 穩(wěn)健性檢驗結(jié)果
由表6結(jié)果可知,GPC在AUC、準確率方面均優(yōu)于Logistic和SVM,但Recall方面處于劣勢;引入剩余正常企業(yè)信息后,AUC、準確率相對于GPC進一步提高,Recall也顯著提升。這表明初始狀態(tài)下GPC對于風險企業(yè)識別率低,而引入剩余正常企業(yè)信息后,能明顯提高風險企業(yè)識別率,從而提升整體預測準確率,該結(jié)論與表5所得結(jié)論相一致。從標準差來看,SVM、GPC、OCSVM-GPC的穩(wěn)健性不相上下,均優(yōu)于Logistic。
本文首先借鑒GPC分類方法的優(yōu)勢,將其引入財務預警領(lǐng)域;其次針對配對樣本會造成部分正常企業(yè)樣本信息丟失的局限性,采用OCSVM構(gòu)建異常檢測模型,充分挖掘剩余正常企業(yè)信息;再次,利用訓練好的OCSVM對配對樣本輸出異常分數(shù),構(gòu)建樣本權(quán)重矩陣,并將樣本權(quán)重矩陣與加權(quán)高斯過程分類模型結(jié)合,實現(xiàn)代價敏感;最后,選取滬深A股制造業(yè)上市企業(yè)2016—2020年的數(shù)據(jù)進行實證分析,結(jié)果表明,OCSVM-GPC模型相較于Logistic、SVM和傳統(tǒng)GPC來說,風險企業(yè)識別率更高,整體分類準確率也更高。本文的主要結(jié)論為:
1.GPC整體預測效力優(yōu)于Logistic和SVM
從整體準確率來說,GPC、SVM均達到85.4%,均優(yōu)于Logistic的84.1%;從風險企業(yè)識別率來說,GPC僅為63.0%,劣于Logistic、SVM的70.4%;從正常企業(yè)識別率來說,GPC為96.4%,遠高于Logistic和SVM的90.9%、92.7%;從AUC來說,GPC為0.929 3,高于Logistic、SVM的0.823 6、0.909 1。綜上,GPC存在風險企業(yè)識別率不足的缺陷,但其整體識別率與SVM相持平并高于Logistic,在AUC指標上優(yōu)于Logistic和SVM。因此GPC整體預測效力優(yōu)于Logistic和SVM,也進一步說明GPC在財務預警領(lǐng)域的適用性。
2.樣本配對時,丟失部分樣本信息中包含財務預警的信息增量,應考慮整體樣本
本文以配對樣本為基礎(chǔ)樣本,創(chuàng)新性地引入OCSVM異常檢測模型來充分挖掘部分剩余企業(yè)信息。利用OCSVM模型輸出配對樣本點的異常分數(shù),進行樣本權(quán)重矩陣的設(shè)定,并結(jié)合樣本權(quán)重矩陣和加權(quán)高斯過程分類,實現(xiàn)代價敏感。實證結(jié)果表明,在數(shù)據(jù)劃分不變情況下,綜合考慮剩余部分企業(yè)信息后,OCSVM-GPC對于風險企業(yè)識別率為70.4%,遠高于傳統(tǒng)GPC;整體分類準確率達到87.8%,高于Logistic、SVM和傳統(tǒng)GPC。因此建模時,單單考慮配對樣本有失偏頗,需綜合考慮整體樣本信息,異常檢測輸出樣本權(quán)重矩陣結(jié)合代價敏感類模型為此提供了一種解決思路。