基于加權(quán)高斯過程的上市公司財務危機預警

2022-04-26 08:10王文勝

杭州電子科技大學學報(社會科學版) 2022年2期

王文勝，沈超

(杭州電子科技大學經(jīng)濟學院，浙江杭州 310018)

自我國經(jīng)濟從高速向高質(zhì)量發(fā)展轉(zhuǎn)型以來，經(jīng)濟進入新常態(tài)，增速逐漸放緩，企業(yè)管理水平面臨巨大挑戰(zhàn)。部分企業(yè)經(jīng)營效率低下、對外界市場不確定性的應變能力不足，導致企業(yè)財務危機屢見不鮮，不僅破壞企業(yè)穩(wěn)健運營，同時也損害了廣大投資者的利益，故建立科學高效的財務預警模型，推動企業(yè)在危機惡化前采取有效措施，對企業(yè)和投資者雙方都有積極意義。

一、文獻回顧及研究動機

上市企業(yè)財務預警本質(zhì)上歸屬二分類問題，預警模型主要分為兩類，統(tǒng)計模型和機器學習。前者包括單變量預測[1]、多元判別分析[2]等，后者包含邏輯斯蒂回歸(Logistic)、支持向量機(SVM)等。與統(tǒng)計模型相比，機器學習能夠更有效地處理數(shù)據(jù)間的復雜關(guān)系，準確率更高[3]，逐漸成為主流。Ohlson[4]采用Logistic對企業(yè)財務危機進行預警，并對樣本企業(yè)輸出破產(chǎn)概率，證明Logistic有效性；方匡南等[5]針對財務指標間的網(wǎng)絡結(jié)構(gòu)關(guān)系，構(gòu)建基于網(wǎng)結(jié)構(gòu)的Logistic模型；李長山[6]利用因子分析和Logistic建立風險預警，著重強調(diào)企業(yè)的獲利能力和償債能力；朱發(fā)根等[7]首次將SVM運用于高新技術(shù)上市公司財務預警，整體準確率高達90%；劉玉敏等[8]結(jié)合粒子群優(yōu)化算法改進傳統(tǒng)SVM，精確尋找最優(yōu)參數(shù)，模型預測效率得到提升。但Logistic、SVM在財務預警領(lǐng)域仍存在一些難以克服的缺陷：Logistic決策面是基于線性的，難以處理財務預警這類非線性問題，并且其對樣本量大小要求比較高，現(xiàn)實中往往無法滿足；SVM能較好適應非線性、小樣本場景，但其核函數(shù)、超參數(shù)選取困難，往往需要借助粒子群優(yōu)化、遺傳算法等[9]參數(shù)尋優(yōu)方法。因此有必要討論一種新的有效方法來識別財務風險問題。

高斯過程分類(GPC)是一種新穎性的非參概率分類算法，理論基礎(chǔ)嚴密，具備計算簡單、參數(shù)自適應獲取、后驗概率估計更加精確等優(yōu)勢，同樣適用于非線性、小樣本場景。Huang[10]利用變分高斯過程分類對信用評級進行預測，每年最低預測錯誤率GPC均優(yōu)于Logistic、SVM等；Antunes等[11]針對財務破產(chǎn)概率進行分析與可視化，相比Logistic、SVM，GPC除更鮮明的概率解釋外，破產(chǎn)預測準確率更高，表明GPC在財務預警領(lǐng)域具有可行性。

財務預警領(lǐng)域普遍存在數(shù)據(jù)不平衡性，即正常企業(yè)數(shù)遠遠大于風險企業(yè)。若使用不平衡樣本直接建模，會導致分類結(jié)果偏向多數(shù)類[12]從而丟失模型預警能力。王澤霞和李正治[13]采用配對樣本方式解決數(shù)據(jù)不平衡，檢驗管理層語調(diào)是否能改善模型預警效率；但數(shù)據(jù)進行配對時，會丟失部分多數(shù)類樣本信息。熊毅和張友棠[14]運用全部樣本構(gòu)建Logit模型，通過確定F計分臨界值進行預警；模型處理全部不平衡樣本時，分類閾值會發(fā)生偏移，Provost[15]提出閾值移動可解決不平衡問題，但閾值的確定較為困難。聶瑞華和石洪波[16]通過SMOTE對數(shù)據(jù)進行預處理，反復試驗確定過采樣比例，再結(jié)合貝葉斯網(wǎng)絡進行分類，在平均準確率和標準差方面取得較優(yōu)結(jié)果；過采樣能緩解數(shù)據(jù)不平衡性，但其抽樣比例需反復試驗確定，若選取不當，結(jié)果會適得其反，此外過采樣還會破壞原始數(shù)據(jù)結(jié)構(gòu)，增加噪聲引入的可能性。Huang等[17]構(gòu)建組合核函數(shù)，在特征加權(quán)基礎(chǔ)上運用單類支持向量機(OCSVM)構(gòu)建財務困境預測模型；OCSVM屬于新穎性檢測，建模時僅運用到單一類別樣本，而財務預警歸屬二分類，亦會丟失部分樣本信息。

此外，財務預警領(lǐng)域代價敏感問題也不容忽視，在現(xiàn)實中，風險企業(yè)的錯分代價往往大于正常企業(yè)。張濤等[18]構(gòu)建樣本依賴矩陣，通過最小風險貝葉斯決策對分類結(jié)果進行后處理，實現(xiàn)代價敏感，在UCI標準信用數(shù)據(jù)集上取得優(yōu)良結(jié)果；羅康洋和王國強[19]利用改進MRMR算法結(jié)合代價敏感支持向量機建模預測，少數(shù)類識別率有所提高；馬彪等[20]將代價敏感引入變分高斯過程中，在傳統(tǒng)GPC聯(lián)合似然函數(shù)上引入不同權(quán)重系數(shù)，使得錯分少數(shù)類樣本的代價大于錯分多數(shù)類樣本的代價，最終實現(xiàn)改善少數(shù)類樣本預測精度的目的。

文獻回顧發(fā)現(xiàn)，從模型選取來看，GPC相對于傳統(tǒng)Logistic、SVM模型具備非線性擬合能力強，超參數(shù)自適應獲取等優(yōu)勢，但其在財務預警領(lǐng)域的應用研究不多；從樣本不平衡角度來看，配對樣本和單類學習會丟失部分樣本信息，閾值移動和過采樣則是臨界點和抽樣比例難以確定；從代價敏感角度來看，已有學者證明加權(quán)高斯過程分類算法的有效性，但并未運用至財務領(lǐng)域?qū)嵶C研究，并且其樣本的權(quán)重矩陣設(shè)定困難。因此，本文首先將GPC應用于財務預警領(lǐng)域；其次針對數(shù)據(jù)不平衡性，以配對樣本為基礎(chǔ)樣本，運用單類支持向量機充分挖掘剩余正常企業(yè)蘊含的信息，以此形式綜合考慮整體樣本；最后，利用訓練好的OCSVM對配對樣本進行異常檢測，憑借輸出的異常分數(shù)進行樣本權(quán)重矩陣設(shè)定，結(jié)合加權(quán)高斯過程分類構(gòu)建財務預警模型，以此檢驗GPC能否提高財務預警效力以及剩余正常企業(yè)樣本是否包含財務預警的信息增量。

二、模型構(gòu)建

(一)單類支持向量機模型的構(gòu)建

財務預警數(shù)據(jù)中正常企業(yè)數(shù)量遠多于風險企業(yè)，本文以配對樣本為基礎(chǔ)樣本，采用單類支持向量機模型(OCSVM)挖掘剩余正常企業(yè)信息。OCSVM是標準支持向量機的變體形式，對數(shù)據(jù)異常值點具有出色的識別能力。其有兩種學習形式，超球法和超平面法，本文采用超球法。它將樣本數(shù)據(jù)通過核函數(shù)映射至高維空間，使得大部分樣本盡可能被包含在超球體區(qū)域內(nèi)，少部分點位于超球體外。若樣本點落在區(qū)域內(nèi)，則認為該點為正常點，反之則為異常點。涵蓋剩余正常企業(yè)的超球體表達式如下：

(1)

其中a表示球體中心,R表示球體半徑,ξi表示松弛變量，其允許將超球體區(qū)域外的部分點視為正常點。為平衡球體體積與目標樣本數(shù)量,添加懲罰項系數(shù)C,因此目標函數(shù)為:

(2)

通過引入拉格朗日乘子,將式(1)代入式(2),構(gòu)建拉格朗日函數(shù),然后通過偏導求極值。最終目標函數(shù)簡化為:

(3)

(4)

由式(3)、式(4)解出αi便可知球體中心α、R,當樣本點與α之間距離大于R,則視為異常點;反之,則視為正常點。在財務預警領(lǐng)域，異常點即代表風險企業(yè)，利用訓練好的OCSVM對配對樣本進行異常檢測,輸出異常分數(shù)并對其歸一化至0-1區(qū)間,用score表示,用于權(quán)重設(shè)置。score越小，樣本點屬于異常點的幾率就越大。基于錯分代價敏感思想，通過加大異常點的樣本權(quán)重以期望提高風險企業(yè)識別率，參考孟安波等[21]的做法，權(quán)重表達式如下:

ui=exp(1-scorei)

(5)

(二)加權(quán)高斯過程分類模型的構(gòu)建

高斯過程分類(GPC)是結(jié)合貝葉斯方法和核技巧的非參概率分類算法，通過訓練數(shù)據(jù)對目標變量的后驗概率進行建模，再采用非線性映射函數(shù)將隱函數(shù)值轉(zhuǎn)換至0-1之間。相比于傳統(tǒng)Logistic、SVM等模型，GPC非線性求解能力出色，參數(shù)自適應獲取，模型收斂能力更強。假設(shè)X為樣本的特征空間，D={(x1,y1),(x2,y2),…,(xn,yn)}為訓練數(shù)據(jù)集合，其中n表示樣本個數(shù)，xi∈X，yi∈[-1,1]。

1.先驗分布

二元分類基本思想為確定潛在映射函數(shù)f(x)，對測試樣本進行分類。高斯過程分類便假定f(x)為一個高斯過程，即在f(x)上添加零均值，協(xié)方差為K的高斯分布先驗，即f(X|θ)～GP(0,K)，相應的概率密度函數(shù)可表示為：

(6)

其中K表示協(xié)方差函數(shù)，也稱作核函數(shù)，本文采用平方指數(shù)協(xié)方差函數(shù)，其表示如下：

(7)

式(6)的θ={σf,l}表示超參數(shù)，可通過極大似然估計自適應獲得。

2.加權(quán)聯(lián)合似然函數(shù)

傳統(tǒng)二分類中，樣本屬于某標簽的可能性用條件概率表示：

p(yi|fi)=φ(yifi)

(8)

(9)

其中φ表示擠壓函數(shù)，將輸出值轉(zhuǎn)化為概率值，一般采用Logistic回歸函數(shù)，形式如式(9)所示?；跇颖惊毩⑿约僭O(shè)，二分類樣本y服從伯努利分布，其聯(lián)合似然函數(shù)表示為：

(10)

財務預警領(lǐng)域錯分代價敏感，為提高風險企業(yè)識別率，結(jié)合經(jīng)OCSVM處理后所得的樣本權(quán)重ui，改進為加權(quán)聯(lián)合似然函數(shù)[22]：

(11)

3.后驗分布及其Laplace近似

根據(jù)上述先驗分布以及加權(quán)聯(lián)合似然函數(shù)，結(jié)合貝葉斯原理可得后驗分布：

(12)

那么，與x*對應的潛在函數(shù)f*的后驗分布為：

(13)

計算過程中后驗分布p(f|D,θ)積分困難，參考文獻[23]使用Laplace進行高斯近似，最終f*的近似后驗分布為：

(14)

4.概率預測

最后，通過f*的近似后驗分布進行預測：

(15)

(16)

三、上市企業(yè)財務風險預警的實證研究

(一)數(shù)據(jù)來源

本文數(shù)據(jù)來源為國泰安數(shù)據(jù)庫，以滬深A股制造業(yè)上市企業(yè)為研究對象，選取其在2016—2020年的經(jīng)營狀態(tài)為樣本，以被特殊處理作為風險的標志，ST企業(yè)記為1，正常企業(yè)記為0。參照石曉軍等[24]做法，以t-2年的財務數(shù)據(jù)預測t年是否會被特殊處理，因此選取2014—2018年財務數(shù)據(jù)進行匹配。樣本共搜集ST企業(yè)91家，正常企業(yè)546家，按照1：2配比原則，隨機選取182家正常企業(yè)與91家ST企業(yè)配對，其余364家正常企業(yè)作為剩余樣本用作異常檢測。獲取總體樣本之后，需進行數(shù)據(jù)預處理，主要包括：一是對缺失值進行填補，運用指標均值進行填充；二是對各項指標進行歸一化處理。

(二)變量選擇與降維

參照文獻一般做法，從償債能力、發(fā)展能力、經(jīng)營能力、盈利能力方面共選取25個初始變量，具體如表1所示。

表1 初始候選變量

1.指標雙重顯著性檢驗

針對初始變量能否有效區(qū)分ST與正常企業(yè)進行雙重顯著性檢驗，即雙樣本Kolmogorov-Smirnov(K-S)檢驗和Mann Whitney-U(MW-U)檢驗。兩樣本K-S檢驗其分布是否存在顯著差異，MW-U檢驗兩樣本均值是否存在顯著差異，初始變量的雙重顯著性檢驗結(jié)果如表2、表3所示。

表2 K-S檢驗結(jié)果

表3 MW-U檢驗結(jié)果

為保證變量篩選嚴格性，只有當某指標在雙重檢驗中結(jié)果均不顯著才會被剔除，綜上結(jié)果保留所有變量。

2.主成分提取

多指標建模會存在多重共線性問題，導致模型預測精度下降，因此采用主成分分析提取主成分，避免多重共線性。運用整體樣本進行主成分降維，KMO統(tǒng)計量值為0.719，Bartlett球形檢驗顯著性為0；以80%累計方差貢獻率作為提取標準，共選擇12個主成分，累計方差貢獻率為81.51%。

(三)評價指標選擇

本文將風險企業(yè)記作正例，用1表示；正常企業(yè)記作負例，用0表示。TP表示實際為正例預測也為正例的樣本；FN表示實際為正例但預測為負例的樣本；FP表示實際為負例但預測為正例的樣本；TN表示實際為負例同時預測也為負例的樣本。由此可計算FPR、TPR，F(xiàn)PR表示實際為負例但預測為正例的比例，TPR表示實際為正例預測也為正例的占比。Roc曲線下方面積大小(AUC)為TPR、FPR構(gòu)成的曲線面積大小，通常以此度量模型對正負例樣本的區(qū)分能力，AUC值越大，模型分類效果越好；在數(shù)據(jù)平衡情況下，準確率(ACC)能較好反映對正負例樣本整體的分類精度；召回率(Recall)則更注重少數(shù)類識別率，表示實際為正例的樣本中被預測為正例的樣本比例，1-Recall即表示第一類錯誤率(棄真)，Recall越高，第一類錯誤率越低，對風險企業(yè)識別率越高。在現(xiàn)實生活中誤判風險企業(yè)的代價往往比誤判正常企業(yè)高得多，因此著重關(guān)注Recall。故本文選用三項指標AUC、ACC、Recall作為分類評價標準，均由混淆矩陣給出，具體表達式如下：

表4 混淆矩陣

(17)

(18)

AUC=AreaTPR-FPR

(19)

(20)

(21)

(四)財務風險預警結(jié)果分析

從配對樣本的91家ST企業(yè)和182家正常企業(yè)中，隨機選取64家ST企業(yè)和127家正常企業(yè)作為訓練樣本，剩余27家ST企業(yè)和55家正常企業(yè)作為測試樣本。通過python進行模擬實驗，預測結(jié)果如表5所示。

表5 預警模型訓練和測試結(jié)果

從表5測試集表現(xiàn)可看出，未引入OCSVM異常權(quán)重時，使用Logistic模型27家ST企業(yè)中有8家企業(yè)被誤判，55家正常企業(yè)中有5家被誤判；使用SVM模型27家ST企業(yè)中有8家企業(yè)被誤判，55家正常企業(yè)中有4家被誤判；使用GPC模型27家ST企業(yè)中有10家企業(yè)被誤判，55家正常企業(yè)中有2家被誤判，表明相較于Logistic和SVM，GPC對正常企業(yè)識別率更高，而對風險企業(yè)識別率稍有不足。從整體測試集表現(xiàn)來看，GPC與SVM優(yōu)于Logistic模型，均達到85.4%，結(jié)合圖1來看，未引入剩余正常企業(yè)信息時，GPC的AUC達到0.929 3，優(yōu)于Logistic、SVM，表明GPC模型對于上市企業(yè)財務風險具有良好的預警效果。

現(xiàn)實中往往存在代價敏感問題，風險企業(yè)的識別率高低占據(jù)主導。綜合考慮剩余正常企業(yè)信息，引入OCSVM異常檢測后，結(jié)合GPC，27家ST企業(yè)中僅有8家企業(yè)被誤判，55家正常企業(yè)中有2家被誤判，風險企業(yè)識別率從63.0%提升至70.4%，整體預測準確率從85.4%提升至87.8%。結(jié)合圖1來看，引入剩余正常企業(yè)信息后，OCSVM-GPC的AUC進一步提升至0.934 7，表明GPC融入剩余正常企業(yè)信息后，模型預測效力進一步提高，在建模時需綜合利用整體樣本信息，僅使用配對樣本會導致部分信息增量丟失。

圖1 Roc曲線

(五)穩(wěn)健性檢驗

進行穩(wěn)健性檢驗，排除因訓練集、測試集劃分不一致而導致的結(jié)果偏差。進行100次不同的子集劃分，劃分比例均保持7 ∶3，觀察其AUC、ACC、Recall均值及標準差，試驗結(jié)果如表6所示。

表6 穩(wěn)健性檢驗結(jié)果

由表6結(jié)果可知，GPC在AUC、準確率方面均優(yōu)于Logistic和SVM，但Recall方面處于劣勢；引入剩余正常企業(yè)信息后，AUC、準確率相對于GPC進一步提高，Recall也顯著提升。這表明初始狀態(tài)下GPC對于風險企業(yè)識別率低，而引入剩余正常企業(yè)信息后，能明顯提高風險企業(yè)識別率，從而提升整體預測準確率，該結(jié)論與表5所得結(jié)論相一致。從標準差來看，SVM、GPC、OCSVM-GPC的穩(wěn)健性不相上下，均優(yōu)于Logistic。

四、結(jié)論

本文首先借鑒GPC分類方法的優(yōu)勢，將其引入財務預警領(lǐng)域；其次針對配對樣本會造成部分正常企業(yè)樣本信息丟失的局限性，采用OCSVM構(gòu)建異常檢測模型，充分挖掘剩余正常企業(yè)信息；再次，利用訓練好的OCSVM對配對樣本輸出異常分數(shù)，構(gòu)建樣本權(quán)重矩陣，并將樣本權(quán)重矩陣與加權(quán)高斯過程分類模型結(jié)合，實現(xiàn)代價敏感；最后，選取滬深A股制造業(yè)上市企業(yè)2016—2020年的數(shù)據(jù)進行實證分析，結(jié)果表明，OCSVM-GPC模型相較于Logistic、SVM和傳統(tǒng)GPC來說，風險企業(yè)識別率更高，整體分類準確率也更高。本文的主要結(jié)論為：

1.GPC整體預測效力優(yōu)于Logistic和SVM

從整體準確率來說，GPC、SVM均達到85.4%，均優(yōu)于Logistic的84.1%；從風險企業(yè)識別率來說，GPC僅為63.0%，劣于Logistic、SVM的70.4%；從正常企業(yè)識別率來說，GPC為96.4%，遠高于Logistic和SVM的90.9%、92.7%；從AUC來說，GPC為0.929 3，高于Logistic、SVM的0.823 6、0.909 1。綜上，GPC存在風險企業(yè)識別率不足的缺陷，但其整體識別率與SVM相持平并高于Logistic，在AUC指標上優(yōu)于Logistic和SVM。因此GPC整體預測效力優(yōu)于Logistic和SVM，也進一步說明GPC在財務預警領(lǐng)域的適用性。

2.樣本配對時，丟失部分樣本信息中包含財務預警的信息增量，應考慮整體樣本

本文以配對樣本為基礎(chǔ)樣本，創(chuàng)新性地引入OCSVM異常檢測模型來充分挖掘部分剩余企業(yè)信息。利用OCSVM模型輸出配對樣本點的異常分數(shù)，進行樣本權(quán)重矩陣的設(shè)定，并結(jié)合樣本權(quán)重矩陣和加權(quán)高斯過程分類，實現(xiàn)代價敏感。實證結(jié)果表明，在數(shù)據(jù)劃分不變情況下，綜合考慮剩余部分企業(yè)信息后，OCSVM-GPC對于風險企業(yè)識別率為70.4%，遠高于傳統(tǒng)GPC；整體分類準確率達到87.8%，高于Logistic、SVM和傳統(tǒng)GPC。因此建模時，單單考慮配對樣本有失偏頗，需綜合考慮整體樣本信息，異常檢測輸出樣本權(quán)重矩陣結(jié)合代價敏感類模型為此提供了一種解決思路。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡