国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于加權(quán)高斯過程的上市公司財務危機預警

2022-04-26 08:10王文勝
關(guān)鍵詞:識別率準確率預警

王文勝,沈 超

(杭州電子科技大學 經(jīng)濟學院,浙江 杭州 310018)

自我國經(jīng)濟從高速向高質(zhì)量發(fā)展轉(zhuǎn)型以來,經(jīng)濟進入新常態(tài),增速逐漸放緩,企業(yè)管理水平面臨巨大挑戰(zhàn)。部分企業(yè)經(jīng)營效率低下、對外界市場不確定性的應變能力不足,導致企業(yè)財務危機屢見不鮮,不僅破壞企業(yè)穩(wěn)健運營,同時也損害了廣大投資者的利益,故建立科學高效的財務預警模型,推動企業(yè)在危機惡化前采取有效措施,對企業(yè)和投資者雙方都有積極意義。

一、文獻回顧及研究動機

上市企業(yè)財務預警本質(zhì)上歸屬二分類問題,預警模型主要分為兩類,統(tǒng)計模型和機器學習。前者包括單變量預測[1]、多元判別分析[2]等,后者包含邏輯斯蒂回歸(Logistic)、支持向量機(SVM)等。與統(tǒng)計模型相比,機器學習能夠更有效地處理數(shù)據(jù)間的復雜關(guān)系,準確率更高[3],逐漸成為主流。Ohlson[4]采用Logistic對企業(yè)財務危機進行預警,并對樣本企業(yè)輸出破產(chǎn)概率,證明Logistic有效性;方匡南等[5]針對財務指標間的網(wǎng)絡結(jié)構(gòu)關(guān)系,構(gòu)建基于網(wǎng)結(jié)構(gòu)的Logistic模型;李長山[6]利用因子分析和Logistic建立風險預警,著重強調(diào)企業(yè)的獲利能力和償債能力;朱發(fā)根等[7]首次將SVM運用于高新技術(shù)上市公司財務預警,整體準確率高達90%;劉玉敏等[8]結(jié)合粒子群優(yōu)化算法改進傳統(tǒng)SVM,精確尋找最優(yōu)參數(shù),模型預測效率得到提升。但Logistic、SVM在財務預警領(lǐng)域仍存在一些難以克服的缺陷:Logistic決策面是基于線性的,難以處理財務預警這類非線性問題,并且其對樣本量大小要求比較高,現(xiàn)實中往往無法滿足;SVM能較好適應非線性、小樣本場景,但其核函數(shù)、超參數(shù)選取困難,往往需要借助粒子群優(yōu)化、遺傳算法等[9]參數(shù)尋優(yōu)方法。因此有必要討論一種新的有效方法來識別財務風險問題。

高斯過程分類(GPC)是一種新穎性的非參概率分類算法,理論基礎(chǔ)嚴密,具備計算簡單、參數(shù)自適應獲取、后驗概率估計更加精確等優(yōu)勢,同樣適用于非線性、小樣本場景。Huang[10]利用變分高斯過程分類對信用評級進行預測,每年最低預測錯誤率GPC均優(yōu)于Logistic、SVM等;Antunes等[11]針對財務破產(chǎn)概率進行分析與可視化,相比Logistic、SVM,GPC除更鮮明的概率解釋外,破產(chǎn)預測準確率更高,表明GPC在財務預警領(lǐng)域具有可行性。

財務預警領(lǐng)域普遍存在數(shù)據(jù)不平衡性,即正常企業(yè)數(shù)遠遠大于風險企業(yè)。若使用不平衡樣本直接建模,會導致分類結(jié)果偏向多數(shù)類[12]從而丟失模型預警能力。王澤霞和李正治[13]采用配對樣本方式解決數(shù)據(jù)不平衡,檢驗管理層語調(diào)是否能改善模型預警效率;但數(shù)據(jù)進行配對時,會丟失部分多數(shù)類樣本信息。熊毅和張友棠[14]運用全部樣本構(gòu)建Logit模型,通過確定F計分臨界值進行預警;模型處理全部不平衡樣本時,分類閾值會發(fā)生偏移,Provost[15]提出閾值移動可解決不平衡問題,但閾值的確定較為困難。聶瑞華和石洪波[16]通過SMOTE對數(shù)據(jù)進行預處理,反復試驗確定過采樣比例,再結(jié)合貝葉斯網(wǎng)絡進行分類,在平均準確率和標準差方面取得較優(yōu)結(jié)果;過采樣能緩解數(shù)據(jù)不平衡性,但其抽樣比例需反復試驗確定,若選取不當,結(jié)果會適得其反,此外過采樣還會破壞原始數(shù)據(jù)結(jié)構(gòu),增加噪聲引入的可能性。Huang等[17]構(gòu)建組合核函數(shù),在特征加權(quán)基礎(chǔ)上運用單類支持向量機(OCSVM)構(gòu)建財務困境預測模型;OCSVM屬于新穎性檢測,建模時僅運用到單一類別樣本,而財務預警歸屬二分類,亦會丟失部分樣本信息。

此外,財務預警領(lǐng)域代價敏感問題也不容忽視,在現(xiàn)實中,風險企業(yè)的錯分代價往往大于正常企業(yè)。張濤等[18]構(gòu)建樣本依賴矩陣,通過最小風險貝葉斯決策對分類結(jié)果進行后處理,實現(xiàn)代價敏感,在UCI標準信用數(shù)據(jù)集上取得優(yōu)良結(jié)果;羅康洋和王國強[19]利用改進MRMR算法結(jié)合代價敏感支持向量機建模預測,少數(shù)類識別率有所提高;馬彪等[20]將代價敏感引入變分高斯過程中,在傳統(tǒng)GPC聯(lián)合似然函數(shù)上引入不同權(quán)重系數(shù),使得錯分少數(shù)類樣本的代價大于錯分多數(shù)類樣本的代價,最終實現(xiàn)改善少數(shù)類樣本預測精度的目的。

文獻回顧發(fā)現(xiàn),從模型選取來看,GPC相對于傳統(tǒng)Logistic、SVM模型具備非線性擬合能力強,超參數(shù)自適應獲取等優(yōu)勢,但其在財務預警領(lǐng)域的應用研究不多;從樣本不平衡角度來看,配對樣本和單類學習會丟失部分樣本信息,閾值移動和過采樣則是臨界點和抽樣比例難以確定;從代價敏感角度來看,已有學者證明加權(quán)高斯過程分類算法的有效性,但并未運用至財務領(lǐng)域?qū)嵶C研究,并且其樣本的權(quán)重矩陣設(shè)定困難。因此,本文首先將GPC應用于財務預警領(lǐng)域;其次針對數(shù)據(jù)不平衡性,以配對樣本為基礎(chǔ)樣本,運用單類支持向量機充分挖掘剩余正常企業(yè)蘊含的信息,以此形式綜合考慮整體樣本;最后,利用訓練好的OCSVM對配對樣本進行異常檢測,憑借輸出的異常分數(shù)進行樣本權(quán)重矩陣設(shè)定,結(jié)合加權(quán)高斯過程分類構(gòu)建財務預警模型,以此檢驗GPC能否提高財務預警效力以及剩余正常企業(yè)樣本是否包含財務預警的信息增量。

二、模型構(gòu)建

(一)單類支持向量機模型的構(gòu)建

財務預警數(shù)據(jù)中正常企業(yè)數(shù)量遠多于風險企業(yè),本文以配對樣本為基礎(chǔ)樣本,采用單類支持向量機模型(OCSVM)挖掘剩余正常企業(yè)信息。OCSVM是標準支持向量機的變體形式,對數(shù)據(jù)異常值點具有出色的識別能力。其有兩種學習形式,超球法和超平面法,本文采用超球法。它將樣本數(shù)據(jù)通過核函數(shù)映射至高維空間,使得大部分樣本盡可能被包含在超球體區(qū)域內(nèi),少部分點位于超球體外。若樣本點落在區(qū)域內(nèi),則認為該點為正常點,反之則為異常點。涵蓋剩余正常企業(yè)的超球體表達式如下:

(1)

其中a表示球體中心,R表示球體半徑,ξi表示松弛變量,其允許將超球體區(qū)域外的部分點視為正常點。為平衡球體體積與目標樣本數(shù)量,添加懲罰項系數(shù)C,因此目標函數(shù)為:

(2)

通過引入拉格朗日乘子,將式(1)代入式(2),構(gòu)建拉格朗日函數(shù),然后通過偏導求極值。最終目標函數(shù)簡化為:

(3)

(4)

由式(3)、式(4)解出αi便可知球體中心α、R,當樣本點與α之間距離大于R,則視為異常點;反之,則視為正常點。在財務預警領(lǐng)域,異常點即代表風險企業(yè),利用訓練好的OCSVM對配對樣本進行異常檢測,輸出異常分數(shù)并對其歸一化至0-1區(qū)間,用score表示,用于權(quán)重設(shè)置。score越小,樣本點屬于異常點的幾率就越大。基于錯分代價敏感思想,通過加大異常點的樣本權(quán)重以期望提高風險企業(yè)識別率,參考孟安波等[21]的做法,權(quán)重表達式如下:

ui=exp(1-scorei)

(5)

(二)加權(quán)高斯過程分類模型的構(gòu)建

高斯過程分類(GPC)是結(jié)合貝葉斯方法和核技巧的非參概率分類算法,通過訓練數(shù)據(jù)對目標變量的后驗概率進行建模,再采用非線性映射函數(shù)將隱函數(shù)值轉(zhuǎn)換至0-1之間。相比于傳統(tǒng)Logistic、SVM等模型,GPC非線性求解能力出色,參數(shù)自適應獲取,模型收斂能力更強。假設(shè)X為樣本的特征空間,D={(x1,y1),(x2,y2),…,(xn,yn)}為訓練數(shù)據(jù)集合,其中n表示樣本個數(shù),xi∈X,yi∈[-1,1]。

1.先驗分布

二元分類基本思想為確定潛在映射函數(shù)f(x),對測試樣本進行分類。高斯過程分類便假定f(x)為一個高斯過程,即在f(x)上添加零均值,協(xié)方差為K的高斯分布先驗,即f(X|θ)~GP(0,K),相應的概率密度函數(shù)可表示為:

(6)

其中K表示協(xié)方差函數(shù),也稱作核函數(shù),本文采用平方指數(shù)協(xié)方差函數(shù),其表示如下:

(7)

式(6)的θ={σf,l}表示超參數(shù),可通過極大似然估計自適應獲得。

2.加權(quán)聯(lián)合似然函數(shù)

傳統(tǒng)二分類中,樣本屬于某標簽的可能性用條件概率表示:

p(yi|fi)=φ(yifi)

(8)

(9)

其中φ表示擠壓函數(shù),將輸出值轉(zhuǎn)化為概率值,一般采用Logistic回歸函數(shù),形式如式(9)所示?;跇颖惊毩⑿约僭O(shè),二分類樣本y服從伯努利分布,其聯(lián)合似然函數(shù)表示為:

(10)

財務預警領(lǐng)域錯分代價敏感,為提高風險企業(yè)識別率,結(jié)合經(jīng)OCSVM處理后所得的樣本權(quán)重ui,改進為加權(quán)聯(lián)合似然函數(shù)[22]:

(11)

3.后驗分布及其Laplace近似

根據(jù)上述先驗分布以及加權(quán)聯(lián)合似然函數(shù),結(jié)合貝葉斯原理可得后驗分布:

(12)

那么,與x*對應的潛在函數(shù)f*的后驗分布為:

(13)

計算過程中后驗分布p(f|D,θ)積分困難,參考文獻[23]使用Laplace進行高斯近似,最終f*的近似后驗分布為:

(14)

4.概率預測

最后,通過f*的近似后驗分布進行預測:

(15)

(16)

三、上市企業(yè)財務風險預警的實證研究

(一)數(shù)據(jù)來源

本文數(shù)據(jù)來源為國泰安數(shù)據(jù)庫,以滬深A股制造業(yè)上市企業(yè)為研究對象,選取其在2016—2020年的經(jīng)營狀態(tài)為樣本,以被特殊處理作為風險的標志,ST企業(yè)記為1,正常企業(yè)記為0。參照石曉軍等[24]做法,以t-2年的財務數(shù)據(jù)預測t年是否會被特殊處理,因此選取2014—2018年財務數(shù)據(jù)進行匹配。樣本共搜集ST企業(yè)91家,正常企業(yè)546家,按照1:2配比原則,隨機選取182家正常企業(yè)與91家ST企業(yè)配對,其余364家正常企業(yè)作為剩余樣本用作異常檢測。獲取總體樣本之后,需進行數(shù)據(jù)預處理,主要包括:一是對缺失值進行填補,運用指標均值進行填充;二是對各項指標進行歸一化處理。

(二)變量選擇與降維

參照文獻一般做法,從償債能力、發(fā)展能力、經(jīng)營能力、盈利能力方面共選取25個初始變量,具體如表1所示。

表1 初始候選變量

1.指標雙重顯著性檢驗

針對初始變量能否有效區(qū)分ST與正常企業(yè)進行雙重顯著性檢驗,即雙樣本Kolmogorov-Smirnov(K-S)檢驗和Mann Whitney-U(MW-U)檢驗。兩樣本K-S檢驗其分布是否存在顯著差異,MW-U檢驗兩樣本均值是否存在顯著差異,初始變量的雙重顯著性檢驗結(jié)果如表2、表3所示。

表2 K-S檢驗結(jié)果

表3 MW-U檢驗結(jié)果

為保證變量篩選嚴格性,只有當某指標在雙重檢驗中結(jié)果均不顯著才會被剔除,綜上結(jié)果保留所有變量。

2.主成分提取

多指標建模會存在多重共線性問題,導致模型預測精度下降,因此采用主成分分析提取主成分,避免多重共線性。運用整體樣本進行主成分降維,KMO統(tǒng)計量值為0.719,Bartlett球形檢驗顯著性為0;以80%累計方差貢獻率作為提取標準,共選擇12個主成分,累計方差貢獻率為81.51%。

(三)評價指標選擇

本文將風險企業(yè)記作正例,用1表示;正常企業(yè)記作負例,用0表示。TP表示實際為正例預測也為正例的樣本;FN表示實際為正例但預測為負例的樣本;FP表示實際為負例但預測為正例的樣本;TN表示實際為負例同時預測也為負例的樣本。由此可計算FPR、TPR,F(xiàn)PR表示實際為負例但預測為正例的比例,TPR表示實際為正例預測也為正例的占比。Roc曲線下方面積大小(AUC)為TPR、FPR構(gòu)成的曲線面積大小,通常以此度量模型對正負例樣本的區(qū)分能力,AUC值越大,模型分類效果越好;在數(shù)據(jù)平衡情況下,準確率(ACC)能較好反映對正負例樣本整體的分類精度;召回率(Recall)則更注重少數(shù)類識別率,表示實際為正例的樣本中被預測為正例的樣本比例,1-Recall即表示第一類錯誤率(棄真),Recall越高,第一類錯誤率越低,對風險企業(yè)識別率越高。在現(xiàn)實生活中誤判風險企業(yè)的代價往往比誤判正常企業(yè)高得多,因此著重關(guān)注Recall。故本文選用三項指標AUC、ACC、Recall作為分類評價標準,均由混淆矩陣給出,具體表達式如下:

表4 混淆矩陣

(17)

(18)

AUC=AreaTPR-FPR

(19)

(20)

(21)

(四)財務風險預警結(jié)果分析

從配對樣本的91家ST企業(yè)和182家正常企業(yè)中,隨機選取64家ST企業(yè)和127家正常企業(yè)作為訓練樣本,剩余27家ST企業(yè)和55家正常企業(yè)作為測試樣本。通過python進行模擬實驗,預測結(jié)果如表5所示。

表5 預警模型訓練和測試結(jié)果

從表5測試集表現(xiàn)可看出,未引入OCSVM異常權(quán)重時,使用Logistic模型27家ST企業(yè)中有8家企業(yè)被誤判,55家正常企業(yè)中有5家被誤判;使用SVM模型27家ST企業(yè)中有8家企業(yè)被誤判,55家正常企業(yè)中有4家被誤判;使用GPC模型27家ST企業(yè)中有10家企業(yè)被誤判,55家正常企業(yè)中有2家被誤判,表明相較于Logistic和SVM,GPC對正常企業(yè)識別率更高,而對風險企業(yè)識別率稍有不足。從整體測試集表現(xiàn)來看,GPC與SVM優(yōu)于Logistic模型,均達到85.4%,結(jié)合圖1來看,未引入剩余正常企業(yè)信息時,GPC的AUC達到0.929 3,優(yōu)于Logistic、SVM,表明GPC模型對于上市企業(yè)財務風險具有良好的預警效果。

現(xiàn)實中往往存在代價敏感問題,風險企業(yè)的識別率高低占據(jù)主導。綜合考慮剩余正常企業(yè)信息,引入OCSVM異常檢測后,結(jié)合GPC,27家ST企業(yè)中僅有8家企業(yè)被誤判,55家正常企業(yè)中有2家被誤判,風險企業(yè)識別率從63.0%提升至70.4%,整體預測準確率從85.4%提升至87.8%。結(jié)合圖1來看,引入剩余正常企業(yè)信息后,OCSVM-GPC的AUC進一步提升至0.934 7,表明GPC融入剩余正常企業(yè)信息后,模型預測效力進一步提高,在建模時需綜合利用整體樣本信息,僅使用配對樣本會導致部分信息增量丟失。

圖1 Roc曲線

(五)穩(wěn)健性檢驗

進行穩(wěn)健性檢驗,排除因訓練集、測試集劃分不一致而導致的結(jié)果偏差。進行100次不同的子集劃分,劃分比例均保持7 ∶3,觀察其AUC、ACC、Recall均值及標準差,試驗結(jié)果如表6所示。

表6 穩(wěn)健性檢驗結(jié)果

由表6結(jié)果可知,GPC在AUC、準確率方面均優(yōu)于Logistic和SVM,但Recall方面處于劣勢;引入剩余正常企業(yè)信息后,AUC、準確率相對于GPC進一步提高,Recall也顯著提升。這表明初始狀態(tài)下GPC對于風險企業(yè)識別率低,而引入剩余正常企業(yè)信息后,能明顯提高風險企業(yè)識別率,從而提升整體預測準確率,該結(jié)論與表5所得結(jié)論相一致。從標準差來看,SVM、GPC、OCSVM-GPC的穩(wěn)健性不相上下,均優(yōu)于Logistic。

四、結(jié)論

本文首先借鑒GPC分類方法的優(yōu)勢,將其引入財務預警領(lǐng)域;其次針對配對樣本會造成部分正常企業(yè)樣本信息丟失的局限性,采用OCSVM構(gòu)建異常檢測模型,充分挖掘剩余正常企業(yè)信息;再次,利用訓練好的OCSVM對配對樣本輸出異常分數(shù),構(gòu)建樣本權(quán)重矩陣,并將樣本權(quán)重矩陣與加權(quán)高斯過程分類模型結(jié)合,實現(xiàn)代價敏感;最后,選取滬深A股制造業(yè)上市企業(yè)2016—2020年的數(shù)據(jù)進行實證分析,結(jié)果表明,OCSVM-GPC模型相較于Logistic、SVM和傳統(tǒng)GPC來說,風險企業(yè)識別率更高,整體分類準確率也更高。本文的主要結(jié)論為:

1.GPC整體預測效力優(yōu)于Logistic和SVM

從整體準確率來說,GPC、SVM均達到85.4%,均優(yōu)于Logistic的84.1%;從風險企業(yè)識別率來說,GPC僅為63.0%,劣于Logistic、SVM的70.4%;從正常企業(yè)識別率來說,GPC為96.4%,遠高于Logistic和SVM的90.9%、92.7%;從AUC來說,GPC為0.929 3,高于Logistic、SVM的0.823 6、0.909 1。綜上,GPC存在風險企業(yè)識別率不足的缺陷,但其整體識別率與SVM相持平并高于Logistic,在AUC指標上優(yōu)于Logistic和SVM。因此GPC整體預測效力優(yōu)于Logistic和SVM,也進一步說明GPC在財務預警領(lǐng)域的適用性。

2.樣本配對時,丟失部分樣本信息中包含財務預警的信息增量,應考慮整體樣本

本文以配對樣本為基礎(chǔ)樣本,創(chuàng)新性地引入OCSVM異常檢測模型來充分挖掘部分剩余企業(yè)信息。利用OCSVM模型輸出配對樣本點的異常分數(shù),進行樣本權(quán)重矩陣的設(shè)定,并結(jié)合樣本權(quán)重矩陣和加權(quán)高斯過程分類,實現(xiàn)代價敏感。實證結(jié)果表明,在數(shù)據(jù)劃分不變情況下,綜合考慮剩余部分企業(yè)信息后,OCSVM-GPC對于風險企業(yè)識別率為70.4%,遠高于傳統(tǒng)GPC;整體分類準確率達到87.8%,高于Logistic、SVM和傳統(tǒng)GPC。因此建模時,單單考慮配對樣本有失偏頗,需綜合考慮整體樣本信息,異常檢測輸出樣本權(quán)重矩陣結(jié)合代價敏感類模型為此提供了一種解決思路。

猜你喜歡
識別率準確率預警
預警型智能包裝在食品安全中的應用和設(shè)計
超級秀場 大風預警
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
檔案數(shù)字化過程中OCR技術(shù)的應用分析
基于PCA與MLP感知器的人臉圖像辨識技術(shù)
科技文檔中數(shù)學表達式的結(jié)構(gòu)分析與識別
人工智能現(xiàn)狀和發(fā)展
波密县| 土默特左旗| 大竹县| 广丰县| 叙永县| 陆川县| 三门峡市| 师宗县| 平和县| 宜春市| 绥化市| 商南县| 横峰县| 紫云| 内乡县| 河北区| 吉水县| 北海市| 安康市| 阿巴嘎旗| 运城市| 洛阳市| 留坝县| 宁城县| 缙云县| 淮滨县| 德惠市| 通辽市| 明光市| 海兴县| 汾阳市| 师宗县| 瓮安县| 偃师市| 卢湾区| 鹤岗市| 桓仁| 桂林市| 故城县| 图们市| 寿光市|