国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征篩選和代價(jià)敏感學(xué)習(xí)的財(cái)務(wù)預(yù)警研究

2021-11-13 07:30任婷婷魯統(tǒng)宇教授張偉楠中國計(jì)量大學(xué)經(jīng)濟(jì)與管理學(xué)院浙江杭州310018
商業(yè)會(huì)計(jì) 2021年20期
關(guān)鍵詞:分類器代價(jià)準(zhǔn)確率

任婷婷 魯統(tǒng)宇(教授) 張偉楠 (中國計(jì)量大學(xué)經(jīng)濟(jì)與管理學(xué)院 浙江杭州 310018)

一、引言

隨著全球經(jīng)濟(jì)的不斷發(fā)展,上市公司受到國內(nèi)外各方面的沖擊和壓力持續(xù)增大,內(nèi)外部不確定因素的增多使得企業(yè)經(jīng)營的難度日益增大,一旦管理不善就可能導(dǎo)致企業(yè)的業(yè)績下滑甚至發(fā)生破產(chǎn)。而財(cái)務(wù)困境一旦發(fā)生不僅會(huì)給企業(yè)帶來嚴(yán)重的負(fù)面影響,還會(huì)造成股市的動(dòng)蕩,傷害投資者的利益。對(duì)上市公司進(jìn)行財(cái)務(wù)預(yù)警,可以幫助企業(yè)提高警惕,改善財(cái)務(wù)狀況,避免財(cái)務(wù)困境的發(fā)生;也可以給銀行、基金等相關(guān)機(jī)構(gòu)釋放投資信號(hào),避免遭受損失。因此,構(gòu)建有效的財(cái)務(wù)困境預(yù)警模型有著重要的現(xiàn)實(shí)意義。

二、文獻(xiàn)綜述

在現(xiàn)有研究中,財(cái)務(wù)預(yù)警常被視為二分類問題來處理,即以上市公司是否被特殊處理(Special Treatment,ST)作為劃分標(biāo)志,研究的重點(diǎn)在于如何構(gòu)建有效的預(yù)測分類模型。近年來,關(guān)于財(cái)務(wù)預(yù)警的研究取得了重大進(jìn)展,采用的方法可大致分為統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)。Fitzpatrick[1]和Beaver[2]利用單變量模型進(jìn)行財(cái)務(wù)預(yù)警,但該模型強(qiáng)烈依賴于單一指標(biāo),結(jié)果較不穩(wěn)定。在單變量模型預(yù)測的基礎(chǔ)上,Altman[3]運(yùn)用多元線性判別分析,將22個(gè)初始財(cái)務(wù)比率指標(biāo)篩選為5個(gè)變量,并以此構(gòu)造了Z-score模型,該模型準(zhǔn)確率較高,并在財(cái)務(wù)預(yù)警領(lǐng)域得到了廣泛的應(yīng)用。國內(nèi)關(guān)于預(yù)警模型的研究起步相對(duì)較晚,周首華等[4]在Z-score模型的基礎(chǔ)上添加現(xiàn)金流量因素,構(gòu)建了F分?jǐn)?shù)模型;楊淑娥和徐偉剛[5]則將主成分分析和Z-score相結(jié)合構(gòu)建了Y分?jǐn)?shù)模型,兩個(gè)模型均能取得良好的預(yù)測結(jié)果。隨著計(jì)算機(jī)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)方法的興起為財(cái)務(wù)預(yù)警問題提供了一個(gè)新思路,其也因準(zhǔn)確率高、泛化性能強(qiáng)等優(yōu)點(diǎn)得到了廣泛的應(yīng)用。Ohlson[6]以105家困境公司和2 058家健康公司為研究對(duì)象,將Logistic回歸分析應(yīng)用于財(cái)務(wù)預(yù)警問題中。Ding et al.[7]和 Gogas et al.[8]分別將支持向量機(jī)應(yīng)用于中國企業(yè)和美國企業(yè),均取得了比統(tǒng)計(jì)學(xué)習(xí)方法更好的預(yù)測性能。Shahbazi[9]分析并構(gòu)建了決策樹模型,對(duì)銀行客戶的風(fēng)險(xiǎn)預(yù)警取得了89.38%的預(yù)測準(zhǔn)確率,性能優(yōu)秀。不同的文獻(xiàn)針對(duì)模型的好壞有各自的見解,統(tǒng)計(jì)模型雖然所需參數(shù)少、結(jié)構(gòu)簡單、訓(xùn)練時(shí)間短,但仍然會(huì)受到統(tǒng)計(jì)假設(shè)以及多重共線性等因素的影響[10],而機(jī)器學(xué)習(xí)最大的問題就是調(diào)參過程繁瑣和模型的可解釋性不足。

現(xiàn)有的一系列研究表明學(xué)者對(duì)財(cái)務(wù)預(yù)警問題的關(guān)注,建立的模型結(jié)果具有一定的借鑒意義。然而財(cái)務(wù)預(yù)警領(lǐng)域中普遍存在特征冗余問題,數(shù)據(jù)之間強(qiáng)烈的相關(guān)性不僅會(huì)造成模型的訓(xùn)練時(shí)間過長,也會(huì)對(duì)準(zhǔn)確率產(chǎn)生負(fù)面影響。因此,部分學(xué)者進(jìn)行了針對(duì)性的研究:宋鵬等[11]利用粗糙熵的方法篩選特征,并在此基礎(chǔ)上利用Logistic回歸建立了RS-Logistic預(yù)警模型,該模型比傳統(tǒng)Logistic模型的準(zhǔn)確率高;羅康洋和王國強(qiáng)[12]利用改進(jìn)MRMR算法進(jìn)行特征選擇,得到了更為簡潔、準(zhǔn)確的特征集;游俊紅[13]構(gòu)造了現(xiàn)金流量指標(biāo)體系,利用熵權(quán)理論對(duì)不同指標(biāo)賦予權(quán)重以進(jìn)行特征篩選,研究結(jié)果證明了模型的可行性和實(shí)用性。

此外,在財(cái)務(wù)預(yù)警領(lǐng)域中,發(fā)生財(cái)務(wù)困境的企業(yè)要遠(yuǎn)遠(yuǎn)少于未發(fā)生財(cái)務(wù)困境的健康企業(yè),此類數(shù)據(jù)分布不平衡問題會(huì)使傳統(tǒng)模型在學(xué)習(xí)過程中發(fā)生偏移,導(dǎo)致少數(shù)類樣本分類準(zhǔn)確度不高,而ST公司的正確預(yù)警正是該領(lǐng)域研究重點(diǎn)關(guān)注的對(duì)象,是衡量模型的重要標(biāo)準(zhǔn)。針對(duì)此類問題,現(xiàn)有研究主要從數(shù)據(jù)和算法兩個(gè)層面進(jìn)行改進(jìn)。數(shù)據(jù)層面是指利用重采樣平衡原數(shù)據(jù)集的類別分布比例以消除不平衡性,可分為欠采樣、過采樣和混合采樣。欠采樣和過采樣分別通過減少多數(shù)類樣本和增加少數(shù)類樣本的方式平衡數(shù)據(jù)集,混合采樣則將兩者結(jié)合。Chawla et al.[14]提出了一種隨機(jī)過采樣的改進(jìn)算法——合成少數(shù)類過采樣技術(shù)(SMOTE),該方法在不平衡分類領(lǐng)域應(yīng)用廣泛。夏利宇和何曉群[15]利用迭代逆向重抽樣使模型的關(guān)注中心由多數(shù)類轉(zhuǎn)移至少數(shù)類,并將各弱分類器集成為強(qiáng)分類模型,該模型在真實(shí)數(shù)據(jù)集中的表現(xiàn)良好。算法層面則是對(duì)原有模型進(jìn)行改進(jìn)以更加適應(yīng)不平衡數(shù)據(jù)集的特殊分類需求,包括代價(jià)敏感和集成學(xué)習(xí)。代價(jià)敏感的基本思想是通過引入代價(jià)敏感因子改變分類器的內(nèi)部構(gòu)造,使其錯(cuò)分代價(jià)最?。?6],而集成學(xué)習(xí)則將若干個(gè)基分類器集成,通過綜合多個(gè)分類器的分類結(jié)果以獲得更好的模型性能。其中的著名代表是Fraud和Schapire[17]于1997年提出的AdaBoost算法,其基本思想為:在基分類器訓(xùn)練過程中,不斷增大錯(cuò)分樣本的權(quán)重,而相對(duì)減小對(duì)分樣本的權(quán)重,從而提高錯(cuò)分樣本在模型中的重要性。AdaBoost算法的分類準(zhǔn)確率高,已被廣泛應(yīng)用到財(cái)務(wù)預(yù)警領(lǐng)域中。Tao et al.[18]將代價(jià)敏感支持向量機(jī)作為基分類器,改進(jìn)AdaBoost框架的樣本權(quán)重更新公式,構(gòu)建了一個(gè)以少數(shù)樣本分類準(zhǔn)確率為目標(biāo)的分類模型。顧玉萍和程龍生[19]以馬田系統(tǒng)作為AdaBoost的基分類器,對(duì)2010—2015年間的財(cái)務(wù)危機(jī)進(jìn)行預(yù)警研究,證明集成算法模型的分類效果要優(yōu)于其他的單一分類器。

基于此,本文重點(diǎn)研究財(cái)務(wù)預(yù)警領(lǐng)域中的特征冗余和數(shù)據(jù)分布不平衡問題。首先通過雙重顯著性檢驗(yàn)和主成分分析進(jìn)行特征篩選與降維,之后將錯(cuò)分代價(jià)引入多個(gè)機(jī)器學(xué)習(xí)算法以構(gòu)建代價(jià)敏感模型,實(shí)證研究中的對(duì)比分析和穩(wěn)健性檢驗(yàn)證明了該模型的有效性和穩(wěn)健性。

三、機(jī)器學(xué)習(xí)算法及代價(jià)敏感學(xué)習(xí)

(一)機(jī)器學(xué)習(xí)算法

1.邏輯回歸(Logistic Regression,LR)。邏輯回歸是一種用來處理二分類問題的模型,通過線性回歸和Sigmoid階躍函數(shù)得到。首先為每個(gè)特征變量xi乘一個(gè)回歸系數(shù)wi,將其相加得到線性回歸模型。之后通過Sigmoid階躍函數(shù)得出分類結(jié)果,概率大于0.5的被分入1類,小于0.5的被分入0類。線性回歸模型和Sigmoid階躍函數(shù)形式如式(1)和式(2)所示 :

綜合兩式,可得到LR模型的常用表達(dá)公式為:

2.支持向量機(jī)(Support Vector Machines,SVM)。傳統(tǒng)SVM以總體樣本分類準(zhǔn)確度最高為模型目標(biāo),目的是求解能正確劃分?jǐn)?shù)據(jù)集的超平面,并使分割超平面的幾何間隔最大。其基本思想為:設(shè)訓(xùn)練樣本集D={(Xi,Yi)},i=1,2,…,n;Xi∈Rn,n 代表特征向量維數(shù);Yi∈(-1,+1)代表不同的分類類別。若樣本集D線性可分,則SVM需要找到一個(gè)最優(yōu)超平面ωTx+b=0將兩類樣本分開,其中ωT為法向量,b為位移項(xiàng);當(dāng)樣本集線性不可分時(shí),引入松弛變量ξi≥0和懲罰因子C,C表示對(duì)錯(cuò)分類樣本的懲罰程度,取值越大代表懲罰力度越大,此時(shí)的目標(biāo)函數(shù)為:

3.決策樹(Decision Tree,DT)。決策樹是一種自上而下的貪心學(xué)習(xí)算法。它從根節(jié)點(diǎn)開始,根據(jù)事先設(shè)定的劃分屬性獲取分支節(jié)點(diǎn),并通過遍歷得到一個(gè)樹狀的分類模型。分支節(jié)點(diǎn)包括內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn),前者代表對(duì)某個(gè)屬性進(jìn)行測試,后者則對(duì)應(yīng)最終的決策結(jié)果。

為避免模型過擬合,需對(duì)初始生成的決策樹進(jìn)行剪枝。剪枝以是否帶來泛化性能的提升為判斷依據(jù),按照操作順序分為預(yù)剪枝和后剪枝。預(yù)剪枝在決策樹分裂過程中進(jìn)行,若某個(gè)內(nèi)部節(jié)點(diǎn)的分裂沒有提升整體的泛化性能,則拒絕劃分并將其標(biāo)記為葉節(jié)點(diǎn)。后剪枝則在決策樹生成后進(jìn)行,如果某內(nèi)部節(jié)點(diǎn)替換為葉節(jié)點(diǎn)會(huì)帶來泛化性能的提升,則進(jìn)行替換。在決策樹生成過程中,常用的劃分最優(yōu)屬性的標(biāo)準(zhǔn)包括信息增益、信息增益比率和基尼系數(shù),分別構(gòu)成ID3、C4.5和CART決策樹。

(二)代價(jià)敏感學(xué)習(xí)

傳統(tǒng)的分類算法基于誤分類代價(jià)相等的假設(shè),以整體的分類準(zhǔn)確率最高為模型目標(biāo),忽視了不平衡數(shù)據(jù)中少數(shù)類樣本的特殊性,對(duì)其幾乎沒有識(shí)別能力,即使總體的分類準(zhǔn)確率高,但困境企業(yè)的分類準(zhǔn)確率很低。而在現(xiàn)實(shí)生活中,因ST企業(yè)的錯(cuò)誤預(yù)警會(huì)給社會(huì)帶來更為嚴(yán)重的影響,所以需重點(diǎn)關(guān)注模型對(duì)少數(shù)類樣本的識(shí)別能力。

利用代價(jià)敏感學(xué)習(xí)處理數(shù)據(jù)不平衡問題的原理在于:給予少數(shù)類以較大的錯(cuò)分代價(jià),多數(shù)類以較少的錯(cuò)分代價(jià),并以總體錯(cuò)分代價(jià)最低為模型目標(biāo),使模型在構(gòu)建過程中為降低總體的錯(cuò)分代價(jià)而重點(diǎn)關(guān)注少數(shù)類樣本,從而有效改善傳統(tǒng)模型的學(xué)習(xí)偏移問題[16]。

1.代價(jià)敏感邏輯回歸(Cost-sensitive LR,CS_LR)。為適應(yīng)不平衡樣本集的分類需求,克服傳統(tǒng)邏輯回歸在不平衡二分類問題上的不足,本文通過對(duì)數(shù)據(jù)集中少數(shù)類和多數(shù)類樣本賦予不同的錯(cuò)分代價(jià),得到CS_LR模型。

2.代價(jià)敏感支持向量機(jī)(Cost-sensitive SVM,CS_SVM)。在CS_SVM中,通過為不同類別設(shè)置不同的錯(cuò)分代價(jià),得到代價(jià)敏感支持向量機(jī)(Cost-sensitive SVM,CS_SVM)模型(Dhar和Cherkassky,2015),此時(shí)模型的目標(biāo)函數(shù)為:

其中,n+代表少數(shù)類樣本數(shù)量,n-代表多數(shù)類樣本數(shù)量,C+代表少數(shù)類劃分為多數(shù)類的錯(cuò)分代價(jià),C-代表多數(shù)類劃分為少數(shù)類的錯(cuò)分代價(jià)。

3.代價(jià)敏感決策樹(Cost-sensitive DT,CS_DT)。在決策樹生成過程中,不平衡數(shù)據(jù)集的類分布會(huì)影響到分裂節(jié)點(diǎn)的選擇[21],導(dǎo)致傳統(tǒng)模型在生成和剪枝過程中偏向多數(shù)類樣本的分類準(zhǔn)確率。將錯(cuò)分代價(jià)引入決策樹,改變了節(jié)點(diǎn)的分裂和剪枝標(biāo)準(zhǔn)[22],并以總體錯(cuò)分代價(jià)最小為模型目標(biāo),少數(shù)類樣本較高的錯(cuò)分代價(jià)權(quán)重使得其在模型訓(xùn)練過程中的重要性增強(qiáng),得到的CS_DT模型可有效應(yīng)對(duì)財(cái)務(wù)預(yù)警中的不平衡二分類問題。

四、基于特征選擇與代價(jià)敏感的財(cái)務(wù)預(yù)警模型研究設(shè)計(jì)

(一)樣本與指標(biāo)篩選

1.樣本選取。本文選取滬深A(yù)股制造業(yè)的企業(yè)為研究對(duì)象。此外,證監(jiān)會(huì)的相關(guān)文件顯示,企業(yè)在t年被ST的一個(gè)主要原因是其在前兩年內(nèi)持續(xù)虧損,因此t-1年和t-2年的財(cái)務(wù)數(shù)據(jù)對(duì)困境預(yù)警分析的意義不大[23]。同時(shí)為了保證模型的謹(jǐn)慎性,本文以t-3年的財(cái)務(wù)數(shù)據(jù)為基礎(chǔ)進(jìn)行研究分析。數(shù)據(jù)來源于Wind數(shù)據(jù)庫,操作均用Python 3.6實(shí)現(xiàn)。

樣本的選取參考田寶新和王建瓊[24]的步驟:首先從Wind數(shù)據(jù)庫中提取滬深A(yù)股上市公司中在2019年內(nèi)因“財(cái)務(wù)狀況異?!倍籗T或*ST的制造業(yè)類別企業(yè),在剔除上市時(shí)間不足3年以及數(shù)據(jù)缺失過多的企業(yè)后,得到52個(gè)ST樣本;其次,根據(jù)行業(yè)和資產(chǎn)規(guī)模相匹配的原則,按照1∶3的比例選擇156家非ST企業(yè);最后,將這208個(gè)樣本與其2016年的年度財(cái)務(wù)數(shù)據(jù)相匹配得到最終數(shù)據(jù)集。之后,對(duì)獲得的數(shù)據(jù)集進(jìn)行預(yù)處理:對(duì)離群值進(jìn)行1%雙側(cè)縮尾處理;用各指標(biāo)的中值填充缺失值;對(duì)數(shù)據(jù)進(jìn)行最大最小標(biāo)準(zhǔn)化處理。

參考相關(guān)文獻(xiàn),本文依據(jù)科學(xué)性、嚴(yán)謹(jǐn)性和完整性的原則選取了43個(gè)財(cái)務(wù)指標(biāo),這些指標(biāo)涵蓋了企業(yè)的償債能力、盈利能力、營運(yùn)能力、成長能力、股東盈利能力和現(xiàn)金流量能力等。同時(shí),選取了7個(gè)非財(cái)務(wù)指標(biāo)作為補(bǔ)充,最終得到的指標(biāo)體系如表1所示。

表1 財(cái)務(wù)預(yù)警模型指標(biāo)體系

2.雙重顯著性檢驗(yàn)。本文把發(fā)生財(cái)務(wù)困境的ST企業(yè)記為“1”,未發(fā)生財(cái)務(wù)困境的健康企業(yè)記為“0”,分為兩組樣本,之后通過雙樣本Kolmogorov-Smirnov(K-S)檢驗(yàn)和Mann Whitney-U(MW-U)檢驗(yàn)對(duì)初始指標(biāo)體系進(jìn)行顯著性檢驗(yàn),逐一判斷各個(gè)指標(biāo)的取值在兩個(gè)組別之間是否存在顯著差異。K-S檢驗(yàn)和MW-U檢驗(yàn)均為非參數(shù)檢驗(yàn),不要求數(shù)據(jù)服從特定分布,前者用來檢驗(yàn)兩總體分布是否存在顯著差異,后者用來檢驗(yàn)兩個(gè)總體的中位數(shù)是否一致。根據(jù)檢驗(yàn)結(jié)果:X8、X9、X21、X22、X25、X26、X27、X28、X29、X32、X40、X42、X43、X44、X49 和 X50 等16個(gè)指標(biāo)在兩個(gè)檢驗(yàn)的P值均大于0.05,說明這些指標(biāo)無法對(duì)兩類企業(yè)進(jìn)行區(qū)分,故將其刪去,保留剩余34個(gè)指標(biāo)。

3.主成分降維。主成分分析(Principal Components Analysis,PCA)是財(cái)務(wù)預(yù)警研究中常用的特征降維方法[23,25,26]。其基本思想是利用正交變換將原始變量投影為一組相互獨(dú)立的主成分,并確保這些主成分能夠涵蓋原始數(shù)據(jù)集的所有信息,從而消除冗余變量,避免數(shù)據(jù)之間的相關(guān)性對(duì)模型準(zhǔn)確率產(chǎn)生影響。本文在雙重顯著性檢驗(yàn)的基礎(chǔ)上進(jìn)行主成分降維,最終得到的8個(gè)主成分涵蓋了原34個(gè)指標(biāo)80%以上的信息,結(jié)果如表2所示。

表2 主成分分析結(jié)果

(二)參數(shù)設(shè)置

代價(jià)敏感學(xué)習(xí)中的錯(cuò)分代價(jià)通常由代價(jià)矩陣得出[21],但一個(gè)企業(yè)被錯(cuò)誤預(yù)測帶來的經(jīng)濟(jì)損失往往需要經(jīng)過長時(shí)間的實(shí)踐或者采取專家學(xué)者的建議,真實(shí)的錯(cuò)分代價(jià)很難界定和獲取。為保證模型的簡便性,本文認(rèn)為錯(cuò)分代價(jià)和數(shù)據(jù)集的不平衡程度有較大關(guān)系[12],引入的少數(shù)類和多數(shù)類的錯(cuò)分代價(jià)分別如下所示:

其中,n+和n-分別表示少數(shù)類和多數(shù)類樣本數(shù)量,n為樣本總量。

(三)模型評(píng)價(jià)指標(biāo)

傳統(tǒng)分類模型一般以樣本總體的分類準(zhǔn)確率(Accuracy,ACC)作為評(píng)價(jià)指標(biāo),而在不平衡分類中,模型受多數(shù)類樣本的影響較大,即使少數(shù)類樣本全部被錯(cuò)分為多數(shù)類樣本,也能取得較高的準(zhǔn)確率,無法評(píng)價(jià)模型的真實(shí)性能。因此,本文引入少數(shù)樣本分類準(zhǔn)確率(True Positive Rate,TPR)以衡量模型預(yù)測ST企業(yè)的能力,多數(shù)樣本分類準(zhǔn)確率(True Negative Rate,TNR)以衡量模型預(yù)測非ST企業(yè)的能力。

此外,本文使用綜合指標(biāo)AUC和G-mean值來評(píng)價(jià)分類器的整體分類性能。AUC是衡量分類器優(yōu)劣的一個(gè)通用性能指標(biāo),其被定義為ROC曲線下的面積,得分不會(huì)受到數(shù)據(jù)集樣本分布的影響,且值越大表示分類器效果越好;G-mean則是TPR和TNR的綜合指標(biāo),反映分類器的總體分類性能,只有TPR和TNR得分均高時(shí),G-mean得分才會(huì)較高。TPR、TNR和G-mean值可通過混淆矩陣(表3)求得,計(jì)算公式分別如式(12)-(14)所示。

表3 混淆矩陣

五、實(shí)證分析

(一)模型結(jié)果分析

在實(shí)驗(yàn)過程中,本文按照7∶3的比例將初始數(shù)據(jù)集劃分為訓(xùn)練集和測試集,前者用來獲取最優(yōu)參數(shù),后者則用來檢驗(yàn)?zāi)P托阅?。同時(shí),為避免隨機(jī)性對(duì)模型準(zhǔn)確率造成干擾,本文進(jìn)行了50次重復(fù)實(shí)驗(yàn),并將傳統(tǒng)機(jī)器學(xué)習(xí)模型定義為Model_Basic,代價(jià)敏感模型記為Model_CS,每個(gè)模型的得分均為三種機(jī)器學(xué)習(xí)方法的均值。Model_Basic和Model_CS在50次重復(fù)實(shí)驗(yàn)中各個(gè)指標(biāo)上的得分情況如圖1所示。可知,Model_CS比Model_Basic在G-mean值、AUC值和TPR值上均有提升,其中TPR值即ST企業(yè)的分類準(zhǔn)確率有明顯提高,從而證明了代價(jià)敏感模型在不平衡財(cái)務(wù)預(yù)警方面的優(yōu)勢。與此同時(shí),TNR值在加入代價(jià)敏感因子之后有所下降,出現(xiàn)上述現(xiàn)象的原因在于二分類問題中由于受到樣本隨機(jī)和容量有限等問題的影響,很難實(shí)現(xiàn)TPR和TNR的同時(shí)提升[27]。在此基礎(chǔ)上,將Model_CS和Model_Basic進(jìn)一步分解,得到的基礎(chǔ)模型在各個(gè)指標(biāo)上的最終得分如下頁表4所示。

由下頁表4可以看出,三個(gè)傳統(tǒng)的機(jī)器學(xué)習(xí)模型在考慮錯(cuò)分代價(jià)后得到的代價(jià)敏感模型在ST公司的分類準(zhǔn)確率上有顯著的提升,這對(duì)財(cái)務(wù)預(yù)警領(lǐng)域來說尤為重要,證明了代價(jià)敏感學(xué)習(xí)方法的適用性和優(yōu)越性。

表4 基于代價(jià)敏感的財(cái)務(wù)預(yù)警模型實(shí)驗(yàn)結(jié)果

另外,在三個(gè)代價(jià)敏感模型中,CS_DT模型的表現(xiàn)值得關(guān)注。雖然該模型在TPR上的得分最高,但其大幅提升是以犧牲TNR值為代價(jià)的,TNR值得分從0.832降至0.553,導(dǎo)致AUC值和G-mean得分較低。雖然財(cái)務(wù)預(yù)警領(lǐng)域重點(diǎn)關(guān)注TPR值的提升,但TNR值過小同樣無法接受,故認(rèn)為將CS-DT模型用作財(cái)務(wù)預(yù)警的風(fēng)險(xiǎn)較大。而CS_SVM和CS_DT在各指標(biāo)上得分均良好,證明了其在不平衡財(cái)務(wù)預(yù)警領(lǐng)域上的適用性和可靠性,而前者在G-mean,TPR和TNR上得分更高,性能更優(yōu)。

(二)穩(wěn)健性檢驗(yàn)

為探討代價(jià)敏感模型在不同不平衡率下的表現(xiàn),本文又采用1∶5的不平衡比率對(duì)上述模型進(jìn)行穩(wěn)健性檢驗(yàn),得到的最終結(jié)果如表5所示。

表5 各模型穩(wěn)健性檢驗(yàn)結(jié)果

由表5可以看出,當(dāng)不平衡程度增大至1∶5時(shí),初始模型在TPR上的平均得分不到0.4,說明只有不到40%的ST樣本被正確檢測出來,這在財(cái)務(wù)預(yù)警領(lǐng)域是不可接受的,而代價(jià)敏感模型的TPR平均得分達(dá)到了0.736,進(jìn)一步印證了代價(jià)敏感模型可以有效處理上市公司財(cái)務(wù)預(yù)警中的樣本分布不平衡問題。此時(shí)的CS_DT模型仍不穩(wěn)定,TPR上得分高達(dá)0.779,而TNR得分最低,為0.587,導(dǎo)致在AUC值和G-mean值上得分最低,總體表現(xiàn)最差,而CS_SVM模型仍然表現(xiàn)最好。因此,在不同的不平衡率下,本文具有一致的研究結(jié)論。在穩(wěn)健性檢驗(yàn)中,Model_Basic和Model_CS在50次重復(fù)實(shí)驗(yàn)中的得分情況如圖2所示。

圖2 穩(wěn)健性檢驗(yàn)過程中各指標(biāo)得分

六、結(jié)論

本文以滬深A(yù)股制造業(yè)上市公司為研究對(duì)象,對(duì)財(cái)務(wù)預(yù)警中存在的特征冗余和數(shù)據(jù)分布不平衡問題進(jìn)行了深入的研究。首先將雙重顯著性檢驗(yàn)和主成分分析結(jié)合進(jìn)行特征篩選和降維,之后將錯(cuò)分代價(jià)引入機(jī)器學(xué)習(xí)算法以構(gòu)建代價(jià)敏感模型,并通過多次重復(fù)實(shí)驗(yàn)得到模型結(jié)果,最終證明代價(jià)敏感模型可有效應(yīng)對(duì)財(cái)務(wù)預(yù)警領(lǐng)域中的不平衡問題,穩(wěn)健性檢驗(yàn)進(jìn)一步證明了模型的可靠性。綜合以上的實(shí)證研究,本文得出以下結(jié)論:第一,特征冗余作為金融數(shù)據(jù)的一個(gè)特點(diǎn),須進(jìn)行一定的特征篩選和變換來避免多重共線性對(duì)模型準(zhǔn)確率產(chǎn)生影響;第二,在不平衡財(cái)務(wù)預(yù)警中,代價(jià)敏感模型通過引入不同類樣本的錯(cuò)分代價(jià),能夠在模型構(gòu)建過程中給予少數(shù)類更多權(quán)重,緩解傳統(tǒng)模型的學(xué)習(xí)偏移問題,顯著提升ST公司的分類準(zhǔn)確度。

綜上所述,本文構(gòu)建的預(yù)警模型對(duì)上市公司預(yù)防財(cái)務(wù)困境的發(fā)生具有一定的借鑒意義,然而有關(guān)該問題的研究仍存在進(jìn)一步的提升空間。如在處理不平衡問題時(shí),可以考慮數(shù)據(jù)層面的重采樣操作對(duì)模型整體效果的影響;另外,本文的工作是基于橫截面數(shù)據(jù)開展的,在后續(xù)研究中可以考慮指標(biāo)在時(shí)間上的相依性,并采用二元?jiǎng)討B(tài)面板數(shù)據(jù)模型進(jìn)行研究分析。

猜你喜歡
分類器代價(jià)準(zhǔn)確率
少樣本條件下基于K-最近鄰及多分類器協(xié)同的樣本擴(kuò)增分類
學(xué)貫中西(6):闡述ML分類器的工作流程
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
基于樸素Bayes組合的簡易集成分類器①
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
幸災(zāi)樂禍的代價(jià)
幸災(zāi)樂禍的代價(jià)
基于AdaBoost算法的在線連續(xù)極限學(xué)習(xí)機(jī)集成算法
吉首市| 台湾省| 淳化县| 汪清县| 合阳县| 望江县| 申扎县| 金门县| 武陟县| 正宁县| 方正县| 南昌市| 巴南区| 三都| 达拉特旗| 房产| 阿鲁科尔沁旗| 兴海县| 保定市| 临江市| 柘荣县| 江北区| 沛县| 大埔区| 沙湾县| 开平市| 木兰县| 南充市| 汤阴县| 秀山| 新余市| 云龙县| 林西县| 五原县| 庆安县| 宁明县| 清水县| 山阴县| 乌拉特中旗| 永康市| 邢台市|