国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)ADASVM的不平衡財(cái)務(wù)困境動(dòng)態(tài)預(yù)測(cè)模型

2024-03-16 13:39:14李乃文
統(tǒng)計(jì)與決策 2024年4期
關(guān)鍵詞:分類器困境權(quán)重

李乃文,李 慧

(遼寧工程技術(shù)大學(xué)工商管理學(xué)院,遼寧 葫蘆島 125100)

0 引言

財(cái)務(wù)困境預(yù)測(cè)(Financial Distress Prediction,F(xiàn)DP)是財(cái)務(wù)分析和企業(yè)風(fēng)險(xiǎn)管理領(lǐng)域的重要研究方向。2008年全球金融危機(jī)爆發(fā)之后,很多公司都受到了沖擊,陷入了財(cái)務(wù)困境。因此,F(xiàn)DP 模型作為防范財(cái)務(wù)風(fēng)險(xiǎn)的有效工具,受到眾多學(xué)者的關(guān)注[1]。

FDP 問(wèn)題的本質(zhì)是統(tǒng)計(jì)學(xué)中的二分類問(wèn)題,解決該問(wèn)題的方法包括數(shù)理統(tǒng)計(jì)理論與人工智能模型兩大類[1]。數(shù)理統(tǒng)計(jì)理論在FDP 問(wèn)題常用的模型包括判別分析模型(DA)[2]、邏輯回歸模型(LRA)[3]、因子分析模型(FA)[4]等。其優(yōu)勢(shì)在于參數(shù)較少、結(jié)構(gòu)簡(jiǎn)單且能提供概率估計(jì)。但當(dāng)變量的正態(tài)性、獨(dú)立性等假設(shè)條件不能得到滿足時(shí),模型的有效性會(huì)受到極大限制[5]。而人工智能模型不要求任何概率分布假設(shè)就能夠處理非線性系統(tǒng)問(wèn)題,為財(cái)務(wù)困境預(yù)測(cè)領(lǐng)域提供了新的研究思路,已成為該領(lǐng)域的熱點(diǎn)研究方向。近年來(lái),諸多人工智能模型廣泛應(yīng)用于FDP 問(wèn)題。包括決策樹(shù)模型(DT)[6]、神經(jīng)網(wǎng)絡(luò)(ANN)[7]、遺傳算法(GA)[8]、粗糙集(RST)[9]、支持向量機(jī)(SVM)[10]和最近鄰方法(KNN)[11]、模糊方法(FCM)[12]等。其中,支持向量機(jī)(SVM)在樣本數(shù)相對(duì)較小的情況下,也能產(chǎn)生良好的泛化性能,且對(duì)非線性和非平穩(wěn)數(shù)據(jù)的擬合表現(xiàn)良好,通常被認(rèn)為是最有效的財(cái)務(wù)困境預(yù)測(cè)基礎(chǔ)算法。近年來(lái),在單一模型的基礎(chǔ)上,越來(lái)越多的研究轉(zhuǎn)向FDP 模型的集成方法[13]。其中,Bagging 和Boosting 作為兩種最為流行集成算法,被廣泛應(yīng)用于FDP 模型的構(gòu)建[10]。

以往國(guó)內(nèi)外學(xué)者對(duì)財(cái)務(wù)困境預(yù)測(cè)的研究已經(jīng)取得了豐富的成果,但仍存在許多不足。其中有兩個(gè)問(wèn)題亟待解決:第一,以往的大多數(shù)研究都是基于靜態(tài)數(shù)據(jù)的靜態(tài)模型,忽略了財(cái)務(wù)數(shù)據(jù)流隨時(shí)間推移而引發(fā)的概念漂移問(wèn)題;第二,雖然有少數(shù)學(xué)者研究了財(cái)務(wù)困境中的概念漂移現(xiàn)象,但大多數(shù)研究采用的是經(jīng)過(guò)處理的平衡數(shù)據(jù)集。事實(shí)上,財(cái)務(wù)困境公司占上市公司中的比重很小,數(shù)據(jù)呈現(xiàn)嚴(yán)重的不平衡特征,以前的基于靜態(tài)和類別平衡的財(cái)務(wù)困境預(yù)測(cè)模型無(wú)法與真實(shí)情況相吻合,難以對(duì)企業(yè)財(cái)務(wù)狀況作出準(zhǔn)確判斷以達(dá)到預(yù)測(cè)預(yù)警的效果。

基于上述兩個(gè)問(wèn)題在財(cái)務(wù)困境預(yù)測(cè)研究中的迫切需要,本文提出了一種新的面向不平衡數(shù)據(jù)的動(dòng)態(tài)FDP 模型,即MS-ADASVM-ITW 模型。該模型引入了帶有信息保持期的時(shí)間權(quán)重函數(shù)并對(duì)ADASVM模型進(jìn)行改進(jìn)[14],建立了模型的動(dòng)態(tài)更新機(jī)制,解決了財(cái)務(wù)困境動(dòng)態(tài)變化引起的概念漂移問(wèn)題;同時(shí)提出了一種混合采樣方法,與ADASVM 模型耦合,以解決數(shù)據(jù)不平衡問(wèn)題。通過(guò)對(duì)1081 家滬深股市上市公司的財(cái)務(wù)數(shù)據(jù)進(jìn)行實(shí)證分析,驗(yàn)證本文提出的模型的有效性和穩(wěn)定性。

1 模型構(gòu)建及其改進(jìn)

1.1 ADASVM-TW模型

Sun 等(2019)[11]提出的ADASVM-TW 模型以ADASVM模型為基礎(chǔ),引入時(shí)間權(quán)重函數(shù)用以解決概念漂移問(wèn)題。其基本思想是數(shù)據(jù)批次的重要性隨時(shí)間單調(diào)增加。具體時(shí)間權(quán)重函數(shù)如式(1)所示。其中,t表示數(shù)據(jù)批次號(hào),當(dāng)前數(shù)據(jù)批次號(hào)為0,從新到舊,數(shù)據(jù)批次號(hào)依次增加;n為數(shù)據(jù)集批次的總數(shù);λ的取值范圍為[0,0.99]。

ADASVM-TW 模型改進(jìn)了集成訓(xùn)練分類器迭代過(guò)程中的樣本加權(quán)機(jī)制,改進(jìn)的樣本權(quán)重函數(shù)如式(2)至式(5)所示。

其中,U代表ADASVM-TW算法中的迭代總次數(shù),m表示樣本總數(shù)。和分別表示第u+1 次和第u次迭代的第i個(gè)樣本的權(quán)重。用于控制樣本權(quán)重值改變方向,分類正確的賦值為1,分類錯(cuò)誤的賦值為-1,以此降低正確分類樣本的權(quán)重,增加錯(cuò)誤分類樣本的權(quán)重。此外,αu為由u基分類器的錯(cuò)誤率eu確定的權(quán)重因子,它也是Adaboost集合的u基分類器的投票權(quán)重。

ADASVM的權(quán)重更新機(jī)制是基于誤分率的,而時(shí)間加權(quán)的引入則是在誤分率的基礎(chǔ)上加入了時(shí)間限制。它可以更加重視樣本的錯(cuò)誤分類和更新分類,從而提高模型對(duì)動(dòng)態(tài)數(shù)據(jù)流的適應(yīng)能力,解決了財(cái)務(wù)困境中概念漂移的問(wèn)題。

1.2 MS-ADASVM-ITW模型

本文提出的MS-ADASVM-ITW 模型在ADASVM-TW的基礎(chǔ)上引入了帶有信息保持期的時(shí)間權(quán)重函數(shù),使得時(shí)間權(quán)重的衰減呈梯度指數(shù)衰減,以適應(yīng)概念漂移的真實(shí)變化情況。同時(shí)在模型中內(nèi)嵌混合采樣方法,以降低數(shù)據(jù)集的不平衡性。其中混合采樣方法并非直接對(duì)原始數(shù)據(jù)集進(jìn)行采樣,而是在ADASVM 迭代過(guò)程中動(dòng)態(tài)更新樣本。接下來(lái)對(duì)該模型的兩個(gè)重要改進(jìn)進(jìn)行詳細(xì)描述,并構(gòu)建了模型的整體框架。

1.2.1 基于信息保持期的時(shí)序賦權(quán)方法

在財(cái)務(wù)困境中實(shí)際的概念漂移并非是連續(xù)的[15],雖然總體遞減,但遞減的過(guò)程是階段性的,這一階段被稱為信息保持期,在這一期間,數(shù)據(jù)中蘊(yùn)含的信息保持不變。由此,本文引入了基于信息保持期的時(shí)間權(quán)重函數(shù)式(6)、非線性指數(shù)遺忘函數(shù)來(lái)刻畫(huà)信息的衰減程度,其中T'表示信息保持期時(shí)間的長(zhǎng)短。該函數(shù)能更好地描述財(cái)務(wù)困境預(yù)測(cè)中數(shù)據(jù)隨時(shí)間的階段性衰減特征。盡管信息整體呈非線性下降趨勢(shì),但在一定時(shí)期內(nèi)的影響不會(huì)有明顯的改變。

當(dāng)然,還可以定義其他類型的權(quán)重函數(shù)(如對(duì)數(shù)、指數(shù)等)。例如logistic 函數(shù)也常被作為權(quán)重函數(shù)引入,與上文常規(guī)的時(shí)間權(quán)重函數(shù)類似,時(shí)間權(quán)重的取值范圍為(0,1),衰減系數(shù)的取值范圍為[0,0.99]。圖1為Sun等(2019)[11]提出的時(shí)間權(quán)重函數(shù)、logistic時(shí)間權(quán)重函數(shù)和帶有信息保持期的時(shí)間權(quán)重函數(shù)的樣本加權(quán)機(jī)制。經(jīng)過(guò)比較發(fā)現(xiàn),在新的時(shí)間加權(quán)函數(shù)中增加了信息保持期的概念,相當(dāng)于在原有的權(quán)重函數(shù)中增加了一個(gè)信息基本保持不變的時(shí)間窗,從而使其衰減呈指數(shù)梯度衰減,更接近于現(xiàn)實(shí),利用漸進(jìn)遺忘可以提高對(duì)漂移概念的預(yù)測(cè)精度。

圖1 樣本權(quán)重

1.2.2 混合采樣方法

盡管不斷有新的欠采樣和過(guò)采樣方法被提出,但仍然存在相應(yīng)的缺點(diǎn)。為了彌補(bǔ)兩者的缺點(diǎn),同時(shí)面向財(cái)務(wù)困境的實(shí)際問(wèn)題,本文基于ADASVM 提出了一種混合采樣方法,在每次迭代提升過(guò)程中融合過(guò)采樣與欠采樣技術(shù),使得參與訓(xùn)練樣本的少數(shù)類與多數(shù)類達(dá)到平衡。

將采樣技術(shù)與集成技術(shù)相結(jié)合,對(duì)不平衡數(shù)據(jù)集進(jìn)行處理,既保證了數(shù)據(jù)集在數(shù)據(jù)層面的平衡,又通過(guò)對(duì)集成學(xué)習(xí)算法的改進(jìn),提高了分類效果的可靠性。首先,刪除部分多數(shù)類,去除多數(shù)類中的異常值和邊緣樣本,減少多數(shù)類中的難分樣本。其次,某些類別難以分類的樣本所攜帶的類別信息不足以充分代表少數(shù)類別,采用過(guò)采樣方法,合成少數(shù)類樣本,增加少數(shù)類樣本的信息量。再次,將合成的樣本集添加到總體采樣的數(shù)據(jù)集中,通過(guò)弱分類器進(jìn)一步訓(xùn)練,并重復(fù)該過(guò)程以獲得最終分類器。最后,提高分類器的分類精度,既保證了少數(shù)類別的識(shí)別精度,又不降低多數(shù)類別的識(shí)別精度。

1.2.3 模型框架與算法

本文提出的MS-ADASVM-ITW模型,在ADASVM-TW的基礎(chǔ)上引入了帶有信息保持期的時(shí)間權(quán)重函數(shù),使得時(shí)間權(quán)重的衰減呈梯度指數(shù)衰減,以適應(yīng)概念漂移的真實(shí)變化情況,同時(shí)在模型中內(nèi)嵌混合采樣方法,以降低數(shù)據(jù)集的不平衡。其中混合采樣方法并非直接對(duì)原始數(shù)據(jù)集進(jìn)行采樣,而是在ADASVM 迭代過(guò)程中動(dòng)態(tài)更新樣本。先使用欠采樣方法消除訓(xùn)練集中的多數(shù)類樣本,在分類器的每一輪迭代中,使用上述樣本數(shù)據(jù)集形成弱分類器,再將合成樣本集添加到經(jīng)欠樣本后的數(shù)據(jù)集中,以訓(xùn)練弱分類器。在樣本權(quán)重更新過(guò)程中,引入帶有信息保持期的時(shí)間權(quán)重函數(shù)更新樣本權(quán)重。重復(fù)該過(guò)程得到最終分類器。詳細(xì)算法步驟如算法1所示,算法流程圖如下頁(yè)圖2所示。

圖2 MS-ADASVM-ITW算法流程圖

算法1:MS-ADASVM-ITW算法。

輸入:帶有時(shí)間標(biāo)簽的類不平衡訓(xùn)練集ITS={(xi,yi,ti)}(i=1,2,…,S),其中yi?{-1,1}。

初始化:

(1)基于欠采樣方法對(duì)ITS訓(xùn)練集多數(shù)類樣本進(jìn)行刪減,得到新的訓(xùn)練集ITS*,樣本數(shù)為N。

(2)初始化ITS*權(quán)重,W1=(w1,1,w1,2,…,w1,N)={1/N,1/N,…,1/N}。

(3)設(shè)定錯(cuò)誤率閾值。

Foru=1,2,…,U:

(1)從ITS*中依據(jù)分布選擇基礎(chǔ)分類器的訓(xùn)練集TS*。

(2)基于過(guò)采樣方法對(duì)TS*中的少數(shù)類樣本進(jìn)行過(guò)采樣,合成m個(gè)少數(shù)類樣本,記為Bu,將Bu加入ITS*與TS*中,ITS*訓(xùn)練集樣本數(shù)量為Nt。

(3)更新ITS*的樣本權(quán)重,更新后的權(quán)重為。

(4)基于TS*訓(xùn)練一個(gè)SVM 基礎(chǔ)分類器SVMu,也可表示為hu(x)。

(5)計(jì)算SVMu在訓(xùn)練樣本TS*的誤差率eu。

(6)判斷,若eu≤c或者eu≥0.5,則刪除結(jié)果返回到(1),u不變,否則到下一步。

(7)計(jì)算SVMu分類器的權(quán)重系數(shù)αu=0.5*ln[(1-eu)/eu]。

End

1.2.4 模型評(píng)價(jià)指標(biāo)

為評(píng)價(jià)預(yù)測(cè)效果,本文選擇Precision、Recall、G值和F值4個(gè)評(píng)價(jià)指標(biāo)。對(duì)于二分類問(wèn)題,根據(jù)模型預(yù)測(cè)的結(jié)果與真實(shí)類別的對(duì)比,可組合劃分為4 種結(jié)果:TP(真陽(yáng)性)、FP(假陽(yáng)性)、TN(真陰性)、FN(假陰性)。這4項(xiàng)結(jié)果可以派生出相關(guān)的幾個(gè)評(píng)價(jià)指標(biāo)。其中,Precision用于評(píng)價(jià)預(yù)測(cè)為正類的實(shí)例的可信度,Recall用于評(píng)價(jià)有多大比例的正類實(shí)例被正確預(yù)測(cè),對(duì)于不平衡分類問(wèn)題,僅使用總體精度來(lái)評(píng)估分類器的性能是不夠的,因此,本文選取G值與F值對(duì)分類性能進(jìn)行評(píng)價(jià)。G值可以很好地評(píng)估模型對(duì)正類與負(fù)類樣本的總體分類性能。只有在準(zhǔn)確率和召回率都較高時(shí),F(xiàn)值才會(huì)較高,可以很好地反映少數(shù)類的分類性能。

在本文中,財(cái)務(wù)困境表示為正類,財(cái)務(wù)正常表示為負(fù)類。具體的公式如下:

2 實(shí)證分析

2.1 實(shí)驗(yàn)設(shè)計(jì)

本文的數(shù)據(jù)來(lái)源于國(guó)泰安CSMAR數(shù)據(jù)庫(kù),以1081家滬深股市的上市公司作為研究對(duì)象,以年為基本時(shí)間單位,時(shí)間跨度為2008—2020 年。選取1081 家上市公司的財(cái)務(wù)數(shù)據(jù)作為樣本。國(guó)內(nèi)學(xué)者傾向于將財(cái)務(wù)困境樣本定義為被進(jìn)行ST 處理的公司,本文也采用了該定義。FDP的動(dòng)態(tài)預(yù)測(cè)是一個(gè)增量學(xué)習(xí)的過(guò)程,選取2014 年為基準(zhǔn)年,利用2008—2014 年的數(shù)據(jù)構(gòu)建基礎(chǔ)訓(xùn)練集,考慮到“ST”的評(píng)價(jià)是由過(guò)去連續(xù)兩個(gè)會(huì)計(jì)年度的審計(jì)結(jié)果確定的,因此以樣本T-2 年(2008—2012 年)的財(cái)務(wù)數(shù)據(jù)構(gòu)建特征變量,以樣本第T 年(2014 年)的財(cái)務(wù)數(shù)據(jù)構(gòu)建標(biāo)簽。然后以2015—2020 年的數(shù)據(jù)構(gòu)建測(cè)試集,隨著時(shí)間基準(zhǔn)推移,不斷更新訓(xùn)練集數(shù)據(jù)以構(gòu)建動(dòng)態(tài)模型,并不斷評(píng)價(jià)模型的預(yù)測(cè)效果,動(dòng)態(tài)預(yù)測(cè)流程詳見(jiàn)圖3。

圖3 動(dòng)態(tài)預(yù)測(cè)示意圖

本文共設(shè)計(jì)了兩個(gè)對(duì)比實(shí)驗(yàn),在第一個(gè)實(shí)驗(yàn)中,將本文提出的MS-ADASVM-ITW模型與ADASVM經(jīng)典模型以及Sun 等(2019)[11]提出的ADASVM-TW 改進(jìn)模型進(jìn)行對(duì)比,通過(guò)6次移動(dòng)預(yù)測(cè)驗(yàn)證模型對(duì)處理不平衡財(cái)務(wù)數(shù)據(jù)動(dòng)態(tài)預(yù)測(cè)的有效性與泛化能力。在第二個(gè)實(shí)驗(yàn)中,對(duì)模型的混合采樣方式做進(jìn)一步探索,通過(guò)對(duì)比不同的過(guò)/欠采樣組合,選取適合財(cái)務(wù)困境動(dòng)態(tài)預(yù)測(cè)的采樣方法。本文利用Python編程實(shí)現(xiàn)了各類統(tǒng)計(jì)學(xué)計(jì)算、數(shù)據(jù)處理與模型建模以進(jìn)行仿真實(shí)驗(yàn)。

2.2 指標(biāo)篩選

基于上市公司財(cái)務(wù)報(bào)表,采用定性選擇與定量相關(guān)分析相結(jié)合的方法對(duì)財(cái)務(wù)指標(biāo)進(jìn)行選取。首先,充分借鑒國(guó)內(nèi)外研究成果,從償債能力、發(fā)展能力、股東獲利能力、盈利能力、營(yíng)運(yùn)能力、現(xiàn)金流量能力6個(gè)方面,選取了45個(gè)財(cái)務(wù)指標(biāo)作為備選原始財(cái)務(wù)指標(biāo),如表2所示。

表2 備選原始財(cái)務(wù)指標(biāo)

并不是所有財(cái)務(wù)指標(biāo)都對(duì)財(cái)務(wù)困境預(yù)測(cè)模型的構(gòu)建具有現(xiàn)實(shí)意義,因此需要對(duì)備選財(cái)務(wù)指標(biāo)進(jìn)行降維處理。篩選前必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括補(bǔ)全缺失值和刪除異常值。本文采用序列平均法來(lái)填補(bǔ)缺失的數(shù)據(jù)。由于每個(gè)企業(yè)的發(fā)展都有所不同,一些公司的財(cái)務(wù)數(shù)據(jù)表現(xiàn)出極端現(xiàn)象,這種極端現(xiàn)象的財(cái)務(wù)數(shù)據(jù)的存在可能會(huì)影響模型的訓(xùn)練,因此本文采用三倍標(biāo)準(zhǔn)差法檢測(cè)并排除了極值。

為了比較“ST”和非“ST”公司組間財(cái)務(wù)指標(biāo)是否具有顯著性差異,要對(duì)財(cái)務(wù)指標(biāo)進(jìn)行顯著性檢驗(yàn)。本文利用Kolmogorov-Smirnov 方法對(duì)財(cái)務(wù)數(shù)據(jù)指標(biāo)進(jìn)行了正態(tài)性檢驗(yàn)。判斷正態(tài)分布的標(biāo)準(zhǔn)是P 值是否超過(guò)0.05。經(jīng)檢驗(yàn),除了營(yíng)運(yùn)資金比率(X4)、資產(chǎn)負(fù)債率(X5)、每股營(yíng)業(yè)收入(X19)、銷售毛利率(X23)、固定資產(chǎn)凈利潤(rùn)率(X28)、凈資產(chǎn)收益率(X29)、應(yīng)付賬款周轉(zhuǎn)率(X33)、固定資產(chǎn)周轉(zhuǎn)率(X37)、營(yíng)業(yè)收入現(xiàn)金比率(X42)和每股營(yíng)業(yè)活動(dòng)現(xiàn)金凈流(X43),其余指標(biāo)都不服從正態(tài)分布。對(duì)于符合正態(tài)分布的指標(biāo)采用Student-t 參數(shù)檢驗(yàn)方法,不符合正態(tài)分布的指標(biāo)采用Mann-Whitney U 非參數(shù)檢驗(yàn)方法。

Mann-Whiney U非參數(shù)檢驗(yàn)的結(jié)果(略)表明,備選原始財(cái)務(wù)指標(biāo)中共12 個(gè)指標(biāo)在不同公司間具有顯著性差異,予以保留,其余指標(biāo)對(duì)財(cái)務(wù)困境狀態(tài)的敏感度較低,應(yīng)當(dāng)從研究范圍中刪去。t 檢驗(yàn)結(jié)果顯示,在顯著性水平為5%時(shí)X5和X29存在明顯差異。根據(jù)以上顯著性檢驗(yàn)篩選出的指標(biāo)能夠較好地區(qū)分財(cái)務(wù)困境公司與正常公司,使得預(yù)測(cè)結(jié)果更具客觀性,可以進(jìn)行下一步分析。

為避免出現(xiàn)多重共線性問(wèn)題,本文采用容差系數(shù)(TOL)和方差膨脹系數(shù)(VIF)進(jìn)行多重共線性檢驗(yàn),剔除容許度(TOL)小于0.1 或方差膨脹因子(VIF)大于10 的指標(biāo),最終保留9個(gè)對(duì)財(cái)務(wù)困境預(yù)測(cè)具有明顯統(tǒng)計(jì)學(xué)意義的指標(biāo)作為模型的輸入,包括:流動(dòng)比率、權(quán)益對(duì)負(fù)債比率、每股收益、每股凈資產(chǎn)、每股未分配利潤(rùn)、資產(chǎn)報(bào)酬率、凈資產(chǎn)收益率、流動(dòng)資產(chǎn)周轉(zhuǎn)率和總資產(chǎn)周轉(zhuǎn)率。

2.3 結(jié)果分析

基于上文構(gòu)建的評(píng)價(jià)指標(biāo)體系,對(duì)逐年的預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。表3列出了各模型2015—2020年的測(cè)試精度,其中每個(gè)結(jié)果為計(jì)算50次試驗(yàn)的平均值,最后一列為每個(gè)模型6 年精度指標(biāo)的平均值。從Precision指標(biāo)可以看出,MS-ADASVM-ITW在5個(gè)預(yù)測(cè)年份精度最高,1個(gè)預(yù)測(cè)年份精度居中;ADASVM在4個(gè)預(yù)測(cè)年份精度最低,2個(gè)預(yù)測(cè)年份精度居中,ADASVM-TW在3個(gè)預(yù)測(cè)年份精度居中,1個(gè)預(yù)測(cè)年份精度最高,1個(gè)預(yù)測(cè)年份精度最低,Recall指標(biāo)也顯示了類似的趨勢(shì)。就Precision和Recall的結(jié)果而言,ADASVM 模型整體精度較低,ADASSVM-TW的動(dòng)態(tài)預(yù)測(cè)效果明顯優(yōu)于ADASVM 靜態(tài)模型,然而ADASSVM-TW模型穩(wěn)定性較差,MS-ADASVM-ITW 明顯優(yōu)于其他兩個(gè)模型。就G值和F值的結(jié)果而言,ADASVM 的精度幾乎都是最低的,顯示其對(duì)非均衡數(shù)據(jù)的處理能力較低,MS-ADASVM-ITW 幾乎都是最高的,體現(xiàn)其對(duì)非均衡數(shù)據(jù)特別是少數(shù)類的良好預(yù)測(cè)效果。同時(shí)需要注意的是,一般基于不平衡數(shù)據(jù)的采樣方法會(huì)在一定程度上犧牲多數(shù)類財(cái)務(wù)正常樣本的識(shí)別能力,以提高對(duì)少數(shù)類財(cái)務(wù)困境樣本的識(shí)別能力,而本文提出的混合采樣方法,迭代更新樣本,對(duì)多數(shù)類財(cái)務(wù)正常樣本仍保持較高的識(shí)別能力。

表3 逐年預(yù)測(cè)結(jié)果評(píng)價(jià)

將三個(gè)模型6年的指標(biāo)均值繪制成柱狀圖(如下頁(yè)圖4 所示)。總體來(lái)看,本文提出的MS-ADASVM-ITW 模型在四個(gè)指標(biāo)上都是最優(yōu)的,ADASVM 模型的預(yù)測(cè)效果最差。ADASVM 模型在Precision、Recall、G值三個(gè)精度指標(biāo)上與本文提出的模型相差不大,而在F值上具有較大差異,只有當(dāng)少數(shù)類別的Precision和Recall較大時(shí),少數(shù)類別的F值才較大,所以它可以準(zhǔn)確地反映少數(shù)類別的分類效果,把一個(gè)財(cái)務(wù)困境公司錯(cuò)分類為財(cái)務(wù)正常公司的成本,遠(yuǎn)比把財(cái)務(wù)正常公司錯(cuò)分類為財(cái)務(wù)困境公司的成本要大得多,本文提出的模型在解決數(shù)據(jù)不平衡問(wèn)題上具有較大優(yōu)勢(shì)。

圖4 評(píng)價(jià)指標(biāo)均值對(duì)比

進(jìn)一步驗(yàn)證不同采樣方式組合對(duì)改進(jìn)模型的提升效果。其中欠采樣技術(shù)包括EasyEnsemble、BalanceCascade、Tomek Link 和ENN 四種方法,過(guò)采樣技術(shù)包括SMOTE、DBSMOTE、Border-line SMOTE 和ADASYN 四種方法,兩兩組合應(yīng)用于本文提出的MS-ADASVM-ITW 模型,其中SMOTE+Tomek Link 是上文實(shí)驗(yàn)的基礎(chǔ)組合。表4 和表5為不同組合G值和F值的均值比較結(jié)果。

表4 不同采樣組合方式的G 均值

表5 不同采樣組合方式的F均值

從表4和表5的實(shí)驗(yàn)結(jié)果可以看出,本文不同的采樣組合方式對(duì)模型性能的提升效果各異。G均值較優(yōu)的組合方式包括DBSMOTE+Tomek Link 組合、Border-line SMOTE+Tomek Link組合、ADASYN+Tomek Link組合、DBSMOTE+ENN 組合和ADASYN+BalanceCascade 組合;F均值較優(yōu)的組合方式包括SMOTE+ BalanceCascade 組合、DBSMOTE+Tomek Link組合、Border-line SMOTE+Tomek Link組合、ADASYN+EasyEnsemble組合、ADASYN+Tomek Link組合、ADASYN+ENN組合;兩個(gè)評(píng)價(jià)指標(biāo)均高的組合方式包括DBSMOTE+ Tomek Link 組合、Border-line SMOTE+Tomek Link組合和ADASYN+Tomek Link組合,這三種組合方式的欠采樣技術(shù)都包含Tomek Link 方法,可見(jiàn)Tomek Link欠采樣方法對(duì)模型性能提升具有較大影響。同時(shí)三種組合方式中,Border-line SMOTE+Tomek Link 的組合相對(duì)最優(yōu),其G均值為0.9168,F(xiàn)均值為0.8246,相比上文實(shí)驗(yàn)中的基礎(chǔ)組合SMOTE+Tomek Link,G均值提高了7.6%,F(xiàn)均值提高了20.6%,為財(cái)務(wù)困境預(yù)測(cè)不平衡數(shù)據(jù)的建模提供了較優(yōu)的解決方案。

3 結(jié)束語(yǔ)

本文考慮到FDP 中數(shù)據(jù)不平衡和概念漂移同時(shí)存在的問(wèn)題,以ADASVM模型為基礎(chǔ),提出了一種新的動(dòng)態(tài)集成模型MS-ADASVM- ITW。以我國(guó)滬深股市1081 家上市公司作為研究對(duì)象,通過(guò)實(shí)驗(yàn)對(duì)比,結(jié)果表明,本文提出的模型具有較高的精度?;谛畔⒈3制诘臅r(shí)間權(quán)重函數(shù)動(dòng)態(tài)更新模型,解決了財(cái)務(wù)困境中的概念漂移問(wèn)題,使企業(yè)財(cái)務(wù)困境建模從靜態(tài)向動(dòng)態(tài)更新。同時(shí)針對(duì)不同混合采樣組合方式進(jìn)行對(duì)比,得到Border-line SMOTE+Tomek Link為最優(yōu)組合方式。這表明,分類不均衡導(dǎo)致少數(shù)類型的財(cái)務(wù)困境樣本缺少足夠的財(cái)務(wù)信息,使得財(cái)務(wù)困境預(yù)測(cè)模型對(duì)少數(shù)類型的財(cái)務(wù)困境樣本的判正率較低,而采用混合采樣的方法可以有效地平衡財(cái)務(wù)困境和非財(cái)務(wù)困境的樣本,提高了模型的預(yù)測(cè)效果。

猜你喜歡
分類器困境權(quán)重
權(quán)重常思“浮名輕”
困境
文苑(2020年12期)2020-04-13 00:54:08
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
“鄰避”困境化解之策
必須正視的理論困境
我國(guó)霧霾治理的困境與出路
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
怀宁县| 景泰县| 名山县| 镇安县| 咸宁市| 都昌县| 天水市| 桐城市| 晋宁县| 正蓝旗| 柳州市| 湟源县| 浦江县| 绥江县| 邯郸市| 晋州市| 高邑县| 科尔| 连南| 商南县| 萨迦县| 郧西县| 大石桥市| 泰州市| 万荣县| 彰化市| 龙山县| 关岭| 汨罗市| 博客| 双鸭山市| 陕西省| 宝应县| 绵阳市| 土默特左旗| 女性| 交城县| 迁西县| 达拉特旗| 富川| 元朗区|