国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進的MRMR算法和代價敏感分類的財務(wù)預(yù)警研究

2020-04-27 05:22羅康洋王國強
統(tǒng)計與信息論壇 2020年3期
關(guān)鍵詞:特征選擇財務(wù)指標(biāo)現(xiàn)金流量

羅康洋,王國強

(上海工程技術(shù)大學(xué) a.管理學(xué)院; b.數(shù)理與統(tǒng)計學(xué)院,上海 201620)

一、引 言

上市公司財務(wù)困境的發(fā)生不僅使企業(yè)承受巨大的經(jīng)濟損失,還會嚴(yán)重影響其發(fā)展甚至導(dǎo)致破產(chǎn)。與此同時,企業(yè)的經(jīng)營者、供應(yīng)商、顧客、信用機構(gòu)、債權(quán)人、投資者等利益相關(guān)者的經(jīng)濟利益也會受到嚴(yán)重威脅。因此,他們總是希望能夠提前預(yù)知企業(yè)潛在的財務(wù)風(fēng)險,并及時采取相應(yīng)的防范措施,以避免財務(wù)危機的發(fā)生,減少損失。財務(wù)預(yù)警研究是企業(yè)防范財務(wù)危機和化解經(jīng)營風(fēng)險的重要舉措,受到眾多國內(nèi)外學(xué)者和實業(yè)者的高度重視[1-2]。

從統(tǒng)計分類學(xué)習(xí)的觀點來說,公司財務(wù)預(yù)警屬于二分類問題,一類是股票交易受到特殊處理(Special Treatment,ST)的上市公司,另一類是股票正常交易的上市公司,即非ST公司。財務(wù)預(yù)警數(shù)據(jù)呈現(xiàn)出的高維和不平衡的雙重特性為研究帶來了諸多的困難,主要表現(xiàn)在兩個方面:第一,研究所涉及到的財務(wù)指標(biāo)眾多、指標(biāo)之間相關(guān)性較大且含有較多冗余指標(biāo),這些都會對預(yù)測模型的精度造成嚴(yán)重的負(fù)面影響。第二,在股票市場中,被ST的上市公司在數(shù)量上遠(yuǎn)遠(yuǎn)小于非ST的公司,這使得財務(wù)預(yù)警數(shù)據(jù)分布嚴(yán)重不平衡,以至于導(dǎo)致邏輯回歸、支持向量機和決策樹等傳統(tǒng)的分類模型失效。

近年來,國內(nèi)外學(xué)者對公司財務(wù)預(yù)警模型和存在近似問題的眾籌與違約預(yù)警模型等進行了系統(tǒng)的研究,并取得了諸多突破。具體研究方法大體可分為三類:一是根據(jù)經(jīng)驗、直觀判斷或者以定性的方式在備選財務(wù)指標(biāo)中選取重要指標(biāo),然后在不平衡數(shù)據(jù)集上利用隨機抽樣技術(shù)或人工合成少數(shù)類樣本過采樣技術(shù)(Synthetic Minority Over-sampling Technique,SMOTE)等采樣方法處理后再構(gòu)建預(yù)測模型[3-4]。二是采用檢驗、逐步判別法和逐步邏輯回歸等傳統(tǒng)特征選擇方法對財務(wù)指標(biāo)進行篩選,并在平衡數(shù)據(jù)集上構(gòu)建預(yù)測模型[5]。三是直接使用分類模型處理不平衡數(shù)據(jù)集、將在平衡數(shù)據(jù)樣本條件下對指標(biāo)進行篩選[6]或者對不平衡數(shù)據(jù)樣本進行指標(biāo)篩選[7]后的數(shù)據(jù)集直接作為分類模型的輸入。第一種研究方法選擇的指標(biāo)集通常不能滿足實際應(yīng)用的需求,這主要是受主觀因素的影響使得構(gòu)建的財務(wù)預(yù)警模型泛化能力較弱。第二種研究方法采用的單變量特征選擇法,盡管能有效保留相關(guān)特征,但不能去除冗余特征。不難看出,前兩類研究方法并沒有對數(shù)據(jù)的高維和不平衡性同時進行研究,而是各有側(cè)重。第三種研究方法直接使用分類算法應(yīng)對數(shù)據(jù)集存在的高維和不平衡的雙重特性。由于該類方法沒有改善數(shù)據(jù)的不平衡性,使得預(yù)警模型的魯棒性較弱。因而,針對財務(wù)預(yù)警數(shù)據(jù)的雙重特性,構(gòu)建有效的財務(wù)預(yù)警模型并進行實證分析無疑具有重要的理論和實踐價值。

受以上工作的啟發(fā),本文旨在基于高維不平衡數(shù)據(jù)對上市公司財務(wù)預(yù)警進行系統(tǒng)性研究,主要包括采樣、特征選擇和分類三個過程。在采樣過程中,如果直接對數(shù)據(jù)特征進行選擇,數(shù)據(jù)的不平衡特性會使得特征選擇算法偏向選擇多數(shù)類樣本對應(yīng)的特征(即高估其特征重要性),而忽略少數(shù)類樣本對應(yīng)特征的重要性,進而影響少數(shù)類樣本的預(yù)測精度。因此,利用組合采樣技術(shù)SMOTE+ENN (SMOTE+Edited Nearest Neighbor)進行數(shù)據(jù)平衡化處理,以提高少數(shù)類樣本對應(yīng)特征的重要性。在特征選擇過程中,引入最大相關(guān)最小冗余(Minimal Redundancy Maximal Relevance,MRMR)算法[8]對特征進行選擇,并給出兩種新的基于絕對值余弦的冗余性度量。該算法同時考慮了特征之間的相關(guān)性與冗余性,在多個特征選擇領(lǐng)域表現(xiàn)優(yōu)異。在分類過程中,使用支持向量機(Support Vector Machine,SVM)、L2-邏輯回歸(L2-Logistic Regression,L2-LR)和CART決策樹在特征選擇后的嵌套特征集中搜索分類性能最優(yōu)的特征子集。同時,為克服數(shù)據(jù)不平衡對分類模型的影響,從采樣技術(shù)與代價敏感分類學(xué)習(xí)兩方面進行研究。本文的研究是對財務(wù)預(yù)警問題的一種新探索,相關(guān)結(jié)論可為上市公司經(jīng)營者和利益相關(guān)者提供決策參考和咨詢。

二、算法描述

(一)組合采樣技術(shù)SMOTE+ENN

采樣技術(shù)是針對不平衡數(shù)據(jù)集的預(yù)處理方法,該技術(shù)一般分為兩種:欠采樣技術(shù)(按某種方式刪除多數(shù)類樣本)和過采樣技術(shù)(按某種方式增加少數(shù)類樣本),其中隨機欠采樣和隨機過采樣是較為經(jīng)典的采樣技術(shù)。但隨機欠采樣會造成有效信息的丟失,而隨機過采樣由于沒有新樣本的產(chǎn)生,則容易導(dǎo)致過擬合。

為克服隨機欠采樣的不足,文獻[9]提出了一種剪輯最近鄰(ENN)采樣技術(shù)。ENN的基本思想是搜尋多數(shù)類樣本的3-最近鄰樣本,將這3個最近鄰樣本中有2個及以上少數(shù)類樣本的多數(shù)類樣本予以刪除。由于多數(shù)類樣本周圍更多的還是同類樣本,導(dǎo)致該方法的數(shù)據(jù)平衡化能力較弱。

SMOTE是經(jīng)典的啟發(fā)式過采樣技術(shù)[10],與隨機過采樣技術(shù)不同,它利用線性組合在少數(shù)類樣本與其臨近的同類樣本間插入新樣本,以緩解數(shù)據(jù)集的不平衡性。該方法的主要步驟:首先,計算少數(shù)類樣本x∈X與X中每個樣本的歐氏距離,并找出x的k個同類最近鄰。其次,在這k個同類樣本中隨機選取一個樣本x′并按下式:

xnew=x+rand×(x′-x)

(1)

對x與x′進行線性插值構(gòu)造新樣本xnew,其中rand為0到1的隨機數(shù)。但SMOTE沒有差別的對少類樣本進行采樣,容易造成類間重疊[11]。

基于此,本文采用由Batista等人提出的將SMOTE與ENN進行結(jié)合的采樣技術(shù) (SMOTE+ENN),對數(shù)據(jù)進行平衡化處理[12]。已有研究結(jié)果顯示該技術(shù)在多個數(shù)據(jù)集上取得了優(yōu)良效果。

(二)MRMR算法及其改進

1.MRMR算法

MRMR算法是一種啟發(fā)式的特征選擇方法,它的基本思想是根據(jù)評價函數(shù)對原始特征進行排序,得到一組嵌套特征集S1?…?Sk?…?Sm,其中Sk表示含有k個特征、與目標(biāo)分類相關(guān)性最大且自身冗余信息最少的特征子集。分類模型只需在上述m個特征集中尋找預(yù)測精度最大的特征集,以達(dá)到降維目的。

對于連續(xù)型自變量,假設(shè)已選擇了k-1個特征并得到特征子集Sk-1。在剩余特征集F-Sk-1中選入第k個特征的最大相關(guān)最小冗余的評價函數(shù)有以下兩種:

(2)

(3)

其中V(fk,y)為相關(guān)性度量,W(fk,Sk-1)為冗余性度量。有研究表明式(3)的特征排序效果優(yōu)于式(2)[8],因此本文采用式(3)進行特征選擇。根據(jù)式(3),選入第k個特征的評價函數(shù)有以下兩種:

FCQ (F-testCOR quotient):

(4)

FD1Q (F-test L1-distance quotient):

(5)

其中

(6)

(7)

(8)

分別為F-score、Pearson相關(guān)系數(shù)和L1-范數(shù)距離。

2.改進的MRMR算法

本文針對MRMR算法中的冗余性度量函數(shù)W(fk,Sk-1),構(gòu)造兩個新的選入第k個特征的評價函數(shù),具體如下:

FACQ (F-test AC quotient):

(9)

FDAQ (F-test DAC quotient):

(10)

其中

(11)

圖1 非線性映射過程

(三)分類模型

在平衡數(shù)據(jù)集的分類問題中,傳統(tǒng)分類模型能較好地對數(shù)據(jù)進行分類,但在不平衡數(shù)據(jù)集上的分類效果卻不盡人意。這主要是因為在不平衡分類問題中,多數(shù)類樣本在數(shù)量上遠(yuǎn)大于少數(shù)類樣本,但在實際應(yīng)用中人們更關(guān)注少數(shù)類樣本,使得少數(shù)類樣本錯分代價遠(yuǎn)大于多數(shù)類樣本錯分代價。當(dāng)傳統(tǒng)分類模型以相同錯分代價對不平衡數(shù)據(jù)進行分類時,往往以犧牲少數(shù)類樣本的正確分類為代價換取整體正確率。為此,本文將支持向量機、L2-邏輯回歸模型和CART決策樹模型及其相應(yīng)的代價敏感模型作為財務(wù)預(yù)警的比較分類模型。

1.支持向量機。SVM以統(tǒng)計學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險最小化原理和VC維理論為基礎(chǔ),在有限樣本空間中采用滿足Mercer定理的核函數(shù)將訓(xùn)練樣本映射到更高維數(shù)的樣本空間尋找最優(yōu)分類超平面[13]。為了克服傳統(tǒng)SVM處理不平衡數(shù)據(jù)的不足,現(xiàn)對少數(shù)類樣本和多數(shù)類樣本賦予不同的錯分代價,得到代價敏感SVM (Cost Sensitive SVM,CSSVM)模型。

2.L2-邏輯回歸。標(biāo)準(zhǔn)邏輯回歸是傳統(tǒng)的二分類模型,該模型采用對數(shù)幾率函數(shù)將線性回歸結(jié)果映射到[0,1],并以近似概率來預(yù)測樣本類別。為了減少標(biāo)準(zhǔn)邏輯回歸模型的過擬合風(fēng)險,文獻[14]在基于極大似然估計的優(yōu)化模型中加入L2正則項,得到L2-LR模型。為了適應(yīng)不平衡數(shù)據(jù)分類問題,對少數(shù)類樣本和多數(shù)類樣本賦予不同的錯分代價,得到代價敏感L2-LR (Cost Sensitive L2-LR,CSL2-LR) 模型。

3.CART決策樹。決策樹是一種自頂向下的非參數(shù)化分類算法,它從根節(jié)點開始,采用類間差異度量對特征值進行劃分,不斷得到不同分支節(jié)點,直至產(chǎn)生確定分類結(jié)果的葉節(jié)點,停止劃分[15]。由于類間差異度量的不同,形成的決策樹也不同。經(jīng)典的算法包括ID3、C4.5和CART等,其中CART采用基尼系數(shù)衡量類間差異并構(gòu)建二叉決策樹,具有較高的運算效率。因此,本文選擇CART決策樹作為分類模型之一。在不平衡數(shù)據(jù)分類過程中,為防止CART偏向多數(shù)類樣本,對少數(shù)類樣本和多數(shù)類樣本賦予不同的錯分代價,得到代價敏感CART (Cost Sensitive CART,CSCART) 模型。

三、實證研究與結(jié)果分析

(一)數(shù)據(jù)來源與預(yù)處理

本文通過tushare金融接口獲取了紡織、化工機械和化學(xué)制藥等行業(yè)2014—2017年所有A股上市公司的財務(wù)數(shù)據(jù),得到8 023個備選樣本,每個樣本有143個財務(wù)指標(biāo)。對缺失值超過三分之一的財務(wù)指標(biāo)予以剔除,最終從盈利能力、發(fā)展能力、償債能力、現(xiàn)金流量和資本結(jié)構(gòu)五個方面選取130個財務(wù)指標(biāo)來構(gòu)建預(yù)警模型。財務(wù)指標(biāo)的具體說明如下:

盈利能力包含的指標(biāo)有凈資產(chǎn)收益率(x101)、凈利潤(x102)、加權(quán)平均凈資產(chǎn)收益率(x103)、凈資產(chǎn)收益率(扣除非經(jīng)常損益)(x104)、年化凈資產(chǎn)收益率(x105)、平均凈資產(chǎn)收益率(增發(fā)條件)(x106)、總資產(chǎn)報酬率(x107)、總資產(chǎn)凈利潤(x108)、年化總資產(chǎn)報酬率(x109)、凈利率(x110)、年化總資產(chǎn)凈利率(x111)、總資產(chǎn)凈利率(杜邦分析)(x112)、毛利率(x113)、毛利潤(x114)、營業(yè)收入(x115)、息稅前利潤(x116)、息稅折舊攤銷前利潤(x117)、每股營業(yè)總收入(x118)、每股息稅前利潤(x119)、投入資本回報率(x120)、年化投入資本回報率(x121)、銷售毛利率(x122)、銷售凈利率(x123)、銷售成本率(x124)、銷售期間費用率(x125)、經(jīng)營活動凈收益(x126)、營業(yè)利潤/營業(yè)總收入(x127)、營業(yè)總成本/營業(yè)總收入(x128)、財務(wù)費用/營業(yè)總收入(x129)、管理費用/營業(yè)總收入(x130)、資產(chǎn)減值損失/營業(yè)總收入(x131)、凈利潤/營業(yè)總收入(x132)、銷售費用/營業(yè)總收入(x133)、扣除財務(wù)費用前營業(yè)利潤(x134)、非營業(yè)利潤(x135)、利潤總額/營業(yè)收入(x136)、息稅前利潤/營業(yè)總收入(x137)、折舊與攤銷(x138)、期末攤薄每股收益(x139)、每股盈余公積(x140)、每股營業(yè)收入(x141)、每股主營業(yè)務(wù)收入(x142)、每股未分配利潤(x143)、每股資本公積(x144)、稀釋每股收益(x145)、基本每股收益(x146)和每股凈資產(chǎn)(x147)。

發(fā)展能力包含的指標(biāo)有總資產(chǎn)增長率(x201)、主營業(yè)務(wù)收入增長率(x202)、凈資產(chǎn)增長率(x203)、每股收益增長率(x204)、資產(chǎn)總計相對年初增長率(x205)、股東權(quán)益增長率(x206)、每股凈資產(chǎn)相對年初增長率(x207)、歸屬母公司股東權(quán)益相對年初增長率(x208)、凈利潤同比(x209)、營業(yè)收入同比(x210)、利潤總額同比(x211)、營業(yè)總收入同比(x212)、基本每股收益同比(x213)、營業(yè)周期(x214)、稀釋每股收益同比(x215)、凈資產(chǎn)收益率(攤薄)同比(x216)、營業(yè)利潤同比(x217)、凈資產(chǎn)同比(x218)、歸屬母公司股東凈利潤同比(x219)、經(jīng)營現(xiàn)金流量凈額同比(x220)、每股經(jīng)營現(xiàn)金流量凈額同比(x221)、營運資金(x222)、營運流動資本(x223)、每股留存收益(x224)、留存收益(x225)、存貨周轉(zhuǎn)率(x226)、存貨周轉(zhuǎn)天數(shù)(x227)、應(yīng)收賬款周轉(zhuǎn)率(x228)、應(yīng)收賬款周轉(zhuǎn)天數(shù)(x229)、流動資產(chǎn)周轉(zhuǎn)率(x230)、流動資產(chǎn)周轉(zhuǎn)天數(shù)(x231)、總資產(chǎn)周轉(zhuǎn)率(x232)和固定資產(chǎn)周轉(zhuǎn)率(x233)。

償債能力包含的指標(biāo)有流動比率(x301)、速動比率(x302)、保守速動比率(x303)、現(xiàn)金比率(x304)、無息流動負(fù)債(x305)、無息非流動負(fù)債(x306)、營業(yè)利潤/流動負(fù)債(x307)、貨幣資金/流動負(fù)債(x308)、貨幣資金/帶息流動負(fù)債(x309)、股東權(quán)益比率(x310)、利息費用(x311)、產(chǎn)權(quán)比率(x312)、帶息債務(wù)(x313)、有形資產(chǎn)/負(fù)債合計(x314)、有形資產(chǎn)/帶息債務(wù)(x315)、息稅折舊攤銷前利潤/負(fù)債合計(x316)、營業(yè)利潤/負(fù)債合計(x317)、歸屬于母公司股東權(quán)益/負(fù)債合計(x318)、歸屬于母公司股東權(quán)益/帶息債務(wù)(x319)、利息支付倍數(shù)(x320)和凈債務(wù)(x321)。

現(xiàn)金流量包含的指標(biāo)有現(xiàn)金流量比率(x401)、每股經(jīng)營現(xiàn)金流量凈額(x402)、每股現(xiàn)金流量凈額(x403)、每股企業(yè)自由現(xiàn)金流量(x404)、每股股東自由現(xiàn)金流量(x405)、企業(yè)自由現(xiàn)金流量(x406)、股權(quán)自由現(xiàn)金流量(x407)、經(jīng)營現(xiàn)金凈流量對負(fù)債比率(x408)、資產(chǎn)經(jīng)營現(xiàn)金流量回報率(x409)、經(jīng)營現(xiàn)金流量凈額/流動負(fù)債(x410)、經(jīng)營現(xiàn)金流量凈額/負(fù)債合計(x411)、經(jīng)營現(xiàn)金流量凈額/帶息債務(wù)(x412)、經(jīng)營現(xiàn)金流量凈額/營業(yè)收入(x413)、銷售商品提供勞務(wù)現(xiàn)金收入/營業(yè)收入(x414)、經(jīng)營現(xiàn)金凈流量/銷售收入(x415)和資本支出/折舊和攤銷(x416)。

資本結(jié)構(gòu)包含的指標(biāo)有權(quán)益乘數(shù)(x501)、權(quán)益乘數(shù)(杜邦分析)(x502)、有形資產(chǎn)(x503)、全部投入資本(x504)、固定資產(chǎn)合計(x505)、資產(chǎn)負(fù)債率(x506)、歸屬于母公司股東權(quán)益/全部投入資本(x507)、流動負(fù)債/負(fù)債合計(x508)、非流動負(fù)債/負(fù)債合計(x509)、有形資產(chǎn)/總資產(chǎn)(x510)、流動資產(chǎn)/總資產(chǎn)(x511)、非流動資產(chǎn)/總資產(chǎn)(x512)和帶息債務(wù)/全部投入資本(x513)。

在數(shù)據(jù)樣本的處理中,針對ST上市公司備選樣本,剔除缺失值超過5個的樣本,剩余樣本中對缺失的年度財務(wù)指標(biāo)值利用第三季度的財務(wù)指標(biāo)值近似替代。針對非ST上市公司備選樣本,將含有缺失值的樣本全部剔除。經(jīng)過上述處理共獲得2 567個樣本,其中ST上市公司樣本129個,非ST上市公司樣本2 438個。顯然,數(shù)據(jù)的樣本類別分布極度不平衡。為了消除指標(biāo)量綱的影響,文本采用極大極小歸一化方法對數(shù)據(jù)進行標(biāo)準(zhǔn)化。完成標(biāo)準(zhǔn)化后,將2014—2016年的樣本作為訓(xùn)練樣本,其中少數(shù)類樣本94個,多數(shù)類樣本1 815個。將2017年的樣本作為預(yù)測樣本,其中少數(shù)類樣本35個,多數(shù)類樣本623個。為克服財務(wù)預(yù)警數(shù)據(jù)的類不平衡性對特征選擇算法和傳統(tǒng)分類模型產(chǎn)生的不利影響,利用組合采樣技術(shù)SMOTE+ENN對數(shù)據(jù)進行平衡化處理。在采樣過程中,將SMOTE中的k值設(shè)為5[11]。本文使用Python-imblearn包完成SMOTE+ENN采樣,實現(xiàn)數(shù)據(jù)的平衡化。

(二) 研究模型和參數(shù)設(shè)置

1.研究模型與對照模型

針對財務(wù)預(yù)警數(shù)據(jù)的高維不平衡特性,構(gòu)建兩組研究模型。第一組:MRMR+SVM模型、MRMR+L2-LR模型和MRMR+CART模型。第二組:MRMR+CSSVM模型、MRMR+CSL2-LR模型和MRMR+CSCART模型。本文提出了兩種不同的MRMR算法評價函數(shù),分別記為MRMR_FACQ和MRMR_FDAQ,并將采樣技術(shù)SMOTE+ENN引入上述兩組模型中的MRMR算法和第一組模型的分類過程。另外,本文分別設(shè)計不采樣和MRMR_FCQ(MRMR_FD1Q、F-score)傳統(tǒng)特征選擇算法對照模型,與兩組研究模型形成對比。

2.參數(shù)設(shè)置

代價敏感分類算法中少數(shù)類樣本和多數(shù)類樣本的錯分代價分別定義如下:

其中,n+和n-分別表示少數(shù)類樣本和多數(shù)類樣本的數(shù)量。對于支持向量機分類模型,采用徑向基核函數(shù)K(x,y)=exp(-2‖x-y‖2/δ2)。除了錯分代價以外,傳統(tǒng)分類模型與代價敏感分類模型所需設(shè)置的參數(shù)相同。具體為SVM:懲罰參數(shù)C={0.1,0.5,1,2,5,10,20,30,40,50}和徑向基核參數(shù)δ={0.01,0.05,0.1,0.5,1,2,5,10};L2-LR:懲罰參數(shù)C={0.1,0.5,1,2,5,10,20,30,40,50};CART:最大樹深度={1,2,3,4,5,6,7,8,9,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100}。

為充分挖掘特征選擇后各嵌套特征子集的分類性能,根據(jù)設(shè)置的候選參數(shù)對每個特征子集Sk對應(yīng)訓(xùn)練數(shù)據(jù)進行3折交叉驗證的網(wǎng)格搜索,并利用最優(yōu)參數(shù)訓(xùn)練的分類模型完成樣本預(yù)測。由于采樣過程存在一定隨機性,為充分驗證研究模型的降維和預(yù)測效果,以下所有數(shù)值結(jié)果均為循環(huán)10次求得的平均值。

(三) 模型降維與預(yù)測結(jié)果的分析

兩組研究模型及其對照組模型的降維和預(yù)測結(jié)果分別見表1和表2。模型降維效果是使用降維后的特征數(shù)進行衡量。在上市公司財務(wù)預(yù)警研究中,一般來說,上市公司利益相關(guān)者更加關(guān)注少數(shù)類樣本 (ST公司樣本)的預(yù)測準(zhǔn)確率,以便采取應(yīng)對措施,減少損失。但從模型分類性能的角度來說,模型整體分類精度是衡量模型優(yōu)劣的重要標(biāo)準(zhǔn)。因此,模型預(yù)測結(jié)果的衡量指標(biāo)有:多數(shù)類樣本預(yù)測準(zhǔn)確率(rrTN)、少數(shù)類樣本預(yù)測準(zhǔn)確率(rrTP)、F1值和AUC值。

由表1、表2,從是否采樣的角度看,與在特征選擇過程中未引入SMOTE+ENN的對照組模型相比,兩組研究模型降維后的平均特征數(shù)下降了38.26%,rrTP和AUC分別總體提高了5.47%和0.87%。這表明將SMOTE+ENN引入特征選擇過程有效提升了研究模型的降維效果,并加強了少數(shù)類樣本對應(yīng)特征的重要性,即rrTP明顯得到了提高。但兩組研究模型rrTP的提高是以犧牲多數(shù)類樣本的正確預(yù)測為代價的,導(dǎo)致AUC提升較小。

由表1、表2,從特征選擇算法的角度看(考慮在特征選擇過程中引入SMOTE+ENN的系列結(jié)果),MRMR_FACQ、MRMR_FDAQ、MRMR_FCQ、MRMR_FD1Q和F-score對應(yīng)模型降維后的平均特征數(shù)分別為19.1、17.7、24.6、22.8和37.5;平均rrTP分別為0.843、0.870、0.847、0.849和0.865;平均AUC分別為0.833、0.829、0.812、0.827 0和0.768??傻?,MRMR_FACQ和MRMR_FDAQ算法對應(yīng)研究模型的降維效果優(yōu)于傳統(tǒng)MRMR算法MRMR_FCQ、MRMR_FD1Q以及不考慮特征冗余度的F-score的對照組模型,其中MRMR_FDAQ對應(yīng)模型降維效果最優(yōu),MRMR_FACQ對應(yīng)模型次之。綜合考慮平均rrTP和平均AUC,MRMR類算法對應(yīng)模型的預(yù)測結(jié)果均優(yōu)于F-score對照組模型,其中MRMR_FDAQ對應(yīng)模型的預(yù)測效果最優(yōu),MRMR_FACQ和MRMR_FD1Q對應(yīng)模型次之。

由表1、表2,從分類模型的角度看,SVM、L2-LR和CART對應(yīng)的第一組研究模型降維后的平均特征數(shù)分別為21.5、12.95和13.35;平均rrTP分別為0.863、0.844和0.839;平均AUC分別為0.831,0.823和0.836。CSSVM、CSL2-LR和CSCART對應(yīng)第二組研究模型降維后的平均特征數(shù)分別為23.2、8.7和30.8;平均rrTP分別為0.873 0、0.844和0.874;平均AUC分別為0.847、0.819和0.829。綜合比較上述統(tǒng)計結(jié)果,L2-邏輯回歸對應(yīng)研究模型的總體降維效果最優(yōu),支持向量機對應(yīng)研究模型次之。支持向量機對應(yīng)研究模型取得了最優(yōu)的預(yù)測效果,CART決策樹對應(yīng)研究模型次之。可以看出,L2-邏輯回歸雖能起到很好的降維效果,但過少的預(yù)測指標(biāo)限制了模型的預(yù)測精度。此外,在研究模型中,為克服數(shù)據(jù)不平衡性,組合采樣技術(shù)與代價敏感分類學(xué)習(xí)相比,降維后平均特征數(shù)下降了35.27%,rrTP總體下降了4.57%,AUC總體上升了0.58%。

綜合考慮降維和預(yù)測的效果,研究模型MRMR_FDAQ+CSSVM最優(yōu),而MRMR_FACQ+CSCART次之。特別的,第二組對照模型中F+CSSVM模型和F+CSCART模型得到了較高的rrTP,最高達(dá)到了0.929,但這是以犧牲大量多數(shù)類樣本的預(yù)測準(zhǔn)確率為代價,從而導(dǎo)致模型整體分類性能顯著下降,AUC僅為0.669。

表1 第一組模型及其對照組模型降維和預(yù)測效果

表2 第二組模型及其對照組模型降維和預(yù)測效果

(四)特征選擇算法分析與重要財務(wù)指標(biāo)

上一小節(jié)直接從模型的降維和預(yù)測結(jié)果對不同MRMR算法進行了比較。結(jié)果表明將SMOTE+ENN引入特征選擇過程提高了少數(shù)類樣本對應(yīng)特征的重要性,即rrTP得到了提高。為進一步比較不同MRMR算法的財務(wù)指標(biāo)選擇過程的差異以及SMOTE+ENN對特征選擇的影響力,采用KTRC (Kendall's Tau Rank Correlation)準(zhǔn)則從MRMR算法相似性的角度來進行分析[16]。該準(zhǔn)則的基本思想如下:

假設(shè)r1和r2分別為兩個特征選擇算法對原始特征的排序結(jié)果。任取兩個特征(fk,fi),它們在r1和r2中的排名可表示為(r1(fk),r1(fi))和(r2(fk),r2(fi)),有如下一致性判斷準(zhǔn)則:

從表3前四列來看,引入組合采樣技術(shù)顯著地降低了特征選擇算法之間的相關(guān)性。例如FCQ與FD1Q的τ值為0.815,但采樣技術(shù)引入后,τ值下降為0.711,即FCQ與FD1Q*的相關(guān)度為0.711。這說明組合采樣技術(shù)顯著改變了MRMR算法的特征選擇過程,并根據(jù)上一節(jié)的預(yù)測結(jié)果,更加證實了組合采樣技術(shù)的引入能有效提高少數(shù)類樣本對應(yīng)特征的重要性。此外,在同一數(shù)據(jù)集上,F(xiàn)CQ(FCQ*)與FACQ(FACQ*)的相關(guān)度最大為0.912(0.911),F(xiàn)CQ(FCQ*)與FDAQ(FDAQ*)的相關(guān)度最小為0.662(0.673)。

表3 KTRC相似矩陣

根據(jù)上述MRMR算法采樣前后KTRC相似度的變化結(jié)果,選取每次循環(huán)各MRMR算法排序后的前30個財務(wù)指標(biāo)(選取前30個財務(wù)指標(biāo)的依據(jù)是本文給出的研究模型的特征選擇數(shù)均在30左右浮動)。10次循環(huán)完成后,再根據(jù)特征出現(xiàn)次數(shù)進行排序。取前30個財務(wù)指標(biāo)作為各MRMR算法對應(yīng)財務(wù)預(yù)警模型的重要財務(wù)危機預(yù)測指標(biāo)?,F(xiàn)考慮采樣后的MRMR算法特征選擇結(jié)果,如下:

FCQ*選擇的前30個財務(wù)指標(biāo):盈利能力指標(biāo)包括x103、x106、x107、x108、x109、x111、x112、x118、x119、x128、x139、x140、x141、x142、x143、x145、x146和x147;發(fā)展能力指標(biāo)包括x224、x230和x231;償債能力指標(biāo)包括x315;現(xiàn)金流量指標(biāo)包括x401、x402、x408、x409、x410、x411和x413;資本結(jié)構(gòu)指標(biāo)包括x501。

FD1Q*選擇的前30個財務(wù)指標(biāo):盈利能力指標(biāo)包括x103、x106、x107、x108、x109、x111、x118、x119、x120、x121、x122、x124、x128、x139、x140、x142、x143、x146和x147;發(fā)展能力指標(biāo)包括x216、x224和x231;現(xiàn)金流量指標(biāo)包括x401、x402、x408、x409和x413;資本結(jié)構(gòu)指標(biāo)包括x501、x506和x510。

FACQ*選擇的前30個財務(wù)指標(biāo):盈利能力指標(biāo)包x103、x107、x108、x109、x111、x112、x118、x119、x120、x122、

x124、x128、x139、x141、x142、x143、x145、x146和x147;發(fā)展能力指標(biāo)包括x224、x230和x231;現(xiàn)金流量指標(biāo)包括x401、x402、x408、x409、x410和x411;資本結(jié)構(gòu)指標(biāo)包括x501和x502。

FDAQ*選擇的前30個財務(wù)指標(biāo):盈利能力指標(biāo)包x107、x109、x114、x115、x118、x122、x124、x125、x128、x129、x130、x140、x143、x146和x147;發(fā)展能力指標(biāo)包括x214、x224、x227、x229、x230、x231和x232;現(xiàn)金流量指標(biāo)包括x48和x416;資本結(jié)構(gòu)指標(biāo)包括x501、x502、x503、x506、x510和x513。

從上述采樣后的四種MRMR算法的重要財務(wù)指標(biāo)選取結(jié)果可知,不論是否引入采樣技術(shù),上市公司盈利能力、發(fā)展能力、償債能力、現(xiàn)金流量和資本結(jié)構(gòu)的財務(wù)指標(biāo)在所有MRMR算法排名前30的財務(wù)指標(biāo)中出現(xiàn)次數(shù)的排名為:盈利能力、發(fā)展能力、現(xiàn)金流量、資本結(jié)構(gòu)和償債能力,其中盈利能力下的指標(biāo)對上市公司財務(wù)危機的有效預(yù)測尤為重要。比較發(fā)現(xiàn),F(xiàn)CQ*、FAC*和FD1Q*的排名前30的財務(wù)指標(biāo)的重復(fù)率很高,其中FCQ*和FAC*最為突出,這與理論部分的分析結(jié)論以及表3中的算法相似性結(jié)果相吻合。由償債能力下的指標(biāo)選擇結(jié)果可知,除了FCQ*選擇了有形資產(chǎn)/帶息債務(wù)(x315),其他三種算法均沒有選擇該類中的財務(wù)指標(biāo),這表明償債能力下的財務(wù)指標(biāo)對上市公司的財務(wù)危機的預(yù)測能力較弱。此外,F(xiàn)DAQ*選擇在盈利能力、發(fā)展能力、現(xiàn)金流量和資本結(jié)構(gòu)下選擇的財務(wù)指標(biāo)與FCQ*、FAC*和FD1Q*差異較大。結(jié)合表1和表2的預(yù)測結(jié)果可知,F(xiàn)DAQ*選擇出的不同于其他三種算法的財務(wù)指標(biāo)在較小影響整體分類精度(AUC)的前提下,能有效提升對ST公司的預(yù)測結(jié)果。具體來說,忽略FDAQ*與其他三種算法選擇出的相同財務(wù)指標(biāo),該算法在利益能力下選擇出了毛利潤(x114)、營業(yè)收入(x115)、銷售期間費用率(x125)、財務(wù)費用/營業(yè)總收入(x129)和管理費用/營業(yè)總收入(x130),這5個指標(biāo)均能直接有效地反映公司財務(wù)狀況,符合指標(biāo)選擇的預(yù)期。在發(fā)展能力下選擇出了營業(yè)周期(x214)、存貨周轉(zhuǎn)天數(shù)(x227)、應(yīng)收賬款周轉(zhuǎn)天數(shù)(x229)和總資產(chǎn)周轉(zhuǎn)率(x232),這4個指標(biāo)均是公司運轉(zhuǎn)能力的重要衡量標(biāo)準(zhǔn),也是公司財務(wù)狀況的外在表現(xiàn)。在現(xiàn)金流量和資本結(jié)構(gòu)下選擇出了資本支出/折舊和攤銷(x416)、有形資產(chǎn)(x503)和帶息債務(wù)/全部投入資本(x513),這3個指標(biāo)衡量了公司內(nèi)部各類資產(chǎn)的分布,對財務(wù)狀況有很好的反映作用。

四、結(jié)論與展望

本文針對上市公司財務(wù)預(yù)警數(shù)據(jù)呈現(xiàn)出的高維和不平衡的雙重特性進行了深入研究,并構(gòu)建了一系列適合處理該類數(shù)據(jù)的組合預(yù)測模型。通過大量實證分析研究,主要有如下結(jié)論:

第一,與不考慮冗余性的特征選擇算法相比,MRMR算法在不影響模型分類精度的前提下能得到更為簡潔的預(yù)測指標(biāo)集,且本文提出的MRMR_FDAQ算法對應(yīng)財務(wù)預(yù)警模型取得了最優(yōu)的降維和預(yù)測結(jié)果。第二,在特征選擇過程中,SMOTE+ENN的引入有效提高了少數(shù)類樣本及其對應(yīng)特征的重要性,進而使得模型的rrTP得到顯著提升。第三,在分類過程中,利用采樣技術(shù)對應(yīng)研究模型取得的降維效果優(yōu)于代價敏感分類學(xué)習(xí),但對ST公司樣本的預(yù)測效果弱于代價敏感分類學(xué)習(xí)。此外,支持向量機對應(yīng)研究模型取得了最優(yōu)的預(yù)測效果和次優(yōu)的降維效果。

綜合考慮降維和預(yù)測效果,建議上市公司利益相關(guān)者選擇研究模型MRMR_FDAQ+CSSVM對公司財務(wù)危機進行預(yù)測。下一步工作主要有兩個方面:一是在財務(wù)指標(biāo)的選擇過程中,研究除了基于F-score的MRMR算法以外的其他更有效的特征選擇算法。二是將集成分類模型及其對應(yīng)的代價敏感模型引入上市公司財務(wù)預(yù)警研究的分類過程,并且如何有效縮短集成分類模型最優(yōu)參數(shù)的搜索時間是未來工作的一個重要方向。

猜你喜歡
特征選擇財務(wù)指標(biāo)現(xiàn)金流量
正交基低冗余無監(jiān)督特征選擇法
關(guān)于財務(wù)指標(biāo)實際應(yīng)用的思考
制造型企業(yè)現(xiàn)金流量管控淺談
基于詞向量的文本特征選擇方法研究
探討醫(yī)院財務(wù)分析中財務(wù)指標(biāo)體系的應(yīng)用
基于特征聚類集成技術(shù)的在線特征選擇
Kmeans 應(yīng)用與特征選擇
EVA業(yè)績評價體系應(yīng)用分析
貝因美股份有限公司償債能力分析
淺論現(xiàn)金流量管理及其在企業(yè)財務(wù)管理中的地位
紫金县| 合作市| 萝北县| 桐庐县| 综艺| 绿春县| 扎兰屯市| 乌鲁木齐市| 高州市| 达孜县| 富蕴县| 东乌珠穆沁旗| 钟山县| 蓬安县| 泽库县| 二手房| 合阳县| 铜川市| 黄平县| 合川市| 武鸣县| 岑巩县| 简阳市| 凤冈县| 英山县| 漯河市| 方山县| 富川| 郓城县| 青河县| 长丰县| 裕民县| 太谷县| 江孜县| 桐庐县| 伽师县| 三门县| 龙海市| 安达市| 苏尼特右旗| 巴东县|