孫夫雄,劉光明,曾子軒,彭夢(mèng)琪
中南財(cái)經(jīng)政法大學(xué) 信息與安全工程學(xué)院,武漢 430074
在金融市場(chǎng)中,股票停牌制度是為了加強(qiáng)信息披露、解決信息不對(duì)稱問題,對(duì)證券價(jià)格進(jìn)行重新評(píng)估從而調(diào)整交易策略而進(jìn)行的強(qiáng)制中斷證券市場(chǎng)交易的過程。它是一種重要的市場(chǎng)穩(wěn)定機(jī)制,可以提高市場(chǎng)透明度、保護(hù)投資者權(quán)益,也可以抑制股票的異常波動(dòng)、維護(hù)證券交易秩序。但是中國股票市場(chǎng)的停牌存在著次數(shù)過多、時(shí)間過長(zhǎng)等問題,導(dǎo)致停牌制度不僅沒有實(shí)現(xiàn)監(jiān)管層穩(wěn)定市場(chǎng)運(yùn)行、提高市場(chǎng)效率的目標(biāo),甚至還會(huì)產(chǎn)生供需偏差放大的問題,這就加大了股價(jià)的波動(dòng),并且降低了價(jià)格發(fā)現(xiàn)效率。
2015 年的 615 股災(zāi)期間,在6月 15 日至8月 26 日的兩個(gè)月時(shí)間內(nèi),超過千家上市公司以“籌劃重大事項(xiàng)”或其相關(guān)的理由申請(qǐng)股票停牌,以躲避股價(jià)暴跌,停牌比例超過了所有A股上市公司50%。另外,中國股市還存在著過長(zhǎng)時(shí)間停牌的問題,然而強(qiáng)制性復(fù)牌政策措施十分有限。例如萬方發(fā)展(000638)在2004 年停牌,直到2009年才復(fù)牌,停牌時(shí)間長(zhǎng)達(dá)5年之久;2006年10月20日起,S延邊路開啟了長(zhǎng)達(dá)三年半時(shí)間的停牌。這種隨意、長(zhǎng)期的停牌不僅給投資者利益帶來巨大的損害,也影響著股市的秩序和穩(wěn)定,同時(shí)還會(huì)給監(jiān)管層的工作帶來嚴(yán)峻的挑戰(zhàn)。
中國股市上的亂停牌、長(zhǎng)時(shí)間停牌等現(xiàn)象已經(jīng)引起了金融從業(yè)者、學(xué)者、監(jiān)管層等各個(gè)方面的關(guān)注,并就中國股市停牌方面存在的一些問題進(jìn)行了一系列的研究?,F(xiàn)有的研究著重關(guān)注的是停牌股票的估值問題、中國股票市場(chǎng)停牌有效性、上市公司停牌避險(xiǎn)事件研究、停牌制度實(shí)施效果等方面,從這些研究中不難看出大多都是針對(duì)停牌事件之后的一些問題所展開的,基本上沒有關(guān)于股票停牌事前預(yù)測(cè)方面的研究。
本文針對(duì)該問題,研究股票停牌預(yù)測(cè)的組合模型,并選取部分上市公司作為實(shí)證對(duì)象,對(duì)模型進(jìn)行訓(xùn)練和測(cè)試,提高模型預(yù)測(cè)效果,從而為投資者理性決策和監(jiān)管層制定合理的措施提供理論上的參考。
目前,國內(nèi)外學(xué)者將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法運(yùn)用到了股票市場(chǎng)、并購預(yù)測(cè)等金融領(lǐng)域,取得了卓有成效的研究成果,而股票停牌的研究主要集中在停牌制度的實(shí)施效果和對(duì)股市的影響等方面,缺乏對(duì)股票停牌預(yù)測(cè)方面的研究。
在股價(jià)預(yù)測(cè)方面,國外學(xué)者Chou等[1]提出一個(gè)智能時(shí)間序列預(yù)測(cè)系統(tǒng),使用滑動(dòng)窗口啟發(fā)式優(yōu)化來預(yù)測(cè)臺(tái)灣建筑公司的股價(jià)。學(xué)者Heo[2]基于財(cái)務(wù)報(bào)表,通過從公司內(nèi)在價(jià)值預(yù)測(cè)股價(jià)的基本分析,對(duì)支持向量機(jī)(SVM)的股價(jià)預(yù)測(cè)能力進(jìn)行了評(píng)價(jià),并對(duì)股票的漲跌進(jìn)行了預(yù)測(cè),將SVM 結(jié)果與專家預(yù)測(cè)、神經(jīng)網(wǎng)絡(luò)、決策樹和AdaBoost 等機(jī)器學(xué)習(xí)方法進(jìn)行比較,發(fā)現(xiàn)SVM 表現(xiàn)出良好的預(yù)測(cè)能力。申浩男[3]引入BP 神經(jīng)網(wǎng)絡(luò)模型建立收盤價(jià)的預(yù)測(cè)模型,比較了LARCH模型和BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果。
在風(fēng)險(xiǎn)預(yù)測(cè)方面,特別是關(guān)于信用風(fēng)險(xiǎn)的預(yù)測(cè)方面采用了不同的方法,Zhu 等[4]提出了一種新的集成機(jī)器學(xué)習(xí)(ML)方法,即RS-RAB(Random Subspace-Real AdaBoost),用于預(yù)測(cè)我國中小企業(yè)在供應(yīng)鏈金融中的信用風(fēng)險(xiǎn);Zhao等[5]利用最小二乘支持向量機(jī)(LSSVM)來預(yù)測(cè)系統(tǒng)性金融風(fēng)險(xiǎn)。
在并購預(yù)測(cè)方面,袁丹蕾[6]基于并購動(dòng)因基本理論,對(duì)并購動(dòng)機(jī)進(jìn)行了分析,并用單因素方差分析法選取了9個(gè)指標(biāo)納入預(yù)測(cè)模型的輸入變量,運(yùn)用神經(jīng)網(wǎng)絡(luò)中的BP神經(jīng)網(wǎng)絡(luò)算法構(gòu)建預(yù)測(cè)模型對(duì)樣本進(jìn)行了訓(xùn)練和檢驗(yàn),并與傳統(tǒng)的Logit預(yù)測(cè)模型的結(jié)果進(jìn)行了對(duì)比;李陽[7]將滬深兩市“ST”(特別處理)上市公司選為研究樣本,構(gòu)建“ST”公司被并購潛力預(yù)測(cè)模型,基于此模型預(yù)測(cè)未來年度被并購潛力最大的“ST”公司。
在股票停牌問題,國內(nèi)學(xué)者關(guān)注的重點(diǎn)主要是停牌制度的實(shí)施效果和對(duì)股市的影響等。廖靜池、王博、金丹靈等人則對(duì)股票停復(fù)牌制度的實(shí)施效果進(jìn)行了研究,分別采用了多元回歸分析、極端事件統(tǒng)計(jì)分析和計(jì)算實(shí)驗(yàn)等方法[8-10],黃維選取了我國A股市場(chǎng)2005年至2008年上市公司長(zhǎng)期停牌的樣本數(shù)據(jù),并利用事件研究法和超額收益法等實(shí)證研究方法對(duì)停牌時(shí)間長(zhǎng)短的影響因素及其帶來的市場(chǎng)反應(yīng)進(jìn)行了研究;李哲則是在研究中指出了停復(fù)牌制度運(yùn)行實(shí)踐中暴露出來的問題及缺陷等[11]。
鑒于機(jī)器學(xué)習(xí)方法在股票市場(chǎng)、并購預(yù)測(cè)等金融領(lǐng)域應(yīng)用的卓越研究,本文以隨機(jī)森林模型為基礎(chǔ),研究構(gòu)建股票停牌預(yù)測(cè)的組合投票模型。
股票停牌制度的目的主要是減少信息的非對(duì)稱性對(duì)不同投資者帶來的不同影響,當(dāng)一項(xiàng)重要信息出現(xiàn)并可能對(duì)股價(jià)有重大影響時(shí),股票停牌可制造出一段緩沖期使投資者有足夠的時(shí)間根據(jù)信息反饋對(duì)股票價(jià)格進(jìn)行重新評(píng)估,并重新調(diào)整自己的投資策略使其符合預(yù)期。造成股票停牌的可能因素很多,包括但不限于股市異常波動(dòng)、財(cái)務(wù)問題、并購活動(dòng)等。
在眾多因素中,股市異常波動(dòng)、財(cái)務(wù)狀況往往是觸發(fā)股票停牌的主要誘因。當(dāng)上市公司股票交易發(fā)生異常波動(dòng)時(shí),為告知交易者該上市公司內(nèi)部異常狀況,需要強(qiáng)制中斷股票交易,從而警示投資者更改投資策略或督促出現(xiàn)問題的上市公司予以及時(shí)地改進(jìn)。而財(cái)務(wù)信息反映了一個(gè)公司本身的經(jīng)營(yíng)狀況和業(yè)績(jī),特別是重大財(cái)務(wù)信息的變動(dòng),在一定程度上會(huì)影響到市場(chǎng)各方對(duì)該股票的反應(yīng),進(jìn)而可能會(huì)對(duì)股價(jià)產(chǎn)生影響,為避免市場(chǎng)波動(dòng)而中斷股票交易。
股票每日的交易信息:最高價(jià)、最低價(jià)、平均交易量、均價(jià)、收益率這5項(xiàng)指標(biāo)變化反映了股價(jià)的波動(dòng),而財(cái)務(wù)信息來自每個(gè)季度公開的財(cái)務(wù)報(bào)表,共有80 余個(gè)指標(biāo),包括每股收益、每股凈資產(chǎn)、總資產(chǎn)報(bào)酬率、銷售凈利率、資產(chǎn)負(fù)債率、權(quán)益乘數(shù)、流動(dòng)比率、營(yíng)業(yè)周期、存貨周轉(zhuǎn)率、應(yīng)收賬款周轉(zhuǎn)率、總資產(chǎn)周轉(zhuǎn)率、營(yíng)業(yè)收入(同比增長(zhǎng)率)等,各個(gè)指標(biāo)從不同的側(cè)面反映了公司財(cái)務(wù)狀況,比如:
3.1.1 盈利能力
所謂盈利能力是指企業(yè)在一定時(shí)期內(nèi),利用各種經(jīng)濟(jì)資源來獲取經(jīng)濟(jì)利益的能力,是各部門生產(chǎn)經(jīng)營(yíng)情況的一種綜合體現(xiàn)。一方面,盈利能力是企業(yè)在某一時(shí)期銷售水平的體現(xiàn),同時(shí)也展現(xiàn)了該企業(yè)獲取現(xiàn)金和降低成本的能力,另一方面,盈利能力也是企業(yè)資產(chǎn)運(yùn)營(yíng)效益的反映,反映了企業(yè)獲取收益,規(guī)避風(fēng)險(xiǎn)的能力。因此,盈利能力的大小與企業(yè)經(jīng)營(yíng)狀況的好壞相關(guān)聯(lián)。
3.1.2 營(yíng)運(yùn)能力
營(yíng)運(yùn)能力揭示了企業(yè)資金運(yùn)營(yíng)周轉(zhuǎn)的情況,反映了企業(yè)對(duì)經(jīng)濟(jì)資源管理、運(yùn)用效率的高低。企業(yè)資產(chǎn)周轉(zhuǎn)越快,流動(dòng)性越高,企業(yè)的償債能力越強(qiáng),資產(chǎn)獲取利潤(rùn)的速度就越快。
營(yíng)運(yùn)能力分析有助于判斷企業(yè)財(cái)務(wù)的安全性、資本的保全程度以及資產(chǎn)實(shí)現(xiàn)收益的能力,這直接關(guān)系到企業(yè)的財(cái)務(wù)和經(jīng)營(yíng)狀況
3.1.3 償債能力
企業(yè)的償債能力是指企業(yè)償還到期債務(wù)的能力,是否能夠及時(shí)償還到期債務(wù),標(biāo)志著企業(yè)財(cái)務(wù)狀況的好壞。通過對(duì)償債能力的分析,可以考察企業(yè)持續(xù)經(jīng)營(yíng)的能力和風(fēng)險(xiǎn),能夠總結(jié)和評(píng)價(jià)公司長(zhǎng)、短期內(nèi)能否用其現(xiàn)有資產(chǎn)償還債券,或者用以判斷企業(yè)舉債經(jīng)營(yíng)的安全程度,有助于對(duì)企業(yè)未來收益進(jìn)行預(yù)測(cè)。企業(yè)償債能力越低,越容易陷入財(cái)務(wù)困境,因此企業(yè)的償債能力對(duì)企業(yè)財(cái)務(wù)狀況的預(yù)測(cè)具有很強(qiáng)的解釋力。
3.1.4 現(xiàn)金流量能力
企業(yè)的現(xiàn)金流狀況反映了企業(yè)的盈利質(zhì)量,收付實(shí)現(xiàn)制核算標(biāo)準(zhǔn)下的現(xiàn)金流狀況是對(duì)企業(yè)現(xiàn)金收入和支出更加真實(shí)的反映,因此相比利潤(rùn)來說,其更加真實(shí)地衡量企業(yè)盈利質(zhì)量的高低。
本文從公開的數(shù)據(jù)源采集各個(gè)上市公司的股價(jià)、財(cái)務(wù)信息,基于機(jī)器學(xué)習(xí)的原理研究股票停牌的分類系統(tǒng)。
實(shí)現(xiàn)分類的技術(shù)很多,比如支持向量機(jī)(SVM)、決策樹等,而隨機(jī)森林具有表現(xiàn)性能好、能處理高維度數(shù)據(jù)(即很多特征的數(shù)據(jù))等方面的優(yōu)勢(shì),本文正是基于數(shù)據(jù)集的特征較多、類別分布不均衡而選擇了隨機(jī)森林。
隨機(jī)森林(RandomForests)算法是由 Breiman 于2001[12]年提出來的,它是一個(gè)樹形分類器的集合,其中元分類器{h(x,θk),k=1,2,…} 是使用 CART 算法來構(gòu)建的未剪枝的分類回歸樹[13],x是輸入向量,θk是獨(dú)立同分布的隨機(jī)向量,森林的輸出結(jié)果采用投票法得到,票數(shù)最高類別即為輸出結(jié)果[14],即:
式中,H(x)為組合分類模型;hi為決策分類模型;Y為輸出變量(目標(biāo)變量);I(hi(x)=Y)為示性函數(shù)。
在機(jī)器學(xué)習(xí)中,泛化誤差(預(yù)測(cè)誤差)是用于算法性能度量的最常用指標(biāo),泛化誤差越小,表明算法性能越好。在隨機(jī)森林中,誤分率是由邊緣函數(shù)(margin function)決定的,邊緣函數(shù)表示的是平均正確分類數(shù)超過平均錯(cuò)誤分類數(shù)的程度,定義邊緣函數(shù)(mg(X,Y))為:
式中,avk為取平均;I(hk(x)=Y)為示性函數(shù);Y表示為正確分類的向量;j為錯(cuò)誤分類的向量。
則模型的泛化誤差(PE*)可定義為:
式中,P為概率;X、Y為概率覆蓋的空間;mg(X,Y)為邊緣函數(shù)。
隨機(jī)森林中決策樹個(gè)數(shù)足夠時(shí),hk(x)=h(x,θk)滿足大數(shù)定律,和合邊緣函數(shù)相結(jié)合可得泛化誤差收斂于:
式中,n為森林個(gè)數(shù),泛化誤差會(huì)隨著決策樹個(gè)數(shù)的增加而趨于某一個(gè)有限上界,因此隨機(jī)森林有著良好的擴(kuò)展性和防過擬合能力。
為了防止模型過擬合和降低模型的泛化誤差,需要通過指標(biāo)重要性計(jì)算來進(jìn)行特征選擇。指標(biāo)重要性可以用基尼指數(shù)(Gini index)或者袋外數(shù)據(jù)(OOB)錯(cuò)誤率作為評(píng)價(jià)指標(biāo)來衡量[15]。這里主要介紹用基尼指數(shù)來評(píng)價(jià)的方法,用VIM 表示變量重要性評(píng)分,用GI 表示Gini 指數(shù),假設(shè)共有v個(gè)特征X1,X2,…,Xv,首先計(jì)算Gini指數(shù),計(jì)算公式為:
其中,K表示K個(gè)類別,pmk表示節(jié)點(diǎn)m中類別k所占的比例。特征Xj在節(jié)點(diǎn)m的重要性,即節(jié)點(diǎn)m分支前后的Gini指數(shù)變化量為:
其中,GIl和GIr分別表示分之后兩個(gè)新節(jié)點(diǎn)的Gini 指數(shù)。如果特征Xj在決策樹i中出現(xiàn)的節(jié)點(diǎn)在結(jié)合M中,那么Xj在第i棵樹的重要性為:
假設(shè)隨機(jī)森林(RF)中共有n棵樹,那么:
最后,通過歸一化處理得到特征Xj的重要性評(píng)分:
對(duì)分類任務(wù)來說,學(xué)習(xí)器ht將從類別標(biāo)記集合c1,c2,…,cN中預(yù)測(cè)出一個(gè)標(biāo)記,最常見的結(jié)合策略是使用投票法,投票法則有三種方法:絕對(duì)投票法、相對(duì)投票法和加權(quán)投票法。用(x)表示ht在類別標(biāo)記cj上的輸出,并假設(shè)基學(xué)習(xí)器的數(shù)量為T。
對(duì)絕對(duì)多數(shù)投票法則來說,選擇票數(shù)超過一半的類別即為組合模型的最終預(yù)測(cè)結(jié)果,即假設(shè)有超過一半的基學(xué)習(xí)器都預(yù)測(cè)了類別j,那么此時(shí)組合后的學(xué)習(xí)器給出的預(yù)測(cè)結(jié)果就是j。則有:
相對(duì)多數(shù)投票法就是選擇票數(shù)最多的類別,如果出現(xiàn)最多票數(shù)的類別個(gè)數(shù)不止一個(gè)的情況,則在其中隨機(jī)選擇一個(gè),投票規(guī)則如下:
在上述兩種投票法則中,沒有考慮各個(gè)分類器的重要性,即假設(shè)所有分類器的權(quán)重相等,在加權(quán)多數(shù)投票法則中,賦予各個(gè)分類器不同的權(quán)重wt,再按照相對(duì)多數(shù)的思想進(jìn)行投票,其決策規(guī)則如下:
股票停牌預(yù)測(cè)系統(tǒng)主要包括三個(gè)步驟,首先通過數(shù)據(jù)預(yù)處理從原始數(shù)據(jù)中選取特征,形成數(shù)據(jù)集;然后完成多個(gè)分類子模型的學(xué)習(xí);最后,隨機(jī)抽取多個(gè)子模型進(jìn)行投票組合,得到最終的預(yù)測(cè)結(jié)果,預(yù)測(cè)系統(tǒng)總體框架如圖1。
圖1中原始數(shù)據(jù)來自上市公司的股價(jià)和財(cái)務(wù)信息,預(yù)處理包括從原始數(shù)據(jù)中選擇特征,并通過缺失值處理、歸一化等形成數(shù)據(jù)集X={x1,x2,…,xn,y} ,其中n是數(shù)據(jù)規(guī)模,y是類別標(biāo)簽向量,模式是第i個(gè)多維特征向量,其中m是向量維度即特征個(gè)數(shù),yi為標(biāo)簽;特征組合通過計(jì)算指標(biāo)重要性VIM進(jìn)行篩選,將m個(gè)特征劃分為k個(gè)特征子集A1,A2,…,Ak,進(jìn)而形成k個(gè)訓(xùn)練子集,其中i=1,2,…,k,第i個(gè)子集中第j個(gè)模式:,其中h維向量 (h≤m),即是xi降維后的模式;在此基礎(chǔ)上,完成k個(gè)子模型M1,M2,…,Mk的學(xué)習(xí),形成子模型池;最后預(yù)測(cè)階段,從子模型池中抽取l(l≤k)個(gè)模型,并通過絕對(duì)多數(shù)投票法得到最終的預(yù)測(cè)結(jié)果。
數(shù)據(jù)預(yù)處理包括特征選擇和歸一化處理。其中股價(jià)信息包括每個(gè)交易日的收益率、最高價(jià)、最低價(jià)等指標(biāo),通過設(shè)置滑動(dòng)時(shí)間窗口Δt統(tǒng)計(jì)股價(jià)波動(dòng)趨勢(shì),設(shè)收盤價(jià)pΔt=[p1,p2,…,pl],其中pi表示股票在 Δt內(nèi)第i天的收盤價(jià),計(jì)算其最高價(jià)g1=max(pΔt),最低價(jià)g2=,收益率為 Δt內(nèi)最后一天的收盤價(jià)與第一天收盤價(jià)的差除以第一天的收盤價(jià),即g4=(pl-p1)/p1,平均換手率內(nèi)每天的換手率/Δt,以這5個(gè)指標(biāo)組成股價(jià)波動(dòng)集合G=(g1,g2,g3,g4,g5)。
財(cái)務(wù)分析中共有80 余個(gè)指標(biāo),為了剔除指標(biāo)的重復(fù)性和指標(biāo)之間的相互影響,選擇其中45 個(gè)財(cái)務(wù)指標(biāo)C=(c1,c2,…,cn)且n=45。通過設(shè)置的滑動(dòng)時(shí)間窗口Δt統(tǒng)計(jì)財(cái)務(wù)狀況波動(dòng)趨勢(shì),即計(jì)算Δt內(nèi)各個(gè)指標(biāo)的均值。集合G和C合并形成數(shù)據(jù)集X={G,C}。
數(shù)據(jù)的歸一化是為了消除指標(biāo)之間量綱的影響,使各指標(biāo)處于同一數(shù)量級(jí),常見的方法有min-max標(biāo)準(zhǔn)化和Z-score標(biāo)準(zhǔn)化方法,本文采用Z-score 標(biāo)準(zhǔn)化方法,經(jīng)過處理的數(shù)據(jù)符合正態(tài)分布,轉(zhuǎn)化函數(shù)為:
其中,μ表示所有樣本數(shù)據(jù)的均值,σ表示所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
模型訓(xùn)練采用監(jiān)督學(xué)習(xí)方式,數(shù)據(jù)x的標(biāo)簽y∈{0,1},其中0類代表未停牌,1類代表停牌,當(dāng)x的下一個(gè)時(shí)間窗口Δt內(nèi)無股票交易則y=1,否則y=0。原始數(shù)據(jù)經(jīng)過特征選擇和歸一化處理后形成數(shù)據(jù)集X≤{x1,x2,…,xn,y} 且n=50,其中股價(jià)數(shù)據(jù)G={x1,x2,x3,x4,x5} ,財(cái)務(wù)數(shù)據(jù)C={x6,x7,…,x50} 。
過多的特征指標(biāo)會(huì)造成維度災(zāi)難問題,如數(shù)據(jù)采集、模型訓(xùn)練和測(cè)試都需要承擔(dān)很高的代價(jià),這也會(huì)引起訓(xùn)練數(shù)據(jù)的稀疏化,從而導(dǎo)致分類器的分類效果變差,本文研究通過特征重要性計(jì)算來進(jìn)行特征選擇和組合[16],降低模型復(fù)雜度。
首先,將數(shù)據(jù)集X全部納入模型中訓(xùn)練,計(jì)算特征重要性評(píng)分VIM并進(jìn)行排序,篩選出其值大于均值的n個(gè)指標(biāo),即對(duì) 1 ≤?i≤n,特征Xi的指標(biāo)重要性評(píng)分VIMi >1/n。由于財(cái)務(wù)的指標(biāo)比較多且可能存在冗余,僅考慮財(cái)務(wù)指標(biāo)重要性評(píng)分排序,篩選其值大于均值的m個(gè)財(cái)務(wù)指標(biāo),即對(duì) 1 ≤?j≤m,財(cái)務(wù)特征cj的指標(biāo)重要性評(píng)分VIMj >1/m。在上述指標(biāo)篩選的基礎(chǔ)上,對(duì)特征進(jìn)行組合即降維處理,從而形成k個(gè)特征子集,即A1,A2,…,Ak,進(jìn)而得到k個(gè)訓(xùn)練子集,其中i=1,2,…,k。同樣,得到k個(gè)測(cè)試子集,其中t=1,2,…,k表示第t個(gè)子集。
隨機(jī)森林模型參數(shù)θ={n,h,s} ,訓(xùn)練過程中需要不斷調(diào)整θ以達(dá)到較佳的預(yù)測(cè)效果。
(1)n為弱學(xué)習(xí)器的最大迭代次數(shù),一般來說其值太小,會(huì)出現(xiàn)欠擬合和分類準(zhǔn)確率低的不良效果,但是若選擇過大,花費(fèi)的時(shí)間代價(jià)大,得到的模型性能無法達(dá)到最優(yōu),并且當(dāng)n達(dá)到某一個(gè)數(shù)值之后,分類準(zhǔn)確率也不會(huì)有明顯的提升了。
(2)h為決策樹最大深度,當(dāng)數(shù)據(jù)少或者特征少的時(shí)候不用設(shè)置。當(dāng)樣本量多,特征也多的情況下,需要設(shè)置最大深度以提高模型效率,一般取值10~100。
圖1 停牌預(yù)測(cè)模型
(3)s為內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù),用來對(duì)子樹繼續(xù)劃分進(jìn)行限制,如果某節(jié)點(diǎn)的樣本數(shù)少于該值,則不會(huì)繼續(xù)再嘗試選擇最優(yōu)特征來進(jìn)行劃分,一般取值10~110。
基于k個(gè)子訓(xùn)練集Xi分別對(duì)k個(gè)模型進(jìn)行訓(xùn)練,通過網(wǎng)格化搜索算法對(duì)參數(shù)θ=(θ1,θ2,…,θk)進(jìn)行調(diào)優(yōu),其過程為先給參數(shù)設(shè)定一組候選值[a,b],然后通過網(wǎng)格化搜索遍歷參數(shù)候選值,最后根據(jù)模型得分確定最優(yōu)參數(shù)。對(duì)模型評(píng)分的方法采用了K-折交叉驗(yàn)證,將訓(xùn)練樣本隨機(jī)地劃分成K份子集,然后從中任意選取一份作為驗(yàn)證集,其余的K-1 份全部作為訓(xùn)練集,進(jìn)行分類預(yù)測(cè)并驗(yàn)證,重復(fù)這個(gè)過程進(jìn)行K次調(diào)換訓(xùn)練集與驗(yàn)證集,最終驗(yàn)證分類器的分類效果[17]。通過上述調(diào)優(yōu)過程,得到了最優(yōu)參數(shù),得到了k個(gè)子模型M1,M2,…,Mk。
從模型池中隨機(jī)抽取l個(gè)模型,分別對(duì)Xt中的對(duì)應(yīng)集中測(cè)試樣本進(jìn)行預(yù)測(cè),通過簡(jiǎn)單多數(shù)投票規(guī)則進(jìn)行組合,得到最終的預(yù)測(cè)結(jié)果。假設(shè)l個(gè)分類器的輸出形式為yi(x),i=1,2,…,k若第h個(gè)分類器標(biāo)記x為停牌類,則yh(x)=1,否則yh(x)=0。最終決策為:
從國泰安數(shù)據(jù)庫中選取了1 053家上市公司為研究對(duì)象,時(shí)間區(qū)間是2015年12月至2017年8月,采集的財(cái)務(wù)數(shù)據(jù)共21 060條,股票數(shù)據(jù)共332 748條,其中財(cái)務(wù)數(shù)據(jù)來源于巨靈金融數(shù)據(jù)庫,股票歷史行情數(shù)據(jù)來源于網(wǎng)易財(cái)經(jīng)網(wǎng)??紤]到我國市場(chǎng)上股票停牌的特殊性和復(fù)雜性,本文主要針對(duì)的是停牌時(shí)長(zhǎng)超過一個(gè)月的較長(zhǎng)期性停牌事件,暫不考慮頻繁發(fā)生的短期性停牌。設(shè)置Δt為一個(gè)月,特征選擇和歸一化處理后,共計(jì)20 420條數(shù)據(jù)記錄,每一條記錄包括45 個(gè)財(cái)務(wù)指標(biāo)、5 個(gè)股票指標(biāo)及標(biāo)簽。
5.2.1 特征組合
針對(duì)50個(gè)特征進(jìn)行VIM計(jì)算,如圖2(a)所示,VIM大于均值(1/50=0.02)的共有14 個(gè)特征;45 個(gè)財(cái)務(wù)特征進(jìn)行了VIM計(jì)算,結(jié)果見圖2(b),高于均值(1/45=0.022 2)的財(cái)務(wù)特征共有15個(gè)。
圖2(a)中14個(gè)特征包括{最高價(jià)x1,最低價(jià)x2,平均換手率x3,均價(jià)x4,收益率x5,每股凈資產(chǎn)x7,流動(dòng)資產(chǎn)比率x21,息稅折舊攤銷前利潤(rùn)/負(fù)債合計(jì)x31,營(yíng)業(yè)周期x34,存貨周轉(zhuǎn)率x35,應(yīng)收賬款周轉(zhuǎn)率x36,流動(dòng)資產(chǎn)周轉(zhuǎn)率x37,固定資產(chǎn)周轉(zhuǎn)率x38,總資產(chǎn)周轉(zhuǎn)率x39}。圖2(b)中15 個(gè)特征包括{每股凈資產(chǎn)x7,總資產(chǎn)報(bào)酬率x9,銷售期間費(fèi)用率x15,經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~/營(yíng)業(yè)收入x18,流動(dòng)負(fù)債/負(fù)債合計(jì)x23,經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~/負(fù)債合計(jì)x29,已獲利息倍數(shù)x30,息稅折舊攤銷前利潤(rùn)/負(fù)債合計(jì)x31,營(yíng)業(yè)周期x34,存貨周轉(zhuǎn)率x35,應(yīng)收賬款周轉(zhuǎn)率x36,流動(dòng)資產(chǎn)周轉(zhuǎn)率x37,固定資產(chǎn)周轉(zhuǎn)率x38,營(yíng)業(yè)收入(同比增長(zhǎng)率)x44,營(yíng)業(yè)利潤(rùn)(同比增長(zhǎng)率)x45}。
圖2 特征重要性度量
根據(jù)各特征的VIM 計(jì)算,對(duì)特征進(jìn)行組合形成多個(gè)子訓(xùn)練集,一方面降低模型復(fù)雜度,另一方面增加模型分類的多樣性,比如特征組合{x1,x2,x3,x4,x5}側(cè)重學(xué)習(xí)股票歷史交易數(shù)據(jù)中的相關(guān)隱含信息,進(jìn)而提高組合模型的預(yù)測(cè)精度,實(shí)驗(yàn)中測(cè)試了以下7個(gè)子訓(xùn)練集:
5.2.2 訓(xùn)練階段
訓(xùn)練過程中通過網(wǎng)格化搜索算法不斷調(diào)整模型參數(shù)θ,以達(dá)到較佳的預(yù)測(cè)效果。
當(dāng)n=10~110 時(shí),模型M1~M7 的平均測(cè)試集分?jǐn)?shù)(即K次交叉驗(yàn)證的平均測(cè)試準(zhǔn)確率,其值越大代表分類器效果越好)變化如圖3所示。以M1為例,n從10變動(dòng)到100 時(shí),平均測(cè)試集分?jǐn)?shù)一直保持著上升的趨勢(shì),當(dāng)n >100 時(shí),平均測(cè)試集分?jǐn)?shù)開始下降,因此設(shè)置n=100 。同理 M2~M7 的n分別取值為 90、100、100、110、110、90。
圖3 不同n 下的平均測(cè)試集分?jǐn)?shù)
當(dāng)h=10~110 時(shí),模型M1~M7 的平均測(cè)試集分?jǐn)?shù)變化如圖4 所示。以 M1 為例,h從 10 變動(dòng)到 75 時(shí),平均測(cè)試集分?jǐn)?shù)一直保持著上升的趨勢(shì),當(dāng)h >75 時(shí),平均測(cè)試集分?jǐn)?shù)有所下降并趨于平穩(wěn),因此設(shè)置h=75。同理M2~M7的h分別取值為40、15、20、65、40、15。
圖4 不同h 下的平均測(cè)試集分?jǐn)?shù)
當(dāng)s=2~11 時(shí),模型M1~M7 的平均測(cè)試集分?jǐn)?shù)變化如圖5所示。以M1為例,當(dāng)s <3 時(shí),平均測(cè)試集分?jǐn)?shù)直線上升,當(dāng)s >3 時(shí),平均測(cè)試集分?jǐn)?shù)表現(xiàn)出下降的趨勢(shì),因此設(shè)置s=3。同理M2~M7下的s分別取值為4、2、10、7、3、2。
圖5 不同s 下的平均測(cè)試集分?jǐn)?shù)
5.2.3 預(yù)測(cè)階段
(1)子模型預(yù)測(cè)實(shí)驗(yàn)
從表1可以看出,停牌預(yù)測(cè)子模型的整體預(yù)測(cè)效果都比較理想,準(zhǔn)確率基本上都達(dá)到了82%以上,相比較而言,模型M2的準(zhǔn)確率最高,達(dá)到了87.47%,但是卻存在著最大的漏報(bào)率;而M1、M5 和M6 也得到了相對(duì)較高的預(yù)測(cè)準(zhǔn)確率,但同時(shí)漏報(bào)率也比較高,這四個(gè)子模型的漏報(bào)率都在50%以上;剩下的子模型預(yù)測(cè)準(zhǔn)確率雖有所下降,但漏報(bào)率低很多,誤報(bào)率卻有所上升。
表1 子模型預(yù)測(cè)效果 %
為了更直觀地對(duì)各模型預(yù)測(cè)效果進(jìn)行對(duì)比,這里引入ROC 曲線和AUC 兩個(gè)評(píng)價(jià)指標(biāo),一般AUC 值在0.5和1.0 之間,且越接近于1,說明分類效果越好。上述7個(gè)模型的ROC曲線如圖6所示,將其中誤報(bào)率和漏報(bào)率較接近的4個(gè)模型M1、M2、M5和M6放在一起(圖6(a)),將另外三個(gè)模型M3、M4、M7放在一起(圖6(b))。圖6(a)中,模型M1的ROC曲線比較靠左上方,且其AUC值為0.848 8,高于其他三個(gè)模型,圖6(b)中,模型M4的ROC曲線整體較為靠左上方,且AUC值為0.822 6,高于另外兩個(gè)模型。
圖6 ROC曲線
(2)組合模型預(yù)測(cè)
基于上述單一模型預(yù)測(cè)效果的不理想,實(shí)驗(yàn)中通過隨機(jī)抽取l個(gè)子模型,并采用絕對(duì)多數(shù)投票的方式來完成組合模型的預(yù)測(cè),一共測(cè)試10 次并取平均值。設(shè)l=3、5、7,各組合模型預(yù)測(cè)效果如表2所示,就各組合模型之間相比較(即l取不同值)而言,當(dāng)l=7 時(shí),組合模型得到了最高的準(zhǔn)確率、最低的誤報(bào)率;當(dāng)l=3 時(shí),組合模型的準(zhǔn)確率、漏報(bào)率以及誤報(bào)率都介于其他兩種組合模型之間;當(dāng)l=5 時(shí),組合模型的漏報(bào)率和誤報(bào)率都高于其他兩種組合模型,另外準(zhǔn)確率卻最低。
表2 組合模型預(yù)測(cè)效果 %
就組合模型與單一模型比較而言,當(dāng)l=3 時(shí),組合模型的預(yù)測(cè)準(zhǔn)確率高于所有的單一模型,其誤報(bào)率也低于其中4 個(gè)單一模型M3、M4、M5 和M7,但其漏報(bào)率卻有所上升,另外,雖然其誤報(bào)率略高于其他3 個(gè)單一模型M1、M2 和M6,但漏報(bào)率相比也得到了很大的改善;當(dāng)l=5 時(shí),組合模型的預(yù)測(cè)準(zhǔn)確率高于其中4個(gè)單一模型,漏報(bào)率低于其中3個(gè)單一模型,誤報(bào)率也低于其中4個(gè)單一模型;當(dāng)l=7 時(shí),組合模型的預(yù)測(cè)準(zhǔn)確率也高于所有的單一模型,誤報(bào)率低于其中4 個(gè)單一模型,漏報(bào)率低于其中3個(gè)單一模型??傮w來看,組合模型預(yù)測(cè)較單一模型來說,在其中某個(gè)指標(biāo)上得到了一定的改進(jìn),特別是將7個(gè)子模型組合后,效果最為明顯。
為了進(jìn)一步驗(yàn)證模型的泛化能力,實(shí)驗(yàn)選取15家上市公司為驗(yàn)證對(duì)象,時(shí)間區(qū)間為2016第二季度初到第三季度末,共發(fā)生58次停牌事件。例如,渝三峽A(000565)和鵬起科技(600614)在此時(shí)段內(nèi)發(fā)生停牌6次,分別為2016年4月、2016年5月、2016年6月、2016年7月、2016年8月和2016年9月;覽海投資(600896)發(fā)生停牌4次,分別為2016年5月、2016年6月、2016年7月和2016年8月。
通過選取各公司在停牌時(shí)間點(diǎn)前一個(gè)月的數(shù)據(jù)為輸入,對(duì)該停牌情況進(jìn)行預(yù)測(cè),如表3所示,各子模型都取得了比較理想的預(yù)測(cè)效果,其中子模型M7取得了最低的漏報(bào)率和最高的預(yù)測(cè)準(zhǔn)確率;在組合模型中,當(dāng)l=7 時(shí)得到了最高的準(zhǔn)確率,雖然l=3 和5時(shí)組合模型預(yù)測(cè)準(zhǔn)確率有所下降,但與子模型相比還是取得了較好的效果。
表3 模型預(yù)測(cè)效果 %
仍以上述三個(gè)公司為例,對(duì)渝三峽A來說,模型M7將6次停牌全部預(yù)測(cè)準(zhǔn)確,模型M2、M3 預(yù)測(cè)準(zhǔn)確率為50%,模型M1、M4、M5和M6將其中4次停牌預(yù)測(cè)準(zhǔn)確,組合模型中,l=3 和5 時(shí)平均預(yù)測(cè)準(zhǔn)確率分別為63.33%、65%,l=7 時(shí)預(yù)測(cè)準(zhǔn)確率為66.67;對(duì)鵬起科技而言,模型M4和M7將6次停牌全部預(yù)測(cè)準(zhǔn)確,模型M3預(yù)測(cè)準(zhǔn)確4 次,其他4 個(gè)模型預(yù)測(cè)準(zhǔn)確率為83.33%,組合模型中,l=3 時(shí)平均預(yù)測(cè)準(zhǔn)確率為85%,l=5 時(shí)平均預(yù)測(cè)準(zhǔn)確率為83.33%,l=7 時(shí)預(yù)測(cè)準(zhǔn)確5 次;對(duì)覽海投資來說,模型M2 和M7 其中2 次停牌預(yù)測(cè)準(zhǔn)確,其他5個(gè)模型預(yù)測(cè)準(zhǔn)確率為75%,組合模型中,l=3 和5 時(shí)平均預(yù)測(cè)準(zhǔn)確率分別為70%、72.5%,l=7 時(shí)準(zhǔn)確率為75%。
鑒于目前股票停牌預(yù)測(cè)研究的不足,本文基于機(jī)器學(xué)習(xí)原理提出了股票停牌預(yù)測(cè)的組合模型,將財(cái)務(wù)和股票的高維特征通過計(jì)算其重要性篩選和組合形成多個(gè)低維特征子集,分別訓(xùn)練子模型而形成模型池,在此基礎(chǔ)上隨機(jī)抽取多個(gè)模型,通過投票法進(jìn)行股票停牌預(yù)測(cè),取得了比較好的效果。本文是在整體上市公司數(shù)據(jù)的基礎(chǔ)上研究停牌的分類模型,針對(duì)性不強(qiáng),因此研究具體行業(yè)的停牌模式是未來研究方向。另外僅僅研究財(cái)務(wù)和股票兩方面的數(shù)據(jù)是不足的,未來研究考慮將并購行為、股票公告等數(shù)據(jù)引入分類模型。