張?zhí)锶A,羅康洋
1.上海工程技術大學 數(shù)理與統(tǒng)計學院,上海 201620 2.華東師范大學 計算機科學與技術學院,上海 200062
高送轉指的是上市公司送紅股或以資本公積金、盈余公積金的形式轉增股份,合計達每10股送轉5股以上。施行高送轉可以加強公司增資擴股的力度,但實質是公司內股東權益結構的調整,不會對公司的盈利能力產(chǎn)生實質性的影響。然而,普通投資者通常認為高送轉是重大利好消息。高送轉概念股在除權時價格降低,填權時股票價格又上漲的變化過程深受投資者的追捧,逐漸發(fā)展為A股市場中的投資熱點。有研究表明,市場處于上漲行情時投資者更加偏愛發(fā)放股票股利的公司[1]。但隨著高送轉概念的炒作愈演愈烈,市場中開始萌發(fā)一些亂象。比如部分公司的大股東利用高送轉概念在股價上漲時高位減持股份以實現(xiàn)個人利益;甚至有公司在虧損的情況下依然推出高送轉方案,這些行為會對投資者的合法權益造成嚴重損害[2]。毋庸置疑,盲目追逐高送轉概念這種非理性的投資行為會使股市中的非理性投機泡沫水平不斷升高,與此同時泡沫破裂的風險也不斷增大[3]。滬深交易所為了對上市公司的送轉股行為進行規(guī)范,維護證券市場的正常交易秩序和廣大投資者的合法權益,于2018年11月發(fā)布《上市公司高送轉信息披露指引》,主要指引公司合理調整回報投資者的方式,培育健康的投資理念,憑借優(yōu)秀的業(yè)績來吸引投資者的關注。本文根據(jù)上市公司的財務數(shù)據(jù)進行高送轉預測實證研究,不僅能為A股市場的監(jiān)管提供清晰和明確的信號,而且可為廣大投資者提供較為科學的投資決策指導。
從國內相關研究來看,已有的成果主要關注上市公司高送轉的內部動因、高送轉股票的財富效應以及除權除息日前后上市公司的股價波動情況。文獻[4]研究認為A股市場的高送轉概念股是上市公司為了迎合投資者的非理性投資需求而主動施行的,且存在上市公司借助高送轉來實現(xiàn)管理層及大股東利益最大化的現(xiàn)象。文獻[5]對上市公司內部管理者股票的減持是否會影響公司高送轉進行了實證研究,認為內部人的股票減持是上市公司實施高送轉的主要動機。文獻[6-9]的研究表明,股權質押是上市公司施行高送轉的重要原因,當上市公司內存在股權質押,特別是第一股東質押或第一股東和其他股東共同質押時,高送轉的概率更高。已有文獻主要研究了我國上市公司進行“高送轉”的深層動因,揭示了“高送轉”背后的動機,為監(jiān)管機構治理“高送轉”亂象提供經(jīng)驗證據(jù)支持。但很少有文獻討論上市公司財務指標與高送轉的關系以及利用數(shù)據(jù)挖掘技術研究上市公司是否真的有潛力進行高送轉。基于此,本文旨在利用上市公司的財務數(shù)據(jù)以及歷年高送轉的真實情況進行高送轉預測實證研究,不僅能豐富上市公司高送轉預測的研究成果,對于保護投資者的權益也具有重要的實踐意義。
從統(tǒng)計學角度來看,高送轉的預測研究可以視為二分類問題。截至2020年8月,我國上證和深證A股股票分別為1 578支和2 131支,合計3 709支。經(jīng)初步統(tǒng)計2010—2019年A股市場平均每年約270支股票實施高送轉。由此可見,非高送轉股票的數(shù)量遠多于高送轉股票的數(shù)量,即高送轉數(shù)據(jù)具有明顯的不平衡特性。此外,影響上市公司高送轉的財務指標眾多且存在著共線性等特征。針對數(shù)據(jù)中存在的上述特性,文獻[10-11]的研究表明,在采樣方法處理后的數(shù)據(jù)集上對財務指標進行特征選擇可以有效提升預測模型的整體性能。
綜上,本文旨在借助采樣、特征選擇以及集成學習構建上市公司高送轉預測模型。首先,將Borderline-SMOTE過采樣、自適應合成過采樣(adaptive synthetic sampling,ADASYN)和SMOTE&TomekLink組合采樣作為比較方法,分別對原始數(shù)據(jù)集進行平衡化處理;其次,將Relief特征選擇與最大相關最小冗余(max-relevance and min-redundancy,mRMR)特征選擇算法作為比較算法,分別對數(shù)據(jù)集做降維處理,以篩除一些冗余指標;最后,建立隨機森林(random forest,RF)、極端梯度提升(extreme gradient boosting,XGBoost)和自適應增強(adaptive boosting,Adaboost)高送轉預測模型對上市公司的高送轉情況進行實證研究。
采樣方法可以緩解數(shù)據(jù)類間不平衡的問題,主要分為欠采樣和過采樣兩種[12]。欠采樣方法的主要思想是減少多數(shù)類樣本的數(shù)量直到與少數(shù)類樣本成一定比例,從而實現(xiàn)數(shù)據(jù)的平衡。欠采樣能夠有效提高分類器的性能,但也存在刪減多數(shù)類樣本的能力有限以及損失部分有效信息等不足之處。過采樣方法的主要思想是通過某種人工合成的方法生成一部分少數(shù)類樣本,使少數(shù)類樣本的數(shù)量與多數(shù)類樣本的數(shù)量相近,從而達到類別平衡的目的,過采樣保留了原始數(shù)據(jù)集的全部信息。下面簡單介紹本文所用采樣方法的主要思想。
1.1.1 BorderlineSMOTE采樣
BorderlineSMOTE[13]是基于經(jīng)典的合成少數(shù)類過采樣方法(synthetic minority over-sampling technique,SMOTE)[14]改進的一種算法。該算法首先利用K近鄰算法將少數(shù)類樣本劃分為“Safe”“Danger”和“Noise”三種,然后按照SMOTE算法的線性插值原理,對分布在少數(shù)類樣本邊界附近(“Danger”類)的樣本點過采樣,從而改善樣本的類間分布。
1.1.2 ADASYN采樣
ADASYN[15]是SMOTE的另一種改進算法。該算法的核心思想是利用密度分布自適應確定需要生成的少數(shù)類樣本的數(shù)量,根據(jù)少數(shù)類樣本的學習難度分別對其進行加權分配。ADASYN可有效縮小由于類不平衡問題而帶來的誤差,并且分類決策邊界會自適應地轉移到更難學習的樣本上,迫使后續(xù)的分類算法更加關注學習困難的樣本。
1.1.3 SMOTE&TomekLink組合采樣
SMOTE&TomekLink是將SMOTE與TomekLink結合在一起的組合采樣技術[16]。其中TomekLink是一種欠采樣方法[17],主要思路是:若兩個樣本點可以形成TomekLink連接,可能其中一個樣本點遠背離正常分布,也可能兩個樣本點都落在邊界附近,刪除Tomek Link可以把類間重疊的樣本清洗掉,從而使互為最近鄰的樣本成為一類。SMOTE&TomekLink組合采樣的主要思想是首先通過SMOTE算法對少數(shù)類樣本進行擴充后,然后利用TomekLink技術剔除噪聲點和邊界點,對數(shù)據(jù)進行平衡化處理。
特征選擇算法通過某種評價標準和搜索策略濾除數(shù)據(jù)集中的冗余特征,以達到優(yōu)化預測模型的目的。特征選擇算法一般包括封裝式(wrappers)與過濾式(filters)兩類[18]。與封裝式算法相比,過濾式算法的復雜度較低,在大規(guī)模數(shù)據(jù)集上也能表現(xiàn)良好,具有較強的通用性。因此,本文將利用Relief和mRMR兩種過濾式算法進行特征選擇。以下對其主要思想進行簡單介紹。
1.2.1 Relief算法
Relief是一種過濾式特征權重算法[19],主要思想是根據(jù)特征和類別之間的相關關系賦予該特征相應的權重,特征辨別近鄰的同類和不同類樣本間距離的能力決定權重的大小。
Relief算法從訓練數(shù)據(jù)中隨機取出一個樣本Ri,然后在R i的不同類樣本中尋找最近鄰的樣本Mi,記為NearMiss;在Ri的同類樣本中尋找最近鄰的樣本H i,記為NearHit。按照以下標準更新特征的權重值:
其中,D(A,B)表示在某個特征上樣本A與樣本B的歐式距離。重復上述過程m次以計算各特征的平均權重。
1.2.2 mRMR算法
mRMR[20]是一種同時考慮特征自身的相關性以及特征與目標變量之間相關性的過濾式特征選擇算法。在選擇特征的過程中,與目標變量相關性高的特征組合不一定能達到增強分類器性能的效果,因為特征之間可能存在多重共線性。mRMR算法的目的是選出與類別最大相關且特征間最小相關的“最純凈”的特征子集。
假設特征集S中的第i個特征用f i表示,S與類別c之間的兩種最大相關最小冗余的度量方式如下:
其中,R(f i,c)用來度量特征f i與類別c之間的相關性;D(f i,f j)用來度量特征f i與f j間的相關性。已有研究表明后者比前者更為有效,因此本文選用式(2)進行實證研究。
集成學習是指將一個問題分解到多種不同的方法中,連結多個學習器來完成學習任務。集成學習包括序列化方法和并行化方法兩種。前者指學習器之間存在較強的依賴關系,需要串行生成,比如Boosting[21];后者指學習器之間沒有強依賴關系,可以同時生成,比如RF[22]。下文對RF算法、XGBoost和Boosting做簡要介紹。
1.3.1 RF
RF算法是一種基于決策樹的組合分類器[23],其主要思想是:第一步從訓練數(shù)據(jù)集中運用自主抽樣法(bootstrapping)提取多個樣本以創(chuàng)建N個訓練子集;第二步對提取出的每個樣本建模生成N棵決策樹,進而形成“森林”;最后將這些決策樹進行組合并采用投票的方式獲得最終分類或預測的結果。RF算法中隨機性的引入克服了單一決策模型容易過擬合的問題。
1.3.2 XGBoost
XGBoost是Boosting族中的一種提升樹模型[24],具有訓練速度快、能有效處理大規(guī)模數(shù)據(jù)等優(yōu)點。XGBoost的主要思想是集成多種弱分類器,從而形成強分類器,不斷擬合上一棵樹的殘差來產(chǎn)生新樹,每加入一棵決策樹模型整體的性能都必須有所提升,直到性能不再提升或下降時結束算法。XGBoost的決策函數(shù)為:
其中,f k(xi)是第k棵樹在節(jié)點x i的預測值。XGBoost在預測某個樣本的分數(shù)時,會根據(jù)樣本的不同特征在每棵樹中映射到相應的葉子節(jié)點,該樣本的預測值即為每棵樹對應葉節(jié)點的得分之和。
1.3.3 Adaboost
Adaboost是一種經(jīng)典的提升算法[25],運用單層決策作為基分類器。該算法采用迭代的思想,每次迭代僅訓練一個基分類器,在訓練的過程中把預測結果中分類錯誤的樣本權重提高,分類正確的樣本權重降低,促使后續(xù)的訓練過程中基分類器更加關注被錯分的樣本,訓練完成的基分類器會加入下一輪的迭代,直到迭代次數(shù)達到預先設置的最大值或錯誤率充分小時才能確定最終的強分類器。
本文數(shù)據(jù)來源于第八屆“泰迪杯”全國數(shù)據(jù)挖掘挑戰(zhàn)賽A題賽方提供的數(shù)據(jù)[26]。其中,基礎數(shù)據(jù)包含3 466家上市公司的上市年限、所屬行業(yè)及所屬概念板塊;年數(shù)據(jù)包含上市公司連續(xù)7年的財務指標數(shù)據(jù)及是否進行高送轉等信息。本文選用制造業(yè)上市公司的財務數(shù)據(jù)對上市公司高送轉情況進行實證研究,樣本總數(shù)為12 204個,每個樣本有363個財務指標。
對獲得的原始數(shù)據(jù)集進行如下預處理:首先,刪除被特別處理(special treatment,ST)的股票數(shù)據(jù)以及方差過小無法提供有用信息的指標。其次,對缺失值進行處理,且處理規(guī)則為,缺失程度在50%及以上的樣本指標予以剔除;缺失程度在50%以下的樣本指標,采用KNN多重填補法進行填補。經(jīng)過數(shù)據(jù)處理后,用于建模的數(shù)據(jù)共有12 204個樣本,每個樣本有234個特征,其中非高送轉樣本(多數(shù)類樣本)有10 051個,高送轉樣本(少數(shù)類樣本)有2 153個,數(shù)據(jù)集呈現(xiàn)顯著的類不平衡特點。最后,運用離差標準化對數(shù)據(jù)進行處理,以消除指標間量綱不同的影響。為驗證本文所構建模型的有效性,將第1年至第6年的數(shù)據(jù)作為訓練集,其中多數(shù)類和少數(shù)類樣本分別為8 268個和1 778個;將第7年的數(shù)據(jù)作為測試樣本集,其中多數(shù)類和少數(shù)類樣本分別為1 783個和375個。
本文所研究的上市公司高送轉預測模型本質是對高維類不平衡數(shù)據(jù)集構建分類器。數(shù)據(jù)集的類不平衡特性,使得傳統(tǒng)的用于衡量分類器性能的評價指標如精度等不再適用。因此,利用混淆矩陣(如表1所示)構造正類樣本召回率rr p、負類樣本召回率rr n、G-means和F-value,并將其作為評估預測模型性能的指標。設少數(shù)類樣本為正類樣本,多數(shù)類樣本為負類樣本。
表1 混淆矩陣Table 1 Confusion matrix
TP表示正類樣本被預測正確的數(shù)量,F(xiàn)N表示正類樣本被預測錯誤的數(shù)量,F(xiàn)P表示負類樣本被預測錯誤的數(shù)量,TN表示負類樣本被預測正確的數(shù)量。根據(jù)混淆矩陣,rr p、rr n、G-means(G)和F-value(F)的定義如下:
從上市公司高送轉預測的角度來說,rr p指高送轉樣本被正確預測的概率,該值越大表示模型識別高送轉樣本的能力越強;rr n指非高送轉樣本被正確預測的概率,該值越大表示模型識別非高送轉樣本的能力越強。G值同時考慮了模型對于正類以及負類樣本的預測性能,該值越大表明模型的綜合預測能力越強。F值則考慮了模型對于正類樣本的分類準確性,該值越大表明模型對于正類樣本的識別能力越強。
參數(shù)設置是否合適直接影響到預測模型對上市公司高送轉預測的準確性。本文的參數(shù)設置分為三部分:采樣、特征選擇以及集成算法。根據(jù)經(jīng)驗以及反復調參的結果,三種采樣方法中,將用于合成新樣本的最近鄰數(shù)均設置為5;特征選擇算法中,分別將Relief特征權重排序在前70和mRMR值大于10的財務指標作為比較特征集,用于構建預測模型。集成算法參數(shù)的搜索范圍如表2所示。
表2 集成算法參數(shù)設置Table 2 Parameter settings of integration algorithm
基于以上參數(shù)設置,本文共研究18個實驗模型,模型的組合形式為“采樣+特征選擇+分類”,以及18個對照模型,模型的組合形式分別為“特征選擇+分類”“采樣+分類”“分類”。采樣方法包括ADASYN、BorderlineSMOTE和SMOTE&TomekLink組合采樣;特征選擇算法包括Relief和mRMR;分類方法包括RF、XGBoost和Adaboost。
為了搜尋集成算法的最佳參數(shù)以及充分驗證模型的有效性,根據(jù)表2設置的候選參數(shù)對不同模型進行3折交叉驗證的網(wǎng)格搜索。由于采樣的過程中存在一定的隨機性,本文所有實證研究結果均為循環(huán)10次的平均值。
2.5.1 預測效果分析
各模型的預測效果如表3所示。從是否采樣的角度看,實驗組的rr p值和G值最低分別為80.69%和85.63%,最高分別為84.96%和88.46%,平均分別為82.32%和87.47%;對照組1中的rr p值和G值最低分別為52.53%和71.74%,最高分別為64.40%和79.45%,平均分別為60.99%和77.24%。相較于對照組1,實驗模型1~18的rr p值總體提高了34.97%,G值總體提高了13.24%。因此,采樣方法的引入在較少犧牲非高送轉樣本準確率的前提下,高送轉樣本的準確率得到較大提升,使得預測模型的整體性能顯著提高。此外,實驗組的rr n值最低、最高和平均分別為89.71%、95.12%和93.03%;對照組1中的rr n值最低、最高和平均分別為97.98%、98.43%和97.95%。對照組1中的rrn值相比實驗組的rr n值總體高了5.29%,這說明直接對不平衡數(shù)據(jù)建模預測結果會大幅偏向非高送轉樣本,導致高送轉樣本的準確率犧牲較大,這與本文的研究目的相悖。
表3 模型預測效果Table 3 Prediction effect of model %
從是否進行特征選擇的角度看,對照組2的rr p值和G值最低分別為77.63%和84.58%,最高分別80.11%和86.12%,平均分別為78.09%和85.37%。相比之下,實驗組的rr p值和G值整體分別提高了5.42%和2.46%??梢钥闯觯卣鬟x擇在不影響模型整體性能的前提下,提升了高送轉樣本預測的準確率。
比較對照組3與其他模型可發(fā)現(xiàn),采樣方法和特征選擇算法的引入均能有效提高模型的整體分類準確率。但就提升效果來看,采樣方法對模型性能的提升效果更加顯著,即數(shù)據(jù)類間不平衡對預測效果的影響更大。
從分類算法的角度看,模型1~3的rr p值和G值平均分別為82.02%和87.30%;模型4~6的rr p值和G值平均分別為81.89%和86.79%;模型7~9的rr p值和G值平均分別為80.88%和86.86%??梢灾?,采用Relief特征選擇算法時,RF分類算法的表現(xiàn)最好。模型10~12的rr p值和G值平均分別為82.68%和87.54%;模型13~15的rr p值和G值平均分別為84.67%和88.24%;模型16~18的rr p值和G值平均分別為81.80%和88.10%。易知,采用mRMR特征選擇算法時,XGBoost分類算法的效果最好。
在所研究的18個實驗模型中,模型13(ADASYN+mRMR+XGBoost)取得了最優(yōu)的rr p值和G值,分別為84.96%和88.46%;模型16(ADASYN+mRMR+Adaboost)取得了最優(yōu)的rr n值和F值,分別為95.12%和79.59%。模型13的rr p值比模型16的rr p值高3.55%,但rr n值卻比模型16的rr n值低2.98%。由于模型16的rr p值提升的同時也損失了一部分高送轉樣本的識別準確率,致使模型16的G值比模型13的G值略低,并且在實際應用中,人們更加關注模型對于高送轉樣本的識別能力,即rr p值的提升對于投資者的意義更大。因此,如果不同評價標準所得到的最優(yōu)模型結果不一致,建議優(yōu)先利用rr p值選擇最優(yōu)策略。綜合考慮本文所研究模型的預測效果,模型13(ADASYN+mRMR+XGBoost)對上市公司實施高送轉的預測效果最優(yōu)。
2.5.2 特征選擇結果分析
基于上述的預測效果,下面進一步分析模型的特征選擇效果。所有模型選出的前10個主要變量如表4所示。通過比較可知,在ADASYN+mRMR、BorderlineSMOTE+mRMR和SMOTE&TomekLink+mRMR這3種模型中每股凈資產(chǎn)的重要性均在第一位,每股凈資產(chǎn)即每股股票能夠代表的公司凈資產(chǎn)值的大小,該指標的值越大表示公司的盈利能力和抗風險能力越強,財富實力也越雄厚。排在第2位的是歸屬于母公司的股東權益/總資產(chǎn),該指標反映公司資產(chǎn)中由母公司投入的比重,指標值減小說明公司負債增加,相應地抵抗外部沖擊的能力也會減弱。排在第3位的是歸屬于母公司的股東權益/投入資本,股東權益由股本、資本公積和未分配利潤構成,該指標值越大表明公司的成長能力越強。排在第4、5位的是每股收益和每股資本公積。通常高累積和高業(yè)績是公司實施高送轉政策的基礎,高累積指每股未分配利潤和每股資本公積較豐厚;高業(yè)績指上市公司具有較強的盈利能力,而每股收益指標恰能代表公司的盈利能力[27]。排在第6位的是資產(chǎn)負債率,這是評估公司負債程度的重要指標。排在第7位的是流動資產(chǎn)/總資產(chǎn),是衡量公司營運能力的重要指標,一般來說流動資產(chǎn)占總資產(chǎn)的比重越大表明資產(chǎn)的流動性越高;如果流動資產(chǎn)比重下降,說明公司著重于長期投資,變現(xiàn)能力相應降低。排在第8位的是每股公積金,公積金是未來公司進行擴張的物質基礎,每股公積金越高表明公司股本擴張以及轉增股本的能力越強。排在第9位的是營業(yè)成本/營業(yè)收入,是反映公司盈利能力的重要指標。營業(yè)收入由成本和利潤構成,營業(yè)成本在營業(yè)收入占較大比重,則公司的盈利能力較弱。排在第10位的是貨幣資金/總資產(chǎn),貨幣資金是指以貨幣形式存在的資產(chǎn),是公司經(jīng)營運動的起點和終點,如果貨幣資金占總資產(chǎn)的比重高則表明公司有比較強的償債能力和較小的經(jīng)營風險。
表4 特征重要性排序Table 4 Ranking of feature importance
綜合上述預測結果和特征選擇結果分析,ADASYN+mRMR模型選出的指標符合選擇優(yōu)質股的預期以及上市公司高送轉的特征,能反映公司真實的財務狀況。這進一步驗證了ADASYN+mRMR+XGBoost模型在高送轉預測中的適用性。
本文針對A股上市公司的財務數(shù)據(jù),基于采樣、特征選擇以及集成學習,采用18個組合模型對上市公司高送轉的情況進行實證研究。結果表明:(1)在構建預測模型的過程中,首先對數(shù)據(jù)做采樣和特征選擇預處理,在此基礎上構建模型可以有效提高模型整體的預測性能,且采樣處理對模型性能的提升效果更加顯著。(2)與Relief特征選擇算法相比,運用mRMR特征選擇算法得到的特征子集中特征之間的相關性更小,更加符合選擇優(yōu)質股的條件。(3)相較于RF和Adaboost算法,XGBoost算法對于上市公司高送轉的預測準確性更優(yōu)。從預測效果來看,ADASYN+mRMR+XGBoost組合模型取得了最優(yōu)的預測結果,rr p、rr n、G值以及F值分別為84.96%、92.14%、88.46%和76.54%。
本文的研究成果不僅能幫助投資者利用上市公司的財務數(shù)據(jù)挖掘真正有潛力的股票,而且可為金融機構以及個人投資者提供操作性較強的對上市公司高送轉進行有效預測的應用工具。但仍需要指出:(1)集成學習有很多種,每種方法都有其優(yōu)點與缺點,本研究僅系統(tǒng)地比較分析了三種具有代表性的算法。如何挖掘更有效的集成學習并構建組合預測模型是一個值得繼續(xù)深入研究的課題。(2)大數(shù)據(jù)背景下,如何有效利用上市公司的財務數(shù)據(jù)和新聞媒介等文本數(shù)據(jù)來對上市公司高送轉進行預測是后續(xù)研究的重點。