黃秋麗,黃柱興,楊 燕
(南寧師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣西 南寧 530100)
在預(yù)測(cè)股票走勢(shì)的眾多方法中,機(jī)器學(xué)習(xí)算法得到越來(lái)越多的應(yīng)用.該算法選擇合適的選股指標(biāo)體系[1],使用數(shù)量化的統(tǒng)計(jì)分析工具來(lái)預(yù)測(cè)股票的優(yōu)劣,其本質(zhì)是數(shù)據(jù)挖掘領(lǐng)域[2]的二分類(lèi)預(yù)測(cè)問(wèn)題.李斌[3]等用技術(shù)指標(biāo)作為輸入變量,并比較不同算法模型的預(yù)測(cè)情況,得出SVM模型的策略最優(yōu),收益能力最高,夏普比率達(dá)到1.38以上,最大回測(cè)低于20%.王淑燕[4]等采用相關(guān)性分析方法分析指標(biāo)的相關(guān)性,得出八因子的選股模型,隨后利用隨機(jī)森林算法模型驗(yàn)證該選股模型在中國(guó)的股票市場(chǎng)上是有效的.Yu[5]等在選擇屬性中應(yīng)用遺傳算法,并在預(yù)測(cè)股票市場(chǎng)漲跌趨勢(shì)時(shí),使用支持向量機(jī)模型,這種方法不但可以降低支持向量機(jī)模型的復(fù)雜性,還能提高該模型的效率,其結(jié)果與傳統(tǒng)的時(shí)間序列及神經(jīng)網(wǎng)絡(luò)模型相比更優(yōu).
綜合上述情況,我們認(rèn)為,采用單模型預(yù)測(cè)算法對(duì)股票市場(chǎng)進(jìn)行預(yù)測(cè)的效果有優(yōu)有劣,不夠穩(wěn)定,采用集成學(xué)習(xí)方法則可吸取和融合各模型的長(zhǎng)處,增加穩(wěn)定性和提升準(zhǔn)確率[6].集成學(xué)習(xí)思想由Dasarathy和Sheela在1979 年提出[7].一種基于神經(jīng)網(wǎng)絡(luò)的集成學(xué)習(xí)模型則是Hansen 和Salamon于1990 年首次展示[8],該模型的泛化能力較強(qiáng),但方差較低;同年,Schapire[9]通過(guò)Boosting方法將弱分類(lèi)器組合成一個(gè)強(qiáng)分類(lèi)器.這說(shuō)明在機(jī)器學(xué)習(xí)研究領(lǐng)域中集成學(xué)習(xí)已成為一種重要的方法.集成學(xué)習(xí)方法中常用的是堆疊法(Stacking),此方法的預(yù)測(cè)效果比單模型更好[10,11],但目前研究較少,多為單一算法.
因此,以股票預(yù)測(cè)研究為背景,討論集成學(xué)習(xí)模型在股票預(yù)測(cè)研究中的學(xué)習(xí)能力,并與其他分類(lèi)模型進(jìn)行實(shí)證比對(duì),尋找優(yōu)化的股票預(yù)測(cè)模型,是本文的研究?jī)?nèi)容.我們以滬深300為投資標(biāo)的池,選取波動(dòng)指標(biāo)、收益指標(biāo)、經(jīng)典技術(shù)指標(biāo)和交易指標(biāo)等4大類(lèi)指標(biāo)共24個(gè)二級(jí)指標(biāo)作為評(píng)價(jià)因子,利用遞歸特征消除法結(jié)合Stacking 集成學(xué)習(xí)以及傳統(tǒng)的隨機(jī)森林、支持向量機(jī)和邏輯回歸等4個(gè)機(jī)器學(xué)習(xí)算法分別構(gòu)建分類(lèi)模型,預(yù)測(cè)投資標(biāo)的池中周頻收益率排名前20%的股票標(biāo)的,為投資者提供量化投資策略.
遞歸特征消除法可以說(shuō)是一種“貪心”的算法,目的在于搜尋最優(yōu)特征子集.先是反復(fù)構(gòu)建模型,最后選出分類(lèi)中的最佳特征子集,是遞歸特征消除法的主要思想內(nèi)容[12].現(xiàn)將遞歸特征消除法的步驟總結(jié)如下[13,14]:
步驟1:建立訓(xùn)練分類(lèi)器.
步驟2:計(jì)算特征的重要性測(cè)度.
步驟3:消除重要性測(cè)度低的不相關(guān)特征.
步驟4:將剩余的特征重復(fù)步驟1到步驟3,直到選出最佳特征子集.
邏輯回歸是機(jī)器學(xué)習(xí)中常用的算法之一,是一種簡(jiǎn)單高效、應(yīng)用廣泛的分類(lèi)算法,主要用于二分類(lèi)問(wèn)題.它建立在線性回歸的基礎(chǔ)上,其公式如下:
z=wTx.
引入“Sigmoid函數(shù)”將結(jié)果轉(zhuǎn)換為0或1的二分類(lèi)形式,其函數(shù)的具體形式為
其中w已知.用hw(x)來(lái)計(jì)算特征變量x,若得到的結(jié)果大于 0.5,則預(yù)測(cè)其為分類(lèi) 1,否則為分類(lèi) 0.
支持向量機(jī)(SVM)是一種廣義的線性分類(lèi)器,它的基本思想是基于樣本數(shù)據(jù)找到一個(gè)最優(yōu)分界面,以將不同類(lèi)別的樣本進(jìn)行區(qū)分.如果樣本數(shù)據(jù)是線性可分的,就可以直接尋找最優(yōu)分界面;若樣本數(shù)據(jù)不是線性可分的,那么就需要使用核函數(shù)將低維樣本空間映射到高維樣本空間,然后再在高維樣本空間中尋找最優(yōu)的分界面.最優(yōu)分類(lèi)函數(shù)為
在機(jī)器學(xué)習(xí)中,隨機(jī)森林(RF)是一個(gè)包含多棵決策樹(shù)的分類(lèi)器,其中每棵決策樹(shù)都是一個(gè)分類(lèi)器.它首先在原始的樣本里用bootstrap方法抽出多個(gè)樣本;然后對(duì)每個(gè)樣本分別進(jìn)行建模訓(xùn)練,得到多棵決策樹(shù),組成隨機(jī)森林;最后統(tǒng)計(jì)所有決策樹(shù)的結(jié)果,用投票方式選出票數(shù)最多的分類(lèi)結(jié)果,以之作為算法的最終結(jié)果.
Stacking 集成學(xué)習(xí)是一種訓(xùn)練一個(gè)可用于組合所有個(gè)體分類(lèi)器的模型.Stacking 又稱(chēng)為Stacked Generalization,其具體做法是先訓(xùn)練多個(gè)不同的個(gè)體分類(lèi)器,之后把這些個(gè)體分類(lèi)器的輸出數(shù)據(jù)作為輸入數(shù)據(jù)來(lái)訓(xùn)練模型,最終可以得到預(yù)測(cè)結(jié)果.Sigletos[15]等對(duì)投票法和Stacking 法進(jìn)行對(duì)比,結(jié)果證明Stacking 的效果優(yōu)于投票法,在很多領(lǐng)域中皆如此.在分析 Stacking 算法時(shí),因?yàn)榛A(chǔ)學(xué)習(xí)器、元學(xué)習(xí)器和參數(shù)的選擇對(duì)學(xué)習(xí)效果有直接決定作用,所以,Ledezma[16]等通過(guò)遺傳算法來(lái)選擇該算法中最好的配置.在我們構(gòu)建的Stacking 集成學(xué)習(xí)模型中,第一層模型是采用支持向量機(jī)和隨機(jī)森林的初級(jí)學(xué)習(xí)器,第二層模型是采用邏輯回歸的次級(jí)學(xué)習(xí)器,如圖 1 所示.
圖1 Stacking集成學(xué)習(xí)模型架構(gòu)
在分析國(guó)內(nèi)外選股指標(biāo)體系的基礎(chǔ)上,為了能充分驗(yàn)證遞歸特征消除法和Stacking集成學(xué)習(xí)對(duì)我國(guó)股市預(yù)測(cè)的有效性,本文選取了4大類(lèi)共24項(xiàng)數(shù)據(jù)指標(biāo)[17],以之作為模型因子,其經(jīng)典技術(shù)指標(biāo)通過(guò)talib函數(shù)庫(kù)計(jì)算得到,數(shù)據(jù)來(lái)源于baostock,數(shù)據(jù)按周頻獲取.有關(guān)因子的說(shuō)明見(jiàn)表1.
表1 初級(jí)特征因子介紹
為選取與股票收益率關(guān)系密切的關(guān)鍵指標(biāo)作為模型的輸入,我們以隨機(jī)森林為迭代分類(lèi)器,利用RFE對(duì)特征進(jìn)行選擇.具體流程如圖2所示.
圖2 RFE-RF 特征選擇流程
利用隨機(jī)森林為迭代分類(lèi)器的遞歸特征消除法(RFE),從初始的24 個(gè)特征中,對(duì)最不重要的特征進(jìn)行修剪,在集合上遞歸進(jìn)行修剪時(shí)重復(fù)這個(gè)過(guò)程,將此過(guò)程進(jìn)行至最終達(dá)到所需特征的數(shù)量才停止,由交叉驗(yàn)證實(shí)驗(yàn)結(jié)果中所獲取的最佳特征數(shù)量為19,交叉驗(yàn)證選擇特征數(shù)量如圖3所示.
圖3 RFE最佳特征數(shù)量
最終選取最佳特征子集,具體如表2所示.
表2 特征子集
續(xù)表
為了分類(lèi)預(yù)測(cè)高收益的率股票標(biāo)的,我們從2017年4月23日到2021年2月21日按周頻獲取193周滬深300的相關(guān)因子數(shù)據(jù),將下周的因子收益率最高的前20%股票歸為1類(lèi),將收益率最低的前20%股票歸為0類(lèi),刪除其他樣本——也就是將樣本數(shù)據(jù)轉(zhuǎn)換為一個(gè)二分類(lèi)的數(shù)據(jù)集.
基于上述原理,我們通過(guò)baostock接口獲取數(shù)據(jù),并對(duì)獲取的股票數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理、特征篩選和標(biāo)簽提取、訓(xùn)練模型等.其中訓(xùn)練集是用隨機(jī)抽取75%的股票數(shù)據(jù)組成,測(cè)試集則是用隨機(jī)抽取25%的數(shù)據(jù)組成.構(gòu)建模型來(lái)預(yù)測(cè)股票收益率的總體流程圖如圖4所示.
圖4 建模過(guò)程流程圖
本文研究的問(wèn)題屬于二分類(lèi)問(wèn)題,周頻收益率排名前20%的股票標(biāo)簽為1,收益率排名后20%的股票標(biāo)簽為0.因此,我們采用分類(lèi)模型常用性能評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)模型的分類(lèi)性能,包括準(zhǔn)確率、精確率、召回率、F1值以及AUC值.針對(duì)滬深300的股票預(yù)測(cè)問(wèn)題,我們構(gòu)造了利用遞歸特征消除法結(jié)合Stacking 集成學(xué)習(xí)以及傳統(tǒng)的隨機(jī)森林、支持向量機(jī)和邏輯回歸等4個(gè)分類(lèi)學(xué)習(xí)模型.模型的參數(shù)均采用GridsearchCV-3來(lái)進(jìn)行尋參,其性能指標(biāo)結(jié)果分別如表3和表4所示.
表3 基于訓(xùn)練集的模型性能結(jié)果比對(duì)
表4 基于測(cè)試集的模型性能結(jié)果比對(duì)
由表中數(shù)據(jù)可見(jiàn),邏輯回歸、支持向量機(jī)和隨機(jī)森林這三個(gè)傳統(tǒng)單模型的效果都不如RFE_Stacking集成學(xué)習(xí)模型.在測(cè)試集中,RFE_Stacking集成學(xué)習(xí)模型的性能比邏輯回歸、支持向量機(jī)、隨機(jī)森林模型都高,具有更好的預(yù)測(cè)性能,其準(zhǔn)確率達(dá)到 60.21%,精確率為59.87%,召回率為62.65%,F(xiàn)1值為61.23%,AUC值為0.644 7.在訓(xùn)練集中,隨機(jī)森林的模型性能最好,其次是RFE_Stacking集成學(xué)習(xí)模型,但結(jié)合測(cè)試集結(jié)果可知,隨機(jī)森林容易過(guò)擬合,穩(wěn)定性較低.總的來(lái)說(shuō),RFE_Stacking集成學(xué)習(xí)模型具有更好的預(yù)測(cè)性能和穩(wěn)定性.
本文基于遞歸特征消除法和Stacking集成學(xué)習(xí)模型去預(yù)測(cè)滬深300成分股的收益率,同時(shí)與傳統(tǒng)的邏輯回歸、支持向量機(jī)、隨機(jī)森林模型進(jìn)行對(duì)比分析,得出以下結(jié)論:
(1)RFE_Stacking集成學(xué)習(xí)模型的準(zhǔn)確率達(dá)到60.21%,精確率為59.87%,召回率為62.65%,F(xiàn)1值為61.23%,AUC值為0.644 7均高于50%,這表明該模型的預(yù)測(cè)結(jié)果優(yōu)于隨機(jī)測(cè)試,并不遵循隨機(jī)漫步理論.
(2)RFE_Stacking集成學(xué)習(xí)模型與傳統(tǒng)的邏輯回歸、支持向量機(jī)、隨機(jī)森林模型進(jìn)行比較.在訓(xùn)練集中,隨機(jī)森林模型性能最好,其次為RFE_Stacking集成學(xué)習(xí)模型;在測(cè)試集中,RFE_Stacking集成學(xué)習(xí)模型性能最好,其次是支持向量機(jī)模型.由訓(xùn)練集和測(cè)試集的結(jié)果可知,RFE_Stacking集成學(xué)習(xí)模型性能好,穩(wěn)定性高;隨機(jī)森林和支持向量機(jī)模型容易過(guò)擬合,穩(wěn)定性差;邏輯回歸模型性能較差.
以上兩點(diǎn)說(shuō)明基于遞歸特征消除法和Stacking集成學(xué)習(xí)的模型能有效地預(yù)測(cè)股票的收益率,為廣大投資者提供可行的投資策略.