基于遞歸特征消除和Stacking集成學(xué)習(xí)的股票預(yù)測(cè)實(shí)證研究

2021-11-05 06:15黃秋麗黃柱興

南寧師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年3期

黃秋麗，黃柱興，楊燕

(南寧師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，廣西南寧 530100)

0 引言

在預(yù)測(cè)股票走勢(shì)的眾多方法中，機(jī)器學(xué)習(xí)算法得到越來(lái)越多的應(yīng)用.該算法選擇合適的選股指標(biāo)體系[1]，使用數(shù)量化的統(tǒng)計(jì)分析工具來(lái)預(yù)測(cè)股票的優(yōu)劣，其本質(zhì)是數(shù)據(jù)挖掘領(lǐng)域[2]的二分類(lèi)預(yù)測(cè)問(wèn)題.李斌[3]等用技術(shù)指標(biāo)作為輸入變量，并比較不同算法模型的預(yù)測(cè)情況，得出SVM模型的策略最優(yōu)，收益能力最高，夏普比率達(dá)到1.38以上，最大回測(cè)低于20%.王淑燕[4]等采用相關(guān)性分析方法分析指標(biāo)的相關(guān)性，得出八因子的選股模型，隨后利用隨機(jī)森林算法模型驗(yàn)證該選股模型在中國(guó)的股票市場(chǎng)上是有效的.Yu[5]等在選擇屬性中應(yīng)用遺傳算法，并在預(yù)測(cè)股票市場(chǎng)漲跌趨勢(shì)時(shí)，使用支持向量機(jī)模型，這種方法不但可以降低支持向量機(jī)模型的復(fù)雜性，還能提高該模型的效率，其結(jié)果與傳統(tǒng)的時(shí)間序列及神經(jīng)網(wǎng)絡(luò)模型相比更優(yōu).

綜合上述情況，我們認(rèn)為，采用單模型預(yù)測(cè)算法對(duì)股票市場(chǎng)進(jìn)行預(yù)測(cè)的效果有優(yōu)有劣，不夠穩(wěn)定，采用集成學(xué)習(xí)方法則可吸取和融合各模型的長(zhǎng)處，增加穩(wěn)定性和提升準(zhǔn)確率[6].集成學(xué)習(xí)思想由Dasarathy和Sheela在1979 年提出[7].一種基于神經(jīng)網(wǎng)絡(luò)的集成學(xué)習(xí)模型則是Hansen 和Salamon于1990 年首次展示[8]，該模型的泛化能力較強(qiáng)，但方差較低；同年，Schapire[9]通過(guò)Boosting方法將弱分類(lèi)器組合成一個(gè)強(qiáng)分類(lèi)器.這說(shuō)明在機(jī)器學(xué)習(xí)研究領(lǐng)域中集成學(xué)習(xí)已成為一種重要的方法.集成學(xué)習(xí)方法中常用的是堆疊法(Stacking)，此方法的預(yù)測(cè)效果比單模型更好[10,11]，但目前研究較少，多為單一算法.

因此，以股票預(yù)測(cè)研究為背景，討論集成學(xué)習(xí)模型在股票預(yù)測(cè)研究中的學(xué)習(xí)能力，并與其他分類(lèi)模型進(jìn)行實(shí)證比對(duì)，尋找優(yōu)化的股票預(yù)測(cè)模型，是本文的研究?jī)?nèi)容.我們以滬深300為投資標(biāo)的池，選取波動(dòng)指標(biāo)、收益指標(biāo)、經(jīng)典技術(shù)指標(biāo)和交易指標(biāo)等4大類(lèi)指標(biāo)共24個(gè)二級(jí)指標(biāo)作為評(píng)價(jià)因子，利用遞歸特征消除法結(jié)合Stacking 集成學(xué)習(xí)以及傳統(tǒng)的隨機(jī)森林、支持向量機(jī)和邏輯回歸等4個(gè)機(jī)器學(xué)習(xí)算法分別構(gòu)建分類(lèi)模型，預(yù)測(cè)投資標(biāo)的池中周頻收益率排名前20%的股票標(biāo)的，為投資者提供量化投資策略.

1 相關(guān)原理

1.1 遞歸特征消除法(RFE)

遞歸特征消除法可以說(shuō)是一種“貪心”的算法，目的在于搜尋最優(yōu)特征子集.先是反復(fù)構(gòu)建模型，最后選出分類(lèi)中的最佳特征子集，是遞歸特征消除法的主要思想內(nèi)容[12].現(xiàn)將遞歸特征消除法的步驟總結(jié)如下[13，14]:

步驟1：建立訓(xùn)練分類(lèi)器.

步驟2：計(jì)算特征的重要性測(cè)度.

步驟3：消除重要性測(cè)度低的不相關(guān)特征.

步驟4：將剩余的特征重復(fù)步驟1到步驟3，直到選出最佳特征子集.

1.2 邏輯回歸

邏輯回歸是機(jī)器學(xué)習(xí)中常用的算法之一，是一種簡(jiǎn)單高效、應(yīng)用廣泛的分類(lèi)算法，主要用于二分類(lèi)問(wèn)題.它建立在線性回歸的基礎(chǔ)上，其公式如下：

z=wTx.

引入“Sigmoid函數(shù)”將結(jié)果轉(zhuǎn)換為0或1的二分類(lèi)形式，其函數(shù)的具體形式為

其中w已知.用hw(x)來(lái)計(jì)算特征變量x，若得到的結(jié)果大于 0.5，則預(yù)測(cè)其為分類(lèi) 1，否則為分類(lèi) 0.

1.3 支持向量機(jī)

支持向量機(jī)(SVM)是一種廣義的線性分類(lèi)器,它的基本思想是基于樣本數(shù)據(jù)找到一個(gè)最優(yōu)分界面，以將不同類(lèi)別的樣本進(jìn)行區(qū)分.如果樣本數(shù)據(jù)是線性可分的,就可以直接尋找最優(yōu)分界面;若樣本數(shù)據(jù)不是線性可分的,那么就需要使用核函數(shù)將低維樣本空間映射到高維樣本空間，然后再在高維樣本空間中尋找最優(yōu)的分界面.最優(yōu)分類(lèi)函數(shù)為

1.4 隨機(jī)森林

在機(jī)器學(xué)習(xí)中，隨機(jī)森林(RF)是一個(gè)包含多棵決策樹(shù)的分類(lèi)器，其中每棵決策樹(shù)都是一個(gè)分類(lèi)器.它首先在原始的樣本里用bootstrap方法抽出多個(gè)樣本；然后對(duì)每個(gè)樣本分別進(jìn)行建模訓(xùn)練，得到多棵決策樹(shù)，組成隨機(jī)森林；最后統(tǒng)計(jì)所有決策樹(shù)的結(jié)果，用投票方式選出票數(shù)最多的分類(lèi)結(jié)果，以之作為算法的最終結(jié)果.

1.5 Stacking 集成學(xué)習(xí)

Stacking 集成學(xué)習(xí)是一種訓(xùn)練一個(gè)可用于組合所有個(gè)體分類(lèi)器的模型.Stacking 又稱(chēng)為Stacked Generalization，其具體做法是先訓(xùn)練多個(gè)不同的個(gè)體分類(lèi)器，之后把這些個(gè)體分類(lèi)器的輸出數(shù)據(jù)作為輸入數(shù)據(jù)來(lái)訓(xùn)練模型，最終可以得到預(yù)測(cè)結(jié)果.Sigletos[15]等對(duì)投票法和Stacking 法進(jìn)行對(duì)比，結(jié)果證明Stacking 的效果優(yōu)于投票法，在很多領(lǐng)域中皆如此.在分析 Stacking 算法時(shí)，因?yàn)榛A(chǔ)學(xué)習(xí)器、元學(xué)習(xí)器和參數(shù)的選擇對(duì)學(xué)習(xí)效果有直接決定作用，所以，Ledezma[16]等通過(guò)遺傳算法來(lái)選擇該算法中最好的配置.在我們構(gòu)建的Stacking 集成學(xué)習(xí)模型中，第一層模型是采用支持向量機(jī)和隨機(jī)森林的初級(jí)學(xué)習(xí)器，第二層模型是采用邏輯回歸的次級(jí)學(xué)習(xí)器，如圖 1 所示.

圖1 Stacking集成學(xué)習(xí)模型架構(gòu)

2 數(shù)據(jù)處理

2.1 構(gòu)建初級(jí)特征集合

在分析國(guó)內(nèi)外選股指標(biāo)體系的基礎(chǔ)上，為了能充分驗(yàn)證遞歸特征消除法和Stacking集成學(xué)習(xí)對(duì)我國(guó)股市預(yù)測(cè)的有效性，本文選取了4大類(lèi)共24項(xiàng)數(shù)據(jù)指標(biāo)[17]，以之作為模型因子，其經(jīng)典技術(shù)指標(biāo)通過(guò)talib函數(shù)庫(kù)計(jì)算得到，數(shù)據(jù)來(lái)源于baostock，數(shù)據(jù)按周頻獲取.有關(guān)因子的說(shuō)明見(jiàn)表1.

表1 初級(jí)特征因子介紹

2.2 基于隨機(jī)森林為迭代分類(lèi)器的遞歸特征消除法選擇特征子集

為選取與股票收益率關(guān)系密切的關(guān)鍵指標(biāo)作為模型的輸入，我們以隨機(jī)森林為迭代分類(lèi)器，利用RFE對(duì)特征進(jìn)行選擇.具體流程如圖2所示.

圖2 RFE-RF 特征選擇流程

利用隨機(jī)森林為迭代分類(lèi)器的遞歸特征消除法(RFE)，從初始的24 個(gè)特征中，對(duì)最不重要的特征進(jìn)行修剪，在集合上遞歸進(jìn)行修剪時(shí)重復(fù)這個(gè)過(guò)程，將此過(guò)程進(jìn)行至最終達(dá)到所需特征的數(shù)量才停止，由交叉驗(yàn)證實(shí)驗(yàn)結(jié)果中所獲取的最佳特征數(shù)量為19，交叉驗(yàn)證選擇特征數(shù)量如圖3所示.

圖3 RFE最佳特征數(shù)量

最終選取最佳特征子集，具體如表2所示.

表2 特征子集

續(xù)表

2.3 構(gòu)建響應(yīng)變量

為了分類(lèi)預(yù)測(cè)高收益的率股票標(biāo)的，我們從2017年4月23日到2021年2月21日按周頻獲取193周滬深300的相關(guān)因子數(shù)據(jù)，將下周的因子收益率最高的前20%股票歸為1類(lèi)，將收益率最低的前20%股票歸為0類(lèi)，刪除其他樣本——也就是將樣本數(shù)據(jù)轉(zhuǎn)換為一個(gè)二分類(lèi)的數(shù)據(jù)集.

3 模型構(gòu)建與結(jié)果分析

3.1 模型構(gòu)建

基于上述原理，我們通過(guò)baostock接口獲取數(shù)據(jù)，并對(duì)獲取的股票數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理、特征篩選和標(biāo)簽提取、訓(xùn)練模型等.其中訓(xùn)練集是用隨機(jī)抽取75%的股票數(shù)據(jù)組成，測(cè)試集則是用隨機(jī)抽取25%的數(shù)據(jù)組成.構(gòu)建模型來(lái)預(yù)測(cè)股票收益率的總體流程圖如圖4所示.

圖4 建模過(guò)程流程圖

3.2 結(jié)果分析

本文研究的問(wèn)題屬于二分類(lèi)問(wèn)題，周頻收益率排名前20%的股票標(biāo)簽為1，收益率排名后20%的股票標(biāo)簽為0.因此，我們采用分類(lèi)模型常用性能評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)模型的分類(lèi)性能，包括準(zhǔn)確率、精確率、召回率、F1值以及AUC值.針對(duì)滬深300的股票預(yù)測(cè)問(wèn)題，我們構(gòu)造了利用遞歸特征消除法結(jié)合Stacking 集成學(xué)習(xí)以及傳統(tǒng)的隨機(jī)森林、支持向量機(jī)和邏輯回歸等4個(gè)分類(lèi)學(xué)習(xí)模型.模型的參數(shù)均采用GridsearchCV-3來(lái)進(jìn)行尋參，其性能指標(biāo)結(jié)果分別如表3和表4所示.

表3 基于訓(xùn)練集的模型性能結(jié)果比對(duì)

表4 基于測(cè)試集的模型性能結(jié)果比對(duì)

由表中數(shù)據(jù)可見(jiàn)，邏輯回歸、支持向量機(jī)和隨機(jī)森林這三個(gè)傳統(tǒng)單模型的效果都不如RFE_Stacking集成學(xué)習(xí)模型.在測(cè)試集中，RFE_Stacking集成學(xué)習(xí)模型的性能比邏輯回歸、支持向量機(jī)、隨機(jī)森林模型都高，具有更好的預(yù)測(cè)性能，其準(zhǔn)確率達(dá)到 60.21%，精確率為59.87%，召回率為62.65%，F(xiàn)1值為61.23%，AUC值為0.644 7.在訓(xùn)練集中，隨機(jī)森林的模型性能最好，其次是RFE_Stacking集成學(xué)習(xí)模型，但結(jié)合測(cè)試集結(jié)果可知，隨機(jī)森林容易過(guò)擬合，穩(wěn)定性較低.總的來(lái)說(shuō)，RFE_Stacking集成學(xué)習(xí)模型具有更好的預(yù)測(cè)性能和穩(wěn)定性.

4 總結(jié)

本文基于遞歸特征消除法和Stacking集成學(xué)習(xí)模型去預(yù)測(cè)滬深300成分股的收益率，同時(shí)與傳統(tǒng)的邏輯回歸、支持向量機(jī)、隨機(jī)森林模型進(jìn)行對(duì)比分析，得出以下結(jié)論：

(1)RFE_Stacking集成學(xué)習(xí)模型的準(zhǔn)確率達(dá)到60.21%，精確率為59.87%，召回率為62.65%，F(xiàn)1值為61.23%，AUC值為0.644 7均高于50%，這表明該模型的預(yù)測(cè)結(jié)果優(yōu)于隨機(jī)測(cè)試，并不遵循隨機(jī)漫步理論.

(2)RFE_Stacking集成學(xué)習(xí)模型與傳統(tǒng)的邏輯回歸、支持向量機(jī)、隨機(jī)森林模型進(jìn)行比較.在訓(xùn)練集中，隨機(jī)森林模型性能最好，其次為RFE_Stacking集成學(xué)習(xí)模型;在測(cè)試集中，RFE_Stacking集成學(xué)習(xí)模型性能最好，其次是支持向量機(jī)模型.由訓(xùn)練集和測(cè)試集的結(jié)果可知，RFE_Stacking集成學(xué)習(xí)模型性能好，穩(wěn)定性高;隨機(jī)森林和支持向量機(jī)模型容易過(guò)擬合，穩(wěn)定性差；邏輯回歸模型性能較差.

以上兩點(diǎn)說(shuō)明基于遞歸特征消除法和Stacking集成學(xué)習(xí)的模型能有效地預(yù)測(cè)股票的收益率，為廣大投資者提供可行的投資策略.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡