朱玉輝 中國人民大學
預測滬深300 股指期貨的走勢,在研判經濟趨勢和量化投資領域具有重要意義[11]。單一機器學習算法已經在金融領域應用中被廣泛研究。陳磊和何國輝(2016)通過訓練C4.5 決策樹算法,使用結算價、漲跌、成交量和持倉量4 個屬性建模[7],對期貨價格進行預測,具有一定的借鑒價值。陳添杰和陳雨桐(2002)將支持向量機模型用于上證50 股指期貨的實證分析[8],并獲得了較高的精度。陳標金和王鋒(2019)將技術指標和宏觀經濟指標共計10 個指標作為國債期貨價格的預測變量[6],使用隨機森林模型預測,證實了宏觀經濟指標和技術指標均對國債期貨價格具備一定的預測效果。組合機器學習算法也有初步進展,王維紅和聶爽爽(2009)將三種機器學習算法進行Bagging組合,對股票預測進行預測[10],取得良好的組合效果。
文章分別運用了梯度提升決策樹(GBDT)、決策樹(DT)與隨機森林(RF)三種機器學習算法分別對滬深300 股指期貨進行擇時預測,并創(chuàng)新地通過對三種算法的預測結果和優(yōu)選兩種算法的預測結果進行邏輯回歸集成學習,加權集成計算新的預測概率,以獲取更高的準確率,利用強分類器進行集成學習和目標優(yōu)選算法集成學習是在金融領域應用的進一步發(fā)展與完善。
1.決策樹
決策樹[1](Decision Tree,DT)模型是一種基于實例的歸納型機器學習算法,通過遞歸的特征選擇,不斷的生成樹形結構,并通過剪枝減少過擬合問題,從而通過樹形結構的規(guī)則對未知樣本進行分類。
Breiman 等人在1984 年介紹了一種CART算法[1],使用基尼系數(shù)(Gini Impurity,GINI)度量屬性分裂的優(yōu)劣。Quinlan 在1986 年提出了ID3 的算法[4],通過選擇最大化信息增益的特征,不斷的遞歸成樹。Quinlan 在1993 年又提出了基于C4.5 的決策樹算法[5],通過選擇能夠使信息增益比最大化的特征,不斷的遞歸成樹。
2.隨機森林
隨機森林[2](Random Forest,RF)算法本質是Bagging,總體思路是通過多個決策樹模型組合,對模型的預測結果進行少數(shù)服從多數(shù)的投票,可以增加模型的整體準確度和魯棒性,效果比單個模型要好。同時,在單個的決策樹模型中,隨機選擇部分特征用于決策樹的構建,一般情況下,推薦隨機選擇log2A個[2](A為特征總數(shù))。
其中,H(X)是隨機森林的分類結果,hk(X)是每一個決策樹模型的分類結果,Y是分類結果,I(●)是示性函數(shù)。
3.梯度提升決策樹
梯度提升決策樹[3](Gradient Boosting Decision Tree,GBDT),是一種基于決策樹作為基模型的Boosting 算法,Boosting 的思想是通過某種方式使得每一輪學習器在訓練中更加關注上一輪學習錯誤的樣本,不同Boosting 之間的區(qū)別在于是采用何種方式訓練,GBDT 是采用殘差迭代訓練上一輪的決策樹模型。
GBDT 模型最終可以表示為CART 算法的加法模型:
其中,h(x;θm)表示第m個決策樹,θm為第m個決策樹的參數(shù),M為決策樹個數(shù)。
4.邏輯回歸
邏輯回歸(Logistic 回歸)模型雖然簡單,但是是一種非常重要的機器學習模型之一,常用于分類問題[9]。
按照邏輯回歸的思路,將上述三種單一算法的預測概率作為三個因子進行輸入,進行集成學習的Stacking 處理,公式為:
其中,y為滬深300 股指期貨的漲跌,x1為梯度提升決策樹模型預測的概率結果,x2為隨機森林模型預測的概率結果,x3為決策樹模型預測的概率結果,βi(i=0,1,2,3)為模型的估計系數(shù)。當優(yōu)選兩種算法(梯度提升決策樹、決策樹)進行集成時,β2=0。
分別計算AUC、平均年化收益率、復合年化收益率、最大回撤率、年化波動率、Calmar 比率和夏普比率,對模型的結果進行評價。
從公開二級市場信息中下載滬深300 股指期貨指數(shù)(IF 主連,IFL8)2010 年4 月16日 至2020 年12 月31 日期間550 周的周線數(shù)據,選取開盤價(Open)、最高價(High)、最低價(Low)、收盤價(Close)、成交量(Vol)、MACD.DIF、MACD.DEA 和MACD.MACD 數(shù)據,并計算周內最高價與最低價價差(Range)、周內收盤價與開盤價價差(Intra_Return)和一周收盤收益率(Weekly_Return),共計11 個因子,下一周周收益率是漲是跌作為預測值,采取用過去10 周預測未來一周漲跌的滾動預測方法進行擇時買入,即如果預測為1,則按照次周開盤價進行買入,于次周收盤價進行賣出,并計算收益;如果預測為0,則次周空倉等待,最終形成凈值曲線。
首先,使用梯度提升決策樹、隨機森林和決策樹三種單一分類方法分別對滬深300股指期貨進行了漲跌的預測,滾動回測的結果畫圖(見圖1),并計算上述的算法評價指標(見表1),然后通過對三種算法的預測結果進行邏輯回歸集成,計算新的預測概率,按照上述的買賣和空倉邏輯進行回測,凈值曲線的畫圖和算法評價指標見圖1 和表1。
其次,考慮到文章中使用的因子較少,無法發(fā)揮隨機森林在因子選擇上進行多重組合的優(yōu)勢,僅僅通過對決策樹和梯度提升決策樹兩種優(yōu)選算法的預測結果進行邏輯回歸集成,計算新的預測概率,同樣按照上述的買賣和空倉邏輯進行擇時并計算算法評價指標,凈值曲線的畫圖和算法評價指標見圖2和表1。
如圖1、圖2 和表1 所示。
表1 指數(shù)、單一模型和Stacking 集成模型的評價指標對比
圖1 梯度提升決策樹(GBDT)、隨機森林(RF)、決策樹(DT)與基于這三種機器學習Stacking集成模型(Combined 3ML)的滾動回測凈值圖(IFL8為滬深300股指期貨走勢圖)
圖2 梯度提升決策樹(GBDT)、決策樹(DT)與基于這兩種機器學習Stacking集成模型(Combined 2ML)的滾動回測凈值圖(IFL8為滬深300股指期貨的走勢圖)
1.預測準確度
不管是選擇全部算法結果進行集成,還是優(yōu)選兩個算法進行集成,集成學習模型預測準確率比單個的機器學習模型預測準確率都更高。
2.年化收益率
(1)所有用機器學習預測的模型收益率均戰(zhàn)勝指數(shù)本身,如果對收益率做簡單平均,差距會更大;
(2)集成模型收益率優(yōu)于單個機器學習模型的收益率;
(3)在單個機器學習模型中優(yōu)選兩個收益率更高的機器學習模型(DT 和GBDT)進行邏輯回歸集成,收益率優(yōu)于直接對三個模型進行集成。
3.最大回撤率
(1)所有用機器學習預測的模型最大回撤率均比指數(shù)本身回撤更??;
(2)集成學習模型回撤比率均小于單個機器學習模型的最大回撤率;
(3)對三個機器學習模型進行集成的最大回撤率小于優(yōu)選兩個機器學習模型集成的最大回撤率,符合收益越高,風險越大的經濟理論。
4.年化波動率
(1)所有用機器學習預測的年化波動率均比指數(shù)本身更低;
(2)集成模型年化波動率略高于單個機器學習模型的年化波動率,以稍高的年化波動率換取更高的收益和更低的最大回撤率。
5.Calmar 比率
(1)所有用機器學習預測的Calmar 比率均比指數(shù)本身更大;
(2)集成模型Calmar 比率均遠大于單個機器學習模型的回撤率;
(3)對三個機器學習模型進行集成的Calmar 比率大于優(yōu)選兩個機器學習模型集成的Calmar 比率。
6.夏普比率
(1)所有用機器學習預測的模型夏普比率均跑贏指數(shù);
(2)集成模型夏普比率均大于單個機器學習模型的夏普率;
(3)對三個機器學習模型進行集成的夏普比率略小于優(yōu)選兩個機器學習模型集成的夏普比率。
文章通過對梯度提升決策樹、隨機森林和決策樹三種單一方法分別對滬深300 期貨指數(shù)(IFL8)進行了擇時預測,準確率分別為53.48%、52.96%和55.90%,三個模型最高凈值為3.3975。然后,對三種算法的預測結果進行邏輯回歸集成,重新產生新的預測結果,預測準確率為59.87%,累計凈值4.3509;考慮到收益率、AUC,也考慮到隨機森林更適合因子個數(shù)非常多的情況,優(yōu)選出梯度提升決策樹和決策樹兩種算法的預測結果進行邏輯回歸集成,重新產生新的預測結果,預測準確率為60.21%,累計收益凈值為4.9049。機器學習模型集成的預測準確率相對三種單一算法有較大的提升,滾動回測的凈值相比三個單一模型中最高凈值提升了1.5074,且顯著增加了策略的Calmar 比率和夏普比率,適合追求更高收益率的基金策略。
總體實驗的滾動回測結果表明,將多種單一機器學習模型的預測結果,使用邏輯回歸(Logistic 回歸)再次進行全部集成預測或通過優(yōu)選機器學習算法進行邏輯回歸,可以提升算法的準確率和魯棒性,為機器學習在量化投資領域的應用開辟了新的道路,滾動回測同時也避免了隨機分組成訓練組和測試組所導致的用未來數(shù)據來預測歷史數(shù)據的問題,同時滾動的方式更加符合實際的操盤。
本次研究的不足之處在于僅僅探索了較少的因子,把重心放在了機器學習集成的新算法上。影響金融和經濟發(fā)展的因子非常復雜,較少的因子對走勢的描述勢必不夠全面,可以嘗試將成百上千的指標因子運用于上述算法中,以期獲得更好的效果。另外,結合期貨等衍生品的特性,將預測為0 時的空倉,轉換成做空的信號,更好地利用衍生品的多空優(yōu)勢,更能增加策略的收益和收益回撤比。