許 敏 盛靜文 袁 欣
(上海工程技術大學數(shù)理與統(tǒng)計學院 上海 201620)
科創(chuàng)板于2019年6月13日正式開板,其市場定位是實現(xiàn)資本市場對科技創(chuàng)新的融合,不僅能提升服務科技創(chuàng)新企業(yè)能力、增強市場包容性、強化市場功能,而且與目前的主板、創(chuàng)業(yè)板、中小板和新三板等交易市場一起,形成更豐富、多層次的融資體系,更好地發(fā)揮資本市場對實體經濟尤其是創(chuàng)新型經濟的支持力度。因而,科創(chuàng)板勢必將對我國A股市場的波動性產生影響。為此,本文旨在研究科創(chuàng)板的設立對我國股票市場波動性的影響,并基于機器學習對GARCH波動率模型的預測偏差進行校正,以期提高波動率模型的預測精度從而對股票市場的風險更好地進行管理和控制。
波動率是度量標的資產投資收益不確定性的重要指標,由于真實的波動率無法直接觀測,因此構建合理的波動率模型來估計真實波動率顯得尤為重要。GARCH族模型是目前金融風險管理等領域最廣泛使用的模型,其具有良好的統(tǒng)計特性,闡明了金融資產收益率序列波動的重要特征。但是它損失了大量的市場高頻交易信息,對波動率的估計存在偏差。近年來,隨著信息技術的快速發(fā)展,機器學習方法已被應用于波動率的預測中。Santamaría等[1]將混合遺傳算法和支持向量機回歸相結合(SVRGBC)對波動率進行預測,研究發(fā)現(xiàn)SVRGBC模型的預測能力優(yōu)于GARCH模型。Gavrishchaka等[2]基于S&P500指數(shù),運用SVM對股市波動率進行預測,發(fā)現(xiàn)其效果優(yōu)于主流的波動率模型。Liu[3]利用LSTM模型對S&P500和AAPL指數(shù)的波動率進行建模,研究發(fā)現(xiàn)對于較長區(qū)間的波動率預測,其預測效果優(yōu)于GARCH模型。Hamid等[4]用ANN模型預測標普500指數(shù)期貨期權的波動率,結果發(fā)現(xiàn)神經網絡對波動率的預測效果優(yōu)于隱含波動率預測。Fu等[5]運用改進的支持向量機來預測人民幣匯率波動,發(fā)現(xiàn)其預測準確性和統(tǒng)計準確性方面優(yōu)于所有其他基準模型。但是將機器學習算法和波動率模型相結合的研究還遠遠不足,尤其是在股票市場的波動率預測方面還比較少[6-7]。
GARCH模型對前期波動率記憶過強,不能對新的波動變化迅速做出反應,而機器學習模型對數(shù)據的要求和假設條件較少,能夠處理多樣化和復雜結構的數(shù)據。為了將GARCH模型和機器學習算法各自的優(yōu)勢相結合,進一步研究科創(chuàng)板的設立對我國股市波動的影響,本文利用機器學習算法對GARCH模型捕獲的波動率偏差進行修正,提出一種基于機器學習偏差校正的混合模型來預測股票市場的波動率,以期提高股票市場收益率波動性的準確性,為預測金融市場波動率提供一種新思路,進而為股市的風險預測、股票投資者和決策者提供參考。
傳統(tǒng)時間序列模型假設金融資產的方差為常數(shù),這一假設違背了金融市場價格波動的實際特征。為此Engle(1982)[8]利用添加的殘差滯后項的平方及其權重來描述主體波動的方差性,繼而構建了經典的自回歸條件異方差(ARCH)模型:
(1)
為了克服實際應用中的高階ARCH模型參數(shù)估計過多而引起的較大誤差的不足,Bollerslev(1986)[9]基于滯后p期的條件方差提出了GARCH(p,q)模型:
(2)
BP神經網絡模型[10]是一種誤差反向傳播的多層前饋神經網絡,是目前神經網絡模型中最具代表性且應用最普遍的模型,主要包括輸入層、隱藏層和輸出層,每一層都有若干個神經元。本文所使用的神經網絡架構為5-7-4-1,即有5個輸入神經元,7個隱藏神經元的第一層隱藏層,4個隱藏神經元的第二個隱藏層,一個輸出層,其結構如圖1所示。
圖1 BP神經網絡模型結構
隨機森林回歸(RF)[11]是一種以決策樹為基函數(shù)的集成學習。通過自主采樣法構建不同的訓練數(shù)據集以及不同的特征空間來產生一系列有差異的決策樹模型,最終結果通常取平均值。具體的算法流程如圖2所示。
圖2 隨機森林回歸原理
支持向量機回歸(SVR)[12]是高效的監(jiān)督學習方法。與其他回歸模型不同的是,SVR模型先構建一個誤差范圍,那么落在誤差范圍內的預測值均被視為預測正確,最后根據誤差間隔的大小確定回歸模型。假設訓練數(shù)據為{(xi,yi),i=1,2,…,n},SVR模型可通過映射函數(shù)φ(·)將數(shù)據從低維空間映射到高維空間,即:
w·φ(x)+b
(3)
式中:w為權重向量;b為常數(shù);k(xi,x)為核函數(shù);f(x)為預測值,與實際值yi之間存在一定的誤差,所以SVR模型的標準形式為:
(4)
(5)
式中:Lε是不敏感損失函數(shù);ε是不敏感損失;C是懲罰項。通常情況下,懲罰項越大,模型訓練的精度就越高。SVR中常用的核函數(shù)包括:徑向基函數(shù)和多項式函數(shù)等。
XGBoost回歸[13]是以回歸樹(CART)作為基學習器的梯度提升算法。相對于其他提升算法,XGBoost控制了模型復雜度,提高了收斂速度和收斂精度并且防止過擬合。其主要流程如圖3所示。
圖3 XGBoost回歸原理
本文將滯后一期的真實波動率、滬深300指數(shù)的收盤價價格極差、收盤價、成交量及滯后兩期的真實波動率共5個指標作為各機器學習算法的輸入,當期的波動率偏差作為輸出,分別利用機器學習中的BP、SVR、RF及XGBoost算法對GARCH波動率模型的預測偏差進行訓練,得到修正的偏差序列,將其與GARCH模型的預測值之和作為最終GARCH模型波動率的預測值,構建了基于機器學習偏差修正的GARCH波動率預測模型,主要流程如圖4所示。
圖4 波動率偏差修正預測模型
為研究科創(chuàng)板設立對我國股市波動率帶來的影響并對股市未來的波動率進行預測,本文以滬深300指數(shù)收益率為研究對象,滬深300指數(shù)綜合了我國滬市和深市共300只股票,該指數(shù)能較為客觀、全面地反映我國股市總體運行情況。由于我國在2019年6月13日正式設立科創(chuàng)板,因此在考慮數(shù)據的可比性和完整性以及真實性的基礎上,選取2018年6月13日至2020年6月13日為樣本區(qū)間,以科創(chuàng)板開板日期2019年6月13日為分界點,將數(shù)據分為科創(chuàng)板上市前和上市后兩個部分,數(shù)據來源于CSMAR數(shù)據庫。
表1為滬深300指數(shù)對數(shù)收益率的描述性統(tǒng)計分析。結果顯示,對數(shù)收益率的均值為0,峰度系數(shù)大于3,且JB統(tǒng)計檢驗拒絕了服從正態(tài)分布的原假設。
表1 滬深300描述性統(tǒng)計分析
圖5與圖6分別為滬深300指數(shù)收盤價與對數(shù)收益率時間序列圖,可以看出對數(shù)收益率存在明顯的波動聚集性,即一個大的波動后面總是跟著一個大的波動。初步可以判斷該序列存在異方差性。
圖5 滬深300指數(shù)收盤價走勢圖
圖6 滬深300指數(shù)對數(shù)收益率走勢圖
滬深300對數(shù)收益率的自相關與偏自相關圖形如圖7與圖8所示,可以看出序列與滯后三階數(shù)據間存在序列相關性。因此,需要建立ARMA(3,3)模型。
圖7 滬深300指數(shù)對數(shù)收益率自相關系數(shù)圖
圖8 滬深300指數(shù)對數(shù)收益率偏自相關系數(shù)圖
滬深300對數(shù)收益率ADF平穩(wěn)性檢驗結果如表2所示,從結果可以看出對數(shù)收益率是平穩(wěn)的,可以建立ARMA(3,3)時間序列模型。
表2 ADF平穩(wěn)性檢驗結果
對ARMA(3,3)模型所得殘差進行ARCH-LM檢驗,結果如表3所示。可以看出p值為0.048,在0.05的顯著性水平下拒絕原序列不存在ARCH效應的假設。也就表明原始滬深300對數(shù)收益率存在ARCH效應。
表3 LM檢驗結果
為了更加直觀地刻畫科創(chuàng)板的設立對股票市場波動性的影響,在模型中加入虛擬變量Di來引入科創(chuàng)板設立事件,科創(chuàng)板設立前虛擬變量賦值為0,科創(chuàng)板設立后虛擬變量賦值為1。本文分別建立了基于t分布、偏t分布及廣義誤差分布(GED)的GARCH模型。通過信息準則篩選后,最終選擇GARCH(1,1)模型,具體方程如下:
(6)
各GARCH模型的系數(shù)如表4所示??梢钥闯?虛擬變量的系數(shù)小于0,說明科創(chuàng)板的上市對股市的波動起到了一定的抑制作用,但是系數(shù)很小,表明這種作用具有局限性。
表4 GARCH(1,1)模型結果
為了判斷建立的GARCH(1,1)模型的有效性,本文基于t分布、偏t分布及GED對各模型的殘差進行了Ljung-Box白噪聲檢驗與ARCH效應檢驗,結果如表5所示??梢钥闯?各模型殘差均不存在ARCH效應,說明建立的模型是有效的。
表5 Ljung-Box及ARCH-LM檢驗結果
本文將樣本集劃分為訓練集與測試集,采用滾動時間窗口的預測方法對模型進行預測。其中訓練集為2020年1月15日(包括當天)之前共388個樣本,測試集為2020年1月15日之后共97個樣本。
實際波動率定義如下:
(7)
波動率偏差定義為GARCH模型預測的結果與真實波動率的差值,即:
εt=σt-RVt
(8)
通過計算各機器學習模型訓練集與測試集RMSE、MAE及MAPE來比較各模型的優(yōu)劣,各評價指標計算公式如下:
(9)
(10)
(11)
利用機器學習算法對GARCH模型的預測偏差進行訓練,最終預測結果如表6所示。
表6 各預測模型預測結果對比
可以看出,基于機器學習偏差校正的混合GARCH模型的預測精度普遍高于單一的GARCH模型。在學生t分布、偏t分布及廣義誤差分布中,基于XGBoost偏差修正的GARCH模型的預測效果均是最優(yōu)。其中,學生t分布下的GARCH-XGBoost相比于GARCH模型的RMSE、MAE及MAPE值分別降低了37.93%、48%及48.77%。
波動率在金融衍生品定價、資產配置及風險管理等方面發(fā)揮著主體作用。隨著全球金融市場一體化,對波動率的測度要求也在不斷提高,因而構建合理的模型來測度金融資產的波動率,揭示金融市場波動的本質,對投資者和金融監(jiān)管部門的風險管理具有重要的理論和實際價值。本文以滬深300指數(shù)收益率作為研究對象,研究了科創(chuàng)板的設立對股票市場波動性的影響,并提出了基于機器學習偏差校正的GARCH波動率預測模型,研究發(fā)現(xiàn):
(1) 科創(chuàng)板的設立在一定程度上抑制了股票市場的波動,促進了股票市場的完善和穩(wěn)定。但是虛擬變量系數(shù)值較小,表明科創(chuàng)板的設立對股票市場波動性的抑制作用是有限的,即其發(fā)揮的避險功能具有局限性。
(2) 在任一分布假設下,基于機器學習偏差校正的GARCH模型的預測精度明顯優(yōu)于單一的GARCH模型,在眾多機器學習算法中,利用XGBoost對GARCH模型的偏差進行校正的預測效果最優(yōu)。其中,與GARCH模型相比,學生t分布下的GARCH-XGBoost的RMSE、MAE及MAPE值分別降低了37.93%、48%及48.77%。