喬若羽
(中國科學技術大學 統(tǒng)計與金融系,安徽 合肥 230026)
股票市場是宏觀經濟形勢的晴雨表和風向標,股票市場的走向可在一定程度上反映當前的經濟形勢,對股票市場的準確預測有助于國家及時調整經濟政策,維護市場穩(wěn)定,因此對股票市場的準確預測意義重大。
但是股票預測的準確性受到多種因素的限制。由于股票數(shù)據(jù)是隨機游走的金融時間序列, Fama 論證了金融時間序列的預測難點在于其存在的高噪音[1]。若用統(tǒng)計學模型預測金融時間序列,必須對數(shù)據(jù)進行預處理,再輸入到模型中,而這樣會破壞數(shù)據(jù)的完整性和真實性。其次,股票數(shù)據(jù)是非線性且非平穩(wěn)的,Singh和Srivastava認為股票數(shù)據(jù)的非線性和非平穩(wěn)性導致傳統(tǒng)的多元回歸以及線性回歸模型應用受限,只有更高級的模型才可以準確描述此類非線性的金融時間序列[2]。最后股票市場受到多種復雜且不確定的因素影響,如長期受到宏觀政策的影響,短期受到市場預期的影響,也會受到一些突發(fā)事件或國際事件的干擾,如2018年中美貿易戰(zhàn)對中國股市的影響巨大。
國內外的學者嘗試過多種方法預測股票市場,Chulho Jung和Roy Boyd在1996年采用向量自回歸(VAR)模型、誤差修正模型(ECM)和卡爾曼濾波模型(KFM)對英國股市進行預測[3]。
Wolfgang Bessler和Peter Lückoff利用貝葉斯向量自回歸模(Bvar)模型預測德國一些大型公司的投資組合回報,但是預測效果不佳[4]。
Adebiyi等人基于紐約證券交易所和尼日利亞證券交易所的股票數(shù)據(jù)嘗試運用ARIMA模型預測股票價格,結果顯示該模型具有短期預測潛力[5]。但由于股票數(shù)據(jù)是非線性非平穩(wěn)的金融時間序列,并且影響股票價格的因素繁多復雜,傳統(tǒng)的統(tǒng)計方法和計量模型需要對輸入數(shù)據(jù)進行預處理且數(shù)據(jù)量不能過多,導致預測效果并不理想。
近年來,深度學習和神經網(wǎng)絡嶄露頭角,在目標檢測[6]、圖像分類[7]、圖像分割[8]等多個領域取得了矚目的成就。神經網(wǎng)絡預測解決了傳統(tǒng)預測方法難以解決的問題,為股票預測帶來了曙光[9]。神經網(wǎng)絡是對人腦抽象和具象能力的人工模擬,具有強大的擬合與表達能力[10]。首先神經網(wǎng)絡具有非線性映射能力,數(shù)學理論可證明神經網(wǎng)絡可以無限逼近所有的非線性連續(xù)函數(shù);其次神經網(wǎng)絡具有自學習能力,神經網(wǎng)絡在訓練時會自動調節(jié),找出輸入與輸出之間的內在關系;最后神經網(wǎng)絡具有一定的容錯能力,即使部分神經元受損也不會對結果產生較大的影響。神經網(wǎng)絡的這些能力可有效地解決股票數(shù)據(jù)的不確定、非線性、非平穩(wěn)等問題,多位學者的研究結果均顯示神經網(wǎng)絡模型預測股票價格的能力要優(yōu)于傳統(tǒng)計量模型,從而驗證了神經網(wǎng)絡在股票市場預測中的可行性。
Zhang等人研究發(fā)現(xiàn)神經網(wǎng)絡模型預測非線性時間序列數(shù)據(jù)的準確度遠遠高于ARIMA 模型[11]。Bayogly和Bahadir以不同的標準對貝葉斯估計和神經網(wǎng)絡模型的預測效果進行比較,結果表明神經網(wǎng)絡模型的預測效果更好[12]。劉海玥和白艷萍建立了AR模型、RBF和GRNN神經網(wǎng)絡模型,滾動預測上證指數(shù)的開盤價、收盤價、最高價和最低價并與實際價格對比和分析誤差,論證了三種模型的有效性,但是AR模型相對預測不穩(wěn)定,RBF和GRNN網(wǎng)絡訓練速度很快且GRNN表現(xiàn)出了更優(yōu)秀的效果[13]。
本文基于深度學習算法,構建了一系列用于股票市場預測的神經網(wǎng)絡模型,包括基于多層感知機(Multi-Layer perceptrons,MLP)[14]、卷積神經網(wǎng)絡(Convolution Neural Network, CNN)、 遞歸神經網(wǎng)絡(Recurrent Neural Network,RNN)[15]、長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)[16]和門控神經單元(Gated Recurrent Unit,GRU)[17]的模型。針對RNN、LSTM和GRU等網(wǎng)絡模型難以充分利用時間維度信息的問題,本文引入注意力機制(Attention Mechanism)[18]來區(qū)分不同時間維度信息對預測的重要程度,進而提高了模型的預測精度。 本文基于上證指數(shù)數(shù)據(jù)進行了充分的實驗,論證了所構建模型的有效性,并通過調控模型中的重要參數(shù)進行了充分的對比實驗,探究不同的架構對性能的影響。本文旨在為基于神經網(wǎng)絡的股票預測模型給出合理的優(yōu)化方向。
針對金融數(shù)據(jù)的格式和需要預測的指標,本文使用神經網(wǎng)絡中的不同模塊構建了多個模型進行比較分析。模塊包括全連接層(Fully-Connected Layer)、CNN、RNN以及RNN的兩種變體網(wǎng)絡: LSTM和GRU。此外,本文考慮將注意力機制引入RNN、LSTM和GRU中,進一步提升網(wǎng)絡模型的學習能力。由于需要處理的股票數(shù)據(jù)本身維度較低,本文的模型中未使用Batch Normalization(BN)[19]、LayerNormalization(LN)[20]等標準化手段來防止梯度消失、梯度爆炸問題和加快訓練速度。
多層感知機(Multi-Layer perceptrons,MLP)由多層的全連接層構成。層與層之間使用的非線性激活函數(shù)通常為Sigmoid、Tanh、線性整流函數(shù)(Rectified Linear Unit,ReLU)及ReLU的一系列變種如(LeakyReLU,PReLU,CReLU等等)。全連接層的運算本質是矩陣運算,第i層全連接層的運算模式可表示為:
xi+1=Wixi+bi
(1)
其中,Wi和bi分別表示第i層全連接層的權值和偏置項。
圖1 基于多層感知機的網(wǎng)絡模型
本節(jié)構建了含有五層全連接層的網(wǎng)絡模型,如圖1所示,每層輸出元素逐漸遞減,分別為64、32、16、8 、1。全連接層由于參數(shù)量過大,且輸出與輸入的所有元素均有關系,很容易導致過擬合的發(fā)生。因此模型中每層之間加入了ReLU函數(shù)作為非線性激活單元來防止過擬合,增加非線性表達能力,具體表達形式如下:
(2)
Sigmoid函數(shù)和Tanh函數(shù)作為非線性激活函數(shù)在全連接層和卷積層中表現(xiàn)較差,收斂速度慢且易導致梯度消失現(xiàn)象。這兩種函數(shù)被廣泛應用于遞歸神經網(wǎng)絡中,具體表現(xiàn)形式為:
(3)
(4)
卷積神經網(wǎng)絡CNN多用于圖像的各種處理任務,如目標檢測、圖像分類、圖像分割等等,并展示了遠遠超出傳統(tǒng)方法的精度。由于圖片數(shù)據(jù)多具有局部相關性,某個像素點的值通常和它臨近像素點均有關聯(lián),CNN能夠很好地挖掘局部特征相關性,相比于全連接層對全局特征的關注,能夠更好地提取出紋理信息和邊緣信息。
圖2 基于CNN的網(wǎng)絡模型
本節(jié)針對需要處理的時間序列金融數(shù)據(jù)構建了基于CNN的網(wǎng)絡模型,如圖2所示??紤]到金融數(shù)據(jù)除了具有時間維度之外,在每個具體時間下也有一系列描述特征的數(shù)據(jù),稱為特征維度。該模型中,本文使用tn表示預測時需要參考的時間維度數(shù),fn表示每一時間維度下的特征維度數(shù)。
金融數(shù)據(jù)首先被并行地輸入三個不同的卷積層中,卷積核大小分別為1×fn、fn×fn和tn×fn,對應的特征圖(feature maps)數(shù)量均為64。 三個卷積層的輸出維度分別為64×1×1、64×1×|tn-fn|和64×1×tn。卷積核尺寸這樣設置的原因在于,金融數(shù)據(jù)同一時間維度下的所有特征均用來描述該數(shù)據(jù)的特性,且與圖片數(shù)據(jù)的區(qū)別在于,這些特征具有較少的局部相關性。如果使用多用于圖像任務的方形尺寸卷積核如3×3、5×5等,只能提取較弱的局部信息,而且會部分丟失同一時間維度下的所有特征之間互相的關聯(lián)性??紤]到這一點,本文構建了三種不同的卷積核,分別用來提取不同尺度下的特征。1×fn、fn×fn和tn×fn的卷積核分別用于提取每一時間維度、fn個時間維度和所有參考的時間維度下所有特征之間的關聯(lián)信息,分別對應于從小尺度到大尺度信息的提取。卷積層的輸出經過ReLU函數(shù)后, 經過維度變換轉化為一維向量,以便于輸入到下一層全連接層。三個不同尺寸的全連接層分別用于處理三個不同維度的向量,輸出的值相加之后得到最終的預測值。
通常來說,多尺度的特征提取能夠提升網(wǎng)絡的性能,同時針對金融數(shù)據(jù)的特性,本文構建了一個較為適合處理時間序列數(shù)據(jù)的基于CNN的模型,并在第2章實證分析中和方形尺寸卷積核的CNN模型進行了對比。此外,本文也通過增加卷積層的數(shù)量探究模型性能的變化,并在實證分析中進行了詳細論證。
遞歸神經網(wǎng)絡是一類由各單元鏈式連接而成的有向循環(huán)神經網(wǎng)絡。通過各單元的連接, 遞歸神經網(wǎng)絡可以儲存神經元當前時刻的輸入和前一時刻的輸出關系,在處理時間序列數(shù)據(jù)上優(yōu)于其他類型的神經網(wǎng)絡。
圖3 RNN、LSTM和GRU的單元
最早提出的RNN模型單元如圖3(a)所示,每一個RNN單元僅包含全連接層和一個tanh激活函數(shù),用來學習當前時刻輸入和輸出的函數(shù)關系。t時刻RNN單元的具體計算模式如下:
ht=tnah(whxxt+wthht-1+bh)
(5)
oi=g(w(t+1)hht+bo)
(6)
其中,w表示從各類輸入到輸出的全連接層權值,在不同的RNN單元內共享權值。xt、ht和ot分別表示輸入序列、隱藏層序列和最終輸出序列,bh和bo分別表示兩次運算中的偏置項。g函數(shù)根據(jù)任務的不同可以選取不同的函數(shù),例如在分類任務中一般選擇softmax函數(shù)用于輸出最終分類結果。
RNN對于短期記憶效果很好,但是結構較為簡單,難以勝任長期記憶任務,易導致結果失真,運算效率低下。LSTM通過復雜的設計實現(xiàn)了長時記憶的任務,在時序處理任務中效果顯著。LSTM單元的具體結構如圖3(b)所示,t時刻的具體計算模式為:
ft=sigm(wfxxt+wthht-1+bf)it=sigm(wixxt+wthht-1+bi)gt=tanh(wgxxt+wghht-1+bg)ct=ft×ct-1+it×gtot=sigm(woxxt+wohht-1+bo)
(7)
其中,ft表示遺忘門,決定有多少來自上一層的信息會被記錄。it表示輸入門,決定有多少輸入的信息會被使用。gt表示一個產生備選信息的來源,隨時用于更新新的單元狀態(tài)ct。 由當前的單元狀態(tài)ct和中間輸出ot共同決定最終輸出ht,并輸入到下一時刻LSTM單元中。LSTM通過構建輸入門、遺忘門和輸出門來實現(xiàn)信息的長時傳遞,保證之前的信息能夠一直參與網(wǎng)絡訓練。
基于LSTM有一些變種結構,GRU結構是其中一種,如是圖3(c)所示,t時刻的具體計算模式為:
rt=sigm(wrxxt+wrhht-1+br)zt=sigm(wzxxt+wzhht-1+bz)gt=tanh(wgxxt+wghht-1+bg)ht=(1-zt)×ht-1+zt×gt
(8)
其中,rt表示重置門,決定上一時刻的狀態(tài)對信息更新的貢獻比例。zt表示更新門,決定新的狀態(tài)gt更新到最終輸出ht的比例。和LSTM相比,GRU的特征在于缺少了產生備選信息的來源,同時不再限制當前數(shù)據(jù)的輸入貢獻比例。GRU的結構相較于LSTM更簡單,但在一些任務處理中表現(xiàn)更加出色。
本節(jié)在遞歸神經網(wǎng)絡的前端和末端分別加入了一個全連接層用于改變數(shù)據(jù)輸出的維度, 并控制遞歸神經網(wǎng)絡中網(wǎng)絡單元的疊加數(shù)量和單元內部神經單元的數(shù)量,以此構建出多個模型,并在第2章實證分析中詳細論述了不同參數(shù)對預測性能的影響。
上述遞歸神經網(wǎng)絡處理時間序列數(shù)據(jù)的過程是一個馬爾科夫過程,t時刻的輸出只和t-1時刻有關。通常狀況下,遞歸神經網(wǎng)絡的條件分布函數(shù)滿足等式:
P{X(t)≤x|X(tn)=xn,…,X(t1)=x1}=P{X(t)≤x|X(tn)=xn}
(9)
雖然遞歸神經網(wǎng)絡可以傳遞t-1時刻之前的信息,并將其輸送到t時刻的信息中,但是這種隱式的更早信息的表示并不能很好地被網(wǎng)絡提取。尤其當輸入序列很長的時候,模型難以學到合理的向量表示。注意力機制通過保留遞歸網(wǎng)絡中每個時間次序下的輸出,訓練一個模型對這些輸出進行選擇性的學習,并將輸出序列與之進行關聯(lián)。
注意力機制的描述如圖4所示,具體的計算模式如下:
(10)
其中,vT和w均為需要學習的權值,at是通過softmax分類函數(shù)對ut進行歸一化來計算概率,通過求得的概率at和ut的加權求和得到最終的輸出ct。注意力機制會對每一時序的輸出生成一個概率,通過概率來決定每一時刻的輸出對最終輸出所占有的貢獻。注意力機制本質上是一種相似度的度量,當前的輸入和目標狀態(tài)越相似,那么當前輸入所占的權重就會越大。通過加入注意力機制,可以打破傳統(tǒng)遞歸神經網(wǎng)絡的馬爾科夫鏈,將輸出和所有參考的時序數(shù)據(jù)直接關聯(lián),獲得更加準確的輸出結果。
圖4 注意力機制
本節(jié)將注意力機制加入1.3節(jié)的遞歸網(wǎng)絡模型中,構建了新型的預測模型,并在第2章實證分析中詳細論述了該機制對性能的影響。
本文的實驗數(shù)據(jù)為1991年7月1日至2019年4月1日的上證指數(shù), 有效數(shù)據(jù)共計6771條,數(shù)據(jù)來源于wind。本實驗使用前6650條數(shù)據(jù)作為訓練集,剩余121條數(shù)據(jù)作為測試集。 數(shù)據(jù)指標包含開盤價、收盤價、最高價、最低價、當日成交量、漲跌幅和換手率共計七項指標,對應于模型中每一時間下特征維度。本文使用當天所有七項指標來預測明日收盤價。 在模型訓練中,本文采取過去N天的所有數(shù)據(jù)來預測第N+1天的數(shù)據(jù),并使用均方根誤差(Root Mean Squared Error,RMSE)作為損失函數(shù)使其輸出結果不斷逼近真實數(shù)據(jù):
(11)
本實驗選取Tensorflow作為實驗平臺,實驗環(huán)境為配置GTX 1080Ti顯卡和32G內存的電腦。模型初始學習率為0.0007,共計學習2000個輪次(一個輪次代表訓練集中的所有樣本全部參與訓練一次)。數(shù)據(jù)首先進行預處理,減去每一特征維度下的均值再除以標準差,得到標準化的數(shù)據(jù),然后將數(shù)據(jù)輸入模型中進行訓練。
本節(jié)比較基于MLP的模型,基于CNN的模型,基于RNN、LSTM和GRU的模型和引入注意力機制的上述三種模型,共計八種神經網(wǎng)絡模型。本節(jié)中基于CNN的模型為圖2所示的基本模型,六種遞歸網(wǎng)絡模型均只采用了一個遞歸網(wǎng)絡單元,單元內部神經元數(shù)量設為10。所使用的注意力機制中神經元數(shù)量設置為10。本節(jié)中實驗使用前20天的數(shù)據(jù)來預測第21天的數(shù)據(jù),即N=20。圖5為各模型在測試集121條數(shù)據(jù)樣本上的預測曲線圖。
圖5 八種模型下的預測曲線
預測曲線圖的橫坐標為測試集121天的天數(shù),縱坐標為當天的收盤價格,其中淺色的曲線為真實數(shù)據(jù),深色的曲線為預測數(shù)據(jù)。本文使用平均誤差和相關系數(shù)作為衡量模型性能的指標,分別用來預測整體偏差情況以及預測趨勢是否跟實際趨勢一致。其中,平均誤差計算方式為:
(12)
其中,x和x′表示真實值和預測值,Nt表示測試集中數(shù)據(jù)的數(shù)量,在本實驗中Nt=121,相關系數(shù)計算方式為:
(13)
其中,Corr(x,x′)表示真實值和預測值的協(xié)方差,Var(x)和Var(x′)分別表示真實值和預測值的方差。
可以看到,基于MLP的模型因為很難針對股票數(shù)據(jù)進行優(yōu)化,在預測任務中表現(xiàn)最差; 而基于CNN的模型針對股票數(shù)據(jù)優(yōu)化之后,表現(xiàn)出遠優(yōu)于MLP的性能,并能夠一定程度逼近遞歸神經網(wǎng)絡的性能。在所構造的六種遞歸神經網(wǎng)絡模型中,基于注意力機制的GRU(Attention-Based GRU)模型表現(xiàn)出了最佳的性能,而普通的RNN結構表現(xiàn)最差??梢钥吹剑诘诙械乃臈l曲線圖中,深色和淺色的線條幾乎完全重合,這表示模型的預測非常準確。需要強調的是,加入注意力機制的模型和對應的基礎模型相比,均有不同程度性能提升,這說明注意力機制確實有助于提高預測任務的模型精度。
本節(jié)通過調整基于CNN模型的結構參數(shù), 探究這些重要的結構參數(shù)對模型性能的影響。首先將圖2中的卷積核替換為圖像任務中經常使用的方形卷積核,分別使用了2×2、3×3、4×4、5×5的卷積核,模型的預測曲線如圖7第一行所示??梢钥吹?,2×2的卷積核表現(xiàn)最差,平均誤差高達1.6357%,遠遠高于其他三個卷積核。這是由于尺寸過小的卷積核對數(shù)據(jù)的全局信息提取更加困難,尤其是全局相關性顯著的股票數(shù)據(jù)。5×5的卷積核表現(xiàn)出了最佳的效果,可能是由于尺寸較大的卷積核能夠更豐富地提取到各特征維度之間的關聯(lián)信息。然而,上述的所有模型性能均無法和優(yōu)化后的CNN模型相比,這證明了該針對數(shù)據(jù)形式進行的卷積核優(yōu)化方式的有效性。
圖6 加一層卷積塊的CNN模型
圖7 八種CNN模型下的預測曲線
同時,本節(jié)針對模型中卷積層的數(shù)量對性能的影響也進行了評估。首先構建一個如圖6的虛線框內所示的卷積塊,所構建卷積塊包含三條通路上獨立的全連接層和卷積層。在卷積塊中,首先將卷積層的輸出使用全連接層改變維度為tn×fn,然后變換其維度為原始數(shù)據(jù)的維度,之后將其輸入到優(yōu)化后的卷積核中。圖6所示模型比圖2的模型僅多出一個卷積塊,在首尾網(wǎng)絡層的中間無縫接入。本節(jié)對比了加入1、2、3、4個卷積塊的模型對性能的影響,如圖7第二行所示??梢钥吹剑S著卷積塊的增多,模型性能呈現(xiàn)出下降的趨勢。其原因主要有兩點: 一方面是股票的數(shù)據(jù)結構較為簡單,復雜程度遠遠不及圖像數(shù)據(jù),因此使用較為簡單的網(wǎng)絡結構已經可以逼近模型的上限,更復雜的網(wǎng)絡只會導致嚴重的過擬合,另一方面CNN并不適合處理時間序列任務。
本節(jié)通過修改六種遞歸網(wǎng)絡模型的結構,分別探究遞歸神經單元中神經元數(shù)量和遞歸神經單元堆疊的數(shù)量對模型性能的影響??紤]到需要對比的模型數(shù)量過多,本節(jié)不再使用如節(jié)2.2、2.3所示的曲線圖來展示模型性能,而是利用統(tǒng)計直方圖來直觀地展示平均誤差的變化趨勢。 直方圖的橫坐標表示各類不同的模型,縱坐標表示平均誤差。此外,本節(jié)使用了表格展示所有遞歸模型的相關系數(shù)。
首先,本節(jié)探討了遞歸神經單元中神經元數(shù)量對模型性能的影響。針對節(jié)2.2中的基礎模型,實驗將神經單元中神經元的數(shù)量分別改變?yōu)?0、50、100、200,相當于增加了單元中全連接層的維度。實驗共統(tǒng)計了6種模型在不同神經元數(shù)量下的表現(xiàn)性能,如圖8所示。
圖8 神經元數(shù)量對性能的影響
可以看到,在RNN、LSTM、GRU三種模型中,整體趨勢表現(xiàn)為性能隨著神經元數(shù)量的增加而降低,節(jié)2.2的基礎模型反而表現(xiàn)出了最佳性能。這是由于所用股票數(shù)據(jù)的特征維度只有7,在神經元數(shù)量遠遠大于特征維度時,網(wǎng)絡很容易過擬合,而導致在測試集上性能變差。在神經元數(shù)量與特征維度接近或相當?shù)臅r候,網(wǎng)絡的表達能力剛好和數(shù)據(jù)集契合,此時才能達到網(wǎng)絡的最優(yōu)性能。
表1 神經元數(shù)量對相關系數(shù)的影響
表1中展示的相關系數(shù)也表現(xiàn)出了和平均誤差相似的變化趨勢,其中A-表示基于注意力機制的模型。值得強調的是,GRU模型在高神經元數(shù)量下性能表現(xiàn)明顯差于另外兩類神經網(wǎng)絡,而LSTM模型展現(xiàn)出了最穩(wěn)定的性能。
而在基于注意力機制的三種模型中,可以看到,其性能變化趨勢較基礎模型非常穩(wěn)定, 這是由注意力機制所帶來的增益,該機制可以充分地利用所參考的時間維度下的信息,其預測過程不是基礎的遞歸神經網(wǎng)絡模型中簡單的馬爾科夫過程,故而對復雜的網(wǎng)絡有更強的適應能力。值得注意的是,基于注意力機制的GRU模型在高神經元數(shù)量下表現(xiàn)出了和基礎模型相似的高預測誤差,而LSTM模型展示出和基礎模型類似的魯棒性。
關于遞歸神經單元堆疊的數(shù)量對性能的影響,本節(jié)也進行了大量的對比實驗。實驗使用神經元數(shù)量為10的遞歸神經單元,針對六種遞歸網(wǎng)絡模型分別堆疊了2、3、4、5個神經單元,模型性能展示如圖9所示。
可以看到,在RNN、LSTM、GRU三種基礎遞歸網(wǎng)絡模型中,堆疊兩到三個神經單元取得了最優(yōu)性能,之后隨著神經單元的增多,整體呈現(xiàn)性能變差的趨勢。在基于注意力機制的三個模型中,堆疊一到兩個神經單元可以取得最優(yōu)性能, 但是在單元數(shù)量增多后,預測性能依然會變差。值得一提的是,三種基于注意力機制的模型整體性能和穩(wěn)定性優(yōu)于基礎模型,這佐證了圖8中得出的結論: 注意力機制可以有效改善過擬合問題,提高模型的性能和穩(wěn)定性。表2展示了以上各模型的相關系數(shù),其變化趨勢整體和平均誤差相似。
圖9 遞歸神經單元數(shù)量對性能的影響
表2 遞歸神經單元數(shù)量對相關系數(shù)的影響
對比圖8的實驗結果,2塊神經元數(shù)量為10的遞歸神經單元和1塊神經元數(shù)量為20的神經單元在性能表現(xiàn)上整體呈現(xiàn)出相反的改變趨勢,這說明改變堆疊的遞歸神經單元數(shù)量和改變神經單元中神經元數(shù)量對性能的影響是不一致的。同時可以發(fā)現(xiàn),即使堆疊神經單元數(shù)量增多導致網(wǎng)絡過擬合和性能變差,其性能變差趨勢依然緩和于改變單元內神經元數(shù)量。 該實驗對比結果表明,對網(wǎng)絡模型需求更復雜的結構和更強大的擬合能力時,堆疊神經單元數(shù)量的優(yōu)先級高于增加單元內神經元的數(shù)量。
本節(jié)通過修改參考時間維度的長度來探索該因素對模型性能的影響。 如節(jié)2.2描述, 模型使用前20天的數(shù)據(jù)預測第21天的數(shù)據(jù),2.3、2.4節(jié)中的模型遵循這一設置,取N=20。在本節(jié)中,實驗修改N的數(shù)值分別為10、30、40,并針對節(jié)2.2中的八種網(wǎng)絡模型進行了性能評估,結果如圖10所示。因基于MLP的模型性能表現(xiàn)過差,對直方圖的繪制會產生影響, 因此圖10并沒有繪制基于MLP的模型的結果。
圖10 參考時間維度對性能的影響
表3展示了各時間維度下模型的相關系數(shù)變化??梢钥吹?,隨著參考時間維度的增加,模型性能呈下降趨勢。這是由于過早的時間數(shù)據(jù)對當天數(shù)據(jù)的影響已經微乎其微,若依然將其作為模型輸入,反而會對預測結果產生負面影響。值得注意的是,基于CNN的模型也表現(xiàn)出了這一趨勢,這說明針對股票數(shù)據(jù)進行的CNN模型的優(yōu)化也對時間維度具有敏感性。
表3 參考時間維度對相關系數(shù)的影響
本文選取了近28年上證指數(shù)的數(shù)據(jù),分別構造了基于MLP、CNN、RNN、LSTM、GRU的網(wǎng)絡模型進行數(shù)據(jù)的預測。同時,為了克服基于RNN、LSTM、GRU等遞歸網(wǎng)絡模型的局限性,本文引入了注意力機制來增加模型性能和防止過擬合。針對構造的八種網(wǎng)絡模型,本文通過修改模型參數(shù),進行了大量的對比實驗,旨在探索基于神經網(wǎng)絡的股票預測模型合理的優(yōu)化方向。實驗結果表明,MLP和CNN并不適合處理時間序列任務,其性能和遞歸網(wǎng)絡模型差距較大。在需要對遞歸網(wǎng)絡模型進行復雜設計以適應龐大數(shù)據(jù)集時,優(yōu)先增加其單元數(shù)量而不是增加單元內神經元數(shù)量,可以有效防止過擬合且增加網(wǎng)絡性能。而注意力機制通過打破基礎遞歸網(wǎng)絡模型預測時的馬爾科夫過程,直接利用更早時期的數(shù)據(jù),在提升網(wǎng)絡性能的同時可以有效防止過擬合帶來的性能下降,在時間序列預測任務中表現(xiàn)優(yōu)異。