梁達正
摘 ? 要:基于貝葉斯集成神經網絡原理,構建出一個貝葉斯集成長短記憶神經網絡。使用該集成網絡對我國上證50指數(shù)進行預測。實驗選取2015—2018年近3年來的數(shù)據(jù)進行集成學習預測。結果證明貝葉斯集成長短記憶神經網絡要優(yōu)于集成循環(huán)神經網絡與集成長短記憶神經網絡。為了使貝葉斯集成神經網絡更好的運用到時間序列預測上,本文提出一種貝葉斯集成長短記憶神經網絡來進行金融時間序列學習。
關鍵詞:貝葉斯 ?集成學習 ?神經網絡
中圖分類號:TP183 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)06(b)-0142-03
隨著科技的發(fā)展,計算機性能的不斷提升,計算機的計算能力的大幅增長,作為機器學習的重要分支——神經網絡正在不斷的發(fā)展。人工神經網絡在以時間序列為主的金融領域大展身手,對時間序列預測上占有重要地位。
1958年,Rosenblatt提出了首個實際的人工神經網絡模型——感知機。1988年,White等最早利用神經網絡來預測普通股每日報酬率。1997年,Hochreiter與Schmidhuber提出了LSTM(Long Short-Term Memory)長短記憶神經網絡,一種利用記憶功能來增強人工神經網絡。2009年,Yang通過貝葉斯正則化BP神經網絡對股票指數(shù)進行預測,得到比其他改進算法更好的泛化能力。2015年,Shun通過對BP、RNN與LSTM三種模型對國內外股指的研究對比,得出LSTM模型在時間序列預測上更為準確并且利用擬牛頓法原理改進神經網絡的學習速率。為了使貝葉斯集成神經網絡更好的運用到時間序列預測上,本文提出一種貝葉斯集成長短記憶神經網絡來進行金融時間序列學習。
1 ?神經網絡
1.1 傳統(tǒng)BP神經網絡
人工神經網絡由大量神經元相互連接而成,每個神經元看作一個激活函數(shù)。
BP神經網絡是一種按照誤差反向傳播訓練的多層信息前向傳遞的神經網絡。一般BP神經網絡分為三層:輸入層、隱藏層與輸出層。第一層為輸入層,最后一層(L層)為輸出層,中間的(2至L-1)層為隱藏層。
第l隱藏層的神經元輸出為,其中mL為第l隱藏層的神經元個數(shù)。設為從l-1層第j個神經元與l層第i個神經元之間的連接權重;bil為第l層第i個神經元的偏置,f()為激活函數(shù)那么:
輸出層的神經元輸出為,為隱藏層神經元與輸出層神經元之間的連接權重,bj為輸出層yj神經單元的偏置。fy()為激活函數(shù)。
反向傳播算法是LMS算法的推廣,兩個算法都使用均方誤差作為性能指標。和LMS算法一樣,用下式近似表示均方誤差:
近似均方誤差的最速下降算法(隨機梯度下降)為:
其中α是學習率。
1.2 LSTM神經網絡
在機器學習中,CNN(卷積神經網絡)在分類問題上表現(xiàn)出色,在解決分類問題的判斷要優(yōu)于大部分分類模型,但是無法理解輸入信息中所含有的序列信息。當輸入的信息為時間序列或序列數(shù)據(jù)時,其中含有復雜的時序關聯(lián)。RNN(循環(huán)神經網絡)模型正是解決時序問題誕生的,RNN具有“記憶”能力,能保留輸入信息前后的關聯(lián)。但是隨著時間的推移,神經網絡的誤差函數(shù)的梯度呈指數(shù)增長或下降,從而導致梯度爆炸或梯度消失。
LSTM(長短記憶神經網絡),一種特殊的RNN網絡,能有效的解決梯度爆炸或梯度消失的問題。
LSTM模型中的一個LSTM單元中有一個cell負責將可能需要的信息進行儲存,而儲存那些信息并將需要的信息輸入到下一個LSTM單元則由門來決定。這些門是邏輯單元,每個LSTM單元有三個門——遺忘門,輸入門與輸出門。
遺忘門負責控制遺忘上層的隱藏細胞信息。上一個LSTM單元的隱藏狀態(tài)ht-1與該單元的輸入xt通過一個激活函數(shù)輸出隱藏門的ft。
ft等于1時,記憶單元的保存信息,ft等于0時,記憶單元會遺忘之前的信息。
輸入門由兩部分組成
然后更新細胞狀態(tài)Ct,通過遺忘門處理上一個細胞狀態(tài)Ct-1
更新完細胞狀態(tài)Ct后,到了輸出門
生成新的隱藏狀態(tài)ht然后輸入結果與傳入下一個LSTM單元。
2 ?基于貝葉斯集成長短記憶神經網絡
2.1 貝葉斯公式
貝葉斯學派認為, 先驗分布反映了試驗前對總體參數(shù)分布的認識, 在獲得樣本信息后, 對這個認識有了改變, 其結果就反映在后驗分布中, 即后驗分布綜合了先驗分布和樣本的信息。
貝葉斯公式:
P(A)是A的先驗概率或邊緣概率。稱為先驗是因為與B無關不受事件B影響。
P(A|B)是已知B為條件的A的條件概率,也由于得自B的取值而被稱作A的后驗概率。
P(B|A)是已知A為條件的B的條件概率,也由于得自A的取值而被稱作B的后驗概率。
P(B)是B的先驗概率或邊緣概率。
集成學習提供了一種估計不確定性的方法:它將多個獨立神經網絡的估計集合起來,這些神經網絡由不同的初始化方法訓練而成,有時還在訓練數(shù)據(jù)的噪聲上訓練。集成預測的方差可以解釋為其不確定性。最吸引人的是,集成方法可以很好地擴展到大量參數(shù)設置上,并且每個獨立的神經網絡都以一般的方式精確的訓練出來。但是缺點是一般的集成算法不是基于貝葉斯的。不利于集成學習的不確定性量化。
對于單個神經網絡,正則化可以防止過擬合。但是當進行集成學習時,正則化會產生不好的結果,因為它鼓勵集成中的所有神經網絡使用相同的單一解決方案。因此,對通常的集成學習過程的修正,從先驗分布中提取值的參數(shù)的正則化。為不確定性量化提供了一種實用的、可擴展的方法。
過程的修正通過loss函數(shù)。
2.2 貝葉斯集成神經網絡算法
Input 訓練數(shù)據(jù)集X_train&Y_train、測試數(shù)據(jù)集X_val&y_val、先驗均值、先驗協(xié)方差,集成學習器數(shù)量N、數(shù)據(jù)噪聲方差估計。
Output 預測值
#設置正則化矩陣
#訓練集成模型
For i in range(N)
通過μ0與對NNi神經網絡進行初始化
初始化參數(shù)
NNi神經網絡帶入()
End for
For i in range(N)
End for
Return
為了更好地對時間序列進行預測,將貝葉斯集成神經網絡(BNN)改進為貝葉斯集成長短記憶網絡(BLSTM)。
通過μ0與對LSTMi神經網絡進行初始化
初始化參數(shù)
LSTMi神經網絡帶入()
End for
For i in range(N)
3 ?實驗分析
本文使用的數(shù)據(jù)為上證50是日數(shù)據(jù),由2015年1月1日—2018年12月31日的時間長度??紤]到LSTM模型使用到步長,取其中的900個數(shù)據(jù)作為實驗用數(shù)據(jù)。其中訓練集為80%,即720個,測試集為后20%,即180個數(shù)據(jù)。自變量為上證50漲跌幅的分判定。自變量為上證50的當天收盤價,最高價,最低價,開盤價,成交量,量比,KDJ的K,D,J指標與MACD指標。自變量做歸一化處理。
根據(jù)樣本結果與真實值分以下四種:
TP——真正例:預測為正例,真實為正例。
FN——假反例:預測為反例,真實為正例。
FP——假正例:預測為正例,真實為反例。
TN——真反例:預測為反例,真實為反例。
查準率P為:
查全率R為:
神經網絡的參數(shù)設置LSTM模型的步長為5,集成學習器數(shù)量為5,LSTM模型的隱藏層單元數(shù)量為128,分塊數(shù)量batch為360,即將測試集分為兩塊,學習度為0.005。隱藏層第一層的初始權重為,隱藏層第二層的初始權重。數(shù)據(jù)噪聲為0.001。
由表1可以看出集成LSTM神經網絡要優(yōu)于集成RNN神經網絡,而貝葉斯集成LSTM神經網絡要比集成LSTM神經網絡與集成RNN神經網絡。貝葉斯集成LSTM神經網絡與集成LSTM神經網絡上,在正確率有1.14%的提升,在查準率有1.10%的提升,查全率有2.02%的提升,AUC有1.12%的提升。
4 ?結語
一個貝葉斯集成長短記憶神經網絡。使用該集成網絡對我國上證50指數(shù)進行預測。通過實驗驗證了正確率,查準率,查全率與AUC指標得出以下記錄:
(1)3種集成神經網絡的正確率與AUC都大于50%,證明集成神經網絡對上證50的預測有參考價值。
(2)貝葉斯集成LSTM神經網絡與集成LSTM神經網絡上,在正確率有1.14%的提升,在查準率有1.10%的提升,查全率有2.02%的提升,AUC有1.12%的提升。證明結合貝葉斯后的集成LSTM神經網絡要優(yōu)于一般的集成神經網絡。
參考文獻
[1] 楊海深,傅紅卓.基于貝葉斯正則化BP神經網絡的股票指數(shù)預測[J].科學技術與工程,2009,9(12):3306-3310,3318.
[2] 田凱,孫永泰,高慧,等.貝葉斯算法BP神經網絡缺陷量化研究[J].中國測試,2014,40(3):93-97.
[3] 孫瑞奇. 基于LSTM神經網絡的美股股指價格趨勢預測模型的研究[D].首都經濟貿易大學,2016.