国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

XGBoost-ESN組合模型股價預測方法

2022-02-23 23:55谷嘉煒,韋慧
關鍵詞:最小二乘法

谷嘉煒,韋慧

摘要:提出XGBoost-ESN組合模型股價預測方法.使用網格搜索法對XGBoost模型和ESN模型進行參數優(yōu)化并改進模型結構,利用最小二乘法聯(lián)合XGBoost和ESN進行數據預測.測試結果表明,改進的XGBoost-ESN組合模型能有效減少預測誤差,對股票價格預測的精度更高.

關鍵詞:XGBoost;ESN;網格搜索;最小二乘法;股價預測

[中圖分類號]TP181[文獻標志碼]A

XGBoost-ESN Combined Model Stock Price Prediction Method

GU Jiawei*,WEI Hui

(College of Mathematics and Big Data,Anhui University of Science and Technology,Huainan 232000,China)

Abstract:A stock price prediction method of XGBoost-ESN combined model is proposed.The grid search method is used to optimize the parameters of the XGBoost model and the ESN model and improve the model structure.The least square method is used to combine the XGBoost and ESN for data prediction.The test results show that the improved XGBoost-ESN combination model can effectively reduce the prediction error and has higher accuracy in stock price prediction.

Key words:XGBoost;ESN;grid search;least square method;stock price prediction

面對不穩(wěn)定的股票市場,如何合理、充分地預測股票價格一直是學者研究的重點問題.機器學習方法憑借其強大的網絡模型結構和較好的泛化能力,在股票價格預測領域得到了廣泛應用.然而單一模型在處理非線性問題時效果并非十分理想.單一預測模型難以全面反映數據信息、充分挖掘數據中隱藏規(guī)律.組合模型可以在一定程度上克服這些不足,提升預測精度,預測性能更好、預測精度較高.任君[1]等將支持向量機和長短期記憶網絡與Lasso方法相結合,預測股票漲跌.李敬德[2]等基于信息熵和BP神經網絡對信號奇異點進行智能識別和定位.熊景華[3]等組合隨機森林算法和模糊信息粒化,提升匯率預測精度.王徐凱[4]等組合長短期記憶網絡和隨機森林,精準預測武漢市PM2.5濃度.

XGBoost (eXtreme gradient boosting)算法有優(yōu)化速度快、時間復雜度低、預測精度高等優(yōu)點.[5]ESN(echo state network)[6]是一種改進的RNN模型,解決了RNN的梯度消失和爆炸問題,很好地克服了傳統(tǒng)神經網絡帶來的不足.該模型具有的短期記憶能力可應用于股票價格預測中,使預測誤差明顯低于其他方法,極大地提升了股票價格預測精度.[7]黃卿[8]將XGBoost模型應用于股票價格的預測,其預測精度顯著高于神經網絡和支持向量機.胡郁蔥[9]等將XGBoost算法應用于共享單車短時需求量預測,預測結果對比BP神經網絡、ARMA、KNN算法具有更優(yōu)的預測能力.王燕[10]等將改進的XGBoost算法應用于短期股價預測中,預測結果相比梯度增強決策樹和支持向量機具有更高的預測精度.莊仲[11]等提出一種包含兩個儲備池的回聲狀態(tài)網絡預測廣州市的每日電量,預測精度較高.李莉[12]等提出ESNGTP模型并用于個股每日收盤價預測,表明該模型具有較優(yōu)的預測能力.陳明揚[13]等提出AFOA-ESN模型用于旅游需求預測,預測結果對比自回歸移動平均、支持向量機、BP神經網絡算法具有更高的預測精度.鑒于XGBoost及ESN在股票價格預測上表現(xiàn)出的良好性能,本文融合XGBoost與ESN模型,引入網格搜索法[14],對兩種模型的參數進行優(yōu)化,給出XGBoost-ESN組合模型,用于股票價格預測.

1XGBoost-ESN組合模型

1.1XGBoost模型

XGBoost集成弱分類器為一個強分類器[5],算法訓練過程核心在于不斷地進行迭代,生成一棵新樹擬合前一棵樹的殘差,以此來達到更高的精度.利用XGBoost算法較好擬合股票價格數據的優(yōu)勢,以達到降低預測誤差的目的,提升預測精度.

使用CART回歸樹模型,XGBoost模型表達式為:

y︿i=∑Kk=1fk(xi),fk∈F.(1)

式中,y︿i為預測值,fk是第k棵決策樹,K為樹的數目,xi為輸入的第i個數據,F(xiàn)為所有可能的CART集合.

模型的目標函數為:

O bj=∑i=1l(y︿,yi)+∑kΩ (fk)+c,

Ω (fk)=γT+12λ‖ω‖2=γT+12λ∑Tj=1ω2j.(2)

其中,l(yi,y︿i)為損失函數,Ω (fk)表示正則項,γ和λ是對模型的懲罰系數,T和ω表示第k棵樹的葉子樹目和葉子權重;c是常數項.

為了簡化損失函數,使用加法模型,即迭代不影響原模型,每一次添加一個新函數到模型里,化簡后得公式(3):

O bj(t)≈∑ni=1gift(xi)+12hif2t(xi)+Ω (ft).(3)

其中,gi=y︿(t-1)lyi,y︿(t-1)i,hi=2y︿(t-1)lyi,y︿(t-1)i.公式(3)與正則項合并同類項后得到公式(4):

O bj(t)≈∑Tj=1∑i∈Ijgiωj+12∑i∈Ijhi+λω2j+γT

=-12∑Tj=1G2jHj+λ+γT.(4)

其中,Gj=∑i∈I,Hj=∑i∈Ihi.

1.2回聲狀態(tài)網絡ESN

回聲狀態(tài)網絡由三部分組成[15]:一個隨機生成的輸入層,一個高維稀疏的儲備池,以及一個唯一需要學習的輸出層.其中,輸入層權重和儲備池權重都是從特定分布中隨機采樣生成并在訓練階段固定,無需學習,而唯一需要學習的輸出層權重可以通過回歸方法簡單求解.回聲狀態(tài)網絡的核心結構儲備池類似于傳統(tǒng)神經網絡的隱含層,包含大量稀疏連接的神經元,可以通過調整網絡內部權值達到短期訓練記憶功能.模型的拓撲結構如圖1所示.

圖1中,ESN具有K個輸入節(jié)點、N個隱層節(jié)點和L個輸出節(jié)點.其中,Win是輸入層到儲備池的反饋,Wres為儲備池內部的反饋矩陣,Wout是儲備池到輸出層的反饋,Wback表示輸出層到儲備池的反饋.在t時刻輸入層的輸入為u(t)=u1(t),u2(t),…,uK(t)T,儲備池內部狀態(tài)為x(t)=x1(t),x2(t),…,xN(t)T.回聲狀態(tài)網絡從特定的初始回聲狀態(tài)x(0)開始進行前向傳播計算,其回聲狀態(tài)更新公式以及輸出更新公式為:

x(t+1)=gWin×u(t+1)+Wres×x(t)+Wback×y(t).(5)

y(t+1)=goutWoutx(t+1),u(t+1),y(t).(6)

其中g和gout為對應的激活函數.

在ESN訓練過程中,Win,Wback和Wres隨機初始化生成后保持固定不變,Wout需要訓練生成.

1.3XGBoost-ESN組合模型

采用網格搜索法對XGBoost和ESN模型進行參數優(yōu)化.網格搜索法[14]排列組合各個參數的可能取值,劃分網格,逐一訓練參數取各網格點時的模型,最后返回一個最佳參數組合,將模型調整至最優(yōu).由于每個參數組合相互獨立,網格搜索法有著可并行高且搜索更加全面的優(yōu)點.

為解決選擇默認參數影響模型性能的問題,構建改進的XGBoost和改進的ESN預測模型.基于XGBoost與ESN加權融合的組合模型進行股價預測,利用模型結構的差異性提升融合預測結果的準確性.首先由XGBoost和ESN模型分別對股價進行預測,然后根據最小二乘法賦予權重,最后給出模型最終預測結果.

設XGBoost和ESN在t時刻的預測值分別為P1(t),P2(t),假設XGBoost和ESN的權重分別為α1,α2,最終的預測結果為:

P(t)=α1P1(t)+α2P2(t),α1+α2=1.(7)

其中,α1,α2的值由最小二乘法確定.改進的XGBoost-ESN組合模型構建流程如圖2所示.

1.4評價指標

為了評價模型的預測精度,使用均方根誤差(RMSE)和平均百分比誤差(MAPE)作為衡量指標.

RMSE=1n∑ni=1(yi-y︿i)2.(8)

MAPE=100%n∑ni=1y︿i-yiyi.(9)

式中,yi表示第i天調整后的股票收盤價真實值,y︿i表示預測值,n為樣本個數.

2實驗及其結果分析

2.1數據選取及預處理選取蘋果(AAPL)、CRSP美國總市場指數(VTI)、比亞迪(002594)、格力電器(000651)四組包含國內外公司和市場指數的股票價格作為預測目標.選取從2018年1月1日到2020年12月31日的日交易數據(下載自Python中pandas-datareader包下的Yahoo財經),包括每天的開盤價、最高價、最低價、收盤價、交易量和調整后的收盤價,目標變量為調整后的收盤價,驗證融合模型方法對股市預測的有效性.

處理后的數據分為80%的訓練集和20%測試集,分別用來訓練模型以及評估模型預測效果.為了拓展模型的預測范圍,縮放序列集合的特征值均值為0,方差為1.利用這些縮放的特征值做預測,得到的預測值也做同樣的縮放處理.

2.2參數優(yōu)化

對訓練集數據,結合網格搜索算法的思想優(yōu)化XGBoost模型和ESN模型參數,選擇最優(yōu)參數組合.以蘋果公司股票為例討論XGBoost模型參數優(yōu)化.

XGBoost算法參數有三類:通用參數,由宏觀函數控制;Booster參數,調控每次迭代的模型;學習目標參數,控制訓練目標和度量方法.Booster參數是對模型效果影響較大的部分,也是調參的重點.本文依次調節(jié)模型中的各參數,結果見表1.

ESN儲存池一般都是隨機初始化的,這樣的模型結構很難達到最優(yōu).因此本文主要用網格搜索法優(yōu)化對ESN性能影響較大的兩個關鍵參數、儲存池譜半徑和儲備池縮放因子.步驟:(1)構建評價指標函數;(2)對儲備池譜半徑和稀疏性參數執(zhí)行網格搜索(設置變化范圍:譜半徑[0.5,1.5]、稀疏性[0.001,0.01]);(3)對于每一組(譜半徑、稀疏性),訓練RC并進行預測;(4)對于每個驗證集,計算RMSE并存儲它;(5)顯示譜半徑和稀疏性不同值時的均方根誤差并給出模型最優(yōu)參數.

2.3實驗結果分析

對數據集后20%的數據進行預測,并與移動平均、線性回歸、XGBoost和ESN模型預測的值進行對比,預測結果見表2.由表2可知,改進的XGBoost-ESN組合模型表現(xiàn)出良好的預測性能,改進算法提高了預測的精度.

圖3-圖6為測試集的預測結果,顯示改進的XGBoost-ESN組合模型股價預測值與實際值擬合度較高,表明對XGBoost模型和ESN模型分別使用網格搜索法進行參數優(yōu)化后,可以有效改進模型結構提升模型性能,使股票價格的預測精度較高.

3結論

本文提出XGBoost-ESN組合模型股價預測方法.使用網格搜索法對XGBoost模型和ESN模型進行參數優(yōu)化并改進模型結構,利用最小二乘法聯(lián)合XGBoost和ESN進行數據預測.對蘋果、CRSP美國總市場指數、格力電器、比亞迪四支股票進行分析預測的結果表明,改進的XGBoost-ESN組合模型性能明顯優(yōu)于傳統(tǒng)預測模型和單一模型方法,具有更高的預測精度.

模型還存在選擇的輸入特征參數不夠全面等問題,后期考慮增加影響股票行情變化的新聞輿論、公司狀況、國家政策、股民情緒等特征來訓練模型,進一步提升模型的預測精度.

參考文獻

[1]任君,王建華,王傳美,等.基于ELSTM-L模型的股票預測系統(tǒng)[J].統(tǒng)計與決策,2019,35(21):160-164.

[2]李敬德,康維新.基于信息熵和BP神經網絡的信號奇異點智能檢測[J].牡丹江師范學院學報:自然科學版,2017(4): 1-5+43.

[3]熊景華,茹璟.基于隨機森林算法和模糊信息?;膮R率預測組合模型研究[J].數量經濟技術經濟研究,2021,38(1):135-156.

[4]王徐凱,余華銀,楊桂元,等.基于多層組合模型的武漢市月平均PM2.5濃度預測[J].牡丹江師范學院學報:自然科學版,2021(1):7-11.

[5]Chen T,Guestrin C.XGBoost:A scalable tree boosting system[C]//ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.San Francisco,USA:ACM,2016:785-794.

[6]Jaeger,H.Harnessing Nonlinearity:Predicting chaotic systems and saving energy in wireless communication[J].Science,2004,304(5667):78-80.

[7]Lee M C.Using support vector machine with a hybrid feature selection method to the stock trend prediction[J].Expert Systems with Applications,2009,36(8):10896-10904.

[8]黃卿,謝合亮.機器學習方法在股指期貨預測中的應用研究—基于BP神經網絡、SVM和XGBoost的比較分析[J].數學的實踐與認識,2018,48(8):297-307.

[9]胡郁蔥,張筑杰,王曉晴.基于Xgboost算法的共享自行車短時需求預測研究[J].武漢理工大學學報:交通科學與工程版,2019,43(2):231-235+241.

[10]王燕,郭元凱.改進的XGBoost模型在股票預測中的應用[J].計算機工程與應用,2019,50(20):202-207.

[11]莊仲,伍銘妍,劉沖.基于雙儲備池回聲狀態(tài)網絡的電力負荷預測[J].控制工程,2020,27(6):1032-1036.

[12]李莉,程露.基于改進回聲狀態(tài)神經網絡的個股股價預測[J].計算機系統(tǒng)應用,2020,29(2):212-218.

[13]陳明揚,王林,余曉曉.改進果蠅算法優(yōu)化回聲狀態(tài)網絡的旅游需求預測研究[J].計算機工程與科學,2020,42(2):307-316.

[14] Hokamp C,Liu Q.Lexically constrained decoding for sequence generation using grid beam search[J].Association for Computational Linguistics,2017,55(1):1535-1546.

[15]Jaeger H."echo state" approach to analyzing and training recurrent neural networks[R].Berlin:German National Research Center for Information Technology,2011.

編輯:琳莉

猜你喜歡
最小二乘法
基于壓電陶瓷的納米定位與掃描平臺模型辨識算法研究
基于慣導角度量測的軌道平面最佳線形參數估計算法
馬爾科夫鏈在市場預測中的應用
一種改進的基于RSSI最小二乘法和擬牛頓法的WSN節(jié)點定位算法
最小二乘法基本思想及其應用
全國各省份經濟發(fā)展影響因素的實證分析
全國主要市轄區(qū)的房價收入比影響因素研究
手動求解線性回歸方程的方法和技巧
一種基于最小二乘法的影子定位技術
基于最小二乘擬合的太陽影子定位模型
莲花县| 新疆| 芦山县| 和林格尔县| 新田县| 隆化县| 永州市| 宝山区| 竹山县| 昂仁县| 玉田县| 通榆县| 太和县| 海阳市| 长寿区| 策勒县| 玉屏| 图片| 西吉县| 西青区| 华池县| 孟连| 贵德县| 额敏县| 来宾市| 义乌市| 新晃| 东乡县| 红桥区| 仪陇县| 丰镇市| 会同县| 墨竹工卡县| 瑞安市| 贞丰县| 巩义市| 会宁县| 浮梁县| 沂南县| 荆门市| 泗水县|