黃后菊 李波
摘要:針對(duì)股票價(jià)格非平穩(wěn)、非線性和高復(fù)雜等特性引發(fā)的預(yù)測(cè)難度大的問題,建立一種基于變分模態(tài)分解(VariationalModeDecomposition,VMD)-Circle混沌映射的麻雀搜索算法(CircleSparrowSearchAlgorithm,CSSA)-長(zhǎng)短期記憶(LongShort-TermMemory,LSTM)神經(jīng)網(wǎng)絡(luò)的組合模型——VMD-CSSA-LSTM.首先,利用VMD將原始股票收盤價(jià)數(shù)據(jù)分解為若干本征模態(tài)函數(shù)(IntrinsicModeFunction,IMF)分量.然后,采用Circle混沌映射的SSA算法對(duì)LSTM神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元、迭代次數(shù)、學(xué)習(xí)率進(jìn)行優(yōu)化,將最優(yōu)參數(shù)擬合至LSTM網(wǎng)絡(luò)中.最后,對(duì)每個(gè)IMF分量建模預(yù)測(cè),將各分量預(yù)測(cè)結(jié)果疊加得到最終結(jié)果.實(shí)驗(yàn)結(jié)果表明,與其他模型相比,本文模型在多支股票數(shù)據(jù)集上的均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)及平均絕對(duì)百分比誤差(MAPE)均達(dá)到最小,預(yù)測(cè)股票收盤價(jià)格誤差在0附近波動(dòng),穩(wěn)定性更優(yōu)、擬合更佳、精確度更高.
關(guān)鍵詞股票價(jià)格預(yù)測(cè);變分模態(tài)分解;麻雀搜索算法;Circle混沌映射;長(zhǎng)短期記憶網(wǎng)絡(luò)
中圖分類號(hào)TP391
文獻(xiàn)標(biāo)志碼A
0引言
股票預(yù)測(cè)是指通過分析股票市場(chǎng)的歷史數(shù)據(jù)預(yù)測(cè)未來股票價(jià)格的變化趨勢(shì)[1].在處理大規(guī)模、高復(fù)雜度的股票數(shù)據(jù)時(shí),傳統(tǒng)的統(tǒng)計(jì)預(yù)測(cè)方法難以獲得理想的效果.隨著信息技術(shù)的發(fā)展,深度學(xué)習(xí)憑借更專業(yè)的特征學(xué)習(xí)在股價(jià)預(yù)測(cè)過程中凸顯其泛化性與準(zhǔn)確性.
作為深度學(xué)習(xí)中典型的時(shí)序預(yù)測(cè)網(wǎng)絡(luò),長(zhǎng)短期記憶(LongShort-TermMemory,LSTM)神經(jīng)網(wǎng)絡(luò)在股票價(jià)格領(lǐng)域較為表現(xiàn)出色,例如:Sun等[2]利用LSTM網(wǎng)絡(luò)提取數(shù)據(jù)中的時(shí)間特征,對(duì)上證指數(shù)(000001)進(jìn)行了預(yù)測(cè)分析,預(yù)測(cè)效果優(yōu)于傳統(tǒng)的統(tǒng)計(jì)預(yù)測(cè)法;楊青等[3]利用深層LSTM網(wǎng)絡(luò)對(duì)30只股票指數(shù)不同期限進(jìn)行了預(yù)測(cè)研究,實(shí)驗(yàn)結(jié)果表明LSTM網(wǎng)絡(luò)的泛化能力較為穩(wěn)定.在利用LSTM網(wǎng)絡(luò)預(yù)測(cè)股票的基礎(chǔ)上,學(xué)者們提出了數(shù)據(jù)分解思想,典型分解有經(jīng)驗(yàn)?zāi)B(tài)分解(EmpiricalModeDecomposition,EMD)、動(dòng)態(tài)模態(tài)分解(DynamicModeDecomposition,DMD)和變分模態(tài)分解(VariationalModeDecomposition,VMD).謝游宇等[4]構(gòu)建的EMD與LSTM網(wǎng)絡(luò)組合模型提高了預(yù)測(cè)精度,但容易發(fā)生模態(tài)混疊;史建楠等[5]利用DMD-LSTM混合模型對(duì)鞍鋼股份進(jìn)行了收盤價(jià)預(yù)測(cè),雖能提取一定量模態(tài)信息,但所分解的模態(tài)過多,易混淆主輔模態(tài);蘇煥銀等[6]構(gòu)建了VMD-LSTM混合模型用于時(shí)變序列預(yù)測(cè),證明了較EMD、DMD和單一LSTM網(wǎng)絡(luò),VMD-LSTM能更好地?cái)M合時(shí)變數(shù)據(jù).此外,為提高預(yù)測(cè)精度,Zhang等[7]由麻雀搜索算法(SparrowSearchAlgorithm,SSA)確定了LSTM模型參數(shù),相比經(jīng)驗(yàn)論定義參數(shù),SSA-LSTM模型具有更高的預(yù)測(cè)精度,然而該算法存在初始化隨機(jī)性的特點(diǎn),在后期迭代過程中易陷入局部最優(yōu).
為了進(jìn)一步提高預(yù)測(cè)精度、增強(qiáng)模型穩(wěn)定性,針對(duì)復(fù)雜度高與非線性強(qiáng)的股票數(shù)據(jù),本文提出一種融合VMD、Circle混沌映射的麻雀搜索算法(CircleSparrowSearchAlgorithm,CSSA)與LSTM網(wǎng)絡(luò)的股票價(jià)格預(yù)測(cè)模型——VMD-CSSA-LSTM.首先,利用VMD對(duì)原始股票收盤價(jià)序列進(jìn)行變分模態(tài)分解,為將分解損耗約束到最低,使用約束條件確定分解模態(tài)數(shù),得到k個(gè)表征局部特征的本征模態(tài)函數(shù)分量(IntrinsicModeFunction,IMF),在確保分解損耗為最低時(shí)剔除部分噪聲分量,以此泛化非線性股票數(shù)據(jù)、降低數(shù)據(jù)復(fù)雜度.隨后,利用Circle混沌映射初始化SSA算法,使得SSA初始化麻雀分布均勻,避免迭代過程中陷入局部最優(yōu),并由該算法對(duì)LSTM的隱含層神經(jīng)元、迭代次數(shù)、學(xué)習(xí)率參數(shù)尋優(yōu),以提高組合模型的魯棒性.最后,將最優(yōu)參數(shù)擬合到LSTM網(wǎng)絡(luò),對(duì)各IMF建模并預(yù)測(cè)股票收盤價(jià),疊加各IMF與其余輸入量預(yù)測(cè)結(jié)果得出最終預(yù)測(cè)值.
1算法原理
1.1VMD分解算法
變分模態(tài)分解(VMD)是一種新型的時(shí)頻分析方法,能把多分量信號(hào)一次分解為若干個(gè)單分量調(diào)幅調(diào)頻信號(hào),規(guī)避了迭代過程中的節(jié)點(diǎn)效應(yīng)與虛假分量現(xiàn)象.VMD方法利用構(gòu)建并求解約束變分問題,將原始信號(hào)分解為特定數(shù)量的IMF分量,能有效處理非線性、非平穩(wěn)信號(hào).具體步驟如下:
1)由希爾伯特變換求解出各模態(tài)的解析信號(hào)且構(gòu)建頻譜,得到每個(gè)模態(tài)函數(shù)在t時(shí)刻的解析信號(hào):
2)對(duì)各模態(tài)解析信號(hào)估算的中心頻率進(jìn)行修正,將模態(tài)的頻譜移到對(duì)應(yīng)的基帶.
3)由解調(diào)信號(hào)的平方范數(shù)估算帶寬,約束條件為帶寬相加最小,其約束條件如下:
1.2基于Circle混沌映射的麻雀搜索算法
1.2.1麻雀搜索算法
麻雀搜索算法(SSA)主要模擬麻雀種群的捕食與反覓食的過程[10].該過程由發(fā)現(xiàn)者、加入者和預(yù)警者共同參與.發(fā)現(xiàn)者在種群中起到搜索和覓食作用,需要較高的適應(yīng)度,搜索范圍廣.加入者主要追隨發(fā)現(xiàn)者,適應(yīng)度相對(duì)較低.預(yù)警者在察覺到種群中的捕食者時(shí),對(duì)種群發(fā)出警告信息,發(fā)現(xiàn)者立即將種群遷徙到安全區(qū)域.于是,麻雀種群的矩陣表示為
式中:l=1為算法的迭代次數(shù)初值;Xz,j表示第z只麻雀在第j維;L為單位行向量;α為[0,1]間的隨機(jī)數(shù);imax為最終的迭代次數(shù);Q為標(biāo)準(zhǔn)正態(tài)分布隨機(jī)數(shù);R2為警告值且R2∈[0,1];Ts為安全值且Ts∈[0.5,1].當(dāng)R2 式中:Xworst為當(dāng)下時(shí)刻種群最差位置;Xq為當(dāng)下時(shí)刻發(fā)現(xiàn)者的最佳位置;D為1×d階矩陣,其元素為±1的隨機(jī)值.通常,種群中有10%~20%的麻雀作為預(yù)警者提供警告信息,其位置更新情況為 式中:gz為當(dāng)前時(shí)刻麻雀的適應(yīng)度;gb為全局最優(yōu)位置的適應(yīng)度;gw為全局最差位置適應(yīng)度;Xbest為當(dāng)前時(shí)刻的全局最優(yōu)位置;β是方差為1、均值為0的正態(tài)分布隨機(jī)數(shù),β為控制步長(zhǎng)的參數(shù);K為[-1,1]間的隨機(jī)數(shù);ε為接近0的常數(shù).當(dāng)gz≠gb時(shí),表示麻雀正處于種群邊緣位置容易遭遇危險(xiǎn);當(dāng)gz=gb時(shí),表示位于種群中心區(qū)域的麻雀收到危險(xiǎn)信息,應(yīng)向其他麻雀靠近以避免被捕食. 1.2.2基于Circle混沌映射的麻雀搜索算法 SSA可隨機(jī)生成初始化種群,存在種群分布不均現(xiàn)象,致使中后期循環(huán)迭代種群多元性快速下降,陷入局部最優(yōu)解難以跳出的問題.本文在初始化種群時(shí)采用Circle混沌映射改進(jìn)種群分布情況,提升種群個(gè)體的多樣化.xi′為第i′個(gè)麻雀的位置,設(shè)x1第一個(gè)麻雀的位置為隨機(jī)初始化值,表達(dá)式如下: 原始SSA隨機(jī)初始化映射與Circle混沌映射對(duì)比如圖1所示.可以看出,Circle相對(duì)原始SSA隨機(jī)映射種群分布更均勻,提高了個(gè)體的隨機(jī)性. 1.3LSTM網(wǎng)絡(luò) LSTM是一種改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò),采用LSTM能有效傳送和表達(dá)較長(zhǎng)時(shí)間序列中的信息且不會(huì)造成較長(zhǎng)時(shí)間前的有效信息被遺忘.LSTM網(wǎng)絡(luò)的單元模塊結(jié)構(gòu)如圖2所示.可以看出,LSTM網(wǎng)絡(luò)采用記憶細(xì)胞記錄傳遞信息.LSTM通過3個(gè)控制門來處理時(shí)滯任務(wù),并利用sigmoid函數(shù)與tanh函數(shù)來更新單元狀態(tài).3個(gè)門分別為遺忘門、輸入門、輸出門.遺忘門選擇上一個(gè)階段的信息多少能留存到現(xiàn)階段單元狀態(tài),輸入門選擇現(xiàn)階段輸入信息多少能保存在現(xiàn)階段單元狀態(tài),輸出門選擇現(xiàn)階段單元狀態(tài)有多少當(dāng)作LSTM的輸出值. 式中:“⊙”為向量之間的點(diǎn)乘;σ為sigmoid函數(shù),其決定哪些信息將被更新;im,Pm和Om分別為在第m個(gè)單元的輸入、遺忘、輸出門控;xm為第m個(gè)單元的輸入;hm-1為第m-1個(gè)單元的輸出;Cm為當(dāng)前時(shí)刻的單元狀態(tài);bi,bc,bp和bo分別為im,C′m,Pm,Om的偏置項(xiàng);Wi,Wc,Wp和Wo分別為im,C′m,Pm,Om的權(quán)重項(xiàng);C′m為候選細(xì)胞信息,函數(shù)tanh用于創(chuàng)建新的C′m,定義為 2VMD-CSSA-LSTM組合模型 本文提出的組合模型流程如圖3所示,具體步驟表述如下: 1)組合模型共有5個(gè)輸入量,分別為開盤價(jià)、最高價(jià)、最低價(jià)、成交量、收盤價(jià).一個(gè)輸出量為收盤價(jià).本文利用VMD僅對(duì)輸入量收盤價(jià)數(shù)據(jù)進(jìn)行變分模態(tài)分解得到第k個(gè)IMF分量. 2)在SSA算法參數(shù)尋優(yōu)前,利用Circle混沌映射初始化種群分布,并劃分發(fā)現(xiàn)者、跟隨者和預(yù)警者,設(shè)置迭代次數(shù)和參數(shù)上下邊界. 3)為使LSTM網(wǎng)絡(luò)結(jié)構(gòu)和股票收盤價(jià)數(shù)據(jù)集最優(yōu)匹配,由SSA算法在LSTM網(wǎng)絡(luò)訓(xùn)練前對(duì)LSTM網(wǎng)絡(luò)的隱含層神經(jīng)元個(gè)數(shù)、迭代次數(shù)、學(xué)習(xí)率尋優(yōu). 4)數(shù)據(jù)集由收盤價(jià)、開盤價(jià)、最高價(jià)、最低價(jià)、成交量5個(gè)維度構(gòu)成.若設(shè)置LSTM網(wǎng)絡(luò)步長(zhǎng)為n,則使用一個(gè)n行5列的矩陣數(shù)據(jù)對(duì)第n+1天的股票收盤價(jià)進(jìn)行預(yù)測(cè)的計(jì)算量較大.于是,在每個(gè)分量建模后,應(yīng)對(duì)數(shù)據(jù)集降維重構(gòu). 5)將最優(yōu)參數(shù)輸入至LSTM模型,通過劃分訓(xùn)練集測(cè)試集進(jìn)行數(shù)據(jù)歸一化.因VMD僅分解了輸入量中收盤價(jià)數(shù)據(jù),利用VMD分解后第k個(gè)收盤價(jià)數(shù)據(jù)的IMF分量與其余輸入量共同預(yù)測(cè)收盤價(jià),將k個(gè)VMD分解后的收盤價(jià)分量與其余輸入量共同預(yù)測(cè)結(jié)果疊加得到最終某交易日的收盤價(jià)(如設(shè)網(wǎng)絡(luò)步長(zhǎng)n為5,將前5個(gè)交易日的開盤價(jià)、最高價(jià)、最低價(jià)、成交量與VMD分解后收盤價(jià)的第1個(gè)IMF分量作為CSSA-LSTM模型輸入,進(jìn)行第6個(gè)交易日的收盤價(jià)預(yù)測(cè),結(jié)果記為A1,繼續(xù)將第2個(gè)IMF分量進(jìn)行第6個(gè)交易日的收盤價(jià)預(yù)測(cè),結(jié)果記為A2,直至得到Ak,則第6日的最終預(yù)測(cè)結(jié)果為A1+…+Ak),最后對(duì)各交易日收盤價(jià)預(yù)測(cè)數(shù)據(jù)進(jìn)行反歸一化,輸出預(yù)測(cè)曲線. 3實(shí)驗(yàn)結(jié)果與對(duì)比分析 3.1數(shù)據(jù)來源 本文研究的原始數(shù)據(jù)集為Tushare財(cái)經(jīng)共享數(shù)據(jù)集(http://tushare.org/),選取上證指數(shù)(000001)為主要實(shí)驗(yàn)股,選取2013-02-22至2023-02-13近10年的開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、交易量為原始數(shù)據(jù),共獲取2425個(gè)上證指數(shù)交易日歷史數(shù)據(jù)(不含空數(shù)據(jù)),將VMD變分模態(tài)分解后的數(shù)據(jù)集作為樣本數(shù)據(jù)集,選取樣本數(shù)據(jù)集的前70%,即2013-02-22至2020-02-13約1697個(gè)交易日的數(shù)據(jù)作為訓(xùn)練樣本集,樣本數(shù)據(jù)集后30%,即2020-02-14至2023-02-13約728個(gè)交易日的數(shù)據(jù)作為測(cè)試樣本集.本文實(shí)驗(yàn)環(huán)境為Windows11、內(nèi)存16GB和MatlabR2020b. 3.2VMD-CSSA-LSTM組合模型股票價(jià)格預(yù)測(cè)方法 3.2.1VMD變分模態(tài)分解 在VMD分解前,需確定所分解的IMF本征模態(tài)函數(shù)的數(shù)目,即確定k值.當(dāng)k值過大時(shí),鄰近模態(tài)分量的中心頻率較為貼近,會(huì)模糊掉部分信號(hào),轉(zhuǎn)換成一部分不需要的噪聲分量,影響最終結(jié)果.當(dāng)k值過小時(shí),獲得的IMF分量數(shù)目少于信號(hào)中有效成分?jǐn)?shù)目,由于分解不完整,造成初始信號(hào)中某些關(guān)鍵信息被濾除.考慮到在分解過程中會(huì)生成無規(guī)律且變化幅度較大的殘差,需要去除殘差.由于去除的殘差量會(huì)造成部分分解損失,本文針對(duì)預(yù)測(cè)精度與分解損失問題,定義分解損失約束條件并由CSSA優(yōu)化算法確定k(2≤k≤20)值.設(shè)不考慮殘差的序列為對(duì)應(yīng)的本征模態(tài)函數(shù)分量之和: 式中:為序列的采樣點(diǎn)數(shù).可以看出,分解損失由R(t)的平均值決定.為使分解損失達(dá)到最小值,此處將分解損失約束條件作為CSSA優(yōu)化算法的目標(biāo)函數(shù),迭代次數(shù)設(shè)為20,尋優(yōu)k值. 圖4通過約束條件確定k值,確保殘差分量攜帶最少的有效信息并將其去除.實(shí)驗(yàn)得出,當(dāng)k=5時(shí)且迭代至第17次時(shí),對(duì)上證指數(shù)(000001)股票收盤價(jià)的分解損失接近1.65且達(dá)到最低,確定k=5為本實(shí)驗(yàn)的IMF分量數(shù)目. 在VMD算法中,輸入序列為上證指數(shù)(000001)股票收盤價(jià).其中:懲罰因子μ=2500;噪聲容忍度為τ=0,表示允許有誤差;中心頻率初始值為1,表示中心頻率均勻初始化;收斂精度為10-6.分解后的5個(gè)IMF分量如圖5所示,本文將去除空數(shù)據(jù)后共計(jì)2425個(gè)上證指數(shù)(000001)交易日歷史收盤價(jià)數(shù)據(jù)分解為5個(gè)IMF分量,圖中截取第1~第1000個(gè)交易日收盤價(jià)數(shù)據(jù)分解后的IMF分量.其中:第1行為原始序列信號(hào);第2~第6行分別為VMD分解的由低頻到高頻的IMF1~I(xiàn)MF5分量.可以看出,將上證指數(shù)(000001)收盤價(jià)數(shù)據(jù)分解成5個(gè)IMF分量,得到5個(gè)相對(duì)平穩(wěn)的股票價(jià)格子序列.其中:IMF1為頻率最低的IMF分量,表示信號(hào)的走勢(shì)或平均值;其他各分量表示原信號(hào)在各頻段的波動(dòng)變化,體現(xiàn)了信號(hào)的局部特征及其深層次信息.IMF5體現(xiàn)了局部信號(hào)波動(dòng)率的發(fā)展趨勢(shì),是最高頻率分量.每個(gè)IMF分量既保留了原始股票價(jià)格信號(hào)的特征又避免了模態(tài)的混疊效應(yīng). 3.2.2CSSA-LSTM組合模型算法 本文將分解后的5個(gè)IMF分量作為樣本數(shù)據(jù)集輸入CSSA-LSTM組合模型.為提高模型表達(dá)能力,使用激活函數(shù)加入非線性因素,該組合模型由輸入層、LSTM層、ReLU激活層、輸出層構(gòu)成.為減少經(jīng)驗(yàn)主觀因素對(duì)組合模型的影響,使用CSSA算法對(duì)隱含層神經(jīng)元數(shù)、迭代次數(shù)、學(xué)習(xí)率3個(gè)參數(shù)進(jìn)行尋優(yōu).設(shè)置LSTM網(wǎng)絡(luò)步長(zhǎng)為5,即以5個(gè)交易日的收盤價(jià)、開盤價(jià)、最高價(jià)、最低價(jià)、交易量預(yù)測(cè)第6天的上證指數(shù)(000001)收盤價(jià),設(shè)置上下邊界. 通常,隱含層神經(jīng)元過少會(huì)導(dǎo)致模型欠擬合,過多會(huì)導(dǎo)致模型過擬合.當(dāng)隱含層神經(jīng)元個(gè)數(shù)小于30時(shí)預(yù)測(cè)結(jié)果欠擬合,而通過下邊界從1開始依次乘自然數(shù)并代入模型,發(fā)現(xiàn)乘到11時(shí)的預(yù)測(cè)結(jié)果過擬合,因此確認(rèn)上邊界為300.據(jù)觀察多次改變隱含層神經(jīng)元個(gè)數(shù)對(duì)預(yù)測(cè)結(jié)果的分析,隱含層神經(jīng)元范圍在[30,300]間的效果較佳. 在對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)時(shí),并非迭代次數(shù)越大,預(yù)測(cè)精度就越高.隨著迭代次數(shù)增加,LSTM網(wǎng)絡(luò)中權(quán)重更新次數(shù)增加,預(yù)測(cè)結(jié)果會(huì)出現(xiàn)過擬合.據(jù)文獻(xiàn)[12]可知,最大迭代次數(shù)在[0,400]間較優(yōu).為降低模型時(shí)間復(fù)雜度,本文通過對(duì)比迭代次數(shù)為1,10,20,…,100的預(yù)測(cè)結(jié)果擬合情況,確定下邊界為30.從400依次減10代入模型觀察并預(yù)測(cè)結(jié)果擬合情況,最終確認(rèn)迭代次數(shù)范圍為[30,300]. 學(xué)習(xí)率過大學(xué)習(xí)速度快,但loss容易出現(xiàn)梯度爆炸;學(xué)習(xí)率過小則收斂速度慢.現(xiàn)有研究常將學(xué)習(xí)率設(shè)為0.1、0.01、0.001和0.0001觀察迭代損失情況.本文中將學(xué)習(xí)率為0.1時(shí),損失值易震蕩,學(xué)習(xí)率為0.0001時(shí),收斂速度過慢,因此將學(xué)習(xí)率設(shè)為[0.001,0.01]. CSSA算法對(duì)以上3個(gè)超參數(shù)尋優(yōu)結(jié)果如表1所示.其中,最大迭代次數(shù)為20,適應(yīng)度函數(shù)選用均方根誤差.考慮到SSA算法中預(yù)警者比例需占麻雀總數(shù)的10%~20%可確保發(fā)現(xiàn)者向安全區(qū)移動(dòng),本文將預(yù)警者的比例設(shè)為最大比例0.2.發(fā)現(xiàn)者在種群中起到搜索和覓食作用,需較高的種群數(shù),因此將發(fā)現(xiàn)者的比例設(shè)為0.7,跟隨者的比例為0.1,CSSA算法同理.此外,模型訓(xùn)練過程優(yōu)化器選用Adam算法. 在迭代過程中,VMD-CSSA-LSTM組合模型在第2次收斂,均方根誤差(RootMeanSquareError,RMSE)為0.05127,而經(jīng)對(duì)比VMD-SSA-LSTM模型在第4次收斂,RMSE誤差為0.05653,本文VMD-CSSA-LSTM組合模型較VMD-SSA-LSTM模型收斂速度更快,RMSE降低約0.0053. 接下來,將得到的最優(yōu)超參數(shù)擬合至LSTM網(wǎng)絡(luò),對(duì)每個(gè)分量進(jìn)行建模.為驗(yàn)證本文對(duì)于股票價(jià)格預(yù)測(cè)構(gòu)建的VMD-CSSA-LSTM組合模型的可靠性和預(yù)測(cè)精度,對(duì)上證指數(shù)(000001)歷史收盤價(jià)數(shù)據(jù)將VMD變分模態(tài)分解后的數(shù)據(jù)集作為樣本數(shù)據(jù)集,選取該集合的前70%,即2013-02-22至2020-02-13約1697個(gè)交易日數(shù)據(jù)作為訓(xùn)練樣本集,選取該集合的后30%,即2020-02-14至2023-02-13約728個(gè)交易日數(shù)據(jù)作為測(cè)試樣本集.本實(shí)驗(yàn)選取LSTM、VMD-LSTM、VMD-SSA-LSTM與本文組合模型對(duì)樣本數(shù)據(jù)集進(jìn)行預(yù)測(cè)對(duì)比,據(jù)文獻(xiàn)[13],將LSTM、VMD-LSTM模型隱含層的神經(jīng)元個(gè)數(shù)設(shè)為100,學(xué)習(xí)率設(shè)為0.001,最優(yōu)迭代次數(shù)設(shè)為10,VMD-SSA-LSTM則通過SSA算法進(jìn)行尋優(yōu)獲得隱含層的神經(jīng)元個(gè)數(shù)為272,學(xué)習(xí)率為0.0091,最優(yōu)迭代次數(shù)為275,再與本文模型做誤差對(duì)比和預(yù)測(cè)結(jié)果對(duì)比.4種模型真實(shí)值與預(yù)測(cè)值的差值對(duì)比如圖6所示.可以看出,在對(duì)測(cè)試集共728條上證指數(shù)(000001)股票價(jià)格數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),單一的LSTM網(wǎng)絡(luò)對(duì)復(fù)雜非線性的上證指數(shù)(000001)價(jià)格預(yù)測(cè)誤差波動(dòng)在[-300,200]之間,本文模型的預(yù)測(cè)誤差在0附近上下波動(dòng),誤差較小,穩(wěn)定性優(yōu)越. 圖7顯示了上證指數(shù)(000001)股票收盤價(jià)預(yù)測(cè)結(jié)果.可以看出,上證指數(shù)(000001)股票收盤價(jià)在2020-02-14至2023-02-13約728個(gè)交易日內(nèi)整體漲跌幅度波動(dòng)較大,前期價(jià)格整體呈上漲階段,收益趨勢(shì)總體走強(qiáng),本文提出的組合模型在整個(gè)過程表現(xiàn)最優(yōu),VMD-SSA-LSTM表現(xiàn)次之.單一的LSTM網(wǎng)絡(luò)與目標(biāo)曲線擬合總體最差,特別是當(dāng)股票價(jià)格漲跌幅波動(dòng)較大時(shí),本文模型能更為精準(zhǔn)地貼合實(shí)際股票收盤價(jià)格,當(dāng)股票收盤價(jià)漲到最高點(diǎn)時(shí),VMD-CSSA-LSTM組合模型曲線值最為接近目標(biāo)預(yù)測(cè)值.在前期上漲階段買入可獲較大回報(bào)率,在測(cè)試集第450個(gè)交易日左右及時(shí)賣出,可有效避免嚴(yán)重的經(jīng)濟(jì)損失. 為提高3個(gè)模型預(yù)測(cè)精確度與可信度,采用RMSE、平均絕對(duì)誤差(MeanAbsoluteError,MAE)、平均絕對(duì)百分比誤差(MeanAbsolutePercentageError,MAPE)3種評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行性能指標(biāo)評(píng)價(jià),訓(xùn)練集性能指標(biāo)如表2所示,測(cè)試集性能指標(biāo)如表3所示.由表2可以看出:本文模型表現(xiàn)最優(yōu),該方法較單一的LSTM網(wǎng)絡(luò)RMSE降低了126.5835,MAE降低了85.42,MAPE降低了3.0074個(gè)百分點(diǎn);較VMD-LSTM預(yù)測(cè)方法RMSE降低了108.0416,MAE降低了65.4001,MAPE降低了2.3999個(gè)百分點(diǎn);較VMD-SSA-LSTM模型RMSE降低了68.866,MAE降低了38.1868,MAPE降低了1.4409個(gè)百分點(diǎn).由表3可以看出,在測(cè)試集中本文模型同訓(xùn)練集表現(xiàn)最優(yōu).由此,在上證指數(shù)上的實(shí)驗(yàn)表明,在復(fù)雜的股票價(jià)格預(yù)測(cè)中本文模型更具優(yōu)勢(shì),可以有效提高股票價(jià)格預(yù)測(cè)精度. 3.2.3模型復(fù)雜度對(duì)比分析 本文模型復(fù)雜度主要由LSTM網(wǎng)絡(luò)的時(shí)間復(fù)雜度和空間復(fù)雜度決定.其中,LSTM網(wǎng)絡(luò)的時(shí)間復(fù)雜度[14]計(jì)算公式如下: 式中:M為輸入序列的長(zhǎng)度;N為輸入特征的維度;H為隱含層神經(jīng)元數(shù);Wtime為L(zhǎng)STM網(wǎng)絡(luò)記憶單元計(jì)算量;4MH2為輸入門、遺忘門、輸出門和候選記憶單元的計(jì)算量;4MNH為輸入門、輸出門和記憶單元的計(jì)算量.在降維重構(gòu)后,存在M=1和N=2425.VMD算法僅分解收盤價(jià)序列,在VMD算法將收盤價(jià)序列分解為5個(gè)分量后,將其維度由重構(gòu)后的M值1變?yōu)?,因此,其時(shí)間復(fù)雜度僅改變公式中的M值.由3.2.2節(jié)可知,在LSTM與VMD-LSTM模型中,H值為100.SSA或CSSA算法在模型中起到參數(shù)尋優(yōu)作用,其僅改變公式中的隱含層神經(jīng)元個(gè)數(shù)H值.因此,在VMD-SSA-LSTM與VMD-CSSA-LSTM模型中,H值為SSA或CSSA算法尋優(yōu)后獲得,分別為272和260. 空間復(fù)雜度可描述算法所占內(nèi)存空間,本文將其視為模型參數(shù)數(shù)量.因模型過萬量級(jí)的參數(shù)量,本文計(jì)算空間復(fù)雜度時(shí)將VMD、SSA和CSSA自帶個(gè)位數(shù)量級(jí)的參數(shù)忽略不計(jì),LSTM網(wǎng)絡(luò)的空間復(fù)雜度計(jì)算公式如下: 由表4可以看出,本文模型時(shí)間復(fù)雜度和空間復(fù)雜度均低于VMD-SSA-LSTM模型,高于LSTM和VMD-LSTM模型.由于LSTM網(wǎng)絡(luò)本身的高復(fù)雜性和本文模型更高的預(yù)測(cè)精度,其時(shí)間復(fù)雜度和空間復(fù)雜度在可接受范圍內(nèi). 3.2.4模型有效性驗(yàn)證 為驗(yàn)證本模型的有效性和魯棒性,本文另選取比亞迪(002594)、工商銀行(IDCBY)和貴州茅臺(tái)(600519)3只個(gè)股進(jìn)行驗(yàn)證.實(shí)驗(yàn)環(huán)境、數(shù)據(jù)來源與模型同上證指數(shù),選取2013-02-22至2023-02-13近10年的開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、交易量為原始數(shù)據(jù),劃分前70%為訓(xùn)練集,后30%為驗(yàn)證集.當(dāng)k=5時(shí),由于工商銀行(IDCBY)為美股,與另外2只個(gè)股略有差別,其分解損失約0.007美元.比亞迪(002594)分解損失約0.153元,貴州茅臺(tái)(600519)分解損失約1.092元.由于美股節(jié)假日開盤情況與中國略微差別,因此工商銀行(IDCBY)驗(yàn)證集為755個(gè)交易日數(shù)據(jù).圖8顯示了這3只個(gè)股收盤價(jià)預(yù)測(cè)結(jié)果,紅色曲線為本文模型,黑色曲線為實(shí)際目標(biāo)數(shù)據(jù),藍(lán)色曲線為VMD-SSA-LSTM模型.可以看出,本文模型最為靠近真實(shí)目標(biāo)曲線,VMD-SSA-LSTM模型稍次之,VMD-LSTM模型和LSTM網(wǎng)絡(luò)雖與實(shí)際目標(biāo)數(shù)據(jù)走勢(shì)大致相同,但與實(shí)際目標(biāo)數(shù)據(jù)擬合較差.本文模型較其他3個(gè)模型更為平穩(wěn),能反映股票的整體收盤價(jià)走勢(shì),且能在估計(jì)細(xì)微變化時(shí)取得較好的預(yù)測(cè)效果. 4結(jié)語 為提高股票價(jià)格預(yù)測(cè)的穩(wěn)定性和精確度,本文融合了VMD算法,引入Circle混沌映射的SSA算法和LSTM網(wǎng)絡(luò)模型,提出一種組合模型——VMD-CSSA-LSTM.經(jīng)過對(duì)上證指數(shù)(000001)收盤價(jià)預(yù)測(cè)的分析,得出如下結(jié)論: 1)VMD算法將股票價(jià)格時(shí)間序列分解成多個(gè)平穩(wěn)的IMF分量,降低了數(shù)據(jù)復(fù)雜度,減少了部分測(cè)試誤差噪聲干擾,提高了預(yù)測(cè)精度. 2)在SSA算法引入Circle混沌映射初始化種群分布,提高了迭代收斂速度并降低了迭代誤差.選擇CSSA算法進(jìn)行LSTM網(wǎng)絡(luò)隱含層參數(shù)優(yōu)化,提高了預(yù)測(cè)的穩(wěn)定性和魯棒性. 由于股票收盤價(jià)格預(yù)測(cè)在一定程度上受投資者主觀因素影響,本文模型還有改進(jìn)的空間.下一步擬將投資者情緒引入到本文模型以取得更好的預(yù)測(cè)結(jié)果.此外,本文模型側(cè)重于預(yù)測(cè)精度的提高,其時(shí)間復(fù)雜度和空間復(fù)雜度難以兼顧到最低.因此,對(duì)本文模型時(shí)間復(fù)雜度和空間復(fù)雜度的優(yōu)化還有待深入研究. 參考文獻(xiàn) References [1] 楊智勇,葉玉璽,周瑜.基于BiLSTM-SA-TCN時(shí)間序列模型在股票預(yù)測(cè)中的應(yīng)用[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,15(6):643-651 YANGZhiyong,YEYuxi,ZHOUYu.ApplicationofBiLSTM-SA-TCNtimeseriesmodelinstockpriceprediction[J].JournalofNanjingUniversityofInformationScience&Technology(NaturalScienceEdition),2023,15(6):643-651 [2]SunY,SunQS,ZhuS.PredictionofShanghaistockindexbasedoninvestorsentimentandCNN-LSTMmodel[J].JournalofSystemsScienceandInformation,2022,10(6):620-632 [3]楊青,王晨蔚.基于深度學(xué)習(xí)LSTM神經(jīng)網(wǎng)絡(luò)的全球股票指數(shù)預(yù)測(cè)研究[J].統(tǒng)計(jì)研究,2019,36(3):65-77 YANGQing,WANGChenwei.AstudyonforecastofglobalstockindicesbasedondeepLSTMneuralnetwork[J].StatisticalResearch,2019,36(3):65-77 [4]謝游宇,王萬雄.基于EMD和SSA的股票預(yù)測(cè)模型[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(18):285-292 XIEYouyu,WANGWanxiong.StockforecastingmodelbasedonEMDandSSA[J].ComputerEngineeringandApplications,2023,59(18):285-292 [5]史建楠,鄒俊忠,張見,等.基于DMD-LSTM模型的股票價(jià)格時(shí)間序列預(yù)測(cè)研究[J].計(jì)算機(jī)應(yīng)用研究,2020,37(3):662-666 SHIJiannan,ZOUJunzhong,ZHANGJian,etal.ResearchofstockpricepredictionbasedonDMD-LSTMmodel[J].ApplicationResearchofComputers,2020,37(3):662-666 [6]蘇煥銀,彭舒婷,曾瓊芳,等.基于VMD-LSTM混合模型的城際高速鐵路時(shí)變客流預(yù)測(cè)[J].鐵道科學(xué)與工程學(xué)報(bào),2023,20(4):1200-1210 SUHuanyin,PENGShuting,ZENGQiongfang,etal.Forecastoftime-dependentpassengerflowofintercityhigh-speedrailwaybasedonVMD-LSTMmixedmodel[J].JournalofRailwayScienceandEngineering,2023,20(4):1200-1210 [7]ZhangYY,HeD,WuQY.ForecastingofPM2.5concentrationtimeseriesbasedonSSA-LSTMmodel[C]//InternationalConferenceonStatistics,DataScience,andComputationalIntelligence(CSDSCI2022).SPIE,2023,12510:373-380 [8]姜超,李國富.改進(jìn)VMD-LSTM法在刀具磨損狀態(tài)識(shí)別中的應(yīng)用[J].機(jī)械科學(xué)與技術(shù),2022,41(2):246-252 JIANGChao,LIGuofu.ApplicationofmodifiedVMDandLSTMintoolwearstaterecognitionmodel[J].MechanicalScienceandTechnologyforAerospaceEngineering,2022,41(2):246-252 [9]張晨陽,張亞,李培英,等.基于變分模態(tài)分解的侵徹過載信號(hào)特征提?。跩].探測(cè)與控制學(xué)報(bào),2021,43(3):16-21 ZHANGChenyang,ZHANGYa,LIPeiying,etal.Featureextractionofpenetrationoverloadsignalbasedonvariationalmodedecomposition[J].JournalofDetection&Control,2021,43(3):16-21 [10]左亞輝,謝源,鄒定江,等.基于混沌麻雀搜索算法的PMSM直接轉(zhuǎn)矩控制[J].組合機(jī)床與自動(dòng)化加工技術(shù),2023(2):174-177 ZUOYahui,XIEYuan,ZOUDingjiang,etal.PMSMdirecttorquecontrolbasedonchaoticsparrowsearchalgorithm[J].ModularMachineTool&AutomaticManufacturingTechnique,2023(2):174-177 [11]柴巖,孫笑笑,任生.融合多向?qū)W習(xí)的混沌麻雀搜索算法[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(6):81-91 CHAIYan,SUNXiaoxiao,RENSheng.Chaoticsparrowsearchalgorithmbasedonmulti-directionallearning[J].ComputerEngineeringandApplications,2023,59(6):81-91 [12]劉明,寧靜.基于SSA-LSTM的重大突發(fā)疫情演化預(yù)測(cè)方法[J].信息與管理研究,2022,7(6):16-29 LIUMing,NINGJing.EvolutionarypredictionmethodofmajorepidemicoutbreakbasedonSSA-LSTM[J].JournalofInformationandManagement,2022,7(6):16-29 [13]李秀昊,劉懷西,張智勇,等.基于VMD-LSTM的超短期風(fēng)向多步預(yù)測(cè)[J].南方能源建設(shè),2023,10(1):29-38 LIXiuhao,LIUHuaixi,ZHANGZhiyong,etal.Veryshort-termwinddirectionmultistepforecastbasedonVMD-LSTM[J].SouthernEnergyConstruction,2023,10(1):29-38 [14]LinML,ChenCX.Short-termpredictionofstockmarketpricebasedonGAoptimizationLSTMneurons[C]//Proceedingsofthe20182ndInternationalConferenceonDeepLearningTechnologies,2018:66-70 StockpricepredictionbasedonVMD-CSSA-LSTMcombinationmodel HUANGHouju1LIBo1 1SchoolofElectronics&InformationEngineering,LiaoningUniversityofTechnology,Jinzhou121001,China AbstractToaddresstheproblemsofstockpricepredictionduetoitsnon-static,highlycomplexandrandomfluctuations,acombinationmodelbasedonVariationalModeDecomposition(VMD)-CircleSparrowSearchAlgorithm(CSSA)-LongShort-TermMemory(LSTM)neuralnetworkisestablished.TheoriginalstockclosingdataisdecomposedintoseveralIntrinsicModeFunction(IMF)componentsbyVMD,andthentheCSSAisusedtooptimizetheparametersofhiddenlayerneurons,iterationnumberandlearningrateofLSTM,andtheoptimalparametersarefittedintotheLSTM,whereeachIMFcomponentismodeledandpredicted,andthepredictionresultsofIMFcomponentaresuperimposedtoobtainthefinalresult.ExperimentsshowthattheRMSE,MAEandMAPEoftheproposedmodelareminimizedonmultiplestockdatasets,theerrorofthepredictiedclosingpricesofindividualstocksfluctuatesaround0,whichismorestablewithbetterfittingandhigheraccuracy. Keywordsstockpriceforecasting;variationalmodedecomposition(VMD);sparrowsearchalgorithm(SSA);Circlechaosmapping;longshort-termmemory(LSTM)