国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CEEMDAN-LSTM的股票市場指數(shù)預(yù)測建模研究

2020-06-18 07:28賀毅岳韓進(jìn)博
統(tǒng)計(jì)與信息論壇 2020年6期
關(guān)鍵詞:時(shí)序建模預(yù)測

賀毅岳,李 萍,韓進(jìn)博

(1.西北大學(xué) 經(jīng)濟(jì)管理學(xué)院,陜西 西安 710127;2.西安財(cái)經(jīng)大學(xué),陜西 西安 710100)

一、引言

股票市場是上市公司籌集社會(huì)資金的重要途徑之一,股票投資已成為投資者實(shí)現(xiàn)資產(chǎn)保值、增值目標(biāo)的主要方式之一。在股市投資研究中,資產(chǎn)價(jià)格行為的分析與建模是備受研究者關(guān)注的重要課題。對主動(dòng)型股票投資研究而言,價(jià)格行為研究的核心是對股票價(jià)格的走勢或未來值進(jìn)行有效預(yù)測,進(jìn)而指導(dǎo)投資者的交易決策行為,以使其所持有的投資組合經(jīng)風(fēng)險(xiǎn)調(diào)整后收益最優(yōu)化。然而,面對信息錯(cuò)綜復(fù)雜、狀態(tài)瞬息萬變的股票市場,如何透過復(fù)雜現(xiàn)象看本質(zhì)、把握股票市場行情脈絡(luò)和資產(chǎn)價(jià)格運(yùn)動(dòng)狀態(tài)及趨勢,進(jìn)而通過持續(xù)的交易決策獲得理想的投資收益甚至超額收益,是股票投資者尤其是機(jī)構(gòu)投資者高度關(guān)注并深入研究的核心課題。然而,傳統(tǒng)股票投資分析方法,包括基本面分析法和技術(shù)分析法,卻因建模數(shù)據(jù)體量小、模態(tài)單一、蘊(yùn)含信息量少或模型發(fā)現(xiàn)數(shù)據(jù)變化規(guī)律低效等缺陷,難以對股市行情和資產(chǎn)價(jià)格的走勢或未來值進(jìn)行有效預(yù)測,進(jìn)而難以為股票持續(xù)交易過程中的動(dòng)態(tài)最優(yōu)投資決策提供足夠的信息支撐[1-2]。

主動(dòng)型股票量化投資利用計(jì)算機(jī)技術(shù)深入分析大量的市場交易與參與者相關(guān)數(shù)據(jù),以捕獲市場的短期非有效現(xiàn)象,然后運(yùn)用線性或非線性優(yōu)化方法構(gòu)建投資策略模型,包括選股、擇時(shí)、風(fēng)險(xiǎn)管控等子模型,進(jìn)而應(yīng)用于選股、擇時(shí)和風(fēng)險(xiǎn)管理等實(shí)務(wù)操作所依賴的系列決策過程,以獲取投資者期望的最優(yōu)風(fēng)險(xiǎn)調(diào)整收益[1]。擇時(shí)是金融投資過程中的關(guān)鍵環(huán)節(jié),即投資者根據(jù)其對資產(chǎn)價(jià)格運(yùn)動(dòng)趨勢或未來狀態(tài)的預(yù)測,在恰當(dāng)?shù)臅r(shí)機(jī)進(jìn)入或退出市場,從而實(shí)現(xiàn)規(guī)避虧損、獲取收益的目標(biāo)。對于股票投資中的非系統(tǒng)風(fēng)險(xiǎn),通常需要通過擇時(shí)加以規(guī)避。股票量化擇時(shí)就是運(yùn)用數(shù)量化方法判斷股票的走勢或未來狀態(tài)值,進(jìn)行高拋低吸操作以獲取超額收益的交易行為。擇時(shí)的關(guān)鍵在于如何有效預(yù)測股價(jià)走勢或未來值,而股票市場是一個(gè)受多種經(jīng)濟(jì)社會(huì)因素驅(qū)動(dòng)的非線性復(fù)雜系統(tǒng),其價(jià)格波動(dòng)具有顯著的非平穩(wěn)、非線性和高噪聲的復(fù)雜特性。傳統(tǒng)的股市預(yù)測方法,包括金融計(jì)量方法、統(tǒng)計(jì)建模方法、淺層的機(jī)器學(xué)習(xí)方法,存在建模數(shù)據(jù)的容量較小或模型發(fā)現(xiàn)數(shù)據(jù)復(fù)雜模式的能力不足等重要缺陷,使得股價(jià)序列的特征提取及預(yù)測建模成為了金融數(shù)據(jù)建模領(lǐng)域的一個(gè)關(guān)鍵難題[3]。

近年來,機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺和語音識別等領(lǐng)域取得了系列突破性進(jìn)展,特別是谷歌Alpha Go的出現(xiàn),激起了眾多行業(yè)、領(lǐng)域展開人工智能研究與應(yīng)用的熱潮,對數(shù)據(jù)密集型的金融投資行業(yè)產(chǎn)生了尤其深遠(yuǎn)的影響。國內(nèi)外機(jī)構(gòu)投資者正深入研究如何將最新的機(jī)器學(xué)習(xí)與人工智能技術(shù)引入到量化投資策略建模過程中,并已逐步形成了新的結(jié)合智能方法的主動(dòng)型量化投資模式[4]。目前,國內(nèi)已出現(xiàn)了一些該類投資模式的成功案例,如廣發(fā)證券金融工程團(tuán)隊(duì)證實(shí)了深度學(xué)習(xí)在多因子選股、量化擇時(shí)和CTA策略構(gòu)建等方面的優(yōu)異表現(xiàn)[5]。深度學(xué)習(xí)是一種新型的多隱藏層神經(jīng)網(wǎng)絡(luò),通過模擬人類大腦在學(xué)習(xí)過程中的多層抽象機(jī)制,建立從底層信號到高層語義的非線性可逆映射關(guān)系,在對復(fù)雜輸入樣本本質(zhì)特征的抽取方面表現(xiàn)出了強(qiáng)大的能力。在計(jì)算機(jī)視覺、自然語言處理和金融數(shù)據(jù)建模等眾多應(yīng)用領(lǐng)域中,基于深度學(xué)習(xí)構(gòu)建的模型性能及泛化能力優(yōu)異,多數(shù)應(yīng)用效果取得了歷史性突破[6]。因此,將深度學(xué)習(xí)中的最新方法拓展應(yīng)用于股市指數(shù)序列的預(yù)測建模,可為復(fù)雜金融時(shí)序數(shù)據(jù)的建模研究提供有益的參考,同時(shí)有利于提升量化擇時(shí)研究方法的科學(xué)性與實(shí)用性,這也正是當(dāng)前股票量化投資研究的一個(gè)熱點(diǎn)[1,3]。

二、文獻(xiàn)綜述

股票價(jià)格預(yù)測建模即建立股價(jià)走勢或未來值的預(yù)測模型,是量化擇時(shí)策略建模過程中的核心環(huán)節(jié),也是量化投資理論和實(shí)務(wù)界形成共識的重要研究課題[3]。國內(nèi)外學(xué)者針對股票價(jià)格及市場指數(shù)的預(yù)測建模展開了系統(tǒng)的研究,提出了三類預(yù)測建模方法。(1)技術(shù)分析法以道氏理論為基礎(chǔ),認(rèn)為股價(jià)基本走勢與市場波動(dòng)趨勢趨同,包括短、中、長三種走勢,三者同時(shí)存在相輔相成。典型的股票技術(shù)分析研究大多以擇時(shí)方法或策略的構(gòu)造為應(yīng)用背景。Mabu等運(yùn)用一種基于圖的進(jìn)化計(jì)算方法——遺傳網(wǎng)絡(luò)規(guī)劃方法,提取大量的技術(shù)指標(biāo)規(guī)則創(chuàng)建規(guī)則池,并構(gòu)建了適合日本股票市場的基于多技術(shù)指標(biāo)規(guī)則組合的量化擇時(shí)模型,實(shí)證研究結(jié)果表明:其所構(gòu)建的多指標(biāo)組合擇時(shí)策略的收益比傳統(tǒng)的單指標(biāo)擇時(shí)策略更高[7]。Wang等將技術(shù)指標(biāo)規(guī)則組合應(yīng)用于NASDAQ100指數(shù)成分股,構(gòu)建了一個(gè)復(fù)雜的績效獎(jiǎng)勵(lì)交易策略,其中使用時(shí)變粒子群算法獲得策略的最優(yōu)參數(shù)集,實(shí)證結(jié)果表明技術(shù)規(guī)則組合擇時(shí)表現(xiàn)勝過基于單個(gè)指標(biāo)規(guī)則的擇時(shí)[8]。梁淇俊等以技術(shù)指標(biāo)為擇時(shí)策略依據(jù),根據(jù)指標(biāo)MACD、RSI和OBV構(gòu)建交易信號以及信號有效性的擇優(yōu)體系,并以中信證券收盤價(jià)數(shù)據(jù)為例,對基于三個(gè)技術(shù)指標(biāo)的單策略、聯(lián)合策略有效性進(jìn)行了量化分析,得到了MACD指標(biāo)擇時(shí)相對最優(yōu)的結(jié)論[9]。(2)統(tǒng)計(jì)建模方法依據(jù)嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)學(xué)理論對股價(jià)序列進(jìn)行預(yù)測建模。國內(nèi)外學(xué)者對ARIMA、GARCH和HMM等代表性方法進(jìn)行了系列研究。Hassan提出一種新的HMM與模糊模型相結(jié)合的股價(jià)預(yù)測方法,使用HMM識別股價(jià)變化模式并用模糊邏輯進(jìn)行預(yù)測,得到了比ARIMA、ANN等模型精度更高的預(yù)測效果[10]。張超提出基于誤差校正的ARMA-GARCH股價(jià)預(yù)測方法,并將其應(yīng)用于上證指數(shù),顯著提升了預(yù)測精度[11]。張蓓利用高斯混合GHMM模型對IBM的股價(jià)進(jìn)行預(yù)測,并驗(yàn)證了其預(yù)測效果優(yōu)于HMM模型[12]。(3)利用機(jī)器學(xué)習(xí)方法對金融時(shí)序進(jìn)行預(yù)測建模是近年來金融數(shù)據(jù)分析領(lǐng)域的研究熱點(diǎn)。Tay等從結(jié)構(gòu)風(fēng)險(xiǎn)最小化角度深入分析了SVM的最小化泛化誤差優(yōu)勢,首次利用SVM對標(biāo)普500指數(shù)進(jìn)行預(yù)測,驗(yàn)證了SVM的金融預(yù)測性能優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)[13]。Chen等提出了一個(gè)基于信息增益的特征加權(quán)SVM和KNN結(jié)合的預(yù)測模型,并對滬深股市指數(shù)進(jìn)行預(yù)測實(shí)驗(yàn),獲得了比現(xiàn)有模型更好的預(yù)測效果[14]。Bao等實(shí)證證明了長短期記憶網(wǎng)絡(luò)(LSTM)對金融時(shí)序的預(yù)測性能優(yōu)于傳統(tǒng)的RNN[15]。Thomas等利用LSTM對標(biāo)普500指數(shù)的變化方向進(jìn)行預(yù)測,發(fā)現(xiàn)LSTM比隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)與logistic回歸的分類效果好[16]。楊青等構(gòu)造深層LSTM神經(jīng)網(wǎng)絡(luò)并對全球30種股票指數(shù)的3種不同期限進(jìn)行預(yù)測,結(jié)果表明LSTM泛化能力強(qiáng),對全部指數(shù)在不同期限下的預(yù)測效果穩(wěn)定,比ARIMA、MLP和SVR預(yù)測精度更高,并能有效控制誤差波動(dòng),提高不同期限下指數(shù)預(yù)測的穩(wěn)定度[5]。

上述三類方法在金融時(shí)序預(yù)測問題上大多取得了較好的實(shí)證效果,但依然存在一定的理論或?qū)嵱眯匀毕荩杭夹g(shù)分析法直觀,但其時(shí)效性較弱、所產(chǎn)生的買賣信號不確定性過高,易導(dǎo)致預(yù)測偏誤;統(tǒng)計(jì)建模方法的預(yù)測結(jié)果在統(tǒng)計(jì)意義上可靠,但通常假定所預(yù)測序列線性或近似線性,難以實(shí)現(xiàn)對非線性、低信噪比金融時(shí)序的高精度預(yù)測;機(jī)器學(xué)習(xí)方法避免了統(tǒng)計(jì)建模方法中數(shù)據(jù)分布假設(shè)過于嚴(yán)格的問題,并具有更強(qiáng)的非線性關(guān)系抽象能力,能顯著提升股價(jià)預(yù)測的準(zhǔn)確性[3]。然而,股票市場是一個(gè)以多種方式對外部環(huán)境變化進(jìn)行響應(yīng)的復(fù)雜系統(tǒng),隨機(jī)性很強(qiáng)且各種現(xiàn)象之間存在復(fù)雜的非線性內(nèi)在關(guān)系,而現(xiàn)有的金融時(shí)序預(yù)測建模通常依靠單一方法直接對序列模式進(jìn)行挖掘,無法充分提取復(fù)雜的序列變化模式,故即便通過SVM、RNN和LSTM等機(jī)器學(xué)習(xí)方法,依然難以獲得股票投資決策所需的高精度股價(jià)預(yù)測信息。

隨著對金融市場微觀結(jié)構(gòu)與交易行為心理等方面研究的不斷深入,學(xué)者們逐漸認(rèn)識到單個(gè)技術(shù)難以高效地挖掘并刻畫復(fù)雜金融市場中的多維量價(jià)變化規(guī)律,進(jìn)而實(shí)現(xiàn)高精度預(yù)測,而融合金融計(jì)量、信號處理和機(jī)器學(xué)習(xí)等多學(xué)科方法的混合或集成模型,則能通過其不同子模塊識別數(shù)據(jù)的不同模式,進(jìn)而匯總獲得其中蘊(yùn)含的完整變化規(guī)律,實(shí)現(xiàn)金融時(shí)序的高精度預(yù)測[5]。美國工程院院士Huang等創(chuàng)造性地提出了經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)方法,將時(shí)序信號中不同尺度的趨勢或波動(dòng)逐級分解,生成一系列具有不同特征尺度的本征模函數(shù)(IMF),理論上可實(shí)現(xiàn)對非平穩(wěn)、非線性時(shí)序信號的分解[17]。針對EMD分解不徹底、產(chǎn)生虛假分量和模態(tài)混疊的問題,Wu等通過引入頻率分布均勻的輔助噪聲改進(jìn)EMD方法,提出了集成經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)方法,解決了模態(tài)混疊問題,但處理過程中加入的高斯白噪聲很難完全去除[18]。Torres等通過加入自適應(yīng)白噪聲進(jìn)一步改進(jìn)EEMD,提出了CEEMDAN方法,有效克服了EEMD分解不完備和重構(gòu)誤差過大的問題。CEEMDAN分解獲得的各IMF相對簡單且相互獨(dú)立,為充分提取IMF子序列的波動(dòng)特征提供了有利條件,從而顯著降低了金融時(shí)序預(yù)測建模的難度[19]。EMD早期主要應(yīng)用于信號去噪與氣象科學(xué)領(lǐng)域,近年被引入到經(jīng)濟(jì)與金融等領(lǐng)域,其中與機(jī)器學(xué)習(xí)方法相結(jié)合的典型研究有:Yang等將匯率序列經(jīng)EMD分解獲得的IMF輸入極限學(xué)習(xí)機(jī),實(shí)現(xiàn)了對匯率預(yù)測精度的提升[20];賀毅岳等提出了EMD分解下基于SVR的股價(jià)集成預(yù)測方法EMD-SVRF,實(shí)證結(jié)果表明該方法比EMD-Elman和ARMA-GARCH等已有方法具有更小的預(yù)測誤差[21];李合龍等運(yùn)用EEMD方法對投資者情緒和股指價(jià)格序列進(jìn)行分解和重構(gòu),并結(jié)合計(jì)量模型分析兩者在不同時(shí)間尺度下的波動(dòng)關(guān)聯(lián)性[22];Zhang等在對地表溫度的預(yù)測研究中提出構(gòu)建EEMD與LSTM混合的預(yù)測模型,其實(shí)證結(jié)果表明該模型的預(yù)測效果優(yōu)于RNN、LSTM和EMD-RNN等機(jī)器學(xué)習(xí)預(yù)測模型[23]。上述研究表明:CEEMDAN克服了模態(tài)混疊問題并具有自適應(yīng)分解完備和重構(gòu)誤差低的優(yōu)點(diǎn),在提取復(fù)雜時(shí)間序列的波動(dòng)模式進(jìn)而提升預(yù)測建模精度方面具有突出的優(yōu)勢,是金融時(shí)間序列分析領(lǐng)域極具應(yīng)用前景的新方法;另一方面,LSTM通過引入門控單元系統(tǒng),解決了傳統(tǒng)RNN模型訓(xùn)練中梯度爆炸和梯度消失問題,在提取序列數(shù)據(jù)中的長期依賴關(guān)系方面極具優(yōu)勢,可利用前期“記憶”為當(dāng)期決策提供支持,是當(dāng)前復(fù)雜高維時(shí)序數(shù)據(jù)分析中最成功的非線性建模方法之一,也是近年來金融數(shù)據(jù)建模領(lǐng)域的研究熱點(diǎn)[3,5]。

為此,本文提出一種CEEMDAN與LSTM結(jié)合的股市指數(shù)預(yù)測建模方法CEEMDAN-LSTM:首先,運(yùn)用CEEMDAN方法對市場指數(shù)序列進(jìn)行分解與重構(gòu),獲得高頻分量、低頻分量與趨勢項(xiàng)3個(gè)子序列;然后,分別構(gòu)建各子序列LSTM預(yù)測模型,并依據(jù)模型獲得各子序列的預(yù)測值,進(jìn)而通過加和集成處理獲得市場指數(shù)的整體預(yù)測值。最后,以滬深300和中證500等5個(gè)代表性的國內(nèi)股市指數(shù)為測試數(shù)據(jù)集,對本文預(yù)測建模方法和現(xiàn)有主流的金融時(shí)序機(jī)器學(xué)習(xí)預(yù)測建模方法的市場指數(shù)預(yù)測效果進(jìn)行對比實(shí)驗(yàn),以分析、驗(yàn)證本文方法的有效性和實(shí)用性。

本文旨在提出高精度的股市指數(shù)預(yù)測建模方法,為主動(dòng)型量化投資研究與實(shí)踐者把握股市動(dòng)態(tài)趨勢、規(guī)避市場風(fēng)險(xiǎn)進(jìn)而增強(qiáng)超額收益能力提供更有效的工具。本文的主要?jiǎng)?chuàng)新在于:(1)將具有自適應(yīng)分解能力的CEEMDAN方法引入到股市指數(shù)的預(yù)測建模過程中,從而獲得波動(dòng)特征相對簡單且相互獨(dú)立的高頻、低頻分量和趨勢項(xiàng)3個(gè)子序列,為進(jìn)一步對各子序列的高精度預(yù)測建模創(chuàng)造了有利條件,避免了現(xiàn)有建模方法直接從指數(shù)時(shí)序數(shù)據(jù)中提取波動(dòng)模式的技術(shù)難題,顯著降低了指數(shù)時(shí)序預(yù)測建模的難度。(2)針對指數(shù)CEEMDAN分解所產(chǎn)生的多個(gè)子序列,運(yùn)用LSTM構(gòu)建各子序列的預(yù)測模型,克服了傳統(tǒng)統(tǒng)計(jì)建模方法對適用數(shù)據(jù)的分布假設(shè)過于嚴(yán)格的局限性,且能更高效地提取序列中蘊(yùn)含的長期動(dòng)態(tài)依賴關(guān)系,可為復(fù)雜金融時(shí)序的非線性預(yù)測建模提供有益參考。(3)將CEEMDAN的自適應(yīng)分解功能與LSTM的長期依賴關(guān)系提取能力有效結(jié)合,構(gòu)建股市指數(shù)的高精度混合預(yù)測模型,對提升量化擇時(shí)信號的準(zhǔn)確度與有效性具有較強(qiáng)的應(yīng)用參考價(jià)值,有利于拓寬基于機(jī)器學(xué)習(xí)建模的量化投資策略設(shè)計(jì)的研究思路。

三、預(yù)測建模的理論基礎(chǔ)

(一)CEEMDAN分解和重構(gòu)

1.CEEMDAN原理。EEMDAN是針對經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)和集成經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)的不足而提出的一種噪聲輔助數(shù)據(jù)分析方法。EMD作為自適應(yīng)信號時(shí)頻處理方法可用于非線性、非平穩(wěn)信號的分析處理,其特征是將信號平穩(wěn)化,提取出信號中不同尺度的波動(dòng)模式,生成一系列具有不同時(shí)間尺度局部特征的數(shù)據(jù)序列,每一個(gè)序列即為一個(gè)本征模態(tài)函數(shù)(IMF)。EMD分解的基本思路是用上、下包絡(luò)的平均值去確定“瞬時(shí)平衡位置”,進(jìn)而提取IMF,具體包括如下四個(gè)步驟:

(1)識別S(t)中所有極大值點(diǎn)max和極小值點(diǎn)min,用三次樣條插值方法分別繪制出上、下包絡(luò)線。其中,S(t)表示當(dāng)前待分解序列,本文中其取值為市場指數(shù)收盤價(jià)序列。

(2)計(jì)算每一時(shí)刻上、下包絡(luò)線的局部瞬時(shí)均值,從而獲得平均包絡(luò)線m(t),按照式(1)計(jì)算新序列d(t)。

d(t)=S(t)-m(t)

(1)

然后,按照式(2)計(jì)算出Sd值來判斷d(t)是否為本征模函數(shù)。

(2)

其中,di(t)為第i次篩分的結(jié)果,Sd的閾值通常設(shè)定為0.2~0.3。若Sd值小于閾值,則篩分處理停止;否則,將d(t)當(dāng)作新的待分解序列S(t),重新執(zhí)行上述迭代處理過程。

(3)若d(t)滿足IMF成立所需要的兩個(gè)條件,則d(t)為一個(gè)IMF,將d(t)從S(t)中分離,得到余項(xiàng)r(t)=S(t)-d(t)。

(4)若余項(xiàng)r(t)已成為一個(gè)單調(diào)函數(shù)或常數(shù),或振幅低于既定閾值而無法進(jìn)一步提取IMF,則整個(gè)分解過程結(jié)束。否則,將r(t)當(dāng)作待分解序列S(t),返回步驟(1),重新執(zhí)行上述迭代處理過程。

經(jīng)EMD分解原序列S(t)被迭代分解為n個(gè)彼此正交的IMF,記為ci(t),i=1,2,…,n,以及表示原時(shí)序信號S(t)趨勢的最終殘差項(xiàng)rn(t)。如式(3)所示,其中ci(t)依次取為步驟(3)所得到的本征模函數(shù)d(t)。

(3)

為解決EMD分解中存在的模態(tài)混疊問題,Wu等在EMD分解中引入頻率分布均勻的輔助噪聲,提出了EEMD方法:每次將不同的頻率均勻分布的輔助白噪聲加入目標(biāo)信號,然后利用EMD分解含有附加白噪聲的信號,重復(fù)執(zhí)行上述過程N(yùn)次,最后對分解獲得的IMFs和趨勢項(xiàng)分別進(jìn)行集成平均,得到原信號的最終分解結(jié)果[18]。雖然EEMD顯著改進(jìn)了EMD的不足,但EEMD對原序列所添加的白噪聲仍可能在多次平均后影響分解產(chǎn)生的子序列,進(jìn)而影響子序列的預(yù)測精度。CEEMDAN進(jìn)一步改進(jìn)EEMD算法,在每次分解中都添加自適應(yīng)白噪聲來平滑干擾脈沖,進(jìn)一步提升了EEMD分解的完整性,降低了重構(gòu)誤差[19]。

2.IMF重組方法。原序列S(t)進(jìn)行CEEMDAN分解獲得的各本征模函數(shù)ci(t),按如下三個(gè)步驟進(jìn)行重組[21-22],可獲得S(t)的高頻分量、低頻分量和趨勢項(xiàng)3個(gè)子序列:

(1)分別計(jì)算各本征模函數(shù)ci(t)的均值,i=1,2,…,n;

(2)給定顯著性水平為0.05,按i=1,2,…,n的順序,依次對ci(t)執(zhí)行均值不為0的t檢驗(yàn);

(3)若ck(t)為第一個(gè)均值顯著非零的IMF,則將c1(t)至ck-1(t)加和得到S(t)的高頻子序列,將ck(t)至cn(t)加和得到S(t)的低頻子序列,而將rn(t)作為S(t)的趨勢項(xiàng)。

(二)LSTM內(nèi)部結(jié)構(gòu)與工作原理

圖1給出了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)按時(shí)間展開的結(jié)構(gòu),其中主體結(jié)構(gòu)A在t時(shí)刻讀取輸入信息,包括來自輸入層的xt以及模型的上一時(shí)刻狀態(tài)ht-1,以此更新其自身狀態(tài)為ht并產(chǎn)生輸出ot[16]。RNN憑借其在不同時(shí)刻隱含節(jié)點(diǎn)具有連接的結(jié)構(gòu),可實(shí)現(xiàn)對歷史信息的記憶并應(yīng)用于當(dāng)前輸出的計(jì)算,因而適用于時(shí)序信息的挖掘問題,已被廣泛應(yīng)用于包括語音識別等多領(lǐng)域中序列數(shù)據(jù)的建模過程。然而,RNN參數(shù)優(yōu)化時(shí)面臨梯度消失和梯度爆炸的問題,致使其參數(shù)難以訓(xùn)練達(dá)到最優(yōu)值,進(jìn)而使得RNN網(wǎng)絡(luò)無法有效處理長期時(shí)序依賴關(guān)系。

圖1 RNN按時(shí)間展開的結(jié)構(gòu)

LSTM是通過引入由輸入門、遺忘門和輸出門構(gòu)成的門控單元系統(tǒng)而產(chǎn)生的一種RNN變體[3]?!伴T”是一種能對信息的通過進(jìn)行選擇性控制的結(jié)構(gòu),通過一個(gè)sigmoid層和一個(gè)逐點(diǎn)相乘操作來實(shí)現(xiàn),其輸出值在0~1之間,0表示完全不通過,1表示完全通過。LSTM用內(nèi)部記憶單元即細(xì)胞的狀態(tài)保存歷史信息,并利用不同的“門”動(dòng)態(tài)地讓網(wǎng)絡(luò)學(xué)習(xí)適時(shí)遺忘歷史信息、依據(jù)新信息更新細(xì)胞狀態(tài),以解決RNN中梯度消失與梯度爆炸的問題。LSTM神經(jīng)網(wǎng)絡(luò)記憶單元的基本結(jié)構(gòu)如圖2所示[5]。

圖2 LSTM單元的內(nèi)部結(jié)構(gòu)

LSTM通過遺忘門控制從當(dāng)前狀態(tài)中移除哪些信息,輸入門控制哪些信息傳遞到當(dāng)前狀態(tài)中,輸出門控制當(dāng)前狀態(tài)中的哪些信息用作輸出,三個(gè)“門”共同作用、處理信息,完成時(shí)間序列的預(yù)測。遺忘門決定哪些信息被細(xì)胞狀態(tài)丟棄,它讀取ht-1和xt,按照式(4)計(jì)算遺忘門的輸出ft:

ft=σ(Wf[ht-1,xt]+bf)

(4)

it=σ(Wi[ht-1,xt]+bi)

(5)

(6)

(7)

最后,通過“輸出門”來確定輸出什么信息。通過sigmoid層確定細(xì)胞狀態(tài)的輸出部分,然后使用tanh層對細(xì)胞狀態(tài)Ct進(jìn)行處理并與sigmoid門的輸出相乘,確定最后的輸出ht:

ot=σ(Wo[ht-1,xt]+bo)

(8)

ht=ottanh(Ct)

(9)

在式(4)~(9)中,xt、ht和Ct分別表示細(xì)胞的輸入、輸出和狀態(tài)向量;ft、it和ot分別表示遺忘門輸出、輸入門輸出和輸出門輸出向量;W和b表示權(quán)重向量和偏置項(xiàng)。用LSTM單元替代標(biāo)準(zhǔn)RNN中的隱狀態(tài)節(jié)點(diǎn)可以構(gòu)建出LSTM網(wǎng)絡(luò)。基于門控單元系統(tǒng)的結(jié)構(gòu)特征使得LSTM網(wǎng)絡(luò)可以高效地處理復(fù)雜的長期時(shí)序動(dòng)態(tài)依賴關(guān)系,特別適用于復(fù)雜金融時(shí)間序列建模。

四、面向股市指數(shù)預(yù)測的CEEMDAN-LSTM模型構(gòu)建

(一)CEEMDAN-LSTM的建模思路

股市指數(shù)經(jīng)CEEMDAN分解與重組產(chǎn)生的子序列波動(dòng)特征相對簡單,為進(jìn)一步構(gòu)建預(yù)測建模以充分提取子序列的波動(dòng)模式創(chuàng)造了有利條件,可顯著降低對指數(shù)序列高精度預(yù)測建模的難度。為此,本文將CEEMDAN的時(shí)序分解與LSTM的時(shí)序預(yù)測的兩個(gè)優(yōu)勢功能進(jìn)行結(jié)合,提出一個(gè)高精度的市場指數(shù)預(yù)測方法CEEMDAN-LSTM。圖3是CEEMDAN-LSTM的建模流程:以股市指數(shù)收盤價(jià)序列為輸入數(shù)據(jù),通過CEEMDAN分解、本征模函數(shù)IMF的重組、高/低頻分量及趨勢項(xiàng)的LSTM建模及各分量預(yù)測值的加和集成四個(gè)處理階段,最終獲得高精度的指數(shù)序列預(yù)測值。

圖3 CEEMDAN-LSTM預(yù)測建模的流程

步驟1:運(yùn)用CEEMDAN方法將市場指數(shù)收盤價(jià)序列分解為n個(gè)本征模函數(shù)ci(t),i=1,2,…,n,以及一個(gè)趨勢項(xiàng)rn(t)。

步驟2:按照前文所述的基于均值t檢驗(yàn)的IMF重組方法,將各本征模函數(shù)ci(t)重組為原指數(shù)序列的高頻分量、低頻分量以及趨勢項(xiàng)3個(gè)子序列。

步驟3:針對高、低頻分量和趨勢項(xiàng)3個(gè)子序列,分別建立對應(yīng)的LSTM預(yù)測模型,并對高頻子序列重組中IMF組合方式進(jìn)行優(yōu)化,以使高頻預(yù)測模型達(dá)到最優(yōu)預(yù)測效果。

步驟4:利用步驟3構(gòu)建的3個(gè)子序列LSTM預(yù)測模型,計(jì)算獲得各子序列的預(yù)測值,進(jìn)而通過加和集成處理獲得指數(shù)的高精度預(yù)測值。

(二)建模數(shù)據(jù)的選取及檢驗(yàn)

本文在闡述股市指數(shù)的預(yù)測建模過程中選取滬深300指數(shù)作為建模的數(shù)據(jù)基礎(chǔ),原因包括:首先,滬深300指數(shù)是以滬深兩市具有很強(qiáng)代表性的300只股票為基礎(chǔ)編制而成,覆蓋了A股市場中大多數(shù)藍(lán)籌股,覆蓋的行業(yè)較均衡合理,其市值約占A股市場的六成,具有很強(qiáng)的市場代表性,能較準(zhǔn)確地反映滬深兩市股價(jià)變化的整體行情及趨勢。其次,該指數(shù)收益率是評價(jià)股票組合投資業(yè)績的重要基準(zhǔn)之一,可為市場中的指數(shù)化投資、指數(shù)衍生產(chǎn)品的創(chuàng)新提供基礎(chǔ)條件,因而研究滬深300指數(shù)預(yù)測建模對衍生品市場的投資研究也具有重要意義。

利用Python從聚寬量化平臺(tái)在線提取了2006年1月1日至2018年2月1日之間滬深300指數(shù)的收盤價(jià),剔除節(jié)假日等因素的影響,共計(jì)2 955個(gè)數(shù)據(jù)作為指數(shù)預(yù)測建模的原始時(shí)序數(shù)據(jù)。在圖4所示的建模時(shí)間區(qū)間內(nèi),指數(shù)先后兩次大致經(jīng)歷了上漲、下跌和橫盤震蕩三種行情階段,構(gòu)成了兩個(gè)完整的股指運(yùn)行周期,這使得本文所建立的模型對股市指數(shù)變化規(guī)律的表達(dá)更充分、對行情變化的適應(yīng)性更強(qiáng),從而能增強(qiáng)本文研究結(jié)論的說服力。

圖4 滬深300指數(shù)序列

對滬深300指數(shù)序列數(shù)據(jù)進(jìn)行ADF檢驗(yàn),結(jié)果顯示在1%顯著性水平下指數(shù)非平穩(wěn);對指數(shù)的對數(shù)收益率序列進(jìn)行Jarque-Bera檢驗(yàn),偏度為-0.587,峰度為3.639,具有尖峰厚尾特征,p值近似為0,指數(shù)收益率分布顯著非正態(tài)。同時(shí),利用Ljung-Box統(tǒng)計(jì)量檢驗(yàn)指數(shù)收益率序列的ARCH效應(yīng),結(jié)果顯示滯后階數(shù)超過4以后,p值遠(yuǎn)遠(yuǎn)小于0.05,表明收益率序列有顯著的波動(dòng)聚集性。滬深300指數(shù)序列非平穩(wěn)且包含大量的噪聲,而傳統(tǒng)的ARIMA、GARCH等計(jì)量模型,在未進(jìn)行高效的降噪處理情況下,很難對這種復(fù)雜金融時(shí)序進(jìn)行高精度的預(yù)測建模。因此,本文引入CEEMDAN對指數(shù)進(jìn)行自適應(yīng)分解、去噪與重構(gòu),然后運(yùn)用非線性時(shí)序建模方法LSTM對指數(shù)進(jìn)行預(yù)測建模是合理且必要的。

(三)指數(shù)序列的CEEMDAN分解和重組

1.指數(shù)序列的CEEMDAN分解。按照前文所述CEEMDAN分解過程,對滬深300指數(shù)序列進(jìn)行自適應(yīng)分解,結(jié)果如圖5所示,得到從上往下依次排列的10個(gè)IMF和1個(gè)殘余項(xiàng),其中橫軸表示指數(shù)的時(shí)間序號,縱軸表示各IMF的頻率,從IMF1~I(xiàn)MF10到殘余項(xiàng)頻率逐步下降,變化模式也較原序列更簡單。

圖5 滬深300指數(shù)CEEMDAN分解結(jié)果

2.IMF重組處理。為了適當(dāng)降低LSTM預(yù)測建模的復(fù)雜度和避免模型過擬合,參考李合龍等的研究,按照前文所述IMF重組方法,對滬深300指數(shù)經(jīng)CEEMDAN分解所產(chǎn)生的10個(gè)IMF進(jìn)行重組[22]。依次對IMF1~I(xiàn)MF10進(jìn)行均值為0的t檢驗(yàn),檢驗(yàn)結(jié)果顯示其中IMF5是首個(gè)P值小于0.05的本征模函數(shù),即IMF5的均值顯著不等于0。因此,本文將IMF1~I(xiàn)MF4重組成為指數(shù)的高頻分量,IMF5~I(xiàn)MF10重組為指數(shù)的低頻分量,將殘余項(xiàng)作為指數(shù)的趨勢項(xiàng)r(t),從而獲得圖6所示從不同頻率視角下刻畫原指數(shù)序列變化模式的3個(gè)子序列。子序列變化模式相對簡單、有規(guī)律性,便于進(jìn)一步充分提取各子序列的波動(dòng)特征。

圖6 IMF重組得到的3個(gè)子序列

(四)子序列LSTM建模及效果評價(jià)

針對CEEMDAN分解與重組獲得的3個(gè)分量子序列,包括高頻分量、低頻分量和趨勢項(xiàng),分別構(gòu)建各子序列的LSTM預(yù)測模型,進(jìn)而利用模型對預(yù)測區(qū)間內(nèi)各子序列進(jìn)行滾動(dòng)預(yù)測,并采用確定系數(shù)R2、可解釋方差EVS、均方根誤差RMSE和平均絕對誤差MAE四個(gè)評價(jià)指標(biāo),對各模型的預(yù)測效果進(jìn)行評估。

1.子序列LSTM預(yù)測建模。采用滾動(dòng)預(yù)測建模方式,以最近30天的指數(shù)值為輸入來預(yù)測下一天的指數(shù)值[5,21]。從建模的原始時(shí)序數(shù)據(jù)中選取2006年1月1日至2016年2月1日共2 450個(gè)數(shù)據(jù)構(gòu)建模型訓(xùn)練集,并采用Python庫Pandas中的DataFrame對象來表示,大小為(2420×30),以剩余的505個(gè)數(shù)據(jù)構(gòu)建測試集,對應(yīng)的DataFrame對象大小為(505×30)。然后依次建立高、低頻分量和趨勢項(xiàng)對應(yīng)的LSTM預(yù)測模型。

本文所構(gòu)建的深層LSTM網(wǎng)絡(luò)具有圖7所示的計(jì)算圖結(jié)構(gòu),虛線方框內(nèi)表示深層網(wǎng)絡(luò)的結(jié)構(gòu)。在建模過程中,為消除數(shù)據(jù)間的量綱影響并提升模型的運(yùn)算速度,對數(shù)據(jù)進(jìn)行Z-score標(biāo)準(zhǔn)化處理[4]。模型參數(shù)設(shè)置方面參照了楊青等的研究,考慮到金融時(shí)序的非線性復(fù)雜特征及模型的運(yùn)算效率,將隱藏層個(gè)數(shù)設(shè)置為2層,且每次投入模型的樣例個(gè)數(shù)即batch_size設(shè)置為41,迭代次數(shù)設(shè)置為100次,同時(shí)增設(shè)Dropout層以優(yōu)化神經(jīng)網(wǎng)絡(luò),失活率設(shè)置為0.2。為使模型快速收斂時(shí)損失函數(shù)取全局最小值,選取優(yōu)化器為Adagrad,設(shè)置動(dòng)態(tài)學(xué)習(xí)率的初值設(shè)定為0.1,并根據(jù)經(jīng)驗(yàn)公式0.1×(0.96epoch)動(dòng)態(tài)調(diào)整,其中epoch為迭代次數(shù),以使學(xué)習(xí)率隨模型迭代次數(shù)的增加而均勻下降[5]。

圖7 LSTM網(wǎng)絡(luò)的計(jì)算圖結(jié)構(gòu)

表1給出了不同神經(jīng)元個(gè)數(shù)組合條件下高頻子序列LSTM預(yù)測模型的多指標(biāo)評價(jià)結(jié)果,其中(10,10)對應(yīng)的實(shí)驗(yàn)結(jié)果整體最佳,故將高頻模型中兩個(gè)隱藏層的神經(jīng)元個(gè)數(shù)設(shè)定為(10,10)。按照同樣的方法,將低頻、趨勢子序列預(yù)測模型的兩個(gè)隱藏層神經(jīng)元個(gè)數(shù)均設(shè)定為(6,6)。在確定上述參數(shù)條件下,建立各子序列的LSTM預(yù)測模型,模型均在100次迭代后損失函數(shù)均能收斂到平穩(wěn)狀態(tài),故本文選取100次迭代后的訓(xùn)練模型作為最優(yōu)預(yù)測模型。按照最近30天預(yù)測下一天的滾動(dòng)預(yù)測方式,利用已建立的LSTM預(yù)測模型對預(yù)測區(qū)間內(nèi)的高頻、低頻和趨勢項(xiàng)3個(gè)子序列進(jìn)行預(yù)測。表2給出了各子序列預(yù)測模型的多指標(biāo)評價(jià)結(jié)果:高頻子序列預(yù)測模型的R2只有0.408 1,表明該模型解釋能力不足、預(yù)測誤差較大,結(jié)合圖8所示,高頻子序列預(yù)測值相對真實(shí)值的右偏特征,表明高頻子序列預(yù)測模型存在明顯的滯后問題,需進(jìn)一步改進(jìn);而低頻和趨勢子序列預(yù)測模型對應(yīng)的R2都已超過0.997,表明兩者的預(yù)測值和實(shí)際值均已非常接近,預(yù)測效果出色。

圖8 高頻子序列的LSTM滾動(dòng)預(yù)測結(jié)果

表1 不同神經(jīng)元個(gè)數(shù)條件下高頻分量預(yù)測模型的評估結(jié)果

表2 各子序列預(yù)測模型的多指標(biāo)評價(jià)結(jié)果

2.高頻子序列重組中IMF組合方式的優(yōu)化。重組構(gòu)成高頻子序列的IMF1~I(xiàn)MF4在包含股市指數(shù)波動(dòng)特征信息的同時(shí)攜帶大量的噪聲。因此,以IMF1~I(xiàn)MF4的不同子集重組產(chǎn)生的高頻子序列,也會(huì)同時(shí)包含指數(shù)的波動(dòng)特征信息以及不同比例的噪聲。顯然,在IMF1~I(xiàn)MF4中,IMF3和IMF4的頻率相對更低,包含指數(shù)的波動(dòng)信息相對更多,而IMF1、IMF2則含有更多的噪聲。因此,優(yōu)化后重組形成高頻子序列的IMF集合,至少應(yīng)包含IMF3和IMF4。進(jìn)一步采用本文所確定的子序列LSTM預(yù)測模型參數(shù),并根據(jù)預(yù)測效果評估結(jié)果確定最優(yōu)的高頻IMF組合方式。如表3所示,在4種合理的IMF組合方式中,剔除IMF1后利用IMF2~I(xiàn)MF4重組產(chǎn)生高頻子序列,進(jìn)而構(gòu)建的高頻預(yù)測模型的預(yù)測效果最優(yōu)。相對于第一種組合方式,最優(yōu)組合方式的R2值、EVS、RMSE、MAE分別提升了116.3%、113.1%、47.6%、45.4%。圖9為最優(yōu)組合方式下高頻子序列的滾動(dòng)預(yù)測結(jié)果,其滯后性比圖8中高頻子序列的預(yù)測結(jié)果有明顯改善。

表3 不同IMF組合方式下高頻預(yù)測模型的評估結(jié)果

圖9 最優(yōu)組合方式下高頻子序列的預(yù)測結(jié)果

(五)指數(shù)整體預(yù)測值的加和集成及效果評價(jià)

將組合方式優(yōu)化后產(chǎn)生的高頻、低頻與趨勢項(xiàng)3個(gè)子序列的預(yù)測值加和,獲得優(yōu)化后的指數(shù)集成預(yù)測結(jié)果,如圖10所示??捎^察到未經(jīng)優(yōu)化的預(yù)測值相對于真實(shí)值存在較明顯的整體右偏缺陷,表明未經(jīng)優(yōu)化的預(yù)測值具有一定的滯后性,而優(yōu)化后的預(yù)測值明顯更加貼近真實(shí)值。表4給出了優(yōu)化前后指數(shù)集成預(yù)測效果的多指標(biāo)評估結(jié)果:R2值提升了0.5%,EVS提升了0.5%,RMSE提升了43%,MAE提升了40.3%。這表明,IMF組合方式優(yōu)化處理顯著降低了模型預(yù)測的滯后性,并提升了預(yù)測精確度。

圖10 優(yōu)化前后指數(shù)的CEEMDAN-LSTM集成預(yù)測結(jié)果

表4 優(yōu)化前后指數(shù)的集成預(yù)測效果的評估結(jié)果

五、CEEMDAN-LSTM模型預(yù)測效果的對比驗(yàn)證分析

本文選取包括滬深300、上證綜指等5個(gè)最具代表性的國內(nèi)股市指數(shù)為實(shí)驗(yàn)數(shù)據(jù),并以已經(jīng)研究證實(shí)預(yù)測效果較突出的指數(shù)預(yù)測建模方法[5,21],包括多層感知器MLP、支持向量回歸SVR和LSTM,作為實(shí)驗(yàn)的對比方法,對CEEMDAN-LSTM模型的預(yù)測有效性、適應(yīng)性進(jìn)行評估。

(一)基于滬深300指數(shù)的預(yù)測效果對比分析

以本文所述訓(xùn)練期內(nèi)的滬深300指數(shù)時(shí)序數(shù)據(jù)為輸入,分別運(yùn)用MLP、SVR和LSTM三種指數(shù)預(yù)測建模方法,直接針對指數(shù)序列數(shù)據(jù)構(gòu)建相應(yīng)的指數(shù)預(yù)測模型,然后以可視化方式呈現(xiàn)各種預(yù)測模型的滾動(dòng)預(yù)測效果,并對各模型的預(yù)測效果進(jìn)行采用多指標(biāo)評估與對比分析,以客觀地評估CEEMDAN-LSTM指數(shù)預(yù)測建模方法的有效性。

多層感知器(MLP)是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)(ANN),其中包含多個(gè)節(jié)點(diǎn)層,每個(gè)節(jié)點(diǎn)代表一個(gè)帶有非線性激活函數(shù)的神經(jīng)元。MLP是一個(gè)有向圖,每一層都全連接到下一層,能將一組輸入向量映射到輸出向量,通常采用反向傳播BP算法訓(xùn)練網(wǎng)絡(luò)權(quán)值。本文通過交叉驗(yàn)證與網(wǎng)格搜索方法設(shè)定MLP參數(shù)的最優(yōu)值:正則化懲罰項(xiàng)系數(shù)α為0.1,隱層層數(shù)為3,相應(yīng)的節(jié)點(diǎn)數(shù)為(13,23,9),激活函數(shù)為“tanh”,優(yōu)化算法為“l(fā)bfgs”。圖11給出了指數(shù)MLP預(yù)測模型的滾動(dòng)預(yù)測結(jié)果,存在一定的預(yù)測滯后性。

圖11 MLP模型的滾動(dòng)預(yù)測結(jié)果

按照本文所述LSTM預(yù)測建模方法,針對滬深300指數(shù)序列的前2 450個(gè)數(shù)據(jù),創(chuàng)建訓(xùn)練集并直接建立基于LSTM的指數(shù)序列預(yù)測模型,其參數(shù)設(shè)定參照前文所述的子序列LSTM預(yù)測模型參數(shù)。直接通過LSTM建模的指數(shù)預(yù)測結(jié)果如圖12所示,其中預(yù)測值相對真實(shí)值有一定右偏,表明該預(yù)測方法存在預(yù)測滯后性問題。

圖12 LSTM模型的指數(shù)滾動(dòng)預(yù)測結(jié)果

參照賀毅岳等關(guān)于股市指數(shù)SVR預(yù)測建模的研究結(jié)果,以指數(shù)時(shí)序數(shù)據(jù)為基礎(chǔ)創(chuàng)建訓(xùn)練集和測試集[21]。在對指數(shù)的SVR建模過程中,為避免模型超參數(shù)較多導(dǎo)致參數(shù)搜索計(jì)算代價(jià)過高的問題,本文限定系數(shù)γ和懲罰系數(shù)C的搜索區(qū)間為[0.01,20],待選核函數(shù)為:多項(xiàng)式核、線性核函、高斯核,進(jìn)一步采用隨機(jī)參數(shù)優(yōu)化方法進(jìn)行參數(shù)尋優(yōu)實(shí)驗(yàn),搜索到SVR預(yù)測模型中最優(yōu)的核函數(shù)為“l(fā)inear”、懲罰系數(shù)α為20,其余參數(shù)設(shè)定為Sklearn庫中SVR函數(shù)提供的默認(rèn)值。圖13給出了基于SVR的指數(shù)滾動(dòng)預(yù)測結(jié)果,仍存在一定的預(yù)測滯后性。

圖13 SVR模型的指數(shù)滾動(dòng)預(yù)測結(jié)果

在CEEMDAN分解的基礎(chǔ)上進(jìn)一步構(gòu)建預(yù)測模型CEEMDAN-MLP和CEEMDAN-SVR,在模型參數(shù)尋優(yōu)過程中均采用了隨機(jī)參數(shù)優(yōu)化方法[3]。圖14給出了本文方法及上述5種對比建模方法在預(yù)測區(qū)間的前100個(gè)指數(shù)值上的滾動(dòng)預(yù)測對比結(jié)果。表5進(jìn)一步給出了各預(yù)測方法的多指標(biāo)評估結(jié)果,其中CEEMDAN-LSTM的R2和EVS最大,RMSE和MAE最小,其在所有評估指標(biāo)上一致優(yōu)于其他5種對比方法。表5中模型CEEMDAN-MLP和CEEMDAN-SVR顯著優(yōu)于SVR和MLP直接建模的預(yù)測效果,也證實(shí)了對指數(shù)進(jìn)行CEEMDAN分解與重組處理能顯著提升建模的精確度。這表明通過CEEMDAN分解與重組產(chǎn)生子序列,再建模預(yù)測并集成最終預(yù)測值的思路是合理有效的。

圖14 六種建模方法的滾動(dòng)預(yù)測結(jié)果對比

表5 不同預(yù)測建模方法在滬深300上的評估結(jié)果

(二)基于上證綜指等四個(gè)典型指數(shù)的預(yù)測效果對比分析

利用Python從聚寬量化平臺(tái)在線提取2006年1月1日至2018年2月1日之間上證綜指、上證50、深圳成指3個(gè)典型股市指數(shù)的收盤價(jià),提取2008年1月1日至2018年2月1日之間中證500指數(shù)的收盤價(jià),剔除節(jié)假日等因素的影響,前3個(gè)指數(shù)均含有2 955個(gè)數(shù)據(jù),中證500含有2 472個(gè)數(shù)據(jù),作為指數(shù)預(yù)測建模的輸入數(shù)據(jù)。對上述4個(gè)指數(shù)的統(tǒng)計(jì)性質(zhì)分析與檢驗(yàn)表明:與滬深300指數(shù)類似,上述4個(gè)指數(shù)包含大量的噪聲,具有顯著的非正態(tài)、非平穩(wěn)特征,對應(yīng)的收益率序列波動(dòng)聚集性顯著,直接應(yīng)用傳統(tǒng)的計(jì)量方法難以獲得高精度的預(yù)測效果,因而選用CEEMDAN-LSTM對各指數(shù)進(jìn)行預(yù)測建模。

分別以上述4種指數(shù)的2016年2月1日之前共2 450個(gè)數(shù)據(jù)(中證500前1 967個(gè)數(shù)據(jù))作為建模輸入數(shù)據(jù),參照前文所述滬深300指數(shù)序列CEEMDAN-LSTM建模過程,采用滾動(dòng)預(yù)測建模方式,以最近30天的指數(shù)值為輸入變量來預(yù)測下一天的指數(shù)值,依次通過指數(shù)序列的CEEMDAN分解和重組、子序列LSTM預(yù)測建模及高頻子序列重組中IMF組合方式優(yōu)化、加和集成指數(shù)整體預(yù)測值等一系列建模步驟,構(gòu)建出與每一種指數(shù)對應(yīng)的CEEMDAN-LSTM預(yù)測模型。同時(shí),參照本文基于滬深300指數(shù)的預(yù)測效果對比分析部分所述,針對上述每一種指數(shù),采用滾動(dòng)預(yù)測建模方式,分別運(yùn)用MLP、SVR、LSTM、CEEMDAN-SVR和CEEMDAN-MLP建模方法,構(gòu)建5個(gè)對應(yīng)的指數(shù)預(yù)測對比模型。然后,以每一個(gè)指數(shù)2016年2月2日至2018年2月1日共505個(gè)數(shù)據(jù)構(gòu)建滾動(dòng)預(yù)測的測試集,分別利用上述6種預(yù)測模型進(jìn)行周期為30天的按日滾動(dòng)預(yù)測,以對比分析各模型的預(yù)測效果。

圖15依次給出了上述6種建模方法在上證綜指、上證50、深圳成指和中證500四個(gè)指數(shù)預(yù)測區(qū)間上的滾動(dòng)預(yù)測對比結(jié)果。其中,相比其他對比建模方法的預(yù)測曲線,CEEMDAN-LSTM預(yù)測曲線與原指數(shù)曲線貼合最緊密,時(shí)間滯后性最弱。進(jìn)一步地,表6~9依次給出了各模型在四個(gè)指數(shù)上滾動(dòng)預(yù)測效果的多指標(biāo)評估結(jié)果,其數(shù)據(jù)證實(shí),在對上述每一個(gè)指數(shù)的預(yù)測表現(xiàn)中,相對于其他5種對比建模方法,CEEMDAN-LSTM的R2和EVS值均最大,而RMSE和MAE值均最小,即其在所有評估指標(biāo)上一致優(yōu)于包括LSTM在內(nèi)的其他5種對比方法;同時(shí),在對每一個(gè)指數(shù)的預(yù)測表現(xiàn)中,CEEMDAN-SVR和 CEEMDAN-MLP又分別優(yōu)于SVR和MLP直接建模,證實(shí)了對指數(shù)進(jìn)行CEEMDAN分解與重組處理能顯著提升進(jìn)一步預(yù)測建模的有效性。因此,將CEEMDAN的自適應(yīng)分解功能與LSTM的長期依賴關(guān)系提取能力結(jié)合運(yùn)用,進(jìn)而構(gòu)建股市指數(shù)的高精度混合預(yù)測模型的思路是合理、有效的。

(a)上證綜指

(b)上證50

(c)深圳成指

(d)中證500圖15 6種建模方法在4個(gè)典型股市指數(shù)上的滾動(dòng)預(yù)測效果對比

表6 不同預(yù)測建模方法在上證綜指上的評估結(jié)果

表7 不同預(yù)測建模方法在上證50上的評估結(jié)果

表8 不同預(yù)測建模方法在深圳成指上的評估結(jié)果

表9 不同預(yù)測建模方法在中證500上的評估結(jié)果

六、結(jié)論及展望

本文針對股票市場指數(shù)預(yù)測建模這一金融投資領(lǐng)域的核心問題,運(yùn)用CEEMDAN分解與重組產(chǎn)生波動(dòng)特征更簡單的高頻、低頻及趨勢子序列,為進(jìn)一步構(gòu)建子序列預(yù)測模型充分提取子序列的復(fù)雜波動(dòng)模式創(chuàng)造了有利條件,顯著降低了指數(shù)序列高精度預(yù)測建模的難度,使得本文通過CEEMDAN進(jìn)行指數(shù)分解與重組后分別構(gòu)建預(yù)測模型,進(jìn)而加和集成獲得指數(shù)整體預(yù)測值的思路合理、可行。本文在對指數(shù)CEEMDAN分解與重組的基礎(chǔ)上,充分利用LSTM對復(fù)雜序列中長期依賴關(guān)系高效提取的優(yōu)勢,提出并詳細(xì)闡述了一種CEEMDAN和LSTM結(jié)合的股市指數(shù)集成預(yù)測建模方法CEEMDAN-LSTM。最后,選取了包括滬深300、上證綜指等5個(gè)最具代表性的國內(nèi)股市指數(shù)為實(shí)驗(yàn)數(shù)據(jù),并以經(jīng)研究證實(shí)預(yù)測效果較突出的主流機(jī)器學(xué)習(xí)指數(shù)建模方法,包括MLP、SVR與LSTM,作為實(shí)驗(yàn)的對比方法,對CEEMDAN-LSTM模型的預(yù)測有效性、適應(yīng)性進(jìn)行多維度量化評估。實(shí)驗(yàn)結(jié)果證實(shí),CEEMDAN-LSTM的預(yù)測表現(xiàn)一致性地優(yōu)于現(xiàn)有建模方法,其預(yù)測結(jié)果誤差小、精度高,且相對真實(shí)指數(shù)值具有更低的時(shí)間滯后性。然而,本文在CEEMDAN-LSTM的建模過程中,對網(wǎng)絡(luò)隱藏層個(gè)數(shù)等部分參數(shù)的選取仍具有一定的主觀性;同時(shí),雙層LSTM單元未必能充分挖掘出非線性復(fù)雜指數(shù)序列中蘊(yùn)含的深層次變化模式信息,故還需進(jìn)一步研究模型參數(shù)的最優(yōu)化處理。

猜你喜歡
時(shí)序建模預(yù)測
顧及多種弛豫模型的GNSS坐標(biāo)時(shí)序分析軟件GTSA
無可預(yù)測
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
選修2—2期中考試預(yù)測卷(A卷)
清明
基于FLUENT的下?lián)舯┝魅S風(fēng)場建模
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運(yùn)動(dòng)”為例
基于不同建設(shè)時(shí)序的地鐵互聯(lián)互通方案分析
求距求值方程建模
正镶白旗| 仁化县| 抚松县| 武平县| 大同县| 龙山县| 福清市| 香格里拉县| 清流县| 和顺县| 潍坊市| 晋宁县| 霍州市| 三门县| 长宁区| 宜兴市| 浮梁县| 新安县| 焦作市| 金阳县| 平谷区| 区。| 惠东县| 齐河县| 青冈县| 桐乡市| 平谷区| 马山县| 汝州市| 新巴尔虎右旗| 普兰店市| 迭部县| 阳新县| 景谷| 舞钢市| 景洪市| 都兰县| 乐陵市| 江山市| 莱阳市| 民权县|