關(guān)永鋒, 喻 敏
(1.武漢科技大學(xué) 冶金工業(yè)過程系統(tǒng)科學(xué)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430081; 2.武漢科技大學(xué) 理學(xué)院,湖北 武漢 430065)
作為反映一個國家宏觀經(jīng)濟(jì)狀況的“晴雨表”,股指價(jià)格的變化直接影響金融市場的穩(wěn)定以及國民經(jīng)濟(jì)的發(fā)展。準(zhǔn)確的預(yù)測模型可以為金融市場的決策提供依據(jù),但是,受經(jīng)濟(jì)、政治等因素的影響,股指數(shù)據(jù)呈現(xiàn)出高度波動的特征,因此,在金融市場中找到一個穩(wěn)健的股指價(jià)格預(yù)測方案是一項(xiàng)困難和具有挑戰(zhàn)性的任務(wù)[1~3]。
目前,常用的預(yù)測方法包括時間序列分析模型[4,5]、神經(jīng)網(wǎng)絡(luò)算法[6,7]、支持向量機(jī)[8,9]等。時間序列分析常用模型為自回歸移動平均模型(Auto-Regressive Moving Average model, ARMA),其使用前提是序列必須為平穩(wěn)的,強(qiáng)行將其用于不平穩(wěn)數(shù)據(jù)的預(yù)測往往會出現(xiàn)“偽回歸”現(xiàn)象;反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation network, BP)運(yùn)用誤差反向傳播的思想,彌補(bǔ)了多層神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)問題,但容易陷入局部最優(yōu);支持向量機(jī)模型常用于小樣本建模預(yù)測,能較好的獲取全局最優(yōu),但是該算法需要設(shè)定的參數(shù)過多,缺少使得多個參數(shù)同時達(dá)到最優(yōu)的選擇方案。
股指價(jià)格數(shù)據(jù)具有非線性、非平穩(wěn)的特征,在對其進(jìn)行預(yù)測前常常需要經(jīng)過平穩(wěn)化、線性化處理,常用的預(yù)處理手段包括小波分解[10]、經(jīng)驗(yàn)?zāi)B(tài)分解[11,12]等。小波分解算法需面臨小波基函數(shù)的選擇問題,目前尚無統(tǒng)一的選擇標(biāo)準(zhǔn)可供參考;經(jīng)驗(yàn)?zāi)B(tài)分解算法則從數(shù)據(jù)自身出發(fā)進(jìn)行自適應(yīng)分解,無需進(jìn)行參數(shù)的選擇,但當(dāng)原始數(shù)據(jù)含有較多噪音時,其分解出來的分量會出現(xiàn)模態(tài)混疊現(xiàn)象,使EMD分解結(jié)果無法表示真實(shí)的物理過程。
針對上述問題,本文從兩方面入手改進(jìn),在預(yù)處理手段上,采用改進(jìn)的經(jīng)驗(yàn)?zāi)B(tài)分解算法(HF-EMD)對股指數(shù)據(jù)進(jìn)行自適應(yīng)分解,該算法在信號分解、故障檢測[13,14]等領(lǐng)域的應(yīng)用中取得了良好的效果,能有效改善EMD算法所產(chǎn)生的模態(tài)混疊現(xiàn)象;在預(yù)測模型的選擇上,采用粒子群優(yōu)化后的極限學(xué)習(xí)機(jī)模型(PSO-ELM)對分解后的各子序列進(jìn)行預(yù)測,與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)模型相比,ELM模型具有更快的學(xué)習(xí)速度,在非線性含噪數(shù)據(jù)的擬合中有較好的效果,在引入PSO算法進(jìn)行優(yōu)化后,模型整體的預(yù)測精度與魯棒性也得到了進(jìn)一步提高。最后,將各分量的預(yù)測值進(jìn)行等權(quán)加和獲得最終的預(yù)測值。以上證指數(shù)、日經(jīng)225指數(shù)、恒生指數(shù)、標(biāo)普500指數(shù)為代表的四組國內(nèi)外股指數(shù)據(jù)進(jìn)行的仿真實(shí)驗(yàn)表明,該組合模型在股指價(jià)格短期預(yù)測中具有較好的效果。
經(jīng)驗(yàn)?zāi)B(tài)分解是由HUANG等[15]提出的一種用于處理非線性非平穩(wěn)信號的方法,不同于傅里葉變換、小波變換等傳統(tǒng)的時頻分析方法,它不需進(jìn)行基函數(shù)的選擇,而是從信號自身出發(fā)進(jìn)行自適應(yīng)分解,具有很好的時頻聚集性。
EMD算法可以將原始信號分解為一組本征模態(tài)函數(shù)(Intrinsic Mode Functions, IMF),每一個IMF反映了不同的頻率特征。本征模態(tài)函數(shù)需要滿足以下兩個特征:
1)在IMF定義域中,極值點(diǎn)個數(shù)與零點(diǎn)個數(shù)要相等,或二者相差值不超過1;
2)由局部極大值和局部極小值形成的上下包絡(luò)函數(shù)的和要恒為0。
當(dāng)原始信號為x(t)時,EMD算法的分解流程如下:
1)由x(t)確定全部的局部極大值和局部極小值;
2)用三次樣條曲線分別連接所有極大值和極小值,形成上包絡(luò)線xu(t)和下包絡(luò)線xd(t);二者的均值為m1(t);令差值為h1(t)=x(t)-m1(t),驗(yàn)證h1(t)是否滿足IMF的兩個條件。若滿足,則h1(t)為第一個IMF分量;若不滿足,則用h1(t)替代原始信號x(t),并重復(fù)上述步驟,直到滿足IMF的兩個條件,得到第一個IMF分量;
3)令余項(xiàng)為r1(t)=x(t)-h1(t),用r1(t)替換掉原始信號x(t),對上述三個步驟進(jìn)行迭代,得到后續(xù)的分量,直到最后一個分量hn(t)產(chǎn)生的余項(xiàng)rn(t)小于某一特定值或?yàn)橐粋€單調(diào)函數(shù)時,EMD分解過程結(jié)束。
最終,原始信號x(t)可以表示為各IMF分量及余項(xiàng)rn(t)的等權(quán)加和。
EMD算法的分解過程很大程度依賴于原始信號極值點(diǎn)的選取,而股指數(shù)據(jù)受外界各種因素的影響常常會出現(xiàn)極為強(qiáng)烈的波動,導(dǎo)致其極值點(diǎn)分布不均勻,若強(qiáng)行對其進(jìn)行EMD分解,會出現(xiàn)模態(tài)混疊的現(xiàn)象,大大降低分解效果。但是,在股指價(jià)格的預(yù)測當(dāng)中,前人大都直接使用EMD分解方法對股指數(shù)據(jù)進(jìn)行分解[11,12]。在此,本文首次將高頻諧波抑制EMD算法模態(tài)混疊現(xiàn)象的方法應(yīng)用到股指數(shù)據(jù)的預(yù)處理過程當(dāng)中。該算法的思路是在EMD分解之前往原始信號中注入適當(dāng)?shù)母哳l信號,改變原始信號的極值分布,減弱或“淹沒”引起模態(tài)混疊現(xiàn)象的高頻短時擾動成份,從而使信號包絡(luò)更自然,減小分解誤差,優(yōu)化EMD算法的分解效果。
對股指價(jià)格數(shù)據(jù)進(jìn)行實(shí)驗(yàn)測試后,發(fā)現(xiàn)加入高頻正弦諧波信號的頻率為原始信號采樣頻率的1/3倍時,EMD分解出來的IMF分量更平穩(wěn),且頻率尺度較低的分量的軸對稱也更明顯,能有效減少模態(tài)混疊現(xiàn)象。因此,本文選取幅值為未加入高頻信號EMD分解的第一層分量IMF1的平均幅值,頻率為1000Hz的正弦諧波信號。具體地,將該高頻信號注入上證指數(shù)日收盤價(jià)序列后進(jìn)行EMD分解,從分解出來的第一層分量中減掉高頻諧波,分解結(jié)果如圖1所示。未加入高頻信號的EMD分解結(jié)果如圖2所示。圖中HF-EMD分解出來的IMF6與EMD分解出來的IMF7相對應(yīng),可看出注入高頻諧波的EMD分解結(jié)果更平穩(wěn),并且該分量軸對稱性也更明顯。其他的分量也存在類似的改善。此外,HF-EMD的分解層數(shù)也減少了一層,這有利于減少預(yù)測模型的計(jì)算量,加快預(yù)測速度。
圖2 EMD算法的分解結(jié)果
神經(jīng)網(wǎng)絡(luò)模型對非線性數(shù)據(jù)具有較好的擬合效果,常用于股指價(jià)格的預(yù)測當(dāng)中[6,7]。極限學(xué)習(xí)機(jī)是基于單隱含層前饋神經(jīng)網(wǎng)絡(luò)的一種改進(jìn)算法,具有學(xué)習(xí)速度快、泛化能力較好等優(yōu)點(diǎn),能克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練速度慢、易陷入局部最優(yōu)等缺點(diǎn)。
設(shè)有M個不同的隨機(jī)樣本(xi,yi)∈Rn。若網(wǎng)絡(luò)的隱含層神經(jīng)元個數(shù)為L,激活函數(shù)為g(x),隱含層第i個節(jié)點(diǎn)的輸入權(quán)值向量為wi,偏置值為bi,輸出權(quán)值向量為βi,于是SLFN模型可表示為:
(1)
式中,j=1,2,…,M。
依據(jù)零誤差逼近原則,上述模型能無限逼近M個訓(xùn)練樣本,存在βi、wi和bi使得下式成立
(2)
式中,j=1,2,…,M。
對應(yīng)的矩陣形式為:
Hβ=YT
(3)
式中,H+為隱含層輸出矩陣H的Moore-Penrose廣義逆矩陣。
粒子群優(yōu)化算法是一種群智能優(yōu)化算法,基于“種群”和“進(jìn)化”的概念,通過個體間的協(xié)作與競爭,實(shí)現(xiàn)復(fù)雜空間最優(yōu)解的搜索。而ELM模型初始的輸入層與隱含層間的連接權(quán)值w,隱含層的偏置值b是隨機(jī)產(chǎn)生的,為減小初始的隨機(jī)設(shè)定所帶來的偏差,增加ELM網(wǎng)絡(luò)的穩(wěn)定性,本文提出采用粒子群算法優(yōu)化ELM的初始權(quán)值和偏置值。以上證指數(shù)日收盤價(jià)數(shù)據(jù)為例對該算法具體步驟的說明如下:
1)確定PSO-ELM模型的拓補(bǔ)結(jié)構(gòu)。采用迭代尋優(yōu)的方法確定網(wǎng)絡(luò)的隱含層神經(jīng)元個數(shù),而網(wǎng)絡(luò)的輸出維數(shù)為1,激活函數(shù)選擇的是Sigmoid函數(shù);
2)粒子群的初始化及更新。本文的種群由ELM的輸入層-隱含層的權(quán)值w,隱含層的偏置值b組成,群體規(guī)模N為10,最大迭代次數(shù)為50,粒子維數(shù)D為39;粒子速度最大值為1,最小值為-1;粒子位置最大值為5,最小值為-5;學(xué)習(xí)因子c1、c2均為1.5;以ELM訓(xùn)練集的輸出誤差作為適度值函數(shù),計(jì)算出每個粒子的適度值fiti;將每個粒子的適度值fiti分別與個體極值pbest、全局極值gbest作比較,若適度值fiti更小,則可用其替換掉個體極值pbest和全局極值gbest;而后,通過迭代來更新每個粒子的速度和位置;
3)判斷是否達(dá)到最大迭代次數(shù)或最小誤差,若達(dá)到則停止,否則繼續(xù)。
由于股指價(jià)格是一類具有非平穩(wěn)性、非線性性的數(shù)據(jù),使用單一模型對其進(jìn)行預(yù)測很難捕獲隱藏在原始數(shù)據(jù)中的所有信息,缺乏數(shù)據(jù)平穩(wěn)化處理的過程,而采用多尺度分解算法與單一模型相結(jié)合的組合預(yù)測[16,17]能獲得更好的效果。組合預(yù)測模型的思想是從不同角度獲取數(shù)據(jù)的變化信息,集成單一預(yù)測模型的優(yōu)點(diǎn),避免單一模型預(yù)測過程中的誤差累積。本文遵循“分解-組合”的思想,提出一種基于HF-EMD以PSO-ELM的股指數(shù)據(jù)預(yù)測模型,如圖3所示,該模型的預(yù)測流程如下:
圖3 本文模型的預(yù)測流程
1)向股指價(jià)格數(shù)據(jù)中注入高頻諧波,利用EMD算法對其進(jìn)行分解,獲得若干個含不同頻率成分的IMF分量,對每個分量數(shù)據(jù)區(qū)分訓(xùn)練集和測試集,并進(jìn)行歸一化處理;
2)對各IMF分量采用PSO-ELM模型依次進(jìn)行預(yù)測,獲得各分量預(yù)測值;
3)等權(quán)累加各分量的預(yù)測值獲得最終的股指價(jià)格預(yù)測值。
為說明本文模型對于股指價(jià)格的預(yù)測效果,選取平均絕對誤差(Mean Squared Error,MAE)平均絕對百分比誤差(Mean Absolute Percentage Error, MAPE)、均方根誤差(Root Mean Square Error, RMSE)這三個指標(biāo)對模型的預(yù)測性能進(jìn)行評價(jià)。計(jì)算公式如下:
同時,引入Diebold-Mariano(DM)檢驗(yàn)用于測試每個模型的殘差序列間是否存在顯著差異。
本文選取2016.01.01~2019.12.31期間,以上證指數(shù)、日經(jīng)225指數(shù)、恒生指數(shù)、標(biāo)普500指數(shù)為代表的四組國內(nèi)外股指指數(shù)的日收盤價(jià)進(jìn)行實(shí)驗(yàn)分析。由于各國對于股指數(shù)據(jù)的統(tǒng)計(jì)方法存在差異,因此所獲取的四組數(shù)據(jù)的樣本數(shù)據(jù)量不盡相同,在此取各組數(shù)據(jù)的后100個數(shù)據(jù)作為測試樣本,剩余的數(shù)據(jù)作為訓(xùn)練樣本。圖4給出了四支股票日收盤價(jià)的走勢圖,可看出這些序列存在明顯的非線性性及波動性。
圖4 各支股票收盤價(jià)走勢
為說明本文所提組合模型的預(yù)測效果,選取ARMA、BP、ELM、PSO-ELM為單一基準(zhǔn)模型,EMD-PSO-ELM為組合基準(zhǔn)模型,與本文模型進(jìn)行對比。各模型預(yù)測結(jié)果如圖5~圖8所示,表1為各模型評價(jià)指標(biāo)的結(jié)果。
表1 各模型預(yù)測結(jié)果比較
圖5 上證指數(shù)各模型預(yù)測效果
圖6 日經(jīng)225指數(shù)各模型預(yù)測效果
圖7 恒生指數(shù)各模型預(yù)測效果
圖8 標(biāo)普500指數(shù)各模型預(yù)測效果
從單一模型的角度來看,與ARMA、BP、ELM模型相比,PSO-ELM具有更好的預(yù)測效果。以上證指數(shù)為例,優(yōu)化后的ELM模型MAE值為16.2377,相較于其他單一模型中預(yù)測效果較好的ELM模型而言,降低了3.77%,其他指標(biāo)MAPE、RMSE也有顯著的改善,這說明結(jié)合了ELM模型學(xué)習(xí)速度快及PSO啟發(fā)式全局尋優(yōu)兩個優(yōu)點(diǎn)的PSO-ELM模型能有效提高股指價(jià)格數(shù)據(jù)的預(yù)測精度。
從組合模型的角度看,本文模型與組合基準(zhǔn)模型的預(yù)測效果均高于單一基準(zhǔn)模型,這說明引入了多尺度分解手段對股指數(shù)據(jù)進(jìn)行預(yù)處理后,能有效降低數(shù)據(jù)的非平穩(wěn)性,顯著提高模型的預(yù)測精度。以恒生指數(shù)為例,本文模型的MAPE值為35.10%,相較于單一模型中預(yù)測性能較好的PSO-ELM模型而言,降低了35.81%,降幅達(dá)到了50.50%,其他指標(biāo)MAE、RMSE也有顯著的改善。進(jìn)一步比較兩種組合模型的預(yù)測精度,可發(fā)現(xiàn)HF-EMD-PSO-ELM模型具有更好的預(yù)測效果,以標(biāo)普500指數(shù)為例,本文模型的RMSE為16.0382,相較EMD-PSO-ELM模型而言,降低了3.8444,降幅為19.34%,其他指標(biāo)MAPE、MAE也呈現(xiàn)出相似的結(jié)果??梢?在引入了高頻諧波對EMD算法進(jìn)行改進(jìn)后,能有效緩解模態(tài)混疊現(xiàn)象,有利于把握股指數(shù)據(jù)的變化規(guī)律。
最后,采用Diebold-Mariano檢驗(yàn)對各模型的有效性進(jìn)行檢驗(yàn),將本文提出的HF-EMD-PSO-ELM模型的殘差序列與其余5類基準(zhǔn)模型的殘差序列分別進(jìn)行DM檢驗(yàn),結(jié)果如表2所示。由表可知,在1%的置信水平下,本文模型與單一基準(zhǔn)模型的預(yù)測精度具有明顯差異;在5%的置信水平下,本文模型與組合基準(zhǔn)模型的預(yù)測精度具有明顯差異。
表2 各模型與HF-EMD-PSO-ELM模型的DM檢驗(yàn)結(jié)果
綜上,由于股指價(jià)格的波動呈現(xiàn)出復(fù)雜的非線性關(guān)系,在使用傳統(tǒng)分解方法獲取股指價(jià)格的高頻擾動及長期趨勢時會產(chǎn)生模態(tài)混疊,利用高頻諧波改變原始股指價(jià)格序列的極值分布再進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解,有利于準(zhǔn)確提取不同分量的波動特征。同時,利用PSO-ELM模型對各模態(tài)分量進(jìn)行組合預(yù)測,能準(zhǔn)確反映股指價(jià)格的漲跌情況,為投資者的決策提供依據(jù)。因此,與傳統(tǒng)預(yù)測模型相比,本文所提模型能準(zhǔn)確把握股指價(jià)格的變化規(guī)律,有效提高預(yù)測的準(zhǔn)確性與魯棒性。
本文基于改進(jìn)的EMD算法和PSO優(yōu)化的ELM模型,針對股指價(jià)格數(shù)據(jù)非平穩(wěn)非線性的特征,提出了一種用于股指價(jià)格短期預(yù)測的組合模型。對近4年國內(nèi)外四組具有代表性的股指數(shù)據(jù)進(jìn)行實(shí)證分析,得出以下結(jié)論:
1)利用多尺度分解的方法對股指價(jià)格數(shù)據(jù)進(jìn)行預(yù)處理后,能有效提高模型的預(yù)測精度。將原數(shù)據(jù)分解為不同頻帶的分量后,不僅解決了原數(shù)據(jù)非線性非平穩(wěn)的問題,而且還豐富了預(yù)測數(shù)值的經(jīng)濟(jì)含義。同時,將多尺度分解方法與群智能優(yōu)化算法引入單一模型的改進(jìn)后,能顯著提高股指價(jià)格的預(yù)測精度,有效避免單一模型在預(yù)測過程中的誤差累積。
2)利用高頻注入法的改進(jìn)EMD算法(HF-EMD)對股指數(shù)據(jù)進(jìn)行分解,能有效改善在僅使用EMD分解時所產(chǎn)生的模態(tài)混疊現(xiàn)象,各分量更平穩(wěn)且軸對稱性更好。同時,注入高頻后,EMD分解的分量個數(shù)有所減少,可減少后續(xù)預(yù)測的計(jì)算量。該方法為股指數(shù)據(jù)預(yù)處理提供了一種新的思路。