董小剛 曹馨潼 秦喜文
摘要:基于匯率市場的價格變動具有混沌變化的特性,單個模型訓練中產(chǎn)生的過擬合問題也難以解決。LSTM和ELM自身結(jié)構(gòu)較為復雜,難以直接組合。綜合上述問題創(chuàng)新性采用基于權(quán)重分配的線性組合方法將兩者結(jié)合,并首次應用到匯率預測領(lǐng)域。為了提高ELM的性能,將一種遲滯的生物神經(jīng)系統(tǒng)特性嵌入到ELM的神經(jīng)元激活函數(shù)中并且引入了微分進化算法通過最小加權(quán)目標函數(shù)對LSTM進行優(yōu)化。仿真結(jié)果表明,與其他5種模型相比該集成預測模型的預測效果更好。
關(guān)鍵詞:集成模型;外匯匯率波動;神經(jīng)網(wǎng)絡(luò);極限學習機
一、引言
匯率是一個重要的研究課題,因為它是國家之間經(jīng)濟競爭的指標。自1971年以來,世界經(jīng)濟發(fā)生了變化,使匯率市場更加難以預測。準確的匯率預測對政策制定者、計量經(jīng)濟學家和從業(yè)人員都具有重要意義。一些研究試圖通過分析計量經(jīng)濟模型,開發(fā)人工智能模型,并通過創(chuàng)建混合模型將兩者結(jié)合,來開發(fā)更準確的模型來預測未來匯率。周曉波(2019)通過利用神經(jīng)網(wǎng)絡(luò)預測匯率,顯示出了捕捉非線性的能力,使得匯率預測超越了傳統(tǒng)的方法和隨機漫步。其他研究也表明,通過修改神經(jīng)網(wǎng)絡(luò)的類型(李章曉等,2018、蔣傳進,2017、李欣玨,2020)可以將預測精度提高。在大量研究結(jié)論中得出使用機器學習模型的預測效果更好。很多實驗表明,ARIMA模型是最常用的模型之一,但存在兩種局限性:“線性”和“數(shù)據(jù)”局限性。Meese(1983)發(fā)現(xiàn),在預測12個月內(nèi)的匯率時,隨機游走模型的表現(xiàn)與其他模型一樣好。學者周曉波(2019)等將GRNN和BRNN各自發(fā)揮了自己獨特的優(yōu)勢,例如:擅長預測隨機因素和趨勢因素在匯率預測領(lǐng)域做出了新的貢獻。學者操瑋(2020)構(gòu)建基于機器學習和傳統(tǒng)計量經(jīng)濟學的混合模型,預測精度有所提高。
本文將機器學習算法應用于匯率預測中,旨在為準確預測匯率提供科學可行性的建議和決策參考,探索建立新的匯率預測建模體系。
二、模型構(gòu)建
(一)ELM預測模型及改進
極限學習機(ELM)作為一種隨機選擇隱藏權(quán)值的單層前饋網(wǎng)絡(luò)在2006年被提出。傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)需要對網(wǎng)絡(luò)的每個參數(shù)進行迭代優(yōu)化,并且存在收斂速度慢的問題。ELM中的隱藏節(jié)點是隨機選擇的,并分析確定輸出值。該方法取代了傳統(tǒng)算法中的權(quán)值和偏差,提高了訓練速度和泛化能力。一個典型的基于單隱藏層的ELM模型包含l個隱藏節(jié)點,輸出權(quán)重β和g(x,wi,b)作為每個節(jié)點的sigmoid函數(shù)。圖1顯示了ELM的結(jié)構(gòu)。ELM的損失函數(shù)公式如下:
其中,N和L分別是輸入神經(jīng)元數(shù)和隱藏神經(jīng)元數(shù);βi表示輸入層和隱藏層之間的權(quán)重;bi是閾值;g(x)表示激活函數(shù)。εj=[εj1,εj2,…,εjm]是第j個樣本的誤差。Xj
和tj分別代表輸入數(shù)據(jù)和輸出數(shù)據(jù)。
由于隱藏層的隨機分配,學習率或多或少會降低。將生物神經(jīng)系統(tǒng)中常見的遲滯特性引入到原始ELM的神經(jīng)元激活中,描述為:
其中,x(t)表示神經(jīng)元的輸入。g(x)由兩個sigmoid函數(shù)組成;ca和cb是正斜率參數(shù)。當a=b且ca=cb時,滯后形式將成為傳統(tǒng)形式。滯后函數(shù)可以避免神經(jīng)元陷入局部最小值并提供更快的學習速度,因為它可以在兩個網(wǎng)段之間切換。此外,有四個與之相關(guān)的可調(diào)參數(shù),這意味著滯后神經(jīng)元比傳統(tǒng)形式更為靈活。
關(guān)于滯后參數(shù)的調(diào)整,本研究采用梯度下降法。對于第j個樣本,當?shù)趇個隱層神經(jīng)元的上分支興奮時,滯后參數(shù)ai做如下訓練:
其中η是學習率;neti第i個隱藏層神經(jīng)元:neti=w■■xj+ai。
同樣,當?shù)趇個隱層神經(jīng)元的下分支是激發(fā)響應興奮時,可以得到參數(shù)bi。對于另外兩個正斜率ca和cb。引入中間參數(shù)d以避免它們變成負值,即d=■,這些參數(shù)計算如下:
(二)LSTM模型及優(yōu)化
LSTM網(wǎng)絡(luò)的主要目標最初是捕獲長期依賴關(guān)系并在時間序列分析中確定最佳滯后順序,對時序特性表達能力尤為突出。由于LSTM網(wǎng)絡(luò)具有解決長期依賴問題的能力及梯度爆炸問題,在處理時間序列時往往具有很好的性能。在本小節(jié)中,提供LSTM神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)以預測匯率, 見圖2。結(jié)構(gòu)圖中的Xt表示t時刻的輸入,ht表示t時刻細胞的狀態(tài)值σ表示激活函數(shù)為sigmoid的前饋網(wǎng)絡(luò)層,tanh表示激活函數(shù)為tanh的前饋網(wǎng)絡(luò)層。具體計算公式如下:
其中,xt是輸入值,yt是輸出值;it,ot,ft分別表示輸入門、輸出門、遺忘門;ct是每個單元的激活向量,而mt表示每個存儲塊的激活向量;σ,g,h分別表示門、輸入和輸出激活函數(shù)(通常是logistic sigmoid函數(shù)和tanh函數(shù));?茚表示兩個向量之間的元素乘法;此外Wix,Wim,Wic,Wfx,Wfm,Wfc,Wcx,Wcm,Wox,Wom,Woc,Wym是相應的權(quán)重系數(shù);bi,bf,bc,bo,by是相應的誤差向量。
微分進化算法是一種基于群體的優(yōu)化方法。該進化算法及其改進版本已被廣泛用于解決各種優(yōu)化問題。由于缺乏清晰的概念幫助研究者設(shè)置隱藏層和LSTM網(wǎng)絡(luò)各隱藏層中的相關(guān)神經(jīng)元數(shù)目,許多研究者通過反復試驗來選擇它們,這種方法很低效。LSTM網(wǎng)絡(luò)的預測能力會受到隱藏層和相應神經(jīng)元計數(shù)的影響。在上述分析的影響下,微分進化算法被用來優(yōu)化LSTM網(wǎng)絡(luò)中隱藏層的數(shù)量(Ghl)及其神經(jīng)元的數(shù)量(Gn),以增強預測能力。為了在預測能力和模型復雜性之間進行權(quán)衡,本文對適應度函數(shù)的考慮如下:
其中,Ghli,{i=1,…,D}是第i個LSTM的隱藏層數(shù),Gn1j,{j=1,…,hl1}是相應隱藏層中神經(jīng)元的數(shù)量。GnDj和Gn1j具有相似的含義。LGhl和UGhl是Ghl的下界和上界,而LGn和UGn是Gn的下界和上界。預定義的適應度函數(shù)表示為加權(quán)求和,如下:
其中,Gn1j,{j=1,1…,hl1}與公式(8)含義相同。MSE是均方誤差;w1是平衡學習性能和模型復雜性的權(quán)重系數(shù)。當Ghl在[1,2]范圍內(nèi),Gn在[30,230]范圍內(nèi),本文中Ghl和Gn的上下限在這個范圍中選取。本文將LGnl和UGnl設(shè)置為1和2,并將LGn和UGn設(shè)置為30和230。因此,本文采用了基于多種群的微分進化算法。為了進一步闡述,四個獨立的群體被用來表示四種情況:第一,所有的LSTM網(wǎng)絡(luò)是一個隱藏層;第二,兩個LSTM網(wǎng)絡(luò)是一個隱藏層,另一個是兩個隱藏層;第三,一個LSTM網(wǎng)絡(luò)是一個隱藏層,兩個LSTM網(wǎng)絡(luò)是兩個隱藏層;第四,所有LSTM網(wǎng)絡(luò)都是兩個隱藏層。圖3顯示了在進化過程中隱藏層數(shù)及其相關(guān)神經(jīng)元的四種情況的編碼機制。
(三)模型集成方法
加權(quán)平均法,即將各變量乘以相應的權(quán)重數(shù),然后求和得到總和,再除以變量的個數(shù)?;旌夏P涂梢詫ι疃葘W習模型及ELM模型的預測結(jié)果進行加權(quán)累計,得到與真實值更相近的預測結(jié)果,如公式(10)所示。
本文采用標準差衡量的方法對模型權(quán)重進行定值,具體公式如下:
其中,Samplestandard是樣本的標準差,ELMstandard是ELM模型預測結(jié)果的標準差,LSTMstandard是LSTM模型預測結(jié)果的標準差。
(四)LSTM-ELM混合預測模型
本文擬將練集得到LSTM和ELM模型預測值和真實值,進行加權(quán)平均,其中每一種模型的結(jié)果作為一個特征輸入,真實的匯率數(shù)據(jù)作為輸出,根據(jù)得到的權(quán)重,預測測試集,獲得 LSTM-ELM 集成算法,過程如下:
第一,用訓練集的主成分作為輸入變量,并以匯率為期望輸出,訓練LSTM模型。訓練測試結(jié)果為匯率的LSTM預測值記為ValueLSTM,由訓練集數(shù)據(jù)對訓練好的LSTM模型測試獲得。
第二,用訓練集的主成分作為輸入變量,并以匯率為期望輸出,訓練ELM模型。訓練測試結(jié)果為匯率的ELM預測值記為ValueELM,由訓練集數(shù)據(jù)對訓練好的LSTM模型測試獲得。
第三,分別用ValueLSTM,ValueELM為自變量,用訓練集的真實值Valuesample為因變量,采用上節(jié)介紹中提到的加權(quán)平均的方法,得到線性模型。
第四,對訓練完成的LSTM和ELM模型帶入測試集的數(shù)據(jù),將得到的測試結(jié)果帶入到混合模型中,得出最終預測結(jié)果Valuehybrid。
三、數(shù)據(jù)來源及樣本選擇
本研究在樣本區(qū)間為2011年1月1日至2017年12月31日中,選取了美元兌英鎊、日元、歐元、人民幣這四種典型的每日匯率,共1820觀測值(數(shù)據(jù)來源于Wind資訊)。這些數(shù)據(jù)分為樣本內(nèi)數(shù)據(jù)集和樣本外數(shù)據(jù)集,如表1所示。
用Python對數(shù)據(jù)趨勢進行觀察,可看出四個匯率序列都是非平穩(wěn)的,且呈現(xiàn)出輕微的偏態(tài),峰度較高。因此,將原始匯率時間序列轉(zhuǎn)化為四個日匯率收益率,公式如下:
其中,Qt是期對數(shù)收益率,Rt是t期名義匯率。
本文研究的每種匯率收益率的描述性統(tǒng)計和收益率序列的統(tǒng)計差異見表2。
四、實證結(jié)果分析
(一)模型精度判別
為了評估所有方法的性能,本研究采用PT檢驗對真實值和預測值的相對變化趨勢是否同步進行檢驗,選擇的評價指標為均方根誤差,公式如下:
其中,y^i是實際值,yi是預測值,n是預測數(shù)量。
(二)各模型預測能力對比
表3和表4提供了歐元/美元、英鎊/美元、日元/美元和人民幣/美元匯率收益率本文所采用的所有方法的樣本內(nèi)和樣本外表現(xiàn)。表3的結(jié)果表明,本文提出的方法在每個匯率回報率的樣本內(nèi)表現(xiàn)最好。LSTM模型的精度位列其次。同時,PT統(tǒng)計的結(jié)果表明拒絕了原假設(shè),表明除了ARMA外,幾乎所有測試方法都具有1%置信水平的預測能力。換句話說,只有ARMA模型對四種匯率收益率的方向準確性產(chǎn)生了相對較差的預測。表4的結(jié)果顯示,本文方法在樣本外數(shù)據(jù)集中保持了預測的優(yōu)越性,LSTM再次成為次優(yōu)方法。PT統(tǒng)計量檢驗結(jié)果表明,所有的神經(jīng)網(wǎng)絡(luò)對這四種匯率收益率的方向精度都取得了較好的預測效果。
為了檢驗LSTM-ELM模型的準確性,使用DM檢驗對預測的平均絕對誤差(MAE)和均方誤差(MSE)進行檢驗,這些模型的預測結(jié)果具有統(tǒng)計顯著性,并優(yōu)于研究中的一些基準模型。對這四種匯率收益率的樣本外數(shù)據(jù)集和樣本內(nèi)數(shù)據(jù)集進行了DM檢驗。表5和表6將LSTM-ELM集成方法與這四個匯率回報的樣本內(nèi)數(shù)據(jù)集和樣本外數(shù)據(jù)集的相應基準模型進行比較,顯示了DM測試的結(jié)果。可以清楚地看到,除了LSTM-ELM模型外,在1%顯著性水平上的所有模型的DM檢驗原假設(shè)都被拒絕,因為括號中的所有絕對值都高于臨界值2.33。此外,從統(tǒng)計的角度,本文提出的模型在MSE和MAE兩個方面都得到了驗證。
表7總結(jié)了每種匯率預測的所有方法的樣本內(nèi)交易表現(xiàn),表7的結(jié)果再次表明,我們提出的模型在所有交易收益率后的信息比率和交易成本后的年化收益(按年率計算)方面均具有優(yōu)越的潛在財務盈利能力。表8總結(jié)了每種匯率預測的所有方法的樣本外交易表現(xiàn),表8的結(jié)果表明,就交易率而言,模型在每一種匯率預測方面優(yōu)于所有其他基準。研究中列出的所有方法在樣本外數(shù)據(jù)集中都產(chǎn)生了正回報率。
因此,通過統(tǒng)計評估標準和交易評估標準,本文提出的模型比所有的基準有更好的表現(xiàn),顯著提高了潛在的財務盈利能力。
四、結(jié)論與建議
本文提出了改進的LSTM-ELM模型,利用LSTM網(wǎng)絡(luò)、ELM、遲滯的生物神經(jīng)系統(tǒng)特性、微分進化算法和基于加權(quán)平均的線性集成機制,實現(xiàn)了高精度、更穩(wěn)定的匯率預測結(jié)果。為解決ELM學習性能問題,引入了ELM的滯后激活函數(shù),該函數(shù)具有兩個優(yōu)點:神經(jīng)元的輸出不僅依賴于輸入,還依賴于導數(shù)信息,導數(shù)信息可以為神經(jīng)元提供記憶;滯后函數(shù)可以避免神經(jīng)元在兩段之間切換時陷入局部極小值。考慮到在LSTM網(wǎng)絡(luò)中沒有一個明確的理論來設(shè)置隱藏層的數(shù)目和每個隱藏層中的神經(jīng)元數(shù)目,在LSTM網(wǎng)絡(luò)中使用一個高效且可靠的進化算法來優(yōu)化這些數(shù)目。并選擇RMSE作為評價指標,采用PT檢驗對真實值和預測值的相對變化趨勢是否同步進行檢驗,為了檢驗LSTM-ELM集成方法的準確性及所產(chǎn)生的預測結(jié)果具有統(tǒng)計意義,使用DM檢驗對平均絕對誤差和均方誤差進行預測。實證結(jié)果表明,本文所建立的LSTM-ELM混合模型在預測精度、統(tǒng)計檢驗和交易收益率方面明顯優(yōu)于其他一些基準模型,其次是LSTM模型和ELM模型,ARMA、RBFNN、GRNN表現(xiàn)一般。這意味著提出的方法是一個很有前景的外匯匯率預測和交易框架。
除了匯率預測,LSTM-ELM模型還可以用于解決其他復雜的預測問題,如股票指數(shù)預測等。在本文中沒有考慮到其他因素對匯率預測的影響,僅關(guān)注了單變量的預測。如果可以把影響匯率的眾多因素考慮其中,整合到LSTM-ELM模型中,預測能力可能會增強。希望本文提出的模型可以對相關(guān)行業(yè)提供一定參考。
參考文獻:
[1]操瑋,任思儒.基于LSTM與GARCH族混合模型的人民幣匯率波動預測研究[J].計算機應用研究,2020,37(S1):79-82.
[2]蔣傳進.基于模型遴選規(guī)則的匯率自適應組合預測[J].統(tǒng)計與決策,2017(16):74-78.
[3]李欣玨.及時性自適應高維經(jīng)濟基本面建模與匯率預測分析[J].系統(tǒng)工程理論與實踐,2020,40(06):1478-1494.
[4]李章曉,宋微,田野.基于深度學習和進化計算的外匯預測與投資組合優(yōu)化[J].鄭州大學學報(工學版),2019,40(01):92-96.
[5]周曉波,陳璋,王繼源.基于混合人工神經(jīng)網(wǎng)絡(luò)的人民幣匯率預測研究——兼與ARMA、ARCH、GARCH的比較[J].國際經(jīng)貿(mào)探索,2019,35(09):35-49.
[6]Meese,R.A.,Rogoff,K..Empirical exchange rate models of the seventies:Do they fit out of sample?[J].1983,14:3-24.
[7]Svitlana Galeshchuk.Neural networks performance in exchange rate prediction[J].Neurocomputing,2016,172:446-452.
*基金項目:國家自然科學基金項目“高頻數(shù)據(jù)的非參數(shù)統(tǒng)計推斷”(11571051);國家自然科學基金數(shù)學天元基金項目“機器學習的數(shù)學理論與應用”(12026430)。
(作者單位:長春工業(yè)大學。秦喜文為通信作者)