張金良 劉子毅 王明雪
華北電力大學(xué)經(jīng)濟(jì)與管理學(xué)院, 北京 102206
長期以來,天然氣作為一種具有自然壟斷屬性的產(chǎn)品,大多數(shù)國家對其管制非常嚴(yán)格,其價(jià)格受各國控制并由國家制定固定價(jià)格,故天然氣價(jià)格始終沒有巨大的起伏。近年,部分國家開始對天然氣價(jià)格放松管制,向著市場化改革,對天然氣價(jià)格的預(yù)測已經(jīng)成為國內(nèi)外亟需解決的問題。目前,針對能源價(jià)格的預(yù)測研究較多,常見的能源價(jià)格預(yù)測模型大體可以分為四類:時(shí)間序列模型、人工智能模型、組合預(yù)測模型和混合預(yù)測模型。例如:文獻(xiàn)[1]通過建立模糊時(shí)間序列模型來預(yù)測原油化工品的期貨價(jià)格;文獻(xiàn)[2]分析煤炭價(jià)格歷史數(shù)據(jù),采用季節(jié)時(shí)間序列預(yù)測模型對煤炭價(jià)格進(jìn)行預(yù)測;文獻(xiàn)[3]應(yīng)用混沌PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行煤炭價(jià)格預(yù)測;文獻(xiàn)[4]通過構(gòu)建LSTM-RNN深度神經(jīng)網(wǎng)絡(luò)對原油價(jià)格做預(yù)測研究;文獻(xiàn)[5]采用遺傳算法的BP-LSSVM組合變權(quán)模型預(yù)測電價(jià);文獻(xiàn)[6]提出基于聚類經(jīng)驗(yàn)?zāi)B(tài)分解與小波神經(jīng)網(wǎng)絡(luò)的組合預(yù)測模型來預(yù)測短期電價(jià);文獻(xiàn)[7]提出了一種基于小波變換和ARIMA的短期電價(jià)混合預(yù)測模型;文獻(xiàn)[8]提出一種基于變分模態(tài)分解、季節(jié)性差分自回歸滑動(dòng)平均模型和果蠅優(yōu)化最小二乘支持向量機(jī)的混合模型來對國際原油價(jià)格做預(yù)測研究。碳價(jià)、原油價(jià)格以及電價(jià)的預(yù)測研究較為廣泛,模型應(yīng)用也趨于多樣化,而天然氣作為常見的能源,對其價(jià)格的預(yù)測研究卻較少。目前,針對天然氣價(jià)格預(yù)測的研究大多用定性的方法簡單分析了天然氣價(jià)格的發(fā)展趨勢,實(shí)際數(shù)據(jù)預(yù)測的研究較少,如文獻(xiàn)[9]把相關(guān)油品價(jià)格納入天然氣價(jià)格影響因素中,并采用多維自回歸模型預(yù)測天然氣價(jià)格,這是國內(nèi)首次對天然氣價(jià)格進(jìn)行建模預(yù)測;文獻(xiàn)[10]利用灰色模型對鄭州天然氣價(jià)格進(jìn)行預(yù)測,并剖析影響因素;文獻(xiàn)[11]通過分析城市天然氣市場需求以及天然氣價(jià)格承受能力,從而確定供氣價(jià)格;文獻(xiàn)[12]考慮到天然氣市場的“異質(zhì)性”問題構(gòu)建RV多時(shí)段IV以及JV異質(zhì)自回歸模型(HAR-RV-CJ)來預(yù)測天然氣價(jià)格,取得了很好的預(yù)測效果;文獻(xiàn)[13]基于數(shù)據(jù)挖掘技術(shù),提出了一種新的改進(jìn)模式序列相似性搜索(APSS)天然氣價(jià)格預(yù)測方法;文獻(xiàn)[14]利用伽馬試驗(yàn)作為非線性建模工具并借助回歸模型和神經(jīng)網(wǎng)絡(luò)模型兩種模型對天然氣現(xiàn)貨價(jià)格進(jìn)行預(yù)測;文獻(xiàn)[15]應(yīng)用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)進(jìn)行天然氣價(jià)格預(yù)測。但上述文獻(xiàn)仍存在不足:首先,在做預(yù)測分析之前并沒有對輸入模型中的歷史數(shù)據(jù)進(jìn)行分解處理,未能描繪出局部數(shù)據(jù)的細(xì)節(jié)和特征,這顯然會(huì)對預(yù)測精度產(chǎn)生一定程度的影響;其次,在方法的選擇上較多地利用單一模型預(yù)測,導(dǎo)致不能充分提取歷史數(shù)據(jù)中的信息,也降低了預(yù)測精度。為此,本文結(jié)合對天然氣價(jià)格波動(dòng)大、無規(guī)律的特點(diǎn)提出基于互補(bǔ)集成經(jīng)驗(yàn)?zāi)B(tài)分解模型、CEEMD模型(Complementary Ensemble Empirical Mode Decomposition,CEEMD)、ELM模型(Extreme Learning Machine,ELM)和ARIMA模型的混合預(yù)測模型。CEEMD模型是源于經(jīng)驗(yàn)?zāi)B(tài)和集成經(jīng)驗(yàn)?zāi)B(tài)進(jìn)行改進(jìn)的自適應(yīng)經(jīng)驗(yàn)?zāi)B(tài)分解,可以依賴信號本身的特點(diǎn)分解成不同特征尺度的平穩(wěn)信號,同時(shí)將分解分量劃分高低頻率進(jìn)行預(yù)測,既保存了ARIMA模型對穩(wěn)定的時(shí)序數(shù)據(jù)敏感度高且善于捕捉數(shù)據(jù)中線性關(guān)系的優(yōu)勢,又結(jié)合了ELM算法較非線性映射能力強(qiáng)的優(yōu)勢。
CEEMD模型這種方法的優(yōu)點(diǎn)在于重構(gòu)信號的過程中同時(shí)添加兩個(gè)幅值相同、相位相反的高斯白噪聲,解決了EEMD重構(gòu)誤差的問題,同時(shí)對模態(tài)混疊和殘留白噪聲的影響起到抑制效果[16-18]。CEEMD具體分解步驟如下:
(1)
2)通過EMD算法將加入噪聲的序列進(jìn)行分解處理得到IMF分量C1j和趨勢余量r1。
3)同樣利用EMD分解,將步驟1)中加入符號相反的白噪聲序列處理后得到分量C-1j和r-1。
4)重復(fù)運(yùn)算步驟1)~3)n次,得到n組C1j,r1,C-1j,r-1。
5)選取多次分解得到的2組殘留正負(fù)白噪聲的IMF分量的均值作為最后結(jié)果,即
(2)
ELM由輸入層、隱含層和輸出層三部分組成,是黃廣斌等人在2004年提出的單一隱含層的前饋神經(jīng)網(wǎng)絡(luò)模型,其學(xué)習(xí)速度快、泛化能力強(qiáng),目前已經(jīng)在許多領(lǐng)域取得了廣泛的應(yīng)用[19]。該模型可以對其輸入權(quán)重以及偏置進(jìn)行隨機(jī)的初始化,并通過設(shè)定激活函數(shù)和隱含層個(gè)數(shù)來得到相應(yīng)的權(quán)值。ELM模型參數(shù)設(shè)定簡單,在訓(xùn)練樣本數(shù)據(jù)過程中僅需要設(shè)定激活函數(shù)和隱含層神經(jīng)元的個(gè)數(shù),即可得到唯一最優(yōu)解。為避免過擬合的現(xiàn)象出現(xiàn),一般隱含層個(gè)數(shù)設(shè)定要遠(yuǎn)小于樣本個(gè)數(shù)。ELM模型的隱含層結(jié)構(gòu)和單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)結(jié)構(gòu)極其相似,這種結(jié)構(gòu)避免了普通神經(jīng)網(wǎng)絡(luò)模型的梯度下降算法對參數(shù)選擇的敏感性,即因?yàn)閰?shù)設(shè)置不合理產(chǎn)生的過度擬合或者欠擬合,甚至運(yùn)算時(shí)間慢。
假設(shè)有n個(gè)輸入變量X=[x1,x2,x3,x4,…xn],隱含層個(gè)數(shù)為L,激活函數(shù)用g(x)表示,則隱含層輸出函數(shù)為:
(3)
式中:wi=[wi1,wi2,wi3…win]T是連接第i個(gè)輸入層和隱含層的權(quán)值向量,βi=[βi1,βi2,βi3,βi4…βin]T是連接第i個(gè)隱含層和輸出層的權(quán)值向量;bi為第i個(gè)隱含層的神經(jīng)元偏差值。
選擇隱含層的輸出結(jié)構(gòu):隱含層的輸出結(jié)構(gòu)會(huì)根據(jù)隱含層的激活函數(shù)g(x)的變化而變化。ELM模型的常見激活函數(shù)有以下幾種。
1)sigmoid函數(shù):
(4)
2)Sine函數(shù):
g(x)=sin(x)
(5)
3)Hardlim函數(shù):
(6)
4)徑向基RBF函數(shù):
g(wi,bi,x)=g(bi||wi-x||)
(7)
ELM模型的輸入層的神經(jīng)元個(gè)數(shù)對應(yīng)了n個(gè)輸入變量x,而輸出層的神經(jīng)元個(gè)數(shù)對應(yīng)了m個(gè)輸出變量y。ELM模型網(wǎng)絡(luò)結(jié)構(gòu)見圖1。
圖1 ELM網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 ELM network structure
ARIMA(p,d,q)稱為差分自回歸移動(dòng)平均模型,它由自回歸模型(AR(p))和移動(dòng)平均模型(MA(q))兩部分共同構(gòu)成的隨機(jī)過程。其中p為自回歸項(xiàng)數(shù),q為移動(dòng)平均項(xiàng)數(shù),d為時(shí)間序列成為平穩(wěn)時(shí)所做的差分次數(shù)[20],具體形式為:
xt=φ1xt-1+φ2xt-2+…+φpxt-p+ε-θ1εt-1-
θ2εt-2…-θqεt-q
(8)
式中:φ為自回歸系數(shù);p為自回歸階次;θ為移動(dòng)平均系數(shù);q為移動(dòng)平均階次;{ε}為白噪聲序列。
天然氣價(jià)格通常受供需方價(jià)格、體制等因素影響,新冠疫情為天然氣價(jià)格的波動(dòng)增加了許多不確定因素,因此亟需提高對天然氣價(jià)格的預(yù)測精度以便更好地掌握天然氣市場的動(dòng)態(tài)。由于天然氣價(jià)格原始序列的復(fù)雜性,首先利用CEEMD模型處理天然氣價(jià)格樣本數(shù)據(jù),構(gòu)造出具有不同特征的分量,針對不同特征的分量采用不同的模型做預(yù)測。使用ELM模型對其中的高頻分量進(jìn)行預(yù)測,使用ARIMA模型對低頻分量做預(yù)測研究?;诮M合模型的預(yù)測流程見圖2,具體步驟分為4步。
圖2 CEEMD-ELM-ARIMA混合模型預(yù)測流程圖Fig.2 Flowchart of CEEMD-ELM-ARIMA hybirdmodel prediction
1)收集天然氣日度價(jià)格的歷史數(shù)據(jù),應(yīng)用CEEMD模型將樣本數(shù)據(jù)分解成若干個(gè)不同尺度的IMF分量和1個(gè)殘差。
2)根據(jù)圖像的波頻和振幅特點(diǎn),將分解出的若干分量劃歸為高頻分量和低頻分量。
3)利用ELM模型處理高頻分量的數(shù)據(jù)得出預(yù)測值;低頻分量采用ARIMA模型進(jìn)行預(yù)測,得到預(yù)測值。
4)將步驟3)中高頻分量的預(yù)測值與低頻分量的預(yù)測值加總求和,即得到最終預(yù)測結(jié)果。
本文以天然氣日度現(xiàn)貨價(jià)格為例,驗(yàn)證CEEMD-ELM-ARIMA模型的有效性。目前,已形成以北美、歐洲、亞太三大地區(qū)為貿(mào)易中心的天然氣市場格局。這三大中心所公布的天然氣價(jià)格已經(jīng)成為國際上天然氣價(jià)格水平的重要標(biāo)尺和價(jià)格漲跌的風(fēng)向標(biāo)。其中美國Henry Hub交易中心是市場流動(dòng)性最高、影響力最大、最能反映市場供需關(guān)系的交易中心。為了與現(xiàn)有文獻(xiàn)中的預(yù)測方法進(jìn)行公平對比,這里選用的數(shù)據(jù)與文獻(xiàn)[13]相同,故選取Henry Hub交易中心公布的1997年1月7日—2018年1月1日價(jià)格數(shù)據(jù)進(jìn)行驗(yàn)證,去除周六、周日不交易日以及不完整的歷史數(shù)據(jù)外,共5 281個(gè)日度數(shù)據(jù)。將1997年1月7日—2016年12月31日共5 022個(gè)數(shù)據(jù)作為訓(xùn)練集,進(jìn)行預(yù)測模型的回歸訓(xùn)練,并將模型用于預(yù)測2017年整年的259個(gè)預(yù)測集數(shù)據(jù)。
過去天然氣價(jià)格受多種因素影響,因此波動(dòng)趨勢呈現(xiàn)高振幅的無規(guī)律波動(dòng)。將天然氣價(jià)格利用CEEMD模型進(jìn)行分解,在原始天然氣價(jià)格的時(shí)間序列中加入50組白噪聲序列,幅值設(shè)為0.2,此時(shí)產(chǎn)生12個(gè)本征模態(tài)函數(shù)IMF和1個(gè)殘差項(xiàng)R13,將分解結(jié)果按照高頻至低頻順序進(jìn)行排列后結(jié)果見圖3。
圖3 CEEMD分解圖Fig.3 CEEMD breakdown
根據(jù)波動(dòng)頻率將產(chǎn)生的13個(gè)分量劃分成高頻分量和低頻分量兩類。IMF1~I(xiàn)MF9分量周期短,波動(dòng)大,將其分為高頻分量,采用ELM算法對其進(jìn)行預(yù)測;IMF10~I(xiàn)MF12和R13波動(dòng)小而平緩,周期長度超過2 a,將其劃分為低頻分量,利用ARIMA模型進(jìn)行預(yù)測。所有分量預(yù)測值累積求為CEEMD-ELM-ARIMA模型預(yù)測天然氣結(jié)果。為了驗(yàn)證本文組合預(yù)測模型的有效性,本文使用Matlab 2016b編程建立模型。并分別用ARIMA模型,ELM模型進(jìn)行結(jié)果橫向?qū)Ρ?對ELM模型與數(shù)據(jù)挖掘技術(shù)預(yù)測結(jié)果的準(zhǔn)確性進(jìn)行縱向?qū)Ρ取?/p>
為了避免由于數(shù)據(jù)采集誤差、系統(tǒng)故障和干擾噪聲等因素引起的樣本數(shù)據(jù)異常,在預(yù)測前對分解后的數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化公式為:
(9)
式中:x*為標(biāo)準(zhǔn)化處理后的樣本數(shù)據(jù);x為原始的序列數(shù)據(jù);xmax和xmin分別為原始數(shù)據(jù)的最大值和最小值。
評價(jià)預(yù)測結(jié)果的準(zhǔn)確性,本文采用預(yù)測評價(jià)中的3個(gè)指標(biāo),即均方根誤差RMSE、平均絕對誤差MAE和期望值平均絕對百分比誤差MAPE,3個(gè)指標(biāo)的計(jì)算公式依次為:
(10)
(11)
(12)
顯然,從評價(jià)指標(biāo)的實(shí)際意義可以看出,RMSE值和MAPE值越小,表示CEEMD-ELM-ARIMA模型的預(yù)測效果及預(yù)測性能越好。
CEEMD-ELM-ARIMA模型預(yù)測結(jié)果見圖4。由圖4可以看出,CEEMD-ELM-ARIMA模型的預(yù)測結(jié)果與實(shí)際天然氣價(jià)格十分?jǐn)M合,將整體波動(dòng)趨勢完整地預(yù)測出來,并且有多個(gè)數(shù)據(jù)預(yù)測值與實(shí)際價(jià)格達(dá)到完全吻合,其誤差值與其他模型對比見表1。
表1 2017年天然氣價(jià)格整體預(yù)測誤差值對比表
圖4 預(yù)測結(jié)果對比圖Fig.4 Comparison of prediction results
本文將ARIMA和ELM模型結(jié)合不僅改善了ARIMA模型沒有考慮外在因素的影響,樣本數(shù)量不宜過多,對非線性、不平穩(wěn)時(shí)間序列預(yù)測能力不強(qiáng)的缺點(diǎn),同時(shí)還結(jié)合了ELM模型與其他神經(jīng)網(wǎng)絡(luò)算法相比最大的優(yōu)勢,從而避免了不斷調(diào)整參數(shù)帶來的客觀因素,還提高了模型的學(xué)習(xí)效率,增強(qiáng)了模型的泛化能力。從表1可以看出,CEEMD-ELM-ARIMA預(yù)測模型無論從對數(shù)據(jù)的擬合度還是數(shù)據(jù)預(yù)測誤差都明顯優(yōu)于ARIMA和ELM模型單獨(dú)預(yù)測結(jié)果。CEEMD-ELM-ARIMA模型MAE為0.002 9,ARIMA模型的MAE是其3倍多,ELM模型的MAE是CEEMD-ELM-ARIMA模型的1.5倍。且CEEMD-ELM-ARIMA模型MAPE僅僅為0.98%,RMSE為0.045 4,也遠(yuǎn)小于ARIMA和ELM模型單個(gè)模型??v向來看,最初由學(xué)者采用的數(shù)據(jù)挖掘技術(shù)預(yù)測結(jié)果,MAE、MAPE、RMSE分別為0.136 0、6.18%和0.165。文獻(xiàn)[13]改進(jìn)后的PSS模型MAE、MAPE、RMSE均有提升,但相比本文常用于預(yù)測的時(shí)間序列模型和機(jī)器學(xué)習(xí)預(yù)測效果不佳。為了進(jìn)一步證明CEEMD-ELM-ARIMA模型的預(yù)測精度優(yōu)于其他模型,對2017年預(yù)測集數(shù)據(jù)進(jìn)行進(jìn)一步分割,得到12個(gè)時(shí)間段,對12個(gè)時(shí)間段分別進(jìn)行預(yù)測,得到圖5。分時(shí)段預(yù)測結(jié)果誤差對比見表2。
圖5 分時(shí)段預(yù)測結(jié)果對比圖Fig.5 Comparison of forecast results in different periods
表2 分時(shí)段預(yù)測結(jié)果誤差對比表
從表2數(shù)據(jù)可看出以下兩點(diǎn)。
1)無論是單一時(shí)段還是整體預(yù)測結(jié)果,CEEMD-ELM-ARIMA模型預(yù)測結(jié)果都比其他模型誤差要低。以整體預(yù)測結(jié)果為例,CEEMD-ELM-ARIMA模型的MAE、RMSE、MAPE分別為0.002 9、0.045 4和0.98%,表明CEEMD模型對數(shù)據(jù)分解之后的預(yù)測效果明顯優(yōu)于單個(gè)模型,表明CEEMD模型的有效性。
2)改進(jìn)的APSS模型以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),對時(shí)間序列進(jìn)行分析,從大量的數(shù)據(jù)找到相似從而做進(jìn)一步預(yù)測。這種算法的擬合度優(yōu)于PSS算法,但是單一模型一定程度上有局限性,由表2各月份的誤差分析可知,APSS模型最終的預(yù)測結(jié)果仍有較大誤差;另外,不難看出ELM模型的預(yù)測結(jié)果最接近CEEMD-ELM-ARIMA模型的預(yù)測結(jié)果,但是誤差仍比混合模型略大。雖然智能算法的擬合度較好,但是CEEMD-ELM-ARIMA模型可以針對不同數(shù)據(jù)的特性充分發(fā)揮各模型的優(yōu)勢,更好地提高預(yù)測精度。從而進(jìn)一步驗(yàn)證了混合模型預(yù)測的準(zhǔn)確性。
針對以往文獻(xiàn)并沒有對天然氣價(jià)格進(jìn)行去噪處理,同時(shí)預(yù)測精度不佳的現(xiàn)狀,本文提出一種基于CEEMD、ELM模型和ARIMA的混合模型來對天然氣日度價(jià)格進(jìn)行預(yù)測。通過對原始時(shí)序數(shù)據(jù)的分解來達(dá)到重構(gòu)預(yù)測變量的目的,針對不同特征的變量采用合適的方法做預(yù)測研究。首先利用CEEMD將天然氣價(jià)格歷史數(shù)據(jù)序列分解成若干個(gè)波頻、振幅均不一致的子序列,再根據(jù)不同的波頻分別采用ELM模型和ARIMA模型求得預(yù)測結(jié)果,最后將兩種方法的預(yù)測結(jié)果相加完成整個(gè)組合模型的最終預(yù)測。為了進(jìn)一步驗(yàn)證模型精度,對1年當(dāng)中的12個(gè)時(shí)間段分別進(jìn)行預(yù)測。整體的預(yù)測結(jié)果和分時(shí)段的預(yù)測結(jié)果均表明組合預(yù)測模型具有更高的預(yù)測精度和較強(qiáng)的預(yù)測性能,所以此預(yù)測方法可更精準(zhǔn)地預(yù)測天然氣價(jià)格,進(jìn)而更好地掌握未來一段時(shí)間內(nèi)天然氣市場的形勢。國內(nèi)天然氣價(jià)格長期受管制,價(jià)格波動(dòng)較小,并且美國Henry Hub交易中心的天然氣價(jià)格在全球天然氣交易的價(jià)格中具有代表性,所以應(yīng)用于Henry Hub的天然氣價(jià)格預(yù)測分析方法對國內(nèi)未來天然氣價(jià)格趨勢分析同樣具有前瞻性。目前的研究主要著力于提高天然氣價(jià)格點(diǎn)的預(yù)測值精度,下一步的研究可通過區(qū)間預(yù)測來掌握預(yù)測結(jié)果的變化范圍。