李海洋
摘要:為提高CPI建模精度,本文使用SARIMA、SARIMA-LSTM、LSTM三個模型對河南省月度CPI進行建模預測。研究發(fā)現(xiàn)SARIMA-LSTM模型效果最優(yōu),可以反映河南省居民消費價格指數(shù)的真實狀況,用于CPI實際預測。
關鍵詞:SARIMA;SARIMA-LSTM;LSTM
中圖分類號:F23文獻標識碼:Adoi:10.19311/j.cnki.16723198.2020.25.047
對于CPI,建立合適的模型,提高其預測精度,對政府制定宏觀經(jīng)濟政策具有極大現(xiàn)實意義?,F(xiàn)在,對于CPI預測,不同學者進行了許多研究。研究方法主要分為兩種:
(1)單一模型法,如ARIMA、SARIMA、灰色模型法等。袁志強、陳銳使用ARIMA模型利用R軟件對國內CPI進行了短期預測,倪穎、年靖宇對重慶市CPI進行了預測;張?zhí)鹑饘﹃兾魇PI建立了SARIMA模型;李志超、劉升對上海市CPI建模,發(fā)現(xiàn)ARIMA和灰色模型效果相當,回歸模型較差。
(2)組合模型法,如ARIMA-SVM、ARIMA-BP等。梁曉瑩基于ARIMA和SVM根據(jù)整體誤差最小化原則對鄭州市CPI進行組合預測,比單一模型效果好。吳曉峰、楊穎梅和陳垚彤利用BP擬合ARIMA殘差,整體效果較優(yōu)。
深度學習中長短期記憶網(wǎng)絡(LSTM),對于非線性數(shù)據(jù)擬合較好,并且在金融、醫(yī)學、水文等時間序列預測領域已取得不少進展。歐陽紅兵、黃亢和閆洪舉使用LSTM對道瓊斯工業(yè)指數(shù)日收盤價進行預測,發(fā)現(xiàn)LSTM能捕獲序列的短期和長期態(tài)勢,效果較優(yōu)。李琳等將LSTM用于新疆地區(qū)慢性阻塞性肺病的月門診量進行預測,并與ARIMA比較,發(fā)現(xiàn)LSTM精度較高。胡慶芳等將LSTM用于漢江上游安康站日徑流預測,發(fā)現(xiàn)多因素條件下效果較好。
綜上所述,關于CPI預測并未有統(tǒng)一的方法。并且,較少有學者結合SARIMA對線性擬合和LSTM對非線性擬合的優(yōu)勢對CPI進行建模預測。本文以河南省月度同比CPI為研究對象,嘗試使用SARIMA-LSTM對其建模,以探究其在CPI預測中的效果。
1模型簡介
1.1SARIMA模型
對于隨機時間序列yt,季節(jié)性移動平均差分自回歸SARIMA(p,d,q)(P,D,Q)s,公式如下:
ΦpLAPLs(ΔdΔDsyt)=ΘqLBQLsvt(1)
其中,Δd表示非季節(jié)性差分算子,Δd=1-Ld;ΔDs表示季節(jié)性差分算子,ΔDs=1-LDs;Φp(L)為非季節(jié)性自回歸算子,Φp(L)=1-φ1L-φ2L2-…-φpLp;APLs為季節(jié)性自回歸算子,APLs=1-α1Ls-α2L2s-…-αPLPs;ΘqL為非季節(jié)性移動平均算子,ΘqL=1+θ1L+θ2L2+…+θqLq;BQLs為季節(jié)性移動平均算子,BQLs=1+β1Ls+β2L2s+…+βQLQs;vt為白噪聲。
1.2LSTM
長短期記憶神經(jīng)網(wǎng)絡(LSTM),解決了計算過程中梯度消失的問題。對于輸入xt,LSTM隱層輸出表示為ht,具體計算過程如下:
it=σWiht-1,xt+bi(2)
ft=σWfht-1,xt+bf(3)
c~t=tanhWcht-1,xt+bc(4)
ct=ft⊙ct-1+it⊙ct(5)
ot=σWoht-1,xt+bo(6)
ht=ot⊙tanhct(7)
其中,W為權重矩陣,b為偏移列向量。LSTM將信息存放在門控單元中,f是遺忘門,表示對于當前時刻的輸入xt,決定了從上一時刻傳來的信息要丟棄的部分。i表示輸入門,決定在t時刻應該更新哪些值,c~是一個候選值的向量,將i和c~組合起來得到c對神經(jīng)元狀態(tài)進行更新。o是輸出層,決定神經(jīng)元狀態(tài)需要輸出的部分。h是網(wǎng)絡的輸出。
2實證分析
2.1數(shù)據(jù)來源
本研究以河南省為研究對象,選取其1995年1月-2020年4月月度同比CPI數(shù)據(jù)進行分析,數(shù)據(jù)來源于瑞思數(shù)據(jù)庫。CPI走勢如圖1,從中可以看出,2004年、2008年CPI較高,2012年之后較為平穩(wěn)。近來,受豬肉價格影響,CPI較高。
2.2SARIMA模型構建
(1)平穩(wěn)性檢驗。使用R軟件中adf.test函數(shù)進行單位根檢驗,結果如下:
Augmented Dickey-Fuller Test
data:CPI
Dickey-Fuller = -4.164, Lag order = 6, p-value = 0.01
alternative hypothesis: stationary
p值為0.01,在5%的顯著性水平下拒絕原假設“序列不平穩(wěn)”,由此可知,數(shù)據(jù)平穩(wěn)。
(2)模型識別。加載R語言forecast包,使用函數(shù)auto.arima根據(jù)AICc最小準則對1995年1月-2020年4月CPI進行模型構建,模型為SARIMA(2,0,1)(1,0,0)12,系數(shù)估計見表1。其中,殘差方差估計值為0.4822,對數(shù)似然估計值為-322.05,赤池信息準則AIC為656.11,AICc為656.39,貝葉斯信息準則BIC為678.41。
使用confint函數(shù)對模型系數(shù)進行檢驗,結果見表2。由表2可知,在95%的置信區(qū)間下,參數(shù)取值范圍均不含0,即系數(shù)顯著。
(3)模型診斷。使用Box.test函數(shù)對殘差進行檢驗,得
X-squared = 7.6586, df = 6, p-value = 0.2642
從Box檢驗得知殘差符合正態(tài)性假設且不相關,認為模型擬合比較充分。
對2019年11月-2020年4月CPI進行預測,結果見表3。其均方根誤差為0.8227,建模精度較高,基本可以描述2019年11月到2020年4月CPI月度同比數(shù)據(jù)。
2.3SARIMA-LSTM模型構建
針對SARIMA模型對非線性數(shù)據(jù)擬合不好的問題,本文使用LSTM對其殘差進行建模。使用1995年1月-2019年10月的殘差進行訓練模型,對2019年11月-2020年4月的殘差進行測試。經(jīng)對比,數(shù)據(jù)平滑期設置為8,隱藏層節(jié)點數(shù)為100,訓練次數(shù)為150。測試集的均方根誤差為0.6316,相比SARIMA模型減少了23%。殘差預測值加上SARIMA模型預測值即為SARIMA-LSTM預測值,結果見表3。
2.4LSTM模型構建
本文同時使用LSTM模型對1995年1月-2019年10月CPI數(shù)據(jù)直接建模,并對2019年11月-2020年4月數(shù)據(jù)預測,預測均方根誤差為1.0651,比SARIMA、SARIMA-LSTM均要高。CPI預測值見表3。
3結語
本文利用模型SARIMA、SARIMA-LSTM、LSTM對河南省1995年1月-2020年4月月度同比CPI進行對比建模,SARIMA-LSTM建模精度最高,SARIMA次之,LSTM效果最差。由此可知,模型SARIMA-LSTM可以較好地對河南省CPI進行建模,以預測河南省CPI的狀況。對于本文數(shù)據(jù),LSTM效果較差,其它數(shù)據(jù)中LSTM效果可能更優(yōu),針對不同數(shù)據(jù),需做具體分析。下一步研究可以使用更多因素利用LSTM對CPI進行對比建模,以提高預測準確度。
參考文獻
[1]袁志強,陳銳.基于ARMA模型的CPI短期預測研究[J].中國集體經(jīng)濟,2018,(03):6465.
[2]倪穎,年靖宇.基于ARIMA模型的居民消費價格指數(shù)走勢實證分析與預測——以重慶市為例[J].貴州商學院學報,2018,(02):1423.
[3]張?zhí)鹑?陜西省居民消費價格指數(shù)預測[J].合作經(jīng)濟與科技,2020,(07):6769.
[4]李志超,劉升.基于ARIMA模型、灰色模型和回歸模型的預測比較[J].統(tǒng)計與決策,2019,(23):3841.
[5]梁曉瑩.基于ARIMA-SVM模型的鄭州市CPI預測研究[J].洛陽理工學院學報(社會科學版),2019,(04):2631.
[6]吳曉峰,楊穎梅,陳垚彤,等.基于BP神經(jīng)網(wǎng)絡誤差校正的ARIMA組合預測模型[J].統(tǒng)計與決策,2019,(15):6568.
[7]歐陽紅兵,黃亢,閆洪舉,等.基于LSTM神經(jīng)網(wǎng)絡的金融時間序列預測[J].中國管理科學,2020,(04):2735.
[8]李琳,王哲,張學良,等.基于LSTM深度神經(jīng)網(wǎng)絡的月門診量預測精度研究[J].中國數(shù)字醫(yī)學,2019,(01):1417.
[9]胡慶芳,曹士圯,楊輝斌,等.漢江流域安康站日徑流預測的LSTM模型初步研究[J].地理科學進展,2020,(04):636642.
[10]HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,(8):17351780.