王 琪
(南京財(cái)經(jīng)大學(xué) 經(jīng)濟(jì)學(xué)院,江蘇 南京210046)
根據(jù)江蘇省統(tǒng)計(jì)局關(guān)于全社會(huì)用電量的報(bào)告,江蘇省居民用電量是逐年增加的,與此同時(shí)民用電量占社會(huì)總用電量的比例也是逐年增加的。數(shù)據(jù)的變動(dòng)說明了人民生活需求的提高,同時(shí)也表明對(duì)居民用電量的預(yù)測(cè)研究有著較大的經(jīng)濟(jì)意義。為了幫助電力行業(yè)適應(yīng)這個(gè)發(fā)展新形勢(shì),本文以江蘇省為例,嘗試采用非組合模型與組合模型預(yù)測(cè)居民用電量,從而得出一個(gè)相對(duì)較優(yōu)的預(yù)測(cè)模型。
季節(jié)性ARIMA(p,d,q)(P,D,Q)m,ARIMA(p,d,q)(P,D,Q)m的AR(p,d,q)(p,d,q)IMA模型是在ARIMA(P,D,Q)m(P,D,Q)m模型的基礎(chǔ)上增添了代表季節(jié)性的項(xiàng),可以寫成為:ARIMA(p,d,q)(P,D,Q)m。其中(p,d,q)代表模型中的非季節(jié)部分,(P,D,Q)m代表模型中的季節(jié)部分,這里的m代表每年的觀測(cè)數(shù)量。季節(jié)性的地方在模型中用大寫英文字母表示,而不屬于季節(jié)性的部分則用小寫的英文字母表示。季節(jié)性與非季節(jié)性的分式中都具有相像的部分,但是季節(jié)性的項(xiàng)包含了季節(jié)性時(shí)段的回溯,可以通過R軟件畫出模型的PACF圖和ACF圖。從這兩張圖中觀察出模型是否具有季節(jié)性特征。值得注意的是,在構(gòu)建季節(jié)性ARIMA模型時(shí)要約束季節(jié)性延遲,從而得出最優(yōu)的季節(jié)階數(shù)。
Error-Trend-Seasonality模型,簡稱EST模型,它由誤差項(xiàng)、趨勢(shì)項(xiàng)、季節(jié)項(xiàng)三個(gè)部分的任意組合構(gòu)成。其中,誤差項(xiàng)(Error)可以是相加模型或相乘模型趨勢(shì)項(xiàng)(Trend)可以是無、相加模型、相乘模型;季節(jié)項(xiàng)(Seasonality)可以是無、相加模型、相乘模型。誤差項(xiàng)為相加模型時(shí),最大似然法等價(jià)于使SSE最小來進(jìn)行參數(shù)估計(jì)。EST模型相較其他模型有一個(gè)可以進(jìn)行模型選擇的顯著優(yōu)勢(shì),即對(duì)于現(xiàn)有的時(shí)間序列,通過BIC、AIC和AICc這三個(gè)指標(biāo)進(jìn)行統(tǒng)計(jì)。
其中L是模型的似然函數(shù),k是已估計(jì)的參數(shù)個(gè)數(shù)和初始狀態(tài)的總和(包括殘差的方差)。針對(duì)小樣本偏差修正的AIC(AICc)可以寫成:
人工神經(jīng)網(wǎng)絡(luò)也可以對(duì)數(shù)據(jù)進(jìn)行建模預(yù)測(cè),可以簡寫為ANN,它的長處在于可以適用于解釋變量與被解釋變量存在復(fù)雜非線性關(guān)系的數(shù)據(jù)。針對(duì)本文的時(shí)間序列數(shù)據(jù),ANN是將滯后值當(dāng)成神經(jīng)網(wǎng)絡(luò)納入模型,該模型是神經(jīng)網(wǎng)絡(luò)自回歸或NNAR模型。首先,考慮包含一個(gè)隱藏層的前饋網(wǎng)絡(luò),式子NNAR(p,k)顯現(xiàn)出p期滯后輸入與k個(gè)節(jié)點(diǎn)存在與隱藏層中NNAR(p,0)模型相當(dāng)于ARIMA(p,0,0)(P,0,0)模型。其次,考慮季節(jié)性數(shù)據(jù),可以將同一季節(jié)的最后觀測(cè)值納入模型。NNAR(p,P,0)m模型相當(dāng)于模型ARIMA(p,0,0)(P,0,0)m。
平均絕對(duì)誤差(mean absolute error),又簡稱為MAE,它是預(yù)測(cè)值與真實(shí)值誤差絕對(duì)值的平均數(shù)。之所以要加上絕對(duì)值,是因?yàn)槿绻`差是[1,0,-1],則平均誤差值就是0,但實(shí)際上預(yù)測(cè)值并不是完全等于真實(shí)值,它的定義表達(dá)式為:
均方根誤差(root mean squared error),簡稱為RMSE,也稱為RMSD。它是預(yù)測(cè)值和真實(shí)值誤差平方平均值的平方根,能用來衡量誤差的平均大小,它的定義為:
平均絕對(duì)百分比誤差(Mean Absolute Percentage Error),簡稱為MAPE,定義如下:
本文選取2004年1月至2018年12月江蘇省城鄉(xiāng)居民用電量數(shù)據(jù),來擬合不同的模型。由于某些特殊原因,在一些統(tǒng)計(jì)年鑒中并沒有相應(yīng)的月份統(tǒng)計(jì)數(shù)據(jù),數(shù)據(jù)中存在一定的缺失值,故本文采取了組合補(bǔ)齊法,使用R中的imputeTS包進(jìn)行缺失值填補(bǔ)。由于用電量月度數(shù)據(jù)具有一定的季節(jié)性,故采用季節(jié)性調(diào)整與線性插值法,此方法適用于具有趨勢(shì)和季節(jié)性的數(shù)據(jù)。同時(shí),利用R軟件繪制出2004年到2018年的時(shí)間序列圖,生成的時(shí)間序列圖如圖1的第一張圖所示。
圖1 數(shù)據(jù)處理對(duì)比
江蘇省居民用電量在2004—2018年具有上升趨勢(shì)并呈現(xiàn)出一定的季節(jié)波動(dòng)性,數(shù)據(jù)顯然是非平穩(wěn)的。為了處理這種非平穩(wěn)性,可以采用多種方法。本文為了使原始數(shù)據(jù)達(dá)到平穩(wěn)時(shí)間序列的狀態(tài),分別采用了取對(duì)數(shù)、季節(jié)性差分、二次差分的方法。處理結(jié)果如圖1所示,若只取對(duì)數(shù),數(shù)據(jù)依舊呈現(xiàn)不平穩(wěn)的狀態(tài)。季節(jié)性差分與二次差分的效果相當(dāng),但是數(shù)據(jù)還是處于一點(diǎn)非平穩(wěn)的狀態(tài)。差分方式的選擇沒有客觀的標(biāo)準(zhǔn),故本文選擇第三種差分方式。
1.AIMRA模型的擬合。forecast包里的auto arima()函數(shù),是專門用來進(jìn)行季節(jié)性ARIMA建模的。把數(shù)據(jù)代入,模型為ARIMA(3,1,2)(2,1,1)。接著,對(duì)這個(gè)復(fù)雜季節(jié)性模型的殘差進(jìn)行檢驗(yàn),圖2展現(xiàn)的就是檢驗(yàn)的結(jié)果,殘差幾乎都在顯著性臨界值內(nèi),故判定這些殘差類似于白噪聲。與此同時(shí),Ljung-Box檢驗(yàn)的p值為0.9899,非常高,這就證明了該數(shù)據(jù)的殘差之間不存在自相關(guān)性,序列的信息已經(jīng)完全提取。
圖2 殘差自相關(guān)圖
此時(shí)經(jīng)過所有檢驗(yàn)的模型就是本文所要構(gòu)建的季節(jié)性的ARIMA預(yù)測(cè)模型。將其應(yīng)用到對(duì)2018年江蘇省城鄉(xiāng)居民用電的預(yù)測(cè)中去,預(yù)測(cè)結(jié)果如圖3所示。對(duì)于2018年江蘇省城鄉(xiāng)居民用電的預(yù)測(cè)值依舊順應(yīng)了之前的波動(dòng)趨勢(shì)。黑色線條代表原始序列,不同置信度下的預(yù)測(cè)區(qū)間通過不同深度的顏色顯示。
圖3 ARIMA、EST、NNAR模型預(yù)測(cè)圖
2.ETS模型的擬合。最小化AICc是一種選擇模型的方法,本文使用R語言中的ETS()函數(shù)來實(shí)現(xiàn)。圖4展現(xiàn)了ETS模型的分解圖,ETS模型的三個(gè)字母分別代表ETS(M,A,M)ETS(M,A,M)誤差項(xiàng)、趨勢(shì)項(xiàng)、季節(jié)項(xiàng),可以由這三個(gè)部分任意搭配建模。如圖4所示,最終擬合了模型,它是具有乘性誤差、加性趨勢(shì)和乘法季節(jié)性的方法。對(duì)于夏季制冷、冬季制熱這種家庭用電高峰期會(huì)使得居民用電量呈現(xiàn)一種季節(jié)振幅,而ETS模型恰好可以預(yù)測(cè)這種有周期性變化的數(shù)據(jù)。圖4中展現(xiàn)了EST模型對(duì)2018年江蘇省城鄉(xiāng)居民用電的預(yù)測(cè)結(jié)果。
3.神經(jīng)網(wǎng)絡(luò)自回歸模型的擬合。使用R語言中的nnetar()函數(shù)來擬合神經(jīng)網(wǎng)絡(luò)自回歸模型。該模型的預(yù)測(cè)變量是最后12個(gè)月的用電量,4個(gè)神經(jīng)元存在于隱藏層中。用電量的季節(jié)性被此模型很好地?cái)M合了。與本文中所討論的大多數(shù)方法不同,神經(jīng)網(wǎng)絡(luò)不是基于明確定義的隨機(jī)模型,因此也不能直接得到預(yù)測(cè)值對(duì)應(yīng)的預(yù)測(cè)區(qū)間。但是,仍然可以使用模擬來得到預(yù)測(cè)區(qū)間,在模擬過程中,通過bootstrap殘差項(xiàng)生成未來的樣本路徑。預(yù)測(cè)如圖4所示。
圖4 ETS模型的分解圖
4.組合模型的擬合。本文分別建立ARIMA模型、ETS模型和神經(jīng)網(wǎng)絡(luò)自回歸模型對(duì)2004年到2018年江蘇省居民用電量數(shù)據(jù)進(jìn)行分析,并且對(duì)比分析了不同模型的預(yù)測(cè)效果。結(jié)果表明,3個(gè)模型全部有效。將多個(gè)單一的預(yù)測(cè)模型通過適當(dāng)?shù)姆椒ㄕ希涂梢越⒊鲆粋€(gè)組合模型。組合模型就是多個(gè)不同模型,通過適當(dāng)?shù)募訖?quán)平均等方法,得到一個(gè)全新的模型。組合模型是集多個(gè)模型的優(yōu)勢(shì)于一身,填補(bǔ)各個(gè)模型的缺失處,使得最終的預(yù)測(cè)效果更貼合實(shí)際。故本文將上述三個(gè)模型構(gòu)建在一起,建立一個(gè)能夠提升預(yù)測(cè)效果的組合模型。
用ω1表示ARIMA模型的權(quán)重系數(shù),用ω2表示ETS模型的權(quán)重系數(shù),用ω3表示NNAR模型的權(quán)重系數(shù)。單個(gè)模型的權(quán)重分配是組合模型能否高效的重點(diǎn),本文采取了兩種方法來計(jì)算權(quán)重。組合一是等權(quán)平均法,ω1=ω2=ω3。組合二是均方誤差倒數(shù)法,算得ω1=0.3054,ω2=0.2462,ω3=0.4484。
表1列出了五種組合模型的預(yù)測(cè)值,盡管最終的預(yù)測(cè)值都不一致,但根據(jù)表2所示的模型評(píng)價(jià)指標(biāo),這五種模型的預(yù)測(cè)結(jié)果都是有效的。首先,對(duì)比三個(gè)單一模型,預(yù)測(cè)效果依次由ETS模型、SARIMA模型、NNAR模型遞增。其次,對(duì)比兩個(gè)組合模型,組合二的效果略優(yōu)于組合一,即對(duì)于本研究的組合模型而言,分配權(quán)重采用等權(quán)平均法要略優(yōu)于均方誤差倒數(shù)法。最后對(duì)比單一模型與組合模型,發(fā)現(xiàn)組合模型所體現(xiàn)的性能要明顯優(yōu)于所有的單一模型(見表1、2)。
表1 五種模型預(yù)測(cè)值
表2 五種模型評(píng)價(jià)
組合模型目前已經(jīng)得到了較為普遍的運(yùn)用,它能夠使得預(yù)測(cè)值更接近于真實(shí)值。并且在時(shí)間序列數(shù)據(jù)的預(yù)測(cè)中,組合模型能夠克服對(duì)時(shí)間的敏感度,無論是長期預(yù)測(cè)還是短期預(yù)測(cè)都能有較高的精度。
對(duì)于本研究而言,加權(quán)系數(shù)構(gòu)成的模型就是相對(duì)最優(yōu)的預(yù)測(cè)模型。在此基礎(chǔ)上,可以對(duì)未來的江蘇省居民用電量進(jìn)行預(yù)測(cè),以便相關(guān)產(chǎn)業(yè)調(diào)整自己的產(chǎn)能計(jì)劃。然而組合模型的權(quán)重系數(shù)也是影響預(yù)測(cè)精度的重要因素之一,權(quán)重系數(shù)的選擇并不是一成不變的,具體使用哪種權(quán)重系數(shù)的組合預(yù)測(cè)模型才是最優(yōu)的,還需要對(duì)具體問題具體分析。構(gòu)建出最優(yōu)的預(yù)測(cè)模型才能使預(yù)測(cè)的結(jié)果更貼合實(shí)際,才能為決策者們提供有效信息,才能使預(yù)測(cè)更有經(jīng)濟(jì)意義。