尹靜,何躍
(四川大學(xué)工商管理學(xué)院,成都610064)
基于ARIMA-GMDH的GDP預(yù)測模型
尹靜,何躍
(四川大學(xué)工商管理學(xué)院,成都610064)
文章先對四川省GDP分別建立了ARIMA時間序列模型和GMDH變量自回歸模型來進(jìn)行預(yù)測;然后利用GMDH自組織建模方法建立ARIMA-GMDH組合預(yù)測模型來預(yù)測;最后使用Bonferroni-Dunn方法對三個模型的穩(wěn)定性進(jìn)行分析檢驗。模型預(yù)測結(jié)果和穩(wěn)定性檢驗結(jié)果表明:基于ARIMA-GMDH組合的GDP預(yù)測模型的擬合和預(yù)測都優(yōu)于另外兩種單預(yù)測模型。相比之下組合模型在擬合和預(yù)測效果具有較高的可靠性、準(zhǔn)確性和穩(wěn)定性。
GDP;ARIMA;GMDH;組合預(yù)測
對GDP的定量預(yù)測模型種類繁多。最初人們多用單一模型預(yù)測,如回歸分析法、時間序列分析法、灰色預(yù)測法、人工神經(jīng)網(wǎng)絡(luò)法等。但是不同的預(yù)測方法也自身存在局限性,可能會影響預(yù)測效果。例如ARIMA模型可能存在共線性、過擬合的現(xiàn)象,會影響模型的預(yù)測能力[1];GMDH自回歸模型的不同數(shù)據(jù)分組預(yù)測出來的結(jié)果不同,導(dǎo)致預(yù)測結(jié)果有偏差[2];而組合預(yù)測能克服單個模型預(yù)測的局限性,能夠綜合各種模型的有用信息,最大效用地利用各個模型的有用信息,減少單個模型受隨機(jī)因素的影響,使預(yù)測的精度得到提高。根據(jù)參考文獻(xiàn)[2],自組織組合預(yù)測模型要優(yōu)于最優(yōu)組合模型和人工神經(jīng)網(wǎng)絡(luò)組合預(yù)測模型,因此采用此方法組合預(yù)測。
本文嘗試首先分別利用ARIMA、GMDH自回歸模型對四川省季度GDP進(jìn)行預(yù)測,在此基礎(chǔ)上建立基于GMDH的兩種模型的組合模型;最后使用Bonferroni-Dunn方法做模型穩(wěn)定性檢驗。
ARIMA(p,d,q)自回歸求積移動平均(Auto Regressive Integrated Moving Average)模型由美國統(tǒng)計學(xué)家G.E.P.Box和G.M.Jenkins于1970年首次提出,廣泛應(yīng)用于各種類型時間序列數(shù)據(jù)的分析方法,是一種預(yù)測精度較高的短期預(yù)測方法。其實質(zhì)是差分運(yùn)算與ARMA模型的組合。此模型是從數(shù)據(jù)本身出發(fā)來尋找可以較好描述數(shù)據(jù)的模式,從而可以保證模型與數(shù)據(jù)的擬合較好,但是也存在共線性和過擬合現(xiàn)象,影響預(yù)測效果。
ARIMA模型擬合和預(yù)測的基本步驟:
(1)數(shù)據(jù)進(jìn)行平穩(wěn)化處理與檢驗。ARIMA模型建模方法是以序列平穩(wěn)性為前提。檢驗的標(biāo)準(zhǔn)方法是單位根檢驗,若序列不滿足平穩(wěn)性條件,則可通過數(shù)學(xué)方法,如差分變換或者對數(shù)差分變換使其滿足平穩(wěn)性條件。
(2)模型識別。通過計算能夠描述序列特征的一些統(tǒng)計量,如自相關(guān)(ACP)系數(shù)和偏自相關(guān)(PACP)系數(shù)來確定ARMA(p,d,q)模型的階數(shù)p和q,并根據(jù)一定的準(zhǔn)則,如AIC準(zhǔn)則或SC準(zhǔn)則等綜合考慮來確定模型的參數(shù),使參數(shù)盡可能少。
(3)估計模型的未知參數(shù),并通過參數(shù)的T統(tǒng)計量檢驗其顯著性,以及模型的合理性。
(4)進(jìn)行診斷分析,檢驗?zāi)P偷臄M合值和實際值的殘差序列是否為一個白噪聲序列,證實所得模型確實與所觀察到的數(shù)據(jù)特征相符。
數(shù)據(jù)分組處理方法(Group Method of Data Handling,GMDH)是由烏克蘭科學(xué)院A.G.Ivakhnenko院士于1967年首次提出的,并由德國學(xué)者J.A.Mueller和軟件專家L.Frank在軟件KnowledgeMiner中具體實現(xiàn)了目前他們提出的算法,使其不斷應(yīng)用發(fā)展。
GMDH算法是建立在“進(jìn)化-遺傳-變異-選擇”的進(jìn)化論原理基礎(chǔ)上的,重復(fù)這樣一個遺傳、變異、選擇和進(jìn)化的過程,使中間待選模型的復(fù)雜度不斷增加,直至得到最優(yōu)復(fù)雜度模型[2]。
自組織建模算法的主要步驟:
①將觀測樣本數(shù)據(jù)分成訓(xùn)練集和檢測集;
②在每階段按不同的變量和增長的復(fù)雜度產(chǎn)生待選模型;
③對于參數(shù)模型,在訓(xùn)練集上估計未知參數(shù);
④在每階段利用檢測集的數(shù)據(jù)選出一些最好的模型;
因此自組織區(qū)別于一般回歸模型的最大的優(yōu)點(diǎn)是它將數(shù)據(jù)分為訓(xùn)練集和測試集,在訓(xùn)練集上使用內(nèi)準(zhǔn)則進(jìn)行參數(shù)估計得到中間待選模型,而在測試集上使用外準(zhǔn)則進(jìn)行中間候選模型的選擇,這個過程不斷重復(fù)直到外準(zhǔn)則值不能再改善才停止,這樣的停止法則可以保證在一定噪聲水平下得到數(shù)據(jù)擬合精度和預(yù)測能力之間實現(xiàn)最優(yōu)平衡的最優(yōu)復(fù)雜度模型,不會出現(xiàn)一般的回歸方法中常出現(xiàn)的過擬合而犧牲了預(yù)測能力的現(xiàn)象。
而GMDH自回歸模型是將自組織數(shù)據(jù)挖掘中的GMDH算法與傳統(tǒng)自回歸模型相結(jié)合而產(chǎn)生的一種預(yù)測方法。與傳統(tǒng)的自回歸分析方法相比,GMDH自回歸模型在小樣本區(qū)間上能較好地進(jìn)行系統(tǒng)的擬合預(yù)測工作[3]。
組合預(yù)測,就是將不同的預(yù)測方法進(jìn)行適當(dāng)?shù)慕M合,綜合利用各種方法所提供的有用信息,從而盡可能的提高預(yù)測能力。目前已知的組合預(yù)測方法主要有權(quán)系數(shù)組合預(yù)測法、非線性組合預(yù)測法和自組織組合預(yù)測方法[2]。
但是權(quán)系數(shù)組合預(yù)測法的特點(diǎn)是認(rèn)為參加組合預(yù)測的各個預(yù)測模型間是一種線性關(guān)系,而往往單個預(yù)測模型都是非線性的;非線性組合預(yù)測法所需設(shè)計的參數(shù)比大多數(shù)統(tǒng)計預(yù)測模型都多,有時會造成網(wǎng)絡(luò)模型的過擬合現(xiàn)象,即這種模型雖然對樣本數(shù)據(jù)有較高的擬合精度,但預(yù)測能力差。自GMDH組合預(yù)測模型恰好能解決這些問題,因此,選擇基于GMDH的ARIMA-GMDH組合預(yù)測模型。
由《四川省統(tǒng)計年鑒》得到2000年1季度到2009年4季度共40個四川省GDP季度累計值作為組合預(yù)測模型的原始數(shù)據(jù)。但由于通貨膨脹等因素可能造成各年的價格有差異,全部按照2000年價格作可比價處理數(shù)據(jù)。將其中2000年1季度到2008年4季度共36個數(shù)據(jù)用于預(yù)測模型,2009年1季度到2009年4季度共4個數(shù)據(jù)作預(yù)測檢驗數(shù)據(jù)。
ARIMA時間序列模型預(yù)測法計算過程非常復(fù)雜,用EVIEWS軟件[6]對四川省GDP數(shù)據(jù)進(jìn)行一系列處理和分析。
2.1.1 數(shù)據(jù)預(yù)處理
首先對數(shù)據(jù)平穩(wěn)性進(jìn)行檢驗,從GDP數(shù)據(jù)的序列圖可以看出GDP數(shù)據(jù)不具有明顯的周期變化和季節(jié)波動,是非平穩(wěn)的,且呈現(xiàn)出指數(shù)發(fā)展趨勢,可以通過取對數(shù)將指數(shù)趨勢轉(zhuǎn)化為線性趨勢,然后再對GDP數(shù)據(jù)取對數(shù)后進(jìn)行一階差分。差分后如圖1所示,可知自相關(guān)系數(shù)與偏相關(guān)系數(shù)落入置信區(qū)間并快速趨近于零,數(shù)據(jù)變得平穩(wěn)。
2.2.2 模型識別
ARIMA(p,d,q)模型中d已經(jīng)確定為1,現(xiàn)需要確定p與q的值。我們引人自相關(guān)系數(shù)和偏自相關(guān)系數(shù)這兩個統(tǒng)計量來識別ARMA(p,q)模型的系數(shù)特點(diǎn)和模型的階數(shù)。由圖1可知,自相關(guān)系數(shù)與偏相關(guān)系數(shù)都具有拖尾性,自相關(guān)系數(shù)在k=3和4時顯著不為0,所以確定p的值為2,,3或4。偏相關(guān)系數(shù)在k=2,3和4時顯著不為0,則確定q的值為3或4。那么可能合適的(p,q)組合為(3,2),(3,3)(3,4),(4,2),(4,3),(4,4)。
2.2.3 模型建立
經(jīng)過多次嘗試和檢驗后,模型檢驗結(jié)果如表1所示,根據(jù)AIC值越大越好,SC和Adjusted R-squared值越小越好的原則,確定最終模型為ARIMA(4,1,4)。
表1 ARIMA模型檢驗結(jié)果
2.2.4 預(yù)測模型
在模型ARIMA(4,1,4)的基礎(chǔ)上消除多重共線性得到最佳擬合模型如下:
其中Z為X的一階差分,即Z=△X,X=1n(GDP),GDP為2000年1季度到2008年4季度可比價。
最終預(yù)測模型為:
根據(jù)GMDH預(yù)測模型原理,利用軟件Knowledge Miner計算過程如下:
(1)首先輸入數(shù)據(jù),選擇預(yù)測GMDH自回歸預(yù)測模型,確定模型,其中最重要的參數(shù)有max.time lag和Model Type。根據(jù)經(jīng)驗我們得知第一個參數(shù)跟輸入數(shù)據(jù)的類型有關(guān),如數(shù)據(jù)是月度數(shù)據(jù)一般為12;為季度數(shù)據(jù)時,一般為4。
(2)確定參數(shù)后,我們應(yīng)該根據(jù)外準(zhǔn)則原則:選取Coefficient Of Determination(R-squared)和adjusted R-squared達(dá)到最低點(diǎn)又再回升時,預(yù)測效果為最好。對于四川季度GDP累計值,當(dāng)max.time lag取4,Model Type取exclusively linear時,此時Coefficient Of Determination(R-squared)和adjusted R-squared值最佳。
(3)最優(yōu)預(yù)測模型
GMDH方法采用多層迭代的方法,利用Knowledge Miner軟件選取組合預(yù)測模型來做組合預(yù)測。建立模型確定參數(shù)時,同樣根據(jù)外準(zhǔn)則原則選取最佳參數(shù)預(yù)測最優(yōu)結(jié)果。
以YARIMA,YAR-GMDH作為模型的輸入,使用GMDH方法將各個單項預(yù)測模型的結(jié)果組合起來,最終自組織建模軟件(Knowledge Miner)篩選出最優(yōu)復(fù)雜度模型為:
經(jīng)過2008年的金融危機(jī)和四川地震災(zāi)害,導(dǎo)致自2008年4季度以來至2009年1季度四川省GDP明顯回落,宏觀經(jīng)濟(jì)進(jìn)入本輪經(jīng)濟(jì)周期的下行區(qū)間;但是經(jīng)過國家的投資拉動和災(zāi)后重建,2009年2、3、4季度已開始回升。三種模型對于四川省GDP的預(yù)測誤差都在3%以下,在可接受范圍內(nèi),具體預(yù)測結(jié)果如表2。
表2 2009年1~4季度單項預(yù)測模型與組合預(yù)測模型GDP預(yù)測結(jié)果
從表2看,ARIMA模型的標(biāo)準(zhǔn)誤差為2.30%,GMDH自回歸模型的標(biāo)準(zhǔn)誤差為2.43%,組合預(yù)測模型預(yù)測的標(biāo)準(zhǔn)誤差僅為1.67%,并且組合預(yù)測模型的相對誤差與單項模型相比都有所改善,得到的預(yù)測效果較為可靠和滿意,說明通過GMDH組合后的預(yù)測模型能在很大程度上減少由單個模型帶來的誤差,具有一定的抗干擾性,從而保證預(yù)測的準(zhǔn)確性。
為了進(jìn)一步分析各個模型的穩(wěn)定性,使用Bonferroni-Dunn檢驗方法來驗證單項模型與組合模型之間在模型擬合方面是否存在顯著的差異。
Bonferroni-Dunn檢驗方法是將模型擬合值與實際值進(jìn)行比較,并按照差值的絕對值從小到大進(jìn)行排序,若差值相同,則賦一個平均排序,最后計算每一種模型所有時間內(nèi)的平均排序。根據(jù)Bonferroni-Dunn檢驗,若每兩種模型之間擬合的差異是顯著不同的,那么它們之間平均排序的差值應(yīng)該至少要大于下面的臨界值:
其中qα為在相應(yīng)顯著性水平下的Bonferroni-Dunn檢驗臨界值,k為模型的個數(shù),N為擬合數(shù)據(jù)的條數(shù)。
2002年1季度至2008年4季度各預(yù)測模型數(shù)據(jù)擬合值與排序結(jié)果如表3所示。
表3 2002年1季度-2008年4季度各預(yù)測模型數(shù)據(jù)擬合值與排序結(jié)果
在α=0.05時,qα=2.241,計算得CD值為0.5989,由此可知,在置信度為95%的水平下,組合預(yù)測模型的數(shù)據(jù)擬合能力要優(yōu)于ARIMA模型(2.2857-1.5357>0.5989)與ARGMDH模型(2.1786-1.5357>0.5989)。
本文通過對四川省2000年1季度到2009年4季度的GDP累計值數(shù)據(jù)(按2000年可比價格)進(jìn)行預(yù)測檢驗,分析得到:ARIMA模型和GMDH自回歸模型模型比較適合預(yù)測宏觀經(jīng)濟(jì)指標(biāo),組合預(yù)測模型的預(yù)測結(jié)果更優(yōu)于單一模型預(yù)測結(jié)果,因此組合預(yù)測模型的應(yīng)用更具有實際意義。
但是為了達(dá)到更好的預(yù)測效果,我們應(yīng)該不斷地提高和改進(jìn)各單項模型和組合模型的擬合與預(yù)測能力,同時可以尋找更好的組合模型進(jìn)行預(yù)測。根據(jù)穩(wěn)定性和擬合效果的分析,擬合效果好的預(yù)測結(jié)果不一定是最優(yōu)的。這給我們的啟示是:每種預(yù)測模型都有其自身的優(yōu)點(diǎn)、缺點(diǎn)和適用范圍,我們應(yīng)該根據(jù)具體情況選擇最優(yōu)預(yù)測模型。
[1]何躍,鮑愛根,賀昌政.自組織建模方法和GDP增長模型研究[J].中國管理科學(xué),2007,(2).
[2]賀昌政.自組織數(shù)據(jù)挖掘與經(jīng)濟(jì)預(yù)測[M].北京:科學(xué)出版社,2005.
[3]賀昌政,俞海,盧躍奇.自組織組合預(yù)測方法及其應(yīng)用[J].?dāng)?shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2002,(2).
[4]王莎莎,陳安,蘇靜,李碩.組合預(yù)測模型在中國GDP預(yù)測中的應(yīng)用[J].山東大學(xué)學(xué)報,2009,(2).
[5]趙蕾,陳美英.ARIMA模型在福建省GDP預(yù)測中的應(yīng)用[J].科技和產(chǎn)業(yè),2007.
[6]易丹輝.?dāng)?shù)據(jù)分析與EVIEWS應(yīng)用[M].北京:中國統(tǒng)計出版社,2002.
[7]曹玉潔,何躍,賀昌政.基于R/S分析的GMDH自組織方法在用電量預(yù)測中的應(yīng)用[J].軟科學(xué),2009,(7).
(責(zé)任編輯/亦民)
F201
A
1002-6487(2011)05-0035-03
國家自然科學(xué)基金資助項目(70771067)
尹靜(1986-),女,河北保定人,碩士研究生,研究方向:信息管理與信息系統(tǒng)。
何躍(1961-),男,重慶人,博士,副教授,研究方向:管理信息系統(tǒng)、數(shù)據(jù)挖掘、決策支持系統(tǒng)。