金 劍,高雅碩
(河北大學(xué) 經(jīng)濟(jì)學(xué)院,河北 保定071002)
鄧聚龍教授于1982 年提出了灰色系統(tǒng)理論,將灰色系統(tǒng)定義為同時包含已知信息和未知信息的系統(tǒng)(Deng,1982)[1],這為后來的灰色模型(Grey Model,GM)構(gòu)建奠定了理論基礎(chǔ)。與其他預(yù)測模型相比,灰色預(yù)測模型對樣本量較少、分布未知的數(shù)據(jù)預(yù)測準(zhǔn)確性更高。傳統(tǒng)的GM(1,1)模型即一階單變量灰色預(yù)測模型已經(jīng)在經(jīng)濟(jì)、社會、生態(tài)、醫(yī)療等領(lǐng)域得到了廣泛應(yīng)用,但該模型對于千變?nèi)f化的數(shù)據(jù)來說是存在缺陷的。近年來,學(xué)者們依據(jù)不同領(lǐng)域數(shù)據(jù)的特征,將傳統(tǒng)的灰色預(yù)測模型與其他模型結(jié)合起來建立組合模型,大大提高了預(yù)測精度,如混合灰色模型、灰色動態(tài)模型、灰色神經(jīng)網(wǎng)絡(luò)組合模型等。
目前,以灰色系統(tǒng)理論為基礎(chǔ)的預(yù)測方法在經(jīng)濟(jì)活動和自然科學(xué)等領(lǐng)域的運(yùn)用已逐漸成熟。與其他模型相比,在小樣本、數(shù)據(jù)分布未知的情況下,灰色預(yù)測模型有著特殊的優(yōu)勢。鑒于以往的研究對方法改進(jìn)關(guān)注較多,而對數(shù)據(jù)的關(guān)注較少,也未探究灰色預(yù)測模型為何適用于小樣本預(yù)測,為了彌補(bǔ)已有研究的不足,本文以河北省城鎮(zhèn)居民實(shí)際人均可支配收入為例,對不同長度的樣本分別建立GM(1,1)模型,比較其預(yù)測效果,探究樣本長度對模型預(yù)測性能的影響,并基于合適的樣本長度建立模型,預(yù)測未來幾年河北省城鎮(zhèn)居民實(shí)際人均可支配收入的變化趨勢。這不僅為灰色預(yù)測模型研究提供了一定的理論支撐,也為今后的模型應(yīng)用提供了方法指導(dǎo)。
灰色預(yù)測是對既含有確定信息、又含有不確定信息的系統(tǒng)進(jìn)行預(yù)測的方法,該方法已在醫(yī)療、經(jīng)濟(jì)及人力資本等諸多領(lǐng)域得到了廣泛應(yīng)用(Guo et al.,2014;Zhang et al.,2017;Hu,2017;Yin and Tang,2013)[2-5]。由于傳統(tǒng)模型存在缺陷,學(xué)者們將傳統(tǒng)的灰色預(yù)測理論與其他方法或理論結(jié)合起來構(gòu)建了新的模型。為了有效解決信息量較少的問題,Wang 等(2014)[6]將灰色理論與自助法相結(jié)合,提出了動態(tài)自助灰色預(yù)測方法(DBGM)。為了減少數(shù)據(jù)波動的影響,Wu 等(2016)[7]在模型中添加了時間的權(quán)重,提出了基于時變加權(quán)的灰色模型(WGM)。為了改善背景值的平滑效果,楊孝良(2018)[8]提出了基于三參數(shù)的背景值構(gòu)造方法,弱化了極端數(shù)據(jù)對預(yù)測性能的影響。此外,還有一些學(xué)者提出了預(yù)測季節(jié)波動序列的灰色建模方法DGGM(1,1)(Wang et al.,2017)[9]以及預(yù)測單峰序列或波動序列的融合自憶性原理的GM(1,1)冪模型(Guo et al.,2014)[2]。
目前,灰色預(yù)測法已經(jīng)從傳統(tǒng)的單一模型演變?yōu)榘鄠€模型的復(fù)雜方法體系,模型的預(yù)測精度不斷提高,而且衍生的灰色預(yù)測模型很好地解決了小樣本問題。然而,學(xué)者們在實(shí)證研究中使用的樣本長度是完全不同的。例如,Wu 等(2016)[7]使用長度為4、10、14 的樣本建立模型,Hu(2017)[4]使用長度為4 的樣本進(jìn)行滾動預(yù)測,Yin 和Tang(2013)[5]使用的是長度為22 的樣本,Wang 等(2017)[9]則使用了11 年的季度數(shù)據(jù)擬合模型,樣本長度達(dá)到43 個(第一年缺少第一季度的數(shù)據(jù))??梢姡F(xiàn)有研究主要關(guān)注模型對某一樣本的擬合程度和預(yù)測精度,很少關(guān)注選用的樣本長度是否恰當(dāng),而實(shí)證中樣本長度的選擇由于受研究者的主觀影響或是數(shù)據(jù)可得性的限制,尚缺乏科學(xué)的依據(jù)和理論支撐。
樣本長度對模型的預(yù)測能力是有影響的,樣本量過多或過少都會影響模型的預(yù)測精度。Wu 等(2013)[10]利用矩陣攝動理論解釋了灰色預(yù)測應(yīng)使用小樣本的原因,并在不同的案例中分別使用長度為4 至9 以及14 的樣本建立模型,發(fā)現(xiàn)長度為4 的樣本預(yù)測效果較好,從而得出小樣本的GM(1,1)模型具有更高預(yù)測精度的結(jié)論。但是,Wu 等選取的樣本長度仍然不夠。為了彌補(bǔ)不足,本文以河北省城鎮(zhèn)居民實(shí)際人均可支配收入為例,增加樣本長度,研究不同的樣本長度對灰色預(yù)測模型GM(1,1)預(yù)測性能的影響,并選取合適長度的樣本建立模型,預(yù)測未來河北省城鎮(zhèn)居民實(shí)際人均可支配收入的發(fā)展趨勢。
與現(xiàn)有文獻(xiàn)相比,本文的貢獻(xiàn)主要體現(xiàn)在以下方面:一是利用R 軟件編寫了GM(1,1)模型的自編函數(shù),在較短時間內(nèi)建立了多個GM(1,1)模型,提高了建模效率,克服了目前缺乏適合灰色預(yù)測建模軟件的缺陷;二是針對長度為3~35 的樣本分別建立了GM(1,1)模型,并對這33 個模型的預(yù)測結(jié)果進(jìn)行了分析,發(fā)現(xiàn)模型的預(yù)測性能與樣本長度之間的關(guān)系是,隨著樣本長度的增加,模型預(yù)測的相對誤差并未呈現(xiàn)增加或減少的趨勢,而是呈現(xiàn)上下波動的周期性變化特征;三是根據(jù)預(yù)測誤差波動的幅度及樣本的預(yù)測結(jié)果,證實(shí)了GM(1,1)模型適合于較小樣本的預(yù)測,而對較大樣本的預(yù)測效果較差,這為以往研究提出的灰色預(yù)測模型適合小樣本的論斷提供了有力證據(jù)和理論支撐;四是通過比較不同樣本的多步預(yù)測結(jié)果,提出適合建立GM(1,1)模型的樣本長度,為灰色預(yù)測模型的使用提供了指導(dǎo)建議。
GM(1,1)模型是從原始數(shù)據(jù)中找出規(guī)律,針對生成數(shù)據(jù)建立灰色微分方程的一階單變量灰色時間序列預(yù)測方法。GM(1,1)括號中的第一個參數(shù)代表階數(shù),第二個參數(shù)代表變量個數(shù)。該模型不需考慮相關(guān)因素對系統(tǒng)發(fā)展趨勢的影響,建模過程較為簡單(吳華安等,2018)[11]。模型應(yīng)用是以灰色系統(tǒng)理論為基礎(chǔ),即由非負(fù)的原始數(shù)據(jù)累加生成的序列可以減少隨機(jī)因素的影響,故采用這種方法可以針對生成數(shù)據(jù)構(gòu)建模型。假定原始數(shù)據(jù)是長度為m 的時間序列:
我們分別將式(1)中的每個元素累加,得到生成列:
我們將式(2)序列每對相鄰的兩個元素相加,生成緊鄰均值序列:
根據(jù)式(1)和式(3),我們構(gòu)建了GM(1,1)模型的灰微分方程,公式如下:
其中,a 稱為發(fā)展灰數(shù),b 稱為內(nèi)生控制灰數(shù)。當(dāng)-a≤0.3 時,模型的預(yù)測精度較高。
在X(0)(k)和Z(1)(k)已知的情況下,式(4)即為典型的一元線性回歸模型。因此,我們可以利用最小二乘法求解未知參數(shù)a、b,計(jì)算過程如式(5)、(6)所示:
就式(4)而言,如果將k 定義為連續(xù)變量t,則灰微分方程的白化方程為:
對式(7)求解并將連續(xù)變量t 轉(zhuǎn)換為原來的離散變量k,我們可以得到:
由于X(1)是序列X(0)的一次累加生成列,對預(yù)測序列X^(1)進(jìn)行逆運(yùn)算,即將相鄰兩個元素相減,我們就可得到預(yù)測序列X^(0):
其中,X^(0)(1)=X(0)(1)。從式(9)中可以看出,GM(1,1)模型的預(yù)測序列是關(guān)于k 的指數(shù)型序列,適用于預(yù)測指數(shù)型的時間序列,但該模型對其他特征數(shù)據(jù)的預(yù)測存在一定的缺陷。因此,在傳統(tǒng)模型的基礎(chǔ)上,新的灰色預(yù)測模型不斷衍生出來。
GM(1,1)模型的評估分為內(nèi)部評估和外部評估兩部分,內(nèi)部評估使用單個模型擬合程度的評價指標(biāo),外部評估則需使用比較不同模型的評價指標(biāo)。
1.內(nèi)部評估。內(nèi)部評估的指標(biāo)有很多,如關(guān)聯(lián)度、平均相對誤差、均方差比值和小誤差概率等。
平均相對誤差是根據(jù)模型的擬合值和實(shí)際值計(jì)算得出的,即首先需要求出模型的絕對誤差序列:
將式(10)除以原始序列,即可得到相對誤差序列:
將相對誤差序列求取均值,即為平均相對誤差序列:
均方差比值是原始序列與絕對誤差序列的標(biāo)準(zhǔn)差之比,它反映了殘差的分布特性。均方差比值的計(jì)算方法是先求得原始序列和絕對誤差序列的標(biāo)準(zhǔn)差:
計(jì)算式(13)中兩個標(biāo)準(zhǔn)差之比,即可得出均方差比值:
根據(jù)式(10)的絕對誤差序列和式(13)的原始序列標(biāo)準(zhǔn)差,我們可以計(jì)算出小誤差概率:
小誤差概率是常用的GM 模型檢驗(yàn)指標(biāo),其取值越大越好。
關(guān)聯(lián)度常用來分析不同序列之間的相似程度,以判斷不同序列之間的緊密性(沈頌東和亢秀秋,2018)[12],利用關(guān)聯(lián)度可以判斷模型預(yù)測序列的擬合程度。關(guān)聯(lián)度的計(jì)算方法是先求出原始序列與擬合序列相應(yīng)元素之間的關(guān)聯(lián)系數(shù),其公式如下:
計(jì)算上述關(guān)聯(lián)系數(shù)序列的均值,可以得出如下關(guān)聯(lián)度公式:
為了避免量綱的影響,關(guān)聯(lián)度的計(jì)算需要將每個序列初始化,即序列中的所有元素都要除以第一個元素。由于GM(1,1)模型的擬合序列與原始序列的第一個元素相同,故不需要進(jìn)行初始化。此外,當(dāng)ρ=0.5,關(guān)聯(lián)度大于0.6 時,模型是令人滿意的。
在上述指標(biāo)中,平均相對誤差和均方差比值是越小越好,而關(guān)聯(lián)度和小誤差概率是越大越好。通常來說,GM(1,1)模型的精度等級可以根據(jù)均方差比值和小誤差概率來評定,如表1 所示。
表1 GM(1,1)模型的精度等級評定
2. 外部評估。外部評估主要是比較不同的GM(1,1)模型的預(yù)測性能,即根據(jù)每個模型的預(yù)測結(jié)果,計(jì)算出模型的平均絕對百分比誤差(Mean absolute percentage error,MAPE)。MAPE 實(shí)際上是以百分比形式表示的平均相對誤差。為了便于區(qū)分,本文所說的平均相對誤差均為樣本內(nèi)誤差,是根據(jù)模型擬合值和實(shí)際值計(jì)算的,而MAPE 是指樣本外誤差,是根據(jù)模型的預(yù)測值和實(shí)際值計(jì)算得出的,即在式(11)的基礎(chǔ)上乘以100%,再計(jì)算其均值,即可得到MAPE。
本文的數(shù)據(jù)來源于2018 年的《河北經(jīng)濟(jì)年鑒》以及國民經(jīng)濟(jì)和社會發(fā)展統(tǒng)計(jì)公報(bào)。我們對河北省城鎮(zhèn)居民人均可支配收入及其指數(shù)(1978=100)進(jìn)行計(jì)算,表2 即為以1978 年為基期的城鎮(zhèn)居民實(shí)際人均可支配收入。由于灰色預(yù)測模型適用于短期預(yù)測,故本文只研究GM(1,1)模型1~5 步的預(yù)測性能。為了便于比較,本文將數(shù)據(jù)分為兩個部分,即1978—2012 年為訓(xùn)練集,2013—2017 年為測試集。我們首先在訓(xùn)練集中提取不同長度的子集建立GM(1,1)模型,預(yù)測2013—2017 年的數(shù)據(jù),然后計(jì)算每個模型的各項(xiàng)評估指標(biāo),比較各模型的擬合程度和預(yù)測性能,最后根據(jù)分析結(jié)果,以1978—2017 年為訓(xùn)練集,從中選取合適長度的樣本對未來實(shí)際人均可支配收入的發(fā)展趨勢進(jìn)行預(yù)測。
受數(shù)據(jù)可得性的影響,本文的樣本長度最多為35 個,即利用1978—2012 年的全部數(shù)據(jù)進(jìn)行預(yù)測。樣本長度不夠會給預(yù)測方程的建立帶來困難,最少也得有3 個,即包括2009—2011 年的數(shù)據(jù)。因此,本文涉及的樣本長度為3~35 個,分別對應(yīng)2010—2012 年、2009—2012 年、2008—2012 年、……1978—2012 年的數(shù)據(jù),通過建立GM(1,1)模型預(yù)測2013—2017 年的城鎮(zhèn)居民實(shí)際人均可支配收入。表2 中的第三列和第六列為實(shí)際收入序列的級比序列,即當(dāng)年的實(shí)際收入除以上年的實(shí)際收入??梢钥闯?,級比序列中各元素的值相差不大,介于1.00~1.37 之間,說明1978—2017 年的河北省城鎮(zhèn)居民實(shí)際人均可支配收入呈現(xiàn)指數(shù)增長。
表2 河北省城鎮(zhèn)居民實(shí)際人均可支配收入(1978 年為基期)
本文涉及的樣本長度為3~35 個,這就需要構(gòu)建33 個GM(1,1)模型。R 軟件能夠減少大量重復(fù)運(yùn)算并快速得到結(jié)果,根據(jù)公式(1)至公式(16),本文利用R 軟件創(chuàng)建了GM(1,1)模型的自編函數(shù),得到不同樣本的擬合結(jié)果(見表3)??梢钥闯?,發(fā)展灰數(shù)a的絕對值在0.106~0.123 之間,小于0.3,說明GM(1,1)模型是有意義的,可以用于預(yù)測。隨著樣本長度的增加,內(nèi)生控制灰數(shù)下降幅度較大,從14 125.6降到537.0,下降了96.20%。通過比較發(fā)展灰數(shù)和內(nèi)生控制灰數(shù)的變化范圍,本文發(fā)現(xiàn)樣本長度對模型內(nèi)生控制灰數(shù)的影響較大,對發(fā)展灰數(shù)的影響較小。
本文根據(jù)模型的內(nèi)部評估指標(biāo)評價模型的擬合程度,發(fā)現(xiàn)關(guān)聯(lián)度普遍不高,僅在0.557~0.699 之間,當(dāng)樣本長度為5~8、10~14、26~35 時,模型的關(guān)聯(lián)度才會大于0.6。除關(guān)聯(lián)度以外,其他指標(biāo)的結(jié)果較好。隨著樣本長度的增加,均方差比值大致呈現(xiàn)上升趨勢,從0.007 增加到0.236,小于0.35,而小誤差概率均為1。表1 的結(jié)果說明,GM(1,1)模型的精度等級為優(yōu),即本文針對不同樣本建立的GM(1,1)模型是合理的。
通過比較各模型的平均相對誤差,本文發(fā)現(xiàn),隨著樣本長度的增加,平均相對誤差越來越大。當(dāng)樣本長度在7 以下時,平均相對誤差在1%以內(nèi),長度為8~15 的樣本平均相對誤差在5%以內(nèi),而當(dāng)樣本長度大于24 時,平均相對誤差大于10%,長度為35 時的平均相對誤差甚至達(dá)到39.97%。模型的擬合結(jié)果說明,樣本長度越小,模型的樣本內(nèi)誤差就越小,擬合程度也越高。
表3 各樣本的GM(1,1)模型結(jié)果
本文對各模型的預(yù)測結(jié)果進(jìn)行了比較。由于數(shù)據(jù)較多,為了更好地反映數(shù)據(jù)的分布特征,我們將數(shù)據(jù)以可視化的形式展現(xiàn)出來。根據(jù)公式(11),結(jié)合2013—2017 年模型的預(yù)測值和實(shí)際值,我們計(jì)算出每個模型的預(yù)測相對誤差序列(以百分比表示),分別繪出該序列中每一個元素的預(yù)測相對誤差與樣本長度之間的關(guān)系,如圖1 所示。
圖1 樣本長度與各年預(yù)測值相對誤差的關(guān)系
圖1的橫軸代表樣本長度,縱軸代表各年的預(yù)測相對誤差(單位為%,下同)。圖中不同的符號代表一定范圍的相對誤差,圓點(diǎn)代表相對誤差在(0%,2%)之間,三角代表相對誤差在(2%,5%)之間,加號代表相對誤差在5%及以上??梢钥闯觯c表3 的平均相對誤差不同,各年預(yù)測相對誤差與樣本長度呈現(xiàn)非線性關(guān)系。與長度為15 以上的較大樣本相比,基于長度在15 以下的較小樣本建立的GM(1,1)模型,其預(yù)測相對誤差較為穩(wěn)定(為了便于說明,下文的較小樣本均指長度在15 以下的樣本,較大樣本均指長度在15 以上的樣本)。具體來看,隨著樣本長度的增加,預(yù)測相對誤差的變化呈現(xiàn)上下波動的趨勢。樣本長度超過30 之后,預(yù)測的相對誤差急劇增大。
從每次波動的最低點(diǎn)(波谷)來看,各年波谷出現(xiàn)的位置并不相同??偟膩碚f,以各年預(yù)測值相對誤差為依據(jù),2013—2015 年長度在15 以下及29 左右的樣本預(yù)測相對誤差較小,而2016—2017 年長度為17~26 的樣本預(yù)測相對誤差較小。對于長度在15 以下的樣本而言,2013—2015 年的相對誤差變動曲線較為平緩,2014 年和2015 年的預(yù)測誤差較小,2016—2017 年則出現(xiàn)波峰,超過了10%。對于長度在15~25 之間的樣本而言,隨著年份的增加,波峰越來越低,變動的幅度也越來越小,特別是在2016 年和2017 年,相對誤差大多在5%以下。對于長度在25 以上的樣本而言,隨著年份的增加,波谷出現(xiàn)的位置越來越靠近長度較小的樣本,2013 年的波谷在長度為30 的位置,2016 年的波谷則出現(xiàn)在長度為25 的位置。
根據(jù)不同樣本長度下各模型的預(yù)測相對誤差序列,本文分別計(jì)算了不同預(yù)測步長下的平均絕對百分比誤差MAPE,并針對每個步長繪出各模型MAPE與樣本長度之間的關(guān)系,如圖2 所示(圖2 中各符號的含義同圖1)??梢钥闯觯S著樣本長度的增加,各步長預(yù)測的MAPE 變化與圖1 的趨勢大致相同,當(dāng)樣本長度超過30 之后,MAPE 急劇增大,而在長度為30 以下的樣本中,隨著步長的增加,MAPE 曲線越來越平緩。觀察多步預(yù)測中MAPE 在5%以下的樣本可以發(fā)現(xiàn),三步和四步的預(yù)測效果最好,其次是二步,而一步和五步的預(yù)測效果最差。與其他長度的樣本相比,各步在長度為15 以下的樣本中,MAPE變化較為平緩,預(yù)測效果較好,而在長度為15 以上的樣本中,MAPE 變化較大,僅長度為29 左右的樣本預(yù)測效果較好。因此,長度在15 以下的較小樣本更適合建立灰色預(yù)測模型。
觀察圖1 和圖2 可以確定,GM(1,1)模型的預(yù)測性能與樣本長度之間的關(guān)系是非線性的,即隨著樣本長度的增加,模型預(yù)測性能在上下波動,且波動幅度越來越大。這進(jìn)一步表明,與較大樣本相比,GM(1,1)模型對較小樣本的預(yù)測能力是較好的。在較大樣本中,基于長度為29 左右的樣本建立的模型預(yù)測效果較好。長度為30 樣本的一步預(yù)測和二步預(yù)測MAPE 甚至在2%以下,其預(yù)測性能超過部分較小樣本的預(yù)測性能(圖2)。但表3 的結(jié)果顯示,在這一范圍內(nèi),各模型的樣本內(nèi)誤差即平均相對誤差較大,均在10%以上,說明模型對原始序列的擬合較差。這也證明模型的外推能力與擬合程度并不是正相關(guān)的,外推能力較好的模型對原始序列的擬合并不一定表現(xiàn)更好。圖1 也顯示,在這一區(qū)間內(nèi),各模型對各年的預(yù)測相對誤差變化較大,如長度為29 的樣本在2013—2015 年的相對誤差較小,但其在2016—2017年的相對誤差卻較大。
圖2 樣本長度與預(yù)測步長的平均絕對百分比誤差之間的關(guān)系
以上結(jié)果表明,GM(1,1)模型盡管在部分較大樣本中能夠取得較好的預(yù)測效果,但其并不穩(wěn)定,因此,該模型不適合較大樣本的預(yù)測,其僅對長度為15 以下的較小樣本預(yù)測效果較好。結(jié)合圖1 和圖2,本文試圖找出最適合建立GM(1,1)模型的樣本長度。首先,GM(1,1)模型適合于三步預(yù)測。圖1 中,2013—2015 年的小樣本預(yù)測效果較好,而2016—2017 年的預(yù)測效果較差。圖2 中,二步和三步預(yù)測的效果較好,而四步預(yù)測的MAPE 盡管較小,但2016年的相對誤差較大。其次,對于長度為8~13 的樣本,圖2 中一步、二步和三步預(yù)測的MAPE 較小,而圖1中2013 年和2014 年的預(yù)測相對誤差較小,2015 年的預(yù)測相對誤差雖然不如長度為8 以下樣本的相對誤差小,但這一區(qū)間長度的樣本誤差均在5%以下。因此,GM(1,1)模型適合采用長度為8~13 的樣本進(jìn)行三步以內(nèi)的預(yù)測。
由前文的分析可知,長度為8~13 的樣本適用于三步預(yù)測,特別是長度為9 的樣本三步預(yù)測效果最好。因此,本文選用長度為9 的樣本預(yù)測河北省2018—2020 年的城鎮(zhèn)居民實(shí)際收入。結(jié)果顯示,其灰色微分方程的解為:
模型的發(fā)展灰數(shù)絕對值為0.097,小于0.3,說明GM(1,1)模型是有意義的。模型的內(nèi)部評估指標(biāo)顯示,關(guān)聯(lián)度為0.535,均方差比值為0.067,小誤差概率為1,樣本內(nèi)平均相對誤差為3.22%,說明模型的精度等級為優(yōu)。根據(jù)公式(19)進(jìn)行三步預(yù)測,計(jì)算k=9~11 的值,得出的預(yù)測結(jié)果即為以1978 年為基期的實(shí)際人均可支配收入,將其換算成以2017 年為基期的結(jié)果如表4 所示??梢钥闯?,以2017 年為基期,未來三年的城鎮(zhèn)居民實(shí)際人均可支配收入將繼續(xù)增長,各年的增長率超過10%,2020 年的人均收入將超過40 000 元。2018 年的增長率也很高,達(dá)到13.50%,之后增長率穩(wěn)定在10%左右。
圖3 1978—2020 年河北省城鎮(zhèn)居民實(shí)際人均可支配收入
圖3是模型的預(yù)測結(jié)果,曲線是由模型的擬合值和預(yù)測值連接構(gòu)成的,即公式(19)所表達(dá)的指數(shù)曲線??梢钥闯?,各點(diǎn)對曲線的偏離程度較低,說明GM(1,1)模型較好地?cái)M合了城鎮(zhèn)居民實(shí)際人均可支配收入的變化趨勢。
表4 2018—2020 年河北省城鎮(zhèn)居民實(shí)際人均可支配收入的預(yù)測結(jié)果
灰色預(yù)測模型是在含有不確定成分的系統(tǒng)中,通過數(shù)據(jù)處理找出具有較強(qiáng)規(guī)律性的生成數(shù)據(jù),建立微分方程預(yù)測未來的趨勢,其對樣本量小、分布未知的數(shù)據(jù)是適用的。本文以城鎮(zhèn)居民實(shí)際人均可支配收入為例,選取長度為3~35 的樣本,通過比較基于各樣本建立的GM(1,1)模型的預(yù)測結(jié)果,研究了樣本長度對GM(1,1)模型預(yù)測性能的影響,同時選取合適長度的樣本預(yù)測了2017 年以后中國城鎮(zhèn)居民實(shí)際人均可支配收入的變化趨勢。本文的研究結(jié)論如下:(1)樣本長度對灰色微分方程中的發(fā)展灰數(shù)影響較小,而對內(nèi)生控制灰數(shù)影響較大;(2)樣本長度與模型的預(yù)測相對誤差呈現(xiàn)非線性關(guān)系,即隨著長度的增加,模型的預(yù)測相對誤差上下波動,且波動幅度越來越大;(3)通過分析各步長MAPE 與樣本長度之間的關(guān)系,發(fā)現(xiàn)與長度在15 以上的較大樣本相比,長度在15 以下的較小樣本更適用于建立灰色預(yù)測模型;(4)在較大樣本中,部分樣本的預(yù)測性能較好,其甚至與較小樣本的預(yù)測性能不相上下,但在較大樣本下,模型的樣本內(nèi)誤差較大,超過10%,且模型對各年預(yù)測的誤差不穩(wěn)定,因此,GM(1,1)模型不適合大樣本預(yù)測;(5)在較小樣本中,長度為8~13 的樣本適于建立GM(1,1)模型并進(jìn)行三步預(yù)測;(6)以2017 年為基期,未來三年的城鎮(zhèn)居民實(shí)際人均可支配收入將繼續(xù)增長,各年的增長率超過10%,2020 年的人均收入將超過40 000 元。
本文的研究彌補(bǔ)了已有文獻(xiàn)的不足,即考慮了樣本長度對預(yù)測性能的影響,利用R 軟件的優(yōu)勢,創(chuàng)建了GM(1,1)模型的自編函數(shù),并計(jì)算出33 個模型的預(yù)測結(jié)果。從可視化的模型結(jié)果中可以看出,樣本長度與灰色預(yù)測性能之間存在非線性關(guān)系,某些樣本長度是適合建模的,這為灰色預(yù)測模型更適用于小樣本數(shù)據(jù)預(yù)測提供了充足的證據(jù)。當(dāng)然,本文的研究尚存在一些缺陷,如僅使用了傳統(tǒng)的GM(1,1)模型進(jìn)行分析,而未涉及灰色模型體系中的其他衍生模型,今后應(yīng)進(jìn)一步擴(kuò)展對灰色預(yù)測及其應(yīng)用模型的研究。
統(tǒng)計(jì)學(xué)報(bào)2020年1期