張曼麗
摘要:本文主要針對廣東省戶籍人口的定量分析,所采用的模型是自回歸移動平均模型(Autoregressive Integrated Moving Average Model,簡記ARIMA)和指數(shù)平滑(Exponential Smoothing,簡稱ES)模型,它們是時間序列分析中常用的兩類模型,在分析的過程中使用的是R統(tǒng)計軟件[1-4],使用的主要的程序包括fpp、forecast、Rcpp,主要內容是把戶籍人口的變動歸結為遷移和自然變動兩類因素,通過預測未來十年內的遷移率和自然增長率,對戶籍人口在未來十年的發(fā)展趨勢進行預測。
關鍵詞:ARIMA模型;ES模型;戶籍人口;預測
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2016)32-0190-02
本文主要針對廣東省的戶籍人口進行研究,從廣東省政府網(wǎng)站(http://www.gdstats.gov.cn/tjnj/2012/c4.htm)下載的數(shù)據(jù),采用自回歸移動平均模型(Autoregressive Integrated Moving Average Model,簡記ARIMA)和指數(shù)平滑(Exponential Smoothing,簡稱ES)模型來研究人口趨勢問題,它們是時間序列分析中常用的兩類模型,在分析的過程中使用的是R統(tǒng)計軟件,使用的主要的程序包括fpp、forecast、Rcpp。本文主要對戶籍人口進行分析預測,進而完成ARIMA和ES模型在人口預測方面的應用。
相比較非戶籍人口,戶籍人口的數(shù)據(jù)相對豐富,因此,我們將重點分析戶籍人口的發(fā)展變化情況。首先我們把戶籍人口的變動歸結為遷移和自然變動兩類因素,通過預測未來十年內的遷移率和自然增長率,對戶籍人口在未來十年的發(fā)展趨勢進行預測。由于國家人口調查數(shù)據(jù)的限制,分析所利用的數(shù)據(jù)截止至2010年,預測從2011年始,至2020年結束。雖然2011—2014年的人口可以從2015年廣東省統(tǒng)計年鑒里查到,我們不使用它,將它作為檢驗模型準確率的數(shù)據(jù)依據(jù)。
由于戶籍人口的遷移情況受人為因素的影響較大[5],戶籍人口的遷移將分別從遷入和遷出兩方面來分析,而戶籍人口的自然增長情況受人為因素影響較少,將僅從凈自然增長率來分析。記:R(t)=I(t)-E(t)+G(t),其中t表示時間,R(t)表示在時間點t廣東省戶籍人口每年的變化率,I(t)、E(t)和G(t)分別表示在時間點t戶籍人口的遷入率、遷出率和凈自然增長率。
經(jīng)濟因素對人口遷移具有直接的影響作用,各國及各地區(qū)之間經(jīng)濟發(fā)展的不平衡是構成人口遷移[6]的主要原因。通常,經(jīng)濟發(fā)展水平高的地區(qū)人口遷入率較高,而經(jīng)濟落后的地區(qū)遷出率高。所以在我們接下來的分析中,對于遷入率與遷出率的預測,使用2000—2010年的數(shù)據(jù),因為近幾年廣東省的經(jīng)濟發(fā)展趨于穩(wěn)定,且與目前影響人口變動的因素更加接近,所以使用近幾年的數(shù)據(jù)將更加具有說服力。而對于凈自然增長率,由于受人為因素的影響較少,則使用1982—2010年的數(shù)據(jù)。根據(jù)對數(shù)據(jù)的分析,2007年之前,遷入率在13%~18%之間波動,其中2004年和2006年達到兩個小高峰。但是,據(jù)查2004年和2006年廣東的經(jīng)濟發(fā)展沒有特殊的變化,故應屬于正常的波動。自2007年開始,遷入率持續(xù)下降,只有在2010年有個微小的波動,這主要是由于廣東省政府對人口總量的宏觀控制所致,因此遷入率主要由人為因素控制。有鑒于此,我們將采用最近三年也就是2008—2010年遷入率的平均值作為其未來十年的預測值。即遷入率的預測值=×(13.46+11.64+12.07)=12.39。遷出率的變化情況可以看出,除2004年明顯由13%下降到9%之外,2004年前后均相對平穩(wěn),但考慮到2004年并無重大事件發(fā)生,這一波動應是統(tǒng)計口徑不同或者是收集數(shù)據(jù)有出入造成的。從凈自然增長率的變化來看,1990年之前是比較穩(wěn)定的波動,從1990年開始連續(xù)20年出現(xiàn)負增長,這一現(xiàn)象的發(fā)生應與我國人口生育高峰的結束以及人口老齡化水平的上升有關。
下面利用ARIMA模型和ES模型,對廣東省未來10年戶籍人口的遷出率和凈自然增長率進行預測。首先畫了2000—2010年這段時間的遷出率和凈自然增長率,圖示顯示都不是平穩(wěn)的時間序列,所以在使用ARIMA模型的時候都是要進行差分使其變成平穩(wěn)的時間序列。同樣對遷出率也使用ES模型來預測,圖1和圖2顯示ARIMA模型和ES模型對遷出率的預測結果。
從上面的ARIMA模型和ES模型對出生率的預測來看,ES模型更加合理,對于遷出率的預測我們采用ES模型來預測,原因有以下幾點:首先從模型的AIC來看ARIMA模型所顯示的AIC=41.85,而ES模型的AIC=34.28279,由此可以看出ES模型更準確一些。其次,圖1可以看出ARIMA模型預測的結果基本保持在一個數(shù)值8.2,這和廣東省的實際情況是不吻合的。由于廣東省的發(fā)展,生活質量的提高,越來越多的人喜歡在廣東省居住,所以遷出的人數(shù)應該減少。綜上所述,對于出生率的預測ARIMA模型并不是很準確,所以采用ES模型來進行預測。對于凈自然增長率我們使用了ARIMA和ES模型,精確度上兩種方法都可以,保留了這兩種方法的預測結果。
未來廣東省戶籍人口總量的預測可以根據(jù)以上預測得到的遷入率、遷出率以及凈自然增長率來計算,計算公式為P(t)=P(t-1)?鄢I(t)-E(t)+G(t),其中P(t)是第t年的人口數(shù),P(t-1)是第t-1年的人口數(shù),I(t)是第t年的遷入率,E(t)是第t年的遷出率,G(t)是第t年的凈自然增長率。分別由ARIMA模型和ES模型得到的2011—2020年廣東省戶籍人口的總體數(shù)目見表1。
以上是ARIMA模型和ES模型在人口預測方面的應用,總的來說是非常實用且準確的兩種人口預測的方法。根據(jù)廣東省2015年的統(tǒng)計年鑒我們來看一下準確度,表1中是預測的人口總數(shù),而2015統(tǒng)計年鑒統(tǒng)計的廣東省2011—2014年的人口數(shù)分別為8637.19、8635.89、8759.46、8886.88,大家可以看一下其準確度還是挺高的,可以作為人口預測的兩種實用的方法。
參考文獻:
[1]薛毅,陳立萍.統(tǒng)計建模與R軟件[M].北京:清華大學出版社,2007:297-321.
[2]徐俊曉.統(tǒng)計學與R讀書筆記[M].第六版.2012:882-944.
[3]Introductory Time Series with R .Paul S.P.Cowpertwait,Andrew V.Metcalfe Publisher:Springer;1 edition(May 29,2009).
[4]王燕.應用時間序列分析[M].北京:中國人民大學出版社,2005.
[5]馮麗華.人口增長的綜合預測分析[J].系統(tǒng)工程,2001,(1):71-75.
[6]王振營.人口遷移規(guī)律——不同條件下人口遷移模型的研究[D].北京:中國人民大學,1993.