韓玉濤,楊萬才,武新乾
(河南科技大學數(shù)學與統(tǒng)計學院,河南洛陽 471003)
中國人口預測的模型有很多種,常用的有Logistic模型、Leslie模型、灰色模型、BP神經(jīng)網(wǎng)絡模型、線性時間序列模型等[1-4]。傳統(tǒng)的線性模型在實際應用中往往存在設定誤差,而非參數(shù)回歸模型則假定變量關系未知,要對回歸函數(shù)進行估計,因而能更好擬合樣本數(shù)據(jù),并對數(shù)據(jù)做出較為精確的預測,因此得到了廣泛的應用[5]。鞏永麗等基于核估計對中國人口增長率建立了非參數(shù)自回歸模型[6];張慧芳等利用正交序列估計對中國人口建立了非參數(shù)模型[7]。
半?yún)?shù)模型融合了非參數(shù)模型和線性模型的優(yōu)點,受到了諸多學者的廣泛關注。近年來,半?yún)?shù)方法在人口建模中也有所應用。姜愛平等對中國人口總量建立具有外生變量的半?yún)?shù)自回歸模型,用核估計對模型中的非參數(shù)函數(shù)進行估計[8]。該方法屬于局部方法,它不能給出所擬合模型的簡單顯式表達式,計算量大并且運行時間較長,而多項式樣條估計是全局光滑方法,能較好地克服上述核估計的弊端[9],因此本文提出基于多項式樣條估計的半?yún)?shù)自回歸模型,并對中國人口進行預測。
首先對中國 1949~2003年人口建立線性自回歸模型,用最小二乘估計建立線性自回歸方程;其次基于線性回歸選擇顯著滯后變量,利用最小二乘和多項式樣條方法估計半?yún)?shù)自回歸模型中的參數(shù)向量和非參數(shù)函數(shù),建立半?yún)?shù)自回歸方程;最后基于建立的半?yún)?shù)自回歸模型對中國 2004~2009年人口數(shù)據(jù)進行預測分析,并且與線性模型及Logistic模型、Leslie模型、灰色神經(jīng)網(wǎng)絡模型的預測結果進行了對比分析。
本文中用到的原始人口數(shù)據(jù)來源于中國國家統(tǒng)計局。由 Matlab7.0對中國1949~2008年60個原始人口數(shù)據(jù)進行做圖處理,得到圖1。從圖1可以看到數(shù)據(jù)是不平穩(wěn)的。根據(jù)線性自回歸模型的要求,對原始人口數(shù)據(jù)做對數(shù)處理,再進行二次差分。若記{Yt}為中國總?cè)丝谛蛄?{▽2ln(Yt)}為對數(shù)后二次差分序列,令Wt=▽2ln(Yt)-其中,為{▽2ln(Yt)}的均值;▽為差分符號;則 {Wt}為零均值序列,見圖2所表示的序列。
從圖2可直觀的判斷序列{Wt}是平穩(wěn)的。為進一步說明序列的平穩(wěn)性,再進行游程檢驗[10]。游程總數(shù)r=24,序列長度 N=53,“+”和“-”出現(xiàn)的次數(shù)分別為N1=25,N2=28。
用AIC,BIC準則及殘差方差來確定階數(shù),由MATLAB運行結果(見圖3和圖4),可確定滯后7階是較為理想的。
再用F檢驗法[9]檢驗線性自回歸模型AR(p)的階數(shù)。首先對{Wt}分別擬合AR(6)和AR(7)模型,兩種模型的殘差平方和Q1和 Q0分別為0.001 6和0.001 3,則
其中,S為舍棄因子的個數(shù);N為樣本容量;r為回歸因子個數(shù)。給定顯著性水平α=0.05,查 F分布表得Fα(1.46)=4.05,F>>Fα,說明AR(6)和AR(7)有顯著的差異,模型階數(shù)有上升的可能。再擬合AR(8)模型,其殘差平方和為0.001 3,與AR(7)比較有:
同理查表得Fα(1.45)=4.05,F<<Fα,故AR(7)與AR(8)沒有顯著差異,即選擇AR(7)是合適的。
根據(jù)1.1中平穩(wěn)化處理后的1951~2003年數(shù)據(jù),對平穩(wěn)序列{Wt}建立AR(7)模型,用最小二乘估計確定其中的參數(shù),建立回歸方程:
對建立的自回歸方程(1)中各變量進行顯著性檢驗,在顯著性水平α=0.05下,只有Wt-2,Wt-5, Wt-7的系數(shù)是顯著的(見表1)。
選取顯著性變量Wt-2,Wt-5和 Wt-7,重新估計相應系數(shù),得到線性回歸方程:
方程(2)的殘差平方和為0.001 7,與方程(1)比較,同上做F檢驗,得F=2.83<Fα=4.05,說明兩個線性自回歸方程沒有顯著差異。
表1 方程(1)各變量系數(shù)的顯著性檢驗
通過計算得Q=7.66,在顯著性水平α= 0.05下,查表得(4)=9.49,Q<(7-3),說明 εt是獨立的,即模型是合適的,可選取方程(2)對中國 2004~2009年人口進行預測。
其中,Yt為被解釋變量;α是線性部分未知參數(shù)向量;Xt=(Xt1,…,Xtp)T=(Yt-1,…,Yt-p)T為解釋性變量,線性主部把握被解釋變量的大勢走向;Zt=(Zt1,…,Ztq)T=(Yt-p-1,…,Yt-p-q)T,g()為未知非參數(shù)光滑函數(shù),對被解釋變量作局部調(diào)整;隨機誤差序列εt獨立同分布且滿足:E(εt)=0;Var(εt)=σ2<∞,且εt與Ys(s<t)相互獨立。
對非參數(shù)函數(shù)估計的方法有很多種,鑒于引言部分所述多項式樣條估計的優(yōu)點,本文采用多項式樣條估計對模型(3)中的非參數(shù)函數(shù)g()進行估計。
僅考慮緊區(qū)間[a,b]上的估計。不妨記具有結點序列a=z0<z1<…<zNn<ZNn+1=b的k次多項式樣條空間為Sk,Nn,其基函數(shù)Bs()為
即存在一組基函數(shù)Bs()和常數(shù)βs(s=1,…,K),使得g(z)≈
其中β=(β1,…,βK)T,可得α和β的估計分別為α=(α1,…,αd)T和β=(β1,…,βK)T。從而得到g的 βsBs(z)。最小化估計值這時α和g分別為 α和 g的樣條估計,詳細內(nèi)容可參看文獻[9]。
基于線性回歸選取的顯著性變量,分別選取滯后 2階、5階和 7階做為非參數(shù)部分,其余二變量做為線性部分,由MATLAB 7.0運行結果,得到相應的半?yún)?shù)自回歸方程:
表2給出了半?yún)?shù)模型對人口建模使用的平穩(wěn)序列{Wt}及對總?cè)丝谛蛄衶Yt}擬合與預測的均方誤差。從表2可以看到:方程(4)對 1958~2003年的人口的平穩(wěn)序列的擬合及總?cè)丝诘臄M合均方誤差都最小,但是方程(5)對 2005~2008年的平穩(wěn)序列{Wt}和總?cè)丝谛蛄衶Yt}的預測的均方誤差最小,因此選取方程(5)與線性回歸方程(2)做對比。
選取線性回歸方程(2)與半?yún)?shù)自回歸方程(5)分別對2004~2009年人口進行預測(見表3)。
表3 線性自回歸模型和半?yún)?shù)回歸模型對 2004~2009年人口預測結果
從表3可以看到:線性模型的短期(2年)預測效果還是比較好的,但是隨著年數(shù)的增加,預測誤差遞增的速度比較快。從第 1年誤差的 33萬人很快的增長到第 6年的 489萬人。相對于線性自回歸模型,半?yún)?shù)自回歸模型對人口中預測精度明顯較高,雖然誤差也在逐年增大,但是預測 6年的誤差約為線性的1/5.6、1/2.6、1/24.4、1/13.8、1/5.6、1/3.7。
半?yún)?shù)自回歸模型和其他模型對中國 2005~2008年人口預測的結果進行對比(見表4)。
表4 幾種模型對中國2005~2008年人口的預測 萬人
從表4中可以看到:Logistic模型和灰色神經(jīng)網(wǎng)絡模型對人口預測的精度較高,但是半?yún)?shù)自回歸模型的預測精度還是更高一些。
表5 半?yún)?shù)回歸模型對2010~2013年人口進行預測 萬人
最后,利用半?yún)?shù)自回歸模型對中國 2010~2013年人口進行預測(見表5)。
本文基于時間序列分析、半?yún)?shù)線性回歸和非參數(shù)的多項式樣條估計理論,建立中國人口的線性自回歸模型和半?yún)?shù)自回歸模型。對中國人口進行預測,半?yún)?shù)模型與傳統(tǒng)的線性模型、Logistic、Leslie等模型相比,半?yún)?shù)自回歸模型能夠給出所擬合數(shù)據(jù)的顯式表達式,計算量小,運行時間較快,并且預測精度也有所提高。
[1] 王學保,蔡果蘭.Logistic模型的參數(shù)估計及人口預測[J].北京工商大學學報:自然科學版,2009,27(6):75-78.
[2] 陳文權,趙茲,李得勝.Leslie修正模型在人口預測中的應用[J].世界科技研究與發(fā)展,2008,30(2):219-224.
[3] 李國成,吳濤,徐沈.灰色人工神經(jīng)網(wǎng)絡人口總量預測模型及應用[J].計算機工程與應用,2009,45(16):215-218.
[4] 彭志捌.AR(p)模型在中國總?cè)丝陬A測中的應用[J].河北工程大學學報:自然科學版,2007,24(4):109-112.
[5] 葉阿忠.非參數(shù)計量經(jīng)濟學[M].天津:南開大學出版社,2003.
[6] 鞏永麗,張德生,武新乾.人口增長率的非參數(shù)自回歸預測模型[J].數(shù)理統(tǒng)計與管理,2007,26(5):769-764.
[7] 張慧芳,張德生,武新乾,等.我國人口總量的非參數(shù)預測模型[J].延邊大學學報:自然科學版,2007,33(2):90-93.
[8] 姜愛平,張德生,武新乾,等.預測我國人口總量的具有外生變量的半?yún)?shù)自回歸模型[J].河南科技大學學報:自然科學版,2007,28(1):97-100.
[9] 武新乾,田錚,韓四兒.具有外生變量部分線性自回歸模型的樣條估計[J].數(shù)學年刊,2007,28A(3):377-386.
[10] 王振龍.時間序列分析[M].北京:中國統(tǒng)計出版社,2000.