蘇理云,殷勇,李晨龍
(重慶理工大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400054)
應(yīng)用多項(xiàng)式系數(shù)統(tǒng)計(jì)模型的人口預(yù)測(cè)
蘇理云,殷勇,李晨龍
(重慶理工大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400054)
首先將全國1985—2010年人口數(shù)據(jù)分成兩部分,對(duì)1985—2010年人口數(shù)據(jù)進(jìn)行處理;然后以人口年增長(zhǎng)量為樣本建立多項(xiàng)式系數(shù)模型,根據(jù)BIC準(zhǔn)則,利用最小二乘法和嶺回歸方法對(duì)模型進(jìn)行參數(shù)估計(jì);最后根據(jù)回歸方程對(duì)2009—2010年人口數(shù)據(jù)進(jìn)行預(yù)測(cè)。根據(jù)1985—2008年人口數(shù)據(jù)得到當(dāng)階數(shù)p=7,次數(shù)r=1,延遲d=6時(shí)人口預(yù)測(cè)效果最佳,擬合精度為8.308 5e-5。同時(shí)模型對(duì)2007—2010年人口的預(yù)測(cè)誤差率分別為0.000 8%、0.013 4%、0.033 0%、0.064 1%。研究結(jié)果顯示:該方法在人口預(yù)測(cè)方面優(yōu)于BP神經(jīng)網(wǎng)絡(luò)、GM(1,1)等方法。
多項(xiàng)式系數(shù)模型;BP神經(jīng)網(wǎng)絡(luò);人口預(yù)測(cè);最小二乘法;嶺回歸
人口數(shù)量的研究是國家和地區(qū)在制定經(jīng)濟(jì)發(fā)展政策、環(huán)境可持續(xù)發(fā)展綱要和城市發(fā)展規(guī)劃時(shí)的重要參考,準(zhǔn)確合理的人口預(yù)測(cè)對(duì)于國家的發(fā)展和城市建設(shè)有重要的意義[1]。近幾十年,中國人口形勢(shì)已由政策實(shí)施前的慣性快速增長(zhǎng)引起的人口急劇膨脹轉(zhuǎn)變?yōu)槎嗄甑蜕接绊懴碌木徛鲩L(zhǎng),進(jìn)而在生育水平持續(xù)超低的情況下面臨著人口峰值急速下降、人口總量急劇慣性縮減的趨勢(shì)[2-4]。人口的增長(zhǎng)是個(gè)復(fù)雜的非線性系統(tǒng),受經(jīng)濟(jì)、政策、自然等多種因素的影響。在線性回歸人口預(yù)測(cè)模型之后,涌現(xiàn)很多用于人口增長(zhǎng)研究的參數(shù)和非參數(shù)模型,如灰色模型、馬爾薩斯模型、宋健模型以及神經(jīng)網(wǎng)絡(luò)模型等[5-9]。馬爾薩斯模型和宋健模型精度好,但所涉及的預(yù)測(cè)變量較多,增加了決策者應(yīng)用模型的難度;神經(jīng)網(wǎng)絡(luò)模型雖然有著較好的學(xué)習(xí)能力,但在原始數(shù)據(jù)的選擇、隱含層的設(shè)計(jì)、因素的選取等方面都會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生很大的影響;多項(xiàng)式系數(shù)模型是建立在AR模型上的新型非線性算法,保留了原有的AR模型的優(yōu)點(diǎn),且提高了對(duì)非線時(shí)間序列的擬合和預(yù)測(cè)能力,取得廣泛的應(yīng)用[10]。本文將全國1985—2010年人口數(shù)據(jù)分成兩部分:對(duì)1985—2006年人口數(shù)據(jù)進(jìn)行處理,以人口年增長(zhǎng)量為樣本建立多項(xiàng)式系數(shù)模型,對(duì)模型參數(shù)進(jìn)行估計(jì);對(duì)2007—2010年人口數(shù)據(jù)進(jìn)行預(yù)測(cè),并與人工神經(jīng)網(wǎng)絡(luò)等模型的預(yù)測(cè)結(jié)果進(jìn)行比較。
1.1 模型形式
針對(duì)零均值、歸一化的時(shí)間序列{xt,t∈N},多項(xiàng)式系數(shù)函數(shù)模型如下:
其中:p是自回歸階數(shù);d是指定模型依賴變量,r是系數(shù)多項(xiàng)式的最高階次;{εt,t∈N}是獨(dú)立同分布的隨機(jī)序列,εt與xt相互獨(dú)立。模型簡(jiǎn)記為PCAR p,d,()r。
記系數(shù)矩陣A為
1.2 模型的參數(shù)估計(jì)
將式(2)代入式(1)得
1.3 模型的建模算法
算法步驟:
步驟1對(duì)數(shù)據(jù)進(jìn)行零均值、歸一化處理,得到{x1,x2,…xn}。
步驟2輸入p,r所允許的最大值pmax,rmax。
步驟3對(duì)步驟4執(zhí)行p=1∶pmax循環(huán)。
步驟4對(duì)步驟5執(zhí)行d=1∶p循環(huán)。
步驟5對(duì)步驟6執(zhí)行r=1∶rmax循環(huán)。
步驟6構(gòu)造H和W,利用式(7)求出A^,進(jìn)而由式(5)求出Summin,然后輸出BIC的值。
步驟7找出與最小的BIC值對(duì)應(yīng)的p,d,r,輸出模型。
步驟8使用步驟7得出的最佳模型對(duì)數(shù)據(jù)進(jìn)行擬合和預(yù)測(cè)。
步驟9輸出結(jié)果,畫出效果圖,完畢。
2.1 矩陣奇異
2.2 p,d,r的選取
PCAR模型有著較強(qiáng)的適應(yīng)能力,能夠隨著數(shù)據(jù)量的變化自行修正p,d,r。搜索使得BIC值最小的p,d,r的方法有很多種,本文中算法采用的是將BIC(p,d,r)存儲(chǔ)為一個(gè)三維矩陣,然后將其按照rr=r+1=1:rmax+1展開并合并成一個(gè)矩陣,然后找出矩陣中的第1個(gè)最小值的位置,進(jìn)而算出其p,d,r。具體算法如下:
這就可以使PCAR增強(qiáng)其自適應(yīng)能力。
3.1 數(shù)據(jù)來源
本文數(shù)據(jù)來自中國人口統(tǒng)計(jì)年鑒(1985—2010),見表1。
表1 人口數(shù)據(jù)萬人
3.2 數(shù)據(jù)處理與建模
將表1中的數(shù)據(jù)記為時(shí)間序列()z i,其中i= 1,2,…,26分別對(duì)應(yīng)年份1985,1986…,2010。則年增量
首先,將數(shù)據(jù)()x j分為兩部分,其中前21個(gè)數(shù)據(jù)作為訓(xùn)練樣本,后4個(gè)數(shù)據(jù)作為檢驗(yàn)數(shù)據(jù)。
然后,對(duì)x零均值歸一化后將其輸入模型,并給定Pmax=7,rmax=4。經(jīng)過計(jì)算得出在p=7,d= 6,r=1時(shí)模型模擬效果最佳。
最后,對(duì)x進(jìn)行一步預(yù)測(cè),并還原成人口數(shù)據(jù)與真實(shí)的人口數(shù)據(jù)進(jìn)行對(duì)比。
算法流程見圖1。
圖1 算法流程
3.3 結(jié)果
3.3.1 建模結(jié)果
建模結(jié)果如圖2所示。
由于p=7,所以沒有對(duì)前7年的擬合。擬合最小均方誤差為8.308 5e-5,說明多項(xiàng)式系數(shù)模型對(duì)人口的擬合精度很高。
圖2 擬合效果
3.3.2 預(yù)測(cè)結(jié)果與對(duì)比
多項(xiàng)式系數(shù)模型對(duì)2007—2010年的人口預(yù)測(cè)效果圖見圖3,和其他方法預(yù)測(cè)的數(shù)據(jù)對(duì)比見表2[12],預(yù)測(cè)數(shù)據(jù)與真實(shí)數(shù)據(jù)的殘差見表3。
圖32005 —2008年預(yù)測(cè)值與真實(shí)值對(duì)比
表2 人口預(yù)測(cè)對(duì)比萬人
表3 人口預(yù)測(cè)殘差
由表3可以看出:PCAR模型的預(yù)測(cè)殘差明顯小于其他3種方法;PCAR模型的預(yù)測(cè)誤差率分別為0.000 8%,0.013 4%,0.033 0%,0.064 1%;BP方法的誤差率為0.143 0%,0.234 9%,0.329 7%,0.448 2%??梢?,PCAR方法總體誤差率比BP方法更小更穩(wěn)定。
中國是一個(gè)經(jīng)濟(jì)高速發(fā)展的人口大國,對(duì)人口進(jìn)行準(zhǔn)確預(yù)測(cè)是國家規(guī)劃經(jīng)濟(jì)發(fā)展、進(jìn)行宏觀調(diào)控制定人與環(huán)境和諧發(fā)展的重要參考。
本文通過對(duì)1985—2006年人口數(shù)據(jù)年增長(zhǎng)量建模,運(yùn)用最小二乘法和嶺回歸方法對(duì)PCAR模型參數(shù)進(jìn)行計(jì)算,并根據(jù)BIC準(zhǔn)則選擇階數(shù)p= 7,次數(shù)r=1,延遲d=6。擬合精度為8.308 5e-5。模型對(duì)2007—2010年人口的預(yù)測(cè)誤差率分別為0.000 8%,0.013 4%,0.033 0%,0.064 1%。預(yù)測(cè)結(jié)果顯示:該方法在人口預(yù)測(cè)方面優(yōu)于BP神經(jīng)網(wǎng)絡(luò)、GM(1,1)等方法。
[1]劉萌偉,黎夏,劉濤.基于基因表達(dá)式編程的人口預(yù)測(cè)模型[J].中山大學(xué)學(xué)報(bào),2010,49(6):115-120.
[2]劉義.生育控制與中國人口新矛盾[J].重慶理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2011,25(12):28-35.
[3]張彬斌.新中國60年人口發(fā)展軌跡:兼談中國未來勞動(dòng)力供給[J].重慶理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2010,24(8):33-38.
[4]許雄奇,陶磊,章曉英.財(cái)政赤字、人口結(jié)構(gòu)與國民儲(chǔ)蓄[J].重慶理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2010,24(1): 41-48.
[5]湯江龍,趙小敏.土地利用規(guī)劃中人口預(yù)測(cè)模型的比較研究[J].中國土地科學(xué),2005,19(2):14-20.
[6]劉兆雷,劉西雷.人口規(guī)模預(yù)測(cè)的GM(1,1)模型應(yīng)用初探[J].資源開發(fā)與市場(chǎng)研究,1999,15(1):25-26.
[7]楊青生.基于灰色系統(tǒng)理論的廣州市人口預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2009(11):49-51.
[8]賴紅松.基于灰色預(yù)測(cè)和神經(jīng)網(wǎng)絡(luò)的人口預(yù)測(cè)[J].經(jīng)濟(jì)地理,2004,24(2):197-201.
[9]王爭(zhēng)艷,潘元慶,皇甫光宇,等.城市規(guī)劃中的人口預(yù)測(cè)方法綜述[J].資源開發(fā)與市場(chǎng),2009,25(3):237-240.
[10]呂永樂.一種新的統(tǒng)計(jì)預(yù)測(cè)模型——多項(xiàng)式系數(shù)自回歸模型[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(3)237-241.
[11]Olivier C,Colot O,Courtellemont P.Information criteria for modeling and identification[C]//20th International Conf on Industral Electronics,Control and Instrumentation.1994:1813-1818.
[12]賈楠,胡紅萍,白艷萍.基于BP神經(jīng)網(wǎng)絡(luò)的人口預(yù)測(cè)[J].山東理工大學(xué)學(xué)報(bào),2011,25(3):22-24.
(責(zé)任編輯 劉舸)
Population Prediction Based on Polynomial Coefficient Statistical Model
SU Li-yun,YIN Yong,LI Chen-long
(School of Mathematics and Statistics,
Chongqing University of Technology,Chongqing 400054,China)
We divided the data of population during 1985 to 2010 into two parts.We built polynomial coefficient auto regressive(PCAR)model based on annual increment.And we predicted the population of 2009—2010 with the estimated regression model,according to BIC.We used least squares method and ridge regression to get the optimal model when p=7,r=1 and d=6,according to the data of 1985—2008.The fitting accuracy was 8.308 5e-5.The error rates of the PCAR model of 2007—2010 were 0.000 8%,0.013 4%,0.033 0%,and 0.064 1%.The result of prediction explained that the polynomial coefficient autoregressive model was better than BP neural network,GM(1,1)model.
polynomial coefficient autoregressive(PCAR)model;BP neural network;population prediction;least squares method
O21
A
1674-8425(2014)04-0138-05
10.3969/j.issn.1674-8425(z).2014.04.029
2014-01-18
重慶市科委自然科學(xué)基金資助項(xiàng)目(CSTC2010BB2310,CSTC2011jjA40033,,CSTC2012jjA00037);重慶市教委科學(xué)技術(shù)研究項(xiàng)目(KJ120829);重慶市教委研究生教育教學(xué)改革研究項(xiàng)目(Yjg133029);重慶理工大學(xué)研究生教育教學(xué)改革研究項(xiàng)目(yjg2012208)
蘇理云(1977—),男,博士,副教授,主要從事應(yīng)用統(tǒng)計(jì)研究。
蘇理云,殷勇,李晨龍.應(yīng)用多項(xiàng)式系數(shù)統(tǒng)計(jì)模型的人口預(yù)測(cè)[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2014 (4):138-142.
format:SU Li-yun,YIN Yong,LI Chen-long.Population Prediction Based on Polynomial Coefficient Statistical Model[J].Journal of Chongqing University of Technology:Natural Science,2014(4):138-142.