劉欣 蔡婧
摘要:人口遷移預(yù)測模型是深入研究人口遷移行為的基礎(chǔ)。現(xiàn)有遷移預(yù)測模型大多集中在單模型、單變量預(yù)測上,不能描述人口遷移行為的合力效應(yīng)。提出了一個新的人口遷移預(yù)測模型——GRBF,該模型包含兩個子模型:灰色模型和RBF模型?;疑P蜆?gòu)建于人口遷移的影響指標之上,為GRBF提供充分時間維度指標信息;RBF模型則接收灰色模型的輸出,計算人口遷移量的預(yù)測值。實例分析證明,GRBF支持人口遷移量預(yù)測,提供對預(yù)測數(shù)據(jù)的誤差分析,能夠有效預(yù)測人口遷移量的變化。
關(guān)鍵詞:灰色模型;RBF;GRBF;人口遷移預(yù)測
DOIDOI:10.11907/rjdk.151548
中圖分類號:TP301
文獻標識碼:A 文章編號文章編號:16727800(2015)008006403
0 引言
隨著我國市場化和城市化進程的穩(wěn)步推進,要素流動日趨頻繁,人口的遷移和流動愈加規(guī)?;?,已成為重要的社會經(jīng)濟現(xiàn)象。人口遷移現(xiàn)象受到人們越來越多的關(guān)注,很多學(xué)者進行了大量的研究,如何準確預(yù)測人口遷移量,已成為相關(guān)領(lǐng)域的重點課題[12]。當前,主要的人口遷移量預(yù)測方法包括Logistic回歸模型、多元線性回歸模型、神經(jīng)網(wǎng)絡(luò)預(yù)測方法和灰色預(yù)測模型等。其中,最受關(guān)注的是基于神經(jīng)網(wǎng)絡(luò)的人口遷移量預(yù)測方法。當代社會人口遷移的影響因素已多元化,包括就業(yè)、收入、生活、環(huán)境、資源等諸多因素,其相互間作用較復(fù)雜,具有非線性特征。神經(jīng)網(wǎng)絡(luò)極強的非線性映射特性,正好可以用來解決此類問題。不過國家人口統(tǒng)計的粒度往往是以年為單位,導(dǎo)致可用數(shù)據(jù)較少。而神經(jīng)網(wǎng)絡(luò)在對小數(shù)據(jù)集進行預(yù)測時會出現(xiàn)訓(xùn)練外延的問題。
針對上述問題,本文在神經(jīng)網(wǎng)絡(luò)預(yù)測模型中引入灰色預(yù)測模型[3],解決在數(shù)據(jù)少時的訓(xùn)練外延問題,建立一種優(yōu)化的人口遷移量預(yù)測模型。灰色預(yù)測模型利用累加生成后的新數(shù)據(jù)建模,在一定程度上弱化了原始數(shù)據(jù)的隨機性,容易找出數(shù)據(jù)變換規(guī)律。
1 灰色預(yù)測方法
灰色預(yù)測是指對結(jié)構(gòu)模糊、變化隨機、描述不完備的數(shù)據(jù)建立灰色模型所做的定量預(yù)測。灰色模型眾多,本文選用灰色模型GM(Grey Model)(1,1)。該模型主要應(yīng)用于時間序列預(yù)測,其實質(zhì)為一階單變量微分方程動態(tài)模型,其形式如下:
原始數(shù)據(jù)中一般都會包含噪聲,通過累加生成操作能夠大大削弱噪聲,突出系統(tǒng)所蘊涵的內(nèi)在規(guī)律,形成較有規(guī)律的單調(diào)遞增數(shù)列。對生成的數(shù)據(jù)列X(1)建立一階灰微分方程:dx(1)dt+ax(1)=u,其中,a、u為參數(shù),該灰微分方程的解為:
2 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò),是人工神經(jīng)網(wǎng)絡(luò)的簡稱,是一種模仿大腦神經(jīng)突觸聯(lián)接進行信息處理的數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)模型眾多,包括BP網(wǎng)絡(luò)、ART網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、RBF網(wǎng)絡(luò)等,本文選用收斂狀況較好的RBF網(wǎng)絡(luò)進行實證研究。
2.1 RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)RBF(radial basis function neural networks) 性能良好,可逼近非線性函數(shù),具有全局最佳逼近點[4],廣泛應(yīng)用于模式識別、非線性時間序列預(yù)測等場景。
RBF為三層前向型網(wǎng)絡(luò),包括輸入層、隱層和輸出層,具體構(gòu)成如圖 1,其中x=(x1,x2,...,xm)為輸入層,(φ1(x),φ2(x),...,φn(x))為隱層,y為輸出層,(ω1,ω2,...,ωn)為隱層與輸出層之間的連接權(quán)重。
圖1 RBF結(jié)構(gòu)
輸入層將所有數(shù)據(jù)輸入隱層,而隱層節(jié)點經(jīng)線性加權(quán)即可得到RBF的輸出。隱層通常選用徑向?qū)ΨQ非線性的高斯函數(shù)作為其徑向基函數(shù),用φi(x)表示。
φi(x)=exp-x-ci22σ2i
隱含節(jié)點輸出信息在輸出層中通過預(yù)設(shè)的權(quán)值線性加權(quán)后得到最終結(jié)果,即:
y=ω0+∑ni=1ωiexp-x-ci22σ2i
其中,x∈Rm為輸入向量,n為隱層節(jié)點數(shù)量,ci(1≤i≤n)為RBF的中心,x-ci 為向量x與ci之間的歐氏距離,σi為第i個隱含節(jié)點的基函數(shù)圍繞中心點的寬度。ωi(1≤i≤n)為線性加權(quán)的權(quán)重,ω0表示偏差。通過調(diào)整σi和ωi的值就可以實現(xiàn)對任何函數(shù)曲線的擬合。
2.2 RBF訓(xùn)練準則
RBF的訓(xùn)練方法主要有4種:直接計算法、自組織學(xué)習(xí)法[5]、有監(jiān)督學(xué)習(xí)法和正交回歸法[6]。本文選用自組織學(xué)習(xí)法,具體過程如下:
(1)假設(shè)存在N對樣本數(shù)據(jù)(xk,yk)(k=1,2,…,N),利用聚類方法[7]對樣本分類,定義存放各聚類的輸出和值的矢量為A,定義記錄各類所屬樣本數(shù)的矢量為B,定義高斯函數(shù)φ(x)的半徑為r。假設(shè)存在M個聚類中心,定義聚類中心為ci(1≤i≤M),對應(yīng)權(quán)重記為ωi(1≤i≤M)。
(2)根據(jù)聚類情況,嘗試不同的r,因為r的大小決定分類的精細程度,而分類的精細程度與算法效率又相關(guān),所以r取值是效率與精度權(quán)衡的結(jié)果。
(3)將第一個數(shù)據(jù)對(x1,y1)記為首個聚類中心,記cl=x1,A(l)=y1,B(1)=1,得到RBF網(wǎng)絡(luò)的一個中心為cl隱單元,其權(quán)矢量記為w1=A(1)/B(1)。
(4)關(guān)注第二個樣本數(shù)據(jù)對(x2,y2),求出x2到聚類中心cl的歐氏距離x2-c1,記為d2,d2不大于r時則x2屬于c1聚類,且A(1)=y1+y2,B(1)=2,w2=A(1)/B(1);d2大于r時則將x2記為新的聚類中心c2,即c2=x2,A(2)=y2,B(2)=l,得到RBF網(wǎng)絡(luò)一個新的隱單元,其權(quán)矢量記為w2=A(2)/B(2)。
(5)考慮第k個樣本數(shù)據(jù)對(xk,yk)(k=3,4,…N)時,上述RBF網(wǎng)絡(luò)中已找出L個隱單元。分別求出(xk,yk)到L個聚類中心的距離xk-ci(i=1,2,...,L),取最小距離,記為dk,其對應(yīng)的聚類中心記為cj,則dk不大于r時xk屬于cj聚類,且A(j)= A(j)+yk,B(j)= B(j)+1,wj=A(j)/B(j),否則將xk記為新的聚類中心cL+1,即cL+1=xk,A(L+1)=yk,B(L+1)=l,得到RBF網(wǎng)絡(luò)一個新的隱單元,其權(quán)矢量記為wL+1=A(L+1)/B(+1)。
(6)遍歷所有的樣本,完成隱單元構(gòu)建,進而完成RBF網(wǎng)絡(luò)的構(gòu)建,其數(shù)學(xué)表達式如下:
f(xk)=∑Mi=1ωiφ(xk-ci)∑Mi=1φ(xk-ci)
3 基于灰色模型的RBF人口遷移預(yù)測模型
3.1 模型架構(gòu)
考慮到灰色模型和RBF網(wǎng)絡(luò)的互補關(guān)系,基于這兩種算法,本文構(gòu)造了一種灰色RBF組合預(yù)測模型GRBF(Grey Radial Basis Function Neural Networks)。GRBF對GM(1,1)灰色模型和RBF作串聯(lián)組合,形成預(yù)測核心,即以GM(1,1)灰色模型的輸出作為RBF的輸入,實現(xiàn)數(shù)據(jù)的有效預(yù)測,具體流程如圖 2所示。
人口遷移規(guī)模與社會經(jīng)濟環(huán)境有著顯著的關(guān)系:遷移人口有從社會經(jīng)濟環(huán)境較差區(qū)域遷向社會經(jīng)濟環(huán)境較好區(qū)域的明顯趨勢。因此,社會經(jīng)濟環(huán)境是人口遷移的重要影響因素。為此,本文從社會經(jīng)濟環(huán)境角度,挑選出戶籍人口、居民消費價格指數(shù)、城鎮(zhèn)居民人均可支配收入、公共交通運營車輛、人均公園綠地面積、衛(wèi)生機構(gòu)和全市各類學(xué)校招生數(shù)共7個因素作為影響人口遷移的指標進行預(yù)測,分別將這7個指標的樣本數(shù)據(jù)輸入GM(1,1)模型作預(yù)測,獲取指標預(yù)測值,然后利用這7個指標的樣本數(shù)據(jù)對RBF進行訓(xùn)練,最后將指標預(yù)測值輸入GRBF模型,得到人口遷移量預(yù)測結(jié)果。GRBF模型包括1個GM(1,1)模型組(內(nèi)含7個GM(1,1)模型)和1個RBF模型,含7個輸入節(jié)點和1個輸出節(jié)點,隱層節(jié)點由算法動態(tài)選取。
3.2 算法步驟
(1)初始數(shù)據(jù)處理:對于戶籍人口、居民消費價格指數(shù)、城鎮(zhèn)居民人均可支配收入、公共交通運營車輛、人均公園綠地面積、衛(wèi)生機構(gòu)和全市各類學(xué)校招生數(shù)的原始序列采用p1、p2、p3、p4、p5、p6、p7分別表示,作為研究數(shù)據(jù)序列。用p表示城鎮(zhèn)人口凈遷入,其內(nèi)涵為城鎮(zhèn)戶籍人口凈遷入數(shù)量與暫住人口數(shù)量的加總。
(2)指標預(yù)測:對7個研究數(shù)據(jù)序列GM(1,1)模型組進行預(yù)測,得到相應(yīng)的指標預(yù)測值。
(3)生成訓(xùn)練樣本集:標準化步驟(1)得到研究數(shù)據(jù)序列,消除量綱影響,具體計算方式為=x-S,其中為指標序列數(shù)據(jù)的均值、S為指標序列的標準差。組合標準化后的研究數(shù)據(jù)序列,生成RBF網(wǎng)絡(luò)的輸入x、輸出樣本y,具體為x=1,2,3,4,5,6,7T,y=。
(4)訓(xùn)練RBF網(wǎng)絡(luò):將樣本數(shù)據(jù)輸入RBF網(wǎng)絡(luò),循環(huán)學(xué)習(xí)至誤差達到預(yù)期。
(5)GRBF模型預(yù)測:將標準化步驟(2)所得的研究數(shù)據(jù)序列預(yù)測值,輸入(4)中已訓(xùn)練完成的RBF網(wǎng)絡(luò),輸出預(yù)測結(jié)果。
4 GRBF在北京人口遷移預(yù)測中的應(yīng)用
以城鎮(zhèn)戶籍人口凈遷入數(shù)量和暫住人口數(shù)量之和,作為人口遷移規(guī)模的表征,并命名為城鎮(zhèn)人口凈遷入。
為了使評價結(jié)果更為合理準確,有效剔除主觀因素,使分析結(jié)果盡量客觀反映人口經(jīng)濟實際狀況,且保證原始數(shù)據(jù)統(tǒng)計口徑一致,文中所選用的原始數(shù)據(jù)均取自《北京市統(tǒng)計年鑒》(1995~2013)[8]。為檢驗文中GRBF模型的預(yù)測性能,我們?nèi)∷兄笜俗兞?994~2003年的數(shù)據(jù)作為訓(xùn)練樣本,2003~2012年數(shù)據(jù)作為檢驗樣本。
為檢驗新模型方法的預(yù)測能力,選用RBF模型、GM(1,1)模型、Logistic模型作為陪測模型,對2003~2012年的城鎮(zhèn)人口凈遷入進行預(yù)測,并將三種陪測模型的預(yù)測結(jié)果與GRBF模型的預(yù)測結(jié)果進行比較。
3種陪測模型與GRBF模型對2003~2012年的預(yù)測結(jié)果對照如圖 3所示,具體預(yù)測結(jié)果如表 1所示。從表 1結(jié)果可以看出,基于GRBF模型方法的整體誤差最?。ㄕ`差為相對誤差,即(預(yù)測值-實測值)/實測值*100),預(yù)測穩(wěn)定性最好,能較好反映數(shù)據(jù)的變化趨勢,因此檢驗結(jié)果證實GRBF模型方法具有一定的實用價值。
參考文獻:
[1] YEN TSENG HSU,CHYUN SHIN CHENG,CHWAN CHIA WU.Grey dynamic modeling and prediction control of macroecnomic system[J].Journal of Grey System,1997,9(3):6772.