吳 宇,孫宏宇,孫明辰,王洪君
(吉林師范大學(xué) 計(jì)算機(jī)學(xué)院,吉林 四平 136000)
人口遷移這一社會(huì)現(xiàn)象目前已經(jīng)引起多學(xué)科交融研究領(lǐng)域?qū)W者的關(guān)注,從圖1、圖2可以看出,各個(gè)省份的凈人口流動(dòng)數(shù)量與自然增長(zhǎng)率趨勢(shì)截然不同。數(shù)據(jù)表明各地區(qū)的人口數(shù)量變化情況是受條件影響的,并不完全取決于人口基數(shù),受人口遷移的影響也十分顯著。進(jìn)行人口遷徙預(yù)測(cè)可以更好的把握地區(qū)人口變化情況以及地區(qū)城市化情況,對(duì)社會(huì)經(jīng)濟(jì)發(fā)展具有重要指導(dǎo)意義。因此,進(jìn)行人口遷徙預(yù)測(cè)研究勢(shì)在必行。但目前研究上存在一些不足,一方面城市參數(shù)眾多,應(yīng)用現(xiàn)有技術(shù)將其統(tǒng)計(jì)可以輕易實(shí)現(xiàn),但其中摻伴的無(wú)效數(shù)據(jù),不僅無(wú)形中提高了實(shí)驗(yàn)的能耗,也造成了數(shù)據(jù)混淆;另一方面,傳統(tǒng)的人口流動(dòng)預(yù)測(cè)方法大多是根據(jù)經(jīng)濟(jì)、政策等理論來(lái)總結(jié)人口流動(dòng)規(guī)律加以預(yù)測(cè)。如:流動(dòng)人口的規(guī)模總量和結(jié)構(gòu)形式隨經(jīng)濟(jì)體發(fā)展變遷的規(guī)律、城市收入水平和公共服務(wù)能力差異,是吸引外來(lái)人口流入的首要因素等等[1]。但無(wú)論使用什么方法,其根本在于分析人口流動(dòng)情況和其影響因素之間的關(guān)系,并通過(guò)該關(guān)系構(gòu)建模型或形成理論預(yù)測(cè)未來(lái)人口變化情況。
數(shù)據(jù)來(lái)源:國(guó)家統(tǒng)計(jì)局發(fā)布
數(shù)據(jù)來(lái)源:國(guó)家統(tǒng)計(jì)局發(fā)布
隨著科技的發(fā)展,通過(guò)人工智能的方法進(jìn)行大數(shù)據(jù)分析預(yù)測(cè)城市人口,可以節(jié)省大量的時(shí)間以及資源的消耗。數(shù)據(jù)的獲取以及預(yù)測(cè)算法的選擇在很大程度上影響著預(yù)測(cè)結(jié)果的精確性,不同模型對(duì)于人口的預(yù)測(cè)結(jié)果也不同[2]。本文旨在提出一種PDTR預(yù)測(cè)模型,通過(guò)使用人工智能算法,總結(jié)出人口流動(dòng)與影響其發(fā)生變化的城市參數(shù)之間的關(guān)系并形成模型,以進(jìn)行對(duì)各省份未來(lái)人口流動(dòng)情況的預(yù)測(cè)。
PCA方法可以利用降維思想抓住所要研究問(wèn)題的主要矛盾,簡(jiǎn)化復(fù)雜問(wèn)題,使研究效率得到提高[3]。
本文從燃?xì)?、供水、供熱、公共交通、城市市容、綠地園林等7個(gè)方面中,選取46項(xiàng)城市參數(shù)指標(biāo),由于在選擇訓(xùn)練樣本時(shí),各個(gè)樣本指標(biāo)之間的可能相關(guān)性較高, 所以可能導(dǎo)致樣本信息過(guò)度重復(fù)的情況 , 這時(shí)就需要借助 PCA 方法來(lái)概括諸多信息的主要方面 ,對(duì)樣本指標(biāo)信息進(jìn)行降維。通過(guò)這些綜合指標(biāo)相互獨(dú)立地代表某一方面的性質(zhì) , 從而改進(jìn)訓(xùn)練樣本的有效性[4]。
將現(xiàn)有m個(gè)城市指標(biāo)參數(shù)組成的原始數(shù)據(jù)集,分別用I1,I2,...,Im表示,由這m個(gè)城市參數(shù)指標(biāo)組成了m維隨機(jī)向量I=(I1,I2,...,Im),設(shè)α為隨機(jī)向量I均值;隨機(jī)向量I線性變換成新的綜合變量,用D表示。新綜合變量D與原始變量I線性關(guān)系由公式(1)表示[5]:
(1)
式中:系數(shù)αij可以根據(jù)下面幾個(gè)原則來(lái)確定:
(1)α112+α122+...+α1m2=1(i=1,2,…,m);
(2)Di與Dj(i≠j;i,j=1,2,…,n)線性無(wú)關(guān);
(3)D1為I1,I2,...,Im所有線性組合中方差最大者;D2為與D1不相關(guān)的I1,I2,...,Im的所有線性組合中方差最大者;Dn為D1,D2,...,Dn-1都不相關(guān)的線性組合中方差最大者。
這樣確定的新變量指標(biāo)D1,D2,...,Dn分別稱為原變量指標(biāo)I1,I2,...,Im的第1主成分,第2主成分,...,第n主成分。其中,D1,D2,...,Dn的方差依次減小。實(shí)際問(wèn)題分析時(shí),常挑選前面幾個(gè)最大的主成分,這樣既可以減少變量的數(shù)目,又抓住了問(wèn)題的主要矛盾,簡(jiǎn)化了各變量之間的關(guān)系[6]。
本文最終使用PCA的fit方法,對(duì)全部訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,得到訓(xùn)練好的PCA模型。輸入格式為fit(X),其中X是預(yù)處理后的訓(xùn)練集數(shù)據(jù)樣本。通過(guò)PCA的transform方法將全部訓(xùn)練數(shù)據(jù)進(jìn)行變換,得到經(jīng)過(guò)主成分分析后的特征。輸入格式為transform(X),其中X是待轉(zhuǎn)換的數(shù)據(jù),也是后續(xù)決策樹(shù)分析的輸入數(shù)據(jù)。
決策樹(shù)是一種樹(shù)形結(jié)構(gòu)的分類(lèi)與回歸方法[7],其目的是通過(guò)對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),找出特征和類(lèi)別之間的關(guān)系。一旦這種關(guān)系被找出,就能用其來(lái)預(yù)測(cè)未知類(lèi)別數(shù)據(jù)的類(lèi)別。本文使用決策樹(shù)回歸分析方法進(jìn)行回歸分析,所謂“決策”就是進(jìn)行一次選擇,每進(jìn)行一次選擇實(shí)質(zhì)上就是對(duì)特征空間進(jìn)行一次劃分,每劃分出一個(gè)單元該單元就會(huì)有一種特定的輸出[8]。而劃分或做“決策”的過(guò)程就是建立決策樹(shù)的過(guò)程。本文使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化和主成分分析(PCA)進(jìn)行數(shù)據(jù)與處理,對(duì)預(yù)處理后的數(shù)據(jù)使用決策樹(shù)回歸模型(Decision Tree Regression)進(jìn)行回歸分析,以得到預(yù)測(cè)模型。具體流程如圖3所示。
圖3 PDTR模型的總體設(shè)計(jì)方案流程圖
實(shí)現(xiàn)步驟如下:
(1)對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理,其中包括數(shù)據(jù)清洗和標(biāo)準(zhǔn)化;
(2)對(duì)處理后的數(shù)據(jù)進(jìn)行主成分分析,得到降維后數(shù)據(jù);
(3)使用降維后數(shù)據(jù)訓(xùn)練決策樹(shù)模型;
(4)對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)得到結(jié)果,若結(jié)果達(dá)到標(biāo)準(zhǔn)則保存模型對(duì)真實(shí)數(shù)據(jù)進(jìn)行預(yù)測(cè),否則修改主成分分析和決策樹(shù)回歸模型的參數(shù),返回步驟(3)繼續(xù)進(jìn)行第三步操作。
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)源于2006~2017年《中國(guó)統(tǒng)計(jì)年鑒》,從各年的數(shù)據(jù)中選取供熱、供水、燃?xì)狻⒊鞘惺腥?、公共交通、綠地園林等6大類(lèi)城市參數(shù)指標(biāo),共45小項(xiàng)數(shù)據(jù)類(lèi)別進(jìn)行分析,將各年的出生率、死亡率、年增長(zhǎng)率和6大類(lèi)城市參數(shù)指標(biāo)進(jìn)行了集成用于預(yù)測(cè)實(shí)驗(yàn)。詳細(xì)情況見(jiàn)表1。
表1 城市參數(shù)數(shù)據(jù)集
數(shù)據(jù)的完整性很重要,會(huì)影響到后續(xù)的數(shù)據(jù)處理。本文對(duì)于重要的數(shù)據(jù),使用的是相對(duì)于丟棄更常用的補(bǔ)全。首先利用Pandas的fillna方法,將原始數(shù)據(jù)集中的缺省值部分填充為相應(yīng)特征下樣本的平均值(df.fillna(df.mean()['chas':'rm']));再利用StandardScaler對(duì)上一步處理后的數(shù)據(jù),采用公式(2)進(jìn)行數(shù)據(jù)去均值和方差,實(shí)現(xiàn)數(shù)據(jù)歸一化,以便更好地對(duì)數(shù)據(jù)進(jìn)行特征提取。
(2)
式中:μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
將歸一化后的6個(gè)指標(biāo)(x=(x1,x2,...,x6))作為PDTR模型的自變量,將流動(dòng)人口(10萬(wàn)人)y作為因變量。
本文共采集46項(xiàng)城市參數(shù)指標(biāo),為了更好的保存數(shù)據(jù)信息且提高實(shí)驗(yàn)效率,使用PCA時(shí)選取了前24項(xiàng)主成分,將數(shù)據(jù)從46維降維24維;在使用Decision Tree Regression時(shí),本文針對(duì)2016年數(shù)據(jù),將max_depth參數(shù)即決策回歸樹(shù)的最大深度設(shè)置為從1開(kāi)始,通過(guò)不斷迭代直至達(dá)到極限,得到圖4所示結(jié)果。將min_weight_fraction_leaf參數(shù),即最小權(quán)重系數(shù)設(shè)置為從0開(kāi)始,通過(guò)不斷迭代直至達(dá)到極限,得到圖5所示結(jié)果。
圖4 2016年均方誤差變化情況
圖5 2016年均方誤差變化情況
圖4中藍(lán)色折線代表2016年份的原始數(shù)據(jù)經(jīng)數(shù)據(jù)預(yù)處理后,對(duì)設(shè)置了不同max_deep值的決策樹(shù)回歸模型進(jìn)行訓(xùn)練,得到的均方誤差值。從圖4中可以看出,將max_deep值設(shè)置為14時(shí),預(yù)測(cè)的絕對(duì)誤差相對(duì)較小。因此,本文在使用決策樹(shù)回歸模型時(shí)將該參數(shù)設(shè)置為14。
圖5中藍(lán)色的折線代表2016年份的原始數(shù)據(jù)經(jīng)數(shù)據(jù)預(yù)處理后,使用處理后的數(shù)據(jù)對(duì)設(shè)置了不同min_weight_fraction_leaf值的決策樹(shù)回歸模型進(jìn)行訓(xùn)練,得到的均方誤差值。當(dāng)min_weight_fraction_leaf值設(shè)置為0時(shí),代表不使用權(quán)重。從圖5中的趨勢(shì)可以看出,當(dāng)該參數(shù)值設(shè)置為0.01時(shí),均方誤差達(dá)到最小。因此,本文將該參數(shù)的值設(shè)置為0.01。
本文從研究總體中選擇2013年的數(shù)據(jù)作為訓(xùn)練集,將2014~2017年的數(shù)據(jù)作為測(cè)試集。將預(yù)測(cè)值與真實(shí)值進(jìn)行比較,并計(jì)算平均絕對(duì)誤差(MAE)、均方誤差(MSE)、中值絕對(duì)誤差(MDAE)、可解釋方差值(EVS)和R方值(R2),與進(jìn)行過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化和PCA處理的SVR算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果見(jiàn)表2。
表2 模型評(píng)價(jià)
由于本文進(jìn)行對(duì)比分析的數(shù)據(jù)樣本數(shù)量相同,因此R2值可以很好地反映出本文所使用的回歸模型擬合程度效果的好壞。從表2可以看出,本文提出的算法與SVR相比,平均絕對(duì)誤差、均方誤差、中值絕對(duì)誤差的值更接近于0,可解釋方差和R方值更接近于1,證明PDTR模型性能良好。從圖6~圖9可看出,模型對(duì)2014~2017這4年預(yù)測(cè)的結(jié)果變化趨勢(shì)與真實(shí)值近乎相同。
圖6 2014年對(duì)比圖
圖7 2015年對(duì)比圖
圖8 2016年對(duì)比圖
圖9 2017年對(duì)比圖
本文探究了國(guó)內(nèi)各城市人口流動(dòng)情況與城市參數(shù)之間的關(guān)系,選取了6種城市參數(shù)(燃?xì)?、供水、供熱、城市市容、公共交通、綠地園林)共45項(xiàng)指標(biāo)。由于不是所有指標(biāo)都對(duì)人口流動(dòng)有影響,因此對(duì)原始數(shù)據(jù)進(jìn)行特征提取,選出有效特征進(jìn)而進(jìn)行數(shù)據(jù)分析。本文提出的PDTR模型通過(guò)實(shí)驗(yàn)分析,可以很好地解決上述問(wèn)題。本文采用主成分分析方法(PCA)進(jìn)行特征提取。該方法可以在很大程度不損失數(shù)據(jù)信息的條件下,對(duì)原始高維度數(shù)據(jù)進(jìn)行降維,即通過(guò)變換映射到低維空間中。通過(guò)實(shí)驗(yàn)驗(yàn)證,PCA的n_components超參數(shù)為24,對(duì)原始數(shù)據(jù)進(jìn)行去燥和降維;Decision Tree Regression的max_depth超參數(shù)為14、min_weight_fraction_leaf超參數(shù)為0.01時(shí),可以很好的進(jìn)行預(yù)測(cè),得到的結(jié)果相對(duì)準(zhǔn)確。