王明明,王卷樂
1. 山東理工大學建筑工程學院,山東淄博 255049
2. 中國科學院地理科學與資源研究所,資源與環(huán)境信息系統(tǒng)國家重點實驗室,北京 100101
3. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,南京 210023
數(shù)據(jù)庫(集)基本信息簡介
?
街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計數(shù)據(jù)是我國目前公開的最精細的統(tǒng)計數(shù)據(jù),街道/鄉(xiāng)鎮(zhèn)級人口空間分布數(shù)據(jù)成為地學研究的重要需求之一,但單純地將統(tǒng)計數(shù)據(jù)以行政區(qū)劃為單元分布到空間,往往存在行政單元尺度不夠精細[1]、行政區(qū)劃系統(tǒng)存在變動[2]、行政邊界造成地學研究中的“可變元問題”[3]等不足。格網(wǎng)化人口空間分布數(shù)據(jù)是傳統(tǒng)人口統(tǒng)計數(shù)據(jù)的拓展和補充,其實現(xiàn)了行政單元尺度人口的重新展布,有效克服了人口統(tǒng)計數(shù)據(jù)存在的不足,對地理、資源、環(huán)境、生態(tài)、災害以及可持續(xù)發(fā)展等跨學科研究具有重要意義。
目前涉及中國區(qū)域的格網(wǎng)化人口數(shù)據(jù)已有中國人口空間分布公里網(wǎng)格數(shù)據(jù)集(Chpop)、全球柵格人口數(shù)據(jù)集(GPW)、全球農(nóng)村城鎮(zhèn)制圖計劃數(shù)據(jù)集(GRUMP)和世界人口計劃數(shù)據(jù)集(Worldpop)等,這些數(shù)據(jù)集中除了GPW外,其他均是以縣級人口統(tǒng)計數(shù)據(jù)為基礎,借助人口統(tǒng)計數(shù)據(jù)與土地利用、夜間燈光和土地覆被等數(shù)據(jù)的關系建立空間分布模型。盡管GPW使用了2010年的街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計數(shù)據(jù),但其街道/鄉(xiāng)鎮(zhèn)級行政邊界數(shù)據(jù)不是實際邊界數(shù)據(jù),而是采用特殊方法的模擬數(shù)據(jù)[4]??梢姡鎸嵉慕值?鄉(xiāng)鎮(zhèn)級人口格網(wǎng)化數(shù)據(jù)產(chǎn)品目前是極為貧乏的。究其原因在于三點,一是街道/鄉(xiāng)鎮(zhèn)級行政區(qū)劃矢量數(shù)據(jù)獲取困難,且存在大量的行政區(qū)劃和地名變更問題,難以直接利用。二是,街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計數(shù)據(jù)的空間關聯(lián)需要進行大量的涉及鄉(xiāng)鎮(zhèn)(街道)地名和行政區(qū)劃的空間數(shù)據(jù)匹配處理工作,非專業(yè)的團隊難以完成。三是,空間化的方法單一,缺少多源數(shù)據(jù)和中國人口地理學特點的綜合運用,例如中國人口分布的城鄉(xiāng)二級分布特征。以上這些原因使得當前人口數(shù)據(jù)空間化研究多是基于縣級人口統(tǒng)計數(shù)據(jù)[5-8],即使有個別街道/鄉(xiāng)鎮(zhèn)級的研究[9-10],也只停留在小范圍內。針對這一需求,本文完成了2000年和2010年山東省街道/鄉(xiāng)鎮(zhèn)級人口匹配處理,并利用土地利用數(shù)據(jù)和夜間燈光數(shù)據(jù)相結合的空間化方法,實現(xiàn)了兩期人口數(shù)據(jù)的空間化工作。其中土地利用數(shù)據(jù)和街道/鄉(xiāng)鎮(zhèn)級行政單元相結合構建城鄉(xiāng)二級分區(qū)方法,增強型植被指數(shù)(EVI)對DMSP/OLS夜間燈光數(shù)據(jù)進行修正,保證了空間化模型的精度。
生產(chǎn)本數(shù)據(jù)集所采用的數(shù)據(jù)包括DMSP/OLS夜間非輻射定標的平均穩(wěn)態(tài)數(shù)據(jù)、EVI、土地利用數(shù)據(jù)、世界人口計劃數(shù)據(jù)集WorldPop、街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計數(shù)據(jù)和行政邊界數(shù)據(jù)。數(shù)據(jù)的相關參數(shù)和來源如表1中所示。
表1 數(shù)據(jù)源詳細信息
(1)街道/鄉(xiāng)鎮(zhèn)級人口空間數(shù)據(jù)
街道/鄉(xiāng)鎮(zhèn)級人口空間數(shù)據(jù)制作需要將街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計數(shù)據(jù)與街道/鄉(xiāng)鎮(zhèn)級行政區(qū)劃矢量數(shù)據(jù)的屬性進行關聯(lián),實現(xiàn)街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計值在空間上的分布。本文采用決策樹的思想實現(xiàn)兩者的屬性關聯(lián),過程如圖1所示。
圖1 街道/鄉(xiāng)鎮(zhèn)級人口空間數(shù)據(jù)制作流程
(2)夜間燈光數(shù)據(jù)
DMSP/OLS夜間燈光數(shù)據(jù)由于OLS傳感器本身的缺陷存在飽和溢出現(xiàn)象,會影響到城市中心人口數(shù)據(jù)空間化的精度。有研究表明可以通過EVI對DMSP/OLS夜間燈光數(shù)據(jù)進行修正,生成增強型植被指數(shù)調整的夜間燈光指數(shù)(EANTLI),修正公式如式(1)[11]。
式中,NTLn為歸一化后的DMSP/OLS夜間燈光指數(shù),EVIa為處理后的EVI數(shù)據(jù),NTL為原始DMSP/OLS夜間燈光指數(shù)。
(3)城鄉(xiāng)二級分區(qū)
建模之前將樣本進行二級分區(qū)處理,技術流程如圖2。一級分區(qū):利用土地利用數(shù)據(jù)將所有行政單元分為城鎮(zhèn)地區(qū)(A1)、農(nóng)村地區(qū)和其余地區(qū)。其中城鎮(zhèn)地區(qū)中的居民地類型只包含城鎮(zhèn)用地,農(nóng)村地區(qū)的居民地類型只包含農(nóng)村居民點,其余地區(qū)則包含這兩種居民地類型。二級分區(qū):以1∶4∶1的比例將農(nóng)村地區(qū)分為低人口密度區(qū)(A2)、中人口密度區(qū)(A3)和高人口密度區(qū)(A4);根據(jù)模型檢驗結果將其余地區(qū)分為A5(相對誤差絕對值<20%)、A6(相對誤差<-20%)和A7(相對誤差>20%)3個分區(qū)。
圖2 城鄉(xiāng)二級分區(qū)和建模技術流程圖
(4)空間化模型
分別利用線性回歸模型和多層感知器(MLP)人工神經(jīng)網(wǎng)絡模型建立人口數(shù)據(jù)空間化模型。A1、A2、A3和A4分區(qū)的建模結果依次對應圖2中的方程式1-4。
①線性回歸模型。A1分區(qū)的人口數(shù)據(jù)空間化模型如式(2)所示,A2、A3和A4分區(qū)的人口數(shù)據(jù)空間化模型如式(3)所示。
式中,pop和popi為街道/鄉(xiāng)鎮(zhèn)級行政單元內的人口值;EANTLI為行政單元中城鎮(zhèn)用地范圍內的EANTLI燈光強度值;和為回歸系數(shù);和為常數(shù)項;areai為行政單元中農(nóng)村居民點的面積;表示第i個分區(qū),取值分別為2、3、4。
②MLP人工神經(jīng)網(wǎng)絡模型。在A1、A2、A3和A4分區(qū),將土地利用數(shù)據(jù)和EANTLI夜間燈光數(shù)據(jù)作為輸入層,街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計數(shù)據(jù)作為輸出層,包含一個隱藏層,模型如式(4)和式(5)所示。
式中,G為隱藏層到輸出層的邏輯回歸函數(shù),S為輸入層到隱藏層的函數(shù),W1和W2分別為輸入層到隱藏層和隱藏層到輸出層的權重,和分別為輸入層到隱藏層和隱藏層到輸出層的偏置,和a為變量。
(5)格網(wǎng)單元人口模擬
選取模型精度最優(yōu)的空間化模型模擬格網(wǎng)單元的人口值。經(jīng)后文模型精度驗證可知,線性回歸模型的精度優(yōu)于MLP人工神經(jīng)網(wǎng)絡模型的精度,因此本文利用線性回歸模型的建模結果模擬格網(wǎng)單元的人口值。其中A1、A2、A3和A4分區(qū)依次利用方程式1-4模擬,A5分區(qū)利用方程式1和方程式3模擬,A6分區(qū)利用方程式1和方程式2模擬,A7分區(qū)利用方程式1和方程式4模擬。
(6)格網(wǎng)單元人口修正
由于模型公式存在一定的誤差,行政單元內的人口模擬值和人口統(tǒng)計值不一致。建立人口模擬修正公式,見式(6),對格網(wǎng)內的人口模擬值進行調整。
經(jīng)過數(shù)據(jù)處理得到2000年和2010年山東省100 m格網(wǎng)人口空間分布數(shù)據(jù)集(圖3、圖4)。本數(shù)據(jù)集比較清晰地反映了山東省的人口分布特點,高人口密度主要集中在濟南、青島、濰坊、淄博、煙臺、德州、威海和濟寧等地級城市駐地處,濟南和青島兩地的人口密度和數(shù)量最高;魯北沿海、魯中山地丘陵區(qū)和濟寧南部的人口分布較為稀少。從2000年到2010年的人口分布變化來看,地級城市高人口密度區(qū)有明顯的擴大,2010年的最大人口密度值較2000年有所提高。
本文利用街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計數(shù)據(jù)作為基礎數(shù)據(jù)、運用城鄉(xiāng)二級分區(qū)建模方法、EVI對DMSP/OLS夜間燈光數(shù)據(jù)進行修正等做法保證空間化產(chǎn)品的精度。為對空間化結果做出準確的評價,本文對空間化模型進行驗證并對空間化結果進行同類產(chǎn)品對比分析。驗證和對比結果如下文所述。
圖3 2000年山東省格網(wǎng)人口空間分布數(shù)據(jù)
圖4 2010年山東省格網(wǎng)人口空間分布數(shù)據(jù)
(1)模型精度驗證
在模擬格網(wǎng)單元內的人口之前,檢驗空間化模型的精度。利用方程式1-4模擬其余地區(qū)鄉(xiāng)鎮(zhèn)(街道)單元內的人口,按式(7)計算其余地區(qū)街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計值和模擬值之間的相對誤差。結果顯示,線性回歸模型中2000年和2010年的其余地區(qū)分別有78.0%和78.4%的行政單元的相對誤差絕對值小于20%,MLP人工神經(jīng)網(wǎng)絡模型中2000年和2010年的其余地區(qū)分別有71.0%和72.7%的行政單元的相對誤差絕對值小于20%??梢娫诒疚娜丝跀?shù)據(jù)空間化模型構建中,線性回歸模型比MLP人工神經(jīng)網(wǎng)絡模型更有優(yōu)勢。
將線性回歸模型的相對誤差分布到空間(圖5),可以看出誤差較大(相對誤差絕對值大于20%,圖中藍色和紅色區(qū)域)的行政單元主要分布于地級城市周邊和北部沿海區(qū)域,且2000年的相對誤差在中部山地丘陵區(qū)也分布較多。主要原因有以下兩點:①在城市周邊和山地丘陵區(qū)容易出現(xiàn)城鎮(zhèn)用地和農(nóng)村居民點用地的錯分現(xiàn)象;②在沿海地區(qū)存在港口碼頭,導致夜間燈光和人口分布的相關性降低。
圖5 模型精度檢驗結果空間分布圖
(2)空間化結果對比
利用山東省街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計數(shù)據(jù)對 Chpop、GPW 和 Worldpop進行精度評價,計算Chpop2000、GPW2000、WorldPop2000、Chpop2010、GPW2010和Worldpop2010六個數(shù)據(jù)集街道/鄉(xiāng)鎮(zhèn)級行政單元尺度內的人口模擬值和統(tǒng)計值之間的皮爾遜相關系數(shù)(R)、平均絕對誤差(MAE)、均方根誤差(RMSE)和相對均方根誤差(%RMSE),其中%RMSE是將均方根誤差除以人口普查數(shù)據(jù)的平均值得到,可以反映模型模擬的精度高低[12]。MAE、RMSE和%RMSE的計算公式分別如式(8)、式(9)和式(10)所示,計算結果如表2所示。結果顯示W(wǎng)orldPop的人口模擬值最精確。
表2 山東省格網(wǎng)化人口分布數(shù)據(jù)集的人口模擬值與統(tǒng)計值的評價指標
利用目前可開放獲取的精度相對最高的人口空間分布數(shù)據(jù)集WorldPop對本文產(chǎn)出的SDpop2000和SDpop2010進行對比驗證。分別統(tǒng)計WorldPop和SDpop在10 km格網(wǎng)內的人口值,采用散點圖、R、MAE、RMSE和%RMSE來衡量兩者的差異。MAE、RMSE和%RMSE分別采用式(8)、式(9)和式(10)計算,其中分別帶入10 km格網(wǎng)內SDpop和WorldPop的人口模擬值,N代表10 km格網(wǎng)的個數(shù)。檢驗結果如表3所示,SDpop與WorldPop的散點圖如圖6所示。
表3 山東省格網(wǎng)化人口空間分布數(shù)據(jù)驗證結果
圖6 SDpop與WorldPop的10 km格網(wǎng)人口值散點圖
格網(wǎng)化人口空間分布數(shù)據(jù)打破了行政單元的禁錮,實現(xiàn)了更精細的人口空間分布,這不僅對地理、資源、環(huán)境、生態(tài)、災害等學科中和人口相關的跨學科研究具有重要意義,而且對政府部門進行土地使用、公共設施和開發(fā)計劃等規(guī)劃具有重要參考意義。本文通過對街道/鄉(xiāng)鎮(zhèn)級人口統(tǒng)計數(shù)據(jù)、獨特分區(qū)方法和基于EVI修正的夜間燈光數(shù)據(jù)的使用,有效地提高了人口數(shù)據(jù)的空間化精度,產(chǎn)出的2000年和2010年山東省格網(wǎng)化人口空間分布數(shù)據(jù)集,豐富了人口格網(wǎng)化產(chǎn)品。