国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于手機信令數(shù)據(jù)的特大城市人口時空分布及其社會經(jīng)濟屬性估測——以北京市為例

2020-06-07 10:10海曉東劉云舒趙鵬軍張輝
關鍵詞:信令人口空間

海曉東 劉云舒 趙鵬軍 張輝

基于手機信令數(shù)據(jù)的特大城市人口時空分布及其社會經(jīng)濟屬性估測——以北京市為例

海曉東1劉云舒2,3趙鵬軍3,?張輝1

1.北京大學經(jīng)濟學院, 北京 100871; 2.北京大學深圳研究生院, 深圳 518055; 3.北京大學城市與環(huán)境學院, 北京 100871; ?通信作者, E-mail: pengjun.zhao@pku.edu.cn

提出應用手機信令數(shù)據(jù), 基于空間模式單元(Spatial Pattern Unit)進行人口動態(tài)分布估測和人口屬性識別的方法, 并以北京為例開展實例研究。以手機信令數(shù)據(jù)為主, 結(jié)合大樣本問卷調(diào)查數(shù)據(jù)和騰訊熱力圖數(shù)據(jù), 對人口布局進行分時段估測, 分析人口分布的時空間動態(tài)特征; 采用大樣本問卷調(diào)查數(shù)據(jù), 以人口社會經(jīng)濟屬性和通勤出行特征等關鍵指標, 對調(diào)查的種子空間單元進行模式分類和識別, 運用機器學習的方法進行全域地域空間的人口屬性估測識別, 最后對估測結(jié)果進行對比和驗證。所提方法和研究結(jié)果可以為監(jiān)測人口布局動態(tài)、針對人口屬性布局商業(yè)服務和合理規(guī)劃城市設施等提供決策支撐。

人口時空分布; 人口屬性估測; 動態(tài)監(jiān)測; 機器學習; 手機信令數(shù)據(jù)

人口時空分布是城市理論研究的重要內(nèi)容之一。人口分布特征是社會環(huán)境、城市管理以及公共服務設施的直接作用結(jié)果, 也是分析人口環(huán)境效應的關鍵要素[1–2]。隨著我國城鎮(zhèn)化水平的進一步提高, 人口在城市持續(xù)聚集, 尤其是特大城市發(fā)展較快。人口集聚促進城市擴張與城市改造, 重新塑造城市人口時空間格局, 為城市規(guī)劃與管理帶來新的挑戰(zhàn), 同時給城市公共資源的高效配置帶來新的要求。了解城市人口時空間布局特征已成為城市研究領域亟待解決的科學問題[3–4]。

對人口時空分布特征進行動態(tài)監(jiān)測, 對于合理安排城市應急系統(tǒng)也至關重要[5–6]。人口動態(tài)監(jiān)測的主要目的, 是在給定時間范圍內(nèi), 對存在于特定空間區(qū)域中人口的基本信息(性別、年齡)、流動趨向與范圍、職業(yè)與居住、婚育與家庭結(jié)構(gòu)等進行實時數(shù)據(jù)獲取、識別和監(jiān)測, 并進行人口布局、流動和集聚狀態(tài)的分析, 為城市人口應急管理和安全疏解等決策提供及時的信息支撐。

當前, 國內(nèi)外關于人口時空分布特征的相關研究以普查數(shù)據(jù)和傳統(tǒng)抽樣統(tǒng)計數(shù)據(jù)為主[7–9]。我國現(xiàn)有的周期性人口統(tǒng)計調(diào)查制度主要包括國家統(tǒng)計局組織的十年一度的人口普查、五年一度的 1%人口抽樣調(diào)查和每年一度的 1‰人口變動抽樣調(diào)查, 主要通過調(diào)查員入戶的方式, 獲取各個行政單元內(nèi)人口數(shù)量、結(jié)構(gòu)和分布空間等情況。然而, 人口普查和抽樣調(diào)查的人口動態(tài)監(jiān)測方法存在調(diào)查范式難以統(tǒng)一、空間分辨率低和時效性差的先天不足。首先, 人口普查和調(diào)查必須確定統(tǒng)一的調(diào)查模式, 在相同的時間節(jié)點, 在全國范圍展開入戶調(diào)查, 人力物力成本高, 中間環(huán)節(jié)多, 調(diào)查結(jié)果的精準度受人為因素的影響較大; 其次, 普查與調(diào)查以全國統(tǒng)一的行政區(qū)劃范圍作為統(tǒng)計單元, 各省、市、自治區(qū)等行政區(qū)域空間差異較大, 可比性差, 同時, 在研究中, CBD 及商圈等任意興趣區(qū)的統(tǒng)計數(shù)據(jù)難以獲取; 第三, 人口普查和抽樣調(diào)查以年際, 甚至十年際為采樣周期, 具有頻率低、時效性差的特點, 無法滿足細時間粒度的人口動態(tài)監(jiān)控的需求。

近年來, 隨著互聯(lián)網(wǎng)和通信技術的發(fā)展, 社會信息化進程不斷加快, 大數(shù)據(jù)方法和技術逐步應用于人口時空分布動態(tài)監(jiān)測研究中。在人口信息獲取的數(shù)據(jù)來源上, 學者們逐漸從傳統(tǒng)的統(tǒng)計數(shù)據(jù)(普查、抽樣調(diào)查和深入訪談等)轉(zhuǎn)向 LBS 數(shù)據(jù)的研究(遙感影像數(shù)據(jù)[10–11]、熱力圖數(shù)據(jù)[12–13]和手機信令數(shù)據(jù)[14–15]等)。在人口動態(tài)監(jiān)測的優(yōu)化思路方面, 主要包括統(tǒng)計人口的空間化研究。針對傳統(tǒng)統(tǒng)計數(shù)據(jù)空間分布不均和分辨率低的問題, 相關學者將統(tǒng)計人口數(shù)據(jù)與 LBS 數(shù)據(jù)進行融合, 綜合考慮人口分布的影響因素, 實現(xiàn)統(tǒng)計人口在高尺度空間的精細化分配[11,16–17]。

基于移動通信網(wǎng)絡業(yè)務的迅速開展, 手機信令數(shù)據(jù)的應用已逐漸被研究者關注。手機等智能終端在為人們提供社交、商務等生活服務的同時, 也記錄了人們的時空間信息, 為人口動態(tài)監(jiān)測帶來新的發(fā)展機遇。城市空間功能結(jié)構(gòu)與居民時空間活動特征是手機信令數(shù)據(jù)研究中兩個重要的方向, 城市環(huán)境與居民出行之間相互影響, 居民的社會活動也是城市功能區(qū)域的直觀表征。相關學者基于手機信令用戶的時空間分布和出行軌跡特征, 對城市空間功能區(qū)域進行研究, 如城鎮(zhèn)體系的劃分[18]、建成環(huán)境的評價[19]以及空間職能結(jié)構(gòu)的識別與分析[20–22]。在針對城市居民活動特征的研究中, 手機信令數(shù)據(jù)被應用于居民出行模式與出行量的識別[23–24]、人口分布與空間活動的動態(tài)監(jiān)測[15]以及交通調(diào)查與規(guī)劃[25]。

大數(shù)據(jù)在識別人口的屬性方面也存在不足之處。用數(shù)據(jù)表做比喻, 大數(shù)據(jù)體現(xiàn)為“行數(shù)多而列數(shù)少”。例如, 基于手機信令數(shù)據(jù), 可以提取用戶的時空間駐留和出行特征, 然而用戶收入、職業(yè)和家庭結(jié)構(gòu)等信息卻難以識別。同時, 由于大數(shù)據(jù)樣本的異質(zhì)性(如老人和兒童等樣本缺失)[26], 可能導致人口屬性判別的偏差。

本文提出基于空間模式單元(Spatial Pattern Unit)的多源數(shù)據(jù)人口總量估測和人口屬性識別方法, 并以北京為例開展實證研究。本研究擬重點回答兩個科學問題: 如何對人口分布的動態(tài)特征進行刻畫? 如何借助大數(shù)據(jù)對人口屬性進行識別? 這兩個問題的研究對于城市理論研究和城鄉(xiāng)規(guī)劃實踐均具有一定的意義。

1 人口動態(tài)分布估測和人口屬性識別方法

1.1 人口動態(tài)分布估測

空間模式單元是城市空間模式劃分的基本單元, 也是人口動態(tài)估測的基本統(tǒng)計空間。傳統(tǒng)的人口統(tǒng)計數(shù)據(jù)通常以行政區(qū)作為單元, 通過逐級加并, 匯總得到。但是, 受到環(huán)境因素(山川或河流等)以及社會經(jīng)濟因素(基礎設施和公共服務等)的綜合影響[27–28], 人口在行政區(qū)范圍內(nèi)分布并不均勻, 導致很多本來應該沒有人口分布的地區(qū)也被“賦予”人口計量。為實現(xiàn)對人口時空間特征更準確的識別, 需要更加精細的空間和時間粒度。本文采用 1km×1km 為基本空間模式單元[11,28], 以柵格數(shù)據(jù)為數(shù)據(jù)結(jié)構(gòu), 研究不同時段的人口分布情況。

本研究的技術路線(圖 1)分為 3 個階段: 第一階段是應用手機信令數(shù)據(jù), 基于基本空間模式單元的人口總量及分時段分布估測; 第二階段是應用手機信令數(shù)據(jù), 采用傳統(tǒng)的基于區(qū)縣行政單元的人口統(tǒng)計分析思路, 進行基于區(qū)縣行政范圍的人口總量及分時段分布估測; 第三階段是應用騰訊熱力圖數(shù)據(jù), 基于基本空間模式單元的人口總量及分時段估測, 并采用該階段的結(jié)果, 對上述兩個階段的結(jié)果進行校核。

在第一階段, 首先將手機信令數(shù)據(jù)與北京區(qū)縣人口統(tǒng)計數(shù)據(jù)(該數(shù)據(jù)來自 2015 年全國 1%人口抽樣調(diào)查)匹配到 1km 網(wǎng)格空間模式單元中。然后, 通過空間相交計算, 統(tǒng)計得到網(wǎng)格中手機常住用戶的數(shù)量L和統(tǒng)計數(shù)據(jù)中的常住人口數(shù)量W, 則居住地在網(wǎng)格中的手機常住用戶對應的擴樣率K

K=L/W。 (1)

基于網(wǎng)格編號, 統(tǒng)計任意網(wǎng)格在某一時段內(nèi)的手機常住居民的居住地來源。假設來源于網(wǎng)格的手機用戶為l,τ, 則其所代表的來源于網(wǎng)格的總?cè)丝跒?i>l,τ/K。將網(wǎng)格中所有來源的人口總數(shù)求和, 即為該時段的估測人口總數(shù)Z,τ:

Z,τ=∑l,τ/K。 (2)

在第二階段, 采用同樣的方法, 可以估測出基于區(qū)縣行政單元的人口時空分布。

第三階段, 應用騰訊數(shù)據(jù)進行人口時空分布的對比和分析?;隍v訊熱力圖數(shù)據(jù)中的熱力值與特定時空間內(nèi)騰訊產(chǎn)品的活躍用戶數(shù)成正比, 首先通過熱力圖數(shù)據(jù)的夜間(0 —6 點)熱力值與人口統(tǒng)計數(shù)據(jù)(來自 2015 年全國 1%人口抽樣調(diào)查)進行回歸擬合, 得到熱力值與常住人口之間的定量關系。然后, 根據(jù)各個時段的熱力值, 預測常住人口在不同時段的空間分布。最后, 選取任意時段基于基本空間單元的人口估測和基于區(qū)縣單元的人口估測數(shù)據(jù), 分別與對應時段的基于熱力圖數(shù)據(jù)的人口時空分布估測結(jié)果進行配對樣本 T 檢驗分析, 從而實現(xiàn)人口動態(tài)分布的對比驗證。

1.2 大數(shù)據(jù)人口屬性識別方法

1.2.1技術路線

如圖 2 所示, 首先, 綜合考慮空間區(qū)位、用地權屬和居民規(guī)模等特征, 在北京市范圍內(nèi)選擇 35個小區(qū)作為種子單元, 即抽樣調(diào)查單元。第二步, 針對用戶屬性與交通出行狀況等核心問題, 在種子單元展開深入問卷調(diào)查。第三步, 根據(jù)種子單元的空間屬性特征進行分類, 得到種空間模式單元, 從而對空間模式變量進行控制。第四步, 根據(jù)空間模式單元的劃分標準, 在 1km 網(wǎng)格的尺度上, 對北京市進行空間模式單元的劃分。第五步, 基于種空間模式單元中的調(diào)研結(jié)果, 分別得到居民個體社會經(jīng)濟屬性和出行特征之間的組合概率。最后, 運用機器學習中的樸素貝葉斯分類算法, 根據(jù)調(diào)研數(shù)據(jù)中部分居民屬性和出行特征出現(xiàn)的組合概率(即先驗概率), 求解此條件下其他居民屬性出現(xiàn)的概率(即后驗概率), 并選擇最大值對應的屬性分類結(jié)果作為最終的識別結(jié)果。

1.2.2 空間模式單元的屬性

城市的空間特征對居民出行和活動具有顯著影響[29–31]。研究發(fā)現(xiàn), 城市空間對居民出行的影響主要體現(xiàn)在人口密度、土地混合度、目的地可達性和公共交通網(wǎng)絡等方面[32–34]。人類活動密度是緊湊型土地開發(fā)模式的一種表征, 主要通過居住[35–36]、就業(yè)[35,37]和人口密度[35]等進行量化表示。相關研究表明活動密度是影響居民出行的潛在因素[36]。土地利用多樣性反映特定區(qū)域范圍內(nèi)不同土地利用類型的數(shù)量及空間配比, 不同土地利用類型的交叉可以同時滿足居民不同的出行目的, 土地利用混合度(LUM)被引入作為表征土地利用多樣性的指標[38], 有研究表明, 土地利用混合度與居民出行成正向相關關系[27,39]。

目的地可達性用于衡量居住區(qū)到目的地之間的時間或空間距離, 城市主要就業(yè)中心與核心商業(yè)設施是構(gòu)成居民出行的兩個重要目的地。在一定時間范圍內(nèi)可以到達的工作機會數(shù)量反映工作機會的可達性[40–41], 商業(yè)設施的覆蓋范圍與距離是商業(yè)可達性的核心指標[42–43]。交通設施可達性指居住區(qū)與公共交通站點之間的距離, 便利的公共交通系統(tǒng)對居民出行有顯著的促進作用。到最近地鐵站/公交車站的距離、公交站點以及線網(wǎng)密度通常作為衡量交通設施可達性的空間指標[44–45]。鑒于此, 本研究重點關注城市空間的人類活動密度、土地利用多樣性、目的地可達性和交通設施可達性 4 個方面的屬性特征(表 1)。另外, 房價體現(xiàn)空間區(qū)位對居民居住地選擇和交通出行的長期影響[46],也被選為空間模式的主要屬性指標。

1.2.3 空間模式單元的分類

系統(tǒng)聚類算法(hierarchical clustering)又稱層次聚類法, 是最經(jīng)典和常用的聚類方法之一, 通過度量樣本點之間的距離和類與類之間的關聯(lián)程度來進行類別劃分。本研究根據(jù)不同空間單元的屬性特征, 使用系統(tǒng)聚類算法中的離差平方和法(Ward’s method), 通過方差分析, 對不同的空間單元按距離準則進行逐步分類。結(jié)合系統(tǒng)聚類結(jié)果中的分類樹狀圖, 對聚類標準進行歸納和調(diào)整。本研究將北京35 個調(diào)研小區(qū)劃分為 11 類, 分級標準見表 2, 聚類結(jié)果如表 3 所示。

1.2.4 居民屬性與出行特征提取

社會經(jīng)濟屬性是衡量和影響居民社會生活和交通出行特征的重要因素。性別和年齡是刻畫居民特征的基本指標, 個人月收入、有無子女和就業(yè)類型分別反映居民的個人經(jīng)濟水平、家庭結(jié)構(gòu)和工作狀況, 對其出行方式、出行習慣和出行特征產(chǎn)生直接影響[41,47]。本研究提取的居民屬性與出行特征指標如表 4 所示。

表1 空間模式屬性指標

表2 屬性指標分級標準

表3 調(diào)研小區(qū)聚類結(jié)果

表4 居民屬性和出行特征

1.2.5 樸素貝葉斯分類器的構(gòu)建

樸素貝葉斯分類器(naive Bayes classifier, NBC)以貝葉斯定理為理論基礎, 其基本思想是, 通過待分類樣本先驗概率的計算, 求解出此條件下各個分類類別出現(xiàn)的概率(即后驗概率), 并選擇最大后驗概率所對應的分類結(jié)果作為最終的預測結(jié)果。

假設={1,2,3, …,x}為待分類的單個居民社會經(jīng)濟屬性集合, 其中x為性別、年齡、周均工作時長、周均通勤次數(shù)和平均通勤時長的組合,x=(,,w,c,c)。已知類別集合為={1,2,3, …,c}, 由單個居民社會經(jīng)濟屬性(個人月收入、有無子女和就業(yè)類型)組成,c=(,,)?;跇闼刎惾~斯公式(式(3)), 對單個居民的社會經(jīng)濟屬性進行判斷(式(4)):

(,,w,c,c) =(,,)。 (4)

2 案例介紹與數(shù)據(jù)

2.1 北京案例介紹

北京是我國具有代表意義的典型特大城市之一。隨著城鎮(zhèn)化的發(fā)展, 北京市常住人口快速增長, 城市空間迅速擴張, 至 2016 年末, 全市常住人口達2172.9 萬人, 建成區(qū)面積增加至 1445.54km2[48]。北京市經(jīng)濟增長速度穩(wěn)定, 2016 年實現(xiàn)地區(qū)生產(chǎn)總值24899.3 億元, 同比增長 6.7%[49]。同時, 城市交通出行需求與設施建設持續(xù)增加, 據(jù)統(tǒng)計, 2016 年北京市中心城工作日日均出行總量為 2666 萬人次(不含步行), 同期市級交通固定資產(chǎn)投資完成 508.2 億元, 同比增長0.14%[50]。

與其他特大城市一樣, 北京市存在住房緊張、交通擁堵和環(huán)境壓力等諸多城市問題[4,51–53]。據(jù)高德地圖發(fā)布的《2017 年中國主要城市交通分析報告》(https://report.amap.com/share.do?id=8a38bb86 60f9109101610835e79701bf), 2017 年全國 26%的城市早晚高峰期間交通嚴重擁堵, 北京市就業(yè)者平均每日通勤時間居全國首位, 達到 97 分鐘。

2.2 本文所用數(shù)據(jù)

2.2.1手機信令數(shù)據(jù)

手機信令數(shù)據(jù)是一款匿名、脫敏的群體性數(shù)據(jù)產(chǎn)品, 基于手機定位算法或蜂窩小區(qū)定位技術, 對手機用戶所在的基站小區(qū) ID 進行定位。基于國內(nèi)某運營商數(shù)據(jù)產(chǎn)品, 在研究區(qū)域內(nèi)采集 153700199條用戶駐留數(shù)據(jù)和 475245320 條用戶出行數(shù)據(jù)(2017年 9 月)。

根據(jù)人口總量估測與屬性擴充的要求, 對手機信令用戶的常住地進行識別。在一個月內(nèi), 如果用戶在相同行政區(qū)內(nèi)出現(xiàn)超過 10 天, 則判定為常住用戶。對常住用戶每天晚上 9 點到第二天早上 8 點停留的地點分別進行時長加并排序, 時間最長的地點即為用戶居住地。

2.2.2熱力圖數(shù)據(jù)

熱力圖數(shù)據(jù)基于騰訊產(chǎn)品活躍用戶的街道級位置定位產(chǎn)生, 記錄分時段的人口活動強度。通過產(chǎn)品應用程序網(wǎng)絡接口, 以 1 小時為采樣周期, 在研究區(qū)域內(nèi)采集 2015 年 7 月 31 日—8 月 1 日共 48 小時的數(shù)據(jù)。原始數(shù)據(jù)包括 4 個屬性, 分別為經(jīng)度、緯度、時間和人口活動強度。其中, 人口活動強度與相同位置下的人口密度正相關。由于采樣數(shù)據(jù)缺失, 僅得到北京六環(huán)內(nèi)及六環(huán)周邊范圍內(nèi)的有效數(shù)據(jù)。

2.2.3種子單元的社區(qū)問卷調(diào)查數(shù)據(jù)

北京大學城鄉(xiāng)規(guī)劃與交通研究中心于 2017 年4—7 月, 在北京市范圍內(nèi)開展居民出行調(diào)查活動, 通過問卷調(diào)研的方式獲取居民的社會經(jīng)濟屬性和交通出行信息。該調(diào)查抽樣采用分層抽樣與人口規(guī)模比例抽樣相結(jié)合的方法, 根據(jù)小區(qū)居住人口規(guī)模差異, 對 35 個調(diào)研小區(qū)分別進行 50~200 份問卷發(fā)放, 共回收問卷 4043 份, 其中有效問卷 3209 份。調(diào)研小區(qū)的空間分布如圖3所示。

2.2.4人口統(tǒng)計數(shù)據(jù)

北京區(qū)縣人口統(tǒng)計數(shù)據(jù)來自 2015 年全國 1%人口抽樣調(diào)查, 其網(wǎng)格形式數(shù)據(jù)來自中國人口空間分布公里網(wǎng)格數(shù)據(jù)集(2015)(http://www. resdc.cn/data. aspx?DATAID=251)。該數(shù)據(jù)為柵格數(shù)據(jù)類型(網(wǎng)格范圍內(nèi)的人口數(shù)), 基于土地利用類型、夜間燈光亮度和居民點密度等因素對人口分布權重進行綜合考量, 利用多因子權重分配法, 得到 1km×1km 網(wǎng)格的常住人口空間分布。

2.3 人口時空分布估測結(jié)果

2.3.1 基于基本空間模式單元的人口總量及分時段分布估測

職住信息是城市問題研究中的重要關注點, 本文分別從休息時段(0—6 點)和工作時段(8—11 和 15—17 點)[12]中隨機選取一個時段, 以北京市常住人口 1km 網(wǎng)格數(shù)據(jù)為基準, 對市域范圍內(nèi)的人口駐留總量進行估測。根據(jù)手機信令用戶的數(shù)據(jù)脫敏標準, 估測結(jié)果為 2017 年 9 月在 2 點(2:00—2:59)和 16點(16:00—16:59)兩個時段的人口駐留總量, 結(jié)果如圖 4 所示。

圖 4(a)和(b)分別為 2 點和 16 點手機信令用戶及估測人口分布情況??梢钥闯? 手機信令駐留用戶與估測后的駐留人口總量在中心城區(qū)的空間分布具有較大的差異。手機信令用戶的人口駐留總量具有更強的中心性, 高密度區(qū)域(>140000)在五環(huán)內(nèi)分散地分布, 熱力特征明顯。同時, 對于周邊區(qū)縣(昌平、通州和亦莊等)的中心區(qū)有更好的識別度。估測人口的駐留總量呈現(xiàn)較大的差異化特征, 其高密度區(qū)域分布較少, 集中在城市二環(huán)內(nèi), 中等密度(12000~140000)區(qū)域具有較高的識別度, 以城市中心為核心, 呈現(xiàn)中心對稱和片狀分布的特征。在不同的時間節(jié)點, 估測人口比信令人口有更好的特征代表性。在 2 點的六環(huán)及周邊郊區(qū), 估測人口密度明顯增加, 這對夜間居住人口的空間分布信息是很好的補充。在 16 點, 估測人口呈現(xiàn)更好的中心對稱的圈層結(jié)構(gòu), 城市的就業(yè)核心區(qū)(國貿(mào)、中關村地區(qū)等)具有更好的識別度。

應用手機信令數(shù)據(jù), 采用傳統(tǒng)的區(qū)縣行政單元的人口估測思路, 進行基于區(qū)縣行政范圍的人口總量及分時段分布估測, 同樣可以得到 2 點和 16 點兩個時段的人口駐留總量。

2.3.2基于熱力圖數(shù)據(jù)的人口時空分布估測

騰訊熱力圖數(shù)據(jù)的熱力值與當前時段內(nèi)活躍用戶的密度成正比, 因此, 我們用熱力圖數(shù)據(jù)對常住人口的全時段樣本量進行換算, 為手機信令駐留人口的估測結(jié)果提供校驗。首先, 通過熱力圖數(shù)據(jù)的夜間(0—6 點)熱力值與統(tǒng)計數(shù)據(jù)中常住人口數(shù)的回歸擬合(表 5), 得到熱力值與常住人口之間的量化關系為

=1.435+3277.388。 (5)

熱力圖數(shù)據(jù)為北京市六環(huán)及周邊范圍內(nèi)的 24小時全時段數(shù)據(jù), 通過任意時段內(nèi)熱力值的空間統(tǒng)計(spatial statistic), 可由式(3)得到該時空間基于熱力圖數(shù)據(jù)估測的常住人口數(shù)。

表5 熱力圖數(shù)據(jù)與統(tǒng)計數(shù)據(jù)的回歸關系

2.3.3人口時空分布估測結(jié)果的對比分析

取 2 點和 16 點兩個時段, 應用基于熱力圖數(shù)據(jù)的人口時空分布估測結(jié)果, 對上述手機信令數(shù)據(jù)估測結(jié)果進行比對。

首先, 以熱力圖數(shù)據(jù)估測得到的常住人口數(shù)為基準, 分別對基于區(qū)縣行政單元和基于基本空間模式單元兩種估測方法得到的人口總量進行標準化縮放處理(分別與熱力圖數(shù)據(jù)估測的常住人口進行求商計算)。兩種估測方法得到的人口總量結(jié)果對比如圖 5 所示。圖 5(a)和(b)分別表示在 2 點和 16 點兩個時段內(nèi), 不同估測結(jié)果之間的量化關系, 可以看出, 兩種估測方法得到的結(jié)果之間呈現(xiàn)一定的線性關系, 16 點時段的線性擬合程度(2=0.50843)優(yōu)于 2 點時段(2=0.32805)。同時, 在不同的時段, 與基于基本空間模式單元的估測結(jié)果相比, 基于區(qū)縣行政單元的估測結(jié)果均存在明顯的高估現(xiàn)象, 這與擴樣率計算的空間尺度有關, 更大的空間尺度導致擴樣率的高估。

進一步地, 通過配對樣本 T 檢驗進行分析, 得到兩兩樣本之間的統(tǒng)計關系, 如表 6 所示??梢钥闯? 基于基本空間模式單元的人口總量和基于區(qū)縣行政單元的人口總量均與基于熱力圖數(shù)據(jù)的估測結(jié)果有顯著性差異(Sig.=0.00)。與基于區(qū)縣得到的人口總量相比, 基于 1km 網(wǎng)格的估測結(jié)果具有更小的均值標準誤差, 即基于基本空間模式單元的人口總量估測結(jié)果更具穩(wěn)定性。

表6 配對樣本T檢驗統(tǒng)計結(jié)果

說明: 表格雙實線以上是基本的樣本統(tǒng)計量, 以下是成對差分后的樣本檢驗結(jié)果。

2.4 人口屬性識別結(jié)果

根據(jù)調(diào)研小區(qū)空間模式的劃分標準, 將北京市主城區(qū)(六環(huán)路以內(nèi))按照 1km 格網(wǎng)空間進行劃分, 最終得到 10 種空間模式, 如圖 6 所示??梢钥闯? 城市的空間模式呈現(xiàn)“中心對稱”和“線狀分布”的特征。各種空間類型圍繞著城市中心, 呈現(xiàn)中心對稱、放射狀的特點, 同時類別 8 和 11 明顯地沿地鐵線路分布, 從城市中心向外延伸, 說明目的地可達性(與城市中心的距離)、交通設施可達性(與最近鄰地鐵站的距離)對城市的模式空間有顯著影響。由于調(diào)研小區(qū)類型的有限性, 部分城市空間未劃分出特定的空間模式。

本文通過構(gòu)建樸素貝葉斯分類器, 對各個空間模式類別中居民的屬性特征進行預測。從調(diào)研數(shù)據(jù)中隨機抽取 2/3 為訓練集, 其余 1/3 為測試集。通過訓練集, 對居民部分屬性特征(性別和年齡)、通勤出行特征(周均工作時長、周均通勤次數(shù)和平均通勤時長)組合的先驗概率進行統(tǒng)計, 對測試集屬性特征(個人月收入、有無子女和就業(yè)類型)出現(xiàn)的后驗概率進行計算, 從而選擇最大后驗概率所對應的屬性類別作為擴充結(jié)果, 預測結(jié)果的準確度如表 7所示。

從表 7 可以看出, 有無子女的預測準確度最高, 平均值為 73.65%, 個人月收入次之, 平均預測準確度為 29.90%, 就業(yè)類型的平均準確度最低, 僅為23.98%。有無子女作為二分類選項, 在調(diào)研結(jié)果中有更充分的樣本集合, 故預測效果較好, 而個人月收入與就業(yè)類型均為四分類選項, 樣本代表性較差, 故平均的預測水平較低。同時, 由于調(diào)研數(shù)據(jù)中就業(yè)類型項的比例分布不均(基礎產(chǎn)業(yè):商業(yè)服務業(yè):公共服務業(yè):建筑與制造業(yè)=1438:971:430:61), 故出現(xiàn)較多的無法預測項。

3 討論與結(jié)論

本文基于空間模式單元, 運用多源數(shù)據(jù)融合的方法, 對人口空間布局進行分時段變化估測, 進而刻畫人口分布的時空間動態(tài)特征, 同時運用機器學習的方法, 實現(xiàn)人口屬性的匹配識別。在此基礎上, 分別對人口總量估測結(jié)果和人口屬性識別結(jié)果進行驗證, 為人口動態(tài)監(jiān)測的測定方法提出建議。

表7 人口屬性預測結(jié)果

以北京市 1km 空間單元為研究對象, 通過手機信令數(shù)據(jù)與人口統(tǒng)計數(shù)據(jù)、問卷調(diào)查數(shù)據(jù)及熱力圖數(shù)據(jù)的融合, 對全時段的人口駐留總量進行估測, 實現(xiàn)人口社會經(jīng)濟屬性的識別。結(jié)果表明: 1)手機信令用戶的駐留總量與基于基本空間單元估測后的人口駐留總量之間存在著明顯的空間差異性; 2)與基于細粒度 1km 空間單元的估測結(jié)果相比, 基于區(qū)縣的傳統(tǒng)估測結(jié)果, 存在明顯的高估現(xiàn)象; 3)針對大數(shù)據(jù)屬性缺失問題, 可以通過機器學習的方法, 從大樣本調(diào)研數(shù)據(jù)中進行學習, 實現(xiàn)預測和補充。

因此, 基于手機信令大數(shù)據(jù)的應用, 我們?yōu)槿丝趧討B(tài)監(jiān)測以及人口屬性識別的測定方法提出以下建議。

1)通過空間尺度的細化, 實現(xiàn)人口總量估測方法的優(yōu)化。在人口總量的估測過程中, 擴樣率是指征用戶代表性的關鍵指標。傳統(tǒng)的估測方法以區(qū)縣的行政區(qū)劃為范圍進行擴樣率的計算(即假設相同區(qū)縣范圍的用戶具有相似的交通出行特征), 具有較大的不確定性和空間變異性。隨著人口空間化理論的發(fā)展, 人口分布空間可以細化至區(qū)縣級尺度以下。構(gòu)建 1km 空間模式單元是值得探討的研究方向, 可以有效地減小空間尺度, 修正假設偏差, 實現(xiàn)任意時空間范圍內(nèi)人口駐留總量的估測。

2) 通過手機信令大數(shù)據(jù)與問卷調(diào)研數(shù)據(jù)的結(jié)合, 實現(xiàn)人口屬性的識別。手機信令等大數(shù)據(jù)記錄了用戶大量的時空間信息, 問卷調(diào)研數(shù)據(jù)則包含豐富的社會經(jīng)濟屬性信息, 二者的有效結(jié)合為人口屬性識別研究提供新的思路。應用機器學習的方法, 構(gòu)建樸素貝葉斯分類器, 可以為二者的結(jié)合提供理論基礎。通過對調(diào)研數(shù)據(jù)的屬性信息和出行特征進行學習和預測, 實現(xiàn)對社會經(jīng)濟屬性(家庭結(jié)構(gòu)、收入和職業(yè))的識別。

本文方法也存在不足之處。由于多源數(shù)據(jù)統(tǒng)計口徑不同, 時空間尺度差異較大, 在數(shù)據(jù)估測計算中存在一定的偏差。在人口動態(tài)分布估測中, 根據(jù)人口統(tǒng)計數(shù)據(jù)(2015 年)和手機信令數(shù)據(jù)(2017 年)進行擴樣率的計算, 由于 2017 年手機信令數(shù)據(jù)用戶量比 2015 年有所增加, 可能在一定程度上造成擴樣率和估測結(jié)果的高估。在人口屬性識別過程中, 由于個別調(diào)研小區(qū)采樣數(shù)量有限以及樣本結(jié)構(gòu)分布并不完全均勻, 導致“個人月收入”和“就業(yè)類型”的估測準確度相對較差。在后續(xù)的研究中, 可以通過統(tǒng)一數(shù)據(jù)采集時間、完善樣本數(shù)量和改善樣本結(jié)構(gòu)來進行優(yōu)化。

人口時空分布特征的動態(tài)監(jiān)測是城市理論研究的重要基礎。本文應用大數(shù)據(jù)在人口樣本量與高分辨率時空間識別的優(yōu)勢, 提出基于空間模式單元的人口動態(tài)分布估測和人口屬性識別技術, 對于開展城市人口分布及其演化的理論研究以及城鄉(xiāng)規(guī)劃設施、商業(yè)網(wǎng)點的布局優(yōu)化具有實踐意義。

[1] 梁亞婷. 基于遙感和GIS的城市人口時空分布研究[D]. 上海: 上海師范大學, 2015

[2] Sun J B, Yuan J, Wang Y, et al. Exploring space–time structure of human mobility in urban space. Physica A: Statistical Mechanics and Its Applications, 2011, 390(5): 929–942

[3] 朱傳耿, 顧朝林, 馬榮華, 等. 中國流動人口的影響要素與空間分布. 地理學報, 2001, 56(5): 549–560

[4] 陸化普. 大城市交通問題的癥結(jié)與出路. 城市發(fā)展研究, 1997(5): 16–20

[5] 陳楠. 基于 GIS 的人口時空分布特征研究[D]. 青島: 山東科技大學, 2005

[6] 肖寶仲. 基于信令分析的智慧城市人流監(jiān)控管理研究[D]. 北京: 北京化工大學, 2013

[7] 李吉墉, 周春山, 楊高. 珠海外來人口分布的時空演變特征研究. 城市學刊, 2018, 39(4): 38–42

[8] 楊振, 雷軍. 1982—2010年烏魯木齊市主城區(qū)人口時空分布特征及模擬. 中國科學院大學學報, 2018, 35(4): 506–514

[9] Bracken I, Martin D. The generation of spatial popu-lation distributions from census centroid data. Environ-ment and Planning A: Economy and Space, 1989, 21 (4): 537–543

[10] 馮甜甜. 基于高分辨率遙感數(shù)據(jù)的城市精細尺度人口估算研究[D]. 武漢: 武漢大學, 2010

[11] 吳健生, 許多, 謝舞丹, 等. 基于遙感影像的中尺度人口統(tǒng)計數(shù)據(jù)空間化——以京津冀地區(qū)為例. 北京大學學報(自然科學版), 2015, 51(4): 707–717

[12] 劉云舒, 趙鵬軍, 梁進社. 基于位置服務數(shù)據(jù)的城市活力研究——以北京市六環(huán)內(nèi)區(qū)域為例. 地域研究與開發(fā), 2018, 37(6): 64–69

[13] 趙鵬軍, 曹毓書. 基于多源LBS數(shù)據(jù)的職住平衡對比研究——以北京城區(qū)為例. 北京大學學報(自然科學版), 2018, 54(6): 1290–1302

[14] 王德, 朱查松, 謝棟燦. 上海市居民就業(yè)地遷移研究——基于手機信令數(shù)據(jù)的分析. 中國人口科學, 2016(1): 80–89

[15] 鐘煒菁, 王德, 謝棟燦, 等. 上海市人口分布與空間活動的動態(tài)特征研究——基于手機信令數(shù)據(jù)的探索. 地理研究, 2017, 36(5): 972–984

[16] 廖順寶, 孫九林. 基于GIS的青藏高原人口統(tǒng)計數(shù)據(jù)空間化. 地理學報, 2003, 58(1): 25–33

[17] Stevens F R, Gaughan A E, Linard C, et al. Disag-gregating census data for population mapping using random forests with remotely-sensed and ancillary data. PLoS ONE, 2015, 10(2): e0107042

[18] 鈕心毅, 王垚, 丁亮. 利用手機信令數(shù)據(jù)測度城鎮(zhèn)體系的等級結(jié)構(gòu). 規(guī)劃師, 2017, 33(1): 50–56

[19] 王德, 鐘煒菁, 謝棟燦, 等. 手機信令數(shù)據(jù)在城市建成環(huán)境評價中的應用——以上海市寶山區(qū)為例. 城市規(guī)劃學刊, 2015(5): 82–90

[20] Niu Xinyi, Ding Liang, Song Xiaodong. Understan-ing urban spatial structure of shanghai central city based on mobile phone data. China City Planning Review, 2015, 24(3): 15–23

[21] 王德, 王燦, 謝棟燦, 等. 基于手機信令數(shù)據(jù)的上海市不同等級商業(yè)中心商圈的比較——以南京東路、五角場、鞍山路為例. 城市規(guī)劃學刊, 2015(3): 50–60

[22] 張?zhí)烊? 基于手機信令數(shù)據(jù)的上海市域職住空間分析. 城市交通, 2016, 14(01): 15–23

[23] Wang H, Calabrese F, Lorenzo G D, et al. Transpor-tation mode inference from anonymized and aggre-gated mobile phone call detail records // 13th Inter-national IEEE Conference on Intelligent Transorta-tion Systems. Funchal, 2010: 318–323

[24] Aguilera V, Allio S, Benezech V, et al. Using cell phone data to measure quality of service and passen-ger flows of Paris transit system. Transportation Research Part C: Emerging Technologies, 2014, 43: 198–211

[25] 冉斌. 手機數(shù)據(jù)在交通調(diào)查和交通規(guī)劃中的應用. 城市交通, 2013, 11(1): 72–81

[26] 甄峰, 王波. “大數(shù)據(jù)”熱潮下人文地理學研究的再思考. 地理研究, 2015, 34(5): 803–811

[27] Pozzi F, Small C. Modeling the distribution of human population with night-time satellite imagery and grid-ded population of the world [C/OL] // Pecora 15/Land Satellite Information IV/ISPRS Commission I/FIEOS 2002 Conference Proceedings. [2019–05–04]. https:// pdfs.semanticscholar.org/035a/a66794b9958f703e6f620f5c4775adf86285.pdf

[28] 王雪梅, 李新, 馬明國. 基于遙感和 GIS 的人口數(shù)據(jù)空間化研究進展及案例分析. 遙感技術與應用, 2004, 19(5): 320–327

[29] Zhao Pengjun. Car use, commuting and urban form in a rapidly growing city: evidence from Beijing. Transportation Planning and Technology, 2011, 34(6): 509–527

[30] Zhao Pengjun. The impact of the built environment on individual workers’ commuting behavior in Beijing. International Journal of Sustainable Transportation, 2013, 7(5): 389–415

[31] Zhao Pengjun. The impact of the built environment on bicycle commuting: evidence from Beijing. Urban Studies, 2014, 51(5): 1019–1037

[32] Ewing R, Cervero R. Travel and the built environ-ent. Journal of the American Planning Association, 2010, 76(3): 265–294

[33] Li Shengxiao, Zhao Pengjun. Exploring car ownership and car use in neighborhoods near metro stations in Beijing: does the neighborhood built environment matter?. Transportation Research Part D: Transport and Environment, 2017, 56: 1–17

[34] 趙鵬軍. 土地集約利用對可持續(xù)城市交通的作用:基于國際文獻理論分析. 城市發(fā)展研究, 2018, 25(9): 108–116

[35] Schwanen T, Deileman F M, Dijst M. The impact of metropolitan structure on commute behavior in the Netherlands: a multilevel approach. Growth and Change, 2004, 35(3): 304–333

[36] Cervero R, Kockelman K. Travel demand and the 3Ds: density, diversity, and design. Transportation Research Part D: Transport and Environment, 1997, 2(3): 199–219

[37] 塔娜, 柴彥威, 關美寶. 建成環(huán)境對北京市郊區(qū)居民工作日汽車出行的影響. 地理學報, 2015, 70(10): 1675–1685

[38] 鄭紅玉, 黃建洪, 卓躍飛, 等. 土地混合利用測度研究進展. 中國土地科學, 2019, 33(3): 95–104

[39] Zhang Mengzhu, Zhao Pengjun. The impact of land-use mix on residents’ travel energy consumption: new evidence from Beijing. Transportation Research Part D: Transport and Environment, 2017, 57: 224–236

[40] Cervero R. Built environments and mode choice: toward a normative framework. Transportation Re-search Part D: Transport and Environment, 2002, 7(4): 265–284

[41] Limtanakool N, Dijst M, Schwanen T. The influence of socioeconomic characteristics, land use and travel time considerations on mode choice for medium- and longer-distance trips. Journal of Transport Geography, 2006, 14(5): 327–341

[42] Handy S. Regional versus local accessibility: implica-tions for nonwork travel [R]. University of California Transportation Center, Working Papers, 1993: 58–66

[43] Owen N, Humpel N, Leslie E, et al. Understanding environmental influences on walking: review and research agenda. American Journal of Preventive Medicine, 2004, 27(1): 67–76

[44] 王豐龍, 王冬根. 北京市居民汽車使用的特征及其影響因素. 地理學報, 2014, 69(6): 771–781

[45] Olszewski P, Wibowo S S. Using equivalent walking distance to assess pedestrian accessibility to transit stations in Singapore. Transportation Research Re-cord, 2005: 38–45

[46] 鄭思齊, 丁文捷, 陸化普. 住房、交通與城市空間規(guī)劃. 城市問題, 2009(1): 29–34

[47] Georggi N L, Pendyala R M. Analysis of long-distance travel behavior of the elderly and low income [C/OL] // E-C026: Personal Travel: The Long and Short of It: Conference Proceedings 2001 [2019–05–08]. http://onlinepubs.trb.org/onlinepubs/circulars/ec0 26/02_georggi.pdf

[48] 中華人民共和國住房和城鄉(xiāng)建設部. 2017 年城鄉(xiāng)建設統(tǒng)計年鑒[EB/OL]. (2019–01–24) [2019–05–08]. http://www.mohurd.gov.cn/xytj/tjzljsxytjgb/jstjnj/

[49] 北京市統(tǒng)計局. 北京市 2016 年國民經(jīng)濟和社會發(fā)展統(tǒng)計公報[EB/OL]. (2017–02–25) [2019–05–08]. http://tjj.beijing.gov.cn/zxfbu/202002/t20200216_1634839.html

[50] 北京交通發(fā)展研究院. 2017北京市交通發(fā)展年度報告[EB/OL]. (2017) [2019–05–08]. http://www.bjtrc. org.cn/List/index/cid/7.html

[51] 董黎明. 城市化與住房問題. 國外城市規(guī)劃, 2001 (3): 21–24

[52] 吳海瑾. 城市化進程中流動人口的住房保障問題研究——兼談推行公共租賃住房制度. 城市發(fā)展研究, 2009, 16(12): 82–85

[53] Arvin M B, Pradhan R P, Norman N R. Transportation intensity, urbanization, economic growth, and CO2emissions in the G-20 countries. Utilities Policy, 2015, 35: 50–66

Using Mobile Phone Data to Estimate the Temporal-Spatial Distribution and Socioeconomic Attributes of Population in Megacities: A Case Study of Beijing

HAI Xiaodong1, LIU Yunshu2,3, ZHAO Pengjun3,?, ZHANG Hui1

1. School of Economics, Peking University, Beijing 100871; 2. Shenzhen Graduate School, Peking University, Shenzhen 518055; 3. College of Urban and Environmental Sciences, Peking University, Beijing 100871; ? Corresponding author, E-mail: pengjun.zhao@pku.edu.cn

This study proposes a technique to identify the temporal-spatial distribution and socioeconomic attributes of population by using mobile phone data. This technique has a fine geographic scale, which is called as Spatial Pattern Unit. The study uses Beijing as a case and conducts an empirical application of the technique. Firstly, it investigates the temporal-spatial distribution of population in Beijing by using multiple data sources, including mobile phone data, travel survey data and heat map data. Secondly, it classifies the spatial pattern unit into different categories in terms of socioeconomic attributes of population and travel behavior features. Thirdly, it applies machine learning approach to estimate socioeconomic attributes of population for all spatial pattern units. Finally, it compares and verifies the results of analysis. The approaches and findings would be valuable to monitoring population distribution, locating business services and planning urban infrastructure.

temporal-spatial distribution of population; estimation of socioeconomic attributes of population; dynamic monitoring; machine learning; mobile phone data

10.13209/j.0479-8023.2020.035

國家自然科學基金(41925003)和北京建筑大學未來城市設計高精尖創(chuàng)新中心項目(udc2018010921)資助

2019–05–10;

2020–01–16

猜你喜歡
信令人口空間
《世界人口日》
人口轉(zhuǎn)型為何在加速 精讀
空間是什么?
創(chuàng)享空間
人口最少的國家
1723 萬人,我國人口數(shù)據(jù)下滑引關注
淺談JSQ-31 V5數(shù)字程控用戶交換機NO.7及NO.1信令參數(shù)設定及不同
LTE網(wǎng)絡信令采集數(shù)據(jù)的分析及探討
QQ空間那點事
空間
泉州市| 民权县| 拜城县| 定结县| 布拖县| 杭锦后旗| 天柱县| 临江市| 天等县| 石林| 诏安县| 湖南省| 黄陵县| 沁水县| 遂川县| 丹巴县| 巫山县| 阳山县| 宜春市| 临江市| 溧阳市| 东光县| 舒兰市| 股票| 宁陕县| 株洲市| 井陉县| 佛山市| 沛县| 绵竹市| 新余市| 大兴区| 襄城县| 酒泉市| 余干县| 荣昌县| 望都县| 重庆市| 通渭县| 屏东县| 霍城县|