国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于手機(jī)大數(shù)據(jù)的城市人口流動(dòng)分析系統(tǒng)

2015-12-02 02:30:04章志剛金澈清
關(guān)鍵詞:居住地區(qū)縣基站

包 婷,章志剛,金澈清

(華東師范大學(xué) 數(shù)據(jù)科學(xué)與工程研究院 上海市高可信計(jì)算重點(diǎn)實(shí)驗(yàn)室,上海 200062)

0 引 言

信息技術(shù)的高速發(fā)展加速了城市化進(jìn)程.在此過程中,城市人口的劇增也加大了城市管理難度,例如交通壓力、就業(yè)壓力等.由于地區(qū)間經(jīng)濟(jì)發(fā)展不均衡,城市內(nèi)部各區(qū)域的功能分工各有不同,導(dǎo)致城市內(nèi)部人口會(huì)大量流動(dòng).受限于地理和社交等因素,人們的行為往往呈現(xiàn)出規(guī)律性[1-3],就是人們?cè)诠ぷ鞯睾途幼〉氐闹芷谛晕恢米冞w[4].通過分析人口流動(dòng)行為以及居民工作地和居住地等信息,有助于優(yōu)化社會(huì)資源分配,應(yīng)對(duì)交通壓力、維護(hù)社會(huì)公共治安.

長期以來,人口流動(dòng)行為研究往往采用如現(xiàn)場(chǎng)觀察調(diào)查、問卷調(diào)查、座談訪談等人工手段,成本高昂且效率不高.隨著智能手機(jī)的不斷發(fā)展與普及,海量的手機(jī)軌跡數(shù)據(jù)為研究城市人口流動(dòng)行為提供了一種新方法.在各大城市中,各個(gè)移動(dòng)通訊運(yùn)營商均布置了多個(gè)基站.當(dāng)用戶接聽/撥打電話、收發(fā)短信或者使用數(shù)據(jù)通訊服務(wù)時(shí),就會(huì)生成基站連接記錄,產(chǎn)生海量的手機(jī)數(shù)據(jù).手機(jī)軌跡數(shù)據(jù)不僅數(shù)量龐大,而且質(zhì)量低下.基站類型多樣,包括微站、宏站、直放站和射頻拉遠(yuǎn)站,覆蓋范圍從幾百米到幾千米不等.而定位精度很大程度上依賴于基站的分布密度及其覆蓋范圍的大小,在不同區(qū)域,基站的分布密度差異顯著.例如市中心區(qū)域的基站密度遠(yuǎn)高于郊區(qū)的基站密度.此外,基站跳變也會(huì)極大地影響手機(jī)軌跡數(shù)據(jù)的質(zhì)量;換言之,如果用戶所處位置恰巧處于多個(gè)基站的服務(wù)范圍之內(nèi),當(dāng)用戶稍微移動(dòng)位置甚至固定在某個(gè)地方時(shí),手機(jī)也會(huì)在多個(gè)基站間切換連接,而我們使用手機(jī)與基站連接日志記錄來判定用戶的移動(dòng)軌跡,這就導(dǎo)致難以真正判定用戶的真實(shí)位置.

盡管手機(jī)定位數(shù)據(jù)是離散和稀疏的,但利用手機(jī)數(shù)據(jù)仍然可以對(duì)人們的行為進(jìn)行高精度的預(yù)測(cè)[5].該結(jié)論為利用手機(jī)數(shù)據(jù)研究城市人口流動(dòng)提供了理論前提.現(xiàn)有工作大都是針對(duì)集中式環(huán)境,無法直接應(yīng)用于海量數(shù)據(jù)環(huán)境.為此,本文提出了一種基于Map/Reduce的分布式框架來對(duì)城市人口流動(dòng)行為進(jìn)行研究分析,具有較好的執(zhí)行效率和可擴(kuò)展性.本文利用運(yùn)營商提供的海量手機(jī)軌跡數(shù)據(jù),對(duì)手機(jī)用戶在城市的流動(dòng)行為進(jìn)行分析和挖掘,同時(shí)對(duì)數(shù)據(jù)進(jìn)行了模糊化處理以滿足用戶的隱私保護(hù)需求,并建立了多個(gè)模型,包括進(jìn)出城市的人口流動(dòng)行為分析模型、市內(nèi)各區(qū)縣間的人口流動(dòng)行為分析模型,特別地,對(duì)區(qū)縣間流動(dòng)行為建立了居民工作地居住地流動(dòng)行為分析模型.這些模型為更好地了解用戶特征,分析城市人口流動(dòng)提供了可能.

1 相關(guān)工作

近年來,已有不少工作針對(duì)手機(jī)軌跡數(shù)據(jù)研究用戶的行為模式.文獻(xiàn)[7]將OD(Origin-Destination,起止)矩陣作為輸入,從手機(jī)軌跡數(shù)據(jù)中提取用戶起止點(diǎn)信息.文獻(xiàn)[8]將移動(dòng)手機(jī)流量關(guān)聯(lián)到交通流量,設(shè)計(jì)GSM(Global System for Mobile Communication)網(wǎng)絡(luò)模擬器來模擬從電話網(wǎng)絡(luò)中提取出的網(wǎng)絡(luò)數(shù)據(jù),將數(shù)據(jù)處理后轉(zhuǎn)化成OD矩陣,從而判定出移動(dòng)行為的起始地點(diǎn).文獻(xiàn)[9]將基站的連接記錄與交通流量相結(jié)合,建立OD矩陣,從而進(jìn)一步分析用戶軌跡.文獻(xiàn)[10]從手機(jī)數(shù)據(jù)中提取用戶每天位置軌跡并轉(zhuǎn)化為活動(dòng)序列,將序列進(jìn)行分類得到用戶活動(dòng)的轉(zhuǎn)移模式.文獻(xiàn)[11]利用近百萬條手機(jī)數(shù)據(jù)提取用戶行為模式并分析不同用戶工作地間的相關(guān)性.文獻(xiàn)[12]利用聚類、回歸的方法分析匿名化的手機(jī)數(shù)據(jù),根據(jù)用戶稀疏的位置信息發(fā)現(xiàn)有意義的重要位置如工作地、居住地.海量的手機(jī)數(shù)據(jù)為分析人們行為提供了可能,文獻(xiàn)[13]利用手機(jī)軌跡數(shù)據(jù)挖掘用戶異常聚集活動(dòng),如異常的社會(huì)活動(dòng)的發(fā)現(xiàn).文獻(xiàn)[14]將手機(jī)數(shù)據(jù)與推薦系統(tǒng)相結(jié)合,挖掘用戶行為模式并向用戶推薦感興趣的社會(huì)活動(dòng).

文獻(xiàn)[15]利用實(shí)時(shí)采集的移動(dòng)手機(jī)數(shù)據(jù)分析城市交通狀況、預(yù)測(cè)行人活動(dòng)序列.社會(huì)經(jīng)濟(jì)水平可以反映出人們住房、教育、健康以及其他基礎(chǔ)服務(wù)情況,文獻(xiàn)[16]利用手機(jī)數(shù)據(jù)聚類分析后的信息來確定社會(huì)經(jīng)濟(jì)水平,并利用SVM和隨機(jī)森林模型來預(yù)測(cè)社會(huì)經(jīng)濟(jì)水平.有很多研究利用手機(jī)數(shù)據(jù)對(duì)交通流量進(jìn)行評(píng)估,但這些研究往往忽視了每輛車可能有多個(gè)手機(jī)的情況,文獻(xiàn)[17]利用聚類的方法判定同一輛車中是否有多臺(tái)手機(jī),從而利用手機(jī)數(shù)據(jù)確定車速、車輛密度等,并對(duì)高速公路交通流量作出更精確評(píng)估.

由于手機(jī)軌跡數(shù)據(jù)數(shù)量龐大且質(zhì)量低下,同時(shí)為了不泄露用戶隱私,移動(dòng)運(yùn)營商往往會(huì)將用戶手機(jī)軌跡數(shù)據(jù)進(jìn)行模糊處理,這些給相關(guān)研究帶來了很大的挑戰(zhàn).本文針對(duì)城市人口流入流出行為展開研究,利用手機(jī)軌跡數(shù)據(jù)發(fā)現(xiàn)用戶行為模式,并挖掘用戶工作地、居住地信息,為今后的研究提供了一種新思路.

2 系統(tǒng)框架結(jié)構(gòu)

本節(jié)介紹系統(tǒng)的框架結(jié)構(gòu),如圖1所示.

圖1 系統(tǒng)框架結(jié)構(gòu)Fig.1 System architecture

構(gòu)建人口流動(dòng)分析平臺(tái)需要使用以下數(shù)據(jù):基站連接日志數(shù)據(jù)、基站信息數(shù)據(jù)、用戶注冊(cè)信息.基站連接日志數(shù)據(jù)描述了用戶每一次手機(jī)連接基站的情況,包括:手機(jī)設(shè)備號(hào)、連接起始時(shí)間、連接基站號(hào)、連接扇區(qū)號(hào)、手機(jī)開關(guān)機(jī)狀態(tài)、加載時(shí)間等字段.基站數(shù)據(jù)描述了基站的基礎(chǔ)信息,包括:基站ID、地理位置、GPS坐標(biāo)、所在行政區(qū)等.用戶注冊(cè)信息包括:用戶身份證號(hào)碼、姓名、手機(jī)號(hào)、性別、出生年月等.

為了保護(hù)用戶隱私和移動(dòng)運(yùn)營商的隱私,在發(fā)布使用數(shù)據(jù)時(shí),本文對(duì)這兩部分?jǐn)?shù)據(jù)進(jìn)行了隱私保護(hù).對(duì)于用戶注冊(cè)信息,隱匿了身份證號(hào)碼和姓名,且對(duì)其手機(jī)號(hào)和基站連接日志中的手機(jī)號(hào)使用了一致的加密手段.為了保護(hù)移動(dòng)運(yùn)營商的基站信息,對(duì)基站位置在不影響功能分析的基礎(chǔ)上做了位置修正.

系統(tǒng)架構(gòu)在設(shè)計(jì)上采用分布式、分層結(jié)構(gòu),包括大數(shù)據(jù)管理層、業(yè)務(wù)邏輯層、應(yīng)用支撐層、界面展示層4層結(jié)構(gòu).

大數(shù)據(jù)管理層使用HBase、Hive、Pig、ZooKeeper來管理基站連接日志.Hadoop集群上使用MapReduce框架來執(zhí)行任務(wù),數(shù)據(jù)庫使用HBase,數(shù)據(jù)倉庫使用Hive,并使用Pig語言來簡(jiǎn)化Hadoop工作任務(wù),使用Zookeeper進(jìn)行集群內(nèi)的協(xié)作服務(wù).

業(yè)務(wù)邏輯層利用數(shù)據(jù)管理層對(duì)手機(jī)數(shù)據(jù)分析處理后輸出的數(shù)據(jù),建立分析模型,包括城市間人口流動(dòng)模型、區(qū)縣間人口流動(dòng)模型、居住地分析模型、工作地分析模型.針對(duì)這四個(gè)模型,對(duì)數(shù)據(jù)進(jìn)行分析處理,訓(xùn)練出相應(yīng)的特征,這些特征可用來表示城市人口在城市間、各區(qū)縣間、居住地/工作地這三個(gè)層次的流動(dòng)情況.

后臺(tái)開發(fā)框架使用集成的Structs.Struts采用Java Servlet/JSP技術(shù),開發(fā)Web應(yīng)用程序的開放源碼的框架.?dāng)?shù)據(jù)庫主要用來存儲(chǔ)后臺(tái)分析好的結(jié)果,本項(xiàng)目采用MySQL數(shù)據(jù)庫,MySQL是開源數(shù)據(jù)庫且體積小、速度快、適用于快速部署.后臺(tái)處理程序使用Java/Python語言編寫,負(fù)責(zé)處理前端發(fā)過來的請(qǐng)求,并從大數(shù)據(jù)平臺(tái)獲取分析結(jié)果,存放到數(shù)據(jù)庫中.系統(tǒng)通過創(chuàng)建腳本文件并將文件加入到任務(wù)計(jì)劃中,實(shí)現(xiàn)周期性更新數(shù)據(jù).

界面展示層用來與用戶進(jìn)行交互,并展示系統(tǒng)分析結(jié)果.網(wǎng)頁效果設(shè)計(jì)采用的主要是Flash技術(shù),使用Flash技術(shù)可以創(chuàng)作出可改變尺寸的導(dǎo)航界面以及其他奇特的效果.本項(xiàng)目采用Flash技術(shù)的主要原因是可以自定義開發(fā),開發(fā)周期短,圖形和動(dòng)畫效果豐富,并且Flash使用向量運(yùn)算的方式,產(chǎn)生出來的文件占用存儲(chǔ)空間較?。到y(tǒng)使用JSON+XML技術(shù)來獲取數(shù)據(jù)庫中的數(shù)據(jù).

3 大數(shù)據(jù)管理

大數(shù)據(jù)管理使用Hadoop這一開源平臺(tái)來實(shí)現(xiàn).如圖2[18]所示,該平臺(tái)集成了HBase、Hive、Pig、Zookeeper等實(shí)用工具,方便了用戶對(duì)數(shù)據(jù)的管理和操作.HBase是Hadoop的數(shù)據(jù)庫,能夠?qū)Υ髷?shù)據(jù)提供隨機(jī)、實(shí)時(shí)的讀寫訪問功能,是一個(gè)高可靠、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng).HBase存儲(chǔ)的數(shù)據(jù)從邏輯上來看就像一張很大的表,并且它的數(shù)據(jù)列可以根據(jù)需要?jiǎng)討B(tài)地增加.Hive是一個(gè)基于Hadoop文件系統(tǒng)之上的數(shù)據(jù)倉庫架構(gòu).它為數(shù)據(jù)倉庫的管理提供了許多功能:數(shù)據(jù)ETL(抽取、轉(zhuǎn)換和加載)工具、數(shù)據(jù)存儲(chǔ)管理和大型數(shù)據(jù)集的查詢和分析能力.同時(shí),Hive定義了類SQL的語言——Hive QL.Hive QL允許用戶進(jìn)行和SQL相似的操作,還允許開發(fā)人員方便地使用map和reduce操作,這對(duì)Map/Reduce框架是一個(gè)強(qiáng)有力的支持.Hive本身建立在Hadoop的體系架構(gòu)上,可將外部命令解析成一個(gè)Map/Reduce可執(zhí)行計(jì)劃.Pig為大型數(shù)據(jù)集的處理提供了更高層次的抽象,它提供了一套強(qiáng)大的數(shù)據(jù)變換操作,這些操作整體上描述了一組數(shù)據(jù)流到另一組數(shù)據(jù)流的轉(zhuǎn)換,而這些轉(zhuǎn)換操作被轉(zhuǎn)換成一系列的Map/Reduce作業(yè),這樣一來使得程序員僅僅需要編寫簡(jiǎn)單的腳本代碼,就能輕松處理TB級(jí)的數(shù)據(jù)集[18].此外,Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)處理變得非常簡(jiǎn)單.

圖2 大數(shù)據(jù)管理的技術(shù)框架Fig.2 Technical architecture of data management

為方便各種分析任務(wù)對(duì)用戶信息和基站信息的實(shí)時(shí)查詢,本系統(tǒng)將用戶的注冊(cè)信息和和基站的信息存放在HBase中.同時(shí),將用戶連接基站數(shù)據(jù)存放在HDFS上,并導(dǎo)入到Hive所構(gòu)建的數(shù)據(jù)倉庫中進(jìn)行管理.為了滿足各種任務(wù)分析需求,本系統(tǒng)提供了3種數(shù)據(jù)操作方式:首先,對(duì)于簡(jiǎn)單的數(shù)據(jù)查詢使用Hive QL命令來進(jìn)行操作.比如查詢指定用戶某天連接過哪些基站,使用Hive QL編寫一句查詢語句就能完成任務(wù);其次,對(duì)于批處理任務(wù),本系統(tǒng)通過Pig腳本程序?qū)崿F(xiàn).比如,由于用戶連接基站數(shù)據(jù)每天會(huì)批量更新,如果想知道用戶每天都出現(xiàn)在哪些區(qū)縣.在實(shí)現(xiàn)該任務(wù)時(shí)涉及到兩個(gè)數(shù)據(jù)的連接操作,這時(shí)使用Pig腳本程序能夠方便的完成上述分析任務(wù);最后,對(duì)于復(fù)雜分析任務(wù),通過編寫Map/Reduce程序?qū)Υ娣旁贖DFS的數(shù)據(jù)進(jìn)行操作,比如需要從用戶連接基站歷史記錄中分析出用戶的居住地時(shí),Hive QL和Pig程序無法滿足需求,這時(shí)就需要用戶自己編寫Map/Reduce程序完成分析.

4 模型分析

本節(jié)介紹本系統(tǒng)所涉及到的各個(gè)分析模型.人口流動(dòng)的分析涉及范圍很廣,包括城市的流入流出分析、城市內(nèi)部各區(qū)縣間人口流動(dòng)分析和用戶居住地/工作地分析.系統(tǒng)分別建立了三個(gè)相應(yīng)的數(shù)據(jù)分析模型.

4.1 城市流入流出模型分析

本文提出了一種利用手機(jī)軌跡數(shù)據(jù)監(jiān)測(cè)人口流動(dòng)的方法,處理框架如圖3所示.首先對(duì)基站連接數(shù)據(jù)進(jìn)行預(yù)處理,以降低手機(jī)基站數(shù)據(jù)低質(zhì)問題的影響,然后分析進(jìn)出城市的行為模式,利用分析分類模型判定用戶軌跡是否進(jìn)出城市.

(1)數(shù)據(jù)預(yù)處理

該過程是為了減小基站定位不準(zhǔn)以及信號(hào)跳變?cè)斐傻挠绊?,本系統(tǒng)分析手機(jī)基站數(shù)據(jù)特點(diǎn),挖掘出用戶的重要停留區(qū)域,由此降低用戶在該區(qū)域范圍內(nèi)的信號(hào)定位不準(zhǔn)以及信號(hào)頻繁跳變問題的影響.將這些停留區(qū)域按時(shí)序串聯(lián)以構(gòu)成用戶的活動(dòng)軌跡.?dāng)?shù)據(jù)預(yù)處理部分包括三步:①去除異常點(diǎn)與建立移動(dòng)軌跡;②挖掘用戶活動(dòng)軌跡;③建立樞紐區(qū)域和邊境區(qū)域.

圖3 進(jìn)出城市人口流動(dòng)處理框架Fig.3 Processing framework of population flow among cities

(2)進(jìn)出城市流動(dòng)分析

用戶行為軌跡復(fù)雜,本文通過分析用戶進(jìn)出城市的軌跡行為特點(diǎn),與非進(jìn)入非離開城市行為進(jìn)行對(duì)照,挖掘軌跡特征.具體特征如下:

1)信號(hào)消失時(shí)長 相鄰兩停留點(diǎn)之間的時(shí)間間隔.

2)樞紐區(qū)域出現(xiàn)概率 用戶進(jìn)入或離開城市時(shí),在某交通樞紐處(如火車站、機(jī)場(chǎng)等)出現(xiàn)的可能性.

3)樞紐區(qū)域停留指數(shù) 用戶在某樞紐區(qū)的停留程度.

4)是否在邊境區(qū)域出現(xiàn) 用戶的手機(jī)信號(hào)消失或出現(xiàn)時(shí),是否與城市邊境處的基站進(jìn)行連接交互.

5)與居住地和工作地的平均距離 手機(jī)信號(hào)消失或出現(xiàn)時(shí),用戶與其居住地和工作地之間的平均距離.

用戶進(jìn)出城市的行為必定發(fā)生在某一信號(hào)消失時(shí)段的前后,因此本文針對(duì)信號(hào)消失時(shí)段的前后,分別得到用戶的離開行為特征向量和進(jìn)入行為特征向量,然后利用標(biāo)注數(shù)據(jù)訓(xùn)練分類模型(如決策樹、邏輯回歸等),之后運(yùn)用分類模型的訓(xùn)練結(jié)果進(jìn)行軌跡行為判定,最終判定用戶在某時(shí)刻是否進(jìn)入或離開了城市[19].

4.2 城市各區(qū)縣間人口流動(dòng)模型分析

區(qū)縣間人口分析框架如圖4所示.首先同樣需要進(jìn)行數(shù)據(jù)預(yù)處理,處理方法與城市間人口流動(dòng)數(shù)據(jù)預(yù)處理方式一致,然后通過分析各區(qū)縣間人口流動(dòng)判定用戶在區(qū)縣間流動(dòng)情況.

針對(duì)某一用戶的行為軌跡,數(shù)據(jù)預(yù)處理階段可得到該用戶的多個(gè)重要停留區(qū),用戶在這些區(qū)域中有較大的可能性進(jìn)行活動(dòng),停留的時(shí)間較長.本文將這些重要的停留區(qū)域用圓表示,這些圓的圓心所在的區(qū)縣即為用戶的停留區(qū)縣,將處于同一區(qū)縣并且時(shí)間上相隔小于一定閾值的停留區(qū)域進(jìn)行狀態(tài)合并,即可得到該用戶的區(qū)縣停留狀態(tài),該狀態(tài)信息中包括區(qū)縣ID和停留的起止時(shí)間.

由于用戶去往目的區(qū)縣的過程中可能會(huì)經(jīng)過某些“經(jīng)過區(qū)”,例如某用戶從普陀出發(fā),去往閔行上班,途中經(jīng)過長寧區(qū)和徐匯區(qū),這兩個(gè)區(qū)即為“經(jīng)過區(qū)”.在分析用戶在區(qū)縣間流入流出行為時(shí),需過濾“經(jīng)過區(qū)”,以挖掘用戶行走路線的真正意圖.上述過程所得的停留區(qū)縣即為用戶真正的活動(dòng)區(qū)縣,“經(jīng)過區(qū)”不構(gòu)成停留區(qū)縣狀態(tài),因此時(shí)間上相鄰的兩個(gè)停留區(qū)縣間的狀態(tài)轉(zhuǎn)移伴隨著用戶的一次離開區(qū)縣和進(jìn)入另一區(qū)縣的行為.最后通過匯總?cè)w數(shù)據(jù)集中用戶所有停留區(qū)縣間的狀態(tài)轉(zhuǎn)移情況,即可得到在各個(gè)時(shí)間段內(nèi)的不同區(qū)縣間的人口流動(dòng)情況[19].

圖4 區(qū)縣間人口流動(dòng)處理框架Fig.4 Processing framework of population flow among districts

4.3 居民工作地、居住地模型分析

為了發(fā)現(xiàn)用戶工作地居住地信息,本文提出了一個(gè)基于Map/Reduce的框架,該處理框架主要包含4個(gè)步驟:①過濾各個(gè)用戶的軌跡記錄;②找出包含工作地、居住地的候選區(qū)域;③調(diào)用傳統(tǒng)聚類算法對(duì)候選區(qū)域進(jìn)行聚類操作;④從聚類結(jié)果中發(fā)現(xiàn)工作地、居住地信息.同時(shí),本文在該框架中分別嵌入了兩種不同的發(fā)現(xiàn)策略,即:GPMA和SPMA.這個(gè)分布式挖掘框架主要思路是:首先,通過Map/Reduce編程模型將同一個(gè)用戶在總時(shí)間內(nèi)的連接記錄,合并到同一個(gè)計(jì)算節(jié)點(diǎn).然后,選擇合適的位置范圍化方法,針對(duì)用戶原始連接基站的記錄使用狀態(tài)生成算法生成狀態(tài)序列.接著,根據(jù)停留時(shí)間和停留次數(shù),刪除那些不滿足給定閾值的狀態(tài),從剩下的狀態(tài)所對(duì)應(yīng)的區(qū)域中找出那些可能包含工作地、居住地位置的候選區(qū)域.最后,對(duì)找出的候選區(qū)域繼續(xù)聚類,從聚類結(jié)構(gòu)中分析出用戶的工作地、居住地信息.

針對(duì)基于網(wǎng)格范圍和基于基站覆蓋范圍的兩種區(qū)域范圍化方法,利用提出的分布式挖掘框架,設(shè)計(jì)了兩種并行挖掘算法:GPMA算法和SPMA算法.GPMA算法首先將整個(gè)區(qū)域進(jìn)行柵格化,然后將用戶連接基站的情況映射為在各個(gè)網(wǎng)格內(nèi)的停留狀態(tài),停留狀態(tài)包含停留的網(wǎng)格號(hào)、起始停留時(shí)間、結(jié)束停留時(shí)間.由于精度和基站跳變的原因,則認(rèn)為該用戶停留在某網(wǎng)格中時(shí),實(shí)際所處位置也有可能是該網(wǎng)格的鄰居網(wǎng)格.SPMA算法利用基站覆蓋范圍來表示用戶所在區(qū)域范圍,它將用戶連接基站的情況轉(zhuǎn)換為連接各個(gè)基站的序列.GPMA算法思想的想法比較簡(jiǎn)單直觀,但該方法將同一網(wǎng)格中的基站等同看待,這會(huì)加大所得工作地、居住地位置的偏差.而SPMA算法克服了這一問題,它將每一個(gè)基站單獨(dú)看待,每一個(gè)基站可以有不同的覆蓋范圍.當(dāng)用戶連接到某基站時(shí),則用戶可以確定用戶在該基站的覆蓋范圍內(nèi),同時(shí)由于基站切換原因,用戶也可能在該基站鄰居的覆蓋范圍內(nèi)[20].

5 界面展示

圖5是城市各區(qū)縣間人口流動(dòng)展示界面.為了提高用戶與系統(tǒng)的交互性,用戶可直接點(diǎn)擊地圖上的相應(yīng)區(qū)縣直接選擇,查看其它各區(qū)縣流入到該區(qū)縣或者該區(qū)縣流出到其他區(qū)縣的人口流量.默認(rèn)展示的是當(dāng)天的人口流量.系統(tǒng)后端進(jìn)行數(shù)據(jù)處理后將結(jié)果保存在MySQL數(shù)據(jù)庫中,并編寫腳本文件實(shí)現(xiàn)系統(tǒng)數(shù)據(jù)的周期性更新.前端采用XML+JSON技術(shù)獲取所需數(shù)據(jù),考慮到系統(tǒng)的多模塊性以及用戶所選時(shí)間段的多樣性,采用分模塊加載數(shù)據(jù),提高系統(tǒng)的響應(yīng)速度,提供良好的用戶體驗(yàn).

圖5 人口流動(dòng)界面對(duì)比圖Fig.5 Contrast figure of interface of population flowing

圖6是系統(tǒng)的數(shù)據(jù)對(duì)比圖模塊,分別從上海市、各區(qū)縣的角度來動(dòng)態(tài)展示不同時(shí)期的人口流動(dòng)對(duì)比情況.系統(tǒng)提供了月與月間、周末與工作日間的對(duì)比,多樣化的展示人口流動(dòng)的變化情況.系統(tǒng)設(shè)計(jì)了簡(jiǎn)單查詢與復(fù)合查詢兩種查詢功能.簡(jiǎn)單查詢提供按照時(shí)間的查詢,復(fù)合查詢提供區(qū)縣、時(shí)間的組合查詢.用戶可根據(jù)自身需求采用相應(yīng)查詢方法,獲取所需數(shù)據(jù).

圖6 數(shù)據(jù)對(duì)比圖Fig.6 Contrast figure of data

6 總 結(jié)

本文利用大數(shù)據(jù)平臺(tái)分析用戶的手機(jī)軌跡數(shù)據(jù),挖掘用戶的行為模式,設(shè)計(jì)了基于傳統(tǒng)數(shù)據(jù)倉庫、Hadoop集群和MySQL數(shù)據(jù)庫的上海市人口流動(dòng)分析平臺(tái),包括三個(gè)分析模塊,分別是城市間人口流動(dòng)分析模塊、區(qū)縣間人口流動(dòng)分析模塊、工作地/居住地流動(dòng)分析模塊.在分析城市間人口流動(dòng)時(shí),提出了在分布式框架下的基于軌跡行為特征的判定算法;在分析區(qū)縣間人口流動(dòng)時(shí),對(duì)用戶在區(qū)縣間流動(dòng)行為加以分析;對(duì)工作地、居住地進(jìn)行分析時(shí),介紹了兩種挖掘重要位置信息的算法:GPMA和SPMA.本文為有效、準(zhǔn)確分析城市人口行為提供了有力支持.

[1]GONZALEZ M C,HIDALGO C A,BARABASI A L.Understanding individual human mobility patterns[J].Nature,2008,453(7196):779-782.

[2]SONG C,QU Z,BLUMM N,et al.Limits of predictability in human mobility[J].Science,2010,327(5968):1018-1021.

[3]SONG C,KOREN T,WANG P,et al.Modelling the scaling properties of human mobility[J].Nature Physics,2010,6(10):818-823.

[4]LI Z,DING B,HAN J,et al.Mining periodic behaviors for moving objects[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2010:1099-1108.

[5]陳佳,胡波,左小清,等.利用手機(jī)定位數(shù)據(jù)的用戶特征挖掘[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2014,39(6):734-738.

[6]ASHBROOK D,STARNER T.Using GPS to learn significant locations and predict movement across multiple users[J].Personal and Ubiquitous Computing,2003,7(5):275-286.

[7]WHITE J,WELLS I.Extracting origin destination information from mobile phone data[C]//11th International Conference on Road Transport Information and Control,2002:30-34.

[8]CACERES N,WIDEBERG J P,BENITEZ F G.Deriving origin destination data from a mobile phone network[J].Intelligent Transport Systems,IET,2007,1(1):15-26.

[9]IQBAL M S,CHOUDHURY C F,WANG P,et al.Development of origin-destination matrices using mobile phone call data[J].Transportation Research Part C Emerging Technologies,2014,40(1):63-74.

[10]LIU F,JANSSENS D,CUI J X,et al.Building a validation measure for activity-based transportation models based on mobile phone data[J].Expert Systems with Applications,2014,41(14):6174-6189.

[11]PHITHAKKITNUKOON S,HORANONT T,LORENZO G D,et al.Activity-aware map:identifying human daily activity pattern using mobile phone data[C]//Proceedings of the First international conference on Human behavior understanding.Springer-Verlag,2010:14-25.

[12]ISAACMAN S,BECKER R,CACERES R,et al.Identifying Important Places in People′s Lives from Cellular Network Data[J].Lecture Notes in Computer Science,2011,6696:133-151.

[13]TRAAG V A,BROWET A,CALABRESE F,et al.Social Event Detection in Massive Mobile Phone Data Using Probabilistic Location Inference[C]//Proceedings of the Third IEEE International Conference on Social Computing,2011:9-11.

[14]QUERCIA D,LATHIA N,CALABRESE F,et al.Recommending social events from mobile phone location data[C]//Proceedings of the 10th International Conference on Data Mining(ICDM),2010:971-976.

[15]CALABRESE F,COLONNA M,LOVISOLO P,et al.Real-Time Urban Monitoring Using Cell Phones:A Case Study In Rome[J].IEEE Transactions on Intelligent Transportation Systems,2011,12(1):141-151.

[16]SOTO V,F(xiàn)RIAS-MARTINEZ V,VIRSEDA J,et al.Prediction of Socioeconomic Levels Using Cell Phone Records[J].Lecture Notes in Computer Science,2011,6787:377-388.

[17]HONGYAN G,F(xiàn)ASHENG L.Estimating freeway traffic measures from mobile phone location data[J].European Journal of Operational Research,2013,229(1):252-260.

[18]陸嘉恒.Hadoop實(shí)戰(zhàn)[M].第2版.北京:機(jī)械工業(yè)出版社,2012:85-329.

[19]孔揚(yáng)鑫.手機(jī)軌跡數(shù)據(jù)的人口流動(dòng)分析[R].上海:華東師范大學(xué)軟件工程學(xué)院,2015.

[18]章志剛.面向海量手機(jī)軌跡數(shù)據(jù)的重要位置發(fā)現(xiàn)[R].上海:華東師范大學(xué)軟件工程學(xué)院,2015.

猜你喜歡
居住地區(qū)縣基站
鳥類居住地
麋鹿&大象
Binturong熊貍
可惡的“偽基站”
區(qū)縣電視臺(tái)如何做好重大賽事報(bào)道
新聞傳播(2016年20期)2016-07-10 09:33:31
基于GSM基站ID的高速公路路徑識(shí)別系統(tǒng)
小基站助力“提速降費(fèi)”
北京:上游水質(zhì)不合格 下游區(qū)縣將收補(bǔ)償金
中國水利(2015年13期)2015-02-28 15:14:04
基站輻射之爭(zhēng)亟待科學(xué)家發(fā)聲
山東:符合條件外來人口可在居住地申請(qǐng)低保
綠色中國·B(2014年9期)2015-01-30 21:25:07
安图县| 新密市| 北宁市| 河南省| 嵊泗县| 庄浪县| 桂平市| 泉州市| 邳州市| 垫江县| 磐石市| 武宁县| 仁寿县| 威信县| 阜宁县| 乌拉特中旗| 昌都县| 河间市| 昭苏县| 石楼县| 梨树县| 大关县| 广德县| 康乐县| 罗江县| 凤台县| 海伦市| 阿拉善盟| 东台市| 炉霍县| 依兰县| 特克斯县| 江陵县| 韩城市| 修水县| 崇阳县| 九寨沟县| 轮台县| 双城市| 出国| 和静县|