国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖數(shù)據(jù)庫的公交出行行為分析

2019-07-25 02:25:18屈新明丘建棟譚章智董紹軒
智能城市 2019年13期
關(guān)鍵詞:公交站點(diǎn)公交線路刷卡

屈新明 郭 鵬 丘建棟 譚章智 董紹軒

(1. 深圳市城市交通規(guī)劃設(shè)計(jì)研究中心有限公司,廣東 深圳 518021;2. 中交第二公路勘察設(shè)計(jì)研究院有限公司,湖北 武漢 430056)

關(guān)鍵字:圖數(shù)據(jù)庫;Neo4j;IC卡數(shù)據(jù);公交出行行為

近年來隨著大數(shù)據(jù)挖掘分析技術(shù)的快速發(fā)展,在各領(lǐng)域處理復(fù)雜網(wǎng)狀關(guān)系的挖掘分析需求逐漸增加[1]。在面向復(fù)雜場景下數(shù)據(jù)關(guān)聯(lián)挖掘分析中,主流的關(guān)系型數(shù)據(jù)庫并不是都適用于場景分析,尤其是在多維關(guān)聯(lián)查詢分析時(shí),關(guān)系型數(shù)據(jù)庫效率較低[2]。隨著圖數(shù)據(jù)庫的快速發(fā)展[3-5],為數(shù)據(jù)挖掘分析提供了新的解決方案。郝培豪[6]研究分析了圖數(shù)據(jù)庫的警務(wù)安保知識(shí)圖譜可視化分析;康杰華[7]研究分析了圖形數(shù)據(jù)庫Neo4j的RDF數(shù)據(jù)存儲(chǔ);柴博[8]等人研究分析了基于圖數(shù)據(jù)庫的電力通信網(wǎng)絡(luò)運(yùn)行方式建模;張蕓蕓[9]等人研究了基于Neo4j圖譜的信用卡欺詐檢測。

目前圖數(shù)據(jù)庫在交通中的應(yīng)用較少,在公交出行行為分析方面,游婷[10]等人研究了基于公交IC卡信息的公交客流推算;孫世超[11]研究基于宏微觀數(shù)據(jù)嵌套的公交用戶細(xì)分方法;秦政[12]研究基于公交IC卡和GPS數(shù)據(jù)的乘客上下車站點(diǎn)提??;馬曉磊[13]研究了基于公交IC卡數(shù)據(jù)的上車站點(diǎn)推算。

本文將探索圖數(shù)據(jù)庫在公交出行行為分析中的應(yīng)用,利用Neo4j圖數(shù)據(jù)庫對深圳市某一工作日的公交刷卡數(shù)據(jù),公交線路數(shù)據(jù)進(jìn)行建模分析,挖掘識(shí)別公交出行行為,并對比分析了相同分析場景下ORACLE數(shù)據(jù)庫與Neo4j圖數(shù)據(jù)庫的查詢效率。

1 圖數(shù)據(jù)庫簡介

1.1 圖數(shù)據(jù)庫介紹

圖數(shù)據(jù)庫是基于圖形理論實(shí)現(xiàn)的一種非關(guān)系型數(shù)據(jù)庫,它的底層數(shù)據(jù)存儲(chǔ)和與查詢方式都是以圖論為基礎(chǔ),其中圖論中的基礎(chǔ)元素為節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊,在圖數(shù)據(jù)庫中對應(yīng)的就是節(jié)點(diǎn)和關(guān)系。圖形數(shù)據(jù)庫作為一種非關(guān)系型數(shù)據(jù)庫,將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò) (圖) 上而不是關(guān)系型數(shù)據(jù)庫中的表,常見的有Neo4j、FlockDB、AllegroGraph、GraphDB、InfiniteGraph、TigerGraph、騰訊星圖等。Neo4j是由Java實(shí)現(xiàn)的開源圖數(shù)據(jù)庫,實(shí)現(xiàn)了專業(yè)數(shù)據(jù)庫界別的圖數(shù)據(jù)模型存儲(chǔ),并提供完整的數(shù)據(jù)庫特性,是目前生產(chǎn)環(huán)境中主流的圖數(shù)據(jù)庫引擎,由于開源特性及其豐富的文檔,本文將使用Neo4j構(gòu)建公交出行圖數(shù)據(jù)庫場景。

1.2 圖數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫的區(qū)別

關(guān)系型數(shù)據(jù)庫與Neo4j建庫示意如圖1所示。

圖1 關(guān)系型數(shù)據(jù)庫與Neo4j建庫示意

關(guān)系型數(shù)據(jù)庫通過外鍵記錄兩個(gè)表或者多個(gè)表之間的引用關(guān)系,在進(jìn)行關(guān)聯(lián)查詢時(shí)通過外鍵在主表中尋找對應(yīng)的主鍵記錄進(jìn)行數(shù)據(jù)搜索與匹配計(jì)算操作,關(guān)聯(lián)查詢時(shí)將會(huì)耗費(fèi)大量系統(tǒng)計(jì)算資源,尤其是在多表關(guān)聯(lián)查詢場景下查詢效率極低。關(guān)系型數(shù)據(jù)庫中多對多關(guān)系需要使用中間表,查詢效率進(jìn)一步下降。圖數(shù)據(jù)庫使用圖論存儲(chǔ)節(jié)點(diǎn)和節(jié)點(diǎn)之間的關(guān)系,而每個(gè)節(jié)點(diǎn)都包含對應(yīng)的關(guān)系列表,用于存放該節(jié)點(diǎn)與其他節(jié)點(diǎn)的關(guān)系,節(jié)點(diǎn)之間的關(guān)聯(lián)挖掘分析直接基于圖論進(jìn)行搜索分析,在復(fù)雜數(shù)據(jù)挖掘分析效率上遠(yuǎn)高于關(guān)系型數(shù)據(jù)庫。

2 公交出行行為場景建模

2.1 基礎(chǔ)數(shù)據(jù)

基礎(chǔ)數(shù)據(jù)為公交線路Busline表和公交刷卡記錄IC_card_record表,其中,Busline表包含了深圳市約1 000條公交線路對應(yīng)站點(diǎn)數(shù)據(jù),IC_card_record表為深圳市某個(gè)工作日約300萬條刷卡記錄,刷卡記錄已經(jīng)匹配下車站點(diǎn)信息。公交線路如表1所示,公交刷卡記錄如表2所示。

表1 公交線路表

表2 公交刷卡記錄表

2.2 建??蚣?/h3>

將公交出行行為關(guān)聯(lián)數(shù)據(jù)抽象成如圖2所示的建??蚣堋?/p>

圖2 公交出行行為場景建??蚣?/p>

其中實(shí)體包含:公交車輛、 公交站點(diǎn)、公交線路、IC卡(公交出行者)、刷卡記錄;關(guān)系包含:公交車輛—公交線路(屬于)、公交線路-公交站點(diǎn)(經(jīng)過)、IC卡-刷卡出行(出行)、公交站點(diǎn)-刷卡出行(上車)、公交站點(diǎn)-公交站點(diǎn)(相鄰)、刷卡出行-公交站點(diǎn)(下車),場景建模規(guī)模達(dá)到5 00萬節(jié)點(diǎn),1 000萬條邊。

2.3 節(jié)點(diǎn)建模

將原始數(shù)據(jù)兩張表轉(zhuǎn)為圖數(shù)據(jù)庫對應(yīng)的節(jié)點(diǎn),其中數(shù)據(jù)表中的一條記錄對應(yīng)圖數(shù)據(jù)庫中的一個(gè)節(jié)點(diǎn),整個(gè)數(shù)據(jù)表對應(yīng)圖數(shù)據(jù)庫中某一節(jié)點(diǎn)集合(標(biāo)簽)。

公交車輛實(shí)體:從IC_card_record表中提取vehicle標(biāo)簽(去重),單個(gè)節(jié)點(diǎn)僅包含vehicle_id屬性。

公交線路實(shí)體:從busline表中提取line標(biāo)簽,單個(gè)節(jié)點(diǎn)包含line_id、line_name、dir、line_dir_name等屬性。

公交站點(diǎn)實(shí)體:從busline表中提取station標(biāo)簽,單個(gè)節(jié)點(diǎn)包含:station_id、station_name、lng、lat等屬性。

刷卡記錄實(shí)體: 從ride表中提取ride標(biāo)簽, 單個(gè)節(jié)點(diǎn)包含:ride_id、card_id兩個(gè)屬性。

IC卡標(biāo)簽實(shí)體:從IC_card_record表中提取card標(biāo)簽(去重),單個(gè)節(jié)點(diǎn)僅包含card_id屬性。

2.4 關(guān)系建模

根據(jù)基礎(chǔ)數(shù)據(jù)中的兩張表處理節(jié)點(diǎn)之間的對應(yīng)關(guān)系。

公交車輛—>公交線路(屬于關(guān)系):從IC_card_record表中提取公交車輛與公交線路的屬于關(guān)系(去重),關(guān)系匹配字段為vehicle_id—>line_id。

公交線路—>公交站點(diǎn)(經(jīng)過關(guān)系):從busline表中描述了每條公交線路經(jīng)過公交站點(diǎn)的關(guān)系,關(guān)系匹配字段為line_id—>station_id,關(guān)系屬性包含station_index。

公交站點(diǎn)—>刷卡記錄(上車關(guān)系):從IC_card_record表中提取公交站點(diǎn)與刷卡記錄的上車關(guān)系,匹配字段為station_id—>ride_id, 關(guān) 系 屬 性 包 含line_id,up_station_index,up_day,up_min。

刷卡記錄—>公交站點(diǎn)(下車關(guān)系):從IC_card_record表中提取刷卡記錄與公交站點(diǎn)的下車關(guān)系,匹配字段為ride_id—> station_id,關(guān)系屬性包含line_id、down_station_index、down_day、down_min。

IC卡—>刷卡記錄(出行關(guān)系):從IC_card_record表中提取IC卡與刷卡記錄出行關(guān)系,匹配字段為card_id—>card_id。

公交站點(diǎn)-公交站點(diǎn)(相鄰):從busline表中根據(jù)經(jīng)緯度坐標(biāo)記錄公交站點(diǎn)之間的相鄰關(guān)系,匹配字段為station_id—station_id。

3 公交出行行為分析

3.1 同乘人員識(shí)別

識(shí)別提取早高峰遠(yuǎn)距離同乘人員,根據(jù)圖數(shù)據(jù)庫挖掘分析早高峰(7:30~9:00)、長距離(大于10個(gè)站)的同乘人員(同一站點(diǎn)上車、同一站點(diǎn)下車)情況。同乘人員識(shí)別分析結(jié)果如表3所示。

表3 同乘人員識(shí)別分析結(jié)果

分析結(jié)果表明,早高峰乘坐公交長距離出行到科技園站的人較多,可以進(jìn)一步優(yōu)化預(yù)約巴士地到發(fā)班次。

3.2 站點(diǎn)最大公交客流提取識(shí)別

提取識(shí)別全天點(diǎn)對點(diǎn)最大公交客流情況,支撐公交站點(diǎn)線路優(yōu)化,其中采用ORACLE查詢時(shí)間為3.214 s,Neo4j查詢時(shí)間為25.637 s,單表之間的查詢中Neo4j性能低于ORACLE數(shù)據(jù)庫。站點(diǎn)最大客流提取識(shí)別如表4所示。

表4 站點(diǎn)最大客流提取識(shí)別

3.3 關(guān)聯(lián)查詢識(shí)別

在Neo4j中進(jìn)行多表關(guān)聯(lián)查詢,查詢科技園公交站周邊鄰近站點(diǎn)經(jīng)過的各條公交線路擁有的車輛數(shù),用于提取各公交線路運(yùn)行車輛數(shù)。關(guān)聯(lián)查詢識(shí)別如表5所示,關(guān)聯(lián)識(shí)別框架如圖3所示。

表5 關(guān)聯(lián)查詢識(shí)別

圖3 關(guān)聯(lián)識(shí)別框架

其中,采用ORACLE查詢時(shí)間為2.403 s,Neo4j查詢時(shí)間為0.142 s,多維關(guān)聯(lián)查詢中Neo4j性能遠(yuǎn)高于ORACLE數(shù)據(jù)庫。

3.4 站點(diǎn)群之間的公交出行量識(shí)別

根據(jù)站點(diǎn)之間的鄰近關(guān)系,識(shí)別提取公交站點(diǎn)群之間的公交出行量,支撐預(yù)約巴士開通與線路優(yōu)化。直接通過ORACLE數(shù)據(jù)庫無法單獨(dú)完成查詢檢索,基于Neo4j可直接查詢,得到分析結(jié)果。公交站點(diǎn)群之間的出行量識(shí)別結(jié)論如圖4所示。

圖4 公交站點(diǎn)群之間的出行量識(shí)別結(jié)論

4 結(jié)語

本文基于圖數(shù)據(jù)庫Neo4j構(gòu)建了公交出行行為分析場景建模,對深圳市1 000條公交線路,一天工作日的公交刷卡數(shù)據(jù)進(jìn)行建模分析,建模規(guī)模達(dá)到500萬節(jié)點(diǎn),1 000萬條邊。在不同的公交出行行為場景分析中對比分析了ORACLE數(shù)據(jù)庫與Neo4j的查詢性能,多維關(guān)聯(lián)查詢中Neo4j性能遠(yuǎn)高于ORACLE數(shù)據(jù)庫,基于圖數(shù)據(jù)庫可以方便高效實(shí)現(xiàn)復(fù)雜數(shù)據(jù)的關(guān)聯(lián)挖掘分析。

本文僅對深圳市一天工作日的公交刷卡數(shù)據(jù)進(jìn)行建模分析,后續(xù)將構(gòu)建更為復(fù)雜建模場景,構(gòu)建交通知識(shí)圖譜。

猜你喜歡
公交站點(diǎn)公交線路刷卡
合肥市高鐵南站公交線路優(yōu)化研究
世界家苑(2020年5期)2020-06-15 11:13:34
基于GIS的哈爾濱市118路公交站點(diǎn)選址優(yōu)化
刷卡
成長日記
對十堰市城區(qū)公交站點(diǎn)命名情況的調(diào)查與思考
青島至萊西全國首條純電動(dòng)城際公交線路開通 移動(dòng)的環(huán)?!跋洹?綠色出行有保障
城市軌道交通車站聯(lián)合配置短駁道路公交線路的方法
刷臉就可以購物
奧秘(2014年8期)2014-08-30 06:32:04
桂林市公交線路優(yōu)化的調(diào)查研究分析
公交站點(diǎn)命名規(guī)則分析
格尔木市| 循化| 安新县| 怀宁县| 临江市| 旬阳县| 启东市| 德保县| 金秀| 偃师市| 台东县| 漳平市| 肥城市| 璧山县| 贺兰县| 德钦县| 锦州市| 达拉特旗| 盐城市| 和龙市| 五常市| 延川县| 普兰县| 万年县| 峨边| 固始县| 鸡西市| 岳阳市| 乌兰浩特市| 历史| 滁州市| 榆林市| 嘉善县| 札达县| 太湖县| 清远市| 赤水市| 富川| 九寨沟县| 甘泉县| 施甸县|