国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高斯混合聚類模型的公交出行特征分析

2019-08-23 05:34:47黃艷國韓亮張碩許倫輝
現(xiàn)代電子技術(shù) 2019年16期
關(guān)鍵詞:數(shù)據(jù)采集聚類分析

黃艷國 韓亮 張碩 許倫輝

摘? 要: 針對公交出行特征的傳統(tǒng)數(shù)據(jù)分析方法人工成本大的問題,提出一種基于高斯混合聚類模型的公交出行特征分析方法。以公交IC卡刷卡數(shù)據(jù)、公交運(yùn)行GPS數(shù)據(jù)及靜態(tài)站點(diǎn)數(shù)據(jù)為基礎(chǔ),建立高斯混合聚類模型,對比節(jié)假日與通勤日公交出行特征差異。最后以深圳市某路公交為實(shí)例,仿真結(jié)果表明,節(jié)假日與通勤日公交出行在高峰時(shí)段分布與持續(xù)時(shí)間上具有顯著差異,驗(yàn)證了高斯混合聚類模型在交通數(shù)據(jù)分析領(lǐng)域中的有效性,對公交運(yùn)營與調(diào)度優(yōu)化有一定的借鑒意義。

關(guān)鍵詞: 公交出行; 出行特征; 高斯混合聚類模型; 數(shù)據(jù)采集; 模型驗(yàn)證; 聚類分析

中圖分類號: TN919?34; U491.1+7? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)16?0174?05

0? 引? 言

公交作為地面上主要的公共交通方式,在分擔(dān)城市交通壓力方面不可或缺。物聯(lián)網(wǎng)等技術(shù)的發(fā)展,使交通數(shù)據(jù)呈現(xiàn)4V特征,傳統(tǒng)的數(shù)據(jù)分析方法在處理這些海量數(shù)據(jù)時(shí),往往會(huì)出現(xiàn)處理速度慢、精度低、人工成本大的問題。為應(yīng)對這種情況,專家學(xué)者開始對大數(shù)據(jù)技術(shù)進(jìn)行深入的研究與探討,與它相關(guān)的各種關(guān)鍵技術(shù)也都隨著研究的深入日漸成熟。通過這些關(guān)鍵技術(shù),給公交的相關(guān)研究方向提供了便利,公交出行特征分析就是其中之一。隨著公交都市的不斷推進(jìn),對公交出行特征研究取得了不少成果。如文獻(xiàn)[1?2]采用問卷調(diào)查的形式采集居民出行數(shù)據(jù)并建立公交出行預(yù)測模型;文獻(xiàn)[3?4]利用乘客上下公交產(chǎn)生的刷卡數(shù)據(jù)分析公交出行行為;文獻(xiàn)[5?6]通過建立公交選擇行為模型,對比分析公共交通與非公共交通出行行為差異;隨著部分城市快速公交專用通道的建設(shè),文獻(xiàn)[7?8]重點(diǎn)對快速公交的出行特征進(jìn)行分析;不少學(xué)者也將近年來比較熱門的大數(shù)據(jù)技術(shù)與公交出行特征結(jié)合分析,文獻(xiàn)[9?10]基于大數(shù)據(jù)與云計(jì)算平臺(tái)對海量的公交OD數(shù)據(jù)進(jìn)行采集與分析,較為準(zhǔn)確且高效地推算出公交乘客上下車站點(diǎn)。

但多數(shù)研究主要集中于公交出行特征的整體性分析,對不同影響因素下,如節(jié)假日與通勤日公交出行特征的差異性分析較為缺乏。本文使用高斯混合聚類算法對節(jié)假日與通勤日的公交出行特征進(jìn)行差異化分析,以求更充分地分析公交出行特征。

1? 數(shù)據(jù)采集與預(yù)處理

1.1? 數(shù)據(jù)采集

本文使用的數(shù)據(jù)集包括公交IC卡數(shù)據(jù)、公交運(yùn)行GPS數(shù)據(jù)和靜態(tài)站點(diǎn)數(shù)據(jù)。公交IC卡數(shù)據(jù)記錄的信息包括ID卡號、時(shí)間日期、車輛編號等,不過由于公交支付方式的多樣化,導(dǎo)致IC卡數(shù)據(jù)不能涵蓋所有乘客的出行信息。為避免信息的丟失與分析結(jié)果的片面性,本文加入公交GPS數(shù)據(jù)作為補(bǔ)充,靜態(tài)站點(diǎn)數(shù)據(jù)的采集則方便了GPS數(shù)據(jù)的匹配。

1.2? 數(shù)據(jù)預(yù)處理

因?yàn)閿?shù)據(jù)源具有多樣性,以及由于干擾、冗余和一致性因素的影響的數(shù)據(jù)集具有不同的質(zhì)量,所以在大數(shù)據(jù)系統(tǒng)中需要數(shù)據(jù)預(yù)處理技術(shù)提高數(shù)據(jù)的質(zhì)量[11]。預(yù)處理步驟包括數(shù)據(jù)清洗與數(shù)據(jù)融合。數(shù)據(jù)清洗包括價(jià)值信息篩選、統(tǒng)一格式、錯(cuò)誤數(shù)據(jù)清洗、缺失數(shù)據(jù)。

1) 價(jià)值信息篩選。原始數(shù)據(jù)信息駁雜,只需將需要的字段數(shù)據(jù)篩選出來。經(jīng)篩選后,IC卡數(shù)據(jù)所保留的字段包含ID卡號、刷卡時(shí)間、車輛編號、線路編號;公交GPS數(shù)據(jù)所保留的字段包含經(jīng)緯度、車輛編號、線路編號、方向、車速、信號時(shí)間;靜態(tài)站點(diǎn)數(shù)據(jù)保留字段站點(diǎn)經(jīng)緯度、站點(diǎn)編號、站間距離。

2) 統(tǒng)一格式。GPS數(shù)據(jù)的儲(chǔ)存一般經(jīng)過加密,需對相關(guān)字段的格式進(jìn)行統(tǒng)一,最終得到結(jié)果如表1所示。

3) 錯(cuò)誤數(shù)據(jù)清洗。錯(cuò)誤數(shù)據(jù)也包括重復(fù)數(shù)據(jù),錯(cuò)誤數(shù)據(jù)可通過設(shè)置閾值的方式進(jìn)行篩選剔除,重復(fù)數(shù)據(jù)則是由于系統(tǒng)故障導(dǎo)致數(shù)據(jù)重復(fù)傳輸,使用SQL數(shù)據(jù)庫語言對數(shù)據(jù)進(jìn)行唯一性篩選。

4) 缺失數(shù)據(jù)一般是信號被遮擋或設(shè)備故障導(dǎo)致,由于缺失的數(shù)據(jù)可能對數(shù)據(jù)的特征有著重要的描述作用,直接刪除會(huì)影響數(shù)據(jù)的分析結(jié)果。本文采用TDI算法[12](基于塔克分解的插補(bǔ)算法)對缺失數(shù)據(jù)進(jìn)行估算還原,算法描述如下:

輸入:[A](丟失的數(shù)據(jù)),[w](非負(fù)權(quán)重),公差[ε], 最大迭代次數(shù)[kmax];

輸出:估計(jì)值[A′];

初始化正交因子矩陣([X0,Y0,Z0]);

For [k=0,1,2,…,kmax] do:

計(jì)算[γ=B2],[B=w?A];? ? ? ? ? ? ? ? ? ? ? ? //[B]為三階張量

計(jì)算[C=w?(S×1X×2Y×3Z)];? ? ? ? ? ? ? ? ? ? ? //[S]為核心張量

do

[f=0.5γ-B,C+0.5C2];

[wk=gradF(xk)];

If [B-Cw/Bw<ε],then break

End for

計(jì)算估計(jì)值[A′=Sk×1Xk×2Yk×3Zk]

數(shù)據(jù)融合是獲取到的IC卡數(shù)據(jù)和GPS數(shù)據(jù)存在相同字段,將兩組數(shù)據(jù)按照相同的字段進(jìn)行融合得到統(tǒng)一數(shù)據(jù)源。

2? 公交出行時(shí)空特征分析

本文以2018年3月20日—4月12日深圳113路公交上行線(長嶺東總站—蛇口總站)運(yùn)行數(shù)據(jù)為例,探究公交出行特征。113路公交主要運(yùn)行區(qū)域位于深圳深南大道,深南大道是深圳一條重要的主干道,為確保數(shù)據(jù)更具有代表性,選取位于深南大道的運(yùn)行區(qū)間(門診部②—深大本門②)為研究范圍。主要數(shù)據(jù)集經(jīng)清洗后得到公交GPS數(shù)據(jù)63 430條、IC卡數(shù)據(jù)154 231條,其中節(jié)假日數(shù)據(jù)包括公交GPS數(shù)據(jù)7 360條、IC卡數(shù)據(jù)12 357條。

2.1? 公交出行量時(shí)間分布

為了研究公交出行時(shí)間域的分布情況,將時(shí)間進(jìn)行離散化,即將6:00—22:00共16 h以15 min為間隔進(jìn)行劃分,記為[i],[i∈{0,1,2,…,64}]。按照IC卡的刷卡時(shí)間標(biāo)記所處時(shí)間段,按照日期分為節(jié)假日、通勤日、周末三種類型,記為[j],[j∈節(jié)假日,通勤日,周末]。則每種類型在一天各個(gè)時(shí)段內(nèi)的公交平均出行量表示為:

[Kji=j=1DjMjilDj] (1)

式中:[Mjil]為[j]類型第[l]天第[i]時(shí)段的公交出行量;[Dj]為[j]類型發(fā)生的天數(shù);[l={1,2,…,Dj}]。

當(dāng)日公交出行總量為:

[Kj=i=064Kji] (2)

各時(shí)段出行比例為:

[Nji=KjiKj×100 %] (3)

最終得到三種類型下分時(shí)段公交出行量占當(dāng)天總出行量的比例,如圖1所示。

從圖1可看出,節(jié)假日乘客公交出行行為主要集中在上午,早高峰時(shí)段為9:00—9:30,晚高峰時(shí)段集中在18:00—18:30;通勤日的公交出行行為在一天內(nèi)分布較為均勻,早高峰要比節(jié)假日的早高峰提前45 min左右,晚高峰出現(xiàn)時(shí)段與節(jié)假日基本一致,但持續(xù)時(shí)間較節(jié)假日要長30 min左右;相比于節(jié)假日,周末公交出行的差異性較小,總體趨勢較為相近,差異主要是早高峰比節(jié)假日要早1 h左右,晚高峰晚15 min左右且持續(xù)時(shí)間較短。

2.2? 公交出行量站點(diǎn)分布

公交的運(yùn)行線路所經(jīng)過的各個(gè)站點(diǎn),因?yàn)榈乩砦恢玫牟煌哂械妮d客特征也不同。本文對每個(gè)站點(diǎn)的公交出行量進(jìn)行統(tǒng)計(jì),得到該站點(diǎn)出行量占全站點(diǎn)總出行量比例,結(jié)果如圖2所示。

由圖2可以看出,部分站點(diǎn)的乘客出行量在三種類型影響下存在一定的差異性,如第4站點(diǎn)在通勤日的乘客出行比例最高,節(jié)假日的出行比例最低;而第17站點(diǎn)節(jié)假日出行比例最高,通勤日出行比例最低。

圖2? 公交出行量比例隨站點(diǎn)分布

Fig. 2? Distribution of bus travel volume

proportion with its station location

3? 公交出行特征聚類分析

數(shù)據(jù)聚類分析是尋找數(shù)據(jù)之間一種內(nèi)在結(jié)構(gòu)的技術(shù),可以將全體數(shù)據(jù)按相似的屬性分為不同的簇類。本文通過對數(shù)據(jù)進(jìn)行聚類分析,探究公交出行的獨(dú)特屬性。

目前,聚類分析中常用的分析算法有Apriori算法[13]、神經(jīng)網(wǎng)絡(luò)算法、DBSCAN算法[14]、遺傳算法、K?means算法等,但在對交通數(shù)據(jù)的分析中發(fā)現(xiàn),交通數(shù)據(jù)類數(shù)據(jù)分布具有一定的高斯分布。因此本文引入高斯混合模型聚類算法[15](Gaussian Mixture Model,GMM)作為數(shù)據(jù)聚類分析算法。

3.1? 高斯混合聚類模型

假設(shè)一天各時(shí)段公交出行量為[xi](i=1,2,…,65),則高斯混合模型可表示為:

[p(x)=k=1KπkN(xkμk,Σk)] (4)

高斯混合模型中有三個(gè)參數(shù)需要估計(jì),分別為[π],[μ]和[Σ],式(4)可化為:

[p(xπ,μ,Σ)=k=1KπkN(xμk,Σk)] (5)

最常用的參數(shù)估計(jì)算法是最大似然法(EM)。

算法步驟如下:

1) 指定[π],[μ]和[Σ]的初始值。

2) 計(jì)算后驗(yàn)概率[γ(znk)]:

[γ(znk)=πkN(x|μk,Σk)j=1KπjN(x|μj,Σj)] (6)

3) 求解[μk]的最大似然函數(shù):

[μk=1Nkn=1Nγ(znk)xn] (7)

4) 求[Σk]的最大似然值:

[Σk=1Nkn=1Nγ(znk)(xn-μk)(xn-μk)T] (8)

5) 求解[πk]的最大似然函數(shù)

[πk=NkN] (9)

6) 循環(huán)重復(fù)計(jì)算步驟2)~5),直至算法收斂。

3.2? 分析結(jié)果

本文通過Matlab軟件平臺(tái),對節(jié)假日和通勤日一天各時(shí)段公交出行量進(jìn)行聚類仿真實(shí)驗(yàn)。仿真結(jié)果如圖3、圖4所示。

圖3? 節(jié)假日公交出行量聚類

Fig. 3? Clustering of bus trip volume on holidays

圖4? 通勤日公交出行量聚類

Fig. 4? Clustering of bus trip volume on commuting days

通過比較AIC(赤池信息量)準(zhǔn)則,最終將節(jié)假日數(shù)據(jù)分為三個(gè)簇類,AIC最小值為935.3,通勤日數(shù)據(jù)也分為三個(gè)簇類,AIC最小值為910.9。

對比上述的聚類結(jié)果圖,可知節(jié)假日與通勤日一天各時(shí)段公交出行量在聚類時(shí),都被分為三個(gè)簇類,這三類分別代表早高峰、午平峰、晚高峰。但從結(jié)果來看,節(jié)假日與通勤日的出行時(shí)段差異十分明顯,主要差異表現(xiàn)在:節(jié)假日公交出行早晚高峰出現(xiàn)較晚且持續(xù)時(shí)間較長,午平峰較短且整體趨勢處于下降趨勢;通勤日公交出行早晚高峰出現(xiàn)較早且持續(xù)時(shí)間更短,午平峰一直保持持續(xù)增長的趨勢直到晚高峰到來。

3.3? 算法對比

為凸顯GMM算法的有效性,現(xiàn)與K?means聚類算法結(jié)果進(jìn)行比較,以通勤日數(shù)據(jù)為例,K?means的仿真結(jié)果如圖5所示。結(jié)果顯示K?means也將數(shù)據(jù)分為三個(gè)簇類,不過分類依據(jù)是根據(jù)出行量,分類的差異性較大且特征不夠明顯。由此可見,GMM算法在聚類結(jié)果的準(zhǔn)確性以及魯棒性方面要優(yōu)于K?means算法,證明了GMM算法在本文的數(shù)據(jù)挖掘方面的有效性。

4? 結(jié)? 論

本文基于公交IC卡數(shù)據(jù)、公交GPS數(shù)據(jù)、靜態(tài)站點(diǎn)數(shù)據(jù),以深圳113路公交為例,通過高斯混合聚類模型對公交出行的時(shí)空分布特征進(jìn)行了相關(guān)研究。研究結(jié)果顯示,節(jié)假日與通勤日公交出行具有鮮明的特征差異,證明高斯混合聚類模型在交通數(shù)據(jù)分析領(lǐng)域的有效性,對相關(guān)公交調(diào)度優(yōu)化研究有一定的參考價(jià)值。但因受限于數(shù)據(jù)量,本文的分析結(jié)果可能存在一定的誤差,后續(xù)增加數(shù)據(jù)量之后再進(jìn)行更深入的研究。

參考文獻(xiàn)

[1] 劉嶄,高璇.基于非集計(jì)模型的公交出行選擇預(yù)測模型[J].公路,2010(5):135?139.

LIU Zhan, GAO Xuan. Bus travel prediction model based on non?aggregate model [J]. Highway, 2010(5): 135?139.

[2] 周雪梅,張顯尊,楊曉光.基于交通方式選擇的公交出行需求預(yù)測[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,35(12):1627?1631.

ZHOU Xuemei, ZHANG Xianzun, YANG Xiaoguang. Travel mode choice?based prediction of public transit demand [J]. Journal of Tongji University (Natural Science), 2007, 35(12): 1627?1631.

[3] 龍瀛,張宇,崔承印.利用公交刷卡數(shù)據(jù)分析北京職住關(guān)系和通勤出行[J].地理學(xué)報(bào),2012,67(10):1339?1352.

LONG Ying, ZHANG Yu, CUI Chengyin. Identifying commuting pattern of Beijing using bus smart card data [J]. Acta geographica sinica, 2012, 67(10): 1339?1352.

[4] ZHOU Y Y, YAO L, JIANG Y, et al. GIS?based commute analysis using smart card data: a case study of multi?mode public transport for smart city [C]// Proceedings of 3rd International Conference on Geo?Informatics in Resource Management and Sustainable Ecosystem. Wuhan: Springer, 2015: 83?94.

[5] 殷煥煥,武平,趙紅征.城市公共交通出行方式選擇行為研究[J].武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版),2013,37(2): 352?356.

YIN Huanhuan, WU Ping, ZHAO Hongzheng. Study of public transit travel mode choice behavior [J]. Journal of Wuhan University of Technology (Transportation science & engineering), 2013, 37(2): 352?356.

[6] 嚴(yán)海,王熙蕊,梁文博,等.基于結(jié)構(gòu)方程模型的通勤交通方式選擇[J].北京工業(yè)大學(xué)學(xué)報(bào),2015,41(4):590?596.

YAN Hai, WANG Xirui, LIANG Wenbo, et al. Commute traffic mode choice based on structural equation model [J]. Journal of Beijing University of Technology, 2015, 41(4): 590?596.

[7] 蔡志理,邴其春.同線路BRT與常規(guī)公交速度特性對比分析[J].武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版),2012,36(5): 916?921.

CAI Zhili, BING Qichun. Comparative analysis on speed characteristics between BRT and normal bus transit on same line [J]. Wuhan University of Technology (Transportation science & engineering), 2012, 36(5): 916?921.

[8] 武鈞,霍月英.快速公交乘客滿意度影響因素的定量研究[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(21):219?224.

WU Jun, HUO Yueying. Quantitative study on effect factors of passenger satisfaction for BRT [J]. Computer engineering and applications, 2015, 51(21): 219?224.

[9] 鄔群勇,蘇克云,鄒智杰.基于MapReduce的海量公交乘客OD并行推算方法[J].地球信息科學(xué)學(xué)報(bào)2018(5):647?655.

WU Qunyong, SU Keyun, ZOU Zhijie. A MapReduce?based method for parallel calculation of bus passenger origin and destination from massive transit data [J]. Journal of geo?information science, 2018(5): 647?655.

[10] 孫慈嘉,李嘉偉,凌興宏.基于云計(jì)算的公交OD矩陣構(gòu)建方法[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,37(4):456?461.

SUN Cijia, LI Jiawei, LING Xinghong. Estimation of bus origin?destination matrix based on cloud computing [J]. Journal of Jiangsu University (Natural science edition), 2016, 37(4): 456?461.

[11] 李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015,45(1):1?44.

LI Xuelong, GONG Haigang. A Survey on big data systems [J]. Scientia sinica informationis, 2015, 45(1): 1?44.

[12] TAN H, FENG G, FENG J, et al. A tensor?based method for missing traffic data completion [J]. Transportation research, Part C: emerging technologies, 2013, 28: 15?27.

[13] 張鑫,陳燕,李桃迎.基于 Apriori算法的經(jīng)濟(jì)指標(biāo)關(guān)聯(lián)分析[J].科學(xué)技術(shù)與工程,2016,16(8):233?237.

ZHANG Xin, CHEN Yan, LI Taoying. The associational analysis of economic indexes based on Apriori algorithm [J]. Science technology and engineering, 2016, 16(8): 233?237.

[14] 姜洪權(quán),王崗,高建民,等.一種適用于高維非線性特征數(shù)據(jù)的聚類算法及應(yīng)用[J].西安交通大學(xué)學(xué)報(bào),2017(12):1?8.

JIANG Hongquan, WANG Gang, GAO Jianmin, et al. A clustering algorithm for high?dimensional nonlinear feature data with applications [J]. Journal of Xian Jiaotong University, 2017(12): 1?8.

[15] 高菲菲.基于Gabor特征分解的高斯混合非線性濾波算法[J].科技通報(bào),2015,31(12):88?90.

GAO Feifei. Gauss hybrid nonlinear filter design based on Gabor feature decomposition [J]. Bulletin of science and technology, 2015, 31(12): 88?90.

猜你喜歡
數(shù)據(jù)采集聚類分析
基于聚類分析研究貴州省各地區(qū)經(jīng)濟(jì)發(fā)展綜合評價(jià)
商情(2016年39期)2016-11-21 08:45:54
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費(fèi)支出分析
CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應(yīng)用
大數(shù)據(jù)時(shí)代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時(shí)空分布研究綜述
基于廣播模式的數(shù)據(jù)實(shí)時(shí)采集與處理系統(tǒng)
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:52:53
基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
中國市場(2016年33期)2016-10-18 12:16:58
基于開源系統(tǒng)的綜合業(yè)務(wù)數(shù)據(jù)采集系統(tǒng)的開發(fā)研究
衡南县| 博罗县| 江孜县| 庄浪县| 修文县| 理塘县| 衡东县| 彩票| 衡阳市| 双江| 平阴县| 皮山县| 巩义市| 敦煌市| 固原市| 旅游| 视频| 女性| 天台县| 高阳县| 寿阳县| 鹿泉市| 深泽县| 洛隆县| 蒲城县| 清远市| 新巴尔虎右旗| 巴彦县| 合阳县| 和林格尔县| 昆山市| 南澳县| 沙河市| 郯城县| 循化| 闸北区| 西充县| 精河县| 和政县| 阆中市| 郸城县|