梁家康 劉汪洋
摘? 要: 應(yīng)用熱力圖對(duì)公共自行車站點(diǎn)數(shù)據(jù)進(jìn)行可視分析和展示。研究結(jié)果顯示,公共自行車的租借量的影響因素主要與以下幾點(diǎn)有關(guān):天氣晴朗會(huì)使租借量增多;旅游業(yè)的發(fā)展也會(huì)帶動(dòng)公共自行車的租借;男性由于褲裝會(huì)更易于租車;工作時(shí)間內(nèi)租車量在工作區(qū)域內(nèi)會(huì)顯著增加。
關(guān)鍵詞: 公共自行車; 站點(diǎn)管理; 可視分析; 熱力圖; 影響因素
中圖分類號(hào):G312????????? 文獻(xiàn)標(biāo)識(shí)碼:A????????? 文章編號(hào):1006-8228(2021)01-29-04
Analyzing the time and user types of public bicycle sites with heat map
Liang Jiakang, Liu Wangyang
(Hangzhou Dianzi University, Hangzhou, Zhejiang 310000, China)
Abstract: The heat map is used to visually analyze and display the data of public bicycle stations. The results show that the factors affecting the rental of public bicycles are mainly related to the following factors: sunny weather will increase the number of public bicycles renting; the development of tourism will also promote the rental of public bicycles; men will be more likely to rent bicycles because of their trousers; and the number of bicycles rental will increase significantly in the working area during working hours.
Key words: public bicycle; site management; visual analysis; heat map; influence factor
0 引言
公共自行車在日常出行提供方便的同時(shí),還能緩解交通壓力。近年,公共自行車的使用率逐漸增加。固定站點(diǎn)公共自行車系統(tǒng)有兩個(gè)重要的組件:自行車和車站。用戶通常會(huì)在出發(fā)點(diǎn)附近的車站租借公共自行車,然后在目的地附近的車站“還車”。但在一些熱門景點(diǎn)或當(dāng)天氣惡劣時(shí)往往會(huì)出現(xiàn)自行車或停車位供不應(yīng)求的情況。利用可視分析方法來研究公共自行車數(shù)據(jù)有助于公共自行車站點(diǎn)車量數(shù)量的管理。
可視化技術(shù)融合了圖形學(xué)、數(shù)據(jù)管理、網(wǎng)絡(luò)技術(shù)和人機(jī)界面等諸多分支,逐步成為一門新興學(xué)科,可視化技術(shù)和數(shù)據(jù)分析相結(jié)合又形成了可視分析學(xué)這門新的學(xué)科?;诳梢暯换ソ缑娴姆治鐾评砜茖W(xué)稱之為可視分析學(xué)[1]??梢暦治鰧W(xué)現(xiàn)在被應(yīng)用于多個(gè)領(lǐng)域,如經(jīng)濟(jì)領(lǐng)域、科學(xué)與生命領(lǐng)域和軍事領(lǐng)域等。
利用可視分析方法研究公共自行車數(shù)據(jù)是當(dāng)下一個(gè)熱門學(xué)術(shù)研究課題。Ying Zhang等[2]利用熱力圖的方式展現(xiàn)中山市公共自行車站點(diǎn)的用戶騎行量空間分布情況并用2014年3月及4月的數(shù)據(jù)進(jìn)行對(duì)比分析。Wood等[3]采用地圖的方式顯示倫敦公共自行車站點(diǎn)的分布情況,采用柱狀圖來展示不同騎行時(shí)間段的騎行記錄頻率和不同騎行距離的騎行記錄頻率的關(guān)系,并根據(jù)站點(diǎn)地理位置的相對(duì)關(guān)系,將反應(yīng)不同站點(diǎn)公共自行車租借量變化的單個(gè)折線圖組成一個(gè)整體,方便用戶對(duì)同一站點(diǎn)的工作日和周末的公共自行車騎行狀態(tài)進(jìn)行可視分析。史曉穎等[4-7]對(duì)杭州的公共自行車可視分析方面進(jìn)行了廣泛的研究,其利用豐富的圖形探索了公共自行車的時(shí)空數(shù)據(jù),采用熱力圖對(duì)西湖周邊的公共自行車站點(diǎn)進(jìn)行可視分析并把規(guī)律進(jìn)行對(duì)比。
由于管理者并不能準(zhǔn)確的了解在不同時(shí)間,不同用戶類型對(duì)自行車的租借量的影響,可能導(dǎo)致在某些站點(diǎn)自行車數(shù)量不足或自行車數(shù)量未使用數(shù)量較多。故本文對(duì)芝加哥市公共自行車的騎行量進(jìn)行可視化分析,獲取在不同時(shí)間、不同用戶對(duì)公共自行車的租借量。再通過所掌握的信息及規(guī)律,繪制出關(guān)于城市自行車騎行量的熱力圖來使空間信息可視化,根據(jù)其中所存儲(chǔ)的不同信息去描述不同用戶在城市的空間和時(shí)間的運(yùn)動(dòng),幫助管理員較準(zhǔn)確的觀察出在不同條件下不同用戶對(duì)城市自行車的騎行量規(guī)律。最后通過調(diào)配各個(gè)車站站點(diǎn)的自行車數(shù)量來解決自行車數(shù)量不夠、用戶出行不夠及時(shí)等優(yōu)化用戶體驗(yàn)方面的問題。
1 研究背景
圖1展示的是芝加哥市部分景區(qū)分布圖,圖2展示芝加哥市對(duì)于公共自行車站點(diǎn)的分布。從兩個(gè)圖中可看出在熱門景點(diǎn),如動(dòng)物園,林肯公園等區(qū)域,公共自行車站點(diǎn)的設(shè)置的較為密集。同時(shí)芝加哥的市中心地區(qū)的兩大部分,盧普區(qū)和密西根大道,盧普以西是有芝加哥"華爾街"之稱的金融中心,芝加哥期貨交易所、芝加哥商業(yè)證券交易所、芝加哥市政廳、伊利諾州政府大樓、美國第一國家銀行辦公大樓、芝加哥的著名中心大劇院、購物中心,以及眾多酒店及消費(fèi)場所云集之地。從圖1可以明顯地看出,在那些工作場景較大,以及消費(fèi)產(chǎn)物較多的區(qū)域,公共自行車站點(diǎn)分布更為密集且其使用也更加頻繁,為人們的生活提供的幫助更大。
2 可視化分析方法
2.1 數(shù)據(jù)的獲取
數(shù)據(jù)的獲取是可視分析的基礎(chǔ),本實(shí)驗(yàn)的數(shù)據(jù)集是芝加哥公共自行車網(wǎng)站上下載的芝加哥Divvy公共自行車系統(tǒng)2016年1月1日到2016年12月31日全年的數(shù)據(jù)。Divvy公共自行車系統(tǒng)數(shù)據(jù)集中包含站點(diǎn)信息和騎行記錄表,其中站點(diǎn)信息表站點(diǎn)ID、站點(diǎn)名稱、站點(diǎn)地址、站點(diǎn)上線時(shí)間等站點(diǎn)信息,騎行記錄表包含騎行持續(xù)時(shí)間、用戶類型、用戶性別、出生年份等用戶信息。用戶類型分為兩種:一種是購買24小時(shí)通行卡的通卡用戶,另外一種是正式在官網(wǎng)注冊(cè)賬戶并且購買年費(fèi)的年卡會(huì)員,如圖3所示。相比而言,通卡更加適合游客等騎行頻率不高的人群,年卡則適合上班族等騎行頻率較高的人群。
2.2 數(shù)據(jù)預(yù)處理
未經(jīng)處理的數(shù)據(jù)中包含相當(dāng)多錯(cuò)誤,這就可能導(dǎo)致數(shù)據(jù)無法被利用,甚至導(dǎo)致數(shù)據(jù)分析結(jié)果的錯(cuò)誤。針對(duì)可視化的數(shù)據(jù)預(yù)處理,有利于提高數(shù)據(jù)的質(zhì)量,增強(qiáng)可視化效果,使后續(xù)可視化步驟更加簡便、易行。數(shù)據(jù)的預(yù)處理通常包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換等步驟。
2.2.1 數(shù)據(jù)清洗
數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值,缺失值等。數(shù)據(jù)缺失是數(shù)據(jù)清洗后經(jīng)常遇到的數(shù)據(jù)錯(cuò)誤類型。目前處理數(shù)據(jù)缺失有均值填補(bǔ)法,最近距離決定填補(bǔ)法等方法。本文使用的方法為刪除缺失值法,因?yàn)楸敬螌?shí)驗(yàn)的數(shù)據(jù)龐大,所缺失的數(shù)據(jù)占比較小,在此情況下,刪除缺失值為最簡單且代價(jià)最小的的處理方法。它將存在缺失值的記錄刪除,比如dataframe可以使用dropna方法來實(shí)現(xiàn)刪除缺失值。
df.dropna(axis=0, how='all')? #刪除所有字段值均為空值的行
df.dropna(axis=0, how='any') #刪除任何一個(gè)字段值為空值的行
芝加哥公共自行車系統(tǒng)提供的數(shù)據(jù)包含49條重復(fù)騎行記錄,預(yù)處理中需要將其刪除;根據(jù)芝加哥公共自行車系統(tǒng)數(shù)據(jù)集官方說明知24小時(shí)通卡用戶不包含性別和年齡信息,因此刪除了353條帶性別信息的24小時(shí)通卡用戶騎行記錄,以免對(duì)可視分析造成困擾。為了更好的研究不同因素對(duì)公共自行車騎行的影響,采取將天氣歷史信息集成到騎行記錄中的措施。
2.2.2 數(shù)據(jù)變換
芝加哥公共自行車系統(tǒng)的數(shù)據(jù)只包含了騎行的基本信息和時(shí)長。而可視化階段需要用到騎行記錄中起始站點(diǎn)到目的站點(diǎn)的距離,因此需要根據(jù)起始站點(diǎn)的經(jīng)緯度和目的站點(diǎn)經(jīng)緯度來計(jì)算用戶的騎行距離。
[φ1=lat1×PI()/180], [φ2=lat2×PI()/180]
[?λ=lon2×PI()/180-lon1×PI()/180]
[d=arccos (sinφ1×sinφ2+cosφ1×cosφ2×cos?λ)×R]⑴
其中:[lat1]是起始點(diǎn)緯度,[lon1]是起始點(diǎn)經(jīng)度;
[lat2]是目的地緯度,[lon2]是目的地經(jīng)度;
[PI()]是圓周率π,[d]是騎行距離。
如表1所示,為站點(diǎn)新增一條distance字段,通過上述公式計(jì)算得到站點(diǎn)419和站點(diǎn)413的距離為1.85km。
2.3 熱力圖理論
“熱力圖”一詞最初是由軟件設(shè)計(jì)師Cormac Kinney于1991年提出并創(chuàng)造的,用來描述一個(gè)2D顯示實(shí)時(shí)金融市場信息。最開始的熱力圖是矩形色塊加上顏色編碼,經(jīng)過數(shù)年的演化后熱力圖多數(shù)是指以特殊高亮的形式顯示訪客熱衷的頁面區(qū)域或訪客所在的地理區(qū)域的圖示。熱力圖的本質(zhì)就是對(duì)每一點(diǎn)進(jìn)行數(shù)據(jù)分析。通常情況下每一事件都可抽象為空間位置上的一點(diǎn),通過對(duì)這個(gè)點(diǎn)進(jìn)行數(shù)據(jù)分析可以使點(diǎn)數(shù)據(jù)變?yōu)辄c(diǎn)信息,再由每個(gè)點(diǎn)信息組成一幅圖,這樣有助于發(fā)現(xiàn)和探索在空間中所含有的信息與規(guī)律。
對(duì)于地圖類型的元素而言,制作熱力圖通常選用核密度估計(jì)(KDE)。這是一種用于估計(jì)概率密度函數(shù)的非參數(shù)方法,采用公式⑵來計(jì)算每一點(diǎn)的概率密度。
[fhx=1ni=1nKix-xih=1nhi=1nX(x-xih)] ⑵
其中[x1,x2, x3,…,xn]為獨(dú)立同分布F的n個(gè)樣本點(diǎn),[K(.)]為核函數(shù)(非負(fù)、積分為1,符合概率密度性質(zhì),并且均值為0),[h>0]為一個(gè)平滑參數(shù),稱作帶寬,或被稱為窗口。[Khx=1/h×K(x/h)]為縮放核函數(shù)概率密度函數(shù)為f。
在一幅熱力圖中有若干個(gè)點(diǎn),每個(gè)點(diǎn)的事件的數(shù)據(jù)是不一致的,再通過計(jì)算,得出不同的結(jié)果,之后設(shè)置不同區(qū)間的不同顏色,在圖中顯示出來,最終得到了一副完整的熱力圖。
3 實(shí)驗(yàn)數(shù)據(jù)分析
3.1 時(shí)間分析
通過如圖4所示的可視結(jié)果,可以發(fā)現(xiàn)旅游季節(jié)對(duì)自行車騎行量有顯著的影響,旺季時(shí)公共自行車騎行次數(shù)更加頻繁。在日常的生活中,工作日的公共自行車騎行量也相比周末更加龐大。另外,天氣對(duì)于公共自行車騎行量也具有影響。從圖4中我們可以看出在旅游淡季與旺季的中雨天氣條件下,用戶騎行站點(diǎn)熱度對(duì)比于同階段的晴天有所下降。
根據(jù)圖5分析節(jié)假日的芝加哥公共自行車站點(diǎn)的騎行情況后,我們發(fā)現(xiàn)不是所有的節(jié)假日公共自行車用戶的騎行量都很高。新年、情人節(jié)、總統(tǒng)日、感恩節(jié)和圣誕節(jié)的公共自行車騎行量明顯偏低,而紀(jì)念日、獨(dú)立日和勞動(dòng)節(jié)騎行量較大。在一些公共自行車騎行量較大的節(jié)假日如勞動(dòng)節(jié),其站點(diǎn)熱力分布與圖4中旅游旺季的熱力分布十分相似。
3.2 用戶類型分析
在研究過節(jié)假日對(duì)公共自行車騎行量的影響后,我們將繼續(xù)研究不同用戶類型的騎行規(guī)律。如圖6所示,在天氣情況相同的情況下,旅游旺季時(shí)通卡用戶公共自行車騎行量稍大于年卡用戶,而在旅游淡季年卡用戶公共自行車騎行量大于通卡用戶。通卡用戶騎行站點(diǎn)頻率較高的站點(diǎn)集中在芝加哥海軍碼頭、漢考克天文館和亞當(dāng)斯公園附近,年卡會(huì)員騎行頻率較高的站點(diǎn)集中在盧普區(qū)商業(yè)中心和,林肯公園附近。
在年卡會(huì)員中,男性年卡會(huì)員的騎行分布與年卡會(huì)員基本一致,但與女性年卡會(huì)員的騎行分布有較大差別。天氣情況相同的條件下,男性年卡會(huì)員的騎行量都大于女性年卡會(huì)員的騎行量。從中可以看出不同人群對(duì)公共自行車的需求也有所不同。在芝加哥大學(xué)區(qū)域,旅游旺季騎行的主體人群是通卡同戶,而在旅游淡季騎行的主要用戶是年卡會(huì)員,且是男性年卡會(huì)員。
4 結(jié)束語
在城市中對(duì)于公共自行車的租借量有很多影響因素,例如天氣、日歷、使用者的性別、工作區(qū)域以及景區(qū)等。經(jīng)過上述分析可以總結(jié)出①當(dāng)天氣晴朗,居民外出幾率大而且易騎車,所以晴天的使用量大于雨天;②旅游旺季城市流動(dòng)人口數(shù)量增加,使用交通工具更頻繁,所以旅游旺季的使用量大于旅游淡季;③在日常生活中女性常穿裙裝,男性的褲裝比裙裝方便,所以男性騎車較多;④在工作時(shí)間,工作區(qū)域的人流量較大,所以工作區(qū)域附近站點(diǎn)比其他站點(diǎn)的使用更加頻繁。管理者可以通過以上規(guī)律在不同天氣不同日歷等情況下對(duì)自行車站點(diǎn)及時(shí)調(diào)配,從而使人們出行更加方便與快捷。
參考文獻(xiàn)(References):
[1] Thomas J J, Cook K A, Electrical I. Illuminating the path:The research and development agenda for visual analytics[J]. Computer Graphics,2005.
[2] Zhang Y, Thomas T, Brussel M J, et al. Expanding Bicycle-Sharing Systems: Lessons Learnt from an Analysis of Usage[J].Plos One,2016.11(12):e0168604
[3] Wood J, Slingsby A, Dykes J. Visualizing the Dynamics of London's Bicycle-Hire Scheme[J]. Cartographica the International Journal for Geographic Information &Geovisualization,2011.46(4):239-251
[4] Shi X Y, Yu Z H, Xu H T, et al. PBikeVis: Applied Visual Analytics for Public Bicycle System[C]//International Symposium on Computational Intelligence and Design. IEEE,2016:490-493
[5] Shi X, Zhou Q, Qu X, et al. Visual Analysis of Station Usage Patterns in Public Bicycle System[C]//International Symposium on Computational Intelligence and Design. IEEE,2017:132-135
[6] Shi X, Yu Z, Chen J, et al. The visual analysis of flow pattern for public bicycle system[J].Journal of Visual Languages & Computing,2017.
[7] Shi X, Yu Z, Chen J, et al. Clustering the Stations of Bicycle Sharing System[J]. Journal of Donghua University (English Edition),2016.33(6):968-972
收稿日期:2020-07-27
作者簡介:梁家康(1996-),男,內(nèi)蒙古呼倫貝爾人,本科生,主要研究方向:數(shù)據(jù)可視化,數(shù)據(jù)分析。