李思其 李源慶臻
針對(duì)傳統(tǒng)共享單車需求預(yù)測(cè)中潛在需求缺失的問(wèn)題,文章分析了站點(diǎn)借還量與調(diào)度需求量的關(guān)系,提出站點(diǎn)潛在需求問(wèn)題,并利用美國(guó)芝加哥Divvy Bikes公共自行車系統(tǒng)實(shí)際運(yùn)營(yíng)數(shù)據(jù),綜合考慮天氣、氣溫、風(fēng)力、站點(diǎn)容量與初始車輛數(shù)等因素,以歷史每日正常數(shù)據(jù)構(gòu)建訓(xùn)練網(wǎng)絡(luò),通過(guò)三種神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)出具有潛在需求站點(diǎn)的借還量。該研究方法的應(yīng)用可以提高共享單車調(diào)度的科學(xué)性和準(zhǔn)確性。
共享單車;潛在需求;需求預(yù)測(cè);神經(jīng)網(wǎng)絡(luò)
U491-A-42-147-6
0?引言
作為解決“最后一公里”問(wèn)題的共享單車系統(tǒng)正處于快速發(fā)展期,已經(jīng)成為城市居民出行的重要方式。共享單車系統(tǒng)理想狀態(tài)是各站點(diǎn)的自行車數(shù)量和空樁數(shù)量維持著一種平衡狀態(tài),為此運(yùn)營(yíng)商需要對(duì)共享單車進(jìn)行周期性或動(dòng)態(tài)的調(diào)度,首先需要進(jìn)行各站點(diǎn)共享單車的需求量預(yù)測(cè)。
關(guān)于共享單車需求量預(yù)測(cè)的研究是近年的熱點(diǎn)問(wèn)題。
一部分學(xué)者從出行鏈入手預(yù)測(cè)站點(diǎn)需求,如Ying Zhang等人[1]通過(guò)結(jié)合分析個(gè)人出行、出行鏈以及過(guò)渡活動(dòng)來(lái)研究共享單車用戶的出行習(xí)慣,構(gòu)建了出行鏈和換乘行為的矩陣,結(jié)合站點(diǎn)類型、單位小時(shí)內(nèi)的租借和歸還活動(dòng),揭示共享單車使用的時(shí)間模式和潛在目的。蘭鵬等[2]提出了基于出行目的鏈的出行生成-分布組合模型,模型考慮了居民出行鏈、出行目的等對(duì)客流預(yù)測(cè)的影響。江國(guó)俊[3]以基于活動(dòng)的出行需求分析理論為基礎(chǔ),研究自行車出行方式選擇機(jī)理,建立了基于出行鏈的自行車方式選擇模型。但是從出行鏈角度預(yù)測(cè),所需成本大,實(shí)時(shí)性不強(qiáng),可操作性較差。
運(yùn)營(yíng)商和一部分學(xué)者更傾向于從共享單車系統(tǒng)歷史出行數(shù)據(jù)中挖掘各站點(diǎn)的用戶使用規(guī)律,確定站點(diǎn)未來(lái)的需求量,利用數(shù)據(jù)挖掘方法使預(yù)測(cè)工作變得簡(jiǎn)單高效。如JiaShu、Chou和Liu等[4]通過(guò)使用OR模型估計(jì)各個(gè)時(shí)間段各租賃點(diǎn)用戶流量從而推導(dǎo)出不同租賃點(diǎn)的需求總量,繼而得到系統(tǒng)內(nèi)各租賃點(diǎn)車輛借還的預(yù)測(cè)值。Borgnat等人[5]分析了里昂共享單車系統(tǒng)數(shù)據(jù)。他們通過(guò)系統(tǒng)數(shù)據(jù)分析了自行車使用時(shí)空特性以及影響因素。譚玉龍[6]結(jié)合Markovchain的性質(zhì),對(duì)自行車的供需進(jìn)行研究,結(jié)合自行車的刷卡數(shù)據(jù),建立了共享單車的站點(diǎn)日均還車、借車需求預(yù)測(cè)模型。Li和Yao等[7]構(gòu)建了交通流阻塞條件下的出行方式?jīng)Q策方法,并借助智能算法完成了共享單車的客流估計(jì)。
通過(guò)歷史數(shù)據(jù)預(yù)測(cè)需求,成本小,實(shí)時(shí)性強(qiáng)。但是,采用運(yùn)營(yíng)數(shù)據(jù)而進(jìn)行的需求預(yù)測(cè)仍存在較大缺陷,不能完全反映用戶需求:(1)由于某時(shí)段某些租賃點(diǎn)共享單車使用需求較大,而共享單車供給不足,造成用戶無(wú)法及時(shí)租借自行車,而會(huì)選擇其他站點(diǎn)租車或更換交通方式;(2)由于某時(shí)段某些租賃點(diǎn)的還車需求較大,而站點(diǎn)停車樁全部被占用,造成用戶無(wú)法及時(shí)歸還自行車,用戶會(huì)選擇去其他站點(diǎn)還車。這兩種情況本文稱為潛在需求缺失。站點(diǎn)潛在需求無(wú)法體現(xiàn)在共享單車歷史出行數(shù)據(jù)上,會(huì)導(dǎo)致需求預(yù)測(cè)與實(shí)際情況不符合。
針對(duì)共享單車站點(diǎn)潛在需求預(yù)測(cè)問(wèn)題,本文擬采用數(shù)據(jù)挖掘技術(shù)中解決數(shù)據(jù)缺失問(wèn)題的方法,通過(guò)站點(diǎn)原始出行數(shù)據(jù)找出站點(diǎn)處于滿載臨界狀態(tài)和空載臨界狀態(tài)的時(shí)間段序列,將該時(shí)段的借車量/還車量數(shù)據(jù)視為缺失數(shù)據(jù),使用神經(jīng)網(wǎng)絡(luò)對(duì)該時(shí)段的缺失數(shù)據(jù)進(jìn)行預(yù)測(cè)。研究是對(duì)現(xiàn)有自行車站點(diǎn)需求預(yù)測(cè)方法的補(bǔ)充,能有效提高共享單車調(diào)度的有效性。
1?研究思路
本文數(shù)據(jù)來(lái)源見(jiàn)美國(guó)Divvy共享單車系統(tǒng)[8],關(guān)于站點(diǎn)需求預(yù)測(cè)的具體研究步驟如下:
(1)提取出原始數(shù)據(jù)中各站點(diǎn)工作日和周末的借車數(shù)據(jù)和還車數(shù)據(jù),以自行車ID在前一天晚上12點(diǎn)之前最后的停留站點(diǎn)作為隔天站點(diǎn)初始車輛數(shù),結(jié)合站點(diǎn)初始車輛數(shù)和站點(diǎn)借還車數(shù)量,判斷站點(diǎn)的實(shí)時(shí)車輛數(shù)。
(2)以7 d的周期循環(huán)提取每個(gè)站點(diǎn)每段時(shí)間的租/還車數(shù)、站點(diǎn)車輛數(shù)、站點(diǎn)ID和當(dāng)天的天氣數(shù)據(jù),分析影響站點(diǎn)車輛使用的主要因素。
(3)根據(jù)所有提取出來(lái)的站點(diǎn)數(shù)據(jù)分析站點(diǎn)車輛數(shù)變化趨勢(shì)與其臨界狀態(tài),識(shí)別具有潛在需求的站點(diǎn)。按60 min間隔生成時(shí)間序列,統(tǒng)計(jì)每個(gè)序列中的租借數(shù)、歸還數(shù)、租還差值、租還差累計(jì)值和站點(diǎn)車輛數(shù),根據(jù)站點(diǎn)車輛數(shù)變化曲線找出處于滿載臨界狀態(tài)和空載臨界狀態(tài)的時(shí)間段序列。對(duì)空載/滿載臨界狀態(tài)下的站點(diǎn)可認(rèn)為站點(diǎn)無(wú)法滿足后續(xù)一段時(shí)間里的租借/歸還服務(wù),將該時(shí)段的借車量/還車量數(shù)據(jù)視為缺失數(shù)據(jù),使用神經(jīng)網(wǎng)絡(luò)對(duì)該時(shí)段的缺失數(shù)據(jù)進(jìn)行預(yù)測(cè)。
(4)為了預(yù)測(cè)出該時(shí)段的潛在需求,先將站點(diǎn)的容量限制假設(shè)為無(wú)容量限制,分別篩選出同一站點(diǎn)在不同時(shí)期具有潛在需求與不具有潛在需求的歷史數(shù)據(jù),將不具有潛在需求的數(shù)據(jù)作為人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本,計(jì)算網(wǎng)絡(luò)預(yù)測(cè)輸出值并計(jì)算網(wǎng)絡(luò)輸出值和期望輸出值的誤差e,根據(jù)誤差e修正網(wǎng)絡(luò)權(quán)值和函數(shù)參數(shù)[9],使網(wǎng)絡(luò)預(yù)測(cè)值逼近期望值。
(5)將具有潛在需求的數(shù)據(jù)作為測(cè)試樣本用于測(cè)試網(wǎng)絡(luò)預(yù)測(cè)精度并預(yù)測(cè)出站點(diǎn)的潛在需求量。
其中步驟(1)到步驟(3)為數(shù)據(jù)準(zhǔn)備。例如提取站點(diǎn)2在2017年2月里所有星期三的相關(guān)數(shù)據(jù),首先提取2月1日(星期三)的數(shù)據(jù),隔7 d繼續(xù)提取2017年2月8日(星期三)的數(shù)據(jù),按照7 d的周期提取出2月份所有星期三的共享單車出行相關(guān)數(shù)據(jù)。提取的站點(diǎn)車輛變化軌跡如圖1所示。
步驟(4)與步驟(5)則為基于神經(jīng)網(wǎng)絡(luò)的站點(diǎn)潛在需求預(yù)測(cè)。
2?基于神經(jīng)網(wǎng)絡(luò)的站點(diǎn)潛在需求預(yù)測(cè)估算
2.1?預(yù)測(cè)方法的選取
處理不完整數(shù)據(jù)集的方法主要有三大類:刪除元祖、數(shù)據(jù)補(bǔ)齊和不處理。其中數(shù)據(jù)補(bǔ)齊這類方法是用一定的值去填充空值,從而使信息表完備化。文獻(xiàn)[10]研究表明,決策樹(shù)插補(bǔ)法、k最近鄰插補(bǔ)法、神經(jīng)網(wǎng)絡(luò)插補(bǔ)法三種方法表現(xiàn)最好。
站點(diǎn)歷史出行數(shù)據(jù)能夠提供芝加哥Divvy Bikes大量的站點(diǎn)使用數(shù)據(jù),如站點(diǎn)初始車輛數(shù)、單位時(shí)間內(nèi)的借還數(shù)、出行時(shí)間、站點(diǎn)使用人群占比等。而神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的人工智能技術(shù),非常適用于此類數(shù)據(jù)挖掘的問(wèn)題。本文采用BP神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)與灰色神經(jīng)網(wǎng)絡(luò)分別對(duì)潛在需求量進(jìn)行預(yù)測(cè)。
2.2?指標(biāo)選擇
實(shí)際影響潛在站點(diǎn)需求預(yù)測(cè)的因素很多,但不是所有指標(biāo)都會(huì)產(chǎn)生重要影響。本文從站點(diǎn)信息、天氣信息和區(qū)域特征篩選影響因素,具體研究的影響因素、取值和符號(hào)如表1所示。
2.3?站點(diǎn)潛在需求量計(jì)算模型
站點(diǎn)是否具有潛在需求與站點(diǎn)車輛數(shù)是否達(dá)到臨界狀態(tài)有關(guān),結(jié)合站點(diǎn)兩種臨界狀態(tài)與站點(diǎn)租/還量的預(yù)測(cè)值,給出站點(diǎn)潛在需求量的計(jì)算公式(1):
PD?i(t)=c?1,i(t)B?i(t)-?i(t)+c?2,i(t)?t(t)-R?i(t)
(1)
式(1)中,PD?i(t)表示站點(diǎn)i在第t個(gè)時(shí)間段的潛在需求量,PD?i(t)可正可負(fù),為正數(shù)時(shí)表示站點(diǎn)有潛在的還車需求,為負(fù)數(shù)時(shí)表示站點(diǎn)有潛在的借車需求;c?1,i(t)為判斷站點(diǎn)i在第t個(gè)時(shí)間段是否達(dá)到空載臨界狀態(tài),如是則為1,否則為0;c?2,i(t)為判斷站點(diǎn)i在第t個(gè)時(shí)間段是否達(dá)到滿載臨界狀態(tài),如是則為1,否則為0;B?i(t)表示站點(diǎn)i在第t個(gè)時(shí)間段的實(shí)際租借量;?i(t)表示站點(diǎn)i在第t個(gè)時(shí)間段的預(yù)測(cè)租借量;R?i(t)表示站點(diǎn)i在第t個(gè)時(shí)間段的實(shí)際歸還量;?i(t)表示站點(diǎn)i在第t個(gè)時(shí)間段的預(yù)測(cè)歸還量。
2.4?神經(jīng)網(wǎng)絡(luò)的輸入輸出
本文選擇歷史不同周同一星期如所有周二預(yù)測(cè)時(shí)段前三個(gè)小時(shí)借/還車數(shù)據(jù)、站點(diǎn)初始車輛數(shù)、站點(diǎn)容量、借車總量、還車總量、最高氣溫、最低氣溫、天氣和風(fēng)力水平等數(shù)據(jù)作為系統(tǒng)輸入,系統(tǒng)輸出為預(yù)測(cè)時(shí)段的借/還車數(shù)據(jù)。其中若預(yù)測(cè)時(shí)段臨界狀態(tài)為空載狀態(tài),則輸入系統(tǒng)的數(shù)據(jù)為借車數(shù)據(jù),系統(tǒng)輸出為預(yù)測(cè)借車數(shù)據(jù);若臨界狀態(tài)為滿載狀態(tài),則輸入系統(tǒng)的數(shù)據(jù)為還車數(shù)據(jù),系統(tǒng)輸出為預(yù)測(cè)還車數(shù)據(jù)。詳見(jiàn)表2。
將Divvy Bikes站點(diǎn)2作為研究對(duì)象,選擇2017-01-01至2017-12-31期間所有星期二的租/還車數(shù)據(jù)和天氣數(shù)據(jù)共52組作為算例數(shù)據(jù),其中39組為正常數(shù)據(jù)集,但有3組數(shù)據(jù)無(wú)租/還車記錄,另外13組為具有潛在需求的數(shù)據(jù)集。潛在需求數(shù)據(jù)集中有10組達(dá)到空載臨界狀態(tài)具有潛在借車需求;有3組數(shù)據(jù)達(dá)到滿載臨界狀態(tài)具有潛在還車需求。最終剔除無(wú)租/還車記錄的3組數(shù)據(jù),將36組正常數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),將13組具有潛在需求的數(shù)據(jù)集作為測(cè)試數(shù)據(jù),利用MATLAB_R2014b的神經(jīng)網(wǎng)絡(luò)工具的小波神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)臨界狀態(tài)時(shí)段的租借量或歸還量。取預(yù)測(cè)t時(shí)刻、t-1 h時(shí)刻、t-2 h時(shí)刻、t-3 h時(shí)刻及其他8個(gè)影響因素的值,作為網(wǎng)絡(luò)的訓(xùn)練樣本。相關(guān)數(shù)據(jù)見(jiàn)表3。
2.5?預(yù)測(cè)結(jié)果分析
本節(jié)介紹MAE(平均絕對(duì)誤差)、MSE(均方誤差)這些指標(biāo)概念和公式,從插補(bǔ)誤差比較三種神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果。平均絕對(duì)誤差計(jì)算公式如式(2)所示,均方誤差計(jì)算公式如式(3)所示。
MAE=1n∑ni=1?i-y?i(2)
MSE=1n∑ni=1?i-y?i2(3)
式中,?i——第i個(gè)預(yù)測(cè)值;
y?i——對(duì)應(yīng)的真實(shí)值;
n——預(yù)測(cè)值的個(gè)數(shù)。
MAE值的大小反映了預(yù)測(cè)值與真實(shí)值之間的誤差,MAE值越小表示預(yù)測(cè)值與真實(shí)值偏差越小,說(shuō)明預(yù)測(cè)效果越好,反之說(shuō)明預(yù)測(cè)效果不好。MSE值也同理,當(dāng)幾個(gè)預(yù)測(cè)方法的MAE值相同時(shí),MSE值越小,預(yù)測(cè)方法的效果也越好[10]。
三種神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的MAE值與MSE值如表4所示,小波神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)租借量的均值MAE和均值MSE分別為3.42和23.52;預(yù)測(cè)歸還量的均值MAE和均值MSE分別為3.36和24.69,均是三種方法預(yù)測(cè)結(jié)果的最小MAE和MSE。
案例中的小波神經(jīng)網(wǎng)絡(luò)租借量預(yù)測(cè)值與實(shí)際值差異如圖2和圖3所示。
根據(jù)潛在需求計(jì)算公式(1),使用小波神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果獲得站點(diǎn)2具有潛在需求當(dāng)天的潛在需求量,如表5所示。
3?結(jié)語(yǔ)
本文在共享單車站點(diǎn)需求預(yù)測(cè)中提出潛在需求概念,對(duì)站點(diǎn)潛在需求量進(jìn)行預(yù)測(cè)。用BP、小波和灰色三種神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)具有潛在需求當(dāng)天的站點(diǎn)各時(shí)間段的租借量和歸還量。通過(guò)MAE與MSE指標(biāo)分析,結(jié)果表明三種神經(jīng)網(wǎng)絡(luò)算法中,小波神經(jīng)網(wǎng)絡(luò)在共享單車站點(diǎn)租借量和歸還量的預(yù)測(cè)精度更高,更為適合共享單車潛在需求的預(yù)測(cè)。
參考文獻(xiàn):
[1]Y Zhang,MJG Brussel,T Thomas,et al.Mining bikesharing travel behavior data:An investigation into trip chains and transition activities[J].Computers Environment & Urban Systems,2018(5):39-50.
[2]蘭?鵬,高躍文,韓寶明.基于出行目的鏈的出行生成—分布組合模型分析[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2011,41(13):94-98.
[3]江國(guó)俊.基于出行鏈的自行車出行方式選擇實(shí)證研究[D].北京:北京交通大學(xué),2012.
[4]JiaShu,Mabel Chou,Qizhang Liu,et al.Bicyclesharing System:Development,Utilization and the Value of Redistribution[J].National University of Singapore,2010(12):1-33.
[5]Borgnat P,Abry P,F(xiàn)landrin P,et al.Shared bicycles in a city:A signal processing and data analysis perspective[J].Advances in Complex Systems,2011,14(3):415-438.
[6]譚玉龍,基于馬爾可夫鏈模型的公共自行車站點(diǎn)供需研究[D].成都:西南交通大學(xué),2015.
[7]ZhiChun Li,MingZhu Yao,William H.K.Lam,et al.Modeling the effects of Public Bicycle Schemes in a Congested MultiModal Road Network[J].Taylor&Francis Ltd,2015,9(4):282-297.
[8]Divvy System Data[DB/OL].https://www.divvybikes.com/systemdata.
[9]史?峰,王小川,郁?磊,等.MATLAB神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析[M].北京:北京航空航天大學(xué)出版社,2010.
[10]廖祥超.九種常用缺失值插補(bǔ)方法的比較[D].昆明:云南師范大學(xué),2017.