李偉
摘 要:城市出行熱點區(qū)域的識別對于提高政府對城市出行特征認識,優(yōu)化設施選址,改造老舊城區(qū)等有著重要意義。同時,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)約車數(shù)量快速增長,其背后的數(shù)據(jù)挖掘在城市規(guī)劃,為政府提高決策數(shù)據(jù)支撐方面發(fā)揮著越來越重要的作用。本文基于2017年5月1日—2017年10月31日??谑忻咳盏牡蔚斡唵螖?shù)據(jù),使用密度聚類(Dbscan)算法識別網(wǎng)約車出行熱點區(qū)域,并同時結(jié)合長短時記憶網(wǎng)絡(LSTM)算法對網(wǎng)約車出行熱點區(qū)域的出行需求進行了合理的識別與預測。其結(jié)果顯示??谑性绺叻宕嬖?個出行熱點區(qū)域,午高峰存在6個出行熱點區(qū)域,晚高峰存在10個出行熱點區(qū)域。結(jié)果顯示海口市城區(qū)早高峰的平均預測誤差為29.2%,午高峰預測的平均誤差為24.8%,晚高峰預測的平均誤差為22.8%,準確性良好。
關(guān)鍵詞:密度聚類;長短時記憶網(wǎng)絡;熱點區(qū)域識別;需求預測
中圖分類號:U491.1 文獻標識碼:A
0 引言
城市出行熱點區(qū)域是指相對城市其他區(qū)域具有更多居民活動的區(qū)域,意味著該區(qū)域具有更高出行需求與更高的交通流量。通過對城市出行熱點區(qū)域的識別,能夠為城市公共設施布置,商鋪選址,土地價值評估,公交線網(wǎng)調(diào)整等提供數(shù)據(jù)依據(jù)與支撐。隨著網(wǎng)約車普及,網(wǎng)約車在居民城市出行方式占比逐漸增加,網(wǎng)約車數(shù)據(jù)具有時間跨度長,空間范圍廣,實時性高的特點,為識別城市出行熱點區(qū)域提供新方向。
既有研究在載客熱點區(qū)域研究方面,2018年,程智源[1]提出了基于LCSS時空相似性度量方法,對交通熱點區(qū)域進行了進一步的提取,并同時提出了基于子軌跡權(quán)值分析的熱點路徑提取算法,最后使用成都市的出租車數(shù)據(jù)對成都市出租車的熱點區(qū)域與熱點路徑進行識別;2018年,王明[2]在傳統(tǒng)基于DBSCAN的熱點區(qū)域識別的基礎(chǔ)上,增加了出租車的形式距離因素,進一步提高了在城市中使用出租車數(shù)據(jù)挖掘熱點區(qū)域的精度;2018年,鄭林江[3]針對現(xiàn)有熱點區(qū)域識別計算效率低的問題,提出了DBGScan算法,并在重慶市進行了實地應用。
在載客需求預測研究方面,2018年,余濤[4]在采用小波分析法對原始交通流數(shù)據(jù)進行去噪分析的基礎(chǔ)上,提出了一種將支持向量機與BP神經(jīng)網(wǎng)絡進行組合的算法,最后通過足有加權(quán)規(guī)則對該預測算法進行了進一步的優(yōu)化;2019年,蒲斌等[5]使用實際數(shù)據(jù)將ARIMA乘積季節(jié)模型,BP神經(jīng)網(wǎng)絡模型和RBF神經(jīng)網(wǎng)絡模型進行對比,最后得出結(jié)論,相較于ARIMA乘積季節(jié)模和RBF神經(jīng)網(wǎng)絡模型,BP神經(jīng)網(wǎng)絡模型具有更高的精度。
綜上所述,在研究數(shù)據(jù)上,現(xiàn)有文獻多利用出租車數(shù)據(jù)進行出行熱點區(qū)域識別與需求預測,但根據(jù)交通運輸部在2020年9月24日的例行發(fā)布會上最新數(shù)據(jù)顯示:在36個中心城市中,已有18個城市的合規(guī)網(wǎng)約車數(shù)量超過了出租車,并仍在快速發(fā)展中。在研究方法上,關(guān)于出行熱點區(qū)域的識別,現(xiàn)有文獻多使用k-means,凝聚層次聚類,密度聚類等聚類算法,關(guān)于需求預測方面,現(xiàn)有文獻多使用BP神經(jīng)網(wǎng)絡,支持向量機等預測方法,但在預測方法方面,現(xiàn)有預測方法不足以考慮到出行熱點區(qū)域的出行需求在時間上具有一定的關(guān)聯(lián)性。因此,本文以城市出行熱點區(qū)域識別為研究目標,并基于滴滴網(wǎng)約車數(shù)據(jù),并分別使用密度聚類(Dbscan)與長短時記憶網(wǎng)絡(LSTM)進行網(wǎng)約車出行熱點區(qū)域識別與需求預測。
1 基于機器學習的網(wǎng)約車出行熱點區(qū)域識別及需求預測
1.1 基于密度聚類(Dbscan)的網(wǎng)約車出行熱點區(qū)域識別
在固定時間內(nèi),網(wǎng)約車出行熱點區(qū)域具有在特定區(qū)域內(nèi),居民出行密集程度高的特點。而密度聚類(Dbscan)算法能在特定數(shù)據(jù)空間內(nèi),以密度為特征搜索符合條件的區(qū)域,并同時識別出密度較小的噪聲區(qū)域,與K-means,層次聚類等聚類算法相比,Dbscan具有無需指定聚類數(shù)量,并且能夠發(fā)現(xiàn)任意形狀的簇的優(yōu)點。因此,關(guān)于網(wǎng)約車出行熱點區(qū)域識別,使用Dbscan算法能夠有效避免噪聲的影響,并提高識別精度。
本文使用的Dbscan算法,其核心思想是通過將緊密相連的樣本劃為一類,從而得到了一個聚類類別(出行熱點區(qū)域),然后將所有各組緊密相連的樣本劃為各個不同的類別,最終得到所有聚類類別結(jié)果(出行熱點區(qū)域)。其具體算法步驟如下:
(1)輸入所有網(wǎng)約車訂單的起點位置與時間數(shù)據(jù),任意選擇一個位置點為標定點,若樣本點與標定點的空間距離小于等于Eps,時間距離小于等于,且滿足條件的樣本點數(shù)大于一定數(shù)量,則該標定點為核心點。反復計算,直到從樣本點中循環(huán)計算出所有核心點。
(2)REPEAT:
從訂單起點數(shù)據(jù)中隨機選擇一個位置點。
IF選擇的位置點是核心點。
THEN搜索該核心點一定時間、空間范圍的所有位置點,將滿足條件的位置點與核心點合并為同一簇。
ELSE選擇的位置點為非核心點,結(jié)束循環(huán),搜索下一個位置點。
UNIIL所有位置點都完成遍歷,生成熱點區(qū)域簇。
(3)REPEAT:
從熱點區(qū)域簇中隨機選擇一個簇。
IF非核心位置點在選擇簇中為支點的一定時空范圍內(nèi)。
THEN將非核心位置點寫入密度可達簇,循環(huán)。
UNTIL每個非核心位置點都被遍歷過,生成密度可達簇。
(4)REPEAT:
在密度可達簇中隨機選擇一個簇。
IF任意密度可達簇與選擇密度可達簇存在相同位置點。
THEN將兩密度可達簇合并為同一個密度相連簇,循環(huán)。
UNTIL每個密度可達簇都完成遍歷。
(5)輸出熱點區(qū)域集合。
1.2 基于長短時記憶網(wǎng)絡(LSTM)的網(wǎng)約車出行熱點區(qū)域需求預測
由于網(wǎng)約車出行熱點區(qū)域的需求預測受時刻與節(jié)日影響較大,并且相鄰日期的需求存在一定黏性。而長短時記憶網(wǎng)絡(LSTM)算法,在循環(huán)神經(jīng)網(wǎng)絡(RNN)的基礎(chǔ)上,利用3個sigmoid層,并借助記憶單元,對之前所有序列輸入有選擇的進行保留,從而實現(xiàn)對數(shù)據(jù)的預測。因此,本文擬采用LSTM算法,充分考慮歷史相同時刻的數(shù)據(jù)相似性,進行出行熱點區(qū)域需求預測。
LSTM是一種特殊的RNN變體,具有與RNN類似的內(nèi)部結(jié)構(gòu)。RNN在普通BP神經(jīng)網(wǎng)絡的基礎(chǔ)上,增加了橫向傳輸,通過增加一個橫向隱藏層狀態(tài),將上一個神經(jīng)元的值傳遞至現(xiàn)有神經(jīng)單元,從而為神經(jīng)網(wǎng)絡增加了記憶功能。但RNN在訓練過程中無法捕捉長周期影響,而LSTM“記憶單元”的門控結(jié)構(gòu),使用兩個隱藏層狀態(tài)控制信息的取舍、輸入、更新、輸出,因此具備長時間的記憶功能。其原理如下:
2 研究數(shù)據(jù)
本研究基礎(chǔ)數(shù)據(jù)為2017年5月1日—2017年10月31日??谑谐菂^(qū)的每日滴滴訂單數(shù)據(jù),該數(shù)據(jù)來源于滴滴出行“蓋亞”數(shù)據(jù)開放計劃。數(shù)據(jù)主要字段內(nèi)容包括訂單ID,訂單類型(1包車,4拼車,0普通乘車),乘車人數(shù)(拼車場景,乘客選擇的乘車人數(shù)),出發(fā)時間,出行時長(分鐘),起點經(jīng)度,起點緯度,終點經(jīng)度,終點緯度。為更好進行后續(xù)算法調(diào)試,本部分將原始訂單數(shù)據(jù)進行去重與缺失數(shù)據(jù)刪除預處理。預處理過程中刪除重復數(shù)據(jù)或缺失數(shù)據(jù)共計3,214,911條,最終剩余數(shù)據(jù)10,979,450條,平均每日產(chǎn)生訂單數(shù)59,671單。
3 結(jié)果與討論
3.1 參數(shù)設置
在聚類算法的參數(shù)確定過程中,通過輸入不同的Eps與Eps內(nèi)的最小樣本點數(shù)量,并同時對??谑懈哞F東站的實際識別結(jié)果進行分析,最終計算出,Eps為400 m,最小樣本點數(shù)量為70時,識別效果較為理想。在長短時記憶網(wǎng)絡(LSTM)訓練過程中,若一個神經(jīng)元參數(shù)波動較大,則模型整體擬合會偏向該神經(jīng)元,故而在每批次訓練過程中,隨機拋棄一定比例的神經(jīng)元,可以有效減少過擬合現(xiàn)象。LSTM網(wǎng)絡結(jié)構(gòu)參數(shù)設置參照文獻[6],將第一層LSTM輸出維度設置為20,第二層LSTM輸出維度設置為40,迭代次數(shù)設置為1 000,拋棄比例設置為0.5。
3.2 基于密度聚類(Dbscan)的網(wǎng)約車出行熱點區(qū)域識別
考慮到高峰時刻是居民出行的熱點時刻,同時在此時間段內(nèi)的居民出行頻率最高,因此,首先對??谑谐菂^(qū)5月1日-5月31日的訂單數(shù)據(jù)進行提取,然后針對早高峰(7:00 am—9:00 am),午高峰(11:30 am—13:30 pm),晚高峰(17:00 am—19:00 am)時刻分別進行基于密度聚類(Dbscan)的網(wǎng)約車出行熱點區(qū)域識別,最后針對所有5月識別出的所有出行熱點區(qū)域進行統(tǒng)計。
統(tǒng)計結(jié)果如圖 1所示,早高峰的出行熱點區(qū)域如圖 1(a)所示,共有8個出行熱點區(qū)域;午高峰的出行熱點區(qū)域如圖 1(b)所示,共有6個出行熱點區(qū)域;晚高峰的出行熱點區(qū)域如圖 1(c)所示,共有10個出行熱點區(qū)域。其中早中晚共有的出行熱點區(qū)域主要分布于海秀快速路北側(cè)與丘海大道東側(cè)的居民區(qū),萬綠園西南側(cè)的商務與住宅區(qū),以人民公園和核心的中央居住區(qū),南海大道與龍昆南路交匯處,??跂|站附近,因此??谑谐鲂袩狳c區(qū)域主要集中于大型樞紐站,主干路交匯處的住宅區(qū)與公園附近的住宅區(qū)三大區(qū)域。同時針對海口市5月份的出行熱點區(qū)域識別結(jié)果進行分析可以發(fā)現(xiàn),??谑械脑绺叻宄鲂袩狳c區(qū)域呈現(xiàn)多區(qū)域爆發(fā),其主要原因是早高峰上班人群較為分散,城市流動人口較多;當午高峰來臨時,出行熱點區(qū)域明顯減少,主要是由于城市午高峰多以飲食與購物為主,因此出行較少;當晚高峰來臨時,出行熱點區(qū)域急劇增多與擴大,主要是由于晚高峰的客流以回家為主,同時伴隨著大量夜間活動,因此晚高峰的出行熱點區(qū)域更多,且范圍更廣。
3.3 基于長短時記憶網(wǎng)絡(LSTM)的網(wǎng)約車出行熱點區(qū)域需求預測
考慮到本部分的數(shù)據(jù)量較為龐大,為縮短運算時間,本研究針對網(wǎng)絡出行熱點區(qū)域進行菱形處理。其主要處理思路是首先提取海口市城區(qū)5月份每一個出行熱點區(qū)域的上下左右頂點,形成菱形區(qū)域;然后對每一天在該區(qū)域的出行進行統(tǒng)計;最后以2017年5月1日—2017年9月18日的數(shù)據(jù)為訓練集,9月19日-9月30日的數(shù)據(jù)為測試集,進行長短時記憶網(wǎng)絡(LSTM)預測,并將預測結(jié)果與觀測值作比較計算誤差,以時間作為橫軸,誤差作為縱軸,以每天各個出行熱點區(qū)域的誤差繪制箱型圖,誤差結(jié)果如圖 2所示。從圖 2(a)與圖 2(b)中可以看出,在??谑性绺叻迮c午高峰期間,9月19日至9月30日每天的各個出行熱點區(qū)域平均預測誤差均保持在50%以下。但在晚高峰,如圖 2(c)所示,每天的各個出行熱點區(qū)域平均預測誤差較大,9月28日已超過50%,達到30倍左右,如圖 2(d)所示。其主要原因是晚高峰的出行更多,出行熱點區(qū)域分布面積更廣,分布形狀的規(guī)則性更差,因此采用菱形區(qū)域統(tǒng)計會存在一定誤差。
4 結(jié)論
本文基于2017年5月1日—2017年10月31日海口市每日的滴滴訂單數(shù)據(jù),使用密度聚類(Dbscan)算法識別網(wǎng)約車出行熱點區(qū)域,并同時結(jié)合長短時記憶網(wǎng)絡(LSTM)算法對網(wǎng)約車出行熱點區(qū)域的出行需求進行了合理的預測。出行熱點區(qū)域識別結(jié)果顯示海口市早高峰存在8個出行熱點區(qū)域,午高峰存在6個出行熱點區(qū)域,晚高峰存在10個出行熱點區(qū)域。同時早高峰的平均預測誤差為29. 2%,午高峰預測的平均誤差為24. 8%,晚高峰預測的平均誤差為22.8%,準確性良好。相關(guān)部門可以根據(jù)識別的出行熱點區(qū)域和需求預測進行相應的派車服務以及完善公交運營網(wǎng)路。在下一步,如何將需求預測數(shù)據(jù)與公交規(guī)劃模型相結(jié)合值得進一步探討。
參考文獻:
[1]程智源.基于軌跡聚類的交通熱點分析[D].電子科技大學,2018.
[2]王明.基于出租車GPS數(shù)據(jù)的載客熱點可視化的研究與應用[D].中北大學,2018.
[3]鄭林江,趙欣,蔣朝輝,等.基于出租車軌跡數(shù)據(jù)的城市熱點出行區(qū)域挖掘[J].計算機應用與軟件,2018,35(01):1-8.
[4]余濤.基于SVM和BP神經(jīng)網(wǎng)絡的短時交通流預測與實現(xiàn)[D].南京郵電大學,2018.
[5]蒲斌,李浩,盧晨陽,等.基于神經(jīng)網(wǎng)絡的海量GPS數(shù)據(jù)交通流量預測[J].云南大學學報(自然科學版),2019,41(01):53-60.
[6]馬聰,李鋒,張建華,等.基于LSTM神經(jīng)網(wǎng)絡的肉牛動態(tài)稱重算法研究[J].黑龍江畜牧獸醫(yī),2020(20):60-63+157-158.