周劍明, 黃杉
(1. 中國聯(lián)通廣州市分公司, 廣東 廣州 510000; 2. 智慧足跡數(shù)據(jù)科技有限公司, 北京 100023)
軌道交通方式成為我國大中型城市的主要交通方式之一,但巨大的客流量為軌道交通的運營管理帶來新的挑戰(zhàn)[1]。短時流量預測是軌道交通運營管理的基礎,流量預測是以時間序列為基礎預測未來時間段的客流量[2],一般情況下,短時流量預測的時間粒度小于20min。短時流量預測可以為軌道交通客運管理與組織安排提供有力參考并緩解軌道交通擁堵概率,提升交通服務質量。手機基站發(fā)出的信令數(shù)據(jù)具有數(shù)據(jù)量大、客觀真實和易獲取等優(yōu)勢[3],隨著手機用戶數(shù)量的提升,手機定位技術的信令數(shù)據(jù)重要性日漸增強。同時與基于交通大數(shù)據(jù)[4]或基于組合模型的流量預測方法相比[5],手機信令數(shù)據(jù)還具有低成本,高覆蓋區(qū)域等優(yōu)勢。因此,在軌道交通短時流量預測過程中融入手機信令,提出基于手機信令大數(shù)據(jù)的軌道交通短時流量預測方法以預測軌道交通短時流量。
基于手機信令大數(shù)據(jù)的軌道交通短時流量預測方法的整體架構,如圖1所示。
預測過程主要分為以下幾個環(huán)節(jié):由手機網(wǎng)絡運營商處和軌道交通運營商處分別獲取用戶手機信令數(shù)據(jù)和軌道交通路線信息;依照道路匹配算法確定軌道交通路線上移動的手機用戶[6];搭建軌道交通流量大數(shù)據(jù)庫,實時更新軌道交通路線上手機用戶的手機信令數(shù)據(jù);分析軌道交通流量特性;基于K值自適應算法預測軌道交通短時流量。
圖1 預測方法整體架構
基于手機網(wǎng)絡運營商的BSS(Business Support System,業(yè)務支撐系統(tǒng))域數(shù)據(jù)管理系統(tǒng)設定手機信令數(shù)據(jù)采集時間閾值,根據(jù)設定閾值實時采集城市范圍內手機用戶的信令數(shù)據(jù)。所采集手機信令數(shù)據(jù)為從某運營商處獲得的脫敏數(shù)據(jù),可以在不違反系統(tǒng)規(guī)則條件下,改造真實數(shù)據(jù)并提供測試使用[7]。所采集手機信令數(shù)據(jù)結構,如表1所示。
表1 所采集手機信令數(shù)據(jù)
在采集的手機信令數(shù)據(jù)內,各用戶具備唯一的身份識別ID,經(jīng)緯度維數(shù)為手機基站的所在位置,當用戶手機達到基站服務范圍內基站自動生成時間戳,并記錄用戶手機在該基站范圍內停留時間,再獲取城市軌道交通路線信息。
選取GIS緩沖分析方法對基站與軌道交通路線實施疊加,根據(jù)手機信令數(shù)據(jù)將手機基站擬合至軌道交通路線上。由于城市內基站服務范圍通常為500 m。因此設定緩沖半徑為500 m,基站與交通軌道路線擬合結果,如圖2所示。
圖2 基站與軌道交通路線擬合結果
基于GIS緩沖分析方法對基站與軌道交通路線的擬合,確定不同軌道交通路線上的基站分布序列,用Qi={n1,n2,…,nf}表示,Qi和nf分別表示第i條軌道交通路線和基站序列內第f個基站,將Qi={n1,n2,…,nf}作為軌道交通路線的基站切換序列。依據(jù)時間維度整理排列用戶手機信令切換數(shù)據(jù),能夠確定不同用戶經(jīng)過基站的切換順序,用Pj={n1,n2,…,nm}表示用戶手機基站切換序列,Pj和nm分別表示第j個手機用戶和其經(jīng)過的第m個基站。計算Pj={n1,n2,…,nm}和Qi={n1,n2,…,nk}之間的相似度(歐氏距離),如式(1)。
(1)
基于式(1)確定手機用戶移動軌跡與軌道交通路線匹配的信息,當相似度高于設定值時,即可判定該手機用戶為軌道交通路線上的手機用戶。
利用以上獲得的手機用戶和Oracle Database關系數(shù)據(jù)庫管理系統(tǒng),構建手機信令樣本數(shù)據(jù)庫,手機信令數(shù)據(jù)采集時間閾值實時更新數(shù)據(jù)庫信息并分析軌道交通流量特性,可知城市軌道交通短時人流量時間序列存在顯著的周期性變化特征。由于交通流量及具體運行模式不同時,其預測的精度和動態(tài)特征也不同,為了以最低計算量獲取相關的交通短時流量參數(shù),本文采用基于K值自適應的軌道交通短時流量預測算法預測城市軌道交通短時流量。
利用軌道交通路線上用戶手機信令樣本數(shù)據(jù)庫,依照軌道交通人流量特性生成K近鄰模型的狀態(tài)向量。依照距離度量方式與自適應K值計算確定近鄰搜索機制。根據(jù)當前時刻軌道交通流量數(shù)據(jù)預測下一時刻軌道交通流量。狀態(tài)向量是對比交通軌道流量歷史狀態(tài)與當前狀態(tài)的標準,如式(2)。
Ea=(xa1,xa2,…,xat)
(2)
(3)
K近鄰模型中,K值表示數(shù)據(jù)庫內選取近鄰數(shù)量的參數(shù),該值直接影響預測精度。因此選取基于平均絕對百分比誤差最小的K值自適應計算模型計算K值。計算模型,如式(4)。
(4)
K=min{k1,k2,k3,…kλ}
(5)
(6)
采用本文方法對某市軌道交通二號線進行短時流量預測以測試性能。預測過程中使用的手機信令大數(shù)據(jù)來源于同三大營銷商的合作項目,軌道交通路線信息來自研究對象所在城市軌道交通運營商。
2.1.1K取值
采用本文方法進行研究對象短時流量預測,基于數(shù)據(jù)庫內已有數(shù)據(jù)得到不同K值下的預測結果平均絕對百分比誤差,其中曲線表示平均絕對百分比誤差值,如圖3所示。
圖3 不同K值下的平均絕對百分比誤差
分析圖3能夠得到,隨著K取值的提升,短時流量預測結果的平均絕對百分比誤差整體表現(xiàn)出先下降后提升的趨勢。當K取值在1—4時,預測結果平均絕對百分比誤差從0.056下降至0.038;當K取值在4—16時,預測結果平均絕對百分比誤差從0.038上升至0.076,這是因為當K取值過大或過小時,均會提升研究對象短時流量預測結果的平均絕對百分比誤差,而4恰巧在取值過大或過小的中間節(jié)點上,因此此取值為預測精度最高。實驗結果表明采用本文方法預測研究對象短時流量時,K取值為4時,本文方法預測精度最高。
2.1.2 流量預測
以2020年5月1日(法定節(jié)假日)和5月6日(非節(jié)假日)為預測日,采用本文方法進行研究對象短時流量預測,設定預測時間粒度為20 min,K取值為4。預測結果,如圖4所示。
(a) 2020年5月1日
綜合圖4(a)與圖4(b)的數(shù)據(jù)能夠得到本文方法針對節(jié)假日條件下研究對象流量預測結果較好。整體預測過程中本文方法對于研究對象流量的變化趨勢感知較為敏感,可依照實時流量波動快速修正預測趨勢。本文方法在節(jié)假日條件下針對研究對象進行流量預測過程中,全天平均絕對百分比誤差低于5%,滿足實際預測需求。且本文方法針對非節(jié)假日條件下研究對象流量預測結果與實際流量基本一致,預測過程中,全天平均絕對百分比誤差低于3%。證明了本文方法可準確預測研究對象短時流量,并根據(jù)實際流量,實施修正預測趨勢,提升后續(xù)預測精度。
選取均方根誤差(其值越小誤差越小)和運行時間(其值越大方法復雜度越高)作為預測性能評價指標。針對研究對象5月6日流量預測結果的評價指標,以文獻[4]和文獻[5]中方法對比本文方法,如表2所示。
表2 不同預測方法的評價
分析表2可得,本文方法在均方根誤差上的評價結果與基于交通大數(shù)據(jù)的預測方法差距較小,但顯著優(yōu)于基于組合模型的預測方法;在運行時間方面的評價結果與基于組合模型的預測方法差距較小,但顯著優(yōu)于基于交通大數(shù)據(jù)的預測方法。綜合可知本文方法預測性能優(yōu)于對比方法。
本文提出基于手機信令大數(shù)據(jù)的軌道交通短時流量預測方法,擬合手機基站與交通軌道路線,根據(jù)手機信令數(shù)據(jù)判斷交通軌道路線上的用戶,采用基于K值自適應的軌道交通短時流量預測算法進行實時準確的短時流量預測。但本文方法在研究過程未考慮天氣異常與突發(fā)事件等條件,因此,在后續(xù)優(yōu)化過程中將基于此對方法實施改進。