国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于HRHN模型的城市常規(guī)公交線路客流預測*

2020-03-01 06:53:32陳曉旭段紅勇
交通信息與安全 2020年5期
關鍵詞:公交線路客流量客流

陳曉旭 項 煜 楊 超,3▲ 段紅勇 趙 端

(1.同濟大學道路與交通工程教育部重點實驗室 上海 201804;2.河南省交通一卡通有限責任公司 鄭州 450018;3.同濟大學城市交通研究院 上海 200092)

0 引 言

公交客流預測對于公交線網規(guī)劃設計和公交線路運營管理有著重要意義,并且對公共安全也有著重要的作用。因此,國內外很多學者對此問題進行了研究。傳統(tǒng)的公交客流預測是基于人工調查數據或者計數器等方式獲取的小樣本數據,利用傳統(tǒng)的數學統(tǒng)計模型進行預測。近十幾年,大數據和機器學習技術的發(fā)展,推動公交客流預測發(fā)生了巨大的改變。海量多源異構數據包括公交刷卡數據、公交GPS數據、公交視頻數據、地理信息數據、手機信令數據、出租車GPS數據、氣象數據等,數據融合技術可以通過關聯(lián)性建立公交客流與其它信息的聯(lián)系,利用機器學習可以有效的挖掘公交客流與環(huán)境的潛在規(guī)律,有助于公交客流的預測。傳統(tǒng)的公交客流預測模型在小樣本數據上表現較好,在處理大樣本數據效果較差,主要因為公交客流的變化受多種因素影響,是屬于非平穩(wěn)時間序列[1]。而機器學習預測模型可以利用其處理非線性問題的優(yōu)勢,對公交客流進行更好的預測?,F有的公交客流預測模型分為參數模型、非參數模型這2類。

參數模型是指可以基于有限維度的參數來反映總體,有限的參數能夠代表數據的特性。公交客流參數模型主要包括時間序列模型(ARIMA,SARIMA)、回歸模型、卡爾曼濾波模型等。ARIMA時間序列預測模型是常見的公交客流預測參數模型[2-3],時間序列模型較為簡單,主要依靠時間因素在預測中的作用。該模型存在較大的缺陷,當其他影響因素波動較大時,如天氣狀況等,模型的預測精度較低。回歸模型也是常見的序列預測模型,主要是利用數理統(tǒng)計估計變量之間關系的過程?;貧w模型有利于分析與公交客流預測有關的變量[4-5],回歸模型對于長期客流預測具有較好的效果??柭鼮V波客流預測模型是利用控制理論中的卡爾曼濾波,由狀態(tài)方程和觀測方程組成的狀態(tài)空間模型來描述交通系統(tǒng),并利用狀態(tài)方程、觀測方程和卡爾曼濾波預測客流[6]??柭鼮V波具有靈活的遞推狀態(tài)空間模型,并且具有線性、無偏、最小均方差等優(yōu)點,既適應于處理平穩(wěn)數據,又可用于非平穩(wěn)數據處理,因此廣泛應用于交通客流預測方面。但由于卡爾曼濾波屬于線性模型,其在預測非線性和不確定性的交通流時,模型預測性能變差。

非參數模型是假設數據的分布不能被有限的參數進行定義,一般通過可以設定無限個參數進行模型建立。與參數模型不同的是,參數模型的訓練需要的樣本數據量較小,而非參數模型的訓練需要的樣本數據較大。公交客流預測是典型的非線性問題,而非參數模型在處理非線性問題方面具有較大的優(yōu)勢,因此有很多非參數模型用于公交客流預測。常見的公交客流非參數預測模型包含支持向量機模型、K最近鄰模型、神經網絡模型等。支持向量機模型作為有監(jiān)督的機器學習算法,可以用于分類和非線性回歸問題,具有小樣本訓練、高維度訓練速度快、良好的泛化能力[7-9]。K最近鄰模型是一種用于分類和回歸的非參數方法,適用于不確定和非線性的動力學系統(tǒng),可以在沒有先驗知識和足夠歷史數據的情況下使用[10-11]。神經網絡具有強大的非線性處理能力,是公交客流預測使用最多最廣泛的機器學習算法。不同類型神經網絡被用于公交客流的預測,包括人工神經網絡[12-13]、反饋神經網絡[14]、循環(huán)神經網絡[15]、長短期記憶循環(huán)網絡[16]、深度神經網絡[17]等。上述類型的神經網絡已經被用于客流預測,并取得了較好的預測效果。另外客流的分布特性與空間有較強的關系,近幾年卷積神經網絡在公交客流預測中也有著重要作用。

公交客流預測參數模型普遍存在預測非線性和不確定性的客流量時,模型預測性能變差。機器學習模型具有處理非線性關系的優(yōu)勢,因此更適合進行公交客流的預測,而利用機器學習進行公交客流預測的關鍵在于模型構建和模型特征的選擇。公交客流預測是一個時間序列預測問題,公交客流不僅與客流本身特性有關,還與時間、空間、氣候等因素有一定的關聯(lián)。本文公交客流預測利用層次注意力模型(hierarchical attention)框架,結合卷積神經網絡模型(ConvNet)、循環(huán)高速網絡模型(RHN)構建層次注意力遞歸公路網絡(hierarchical attention-based recurrent highway networks,HRHN)預測模型。

1 公交線路客流數據

現有鄭州市10條公交線路一卡通刷卡數據,公交車載GPS數據以及靜態(tài)地理信息數據,涵蓋了從2019年8月1日—8月31日這1個月的時段。數據記錄時段均從00:00:00—23:59:59,可以全面反映出不同日期不同時段的公共交通客流特征。公交一卡通數據和公交GPS數據具體格式分別見表1和表2。對數據進行清洗,主要對重復數據、時間異常和缺失數據進行處理,利用Yan等[18]的識別方法對10條公交線路進行公交上下車站點識別。公交線路客流是指在一段時間內,1條公交線路上行或下行方向所有站點上車客流之和。以30 min為聚合單位,統(tǒng)計06:00—22:30內共33個時段的上下行方向線路客流,得到線路客流量數據集。

表1 公交一卡通數據字段信息表Tab.1 Bus smart card data sample

表2 公交GPS數據字段信息表Tab.2 Bus GPS data sample

2 客流預測特征

在建立公交線路客流預測模型之前,需要分析影響客流預測的因素。在使用機器學習模型之前,需要進行關聯(lián)性分析,研究影響公交客流的變量,也就是進行特征工程。公交線路客流本身是1個單變量時間序列,結合其它多源數據,例如氣候數據和不同線路數據,可以組合成為多變量時間序列,從而可以研究整體系統(tǒng)的動態(tài)變化。利用特征工程構造模型的輸入變量。

公交線路客流存在以周為單位的周期性,不同天之間的客流存在一定的差異,特別是工作日和非公日的差異較為明顯,1 d中的客流在不同時段分布不同。圖1和圖2分別為2019年8月60號公交線路上行方向和下行方向客流分布曲線。從圖中可以明顯地判斷出客流與周、天和時段的關系。此外10條公交線路的客流之間具有較強的關聯(lián)性和相似性,在一定程度上可以反映客流的空間相關性,因此所有線路的客流量可以作為特征。本次研究特征確定客流量、客流所在1周的星期、客流所在1 d的時段編號為初步的特征。劉欣彤等[19]對站點進站客流量與天氣進行了相關性分析,選取降雨量、風速作為新增的特征變量。公交客流趨勢反映了客流的變化趨勢特征,一階差分和二階差分可以反映客流的增長和減少以及增減幅度大小,因此選擇一階差分和二階差分作為預測公交客流的特征。公交線路客流的頻數分布為偏態(tài)分布,將客流轉換為正態(tài)分布可以提高客流預測的準確度,因此采用Box-Cox變換將客流量轉換[20]。本次構造的客流時間特征均為分類變量,客流所在1周的星期、客流所在1 d的時段編號這2個特征均需要采用One-hot編碼處理。最后對數據采用Min-Max歸一化處理,各指標處于同一數量級,適合進行綜合對比評價。

圖1 8月60號公交線路上行客流分布Fig.1 Distribution of upward passenger flow on No. 60 in August

圖2 8月60號公交線路下行客流分布Fig.2 Distribution of downward passenger flow on No. 60 in August

3 HRHN預測模型

HRHN預測模型是利用層次注意力模型框架,結合ConvNet、RHN進行構建[21],模型整體結構如圖3所示。同其他注意力模型框架相似,HRHN模型分為Encoder和Decoder 2個模塊。在Encoder模塊中,采用ConvNet對輸入特征進行提取,利用RHN對提取到的特征建立時間依賴性關系;在Decoder模塊中,所要預測的歷史數據作為輸入,利用RHN模型建立時序的關聯(lián)性;輸出值和特征之間的相互作用通過注意力模型進行分析,從而在Decoder中進行預測。相較與其它機器學習模型,HRHN預測模型以層次注意力模型為框架,將ConvNet和和RHN結合運用。ConvNet可以考慮時空特性進行模型特征提取,而RHN是LSTM模型的發(fā)展模型,在學習時間依賴關系的同時,能夠保留更多的數據信息。HRHN已經在時間序列預測方面取得了較好的預測效果,因此將其引入到公交客流預測中。

圖3 HRHN預測模型結構Fig.3 Structure of HRHN forecasting model

3.1 Encoder模塊

在Encoder中,設xt∈Rn為t時刻預測線路客流的n維特征向量,時間窗口大小為T,即利用前T-1個時間窗的數據預測時刻T的輸出值。設輸入為(x1,x2,…,xT-1),輸入張量在進入到ConvNet層中,可以得到考慮特征之間作用關系的新特征,設ConvNet的卷積層數量為L,第l層卷積層的特征映射為Fl,對所有的卷積層運用1×q的內核大小,第l層卷積層上中第f個特征圖上的i卷積單元卷積值為

在經過多層卷積層和池化層以后,將輸出傳遞到全連接層,產生了1個特征張量(w1,w2,…,wT-1),其中:wt∈Rm,該特征張量里面包含了特征之間的相關信息。

緊隨ConvNet層其后,利用RHN層提取特征張量里面的時間動態(tài)相關信息。假設分別是3個非線性轉換G,R,C的輸出。設在本次研究中,RHN的層數深度為是第k層在時刻t的中間輸出量,為 非 線 性 轉 換G的 權 重 矩 陣 ;為非線性轉換R和C在第k層的權重矩陣;bGk,Rk,Ck∈Rl為相對應的偏差值,第k層RHN層在時刻t的的隱層狀態(tài)h[k]t為

式中,Ω-({k=1})為指示函數:當k=1時,值為1;當k≠1時,值為0。隱層狀態(tài)可以是通過上述非線性轉換的門函數進行選擇和控制以及傳遞信息,這個狀態(tài)是可以描述特征的時間動態(tài)變化的。

3.2 Decoder模塊

所以,在時刻t的將要輸入至Decoder的中間轉義編碼Ct為

再考慮Decoder的另外一個輸入,輸入特征為只包括預測客流前T個時段的客流,用于提取客流和Encoder中特征的相互作用。Decoder同樣采用RHN,假設RHN的層數為k,同樣可以得到,Decoder的隱層狀態(tài)為

最后,模型的輸出可以得到為

式中:為最后一層的輸出;C為時刻T的中間T轉義編碼,W,V,b分別為最后一層和輸出層的連接矩陣和偏差。

3.3 評價指標

為了全面地評價模型的預測效果,筆者選取平均絕對誤差(MAE)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)、對稱平均絕對百分比誤差(SMAPE)作為模型評價指標。這4個指標可以反映預測值與實際值之間的誤差大小,其定義分別為

式中:yi為在時刻i的真實值;為在時刻i的預測值;N為預測數據的總數量。

4 預測結果

以60號線路為例,對60號線路的上下行方向線路客流進行預測。線路客流量數據集有1 023條記錄。本次預測模型選擇前24 d數據(共792條記錄)進行訓練,后7 d數據(共231條記錄)進行測試,特征包括:客流所在1周的星期(One-hot編碼)、客流所在1 d的時段編號(One-hot編碼)、預測客流的前6個時段客流量(采用Box-Cox變換)、降雨量、風速、客流量一階差分、客流量二階差分,并對所有變量進行歸一化處理。該預測模型參數為2層RHN(128×2)、3層ConvNet(內核大小分別為16,32,32;每一層都采用1×3的Max-pooling),在訓練過程中采用均方誤差函數(MSE)作為損失函數,優(yōu)化方法采用Adam算法。運用HRHN模型對公交線路客流進行預測,并采用MAE,MAPE,RMSE,SMAPE這4種評價指標對模型進行評估。

4.1 預測結果

對60號公交線路客流進行預測,60號公交線路上行方向和下行方向線路客流預測結果分別見圖4和圖5。從圖中可以看出,HRHN模型可以實現較好的預測效果。針對以上2種客流預測的評價指標結果見表3。60號公交線路上行方向的線路客流預測,MAPE為0.116 1,SMAPE為0.113 9,說明該模型對于線路客流預測可以取得較高的預測準確度。

圖4 60號公交線路上行方向線路客流預測結果Fig.4 Passenger flow forecast results of No. 60 in the upward direction

圖5 60號公交線路下行方向線路客流預測結果Fig.5 Passenger flow forecast results of No. 60 in the downward direction

表3 60號公交不同線路客流預測評價指標Tab.3 Evaluation of passenger flow forecast on No.60

4.2 模型對比

為了驗證HRHN模型的有效性,將HRHN模型的預測效果與其他幾種常用模型進行比較。進行對比的模型包括差分自回歸移動平均模型(ARIMA)、BP神經網絡(BPNN)、循環(huán)神經網絡(RNN)、長短期記憶網絡(LSTM)、支持向量機(SVR)。利用上述不同預測模型對公交線路客流進行預測。60號線路上行方向線路客流和下行方向線路客流不同模型預測結果分別見圖6和圖7。從圖中可以觀察到,對于以上不同的客流預測,ARIMA模型和SVR模型的預測準確度較差,BPNN,RNN,LSTM模型的預測精度較為接近,HRHN模型的預測準確度最好。為了準確地反映不同模型的預測精度,計算不同模型對2種客流預測的評價指標結果見表4和表5。表中的數據顯示,對于線路客流預測,HRHN模型具有最準確的預測,其中在上行方向線路客流預測、下行方向線路客流預測的MAPE分別為0.116 1,0.144 4,另外HRHN模型的其它評價指標也是最優(yōu);ARIMA模型的預測效果最差,不同客流預測的MAPE分別為0.282 2,0.403 6,因為該模型只能反映線性關系,而不能用于非線性關系;對于BPNN,LSTM,RNN,SVR,HRHN這些機器學習模型,可以很好地學習非線性關系,在本次預測取得較好的預測效果。在本次的公交客流預測中,整體比較HRHN模型的預測精度為好。

表4 60號公交上行方向線路客流預測模型評價指標對比Tab.4 Evaluation of passenger flow forecast on No.60 in the upward direction

表5 60號公交下行方向線路客流預測模型評價指標對比Tab.5 Evaluation of passenger flow forecast on No.60 in the downward direction

圖6 60號線路上行方向線路客流不同模型預測結果Fig.6 Passenger flow forecast results of different models of No. 60 in the upward direction

圖7 60號線路下行方向線路客流不同模型預測結果Fig.7 Passenger flow forecast results of different models of No. 60 in the downward direction

5 結束語

準確的公交客流預測對于公交的運營和管理有著重要意義。本文提出利用HRHN模型對公交線路客流進行預測的方法。首先對公交數據進行預處理并獲取公交客流量,進一步利用特征工程構造公交客流預測特征,特征包括:客流所在1周的星期(One-hot編碼)、客流所在1 d的時段編號(One-hot編碼)、預測客流的前6個時段客流量(采用Box-Cox變換)、降雨量、風速、客流量一階差分、客流量二階差分。本次研究使用了鄭州市1個月的公交客流數據,其中選擇前24天數據(共792條記錄)進行訓練,后7 d數據(共231條記錄)進行測試。對60號公交線路客流進行試驗,分別預測60號公交線路上行方向和下行方向線路客流,其中60號公交線路上行方向的線路客流預測,MAPE為0.116 1,SMAPE為0.113 9,說明HRHN模型對于線路客流預測可以取得較高的預測準確度。然后將HRHN模型預測結果與其他4種模型(ARIMA,BPNN,LSTM,RNN,SVR)進行比較,結果表明與其它模型相比較,HRHN模型具有最準確的預測,其中在上行方向線路客流預測、下行方向線路客流預測的MAPE分別為0.116 1,0.144 4,另外HRHN模型的其它評價指標也是最優(yōu)。在本次的公交客流預測中,整體比較HRHN模型的預測精度最好。在下一步的研究中,獲取更多的數據用于客流預測研究,同時考慮建立參數優(yōu)化模型對預測模型的準確度進行提高。

猜你喜歡
公交線路客流量客流
客流增多
基于嵌入式系統(tǒng)的商場客流量統(tǒng)計算法
基于自學習補償的室內定位及在客流分析中的應用
基于AFC數據的城軌站間客流量分布預測
人工免疫算法在電梯客流時段劃分的應用
青島至萊西全國首條純電動城際公交線路開通 移動的環(huán)保“箱” 綠色出行有保障
城市軌道交通車站聯(lián)合配置短駁道路公交線路的方法
桂林市公交線路優(yōu)化的調查研究分析
最美公交線路上的“最美司機”
浙江人大(2014年6期)2014-03-20 16:20:43
城市軌道交通運營客流數據分析缺陷及應對
石狮市| 陆良县| 大丰市| 东阿县| 于都县| 临汾市| 卓尼县| 兴仁县| 全州县| 邯郸市| 天峨县| 聂荣县| 滦平县| 蕲春县| 陆川县| 佛山市| 岳阳县| 潼南县| 庆阳市| 锡林郭勒盟| 望谟县| 乃东县| 芦山县| 贵港市| 衢州市| 响水县| 广德县| 观塘区| 苍溪县| 正阳县| 尚志市| 台湾省| 东平县| 金坛市| 苍梧县| 吴堡县| 额济纳旗| 贡山| 同心县| 澄城县| 惠来县|