范禮乾
(中鐵第四勘察設(shè)計院集團有限公司,湖北武漢 430063)
客流預(yù)測是現(xiàn)代城市軌道列車運營的必然需要,也是長期以來備受關(guān)注的研究熱點。目前,客流預(yù)測方法主要分為參數(shù)方法和非參數(shù)方法。
在參數(shù)模型中,自回歸模型、自回歸滑動平均模型和自回歸綜合滑動平均模型,是傳統(tǒng)而有效的客流預(yù)測方法[1]。由于時滯變量之間的線性假設(shè),這些模型的應(yīng)用受到了限制。為了跟蹤真實客流的非線性特征,研究人員引入并改進了各種非參數(shù)模型,基于神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)方法作為非參數(shù)方法的代表,在對任意函數(shù)具有良好映射能力的同時,具有非常好的泛化能力,備受關(guān)注?,F(xiàn)有研究已經(jīng)提出了許多機器學(xué)習(xí)方法用于客流預(yù)測,其中,遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、長短時記憶(long shortterm memory,LSTM)網(wǎng)絡(luò)等可以很好地捕獲數(shù)據(jù)的時間序列特征,在客流預(yù)測課題上得到了廣泛的應(yīng)用[2]。客流表現(xiàn)出來的空間特征可以通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)進行提取[3]。一些研究也將注意力機制(attention mechanism,AM)用在客流預(yù)測中以提升模型性能。為彌補傳統(tǒng)機器學(xué)習(xí)在面對大量客流數(shù)據(jù)時出現(xiàn)的學(xué)習(xí)不足或者過度的問題,出現(xiàn)了組合神經(jīng)網(wǎng)絡(luò)預(yù)測模型[4]。
綜上,該研究基于深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu),實現(xiàn)對客流的精準(zhǔn)預(yù)測。該研究的貢獻主要體現(xiàn)在兩個方面:第一,綜合了基于客流時間序列數(shù)據(jù)的時間特征和基于地鐵站間連接和旅客出行網(wǎng)絡(luò)的空間特征實現(xiàn)多站點客流數(shù)據(jù)的動態(tài)預(yù)測。第二,提出了一種具有注意機制的時空卷積網(wǎng)絡(luò)(attention mechanism spatio-temporal network,AMSTN)模型,將嵌入AM模塊的CNN 與LSTM 網(wǎng)絡(luò)融合在一起,實現(xiàn)客流數(shù)據(jù)時空特征的有效捕捉。
式(1)中:μ表示AMSTN 模型,相鄰的站點編號站在地理上彼此相鄰。矩陣的每一行都表明客流預(yù)測依賴于歷史數(shù)據(jù),是一個時間序列問題;矩陣的每一列描述了不同站點之間的客流關(guān)系,增強了模型預(yù)測的空間相關(guān)性。因此,μ的回歸可以實現(xiàn)客流數(shù)據(jù)時空維度的雙重捕獲。
針對客流數(shù)據(jù)表現(xiàn)出來的空間特征,選用CNN 網(wǎng)絡(luò)用于數(shù)據(jù)空間特征的捕獲。CNN 由三個主要網(wǎng)絡(luò)層組成:卷積、池化和全連接。卷積層和池化層的任務(wù)是過濾輸入數(shù)據(jù)并提取有用的信息,以用作全連接層的輸入;全連接層主要是對特征信息進行合并;之后,經(jīng)指數(shù)函數(shù)或邏輯函數(shù)輸出最終分類標(biāo)簽。
在對數(shù)據(jù)表現(xiàn)出的時間特征捕獲上選用了LSTM網(wǎng)絡(luò)單元。LSTM 解決了RNN 的隨內(nèi)環(huán)深度增加帶來的反向傳播相關(guān)梯度消失問題,將存儲單元與柵極結(jié)構(gòu)相結(jié)合,以學(xué)習(xí)何時忘記先前的記憶并更新記憶,使得網(wǎng)絡(luò)具備了長序列學(xué)習(xí)能力。
為了增加網(wǎng)絡(luò)對關(guān)鍵因素的關(guān)注度,集成了AM模塊。AM 有軟注意力和硬注意力。硬注意機制集中于輸入信息中的一個元素,基于最大或隨機抽樣來選擇信息。軟注意機制為所有輸入信息賦予權(quán)重,使輸入信息能夠更有效地使用。因此,試驗中采用軟注意機制,增加網(wǎng)絡(luò)中重要特征的信息流權(quán)重。結(jié)構(gòu)見圖1。
圖1 AM 結(jié)構(gòu)圖
最終整合了CNN、AM 和LSTM 三個網(wǎng)絡(luò)單元,形成具有雙重注意力和時空特征捕獲能力的AMSTN 網(wǎng)絡(luò)。在確定AM 位置作為每個卷積模塊的輸出后,AM 單元首先集成到CNN 網(wǎng)絡(luò)中,后連接到Reshape層對數(shù)據(jù)降維。這是因為在CNN 階段,原始的二維客流數(shù)據(jù)經(jīng)過切片處理后變?yōu)槿S,為了能順利連接到LSTM 需要再降至二維。在Reshape 層之后,連接LSTM 網(wǎng)絡(luò)單元,使網(wǎng)絡(luò)具有處理長時間序列的能力。網(wǎng)絡(luò)架構(gòu)見圖2。
圖2 AMSTN 網(wǎng)絡(luò)架構(gòu)圖
在數(shù)值試驗中,共收集了北京地鐵13 號線西直門至東直門的16 個地鐵站的客流數(shù)據(jù),選取上午5 時至晚上11 時的數(shù)據(jù),以5 分鐘為間隔進行整理。從眾多的字段中去除不相關(guān)的信息后進行數(shù)據(jù)歸一化將數(shù)據(jù)映射到同一量綱:
考慮到神經(jīng)網(wǎng)絡(luò)的不確定性,將每個試驗重復(fù)100 次,并以平均絕對誤差(mean absolute error,MAE)指標(biāo)的均值作為最終的試驗結(jié)果。定義如下:
式(3)中:pi為實際客流數(shù)據(jù);為預(yù)測客流數(shù)據(jù);N為預(yù)測客流總數(shù)。
對于神經(jīng)網(wǎng)絡(luò),模型參數(shù)很大程度上決定了模型性能,因此,需進行一系列的試驗來對其進行選擇。首先,確定網(wǎng)絡(luò)中CNN 和LSTM 層數(shù)。一般情況下,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,訓(xùn)練效果會從欠擬合到良好擬合再到過擬合。由于CNN 和LSTM 共同影響AMSTN 模型的性能,同時為平衡試驗精度及成本,將兩種神經(jīng)網(wǎng)絡(luò)的最深層數(shù)設(shè)置為3,通過試驗,找到合適的網(wǎng)絡(luò)層數(shù)組合。對于神經(jīng)網(wǎng)絡(luò)來說,網(wǎng)絡(luò)深度和神經(jīng)元數(shù)量相互依賴[5],因此,在試驗中將CNN 和LSTM 神經(jīng)元數(shù)量均設(shè)置為64,以確定網(wǎng)絡(luò)的層數(shù)。通過表1 可以看出,當(dāng)CNN 層數(shù)為2,LSTM 層數(shù)為1時,網(wǎng)絡(luò)性能最好。
表1 各網(wǎng)絡(luò)深度的模型性能
通常,每個神經(jīng)網(wǎng)絡(luò)層的神經(jīng)元數(shù)量為32、64、128 等。隨著網(wǎng)絡(luò)深度的增加,神經(jīng)元數(shù)量逐漸增加。因此,將可能的神經(jīng)元數(shù)量組合試驗,找到最適合的神經(jīng)元個數(shù),結(jié)果見表2。
表2 各神經(jīng)元個數(shù)組合的模型性能
結(jié)果表明,當(dāng)CNN 神經(jīng)元數(shù)量為32 和128,LSTM中為64 時,網(wǎng)絡(luò)性能最好。
其次,對步長即輸入序列的滑動窗口長度n進行確定。AMSTN 模型使用前n時刻的客流數(shù)據(jù)來預(yù)測下一時刻的客流數(shù)據(jù),其中,時刻是數(shù)據(jù)中最小的離散時間單位。將n的值從6 增加到20,表3 試驗結(jié)果表明最合適的步長為10。
表3 各步長的模型性能
首先,驗證AMSTN 模型的穩(wěn)定性。通過多次迭代,發(fā)現(xiàn)隨著訓(xùn)練輪數(shù)的增加,在經(jīng)過20 次迭代后,模型損失逐漸穩(wěn)定,并在后續(xù)的訓(xùn)練中一直在特定的容差范圍內(nèi)波動,圖3 所示為模型損失收斂曲線。表明模型是收斂的,具有一定的穩(wěn)定性。
圖3 AMSTN 模型收斂曲線
將AMSTN 模型的預(yù)測性能與其他標(biāo)準(zhǔn)預(yù)測模型的預(yù)測性能進行比較,基線模型的神經(jīng)網(wǎng)絡(luò)單元組成及對應(yīng)神經(jīng)元個數(shù)如表4 所示。
表4 網(wǎng)絡(luò)模型組成
使用四種模型對同一車站同一天的客流進行預(yù)測,得到各模型的性能表現(xiàn)指標(biāo)如圖4 所示,各個模型的預(yù)測情況如圖5 所示。
圖4 各模型預(yù)測性能指標(biāo)
圖5 各模型預(yù)測效果
可以得出:第一,三種基線模型中,AMCN 模型表現(xiàn)更好,因為CNN 和LSTM 單元使模型能夠捕獲數(shù)據(jù)之間的時空相關(guān)性。第二,相比而言,AMSTN 模型的預(yù)測效果最好,不僅可以捕捉數(shù)據(jù)之間的時空相關(guān)性,同時AM 的添加使模型能夠聚焦于關(guān)鍵特征。第三,從預(yù)測曲線可以看出,在客流變化復(fù)雜的區(qū)域,AMSTN 的表現(xiàn)更為突出,說明AM 能夠捕捉到影響模型的主要因素。通過模型的性能指標(biāo)以及預(yù)測曲線,表明相較于其他三種基線模型,AMSTN 模型更適合客流的預(yù)測。
該研究探討了城市軌道交通不同站點的客流預(yù)測問題,在CNN 上集成AM 和LSTM,捕獲客流數(shù)據(jù)的時空相關(guān)性同時提高模型對關(guān)鍵影響因素的聚焦能力?;趯嶋H客流數(shù)據(jù)的仿真結(jié)果,比較了不同模型的預(yù)測性能。結(jié)果表明,所提出的模型在客流預(yù)測問題上更有優(yōu)勢。在未來的研究中,還可以考慮天氣等因素對研究進行改進。