廖采盈,張 彤,黃 練
(1.武漢大學測繪遙感信息工程國家重點實驗室,湖北 武漢 430079; 2.深圳市易景空間智能科技有限公司,廣東 深圳 518052)
路徑選擇建模,是通過最大化個人在出行中遵循的效用函數來估計可能選擇的路徑。傳統(tǒng)的路徑選擇模型多采用離散選擇模型(Discrete Choice Model,DCM),模型通常從連接起點和目的地(Origin and Destination,OD)的路徑選擇集里選擇一條路徑,模型簡單但需要提前對OD間的路徑進行采樣形成一個有限的選擇集,這在大型的城市公共交通網絡中是一項困難的任務[1]。同時大多數DCM假設了線性參數的效用函數,無法揭示復雜的路徑選擇偏好[2]。
近年來,深度學習因其良好的預測性能已經成為經典DCM的有力替代[3]。其中,深度逆強化學習(Inverse Reinforcement Learning,IRL)很適合用于路徑選擇問題,因為它在結構上與動態(tài)DCM相似[4],可以解釋選擇行為,并且足夠靈活,可以納入深度架構和高維特征捕捉非線性的偏好信息。IRL將路徑選擇問題表述為順序選擇路徑段的馬爾科夫決策過程,并從觀察到的真實路徑中恢復獎勵函數(類似于效用函數)。最近的幾項工作證明了IRL在路徑預測[5]和路徑生成[6]方面的潛力。
該文將在智能公交卡數據的驅動下,建立用于城市公共交通乘客路徑選擇的逆強化學習模型,利用深度神經網絡近似獎勵函數來納入更多高維特征以捕捉潛在的路徑選擇偏好(成本)。最后,以深圳市公共交通網絡為案例,進行分析。
該文將乘客的路徑選擇過程看作是一個馬爾可夫決策過程(Markov Decision Process,MDP),此時乘客路徑選擇的概率和出行行為的成本可以通過策略網絡、獎勵(成本)函數得到解釋。一個MDP通常可以描述為:智能體從某一個狀態(tài)sS出發(fā),根據策略π(a|s)在aA選取動作執(zhí)行后,環(huán)境將會以pa(s,s')的狀態(tài)轉移概率轉換到下一個狀態(tài)s',同時將給予智能體一個確定的獎勵r(s,s'),該過程將不斷進行直到終止狀態(tài)。逆強化學習的目標是要學習出一個獎勵函數rθ(s,a),再使用它來學習最優(yōu)策略π*(a|s),其中θ是參數。
1.2.1 環(huán)境描述
該文基于OpenAI的Gym庫[7]構建了城市公共交通網絡的模擬環(huán)境,將公交站點、地鐵站點定義為圖節(jié)點,節(jié)點的連接邊定義為交通線路和步行可達邊,從而抽象表達出城市的交通網絡結構,如圖1所示。
圖1 環(huán)境交互下的出行過程表達
1.2.2 狀態(tài)表達
狀態(tài)來自對智能體的描述,即對乘客的位置、行程完成度和出行意圖的特征表達。因此,該文設計了如圖2所示的狀態(tài)表達網絡結構來提取乘客的出行條件,希望具有相同行為序列的乘客被映射到相似的向量空間之中,以此區(qū)分不同出行的乘客狀態(tài)。
圖2 狀態(tài)特征表達網絡
1.2.3 行為設計
模型的動作空間由公共交通網絡環(huán)境中的路徑組成,考慮到路徑選擇與出行行為的對應關系,可將乘客的路徑選擇抽象為三個可解釋的出行行為:
(1)本站乘車:不下車,繼續(xù)乘坐本線路到下一站。
(2)本站換乘:在本站下車,乘坐本站其他線路到下一站。
(3)異站換乘:在本站下車,步行至其他站點,乘坐某一線路到下一站。
1.2.4 成本估計
成本具體體現為乘客每一次選擇路徑后進行狀態(tài)轉移所應花費的相應成本,在求解對不同出行行為的乘客偏好時,難以用一個統(tǒng)一的成本函數形式來參數化乘客對不同行為成本的衡量標準,因此我們通過構建一個對抗逆強化學習模型來優(yōu)化由深度神經網絡近似的成本函數。
Finn[8]指出,逆強化學習目標函數公式(1)與生成式對抗網絡的目標函數公式(2)有著極其相似的性質,并證明了生成式對抗網絡優(yōu)化的正是最大熵逆強化學習的目標函數:
因此將生成式對抗網絡的思想應用到逆強化學習問題,其中,判別器的目標函數D(s,a)由公式(3)給出,其中由狀態(tài)價值函數和狀態(tài)動作價值函數的優(yōu)勢差由公式(4)得到。
綜上,該文提出基于生成式對抗網絡的逆強化學習模型,迭代求解最優(yōu)策略下的最優(yōu)獎勵函數。模型流程如圖3所示。
圖3 模型流程圖
該文以深圳市公共交通系統(tǒng)作為實例研究,使用的數據包括城市交通網絡數據和公共交通乘客出行數據如下所述:
(1)城市交通網絡數據:2017年深圳市公交站點、地鐵站點、公交線路、地鐵線路組成的交通路網,包括816條公交線路,8條地鐵線路。
(2)公共交通出行數據:基于深圳市2017年4月20日星期四的公共交通出行鏈數據,數量約為372萬,進行模型的訓練與測試。
選取某一OD對,將起始站出行路徑的真實乘客樣本的起點狀態(tài)輸入模型,應用生成器進行模擬樣本的生成,再通過判別器輸出對真實樣本和生成樣本中各出行選擇行為的預測,結果如圖4所示??梢钥闯?,生成樣本不同行為的成本與真實樣本能很好地匹配,在一些成本比較小的行為上也能達到良好的預測效果。因此除了應用判別器網絡來估計乘客出行行為成本外,模型還可為公共交通規(guī)劃模擬乘客出行、預測客流量提供一些決策數據支撐。
圖4 判別器對乘客樣本和生成樣本的行為成本估計
該文基于馬爾可夫決策過程,將乘客的路徑選擇表示為在環(huán)境中路網路徑的選擇,再基于站點-線路的組合抽象出出行行為;乘客的狀態(tài)集成了乘客當前的出行情況,定義為乘客當前位置、乘客的累積時間花費、乘客的出行行為序列。通過基于生成式對抗網絡的逆強化學習模型訓練出衡量乘客路徑選擇的成本函數,然后基于這一成本函數可從出行成本角度對乘客不同出行行為進行分析。該文提出的路徑選擇模型如何應用到公共交通運營規(guī)劃和資源配置中將是下一步的研究重點。