張 蕾,郭全盛,林建新,李建武
(1. 北京建筑大學電氣與信息工程學院,北京 100044;2. 建筑大數(shù)據(jù)智能處理方法研究北京市重點實驗室,北京 100044;3. 北京建筑大學土木與交通工程學院,北京 100044;4. 北京理工大學前沿技術研究院,北京 100081)
近年來,隨著城市的不斷擴張以及人口的快速增長,全球大都市中的交通運輸需求急劇提升。超大規(guī)模的交通流量給現(xiàn)有基礎設施帶來巨大壓力,導致嚴重擁堵,加劇了碳排放污染,給城市規(guī)劃、社會穩(wěn)定帶來負面影響。緩解城市交通擁堵是國家“十四五”規(guī)劃中加快建設交通強國的重點和難點,是刻不容緩的。城市交通車流量變化之間有著復雜且緊密的聯(lián)系,通過有效調(diào)控,疏導車輛選擇合適的通行線路,為有關部門提供科學的決策支撐,進行有針對性的交通疏導,提高通行效率和經(jīng)濟效益。
自適應交通信號控制(Adaptive Traffic Signal Control,ATSC)旨在根據(jù)交通現(xiàn)狀實時調(diào)控交通信號燈的變化,緩解交通路網(wǎng)中存在的交通擁堵現(xiàn)象,提升車輛通行效率。在網(wǎng)格狀的路網(wǎng)中,如在車流量密集的市中心區(qū)域,傳統(tǒng)的多道路交叉口控制方法通過在所有交叉口之間設置固定偏移量實現(xiàn)協(xié)調(diào)控制,最經(jīng)典的是FixedTime算法[1],該算法設置了隨機偏移量和固定的信號變化時間。此外,美國交通運輸委員會與美國聯(lián)邦公路局編寫的信號控制手冊中也采用了類似方法[2]。然而,上述方法過于簡單,現(xiàn)實交通網(wǎng)絡難以達到理想狀態(tài),很難通過固定偏移量進行全局優(yōu)化。
針對此缺陷,研究人員提出基于優(yōu)化的算法,最常見的是基于馬爾可夫決策過程(Markov Decision Process,MDP)的強化學習(Reinforcement Learning,RL)算法,用于對真實世界的交通量進行動態(tài)調(diào)控[3]。例如,Wei等[4]提出基于強化學習的IntelliLight模型,使用深度Q網(wǎng)絡(Deep Q Network,DQN)對交通環(huán)境進行分析,進而預測交通信號燈的下一個狀態(tài)。近年來,強化學習領域的重要分支——Actor-Critic (A2C,演員-評論家)算法被廣泛用于ATSC中,并通過深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)來模擬A2C的策略和狀態(tài)[5]。Hua等[6]提出了CoLight模型,使用圖注意力網(wǎng)絡結(jié)合相鄰交叉點之間的影響,用于對多個交通信號燈進行控制。Chu等[7]提出了多智能體A2C模型(Multi-agent A2C,MA2C),將深度神經(jīng)網(wǎng)絡與多智能體強化學習(Multi-agent Reinforcement Learning,MARL)結(jié)合,在交通信號控制領域中得到了較好的實驗效果。然而,以上算法的表達能力易受策略設計的影響,即錯誤的策略反而降低交通調(diào)控的效果。
強化學習主要分為三類:基于價值的方法(value based)、基于策略的方法(policy based)和演員-評論家算法(Actor-Critic,A2C)。由于A2C算法既可以處理高維連續(xù)的行動,又可以單步更新快速學習,因此,在具有線性回歸智能體的ATSC中,A2C算法的表現(xiàn)優(yōu)于前兩種[10]。
(1)
(2)
在多智能體網(wǎng)絡G=(V,ε)中,V是節(jié)點集,ε是路徑集。如果節(jié)點i和j之間存在邊,則稱它們?yōu)猷従庸?jié)點。i的鄰居節(jié)點定義為Ni,本地區(qū)域定義為Vi=Ni∪i。此外,d(i,j)為連接任意兩個智能體之間的最小邊數(shù)。
在多智能體Actor-Critic算法 (Multi-agent Actor-Critic,MA2C)中,首先,提取鄰居節(jié)點的策略信息,用來提高每一個智能體的可觀察性;其次,提出空間折扣因子,削弱來自其它智能體狀態(tài)和獎勵的信息。在智能體之間聯(lián)系有限的情況下,從鄰居智能體之間抽樣最新策略πt-1,將Ni=[πt-1,j]j∈Ni作為深度神經(jīng)網(wǎng)絡的輸入,此時,當前狀態(tài)為st,Vi。局部(local)策略公式如下
πt,i=πθi(·|st,Vi,πt-1,Ni)
(3)
其中,πθi為第i個智能體采用策略梯度算法直接用參數(shù)化模型擬合的策略[11]。由此,局部智能體將接收到實時的最近鄰居智能體的策略。這是基于兩個交通控制事實:首先是交通狀態(tài)在短時間內(nèi)變化緩慢,因此,當前步驟策略與最后一步策略非常相似;其次是在當前的狀態(tài)和策略下,交通狀態(tài)的動態(tài)變化符合馬爾科夫決策過程。
雖然局部智能體知道局部區(qū)域狀態(tài)和鄰域策略,但難以通過局部的價值回歸來擬合全局回報。為了達到全局合作的效果,假設全局獎勵分解為rt=∑i∈Vrt,i,引入空間折扣因子α,調(diào)整智能體i的全局獎勵
(4)
其中,Di是與智能體i之間的最大距離,α類似于強化學習中的時間折扣因子γ,此處是按照空間順序而不是時間順序按比例縮小信號,折扣全局獎勵在貪心控制(α=0)和合作控制(α=1)之間得到平衡,且與估計局部策略πθi的優(yōu)勢更相關。使用α將鄰居狀態(tài)轉(zhuǎn)化為
(5)
(6)
其中,Vωi是智能體學習到的價值函數(shù)。價值損失式(2)變?yōu)?/p>
(7)
(8)
為了避免傳統(tǒng)強化學習中各智能體之間缺乏聯(lián)系、算法策略不佳等問題,提出顧及路口壓力的多智能體Actor-Critic算法(Intersection Pressure-based Mulit-agent A2C,IPMA2C)。首先,基于顧及路口壓力的強化學習策略對交通路口進行分析,通過緩解壓力的方法對路網(wǎng)進行優(yōu)化;其次,構建基于深度神經(jīng)網(wǎng)路的多智能體Actor-Critic模型,提升交通調(diào)控能力。
1) 交通路口的進車道、出車道
交通路口的進車道是車輛進入交通路口的車道,交通路口的出車道是車輛駛出該路口的車道。將交通路口的進車道集合表示為Lin,出車道集合表示為Lout。
2) 交通運動
交通運動定義為汽車從一個進車道通過一個交通路口行駛到一個出車道。將通過一個交通路口的交通行為表示為(l,m),其中,l是進車道,m是出車道。
3) 運動信號、相位
以交通路口信號控制車輛的運動,其中,綠燈表示允許移動,紅燈表示禁止移動。將運動信號定義為a(l,m),其中,a(l,m)=1表示綠燈,即允許運動(l,m),a(l,m)=0表示紅燈,即禁止運動(l,m)。相位是運動信號的組合,定義為p={(l,m)|a(l,m)=1},其中,l∈Lin,m∈Lout。
4) 運動壓力、交通路口壓力
(9)
如果所有車道的最大容量xmax相同,則w(l,m)只表示進出車輛數(shù)量之間的差異。
交通路口i的壓力定義為所有交通運動的絕對壓力之和
(10)
壓力Pi表示車輛進出密度的不平衡程度,Pi越大,車輛分布就越不平衡。
因此,將多路口交通信號調(diào)控問題描述為:每個路口都由一個強化學習智能體來控制交通信號燈,在每個時間步t內(nèi),智能體i從環(huán)境中觀察到自己的狀態(tài)。給定車輛分布和當前信號階段,智能體的目標是采取最優(yōu)動作at,i(即交通路口的信號燈進入哪個階段),從而獲得最大獎勵(即所有車輛的平均行駛時間最短)。
1) 狀態(tài)(State)
狀態(tài)是為一個單獨的交通路口定義的,即多智能體強化學習中智能體觀察到的內(nèi)容,包括該交通路口i在t時刻每個進車道的車輛數(shù)xt,i(l)(l∈Lin,i),及在t時刻出車道的車輛數(shù)xt,i(m)(m∈Lout,i)。狀態(tài)表示為
st,i={xt,i(l),xt,i(m)}l∈Lin,i,m∈Lout,i
(11)
其中,l是交通路口i的進車道,m是交通路口i的出車道,Lin,i是進車道的集合,Lout,i是出車道的集合。
2) 動作(Action)
在t時刻,每個智能體從動作集A中選擇一個動作at,i作為該階段的動作,即信號接下來的狀態(tài)。每個智能體有四個動作,分別為東西直行,東西左轉(zhuǎn),南北直行,南北左轉(zhuǎn),如圖1。
圖1 動作定義圖
圖1中,(a)東西直行 (b)東西左轉(zhuǎn) (c)南北直行 (d)南北左轉(zhuǎn)
3) 獎勵(Reward)
定義智能體i的獎勵為
rt,i=-Pt,i
(12)
其中,Pt,i是第i個交通路口在t時刻的壓力,即進出車道上車輛密度之間的不平衡程度。通過最小化Pt,i,使路網(wǎng)內(nèi)的車輛可以均勻分布,進而優(yōu)化路網(wǎng)的車輛吞吐量。
由于交通流是復雜的時空數(shù)據(jù),如果智能體只知道當前時刻的狀態(tài),則馬爾科夫決策過程可能會變得不穩(wěn)定。最簡單的方法是將所有歷史狀態(tài)全部輸入到Actor-Critic算法中,但是會顯著增加狀態(tài)的維度,減少Actor-Critic對最臨近交通狀況的關注。LSTM可以保持隱藏狀態(tài)并記住簡短的歷史信息[12],因此,本文將LSTM作為隱藏層,從輸入中提取信息。
IPMA2C模型如圖2所示。首先,狀態(tài)和鄰居策略分別輸入到全連接層FC;然后,利用LSTM作為最后一個隱藏層從狀態(tài)中提取特征;輸出層連接Actor-Critic算法的Actor和Critic兩部分,其中Actor對應的是Softmax函數(shù),Critic對應的是Linear函數(shù)。采用正交初始化[13]和RMSprop[14]作為梯度優(yōu)化器。對于每個輸入的狀態(tài),采用貪婪策略收集交通環(huán)境的統(tǒng)計數(shù)據(jù)。為防止梯度爆炸,所有歸一化的狀態(tài)被縮放到[0,2]范圍內(nèi),且每個梯度的上限為40。類似,將獎勵歸一化并縮放到[-2,2],以穩(wěn)定小批量更新。
圖2 IPMA2C模型
基于SUMO[15]平臺,生成由25個交通路口和信號燈構成的模擬交通網(wǎng)絡,如圖3。該網(wǎng)絡由限速20m/s的雙車道主干道組成,其中,交通路口間的距離為300m。每個路口的動作包括:東西直行、東西左轉(zhuǎn)、南北直行和南北左轉(zhuǎn)四種,車輛可以自主右轉(zhuǎn)。設F1={x4->x10,x5->x11,x6->x12}(東->西),F2={x1->x7,x2->x8,x3->x9}(北->南)為兩組車輛起點至目的地(Origin-Destination,OD)的集合。
圖3 包含25個路口的5×5模擬交通網(wǎng)絡圖,圓圈內(nèi)為示例交通路口
初始狀態(tài),大量車流從F1的起點不斷生成,少量車流從F2的起點生成。15分鐘后,F1生成少量車流,F2則變?yōu)樯纱罅寇嚵?由此循環(huán)往復。通過生成大量的車流以產(chǎn)生交通擁堵,檢測IPMA2C模型在交通疏導方面的能力。
為了在模型運行時間Ts內(nèi)模擬交通環(huán)境,定義Δt為強化學習中智能體與交通環(huán)境之間的交互周期。如果Δt太長,智能體無法對路網(wǎng)產(chǎn)生有效調(diào)控;如果Δt太短,智能體的即時決策將無法按時傳達。此外,如果交通燈的控制切換過于頻繁,則會存在安全隱患。設Ts=3600s,Δt=5s。對于馬爾科夫決策過程,設γ=0.99,α=0.75,獎勵系數(shù)a=0.2veh/s,狀態(tài)和獎勵的歸一化因子分別為5veh和2000veh;對于IPMA2C模型,設minibatch的大小|B|=120,β=0.01。
為了驗證IPMA2C模型的效率和穩(wěn)定性,將其與傳統(tǒng)的經(jīng)典交通控制模型進行對比。選取的基準模型如下:
1)具有隨機偏移量和固定變化時間的FixedTime方法[1];
2)對車輛等待時間和隊列長度進行優(yōu)化的多智能體Actor-Critic算法(MA2C)[7];
3)學習智能體之間互相影響和聯(lián)合動作的CoLight算法[6]。
圖4為IPMA2C模型與其它基準模型在一個小時內(nèi)到達目的地的車輛數(shù)量變化情況。在開始的前15分鐘,IPMA2C模型并未展現(xiàn)出優(yōu)勢,這是因為雖然有大量車流進入路網(wǎng),但尚未造成嚴重擁堵,此時,傳統(tǒng)交通控制方法均可實現(xiàn)良好的調(diào)控。隨著路網(wǎng)中車流量越來越大,IPMA2C模型的優(yōu)勢開始逐漸顯現(xiàn),最終,有更多車輛到達目的地,性能優(yōu)于其它模型。
圖4 車輛到達數(shù)量對比圖
圖5為網(wǎng)內(nèi)車輛平均速度的變化情況。在前15分鐘,即沒有擁堵時,四種模型的平均車速均逐漸上升。當產(chǎn)生嚴重擁堵時,四種模型的平均車速均開始下降。但在整個過程中,IPMA2C模型的平均車速均高于其它三種模型,體現(xiàn)了最優(yōu)性能。
圖5 平均速度對比圖
表1為其它評價指標的統(tǒng)計結(jié)果,IPMA2C模型提升了交通調(diào)控效率。其中,車輛的平均行程時間縮短了至少5%,平均行程等待時間縮短了8%,平均行程時間損失縮短了7%,而平均行程速度提升了至少6%。這些實驗結(jié)果均表明IPMA2C模型的性能優(yōu)于其它基準模型。
表1 實驗結(jié)果統(tǒng)計表
相比其它方法,IPMA2C通過顧及路口壓力的強化學習策略,對路口的狀態(tài)進行分析,通過基于深度神經(jīng)網(wǎng)絡的Actor-Critic算法對交通信號進行調(diào)控。顧及路口壓力的強化學習策略,將關注重心放在減少路口等待車輛的數(shù)量上,而非縮短車輛等待時間;在基于深度神經(jīng)網(wǎng)絡的Actor-Critic模型中,全連接網(wǎng)絡FC有強大的特征提取能力,LSTM作為隱藏層具有長時記憶的能力,可以保留歷史信息。因此,在緩解擁堵方面有更好的效果,性能也是最好的。
本文提出一種新穎的顧及路口壓力的多智能體Actor-Critic算法,用于對交通信號進行智能調(diào)控,緩解了交通擁堵。首先,設計更合理的顧及路口壓力的強化學習策略;其次,提出基于深度神經(jīng)網(wǎng)絡的IPMA2C模型;最后,在模擬交通網(wǎng)絡中驗證IPMA2C模型的魯棒性、最優(yōu)性,其性能優(yōu)于其它傳統(tǒng)的基準算法。
在未來工作中,將研究更先進的策略優(yōu)化模型,并嘗試將其推廣到交通路口數(shù)量更多、路網(wǎng)更復雜的真實環(huán)境中進行測試。