趙晉芳
摘? 要:為了緩解大城市的交通擁堵現(xiàn)狀,交叉口信號(hào)燈配時(shí)的研究越來越有必要。普遍的交通信號(hào)配時(shí)技術(shù),是基于單路口、傳統(tǒng)車輛檢測方法而設(shè)計(jì)的,沒有考慮影響實(shí)際交通狀況的流量,存在配時(shí)不準(zhǔn)確、不智能的局限性。通過基于強(qiáng)化學(xué)習(xí)的深度Q網(wǎng)絡(luò),提出基于多路口車輛感知預(yù)測的協(xié)同信號(hào)配時(shí)技術(shù),將每個(gè)路口建模為一個(gè)代理,每個(gè)代理被訓(xùn)練從道路環(huán)境接受交通狀態(tài)并采取最佳行動(dòng)。實(shí)驗(yàn)表明,該方法不僅可以有效地進(jìn)行交通流量預(yù)測,解決多路口協(xié)同的信號(hào)燈配時(shí)問題,還可以提高配時(shí)技術(shù)的智能性。
關(guān)鍵詞:Q網(wǎng)絡(luò)? 強(qiáng)化學(xué)習(xí)? 協(xié)同交通信號(hào)控制? 交通流預(yù)測
中圖分類號(hào):U491.2 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2021)02(c)-0113-04
Cooperative Traffic Signal Control with Vehicle Perception Prediction in Multi-Intersection
ZHAO Jinfang
(Xi'an Vocational University of Automobile, Xi'an, Shaanxi Province, 710600 China)
Abstract: In order to alleviate the current situation of traffic congestion in large cities, it is more and more necessary to study the signal timing at intersections. The universal traffic signal timing technology is designed based on single intersection and traditional vehicle detection method. It does not consider the flow affectsing the actual traffic situation, and has the limitations of inaccurate timing and intelligence. Based on the deep Q network of reinforcement learning, this paper proposes a cooperative signal timing technology based on multi intersection vehicle perception prediction. This technology will model each intersection as an agent, and each agent is trained to accept the traffic status from the road environment and take the best action. Experiments show that this method can not only effectively predict traffic flow, solve the problem of multi intersection coordinated signal timing, but also improve the intelligence of timing technology.
Key Words: Q network ; Reinforcement learning; Collaborative traffic signal control; Traffic flow prediction
最近,交通擁堵已成為大多城市的嚴(yán)重問題[1]。由于有限的道路通行能力,使得交通流量增加越來越快。目前,傳統(tǒng)的靜態(tài)信號(hào)燈長度,使得交通系統(tǒng)不能有效地應(yīng)對(duì)交通擁堵現(xiàn)狀[2]。為了應(yīng)對(duì)這些局限性,自適應(yīng)交通信號(hào)控制根據(jù)路口處觀察到的交通量[3],實(shí)時(shí)切換交通信號(hào)相位。
各種傳統(tǒng)的機(jī)器學(xué)習(xí)算法被用于研究自適應(yīng)交通控制。其中,基于圖像處理技術(shù)的自適應(yīng)交通信號(hào)控制是主流方向[4],雖然有部分通過提取車輛位置和速度信息進(jìn)行模擬的多路口協(xié)同交通信號(hào)控制研究,但是大多數(shù)快照效率不高,而且不能處理影響交通狀況的現(xiàn)實(shí)變量,例如溫度和天氣等。
另外,強(qiáng)化學(xué)習(xí)被廣泛應(yīng)用于交通信號(hào)控制研究[5],以尋找最佳解決方案。其中代理的最佳行動(dòng)策略是在不確定的環(huán)境中學(xué)習(xí)到的。在信號(hào)燈配時(shí)控制研究中,代理將通過交通流環(huán)境獲取狀態(tài),并根據(jù)學(xué)習(xí)之后的策略采取最佳措施。然后,代理會(huì)收到獎(jiǎng)勵(lì),并學(xué)會(huì)最大化折現(xiàn)的累計(jì)獎(jiǎng)勵(lì)。鑒于此,本文提出基于多路口的車輛感知預(yù)測的協(xié)同信號(hào)配時(shí)技術(shù)。
1? 技術(shù)框架
強(qiáng)化學(xué)習(xí)的最佳策略是基于Q學(xué)習(xí)之后選擇的,但是Q學(xué)習(xí)本身在維數(shù)上有不能處理高維空間的弊端,因此提出了將兩者結(jié)合起來的深度強(qiáng)化學(xué)習(xí)。DQN通過神經(jīng)網(wǎng)絡(luò)近似高維空間而顯示出有效的性能[6]。由于DQN的高性能,通過估計(jì)來自其他交叉口的車流量來導(dǎo)出全局最優(yōu)Q值。因此,提出將影響現(xiàn)實(shí)交通預(yù)測的變量考慮進(jìn)去進(jìn)行協(xié)同控制。整體框架如下:
如圖1,其中,在行動(dòng)執(zhí)行過程中,代理都從現(xiàn)實(shí)環(huán)境接受變量狀態(tài),并預(yù)測狀態(tài)時(shí)刻的交通流量。然后返回給代理。代理根據(jù)觀察到的狀態(tài)和預(yù)測的未來交通流量,來計(jì)算最佳Q值來選擇行動(dòng)。公式如下:
(1)
其中s代表狀態(tài),a代表行動(dòng),γ是折現(xiàn)因子,用以乘以預(yù)期報(bào)酬,表示設(shè)置以后收到的較低報(bào)酬值。
2? 關(guān)鍵技術(shù)
2.1 基于現(xiàn)實(shí)世界的交通流量預(yù)測
在現(xiàn)實(shí)世界中,交通流量很容易受到天氣、日期和時(shí)間等變量的影響。在模擬環(huán)境中,很難處理這些因素。因此,實(shí)際變量可以通過獨(dú)立的交通流量預(yù)測模型來體現(xiàn)。本文方法的目的是通過考慮影響現(xiàn)實(shí)世界交通流量的模型,來預(yù)測并減輕擁堵現(xiàn)狀。預(yù)測模型是通過使用LSTM(長期記憶)網(wǎng)絡(luò)實(shí)現(xiàn)的[7]。
當(dāng)從道路環(huán)境中接收到狀態(tài)Statet時(shí),帶有影響現(xiàn)實(shí)世界變量的預(yù)測模型,會(huì)預(yù)測狀態(tài),并優(yōu)化最佳行動(dòng)動(dòng)作的Q值,更新如下:
(2)
(3)
其中,是在時(shí)間步t根據(jù)影響現(xiàn)實(shí)世界變量的模型預(yù)測的交通流量。是取最佳行動(dòng)措施,即最大值的指標(biāo),和是用來迭代更新的網(wǎng)絡(luò)參數(shù)。這個(gè)更新的Q值更符合并接近于真實(shí)世界。
2.2 多路口協(xié)同控制
對(duì)于多路口的協(xié)同交通信號(hào)配時(shí)控制[8],我們提出了基于交通流量預(yù)測的協(xié)同交通信號(hào)控制的交通規(guī)劃方法,該方法將多路口環(huán)境建模為多代理,訓(xùn)練每個(gè)代理以找到局部最優(yōu)Q值,然后嘗試通過傳輸包含每個(gè)代理的局部最優(yōu)值的消息來查找全局最優(yōu)Q值??紤]相鄰交叉路口的Q值更新如下:
(4)
其中,是相鄰交叉點(diǎn)的數(shù)量,是評(píng)估網(wǎng)絡(luò)在交叉點(diǎn)j的的數(shù)。
3? 實(shí)現(xiàn)過程
初始化網(wǎng)絡(luò)模型的配置參數(shù),包括θ、B、T,m和M,并初始化交通狀態(tài)s;
在第一個(gè)回合e=1,觀察當(dāng)前狀態(tài)st,選擇行動(dòng)a,計(jì)算獎(jiǎng)勵(lì)r;并轉(zhuǎn)入下一個(gè)狀態(tài)st+1;
如果,則從m中刪除舊的轉(zhuǎn)換t,并添加轉(zhuǎn)換到m,轉(zhuǎn)到步驟4;
如果,則根據(jù)優(yōu)先級(jí)從m中基于分布損失計(jì)算多步損失;
使用損失,更新網(wǎng)絡(luò)參數(shù)θ,如果回合,則迭代結(jié)束。
4? 實(shí)驗(yàn)結(jié)果
為了評(píng)估基于交通流量預(yù)測的多路口協(xié)同交通信號(hào)控制方法的性能,在4×4網(wǎng)格的道路環(huán)境上進(jìn)行了實(shí)驗(yàn),使用SUMO模擬交通[9],支持SUMO的交通API接受交通狀態(tài)信息。該系統(tǒng)通過Pytorch框架實(shí)現(xiàn)[10]。
為了評(píng)估協(xié)同交通信號(hào)控制和交通流量預(yù)測結(jié)合方法的重要性。將本文考慮現(xiàn)實(shí)世界變量的模型與沒有考慮交通流量預(yù)測和沒有考慮協(xié)同信號(hào)控制配時(shí)的模型進(jìn)行了比較。另外,在此實(shí)驗(yàn)中,將等待時(shí)間定義為前面所述的獎(jiǎng)勵(lì),并對(duì)該網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,以使獎(jiǎng)勵(lì)最大化,來證明所提出算法對(duì)于提高整體流量性能的有效性。其中,平均等待時(shí)間越短,說明配時(shí)效率越高,系統(tǒng)控制策略越好。
圖2顯示了3個(gè)模型,在平均等待時(shí)間上的時(shí)間變化,從圖2可以看出交通流量預(yù)測和協(xié)同交通信號(hào)控制結(jié)合的模型,等待時(shí)間最短,并且隨著訓(xùn)練的進(jìn)行,等待時(shí)間是遞減的,另外震蕩程度整體上也比較小,優(yōu)于另外兩種模型的性能。
5? 結(jié)語
本文提出了在多個(gè)交叉路口結(jié)合交通流量預(yù)測的協(xié)同交通信號(hào)控制方法,并加入影響實(shí)際交通狀況的變量,單獨(dú)構(gòu)建了交通流量預(yù)測模型,以解決多路口缺乏交通信號(hào)協(xié)同控制的局限性。該方法將每個(gè)交叉路口都建模為用于協(xié)作交通信號(hào)控制的一個(gè)代理,每個(gè)代理估計(jì)局部Q值。通過在交叉點(diǎn)之間傳遞局部Q值,來估計(jì)全局最優(yōu)Q值,并采取最佳行動(dòng)。實(shí)驗(yàn)表明,該方法不僅在平均等待時(shí)間上有了較大的優(yōu)勢變化,減輕了多個(gè)路口的交通擁堵,還實(shí)現(xiàn)了配時(shí)的智能性。
參考文獻(xiàn)
[1] 李力,王飛躍.地面交通控制的百年回顧和未來展望[J].自動(dòng)化學(xué)報(bào),2018,44(4):577-581.
[2] 胡大江,于偉云.淺談對(duì)城市交通信號(hào)控制的探索[J].道路交通管理,2020,1(11):38-39.
[3] 項(xiàng)俊平.城市道路交通信號(hào)區(qū)域均衡控制方法及應(yīng)用研究[D].安徽:中國科學(xué)技術(shù)大學(xué),2018.
[4] 方敏學(xué).基于機(jī)器視覺的智能交通燈的研究[D].四川:電子科技大學(xué),2017.
[5] 舒凌洲,吳佳,王晨.基于深度強(qiáng)化學(xué)習(xí)的城市交通信號(hào)控制算法[J].計(jì)算機(jī)應(yīng)用,2019,39(5):1495-1499.
[6] 文峰,張可新.基于深度強(qiáng)化學(xué)習(xí)的交通信號(hào)配時(shí)優(yōu)化研究[J].沈陽理工大學(xué)學(xué)報(bào),2019,38(1):48-52.
[7] Sepp Hochreiter, Jü,rgen Schmidhuber. Long Short-Term Memory[J]. Neural Computation,1997, 9(8):1735-1780.
[8] 晏松.智能網(wǎng)聯(lián)環(huán)境下復(fù)雜交叉口信號(hào)控制研究[D].北京:中國人民公安大學(xué),2016.
[9] KRAJZEWICZ D ERDMANN, J, Behrisch M, BIEKER L. Recent development and applications of SUMO-simulation of urban mobility. Int. J. Adv. Syst. Meas. 2012, 5(1): 128-138.
[10] LAPORTE FLORIS, DAMBRE JONI, BIENSTMAN PETER. Highly parallel simulation and optimization of photonic circuits in time and frequency domain based on the deep-learning framework PyTorch[J]. Scientific reports, 2019,9(5918):1-8.