采用多智能體強化學習的交通信號優(yōu)化控制

2012-07-04 09:43:20宋炯，金釗

制造業(yè)自動化 2012年17期

宋炯，金釗

（1.云南交通職業(yè)技術(shù)學院，昆明 650101；2.云南大學，昆明 650091）

0 引言

實現(xiàn)智能交通信號控制是一種減少交通擁堵和提高交通效率的低成本方法[1]。因為交通流量具有隨時變化和隨機性的特點，尤其是在多十字路口的城市交通環(huán)境，因此流量建模仍然是非常困難的。一個預設(shè)的交通控制模型是不可能符合所有的交通情況。所以有更多研究關(guān)注機器學習的實時交通流量控制[2～4]。在所有機器學習的方法中，強化學習受到更多的關(guān)注，因為其自主學習的能力，使得能夠智能感知不同的條件和自我自適應調(diào)整控制策略，以符合交通條件。

雖然在參考文獻[2]中提出了自適應減少時間延遲的交通信號控制的Q學習方法，但只考慮了一個十字路口的情況。A.Salkham[3]提供了一個強化學習交通控制優(yōu)化框架，但對硬件基礎(chǔ)設(shè)施依賴較大。Li T[4]等學者提出了一種自適應動態(tài)規(guī)劃方案實施多十字路口的交通信號智能控制，但針對相互作用和相互影響的多交叉路口的情況卻沒有進一步探討。在參考文獻[5～7]中，可以看到到一些類似的研究。這些研究表明使用自主學習的強化學習解決隨時變化和隨機性交通流量問題，一直是智能交通信號控制研究的重點之一[8]。雖然這些問題都受到關(guān)注，但都沒有進一步詳細討論和研究。

圖1 由六個十字路口的城市交通網(wǎng)絡(luò)構(gòu)建的仿真環(huán)境

在本文中，作者提出了一種多智能體強化學習的多十字路口的交通信號控制模型。

首先，作者定義多十字路口的交通信號控制問題的多智能體的強化學習模型，其中包括狀態(tài)空間、目標狀態(tài)、行動和培訓的事件，完整描述在強化學習語言的問題。然后，從中找出多路口交通信號控制的最優(yōu)政策的多智能體強化學習算法。交通信號控制策略的最優(yōu)政策是讓所有的車輛可以在最短的時間內(nèi)，離開多路口的城市交通網(wǎng)絡(luò)。最后，在仿真環(huán)境中，作者通過比較常規(guī)定時控制與多智能體增強學習自適應控制下所有車輛離開多路口的城市交通網(wǎng)絡(luò)的時間，來進行驗證。

1 強化學習模型的多路口交通信號控制問題

首先，作者對多路口的交通信號控制問題的多智能體強化學習模型進行描述。

在作者的模型中，一個城市的交通網(wǎng)絡(luò)是由多個十字路口構(gòu)成，例如，圖1顯示由6個十字路口組成的交通網(wǎng)絡(luò)，同時它也是作者實驗的仿真環(huán)境。當然，可以由更多的十字路口組成擴大的交通網(wǎng)絡(luò)。

交通信號控制的目標是使這些車輛安全，快速地離開由十字路口組成的交通網(wǎng)絡(luò)。很明顯在十字路口的車輛是隨時變化和隨機的。預設(shè)的控制模型是不可能的適應所有的交通流量，這也是作者采取多智能體強化學習方法的原因，它可以根據(jù)實時交通流量自主學習的最優(yōu)政策。

在交通信號控制中，一個相位是信號燈不中斷照明的間隔時間，舉個例子，一個紅色信號燈照明時間間隔或綠色信號燈照明時間間隔都是相位。通過在一個合理的時間間隔，使車輛在較短的時間內(nèi)交叉十字路口切換不同的相位是交通信號控制的主要目標。例如，當車輛在西向東方向比車輛在南向北方向的流量多，東向西方向的綠色信號燈相位應該是比紅色信號燈相位長。

通常的相位是最大的時間間隔是的間隔時間最短的相位的整數(shù)倍，我們記為“MinPT”。例如，如果MinPT = 60秒，那么相位時間間隔應該60秒，120秒，180秒，以此類推。

根據(jù)交通信號控制問題的描述,車輛數(shù)量和所有路口的組合稱為一個狀態(tài)，反映了交通流量的信號控制。控制目標是在較短時間內(nèi)使所有的車輛離開城市交通網(wǎng)絡(luò)，當在交通網(wǎng)絡(luò)中的每一個十字路口的汽車數(shù)量趨于零時,就達到了理想的目標狀態(tài)。完成每個階段后最短相位時間間隔、通過智能控制達到紅綠燈最短相位。

當一個方向設(shè)置為綠色信號燈時，然后另一個方向必須設(shè)置為紅色信號燈，因為只有一個方向的車輛可以通過一次。因此，每個階段最短的時間間隔后的行動只是設(shè)置一個方向的綠色信號燈，因為另一個方向必須是紅信號燈。整個訓練集可以描述為：后完成每個階段最短的時間間隔，允許或不允許車輛通行狀態(tài)，控制代理選擇隨機一個方向綠色信號燈（另一個方向是紅色信號燈），然后選擇下一步的操作，直到所有車輛都離開交通網(wǎng)絡(luò)（實現(xiàn)目標狀態(tài)）。這個過程被稱為一個訓練集。圖2顯示兩個十字路口的交通流量的狀態(tài)和行為。

圖2 交通控制問題的狀態(tài)和行為

2 多十字路口的交通信號控制最優(yōu)策略的多智能體強化學習算法

作者使用最廣泛使用的強化學習方法：Q-leaming[9]來完成該算法算，以實現(xiàn)多十字路口的交通信號控制最優(yōu)策略。通過算法l的程序?qū)崿F(xiàn)交通信號控制的最優(yōu)策略。

算法1 多智能體強化學習實現(xiàn)交通信號控制問題的最優(yōu)策略。

Create null list: trajectory

Create null list: State-List

Create null set: State-Cluster

For each s,a initialize the table entry Q(s,a) to zero

Observe the current state s

Add s into trajectory Repeat

Select an action a and execute it

Receive immediate reward r

Observe the current state s'

Add s' into trajectory

Let State-List ← the reverse of trajectory

Update the table entry fors,a) as follows:

For each list cur_list in State-Cluster do

Let i ← 2

While i ＜ the length of cur_list

Let spre← cur_list [i-1]

圖3 兩個十字路口交通網(wǎng)絡(luò)信號控制的最優(yōu)策略

Let snow← cur_list [i]

Let a*← the action agent takes when it move from snowto spre

Let i ← i+1

End while

End for

s←s'

Until all table entry are convergent

圖3給出兩個十字路口的交通網(wǎng)絡(luò)中的最優(yōu)策略。從圖3可以很明顯的看到，在南北方向綠色信號的時間超過了在東西方向的綠色信號時間，因為在南北方向的汽車數(shù)量大于東西方向的汽車數(shù)量。算法1通過智能控制來調(diào)節(jié)控制策略，以應對實時的交通狀態(tài)實現(xiàn)自適應的控制。

3 實驗

在交通狀況仿真環(huán)境下通過30次不同的交通狀況，我們分別采用傳統(tǒng)的定時控制和基于多智能體強化學習的自適應控制，比較所有車輛離開當?shù)爻鞘薪煌ňW(wǎng)絡(luò)的時間。實驗結(jié)果如圖4所示。

通過圖4顯示出來的比較結(jié)果看到：基于多智能體強化學習的自適應控制策略與采用傳統(tǒng)定時策略的控制方法相比，所有車輛離開交通網(wǎng)絡(luò)的時間可以減少20～30%。結(jié)果顯示作者的控制算法可以顯著減少所有車輛離開當?shù)爻鞘薪煌ňW(wǎng)絡(luò)的時間。

圖4 傳統(tǒng)定時控制與多智能體強化學習的自適應控制對比實驗

4 結(jié)論

在這項研究工作中，作者提出了一個多智能體強化學習的交通信號控制方法。作者定義了多智能體強化學習模型的交通信號控制問題，并提出實現(xiàn)最優(yōu)策略的算法。通過仿真環(huán)境下交通信號控制效果的和實驗結(jié)果，可以清楚的說明作者的方法。采用多智能體強化學習的交通信號優(yōu)化控制的方法可以大大減少所有車輛離開城市交通網(wǎng)絡(luò)的時間。

隨著日益膨脹的城市交通流量和十字交叉路口，空間及狀態(tài)因素將變得非常巨大，今后的研究應解決如何加速學習以應對這一趨勢。

[1] A.L.C.Bazzan, Opportunities for multi-agent systems and multi-agent reinforcement learning in traffic control,Autonomous agent multi-agent systems, 18, 342-375, 2009.

[2] Lu Shou feng, Liu Ximin, Dai Shiqiang.Q-learning for adaptive traff i c signal control based on delay minimization strategy.International Conference on Networking, Sensing and Control.In Proceedings of ICNSC'2008.pp.687-691

[3] A.Salkham, R.Cunningham, A.Garg, and V.Cahill, A Collaborative Reinforcement Learning Approach to Urban Traffic Control Optimization, In: The 2008 International Conference on Web Intelligence and Intelligent Agent Technology, Vol.2, 560-566, 2008.

[4] Li T, Zhao D B, Yi J Q.Adaptive dynamic programming for multi-crossroads traffic signal intelligent control.In:Proceedings of the 11th IEEE International Conference on Intelligent Transportation Systems.Beijing, China: IEEE,2008.286-291.

[5] Cai C.An approximate dynamic programming strategy for responsive traffic signal control.In: Proceedings of IEEE International Symposium on Approximate Dynamic Programming and Reinforcement Learning.Honolulu,USA: IEEE,2007.303-310.

[6] A.L.C.Bazzan, D.Oliveira , B.C.Silva, Learning in groups of traffic signals, Engineering Applications of Artificial Intelligence, Vol.23, No.4, 560-568, 2010.

[7] G.Balan, S.Luke, History-based traff i c control, Proceedings of the fifth international joint conference on Autonomous agents and multiagent systems, Hakodate, Japan, 973-980,2006.

[8] T.L.Thorpe, C.W.Anderson, Traffic Light Control Using SARSA with Three State Representations[Z], Technical report, IBM Corporation, Boulder, 1996.