陳樹德,彭佳漢,高旭,賴曉晨
(大連理工大學(xué)軟件學(xué)院,大連116000)
交通問題,是一個復(fù)雜時變且隨機的動力學(xué)問題[1,2]。隨著城市不斷發(fā)展和交通車輛數(shù)目的不斷上升,出現(xiàn)了諸如交通擁堵現(xiàn)象頻繁,交通事故率上升等問題[3]。這直接或間接導(dǎo)致了能源和資源的浪費;以及諸如空氣污染和長期的噪音問題[4,5]。因此更加有效的通調(diào)系統(tǒng)顯得尤為重要。
目前,這些問題的解決方案一般是通過設(shè)計自動駕駛車輛[6]或者搭建智能交通控制系統(tǒng)[7],其中交通信號燈控制(TLC[8])就是一個被廣泛探究的智能交通控制系統(tǒng)方向。在傳統(tǒng)的信號控制系統(tǒng)中,如SCATS、SCOOT等,它們往往在線下通過算法計算出固定的信號燈配比方案,但這顯然無法應(yīng)對交通事件的隨機性問題。
同時,對比同樣結(jié)合了深度強化學(xué)習(xí)的Schutera Mark等人的方法[9],他們的方法雖然可以有效且實時地優(yōu)化單個路口的信號燈配比,但卻沒有考慮一個交通路網(wǎng)中多個路口間的強耦合性,對于路網(wǎng)交通狀態(tài)整體惡化的情況無法做出有效的應(yīng)對。因此,本文針對多個路口間的強耦合性,提出了一個基于深度強化學(xué)習(xí)的信號燈控制系統(tǒng)。我們的方法先是通過長短期記憶模型(LSTM-RNN[10])預(yù)測未來的交通信息,進而輔助Deep Deterministic Policy Gradient(DDPG[11])制定合理的信號燈時長配比。本文提出的方法,相對于過往方法具有以下的優(yōu)勢:(1)實時性與靈活性,相對于線下指定好的信號燈配比方案,我們的方法具有合理應(yīng)對突發(fā)狀況的能力。(2)充分利用了路口間的強耦合性,而不僅僅局限與單一路口的決策環(huán)境。(3)看得更遠的決策能力,通過與預(yù)測網(wǎng)絡(luò)的協(xié)同訓(xùn)練,深度強化神經(jīng)網(wǎng)絡(luò)將獲得利用推理結(jié)果解決問題的能力。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型是深度神經(jīng)網(wǎng)絡(luò)中的一個重要分支,其設(shè)計來目的主要是用于處理序列信息。針對于我們的問題而言,交通狀況信息是具有明顯時序關(guān)系的信息,因此使用該種網(wǎng)絡(luò)進行處理將更具優(yōu)勢。同時,利用循環(huán)神經(jīng)網(wǎng)絡(luò)進行數(shù)據(jù)的預(yù)測已經(jīng)被證明具有有效性。長短期記憶模型,同樣是一種循環(huán)神經(jīng)網(wǎng)絡(luò),它通過長短時記憶單元替換普通神經(jīng)元,從而解決普通循環(huán)神經(jīng)網(wǎng)絡(luò)無法有效利用及保留歷史信息的問題,適于處理和預(yù)測間隔和延遲相對較長的重要事件。在交通問題中,一次事故往往能影響未來數(shù)小時的路況。LTM無疑能更加有效地處理這類問題。
DDPG是將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與DPG(Determinis?tic Policy Gradient[12])的策略學(xué)習(xí)方法融合。相對于DPG的核心改進是:采用深度神經(jīng)網(wǎng)絡(luò)作為策略函數(shù)和Q函數(shù)的模擬,即策略網(wǎng)絡(luò)和Q網(wǎng)絡(luò);然后使用深度學(xué)習(xí)的方法來訓(xùn)練上述神經(jīng)網(wǎng)絡(luò)。相對于DQN[13]方法,它擁有連續(xù)的決策空間,這對于我們的問題來說是至關(guān)重要的,信號燈配比是處于連續(xù)空間的問題。
其中策略函數(shù)定義為At=μ(St),即將狀態(tài)S映射為決策A的函數(shù)。而Q函數(shù)定義為Vt=Q(St,At),則是將狀態(tài)S和對應(yīng)決策A映射為價值V的函數(shù)。兩者對應(yīng)的神經(jīng)網(wǎng)絡(luò),即策略網(wǎng)絡(luò)和Q網(wǎng)絡(luò)則是基于深度學(xué)習(xí)對兩函數(shù)進行擬合。同時,該方法也吸取了DDQN的優(yōu)越技巧,通過設(shè)定在線網(wǎng)絡(luò)(實際梯度下降操作作用的網(wǎng)絡(luò))和線下網(wǎng)絡(luò)(實際做出決策與交互的網(wǎng)絡(luò))來解決學(xué)習(xí)過程不穩(wěn)定的問題。
我們通過尋找開源的交通數(shù)據(jù)集為仿真環(huán)境提供基礎(chǔ)設(shè)定,由此提升仿真的真實性與合理性。這些基礎(chǔ)設(shè)計包括:(1)地圖信息,基于數(shù)據(jù)集所在的具體地理位置,在數(shù)值上1:1還原其道路長度,路口分支,車道數(shù)目等信息。(2)車流信息,根據(jù)數(shù)據(jù)集中每一時刻的車輛位置信息(經(jīng)緯度),所處道路信息和車速信息,還原這個區(qū)域在一日之中的車流概況。即根據(jù)每條道路的交通工具數(shù)量計算每一時刻每一條道路的交通工具數(shù)量權(quán)重,進而將每一輛車進入地圖和路線選擇視為一種概率事件,以此控制仿真環(huán)境中的車輛產(chǎn)生和路線規(guī)劃。從而令得仿真環(huán)境更加接近現(xiàn)實的交通路況。
在實際交通環(huán)境中,先前發(fā)生的某次突發(fā)事件或某個交通狀態(tài)可能對一段時間后的交通狀態(tài)存在影響,然而普通的循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層并不能實現(xiàn)對某個狀態(tài)進行有選擇的長時間記憶的功能。因此,我們選用LSTM單元來作為循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層節(jié)點,從而克服上述的問題。具體網(wǎng)絡(luò)結(jié)構(gòu)如下:網(wǎng)絡(luò)的輸入為所有道路雙向車道的擁擠度指標(biāo)組成的一維向量。其中,基于道路的車流密度和車輛平均速度信息設(shè)計交通擁擠度評價指標(biāo)(TF):
式中,CVN為道路車流密度,MVN為道路的歷史最大車流密度,CTV為道路車輛平均速度,MTV為道路的歷史最大車輛平均速度,α為權(quán)重參數(shù)。第一項綜合考慮了當(dāng)前道路的飽和度以及占有率,第二項考慮交通流的運行速度特征,并借助權(quán)值調(diào)節(jié)它們對指標(biāo)的綜合影響。此指標(biāo)具有較強的描述性和實用性。
本文中,DDPG網(wǎng)絡(luò)分為決策網(wǎng)絡(luò)和評價網(wǎng)絡(luò)(Q網(wǎng)絡(luò)),這兩個網(wǎng)絡(luò)每個又分線上和線下。在線網(wǎng)絡(luò)就是實際使用數(shù)據(jù)進行訓(xùn)練的網(wǎng)絡(luò)。其中,進行評價網(wǎng)絡(luò)訓(xùn)練的價值指標(biāo)r的衡量,在本文設(shè)定為車輛平均通過時間的相反數(shù)。
其中,Tacc為某車從進入虛擬仿真環(huán)境開始到離開環(huán)境為止的時間,Nout為某個時段內(nèi)駛出環(huán)境的車輛數(shù)。該式子的意思即,所有輛車從進入虛擬仿真環(huán)境開始到離開環(huán)境為止的時間,在決策間隔(我們設(shè)定DDPG每15秒進行一次決策)中的均值。而獎勵值則為該衡量的變動值,即一旦平均通過時間能夠減少,那么減少的部分就是獎勵值。
而對于線下的網(wǎng)絡(luò)而言,則是每隔若干次線上網(wǎng)絡(luò)訓(xùn)練,都將其全部的參數(shù)在數(shù)值上向在線網(wǎng)絡(luò)進行平均滑動操作。并且,實際做出決策和產(chǎn)生訓(xùn)練數(shù)據(jù)都是使用線下網(wǎng)絡(luò)。因而線下網(wǎng)絡(luò)與線上網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)一致。具體網(wǎng)絡(luò)結(jié)構(gòu)如下:
評價網(wǎng)絡(luò)輸入是狀態(tài)和動作的組合,即全部方向道路當(dāng)前和未來的路況信息組成的一維向量,拼接上信號燈狀態(tài)數(shù)組成的一維向量。本文中,我們的決策形式是給所有路口的所有信號燈狀態(tài)分配時長,而不是決定信號燈當(dāng)前狀態(tài)的持續(xù)時長。其中動作空間的取值是0-1,映射為20秒至60秒的紅綠燈方案時長。
系統(tǒng)整體架構(gòu)如圖1所示。仿真環(huán)境不斷產(chǎn)生當(dāng)前路況數(shù)據(jù)交付Lstm預(yù)測網(wǎng)絡(luò);后將得到的預(yù)測路況和當(dāng)前路口以及獎勵信息傳入目標(biāo)(線下)決策網(wǎng)絡(luò);目標(biāo)決策網(wǎng)絡(luò)立即做出決策并回傳仿真環(huán)境,同時將本次決策記錄以狀態(tài)轉(zhuǎn)換對(狀態(tài)轉(zhuǎn)換對由前狀態(tài),決策,后狀態(tài),獎勵組成)的形式在記憶緩存中;在線網(wǎng)絡(luò)則隨機地從記憶緩存中抽取數(shù)據(jù)進行學(xué)習(xí);目標(biāo)網(wǎng)絡(luò)則在在線網(wǎng)絡(luò)若干次訓(xùn)練后進行一次參數(shù)軟更新。
圖1整體系統(tǒng)結(jié)構(gòu)
本文中,我們總共選用了兩個數(shù)據(jù)為仿真環(huán)境提供基礎(chǔ)設(shè)定,分別是深圳市出租車數(shù)據(jù)集和上海市出租車數(shù)據(jù)集。這兩個數(shù)據(jù)集都包含了車輛至少一天的GPS定位信息、車速信息。
圖2為深圳市出租車數(shù)據(jù)集在進行預(yù)處理后的可視化呈現(xiàn),其中顏色代表著該道路在當(dāng)前時刻的擁擠度(TF),越紅則擁擠度越高。
圖2深圳出租車數(shù)據(jù)集可視化
以分鐘為尺度計算出一日之中每條道路的擁擠度指標(biāo)(TF)。并以此作為指導(dǎo)仿真環(huán)境車輛產(chǎn)生和路徑規(guī)劃的依據(jù)。同時,對預(yù)測網(wǎng)絡(luò)效果進行驗證。
圖3中橙點為其中一條路一天1440分鐘的擁擠度指標(biāo)的實際數(shù)據(jù),藍點是該條路預(yù)測出的擁擠度指標(biāo)??梢钥闯觯A(yù)測網(wǎng)絡(luò)能較為準(zhǔn)確的預(yù)測未來的路況信息。圖4中為仿真環(huán)境產(chǎn)生的數(shù)據(jù),是全部道路擁擠度指標(biāo)在一天之中每隔15秒的均值。可以看出仿真程序具有與真實數(shù)據(jù)類似的車流波動,且一天的首尾擁擠度值一致,說明其具有較為可靠的仿真性能。
圖3單條路擁擠度的預(yù)測結(jié)果對比圖
圖4仿真環(huán)境全道路擁擠度指標(biāo)均值
如圖5所示,藍色點為原環(huán)境的全部道路擁擠度指標(biāo)在一天之中每隔15秒的均值,而橙色點則是在運用我們的系統(tǒng)進行優(yōu)化后的對應(yīng)數(shù)據(jù)。與原環(huán)境對比,由DDPG神經(jīng)網(wǎng)絡(luò)調(diào)整后的交通網(wǎng)絡(luò),整體的交通擁擠度有了明顯的下降??梢钥吹?,在一天之中的早高峰被直接削除,同時推遲了晚高峰出現(xiàn)的時間點和持續(xù)時間。同時,所有時間段上,交通擁擠度(TF)都低于原環(huán)境的交通擁擠度。而對于行車個體而言,他們的平均通過時間有了明顯的減少。其中,圖上兩處數(shù)據(jù)斷層是原數(shù)據(jù)集數(shù)據(jù)項缺失導(dǎo)致的。
圖5應(yīng)用優(yōu)化方案前后全道路擁擠度指標(biāo)均值對比圖
SCATS方法:(悉尼自適應(yīng)交通控制系統(tǒng))一種實時方案選擇控制系統(tǒng),信號周期和綠信比的實時選擇是以子系統(tǒng)的整體需要為出發(fā)點,即根據(jù)子系統(tǒng)內(nèi)的關(guān)鍵交叉口的需要確定共用周期時長。交叉口的相應(yīng)綠燈時間,按照各相位飽和度相等或接近的原則,確定每一相位綠燈占信號周期的百分比。隨著信號周期的調(diào)整,各相位綠燈時間也隨之變化。本實驗利用深圳市出租車數(shù)據(jù)集實現(xiàn)SCATS方法,并將該方法調(diào)整后的數(shù)據(jù)與DDPG神經(jīng)網(wǎng)絡(luò)方法進行對比。
TRANSYT方法:該系統(tǒng)是一種脫機配時優(yōu)化的定時控制系統(tǒng),全稱是(Traffic Network Study Tool)“交通網(wǎng)絡(luò)研究工具”,是定時式脫機操作交通信號控制系統(tǒng),本文利用深圳市出租車數(shù)據(jù)集實現(xiàn)TRANSYT方法,將實驗結(jié)果與DDPG神經(jīng)網(wǎng)絡(luò)實驗結(jié)果進行對比。
如圖6所示,藍色點為原環(huán)境,青色點為我們的方法,紅色點為SCATS方法,綠色點為TRANSYT方法。在此圖中,SCATS方法的散點圖出現(xiàn)明顯的斷層,且在斷層出擁擠度指標(biāo)明顯下降,這是由于數(shù)據(jù)集在那兩個斷層處數(shù)據(jù)缺失,又由于該優(yōu)化方法的特性,導(dǎo)致在端點道路(處于仿真環(huán)境外圍的出口入口道路)的擁擠度會突然下降。但在后續(xù)數(shù)據(jù)的證明中,端點部分的擁擠度并不能給整個路網(wǎng)狀況帶來改善??梢宰⒁獾降氖?,在數(shù)據(jù)正常的前段中,SCATS在擁擠度指標(biāo)方面是最為差勁的,而TRANSYT方法在全程中都與我們的方法持平。這樣印證了,僅僅考慮單個路口的信息作出決策,而不去利用路口之間的強耦合性的話,決策效果將會大打折扣。
圖6各方法全道路擁擠度指標(biāo)均值
深度學(xué)習(xí)技術(shù)是時下與未來各領(lǐng)域的研究熱點。然而在交通領(lǐng)域中與人工智能結(jié)合的實踐尚為少數(shù)。本文基于深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí),構(gòu)建出了一個行之有效的信號燈控制系統(tǒng),驗證了人工智能與交通領(lǐng)域結(jié)合的有效性,并討論了利用多路口強耦合性的優(yōu)越性。顯而易見的是,我們的工作存在很多可以改善的地方,例如更加全面的交通仿真,例如更加優(yōu)秀的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和更加全面的實驗等。但是,可以窺見的是,人工智能或深度學(xué)習(xí)與交通領(lǐng)域的結(jié)合是具有巨大潛力的組合。我們應(yīng)當(dāng)進一步加強智能交通調(diào)控的研究,令其理論更加地成熟,甚至最終成為現(xiàn)實中交通管理的一部分。