基于深度強化學(xué)習(xí)的交通信號燈控制

2020-03-05 04:22陳樹德彭佳漢高旭賴曉晨

現(xiàn)代計算機 2020年3期

陳樹德，彭佳漢，高旭，賴曉晨

（大連理工大學(xué)軟件學(xué)院，大連116000）

0 引言

交通問題，是一個復(fù)雜時變且隨機的動力學(xué)問題[1，2]。隨著城市不斷發(fā)展和交通車輛數(shù)目的不斷上升，出現(xiàn)了諸如交通擁堵現(xiàn)象頻繁，交通事故率上升等問題[3]。這直接或間接導(dǎo)致了能源和資源的浪費；以及諸如空氣污染和長期的噪音問題[4，5]。因此更加有效的通調(diào)系統(tǒng)顯得尤為重要。

目前，這些問題的解決方案一般是通過設(shè)計自動駕駛車輛[6]或者搭建智能交通控制系統(tǒng)[7]，其中交通信號燈控制（TLC[8]）就是一個被廣泛探究的智能交通控制系統(tǒng)方向。在傳統(tǒng)的信號控制系統(tǒng)中，如SCATS、SCOOT等，它們往往在線下通過算法計算出固定的信號燈配比方案，但這顯然無法應(yīng)對交通事件的隨機性問題。

同時，對比同樣結(jié)合了深度強化學(xué)習(xí)的Schutera Mark等人的方法[9]，他們的方法雖然可以有效且實時地優(yōu)化單個路口的信號燈配比，但卻沒有考慮一個交通路網(wǎng)中多個路口間的強耦合性，對于路網(wǎng)交通狀態(tài)整體惡化的情況無法做出有效的應(yīng)對。因此，本文針對多個路口間的強耦合性，提出了一個基于深度強化學(xué)習(xí)的信號燈控制系統(tǒng)。我們的方法先是通過長短期記憶模型（LSTM-RNN[10]）預(yù)測未來的交通信息，進而輔助Deep Deterministic Policy Gradient（DDPG[11]）制定合理的信號燈時長配比。本文提出的方法，相對于過往方法具有以下的優(yōu)勢：（1）實時性與靈活性，相對于線下指定好的信號燈配比方案，我們的方法具有合理應(yīng)對突發(fā)狀況的能力。（2）充分利用了路口間的強耦合性，而不僅僅局限與單一路口的決策環(huán)境。（3）看得更遠的決策能力，通過與預(yù)測網(wǎng)絡(luò)的協(xié)同訓(xùn)練，深度強化神經(jīng)網(wǎng)絡(luò)將獲得利用推理結(jié)果解決問題的能力。

1 理論背景

1.1 LSTM-RNN

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）模型是深度神經(jīng)網(wǎng)絡(luò)中的一個重要分支，其設(shè)計來目的主要是用于處理序列信息。針對于我們的問題而言，交通狀況信息是具有明顯時序關(guān)系的信息，因此使用該種網(wǎng)絡(luò)進行處理將更具優(yōu)勢。同時，利用循環(huán)神經(jīng)網(wǎng)絡(luò)進行數(shù)據(jù)的預(yù)測已經(jīng)被證明具有有效性。長短期記憶模型，同樣是一種循環(huán)神經(jīng)網(wǎng)絡(luò)，它通過長短時記憶單元替換普通神經(jīng)元，從而解決普通循環(huán)神經(jīng)網(wǎng)絡(luò)無法有效利用及保留歷史信息的問題，適于處理和預(yù)測間隔和延遲相對較長的重要事件。在交通問題中，一次事故往往能影響未來數(shù)小時的路況。LTM無疑能更加有效地處理這類問題。

1.2 DDPG神經(jīng)網(wǎng)絡(luò)

DDPG是將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與DPG（Determinis?tic Policy Gradient[12]）的策略學(xué)習(xí)方法融合。相對于DPG的核心改進是:采用深度神經(jīng)網(wǎng)絡(luò)作為策略函數(shù)和Q函數(shù)的模擬，即策略網(wǎng)絡(luò)和Q網(wǎng)絡(luò);然后使用深度學(xué)習(xí)的方法來訓(xùn)練上述神經(jīng)網(wǎng)絡(luò)。相對于DQN[13]方法，它擁有連續(xù)的決策空間，這對于我們的問題來說是至關(guān)重要的，信號燈配比是處于連續(xù)空間的問題。

其中策略函數(shù)定義為At=μ(St)，即將狀態(tài)S映射為決策A的函數(shù)。而Q函數(shù)定義為Vt=Q(St,At)，則是將狀態(tài)S和對應(yīng)決策A映射為價值V的函數(shù)。兩者對應(yīng)的神經(jīng)網(wǎng)絡(luò)，即策略網(wǎng)絡(luò)和Q網(wǎng)絡(luò)則是基于深度學(xué)習(xí)對兩函數(shù)進行擬合。同時，該方法也吸取了DDQN的優(yōu)越技巧，通過設(shè)定在線網(wǎng)絡(luò)（實際梯度下降操作作用的網(wǎng)絡(luò)）和線下網(wǎng)絡(luò)（實際做出決策與交互的網(wǎng)絡(luò)）來解決學(xué)習(xí)過程不穩(wěn)定的問題。

2 方法設(shè)計

2.1 低因素微觀層次的交通仿真軟件

我們通過尋找開源的交通數(shù)據(jù)集為仿真環(huán)境提供基礎(chǔ)設(shè)定，由此提升仿真的真實性與合理性。這些基礎(chǔ)設(shè)計包括：（1）地圖信息，基于數(shù)據(jù)集所在的具體地理位置，在數(shù)值上1:1還原其道路長度，路口分支，車道數(shù)目等信息。（2）車流信息，根據(jù)數(shù)據(jù)集中每一時刻的車輛位置信息（經(jīng)緯度），所處道路信息和車速信息，還原這個區(qū)域在一日之中的車流概況。即根據(jù)每條道路的交通工具數(shù)量計算每一時刻每一條道路的交通工具數(shù)量權(quán)重，進而將每一輛車進入地圖和路線選擇視為一種概率事件，以此控制仿真環(huán)境中的車輛產(chǎn)生和路線規(guī)劃。從而令得仿真環(huán)境更加接近現(xiàn)實的交通路況。

2.2 基于循環(huán)LSTM神經(jīng)網(wǎng)絡(luò)的路網(wǎng)擁擠度預(yù)測

在實際交通環(huán)境中，先前發(fā)生的某次突發(fā)事件或某個交通狀態(tài)可能對一段時間后的交通狀態(tài)存在影響，然而普通的循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層并不能實現(xiàn)對某個狀態(tài)進行有選擇的長時間記憶的功能。因此，我們選用LSTM單元來作為循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層節(jié)點，從而克服上述的問題。具體網(wǎng)絡(luò)結(jié)構(gòu)如下：網(wǎng)絡(luò)的輸入為所有道路雙向車道的擁擠度指標(biāo)組成的一維向量。其中，基于道路的車流密度和車輛平均速度信息設(shè)計交通擁擠度評價指標(biāo)（TF）:

式中，CVN為道路車流密度，MVN為道路的歷史最大車流密度，CTV為道路車輛平均速度，MTV為道路的歷史最大車輛平均速度，α為權(quán)重參數(shù)。第一項綜合考慮了當(dāng)前道路的飽和度以及占有率，第二項考慮交通流的運行速度特征，并借助權(quán)值調(diào)節(jié)它們對指標(biāo)的綜合影響。此指標(biāo)具有較強的描述性和實用性。

2.3 基于DDPG神經(jīng)網(wǎng)絡(luò)的信號燈優(yōu)化

本文中，DDPG網(wǎng)絡(luò)分為決策網(wǎng)絡(luò)和評價網(wǎng)絡(luò)（Q網(wǎng)絡(luò)），這兩個網(wǎng)絡(luò)每個又分線上和線下。在線網(wǎng)絡(luò)就是實際使用數(shù)據(jù)進行訓(xùn)練的網(wǎng)絡(luò)。其中，進行評價網(wǎng)絡(luò)訓(xùn)練的價值指標(biāo)r的衡量，在本文設(shè)定為車輛平均通過時間的相反數(shù)。

其中，Tacc為某車從進入虛擬仿真環(huán)境開始到離開環(huán)境為止的時間，Nout為某個時段內(nèi)駛出環(huán)境的車輛數(shù)。該式子的意思即，所有輛車從進入虛擬仿真環(huán)境開始到離開環(huán)境為止的時間，在決策間隔（我們設(shè)定DDPG每15秒進行一次決策）中的均值。而獎勵值則為該衡量的變動值，即一旦平均通過時間能夠減少，那么減少的部分就是獎勵值。

而對于線下的網(wǎng)絡(luò)而言，則是每隔若干次線上網(wǎng)絡(luò)訓(xùn)練，都將其全部的參數(shù)在數(shù)值上向在線網(wǎng)絡(luò)進行平均滑動操作。并且，實際做出決策和產(chǎn)生訓(xùn)練數(shù)據(jù)都是使用線下網(wǎng)絡(luò)。因而線下網(wǎng)絡(luò)與線上網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)一致。具體網(wǎng)絡(luò)結(jié)構(gòu)如下：

評價網(wǎng)絡(luò)輸入是狀態(tài)和動作的組合，即全部方向道路當(dāng)前和未來的路況信息組成的一維向量，拼接上信號燈狀態(tài)數(shù)組成的一維向量。本文中，我們的決策形式是給所有路口的所有信號燈狀態(tài)分配時長，而不是決定信號燈當(dāng)前狀態(tài)的持續(xù)時長。其中動作空間的取值是0-1，映射為20秒至60秒的紅綠燈方案時長。

2.4 整體架構(gòu)

系統(tǒng)整體架構(gòu)如圖1所示。仿真環(huán)境不斷產(chǎn)生當(dāng)前路況數(shù)據(jù)交付Lstm預(yù)測網(wǎng)絡(luò)；后將得到的預(yù)測路況和當(dāng)前路口以及獎勵信息傳入目標(biāo)（線下）決策網(wǎng)絡(luò)；目標(biāo)決策網(wǎng)絡(luò)立即做出決策并回傳仿真環(huán)境，同時將本次決策記錄以狀態(tài)轉(zhuǎn)換對（狀態(tài)轉(zhuǎn)換對由前狀態(tài)，決策，后狀態(tài)，獎勵組成）的形式在記憶緩存中；在線網(wǎng)絡(luò)則隨機地從記憶緩存中抽取數(shù)據(jù)進行學(xué)習(xí)；目標(biāo)網(wǎng)絡(luò)則在在線網(wǎng)絡(luò)若干次訓(xùn)練后進行一次參數(shù)軟更新。

圖1整體系統(tǒng)結(jié)構(gòu)

3 實驗

3.1 數(shù)據(jù)集

本文中，我們總共選用了兩個數(shù)據(jù)為仿真環(huán)境提供基礎(chǔ)設(shè)定，分別是深圳市出租車數(shù)據(jù)集和上海市出租車數(shù)據(jù)集。這兩個數(shù)據(jù)集都包含了車輛至少一天的GPS定位信息、車速信息。

圖2為深圳市出租車數(shù)據(jù)集在進行預(yù)處理后的可視化呈現(xiàn)，其中顏色代表著該道路在當(dāng)前時刻的擁擠度（TF），越紅則擁擠度越高。

圖2深圳出租車數(shù)據(jù)集可視化

3.2 實驗設(shè)計

以分鐘為尺度計算出一日之中每條道路的擁擠度指標(biāo)（TF）。并以此作為指導(dǎo)仿真環(huán)境車輛產(chǎn)生和路徑規(guī)劃的依據(jù)。同時，對預(yù)測網(wǎng)絡(luò)效果進行驗證。

圖3中橙點為其中一條路一天1440分鐘的擁擠度指標(biāo)的實際數(shù)據(jù)，藍點是該條路預(yù)測出的擁擠度指標(biāo)?？梢钥闯觯A(yù)測網(wǎng)絡(luò)能較為準(zhǔn)確的預(yù)測未來的路況信息。圖4中為仿真環(huán)境產(chǎn)生的數(shù)據(jù)，是全部道路擁擠度指標(biāo)在一天之中每隔15秒的均值。可以看出仿真程序具有與真實數(shù)據(jù)類似的車流波動，且一天的首尾擁擠度值一致，說明其具有較為可靠的仿真性能。

圖3單條路擁擠度的預(yù)測結(jié)果對比圖

圖4仿真環(huán)境全道路擁擠度指標(biāo)均值

3.3 實驗結(jié)果

如圖5所示，藍色點為原環(huán)境的全部道路擁擠度指標(biāo)在一天之中每隔15秒的均值，而橙色點則是在運用我們的系統(tǒng)進行優(yōu)化后的對應(yīng)數(shù)據(jù)。與原環(huán)境對比，由DDPG神經(jīng)網(wǎng)絡(luò)調(diào)整后的交通網(wǎng)絡(luò)，整體的交通擁擠度有了明顯的下降?？梢钥吹?，在一天之中的早高峰被直接削除，同時推遲了晚高峰出現(xiàn)的時間點和持續(xù)時間。同時，所有時間段上，交通擁擠度（TF）都低于原環(huán)境的交通擁擠度。而對于行車個體而言，他們的平均通過時間有了明顯的減少。其中，圖上兩處數(shù)據(jù)斷層是原數(shù)據(jù)集數(shù)據(jù)項缺失導(dǎo)致的。

圖5應(yīng)用優(yōu)化方案前后全道路擁擠度指標(biāo)均值對比圖

3.4 優(yōu)化方法橫向?qū)Ρ?/h3>
SCATS方法：（悉尼自適應(yīng)交通控制系統(tǒng)）一種實時方案選擇控制系統(tǒng)，信號周期和綠信比的實時選擇是以子系統(tǒng)的整體需要為出發(fā)點，即根據(jù)子系統(tǒng)內(nèi)的關(guān)鍵交叉口的需要確定共用周期時長。交叉口的相應(yīng)綠燈時間，按照各相位飽和度相等或接近的原則，確定每一相位綠燈占信號周期的百分比。隨著信號周期的調(diào)整，各相位綠燈時間也隨之變化。本實驗利用深圳市出租車數(shù)據(jù)集實現(xiàn)SCATS方法，并將該方法調(diào)整后的數(shù)據(jù)與DDPG神經(jīng)網(wǎng)絡(luò)方法進行對比。
TRANSYT方法：該系統(tǒng)是一種脫機配時優(yōu)化的定時控制系統(tǒng)，全稱是（Traffic Network Study Tool）“交通網(wǎng)絡(luò)研究工具”，是定時式脫機操作交通信號控制系統(tǒng)，本文利用深圳市出租車數(shù)據(jù)集實現(xiàn)TRANSYT方法，將實驗結(jié)果與DDPG神經(jīng)網(wǎng)絡(luò)實驗結(jié)果進行對比。
如圖6所示，藍色點為原環(huán)境，青色點為我們的方法，紅色點為SCATS方法，綠色點為TRANSYT方法。在此圖中，SCATS方法的散點圖出現(xiàn)明顯的斷層，且在斷層出擁擠度指標(biāo)明顯下降，這是由于數(shù)據(jù)集在那兩個斷層處數(shù)據(jù)缺失，又由于該優(yōu)化方法的特性，導(dǎo)致在端點道路（處于仿真環(huán)境外圍的出口入口道路）的擁擠度會突然下降。但在后續(xù)數(shù)據(jù)的證明中，端點部分的擁擠度并不能給整個路網(wǎng)狀況帶來改善?？梢宰⒁獾降氖?，在數(shù)據(jù)正常的前段中，SCATS在擁擠度指標(biāo)方面是最為差勁的，而TRANSYT方法在全程中都與我們的方法持平。這樣印證了，僅僅考慮單個路口的信息作出決策，而不去利用路口之間的強耦合性的話，決策效果將會大打折扣。
圖6各方法全道路擁擠度指標(biāo)均值

4 結(jié)語

深度學(xué)習(xí)技術(shù)是時下與未來各領(lǐng)域的研究熱點。然而在交通領(lǐng)域中與人工智能結(jié)合的實踐尚為少數(shù)。本文基于深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)，構(gòu)建出了一個行之有效的信號燈控制系統(tǒng)，驗證了人工智能與交通領(lǐng)域結(jié)合的有效性，并討論了利用多路口強耦合性的優(yōu)越性。顯而易見的是，我們的工作存在很多可以改善的地方，例如更加全面的交通仿真，例如更加優(yōu)秀的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和更加全面的實驗等。但是，可以窺見的是，人工智能或深度學(xué)習(xí)與交通領(lǐng)域的結(jié)合是具有巨大潛力的組合。我們應(yīng)當(dāng)進一步加強智能交通調(diào)控的研究，令其理論更加地成熟，甚至最終成為現(xiàn)實中交通管理的一部分。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡