劉 翔 李 艾 成 衛(wèi)
(昆明理工大學(xué)交通工程學(xué)院1) 昆明 650504) (玉溪市公安局交通警察支隊2) 玉溪 653100)
我國道路安全法規(guī)定,在保證道路安全的情況下,應(yīng)急車輛享有絕對的道路優(yōu)先權(quán),而城市中通行的大部分延誤都產(chǎn)生在交叉口,因此在交叉口設(shè)置優(yōu)先信號控制,對應(yīng)急車輛快速到達(dá)事發(fā)現(xiàn)場至關(guān)重要.
國內(nèi)外學(xué)者針對應(yīng)急車輛優(yōu)先通行進(jìn)行了居多研究.Maram等[1]以緊急車輛能夠快速通過為前提,設(shè)計了一個動態(tài)、高效的交通信號控制算法,以獲取各個交通流的最佳綠燈相位時間.Qin[2]設(shè)計應(yīng)急車輛信號優(yōu)先控制過程.謝秉磊等[3]探討了應(yīng)急車輛優(yōu)先通行的二階段模型.趙欣等[4]提出了可變導(dǎo)向車道的應(yīng)急車輛優(yōu)先通行策略.上述研究均是基于模型的控制方案,而現(xiàn)實中存在諸多不確定因素,導(dǎo)致交通狀況不可能一直處于穩(wěn)定狀態(tài),一旦出現(xiàn)意外狀況,基于模型的控制會出現(xiàn)極大偏差.文中提出了一種基于深度強化學(xué)習(xí)的應(yīng)急車輛信號優(yōu)先控制方法,使交通信號控制系統(tǒng)具有自我學(xué)習(xí)、自我判斷的能力,在出現(xiàn)行駛方向相互沖突的應(yīng)急車輛時,可以提供應(yīng)急車輛的信號優(yōu)先,同時綜合考慮了交叉口各個進(jìn)口道社會車輛的情況,盡可能減少對相交道路上社會車輛運行的影響.
由于目前大部分單個交叉口應(yīng)急車輛優(yōu)先信號控制的研究都針對應(yīng)急車輛從某一進(jìn)口道接近交叉口,從而對應(yīng)急車輛實現(xiàn)優(yōu)先控制的方法,這種控制方法通過復(fù)雜的建模和優(yōu)化算法雖然能夠解決單個應(yīng)急車輛優(yōu)先通過交叉口的問題,但顯然存在一定的局限.當(dāng)城市出現(xiàn)突發(fā)狀態(tài)時,應(yīng)急車輛可能會從交叉口不同的進(jìn)口方向同時接近(見圖1),出現(xiàn)此情況時,不同進(jìn)口方向上的應(yīng)急車輛都需要信號優(yōu)先控制,之前的方法在這里將不在適用.針對這一問題,文中將綜合考慮各方向應(yīng)急車輛信號優(yōu)先與社會車輛的通行,通過對每個進(jìn)口道應(yīng)急車輛和社會車輛進(jìn)行編碼,將整個應(yīng)急車輛的信號優(yōu)先控制過程建模為馬爾科夫決策過程,對基于深度強化學(xué)習(xí)算法的交叉口多應(yīng)急車輛優(yōu)先信號控制進(jìn)行了研究分析.
圖1 應(yīng)急車輛從不同方向接近交叉口示意圖
在強化學(xué)習(xí)中,對于每一個時間步長t,智能體通過與環(huán)境的交互,觀察環(huán)境的狀態(tài)s,然后根據(jù)觀測到的狀態(tài)從動作集合A中選取一個動作a,每執(zhí)行完成一個動作a∈A,將受到環(huán)境的反饋獎勵r,同時環(huán)境狀態(tài)更新為新狀態(tài)s’,經(jīng)過長時間的交互后,智能體獲得了一系列狀態(tài)、動作和獎賞值組成的四元組,因此控制器的目標(biāo)就是通過一系列的動作集合A={a0,a1,…,an},獲得最大化的獎勵R.
(1)
式中:Rt為折扣期望獎勵;γ∈(0,1]為折扣因子.
在深度Q學(xué)習(xí)中,定義動作價值函數(shù)Q-function來估計智能體在給定狀態(tài)下執(zhí)行策略π下某個動作的效果.Q函數(shù)為[5-6]
(2)
在深度Q學(xué)習(xí)中,將具有權(quán)重θ的神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器稱為Q網(wǎng)絡(luò),可以通過迭代更新來最小化TD誤差來進(jìn)行學(xué)習(xí),當(dāng)優(yōu)化損失函數(shù)Li(θ)時,暫時固定前一次迭代的參數(shù)θi-1,從而得到損失函數(shù)梯度計算公式,為
Q(s,a;θi))2]
(3)
式中:i為當(dāng)前迭代次數(shù),在每次迭代中,參數(shù)θ的更新公式為
(4)
式中:ε∈(0,1]為學(xué)習(xí)率.最終得到Q值的最優(yōu)估計參數(shù)θ*.
(5)
在DQN中,Q學(xué)習(xí)在估計動作值時,總是選取動作值最大的動作,所以在訓(xùn)練過程中容易陷入局部最優(yōu).為了防止出現(xiàn)過估計,雙Q學(xué)習(xí)將評估與選擇分開,每個學(xué)習(xí)經(jīng)歷都會隨機分配一個值函數(shù)來進(jìn)行更新,這樣就出現(xiàn)了兩套權(quán)重集合θ與θ′,對于每一次更新,其中一組權(quán)重用于決定貪心策略,另一組用來確定其值.
為了將Q學(xué)習(xí)的選擇與評估分開,Q學(xué)習(xí)的目標(biāo)函數(shù)可改寫為
(6)
則雙Q學(xué)習(xí)的目標(biāo)函數(shù)為
(7)
假設(shè)系統(tǒng)中的車輛屬于兩種類型,即應(yīng)急車輛與社會車輛,并根據(jù)車輛在交叉口的行駛信息來定義狀態(tài).設(shè)一個交叉口的來車需求分為P個方向,N為應(yīng)急車輛與社會車輛的狀態(tài)空間,將E和S分別定義為應(yīng)急車輛和社會車輛的狀態(tài)空間[8-9].
狀態(tài)空間的定義對于系統(tǒng)是十分重要的,由于應(yīng)急車輛屬于特殊車輛,因此本文中假設(shè)應(yīng)急車輛都具有車載網(wǎng)絡(luò)或其他車載設(shè)備,能夠?qū)崟r發(fā)送車輛信息.隨著智能檢測技術(shù)的發(fā)展,路口所設(shè)置的檢測器能夠傳回應(yīng)急車輛的實時狀態(tài),因此交通管理部門可以實時獲得應(yīng)急車輛的位置以及此時的速度.因此,本節(jié)利用車輛在十字路口的位置和速度來定義應(yīng)急車輛的狀態(tài).首先定義di為應(yīng)急車輛距交叉口的距離,vi為應(yīng)急車輛的實時速度并將其以最大速度進(jìn)行歸一化,其中.i∈P隨后將二者結(jié)合為一個二元組
E=[d1,1,1,v1,1,1,d1,1,2,v1,1,2,…,di,j,k,vi,j,k]T,
i=1,2,…,n;j=1,2,…,c;k=1,2,…,g
(8)
式中:i為交叉口的不同進(jìn)口方向;j為各進(jìn)口方向的車道;g為不同的車道分段.若應(yīng)急車輛不存在,vi,j取值為-1.需要特別說明的是本節(jié)設(shè)定的應(yīng)急車輛在保證安全行駛的過程中可以自由換道,而社會車輛的換道方式按照仿真軟件中默認(rèn)的換道模型進(jìn)行換道.
由于目前大部分的車輛并不具備車載通行技術(shù),因此為了更加接近現(xiàn)實,定義每條進(jìn)口車道的社會車輛數(shù)量和平均速度作為社會車輛的狀態(tài)空間,這二者均可通過安裝在路口的車輛檢測器獲得,即
i=1,2,…,n;j=1,2,…,c
(9)
因此,全面描述應(yīng)急車輛到達(dá)時路口的交通環(huán)境,將其作為深度強化學(xué)習(xí)智能體的狀態(tài)空間輸入,這樣智能體就可以通過訓(xùn)練學(xué)習(xí),逐漸學(xué)習(xí)到最優(yōu)策略.
在考慮社會車輛能夠減少延誤與給予應(yīng)急車輛優(yōu)先通行的情況下,設(shè)置了一組傳統(tǒng)四相位控制交叉口,A={‘NS’,‘NSL’,‘WE’, ‘WEL’},分別為南北直行,南北左轉(zhuǎn),東西直行,東西左轉(zhuǎn).由于應(yīng)急車輛行駛的特性,文中所建立的模型并不實行固定相位相序,在每一時間步內(nèi),智能體通過觀測到的狀態(tài)選取動作,根據(jù)其選取的動作,來為其方向上的車輛提供交叉口的通行權(quán).本文設(shè)置綠燈時間持續(xù)10 s,智能體可能決定保持相同的動作或者更改動作.此外,當(dāng)選取的動作不同于目前相位時,會出現(xiàn)一個用于過渡的3 s黃燈相位,此相位不在本次動作的選取集合中,此相位被當(dāng)作是在交通信號控制系統(tǒng)內(nèi)部自動執(zhí)行.
獎勵是獨立計算的應(yīng)急車輛獎勵和社會車輛獎勵的線性組合[10],為
(10)
應(yīng)急車輛的獎勵為應(yīng)急車輛在檢測器覆蓋區(qū)域內(nèi)是否因紅綠燈停車作為判斷條件,由于考慮的是可能出現(xiàn)多輛應(yīng)急車輛同時到達(dá)交叉口上游并競爭綠燈相位的情況,為了使應(yīng)急車輛在智能體的控制下獲取較為理想的通行速度,應(yīng)急車輛獎勵函數(shù)設(shè)計如下.
(11)
若應(yīng)急車輛在交叉口由于遭遇紅燈而停車,即v=0時,給予智能體一個較大的懲罰值,即:
b.The practice of making and serving tea is essential.(147)
(12)
這樣設(shè)計獎勵的目的是為了讓智能體傾向于選擇使應(yīng)急車輛在交叉口不停車的動作,并盡可能地保證應(yīng)急車輛的行駛速度.
對于社會車輛而言,由于應(yīng)急車輛的出現(xiàn)屬于小概率事件,在智能體決策過程中,其獎勵值在多數(shù)情況下為0.但是由于智能體的控制過程不是去追求一個當(dāng)前獎勵最大化,而是在整個決策過程中,所有的獎勵加權(quán)之和最大,而且智能體可以從過往的經(jīng)驗中學(xué)習(xí),所以即使道路上沒有應(yīng)急車輛行駛,之前的決策也可當(dāng)作是為應(yīng)急車輛的優(yōu)先控制決策做前期準(zhǔn)備.設(shè)計的獎勵函數(shù)應(yīng)該能夠保證在應(yīng)急車輛通過后能夠盡快的將交叉口恢復(fù)原有秩序,并在正常的交通環(huán)境下也能夠提高社會車輛的通行效率.對于社會車輛的獎勵設(shè)計,綜合考慮了處于檢測范圍內(nèi)社會車輛的排隊長度與社會車輛延誤因素,如果只考慮各排隊長度的和最小,則智能體可能會更傾向于將交通流量較大的車道持續(xù)保持綠燈相位,而其他交通量較小的車道會一直持續(xù)為紅燈相位,這將導(dǎo)致交通量小的車道上的車輛延誤劇增,因此為了避免這一情況發(fā)生,借鑒文獻(xiàn)[11-12]的獎勵公式,將其改進(jìn)為公式為
j=1,2,…,c
(13)
式中:qj為每條車道上檢測區(qū)域內(nèi)的社會車輛排隊長度;j為交叉口進(jìn)口車道編號;N為檢測區(qū)域類社會車輛的總數(shù);α為社會車輛i的累計等待時間;C為社會車輛可容忍的累計等待時間;α、η、ρ為大于0的常數(shù)系數(shù).
可得到總的獎勵函數(shù),為
j=1,2,…,c
(14)
圖2為一個單點信號控制的雙向四車道的交叉口,右轉(zhuǎn)車道一直被允許通行,本文假定所有車輛的到達(dá)概率都服從泊松分布.由于應(yīng)急車輛的出現(xiàn)具有突發(fā)性,所以本文中設(shè)置應(yīng)急車輛從4個方向以隨機概率駛?cè)氲缆?,且由于突發(fā)性與隨機性,交叉口可能出現(xiàn)多輛應(yīng)急車輛同時在不同進(jìn)口道排隊的情況[13-14].輸入的社會車輛本文以作者于2019年7月于云南省曲靖市麒麟南路-南寧西路交叉口的實測數(shù)據(jù)為輸入,為保證隨機性,在訓(xùn)練開始時車輛輸入以75%的概率直行和25%的概率轉(zhuǎn)向隨機輸入到交叉口中,每次仿真輸入車輛數(shù)在1 500~1 800輛浮動,輸入車輛數(shù)是社會車輛數(shù)和應(yīng)急車輛數(shù)的和.
圖2 雙向4車道交叉口
為了評估本文中所提出的方法,利用現(xiàn)狀配時和感應(yīng)優(yōu)先控制與每次仿真所得出的基本指標(biāo)作為基本線[15-16],本文中所利用的感應(yīng)優(yōu)先為一旦應(yīng)急車輛接近交叉口并被檢測器檢測到,便為這輛應(yīng)急車輛提供優(yōu)先信號控制.并將社會車輛累計延誤、應(yīng)急車輛累計延誤與基本線進(jìn)行對比,結(jié)果見圖3,DDQN訓(xùn)練累計獎勵見圖4.
圖3 訓(xùn)練期間車輛累計延誤與現(xiàn)狀配時車輛累計延誤
圖4 DDQN每節(jié)累計獎勵
由圖4可知,DDQN交通控制智能體隨著訓(xùn)練的逐步增加,性能在逐步提升中,并且由圖3可知, DDQN方法隨著訓(xùn)練輪次的增加,累計延誤都比基線延誤低,且穩(wěn)定性較DQN好,所提出的方法性能明顯優(yōu)于現(xiàn)狀配時與感應(yīng)優(yōu)先控制,同時,在減低應(yīng)急車輛累計延誤的情況下,社會車輛的累計延誤也在逐步減少.
分別采用高峰時期與平峰時期的流量進(jìn)行驗證,并在相同流量的情況下分別仿真10次且每次仿真應(yīng)急車輛出現(xiàn)的概率不相等,所得結(jié)果取平均值.選用車輛平均延誤、車輛平均旅行時間、車輛平均損失時間(損失時間為速度偏差時間,即車輛速度小于最大行駛速度的時間)作為本次實驗驗證的評價指標(biāo).平峰和高峰時間仿真結(jié)果分別見表1~2.
表1 平峰時段不同控制策略下仿真結(jié)果數(shù)據(jù)統(tǒng)計表 單位:s
由表1可知,利用本文所提出的方法相較于感應(yīng)優(yōu)先法、現(xiàn)狀配時,本文所提出的基于深度強化學(xué)習(xí)的多應(yīng)急車輛信號優(yōu)先控制在平峰時間對比感應(yīng)優(yōu)先與實際配時分別能夠減少應(yīng)急車輛64.9%和91.8%的平均延誤、7%和26.1%的平均行程時間以及38.0%和72.5%的平均損失時間,應(yīng)急車輛在交叉口的通行效率大大提升,且速度更快.此外,在同時減少應(yīng)急車輛延誤與行程時間的情況下,對社會車輛在交叉口的通行效率也有顯著提升,分別減少了46.3%和66%的平均延誤、12.7%和19.3%的平均行程時間和39.8%和52.1%的平均損失時間.
由表2可知,采用本文所提出的方法相較于感應(yīng)優(yōu)先法、實際配時,在高峰時間對比感應(yīng)優(yōu)先與現(xiàn)狀配時分別能夠減少應(yīng)急車輛84.70%和89.71%的平均延誤、18.51%和38.5%的平均旅行時間以及70.70%和77.89%的平均損失時間,而在社會車輛方面分別能夠減少27.38%和19.22%的平均延誤、11.60%和7.40%的平均旅行時間以及23.15%和14.71%的平均損失時間.而在高峰時段,感應(yīng)優(yōu)先雖能夠一定程度的減少應(yīng)急車輛在交叉口的延誤,但是卻是在犧牲社會車輛正常通行的前提下完成的,對正常的交通流影響較大,容易造成道路擁堵,甚至引發(fā)二次事故.
表2 高峰時段不同控制策略下仿真結(jié)果數(shù)據(jù)統(tǒng)計表 單位:s
文中提出的基于深度強化學(xué)習(xí)的多應(yīng)急車輛優(yōu)先控制方法是可行,當(dāng)多輛應(yīng)急車在交叉口同時需要優(yōu)先通行的情況下,本文所提出的方法能夠有在效減少應(yīng)急車輛在交叉口行程時間與延誤,同時也能夠提高社會車輛的通行效率,且在高峰時段下與感應(yīng)優(yōu)先相比,本文的方法能夠在不犧牲社會車輛正常通行的情況做到對應(yīng)急車輛的最小延誤,表現(xiàn)出了對實時交通環(huán)境的適應(yīng)性并具有較強的魯棒性.
1) 文中提出的一種基于深度強化學(xué)習(xí)的多應(yīng)急車輛信號優(yōu)先方法,通過對路況的實時監(jiān)控、智能體自動收集車輛行駛信息,將車輛信息輸入模型進(jìn)行訓(xùn)練,從而獲得最大的累計獎勵,繼而得到應(yīng)急車輛的優(yōu)先控制信號,避免了基于模型的優(yōu)先控制方法的局限性.仿真結(jié)果表明,在不同的交通流量下,具有較強的魯棒性,在交叉口可能出現(xiàn)多輛應(yīng)急車輛同時到達(dá)的情況下,應(yīng)急車輛平均延誤時間減少了60%.
2) 文中提出的方法在考慮應(yīng)急車輛優(yōu)先通行的同時,也考慮了應(yīng)急車輛在交叉口實施優(yōu)先控制時對社會車輛的影響,減少了社會車輛的平均延誤時間,保障了應(yīng)急車輛通過后交叉口的正常通行秩序.