尚春琳,劉小明,田玉林,董路熙
(北方工業(yè)大學(xué),城市道路智能交通控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100144)
公交專用道作為一種緩解交通擁堵、轉(zhuǎn)變城市交通發(fā)展方式的有效手段,近年來(lái)得到各國(guó)政府的大力推廣。但是專用道公交的干線優(yōu)先控制在實(shí)際應(yīng)用中效率相對(duì)較低,一個(gè)關(guān)鍵原因就是社會(huì)車輛干線協(xié)調(diào)與專用道公交干線優(yōu)先間的信號(hào)控制存在較大差異。對(duì)此,部分學(xué)者以人均延誤最低為目標(biāo),通過(guò)延誤模型分析、公交預(yù)信號(hào)設(shè)置[1]等措施,將公交優(yōu)先作為社會(huì)車輛干線協(xié)調(diào)設(shè)置的指標(biāo)因素之一,進(jìn)而實(shí)現(xiàn)社會(huì)車輛干線綠波同公交優(yōu)先的兼容。然而公交車輛因其隨機(jī)性和波動(dòng)性的特征,其路段分布差異性較大,極易造成信號(hào)利用率低、公交優(yōu)先效果差的問(wèn)題。對(duì)此也有學(xué)者在社會(huì)車輛干線協(xié)調(diào)的基礎(chǔ)上,通過(guò)車速引導(dǎo)[2]、主動(dòng)優(yōu)先[3]、車速引導(dǎo)和信號(hào)調(diào)整相結(jié)合[3]等措施優(yōu)化公交車輛的路口特性,然而這也帶來(lái)了前期軟硬件設(shè)備需求高[3],對(duì)社會(huì)車輛干線協(xié)調(diào)影響大[4]等問(wèn)題。并且隨著公交線路長(zhǎng)度和密度的不斷增加,其關(guān)聯(lián)交通狀態(tài)信息也逐漸呈現(xiàn)高維連續(xù)的特點(diǎn),進(jìn)一步增加了交通信號(hào)實(shí)時(shí)準(zhǔn)確決策的難度。
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)因其實(shí)時(shí)決策的優(yōu)勢(shì),逐漸在速度控制、路徑?jīng)Q策[5]及分布式信號(hào)優(yōu)化[6]等方面取得了一些研究成果。但受限于傳統(tǒng)強(qiáng)化學(xué)習(xí)難以較好處理高維且連續(xù)的交通狀態(tài)信息的自身限制,制約了其實(shí)時(shí)決策的進(jìn)一步優(yōu)化。對(duì)此有學(xué)者借助深度學(xué)習(xí)的數(shù)據(jù)處理優(yōu)勢(shì),開(kāi)展深度強(qiáng)化學(xué)習(xí)在交通領(lǐng)域的研究,文獻(xiàn)[7]將深度強(qiáng)化學(xué)習(xí)應(yīng)用到交通信號(hào)決策過(guò)程,并較好地提升了交叉口的通行效率。文獻(xiàn)[8]從有軌電車與社會(huì)車輛協(xié)同的角度,提出一種基于深度強(qiáng)化學(xué)習(xí)的有軌電車信號(hào)優(yōu)先控制策略,驗(yàn)證了深度強(qiáng)化學(xué)習(xí)在處理協(xié)同優(yōu)先問(wèn)題的可行性。
本文通過(guò)分析社會(huì)車輛干線和公交干線路段運(yùn)行狀態(tài),從各路段車輛行程時(shí)間分布差異入手,在不破壞社會(huì)車輛干線協(xié)調(diào)的基礎(chǔ)上,提出一種集成社會(huì)車輛干線協(xié)調(diào)控制和公交干線優(yōu)先控制的綜合干線協(xié)調(diào)控制方法,將公交車輛通過(guò)交叉口整個(gè)過(guò)程中的交通信號(hào)多步控制問(wèn)題轉(zhuǎn)變?yōu)轳R爾科夫決策過(guò)程,并考慮信號(hào)調(diào)整對(duì)上下游交叉口通行狀態(tài)的影響,以全線路人均延誤變化和停車次數(shù)變化最優(yōu)為目標(biāo),構(gòu)建基于深度強(qiáng)化學(xué)習(xí)迭代分析的專用道公交干線信號(hào)優(yōu)先策略。
干線協(xié)調(diào)控制的關(guān)鍵是按照公交車輛的路段分布,實(shí)時(shí)調(diào)整該路段的信號(hào)控制策略,這個(gè)過(guò)程需要判斷公交車輛所在路段和交叉口信號(hào)執(zhí)行狀態(tài),故通過(guò)車載GPS信息實(shí)時(shí)獲取公交狀態(tài)。但動(dòng)態(tài)交通感知及信號(hào)控制具有比較高的實(shí)時(shí)性要求,且隨著干線路段數(shù)量及公交車輛數(shù)量的變化,其信號(hào)決策呈現(xiàn)多狀態(tài)多動(dòng)作的高維狀態(tài),為此采用深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG),解決連續(xù)狀態(tài)空間和連續(xù)動(dòng)作空間問(wèn)題。
若路段上存在公交車輛,定義Δq>0,否則說(shuō)明路段上不存在公交車輛,故路段i上實(shí)際存在3種情況:無(wú)公交車輛(Δqi=0,Δq′i=0)、存在單向公交車輛(ΔqiΔq′i=0,Δqi+Δq′i≠0)和雙向均存在公交車輛(ΔqiΔq′i≠0),其中,Δqi,Δq′i分別為路段i正向行駛和逆向行駛車輛數(shù)。上述情況中僅有后兩種情況涉及信號(hào)控制方案調(diào)整。
如圖1所示,對(duì)比分析社會(huì)車輛和公交車輛的路段行程時(shí)間發(fā)現(xiàn),公交車輛的行程時(shí)間分布滯后于社會(huì)車輛。
圖1 車輛特性分布Fig.1 Vehicle characteristic distribution
對(duì)公交車輛的行程時(shí)間進(jìn)行K-S檢驗(yàn)發(fā)現(xiàn),其漸進(jìn)顯著性為0.101>0.05,即為正態(tài)分布,獲取行程時(shí)間置信度為1-α的置信區(qū)間Tt為
式中:Tt1,Tt2為置信區(qū)間的上、下限;為樣本均值;χ為樣本標(biāo)準(zhǔn)差;w為樣本數(shù)量;tα2表示t檢驗(yàn)。
公交車輛到達(dá)第i+1 交叉口的時(shí)段為,此時(shí)第i+1交叉口綠燈的起止時(shí)刻為,其中,βi為社會(huì)車輛協(xié)調(diào)相位差,Δgi+1為第i+1交叉口的綠燈時(shí)長(zhǎng)。如圖2所示,車輛到達(dá)時(shí)段與交叉口綠燈時(shí)段關(guān)系主要分為3情況,即包含、交叉、獨(dú)立。不同情況下,公交不停車通過(guò)交叉口i的概率分別為
圖2 關(guān)系示意圖Fig.2 Relationship indication
綜上,為在實(shí)際應(yīng)用中能充分掌握車輛的實(shí)時(shí)狀態(tài)變化,專用道公交的路段i行駛狀態(tài)被定義為si=(Δqi,λi),其中,Δqi,λi分別為路段i是否存在公交車輛、交叉口通過(guò)概率。本文模型的狀態(tài)空間定義為S=(s1,…,si,…,sn),其中,n表示干線路段數(shù)。
交叉口信號(hào)控制需要根據(jù)公交車輛狀態(tài)實(shí)時(shí)調(diào)整,故針對(duì)交通狀態(tài)構(gòu)建相應(yīng)的信號(hào)調(diào)整動(dòng)作關(guān)聯(lián)模型。由1.1節(jié)分析可知,Δq的狀態(tài)決定是否存在公交優(yōu)先需求,λ的狀態(tài)決定需要執(zhí)行信號(hào)調(diào)整的程度。定義整個(gè)干線的決策動(dòng)作空間為A=(a1,…,a,…,an),且路段i的信號(hào)決策動(dòng)作ai存在4 種情況,分別為其中,為信號(hào)早斷調(diào)整量,為信號(hào)延長(zhǎng)調(diào)整量。實(shí)際運(yùn)行過(guò)程中各交叉口存在最大、最小綠燈限制,因此信號(hào)調(diào)整在不同狀態(tài)存在不同的調(diào)整約束,故定義ai=μ(si) 表示動(dòng)作空間A與狀態(tài)空間S之間的關(guān)聯(lián)關(guān)系,具體分析如下。
公交信號(hào)優(yōu)先能夠在一定程度上優(yōu)化公交的停車次數(shù)和延誤等指標(biāo),但公交優(yōu)先權(quán)的增加會(huì)給社會(huì)車輛通行造成一定的負(fù)面影響,為獲取最佳優(yōu)化效果,本文選取人均延誤和公交停車次數(shù)等指標(biāo)構(gòu)建動(dòng)作收益函數(shù)。
信號(hào)調(diào)整會(huì)對(duì)路段車輛的通行產(chǎn)生影響,故利用韋伯斯特延誤公式量化分析信號(hào)調(diào)整對(duì)社會(huì)車輛道路延誤的影響,即
式中:γi和分別為信號(hào)調(diào)整前、后的綠信比;gi為交叉口i的綠燈時(shí)長(zhǎng);C為干線交叉口公共周期;為在綠信比γ情況下的平均延誤;分別為信號(hào)調(diào)整前后的平均延誤;Cost(Δti)為調(diào)整后的社會(huì)車輛平均延誤變化量;Δti為交叉口信號(hào)調(diào)整量,q為進(jìn)口道到達(dá)流率;x為進(jìn)口道飽和度。
信號(hào)調(diào)整會(huì)提升公交的通行效率,選取公交交叉口通行狀態(tài)變化分析信號(hào)調(diào)整的影響。信號(hào)調(diào)整前公交車輛的到達(dá)時(shí)段和交叉口綠燈時(shí)段分別為,公交不停車通過(guò)下游交叉口的時(shí)段范圍為信號(hào)調(diào)整后,公交不停車通過(guò)下游交叉口的時(shí)段范圍為;當(dāng) 公交車在上游路口停車等待時(shí),即≠0,信號(hào)調(diào)整后的公交不停車通過(guò)下游交叉口時(shí)段范圍為綜上,信號(hào)調(diào)整后的狀態(tài)轉(zhuǎn)移矩陣為
式中:為上下游均不停車通過(guò)的概率;為上游不停車通過(guò)下游停車等待的概率;為上游停車等待下游不停車通過(guò)的概率;為上游和下游均停車等待的概率??芍?,下一狀態(tài)的概率分布只能由當(dāng)前狀態(tài)決定,在時(shí)間序列中它前面的狀態(tài)均與之無(wú)關(guān)。
公交在交叉口不停車通過(guò),在行程時(shí)間上會(huì)出現(xiàn)累計(jì)優(yōu)化,故信號(hào)調(diào)整對(duì)公交車輛的影響可定義為
式中:為交叉口公交平均停車延誤,可根據(jù)歷史數(shù)據(jù)統(tǒng)計(jì)值;Δηi為信號(hào)調(diào)整前后概率變化,包括分別為式(6)中4 種概率的變化量
根據(jù)式(5)和式(7),獲取公交線路人均延誤變化量為
式中:為公交乘客承載量,可以通過(guò)上下車刷卡數(shù)據(jù)獲??;qi為社會(huì)車輛流量;M為公交車輛總數(shù)。
通過(guò)式(6)可以獲取公交在每個(gè)交叉口不停車通過(guò)的概率,對(duì)全線路而言,公交在交叉口停車次數(shù)的變化量為
根據(jù)式(8)和式(9),結(jié)合歸一化分析可得本文獎(jiǎng)懲函數(shù)為
式中:φ1,φ2∈(0,1) 為權(quán)重系數(shù),需要根據(jù)優(yōu)化意圖自主設(shè)置;r為獎(jiǎng)懲值;δ1(Yy),δ2(Ys)分別為人均延誤變化量和公交交叉口停車次數(shù)變化量的歸一化表達(dá)。
模型的環(huán)境構(gòu)建是獲取動(dòng)作執(zhí)行后下一輪狀態(tài)及獎(jiǎng)懲值的關(guān)鍵所在,本文通過(guò)仿真動(dòng)態(tài)獲取動(dòng)作評(píng)估參數(shù)。選取云南省昆明市環(huán)城南路某路段作為真實(shí)場(chǎng)景構(gòu)建Vissim 仿真環(huán)境,該路段長(zhǎng)約1.3 km,主要包括4個(gè)交叉口,信號(hào)控制主要分為早高峰(7:00-10:00)、日間(10:00-16:30)、晚高峰(16:30-20:30)、夜間(20:30-7:00)這4個(gè)階段,控制方案均為兩相位,具體如表1所示。
表1 路口信號(hào)配時(shí)表Table 1 Intersection signal timetable
設(shè)置α=0.05,認(rèn)為人均延誤變化和停車次數(shù)變化的權(quán)重同等重要,故φ1=φ2=0.5,測(cè)試路段的交叉口數(shù)量n=4,各交叉口的最大綠燈時(shí)間高峰時(shí)段依次為75,95,75,75 s,其他時(shí)段依次為60,65,60,60 s,最小綠燈時(shí)間全天依次為28,28,28,28 s。主要依靠車載GPS設(shè)備獲取,測(cè)試區(qū)域內(nèi)公交車輛運(yùn)行時(shí)段為6:30-23:30。通過(guò)視頻采集和人工調(diào)研的方式,采集測(cè)試路段的動(dòng)態(tài)交通信息,具體如圖3所示。
圖3 交通流量分析Fig.3 Traffic flow analysis
分析公交運(yùn)行特性,獲取干線協(xié)調(diào)相位差(夜間時(shí)段僅選取公交運(yùn)行時(shí)段范圍內(nèi)數(shù)據(jù)),如表2所示。可以發(fā)現(xiàn),公交車輛干線因公交駐站時(shí)間影響,其相位差與社會(huì)車輛相位差存在較大差異。
表2 干線相位差對(duì)比Table 2 Phase difference comparison
根據(jù)道路交通組織構(gòu)建交通仿真模型,基于Vissim軟件的二次開(kāi)發(fā),實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)決策求解與仿真模型的實(shí)時(shí)交互,建模效果如圖4所示。
圖4 交通仿真模型Fig.4 Traffic simulation model
如圖5所示,DDPG 由Actor 決策網(wǎng)絡(luò)和Critic評(píng)價(jià)網(wǎng)絡(luò)組成。Actor決策網(wǎng)絡(luò)包括在線決策網(wǎng)絡(luò)和目標(biāo)決策網(wǎng)絡(luò)兩部分,采用確定性決策,用以從當(dāng)前狀態(tài)獲取下一步動(dòng)作,并在取值范圍內(nèi)隨機(jī)取值A(chǔ)t作為動(dòng)作量;Critic 評(píng)價(jià)網(wǎng)絡(luò)主要包括在線Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)兩部分,使用式(8)衡量所采取動(dòng)作的優(yōu)劣。
圖5 DDPG算法流程圖Fig.5 DDPG algorithm flowchart
算法執(zhí)行步驟如下:
初始化系統(tǒng)參數(shù),包括網(wǎng)絡(luò)參數(shù),獎(jiǎng)懲函數(shù)等。
fort=1 toT
(1)每當(dāng)干線路段Δq發(fā)生改變時(shí),算法開(kāi)始下一次迭代,并確定狀態(tài)St;
(2)結(jié)合調(diào)整約束和隨機(jī)噪聲,確定決策動(dòng)作At;
(3)仿真環(huán)境執(zhí)行決策動(dòng)作At,得到新一輪的獎(jiǎng)懲值rt和新的狀態(tài)St+1;
(4)如果樣本池溢出,按照時(shí)間順序刪除最早樣本記錄;
(5)Actor 網(wǎng)絡(luò)將信息(St,At,rt,St+1)放入到經(jīng)驗(yàn)回放,作為在線網(wǎng)絡(luò)的訓(xùn)練集;
(6)從經(jīng)驗(yàn)回放中進(jìn)行采樣,獲取N個(gè)(St,At,rt,St+1) 作為在線決策網(wǎng)絡(luò)和Q 網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù);
(7)基于標(biāo)準(zhǔn)BP方法計(jì)算在線Q網(wǎng)絡(luò)梯度;
(8)更新在線Q網(wǎng)絡(luò)參數(shù)θe;
(9)計(jì)算決策網(wǎng)絡(luò)的決策梯度(Policy Gradient,PG);
(10)更新在線決策網(wǎng)絡(luò)參數(shù)θn;
(11)更新目標(biāo)網(wǎng)絡(luò)的n1,e1。end for iterative calculation
兼顧學(xué)習(xí)速率和之前保留訓(xùn)練效果的需求、平衡經(jīng)驗(yàn)及獎(jiǎng)勵(lì)的重視程度,經(jīng)過(guò)多次試驗(yàn),本文折扣因子γ=0.9,迭代次數(shù)T=7000,Actor和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為10-4和10-5,隱藏層采用3 個(gè)全連接網(wǎng)絡(luò),神經(jīng)元個(gè)數(shù)為512,經(jīng)驗(yàn)池大小為103,批量為32,初始方差和最小方差分別為1.80和0.02,衰減率為10-4。圖6為DDPG訓(xùn)練結(jié)果。
圖6 DDPG訓(xùn)練結(jié)果Fig.6 DDPG train results
從圖6可知,前500次迭代,DDPG模型獲得的獎(jiǎng)勵(lì)變化并不明顯,并且相應(yīng)的動(dòng)作決策波動(dòng)也非常大;500~3000 次迭代時(shí),模型進(jìn)入快速搜索學(xué)習(xí)階段,動(dòng)作決策波動(dòng)和平均累計(jì)獎(jiǎng)勵(lì)也逐漸趨于穩(wěn)定;3000次迭代以后,模型逐漸趨于穩(wěn)定,每次迭代的獎(jiǎng)勵(lì)變化量逐漸減少,說(shuō)明模型處于收斂狀態(tài),且訓(xùn)練收斂效果良好。
設(shè)置社會(huì)車輛干線協(xié)調(diào)、專用道公交干線協(xié)調(diào)、本文干線協(xié)調(diào)3組對(duì)比實(shí)驗(yàn),通過(guò)真實(shí)場(chǎng)景交通仿真進(jìn)行案例分析。仿真發(fā)現(xiàn),本文干線協(xié)調(diào)控制的目標(biāo)值在各階段均為最優(yōu),比其他兩種干線協(xié)調(diào)方式,分別提升29.77%和8.11%,具體如圖7所示。
圖7 獎(jiǎng)懲函數(shù)值rFig.7 Optimization objective function value
如圖8所示,社會(huì)車輛干線、公交車輛干線、本文干線協(xié)調(diào)控制狀態(tài)下的公交交叉口平均停車次數(shù)分別為2.30,1.06,1.10 次,說(shuō)明本文干線協(xié)調(diào)控制能夠較好地保障公交運(yùn)行效率。分析3 種狀態(tài)下的道路人均延誤發(fā)現(xiàn),公交車輛干線、社會(huì)車輛干線、本文干線協(xié)調(diào)控制的全天平均延誤分別為17.63,14.91,10.82 s,本文方法比前兩者分別優(yōu)化提升38.63%、27.43%,說(shuō)明本文方法能夠在提高公交通行效率的同時(shí)降低對(duì)社會(huì)車輛的負(fù)面影響。
圖8 交通仿真結(jié)果Fig.8 Traffic simulation results
本文從社會(huì)車輛干線協(xié)調(diào)需求和公交車輛干線優(yōu)先需求兼容的角度,構(gòu)建了基于深度強(qiáng)化學(xué)習(xí)的綜合干線協(xié)調(diào)控制方法,線路人均延誤比于單一社會(huì)車輛干線協(xié)調(diào)、公交車輛干線協(xié)調(diào)分別優(yōu)化提升38.63%、27.43%。通過(guò)實(shí)際場(chǎng)景仿真測(cè)試發(fā)現(xiàn):本文干線協(xié)調(diào)控制方法突破了單一綠波協(xié)調(diào)方案的局限性,適用于高維連續(xù)交通狀態(tài)下的深度強(qiáng)化學(xué)習(xí)框架,實(shí)現(xiàn)連續(xù)狀態(tài)及連續(xù)動(dòng)作下的實(shí)時(shí)決策求解。