国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)交通信號(hào)控制研究

2022-09-01 07:25:42徐建閩周湘鵬首艷芳
關(guān)鍵詞:適應(yīng)控制綠燈交叉口

徐建閩,周湘鵬,首艷芳

(1. 華南理工大學(xué) 土木與交通學(xué)院,廣東 廣州 510640; 2. 華南理工大學(xué) 廣州現(xiàn)代產(chǎn)業(yè)技術(shù)研究院, 廣東 廣州 510640)

0 引 言

交通信號(hào)控制分為定時(shí)控制,感應(yīng)控制和自適應(yīng)控制,而定時(shí)控制和感應(yīng)控制效率較低,靈活性不強(qiáng)。隨著車聯(lián)網(wǎng)和人工智能技術(shù)的發(fā)展,自適應(yīng)交通控制逐漸成為了研究熱點(diǎn)。

傳統(tǒng)的自適應(yīng)交通信號(hào)控制方法主要有基于交通流預(yù)測(cè)的控制方法和基于數(shù)學(xué)模型的控制方法。郭海鋒等[1]依據(jù)歷史交通流量制定了交通狀態(tài)-信號(hào)周期模板,以預(yù)測(cè)的交通量為依據(jù)調(diào)整信號(hào)周期和綠信比;徐建閩等[2]先使用K近鄰算法預(yù)測(cè)短時(shí)交通量,然后建立模型求解信號(hào)周期,再根據(jù)各相位交通狀態(tài)、最大綠燈時(shí)間確定是否延長(zhǎng)相位進(jìn)行自適應(yīng)控制?;诮煌A(yù)測(cè)的自適應(yīng)交通控制算法的控制效果依賴于預(yù)測(cè)算法的精度且采用的交通信息較為單一,效果有限。目前有多種基于數(shù)學(xué)模型的自適應(yīng)控制方法。LI Lubing等[3]使用兩階段法以延誤為優(yōu)化目標(biāo)建立優(yōu)化模型實(shí)現(xiàn)隨機(jī)需求下的自適應(yīng)信號(hào)控制;Y.LI等[4]采用多目標(biāo)優(yōu)化的方法實(shí)時(shí)優(yōu)化延誤時(shí)間,排隊(duì)長(zhǎng)度,污染排放?;跀?shù)學(xué)模型的自適應(yīng)控制方法結(jié)合多種因素對(duì)道路信號(hào)配時(shí)進(jìn)行分析,但只考慮了當(dāng)前狀態(tài)下的最優(yōu)控制動(dòng)作。

強(qiáng)化學(xué)習(xí)交通控制方法通過探索試錯(cuò)使信號(hào)控制機(jī)能作出最大化獎(jiǎng)勵(lì)值的相位動(dòng)作以期實(shí)現(xiàn)交叉口的最優(yōu)控制,控制效果往往優(yōu)于非學(xué)習(xí)型自適應(yīng)控制方法。盧守峰等[5]分別對(duì)定周期和不定周期模式下的強(qiáng)化學(xué)習(xí)控制方法進(jìn)行了研究,并與定時(shí)控制方法進(jìn)行了對(duì)比;F.RASHEED等[6]、S.TOUHBI等[7]以排隊(duì)長(zhǎng)度和當(dāng)前信號(hào)狀態(tài)為輸入,并分析了多種自適應(yīng)控制策略,結(jié)果表明,基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)控制方法能取得更低的延誤和排隊(duì)長(zhǎng)度;A.G.ROAN等[8]使用了一種基于時(shí)間差分的強(qiáng)化學(xué)習(xí)方法,并使用了連續(xù)時(shí)間馬爾可夫過程進(jìn)行多路交叉口的信號(hào)控制;賴建輝[9]、孫浩等[10]采用高維離散化模型作為輸入,并對(duì)強(qiáng)化學(xué)習(xí)算法進(jìn)行了改進(jìn)以研究其收斂性和控制效果。

為了進(jìn)一步提高交叉口通行效率,并考慮到動(dòng)作空間的影響,提出了一種改進(jìn)的D3QN自適應(yīng)信號(hào)控制方法,使用不定步長(zhǎng)動(dòng)作控制模式同時(shí)輸出相位和綠燈時(shí)間,分析了在穩(wěn)定流和隨機(jī)流場(chǎng)景下的收斂性和控制效果,有效地降低了交叉口延誤時(shí)間和排隊(duì)長(zhǎng)度。

1 系統(tǒng)模型與算法設(shè)計(jì)

1.1 強(qiáng)化學(xué)習(xí)交通控制

強(qiáng)化學(xué)習(xí)交通控制機(jī)以ε-greedy規(guī)則探索動(dòng)作(信號(hào)機(jī)以概率1-ε使用最大Q值對(duì)應(yīng)的相位動(dòng)作,以概率ε隨機(jī)選擇相位),在不斷的探索與試錯(cuò)中最大化期望獎(jiǎng)勵(lì)值為:

(1)

式中:rt為時(shí)刻t執(zhí)行相位動(dòng)作后得到的獎(jiǎng)勵(lì)值;信號(hào)控制機(jī)時(shí)刻t得到的獎(jiǎng)勵(lì)值在時(shí)刻τ衰減為γτ-trt,其中γ∈[0,1]為衰減系數(shù),由于城市道路交通的高時(shí)間關(guān)聯(lián)性,γ取值為0.95。

控制機(jī)通過策略π選擇相位動(dòng)作,采用相位動(dòng)作效用函數(shù)表示某一時(shí)刻交通狀態(tài)s下采取動(dòng)作a獲得的效用值為:

Qπ(s,a)=Ea~π(s)[r+γVπ(s′)]

(2)

式中:s′為狀態(tài)s后可能的狀態(tài);Ea~π(s)為策略π下的累計(jì)期望;r為狀態(tài)s下采取動(dòng)作a獲得的獎(jiǎng)勵(lì)值;Vπ(s′)表示交通控制策略π在交通狀態(tài)s′下的價(jià)值。

而交通狀態(tài)s下的估計(jì)價(jià)值Vπ(s)可根據(jù)式(3)求得:

Vπ(s)=Rs+γ∑Pss′Vπ(s′)

(3)

式中:Pss′為從交通狀態(tài)s轉(zhuǎn)移到交通狀態(tài)s′的概率;Rs為狀態(tài)s下獲得的即時(shí)獎(jiǎng)勵(lì),通過Bellman方程不斷迭代以優(yōu)化信號(hào)控制策略π。

1.2 改進(jìn)的D3QN控制方法

由于在線學(xué)習(xí)的方法會(huì)導(dǎo)致嚴(yán)重的交通擁堵,通過離線學(xué)習(xí)訓(xùn)練得到的模型進(jìn)行交通控制。首先生成一個(gè)隨機(jī)初始化交通控制策略π,將檢測(cè)到的交叉口狀態(tài)輸入到信號(hào)控制策略π,策略π輸出下一相位動(dòng)作,信號(hào)燈執(zhí)行此相位動(dòng)作后反饋給智能體一個(gè)獎(jiǎng)勵(lì)值以更新策略π,經(jīng)過多次迭代最終收斂,獲得最優(yōu)策略π*。一般情況下信號(hào)控制策略可由Q表表示,當(dāng)交叉口交通狀態(tài)很復(fù)雜時(shí),使用Q表作出相位動(dòng)作決策會(huì)出現(xiàn)維度爆炸的問題,使用神經(jīng)網(wǎng)絡(luò)擬合相位動(dòng)作效用函數(shù)如DQN(深度Q神經(jīng)網(wǎng)絡(luò))可解決此問題。神經(jīng)網(wǎng)絡(luò)參數(shù)為θ,信號(hào)控制機(jī)在交通狀態(tài)s下使用相位動(dòng)作a的實(shí)際價(jià)值為y*,Q(s′,a′;θ)為神經(jīng)網(wǎng)絡(luò)θ在交通狀態(tài)s下采取相位動(dòng)作a的估計(jì)值,則有:

(4)

式中:a′為狀態(tài)s′下采用的動(dòng)作。

以最小化時(shí)序差分誤差δ優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)θ:

δ=y*-Qπ(s,a)

(5)

Li(θ)=Ea~π(s)(δ2)

(6)

為避免Q值過高的估計(jì),將相位動(dòng)作選擇和相位動(dòng)作價(jià)值的估計(jì)解耦,在Double DQN中估計(jì)Q值的計(jì)算公式為:

(7)

其中θ和θ-分別為原神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò)。

為保證信號(hào)控制算法快速收斂,將狀態(tài)-價(jià)值對(duì)作為兩部分輸出。DQN的輸出是相位動(dòng)作效用函數(shù)的值,輸出層的前一層是全聯(lián)接層,而Dueling DQN把全聯(lián)接層分成兩股,分別估算交通狀態(tài)價(jià)值Vπ(s)和當(dāng)前交通狀態(tài)下各相位動(dòng)作優(yōu)勢(shì)值A(chǔ)π(s,a),所以相位動(dòng)作效用函數(shù)為:

Qπ(s,a)=Vπ(s)+Aπ(s,a)

(8)

其中滿足:

(9)

為了解決樣本間的相關(guān)性過大的問題,D3QN訓(xùn)練樣本從經(jīng)驗(yàn)池中直接抽取產(chǎn)生,每個(gè)樣本被選擇的概率是相等的。但這種采樣方式無(wú)法區(qū)分樣本的重要性,導(dǎo)致一些重要的信息得不到充分利用,可以通過改進(jìn)抽樣方法加快算法的訓(xùn)練效率,采用和樹的方法進(jìn)行樣本抽取。將時(shí)序差分誤差的絕對(duì)值|δ|作為優(yōu)先級(jí)值存儲(chǔ)于和樹的葉子節(jié)點(diǎn),然后根據(jù)優(yōu)先級(jí)的和與抽樣數(shù)獲取抽樣區(qū)間數(shù),并在每個(gè)區(qū)間隨機(jī)抽取一個(gè)數(shù),從根節(jié)點(diǎn)向下搜索對(duì)應(yīng)葉子節(jié)點(diǎn),如此從樣本池抽取到的個(gè)體即為訓(xùn)練樣本。

此外,算法根據(jù)ε-greedy策略選擇的動(dòng)作為策略輸出,信號(hào)燈執(zhí)行完輸出的動(dòng)作便返回一個(gè)獎(jiǎng)勵(lì)值繼續(xù)下一步迭代。為了平衡算法探索與利用之間的關(guān)系,筆者采用了一種基于獎(jiǎng)勵(lì)值序列的自適應(yīng)探索因子,算法的探索因子依據(jù)最近一段連續(xù)動(dòng)作序列獲得的平均獎(jiǎng)勵(lì)值確定。探索因子ε取值為:

(10)

(11)

2 強(qiáng)化學(xué)習(xí)自適應(yīng)控制策略

為使模型輸入準(zhǔn)確地表達(dá)交通狀態(tài),輸入狀態(tài)向量由兩部分組成。第1部分表示交叉口當(dāng)前信號(hào)燈狀態(tài),為1組one-hot向量。第2部分通過對(duì)交叉口各車道進(jìn)行分段處理以獲得各車道狀態(tài)[11]。對(duì)于車道x,其長(zhǎng)度為l,將其分成k小段,每小段長(zhǎng)度為l/k,其中,記車道x第y小段車輛數(shù)為ux,y,車道x第y小段的平均車速為vx,y,所以交叉口各車道狀態(tài)為(u1,1,v1,1,…,ux,y,vx,y,…,ue,k,ve,k),其中e為交叉口車道數(shù)。因此,文中方法狀態(tài)向量長(zhǎng)度為2ek+|P|,|P|為交叉口相位數(shù)。

2.1 強(qiáng)化學(xué)習(xí)自適應(yīng)信號(hào)控制模式

2.1.1 定周期自適應(yīng)控制

定周期自適應(yīng)控制是強(qiáng)化學(xué)習(xí)自適應(yīng)控制中的一種模式。該模式計(jì)算出最佳周期時(shí)間,給定統(tǒng)一的最小綠燈時(shí)間和最大綠燈時(shí)間,輸入交叉口交通狀態(tài),輸出下一周期的相位方案。定周期控制每隔最佳周期采集一次交通狀態(tài),輸出信號(hào)配時(shí)方案,但是該模式下動(dòng)作空間隨著相位的增加而指數(shù)級(jí)擴(kuò)大,只適合兩相位的小型交叉口。

2.1.2 固定步長(zhǎng)動(dòng)作控制

給定最小綠燈時(shí)間gmin,智能體每隔時(shí)間步長(zhǎng)Δt對(duì)交通狀態(tài)進(jìn)行一次采集作為深度Q神經(jīng)網(wǎng)絡(luò)的輸入,輸出n個(gè)動(dòng)作(對(duì)應(yīng)n個(gè)相位)的Q值,選擇最大Q值對(duì)應(yīng)的相位,當(dāng)選擇的相位與當(dāng)前運(yùn)行相位一致時(shí),在當(dāng)前相位運(yùn)行時(shí)間步長(zhǎng)Δt,當(dāng)選擇的相位與當(dāng)前運(yùn)行相位不一致時(shí),運(yùn)行黃燈時(shí)間b秒后在新相位上運(yùn)行Δt-b秒。然后再次采集環(huán)境的狀態(tài)值,輸入神經(jīng)網(wǎng)絡(luò),確定下一時(shí)間步長(zhǎng)Δt的相位動(dòng)作。信號(hào)機(jī)每隔固定時(shí)間步長(zhǎng)Δt對(duì)相位進(jìn)行一次決策。固定步長(zhǎng)動(dòng)作控制模式中,交通狀態(tài)采集間隔受最小綠燈時(shí)間gmin約束,Δt滿足約束為:

Δt≥gmin+b

(12)

2.1.3 不定步長(zhǎng)動(dòng)作控制

給定最小綠燈時(shí)間gmin,首先根據(jù)實(shí)用信號(hào)周期公式計(jì)算最小周期時(shí)間為:

(13)

(14)

智能體根據(jù)當(dāng)前輸入的狀態(tài)向量輸出下一相位動(dòng)作at,所以下一相位pt為:

(15)

綠燈時(shí)間gpt為:

(16)

在相位pt運(yùn)行一個(gè)綠燈持續(xù)時(shí)間gpt后,環(huán)境將狀態(tài)反饋給智能體,獲取下一個(gè)相位pt′及綠燈持續(xù)時(shí)間gpt′。

2.2 獎(jiǎng)勵(lì)函數(shù)

排隊(duì)長(zhǎng)度是評(píng)價(jià)交叉口運(yùn)行效率的一個(gè)重要指標(biāo),不同于定時(shí)控制,在強(qiáng)化學(xué)習(xí)自適應(yīng)交通控制中,信號(hào)控制機(jī)頻繁地切換相位也能降低交叉口的排隊(duì)長(zhǎng)度,所以在以排隊(duì)長(zhǎng)度作為獎(jiǎng)勵(lì)函數(shù)時(shí)往往需要考慮相位的切換。以各相位對(duì)應(yīng)車道的最大空間占有率之和為優(yōu)化目標(biāo)可以解決此問題,降低交叉口各相位的空間占有率等價(jià)于路網(wǎng)流量輸入一定的前提下,使交叉口各相位滯留的車輛最少?;诳臻g占有率的獎(jiǎng)勵(lì)函數(shù)在t時(shí)刻得到的獎(jiǎng)勵(lì)值Rt為:

(17)

其中:

(18)

2.3 訓(xùn)練迭代過程

研究的城市交叉口有4個(gè)相位且流量較大,不適合采用定周期自適應(yīng)控制模式。不定步長(zhǎng)動(dòng)作控制和固定步長(zhǎng)動(dòng)作控制分別對(duì)應(yīng)不同的訓(xùn)練迭代流程。固定步長(zhǎng)動(dòng)作的訓(xùn)練迭代流程為:

Step 1總迭代次數(shù)為T,初始化當(dāng)前迭代次數(shù)t=0,神經(jīng)網(wǎng)絡(luò)訓(xùn)練間隔ttrain,目標(biāo)神經(jīng)網(wǎng)絡(luò)更新間隔ttarget,訓(xùn)練選取樣本數(shù)為batch_size。

Step 2獲取當(dāng)前交通狀態(tài)st,神經(jīng)網(wǎng)絡(luò)輸出各相位對(duì)應(yīng)的Q值,選擇最大Q值對(duì)應(yīng)的相位at。

Step 5當(dāng)t

Step 6當(dāng)t

Step 7若t

不定步長(zhǎng)動(dòng)作的訓(xùn)練迭代流程為:

Step 1仿真總時(shí)長(zhǎng)為M,初始化當(dāng)前迭代次數(shù)t=0,神經(jīng)網(wǎng)絡(luò)訓(xùn)練間隔ttrain,目標(biāo)神經(jīng)網(wǎng)絡(luò)更新間隔ttarget。

Step 2獲取當(dāng)前交通狀態(tài)st,神經(jīng)網(wǎng)絡(luò)輸出各相位動(dòng)作對(duì)應(yīng)的Q值,選擇最大Q值對(duì)應(yīng)的動(dòng)作at,根據(jù)at確定下一相位pt和下一相位綠燈時(shí)間gpt。

Step 5當(dāng)前仿真時(shí)間m

Step 6當(dāng)前仿真時(shí)間m

Step 7若當(dāng)前仿真時(shí)間m

3 算例分析

3.1 實(shí)驗(yàn)準(zhǔn)備

Sumo是一個(gè)開源的、空間上連續(xù)、時(shí)間上離散的微觀交通仿真軟件[12],使用Sumo對(duì)興中大道與松苑路交叉口(交叉口渠化如圖1)的交通信號(hào)控制進(jìn)行研究,該交叉口一共有4個(gè)相位(圖2)。交叉口流量見表1。

圖1 交叉口渠化Fig. 1 Channelization of the intersection

圖2 交叉口相位相序Fig. 2 Phase sequence of the intersection

表1 交叉口流量Table 1 Traffic flow of the intersection

表2 超參數(shù)設(shè)置Table 2 Hyperparameters setting

分別在穩(wěn)定流和隨機(jī)流的場(chǎng)景下進(jìn)行仿真訓(xùn)練,一共仿真訓(xùn)練60回合,每回合仿真運(yùn)行25 000 s。其中隨機(jī)流服從均值為穩(wěn)定流交通量的二項(xiàng)分布,各車道每秒以相應(yīng)概率輸入車輛進(jìn)行仿真。

3.2 實(shí)驗(yàn)結(jié)果

為驗(yàn)證文中方法的收斂性,將筆者方法與原D3QN算法進(jìn)行收斂性對(duì)比,圖3為2種算法在穩(wěn)定流場(chǎng)景下每回合的獎(jiǎng)勵(lì)值變化,圖4為2種算法在隨機(jī)流場(chǎng)景下每回合的獎(jiǎng)勵(lì)值變化。從圖4和圖5可知,改進(jìn)的D3QN算法收斂性優(yōu)于原D3QN算法。

圖3 穩(wěn)定流下的獎(jiǎng)勵(lì)值Fig. 3 Rewards under stable flow

圖4 隨機(jī)流下的獎(jiǎng)勵(lì)值Fig. 4 Rewards under stochastic flow

由于已有的強(qiáng)化學(xué)習(xí)自適應(yīng)控制方法多采用固定步長(zhǎng)動(dòng)作模式,在強(qiáng)化學(xué)習(xí)固定步長(zhǎng)動(dòng)作模式中,時(shí)間步長(zhǎng)Δt不應(yīng)過長(zhǎng),考慮到最小綠燈時(shí)間,分別取Δt為8、9、10 s,仿真結(jié)果圖5表明在固定步長(zhǎng)動(dòng)作控制模式中,時(shí)間步長(zhǎng)Δt為8 s時(shí)控制效果最優(yōu),更高的交通狀態(tài)采集頻率對(duì)應(yīng)更好的信號(hào)控制效果。不定步長(zhǎng)動(dòng)作模式各個(gè)相位綠燈時(shí)間取值范圍如表3。

表3 各相位綠燈時(shí)間取值范圍Table 3 Value range of green light time of each phase

圖5 不同時(shí)間步長(zhǎng)控制延誤時(shí)間Fig. 5 Control delay time with different time steps

為進(jìn)一步驗(yàn)證文中方法的效果,將文中方法與韋伯斯特法、固定步長(zhǎng)控制、文獻(xiàn)[13]方法進(jìn)行對(duì)比,并使用不同的隨機(jī)數(shù)種子進(jìn)行仿真取平均值,采集連續(xù)1 h的延誤時(shí)間和排隊(duì)長(zhǎng)度。表4為4種控制方法在穩(wěn)定流和隨機(jī)流場(chǎng)景下的延誤時(shí)間和排隊(duì)長(zhǎng)度,顯然,穩(wěn)定流場(chǎng)景下的延誤時(shí)間和排隊(duì)長(zhǎng)度均優(yōu)于隨機(jī)流場(chǎng)景。兩種場(chǎng)景中,筆者方法均能獲得最優(yōu)控制效果,與其他3種方法相比,延誤時(shí)間分別平均降低了26.2%、15.2%、11.4%,排隊(duì)長(zhǎng)度分別平均降低了20.1%、13.3%、11.6%。

表4 控制效果對(duì)比Table 4 Comparison of contral effect

4 結(jié) 語(yǔ)

提出了一種改進(jìn)的D3QN自適應(yīng)交通信號(hào)控制方法,使用不定步長(zhǎng)動(dòng)作控制模式同時(shí)輸出相位和綠燈時(shí)間,構(gòu)造了以空間占有率為優(yōu)化目標(biāo)的獎(jiǎng)勵(lì)函數(shù)。相比于已有方法,文中方法的收斂性得到了提升,延誤時(shí)間和排隊(duì)長(zhǎng)度得到了優(yōu)化。

此次研究的對(duì)象是混合車流在單交叉口的自適應(yīng)控制,下一步研究可以區(qū)域路網(wǎng)為研究對(duì)象,綜合自適應(yīng)控制與綠波協(xié)調(diào)控制,結(jié)合車路協(xié)同技術(shù),對(duì)路網(wǎng)的交通狀態(tài)進(jìn)行優(yōu)化并對(duì)其進(jìn)行評(píng)價(jià);也可以某一類車輛如公交車輛為研究對(duì)象進(jìn)行公交優(yōu)先控制以期改善公交信號(hào)控制效果,提高城市公共交通運(yùn)行效率。

猜你喜歡
適應(yīng)控制綠燈交叉口
為什么紅燈停,綠燈行
采用自適應(yīng)控制的STATCOM-SEIG系統(tǒng)Matlab仿真
信號(hào)交叉口延誤參數(shù)獲取綜述
紅燈停,綠燈行
考慮執(zhí)行器飽和的改進(jìn)無(wú)模型自適應(yīng)控制
一種Y型交叉口設(shè)計(jì)方案的選取過程
基于 L1自適應(yīng)控制的無(wú)人機(jī)橫側(cè)向控制
Rucklidge混沌系統(tǒng)的自適應(yīng)控制
考慮黃燈駕駛行為的城市交叉口微觀仿真
基于VISSIM的交叉口改善評(píng)價(jià)研究
河南科技(2014年14期)2014-02-27 14:12:02
基隆市| 陆良县| 萝北县| 荆州市| 海林市| 延庆县| 昭平县| 库尔勒市| 邹平县| 清涧县| 黄骅市| 原平市| 浙江省| 蕲春县| 惠东县| 沅江市| 禹州市| 宁德市| 阳信县| 莲花县| 鄂伦春自治旗| 潮州市| 焦作市| 新昌县| 克拉玛依市| 南皮县| 祁阳县| 东宁县| 班戈县| 鄄城县| 时尚| 娄底市| 黄大仙区| 新蔡县| 米易县| 修文县| 浑源县| 榆社县| 南开区| 屏东县| 吴旗县|