国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于車輛誘導(dǎo)的交通燈動(dòng)態(tài)配時(shí)算法研究

2017-11-03 08:14趙佳文趙云志
關(guān)鍵詞:交通燈獎(jiǎng)懲交叉口

文 峰,趙佳文,趙云志

(沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,沈陽(yáng) 110159)

基于車輛誘導(dǎo)的交通燈動(dòng)態(tài)配時(shí)算法研究

文 峰,趙佳文,趙云志

(沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,沈陽(yáng) 110159)

隨著城市交通流量日益增加,現(xiàn)有的交通燈固定時(shí)間控制系統(tǒng)不能很好解決交通擁堵問題。針對(duì)這一背景,采用基于Q_學(xué)習(xí)的交通燈控制策略(QTGCS)對(duì)交通燈進(jìn)行動(dòng)態(tài)配時(shí),以減少車輛在交叉口的平均等待時(shí)間,通過模糊邏輯控制根據(jù)車輛誘導(dǎo)信息對(duì)Q_學(xué)習(xí)的動(dòng)作選擇進(jìn)行優(yōu)化(FQTGCS),以提高Q_學(xué)習(xí)算法的收斂速度。實(shí)驗(yàn)結(jié)果表明,所采用的交通燈控制策略可以很好地解決交通擁堵問題,能更好地提高交通系統(tǒng)的性能。

交通燈控制;Q_學(xué)習(xí);模糊邏輯控制

隨著我國(guó)城市現(xiàn)代化進(jìn)程的不斷推進(jìn),交通問題成為影響我國(guó)社會(huì)發(fā)展的一個(gè)大問題,而城市道路交通問題的核心就是交通燈控制系統(tǒng)和車輛誘導(dǎo)系統(tǒng)。常見的車輛誘導(dǎo)系統(tǒng)基于最短路徑策略,常見的交通燈控制系統(tǒng)基于固定時(shí)間配置策略(FTGCS),這種配時(shí)策略存在交叉口車輛較少的相位為綠燈和車輛較多的相位為紅燈的問題。

越來越多的學(xué)者致力于智能交通系統(tǒng)的研究,提出很多交通燈控制策略。文獻(xiàn)[1-2]通過模糊邏輯控制對(duì)交叉口車道隊(duì)列長(zhǎng)度進(jìn)行模糊得到配時(shí)方案對(duì)交通燈進(jìn)行控制。文獻(xiàn)[3-4]通過強(qiáng)化學(xué)習(xí)算法利用Agent與環(huán)境交互為交通燈選擇最優(yōu)動(dòng)作。文獻(xiàn)[5-8]通過Q_學(xué)習(xí)算法與環(huán)境交互,并且利用模糊邏輯控制對(duì)當(dāng)前交叉口的隊(duì)列長(zhǎng)度進(jìn)行模糊化或者對(duì)Q_學(xué)習(xí)的回報(bào)函數(shù)進(jìn)行模糊化,來選擇交通燈的最優(yōu)動(dòng)作,模糊邏輯控制主要應(yīng)用在Q_學(xué)習(xí)狀態(tài)空間的劃分。

在實(shí)際的交通控制策略中,交通燈控制策略和車輛誘導(dǎo)策略在信息產(chǎn)生、數(shù)據(jù)處理和策略實(shí)施等多個(gè)方面應(yīng)相互協(xié)同。本文提出一種由環(huán)境狀態(tài)到動(dòng)作映射的Q_學(xué)習(xí)方法,應(yīng)用到交通燈動(dòng)態(tài)配時(shí)中,并且通過模糊邏輯控制根據(jù)車輛誘導(dǎo)信息得到當(dāng)前交通燈與協(xié)同交通燈的數(shù)據(jù)對(duì)Q_學(xué)習(xí)的動(dòng)作選擇進(jìn)行優(yōu)化,可以提高Q_學(xué)習(xí)算法的收斂速度,達(dá)到提升智能交通系統(tǒng)性能的效果。

1 模型及問題分析

1.1 交通燈相位模型

交通燈相位是指一個(gè)交叉口某個(gè)或某些方向的交通流同時(shí)得到通行權(quán)的時(shí)間帶。本文相位方案有:三相位方案,如圖1所示;四相位方案,如圖2所示。每個(gè)相位包含左轉(zhuǎn)、右轉(zhuǎn)、直行、調(diào)頭。

圖1 三岔口相位

圖2 四岔口相位

1.2 多智能體

多智能體系統(tǒng)(MAS,Multi-Agent-System)是多個(gè)智能體組成的集合,它的目標(biāo)是將大而復(fù)雜的系統(tǒng)轉(zhuǎn)變成小的、彼此互相通信和協(xié)調(diào)的、易于管理的系統(tǒng)。

1.3 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)過程中Agent判斷當(dāng)前狀態(tài),選擇一個(gè)動(dòng)作作用于環(huán)境,環(huán)境在動(dòng)作的影響下發(fā)生變化,并反饋給Agent一個(gè)獎(jiǎng)懲值,Agent根據(jù)獎(jiǎng)懲值進(jìn)行下一個(gè)動(dòng)作的選擇,即Agent通過不斷試錯(cuò)與環(huán)境進(jìn)行交互獲得信息。

2 交通系統(tǒng)控制策略

本文設(shè)計(jì)一種基于Q_學(xué)習(xí)的分布式交通燈控制策略。每個(gè)交通燈作為Q_學(xué)習(xí)的Agent,Agent根據(jù)交叉口車道上車輛密度(State)選擇交通燈綠燈時(shí)間作為Agent的動(dòng)作(Action),車輛在車道上的平均行駛時(shí)間成為Q_學(xué)習(xí)的回報(bào)函數(shù)值。學(xué)習(xí)系統(tǒng)與環(huán)境不斷的交互,獲得反饋值并調(diào)整狀態(tài)到動(dòng)作的映射策略。

Q_學(xué)習(xí)更新公式為

Q(s,a)=(1-α)Q(s,a)+α[R(s,a)+γQmax(s′,a′)]

(1)

式中:參數(shù)α為學(xué)習(xí)率;參數(shù)γ為折扣率;參數(shù)s為Agent的狀態(tài);參數(shù)a為Agent的動(dòng)作;R(s,a)為動(dòng)作a作用于環(huán)境的回饋值(reward);Q(s,a)為R(s,a)的累積值;Agent將根據(jù)reward值來進(jìn)行Q(s,a)的更新。

2.1 狀態(tài)描述

Q_學(xué)習(xí)的狀態(tài)定義會(huì)影響動(dòng)作選擇的好壞和交通燈的控制性能。本文根據(jù)交叉口各方向車道的車輛密度進(jìn)行描述,對(duì)于有n個(gè)方向交叉口,其狀態(tài)描述為s(d1,d2,...,dn),其中di表示第i個(gè)車道的車輛密度。

2.2 動(dòng)作選擇

本研究使用Boltzmann策略進(jìn)行動(dòng)作選擇,公式為

(2)

式中:A為交通燈的動(dòng)作集合;p[a|s]為交通燈在狀態(tài)s選擇動(dòng)作a的概率;τ為溫度參數(shù)。

基于Q_學(xué)習(xí)的交通燈控制算法流程:

步驟1 對(duì)Q_學(xué)習(xí)算法參數(shù)進(jìn)行初始化;

步驟2 Agent判斷周圍環(huán)境的狀態(tài);

步驟3 Agent根據(jù)狀態(tài),利用動(dòng)作選擇策略進(jìn)行動(dòng)作選擇;

步驟4 動(dòng)作作用于環(huán)境,環(huán)境發(fā)生變化,反饋給Agent一個(gè)獎(jiǎng)懲值,根據(jù)獎(jiǎng)懲值更新Q值;

步驟5 如未滿足停止條件,返回步驟2。

3 車輛誘導(dǎo)策略

Dijkstra算法是常見的用來解決車輛誘導(dǎo)的算法,是求從某一個(gè)節(jié)點(diǎn)到其余各個(gè)節(jié)點(diǎn)的最短路徑算法,是以貪婪策略為基礎(chǔ)的最短路徑算法。它的特點(diǎn)是以某一中心節(jié)點(diǎn)向外層節(jié)點(diǎn)逐層延伸,直到延伸至終止節(jié)點(diǎn)為止。

對(duì)系統(tǒng)中節(jié)點(diǎn)進(jìn)行標(biāo)記為(ld,vd),ld是從起始節(jié)點(diǎn)o到某一節(jié)點(diǎn)d的最短路徑長(zhǎng)度,vd表示從o到d的所確定的路徑中d節(jié)點(diǎn)的前一個(gè)節(jié)點(diǎn)。

Dijkstra算法執(zhí)行步驟如下:

(1)初始節(jié)點(diǎn)設(shè)置為:lo=0;vo等于空;所有其他點(diǎn):li=∞,vi未定義。設(shè)置源節(jié)點(diǎn)為m,記m=o,對(duì)于其他節(jié)點(diǎn)不進(jìn)行設(shè)置。

(2)通過各路徑上權(quán)重值得到節(jié)點(diǎn)m到達(dá)與其直接相連的其他所有節(jié)點(diǎn)i的距離,并設(shè)置:

li=min[li,lm+w(m,i)]

(3)

式中:w(m,i)表示節(jié)點(diǎn)m到節(jié)點(diǎn)i的最佳路徑長(zhǎng)度。

(3)進(jìn)行下一個(gè)點(diǎn)的選取,即在直接相連的節(jié)點(diǎn)中篩選出li最小的節(jié)點(diǎn)i,節(jié)點(diǎn)i視為節(jié)點(diǎn)m距離最近的點(diǎn),并對(duì)當(dāng)前點(diǎn)m和節(jié)點(diǎn)i進(jìn)行記錄。

(4)對(duì)最短路徑進(jìn)行設(shè)定,找到已記錄的節(jié)點(diǎn)i對(duì)應(yīng)一個(gè)點(diǎn)m。把mi視為起始點(diǎn)到達(dá)終止節(jié)點(diǎn)的最短路徑,并對(duì)其進(jìn)行記錄。

(5)如果所有節(jié)點(diǎn)都已經(jīng)被檢測(cè),則算法結(jié)束,否則,記m=i,跳轉(zhuǎn)到步驟(2)。

通過該算法步驟總結(jié)出,Dijkstra算法的核心是從沒有被記錄的節(jié)點(diǎn)中找到距離起始節(jié)點(diǎn)最近的節(jié)點(diǎn),并對(duì)該節(jié)點(diǎn)進(jìn)行記錄,即加入到點(diǎn)集合中。并對(duì)最短路徑的記錄進(jìn)行更新,即把新記錄的節(jié)點(diǎn)加入到最短路徑的集合中。

4 模糊邏輯控制優(yōu)化Q_學(xué)習(xí)動(dòng)作選擇模型

Q_學(xué)習(xí)以綠燈時(shí)間為動(dòng)作選擇,當(dāng)可選動(dòng)作數(shù)量少時(shí),雖然Q_學(xué)習(xí)搜索空間變小,學(xué)習(xí)過程容易收斂,但每次選擇的動(dòng)作(綠燈時(shí)間)準(zhǔn)確性降低。當(dāng)可選動(dòng)作數(shù)量多時(shí),導(dǎo)致Q_學(xué)習(xí)的搜索空間變大,不利于Q_學(xué)習(xí)算法的收斂。由于交通系統(tǒng)的每個(gè)交叉口的擁堵狀況差異性很大,本文通過模糊邏輯控制對(duì)Q_學(xué)習(xí)算法在每個(gè)交叉口的動(dòng)作選擇進(jìn)行優(yōu)化,以達(dá)到設(shè)定適當(dāng)動(dòng)作數(shù)量的基礎(chǔ)上,提升Q_學(xué)習(xí)算法的收斂速度。在每次動(dòng)作選擇時(shí),Agent根據(jù)車輛誘導(dǎo)策略中的車輛誘導(dǎo)信息實(shí)現(xiàn)多交通燈協(xié)同,即根據(jù)車輛誘導(dǎo)信息得到協(xié)同Agent對(duì)應(yīng)車道上的車輛密度,并根據(jù)協(xié)同車道的車輛密度判斷該相位的擁堵情況,對(duì)Q_學(xué)習(xí)選擇的動(dòng)作進(jìn)行優(yōu)化,協(xié)同模型如圖3所示。

圖3 協(xié)同模型

文中分別對(duì)當(dāng)前交叉口相位車輛密度、協(xié)同交叉口相位車輛密度及動(dòng)作的獎(jiǎng)懲值進(jìn)行模糊化處理,建立模糊推理規(guī)則庫(kù)。最后通過模糊推理完成對(duì)動(dòng)作的獎(jiǎng)懲值的模糊初始化。

4.1 數(shù)據(jù)模糊化

隸屬度函數(shù)的定義:若對(duì)論域U中的任一元素x,都有A(x)∈[0,1]與之對(duì)應(yīng),則稱A為U上的模糊集,A(x)是x對(duì)A的隸屬度,即模糊集合A的隸屬度函數(shù)。A(x)的值越接近1,表示x∈A的可能性越高,A(x)越接近0,x∈A的可能性越低。本文采用三角隸屬度函數(shù)。

交叉口相位車輛密度的論域?yàn)閇0,1]。車輛密度的四個(gè)模糊子集分別為“小”L、“較小”ML、“較大”MB、“大”B,各子集的隸屬度函數(shù)如圖4所示。

圖4 交叉口相位車輛密度各子集的隸屬度函數(shù)

動(dòng)作的獎(jiǎng)懲值的論域?yàn)閇-2,2]。獎(jiǎng)懲值的四個(gè)模糊子集分別為“小”S、“較小”MS、“適中”M、“較大”MB、“大”B,各子集的隸屬度函數(shù)如圖5所示。

圖5 動(dòng)作的獎(jiǎng)懲值各子集的隸屬度函數(shù)

交通燈根據(jù)當(dāng)前交叉口的車輛密度和協(xié)同交叉口的車輛密度,對(duì)選擇動(dòng)作進(jìn)行優(yōu)化,實(shí)現(xiàn)交通燈之間的協(xié)同,更好地提高交通燈控制能力。

4.2 模糊庫(kù)設(shè)計(jì)

如果當(dāng)前交叉口相位車輛密度較大,且協(xié)同交叉口相位車輛密度較小,則動(dòng)作的獎(jiǎng)懲值適中。

如果當(dāng)前交叉口相位車輛密度較小,且協(xié)同交叉口相位車輛密度較小,則動(dòng)作的獎(jiǎng)懲值較小。

這樣規(guī)則一共16個(gè),可表示為

IFVDiisVDiandVDjisVDj

THENTisTij,i=1,…,4,j=1,…,4

(4)

式中:VDi為車道i上的車輛密度。

表1為當(dāng)前交叉口和協(xié)同交叉口的車輛密度推理得到動(dòng)作獎(jiǎng)懲值模糊庫(kù)

表1 動(dòng)作獎(jiǎng)懲值模糊庫(kù)

5 仿真實(shí)驗(yàn)及結(jié)果分析

5.1 實(shí)驗(yàn)環(huán)境

為驗(yàn)證本文提出的交通燈控制策略的有效性和正確性,通過開源軟件SUMO仿真器[9]在如圖6所示路網(wǎng)上進(jìn)行仿真和實(shí)驗(yàn),通過java語(yǔ)言實(shí)現(xiàn),路網(wǎng)是美國(guó)佛蒙特州的部分路段。以基于最短路徑算法的車輛誘導(dǎo)系統(tǒng)(DVIS)為基礎(chǔ)?;赒_學(xué)習(xí)的交通燈控制策略中公式(1)的α設(shè)為0.7、γ設(shè)為0.9。

圖6 路網(wǎng)

表2仿真實(shí)驗(yàn)所在路網(wǎng)的路網(wǎng)信息。

表2 路網(wǎng)信息

本實(shí)驗(yàn)對(duì)算法進(jìn)行評(píng)價(jià)的數(shù)據(jù)為:

每100s統(tǒng)計(jì)交通系統(tǒng)中的車輛數(shù)量。

5.2 DVIS和QTGCS協(xié)同實(shí)驗(yàn)以及結(jié)果分析

DVIS中車輛根據(jù)誘導(dǎo)信息進(jìn)行路徑選擇,QTGCS中根據(jù)動(dòng)作信息對(duì)交通燈進(jìn)行控制,FTGCS中交通燈根據(jù)系統(tǒng)設(shè)置的固定時(shí)間50s進(jìn)行相位更新。DVIS和QTGCS協(xié)同得到評(píng)價(jià)數(shù)據(jù)與DVIS和FTGCS協(xié)同得到的評(píng)價(jià)數(shù)據(jù)進(jìn)行比較。

交通系統(tǒng)中的車輛數(shù)量如圖7所示。

圖7 交通系統(tǒng)中的車輛數(shù)量

從圖7可以觀測(cè)到,DVIS和QTGCS協(xié)同中得到的評(píng)價(jià)數(shù)據(jù)優(yōu)于DVIS和FTGCS協(xié)同中得到的評(píng)價(jià)數(shù)據(jù)。

實(shí)驗(yàn)結(jié)果表明,QTGCS協(xié)同可以提高交通系統(tǒng)的效率、減少系統(tǒng)中車輛的行駛時(shí)間,與傳統(tǒng)的固定配時(shí)策略相比,基于Q_學(xué)習(xí)算法的交通燈控制模型可以很好地利用路網(wǎng)中的實(shí)時(shí)信息,實(shí)現(xiàn)對(duì)交通燈綠燈時(shí)間的合理配置,達(dá)到縮短交通系統(tǒng)中車輛行駛時(shí)間和車輛延遲時(shí)間的目的。

5.3 DVIS和FQTGCS協(xié)同實(shí)驗(yàn)以及結(jié)果分析

DVIS中車輛根據(jù)誘導(dǎo)信息進(jìn)行路徑選擇,FQTGCS中根據(jù)模糊優(yōu)化后的動(dòng)作對(duì)交通燈進(jìn)行控制。DVIS和FQTGCS協(xié)同得到評(píng)價(jià)數(shù)據(jù)與DVIS和QTGCS協(xié)同得到的評(píng)價(jià)數(shù)據(jù)進(jìn)行比較。

交通系統(tǒng)中的車輛數(shù)量如圖8所示。

圖8 交通系統(tǒng)中的車輛數(shù)量

從圖8中觀測(cè)到:DVIS和FQTGCS協(xié)同中得到的評(píng)價(jià)數(shù)據(jù)優(yōu)于DVIS和QTGCS協(xié)同中得到的評(píng)價(jià)數(shù)據(jù)。

實(shí)驗(yàn)結(jié)果表明,FQTGCS可以提高交通系統(tǒng)的效率,減少系統(tǒng)中車輛的行駛時(shí)間。與QTGCS相比,利用模糊邏輯控制對(duì)Q_學(xué)習(xí)算法的動(dòng)作選擇進(jìn)行優(yōu)化的交通燈控制模型提升了Q_學(xué)習(xí)算法的收斂速度,可以更好地利用路網(wǎng)中的實(shí)時(shí)信息,實(shí)現(xiàn)交通燈綠燈時(shí)間更加合理配置,達(dá)到縮短交通系統(tǒng)中車輛行駛時(shí)間和車輛延遲時(shí)間的目的。

6 結(jié)束語(yǔ)

城市交通系統(tǒng)影響因素復(fù)雜,本文提出基于車輛誘導(dǎo)的交通燈動(dòng)態(tài)配時(shí)對(duì)交通燈進(jìn)行配時(shí)。實(shí)驗(yàn)結(jié)果表明,通過基于車輛誘導(dǎo)的交通燈控制策略減少了車輛在交叉口的等待時(shí)間和車輛到達(dá)終點(diǎn)的行駛時(shí)間。提升了交通燈的交通疏導(dǎo)能力和交通系統(tǒng)的通行能力。

[1] 段宣翡,唐澤杭.基于車流量的紅綠燈實(shí)時(shí)配時(shí)算法[J].硅谷,2013(13):52-53.

[2] 王鼎湘,李茂軍.基于車流量的交通燈智能控制算法[J].計(jì)算機(jī)應(yīng)用與軟件,2015(6):241-244.

[3] 夏新海.MDP下基于特征表示強(qiáng)化學(xué)習(xí)的自適應(yīng)交通信號(hào)控制[J].公路交通科技,2015,32(1):116-121.

[4] Prabuchandran K J,Hemanth Kumar A N,Bhatnagar S.Multi-Agent reinforcement learning for traffic signal control[C]// International Conference on Intelligent Transportation Systems.IEEE,Melbourne,2014:2529-2534.

[5] 何兆成,佘錫偉,楊文臣,等.結(jié)合Q學(xué)習(xí)和模糊邏輯的單路口交通信號(hào)自學(xué)習(xí)控制方法[J].計(jì)算機(jī)應(yīng)用研究,2011(1):199-202.

[6] Moghaddam M J,Hosseini M,Safabakhsh R.Traffic light control based on fuzzy Q-leaming[C]// International Symposium on Artificial Intelligence and Signal Processing.IEEE,Mashhad,2015.

[7] Bi Y,Srinivasan D,Lu X,et al.Type-2 fuzzy multi-intersection traffic signal control with differential evolution optimization[J].Expert Systems with Applications,2014,41(16):7338-7349.

[8] Chin Y K,Wei Y K,Wei L K,et al.Q-Learning Traffic Signal Optimization within Multiple Intersections Traffic Network[C]// Computer Modeling and Simulation (EMS),IEEE,Malta,2012:343-348.

[9] Krajzewicz D,Erdmann J,Behrisch M,et al.Recent Development and Applications of SUMO - Simulation of Urban MObility[J].International Journal on Advances in Systems & Measurements,2012,3(3):128-138.

(責(zé)任編輯:馬金發(fā))

ResearchofTrafficLightsDynamicTimingAlgorithmBasedonVehiclesInduction

WEN Feng,ZHAO Jiawen,ZHAO Yunzhi

(Shenyang Ligong University,Shenyang 110159,China)

With the traffic flow increasing in our country,the fixed time traffic lights control system can′t very well solve the problem of traffic congestion.Under this background,the traffic light control strategy based onQ-learning algorithm(QTGCS) for dynamic traffic light timing is put forward,in order to reduce the average waiting time of vehicles in intersection,and by the fuzzy logic control algorithm and using vehicles induced information to optimize the action section of theQ-learning(FQTGCS),the convergence speed of theQ-learning algorithm is improved.The experimental results show that the proposed traffic lights control strategy can solve the problem of traffic congestion,and better improve the performance of transportation system.

traffic lights control;Q-learning;fuzzy logic control

TP301

A

2016-10-24

國(guó)家自然科學(xué)基金資助項(xiàng)目(61672359)

文峰(1977—),男,副教授,博士,研究方向:人工智能。

1003-1251(2017)05-0022-05

猜你喜歡
交通燈獎(jiǎng)懲交叉口
基于模糊馬爾可夫鏈的獎(jiǎng)懲系統(tǒng)*
基于單片機(jī)的交通燈模糊控制器研究
為什么交通燈是紅黃藍(lán)三種顏色?
論如何正確對(duì)待高校學(xué)生獎(jiǎng)懲工作
信號(hào)交叉口延誤參數(shù)獲取綜述
我國(guó)納稅信用體系建設(shè)研究
一直飄紅的交通燈
基于單片機(jī)的LED模擬交通燈設(shè)計(jì)
珠海金鼎轉(zhuǎn)盤交叉口改造設(shè)計(jì)
一種Y型交叉口設(shè)計(jì)方案的選取過程