基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)可變限速控制對(duì)擁堵路段交通流的優(yōu)化

2017-10-09 00:47:07程鵬謝小年

山東交通學(xué)院學(xué)報(bào) 2017年3期

關(guān)鍵詞：交通流匝道主線

程鵬，謝小年

(重慶交通大學(xué) 交通運(yùn)輸學(xué)院，重慶 400041)

基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)可變限速控制對(duì)擁堵路段交通流的優(yōu)化

程鵬，謝小年

(重慶交通大學(xué) 交通運(yùn)輸學(xué)院，重慶 400041)

為提高可變限速(variable speed limits，VSL)控制對(duì)高速公路交通流的控制效能，提出一種連續(xù)狀態(tài)下BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)VSL控制方法。以路網(wǎng)總通行時(shí)間、路段內(nèi)平均速度、平均密度和平均流量為評(píng)價(jià)指標(biāo)，應(yīng)用VISSIM4.30與MATLAB軟件對(duì)比分析采用與不采用BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)VSL控制時(shí)，入口匝道和主線合流區(qū)域附近潛在擁堵路段對(duì)交通流的影響。結(jié)果表明，基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)型VSL控制方法對(duì)主線瓶頸區(qū)域上游易擁堵路段的交通流有明顯的優(yōu)化作用。

BP神經(jīng)網(wǎng)絡(luò)；Q-學(xué)習(xí)；可變限速控制;交通流優(yōu)化

VSL控制是主線控制的一種，通過VSL標(biāo)志來控制主線上車輛的行駛速度，并且標(biāo)志上的速度隨著主線上車輛數(shù)量的變化而變化。文獻(xiàn)[1]認(rèn)為安裝VSL標(biāo)志對(duì)改善高速公路交通流具有積極作用。VSL標(biāo)志能夠顯示限速信息，不但可以通過限制速度控制交通流，達(dá)到降低交通擁堵的目的，還能向駕駛員傳遞前面路段的交通狀況，提高交通安全[2]。文獻(xiàn)[3]以道路上的車輛數(shù)量為基礎(chǔ)，分別利用BP神經(jīng)網(wǎng)絡(luò)、模糊控制、模糊神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)與遺傳算法相結(jié)合的方法對(duì)各影響因素進(jìn)行建模，并比較這4種方法在VSL控制中的性能。文獻(xiàn)[4]把可變限速過程控制定義為馬爾科夫決策過程，利用強(qiáng)化學(xué)習(xí)無需建立環(huán)境模型的特點(diǎn)對(duì)高速路主線交通流進(jìn)行主動(dòng)控制。文獻(xiàn)[5]從實(shí)際快速路交通流數(shù)據(jù)出發(fā)，分析VSL控制對(duì)交通流的影響，并運(yùn)用改進(jìn)的元胞傳輸仿真模型，利用單目標(biāo)反饋法VSL策略以及強(qiáng)化學(xué)習(xí)VSL控制對(duì)主線合流擁堵區(qū)域進(jìn)行控制，達(dá)到防止主線交通擁堵，提高交通安全的目的。

近年來，強(qiáng)化學(xué)習(xí)法(reinforcement learning approach，RL)在解決交通控制系統(tǒng)問題方面得到廣泛應(yīng)用。文獻(xiàn)[6]把RL用于控制高速公路入口匝道的車輛數(shù)以使主線的交通流處于最佳狀態(tài)。盡管RL在匝道交通調(diào)節(jié)和交通信號(hào)控制等方面已得到很多應(yīng)用，但RL在其傳統(tǒng)形式的離散狀態(tài)下，用于處理中型和大型的交通控制問題時(shí)，缺乏學(xué)習(xí)效率，遇到“維數(shù)災(zāi)”問題。本文利用函數(shù)逼近器BP神經(jīng)網(wǎng)絡(luò)來解決這一問題，通過BP神經(jīng)網(wǎng)絡(luò)存儲(chǔ)動(dòng)作-狀態(tài)對(duì)的評(píng)價(jià)值，減少RL的存儲(chǔ)空間。在VSL控制時(shí)，根據(jù)高速公路入口匝道和主線合流區(qū)附近車輛的流量、速度和密度對(duì)高速公路限速分配進(jìn)行主動(dòng)學(xué)習(xí)，以降低高度公路的交通擁堵。

1 RL與Q-學(xué)習(xí)算法

1.1 RL

RL是受到人類學(xué)習(xí)時(shí)的試錯(cuò)行為啟發(fā)而提出的一種人工智能學(xué)習(xí)法。在學(xué)習(xí)過程中，智能體通過所處環(huán)境的交互作用和試錯(cuò)，對(duì)每個(gè)狀態(tài)的最佳動(dòng)作進(jìn)行學(xué)習(xí)，以使它們接收的累計(jì)回報(bào)最大化。RL問題可以看作是馬爾科夫決策過程，是一個(gè)構(gòu)建序貫決策問題的數(shù)學(xué)模型框架[7]。定義在每個(gè)狀態(tài)下使智能體未來接收的期望折扣回報(bào)值最大化所得評(píng)價(jià)函數(shù)

式中：γ為折扣系數(shù)，γ∈[0,1]；rt為時(shí)間步t所接收的回報(bào)。

1.2 Q-學(xué)習(xí)算法

本文使用的收斂效果較好的Q-學(xué)習(xí)算法是RL中應(yīng)用最廣泛的一種算法。在Q-學(xué)習(xí)算法中，用函數(shù)Q(s，a)評(píng)價(jià)給定狀態(tài)下采取動(dòng)作的好壞，并以表格的形式存儲(chǔ)其評(píng)價(jià)值，即Q值[8-9]。假設(shè)在環(huán)境狀態(tài)s下采取的動(dòng)作為a，Q函數(shù)對(duì)相應(yīng)的Q值進(jìn)行評(píng)價(jià)和存儲(chǔ)，反應(yīng)的是控制系統(tǒng)處于狀態(tài)s下采取動(dòng)作a的長(zhǎng)期累計(jì)回報(bào)值。

設(shè)t時(shí)刻Q學(xué)習(xí)的時(shí)間差分

(1)

根據(jù)時(shí)間差分算法可得訓(xùn)練樣本更新Q函數(shù)

Q(st,at)′=Q(st,at)+α(st,at)δt，

(2)

式中：Q(st,at)′為更新后Q的存儲(chǔ)值，表示新的學(xué)習(xí)經(jīng)驗(yàn)；α(st,at)為學(xué)習(xí)率，0<α(st,at)≤1。

由式(1)(2)得

(3)

在Q-學(xué)習(xí)過程中，無需知道環(huán)境模型，而是通過比較狀態(tài)s下的每個(gè)動(dòng)作所產(chǎn)生的Q值來確定最優(yōu)策略，使決策過程更加簡(jiǎn)便。

2 基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)算法

在交通控制問題過程中往往關(guān)系到多維連續(xù)空間，使用Q-學(xué)習(xí)算法做決策時(shí)，要把連續(xù)狀態(tài)空間離散化或者使用參數(shù)化表示的函數(shù)逼近法。多維連續(xù)狀態(tài)空間下的離散化會(huì)使Q值的存儲(chǔ)空間隨著維數(shù)的增加呈指數(shù)增長(zhǎng)，出現(xiàn)“維數(shù)災(zāi)”問題，因此還要權(quán)衡學(xué)習(xí)速度和控制系統(tǒng)的最優(yōu)問題[10-12]。本文選擇BP神經(jīng)網(wǎng)絡(luò)作為值函數(shù)逼近器：可以解決大型交通系統(tǒng)控制的連續(xù)狀態(tài)空間的RL參數(shù)化表示問題；可以存儲(chǔ)和記憶Q值，避免狀態(tài)變量數(shù)呈指數(shù)增長(zhǎng)的記憶需求；能夠自動(dòng)除去已經(jīng)學(xué)過的經(jīng)驗(yàn)，提高學(xué)習(xí)效率。

圖1 單隱含層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

2.1 BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)是一種誤差反向傳播的前向型神經(jīng)網(wǎng)絡(luò)，通常由1個(gè)輸入層、1個(gè)輸出層和1個(gè)隱含層構(gòu)成，輸出層一般含有1個(gè)神經(jīng)元，隱含層一般含有多個(gè)神經(jīng)元。其結(jié)構(gòu)如圖1所示。

隱含層的每個(gè)神經(jīng)元都有一個(gè)非線性s型激活函數(shù)。設(shè)網(wǎng)絡(luò)的輸入變量為Xi=[x1，x2，…，xk]，(i=1，2，…，k)預(yù)輸出變量為Y=[y1，y2，…，ym]，輸入層與隱含層之間的權(quán)值為wij=[w11，w12，…，wkn]，(j=1，2，…，n)隱含層與輸出層之間的權(quán)值為wj=[w1，w2，…，wn]。則網(wǎng)絡(luò)輸出公式為：

2.2 BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)算法

假設(shè)離散狀態(tài)下狀態(tài)集S和動(dòng)作集A中的每個(gè)狀態(tài)都會(huì)有與之對(duì)應(yīng)的Q值，RL環(huán)境下的神經(jīng)網(wǎng)絡(luò)中，狀態(tài)變量s作為輸入，Q值作為輸出，首先利用S中的狀態(tài)s和對(duì)應(yīng)的Q值進(jìn)行訓(xùn)練，調(diào)整網(wǎng)絡(luò)中的權(quán)值使誤差最小化。然后智能體感知環(huán)境狀態(tài)s，神經(jīng)網(wǎng)絡(luò)根據(jù)學(xué)習(xí)的經(jīng)驗(yàn)對(duì)Q值進(jìn)行預(yù)測(cè)，智能體根據(jù)預(yù)測(cè)的Q值對(duì)環(huán)境采取動(dòng)作，并接收到回報(bào)值。根據(jù)式(3)進(jìn)行更新，更新之后的狀態(tài)動(dòng)作對(duì)也即新的Q值存儲(chǔ)到神經(jīng)網(wǎng)絡(luò)中，作為下一次預(yù)測(cè)的經(jīng)驗(yàn)，這是一個(gè)不斷優(yōu)化的過程，隨著整個(gè)系統(tǒng)的學(xué)習(xí)經(jīng)驗(yàn)越來越多，采取的動(dòng)作也就越來越優(yōu)。

BP神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中通過誤差反向傳播和梯度下降法修正各層之間的權(quán)值使預(yù)測(cè)誤差最小化，從而達(dá)到逼近函數(shù)的目的。誤差公式為：

(4)

式中：Jt為RL環(huán)境下t時(shí)刻的預(yù)測(cè)誤差;Wt為t時(shí)刻迭代時(shí)包含所有權(quán)重的參數(shù)向量，Wt=[w1,w2,…，wn,w11,w2n,…,wkn];et為網(wǎng)絡(luò)訓(xùn)練時(shí)實(shí)際輸出與理論輸出之差。

梯度下降學(xué)習(xí)法的權(quán)重更新

(5)

式中：Wt+1為t+1時(shí)刻迭代時(shí)包含所有權(quán)重的參數(shù)向量；aN為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率。

2.3基于基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)VSL控制

通過基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)智能算法控制VSL標(biāo)志的速度(限速值)，從而控制車道上的交通流。首先，系統(tǒng)根據(jù)車輛行駛狀態(tài)采用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)Q值，然后根據(jù)Q值發(fā)布限速值，以路網(wǎng)總通行時(shí)間T為控制目標(biāo)對(duì)發(fā)布限速值后車輛的行駛狀態(tài)進(jìn)行評(píng)價(jià)，系統(tǒng)再根據(jù)該評(píng)價(jià)結(jié)果通過式(3)更新Q值并存儲(chǔ)到神經(jīng)網(wǎng)絡(luò)中，根據(jù)式(4)(5)對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行修正，如此循環(huán)往復(fù)。因此，該系統(tǒng)控制是一個(gè)不斷學(xué)習(xí)優(yōu)化的過程。

3 實(shí)例分析

將微觀仿真軟件VISSIM4.30與MATLAB軟件相結(jié)合對(duì)模型進(jìn)行仿真驗(yàn)證。假設(shè)一條里程為9 km的單車道高速公路，把它分為N1～N66段，每段長(zhǎng)度為1.5 km，如圖2所示?；疑珔^(qū)域?yàn)槿肟谠训琅c主線合流區(qū)域附近易擁堵的路段，為VSL控制區(qū)，檢測(cè)器1、2可提供主線交通狀況數(shù)據(jù)，如速度、占有率和流量等[13-16]。路段N6為限速解除的加速區(qū)域，匝道不進(jìn)行任何控制。

圖2 可變限速布局圖

在該研究案例中，假設(shè)交通優(yōu)化過程為馬爾科夫決策過程，定義數(shù)據(jù)檢測(cè)器檢測(cè)的速度、流量和密度為狀態(tài)變量。交通控制的主要目的是緩解交通擁堵，降低出行時(shí)間，所以定義路網(wǎng)總通行時(shí)間

式中：Tc為控制周期；N(p)為控制周期為p時(shí)的車輛數(shù)；c為仿真時(shí)間與周期之比。

3.1參數(shù)設(shè)計(jì)

主線自由流速度設(shè)置為100 km/h，交通需求設(shè)置為2 200輛/h，臨界密度為24輛/km，仿真時(shí)間跨度3 600 s，數(shù)據(jù)檢測(cè)器時(shí)間間隔設(shè)置為20 s，即每20 s采集1次速度、流量和密度，VSL控制周期為Tc=2 min，c=30，仿真精度為10，其它參數(shù)采用默認(rèn)值。把限速值進(jìn)行離散化，即Q-學(xué)習(xí)動(dòng)作空間A= {50，60，70，80，90，100}，α∈A，折扣系數(shù)γ=0.8。

在BP神經(jīng)網(wǎng)絡(luò)中，參數(shù)的設(shè)置與網(wǎng)絡(luò)的結(jié)構(gòu)和每次迭代訓(xùn)練收斂情況有關(guān)。BP神經(jīng)網(wǎng)絡(luò)的輸入層設(shè)置3個(gè)節(jié)點(diǎn)，對(duì)應(yīng)的輸入分別為速度、流量和密度；輸出層節(jié)點(diǎn)為1個(gè)，對(duì)應(yīng)的是動(dòng)作-狀態(tài)對(duì)評(píng)價(jià)值Q值；隱含層的神經(jīng)元數(shù)量要比輸入層多的多，并且使用反向傳播算法進(jìn)行訓(xùn)練，在經(jīng)過對(duì)不同隱含層神經(jīng)元的數(shù)量多次試驗(yàn)之后，BP神經(jīng)網(wǎng)絡(luò)的隱層神經(jīng)元的數(shù)量定為18；學(xué)習(xí)率設(shè)為0.01，訓(xùn)練目標(biāo)誤差為0.001，迭代次數(shù)為3 000[17-18]。BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本分為70%的訓(xùn)練數(shù)據(jù)和30%的測(cè)試數(shù)據(jù)。為精簡(jiǎn)樣本，對(duì)網(wǎng)絡(luò)的輸入和輸出進(jìn)行歸一化處理，其值處于0～1。在BP神經(jīng)網(wǎng)絡(luò)的迭代學(xué)習(xí)中，最好是避免呈現(xiàn)來自狀態(tài)空間相同的區(qū)域的連續(xù)樣本，以避免權(quán)重偏置。此外，在整個(gè)學(xué)習(xí)過程中，樣本應(yīng)覆蓋狀態(tài)空間的不同區(qū)域，以提供良好的推廣。

3.2仿真結(jié)果

圖3分別為未實(shí)施和實(shí)施基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)VSL控制(以下簡(jiǎn)稱VSL控制)時(shí)入口匝道和主線合流區(qū)域車輛的速度、密度和流量圖。未實(shí)施VSL控制時(shí)，由圖3a)、c)、e)可知:當(dāng)t=500 s時(shí)，合流區(qū)域的流量接近道路的通行能力2 200 輛/h。當(dāng)t>800 s時(shí)，流量隨著時(shí)間的增加持續(xù)降低，說明此時(shí)VSL控制區(qū)域上游產(chǎn)生了交通擁堵；在擁堵產(chǎn)生時(shí)VSL控制區(qū)域上游的車流密度保持較高水平；在t=500 s之后速度下降明顯，并且在仿真結(jié)束之前一直處于降低水平。

圖3 入口匝道和主線合流區(qū)域的速度、密度和流量曲線

實(shí)施VSL控制時(shí)，由圖3b)、d)、f)可知：在t=500 s之前，車輛的速度、密度和流量與未實(shí)施VSL控制時(shí)基本相同；在t=500 s之后，VSL被激活,進(jìn)入合流區(qū)域的交通流被拖延，使交通狀況保持穩(wěn)定，防止交通擁堵的發(fā)生[19-21];在t>800 s時(shí)，通行能力有所上升，速度有明顯的回升，密度始終保持在臨界密度以下。與未控制的情況相比，VSL控制的路網(wǎng)通行時(shí)間降低了19.2%，控制路段的平均流量增加了4.7%，平均速度增加31.4%，速度的變化更趨向于平穩(wěn)，消除了擁堵時(shí)瓶頸區(qū)域車輛走走停停的狀況，平均密度降低了12.5%。

仿真結(jié)果對(duì)比表明：基于BP的Q-學(xué)習(xí)VSL控制能夠使主線車輛速度提高，且變化均勻，增加瓶頸區(qū)域的通行能力，在緩解主線交通擁堵，降低出行時(shí)間等方面效果明顯。

4 結(jié)論

1)采用BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)算法解決連續(xù)狀態(tài)問題，用神經(jīng)網(wǎng)絡(luò)存儲(chǔ)Q值，并根據(jù)輸入狀態(tài)預(yù)測(cè)對(duì)應(yīng)的Q值。利用速度、密度和流量定義公路上的交通流，使用RL進(jìn)行限速分配，旨在沿著主線降低車速，以此降低交通擁堵。

2)以路網(wǎng)車輛總通行時(shí)間、路段內(nèi)車輛的平均速度、平均密度和流量為評(píng)價(jià)指標(biāo)，通過MATLAB和VISSIM仿真分析入口匝道和主線合流區(qū)域的交通擁堵狀況，表明基于BP的Q-學(xué)習(xí)VSL控制對(duì)瓶頸區(qū)域的交通流優(yōu)化作用明顯。

[1]DGEORGIOU M， KOSMATOPOULOS E，PAPARMICHAIL I.Effect of variable speed limits on motorway traffic flow[J]. Transportation Research Record Journal of the Transportation Research Board，2008，2047 (2047) : 37-48.

[2]陳建陽.高速公路可變限速標(biāo)志的作用及控制[J].同濟(jì)大學(xué)學(xué)報(bào)，1993，21(8):387-391. CHEN Jianyang.Action and control of freeway variable speed signs[J].Journal of Tongji Univercity, 1993，21(8): 387-391.

[3]陳大山.高速公路主線可變限速控制研究[D].西安：長(zhǎng)安大學(xué)，2009. CHEN Dashan.Variable speed control of highway[D].Xi′an: Chang′an Univercity, 2009.

[4]王薇，梁紅梅，李立超，等.高速公路可變限速控制算法研究[J].北華大學(xué)學(xué)報(bào)(自然科學(xué)版)，2014，15(1):122-125. WANG Wei，LIANG Hongmei，LI Lichao，et al.On variable speed-limit control algorithms of expressways[J].Journal of Beihua Univercity (Natural Science), 2014，15(1):122-125.

[5]李志斌.快速道路可變限速控制技術(shù)[D].南京: 東南大學(xué)，2014. LI Zhibin.Variable speed limit control technique on expressway[D].Nanjing: Southeast University，2014.

[6]王興舉，宮城俊彥.強(qiáng)化學(xué)習(xí)型匝道控制模型研究[J].石家莊鐵道大學(xué)學(xué)報(bào)(自然科學(xué)版)，2010，23(2):104-108. WANG Xingju，MIYAGI Toshikiho.Reinforcement learning ramp metering[J].Journal of Shijiazhuang Tiedao University (Natural Sciences) , 2010，23(2):104-108.

[7]虞靖靚.基于Q學(xué)習(xí)的Agent智能決策的研究與實(shí)現(xiàn)[D].合肥:合肥工業(yè)大學(xué),2005. YU Jingliang.The research and implementation of agent intelligent decision based on Q-learning[D].Hefei: Hefei University of Technology，2008.

[8]孫晟.基于強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)單機(jī)調(diào)度研究[D].上海:上海交通大學(xué)，2007. SUN Cheng.Reinforcement learning based dynamic single machine scheduling[D].Shanghai:Shanghai Jiao Tong University，2007.

[9]張汝波，顧國(guó)昌，劉照德，等.強(qiáng)化學(xué)習(xí)理論、算法及應(yīng)用[J].控制理論與應(yīng)用，2000，17(5):637-642. ZHANG Rubo，GU Guochang，LIU Zhaode，et al.Reinforcement learning theory ,algorithms and its application[J].Control Theory and Applications，2000，17(5): 637-642.

[10]陸鑫，高陽，李寧.基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法研究[J].計(jì)算機(jī)研究與發(fā)展，2002，39(8):981-985. LU Xin，GAO Yang，LI Ning.Research on a reinforcement learning algorithm based on neural network[J].Journal of Computer Research and Development, 2002，39(8):981-985.

[11]蔣國(guó)飛，吳滄浦.基于Q學(xué)習(xí)算法和BP神經(jīng)網(wǎng)絡(luò)的倒立擺控制[J].自動(dòng)化學(xué)報(bào)，5(24):662-666. JIANG Guofei,WU Cangpu.Learning to control an inverted pendulum using Q-learning and neural networks[J].Action Automatic Sinica，5(24):662-666.

[12]夏麗麗.連續(xù)狀態(tài)：連續(xù)行動(dòng)強(qiáng)化學(xué)習(xí)[J].電腦知識(shí)與技術(shù),2011,19(7): 4669-4672. XIA Lili.Reinforcement learning with continuous state:continuous action[J].Computer Konwledge and Technology, 2011，19(7): 4669-4672.

[13]李楊.高速公路可變速度控制方法研究[D].西安：長(zhǎng)安大學(xué)，2011. LI Yang.New variable speed control approach for freeway[D]. Xi′an: Chang′an Univercity，2011.

[14]劉慶全，黃春平.公路主線可變限速模糊控制及仿真研究[J].計(jì)算機(jī)仿真，2010，27(12):335-338，400. LIU Qingquan，HUANG Chunping.Fuzzy control for variable speed limits and simulation on highway mainstream[J].Journal of Compter Simulaiton，2010，27(12):335-338，400.

[15]WILLIAMS Ackaah，KLAUS Bogenberger.Advanced evaluation methods for variable speed limit systems[J].Transportation Research Procedia，2016，15:652-663.

[16]CHO Hyerim，KIM Youngchan.Analysis of traffic flow with variable speed limit on highways[J].KSCE Journal of Civil Engineering，2012，6(16):1048-1049.

[17]KUMAR K，PARIDA M，KATIYARV K.Short term traffic flow prediction for a non urban highway using artificial neural network[J].Procedia-Social and Behavioral Sciences，2013，104：755-764.

[18]何玉婉.基于Elman 神經(jīng)網(wǎng)絡(luò)的高速公路入口匝道預(yù)測(cè)控制仿真研究[D].成都：西南交通大學(xué)，2008. HE Yuwan.Research and simulation on neural network predictive control for freeway ramp based on Elman[D].Chengdu: Southwest Jiaotong University, 2008.

[19]陳雪平，曾盛，胡剛.基于BP神經(jīng)網(wǎng)絡(luò)的短時(shí)交通流預(yù)測(cè)[J].公路交通技術(shù),2008:,3：115-117. CHEN Xueping，ZENG Sheng，HU Gang.Short-time traffic flow prediction based on BP neural network[J].Technology of Highway and Transport, 2008，3：115-117.

[20]段薈，劉攀，李志斌，等.基于強(qiáng)化學(xué)習(xí)的匯流瓶頸區(qū)可變限速策略研究[J].交通運(yùn)輸系統(tǒng)工程與息，2015，1(15):55-61. DUAN Hui，LIU Pan，LI Zhibin，et al.Variable speed limit control at freeway merge bottlenecks based on reinforcement learning[J].Journal of Transportation System Engineering and Information Technology, 2015，1(15):55-61.

[21]蒲云，胡路，蔣陽升，等.高速公路主線收費(fèi)站可變限速控制[J].交通運(yùn)輸工程學(xué)報(bào)，2012，5(12):119-126. PU Yun，HU Lu，JIANG Yangsheng，et al.Variable speed-limit control before expressway mainline toll station[J].Journal of Traffic and Transportation Engineering, 2012，5(12):119-126.

OptimizationforTrafficFlowofRoadCongestionBasedonQ-LearningVSLControlofBPNeuralNetwork

CHENGPeng，XIEXiaonian

(SchoolofTraffic&Transportation,ChongqingJiaotongUniversity,Chongqing400074,China)

To improve the efficiency of VSL control over the freeway traffic flow, this paper proposes a new approach of Q-learning VSL control in the continuous BP neural network. Used the total traveling time of the road network, average speed of the road section and average flow as evaluation indexes, VISSIM4.30 and MATLAB are adopted to make the comparative analysis of the influence of the potential congestion section on the traffic flow at the on-ramp and nearby the merging area of the mainstream with and without the Q-learning VSL control of BP neural network. The results show that the Q-learning VSL control method based BP neural network plays an obvious role in the optimization of the traffic flow at the congested section of the upstream bottleneck of the mainstream.

BP neural networks；Q-learning; VSL control；traffic flow optimization

U491.54

：A

：1672-0032(2017)03-0038-06

(責(zé)任編輯：楊秀紅)

2017-02-19

程鵬(1993—)，男，安徽六安人，碩士研究生，主要研究方向?yàn)榻煌ㄟ\(yùn)輸規(guī)劃與管理，E-mail:1850083367@qq.com.

10.3969/j.issn.1672-0032.2017.03.006

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)可變限速控制對(duì)擁堵路段交通流的優(yōu)化

1 RL與Q-學(xué)習(xí)算法

2 基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)算法

3 實(shí)例分析

4 結(jié)論