張辰
摘 摘要:針對(duì)路口堵塞,提出了一種基于Q學(xué)習(xí)算法的多目標(biāo)分時(shí)段路口信號(hào)燈控制方法。該方法在多個(gè)單路口交通性能評(píng)價(jià)指標(biāo)的基礎(chǔ)上,考慮了不同時(shí)段所具有的不同流量特征,從而設(shè)計(jì)了一套混合型的綜合信號(hào)燈控制策略。最后在VISSIM上對(duì)本策略進(jìn)行了仿真實(shí)驗(yàn),驗(yàn)證了有效性。
關(guān)鍵詞: Q學(xué)習(xí);多目標(biāo);分時(shí)段;交通控制
中圖分類(lèi)號(hào):TP393.08 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)03-0291-02
1 引言
當(dāng)今,汽車(chē)已經(jīng)成為人們出行的主要手段。然而,汽車(chē)的普及與城市路口建設(shè)的局限性,使得如何有效地管理交通成為了一個(gè)非常重要的課題。為了做好路口的交通控制問(wèn)題,國(guó)內(nèi)外許多專(zhuān)家都對(duì)此進(jìn)行了大量的研究,近年來(lái),交通控制理論越來(lái)越成熟。在路口控制問(wèn)題上,提出了很多不同的性能評(píng)價(jià)指標(biāo),并且從這些基本指標(biāo)出發(fā),逐漸從對(duì)單一目標(biāo)的優(yōu)化發(fā)展到對(duì)多目標(biāo)的優(yōu)化。但是后者存在一個(gè)問(wèn)題,就是多目標(biāo)之間可能會(huì)有沖突,從而無(wú)法左右兼顧,達(dá)到最理想的情況。為了解決這個(gè)問(wèn)題,研究人員采用了諸如遺傳算法,模糊偏好,粒子群等多種算法,并由此產(chǎn)生了一套日趨完善的多目標(biāo)優(yōu)化理論。同時(shí),交通控制方法已經(jīng)從傳統(tǒng)的理論發(fā)展到與人工智能,神經(jīng)網(wǎng)絡(luò),自學(xué)習(xí)等結(jié)合起來(lái)應(yīng)用,并且產(chǎn)生了大量實(shí)際有效的成果[1]。其中,強(qiáng)化學(xué)習(xí)算法(Reinforcement Learning, RL)被認(rèn)為是一種利用自學(xué)習(xí)來(lái)解決交通控制的非常有效的方法。而Q學(xué)習(xí)[2]則是強(qiáng)化算法中非常具有代表性的一種算法,對(duì)于其在路口交通控制中的應(yīng)用也已經(jīng)有了一定的研究歷史。
本文在國(guó)內(nèi)外已經(jīng)取得成果的基礎(chǔ)上[3],結(jié)合Q學(xué)習(xí)算法,提出了一種多目標(biāo),多時(shí)段的混合控制策略。該策略考慮了不同交通狀況和時(shí)段下,人們所著重的優(yōu)化目標(biāo)也會(huì)不同,因此需要根據(jù)實(shí)際情況,自動(dòng)權(quán)衡,修正各目標(biāo)之間的權(quán)重關(guān)系。接著利用Q學(xué)習(xí)算法,將混合策略應(yīng)用到信號(hào)燈的控制上,使得控制具有自適應(yīng)的特點(diǎn)。最后與傳統(tǒng)的策略[4][5]進(jìn)行比較,證明了本混合策略的顯著的優(yōu)化效果。
2 基于Q學(xué)習(xí)的控制策略
本文提出的方法是一種多目標(biāo),多時(shí)段的混合控制策略。本策略由主要有兩個(gè)方面:多目標(biāo),多時(shí)段。
對(duì)于多目標(biāo)來(lái)說(shuō),本文具體分析了各個(gè)路口性能評(píng)價(jià)指標(biāo)的意義,并選取了幾個(gè)具有較好代表性的指標(biāo)來(lái)作為優(yōu)化目標(biāo)。在策略中,我們采取線(xiàn)性組合的方式,將幾個(gè)目標(biāo)組合在一起。每一個(gè)目標(biāo)之間通過(guò)權(quán)重來(lái)確定其對(duì)整個(gè)優(yōu)化函數(shù)所做的貢獻(xiàn),從而達(dá)到最優(yōu)化的操作。
對(duì)于多時(shí)段來(lái)說(shuō),在交通控制中,評(píng)價(jià)指標(biāo)如何選取與當(dāng)前交通流的具體情況有著密切的聯(lián)系。隨著路口交通堵塞情況的變化,優(yōu)化目標(biāo)之間的權(quán)重也應(yīng)該有所改變。
2.1 參數(shù)設(shè)計(jì)
本策略采用了如下多目標(biāo)參數(shù):
通行能力(Capacity)
通行能力是指在其余條件不變的情況下,在單位時(shí)間內(nèi),通過(guò)交叉口的最大車(chē)輛數(shù)。通行能力在一定程度上可以反映交通情況是否暢通,以及暢通的程度。
延誤時(shí)間(delay time)
延誤時(shí)間是指,當(dāng)一輛車(chē)從進(jìn)入交叉口道路一直到離開(kāi),由于交叉口不暢通所導(dǎo)致的額外的行駛時(shí)間。延誤時(shí)間一般由停車(chē)時(shí)間和因?yàn)閾矶露鴮?dǎo)致的緩慢行駛所浪費(fèi)的時(shí)間組成。
飽和度(saturation degree):
飽和度是指,路口中入口方向的到達(dá)車(chē)流與通行能力的比值。
2.2 Q學(xué)習(xí)參數(shù)設(shè)計(jì)State
在單交叉口中,由一個(gè)Agent負(fù)責(zé)感知和接收當(dāng)前路口的環(huán)境參數(shù)值。在本算法中,我們考慮了以下幾個(gè)常用參數(shù):
1. 當(dāng)前相位的編號(hào)。
2. 當(dāng)前相位中,紅燈方向的排隊(duì)長(zhǎng)度和。
3. 當(dāng)前相位中,綠燈方向的車(chē)流數(shù)量和。
Action
采用(保持/切換)的兩種行為組成的集合。相對(duì)前者來(lái)說(shuō),后者不僅簡(jiǎn)單,適合可變周期,其只有兩個(gè)值的優(yōu)點(diǎn)更使得在與state進(jìn)行結(jié)合配對(duì)時(shí),狀態(tài)空間呈指數(shù)級(jí)的減小,從而在一定程度上加快了Agent的響應(yīng)速度。
Reward
定義回報(bào)函數(shù)為兩個(gè)相鄰時(shí)段的交通性能值的差。
3 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)在VISSIM上仿真了一個(gè)主要交通路口。路口信息為:4方向,每個(gè)方向3條車(chē)道(進(jìn)車(chē)道,直行/右轉(zhuǎn)出車(chē)道,左轉(zhuǎn)出車(chē)道)
這是中度擁堵的情況下,自適應(yīng)策略的相對(duì)百分比評(píng)價(jià)指數(shù)提升。在中度擁堵的情況下,三個(gè)指標(biāo)的提升相對(duì)來(lái)說(shuō)比較平均,基本都圍繞8%的水平。在中度擁堵的情況下,策略對(duì)平均停車(chē)次數(shù)具有強(qiáng)烈的偏好性(0.8),對(duì)通行能力具有次級(jí)偏好(0.2),因此,策略在執(zhí)行過(guò)程中以這兩個(gè)為目標(biāo)進(jìn)行優(yōu)化。相對(duì)于重度和輕度兩種情況來(lái)說(shuō),停車(chē)次數(shù)指標(biāo)在中度擁堵情況中得到了最好的提升,而通行能力的提升水平也是比較高的。
4 結(jié)論
本文提出了一種分時(shí)段,多目標(biāo)混合交通控制策略,設(shè)計(jì)將分時(shí)段與多目標(biāo)進(jìn)行結(jié)合,并應(yīng)用到路口控制中,可以最大限度,最廣面積的考慮到路口的復(fù)雜的需求。通過(guò)Q學(xué)習(xí)實(shí)現(xiàn)了該策略,展示了以Q學(xué)習(xí)為代表的RL算法在交通路口控制中的可行性和所具有的優(yōu)勢(shì)。使用Q學(xué)習(xí)算法,路口的性能評(píng)價(jià)得到了顯著有效地提升。結(jié)果顯示了Q學(xué)習(xí)在復(fù)雜多變的路口交通情況中,與傳統(tǒng)的通過(guò)建立固定模型進(jìn)行控制的方法,具有更大的靈活性和自適應(yīng)性。
參考文獻(xiàn):
[1] 盧凱.交通信號(hào)協(xié)調(diào)控制基礎(chǔ)理論與關(guān)鍵技術(shù)研究[D].華南理工大學(xué),2010:46-48.
[2] Watkins P Dayan. Q-learning. Machine Learning, 1992, 8(3): 279-292 .
[3] 徐建閩.交通管理與控制[M]. 北京:人民交通出版社,2007:139-140.
[4] Waltz M D,F(xiàn)u K S. A Heuristic Approach to Reinforcement Learning Control System[J].IEEE Transaction on Automatic Control, 1965, 10(4):390-398.
[5] Siagh S P. Reinforcement Learning with Replacing Eligibility Traces[J].Machine Learning, 1996, 22: 159-195.