基于C-FQL算法的城市干線交通信號(hào)控制

2011-03-02 07:37:10宋正東劉智勇

五邑大學(xué)學(xué)報(bào)（自然科學(xué)版） 2011年3期

關(guān)鍵詞：智勇協(xié)調(diào)控制模擬退火

宋正東，劉智勇,2

（1.五邑大學(xué) 信息工程學(xué)院，廣東江門 529020；2.江門職業(yè)技術(shù)學(xué)院，廣東江門 529090）

基于C-FQL算法的城市干線交通信號(hào)控制

宋正東1，劉智勇1,2

（1.五邑大學(xué) 信息工程學(xué)院，廣東江門 529020；2.江門職業(yè)技術(shù)學(xué)院，廣東江門 529090）

針對(duì)城市干線交通協(xié)調(diào)控制難于建立準(zhǔn)確數(shù)學(xué)模型的問題，提出了混沌模糊Q學(xué)習(xí)(C-FQL)方法，即在模糊Q學(xué)習(xí)過程中添加混沌擾動(dòng)以改變Agent選擇動(dòng)作的方式，并通過添加遺忘因子以平衡學(xué)習(xí)過程中擴(kuò)張與利用之間的關(guān)系.城市干線交通協(xié)調(diào)控制中應(yīng)用C-FQL方法以優(yōu)化各交叉路口的周期、相位差和綠信比.借助TSIS交通仿真平臺(tái)，建立了C-FQL方法在城市干線交通協(xié)調(diào)控制中的應(yīng)用仿真，結(jié)果表明，C-FQL方法收斂速度快，在城市干線交通協(xié)調(diào)控制中效果良好.

交通干線協(xié)調(diào)控制；混沌模糊Q學(xué)習(xí)；模糊控制；城市交通

交通干線承擔(dān)了城市大量的交通負(fù)荷，其暢通對(duì)改善城市交通狀況往往具有很大作用[1].隨著城市化和交通需求的快速發(fā)展，干線協(xié)調(diào)控制成為智能交通控制研究中的熱點(diǎn)，但交通控制系統(tǒng)是一個(gè)龐大的、非線性、不確定性系統(tǒng)，難以建立精確的數(shù)學(xué)模型.Q學(xué)習(xí)作為一種被廣泛應(yīng)用的強(qiáng)化學(xué)習(xí)算法，無需模型且能實(shí)現(xiàn)在環(huán)境中學(xué)習(xí)，尤其適用于交通控制[2-3]，因而愈來愈引起人們的重視.文獻(xiàn)[4]將Dyna-Q強(qiáng)化學(xué)習(xí)應(yīng)用于城市交通信號(hào)在線控制，文獻(xiàn)[5]將Q學(xué)習(xí)應(yīng)用于城市干線交通控制，文獻(xiàn)[6]則在模糊Q學(xué)習(xí)的基礎(chǔ)上引入模擬退火準(zhǔn)則，以解決學(xué)習(xí)過程中探索和擴(kuò)張之間的平衡問題，提高整體交通效率和學(xué)習(xí)的速度.但模擬退火的初始溫度和降溫策略的選取是一個(gè)難題，且它們的選取將直接影響收斂速度.文獻(xiàn)[7]給出了模擬退火算法參數(shù)的確定方法，但交通控制中對(duì)實(shí)時(shí)性要求較高，以本文為例每5個(gè)周期優(yōu)化一次周期長(zhǎng)度，在短時(shí)間內(nèi)學(xué)習(xí)難以獲得理想的初始溫度，若花大量時(shí)間學(xué)習(xí)用于獲得初始溫度又得不償失.混沌優(yōu)化方法相比模擬退火和遺傳算法等其他隨機(jī)搜索算法有較好的尋優(yōu)效率[8]，基于此，本文提出了混沌模糊Q學(xué)習(xí)(C-FQL)方法，用于提高城市交通干線協(xié)調(diào)控制的學(xué)習(xí)速度和交通效率.

1 問題的描述

圖1 5路口城市干線交通圖

設(shè)一城市交通干線如圖1所示.根據(jù)道路承載的交通負(fù)荷選擇交通負(fù)荷較重的東西向道路為主干線、南北向道路為支線.相鄰兩交叉口間的距離不超過800 m，干線交通流以直行為主（這是干線協(xié)調(diào)控制的條件），綠燈期間車輛不準(zhǔn)左轉(zhuǎn)（實(shí)際交通控制中也常這樣規(guī)定）.[9]

根據(jù)經(jīng)驗(yàn)，當(dāng)車流較稀疏時(shí)，信號(hào)周期應(yīng)短一些；當(dāng)車流較稠密時(shí)，信號(hào)周期應(yīng)長(zhǎng)一些.考慮到交通安全和駕駛員心理，信號(hào)周期的變化范圍應(yīng)在60～120 s.某一方向某一車道組上車流的稀疏稠密可用實(shí)際交通流量與通行能力之比v/c來描述[10].

式中，vi為車道組i的實(shí)際車流量，ci為車道組i的通行能力，gi為車道組i的有效綠燈時(shí)間，si為車道組i的飽和流量，T為周期長(zhǎng)度.

干線上相鄰兩交叉口的相位差根據(jù)相鄰兩交叉口之間的距離和區(qū)間平均速度確定，相鄰兩交叉口之間的車流速度的獲取需要在交叉口上游設(shè)置檢測(cè)器.

式中，O為相位差，d為兩交叉口之間的距離，v為兩交叉口之間車流的區(qū)間平均速度.實(shí)際使用中要用式（3）將時(shí)間平均速度轉(zhuǎn)化為區(qū)間平均速度[11].

于是城市交通干線協(xié)調(diào)控制策略描述為：在一個(gè)階段內(nèi)（本文選為5個(gè)信號(hào)周期）采用遞階控制，干線上信號(hào)周期T和相位差O保持不變，各交叉口的綠信比根據(jù)實(shí)時(shí)交通狀況調(diào)整.本階段的信號(hào)周期T和相位差O由上階段檢測(cè)所得各交叉口的交通狀況協(xié)調(diào)確定.

2 交通干線的C-FQL控制

交通干線的C-FQL控制步驟如下：

步驟1 各交叉口Agent首先根據(jù)以往的交通信息給出干線的公共周期T和各交叉口的相位差Ot( i =1,2,… ,n)；

步驟2 設(shè)m=0；

步驟3 各交叉口根據(jù)給定的信號(hào)周期T和相位差Oi進(jìn)行控制，根據(jù)各交叉口的交通量調(diào)整綠信比；

步驟4 m←m+T，若m＞5T則轉(zhuǎn)到下一步，否則回到步驟3.

步驟5 各交叉口Agent由本階段測(cè)得的干線上的交通狀況預(yù)測(cè)下一階段各交叉口的交通量，用C-FQL方法確定下一階段的公共周期和相位差，使干線上交叉口的飽和度維持在0.9附近，回到步驟2.

上述步驟5應(yīng)用到第i個(gè)交叉口，有如下控制過程：

1）初始化FQ(s, a)值和混沌變量C0，其中 C0∈ (0,1)，此處將FQ(s, a)表均賦值為0；

2）觀測(cè)當(dāng)前交通狀況s（v/c和區(qū)間平均速度），若交通狀況在目標(biāo)區(qū)即v/c在0.9附近[9]，并滿足則維持當(dāng)前公共周期和相位差，返回；

4）Agent按照ε-greedy策略選擇的一個(gè)動(dòng)作ag，添加遺忘因子并將混沌擾動(dòng)嵌入到Agent執(zhí)行的動(dòng)作中：為遺忘因子；

5）Agent將動(dòng)作a作用到交通系統(tǒng)，轉(zhuǎn)到下一個(gè)狀態(tài)s′，獲得立即回報(bào)r( s, a)，k=k+1，其中為一正實(shí)數(shù)；

6）s ← s′，然后按照公式（4）更新FQ值[12-13]；

式中，α ∈ (0,1)為學(xué)習(xí)速率，r( s, a)為狀態(tài)s下Agent執(zhí)行動(dòng)作a后的立即回報(bào)，γ ∈ (0,1)為折扣因子，A為所有可供Agent選擇的動(dòng)作的集合，F(xiàn)Q(s′, a′)為下一個(gè)狀態(tài)s′下Agent執(zhí)行動(dòng)作a′后的Q函數(shù)值，μc(s, a)為在狀態(tài)s下Agent執(zhí)行動(dòng)作a的隸屬度，“∧”為邏輯與操作.

7）返回到2）繼續(xù)，直到FQ(x, a)值收斂.

根據(jù)HCM2000，在分析信號(hào)交叉口和優(yōu)化配時(shí)時(shí)首先劃定車道組，以各車道組的交通狀況為根據(jù)進(jìn)行分析和優(yōu)化.本文中各信號(hào)交叉口相位設(shè)置如圖2所示，車道組的劃分如圖3所示.

圖2 信號(hào)交叉口相位設(shè)置圖

圖3 車道組的劃分

在各相位中選取v/c最大的車道組作為關(guān)鍵車道組，利用已獲得的各車道組的實(shí)際流量按式（5）對(duì)交通流量進(jìn)行簡(jiǎn)單預(yù)測(cè).

式中，vij表示第i車道組上第 j周期的流量，其中只利用前5個(gè)周期的流量進(jìn)行預(yù)測(cè)， j=0表示下一周期； γ∈ (0,1)，其意義在于時(shí)間越近則影響越大[6].利用預(yù)測(cè)的關(guān)鍵車道組的交通流量按式（6）在周期固定的基礎(chǔ)上分配各相位的綠時(shí)，進(jìn)行綠信比的優(yōu)化.

式中，iλ為第i相位的綠信比，vci為第i相位關(guān)鍵車道組的車流量.

優(yōu)化周期時(shí)，v/c作為環(huán)境狀態(tài)可看作模糊變量s，其論域?yàn)椋?/p>

取7個(gè)語言值：s1（很小），s2（較?。瑂3（?。?，s4（零），s5（大），s6（較大），s7（很大）.賦值表如表1所示.

周期的增量作為Agent執(zhí)行的動(dòng)作可看作模糊變量c，其論域?yàn)椋?/p>

取7個(gè)語言值：c1（負(fù)大），c2（負(fù)中），c3（負(fù)?。琧4（零），c5（正小），c6（正中），c7（正大）.賦值表如表2所示.

表1 語言變量s賦值表

表2 語言變量c賦值表

根據(jù)控制經(jīng)驗(yàn)，優(yōu)化周期時(shí)的控制規(guī)則為：

優(yōu)化相位差時(shí)，區(qū)間平均速度作為環(huán)境狀態(tài)可看作模糊變量v，其論域?yàn)椋?/p>

取7個(gè)語言值：v1（很慢），v2（較慢），v3（慢），v4（中速），v5（快），v6（較快），v7（很快）.賦值表如表3所示.

相位差調(diào)整量作為Agent執(zhí)行的動(dòng)作可看作模糊變量o，其論域?yàn)椋?/p>

取7個(gè)語言值：o1（負(fù)大），o2（負(fù)中），o3（負(fù)?。?，o4（零），o5（正?。?，o6（正中），o7（正大）.賦值表如表4所示.

表3 語言變量v賦值表

表4 語言變量o賦值表

根據(jù)控制經(jīng)驗(yàn)，優(yōu)化周期時(shí)的控制規(guī)則為：

優(yōu)化周期和相位差時(shí)，Agent的回報(bào)函數(shù)設(shè)計(jì)為： r( s, a) =i- 4，其中i分別為環(huán)境狀況si、vi的下標(biāo)，其意義在于：Agent執(zhí)行動(dòng)作后環(huán)境改進(jìn)則得到正回報(bào)，否則得到負(fù)回報(bào).

3 仿真實(shí)驗(yàn)

本文用VC++6.0編寫城市干線交通混沌模糊Q學(xué)習(xí)控制的RTE接口程序，采用TSIS5.1交通仿真平臺(tái)對(duì)圖1所示的干線交通路網(wǎng)進(jìn)行仿真，各交叉口相位設(shè)置如圖2所示.主要仿真參數(shù)設(shè)置如下：仿真12個(gè)時(shí)段，每時(shí)段3 600 s，時(shí)間間隔60 s，共仿真12 h，且不考慮行人和公交車輛影響，初始化路網(wǎng)的最大時(shí)間設(shè)為10 min.各信號(hào)交叉口的轉(zhuǎn)向率為{ p右, p直, p左} ={0.2,0.6,0.2}，東西和南北右轉(zhuǎn)均不控制.東西向各車道飽和流量為1 800 pcu/h，南北向各車道飽和流量為1 200 pcu/h.算法參數(shù)設(shè)置如下：Q學(xué)習(xí)因子α取0.2，γ取0.95，ε取0.1，遺忘因子系數(shù)m取4，混沌初始變量C0取0.1，最小周期設(shè)為60 s，最大周期設(shè)為120 s.初始交通量設(shè)置如表5所示，仿真結(jié)果和算法性能比較如表6所示.

表5 各方案的交通流量設(shè)置單位： pcu? h-1

表6 仿真結(jié)果和算法性能比較

從表6的仿真結(jié)果可見：在各種交通方案下，C-FQL比定時(shí)單點(diǎn)控制和SA—FQL（Simulated Annealing Fuzzy Q-learning）法控制干線上的平均延誤有不同程度的減少、平均速度有較大程度提高，表明本文方法在城市交通干線協(xié)調(diào)控制中能取得更好的整體效果；與SA-FQL算法相比，本文方法Q值收斂時(shí)的平均學(xué)習(xí)步數(shù)減少10.71%，學(xué)習(xí)速度加快.

4 結(jié)論

本文通過添加混沌擾動(dòng)改進(jìn)模糊Q學(xué)習(xí)中Agent產(chǎn)生動(dòng)作的方式，使Agent選擇動(dòng)作的空間增大，能夠在各種環(huán)境下更好地進(jìn)行學(xué)習(xí)優(yōu)化，以適應(yīng)各種交通狀況，因此能有效地解決干線交通控制配時(shí)優(yōu)化問題.相比以一定概率接受較差解的模擬退火策略，本文方法利用混沌擾動(dòng)自身的隨機(jī)性和遍歷性，更易跳出局部最小點(diǎn)，搜索速度更快、收斂速度也得以加快.

[1]劉智勇.智能交通控制理論及其應(yīng)用[M].北京：科學(xué)出版社，2003.

[2]高陽，陳世福，陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動(dòng)化學(xué)報(bào)，2004,30(1):2834-2837.

[3]ABDULHAIB B,PRINGLE R,KARAKOULAS G J.Reinforcement learning for true adaptive traffic signal control[J].Journal of Transportation Engineering,2003,129(3):278-285.

[4]劉智勇，馬鳳偉.城市交通信號(hào)的在線強(qiáng)化學(xué)習(xí)控制[C]//中國(guó)控制會(huì)議論文集.張家界：[s.n.],2007:34-37.

[5]馬鳳偉，劉智勇.城市交通干線的Q-學(xué)習(xí)控制算法[J].五邑大學(xué)學(xué)報(bào)：自然科學(xué)版，2007,21(3):17-22.

[6]鄧軍，劉智勇.基于SA-FQL算法的區(qū)域交通控制[J].計(jì)算機(jī)工程與應(yīng)用，2010,46(27):231-237.

[7]閆利軍，李宗斌，衛(wèi)軍胡.模擬退火算法的一種參數(shù)設(shè)定方法研究[J].系統(tǒng)仿真學(xué)報(bào)，2008,20(1):245-247.

[8]滕皓，曹愛增，楊炳儒.一種改進(jìn)變尺度混沌優(yōu)化的模糊量子遺傳算法[J].計(jì)算機(jī)工程，2010,36(13): 175-177.

[9]劉智勇，吳今培，李秀平，等.城市交通干線遞階模糊控制[J].公路交通科技，1997,14(3):17-23.

[10]TRB,National Research Council.Highway Capacity Manual 2000[Z].Washington:[s.n.],2003.

[11]張飛舟，范耀祖.交通控制工程[M].北京：中國(guó)鐵道出版社，2005.

[12]BERENJI H R.Fuzzy Q-learning for generalization of reinforcement learning[C]//Fuzzy system,Proceedings of the Fifth IEEE International Conference.New Orleans:1996,3:2208-2214.

[13]GUO Maozu,LIU Yang,JACEK M.A new Q-learning algorithm based on the metropolis criterion[J].IEEE Transactions on Systems Man and Cybernetics,2004,34(5):2140-2143.

Methods of Control for Traffic Signals on Urban Trunk Roads Based on C-FQL Algorithm

SONG Zheng-dong1,LIU Zhi-yong1,2
(1.School of Information Engineering,Wuyi University,Jiangmen 529020,China; 2.Jiangmen Polytechnic College,Jiangmen 529090,China)

Given the fact that it is difficult to establish an accurate mathematical model for coordinating control on urban traffic trunks,a chaotic fuzzy Q learning(C-FQL)approach,i.e.,the addition of chaotic disturbance to a fuzzy Q learning process,to change the way Agent chooses an action and to balance the relationship between the expansion and utilization by adding the forgetting factor.The C-FQL method is applied to control coordination on Urban Trunk Road to optimize the cycle,offsets and splits of the intersections.Application simulation to be used in control coordination on urban trunk roads is established using the C-FQL method and the TSIS traffic simulation platform. Simulation results show that the C-FQL method converges faster and is effective in control coordination on urban trunk roads.

trunk road coordinated control;chaotic fuzzy Q learning;fuzzy control;urban traffic

TP391

1006-7302（2011）03-0045-06

2011-03-15

廣東省自然科學(xué)基金資助項(xiàng)目（8152902001000014）；廣東省高等學(xué)校自然科學(xué)重點(diǎn)研究項(xiàng)目（05Z025）

宋正東（1985—），男，湖北宜昌人，碩士研究生，研究方向?yàn)橹悄芙煌刂?；劉智勇，教授，博士，碩士生導(dǎo)師，主要研究方向?yàn)橹悄芙煌刂?

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于C-FQL算法的城市干線交通信號(hào)控制

1 問題的描述

2 交通干線的C-FQL控制

3 仿真實(shí)驗(yàn)

4 結(jié)論