摘要:城市交通控制在城市交通管理中起著至關重要的作用,隨著我國公路信息化進程的加快,城市公路交通的數據來源不斷豐富,神經網絡和強化學習等人工智能方法能夠被運用于解決各種實際交通問題,城市交通控制的研究也因此邁向了新的發(fā)展階段。回顧了近年人工智能在城市交通控制中的研究成果,主要包括神經網絡、強化學習和深度強化學習三方面在城市交通控制中的應用,展望了融合神經網絡和強化學習的深度強化學習,將會在城市交通控制領域日益受到廣大學者的關注。
關鍵詞:城市交通控制;人工智能;神經網絡;強化學習;深度強化學習
一、前言
近些年,我國汽車數量的快速增長導致了交通擁堵問題在全國各城市中普遍存在,對人們的工作和旅行造成了越來越嚴重的負面影響。人工智能技術如神經網絡和強化學習的運用,已經成功地在城市交通管理上,為解決交通堵塞問題開辟了新的途徑。
20世紀70年代,新一代人工智能作為三種最具前途的科學技術(基因組工藝技術、納米科學信息技術、人工智能)之一[1],受到越來越多的重視。幾十年來,它的發(fā)展日新月異,不僅僅包括某些特定的研究領域,而且還涉及許多其他的學科,從而產生出很多的創(chuàng)造性發(fā)展,使其從傳統的模型發(fā)展到更加先進的模型,形成了完整的體系。隨著20世紀90年代的科技進步,以及互聯網的迅猛興起,越來越多的支持向量機、遺傳算法、神經網絡、深度教育、增強教育等先進的新一代人工智能計算應運而生,使人類的自主調控與選擇實力大大增強。近年來,由于人工智能的飛速發(fā)展,許多科學家努力開發(fā)出各種不同的交通控制系統[2-4],從而實現了從單個車道的自動管理到多個車道的聯動管理,以及對車輛的實時監(jiān)測、實時信息的處理。
二、概述
(一)神經網絡
神經網絡是一種深度學習模型,由大量的神經元之間相互連接構成,能夠逼近任意非線性函數。從上世紀90年代到本世紀初,神經網絡的研究一直處于較低的水平,直到2021年TmageNet競賽[5],由深度卷積神經網絡設計的算法模型獲得了第一名。這一事件肯定了深度學習的強大,在解決一些問題時超越了其他算法模型。再比如AlphaGo,是由谷歌DeepMind開發(fā)的基于深度強化學習的圍棋人工智能程序,擊敗了世界冠軍柯潔,同樣展現出深度學習的威力。
CNN即卷積神經網絡,是一類基于卷積運動的、擁有高度復雜的深度教學機理的前沿神經網絡(Feedforward Neural Networks),在深度教學應用領域發(fā)揮著重要作用[6]。卷積神經網絡具有復雜的構造,由多個不同的模板構成。它們能夠根據外界提供的數據,自動調整建模的參量,并且能夠根據外界提供的數據進行修正。卷積神經網絡結構通常分為三層,分別是輸入層、隱含層和輸出層。通常而言,卷積神經網絡的三個基本結構分別為:卷積層、池化層及完整的連結層。卷積層的功能是對輸入數據進行特征提取,其內部包含多個卷積核,組成卷積核的每個元素都對應一個權重系數和一個偏差量(bias vector),類似于一個前饋神經網絡的神經元(Neuron)。在卷積神經網絡中,輸入層的設計基礎遵循了全連接模型的思想,使得它的結構、運行機制乃至處理復雜圖像信息的方式都大致一致。為了解決復雜的圖像識別任務,輸入層可以使用邏輯函數(Softmax Function)來生成準確的識別標記。通過將物體的位置、尺寸及特征信息傳遞給輸入層,能夠實現對該物體的有效識別。此外,通過使用圖形語言,還能夠對所有像素進行有效分類。
(二)強化學習
強化學習也被稱為再勵學習、評估學習、增強學習,是人工智能的重要組成部分。它旨在幫助智能體(Agent)利用學習算法來提高效率,并且有助于智能體更好地理解周圍的信息,從而獲得更高的效益。通過采用馬爾可夫決策過程(Markov Decision Process,MDP),能夠更加精確地描述復雜的情況,從而使得環(huán)境狀態(tài)的變換不再受到限制,而是受其他條件的影響。MDP模型按照狀態(tài)逐步計算[7-8]每個情節(jié)的終止點為終止時間T或終止狀態(tài)S^T。
MDP是一種基于貝爾曼方程的狀態(tài)值函數計算方法,DP則是一種更加復雜的動態(tài)規(guī)劃方法[9]。當智能體的狀態(tài)轉移概率及相應的獎勵函數不明確時,蒙特卡洛[10]方法可以幫助智能體更好地估計狀態(tài)值函數,從而更有效地實現強化學習。盡管 MC可以幫助處理復雜的模型,但在缺乏足夠數據的情況下,這種方法將會變得非常困難。因此,時間差分[11](Temporal Difference,TD)技術應運而生,它將MC和DP技術相結合,通過一次性迭代,可以在未獲得足夠數據的情況下,自動獲取模型的值函數。TD技術的出現大大改善了傳統的MC技術,具有極大的靈活性,并且可以有效地增加模型的學習效率,從而成為目前大多數值加權、策略梯度等強化學習及其他更復雜的計算機系統的核心。
(三)深度強化學習
加強學習技術的開發(fā)使得深入教學活動成為一種切實可行的方法,包括利用神經網絡的表示能力,對Q表進行擬合,并采用直接擬合的方式,從而有效地處理復雜、多樣的情境,特別是當處理較長的期間內的狀態(tài)-活動時,加強學習技術可以幫助有效地完成這些任務。隨著科技的蓬勃發(fā)展,傳統的增強教學方式已經不能滿足越來越多的應用要求,受到了運算空間、數據空間以及模型規(guī)模的限制,因此只能用于簡單的構建課程設置。但是,隨著技術的進步,越來越多的應用需要將這些方法應用到更加復雜多變、更貼切實際的環(huán)境中。例如,對于圖像、聲音等需要高維度的信息,常規(guī)的加強教學已經不能滿足需求,因此,深度加強教學應運而生,它將深度學習中的高維輸入與加強教學相融合,以滿足交通控制的實際需求。它能夠提供準確、可靠的模型設計,并能夠模擬真實的環(huán)境條件,從而滿足不同的應用需求[12]。通過使用先進的增強現實技術,可以更準確地預測各種復雜情況下的模型參數。
三、神經網絡的應用
針對目前交通信號控制系統僅對檢測到的交通問題進行實時控制,而不關注早期預測和估計,很少考慮與應急車輛到達和引導相關的交通問題,Louati等[13]依靠人工神經網絡(ANN)和卷積神經網絡(CNN)的概念和機制,結合最長隊列優(yōu)先最大權重匹配算法(LQF-MWM),開發(fā)了預測性和反應性交通信號控制系統PANNAL(Predictive Artificial Neural Networks Algorithm based Longest Queue First)。PANNAL是一個基于多Agent的系統,每個Agent都有ANN、CNN和LQF-MWM,以適應信號序列和持續(xù)時間,并有利于緊急車輛的交叉,代理具有考慮協調的異構體系結構。圖1為PANNAL的流程示意圖,描述了系統的概念和體系結構,包括交通狀態(tài)預測、緊急情況設計、控制決策、電動汽車檢測方式、電動汽車覆蓋類型和相關優(yōu)先級規(guī)則以及多智能體體系結構。
劉凱[14]通過生產訓練樣本數據訓練反向傳播人工神經網絡,然后使用反向傳播人工神經網絡對濟南市歷下區(qū)仿真交通系統進行調控獲取調控后擁堵總量數據,最后與無調控濟南市歷下區(qū)仿真交通系統擁堵總量數據和真實交通系統擁堵總量數據對比驗證。張偉[15]提出的模糊神經網絡第二層中引入內部反饋連接,可以有效地應對復雜多變的交通環(huán)境,從而解決以往靜態(tài)網絡難以處理的暫態(tài)問題。該模糊神經網絡采用遺傳算法和反向傳播BP算法相結合,具有宏觀搜索能力和高度魯棒性,有效避免了神經網絡算法容易陷入局部極小和震蕩效應等不足。
四、強化學習的應用
隨著科技的發(fā)展,南京郵電大學唐菁[16]提出的雙競爭網絡技術的寬度強化學習(Double Dueling Deep Reinforcement Learning,DDBRL)技術架構,可以有效地改善傳統的交通信號控制,使其能夠更好地應對日漸增加的實時交通流量,從而更好地滿足不斷變化的市場需求,有效地改善城市道路的安全狀況。采用深度/寬窄增強學習技術,可以有效地改善傳統的深度教學方法的性能,特別是它可以有效地抑制模型的誤差,提高模型的準確性。尤其是在面臨復雜的交叉道路控制時,深度學習技術可以有效地幫助理解道路的復雜性,并且可以更快地找出更有效的道路控制策略。王翀[17]等結合強化學習提出了一種多智能體協同控制算法,該算法主要用于主線可變限速協同控制,也可以輔助主線和匝道的協同控制,能夠起到較好的控制效果。在匝道控制和主線協同控制方面,采用匝道控制優(yōu)先,可變限速控制協同的策略,在保證控制系統本身對高速公路交通流影響最小的前提下,提升道路交通流的通行效率。
五、深度強化學習的應用
DQN(Deep Q Network)存在著被過度評價的風險,因此,Liang[18]等研究者提出了一種新的技術——雙重決斗DQN,它能夠有效地抑制DQN對Q值的偏差,從而大大改善模型的可靠性。該技術采用CNN來實現Q值函數的逼近,從而達到更好的擬真效果。通過采用一種獨特的策略,即根據交通流量的變化,對各種相位的持續(xù)時間進行調整,從而實現對交通流量的優(yōu)化。調整可變的紅綠燈時鐘是描述道路狀態(tài)的重要因素,因此,在增益模型的構建過程中,需要考慮到這一點。為了避免因為過短的紅綠燈時鐘間隔造成的誤差,Wan[19]和其他研究者將一個動態(tài)貼現因子納入Bellman模型的模型中。Gender等人給出了一個新的方法,即利用卷積神經網絡(Convolutional Neural Network)來模擬復雜的交通系統,該方法既考慮了復雜系統的行駛路線,又考慮了復雜系統的運行速度,以及復雜系統的運行模式。該方法首先把復雜系統運行路徑的運行速率(汽車定位、車速)變成一個可以被模擬的數值,從而模擬復雜的系統運行路徑CNN,幫助準確地預測Q值,而Q-learning則利用貪婪策略來實現這一點。遺憾的是,Q值的過高估計會引起系統的振蕩,從而危害模型的性能,并且給出的結果帶來很大的偏差。因此,Li[20]等研究者給出了一個新的解決辦案,即采用堆棧自編碼器(SAE)來代替DQN,從而減少Q值的超高值,提高Q-learning的準確性。這種方法可以幫助模型模擬出不僅僅考慮模型本身的特征,還考慮模型所處的環(huán)境,從而達到模型的整合性。通過對比不同智能體的全球視野,建立起一套完善的模型,以便有效地識別和執(zhí)行各種行為,以達到最佳的效果。
Wu[21]等人的研究發(fā)現,MARDDPG可以有效地改善Critic網絡和Actor網絡的表現,它通過引入長期存儲的 LSTM來增強模型的可靠性,從而使其能夠更好地適應復雜的實際情況。Tan[22]等研究者采用雙DQN模型來改善Critic網絡的性能,其基本原理是:在當前的環(huán)境下,根據當前的信號相位、隊伍的長度,以及車輛行駛的平均速度,采用雙DQN模型,以有效地改善模型的性能。為了更有效地改善交通信號控制系統的穩(wěn)健性,在狀態(tài)集的隊列中引入了噪音數據,同時采用多層神經網絡來抵御外界干擾,從而大大增強了模型的抗干擾能力。賴建輝[23]開發(fā)的D3QN(Double Deep Q-Learning Network with Dueling Architecture)深度強化學習技術可以有效地改善交通管理,他們使用神經網絡,建立一個可以根據不同路段的情況,自動調節(jié)路段的信號,并且根據實時路況變更,實現對路段的實時監(jiān)測,從而有效地改善路段的安全性。此外,他們還可以使用離散交通狀態(tài)編碼技術,把路段的實時路況變更,以便更好地掌握路況,從而更好地管理路段的安全性。采用深度學習技術,可將復雜的交通信息轉換成更加準確的模擬結果,并且可以使用SUMO等小尺寸的模擬工具,模擬出不同的定時控制和感測控制系統,從而更好地掌握道路的運動情況。
Zang[24]提出了一種基于值的元學習方法[25],能夠有效地幫助交通管理者識別出各種復雜情況,并且能夠在多種環(huán)境下進行有效調整,從而構建出一種能夠滿足各種復雜路況要求、具有良好性能特征的元學習器。 FRAP++[26]是一種用來學習個人行為的有效參數學習算法,它大大簡化了傳統的計算機視覺(FRAP)算術的復雜程序,從而增加了模擬的遷移性,并且使得元學習器更容易學習到更多的信息,從而更有針對性地處理不同的路況,實現在交通信號控制領域的深層次學習。DQN的狀態(tài)信息學習技術主要依賴于CNN,但是CNN的信息處理效率不高,為了解決這個問題,Nishi[27]和他的團隊采用了圖卷積神經網絡( GCN)來捕捉道路的幾何特征,并將其應用到分布式的交叉口,利用N步神經擬合(Q)迭代(NFQI)來進行批量處理,最終得出Q值。
六、結語
本文回顧了人工智能的方法在城市交通控制中的研究成果,主要包括神經網絡、強化學習和深度強化學習三類人工智能技術在城市交通控制中的應用。近年來神經網絡結合強化學習構成的深度強化學習在城市交通控制方面的應用呈現明顯增長的趨勢。未來利用不同類型的神經網絡模型構成的改進深度強化學習的方法,將會在城市交通控制研究上受到學者們更多的關注。
參考文獻
[1]Li J, Mei X, Prokhorov D. Deep Neural Network for Structural Prediction and Lane Detection in Traffic Scene[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017: 653-664.
[2]秦鴻權.城市交通路口信號控制存在的問題及對策分析[J].建材與裝飾,2020(04):262-263.
[3]王港,帥通,陳金勇,等.基于深度強化學習的航天信息綜合應用與決策研究[J].無線電工程,2019,49(07):564-570.
[4]馬麗,劉惟一.多個交通路口調度博弈模型及其均衡求解的增強學習算法[C]//中國自動化學會.第27屆中國控制會議論文集.北京,2018:477-483.
[5]Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]// International conference on Neural Information Processing System. Curran Associates Inc., 2012: 1097-1105.
[6]Goodfellow I, Bengio Y, Courville A. Deep learning [M]. Cambridge: The MIT Press, 2016.
[7]YANG J, ZHANG J, WANG H. Urban traffic control in software defined internet of things via a multi-agent deep reinforcement learning approach[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22(6): 3742-3754.
[8]MOUSAVI S S, SCHUKAT M, HOWLEY E. Traffic light control using deep policy-gradient and value-function based reinforcement learning[J]. IET Intelligent Transport Systems, 2017, 11(7): 417-423.
[9]Bellman R. Dynamic programming[J]. Science, 1966, 153(3731): 34-37.
[10]METROPOLIS N, ULAM S. Learning to predict by the methods of temporal differences[J]. Machine Learning, 1949, 44(247): 335-341.
[11]SUTTON R S. Learning to predict by the methods of temporal differences[J]. Machine Learning, 1988, 3(1): 9-44.
[12]Sutton R S, Barto A G. Reinforcement Learning: An Introduction[M]. Cambridge: The MIT press, 2018.
[13]Louati A, Louati H, Nusir M, Hardjono B. Multi?agent deep neural networks coupled with LQF?MWM algorithm for traffic control and emergency vehicles guidance[J]. Journal of Ambient Intelligence and Humanized Computing, 2020, 11: 5611-5627.
[14]劉凱.基于人工神經網絡的智能交通調控研究——以濟南市歷下區(qū)為例[D].濟南:山東師范大學,2018.
[15]張偉,肖日東,鄧晶.基于遺傳算法的動態(tài)模糊神經網絡城市快速路入口匝道控制[J].公路交通科技,2017,34(02):129-134+148.
[16]唐菁.基于半監(jiān)督雙競爭網絡寬度強化學習的智慧交通信號控制方法研究[D].南京:南京郵電大學,2021.
[17]Wang C, Zhang J, Xu L, et al. A New Solution for Freeway Congestion: Cooperative Speed Limit Control Using Distributed Reinforcement Learning[J]. IEEE Access, 2019, 7: 41947-41957.
[18]LIANG X, DU X, WANG G, et al. A deep reinforcement learning network for traffic light cycle control[J]. IEEE Transactions on Vehicular Technology, 2019, 68(2): 1243-1253.
[19]WAN C H, HWANG M C. Value-based deep reinforcement learning for adaptive isolated intersection signal control[J]. IET Intelligent Transport Systems, 2018, 12(9): 1005-1010.
[20]LI L, LV Y, WANG F Y. Traffic signal timing via deep reinforcement learning[J]. IEEE/CAA Journal of Automatica Sinica, 2016, 3(3): 247-254.
[21]WU T, ZHOU P, LIU K, et al. Multi-agent deep reinforcement learning for urban traffic light control in vehicular networks[J]. IEEE Transactions on Vehicular Technology, 2020, 69(8): 8243-8256.
[22]TAN K L, SHARMA A, SARKAR S. Robust deep reinforcement learning for traffic signal control[J]. Journal of Big Data Analytics in Transportation, 2020, 2(3): 263-274.
[23]賴建輝.基于D3QN的交通信號控制策略[J].計算機科學,2019,46(S2):117-121.
[24]ZANG X, YAO H, ZHENG G, et al. Metalight: Value -based meta-reinforcement learning for traffic signal control[C]// AAAI. Proceedings of the AAAI Conference on Artificial Intelligence California: AAAI, 2020, 34(01): 1153-1160.
[25]TAN M. Multi-agent reinforcement learning: Independent vs. cooperative agents[C]// Proceedings of the Tenth International Conference on Machine Learning. Honolulu: Scopus, 1993: 330-337.
[26]ZHENG G, XIONG Y, ZANG X, et al. Learning phase competition for traffic signal control[C]// ACM. Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 1963-1972.
[27]NISHI T, OTAKI K, HAYAKAWA K, et al. Traffic signal control based on reinforcement learning with graph convolutional neural nets[C]// 2018 IEEE 21st International Conference on Intelligent Transportation Systems. IEEE, 2018.
作者單位:洛陽文化旅游職業(yè)學院
■ 責任編輯:張津平、尚丹