国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強化學(xué)習(xí)的通勤走廊韌性恢復(fù)雙層規(guī)劃

2024-04-29 12:14:50李雪巖張同宇祝歆
關(guān)鍵詞:韌性

李雪巖 張同宇 祝歆

摘要: 為實現(xiàn)通勤走廊內(nèi)機動公交接駁方案的科學(xué)設(shè)計,將其韌性恢復(fù)過程視為復(fù)雜環(huán)境中接駁方案經(jīng)過探索迭代實現(xiàn)韌性提升的雙層規(guī)劃。引入深度強化學(xué)習(xí)算法構(gòu)建上層規(guī)劃,采用價值函數(shù)神經(jīng)網(wǎng)絡(luò)擬合突發(fā)事件與出行者集群行為對接駁方案調(diào)整的反應(yīng)函數(shù),訓(xùn)練接駁方案達到?jīng)Q策目標(biāo)。下層規(guī)劃運用元胞神經(jīng)網(wǎng)絡(luò)模擬數(shù)據(jù)智能背景下的集群出行行為。實例研究表明,方法可以使通勤走廊韌性得到有效提升,而集群行為會對韌性恢復(fù)產(chǎn)生負(fù)面影響。

關(guān)鍵詞: 通勤走廊;韌性;接駁方案;深度強化學(xué)習(xí);集群行為

中圖分類號: U121;U491文獻標(biāo)識碼: A

Bi-level Programming for Resilience Restoration of Commuting Corridor Based on Deep Reinforcement Learning

LI Xueyana, ZHANG Tongyub, ZHU Xina

(a.School of Management; b. School of Urban Rail Transit and Logistics, Beijing Union University, Beijing 100101, China)

Abstract:In order to realize the scientific design of motor bus transferring scheme in the commuter corridor, the resilience recovery process of commuting corridor is regarded as a bi-level programming in which the resilience is improved through continuous exploration and iteration of ground bus transferring scheme in complex environment. The deep reinforcement learning algorithm is introduced to form the upper level planning, and the value function neural network is used to fit the response function of emergencies and travelers cluster behavior to the adjustment of ground bus transferring scheme. The decision-making objective is achieved by training the transferring schemes. In the lower level planning, the cellular neural network model is introduced to simulate the cluster travel choice behavior under the background of data intelligence. The case study shows that this method can effectively improve the resilience of the commuter corridor, and the cluster behavior will have a negative impact on the resilience recovery.

Keywords: commuting corridor; resilience; transferring scheme; deep reinforcement learning; cluster behavior

0 引言

超大型城市往往存在職住不平衡的特征,通勤走廊則以多種交通方式聯(lián)動合作的方式滿足較大時空尺度下的大規(guī)模人員流動需求,以北京市為例,城市副中心已實現(xiàn)以軌道交通為主的大容量快速交通體系,然而,據(jù)近年來的《北京交通發(fā)展年報》顯示,連接副中心與主城區(qū)的一號線東段工作日擁擠時間占比高達58.33%,可見,在提升改造軌道交通硬件承載力的同時,還須進一步加強地面公交線路接駁方案的科學(xué)設(shè)計,從而有效釋放運輸壓力,增強通勤走廊韌性。

自Murray Tuite[1]提出整體交通系統(tǒng)韌性概念以來,對交通系統(tǒng)韌性的研究主要集中于線網(wǎng)系統(tǒng)整體的中斷響應(yīng)、適應(yīng)性、安全性、吸收能力彈復(fù)性[2]等方面,進一步研究表明,運輸線路結(jié)構(gòu)調(diào)整產(chǎn)生的通行性能變化又是改變交通系統(tǒng)韌性的重要因素[23],由于優(yōu)化的線路可有效疏解擁擠、提高運輸效率,因此以通行性能提升為目標(biāo)的接駁方案優(yōu)化可提升交通系統(tǒng)的韌性恢復(fù)水平[4]。

針對交通系統(tǒng)韌性或性能提升,既有研究往往側(cè)重于線網(wǎng)系統(tǒng)的物理性質(zhì)變化,運用智能優(yōu)化算法獲取站點的修復(fù)策略[56],取得了良好的線網(wǎng)物理性能恢復(fù)效果;而在微觀層面,對特定出行場景(如通勤走廊)和韌性恢復(fù)的具體實施對象討論較少,也對出行者集群的內(nèi)在決策過程及行為復(fù)雜性進行了不同程度的簡化。然而,在現(xiàn)實通勤場景中,集群行為的涌現(xiàn)性是帶來交通系統(tǒng)性能、效率波動乃至產(chǎn)生反直覺悖論的重要誘因[7],數(shù)據(jù)智能背景下,社會成員均可通過各種智能設(shè)備實時獲取完全的出行信息,與各類信息源的互動效應(yīng)增強,集群活動的演化會與物理、信息、社會系統(tǒng)所構(gòu)成的環(huán)境相互反饋[89],產(chǎn)生短時并行集群行為,加之不同個體對效用的感知差異,如推理特征[10]、對避峰政策反應(yīng)的異質(zhì)性[11]等,使集群行為與非線性信息加工效應(yīng)的疊加產(chǎn)生涌現(xiàn)現(xiàn)象,表現(xiàn)為難以預(yù)測的突發(fā)性流量波動傳導(dǎo)與擁堵[12],從而影響交通系統(tǒng)性能??梢?,忽視這一因素會帶來優(yōu)化方案有效性的偏差,因此,將集群行為產(chǎn)生的均衡轉(zhuǎn)移因素引入交通系統(tǒng)韌性的計算具有合理性。如果能夠事先模擬出某些站點在突發(fā)停運條件下,通勤走廊集群行為復(fù)雜性與流量結(jié)構(gòu)的演化結(jié)果,則可以為應(yīng)急運力調(diào)配與協(xié)調(diào)提供正向反饋,有效提高韌性恢復(fù)策略的準(zhǔn)確性。

本文的建模思路為:在集群行為刻畫方面,運用元胞神經(jīng)網(wǎng)絡(luò)模擬數(shù)據(jù)智能背景下的集群出行復(fù)雜性,將通勤走廊的韌性恢復(fù)過程視為一個在復(fù)雜環(huán)境中,機動公交接駁方案經(jīng)過不斷探索調(diào)節(jié)實現(xiàn)動態(tài)優(yōu)化的雙層反饋學(xué)習(xí)過程,基于深度Q值強化學(xué)習(xí)(Deep Q-learning,DQN)在交通規(guī)劃問題中的迭代思想[1314],通過價值函數(shù)神經(jīng)網(wǎng)絡(luò)感知復(fù)雜環(huán)境變化,對智能體輸出的接駁方案進行獎懲,輸出最優(yōu)韌性恢復(fù)方案。

1 問題描述與公交通勤走廊韌性的刻畫

1.1 問題描述

考慮公交通勤走廊G=V,A,由N個地鐵站與N個與之對應(yīng)的地面公交站構(gòu)成,V表示站點集合,A表示站點之間的路段集合(a∈A)。R為地面公交線路集合,且已存在一條經(jīng)停各站的公交線,每條線路由站點與路段構(gòu)成,D表示通勤走廊的OD需求矩陣,D=D1,1…D1,NDN,1…DN,N,Di,j為站點i,j間的日出行需求,i,j∈V,在出行起訖點i,j之間,出行者可以選擇地鐵(m),也可以選擇地面公交r(無換乘,r∈R,)。在每天的出行活動時間段0,T中,出行者有M種出發(fā)時間選擇,表示為τ1=0,τ2=T/M,τ3=2T/M,…,τM=M-1T/M,對于τ∈τ1,τ2,…,τM,令qi,jτ表示站點i,j間選擇τ時刻出行的人數(shù),qκi,jτ表示站點i,j間選擇τ時刻出發(fā)且選擇出行方式κ的人數(shù),則qi,jτ=∑κ∈R,mqκi,jτ。地鐵站可能由于各類原因突發(fā)性停運(對于停運站點i或j,qmi,jτ=0),本文的科學(xué)問題為:針對地鐵站點突發(fā)停運事件,給出地面公交機動線路接駁方案,實現(xiàn)通勤走廊韌性的有效恢復(fù)。

1.2 通行效率視角下通勤走廊的韌性評估

考慮出發(fā)時間選擇差異對線路流量的影響,τM-1時刻進入路段的出行者不會全部在時間段τM-1,τM內(nèi)離開。定義0-1變量ξa,κ,τi,jτ′,當(dāng)站點i,j間τ時刻出發(fā)的出行者在τ′時刻能夠進入路段a時,ξa,κ,τi,jτ′=1,否則ξa,κ,τi,jτ′=0,則τ′時刻各路段的進入流量可表示為:uaτ′=∑Ni=1∑Nj=1∑κ∑τqκi,jτξa,κ,τi,jτ′。選擇不同出發(fā)時間時,公交線路的行程時間由未來τ′時刻的通勤走廊狀態(tài)決定,表示為

4 基于真實場景的數(shù)值模擬

本文的數(shù)值模擬以北京地鐵1號線為例,基于該線路區(qū)間“國貿(mào)”至“通州北苑”(見圖2)這一典型通勤走廊內(nèi)兩兩站點之間的真實客流刷卡數(shù)據(jù)(日期:2017年12月19日—12月25日,以天為單位取工作日平均值,見表1)作為Di,j取值,該段線路地鐵站與對應(yīng)公交站點的重合度較高,暫不考慮地鐵站出口與公交站位置影響,數(shù)值模擬環(huán)境為Matlab 2019a。

其中,Logit模型效用感知系數(shù)與出發(fā)時間感知系數(shù)θ參考文獻[15]中通勤者的效用系數(shù)得到(基于參數(shù)θ的數(shù)量級,將元胞神經(jīng)網(wǎng)絡(luò)中的集群學(xué)習(xí)強度pc設(shè)置為保證3.2小節(jié)中步驟3收斂的最大值),α,α1,α2,β,β1,β2,λu依據(jù)文獻[16]、[17]取值,λ1~λ4依據(jù)文獻[18]取值,ρ取0.5表示出行者群體為風(fēng)險中性,由于地面公交的時間穩(wěn)定性劣于地鐵,因此設(shè)置變異系數(shù)φr>φm,Te,Tb,Tl取值依據(jù)現(xiàn)實中的平均上班時間,考慮發(fā)車頻率與容量因素,設(shè)置cmetro>cbus。依據(jù)本文問題結(jié)構(gòu)與搜索空間規(guī)模,設(shè)置動作變量為Δx′s∈{在X′s的基礎(chǔ)上降低7,……,在X′m的基礎(chǔ)上降低1,保持不變,在X′s的基礎(chǔ)上提高1,在X′s的基礎(chǔ)上提高7},DQN迭代訓(xùn)練400次。站點間票價、地鐵站點間行程時間依據(jù)高德地圖數(shù)據(jù)取值。選取數(shù)據(jù)中客流量排名前三的站點(受突發(fā)事件影響較大,分別為大望路,四惠東,通州北苑)作為假設(shè)停運的重要地鐵站點。根據(jù)Kolmogorov定理,Q值神經(jīng)網(wǎng)絡(luò)與元胞神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元數(shù)量均為2×輸入層神經(jīng)元數(shù)量+1。

4.1 模型優(yōu)化結(jié)果對比

對本文模型進行數(shù)值模擬,為便于和無集群行為條件下的模擬結(jié)果進行對比,在相同的決策環(huán)境與參數(shù)條件下,將元胞神經(jīng)網(wǎng)絡(luò)模型替換為logit模型,方式:令出行者具有同質(zhì)的參照點uti,j(τ)=minκ∈{R,m}bκ,ti,j(τ)+12·[maxκ∈{R,m}bκ,ti,j(τ)-minκ∈{R,m}bκ,ti,j(τ)],站點i,j間出發(fā)時刻τ選擇出行方式κ的流量表示為qκ,ti,j(τ)=qi,j(τ)·eθ·Uκ,ti,j(τ)/∑κ∈{R,m}eκ,ti,j(τ),再次進行數(shù)值模擬,得到最優(yōu)接駁方案的強化學(xué)習(xí)過程。

圖3給出了基于DQN的通勤走廊韌性恢復(fù)過程及性能變化,由圖2、圖3結(jié)合表3可知,元胞神經(jīng)網(wǎng)絡(luò)模型對應(yīng)的接駁方案為:四惠、高碑店橋東;logit模型對應(yīng)的接駁方案為:高碑店橋東、梆子井。元胞神經(jīng)網(wǎng)絡(luò)模型對應(yīng)于較低的平均行程時間與等待時間之和,出行者獲取了更高的前景效用,在集群行為的作用下,地面公交的平均斷面流量高于logit模型,通勤走廊的高峰時段最大客流量高于logit模型(見圖3c、d,出行方式坐標(biāo)軸的“1”表示既有公交線,“2”表示機動公交線,“3”表示發(fā)生站點停運的地鐵),最終經(jīng)站點距離加權(quán)后,元胞神經(jīng)網(wǎng)絡(luò)模型對應(yīng)最優(yōu)接駁方案產(chǎn)生的韌性恢復(fù)效果劣于logit模型,可見,logit模型中出行者的參照點具有同質(zhì)性,更加有利于實現(xiàn)整體理性,而集群行為進化以個體通過交互尋求自身效用最大化為動力,出行者個體對效用信息的感知和決策的發(fā)生具有并行性,大量個體會同時做出有利于自身的決策(符合現(xiàn)實中信息傳播特點),從而對通勤走廊的韌性恢復(fù)產(chǎn)生了負(fù)面影響。進一步,相對于僅重復(fù)增加既有地面公交線路運力(經(jīng)停各站而不對接駁方案進行優(yōu)化)與直接對停運站點增加接駁,DQN方法輸出的接駁方案使通勤走廊韌性得到了更大的提升。

4.2 集群行為與通勤走廊性能分析

調(diào)節(jié)出行者集群的學(xué)習(xí)強度與風(fēng)險態(tài)度參數(shù),考察通勤走廊的韌性變化情況。圖4給出了優(yōu)化進程中出行者集群行為與通勤走廊各性能的模擬結(jié)果。由圖4a、b可知,當(dāng)出行者群體的出發(fā)時間敏感度較低時,能夠?qū)崿F(xiàn)錯峰出行,不同出行方式的效用差異較小,集群學(xué)習(xí)強度對平均行程時間并無顯著影響,而當(dāng)出發(fā)時間的敏感程度較高(對“早到”和“遲到”更加敏感)時,地鐵分流大量客流,效用差異增大,集群學(xué)習(xí)進化降低了通勤走廊平均行程時間與地面公交斷面流量。由圖4a、c可知,當(dāng)出發(fā)時間的敏感程度較高時,集群學(xué)習(xí)進化強度的增加雖然能夠降低平均行程時間,使通勤走廊韌性得到提升,但由于出行者個體對效用信息的感知和決策的發(fā)生具有并行性,因此其對通勤走廊韌性的提升幅度有限。因此,在交通管理實踐中,在對機動公交接駁方案進行優(yōu)化的基礎(chǔ)上,還應(yīng)在降低出行者群體出發(fā)時間敏感性時同步增加準(zhǔn)確出行信息的擴散程度。由圖4d可知,相同的群體風(fēng)險態(tài)度下,集群學(xué)習(xí)進化強度的增加使出行者獲得了更高的效用,出行者群體的前景效用與風(fēng)險態(tài)度之間呈現(xiàn)“倒S型”曲線,符合參照點依賴現(xiàn)象[18],驗證了元胞神經(jīng)網(wǎng)絡(luò)模型刻畫累積前景效用的有效性。

5 結(jié)論

本文引入深度強化學(xué)習(xí)算法與元胞神經(jīng)網(wǎng)絡(luò)構(gòu)建通勤走廊韌性恢復(fù)的雙層規(guī)劃模型,研究結(jié)果表明:重要地鐵站點停運時,相對于僅重復(fù)增加既有地面公交線路運力或直接對停運站點增加接駁的做法,基于DQN方法的接駁方案優(yōu)化使通勤走廊韌性得到更大提升;在韌性恢復(fù)優(yōu)化進程中,集群信息交互行為雖然提升了出行者個體的效用值,但會對通勤走廊的韌性恢復(fù)產(chǎn)生負(fù)面影響,具體表現(xiàn)為:在集群行為作用下,地面公交的平均斷面流量顯著增加,通勤走廊的高峰時段最大客流量顯著增加,韌性值降低;交通管理實踐中,為使通勤走廊韌性得到最大限度恢復(fù),在接駁方案優(yōu)化的基礎(chǔ)上,還應(yīng)在降低出行者群體出發(fā)時間敏感性時同步增加準(zhǔn)確出行信息的擴散程度。

參考文獻:

[1]MURRAY T, PAMELA. A Comparison of transportation network resilience under simulated system optimum and user equilibrium conditions[C]// Proceedings of the Winter Simulation Conference WSC 2006. California, USA: Monterey, 2006: 1398-1405.

[2]張潔斐, 任剛,馬景峰,等. 基于韌性評估的地鐵網(wǎng)絡(luò)修復(fù)時序決策方法[J].交通運輸系統(tǒng)工程與信息,2020,20(4):14-20.

ZHANG J F, Ren G, MA J F, et al. Decision-making method of repair sequence for metro network based on resilience evaluation [J]. Journal of Transportation Systems Engineering and Information Technology, 2020,20(4):14-20.

[3]謝永順, 王成金, 韓增林, 等. 哈大城市帶網(wǎng)絡(luò)結(jié)構(gòu)韌性演化研究[J]. 地理科學(xué)進展,2020,39(10):1619-1631.

XIE Y S, WANG C J, HAN Z L, et al. Structural resilience evolution of multiple urban networks in the Harbin-Dalian urban belt[J]. Progress in Geography, 2020, 39(10): 1619-1631.

[4]HUANG D, GU Y, WANG S, et al. A two-phase optimization model for the demand-responsive customized bus network design[J]. Transportation Research Part C Emerging Technologies, 2020, 111:1-21.

[5]呂彪,管心怡,高自強.地鐵網(wǎng)絡(luò)服務(wù)韌性評估與最優(yōu)恢復(fù)策略[J].交通運輸系統(tǒng)工程與信息,2021,21(5):198-205,221.

LV B, GUAN X Y, GAO Z Q. Evaluation and optimal recovery strategy of metro network service resilience [J]. Journal of Transportation Systems Engineering and Information Technology, 2021,21(5):198-205,221.

[6]周日彪,龐明寶,王雄杰.基于K-shell的特大城市公交換乘優(yōu)惠與線網(wǎng)規(guī)劃協(xié)同優(yōu)化[J].公路交通科技,2021,38(6):141-148.

ZHOU R B, PANG M B, WANG X J. Coordination optimization of transfer pricing discount and network planning for public transport of megalopolis based on K-shell [J]. Journal of Highway and Transportation Research and Development, 2021,38(6):141-148.

[7]KROESEN M. CHORUS C. A new perspective on the role of attitudes in explaining travel behavior: a psychological network model [J]. Transportation Research Part A: Policy and Practice. 2020(133):82-94.

[8]周城溪,肖玲玲. 考慮家庭成員的早高峰出行行為分析[J].系統(tǒng)工程理論與實踐,2020,40(12):3220-3229.

ZHOU C X, XIAO L L. The analysis of travel behavior during morning rush hour considering household travels [J]. Systems Engineering-Theory & Practice, 2020,40(12):3220-3229.

[9]袁韻, 徐戈, 陳曉紅, 等. 城市交通擁堵與空氣污染的交互影響機制研究-基于滴滴出行的大數(shù)據(jù)分析[J]. 管理科學(xué)學(xué)報,2020,23(2):54-73.

YUAN Y, XU G, CHEN X H, et al. Study on the interactive mechanism of urban traffic congestion and air pollution: a big data analysis based on Di Di Chuxing [J]. Journal of Management Science in China, 2020,23(2):54-73.

[10] ZHU Z, MARDAN A, ZHU S J, et al. Capturing the interaction between travel time reliability and route choice behavior based on the generalized Bayesian traffic model[J]. Transportation Research Part B: Methodological,2021(143): 48-64.

[11] WANG Y, WANG Y, CHOUDHURY C. Modelling heterogeneity in behavioral response to peak avoidance policy utilizing naturalistic data of Beijing subway travelers[J]. Transportation Research Part F: Traffic Psychology and Behaviour, 2020,73:92-106.

[12] 蔣陽升,劉紋滔,姚志洪.基于元胞自動機的軌道交通突發(fā)客流擁堵消散演化機理研究[J].交通運輸系統(tǒng)工程與信息,2020,20(5):121-127.

JIANG Y S, LIU W T, YAO Z H.Evolution mechanism of congestion and dissipation of sudden passenger flow in urban rail transit based on Cellular Automata [J]. Transportation Systems Engineering and Information Technology, 2020,20(5):121-127.

[13] KOH S, ZHOU B, FANG H, et al. Real time deep reinforcement learning based vehicle navigation[J]. Applied Soft Computing, 2020(96): 106694.

[14] 賈飛凡, 蔣熙, 李海鷹, 等. 基于強化學(xué)習(xí)的城軌信息發(fā)布策略研究[J]. 交通運輸系統(tǒng)工程與信息, 2020, 20(5):72-78.

JIA FF, JIANG X, LI H Y, et al. Information release strategy of urban rail transit based on reinforcement learning [J]. Journal of Transportation Systems Engineering and Information Technology, 2020, 20(5):72-78.

[15] 姚恩建,張茜,張銳.公共交通票價對通勤走廊出行結(jié)構(gòu)的影響[J].交通運輸工程學(xué)報,2017,17(6):104-114.

YAO E J, ZHANG Q, ZHANG R. Impact of public transport fare on travel mode structure of commuting corridor [J]. Journal of Traffic and Transportation Engineering, 2017,17(6):104-114.

[16] TVERSKY A, KAHNEMAN D. Advances in prospect theory: cumulative representation of uncertainty [J]. Journal of Risk and Uncertainty. 1992, 5(4): 297-323.

[17] PRELEC D. The probability weighting function [J]. Econometrica, 1998, 66(3): 497-527.

[18] LI X Y, LI X M, YANG L R, et al. Dynamic route and departure time choice model based on self-adaptive reference point and reinforcement learning[J].Physica A: Statistical Mechanics and Its Applications, 2018, 502: 77-92.

(責(zé)任編輯 李 進)

收稿日期: 20220510;修回日期: 20220617

基金項目: 北京市社會科學(xué)基金(21GLC046)

第一作者: 李雪巖(1987),男,內(nèi)蒙古呼和浩特人,博士,講師,主要研究方向為復(fù)雜系統(tǒng)建模。

通信作者: 祝歆(1977),男,貴州貴陽人,博士,教授,主要研究方向為智慧城市關(guān)鍵技術(shù)。

猜你喜歡
韌性
中國經(jīng)濟有韌性
強化糧食供應(yīng)鏈韌性
穩(wěn)住農(nóng)業(yè)基本盤 增強發(fā)展“韌性”
強化糧食供應(yīng)鏈韌性
高黏度改性瀝青黏韌性的影響因素
石油瀝青(2021年1期)2021-04-13 01:31:04
中國玩具出口韌性強
玩具世界(2019年6期)2019-05-21 03:29:54
房地產(chǎn)市場韌性猶存
中國外匯(2019年22期)2019-05-21 03:15:08
新時代下的“韌性媽媽”
中華家教(2018年11期)2018-12-03 08:08:24
韌性,讓成長更美好
中華家教(2018年11期)2018-12-03 08:08:20
將“青春的任性”轉(zhuǎn)為“科研的韌性”
中國公路(2017年10期)2017-07-21 14:02:37
来安县| 塔河县| 永昌县| 阿拉善左旗| 平凉市| 垫江县| 鹤岗市| 雷波县| 永新县| 庆城县| 莒南县| 彰化市| 通河县| 通山县| 南木林县| 花莲市| 洛浦县| 满洲里市| 公主岭市| 丰县| 珲春市| 汤原县| 西城区| 屏东市| 沙坪坝区| 田林县| 平阴县| 东乌珠穆沁旗| 海伦市| 韩城市| 武城县| 白城市| 康定县| 四子王旗| 冷水江市| 阳高县| 修水县| 兖州市| 昭通市| 乡城县| 乐山市|