郭靜秋, 方守恩, 曲小波, 王亦兵, 劉洋澤西
(1.同濟(jì)大學(xué) 道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室,上海 201804; 2. 查爾姆斯理工大學(xué) 建筑與土木工程系,查爾姆斯 41296; 3.浙江大學(xué) 建筑工程學(xué)院,浙江 杭州 310058)
智能網(wǎng)聯(lián)車(connected and automated vehicle, CAV)是近年來道路交通領(lǐng)域革命性的發(fā)展方向,有望從微觀行駛行為層面改善傳統(tǒng)交通流特性[1].自適應(yīng)巡航控制(adaptive cruise control,ACC)和協(xié)同自適應(yīng)巡航控制(cooperative adaptive cruise control,CACC)是CAV技術(shù)發(fā)展的重要階段.然而,在未來相當(dāng)長的時(shí)間里,CAV的市場滲透率將逐步增長,CAV將與普通車輛(regular vehicle, RV)長期共享有限的道路資源.CAV環(huán)境下的交通調(diào)控和資源整合優(yōu)化是一項(xiàng)極具挑戰(zhàn)的課題.Chen等人在研究自動駕駛車輛換道決策模型時(shí),通過層次分析法和逼近最優(yōu)解的排序思想,對普通的換道決策進(jìn)行多屬性賦值,從而實(shí)現(xiàn)車輛換道安全和效率的平衡約束[2].Talebpour等人在車聯(lián)網(wǎng)環(huán)境下提出了一種基于博弈論的車輛換道決策模型[3].Meng等人在此基礎(chǔ)上,結(jié)合結(jié)構(gòu)平衡理論,構(gòu)建了滾動時(shí)域控制的博弈換道決策模型[4].他們認(rèn)為車輛換道決策問題可分解為換道價(jià)值和換道安全兩個(gè)子問題,并在應(yīng)用博弈論對車輛間影響、換道安全和駕駛效率綜合考慮后給出換道決策.
然而,國內(nèi)外學(xué)者在混合交通流特性研究方面還處于起步階段.一方面,相比于RV,CAV具有更小的反應(yīng)延遲時(shí)間,在行駛過程中與前車保持更小的車頭時(shí)距,借此可以提升行駛速度;另一方面,CAV具備與周圍同類型車輛相互通信的能力,這一能力可以使得CAV在換道操作過程中獲得更多信息,有助于生成并執(zhí)行更加靈活、智能的決策.因此,CAV有可能對提升道路通行能力發(fā)揮積極效能[2-8].此外,自動駕駛汽車可能會降低能源消耗和尾氣排放,對低碳出行也有一定的推動作用[9].
目前,國內(nèi)外對智能網(wǎng)聯(lián)環(huán)境下的宏微觀混合交通流特性以仿真研究為主.宏觀方面主要依靠不同的車隊(duì)車輛間距、車輛換道策略分析混合交通流宏觀特性[6, 10].然而,由于宏觀模型通常在該問題上進(jìn)行了大量的假設(shè),容易使得分析結(jié)果與實(shí)際條件產(chǎn)生較大的差異.采用均衡交通流模型的文獻(xiàn)多數(shù)基于流密曲線.微觀行為分析是研究此問題的主流途徑[11-12].通過考慮混合交通流的離散性,分解CAV及RV不同的跟馳及換道行為來進(jìn)行仿真演化,并反應(yīng)混合交通流的整體宏觀特性.元胞自動機(jī)(cellular automata model, CA)是一種經(jīng)典的中(微)觀交通研究基礎(chǔ)模型,它能夠通過制定簡單的演化規(guī)則來有效地模擬并復(fù)現(xiàn)微觀交通的非線性特征,從而被大量地作為基礎(chǔ)模型并應(yīng)用于各種特殊環(huán)境下的微觀交通流研究[13-18].然而,由于CAV與RV是兩種不同的智能體,傳統(tǒng)的CA固定規(guī)則無法很好地描述CAV的智慧跟馳及換道行為,因此難以揭示出逼近真實(shí)的混合交通流特性.到目前為止,嵌入CAV智能性的混合交通流的仿真研究依然缺乏.
近年來,以強(qiáng)化學(xué)習(xí)為代表的人工智能領(lǐng)域迅速興起,并在自然語言處理、圖像識別等方面取得重大突破[19-20].強(qiáng)化學(xué)習(xí)是智能體以從環(huán)境狀態(tài)中得到累積獎勵值為目標(biāo)而進(jìn)行動作選擇的映射學(xué)習(xí)[21-23].不同于元胞自動機(jī)規(guī)則化的行為選擇,強(qiáng)化學(xué)習(xí)通過試錯過程來進(jìn)行最優(yōu)行為策略映射.Q學(xué)習(xí)是一種流行的免模型強(qiáng)化學(xué)習(xí)方法,通過值迭代的方式逼近馬爾科夫決策過程中的最優(yōu)策略,可以很好地體現(xiàn)CAV駕駛行為的不確定性及智能性.尤其在CAV以車群行駛時(shí),映射空間復(fù)雜,強(qiáng)化學(xué)習(xí)方法仍然可以在動作空間上進(jìn)行無監(jiān)督模式映射.
鑒于此,考慮一種結(jié)合元胞自動機(jī)及強(qiáng)化學(xué)習(xí)的多智能體混合交通流仿真模式.對于RV,在CA強(qiáng)規(guī)則行為方式上加入Gipps跟馳模型進(jìn)行更細(xì)致的改進(jìn)[24-26];對于CAV,一方面為突出其駕駛行為的不確定性,另一方面為呈現(xiàn)其具備的更高的智能水平,因此通過基于改進(jìn)Q學(xué)習(xí)來訓(xùn)練不同周圍環(huán)境下的CAV,以此訓(xùn)練形成CAV的非線性動態(tài)駕駛特性.在此基礎(chǔ)上對混合交通流的宏觀特性進(jìn)行分析,并對該特性產(chǎn)生的影響進(jìn)行總結(jié).
傳統(tǒng)的NaSch元胞自動機(jī)模型遵循線性跟馳思想,認(rèn)為駕駛員對速度的反應(yīng)不會反應(yīng)在跟馳距離上[27].之后的學(xué)者們對NaSch進(jìn)行改進(jìn),揭示了非線性跟馳模型更能合理地反應(yīng)真實(shí)交通狀況[28-30].Gipps提出的安全距離模型是一種常見的非線性跟馳模型,該模型認(rèn)為車輛速度由當(dāng)前理想速度、最大加速度和安全制動距離決定.考慮將Gipps模型引入CA,即無論前方車輛是否為CAV,dsafe,n表示第n輛普通車與前車在任何時(shí)刻都應(yīng)保持的最小安全跟馳間距.極限情況如圖1所示.此時(shí),
dsafe,n=xn-1(t)-xn(t)-l=μ·vn(t)+
(1)
式中:xn-1(t)、xn(t)分別表示t時(shí)刻前方第n-1車輛與本車位置;l為車輛n的長度;μ為駕駛員反應(yīng)時(shí)間;vn-1(t)、vn(t)分別表示前方n-1車輛與該車在t時(shí)刻的速度;b表示車輛n的最大減速度.設(shè)lcell表示單元元胞長度,則在CA模型中車輛n在t時(shí)刻的最小安全跟馳間距dsafe,n(t)應(yīng)為
dsafe,n(t)=dsafe,n(t)lcell·lcell
(2)
RV在跟馳過程dsafe,n中根據(jù)調(diào)整下一時(shí)間步的車速來避免與前車發(fā)生追尾,即存在安全跟馳速度vsafe,n(t+1)如下:
vsafe,n(t+1)=min({vn(t)+2.5aμlcell[1-vn(t)vmax]·0.025+vn(t)vmax}/lcell,
(μb+(μb)2-b{2[xn-1-xn-l]-μvn(t)-2vn-1(t)2bn-1(t)+bn-1(t-1)})/lcell)
(3)
式中,a為車輛最大加速度,vmax為車輛最大行駛速度,bn-1(t)表示前車在t時(shí)刻的減速度值.
圖1 安全跟馳間距示意
普通車RV依照CA模型的通用規(guī)則框架按序進(jìn)行t→t+1更新.每一規(guī)則均對應(yīng)了特定的車輛操作.
(1)換道規(guī)則.換道行為是車輛在多車道環(huán)境下常見的駕駛操作.基于文獻(xiàn)[31]中的換道規(guī)則,考慮當(dāng)車輛n在式(4)~式(6)環(huán)境時(shí)會以一定的概率pchange進(jìn)行換道操作,即
dn (4) dn,other>dn (5) dn+1,other>vn+2(t)+δ (6) 式中:dn,other,dn+1,other分別表示旁車道前方及后方距離;vn+2(t)為旁車道后方車t時(shí)刻車速.δ衡量車輛n的換道操作水平[32],δ越大,表現(xiàn)為越強(qiáng)制性換道,即在考慮換道時(shí)對目標(biāo)車道后方車輛的間距及速度的要求越低. (2)加速規(guī)則.車輛在行駛過程中,當(dāng)?shù)趎車輛在每個(gè)時(shí)間步開始時(shí)首先進(jìn)行按常規(guī)加速度進(jìn)行加速行駛估計(jì).該步驟速度僅反映駕駛員試圖保持高速行駛的意圖,還需在接下來進(jìn)行安全距離判斷,因此不作為最終速度. vn→min(vmax,vn+a) (7) (3)確定性減速規(guī)則.傳統(tǒng)NaSch模型設(shè)置方式不同,該規(guī)則主要保證了車輛間應(yīng)保持的安全距離.當(dāng)?shù)趎車輛與其前方車輛之間的距離小于該車行駛時(shí)所需要保持的安全距離dsafe,n、或該車行駛速度在經(jīng)加速規(guī)則后超過安全速度vsafe,n時(shí),為確保安全駕駛則需要進(jìn)行確定性地減速. vn→min(vn,vsafe,n,dn,dsafe,n) (8) (4)隨機(jī)慢行.考慮到駕駛員在行駛過程中可能存在的駕駛行為不穩(wěn)定性,在演化規(guī)則中引入隨機(jī)慢化概率prandom(0≤prandom≤1).行駛過程中的車輛按照隨機(jī)慢化概率進(jìn)行速度的慢化以更真實(shí)反映駕駛員的行駛不確定因素. vn→max(0,vn-1) (9) (5)位置更新.在速度演化更新規(guī)則的基礎(chǔ)上,進(jìn)行車輛位置的更新. xn→xn+vn (10) 如前所述,CAV的駕駛行為設(shè)計(jì)應(yīng)遵循比RV更智慧的跟馳及換道策略.而目前大多數(shù)的CAV行為模型是在保證安全的條件下以自我利益最大化為目標(biāo)、不考慮對周圍車輛的影響的建模方式.隨著CAV滲透率的提高,CAV與RV、CAV與CAV之間的動態(tài)交互將對車輛群體產(chǎn)生復(fù)雜的影響作用. 在強(qiáng)化學(xué)習(xí)領(lǐng)域,Q學(xué)習(xí)系統(tǒng)是一種典型的離散人工智能學(xué)習(xí)系統(tǒng).在無需任何外界預(yù)先知識的情況下可以使學(xué)習(xí)主體(智能體)從零學(xué)起,直至形成一套足夠優(yōu)化的映射規(guī)則,因此可應(yīng)用于CAV的行駛模式構(gòu)建.Q學(xué)習(xí)系統(tǒng)由3個(gè)方面組成[33]:環(huán)境E、動作庫A和獎勵值r.智能體在狀態(tài)S下選擇特定動作A的過程稱為策略π,即π:S→A.因此,在t時(shí)刻時(shí)智能體在狀態(tài)st時(shí)首先選擇動作策略a,隨后外部環(huán)境給予獎勵,智能體接收獎勵并評估,以此決定下一動作并進(jìn)入下一狀態(tài)st+1.累積獎勵值V為未來獎勵的折現(xiàn),回報(bào)折扣因子為γ(0≤γ≤1).智能體依靠累積獎勵值的最大化,進(jìn)而由反饋機(jī)制引導(dǎo)其在連續(xù)時(shí)間點(diǎn)中采取智慧高效的動作.設(shè)Qπ(s,a)表示在狀態(tài)s時(shí)根據(jù)策略π而執(zhí)行a動作的值函數(shù)估計(jì),則 (11) π*=argmaxπVπ(s) (12) Qπ(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)= (13) 式中:j為相對于時(shí)刻t的未來時(shí)間點(diǎn);δ(s,a)為狀態(tài)轉(zhuǎn)換函數(shù).Qπ(s,a)的更新滿足Bellman方程如下: Qπ(st,at)=∑st+1[p(st,at,st+1)·r(st,at,st+1)]+γ∑st+1,at+1[p(st,at,st+1)·Qπ(st+1,at+1)] (14) 式中:p(st,at,st+1)為狀態(tài)st時(shí),智能體采取動作at轉(zhuǎn)移到st+1狀態(tài)的概率;r(st,at,st+1)表示動作at和狀態(tài)st轉(zhuǎn)移到st+1的回報(bào)值.Q學(xué)習(xí)對應(yīng)的最優(yōu)動作估計(jì)Qπ*(s,a)和最優(yōu)策略π*(s)為 Qπ*(s,a)=maxπQπ(s,a) (15) π*(s)=argmaxπ[r(s,a)+γV*(δ(s,a))]= argmaxaQ(s,a) (16) 綜上所述,可以總結(jié)基于Q學(xué)習(xí)的CAV訓(xùn)練過程:首先,確定車輛的狀態(tài)定義和動作選擇集合,構(gòu)建由不同狀態(tài)和動作選擇組合的二維Q表;其次,將CAV放入仿真環(huán)境運(yùn)行,并混以不同比例的普通車輛,結(jié)合式(11)~式(16)迭代更新Q表,以形成車輛完整的狀態(tài)-動作映射;最后,在正式仿真過程中,收集交通微觀數(shù)據(jù),統(tǒng)計(jì)宏觀交通特性. 目前在CAV的主流仿真研究中,均假設(shè)了車輛具備一定的周邊交通感知能力及協(xié)同能力[34-35].因此,為體現(xiàn)CAV應(yīng)有的智能水平,在跟馳和換道過程中除考慮自身行駛狀態(tài),還需要考慮本車所在車道的前方最近車輛n-1、相鄰車道前后方最近車輛n-2、n+2的車輛行駛狀態(tài),并認(rèn)為以上4車的行駛狀態(tài)決定了本CAV的行駛策略.圖2綜合考慮以上多變量影響因素在車輛行駛過程中表現(xiàn)出的高度動態(tài)性,為了更好地模擬真實(shí)狀態(tài),車輛n通常需要考慮連續(xù)若干時(shí)間步的狀態(tài),并結(jié)合自身的最優(yōu)行駛利益來決定下一時(shí)間步的行駛策略. 圖2 CAV狀態(tài) Sn(t)=[vn+2;pn+2;dn+1,other;vn;dn;dn,other;vn-1;pn-1;vn-2;pn-2] (17) 其中,pi表示i號位置對應(yīng)的車輛類型(i∈{n-1,n-2,n+2},pi∈{CAV,RV,None}).若i號位置無車輛,則pi=None,vi=0.可以看出,在雙車道環(huán)境下,當(dāng)?shù)趎輛CAV車輛在跟馳CAV或RV時(shí),由于pn-1取值不同,因此所對應(yīng)狀態(tài)表征也不同,據(jù)此可以做出不同的動作選擇. 一般情況下,車輛的動作空間Aall有6個(gè)不同動作,分別為:本車道減速“F-”、本車道保持車速“F=”、本車道加速“F+”、換車道減速“C-”、換車道保持車速“C=”、換車道加速“C+”.為確保車輛間無碰撞無追尾等沖突發(fā)生,需要對CAV添加一定的先驗(yàn)知識,以避免缺乏合理性的模擬過程,從而顯著提高學(xué)習(xí)效率.如當(dāng)dn=0時(shí)車輛n不可能采取本車道加速的“F+”動作.設(shè)車輛n在狀態(tài)S時(shí)可行的非空動作空間為Afeasible,n(S),且Afeasible,n(S)∈Aall.為了充分體現(xiàn)Q強(qiáng)化學(xué)習(xí)方法的在線學(xué)習(xí)性,采用ε-貪婪策略選取即時(shí)動作,即車輛n處以ε的概率執(zhí)行Q表中狀態(tài)S的動作價(jià)值最大對應(yīng)的動作,以(1-ε)概率隨機(jī)執(zhí)行動作,即 (18) 其中,rand()表示[0,1]中一個(gè)隨機(jī)數(shù),F(xiàn)(·)表示隨機(jī)選擇函數(shù).獎勵值的設(shè)置以行駛目標(biāo)為準(zhǔn)則.基于所有車輛均以獲得最大平均速度為行駛目標(biāo)的假設(shè),因此Q學(xué)習(xí)中的獎勵應(yīng)引導(dǎo)CAV嘗試提速操作.獎勵值計(jì)算如下: r=vn(S′)-vn(S) (19) 式中:vn(S)表示車輛n在狀態(tài)S時(shí)的車速,且S′:S×π(S). CAV與RV在仿真系統(tǒng)中的訓(xùn)練過程如圖3所示.由于混合交通流中CAV與RV共存,兩種智能體分別由Q學(xué)習(xí)和CA構(gòu)造,因此考慮對Q學(xué)習(xí)進(jìn)行改造,取消Q學(xué)習(xí)中的周期,并將Q學(xué)習(xí)中的迭代步與CA的時(shí)間步訓(xùn)練演化策略相融合.同時(shí),系統(tǒng)中所有CAV共享Q表,以顯著加速強(qiáng)化學(xué)習(xí)速度. 仿真平臺由python語言編寫,以道路長度L=3 km的雙車道作為仿真模擬環(huán)境.為更細(xì)致地反應(yīng)車輛在車道上的行駛性質(zhì),單元元胞長度lcell設(shè)置為1 m,車輛車身長度l為5 m,即單車占用5個(gè)連續(xù)元胞.車輛最大行駛速度vmax為25元胞·s-1(90 km·h-1),最大加速度a與最大減速度b分別設(shè)為5元胞·s-2、10元胞·s-2.RV的換道操作水平δ={-2,-1,0,1,2},隨機(jī)慢行概率Prandom=0.05.為簡化分析維度、更大程度地揭示兩種車型不同的微觀行駛特性、提高仿真效率,假設(shè)換道概率Pchange=1,即當(dāng)車輛滿足換道條件時(shí)便采取換道操作.設(shè)N表示車輛總數(shù),β為CAV車輛滲透率,T為有效仿真時(shí)長,則車流平均速度為單位時(shí)期內(nèi)所有車輛速度總和的平均值,車流平均密度為每公里每車道平均的車輛數(shù),流量為單位時(shí)間內(nèi)通過某一道路橫截面的車輛數(shù). 圖3 仿真模擬過程示意圖 (20) (21) (22) (23) 式中:i為具體車道編號,即i={1,2}. 整個(gè)仿真過程分為訓(xùn)練過程及正式模擬過程.在訓(xùn)練過程,分別在不同密度不同CAV滲透率下運(yùn)行106時(shí)間步用于訓(xùn)練并形成CAV的運(yùn)行模式;在正式模擬中,每次演化時(shí)間步,只保留最后5 000步作為有效穩(wěn)定結(jié)果.每種仿真環(huán)境均重復(fù)運(yùn)行20次,將每次仿真得到的車道平均密度、車輛平均速度及平均流量再次平均化并以此最終仿真結(jié)果,用以降低瞬時(shí)效應(yīng). 圖4反應(yīng)了不同密度及CAV車輛滲透率對混合交通流特征的影響程度.可以清晰看出車輛密度和CAV滲透率對混合交通流的通行能力及平均速度的影響效用.從圖4a可以看出,對于一定的β,密度與車輛速度呈現(xiàn)反相關(guān)關(guān)系.密度越大,車輛速度越低,并且當(dāng)30 veh·km-1≤ρ≤40 veh·km-1時(shí)影響效果最顯著.另一方面,β對速度的影響表現(xiàn)出了明顯的非線性,即Q學(xué)習(xí)下CAV與CA強(qiáng)規(guī)則的RV具有不同的演化方式.當(dāng)ρ在0~20 veh·km-1區(qū)間(車流稀疏)時(shí),β對速度的影響程度不大.當(dāng)ρ在20~60 veh·km-1區(qū)間(車流趨于擁堵),且β在0~0.65區(qū)間內(nèi)時(shí)β對速度的影響程度較弱,此時(shí)車流仍具有較大速度;當(dāng)β在0.65~1.00時(shí)β對速度的影響程度加強(qiáng),表現(xiàn)為在同一密度下,β越大,車流速度越大;當(dāng)ρ在60~160 veh·km-1區(qū)間(車流處于輕微擁堵至較重?fù)矶聽顟B(tài)),β的提高顯著減小了密度對車速的影響程度;當(dāng)ρ大于160 veh·km-1時(shí),即交通處于嚴(yán)重?fù)矶?,β對車流速度的影響程度降低,但仍然滿足正相關(guān)關(guān)系. a β-ρ對速度的影響 b β-ρ對速度的影響 由式(23)可知,圖4b與圖4a的流量與速度在β與ρ的變化上具有相似特征,且由圖5還可以看出,當(dāng)β=0時(shí),道路最大通行能力Qmax=2 073 veh·h-1;當(dāng)β=1時(shí),Qmax=3 013 veh·h-1,即100%CAV的交通條件下通行能力提升了45.34%.此外,定義Φη(β)為在β一定時(shí),密度ρ對應(yīng)的車輛流量Qρ大于η·Qmax的密度區(qū)間,即 (24) η=0.85時(shí)不同的β所對應(yīng)的Φη(β)如圖6所示.可以看出,β有效地延長了道路高通行能力的適應(yīng)密度. 由以上混合交通流特征分析可以看出,伴隨CAV滲透率的提高,交通流狀態(tài)有明顯改善.分析原因,主要是: (1)CAV允許更小的車頭時(shí)距,CAV可以以更緊密的車隊(duì)集合行駛; (2)經(jīng)過充分優(yōu)化訓(xùn)練的CAV智能體對每個(gè)可選動作都事先加以評估,并選擇最優(yōu)駕駛行為,以期在動態(tài)交通環(huán)境中達(dá)到更大速度,從而提升整體交通流的通行能力和平均速度. a 速度-密度關(guān)系 b 流量-密度關(guān)系 圖6 Φ0.85(β)范圍曲線 研究表明,頻繁的換道是引發(fā)交通擁堵及事故的主要成因之一[36].換道操作改變了車輛橫向穩(wěn)定性,會對交通流產(chǎn)生重要影響.定義混合流換道頻率fLC為單位時(shí)間單位車輛的換道次數(shù),由普通車輛及CAV車輛的換道頻率計(jì)算得 (25) 式中:Np,LC為有效仿真過程中p類型車輛的換道總次數(shù);Np為p類型車輛數(shù).仿真結(jié)果如圖7所示. 另一方面,隨著ρ的增加,fLC、fCAV,LC、fRV,LC在不同β下均呈現(xiàn)類基本圖走勢.ρ越大,保持的換道頻率水平越低.具體而言,當(dāng)ρ低于轉(zhuǎn)折點(diǎn)對應(yīng)密度時(shí),車輛間仍具有相對充足的空間進(jìn)行自由換道操作,此時(shí)fLC、fCAV,LC、fRV,LC與ρ呈現(xiàn)正相關(guān)關(guān)聯(lián)性;當(dāng)高于轉(zhuǎn)折點(diǎn)對應(yīng)密度后,受道路空間限制的趨勢加強(qiáng),fLC、fCAV,LC、fRV,LC表現(xiàn)為與ρ呈反相關(guān).此外,相比于CAV,由于RV的換道條件對道路空間要求更高,因此fRV,LC表現(xiàn)出對ρ變化更加敏感. 圖7 不同滲透率、不同密度的換道頻率 通過探索一種雙車道環(huán)境下的強(qiáng)化學(xué)習(xí)方法與元胞自動機(jī)相結(jié)合的演化機(jī)制,提出了基于改進(jìn)的Q學(xué)習(xí)方法,精準(zhǔn)模擬普通車和智能網(wǎng)聯(lián)車輛的微觀行駛策略,以此構(gòu)建了一種針對雙車道環(huán)境下混合交通流的高效仿真方法.此方法以個(gè)體優(yōu)化為目標(biāo),探討CAV微觀駕駛行為所產(chǎn)生的集聚效應(yīng)是否對交通流有優(yōu)化作用,得到結(jié)論如下: (1)相比于高度規(guī)則化的元胞自動機(jī),強(qiáng)化學(xué)習(xí)形成的行駛策略具有更高的靈活性及相鄰時(shí)空環(huán)境適應(yīng)能力,更符合CAV的智慧行為特征; (2)不同車流密度條件下,道路通行能力及車流平均速度可隨著CAV滲透率的提高而增加,且維持高通行能力的密度范圍也同步擴(kuò)大,一定程度上延后了車流擁堵密度; (3)不同車流密度條件下,隨著CAV滲透率的提高,混合車流換道頻率降低,車流橫向穩(wěn)定性增強(qiáng). 由于采用的對稱式雙車道的道路仿真環(huán)境相對簡單,對整體交通情況的刻畫還不夠貼近,因此可能與現(xiàn)實(shí)情況還存在一定差距.將來的研究工作需要進(jìn)一步改進(jìn)道路模型,也需要對更復(fù)雜的道路交通環(huán)境下的混合交通流特性進(jìn)行深入研究.2 CAV行為建模
2.1 基于Q學(xué)習(xí)的訓(xùn)練方法
2.2 車輛狀態(tài)定義
2.3 狀態(tài)動作選擇
2.4 混合訓(xùn)練
3 仿真與數(shù)值分析
3.1 仿真設(shè)計(jì)
3.2 不同CAV滲透率下的交通流特征分析
3.3 換道頻率分析
4 結(jié)論