国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強(qiáng)化學(xué)習(xí)的城市場(chǎng)景多目標(biāo)生態(tài)駕駛策略*

2023-11-09 03:56吳曉東劉永剛
汽車工程 2023年10期
關(guān)鍵詞:交通燈車速車輛

李 捷,吳曉東,許 敏,劉永剛

(1.上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院,上海 200240;2.重慶大學(xué),機(jī)械傳動(dòng)國家重點(diǎn)實(shí)驗(yàn)室,重慶 400044)

前言

為提高電動(dòng)汽車(electric vehicle,EV)的經(jīng)濟(jì)性,除開發(fā)更先進(jìn)的高效“三電”系統(tǒng),改善車輛行駛行為以提高車輛經(jīng)濟(jì)性的生態(tài)駕駛技術(shù)也受到了廣泛關(guān)注。傳統(tǒng)的生態(tài)駕駛策略是指駕駛員經(jīng)過科學(xué)培訓(xùn)習(xí)得的通過控制車輛行駛速度降低油耗的駕駛技能[1]。隨著智能網(wǎng)聯(lián)汽車(connected and automated vehicle,CAV)技術(shù)的發(fā)展,車輛可以通過V2X(vehicle-to-everything)通信接收周圍交通和道路地形信息[2]。CAV 不僅可以降低能源消耗,還可以給乘客提供良好的乘坐體驗(yàn)(如保障駕駛安全,提高舒適性和通行效率)。因此,開發(fā)多目標(biāo)生態(tài)駕駛策略來優(yōu)化CAV的行駛行為是目前的研究熱點(diǎn)[3-4]。

已有的生態(tài)駕駛策略主要分為基于規(guī)則、基于優(yōu)化和基于學(xué)習(xí)的3 類。典型的基于規(guī)則的生態(tài)駕駛策略是“脈沖-滑翔”策略[5-6]。理想情況下,該策略控制車輛勻加速至給定速度,然后保持勻速運(yùn)行,最后勻減速運(yùn)動(dòng)至目的地,從而達(dá)到節(jié)省燃料消耗的目的。然而,在真實(shí)駕駛場(chǎng)景中,由于紅綠燈路口的隔斷以及其他車輛不確定行為的干擾(例如換道、超車、急停等),自車難以按照理想車速軌跡行駛。盡管該策略具有較好的實(shí)時(shí)性,但過度簡(jiǎn)化了交通環(huán)境,沒有考慮交通環(huán)境中的復(fù)雜影響因素,難以在城市場(chǎng)景中實(shí)際應(yīng)用。

基于優(yōu)化的生態(tài)駕駛策略通常將生態(tài)駕駛問題建模為最優(yōu)控制問題,然后通過動(dòng)態(tài)規(guī)劃[7]、非線性規(guī)劃[8]、模型預(yù)測(cè)控制[9-10](model predictive control,MPC)等方法求解。然而,基于優(yōu)化的生態(tài)駕駛策略需要建立一個(gè)能反映復(fù)雜的車輛動(dòng)力系統(tǒng)與多變的城市交通環(huán)境特性的非線性模型。而該模型也必然包含多個(gè)狀態(tài)變量。雖然通過對(duì)車輛動(dòng)力系統(tǒng)與交通環(huán)境進(jìn)行精確建模能保證算法的優(yōu)化效果,但是求解含有復(fù)雜非線性模型的最優(yōu)控制問題需要消耗大量的計(jì)算資源,難以在算力有限的車載控制器(vehicle control unit,VCU)中實(shí)時(shí)應(yīng)用。

深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)算法是一種基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法,它不需要建立復(fù)雜的動(dòng)力學(xué)控制模型,而是僅通過智能體(agent)與環(huán)境的交互來學(xué)習(xí)和優(yōu)化控制策略。訓(xùn)練好的DRL 智能體可以通過深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)接收系統(tǒng)狀態(tài)信息,并快速計(jì)算出對(duì)應(yīng)的控制動(dòng)作[11]。相比于基于模型的優(yōu)化控制方法,避免了對(duì)復(fù)雜動(dòng)力學(xué)控制模型的依賴,可以有效降低控制策略的計(jì)算量,實(shí)現(xiàn)實(shí)時(shí)控制[12]。然而,DRL 算法在基于學(xué)習(xí)的生態(tài)駕駛策略上的應(yīng)用仍存在著多種挑戰(zhàn)。與傳統(tǒng)RL算法相比,DRL算法依靠DNN 來近似最優(yōu)值函數(shù)[13],避免了算法在多個(gè)狀態(tài)變量的復(fù)雜場(chǎng)景中陷入“維數(shù)災(zāi)難”。但是,由于函數(shù)近似誤差的存在,DRL 算法也不可避免地引入了控制不穩(wěn)定性[14]。因此,僅依賴于DRL 算法的生態(tài)駕駛策略難以在實(shí)際應(yīng)用中充分保障車速規(guī)劃的安全性。此外,復(fù)雜交通場(chǎng)景下多目標(biāo)生態(tài)駕駛問題的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)是一個(gè)棘手的問題,直接關(guān)系到DRL 算法訓(xùn)練能否收斂。獎(jiǎng)勵(lì)函數(shù)應(yīng)能恰當(dāng)?shù)囟x生態(tài)駕駛問題的優(yōu)化目標(biāo),并準(zhǔn)確地反映交通燈、前車、道路限速等交通影響因素。為了降低算法訓(xùn)練收斂的難度,目前基于DRL 的生態(tài)駕駛策略的研究大都考慮單一的交通影響因素,與實(shí)際交通場(chǎng)景存在較大差異。

例如,Liu等[15]提出基于深度確定性策略梯度法的生態(tài)駕駛策略,可以快速求解多個(gè)信號(hào)燈路口之間的最優(yōu)車速軌跡。然而該DRL 控制器沒有考慮安全跟車約束,只適用于單車行駛的理想狀況。Bai等[16]提出了一種結(jié)合安全決策規(guī)則與DRL 的混合生態(tài)駕駛策略框架,以改善復(fù)雜交通路口的車輛能源效率。然而該混合框架只通過決策管理器選擇傳統(tǒng)規(guī)則策略或DRL 策略控制車輛,并未把安全約束融入DRL 算法的設(shè)計(jì)中。張健等[17]提出一種基于離線DRL 的車輛交叉口生態(tài)駕駛控制策略,實(shí)現(xiàn)了能耗經(jīng)濟(jì)性的提高。然而該方案忽略了DRL 算法控制不穩(wěn)定所帶來的安全問題而且也未考慮跟車場(chǎng)景。

為了克服當(dāng)前研究的不足,本文提出了一種新型基于DRL 的實(shí)時(shí)多目標(biāo)生態(tài)駕駛策略,以有效應(yīng)對(duì)復(fù)雜交通場(chǎng)景下的駕駛挑戰(zhàn)。本研究的貢獻(xiàn)如下:針對(duì)DRL 算法控制穩(wěn)定性不足的問題,設(shè)計(jì)了面向?qū)嶋H應(yīng)用的基于DRL 的生態(tài)駕駛策略的框架,通過安全速度建議模塊實(shí)現(xiàn)了對(duì)車速規(guī)劃的安全性保障;而為了使DRL 算法考慮多個(gè)交通影響因素并促進(jìn)該多目標(biāo)生態(tài)駕駛策略訓(xùn)練收斂,提出了一種融合安全約束與塑形函數(shù)的多目標(biāo)復(fù)合獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方案。最后,通過硬件在環(huán)(hardware-in-loop,HIL)實(shí)驗(yàn)驗(yàn)證了所提控制算法在真實(shí)的VCU 中實(shí)時(shí)應(yīng)用的有效性。

1 問題描述

1.1 智能網(wǎng)聯(lián)汽車動(dòng)力系統(tǒng)結(jié)構(gòu)

本文的研究對(duì)象為一款基于純電動(dòng)平臺(tái)的CAV。電機(jī)、主減速器和差速器依次組裝在該車的動(dòng)力系統(tǒng)中。電機(jī)輸出轉(zhuǎn)矩與車輛加速度之間的關(guān)系可以表示為

式中:Ftra、τm、ifd、ηfd、ηdif與rwheel分別為車輪驅(qū)動(dòng)力、電機(jī)轉(zhuǎn)矩、主減速比、主減速器效率、差速器效率與車輪半徑;aego、m、g、fr、α、CD、A、ρ、vego和Iequi分別為車輛加速度、車輛質(zhì)量、重力加速度、滾動(dòng)阻力系數(shù)、道路坡度、空氣阻力系數(shù)、迎風(fēng)面積、空氣密度、自車車速與旋轉(zhuǎn)部件在車輪處的等效轉(zhuǎn)動(dòng)慣量。針對(duì)純電動(dòng)CAV 而言,控制策略通過控制電機(jī)輸出的驅(qū)動(dòng)轉(zhuǎn)矩來調(diào)節(jié)車輛加速度,從而控制車輛實(shí)現(xiàn)目標(biāo)車速。合理規(guī)劃車輛的行駛速度可以改善車輛的乘坐體驗(yàn)。

1.2 智能網(wǎng)聯(lián)場(chǎng)景下的生態(tài)駕駛問題

如圖1 所示,當(dāng)車輛在城市交通場(chǎng)景中行駛時(shí),必須考慮前方紅綠燈路口、道路坡度、道路限速、前方車輛等多種交通要素的約束。

圖1 智能網(wǎng)聯(lián)場(chǎng)景示意圖

在智能網(wǎng)聯(lián)場(chǎng)景中,由于CAV 可以通過車載傳感器與V2X 通信獲取實(shí)時(shí)交通環(huán)境信息(例如:前車距離/車速信息、紅綠燈時(shí)間/相位信息、道路限速信息等)。因此,在智能網(wǎng)聯(lián)場(chǎng)景下,多目標(biāo)生態(tài)駕駛問題可以表述為:利用獲取的交通環(huán)境信息,合理規(guī)劃CAV 的目標(biāo)車速,并在滿足安全約束(遵守交通規(guī)則,避免碰撞)的前提下,實(shí)現(xiàn)電力消耗、乘坐舒適性和出行效率的協(xié)同優(yōu)化。

式中:α1、α2與α3為各指標(biāo)的權(quán)重系數(shù);N、Pbat和ΔT分別為行程長度、電池功率和單位控制步長;Nred_light、Ncollision與vlimit分別為闖紅燈次數(shù)、碰撞次數(shù)與道路限速。

由于目前CAV 在實(shí)際道路上的滲透率較低,因此在研究場(chǎng)景中,假設(shè)其他車輛均為傳統(tǒng)的人工駕駛車輛。此外,為了簡(jiǎn)化問題,本文只考慮影響自車縱向運(yùn)動(dòng)的相關(guān)因素,例如速度、加速度、交通信號(hào)燈和前車等,而不考慮車輛的橫向動(dòng)作。

2 基于深度強(qiáng)化學(xué)習(xí)的生態(tài)駕駛策略

為了解決上述多目標(biāo)生態(tài)駕駛問題,本文提出了一種基于DRL 的實(shí)時(shí)生態(tài)駕駛策略,策略框架如圖2 所示。DRL 算法根據(jù)收到的交通狀態(tài)與自車狀態(tài)信息,利用訓(xùn)練好的DNN 計(jì)算車輛目標(biāo)參考車速。同時(shí),基于跟車安全模型與交通燈安全模型的安全速度建議模塊用于實(shí)時(shí)監(jiān)控并修改DRL 智能體規(guī)劃的高風(fēng)險(xiǎn)動(dòng)作,以保障駕駛安全。修改后的參考速度被發(fā)送給底層動(dòng)力系統(tǒng)中的車速跟蹤控制器。然后,由車速跟蹤控制器利用參考車速與實(shí)際車速的誤差計(jì)算驅(qū)動(dòng)電機(jī)輸出轉(zhuǎn)矩,以控制車輛跟蹤參考車速。所提生態(tài)駕駛策略的設(shè)計(jì)與實(shí)現(xiàn)細(xì)節(jié)詳細(xì)介紹如下。

圖2 基于深度強(qiáng)化學(xué)習(xí)的生態(tài)駕駛策略框架

2.1 基于馬爾可夫決策過程的生態(tài)駕駛問題

DRL方法通常將實(shí)際環(huán)境簡(jiǎn)化為馬爾可夫決策過程(Markov decision process,MDP)[11]。即假設(shè)環(huán)境轉(zhuǎn)移到下一個(gè)狀態(tài)si+1的概率僅與上一個(gè)狀態(tài)si有關(guān),與更早之前的狀態(tài)無關(guān)。在狀態(tài)si執(zhí)行動(dòng)作ai后,轉(zhuǎn)移到狀態(tài)si+1的概率可以定義為

式中:s′為下一個(gè)狀態(tài);s和a為當(dāng)前i時(shí)刻的狀態(tài)與動(dòng)作。DRL 的動(dòng)作可以由策略π決定。當(dāng)策略π是確定策略時(shí),當(dāng)前狀態(tài)si下采取動(dòng)作ai后的期望累積收益可以推導(dǎo)為

式中:期望累積獎(jiǎng)勵(lì)Qπ(si,ai)也被稱為動(dòng)作價(jià)值(或Q 值);γ∈[0,1]為折扣因子;T為有限MDP 的長度;rn(sn,an)為在狀態(tài)sn采取動(dòng)作an后的獎(jiǎng)勵(lì)值;E為狀態(tài)集合。對(duì)于MDP,式(5)可以轉(zhuǎn)化為如下遞歸關(guān)系:

DRL 算法的任務(wù)是找到一個(gè)最優(yōu)的策略π*,使期望的累積獎(jiǎng)勵(lì)Qπ(si,ai)最大化。對(duì)于本文研究的多目標(biāo)生態(tài)駕駛問題而言,式(3)的目標(biāo)函數(shù)也可被表述為遞歸形式:

式中:costins(i)表示考慮電耗、舒適性與行駛效率的瞬時(shí)成本。比較式(6)與式(7)可知,當(dāng)DRL 的獎(jiǎng)勵(lì)函數(shù)等于負(fù)的瞬時(shí)成本時(shí),生態(tài)駕駛問題的目標(biāo)函數(shù)可以轉(zhuǎn)化為基于MDP的DRL算法的價(jià)值函數(shù)。

式中:rele=-Pbat為電耗獎(jiǎng)勵(lì);rcon=-|aego|為舒適度獎(jiǎng)勵(lì);reff=-ΔT為通行效率獎(jiǎng)勵(lì)。通過與環(huán)境交互,DRL 智能體可以迭代更新得到使累積獎(jiǎng)勵(lì)函數(shù)Qπ(si,ai)最大化的最優(yōu)策略π。該最優(yōu)策略可以直接應(yīng)用于車輛生態(tài)駕駛控制,實(shí)現(xiàn)車輛電耗、舒適性和出行效率的協(xié)同優(yōu)化。

2.2 狀態(tài)空間與動(dòng)作空間設(shè)計(jì)

如前文所述,生態(tài)駕駛策略需要在滿足安全出行的前提下,實(shí)現(xiàn)經(jīng)濟(jì)性、舒適性和出行效率的協(xié)同優(yōu)化。因此DRL 智能體的輸入信息應(yīng)充分反映車輛動(dòng)力系統(tǒng)狀態(tài)和交通環(huán)境狀態(tài)。本研究中,DRL智能體的狀態(tài)輸入由如下3部分組成。

(1)車輛狀態(tài)信息:參考車速vref、實(shí)際車速vego、電池SOC、電池內(nèi)阻Rbat、電池開路電壓Ubat。

(2)前車信息:前車速度vpre、前車加速度apre、兩車距離dhead。

(3)道路信息和交通燈信息:自車行駛距離dego、道路坡度α、下一個(gè)交通燈路口距離dlight、交通燈剩余時(shí)間trem、交通燈相位。

在本文中交通燈剩余時(shí)間和交通燈相位被交通燈時(shí)間tlight所代替。它可以在降低輸入狀態(tài)維數(shù)的同時(shí)不丟失交通燈時(shí)間/相位信息。

式中Tred為紅燈相位持續(xù)時(shí)間(注:在本文中,黃燈相位也被納入紅燈總時(shí)間中)。根據(jù)上述分析,觀測(cè)狀態(tài)向量公式如下:

為了合理控制車輛速度變化,本文選取車輛加速度作為DRL 智能體的動(dòng)作變量輸出。故DRL 智能體給出的自車參考速度可表示為

式中aDRL為DRL算法計(jì)算的車輛加速度。車輛加速度被限制為以避免產(chǎn)生不舒適的急加速/減速動(dòng)作。

2.3 安全速度建議模塊設(shè)計(jì)

安全速度建議模塊由跟車安全模型和紅綠燈安全模型組成。

2.3.1 跟車安全模型

為避免與前車發(fā)生碰撞,車速上限表示為

式中vKrauss是基于Krauss 跟車模型[18-19]推導(dǎo)的最大安全跟車速度。

式中:amax是最大加速度;Δdhead=dhead-Dmin;Dmin與τ分別為最小車頭距與駕駛員反應(yīng)時(shí)間。通過引入駕駛員反應(yīng)時(shí)間,使得DRL 智能體可以學(xué)習(xí)類似于人類駕駛員的反應(yīng)過程,從而提高乘客的接受度。

2.3.2 交通燈安全模型

如果車輛無法在綠色時(shí)間內(nèi)通過交通路口,則車輛應(yīng)及時(shí)停車避免闖紅燈。因此,最大安全速度可表示為

此外,本文還根據(jù)紅綠燈剩余時(shí)間tremain與離紅綠燈距離dlight定義了一個(gè)閾值速度vtho(i)。

當(dāng)車輛處于交通燈區(qū)域且交通燈為綠色時(shí),避免闖紅燈的安全參考速度上限可以表示為

當(dāng)車輛處于交通燈區(qū)域且交通燈相位為黃色或紅色時(shí),避免闖紅燈的安全參考速度上限可以表示為

根據(jù)式(12)、式(16)與式(17),基于跟車安全模型與交通燈安全模型的速度建議模塊計(jì)算的安全速度上限可以表示為

式中δcf與δtl為調(diào)整速度建議模塊安全閾值的比例因子。

此外,為了避免DRL 智能體規(guī)劃負(fù)參考車速的不合理情況,本文采用安全速度建議模塊進(jìn)行修正。具體而言,當(dāng)式(11)計(jì)算得出參考車速小于0 時(shí),安全速度建議模塊將把輸出的安全參考車速設(shè)置為0。

因此,經(jīng)過速度建議模塊對(duì)DRL 智能體規(guī)劃的高風(fēng)險(xiǎn)參考速度進(jìn)行監(jiān)控與修改后,發(fā)送給車速跟蹤控制器的安全參考車速可以表示為

2.4 融合安全約束與塑形函數(shù)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

為了使DRL 智能體學(xué)習(xí)一種既能滿足安全約束又能實(shí)現(xiàn)多目標(biāo)協(xié)同優(yōu)化的生態(tài)駕駛策略,本研究除了式(8)基于目標(biāo)函數(shù)轉(zhuǎn)化的基礎(chǔ)多目標(biāo)獎(jiǎng)勵(lì)函數(shù)之外,還設(shè)計(jì)了式(20)安全約束獎(jiǎng)勵(lì)。

式中:α4為權(quán)重系數(shù);aref(i)為速度建議模塊修改后的加速度。

通過添加安全約束獎(jiǎng)勵(lì)函數(shù),將安全約束條件融入模型訓(xùn)練中,可以使DRL 智能體在優(yōu)化行駛車速時(shí),避免輸出會(huì)導(dǎo)致速度建議模塊介入的高風(fēng)險(xiǎn)動(dòng)作。

此外,在復(fù)雜交通場(chǎng)景中,多目標(biāo)DRL 智能體的訓(xùn)練難度較大[16]。為了克服這一問題,本文設(shè)計(jì)了一種可以提供先驗(yàn)知識(shí)的塑形獎(jiǎng)勵(lì)函數(shù),以鼓勵(lì)DRL智能體產(chǎn)生安全高效的駕駛行為。該塑形獎(jiǎng)勵(lì)函數(shù)根據(jù)基于勢(shì)能的塑形函數(shù)設(shè)計(jì)理論[20-21]開發(fā),以確保添加塑形獎(jiǎng)勵(lì)函數(shù)后的最優(yōu)策略不變性。

式中:Ffollow、Flight與Feff分別為跟車塑形獎(jiǎng)勵(lì)、交通燈塑形獎(jiǎng)勵(lì)與通行效率塑形獎(jiǎng)勵(lì);γ∈[0,1]為折扣因子;Φfollow、Φlight與Φeff分別為跟車勢(shì)函數(shù)、交通燈勢(shì)函數(shù)和通行效率勢(shì)函數(shù)。如果勢(shì)函數(shù)的值較高,則表示當(dāng)前環(huán)境所處狀態(tài)接近所期望的狀態(tài)。而當(dāng)環(huán)境狀態(tài)偏離期望狀態(tài)時(shí),勢(shì)函數(shù)的值會(huì)減小。本文中勢(shì)函數(shù)設(shè)計(jì)如下:

式中vadvisor(i)為根據(jù)交通燈時(shí)間/相位信息以及到交通燈距離信息計(jì)算的綠燈通行建議速度。

式中:n∈(0,1)為調(diào)節(jié)建議速度大小的權(quán)重;vlg_min與vlg_max為綠燈通行速度區(qū)間,計(jì)算方法如下。

如圖3所示,根據(jù)dlight與下一個(gè)綠色相位的起止時(shí)間可以計(jì)算出車輛在此綠色相位內(nèi)勻速通過路口的速度區(qū)間[vlg_min,vlg_max]。如果在道路限速內(nèi)無法通過路口,則選擇下一個(gè)周期的綠色相位作為目標(biāo)相位重新計(jì)算[vlg_min,vlg_max]。

因此DRL智能體的總獎(jiǎng)勵(lì)函數(shù)為

2.5 基于TD3的參考速度規(guī)劃算法實(shí)現(xiàn)

由于算法的狀態(tài)與動(dòng)作變量都是連續(xù)變量,因此本文選擇適用于連續(xù)狀態(tài)與動(dòng)作空間的雙延遲深度確定性策略梯度法(twin delayed deep deterministic policy gradient,TD3)來實(shí)現(xiàn)基于DRL的生態(tài)駕駛策略?;赥D3的生態(tài)駕駛智能體如圖4所示,包含一個(gè)Actor神經(jīng)網(wǎng)絡(luò)μ(s|θμ)和兩個(gè)Critic神經(jīng)網(wǎng)絡(luò)其中與為網(wǎng)絡(luò)各節(jié)點(diǎn)的權(quán)重與偏置參數(shù)。TD3算法是目前最先進(jìn)的用于連續(xù)控制的DRL 算法之一,通過設(shè)計(jì)兩個(gè)Critic網(wǎng)絡(luò)減小了Critic網(wǎng)絡(luò)對(duì)動(dòng)作價(jià)值函數(shù)的近似誤差[14]。

圖4 基于TD3的生態(tài)駕駛智能體實(shí)現(xiàn)

在每一控制步中,TD3 智能體根據(jù)式(10)觀測(cè)的狀態(tài)向量利用Actor 網(wǎng)絡(luò)計(jì)算動(dòng)作ai。為了將智能體輸出的車輛加速度限制為[-3,3] m/s2,Actor 網(wǎng)絡(luò)的輸出層添加了一層雙曲正切函數(shù)層(tanh 層)。tanh 層使得Actor 網(wǎng)絡(luò)的輸出限制到[-1,1]之間,然后根據(jù)設(shè)定的實(shí)際車輛加速度范圍對(duì)其乘3 進(jìn)行縮放。因此在訓(xùn)練過程中TD3智能體規(guī)劃的車輛加速度可以表示為

式中:N為訓(xùn)練過程中的高斯探索噪聲。

每一控制步的觀測(cè)狀態(tài)si、Actor 網(wǎng)絡(luò)計(jì)算的動(dòng)作ai、采取動(dòng)作ai后的下一步狀態(tài)si+1以及獎(jiǎng)勵(lì)函數(shù)計(jì)算的相應(yīng)獎(jiǎng)勵(lì)值ri被組成一個(gè)數(shù)據(jù)元組(si,ai,ri,si+1)存入記憶緩沖區(qū)R中。在訓(xùn)練過程中定期從R中隨機(jī)批采樣M組元組數(shù)據(jù)用于更新Actor與Critic網(wǎng)絡(luò)。

批采樣的每個(gè)數(shù)據(jù)元組的動(dòng)作價(jià)值與時(shí)序-差分(temporal difference,TD)目標(biāo)為

Critic 網(wǎng)絡(luò)參數(shù)更新可以通過最小化TD 誤差的平方實(shí)現(xiàn)[22]:

Actor 網(wǎng)絡(luò)的參數(shù)可以根據(jù)確定性策略梯度法更新[23]。

本文中所使用的TD3 智能體的超參數(shù)以及Actor 與Critic 網(wǎng)絡(luò)的結(jié)構(gòu)如表1 所示。這些超參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)是通過反復(fù)試錯(cuò)調(diào)整而得到的。TD3智能體由Python 語言編程為庫函數(shù),在算法訓(xùn)練時(shí)通過s-function模塊在Simulink模型中調(diào)用。

表1 TD3智能體超參數(shù)與網(wǎng)絡(luò)結(jié)構(gòu)

2.6 車速跟蹤控制器設(shè)計(jì)

為了控制CAV 跟蹤生態(tài)駕駛策略規(guī)劃的參考車速,本文設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的基于比例-積分-微分(proportion integration differentiation,PID)的車速跟蹤控制器。底層車速跟蹤控制框架如圖5 所示,通過參考車速與反饋的實(shí)際車速之差計(jì)算驅(qū)動(dòng)電機(jī)輸出轉(zhuǎn)矩。

圖5 底層車速跟蹤控制框架

式中:Kp、Ki與Kd分別為PID 控制器的比例、積分和微分增益;err為參考車速vref與車輛實(shí)際車速vego之差。

3 算法驗(yàn)證

3.1 硬件在環(huán)實(shí)驗(yàn)平臺(tái)設(shè)計(jì)

為了分析所提出的基于DRL 的生態(tài)駕駛策略性能,本文在HIL 平臺(tái)上對(duì)算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證。如圖6 所示,該HIL 平臺(tái)主要包括車輛仿真模塊、控制器模塊與虛擬場(chǎng)景模塊組成。各模塊之間通過CAN總線進(jìn)行數(shù)據(jù)通信。

圖6 HIL實(shí)驗(yàn)平臺(tái)原理圖

車輛仿真模塊由Speedgoat 公司開發(fā)的實(shí)時(shí)仿真器[24]實(shí)現(xiàn)。仿真器上運(yùn)行的高精度車輛動(dòng)力系統(tǒng)模型由美國阿貢國家實(shí)驗(yàn)室研發(fā)的車輛動(dòng)力系統(tǒng)建模軟件Autonomie[25]建立。該模型通過仿真器上位機(jī)編譯后下載入實(shí)時(shí)仿真器,在HIL實(shí)驗(yàn)時(shí)啟動(dòng)以模擬真實(shí)的車輛。仿真車輛的參數(shù)詳見表2。此外,仿真器上位機(jī)還用于實(shí)時(shí)監(jiān)測(cè)CAN總線上的數(shù)據(jù)流。

表2 車輛動(dòng)力系統(tǒng)參數(shù)

HIL 平臺(tái)的控制器模塊采用一款基于英飛凌車規(guī)級(jí)芯片TC275T 開發(fā)的VCU。生態(tài)駕駛策略在Simulink 中建模并編譯為.hex 文件后,通過刷寫工具刷寫到VCU中,在HIL實(shí)驗(yàn)時(shí)實(shí)時(shí)控制車輛運(yùn)動(dòng)。

虛擬場(chǎng)景模塊負(fù)責(zé)模擬真實(shí)道路的復(fù)雜交通環(huán)境并在CAN 總線中實(shí)時(shí)廣播虛擬車輛感知的交通狀態(tài)信息。本文中虛擬交通場(chǎng)景仿真使用開源城市交通仿真軟件(simulation of urban mobility,SUMO)[26]來實(shí)現(xiàn)。SUMO 中搭載的城市交通仿真模型根據(jù)德國TAVF(test track for automated and connected driving)計(jì)劃[27]發(fā)布的漢堡市交通數(shù)據(jù)建立。如圖7所示,被控車輛在虛擬場(chǎng)景中的預(yù)期行駛路線全長約7 060 m,沿途限速為50 km/h,共經(jīng)過27 個(gè)交通燈路口。

圖7 虛擬交通場(chǎng)景

3.2 算法迭代訓(xùn)練結(jié)果

為了將所提基于DRL 的生態(tài)駕駛策略用于實(shí)時(shí)控制,首先需要將TD3 智能體訓(xùn)練至累積獎(jiǎng)勵(lì)值收斂到穩(wěn)定狀態(tài)。本文中最大訓(xùn)練輪次被設(shè)置為300輪,每輪訓(xùn)練的車輛行駛里程被設(shè)置為3 500 m。訓(xùn)練過程在一臺(tái)具有AMD 4800U 處理器的筆記本電腦上完成,總訓(xùn)練時(shí)間為19.04 h。訓(xùn)練過程的獎(jiǎng)勵(lì)軌跡如圖8所示。

圖8 所提算法總獎(jiǎng)勵(lì)曲線

由圖8 可見,在訓(xùn)練過程的開始階段,由于網(wǎng)絡(luò)的訓(xùn)練還不足,TD3 智能體傾向于充分探索整個(gè)環(huán)境,每個(gè)回合的累積獎(jiǎng)勵(lì)雖然呈現(xiàn)上升趨勢(shì)但波動(dòng)較大。隨著訓(xùn)練輪次的增加,從第100 輪到150 輪,TD3 智能體逐漸意識(shí)到最優(yōu)策略的存在,總獎(jiǎng)勵(lì)開始穩(wěn)步上升。當(dāng)TD3 智能體訓(xùn)練到150 輪之后,已經(jīng)達(dá)到收斂狀態(tài),累積獎(jiǎng)勵(lì)軌跡相對(duì)穩(wěn)定。但由于Actor 網(wǎng)絡(luò)計(jì)算的動(dòng)作添加了高斯探索噪聲,累積獎(jiǎng)勵(lì)值仍在一個(gè)小范圍內(nèi)波動(dòng)??偟膩碚f,隨著訓(xùn)練輪次的增加,累積獎(jiǎng)勵(lì)值呈現(xiàn)上升趨勢(shì),表明本文設(shè)計(jì)的狀態(tài)空間、動(dòng)作空間和復(fù)合獎(jiǎng)勵(lì)函數(shù)可以使得DRL智能體學(xué)習(xí)最優(yōu)策略。

離線訓(xùn)練完成后,提取訓(xùn)練過程收斂階段內(nèi)單輪訓(xùn)練累積獎(jiǎng)勵(lì)值最高的Actor 網(wǎng)絡(luò)的節(jié)點(diǎn)權(quán)重和偏差值。在Simulink 中構(gòu)建基于訓(xùn)練后Actor 網(wǎng)絡(luò)與安全速度建議模塊的生態(tài)駕駛策略模型,編譯后下載入HIL實(shí)驗(yàn)平臺(tái)的VCU中進(jìn)行算法性能驗(yàn)證。

3.3 算法性能對(duì)比分析

為了全面分析本文所提基于DRL 生態(tài)駕駛策略的優(yōu)化性能,本文根據(jù)文獻(xiàn)[4]與文獻(xiàn)[28]中提到的智能駕駛員模型(intelligent driver model,IDM)設(shè)計(jì)了基于IDM的對(duì)比生態(tài)駕駛策略作為基準(zhǔn)。由于經(jīng)典IDM 模型僅適用于跟車任務(wù)[29],為了遵守交通燈規(guī)則,設(shè)計(jì)了基于IDM 的對(duì)比策略框架,如圖9 所示。該框架與所提基于DRL 的生態(tài)駕駛策略一致,只是將DRL智能體替換為IDM模型。

圖9 基于IDM的生態(tài)駕駛策略框架

對(duì)比策略中IDM模型計(jì)算的參考車速為

表3 實(shí)驗(yàn)結(jié)果對(duì)比

圖10 兩種策略車輛行駛軌跡時(shí)空?qǐng)D

圖11 虛擬交通場(chǎng)景中自車與前車的距離信息以及前車的車速信息

從圖10 中可以看出,兩種策略都能滿足交通燈規(guī)則的約束,沒有發(fā)生闖紅燈行為。此外,由于HIL平臺(tái)中基于SUMO 的虛擬交通場(chǎng)景可以動(dòng)態(tài)模擬真實(shí)車輛的變道和超車行為,因此被控車輛前方的車輛是可以隨時(shí)發(fā)生變化的。即使在這樣具有挑戰(zhàn)性的場(chǎng)景中,如圖11 所示,被控車輛與前車之間的距離始終大于零,表明整個(gè)行程都沒有發(fā)生碰撞事件。可以說明本文所設(shè)計(jì)的考慮速度建議模塊的生態(tài)駕駛策略框架能夠有效地控制車輛在復(fù)雜城市交通環(huán)境中安全行駛。此外,表3 中所提策略控制的自車在實(shí)驗(yàn)過程中與前車的最小距離比對(duì)比策略高10.41%,說明所提策略更加安全可靠。

關(guān)于乘坐舒適性,如圖12 所示,對(duì)比IDM 策略在加速度為-2、2 和0 m/s2附近的頻數(shù)高于所提策略。而所提策略加速度更集中于[-1,1] m/s2的加速度區(qū)間。這是因?yàn)槭剑?)所提策略的獎(jiǎng)勵(lì)函數(shù)考慮了加速度獎(jiǎng)勵(lì)項(xiàng),因此所提策略更傾向于采取較小的加速度,以較為溫和的方式控制車輛加速/減速至目標(biāo)車速。相比之下,對(duì)比IDM策略則更加激進(jìn),先通過較大的加速度調(diào)整車速,再勻速行駛。兩種策略的加速度量化的對(duì)比如表3 所示,所提策略的加速度絕對(duì)值平均數(shù)小于對(duì)比IDM 策略。因此,所提出的策略比對(duì)比IDM策略更舒適。

圖12 兩種策略的車速軌跡與加速度分布

在經(jīng)濟(jì)性方面,由于式(8)所提策略的獎(jiǎng)勵(lì)函數(shù)包括電池能耗項(xiàng),基于IDM 的生態(tài)駕駛策略通過訓(xùn)練學(xué)到了優(yōu)化車速以提高電能使用效率。從圖13電機(jī)功率損失分布圖以及表3 的電機(jī)損失電能項(xiàng)可以發(fā)現(xiàn),所提策略的電機(jī)功率損失小于對(duì)比IDM 策略的電機(jī)功率損失。因此,如表3 中的電池電耗項(xiàng)所示,與對(duì)比IDM策略相比,所提策略的用電量降低了10.94 %,證明了所提策略具有良好的能耗經(jīng)濟(jì)性。

圖13 兩種策略的電機(jī)機(jī)械功率與電機(jī)功率損失分布

最后,在行駛效率方面,雖然表3 所示所提策略的總行駛時(shí)間與基于IDM的策略總行駛時(shí)間大致相同,但相較于對(duì)比IDM 策略,所提策略減少了83.38%的紅燈停車等待時(shí)間。這一點(diǎn)也可以從圖10 的示例段(a)、(b)、(c)和(d)中看出,所提策略相對(duì)于對(duì)比IDM 策略在交通燈路口停車次數(shù)更少,整個(gè)行程更加通暢。因此,所提策略的綜合駕駛體驗(yàn)比對(duì)比IDM策略更好。

為了充分展現(xiàn)本文所提DRL 策略的有效性和實(shí)用性,選擇了圖10 中仿真時(shí)間范圍為250-350 s的示例段(a)對(duì)所提策略展開了具體案例分析。此外,由于V2X 通信在實(shí)際應(yīng)用中必然存在時(shí)延問題,進(jìn)行了不同傳輸時(shí)延場(chǎng)景下的HIL 實(shí)驗(yàn)驗(yàn)證。結(jié)果表明,當(dāng)時(shí)延小于500 ms 時(shí),時(shí)延對(duì)控制算法性能的影響不大;而當(dāng)時(shí)延大于500 ms 后,需要補(bǔ)償傳輸時(shí)滯以克服對(duì)算法安全性帶來的負(fù)面影響。

4 結(jié)論

本文提出了一種改善復(fù)雜城市場(chǎng)景下純電動(dòng)CAV乘坐體驗(yàn)的多目標(biāo)生態(tài)駕駛策略。通過設(shè)計(jì)包含安全速度建議模塊的生態(tài)駕駛策略框架,保證了被控車輛的安全性;并通過設(shè)計(jì)融合安全約束與塑形函數(shù)的多目標(biāo)復(fù)合獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)了經(jīng)濟(jì)性、舒適性和出行效率的協(xié)同優(yōu)化。在基于虛擬交通場(chǎng)景的HIL 平臺(tái)下的實(shí)驗(yàn)結(jié)果表明,所提策略可以在確保駕駛安全的前提下,實(shí)時(shí)協(xié)同優(yōu)化車輛的能耗經(jīng)濟(jì)性、舒適性和通行效率。與基于IDM對(duì)比策略相比,所提策略的電耗降低了10.9 %,證明了所提方法的有效性。為了更好地優(yōu)化CAV 的駕駛行為,未來的研究可以進(jìn)一步完善該策略,并將其應(yīng)用于更廣泛的交通場(chǎng)景中。此外,也可以探索更多的DRL 模型,以更好地提高汽車的行駛效率和安全性。

猜你喜歡
交通燈車速車輛
基于單片機(jī)的交通燈控制系統(tǒng)設(shè)計(jì)
車輛
2012款奔馳R300車修改最高車速限制
一直飄紅的交通燈
冬天路滑 遠(yuǎn)離車輛
基于單片機(jī)的LED模擬交通燈設(shè)計(jì)
提高車輛響應(yīng)的轉(zhuǎn)向輔助控制系統(tǒng)
北京現(xiàn)代途勝車車速表不工作
兩車直角碰撞車速計(jì)算方法及應(yīng)用
基于protues仿真的交通燈即時(shí)控制的一種實(shí)現(xiàn)
临沧市| 夏河县| 哈尔滨市| 资源县| 咸阳市| 江口县| 栾川县| 新源县| 社旗县| 定州市| 清流县| 崇州市| 平乡县| 元氏县| 哈尔滨市| 高要市| 城固县| 宁蒗| 思茅市| 玉溪市| 金昌市| 榆中县| 南溪县| 新乡县| 光山县| 大渡口区| 福清市| 博湖县| 冷水江市| 金门县| 井陉县| 怀集县| 东丽区| 望江县| 施甸县| 通榆县| 江口县| 萨迦县| 五华县| 科技| 东乌珠穆沁旗|