禹樂文,羅 霞,劉仕焜
(西南交通大學交通運輸與物流學院,四川 成都 611756)
自動駕駛車輛換道決策的算法設計十分具有挑戰(zhàn)性,但對確保自動駕駛車輛的安全平穩(wěn)運行至關重要。從國際公認的SAE(美國汽車工程協(xié)會)制定的L0-L5自動駕駛車輛階段分級劃分標準[1]不難看出,在實現(xiàn)部分自動化(L2)以及有條件自動化(L3)后,想要進一步將自動駕駛自動化程度進一步提升至高度乃至完全自動化(L4、L5),需要進一步提高場景適用性。而保證自動駕駛車輛在復雜車路環(huán)境下的正確換道決策則是提高其實用性的關鍵。
換道決策規(guī)劃主要是針對具有換道意圖的車輛,根據(jù)實際情況進行“是否換道”的決策[2]。決策模型可分為基于規(guī)則的模型、基于機器學習的模型、基于效用計算的模型和基于博弈論的模型[3]。基于規(guī)則的模型,以Gipps[4]理論為代表,車輛的跟馳換道與否取決于車輛是否滿足規(guī)則所限制條件。Barcelo等人[5]在此基礎上增加了新的換道條件。此種模型將復雜的換道決策簡化為固定準則的判斷,實用性不強?;谛в糜嬎愕拇硇阅P陀葾hmed等人[6]和Toledo等人[7]提出。Sun等[8]提出了在不同換道場景下基于效用函數(shù)的換道選擇模型。此類算法能夠較好地模擬換道決策過程,但卻忽略了周圍車輛對于換道車輛的反應預測;基于機器學習的模型效果較優(yōu),但對數(shù)據(jù)需求量較大,實用性受到限制。此類模型的算法包括人工神經(jīng)網(wǎng)絡、模糊邏輯、決策樹等[9-11]。
相較于上述方法,博弈論可以在保證算法效率的同時,盡可能全面考慮環(huán)境參數(shù)以及周圍車輛的不同反應對于換道決策的影響。Yoo和Langari[12]提出了一種基于Stackelberg博弈的模型來研究車輛在換車道和合并車道過程中的相互作用。Wang等人[13]使用博弈論方法預測車輛的換道跟馳控制。Liu等人[14]使用非合作博弈對車道并入進行仿真。Yu[15]提出了一種基于動態(tài)博弈的變道模型。但上述模型大多將與周圍車輛的博弈簡化為與目標車道后車的博弈,仍然沒有做到“復雜車路環(huán)境”下的決策。
針對現(xiàn)有文獻的局限性,本次研究將綜合考慮變道車輛、目標車道車輛和原車道車輛之間的關系,提出一種適用性更高的駕駛決策算法,實現(xiàn)AV-HV(自動駕駛車和人類駕駛車)環(huán)境下自動駕駛車輛的高效安全駕駛。
現(xiàn)階段模型所考慮的情況一般如圖1(a)所示,在如圖1(b)所示的復雜車路環(huán)境下,一般模型缺乏適用性,而此情況,在實際駕駛環(huán)境中更為常見,這需要綜合考慮換道車輛與原車道、目標車道前后多輛車的沖突關系。
圖1 不同路況下車輛換道意圖示意
具體分析,1(b)所描述的情況如下:兩個相鄰的車道A和車道B上同時存在兩個AV-HV車隊,自動駕駛車A產(chǎn)生換道意圖,車道A的目標間隙是否適合換道與間隙大小和B的侵略性有關。在圖1(a)中,當A進行一定的橫向運動時,若目標車道內(nèi)的后車侵略性較大,且無意避免沖突,則會返回原車道行駛。而在圖1(b)中,A的橫向移動,會導致車C將產(chǎn)生超車意圖,這與車輛A的意圖相沖突。針對上述情況,本文綜合考慮了換道車輛與原車道、目標車道前后多輛車的沖突關系,通過引入車輛侵略系數(shù)來量化復雜路況下周圍車輛對于換道決策的影響,以尋找自動駕駛車輛在復雜車路環(huán)境下的換道決策以及軌跡線規(guī)劃的最佳策略,從而保證所有車輛在換道決策過程中的安全和效率。模型算法邏輯如圖2所示。下面,將針對各個部分具體闡述模型算法。
圖2 模型算法邏輯圖
復雜車路環(huán)境下,換道過程會涉及到與周圍多個車輛的交互,這需要對周圍車輛的侵略性做準確估計。NGSIM數(shù)據(jù)組[16]包含了百萬條車輛行駛記錄,其十分適合用于車輛行駛特性以及自動駕駛仿真環(huán)搭建,本文主要以NGSIM為例,進行駕駛侵略性分布估計。
在NGSIM中選取若干條軌跡線,繪制圖3所示速度隨時間變化曲線。不難看出,由于駕駛員本身駕駛特性差異,在面對突發(fā)情況時,其選擇的駕駛行為也是不同的,侵略性強的駕駛員,面對突發(fā)情況時往往會選擇盡可能保持自己的空間與速度收益,而放棄安全性,反之亦然。
圖3 NGSIM數(shù)據(jù)組中不同軌跡線
本文以車輛加速度絕對值大小(圖3中曲線斜率絕對值大小)作為衡量侵略性的標準,加速度越大,駕駛員在行駛時往往會采取較為“冒進”的駕駛行為。將NGSIM加速度過大以及過小的數(shù)據(jù)進行剔除處理后,得到加速度分布情況。
數(shù)組中的加速度大小近似于對稱分布,且最大值維持在11左右,最小值在-11左右。因此,本文侵略性對應的加速度應在-11到11之間。
在復雜路況中,除去目標車道外,換道行為造成的橫向偏移,會導致原車道的跟馳狀態(tài)發(fā)生改變,后車會產(chǎn)生超車期望以獲得空間收益。因此,需要對于后車的跟馳狀態(tài)及其它重要參數(shù)與換道車輛橫向偏移之間的關系做探究。
3.2.1 基于OEP的跟馳模型
部分研究探討過橫向偏移在跟馳模型中的影響。Jin和Wang[17]在Bando等人的OV模型[18]基礎上,考慮了橫向偏移對跟馳過程前車與再前車的影響,提出了非車道全速度差模型。
上述模型認為相同車輛的橫向偏移對跟馳車輛的影響是相同的, 但實際上,由前車橫向位置的不同形成的不同側(cè)向凈空寬度, 會對跟車的駕駛員及車輛產(chǎn)生不同的影響。基于此, 本文在OV 模型的基礎上, 引入橫向分離參數(shù)及超車期望與虛擬前車的概念來考慮車輛橫向偏移對跟馳車輛的影響。
車輛跟馳模型不僅適用于當前車道上的車輛,也適用于目標車道上假定的跟馳車輛。車輛合并過程中,車輛在原車道上所留下的橫向間隙稱為通過間隙,其產(chǎn)生的超車期望定義為OEP。無論換道車輛前是否有車輛,原跟隨車輛都會考慮在可通行的間隙前設置虛擬車輛,以確保安全。其邏輯示意如圖4所示。
圖4 OEP邏輯示意圖
ΔXn,n+1為t時刻第n輛車與虛擬前車之間的車頭間距,本文假設虛擬前車與跟馳車的間距是前車與跟馳車輛間的γ倍,γ越大,駕駛員所受影響越小,駕駛員所呈現(xiàn)的超車意愿越強。LSn表示跟馳車輛與前車的橫向分離距離,Wn+1表示前車所給予的可超越間隙。
本文設車輛的超車期望為On以衡量超車期望對跟馳模型的影響,橫向分離參數(shù)為當前車輛的橫向分離距離與當前道路的最大分離距離的比值,定義為Pn。因為超車期望與前車的可超越間隙存在一點聯(lián)系,故其存在以下幾個特點:
G(Δvn,n+1(t),Δvn,n+2(t))=(1-Pn)Δvn,n+1(t)+PnΔvn,n+2(t)
(1)
1)On隨著前車的可超越間隙的增加而增大。
2)前車可超越間隙小于臨界值時,默認為不存在超車可能,因此On的值為0。
3)當前車的可超越間隙大于或等于可通過間隙最大值時,認為此時超車期望達到最大值1。
基于以上建模思想, 建立模型微分方程:
其中,κ=駕駛員對速度差的敏感系數(shù);ΔXn,n+1(t)=Xn+1(t)-Xn(t)=t時刻跟馳車n與前車的車頭間距;V=t時刻跟馳車n與第二輛前車的車頭間距;V=優(yōu)化速度函數(shù)。
依據(jù)上述式子可得跟馳車輛的超車期望為
(2)
3.2.2 基于多人動態(tài)博弈的換道決策模型
在文獻[19]的研究中,對于單一車輛換入車道的情況作了討論,在其所提出的基于動態(tài)博弈論的基礎之上,本文對于自動駕駛車輛換道在復雜車路環(huán)境下的換道決策搭建模型,主要的博弈關系表現(xiàn)如圖5所示。
圖5 基于多人動態(tài)博弈的算法框架
上述車輛編號參照圖1(b)。博弈論模型的基本原理是計算博弈各方的收益函數(shù),即需要準確求出A、B兩車的收益。收益函數(shù)的計算依據(jù)文獻[29]得到
Upayoff=fw(a,a0)((1-β(q))*Usafety(a)+β(q)*Uspace(a)+1)-1
(3)
在引入超車期望前提下,則可以由此計算原車道車的效益,其計算公式如下
Upayoff=fw(a,a0)((1-On)*Usafety(a)+On*Uspace(a)+1)-1
(4)
其中,On=超車期望,0≤On≤1。
在文獻[19]研究中,收益函數(shù)主要考慮車輛行駛的縱向加速度,而對于車輛的橫向控制采用PID控制器進行模擬,車輛的橫向運動幾乎是線性的。為了更準確的模擬車輛換道過程,車輛的橫向移動需要進一步標定。
基于已有的軌跡規(guī)劃方法[20],本文在其基礎上采用多項式擬合方法進行軌跡線規(guī)劃。
已知在車輛換道的初始時刻t0,車輛的狀態(tài)為q0=[x0,vx0,ax0,y0,yy0,ay0],分別表示x方向上的坐標、速度、加速度,y方向上的坐標、速度、加速度。換道結(jié)束的時刻為tn,該時刻下車輛的狀態(tài)為qn=[xn,vxn,axn,yn,yyn,ayn]。車輛的換道軌跡函數(shù)可表示為
(5)
因為車輛換道時處于勻速運動,vx0=vxn=v,ax0=axn=0,車輛在換道開始與結(jié)束的時刻均與車道線保持平行,故ay0=ayn=0。
由以上公式可知,其結(jié)果取決于未知數(shù)tn,因此若確定未知數(shù)tn,則可表示多項式的各個系數(shù),進而確定換道軌跡。
為避免車輛因側(cè)向加速度過大導致側(cè)滑或沖出路面邊界線。設約束如下
(6)
在換道過程中,車輛的側(cè)向加速度與換道時間是關鍵因素,為保證車輛在安全換道的基礎上,盡可能減少換道時間,設軌跡目標函數(shù)如下
(7)
其中,ω1和ω2為權(quán)重系數(shù),且ω1+ω2=1。
基于以上目標函數(shù)與約束條件,對車輛換道過程的軌跡進行規(guī)劃,進而為車輛換道博弈提供支持。
從圖5所示的算法流程來看,在自動駕駛車輛換道過程中若由于目標車道后車侵略性過大導致博弈失敗,則會出現(xiàn)三方博弈的情況。本文將基于一種HSM算法[21],對三方博弈的情況進行求解:
(8)
其中
(9)
(10)
其中:a
(11)
Step 4. 如果
(12)
Step 5. 生成一個新的迭代點θk+1,
θk+1=θk-αkd(θk,k)
(13)
d(θk,k)
φ(θk,k):=〈θk-k,Gd(θk,k)〉,
設k=k+1,返回step2。
整個換道博弈可以表示如下
(14)
s.t.:
在完成模型搭建及算法設計后,本文對該模型的有效性及適用性進行仿真驗證,并采用NGSIM數(shù)據(jù)中的車輛軌跡線數(shù)據(jù)以及對應的道路參數(shù)進行仿真環(huán)境搭建。
本文選取的車輛樣本如視頻截圖6所示。
圖6 NGSIM采樣視頻圖
圖中,ID為1103的車輛(之后以ID簡稱車輛)處于一個慢車道上,由于左邊車隊1121與1119間隙較大,最理想的情況為換道進入快車道,但是由于1121的侵略性較強,1103換道失敗,同時1096超車期望也較大,最終,1096選擇下一個間隙換道。整個過程,兩個車隊系統(tǒng)都沒有達到最優(yōu)化,且1103很可能會與1121或1096產(chǎn)生沖突。因此本文將1103視為自動駕駛車輛,測試本文模型在此情況下的效果。
依照NGSIM數(shù)據(jù),得到車輛初始參數(shù)如表1所示。車輛的字母編號參照圖1(b)。為便于分析,以NGSIM中車輛1103(13.014,378.619)在3520幀的位置作為基準點進行標定。仿真環(huán)境參數(shù)按照NGSIM對應的實際環(huán)境參數(shù)進行設置(道路寬度,限速等)。為準確描述博弈過程中車輛的相互作用,對除A以外的車輛進行侵略性標定。由于A在本仿真中被視為自動駕駛車,故將其侵略性被設置為0.5。
表1 初始仿真參數(shù)表
本次仿真利用MATLAB中Simulink套件進行。算法結(jié)構(gòu)如圖7所示。ACC決策模塊負責博弈算法執(zhí)行和軌跡線規(guī)劃;車路環(huán)境模塊負責仿真環(huán)境構(gòu)建和參數(shù)的采集與輸出;侵略性分布評估模塊負責對駕駛環(huán)境中整體侵略性做預估;可視化模塊在Simulink中現(xiàn)有的Bird’s-Eye Plot模塊上稍作調(diào)整,負責整個仿真過程的可視化。
圖7 Simulink仿真邏輯框架圖
利用Simulink進行仿真,選出比較有代表性的幾個時間節(jié)點的可視化結(jié)果,如表2所示?;诮Y(jié)果的具體分析見下節(jié)。
表2 仿真表
依據(jù)仿真結(jié)果,車輛A在1.1s處產(chǎn)生換道意向,隨后估計B車的侵略性,并試探性地側(cè)移。在1.1-1.7s范圍內(nèi),通過博弈計算,A車選擇加速行駛。同時,隨著A車橫向偏移的增加,C車產(chǎn)生超車期望。1.7秒后,基于安全考慮,A選擇減速退讓。此時,C車與博弈模塊進行交互,形成多人博弈模型。2.8秒時,在B與C的綜合博弈中,車輛B選擇避讓,車輛A再次換車道直至換道完成。
該算法與傳統(tǒng)的模型比較,更具適用性。文獻[19]中的算法,A車難以在此情況下進行決策,B車會不進行避讓,同時C車的超車期望會導致潛在沖突。仿真結(jié)果顯示,由博弈模型使B車選擇讓步,A車成功改道,可見在此模型下,車輛A與車輛C之間的沖突得到了很好的解決。
為了更直觀地顯示在換道過程中車輛位置的動態(tài)關系,本文使用時空三維圖展現(xiàn)車輛各時刻運動情況,如圖8所示,每個小四邊形的長度和寬度對應車輛的長度和寬度,如果圖中四邊形在同一時刻重合,則表示車輛發(fā)生碰撞。由圖可見,在充分考慮軌跡線的動態(tài)決策下,各車之間保持了很好的間距,且線形十分理想。
圖8 各車輛時間與位置3D示意圖
另外,本研究中,除初始狀態(tài)外,對結(jié)果影響最大的因素是目標車道后車輛的侵略性和原車道后車輛的超車期望。為更直觀的比較不同參數(shù)的結(jié)果,將除了后車的侵略性外的初始輸入?yún)?shù)值保持不變。將β(q3)初值設為0.65,步長為0.05,上限為0.9,下限為0.5。通過仿真研究中建立的模型和仿真環(huán)境,分析了不同β(q3)值的靈敏度。換道車輛軌跡圖如圖9所示。
圖9 不同β(q3)值換道車輛軌跡圖
可以看出,隨著侵略性的變化,車輛軌跡也發(fā)生了相應的變化。當β(q3)達到0.9時,第二階段的博弈將在很短的時間內(nèi)完成。當β(q3)降低時,超車期望的增加更依賴于后續(xù)車輛的相關參數(shù)。當β(q3)降至0.5時,第二階段結(jié)束時,原車道后車的博弈失敗,換道車輛在短時間移動后返回。通過計算換道車輛與相鄰車輛在不同β(q3)值下的最小間隙,得到以下結(jié)果。
由表3可得,β(q3)去不同值時,該模型均可以得到合理的結(jié)果,表明了該模型可以很好應對不同侵略性的環(huán)境車輛下的換道決策,具有較強的適用性。
表3 不同β(q3)取值下的最小車頭時距
本文研究了自動駕駛車輛在復雜車路環(huán)境下的換道決策與軌跡線規(guī)劃問題。提出了一種基于駕駛員整體侵略性的多人動態(tài)博弈變道模型。該模型以車輛整體軌跡線數(shù)據(jù)為驅(qū)動,不僅考慮了目標車道上的跟馳車輛侵略性,還綜合考慮了周圍環(huán)境車輛的行駛意圖。仿真結(jié)果表明,本文設計的算法具有良好的性能和適用性,能夠保證與人車交互時安全、高效地換道。
當然,本文算法是在NGSIM數(shù)據(jù)的基礎上進行算法設計與仿真驗證的,雖然NGSIM數(shù)據(jù)組已被眾多論文證實具有較強的真實性,但本文模型的適用性還需要在現(xiàn)實環(huán)境中進一步探索和論證。此外,本研究只討論直行路段的換道決策。當涉及到更復雜的道路線性如彎道時,算法的通用性需要進一步驗證或增強。