国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)深度Q網(wǎng)絡(luò)的無人車換道決策算法研究

2022-04-08 03:43:04張鑫辰劉元盛謝龍洋
關(guān)鍵詞:車道無人決策

張鑫辰,張 軍,劉元盛,路 銘,謝龍洋

1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101

2.北京聯(lián)合大學(xué) 機(jī)器人學(xué)院,北京 100101

3.北京聯(lián)合大學(xué) 應(yīng)用科技學(xué)院,北京 100101

無人駕駛技術(shù)可以使人們的出行更加方便、安全,同時(shí)也可以減少因人為因素導(dǎo)致的交通事故。而無人車換道決策問題是無人駕駛技術(shù)中的重要問題之一[1],因此,如何在保證安全的前提下使無人車更有效率的行駛成為了研究者聚焦的重點(diǎn)[2]。目前,無人車換道決策算法主要分為兩部分:基于規(guī)則的算法和基于機(jī)器學(xué)習(xí)的算法?;谝?guī)則的換道決策算法模型主要有間隙接受模型[3]、勢場模型[4-5]、模糊邏輯模型[6]等,這些算法較基于機(jī)器學(xué)習(xí)的算法相比,泛化能力較弱,且往往得到二元的換道決策結(jié)果(換道、不換道),無法處理較為復(fù)雜和隨機(jī)的動(dòng)態(tài)道路場景中的問題。

針對(duì)基于規(guī)則換道決策算法存在的不足,基于機(jī)器學(xué)習(xí)的算法被逐漸應(yīng)用于無人車換道決策的研究中。文獻(xiàn)[7-8]使用支持向量機(jī)將數(shù)據(jù)集中無人車和無人車周圍的環(huán)境車的車輛參數(shù)作為模型輸入,最終對(duì)無人車的換道行為決策結(jié)果進(jìn)行分類,這種方法雖然可以解決在高維的數(shù)據(jù)下的輸入問題,但是由于數(shù)據(jù)量較大,算法的時(shí)間復(fù)雜度較高,導(dǎo)致效率較低。文獻(xiàn)[9]使用隨機(jī)森林和決策樹對(duì)數(shù)據(jù)集進(jìn)行分析,并分別輸出了直行和換道的決策結(jié)果,然而這種方法需要收集車輛駕駛員的標(biāo)簽數(shù)據(jù),這種標(biāo)簽數(shù)據(jù)的采集十分困難并且數(shù)據(jù)中的噪聲會(huì)直接影響分類結(jié)果的準(zhǔn)確性。當(dāng)使用以上監(jiān)督學(xué)習(xí)算法來解決無人車換道決策問題時(shí),往往需要大規(guī)模數(shù)據(jù)集作為算法輸入,導(dǎo)致算法訓(xùn)練時(shí)間較長,同時(shí)在訓(xùn)練時(shí)將數(shù)據(jù)集的標(biāo)簽數(shù)據(jù)當(dāng)作“真值”,使得算法缺乏探索能力。文獻(xiàn)[10]使用進(jìn)化策略(evolution strategy,ES)對(duì)無人車換道決策算法進(jìn)行研究,提出了基于ES的神經(jīng)網(wǎng)絡(luò)算法,使用并輸出了保持原道,左換道,右換道三種結(jié)果。此方法雖然解決了梯度下降法易使模型收斂到局部最優(yōu)的問題,但是優(yōu)化速度較慢,計(jì)算成本較高。上述算法與基于強(qiáng)化學(xué)習(xí)的換道決策方法相比,往往需要大量的數(shù)據(jù)集作為輸入用于模型訓(xùn)練,同時(shí)數(shù)據(jù)集中的噪聲會(huì)直接影響模型訓(xùn)練的準(zhǔn)確性,最終影響模型的測試結(jié)果。針對(duì)上述問題,研究者提出基于強(qiáng)化學(xué)習(xí)的無人車換道決策算法。該方法現(xiàn)已成功應(yīng)用在人工智能領(lǐng)域中,例如Atari游戲[11-12]、圍棋比賽[13]、機(jī)器人路徑規(guī)劃[14]、無人車車道保持問題[15]等。文獻(xiàn)[16]使用Q-learning對(duì)高速公路車輛的換道決策進(jìn)行研究,但該研究僅考慮簡單的雙車道場景,且當(dāng)輸入狀態(tài)維數(shù)過高時(shí),該算法會(huì)消耗大量時(shí)間,計(jì)算效率很低。文獻(xiàn)[17-19]使用DQN對(duì)高速公路場景中的車輛建模,并對(duì)決策成功率和平均獎(jiǎng)勵(lì)等評(píng)價(jià)指標(biāo)進(jìn)行了分析,但由于DQN存在過度估計(jì)的問題,使得估計(jì)的Q值大于真實(shí)Q值,使得在模型測試時(shí)不能得到準(zhǔn)確的結(jié)果,算法往往會(huì)收斂到局部最優(yōu),同時(shí)DQN每次都是從經(jīng)驗(yàn)回放單元中等概率抽樣,導(dǎo)致一些重要的經(jīng)驗(yàn)樣本被忽略,進(jìn)而降低了算法的收斂速度和網(wǎng)絡(luò)參數(shù)更新的效率。

為了更好地解決無人車換道決策問題,本文提出了一種基于改進(jìn)深度Q網(wǎng)絡(luò)的無人車換道決策模型。首先將算法的狀態(tài)值輸入到兩個(gè)結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò)中,并分別計(jì)算出估計(jì)值和目標(biāo)值,以此來減少經(jīng)驗(yàn)樣本之間的相關(guān)性,進(jìn)而提升算法的收斂性;然后將隱藏層輸出的無人車狀態(tài)信息同時(shí)輸入到狀態(tài)價(jià)值函數(shù)流和動(dòng)作優(yōu)勢函數(shù)流中,更好地平衡了無人車狀態(tài)與動(dòng)作的關(guān)系;最后采用PER的方式從經(jīng)驗(yàn)回放單元中抽取經(jīng)驗(yàn)樣本,以此提升樣本的利用率,使得無人車更好地理解周圍環(huán)境變化,進(jìn)而得到更加合理的換道決策結(jié)果。

1 改進(jìn)深度Q網(wǎng)絡(luò)的換道決策模型

1.1 雙深度Q網(wǎng)絡(luò)

雙深度Q網(wǎng)絡(luò)[20](double deep Q network,DDQN)針對(duì)DQN過度估計(jì)的問題,將動(dòng)作的選擇和評(píng)估進(jìn)行解耦。首先通過參數(shù)為w的主網(wǎng)絡(luò)選擇最大的Q值對(duì)應(yīng)的動(dòng)作,再使用參數(shù)為w′的目標(biāo)網(wǎng)絡(luò)計(jì)算此動(dòng)作所對(duì)應(yīng)的目標(biāo)值,進(jìn)而對(duì)選擇的動(dòng)作進(jìn)行評(píng)估,再根據(jù)評(píng)估值Q(s j-1,a j-1,w)和目標(biāo)值計(jì)算損失函數(shù)L j(w),并通過誤差反向傳遞的方式更新主網(wǎng)絡(luò)的參數(shù)w,如公式(1)和(2)所示:

其中為目標(biāo)值,Q(s j-1,a j-1,w)為評(píng)估值,γ為衰減因子,r j為獎(jiǎng)勵(lì)值,損失函數(shù)L j(w)根據(jù)評(píng)估值和目標(biāo)值的均方誤差(mean square error,MSE)計(jì)算得到。

1.2 競爭網(wǎng)絡(luò)結(jié)構(gòu)

基于競爭結(jié)構(gòu)的深度Q網(wǎng)絡(luò)(dueling deep Q network,dueling DQN)[21]和基于競爭結(jié)構(gòu)的雙深度Q網(wǎng)絡(luò)(dueling double deep Q network,dueling DDQN)分別從DQN和DDQN的基礎(chǔ)上在主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中加入競爭網(wǎng)絡(luò)結(jié)構(gòu)(dueling network architecture),以便更準(zhǔn)確的估計(jì)Q值,上述兩個(gè)模型的主網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 競爭網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Dueling network structure

無人車在行駛過程中從周圍環(huán)境獲取狀態(tài)值作為網(wǎng)絡(luò)輸入,通過隱藏層的狀態(tài)信息分別被輸入到狀態(tài)價(jià)值函數(shù)流和動(dòng)作優(yōu)勢函數(shù)流中進(jìn)行進(jìn)一步的數(shù)據(jù)處理,然后將兩個(gè)函數(shù)流的輸出相加,最后輸出Q(s,a)的值。Q(s,a)的計(jì)算方式如公式(3)所示:

其中Q(s,a|θ,α,β)為輸出的Q值,V(s|θ,β)為狀態(tài)價(jià)值函數(shù),A(s,a|θ,α)為動(dòng)作優(yōu)勢函數(shù),θ為公共隱藏層的網(wǎng)絡(luò)參數(shù),α為動(dòng)作優(yōu)勢網(wǎng)絡(luò)的參數(shù),β為狀態(tài)價(jià)值網(wǎng)絡(luò)的參數(shù),a′為所有可能采取的動(dòng)作,average則是對(duì)所有動(dòng)作優(yōu)勢函數(shù)取均值。

1.3 優(yōu)先級(jí)經(jīng)驗(yàn)回放

在無人車與環(huán)境不斷交互的過程中,經(jīng)驗(yàn)樣本被不斷的存儲(chǔ)到經(jīng)驗(yàn)回放單元中用于模型的訓(xùn)練,但不同經(jīng)驗(yàn)樣本之間的重要性是不同的,隨著經(jīng)驗(yàn)回放單元中樣本的不斷更新,如果采取均勻隨機(jī)取樣的方式從經(jīng)驗(yàn)回放單元中抽取小批量樣本作為模型輸入,那么一些重要性較高的經(jīng)驗(yàn)樣本就無法被充分利用甚至被直接覆蓋,導(dǎo)致模型訓(xùn)練效率降低。為提升模型的訓(xùn)練效率,使用一種優(yōu)先級(jí)經(jīng)驗(yàn)回放[22]的方式從經(jīng)驗(yàn)回放單元中抽取樣本,以此增加重要性較高的樣本被抽取的概率。即用δj表示樣本j的時(shí)間差分誤差(temporal differenceerror,TD-error),并以此來衡量每個(gè)經(jīng)驗(yàn)樣本的重要性,如公式(4)所示:

其中p j為樣本j的優(yōu)先級(jí),ε為很小的正常數(shù)進(jìn)而保證TD-error幾乎為0的樣本也有較低的概率被抽取。P(j)為樣本j的優(yōu)先級(jí)權(quán)重,α為經(jīng)驗(yàn)回放時(shí)優(yōu)先級(jí)權(quán)重所占的比例,若α為0,則采用均勻隨機(jī)抽樣,否則根據(jù)歸一化后的權(quán)重w j抽樣。如公式(5)~(7)所示,N為經(jīng)驗(yàn)回放單元的大小,β為抽樣權(quán)重系數(shù),取值范圍為β∈[0,1]。在抽取樣本時(shí)通過采用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式,提升了主網(wǎng)絡(luò)誤差反向傳遞時(shí)更新參數(shù)的效率以及網(wǎng)絡(luò)的收斂速度。

1.4 改進(jìn)的深度Q網(wǎng)絡(luò)

為了使無人車在決策過程中得到更優(yōu)的駕駛策略,使用改進(jìn)的深度Q網(wǎng)絡(luò)建立換道決策算法。此算法先將DDQN與競爭結(jié)構(gòu)結(jié)合,并用于主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中來解決DQN過度估計(jì)問題,同時(shí)更好地平衡了狀態(tài)價(jià)值函數(shù)和動(dòng)作優(yōu)勢函數(shù)的關(guān)系。然后采用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式抽取小批量數(shù)據(jù)作為模型輸入,進(jìn)一步提升了TD-error的絕對(duì)值較大的樣本利用效率。基于改進(jìn)深度Q網(wǎng)絡(luò)的無人車換道決策算法結(jié)構(gòu)圖如圖2所示,在無人車的行駛過程中,首先無人車獲取自身以及周圍車輛的參數(shù)信息作為當(dāng)前時(shí)刻的狀態(tài)值,同時(shí)將動(dòng)作值、無人車與環(huán)境交互得到的獎(jiǎng)勵(lì)值、以及下一時(shí)刻的狀態(tài)值作為一個(gè)元組,即(s,a,r,s′),存儲(chǔ)到經(jīng)驗(yàn)回放單元D中,然后使用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式進(jìn)行抽取樣本,并將狀態(tài)值分別輸入到主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中,根據(jù)兩個(gè)網(wǎng)絡(luò)的輸出結(jié)果以及獎(jiǎng)勵(lì)值r對(duì)損失函數(shù)進(jìn)行計(jì)算,進(jìn)而更新主網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),直到算法完成迭代。

圖2 改進(jìn)深度Q網(wǎng)絡(luò)的無人車換道決策算法結(jié)構(gòu)Fig.2 Structure diagram of autonomous vehicle lane change strategy algorithm based on improved deep Q network

2 實(shí)驗(yàn)場景搭建

實(shí)驗(yàn)場景搭建分為數(shù)據(jù)預(yù)處理和環(huán)境車輛模型搭建兩部分。如圖3所示,通過數(shù)據(jù)預(yù)處理對(duì)道路環(huán)境中的車流量、車輛速度及初速度范圍、車輛初始位置進(jìn)行提取,同時(shí)結(jié)合環(huán)境車輛模型,對(duì)真實(shí)道路環(huán)境進(jìn)行還原,并將此場景作為算法的訓(xùn)練和測試場景。

圖3 US-101高速場景Fig.3 US-101 highway scene

2.1 數(shù)據(jù)預(yù)處理

實(shí)驗(yàn)中選用NGSIM數(shù)據(jù)集中US-101高速公路的車輛數(shù)據(jù)進(jìn)行車輛及道路參數(shù)的提取。US-101高速公路場景如圖3所示,高速路全長約640 m,共有8條車道,其中1~5號(hào)車道為主車道,6號(hào)車道為輔路道,7、8號(hào)車道分別為車流匯入車道和匯出車道。實(shí)驗(yàn)中選用主車道(1~5號(hào))中的車輛數(shù)據(jù)搭建5車道道路實(shí)驗(yàn)場景。

首先對(duì)主車道車輛數(shù)據(jù)進(jìn)行預(yù)處理,剔除轎車外的其他車輛類型數(shù)據(jù),并篩選出主車道前300 m的車輛數(shù)據(jù),該段數(shù)據(jù)對(duì)應(yīng)的道路中的車流量適中。由于5號(hào)車道中的車輛受6~8號(hào)車道內(nèi)車輛匯入和匯出的影響,故分別統(tǒng)計(jì)1~4號(hào)車道的車輛與5號(hào)車道的車流量、車輛速度及初速度范圍、車輛初始位置等參數(shù),以便更好地還原真實(shí)環(huán)境中的道路場景。統(tǒng)計(jì)后的車輛數(shù)據(jù)信息如表1所示,1~5車道車輛速度分布如圖4所示,車輛初速度分布如圖5所示。

表1 車輛數(shù)據(jù)信息Table 1 Information of vehicle data

圖4 車輛速度分布Fig.4 Vehicle speed distribution

圖5 車輛初速度分布Fig.5 Initial vehicle speed distribution

根據(jù)表1可知,在900 s內(nèi),1~4號(hào)車道共有1 502輛車,即車流量約為每分鐘100輛;5號(hào)車道共有389輛車,即車流量約為每分鐘26輛。

根據(jù)圖4、5可知,1~4號(hào)車道的車輛速度范圍和初速度范圍主要分布在7~19 m/s和6~14 m/s,比例分別達(dá)到99.75%和99.51%;5號(hào)車道的車輛速度范圍和初速度范圍主要分布在1~19 m/s和10~12 m/s,比例分別達(dá)到99.98%和91.89%。為適應(yīng)絕大多數(shù)車輛的駕駛規(guī)律,故使用上述車輛的初速度和速度范圍作為車輛仿真環(huán)境參數(shù)。車輛初始位置可通過數(shù)據(jù)集直接獲取。同時(shí),對(duì)主車道車輛的長度寬度進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果為:長度為12 ft(約3.6 m),寬度為6 ft(約1.8 m)的車輛所占比例最大,故選用長3.6 m、寬1.8 m的車輛作為實(shí)驗(yàn)仿真車輛。仿真車輛參數(shù)如表2所示。

表2 仿真環(huán)境參數(shù)設(shè)定Table 2 Simulation environment parameters setting

2.2 環(huán)境車輛模型搭建

為了更好地模擬真實(shí)道路環(huán)境中車輛的駕駛行為,分別使用車輛橫向和縱向模型對(duì)實(shí)驗(yàn)場景中的環(huán)境車輛進(jìn)行建模。其中橫向模型采用MOBIL(minimizing overall braking induced by lane change)模型,使用此策略模型對(duì)環(huán)境車輛的換道行為進(jìn)行建模,如公式(8)~(10)所示:

上述公式中,Δa為加速度增益,alc、aold、anew分別為執(zhí)行換道車輛、換道前原車道的后方車輛以及目標(biāo)車道后方車輛的加速度,alc'、aold'、anew'分別為以上換道車輛換道后的加速度,p為禮貌因子,該參數(shù)描述了環(huán)境車輛駕駛的激進(jìn)程度,取值范圍為0~1,b s為保證安全的最大減速度,Δath為決策閾值。若anew'大于-b s,同時(shí)加速度增益Δa大于決策閾值Δath時(shí),環(huán)境車輛進(jìn)行換道操作。

車輛縱向模型采用IDM(intelligent driver model),此模型描述了環(huán)境車輛的跟車行為,如公式(11)和(12)所示:

上述公式中,d×(v,Δv)為最小期望間距,d0為最小安全間距,v為車輛當(dāng)前速度值T為期望安全時(shí)距,Δv為同車道當(dāng)前車輛與前車的速度差,amax為期望最大加速度值,b為期望減速度值,vd為期望速度值,δ為加速度指數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)定

實(shí)驗(yàn)中環(huán)境采用Python3.7語言作為編程語言,使用gym庫創(chuàng)建實(shí)驗(yàn)場景,神經(jīng)網(wǎng)絡(luò)框架使用PyTorch1.4.0;計(jì)算機(jī)配置為:顯卡NVIDIA GTX1060,操作系統(tǒng)為Ubuntu16.04,處理器為i7-8750H,內(nèi)存為16 GB。

設(shè)定訓(xùn)練最大回合數(shù)為10 000,單回合最大步長為30,道路環(huán)境刷新周期為1 s,同時(shí)根據(jù)上一章節(jié)2.1中主車道車流量信息,可知1~4車道的單回合車流量為每回合50輛,5車道的單回合車流量為每回合13輛,單回合終止條件為無人車單回合執(zhí)行步數(shù)達(dá)到最大或無人車與環(huán)境車發(fā)生碰撞,且在實(shí)驗(yàn)過程中設(shè)定無人車均保持在可行使區(qū)域內(nèi)行駛。算法參數(shù)設(shè)定如表3所示。

表3 算法參數(shù)設(shè)定Table 3 Algorithm parameters setting

表3中的衰減因子γ描述的是未來得到的獎(jiǎng)勵(lì)值對(duì)當(dāng)前狀態(tài)的影響,通過分析實(shí)驗(yàn)所有回合中累計(jì)步數(shù)的分布確定當(dāng)γ=0.98時(shí),算法的收斂性最好,同時(shí)平均獎(jiǎng)勵(lì)值達(dá)到最大。學(xué)習(xí)率的選取通過網(wǎng)絡(luò)誤差和網(wǎng)絡(luò)的收斂速度確定,實(shí)驗(yàn)結(jié)果顯示當(dāng)學(xué)習(xí)率為2.5×10-4時(shí)網(wǎng)絡(luò)的收斂速度最快(算法的平均獎(jiǎng)勵(lì)值在訓(xùn)練2 400回合左右基本穩(wěn)定),同時(shí)算法的成功率最高。記憶庫容量和批尺寸的大小通過獲得的平均獎(jiǎng)勵(lì)值的網(wǎng)絡(luò)收斂速度確定,記憶庫容量的大小會(huì)對(duì)網(wǎng)絡(luò)參數(shù)更新效率產(chǎn)生影響;而在批尺寸的大小選取方面:若采取較大的批尺寸則算法容易收斂到局部最小值,若較小時(shí)則不利于算法的收斂。實(shí)驗(yàn)中分別采用了批尺寸為16、32、64這3個(gè)超參數(shù)分別進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,結(jié)果表明當(dāng)記憶庫容量大小為8×104,批尺寸為32時(shí),算法的收斂速度最快,同時(shí)獲得的平均獎(jiǎng)勵(lì)值最高。優(yōu)先級(jí)權(quán)重占比α用來確定從經(jīng)驗(yàn)回放單元中抽取樣本時(shí)樣本優(yōu)先級(jí)所占的比例,而抽樣權(quán)重β用來修正優(yōu)先級(jí)回放所帶來的誤差,實(shí)驗(yàn)結(jié)果顯示當(dāng)α=0.8,β=0.5時(shí),算法的魯棒性最好,此超參數(shù)組合增加了重要性樣本被采樣的概率,同時(shí)模型的魯棒性也得到提升。

3.2 實(shí)驗(yàn)約束條件設(shè)定

結(jié)合具體的換道決策場景,分別設(shè)定狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)如下所示。

狀態(tài)空間:狀態(tài)空間S描述了無人車與周圍環(huán)境車輛的駕駛行為信息,以無人車和無人車感知范圍內(nèi)最近的6輛環(huán)境車狀態(tài)值的集合作為狀態(tài)空間,具體定義如公式(13)所示:

其中vhost為無人車的速度,s1~s6為無人車周圍環(huán)境車輛的狀態(tài)值,s={exist,x,y,v x,v y},exist表示為是否存在此環(huán)境車輛,若此車存在,則exist=1,否則exist=0。x為無人車相對(duì)于此環(huán)境車的橫向距離,y為無人車相對(duì)于此環(huán)境車的縱向距離,v x為無人車相對(duì)于此環(huán)境車的橫向速度,v y為無人車相對(duì)于此環(huán)境車的縱向速度。

動(dòng)作空間:動(dòng)作空間描述了無人車行駛過程中可以采取的動(dòng)作,具體描述如表4所示。

表4 動(dòng)作空間表示Table 4 Action space representation

獎(jiǎng)勵(lì)函數(shù):為使無人車學(xué)習(xí)到最佳的換道決策策略,獎(jiǎng)勵(lì)函數(shù)定義如下所示。

若無人車與環(huán)境車發(fā)生碰撞,則設(shè)定碰撞懲罰函數(shù):

設(shè)定速度獎(jiǎng)勵(lì)函數(shù):

其中vhost為無人車速度,vmax和vmin分別為1~4號(hào)車道的最高速度(19 m/s)和最低速度(7 m/s),vmax'和vmin'分別為5號(hào)車道的最高速度(19 m/s)和最低速度(1 m/s),即若無人車行駛在1~4車道,則取1~4號(hào)車道對(duì)應(yīng)的速度獎(jiǎng)勵(lì)值;若無人車行駛在5車道,則取5號(hào)車道對(duì)應(yīng)的速度獎(jiǎng)勵(lì)值。

為避免無人車在行駛過程中頻繁的變更車道,設(shè)定換道懲罰函數(shù):

如果無人車在單個(gè)步長內(nèi)未發(fā)生碰撞,則設(shè)定單步獎(jiǎng)勵(lì)函數(shù):

如果無人車在整回合內(nèi)未發(fā)生碰撞,則設(shè)定回合獎(jiǎng)勵(lì)函數(shù):

單回合總獎(jiǎng)勵(lì)函數(shù)R為:

上述公式中,T為單回合執(zhí)行總步數(shù),p為執(zhí)行步數(shù)。

3.3 算法訓(xùn)練與分析

分別使用DQN、DDQN、Dueling DDQN與本文算法進(jìn)行實(shí)驗(yàn)對(duì)比,且4種算法的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)以及實(shí)驗(yàn)參數(shù)均保持一致,訓(xùn)練過程中設(shè)定環(huán)境車輛橫向模型參數(shù)的禮貌因子p=1。通過分析決策成功率、平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)來描述模型訓(xùn)練結(jié)果,4種算法訓(xùn)練的結(jié)果隨回合數(shù)變化趨勢如圖6~8以及表5所示。

圖6 訓(xùn)練過程中各算法的決策成功率對(duì)比Fig.6 Comparison of strategy success rate of each algorithm during training process

表5 訓(xùn)練過程中各算法平均獎(jiǎng)勵(lì)分布對(duì)比Table 5 Comparison of average reward distribution of each algorithm training process

由圖6可知,在算法訓(xùn)練開始階段,4種算法的成功率不斷增加,訓(xùn)練10 000回合后,DQN、DDQN、Dueling DDQN、本文方法的成功率依次為:81.43%、84.48%、86.30%、87.09%。本文方法在訓(xùn)練過程中的決策成功率更高。

結(jié)合圖7和表4可知:在算法訓(xùn)練過程中所獲得的平均獎(jiǎng)勵(lì)方面:本文方法在訓(xùn)練結(jié)束后的得到的總平均獎(jiǎng)勵(lì)最高,為10.14,且平均獎(jiǎng)勵(lì)值在2 400回合左右基本穩(wěn)定,而其他方法均在5 500回合后逐漸趨于穩(wěn)定狀態(tài),算法穩(wěn)定時(shí)的回合數(shù)約為本文方法的2.29倍。同時(shí)該方法在1 001~2 000回合內(nèi)的平均獎(jiǎng)勵(lì)達(dá)到最高,為10.85,Dueling DDQN、DDQN、DQN依次降低,分別為9.74、9.29、8.95,且平均獎(jiǎng)勵(lì)峰值均分布在3 001~4 000回合范圍內(nèi)。由此可見,本文方法可以在更少的訓(xùn)練回合數(shù)內(nèi)完成對(duì)算法的訓(xùn)練并獲得更高的平均獎(jiǎng)勵(lì)值。同時(shí)由于改進(jìn)的深度Q網(wǎng)絡(luò)在經(jīng)驗(yàn)回放時(shí)提高了重要程度較高的樣本的利用率,增加這些樣本的抽樣概率。本文方法與DQN、DDQN、Dueling DDQN相比提升了網(wǎng)絡(luò)的收斂速度和參數(shù)更新的效率,同時(shí)提高了智能體的學(xué)習(xí)速度。

圖7 訓(xùn)練過程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.7 Comparison of average reward of each algorithm during training process

由圖8可知,在1 000回合訓(xùn)練后,本文方法的平均累計(jì)步數(shù)均高于DQN等網(wǎng)絡(luò)模型,說明本文方法單回合執(zhí)行步數(shù)最高,同時(shí)結(jié)合圖6可知,本文方法在保持決策成功率最高的同時(shí),平均累計(jì)步數(shù)較DQN、DDQN、Dueling DDQN分別高出3.14、2.17、1.60,由此說明本文方法具有更好的學(xué)習(xí)能力和更強(qiáng)的適應(yīng)性。

圖8 訓(xùn)練過程中各算法的平均累計(jì)步數(shù)對(duì)比Fig.8 Comparison of average cumulative steps of each algorithm during training process

3.4 算法測試與分析

針對(duì)不同道路場景中環(huán)境車輛,通過改變環(huán)境車輛車流量,以及環(huán)境車輛橫向模型中的禮貌因子p,進(jìn)而搭建車輛環(huán)境不同的實(shí)驗(yàn)場景,設(shè)定測試回合數(shù)為1 000,同時(shí)保持其他仿真環(huán)境參數(shù)和網(wǎng)絡(luò)參數(shù)不變。其中p∈[0,1],該參數(shù)越接近0說明環(huán)境車輛駕駛風(fēng)格越激進(jìn)。通過改變上述兩個(gè)參數(shù),設(shè)定兩個(gè)道路環(huán)境不同的測試場景,具體描述如下所示。

3.4.1 算法測試場景一

測試場景一使用與算法訓(xùn)練時(shí)相同的場景,即1~4車道和5車道的單回合車流量分別為50輛/回合,和13輛/回合,禮貌因子p=1。4種算法在場景一中測試成功率和平均獎(jiǎng)勵(lì)如圖9、10所示,測試1 000回合后的結(jié)果如表6、7所示。

圖9 場景一測試過程中各算法的決策成功率對(duì)比Fig.9 Comparison of strategy success rate of each algorithm during test processin scenario one

圖10 場景一測試過程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.10 Comparison of average reward of each algorithm during test processin scenario one

表6 場景一各算法測試結(jié)果對(duì)比Table 6 Comparison of test results of each algorithm in scenario one

由圖9、10和表6可知,在場景一的測試過程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出0.9、1.7、4.4個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法。4種算法在測試1 000回合中的成功次數(shù)分別是:DQN為905次、DDQN為932次、Dueling DDQN為940次、本文方法為949次;同時(shí)結(jié)合表7分析可得:在各算法測試成功回合中,本文方法的單回合獎(jiǎng)勵(lì)值高于11.3的回合所占百分比最高,為78.29%。而單回合獎(jiǎng)勵(lì)值低于11.3的原因是由于無人車在一段時(shí)間內(nèi)為避免碰撞而保守行駛,使得在單回合內(nèi)獲得的獎(jiǎng)勵(lì)值較低。由此說明本文方法可以更好地根據(jù)經(jīng)驗(yàn)回放單元中的經(jīng)驗(yàn)樣本來理解測試環(huán)境中車輛的狀態(tài)變化,在保證決策成功率的前提下減少了保守行駛的回合數(shù),使得無人車獲得更優(yōu)的決策策略。

表7 場景一各算法成功回合中獎(jiǎng)勵(lì)值分布比例Table 7 Proportion of reward value distribution in successful rounds of each algorithm in scenario one

3.4.2 算法測試場景二

測試場景二設(shè)定禮貌因子p=0.4,環(huán)境車輛的車流量采用US-101道路中車流量較大的部分,即1~4號(hào)車道和5號(hào)車道的車流量分別約為126輛/min和48輛/min,即單回合車流量分別為63輛/回合和24輛/回合。4種算法在場景二中測試成功率和平均獎(jiǎng)勵(lì)如圖11、12所示,測試1 000回合后的結(jié)果如表8、9所示。

圖11 場景二測試過程中各算法的決策成功率對(duì)比Fig.11 Comparison of strategy success rate of each algorithm during test processin scenario two

圖12 場景二測試過程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.12 Comparison of average reward of each algorithm during test processin scenario two

表8 場景二各算法測試結(jié)果對(duì)比Table 8 Comparison of test results of each algorithm in scenario two

結(jié)合圖11、12和表8分析可知,在場景二的測試過程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出4.2、7.7、15.1個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法,且4種算法在測試1 000回合后的平均獎(jiǎng)勵(lì)為10.85、10.12、9.51、9.09,與場景一中的測試結(jié)果相比,各算法的平均獎(jiǎng)勵(lì)分別下降了0.06、0.30、0.53、0.63,成功率分別下降了2.5、5.8、8.5、13.2個(gè)百分點(diǎn)。其中DQN下降幅度最大,原因是DQN使用最大化的方法來計(jì)算目標(biāo)值,這樣的計(jì)算方式往往使得算法得到次優(yōu)的決策策略,同時(shí)DQN等概率的抽樣方式使得一些重要性較高的經(jīng)驗(yàn)樣本被忽略,從而降低了訓(xùn)練過程中網(wǎng)絡(luò)參數(shù)的更新效率,最終導(dǎo)致DQN在更復(fù)雜的場景中的測試結(jié)果的成功率和平均獎(jiǎng)勵(lì)較低。

由表9可知,在各算法發(fā)生碰撞的回合中,本文方法單回合執(zhí)行步數(shù)小于10的回合數(shù)(單回合執(zhí)行步數(shù)為30)所占比例最低,為6.58%,Dueling DDQN、DDQN、DQN依次升高,為16.10%、59.48%、66.08%。其中DQN和DDQN單回合執(zhí)行步數(shù)小于10的比例分別是本文方法的10.04倍和9.04倍,由此可見,DDQN和DQN的碰撞相對(duì)集中發(fā)生測試過程的前三分之一階段,說明這兩種算法的適應(yīng)性較差,無法根據(jù)測試過程中環(huán)境車輛的狀態(tài)變化做出最優(yōu)的動(dòng)作。

表9 場景二各算法碰撞回合中單回合步數(shù)分布比例Table 9 Proportion of reward value distribution in successful rounds of each algorithm in scenario two%

對(duì)比場景一和場景二的測試結(jié)果可知,4種算法的得到平均獎(jiǎng)勵(lì)均有所下降,原因是隨著測試場景的復(fù)雜程度增加,導(dǎo)致無人車換道決策的成功率和平均速度的下降,同時(shí)無人車發(fā)生碰撞的次數(shù)增多,使得單回合內(nèi)獲得的步數(shù)獎(jiǎng)勵(lì)減少,最終導(dǎo)致平均獎(jiǎng)勵(lì)的下降。

3.4.3 算法測試場景三

測試場景三設(shè)定禮貌因子p=0,環(huán)境車輛的車流量采用US-101道路中車流量最大的部分,即1~4號(hào)車道和5號(hào)車道的車流量分別約為144輛/min和64輛/min,即單回合車流量分別為72輛/回合和32輛/回合。4種算法在場景三中測試1 000回合后的結(jié)果如表10所示。

表10 場景三各算法測試結(jié)果對(duì)比Table 10 Comparison of test results of various algorithm in scenario three

由表10可知,在場景三的測試過程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出6.9、13.3、24.0個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法,且4種算法在測試1 000回合后的平均獎(jiǎng)勵(lì)為10.76、9.89、9.04、8.54,與場景二中的測試結(jié)果相比,各算法的平均獎(jiǎng)勵(lì)分別下降了0.09、0.23、0.47、0.55,成功率分別下降了2.2、4.9、7.8、11.1個(gè)百分點(diǎn)。隨著測試場景環(huán)境車輛車流量的增大,場景的復(fù)雜程度增加,本文方法的成功率和平均獎(jiǎng)勵(lì)下降幅度最小,說明該方法對(duì)于復(fù)雜環(huán)境的適應(yīng)性更強(qiáng),這是由于加入了優(yōu)先級(jí)經(jīng)驗(yàn)回放的機(jī)制,使得重要性更高的樣本被抽取的概率增加,進(jìn)而增加了算法訓(xùn)練時(shí)的網(wǎng)絡(luò)參數(shù)的更新效率,同時(shí)競爭結(jié)構(gòu)的存在使得該算法在更新主網(wǎng)絡(luò)參數(shù)時(shí)價(jià)值函數(shù)被優(yōu)先更新,導(dǎo)致在當(dāng)前狀態(tài)下所有的Q值均被更新,從而更準(zhǔn)確地得到了每個(gè)動(dòng)作所對(duì)應(yīng)的Q值。

對(duì)比3種場景中各算法的測試結(jié)果,如表11所示。

表11 3種場景中各算法測試的平均結(jié)果對(duì)比Table 11 Comparison of average results of each algorithm test in three scenarios

由表11可知,在3種場景的平均測試成功率方面,本文方法最高,為92.50%,比Dueling DDQN、DDQN和DQN算法的分別高出4.0、7.6、14.5個(gè)百分點(diǎn);在平均獎(jiǎng)勵(lì)方面,本文方法最高,為10.84。由此說明,本文方法可以更好地理解外部環(huán)境狀態(tài)的變化,同時(shí)具有更好的魯棒性和更強(qiáng)的適用性。

4 結(jié)束語

針對(duì)傳統(tǒng)DQN在高速公路場景下的無人車換道決策中存在過估計(jì)且收斂速度較慢的問題,本文提出一種基于改進(jìn)深度Q網(wǎng)絡(luò)的無人車換道決策模型。首先將得到的無人車與環(huán)境車的狀態(tài)值分別輸入到主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中,進(jìn)而將動(dòng)作的選擇和評(píng)估解耦,提高了網(wǎng)絡(luò)的穩(wěn)定性,解決了網(wǎng)絡(luò)的過估計(jì)問題;然后在網(wǎng)絡(luò)中加入競爭結(jié)構(gòu),使模型對(duì)動(dòng)作價(jià)值的估計(jì)更加準(zhǔn)確;最后通過增加重要樣本被回放的概率,提升網(wǎng)絡(luò)的更新效率和收斂速度。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)DQN等算法,改進(jìn)的深度Q網(wǎng)絡(luò)在訓(xùn)練和測試的決策成功率、平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)方面上均有提升;測試結(jié)果也表明,該方法的魯棒性更強(qiáng),在車流量更大、環(huán)境車輛駕駛風(fēng)格更激進(jìn)的測試場景中仍能保持92%以上的換道決策成功率。

雖然本文算法在不同場景的測試結(jié)果中均能保持較高的換道決策成功率,但只能應(yīng)對(duì)離散的動(dòng)作空間問題,接下來的研究將聚焦于使用Actor-Critic的強(qiáng)化學(xué)習(xí)方法,以此來應(yīng)對(duì)連續(xù)動(dòng)作空間中的無人車換道決策問題。

猜你喜歡
車道無人決策
北斗+手機(jī)實(shí)現(xiàn)車道級(jí)導(dǎo)航應(yīng)用
為可持續(xù)決策提供依據(jù)
避免跟車闖紅燈的地面車道線
淺談MTC車道改造
決策為什么失誤了
無人戰(zhàn)士無人車
反擊無人機(jī)
詩到無人愛處工
岷峨詩稿(2017年4期)2017-04-20 06:26:43
無人超市會(huì)流行起來嗎?
低速ETC/MTC混合式收費(fèi)車道的設(shè)計(jì)與實(shí)現(xiàn)
清流县| 娱乐| 阿荣旗| 荥阳市| 奈曼旗| 太湖县| 曲水县| 江油市| 桐庐县| 安龙县| 莆田市| 小金县| 楚雄市| 同仁县| 双江| 互助| 饶河县| 老河口市| 淅川县| 长泰县| 江都市| 通化市| 农安县| 行唐县| 镇康县| 邹城市| 阳江市| 泰来县| 江安县| 安丘市| 扶风县| 林甸县| 大荔县| 哈尔滨市| 封丘县| 威远县| 新竹县| 麟游县| 灵川县| 昭通市| 岳阳县|