国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度級聯(lián)神經(jīng)網(wǎng)絡(luò)的自動駕駛運(yùn)動規(guī)劃模型

2019-11-15 04:49白麗贇胡學(xué)敏宋昇童秀遲張若晗
計算機(jī)應(yīng)用 2019年10期
關(guān)鍵詞:自動駕駛卷積神經(jīng)網(wǎng)絡(luò)

白麗贇 胡學(xué)敏 宋昇 童秀遲 張若晗

摘 要:針對基于規(guī)則的運(yùn)動規(guī)劃算法需要預(yù)先定義規(guī)則和基于深度學(xué)習(xí)的方法沒有利用時間特征的問題,提出一種基于深度級聯(lián)神經(jīng)網(wǎng)絡(luò)的運(yùn)動規(guī)劃模型。該模型將卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶網(wǎng)絡(luò)(LSTM)這兩種經(jīng)典的深度學(xué)習(xí)模型進(jìn)行融合并構(gòu)成一種新的級聯(lián)神經(jīng)網(wǎng)絡(luò),分別提取輸入圖像的空間和時間特征,并用以擬合輸入序列圖像與輸出運(yùn)動參數(shù)之間的非線性關(guān)系,從而完成從輸入序列圖像到運(yùn)動參數(shù)的端到端的規(guī)劃。實驗利用模擬駕駛環(huán)境的數(shù)據(jù)進(jìn)行訓(xùn)練和測試,結(jié)果顯示所提模型在鄉(xiāng)村路、高速路、隧道和山路四種道路中均方根誤差(RMSE)不超過0.017,且預(yù)測結(jié)果的穩(wěn)定度優(yōu)于未使用級聯(lián)網(wǎng)絡(luò)的算法一個數(shù)量級。結(jié)果表明,所提模型能有效地學(xué)習(xí)人類的駕駛行為,并且能夠克服累積誤差的影響,適應(yīng)多種不同場景下的路況,具有較好的魯棒性。

關(guān)鍵詞: 自動駕駛;運(yùn)動規(guī)劃;深度級聯(lián)神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);長短期記憶模型

中圖分類號:TP391.4

文獻(xiàn)標(biāo)志碼:A

Abstract:? To address the problems that rule-based motion planning algorithmsunder constraints need pre-definition of rulesand temporal features are not considered in deep learning-based methods, a motion planning model based on deep cascading neural networks was proposed. In this model, the two classical deep learning models, Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) network, were combined to build a novel cascaded neural network, the spatial and temporal features of the input images were extracted respectively, and the nonlinear relationship between the input sequential images and the output motion parameters were fit to achieve the end-to-end planning from the input sequential images to the output motion parameters. In experiments, the data of simulated environment were used for training and testing. Results show that the Root Mean Squared Error (RMSE) of the proposed model in four scenes including country road, freeway, tunnel and mountain road is less than 0.017, and the stability of the prediction results of the proposed model is better than that of the algorithm without using cascading neural network by an order of magnitude. Experimental results show that the proposed model can effectively learn human driving behaviors, eliminate the effect of cumulative errors and adapt to different scenes of a variety of road conditions with good robustness.

Key words:? autonomous driving; motion planning; deep cascaded neural network; Convolutional Neural Network (CNN); Long Short-Term Memory (LSTM) model

0 引言

隨著社會經(jīng)濟(jì)的飛速發(fā)展,機(jī)動車輛的大量增長給交通環(huán)境帶來了巨大的壓力,造成安全事故頻發(fā)。自動駕駛技術(shù)能夠突破駕駛員的限制,為解決駕駛的安全、交通擁擠等問題提供契機(jī)。運(yùn)動規(guī)劃作為自動駕駛的核心環(huán)節(jié),是連接車輛的環(huán)境感知與操縱控制的基礎(chǔ)和橋梁。其目的是在考慮當(dāng)前狀態(tài)、感知數(shù)據(jù)以及交通規(guī)則等多種約束條件下,為自動駕駛車輛提供安全到達(dá)目的地的運(yùn)動參數(shù)或可行路徑,其技術(shù)除了可用于無人車以外,還可用于無人機(jī)[1]、移動機(jī)器人[2]等自主無人系統(tǒng),因此具有重要的研究意義和商業(yè)價值。

目前,自動駕駛領(lǐng)域應(yīng)用較為廣泛的傳統(tǒng)運(yùn)動規(guī)劃算法包括啟發(fā)式搜索算法[3-5]、快速搜索隨機(jī)樹算法[6]和基于離散優(yōu)化算法[7]?;谝?guī)則的傳統(tǒng)運(yùn)動規(guī)劃算法在無人車和智能機(jī)器人等領(lǐng)域取得了成功的應(yīng)用。然而,這類方法需要根據(jù)預(yù)先定義的規(guī)則來建立相關(guān)數(shù)學(xué)模型,在規(guī)劃之內(nèi)的場景能夠取得較好的規(guī)劃效果,而對于規(guī)則之外的場景卻難以適應(yīng)。此外,這類算法不能直接對感知的數(shù)據(jù)進(jìn)行處理,而需要對數(shù)據(jù)進(jìn)行預(yù)處理,并抽象出模型可以接受的環(huán)境表達(dá),而這些預(yù)處理的過程相當(dāng)耗費(fèi)時間,導(dǎo)致系統(tǒng)規(guī)劃反應(yīng)時間過長,尤其是在緊急情況下存在較高的安全隱患。

近年來,深度學(xué)習(xí)的發(fā)展使得機(jī)器學(xué)習(xí)有了革命性的突破,其中應(yīng)用較為廣泛的兩個模型是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[8]和長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)[9]。CNN能有效提取輸入圖像的空間特征[10],LSTM可以提取連續(xù)輸入圖像的時間特征[11]。而運(yùn)動規(guī)劃的本質(zhì),是從感知的序列數(shù)據(jù)到運(yùn)動參數(shù)的映射。因此,將深度神經(jīng)網(wǎng)絡(luò)引入運(yùn)動規(guī)劃領(lǐng)域,能夠?qū)崿F(xiàn)從感知數(shù)據(jù)到運(yùn)動參數(shù)的規(guī)劃。目前已有一些基于深度神經(jīng)網(wǎng)絡(luò)的方法取得了較好的成果。NVIDIA公司[12]提出了一種基于CNN的端對端的運(yùn)動規(guī)劃算法,將道路線檢測、路徑規(guī)劃和控制等子步驟通過CNN同時完成。該方法能有效地將駕駛圖像特征映射為方向盤轉(zhuǎn)角,但是沒有考慮前后幀的時間特征。Chen等[13]在深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了13個可用于自動駕駛的場景描述指標(biāo),通過精確地學(xué)習(xí)這些指標(biāo)的值后,可完成轉(zhuǎn)向角的控制。該方法在沒有車輛的道路的數(shù)據(jù)集中取得良好表現(xiàn),但同樣沒有利用連續(xù)幀的信息,在路況復(fù)雜的情況下駕駛行為不穩(wěn)定。Sallab等[14]使用深度強(qiáng)化學(xué)習(xí)提出了一種自動駕駛框架,它包含了用于信息集成的遞歸神經(jīng)網(wǎng)絡(luò),使汽車能夠處理部分可觀察的場景。然而該方法需要通過在環(huán)境中試錯來訓(xùn)練模型,訓(xùn)練時間長,且難以將模型遷移到實際環(huán)境中。此外,這些方法只利用單個前向攝像機(jī)獲取駕駛信息,沒有考慮周圍的信息,容易造成累積誤差的問題。

針對基于傳統(tǒng)的運(yùn)動規(guī)劃算法存在的需要預(yù)先定義規(guī)則、預(yù)處理復(fù)雜,以及基于深度學(xué)習(xí)方法中沒有利用連續(xù)幀之間的時間特征、模型訓(xùn)練時間長、沒考慮累積誤差等問題,本文提出一種基于深度級聯(lián)神經(jīng)網(wǎng)絡(luò)(Deep CNN, DCNN)的自動駕駛運(yùn)動規(guī)劃模型。該模型利用CNN和LSTM構(gòu)成深度級聯(lián)神經(jīng)網(wǎng)絡(luò),分別提取駕駛場景序列圖像中的空間和時間特征,并與車輛的方向盤轉(zhuǎn)角建立映射關(guān)系,從而實現(xiàn)直接從感知圖像到運(yùn)動參數(shù)的端到端的運(yùn)動規(guī)劃;并且,為了解決累計誤差的問題,訓(xùn)練時使用左、中、右三個攝像機(jī)采集的前向視頻構(gòu)成數(shù)據(jù)集,解決在線測試時累計誤差的自動修正問題。該模型采用深度學(xué)習(xí)的方法解決自動駕駛運(yùn)動規(guī)劃的問題,讓規(guī)劃算法具備學(xué)習(xí)能力,能夠應(yīng)對多種復(fù)雜的道路場景,并且不需要預(yù)處理過程,實現(xiàn)端到端的運(yùn)動規(guī)劃。本文方法既解決了自動駕駛中復(fù)雜道路場景的時空特征表達(dá)問題,也為端到端的運(yùn)動規(guī)劃提供新的方法。

1 基于深度級聯(lián)神經(jīng)網(wǎng)絡(luò)的運(yùn)動規(guī)劃模型

本文提出的基于DCNN的運(yùn)動規(guī)劃模型如圖1所示,模型輸入為前向車載相機(jī)的序列圖像,經(jīng)過網(wǎng)絡(luò)后輸出為當(dāng)前預(yù)測的方向盤轉(zhuǎn)角。深度級聯(lián)神經(jīng)網(wǎng)絡(luò)由CNN層和LSTM層組成。其中,CNN層對每一幀圖像提取空間特征,然后輸入到LSTM層提取連續(xù)幀圖像的時間特征,最后模型輸出得到方向盤轉(zhuǎn)向角的預(yù)測結(jié)果。該過程可用式(1)來描述:

在訓(xùn)練階段,將左、中、右三個攝像機(jī)采集的序列圖像數(shù)據(jù)集作為輸入,模型預(yù)測輸出方向盤轉(zhuǎn)角。此外,利用輸入圖像對應(yīng)的真實方向盤轉(zhuǎn)向角,即數(shù)據(jù)標(biāo)簽,與預(yù)測的轉(zhuǎn)向角之間的誤差計算損失函數(shù),經(jīng)過反向傳播算法對CNN和LSTM網(wǎng)絡(luò)中的權(quán)值進(jìn)行更新。為了消除數(shù)據(jù)采集中的誤差影響,本文對人工采集的真實方向盤轉(zhuǎn)角進(jìn)行低通濾波處理。在測試階段,僅將中心攝像機(jī)采集的視頻作為輸入,用訓(xùn)練好的模型預(yù)測當(dāng)前輸入下的方向盤轉(zhuǎn)角,實現(xiàn)從輸入圖像到運(yùn)動參數(shù)端到端的運(yùn)動規(guī)劃。

1.1 CNN層網(wǎng)絡(luò)設(shè)計

近年來,CNN被廣泛應(yīng)用于大規(guī)模的圖像識別任務(wù)中。由于其使用了局部連接和權(quán)值共享的方式,在處理二維圖像時,特別是在識別位移、縮放以及其他形式的扭曲不變性應(yīng)用上有著良好的魯棒性。自動駕駛場景復(fù)雜,車載相機(jī)獲取的圖像中目標(biāo)種類較多,有效提取這些圖像特征是一個較為困難的任務(wù)。

VGG-Net(Visual Geometry Group Net)[15]是牛津大學(xué)計算機(jī)視覺組和Google DeepMind公司的研究員在2014年提出的一種CNN,采用ImageNet數(shù)據(jù)集進(jìn)行訓(xùn)練,并廣泛用于目標(biāo)檢測等圖像識別領(lǐng)域。而自動駕駛場景中建筑物、車輛、行人等目標(biāo)已經(jīng)包含在該數(shù)據(jù)集中,因此本文選擇VGG-Net作為CNN的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ),依據(jù)級聯(lián)網(wǎng)絡(luò)的設(shè)計進(jìn)行改進(jìn),并利用駕駛場景數(shù)據(jù)集對網(wǎng)絡(luò)權(quán)值進(jìn)行微調(diào),以此減少訓(xùn)練時間。此外,考慮到運(yùn)動規(guī)劃對實時性的要求,本文實驗中采用VGG-16作為本文CNN層的基礎(chǔ)模型,并進(jìn)行改進(jìn)。改進(jìn)的VGG網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,將224×224的三通道圖像作為輸入,在經(jīng)過5個卷積層與5個池化層之后,通過三個卷積層輸出得到1×1×4096的特征矢量。其中,所有的卷積層使用3×3的卷積核,同時使用修正線性單元(Rectified Linear Unit, ReLU)作為激活函數(shù)。前5個卷積層的滑動步長為1個像素,卷積層的空間填充固定為1個像素,用來保持卷積后圖像的長寬尺寸與卷積前一致。池化層采用尺寸為2×2最大池化方法,步長為2。

CNN中,卷積層和池化層一般用于提取圖像特征,而全連接層一般作為分類器用于對目標(biāo)進(jìn)行分類。由于本文提出的深度級聯(lián)網(wǎng)絡(luò)中,CNN的目的是提取駕駛場景圖像的空間特征,不需要進(jìn)行分類,因此本文去掉了原始VGG-16中的最后3個全連接層,用3個3×3、滑動步長為2的卷積層代替原始VGG-16網(wǎng)絡(luò)中的全連接層。相對于較大的卷積核,較小卷積核需要訓(xùn)練總的參數(shù)數(shù)量更少,更有利于訓(xùn)練時的收斂,減少訓(xùn)練時程序占用的計算資源。

1.2 LSTM層網(wǎng)絡(luò)設(shè)計

LSTM是一種經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)長期依賴信息。由于其加入了門控和LSTM細(xì)胞狀態(tài)等機(jī)制,其網(wǎng)絡(luò)的權(quán)重可隨時間尺度動態(tài)地改變,因此可以提取長期時間的序列特征。圖3中虛線矩形框中LSTM單元描述了LSTM單元的內(nèi)部結(jié)構(gòu),其中,其中:Wxi與b分別表示對應(yīng)門控單元的權(quán)值與偏差;xt-r表示LSTM單元的輸入;ht-r與ht-r-1分別表示當(dāng)前LSTM單元的輸出與上一個單元的輸出;ct-r與 ct-r-1分別表示當(dāng)前細(xì)胞狀態(tài)與上一個單元的細(xì)胞狀態(tài); ft-r表示遺忘門;it-r表示輸入門;ot-r表示輸出門;mt-r表示輸入調(diào)制門;“⊙”為點(diǎn)乘。在LSTM單元中設(shè)置了四個控制門,每一個控制門都是由多層感知機(jī)與激活函數(shù)構(gòu)成的。在LSTM中,首先由遺忘門讀取xr和hr-1,在決定丟棄的信息后輸出fr。下一步?jīng)Q定讓多少信息加入到細(xì)胞狀態(tài),這個過程分為sigmoid層決定需要更新的信息ir和一個tanh層生成備選的用來更新的內(nèi)容mr兩部分組成,這兩部分聯(lián)合起來對細(xì)胞狀態(tài)進(jìn)行更新。在更新細(xì)胞狀態(tài)時,把fr與舊狀態(tài)點(diǎn)乘后加上ir⊙mr完成細(xì)胞狀態(tài)更新。最后確定輸出信息,由一個sigmoid層來確定細(xì)胞狀態(tài)的輸出部分,并把細(xì)胞狀態(tài)通過tanh進(jìn)行處理并將它和sigmoid門的輸出相乘,得到最終輸出的信息。由于運(yùn)動規(guī)劃的輸入視頻圖像在時間上是相關(guān)的,因此LSTM適合于提取視頻中時間前后幀的關(guān)聯(lián)信息。

本文中LSTM網(wǎng)絡(luò)設(shè)計如圖3所示。對于每一幀圖像,CNN網(wǎng)絡(luò)輸出一個特征向量x,對于連續(xù)n幀圖像輸出n個特征矢量。本文設(shè)計的CNN層的輸出為1×1×4096的向量,在這里作為空間特征向量輸入到LSTM單元中,經(jīng)過LSTM層和全連接層后輸出轉(zhuǎn)向角的預(yù)測。對于當(dāng)前時刻t,其輸出的值由特征向量xt與上一個LSTM單元的輸出 ht-1和狀態(tài)ct-1決定,在經(jīng)過全連接層與輸出節(jié)點(diǎn),即得到當(dāng)前方向盤轉(zhuǎn)角的預(yù)測值。在LSTM網(wǎng)絡(luò)中,LSTM單元中的權(quán)值是共享的,即對應(yīng)于不同時刻的駕駛圖像,其對應(yīng)的LSTM單元中的四個控制門的權(quán)值是一樣的。在如圖3所示的網(wǎng)絡(luò)結(jié)構(gòu)中,LSTM單元是同一個LSTM單元在復(fù)用,在上一時刻LSTM單元的輸出值與細(xì)胞狀態(tài)會傳入下一時刻的單元中。

1.3 網(wǎng)絡(luò)輸出與目標(biāo)函數(shù)設(shè)計

車輛的方向盤轉(zhuǎn)向角度是一種連續(xù)的變量,因此轉(zhuǎn)向角的預(yù)測問題可以看作是神經(jīng)網(wǎng)絡(luò)的回歸問題。由于本文的預(yù)測的運(yùn)動參數(shù)只有轉(zhuǎn)向角,所以設(shè)計的深度級聯(lián)神經(jīng)網(wǎng)絡(luò)的輸出節(jié)點(diǎn)數(shù)量為1。此外,為設(shè)計目標(biāo)函數(shù)訓(xùn)練深度級聯(lián)神經(jīng)網(wǎng)絡(luò),本文采用轉(zhuǎn)向角的預(yù)測值與真實值之間的歐氏距離作為損失函數(shù),如式(8)所示:

其中:L表示損失函數(shù); pg表示對應(yīng)的方向盤轉(zhuǎn)角真實值,由人工采集獲取;s為模型的輸入圖像;M為神經(jīng)網(wǎng)絡(luò)模型。為防止網(wǎng)絡(luò)訓(xùn)練的過擬合問題,本文采用L2正則化的方法。因此,本文設(shè)計的目標(biāo)函數(shù)更新方法如式(9)所示:

1.4 網(wǎng)絡(luò)的訓(xùn)練與測試

本文提出的基于DCNN的運(yùn)動規(guī)劃方法,利用事先采集的訓(xùn)練樣本進(jìn)行模型訓(xùn)練,然后利用訓(xùn)練好的模型對測試樣本進(jìn)行離線測試。但是由于離線測試中存在累積誤差的問題,如果不加以修正,難以直接用于在線測試。為了解決該問題,在采集訓(xùn)練數(shù)據(jù)時設(shè)置了3個攝像機(jī),分別是左攝像機(jī)、中心攝像機(jī)和右攝像機(jī)。中心攝像機(jī)的主光軸與車身豎直方向平行,左、右兩個攝像機(jī)的主光軸設(shè)置與中心攝像機(jī)有一定的夾角(本文中夾角設(shè)置均為25°)。三個攝像機(jī)采集的圖像如圖4所示。左、右兩個攝像機(jī)能夠顯示車輛從當(dāng)前車道中心的不同位移,以及與道路方向的偏航角度。從左、右攝像機(jī)分別獲得兩種不同位移的圖像,通過對最近的攝像機(jī)圖像進(jìn)行視點(diǎn)變換,模擬攝像機(jī)與各偏航角之間的附加位移,并將轉(zhuǎn)換后的圖像樣本的轉(zhuǎn)向角標(biāo)簽作相應(yīng)的角度調(diào)整,作為補(bǔ)充訓(xùn)練數(shù)據(jù)集。左、右攝像機(jī)與中心攝像機(jī)采集的樣本數(shù)據(jù)及標(biāo)簽一起構(gòu)成訓(xùn)練數(shù)據(jù)集。通過補(bǔ)充數(shù)據(jù)集中樣本的訓(xùn)練,自動駕駛車輛能夠在航向角偏離正常航線時及時自動修正方向,不讓誤差形成累積效應(yīng)。

在訓(xùn)練階段,使用包含多種場景的駕駛數(shù)據(jù)的訓(xùn)練集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使用反向傳播算法在每一次迭代中更新網(wǎng)絡(luò)的權(quán)值。本文使用隨機(jī)梯度下降算法來計算每一次更新的權(quán)值。由于訓(xùn)練集樣本較多,隨著迭代次數(shù)的增加,網(wǎng)絡(luò)參數(shù)逐漸向最優(yōu)參數(shù)逼近。本文中,迭代總次數(shù)設(shè)置為200000,初始學(xué)習(xí)率為0.0015,batchsize的大小為4。

本文測試分為離線測試和在線測試。離線測試中,測試數(shù)據(jù)采用未經(jīng)訓(xùn)練的路段駕駛視頻流輸入到網(wǎng)絡(luò)中,記錄每幀對應(yīng)的輸出,并與真實數(shù)據(jù)作對比,從對比的結(jié)果中判斷網(wǎng)絡(luò)輸出的結(jié)果是否能作為準(zhǔn)確的規(guī)劃結(jié)果;在線測試主要是驗證累積誤差的修正問題,讓算法在模擬器中運(yùn)行,驗證自動駕駛車輛是否能安全行駛。

2 實驗與結(jié)果分析

為保證測試的安全性,本文實驗在模擬器的環(huán)境下開展。歐洲卡車模擬器2是目前經(jīng)典的一種駕駛模擬器,其逼真的模擬場景、大范圍的地圖和多路況和天氣的模擬,很適合作為自動駕駛的模擬器。本文使用Europilot框架進(jìn)行數(shù)據(jù)采集,通過模擬方向盤、油門和剎車踏板采集人工駕駛的方向盤轉(zhuǎn)角數(shù)據(jù)作為訓(xùn)練樣本的標(biāo)注信息。

在實驗中,人類操作該模擬器以30 幀/秒的幀率進(jìn)行三個攝像機(jī)的圖像采集,每幀圖像的像素尺寸為1853×1012,輸入網(wǎng)絡(luò)時將圖像縮小為224×224。為保證駕駛場景的多樣性,實驗采集了約8h的駕駛數(shù)據(jù),包括4種不同的道路,分別是鄉(xiāng)村路、高速路、隧道和山路。由于本文方法沒有考慮交通標(biāo)志信息,因此沒有將城市道路作為實驗路段。實驗中每種道路取一段路作為測試集,其他數(shù)據(jù)均作為訓(xùn)練集,使用訓(xùn)練集中的數(shù)據(jù)對本文提出的DCNN模型進(jìn)行訓(xùn)練,再使用測試集的數(shù)據(jù)對網(wǎng)絡(luò)的輸出進(jìn)行測試。由于模仿學(xué)習(xí)是學(xué)習(xí)人類的駕駛行為,因此評判模型預(yù)測的準(zhǔn)確性就以人類專家的駕駛數(shù)據(jù)作為標(biāo)準(zhǔn)。將測試結(jié)果與人類駕駛的數(shù)據(jù)進(jìn)行對比,采用均方根誤差(Root Mean Squared Error, RMSE)來衡量模型的性能,公式如下所示:

穩(wěn)定性也是衡量自動駕駛模型好壞的一個重要的指標(biāo),駕駛的穩(wěn)定性影響著舒適度和安全性。由于均方誤差的大小可以是從零到無窮大,只是針對每幀預(yù)測準(zhǔn)確性作評估,無法衡量駕駛的平穩(wěn)性,因此本文使用式(11)作為駕駛穩(wěn)定性的衡量標(biāo)準(zhǔn):

其中:ST為穩(wěn)定度指標(biāo)。對于弧度不同的彎道,穩(wěn)定度指標(biāo)有著較大的變換范圍,因此該指標(biāo)只能衡量同一場景下不同模型的穩(wěn)定度,而不能對不同場景下的情況作出評判。

本文實驗的軟件環(huán)境為Ubuntu 16.04,深度神經(jīng)網(wǎng)絡(luò)框架采用Caffe[16],硬件環(huán)境CPU為Core i7-7700K (Quad-core 4.2GHz)、GPU為 NVIDA GTX 1080Ti、內(nèi)存為32GB。實驗同時測試了未使用LSTM的原始VGG-16和NVIDIA訓(xùn)練的神經(jīng)網(wǎng)絡(luò)[12]作為對比。實驗的結(jié)果如圖5~7,以及表1~2所示。根據(jù)實驗結(jié)果,可得到如下結(jié)論:

1)深度級聯(lián)網(wǎng)絡(luò)模型中的空間特征提取層基于改進(jìn)的VGG設(shè)計,能夠有效提取不同復(fù)雜場景的圖像特征,因此對于不同的場景能夠作出準(zhǔn)確的預(yù)測。從圖5中可以觀察DCNN的預(yù)測曲線與真實曲線比較相近,4個場景的RMSE均不超過0.017,大約為轉(zhuǎn)向角輸出值范圍的1%。圖7為同一時刻三種方法與真實數(shù)據(jù)的對比,可以看出相對于原始的VGG網(wǎng)絡(luò)與

文獻(xiàn)[12]方法所采用的網(wǎng)絡(luò),由于使用了LSTM,改進(jìn)的網(wǎng)絡(luò)預(yù)測更為準(zhǔn)確。從表1可知在四個場景中原始的VGG和文獻(xiàn)[12]方法的均方根誤差均高于DCNN方法,而且4種場景的均方根誤差都在同一水平。

2)本文方法預(yù)測的轉(zhuǎn)向角具有較好的穩(wěn)定性。在4個場景中,預(yù)測轉(zhuǎn)向的穩(wěn)定度與真實轉(zhuǎn)向的穩(wěn)定度相差不大,而且遠(yuǎn)好于原始的VGG方法與文獻(xiàn)[12]方法。與人類專家的駕駛穩(wěn)定度相比,DCNN的穩(wěn)定度與人類專家相近,而原始的VGG和文獻(xiàn)[12]方法的穩(wěn)定度指標(biāo)高于人類專家一個數(shù)量級,相差比較大。這是因為人工采集的數(shù)據(jù)由于手的抖動和輸入設(shè)備等問題,存在一些噪聲。而本文方法中利用了濾波器對輸入數(shù)據(jù)進(jìn)行平滑,且增加了LSTM層,使得網(wǎng)絡(luò)能夠?qū)r間上前后相鄰的幾幀圖像聯(lián)系在一起,輸出更加平滑的預(yù)測值。

3)本文方法能有效地修正行駛中的累積誤差。本文在訓(xùn)練網(wǎng)絡(luò)時除了前向中心攝像機(jī)的圖像,還增加了左、右兩個攝像機(jī)的采集的圖像作為訓(xùn)練樣本來訓(xùn)練模型,使模型能夠在偏離正確航向時修正方向,不讓誤差累積起來。圖6為一段連續(xù)在線測試的圖像。從圖6的右后視鏡中可以看出,第1幀中車輛有稍微向右偏離當(dāng)前車道,但是模型能夠自動修正誤差,從第8幀開始回到當(dāng)前車道中央。

4)本文設(shè)計的深度級聯(lián)神經(jīng)網(wǎng)絡(luò)算法采用了GPU加速,因此在處理速度上相對于傳統(tǒng)的單線程算法具有一定速度上的優(yōu)勢。視頻流從輸入神經(jīng)網(wǎng)絡(luò)到輸出預(yù)測值大約需要0.05s,即每秒鐘約20次規(guī)劃。而人類的反應(yīng)時間大約為0.2s[17],要遠(yuǎn)大于本文方法預(yù)測的時間,因此本文方法能夠滿足在自動駕駛中運(yùn)動規(guī)劃的實時性要求。

3 結(jié)語

本文提出了一種深度級聯(lián)神經(jīng)網(wǎng)絡(luò),并利用該網(wǎng)絡(luò)實現(xiàn)從輸入圖像到運(yùn)動參數(shù)的端到端的自動駕駛運(yùn)動規(guī)劃。該方法中,利用前向車載相機(jī)的序列圖像作為輸入,使用提出的深度級聯(lián)神經(jīng)網(wǎng)絡(luò)對自動駕駛的運(yùn)動參數(shù)做回歸,實現(xiàn)對方向盤轉(zhuǎn)向角的預(yù)測。深度級聯(lián)網(wǎng)絡(luò)融合了CNN和LSTM兩種經(jīng)典的深度模型,使模型不僅能夠提取駕駛場景的空間特征,還提取了連續(xù)圖像的時間特征,實現(xiàn)對輸出結(jié)果的準(zhǔn)確預(yù)測;并且,訓(xùn)練時額外利用了左、右兩個攝像機(jī)采集的數(shù)據(jù)作為補(bǔ)充數(shù)據(jù)集,解決了在線測試時的累計誤差修正問題。實驗結(jié)果表明,通過大量數(shù)據(jù)的訓(xùn)練,該網(wǎng)絡(luò)能夠有效、實時地針對不同場景的駕駛轉(zhuǎn)向角作出預(yù)測,能夠適應(yīng)復(fù)雜的動態(tài)場景。由于該方法沒有考慮交通信息以及全局路徑信息,只能從網(wǎng)絡(luò)的輸入得到規(guī)劃的結(jié)果,因此無法應(yīng)用于城市道路。未來的工作將集中在如何將全局路徑信息和交通信息融合于模型,讓模型能夠適應(yīng)更復(fù)雜的城市道路。

參考文獻(xiàn)(References)

[1] 余翔, 王新民, 李儼. 無人直升機(jī)路徑規(guī)劃算法研究[J]. 計算機(jī)應(yīng)用, 2006, 26(2): 494-495. (YU X, WANG X M, LI Y. Study of a path planning algorithm for unmanned helicopter[J]. Journal of Computer Applications, 2006, 26(2): 494-495.)

[2] 張超超, 房建東. 基于定向加權(quán)A*算法的自主移動機(jī)器人路徑規(guī)劃[J]. 計算機(jī)應(yīng)用, 2017, 37(S2): 77-81. (ZAHNG C C, FANG J D. Path planning of autonomous mobile robot based on directional weighted A* algorithm[J]. Journal of Computer Applications, 2017, 37(S2): 77-81.)

[3] BRANDES U. A faster algorithm for betweenness centrality[J]. Journal of Mathematical Sociology, 2001, 25(2): 163-177.

[4] HART P E, NILSSON N J, RAPHAEL B. A formal basis for the heuristic determination of minimum cost paths[J]. IEEE Transactions on Systems Science and Cybernetics, 1968, 4(2): 100-107.

[5] STENTZ A. Optimal and efficient path planning for partially-known environments[C]// Proceedings of the 1994 IEEE International Conference on Robotics and Automation. Piscataway: IEEE, 1994: 3310-3317.

[6] KARAMAN S, WALTER M R, PEREZ A, et al. Anytime motion planning using the RRT*[C]// Proceedings of the 2011 IEEE International Conference on Robotics and Automation. Piscataway: IEEE, 2011: 1478-1483.

[7] HU X, CHEN L, TANG B, et al. Dynamic path planning for autonomous driving on various roads with avoidance of static and moving obstacles[J]. Mechanical Systems and Signal Processing, 2018, 100: 482-500.

[8] LECUN Y L, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[9] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[10] 胡學(xué)敏, 易重輝, 陳欽, 等. 基于運(yùn)動顯著圖的人群異常行為檢測[J]. 計算機(jī)應(yīng)用, 2018, 38(4): 1164-1169. (HU X M, YI C H, CHEN Q, et al. Abnormal crowd behavior detection based on motion saliency map[J]. Journal of Computer Applications, 2018, 38(4): 1164-1169.)

[11] WOJNA Z, GORBAN A N, LEE D, et al. Attention-based extraction of structured information from street view imagery[C]// Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition. Piscataway: IEEE, 2017: 844-850.

[12] BOJARSKI M, del TESTA D, DWORAKOWSKI D, et al. End to end learning for self-driving cars[EB/OL]. (2016-04-25) [2019-02-23]. https://arxiv. org/pdf/1604.07316.pdf.

[13] CHEN C Y, SEFF A, KORNHASUER A, et al. Deep driving: learning affordance for direct perception in autonomous driving[C]// Proceedings of the IEEE 2015 International Conference on Computer Vision. Piscataway: IEEE, 2015: 2722-2730.

[14] SALLAB A E L, ABDOU M, PEROT E, et al. Deep reinforcement learning framework for autonomous driving[EB/OL]. [2019-01-10]. https://arxiv.org/abs/1704.02532.

[15] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2019-01-20]. https://arxiv.org/pdf/1409.1556.pdf.

[16] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]// Proceedings of the 22nd ACM Conference on Multimedia. New York: ACM, 2014: 675-678.

[17] THORPE S, FIZE D, MARLOT C. Speed of processing in the human visual system[J]. Nature, 1996, 381(6582): 520-522.

猜你喜歡
自動駕駛卷積神經(jīng)網(wǎng)絡(luò)
“自動駕駛”熱潮背后的擔(dān)心和疑慮
汽車自動駕駛的發(fā)展
LTE—V車路通信技術(shù)淺析與探討
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
特斯拉默默更改了官網(wǎng)上“自動駕駛”的說明
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
特斯拉中國官網(wǎng)不再提“自動駕駛”
基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究