衛(wèi)星 樂(lè)越 韓江洪 陸陽(yáng)
摘 要:高級(jí)輔助駕駛裝置采用機(jī)器視覺(jué)技術(shù)實(shí)時(shí)處理攝錄的行車(chē)前方車(chē)輛視頻,動(dòng)態(tài)識(shí)別并預(yù)估其姿態(tài)和行為。針對(duì)該類(lèi)識(shí)別算法精度低、延遲大的問(wèn)題,提出一種基于長(zhǎng)短期記憶(LSTM)的車(chē)輛行為動(dòng)態(tài)識(shí)別深度學(xué)習(xí)算法。首先,提取車(chē)輛行為視頻中的關(guān)鍵幀;其次,引入雙卷積網(wǎng)絡(luò)并行對(duì)關(guān)鍵幀的特征信息進(jìn)行分析,再利用LSTM網(wǎng)絡(luò)對(duì)提取出的特性信息進(jìn)行序列建模;最后,通過(guò)輸出的預(yù)測(cè)得分判斷出車(chē)輛行為類(lèi)別。實(shí)驗(yàn)結(jié)果表明,所提算法識(shí)別準(zhǔn)確率可達(dá)95.6%,對(duì)于單個(gè)視頻的識(shí)別時(shí)間只要1.72s;基于自建數(shù)據(jù)集,改進(jìn)的雙卷積算法相比普通卷積網(wǎng)絡(luò)在準(zhǔn)確率上提高8.02%,與傳統(tǒng)車(chē)輛行為識(shí)別算法相比準(zhǔn)確率提高6.36%。
其中改進(jìn)的雙卷積網(wǎng)絡(luò)算法相比普通卷積網(wǎng)絡(luò)在準(zhǔn)確率上提高8.02%,基于本文摘要中不能出現(xiàn)“本文”字樣,請(qǐng)調(diào)整語(yǔ)句描述。英文摘要處作相應(yīng)修改。請(qǐng)參照現(xiàn)在的改過(guò)的PDF文檔英文摘要進(jìn)行修改,而不是原修改稿數(shù)據(jù)集,與傳統(tǒng)車(chē)輛行為識(shí)別算法相比準(zhǔn)確率提高6.36%。
同基于本文數(shù)據(jù)集的傳統(tǒng)車(chē)輛行為識(shí)別算法相比準(zhǔn)確率提高6.36%
關(guān)鍵詞:車(chē)輛行為;長(zhǎng)短期記憶網(wǎng)絡(luò);高級(jí)輔助駕駛;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
Abstract:In the advanced assisted driving device, machine vision technology was used to process the video of vehicles in front in real time to dynamically recognize and predict the posture and behavior of vehicle. Concerning low precision and large delay of this kind of recognition algorithm, a deep learning algorithm for vehicle behavior dynamic recognition based on Long Short-Term Memory (LSTM) was proposed. Firstly, the key frames in vehicle behavior video were extracted. Secondly, a dual convolutional network was introduced to analyze the feature information of key frames in parallel, and then LSTM network was used to sequence the extracted characteristic information. Finally, the output predicted score was used to determine the behavior type of vehicle. The experimental results show that the proposed algorithm has an accuracy of 95.6%, and the recognition time of a single video is only 1.72s. The improved dual convolutional network algorithm improves the accuracy by 8.02% compared with ordinary convolutional network and increases by 6.36% compared with traditional vehicle behavior recognition algorithm based on a self-built dataset.
Key words: vehicle behavior; Long Short-Term Memory (LSTM) network; advanced assisted driving; deep learning; Convolutional Neural Network (CNN)
0 引言
隨著智能汽車(chē)行業(yè)的蓬勃發(fā)展,無(wú)人駕駛技術(shù)的運(yùn)用在各個(gè)領(lǐng)域中所占的比重也越來(lái)越大。其中,高級(jí)輔助駕駛系統(tǒng)(Advanced Driving Assistant System, ADAS)是以與未來(lái)科技互連的無(wú)人駕駛技術(shù)為基礎(chǔ),通過(guò)應(yīng)用感知技術(shù)探測(cè)車(chē)輛周?chē)旭偔h(huán)境,依據(jù)獲得的車(chē)輛行為信息執(zhí)行相應(yīng)操作從而保障駕駛員的人身安全[1]。對(duì)前方行駛車(chē)輛的行為姿態(tài)分析是ADAS技術(shù)的重要手段之一,功能的主要實(shí)現(xiàn)是通過(guò)安裝在車(chē)輛內(nèi)的前置攝像頭對(duì)前方車(chē)輛進(jìn)行拍攝,對(duì)其直行、左轉(zhuǎn)、右轉(zhuǎn)、變道、掉頭等動(dòng)態(tài)姿態(tài)行為進(jìn)行識(shí)別,從而對(duì)駕駛員進(jìn)行預(yù)警和提示(如圖1)。
目前,在車(chē)輛行為識(shí)別領(lǐng)域,已經(jīng)有許多基于傳統(tǒng)機(jī)器視覺(jué)算法的研究。如:2012年,Kasper等[2]使用貝葉斯網(wǎng)絡(luò)對(duì)高速公路場(chǎng)景中車(chē)輛典型行為進(jìn)行分類(lèi);2014年Gadepally等[3]等使用隱馬爾可夫模型(Hidden Markov Model, HMM)對(duì)車(chē)輛行為進(jìn)行分析;2018年,黃鑫等[4]使用視覺(jué)背景提?。╒isual Background extractor, ViBe)算法得到車(chē)輛的前景圖像,利用金字塔光流法(Lucas-Kanada, L-K)和均值漂移算法,再通過(guò)運(yùn)動(dòng)特征熵和運(yùn)動(dòng)特征標(biāo)量到聚類(lèi)中心的歐氏距離這兩種方法判斷車(chē)輛有無(wú)異常行為;黃慧玲等[5]提出一種基于車(chē)輛行為識(shí)別的汽車(chē)前方碰撞預(yù)警方法,通過(guò)梯度方向直方圖(Histograms of Oriented Gradients, HOG)和支持向量機(jī)(Support Vector Machine, SVM)來(lái)訓(xùn)練檢索前方車(chē)輛,再結(jié)合卡爾曼濾波對(duì)車(chē)輛跟蹤,最后使用HMM算法對(duì)車(chē)輛行為進(jìn)行建模,識(shí)別前方車(chē)輛行為。但是,很多傳統(tǒng)算法的視頻都是在路口高位定點(diǎn)拍攝,更加適合對(duì)背景相對(duì)固定的車(chē)輛行為進(jìn)行識(shí)別,并且傳統(tǒng)算法的檢測(cè)和識(shí)別精度無(wú)法達(dá)到實(shí)際需求。近些年,深度學(xué)習(xí)已經(jīng)在各個(gè)領(lǐng)域取得重大進(jìn)展,解決了許多傳統(tǒng)技術(shù)無(wú)法解決的難題。在視頻識(shí)別和分類(lèi)這一任務(wù)上,Donahue等[6]在2015年提出了采用長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)來(lái)解決視頻流時(shí)序分類(lèi)這一難題。LSTM由Hochreiter等[7]在1997年提出,是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)。由于存在梯度消失和梯度爆炸等問(wèn)題,標(biāo)準(zhǔn)的循環(huán)網(wǎng)絡(luò)在長(zhǎng)序列上的學(xué)習(xí)效果不佳。相比之下,LSTM使用記憶單元來(lái)訪問(wèn)、修改、存儲(chǔ)內(nèi)部狀態(tài),能夠更好地探尋長(zhǎng)序列之間的聯(lián)系,因此在自然語(yǔ)言、語(yǔ)音、動(dòng)作姿態(tài)等序列領(lǐng)域有驚人的表現(xiàn)[8-9]。Graves[10]于2013年對(duì)LSTM進(jìn)行了改良和推廣,使其能更好地學(xué)習(xí)序列特征。2017年,曹晉其等[11]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和LSTM相結(jié)合的方式對(duì)人體行為進(jìn)行識(shí)別,利用圖像中的RGB數(shù)據(jù)識(shí)別視頻人體動(dòng)作,使用現(xiàn)有的CNN模型從圖像中提取特征,并采用長(zhǎng)短記憶遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練分類(lèi);同時(shí),采用雙卷積和關(guān)鍵幀選取的方法,可以大幅度提高人體行為分類(lèi)的正確率[12-14]。目前,尚未有利用LSTM網(wǎng)絡(luò)解決類(lèi)似于車(chē)輛行為動(dòng)態(tài)識(shí)別方面的研究。
綜上所述,針對(duì)傳統(tǒng)車(chē)輛行為識(shí)別算法準(zhǔn)確率較低和實(shí)用性差等問(wèn)題,為了有效檢測(cè)前方車(chē)輛并對(duì)其運(yùn)動(dòng)狀態(tài)進(jìn)行理解和識(shí)別,本文提出了一種基于長(zhǎng)短期記憶的車(chē)輛行為動(dòng)態(tài)識(shí)別網(wǎng)絡(luò),該模型對(duì)于車(chē)輛行為的動(dòng)態(tài)識(shí)別非常有效,且模型收斂的速度很快。
1 網(wǎng)絡(luò)結(jié)構(gòu)
本文網(wǎng)絡(luò)模型如圖2所示,主要訓(xùn)練過(guò)程如下:
第一步 對(duì)輸入的解幀后的視頻流進(jìn)行關(guān)鍵幀提取,并依據(jù)關(guān)鍵幀數(shù)量和關(guān)鍵幀所在子視頻中的位置因素等進(jìn)行對(duì)比實(shí)驗(yàn)。
第二步 使用雙CNN模型提取出關(guān)鍵幀中的車(chē)輛特征,其中雙CNN模型參數(shù)是由ImageNet數(shù)據(jù)集[15]訓(xùn)練得到。根據(jù)分類(lèi)結(jié)果與車(chē)輛和環(huán)境特征的多元性及特殊性,提出的雙網(wǎng)絡(luò)結(jié)構(gòu)將分別專(zhuān)注于常規(guī)特征以及細(xì)微特征變化。雙CNN模型的選擇對(duì)最終的動(dòng)態(tài)行為分類(lèi)結(jié)果起著至關(guān)重要的作用,本文會(huì)在稍后的實(shí)驗(yàn)中進(jìn)行討論。
第三步 將雙CNN模型提取出的車(chē)輛行為特征融合后輸入到LSTM網(wǎng)絡(luò)框架中,進(jìn)而分析序列間特征得到各類(lèi)車(chē)輛行為預(yù)判得分,最終得到視頻車(chē)輛的行為分類(lèi)。
2 視頻幀提取
3 雙卷積特征提取
3.1 ResNet基本原理
根據(jù)萬(wàn)能近似定理(Universal Approximation Theorem,UAT),當(dāng)單層的前饋網(wǎng)絡(luò)有足夠大的容量的時(shí)候,它可以表示任何函數(shù);但是,由于單層網(wǎng)絡(luò)在結(jié)構(gòu)上過(guò)于龐大,容易造成過(guò)擬合等現(xiàn)象。在卷積神經(jīng)網(wǎng)絡(luò)中,隨著層數(shù)的增多,可以提取不同level的特征,從而使得整個(gè)網(wǎng)絡(luò)表達(dá)的特征更加豐富,并且,越深的神經(jīng)網(wǎng)絡(luò)提取出的特征會(huì)越抽象,更加具有語(yǔ)義信息,但是,神經(jīng)網(wǎng)絡(luò)深度的提升不能單單通過(guò)層與層的簡(jiǎn)單堆疊來(lái)實(shí)現(xiàn),并且由于存在梯度消失等問(wèn)題,深層神經(jīng)網(wǎng)絡(luò)往往難以訓(xùn)練,因此需要構(gòu)建結(jié)構(gòu)合理的多層網(wǎng)絡(luò)來(lái)更好地提取圖像的信息特征。
深度殘差網(wǎng)絡(luò)(deep Residual Network, ResNet)在2015年被提出[16],在ImageNet分類(lèi)任務(wù)上獲得比賽第一名,因?yàn)樗?dú)有的特性,可以允許網(wǎng)絡(luò)盡可能地深。ResNet中引入了殘差網(wǎng)絡(luò)結(jié)構(gòu)(圖3(a)所示),相比其他卷積網(wǎng)絡(luò)增加了網(wǎng)絡(luò)層數(shù)和深度,不僅能有效避免梯度彌散或梯度爆炸,同時(shí)也能很好地解決網(wǎng)絡(luò)的退化問(wèn)題。其核心思想是引入一個(gè)恒等快捷連接,將原始所需要學(xué)習(xí)的函數(shù)H(x)轉(zhuǎn)換成F(x)+x(如式(2)),這兩種表達(dá)的效果相同,但是優(yōu)化的難度卻并不相同,假設(shè)F(x)的優(yōu)化會(huì)比H(x)簡(jiǎn)單得多。為了方便計(jì)算,達(dá)到更好優(yōu)化訓(xùn)練的效果,可以把式(1)轉(zhuǎn)換為學(xué)習(xí)一個(gè)殘差函數(shù),如式(3)所示:
當(dāng)F(x)=0,構(gòu)成了一個(gè)恒等映射H(x)=x,同時(shí)可以更方便擬合殘差。用σ表示非線性函數(shù)ReLU(Rectified Linear Unit請(qǐng)補(bǔ)充ReLU的英文全稱(chēng)),W1,W2,Wa,Wb表示權(quán)重,F(xiàn)(x)和H(x)分別表示為:
當(dāng)輸入輸出兩者維度不同,需要給x執(zhí)行一個(gè)線性映射來(lái)匹配維度:
ResNet使用兩種殘差單元,如圖3(b)、(c)所示,圖3(b)對(duì)應(yīng)的是淺層網(wǎng)絡(luò),而圖3(c)對(duì)應(yīng)的是深層網(wǎng)絡(luò)。對(duì)于短路連接這種方式,當(dāng)輸入和輸出的維度相同時(shí),可以直接將輸入加到輸出上。當(dāng)維度不一致時(shí)(通常是維度會(huì)增加一倍)就不能直接相加。第一種方法是使用補(bǔ)零法來(lái)增加維度,進(jìn)行下采樣,使用步長(zhǎng)為2的池化層,這種方式不會(huì)增加額外的參數(shù)。第二種方法是采用新的映射,通過(guò)1×1的卷積來(lái)增加維度,較為方便穩(wěn)定。本文使用的是第二種方法。
3.2 雙提取機(jī)制
本文對(duì)于視頻的特征提取,設(shè)計(jì)雙深度卷積網(wǎng)絡(luò)來(lái)對(duì)視頻幀中的車(chē)輛特征進(jìn)行學(xué)習(xí)和提取。圖2中的CNN1和CNN2分別使用ResNet-50和改進(jìn)的ResNet-34網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。為了保持精度同時(shí)減少相應(yīng)的計(jì)算量,本文的CNN1網(wǎng)絡(luò)(ResNet-50)采用圖2(c)所示的殘差結(jié)構(gòu),結(jié)構(gòu)中的中間3×3的卷積層首先在一個(gè)降維1×1卷積層下減少了計(jì)算,然后在另一個(gè)1×1的卷積層下做了還原。由于在車(chē)輛行為檢測(cè)過(guò)程中,視頻幀中的轉(zhuǎn)向燈、紅綠燈等特征(車(chē)輛變道轉(zhuǎn)向等行為)不明顯,因此,考慮對(duì)ResNet-34網(wǎng)絡(luò)模型進(jìn)行相應(yīng)改進(jìn)來(lái)作為本實(shí)驗(yàn)的CNN2網(wǎng)絡(luò)模型。實(shí)驗(yàn)中,針對(duì)圖像中相對(duì)較小的特征,本文采用擴(kuò)大卷積核的方式來(lái)增大感受野從而獲取更多的細(xì)節(jié)特征,具體做法是將ResNet-34前5層卷積核大小由原始的7×7與3×3的組合改為7×7,6到15層卷積核將原來(lái)的3×3改為5×5。
請(qǐng)補(bǔ)充這個(gè)的名稱(chēng),是統(tǒng)計(jì)項(xiàng)嗎?也請(qǐng)補(bǔ)充名稱(chēng),沒(méi)有數(shù)值或空白,也需說(shuō)明一下,否則無(wú)法理解。表格的規(guī)范是按照列名來(lái)補(bǔ)充相關(guān)數(shù)據(jù)項(xiàng)
這是何意?需明確。
回復(fù):可以看清每列,但是排版需要把線去掉。建議把這一行刪除,因?yàn)檫@個(gè)表描述網(wǎng)絡(luò)參數(shù),核心內(nèi)容已經(jīng)表達(dá)。
此外,在兩個(gè)CNN訓(xùn)練完成后,用1×1×512的卷積網(wǎng)絡(luò)來(lái)代替CNN1和CNN2中的全連接層及之后softmax層,用卷積提取的方式使兩個(gè)卷積網(wǎng)絡(luò)輸出為1×1×512維度特征;然后再使用首尾相接的融合方法對(duì)CNN1和CNN2的輸出進(jìn)行融合,作為L(zhǎng)STM神經(jīng)網(wǎng)絡(luò)的輸入。
4 基于LSTM序列
車(chē)輛行為視頻的連續(xù)關(guān)鍵幀是隨著時(shí)間進(jìn)行演變的過(guò)程,針對(duì)這一特性本文選擇LSTM網(wǎng)絡(luò)框架對(duì)車(chē)輛行為進(jìn)行建模。LSTM相比循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN),其算法中加入了一個(gè)判斷信息篩選的“處理器”記憶單元,如圖4所示。每個(gè)單元中設(shè)置了三扇門(mén),分別為輸入門(mén)It、輸出門(mén)QtOt是Q,還是O,公式中是O,請(qǐng)明確。和遺忘門(mén)Ft,它們分別對(duì)應(yīng)著車(chē)輛運(yùn)動(dòng)姿態(tài)數(shù)據(jù)序列的寫(xiě)入、讀取和先前狀態(tài)的重置操作。假設(shè)xt表示在時(shí)間t下的輸入,Wi,Wf,Wo,Wc表示權(quán)重矩陣;bi,bf,bo,bc是偏置向量,σ表示為logistic sigmoid函數(shù),Ht為單元t時(shí)刻的輸出。Ct表示記憶單元在t時(shí)刻的狀態(tài),則LSTM單元在t時(shí)刻的更新過(guò)程如下:
為了抓取車(chē)輛動(dòng)態(tài)行為的語(yǔ)義信息,提高結(jié)果的分類(lèi)準(zhǔn)確率,決定采用一種雙層深度LSTM表示模型,可以挖掘更深層的序列之間的特征。網(wǎng)絡(luò)模型如圖5所示,把本文第3章介紹的雙卷積網(wǎng)絡(luò)所提取出m個(gè)特征值按序輸入雙層結(jié)構(gòu)的LSTM序列模型中,每個(gè)記憶單元學(xué)習(xí)當(dāng)時(shí)輸入的車(chē)輛特征,并通過(guò)單元的遺忘門(mén)以及其前后狀態(tài)對(duì)車(chē)輛行為狀態(tài)進(jìn)行分析。采用many to one(即多對(duì)一)的輸入輸出方式,每個(gè)輸入都是1×1×1024的向量,在經(jīng)過(guò)雙層的LSTM網(wǎng)絡(luò)后,輸出為1×1×6(6對(duì)應(yīng)著直行、左轉(zhuǎn)、右轉(zhuǎn)、左變道、右變道、掉頭)的分類(lèi)向量并將其通過(guò)softmax函數(shù),最后得出車(chē)輛行為類(lèi)別的預(yù)測(cè)得分。
5 實(shí)驗(yàn)及結(jié)果分析
5.1 數(shù)據(jù)集
本文用于特征提取的雙卷積網(wǎng)絡(luò)使用ImageNet數(shù)據(jù)集進(jìn)行訓(xùn)練,ImageNet數(shù)據(jù)集有1400多萬(wàn)幅圖片,涵蓋2萬(wàn)多個(gè)類(lèi)別。本文把數(shù)據(jù)集中的卡車(chē)、轎車(chē)標(biāo)簽統(tǒng)一換成了車(chē)輛標(biāo)簽。本文使用合作項(xiàng)目中的大量視頻數(shù)據(jù)以及自行搭建的車(chē)載實(shí)驗(yàn)平臺(tái)所采集的視頻數(shù)據(jù)來(lái)訓(xùn)練LSTM網(wǎng)絡(luò)模型。車(chē)輛視頻數(shù)據(jù)歸分為6個(gè)類(lèi),分別為直行、左變道、右變道、調(diào)頭、左轉(zhuǎn)、右轉(zhuǎn),每個(gè)類(lèi)中有300多個(gè)視頻,視頻集中包含白天、傍晚、陰天、雨天等多種不同天氣環(huán)境及不同路況下拍攝的數(shù)據(jù)。視頻拍攝過(guò)程中將攝像頭固定于車(chē)輛前玻璃正前方,對(duì)車(chē)輛正前方目標(biāo)車(chē)輛的行駛行為進(jìn)行拍攝,數(shù)據(jù)采集真實(shí)可靠。在本文實(shí)驗(yàn)中,車(chē)輛數(shù)據(jù)如圖6所示,將數(shù)據(jù)集中的2218個(gè)視頻隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集視頻數(shù)量為1330,驗(yàn)證集視頻數(shù)量為443,測(cè)試集視頻數(shù)量為445。
5.2 網(wǎng)絡(luò)環(huán)境配置及訓(xùn)練
實(shí)驗(yàn)使用的服務(wù)器基于Ubuntu 16.04,64位操作系統(tǒng),使用的深度學(xué)習(xí)框架是tensorflow,GPU為GeForce GTX 1080Ti。首先用ImageNet數(shù)據(jù)集對(duì)雙卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后在用訓(xùn)練好的雙卷積網(wǎng)絡(luò)對(duì)關(guān)鍵幀進(jìn)行特征提取以便于訓(xùn)練LSTM神經(jīng)網(wǎng)絡(luò)。每個(gè)關(guān)鍵幀都降采樣到224×224大小,LSTM網(wǎng)絡(luò)隱含層的維度為1024。在訓(xùn)練LSTM神經(jīng)網(wǎng)絡(luò)中,本文使用Adam優(yōu)化器中的隨機(jī)梯度下降算法來(lái)學(xué)習(xí)參數(shù),學(xué)習(xí)率設(shè)置為10-5,訓(xùn)練的批處理大小Batch為12,權(quán)重衰減(decay)為0.0001,數(shù)據(jù)集迭代次數(shù)為50。
5.3 結(jié)果分析
5.3.1 m取值不同關(guān)鍵幀的實(shí)驗(yàn)結(jié)果
由圖7可知,在車(chē)右轉(zhuǎn)這一類(lèi)車(chē)輛行為中,在提取數(shù)據(jù)幀方式相同的情況下,m值由6到10之間,識(shí)別正確率迅速上升并達(dá)到峰值,之后開(kāi)始趨于穩(wěn)定,當(dāng)m取值大于12時(shí),準(zhǔn)確率開(kāi)始略微下降;針對(duì)3種不同的子序列取幀方式,識(shí)別的正確率隨著m值變化的總體趨勢(shì)相同,差距較小。綜合而言,選取子視頻的中間幀,識(shí)別效果最優(yōu),整體識(shí)別最好。
5.3.2 行為識(shí)別結(jié)果
本實(shí)驗(yàn)將拆分出來(lái)的訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于評(píng)估模型,預(yù)測(cè)車(chē)輛行為識(shí)別結(jié)果的好壞,并驗(yàn)證模型選擇的合理性及模型參數(shù)的最優(yōu)性。最后采用已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)模型及權(quán)重參數(shù),預(yù)測(cè)測(cè)試集中的視頻數(shù)據(jù)最后采用已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)測(cè)試集中的視頻數(shù)據(jù),得出測(cè)試車(chē)輛不同行為的準(zhǔn)確率,不同車(chē)輛行為類(lèi)別在數(shù)據(jù)測(cè)試集上的準(zhǔn)確率如表2所示。
由表2可知,在各種天氣環(huán)境及不同路況,當(dāng)車(chē)輛行為是直行、左轉(zhuǎn)、右轉(zhuǎn)以及調(diào)頭的準(zhǔn)確率較高,可以達(dá)到95%以上;而左變道、右變道準(zhǔn)確率略低,僅有93%左右。
實(shí)驗(yàn)將數(shù)據(jù)集按比例隨機(jī)抽取,進(jìn)行多次交叉驗(yàn)證,行為識(shí)別準(zhǔn)確率結(jié)果如圖8(a),損失函數(shù)趨勢(shì)曲線如圖8(b)。
由圖8(a)可見(jiàn),在整個(gè)訓(xùn)練過(guò)程中,訓(xùn)練集和驗(yàn)證集準(zhǔn)確率一直處于上升的趨勢(shì),數(shù)據(jù)經(jīng)過(guò)10次迭代后,驗(yàn)證集與訓(xùn)練集準(zhǔn)確率相差較大,經(jīng)過(guò)20次迭代后基本趨于穩(wěn)定。由此說(shuō)明,前期10次迭代過(guò)程存在一定的過(guò)擬合,但在后期的迭代中進(jìn)行了一定的修正,從而致使識(shí)別率逐步提高。由圖8(b)可知,損失值在迭代到10次之前,驗(yàn)證集的損失值下降幅度比訓(xùn)練集大,之后訓(xùn)練集損失值繼續(xù)緩慢下降,驗(yàn)證集損失值趨于穩(wěn)定。
方案序號(hào)特征提取序列建模準(zhǔn)確率/%識(shí)別時(shí)間此處原為識(shí)別速度,單位是s,是否應(yīng)該為識(shí)別時(shí)間,這樣更恰當(dāng)些,請(qǐng)明確。正文中的其他處是否也可以這樣修改
從表3中可以看出,檢測(cè)車(chē)輛行為的準(zhǔn)確率在各種模型方案下顯示不同。通過(guò)對(duì)比方案1和方案2,可以看出多一個(gè)卷積網(wǎng)絡(luò)進(jìn)行特征提取,準(zhǔn)確率提高了4.3個(gè)百分點(diǎn),但是對(duì)于單個(gè)視頻行為識(shí)別速度相近。再對(duì)ResNet-34網(wǎng)絡(luò)進(jìn)行2.2節(jié)中所述的改進(jìn)后,準(zhǔn)確率又在原來(lái)基礎(chǔ)上提高了2.8個(gè)百分點(diǎn)。實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),對(duì)ResNet-34網(wǎng)絡(luò)進(jìn)行改進(jìn)后,直行、左變道、右變道的識(shí)別準(zhǔn)確率上升更為明顯,說(shuō)明采用雙卷積網(wǎng)絡(luò)泛化能力強(qiáng),性能更高,能提取更為細(xì)微的特征。方案3、方案4和方案5,都保持了特征提取部分網(wǎng)絡(luò)不變,但是方案3不使用LSTM網(wǎng)絡(luò)的,這種情況下準(zhǔn)確率明顯降低很多,但是識(shí)別速度提高了一倍單個(gè)視頻的識(shí)別時(shí)間減少了一半若改為識(shí)別時(shí)間,此處應(yīng)為識(shí)別時(shí)間減少了一半,請(qǐng)確認(rèn)。方案4使用了單層的LSTM網(wǎng)絡(luò)來(lái)做序列間的特征學(xué)習(xí),準(zhǔn)確率比方案5使用雙層深度LSTM網(wǎng)絡(luò)的低2個(gè)百分點(diǎn),但是網(wǎng)絡(luò)權(quán)重也小了20%左右。
為了證明本文網(wǎng)絡(luò)模型在車(chē)輛行為識(shí)別上的優(yōu)勢(shì),基于本文視頻流數(shù)據(jù)集,與現(xiàn)有的一些車(chē)輛行為識(shí)別的算法進(jìn)行對(duì)比實(shí)驗(yàn)。
從表4中可以看出,針對(duì)視頻中車(chē)輛特征檢測(cè)這一角度,本文提出的車(chē)輛特征檢測(cè)方法可以有效地解決傳統(tǒng)方法的某些問(wèn)題,比傳統(tǒng)的方法更加滿足實(shí)際中的需求,且雙卷積網(wǎng)絡(luò)結(jié)構(gòu)檢測(cè)性能更強(qiáng),更能發(fā)現(xiàn)細(xì)小的特征。
本文算法雙卷積網(wǎng)絡(luò)不同條件很強(qiáng)
由表5所示,在直行、右轉(zhuǎn)、左轉(zhuǎn)、掉頭這幾個(gè)車(chē)輛行為識(shí)別中,相比傳統(tǒng)車(chē)輛行為識(shí)別算法,本文提出的識(shí)別網(wǎng)絡(luò)在各個(gè)類(lèi)別中準(zhǔn)確率均是最高,且平均準(zhǔn)確率相比次好的文獻(xiàn)[4]中的模型提高了6.36%,獲得了更好的分類(lèi)效果。
6 結(jié)語(yǔ)
針對(duì)視頻中前方的車(chē)輛行為研究這一問(wèn)題,提出了基于長(zhǎng)短期記憶的車(chē)輛行為動(dòng)態(tài)識(shí)別網(wǎng)絡(luò)算法。在車(chē)輛行為識(shí)別網(wǎng)絡(luò)設(shè)計(jì)中,采用雙卷積網(wǎng)絡(luò)模型對(duì)視頻中車(chē)輛特征進(jìn)行檢測(cè)和提取。針對(duì)車(chē)輛運(yùn)動(dòng)狀態(tài)這一時(shí)序問(wèn)題,使用LSTM網(wǎng)絡(luò)進(jìn)行序列特征深度挖掘,最終得到行為分類(lèi)結(jié)果。通過(guò)對(duì)比傳統(tǒng)機(jī)器視覺(jué)的車(chē)輛行為分析研究,本文提出的算法不需要基于先驗(yàn)知識(shí)建立車(chē)輛姿態(tài)模型,同時(shí)可以自適應(yīng)地學(xué)習(xí)姿態(tài)特征,并且不受外界因素影響,對(duì)于車(chē)輛后方拍攝視角準(zhǔn)確率更能滿足實(shí)際需求,但是,本文的研究不能實(shí)時(shí)有效地識(shí)別前方多臺(tái)車(chē)輛的行為,所以下一步的研究重點(diǎn)主要是在保證準(zhǔn)確率的情況下同時(shí)識(shí)別前方多輛車(chē)的動(dòng)態(tài)行為。
參考文獻(xiàn) (References)
[1] 陳放.高級(jí)駕駛輔助系統(tǒng)ADAS淺談[J].各界,2018(1):188-191.(CHEN F. A dissertation on advanced driver assistance system[J].All Circles, 2018(1): 188-191.)
[2] KASPER D, WEIDL G, DANG T, et al. Object-oriented Bayesian networks for detection of lane change maneuvers[J]. IEEE Intelligent Transportation Systems Magazine, 2012, 4(3): 19-31.
[3] GADEPALLY V, KRISHNAMURTHY A, OZGUNER U. A framework for estimating driver decisions near intersections [J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(2): 637-646.
[4] 黃鑫,肖世德,宋波.監(jiān)控視頻中的車(chē)輛異常行為檢測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(2):125-131.(HUANG X, XIAO S D, SONG B. Detection of vehicles abnormal behaviors in surveillance video[J]. Computer Systems and Applications, 2018, 27(2): 125-131.)
[5] 黃慧玲,楊明,王春香,等.基于前方車(chē)輛行為識(shí)別的碰撞預(yù)警系統(tǒng)[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,43(s1):117-121.(HUANG H L, YANG M, WANG C X, et al. Collision warning system based on forward vehicle behavior recognition[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2015, 43(s1): 117-121.)
[6] DONAHUE J, HENDRICKS L A, ROHRBACH M, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 2625-2634.
[7] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[8] 殷昊,李壽山,貢正仙,等.基于多通道LSTM的不平衡情緒分類(lèi)方法[J].中文信息學(xué)報(bào),2018,32(1):139-145.(YIN H, LI S S, GONG Z X, et al. Imbalanced emotion classification based on multi-channel LSTM[J]. Journal of Chinese Information Processing, 2018,32(1):139-145.)
[9] 鄭毅,李鳳,張麗,等.基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的人體姿態(tài)檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2018,38(6):1568-1574.(ZHENG Y, LI F, ZHANG L, et al. Pose detection and classification with LSTM network[J]. Journal of Computer Applications, 2018, 38(6): 1568-1574.)
[10] GRAVES A. Supervised Sequence Labelling with Recurrent Neural Networks[M]. Berlin: Springer, 2012:385.
[11] 曹晉其,蔣興浩,孫錟鋒.基于訓(xùn)練圖CNN特征的視頻人體動(dòng)作識(shí)別算法[J].計(jì)算機(jī)工程,2017,43(11):234-238.(CAO J Q, JIANG X H, SUN T F. Video human action recognition algorithm based on trained image CNN features[J]. Computer Engineering, 2017, 43(11): 234-238.)
[12] SIMONYAN K, ZISSERMAN A. Two-stream convolutional net-works for action recognition in videos[C]// Proceedings of the 2014 International Conference on Neural Information Processing Systems. Montréal: [s.n.], 2014: 568-576.
[13] NG J.Y, MATTHEW H, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classification[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 4694-4702.
[14] CHEN H F, CHEN J, HU R M, et al. Action recognition with temporal scale-invariant deep learning framework[J]. China Communications, 2017, 14(2): 163-172.
[15] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the 2009 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2009: 248-255.
[16] HE K M, ZHANG X Y, REN S Q, et. al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 770-778.