国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于視頻圖像驅(qū)動的駕駛?cè)俗⒁饬烙嫹椒?/h1>
2024-11-21 00:00:00趙栓峰李小雨羅志健唐增輝王夢維王力
現(xiàn)代電子技術(shù) 2024年22期
關(guān)鍵詞:深度學(xué)習(xí)

摘" 要: 駕駛?cè)艘曈X注意力的深入研究對于預(yù)測不安全駕駛行為和理解駕駛行為具有重要意義。為此,提出一種基于視頻圖像驅(qū)動的駕駛?cè)俗⒁饬烙嫹椒?,以估計駕駛?cè)嗽谛熊嚂r注意到視域內(nèi)的行人或車輛等各種對象。該方法利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)交通場景視頻與駕駛員注意力特征之間的映射關(guān)系,并融入引導(dǎo)學(xué)習(xí)模塊來提取與駕駛員注意力最相關(guān)的特征。考慮到駕駛的動態(tài)性,使用動態(tài)交通場景視頻作為模型輸入,設(shè)計時空特征提取模塊。在稀疏、密集、低照度等常見的交通場景中,將估計的駕駛員注意力模型與收集的駕駛員注意力數(shù)據(jù)點進(jìn)行對比。實驗結(jié)果表明,所提方法能夠準(zhǔn)確估計駕駛員在駕駛過程中的注意力,對于預(yù)測不安全駕駛行為以及促進(jìn)人們更好地理解駕駛行為具有重要的理論和實用價值。

關(guān)鍵詞: 駕駛?cè)俗⒁饬烙嫞?深度學(xué)習(xí); 視頻圖像驅(qū)動; 引導(dǎo)學(xué)習(xí); 動態(tài)交通場景; 時空特征提取

中圖分類號: TN911.73?34; U491" " " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " 文章編號: 1004?373X(2024)22?0179?08

Method of driver attention estimation based on video image?driven

Abstract: An in?depth study of drivers′visual attention is important for predicting unsafe driving behavior and understanding driving behavior. A method of driver attention estimation based on video image?driven is proposed to estimate that drivers will notice various objects such as pedestrians or vehicles in the field of view while driving. In the method, the deep neural network is used to learn the mapping relationship between the video of traffic scene and the features of drivers′attention, and the bootstrap learning module is integrated to extract the features that are most relevant to the driver's attention. Considering the dynamicity of driving, a spatio?temporal feature extraction module is designed by using dynamic traffic scene videos as model inputs. The estimated driver attention model is compared with the collected driver attention data points in a variety of common traffic scenes, including sparse, dense, and low?light scenes. The experimental results show that the proposed method can accurately estimate the drivers′attention during driving, and has important theoretical and practical value for predicting unsafe driving behavior and promoting better understanding of driving behavior.

Keywords: driver attention estimation; deep learning; video image?driven; guidance learning; dynamic traffic scenarios; spatio?temporal feature extraction

0" 引" 言

交通安全是國家交通領(lǐng)域的重點關(guān)注問題,而不安全的駕駛行為是導(dǎo)致交通事故的主要原因。駕駛行為的安全性取決于駕駛?cè)烁鶕?jù)道路環(huán)境和車輛狀態(tài)做出的決策和操作的準(zhǔn)確性,而準(zhǔn)確的決策和操作依賴于駕駛?cè)顺浞指兄獠啃畔ⅲ渲幸曈X提供了高達(dá)90%的信息[1]。因此,深入研究駕駛?cè)说囊曈X注意力與駕駛行為安全性之間的關(guān)系非常重要,這不僅可以預(yù)測不安全的駕駛行為,而且可以促進(jìn)人們對駕駛行為的理解,為解決交通安全問題提供有力支持。

當(dāng)前,眾多學(xué)者從多學(xué)科領(lǐng)域?qū)︸{駛?cè)俗⒁饬φ归_了廣泛而深入的研究。這些研究可分為兩大類:第一類側(cè)重于檢測駕駛?cè)说淖⒁饬顟B(tài),包括疲勞檢測[2?4]、頭部姿態(tài)估計[5]以及行為檢測[6]。通過識別駕駛?cè)说奶囟顟B(tài)或姿勢,研究者可判斷特定駕駛?cè)蝿?wù)或注意力的風(fēng)險水平,如判斷駕駛?cè)耸欠穹中幕驈氖屡c駕駛無關(guān)的活動。第二類研究更為細(xì)致和深入,旨在確定駕駛?cè)嗽趯嶋H行車過程中的注意力分布情況,即駕駛?cè)说淖⒁饬性谀男﹨^(qū)域,以更好地理解其行為模式和決策機制。這類研究通常采用眼動儀、頭戴式顯示器和虛擬現(xiàn)實技術(shù)等先進(jìn)設(shè)備,通過精確記錄駕駛?cè)说囊暰€移動軌跡和眼動特征,分析其視覺注意力的空間分布規(guī)律。借助這些研究,可深入洞察駕駛?cè)嗽诓煌煌▓鼍跋碌淖⒁饬Ψ峙洳呗?,例如在高速公路環(huán)境中對前方車流的關(guān)注程度或在城市道路情境下對行人和障礙物的注意力響應(yīng)特點。在駕駛?cè)俗⒁饬︻A(yù)測研究中,一些學(xué)者嘗試將駕駛?cè)说囊曈X區(qū)域劃分為若干子區(qū)域,將注意區(qū)域問題轉(zhuǎn)化為分類問題,并取得了一定成效。文獻(xiàn)[7]中將可能注意的區(qū)域分為6個子區(qū)域,基于隨機森林分類器提出了一個利用駕駛?cè)嗣娌刻卣鞴烙嬜⒁鈪^(qū)域的模型。文獻(xiàn)[8]中則將可能注意的區(qū)域劃分為9個子區(qū)域,利用卷積神經(jīng)網(wǎng)絡(luò)對給定人臉檢測圖像中的注視區(qū)域進(jìn)行分類。然而,這些方法需要人為劃分區(qū)域,劃分的合理性對結(jié)果準(zhǔn)確性影響較大。為克服上述問題,文獻(xiàn)[9]提出了一種基于貝葉斯過濾的方法,使用基于攝像頭的駕駛員監(jiān)控系統(tǒng)信息,估計駕駛?cè)嗽诓煌瑓^(qū)域查看的概率,從而預(yù)測注意區(qū)域。該方法無需人為劃分區(qū)域,可通過監(jiān)控系統(tǒng)獲取駕駛?cè)艘曈X信息,具有更好的實用性。需要注意的是,上述方法都基于分類思想,將注意區(qū)域問題轉(zhuǎn)化為分類問題,雖然取得了不錯的效果,但如何將語義信息納入駕駛?cè)俗⒁饬︻A(yù)測中仍是一個值得研究的問題。

文獻(xiàn)[10]基于DR(eye)VE數(shù)據(jù)集,提出了一種多路徑深層計算機視覺模型,用于預(yù)測駕駛員的注意力焦點。文獻(xiàn)[11]受選擇性調(diào)諧機制啟發(fā),通過自頂向下與自底向上的信息計算最終激活的神經(jīng)元,并通過中間層激勵的反向傳播生成可解釋的注意力圖。該方法提出的注意力機制可以針對普通CNN生成特定任務(wù)的注意力圖,無需完整的反向傳播。文獻(xiàn)[12]利用神經(jīng)網(wǎng)絡(luò)建立車速、方向盤轉(zhuǎn)角與交通場景之間的映射關(guān)系,基于CAM[13]算法確定交通場景圖像中與駕駛?cè)瞬僮髯钕嚓P(guān)的區(qū)域,將其認(rèn)定為駕駛?cè)说年P(guān)注區(qū)域。

現(xiàn)有方法雖然可以確定駕駛?cè)说囊曈X關(guān)注區(qū)域,但缺乏對區(qū)域內(nèi)對象的語義理解。這些模型主要通過像素級預(yù)測確定關(guān)注區(qū)域,忽略了對象的語義意義。然而,駕駛?cè)说囊曈X關(guān)注通常集中于特定對象,如車輛或行人。因此,一些研究者開始探索結(jié)合語義信息預(yù)測駕駛?cè)说囊曈X關(guān)注。

為了從對象層面有效估計駕駛?cè)说淖⒁饬?,本文提出了一種基于視頻圖像驅(qū)動的注意力估計方法。該方法通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)交通場景視頻和駕駛?cè)俗⒁饬χg的映射關(guān)系,估計駕駛?cè)嗽谔囟▓鼍跋玛P(guān)注的對象。盡管神經(jīng)網(wǎng)絡(luò)在先前研究中展現(xiàn)出強大的學(xué)習(xí)能力和容錯性,但可解釋性研究[14]指出,其預(yù)測效果取決于所提取特征的質(zhì)量,與人類行為相似。為了提取與駕駛?cè)俗⒁饬ψ钕嚓P(guān)的特征,本文基于已標(biāo)注的注意力特征設(shè)計了引導(dǎo)學(xué)習(xí)方法,引導(dǎo)模型學(xué)習(xí)最相關(guān)特征。

1" 算法原理

1.1" 整體框架

本文的主要目的是基于視頻數(shù)據(jù)驅(qū)動建立一個駕駛?cè)俗⒁饬烙嬆P?,用來預(yù)測駕駛?cè)嗽诮煌▓鼍爸兴⒁暤膶ο?。所提方法的總體框架如圖1所示。首先,利用時空特征提取模塊(SFEM)從交通場景的視頻流中提取時空特征,獲取上下文信息。然后,將時空特征與需要預(yù)測的最后一幀圖像進(jìn)行特征拼接,采用注意特征編碼模塊(AFEM)從拼接后的特征中對駕駛?cè)俗⒁饬μ卣鬟M(jìn)行提取并編碼。為了提高AFEM提取的準(zhǔn)確度,本文設(shè)計了基于注意區(qū)域的引導(dǎo)學(xué)習(xí)(GLBOAR)模塊。該模塊利用標(biāo)注的駕駛?cè)俗⒁鈪^(qū)域數(shù)據(jù)作為約束,引導(dǎo)AFEM提取與駕駛?cè)俗⒁饬ψ钕嚓P(guān)的特征。最后利用注意力特征解碼器(AFDM)對注意力特征進(jìn)行解碼,估計駕駛?cè)俗⒁饬性诮煌▓鼍爸心男ο笊稀?/p>

1.2" 時空特征提取模塊

駕駛?cè)诵熊囀且粋€動態(tài)的過程,在該過程中駕駛?cè)艘曈X系統(tǒng)會受到連續(xù)變化的外界場景信息的刺激,然后由大腦對這些信息進(jìn)行粗處理,選擇出最重要的區(qū)域進(jìn)行注意及細(xì)處理。因此,駕駛?cè)俗⒁饬δP筒捎?0個交通場景連續(xù)幀的序列(≈0.41 s)作為輸入,這與人類駕駛員對意外刺激的反應(yīng)時間0.4 s幾乎相同。另外,視頻分析領(lǐng)域的研究結(jié)果表明:通過向深度網(wǎng)絡(luò)提供額外的輸入時間維度,可以超越處理單幀輸入的基線[15?16]。時間維度特征的提取通常由3D CNN[16]建模,專門用于捕獲小范圍相關(guān)性,或通過循環(huán)架構(gòu),如LSTM[17]、GRU[18]建立長期依賴關(guān)系。本文的SFEM基于可以捕獲小范圍相關(guān)性的3D CNN,從交通場景中獲取駕駛?cè)俗⒁饬Φ臅r空特征。

如圖1a)中的結(jié)構(gòu)所示,SFEM由3D CNN、3D MaxPool、UpSampling和2D CNN組成。其中:3D CNN對時空特征進(jìn)行編碼;UpSampling利用雙線性插值算法將獲取到的特征圖進(jìn)行4倍擴(kuò)充,使其恢復(fù)至原圖大?。?16×416);2D CNN的核心作用是對獲取到的特征通道進(jìn)行降維。在特征提取過程中,由于3D池會使時間軸丟失,為了保持邊界,所有卷積層前面都由零填充,3D卷積核的尺寸為3×3×3。所有激活函數(shù)均為ReLU,該模型輸出的駕駛?cè)俗⒁饬μ卣鲌D形狀為[S∈R416×416×1]。

1.3" 注意力特征編解碼模塊

為了從拼接后的交通場景特征中估計最后一幀交通場景圖像上駕駛?cè)岁P(guān)注的目標(biāo),本文基于現(xiàn)有的目標(biāo)檢測理論,設(shè)計了注意力特征編碼模塊(AFEM)和注意力特征解碼模塊(AFDM)。其中,AFEM被用來提取駕駛?cè)说淖⒁饬μ卣鲄^(qū)域,它采用的是CSPDarknet53網(wǎng)絡(luò)結(jié)構(gòu)[19]。該網(wǎng)絡(luò)模塊具有優(yōu)越的特征提取能力,特別是對于復(fù)雜的視覺場景和細(xì)節(jié)特征的提取能力優(yōu)異[20]。AFDM被用來對駕駛?cè)怂⒁鈱ο蟮男畔⑦M(jìn)行預(yù)測,包含類別信息和邊界框信息。AFDM的主體為FPN和PAN[21]結(jié)構(gòu),如圖1d)所示。其中的解耦頭,本研究采用具有較好解耦能力的Double?Head結(jié)構(gòu)來實現(xiàn)解耦操作[22]。該結(jié)構(gòu)可以更好地解耦不同的特征子空間,提高模型的特征表達(dá)能力。在去除檢測冗余框時,采用更加優(yōu)秀的soft NMS[23]來替代傳統(tǒng)的NMS,以減少模型對預(yù)測框的誤刪。模型分別從三個尺度進(jìn)行駕駛?cè)俗⒁饬烙嫞越档蛯D像坐標(biāo)系中對象尺寸的敏感度。AFDM的損失函數(shù)由邊界框損失、類別損失、置信度損失三部分疊加組成,各部分損失公式如下。

邊界框損失:

[Lreg=-logGIoUBgt,Bpred]" " " " " (1)

類別損失:

置信度損失:

1.4" 基于注意力特征模塊的引導(dǎo)學(xué)習(xí)

一些可解釋性研究[14]表明,DNN預(yù)測結(jié)果取決于提取的特征,這與人類行為一致。因此,基于DNN設(shè)計的駕駛?cè)俗⒁饬烙嬆P偷臏?zhǔn)確性依賴于AFEM提取的注意力特征。為了進(jìn)一步提高AFEM對注意力特征提取的準(zhǔn)確性,利用標(biāo)注的駕駛?cè)俗⒁鈪^(qū)域數(shù)據(jù)作為約束,引導(dǎo)AFEM提取與駕駛?cè)俗⒁饬ψ钕嚓P(guān)的特征,稱之為GLBOAR。GLBOAR結(jié)構(gòu)如圖1c)中所示,由4個基本模塊組成:上采樣、卷積、ReLU激活函數(shù)和Sigmoid激活函數(shù)。其中:上采樣被用來擴(kuò)大特征圖的大小;卷積被用來捕捉與駕駛?cè)俗⒁饬ψ钕嚓P(guān)的特征;ReLU激活函數(shù)被用來增強神經(jīng)網(wǎng)絡(luò)的非線性擬合能力;Sigmoid激活函數(shù)將注意力特征圖的輸出值限制為[0,1]。該方法的輸出是注意力特征圖,形狀為[S∈R416×416×1]。駕駛?cè)俗⒁饬μ卣鞯念A(yù)測與圖像語義分割問題類似,都是像素級的分類問題(判斷哪些像素區(qū)域是駕駛?cè)俗⒁獾奶卣鳎?。通過對駕駛?cè)藬?shù)據(jù)集統(tǒng)計分析,發(fā)現(xiàn)注意特征區(qū)域約占整幅交通場景圖像的8.6%。因此,背景類別和注意的前景類別存在嚴(yán)重的類別不平衡問題。而在圖像語義分割領(lǐng)域最常用的損失函數(shù)為Dice Loss[24],它對正負(fù)樣本不平衡的場景有著不錯的性能。Dice Loss計算公式如下:

式中:[yi]和[yi]分別是注釋和預(yù)測的注意力特征;[smooth]是注意力圖中的像素數(shù),在本文中取值為1,用于防止除以零和減少過擬合。雖然Dice Loss可以有效改善正負(fù)樣本不平衡狀況,但是它會對反向傳播造成不利的影響,容易使訓(xùn)練變得不穩(wěn)定;而交叉熵?fù)p失(Cross Entropy Loss)具有良好的穩(wěn)定性。交叉熵?fù)p失函數(shù)定義為:

[Lgl=LDice+Lce]" " " " " " "(6)

2" 實驗及結(jié)果

2.1" 實驗采集平臺

駕駛?cè)俗⒁饬烙嬆P褪腔赥ensorFlow GPU 1.15.0和Python 3.7搭建的,模型的訓(xùn)練和測試以及燒灼實驗都是在具有i9?10700 CPU和Nvidia RTX3090 GPU的Windows 10平臺上進(jìn)行的。模型訓(xùn)練和測試所使用的駕駛?cè)俗⒁饽繕?biāo)數(shù)據(jù)集是基于駕駛平臺完成的標(biāo)注。真實數(shù)據(jù)采集平臺及駕駛仿真平臺示意圖見圖2。

本文基于大眾奧萊品牌的高級轎車平臺搭建的實車駕駛數(shù)據(jù)采集平臺,搭載具有眼動追蹤功能的車載眼動儀及行車記錄儀,旨在獲取駕駛員行車過程中注視方向和相應(yīng)的真實前視圖像。在實驗中,行車記錄儀安裝在車輛前擋風(fēng)玻璃內(nèi)側(cè),拍攝方向是車輛前方,即駕駛?cè)诵熊囘^程中主要關(guān)注的區(qū)域。采集的交通場景數(shù)據(jù)類型豐富多樣,基本涵蓋常見的各種交通場景,道路類型包括城市道路、高速公路、鄉(xiāng)村道路、山路等,交通要素包括行人、自行車、摩托車、三輪車、小型轎車、卡車、交通信號燈、交通標(biāo)志牌等,路口類型包含丁字路口、十字交叉路口、直行道等,車輛行為包括直行、轉(zhuǎn)彎、變道等。在光照方面也涵蓋了正常光照(白天)和弱光(晚上、隧道)環(huán)境。利用駕駛仿真平臺對不同駕駛?cè)耸褂谜鎸崍鼍皵?shù)據(jù)進(jìn)行統(tǒng)計,得到駕駛?cè)俗⒁晫ο髷?shù)據(jù)集。

2.2" 數(shù)據(jù)集制作

本研究所用到的數(shù)據(jù)包含用于引導(dǎo)學(xué)習(xí)的駕駛?cè)俗⒁鈪^(qū)域掩碼數(shù)據(jù)(圖3d))和駕駛?cè)俗⒁饽繕?biāo)數(shù)據(jù)(圖3e))。其中,駕駛?cè)俗⒁饽繕?biāo)數(shù)據(jù)是由駕駛?cè)俗⒁朁c數(shù)據(jù)(圖3c))和交通場景上目標(biāo)標(biāo)注的位置信息(圖3b))對比后獲得。

數(shù)據(jù)部分樣本如下。

1) 實驗所用的交通場景視頻數(shù)據(jù)是在2022年6月14日—20日,利用行駛記錄儀在西安市采集的,共采集了12 h的駕駛數(shù)據(jù),包含稀疏、密集、弱光等多種交通場景。視頻的分辨率為1 270×560。最終將其裁剪為2 000段,每段為8~26 s(平均每個視頻的時間為24.3 s,標(biāo)準(zhǔn)差為3.3 s,大部分視頻是26 s)的短視頻序列。部分?jǐn)?shù)據(jù)樣本如圖3a)所示。

2) 圖3b)是本文對交通場景中行人目標(biāo)和車輛目標(biāo)進(jìn)行標(biāo)注后的圖像,這兩種目標(biāo)是駕駛?cè)诵熊嚂r最常關(guān)注的目標(biāo)。需要注意的是,此時對場景中所有行人和車輛進(jìn)行標(biāo)注,并未考慮駕駛?cè)俗⒁饬?,這不同于具有注意力的圖3d)。

3) 圖3c)是駕駛?cè)俗⒁朁c圖,注視點是在虛擬實驗平臺上進(jìn)行情景實驗所記錄的,參與情景實驗的駕駛?cè)斯?0名,其中男女比例為1∶2。為了保證實驗的準(zhǔn)確性,所有被試者擁有2年以上的駕駛經(jīng)驗。為了保證數(shù)據(jù)的可靠性,剔除了每個測試視頻的前20幀和后20幀的圖像信息和注視點信息。

4) 圖3d)是駕駛?cè)俗⒁鈪^(qū)域圖,該數(shù)據(jù)是通過對注視點數(shù)據(jù)進(jìn)行10次高斯模糊迭代獲得的。所使用的高斯濾波器尺寸為40像素。通過高斯模糊操作獲得注視點周圍的不規(guī)則區(qū)域,將其作為駕駛?cè)俗⒁鈪^(qū)域。

5) 本文通過對凝視圖像和目標(biāo)位置進(jìn)行對比,獲得駕駛?cè)四暤哪繕?biāo)圖像,如圖3e)所示。通過判斷注視點落入框內(nèi)的數(shù)量是否大于所設(shè)閾值來判斷。由于人眼注視目標(biāo)要得到視覺印象,最短的注視時間為0.07~0.3 s,因此注視點閾值(threshold)選取為5,對應(yīng)駕駛?cè)四暷繕?biāo)時間大約為0.083 s。

本文對數(shù)據(jù)集中的對象類別信息進(jìn)行了統(tǒng)計,結(jié)果如表1所示。平均在每幀圖像中有5.28輛汽車和0.59個行人(表示為“總計”),但僅有2.48輛汽車和0.38個行人吸引了駕駛?cè)说淖⒁猓ū硎緸椤熬劢埂保?。這是因為駕駛?cè)嗽谛熊囘^程中注意力主要聚焦在與駕駛安全密切相關(guān)的車輛和行人上。平均在每幀圖像中共有5.87個汽車和行人,大約48.72%(2.86個行人和車輛)在駕駛?cè)说淖⒁饨裹c范圍內(nèi)。

2.3" 評價指標(biāo)

在測試數(shù)據(jù)集和消融實驗中使用準(zhǔn)確率、精確率、召回率、F1值、平均精度均值(mAP)和FPS作為評估指標(biāo)。它們分別被定義如下:

式中:TP(真陽性)是正確預(yù)測陽性類別的樣本數(shù);FN(假陰性)是預(yù)測陽性類別為陰性的樣本數(shù);FP(假陽性)是預(yù)測陰性類別為陽性的樣本數(shù);TN(真陰性)是正確預(yù)測陰性類別的樣本數(shù)。

精確率是模型預(yù)測的真陽性樣本占總樣本的比例預(yù)測陽性樣本,召回率是模型正確預(yù)測的真陽性樣本占總真陽性樣本的比例,F(xiàn)PS用于評估模型的實時性能,即每秒幀數(shù)。在以下實驗中,F(xiàn)PS是通過將測試數(shù)據(jù)的總幀除以模型在測試數(shù)據(jù)上運行的時間來計算的。

另外,本文通過均方誤差、均方根誤差以及平均絕對誤差三項指標(biāo)來衡量模型估計的結(jié)果與人類駕駛?cè)烁兄ㄍㄟ^仿真平臺獲?。┑牟町愋?。

均方誤差:

均方根誤差:

平均絕對誤差:

2.4" 實驗結(jié)果與分析

在駕駛?cè)俗⒁饽繕?biāo)數(shù)據(jù)集上對模型進(jìn)行訓(xùn)練,建立起交通場景數(shù)據(jù)與駕駛?cè)俗⒁饽繕?biāo)之間的映射關(guān)系。在測試集上模型精度可達(dá)82.7%,表明模型很好地從數(shù)據(jù)集中學(xué)習(xí)了交通場景數(shù)據(jù)與駕駛?cè)俗⒁饬χg的關(guān)系。為了衡量本文提出的駕駛?cè)俗⒁饬烙嫹椒M人類駕駛時注意力的能力,通過不同駕駛?cè)嗽谔摂M測試數(shù)據(jù)采集平臺實驗測試的方式獲得駕駛?cè)嗽谛熊囘^程中主要關(guān)注的對象。測試場景中包含了多個類型豐富的交通場景圖像,其中稀疏(Sparse)、稠密(Dense)和弱光(Lowlight)交通環(huán)境各為10個,道路類型包含丁字路口、十字交叉路口、直行道等。道路上的對象包括小型轎車、中型卡車、行人等。通過仿真實驗測取志愿者模擬駕駛視頻中注意對象,并通過式(16)統(tǒng)計每個目標(biāo)被駕駛?cè)嗽谠搱鼍跋滦熊嚂r關(guān)注的概率[p]。

[pi,j=Ni,jM]" " " " " " " " "(16)

式中:[Ni,j]為第[i]張圖像的第[j]個目標(biāo)被標(biāo)記的次數(shù);[M]是參與模擬駕駛?cè)俗⒁鈪^(qū)域數(shù)據(jù)獲取的有效人數(shù)。

模型測試結(jié)果及模擬駕駛?cè)藴y試結(jié)果如圖4所示。分別使用均方誤差、均方根誤差和平均絕對誤差三種不同的指標(biāo),來衡量本文模型估計結(jié)果與駕駛?cè)烁兄牟町?,結(jié)果如表2所示。

從表2結(jié)果來看,駕駛?cè)俗⒁饬烙嬆P蛯ο∈?、稠密、弱光交通環(huán)境下的駕駛?cè)俗⒁饬Χ颊故境隽藴?zhǔn)確的估計效果。其中稀疏場景誤差值最小,效果最好,原因是交通場景中干擾駕駛?cè)俗⒁饬Φ膶ο髷?shù)量較少。

2.5" 消融實驗

駕駛?cè)俗⒁饽P偷膬?yōu)異性能可歸因于時空特征的融入和駕駛?cè)俗⒁鈪^(qū)域引導(dǎo)學(xué)習(xí)的結(jié)合。為了分析駕駛?cè)俗⒁饽P椭胁煌K對駕駛?cè)俗⒁饬烙嬋蝿?wù)的貢獻(xiàn)程度,進(jìn)行了消融實驗。通過禁用SFEM和GLBOAR模塊得到?jīng)]有時空特征提取的基線模型(Our?w/o?SFEM)和沒有引導(dǎo)學(xué)習(xí)的基線模型(Our?w/o?GLBOAR)。然后使用實驗數(shù)據(jù)訓(xùn)練這兩種基線并在測試數(shù)據(jù)集上進(jìn)行性能測試,結(jié)果如表3所示。SFEM、GLBOAR對模型的貢獻(xiàn)分別為1.59%、1.03%。該結(jié)果表明這些改進(jìn)促進(jìn)了參數(shù)優(yōu)化,并產(chǎn)生了更準(zhǔn)確的訓(xùn)練模型。具體來說,SFEM通過將提取到的時空特征信息增加到模型輸入中,來提高模型在最后一幀上對駕駛?cè)俗⒁饬烙嫷臏?zhǔn)確性;GLBOAR通過引導(dǎo)主干網(wǎng)絡(luò)提取與駕駛?cè)俗⒁饬ψ钕嚓P(guān)的特征來提高模型預(yù)測的準(zhǔn)確性。

實驗結(jié)果同時也表明本文設(shè)計的SFEM和GLBOAR提高了模型對駕駛?cè)俗⒁饬烙嫷臏?zhǔn)確性。

3" 結(jié)" 論

本文基于視頻圖像驅(qū)動,提出了一種駕駛?cè)俗⒁饬烙嫹椒?。該方法利用深度神?jīng)網(wǎng)絡(luò)強大的非線性擬合能力,從駕駛?cè)俗⒁饽繕?biāo)數(shù)據(jù)集中學(xué)習(xí)駕駛?cè)诵熊嚂r的注意行為并進(jìn)行模擬。基于3D CNN理論設(shè)計了提取交通場景的時空特征信息的SFEM。另外,提出一種基于注意力特征的引導(dǎo)學(xué)習(xí)方法,用來提取描述駕駛?cè)俗羁赡茏⒁獾奶卣鳌0? 000個樣本的駕駛?cè)俗⒁饽繕?biāo)數(shù)據(jù)集是基于虛擬駕駛實驗平臺進(jìn)行標(biāo)記的。在該數(shù)據(jù)集上對模型進(jìn)行訓(xùn)練,并在稀疏、密集、弱光這三種常見交通場景下與視頻數(shù)據(jù)結(jié)合仿真平臺中獲取的真實駕駛?cè)烁兄Y(jié)果進(jìn)行了對比,評估了模型的泛化性以及模型模擬駕駛?cè)俗⒁饬Φ哪芰?。最后,還對模型進(jìn)行了消融實驗研究。實驗結(jié)果表明,所設(shè)計模型可以有效地模擬駕駛?cè)说淖⒁鈪^(qū)域。

參考文獻(xiàn)

[1] MA Y L, QI S M, ZHANG Y P, et al. Drivers’ visual attention characteristics under different cognitive workloads: An on?road driving behavior study [J]. International journal of environmental research and public health, 2020, 17(15): 5366.

[2] 張瑞,朱天軍,鄒志亮,等.駕駛員疲勞駕駛檢測方法研究綜述[J].計算機工程與應(yīng)用,2022,58(21):53?66.

[3] GAO Z K, WANG X M, YANG Y X, et al. EEG?based spatio?temporal convolutional neural network for driver fatigue evaluation [J]. IEEE transactions on neural networks and learning systems, 2019, 30(9): 2755?2763.

[4] SIKANDER G, ANWAR S. Driver fatigue detection systems: a review [J]. IEEE transactions on intelligent transportation systems, 2018, 20(6): 2339?2352.

[5] SUN J, LU S. An improved single shot multibox for video?rate head pose prediction [J]. IEEE sensors journal, 2020(20): 12326?12333.

[6] KASHEVNIK A, LASHKOV I, GURTOV A. Methodology and mobile application for driver behavior analysis and accident prevention [J]. IEEE transactions on intelligent transportation systems, 2019, 21(6): 2427?2436.

[7] FRIDMAN L, LANGHANS P, LEE J, et al. Driver gaze region estimation without using eye movement [EB/OL]. [2023?11?09]. https://arxiv.org/abs/1507.04760v1.

[8] CHOI I H, HONG S K, KIM Y G. Real?time categorization of driver's gaze zone using the deep learning techniques [C]// 2016 International Conference on Big Data and Smart Computing (BigComp). [S.l.]: IEEE, 2016: 143?148.

[9] LUNDGREN M, HAMMARSTRAND L, MCKELVEY T. Driver?gaze zone estimation using Bayesian filtering and Gaussian processes [J]. IEEE transactions on intelligent transportation systems, 2016, 17(10): 2739?2750.

[10] PALAZZI A, ABATI D, SOLERA F, et al. Predicting the driver's focus of attention: the DR (eye) VE project [J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(7): 1720?1733.

[11] ZHANG J, BARGAL S A, LIN Z, et al. Top?down neural attention by excitation backprop [J]. International journal of computer vision, 2018, 126(10): 1084?1102.

[12] HAN G, ZHAO S, WANG P, et al. Driver attention area extraction method based on deep network feature visualization [J]. Applied sciences, 2020, 10(16): 5474.

[13] ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 2921?2929.

[14] ZHANG Y, TI?O P, LEONARDIS A, et al. A survey on neural network interpretability [J]. IEEE transactions on emerging topics in computational intelligence, 2021, 5(5): 726?742.

[15] KARPATHY A, TODERICI G, SHETTY S, et al. Large?scale video classification with convolutional neural networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 1725?1732.

[16] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 4489?4497.

[17] HOCHREITER S, SCHMIDHUBER J. Long short?term memory [J]. Neural computation, 1997, 9(8): 1735?1780.

[18] CHUNG J, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [EB/OL]. [2022?12?20]. https://www.xueshufan.com/publication/1924770834.

[19] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle, WA, USA: IEEE, 2020: 390?391.

[20] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOV4: optimal speed and accuracy of object detection [EB/OL]. [2023?08?16]. https://www.xueshufan.com/publication/3018757597.

[21] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 2117?2125.

[22] GE Z, LIU S T, WANG F, et al. YOLOX: exceeding YOLO series in 2021 [EB/OL]. [2023?09?16]. https://arxiv.org/abs/2107.08430.

[23] BODLA N, SINGH B, CHELLAPPA R, et al. Soft?NMS?improving object detection with one line of code [C]// Proceedings of the IEEE International Conference on Computer Vision. Sydney, Australia: ACM, 2017: 5561?5569.

[24] MILLETARI F, NAVAB N, AHMADI S A. V?NET: fully convolutional neural networks for volumetric medical image segmentation [C]// 2016 Fourth International Conference on 3D Vision (3DV). Stanford, CA, USA: IEEE, 2016: 565?571.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究

讷河市| 洛南县| 福海县| 阜阳市| 淮南市| 诸暨市| 新巴尔虎右旗| 安义县| 手游| 延长县| 荔浦县| 慈溪市| 汉中市| 逊克县| 梁山县| 延长县| 科尔| 北京市| 甘孜| 天津市| 长寿区| 武乡县| 额济纳旗| 金山区| 东港市| 嘉义市| 四川省| 咸宁市| 潜江市| 南和县| 石首市| 峨边| 桂东县| 清原| 奉贤区| 巧家县| 冀州市| 桐柏县| 成都市| 嵩明县| 扎囊县|