李少凡,高尚兵,張瑩瑩
1.淮陰工學(xué)院計算機與軟件工程學(xué)院,淮安 223001;2.江蘇省物聯(lián)網(wǎng)移動互聯(lián)技術(shù)工程實驗室,淮安 223001
分心駕駛是交通事故的主要原因,約有80%的交通事故都是由駕駛員分心造成的(Tian等,2013),因此對其進行針對性的分析對預(yù)防交通事故尤為重要。
基于靜態(tài)圖像和視頻的動作識別一直是計算機視覺的經(jīng)典問題,吸引了眾多學(xué)者對其開展研究。然而由于車內(nèi)狹小的環(huán)境和駕駛員分心時體態(tài)變化過于微小的問題,這些方法(Simonyan 和Zisserman,2014;Donahue 等,2015;Tran 等,2015)并不適用于駕駛員分心行為識別,另外構(gòu)建通用的行為識別算法還具有很大難度。
分心駕駛檢測就檢測手段可分為以下3 類:基于生理數(shù)據(jù)的檢測方法、基于車輛行駛狀態(tài)的檢測方法和基于計算機視覺的檢測方法?;谏頂?shù)據(jù)的檢測需要駕駛員佩戴特殊的生理設(shè)備,對駕駛員有入侵且成本高。利用車輛行駛時的參數(shù)(車速、方向盤轉(zhuǎn)角和油門等)對駕駛員進行分心檢測,這種方式由于個人駕駛習(xí)慣的差異,準(zhǔn)確率難以保證。相較于前面兩種方式,基于計算機視覺的方法僅需要一個攝像頭就能對駕駛員行為進行檢測,這種方法成本低、準(zhǔn)確率高且對駕駛員無入侵。
El Khatib 等人(2020)將對駕駛員視覺分心進行檢測的指標(biāo)分為以下幾個種類:駕駛員看向路中心的時間和頻率(percent road center,PRC)、眨眼的頻率、視線偏移的時間和駕駛員的頭部姿態(tài)角度。
Li等人(2021)利用dlib檢測出人臉的68個關(guān)鍵點后,通過計算人眼閉合的頻率來判定駕駛員是否處于疲勞狀態(tài)。Singh 等人(2021)利用深度神經(jīng)網(wǎng)絡(luò)對駕駛員頭部進行姿態(tài)估計來預(yù)測駕駛員的注意力時長。潘劍凱等人(2021)建立駕駛員眼部的自商圖與梯度圖共生矩陣模型用以判定人眼的開閉狀態(tài),提升了面部遮擋情況下的疲勞駕駛檢測準(zhǔn)確率。LRD等人(2022)提出了一種基于視覺表觀的視線估計MAGE-Net(more appearance gaze estimation network)來對駕駛員進行分心檢測,MAGE-Net 僅用少量的參數(shù)就在MPIIGaze(max planck institut informatik gaze)數(shù)據(jù)集上取得了最好的性能。
目前基于計算機視覺圖像分類對駕駛員進行分心行為識別的方法主要分為基于傳統(tǒng)手工特征的方法和基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法。
1)在之前的研究中,傳統(tǒng)手工特征通過許多方法對分心駕駛進行檢測,Guo 和Lai(2014)利用顏色和形狀信息對駕駛行為進行檢測。Yan 等人(2014)聯(lián)合運動歷史圖和金字塔式梯度方向直方圖進行駕駛員的行為識別。Sharma 等人(2012)在多個尺度上進行密集的尺度不變特征變換(scale-invariant feature transform,SIFT)進行特征采樣,模擬每個圖像局域?qū)τ诜诸惖呢暙I,然后采用支持向量機(support vector Machine,SVM)對帶有權(quán)重的熱力圖進行分類。
2)深度卷積神經(jīng)網(wǎng)絡(luò)在各個領(lǐng)域均取得了巨大的成功,其中也包括駕駛員分心行為識別。Koesdwiady等人(2017)利 用VGGNet(Visual Geometry Group network)對駕駛員進行分心檢測。蔡創(chuàng)新等人(2020)建立了一個安全可靠的距離模型來對可能發(fā)生的交通事故進行預(yù)警。汪長春等人(2022)提出一種輕量化的目標(biāo)檢測網(wǎng)絡(luò)來對前方車輛進行精準(zhǔn)的檢測跟蹤,根據(jù)自車和前車輛距離來對司機進行相應(yīng)提示。Hu 等人(2019)則對神經(jīng)網(wǎng)絡(luò)進行遷移學(xué)習(xí)來改善分心駕駛行為識別的效果。Li 等人(2022)提出了一種結(jié)合Depth-wise 卷積和Point-wise卷積的輕量化網(wǎng)絡(luò)OLCMNet(octave-like convolution mixed network)對駕駛員行為進行識別,在嵌入式設(shè)備Nvidia-TX2 上實現(xiàn)了實時檢測。Tran 等人(2020)提出了一種基于雙攝像頭的駕駛員行為檢測系統(tǒng),使用來自雙攝像頭的數(shù)據(jù)進行融合效果要優(yōu)于單攝像頭數(shù)據(jù)輸入的結(jié)果。Wu 等人(2021)利用人體姿態(tài)估計獲取手部特征并與人體骨架數(shù)據(jù)進行多特征融合來對駕駛員進行行為識別。Abouelnaga 等人(2018)通過生成大量滑動窗口結(jié)合神經(jīng)網(wǎng)絡(luò)對手部和臉部進行檢測,并將相應(yīng)的臉部和手部圖像送入神經(jīng)網(wǎng)絡(luò)中對駕駛行為進行識別。Eraqi 等人(2019)利用多元高斯樸素貝葉斯分類器對人體膚色進行分割并聯(lián)合滑動窗口檢測的手部區(qū)域特征組合成一個多融合的神經(jīng)網(wǎng)絡(luò)對分心行為進行識別。莊員和戚湧(2021)提出一種基于偽3D 卷積神經(jīng)網(wǎng)絡(luò)與注意力機制的駕駛疲勞檢測方法,通過提升重要特征相關(guān)度,實現(xiàn)了復(fù)雜環(huán)境下的駕駛員疲勞檢測。Behera 和Keidel(2018)利用姿態(tài)估計推理得到的身體部位置信圖和部位向量場,并將這兩部分特征直接拼接到DenseNet 的主干網(wǎng)絡(luò)Conv3 層特征之后,利用拼接后特征對行為進行分類。
然而,以上方法大都集中利用圖像層級的特征對駕駛員行為進行識別,環(huán)境噪聲和視角多變的問題依然沒有得到很好的解決。人體骨架數(shù)據(jù)廣泛地運用于動作識別中,與傳統(tǒng)的RGB 圖像相比,人體骨架數(shù)據(jù)在面對復(fù)雜環(huán)境中的視角不一、光照變化和人體特征變化等問題有著較強的魯棒性。駕駛員的手部相關(guān)區(qū)域?qū)︸{駛員分心行為識別有著較強的語義線索作用,能為當(dāng)前行為識別任務(wù)提供更加細(xì)粒度的表征。如玩手機和喝水時,左右手區(qū)域的視覺特征和空間位置存在顯著差異,在駕駛員行為識別屬于辨識性的特征,因此對這種辨識性的特征進行針對性的分析是有必要的,而人體骨架恰好可以幫助進行更加準(zhǔn)確的手部區(qū)域定位。以往的駕駛員行為識別也有通過目標(biāo)檢測或人體姿態(tài)算法對駕駛員身體部分進行解析(Wu 等,2021;Abouelnaga 等,2018;Eraqi 等,2019;Behera 和Keidel,2018)。Abo等人(2018)、Behera 和Keidel(2018)利用傳統(tǒng)檢測器檢測身體部位,但是容易受到復(fù)雜場景干擾。Wu等人(2021)、Behera 和Keidel(2018)雖然利用人體姿態(tài)估計獲取人體信息,但存在兩點不足:其一,都是進行單一的特征提取,缺少對實例級別上下文特征的挖掘;其二,沒有研究空間位置對駕駛員行為識別的線索作用。
因此,從實例級別特征出發(fā),本文提出了一種姿態(tài)引導(dǎo)的實例感知學(xué)習(xí)網(wǎng)絡(luò)進行行為識別,如圖1所示。結(jié)合目標(biāo)檢測和人體姿態(tài)估計,去獲取人體的多種實例信息,其中藍(lán)色框代表全局信息、黃色框代表人體信息、綠色框代表手部信息、紅色框代表手部空間信息。獲取到手部相關(guān)特征和人體相關(guān)特征并構(gòu)建相應(yīng)的感知學(xué)習(xí)模塊,同時利用提取到的左右手空間位置信息對駕駛員動作進行識別。
圖1 實例特征的檢測及推理Fig 1 Instance feature detection and inference
本文主要貢獻為:1)利用人體骨架數(shù)據(jù)在不同環(huán)境下的強魯棒性去引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)關(guān)鍵特征。2)設(shè)計實例感知模塊充分獲取上下文語義信息。3)利用手部相關(guān)特征構(gòu)建雙通道交互模塊來對關(guān)鍵空間信息進行表征,首次探索空間位置信息對駕駛員行為識別的線索作用。
人體關(guān)鍵部位信息在駕駛員識別中扮演著重要角色,對人體和手部信息的準(zhǔn)確定位顯得至關(guān)重要。YOLO(you only look once)(Redmon 等,2016)是一種高效的單階段目標(biāo)檢測算法。通過對目標(biāo)直接進行分類和回歸大幅提升了檢測速度,在工業(yè)界應(yīng)用廣泛。HRNet(high-resolution network)(Sun 等,2019)是一種高分辨率人體姿態(tài)估計網(wǎng)絡(luò)。和以往的姿態(tài)估計網(wǎng)絡(luò)的串行結(jié)構(gòu)不同,HRNet為并連結(jié)構(gòu),通過并行連接高分辨率到低分辨率特征圖,可以一直保持高分辨率,并通過重復(fù)跨并行卷積執(zhí)行多尺度融合來增強高分辨特征信息。HRNet是現(xiàn)階段人體姿態(tài)估計領(lǐng)域的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)之一,兼顧了參數(shù)量和準(zhǔn)確度。本文采用YOLOv5 對人體進行檢測,然后采用HRNet進行姿態(tài)估計,獲得駕駛員人體關(guān)鍵點。如圖2 所示,通過檢測到的人體框和關(guān)鍵點信息獲得人體信息和手部信息,全局信息為整幅圖像,人體信息為黃色框,手部信息為綠色框。利用人體信息和整幅圖像的全局信息構(gòu)建人體感知流,利用手部和人體區(qū)域組成手部感知流,將手部相關(guān)特征構(gòu)建雙通道交互模塊組成空間流。以此組建成一個多分支的深度神經(jīng)網(wǎng)絡(luò),使用全連接層得到各個類別的置信度得分后,再將不同分支的置信度得分進行融合得到最終的結(jié)果。
圖2 姿態(tài)引導(dǎo)的實例感知學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Overall model architecture of the pose-guided instance-aware neural network
為了獲取不同實例特征間的依賴關(guān)系,提出了一種實例感知學(xué)習(xí)模塊用來捕捉上下文語義信息。圖3 為本文提出的實例感知模塊結(jié)構(gòu)中的手部感知流示例。以手部感知流為例,其中黃色檢測框xh代表實例特征人的區(qū)域,綠色檢測框xl,xr分別代表左右手的區(qū)域。
圖3 實例感知模塊Fig.3 Structure of the instance aware block
1)實例特征的提取。利用YOLOv5 對人體區(qū)域進行檢測,并保留最大占比人體框xh作為駕駛員人體框。手部區(qū)域的特征能夠為駕駛行為識別提供更加細(xì)粒度且更具辨識度的表征,然而手部區(qū)域的定位和獲取卻比較困難。為了解決這個問題,利用檢測出的人體關(guān)節(jié)點獲取手部區(qū)域。
手部區(qū)域的長寬Wh×Hh設(shè)定為人體關(guān)節(jié)點手腕至手肘的長度的1∕3。
式中,Cw和Cb代表手肘和手腕的坐標(biāo),Len為長度計算函數(shù)。得到人體和手部的實例特征的區(qū)域之后,利用區(qū)域坐標(biāo)所勾勒出的感興趣區(qū)域(region of interest,ROI)對實例特征區(qū)域進行池化操作獲取視覺特征。具體運算是在ROI 后加入一個殘差塊(residual block,Res),之后進行全局平均池化(global average pooling,GAP)得到視覺特征向量??紤]到左右手對某些特定的動作存在的聯(lián)合線索作用,對獲取到的左右手特征圖進行拼接得到手部特征。具體為
式中,F(xiàn)為圖像經(jīng)過主干網(wǎng)絡(luò)ResNet50(residual neural network 50)的特征圖,Res{}代表殘差塊,GAP為全局平均池化,⊕為特征值向量之間的拼接運算,Xl和Xr為左右手的視覺特征。Fin為實例對象特征,當(dāng)特征分支為手部感知流時,即in 為ha 時,F(xiàn)in為手部特征,當(dāng)特征分支為人體感知流時,即in為hu時,F(xiàn)in為人體特征。通過ROI+Residual+GAP 這個模塊,有效避免梯度消失和爆炸的同時,又獲取了比原先更加豐富的特征,得到了對行為識別更為關(guān)鍵的實例級別對象特征。對于部分手部無法檢測的極端情況,將手部特征的所有通道值都設(shè)為0,這種不可見的手部特征對于像去后面拿東西這種行為能提供重要線索。
2)實例特征上下文感知學(xué)習(xí)。實例特征的上下文信息在行為識別中扮演著重要角色,周圍的背景能夠?qū)︸{駛員的行為檢測起到一定的促進作用。為了能夠讓次級的實例特征對周圍信息進行感知,這里通過對xh檢測框的區(qū)域進行特征提取獲得周圍上下文信息Xh。為獲得感知系數(shù)矩陣,將Fin和Xh都映射到相同維度的空間,通過向量點乘的方式計算特征間的自相關(guān)性,然后通過softmax 層獲取相關(guān)度系數(shù)矩陣。具體為
式中,Xh為當(dāng)前實例特征的上下文信息,W{}代表映射矩陣,Conv1×1代表卷積核大小為1 × 1 的卷積,⊙代表哈達(dá)瑪積運算。將相關(guān)系數(shù)矩陣對應(yīng)乘回上下文特征矩陣Xh,得到融合了實例特征語義信息的全局特征。具體為
式中,F(xiàn)ct為實例特征的全局特征,σ為sigmoid 激活函數(shù),PHa當(dāng)前手部感知流分支得分,PHu為當(dāng)前人體感知流分支得分。
這個分支用來學(xué)習(xí)雙手之間的空間特征,主要任務(wù)是利用雙手的空間特征來輔助模型對駕駛員行為進行識別,并利用空間特征對視覺特征進行優(yōu)化。
雙手的空間特征為駕駛員行為分析提供了重要的線索,如正常駕駛和其他異常駕駛?cè)缤媸謾C、抽煙等行為,雙手的位置有顯著差異。以往的駕駛行為分析缺少研究空間位置對駕駛行為識別的線索作用,Chao 等人(2018)提出了一種雙通道特征模塊對人物的交互任務(wù)進行識別。本文將其構(gòu)建思想引入到駕駛員行為識別任務(wù)中,作為空間特征構(gòu)建部分。
1)空間注意力窗口定位。如圖4 所示,通過姿態(tài)關(guān)節(jié)點得到兩個xl,xr手部區(qū)域框之后,將兩個區(qū)域包含的最小區(qū)域作為一個注意力窗口,并將注意力窗口以外的像素移除。
圖4 空間特征構(gòu)建圖Fig.4 Structure of the spatial feature block
2)雙通道空間特征圖構(gòu)建。為了能讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到空間相關(guān)位置信息,將兩個手部區(qū)域框轉(zhuǎn)換成一個雙通道的二值圖像。其中第1 個通道除了左手部區(qū)域的值是0 之外,其他區(qū)域的值全是1,而第2個通道除了右手區(qū)域的值是1之外,其他區(qū)域的值全是0,將二值圖重塑為64 × 64 像素并進行相應(yīng)的補零操作,以此生成一個能夠輸入到深度神經(jīng)網(wǎng)絡(luò)中的雙通道的二值空間配置圖Bh,之后將Bh送入深度神經(jīng)網(wǎng)絡(luò)中獲得空間特征,具體為
式中,αh為空間特征向量,代表兩只手的空間配置信息。二值空間配置圖Bh將兩只手的區(qū)域定義在不同通道,因此可利用深度神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)兩只手的空間關(guān)系。
3)視覺特征優(yōu)化。αh在輔助進行預(yù)測的同時,利用空間特征對視覺特征進行優(yōu)化。
以上將本文網(wǎng)絡(luò)模型結(jié)構(gòu)的兩種分支類型的輸出做出了闡述,分別是實例感知模塊和雙通道交互模塊。最后將3 個分支的輸出結(jié)合相加得出模型的預(yù)測結(jié)果。
式中,P則為模型最后的預(yù)測結(jié)果,長度為目標(biāo)分類數(shù)。
為了能夠全面高效地學(xué)習(xí)實例級別的特征,本文構(gòu)建了3 個分支的神經(jīng)網(wǎng)絡(luò),包含人體分支、手部分支和空間分支。3 個分支均采用交叉熵?fù)p失函數(shù)進行損失計算。具體為
式中,LCe代表交叉熵?fù)p失函數(shù),PHu,PHa和PSp分別為人體分支,手部分支和空間分支最后一層輸出的概率分布,c為圖像的真實標(biāo)簽值,LHa,LHu和LSp則代表各個分支的損失值??偟膿p失函數(shù)定義為
式中,LTo為3個分支損失的總和,在網(wǎng)絡(luò)模型反向傳播時一起對網(wǎng)絡(luò)進行性能優(yōu)化,最終收斂的模型充分考慮了實例對象的視覺和空間特征。
2.1.1 三客一危分心駕駛數(shù)據(jù)集
本文建立了一個三客一危分心駕駛數(shù)據(jù)集(three passengers and one dangerous chemical vehicle distracted driver dataset,TOV)。三客一危指的是客運車、校車、旅游車和危化品運輸車這類大型車,這類車輛駕駛艙結(jié)構(gòu)和小型車有明顯差異,發(fā)生交通事故的后果相對比較嚴(yán)重。因此,對這類車型環(huán)境中的駕駛員分心行為進行針對性的分析是有必要的。數(shù)據(jù)來自交通監(jiān)管平臺所提供的車內(nèi)監(jiān)控視頻數(shù)據(jù),共780 段視頻,634 GB,每段視頻分辨率為1 280 × 720 像素,幀率為15 幀∕s。圖5 為數(shù)據(jù)集中5 個動作里的一些樣例圖,分別是安全駕駛、左顧右盼、打電話、使用手機和抽煙。如圖5 所示,車內(nèi)的環(huán)境相對復(fù)雜多變,視頻監(jiān)控的攝像頭安裝的位置并不是固定的,而是安裝在駕駛員不同的角度,這種多視角有效提升了數(shù)據(jù)的豐富程度,但同時也給檢測帶來挑戰(zhàn)。首先人工將長監(jiān)控視頻中的帶有分心行為的短視頻剪切出來,然后將短分心行為視頻截取成一幀幀的圖像,選取其中有代表性的幀作為數(shù)據(jù)集。
圖5 三客一危分心駕駛數(shù)據(jù)集樣例圖Fig.5 Examples of three passengers and one dangerous chemical vehicle distracted driver dataset((a)C0 safe driving;(b)C1 looking around;(c)C2 talking on the phone;(d)C3 playing the phone;(e)C4 smoking)
三客一危分心駕駛數(shù)據(jù)集總共包括31 694幅圖像。其中26 095 幅作為訓(xùn)練集,8 699 幅作為測試集。表1為數(shù)據(jù)集的具體描述。
表1 三客一危駕駛數(shù)據(jù)集Table 1 Details of three passengers and one dangerous chemical vehicle distracted driver dataset
2.1.2 AUC分心駕駛數(shù)據(jù)集
Eraqi 等人(2019)發(fā)布了AUC 數(shù)據(jù)集。數(shù)據(jù)集由10個不同國家的志愿者完成,將AUC視頻數(shù)據(jù)集隨機分割為3∶1 比例的訓(xùn)練測試數(shù)據(jù)集。圖6 是AUC 數(shù)據(jù)集10 個動作的樣例圖,分別為C0 安全駕駛、C1右手打字、C2右手打電話、C3左手打字、C4左手打電話、C5 調(diào)試收音機、C6 喝水、C7 拿東西、C8化妝和弄頭發(fā)、C9 與乘客說話。數(shù)據(jù)集總共有圖像17 308幅,其中12 977 幅用于訓(xùn)練,4 331 幅用于測試。
圖6 AUC分心駕駛數(shù)據(jù)集樣例圖Fig.6 Examples of AUC distracted driver dataset((a)C0 safe driving;(b)C1 text right;(c)C2 talk right;(d)C3 text left;(e)C4 talk right;(f)C5 adjust radio;(g)C6 drink;(h)C7 reaching behind;(i)C8 hair and makeup;(j)C9 talk to passengers)
采用了ResNet 50(He等,2016)作為主干特征提取網(wǎng)絡(luò),ResNet 網(wǎng)絡(luò)采用在ImageNet(a large-scale hierarchical image database)(Deng 等,2009)數(shù)據(jù)集上訓(xùn)練過的權(quán)重作為預(yù)訓(xùn)練模型,模型輸入的尺寸縮放到224 × 224 像素。網(wǎng)絡(luò)訓(xùn)練采用交叉熵?fù)p失函數(shù)對網(wǎng)絡(luò)模型的權(quán)重進行更新,損失函數(shù)的輸入為各個分支的預(yù)測值和當(dāng)前樣本的標(biāo)簽值。初始化學(xué)習(xí)率初始設(shè)為1E-2,算法訓(xùn)練的批次大小為64,采用momentum 進行優(yōu)化,同時將學(xué)習(xí)率衰減權(quán)重設(shè)置為0.000 5,訓(xùn)練的批次為50 個epoch。實驗在Python3.8 和PyTorch1.8 的深度學(xué)習(xí)框架上進行,使用的操作系統(tǒng)為Centos8.0,GPU 是一塊顯存為16 GB的英偉達(dá)Tesla V100。
采用準(zhǔn)確率(accuracy)、召回率(recall)和混淆矩陣等指標(biāo)對分類性能進行評價。將本文方法在三客一危駕駛數(shù)據(jù)集的測試集上和一些常見的網(wǎng)絡(luò)模型和方法進行比較,同時在公開數(shù)據(jù)集AUC 上和其他方法進行了比較。表2為本文方法和ResNet50在三客一危數(shù)據(jù)集上的結(jié)果,可以看出本文方法在各類別上的召回率和總體準(zhǔn)確率最高,其中整體準(zhǔn)確率高出ResNet50 網(wǎng)絡(luò)模型7.5%,各個類別的召回率均得到提升,C0 正常駕駛和C4 抽煙的召回率分別提高了13%和15%。正常駕駛時兩只手的位置很靠近,并且手握方向盤手勢相似且相關(guān)區(qū)域背景都是方向盤,本文方法能夠有效學(xué)習(xí)到兩只手的相對空間位置和視覺特征,因而召回率得到了提升。在抽煙場景中煙屬于很小的物體,在神經(jīng)網(wǎng)絡(luò)中非常容易被忽略掉,但本文方法利用姿態(tài)去引導(dǎo)網(wǎng)絡(luò)注重學(xué)習(xí)這部分特征,并對吸煙時顯著的雙手區(qū)域的空間特征進行學(xué)習(xí),有效提升了這方面的召回率。由結(jié)果可以看出本文方法在各類別上的召回率和準(zhǔn)確率均表現(xiàn)優(yōu)異。
表3 為本文方法和其他模型的參數(shù)量和計算量的比較,可以發(fā)現(xiàn),本文方法雖相較于ResNet50網(wǎng)絡(luò)模型參數(shù)量和計算量有所增加,但是各類的準(zhǔn)確率提升明顯。相較于DenseNet(densely connected con-volutional networks)和Fusion方法具有顯著的優(yōu)勢。
為了進一步驗證本文方法的有效性,在公開數(shù)據(jù)集AUC 上進行了性能測試,與I3D-two stream(Moslemi 等,2019)、Fusion(Alotaibi 和Alotaibi,2020)、AlexNet+HOGfeatures(Arefin 等,2019)、DenseNet+LatentPose(Behera 和Keidel,2018)、GAWeighted Ensemble(Abouelnaga 等,2018)和OWIPA(Koay 等,2021)算法進行了比較。實驗結(jié)果如表4所示,本文方法取得了96.17%的準(zhǔn)確率,算法的準(zhǔn)確率優(yōu)于其他方法。
圖7 和圖8 分別為本文方法在AUC 數(shù)據(jù)集和自建三客一危數(shù)據(jù)集上的測試混淆矩陣,其中,行代表真實類別,列代表預(yù)測的類別。矩陣每個方格中的數(shù)值分別代表預(yù)測類別的樣本數(shù)量和所占比重。
圖7 AUC數(shù)據(jù)集測試混淆矩陣Fig.7 Confusion matrix of AUC driver dataset
圖8 三客一危駕駛數(shù)據(jù)集混淆矩陣Fig.8 Confusion matrix of three passengers and one dangerous chemical vehicle distracted driver dataset
混淆矩陣中,對角線上的數(shù)值即為預(yù)測正確的結(jié)果,而其他數(shù)值則為預(yù)測錯誤的結(jié)果。在AUC 數(shù)據(jù)集中,計算得知,本文方法整體的準(zhǔn)確率和召回率均為96.17%,然而,圖7 中C7 類別代表的去后面拿東西行為的召回率僅有93.69%,這是由于當(dāng)駕駛員拿到東西的時候,一只手離開畫面,導(dǎo)致模型無法定位到那只離開畫面的手,因次也就無法獲取手部的空間特征和視覺特征,從而無法捕捉手部之間的微小差異。C9 類別所代表的和乘客說話行為的召回率僅為95.33%,有23 個樣本被錯誤預(yù)測為安全駕駛。這是因為C9 駕駛員和乘客說話行為與C0 正常駕駛行為時兩者手部差異不明顯,模型會產(chǎn)生部分誤判。在三客一危駕駛數(shù)據(jù)集上,整體準(zhǔn)確率為96.97%,然而C1 類別所代表的左顧右盼行為較低,僅為89.91%,其中8.3%的樣本75 幅圖像被誤判為C0 類別正常駕駛行為,有2.6%的樣本67 幅正常駕駛行為被錯誤預(yù)測為左顧右盼行為,這是由于左顧右盼這種狀態(tài)下駕駛員的體態(tài)變化比較微小,多數(shù)通過臉部變化才能區(qū)分,易與正常駕駛混淆,因此模型難以區(qū)分正常駕駛行為和左顧右盼行為。
為了直觀分析3 個分支對應(yīng)loss 使用不同權(quán)重時對識別結(jié)果的影響,對空間分支、人體分支和手部分支的loss 分別設(shè)置α、β和γ這3 個權(quán)重系數(shù),并對設(shè)置不同的權(quán)重系數(shù)的模型進行實驗來觀察對識別結(jié)果的影響。其中當(dāng)一個權(quán)重系數(shù)發(fā)生變化時,其余權(quán)重系數(shù)固定為1,實驗結(jié)果如圖9所示。
圖9 測試集準(zhǔn)確率變化曲線Fig.9 Test set accuracy change curve
由圖9可以看出,當(dāng)各個單獨分支所占的loss函數(shù)權(quán)重系數(shù)增長到1 時,模型準(zhǔn)確率達(dá)到最高,而當(dāng)單獨分支的權(quán)重系數(shù)繼續(xù)增大時,準(zhǔn)確率開始逐漸下降,這是因為隨著其中一個單分支的權(quán)重系數(shù)逐漸增大,它就逐步成為主導(dǎo)模型更新的loss 函數(shù),這就會抑制其他分支的loss 函數(shù)對模型參數(shù)更新的影響,導(dǎo)致準(zhǔn)確率持續(xù)走低。由實驗曲線看出,當(dāng)權(quán)重系數(shù)為2.25 時,β權(quán)重系數(shù)所代表的人體分支占主導(dǎo)的模型準(zhǔn)確率為85%以上,高于α權(quán)重系數(shù)所代表的空間分支占主導(dǎo)的模型準(zhǔn)確率68%。因為人體分支占主導(dǎo)能夠給模型提供足夠的視覺特征,因而能夠獲得較高的準(zhǔn)確率,而僅空間信息來指導(dǎo)網(wǎng)絡(luò)模型進行參數(shù)更新不夠全面,因此準(zhǔn)確率偏低。
為了驗證本文方法各個組件的有效性,本文對各個分支進行了相應(yīng)的消融實驗。實驗結(jié)果如表5所示,其中,Human 代表人體感應(yīng)分支,Hand 代表手部感應(yīng)分支,Spatial 代表雙通道空間交互分支。所采用的基準(zhǔn)網(wǎng)絡(luò)模型均為ResNet50 網(wǎng)絡(luò),對應(yīng)每個數(shù)據(jù)集實驗的第1行。
表5 消融實驗Table 5 Ablation study
由表5 中可知,本文方法在單獨引入人體分支時,準(zhǔn)確度提高了3%,這說明基于目標(biāo)檢測的人體分支抑制了部分背景噪聲,而當(dāng)單獨使用手部分支時,準(zhǔn)確度有所下降,這是因為單手部特征對于模型分類還是不夠充分,隨著人體分支、手部分支、空間分支都引入到多流網(wǎng)絡(luò)中時,準(zhǔn)確率達(dá)到最高。由結(jié)果可以看出,在自建的三客一危數(shù)據(jù)集上,提升較為顯著,而在公開數(shù)據(jù)集上提升卻不是特別大,這是由于自建數(shù)據(jù)集存在的視角多變、環(huán)境雜亂、體態(tài)多樣的問題。而姿態(tài)引導(dǎo)的實例感知學(xué)習(xí)網(wǎng)絡(luò)能有效減少這些外部因素的干擾,讓模型集中去學(xué)習(xí)那些有益的特征。
消融實驗的結(jié)果表明本文方法所提出組件可以有效改善駕駛員行為識別的結(jié)果,當(dāng)結(jié)合人體分支、手部分支和空間分支時,準(zhǔn)確率達(dá)到最高。在自建大型車駕駛員數(shù)據(jù)集上提高了7.5%的準(zhǔn)確度,在公開數(shù)據(jù)集上也提升了3%以上。由實驗結(jié)果可以看出,本文提出的結(jié)合人體檢測和姿態(tài)估計的駕駛員行為識別方法在復(fù)雜環(huán)境和視角多變的駕駛環(huán)境下有更好的表現(xiàn)。
針對駕駛員行為識別類間差異小的問題,本文提出了一種姿態(tài)引導(dǎo)的實例感知學(xué)習(xí)網(wǎng)絡(luò)用于駕駛員行為識別。結(jié)合目標(biāo)檢測和人體姿態(tài)估計獲取人體和手部區(qū)域作為實例級別的特征并設(shè)計感知學(xué)習(xí)模塊,利用手部相關(guān)區(qū)域構(gòu)建雙通道交互模塊來對關(guān)鍵空間信息進行表征。通過構(gòu)建實例級別的特征感知學(xué)習(xí)到不同駕駛行為之間微小的表征差異,實現(xiàn)了復(fù)雜環(huán)境下的駕駛員行為檢測。
對比實驗結(jié)果表明,本文方法在自建復(fù)雜環(huán)境數(shù)據(jù)集上和公開數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于其他模型。相較于傳統(tǒng)的基于RGB模型、人體骨架引導(dǎo)的方法在復(fù)雜環(huán)境數(shù)據(jù)集下效果提升明顯,有效降低了背景雜亂、視角不一、光照和駕駛員體態(tài)變化所帶來的影響。消融實驗表明,本文提出的雙通道交互模塊能夠提升模型的準(zhǔn)確率,從側(cè)面證明了駕駛員雙手的空間位置對于識別駕駛員行為有著重要的線索作用。
但是,由于定位這些實例級別的特征區(qū)域需要進行目標(biāo)檢測和姿態(tài)估計,前置的檢測會消耗一定的時間,這往往會降低本方法的實用性。因此,下一步工作就是針對這一問題,提高辨識速度。未來將著重從這方面入手,采用弱監(jiān)督的學(xué)習(xí)方法來對實例特征進行檢測定位,輔助網(wǎng)絡(luò)進行駕駛員行為識別,改善辨識速度慢的問題,提高方法的實用性。