歐陽麟, 吳仲城, 張 俊, 李 芳
(1.中國(guó)科學(xué)院 強(qiáng)磁場(chǎng)科學(xué)中心,安徽 合肥 230031;2.中國(guó)科學(xué)技術(shù)大學(xué),安徽 合肥 230026;3.強(qiáng)磁場(chǎng)安徽省實(shí)驗(yàn)室,安徽 合肥 230031)
世界衛(wèi)生組織(WHO)指出,道路交通事故是對(duì)全球公眾身體健康造成傷害的最重要原因之一。如《2018年世界道路安全狀況報(bào)告》[1]中所述,交通事故是致死和致傷的重要原因,每年有接近140萬人死于交通事故,還有數(shù)百萬人因交通事故受傷或致殘。圖1顯示了2004年—2016年間因道路交通事故死亡的人數(shù),可知死亡人數(shù)每年以緩慢的趨勢(shì)上升。
圖1 2014年—2016年因道路交通事故死亡的人數(shù)[1]
2013年在摩洛哥進(jìn)行的一項(xiàng)研究[2]表明,該國(guó)每年因疲勞駕駛而死亡的人數(shù)高達(dá)4000多人,同時(shí)造成經(jīng)濟(jì)損失高達(dá)14億美元。輕度疲勞占到了事故比例的36.8%,重度疲勞占到了31.1%,如圖2所示。研究還指出,有42.4%的駕駛員未能按照每500 km或2 h 休息15 min的標(biāo)準(zhǔn)進(jìn)行駕駛。
圖2 調(diào)查人群中各類人所占比例
同時(shí),因個(gè)人體質(zhì)不同,每個(gè)人所需休息時(shí)間和休息間隔不同,因此,單純依靠遵守規(guī)則并不能完全避免駕駛員疲勞駕駛行為,需要一種能檢測(cè)到疲勞駕駛行為的方法,并通過警報(bào)提醒駕駛員或上傳控制中心,避免交通事故的發(fā)生或降低損失。
在早期的疲勞檢測(cè)研究中,主要使用駕駛員的生理信號(hào)來進(jìn)性檢測(cè),如眼電圖[3]、心電圖(ECG)[4]、腦電圖、肌電圖,通過附著在駕駛員身上的各類傳感器,獲取生理數(shù)據(jù)[5],分析正常狀態(tài)和疲勞狀態(tài)下生理數(shù)據(jù)的差異來判斷疲勞與否,這種方法檢測(cè)精度高,但是需要駕駛員的配合以及昂貴的信號(hào)采集設(shè)備,需要與駕駛員的身體進(jìn)行接觸,比較容易引起駕駛員的不適和反感。另一種是基于行駛中車輛本身的方法,如通過研究車速、車輛軌跡、車道偏離等,來判斷疲勞駕駛狀態(tài)。Ma等[6]通過小波分析和神經(jīng)網(wǎng)絡(luò)來計(jì)算目標(biāo)車輛的橫向距離來預(yù)測(cè)駕駛員疲勞狀態(tài),這種方法受限于車道、駕駛員駕駛習(xí)慣,以及路面狀況等,通常很難應(yīng)用于復(fù)雜的實(shí)際場(chǎng)景中。還有一種通過攝像頭捕捉駕駛員面部信息的方法,通過分析眨眼頻率、是否打哈欠、PERCLOS(Percentage of Eyelid Closure over the Pupil)[7]等疲勞特征來判斷駕駛員的狀態(tài),Alioua等[8]通過Hough提取眼部和嘴部特征,利用SVM(Support Vector Machine,支持向量機(jī))分類器來完成疲勞狀態(tài)判斷。這種基于計(jì)算機(jī)視覺的方法因其低侵入性、低成本的特點(diǎn),受到了較廣泛的應(yīng)用。
近年來,以CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))為代表的深度學(xué)習(xí)模型[9]在計(jì)算機(jī)視覺領(lǐng)域的一系列問題(如分類、目標(biāo)檢測(cè)、圖像分割等)上取得了巨大的成功。如果將疲勞檢測(cè)視為圖像分類問題,則很容易應(yīng)用深度網(wǎng)絡(luò)模型。例如,Kurylyak等[10]提出的基于卷積神經(jīng)網(wǎng)絡(luò)的哈欠檢測(cè)算法,直接將駕駛員面部圖片輸入神經(jīng)網(wǎng)絡(luò),Softmax分類器用于判別駕駛員疲勞狀態(tài),疲勞(1)或非疲勞(0),在YawDD[11](Yawning Detection Dataset)上取得了95.81%的準(zhǔn)確度。但是在實(shí)際應(yīng)用中,疲勞狀態(tài)往往是以序列的形式出現(xiàn)的,是一個(gè)動(dòng)態(tài)的過程,很難通過單張圖片來判斷駕駛員是否疲勞?;跁r(shí)序數(shù)據(jù)的方法大多通過加窗的方式,對(duì)窗口內(nèi)的數(shù)據(jù)加以處理,并手動(dòng)提取特征,例如鐘奕輝[12]根據(jù)窗口內(nèi)的視頻幀計(jì)算眨眼間隔時(shí)間估計(jì)疲勞程度;Junaedi等[13]先判斷視頻幀中人眼部的狀態(tài),再計(jì)算PERCLOS值來判斷疲勞狀態(tài),并使用P60[14]標(biāo)準(zhǔn)在YawDD上獲得了最高83.66%的準(zhǔn)確率。這種方法需要手動(dòng)設(shè)置閾值,根據(jù)提取特征與閾值進(jìn)行比較,當(dāng)駕駛員臉部差異較大或個(gè)人習(xí)慣不同時(shí),閾值不同,泛化性不強(qiáng)。另一種方法對(duì)手動(dòng)提取的特征進(jìn)行特征融合[15]或接入如SVM[16]、MLP(Multilayer Perceptron,多層感知機(jī))等分類算法對(duì)疲勞狀態(tài)進(jìn)行識(shí)別,這兩種方法都需要手動(dòng)設(shè)計(jì)特征且只針對(duì)臉部部分區(qū)域(如眼部、嘴部特征),不能充分利用臉部疲勞特征。
基于以上研究,本文提出了一種基于CNN和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)單元的端到端可訓(xùn)練網(wǎng)絡(luò),并利用MTCNN(Multi-Task Cascaded Neural Networks,多任務(wù)級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò))檢測(cè)人臉關(guān)鍵點(diǎn),提取感興趣區(qū)域(Region of Interest,ROI),將拼接后的融合了嘴部區(qū)域和眼部區(qū)域的ROI放入CNN中提取特征,多幀圖片提取后的特征再經(jīng)過LSTM單元學(xué)習(xí)序列特征,輸出疲勞狀態(tài)(疲勞、打哈欠、非疲勞)。模型通過逐幀處理而不是基于窗口預(yù)測(cè),因此,它檢測(cè)速度快,消耗的計(jì)算成本較低,并且能夠?qū)崟r(shí)工作。實(shí)驗(yàn)表明本文方法在疲勞檢測(cè)數(shù)據(jù)集NTHU-DDD[17]中獲得了98%以上的準(zhǔn)確率并有較好的實(shí)時(shí)性。
疲勞檢測(cè)算法整體流程圖如圖3所示。
圖3 疲勞檢測(cè)算法流程圖
具體流程如下:
① 圖片經(jīng)過一個(gè)MTCNN[18]提取ROI,將ROI調(diào)整成網(wǎng)絡(luò)輸入所需的比例后拼接成單張圖片輸入進(jìn)CNN。
② CNN對(duì)連續(xù)視頻幀中的ROI進(jìn)行特征提取,提取后的序列特征進(jìn)入LSTM單元學(xué)習(xí)時(shí)序特征。
③ LSTM提取的特征經(jīng)過Softmax分類器對(duì)當(dāng)前視頻幀進(jìn)行分類(正常、疲勞、打哈欠3種狀態(tài))。
YawDD是由Abtahi等制作的視頻數(shù)據(jù)集,用于哈欠檢測(cè)模型的設(shè)計(jì)與測(cè)試,其中包含了多名駕駛員在駕駛位上的視頻。視頻分為兩部分,一部分是攝像頭位于車內(nèi)后視鏡下方,側(cè)對(duì)著駕駛員錄制得到的;另一部分是攝像頭位于儀表盤上方,正對(duì)著駕駛員,采集到駕駛員的正面圖像,每秒采集30幀。每個(gè)駕駛員錄制3~4段視頻。此數(shù)據(jù)集用于驗(yàn)證模型的泛化性。本文取正臉部分?jǐn)?shù)據(jù)集,按照視頻文件的分類將數(shù)據(jù)集分為打哈欠和正常兩種狀態(tài)。
疲勞駕駛檢測(cè)數(shù)據(jù)集采用來自于臺(tái)灣國(guó)立清華大學(xué)的NTHU-DDD[17](Driver Drowsiness Detection),包括正常駕駛和疲勞駕駛的視頻數(shù)據(jù)集。在白天和黑夜兩種場(chǎng)景下拍攝,包含了戴眼鏡、不戴眼鏡、打哈欠、低頭等多種動(dòng)作。圖像幀像素格式為640像素×480像素,每段視頻平均60 s左右,每秒取15幀(黑夜)或30幀(白天)。此數(shù)據(jù)集用于模型的訓(xùn)練與測(cè)試。由于數(shù)據(jù)集的標(biāo)簽只有0(正常)和1(疲勞)狀態(tài),而本文模型輸出3種狀態(tài)(正常、疲勞和打哈欠),于是對(duì)數(shù)據(jù)集重新制作標(biāo)簽,將本來類別為1(疲勞)的視頻幀按照順序分為1(疲勞)和2(打哈欠)。圖4為從NTHU-DDD中的一段連續(xù)的視頻均勻采樣截得的視頻幀。
圖4 NTHU-DDD部分視頻幀
NTHU-DDD分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集來自18位志愿者,共360段視頻,包括723248個(gè)視頻幀;驗(yàn)證集來自4位志愿者,共20段視頻,包括173299個(gè)視頻幀;測(cè)試集包括所有志愿者的70段視頻,包括736132個(gè)視頻幀。
YawDD采用的正臉部分?jǐn)?shù)據(jù)集包括16段男性視頻和13段女性視頻,男性視頻共有36126幀,女性視頻共有28467幀。YawDD中的數(shù)據(jù)僅用于測(cè)試。
生物醫(yī)學(xué)研究表明,疲勞狀態(tài)是一個(gè)漸進(jìn)的過程,初期表現(xiàn)為眨眼頻率變高、打哈欠、哈欠持續(xù)時(shí)間變長(zhǎng),后期表現(xiàn)為眼睛閉合程度增大、眼睛閉合時(shí)間增長(zhǎng)等。因此面部區(qū)域中能表現(xiàn)疲勞特征的是眼部和嘴部,為了去除無關(guān)信息,而將有用的ROI送入CNN中進(jìn)行訓(xùn)練,首先應(yīng)用MTCNN提取面部關(guān)鍵點(diǎn),基于特征點(diǎn)截取出眼部和嘴部區(qū)域,再拼接成整個(gè)圖片。
2.2.1 圖片角度矯正
由于本文數(shù)據(jù)集中存在部分視頻幀未能正臉面對(duì)攝像頭,可能會(huì)出現(xiàn)頭部向左或者向右偏轉(zhuǎn)的情況。為了能夠正確提取出ROI,對(duì)于這種圖片,首先需要對(duì)其進(jìn)行角度矯正,如圖5所示。
圖5 圖片旋轉(zhuǎn)過程
圖5中,假設(shè)在圖片經(jīng)過MTCNN后輸出的關(guān)鍵點(diǎn)中,左眼和右眼分別為A點(diǎn)(xA,yA)和B點(diǎn)(xB,yB),那么此時(shí)兩眼連線與水平方向的夾角θ(即傾斜角度)為
(1)
將圖片圍繞中心點(diǎn)Z(x0,y0)旋轉(zhuǎn)θ°,即可調(diào)整至水平狀態(tài)。此時(shí)原圖片中任意點(diǎn)的坐標(biāo)P(xi,yi)將調(diào)整至P′(x′i,y′i)。計(jì)算規(guī)則如下:
yi=2y0-yi
(2)
2.2.2 提取眼部ROI
得到2.2.1節(jié)中輸出的圖片及關(guān)鍵點(diǎn)坐標(biāo)后,提取眼部ROI,如圖6所示。
圖6 提取眼部ROI
圖6中眼部矩形框即為提取的ROI區(qū)域,坐標(biāo)點(diǎn)以及矩形框?qū)挾葁、高度h之間的關(guān)系如下:
(3)
式中:xC為C點(diǎn)x軸坐標(biāo);yC為C點(diǎn)y軸坐標(biāo);d為兩眼之間橫向距離。
同理,右眼區(qū)域與左眼區(qū)域經(jīng)過相同處理。
2.2.3 提取嘴部ROI
嘴部區(qū)域ROI處理與眼部類似,將比例調(diào)整至合適范圍內(nèi)。如圖7所示,嘴部矩形框左上角C點(diǎn)的坐標(biāo)為
圖7 提取嘴部ROI
(4)
式中:xC為C點(diǎn)x軸坐標(biāo);yC為C點(diǎn)y軸坐標(biāo);d為兩眼之間橫向距離。
將NTHU-DDD中所有視頻幀在訓(xùn)練之前都進(jìn)行上述ROI提取處理,將得到的結(jié)果拼接成為一張新的圖片,正好可以得到一張長(zhǎng)寬大小相同的圖片。部分訓(xùn)練集圖片如圖8所示。將圖片調(diào)整為227像素×227像素的格式,做好數(shù)據(jù)標(biāo)簽,以便下一步訓(xùn)練網(wǎng)絡(luò)所用。
圖8 經(jīng)過ROI提取后的數(shù)據(jù)集
CNN因其在ImageNet上的出色表現(xiàn),受到了大量的關(guān)注和研究,廣泛應(yīng)用于各類視覺任務(wù)。隨著網(wǎng)絡(luò)層數(shù)的加深,模型的表達(dá)能力也越強(qiáng),然而當(dāng)網(wǎng)絡(luò)層數(shù)到達(dá)一定程度,由于梯度消失問題,導(dǎo)致在視覺任務(wù)中的準(zhǔn)確率不升反降。ResNet使用跳連接[19],即殘差塊(Residual Block)來解決這類問題,使得在復(fù)雜的視覺任務(wù)中可以更好地應(yīng)用深度網(wǎng)絡(luò)。ResNet基本單元如圖9所示。
圖9 ResNet基本單元
筆者選用的用于提取面部特征的ResNet-18中使用了4組這樣的單元,每組2個(gè)。
使用從ImageNet上遷移過來的網(wǎng)絡(luò),加載預(yù)訓(xùn)練權(quán)重,開放部分權(quán)重用于訓(xùn)練,加快收斂速度,防止過擬合。除了ResNet-18外,還使用了VGG-16[20],DenseNet[21]、AlexNet[22]這些在ImageNet上表現(xiàn)出色的網(wǎng)絡(luò)用于對(duì)比特征提取器的效果。
LSTM[23]是遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的改進(jìn)網(wǎng)絡(luò)。區(qū)別于CNN對(duì)單張圖片的特征提取及分類,LSTM的模型輸出與之前檢測(cè)的視頻幀結(jié)果是有關(guān)的。它將上一時(shí)序網(wǎng)絡(luò)的隱層狀態(tài)輸出到下一時(shí)序網(wǎng)絡(luò)中,與當(dāng)前序列數(shù)據(jù)一同訓(xùn)練,因此,它更擅長(zhǎng)于處理時(shí)序數(shù)據(jù)。RNN示意圖如圖10所示。
圖10 RNN示意圖
圖10中,ht+1為當(dāng)前序列的隱狀態(tài),它根據(jù)當(dāng)前的訓(xùn)練樣本xt+1以及上一序列的隱狀態(tài)ht進(jìn)行計(jì)算得出。LSTM在上述基本單元上又添加了3個(gè)控制門結(jié)構(gòu),即輸入門、遺忘門和輸出門,能夠遺忘掉次要的特征信息而記住更明顯的疲勞特征。
筆者使用從ImageNet上遷移過來的ResNet-18提取特征,如圖11所示。凍結(jié)部分層的權(quán)重,開放后n層進(jìn)行fine-tune。連續(xù)的視頻幀經(jīng)過ROI提取后輸入進(jìn)ResNet-18,輸出的線性特征再接入LSTM網(wǎng)絡(luò)學(xué)習(xí)時(shí)序特征,最終輸出的特征經(jīng)過Softmax分類得到駕駛員疲勞狀態(tài)。圖11中的Basic Block為圖9中的基本單元。
圖11 疲勞檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)圖
筆者采用隨機(jī)裁剪、旋轉(zhuǎn)和噪聲處理進(jìn)行數(shù)據(jù)增強(qiáng),通過減去圖片通道平均值實(shí)現(xiàn)歸一化。優(yōu)化器采用SGD(Stochastic Gradient Descent)算法。批次大小設(shè)為256,權(quán)重衰減系數(shù)設(shè)為0.0005,動(dòng)量設(shè)為0.9,初始學(xué)習(xí)率設(shè)為0.01。并將LSTM單元的步長(zhǎng)設(shè)為16,即選擇連續(xù)的16幀作為檢測(cè)窗口。權(quán)重采用預(yù)訓(xùn)練模型初始權(quán)重,開放后10層更新權(quán)重,防止過擬合,在NVIDIA GTX 1080Ti上訓(xùn)練的迭代次數(shù)為200。
將ResNet-18與其他分類網(wǎng)絡(luò)(AlexNet、VGG-16和DenseNet)用相同的配置進(jìn)行訓(xùn)練,同時(shí),用ResNet18在不經(jīng)過ROI提取的原始數(shù)據(jù)集上進(jìn)行訓(xùn)練以作為比較。實(shí)驗(yàn)中損失值以及驗(yàn)證集中準(zhǔn)確率曲線如圖12和圖13所示。
圖12 損失值變化曲線
由圖可知,VGG網(wǎng)絡(luò)在訓(xùn)練中的振動(dòng)幅度較大,AlexNet-LSTM網(wǎng)絡(luò)的檢測(cè)效果最差,ResNet18和DenseNet提取面部特征的能力較為出色。經(jīng)ROI提取后的ResNet18-LSTM網(wǎng)絡(luò)性能最佳,在驗(yàn)證集上達(dá)到98.56%的準(zhǔn)確率。在原始數(shù)據(jù)集上訓(xùn)練的ResNe18-LSTM達(dá)到了97.22%的準(zhǔn)確率。相較于原始數(shù)據(jù)集,ROI提取明顯抓住了反映疲勞特征的關(guān)鍵區(qū)域,提升了準(zhǔn)確率。各網(wǎng)絡(luò)在驗(yàn)證集上的最終識(shí)別準(zhǔn)確率具體如表1所示。
表1 各網(wǎng)絡(luò)在NTHU-DDD數(shù)據(jù)集上的準(zhǔn)確率
各個(gè)主干網(wǎng)絡(luò)在ImageNet上的精度與參數(shù)量大小信息如圖14所示[24]。圖14中圓形的中心為模型在圖表中的位置,圓形的大小對(duì)應(yīng)模型的參數(shù)量,橫軸為計(jì)算量,縱軸為Top-1的準(zhǔn)確率,越靠近左上角的模型計(jì)算復(fù)雜度越低、準(zhǔn)確率越高,越小的模型參數(shù)越少。一般來說,網(wǎng)絡(luò)參數(shù)量和計(jì)算量越大,表示模型容量越大,而精度越高代表網(wǎng)絡(luò)提取特征的能力越強(qiáng)。由表1信息可知,主干網(wǎng)絡(luò)提取特征能力越強(qiáng),則遷移后的疲勞檢測(cè)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率越高,而模型參數(shù)量達(dá)到一定量級(jí)后,可能會(huì)出現(xiàn)過擬合而導(dǎo)致檢測(cè)率不升反降。例如精度接近的VGG-16和ResNet-18,VGG-16由于模型過大而產(chǎn)生的過擬合(可通過表1中數(shù)據(jù)輔證,VGG-16在訓(xùn)練集上的精度很高,在驗(yàn)證集上卻出現(xiàn)精度下降),導(dǎo)致疲勞檢測(cè)網(wǎng)絡(luò)中ResNet-18的精度要遠(yuǎn)高于VGG-16,且計(jì)算量更小。這說明在遷移學(xué)習(xí)任務(wù)中,選擇適合的模型尤為重要。
圖14 各主干網(wǎng)絡(luò)精度與模型大小對(duì)比
接著將模型與其他同樣在NTHU-DDD測(cè)試集上測(cè)試的基于時(shí)序數(shù)據(jù)的方法進(jìn)行對(duì)比。不同方法使用相同的預(yù)處理方法,使用模型與最終準(zhǔn)確率如表2所示。
由表2可知,基于LSTM網(wǎng)絡(luò)的方法整體要優(yōu)于視頻幀中加窗分析的方法,而經(jīng)過預(yù)處理后的數(shù)據(jù)集識(shí)別準(zhǔn)確率也得到了提升,這說明本文預(yù)處理方法對(duì)于疲勞檢測(cè)數(shù)據(jù)集是有效的。
表2 不同方法在NTHU-DDD測(cè)試集上的結(jié)果對(duì)比
下面討論上文中提出的網(wǎng)絡(luò)模型所涉及到的兩個(gè)重要參數(shù)。通常駕駛員一次眨眼的過程需要約0.3 s,當(dāng)出現(xiàn)疲勞駕駛時(shí),司機(jī)眨眼變慢,一次眨眼過程持續(xù)時(shí)間更長(zhǎng)。這對(duì)應(yīng)于4.1節(jié)提到的LSTM中步長(zhǎng)的選擇。步長(zhǎng)過大,則當(dāng)前幀之前的視頻幀對(duì)當(dāng)前狀態(tài)影響更大,LSTM可能會(huì)提取不重要的特征;反之,步長(zhǎng)過小,則忽略掉的視頻幀越多,可能會(huì)學(xué)習(xí)不到序列特征。因此,選擇不同的步長(zhǎng)進(jìn)行實(shí)驗(yàn),對(duì)比得出最佳步長(zhǎng)為16。實(shí)驗(yàn)結(jié)果如圖15所示,曲線代表準(zhǔn)確率與步長(zhǎng)的關(guān)系。
圖15 步長(zhǎng)對(duì)網(wǎng)絡(luò)檢測(cè)效果的影響
對(duì)于采用的ResNet-18預(yù)訓(xùn)練模型,開放層數(shù)也會(huì)影響模型精度,層數(shù)過多,可能導(dǎo)致在小樣本數(shù)據(jù)集上不收斂,層數(shù)過低,可能學(xué)習(xí)不到數(shù)據(jù)集本身的特征,無法很好地遷移到目標(biāo)任務(wù)中。通過實(shí)驗(yàn)得出當(dāng)開放層數(shù)為10的時(shí)候,準(zhǔn)確率達(dá)到峰值。開放層數(shù)與模型最終精度的關(guān)系如圖16所示。
圖16 開放層數(shù)與模型最終精確度的關(guān)系曲線
為了驗(yàn)證模型的泛化能力,將其應(yīng)用于YawDD數(shù)據(jù)集,并與其他哈欠檢測(cè)算法[13,26-27]進(jìn)行比較,由于本文模型輸出打哈欠、疲勞和正常3個(gè)狀態(tài),而數(shù)據(jù)集中只標(biāo)注了打哈欠和正常2個(gè)狀態(tài),于是將輸出為疲勞的數(shù)據(jù)歸結(jié)于正常狀態(tài),測(cè)試結(jié)果如表3所示。
表3 不同算法在YawDD數(shù)據(jù)集上的檢測(cè)結(jié)果
如表3所示,在基于PERCLOS的方法中,不同的標(biāo)準(zhǔn)(P60,P70,P80)下有不同的結(jié)果,表3中記錄了方法在數(shù)據(jù)集多個(gè)部分中的最好結(jié)果。而本文方法在未經(jīng)YawDD數(shù)據(jù)訓(xùn)練的情況下直接測(cè)試,達(dá)到了與主流哈欠檢測(cè)算法近似的精度,由此說明模型泛化性較強(qiáng)。
為了測(cè)試模型在實(shí)際場(chǎng)景中的實(shí)時(shí)性,在NVIDIA GTX 1080Ti環(huán)境下檢測(cè)連續(xù)的視頻幀,將攝像頭捕捉圖片裁剪為200像素×150像素的大小,提取ROI后輸入LSTM網(wǎng)絡(luò),測(cè)出檢測(cè)速度為25 f/s,平均檢測(cè)一幀的速度為40 ms,其中提取ROI所用時(shí)間與檢測(cè)疲勞狀態(tài)所用時(shí)間比例約為1∶1。在駕駛員疲勞檢測(cè)任務(wù)中實(shí)時(shí)性較強(qiáng)。若將模型放于更高配置的GPU服務(wù)器上提供服務(wù),則可以進(jìn)一步提升檢測(cè)效率。
本文首次提出了一種將LSTM應(yīng)用于駕駛員面部時(shí)序數(shù)據(jù)中的方法,根據(jù)面部關(guān)鍵點(diǎn)提取疲勞特征ROI,通過遷移學(xué)習(xí)提取圖像特征,并結(jié)合LSTM處理時(shí)序數(shù)據(jù)的能力,提出了一種能夠檢測(cè)疲勞駕駛的端到端可訓(xùn)練網(wǎng)絡(luò)。在公開數(shù)據(jù)集中達(dá)到了較高的精度,同時(shí)具有較好的泛化能力,對(duì)于公共交通安全以及駕駛員人身安全保護(hù)具有很重要的意義。下一步研究可將模型放入云端,開發(fā)Restful API并提供HTTP服務(wù),以此實(shí)時(shí)檢測(cè)終端駕駛員的疲勞狀態(tài)。