楊艷艷,李雷孝+,林 浩
1.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,呼和浩特010080
2.內(nèi)蒙古自治區(qū)科學(xué)技術(shù)廳 內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研究中心,呼和浩特010080
3.天津理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,天津300384
目前,交通事故依舊是威脅生命安全的主要因素之一。缺乏道路安全駕駛意識(shí)、酒后駕駛以及疲勞駕駛是危害交通安全的主要因素。其中,疲勞駕駛占14%~20%,重大交通事故約占43%,大型卡車和高速公路的交通事故約占37%[1]。此外,由于操作不當(dāng)和粗心而導(dǎo)致的其他交通事故在某種程度上也很有可能與疲勞駕駛有關(guān)。交通安全法明確規(guī)定,如果駕駛員在不休息的狀態(tài)下開(kāi)車超過(guò)4 h,將被視為疲勞駕駛。目前交管部門針對(duì)這種情況可以對(duì)其進(jìn)行處罰并扣減駕駛證記分,盡管在一定程度上可以減少駕駛員過(guò)度疲勞駕駛行為,但這種措施也僅僅是在制度層面對(duì)駕駛員的行為進(jìn)行約束,實(shí)際情況并不能很大程度地減少因疲勞駕駛而發(fā)生的交通事故。而且,有一些駕駛員開(kāi)車時(shí)間未超過(guò)4 h,但因?yàn)樾菹⒉划?dāng)?shù)仍?,也可能存在疲勞駕駛的情況。若能在駕駛員有疲勞駕駛的跡象發(fā)生時(shí),及時(shí)地給駕駛員發(fā)出疲勞警告才是減少交通事故的有效手段。因此,為了維護(hù)交通安全,對(duì)駕駛員的疲勞駕駛檢測(cè)就顯得尤為重要。對(duì)駕駛員疲勞檢測(cè)的研究也具有重要的理論與現(xiàn)實(shí)意義。
雖然疲勞駕駛檢測(cè)技術(shù)層出不窮,但至今仍未有一個(gè)準(zhǔn)確率較高、實(shí)用性較強(qiáng)且對(duì)駕駛員較友好的檢測(cè)方法。當(dāng)前疲勞駕駛檢測(cè)的研究成果主要可分為三大類:基于駕駛員生理特征的檢測(cè)方法、基于駕駛員車輛行駛信息的檢測(cè)方法以及基于駕駛員面部特征的檢測(cè)方法。基于駕駛員生理特征的方法[2-3]一般需要硬件設(shè)備,而且使用方式為接觸式的,對(duì)大多數(shù)駕駛員來(lái)說(shuō),佩戴復(fù)雜的硬件設(shè)備會(huì)給駕駛員帶來(lái)強(qiáng)烈的不適感,這很可能會(huì)對(duì)駕駛員的操作帶來(lái)影響,對(duì)駕駛員不夠友好;基于駕駛員車輛行駛信息的檢測(cè)方法[4-5]與道路狀況、交通情況以及駕駛員行駛習(xí)慣有很大的關(guān)聯(lián),檢測(cè)結(jié)果會(huì)存在很大誤差;基于駕駛員面部特征的疲勞駕駛檢測(cè)方法由于其對(duì)駕駛員友好、準(zhǔn)確率較高等優(yōu)勢(shì)成為研究熱點(diǎn)。雖然基于駕駛員面部特征的疲勞駕駛檢測(cè)已產(chǎn)生了很多研究成果,但大多數(shù)檢測(cè)方法都較為相似,并未有特別創(chuàng)新的突破。有一些較為重要的問(wèn)題也未考慮,例如駕駛員個(gè)性化問(wèn)題、數(shù)據(jù)集問(wèn)題以及戴墨鏡下的疲勞駕駛檢測(cè)問(wèn)題等。因此,本文主要目的是希望通過(guò)分析總結(jié)當(dāng)前基于駕駛員面部特征的疲勞駕駛檢測(cè)方法的優(yōu)缺點(diǎn),為后續(xù)該領(lǐng)域的研究者提供一定的幫助,進(jìn)而推動(dòng)疲勞駕駛檢測(cè)領(lǐng)域技術(shù)的發(fā)展。
至今為止,大部分疲勞駕駛檢測(cè)的綜述,往往側(cè)重于綜合介紹上述三類檢測(cè)技術(shù)[6-10]。在其綜述時(shí),僅羅列了近幾年這三類方法所使用的技術(shù)、取得的研究結(jié)果以及對(duì)未來(lái)的研究展望,但并未針對(duì)某一類檢測(cè)方法進(jìn)行深入研究。因此,本文重點(diǎn)關(guān)注基于駕駛員面部特征的疲勞駕駛檢測(cè)方法,根據(jù)疲勞駕駛檢測(cè)流程,從人臉檢測(cè)、特征提取以及數(shù)據(jù)集等角度深入分析總結(jié)了現(xiàn)有研究成果。
本文首先通過(guò)對(duì)比實(shí)驗(yàn)分析近幾年疲勞駕駛領(lǐng)域常用的四種人臉檢測(cè)算法;其次詳細(xì)總結(jié)了目前常用的公開(kāi)數(shù)據(jù)集的優(yōu)缺點(diǎn)以及適用場(chǎng)景;然后論述總結(jié)三類特征提取方法;最后提出了基于駕駛員面部特征的疲勞駕駛檢測(cè)方法目前所面臨的挑戰(zhàn)。
研究表明,當(dāng)駕駛員睡眠不足、長(zhǎng)時(shí)間駕駛、夜間駕駛、單調(diào)駕駛、未知環(huán)境駕駛時(shí)均可能引起疲勞[11]。而在駕駛中的易怒、行動(dòng)遲緩、注意力不集中、打哈欠、眼睛沉重、不耐煩等表現(xiàn)都是疲勞駕駛的早期跡象[11]。故當(dāng)人處于疲勞狀態(tài)時(shí),眼睛狀態(tài)、嘴巴狀態(tài)、頭部姿態(tài)以及面部表情等駕駛員面部特征能直觀地反映駕駛員是否處于疲勞的狀態(tài)。具體原因如下:
(1)眼睛狀態(tài)。無(wú)外界因素影響的狀態(tài)下,一個(gè)人正常的眨眼頻率是每分鐘10~20 次,且每次眨眼持續(xù)時(shí)間在100~400 ms。但在疲勞狀態(tài)時(shí),眨眼頻率會(huì)增加大約64%,且眨眼的持續(xù)時(shí)間延長(zhǎng)至1 s左右[12]。
(2)嘴巴狀態(tài)。打哈欠是疲勞狀態(tài)下嘴部的主要表現(xiàn),是一種深呼吸的連續(xù)活動(dòng),一般持續(xù)3~5 s[13],是一種在疲勞狀態(tài)下的條件反射。當(dāng)人在懶惰、疲勞和缺乏休息的時(shí)候,通常會(huì)通過(guò)打哈欠的方式使肺部吸入大量氧氣,刺激中樞神經(jīng)系統(tǒng),使精神振奮。
(3)頭部姿態(tài)。當(dāng)駕駛員出現(xiàn)頻繁的點(diǎn)頭或者頭部忽然下垂時(shí),說(shuō)明駕駛員存在疲勞駕駛的風(fēng)險(xiǎn)[12]。
(4)凝視方向。凝視可以檢測(cè)駕駛員是否疲勞駕駛以及注意力是否集中[14]。駕駛員清醒狀態(tài)下和疲勞狀態(tài)下的凝視區(qū)域存在明顯的不同。清醒狀態(tài)下駕駛時(shí),駕駛員會(huì)直視前方,目光較聚集。但當(dāng)駕駛員疲勞駕駛時(shí),會(huì)出現(xiàn)目光呆滯、眼神渙散、長(zhǎng)時(shí)間視線下移或者偏移的現(xiàn)象。
(5)面部表情識(shí)別(facial expression recognition,F(xiàn)ER)。FER 是面部肌肉的一個(gè)或者多個(gè)動(dòng)作、狀態(tài)的結(jié)果。它是人體語(yǔ)言的一部分,也是一種生理及心理的反應(yīng),通??梢员磉_(dá)出一個(gè)人的情感狀態(tài)。在駕駛員疲勞駕駛時(shí),頻繁眨眼、打哈欠等面部表情都是面部肌肉動(dòng)作的結(jié)果。因此FER也可以衡量駕駛員的疲勞狀態(tài)[15]。
表1 總結(jié)了近幾年上述五類面部特征在疲勞駕駛檢測(cè)領(lǐng)域中的應(yīng)用情況。
表1 各個(gè)面部特征在疲勞駕駛領(lǐng)域中的應(yīng)用Table 1 Application of individual facial features in field of fatigue driving
從表1可以看出,由于駕駛員疲勞時(shí)眼睛和嘴巴狀態(tài)是最為直觀的,目前大多數(shù)研究都集中在駕駛員眼睛和嘴巴狀態(tài);另外駕駛員FER 是面部肌肉活動(dòng)的共同結(jié)果,疲勞表情也是面部表情之一,因此也有一些學(xué)者通過(guò)FER來(lái)檢測(cè)駕駛員是否疲勞駕駛并取得了較理想的結(jié)果;雖然凝視方向也能夠反映出駕駛員的駕駛狀態(tài),但目前在駕駛員疲勞駕駛檢測(cè)領(lǐng)域應(yīng)用較少,主要原因是目前在疲勞駕駛檢測(cè)領(lǐng)域缺少駕駛員清醒狀態(tài)和疲勞狀態(tài)時(shí)有關(guān)凝視方向的數(shù)據(jù)集,若有數(shù)據(jù)集做支撐,駕駛員的凝視方向?qū)⑹且粋€(gè)研究重點(diǎn)。
在疲勞駕駛檢測(cè)領(lǐng)域,很多研究者自建了數(shù)據(jù)集,但由于疲勞駕駛數(shù)據(jù)集涉及到駕駛員的個(gè)人隱私,很少有研究者選擇將數(shù)據(jù)集公開(kāi)。近幾年來(lái)公開(kāi)的可以免費(fèi)獲取且比較常用的數(shù)據(jù)集有5個(gè),分別為野外眨眼圖片數(shù)據(jù)集CEW[30]和MRL[31]、打哈欠視頻數(shù)據(jù)集YawDD[32]、疲勞駕駛視頻數(shù)據(jù)集NTHUDDD[33]和UTA-RLDD[34]。
(1)CEW。由2 423位成員組成的只包含眼部區(qū)域的圖片數(shù)據(jù)集。其中實(shí)驗(yàn)人員包括男性和女性、戴眼鏡和不戴眼鏡。數(shù)據(jù)集中1 192 位成員提供雙眼閉合的圖形,來(lái)自網(wǎng)絡(luò)采集;1 231位成員提供雙眼睜開(kāi)數(shù)據(jù)集,來(lái)自野外標(biāo)記的人臉數(shù)據(jù)庫(kù)。
(2)YawDD。該數(shù)據(jù)集來(lái)自不同種族的男性和女性司機(jī),戴眼鏡和不戴眼鏡,包含兩個(gè)具有不同人臉特征的駕駛員視頻數(shù)據(jù)集,主要被用于打哈欠檢測(cè)的算法和模型。第一個(gè)數(shù)據(jù)集中共322個(gè)視頻,攝像頭安裝在汽車的前視鏡下,每個(gè)參與者有3~4個(gè)視頻,其中包括正常說(shuō)話、說(shuō)話和唱歌以及打哈欠的場(chǎng)景;第二個(gè)數(shù)據(jù)集中共有29個(gè)視頻,攝像頭安裝在駕駛員的儀表板上,每個(gè)參與者都有一個(gè)單獨(dú)的視頻,其中包括正常駕駛不說(shuō)話、邊開(kāi)車邊說(shuō)話以及邊開(kāi)車邊打哈欠的場(chǎng)景。
(3)NTHU-DDD。該數(shù)據(jù)集來(lái)自36 個(gè)不同種族的男性和女性司機(jī),戴眼鏡和不戴眼鏡,模擬了正常駕駛、打哈欠、慢速眨眼、入睡以及大笑五類駕駛場(chǎng)景,在白天和夜間照明下拍攝的視頻數(shù)據(jù)集,受試者坐在椅子上模擬駕駛。整個(gè)數(shù)據(jù)集的總時(shí)長(zhǎng)為9.5 h。有關(guān)打哈欠、緩慢眨眼以及點(diǎn)頭動(dòng)作每個(gè)都被記錄了大約1 min;與疲勞相關(guān)的動(dòng)作組合(打哈欠、點(diǎn)頭以及慢速眨眼)和與非疲勞相關(guān)的動(dòng)作組合(說(shuō)話、大笑以及看兩邊),每個(gè)記錄約為5 min。
(4)UTA-RLDD。該數(shù)據(jù)集由60 名受試者拍攝的大約30 h 的RGB 數(shù)據(jù)集。受試者包括大學(xué)本科生、研究生或?yàn)榱双@得額外學(xué)分的職員等人。所有的參與者都超過(guò)了18歲,有51名男性和9名女性,來(lái)自不同種族和不同年齡段。該數(shù)據(jù)集共有180 個(gè)視頻,在這180個(gè)視頻中,有21個(gè)視頻中的受試者戴眼鏡,72 個(gè)視頻中的受試者有相當(dāng)多的毛發(fā)。視頻是在不同的現(xiàn)實(shí)生活和背景下拍攝的。每個(gè)視頻都是參與者用手機(jī)或者網(wǎng)絡(luò)攝像機(jī)自己錄制的,幀速率小于30 FPS。對(duì)于每個(gè)參與者,都有3 個(gè)類別的視頻:清醒、低清醒和困倦。
(5)MRL。該數(shù)據(jù)集是有關(guān)人眼圖像的大規(guī)模數(shù)據(jù)集,包括低分辨率和高分辨率的紅外圖像,收集了37個(gè)不同的人(33名男性和4名女性)的數(shù)據(jù)。數(shù)據(jù)集包含兩種眼睛狀態(tài),睜眼和閉眼,總共由84 898張圖像構(gòu)成。
以上5 個(gè)數(shù)據(jù)集的優(yōu)缺點(diǎn)以及在疲勞駕駛檢測(cè)領(lǐng)域適用范圍如表2所示。
表2 三種數(shù)據(jù)集的優(yōu)缺點(diǎn)以及適用范圍Table 2 Advantages and disadvantages of three datasets and scope of application
從表1 可以看出,在目前公開(kāi)數(shù)據(jù)集中,大部分?jǐn)?shù)據(jù)集都是模擬駕駛場(chǎng)景,而且困倦的狀態(tài)也是模擬出來(lái)的。很多學(xué)者自制的數(shù)據(jù)集因需拍攝駕駛員的人臉區(qū)域,可能泄露駕駛員個(gè)人隱私而不對(duì)外公開(kāi)。且也有很大一部分自制數(shù)據(jù)集存在真實(shí)性較差的情況。目前所公開(kāi)的數(shù)據(jù)集大部分都是較理想情況下的,缺乏真實(shí)性和圖像質(zhì)量高的數(shù)據(jù)集。Bakker等[14]在瑞典道路上拍攝了駕駛員在真實(shí)疲勞駕駛情況下的面部特征數(shù)據(jù)集,但該數(shù)據(jù)集目前并不對(duì)外公開(kāi)。雖然UTA-RLDD 是真實(shí)狀況下的疲勞狀態(tài),但并不是疲勞駕駛下的真實(shí)狀態(tài)。因此,在疲勞駕駛檢測(cè)領(lǐng)域依舊缺少高質(zhì)量的公開(kāi)數(shù)據(jù)集。
駕駛員面部特征是檢測(cè)疲勞駕駛的非入侵性指標(biāo),是通過(guò)駕駛員的閉眼率、眨眼頻率、打哈欠頻率、頭部位置、凝視方向以及面部表情等來(lái)衡量駕駛員的疲勞感[6]?;隈{駛員面部特征疲勞駕駛檢測(cè)方法主要是使用攝像機(jī)和計(jì)算機(jī)視覺(jué)技術(shù)來(lái)提取駕駛員的面部特征,隨后經(jīng)過(guò)對(duì)駕駛員面部特征分析來(lái)預(yù)測(cè)駕駛員是否疲勞駕駛。圖1 給出了基于駕駛員面部特征的疲勞駕駛檢測(cè)的整體框架。
圖1 基于駕駛員面部特征的疲勞駕駛檢測(cè)流程Fig. 1 Fatigue driving detection process based on driver facial features
如圖1流程圖所示,首先通過(guò)車載攝像頭獲取駕駛員駕駛的數(shù)據(jù)集,將數(shù)據(jù)集進(jìn)行預(yù)處理之后輸入人臉檢測(cè)模型。當(dāng)檢測(cè)到駕駛員的人臉后,提取駕駛員面部特征。將提取到的面部數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,進(jìn)行面部狀態(tài)的識(shí)別,隨后依據(jù)疲勞判別參數(shù)來(lái)預(yù)測(cè)是否疲勞駕駛。最后根據(jù)F1 分?jǐn)?shù)、召回率以及精確度來(lái)評(píng)價(jià)疲勞駕駛檢測(cè)模型的性能。
其中,最關(guān)鍵的步驟為人臉檢測(cè)、特征提取和預(yù)測(cè)結(jié)果。首先,人臉是后續(xù)特征提取以及結(jié)果預(yù)測(cè)的基礎(chǔ),在檢測(cè)到駕駛員人臉的基礎(chǔ)上才能進(jìn)行面部特征提取,因此其檢測(cè)結(jié)果決定了后續(xù)面部特征提取以及疲勞駕駛檢測(cè)的準(zhǔn)確性;其次,在檢測(cè)到人臉區(qū)域后,需要進(jìn)行疲勞特征的提取,本文第3.2 節(jié)總結(jié)了三類特征提取方法的優(yōu)缺點(diǎn),研究者可根據(jù)自己需要來(lái)選擇使用什么樣的方法來(lái)進(jìn)行特征提取,或者是根據(jù)優(yōu)缺點(diǎn),使用多技術(shù)融合的方法來(lái)進(jìn)行特征提??;預(yù)測(cè)結(jié)果部分,需要根據(jù)提取面部的區(qū)域來(lái)選擇合適的疲勞判別參數(shù),最終實(shí)現(xiàn)駕駛員疲勞駕駛的檢測(cè)。
圖1模型性能中所提到的評(píng)價(jià)指標(biāo),其具體描述以及計(jì)算公式如下所示。
(1)準(zhǔn)確率(Accuracy)。即所有預(yù)測(cè)正確的分類(包括正類和負(fù)類)占總的比例,計(jì)算公式如下:
(2)精確率(Precision)。即正確預(yù)測(cè)為正類的占全部預(yù)測(cè)為正類的比例,計(jì)算公式如下:
(3)召回率(Recall)。即正確預(yù)測(cè)為正類的占全部實(shí)際為正類的比例,計(jì)算公式如下:
(4)F1 分?jǐn)?shù)(F1 score)。即精確率與召回率的調(diào)和平均值,計(jì)算公式如下:
上述公式中的TP(true positive)為將正類預(yù)測(cè)為正類數(shù),TN(true negative)為將負(fù)類預(yù)測(cè)為負(fù)類數(shù),F(xiàn)P(false positive)為將負(fù)類預(yù)測(cè)為正類數(shù),F(xiàn)N(false negative)為將正類預(yù)測(cè)為負(fù)類數(shù)。
其中,根據(jù)特征提取的面部特征的數(shù)量,可以將疲勞駕駛檢測(cè)分為單特征檢測(cè)和多特征融合檢測(cè)兩個(gè)類別,具體內(nèi)容如圖2所示。
圖2 駕駛員疲勞駕駛檢測(cè)類別Fig. 2 Driver fatigue driving test category
本章根據(jù)圖1 所展示的基于駕駛員面部特征疲勞駕駛檢測(cè)流程的框架,總結(jié)歸納流程中關(guān)鍵步驟所用到的技術(shù)以及方法。
人臉檢測(cè)是疲勞駕駛檢測(cè)的基礎(chǔ),其檢測(cè)結(jié)果決定了后續(xù)面部特征提取以及疲勞駕駛檢測(cè)的準(zhǔn)確性。目前在疲勞駕駛檢測(cè)領(lǐng)域使用最廣泛的人臉檢測(cè)算法包括基于OpenCV[35]庫(kù)來(lái)實(shí)現(xiàn)的人臉檢測(cè)算法(Haar+AdaBoost[36])、基于Dlib[37]庫(kù)的人臉檢測(cè)算法(HOG+SVM[38])、SSD[39]算法以及MTCNN[40]算法四種。
基于OpenCV庫(kù)的人臉檢測(cè)算法為Viola提出的基于Haar-like特征和AdaBoost分類器構(gòu)建的人臉檢測(cè)器;基于Dlib 庫(kù)的人臉檢測(cè)算法是利用含有方向的梯度直方圖(histogram of oriented gradient,HOG)和級(jí)聯(lián)SVM 分類器來(lái)實(shí)現(xiàn)的;SSD 是單階段目標(biāo)檢測(cè)算法中的一種,可用來(lái)進(jìn)行圖片分類;MTCNN 算法是由中科院深圳研究院提出的用于人臉檢測(cè)任務(wù)的多任務(wù)神經(jīng)網(wǎng)絡(luò)模型。由表2 可知,YawDD 數(shù)據(jù)集為在真實(shí)駕駛環(huán)境下收集的數(shù)據(jù)集,包括戴眼鏡打哈欠、戴眼鏡不打哈欠、不戴眼鏡打哈欠和不戴眼鏡不打哈欠4 個(gè)場(chǎng)景;NTHU-DDD 數(shù)據(jù)集為模擬駕駛環(huán)境下收集的數(shù)據(jù)集,包括了說(shuō)話、唱歌、打哈欠、緩慢眨眼、點(diǎn)頭等各種駕駛過(guò)程中會(huì)出現(xiàn)的場(chǎng)景。本節(jié)主要測(cè)試疲勞駕駛檢測(cè)領(lǐng)域中常用的4 個(gè)人臉檢測(cè)算法的性能,上述兩個(gè)數(shù)據(jù)集涵蓋了駕駛員駕駛時(shí)出現(xiàn)的各種情況,且上述兩個(gè)數(shù)據(jù)集是基于駕駛員面部特征的疲勞駕駛檢測(cè)領(lǐng)域常用的數(shù)據(jù)集,具有代表性。因此本文將疲勞駕駛檢測(cè)領(lǐng)域中常用疲勞數(shù)據(jù)集YawDD 和NTHU-DDD 視頻數(shù)據(jù)集按幀提取,組成圖片數(shù)據(jù)集。使用YawDD 數(shù)據(jù)集中的756 張無(wú)遮擋和469 張戴墨鏡和NTHD-DDD 數(shù)據(jù)集中的610 張無(wú)遮擋和610 張戴墨鏡的駕駛員駕駛圖片,通過(guò)實(shí)驗(yàn)得出這4種算法的人臉檢測(cè)速度以及準(zhǔn)確率,用來(lái)評(píng)估這4種人臉檢測(cè)算法的性能。實(shí)驗(yàn)環(huán)境主要為表3所示,實(shí)驗(yàn)結(jié)果如表4、表5所示。實(shí)驗(yàn)所用GPU 為NVIDIA GeForce RTX 2060,處理器為Intel?CoreTMi7-9700 CPU@3.00 GHz,8核。
表3 實(shí)驗(yàn)環(huán)境Table 3 Experimental environment
表4 YawDD數(shù)據(jù)集下人臉檢測(cè)模型性能Table 4 Face detection model performance under YawDD dataset
表5 NTHU-DDD數(shù)據(jù)集下人臉檢測(cè)模型性能Table 5 Face detection model performance under NTHU-DDD dataset
由表4和表5可以看出,在檢測(cè)速度方面,Haar+AdaBoost 和HOG+SVM 算法表現(xiàn)較好,能夠快速地檢測(cè)駕駛員的人臉區(qū)域,檢測(cè)速度最慢的是MTCNN算法,其次是SSD 算法。在人臉檢測(cè)準(zhǔn)確率上,MTCNN算法和SSD算法表現(xiàn)較好,且這兩種算法的魯棒性也較好,在戴墨鏡的數(shù)據(jù)集上,準(zhǔn)確率并沒(méi)有下降。其中SSD 的準(zhǔn)確率是置信度分別為0.5、0.6、0.7 以及0.8 時(shí)的平均值。當(dāng)設(shè)置SSD 人臉檢測(cè)的置信度為0.5和0.6時(shí),在YawDD數(shù)據(jù)集下,人臉檢測(cè)的準(zhǔn)確率在無(wú)遮擋以及戴墨鏡時(shí)都為100%。當(dāng)置信度超過(guò)0.6 時(shí),SSD 算法未檢測(cè)出來(lái)的照片大多是側(cè)臉超過(guò)45°或者是高度模糊的照片。本文從YawDD 數(shù)據(jù)集中隨機(jī)抽取4張駕駛員不同角度的駕駛圖片,如圖3到圖6所示。
圖3 不同算法人臉檢測(cè)結(jié)果(正臉無(wú)遮擋)Fig. 3 Face detection results of different algorithms(no masking of face)
圖4 不同算法人臉檢測(cè)結(jié)果(側(cè)臉無(wú)遮擋)Fig. 4 Face detection results of different algorithms(unobstructed side face)
圖5 不同算法人臉檢測(cè)結(jié)果(正臉戴眼鏡)Fig. 5 Face detection results of different algorithms(wearing glasses on face)
圖6 不同算法人臉檢測(cè)結(jié)果(側(cè)臉戴眼鏡)Fig. 6 Face detection results of different algorithms(wearing glasses on side of face)
由圖3 檢測(cè)到的人臉區(qū)域可以看出,Haar+AdaBoost和HOG+SVM的人臉檢測(cè)算法檢測(cè)到的人臉區(qū)域包含很多干擾區(qū)域(非人臉區(qū)域),SSD算法和MTCNN 算法檢測(cè)的人臉區(qū)域沒(méi)有明顯的差異。從圖4 的檢測(cè)結(jié)果可以看出,Haar+AdaBoost 的人臉檢測(cè)算法對(duì)于側(cè)臉的駕駛員魯棒性較差,不能準(zhǔn)確檢測(cè)到人臉。MTCNN 算法檢測(cè)到的人臉區(qū)域比SSD算法檢測(cè)到的區(qū)域更為精準(zhǔn),不會(huì)包含太多的噪聲區(qū)域。圖5和圖6的實(shí)驗(yàn)結(jié)果表明,HOG+SVM的人臉檢測(cè)算法在有遮擋駕駛員的檢測(cè)中表現(xiàn)不佳。
綜上所述,從整體實(shí)驗(yàn)結(jié)果來(lái)看,SSD 以及MTCNN 算法作為基于深度學(xué)習(xí)的人臉檢測(cè)算法準(zhǔn)確率要高于非深度學(xué)習(xí)的人臉檢測(cè)算法,但由于深度學(xué)習(xí)算法需要經(jīng)過(guò)多層卷積來(lái)提取特征,實(shí)時(shí)性較差。目前,MTCNN是疲勞駕駛檢測(cè)領(lǐng)域中應(yīng)用較多的人臉檢測(cè)算法,其為了得到精準(zhǔn)的人臉框,采用了3個(gè)級(jí)聯(lián)網(wǎng)絡(luò)。因此,MTCNN算法檢測(cè)速度較慢,但疲勞駕駛檢測(cè)對(duì)實(shí)時(shí)性要求較高,檢測(cè)速度越快,越能保證駕駛員的安全性。針對(duì)此問(wèn)題,文獻(xiàn)[28]指出,MTCNN 在進(jìn)行人臉檢測(cè)時(shí),通常會(huì)設(shè)置一個(gè)最小人臉尺寸。若MTCNN 輸入的圖片大于設(shè)置的最小人臉尺寸,則MTCNN 會(huì)根據(jù)提前設(shè)置的縮放比例,生成不同尺寸的人臉,組成人臉金字塔。由于駕駛員駕駛區(qū)域比較固定,且人臉區(qū)域在圖片中占據(jù)比例較大,可以通過(guò)固定車載攝像頭的位置以及金字塔圖片相鄰層間的縮放比例,減少M(fèi)TCNN輸入圖片金字塔的層數(shù)來(lái)提高人臉檢測(cè)的速率。該方法雖然在一定程度上能提高人臉檢測(cè)的速率,但MTCNN設(shè)計(jì)的初衷是用來(lái)在復(fù)雜場(chǎng)景的多個(gè)目標(biāo)中檢測(cè)人臉,因此其能否被應(yīng)用在疲勞駕駛檢測(cè)領(lǐng)域的人臉檢測(cè)上仍是一個(gè)值得研究的問(wèn)題,如何改良MTCNN,使其在不損失精確度的情況下更好地提高M(jìn)TCNN的人臉檢測(cè)速度仍是一個(gè)亟待解決的問(wèn)題。
特征提取是指在檢測(cè)到人臉的基礎(chǔ)上,提取出每一幀的面部特征。通過(guò)調(diào)研大量文獻(xiàn)發(fā)現(xiàn),目前在疲勞駕駛檢測(cè)領(lǐng)域,多數(shù)研究者基于眼睛或者嘴巴的特征來(lái)進(jìn)行駕駛員疲勞駕駛的檢測(cè)。本節(jié)將分別論述使用基于形狀的特征提取方法、基于手工的特征提取方法以及基于深度學(xué)習(xí)的特征提取方法在進(jìn)行眼睛或嘴巴特征提取時(shí)的優(yōu)缺點(diǎn)。
3.2.1 基于形狀的特征提取方法
基于形狀的特征提取方法,即根據(jù)眼睛、嘴巴以及頭部姿態(tài)的外觀形狀來(lái)提取特征。通過(guò)計(jì)算眼睛、嘴巴的開(kāi)合度以及頭部姿態(tài)偏轉(zhuǎn)角度來(lái)提取眼睛、嘴巴以及頭部的特征,以此來(lái)作為識(shí)別駕駛員眼睛、嘴巴以及頭部狀態(tài)的標(biāo)準(zhǔn)[12,21-23]。具體流程如圖7所示。
圖7 基于形狀的特征提取方法Fig. 7 Shape-based feature extraction method
3.2.1.1 眼睛特征提取
由圖7 所示,檢測(cè)到人臉以后,模型會(huì)對(duì)人臉上的關(guān)鍵點(diǎn)進(jìn)行標(biāo)注,隨后利用歐式距離來(lái)計(jì)算眼睛縱橫比EAR[41],求解方式如圖8以及式(5)所示:
圖8 眼睛縱橫比求解示意圖Fig. 8 Schematic diagram of eye aspect ratio solution
上述式(5)用來(lái)求解眼睛縱橫比EAR,根據(jù)求解出來(lái)的EAR來(lái)表示眼睛狀態(tài)。若EAR大于預(yù)先設(shè)定的閾值,則代表駕駛員為睜眼狀態(tài)。
3.2.1.2 嘴巴特征提取
同理,對(duì)人臉進(jìn)行關(guān)鍵點(diǎn)標(biāo)注后,可以利用嘴巴關(guān)鍵點(diǎn)使用歐氏距離來(lái)計(jì)算嘴巴的縱橫比MAR[42],求解方式如圖9以及式(6)所示:
圖9 嘴巴縱橫比求解示意圖Fig. 9 Schematic diagram of mouth aspect ratio solution
上述式(6)用來(lái)求解嘴巴縱橫比MAR。根據(jù)求解出來(lái)的MAR來(lái)表示駕駛員的嘴巴狀態(tài)。若MAR大于預(yù)先設(shè)定的閾值,則代表駕駛員為張嘴的狀態(tài)。
3.2.1.3 頭部姿態(tài)特征提取
由文獻(xiàn)[22]可知,頭部姿態(tài)的變化可分為3 個(gè)角度,即Pitch、Yaw以及Roll,分別表示為繞x軸旋轉(zhuǎn)的角度、繞y軸旋轉(zhuǎn)的角度以及繞z軸旋轉(zhuǎn)的角度。如圖10所示。
圖10 頭部姿態(tài)三維變動(dòng)方向圖解Fig. 10 Diagram of three-dimensional changing direction of head posture
當(dāng)駕駛員在疲勞駕駛時(shí)出現(xiàn)點(diǎn)頭的現(xiàn)象,就可以理解為頭部在x軸和z軸進(jìn)行的運(yùn)動(dòng),相應(yīng)的Pitch和Roll 角度會(huì)發(fā)生變化;而當(dāng)駕駛員頭部左右晃動(dòng)時(shí),可認(rèn)為頭部是在y軸上進(jìn)行活動(dòng),此時(shí)Yaw角度會(huì)發(fā)生變化。因此可通過(guò)計(jì)算Pitch、Yaw 以及Roll的角度變化即可提取駕駛員頭部姿態(tài)特征。目前,在頭部姿態(tài)上的提取方法不多,大部分提取方法都是在獲取到駕駛員的人臉關(guān)鍵點(diǎn)后通過(guò)幾何關(guān)系轉(zhuǎn)換坐標(biāo)系,從而獲得頭部姿態(tài)在角度Pitch、Yaw以及Roll上的變化情況。
3.2.1.4 基于形狀的特征提取方法小結(jié)
雖然用上述方法來(lái)識(shí)別眼睛、嘴巴以及頭部的狀態(tài)極其容易實(shí)現(xiàn),但是該方法存在如下缺點(diǎn):
(1)在駕駛過(guò)程中,駕駛員的人臉是一直動(dòng)態(tài)變化的,那么關(guān)鍵點(diǎn)的定位將會(huì)不準(zhǔn)確。因此,就無(wú)法準(zhǔn)確計(jì)算EAR和MAR。
針對(duì)該問(wèn)題,有部分學(xué)者提出了解決方法[19],雖然在一定程度上能夠緩解因?yàn)闄z測(cè)人臉關(guān)鍵點(diǎn)不準(zhǔn)確而導(dǎo)致計(jì)算眼睛和嘴巴閉合度有誤差的問(wèn)題,但依舊未能解決人臉關(guān)鍵點(diǎn)不準(zhǔn)確的問(wèn)題。
(2)此方法忽略了駕駛員個(gè)體差異這一關(guān)鍵問(wèn)題。人的眼睛、嘴巴有大小之分[43-44],若固定相同的閾值,不同的眼睛、嘴巴大小會(huì)有不同的結(jié)果。文獻(xiàn)[12,45]提出事先針對(duì)每一個(gè)人的訓(xùn)練分類庫(kù),用來(lái)解決駕駛員個(gè)體差異的問(wèn)題。但是,該方法對(duì)于一些租賃車輛和共享車輛來(lái)說(shuō),駕駛員身份是不能預(yù)料的。因此該方法的泛化能力較弱,而且隨著后續(xù)駕駛?cè)藬?shù)的增加,對(duì)計(jì)算機(jī)的存儲(chǔ)能力的要求會(huì)越來(lái)越高。
3.2.2 基于手工的特征提取方法
由于基于手工的特征提取方法需要根據(jù)圖片像素值進(jìn)行特征提取,只能用于提取駕駛員眼睛和嘴巴的特征?;谑止さ奶卣魈崛》椒ㄞ饤壛诵枰ㄟ^(guò)人臉精準(zhǔn)的關(guān)鍵點(diǎn)來(lái)計(jì)算眼睛和嘴巴的開(kāi)合度后,才能提取出駕駛員眼睛和嘴巴特征的方法。該方法只需要在得到人臉區(qū)域后,劃分出駕駛員眼睛和嘴巴的區(qū)域,后續(xù)通過(guò)圖像處理的技術(shù)來(lái)檢測(cè)眼睛和嘴巴的開(kāi)合來(lái)提取駕駛員眼睛和嘴巴的特征,以此來(lái)識(shí)別眼睛和嘴巴的狀態(tài),如圖11所示。
圖11 基于手工的特征提取方法Fig. 11 Hand-based feature extraction method
與基于形狀的特征提取方法不同的是,在分割眼睛和嘴巴區(qū)域時(shí),可根據(jù)人的“三庭五眼”的分布特征分割出眼睛和嘴巴的位置[24],或者根據(jù)關(guān)鍵點(diǎn)分割出大致的眼嘴區(qū)域。所謂“三庭五眼”,即人臉從縱向上,可分為三等份,發(fā)際線到眉毛占整張臉的1/3,眉毛到鼻子底部占1/3,鼻子底部到下巴為1/3;人臉從橫向上來(lái)說(shuō),可分為五等份,左臉發(fā)際線到左眼外眼角為1 份,左眼外眼角到左眼內(nèi)眼角為1 份,左眼內(nèi)眼睛到右眼內(nèi)眼角為1份,右眼內(nèi)眼角到右眼外眼角為1份,右眼外眼角到右臉發(fā)際線為1份。如圖12所示。
圖12 人臉的“三庭五眼”Fig. 12 “Three courts and five eyes”of human face
根據(jù)人臉“三庭五眼”的分布特征來(lái)截取人眼和嘴巴的大致區(qū)域,能夠緩解駕駛員側(cè)臉時(shí),人臉關(guān)鍵點(diǎn)定位不準(zhǔn)確的問(wèn)題。與基于形狀方法存在的固有問(wèn)題[46-48]相比,基于手工的特征提取方法能夠保證特征提取的魯棒性,提高眼睛和嘴巴狀態(tài)識(shí)別的準(zhǔn)確率。
3.2.2.1 眼睛特征提取
基于手工的特征提取方法在提取眼睛特征時(shí),主要是根據(jù)眼睛睜開(kāi)和閉合時(shí)皮膚紋理不同來(lái)判斷眼睛和嘴巴的狀態(tài)。當(dāng)眼睛閉合時(shí),瞳孔被遮蓋,此時(shí)皮膚紋理占據(jù)較多,反映到圖像上時(shí)表現(xiàn)為此區(qū)域偏亮,像素值較高。當(dāng)駕駛員睜眼時(shí),此時(shí)瞳孔可見(jiàn),反映到圖像上時(shí)表現(xiàn)為此區(qū)域偏暗,像素值較低。從本質(zhì)上來(lái)講,使用基于手工的特征提取方法對(duì)眼睛的狀態(tài)進(jìn)行判斷就是基于整張圖片像素值的總體變化來(lái)進(jìn)行狀態(tài)判斷的。表6 所示為人眼不同狀態(tài)下的二值圖像。
表6 人眼不同狀態(tài)二值圖像Table 6 Binary images of human eyes in different states
3.2.2.2 嘴巴特征提取
同理可得,基于手工的特征提取方法在提取嘴巴特征時(shí),則是根據(jù)嘴巴張開(kāi)和閉合時(shí)皮膚紋理不同來(lái)判斷嘴巴的狀態(tài)。當(dāng)嘴巴閉合時(shí),嘴唇緊閉,當(dāng)嘴巴張開(kāi)時(shí),能夠看到口腔,反映到圖像上時(shí),該區(qū)域會(huì)有不同的像素值。因此,可根據(jù)像素值的差異來(lái)區(qū)分駕駛員的嘴巴狀態(tài)。表7 所示為人嘴不同狀態(tài)下的二值圖像。
表7 人嘴不同狀態(tài)二值圖像Table 7 Binary images of human mouth in different states
3.2.2.3 基于手工的特征提取方法小結(jié)
綜上所述,基于手工的特征提取方法不通過(guò)人臉關(guān)鍵點(diǎn)來(lái)判斷眼睛和嘴巴的狀態(tài),解決了由于關(guān)鍵點(diǎn)不準(zhǔn)確而導(dǎo)致特征提取不準(zhǔn)確的問(wèn)題。本小節(jié)總結(jié)了近幾年來(lái)使用基于手工的特征提取方法的各種技術(shù),詳細(xì)內(nèi)容見(jiàn)表8。
表8 基于手工的特征提取技術(shù)Table 8 Manually based feature extraction technology
雖然該方法不需要訓(xùn)練且易于實(shí)現(xiàn),但該類方法對(duì)圖片質(zhì)量要求較高,受光照強(qiáng)度、駕駛員是否佩戴眼鏡以及圖片中是否存在不相關(guān)的目標(biāo)等因素的影響較大,而且在進(jìn)行眼睛和嘴巴區(qū)域分割時(shí)對(duì)像素值較敏感,多變的環(huán)境也容易使圖像分割效果變差。雖然文獻(xiàn)[17]提出了可以使用多種方法綜合評(píng)價(jià)駕駛員眼睛和嘴巴的狀態(tài),一定程度可以緩解外界環(huán)境帶來(lái)的影響,但嚴(yán)格意義上來(lái)說(shuō),并未能解決駕駛員個(gè)性化問(wèn)題。
3.2.3 基于深度學(xué)習(xí)的特征提取方法
由于使用深度學(xué)習(xí)算法能在復(fù)雜環(huán)境下獲得更有效的特征且具有較高的識(shí)別準(zhǔn)確率,在疲勞駕駛檢測(cè)領(lǐng)域已成為研究熱點(diǎn)。在使用基于深度學(xué)習(xí)的特征提取方法時(shí),通常分為兩種:
一種是只提取駕駛員整張臉的局部特征,如文獻(xiàn)[24]通過(guò)改進(jìn)的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)確定人臉區(qū)域,根據(jù)人臉的面部比例關(guān)系定位駕駛?cè)说难鄄颗c嘴部區(qū)域,利用基于Ghost 模塊的輕量化AlexNet 分類檢測(cè)眼部與嘴部的開(kāi)閉狀態(tài);文獻(xiàn)[53]首先在普通卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建一個(gè)疲勞檢測(cè)卷積網(wǎng)絡(luò)(fatigue detection convolutional neural network,F(xiàn)DCN),然后將投影核引入FDCN 來(lái)構(gòu)造P-FDCN 用來(lái)提取眼睛的特征;文獻(xiàn)[29]提出了一種基于特征校準(zhǔn)和融合的多粒度深度卷積模型用于駕駛員疲勞檢測(cè),該深度模型利用來(lái)自局部人臉的線索來(lái)減輕姿態(tài)變化,并從全局人臉和不同的局部部分獲得魯棒的特征表示,使用長(zhǎng)短期記憶網(wǎng)絡(luò)用于探索序列幀之間的關(guān)系,以區(qū)分具有相似外觀(說(shuō)話、大笑和打哈欠)的動(dòng)作。
另一種是提取駕駛員整張臉的全局特征,進(jìn)而識(shí)別駕駛員的面部表情。例如文獻(xiàn)[15]提出一種以softmax損失與中心損失相結(jié)合的深度卷積神經(jīng)網(wǎng)絡(luò)算法用來(lái)提取駕駛員面部疲勞特征,在自建測(cè)試集和YawDD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,該方法能夠準(zhǔn)確地識(shí)別檢測(cè)駕駛員疲勞表情;文獻(xiàn)[26]為了充分利用駕駛員面部特征信息與時(shí)間特征,提出一種基于偽3D卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制的駕駛疲勞檢測(cè)方法,利用注意力機(jī)制進(jìn)一步分析哈欠、眨眼和頭部特征運(yùn)動(dòng),將哈欠行為與說(shuō)話行為動(dòng)作很好地區(qū)分開(kāi)來(lái)。
在目前的研究成果中,大部分研究者通常使用關(guān)鍵點(diǎn)定位法或者根據(jù)人臉“三庭五眼”的分布特征,來(lái)獲取人臉局部區(qū)域,隨后將其獲取的局部區(qū)域送入特征提取網(wǎng)絡(luò)來(lái)進(jìn)行特征提??;將整張臉輸入到特征提取網(wǎng)絡(luò)中,進(jìn)而提取駕駛員面部疲勞特征或者眼睛、嘴巴狀態(tài)的方法較少。這兩類提取方法的流程如圖13所示。
圖13 基于深度學(xué)習(xí)的特征提取方法Fig. 13 Feature extraction method based on deep learning
3.2.3.1 眼睛特征提取
在進(jìn)行眼睛特征提取時(shí),研究者將提前訓(xùn)練眼睛狀態(tài)分類器。在訓(xùn)練眼睛狀態(tài)分類器時(shí),需要事先準(zhǔn)備大量不同眼睛狀態(tài)的數(shù)據(jù)集,包括閉眼數(shù)據(jù)集、睜眼數(shù)據(jù)集以及半閉眼數(shù)據(jù)集,如表9所示。
表9 基于深度學(xué)習(xí)的眼睛特征提取方法Table 9 Eye feature extraction methods based on deep learning
3.2.3.2 嘴巴特征提取
與眼睛特征提取方法類似,在進(jìn)行嘴巴特征提取時(shí),也需要提前訓(xùn)練嘴巴狀態(tài)分類器。訓(xùn)練嘴巴狀態(tài)分類器時(shí),也需要事先準(zhǔn)備大量打哈欠、正常說(shuō)話以及閉嘴狀態(tài)下的嘴部圖片數(shù)據(jù)集,如表10所示。
表10 基于深度學(xué)習(xí)的嘴巴特征提取方法Table 10 Mouth feature extraction methods based on deep learning
3.2.3.3 面部表情特征提取
有部分研究者表明,人臉面部表情也能夠表明駕駛員是否存在疲勞駕駛。當(dāng)駕駛員打哈欠、閉眼時(shí),此時(shí)的面部表情與清醒狀態(tài)下的面部表情存在一定的差異。因此,有研究者將整張人臉區(qū)域送入CNN 中進(jìn)行駕駛員面部表情的提取。與眼睛、嘴巴特征提取同理,在進(jìn)行駕駛面部表情特征提取時(shí),需要提前訓(xùn)練面部表情分類器。在疲勞駕駛檢測(cè)領(lǐng)域,該表情分類器可分為四類表情:清醒、說(shuō)話、大笑和疲勞等。因此,在訓(xùn)練表情分類器時(shí),需要事先準(zhǔn)備好大量清醒、說(shuō)話、大笑以及疲勞狀態(tài)下的人臉圖像,如表11所示。
表11 基于深度學(xué)習(xí)的面部表情特征提取方法Table 11 Facial expression feature extraction methods based on deep learning
3.2.3.4 基于深度學(xué)習(xí)的特征提取方法小結(jié)
綜上所述,無(wú)論是進(jìn)行眼睛、嘴巴特征的提取還是面部表情特征的提取,該方法都需要提前訓(xùn)練好一個(gè)分類網(wǎng)絡(luò)來(lái)識(shí)別駕駛員的局部或者全局特征。因此需要預(yù)先準(zhǔn)備大量的數(shù)據(jù)集,才能在復(fù)雜環(huán)境下獲得更有效的疲勞特征。
從表9~表11 可以看出,該類方法在特征提取方面使用的數(shù)據(jù)集的來(lái)源、種類以及數(shù)據(jù)集狀態(tài)較為相似,雖然所使用的分類網(wǎng)絡(luò)大不相同,但對(duì)分類網(wǎng)絡(luò)的選擇并沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。分類網(wǎng)絡(luò)的選擇可以根據(jù)疲勞駕駛檢測(cè)需要,結(jié)合疲勞駕駛檢測(cè)實(shí)時(shí)性要求以及提取特征能力等方面進(jìn)行考慮。研究者們可以在原有網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)或者設(shè)計(jì)一個(gè)新的網(wǎng)絡(luò),有關(guān)深度學(xué)習(xí)目標(biāo)檢測(cè)算法的改進(jìn)可參考文獻(xiàn)[54-55]。
雖然基于深度學(xué)習(xí)的特征提取方法是目前較為流行的方法之一,但目前仍舊存在以下問(wèn)題:
(1)從上述表中可以看出,大部分研究者在使用該類方法提取人臉特征時(shí),只將人眼(嘴巴)數(shù)據(jù)集狀態(tài)分為完全睜眼(張嘴)和完全閉眼(閉嘴)兩類,但駕駛員的眼睛有大小之分,因此,若在訓(xùn)練分類模型時(shí),所使用的數(shù)據(jù)集不夠全面,未考慮駕駛員的個(gè)性化問(wèn)題,那么訓(xùn)練出來(lái)的模型的魯棒性以及泛化能力將會(huì)較弱,且模型通用性不強(qiáng)。
(2)目前,大部分研究者僅僅是提取駕駛員眼睛和嘴巴的疲勞特征,但除了眼睛和嘴巴之外,臉部其他位置也能夠反映出來(lái)駕駛員的疲勞狀態(tài)[18]。因此,后續(xù)研究者也可以考慮除眼睛、嘴巴之外的面部特征。
3.2.4 小結(jié)
現(xiàn)階段,上述三種特征提取方法依然被廣泛應(yīng)用于疲勞駕駛檢測(cè)領(lǐng)域,其優(yōu)缺點(diǎn)如表12 所示。表13總結(jié)了幾篇具有代表性的疲勞駕駛檢測(cè)方法的優(yōu)勢(shì)和所存在的局限性。
表12 三種特征提取方法的優(yōu)缺點(diǎn)Table 12 Advantages and disadvantages of three feature extraction methods
表13 基于駕駛員面部特征的疲勞駕駛檢測(cè)方法Table 13 Fatigue driving detection methods based on driver‘s facial features
近幾年,雖然隨著深度學(xué)習(xí)以及計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的特征提取方法逐漸成為了研究熱點(diǎn),但從表12 和表13 可以看出,上述三種方法各有優(yōu)缺點(diǎn),都還有很大的研究空間。
3.3.1 疲勞判別參數(shù)
一段時(shí)間內(nèi)眼瞼閉合覆蓋瞳孔的面積百分比(percentage of eyelid closure over the pupil over time,PERCLOS)是最權(quán)威的疲勞判別參數(shù),也是最主流的參數(shù)之一[56],它是卡內(nèi)基梅隆研究所經(jīng)過(guò)反復(fù)實(shí)驗(yàn)和論證,提出的度量疲勞或者瞌睡的方法。其定義為單位時(shí)間內(nèi)眼睛閉合一定比例所占的時(shí)間,計(jì)算公式如式(7)所示:
其中,NCloseFrame為單位時(shí)間內(nèi)的閉眼幀數(shù),NTotalFrame為單位時(shí)間內(nèi)的總幀數(shù)。
PERCLOS 通常用P80、P70 和EM 來(lái)判斷眼睛是睜開(kāi)還是閉合,具體標(biāo)準(zhǔn)如下:
(1)P80:眼瞼覆蓋瞳孔的面積超過(guò)80%就判定眼睛為閉合狀態(tài),統(tǒng)計(jì)在單位時(shí)間內(nèi)眼睛閉合所占總時(shí)間比例。
(2)P70:眼瞼覆蓋瞳孔的面積超過(guò)70%就判定眼睛為閉合狀態(tài),統(tǒng)計(jì)在單位時(shí)間內(nèi)眼睛閉合所占總時(shí)間比例。
(3)EM(EYEMEAS):眼瞼覆蓋瞳孔的面積超過(guò)一半就判定眼睛為閉合狀態(tài),統(tǒng)計(jì)在單位時(shí)間內(nèi)眼睛閉合所占總時(shí)間比例。
受PERCLOS疲勞參數(shù)的啟發(fā),有學(xué)者提出了新的眼睛狀態(tài)疲勞參數(shù)。由于PERCLOS 參數(shù)只是計(jì)算單位時(shí)間內(nèi)眼睛閉合幀數(shù)占檢測(cè)時(shí)間段總幀數(shù)的百分比,文獻(xiàn)[12]提出檢測(cè)單位時(shí)間內(nèi)眨眼次數(shù)的百分比也能準(zhǔn)確反映出駕駛員的疲勞狀態(tài)。并通過(guò)實(shí)驗(yàn)證明了此疲勞參數(shù)相較于PERCLOS參數(shù),檢測(cè)疲勞駕駛狀態(tài)的準(zhǔn)確率得到了提升。此疲勞參數(shù)的公式如式(8)所示:
其中,NEyeBlink為眨眼的次數(shù),T為總時(shí)間。
借鑒應(yīng)用到眼睛狀態(tài)上的疲勞參數(shù),將單位時(shí)間內(nèi)打哈欠的次數(shù)作為嘴巴狀態(tài)的疲勞參數(shù)[28]。嘴巴狀態(tài)的疲勞參數(shù)公式如式(9)所示:
其中,NYawn為打哈欠的次數(shù),T為總時(shí)間。
凝視方向的疲勞判斷參數(shù)定義為單位時(shí)間內(nèi)出現(xiàn)視線下移或偏移的幀數(shù)占單位時(shí)間內(nèi)總幀數(shù)的百分比[14],如式(10)所示:
其中,NDownGazeFrame為單位時(shí)間內(nèi)視線偏移或者下移的幀數(shù),NTotalFrame為單位時(shí)間內(nèi)的總幀數(shù)。
面部表情的疲勞判別參數(shù)定義為單位時(shí)間內(nèi)出現(xiàn)疲勞表情的幀數(shù)占單位時(shí)間內(nèi)總幀數(shù)的百分比[14]。其面部特征的疲勞判斷參數(shù)如式(11)所示:
其中,NFatigueFrame為單位時(shí)間內(nèi)出現(xiàn)疲勞表情的幀數(shù),NTotalFrame為單位時(shí)間內(nèi)的總幀數(shù)。
上述提出的疲勞判別參數(shù)都是疲勞駕駛檢測(cè)中經(jīng)常被使用的,研究者們應(yīng)根據(jù)所研究駕駛員面部特征的實(shí)際情況選擇。另外也可以使用多指標(biāo)融合來(lái)進(jìn)行疲勞駕駛檢測(cè)的判別,例如使用式(7)和式(8)共同作為眼睛狀態(tài)的判別參數(shù)。
3.3.2 疲勞駕駛結(jié)果預(yù)測(cè)
當(dāng)駕駛員出現(xiàn)疲勞狀態(tài)時(shí),一般情況下,駕駛員會(huì)出現(xiàn)第1 章中所提到的疲勞駕駛面部表現(xiàn)。因此疲勞駕駛應(yīng)為一個(gè)連續(xù)性的動(dòng)作,僅僅只憑借一幀圖片的特征并不能判定駕駛員存在疲勞駕駛的行為。另外當(dāng)駕駛員出現(xiàn)交談的行為時(shí),其和打哈欠的行為是非常相似的,都有張嘴和閉嘴的行為。駕駛員在清醒狀態(tài)時(shí)也會(huì)存在眨眼的行為,也會(huì)出現(xiàn)睜眼和閉眼的狀態(tài)。因此,需要有一個(gè)指標(biāo)來(lái)評(píng)價(jià)駕駛員是否疲勞駕駛。
目前,大多數(shù)研究者往往根據(jù)3.3.1 小節(jié)中提到的疲勞判別參數(shù),統(tǒng)計(jì)一段時(shí)間內(nèi)駕駛員眼睛閉合幀數(shù)、眨眼次數(shù)、嘴巴張開(kāi)幀數(shù)、哈欠次數(shù)以及出現(xiàn)疲勞狀態(tài)幀數(shù)等所占總時(shí)長(zhǎng)的比例,然后結(jié)合第1章提到的疲勞駕駛面部特征表現(xiàn)來(lái)判斷駕駛員是否疲勞駕駛[57]。
但判斷駕駛員是否進(jìn)行了一個(gè)眨眼動(dòng)作或者打哈欠的動(dòng)作時(shí),必須要提取駕駛員睜眼時(shí)的特征,還要提取到駕駛員閉眼時(shí)的特征,整個(gè)過(guò)程才是一個(gè)眨眼過(guò)程。因此,有關(guān)學(xué)者認(rèn)為只關(guān)注空間特征的方法忽略了疲勞特征的時(shí)間信息和特征之間的關(guān)系,會(huì)降低識(shí)別的準(zhǔn)確率。針對(duì)該問(wèn)題,一部分研究者使用3D神經(jīng)網(wǎng)絡(luò)[26-27]、LSTM網(wǎng)絡(luò)[29]以及遞歸神經(jīng)網(wǎng)絡(luò)[57]等網(wǎng)絡(luò)用來(lái)獲取特征的時(shí)間信息。該類方法不會(huì)只關(guān)注空間上的特征,還會(huì)關(guān)注幀與幀之間的時(shí)間特征。該方法在提取特征時(shí),會(huì)將提取到的每一幀特征連接起來(lái),最終呈現(xiàn)出一個(gè)大的特征向量,然后送入分類網(wǎng)絡(luò)。此時(shí)分類網(wǎng)絡(luò)輸出的結(jié)果不再是睜眼、閉眼、張嘴以及閉嘴等,而是輸出結(jié)果為眨眼和打哈欠等。
雖然考慮時(shí)間信息的方法結(jié)合了駕駛員空間以及時(shí)間特性,但該類方法所使用的網(wǎng)絡(luò)一般較復(fù)雜,在時(shí)間開(kāi)銷上較大,且并未有具體且全面的實(shí)驗(yàn)表明考慮時(shí)間信息的方法在實(shí)時(shí)性、實(shí)用性以及模型輕量化等方面相較于只提取空間特征的方法會(huì)有較為明顯的優(yōu)勢(shì)。而且該類方法在判斷駕駛員是否疲勞駕駛結(jié)果時(shí)依舊需要在疲勞判別參數(shù)的基礎(chǔ)上進(jìn)行。因此,在后續(xù)的研究中,還需要使用大量實(shí)驗(yàn)證明考慮時(shí)間信息方法是否在各方面都具有較為明顯的優(yōu)勢(shì)。
本節(jié)分析總結(jié)了疲勞駕駛檢測(cè)流程中關(guān)鍵步驟所常用的方法以及現(xiàn)存的優(yōu)缺點(diǎn)。在疲勞駕駛檢測(cè)模型的選擇中,研究者應(yīng)該從以下兩方面考慮:
(1)實(shí)時(shí)性。對(duì)駕駛員來(lái)說(shuō),疲勞駕駛檢測(cè)系統(tǒng)能夠快速響應(yīng),及時(shí)地給駕駛員提醒是十分重要的。因此這就要求所選模型應(yīng)當(dāng)輕量化。
(2)準(zhǔn)確性。疲勞駕駛檢測(cè)結(jié)果應(yīng)該盡可能準(zhǔn)確,盡量避免出現(xiàn)誤檢、漏檢的情況。
因此,若要兼顧上述兩方面,每個(gè)步驟方法或者模型的選擇就需要從宏觀上來(lái)考慮。
在人臉檢測(cè)模型選擇上,應(yīng)該考慮的重點(diǎn)方面是模型實(shí)時(shí)性、準(zhǔn)確率以及標(biāo)注的人臉區(qū)域的精準(zhǔn)性(非人臉區(qū)域面積占比較少)。比較理想的人臉檢測(cè)模型應(yīng)當(dāng)滿足實(shí)時(shí)性好、準(zhǔn)確率高以及標(biāo)注的人臉區(qū)域精準(zhǔn)。但往往一個(gè)模型并不能同時(shí)兼顧這三方面,因此需要結(jié)合特征提取方法來(lái)進(jìn)行選擇。
由3.2 節(jié)可知,特征提取方法分為三類:基于形狀的特征提取方法、基于手工的特征提取方法以及基于深度學(xué)習(xí)的特征提取方法。
基于形狀的特征提取方法速度較快,但是對(duì)人臉關(guān)鍵點(diǎn)的標(biāo)注要求較高,越標(biāo)準(zhǔn)的人臉姿態(tài),人臉關(guān)鍵點(diǎn)標(biāo)注得越精準(zhǔn)。因此在選擇人臉檢測(cè)算法時(shí),應(yīng)當(dāng)選擇一些人臉檢測(cè)準(zhǔn)確率較高和帶有人臉矯正功能的算法。該類算法一般結(jié)構(gòu)較復(fù)雜,因此實(shí)時(shí)性較差,但基于形狀的特征提取方法速度較快,可以彌補(bǔ)人臉檢測(cè)算法的缺點(diǎn)。
基于手工的特征提取方法速度稍慢于基于形狀的特征提取方法,且其對(duì)圖像質(zhì)量要求較高,受光照等環(huán)境因素影響較大。因此在人臉檢測(cè)算法的選擇上,可側(cè)重于選擇準(zhǔn)確率較高、實(shí)時(shí)性稍好且標(biāo)注的人臉區(qū)域較精準(zhǔn)的算法。
基于深度學(xué)習(xí)的特征提取方法由于對(duì)圖像質(zhì)量要求不是特別高且提取結(jié)果較好的優(yōu)點(diǎn),尤其是基于CNN 的特征提取方法,成為目前研究者使用最多的方法。目前大部分基于CNN的特征提取方法精度較高,但由于網(wǎng)絡(luò)結(jié)構(gòu)較深,實(shí)時(shí)性較差。因此在選擇人臉檢測(cè)算法時(shí),應(yīng)選擇一些實(shí)時(shí)性較好的算法。但在真實(shí)駕駛環(huán)境下,駕駛員的人臉一般會(huì)占據(jù)圖片的主要區(qū)域,因此也可以考慮使用輕量型網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)人臉特征提取及分類。而此時(shí)在人臉檢測(cè)算法的選擇上,可以使用一些功能較全面的算法。
另外,在后續(xù)的疲勞駕駛預(yù)測(cè)時(shí),在進(jìn)行疲勞判別參數(shù)的選擇時(shí),多個(gè)參數(shù)共同進(jìn)行疲勞駕駛的判別要比單參數(shù)判別較好,因此可以使用多參數(shù)共同進(jìn)行疲勞的判別。例如,眼部狀態(tài)可以使用PERCLOS參數(shù)和眨眼次數(shù)共同來(lái)進(jìn)行眼部疲勞的判別。同理,嘴部狀態(tài)也可以使用多參數(shù)共同判別。
綜上所述,在駕駛員的疲勞駕駛檢測(cè)中,人臉檢測(cè)算法的選擇和特征提取方法的選擇尤為重要。因此,在后續(xù)研究中,研究者根據(jù)實(shí)際情況為每一步選擇合適的方法,使得最終模型兼顧實(shí)時(shí)性和準(zhǔn)確性。
隨著計(jì)算機(jī)視覺(jué)的發(fā)展,基于駕駛員面部特征的疲勞駕駛檢測(cè)在疲勞駕駛檢測(cè)領(lǐng)域成為了大量學(xué)者的研究熱點(diǎn),本文根據(jù)基于駕駛員面部特征的疲勞駕駛檢測(cè)流程,總結(jié)了常用數(shù)據(jù)集的優(yōu)缺點(diǎn)以及適用范圍,整理分析了近幾年檢測(cè)流程中關(guān)鍵步驟所使用的方法技術(shù)。雖然基于駕駛員面部特征的疲勞駕駛檢測(cè)已有很多研究成果,但目前依舊面臨著很大的挑戰(zhàn),主要問(wèn)題可概括為以下幾個(gè)方面:
(1)數(shù)據(jù)集。如第2 章提到的,目前公開(kāi)免費(fèi)且使用較多的數(shù)據(jù)集僅有三種。這三種數(shù)據(jù)集各有優(yōu)缺點(diǎn),但這三種數(shù)據(jù)集都存在一個(gè)很嚴(yán)重的問(wèn)題,即數(shù)據(jù)集的真實(shí)性。YawDD雖然拍攝環(huán)境是真實(shí)的車內(nèi)環(huán)境,有一些哈欠數(shù)據(jù)集存在明顯擺拍痕跡;NTHU-DDD數(shù)據(jù)集是這三種數(shù)據(jù)集中最全面的數(shù)據(jù)集,包括了很多的疲勞動(dòng)作,雖然也是擺拍視頻,但是駕駛員疲勞或者清醒的狀態(tài)較真實(shí),該數(shù)據(jù)集拍攝環(huán)境并不是真實(shí)的車內(nèi)環(huán)境,且夜間的數(shù)據(jù)集是在夜間照明情況下拍攝的,很多駕駛員在夜間行駛時(shí)并不會(huì)打開(kāi)照明等;有一些質(zhì)量較好的數(shù)據(jù)集,目前仍未公開(kāi)。目前在疲勞駕駛檢測(cè)領(lǐng)域最主要的問(wèn)題就是缺乏真實(shí)且全面的數(shù)據(jù)集,這將為后續(xù)研究帶來(lái)很大的阻力。
(2)駕駛員個(gè)性化問(wèn)題。在疲勞駕駛檢測(cè)的研究中,多數(shù)研究者只將關(guān)注重點(diǎn)放在檢測(cè)駕駛員的眨眼頻率以及打哈欠頻率上,但由于每個(gè)駕駛員眼睛大小以及嘴巴大小各不相同,雖然有研究者提出提取駕駛員臉部的全局特征或者除眼睛、嘴巴之外的局部特征來(lái)解決駕駛員個(gè)性化的問(wèn)題,但在數(shù)據(jù)集的選擇上只有疲勞特征較明顯的數(shù)據(jù)(打哈欠時(shí)的數(shù)據(jù)),并沒(méi)有在各種疲勞狀態(tài)時(shí)做大量實(shí)驗(yàn)來(lái)證明該方法的通用性。
(3)人臉檢測(cè)問(wèn)題。在基于形狀的特征提取方法中,需要利用精準(zhǔn)的人臉關(guān)鍵點(diǎn)才能準(zhǔn)確計(jì)算出眼睛和嘴巴的縱橫比。但如果駕駛員被攝像頭拍攝到的不是正臉區(qū)域,只是一個(gè)側(cè)臉區(qū)域,這往往會(huì)導(dǎo)致駕駛員人臉關(guān)鍵點(diǎn)標(biāo)注不準(zhǔn)確,從而導(dǎo)致駕駛員面部特征提取不夠精準(zhǔn)?;谑止さ奶卣魈崛》椒ê突谏疃葘W(xué)習(xí)的特征提取方法雖然可以不使用人臉關(guān)鍵點(diǎn),但這兩類方法仍然需要一個(gè)較精準(zhǔn)的正臉區(qū)域。
(4)疲勞過(guò)程的檢測(cè)。目前,在疲勞駕駛檢測(cè)領(lǐng)域的研究中,大部分學(xué)者使用的方法是提取每一幀圖片中駕駛員的面部疲勞特征,提取完連續(xù)多幀面部疲勞特征后,根據(jù)疲勞判斷參數(shù)來(lái)判斷駕駛員是否存在疲勞駕駛的風(fēng)險(xiǎn)。但疲勞駕駛也是一個(gè)面部表情發(fā)生變化的過(guò)程問(wèn)題,雖然有一些學(xué)者提出檢測(cè)駕駛員一段視頻中的眨眼和打哈欠動(dòng)作,并在一些數(shù)據(jù)集上取得了不錯(cuò)的成果,但目前在這方面的研究成果還是較少,且使用的數(shù)據(jù)集都是較為理想狀態(tài)下的數(shù)據(jù)集,而且該方法模型結(jié)構(gòu)一般較大。
(5)疲勞眨眼檢測(cè)。目前,大部分研究者都是通過(guò)統(tǒng)計(jì)一段時(shí)間內(nèi)的眨眼或者打哈欠的次數(shù)來(lái)判斷駕駛員是否存在疲勞駕駛風(fēng)險(xiǎn)。但有一些駕駛員習(xí)慣于頻繁眨眼,因此,并不能僅把眨眼次數(shù)算作疲勞檢測(cè)的標(biāo)準(zhǔn)。
因此,在后續(xù)研究中,可通過(guò)以下方法來(lái)解決上述問(wèn)題。
(1)數(shù)據(jù)集。在后續(xù)研究中,希望更多研究者可以將自建數(shù)據(jù)集對(duì)外公開(kāi);另外,在后續(xù)拍攝數(shù)據(jù)集時(shí),為了數(shù)據(jù)集的真實(shí)性,拍攝過(guò)程中可隨時(shí)對(duì)駕駛員進(jìn)行問(wèn)卷調(diào)查,以此來(lái)確定駕駛員當(dāng)前的駕駛狀態(tài),進(jìn)而對(duì)拍攝的數(shù)據(jù)集打標(biāo)簽。
(2)駕駛員個(gè)性化問(wèn)題。在后續(xù)研究中,有三個(gè)待研究的方向:一是使用基于形狀的特征提取方法,通過(guò)設(shè)定個(gè)性化閾值來(lái)解決該問(wèn)題;二是探究除眼睛和嘴巴之外的可以體現(xiàn)駕駛員疲勞的臉部區(qū)域,例如人眼的凝視方向、面部表情的編碼等;三是完善實(shí)驗(yàn)設(shè)計(jì),來(lái)證明一些研究者所提方法的通用性以及有效性。
(3)人臉檢測(cè)問(wèn)題。在后續(xù)研究中,當(dāng)攝像頭拍攝到的駕駛員圖像是側(cè)臉時(shí),可考慮使用3D建模、生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)等技術(shù),通過(guò)駕駛員的側(cè)臉生成駕駛員正臉圖像。
(4)疲勞過(guò)程的檢測(cè)。在后續(xù)的研究中,學(xué)者們可通過(guò)使用高質(zhì)量的數(shù)據(jù)集來(lái)驗(yàn)證一些學(xué)者提出檢測(cè)駕駛員一段視頻中的眨眼和打哈欠動(dòng)作方法的優(yōu)點(diǎn),另外,在保證方法的準(zhǔn)確率的情況下研究輕量型的網(wǎng)絡(luò)。
(5)疲勞眨眼檢測(cè)。大量研究表明,當(dāng)一個(gè)人存在緩慢眨眼時(shí),很可能存在疲勞駕駛的風(fēng)險(xiǎn)。因此,在后續(xù)研究中,研究者們可以嘗試通過(guò)統(tǒng)計(jì)緩慢眨眼的次數(shù)來(lái)作為駕駛員是否疲勞的標(biāo)準(zhǔn)。