黃麗媛,吳南壽,王雪花,曾亞光,韓定安,周月霞
(1.佛山科學(xué)技術(shù)學(xué)院 物理與光電工程學(xué)院;2.佛山科學(xué)技術(shù)學(xué)院 電子信息工程學(xué)院,廣東 佛山 528200)
為了實(shí)現(xiàn)課堂教學(xué)考勤的自動(dòng)化,部分高校使用考勤系統(tǒng)來(lái)替代人工考勤。常見的考勤系統(tǒng)有射頻卡考勤系統(tǒng)、指紋考勤系統(tǒng)和人臉識(shí)別考勤系統(tǒng)。與射頻卡考勤系統(tǒng)和指紋考勤系統(tǒng)相比,人臉識(shí)別考勤系統(tǒng)具有非接觸、圖像獲取簡(jiǎn)單、在實(shí)際應(yīng)用場(chǎng)景中可以同時(shí)進(jìn)行多個(gè)人臉的檢測(cè)與識(shí)別等優(yōu)點(diǎn),是一種友好的、直觀的、便利的技術(shù)[1,2]。目前大多數(shù)高校教室里都配備有監(jiān)測(cè)相機(jī),可以利用這些監(jiān)測(cè)相機(jī)拍攝課堂照片,通過(guò)機(jī)器學(xué)習(xí)的算法對(duì)這些拍攝的圖像進(jìn)行人臉識(shí)別,實(shí)現(xiàn)對(duì)上課學(xué)生和老師的自動(dòng)考勤。
圖1 算法流程圖Fig.1 Algorithm flowchart
在人臉識(shí)別考勤時(shí),學(xué)生會(huì)出現(xiàn)抬頭、低頭、側(cè)臉等人臉角度變化,以及人臉表情變化和人臉被前面同學(xué)遮擋的現(xiàn)象,這些現(xiàn)象是影響人臉識(shí)別算法識(shí)別準(zhǔn)確率的關(guān)鍵因素。為了解決人臉角度、表情變化和人臉部分遮擋導(dǎo)致人臉識(shí)別算法識(shí)別不準(zhǔn)的問題,本文提出一種基于特征向量提取和SVM(Support Vector Machine)分類器的人臉識(shí)別方法,該方法包括用于提取人臉特征向量的深度神經(jīng)網(wǎng)絡(luò)模型和用于識(shí)別的SVM分類器。首先采用三元組損失函數(shù)(triplet loss)[3]作為目標(biāo)函數(shù),訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型直接學(xué)習(xí)從人臉圖像到歐氏空間的映射,使人臉圖像輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型后直接輸出人臉特征向量;然后將人臉特征向量作為SVM分類器的輸入并訓(xùn)練;最后將訓(xùn)練好的分類器用于課堂人臉識(shí)別考勤。在對(duì)12名學(xué)生同時(shí)進(jìn)行實(shí)際課堂考勤的實(shí)驗(yàn)中,本文提出的方法在人臉角度、表情變化和人臉部分遮擋的情況下能夠達(dá)到92.68%的人臉識(shí)別準(zhǔn)確率。說(shuō)明本文提出的基于特征向量提取和SVM分類器的人臉識(shí)別方法可以實(shí)現(xiàn)準(zhǔn)確全面的課堂考勤。
本文提出的基于特征向量提取和SVM分類器的人臉識(shí)別方法流程如圖1所示。在人臉識(shí)別前,先使用攝像機(jī)采集12名學(xué)生的視頻圖像,再使用MTCNN人臉檢測(cè)器[4]截取人臉區(qū)域圖像并保存,用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型提取人臉特征向量,最后將人臉特征向量輸入SVM分類器進(jìn)行訓(xùn)練。在人臉識(shí)別階段,教室前端的攝像機(jī)每隔5min拍攝一張學(xué)生上課的圖像并保存到服務(wù)器,人臉識(shí)別的程序在服務(wù)器上運(yùn)行。人臉識(shí)別前,同樣使用MTCNN人臉檢測(cè)器截取考勤圖像中的人臉區(qū)域圖像并保存。然后將人臉圖像輸入深度神經(jīng)網(wǎng)絡(luò)模型得到人臉特征向量,并使用訓(xùn)練好的SVM分類器進(jìn)行識(shí)別。最后將學(xué)生出勤情況寫入Excel中。其中,使用MTCNN進(jìn)行人臉檢測(cè)的優(yōu)勢(shì)是:該算法對(duì)人臉姿態(tài)變化和極端光照影響具有一定的魯棒性;算法運(yùn)行速度快,實(shí)時(shí)性能良好。
本文使用Inception-ResNet-v1[5]殘差神經(jīng)網(wǎng)絡(luò)(Residual neural network)模型[6]提取人臉特征向量。該模型的訓(xùn)練集采用VGGFace2數(shù)據(jù)集[7]。其中,三元組損失函數(shù)作為目標(biāo)函數(shù)用于該模型的訓(xùn)練。三元組損失函數(shù)中規(guī)定同一個(gè)人的兩張圖像為正樣本,不同人的兩張圖像為負(fù)樣本。通過(guò)訓(xùn)練網(wǎng)絡(luò)模型最小化正樣本特征向量之間的歐式距離的同時(shí)增加負(fù)樣本特征向量之間的歐式距離,從而使人臉特征向量之間的歐式距離直接代表人臉相似度。三元組損失函數(shù)為:
公式(1)中的a(anchor)和p(positive)分別表示同一個(gè)人的兩張不同圖像,這兩張圖像表示一個(gè)正樣本圖像對(duì);a(anchor)和n(positive)分別表示不同人的兩張不同圖像,這兩張圖像表示一個(gè)負(fù)樣本圖像對(duì);α為閾值;xa和xp表示正樣本的人臉特征向量;xa和xp表示負(fù)樣本的人臉特征向量。
人臉識(shí)別是一個(gè)多分類問題,本文的SVM分類器訓(xùn)練采用一對(duì)一方法(OvO)。要識(shí)別K名學(xué)生,即K類問題,OvO直接訓(xùn)練出k(k-1)/2個(gè)二分類模型,每個(gè)模型都只從訓(xùn)練集中接受兩個(gè)類的樣本進(jìn)行訓(xùn)練。模型Gij(i<j)將接受且僅接受所有第i類和第j類的樣本,并嘗試通過(guò)訓(xùn)練來(lái)區(qū)分開第i類和第j類;同時(shí),假設(shè)Ci代表第i類空間樣本,有以下公式[8]
當(dāng)模型Gij訓(xùn)練好后,OvO將通過(guò)投票來(lái)進(jìn)行決策,在k(k-1)/2次中得票最多的類為模型預(yù)測(cè)結(jié)果。
本文所有算法程序在64位Windows 10 操作系統(tǒng)(Intel(R)Core(TM)i7 3.60GHz,CPU 3.60GHz,16.0GB RAM)上運(yùn)行,使用Python語(yǔ)言編寫。本文的算法程序調(diào)用了GPU(NVIDIA GeForce GTX 1060 6GB)加速。
本文對(duì)12名學(xué)生進(jìn)行了實(shí)際課堂考勤實(shí)驗(yàn)。使用攝像機(jī)對(duì)在座學(xué)生拍照8張(每張考勤圖像大小為1920×1080)。在人臉識(shí)別前,本文對(duì)12名學(xué)生每人選取30張左右的人臉圖像,所有訓(xùn)練集人臉圖像的特征提取和SVM分類器訓(xùn)練過(guò)程用時(shí)約10.16s。對(duì)8張課堂考勤圖像進(jìn)行人臉識(shí)別,總用時(shí)約10.67s。考勤圖之一的人臉識(shí)別結(jié)果如圖2所示,其中被檢測(cè)出的人臉用綠色矩形框框出,洋紅色英文表示被識(shí)別出的學(xué)生的代號(hào)。
圖2 課堂考勤圖像識(shí)別結(jié)果圖之一Fig.2 One of the result diagrams of classroom attendance image recognition
在考勤過(guò)程中,學(xué)生的人臉普遍存在角度、表情的變化和人臉部分遮擋的現(xiàn)象。圖3展示本文算法能夠準(zhǔn)確識(shí)別對(duì)應(yīng)學(xué)生的部分人臉圖像。其中,人臉角度變化主要包括抬頭、低頭、側(cè)臉,表情變化主要有中性臉、高興、驚奇;人臉部分遮擋主要包括臉頰、眼睛、嘴唇、鼻子被前面的學(xué)生遮擋。本文算法能夠準(zhǔn)確識(shí)別具有一定角度變化和表情變化的人臉,對(duì)于半邊臉被遮擋的學(xué)生也具有一定的識(shí)別能力。
本文提出了一種基于特征向量提取和SVM分類器的人臉識(shí)別方法用于課堂人臉識(shí)別考勤,在含有人臉角度、表情變化和人臉部分遮擋的情況下達(dá)到92.68%的人臉識(shí)別準(zhǔn)確率。該方法首先利用人臉檢測(cè)器截取人臉區(qū)域圖像,將人臉圖像輸入深度神經(jīng)網(wǎng)絡(luò)模型中得到人臉特征向量,然后將人臉特征向量作為SVM分類器的輸入并訓(xùn)練分類器,最后將訓(xùn)練好的SVM分類器進(jìn)行人臉識(shí)別。值得注意的是,在采集學(xué)生的人臉視頻圖像時(shí),對(duì)于佩戴眼鏡的學(xué)生,需要同時(shí)錄入佩戴眼鏡和沒戴眼鏡時(shí)的圖像以保證識(shí)別準(zhǔn)確率;另外,對(duì)學(xué)生人臉數(shù)據(jù)集進(jìn)行圖像增強(qiáng)可以提升算法對(duì)人臉姿態(tài)變化和光照變化的魯棒性。
圖3 準(zhǔn)確識(shí)別的部分人臉角度、表情變化和人臉部分遮擋的圖像Fig.3 Accurately identified parts of the face angle, expression changes and partially obscured images of the human face