摘 ?要:電站安全與國家安全和人民生產(chǎn)生活息息相關(guān),因此對電站的出入人員進行準確的身份識別尤為重要。針對電站出入人員攜帶安全帽導(dǎo)致的面部特征采集不完全等問題,文章提出了融合高階門控卷積模塊對MTCNN和FaceNet網(wǎng)絡(luò)模型進行改進增強,通過顯式建模人臉面部特征向量之間的高階關(guān)聯(lián),使得模型可以學(xué)習(xí)到更加準確的特征映射函數(shù),從而提高面部識別的準確率。在LFW數(shù)據(jù)集上,提出的改進方法相比于原Facenet模型的99.63%的準確率提高到了99.68%的準確率。最后,在電站的實際應(yīng)用場景中,出入識別的準確率分別為99.12%和98.93%。
關(guān)鍵詞:電站;面部識別;高階門控卷積
中圖分類號:TP391.4 ? 文獻標(biāo)識碼:A ? 文章編號:2096-4706(2023)16-0134-05
Application of Facial Recognition Algorithm Based on High-order Gated Convolution for Power Station Identification
GAO Sen
(Nanjing NanruiJibao Electric Co., Ltd., Nanjing ?211102, China)
Abstract: The security of the power station is closely related to national security and people's production and life, so it is particularly important to accurately identify the access personnel of the power station. Aiming at the problems such as incomplete collection of facial features caused by helmets carried by power station access personnel, this paper proposes to improve and enhance the MTCNN and FaceNet network models by integrating high-order gated convolution modules. By explicitly modeling the high-order correlation between facial feature vectors, the model can learn more accurate feature mapping functions to improve the accuracy of facial identification. On the LFW dataset, the improved method proposed in this paper improves the accuracy of the original FaceNet model by 99.63% to 99.68%. Finally, in the actual application scenario of the power station, the accuracy of the access identification is 99.12 % and 98.93 % respectively.
Keywords: power station; facial identification; high-order gated convolution
0 ?引 ?言
電網(wǎng)和電站在國家安全、社會穩(wěn)定以及人們的生產(chǎn)生活中承擔(dān)著十分重要的角色,因此電網(wǎng)和電站的安全一直受到國家和人民的重視和關(guān)注。運用精確和穩(wěn)定的識別系統(tǒng)對電網(wǎng)和電站出入人員進行準確的身份識別對電網(wǎng)和電站的安全有著重要保障。由于出入電站和電網(wǎng)的工作人員大部分人會攜帶絕緣手套和佩戴安全帽等,所以傳統(tǒng)的基于指紋識別的方法不易于使用,且由于佩戴安全帽的原因會給面部識別帶來巨大挑戰(zhàn)。除此之外,利用虹膜特征對員工身份進行檢測和識別的方式雖然準確度高,但是代價高昂。綜合考慮,人臉識別更適用于電站和電網(wǎng)出入人員的身份識別。
人臉識別的發(fā)展歷經(jīng)手工提取特征到深度學(xué)習(xí),在深度學(xué)習(xí)崛起之前,人臉檢測主要通過手工設(shè)計提取特征獲取面部信息,此類方法具有速度快,實現(xiàn)簡單等特點,但是檢測精度較低。例如早期的人臉識別技術(shù)[1,2]主要是建立在子空間特征向量學(xué)習(xí)和特征模式統(tǒng)計學(xué)習(xí)上。例如利用SIFT特征進行空間學(xué)習(xí),首先選取固定數(shù)量的矩形區(qū)域進行預(yù)處理,之后根據(jù)特征映射的空間統(tǒng)計以及預(yù)先設(shè)定的先驗閾值來提升面部識別的魯棒性。
隨著深度學(xué)習(xí)技術(shù)的進一步發(fā)展,通過設(shè)計合理的神經(jīng)網(wǎng)絡(luò)模型在大量數(shù)據(jù)上進行訓(xùn)練來獲得面部和非面部的分類器使得人臉識別的可靠性和魯棒性跨越式增強。Hinton等人提出了在當(dāng)年ImageNet大賽上的冠軍方法AlexNet[3],該模型是深度學(xué)習(xí)在計算機視覺任務(wù)上應(yīng)用的里程碑。深度學(xué)習(xí)的巨大成功促進了深度學(xué)習(xí)算法和人臉識別的結(jié)合,例如張等人[4]提出的MTCNN,通過分級訓(xùn)練并使用三個子卷積神經(jīng)網(wǎng)絡(luò)來提升人臉識別的準確率。Sun等人[5]提出的DeepID將人臉圖像分割成多個圖塊輸入給深度網(wǎng)絡(luò)進行訓(xùn)練來提升網(wǎng)絡(luò)對特征的學(xué)習(xí)和表示能力。再有,谷歌提出的FaceNet[6]模型通過學(xué)習(xí)獲得一個特征映射函數(shù)將輸入映射為特征空間的身份向量,在利用相似度函數(shù)來比較特征向量的相似度來進行面部識別,該模型在LFW人臉識別數(shù)據(jù)集上獲得了99.63%的識別準確率。由此可見,深度學(xué)習(xí)相比于傳統(tǒng)的特征提取方法能夠?qū)W習(xí)到更加有用和更具表示能力的特征。本文針對電站門禁場景的特殊需求,利用高階門控卷積對MTCNN和FaceNet進行改進來提升模型的特征學(xué)習(xí)和表示能力進而提升人臉識別的準確率。最后,深度學(xué)習(xí)在人臉識別上的應(yīng)用進一步推動了人臉識別技術(shù)在各種實際場景的落地和應(yīng)用,例如視頻監(jiān)控、身份識別、游戲娛樂等諸多領(lǐng)域。
1 ?本文方法
作為計算機視覺領(lǐng)域的熱點研究問題,人臉識別算法已經(jīng)取得了較好的結(jié)果[7-12],但是距離實際應(yīng)用的要求還尚有不足,例如實際場景中捕獲的人臉圖片可能會受到光照、遮擋、面部快速移動等各種因素的影響,進行特征向量相似度計算時會產(chǎn)生較大的偏差導(dǎo)致無法正確識別。為有效緩解上述難點,本文提出了融合高階門控卷積進一步增強模型的特征學(xué)習(xí)和表示能力。實驗結(jié)果表明,改進之后的i-FaceNet相比于原FaceNet網(wǎng)絡(luò)人臉識別的準確率和運行速度顯著提升。
人臉識別主要包含檢測和識別,其中前者是后者的基礎(chǔ),本文使用i-MTCNN網(wǎng)絡(luò)作為面部檢測算法并使用i-FaceNet網(wǎng)絡(luò)對面部特征進行識別,最后通過特征向量的相似度比較,對輸入面部圖片進行識別進而對進出員工的身份進行判定,如圖1所示。
1.1 ?高階門控卷積
高階門控卷積主要是通過門控卷積和遞歸操作來建模特征向量之間的高階關(guān)聯(lián),具有推理效率高、擴展性強以及平移不變性等特點。一般的卷積運算(互相關(guān)運算)沒有顯式地對特征空間中任意兩個特征向量的關(guān)聯(lián)進行建模,而引入這種特征信息交互可以顯著提升模型的特征學(xué)習(xí)和表達能力。如圖2所示,該結(jié)構(gòu)主要是通過1×1卷積、基于深度的卷積以及基于元素相加等操作來實現(xiàn)。
假定輸入特征向量為 ,H表示特征向量的高,W表示特征向量的寬,C表示特征向量的通道數(shù),1階門控卷積操作可以被表示為:
其中, 為1×1卷積,用于通道之間的特征信息交互, 為基于深度的卷積,j0為i的鄰域特征,Y表示特征向量i與其鄰域特征j0的一階特征交互輸出。在上述操作的基礎(chǔ)上,再對門控卷積結(jié)構(gòu)應(yīng)用遞歸方法來實現(xiàn)更高階的門控卷積結(jié)構(gòu)從而來顯式地考慮特征向量之間的高階依賴關(guān)系。
1.2 ?GC-MTCNN模型
為應(yīng)對復(fù)雜場景下的人臉檢測,多任務(wù)級聯(lián)人臉檢測方法MTCNN于2016年被張等人提出。如圖3所示(自上而下分別為P-Net網(wǎng)絡(luò)、R-Net網(wǎng)絡(luò)、O-Net網(wǎng)絡(luò)),該框架是一種適用于多任務(wù)的人臉檢測模型,主要包含三個卷積神經(jīng)網(wǎng)絡(luò)級聯(lián)模型,可以同時對輸入圖像進行面部區(qū)域檢測和面部特征點檢測。該模型具備結(jié)構(gòu)簡單、精度高、易于集成使用等特點。具體來說,為了得到更加精細化和更加準確的模型,利用多個子網(wǎng)絡(luò)(P-Net、R-Net、O-Net)的輸出不斷修正檢測結(jié)果,最終得到一個最優(yōu)的模型用于人臉檢測。其中P-Net為面部區(qū)域提議模型,該模型會首先對輸入進行處理,輸出經(jīng)過處理和校準的人臉圖像,R-Net對這些區(qū)域進行進一步精細化處理,對其中置信度較低和錯誤的提議區(qū)域進行舍棄,輸出置信度較高的面部提議區(qū)域,最后O-Net對這些提議區(qū)域再進一步處理輸出最終的面部區(qū)域和面部關(guān)鍵點坐標(biāo)。
本文對其中3×3卷積使用高階(3階)門控卷積進行替換獲得了新的網(wǎng)絡(luò)結(jié)構(gòu)模型GC-MTCNN。與MTCNN的訓(xùn)練過程類似,如圖3所示,本文對三個子網(wǎng)絡(luò)分別逐次訓(xùn)練,首先對P-Net進行訓(xùn)練,得到可能的面部建議區(qū)域,再輸入給R-Net網(wǎng)絡(luò),進一步對這些建議區(qū)域進行校準和篩選,最后輸入給O-Net網(wǎng)絡(luò)進行訓(xùn)練。
1.3 ?GC-FaceNet模型
FaceNet模型最初由谷歌團隊于2015年提出,主要用于人臉識別、人臉聚類以及人臉驗證,如圖4所示。
其中,輸入圖片分為三類,即錨樣本、正樣本、負樣本,CNN為Inception-ResNet-v1用于深度特征提取,嵌入空間指的是CNN輸出的特征向量經(jīng)過正則化處理之后的特征向量,三元組損失函數(shù)可以表示為同一類的嵌入空間的空間距離越近越好,反之,不同類的嵌入空間的空間距離越遠越好,即該函數(shù)鼓勵同一類特征空間樣本距離不斷接近,對不同類的特征向量樣本懲罰接近使其不斷遠離。與傳統(tǒng)的人臉識別方法不同的是,該模型通過在大量人臉數(shù)據(jù)上進行訓(xùn)練并學(xué)習(xí)獲得一個最優(yōu)的特征映射函數(shù),在推理階段,只需要對輸入的人臉圖片進行特征映射獲得特征向量,利用相似度函數(shù)在身份特征空間中對輸入特征向量進行比對,輸出相似度最高的人臉身份結(jié)果。本文利用高階門控卷積對Inception-ResNet-v1網(wǎng)絡(luò)中的3×3卷積進行替換獲得新的網(wǎng)絡(luò)模型GC-FaceNet,再利用大量人臉圖像進行訓(xùn)練學(xué)習(xí)使得錨樣本與正樣本之間的距離逐漸縮小,與負樣本之間的距離逐漸增大,使得三元組損失函數(shù)降到最低值,最后獲得表現(xiàn)最好的特征映射函數(shù)。
2 ?實驗及結(jié)果分析
2.1 ?數(shù)據(jù)集
LFW數(shù)據(jù)集作為人臉識別研究的經(jīng)典數(shù)據(jù)集為人臉識別的研究和發(fā)展做出了突出貢獻,它于2007年被馬薩諸塞大學(xué)視覺研究實驗室提出。該數(shù)據(jù)集包含了13 323張來自于全球范圍內(nèi)有一定影響力的人在各種場景下的自然人臉圖片,人臉身份數(shù)量為5 000個左右,其中約4 000人僅采集了1張自然人臉圖像,約1 000人采集了2張以上的自然人臉圖像,分別對每一張人臉圖片標(biāo)注不同的序號。
為了增強算法特定場景下的識別能力,對我司內(nèi)部人臉數(shù)據(jù)庫加以利用,處理形成增強數(shù)據(jù)集,該數(shù)據(jù)集共包含286個不同的身份在不同場景下共計2 860張圖片,其中大部分圖片均包含遮擋、光照、角度偏轉(zhuǎn)等挑戰(zhàn)性場景。
2.2 ?訓(xùn)練和驗證
固定增強數(shù)據(jù)集不變,從LFW數(shù)據(jù)集中依照兩倍于增強數(shù)據(jù)集的比例隨機選取數(shù)據(jù)對和增強數(shù)據(jù)集組成訓(xùn)練集。模型的訓(xùn)練采用三元組的數(shù)據(jù)輸入,因此需要對上述數(shù)據(jù)進行循環(huán)處理生成三元組輸入格式,再從中隨機選取6 000組數(shù)據(jù)對組成訓(xùn)練的輸入。在第8個批次的訓(xùn)練后,模型的損失函數(shù)降到最低點,識別的精度最高,再利用隨機選取的數(shù)據(jù)對對其進行訓(xùn)練,模型的精度沒有增長反而有細微的降低,因此設(shè)定訓(xùn)練批次數(shù)為8,學(xué)習(xí)率為0.001。模型在該參數(shù)下會最快收斂并達到最好的識別效果。
為了驗證本文提出的模型的有效性,本文方法i-FaceNet與原FaceNet在LFW數(shù)據(jù)集上的識別準確率對比如表1所示,相比于原模型,本文方法獲得了0.05個百分點的提升。部分檢測識別結(jié)果如圖5所示,由實驗結(jié)果可知,本文模型相比于改進之前的模型,對于面部特征的學(xué)習(xí)和表示能力明顯增強,例如對于第二行第三列中左上角模糊化的人臉,改進之前的模型沒有進行檢測和識別,本文模型成功的檢測到了該部位的人臉;再有第三行第二列中被大面積遮擋的人臉,改進之前的模型發(fā)生了漏檢,本文模型相對正確的檢測出了該部分的人臉。這表明在整合了高階門控卷積之后,模型在面臨遮擋、模糊等挑戰(zhàn)性的檢測識別場景時,依然具備較高的魯棒性。
3 ?本文模型在電站身份識別系統(tǒng)中的應(yīng)用
為了滿足現(xiàn)代化智能電站安全防護的需求,以面部識別、多種生物識別技術(shù)為基礎(chǔ)的智能身份識別系統(tǒng)使得電站能夠更加穩(wěn)定和安全的運行和維護。其中面部識別算法是構(gòu)成身份識別系統(tǒng)的最重要的一環(huán),優(yōu)秀的面部識別算法能夠提高身份識別的準確率和系統(tǒng)的運行效率。通過在電站出入口設(shè)置攝像頭對出入人員進行面部數(shù)據(jù)采集,并輸入給身份識別系統(tǒng),身份識別系統(tǒng)根據(jù)采集到的圖像進行分析和比對確定進出入人員的身份信息。
與正常情況下的面部識別不同的是,電網(wǎng)中心工作人員出入電站時,面部可能會被安全帽等遮擋從而對特征檢測和識別造成挑戰(zhàn),如圖6所示。本文采用高階門控卷積來替換普通卷積結(jié)構(gòu),使其可以學(xué)習(xí)到更加復(fù)雜的空間特征關(guān)聯(lián)從而提升模型的特征表示能力,在包含遮擋等多種挑戰(zhàn)性場景的識別任務(wù)中,本文模型獲得了令人滿意的結(jié)果。因此,將本文算法與電網(wǎng)中心門禁系統(tǒng)相結(jié)合,在經(jīng)過了6個月總計1 800個小時的有效系統(tǒng)在線時間實際測試后得到了如表2所示的識別準確率結(jié)果。由表2可以看出,系統(tǒng)在進入電站的識別準確率為98.93%,離開電站的準確率為99.12%,造成這種識別差異的主要原因為我司大多數(shù)員工會在進入電站時佩戴安全帽,離開電站時解除安全帽。
4 ?結(jié) ?論
電網(wǎng)和變電站的安全與人們生產(chǎn)生活的方方面面關(guān)系密切甚至關(guān)系到國家安全,因此對電網(wǎng)和變電站的身份識別系統(tǒng)的安全性和魯棒性要求更高。為了進一步提高面部識別的準確度和系統(tǒng)的魯棒性,本文提出了融合高階門控卷積的FaceNet模型的改進版本i-FaceNet,該方法在LFW數(shù)據(jù)集上的準確率相比于原FaceNet模型99.63%提升到了99.68%,且在實際電站使用場景中出入電站的人臉識別的準確率分別達到99.12%和98.93%。雖然本文的研究已經(jīng)取得了不錯的結(jié)果,但是人臉檢測和識別依然具有很多挑戰(zhàn)和難點,如圖6第一行第一列中,由于主體攜帶安全帽和口罩造成的大面積面部特征遮擋導(dǎo)致本文算法并沒有能夠成功檢測和識別。盡管如此,本文提出的算法依舊具有很高的檢測和識別精度,相信本文提出的模型會為電站的安全出入和穩(wěn)定運行做出一定的貢獻,并能夠為同領(lǐng)域的研究提供一定的參考價值。
參考文獻:
[1] ZHAO W,CHELLAPPA R,PHILLIPS P J,et al. Face recognition:A literature survey [J].ACM Computing Survey,2003,35(4):399-458.
[2] MOGHADDAM B,JEBARA T,PENTLAND A. Bayesian face recognition [J].Pattern recognition,2000,33(11):1771-1782.
[3] KRIZHIVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks [J].Communications of the ACM,2017,60(6):84-90.
[4] ZHANG K,ZHANG Z,LI Z,et al. Joint face detection and alignment using multitask cascaded convolutional networks [J].IEEE Signal Processing Letters,2016,23(10):1499-1503.
[5] SUN Y,WANG X,TANG X. Deep Learing Face Representation from Predicting 10,000 Classes [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:1891-1898.
[6] SCHROFF F,KALENICHENKO D,PHILBIN J. FaceNet:A unified embedding for face recognition and clustering [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston:IEEE,2015:815-823.
[7] 祝永志,蘇曉云.基于多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的人臉識別技術(shù)研究 [J].通信技術(shù),2020,53(3):718-723.
[8] 任艷,張蕾,徐春,等.基于圖像處理的人臉識別技術(shù)研究 [J].電子元器件與信息技術(shù),2020,4(7):81-82.
[9] 蔣曉,高瑋瑋,楊亦樂,等.基于Prewitt算子的卷積神經(jīng)網(wǎng)絡(luò)人臉識別方法 [J].軟件,2019,40(10):16-19.
[10] 黃良輝,康祖超,張昌凡,等.基于輕量級卷積神經(jīng)網(wǎng)絡(luò)的人臉識別方法 [J].湖南工業(yè)大學(xué)學(xué)報,2019,33(2):43-47.
[11] 魯磊.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別方法研究 [D].西安:西安科技大學(xué),2019.
[12] 楊玉漣,官鈺翔,沈毅,等.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別 [J].電子測試,2020(21):60-61+99.
作者簡介:高森(1990—),男,漢族,江蘇南京人,自動化工程師,本科,研究方向:計算機視覺、電氣工程及其自動化、信息安全。