鐘逸晟 尹芳 李嘉乾 李傳師 侯耀輝
摘?要:為了解決人臉識別的安全性問題,提高對惡意攻擊人臉識別系統(tǒng)的安全防護,使人臉識別技術能夠獲得更廣泛應用,本文提出了在人臉識別技術上融入一種基于深度神經網絡的唇語識別技術的系統(tǒng)。與現有的唇語識別技術不同的是,該系統(tǒng)主要是識別用戶的唇動習慣。運用本系統(tǒng),用戶在進行人臉識別的同時可按照檢測方的提示,讀出相應的內容,并在對用戶的人臉進行驗證的過程中,對用戶通過唇動說出的內容分別實現唇動識別、比對,從而有效地提升人臉識別的安全性水平。實驗結果表明,在故意針對人臉識別系統(tǒng)的攻擊中,融入本技術的系統(tǒng)有更好的識別準確率。
關鍵詞: 唇動識別;人臉識別安全;深度神經網絡;身份認證
文章編號: 2095-2163(2021)01-0123-03 中圖分類號:TP309 文獻標志碼:A
【Abstract】In order to solve the problem of face recognition security, improve the protection against malicious attacks on face recognition system, and make face recognition technology more widely used, this paper proposes a facial recognition technology based on deep neural network lip recognition system. Different from the existing lip recognition technology, the purpose of lip recognition is to identify the user's lip habits. The system requires users to read out the corresponding contents according to the prompts of the detection party while carrying out face recognition. While verifying the user's face, the system will carry out lip recognition and comparison on the contents spoken by the user through lip movement, so as to effectively improve the security level of face recognition. The experimental results show that the system integrated with this technology has better recognition accuracy in the face recognition system attack.
【Key words】lip movement recognition; face recognition security; Deep Neural Network; the identity authentication
0 引?言
研究可知,未來社會的全面無卡化是必然趨勢,由此也可以預知,得益于區(qū)塊鏈技術和5G時代的到來,關于會員卡、銀行卡、護照等卡片證件,都終將成為歷史,如此一來,安全、可靠的身份識別方式也將隨即成為技術演變的潮流與熱點。與其他身份識別的研究相比,人臉識別具有方便快捷、專屬性較高,對用戶友好等優(yōu)點,因此人臉識別現已成為最活躍的研究領域之一,同時也已成為未來身份識別方式的首要選擇。
值得注意的是,隨著人臉識別的大范圍使用,人臉識別安全性問題已經不容忽視。目前,不法分子即已開始針對人臉識別技術的安全漏洞,利用照片、視頻、三維模型等技術,攻擊人臉識別系統(tǒng)。
本次課題即旨在研究解決人臉識別的安全性問題。研究中,受到文獻[1]的啟發(fā),在人臉識別技術中融入了唇語識別機制,且在對唇語識別技術概念加以改進的基礎上,除了能對用戶人臉進行驗證外,還能對用戶的唇型和通過唇語說出的內容分別進行比對、識別,去驗證活體,從而最終能夠有效提升人臉識別的安全性。因此,本文研發(fā)設計了基于中文詞級別的唇語識別系統(tǒng)。該設計過程包括了:人臉關鍵點提取、深度神經網絡的搭建、訓練和測試等一系列技術內容的系統(tǒng)研究,具體如圖1所示。
1 人臉關鍵點提取研究
1.1 建立數據庫
作為一項尚未成熟的技術,唇語識別在很多方面都還未見到統(tǒng)一標準。眾所周知,語料庫的建設即仍亟待完善。國外關于唇語的研究略早于中國,但是國外的語料庫都未涉及漢語,因而并不適合本次項目的開發(fā)研究。目前,國內已有部分高校和科研機構陸續(xù)開啟了唇語識別的科研工作,但是相關權威機構卻還未能配發(fā)有針對性的規(guī)范和意見。再者,上述研究主體大多并未將各自使用的語料庫予以公開,即使公開的部分也僅限于單個字或者數字的唇語數據集,迄今還未見到句子級別的唇語識別數據庫。綜上所述,本次項目建立了一個擁有3 000個樣本的中小型漢語數據庫供項目在驗證時使用、錄制訓練樣本以及測試樣本。
1.2 人臉關鍵點檢測與跟蹤
唇語識別的第一步是獲得人臉關鍵特征點在序列圖像中的精確定位,這樣就有利于后續(xù)精準分割出唇部的局部圖像。也就是,研究時是源于視頻中的每一幀圖像,致力于提取出嘴唇局部區(qū)域,本次研究即采用了主動外觀模型[2]來提取大幅圖像中的上述區(qū)域,用關鍵點來定位唇部。
1.3 特征提取
特征提取是一種降維方法,在項目研發(fā)中起著重要作用。好的特征可以讓識別事半功倍,其具備的共性是:用更少的數據來區(qū)分不同的類別,即類內一致性和類間區(qū)分性,這樣就可使識別任務更加快速且泛化。
目前,學界已經推出了多種提取唇語視頻視覺特征的方法,但這些視覺特征提取的方法都不是通用的,究其原因就在于視頻視覺信息的多樣性,所以傳統(tǒng)的唇語視頻的特征提取就表現出一定的局限性。針對該問題,本次研究中擬通過神經網絡進行特征提取,這樣就不僅能夠滿足研究中對唇語特征所要求的區(qū)分性質,同時還可滿足對訓練性能的要求。
2 深度神經網絡構建研究
近年來,深度學習的熱度不斷攀升,在各種應用中都能看到其身影。在計算機視覺領域的很多任務上,深度學習都取得了良好的應用效果。在深度學習模型中,相比于其他神經網絡,AlexNet[3]是經典的卷積神經網絡模型,AlexNet的網絡結構在整體上與LeNet[4]相似,都是先做卷積操作、再進行全連接層。但兩者在細節(jié)上有很大不同,AlexNet模型更為復雜。AlexNet有5層卷積,3層全連接網絡,最終的輸出層是1 000通道的softmax,還用到2塊GPU進行計算,大大提高了運算效率,并且更適用于視頻序列學習任務,近年來,在人臉識別[5]等領域都取得了可觀進展。
本項目在識別任務中采用的是AlexNet網絡模型,這是基于LeNet-5網絡模型[6]的。分析可知,此種卷積神經網絡的特點為:該網絡不需要預先獲取輸入和輸出之間的準確映射關系,只需要利用已知模型對神經網絡進行訓練,就能夠學習出相關映射的一種多層的非線性關系,這正是AlexNet的獨特優(yōu)勢所在,也是其他網絡難以比擬的。
AlexNet網絡共有8層,主要分為5層卷積和3層全連接層,如圖2所示。為了有針對性地強化深層特征的提取,使AlexNet 網絡的信息提取效果更趨完善,AlexNet網絡的末端三層的輸出特征將一并輸入到最后一層全連接層,這樣將有利于在淺層的特征輸出,同時也減少了網絡在卷積及池化過程中的種種問題困擾,如降維導致的信息丟失等。
3 分類
在接下來的分類研究中,文中采取了最廣泛應用的Softmax分類器,同時為了提升 AlexNet 網絡結構的識別準確率,研究中在 Softmax 分類器后附加了中心損失函數。由中心損失( Center Loss)函數配合Softmax損失(Softmax Loss)函數來進行分類和識別。進一步來說,本項目中人臉識別技術的主要步驟為:輸入人臉視頻,將視頻中的每一幀進行圖片預處理后,輸入到AlexNet網絡中,再將提取到的特征傳入含有全連接層的Softmax分類器中,對人臉視頻進行分類,由此在唇語人臉數據庫中實現圖像序列的識別。
4 實驗
綜上研究所述,針對本系統(tǒng)的應用場景,由于沒有類似的可對照識別率數據,本文采取了較為理想的方式進行實驗。實驗中,選擇2個對象A、B,B想要偽造A的身份,由此設置了多組多次的對照實驗,即:A本人,B戴本人照片面具、戴A照片的面具但B將嘴巴漏出、B。研究按照以上4種情況分別進行識別測試,最終得到了理想情況下的實驗識別結果,詳見表1。
分析表1結果可知,當A本人進行正確操作時,系統(tǒng)的識別率非常高;而當不是本人的臉,并且也不是按照本人的唇動習慣說話時,則有97%以上的幾率無法識別通過,這就清晰表明了本系統(tǒng)有著良好的魯棒性和安全性,也標志著該種人臉識別方法的研發(fā)獲得了成功。
5 結束語
本項目的研究旨在要求唇語識別部分能夠識別到每一個人的唇語。考慮到不同人的唇動方式也是不同的,因此,通過唇動序列的比對就可以辨別出是否為待測者本人的嘴唇,這就有效解決了在照片上扣洞或戴上人皮面具來讀取內容進行識別的攻擊手段帶來的弊端,而且也可以有效辨別出正在進行比對的是否為雙胞胎兄弟。在唇語識別研究中,特征提取方式采用的是卷積神經網絡,同時還結合了長短時記憶網絡(LSTM),分析視頻并對視頻數據中的時間以及語義信息進行挖掘,這也是該項目研發(fā)的創(chuàng)新點之一。
若成功地結合了唇語和人臉識別技術,即將唇語識別用到的特征和人臉識別特征相結合,就可以得到:通過唇語和人臉識別的綜合比對,最終可證得在攝像頭下是實時、并且也是本人的嘴唇。首先,人臉識別排除了通過照片或者是視頻回放的攻擊手段,然后又排除了立體模型和化妝、用雙胞胎代替識別的攻擊手段。在此基礎上,由實驗結果分析得出的結論就是:在攝像頭前的就是本人。融合2種識別技術來提高人臉識別的安全性,這也體現了本項目1+1>2的研發(fā)思路。研究中,只是使用普通攝像頭、普通的手機或者電腦,并不需要另行添加其他任何輔助設備,就能夠達到提高人臉識別技術安全性的目標。綜上所述,這些優(yōu)點使得融入了唇語識別的人臉識別系統(tǒng)的成本較為低廉、易于實施。
進一步分析可知,提升了安全性的人臉識別系統(tǒng),在使人們享受到人臉識別帶來便利的同時,也使其信息、財產等方面獲得了更為強大的安全保障。不僅如此,這種人臉識別方式還可應用在更廣闊領域中,例如:遠程身份認證、刷臉門禁考勤、人臉支付、人臉登錄等場合。故而,本次項目研發(fā)成果對于當前社會的快速發(fā)展有著重要的現實意義。
參考文獻
[1]任玉強. 高安全性人臉識別身份認證系統(tǒng)中的唇語識別算法研究[D]. 重慶:中國科學院重慶綠色智能技術研究院,2016.
[2]蔡凡. 基于主動外觀模型的圖像分割研究[J]. 閩江學院學報,2014,35(2): 80-87.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.
[4]LCUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[5]ALMABDY S, ELREFAEI L. Deep Convolutional Neural Network-based approaches for face recognition[J]. Applied Sciences,2019,9(20):4397.
[6]MAATTA J, HADID A, PIETIKAINEN M. Face spoofing detection from single images using microtexture analysis[C]//Proceedings of the 2011 International Joint Conference on Biometrics. Washington, DC, USA:IEEE,2011: 10-17.
[7]李丹,沈夏炯,張海香,等. 基于Lenet-5的卷積神經網絡改進算法[J]. 計算機時代,2016(8):4-6,12.