◆張超 曹秀蓮 蔡鵑 張樂冰
(1.國家計算機網(wǎng)絡(luò)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心湖南分中心 湖南 410000;2.懷化學院 湖南 418000)
隨著人臉識別技術(shù)的迅速發(fā)展,人臉識別系統(tǒng)廣泛應(yīng)用于日常生活中,如自動邊界控制系統(tǒng)可以通過自動讀旅行證件(eMRTD)輕松驗證用戶的身份[1-2]。然而,最近出現(xiàn)了一種新的針對人臉識別系統(tǒng)的欺騙攻擊——人臉融合欺騙攻擊[3]。攻擊的方式如下:首先,由兩幅或多幅真實人臉圖像生成一幅與融合參與者外觀相似的融合人臉圖像,然后將融合人臉圖像作為身份模板注冊到人臉識別系統(tǒng)中,使其能與所有融合參與者匹配,如圖1 所示。這意味著,“罪犯份子”可以用自己的照片與其“協(xié)助者”的照片生成一張人臉融合圖像,以“協(xié)助者”的身份申請合法的eMRTD 或護照。
圖1 融合人臉示意圖
近年來,已有不少學者對人臉融合攻擊下商用人臉識別系統(tǒng)的安全漏洞進行研究。文獻[3-10]提出了一系列融合人臉檢測方法,然而,上述融合人臉檢測方法主要面向可控環(huán)境,對非受控場景的應(yīng)用缺乏足夠的泛化能力,在不同圖像質(zhì)量應(yīng)用環(huán)境下的穩(wěn)定性與魯棒性較差。為此,本文提出了一種抗噪聲的融合人臉檢測方案,它采用端到端卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用卷積自動編碼網(wǎng)絡(luò)生成去噪人臉圖像,并通過融合人臉鑒別網(wǎng)絡(luò)對去噪人臉圖像進行人臉融合攻擊檢測,提高了融合人臉檢測算法的魯棒性。
目前,人臉融合欺騙攻擊取證的相關(guān)研究尚處于起步階段,有關(guān)人臉融合攻擊的研究主要集中在人臉識別系統(tǒng)對人臉融合攻擊的脆弱性和融合人臉檢測方法兩個方面。
Ferrera 等人最早對人臉融合攻擊進行了研究[3],通過使用軟件生成與多人相似的融合人臉圖像,使其與人臉識別系統(tǒng)中的多人相匹配。然而,該文中的融合人臉圖像采用手動方式生成,不適合大批量的生成融合人臉圖像來驗證人臉識別系統(tǒng)的脆弱性。隨后,Andrey 等人提出了一種自動融合人臉生成技術(shù)[5],利用該技術(shù)可以快速、自動、大批量的生成融合人臉圖像,不僅肉眼無法區(qū)分其真?zhèn)?,并且?guī)缀蹩梢酝昝榔垓_商用人臉識別系統(tǒng)Luxand FaceSDK 6.1。同時,Robertson等人研究了偽造身份證件的潛在方法[7],他們認為在實際應(yīng)用場景中完全可以通過融合人臉圖像來偽造身份。文獻[8,9]中提出了一些評價指標來評估生物識別系統(tǒng)在人臉欺騙攻擊下的安全性。此外,Wandzik 等人研究了基于深度學習的人臉識別系統(tǒng)面對人臉融合攻擊時系統(tǒng)的脆弱性[10],證明了人臉融合攻擊可以輕易地欺騙這些基于深度學習的人臉識別系統(tǒng),極大的威脅了基于深度學習的人臉識別系統(tǒng)的安全性。因此,針對融合人臉攻擊的檢測逐漸成為生物識別系統(tǒng)安全領(lǐng)域的一個研究熱點。
現(xiàn)有融合人臉檢測方法按照是否使用輔助圖像可分為盲檢測和非盲檢測兩類方法。目前大多數(shù)人臉融合欺騙攻擊檢測方法 都屬于盲檢測方法。
(1)融合人臉盲檢測方法
人臉融合欺騙攻擊的盲檢測方法主要側(cè)重于捕捉融合人臉圖像與真實人臉圖像之間的差異,適用于在線電子護照申請或人臉識別系統(tǒng)注冊時對人臉融合欺騙攻擊進行檢測。考慮到融合人臉圖像和真人臉圖像之間的紋理差異,Raghavendra 等人最早提出了一種融合人臉自動檢測方法[6],該方法利用二值統(tǒng)計圖像特征(BSIF)來表示融合人臉圖像和真實人臉圖像之間的紋理差異。由于融合人臉圖像通常是由真實人臉的JPEG 圖像生成的,并以JPEG 格式存儲,這會導(dǎo)致融合人臉圖像質(zhì)量的下降和“JPEG 偽影”效應(yīng)。因此,Andrey 等人[5]和Hildebrandt 等人[11]分別提出了基于JPEG圖像質(zhì)量特征的融合人臉檢測算法,通過從量化的DCT 系數(shù)中提取Benford 特征檢測融合人臉圖像。Kraetzer 等人[12]使用八個關(guān)鍵點/邊緣算子來表示人臉圖像經(jīng)過融合后的圖像退化效果。類似的,T.Neubert[13]提出了一種基于JPEG圖像的連續(xù)壓縮退化的融合人臉檢測算法。
Raghavendra 等人[14]提出了一種基于AlexNet 和VGG 網(wǎng)絡(luò)的深度卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)對數(shù)字/打印-掃描融合人臉圖像的檢測。隨后,C.Seibold 等人[15]分別考察了AlexNet、VGG 和GoogleNet 三種典型網(wǎng)絡(luò),并證明預(yù)訓練的VGG19 網(wǎng)絡(luò)[16]比其他兩種網(wǎng)絡(luò)在融合人臉的檢測中能夠取得更好的效果。
此外,受到圖像來源取證思想的啟發(fā)[17-18],文獻[19]提出了一種基于傳感器模式噪聲統(tǒng)計量化特征的融合人臉檢測算法。與此同時,L.Debiasi 等人[20]使用傳感器模式噪聲頻譜直方圖的統(tǒng)計特征進行了融合人臉檢測。
(2)融合人臉非盲檢測方法
Ferrara 等人[21]使用人臉識別系統(tǒng)獲得的輔助圖像和生物特征護照中顯示的面部(融合)圖像,采用融合人臉生成逆運算的方式實現(xiàn)對人臉融合攻擊協(xié)助者的面部圖像恢復(fù)。文獻[22]中提出了一種基于對抗生成網(wǎng)絡(luò)的人臉融合攻擊協(xié)助者溯源的方法,較好地實現(xiàn)了人臉融合攻擊協(xié)助者的面部圖像重建。
基于以上分析,可以發(fā)現(xiàn)盡管融合人臉攻擊檢測的研究雖然取得了一定的進展,形成了一些檢測體系,但總體來說仍處于起步階段,距離商業(yè)化、實用化的階段甚至為司法機構(gòu)提供可靠的法律證據(jù)還有很大的差距,仍然存在許多問題亟須解決。而且現(xiàn)有的融合人臉攻擊檢測方法多是在可控環(huán)境下進行測試的,對非受控場景的應(yīng)用缺乏足夠的泛化能力,在不同圖像質(zhì)量的應(yīng)用環(huán)境下缺乏較好的穩(wěn)定性與魯棒性。因此,在實際應(yīng)用中如何提高融合人臉檢測方法抵抗噪聲的干擾是提高人臉識別系統(tǒng)穩(wěn)定性的重要問題。為此,本文提出了一種噪聲魯棒的融合人臉檢測方法。
為了抑制噪聲對融合人臉檢測的影響,提高檢測方法對各類噪聲的魯棒性,本文方法增加了去躁過程,首先對噪聲人臉圖像進行自適應(yīng)去噪,然后再對去噪后的人臉圖像進行融合人臉檢測,其體系結(jié)構(gòu)如圖2 所示,由自適應(yīng)去噪網(wǎng)絡(luò)和融合人臉鑒別網(wǎng)絡(luò)兩個部分組成。
圖2 噪聲魯棒融合人臉檢測框架
其中,自適應(yīng)去噪網(wǎng)絡(luò)由編碼網(wǎng)絡(luò)EN 和解碼網(wǎng)絡(luò)DN 兩部分組成。
本文提出的噪聲魯棒融合檢測框架包含了一個自適應(yīng)去噪網(wǎng)絡(luò),采用噪聲魯棒無監(jiān)督學習技術(shù)。自適應(yīng)去噪網(wǎng)絡(luò)由編碼網(wǎng)絡(luò)EN 和解碼網(wǎng)絡(luò)DN 兩部分組成。編碼網(wǎng)絡(luò)EN 和解碼網(wǎng)絡(luò)DN 的結(jié)構(gòu)分別如表1、表2 中所示。
表1 編碼網(wǎng)絡(luò)結(jié)構(gòu)
表2 解碼網(wǎng)絡(luò)結(jié)構(gòu)
給定含噪的人臉圖像I,編碼網(wǎng)絡(luò)EN 用于提取I的身份特征,解碼網(wǎng)絡(luò)DN 用于生成無噪的人臉圖像。為了有效地抑制I中的噪聲,在訓練階段提供I 的輔助圖像(無噪聲)I0。從而使生成的無噪聲面部圖像盡可能接近輔助圖像I0。這里,采用損失,自適應(yīng)去噪網(wǎng)絡(luò)的損失定義為:
自適應(yīng)去噪網(wǎng)絡(luò)生成的去噪面部圖像如圖3 所示,通過采用自動編碼器結(jié)構(gòu),自適應(yīng)去噪網(wǎng)絡(luò)可以有效地去除人臉圖像中的噪聲并生成去噪后的人臉圖像。
圖3 自適應(yīng)去噪圖像的示意圖
對噪聲人臉圖像進行自適應(yīng)去噪后,采用融合人臉鑒別網(wǎng)絡(luò)進行融合人臉檢測。本文方法采用了分類效果較好的VGG19[16]網(wǎng)絡(luò),卷積層使用3×3 卷積核,包括一個前置層和一個后繼層。同時,將網(wǎng)絡(luò)最后一個完全連接層上的輸出轉(zhuǎn)換為1×2 大小的向量,以區(qū)分圖像是真實圖像還是融合人臉圖像。
由于目前尚無公開的融合人臉數(shù)據(jù)庫,本文創(chuàng)建了一個含噪聲的融合人臉數(shù)據(jù)庫。為確保數(shù)據(jù)集中的訓練集、驗證集和測試集中受試者的不相關(guān)性,本文在訓練集、驗證集和測試集中獨立生成了大量的融合人臉圖像。每個子集均按照文獻[5]中提出的框架自動生成兩種類型的融合人臉圖像(整體融合圖像和拼接融合圖像),并在此基礎(chǔ)上生成了四類含噪人臉圖像(密度0.01 的椒鹽噪聲、密度0-0.3 的均勻噪聲、標準差0.01 高斯噪聲和均值0.15 標準差0.08 的瑞利噪聲)如圖4 所示。
圖4 四類含噪融合人臉示意圖(左半臉為無噪聲人臉,右半臉為含噪人臉)
最終創(chuàng)建的融合人臉數(shù)據(jù)庫中共包含了9004 幅含噪真實人臉圖像、6864 幅含噪整體融合人臉圖像和7312 幅含噪拼接融合人臉圖像,詳細信息如表3 所示。
表3 含噪聲融合人臉數(shù)據(jù)庫概況(在各類噪聲情況下)
在實驗中,我們選擇ISO/IEC 度量標準[23],即真實呈現(xiàn)分類錯誤率(BPCER)和攻擊呈現(xiàn)分類錯誤率(APCER),以評估檢測性能,并以平均分類錯誤率(ACER)來衡量對含噪融合人臉方法在測試集中的總體檢測性能。
通過將本文方法與當前一些典型的融合人臉檢測方法進行比較,如基于紋理特征的方法[6]、基于JPEG 壓縮特征的方法[12-13]、基于SPN的方法[19-20]和基于深度學習的方法[15],實驗結(jié)果證明了本文方法的良好性能。
相關(guān)融合人臉檢測方法在四種噪聲下的性能如表4-表7 所示。顯然,在不同噪聲干擾下,本文提出的方法均可以獲得更好的ACER。在不同噪聲干擾(高斯噪聲、均勻噪聲、椒鹽噪聲和瑞利噪聲)和不同類型的融合人臉融合(整體融合和拼接融合)下,本文方法的ACER通常比其他方法低50%。例如,在高斯噪聲、拼接融合等情況下,本文提出的方法的ACER 為11.08%。它比次優(yōu)結(jié)果方法[15]的錯誤率低了53.52%。
表4 高斯噪聲下各檢測方法性能比較 (%)
表5 均勻噪聲下各檢測方法性能比較 (%)
表6 椒鹽噪聲下各檢測方法性能比較 (%)
表7 瑞利噪聲下各檢測方法性能比較 (%)
圖5—8 顯示了四種類型噪聲下不同融合人臉檢測方法檢測誤差折衷(DET)曲線,結(jié)果同樣表明本文提出的方法具有最佳檢測性能。
圖5 高斯噪聲下不同檢測方法的DET 曲線
圖6 均勻噪聲下不同檢測方法的DET 曲線
圖7 椒鹽噪聲下不同檢測方法的DET 曲線
圖8 瑞利噪聲下不同檢測方法的DET 曲線
此外,在實際檢測環(huán)境中,未知類型的噪聲可能會影響融合人臉檢測方法的性能。因此,單類噪聲測試可能無法準確反映實際情況。為了測試該方案的泛化能力,本文還進行了跨噪聲評估。它在一類含噪人臉圖像上進行訓練,在另一類含噪人臉圖像上進行測試。在跨噪聲下的拼接融合攻擊檢測的結(jié)果如表8 所示。
表8 四類噪聲下的跨噪聲檢測ACER 性能比較(%)
由表8 可以看出,本文提出的方法在跨噪聲檢測中效果最佳。例如,以含高斯噪聲的人臉圖像作為訓練集,使用含椒鹽噪聲、均勻噪聲和瑞利噪聲的人臉圖像作為測試數(shù)據(jù)集時,本文所提出的方法的ACER 分別為8.42%、8.81%和9.64%。這比其他的次優(yōu)方法的結(jié)果錯誤率分別降低了71.97%、62.27%,67.96%。
值得注意的是,某些方法的ACER 為50%,是由于這些方法的APCER/BPCER 為100%,而對應(yīng)的BPCER/APCER 為0%。意味著在這些方法中,所有測試人臉圖像(真實人臉圖像和變形人臉圖像)都被錯誤分類為真實人臉圖像(或變形人臉圖像),即這些方法在跨類型噪聲情況下是無效的。
實驗結(jié)果和分析表明,本文提出的檢測方案較傳統(tǒng)的基于紋理特征的方法[6]、基于JPEG 壓縮特征的方法[12-13]、基于SPN 的方法[19-20]和基于深度學習的方法[15]能顯著降低各類噪聲對融合人臉檢測的影響,提高了檢測的魯棒性。
本文提出了一種新的噪聲魯棒的融合人臉檢測方法,采用端到端卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由自適應(yīng)去噪網(wǎng)絡(luò)和融合鑒別網(wǎng)絡(luò)組成,可以有效地抑制噪聲對人臉融合攻擊檢測的影響。實驗結(jié)果表明,與現(xiàn)有方法相比,本文提出的融合人臉檢測方案對噪聲具有較強的魯棒性。今后我們將致力于更復(fù)雜的自適應(yīng)去噪網(wǎng)絡(luò)的研究,使其能抵御多種噪聲的干擾,并進一步研究含打印/掃描噪聲的人臉融合攻擊檢測方法。