摘 要:針對(duì)現(xiàn)有人臉?lè)雌垓_模型面對(duì)不同應(yīng)用場(chǎng)景識(shí)別精度低、泛化性能不佳的問(wèn)題,引入解糾纏表示學(xué)習(xí),提出一種基于解糾纏表示學(xué)習(xí)的人臉?lè)雌垓_方法。該方法采用U-Net架構(gòu)和ResNet-18作為編/解碼器。首階段訓(xùn)練中,通過(guò)輸入真實(shí)樣本使得編碼器僅學(xué)習(xí)到真實(shí)樣本相關(guān)信息。第二階段,構(gòu)建對(duì)抗性學(xué)習(xí)網(wǎng)絡(luò),輸入不具標(biāo)簽的樣本,將預(yù)訓(xùn)練的編碼器輸出和新編碼器輸出進(jìn)行特征融合,由解碼器重建圖像,在鑒別器中與原始圖像進(jìn)行對(duì)抗訓(xùn)練,以實(shí)現(xiàn)特征的解耦。模型與一些經(jīng)典人臉?lè)雌垓_方法相比,有著更好的檢測(cè)性能,在OULU-NPU數(shù)據(jù)集的數(shù)個(gè)實(shí)驗(yàn)中,最低的檢測(cè)錯(cuò)誤率僅為0.8%,表現(xiàn)優(yōu)于STDN等經(jīng)典檢測(cè)方法。該人臉?lè)雌垓_方法通過(guò)分階段訓(xùn)練的方式,使得模型在對(duì)抗性訓(xùn)練中獲得了相比端到端模型更具判別性的特征表示,在欺騙特征圖輸出階段采用多分類策略,減小了不同的圖像噪聲對(duì)分類結(jié)果的影響,在公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了算法的有效性。
關(guān)鍵詞:人臉?lè)雌垓_; 解糾纏表示學(xué)習(xí); 多分類; 域泛化
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)08-036-2502-06
doi:10.19734/j.issn.1001-3695.2023.11.0554
Face anti-spoofing algorithm based on disentangled representation learning
Zhou Yiyan, Shi Liang, Zhang Ao, Yue Xiaoyu
(School of Computer Science, Jiangsu University of Science & Technology, Zhenjiang Jiangsu 212114,China)
Abstract:To solve the problems of low recognition accuracy and poor generalization performance of existing face anti-spoofing models in different application scenarios, this paper adopted the idea of disentangled representation learning and proposed a face anti-spoofing method based on disentangled representation learning. This method adopted U-Net architecture and ResNet-18 as the encoder-decoder. In the first stage of training,it inputted real samples so that the encoder only learned information related to real samples. In the second stage, this paper built an adversarial learning network, inputted samples without labels, feature fusion of the pre-trained encoder output and the new encoder output, reconstructed the image by the decoder, and performed adversarial training with the original image in the discriminator to achieve feature decoupling. Compared with some classic face anti-spoofing methods, the model paper achieved better detection performance. The lowest detection error rate in several experiments on the OULU-NPU data set is only 0.8%, which is better than classic detection methods such as STDN. The face anti-spoofing method used staged training to enable the model to obtain a more discriminative feature representation than the end-to-end model in adversarial training. It adopted a multi-classification strategy in the deception feature map output stage to reduce the impact of different image noises on classification results, and experiments on public data sets verified the effectiveness of the algorithm.
Key words:face anti-spoofing; disentangled representation learning; multiclass classification; domain generalization
0 引言
隨著人臉識(shí)別技術(shù)在各行各業(yè)中被廣泛應(yīng)用,如何防止人臉識(shí)別系統(tǒng)被偽造的圖像攻擊[1]得到了業(yè)界的廣泛關(guān)注。對(duì)人臉識(shí)別系統(tǒng)的攻擊類型通常包括打印人臉圖像、播放視頻回放、佩戴成本更高的3D面具。為了解決上述手段對(duì)人臉識(shí)別系統(tǒng)的攻擊,許多人臉?lè)雌垓_方法應(yīng)運(yùn)而生,主要包括了傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法[2]。傳統(tǒng)的機(jī)器學(xué)習(xí)方法利用局部特征提取方式,如LBP(local binary pattern)[3]、HOG(histogram of oriented gradient)[4]提取的手工特征作為圖像的特征紋理,并使用支持向量機(jī)等經(jīng)典分類器進(jìn)行二元分類?;趧?dòng)態(tài)特征的人臉?lè)雌垓_方法使用諸如眨眼[5]、嘴巴運(yùn)動(dòng)和頭部運(yùn)動(dòng)[6]等動(dòng)態(tài)線索來(lái)檢測(cè)打印欺騙攻擊。但基于動(dòng)態(tài)特征的人臉?lè)雌垓_方法在面對(duì)面具剪洞或者化妝等攻擊類型時(shí)很容易失效。傳統(tǒng)機(jī)器學(xué)習(xí)的方法無(wú)法應(yīng)對(duì)越來(lái)越多樣的攻擊類型。
隨著深度學(xué)習(xí)的發(fā)展,許多研究引入了神經(jīng)網(wǎng)絡(luò)作為特征提取工具,并將基于深度學(xué)習(xí)方法的人臉?lè)雌垓_簡(jiǎn)述為二元分類問(wèn)題[7]。Yang等人[8]利用 LSTM(long short term memory),將時(shí)間信息作為輔助監(jiān)督,使用SASM(spatial anti-spoofing module)模塊提取不同的維度特征,獲得了不錯(cuò)的效果。Yu等人[9]構(gòu)建的中心差分卷積網(wǎng)絡(luò)在卷積算子上作出創(chuàng)新,網(wǎng)絡(luò)對(duì)提取欺騙人臉樣本特征取得了很大成效。劉偉等人[10]將CNN(convolutional neural network,CNN)與LBP和多層離散余弦相融合,先將圖像進(jìn)行LBP和多層DCT(discrete cosine transform)處理,再經(jīng)過(guò)CNN提取特征圖像并分類。深度學(xué)習(xí)方法對(duì)比機(jī)器學(xué)習(xí)方法在性能方面具有優(yōu)越性,但上述方法在面對(duì)同一數(shù)據(jù)庫(kù)時(shí)識(shí)別率通常較好,面對(duì)跨數(shù)據(jù)集測(cè)試時(shí)則表現(xiàn)出較大的不穩(wěn)定性。為了有效地學(xué)習(xí)更具有判別性的特征,研究人員還采用了輔助監(jiān)督的方法,如深度信息[11]、反射方法[12]。Liu等人[13]建立了CNN-RNN(convolutional neural networks-recurrent neutral network)框架,利用深度圖和rPPG(remote photoplethysmography)信號(hào)進(jìn)行輔助監(jiān)督。文獻(xiàn)[14] 將欺騙人臉?lè)纸鉃槠垓_噪聲和真實(shí)人臉信息,利用噪聲作分類。輔助監(jiān)督方法有助于提取更具判別性的特征,但人臉?lè)雌垓_模型性能還取決于具有一致目標(biāo)的輔助監(jiān)督任務(wù)。此外,現(xiàn)有的輔助信息可能不適合所有的攻擊類型。在研究中,不可能定義所有輔助信息來(lái)對(duì)人臉?lè)雌垓_模型進(jìn)行訓(xùn)練,其關(guān)鍵是使模型學(xué)習(xí)真實(shí)人臉和偽造人臉的區(qū)分本質(zhì),以避免網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)的過(guò)度擬合。解糾纏表示學(xué)習(xí)是將模型的潛在表示分離為可解釋部分的有效方法,進(jìn)一步提高了模型的魯棒性。例如文獻(xiàn)[15,16]通過(guò)融合端到端架構(gòu)中的特征,使用對(duì)抗性訓(xùn)練來(lái)獲得解糾纏表示。文獻(xiàn)[17] 構(gòu)建了CSM-GAN(covered style minin-generative adversarial network)框架,設(shè)置風(fēng)格生成器和對(duì)抗性風(fēng)格鑒別器形成生成對(duì)抗性網(wǎng)絡(luò),利用風(fēng)格轉(zhuǎn)移技術(shù)實(shí)現(xiàn)人臉?lè)雌垓_。Zhou等人[18]提出一種域自適應(yīng)生成對(duì)抗式網(wǎng)絡(luò),通過(guò)域內(nèi)頻譜混合來(lái)擴(kuò)展目標(biāo)數(shù)據(jù)分布,減少了域內(nèi)差距。這類依靠生成對(duì)抗網(wǎng)絡(luò)的方法,普遍對(duì)生成器和鑒別器存在很大程度依賴,其生成器鑒別器的穩(wěn)定性將在很大程度上影響獲取解纏的特征表示效果。
針對(duì)上述問(wèn)題,本文提出了一種解糾纏表示學(xué)習(xí)的人臉?lè)雌垓_算法;采用分階段訓(xùn)練的方式使得編碼器在一階段學(xué)習(xí)到真實(shí)樣本特征,從而使得模型在后續(xù)的對(duì)抗性訓(xùn)練中保持足夠的穩(wěn)定性;輸入不具有標(biāo)簽的圖像,經(jīng)過(guò)解碼器的圖像重建后,構(gòu)建對(duì)抗性訓(xùn)練使得模型獲得具有判別性的解糾纏特征表示;在欺騙特征圖輸出階段,采用多分類策略,弱化環(huán)境多樣性的影響,使得模型識(shí)別率進(jìn)一步上升。
1 相關(guān)工作
1.1 解糾纏表示學(xué)習(xí)
解糾纏表示學(xué)習(xí)是一種無(wú)監(jiān)督的學(xué)習(xí)方法,核心思想是將模型提取的圖像特征進(jìn)行進(jìn)一步分離,使得深度學(xué)習(xí)模型學(xué)習(xí)到對(duì)于人臉?lè)雌垓_任務(wù)更為有效的判別性特征?;趯?duì)抗性的解糾纏表示學(xué)習(xí)網(wǎng)絡(luò)如圖1所示,編碼器、生成器和鑒別器構(gòu)成網(wǎng)絡(luò)主干。編碼器網(wǎng)絡(luò)輸出特定的特征表示,并作為生成器的輸入,生成器生成與輸入具有一致風(fēng)格的圖像。編碼器和內(nèi)容鑒別器的任務(wù)具有一致性,得到風(fēng)格鑒別器輸出后,進(jìn)行極大化或者極小化優(yōu)化,使得鑒別器(風(fēng)格)和編碼器進(jìn)行對(duì)抗性學(xué)習(xí)。根據(jù)風(fēng)格鑒別器與輸入圖像的標(biāo)簽的匹配,進(jìn)行生成器的訓(xùn)練,以生成對(duì)應(yīng)風(fēng)格的圖像。為了學(xué)習(xí)分離耦合特征,將生成對(duì)抗式訓(xùn)練和解糾纏表示學(xué)習(xí)進(jìn)行組合。因此,網(wǎng)絡(luò)目的是對(duì)耦合特征表示的對(duì)抗訓(xùn)練。網(wǎng)絡(luò)融合了不同風(fēng)格圖像,使得所獲得的特征表示對(duì)合成保留內(nèi)容的圖像具有包容性,而且對(duì)風(fēng)格變化具有排斥性,這種對(duì)耦合的特征表示進(jìn)行分離的對(duì)抗性訓(xùn)練有利于提升模型的分類性能 [19]。
1.2 多分類研究
由于攻擊媒介的多樣性,導(dǎo)致了模型在學(xué)習(xí)不同攻擊類型時(shí)存在不同模式的圖像噪聲。打印樣本圖像由于打印設(shè)備與紙張材質(zhì)問(wèn)題,通常出現(xiàn)顏色不均、人臉面部細(xì)節(jié)丟失;因?yàn)椴シ旁O(shè)備的影響,重放視頻攻擊樣本通常出現(xiàn)摩爾紋,偶有反光、過(guò)度曝光現(xiàn)象。真實(shí)人臉圖像呈現(xiàn)的色彩均衡、細(xì)節(jié)清晰; OULU-NPU數(shù)據(jù)集的真實(shí)人臉、打印人臉、重放人臉三種樣本類型由圖2展示。由圖可見(jiàn),三種類型樣本如上所述,出現(xiàn)相對(duì)應(yīng)的差異 [20]。
2 算法
本文假設(shè)每個(gè)欺騙樣本都由其對(duì)應(yīng)的真實(shí)信息和相關(guān)欺騙信息所組成。真實(shí)圖像和欺騙圖像的真實(shí)信息部分是相關(guān)聯(lián)的,獲得具有判別性的解耦特征是模型區(qū)分欺騙樣本的關(guān)鍵。為了獲得具有顯著區(qū)分性的特征表示,本文提出了一種基于解糾纏表示學(xué)習(xí)的人臉?lè)雌垓_算法。模型結(jié)構(gòu)如圖3所示。
在第一階段訓(xùn)練中,真實(shí)信息網(wǎng)絡(luò)僅僅學(xué)習(xí)到與真實(shí)樣本相關(guān)的特征信息。本文E-live為基于U-Net[13]框架Encoder編碼器,真實(shí)樣本經(jīng)過(guò)E-live編碼器編碼后輸出特征表示FL, FL∈Euclid ExtraaBp512,F(xiàn)L僅與真實(shí)樣本相關(guān)。在第二階段訓(xùn)練中,解糾纏模塊(disentangled module)采用第一階段預(yù)訓(xùn)練的E-live作為固定的編碼器,采用對(duì)抗學(xué)習(xí)的方式對(duì)提取解糾纏進(jìn)行特征表示,解糾纏模塊輸出特征表示FS,F(xiàn)S∈Euclid ExtraaBp512,F(xiàn)S作為輸入在多分類模塊(multi-classification module)中再次進(jìn)行處理,得到兩種類型的欺騙特征圖,并利用特征圖進(jìn)行分類決策。
2.1 預(yù)訓(xùn)練
在第一階段,只輸入真實(shí)樣本,使得Encoder-Decoder模型只學(xué)習(xí)到真實(shí)樣本的特征參數(shù),編碼器E-live與D-live是自動(dòng)編碼解碼器,輸入真實(shí)樣本后,經(jīng)過(guò)編碼器E-live,輸出特征表示FL,F(xiàn)L經(jīng)過(guò)解碼器進(jìn)行解碼得到重建圖像。這一訓(xùn)練階段使用Loss MAE(mean absolute error,MAE)函數(shù)約束模型提取真實(shí)特征、重建真實(shí)人臉圖像。圖4為一階段模型結(jié)構(gòu)圖。
圖中real代表輸入的真實(shí)樣本數(shù)據(jù),synthetic為解碼器輸出的重建圖像,F(xiàn)L代表圖像經(jīng)過(guò)編碼器編碼后的特征表示。本階段主要用于獲取E-live模塊在訓(xùn)練中得到的權(quán)重參數(shù)。
設(shè)X表示真實(shí)樣本訓(xùn)練數(shù)據(jù),D為D-live解碼器。真實(shí)特征網(wǎng)絡(luò)可以產(chǎn)生輸出syn=D-live(E-live(X))。損失函數(shù)為
Lr=EX~PX(syn-X)(1)
其中:syn為合成樣本;X為真實(shí)樣本。
該模型只從真實(shí)樣本中學(xué)習(xí)信息,所以得到的權(quán)重參數(shù)只與真實(shí)樣本相關(guān),經(jīng)Encoder提取的所有特征都看做是真實(shí)特征。
2.2 解糾纏表示學(xué)習(xí)
在第二階段,使用真實(shí)樣本、打印攻擊樣本和重放攻擊樣本作為訓(xùn)練數(shù)據(jù)。分別采用編碼器E-attack與E-live對(duì)訓(xùn)練樣本進(jìn)行編碼,E-live在第一階段訓(xùn)練完畢,沒(méi)有學(xué)習(xí)到關(guān)于欺騙圖像的任何信息,可以專注于提取與攻擊樣本具有共性的、可被識(shí)別為真實(shí)樣本的特征。圖5為解糾纏表示學(xué)習(xí)模塊。
特征表示FL為E-live所編碼的特征向量,使用Element-wise Addition方法合并兩種特征表6dad9d51343e7064e7f47c0753a2f9570095b2ce24dffcffd85679b9a7002ac5示FL與FS。E-attack與D-syn分別為基于U-Net[13]框架的編碼器與解碼器。D-syn接收合成的特征表示進(jìn)行解碼,輸出合成圖像Syn,Syn與原始數(shù)據(jù)經(jīng)過(guò)鑒別器D(discriminator)進(jìn)行對(duì)抗學(xué)習(xí),使得E-attack提取更具欺騙性的特征表示FS。
實(shí)驗(yàn)使用回歸損失LR和生成對(duì)抗式損失函數(shù)來(lái)約束與原始數(shù)據(jù)X相似的輸出Syn。本文將生成的數(shù)據(jù)Syn和原始數(shù)據(jù)X作為鑒別器D的輸入,它將對(duì)輸入樣本進(jìn)行鑒別。通過(guò)上述過(guò)程,從而將具有區(qū)分性的欺騙特征從無(wú)關(guān)特征中剝離提取。
LGen=EX~PX[(D(Syn)-1)2](2)
LDis=EX~PX[(D(X)-1)2]+EX~PX[(D(Syn)2](3)
損失函數(shù)LR由下式給出:
LR=EX~PXSyn-X22 (4)
2.3 多分類的欺騙特征圖輸出
在欺騙特征提取模塊中,將解糾纏模塊中經(jīng)過(guò)解糾纏處理的欺騙特征作為解碼器DPMAP與DRMAP的輸入來(lái)生成不同類別的欺騙特征映射。圖6為多分類模塊結(jié)構(gòu)。
解糾纏過(guò)程中編碼器E-attack經(jīng)過(guò)類似生成對(duì)抗式學(xué)習(xí)后,所編碼的特征表示FS更具有欺騙性,用FS作為輸入,使用雙解碼器DRMAP與DPMAP進(jìn)行解碼,分別獲得打印欺騙特征圖與重放欺騙特征圖。Classifier-aux作為二元分類器,分別輸入欺騙特征圖疊加原始數(shù)據(jù)。分類器僅對(duì)解碼過(guò)程起輔助監(jiān)督作用。
損失函數(shù)LT用于最小化真實(shí)人臉圖像的欺騙映射,并將真實(shí)數(shù)據(jù)和欺騙數(shù)據(jù)耦合的特征分開(kāi),將更能區(qū)分攻擊樣本的欺騙特征剝離出來(lái)。本文在解碼器的最后三層中應(yīng)用了損失函數(shù)LT。LT由兩部分組成:
LT=LH+LN(5)
其中:損失LN計(jì)算所有有效三元組的三元組損失,并對(duì)正值的三元組進(jìn)行平均化。
LN =1N∑Ni=1max(‖fai+fpi‖22-‖fai-fni‖22+α,0)(6)
其中:fai、fpi、fni分別表示第i三元組的錨樣本、正樣本和負(fù)樣本的特征向量;N表示三元組的數(shù)量;α是預(yù)設(shè)的邊距常量。本文選定真實(shí)樣本特征向量作為錨樣本。
在LH的計(jì)算中,對(duì)于每個(gè)fai,本文設(shè)置具有最大歐氏距離的一組(fai,fpi)作為正值。正樣本索引j選自L且j≠i,其中L表示當(dāng)前批次中所有真實(shí)樣本的集合。對(duì)于每個(gè)fai,找出具有最小歐氏距離的一組(fai,fnk)為負(fù)值。欺騙樣本索引k選自N,N表示當(dāng)前批次中所有欺騙樣本的集合。T表示三元組的數(shù)量。m是預(yù)定義的邊距常量。對(duì)于每個(gè)三元組(fai,fpi,fni),本文計(jì)算每個(gè)三元組的損失,然后取其平均值:
LH =1T∑Ti=1max(max‖fai-fpj‖22-min‖fai-fnk‖22+m,0)(7)
其中:j∈L,k∈N。經(jīng)過(guò)DRMAP與DPMAP解碼后生成兩類型特征圖,分別命名為欺騙特征圖RMAP和PMAP,為使欺騙特征圖的類型得到區(qū)分,本文使用LP與LR來(lái)幫助訓(xùn)練解碼器將特征分流,并在分流過(guò)后使用Lc利用鑒別器進(jìn)行輔助訓(xùn)練,目的在于增強(qiáng)區(qū)分性。本文使用損失函數(shù)LP與LR來(lái)使得欺騙特征得到分流:
LP=EX~PX‖RMAP-IPrint‖1(8)
LR=EX~PX‖RMAP-IReplay‖1(9)
其中:IPrint,IReplay為對(duì)應(yīng)樣本標(biāo)簽。Classifier-aux是一種二值分類器,用來(lái)輔助加強(qiáng)解碼器對(duì)真實(shí)樣本與欺騙樣本的區(qū)分性。本文將欺騙特征圖與原始數(shù)據(jù)重疊,與原始數(shù)據(jù)分別作為輔助分類器的輸入。分類器Classifier-aux的損失Lc由下式給出:
Lc = 1N∑Ni=1zi ln qi+(1-zi)ln qi(10)
其中:N是樣本數(shù)量;zi是二進(jìn)制標(biāo)簽;qi是分類器預(yù)測(cè)值。
2.4 訓(xùn)練測(cè)試
加權(quán)計(jì)算上述損失函數(shù)的總和作為第二訓(xùn)練階段的最終損失,由式(11)給出:
LR=λ1LLrecon+λ2LGen+λ3LT+λ4LR+λ5LP+λ6Lc(11)
其中:λ1、λ2、λ3、λ4和λ5是與上述損失函數(shù)相關(guān)聯(lián)的權(quán)重,在實(shí)驗(yàn)中,它們的值分別被設(shè)置為4、1、3、3、3、4。訓(xùn)練完成時(shí),計(jì)算生成的RMAP與PMAP各自平均值作為欺騙分?jǐn)?shù),利用欺騙分?jǐn)?shù)作三分類決策。在測(cè)試階段,將輸入測(cè)試數(shù)據(jù)得到的兩種分?jǐn)?shù)與原有的兩種欺騙分?jǐn)?shù)進(jìn)行對(duì)比,差值較大的作為分類結(jié)果。在測(cè)試階段,需要使用編碼器E-attack和解碼器DPMAP與DRMAP。
2.5 網(wǎng)絡(luò)結(jié)構(gòu)和實(shí)現(xiàn)細(xì)節(jié)
本文方法的編碼器和解碼器的基本結(jié)構(gòu)框架如圖7所示,本文基于U-Net[21]架構(gòu)進(jìn)行了模型的設(shè)計(jì)。在預(yù)訓(xùn)練階段,本文采用基于ResNet-18[21]的0~4層作為編碼器,接著進(jìn)行下采樣。解碼器與編碼器結(jié)構(gòu)對(duì)應(yīng),而對(duì)每一層的特征圖采用雙線性插值法上采樣,在解碼器的最后一層設(shè)置Tanh激活函數(shù)來(lái)獲得輸出圖像。在對(duì)抗性訓(xùn)練階段,為了獲得判別性特征表示,對(duì)預(yù)訓(xùn)練的編碼器停止更新參數(shù)。將兩編碼器輸出的特征表示進(jìn)行合成,因?yàn)閮删幋a器輸出相同規(guī)格的特征表示,考慮到后續(xù)重建圖像,選擇逐元素相加的方式將特征表示疊加。由于解碼器得到的是經(jīng)過(guò)疊加的特征表示,需要對(duì)解碼器進(jìn)行相應(yīng)的調(diào)整,本文在與基本模型結(jié)構(gòu)相同的基礎(chǔ)上,增加一次上采樣,使得解碼器輸出和原始圖像具有相同規(guī)格的合成圖像,進(jìn)而通過(guò)鑒別器完成對(duì)抗性訓(xùn)練。在欺騙特征圖獲取時(shí),與基本模型結(jié)構(gòu)相同,采用四個(gè)解碼塊組成的解碼器進(jìn)行欺騙特征圖的輸出,在使用分類器輔助監(jiān)督時(shí),為了獲得更好的監(jiān)督效果,采用相乘方式進(jìn)行原始數(shù)據(jù)與特征圖疊加。
3 實(shí)驗(yàn)設(shè)計(jì)與分析
3.1 數(shù)據(jù)庫(kù)
基于OULU-NPU和CASIA-FASD、Replay-Attack三種數(shù)據(jù)集,本文設(shè)計(jì)了一系列實(shí)驗(yàn)對(duì)打印攻擊和重放攻擊兩種常見(jiàn)的欺詐人臉攻擊方式進(jìn)行訓(xùn)練和測(cè)試。
1)OULU-NPU數(shù)據(jù)集[22] 該數(shù)據(jù)集由芬蘭奧盧大學(xué)和中國(guó)西北工業(yè)大學(xué)研究人員共同創(chuàng)建,包括20個(gè)訓(xùn)練集、20個(gè)測(cè)試集和15個(gè)驗(yàn)證集。數(shù)據(jù)集共有4 950個(gè)視頻,這些視頻由不同的6種設(shè)備所拍攝。共設(shè)置了4種不同的光照背景條件,即跨光照環(huán)境實(shí)、跨攻擊制作設(shè)備實(shí)驗(yàn)、跨數(shù)據(jù)采集設(shè)備實(shí)驗(yàn)、跨所有條件實(shí)驗(yàn)。圖8分別展示了真實(shí)樣本與打印攻擊樣本、重放視頻攻擊樣本三種類型。
2)CASIA-FASD 該數(shù)據(jù)集由Zhang等人[23]創(chuàng)建,其中包含20個(gè)訓(xùn)練集和30個(gè)測(cè)試集,每個(gè)集合包含一個(gè)人的真臉和攻擊,共50個(gè)人。其中,每個(gè)人的集合中均包括3個(gè)不同光照、不同角度的真臉,以及彎曲攻擊、剪洞攻擊和視頻共9個(gè)攻擊。圖9展示了三種攻擊的示意圖。
3)Replay-Attack 該數(shù)據(jù)集是Chingovska等人[24]在2012年提出的。該數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,每種集合均包括真臉和攻擊。為了增加分類識(shí)別提高難度,本數(shù)據(jù)集的攻擊類型分為手持和固定。圖10為Replay-Attack樣本示意圖。
3.2 評(píng)價(jià)指標(biāo)
本文選擇了五個(gè)常用的指標(biāo)來(lái)評(píng)估FAS任務(wù)的性能:攻擊呈現(xiàn)分類錯(cuò)誤率(attack presentation classification error rate,APCER)、真實(shí)分類錯(cuò)誤率(bona fide presentation classification error rate,BPCER),平均分類錯(cuò)誤率(average classification error rate,ACER)、等錯(cuò)誤率(equal error rate,EER)、模型評(píng)價(jià)指標(biāo)(area under curve,AUC)。上述指標(biāo)除AUC外,其余數(shù)值越低,代表模型表現(xiàn)越優(yōu)秀。AUC描述二分類器分類能力,X軸為FPR(false positive rate),Y軸為TPR(true positive rate)構(gòu)成一條曲線下面積。即隨機(jī)選取正樣本和負(fù)樣本,正樣本預(yù)估概率大于負(fù)樣本預(yù)估概率的概率。AUC數(shù)值越大,說(shuō)明模型性能越好。上述指標(biāo)數(shù)值越低,說(shuō)明網(wǎng)絡(luò)性能越好。
APCER=FPTN+FP,BPCER=FNFN+TP,APCER=APCER+BPCER2
其中:TP表示模型把正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量;TN表示模型把正樣本預(yù)測(cè)為負(fù)樣本數(shù)量;FP為模型把負(fù)樣本預(yù)測(cè)為正樣本的數(shù)量;FN為模型把正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量[18]。
3.3 實(shí)驗(yàn)配置
本文首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,即視頻重采樣。本文對(duì)視頻進(jìn)行圖像采樣,采樣率為每3幀保存一幅圖像。裁剪圖像使用Dlib[25]的人臉目標(biāo)檢測(cè)算法來(lái)對(duì)每張圖像進(jìn)行裁剪,將所有裁剪區(qū)域的大小都調(diào)整為224×224。最后,對(duì)數(shù)據(jù)集進(jìn)行重采樣,以保持真實(shí)圖像和兩種攻擊圖像的比例為1∶1∶1。
訓(xùn)練階段,采用Adam[26]作為優(yōu)化算法,初始學(xué)習(xí)率為5E-4,訓(xùn)練Batch大小為32。模型分為一個(gè)兩階段的訓(xùn)練過(guò)程,本文在第一階段訓(xùn)練了10個(gè)Epoch的真實(shí)樣本來(lái)獲取權(quán)重參數(shù)。在第二階段,將預(yù)先訓(xùn)練好的編碼器E-live加載為固定的編碼器,以進(jìn)一步訓(xùn)練解纏模塊。對(duì)于訓(xùn)練中所使用的數(shù)據(jù)集,解糾纏模塊的損失函數(shù)可以在大約10個(gè)Epoch之后收斂。
本文的實(shí)驗(yàn)硬件為NVIDIA GeForce GTX 4060(8 GB),框架為基于Python 的PyTorch框架。
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 模塊間對(duì)比實(shí)驗(yàn)
為了驗(yàn)證解糾纏原理中假設(shè)圖像存在具有區(qū)分性的真實(shí)特征與欺騙特征,實(shí)驗(yàn)在OULU-NPU數(shù)據(jù)集上采集樣本,通過(guò)t-SNE[27]提取真實(shí)特征FL和欺騙特征FS的特征分布并進(jìn)行可視化,真實(shí)樣本和欺騙樣本的FL高度重疊,而相比之下,兩者的FS有明顯區(qū)別。可視化分布如表1所示。
其中,藍(lán)色表示真實(shí)樣本特征分布,紅色則表示欺騙樣本的特征分布(見(jiàn)電子版)。實(shí)驗(yàn)對(duì)模型的兩個(gè)編碼器E-live和E-attack的輸出特征FL和FS進(jìn)行特征分布的可視化,以證明本文的多分類解糾纏表示學(xué)習(xí)策略是合理的。本文采用OULU-NPU數(shù)據(jù)集,從測(cè)試集中隨機(jī)選擇1 000個(gè)真實(shí)樣本和1 000個(gè)欺騙類型樣本。如表1所示,由E-live所輸出的特征分布不具明顯界限,說(shuō)明其提取到的特征不具有區(qū)分性,屬于欺騙無(wú)關(guān)特征。而由E-attack所輸出的顯示,其特征分布具有明顯界限,模型提取到了具有區(qū)分性的欺騙特征。
3.4.2 數(shù)據(jù)集內(nèi)部測(cè)試
分別在OULU-NPU、CASIA-FASD和Replay-Attack數(shù)據(jù)集上進(jìn)行數(shù)據(jù)集內(nèi)部的訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果如表2~4所示。采用基于解糾纏表示學(xué)習(xí)的人臉?lè)雌垓_方法在上述四種數(shù)據(jù)集的不同評(píng)價(jià)指標(biāo)下,與其他的人臉?lè)雌垓_方法相比具有優(yōu)越性。不同類型的欺騙樣本的特征信息存在明顯共性,采取多分類策略增加了解糾纏模型對(duì)不同欺詐樣本類型的關(guān)注度,提升了對(duì)打印樣本攻擊和視頻重放樣本攻擊的共性欺騙信息學(xué)習(xí),深化了模型對(duì)欺騙特征的解耦程度,提升了檢測(cè)任務(wù)的識(shí)別率。
如表2所示,在OULU-NPU的數(shù)據(jù)集分別基于四個(gè)實(shí)驗(yàn)條件與其他優(yōu)秀方法進(jìn)行了對(duì)比,其中粗體表示本文在該項(xiàng)獲得了最優(yōu)結(jié)果。本文分別在跨所有條件實(shí)驗(yàn)、跨攻擊制作設(shè)備實(shí)驗(yàn)、跨光照環(huán)境實(shí)驗(yàn)條件下獲得了最優(yōu)結(jié)果。對(duì)比STDN方法,在實(shí)驗(yàn)1中,本文方法APCER指標(biāo)降低了0.3%,BPCER則下降了0.2%,說(shuō)明本文采用分階段訓(xùn)練、三元組函數(shù)輔助監(jiān)督,有效地提升了模型性能。
表3為本文方法與其他優(yōu)秀人臉?lè)雌垓_方法在CASIA-FASD數(shù)據(jù)集的內(nèi)部測(cè)試。在EER指標(biāo)表現(xiàn)上,與BNF相比,其具有一定優(yōu)勢(shì)。
表4為基于解糾纏表示學(xué)習(xí)的人臉?lè)雌垓_方法與其他方法在Replay-Attack數(shù)據(jù)集上的AUC指標(biāo)對(duì)比。由表可見(jiàn),本文方法在AUC指標(biāo)上表現(xiàn)優(yōu)秀,獲得了99.99。相比其他方法,在Replay-Attack數(shù)據(jù)集上,基于解糾纏表示學(xué)習(xí)的人臉?lè)雌垓_方法表現(xiàn)更為優(yōu)異。
3.4.3 跨數(shù)據(jù)集測(cè)試
為了進(jìn)一步研究基于解糾纏表示學(xué)習(xí)的人臉?lè)雌垓_方法的泛化能力,本文在CASIA-FASD、Replay-Attack數(shù)據(jù)集上設(shè)計(jì)了交叉訓(xùn)練與測(cè)試,實(shí)驗(yàn)結(jié)果如表5所示??梢钥闯?,與其他方法相比,采用基于解糾纏表示學(xué)習(xí)的人臉?lè)雌垓_方法,模型泛化性能得到了改善。
表5為本文算法與其他近年來(lái)人臉?lè)雌垓_方法在CASIA-FASD、Replay-Attack數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果對(duì)比與分析。經(jīng)過(guò)在CASIA-FASD數(shù)據(jù)集訓(xùn)練,在Replay-Attack數(shù)據(jù)集進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果顯示,本文算法相比BNF的EER錯(cuò)誤率有了一定下降,表明解糾纏表示學(xué)習(xí)方法相比其他不對(duì)特征進(jìn)行解耦的算法,在魯棒性方面具有一定優(yōu)勢(shì);其次,安排測(cè)試集與訓(xùn)練集進(jìn)行交換,得出的實(shí)驗(yàn)結(jié)果顯示,本文方法的EER錯(cuò)誤率仍然最低。實(shí)驗(yàn)結(jié)果證明了采取多分類策略的解糾纏表示學(xué)習(xí)方法的有效性。
3.5 消融實(shí)驗(yàn)
在OULU-NPU數(shù)據(jù)集基于跨光照環(huán)境條件下進(jìn)行消融實(shí)驗(yàn), 分別為去除三元組損失輔助監(jiān)督、 去除多分類進(jìn)行實(shí)驗(yàn)。
從表6可知,本文三元組函數(shù)約束對(duì)解糾纏表示學(xué)習(xí)過(guò)程起到推動(dòng)作用,同時(shí),多分類策略對(duì)模型欺騙特征圖輸出起到了一定的作用。
3.6 特征圖可視化
本文設(shè)置實(shí)驗(yàn)對(duì)解碼器的輸出分別進(jìn)行可視化,以描述具體如何檢測(cè)欺騙攻擊。實(shí)驗(yàn)使用OULU-NPU數(shù)據(jù)集測(cè)試模型,生成的欺騙特征圖如圖11所示。
從圖11的真臉欺騙特征圖可以看出,對(duì)于真實(shí)人臉,網(wǎng)絡(luò)所輸出欺騙特征圖幾乎空白,對(duì)于打印攻擊和重放攻擊的特征圖,則出現(xiàn)了有明顯網(wǎng)絡(luò)重點(diǎn)關(guān)注的區(qū)域,意味著其欺騙系數(shù)較大。
4 結(jié)束語(yǔ)
本文提出了基于解糾纏表示學(xué)習(xí)的人臉?lè)雌垓_算法,通過(guò)對(duì)一般對(duì)抗性解糾纏學(xué)習(xí)表示網(wǎng)絡(luò)的改進(jìn),采取分階段訓(xùn)練方式,使得模型在經(jīng)過(guò)與真實(shí)人臉特征解耦的過(guò)程中穩(wěn)定地獲得了更有效的判別性特征信息,深化了模型的解耦程度;多分類策略降低了環(huán)境因素對(duì)檢測(cè)任務(wù)造成的不利影響。經(jīng)過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比與分析,驗(yàn)證了基于解糾纏表示學(xué)習(xí)的人臉?lè)雌垓_算法的有效性。
參考文獻(xiàn):
[1]張帆, 趙世坤, 袁操, 等. 人臉識(shí)別反欺詐研究進(jìn)展[J]. 軟件學(xué)報(bào), 2022, 33(7): 2411-2446. (Zhang Fan, Zhao Shikun, Yuan Cao, et al. Research progress of face recognition anti-spoofing[J]. Journal of Software, 2022, 33(7): 2411-2446.)
[2]盧子謙, 陸哲明, 沈馮立, 等. 人臉?lè)雌墼p活體檢測(cè)綜述[J]. 信息安全學(xué)報(bào), 2020, 5(2): 18-27. (Lu Ziqian, Lu Zheming, Shen Fengli, et al. A survey of face anti-spoofing[J]. Journal of Information Security, 2020, 5(2): 18-27.)
[3]黃子軒. 基于混合紋理的人臉活體檢測(cè)算法設(shè)計(jì)與實(shí)現(xiàn)[D]. 武漢:華中科技大學(xué), 2023. (Huang Zixuan. Design and implementation of face anti-spoofing algorithm based on mixed texture[D]. Wuhan: Huazhong University of Science and Technology, 2023.)
[4]劉航. 基于Haralick和HOG特征的人臉活體檢測(cè)[J]. 計(jì)算機(jī)與網(wǎng)絡(luò), 2020, 46(15): 53. (Liu Hang. Face liveness detection based on Haralick and HOG features[J]. Computers and Networks, 2020, 46(15): 53.)
[5]郭華. 基于視頻的人臉活體檢測(cè)研究[D]. 北京:北方工業(yè)大學(xué), 2021. (Guo Hua. Research on face anti-spoofing algorithm based on video[D]. Beijing: North China University of Technology, 2021.)
[6]Singh A K, Joshi P, Nandi G C. Face recognition with liveness detection using eye and mouth movement[C]//Proc of International Conference on Signal Propagation and Computer Technology. Pisca-taway, NJ: IEEE Press, 2014: 592-597.
[7]陳俊廷. 基于深度信息輔助監(jiān)督的活體人臉檢測(cè)算法研究與應(yīng)用[D]. 濟(jì)南:濟(jì)南大學(xué), 2022. (Chen Junting. Research and application of face anti-spoofing algorithm with depth supervision[D]. Jinan :Jinan University, 2022.)
[8]Yang Xiao, Luo Wenhan, Bao Linchao, et al. Face anti-spoofing: model matters, so does data[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 3502-3511.
[9]Yu Zitong, Qin Yunxiao, Li Xiaobai, et al. Multi-modal face anti-spoofing based on central difference networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE Press, 2020: 2766-2774.
[10]劉偉, 章琬苓, 項(xiàng)世軍. 基于LBP-MDCT和CNN的人臉活體檢測(cè)算法[J]. 應(yīng)用科學(xué)學(xué)報(bào), 2019, 37(5): 609-617. (Liu Wei, Zhang Wanling, Xiang Shijun. Face anti-spoofing based on LBP-MDCT and CNN[J]. Journal of Applied Science, 2019, 37(5): 609-617.)
[11]高文龍. 基于圖像與深度信息融合的人臉識(shí)別研究[D]. 沈陽(yáng):東北大學(xué), 2020. (Gao Wenlong. Face recognition based on image and depth information[D]. Shenyang: Northeastern University, 2020.)
[12]Kim T, Kim Y H, Kim I, et al. BASN: enriching feature representation using bipartite auxiliary supervisions for face anti-spoofing[C]//Proc of IEEE/CVF International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE Press, 2019: 494-503.
[13]Liu Yaojie, Jourabloo A, Liu Xiaoming. Learning deep models for face anti-spoofing: binary or auxiliary supervision[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 389-398.
[14]Jourabloo A, Liu Y, Liu X. Face de-spoofing: anti-spoofing via noise modeling[C]//Proc of European Conference on Computer Vision. Cham:Springer, 2018: 290-306.
[15]Zhang K Y, Yao Taiping, Zhang Jian, et al. Face anti-spoofing via disentangled representation learning[C]//Proc of the 16th European Conference on Computer Vision. Cham:Springer, 2020: 641-657.
[16]Liu Yaojie, Stehouwer J, Liu Xiaoming. On disentangling spoof trace for generic face anti-spoofing[C]//Proc of the 16th European Confe-rence on Computer Vision. Cham:Springer, 2020: 406-422.
[17]Wu Yiqiang, Tao Dapeng, Luo Yong, et al. Covered style mining via generative adversarial networks for face anti-spoofing[J]. Pattern Recognition, 2022, 132: 108957.
[18]Zhou Qianyu, Zhang K Y, Yao Taiping, et al. Generative domain adaptation for face anti-spoofing[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2022: 335-356.
[19]陳莉明, 田茂, 顏佳. 解糾纏表示學(xué)習(xí)在跨年齡人臉識(shí)別中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用研究, 2021, 38(11): 3500-3505. (Chen Liming, Tian Mao, Yan Jia. Application of disentangled representation learning in cross-age face recognition[J]. Application Research of Computer, 2021, 38(11): 3500-3505.)
[20]黃新宇, 游帆, 張沛, 等. 基于多分類及特征融合的靜默活體檢測(cè)算法[J]. 浙江大學(xué)學(xué)報(bào):工學(xué)版, 2022,56(2): 263-270. (Huang Xinyu, You Fan, Zhang Pei, et al. Silent living body detection algorithm based on multi-classification and feature fusion[J]. Journal of Zhejiang University: Engineering Science, 2022,56(2): 263-270.)
[21]Feng Haocheng, Hong Zhibin, Yue Haixiao, et al. Learning genera-lized spoof cues for face anti-spoofing[EB/OL]. (2020). https://arxiv.org/abs/2005. 03922.
[22]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.
[23]Zhang Zhiwei, Yan Junjie, Liu Sifei, et al. A face antispoofing database with diverse attacks[C]//Proc of the 5th IAPR International Conference on Biometrics. Piscataway, NJ: IEEE Press, 2012: 26-31.
[24]Chingovska I, Anjos A, Marcel S. On the effectiveness of local binary patterns in face anti-spoofing[C]//Proc of International Conference of Biometrics Special Interest Group. Piscataway, NJ: IEEE Press, 2012: 1-7.
[25]King D E. Dlib-ml: a machine learning toolkit[J]. The Journal of Machine Learning Research, 2009, 10: 1755-1758.
[26]Kingma D, Ba J. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30). https://arxiv.org/abs/1412.6980.
[27]Van der Maaten L, Hinton G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(11):2579-2605.
[28]Boulkenafet Z, Komulainen J, Hadid A. Face anti-spoofing based on color texture analysis[C]//Proc of IEEE International Conference on Image Processing. Piscataway, NJ: IEEE Press, 2015: 2636-2640.
[29]Chen Haonan, Hu Guosheng, Lei Zhen, et al. Attention-based two-stream convolutional networks for face spoofing detection[J]. IEEE Trans on Information Forensics and Security, 2019, 15: 578-593.
[30]Xiong Fei, AbdAlmageed W. Unknown presentation attack detection with face RGB images[C]//Proc of the 9th IEEE International Conference on Biometrics Theory, Applications and Systems. Piscataway, NJ: IEEE Press, 2018: 1-9.
[31]Liu Yaojie, Stehouwer J, Jourabloo A, et al. Deep tree learning for zero-shot face anti-spoofing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 4675-4684.
[32]Qin Yunxiao, Zhao Chenxu, Zhu Xiangyu, et al. Learning meta mo-del for zero-and few-shot face anti-spoofing[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2020: 11916-11923.
[33]Yu Zitong, Wan Jun, Qin Yunxiao, et al. NAS-FAS: static-dynamic central difference network search for face anti-spoofing[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2020, 43(9): 3005-3023.
[34]Boulkenafet Z, Komulainen J, Hadid A. Face spoofing detection using color texture analysis[J]. IEEE Trans on Information Forensics and Security, 2016, 11(8): 1818-1830.