郝瑾琳,陳雪云
(廣西大學(xué) 電氣工程學(xué)院, 廣西 南寧 530004)
人臉識別技術(shù)已獲得了廣泛的應(yīng)用,包括許多需要高識別精確率的保密行業(yè)和領(lǐng)域[1],如金融支付、訪問授權(quán)等。然而,現(xiàn)有的大多數(shù)人臉識別系統(tǒng)很容易被欺騙。提升系統(tǒng)的防欺騙能力,即人臉活體檢測(face anti-spoofing,F(xiàn)AS)可以有效增加人臉識別的準(zhǔn)確率。人們使用呈現(xiàn)攻擊(presentation attacks,PAs)[1-2]對識別系統(tǒng)進(jìn)行欺騙測試,模式主要包括打印攻擊(在紙上打印人臉)、重放攻擊(在數(shù)字設(shè)備上重放人臉)、3D掩碼攻擊(攜帶3D掩碼)。
為了能夠準(zhǔn)確判別活體圖像與欺騙圖像,研究者們充分挖掘圖像中所包含的信息。SURF、LBP等手工特征在活體檢測的任務(wù)中被廣泛應(yīng)用[3-4]。隨著深度學(xué)習(xí)的發(fā)展,越來越多的研究者提出了基于深度神經(jīng)網(wǎng)絡(luò)的算法[5-8]?;谏疃葘W(xué)習(xí)的算法正在成為活體檢測算法的主流,并且正朝著基于特征的方法和基于模型的方法發(fā)展,兩者研究的重點(diǎn)不同。
基于特征的方法[4-6,8-9]通常利用豐富的圖像特征,以及深度、時(shí)序等額外的特征提升活體檢測準(zhǔn)確度,主要關(guān)注如何融合多項(xiàng)特征。許多這類研究對真假人臉的區(qū)別性特征關(guān)注不夠,未注意到給定圖像中仍有很多能夠起關(guān)鍵作用的高級語義特征未被提取,壓縮了算法人臉防欺騙提升的空間?;谀P偷姆椒▌t從模型結(jié)構(gòu)出發(fā),設(shè)計(jì)精細(xì)的結(jié)構(gòu)來優(yōu)化模型的判別能力,如基于元學(xué)習(xí)(meta-learning)[10]、零樣本學(xué)習(xí)[11]、小樣本學(xué)習(xí)[5]、域適應(yīng)[8]等?,F(xiàn)有的第二類方法通常對圖像中的各類信息建模實(shí)現(xiàn)人臉活體檢測,這會(huì)增加學(xué)習(xí)成本,甚至出現(xiàn)過度關(guān)注圖像細(xì)節(jié)信息導(dǎo)致模型泛化能力下降的問題。
為了解決這些問題,本文希望從高級語義信息的特征表示優(yōu)化模型的特征提取能力。對比學(xué)習(xí)是一種受數(shù)據(jù)本身監(jiān)督的學(xué)習(xí)策略,它利用高級語義特征來增強(qiáng)特征表示的識別性。通常,對比學(xué)習(xí)接受正面和負(fù)面的樣本。使用對比學(xué)習(xí)可以擴(kuò)大正樣本之間的相似度,同時(shí)最小化正樣本與負(fù)樣本。由于不過度關(guān)注圖像細(xì)節(jié),對比學(xué)習(xí)能夠使模型有效地關(guān)注抽象高級語義信息。此外,本文還設(shè)計(jì)了2種正負(fù)樣本定義方式,以充分利用已有的數(shù)據(jù),學(xué)習(xí)優(yōu)化圖像特征表達(dá)。
空間上下文在活體檢測中也起著重要作用。采用注意力機(jī)制來學(xué)習(xí)空間上下文,注意如何分配輸入要素的權(quán)重,該權(quán)重基于鍵值字典的查詢來確定輸入中的重要成分。
本文提出了結(jié)合空間上下文特征與對比學(xué)習(xí)的人臉活體檢測算法(spatial context aware contrastive learning for face anti-spoofing, SAC)。SAC分為兩個(gè)階段:① 基于對比學(xué)習(xí)的特征表示階段:使用對比學(xué)習(xí)增強(qiáng)特征可分辨性,在此階段,設(shè)計(jì)兩種策略來定義正樣本和負(fù)樣本,提升了特征的可分辨性和泛化能力;② 基于空間上下文的判別模型階段:采用自我注意機(jī)制考慮空間上下文信息,將輸入作為鍵,值和查詢接受,從輸入中學(xué)習(xí)關(guān)鍵特征。自我注意機(jī)制可能會(huì)損害兩個(gè)階段之間的特征表示一致性。對此,使用跳躍連接保持兩個(gè)階段的特征表示一致性,加快訓(xùn)練進(jìn)程。
本文貢獻(xiàn)總結(jié)如下:①利用語義特征來增強(qiáng)特征可辨性和泛化性,采用基于對比學(xué)習(xí)的方式提取圖像特征;②設(shè)計(jì)了2種策略來定義正樣本和負(fù)樣本以及相應(yīng)的損失函數(shù),充分考慮數(shù)據(jù)的高級語義特征。③使用注意力機(jī)制探索空間上下文信息,以獲得更好模型泛化能力。
為了驗(yàn)證SAC網(wǎng)絡(luò)的有效性,在3個(gè)公共數(shù)據(jù)集Spoof in the Wild (SiW)[7]、CASIA Face Anti-Spoofing Dataset (CASIA FASD)[12]和Replay Attack[13]上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,SAC在SiW的3種官方測試方案下均具有出色的性能,均達(dá)到了與先進(jìn)研究算法可比較的成績。使用CASIA FASD和Replay Attack進(jìn)行的交叉數(shù)據(jù)集測試中,SAC分別將結(jié)果提高了4%,11%,證明了SAC可以改善特征表示的可分辨性,有效區(qū)分活體人臉和攻擊人臉。
許多研究者提出了優(yōu)秀的算法實(shí)現(xiàn)人臉活體檢測,它們可以被分為基于手工提取特征的方法[3-9]和基于深度學(xué)習(xí)的方法[8,11-12,14-20]兩類。第一類基于手工提取特征的方法主要使用不同的特征來提升算法辨別真假人臉的能力,例如LBP[21]以支持向量機(jī)為分類器、DoG-SL[3]使用自適應(yīng)直方圖作為特征的描述結(jié)構(gòu)。第二類基于深度的人臉活體檢測方法,在以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)的發(fā)展下不斷取得了突破。YANG等[4]將CNN作為分類器,不同空間尺度的實(shí)時(shí)和欺騙人臉圖像共同訓(xùn)練。SIDDIQUI等[6]提出了一種半監(jiān)督的對抗性學(xué)習(xí)框架,放寬了監(jiān)督條件。
越來越多的研究者發(fā)現(xiàn)只使用單個(gè)特征難以實(shí)現(xiàn)優(yōu)質(zhì)的人臉活體檢測。以深度特征為例,多個(gè)實(shí)驗(yàn)證明,使用多點(diǎn)投射建立的人臉3D模型在面對3D掩碼攻擊時(shí)可靠性急劇下降。為此,許多研究者提出結(jié)合使用深度信息、時(shí)序信息等額外特征來提升活體檢測算法的性能。LIU等[7]提出了基于CNN-RNN模型的人臉像素監(jiān)督估計(jì)方法,利用空間(深度信息)和時(shí)間(rPPG特征)兩種輔助監(jiān)督區(qū)分不同類別的面部線索。YU等[22]將人臉反欺騙問題表述為一個(gè)材料識別問題,整合傳統(tǒng)的雙邊過濾算子到最新的人臉活體檢測深度學(xué)習(xí)框架中,使用雙側(cè)卷積網(wǎng)絡(luò)、多層次特征求精模塊和多頭監(jiān)督學(xué)習(xí),共同提高網(wǎng)絡(luò)提取紋理特征的能力。ZHANG等[12]將圖像中的活體特征和內(nèi)容特征分離出來,并進(jìn)一步利用活體特征進(jìn)行分類。
此外,通過改變模型的結(jié)構(gòu)、學(xué)習(xí)方式提升特征泛化表示也是研究者所感興趣的。QIN等[5]提出了基于零樣本和小樣本學(xué)習(xí)的人臉活體檢測的學(xué)習(xí)元模型(adaptive inner-update meta face anti-spoofing, AIM-FAS),利用自適應(yīng)內(nèi)部更新策略訓(xùn)練元學(xué)習(xí)者進(jìn)行零鏡頭和少鏡頭人臉活體檢測任務(wù),提升檢測開放集(open set)活體檢測的準(zhǔn)確度。
近年來,對比學(xué)習(xí)取得了極大發(fā)展。對比學(xué)習(xí)是一種自監(jiān)督的學(xué)習(xí)方式,以優(yōu)化編碼器魯棒的生成可判別的特征為目標(biāo),利用數(shù)據(jù)中的正負(fù)樣本,通過優(yōu)化使正樣本之間的特征相似度不斷增大,正負(fù)樣本之間的特征相似度盡可能地減小。
許多出色的研究推動(dòng)了對比學(xué)習(xí)的發(fā)展。SimCLR[23]挖掘數(shù)據(jù)擴(kuò)充在預(yù)測任務(wù)中的作用,同時(shí)引入了可學(xué)習(xí)的非線性變換。HENAFF等[24]提出了針對音頻、文本的對比學(xué)習(xí)范式,在時(shí)序上設(shè)置一個(gè)窗口,窗口內(nèi)的樣本看作正樣本,窗口外的樣本則看作負(fù)樣本,并設(shè)置了自遞歸模型來將時(shí)序關(guān)系融入到特征表示中。HE等[25]針對樣本數(shù)量的限制對特征表示的影響,設(shè)計(jì)了基于隊(duì)列的字典以存儲(chǔ)特征,使得樣本數(shù)量與批次大小解耦,特征的表示學(xué)習(xí)更加魯棒。對比學(xué)習(xí)對特征表示能力的有效提升,許多基于對比學(xué)習(xí)的方法在不同的應(yīng)用領(lǐng)域取得了優(yōu)秀的成績。
本文提出了結(jié)合對比學(xué)習(xí)與空間上下文的人臉活體檢測(SAC),在不借助深度、時(shí)間等額外特征的情況下,通過對比學(xué)習(xí)不斷優(yōu)化相似圖像之間的特征一致性,使提取的特征有更強(qiáng)的可判別性。SAC分為兩個(gè)階段:第一階段為基于對比學(xué)習(xí)的特征表示,第二階段為基于空間上下文的判別網(wǎng)絡(luò)。SAC系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 SAC系統(tǒng)結(jié)構(gòu)Fig.1 Overall architecture of our proposed SAC
從圖1中可以看出,SAC包含目標(biāo)編碼器Et、參考編碼器Er和判別網(wǎng)絡(luò)部分,其中Et和Er采用相同的結(jié)構(gòu),判別網(wǎng)絡(luò)采用注意力(attention)結(jié)構(gòu),實(shí)心圓為輸入圖像的特征表示。
在訓(xùn)練過程中,首先訓(xùn)練基于對比學(xué)習(xí)的特征表示階段,僅設(shè)置并初始化Et和Er。本階段以圖像x為輸入,首先按照不同的采樣策略生成正負(fù)樣本,分別采用Et和Er提取源輸入x和變換后樣本x+和x-的特征,并以不同樣本間的特征相似度計(jì)算損失函數(shù)來優(yōu)化模型參數(shù)。此階段通過學(xué)習(xí)度量特征之間的相似度,增強(qiáng)人臉特征表示的可判別性和泛化能力。
之后,訓(xùn)練基于空間上下文的判別階段。設(shè)置Et并讀取上一階段預(yù)訓(xùn)練的模型參數(shù),在本階段固定Et參數(shù)且不參與梯度更新過程,設(shè)置并初始化判別網(wǎng)絡(luò)。在本階段,首先通過Et提取輸入圖像x的特征,然后通過判別網(wǎng)絡(luò)得到判別概率,此過程以交叉熵為損失函數(shù)優(yōu)化參數(shù)。第二階段學(xué)習(xí)得到輸入特征中最有價(jià)值的特征,進(jìn)一步增強(qiáng)特征的可判別性以更有效地分辨真實(shí)和攻擊人臉。
高級語義特征對于活體檢測至關(guān)重要。對比學(xué)習(xí)關(guān)注于辨別正樣本和負(fù)樣本,可以在不考慮面部細(xì)節(jié)的情況下,關(guān)注更多高級語義特征。
本文設(shè)計(jì)了2種正負(fù)樣本的定義方式進(jìn)行對比學(xué)習(xí)。對給定人臉x,首先介紹2種定義樣本的策略:第1種策略,將x不同變換形式定義為正樣本x+,它們語義與x相同。負(fù)樣本x-定義為隨機(jī)選擇的攻擊人臉,其語義與x不同。第1種策略下的正負(fù)樣本如圖2所示。第2種策略,提供x的真實(shí)標(biāo)簽y,并將該標(biāo)簽對(x,y)定義為正樣本對。為人臉x提供了一個(gè)不匹配的標(biāo)簽y-,組成負(fù)樣本對該標(biāo)簽對(x,y-)。這些策略可以忽略圖像細(xì)節(jié),對充分考慮高級語義信息至關(guān)重要,學(xué)習(xí)得到的特征更具泛化能力。
圖2 第1種策略下的正負(fù)樣本Fig.2 Positive and negative samples on the first strategy
式中,τ為溫度超參數(shù);K為樣本數(shù)量;Ls的第一項(xiàng)約束正樣本特征和負(fù)樣本特征盡可能分離,模型將優(yōu)化參數(shù)使其最大化;Ls的第二項(xiàng)使正樣本之間的特征表示盡可能接近,在訓(xùn)練過程中本文的模型使其最小化。
與第1種策略相比,第2種策略在對比學(xué)習(xí)中添加了語義監(jiān)督。對于任意樣本對,Et和Er將分別給出估計(jì)的條件概率pt(y|x,β)和pr(y|x,θ),其中β和θ分別表示模型Et和Er的參數(shù)。希望對正樣本(x,y)而言,pt(y|x,β)和pr(y|x,θ)盡可能大,約束正樣本之間的距離變小。而對于任何負(fù)樣本(x,y-)而言則相反。此外,希望pr(y|x,θ)盡可能接近pt(y|x,β)。定義差異函數(shù)為
式中,λ為平衡系數(shù)。此時(shí),優(yōu)化目標(biāo)函數(shù)可表示為
Lc=D(x,y)-D(x,y-)。
(3)
基于對比學(xué)習(xí)的特征表示階段的目標(biāo)函數(shù)則可最終表示為
Lrl=Ls+Lc。
(4)
為了增加編碼器的特征學(xué)習(xí)能力,受到文獻(xiàn)[25]的啟發(fā),構(gòu)建了基于隊(duì)列的字典存儲(chǔ)基本特征單元,更好地對基礎(chǔ)、連續(xù)的高維視覺空間采樣。利用基于隊(duì)列的動(dòng)態(tài)字典來存儲(chǔ)樣本,每編碼一個(gè)批次樣本后將編碼存儲(chǔ)入隊(duì)列,同時(shí)將最早存入隊(duì)列的編碼推出隊(duì)列。由于第2種采樣策略中,樣本自身存在監(jiān)督信息,所以本文僅對第1種采樣策略下的正負(fù)樣本編碼以隊(duì)列形式存儲(chǔ)。正負(fù)樣本分別存儲(chǔ)于不同的隊(duì)列,并根據(jù)參考編碼器Er的輸入樣本的類別,與對應(yīng)的隊(duì)列計(jì)算特征相似度。例如,輸入Er的圖像為正樣本,則提取樣本特征后,將源圖與正樣本特征隊(duì)列對比,計(jì)算特征相似度。這一設(shè)計(jì)實(shí)現(xiàn)字典大小與批大小的解耦,極大增加對比樣本數(shù)量K,保證字典存儲(chǔ)更多編碼特征。
由于使用隊(duì)列表示大型字典,增加了模型Er中的參數(shù)在反向傳播過程中的更新難度,因此采用動(dòng)量更新方法借助Et的參數(shù)來優(yōu)化Er,忽略訓(xùn)練過程中Er的梯度,如公式(5)所示:
θ←mθ+(1-m)β,
(5)
式中,m∈[0,1),θ和β分別表示兩個(gè)編碼器中的參數(shù)。為了進(jìn)一步提升動(dòng)量更新對模型的優(yōu)化效率,訓(xùn)練過程中逐步動(dòng)態(tài)增加m,進(jìn)而逐步增加編碼器Er的更新速度。
在基于空間上下文的判別階段,網(wǎng)絡(luò)學(xué)習(xí)關(guān)注輸入中對判別真假圖像有效度高的特征,本文采用注意力機(jī)制來實(shí)現(xiàn)空間上下文的學(xué)習(xí)。注意力機(jī)制通常包括查詢Q與鍵值對(K-V)3個(gè)輸入,通過度量查詢與鍵之間的相似度學(xué)習(xí)查詢與值之間的關(guān)系,輸出新的特征。如公式(6)所示:
attention(Q,K,V)=softmax(QKT)V。
(6)
將上一階段學(xué)習(xí)得到的特征作為輸入,分別輸入到3個(gè)不同的全連接層以得到查詢、鍵和值,如圖1所示。此外,增加跳躍連接,將注意力模塊的輸出特征與輸入特征相加,增加特征間連續(xù)性,如公式(7)所示:
Fout=Fin+attention(Q,K,V),
(7)
式中,F(xiàn)in和Fout分別為注意力模塊的輸入、輸出特征,Q、K、V由公式(8)至公式(10)得
Q=WqFin+bq,
(8)
K=WkFin+bk,
(9)
V=WvFin+bv,
(10)
式中,Wq、Wk、Wv分別為全連接層中可學(xué)習(xí)的矩陣;bq、bk、bv分別為對應(yīng)偏差。最后用一層全連接層作為判別函數(shù),區(qū)分輸入人臉是活體人臉還是欺騙人臉,如公式(11)所示。
p=WFout+b,
(11)
式中,W為全連接層可學(xué)習(xí)的矩陣;b為對應(yīng)的偏差;p為最終輸出的判別概率?;诳臻g上下文的判別階段以交叉熵?fù)p失函數(shù)作為模型優(yōu)化目標(biāo)函數(shù),如公式(12)所示:
SAC算法流程如下所示,為了表述方便,算法中僅以第1種策略中正樣本的采樣為例進(jìn)行了說明,其他采樣方式下的訓(xùn)練流程相似。其中,step 2為基于對比學(xué)習(xí)訓(xùn)練語義特征的提取階段,step 3為活體檢測判別網(wǎng)絡(luò)訓(xùn)練階段。
Step 1:設(shè)置超參數(shù)λ=0.1,m=0.001,最小批次m=128,初始學(xué)習(xí)率η=0.000 01,最大訓(xùn)練次數(shù)tmax=20 000。給定活體檢測人臉圖片數(shù)據(jù)集S,輸入圖像x,目標(biāo)類別y,目標(biāo)編碼器Et及參數(shù)β,參考編碼器Er及參數(shù)θ,分類模塊CLS及參數(shù)φ。
Step 2:基于對比學(xué)習(xí)的特征表示階段。
① 從數(shù)據(jù)集中隨機(jī)選出m個(gè)樣本x,對樣本進(jìn)行旋轉(zhuǎn)、裁剪等隨機(jī)變換以得到正樣本x+。
③ 更新Et的參數(shù)β來最小化Lrl:
minimize{Lrl=(Ls+Lc)},
β←β-ηLcl(β)。
④ 更新Er的參數(shù)θ:
θ←mθ+(1-m)β。
⑤t=t+1,當(dāng)t≤tmax時(shí),轉(zhuǎn)到①。
Step 3:基于空間上下文的判別階段。
① 固定step 2預(yù)訓(xùn)練的目標(biāo)編碼器Et的參數(shù)β。
② 從數(shù)據(jù)集中隨機(jī)選出m個(gè)樣本x及對應(yīng)的類別標(biāo)簽y。
③ 采用Et提取圖像特征,fin=Et(x,β)。
④ 將fin輸入到基于空間上下文的判別網(wǎng)絡(luò)CLS中,得到判別概率p=CLS(fin)。
⑤ 更新CLS的參數(shù)φ來最小化Lce:
φ←φ-ηLce(φ)。
⑥t=t+1,當(dāng)t≤tmax時(shí),轉(zhuǎn)到①。
為了證明SAC的有效性,在被國內(nèi)外廣泛應(yīng)用的公共數(shù)據(jù)集Spoof in the Wild (SiW) 、CASIA Face Anti-Spoofing Dataset (CASIA FASD)和Replay Attack上進(jìn)行實(shí)驗(yàn)。
SiW由密歇根州立大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室于2018年公開。它包含165個(gè)人的活體和欺騙視頻。每個(gè)人有8個(gè)活體視頻,最多20個(gè)欺騙視頻。視頻總數(shù)為4 478個(gè),所有視頻均為30 fps,長度約為15 s,均具有1080P HD分辨率。活體視頻是在各種距離,姿勢,照明和表情下收集的,欺騙視頻則是以印刷紙和視頻重放形式收集的。
SiW上有3種協(xié)議可以評估反欺騙方法的泛化能力。協(xié)議1只能使用訓(xùn)練視頻的前60幀來訓(xùn)練模型,并在所有測試視頻上進(jìn)行測試。協(xié)議2采用留控制變量法策略,在3種重放媒體上訓(xùn)練模型并在第4種重放媒體上進(jìn)行測試。報(bào)告第3個(gè)協(xié)議的4個(gè)評分的平均值和標(biāo)準(zhǔn)偏差。協(xié)議3旨在評估未知表示攻擊(PAs)的性能,并執(zhí)行從打印攻擊到重放攻擊的交叉表示攻擊測試,反之亦然。
CASIA FASD包含50個(gè)不同主題的600個(gè)視頻片段。這些視頻被分為150個(gè)活體訪問視頻和450個(gè)欺騙攻擊視頻。欺騙人臉由真實(shí)人臉的高質(zhì)量記錄制成,扭曲照片攻擊、剪切照片攻擊和視頻攻擊是數(shù)據(jù)集中的3種欺騙攻擊。
Replay Attack數(shù)據(jù)集是IDIAP在2012年提供的,包含50個(gè)人共1 300個(gè)視頻片段。視頻片段分為300個(gè)活體訪問視頻和1 000個(gè)欺騙攻擊視頻。該數(shù)據(jù)集考慮欺騙攻擊中使用的不同照明條件。
使用指標(biāo)攻擊呈現(xiàn)分類錯(cuò)誤率(attack presentation classification error rate, APCER)、真實(shí)呈現(xiàn)分類錯(cuò)誤率(bona fide presentation classification error rate, BPCER)和平均分類錯(cuò)誤率(average classification error rate, ACER)將SAC與先前的模型進(jìn)行比較。APCER,BPCER和ACER的大小分別由字母A、B、C表示,計(jì)算公式分別為公式(13)至公式(15):
式中,N是欺騙人臉的數(shù)量。如果將第i個(gè)提示歸類為欺騙人臉,則Resi為1;如果將其分類為活體人臉,則Resi為0。NBF是活體人臉的總數(shù)。A偏向于衡量模型將活體人臉判別為欺騙人臉的比率,B偏向于衡量模型將欺騙人臉判別為活體人臉的比率,C則綜合考慮兩種情況并給出綜合性的性能評價(jià)。
等錯(cuò)誤率(equal error rate, EER)和半錯(cuò)誤率(half total error rate, HTER)被用作CASIA FASD和Replay-Attack數(shù)據(jù)集評價(jià)指標(biāo)。EER是錯(cuò)誤接受率(false acceptance rate, FAR)和錯(cuò)誤拒絕率(false rejection rate, FRR)相等時(shí)的值。HTER是錯(cuò)誤拒絕率和錯(cuò)誤接受率之和的一半。APCER、BPCER、ACER、EER和HTER均為值越低,模型性能越好。
3.3.1 實(shí)現(xiàn)細(xì)節(jié)
SAC僅考慮幀內(nèi)信息,在數(shù)據(jù)處理過程中,SAC以1為幀間隔將所有視頻提取為幀序列,應(yīng)用MTCNN算法[26]檢測人臉在幀圖像中的位置,并裁減得到僅包含人臉區(qū)域的圖像。訓(xùn)練及測試過程中,以圖像為單位輸入到模型中得到最終判別結(jié)果。
本文以Pytorch作為深度學(xué)習(xí)框架實(shí)現(xiàn),以DenseNet121[27]作為基準(zhǔn)模型。設(shè)置批大小為128,ADAM方法[28]為優(yōu)化器,學(xué)習(xí)率為0.000,01。在基于對比學(xué)習(xí)的特征表示階段中,設(shè)置特征的維度為512,訓(xùn)練過程中m從0.001逐步增大到0.01。對SiW、CASIA FASD和Replay Attack均采用官方給出的訓(xùn)練/測試集進(jìn)行訓(xùn)練和測試。
3.3.2 SiW數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果及分析
SAC在SiW數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果見表1。表1可以看出,在僅考慮幀內(nèi)信息的情況下SAC在3種協(xié)議測試中表現(xiàn)較為均衡,APCER和BPCER均取得較低的值,說明SAC有較高的魯棒性。
表1 SAC在SiW數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results on SiW %
在表1中,協(xié)議1的測試實(shí)驗(yàn)中,模型僅訓(xùn)練了每個(gè)視頻的前60幀圖像就取得了較為領(lǐng)先的結(jié)果,而這60幀中大多數(shù)人臉為沒有姿態(tài)、光線、距離變化等影響的正面圖像。說明在活體檢測的任務(wù)中,排除人臉姿態(tài)、光線、距離等因素的干擾對提高活體檢測的準(zhǔn)確度具有重要意義。
協(xié)議2的測試實(shí)驗(yàn)中,3種不同的指標(biāo)均取得了較低的均值與標(biāo)準(zhǔn)偏差,說明SAC對不同媒體設(shè)備的重放欺騙攻擊的魯棒性較高。協(xié)議3測試衡量了模型在打印攻擊與重放攻擊之間遷移的能力。SAC在BPCER取得了與ACPER相比較高的值,看上去更容易將欺騙人臉判別為活體人臉。因?yàn)榇蛴」襞c重放攻擊圖像的表現(xiàn)質(zhì)量存在較大的差異,模型在兩種圖像特征之間遷移存在較大的難度。
表2展示了SAC與Auxiliary[7]、SD-Net[29]、STASN[30]、SAPLC[31]、3DPC-Net[32]、FAS-SGTD[33]在SiW數(shù)據(jù)集上的比較結(jié)果對比,可以看出SAC在3種測試協(xié)議中均取得了接近先進(jìn)方法的結(jié)果。在測試協(xié)議3中,由于充分考慮了語義信息,SAC泛化能力更強(qiáng)。將不同的媒體設(shè)備、類型數(shù)據(jù)作為測試集的情況下,SAC仍能保持領(lǐng)先分?jǐn)?shù)。
表2 SAC在SiW數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比Tab.2 Comparison results on SiW dataset %
3.3.3 SAC在CASIA FASD和Replay Attack數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果及分析
SAC在CASIA FASD和Replay Attack數(shù)據(jù)集上的結(jié)果對比分別見表3和表4。將SAC與最新方法CNN[4]、LiveNet[34]、DPCNN[35]、LBP-TOP[9]、LBP[21]和基于區(qū)塊和深度的CNN[36]進(jìn)行比較。從2個(gè)表中可以看出,SAC在EER和HTER指標(biāo)下均超過了已有的先進(jìn)算法。受益于對比學(xué)習(xí),SAC極大改善了模型性能。
表3 SAC在CASIA FASD數(shù)據(jù)集的結(jié)果對比Tab.3 Comparison results on CASIA FASD %
表4 SAC在Replay Attack數(shù)據(jù)集的結(jié)果對比Tab.4 Comparison results on Replay Attack %
3.3.4 跨數(shù)據(jù)集測試結(jié)果及分析
為了驗(yàn)證SAC的泛化能力,對CASIA FASD和Replay Attack數(shù)據(jù)集進(jìn)行了跨數(shù)據(jù)集測試。 將模型與最新方法進(jìn)行了比較,例如CNN[4]、Motion[37]、LBP-TOP[9]、Auxiliary[7]、LBP[21]、SAPLC[31]和3DPC-Net[32],對比結(jié)果見表5??鐢?shù)據(jù)集測試時(shí),首先在CASIA FASD上進(jìn)行訓(xùn)練并在Replay Attack數(shù)據(jù)集上進(jìn)行測試;之后在Replay Attack進(jìn)行訓(xùn)練并在CASIA FASD數(shù)據(jù)集上進(jìn)行測試,最終報(bào)告2種測試策略下的HTER分?jǐn)?shù)。實(shí)驗(yàn)結(jié)果表明,SAC超過已有的算法達(dá)到了先進(jìn)的性能,證明其具有良好的泛化能力。
表5 SAC在Replay Attack和CASIA FASD跨數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比Tab.5 Cross-dataset testing results on CAISA FASD and Replay Attack %
3.3.5 消融實(shí)驗(yàn)結(jié)果及分析
為了證明SAC的有效性,對其進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表6。其中,Base為本文算法的基準(zhǔn)模型,以DenseNet121[27]特征提取網(wǎng)絡(luò)并以全連接層作為分類器;+CL為以Base作為視覺特征提取模型的對比學(xué)習(xí)模型,+CL+ATT為在+CL模型的基礎(chǔ)上增加注意力機(jī)制的模型,即本文提出的最終模型。從表6中可以看出,SAC可以有效提高特征表示能力,提高模型的判別準(zhǔn)確率。注意力機(jī)制可以有效地增強(qiáng)模型對圖像特征的感知能力,使SAC能夠?qū)W習(xí)得到更具判別性的圖像特征,提高活體檢測的準(zhǔn)確率。
此外,為了進(jìn)一步證明SAC的有效性,本文研究了不同的基準(zhǔn)模型和特征緯度對算法性能的影響。在基于對比學(xué)習(xí)的特征表示中,特征的緯度對特征表示的準(zhǔn)確性、魯棒性影響顯著。極小的特征緯度易于優(yōu)化學(xué)習(xí),但是這導(dǎo)致特征所能表示的信息容量大幅降低。而較大的特征緯度則可以表示更多的信息,但是這帶來龐大的計(jì)算量使得模型難以優(yōu)化學(xué)習(xí)。因此,本文分析了特征緯度對模型性能的影響。
表6 SAC在SiW數(shù)據(jù)集消融實(shí)驗(yàn)結(jié)果Tab.6 Ablation study results on SiW %
本文在{128,256,512,1024}中選取不同的特征維度值,并在Replay Attack數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果記錄見表7。從表7可以看出,將特征維度設(shè)置為512時(shí),SAC模型獲得了最低的EER和HTER得分。表7中的結(jié)果證明了較小的特征維度存儲(chǔ)語義信息的能力較低,而較大的值(如:1 024)則可能會(huì)限制模型的學(xué)習(xí)能力,導(dǎo)致模型性能指標(biāo)下降。
表7 SAC在Replay Attack數(shù)據(jù)集不同特征緯度下的結(jié)果Tab.7 Results on different feature dimensions on Replay Attack %
為了消除主干模型對SAC的影響,使用不同的主干模型來評估SAC,例如VGG16[38]、ResNet50[39]、ResNet101[39]和DenseNet121[27]。實(shí)驗(yàn)結(jié)果在表8中報(bào)告,可以看出,以DenseNet121為主干的模型得分最低。這些模型之間的區(qū)別在于模型的深度、特征層級以及是否包含跳躍連接。
表8 SAC在Replay Attack數(shù)據(jù)集不同主干網(wǎng)絡(luò)下的結(jié)果Tab.8 Results on different backbone networks on Replay Attack %
DenseNet121可以提取更深層網(wǎng)絡(luò)的高級特征,并利用跳躍連接優(yōu)化,這也證明了高級語義特征和跳躍連接的有效性。SAC在不同主干網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)的情況下,均能取得優(yōu)異的成績,證明了SAC模型是有效的。
本文提出了基于對比學(xué)習(xí)和空間上下文信息的人臉活體檢測算法(SAC)。為了充分利用圖像中的語義特征,提出基于對比學(xué)習(xí)優(yōu)化圖像的特征表示,增強(qiáng)了人臉特征的可判別性;結(jié)合注意力機(jī)制提取更多的空間上下文,使得更具區(qū)分度的特征被關(guān)注和提取,增強(qiáng)模型的感知能力,有效提升了網(wǎng)絡(luò)人臉活體檢測能力。在SiW、CASIA-FASD和Replay Attack數(shù)據(jù)集上驗(yàn)證模型的有效性,實(shí)驗(yàn)證明,本文提出的模型對于優(yōu)化圖像特征、提升活體檢測判別性能具有重要意義。模型在不同的數(shù)據(jù)集的測試結(jié)果都取得了優(yōu)秀的成績,證明了SAC算法的有效性。