史屹琛,封 筠+,肖立軒,賀晶晶,胡晶晶
1.石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,石家莊050043
2.北京理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京100081
人臉識(shí)別因其低成本、易采集及特異性強(qiáng)等特點(diǎn)被廣泛應(yīng)用于智能安防、公安刑偵、智能家居、電子商務(wù)及金融服務(wù)等領(lǐng)域。但其極易受到各種形式的惡意攻擊,如呈現(xiàn)攻擊、對(duì)抗攻擊與合成攻擊,這三種攻擊方式共同之處是不攻擊人臉識(shí)別系統(tǒng)的后端,而是嘗試通過對(duì)用戶人臉的再次呈現(xiàn)、生成來欺騙人臉識(shí)別系統(tǒng)。呈現(xiàn)攻擊通過使用照片、視頻、3D面具等在攝像頭前再次呈現(xiàn)進(jìn)行攻擊;對(duì)抗攻擊則通過佩戴專門設(shè)計(jì)的眼鏡、帽子來欺騙人臉識(shí)別模型[1];合成攻擊則通過DeepFake[2]等工具生成偽造的人臉圖片直接攻擊人臉識(shí)別系統(tǒng),與前兩種攻擊方式不同的是,進(jìn)行識(shí)別的圖片并未通過攝像頭進(jìn)行拍攝。以上三種對(duì)人臉識(shí)別系統(tǒng)的惡意攻擊如圖1所示。相較于對(duì)抗攻擊和合成攻擊,呈現(xiàn)攻擊更加容易實(shí)施,攻擊者可以輕易地獲取到目標(biāo)用戶的人臉信息,在系統(tǒng)前再次重現(xiàn)人臉進(jìn)行攻擊。為了保護(hù)人臉識(shí)別系統(tǒng)不被這種假體呈現(xiàn)攻擊所破壞,人臉活體檢測(cè)或稱人臉反欺詐(face anti-spoofing,F(xiàn)AS)技術(shù)應(yīng)運(yùn)而生。靜默型人臉活體檢測(cè)模型無需用戶做出特定的動(dòng)作進(jìn)行配合,相較于交互式活體檢測(cè)速度更快,用戶體驗(yàn)也更好,但同時(shí)對(duì)算法的要求更高,因此吸引了大量的研究人員關(guān)注。
圖1 針對(duì)人臉識(shí)別系統(tǒng)的不同攻擊方式Fig.1 Several attack modes against face recognition system
對(duì)于靜默型人臉活體檢測(cè)的研究可以分為手工提取特征的方法和基于深度學(xué)習(xí)的方法。手工提取特征的方法通?;谘芯咳藛T的先驗(yàn)知識(shí),從紋理如局部二值模式(local binary patterns,LBP)[3-4]、方向梯度直方圖(histogram of oriented gradients,HOG)[5]、尺度不變特征變換(scale-invariant feature transform,SIFT)[6]、SURF(speeded-up robust features)[7]、圖像質(zhì)量以及輔助信息遠(yuǎn)程光電體積描記術(shù)(remote photoplethysmography,rPPG)[8-9]等角度進(jìn)行人臉活體檢測(cè)。基于深度學(xué)習(xí)的方法則使用神經(jīng)網(wǎng)絡(luò)提取圖像的特征進(jìn)行分類,除訓(xùn)練一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測(cè)之外[10],研究人員也通過各種方式將先驗(yàn)知識(shí)融合到網(wǎng)絡(luò)模型之中:將傳統(tǒng)的手工算子與神經(jīng)網(wǎng)絡(luò)結(jié)合[11-13],提取圖片的輔助信息如深度圖[9,14-15]、反射圖[16-17]、rPPG[18]及光流信號(hào)[19-21]等。神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力也使得這些方法的測(cè)評(píng)結(jié)果大幅度優(yōu)于基于傳統(tǒng)方法的活體檢測(cè)模型。
雖然當(dāng)前基于深度學(xué)習(xí)方法的人臉活體檢測(cè)模型在各個(gè)數(shù)據(jù)集的測(cè)評(píng)上取得了令人滿意的結(jié)果,但這些模型都是基于訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)服從獨(dú)立同分布(independent identically distributed,i.i.d)的假設(shè)[22],往往會(huì)使得訓(xùn)練得到的模型采用大量領(lǐng)域特有的特征進(jìn)行分類,如背景、光照等,而無法學(xué)習(xí)到可以真正判別真實(shí)人臉和假體攻擊的特征,易使得模型在各個(gè)數(shù)據(jù)集上過擬合。在真實(shí)世界中,進(jìn)行推理測(cè)試時(shí)的樣本和算法訓(xùn)練時(shí)使用的數(shù)據(jù)存在著大量差異,例如環(huán)境、攻擊方式等。因此,在訓(xùn)練集上過擬合的算法無法泛化到真實(shí)的使用場(chǎng)景中,即模型需要面對(duì)領(lǐng)域外場(chǎng)景下泛化能力弱的問題。
目前,針對(duì)人臉活體檢測(cè)的綜述文獻(xiàn)大都從傳統(tǒng)機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)兩個(gè)角度進(jìn)行介紹。謝曉華等人從手工設(shè)計(jì)特征、深度學(xué)習(xí)方法以多種機(jī)器學(xué)習(xí)范式(神經(jīng)網(wǎng)絡(luò)搜索、元學(xué)習(xí)等)對(duì)模型方法進(jìn)行總結(jié)[23]。馬玉琨等人從基于手工設(shè)計(jì)的特征和基于深度學(xué)習(xí)方法的角度介紹人臉活體檢測(cè)任務(wù)[24],包括:基于靜態(tài)特征和動(dòng)態(tài)特征、基于輔助信息、域自適應(yīng)與解耦等。盧子謙等人總結(jié)了多種傳統(tǒng)方法和深度學(xué)習(xí)方法的活體檢測(cè)模型,并對(duì)活體檢測(cè)競(jìng)賽的各參賽方法及結(jié)果進(jìn)行介紹[25]。鄧雄等人著重闡述了基于手工設(shè)計(jì)特征方法和基于模型融合策略的人臉活體檢測(cè)模型[26]。當(dāng)前關(guān)于人臉活體檢測(cè)的綜述大都總結(jié)的是基于i.i.d假設(shè)下的深度學(xué)習(xí)方法,只有部分文獻(xiàn)提到關(guān)于域自適應(yīng)、域泛化的活體檢測(cè)模型[27]。因此,根據(jù)已有研究成果,有必要從人臉活體檢測(cè)任務(wù)在真實(shí)世界的過程中遇到的實(shí)際問題出發(fā),從遷移學(xué)習(xí)的角度討論不同場(chǎng)景下出現(xiàn)的分布差異以及問題的難度。
本文系統(tǒng)地總結(jié)分析了近期針對(duì)領(lǐng)域外場(chǎng)景下深度學(xué)習(xí)人臉活體檢測(cè)模型相關(guān)的研究進(jìn)展。從人臉活體檢測(cè)方法在現(xiàn)實(shí)場(chǎng)景遇到的難點(diǎn)和挑戰(zhàn)出發(fā),將問題分為兩類:遇到未知環(huán)境和遇到未知攻擊方式。針對(duì)每種問題的不同方法進(jìn)行總結(jié),繼而將解決遇到未知環(huán)境的方法分為領(lǐng)域自適應(yīng)、領(lǐng)域泛化兩類,將解決遇到未知攻擊方式的方法分為零樣本/小樣本、異常檢測(cè)兩類,詳述了代表性方法的原理、優(yōu)勢(shì)和不足。之后對(duì)領(lǐng)域外人臉活體檢測(cè)方法使用的常用數(shù)據(jù)集進(jìn)行整理,對(duì)算法評(píng)估常用的性能指標(biāo)和測(cè)評(píng)協(xié)議進(jìn)行了介紹,最后對(duì)領(lǐng)域外人臉活體檢測(cè)技術(shù)的未來發(fā)展趨勢(shì)進(jìn)行展望。
人臉活體檢測(cè)是一個(gè)開集檢測(cè)問題,在實(shí)際使用中會(huì)遇到大量與訓(xùn)練數(shù)據(jù)分布不同的樣本,模型將要面對(duì)跨域遷移和分布外(out of distribution,OOD)泛化的問題,主要為遇到未知的領(lǐng)域(光照、背景、人臉外觀與相機(jī)的質(zhì)量等)以及遇到未知的攻擊方式(照片人臉攻擊、視頻回放攻擊與3D人臉面具攻擊等)。對(duì)于各種問題有著不同的解決方式,領(lǐng)域自適應(yīng)和領(lǐng)域泛化等技術(shù)被用于減少不同領(lǐng)域之間的數(shù)據(jù)分布差異,零樣本/小樣本以及異常檢測(cè)技術(shù)則用于識(shí)別出訓(xùn)練集中未曾出現(xiàn)過的攻擊方式。
領(lǐng)域領(lǐng)域D主要由數(shù)據(jù)和生成這些數(shù)據(jù)的概率分布組成,領(lǐng)域上的一個(gè)樣本包含輸入x∈X和輸出y∈Y,聯(lián)合分布記為P(x,y),即(x,y)~P(x,y),其中X和Y為數(shù)據(jù)所處的特征空間和標(biāo)簽空間,則一個(gè)領(lǐng)域?yàn)镈={X,Y,P(x,y)}。在遷移學(xué)習(xí)中,將有大量數(shù)據(jù)標(biāo)注,用于訓(xùn)練模型的領(lǐng)域稱為源域(source domain),將待學(xué)習(xí)且只有少量有標(biāo)注或無標(biāo)注數(shù)據(jù)的領(lǐng)域稱為目標(biāo)域(target domain),即要最終賦予知識(shí),賦予標(biāo)注的領(lǐng)域[8]。
分布差異一般來講,傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法是基于i.i.d假設(shè),而真實(shí)應(yīng)用中該假設(shè)并不容易被滿足,即Ps(x,y)≠Pt(x,y),這使得在訓(xùn)練集上獲得的模型無法在測(cè)試集上得到理想的結(jié)果[28]。
通常來說,在人臉活體檢測(cè)任務(wù)中,最主要的分布差異是協(xié)變量偏移(covariate shift)[29],符合Ps(y|x)=Pt(y|x)且Ps(x)≠Pt(x),也就是訓(xùn)練數(shù)據(jù)和測(cè)試的邊緣分布不同,但是生成最終標(biāo)簽的機(jī)制是不變的,其條件分布相同[27]。
如圖2 所示,不同數(shù)據(jù)集的采集環(huán)境各不相同,這些環(huán)境差異會(huì)在領(lǐng)域的分布上體現(xiàn)出來。領(lǐng)域自適應(yīng)技術(shù)目的在于通過使用所給的目標(biāo)域知識(shí)來使得在源域上訓(xùn)練的模型在目標(biāo)域上表現(xiàn)盡可能得好[30],而領(lǐng)域泛化技術(shù)則無需目標(biāo)域的知識(shí),通過挖掘多個(gè)源域之間的內(nèi)在聯(lián)系,使得源域上訓(xùn)練的模型泛化性盡可能得高[31]。
圖2 不同數(shù)據(jù)集中的人臉圖像Fig.2 Face images in different datasets
1.1.1 領(lǐng)域自適應(yīng)
給定一個(gè)有標(biāo)記的源域Ds={xi,yi}和一個(gè)目標(biāo)域Dt={xi,yi},假設(shè)其特征空間和類別空間相同,但其聯(lián)合分布不同,即Xs=Xt,Ys=Yt,Ps(x,y)≠Pt(x,y)。領(lǐng)域自適應(yīng)的任務(wù)是利用源域數(shù)據(jù)去學(xué)習(xí)一個(gè)目標(biāo)域上的預(yù)測(cè)函數(shù)f:xt→yt,使得f在目標(biāo)域上擁有最小的預(yù)測(cè)誤差。
領(lǐng)域自適應(yīng)技術(shù)通過嘗試減小源域和目標(biāo)域之間的差異來使得模型在目標(biāo)域上得到的結(jié)果更好。通常來說,目標(biāo)域都是無標(biāo)簽的數(shù)據(jù),如圖3所示,因此無法使用一般的預(yù)訓(xùn)練-微調(diào)的策略。針對(duì)人臉活體檢測(cè)中的領(lǐng)域自適應(yīng)問題,研究人員主要從領(lǐng)域分布差異、對(duì)抗遷移學(xué)習(xí)等方向進(jìn)行探索。
圖3 領(lǐng)域自適應(yīng)框架Fig.3 Domain adaptation framework
(1)領(lǐng)域分布差異
Li等人通過最小化源域和目標(biāo)域特征空間之間的最大均值差異(maximum mean discrepancy,MMD)[32]學(xué)習(xí)到一個(gè)泛化性更強(qiáng)的分類器[33]。Tu等人通過減小源域和目標(biāo)域之間基于核方法的MMD 距離來提高模型的泛化性[34]。然而僅僅通過減小領(lǐng)域之間的MMD距離可能無法充分探索源域之間的有用信息,因此目前使用對(duì)抗遷移學(xué)習(xí)的方式成為研究熱點(diǎn)。
(2)對(duì)抗遷移學(xué)習(xí)
Kim等人提出一種風(fēng)格指導(dǎo)的領(lǐng)域自適應(yīng)框架,通過風(fēng)格選擇歸一化來構(gòu)造推理自適應(yīng)模型,實(shí)現(xiàn)利用特定領(lǐng)域的風(fēng)格信息指導(dǎo),自動(dòng)將模型適配到目標(biāo)數(shù)據(jù)[35]。Hamblin等人提出了一種新的領(lǐng)域自適應(yīng)框架,該框架利用了多模式數(shù)據(jù)來改善基于可見光的呈現(xiàn)攻擊檢測(cè)(presentation attack detection,PAD)任務(wù)[36]。孫文赟等人提出了一種基于深度特征增廣的跨域小樣本人臉欺詐檢測(cè)算法[37]。該算法在已有的基于全卷積神經(jīng)網(wǎng)絡(luò)的人臉欺詐檢測(cè)網(wǎng)絡(luò)的中部嵌入域自適應(yīng)層,將卷積特征圖增廣,借助目標(biāo)域中的小樣本擴(kuò)展訓(xùn)練數(shù)據(jù)來適配源域和目標(biāo)域的差異,提升跨域性能。但在目標(biāo)域標(biāo)簽未知的無監(jiān)督域自適應(yīng)學(xué)習(xí)任務(wù)以及目標(biāo)域圖像與標(biāo)簽未知的零樣本學(xué)習(xí)任務(wù)中效果欠佳。Huang 等人提出一種針對(duì)小樣本的跨域活體檢測(cè)模型,使用集成了適配器與特征變換的ViT(vision transformer)模型作為主干,進(jìn)而提高小樣本跨域活體檢測(cè)的穩(wěn)健性[38]。
Wang等人使用對(duì)抗訓(xùn)練的方式使得特征提取器提取到源域和目標(biāo)域共同的特征[39],同時(shí)使用三元組損失使得真實(shí)人臉和假體攻擊在特征空間上盡可能分散,最后使用KNN(K-nearest neighbor)分類器進(jìn)行分類。El-Din 等人認(rèn)為只使用對(duì)抗訓(xùn)練的方式進(jìn)行領(lǐng)域自適應(yīng)會(huì)在目標(biāo)域和源域攻擊方式和設(shè)備類型不同的情況下無法得到很好的結(jié)果,為了保存目標(biāo)域一些特有的屬性[40],使用了深度聚類生成偽標(biāo)簽進(jìn)行輔助訓(xùn)練。Jia等人提出了邊緣分布對(duì)齊模塊和條件分布對(duì)齊模塊[41],通過對(duì)抗訓(xùn)練的方式尋找領(lǐng)域不變的特征空間,使得同一類的特征做到類內(nèi)緊湊,并且通過添加、刪除條件分布對(duì)齊模塊,網(wǎng)絡(luò)可以切換為半監(jiān)督、無監(jiān)督模式。Wang 等人提出了一種基于無監(jiān)督對(duì)抗遷移的方法,由度量學(xué)習(xí)模塊(metric learning net,ML-Net)、無監(jiān)督域自適應(yīng)模塊(unsupervised domain adaptation net,UDA-Net)和解耦重構(gòu)模 塊(disentangled representation learning net,DRNet)三個(gè)模塊組成[42]。ML-Net通過使用有標(biāo)簽的源域人臉圖像來學(xué)習(xí)真實(shí)人臉與欺騙人臉之間有判別力的特征。UDA-Net 通過無監(jiān)督的對(duì)抗域式自適應(yīng),聯(lián)合優(yōu)化源域和目標(biāo)域的特征編碼器,從而獲得被兩個(gè)域共享的公共特征空間,進(jìn)而可以讓源域的ML-Net模型對(duì)目標(biāo)域的無標(biāo)簽人臉圖像也具有判別能力。DR-Net通過從公共特征空間重建源域和目標(biāo)域人臉圖像,將域無關(guān)和域相關(guān)的特征解耦,進(jìn)一步提升共同特征空間的重構(gòu)能力和判別能力。除了對(duì)抗遷移學(xué)習(xí)的方式,學(xué)者們還探索使用其他方法解決人臉活體檢測(cè)中的領(lǐng)域自適應(yīng)問題。
(3)其他方法
Tu 等人同時(shí)考慮到人臉活體檢測(cè)和人臉識(shí)別,在提高泛化能力的部分[43],提出了TPC(total pairwise confusion)損失函數(shù)和快速領(lǐng)域自適應(yīng)模塊,分別用以提高假體攻擊表征的泛化性和減少領(lǐng)域改變時(shí)帶來的負(fù)影響。Wang等人不同于一般的領(lǐng)域自適應(yīng)和領(lǐng)域泛化的方法[44],提出了自域自適應(yīng)框架,采用元學(xué)習(xí)的方法,在多個(gè)源域上不僅學(xué)習(xí)到可判別的特征,還訓(xùn)練一個(gè)調(diào)節(jié)器,在推理階段遇到目標(biāo)域的無標(biāo)簽數(shù)據(jù)時(shí),調(diào)節(jié)器來適配目標(biāo)域的特征分布。Mohammadi 等人通過剪枝,將泛化性強(qiáng)的特征提取層保留[45],使得最終的模型在多個(gè)目標(biāo)域上得到理想的結(jié)果。
基于領(lǐng)域自適應(yīng)的方法可以有效地提高模型的泛化能力,但仍需使用目標(biāo)域的數(shù)據(jù)進(jìn)行學(xué)習(xí),挖掘源域與目標(biāo)域之間的關(guān)系,可是該條件有時(shí)并不能滿足。表1 對(duì)基于領(lǐng)域自適應(yīng)的人臉活體檢測(cè)方法從機(jī)制、模型結(jié)構(gòu)、優(yōu)點(diǎn)、局限性及適用場(chǎng)景等方面進(jìn)行對(duì)比總結(jié)。
表1 基于領(lǐng)域自適應(yīng)的FAS方法總結(jié)Table 1 Summary of FAS methods based on domain adaptation
1.1.2 領(lǐng)域泛化
訓(xùn)練數(shù)據(jù)D來自N個(gè)具有不同但相似數(shù)據(jù)分布的領(lǐng)域,假定每個(gè)領(lǐng)域均含有M個(gè)樣本,每個(gè)領(lǐng)域的數(shù)據(jù)均服從自己的數(shù)據(jù)分布(xm,ym)~Pi(x,y)表示,領(lǐng)域泛化要求從這N個(gè)領(lǐng)域中學(xué)習(xí)模型f:x→R,使得f在未知的目標(biāo)域Dt上預(yù)測(cè)誤差達(dá)到最小[31]。領(lǐng)域泛化任務(wù)相較于領(lǐng)域自適應(yīng)任務(wù)更為困難,無法得到目標(biāo)域上的標(biāo)注數(shù)據(jù),訓(xùn)練得到的模型在面對(duì)分布外場(chǎng)景時(shí)也需保證魯棒性。領(lǐng)域泛化假設(shè)在多個(gè)已知源域和未知的目標(biāo)域之間存在一個(gè)泛化的特征空間,因此需要模型通過多個(gè)源域?qū)W習(xí)到該特征空間,使得模型在未知的目標(biāo)域上取得滿意的結(jié)果,如圖4所示。針對(duì)人臉活體檢測(cè)中的領(lǐng)域泛化問題,研究人員主要從元學(xué)習(xí)與對(duì)抗遷移學(xué)習(xí)兩個(gè)方向進(jìn)行探索。
圖4 領(lǐng)域泛化框架Fig.4 Domain generalization framework
(1)元學(xué)習(xí)
Shao等人將人臉活體檢測(cè)的領(lǐng)域知識(shí)作為正則化項(xiàng)[46],使得元學(xué)習(xí)在領(lǐng)域知識(shí)監(jiān)督下正則化的特征空間中進(jìn)行,更有可能找到廣義的學(xué)習(xí)方向,此外還采用了細(xì)粒度的學(xué)習(xí)策略,在每次迭代的過程中同時(shí)在各個(gè)領(lǐng)域場(chǎng)景中進(jìn)行元學(xué)習(xí)。Cai 等人提取元特征[47],以替換手工設(shè)計(jì)特征的方式,之后將輸入圖像和提取到的元特征融合,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。Kim 等人不是簡(jiǎn)單地認(rèn)為一個(gè)數(shù)據(jù)集為一個(gè)領(lǐng)域,而是使網(wǎng)絡(luò)能夠通過中間層的卷積特征統(tǒng)計(jì)信息來自行判斷其屬于哪個(gè)領(lǐng)域[48],之后使用MLDG(meta-learning domain generalization)[49]框架訓(xùn)練分類器。同樣Chen等人認(rèn)為實(shí)際應(yīng)用中收集的數(shù)據(jù)集總是包含混合域,直接認(rèn)為一個(gè)數(shù)據(jù)集為一個(gè)領(lǐng)域的大多數(shù)方法在這種情況下可能無法工作[50]。為了克服這一限制,作者提出了域動(dòng)態(tài)調(diào)整元學(xué)習(xí),在不使用域標(biāo)簽的條件下,根據(jù)實(shí)例歸一化(instance normalization,IN)[51]和域表征學(xué)習(xí)模塊對(duì)領(lǐng)域進(jìn)行聚類。元學(xué)習(xí)方法通常涉及到雙層優(yōu)化的問題,需要大規(guī)模的計(jì)算資源和較長(zhǎng)的訓(xùn)練時(shí)間,因此使用對(duì)抗訓(xùn)練的方式進(jìn)行領(lǐng)域泛化是另一個(gè)熱點(diǎn)方向。
(2)對(duì)抗遷移學(xué)習(xí)
蔡體健等人提出了基于條件對(duì)抗域泛化的人臉活體檢測(cè)方法,利用多線性映射將特征提取器的輸出特征和分類預(yù)測(cè)的結(jié)果結(jié)合起來作為條件輸入到域判別器,通過對(duì)抗訓(xùn)練提取多個(gè)源域的共性特征,在特征和類層面同時(shí)對(duì)齊多個(gè)源域的分布,相比現(xiàn)存的域泛化人臉活體檢測(cè)方法在數(shù)據(jù)分布上匹配得更好[52]。李策等人提出了一種采用超復(fù)數(shù)小波生成對(duì)抗網(wǎng)絡(luò)的活體人臉檢測(cè)算法,將三個(gè)源域數(shù)據(jù)輸入到對(duì)抗網(wǎng)絡(luò),生成區(qū)別于源域但兼具三個(gè)源域共享特征的特征空間,提高判別人臉活性特征的泛化能力[53]。Wang 等人提出一種SSAN(shuffled style assembly network)網(wǎng)絡(luò),利用對(duì)抗學(xué)習(xí)來融合不同領(lǐng)域的圖像內(nèi)容特征,利用對(duì)比學(xué)習(xí)策略來抑制特定領(lǐng)域的風(fēng)格特征,進(jìn)而將兩種特征整合來應(yīng)對(duì)不同領(lǐng)域間的差異[54]。域泛化任務(wù)中將所有人臉完美映射到共享特征空間是困難的。
針對(duì)上述問題,Liu等人提出一個(gè)特征生成和假設(shè)驗(yàn)證框架來緩解上述問題[55],在FAS任務(wù)中首次引入了特征生成網(wǎng)絡(luò),該網(wǎng)絡(luò)生成真實(shí)人臉和已知攻擊的假設(shè)。應(yīng)用兩個(gè)假設(shè)驗(yàn)證模塊來分別判斷輸入人臉是否來自真實(shí)人臉空間和真實(shí)人臉分布。Shao等人為多個(gè)源域分別建立特征提取器與泛化特征提取器進(jìn)行對(duì)抗訓(xùn)練[56],同時(shí)使用輔助深度監(jiān)督來提高特征提取器的泛化能力,使用雙力三元組挖掘約束,使得不同領(lǐng)域之間的活體人臉與假體攻擊在得到的泛化特征空間上達(dá)到類內(nèi)緊湊且類間分散的結(jié)果。Jia等人認(rèn)為直接拉近不同的領(lǐng)域假體攻擊在特征空間上的分布,會(huì)因?yàn)檫^于忽視不同領(lǐng)域的特有信息,無法得到很好的結(jié)果[57],所以使用單邊對(duì)抗學(xué)習(xí)和不平等三元組損失,使得每個(gè)領(lǐng)域的假體攻擊和所有領(lǐng)域的活體人臉分別作為多個(gè)類別進(jìn)行訓(xùn)練,以達(dá)到類內(nèi)緊湊且類間分散的結(jié)果。Liu 等人認(rèn)為之前將各個(gè)領(lǐng)域的樣本同等對(duì)待,直接提取一個(gè)公共特征空間的方法,會(huì)由于數(shù)據(jù)的復(fù)雜性而破壞泛化能力[58],進(jìn)而提出了一種雙重加權(quán)域泛化框架,使用樣本加權(quán)模塊和特征加權(quán)模塊進(jìn)行兩次加權(quán),同時(shí)結(jié)合判別器,兩個(gè)模塊的迭代促進(jìn)了公共特征的提取。表2對(duì)基于領(lǐng)域泛化的人臉活體檢測(cè)方法從機(jī)制、模型結(jié)構(gòu)、優(yōu)點(diǎn)、局限性及適用場(chǎng)景等方面進(jìn)行對(duì)比總結(jié)。
表2 基于領(lǐng)域泛化的FAS方法總結(jié)Table 2 Summary of FAS methods based on domain generalization
人臉活體檢測(cè)算法在實(shí)際應(yīng)用中除了會(huì)遇到領(lǐng)域偏移問題之外,未知的攻擊方式同樣使檢測(cè)模型的結(jié)果不盡人意。之前的大部分基于深度學(xué)習(xí)的方法將人臉活體檢測(cè)任務(wù)視為閉集預(yù)測(cè)問題,檢測(cè)各種之前預(yù)先定義好的假體攻擊。然而期望數(shù)據(jù)集中包含所有的攻擊方式是不現(xiàn)實(shí)的,使得模型很容易在已知的攻擊方式上過擬合,仍會(huì)輕易被未知的攻擊所破壞。因此,最近研究者們致力于探索如何使人臉活體檢測(cè)模型遇到未知的攻擊方式時(shí)仍然魯棒,零樣本/小樣本學(xué)習(xí)和異常檢測(cè)的技術(shù)應(yīng)用于檢測(cè)未知的攻擊方式是當(dāng)前的兩個(gè)熱門方向。
1.2.1 零樣本/小樣本學(xué)習(xí)
小樣本學(xué)習(xí)旨在通過少量樣本學(xué)習(xí)到解決問題的模型[59],零樣本學(xué)習(xí)則是指在沒有訓(xùn)練數(shù)據(jù)的情況下,利用預(yù)先定義的一些類別屬性等訓(xùn)練模型[60]。小樣本學(xué)習(xí)任務(wù)通常指的是N-wayK-shot任務(wù),即選擇N個(gè)未知的類別,每個(gè)類別有K個(gè)樣本待學(xué)習(xí)。相較于傳統(tǒng)的分類任務(wù),提供給模型的每個(gè)類別的樣本數(shù)量(K)都極少,且這N×K個(gè)樣本構(gòu)成支持集。在評(píng)估階段,從N個(gè)未知的類別中挑選出部分樣本作為查詢集。零樣本學(xué)習(xí)任務(wù)要求只根據(jù)一些屬性描述或語義信息等即可學(xué)習(xí)到未知的類別,即支持集只包含未知類別的語義描述。
George 等人認(rèn)為對(duì)預(yù)訓(xùn)練的ViT 模型進(jìn)行微調(diào)后,在未知攻擊方面表現(xiàn)出良好的性能,同時(shí)在跨數(shù)據(jù)集評(píng)估方面的性能比已有方法提高了一個(gè)數(shù)量級(jí)[61],充分展示了ViT模型在遇到未知領(lǐng)域和未知攻擊時(shí)有很好的泛化能力。Pérez-Cabo 等人首次提出了一種遵循小樣本學(xué)習(xí)范式的連續(xù)元學(xué)習(xí)的人臉活體檢測(cè)框架[62]。該框架同時(shí)適用于連續(xù)學(xué)習(xí)和元學(xué)習(xí)環(huán)境,不僅解決了傳統(tǒng)連續(xù)學(xué)習(xí)任務(wù)在面對(duì)新攻擊方式時(shí)的災(zāi)難性遺忘問題,還在新攻擊數(shù)據(jù)順序到達(dá)的情況下,實(shí)現(xiàn)模型持續(xù)學(xué)習(xí),達(dá)到了使用全部數(shù)據(jù)同時(shí)訓(xùn)練模型的結(jié)果。Qin 等人將人臉活體檢測(cè)定義為零樣本和小樣本學(xué)習(xí)問題,提出了一種新的自適應(yīng)更新人臉活體檢測(cè)方法[63],通過學(xué)習(xí)預(yù)定義的活體、欺詐的人臉以及一些新攻擊的樣本,進(jìn)而檢測(cè)未知的欺詐類型。該方法在現(xiàn)有的零樣本FAS協(xié)議中的性能優(yōu)于已有的算法,但其只關(guān)注了模型在目標(biāo)域的性能,忽略了模型在源域的性能。
Quan 等人設(shè)計(jì)了一種自適應(yīng)轉(zhuǎn)移機(jī)制[64],通過逐漸增加未標(biāo)記目標(biāo)域數(shù)據(jù)在訓(xùn)練中的貢獻(xiàn)來改善域偏差。Yang等人認(rèn)為之前的方法都犧牲了模型在源域上的性能,而這在人臉活體檢測(cè)任務(wù)中是不可取的,因此提出了小樣本的領(lǐng)域擴(kuò)展策略[65],從語義空間上對(duì)齊源域和目標(biāo)域,使模型在源域和目標(biāo)域的聯(lián)合擴(kuò)展域上表現(xiàn)良好。Liu 等人引入首個(gè)包含多種欺詐攻擊類型的人臉反欺詐數(shù)據(jù)庫,廣泛研究了13 種類型欺詐攻擊中的ZSFA(zero shot face antispoofing)問題,包括打印、重放與3D 面具等,進(jìn)而提出了一種新的深度樹網(wǎng)絡(luò)[66]。該方法以無監(jiān)督的方式將欺詐樣本劃分為語義子群,當(dāng)攻擊數(shù)據(jù)樣本到達(dá)時(shí),模型將其劃分到最相似的欺詐簇,并進(jìn)行二進(jìn)制決策。表3對(duì)基于零樣本/小樣本學(xué)習(xí)的人臉活體檢測(cè)方法從機(jī)制、模型結(jié)構(gòu)、優(yōu)點(diǎn)、局限性及適用場(chǎng)景等方面進(jìn)行對(duì)比總結(jié)。
表3 基于零樣本/小樣本學(xué)習(xí)的FAS方法總結(jié)Table 3 Summary of FAS methods based on zero/few shot learning
1.2.2 異常檢測(cè)
異常檢測(cè)的目的是在測(cè)試過程中檢測(cè)出任何與預(yù)定的常態(tài)所偏離的異常樣本,這些異常樣本往往由協(xié)變量偏移或語義偏移造成[67]。人臉活體檢測(cè)任務(wù)中將活體人臉認(rèn)為是正常類別,而將假體攻擊當(dāng)作異常樣本。如圖5所示,與之前將人臉活體檢測(cè)視為二分類任務(wù)不同,基于異常檢測(cè)方法的人臉活體檢測(cè)模型通常采用的是單分類,在訓(xùn)練階段只使用真實(shí)人臉。因?yàn)樵趯?shí)際應(yīng)用中,攻擊的類型很有可能是未知的,在特征領(lǐng)域中占據(jù)廣泛的空間。
圖5 異常檢測(cè)框架Fig.5 Anomaly detection framework
Arashloo 等人從異常檢測(cè)的角度看待人臉活體檢測(cè)任務(wù),提出一種基于異常檢測(cè)的單分類方法[68],該方法中的訓(xùn)練集僅來自正樣本即真實(shí)人臉,測(cè)試集包含正負(fù)樣本即真實(shí)人臉和假體攻擊,有效避免了對(duì)負(fù)訓(xùn)練樣本可用性的需要,并且該方法與傳統(tǒng)二分類方法相比毫不遜色。Abduh 等人研究證明基于異常檢測(cè)的人臉活體檢測(cè)模型,訓(xùn)練數(shù)據(jù)不應(yīng)局限于人臉活體檢測(cè)領(lǐng)域?qū)I(yè)數(shù)據(jù)集,使用加入非專業(yè)數(shù)據(jù)的混合數(shù)據(jù)集進(jìn)行訓(xùn)練的活體檢測(cè)模型,在面對(duì)未知攻擊時(shí)泛化能力更強(qiáng)[69]。Baweja 等人提出了一個(gè)端到端的異常檢測(cè)模型進(jìn)行人臉活體檢測(cè),在提取真實(shí)人臉特征的過程中,建立一個(gè)新的高斯分布用于取樣偽負(fù)樣本,與真實(shí)的人臉特征一起訓(xùn)練得到一個(gè)卷積神經(jīng)網(wǎng)絡(luò)[70]。但其高斯分布參數(shù)的計(jì)算方式過于單一,生成的樣本難以代表真實(shí)場(chǎng)景中復(fù)雜的攻擊方式,且模型對(duì)協(xié)變量偏移不具備魯棒性。George等人認(rèn)為現(xiàn)有活體檢測(cè)通常是二分類任務(wù),這會(huì)導(dǎo)致對(duì)已知攻擊的過度擬合,對(duì)未知攻擊的泛化性能較差。針對(duì)此問題提出一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行表征學(xué)習(xí)的單分類器框架,將未見過的假體攻擊作為異常樣本進(jìn)行檢測(cè),其適用場(chǎng)景廣泛,包含可見光、深度圖和近紅外等[71]。Nikisins等人提出使用圖像質(zhì)量度量特征和高斯混合模型來表示真實(shí)樣本的概率分布[72],進(jìn)而對(duì)假體攻擊進(jìn)行識(shí)別。Fatemifar 等人在基于異常問題公式的基礎(chǔ)上分析了部署特定于客戶端的面部欺騙檢測(cè)信息[73],使用從預(yù)先訓(xùn)練網(wǎng)絡(luò)中獲得的表示來訓(xùn)練一類特定于客戶的分類器(生成式和區(qū)別式)。Pérez-Cabo 等人從異常檢測(cè)的角度提出深度度量學(xué)習(xí)模型,三重焦點(diǎn)損失負(fù)責(zé)指導(dǎo)學(xué)習(xí)過程在嵌入空間中更有區(qū)別的特征表示[74]。通過引入少量的后驗(yàn)概率估計(jì),無需分類器對(duì)學(xué)習(xí)到的特征進(jìn)行訓(xùn)練。表4 對(duì)基于異常檢測(cè)的人臉活體檢測(cè)方法從機(jī)制、模型結(jié)構(gòu)、優(yōu)點(diǎn)、局限性及適用場(chǎng)景等方面進(jìn)行對(duì)比總結(jié)。
表4 基于異常檢測(cè)的FAS方法總結(jié)Table 4 Summary of FAS methods based on anomaly detection
數(shù)據(jù)集的樣本數(shù)量及數(shù)據(jù)類型的豐富程度會(huì)影響人臉活體檢測(cè)模型的性能。不同數(shù)據(jù)集的收集方式、個(gè)體數(shù)量、攻擊方式與數(shù)據(jù)模態(tài)都有所不同。
下面對(duì)領(lǐng)域外場(chǎng)景下的人臉活體檢測(cè)主流數(shù)據(jù)集進(jìn)行闡述,主要從數(shù)據(jù)集的特點(diǎn)、所包含的活體人臉和假體人臉的數(shù)量、圖像的大小等方面進(jìn)行介紹,表5給出常用主流數(shù)據(jù)集的總覽介紹。
表5 主流數(shù)據(jù)集總覽Table 5 Overview of mainstream datasets
Oulu-NPU[75]一共有55 個(gè)志愿者參與錄制,共計(jì)4 950 個(gè)視頻,這些視頻使用6 款移動(dòng)設(shè)備的前置攝像頭在三種不同光照條件和背景場(chǎng)景拍攝。數(shù)據(jù)集中采用的演示攻擊類型是打印攻擊和視頻重放攻擊,使用兩臺(tái)不同的打印機(jī)和兩臺(tái)不同的顯示設(shè)備進(jìn)行攻擊。
CASIA-MFSD[76]一共有50 個(gè)志愿者參與錄制,共計(jì)600 個(gè)視頻。該數(shù)據(jù)集收集的活體和假體的人臉信息較為豐富,其中每個(gè)志愿者錄制了3個(gè)活體人臉視頻和9 個(gè)假體人臉視頻,共計(jì)12 個(gè)視頻。假體人臉包括完整的彩色照片假體人臉、挖去眼睛的假體人臉以及視頻類假體人臉。照片類假體人臉同時(shí)包括正面平展照片以及彎曲照片的情況。
Replay-Attack[77]數(shù)據(jù)集一共有50 個(gè)志愿者參與錄制,共計(jì)1 300 段視頻。每個(gè)志愿者錄制了4 個(gè)活體人臉視頻和20個(gè)假體人臉視頻。假體人臉的攻擊方式包括打印人臉照片攻擊、手機(jī)呈現(xiàn)攻擊和平板視頻重放攻擊,分為手持設(shè)備和固定設(shè)備兩種欺騙手段。數(shù)據(jù)集包括固定場(chǎng)景和復(fù)雜場(chǎng)景兩種環(huán)境,其中固定場(chǎng)景的背景環(huán)境單一,復(fù)雜場(chǎng)景的背景顏色豐富,為裝飾性壁畫,室內(nèi)無燈光。
MSU-MFSD[78]數(shù)據(jù)集一共有35個(gè)志愿者參與錄制,共計(jì)380 段視頻,使用兩種不同分辨率的相機(jī)進(jìn)行采集。對(duì)于真實(shí)人臉,每個(gè)人分別使用筆記本電腦和手機(jī)采集兩段視頻。其中,視頻攻擊使用兩種相機(jī)進(jìn)行采集,照片攻擊使用惠普彩色打印機(jī)進(jìn)行打印。
SiW[9]數(shù)據(jù)集一共有165 個(gè)志愿者參與錄制,共計(jì)4 478段視頻。所有的視頻均為30 frame/s,約15 s長(zhǎng),1080 高清分辨率?;铙w人臉在錄制時(shí)考慮與攝像機(jī)的距離、姿態(tài)、光照及表情四方面因素。打印攻擊提供高分辨率(5 184×3 456)和低分辨率兩種,視頻重放攻擊則使用三星s8、iPhone7、iPadpro 以及PC顯示器展示。
HQ-WMCA[79]數(shù)據(jù)集一共有51 個(gè)志愿者參與錄制,共計(jì)2 904段多模態(tài)視頻。數(shù)據(jù)來源于多個(gè)通道(色彩、深度、熱成像、近紅外光譜與短波紅外),攻擊方式包含打印照片攻擊、視頻重放攻擊、三維人臉面具攻擊、化妝與紋身等。
CASIA-SURF[80]數(shù)據(jù)集一共有1 000個(gè)志愿者參與錄制,共計(jì)21 000 段視頻多模態(tài)視頻。數(shù)據(jù)來源于多個(gè)通道(可見光、深度圖與近紅外),采用平攤打印攻擊或卷曲打印攻擊,隨機(jī)扣除掉眼睛、鼻子及嘴巴等區(qū)域。
常用的人臉活體檢測(cè)性能評(píng)價(jià)指標(biāo)主要有兩類:一類是錯(cuò)誤接受率(false acceptance rate,F(xiàn)AR)、錯(cuò)誤拒絕率(false rejection rate,F(xiàn)RR)、等錯(cuò)誤率(equal error rate,EER)以及半錯(cuò)誤率(half total error rate,HTER)指標(biāo);一類是ISO/IEC DIS 30107-3:2017標(biāo)準(zhǔn)提出的假體人臉分類錯(cuò)誤率(attack presentation classification error rate,APCER)、活體人臉分類錯(cuò)誤率(bonafide presentation classification error rate,BPCER)以及平均分類錯(cuò)誤率(average classification error rate,ACER)指標(biāo),近年也被廣泛使用。APCER、BPCER同前一類性能評(píng)價(jià)指標(biāo)FAR、FRR類似,但FAR、FRR在計(jì)算時(shí)不考慮具體的攻擊類別,APCER在計(jì)算時(shí)考慮到每種攻擊類別。
FAR表示把假體人臉判斷成活體人臉的比率,其中,Ns2b表示將假體人臉(spoofing)識(shí)別為活體人臉(bonafide)的次數(shù),Ns表示假體人臉攻擊的總次數(shù),定義如式(1)所示:
FRR表示把活體人臉判斷成假體人臉的比率,定義如式(2)所示:
其中,Nb2s表示將活體人臉識(shí)別為假體人臉的次數(shù),Nb表示活體人臉檢測(cè)的總次數(shù)。在訓(xùn)練集上分別以FRR和FAR為x軸與y軸畫出ROC 曲線。當(dāng)FRR等于FAR時(shí),其值為EER,以訓(xùn)練集上EER的閾值作為測(cè)試集上的閾值計(jì)算出的FAR和FRR的均值為HTER,計(jì)算方式如式(3)所示,同時(shí)ROC 曲線之下的面積AUC代表著真實(shí)人臉和假體攻擊之間的分離程度。
APCER表示將攻擊的假體人臉錯(cuò)分為真實(shí)人臉的比率。對(duì)每種攻擊方式(presentation attack instrument,PAI),其APCERPAI計(jì)算方式如式(4)所示:
其中,NPAI表示某一類假體攻擊的攻擊次數(shù),將攻擊的假體人臉判斷為假體攻擊時(shí)Resi的值為1,將攻擊的假體人臉判斷為真實(shí)人臉時(shí)Resi的值為0。
假設(shè)存在S種攻擊方式,則APCER為所有攻擊方式中APCERPAI最大的那個(gè),其計(jì)算方式如式(5)所示:
BPCER表示將真實(shí)人臉錯(cuò)誤地判斷為假體攻擊的比率,其計(jì)算方式如式(6)所示:
其中,NBF表示真實(shí)人臉個(gè)數(shù),將真實(shí)人臉錯(cuò)誤地判斷為假體攻擊時(shí)Resi的值為1,將真實(shí)的人臉識(shí)別正確時(shí)Resi的值為0。
EER指訓(xùn)練集上APCER和BPCER相等時(shí)APCER和BPCER的均值,ACER指在以EER對(duì)應(yīng)的閾值為測(cè)試集閾值時(shí)計(jì)算的APCER和BPCER的均值,計(jì)算如式(7)所示:
為了評(píng)估跨域FAS 模型對(duì)數(shù)據(jù)集的識(shí)別與泛化能力,下面對(duì)目前領(lǐng)域外場(chǎng)景下的FAS 模型測(cè)評(píng)方法進(jìn)行總結(jié)。現(xiàn)有工作主要基于三種協(xié)議:跨庫同攻擊方式、同庫跨攻擊方式以及跨庫跨攻擊方式。
3.2.1 跨庫同攻擊協(xié)議
這種測(cè)評(píng)方案主要側(cè)重于度量FAS 模型在跨數(shù)據(jù)集時(shí)遇到不同的光照、背景及環(huán)境時(shí)的泛化能力。要求FAS 模型在一個(gè)或多個(gè)源域數(shù)據(jù)集上訓(xùn)練,使用訓(xùn)練階段未知的目標(biāo)域數(shù)據(jù)集進(jìn)行測(cè)試,且要保證目標(biāo)域與源域的攻擊方式相同。當(dāng)前使用最廣泛的源域與目標(biāo)域數(shù)據(jù)集組合為:CASIA-MFSD(簡(jiǎn)寫為C)&Replay-Attack(簡(jiǎn)寫為I)&MSU-MFSD(簡(jiǎn)寫為M)&Oulu-NPU(簡(jiǎn)寫為O)[54]。表6 總結(jié)了使用上述組合的部分FAS模型的性能。
表6 CASIA-MFSD、Replay-Attack、MSU-MFSD和Oulu-NPU的跨數(shù)據(jù)集測(cè)試結(jié)果Table 6 Results of cross-dataset testing on CASIAMFSD,Replay-Attack,MSU-MFSD and Oulu-NPU
3.2.2 同庫跨攻擊協(xié)議
這種評(píng)測(cè)方案主要側(cè)重于FAS 模型在面對(duì)未知攻擊方式時(shí)的泛化能力。要求FAS模型在訓(xùn)練階段使用真實(shí)人臉和N-1 種攻擊方式訓(xùn)練,在測(cè)試階段加入第N種攻擊方式的樣本進(jìn)行測(cè)試,即只有一種攻擊類型僅在測(cè)試階段出現(xiàn)。SiW-M數(shù)據(jù)集包含13種攻擊類型,更適合評(píng)估FAS 模型對(duì)未知攻擊的泛化能力,因此常作為FAS 模型在本評(píng)測(cè)方案上使用的數(shù)據(jù)集。表7 總結(jié)了近期部分FAS 模型在SiW-M數(shù)據(jù)集上面對(duì)未知攻擊的泛化性能。
表7 SiW-M數(shù)據(jù)集上交叉型測(cè)試結(jié)果Table 7 Results of cross-type testing on SiW-M dataset
3.2.3 跨庫跨攻擊協(xié)議
盡管以上測(cè)評(píng)方案已經(jīng)涵蓋了人臉活體檢測(cè)在面對(duì)領(lǐng)域外泛化時(shí)的大多數(shù)情況,但更有挑戰(zhàn)性、更真實(shí)的測(cè)評(píng)方式是跨庫跨攻擊方式。這種評(píng)測(cè)方案由Yu 等人[83]提出,用于衡量FAS 模型在未知域和未知攻擊類型上的泛化能力。要求FAS模型在訓(xùn)練階段使用的數(shù)據(jù)集包含N種攻擊方式,測(cè)試階段使用訓(xùn)練階段未知的數(shù)據(jù)集,且攻擊方式?jīng)]有與訓(xùn)練時(shí)重合的情況。在該評(píng)測(cè)方案中,通常用Oulu-NPU和SiW-M(2D 攻擊)混合來訓(xùn)練FAS 模型,HKBUMARS 和3DMASK(3D 攻擊)用于測(cè)試。當(dāng)前先進(jìn)的模型在該協(xié)議下對(duì)于上述兩個(gè)測(cè)試集的HTER分別達(dá)到了6.75%與15.00%。
Wang等人提出了一種更為貼近真實(shí)場(chǎng)景的測(cè)評(píng)協(xié)議[54],將12 個(gè)公開數(shù)據(jù)集分為兩個(gè)子集P1 與P2,其中一個(gè)作為訓(xùn)練集,另一個(gè)作為測(cè)試集,如表8 所示。該測(cè)評(píng)方式中測(cè)試集涵蓋了更多未知的數(shù)據(jù)集和更復(fù)雜的未知攻擊,極具挑戰(zhàn)性,且由于提出時(shí)間較短,相關(guān)研究成果較少。
表8 數(shù)據(jù)集及其對(duì)應(yīng)的編號(hào)Table 8 Datasets and their corresponding numbers
隨著研究的不斷深入,領(lǐng)域外人臉活體檢測(cè)方法研究已經(jīng)取得了一系列的進(jìn)展,但仍面臨著很多難點(diǎn)與挑戰(zhàn),未來可能的發(fā)展方向主要有:
(1)如何在數(shù)據(jù)受限場(chǎng)景下得到泛化、魯棒的模型。無監(jiān)督領(lǐng)域自適應(yīng)是基于源域和目標(biāo)域都可以獲得的假設(shè),而因?yàn)殡[私保護(hù)等法規(guī)政策,多個(gè)領(lǐng)域數(shù)據(jù)有時(shí)無法同時(shí)得到,存在只可以獲得在源域上訓(xùn)練的模型而無法使用源域數(shù)據(jù)的情況。如何在這種條件下完成無源域的領(lǐng)域自適應(yīng)任務(wù)是一個(gè)待解決的難題。同時(shí)也存在只可以獲得單個(gè)源域而無法得到目標(biāo)域數(shù)據(jù)的情況,如何進(jìn)行單域泛化仍待解決。由于惡意攻擊的不斷進(jìn)步,在訓(xùn)練階段收集到所有的攻擊方式并不現(xiàn)實(shí),如何防范未見過的假體攻擊以及如何使用新的攻擊方式持續(xù)地更新模型是值得研究的問題。
(2)目前大部分活體檢測(cè)數(shù)據(jù)集包含的攻擊方式多為照片、視頻重放攻擊和面具類的三維假體人臉攻擊。受限于人力、物力等成本因素,數(shù)據(jù)集包含的假體類別較為單一,視頻重放使用的設(shè)備并不全面、先進(jìn),數(shù)據(jù)的模態(tài)單一,多為可見光模態(tài)。當(dāng)前收集人臉及假體數(shù)據(jù)的流程主要為:使用人臉檢測(cè)模型檢測(cè)視頻流的當(dāng)前幀是否存在人臉,如果存在則保存當(dāng)前幀及人臉框的坐標(biāo)。由于幀與幀之間的時(shí)間間隔過短,使得大量的圖片過于相似,收集到的數(shù)據(jù)集冗余信息過多。數(shù)據(jù)在深度學(xué)習(xí)模型的研究中起到了至關(guān)重要的作用,數(shù)據(jù)量大且種類豐富的數(shù)據(jù)集可以幫助模型更有效地學(xué)到泛化的分類特征。如何高效、低成本地收集數(shù)據(jù),建立一個(gè)模態(tài)豐富、攻擊方式全面及個(gè)體數(shù)量多的數(shù)據(jù)集,并設(shè)計(jì)更符合真實(shí)應(yīng)用場(chǎng)景的協(xié)議是值得思考和具有挑戰(zhàn)性的問題。
(3)當(dāng)前先進(jìn)的人臉活體檢測(cè)模型,大都使用卷積神經(jīng)網(wǎng)絡(luò)提取特征。如何使用更加先進(jìn)靈活的網(wǎng)絡(luò)結(jié)構(gòu),如近兩年來被得到廣泛關(guān)注的ViT 模型,同時(shí)考慮將傳統(tǒng)紋理特征提取算子與神經(jīng)網(wǎng)絡(luò)進(jìn)行深層次融合,以提取能更好區(qū)分真假人臉的泛化性強(qiáng)、魯棒高的特征信息,以及對(duì)檢測(cè)模型的輕量化實(shí)時(shí)處理,解決人臉活體檢測(cè)模型在實(shí)際應(yīng)用中可能遇到的問題,仍是需要探索的難點(diǎn)。
(4)當(dāng)前人臉識(shí)別流程大多由人臉檢測(cè)、活體檢測(cè)與人臉識(shí)別三個(gè)階段構(gòu)成,每個(gè)階段分開設(shè)計(jì),有必要設(shè)計(jì)三者融合、統(tǒng)一的模型,壓縮模型大小,提升識(shí)別速度,減少訓(xùn)練開發(fā)的成本,降低整個(gè)人臉識(shí)別流程被攻擊的風(fēng)險(xiǎn)。
(5)基于深度學(xué)習(xí)的人臉活體檢測(cè)方法在模型精度方面占據(jù)主導(dǎo)地位。然而,受限于深度學(xué)習(xí)的可解釋性差,很難判斷已有的活體檢測(cè)方法是根據(jù)什么特征進(jìn)行真人和假體的鑒別,因此有必要探究活體檢測(cè)模型可解釋的問題??山忉屝詸C(jī)制有助于設(shè)計(jì)更合理、更高效的網(wǎng)絡(luò)結(jié)構(gòu),避免網(wǎng)絡(luò)在特定數(shù)據(jù)集的混淆因子上過擬合。將因果推斷引入深度學(xué)習(xí)模型,解決模型只學(xué)到了相關(guān)關(guān)系而不是因果關(guān)系的問題來探索模型的可解釋性是一個(gè)研究熱點(diǎn)。目前并未見將因果推斷技術(shù)引入人臉活體檢測(cè)領(lǐng)域的相關(guān)報(bào)道,這方面的研究探索值得期待。
隨著深度學(xué)習(xí)的飛速發(fā)展,人臉活體檢測(cè)的研究非常活躍,但同時(shí)也存在著很多困難與挑戰(zhàn)。本文從提高檢測(cè)模型泛化性出發(fā),分析了目前人臉活體檢測(cè)方法在遇到領(lǐng)域外場(chǎng)景時(shí)會(huì)出現(xiàn)的問題,將對(duì)應(yīng)的解決方法進(jìn)行分類,并詳細(xì)闡述分析了每類方法的主要思想、優(yōu)點(diǎn)與局限。整理和歸納了當(dāng)前領(lǐng)域外場(chǎng)景下的人臉活體檢測(cè)方法常用的主流數(shù)據(jù)集,對(duì)數(shù)據(jù)集大小、攻擊方式等特點(diǎn)進(jìn)行分析和比較??偨Y(jié)了常用的兩類算法性能評(píng)價(jià)指標(biāo),并分析了針對(duì)領(lǐng)域外活體檢測(cè)提出的三種評(píng)價(jià)協(xié)議及其應(yīng)用場(chǎng)景。本文對(duì)提高人臉活體檢測(cè)模型的泛化性未來可能的研究方向進(jìn)行了分析和展望。相信人臉活體檢測(cè)所面臨的問題,必將在理論和實(shí)踐的共同發(fā)展下,通過學(xué)術(shù)界和工業(yè)界的不斷努力,得到更好的解決,人臉活體檢測(cè)的應(yīng)用也將推動(dòng)人臉識(shí)別技術(shù)更廣泛、更深入的發(fā)展。