陳蘇陽,宋曉寧
(江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院,江蘇無錫 214122)
近年來,人臉識(shí)別系統(tǒng)因其低成本、易安裝等優(yōu)點(diǎn),被廣泛應(yīng)用于交通、監(jiān)控等領(lǐng)域。然而,人臉識(shí)別系統(tǒng)存在一定漏洞,攻擊者可以利用合法用戶的人臉信息進(jìn)行系統(tǒng)攻擊,這對(duì)用戶的權(quán)益造成極大的危害。常用的欺詐攻擊手段包括照片、視頻和3D Mask 攻擊。為了解決這一問題,越來越多的研究人員開始關(guān)注人臉活體檢測技術(shù)[1]。
人臉活體檢測是一種識(shí)別鏡頭前人臉是真實(shí)的人臉,還是由照片或電子屏幕等設(shè)備處理后的欺詐人臉的技術(shù)。針對(duì)多變的欺詐方式,目前主流的檢測方法可以分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)。傳統(tǒng)方法側(cè)重于探索活體與欺詐人臉之間如顏色失真、非剛性變形和莫爾圖案等紋理差異,然后通過機(jī)器學(xué)習(xí)算法將活體檢測轉(zhuǎn)變?yōu)槎诸悊栴}。但由于手工設(shè)計(jì)的特征描述算子只能提取低層信息,因此在復(fù)雜場景下模型的泛化能力較弱。
隨著深度學(xué)習(xí)的進(jìn)一步發(fā)展,研究人員開始嘗試使用神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉活體檢測。文獻(xiàn)[2]使用金字塔LK 光流和卷積神經(jīng)網(wǎng)絡(luò)來區(qū)分真實(shí)人臉和欺詐人臉。為了提升網(wǎng)絡(luò)模型的泛化能力,文獻(xiàn)[3]提出將人臉深度圖作為區(qū)分活體與非活體標(biāo)準(zhǔn)的方法,將真實(shí)人臉和欺詐人臉描述為三維深度圖像和平面圖像。文獻(xiàn)[4]將欺詐人臉逆分解為欺詐噪聲和真實(shí)人臉,然后利用欺詐噪聲進(jìn)行活體分類。文獻(xiàn)[5-6]運(yùn)用多幀圖像作為網(wǎng)絡(luò)的輸入來提取時(shí)間信息,學(xué)習(xí)人臉圖像中含有的時(shí)間特征、顏色特征等多維度信息,提升活體檢測性能。但是目前的深度學(xué)習(xí)算法大多注重于神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化,而忽略了傳統(tǒng)特征描述算子在特征抽取上的有效性。同時(shí),現(xiàn)有的活體檢測模型普遍具有龐大的計(jì)算量,當(dāng)以多幀圖像作為輸入來提取時(shí)序信息時(shí),往往需要更優(yōu)良的設(shè)備,檢測活體的時(shí)間復(fù)雜度也相應(yīng)增加。
為了減少模型的參數(shù)量,充分發(fā)揮傳統(tǒng)特征描述算子的優(yōu)勢,本文提出一種融合梯度紋理和群感受野特征的輕量網(wǎng)絡(luò)。對(duì)于輸入的RGB 圖像,通過梯度紋理分支對(duì)圖像的梯度信息進(jìn)行抽取,使用群感受野分支獲得多尺度空間和語義特征,并將其拼接融合,使得網(wǎng)絡(luò)學(xué)習(xí)到更加豐富的特征。此外,為提升活體檢測的魯棒性,本文使用深度圖和二值掩模的多監(jiān)督策略,將深度圖生成器和掩模生成器得到的預(yù)測結(jié)果進(jìn)行相加,若預(yù)測分?jǐn)?shù)高于閾值,則檢測為活體,否則為非活體。最后在公開人臉活體數(shù)據(jù)集OULU-NPU、CASIA-MFSD 和Replay-Attack 上對(duì)本文算法的準(zhǔn)確性和有效性進(jìn)行驗(yàn)證。
卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的主流方法,其利用卷積強(qiáng)大的特征提取能力,在計(jì)算機(jī)視覺領(lǐng)域得到廣泛的應(yīng)用。卷積的作用在于提取圖像特征,由卷積核實(shí)現(xiàn)卷積過程。卷積核的個(gè)數(shù)決定卷積操作后特征圖的維度,卷積核的大小決定特征感受野的大小,卷積核內(nèi)每個(gè)位置都有對(duì)應(yīng)的參數(shù)和偏差量。在進(jìn)行卷積操作時(shí),卷積核會(huì)有規(guī)律地掃描特征圖,并對(duì)卷積核對(duì)應(yīng)的特征做矩陣乘法求和并疊加偏差量。以二維卷積核為例,卷積核w在輸入特征圖x上采樣感受野區(qū)域R,進(jìn)行矩陣運(yùn)算,輸出的特征y可以表示為:
其中:p0表示輸入和輸出特征圖的當(dāng)前位置;pn表示感受野R上的各個(gè)位置。
傳統(tǒng)的卷積核參數(shù)由神經(jīng)網(wǎng)絡(luò)計(jì)算的代價(jià)函數(shù)誤差進(jìn)行反向傳播而更新得到,但是這種隨機(jī)性的參數(shù)會(huì)導(dǎo)致卷積的細(xì)節(jié)特征提取能力不足。為了提升卷積神經(jīng)網(wǎng)絡(luò)的細(xì)節(jié)表征能力,文獻(xiàn)[7]提出了中心差分卷積(Central Difference Convolution,CDC)。中心差分卷積結(jié)構(gòu)如圖1 所示,中心差分卷積的掃描過程與標(biāo)準(zhǔn)卷積相同,不同點(diǎn)在于矩陣運(yùn)算過程中多了感受野周圍點(diǎn)對(duì)中心點(diǎn)的差值運(yùn)算,這樣卷積操作可以更加專注于提取感受野的中心梯度信息。
圖1 中心差分卷積結(jié)構(gòu)Fig.1 Central difference convolution structure
CDC 計(jì)算公式表示為:
圖像的紋理信息、空間和語義信息對(duì)于人臉活體檢測任務(wù)來說都十分重要,所以文獻(xiàn)[7]將中心差分卷積與標(biāo)準(zhǔn)卷積結(jié)合起來,采用直接相加的方式使卷積具有更好的特征提取能力。修改后的混合卷積計(jì)算公式可以表示為:
其中:超參數(shù)θ∈[0,1]代表標(biāo)準(zhǔn)卷積和中心差分卷積的貢獻(xiàn)權(quán)重,θ值越大,表示混合卷積提取的中心差分梯度信息的占比越大。
目前人臉活體檢測多是基于深度學(xué)習(xí)算法,為了避免網(wǎng)絡(luò)過擬合,許多工作從模型結(jié)構(gòu)、監(jiān)督標(biāo)簽和卷積核設(shè)計(jì)等方面切入提升檢測效果。本文結(jié)合已有方案,從抽取圖像特征和監(jiān)督方式角度出發(fā),提出多監(jiān)督特征提取網(wǎng)絡(luò)(Multi-supervision Feature Extraction Network,MFEN)。
針對(duì)標(biāo)準(zhǔn)卷積提取的感受野及紋理信息有限而多尺度信息對(duì)活體檢測任務(wù)十分重要的問題,本文設(shè)計(jì)多尺度特征融合模塊(Multi-scale Feature Fusion Module,MFFM),使用中心差分卷積與群感受野分支提取多維特征,并對(duì)其編碼融合。該模塊使得網(wǎng)絡(luò)可以在使用較少參數(shù)量且特征圖大小不變的情況下增加感受野,獲得不同尺度的空間和語義信息。之后使用殘差結(jié)構(gòu)替代主流的“DepthNet[3]”,減少參數(shù)量并提升計(jì)算速度。為了提高模型的魯棒性,使得模型提取到更多人臉深度特征,本文在使用深度圖監(jiān)督的同時(shí),通過二值掩模進(jìn)行輔助監(jiān)督。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,其中,殘差部分的實(shí)線代表前后通道數(shù)相同,進(jìn)行直連,虛線代表前后通道數(shù)不同,需要1×1 卷積調(diào)整維度。
圖2 多監(jiān)督特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Multi-supervision feature extraction network structure
MFEN 框架由多尺度特征融合模塊、殘差結(jié)構(gòu)和生成器這三部分組成。網(wǎng)絡(luò)輸入的圖像尺寸為256×256×3,包含RGB 這3 個(gè)通道。MFFM 對(duì)圖像進(jìn)行特征提取,該模塊主要分為梯度紋理分支和群感受野分支,然后將兩個(gè)分支的輸出進(jìn)行拼接,得到尺寸為128×128×64 的多尺度特征。殘差結(jié)構(gòu)主要對(duì)特征進(jìn)行深層語義學(xué)習(xí)和編碼。在本文中,該部分由4 個(gè)殘差塊構(gòu)成,每個(gè)殘差塊使用尺寸為3×3 的標(biāo)準(zhǔn)卷積,通過批歸一化層加速網(wǎng)絡(luò)訓(xùn)練,得到尺寸為32×32×128 的特征圖。最終,結(jié)果輸入深度圖生成器與掩模生成器,得到兩個(gè)尺寸為32×32×1 的特征圖。綜合判斷生成的深度圖與掩模圖,計(jì)算得出預(yù)測概率,實(shí)現(xiàn)端到端的人臉活體檢測。
特征提取一直是人臉活體檢測的重點(diǎn)研究方向,特征的好壞在一定程度上決定了網(wǎng)絡(luò)的性能。為了從RGB 圖像中提取到具有判別性的特征,本文設(shè)計(jì)了包含梯度紋理分支和群感受野分支的多尺度特征融合模塊。根據(jù)中心差分卷積學(xué)習(xí)細(xì)節(jié)紋理特征,通過空洞卷積在保持特征圖大小不變的情況下學(xué)習(xí)群感受野特征。與標(biāo)準(zhǔn)卷積模塊相比,MFFM可以提取更多包含細(xì)節(jié)信息、空間信息和語義信息的特征,提高模型的泛化能力。
2.2.1 梯度紋理分支
為了獲得細(xì)節(jié)紋理信息,本文設(shè)計(jì)了梯度紋理分支。與文獻(xiàn)[7]將中心差分卷積和標(biāo)準(zhǔn)卷積直接相加不同,該分支取消標(biāo)準(zhǔn)卷積部分,僅使用中心差分卷積來提取細(xì)節(jié)信息,防止直接相加造成的紋理特征破壞。分支結(jié)構(gòu)見圖2,RGB 圖像經(jīng)過卷積核尺寸為3×3 的中心差分卷積后得到包含豐富紋理信息的特征圖,再對(duì)其進(jìn)行一次卷積與池化操作,對(duì)特征進(jìn)一步編碼,得到128×128×32 的紋理特征圖,之后與群感受野分支進(jìn)行拼接融合。
2.2.2 群感受野分支
為了獲得具有判別性的多尺度特征,融合人臉空間信息和語義信息,本文設(shè)計(jì)了群感受野分支。如圖3 所示,受Inception 結(jié)構(gòu)[8]的啟發(fā),采用不同尺寸的卷積核組成多個(gè)小分支結(jié)構(gòu)。每個(gè)小分支先通過卷積核尺寸為1×1 的卷積學(xué)習(xí)淺層空間信息,之后分別使用3×3、3×1 和1×3 三種尺寸的卷積核學(xué)習(xí)多尺度特征信息,同時(shí)減少了模型的參數(shù)量。Inception 結(jié)構(gòu)的核心是通過多個(gè)不同尺寸的卷積核來提取圖像不同尺度的特征,從而更好地獲得圖像表征信息,但是過多的卷積核也會(huì)在一定程度上增加模型的復(fù)雜度。為了使模型可以在不增加卷積核參數(shù)量且保持分辨率的情況下獲得更大的感受野,群感受野模塊在第二和第三小分支增加擴(kuò)張率為3、卷積核尺寸為3×3 的空洞卷積。接著將3 個(gè)小分支的特征拼接,并使用尺寸為1×1 的卷積核對(duì)多尺度的空間及語義信息進(jìn)行編碼,使得不同感受野信息充分融合,增強(qiáng)特征表征能力。最后使用殘差結(jié)構(gòu)將多尺度深層信息與淺層空間信息融合,得到尺寸為128×128×32 的群感受野特征圖,之后與梯度紋理分支進(jìn)行拼接融合。
圖3 群感受野模塊Fig.3 Group receptive field module
對(duì)于監(jiān)督學(xué)習(xí),合適的監(jiān)督策略對(duì)網(wǎng)絡(luò)的收斂與性能起著至關(guān)重要的作用。目前主流活體檢測方法可分為二值監(jiān)督與回歸監(jiān)督。二值監(jiān)督策略使用0、1 標(biāo)簽來區(qū)分真實(shí)和欺詐人臉,但是該策略在復(fù)雜場景下易對(duì)背景、照明等信息產(chǎn)生過擬合現(xiàn)象。為了解決以上問題,文獻(xiàn)[3]提出深度圖監(jiān)督策略,該策略認(rèn)為真實(shí)人臉具有深度信息,而通過照片、電子屏幕等設(shè)備得到的人臉圖像為平面物體,所以通過提取檢測對(duì)象的深度特征可以有效地抵御照片攻擊和視頻攻擊。
相比單監(jiān)督策略,多監(jiān)督可以使網(wǎng)絡(luò)學(xué)習(xí)到更加魯棒性的特征。本文使用深度圖作為主要監(jiān)督,并設(shè)計(jì)人臉的二值掩模作為輔助監(jiān)督。掩模監(jiān)督結(jié)合了二值監(jiān)督與深度圖監(jiān)督的特點(diǎn),標(biāo)簽人臉部分為1,背景為0,使得網(wǎng)絡(luò)將學(xué)習(xí)中心放在人臉部位,起到注意力作用。深度圖生成器與掩模生成器都由三層標(biāo)準(zhǔn)卷積組成,輸出尺寸為32×32×1 的深度估計(jì)圖與掩模估計(jì)圖。損失函數(shù)使用均方誤差函數(shù),表達(dá)式如下:
其中:p代表深度估計(jì)圖中的像素值;q代表掩模估計(jì)圖中的像素值;D和M分別代表生成的深度估計(jì)圖與掩模估計(jì)圖;GD 和GM 分別代表深度圖標(biāo)簽與掩模標(biāo)簽。
loss 表示為:
其中:α1和α2是每一項(xiàng)的正則化系數(shù),為使網(wǎng)絡(luò)更好地收斂,本文設(shè)置系數(shù)分別為3 和1。
本文采用OULU-NPU[9]、CASIA-MFSD[10]和Replay-Attack[11]這3 個(gè)主流公開數(shù)據(jù)集。
3.1.1 OULU-NPU 數(shù)據(jù)集
OULU-NPU 數(shù)據(jù)集由4 950 個(gè)活體和欺詐視頻組成,這些視頻使用6 款不同的手機(jī),在3 種不同的采集場景下錄制。每個(gè)視頻長度為5 s,幀速率為30 Hz,分辨率為1 920×1 080 像素。該數(shù)據(jù)集通過4 種協(xié)議來評(píng)估活體檢測算法的性能。協(xié)議1 主要評(píng)估模型在不同照明和背景下的泛化能力。協(xié)議2主要評(píng)估模型在不同攻擊方式下的泛化能力。協(xié)議3主要探討不同的拍攝設(shè)備對(duì)模型性能的影響。協(xié)議4最具有挑戰(zhàn)性,評(píng)估模型在不同場景、攻擊方式及拍攝設(shè)備下的通用能力。本文按照上述4 種協(xié)議對(duì)OULU-NPU 數(shù)據(jù)集進(jìn)行詳細(xì)測試。
3.1.2 CASIA-MFSD 數(shù)據(jù)集
CASIA-MFSD 數(shù)據(jù)集由600 個(gè)視頻組成,其中訓(xùn)練集包含20 個(gè)主題,測試集包含30 個(gè)主題。每個(gè)主題采集12 個(gè)視頻,包含480×640 像素、640×480 像素、720×1 080 像素3 種圖像分辨率和不同照明條件。攻擊方式分為照片、圖片切割和視頻攻擊。其中照片攻擊指彩色打印人臉照片并彎曲展示,圖片切割攻擊指將照片的眼睛區(qū)域分割出來,然后人臉在照片后進(jìn)行欺詐攻擊,視頻攻擊指使用高像素視頻冒充真實(shí)人臉。該數(shù)據(jù)集具有3 種不同分辨率圖像,在復(fù)雜背景下模擬多種攻擊方式,對(duì)模型的泛化能力具有極大的考驗(yàn)。
3.1.3 Replay-Attack 數(shù)據(jù)集
Replay-Attack 數(shù)據(jù)集收集了50 個(gè)用戶在不同條件下的1 300 個(gè)人臉視頻樣本。視頻幀速率為25 Hz,分辨率為320×240 像素,在均勻人工照明與復(fù)雜自然照明兩種光照條件下錄制。攻擊方式包括照片和視頻攻擊,支持條件包括手持媒體和固定媒體兩種方式。該數(shù)據(jù)集采集了在不同光照和支持條件下的樣本,實(shí)驗(yàn)結(jié)果更加接近真實(shí)情況。
為了進(jìn)行公平比較,本文依據(jù)各個(gè)數(shù)據(jù)集的原始評(píng)估指標(biāo)進(jìn)行實(shí)驗(yàn)。對(duì)于OULU-NPU 數(shù)據(jù)集,使用攻擊表示分類錯(cuò)誤率(Attack Presentation Classification Error Rate,APCER)、真實(shí)表示分類錯(cuò)誤率(Bona fide Presentation Classification Error Rate,BPCER)和平均分類錯(cuò)誤率(Average Classification Error Rate,ACER)作為評(píng)估指標(biāo)。
對(duì)于CASIA-MFSD 和Replay-Attack 數(shù)據(jù)集,使用等錯(cuò)誤率(Equal Error Rate,EER)和半錯(cuò)誤率(Half Total Error Rate,HTER)[12]作為評(píng)估指標(biāo)。等錯(cuò)誤率是錯(cuò)誤接受率(False Accept Rate,F(xiàn)AR)與錯(cuò)誤拒絕率(False Reject Rate,F(xiàn)RR)相等時(shí)的錯(cuò)誤率。其中,F(xiàn)AR 表示模型在所有數(shù)據(jù)中將欺詐人臉判斷成真實(shí)人臉的比率,F(xiàn)RR 表示模型在所有數(shù)據(jù)中把真實(shí)人臉判斷為欺詐人臉的比率,HTER 表示測試數(shù)據(jù)中錯(cuò)誤接受率與錯(cuò)誤拒絕率的均值。
本文實(shí)驗(yàn)數(shù)據(jù)首先使用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Task Convolutional Neural Network,MTCNN)[13]進(jìn)行人臉檢測并裁剪對(duì)齊,得到256×256 像素大小的人臉圖像。之后對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行重新采樣,使真實(shí)人臉與欺詐人臉的數(shù)量比為1∶1。同時(shí)增加隨機(jī)擦除、剪切和水平翻轉(zhuǎn)操作用于數(shù)據(jù)增強(qiáng)。在測試階段,計(jì)算深度估計(jì)圖與掩模估計(jì)圖中每個(gè)像素的均值并求和得到最終預(yù)測分?jǐn)?shù)。當(dāng)分?jǐn)?shù)較低時(shí),輸入圖像很可能為欺詐圖像。
實(shí)驗(yàn)采用Adam 優(yōu)化器[14],初始學(xué)習(xí)率設(shè)置為1E-4,batchsize 設(shè)置為32。編程環(huán)境為PyTorch,硬件設(shè)備為一張NVIDIA RTX 2080Ti 顯卡。
3.4.1 消融實(shí)驗(yàn)
為了驗(yàn)證本文設(shè)計(jì)的多尺度特征融合模塊與多監(jiān)督策略的有效性,本文在OULU-NPU 數(shù)據(jù)集的協(xié)議1 上做了三組消融實(shí)驗(yàn)來說明不同改進(jìn)方案對(duì)檢測性能的影響。
消融實(shí)驗(yàn)結(jié)果如表1 所示,其中,方法1 表示標(biāo)準(zhǔn)卷積模型,方法2 表示中心差分卷積策略,方法3表示中心差分卷積+群感受野策略,方法4 表示中心差分卷積+群感受野+多監(jiān)督策略。
表1 在OULU-NPU 數(shù)據(jù)集協(xié)議1 上的消融實(shí)驗(yàn)結(jié)果Table 1 Results of ablation experiments on the OULU-NPU dataset protocol 1 %
從表1 可以看出,在中心差分卷積替代模型中第一層提取特征標(biāo)準(zhǔn)卷積后,性能得到了明顯提升,說明梯度紋理信息對(duì)于活體檢測任務(wù)起著至關(guān)重要的作用,同時(shí)表明標(biāo)準(zhǔn)卷積的提取能力有限,可能會(huì)導(dǎo)致網(wǎng)絡(luò)缺失捕獲細(xì)節(jié)信息的能力。為了提升圖像表征能力,本文設(shè)計(jì)了中心差分卷積+群感受野的多尺度特征融合模塊,使得模型更好地提取多維度特征,提高檢測精度。為了提升模型魯棒性,采用多監(jiān)督策略,結(jié)合深度圖與二值掩模,進(jìn)一步增強(qiáng)檢測性能。
3.4.2 不同算法的結(jié)果比較
為了驗(yàn)證本文算法的有效性,使用OULUNPU、CASIA-MFSD和Replay-Attack3個(gè)公開數(shù)據(jù)集,與其他主流活體檢測算法進(jìn)行大量對(duì)比實(shí)驗(yàn)。
OULU-NPU 是一個(gè)具有復(fù)雜測試樣本的高分辨率數(shù)據(jù)集。表2所示為OULU-NPU數(shù)據(jù)集上各主流算法的實(shí)驗(yàn)結(jié)果。可以看出,本文算法在4個(gè)協(xié)議中的ACER評(píng)價(jià)指標(biāo)分別達(dá)到了0.9%、1.9%、1.6%±2.0%、2.7%±1.8%,均優(yōu)于其他方法。與多幀方法不同,例如Auxiliary[3]和STASN[5]使用多張圖像作為網(wǎng)絡(luò)輸入,本文算法僅使用單幀圖像進(jìn)行活體檢測,大幅降低了模型的復(fù)雜度,模型參數(shù)量大小僅為1.1MB。同時(shí),MFEN從特征挖掘角度對(duì)細(xì)節(jié)信息和語義信息進(jìn)行充分提取,而其他算法如DRLFAS[15]卻忽略了這些紋理特征,所以MFEN可以捕獲更加豐富的判別信息。最終實(shí)驗(yàn)結(jié)果也充分證明了提取多尺度特征和多監(jiān)督策略的有效性。
表2 不同算法在OULU-NPU 數(shù)據(jù)集上的結(jié)果Table 2 Results of different algorithms on the OULU-NPU dataset %
協(xié)議1~協(xié)議3 分別評(píng)估不同場景、攻擊方式和拍攝設(shè)備對(duì)模型性能的影響可以看出,本文算法均優(yōu)于目前效果最好的算法,說明多尺度特征算法對(duì)于多種環(huán)境及攻擊方式均有較好的魯棒性。協(xié)議4包含上述3 種協(xié)議不同的變化因素,更加貼近真實(shí)應(yīng)用場景。在此協(xié)議下,本文算法較目前最優(yōu)算法提升39%,并且取得了最低的標(biāo)準(zhǔn)差,表明該算法在復(fù)雜場景下仍然具有較強(qiáng)的泛化能力和穩(wěn)定性。
不同算法在CASIA-MFSD 和Replay-Attack 數(shù)據(jù)集上的結(jié)果如表3 所示。兩個(gè)數(shù)據(jù)集都包含多種分辨率的視頻,可以檢測模型在多分辨率和不同光照背景下的魯棒性。實(shí)驗(yàn)的對(duì)比算法包括基于手工特征的機(jī)器學(xué)習(xí)算法與深度神經(jīng)網(wǎng)絡(luò)算法??梢钥闯?,本文提出的算法在CASIA-MFSD 和Replay-Attack 數(shù)據(jù)集上的EER 和HTER 都達(dá)到0.0%,優(yōu)于DRL-FAS[15]算法,實(shí)現(xiàn)了無誤差人臉活體檢測,說明MFEN 提取的多尺度特征使算法可以在多種攻擊方式和不同光照背景下有效地進(jìn)行活體檢測。同時(shí),對(duì)于不同質(zhì)量的照片和拍攝設(shè)備,也具備較好的魯棒性。
表3 不同算法在CASIA-MFSD 和Replay-Attack 數(shù)據(jù)集上的結(jié)果Table 3 Results of different algorithms on CASIA-MFSD and Replay-Attack datasets %
為了進(jìn)一步驗(yàn)證提出方法的泛化能力,本文使用CASIA-MFSD 和Replay-Attack 來執(zhí)行跨數(shù)據(jù)集評(píng)估,即對(duì)不同的數(shù)據(jù)集進(jìn)行訓(xùn)練和測試評(píng)估,評(píng)估結(jié)果如表4 所示。
表4 CASIA-MFSD and Replay-Attack 的跨數(shù)據(jù)集評(píng)估結(jié)果Table 4 Cross-dataset evaluation results of CASIA-MFSD and Replay-Attack %
使用CASIA-MFSD訓(xùn)練、Replay-Attack測試時(shí)(CA-Re),本文算法取得最優(yōu)的HTER。這是因?yàn)镃ASIA-MFSD 數(shù)據(jù)集比Replay-Attack 數(shù)據(jù)集具有更高的分辨率,本文提出的多尺度特征融合模塊在高分辨率情況下可以比DRL-FAS[15]等算法更好地提取具有判別性的紋理信息,因此取得了更好的檢測效果。
使用Replay-Attack訓(xùn)練、CASIA-MFSD測試時(shí)(Re-CA),在Replay-Attack 數(shù)據(jù)集像素值較低,不利于本文算法進(jìn)行梯度紋理特征提取的情況下,仍取得較為優(yōu)異的檢測效果。結(jié)果表明,本文算法在完全不同的場景下具有一定的魯棒性。
在實(shí)際應(yīng)用中,模型的處理效率和復(fù)雜程度同樣十分重要。為了進(jìn)一步驗(yàn)證算法的輕量性,以模型參數(shù)量(Parameters,Params)、每秒10 億次的浮點(diǎn)運(yùn)算數(shù)(Giga Floating-point Operations Per Second,GFLOPs)和每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)為指標(biāo)在OULU-NPU 數(shù)據(jù)集的協(xié)議1 上對(duì)網(wǎng)絡(luò)模型進(jìn)行復(fù)雜性分析。
不同模型復(fù)雜性分析結(jié)果如表5 所示,其中,模型1 表示使用標(biāo)準(zhǔn)卷積的基準(zhǔn)模型,模型2 表示使用中心差分卷積和群感受野策略的改進(jìn)模型,模型3表示使用中心差分卷積、群感受野和多監(jiān)督策略的最終模型,即本文提出的多監(jiān)督特征提取網(wǎng)絡(luò)(MFEN)。
表5 不同模型的復(fù)雜性分析Table 5 Complexity analysis of different models
與主流深度監(jiān)督網(wǎng)絡(luò)DepthNet 相比,本文提出的MFEN 具有更低的參數(shù)量和更快的處理速度,同時(shí)需要更少的計(jì)算資源。這是因?yàn)镈epthNet 網(wǎng)絡(luò)淺層部分下采樣較少,導(dǎo)致特征圖過大從而需要更多的參數(shù)量和算力;而MFEN 具有較少的特征通道數(shù),并且使用空洞卷積來減少參數(shù)量,因此模型更加輕量化。對(duì)比常規(guī)的輕量網(wǎng)絡(luò)MobileNetV2,MFEN 不僅更加輕量,在性能上也有很大優(yōu)勢。在模型1、模型2 和模型3 的對(duì)比中可以看出,本文提出的多尺度特征融合模塊和多監(jiān)督策略,在沒有明顯增加模型復(fù)雜度的情況下顯著提高檢測精度。綜合各項(xiàng)指標(biāo)可以得出本文提出的算法不僅具有較好的檢測性能,并且模型大小僅為1.14 MB,幀率達(dá)到323 frame/s,滿足實(shí)時(shí)性的要求。
卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)“黑盒”模型,而可視化方案大幅提高了可解釋性。為進(jìn)一步驗(yàn)證所提方法的有效性,在OULU-NPU 數(shù)據(jù)集的協(xié)議1 上對(duì)生成的深度圖和掩模圖像進(jìn)行了可視化對(duì)比,結(jié)果如圖4所示,可以看出,本文提出的模型可以很好地生成真實(shí)人臉的深度圖和二值掩模圖。對(duì)于照片攻擊和視頻攻擊,模型也可以正確處理,僅生成平面圖像,表明了本文方法的有效性。
圖4 真實(shí)人臉與欺詐人臉的特征圖可視化對(duì)比Fig.4 Visualization comparison of feature map between real face and spoofing face
針對(duì)活體檢測任務(wù)中細(xì)節(jié)信息提取不足的問題,本文提出一種融合梯度紋理與群感受野特征的活體檢測算法。利用中心差分卷積提取梯度特征,使用空洞卷積獲得多尺度空間和語義特征,同時(shí)通過深度圖與二值掩模進(jìn)行多監(jiān)督以提升網(wǎng)絡(luò)的性能與泛化能力。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有主流的活體檢測算法相比,本文算法檢測精度更高,具有更好的魯棒性。雖然本文算法在高分辨率數(shù)據(jù)集中獲得了較好的檢測效果,但是在低分辨率圖像上訓(xùn)練模型并在高分辨率圖像上測試模型時(shí)可能會(huì)無法準(zhǔn)確地區(qū)分真實(shí)人臉和欺詐人臉,下一步將重點(diǎn)研究低分辨率情況下魯棒性特征的提取方案,提升活體檢測的通用性和有效性。