国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)融合的人臉反欺騙技術(shù)

2020-11-13 08:57穆大強(qiáng)
圖學(xué)學(xué)報(bào) 2020年5期
關(guān)鍵詞:錯(cuò)誤率時(shí)序人臉

穆大強(qiáng),李 騰

(安徽大學(xué)電氣工程與自動(dòng)化學(xué)院,安徽 合肥 230601)

近年來,人臉識(shí)別系統(tǒng)被廣泛應(yīng)用在各種場(chǎng)合,例如上班打卡考勤、小區(qū)門禁等。然而,在傳統(tǒng)的人臉識(shí)別系統(tǒng)中存在著較大的安全隱患。主要是因?yàn)槠洳荒茏R(shí)別攝像頭獲取到的人臉區(qū)域圖像究竟是來自真實(shí)的人臉還是攻擊類型的人臉(如人臉照片攻擊、人臉視頻攻擊、人臉合成攻擊等)。因此如何阻止這種惡意身份欺騙是人臉識(shí)別過程中一項(xiàng)關(guān)鍵的技術(shù)。

為了解決上述人臉欺騙的問題,人臉反欺騙技術(shù)應(yīng)運(yùn)而生。與傳統(tǒng)的人臉識(shí)別系統(tǒng)相比,加入人臉反欺騙的系統(tǒng)更具安全性。回顧現(xiàn)有的人臉反欺騙手段可分為3類:①基于手工特征的人臉反欺騙方法,該方法是人臉反欺騙早期常用的手段。其主要使用到的手工特征有:HOG[1-2],LBP[3-5],DoG[6-7],SIFT[8]和SURF[9]等,再利用支持向量機(jī)(support vector machine,SVM)進(jìn)行分類[10-11]。②基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的人臉反欺騙方法,該方法中CNN被用作特征提取器[11],再使用SVM進(jìn)行分類。③基于深度信息的人臉反欺騙方法,其主要通過提取人臉的深度信息[12-13]來進(jìn)行分類。

上述方法中多為使用單一面部特征進(jìn)行決策,因此獲得的模型魯棒性有待提高。為了盡可能提升人臉反欺騙模型的魯棒性,本文提出融合多種模態(tài)人臉活性特征的方法。即通過融合不同顏色空間(HSV與YCbCr)與時(shí)序上人臉活性特征來提升模型的魯棒性。為了驗(yàn)證多模態(tài)融合方法的有效性,本文利用REPLAY_ATTACK和CASIA-FASD 2個(gè)基準(zhǔn)數(shù)據(jù)集來測(cè)試模型的性能。與先前的工作相比較,該方法具有以下創(chuàng)新與貢獻(xiàn):

(1) 設(shè)計(jì)了一種新穎的多輸入CNN結(jié)構(gòu),融合多種模態(tài)上的人臉特征,以提升人臉反欺騙模型的魯棒性。

(2) 從基于人臉圖像的多色彩空間以及用于面部反欺騙的時(shí)序信息中自動(dòng)學(xué)習(xí)最佳特征表示。

(3) 在2個(gè)基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。

1 基于多模態(tài)融合的人臉反欺騙方法

從提取不同模態(tài)上人臉特征為出發(fā)點(diǎn),展開了多模態(tài)融合的人臉反欺騙方法的探索,通過提取多種模態(tài)上人臉特征并融合以提升人臉反欺騙的魯棒性。包括:不同顏色空間(YCbCr與HSV)上完整人臉與局部人臉patch制作、時(shí)序圖制作、不同模態(tài)上特征提取與融合和多級(jí)水平特征聯(lián)合的決策網(wǎng)絡(luò)構(gòu)建。最后,通過大量實(shí)驗(yàn)證明該方法的有效性。

1.1 多模態(tài)數(shù)據(jù)制作

1.1.1 顏色空間上數(shù)據(jù)的制作

在HSV與YCbCr顏色空間上制作了2種不同的人臉圖像:完整的人臉圖像和局部人臉patch圖像。使用局部人臉的patch圖像的原因如下:

(1) 為了增加CNN學(xué)習(xí)訓(xùn)練樣本的數(shù)量和解決訓(xùn)練過程中可能出現(xiàn)的過擬合現(xiàn)象,對(duì)于所有可用的人臉反欺騙數(shù)據(jù)集,僅有限數(shù)量的樣本可用于訓(xùn)練。例如,CASIA-FASD僅采集20個(gè)人的真假面孔,每個(gè)人有12個(gè)短視頻。即使可以從每個(gè)視頻中提取數(shù)百?gòu)埫婵?,由于跨幀的高度相似性,在CNN學(xué)習(xí)時(shí),模型容易出現(xiàn)過擬合現(xiàn)象。

(2) 當(dāng)使用全臉圖像作為輸入時(shí),傳統(tǒng)的CNN由于臉部圖像分辨率的變化而需要調(diào)整臉部的大小,由于縮放比例的變化可導(dǎo)致判別信息的減少。相反,使用局部人臉patch圖像可以保持面部圖像的原始分辨率,從而保留判別能力。

(3) 假設(shè)欺騙特有的區(qū)分性信息在空間上存在于整個(gè)面部區(qū)域中,則patch級(jí)別的輸入可以強(qiáng)制CNN發(fā)現(xiàn)此類信息,從而更有效地學(xué)習(xí)到人臉中有鑒別力特征。

對(duì)于完整人臉圖像的獲取。

(1) 利用人臉檢測(cè)器MTCNN[14]獲取到視頻中RGB顏色空間上的人臉圖像,同時(shí),可以得到5個(gè)人臉關(guān)鍵點(diǎn),利用這5個(gè)關(guān)鍵點(diǎn)對(duì)人臉進(jìn)一步地校正,以降低人臉姿態(tài)的影響。可利用仿射變換將檢測(cè)到的人眼關(guān)鍵點(diǎn)旋轉(zhuǎn)至同一水平位置,使得2個(gè)眼睛中心點(diǎn)到兩嘴角中心點(diǎn)的距離是24個(gè)像素,且2個(gè)眼中心點(diǎn)的Y軸坐標(biāo)是24像素,將人臉區(qū)域大小縮放至128×128。校正前后的人臉區(qū)域圖像對(duì)比如圖1所示。

圖1 校正前后人臉對(duì)比Fig. 1 Face comparison before and after alignment

(2) 通過調(diào)用opencv工具將RGB顏色空間轉(zhuǎn)換到HSV與YCbCr顏色空間上。

對(duì)于局部人臉的patch圖像獲取,一種簡(jiǎn)單而有效的方式為將得到的完整人臉圖像進(jìn)行隨機(jī)的裁剪,得到2組數(shù)量為10,大小分別為72×72和56×56的人臉patch圖像,如圖2所示。

圖2 不同顏色空間上的完整人臉圖像與patch圖像Fig. 2 Complete face image and patch image in different color spaces

1.1.2 時(shí)序圖數(shù)據(jù)制作

利用視頻序列中圖像幀間時(shí)間信息的策略。首先將3幅不同時(shí)間位置的彩色圖像轉(zhuǎn)換成3幅灰度圖像,然后將灰度圖像作為一個(gè)整體疊加得到時(shí)序圖,并將時(shí)序圖輸入到CNN中學(xué)習(xí)人臉特征。圖3為3幅灰度圖像疊加的示例(也可采用多幅圖片進(jìn)行疊加,此處以3幅圖片為代表說明該方法)。

圖3 時(shí)序圖制作過程Fig. 3 Temporal images production process

1.2 網(wǎng)絡(luò)設(shè)計(jì)

網(wǎng)絡(luò)設(shè)計(jì)分為融合網(wǎng)絡(luò)和決策網(wǎng)絡(luò)2部分,融合網(wǎng)絡(luò)用于提取各模態(tài)上的特征,并進(jìn)行融合得到深度特征。最后將深度特征輸入到?jīng)Q策網(wǎng)絡(luò)中進(jìn)行最終的預(yù)判。

1.2.1 融合網(wǎng)絡(luò)設(shè)計(jì)

融合網(wǎng)絡(luò)的設(shè)計(jì)是根據(jù)特征圖可視化的效果所設(shè)計(jì),其包含5個(gè)卷積層,一個(gè)最大池化層,而且每個(gè)卷積層后均跟著BatchNorm層與Relu層。圖4描述了融合過程。

圖4 多模態(tài)特征融合過程Fig. 4 Multi-modal feature fusion process

為了展示融合網(wǎng)絡(luò)的細(xì)節(jié),表1介紹了融合網(wǎng)絡(luò)的參數(shù)設(shè)置。

由表1可知,第4層卷積核的大小為1×1,之所以使用1×1的卷積核,主要考慮以下3個(gè)作用:

(1) 將特征圖的數(shù)量進(jìn)一步地?cái)U(kuò)展到144。

(2) 使用1×1的卷積層替換到全連接層,可不限制輸入圖片大小的尺寸,使網(wǎng)絡(luò)更靈活。

(3) 實(shí)現(xiàn)跨通道的交互和信息整合,提高網(wǎng)絡(luò)的表達(dá)能力。

表1 融合網(wǎng)絡(luò)細(xì)節(jié)展示Table 1 Fusion network details display

其他4個(gè)卷積層使用3×3卷積核。這是由于較小的濾波器會(huì)揭示輸入圖像的更多詳細(xì)信息,因此使用3×3代替較大的卷積核。在前2層中,使用了內(nèi)核大小為3×3的64個(gè)過濾器,這是最低的。對(duì)于第3層,過濾器的數(shù)量增加了一倍,達(dá)到128個(gè)。此外,ReLU封裝在每個(gè)級(jí)別,以加快網(wǎng)絡(luò)訓(xùn)練速度,且提高了其性能以實(shí)現(xiàn)更快的收斂。

1.2.2 決策網(wǎng)絡(luò)設(shè)計(jì)

決策網(wǎng)絡(luò)的設(shè)計(jì)用于對(duì)輸入深度特征圖做出最終的判斷。其借鑒了inception結(jié)構(gòu)的思想,包含了3種不同水平的特征,即高水平、中水平和低水平特征,通過聯(lián)合3種不同水平的特征進(jìn)行決策。之所以要融合不同水平的特征,是因?yàn)槿四樂雌垓_是一種特殊的細(xì)粒度圖像識(shí)別任務(wù),網(wǎng)絡(luò)應(yīng)該更多地關(guān)注圖像的細(xì)節(jié)。3個(gè)級(jí)別的特征融合可以提供更詳細(xì)的特征,從而提高模型性能。具體網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)見表2。

表2 決策網(wǎng)絡(luò)細(xì)節(jié)展示Table 2 Decision network details

在表2中,將Lobal Average Pooling 1之后Conv-3之前的特征稱為低水平特征,將Lobal Average Pooling 2之后Conv-5之前的特征稱為中水平特征,將Lobal Average Pooling 3之后FC之前的特征稱為高水平特征,聯(lián)合這3種不同水平的特征經(jīng)過全連接FC得到一個(gè)二維的特征向量,最后經(jīng)過Softmax函數(shù)得到分類概率。圖5展示了利用決策網(wǎng)絡(luò)進(jìn)行分類的過程。

圖5 融合不同水平特征的決策網(wǎng)絡(luò)Fig. 5 Decision network combining different levels of features

在整個(gè)決策網(wǎng)絡(luò)的設(shè)計(jì)中,對(duì)原有的殘差網(wǎng)絡(luò)進(jìn)行了改進(jìn)。殘差結(jié)構(gòu)是被HE等[15]提出用來解決深度網(wǎng)絡(luò)在訓(xùn)練時(shí)出現(xiàn)梯度爆炸、梯度彌散等問題。殘差網(wǎng)絡(luò)對(duì)模型的準(zhǔn)確有了大幅度的提高,其殘差模塊設(shè)計(jì)如圖6所示,主要利用恒等映射連接來解決深度網(wǎng)絡(luò)中出現(xiàn)的梯度消失的問題。

圖6 殘差網(wǎng)絡(luò)改進(jìn)對(duì)比Fig. 6 Comparison of residual network improvement

2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

為保證評(píng)估的公平性與客觀性,本文使用人臉反欺騙方法中最常用的2個(gè)評(píng)價(jià)指標(biāo)(ERR與HTER)進(jìn)行評(píng)測(cè),在2個(gè)基準(zhǔn)數(shù)據(jù)集上(REPLAY_ATTACK與CASIA-FASD)對(duì)所提出的模型進(jìn)行了驗(yàn)證。

REPLAY_ATTAC數(shù)據(jù)集:其包含50個(gè)采集對(duì)象,共有1 300個(gè)活體與假體視頻。對(duì)于數(shù)據(jù)集中的每個(gè)采集對(duì)象,均在2種光照條件下錄視頻。每個(gè)對(duì)象在2種環(huán)境下收集了4個(gè)活體視頻序列。假體序列則是在固定支持攻擊(攻擊設(shè)備設(shè)置在固定支架上)和手持條件(攻擊設(shè)備由操作員持有)下捕獲的。攻擊類型分為打印攻擊、移動(dòng)攻擊和高清晰度攻擊3種,所有視頻集被劃分為訓(xùn)練集(15個(gè)采集對(duì)象),開發(fā)集(15個(gè)采集對(duì)象)和測(cè)試集(20個(gè)采集對(duì)象)。

CASIA-FASD數(shù)據(jù)集:包含600個(gè)視頻,共50個(gè)采集對(duì)象,每個(gè)采集對(duì)象采集了12個(gè)視頻(3個(gè)真實(shí)視頻和9個(gè)欺騙視頻)。每個(gè)主題包含3種不同的欺騙攻擊:視頻攻擊、扭曲照片攻擊和剪切照片攻擊。該數(shù)據(jù)集中訓(xùn)練集包括20個(gè)采集對(duì)象和測(cè)試集包括30個(gè)采集對(duì)象。

以下介紹2個(gè)評(píng)價(jià)指標(biāo)的具體定義:

ERR:是分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例。對(duì)樣例集D,分類錯(cuò)誤率為

其中,統(tǒng)計(jì)分類器預(yù)測(cè)出的結(jié)果與真實(shí)結(jié)果不相同的個(gè)數(shù),然后除以總的樣例集D的個(gè)數(shù)。

HTER:是衡量人臉活體檢測(cè)性能的重要指標(biāo),其計(jì)算式為

其中,F(xiàn)RR為錯(cuò)誤拒絕率,是把真實(shí)面孔分類為假面孔;FAR為錯(cuò)誤接受率,是把假面孔分類為真實(shí)面孔。

實(shí)驗(yàn)軟硬件環(huán)境、損失函數(shù)及模型訓(xùn)練設(shè)置如下:

軟硬件設(shè)置:Mxnet框架;CPU為E5-2620 V3;內(nèi)存64 G;GPU為GTX TITAN X (12 G)。

損失函數(shù):損失函數(shù)采用的是softmax loss,其表達(dá)式為

其中,Wj為網(wǎng)絡(luò)最后一個(gè)全連接層的權(quán)重W的第j列;b為偏置項(xiàng)。

模型訓(xùn)練設(shè)置:在訓(xùn)練網(wǎng)絡(luò)時(shí),使用隨機(jī)梯度下降的方式(stochastic gradient descent,SGD)去更新網(wǎng)絡(luò)中每層的權(quán)重。在本次訓(xùn)練中,由于數(shù)據(jù)量較大,所以在設(shè)置初始學(xué)習(xí)率時(shí)選擇為0.1,并且每20個(gè)epoch降低50%的學(xué)習(xí)率。經(jīng)過6次學(xué)習(xí)率降低后,網(wǎng)絡(luò)達(dá)到最優(yōu)化。

2.1 多顏色空間特征實(shí)驗(yàn)

對(duì)于不同的顏色空間上提取的人臉活性特征,在人臉反欺騙模型的性能上有著較為顯著的差異。RGB是用于傳感,表示和顯示彩色圖像的最常用的色彩空間。但是,由于3種顏色成分(紅色、綠色和藍(lán)色)之間的高度相關(guān)性以及亮度和色度信息的不完美分離,其在圖像分析中的應(yīng)用受到了很大的限制。還需考慮除RGB外的另外HSV和YCbCr 2個(gè)顏色空間上人臉活性信息。

首先在CASIA-FASD數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),將該數(shù)據(jù)集中的訓(xùn)練集作為訓(xùn)練樣本,并在測(cè)試集進(jìn)行性能測(cè)試,統(tǒng)計(jì)測(cè)試集錯(cuò)誤率。表3記錄了3種顏色空間上進(jìn)行人臉反欺騙的實(shí)驗(yàn)結(jié)果。從表3中可看出,當(dāng)實(shí)驗(yàn)使用單一的顏色空間特征進(jìn)行人臉反欺騙時(shí),HSV與YCbCr顏色空間的模型性能要優(yōu)于RGB顏色空間。最后實(shí)驗(yàn)進(jìn)一步地融合HSV與YCbCr顏色空間特征以提升模型的性能,結(jié)果顯示融合后的特征更具有鑒別力。

表3 不同顏色空間上人臉活體檢測(cè)錯(cuò)誤率對(duì)比(%)Table 3 Comparison of error rate of face liveness detection in different color spaces (%)

此外其他顏色空間也被用來進(jìn)行人臉活體檢測(cè),并嘗試融合更多顏色空間進(jìn)行人臉反欺騙,實(shí)驗(yàn)結(jié)果見表4。由表4可知,在Lab顏色空間上提取人臉特征進(jìn)行人臉反欺騙時(shí),其錯(cuò)誤率為5.47%;當(dāng)融合RGB,HSV和YCbCr 3種顏色空間時(shí),錯(cuò)誤率雖有下降,但模型速度下降明顯,若在不考慮檢測(cè)速度的前提下,可通過融合更多顏色空間上的特征來提升模型的精度。

表4 其他顏色空間與多顏色空間融合對(duì)比試驗(yàn)Table 4 Contrast test of fusion between other color spaces and multi-color spaces

2.2 時(shí)序特征實(shí)驗(yàn)

表5為在數(shù)據(jù)集CASIA-FASD上執(zhí)行融合時(shí)序特征的實(shí)驗(yàn)結(jié)果。為融合時(shí)序特征時(shí),模型的錯(cuò)誤率從1.79%降低到1.76%,表明模型的性能得到了進(jìn)一步提升。其次,時(shí)序特征也可單獨(dú)用于人臉反欺騙,其錯(cuò)誤率為5.23%,遠(yuǎn)超YCbCr和HSV顏色空間上的實(shí)驗(yàn)錯(cuò)誤率。導(dǎo)致此結(jié)果的原因:可能是由于數(shù)據(jù)集中前后幀間的相似性較高,所以堆疊過后的時(shí)序圖沒有包含豐富的動(dòng)態(tài)特征,以至于實(shí)驗(yàn)結(jié)果顯得差強(qiáng)人意。但是,通過比較表3,時(shí)序特征要比在RGB顏色空間上的特征更具有鑒別力,因此,本文決定融合時(shí)序特征以進(jìn)一步優(yōu)化模型的性能。

表5 時(shí)序特征實(shí)驗(yàn)(%)Table 5 Time series characteristic experiment (%)

2.3 不同水平特征融合實(shí)驗(yàn)

在決策網(wǎng)絡(luò)中融合了高、中、低3種水平特征進(jìn)行預(yù)判,主要是由于人臉反欺騙是一種特殊的細(xì)粒度圖像識(shí)別任務(wù),所以網(wǎng)絡(luò)應(yīng)較多地注重圖像的細(xì)節(jié)。聯(lián)合3個(gè)級(jí)別的特征可以提供更詳細(xì)的人臉信息,從而提高模型性能。為了證明這一點(diǎn),本文進(jìn)行了不同水平特征融合實(shí)驗(yàn)(表6)。由表6可知,在聯(lián)合3種水平特征后模型性能達(dá)到最優(yōu)化。

表6 不同水平特征融合對(duì)比實(shí)驗(yàn)(%)Table 6 Contrast test of feature fusion at different levels (%)

2.4 多指標(biāo)測(cè)試與對(duì)比

REPLAY_ATTACK也是一個(gè)具有挑戰(zhàn)性的人臉反欺騙數(shù)據(jù)庫(kù),該方法同樣在其上進(jìn)行性能測(cè)試。除了測(cè)試錯(cuò)誤率之外,另外一個(gè)重要評(píng)判指標(biāo)HTER也被測(cè)試記錄。

表7為近年來具有代表性的人臉反欺騙方法及其錯(cuò)誤率。表8展示了各個(gè)方法的半錯(cuò)誤率,與之相比,本文所提出的多模融合的方法取得了非常具有競(jìng)爭(zhēng)力的結(jié)果。

表7 在錯(cuò)誤率上的對(duì)比(%)Table 7 Comparison of error rates (%)

表8 半錯(cuò)誤率對(duì)比(%)Table 8 Comparison of half error rate (%)

2.5 泛化能力測(cè)試

為了深入了解多模融合人臉反欺騙方法的泛化能力,本文進(jìn)行了跨數(shù)據(jù)庫(kù)的評(píng)估。在此實(shí)驗(yàn)中,利用一個(gè)數(shù)據(jù)庫(kù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后在另一個(gè)數(shù)據(jù)庫(kù)上進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果見表9。

表9 跨數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果及方法對(duì)比(%)Table 9 Cross-database experiment results and method comparison (%)

在REPLAY_ATTACK數(shù)據(jù)集上優(yōu)化的模型略微優(yōu)于基于CASIA-FASD數(shù)據(jù)集上優(yōu)化的模型。其原因可能是,與REPLAY_ATTACK數(shù)據(jù)庫(kù)相比,CASIA-FASD數(shù)據(jù)集在收集的數(shù)據(jù)中包含更多的變化(如,成像質(zhì)量和相機(jī)與人臉之間的接近度)。因此,針對(duì)重放攻擊數(shù)據(jù)庫(kù)優(yōu)化的模型在新的環(huán)境條件下表現(xiàn)略顯遜色。不過可以通過聯(lián)合2個(gè)數(shù)據(jù)庫(kù)的訓(xùn)練集進(jìn)行訓(xùn)練網(wǎng)絡(luò),以使模型擁有更好的泛化能力。

3 小 結(jié)

本文提出了一種基于多輸入CNN的新型人臉反欺騙技術(shù)。CNN被用于從時(shí)序圖和2個(gè)顏色空間中學(xué)習(xí)區(qū)分性的多個(gè)深度特征,以防止面部欺騙。由于這些類型的特征彼此互補(bǔ),因此進(jìn)一步提出了一種將所有模態(tài)特征融合在一起以提高性能的策略。在2個(gè)最具挑戰(zhàn)性的面部反欺騙基準(zhǔn)數(shù)據(jù)庫(kù)中評(píng)估了該方法,實(shí)驗(yàn)結(jié)果證明,該方法優(yōu)于先前的面部防欺騙技術(shù)。另外,由2個(gè)數(shù)據(jù)庫(kù)間評(píng)估表明,本文所提出的方法具有良好的泛化能力。

猜你喜歡
錯(cuò)誤率時(shí)序人臉
顧及多種弛豫模型的GNSS坐標(biāo)時(shí)序分析軟件GTSA
清明
有特點(diǎn)的人臉
一起學(xué)畫人臉
基于不同建設(shè)時(shí)序的地鐵互聯(lián)互通方案分析
小學(xué)生分?jǐn)?shù)計(jì)算高錯(cuò)誤率成因及對(duì)策
三國(guó)漫——人臉解鎖
基于FPGA 的時(shí)序信號(hào)光纖傳輸系統(tǒng)
正視錯(cuò)誤,尋求策略
解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯(cuò)誤原因