胡 靖,蒲文博,孔維華
(成都信息工程大學(xué) 計(jì)算機(jī)學(xué)院,成都 610225)
隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,面部圖像篡改已經(jīng)成為一項(xiàng)簡(jiǎn)單的任務(wù)。最近,一種被稱為深度換臉(Deepfake) 的技術(shù)引起了廣泛的關(guān)注。它能合成另一個(gè)身份的人臉,并替換原視頻中目標(biāo)人的臉,同時(shí)保留原始的面部表情、光照以及位置信息。這種技術(shù)生成的換臉視頻能達(dá)到肉眼難以區(qū)分的視覺效果。由于人臉與身份識(shí)別密切相關(guān),深度換臉視頻可能會(huì)被惡意地濫用而威脅公眾的隱私安全。此外,隨著抖音、微信等社交媒體的快速發(fā)展,這種偽造視頻可以被迅速而廣泛地傳播。
為了應(yīng)對(duì)深度換臉視頻給隱私安全帶來的威脅,大量研究人員投入到深度換臉檢測(cè)技術(shù)研究中。最近提出的深度換臉檢測(cè)方法大體上可以分為兩類:圖像(幀)檢測(cè)方法和視頻檢測(cè)方法。圖像(幀)檢測(cè)方法又可以進(jìn)一步分為基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的分類方法和基于自編碼器的偽造區(qū)域定位方法。基于CNN的分類方法通常將深度換臉檢測(cè)視為二分類問題,使用CNN絡(luò)進(jìn)行特征圖提取,以獲得有利于網(wǎng)絡(luò)判別圖像是否為換臉圖像的隱含信息。偽造區(qū)域定位方法側(cè)重于將篡改的區(qū)域暴露出來。與圖像檢測(cè)任務(wù)不同,視頻檢測(cè)任務(wù)側(cè)重于對(duì)整個(gè)視頻的判斷。
為了解決現(xiàn)存方法的缺陷,本文基于多任務(wù)學(xué)習(xí)策略[1],提出了一種雙分支深度換臉檢測(cè)網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)合了視頻檢測(cè)方法和圖像檢測(cè)方法的特點(diǎn),將兩種方法視為同一網(wǎng)絡(luò)的不同任務(wù),使得網(wǎng)絡(luò)能對(duì)視頻進(jìn)行綜合判斷的同時(shí)檢測(cè)每幀的偽造情況。此外,通過引入卷積注意力模塊(Convolutional Block Attention Module,CBAM)[2]和時(shí)序?qū)W習(xí)模塊模型,擁有對(duì)特征圖的局部通道信息和局部空間信息的注意能力,以及提取時(shí)序不連續(xù)信息的能力。實(shí)驗(yàn)結(jié)果表明,在公開數(shù)據(jù)集Celeb-DF[3]和 FaceForensics++[4]上,所提方法在視頻檢測(cè)任務(wù)和幀檢測(cè)任務(wù)中都具有優(yōu)秀的準(zhǔn)確率(Accuracy,ACC)和ROC(Receiver Operating Characteristic)曲線下面積(Area under ROC Curve,AUC)。此外,該方法在面對(duì)不同光照、人臉朝向、視頻質(zhì)量的換臉視頻時(shí)表現(xiàn)出了良好的魯棒性。
近年來,注意力機(jī)制在深度學(xué)習(xí)中得到了廣泛研究與應(yīng)用。例如,張宇等人[5]提出了一種融入注意力機(jī)制的動(dòng)作識(shí)別方法,通過引入注意力機(jī)制,模型更專注于重要信息,從而降低了模型過擬合的風(fēng)險(xiǎn)。注意力機(jī)制受人類視覺神經(jīng)的啟發(fā),通過引入注意力權(quán)重,調(diào)整網(wǎng)絡(luò)對(duì)不同信息的關(guān)注度,使網(wǎng)絡(luò)注意關(guān)鍵信息而忽略非關(guān)鍵信息,提升網(wǎng)絡(luò)的效率。換臉檢測(cè)工作中,合成人臉周圍不一致信息是模型判斷圖像是否偽造的關(guān)鍵。然而這種關(guān)鍵信息往往只占極少部分,因此將注意力機(jī)制引入深度換臉檢測(cè),能提升模型對(duì)該信息的注意能力。
卷積注意力模塊[2]包含通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)兩個(gè)部分,其中CAM如圖1所示。
圖1 通道注意力模塊示意圖
通道注意力模塊的具體工作流程如下:
設(shè)卷積網(wǎng)絡(luò)中卷積層輸出特征圖F∈H×W×C。CAM以該特征圖為輸入,特征圖分別經(jīng)過兩個(gè)基于通道維度的全局最大池化層和全局平均池化層,得到兩個(gè)特征向量1×1×c和1×1×c。這兩個(gè)特征向量隨后會(huì)分別進(jìn)入一個(gè)共享的兩層感知機(jī)中,該感知機(jī)第一層神經(jīng)元個(gè)數(shù)為c/r,第二層神經(jīng)元個(gè)數(shù)為c,其中r為壓縮率。經(jīng)過感知機(jī)輸出的兩個(gè)特征向量會(huì)進(jìn)行對(duì)應(yīng)元素相加,相加的特征向量再經(jīng)過sigmoid激活函數(shù)處理,以輸出最終的通道注意力圖Mc。該特征圖最終會(huì)和輸入特征圖F相乘,這樣輸入特征圖F的不同通道便被賦予了可學(xué)習(xí)權(quán)重。簡(jiǎn)單地,通道注意力圖可以表示為
(1)
式中:σ為sigmoid激活函數(shù),W0和W1分別為共享感知機(jī)的兩層參數(shù)。
空間注意力模塊如圖2所示。
圖2 空間注意力模塊示意圖
空間注意力模塊的具體工作流程如下:
(2)
式中:σ為sigmoid激活函數(shù),Cov對(duì)應(yīng)卷積操作。
雙分支深度換臉檢測(cè)網(wǎng)絡(luò)架構(gòu)如圖3所示。Dlib[6]人臉識(shí)別庫(kù)會(huì)將原視頻中的每幀人臉提取出,作為網(wǎng)絡(luò)的輸入數(shù)據(jù)?;贑BMA的ResNet50[7]會(huì)逐幀提取空間信息。在注意力機(jī)制的幫助下,會(huì)篩選出有助于判斷的關(guān)鍵信息。每幀的空間信息會(huì)被輸入到時(shí)序?qū)W習(xí)模塊,用于提取幀間不連續(xù)信息。融合了空間信息和時(shí)序信息的特征圖會(huì)輸入至幀檢測(cè)分支和視頻檢測(cè)分支中。幀檢測(cè)分支會(huì)輸出每幀的檢測(cè)結(jié)果,而視頻檢測(cè)分支會(huì)輸出整個(gè)視頻的檢測(cè)結(jié)果。
圖3 算法網(wǎng)絡(luò)架構(gòu)
基于CBAM[2]模塊的ResNet50[7]具體實(shí)現(xiàn)如圖4所示:
圖4 整合CBAM模塊的ResNet50的流程示意圖
(1)在ResNet50中第一層7×7卷積層后分別加入通道注意力模塊和空間注意力模塊,賦予模型對(duì)圖像低層特征的注意能力;
(2)在ResNet50最后一層卷積層后,平均池化層(avg pool)前加入通道注意力和空間注意力模塊,賦予模型對(duì)圖像高層特征的注意能力;
(3)移除ResNet50原本的最后一層全連接層,使ResNet提取的特征向量直接輸入至下層時(shí)序?qū)W習(xí)模塊中。這樣ResNet50就有兩層CBAM模塊,能分別賦予模型對(duì)圖像低層特征和高層特征的注意能力。
設(shè)輸入的視頻大小為n×h×w×3,其中,n為輸入視頻幀數(shù),h和w為每幀圖像的高和寬,通過基于CBAM的ResNet50模塊提取的輸出特征向量大小為n×2 048。
相比CBAM原文在ResNet50的每個(gè)ResBlock中加入CBAM模塊的方法,本文方法使ResNet50擁有注意能力的同時(shí)降低了網(wǎng)絡(luò)參數(shù),提高了模型的信息提取效率。
時(shí)序?qū)W習(xí)模塊在深度換臉檢測(cè)中扮演了重要角色。本文中,時(shí)序?qū)W習(xí)模塊由三層門控循環(huán)單元(Gated Recurrent Unit,GRU)[8]網(wǎng)絡(luò)構(gòu)成,具體結(jié)構(gòu)如圖5所示。時(shí)序?qū)W習(xí)模塊接收來自上層ResNet50輸出的每幀的特征向量,由于模塊中每層GRU網(wǎng)絡(luò)包含256個(gè)神經(jīng)元,因此模塊輸出大小為n×256的包含時(shí)序信息的特征圖,其中n為輸入幀數(shù)。
圖5 時(shí)序?qū)W習(xí)模塊結(jié)構(gòu)圖
時(shí)序?qū)W習(xí)模塊提取的特征圖會(huì)被同時(shí)傳遞到視頻檢測(cè)分支和幀檢測(cè)分支中。如圖3所示,在視頻檢測(cè)分支中包含了一個(gè)平均池化層和全連接層。平均池化層接收來自時(shí)序?qū)W習(xí)模塊的特征圖,產(chǎn)生大小為16×16的特征圖,特征圖被展平成一維特征向量,該特征向量大小為256。視頻檢測(cè)分支中的全連接層接收該特征向量,輸出模型對(duì)整個(gè)視頻的判斷結(jié)果。與此同時(shí),幀檢測(cè)分支中的一個(gè)共享的全連接層會(huì)接收來自每一幀的特征向量,每個(gè)特征向量大小均為256,并對(duì)每一幀是否為換臉幀做出最終判斷。平均池化層能綜合所有幀的特征信息,輸出固定大小的特征圖,視頻檢測(cè)分支中的全連接層便使用該特征圖輸出對(duì)整個(gè)視頻的預(yù)測(cè)結(jié)果。此外,平均池化使輸出的特征圖與視頻幀長(zhǎng)度無關(guān),因此本文方法能處理不同長(zhǎng)度的視頻。
Lv=EVi~X[-ln(Fv(Vi)yi)],
(3)
(4)
L=α1·Lv+a2·Lf。
(5)
Celeb-DF(v2)[3]是2020年提出的大規(guī)模數(shù)據(jù)集,用于評(píng)估換臉檢測(cè)方法。該數(shù)據(jù)集包含 590個(gè)真實(shí)視頻和5 639個(gè)換臉視頻。換臉視頻由59位不同性別、年齡和種族的名人的公開可用的YouTube視頻生成。值得注意的是,Celeb-DF數(shù)據(jù)分布不平衡,其中換臉視頻顯著多于真實(shí)視頻,為模型的正確判別提出了挑戰(zhàn)。
FaceForensics++[4]包含從 YouTube 抓取的1 000個(gè)真實(shí)視頻和使用四種換臉?biāo)惴ㄉ傻? 000個(gè)造假視頻,每個(gè)算法生成的換臉視頻數(shù)量為1 000。本文使用深度換臉合成的版本,故該數(shù)據(jù)為平衡數(shù)據(jù)集。除此以外,F(xiàn)aceForensics++包含了從三個(gè)質(zhì)量從高到低的版本,分為raw、c23、c40。
3.2.1 數(shù)據(jù)集準(zhǔn)備
由于原數(shù)據(jù)集為純視頻數(shù)據(jù),需要先對(duì)這些視頻進(jìn)行預(yù)處理,步驟如下:
首先,使用Dlib[6]庫(kù)中的人臉檢測(cè)器對(duì)數(shù)據(jù)集的每個(gè)視頻中的每一幀進(jìn)行人臉檢測(cè)并提取。然后,將提取的人臉調(diào)整為64 pixel×64 pixel,并使用 ImageNet的均值和標(biāo)準(zhǔn)差對(duì)人臉圖像進(jìn)行歸一化。由于Celeb-DF數(shù)據(jù)集中視頻的平均幀數(shù)約為300,因此,為了加速網(wǎng)絡(luò)訓(xùn)練,實(shí)驗(yàn)中的輸入視頻的長(zhǎng)度統(tǒng)一設(shè)置為300。如果視頻少于300 幀,則重復(fù)其最后一幀以達(dá)到300幀。這一方法借鑒了自然語言處理中常用的post-padding方法。但需要注意的是,本文方法在真實(shí)應(yīng)用環(huán)境中可以接收并處理任意長(zhǎng)度的視頻。
3.2.2 對(duì)比方法
實(shí)驗(yàn)比較了五種圖像檢測(cè)方法和三種視頻檢測(cè)方法,分別為DSP-FWA[9](在FWA的基礎(chǔ)上加入了空間金字塔池化以應(yīng)對(duì)不同輸入尺寸換臉圖像)、Meso4[10](通過捕獲深換臉圖像的介觀特征以判斷圖像是否為Deepfake合成)、MesoInception4[10](在Meso4基礎(chǔ)上結(jié)合Inception模塊的改進(jìn)網(wǎng)絡(luò))、Xception[4](使用常用的卷積神經(jīng)網(wǎng)絡(luò)XceptionNet提取Deepfake圖像的空間域信息)、Capsule[11](以VGG19為基礎(chǔ),基于膠囊網(wǎng)絡(luò)結(jié)構(gòu)檢測(cè)換臉視頻幀)、ResNet50+LSTM[12](包含了以ResNet50作為提取空間域信息的卷積網(wǎng)絡(luò)和LSTM作為提取時(shí)序信息的循環(huán)神經(jīng)網(wǎng)絡(luò))、ResNet50+GRU(ResNet50+LSTM的變體,使用和本文方法相同的GRU網(wǎng)絡(luò)替換LSTM網(wǎng)絡(luò))、Inception3D[13](通過3D卷積網(wǎng)絡(luò)同時(shí)提取偽造視頻的空間信息和時(shí)序信息,以判斷換臉視頻是否偽造)。
上述對(duì)比方法均為開源方法。為了保證實(shí)驗(yàn)的公平性,上述對(duì)比方法均使用本文預(yù)處理的數(shù)據(jù)集重新訓(xùn)練。如果上述方法提供最優(yōu)模型,則加載最優(yōu)模型作為預(yù)訓(xùn)練模型并在本文數(shù)據(jù)集上微調(diào),以確保各對(duì)比方法取得最優(yōu)性能。
3.2.3 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)中使用ACC和AUC作為評(píng)價(jià)指標(biāo)。ACC的計(jì)算方式為
(6)
式中:TP為正例預(yù)測(cè)正確的個(gè)數(shù),F(xiàn)P為負(fù)例預(yù)測(cè)錯(cuò)誤的個(gè)數(shù),TN為負(fù)例預(yù)測(cè)正確的個(gè)數(shù),F(xiàn)N為正例預(yù)測(cè)錯(cuò)誤的個(gè)數(shù)。
AUC的計(jì)算方式為
(7)
式中:posNum為正樣本數(shù),negNum為負(fù)樣本數(shù),則分母表示為正負(fù)樣本總的組合數(shù);predpos表示模型對(duì)正樣的預(yù)測(cè)結(jié)果,predneg為模型對(duì)負(fù)樣本的預(yù)測(cè)結(jié)果,分子則表示正樣本大于負(fù)樣本的組合數(shù),含義為分別隨機(jī)從數(shù)據(jù)集中抽取一個(gè)樣本,正樣本的預(yù)測(cè)值大于負(fù)樣本的概率。
3.2.4 實(shí)現(xiàn)細(xì)節(jié)
本文方法使用PyTorch實(shí)現(xiàn)。實(shí)驗(yàn)環(huán)境為搭載了四張NVIDIA Tesla P100 GPU的服務(wù)器。本文方法訓(xùn)練迭代20次,批處理(batch size)大小為16,學(xué)習(xí)率設(shè)置為1×10-4。為平衡視頻檢測(cè)損失和幀檢測(cè)損失的影響,使網(wǎng)絡(luò)的兩個(gè)分支的檢測(cè)能力相近,公式(5)中α1和α2設(shè)置為 1。
為了保證實(shí)驗(yàn)的公平性,對(duì)比方法盡可能使用與本文方法相同的實(shí)驗(yàn)設(shè)置。例如,為了保證對(duì)比方法使用的GPU顯存與本文方法相同,對(duì)于圖像檢測(cè)方法,它們的批處理大小設(shè)置為3 000;對(duì)于視頻檢測(cè)方法,它們的批處理大小設(shè)置為16。
3.3.1 Celeb-DF上的結(jié)果
表1給出了本文方法和對(duì)比方法在Celeb-DF數(shù)據(jù)集上的ACC和AUC結(jié)果,可以看出本文方法在視頻檢測(cè)任務(wù)和幀檢測(cè)任務(wù)都取得了優(yōu)于對(duì)比方法的成績(jī)。在視頻檢測(cè)任務(wù)中本文方法取得了0.97的ACC和0.96的AUC,在幀檢測(cè)任務(wù)中本文方法取得了0.95的ACC和0.95的AUC。Celeb-DF是一個(gè)不平衡的數(shù)據(jù)集,其中換臉視頻與真實(shí)視頻比例為7∶1。相比其他基于CNN網(wǎng)絡(luò)的圖像檢測(cè)方法,例如Meso4,本文模型能有效提取空間信息和幀間時(shí)序信息,通過融合空間域和時(shí)序信息的方式有效提升模型的檢測(cè)性能。因此,相比于圖像檢測(cè)方法這種單一的信息提取方法,本文方法能在不平衡數(shù)據(jù)集中做出更準(zhǔn)確的判斷。與本文方法相似,視頻檢測(cè)方法融合了空間域和時(shí)序信息,但由于本文方法在視頻檢測(cè)方法基礎(chǔ)上引入雙分支結(jié)構(gòu),在聯(lián)合損失函數(shù)的同時(shí)優(yōu)化下網(wǎng)絡(luò)的兩個(gè)分支得到互相增強(qiáng),因此取得了更優(yōu)秀的視頻檢測(cè)結(jié)果。此外,本文方法引入了注意力機(jī)制,增強(qiáng)了對(duì)關(guān)鍵信息的捕捉能力。
表1 各方法在Celeb-DF數(shù)據(jù)集上的性能對(duì)比
3.3.2 FaceForensics++ 的結(jié)果
表2給出了本文方法和對(duì)比方法在 FaceForensics++ 中等質(zhì)量數(shù)據(jù)集c23上的性能對(duì)比結(jié)果。本文方法在視頻檢測(cè)任務(wù)上取得了0.95和0.95的 ACC 和 AUC,在幀檢測(cè)任務(wù)上取得了0.94和0.94 ACC和AUC,無論是在視頻檢測(cè)任務(wù)還是幀檢測(cè)任務(wù)上都優(yōu)于對(duì)比方法——這和在Celeb-DF上的測(cè)試結(jié)果基本一致。
表2 在FaceForensics++ c23上的性能對(duì)比結(jié)果
本文方法創(chuàng)新設(shè)計(jì)了雙分支網(wǎng)絡(luò)結(jié)構(gòu),能融合視頻的空間域不連續(xù)信息和幀間不連續(xù)信息,加之注意力機(jī)制的引入,模型能注意換臉視頻的局部信息,有效提升模了型對(duì)換臉視頻的檢測(cè)能力。
此外,實(shí)驗(yàn)使用Grad-CAM[14]圖像來展示本文模型在空間域上的檢測(cè)方式。Grad-CAM通過展示模型對(duì)輸入圖像的注意力區(qū)域來解釋模型在空間域的決策方式。圖6給出了模型在FaceForensics++數(shù)據(jù)集上輸出的Grad-CAM可視化圖像,圖中前兩列分別為來自FaceForensics++的換臉圖像和模型輸出的Grad-CAM圖像,后兩列分別為來自FaceForensics++的真實(shí)圖像和模型輸出的Grad-CAM圖像。從圖6中可以得出,紅色的注意力區(qū)域主要集中在人臉與其背景之間的邊界區(qū)域。這表明本文方法通過檢測(cè)換臉視頻幀中的合成人臉與周圍環(huán)境的不連續(xù)特征判斷是否為換臉合成。
圖6 本文方法在FaceForensics++上的Grad-CAM圖像
本實(shí)驗(yàn)通過對(duì)在Celeb-DF數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)來研究提出的模型的多任務(wù)結(jié)構(gòu)以及各個(gè)模塊的作用。為了驗(yàn)證CBAM模塊引入給模型帶來的性能提升,實(shí)驗(yàn)去除了CBAM模塊,用ResNet50以代替,記為“-CBAM”。為了驗(yàn)證幀檢測(cè)分支帶來的性能提升,在“-CBAM”此基礎(chǔ)上,去除幀檢測(cè)分支,記為“-CBAM,-FP”,該模型與對(duì)比方法“ResNet50+GRU”相同。為了驗(yàn)證視頻檢測(cè)分支帶來的性能提升,實(shí)驗(yàn)在“-CBAM”基礎(chǔ)上移除視頻檢測(cè)分支,留下ResNet50、時(shí)序?qū)W習(xí)模塊和幀檢測(cè)分支,記為“-CBAM,-VP”。為了驗(yàn)證時(shí)序?qū)W習(xí)模塊和幀間不連續(xù)信息在深度換臉檢測(cè)中的作用,在“-CBAM,-VP”基礎(chǔ)上又移除時(shí)序?qū)W習(xí)模塊(TM),記為“-CBAM,-TM,-VP”。
消融實(shí)驗(yàn)結(jié)果如表3所示,“-CBAM”模型在視頻檢測(cè)任務(wù)上取得了0.95的ACC,0.95的AUC;在幀檢測(cè)任務(wù)上取得了0.94的ACC,0.93的AUC??梢园l(fā)現(xiàn),相比本文模型,CBAM模塊在圖像檢測(cè)任務(wù)帶來了2%的AUC提升,在視頻檢測(cè)任務(wù)帶來了1%的AUC提升。CBAM能提供模型在空間域和在通道方向的注意力學(xué)習(xí)能力,使模型能關(guān)注對(duì)決策有用的關(guān)鍵信息,例如換臉圖像的不一致區(qū)域,以提高模型的性能。模型“-CBAM,-FP”在視頻檢測(cè)取得了0.92的ACC和0.90的AUC,相比“CBAM”視頻檢測(cè)AUC成績(jī)下降了5%;模型“-CBAM,-VP”在幀檢測(cè)任務(wù)取得了0.93的ACC和0.91的AUC,相比“-CBAM”,幀檢測(cè)AUC成績(jī)降低了2%。上述兩個(gè)實(shí)驗(yàn)說明,本文提出的雙分支網(wǎng)絡(luò)得益于多任務(wù)學(xué)習(xí)的特殊優(yōu)化方式,相比傳統(tǒng)的單任務(wù)模型有更好的效果,兩個(gè)任務(wù)在提出的聯(lián)合損失的優(yōu)化下,能力得到互相加強(qiáng)。模型“-CBAM,-TM,-VP”在幀檢測(cè)任務(wù)取得了0.75的ACC和0.68的AUC。這種模型就是常見的使用CNN網(wǎng)絡(luò)進(jìn)行換臉圖像檢測(cè)的模型,其CNN網(wǎng)絡(luò)為ResNet50,由表可知,相較于“-CBAM,-VP”,時(shí)序模塊的加入使得模型AUC提高了0.23,充分證明了時(shí)序信息在換臉檢測(cè)工作中的重要作用。
表3 各方法在Celeb-DF上的消融實(shí)驗(yàn)結(jié)果
在實(shí)際應(yīng)用中,視頻傳播前都會(huì)采用視頻壓縮算法以減少視頻的冗余信息。然而,視頻的壓縮程度會(huì)對(duì)檢測(cè)模型的性能有著顯著的影響。為了驗(yàn)證本文方法在面對(duì)低質(zhì)量視頻時(shí)的魯棒性,對(duì)比了和其他方法面對(duì)FaceForensics++低質(zhì)量數(shù)據(jù)集 c40的性能,結(jié)果如表4所示。對(duì)比表2的結(jié)果可知,雖然本文模型在視頻檢測(cè)任務(wù)和幀檢測(cè)任務(wù)中都有一定的性能下降,但仍在兩個(gè)檢測(cè)任務(wù)中都取得了0.92的AUC,遠(yuǎn)高于其他模型在c40上的性能。該實(shí)驗(yàn)充分證明了本文方法在面對(duì)低質(zhì)量壓縮視頻時(shí)的魯棒性。
表4 各方法在FaceForensics++ c40上的性能對(duì)比
圖7展示了模型應(yīng)對(duì)來自Celeb-DF測(cè)試集的不同換臉視頻樣例的預(yù)測(cè)結(jié)果,其中包含了模型對(duì)不同視頻不同光照、相同視頻不同人臉朝向位置的檢測(cè)結(jié)果。從圖7(a)可得出,雖然本文方法在面對(duì)暗光場(chǎng)景時(shí)檢測(cè)性能會(huì)有些許下降,但仍都給出正確的判斷(預(yù)測(cè)概率均大于0.5),顯示了模型對(duì)不同光照環(huán)境的魯棒性。此外,圖7(b)展示了模型面對(duì)相同視頻不同人臉朝向的預(yù)測(cè)結(jié)果,證實(shí)了模型對(duì)不同人臉位置檢測(cè)能力相同。
圖7 模型在不同光照和人臉朝向?qū)Q臉圖像的預(yù)測(cè)結(jié)果
為了展示環(huán)境物遮擋對(duì)模型的影響,使用了常用的數(shù)據(jù)增強(qiáng)方法Cutout[15]對(duì)來自Celeb-DF測(cè)試集中的換臉視頻的每一幀使用隨機(jī)位置的20 pixel×20 pixel的黑色方塊進(jìn)行遮擋,以模擬環(huán)境物體對(duì)人臉信息的遮擋。圖8給出了本文方法對(duì)同一換臉視頻在有遮擋和無遮擋時(shí)的預(yù)測(cè)概率,其中預(yù)測(cè)值大于0.5則表明模型判斷為換臉視頻幀,值越大表明模型越確定其為換臉視頻幀。圖8表明,當(dāng)有環(huán)境在遮擋時(shí),模型預(yù)測(cè)結(jié)果會(huì)有一定的下降,盡管如此,模型仍對(duì)這些視頻幀仍做出了正確判別。該實(shí)驗(yàn)證實(shí)了本文方法對(duì)環(huán)境遮擋情況的魯棒性。
圖8 模型在有遮擋和無遮擋時(shí)對(duì)換臉視頻的預(yù)測(cè)概率對(duì)比
本文提出了一種基于多任務(wù)學(xué)習(xí)和注意力機(jī)制的雙分支深度換臉視頻檢測(cè)網(wǎng)絡(luò)模型,克服了當(dāng)前圖像檢測(cè)任務(wù)和視頻檢測(cè)任務(wù)的缺陷,在檢測(cè)視頻是否為偽造的同時(shí)能逐幀判斷視頻幀是否為深度換臉技術(shù)合成。此外,本文通過引入卷積注意模塊和時(shí)序?qū)W習(xí)模塊,檢測(cè)每幀的局部空間的不連續(xù)信息和幀間時(shí)序不連續(xù)信息。在兩個(gè)主流的公開數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法在幀檢測(cè)任務(wù)和視頻檢測(cè)任務(wù)中取得了優(yōu)秀的成績(jī)。而且,本文方法具有更好的泛化能力,在面對(duì)不同光照條件、不同人臉朝向以及低視頻質(zhì)量時(shí)表現(xiàn)出了良好的魯棒性。
如今深度換臉檢測(cè)仍面臨著大量的挑戰(zhàn),例如,當(dāng)模型在面對(duì)真實(shí)世界廣泛存在的真假視頻分布不平衡的數(shù)據(jù)時(shí),換臉檢測(cè)算法性能會(huì)有顯著下降,因此,深度換臉中的不平衡學(xué)習(xí)將是后續(xù)研究的重點(diǎn)。