蒲文博 胡 靖
(成都信息工程大學(xué)計算機(jī)學(xué)院,四川 成都 610225)
深度偽造(Deepfake)是最近廣泛流行的人臉圖像竄改技術(shù)。與其他使用傳統(tǒng)圖像處理手段的人臉竄改技術(shù)不同,該方法使用深度神經(jīng)網(wǎng)絡(luò)合成指定目標(biāo)人臉圖像并對原視頻或圖像進(jìn)行換臉操作。具體步驟為:(1)Deepfake使用自編碼器(autoencoders)或生成對抗網(wǎng)絡(luò)(GAN)合成目標(biāo)人臉圖像,該圖像會保留原人臉的非身份信息,例如原人臉的動作表情、人臉位置、環(huán)境光照等;(2)通過傳統(tǒng)的圖像處理手段例如仿射變換替換原視頻或圖像中的人臉。由Deepfake技術(shù)得到的換臉視頻能模仿原視頻人物的行為動作。然而,人臉信息是身份認(rèn)證的關(guān)鍵信息,在現(xiàn)如今的公民網(wǎng)絡(luò)生活中已經(jīng)扮演了舉足輕重的角色,Deepfake技術(shù)生成的換臉視頻對于公民的個人隱私甚至社會安全構(gòu)成了嚴(yán)重的威脅。
為應(yīng)對Deepfake技術(shù)造成的安全威脅,大量針對Deepfake換臉視頻的檢測算法便由此提出。這些算法的檢測基本思路為:由于Deepfake技術(shù)仍然使用了傳統(tǒng)的圖像處理技術(shù),將合成人臉變換到原視頻人臉位置,這種變換會在圖像的空間域上產(chǎn)生不一致性(例如合成人臉與原人臉周圍環(huán)境的不一致),從而成為檢測視頻或圖像是否為偽造的重要依據(jù)?,F(xiàn)存的Deepfake檢測方法大多便是使用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來提取圖像空間域的不連續(xù)信息。然而隨著Deepfake技術(shù)的迭代,空間域中的不連續(xù)信息變得難以捕獲,傳統(tǒng)的Deepfake檢測方法的精度受到很大影響。
鑒于Deepfake技術(shù)的特殊合成方式,會在合成人臉與周圍像素間產(chǎn)生不連續(xù)的特征,這種邊緣的不連續(xù)特征往往在頻域中屬于高頻信息。盡管隨著Deepfake技術(shù)的迭代,這種邊緣不連續(xù)特征在空間域上難以分別,但卻可以在頻域中被神經(jīng)網(wǎng)絡(luò)更有效地提取出來。本文通過對Deepfake視頻幀進(jìn)行離散余弦變換(DCT),將視頻映射到頻域中,使用殘差卷積網(wǎng)絡(luò)提取偽造幀的頻域特征,以提升模型對空間域不連續(xù)信息的捕捉能力。此外,引入了雙向LSTM模塊提取Deepfake視頻的幀間時序信息,以提升模型對幀間不連續(xù)信息的提取能力。在此基礎(chǔ)上,提出了一種專門針對Deepfake視頻的數(shù)據(jù)增強(qiáng)方法Xray-blur。該方法通過對人臉周圍像素進(jìn)行高斯模糊,提高模型對圖像不連續(xù)信息的捕捉難度,以此生成難度較高的訓(xùn)練樣本,針對性地訓(xùn)練模型對于不連續(xù)區(qū)域特征的提取能力。實驗表明,該數(shù)據(jù)增強(qiáng)方法能有效提升模型的性能。
為了應(yīng)對Deepfake技術(shù)的威脅,科研工作者提出眾多用于檢測Deepfake換臉視頻和圖像的方法,這些方法以深度學(xué)習(xí)方法為主。Rossler等[1]首次提出使用XceptionNet[2]進(jìn)行Deepfake檢測,但這種直接使用現(xiàn)存的CNN網(wǎng)絡(luò)的方法由于其未對Deepfake數(shù)據(jù)進(jìn)行針對性優(yōu)化而效果欠佳。Afchar等[3]設(shè)計了更專注于圖像的介觀特性的CNN網(wǎng)絡(luò):Meso4和MesoInception4。Li等[4]提出了一種名為FWA的網(wǎng)絡(luò),首次提出通過檢測圖像中人臉與其周圍區(qū)域的不一致性來判斷該圖像是否為換臉圖像。在此基礎(chǔ)上,Li隨后提出了DSP-FWA網(wǎng)絡(luò),通過引入空間金字塔池化(SPP)[5],來解決檢測過程遇到的圖像輸入尺寸不同的問題。而后,Nguyen等[6]提出了Capsule-Forensics網(wǎng)絡(luò),其使用基于 VGG19[7]的膠囊結(jié)構(gòu)網(wǎng)絡(luò)(CapsuleNet)[8]檢測換臉圖像。最近,Luo等[9]提出了一種能捕捉圖像高頻噪聲的檢測網(wǎng)絡(luò)來提升模型面對不同換臉數(shù)據(jù)的泛化能力。近期也有部分工作將檢測重點放到圖像或視頻中的生物學(xué)特征上:例如Li等[10]提出通過估計視頻中人的眨眼頻率來判斷其是否為換臉視頻;Javier等[11]設(shè)計了一種能通過rPPG技術(shù)估計人的心率的網(wǎng)絡(luò)來判斷視頻是否由Deepfake技術(shù)合成。此外,近期提出的方法也更加重視視頻幀間信息的提取,這些方法能通過檢測視頻幀間的不連續(xù)信息而判斷視頻是否為Deepfake視頻。例如,Güera等[12]提出了一種包含CNN和長短期記憶(LSTM)[13]的兩階段檢測網(wǎng)絡(luò),以捕獲幀之間的不一致信息;韓語晨等[14]提出一種基于Inception[15]模塊的3D卷積的網(wǎng)絡(luò),該網(wǎng)絡(luò)則是通過3D卷積的方式來提取幀間時序信息,從而檢測換臉視頻。
本文提出方法的流程如圖1所示。對于一個輸入視頻,首先使用Dlib[16]的人臉檢測庫(Dlib face detector)逐幀提取出視頻中的人臉圖像,隨后通過DCT變換將人臉圖像幀轉(zhuǎn)換到頻域;之后每幀的頻域信息被送入頻域?qū)W習(xí)殘差CNN中,提取高維頻域特征圖;這些特征圖接著被送入雙向LSTM網(wǎng)絡(luò)中,以提取幀間的時序信息;得出的特征圖融合了頻域信息特征和時序信息特征,通過網(wǎng)絡(luò)的全連接層進(jìn)行逐幀判斷。
2.1.1 圖像頻域轉(zhuǎn)換
受JPEG壓縮算法的啟發(fā),本文提出了將RGB圖像轉(zhuǎn)換為頻域圖像的方法。JPEG壓縮算法通過對原始圖像劃分為的矩陣,再將每個矩陣中的圖像通過余弦變換(DCT)轉(zhuǎn)換為頻域信息進(jìn)行保存,這種存儲方式相比傳統(tǒng)方式有效節(jié)省了存儲空間。圖像頻域轉(zhuǎn)換流程如圖2所示。具體步驟為:(1)人臉提取。對于輸入的RGB視頻幀,首先使用Dlib人臉檢測庫提取人臉圖像,提取的人臉圖像隨后會由RGB色彩空間轉(zhuǎn)換到Y(jié)CbCr色彩空間。(2)DCT轉(zhuǎn)換。Y、Cb、Cr 3個通道的圖像會以8×8的矩陣塊進(jìn)行DCT變換,分別形成3個二維DCT系數(shù)矩陣。該8×8的矩陣塊對應(yīng)圖2中2×2的同色方塊。8×8矩陣中保存了來自不同頻域分量的DCT系數(shù)。位于高頻分量的系數(shù)存放于矩陣右下角,而低頻系數(shù)存放于矩陣左上角。(3)DCT矩陣變維。將各個8×8的矩陣塊中相同分量的DCT系數(shù)組合到同一通道中。例如,每個同色2×2方塊的左上角小塊會組合到一個通道里。這個組合過程會按照原相對位置進(jìn)行,以保證相對位置的統(tǒng)一。這樣組合會形成通道數(shù)為8×8=64的三維DCT立方。DCT立方中每個通道中保存了位于同一頻域分量的DCT系數(shù)。由于人臉圖像由Y、Cb、Cr 3個通道構(gòu)成,因此每個通道都會形成一個DCT立方矩陣。(4)DCT矩陣連接。將每個通道形成的DCT立方體做連接操作,最終形成8×8×3=192個通道的三維張量。(5)歸一化。這個張量在經(jīng)過歸一化后作為網(wǎng)絡(luò)的最終輸入。設(shè)輸入的RGB圖像大小為H×W×C,H、W為圖像的高和寬,C為圖像的通道數(shù)且C=3,則該圖像經(jīng)過轉(zhuǎn)換到頻域后得到的張量大小為H/8×W/8×64×C。
2.1.2 頻域?qū)W習(xí)的CNN
由于最終輸入張量依然保持三維,該三維張量相比于傳統(tǒng)輸入的RGB圖像,其本質(zhì)上只是通道數(shù)的不同。因此只需要調(diào)整CNN網(wǎng)絡(luò)的第一層卷積層的輸入通道數(shù),便可以使其處理頻域信息。本文使用簡單修改ResNet-50[17]作為頻域?qū)W習(xí)的CNN。具體修改如下:(1)由于ResNet-50的第一層卷積層和隨后的一層最大池化層的步長為2,為了不損失頻域信息,故將這兩層移除。(2)將第二層的卷積層通道數(shù)設(shè)置為和頻域張量相同的通道數(shù),即192,使網(wǎng)絡(luò)能接收頻域三維張量。(3)移除原ResNet-50的最后一層全連接層,其輸出的特征圖直接輸入到下層LSTM中。這樣的修改能使原CNN模型的結(jié)構(gòu)變化最小,從而快速移植到各種CNN模型中。如圖3所示,虛線框為原Resnet-50中被修改的部分。輸入的圖像經(jīng)過DCT轉(zhuǎn)換到頻域后會跳過原ResNet-50的第一層中的7×7卷積和3×3最大池化層(Max Pool)直接輸入到1×1卷積層中,該層的輸入通道設(shè)為192,即與頻域張量通道數(shù)相等,其他部分保持不變即可。
由于多數(shù)Deepfake算法在合成換臉視頻時未考慮幀間信息,從而導(dǎo)致合成的換臉視頻在時域中會有一定的不連續(xù)現(xiàn)象,例如幀間的異常抖動。和空間域的不連續(xù)信息相同,捕獲幀間不連續(xù)信息也能提升模型對換臉視頻的檢測能力。本文方法使用雙向LSTM提取幀間不連續(xù)信息。如圖4所示,相比傳統(tǒng)的單向LSTM,雙向LSTM使用了兩層LSTM網(wǎng)絡(luò)能處理正向和反向傳播兩個路徑。這種設(shè)計使得雙向LSTM不但能考慮視頻幀的歷史信息,也能考慮視頻幀的預(yù)測信息,有助于模型更好地提取幀間的不連續(xù)信息,從而做到更準(zhǔn)確的判斷。
在提取到圖像幀的高維頻域特征圖后,特征圖首先被展平成一維特征向量,隨后所有幀的特征向量會被堆棧成一個二維特征圖,該特征圖會經(jīng)過采用256個神經(jīng)元的雙向LSTM模塊對幀間的時序信息進(jìn)行提取。經(jīng)過雙向LSTM提取后,得到每幀的特征向量,特征向量會被隨即傳入一個共享的全連接層中,該全連接層則用于輸出模型對每幀是否偽造的最終判斷。
鑒于主要的Deepfake檢測方法以合成人臉與周圍區(qū)域的不連續(xù)性信息作為檢測的關(guān)鍵信息。因此如果有一種數(shù)據(jù)增強(qiáng)方法能針對區(qū)域進(jìn)行模糊,降低此處不連續(xù)特征,以困難樣本訓(xùn)練該模型,便能提升模型對該不連續(xù)區(qū)域的提取能力。由該觀點出發(fā),本文便提出了一種針對Deepfake的視頻數(shù)據(jù)增強(qiáng)的方法Xray-blur,該方法能對合成人臉的周圍邊界區(qū)域進(jìn)行模糊處理。受Face X-ray[18]中將合成人臉的鄰域以光圈的形式暴露的啟發(fā),本文將與光圈像素對應(yīng)的原圖像像素進(jìn)行高斯模糊處理。Face X-ray光圈生成過程如圖5所示。首先,給定一個輸入的Deepfake人臉圖像,使用Dlib檢測人臉的68個特征點,如圖5(a)所示。將這些特征點連接形成的凸包做白色填充,形成一個初始mask,如圖5(b)所示。再經(jīng)過5×5高斯核模糊運算形成最終mask,記為M,如圖5(c)所示。最后通過下列運算即可得到圖5(d)的Face X-ray光圈圖像。
通過上述方法生成好Xray光圈后,將Xray光圈區(qū)域?qū)?yīng)的原圖像區(qū)域進(jìn)行高斯模糊處理,該模糊處理過程使用了5×5的高斯核。原圖和經(jīng)過Xray-blur增強(qiáng)的圖像都會作為模型的訓(xùn)練集進(jìn)行訓(xùn)練。圖6為Xray-blur細(xì)節(jié)展示:
從圖6可以明顯看出,增強(qiáng)的合成人臉周圍有顯著的模糊效果,這種模糊效果會減弱合成人臉與周圍像素的不連續(xù)信息,使得Deepfake檢測模型難以提取該圖像幀的不連續(xù)信息。因此,在訓(xùn)練中加入這些復(fù)雜樣本,將會進(jìn)一步增強(qiáng)模型對不連續(xù)信息的提取能力。
3.1.1 數(shù)據(jù)集和數(shù)據(jù)準(zhǔn)備
本文將測試提出的方法在公開數(shù)據(jù)集Celeb-DF[19]和FaceForensics++[1]上的檢測性能。
Celeb-DF(v2)是最近提出的具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集,用于評估換臉檢測方法。其包含590個真實視頻和5639個換臉視頻。換臉視頻由59位不同性別、年齡和種族的名人的公開可用的YouTube視頻生成。
FaceForensics++包含從 YouTube抓取的1000個真實視頻和使用4種換臉?biāo)惴ㄉ傻?000個換臉視頻,每個算法生成的換臉視頻數(shù)量為1000。本文使用Deepfake算法合成的版本,故該數(shù)據(jù)為平衡數(shù)據(jù)集。除此以外,FaceForensics++包含了3個視頻質(zhì)量從高到底的3個版本,分為稱為:raw、c23、c40。
數(shù)據(jù)準(zhǔn)備工作如下:首先,使用Dlib庫中的人臉檢測器對數(shù)據(jù)集的每個視頻中的每一幀中進(jìn)行人臉檢測并提取;然后將提取的人臉調(diào)整為64×64像素,并使用ImageNet的均值和標(biāo)準(zhǔn)差對人臉圖像進(jìn)行歸一化。實驗中的輸入視頻的幀長設(shè)置為300,如果某個視頻少于300幀,則重復(fù)其最后一幀以達(dá)到300幀。此外,將生成的每個視頻幀再采用Xray-blur增強(qiáng)作為新增數(shù)據(jù),與原視頻數(shù)據(jù)一起訓(xùn)練模型。
對于訓(xùn)練集和測試集的劃分,本文遵循各數(shù)據(jù)集原有劃分方式。其中Celeb-DF訓(xùn)練集包含了890個真實視頻和5639個換臉視頻;測試集包含了178個真實視頻和340個換臉視頻;FaceForensics++中訓(xùn)練集分布包含360個真實視頻和換臉視頻;測試集和驗證集分別包含70個真實視頻和換臉視頻。
3.1.2 對比方法
實驗比較了6種Deepfake檢測方法:
(1)DSP-FWA[4]:在FWA的基礎(chǔ)上加入了空間金子塔池化(SPP)以應(yīng)對不同輸入尺寸換臉圖像。
(2)Meso4[3]:Meso4通過捕獲深換臉圖像的介觀特征以判斷圖像是否為Deepfake合成。
(3)MesoInception4[3]:MesoInception4為在Meso4基礎(chǔ)上結(jié)合Inception[15]模塊改進(jìn)網(wǎng)絡(luò)。
(4)Xception[1]:Xception使用常用的卷積神經(jīng)網(wǎng)絡(luò)XceptionNet提取Deepfake圖像的空間域信息
(5)Capsule[6]:Capsule以VGG19為基礎(chǔ),基于膠囊網(wǎng)絡(luò)結(jié)構(gòu)檢測換臉視頻幀。
(6)Inception3D[14]:Inception3D通過3D卷積網(wǎng)絡(luò)同時提取偽造視頻的空間信息和時序信息,以判斷換臉視頻是否偽造。
3.1.3 評價指標(biāo)
實驗中使用準(zhǔn)確率ACC(Accuracy)和ROC曲線下面積(AUC)作為評價指標(biāo),ACC和AUC計算方式分別為:
其中,TP為正例預(yù)測正確的個數(shù),FP為負(fù)例預(yù)測錯誤的個數(shù),TN為負(fù)例預(yù)測正確的個數(shù),FN為正例預(yù)測錯誤的個數(shù)。
其中,posNum為正樣本數(shù),negNum為負(fù)樣本數(shù),則分母表示為正負(fù)樣本總的組合數(shù)。predpos表示模型對正樣的預(yù)測結(jié)果,predneg為模型對負(fù)樣本的預(yù)測結(jié)果,分子則表示是正樣本大于負(fù)樣本的組合數(shù)。AUC的含義為分別隨機(jī)從數(shù)據(jù)集中抽取一個樣本,正樣本的預(yù)測值大于負(fù)樣本的概率。
3.1.4 參數(shù)設(shè)置及實驗環(huán)境
實驗在使用NVIDIA Tesla P100 GPU的服務(wù)器中完成,本文方法使用PyTorch實現(xiàn)。訓(xùn)練迭代20次,批處理大小為16。訓(xùn)練時,使用Adam優(yōu)化器,并使用交叉熵作為損失函數(shù),學(xué)習(xí)率設(shè)置為1×10-4。此外,為了保證對比實驗的公平,其他對比方法使用盡可能相同的設(shè)置。
3.2.1 公開數(shù)據(jù)集上的對比
實驗對比了不同方法在兩個公開數(shù)據(jù)集Celeb-DF和FaceForensics++上的ACC和AUC性能。從表1中可以得出,本文方法優(yōu)于其他方法:本文方法在ACC上達(dá)到了0.96,AUC上達(dá)到了0.95。Celeb-DF作為一個不平衡的數(shù)據(jù)集,其中換臉視頻與真實視頻比例為7∶1。方法Meso4,由于其只使用了傳統(tǒng)的卷積網(wǎng)絡(luò)提取空間域信息,而未考慮幀間信息,因此在面對不平衡數(shù)據(jù)時會存在偏向預(yù)測,導(dǎo)致AUC結(jié)果不理想。而Inception3D利用3D卷積網(wǎng)絡(luò),提取幀間不連續(xù)特征,表現(xiàn)效果較好。但由于其使用3D卷積而致使網(wǎng)絡(luò)參數(shù)較大,加之其仍使用傳統(tǒng)RBG圖像作為輸入,空間域不連續(xù)信息未能被有效提取,因此其性能仍弱于本文方法。本文所提方法利用頻域?qū)W習(xí)CNN和雙向LSTM,在不平衡數(shù)據(jù)集上仍然取得了較好的結(jié)果。這是由于其能將圖像轉(zhuǎn)換為頻域信息而放大不連續(xù)細(xì)節(jié)。且得益于其雙向LSTM,模型能捕捉Deepfake視頻中的幀間不連續(xù)抖動,從而進(jìn)行更準(zhǔn)確的判斷。
表1 在公開數(shù)據(jù)集上的性能對比
與在Celeb-DF上相同,本文方法在FaceForensics++上仍取得了優(yōu)越的性能,其中ACC達(dá)到了0.95,AUC達(dá)到了0.94。本文方法相比于Inception3D,ACC領(lǐng)先了5%,AUC領(lǐng)先了3%。實驗充分展示了頻域?qū)W習(xí)和時序?qū)W習(xí)在Deepfake檢測中扮演的重要角色。
3.2.2 消融實驗
為了研究本文模型各個模塊的作用,在Celeb-DF數(shù)據(jù)集上進(jìn)行消融實驗。具體步驟如下:(1)為了驗證Xray-blur增強(qiáng)方法帶給模型的性能提升,實驗去除了Xray-blur增強(qiáng)的數(shù)據(jù),僅使用原數(shù)據(jù)進(jìn)行訓(xùn)練,記為“-Xb”;(2)為了考察將圖像轉(zhuǎn)換為頻域信息從而對模型帶來的提升,使用傳統(tǒng)的ResNet-50代替頻域?qū)W習(xí)的CNN,記為“-Xb,-DCT”;(3)為了驗證雙向LSTM模塊和幀間不連續(xù)信息在深度換臉檢測中的重要作用,實驗在“-Xb,-DCT”基礎(chǔ)上移除了雙向LSTM,只使用Res-Net-50檢測深度偽造視頻幀,記為“-XB,-DCT,-Bi”。
表2是各方法的檢測結(jié)果。對比本文方法和“-Xb”可以得出,Xray-blur增強(qiáng)方法帶來了2%的ACC和1%的AUC提升。Xray-blur增強(qiáng)方法從數(shù)據(jù)集入手,模糊對檢測的關(guān)鍵信息,即合成人臉及其周圍的邊界不一致信息。通過增強(qiáng)數(shù)據(jù)訓(xùn)練的模型在面對正常數(shù)據(jù)時能更有效地提取這些信息,從而針對性地提升模型對偽造圖像的判斷能力。模型“-Xb,-DCT”取得了0.91的ACC和0.92的AUC。相比“-Xb”,ACC下降了3%,AUC下降了2%。實驗表明,經(jīng)過頻域轉(zhuǎn)換后,模型性能有了顯著提升。這種提升和Deepfake檢測的注意目標(biāo)相關(guān),空間的不一致信息通過頻域的轉(zhuǎn)換而進(jìn)行了放大,模型能更好地提取該信息。模型“-XB,-DCT,-Bi”取得了0.75的 ACC 和0.68的 AUC。相較于“-Xb,-DCT”,雙向LSTM的加入使得模型提高了0.16的ACC和0.24的AUC,模型性能提升顯著,展示了幀間信息在換臉檢測任務(wù)中的至關(guān)重要的作用。雙向LSTM通過前后的幀間信息傳播,強(qiáng)化了幀間信息的提取。
表2 消融實驗檢測結(jié)果
3.2.3 低質(zhì)量視頻魯棒性分析
Deepfake檢測算法需要對不同質(zhì)量的視頻具有良好的檢測效果,以應(yīng)對現(xiàn)實應(yīng)用場景。尤其是Deepfake視頻在網(wǎng)絡(luò)上傳播會受壓縮算法的影響,使其質(zhì)量明顯下降。這種視頻會對模型的檢測性能有著顯著的影響。為驗證所提模型在不同視頻質(zhì)量下的魯棒性,本節(jié)測試了模型在FaceForensics++的c40數(shù)據(jù)集的性能。數(shù)據(jù)集c40使用了H.264編碼器對原始視頻進(jìn)行低質(zhì)量壓縮,以模擬網(wǎng)絡(luò)中視頻的真實壓縮情況。本文方法和其他方法在c40上的測試結(jié)果見表3。對比表1中FaceForensics++c23的結(jié)果,本文方法在視頻檢測任務(wù)中ACC性能下降了3%,AUC性能下降了2%,但遠(yuǎn)高于其他模型在c40上的測試性能。該實驗充分證明了本文方法面對低壓縮率視頻時表現(xiàn)出良好的魯棒性。
表3 在FaceForensics++上的面對低質(zhì)量視頻c40的測試結(jié)果
此外,為了展示低質(zhì)量視頻對模型檢測能力的影響,本文方法、Capsule、MesoInception4以及 Xception分別在c23和c40上的預(yù)測結(jié)果見圖7。圖7中紅色框為換臉視頻幀,綠色框為真實視頻幀。預(yù)測結(jié)果大于0.5則模型判斷為換臉圖像,小于0.5則模型判斷為真實圖像。從圖7可以得出,相較于對c23的預(yù)測結(jié)果,對比模型對c40換臉視頻幀的預(yù)測概率有一定下降;在對c40真實視頻幀預(yù)測中出現(xiàn)了錯誤判別(紅色)。相較于其他方法,本文方法做到了正確預(yù)測的同時,其輸出概率更準(zhǔn)確。
提出了一種基于視頻幀頻域信息的Deepfake檢測方法,該方法能夠更好地捕獲Deepfake合成中產(chǎn)生的不連續(xù)信息。此外,該方法通過引入雙向LSTM以提取Deepfake視頻的幀間信息,進(jìn)一步提升模型對Deepfake視頻的檢測能力。針對深度換臉視頻的合成特點,提出了Xray-blur數(shù)據(jù)增強(qiáng)方法,其能模糊合成人臉與周圍邊界區(qū)域,使得模型在增強(qiáng)數(shù)據(jù)訓(xùn)練下能更好捕捉不連續(xù)區(qū)域。相比于基于傳統(tǒng)的卷積網(wǎng)絡(luò)的檢測方法,本方法在公開數(shù)據(jù)集上取得了優(yōu)秀的檢測效果,且擁有良好的應(yīng)對低質(zhì)量視頻的能力。本文的方法仍有些不足,例如,模型雖然能捕獲頻域信息,但缺乏對關(guān)鍵頻域信息的注意能力,后續(xù)研究會考慮將通道注意力模塊引入模型中,使模型能在眾多頻域中選擇有效的信息進(jìn)行Deepfake檢測。