国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于特征點對齊的假臉檢測框架*

2020-06-08 10:08:58劉賢剛郝春亮
通信技術 2020年5期
關鍵詞:人臉框架樣本

劉賢剛,范 博,郝春亮

(中國電子技術標準化研究院,北京 100007)

0 引 言

Deepfake 是一種深度圖像生成網(wǎng)絡的衍生技術,它將深度學習與假臉合成技術相結(jié)合,可以通過變換人臉制造假臉圖像或視頻。2017 年Deepfake技術席卷全球,雖然遭到全網(wǎng)封禁,但這項技術仍然在不斷的更新進化,越來越多的假臉視頻出現(xiàn)在國內(nèi)外各大視頻網(wǎng)站上。近期隨著技術門檻的不斷降低,普通用戶也能夠做出非常逼真的假臉效果。假臉視頻的泛濫,引起人們對于新聞媒體真實性的擔憂。此外,各類換臉軟件也存在隱私泄露的風險。由此所引發(fā)的人臉安全危機,引起了人們的廣泛關注。2019 年國信辦印發(fā)的《網(wǎng)絡音視頻信息服務管理規(guī)定》中,4 次提及深度學習,并針對AI 造假視頻進行規(guī)定。面向Deepfake 技術的假臉檢測方法成為產(chǎn)業(yè)界和學術界的關注熱點。

1 背景及相關研究

近年來,國內(nèi)外發(fā)表了許多針對假臉檢測的研究,尤其是針對Deepfake 的檢測方法。各方法的思路、使用技術互有差異。

2017 年,Zhang 等人[1]用柵格劃分或者SURF提取關鍵點描述子,用K-means 方法生成特征,通過SVM、隨機森林、MLP 等分類器進行2 分類。在自己建立的基于LFW 的假臉數(shù)據(jù)集中達到92%的準確率。Zhou 等人[2]提出了一種雙流網(wǎng)絡結(jié)構(gòu)來捕獲篡改偽跡證據(jù)和局部噪聲殘差證據(jù)的方法,其中一個分支流是基于CNN 的人臉分類器,另一個是基于隱藏特征的三元組分支流。

2018 年,Güera 等人[3]提出端到端的假臉檢測系統(tǒng),通過預訓練的InceptionV3 模型以及LSTM網(wǎng)絡計算真?zhèn)胃怕?;該團隊從網(wǎng)站上收集300 個Deepfake 視頻,在不到2 秒的視頻(以每秒24 幀的速度采樣40 幀的視頻)的情況下,這個系統(tǒng)可以準確地分析該片段是否為深度偽造,準確率達97%。Li 等人[4]研究發(fā)現(xiàn),Deepfake 合成視頻的訓練樣本很少有閉眼的數(shù)據(jù),因此可以通過檢測視頻人臉的眨眼頻率來判別假臉;結(jié)合LSTM 單元以及二分類的交叉熵損失函數(shù)訓練CNN 網(wǎng)絡。在真實視頻中檢測到34:1/min 眨眼頻率,但在虛假視頻中只有 3.4/min blinks,可以為區(qū)分假臉視頻提供依據(jù)。

2019 年,Nguyen 等人[5]提出多任務學習的方式用于檢測和分割處理過的面部圖像和視頻。Sabir等人[6]借鑒行為識別領域,利用時間信息處理視頻的方法,在FaceForensics++ 數(shù)據(jù)集上達到較好的檢測水平。Li 等[7]人根據(jù)Deepfake 假臉生成的原理,通過制造偽影的方式生成大量假臉數(shù)據(jù)集,使用多種網(wǎng)絡模型進行假臉檢測,取得了較好的檢測效果。Yang 等[8]人研究發(fā)現(xiàn)Deepfake 生成的假臉從2D 面部圖像估計三維頭部姿態(tài)(比如頭的方向和位置)時與真實人臉之間會存在誤差;該團隊進行實驗來證明了這一現(xiàn)象并且將這種特征用SVM 分類器進行假臉分類。Gu 等[9]人提出了針對重要人物的專用假臉檢測技術;該團隊認為人在說話時面部表情和頭部運動有獨特的模式,稱為軟生物特征,但是Deepfake 生成的假臉不會有這種特定的模式,同時考慮演講文本內(nèi)容對說話風格和表情的影響,用不同的文本進行實驗平均AUC 達到了0.91。Hassan等人[10]提出一種使用區(qū)塊鏈的解決方案和通用框架,以追蹤和跟蹤數(shù)字內(nèi)容的來源和歷史到其原始來源,防止造假;該方案專注于視頻內(nèi)容,并認為其框架通用于其他形式的數(shù)字內(nèi)容。

雖然上述方法取得了較好的效果,但在實際應用過程中還存在諸多問題。如:使用算法復雜度高,計算開銷大,圖像的處理速度慢;LSTM 在對視頻幀處理時,讀取的是整張圖像,背景噪聲影響較大,并且如果圖片中包含多張人臉時,容易出現(xiàn)誤判。另外假臉生成技術在不斷更新,有些算法的針對性較強,對新出現(xiàn)的假臉數(shù)據(jù)檢測精度大幅下降。

本文針對以上問題,提出了一種基于人臉特征點對齊的假臉檢測框架,其主要特點如下:

(1)使用對齊后的人臉區(qū)域特征進行假臉判別,減少噪聲影響,降低計算復雜度;

(2)能夠同時滿足單張圖片中單人臉,與多人臉的假臉判別;

(3)對不同網(wǎng)絡結(jié)構(gòu)有較好兼容性;

(4)針對不同技術生成假臉的檢測有一定的通用性。

2 基于特征點對齊的假臉檢測框架

本文提出一種基于特征點對齊的假臉檢測方法,該框架指定的總體流程如圖1 所示。該流程首先從圖片或視頻幀中進行人臉檢測,獲取關鍵特征點,并根據(jù)關鍵特征點進行人臉對齊,然后使用卷積神經(jīng)網(wǎng)絡進行人臉特征提取,最后進行假臉判別。該框架的主要特點是使用特征點對齊加強假臉識別流程的兼容性和準確性。

圖1 假臉檢測總體流程

2.1 人臉檢測

人臉檢測采用MTCNN[11]網(wǎng)絡,MTCNN 是一個多任務網(wǎng)絡,通過網(wǎng)絡級聯(lián)的方式,能夠同時輸出人臉框坐標,和人臉關鍵特征點坐標。

根據(jù)檢測到的特征點坐標,與標準臉特征點的坐標關系,計算出相似變換矩陣,然后使用相似變換矩陣對整張人臉圖片進行相似變換,將人臉對齊到一個統(tǒng)一尺寸的圖像上,并將人臉區(qū)域扣取出來。相似變換是對原圖像做等距變換和均勻縮放,角度、平行性和垂直性不發(fā)生變換。相似變換矩陣公式如下:

通過相似變換,可以使圖像的特征分布趨于一致,但又不會改變像素間的平行關系,更容易發(fā)現(xiàn)真臉與假臉之間的差異。通過人臉檢測,可以只對人臉區(qū)域進行處理,減少了背景噪聲的影響。

2.2 人臉特征提取網(wǎng)絡

在進行人臉特征提取時,為了能夠得到更好的特征表達,本文參考了現(xiàn)有的經(jīng)典網(wǎng)絡結(jié)構(gòu),綜合考慮了算法模型的復雜度、執(zhí)行效率、以及在Imagenet 上的分類精度,選用了不同的骨干網(wǎng)絡(backbone)網(wǎng)絡進行對比,研究不同算法模型在假臉檢測中的表現(xiàn)。

(1)ResNet:該網(wǎng)絡帶有Shortcut Connection機制[12],很好的解決了隨著網(wǎng)絡結(jié)構(gòu)加深而導致的梯度消散問題,從而使得能夠構(gòu)建更深的神經(jīng)網(wǎng)絡,以獲得更好的性能。

(2)Inception ResNet:谷歌公司在Inception網(wǎng)絡的基礎上,結(jié)合殘差結(jié)構(gòu)發(fā)布的網(wǎng)絡,在 ILSVRC 圖像分類基準上取得了較高準確率。

(3)Densenet:參考ResNet 的結(jié)構(gòu),同樣使用跨層連接,減輕了訓練過程中的梯度消散,同時大量的特征被復用,使用少量的卷積核就可以生成大量的特征,所以模型的尺寸也比較小,在imagenet 上達到相同精度時,其參數(shù)量和計算量可降為ResNet 的一半。

(4)ResNext:ResNet 的升級版,用平行堆疊相同拓撲結(jié)構(gòu)的blocks 代替原來 ResNet 的三層卷積的block,在不明顯增加參數(shù)量級的情況下提升了模型的準確率,同時由于拓撲結(jié)構(gòu)相同,超參數(shù)也減少了。

面向上述4 個經(jīng)典backbone 網(wǎng)絡,本文選取了ResNet50、densenet121、Inception ResNet v2、和ResNext50,使用4 種網(wǎng)絡分別對本文所提出的假臉檢測效果進行實驗驗證。4 種模型的參數(shù)量如表1所示。本文在DFDC 數(shù)據(jù)集上,對上述4 種算法模型進行了對比實驗。

表1 網(wǎng)絡參數(shù)對比

由于ResNet 網(wǎng)絡廣泛的應用基礎,為了進一步檢驗算法模型對不同技術生成的假臉圖像的檢測能力,本文使用ResNet50 在多種數(shù)據(jù)集上進行了訓練和模型測試。為了提升圖像的處理效率,還對ResNet50 進行了裁剪嘗試,使用了其中的部分殘差結(jié)構(gòu)。新模型在CPU 上的單幀處理時長為100ms左右。裁剪后的網(wǎng)絡結(jié)構(gòu)如表2 所示。

表2 裁剪后的殘差網(wǎng)絡

2.3 二分類交叉熵損失函數(shù)

進行假臉判別時,本文使用了二分類交叉熵損失函數(shù):

上式中,n為被預測的樣本的個數(shù);yi′為判別為fake 的置信度;yi為樣本的真實label,當被判別樣本為fake 時其值為1,否則為0。

3 實 驗

3.1 實驗設置

本文設計兩組試驗,一組為對不同backbone 網(wǎng)絡的支持試驗,測試本文所提出框架對前文4 種主流backbone 網(wǎng)絡的支持。第二組為對不同Deepfake技術適用性試驗,測試本文所提出框架面向不同DeepFake 技術生成的假臉數(shù)據(jù)時的檢測效果。

試驗過程中,模型訓練用的硬件環(huán)境主要配置為,Tesla PH402 雙內(nèi)核顯卡,32G 顯存、2*14 核/28 線程 Xeon E5-2680 CPU、192G 內(nèi)存。深度學習環(huán)境為TensorFlow1.13.1、cuda9.0、cudnn7.0.4。

3.2 實驗數(shù)據(jù)

(1)對不同backbone 網(wǎng)絡的支持試驗

作為算法模型對比的基線,本文選用了DFDC數(shù)據(jù)集,該數(shù)據(jù)集包含99 992 個偽造視頻,19154個非偽造視頻。在保證非偽造和偽造樣本均衡的前提下,通過人臉檢測,獲取到224x224 的人臉樣本,建立訓練集、驗證集和測試集,各數(shù)據(jù)集的樣本數(shù)量如表3 所示。

表3 數(shù)據(jù)集樣本數(shù)量

由于該數(shù)據(jù)集存在嚴重的樣本不均衡問題,因此在進行數(shù)據(jù)集劃分時,充分考慮了正、負樣本的數(shù)據(jù)配比,保證了最終人臉數(shù)據(jù)的比例均衡。

(2)對不同Deepfake 技術適用性試驗

使用FaceForensics++[13]的數(shù)據(jù)集,將視頻中的每幀圖像單獨提取,進行人臉檢測和對齊。將處理后的數(shù)據(jù)分為訓練集、驗證集、和測試集??紤]到樣本均衡,每種數(shù)據(jù)的數(shù)量分別如表4 所示。

3.3 實驗結(jié)果

(1)Backbone 對比實驗

實驗1,模型訓練初始學習速率為0.00001,使用Adam 損失優(yōu)化器,共完成20 個周期的迭代。經(jīng)過測試,在0.5 閾值下,4 種網(wǎng)絡模型在DFDC 數(shù)據(jù)集上的實驗測試結(jié)果如表5 所示。

表4 數(shù)據(jù)集樣本數(shù)量

表5 DFDC 數(shù)據(jù)集上試驗結(jié)果

由結(jié)果可知,本文提出的框架在4 種試驗設置下都獲得了較好的檢測準確度。同時,實驗結(jié)果充分體現(xiàn)了各網(wǎng)絡的特點,例如Inception 網(wǎng)絡的超參數(shù)設定的針對性比較強,當應用在新的數(shù)據(jù)集上時擴展性不好,因此Inception ResNet v2 的表現(xiàn)相對較弱;其它三種網(wǎng)絡可移植性較好,其效果也相對教好。

(2)對主流Deepfake 技術的檢測實驗

使用ResNet50 模型同樣訓練20 個epoch,在多種數(shù)據(jù)集上的測試精度如表6 所示。

表6 多種來源檢測結(jié)果

從結(jié)果可以看出,本文所述框架可以對不同開源的Deepfake 圖像進行假臉判別。

4 結(jié) 語

本文提出了一種基于特征點對齊的針對Deepfake 進行假臉檢測的檢測框架。實驗證明,該框架對不同網(wǎng)絡結(jié)構(gòu)有較好兼容性,同時對不同Deepfake 技術生成假臉的檢測有一定的通用性。

猜你喜歡
人臉框架樣本
框架
有特點的人臉
用樣本估計總體復習點撥
廣義框架的不相交性
三國漫——人臉解鎖
動漫星空(2018年9期)2018-10-26 01:17:14
推動醫(yī)改的“直銷樣本”
WTO框架下
法大研究生(2017年1期)2017-04-10 08:55:06
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
一種基于OpenStack的云應用開發(fā)框架
天峨县| 永登县| 周宁县| 珠海市| 丹棱县| 三穗县| 岳西县| 页游| 兴业县| 宝应县| 偏关县| 临城县| 青川县| 饶阳县| 平原县| 巩留县| 长治市| 社旗县| 瓮安县| 贵州省| 宜兰县| 寿阳县| 灵石县| 多伦县| 塘沽区| 嘉义县| 乌鲁木齐市| 嘉定区| 海阳市| 昌图县| 榆中县| 长海县| 金堂县| 广德县| 阿图什市| 临朐县| 安龙县| 乡宁县| 会昌县| 格尔木市| 海安县|