国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向圖像與視頻的AI篡改技術(shù)綜述

2022-10-11 02:09童世博
關(guān)鍵詞:圖像模型

孫 鵬 童世博

(1 中國刑事警察學(xué)院公安信息技術(shù)與情報(bào)學(xué)院 遼寧 沈陽 110035;2 遼寧網(wǎng)絡(luò)安全協(xié)同創(chuàng)新中心 遼寧 沈陽 110035;3 司法部司法鑒定重點(diǎn)實(shí)驗(yàn)室 上海 200063)

1 引言

近年來,由于計(jì)算機(jī)硬件算力的不斷進(jìn)步,基于深度學(xué)習(xí)的 AI技術(shù)得到了快速發(fā)展??梢詫?duì)圖像和視頻進(jìn)行編輯處理的AI篡改技術(shù)便是AI技術(shù)的一種重要衍生,并被廣泛應(yīng)用于影視拍攝、游戲制作和社交軟件等領(lǐng)域。此項(xiàng)技術(shù)的快速發(fā)展給我們的日常娛樂和生活帶來極大便利的同時(shí),也同樣威脅到我們的個(gè)人隱私和信息安全,給新聞媒體、金融服務(wù)及公安工作等領(lǐng)域帶來很多風(fēng)險(xiǎn)與挑戰(zhàn)。在公安工作中,案件的偵查需要對(duì)提取到的視聽資料進(jìn)行嚴(yán)格審查并判斷其是否具有法律證明力,而經(jīng)過AI篡改的圖像視頻因原始性、完整性、真實(shí)性在一定程度上發(fā)生改變,導(dǎo)致其法律證明力下降,甚至無法再作為證據(jù)使用。

AI篡改技術(shù)在編輯處理圖像和視頻時(shí)與傳統(tǒng)篡改技術(shù)不同,傳統(tǒng)篡改技術(shù)需要較強(qiáng)的技術(shù)與經(jīng)驗(yàn)支持,而AI篡改技術(shù)雖然本身技術(shù)性強(qiáng)、復(fù)雜難懂,但是具有黑盒特性,使得AI篡改技術(shù)與傳統(tǒng)篡改技術(shù)相比,對(duì)于使用者的技術(shù)要求較低且學(xué)習(xí)成本小,可以較輕松的制作出高質(zhì)量且不易分辨的虛假圖像和視頻。其中Deepfakes作為AI篡改技術(shù)之一,使用深度學(xué)習(xí)網(wǎng)絡(luò)基于數(shù)據(jù)集訓(xùn)練,對(duì)圖像和視頻中的目標(biāo)進(jìn)行重建、替換、編輯合成[1],從而完成對(duì)圖像視頻中目標(biāo)的篡改。AI篡改效果如圖1所示,其中a為原始圖像,b為經(jīng)過AI篡改后的圖像。

圖1 AI篡改效果圖

Deepfakes可以將源人物的面部篡改到目標(biāo)人物面部區(qū)域上[2],其名字來源于深度學(xué)習(xí)(Deep learning)和虛假(fake)兩個(gè)詞的組合。2017年一位名為“deepfakes”的用戶使用Deepfakes工具將影視明星與色情視頻演員的面部相互替換,基于此制作了一段虛假色情視頻并將其發(fā)布在Reddit網(wǎng)站上。隨后,該用戶將該工具的代碼在網(wǎng)絡(luò)中進(jìn)行開源,其他開發(fā)者基于開源代碼進(jìn)行不斷改進(jìn),降低使用該工具的學(xué)習(xí)成本,最終使得有一定相關(guān)知識(shí)基礎(chǔ)的人便可以熟練運(yùn)用Deepfakes工具。

文中第二部分對(duì)面向圖像視頻的AI篡改技術(shù)基本原理進(jìn)行介紹,第三部分對(duì)AI篡改技術(shù)所使用神經(jīng)網(wǎng)絡(luò)的分類及衡量指標(biāo)進(jìn)行介紹,第四部分對(duì)常用的AI篡改工具進(jìn)行介紹,第五部分對(duì)訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)的數(shù)據(jù)集分類及特點(diǎn)進(jìn)行介紹,第六部分和第七部分對(duì)AI篡改技術(shù)存在的問題、帶來的影響及應(yīng)對(duì)措施進(jìn)行討論,從而為AI篡改與檢測(cè)的相關(guān)工作提供參考并為未來的研究方向提供思路。

2 AI篡改實(shí)現(xiàn)基本原理

根據(jù)篡改媒體對(duì)象的不同,AI篡改可以分為對(duì)單幀圖像的篡改、對(duì)多幀視頻的篡改及對(duì)音頻的篡改。其中對(duì)圖像視頻的篡改,按照篡改內(nèi)容和方法上的不同具體可以分為5種:人物面部生成式篡改、人物面部替換式篡改、人物面部驅(qū)動(dòng)式篡改、對(duì)于物品的篡改、對(duì)于圖像視頻整體畫面風(fēng)格的篡改。其中人物面部生成式篡改是生成現(xiàn)實(shí)生活中不存在的人物面部;人物面部替換式篡改是使目標(biāo)圖像視頻與源圖像視頻中的人物面部相互替換,從而達(dá)到人物身份篡改的目的;人物面部驅(qū)動(dòng)式篡改是使目標(biāo)人物面部的表情或動(dòng)作去驅(qū)動(dòng)源人物面部的表情動(dòng)作,從而達(dá)到改變?cè)慈宋锩娌勘砬榛騽?dòng)作的目的;對(duì)于物品的篡改是刪除或增加圖像視頻中人物攜帶的物品或衣物等;對(duì)于圖像視頻的整體畫面風(fēng)格的篡改是改變畫面的表現(xiàn)風(fēng)格,如將普通的風(fēng)景圖像改變?yōu)橛彤?、水彩畫風(fēng)格,或改變風(fēng)景所處的季節(jié)等。

AI篡改技術(shù)最初使用自動(dòng)編碼器-解碼器模型。此模型在訓(xùn)練階段使兩個(gè)自動(dòng)編碼器共享參數(shù)形成一個(gè)通用的編碼器并分別對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行編碼,使得通用編碼器獲得兩個(gè)數(shù)據(jù)集中人物面部的特征[3]。在測(cè)試和解碼階段交換解碼器對(duì)兩人物的面部特征進(jìn)行解碼從而完成對(duì)人物面部的篡改。例如使解碼器B對(duì)通用編碼器編碼的面部A特征進(jìn)行解碼,即可完成對(duì)于人物A的面部篡改。其篡改流程圖如圖2所示。

圖2 AI篡改流程圖

編碼器-解碼器模型最初被應(yīng)用于解決seq2seq問題,如機(jī)器翻譯、問題匹配系統(tǒng)、智能對(duì)話系統(tǒng)等。Bahdanau D等人[4]發(fā)現(xiàn)該模型在處理問題時(shí)存在一定的局限性,即編碼器在進(jìn)行語義特征提取時(shí)會(huì)將所提取到的信息壓縮到一個(gè)固定長度的向量中,而隨著提取到的信息越多會(huì)對(duì)已提取到的信息進(jìn)行覆蓋。這會(huì)使編碼器提取到信息因壓縮或被覆蓋而不完整,從而丟失有效信息,最終導(dǎo)致解碼器對(duì)編碼信息進(jìn)行解碼時(shí)的效果不理想,編碼器-解碼器模型在處理面對(duì)圖像和視頻的AI篡改問題時(shí)所遇到的相類似問題。為解決類似問題,并不斷改進(jìn)AI篡改效果,加強(qiáng)篡改的逼真程度,由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)混合而成的AI篡改模型相繼出現(xiàn)。

3 實(shí)現(xiàn)AI篡改的神經(jīng)網(wǎng)絡(luò)

3.1 卷積神經(jīng)網(wǎng)絡(luò)

CNN是常用的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)之一,常被應(yīng)用于目標(biāo)檢測(cè)、圖像分類、圖像分割[5]、圖像重建[6]等任務(wù)中。一般由一個(gè)或多個(gè)卷積層、池化層、全連接層交替排列組成。卷積層包含多個(gè)卷積核,卷積核中的神經(jīng)元與前一層中的神經(jīng)元相連接,在前一層的特征圖上滑動(dòng)進(jìn)行卷積運(yùn)算,提取輸入數(shù)據(jù)的特征。池化層的應(yīng)用可以去除網(wǎng)絡(luò)模型中的冗余信息,降低網(wǎng)絡(luò)的復(fù)雜程度,有效減少參數(shù)量,從而提高計(jì)算速度同時(shí)防止過擬合的情況出現(xiàn)。上述可以通過多種池化操作實(shí)現(xiàn),例如最大值池化、均值池化、隨機(jī)池化、重疊池化、中值池化,組合池化、空金字塔池化等。其中最大值池化操作可以更好的保留圖像的紋理信息,均值池化操作可以更好的保留圖像的背景信息,而隨機(jī)池化操作會(huì)使不同的隨機(jī)設(shè)置得到不同的池化結(jié)果,無法人為預(yù)估池化對(duì)于圖像的影響。在卷積層和池化層后會(huì)有一個(gè)或多個(gè)全連接層,全連接層的神經(jīng)元與前一層的所有神經(jīng)元進(jìn)行全連接[7],對(duì)到達(dá)全連接層的特征信息進(jìn)行分類整合。

3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

RNN的內(nèi)部之間存在自連接,一般由輸入層、隱藏層和輸出層組成[8]。RNN經(jīng)常被應(yīng)用于語言建模、機(jī)器翻譯、語音識(shí)別[9]和篡改視頻檢測(cè)[10]等領(lǐng)域當(dāng)中。其與CNN相比CNN的信息輸入與輸出之間是相互獨(dú)立的,是根據(jù)輸入信息和大量數(shù)據(jù)集訓(xùn)練來進(jìn)行信息的輸出,而RNN是非獨(dú)立的,每一個(gè)輸出信息都受到輸入及前一個(gè)輸出信息的影響。

3.3 生成式對(duì)抗網(wǎng)絡(luò)

GAN是無監(jiān)督式的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),在圖像生成、圖像修復(fù)[11]、提高圖像分辨率[12]及圖像風(fēng)格遷移等領(lǐng)域中都有較為廣泛的應(yīng)用。GAN最初于2014年由Goodfellow J等人提出[13],其特點(diǎn)在于使用兩種模型,分別為生成模型和鑒別模型通過對(duì)抗機(jī)制進(jìn)行迭代和訓(xùn)練,從而擺脫人工監(jiān)督。近年來因其具有對(duì)抗式的網(wǎng)絡(luò)結(jié)構(gòu)而流行于AI篡改領(lǐng)域中。GAN的對(duì)抗式網(wǎng)絡(luò)框架由鑒別模型和生成模型兩部分組成,首先對(duì)原始圖像和隨機(jī)噪聲進(jìn)行采樣,并將采樣數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)輸入鑒別模型中進(jìn)行訓(xùn)練。而生成模型通過隨機(jī)噪聲生成圖像樣本,由鑒別模型對(duì)生成的圖像樣本是否來自于訓(xùn)練數(shù)據(jù)進(jìn)行評(píng)估,并根據(jù)評(píng)估的可能性給出分?jǐn)?shù)反饋于生成模型。生成模型再結(jié)合反饋數(shù)據(jù)與隨機(jī)噪聲,重新生成圖像樣本由鑒別模型評(píng)估,鑒別模型通過再次進(jìn)行分?jǐn)?shù)評(píng)估并反饋給生成模型。二者所組成的對(duì)抗式網(wǎng)絡(luò)通過不斷對(duì)抗與迭代,并最終達(dá)到收斂,使最終生成模型所生成的圖像可以達(dá)到以假亂真的效果,從而達(dá)到AI篡改的目的。GAN流程圖如圖3所示。

圖3 GAN與C-GAN流程圖

3.3.1 生成式對(duì)抗網(wǎng)絡(luò)衡量指標(biāo)

在GAN的訓(xùn)練過程中,需要對(duì)其表達(dá)能力進(jìn)行衡量,從而更好的改進(jìn)和優(yōu)化GAN模型。不同的GAN模型具有不同的特性,同時(shí)衡量其表達(dá)能力也具有很強(qiáng)的主觀性,所以采用不同的衡量指標(biāo)可能得出不同的結(jié)果。因此,需要根據(jù)不同的衡量目的,采用適當(dāng)?shù)暮饬恐笜?biāo)對(duì)GAN模型的表達(dá)能力進(jìn)行衡量。

(1)圖像質(zhì)量與類別衡量指標(biāo)(InceptionScore, IS)。IS利用Inception網(wǎng)絡(luò)將GAN生成圖像的清晰程度與生成圖像類別的多樣化程度作為兩個(gè)評(píng)價(jià)指標(biāo),并以此來比較不同GAN模型的表達(dá)能力[14]2232。在評(píng)價(jià)生成圖像的清晰程度指標(biāo)時(shí),IS通過計(jì)算圖像的熵值來衡量圖像的清晰程度。首先將每一幅生成圖像輸入于Inception Net-V3分類網(wǎng)絡(luò)中,分類網(wǎng)絡(luò)會(huì)對(duì)每一個(gè)輸入的圖像相應(yīng)的輸出一個(gè)1000維的向量標(biāo)簽,向量標(biāo)簽每個(gè)維度對(duì)應(yīng)的值代表此圖像屬于某一類圖像的概率。如果一幅清晰的圖像屬于某一類圖像的概率很大,則屬于其他類圖像的概率很小,那么此圖片的熵值越小,相反則熵值越大。在評(píng)價(jià)生成圖像類別的多樣性程度指標(biāo)時(shí),IS通過計(jì)算圖像類別的熵值來衡量生成圖像的多樣性程度。如果生成模型生成圖像的多樣性程度足夠高,那么所生成的圖像在所有圖像類別中應(yīng)趨近均勻分布。圖像在所有圖像類別中越趨近于均勻分布,則圖像類別的熵值越大,生成圖像類別的多樣化程度也越高,反之則熵值越小,多樣化程度也越低。在對(duì)表達(dá)能力較強(qiáng)的生成模型評(píng)估IS分?jǐn)?shù)時(shí),IS分?jǐn)?shù)較高。其局限在于在評(píng)估的過程中不能判斷出是否出現(xiàn)了過擬合問題,泛化性能差,并且評(píng)估的分?jǐn)?shù)對(duì)于選取的訓(xùn)練數(shù)據(jù)集圖像過于敏感,受其影響較大,不適合在圖像差異較大的訓(xùn)練數(shù)據(jù)集中使用。其定義如公式(1)[14]2229所示:

(2)圖像類別分布概率衡量指標(biāo)(Mode Score,MS)。MS是 IS經(jīng)過改進(jìn)后的衡量指標(biāo)[15]6,除了將生成圖像的清晰程度與生成圖像類別的多樣化程度作為衡量指標(biāo)外,還將生成圖像類別的概率分布與訓(xùn)練數(shù)據(jù)集圖像類別的概率分布納入衡量范圍內(nèi),并以此來衡量GAN模型的表達(dá)能力。如果對(duì)表達(dá)能力較強(qiáng)的GAN模型進(jìn)行MS分?jǐn)?shù)評(píng)估,則MS的評(píng)估分?jǐn)?shù)較高。生成圖像類別較高即趨近于均勻分布的同時(shí)生成圖像類別也要與訓(xùn)練數(shù)據(jù)集圖像類別的概率分布足夠接近。其定義如公式(2)[15]5所示:

(3)弗雷歇距離衡量指標(biāo)(Fréchet Inception Distance,F(xiàn)ID)。FID通過計(jì)算生成圖像與訓(xùn)練數(shù)據(jù)集圖像之間在特征層面的距離,并以此距離作為指標(biāo)來衡量GAN模型的表達(dá)能力。首先分別將生成圖像與訓(xùn)練數(shù)據(jù)集圖像輸入InceptionV3分類網(wǎng)絡(luò)中,分類網(wǎng)絡(luò)會(huì)相應(yīng)的輸出2048維的向量,并分別對(duì)其估計(jì)高斯分布的均值和,并通過和分別得到協(xié)方差和,最后根據(jù)得出的數(shù)據(jù)計(jì)算Fréchet distance(弗雷歇距離)即FID的值[16]450-451。FID在衡量GAN表達(dá)能力時(shí)對(duì)于圖像中的噪聲有較強(qiáng)的抗干擾性,判斷相較于IS評(píng)價(jià)指標(biāo)來說較為準(zhǔn)確。在對(duì)表達(dá)能力較強(qiáng)的GAN模型評(píng)估FID分?jǐn)?shù)時(shí),F(xiàn)ID分?jǐn)?shù)較低。其定義如公式(3)[16]451:

(4)最近鄰域分類衡量指標(biāo)(1-Nearest Neighbor Classifier,1-NN)。1-NN分類器通過比較訓(xùn)練數(shù)據(jù)集圖像分布與生成圖像分布,并計(jì)算1-NN分類器的LOO(leave-one-out)準(zhǔn)確率,并以此作為指標(biāo)衡量GAN模型的表達(dá)能力。如公式(4)所示,從訓(xùn)練數(shù)據(jù)集中采樣得到,并將其標(biāo)記為正樣本,從生成圖像中采集得到,并將其標(biāo)記為負(fù)樣本。并將1-NN分類器在兩個(gè)樣本圖像數(shù)據(jù)集與進(jìn)行訓(xùn)練。在對(duì)表達(dá)能力較強(qiáng)的GAN模型評(píng)估1-NN分?jǐn)?shù)時(shí),||=||且LOO準(zhǔn)確率約為50%。特點(diǎn)在于,該方法可以檢測(cè)出GAN模型的過擬合問題,當(dāng)LOO準(zhǔn)確率低于50%時(shí),則說明模型存在過擬合問題。

(5)推土機(jī)距離衡量指標(biāo)(Wasserstein Distance,WD)。WD通過引入兩個(gè)概率分布之間距離的量,從而可以比較生成圖像分布與訓(xùn)練數(shù)據(jù)集圖像分布之間的相似程度,并以此作為指標(biāo)衡量GAN模型的表達(dá)能力。WD又稱earth-mover距離或推土機(jī)距離,與KL散度相比WD可以衡量任意兩個(gè)概率分布之間的距離,從而判斷兩概率分布之間的相似程度[17]216。在對(duì)表達(dá)能力較強(qiáng)的GAN模型評(píng)估WD分?jǐn)?shù)時(shí),其分?jǐn)?shù)較低。

(6)Kernel Maximum Mean Discrepancy(KMMD)。KMMD是在Reproducing Kernel Hilbert Space (希爾伯特空間)內(nèi),通過選擇一個(gè)核函數(shù),通過核函數(shù)將生成圖像與訓(xùn)練數(shù)據(jù)圖像映射到希爾伯特空間[18]514,以較小的計(jì)算代價(jià)比較圖像間分布差異,并以此作為指標(biāo)衡量GAN模型的表達(dá)能力。在對(duì)表達(dá)能力較強(qiáng)的GAN模型評(píng)估KMMD分?jǐn)?shù)時(shí),其分?jǐn)?shù)較低。其定義如公式(5)[18]516:

3.3.2 生成式對(duì)抗網(wǎng)絡(luò)的分類

GAN同樣存在一些局限性,例如由于生成模型和鑒別模型對(duì)抗訓(xùn)練所使用的無監(jiān)督模式和初始隨機(jī)噪聲的不可控制性,容易導(dǎo)致訓(xùn)練過程困難、鑒別模型鑒別能力過強(qiáng)等問題?;诖耍珿AN衍生出了許多分支和模型,以應(yīng)對(duì)上述類似各種問題。針對(duì)于圖像和視頻的AI篡改GAN模型有以下幾種:

(1)Condition-GAN(C-GAN)。為了使GAN生成的圖像可控制,C-GAN在給生成模型輸入隨機(jī)噪聲的同時(shí),添加輔助信息,給數(shù)據(jù)集打標(biāo)簽或是添加其他人為干預(yù)等操作。同時(shí)輔助信息也會(huì)被輸入鑒別模型中進(jìn)行輔助訓(xùn)練使鑒別模型做出更精準(zhǔn)的判斷。C-GAN流程圖如3虛線部分所示。

(2)pix2pix與pix2pixHD。pix2pix是基于C-GAN實(shí)現(xiàn)圖像到圖像的篡改網(wǎng)絡(luò)。pix2pix網(wǎng)絡(luò)可以將一幅輸入圖像作為輔助信息輸入進(jìn)生成模型中進(jìn)行約束[19],從而使生成模型生成的圖像可控制。生成模型基于輸入圖像與隨機(jī)噪聲生成輸出圖像,即圖像到圖像的篡改。為使鑒別模型能夠?qū)斎雸D像和輸出圖像之間的關(guān)聯(lián)性與差異性進(jìn)行鑒別,在鑒別階段需要同時(shí)提供成對(duì)的輸入圖像與輸出圖像。最終生成模型和鑒別模型基于輸入圖像與輸出圖像進(jìn)行對(duì)抗和迭代。

pix2pixHD采用多尺度的生成與鑒別模型并采用不同的損失函數(shù)[20],從而提高pix2pix生成圖像的分辨率,優(yōu)化圖像的質(zhì)量,同時(shí)支持了用戶交互,進(jìn)一步提高了pix2pix網(wǎng)絡(luò)對(duì)于生成圖像的可控制性。

(3)CycleGAN。CycleGAN與pix2pix相似,但CycleGAN可以實(shí)現(xiàn)不成對(duì)的圖像到圖像的篡改,該方法通過對(duì)抗損失函數(shù)(adversarial loss)得到輸入圖像與原始圖像之間的映射,并與其逆映射相結(jié)合,同時(shí)引入一個(gè)循環(huán)一致性損失函數(shù) (cycle consistency loss)[21],最終實(shí)現(xiàn)不成對(duì)圖像到圖像的篡改。

(4) StarGAN。StarGAN模型將圖像中的人物特征定義為不同屬性,例如頭發(fā)顏色、性別或年齡等,各屬性具有不同的屬性值,例如黑色、黃色、棕色為頭發(fā)顏色屬性的屬性值,男性和女性為性別屬性的屬性值。在模型的訓(xùn)練與篡改中將共享相同屬性值的一組圖像稱之為同一領(lǐng)域的圖像。該模型借鑒CycleGAN的構(gòu)造[22],其生成模型使用了2個(gè)卷積層,6個(gè)殘差層和2個(gè)反卷積層,在生成圖像時(shí)需要向生成模型中輸入目標(biāo)領(lǐng)域的信息,使鑒別模型在鑒別圖像是否真實(shí)的同時(shí),還需鑒別該圖像的內(nèi)容屬于何種領(lǐng)域。保證生成模型在生成圖像時(shí),隨著圖像的目標(biāo)類型不同而映射到不同的圖像領(lǐng)域。pix2pix模型實(shí)現(xiàn)了成對(duì)圖像到圖像的篡改,CycleGAN實(shí)現(xiàn)了不成對(duì)圖像到圖像的篡改。此類模型都僅適用于同一領(lǐng)域的圖像篡改,模型的泛化性較差。當(dāng)此類模型對(duì)不同領(lǐng)域圖像進(jìn)行篡改時(shí),則需要訓(xùn)練多個(gè)生成模型。StarGAN則可以對(duì)多類型圖像進(jìn)行篡改,使用統(tǒng)一的框架加以實(shí)現(xiàn),進(jìn)一步提高對(duì)于圖像的篡改效率。

(5) StyleGAN和StyleGAN2。StyleGAN可以對(duì)圖像中人物面部的細(xì)節(jié)信息進(jìn)行收集和提取,例如面部表情、膚色、皺紋、發(fā)型、面部朝向等信息。StyleGAN在處理圖像中的人物面部信息時(shí),可以分成兩個(gè)網(wǎng)絡(luò),映射網(wǎng)絡(luò)和合成網(wǎng)絡(luò)。映射網(wǎng)絡(luò)將輸入的隱藏變量轉(zhuǎn)換成中間隱藏變量。合成網(wǎng)絡(luò)將中間隱藏變量進(jìn)行仿射變換,并將這種仿射變換和隨機(jī)噪聲輸入進(jìn)合成網(wǎng)絡(luò)的所有子網(wǎng)絡(luò)中,從而實(shí)現(xiàn)對(duì)生成圖像中面部細(xì)節(jié)信息的控制[23]。StyleGAN2是StyleGAN的改進(jìn)版本,通過重新設(shè)計(jì)并訓(xùn)練StyleGAN模型,修復(fù)了StyleGAN在生成圖像時(shí)產(chǎn)生的偽影現(xiàn)象[24]。

(6)Wasserstein GAN。在GAN的訓(xùn)練中,為使生成模型與鑒別模型進(jìn)行對(duì)抗與迭代并最終達(dá)到收斂,二者的生成能力與鑒別能力不可以相差過大,鑒別能力過強(qiáng)或過弱都會(huì)導(dǎo)致生成模型的訓(xùn)練進(jìn)度緩慢[25]。為解決此類問題,Arjovsky M等人將Earth-Mover距離應(yīng)用到GAN中[17]218,對(duì)GAN算法進(jìn)行優(yōu)化,使得在使用Wasserstein GAN時(shí)能更好的平衡兩個(gè)模型的生成能力與鑒別能力,有效的提高訓(xùn)練速度。

(7)ProGAN。ProGAN模型可以提高生成圖像的質(zhì)量并且解決生成模型和鑒別模型由于不良競爭機(jī)制所導(dǎo)致的網(wǎng)絡(luò)層中參數(shù)過大的問題。Karras T等人從生成和鑒別低分辨率圖像入手[26]2,例如由生成模型生成4×4的圖像,再由相應(yīng)層數(shù)的鑒別模型進(jìn)行鑒別,而后對(duì)生成模型添加一層網(wǎng)絡(luò)層基于4×4的圖像生成8×8的圖像,并以此類推循序漸進(jìn)的訓(xùn)練生成模型與鑒別模型,其訓(xùn)練流程如圖4所示。該模型通過逐步增加新的網(wǎng)絡(luò)層來優(yōu)化圖像的細(xì)節(jié)信息,使該模型生成的高質(zhì)量圖像更加穩(wěn)定和迅速。同時(shí),Karras T等人在每一個(gè)卷積層后將像素的特征向量歸一化為生成模型的單位長度,以避免生成模型和鑒別模型之間差異過大的問題。

圖4 ProGAN訓(xùn)練流程圖[26]3

(8)BigGAN。在BigGAN模型中,Brock A等人采用IS(Inception Score)指標(biāo)來衡量此模型的表現(xiàn)能力,IS指標(biāo)有兩種評(píng)判標(biāo)準(zhǔn)分別個(gè)體樣本層面的生成圖像質(zhì)量和生成圖像的多樣程度。通過使用多種手段提高模型的表現(xiàn)能力,在圖像質(zhì)量和圖像多樣程度之間選擇恰當(dāng)?shù)恼壑悬c(diǎn),從而達(dá)到較高的IS分?jǐn)?shù)。該模型將batch size提高為原來的8倍,增加網(wǎng)絡(luò)的通道數(shù),從而大幅度提高模型的表現(xiàn)能力,使IS分?jǐn)?shù)分別提升了46%和21%[27]。但是加大batch size會(huì)降低模型的穩(wěn)定性,導(dǎo)致模型生成圖像的多樣性降低,即模型崩塌。在GAN中隨機(jī)噪聲僅僅輸入生成模型的第一層中,而在BigGAN中使用了多層級(jí)潛在空間,將隨機(jī)噪聲輸入進(jìn)生成模型的多個(gè)層,并使用層共享嵌入的方法減少計(jì)算量和內(nèi)存占用,使得該模型的訓(xùn)練速度和模型表現(xiàn)都有所提升。同時(shí)該模型使用一種“截?cái)嗉记伞?,使采樣點(diǎn)在一個(gè)閾值范圍以內(nèi),以降低生成圖像多樣性為代價(jià),提升圖像的質(zhì)量,這種截?cái)嗉记删褪窃谏蓤D像的多樣性和質(zhì)量之間找到恰當(dāng)?shù)恼壑悬c(diǎn),從而提高IS分?jǐn)?shù)。

(9)GauGAN。GauGAN模型可以通過一幅語義圖生成一幅與該語義圖相對(duì)應(yīng)的圖像[28]。GauGAN模型在訓(xùn)練階段使用編碼器從輸入圖像中獲取與圖像分布有關(guān)的均值、方差和高斯分布,再將其三者產(chǎn)生的向量進(jìn)行反歸一化操作,得到包含輸入圖像信息的隨機(jī)向量。再將產(chǎn)生的隨機(jī)向量輸入進(jìn)生成模型中,并在生成圖像的過程中使用輸入圖像的語義圖增強(qiáng)語義信息。最后生成模型與鑒別模型進(jìn)行對(duì)抗、迭代、收斂。GauGAN模型的特點(diǎn)在于生成模型使用SPADE模塊,能夠有效地彌補(bǔ)語義信息的丟失,使得生成的圖像更加逼真。

4 實(shí)現(xiàn)AI篡改的常用工具

4.1 Faceswap和Faceswap-GAN

Faceswap和Faceswap-GAN篡改工具目前在GitHub網(wǎng)站上開源,其中Faceswap篡改工具是基于自動(dòng)編碼器-解碼器網(wǎng)絡(luò)制作而成。使用兩組編碼器-解碼器,并使兩個(gè)編碼器共享參數(shù)。Faceswap-GAN篡改工具應(yīng)用不同的損失函數(shù)和預(yù)測(cè)注意力掩膜以提高模型的表現(xiàn)能力。其中對(duì)抗損失函數(shù)可以提高圖像解碼和重建階段的圖像質(zhì)量。感知損失函數(shù)可以在訓(xùn)練階段優(yōu)化人物眼部細(xì)節(jié),使目標(biāo)人物眼睛的轉(zhuǎn)動(dòng)與源人物眼睛轉(zhuǎn)動(dòng)更吻合,達(dá)到目標(biāo)人物面部更加逼真的效果。預(yù)測(cè)注意力掩膜可以輔助消除因面部遮擋和偽影所帶來的影響,并使篡改后的目標(biāo)人物膚色更加自然。

4.2 Deepfacelab

Deepfacelab是GitHub網(wǎng)站上關(guān)于AI篡改的一類開源工具,其工作過程可以分為提取、訓(xùn)練和轉(zhuǎn)換。在提取部分首先對(duì)圖像中人物面部進(jìn)行定位,對(duì)面部定位的關(guān)鍵點(diǎn)進(jìn)行檢測(cè)和對(duì)齊,最后形成一個(gè)掩膜進(jìn)行圖像中面部的分割。在訓(xùn)練部分該工具使用了較新穎的LIAE結(jié)構(gòu)網(wǎng)絡(luò),在LIAE網(wǎng)絡(luò)中解碼器可以更好的解碼圖像。在轉(zhuǎn)換部分將解碼器重新生成的面部與提取部分的掩膜進(jìn)行對(duì)齊和融合。最后將篡改后的圖像進(jìn)行適當(dāng)?shù)匿J化,以優(yōu)化圖像質(zhì)量。

4.3 Transformable Bottleneck Networks(TBNs)

TBNs是是GitHub網(wǎng)站上關(guān)于AI篡改的一類開源工具,該篡改工具基于CNN[29]制作,其架構(gòu)包含2D-3D編碼器,重采樣層和3D-2D解碼器網(wǎng)絡(luò)。該網(wǎng)絡(luò)可以通過CNN對(duì)一幅或多幅圖像中的3D內(nèi)容進(jìn)行編碼,將其轉(zhuǎn)換為包含坐標(biāo)信息的圖像并進(jìn)行聚合,最后進(jìn)行解碼從而完成對(duì)3D模型可控制的3D精細(xì)化操作和3D模型重建。該網(wǎng)絡(luò)不同于原有3D轉(zhuǎn)換的網(wǎng)絡(luò),原有的3D轉(zhuǎn)換網(wǎng)絡(luò)需要人為將空間轉(zhuǎn)換的向量參數(shù)輸入與網(wǎng)絡(luò)中,并利用解碼器執(zhí)行,而該網(wǎng)絡(luò)則直接將圖像中的3D變換應(yīng)用于網(wǎng)絡(luò)中,使該網(wǎng)絡(luò)能夠?qū)W習(xí)原圖像和目標(biāo)圖像之間的3D變換,從而推斷出圖像中3D內(nèi)容的空間結(jié)構(gòu),完成可控制的3D精細(xì)化操作。同時(shí),該網(wǎng)絡(luò)可以對(duì)具有多個(gè)視角的圖像數(shù)據(jù)集訓(xùn)練,推斷出圖像內(nèi)容的空間結(jié)構(gòu),從而實(shí)現(xiàn)更加靈活的NVS(novel view synthesis),即不同視角下的圖像合成或變換。

4.4 Few-shot face translation

Few-shot face translation是一類基于GAN制作而成的AI篡改工具,其特點(diǎn)在于該工具使用了預(yù)訓(xùn)練模型,并且包含了SPADE和ADaIN[30]模塊。該工具可以根據(jù)所提供源面部的注視方向、佩戴飾物,生成與其一致的人物面部圖像,但該工具在篡改具有亞洲面部特征的圖像時(shí)效果欠佳。

4.5 StyleRig

StyleRig是基于StyleGAN制作而成的AI篡改工具。StyleGAN可以生成許多逼真的篡改圖像,但卻無法很好的處理圖像中3D語義信息,如場(chǎng)景的光照信息、面部表情信息、姿態(tài)信息等[31]。而3DMM(3D Morphable Models)可以控制3D語義信息,但是其渲染的人物面部3D建模缺乏細(xì)節(jié)信息,例如嘴巴內(nèi)部、背景等,導(dǎo)致整體效果不真實(shí)[32]。StyleRig將3DMM與GAN結(jié)合起來,先使用StyleGAN生成逼真的人物面部圖像,再使用3DMM對(duì)圖像的3D語義參數(shù)進(jìn)行控制,二者形成互補(bǔ)解決了StyleGAN處理3D信息困難的問題。

4.6 Auto-painter

Auto-painter是一個(gè)基于Condition-GAN所制作的AI篡改工具[33]。該工具通過數(shù)據(jù)集訓(xùn)練后,可以對(duì)黑白卡通圖像進(jìn)行著色操作。即該工具可以根據(jù)一幅黑白草圖,輸出一幅相同分辨率的彩色圖像。Auto-painter在訓(xùn)練生成模型時(shí)使用了多種損失函數(shù),例如使用total variance loss通過像素點(diǎn)與鄰域像素點(diǎn)灰度值之差的平方來衡量圖像的平滑性;使用特征損失函數(shù)(Feature loss)或是感知特征函數(shù)(Perceptual Losses),通過獲取輸出特征圖,來提取比較圖像中的特征或差異;使用Pixel Loss來計(jì)算和預(yù)測(cè)目標(biāo)圖像的像素間損失。

4.7 FaceShifter

FaceShifter由兩部分結(jié)構(gòu)組成[34],第一部分通過AEINet(Adaptive Embedding Integration Network)提取原圖像中人物面部身份特征和面部表情等屬性特征,并利用AAD(Adaptive Attentional Denormalization Generator)將提取到的身份特征與屬性特征進(jìn)行融合,從而實(shí)現(xiàn)原圖像中人物與目標(biāo)圖像中人物面部的高精度替換。第二部分主要解決了圖像中人物面部的遮擋問題,通過原圖像與目標(biāo)圖像的差值區(qū)別作為線索,對(duì)人物面部遮擋進(jìn)行感知,并利HEARNet(Heuristic Error Acknowledging Refinement Network)豐富生成圖像的細(xì)節(jié),該方法在可以對(duì)圖像中由于人物面部遮擋所產(chǎn)生的異?,F(xiàn)象進(jìn)行修復(fù)。

5 數(shù)據(jù)集

由于AI篡改根據(jù)篡改的對(duì)象和方法可以分為5種,針對(duì)于5種AI篡改種類所使用的算法模型,其訓(xùn)練所需的數(shù)據(jù)集可能各不相同。各數(shù)據(jù)集所包含的數(shù)據(jù)量、數(shù)據(jù)類型、獲取方式等特點(diǎn)也都有所不同。

5.1 Flickr-Faces-HQ

FFHQ數(shù)據(jù)集是一個(gè)高質(zhì)量的人物面部圖像數(shù)據(jù)集,該數(shù)據(jù)集中包含的人物面部圖像多樣化程度高,曾被應(yīng)用于StyleGAN模型的訓(xùn)練中,由英偉達(dá)公司開發(fā)并于2019年開源。其中包含了70000張分辨率為1024×1024的PNG格式面部圖像[35]。

5.2 UADFV

UADFV[36]數(shù)據(jù)集建立的時(shí)間較早,包含49個(gè)來自YouTube的真實(shí)視頻,使用Fakeapp將視頻中的人物面部與著名演員尼古拉斯凱奇的面部進(jìn)行替換,形成49個(gè)AI篡改視頻。每個(gè)視頻時(shí)長大約11秒,所有視頻共32752幀。

5.3 Deepfake-TIMIT

Deepfake-TIMIT數(shù)據(jù)集共有640個(gè)經(jīng)過AI篡改的視頻,其中有320個(gè)低質(zhì)量視頻和320個(gè)高質(zhì)量視頻。該數(shù)據(jù)集是由Korshunov P等人開發(fā),研究人員使用VidTIMIT數(shù)據(jù)集并基于其中的16個(gè)對(duì)象,對(duì)每個(gè)對(duì)象10個(gè)視頻共160個(gè)視頻分別使用兩種不同的GAN模型對(duì)其進(jìn)行AI篡改,并保留了低質(zhì)量圖像和高質(zhì)量圖像兩種。其中低質(zhì)量圖像分辨率為64×64,高質(zhì)量圖像分辨率為128×128。

5.4 FaceForensics

FaceForensics數(shù)據(jù)集由Rossler A等人開發(fā),數(shù)據(jù)來自于YouTube網(wǎng)站,其中包含了兩個(gè)小數(shù)據(jù)集,每個(gè)小數(shù)據(jù)集包含1004個(gè)視頻。其中第一個(gè)數(shù)據(jù)集使用Face2Face方法在兩個(gè)隨機(jī)選中的視頻進(jìn)行人物面部驅(qū)動(dòng)式篡改。第二個(gè)數(shù)據(jù)集則進(jìn)行人物面部生成式篡改。每個(gè)小數(shù)據(jù)集都使用了704個(gè)視頻進(jìn)行訓(xùn)練,150個(gè)視頻進(jìn)行驗(yàn)證,150個(gè)視頻進(jìn)行測(cè)試。

5.5 FaceForensics++

FaceForensics++作為FaceForensics的改進(jìn)版本數(shù)據(jù)集,是當(dāng)前最流行的數(shù)據(jù)集之一,F(xiàn)aceForensics++以509914張圖片和1000個(gè)真實(shí)視頻作為原始數(shù)據(jù),并分別使用Face2Face、FaceSwap、Deepfake、NeuralTextures對(duì)數(shù)據(jù)集進(jìn)行AI篡改[37]。在視頻輸出時(shí)為了模擬社交網(wǎng)絡(luò)對(duì)視頻進(jìn)行的處理,輸出視頻使用H.264進(jìn)行視頻編碼,并分別壓縮成高質(zhì)量視頻和低質(zhì)量視頻。其中高質(zhì)量視頻的量化參數(shù)為23,低質(zhì)量視頻量化參數(shù)為40。

5.6 CelebA

CelebA(CelebFaces Attribute)是人物面部屬性數(shù)據(jù)集的縮寫,由香港中文大學(xué)開發(fā),并于2016年開源。該數(shù)據(jù)集包含10177名人物的202599張人物面部圖像,分為118165張女性面部圖像和138704張男性面部圖像,且每張圖像都具有特征標(biāo)識(shí)(人物面部標(biāo)注框、人物面部特征點(diǎn)坐標(biāo)、人物面部屬性標(biāo)識(shí))。

5.7 Celeb-DF V1

Celeb-DF V1數(shù)據(jù)集由Li Y等人開發(fā),該數(shù)據(jù)集擁有高質(zhì)量的篡改視頻,以便更好的評(píng)估AI篡改的檢測(cè)方法,并支持AI篡改檢測(cè)方法的開發(fā)。該數(shù)據(jù)集包含了408個(gè)收集于YouTube網(wǎng)站的真實(shí)視頻和795個(gè)使用deepfake進(jìn)行AI篡改的視頻。每個(gè)視頻有13秒的時(shí)常和30幀率。

5.8 Celeb-DF V2

Celeb-DF V2數(shù)據(jù)集是V1數(shù)據(jù)集的改進(jìn)版本,V2數(shù)據(jù)集在視頻數(shù)量上有了大幅度增加,其中包含收集與YouTube網(wǎng)站的真實(shí)視頻590個(gè),以及5639個(gè)經(jīng)過篡改的虛假視頻[38]。

5.9 DFDC

DFDC數(shù)據(jù)集是由一線互聯(lián)網(wǎng)公司與研究機(jī)構(gòu)為舉辦DeepFake Detection Chanllenge(DFDC)假臉識(shí)別挑戰(zhàn)賽而開發(fā),其中包含3426名對(duì)象,48190個(gè)原始真實(shí)視頻。該數(shù)據(jù)集與其他數(shù)據(jù)集不同的地方在于其他數(shù)據(jù)集的視頻收集多來自于網(wǎng)絡(luò),而該數(shù)據(jù)集是由攝像機(jī)實(shí)際拍攝而成。該訓(xùn)練集使用多種主流的AI篡改方法對(duì)于原始真實(shí)視頻進(jìn)行篡改,最后生成119154個(gè)時(shí)長為10秒的視頻用于訓(xùn)練,4000個(gè)時(shí)長為10秒的視頻用于驗(yàn)證,10000個(gè)時(shí)長為10秒的視頻用于測(cè)試。該數(shù)據(jù)集真假樣本的比例大約為1:5,并且5%~10%的視頻會(huì)同時(shí)出現(xiàn)兩個(gè)人物,參與拍攝制作該數(shù)據(jù)集的演員性別、種族、年齡都接近均勻分布。

5.10 CIFAR-10

CIFAR-10是一個(gè)小型數(shù)據(jù)集,該數(shù)據(jù)集分為10個(gè)類別,每個(gè)類別中包含6000張圖像共計(jì)60000張圖片,訓(xùn)練集分為5個(gè)訓(xùn)練組和1個(gè)測(cè)試組,每組包含10000張圖像。每一幅圖像都是完整的3通道的彩色RGB圖像,圖像尺寸為32×32。

5.11 FakeAVCeleb

FakeAVCeleb是由Khalid H等人開發(fā)的數(shù)據(jù)集,該數(shù)據(jù)集中包含4個(gè)不同種類的音視頻數(shù)據(jù)樣本,分別是原始視頻和原始音頻相匹配樣本、篡改視頻與原始音頻相匹配樣本、原始視頻與篡改音頻相匹配樣本、篡改視頻與篡改音頻想匹配樣本,其中第一種類包含500個(gè)樣本,第二種類包含9000個(gè)樣本,第三個(gè)種類包含500個(gè)樣本,第四個(gè)種類包含10000個(gè)樣本。

6 AI篡改技術(shù)的問題與展望

6.1 AI篡改技術(shù)的影響

在網(wǎng)絡(luò)技術(shù)完善的今天,自媒體行業(yè)的快速發(fā)展,使信息傳播速度快,范圍廣。隨著AI篡改技術(shù)的學(xué)習(xí)成本逐漸降低,技術(shù)實(shí)現(xiàn)更加容易。有危害性的AI篡改圖像視頻的產(chǎn)生與傳播速度也會(huì)加快,不僅會(huì)使公民的個(gè)人隱私和權(quán)利受到侵害,也會(huì)對(duì)社會(huì)知名人士和政治領(lǐng)袖產(chǎn)生輿論的負(fù)面影響,從而對(duì)社會(huì)治理和國家安全造成影響。在國家的司法領(lǐng)域中,由于先進(jìn)的AI篡改模型篡改的圖像和視頻使用傳統(tǒng)鑒別技術(shù)很難區(qū)分真假,提高了公安機(jī)關(guān)在執(zhí)法辦案的過程中證據(jù)收集與處理案件的難度,也導(dǎo)致了視聽資料證據(jù)對(duì)于案件的法律證明力下降甚至不再具備法律證明力。在我國的金融領(lǐng)域,部分ATM機(jī)取款,購物支付和手機(jī)轉(zhuǎn)賬,使用面部識(shí)別認(rèn)證系統(tǒng),而AI篡改技術(shù)可以通過對(duì)面部的篡改進(jìn)行身份頂替,從而給應(yīng)用面部識(shí)別認(rèn)證系統(tǒng)的金融服務(wù)領(lǐng)帶來挑戰(zhàn)。

6.2 存在問題

AI篡改模型中的神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)需要大量數(shù)據(jù)進(jìn)行訓(xùn)練驗(yàn)證和測(cè)試,這些數(shù)據(jù)集包含真實(shí)的和經(jīng)過AI篡改的圖像視頻,目前大部分?jǐn)?shù)據(jù)集內(nèi)容繁雜且標(biāo)準(zhǔn)不一,也存在個(gè)人肖像權(quán)及隱私侵犯問題。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與測(cè)試需要較高的硬件規(guī)格,雖然在一定程度上提高了實(shí)現(xiàn)AI篡改的門檻,但隨著相關(guān)算法的不斷優(yōu)化與改進(jìn),會(huì)逐漸降低對(duì)于計(jì)算機(jī)硬件算力的要求,同時(shí)個(gè)人計(jì)算終端算力的不斷提升,云計(jì)算服務(wù)的提出,都在使AI篡改技術(shù)不斷走向便捷化、大眾化。

6.3 政策層面的應(yīng)對(duì)措施

為應(yīng)對(duì)AI篡改相關(guān)技術(shù)對(duì)個(gè)人,社會(huì)和國家產(chǎn)生的不良影響,在全球范圍視角下,例如美國、英國及歐盟紛紛推動(dòng)關(guān)于AI篡改相關(guān)的立法工作。僅僅2018年至2019年一年時(shí)間,美國便頒布數(shù)條法案,其中《2018年惡意偽造禁令法案》,其中將“deep fake”定義為“以某種方式使合理的觀察者錯(cuò)誤地將其視為個(gè)人真實(shí)言語或行為的真實(shí)記錄的方式創(chuàng)建或更改的視聽記錄”。除此之外,還包括制定使用AI篡改技術(shù)規(guī)范,在法律層面明確“數(shù)字內(nèi)容偽造”的定義,對(duì)利用AI篡改技術(shù)進(jìn)行不法行為進(jìn)行量刑,并且鼓勵(lì)開展對(duì)于AI篡改技術(shù)檢測(cè)與鑒別的相關(guān)活動(dòng),舉辦相關(guān)技術(shù)競賽,努力使此項(xiàng)技術(shù)走向商業(yè)化等。在國內(nèi)的視角下,我國也在努力推進(jìn)立法和保障工作,從而限制AI篡改技術(shù)所帶來的不良影響。2017年6月,我國首部有關(guān)網(wǎng)絡(luò)安全的法律《網(wǎng)絡(luò)安全法》正式實(shí)施。2019年,在民法典中對(duì)“AI換臉”等科研活動(dòng)和試驗(yàn)及個(gè)人信息保護(hù)等問題做出了規(guī)范。同年,《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》對(duì)網(wǎng)絡(luò)音視頻服務(wù)相關(guān)的從業(yè)者和消費(fèi)者做出規(guī)范,即利用基于深度學(xué)習(xí)、虛擬現(xiàn)實(shí)等技術(shù)與應(yīng)用進(jìn)行制作傳播非真實(shí)的音視頻信息時(shí),應(yīng)開展安全評(píng)估并進(jìn)行標(biāo)識(shí)。隨著我國相關(guān)法律法規(guī)的出臺(tái),實(shí)現(xiàn)了從法律層面維護(hù)網(wǎng)絡(luò)安全的從無到有,對(duì)保護(hù)國家網(wǎng)絡(luò)安全奠定了重要基礎(chǔ),也為公民隱私及相關(guān)權(quán)利提供有力的保障。將可能被用于制作AI篡改相關(guān)內(nèi)容的公民圖像或視頻等個(gè)人數(shù)據(jù)置于法律保護(hù)之下,并通過法律法規(guī),對(duì)互聯(lián)網(wǎng)軟件公司發(fā)布的換臉軟件產(chǎn)品以及各類社交媒體平臺(tái)的傳播所可能引發(fā)的個(gè)人隱私泄露問題加以遏制。但是,我們對(duì)于完善法律法規(guī)的工作仍應(yīng)不斷完善和改進(jìn),對(duì)數(shù)字內(nèi)容的偽造行為在法律層面做出定義,并根據(jù)所導(dǎo)致的后果嚴(yán)重程度制定相應(yīng)的懲罰機(jī)制。通過舉辦AI篡改檢測(cè)技術(shù)相關(guān)技術(shù)競賽與交流會(huì)議,鼓勵(lì)A(yù)I篡改檢測(cè)技術(shù)相關(guān)的應(yīng)用與研究健康發(fā)展。同時(shí)對(duì)相關(guān)的社交平臺(tái)或搜索平臺(tái)進(jìn)行治理,加大針以深度偽造為代表的AI篡改音視頻文件的管控力度,對(duì)于有危害社會(huì)可能的AI篡改圖像和視頻進(jìn)行嚴(yán)厲打擊。但是,我們也應(yīng)該注意,AI篡改技術(shù)是人工智能和神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的附屬產(chǎn)品,也是未來影視游戲制作,助力文化傳播的關(guān)鍵性技術(shù),我們?cè)谥?jǐn)慎對(duì)待防止其危害出現(xiàn)的同時(shí),仍應(yīng)鼓勵(lì)其健康發(fā)展。

6.4 技術(shù)層面的應(yīng)對(duì)措施

為了遏制AI篡改所帶來的消極影響,眾多先進(jìn)的篡改防御方法基于深度學(xué)習(xí)的AI技術(shù)。其主要分為被動(dòng)式防御和主動(dòng)式防御,被動(dòng)式防御聚焦于圖像視頻在篡改過程中形成的代表性特點(diǎn),例如Li Y等人[39]提出由于部分算法生成的人物面部分辨率與原始視頻分辨率不相同,以及在面部匹配過程中進(jìn)行的仿射變換所導(dǎo)致的偽影現(xiàn)象,該方法通過捕捉并檢測(cè)視頻中偽影的存在來判斷視頻是否經(jīng)過AI篡改。Li L等人[40]提出一幅完整的原始圖像特征是平均且相同的,不同圖像具有不同的特征,而篡改的過程必定會(huì)破壞原始圖像的特征從而形成邊界,通過捕捉和檢測(cè)圖像中的邊界來判斷圖像是否經(jīng)過AI篡改。主動(dòng)式防御聚焦于圖像視頻的數(shù)據(jù)溯源,以及通過對(duì)原始圖像視頻加入擾動(dòng)的方法來增加AI篡改的阻礙。例如Wang R等人提出通過編碼-解碼器模型DeepTag在圖像中嵌入U(xiǎn)ID信息,通過UID信息的完整性對(duì)圖像進(jìn)行溯源,從而判斷圖像是否經(jīng)過AI篡改。Huang Q等人[41]提出在保持視覺效果一致的情況下通過對(duì)原始圖像中人物面部進(jìn)行毒化處理,使得AI篡改的輸出圖像受到污染,從而在視覺層面上形成明顯的區(qū)別,從而達(dá)到AI篡改的預(yù)防目的。

7 結(jié)語

AI篡改技術(shù)與篡改防御技術(shù)之間的競爭不是平衡的,AI篡改技術(shù)從誕生發(fā)展至今,由于影視拍攝和游戲制作等娛樂項(xiàng)目的快速發(fā)展,對(duì)于深度學(xué)習(xí)網(wǎng)絡(luò)和相關(guān)圖像視頻處理技術(shù)有著更高的要求,也必然使基于深度學(xué)習(xí)網(wǎng)絡(luò)的AI篡改技術(shù)發(fā)展迅速。而AI篡改防御技術(shù)因需求較低,導(dǎo)致AI篡改防御技術(shù)始終落后于篡改技術(shù)。篡改防御技術(shù)大多是因一種或一類篡改技術(shù)而形成的,易導(dǎo)致泛化性不足等問題,因此針對(duì)先進(jìn)的篡改模型仍然未有完全準(zhǔn)確且穩(wěn)定的識(shí)別方案。在公安工作中,應(yīng)同時(shí)注重AI篡改的主動(dòng)式防御與被動(dòng)式防御,形成能夠在篡改前預(yù)防,篡改后溯源并且穩(wěn)定檢測(cè)其真?zhèn)涡缘墓ぷ餍问?。但仍需注意的是,雖然AI篡改防御技術(shù)的訓(xùn)練發(fā)展依賴于大量的圖像和視頻數(shù)據(jù),而面對(duì)網(wǎng)絡(luò)中爆炸式增長的數(shù)據(jù)量,其收集和整理的方法、各類數(shù)據(jù)之間的關(guān)聯(lián)程度、是否具有時(shí)效性[42]等因素也同樣重要,稍有紕漏便可能引起巨大的偏差,造成公安機(jī)關(guān)對(duì)于案情產(chǎn)生錯(cuò)誤判斷的嚴(yán)重后果。日益發(fā)展的AI篡改技術(shù),將越來越難以識(shí)別和檢測(cè),這必然會(huì)在個(gè)人和社會(huì)層面導(dǎo)致不同程度的問題,如何應(yīng)對(duì)并解決由于AI篡改技術(shù)所導(dǎo)致的問題,維護(hù)合法權(quán)益,是當(dāng)代各領(lǐng)域?qū)W者需要應(yīng)對(duì)的挑戰(zhàn)。因此在未來一段時(shí)間里,我們將繼續(xù)對(duì)于AI篡改防御技術(shù)的研究現(xiàn)狀進(jìn)行挖掘和總結(jié)并形成文章,為后續(xù)研究人員推動(dòng)和發(fā)展AI篡改防御技術(shù)提供參考。

猜你喜歡
圖像模型
適用于BDS-3 PPP的隨機(jī)模型
自制空間站模型
攝像頭連接器可提供360°視角圖像
iSCOUT和EPID在乳腺癌圖像引導(dǎo)放療中的應(yīng)用分析
淺析p-V圖像中的兩個(gè)疑難問題
巧用圖像中的點(diǎn)、線、面解題
模型小覽(二)
導(dǎo)數(shù)中涉及“[ex,l n x]”的模型
圓周運(yùn)動(dòng)與解題模型
離散型隨機(jī)變量分布列的兩法則和三模型