陸璐 鐘文煜 吳小坤
(華南理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510640)
隨著數(shù)字拍攝設(shè)備的普及和圖像處理技術(shù)的發(fā)展,用戶(hù)可以輕松地對(duì)數(shù)字圖像進(jìn)行肉眼無(wú)法察覺(jué)的編輯,如何定位圖像篡改區(qū)域、減少惡意篡改對(duì)社會(huì)產(chǎn)生的負(fù)面影響,逐漸成為一個(gè)值得關(guān)注的研究方向。拼接篡改是圖像篡改最為常用的手段之一,它利用不同圖像的人或物體拼接到目標(biāo)圖像中,通過(guò)邊緣模糊技術(shù)達(dá)到制造假象的目的,準(zhǔn)確定位目標(biāo)圖像的篡改區(qū)域成為巨大的挑戰(zhàn),甚至現(xiàn)有的圖像篡改檢測(cè)技術(shù)也難以取證。
傳統(tǒng)圖像篡改定位算法可以劃分為兩類(lèi):基于重疊圖像塊和基于關(guān)鍵點(diǎn)的算法。Fridrich等[1]將圖像分割為大小相等的圖像塊,采用離散余弦變換(DCT)提取圖像塊的特征向量,通過(guò)計(jì)算圖像塊之間的相似度來(lái)定位篡改區(qū)域和真實(shí)區(qū)域。為了提高圖像塊特征匹配的速度,Popescu等[2]提出了運(yùn)用主成分分析(PCA)代替離散余弦變換(DCT)的方法。但是,基于圖像塊的圖像篡改定位算法仍需要消耗大量的計(jì)算資源。基于關(guān)鍵點(diǎn)的算法,主要運(yùn)用SIFT[3]、SURF[4]和ORB[5]等算法提取圖像的關(guān)鍵特征點(diǎn)。SIFT在圖像縮放、旋轉(zhuǎn)和平移的情況下仍能有效檢測(cè)出圖像篡改區(qū)域。Shivakumar等[4]提出了將SURF特征點(diǎn)提取算法與KD-Trees算法結(jié)合進(jìn)行關(guān)鍵點(diǎn)匹配的方法,檢測(cè)結(jié)果具有較低的假陰性率。針對(duì)匹配錯(cuò)誤和魯棒性不高的問(wèn)題,Zhu等[5]提出了采用隨機(jī)樣本一致性方法來(lái)過(guò)濾匹配錯(cuò)誤的ORB特征點(diǎn)。
近年來(lái),基于深度學(xué)習(xí)的算法[6-8]在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了令人矚目的成績(jī),在圖像理解方面遠(yuǎn)遠(yuǎn)超過(guò)了依賴(lài)單一傳統(tǒng)特征的算法。Rao等[9]基于深度學(xué)習(xí)的算法,利用空域富模型(SRM)作為預(yù)處理層和卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取高級(jí)語(yǔ)義特征,實(shí)現(xiàn)了端到端的自適應(yīng)學(xué)習(xí)模式。該算法實(shí)現(xiàn)圖像級(jí)別的圖像篡改識(shí)別,但不能實(shí)現(xiàn)圖像像素級(jí)別的篡改定位,在應(yīng)用中存在較大的局限性。由于來(lái)自不同圖像塊的重采樣特征呈現(xiàn)不一致性,文獻(xiàn)[10]基于圖像塊級(jí)別利用重采樣特征進(jìn)行圖像篡改區(qū)域定位。Bappy等[11]通過(guò)隨機(jī)變換提取重采樣特征,將特征輸入至LSTM網(wǎng)絡(luò)判別圖像塊是否被篡改,提出了一種LSTM與編解碼器混合的定位算法。該算法運(yùn)用LSTM提取圖像塊之間的關(guān)系特征,并與卷積編碼器生成的高級(jí)語(yǔ)義特征進(jìn)行結(jié)合,輸入至解碼器生成最終掩膜圖像,實(shí)現(xiàn)了圖像像素級(jí)別的定位,取得了不錯(cuò)的定位精度,但利用LSTM對(duì)圖像塊的空間關(guān)系進(jìn)行建模,計(jì)算復(fù)雜度較高。為了更加高效準(zhǔn)確地識(shí)別篡改區(qū)域與未篡改區(qū)域的差異,文獻(xiàn)[12]改進(jìn)了U型編解碼器結(jié)構(gòu)[13],提出了環(huán)形殘差U型網(wǎng)絡(luò),通過(guò)殘差傳播和反饋過(guò)程強(qiáng)化篡改邊界的特征差異。Islam等[14]設(shè)計(jì)了雙階注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò),一階注意力圖是位置敏感的,二階注意力圖則是提取像素之間的依賴(lài)關(guān)系。
上述算法在圖像篡改領(lǐng)域已經(jīng)取得了巨大進(jìn)步,但仍然存在許多缺陷。如每層的卷積神經(jīng)網(wǎng)絡(luò)[15]只能提取感受野內(nèi)部像素之間的關(guān)系,缺少全局特征信息。通過(guò)增大卷積核的大小,能夠增大感受野,但也會(huì)使參數(shù)量劇增。深層的卷積層具有更大的感受野,但卷積層過(guò)深會(huì)帶來(lái)梯度消失等問(wèn)題。因此,淺層的CNN僅在較小像素區(qū)域內(nèi)提取篡改區(qū)域與非篡改區(qū)域的特征差異,導(dǎo)致定位效果不佳。文獻(xiàn)[16]提出了一種運(yùn)用預(yù)訓(xùn)練CNN提取圖像特征,利用分層自注意力機(jī)制結(jié)合空間金字塔捕獲圖像篡改痕跡的方法,但該方法在定位區(qū)域較小時(shí)未能取得令人滿(mǎn)意的結(jié)果。另外,設(shè)計(jì)有效的特征強(qiáng)化網(wǎng)絡(luò)對(duì)于改善圖像篡改定位效果也是至關(guān)重要的。Kwon等[17]設(shè)計(jì)了一種高分辨圖像篡改定位網(wǎng)絡(luò),通過(guò)多階段特征融合提高了定位篡改區(qū)域精度,但該網(wǎng)絡(luò)缺乏對(duì)全局像素內(nèi)在聯(lián)系建模的能力。
針對(duì)上述問(wèn)題,本研究提出了一種基于多尺度視覺(jué)Transformer[18]的篡改定位網(wǎng)絡(luò)mVIT-CC,該網(wǎng)絡(luò)包括卷積編碼模塊、多尺度視覺(jué)Transformer模塊、縱橫自注意力計(jì)算模塊和解碼模塊。首先,提出了一種新的多尺度視覺(jué)Transformer模塊,用于對(duì)不同尺寸的圖像塊序列關(guān)系進(jìn)行建模,以提高對(duì)不同篡改區(qū)域大小的適應(yīng)能力;然后,運(yùn)用縱橫自注意力模塊設(shè)計(jì)解碼器和Transformer編碼器特征融合結(jié)構(gòu),優(yōu)化高級(jí)語(yǔ)義特征;最后,在CASIA[19]和NIST2016[20]數(shù)據(jù)集上進(jìn)行測(cè)試,對(duì)該網(wǎng)絡(luò)與其他端到端的圖像篡改定位算法進(jìn)行了對(duì)比研究。
文中提出的mVIT-CC結(jié)構(gòu)示意圖如圖1所示,它是卷積神經(jīng)網(wǎng)絡(luò)和Transformer的混合結(jié)構(gòu)。在mVIT-CC中,原始篡改圖像經(jīng)過(guò)卷積編碼模塊生成高級(jí)語(yǔ)義特征圖,同時(shí)運(yùn)用Transformer模塊提取不同尺寸圖像塊序列的空間信息;然后,利用縱橫自注意力機(jī)制(CCNet)將得到的特征圖與對(duì)應(yīng)解碼階段的特征進(jìn)行融合;最后,將解碼器的預(yù)測(cè)輸出經(jīng)過(guò)閾值分割生成最終的掩膜圖。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Network structure diagram
本文提出的多尺度視覺(jué)Transformer模塊設(shè)計(jì)結(jié)構(gòu)如圖1所示,包括了3個(gè)并行的多尺度分支。Transformer模塊的步驟如下:①以3種不同的尺寸對(duì)輸入圖像進(jìn)行劃分并展開(kāi)得到圖像塊序列;②把圖像塊序列經(jīng)過(guò)線(xiàn)性映射和拼接位置嵌入向量,使Transformer能夠感知圖像空間信息;③把經(jīng)過(guò)處理后的圖像塊序列輸入至多頭自注意力編碼器(MSA)和前向傳播網(wǎng)絡(luò)(FFN),MSA和FFN組成Transformer編碼器;④對(duì)不同分支的特征圖在通道域求平均值,求得具有全局圖像塊序列特征的輸出結(jié)果。mVIT-CC包括3種尺度分支,分別為小分支、中分支和大分支。小分支對(duì)應(yīng)的圖像塊大小為8×8,具有2層編碼器。中分支對(duì)應(yīng)的圖像塊大小為16×16,堆疊4層編碼器。大分支對(duì)應(yīng)的圖像塊大小為32×32,具有6層編碼器。每個(gè)分支的Transformer機(jī)制可用如下公式表示為
(1)
(2)
(3)
式中:Tcls∈R1×C,為輸入序列頭部的特殊標(biāo)記[21],C為特征的緯度;Ip∈RN×C,為圖像按一定尺寸劃分后的圖像塊,N為圖像塊總數(shù);E∈RN×C,為線(xiàn)性映射參數(shù)矩陣;Epos∈R(N+1)×C,為圖像塊位置嵌入向量;Ln為歸一化層;θA為多頭自注意力機(jī)制網(wǎng)絡(luò)參數(shù);φl(shuí)為多層感知器網(wǎng)絡(luò)參數(shù);n為迭代步數(shù)。
圖像篡改區(qū)域定位的本質(zhì)是提取篡改圖像塊與真實(shí)圖像塊之間的隱藏特征差異,從而識(shí)別該圖像是否經(jīng)過(guò)篡改操作。大尺寸的圖像塊往往混合篡改區(qū)域與真實(shí)區(qū)域,導(dǎo)致定位結(jié)果不佳。小尺寸的圖像塊能更精細(xì)地對(duì)圖像塊之間的關(guān)系進(jìn)行建模,但數(shù)目激增的圖像塊意味著模型參數(shù)量的增加。
參數(shù)量過(guò)多容易導(dǎo)致過(guò)擬合,降低網(wǎng)絡(luò)泛化能力,同時(shí)會(huì)影響定位效率。為了權(quán)衡圖像篡改定位的精度和網(wǎng)絡(luò)的參數(shù)量,本文提出了多尺度的Transformer機(jī)制,利用不同尺度的圖像序列優(yōu)化Transformer網(wǎng)絡(luò)參數(shù),其工作機(jī)制如下:
(4)
圖像篡改與圖像目標(biāo)檢測(cè)具有很大的差異,目標(biāo)檢測(cè)的區(qū)域往往是某一物體,但圖像篡改的區(qū)域形狀多樣,不一定是規(guī)則幾何形狀的物體,可能是背景的替換、部分物體去除等。某些高級(jí)的語(yǔ)義特征在圖像篡改定位任務(wù)中并不適用。針對(duì)這個(gè)問(wèn)題,本文利用縱橫注意力CCNet[22]增強(qiáng)多尺度Transformer編碼器與卷積解碼器融合特征的表征能力,同時(shí)不引入過(guò)多的參數(shù)量。CCNet能選擇性地關(guān)注有用的空間信息,忽略部分無(wú)用信息。縱橫注意力機(jī)制CCNet的具體過(guò)程如圖2所示。可以看到,中間層融合特征通過(guò)1×1卷積核進(jìn)行降維以減少模型參數(shù)量,生成特征圖Q、K和V,Q和K通過(guò)相關(guān)性運(yùn)算求得注意力圖A,然后根據(jù)注意力圖A運(yùn)用融合操作對(duì)特征圖V進(jìn)行上下文信息收集,讓每個(gè)像素點(diǎn)均能感知縱向和橫向像素點(diǎn)的信息。相關(guān)性運(yùn)算和融合操作公式如下:
圖2 自注意力模塊Fig.2 Self-attention module
(5)
(6)
文獻(xiàn)[12]證明了U型對(duì)稱(chēng)的編解碼器結(jié)構(gòu)在圖像篡改定位任務(wù)中相當(dāng)有效,本文卷積編解碼器結(jié)構(gòu)的主干網(wǎng)絡(luò)與文獻(xiàn)[12]提出的環(huán)形殘差U型網(wǎng)絡(luò)一致。編解碼器的基本單元為環(huán)形殘差神經(jīng)網(wǎng)絡(luò),環(huán)形殘差U型網(wǎng)絡(luò)通過(guò)構(gòu)建前向反饋和負(fù)反饋,達(dá)到增強(qiáng)篡改區(qū)域與真實(shí)區(qū)域之間差異的目的。編碼器與解碼器同一階段的特征使用跳躍連接相連,從而保存部分圖像的低級(jí)語(yǔ)義信息。圖3給出了環(huán)形殘差U型網(wǎng)絡(luò)基本結(jié)構(gòu)單元的工作原理。從圖中不難發(fā)現(xiàn),環(huán)形殘差網(wǎng)絡(luò)由兩個(gè)正向傳播環(huán)和一個(gè)反向傳播環(huán)構(gòu)成。靠左邊的正向環(huán)由兩個(gè)3×3的卷積層組成,另外一個(gè)正向環(huán)具有兩個(gè)1×1的卷積層。反向環(huán)通過(guò)輸入特征與前向卷積層提取的特征相乘求得,用于計(jì)算殘差的反饋信息,挖掘更多隱含信息。
圖3 環(huán)形殘差模塊Fig.3 Ringed residual module
本文使用的損失函數(shù)結(jié)合了BCE[23]損失、SSIM[24]損失和IoU[25]損失,公式表示如下:
(7)
(8)
(9)
(10)
實(shí)驗(yàn)仿真環(huán)境:顯卡為AMD的MI 100,顯存大小為64GB,硬盤(pán)大小為1TB,CPU處理器型號(hào)為AMD 5950X,實(shí)驗(yàn)平臺(tái)為Ubuntu 18.04,Python版本為3.8,深度學(xué)習(xí)框架使用PyTorch。本文實(shí)驗(yàn)輸入的篡改圖像尺寸均縮放為256×256,Batch大小設(shè)置為8,訓(xùn)練采用的優(yōu)化方法為隨機(jī)梯度下降法,學(xué)習(xí)率設(shè)置為0.001,動(dòng)量為0.9,權(quán)重衰減為0.000 5。所有模型均訓(xùn)練400輪,選取最佳的模型進(jìn)行測(cè)試。
本文實(shí)驗(yàn)中用到的數(shù)據(jù)集包括融合數(shù)據(jù)集[11]、NIST2016[20]和CASIA[19]。為增強(qiáng)模型的泛化能力,對(duì)輸入圖像和標(biāo)簽采用水平、垂直方向翻轉(zhuǎn)和中心裁剪的方法來(lái)擴(kuò)充數(shù)據(jù)。
本文采用的融合數(shù)據(jù)集來(lái)自文獻(xiàn)[11],共有35 712幅篡改圖像,全部用于神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練。文獻(xiàn)[11]把COCO數(shù)據(jù)集[27]的目標(biāo)物體作為源篡改區(qū)域,拼接到Dresden數(shù)據(jù)集[28]中。Dresden是圖像篡改定位任務(wù)中標(biāo)準(zhǔn)的數(shù)據(jù)集。為了保證融合數(shù)據(jù)集的多樣性,源圖像都經(jīng)過(guò)兩種不同參數(shù)的旋轉(zhuǎn)和縮放后拼接到目標(biāo)圖。
NIST2016數(shù)據(jù)集的篡改手段包括復(fù)制-粘貼、拼接和移除,而且篡改圖像經(jīng)過(guò)了后處理,通過(guò)肉眼難以精確識(shí)別出篡改區(qū)域。NIST2016包括564幅圖像,圖像的平均分辨率為2 448×3 264,提供篡改區(qū)域的二值圖,其中404幅圖像作為訓(xùn)練集,160幅圖像為測(cè)試集。
本文將CASIA2.0的5 123幅圖像用作訓(xùn)練集,其中有3 274幅圖像的篡改與非篡改區(qū)域來(lái)源于相同圖像,將CASIA1.0的921幅圖像用作測(cè)試集。CASIA2.0和CASIA1.0是圖像篡改定位任務(wù)極具挑戰(zhàn)性的數(shù)據(jù)集,篡改區(qū)域尺寸多樣,經(jīng)過(guò)了旋轉(zhuǎn)、縮放和扭曲等預(yù)處理,而且在篡改后還添加了后處理用于模糊篡改痕跡。
本文采用F1和接收者操作特征曲線(xiàn)(ROC)下的面積(AUC)定量分析模型的有效性,以圖像像素級(jí)別計(jì)算F1和AUC。F1是一種用于衡量二分類(lèi)模型精確度的指標(biāo)。F1值越高,表示二分類(lèi)效果越好,其最大值為1。ROC曲線(xiàn)描述不同分割閾值下的預(yù)測(cè)性能,AUC越接近1說(shuō)明模型的二分類(lèi)表現(xiàn)越好。F1的計(jì)算公式如下:
(11)
(12)
(13)
式中:P為查準(zhǔn)率,是正確預(yù)測(cè)的正樣本數(shù)占預(yù)測(cè)為正樣本總數(shù)的比例;R為查全率,是正確預(yù)測(cè)的正樣本數(shù)占所有正樣本數(shù)的比例;NTP為被正確判斷的篡改像素點(diǎn)的數(shù)量,NFP為被錯(cuò)誤識(shí)別的真實(shí)像素點(diǎn)的數(shù)量,NFN為被錯(cuò)誤判別為真實(shí)像素點(diǎn)的數(shù)量。
為驗(yàn)證本文提出的網(wǎng)絡(luò)模型的有效性,將本文算法與基于傳統(tǒng)手工特征提取和基于深度學(xué)習(xí)的篡改區(qū)域定位算法進(jìn)行對(duì)比分析,同時(shí)進(jìn)行了消融實(shí)驗(yàn)和魯棒性分析。實(shí)驗(yàn)對(duì)比的算法有以下7種:
(1)ELA[29]算法,該算法通過(guò)對(duì)待定位圖像進(jìn)行固定質(zhì)量壓縮,分析篡改區(qū)域與真實(shí)區(qū)域之間的壓縮錯(cuò)誤存在的差異,從而定位篡改區(qū)域。
(2)NOI1[30]算法,該算法假設(shè)真實(shí)圖像的噪聲量是均勻的,當(dāng)圖像塊來(lái)自不同圖像時(shí)會(huì)導(dǎo)致局部噪聲不連續(xù)性。NOI1利用高頻小波系數(shù)模擬局部噪聲進(jìn)行篡改定位。
(3)RGB-N[31]算法,該算法是一種雙流的定位框架,包括RGB流和噪聲流,噪聲流通過(guò)富含隱寫(xiě)分析的模型濾波器提取篡改痕跡噪音不一致性。
(4)ManTra-Net[32]算法,該算法利用卷積神經(jīng)網(wǎng)絡(luò)提取篡改特征,運(yùn)用局部異常檢測(cè)網(wǎng)絡(luò)實(shí)現(xiàn)像素級(jí)定位。
(5)J-LSTM[11]算法,該算法混合LSTM和CNN結(jié)構(gòu),運(yùn)用LSTM提取圖像塊之間的空間信息。
(6)SPAN[16]算法,該算法是一種空間金字塔和自注意力機(jī)制相結(jié)合的模型,對(duì)多尺度圖像塊之間的關(guān)系進(jìn)行建模,完成像素級(jí)別的篡改區(qū)域分割。
(7)GSR-Net[33]算法,該算法運(yùn)用生成對(duì)抗網(wǎng)絡(luò)擴(kuò)充訓(xùn)練數(shù)據(jù),通過(guò)篡改邊界增強(qiáng)分支來(lái)提高定位精度。
本文算法與上述5種算法在標(biāo)準(zhǔn)數(shù)據(jù)集CASIA和NIST2016上的F1比較如表1所示。從表中可知,基于深度學(xué)習(xí)的定位算法的定位精度遠(yuǎn)高于傳統(tǒng)的定位算法,特別在NIST2016測(cè)試集上高出了50%以上。主要原因是傳統(tǒng)算法依靠單一特征進(jìn)行判斷,面對(duì)篡改手段多樣的定位場(chǎng)景表現(xiàn)較差。在CASIA數(shù)據(jù)集上,本文算法的F1相比性能較好的傳統(tǒng)算法NOI1提高了16.8%,相比RGB-N提高了2.1%。與SPAN相比,mVIT-CC在兩個(gè)數(shù)據(jù)集上的F1分別提高了4.9%和29.5%,SPAN運(yùn)用局部自注意力機(jī)制提取篡改特征,該機(jī)制在CASIA和NIST2016數(shù)據(jù)集上的表現(xiàn)較差。本文算法利用多尺度視覺(jué)Transformer模塊提取圖像塊序列之間的關(guān)系,具有較大的感受野,生成的特征富含全局圖像信息,因此在CASIA和NIST2016測(cè)試集上均取到最好的F1,特別是在NIST2016測(cè)試集上相比先進(jìn)算法RGB-N提高了15.5%。
表1 在標(biāo)準(zhǔn)數(shù)據(jù)集上6種算法的F1值對(duì)比Table 1 Comparison of F1 values among six algorithms on the standard datasets
本文算法在標(biāo)準(zhǔn)數(shù)據(jù)集上與其他算法的AUC值比較如表2所示。從表中可知:傳統(tǒng)算法ELA和NOI1的泛化能力較差,AUC值均沒(méi)超過(guò)0.7;在NIST2016測(cè)試集上,本文算法取得了最高的AUC得分,相比SPAN提高了1%;J-LSTM利用LSTM結(jié)構(gòu)對(duì)單一尺寸的圖像塊序列的空間關(guān)系進(jìn)行建模,相比多尺度的mVIT-CC在NIST2016數(shù)據(jù)集上的AUC值下降了接近21%;在CASIA數(shù)據(jù)集上,mVIT-CC的AUC分?jǐn)?shù)并不理想,相對(duì)SPAN算法下降了11%。CASIA有451幅圖像的篡改區(qū)域與真實(shí)區(qū)域來(lái)源于同一幅圖像,本文算法在分割來(lái)自同一圖像的篡改區(qū)域效果上并不理想,導(dǎo)致AUC分?jǐn)?shù)偏低。本文算法在CASIA和NIST2016測(cè)試集上的F1提高明顯,在NIST2016上的AUC分?jǐn)?shù)也略有提高。由此可見(jiàn),本文算法的綜合性能優(yōu)于現(xiàn)有的算法。
表2 在標(biāo)準(zhǔn)數(shù)據(jù)集上7種算法的AUC值對(duì)比Table 2 Comparison of AUC values among seven algorithms on the standard datasets
為驗(yàn)證多尺度視覺(jué)Transformer定位模型的有效性,本文使用以下4種情況進(jìn)行消融實(shí)驗(yàn),結(jié)果如表3所示。
表3 消融實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of ablation experimental results
(1)mVIT:采用的Transformer包括三分支結(jié)構(gòu),但在解碼階段特征時(shí)沒(méi)使用縱橫注意力機(jī)制CCNet進(jìn)行特征篩選。
(2)mVIT-CC-S:Transformer編碼器結(jié)構(gòu)只有小尺度圖像塊分支,特征融合時(shí)采用CCNet機(jī)制。
(3)mVIT-CC-L:只有大尺度圖像塊分支的Transformer和CCNet融合機(jī)制。
(4)mVIT-CC:同時(shí)有多尺度Transformer分支網(wǎng)絡(luò)和CCNet融合機(jī)制。
本文提出的基于多尺度視覺(jué)Transformer的圖像篡改區(qū)域定位模型mVIT-CC,相比其他消融模型在標(biāo)準(zhǔn)數(shù)據(jù)集上的F1最高。mVIT-CC融合3種不同尺度的Transformer分支,增強(qiáng)了網(wǎng)絡(luò)適應(yīng)不同大小篡改區(qū)域的能力,同時(shí)在特征融合時(shí)采用縱橫注意力機(jī)制CCNet,過(guò)濾無(wú)用的高級(jí)語(yǔ)義信息。相比只有小尺度分支的mVIT-CC-S,mVIT-CC在CASIA和NIST2016上的F1分別提高了7.9%和4.9%。由于小尺度分支的Transformer編碼深度較淺,提取篡改區(qū)域與真實(shí)區(qū)域的邊界痕跡能力較弱,導(dǎo)致定位結(jié)果并不理想。與mVIT-CC-L相比,mVIT-CC在標(biāo)準(zhǔn)數(shù)據(jù)集上的綜合性能略有提高;將mVIT-CC-L的層數(shù)增加至8和10,在CASIA數(shù)據(jù)集下的F1僅為0.414和0.417,明顯落后于mVIT-CC。由此可見(jiàn),mVIT-CC-L即使增加堆疊層數(shù),篡改定位能力仍然十分有限。相比不采用縱橫注意力機(jī)制收集融合特征上下文信息的mVIT,mVIT-CC在標(biāo)準(zhǔn)數(shù)據(jù)集上的F1有略微提高。小尺度mVIT-CC-S的綜合性能較差,相比mVIT在CASIA數(shù)據(jù)集上的F1下降了6.4%,在NIST2016數(shù)據(jù)集上的F1下降了1.8%,表明小尺度Transformer的綜合性能有限。上述模型的AUC得分相差不明顯,在CASIA和NIST2016數(shù)據(jù)集上,mVIT-CC僅落后最高得分2.2%和0.6%。圖4展示了mVIT和其他消融模型在標(biāo)準(zhǔn)數(shù)據(jù)集上的定位效果。由圖可見(jiàn):相比其他消融模型,mVIT-CC模型預(yù)測(cè)的篡改區(qū)域連通性更好,同時(shí)具有更低的假陽(yáng)性率;mVIT-CC在小尺寸篡改區(qū)域的定位能力比mVIT強(qiáng)。由此可見(jiàn),本文提出的多尺度視覺(jué)Transformer和特征融合機(jī)制是有效的。
圖4 4種模型在NIST數(shù)據(jù)集上的樣例篡改定位結(jié)果Fig.4 Sample tampering detection results of four models on NIST dataset
表4展示了各算法在NIST測(cè)試集對(duì)JPEG壓縮和縮放攻擊的F1,JPEG壓縮攻擊是最為常見(jiàn)的篡改圖像后處理方法。本文測(cè)試的JPEG壓縮因子r為100、70、50。壓縮因子越小,圖像壓縮的效果越好,同時(shí)定位圖像篡改區(qū)域的難度越大?;趥鹘y(tǒng)特征的算法在壓縮因子小時(shí)的穩(wěn)定性較差,F(xiàn)1下降接近15%;RGB-N算法在壓縮因子為70和50時(shí),F(xiàn)1下降了4.5%;mVIT-CC算法的F1維持在較高水平,F(xiàn)1下降最多為0.3%,mVIT-CC在壓縮因子等于50時(shí)僅僅下降了0.1%,而且圖像縮放因子為0.7和0.5時(shí)也不會(huì)對(duì)圖像篡改區(qū)域的定位結(jié)果造成精度損失。由此可見(jiàn),本文算法能有效地抵抗圖像JPEG壓縮和縮放攻擊,具有較強(qiáng)的魯棒性。
表4 8種算法在NIST測(cè)試集對(duì)JPEG壓縮攻擊的F1值Table 4 F1 values of eight algorithms on NIST test dataset for JPEG compression attacks
表5展示了基于深度學(xué)習(xí)的篡改定位模型的參數(shù)量和定位一幅圖像的平均耗時(shí)。平均耗時(shí)為推理NIST中160幅測(cè)試圖像耗時(shí)的平均值。結(jié)果表明,本文提出的定位模型大小為285.8×106,遠(yuǎn)遠(yuǎn)小于RGB-N模型,引入縱橫注意力機(jī)制后參數(shù)量?jī)H增加了0.4×106,也沒(méi)新增過(guò)高的延遲。RGB-N定位一幅圖像篡改區(qū)域耗時(shí)接近3 s,限制了該算法在圖像篡改定位領(lǐng)域中的應(yīng)用,不適用于實(shí)時(shí)性較強(qiáng)的場(chǎng)景。本文提出的模型推理一幅圖像的篡改區(qū)域耗時(shí)僅需514 ms,能有效滿(mǎn)足現(xiàn)實(shí)生活的各種需求。
表5 3種算法的網(wǎng)絡(luò)參數(shù)量和耗時(shí)對(duì)比Table 5 Comparison of network parameters and time consuming among three algorithms
本文提出了一種基于多尺度視覺(jué)Transformer的圖像篡改定位網(wǎng)絡(luò)mVIT-CC,以實(shí)現(xiàn)端到端高效準(zhǔn)確地定位圖像篡改區(qū)域。本文結(jié)合Transformer編碼器和卷積編碼器,提取多尺度圖像塊序列的空間信息,通過(guò)縱橫注意力機(jī)制將編碼器和解碼器的特征進(jìn)行融合。Transformer編碼器結(jié)構(gòu)設(shè)計(jì)了3個(gè)不同圖像塊尺度的分支,有利于定位不同形狀大小的篡改區(qū)域。實(shí)驗(yàn)結(jié)果表明,本文算法在CASIA和NIST2016數(shù)據(jù)集上取得了優(yōu)異的綜合性能,同時(shí)對(duì)JPEG和縮放攻擊具有較強(qiáng)的魯棒性。本文算法主要針對(duì)的篡改手段包括圖像拼接、復(fù)制-粘貼和移除,未來(lái)的研究將加強(qiáng)對(duì)生成對(duì)抗網(wǎng)絡(luò)智能生成的偽圖像進(jìn)行定位。