宋家駿, 劉桂雄, 黃家曦, 張國(guó)才
(華南理工大學(xué)機(jī)械與汽車工程學(xué)院,廣東 廣州 510640)
數(shù)字圖像經(jīng)過(guò)計(jì)算機(jī)軟件、移動(dòng)應(yīng)用程序或圖像生成技術(shù)處理后生成偽造圖像,若被不當(dāng)利用將帶來(lái)嚴(yán)重負(fù)面影響或重大損失。偽造圖像生成技術(shù)經(jīng)典有圖片編輯等圖像篡改方式,以及目前的生成式對(duì)抗網(wǎng)絡(luò)[1-2](generative adversarial nets, GAN)、擴(kuò)散模型[3](diffusion model)合成方式等。隨著偽造圖像生成方式發(fā)展,偽造圖像檢測(cè)方法也相應(yīng)產(chǎn)生。
對(duì)于復(fù)制粘貼、剪切粘貼、擦除填充等圖片編輯篡改方式,可通過(guò)統(tǒng)計(jì)度量方法計(jì)算像素或特征分塊間匹配度來(lái)檢測(cè)重復(fù)區(qū)域[4-8]或通過(guò)關(guān)鍵點(diǎn)匹配[9-10],但分塊設(shè)計(jì)與選取直接影響識(shí)別復(fù)制粘貼偽造圖像效果;也可通過(guò)研究檢測(cè)區(qū)域邊緣連續(xù)性、照明均勻性、幾何或相機(jī)軌跡一致性等篡改特征來(lái)檢測(cè)剪切粘貼偽造圖像,但存在篡改線索敏感性難以統(tǒng)一等問(wèn)題[11-13];也可基于統(tǒng)計(jì)特征的擦除填充區(qū)域與多個(gè)圖像分塊區(qū)域關(guān)系研究,識(shí)別擦除填充偽造圖像[14-17],但對(duì)部分后處理圖像檢測(cè)魯棒性低;應(yīng)用多種方法決策融合策略,可提高統(tǒng)一圖片編輯偽造檢測(cè)與定位質(zhì)量,但還難以適用于所有的偽造圖像檢測(cè)[18-19]。對(duì)于應(yīng)用GAN 生成的偽造圖像,其檢測(cè)方法可通過(guò)學(xué)習(xí)特征共生矩陣[20-21]或使用分類層不同GAN 生成圖片獨(dú)有特征[22-23]來(lái)判斷生成圖像差異,但受GAN 結(jié)構(gòu)影響,特征分類器容易在已有生成器上過(guò)擬合,泛化性能降低。對(duì)于應(yīng)用擴(kuò)散模型生成的偽造圖像,可在對(duì)應(yīng)用GAN 生成偽造圖像檢測(cè)方法基礎(chǔ)上,進(jìn)一步通過(guò)多個(gè)低維度局部特征的內(nèi)在關(guān)系來(lái)進(jìn)行識(shí)別[24]。偽造圖像生成方法不同,偽造圖像屬性也不同,圖像偽造檢測(cè)與定位(image forgery detection and localization,IFDL)普適方法研究帶來(lái)困難。為此,密歇根州立大學(xué)等[25]提出用于IFDL 表征學(xué)習(xí)的分層細(xì)粒度公式,設(shè)計(jì)具有多分支特征提取器、定位和分類模塊的HiFi-Net,實(shí)現(xiàn)對(duì)CNN 合成、圖像編輯等偽造圖像的檢測(cè)及定位,根據(jù)偽造屬性分層依賴關(guān)系完成細(xì)粒度分類,HiFi-Net 模型在自制數(shù)據(jù)集上測(cè)試,圖像級(jí)別總體AUC、F1 分?jǐn)?shù),像素級(jí)別AUC、F1分?jǐn)?shù)分別為96.8%、94.1%、95.3%、96.9%,在公共數(shù)據(jù)集上測(cè)試,綜合指標(biāo)優(yōu)于文獻(xiàn)[26-32]的大部分偽造圖像檢測(cè)模型。
本文選用HiFi-Net 檢測(cè)模型,研究細(xì)粒度偽造圖像檢測(cè)性能提升及優(yōu)化方法,應(yīng)用U-HRNet 替換目標(biāo)檢測(cè)模型特征提取網(wǎng)絡(luò)HRNet,改善高分辨率特征提取網(wǎng)絡(luò)語(yǔ)義表示[33];引入SoftTripleLoss 模塊為每一類偽造屬性擴(kuò)充到多個(gè)聚類中心以改善SoftMax 損失[34],提高細(xì)粒度分類準(zhǔn)確率,從而滿足細(xì)粒度偽造圖像的檢測(cè)功能性、偽造屬性分類準(zhǔn)確性要求。
本文應(yīng)用HiFi-Net 檢測(cè)模型實(shí)現(xiàn)細(xì)粒度偽造圖像檢測(cè),包括偽造區(qū)域定位與屬性分類,區(qū)域定位要求模型網(wǎng)絡(luò)在偽造圖像篡改區(qū)域獲得更高響應(yīng),屬性分類要求將偽造屬性進(jìn)行層級(jí)劃分,區(qū)分同層級(jí)偽造屬性,處理相應(yīng)分支上偽造屬性分層依賴關(guān)系。
結(jié)合偽造圖像生成技術(shù),偽造屬性按層級(jí)劃分,圖1 為細(xì)粒度偽造圖像層級(jí)分類圖,其中初始層為真實(shí)圖片/偽造圖片;層級(jí)I 含部分偽造/全圖偽造;層級(jí)II 含基于圖片編輯的偽造方法/基于CNN 合成偽造方法/人臉偽造方法/基于GAN 偽造方法/基于擴(kuò)散模型偽造方法;層級(jí)III 含條件式偽造方法/非條件式偽造方法;層級(jí)IV 涉及Splice、 Inpainting、CopyMove、 STGAN、 Faceshifter、 FaceSwap、Face2Face、 Star-GANv2、 HiSD、 StGANv2-ada、StGAN3、DDPM、DDIM、GDM、LDM 等具體偽造圖像生成方法。
圖1 細(xì)粒度偽造圖像層級(jí)分類圖
具體以像素級(jí)別AUC(area under curve)及F1分?jǐn)?shù)、圖像級(jí)別F1 分?jǐn)?shù)及偽造屬性分類準(zhǔn)確率Acc 作為評(píng)價(jià)指標(biāo)[35],驗(yàn)證優(yōu)化后HiFi-Net 檢測(cè)模型的細(xì)粒度偽造圖像檢測(cè)與定位性能。
圖2 為基于HRNet 骨干網(wǎng)絡(luò)的HiFi-Net 偽造圖像檢測(cè)模型結(jié)構(gòu)圖[25],HiFi-Net 模型包括多分支特征提取、偽造區(qū)域定位、偽造屬性分類等模塊。其中,多分支特征提取模塊為四階段高分辨率特征提取網(wǎng)絡(luò)(High Resolution Net, HRNet),HRNet 特征提取網(wǎng)絡(luò)通過(guò)并行多個(gè)不同分辨率的分支,對(duì)不同分支間的特征信息交互融合,實(shí)現(xiàn)特征提取過(guò)程維持高分辨率語(yǔ)義信息,減少特征提取過(guò)程語(yǔ)義信息丟失;偽造區(qū)域定位模塊應(yīng)用自注意力機(jī)制構(gòu)建像素對(duì)空間區(qū)域的依賴性、相互作用模型,學(xué)習(xí)偽造區(qū)域特征與整體特征之間關(guān)系,最高分辨率分支輸出特征映射到掩碼,生成掩膜圖;偽造屬性分類模塊為多層級(jí)分類器,根據(jù)偽造屬性分層依賴關(guān)系對(duì)各分支輸出的不同分辨率特征圖自下而上進(jìn)行屬性分類。為學(xué)習(xí)對(duì)細(xì)粒度偽造屬性分類最佳特征,最高分辨率分支使用掩膜圖、起始輸入圖像合成偽造區(qū)域部分掩膜圖,通過(guò)部分卷積層提取特征,再與上一分支輸出特征圖通道連通,每個(gè)分支最終輸出特征圖通過(guò)當(dāng)前分支偽造屬性分類器獲得預(yù)測(cè)值,預(yù)測(cè)值作為先驗(yàn)值參與下一分支屬性分類器計(jì)算??梢钥闯?,HiFi-Net 檢測(cè)模型中HRNet 最低分辨率分支的特征圖直接輸出,強(qiáng)語(yǔ)義信息未被充分利用。由于偽造方法相對(duì)應(yīng)的真實(shí)圖片來(lái)源包含多種類別圖像,偽造圖像存在多個(gè)聚類中心,使用softmax 函數(shù)的分類模塊難以捕獲類內(nèi)多樣性。
上面分析基于HRNet 的HiFi-Net 偽造圖像檢測(cè)技術(shù)存在問(wèn)題,下面進(jìn)一步討論應(yīng)用U-HRNet+SoftTripleLoss 的分層細(xì)粒度特征提取方法,并對(duì)模型進(jìn)行優(yōu)化,形成應(yīng)用U-HRNet+SoftTripleLoss的HiFi-Net 偽造圖像檢測(cè)技術(shù)。
1)使用UHRNet 代替HRNet
先進(jìn)的語(yǔ)義表示對(duì)語(yǔ)義分割任務(wù)有重要影響,高分辨率特征圖語(yǔ)義信息可使最終預(yù)測(cè)粒度接近像素級(jí),低分辨率特征圖所攜帶的高級(jí)語(yǔ)義信息確保整體預(yù)測(cè)準(zhǔn)確性。在不增加額外計(jì)算成本情況下,使用U 型高分辨率網(wǎng)絡(luò)(U-shaped high resolution net, U-HRNet)[33]作為特征提取網(wǎng)絡(luò),將有助于改進(jìn)網(wǎng)絡(luò)高分辨率特征整體語(yǔ)義表示。
圖3 為UHRNet 網(wǎng)絡(luò)整體結(jié)構(gòu)示意圖,網(wǎng)絡(luò)主體包含9 個(gè)階段,5 個(gè)分辨率流。階段①通過(guò)兩個(gè)瓶頸殘差塊提取特征,經(jīng)過(guò)渡層生成兩個(gè)不同分辨率分支并輸出特征圖;階段②兩個(gè)分支的特征圖分別經(jīng)過(guò)1 個(gè)高分辨率模塊(high resolution module,HR Module)的2 個(gè)堆疊基礎(chǔ)卷積塊進(jìn)一步提取圖像特征,再與另一分支特征融合,通過(guò)過(guò)渡層輸出兩個(gè)不同分辨率特征圖;階段③、④、⑤分別由2 個(gè)串聯(lián)HR 模塊組成;階段⑥、⑦、⑧分別保留上一階段的低分辨率特征,對(duì)其上采樣獲得高分辨率特征圖,再對(duì)應(yīng)與之前階段同分辨率特征圖進(jìn)行池化操作、通道融合,通過(guò)HR 模塊輸出特征;階段⑨將上一階段高分辨率特征圖輸入HR 模塊以獲取最高分辨率特征。將網(wǎng)絡(luò)階段⑤~階段⑧輸出的低分辨率特征圖與階段⑨輸出的高分辨率特征圖作為網(wǎng)絡(luò)最終輸出。與HRNet 相比,UHRNet 網(wǎng)絡(luò)每個(gè)階段只保留較高分辨率分支,在網(wǎng)絡(luò)深度方向設(shè)置三條路徑,讓前四個(gè)階段特征與學(xué)習(xí)到的高級(jí)語(yǔ)義特征進(jìn)行通道合并,保持高分辨率特征,減少計(jì)算量,完善高分辨率特征語(yǔ)義表達(dá)。網(wǎng)絡(luò)前半部分添加階段⑤,增加網(wǎng)絡(luò)深度,使低分辨率語(yǔ)義信息能被更充分地利用,網(wǎng)絡(luò)添加多個(gè)階段進(jìn)行各分辨率特征的學(xué)習(xí)。文獻(xiàn)[31]實(shí)驗(yàn)結(jié)果表明,與同量級(jí)HRNet 網(wǎng)絡(luò)相比,UHRNet 網(wǎng)絡(luò)能更好地完成密集預(yù)測(cè)任務(wù)。
2)SoftTripleLoss 代替SoftMaxLoss
深度度量學(xué)習(xí)可用于學(xué)習(xí)特征嵌入表示,使得同類別示例特征分布比不同類別更接近。經(jīng)典三元組損失(Triple Loss)方法依賴三元組樣本選取策略,因此若引入SoftTripleLoss 模塊[34],將softmax 損失擴(kuò)展到每個(gè)類別多個(gè)中心,學(xué)習(xí)無(wú)約束采樣特征嵌入表示,將改善偽造屬性特征嵌入分布,提高細(xì)粒度偽造圖像分類準(zhǔn)確率。
圖4 為SoftMaxLoss 與SoftTripleLoss 原理對(duì)比圖,SoftTripleLoss 通過(guò)增加全連接層尺寸使每個(gè)類別包含多個(gè)中心,再計(jì)算示例與類別之間相似度,最后利用相似度計(jì)算出不同類別分布,SoftTriple 損失計(jì)算式為:
圖4 SoftMaxLoss 及SoftTripleLoss 原理對(duì)比圖
式中:xi——第i個(gè)示例的嵌入,其對(duì)應(yīng)標(biāo)簽為yi;網(wǎng)絡(luò)最后全連接層為[w1,w2,···,wc]∈Rd×C;
d、C——嵌入維數(shù)、類別數(shù);
S′i,c——示例xi和類別c之間松弛相似度;
γ、 λ——比例因子、縮放因子;
δ——兩個(gè)類別之間間隔。
為改善類中心個(gè)數(shù),SoftTripleLoss 在SoftTriple損失基礎(chǔ)上,加入自適應(yīng)類中心個(gè)數(shù)的計(jì)算方法。令每個(gè)類別有K個(gè)中心,示例個(gè)數(shù)為N,比例因子為τ,則自適應(yīng)類中心個(gè)數(shù)計(jì)算式、分類損失函數(shù)為:
下面研究HiFi-Net 模型的訓(xùn)練參數(shù)優(yōu)化,從而實(shí)現(xiàn)細(xì)粒度偽造圖像檢測(cè)任務(wù)。使用U-HRNet 替換原特征提取網(wǎng)絡(luò),設(shè)置網(wǎng)絡(luò)輸出4 條分辨率流,其分別為網(wǎng)絡(luò)輸入圖片尺寸的1,1/2,1/4,1/16,在分類模塊中加入SoftTripleLoss 模塊。
圖5 為應(yīng)用U-HRNet+SoftTripleLoss 的HiFi-Net 模型結(jié)構(gòu)示意圖。模型包括U 形特征提取網(wǎng)絡(luò)、偽造區(qū)域定位模塊、細(xì)粒度偽造屬性分類模塊。令公式(4)超參數(shù)K=3,其余超參數(shù)采用文獻(xiàn)[25]推薦值,表1 為SoftTripleLoss 模塊主要超參數(shù)設(shè)置表。
表1 SoftTripleLoss 模塊主要超參數(shù)設(shè)置表
圖5 應(yīng)用U-HRNet+SoftTripleLoss 的HiFi-Net 模型結(jié)構(gòu)示意圖
應(yīng)用公式(4)計(jì)算分類損失函數(shù)L1cls~L4cls(層級(jí)I 到層級(jí)IV),定位損失函數(shù)Lloc、二值交叉熵?fù)p失函數(shù)計(jì)算公式如下:
那么,優(yōu)化后模型的總損失函數(shù)為:
優(yōu)化后模型采用Adam 梯度下降優(yōu)化算法訓(xùn)練,使總損失函數(shù)Ltotal在一定迭代次數(shù)下收斂,獲得較優(yōu)性能的模型參數(shù)權(quán)重。
圖6 為應(yīng)用U-HRNet+SoftTripleLoss 的HiFi-Net 偽造圖像檢測(cè)流程框圖,包括離線構(gòu)建與優(yōu)化偽造圖像檢測(cè)模型、在線實(shí)時(shí)檢測(cè)偽造圖像兩模塊功能。其中離線構(gòu)建與優(yōu)化偽造圖像檢測(cè)模型模塊主要完成用于訓(xùn)練模型和測(cè)試模型性能的HiFi-IFDL 數(shù)據(jù)集構(gòu)建、HiFi-Net 模型優(yōu)化。HiFi-IFDL數(shù)據(jù)集由訓(xùn)練集、驗(yàn)證集、測(cè)試集組成,其中真實(shí)圖片取自公共數(shù)據(jù)集MSCOCO[36]、LSUN、CelebAHQ[37]、FFHQ[38]、YoutubeFace[39],通過(guò)偽造方法將真實(shí)圖片生成偽造圖片;對(duì)訓(xùn)練集圖像進(jìn)行分類,偽造屬性按層級(jí)劃分,完成各層級(jí)偽造屬性編號(hào),圖7、表2 分別為HiFi-IFDL 數(shù)據(jù)集偽造屬性分類、編號(hào)圖,偽造方法及其真實(shí)圖片來(lái)源、屬性向量表,偽造方法屬性向量依據(jù)偽造屬性編號(hào)生成,如表2屬性向量[1,2,2,4]表示I、II、III、IV 層級(jí)分別為部分偽造、人臉偽造、人臉偽造、FaceSwap 方法偽造;屬性向量[2,4,4,8]表示I、II、III、IV 層級(jí)分別為全圖偽造、擴(kuò)散模型偽造、條件式偽造、DDPM 方法偽造。在線實(shí)時(shí)檢測(cè)偽造圖像模塊主要完成圖像偽造屬性在線檢測(cè),輸出預(yù)測(cè)屬性向量、預(yù)測(cè)掩膜,分別使用預(yù)測(cè)掩膜計(jì)算像素級(jí)別AUC 及F1 分?jǐn)?shù)、圖像級(jí)別F1 分?jǐn)?shù),使用屬性向量計(jì)算出偽造屬性分類準(zhǔn)確率Acc,最終得到檢測(cè)結(jié)果。
表2 偽造方法及其真實(shí)圖片來(lái)源、屬性向量表
圖6 應(yīng)用U-HRNet+SoftTripleLoss 的HiFi-Net 偽造圖像檢測(cè)流程框圖
圖7 HiFi-IFDL 數(shù)據(jù)集偽造屬性分類、編號(hào)圖
選擇上一節(jié)介紹的HiFi-IFDL 數(shù)據(jù)集作為本文實(shí)驗(yàn)訓(xùn)練集(180K 張)、驗(yàn)證集(2.6K 張)和測(cè)試集(13K 張),構(gòu)造并訓(xùn)練應(yīng)用U-HRNet+SoftTripleLoss的HiFi-Net 模型,使用測(cè)試集圖像與本文模型預(yù)測(cè)輸出二值圖、偽造屬性預(yù)測(cè)值,通過(guò)深度學(xué)習(xí)數(shù)據(jù)處理庫(kù)Scikit-learn[35]計(jì)算改進(jìn)后偽造圖像檢測(cè)模型像素級(jí)別AUC 及F1 分?jǐn)?shù)、圖像級(jí)別F1 分?jǐn)?shù)及偽造屬性分類準(zhǔn)確率Acc,并與文獻(xiàn)[25]模型進(jìn)行對(duì)比實(shí)驗(yàn)。
選用搭載AMD Ryzen 9 5950X 16 核CPU、24 GB 顯存Nvidia GeForce RTX 3090 顯卡的上位機(jī),根據(jù)上述離線構(gòu)建模型方法設(shè)置訓(xùn)練超參數(shù),設(shè)置訓(xùn)練迭代次數(shù)Epoch=10,獲得訓(xùn)練過(guò)程較優(yōu)模型權(quán)重。圖8 為本文模型訓(xùn)練過(guò)程總損失函數(shù)變化曲線,橫坐標(biāo)為訓(xùn)練迭代步數(shù),縱坐標(biāo)為總損失函數(shù)數(shù)值。
圖8 本文模型訓(xùn)練過(guò)程總損失函數(shù)變化曲線
測(cè)試集圖片分別經(jīng)過(guò)改進(jìn)前后模型獲得各層級(jí)偽造屬性特征的嵌入表示,利用主成分分析(PCA)法[40-42]對(duì)改進(jìn)前后模型特征嵌入進(jìn)行數(shù)據(jù)降維分析,通過(guò)觀察各組特征對(duì)應(yīng)散點(diǎn)在組內(nèi)聚合信息來(lái)判斷該組特征組內(nèi)重復(fù)性、特征相似性情況;通過(guò)不同組特征分布信息來(lái)判斷組間區(qū)分度情況。
圖9(a)為測(cè)試集圖片特征主成分分析圖;圖9(b)或圖10(a)、圖9(c)或圖10(b)、圖9(d)或圖10(c)、圖9(e)或圖10(d)分別為層級(jí)I 到層級(jí)IV 偽造屬性特征嵌入的主成分分析圖,每種顏色代表相應(yīng)層級(jí)偽造屬性的一個(gè)類別。
圖9 文獻(xiàn)[25]模型各特征主成分分析圖
可以看出,本文模型同類別的示例特征嵌入分布比改進(jìn)前模型更接近,且能較好區(qū)分不同類別。
對(duì)改進(jìn)前后模型的評(píng)價(jià)指標(biāo)進(jìn)行定量分析,表3為改進(jìn)前后模型像素級(jí)別AUC、F1 指標(biāo)比較表。像素級(jí)別評(píng)價(jià)指標(biāo)評(píng)估檢測(cè)模型偽造區(qū)域定位性能,部分偽造屬性偽造方法可以利用掩膜真值進(jìn)行像素級(jí)評(píng)估。實(shí)驗(yàn)表明,本文模型像素級(jí)別評(píng)價(jià)指標(biāo)總體優(yōu)于文獻(xiàn)[25]模型。
表3 像素級(jí)別AUC、F1 指標(biāo)比較表
表4 為改進(jìn)前后模型圖像級(jí)別偽造屬性分類Acc、F1 指標(biāo)比較表。圖像級(jí)別評(píng)價(jià)指標(biāo)評(píng)估模型偽造屬性分類性能,其中Acc 的值評(píng)估偽造屬性分類準(zhǔn)確率,F(xiàn)1 分?jǐn)?shù)評(píng)價(jià)模型分類綜合性能。
實(shí)驗(yàn)表明,本文模型分類預(yù)測(cè)平均準(zhǔn)確率比文獻(xiàn)[25]模型提高0.57%,所有層級(jí)偽造屬性分類都預(yù)測(cè)正確的總體準(zhǔn)確率比原模型提高1.23%。綜上所述,本文模型在各層級(jí)偽造屬性分類準(zhǔn)確率、性能上均優(yōu)于文獻(xiàn)[25]模型。
本文面向IFDL 需求,研究細(xì)粒度偽造圖像檢測(cè)模型HiFi-Net 性能提升及優(yōu)化方法,創(chuàng)新性主要包括:
1)提出一種基于U-HRNet+SoftTripleLoss 的分層細(xì)粒度特征提取方法,采用U-HRNet 替代HRNet 特征提取網(wǎng)絡(luò),促使網(wǎng)絡(luò)學(xué)習(xí)更深層的語(yǔ)義信息;引入SoftTripleLoss 模塊優(yōu)化偽造屬性特征嵌入表示,使用深度度量的學(xué)習(xí)方法,將softmax 損失擴(kuò)展到每個(gè)類別具有多個(gè)中心,提高細(xì)粒度偽造圖像分類準(zhǔn)確率。
2)面向HiFi-IFDL 提出HiFi-Net 模型優(yōu)化方法,推導(dǎo)分類損失函數(shù)L1cls~L4cls、定位損失函數(shù)Lloc、二值交叉熵?fù)p失函數(shù)以及總損失函數(shù),設(shè)置細(xì)粒度偽造屬性分類器損失函數(shù)LSoftTriple關(guān)鍵參數(shù),適應(yīng)分層細(xì)粒度偽造圖像檢測(cè)任務(wù),離線構(gòu)建得到應(yīng)用U-HRNet+SoftTripleLoss 的HiFi-Net 偽造圖像檢測(cè)優(yōu)化模型。
3)在HiFi-IFDL 數(shù)據(jù)集上進(jìn)行測(cè)試及驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,與原文獻(xiàn)模型相比,本文模型在圖像偽造區(qū)域定位任務(wù)中,總體評(píng)價(jià)指標(biāo)AUC、F1 分別提高0.002 5,0.008 2;在偽造屬性分類任務(wù)中,總體分類準(zhǔn)確率Acc 提高1.23%。
本文研究重點(diǎn)在偽造分類準(zhǔn)確率提升,下一階段將繼續(xù)開展偽造區(qū)域定位提升技術(shù)。