歐靜 文志誠
摘? 要:針對當(dāng)下人臉去手勢遮擋任務(wù)中常出現(xiàn)的結(jié)構(gòu)缺失和紋理模糊等問題,文章提出一種基于邊緣條件和注意力機(jī)制的兩階段修復(fù)網(wǎng)絡(luò)——EmmNet。第一階段網(wǎng)絡(luò)為第二階段細(xì)節(jié)修復(fù)提供邊緣指導(dǎo)信息,以避免出現(xiàn)過度平滑等問題。第二階段網(wǎng)絡(luò)中的并行多擴(kuò)張卷積模塊可在有效擴(kuò)大網(wǎng)絡(luò)感受野的同時提高對有效像素的利用率。此外,注意力模塊可促使網(wǎng)絡(luò)生成具有全局一致性,使研究者獲得符合原圖特征的修復(fù)圖像。實驗結(jié)果表明,EmmNet在去手勢遮擋任務(wù)中可以生成輪廓結(jié)構(gòu)更加完整流暢,細(xì)節(jié)紋理更加清晰自然的人臉圖像。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);生成對抗網(wǎng)絡(luò);人臉修復(fù);注意力機(jī)制
中圖分類號:TP18;TP391.4 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2023)11-0097-05
Research on Face Removal and Removing Gesture Occlusion Restoration Method
Based on Edge Prior
OU Jing, WEN Zhicheng
(Hunan University of Technology, Zhuzhou? 412007, China)
Abstract: Aiming at the problems of lack of structure and blurred texture that often appear in the current face removing gesture occlusion task, this paper proposes a two-stage inpainting network based on edge conditions and attention mechanism—EmmNet. The one-stage network provides edge guidance information for the second-stage detail restoration to avoid problems such as over-smoothing. The parallel multi-expansion convolution module in the second-stage network can effectively expand the network receptive field and improve the utilization of effective pixels. In addition, the attention module can promote global consistency in network generation, enabling researchers to obtain repaired images that match the original image features. The experimental results show that EmmNet can generate a face image with a more complete and smooth outline structure and clear and natural detail texture in the removing gesture occlusion task.
Keywords: Convolutional Neural Network; Generative Adversarial Network; face restoration; attention mechanism
0? 引? 言
人臉圖像去遮擋及修復(fù)作為圖像修復(fù)領(lǐng)域的重要研究課題,具有廣闊的應(yīng)用空間。在安保監(jiān)控領(lǐng)域,監(jiān)控圖像中的人臉信息因受帽子、口罩、手勢等遮擋物影響而造成人臉識別[1]失敗的情況屢見不鮮。通過人臉修復(fù)技術(shù)對被遮擋的人臉圖像進(jìn)行恢復(fù)可以有效提高人臉識別系統(tǒng)在處理被遮擋人臉圖像時的準(zhǔn)確率,因此,人臉修復(fù)結(jié)果更需要尊重原始圖像中人臉的五官特征、膚色發(fā)色以及皮膚生長狀態(tài)和紋理。這就要求所生成的人臉圖像要更加貼合原圖的五官結(jié)構(gòu)和紋理特征,要盡可能地減少色彩誤差和紋理扭曲,提高生成結(jié)果的準(zhǔn)確度。
為此,在圖像生成過程中如何引入必要的先驗知識或特定的假設(shè),以幫助網(wǎng)絡(luò)生成完整合理的人臉面部結(jié)構(gòu)信息成為亟需解決的問題之一。鑒于此,本文提出一種基于邊緣條件和注意力機(jī)制的人臉圖像修復(fù)方法——EmmNet。
整體而言,EmmNet是一個兩階段修復(fù)網(wǎng)絡(luò),第一階段主要完成的任務(wù)是引入修補的邊緣圖像為修復(fù)任務(wù)提供先驗信息以避免結(jié)構(gòu)缺失以及生成圖像過渡平滑的問題,第二階段則進(jìn)行細(xì)節(jié)和紋理層面的修復(fù)。在網(wǎng)絡(luò)的設(shè)計中,我們在第二階段增加了門控卷積以減少修復(fù)過程中無效像素對特征提取的影響。與此同時,我們使用在不同擴(kuò)張率下并行工作的多擴(kuò)張卷積結(jié)構(gòu)來代替?zhèn)鹘y(tǒng)的殘差卷積塊,這樣可以在有效擴(kuò)大感受野的同時進(jìn)一步提高網(wǎng)絡(luò)對有效像素的利用率。在判別器的選擇上,我們采用可在兩個尺度下同時工作的馬爾可夫判別器,該設(shè)計結(jié)構(gòu)可以保證生成圖像結(jié)構(gòu)的一致性,有利于實現(xiàn)穩(wěn)定訓(xùn)練。
經(jīng)過試驗訓(xùn)練,EmmNet在實現(xiàn)手勢遮擋方面取得了較好的效果,在PSNR、SSIM等指標(biāo)上都取得了優(yōu)良的實驗結(jié)果,且在不規(guī)則遮擋實驗測試中也表現(xiàn)出優(yōu)秀的修復(fù)能力。
1? 近期相關(guān)工作
圖像修復(fù)方法一般分為基于傳統(tǒng)數(shù)學(xué)推理思想的方法和基于深度學(xué)習(xí)的方法。就修復(fù)原理而言,修復(fù)網(wǎng)絡(luò)需要充分挖掘和利用不完整圖像中顯式存在的像素信息從而進(jìn)一步推理丟失的圖像內(nèi)容[2]。對于生成的圖像則要求語義連貫,結(jié)構(gòu)完整且局部紋理信息清晰明確。傳統(tǒng)方法在大面積修復(fù)效果上具有較大的局限性且修復(fù)結(jié)構(gòu)中往往存在明顯的結(jié)構(gòu)缺失和紋理模糊等問題,因此,相較于傳統(tǒng)修復(fù)方法,編解碼器結(jié)構(gòu)[3]和生成對抗網(wǎng)絡(luò)[4]的提出為圖像修復(fù)工作提供了全新的思路和方法。
一方面,深度學(xué)習(xí)方法中的各種編碼器—解碼器變體結(jié)構(gòu)等建模方法可以在無監(jiān)督模式下通過對高維數(shù)據(jù)進(jìn)行壓縮編碼來提取圖像中的有效特征信息,進(jìn)而從海量數(shù)據(jù)庫語料中不斷學(xué)習(xí)以擬合訓(xùn)練數(shù)據(jù)集中圖像數(shù)據(jù)在潛在空間中的真實分布。同時,憑借自身優(yōu)秀的“泛化”能力,這些網(wǎng)絡(luò)結(jié)構(gòu)可以以此重構(gòu)出與原始圖像具有相似特征分布的圖像數(shù)據(jù)。然而,基于自編碼器變體的方法本質(zhì)上是一種可以生成新樣本的概率框架,但其生成的圖像結(jié)果往往較為模糊,質(zhì)量較低。另一方面,基于生成對抗網(wǎng)絡(luò)思想而生的網(wǎng)絡(luò)變體結(jié)構(gòu)設(shè)計一系列損失函數(shù),采用對抗博弈的方式對生成器和鑒別器進(jìn)行聯(lián)合訓(xùn)練,使生成器可以改寫噪聲分布并使其可以無限接近于目標(biāo)分布。
2? 提出方法
2.1? 網(wǎng)絡(luò)結(jié)構(gòu)
如圖1所示,EmmNet網(wǎng)絡(luò)由兩階段組成,包括邊緣生成網(wǎng)絡(luò)和紋理生成網(wǎng)絡(luò)。兩個網(wǎng)絡(luò)生成器的兩層下采樣層及兩層上采樣層結(jié)構(gòu)一致,邊緣生成網(wǎng)絡(luò)的特征提取部分由8個堆疊排放的殘差卷積塊組成,紋理生成網(wǎng)絡(luò)的特征提取部分則由8個多擴(kuò)張卷積塊[5]和1個注意力模塊堆疊排列而成。注意力模塊可對經(jīng)過特征提取和推理的特征圖像進(jìn)行進(jìn)一步的特征匹配,促進(jìn)生成圖像的全局一致性。在鑒別器的設(shè)計上,邊緣生成網(wǎng)絡(luò)的鑒別器選用傳統(tǒng)的譜歸一化馬爾可夫鑒別器。紋理生成網(wǎng)絡(luò)則由兩層鑒別器構(gòu)成,第一層鑒別器在原圖尺寸上進(jìn)行判定,第二層鑒別器則在下采樣后的輸出圖像上進(jìn)行判定。多擴(kuò)張卷積塊由四個并行工作擴(kuò)張率分別為(1、2、4、8)的子內(nèi)核構(gòu)成,四個子內(nèi)核的通過數(shù)均為64。隨后將來自四個子內(nèi)核的輸出特征在通道維度上進(jìn)行拼接及特征融合,最后還需與門控值相乘,以此減輕mask中無效元素對特征提取過程的影響。值得注意的是,實驗在確定擴(kuò)張率的組合值時發(fā)現(xiàn)擴(kuò)張率別為(1、3、6、9)的擴(kuò)張卷積在處理256×256的原始圖像時輸出效果略低于(1、2、4、8)。細(xì)節(jié)生成網(wǎng)絡(luò)的鑒別器由于在兩個尺度的輸出圖像中進(jìn)行判定并傳遞損失值,因此可將其看作一個多任務(wù)學(xué)習(xí)過程,可由式(1)來表示:
2.2? 注意力模塊
在細(xì)節(jié)紋理生成網(wǎng)絡(luò)中具有多種擴(kuò)張率融合的局部卷積核逐層處理圖像特征,雖然可以在一定程度上擴(kuò)大局部空間的感受野,但是對于從較遠(yuǎn)空間位置借用特征仍存在局限性。因此引入了注意力機(jī)制,在網(wǎng)絡(luò)特征提取后引入一個新的上下文注意層對經(jīng)過修復(fù)的特征圖譜進(jìn)行注意力計算,使之能夠利用全局信息進(jìn)一步幫助解碼器結(jié)構(gòu)提高圖像的視覺質(zhì)量,特別是在進(jìn)行大結(jié)構(gòu)和長距離紋理模式圖像計算時,效果尤為明顯。注意力的計算原理為從已知的背景圖塊中找尋與當(dāng)前位置關(guān)聯(lián)度較高的圖像特征信息以幫助生成缺失面片。并使用歸一化內(nèi)積(即余弦相似度)來度量二者(可表示為Fi和Fj)之間的相似關(guān)系,假設(shè)? 表示以(ix, iy)和(jx, jy)為中心的特征塊相似性, 用于計算二者之間的親和度。隨后通過矩陣乘法計算F的加權(quán)平均形式為 。最后,將F和? 進(jìn)行拼接并應(yīng)用1×1卷積層保持F的原始通道數(shù)。計算過程如式(2)所示:
經(jīng)實驗驗證,該注意力層可以放置在任何一層特征圖輸出層之后并對其進(jìn)行匹配。然而,注意力計算量與輸入特征圖的尺寸關(guān)系密切且對GPU顯存占用較大,因此本文只在編碼器和特征提取的最后階段使用注意力模塊進(jìn)行處理,該層的特征輸出大小為64×64。我們在試驗中也嘗試在各解碼層后對輸出進(jìn)行特征提取,但均發(fā)生GPU顯存溢出的現(xiàn)象。
2.3? 損失函數(shù)設(shè)置
EmmNet網(wǎng)絡(luò)中邊緣網(wǎng)絡(luò)的聯(lián)合損失函數(shù)由平均絕對誤差、特征匹配損失及對抗損失組成,如式(3)所示。紋理生成網(wǎng)絡(luò)的聯(lián)合損失函數(shù)則由平均絕對誤差、風(fēng)格損失、感知損失及對抗重建損失構(gòu)成,如式(4)所示,其中λx表示損失函數(shù)對應(yīng)的權(quán)重超參數(shù)。
其中,特征匹配損失通過對比修復(fù)結(jié)果的特征圖與原圖特征圖之間的差異返回?fù)p失值,以此提升邊緣生成的準(zhǔn)確度。感知損失的作用原理是對于生成的圖像不僅要關(guān)注像素層級上的重建效果,更要立足于圖像的高層語義特征。風(fēng)格損失函數(shù)計算生成圖像和原圖二者在預(yù)訓(xùn)練網(wǎng)絡(luò)中第i層特征圖譜對應(yīng)的風(fēng)格矩陣間(Gram矩陣)的l1距離,并以此為依據(jù)約束生成圖像的風(fēng)格特征使之獲得向原圖靠近的效果。聯(lián)合損失函數(shù)的設(shè)計既保證了生成內(nèi)容的像素級精度,也在結(jié)構(gòu)語義層級上給予約束。經(jīng)過實驗驗證,超參數(shù)設(shè)置為λadv= 0.1,λfm = 10,λl1 = 1,λperc = 0.1,λstyle = 250。
3? 實驗設(shè)置
為了更有針對性地處理人臉去手勢遮擋任務(wù),我們在訓(xùn)練時采用了由Voo等人[6]提出的手勢遮擋合成方法,用于生成符合日常生活場景下的手勢遮擋效果。CelebA-HQ[7]數(shù)據(jù)集中包含3×104張高清人臉圖像,也是實驗訓(xùn)練中主要使用的人臉數(shù)據(jù),11K Hands數(shù)據(jù)集由Afifi等人[8]提出,其中包含11 076張取自不同性別、不同年齡采集者的正反面手部照片,該數(shù)據(jù)集也是本文實驗中的主要遮擋來源。在測試網(wǎng)絡(luò)性能時我們進(jìn)一步采用了由Liu等人[9]貢獻(xiàn)的不規(guī)則掩碼數(shù)據(jù)集。該數(shù)據(jù)集中包含1.2×104張不規(guī)則掩碼圖像,其掩碼區(qū)域占比從10%擴(kuò)大到60%,以10%的增量遞增。
為了實現(xiàn)數(shù)據(jù)增強(qiáng),所有圖像在進(jìn)入網(wǎng)絡(luò)參與訓(xùn)練前在垂直或水平方向進(jìn)行隨機(jī)翻轉(zhuǎn)。本文實驗均在大小為256×256的圖像上進(jìn)行。硬件設(shè)施為一塊RTX 3090顯卡及12核CPU,實驗環(huán)境為Ubuntu操作系統(tǒng),Python 3.8.10,搭配PyTorch 1.8.1深度學(xué)習(xí)框架及11.7版本CUDA。網(wǎng)絡(luò)初始訓(xùn)練學(xué)習(xí)率為10-4趨于收斂后調(diào)整為10-5,批處理大小為4,Adam優(yōu)化動量分別設(shè)置為0和0.9。
4? 結(jié)果與分析
4.1? 定量分析
為了更加公平地評價對比網(wǎng)絡(luò)與本文網(wǎng)絡(luò)的修復(fù)性能,我們采用普及面最廣的PSNR(峰值信噪比)、SSIM(結(jié)構(gòu)相似性指數(shù))、L1誤差以及LPIPS(圖像感知相似度)對各網(wǎng)絡(luò)的生成結(jié)果進(jìn)行測試。測試圖像尺寸均為256×256,為了保證測試的公平性,實驗使用在Celeba_HQ測試集中隨機(jī)抽樣的1 000張圖片在手勢遮擋的情況下進(jìn)行修復(fù)測試,且對不同的算法在測試時均使用相同的圖像掩碼對,最后對修復(fù)結(jié)果評價指標(biāo)取平均值進(jìn)行比較。
實驗將EdgeConnect[10]、上下文注意力[11](CA)和本文算法EmmNet進(jìn)行對比測試。同時,為了驗證本文方法中各環(huán)節(jié)的有效性提出對比實驗:A組(EdgeConnect + 多擴(kuò)張卷積結(jié)構(gòu));B組(EdgeConnect + Attention結(jié)構(gòu))。本章將就以上五種修復(fù)網(wǎng)絡(luò)各自的輸出結(jié)果進(jìn)行定量和定性分析比較,評價結(jié)果如表1所示。
從表1中可以看出,EmmNet網(wǎng)絡(luò)及其兩個對照組實驗結(jié)果在四個評價指標(biāo)上都獲得了較好的數(shù)值結(jié)果。具體而言,與原網(wǎng)絡(luò)模型相比,EmmNet在結(jié)構(gòu)相似度指標(biāo)上提高了5‰,在峰值信噪比指標(biāo)上提高了0.57,且其圖像感知相似度和L1誤差指標(biāo)均有所降低,這說明網(wǎng)絡(luò)在去手勢遮擋修復(fù)中的生成內(nèi)容更符合人類視覺感知,且與原圖更加接近,失真更少,精度更高。通過觀察對照組實驗指標(biāo)可以發(fā)現(xiàn),相較于原模型,A組(Edge+GM)在PSNR指標(biāo)上增加了0.45,B組(Edge+Att)在PSNR指標(biāo)上增加了0.40。在SSIM指標(biāo)上A組和B組均有所增加,說明多擴(kuò)張卷積塊與注意力結(jié)構(gòu)可以幫助提高整體網(wǎng)絡(luò)的生成性能。
為了更近一步探索EmmNet在不規(guī)則遮擋方面的表現(xiàn)力,我們將其與原EdgeConnect和兩組對照模型在5組不規(guī)則遮擋圖像中進(jìn)行測試,五組掩膜的遮擋面積占比以10%~50%遞增。測試數(shù)據(jù)如表2所示,測試結(jié)果如圖2、圖3所示。與EdgeConnect相比,當(dāng)缺損面積在0%~10%之間時參數(shù)增量最大,達(dá)到4.2,這說明多擴(kuò)張率的卷積結(jié)構(gòu)在關(guān)注較遠(yuǎn)上下文的同時還可以關(guān)注到局部的修復(fù)效果。當(dāng)缺損比達(dá)到50%時,PSNR值分別增加2.35和0.55。LPIPS值縮小0.621,進(jìn)一步說明模型在擴(kuò)大感受野以獲取相似結(jié)構(gòu)以及生成更符合人類視覺特征的紋理信息上具有明顯的優(yōu)勢。
4.2? 定性分析
圖2中列舉了包含原Edgeconnect修復(fù)網(wǎng)絡(luò)、上下文注意力網(wǎng)絡(luò)、本文提出方法以及兩項對照組實驗的部分修復(fù)結(jié)果,圖中紅框標(biāo)識位置為重點對比區(qū)域。從圖中第一行對比結(jié)果中可以看出,即使輸入圖像中已經(jīng)缺失完整的眼、鼻、唇結(jié)構(gòu),EmmNet依舊可以對其進(jìn)行修復(fù),且相比較而言,唇、鼻輪廓完整清晰,眼部結(jié)構(gòu)也十分貼合原圖特征,整體效果流暢自然。從圖中第二三行對比結(jié)果中可以看出,修復(fù)后的圖片雖然與原圖特征略有不同,但眼部結(jié)構(gòu)及細(xì)節(jié)真實自然,難以發(fā)現(xiàn)修復(fù)痕跡。圖中第四行展示了網(wǎng)絡(luò)對面部輪廓的修復(fù)效果,EmmNet的輪廓過度更加自然且沒有出現(xiàn)模糊的現(xiàn)象。相較而言,上下文注意力修復(fù)會引入明顯的偽影和略顯突兀的紋理信息。原EdgeConnect網(wǎng)絡(luò)由于受邊緣輸出的限制會出現(xiàn)結(jié)構(gòu)缺失和弱化的現(xiàn)象,而經(jīng)過改進(jìn)的EmmNet網(wǎng)絡(luò)則完美地結(jié)合了二者的優(yōu)勢,生成的面部圖像結(jié)構(gòu)更加完整合理,細(xì)節(jié)紋理也更為清晰,符合人類的視覺感知。
5? 結(jié)? 論
本文針對人臉去手勢遮擋任務(wù)提出一種基于邊緣條件和注意力機(jī)制的兩階段修復(fù)網(wǎng)絡(luò)——EmmNet。由于人臉圖像具有鮮明的結(jié)構(gòu)特征,因此加深對其結(jié)構(gòu)的把握可以有效提升圖像的修復(fù)效果。針對這一特征我們采用邊緣這一輔助的預(yù)測信息指導(dǎo)修復(fù)過程,促進(jìn)網(wǎng)絡(luò)對人臉五官結(jié)構(gòu)的重塑。為了加強(qiáng)對有效像素的利用,網(wǎng)絡(luò)放棄了直接堆疊的單擴(kuò)張率空洞卷積而采用具有不同擴(kuò)張率的卷積并行結(jié)構(gòu),以此提高對真實像素點的利用率。此外,注意力模塊的使用也可以幫助缺失區(qū)域匹配相似的信息,提高圖像的全局和局部一致性。
參考文獻(xiàn):
[1] 劉曉磊.基于生成對抗網(wǎng)絡(luò)的口罩遮擋人臉修復(fù)與識別的研究 [D].成都:電子科技大學(xué),2022.
[2] 羅海銀,鄭鈺輝.圖像修復(fù)方法研究綜述 [J].計算機(jī)科學(xué)與探索,2022,16(10):2193-2218.
[3] RUMELHART D E,HINTON G E,WILLIAMS R J. Learning internal representations by error propagation [EB/OL].[2023-03-12].https://dl.acm.org/doi/10.5555/65669.104449.
[4] GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al. Generative adversarial nets [J/OL].arXiv:1406.2661v1 [stat.ML].[2023-03-15].https://arxiv.org/pdf/1406.2661v1.pdf.
[5] ZENG Y,F(xiàn)U J,CHAO H,et al. Aggregated contextual transformations for high-resolution image inpainting [J/OL].arXiv:2104.01431 [cs.CV].[2023-03-05].https://arxiv.org/abs/2104.01431.
[6] VOO K T R,JIANG L M,LOY C C. Delving into high-quality synthetic face occlusion segmentation datasets [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New Orleans:IEEE,2022:4711-4720.
[7] LEE C H,LIU Z W,WU L Y,et al. Maskgan: Towards diverse and interactive facial image manipulation [EB/OL].[2023-02-25].https://www.zhangqiaokeyan.com/academic-conference-foreign_meeting_thesis/020515722406.html.
[8] AFIFI M. 11K Hands: Gender recognition and biometric identification using a large dataset of hand images [J].Multimedia Tools and Applications,2019,78(15):20835-20854.
[9] LIU G,REDA F A,SHIH K J,et al. Image inpainting for irregular holes using partial convolutions [EB/OL].[2023-02-29].https://openaccess.thecvf.com/content_ECCV_2018/html/Guilin_Liu_Image_Inpainting_for_ECCV_2018_paper.html.
[10] NAZERI K,NG E,JOSEPH T,et al. EdgeConnect: generative image inpainting with adversarial edge learning [J/OL].arXiv:1901.00212 [cs.CV].[2023-02-14].https://arxiv.org/abs/1901.00212.
[11] YU J H,LIN Z,YANG J M,et al. Generative image inpainting with contextual attention [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE,2018:5505-5514.
作者簡介:歐靜(1997—),女,漢族,陜西漢中人,碩士研究生在讀,研究方向:計算機(jī)視覺、圖像生成與分析;通訊作者:文志誠(1972—),男,漢族,湖南東安人,教授,碩士研究生導(dǎo)師,博士研究生,研究方向:計算機(jī)視覺、數(shù)字圖像處理、模式識別。
收稿日期:2023-04-07