国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像修復方法研究綜述

2022-10-16 05:50羅海銀鄭鈺輝
計算機與生活 2022年10期
關(guān)鍵詞:紋理卷積圖像

羅海銀,鄭鈺輝

1.南京信息工程大學 計算機學院、軟件學院、網(wǎng)絡空間安全學院,南京210044

2.南京信息工程大學 數(shù)字取證教育部工程研究中心,南京210044

圖像修復技術(shù)最早源于藝術(shù)家們通過修復受損的藝術(shù)繪畫或照片,使其質(zhì)量盡可能地接近原始圖像。在計算機視覺和圖形環(huán)境中,它通常被定義為恢復破損圖像缺失區(qū)域像素,使觀察者無法察覺圖像曾經(jīng)缺損或已被修復。圖像修復既是計算機視覺任務中的基礎技術(shù),又是圖像處理任務的重要組成部分,也是目前比較有前景的研究領域之一。圖1給出了圖像修復示例圖。

圖1 圖像修復示例圖Fig.1 Example of image inpainting

圖像修復的意義不僅僅在于目前研究方法的逐步改進,更在于其在實際生活中的應用,主要應用于:(1)對象移除。刪除圖像中不需要的對象并修復對象遮擋區(qū)域,可視為圖像篡改的一種特殊任務。(2)修復圖像。修復圖像中因處理不當造成的像素丟失,例如劃痕、泛黃等。(3)圖片修飾。對不同人員的照片進行修飾,去除皺紋、痣等面部特征。(4)文字移除。刪除圖像中不需要的文字、水印、照片日期等文字目標并修復圖像。因此該研究具有極大的發(fā)展前景,也受到研究人員的廣泛研究。

傳統(tǒng)的圖像修復方法利用圖像樣本相似度、結(jié)構(gòu)紋理一致性等思想,結(jié)合數(shù)學、物理理論構(gòu)建算法模型修復小區(qū)域破損圖像。然而當修復大程度破損區(qū)域或具有混合語義紋理、復雜結(jié)構(gòu)圖像時,其生成修復圖像與原始圖像差異較大。這是由于傳統(tǒng)圖像修復方法無法有效獲取圖像深層特征信息,例如內(nèi)容對象、內(nèi)容語義信息等。

伴隨深度學習技術(shù)的崛起,研究者嘗試引入深度學習模型于計算機視覺任務中并卓有成效。受此啟發(fā),基于深度學習的圖像修復方法應運而生,它通過在深度模型基礎上引入不同的約束條件優(yōu)化模型修復圖像。其中,修復效果較為突出的深度學習模型有Rumelhart 等人提出的自編碼器(auto-encoder,AE)、Ronneberger 等人提出的U-Net、Goodfellow等人提出的生成對抗網(wǎng)絡(generative adversarial network,GAN)、Vaswani 等人提出的Transformer等。它們通過訓練深度模型獲取圖像高層語義信息,學習圖像結(jié)構(gòu)紋理信息修復大區(qū)域破損圖像,這類方法解決了傳統(tǒng)圖像修復不足的問題,并且取得了出色的修復效果。

盡管圖像修復任務在計算機視覺領域占據(jù)著重要地位,然而相關(guān)的全面綜述性工作少之又少?;诖?,本文針對圖像修復方法進行了系統(tǒng)性全面研究,分析并闡述了不同類型的圖像修復方法、常用數(shù)據(jù)集、評價指標、方法實驗對比、不足及未來展望。同時希望本文的研究內(nèi)容能給予相關(guān)研究工作者一定的幫助。

1 傳統(tǒng)圖像修復方法

傳統(tǒng)圖像修復方法通常依據(jù)破損圖像內(nèi)容、結(jié)構(gòu)以及紋理間的相似性預測圖像缺失區(qū)域像素,根據(jù)修復思想的不同,它可以被分為基于偏微分方程(partial differential equation,PDE)的圖像修復方法和基于樣本的圖像修復方法。

1.1 基于偏微分方程的圖像修復方法

基于偏微分方程的圖像修復方法又叫基于擴散的方法,它是指利用數(shù)學或物理學中的偏微分方程,將圖像已知區(qū)域像素平滑傳播到缺失區(qū)域中以修復破損圖像?;谄⒎址匠痰膱D像修復方法特點如表1 所示。表中顯示出了不同修復方法的使用思想、方法優(yōu)勢以及方法局限性。

表1 基于偏微分方程的圖像修復方法特點Table 1 Characteristics of image inpainting methods based on partial differential equation

該類方法最初由Bertalmio 等人將PDE 思想引入圖像修復任務,提出了BSCB(Bertalmio-Sapiro-Caselles-Ballester)模型,他們將圖像已知信息沿等光線方向平滑傳播于缺失區(qū)域,以自動修復圖像;隨后,Bertalmio 等人接連提出通過圖像灰度級和向量場的聯(lián)合插值填充圖像和使用流體動力學將等光線平滑傳播到待修復區(qū)域,然而這些方法均不能修復大尺度破損或具有復雜紋理的圖像。

受此啟發(fā),Chan 和Shen 引入整體變分(total variation,TV)模型于修復任務中,通過最小化能量泛函已完成圖像補全;同年他們繼續(xù)改進TV 模型繼而提出了利用曲率驅(qū)動擴散思想的CDD(curvature driven diffusion)模型、Mumford-Shah-Euler 模型、Euler's Elastica 模型以解決TV 模型修復局限性。

同時,越來越多的研究者也通過新的優(yōu)化思想改進以上模型。周密等人通過對破損區(qū)域邊緣各個參考點設置權(quán)值來確定其對目標區(qū)域的影響程度,以改進TV 模型不足;田艷艷等人則是提出了非線性擴散模型改進CDD 模型,以穩(wěn)定梯度值較小的等照度線;李薇等人在BSCB 模型基礎上,使用各向同性擴散進行快速信息推進,再使用各向異性擴散沿等照度方向進行信息擴散以修復圖像;而劉庚龍等人于TV 模型中引入邊界引導函數(shù)保證圖像邊緣清晰、過渡自然。

上述基于PDE 的圖像修復方法修復小區(qū)域破損圖像時,可以生成合理的紋理樣本;然而當缺失區(qū)域較大時,該類方法在傳播過程中會導致修復時間過長且修復圖像模糊不清晰,因而無法產(chǎn)生良好的修復結(jié)果。

1.2 基于樣本的圖像修復方法

基于樣本的圖像修復方法通過計算并搜索破損圖像缺失區(qū)域與已知區(qū)域相似度最高的樣本,并將其復制粘貼到缺失區(qū)域內(nèi)以修復破損圖像?;跇颖镜膱D像修復方法特點如表2 所示。

表2 基于樣本的圖像修復方法特點Table 2 Characteristics of image inpainting methods based on patch

最初,Efros 和Leung 提出了基于馬爾科夫隨機場的非參數(shù)紋理合成修復方法,但它需要花費大量時間來計算樣本間相似度分數(shù);基于此,Wei和Levoy等人(后簡稱為WL 算法)使用了多分辨率金字塔結(jié)構(gòu)設計以減少計算時間;受其啟發(fā),Ashikhmin改進WL 算法以加快算法修復速度且生成合理自然的紋理樣本。之后研究者試圖使用圖像已知內(nèi)容補全圖像,Drori 等人通過已知圖像訓練集上下文內(nèi)容指導算法迭代完全圖像修復;同時,Levin 等人則于修復任務中引入統(tǒng)計學思想,通過基于局部特征的直方圖在圖像上構(gòu)建指數(shù)族分布尋找與已知圖像最為相似的樣本。

為了獲得圖像的結(jié)構(gòu)和紋理信息,Criminisi等人在Efros 模型基礎上復制結(jié)構(gòu)和紋理信息傳播到破損圖像的缺失區(qū)域,但Criminisi 算法使用的計算相似度函數(shù)相對不穩(wěn)定導致樣本填充次序錯誤。針對Criminisi 算法填充次序不準確,張申華等人引入曲率和梯度信息以獲得更加可靠的樣本修復次序;方寶龍等人則通過在Criminisi 算法優(yōu)先權(quán)函數(shù)中引入像素間顏色差值信息;趙娜等人使用馬爾科夫隨機場作為Criminisi 算法的匹配準則以提高圖像紋理細節(jié);Barnes 等人通過使用快速最近鄰算法搜索相似度最高的樣本,它可以降低搜索過程中的內(nèi)存消耗和計算成本。

上述方法通常適用于破損圖像已知區(qū)域與缺失區(qū)域具有相似紋理樣本的情況,為了解決這一不足,Hays 等人在外部數(shù)據(jù)庫中搜索與破損圖像相似的圖像,提取相似圖像的區(qū)域信息用于填充破損圖像,然而當外部數(shù)據(jù)庫中沒有與破損圖像相似的圖像時,檢索數(shù)據(jù)庫會花費大量時間并且難以獲得高質(zhì)量的修復結(jié)果。

基于樣本的圖像修復方法對于缺失區(qū)域較大且紋理結(jié)構(gòu)簡單的圖像修復可以生成高質(zhì)量的修復結(jié)果,但計算樣本間相似度需要大量時間;同時,由于無法獲得圖像高層語義信息,在修復結(jié)構(gòu)和紋理復雜的破損圖像時,會出現(xiàn)語義錯誤、邊緣斷層等不足。

1.3 傳統(tǒng)圖像修復方法局限性

傳統(tǒng)圖像修復方法雖然在修復簡單紋理圖像時可以生成合理的圖像樣本,然而由于缺乏對圖像高層語義的理解,這類方法修復復雜結(jié)構(gòu)圖像時無法產(chǎn)生語義一致且視覺合理的修復結(jié)果。隨著深度學習的深入研究,越來越多的研究者試圖將深度學習模型引入圖像修復中,生成更好的修復結(jié)果。

2 基于深度學習的圖像修復方法

近年來,隨著深度學習在圖像處理任務的深入研究并卓有成效,不少研究者們也開始研究深度學習的圖像修復技術(shù),他們嘗試引入不同的深度技術(shù)來實現(xiàn)圖像修復并提出了大量的修復方法。本文依據(jù)生成圖像數(shù)量的不同,將其分為單元圖像修復方法和多元圖像修復方法?;谏疃葘W習的圖像修復方法整體分類如圖2 所示。其中,單元圖像修復方法指對于單張輸入圖像生成單張修復圖像,這也是當前圖像修復任務中最常見的修復方法。多元圖像修復方法指對于單張輸入圖像生成多張修復圖像,這是近幾年開始興起的圖像修復方法。

圖2 基于深度學習的圖像修復方法整體分類Fig.2 Overall classification of image inpainting methods based on deep learning

2.1 單元圖像修復方法

由于單元圖像修復方法是修復領域主流研究方向,為了更好地分類并分析這類方法,本文依據(jù)模型結(jié)構(gòu)類型不同,將低分辨率圖像修復方法細分為Encoder-Decoder 類、U-Net 類、GAN 類和Transformer類。其中部分修復方法可能同時包含多種修復思想,因此本文分類時僅依據(jù)其重要修復思想來確定分類。

Encoder-Decoder是一種由自編碼器(AE)衍生的模型結(jié)構(gòu),其模型結(jié)構(gòu)如圖3 所示。它由編碼器、解碼器組成,其中編碼器可以將輸入數(shù)據(jù)壓縮為潛在空間表示,解碼器將習得特征進行重構(gòu)并輸出。它可以有效利用圖像已知內(nèi)容信息,生成與原圖像較為相似的內(nèi)容,在修復任務中效果優(yōu)越,同時由于其模型結(jié)構(gòu)較為簡單,Encoder-Decoder 類方法已逐漸成為近些年較為流行的修復方法,Encoder-Decoder 類圖像修復方法特點如表3 所示。表中顯示出了不同修復方法的應用圖像分辨率、損失函數(shù)、方法類型、方法優(yōu)勢以及方法局限性。

圖3 編碼器-解碼器模型結(jié)構(gòu)Fig.3 Structure of Encoder-Decoder model

表3 Encoder-Decoder類圖像修復方法特點Table 3 Characteristics of Encoder-Decoder image inpainting methods

Encoder-Decoder 類較為經(jīng)典的方法為Pathak 等人提出的基于上下文信息的無監(jiān)督特征語義修復方法CE(context encoders)。它可以根據(jù)圖像缺失區(qū)域周圍特征信息生成圖像任意區(qū)域內(nèi)容,設計了上下文編碼器結(jié)構(gòu)結(jié)合生成對抗思想來修復圖像,并使用重建損失聯(lián)合對抗損失訓練上下文編碼器。其中,重建損失旨在獲取圖像缺失區(qū)域的語義信息并保證修復圖像上下文連貫性,對抗損失則確保修復圖像更加真實;然而,其對抗損失僅應用于圖像缺失區(qū)域,忽略了圖像全局區(qū)域,這一設計會使修復圖像出現(xiàn)邊緣連接不連續(xù)且整體結(jié)構(gòu)不一致。

針對CE不足,Iizuka 等人引入上下文局部鑒別器用于生成圖像全局和局部語義一致的修復圖像,同時模型引入了空洞卷積層增加獲取特征的感受野。Liao 等人在CE基礎上提出了邊緣感知上下文編碼器預測圖像邊緣結(jié)構(gòu),并使用全卷積網(wǎng)絡補全圖像邊緣信息,然后輸入修復邊緣圖、破損圖像于改進CE以實現(xiàn)圖像補全。Vo 等人通過引入結(jié)構(gòu)損失于CE模型的第一個訓練階段,第二個訓練階段則是使用對抗損失優(yōu)化模型結(jié)構(gòu),這一設計可以實現(xiàn)各種視覺場景的結(jié)構(gòu)修復。

為了獲得圖像結(jié)構(gòu)合理的實驗結(jié)果,研究者嘗試引入先驗信息指導圖像結(jié)構(gòu)修復,Yang 等人設計使用殘差塊替代CE中的卷積層設計了一個空間上下文編碼器聯(lián)合結(jié)構(gòu)嵌入為生成器提供結(jié)構(gòu)先驗信息,并試圖訓練一個共享生成器同時修復破損圖像結(jié)構(gòu)(邊緣和梯度)信息來補全圖像。Cao 等人繼續(xù)通過編碼器-解碼器學習草圖張量空間來恢復圖像的邊緣、線條和連接點進而對圖像整體結(jié)構(gòu)進行可靠預測,同時作者在網(wǎng)絡中引入了門控卷積和高效注意力模塊,以節(jié)約成本的條件下顯著提高模型性能。Wang 等人使用多列結(jié)構(gòu)將圖像分解為具有不同感受野和特征分辨率的分量以預測不同尺度圖像的全局和局部結(jié)構(gòu)特征信息,同時聯(lián)合隱式多樣化馬爾科夫隨機場項將獲得的預測結(jié)構(gòu)信息擴散到缺失區(qū)域。

針對簡單編解碼器結(jié)構(gòu)的不足,Liu 等人提出了一種交互編碼器-解碼器網(wǎng)絡,使用多尺度思想聯(lián)合修復圖像的結(jié)構(gòu)和紋理信息,并聯(lián)合雙邊傳播激活函數(shù)來均衡圖像結(jié)構(gòu)和紋理特征一致性,它有效去除了缺失區(qū)域周圍的模糊和偽影。劉微容等人提出一個多級解碼網(wǎng)絡,使用一個主解碼器和多個副解碼器細化編碼階段各層特征信息,這一設計可以充分利用不同尺度的圖像特征信息并生成更加精確、視覺合理的修復結(jié)果。

上述兩階段網(wǎng)絡結(jié)構(gòu)的圖像修復方法需要堆疊卷積層獲取圖像特征信息。因此其會消耗較大的計算成本。針對這一局限性,Sagong 等人提出了一個由共享編碼網(wǎng)絡和并行解碼網(wǎng)絡組成的圖像修復方法,以減少修復計算成本和測試時間;并使用語義注意力模塊(contextual attention module,CAM)重建圖像語義特征信息進而生成語義合理的修復圖像。之后,Sagong 等人繼續(xù)在PESPI的基礎上提出了速率自適應擴張卷積層,根據(jù)給定的擴張速率獲得特征信息從而降低成本;同時設計了區(qū)域集成鑒別器集成全局和局部鑒別器,通過單獨計算每個像素的對抗損失用于處理任意形狀的缺失區(qū)域。Suin 等人則使用知識蒸餾思想和注意力轉(zhuǎn)移技術(shù)實現(xiàn)主編解碼器和輔助編解碼器的圖像信息轉(zhuǎn)移;此外,作者設計了一個像素全局-局部一致結(jié)構(gòu)用于融合圖像全局與局部特征信息。文獻[41,43-44]可以在不明顯降低修復效果的同時,有效降低模型的參數(shù)量和計算量。

之前的修復方法僅僅利用了圖像自身特征,卻忽略了對應掩碼信息?;诖?,Yu 等人使用空間區(qū)域歸一化替換特征歸一化,以對缺失區(qū)域和已知區(qū)域像素進行歸一化并預測圖像可能存在的缺失區(qū)域,它可以有效提高損壞區(qū)域重建能力,且RN 模塊為即插即用模塊使用方便,但其對于具有混合場景圖像的修復難以生成合理的區(qū)域劃分。Zhu 等人在編碼器中引入了掩碼感知動態(tài)濾波模塊直接利用掩碼信息處理任意形狀的缺失區(qū)域;同時作者設計了恢復解碼器和細化解碼器聯(lián)合逐像素歸一化更好地利用掩碼信息進而細化圖像特征。李健等人設計了雙編碼器模型分別對圖像和掩碼進行編碼,使用掩碼信息重建圖像樣本生成;同時在圖像生成階段使用跳躍連接加快模型收斂。

為了提高修復圖像的質(zhì)量,Xu 等人在編碼器、解碼器中結(jié)合補丁匹配、檢索和生成機制從背景區(qū)域中提取圖像樣本的紋理信息引導紋理生成,它結(jié)合了基于樣本和基于深度學習的優(yōu)點,使用反向傳播的補丁匹配和檢索紋理記憶修復圖像。Wang等人設計了一個多分辨率部分卷積的并行修復網(wǎng)絡,低分辨率分支修復全局結(jié)構(gòu),高分辨率分支修復局部紋理細節(jié);此外,模型結(jié)合掩碼感知和注意力引導圖像結(jié)構(gòu)和紋理信息的生成。

雖然圖像修復方法取得了極大進展,但在細粒度和大區(qū)域的修復方面仍存在很大的提升空間。據(jù)此,曹承瑞等人提出在AE中使用多級注意力進行特征信息傳播以實現(xiàn)不同尺度的圖像特征細化修復。Yu 等人在編解碼器中引入小波變換思想分別在多個頻帶上進行圖像修復;且使用頻域注意力歸一化,將注意力從低頻聚合到高頻以對齊和融合多頻特征,它可以確??珙l段的特征一致性并能夠有效抑制偽影和保留紋理細節(jié)。

現(xiàn)存圖像修復方法生成高分辨率圖像時存在顏色不一致的偽影現(xiàn)象,針對這一不足,Song 等人將修復任務分為推理和翻譯階段,其中推理階段根據(jù)樣本間相似度將缺失區(qū)域內(nèi)的每個神經(jīng)樣本替換為邊界上最相似樣本,翻譯階段學習交換特征圖特征信息進而映射出完整且清晰的修復圖像。Wang等人引入外部-內(nèi)部修復思想于修復任務中,在外部學習階段重建圖像缺失結(jié)構(gòu)和細節(jié),在內(nèi)部學習階段使用漸進式內(nèi)部顏色傳播方法實現(xiàn)顏色一致修復,它可以生成有效結(jié)構(gòu)且視覺上優(yōu)秀的修復結(jié)果,且能夠有效消除顏色不一致的偽影。

U-Net為Ronneberger等人提出的用于圖像分割領域的一種深度網(wǎng)絡結(jié)構(gòu),它基于全卷積網(wǎng)絡改進而來,其網(wǎng)絡結(jié)構(gòu)如圖4 所示。它由左側(cè)下采樣路徑和右側(cè)上采樣路徑組成,并使用跳躍連接融合不同尺度的圖像特征。右側(cè)最后一個上采樣卷積輸出特征是由左側(cè)第一個下采樣卷積輸出特征與其上一個上采樣卷積輸出特征融合得到,以此類推。受該特征融合方式啟發(fā),研究者們嘗試使用U-Net 結(jié)構(gòu)進行圖像修復,它獨特的特征融合方式可以學習圖像不同尺度的特征信息并進而重建出合理的圖像紋理和結(jié)構(gòu)?;诖?,U-Net被廣泛應用于圖像修復中并衍生出大量的圖像修復方法,U-Net 類圖像修復方法特點如表4 所示。

表4 U-Net類圖像修復方法特點Table 4 Characteristics of U-Net image inpainting methods

圖4 U-Net模型結(jié)構(gòu)Fig.4 Structure of U-Net model

U-Net類方法最初由Yan等人提出在U-Net結(jié)構(gòu)中引入移位連接(shift connection,SC)層的圖像修復方法Shift-Net,它使用SC 層替換全連接層以轉(zhuǎn)移圖像背景區(qū)域特征信息,這一設計可以處理任意形狀的缺失區(qū)域,并且可以在更短的時間內(nèi)得到更加精細的紋理和視覺上合理的修復結(jié)果。Guo 等人使用U-Net 思想提出了一種全分辨率殘差網(wǎng)絡(full-resolution residual network,F(xiàn)RRN)用于逐步修復不規(guī)則缺失區(qū)域,F(xiàn)RRN 由多個全分辨率殘差塊(full-resolution residual block,F(xiàn)RRB)和空洞模塊構(gòu)成,其中FRRB 有助于網(wǎng)絡收斂和紋理預測,空洞模塊有助于增加特征感受野,然而它需要較大的模型參數(shù)量。

針對修復結(jié)果存在顏色差異、模糊和邊緣不一致不足,Liu 等人在U-Net 結(jié)構(gòu)中使用帶有自動掩碼更新的部分卷積來實現(xiàn)圖像修復且無需任何額外后處理操作,有效消除了偽影問題,但其自動更新掩碼機制存在不穩(wěn)定性。Hong 等人采用融合塊作為自適應模塊,將圖像的未知區(qū)域與原始圖像結(jié)合起來,使結(jié)構(gòu)和紋理信息可以自然地從已知區(qū)域傳播到缺失區(qū)域中,它可以生成平滑的邊緣過渡細節(jié)。

隨后,Zeng 等人在U-Net 結(jié)構(gòu)上引入了多尺度編解碼器結(jié)構(gòu),并且在模型中逐層使用注意力轉(zhuǎn)移網(wǎng)絡從深到淺地逐層填充圖像的缺失區(qū)域;同時作者使用跳躍連接將從注意力轉(zhuǎn)移網(wǎng)絡學習到的重構(gòu)特征和潛在特征解碼得到修復圖像以確保圖像的視覺和語義修復結(jié)果。Qin 等人則是基于U-Net 結(jié)構(gòu)引入了多尺度注意力單元以捕獲不同感受野的深層特征,且設計了基于最大感受野的掩碼更新思想旨在預測邊緣區(qū)域像素。Wang 等人在U-Net編碼器中采用分層金字塔卷積和動態(tài)歸一化機制以獲取不同感受野的圖像特征圖,解碼器中使用金字塔注意力機制以學習更加精細的特征信息。

上述圖像修復方法缺乏考慮圖像全局和局部像素連續(xù)性,Liu 等人設計了一種連貫語義注意層(coherent semantic attention,CSA),將其引入U-Net結(jié)構(gòu)中以預測圖像缺失內(nèi)容,它可以保留圖像上下文結(jié)構(gòu),并且學習有效的圖像缺失區(qū)域特征間的語義相關(guān)性;然而CSA難以學習圖像缺失區(qū)域和已知區(qū)域間的對應關(guān)系,可能會導致修復結(jié)果出現(xiàn)偽影,且它需要計算整個特征圖的樣本間相似度,計算成本高。Quan 等人設計了一個具有小感受野的局部細化網(wǎng)絡獲取圖像局部結(jié)構(gòu)和紋理細節(jié),一個基于注意力的具有大感受野的全局細化網(wǎng)絡進一步提高圖像修復結(jié)果。

針對圖像缺失區(qū)域信息未被充分利用,Xie等人在U-Net 結(jié)構(gòu)上引入了可學習的注意力圖模塊用于端到端的學習特征重新歸一化并自動更新掩碼,這一設計能夠有效地適應不規(guī)則孔洞和卷積層的傳播;同時作者使用正向和反向注意力圖構(gòu)成可學習的雙向注意圖,促使其解碼器更加專注于填充不規(guī)則的缺失區(qū)域。Wang 等人提出了一個包括掩碼預測和魯棒修復的兩階段視覺一致性網(wǎng)絡用于盲修復任務,掩碼預測階段預測掩碼區(qū)域,魯棒修復使用概率上下文歸一化方法修復預測掩碼區(qū)域;該方法對視覺不一致的圖像具有魯棒性,有利于各種圖像修復任務,實際應用更廣。Wang 等人使用動態(tài)選擇機制區(qū)分圖像已知區(qū)域和未知區(qū)域,有效學習已知區(qū)域特征信息,并且作者設計了可遷移卷積動態(tài)選擇空間卷積位置、區(qū)域復合歸一化融合三種歸一化方法動態(tài)歸一化圖像已知區(qū)域。

雖然之前的結(jié)構(gòu)指導圖像修復方法取得了較大進展,然而它們往往難以生成有意義的圖像結(jié)構(gòu)。據(jù)此,Li 等人在U-Net 結(jié)構(gòu)中重復堆疊了四個視覺結(jié)構(gòu)重建層構(gòu)成生成器,旨在逐步恢復圖像視覺結(jié)構(gòu);鑒別器由PatchGAN鑒別器與光譜歸一化相結(jié)合組成;它可以幫助模型逐步恢復丟失的結(jié)構(gòu)(邊緣)進而生成圖像丟失的細節(jié)。Liao 等人設計了語義引導和評估機制,相互作用以為破損圖像生成準確的語義信息指導圖像修復可以有效地提高圖像修復的性能。Guo 等人將圖像修復任務分為結(jié)構(gòu)約束的紋理合成和紋理引導的結(jié)構(gòu)重建兩個相互作用的子任務,它們單獨建模并相互補充相互作用以獲得更合理的生成樣本。

為了更好地修復具有復雜背景的圖像,Wang 等人將U-Net底層卷積層替換為擴張卷積并使用多尺度注意力模塊,設計了一個U-Net生成器以使生成結(jié)果更為清晰;同時引入風格損失和感知損失優(yōu)化模型以生成一致的圖像風格,引入對抗損失以生成精細的紋理細節(jié)。Liao 等人使用U-Net 架構(gòu)聯(lián)合語義注意傳播模塊獲取圖像遠距離語義相關(guān)性,進而跨尺度細化完整的圖像紋理;同時作者還提出了樣本和結(jié)構(gòu)相關(guān)性損失來確保修復圖像的整體結(jié)構(gòu)和詳細紋理的一致性。Li 等人設計了一個即插即用的循環(huán)特征推理模塊,它利用相鄰像素間相關(guān)性加強預測深層像素的約束,進而以較低的計算成本增強了網(wǎng)絡的修復能力。

現(xiàn)存基于CNN(convolutional neural network)的圖像修復方法一般選擇通過堆疊卷積層來建立遠距離特征之間的聯(lián)系,但是由于模型深度增加而導致了模型訓練時間長、參數(shù)大等問題?;诖耍琘i 等人通過加權(quán)聚合來自上下文樣本殘差作為缺失內(nèi)容生成高頻殘差,因此其只需要粗略的低分辨率預測結(jié)果;同時作者使用了注意力模塊計算注意力得分,并在U-Net結(jié)構(gòu)上進行注意力轉(zhuǎn)移,這一設計可以在多尺度上提升圖像修復質(zhì)量;此外,作者還設計了一個輕量級門控卷積網(wǎng)絡降低模型內(nèi)存成本和計算時間。

GAN是由Goodfellow 等人提出的一種利用零和博弈思想預測生成模型的網(wǎng)絡框架,其框架結(jié)構(gòu)如圖5 所示。它由生成器(generator,G)和鑒別器(discriminator,D)組成,其中G 根據(jù)隨機噪聲生成圖像,D 用于判斷生成圖像是否真實,G 和D 不斷博弈直至達到平衡。正因這種對抗思想,生成圖像能更接近原始圖像,因此研究人員嘗試將GAN 思想引入圖像修復任務并取得了較優(yōu)的修復結(jié)果。CE是首次將生成對抗思想應用于圖像修復任務的嘗試,并且取得了有效的進展,這為后續(xù)圖像修復的研究提供了堅實的基礎。GAN 類圖像修復方法特點如表5所示。

表5 GAN 類圖像修復方法特點Table 5 Characteristics of GAN image inpainting methods

圖5 生成對抗網(wǎng)絡模型結(jié)構(gòu)Fig.5 Structure of GAN model

由于GAN更適用于人臉圖像的修復,Yeh等人使用預訓練的深度卷積GAN(deep convolution GAN,DCGAN),結(jié)合先驗知識和上下文損失來預測缺失區(qū)域內(nèi)容,然而預訓練的GAN 不穩(wěn)定,容易坍塌。Li等人則在CE基礎上加入了解析網(wǎng)絡確保生成樣本更加逼真,局部鑒別器獲取人臉圖像局部細節(jié)。Sun 等人使用DCGAN設計了一個基于U-Net的面部標志生成器生成合理且逼真的頭部修復細節(jié)。

之后,Dolhansky 等人則是設計了一個示例GAN,利用已知區(qū)域的示例信息來實現(xiàn)自然圖片的閉眼修復。Liao 等人使用協(xié)作GAN 聯(lián)合學習圖像的語義分割、地標檢測和面部補全任務,以實現(xiàn)結(jié)構(gòu)準確的面部修復。其后,為了生成視覺合理的人臉面部結(jié)構(gòu),Zhang 等人設計了一個域嵌入GAN,通過分層變分AE將三種人臉特征嵌入到空間中,并使用兩個基于PatchGAN的鑒別器來判斷人臉面部是否真實。

由于CNN無法捕獲遠距離特征,當在修復高分辨率圖像時,會生成模糊且邊界不一致的偽影。據(jù)此,Yang 等人提出了內(nèi)容約束和紋理約束兩個步驟修復圖像,其中內(nèi)容約束通過訓練CE生成器預測粗略修復結(jié)果,紋理約束使用多尺度神經(jīng)樣本合成方法重復計算局部神經(jīng)樣本相似度以預測圖像紋理細節(jié)。為解決文獻[84]修復大缺失區(qū)域時會出現(xiàn)偽影的不足,Zeng 等人使用每次迭代中置信度值最高的像素來逐步填充缺失區(qū)域,并在下次迭代中根據(jù)置信度值關(guān)注剩余像素,這一設計將先前迭代像素視作已知區(qū)域,可以逐步改善修復結(jié)果;同時模型使用指導上采樣網(wǎng)絡并引入語義注意力模塊實現(xiàn)高分辨率圖像修復。文獻[84-85]雖然可以修復高分辨率圖像的精細紋理細節(jié),然其需要重復迭代計算相似度,計算資源大。

為了消除修復圖像偽影生成且生成更高質(zhì)量的高分辨率修復結(jié)果,Yu 等人引入空洞卷積于修復網(wǎng)絡中以擴大卷積層感受野,且使用上下文注意模塊遠距離尋找最相似的樣本塊填充圖像;同時作者在模型中引入了全局和局部Wasserstein GAN聯(lián)合空間衰減重建損失以提高訓練穩(wěn)定性和速度。然而文獻[42]沒有考慮缺失區(qū)域內(nèi)部特征間的相似性,修復結(jié)果會出現(xiàn)邊緣偽影、邊界像素不一致的現(xiàn)象?;诖?,Yu 等人提出了一個用戶草圖指導圖像修復的方法,通過引入門控卷積解決卷積層錯誤判斷像素的不足,并且使其可以提高圖像顏色一致性和修復不規(guī)則區(qū)域圖像質(zhì)量;同時作者提出了一個修復不規(guī)則缺失區(qū)域的樣本鑒別器SN-PatchGAN,以生成高質(zhì)量的修復結(jié)果并加快訓練速度。

上述方法缺少結(jié)構(gòu)信息,這會導致不同物體間的邊界模糊,基于此,Song 等人首次將語義分割引入修復任務,提出了先分割后修復的方法,它首先使用生成器預測分割標簽,接著使用分割信息引導修復,最后使用多尺度PatchGAN的鑒別器判斷生成圖像真假。然而當破損圖像背景混亂或冗雜時,圖像語義信息較難準確區(qū)分,因此Xiong 等人首先使用深度模型學習圖像前景特征以預測輪廓信息,并使用由PatchGAN組成的輪廓鑒別器判別預測輪廓,之后使用預測輪廓信息指導破損圖像補全;它能夠生成自然輪廓信息,有利于圖像修復。

雖然結(jié)構(gòu)先驗指導圖像修復提升了修復性能,卻忽略了圖像的紋理細節(jié)。因此,Ren 等人設計了結(jié)構(gòu)重構(gòu)器和紋理生成器,其中結(jié)構(gòu)重構(gòu)器旨在恢復圖像全局結(jié)構(gòu),紋理生成器引入外觀流合成高頻紋理細節(jié)。Nazeri 等人則是結(jié)合邊緣先驗信息和PatchGAN的修復模型預測圖像邊緣信息,進而指導圖像修復。之后,王富平等人設計了門卷積GAN,它由邊緣連接GAN 和圖像補全GAN 組成,使用門卷積學習更大感受野的人臉結(jié)構(gòu)信息。它們可以有效避免結(jié)構(gòu)預測錯誤對圖像修復結(jié)果的影響,并且適用于部分高度結(jié)構(gòu)化場景圖像。

為了加快推理修復速度,Lahiri 等人訓練一個PG-GAN和深度神經(jīng)網(wǎng)絡從給定的破損圖像中獲取噪聲特征信息,并使用噪聲先驗信息指導預訓練GAN 修復圖像;增加噪聲先驗知識有利于提高樣本數(shù)據(jù)集質(zhì)量,且獲得更好的姿勢和方向特征。Zeng等人在PatchGAN生成器引入上下文重建損失,通過保留和推動復制粘貼圖像上下文特征信息填充缺失區(qū)域。

針對大缺失區(qū)域的像素填充,Zhang 等人將課程學習思想引入修復任務中,并使用長短期記憶框架串行所有子任務;它可以提高修復速度和效率,然而它并不適用于不規(guī)則缺失區(qū)域的修復。雖然文獻[94]對于混合場景修復取得了有效進展,然其仍有改進空間。因此,Ardino 等人通過刪除用戶指定圖像部分并在該場景中插入新對象(例如汽車、行人)來修復復雜城市場景。作者設計了一個基于空間自適應歸一化的生成器,結(jié)合語義分割和生成任務以更好地指導新對象和場景的生成,并且保持語義一致。

圖像修復在細粒度的紋理細節(jié)修復上仍存在較大提升空間。因此,Hui 等人設計了一個密集多尺度融合塊,它由四組空洞卷積組成以獲得更大和更有效的感受野;同時模型使用了VGG 特征匹配損失和自導回歸損失訓練GAN,在一定程度上糾正了語義結(jié)構(gòu)錯誤。李克文等人在修復中引入了多尺度鑒別器,其中不同尺度的鑒別器具有不同的感受野以生成更加精細的細節(jié),并結(jié)合WGAN(Wasserstein GAN)思想介紹梯度消失或爆炸的不足。Zeng 等人繼而提出了一種聚合上下文轉(zhuǎn)換GAN(aggregated contextual-transformation GAN,AOTGAN)用于實現(xiàn)高分辨率的大缺失區(qū)域細粒度紋理合成,其中AOTGAN 由生成器和鑒別器組成,生成器由多個AOT 塊堆疊而成以聚合來自不同卷積層感受野的上下文轉(zhuǎn)換,從而獲取到合理的遠距離圖像內(nèi)容進而預測上下文缺失內(nèi)容;鑒別器使用基于掩碼預測模塊的PatchGAN有效鑒別真實和合成紋理。

Transformer是由Vaswani 等人提出的一種使用自注意力機制連接編碼器和解碼器的一種新的網(wǎng)絡架構(gòu),其網(wǎng)絡結(jié)構(gòu)圖如圖6 所示。

圖6 Transformer模型結(jié)構(gòu)Fig.6 Structure of Transformermodel

Transformer 由編碼器和解碼器組成,其中編碼器由6 個相同的層組成,每個層包含多頭自注意力機制、全連接前饋網(wǎng)絡兩個子層,每個子層都使用一個殘差連接并進行層歸一化;解碼器同樣由6 個相同的層組成,每個層包含掩蔽多頭自注意力機制、多頭自注意力機制和全連接前饋網(wǎng)絡3 個子層,每個子層都使用一個殘差連接并進行層歸一化。Transformer通過使用自注意力機制有效解決了卷積層只能獲取局部感受野的不足,最初被用于機器翻譯任務并取得了較大進展。因其不需要遞歸和卷積,所需訓練時間更短,研究人員將其引入修復任務以學習圖像全局內(nèi)容,進而實現(xiàn)較大缺失區(qū)域的圖像補全。Transformer類圖像修復方法特點如表6 所示。

表6 Transformer類圖像修復方法特點Table 6 Characteristics of Transformer image inpainting methods

基于此,Zhou 等人首次提出使用Transformer修復復雜場景圖像,模型首先根據(jù)原始圖像的預測深度圖對齊目標圖像以實現(xiàn)圖像的粗略修復,之后作者設計了顏色空間轉(zhuǎn)換器以實現(xiàn)圖像的顏色和空間匹配,最后使用融合模塊合并上述修復結(jié)果;它可以修復含復雜深度的大缺失區(qū)域圖像,然其并不適用于低光照或極端照明環(huán)境變化的圖像。隨后,Wang等人設計了一個兩階段盲人臉修復方法,它首先使用頻率引導Transformer通過學習圖像上下文間的關(guān)系以檢測圖像的缺失區(qū)域,隨后通過自上而下的細化編碼器-解碼器架構(gòu)來分層修復圖像特征,以生成語義一致的缺失內(nèi)容;然而該模型難以修復圖像中的較小視覺區(qū)域。

為了實現(xiàn)高保真圖像的細節(jié)修復,Zheng 等人提出了一個基于Transformer的編碼器獲取低分辨率圖像的粗略結(jié)果,隨后在細化階段使用自適應注意力感知層實現(xiàn)圖像的語義轉(zhuǎn)移,以獲取較高質(zhì)量和分辨率的圖像。Dong 等人設計了一個增量Transformer 結(jié)構(gòu)修復網(wǎng)絡,它分別使用掩蔽位置編碼提高模型對于不同掩碼的泛化能力,Transformer結(jié)構(gòu)恢復器恢復圖像結(jié)構(gòu),結(jié)構(gòu)特征編碼器對圖像結(jié)構(gòu)特征進行編碼和傅里葉CNN 紋理恢復器修復圖像的紋理信息,這些設計可以提高模型修復大缺失區(qū)域的性能。

2.2 多元圖像修復方法

雖然圖像修復任務已取得了卓然成就,然而研究人員仍重點研究單元圖像修復方法。圖像修復是一項不穩(wěn)定的任務,它的輸出結(jié)果不應受到限制,應是具有多樣性的,只要保證輸出結(jié)果合理自然便可以認作是較好的修復結(jié)果?;诖?,研究人員嘗試使用VAE、卷積變分自編碼器(convolutional variational auto-encoder,CVAE)、GAN等模型架構(gòu)以實現(xiàn)多張修復圖像,并提出了部分多元圖像修復方法。多元圖像修復方法特點如表7 所示。

表7 多元圖像修復方法特點Table 7 Characteristics of pluralistic image inpainting methods

鑒于此,Han 等人首次提出了一個兩階段框架的多元時尚圖像修復方法,它使用形狀生成網(wǎng)絡和外觀生成網(wǎng)絡分別生成圖像的形狀和外觀,每一個生成網(wǎng)絡都有一個重建圖像的生成器、兩個交互的編碼器網(wǎng)絡以實現(xiàn)圖像的多樣性。Dupont 等人引入PixelCNN 模型至修復任務中,進而提出了一個像素約束CNN 以可見像素為條件的圖像分布中執(zhí)行概率語義修復的模型。

上述修復方法缺乏先驗特征信息,難以生成較為合理的語義結(jié)構(gòu)。因此,Zheng 等人使用兩個并行且連接的訓練路徑并聯(lián)合GAN進行多樣性修復,分別是重建路徑和生成路徑,其中重建路徑使用VAE 結(jié)構(gòu)學習圖像掩碼分布,生成路徑使用先驗信息指導圖像進行多樣性修復。Zhang 等人在文本引導網(wǎng)絡中使用雙重多模態(tài)注意力機制提取圖像缺失區(qū)域的顯示語義信息,并提出了圖像-文本匹配損失最大化生成圖像區(qū)域和文本語義相似度,它能夠得到更豐富的語義信息,并且可以輸入不同文本以獲得多元化輸出結(jié)果。

Zhao 等人則試圖以掩碼圖像為先驗信息指導網(wǎng)絡進行多元化修復,它主要分為三個模塊:第一個是條件編碼模塊,它通過輸入掩碼圖像學習條件分布信息;第二個是流形投影模塊,它將掩碼分布信息和實例圖像空間投影到共同的低維流形空間,學習兩個空間之間的一對一映射;第三個是生成模塊,以生成多元化圖像。

現(xiàn)存多元圖像修復方法很難保證每個修復圖像質(zhì)量,可能會生成扭曲結(jié)構(gòu)或模糊紋理。針對這一不足,Peng 等人設計了一個基于分層向量量化變分AE 用于生成圖像修復的多樣化結(jié)構(gòu),并使用紋理生成器聯(lián)合結(jié)構(gòu)注意模塊實現(xiàn)圖像的紋理真實和結(jié)構(gòu)一致。Liu 等人根據(jù)不同隨機噪聲生成不同的圖像內(nèi)容,作者提出了一個空間概率多樣性歸一化模塊以確保圖像生成的多樣性和真實性,并聯(lián)合感知多樣性損失以進一步增強網(wǎng)絡多樣性內(nèi)容生成能力。

前述使用由粗到細的架構(gòu)可以實現(xiàn)修復的高質(zhì)量生成,然而這種方法粗略結(jié)果會影響最后的生成結(jié)果,因此Phutke 等人認為相比堆疊網(wǎng)絡獲取較大感受野,以較小的參數(shù)量獲取不同的感受野能夠?qū)崿F(xiàn)更優(yōu)秀的修復結(jié)果,作者提出了一個輕量級的對抗并發(fā)編碼器,通過結(jié)合不同感受野和并發(fā)解碼器降低模型計算量,獲取多樣化生成結(jié)果。

隨著Transformer在單元修復任務中的卓越表現(xiàn),Yu 等人嘗試將其引入多元修復任務,提出了一個雙向自回歸Transformer 學習圖像的自回歸分布以提高模型的遠距離獲取能力,修復圖像的多樣化結(jié)構(gòu);同時模型使用基于CNN的紋理生成器修復圖像紋理細節(jié)。Wan 等人使用雙向Transformer 實現(xiàn)低分辨率圖像多樣性外觀重建,并使用上采樣CNN網(wǎng)絡經(jīng)外觀先驗指導圖像高保真紋理細節(jié)修復。

雖然多元圖像修復取得了較大進展,然而其在大缺失區(qū)域、高分辨率等圖像修復方面存在不足。為此,Zhao 等人提出了一個協(xié)作調(diào)制GAN,通過協(xié)同調(diào)制嵌入條件和隨機樣式表示以生成多樣化且語義一致的圖像。受此啟發(fā),Li 等人設計了一個掩碼感知Transformer 實現(xiàn)高分辨率的大缺失區(qū)域圖像修復,其中作者提出了一個多頭上下文注意力利用動態(tài)掩碼的有效標記實現(xiàn)信息的遠程交互;同時作者提出了一個樣式操作模塊以確保生成多樣性。Liu 等人設計了一個基于樣本的向量量化VAE 以非重疊的設計修復破損圖像并保持已知區(qū)域不變,同時作者提出了一個非量化Transformer 將避免圖像信息丟失,從而實現(xiàn)圖像多樣化預測。

2.3 基于深度學習的圖像修復方法局限性

基于深度學習的圖像修復方法不僅可以生成語義一致且視覺合理的修復結(jié)果,同時可以修復大面積缺失區(qū)域和不規(guī)則缺失區(qū)域的破損圖像。但是其仍存在以下不足:(1)該類方法要么生成高質(zhì)量圖像但分辨率較低,要么生成高分辨率圖像但圖像質(zhì)量較低;(2)該類方法對于大缺失區(qū)域的修復仍然具有較大挑戰(zhàn),修復圖像會出現(xiàn)模糊偽影、顏色差異等不合理內(nèi)容;(3)Transformer 類修復方法雖然可以獲取較大感受野,進而對高分辨率圖像修復取得較優(yōu)結(jié)果,但是這類方法需要大量計算成本。因此,接下來將重點研究如何在計算成本低的條件下實現(xiàn)高保真圖像的修復、高分辨率圖像的修復和大缺失區(qū)域的修復。

3 數(shù)據(jù)集和評價指標

3.1 數(shù)據(jù)集

現(xiàn)有基于深度學習的圖像修復方法需要在大量圖像上進行實驗進而評估方法的有效性,同時它也需要通過訓練大量圖像進而學習圖像特征信息。然而收集圖像和對應破損圖像是非常困難的,因此研究人員通常在訓練和測試時經(jīng)常會使用公共圖像數(shù)據(jù)集,并在圖像中添加掩碼圖像以生成破損圖像。表8 給出了關(guān)于圖像修復常用數(shù)據(jù)集的簡要描述。表中顯示出了不同數(shù)據(jù)集的類型、提出時間、數(shù)據(jù)集圖像數(shù)量、圖像分辨率(“—”表示圖像分辨率不定)以及使用方法。

表8 常用數(shù)據(jù)集描述Table 8 Description of common datasets

當前常用圖像修復數(shù)據(jù)集被分為掩碼圖像數(shù)據(jù)集和圖像數(shù)據(jù)集。圖7 給出了部分掩碼數(shù)據(jù)集示例圖像,掩碼圖像數(shù)據(jù)集由規(guī)則掩碼和不規(guī)則掩碼組成。其中,規(guī)則掩碼一般為研究人員直接在圖像中心或任意位置添加矩形掩碼;不規(guī)則掩碼通常是任意形狀的,目前廣泛使用的兩個大型掩碼數(shù)據(jù)集,分別是Nvidia 不規(guī)則掩碼數(shù)據(jù)集和快速繪制不規(guī)則掩碼數(shù)據(jù)集。

圖7 部分掩碼數(shù)據(jù)集示例圖Fig.7 Some mask dataset sample images

圖像數(shù)據(jù)集可以被分為建筑、紋理、街景、場景、人臉數(shù)據(jù)集。圖8 給出了部分圖像數(shù)據(jù)集示例圖像。其中,常用建筑數(shù)據(jù)集為Facade 建筑物圖像數(shù)據(jù)集,它是一個來自世界各地不同城市的立面圖像數(shù)據(jù)集。這類數(shù)據(jù)集具有結(jié)構(gòu)對稱、對象單一、背景簡單的特點,因此修復難度低。紋理數(shù)據(jù)集常見為DTD 數(shù)據(jù)集,它是一個從Google 和Flickr 收集的真實世界的紋理圖像數(shù)據(jù)集。這類數(shù)據(jù)集涵蓋類別較多、組成復雜、語義相關(guān)不明顯,因此可以得出相較Facade數(shù)據(jù)集,增加了一定修復難度。

圖8 部分圖像數(shù)據(jù)集示例圖Fig.8 Sample images of some image datasets

街景圖像數(shù)據(jù)集包括谷歌街景數(shù)字圖像數(shù)據(jù)集SVHN、巴黎街景圖像數(shù)據(jù)集Paris StreetView和城市街景數(shù)據(jù)集Cityscapes,這類數(shù)據(jù)集通常是從街景數(shù)據(jù)集中收集的來自世界各地不同城市的街景圖像;場景數(shù)據(jù)集包含日常場景圖像數(shù)據(jù)集MS COCO、大規(guī)模多場景圖像數(shù)據(jù)集ImageNet和自然場景圖像數(shù)據(jù)集Places2,它是從日常場景或野外自然場景中收集得到的圖像;這兩類數(shù)據(jù)集包含多個場景語義類別,基本上涵蓋了真實世界98%的場景,由于其背景復雜、類別眾多,且背景區(qū)域占比面積較大,修復難度較大。

人臉圖像數(shù)據(jù)集包含人臉標志數(shù)據(jù)集Helen Face、大型人臉屬性數(shù)據(jù)集CelebA、CelebA的高質(zhì)量圖像數(shù)據(jù)集CelebA-HQ和多樣化的高質(zhì)量人臉數(shù)據(jù)集FFHQ,這類數(shù)據(jù)集中的圖像通常包含大量姿勢變化和背景混亂、豐富的注釋,其中一張圖像一般只包含一張人臉,并且圖像背景較為簡單,因此相對前四種數(shù)據(jù)集,其修復難度較低。

3.2 評價指標

為了評估圖像修復方法的性能,研究人員研發(fā)出了不同的評價指標來評價其生成的修復圖像。它可以被分為主觀評價指標和客觀評價指標,主觀評價指標是指利用人類的肉眼感知能力判斷生成圖像與原始圖像是否一致,然而這類評價指標主要依賴于人類的主觀判斷能力,需要大量的觀察者和大量的評價對象才能保證評價結(jié)果一致性,這類方法耗時耗力同時需要良好的觀測環(huán)境;因此,客觀評價指標應運而生,它是指使用不同的數(shù)學公式對生成圖像進行量化評價,常用的客觀評價指標特點如表9所示。

表9 給出了圖像修復常用客觀評價指標的特點,分為:(1)類型,其中全參考是指選擇原始圖像作為參考圖像,比較生成圖像與原始圖像之間的差異;半?yún)⒖际侵高x擇部分原始圖像作為參考,對生成圖像進行比較分析;無參考是指無需原始圖像,直接對生成圖像進行比較分析。(2)數(shù)值大小,其中“↑”表示數(shù)值越大圖像質(zhì)量越好,“↓”表示數(shù)值越小圖像質(zhì)量越好。(3)作用,評價指標判斷圖像不同角度的優(yōu)劣。(4)優(yōu)勢。(5)局限性。

表9 圖像評價指標特點Table 9 Characteristics of image evaluation index

(1)平均絕對誤差(mean absolute error,MAE)是指修復圖像與原始圖像像素值間的絕對差值總和的平均值,其主要用于評價修復圖像與原始圖像的差異。其計算公式如式(1)所示:

其中,表示生成圖像;表示原始圖像;表示圖像像素點總量;表示圖像像素點變量。

(2)均方誤差(mean square error,MSE)是指修復圖像與原始圖像像素值間的差值平方總和的平均值,其主要用于評價修復圖像與原始圖像的相似度。其計算公式如式(2)所示:

(3)通用質(zhì)量指數(shù)(universal quality index,UQI)是一個通過將圖像失真建模為相關(guān)性損失、亮度失真和對比度失真三個因素的組合來評估圖像的質(zhì)量,它易于計算且適用于各種圖像處理任務。其計算公式如式(3)所示:

其中,δ表示原始圖像的像素標準差,δ表示生成圖像的像素標準差,δ表示生成圖像與原始圖像的像素協(xié)方差。

(4)峰值信噪比(peak signal to noise ratio,PSNR)一般用于評估含噪圖像的質(zhì)量。當PSNR 值為48 dB時,生成圖像質(zhì)量最好。其計算公式如式(4)所示:

其中,表示生成圖像中像素信號的最大值,表示生成圖像與原始(含噪)圖像的均方誤差。

(5)結(jié)構(gòu)相似指數(shù)度量(structure similarity index measure,SSIM)通過對生成修復圖像與原始圖像的結(jié)構(gòu)相似度、亮度和對比度三個因素度量進而評估兩幅圖像的相似性。其計算公式如式(5)~(8)所示:

其中,(,)、(,)、(,)表示原始圖像與生成圖像的亮度、對比度、結(jié)構(gòu)相似度估計值,μ表示原始圖像的像素均值,μ表示生成圖像的像素均值,、、均表示常量。

(6)多尺度結(jié)構(gòu)相似數(shù)度量(multi-scale structure similarity index measure,MS-SSIM)是通過結(jié)合圖像分辨率和觀察條件的變化進而評估圖像相似性的客觀評價指標。其計算公式如式(9)所示:

其中,表示圖像尺度數(shù),與原始圖像的亮度、對比度、結(jié)構(gòu)相似度估計值,α、βγ均為非零常量,用于調(diào)整不同分量的相對重要性。

(7)學習感知圖像塊相似度(learned perceptual image patch similarity,LPIPS)是一個基于學習的感知相似度評價指標,相比PSNR、SSIM,它更符合人類的感知能力。其計算公式如式(10)所示:

(8)Fréchet 初始距離(Fréchet inception distance,F(xiàn)ID)是計算生成修復圖像與原始圖像的特征向量之間距離的評價指標,它是IS的改進,用于評估生成對抗網(wǎng)絡的性能。其計算公式如式(11)所示:

其中,μ表示原始圖像的特征均值,μ表示生成圖像的特征均值。

(9)邊界像素誤差(border pixel error,BPE)通過計算邊界區(qū)域附近的像素誤差進而評估生成圖像缺失區(qū)域邊界修復質(zhì)量。其計算公式如式(12)所示:

(10)初始分數(shù)(inception score,IS)是一個基于Inception 網(wǎng)絡的評價指標,它通過生成圖像的質(zhì)量和多樣性來評價生成模型的性能。其計算公式如式(13)所示:

其中,表示生成圖像;表示經(jīng)Inception 網(wǎng)絡得到的向量;表示生成圖像數(shù)量;表示生成圖像數(shù)量變量。

(11)改進初始分數(shù)(modified inception score,MIS)是由Zhao 等提出的一個評價指標,它在IS的基礎上進行改進是為了更好地評估生成修復圖像的質(zhì)量。相比IS,MIS 更適合在圖像修復任務中評估修復圖像質(zhì)量。其計算公式如式(14)所示:

其中,表示原始圖像;表示預訓練模型預測的標簽;p表示真實圖像的模型分布;表示生成圖像數(shù)量變量。

4 基于深度學習的圖像修復方法性能分析

近年來,基于深度學習的圖像修復方法快速發(fā)展并涌現(xiàn)出了大量成果。本章對于不同類別的修復方法分別選取了兩種具有代表性的修復方法并統(tǒng)計其修復不同圖像數(shù)據(jù)的客觀評價對比結(jié)果。

4.1 單元圖像修復方法性能分析

表10 為單元圖像修復方法在常用數(shù)據(jù)集上修復規(guī)則掩碼的定量比較結(jié)果,表11 為單元圖像修復方法在常用數(shù)據(jù)集上修復不規(guī)則掩碼的定量比較結(jié)果,“↑”表示該評價指標值越大圖像質(zhì)量越好,“↓”表示該評價指標值越小圖像質(zhì)量越好,“—”表示文獻中沒有該評價指標的數(shù)值結(jié)果。本節(jié)統(tǒng)計了以下數(shù)據(jù)的實驗結(jié)果:(1)兩項評價指標,分別是PSNR、SSIM,其中PSNR 值反映圖像失真度,SSIM 值反映圖像結(jié)構(gòu)相似性;(2)三類大型圖像數(shù)據(jù)集,分別是人臉圖像數(shù)據(jù)集CelebA-HQ、街景圖像數(shù)據(jù)集Paris StreetView和場景圖像數(shù)據(jù)集Places2;(3)兩種掩碼,分別是25%中心規(guī)則掩碼和不規(guī)則掩碼(占比面積分為10%~20%、20%~30%、30%~40%、40%~50%)。

從表10 數(shù)值分析可得,Encoder-Decoder 類修復方法在三類數(shù)據(jù)集的定量評價結(jié)果中,GMCNN方法生成圖像的SSIM值和MED方法生成圖像的PSNR值均優(yōu)于彼此,這是因為GMCNN方法引入了多列結(jié)構(gòu),能有效預測圖像結(jié)構(gòu)信息,MED方法使用的交互編碼器可以生成更加合理的圖像紋理信息。

表10 單元圖像修復方法在規(guī)則區(qū)域的性能分析Table 10 Quantitative analysis of single image inpainting methods on regular regions

而在U-Net 類修復方法修復數(shù)據(jù)中,PEN-Net方法的各項評價值大多低于MUSICAL方法。PENNet方法和MUSICAL方法均使用了注意力機制,不同的是,PEN-Net方法在編碼階段使用多尺度注意力機制,MUSICAL方法則是在解碼階段使用注意力機制。由此可以得出在U-Net 結(jié)構(gòu)中逐層使用注意力機制雖然能取得有效修復結(jié)果,但是大量疊加會在一定程度上影響圖像質(zhì)量。

進一步分析GAN類修復方法的評價指標值,GC方法的六項評價指標數(shù)值中有五項低于DMFN方法,GC方法使用門控卷積學習更有效的像素信息,DMFN方法則使用空洞卷積學習更大的感受野??梢灾?,空洞卷積相較門控卷積能學習更有效的圖像特征信息以獲取高質(zhì)量的修復結(jié)果,因此反映圖像修復任務的重點為如何獲取更大且更有效的感受野以學習到更多、更合理的圖像信息。

由于Transformer 類修復方法在近兩年才逐漸興起,其評價數(shù)據(jù)較少,這里暫不單獨分析。最后在三類數(shù)據(jù)集的修復評價結(jié)果中,Encoder-Decoder 類、UNet 類、GAN 類修復方法各占優(yōu)一項,而Transformer類修復方法占優(yōu)三項,據(jù)此可以推出Transformer 類修復方法性能優(yōu)于其他三類修復方法,究其原因是Transformer模型可以利用自注意力機制獲取較大感受野,實現(xiàn)圖像遠距離信息的獲取進而生成語義一致且視覺合理的修復結(jié)果。

分析表11 評價數(shù)值,Encoder-Decoder 類修復方法在三類數(shù)據(jù)集上修復不同面積掩碼的定量數(shù)據(jù)中,MADF方法在10%~40%的掩碼修復數(shù)值均高于MED方法,主要原因是MADF方法有效利用了圖像掩碼信息。但當掩碼面積占比40%~50%時,圖像已知區(qū)域與未知區(qū)域較難區(qū)分,MADF方法在Places2圖像數(shù)據(jù)集上的修復效果大幅降低。據(jù)此可知圖像修復應充分學習圖像已知與未知區(qū)域像素信息,進而預測圖像修復結(jié)果。

表11 單元圖像修復方法在不規(guī)則區(qū)域的性能分析Table 11 Quantitative analysis of single image inpainting methods on irregular regions

分析U-Net 類修復方法在不同面積掩碼區(qū)域的性能數(shù)據(jù),PEN-Net方法的評價數(shù)值基本低于RFRNet方法,其中RFR-Net方法通過利用圖像像素間的相關(guān)性有效解決復雜圖像的修復。由此推出復雜場景圖像修復任務應充分學習圖像不同區(qū)域內(nèi)容間的對應關(guān)系進而預測出合理的修復結(jié)果。

同時觀察GAN 類修復方法評價數(shù)據(jù),GC方法在三類圖像數(shù)據(jù)集的不同掩碼區(qū)域的六項修復評價數(shù)值中均有五項低于EC方法。由于EC方法是通過預測圖像邊緣信息進而指導圖像修復,反映出先驗結(jié)構(gòu)信息指導圖像修復的思想可以有效提高圖像修復質(zhì)量。

最后分析四類修復方法在不規(guī)則區(qū)域的數(shù)值,可以得到:在10%~20%、30%~40%的掩碼修復指標數(shù)值中,Encoder-Decoder 類修復方法中的六項評價數(shù)據(jù)均優(yōu)于其他類修復方法;20%~30%的掩碼修復數(shù)值中,Encoder-Decoder 類修復方法五項占優(yōu)、UNet 類修復方法一項占優(yōu);40%~50%的掩碼修復數(shù)值中,Encoder-Decoder 類修復方法四項占優(yōu)、U-Net 類和Transformer 類修復方法各一項占優(yōu);同時GAN類、Transformer 類修復方法的部分指標值僅低于Encoder-Decoder 類修復方法。通過這些數(shù)據(jù)可以反映出Encoder-Decoder 類、U-Net 類和GAN 類修復方法修復小缺失區(qū)域(10%~40%)的破損圖像效果較好,雖然Transformer 類修復方法評價數(shù)據(jù)集少,但其在部分數(shù)據(jù)集的大缺失區(qū)域(30%~50%)修復中仍表現(xiàn)出優(yōu)于其他類修復方法的修復效果。

分析表10、表11 數(shù)據(jù)可得,在缺少的評價數(shù)據(jù)中,Places2圖像數(shù)據(jù)集與CelebA-HQ圖像數(shù)據(jù)集實驗結(jié)果均缺少數(shù)據(jù)較少,而相比之下Paris StreetView圖像數(shù)據(jù)集研究缺少實驗數(shù)據(jù)較多,反映出當前圖像修復仍然重點研究人臉與場景圖像的修復,而忽略了其他圖像數(shù)據(jù)集的修復,例如街景、紋理、建筑等圖像數(shù)據(jù)集。

通過比較三類圖像數(shù)據(jù)集的實驗評價數(shù)據(jù)平均值,其中人臉圖像數(shù)據(jù)集數(shù)值最高,場景圖像數(shù)據(jù)集數(shù)值最低。這是因為人臉圖像背景簡單、對象單一,而場景圖像背景雜亂、對象冗雜,所以可以推理出人臉圖像更易修復。

分析規(guī)則區(qū)域的修復數(shù)據(jù),Paris StreetView圖像數(shù)據(jù)集的修復數(shù)據(jù)中PSNR最高僅25.00,SSIM最高僅86.50;而Places2圖像數(shù)據(jù)集的修復數(shù)據(jù)中PSNR最高僅24.42,SSIM最高僅87.00。據(jù)此可以得出場景、街景圖像的修復仍存在大量發(fā)展空間。

同時分析不規(guī)則區(qū)域的修復數(shù)據(jù),當掩碼區(qū)域面積占比10%~40%時,當前修復方法基本能取得較好的修復數(shù)據(jù);而當掩碼區(qū)域面積占比40%~50%時,僅有少數(shù)修復方法能取得合理的修復結(jié)果。由此反映出大缺失區(qū)域的破損圖像修復仍存在較大研究空間。

4.2 多元圖像修復方法性能分析

表12 為多元圖像修復方法在常用數(shù)據(jù)集上修復規(guī)則掩碼的定量比較結(jié)果,表13 為多元圖像修復方法在常用數(shù)據(jù)集上修復不規(guī)則掩碼的定量比較結(jié)果。本節(jié)統(tǒng)計了以下數(shù)據(jù)的實驗結(jié)果:(1)六項評價指標,分別是PSNR、SSIM、LPIPS、FID、IS和MIS,其中PSNR值反映圖像失真度,SSIM值反映圖像結(jié)構(gòu)相似性,LPIPS值反映圖像多樣性,F(xiàn)ID反映GAN的生成圖像多樣性,IS反映圖像感知質(zhì)量,MIS反映圖像質(zhì)量;(2)兩類大型圖像數(shù)據(jù)集,分別是人臉圖像數(shù)據(jù)集CelebA-HQ(或FFHQ)和場景圖像數(shù)據(jù)集Places2、ImageNet;(3)兩種掩碼,分別是25%中心規(guī)則掩碼和不規(guī)則掩碼(占比面積分為20%~40%、40%~60%、10%~60%)。

如表12 所示,在CelebA-HQ圖像數(shù)據(jù)集的多元修復結(jié)果中,UCTGAN方法的PSNR、SSIM值和HVQ-VAE方法的IS、MIS值優(yōu)于彼此。其中UCTGAN方法利用掩碼先驗信息修復圖像,HVQ-VAE方法則是基于自動編碼器并使用注意力模塊生成圖像,由此表示先驗信息更有利于圖像的結(jié)構(gòu)生成,注意力機制可以生成更加合理的圖像細節(jié)。

由于多元圖像修復方法旨在生成多張不同的修復圖像,表12 給出了三種方法在CelebA-HQ、Places2圖像數(shù)據(jù)集上的LPIPS值,以反映其輸出圖像多樣化程度。UCTGAN方法在CelebA-HQ圖像數(shù)據(jù)集上的修復指標值優(yōu)于PICNet方法,PDGAN方法在Places2圖像數(shù)據(jù)集上的修復指標值優(yōu)于PICNet方法。其中UCTGAN方法、PDGAN方法為基于GAN的修復模型,PICNet方法為聯(lián)合VAE與GAN的修復方法,由此可見GAN較VAE更適用于生成多樣的結(jié)構(gòu)和紋理。

表12 多元圖像修復方法在規(guī)則區(qū)域的性能分析Table 12 Quantitative analysis of pluralistic image inpainting methods on regular regions

觀察兩類圖像數(shù)據(jù)集的實驗評價數(shù)據(jù)平均值,其中人臉圖像數(shù)據(jù)集的LPIPS數(shù)值均低于場景圖像數(shù)據(jù)集的LPIPS數(shù)值。這是因為人臉數(shù)據(jù)集圖像一般僅含單一對象,而場景數(shù)據(jù)集圖像通常包含多個對象,反映出場景數(shù)據(jù)集圖像相較人臉數(shù)據(jù)集圖像更易生成多樣化的圖像結(jié)構(gòu)和紋理。

表13 數(shù)值反映不同修復方法在不同數(shù)據(jù)集上修復不同掩碼區(qū)域的評價數(shù)據(jù),其中ICT方法在各類掩碼的修復中都取得了較優(yōu)結(jié)果,這是因為它不僅使用Transformer修復圖像紋理,同時使用CNN對圖像紋理進行修補,實現(xiàn)了圖像的高保真修復。

表13 多元圖像修復方法在不規(guī)則區(qū)域的性能分析Table 13 Quantitative analysis of pluralistic image inpainting methods on irregular regions

PUT方法在ImageNet圖像數(shù)據(jù)集、Places2圖像數(shù)據(jù)集的FID數(shù)值均優(yōu)于其他方法,究其原因為PUT方法使用了基于樣本的向量量化VAE 實現(xiàn)圖像中每個樣本的掩碼區(qū)域修復,并聯(lián)合非量化Transformer 減少圖像信息丟失,輔助模型實現(xiàn)圖像相似性。因為場景數(shù)據(jù)集圖像擁有大量特征信息,所以PUT方法在該類數(shù)據(jù)集上表現(xiàn)出較好修復效果;而人臉數(shù)據(jù)集圖像像素間相關(guān)性較高,并不適用于樣本修復。

最后比較多元修復方法在三個數(shù)據(jù)集上的修復平均值,觀察到FFHQ圖像數(shù)據(jù)集的修復指標值最高,據(jù)此推出當前多元修復方法仍更適于修復人臉數(shù)據(jù)集。這是因為人臉數(shù)據(jù)集圖像含較少對象,修復難度低。同時可以反映場景數(shù)據(jù)集圖像的多元修復是今后重點研究的任務。

5 不足及未來展望

圖像修復任務是計算機視覺領域中不可替代的研究內(nèi)容,隨著近幾年計算機的光速發(fā)展、數(shù)字工具的頻繁使用,圖像修復任務也得到了較多關(guān)注。其中基于深度學習的圖像修復任務取得了飛速發(fā)展,這類方法通過在模型結(jié)構(gòu)、損失函數(shù)、先驗信息等方面進行優(yōu)化以獲得更好的修復結(jié)果,但是這類方法研究時間較短,仍有較多不足。本文對圖像修復任務進行了分類總結(jié),對圖像修復常用數(shù)據(jù)集和評價指標進行了簡單總結(jié)。針對現(xiàn)有圖像修復方法的不足,對其做了以下描述以推進未來研究工作。

(1)如何同時實現(xiàn)圖像紋理和結(jié)構(gòu)兩部分的補全是圖像修復一直存在且需要解決的問題?,F(xiàn)存修復方法主要包括僅修復紋理(如MRF-Net)、僅修復結(jié)構(gòu)(如SI)、先修復結(jié)構(gòu)后修復紋理(如EC、PRVS)三種修復思想。其中,僅修復紋理或結(jié)構(gòu)忽略了圖像紋理和結(jié)構(gòu)之間的相關(guān)性,進而導致生成圖像出現(xiàn)語義混亂的現(xiàn)象;而先修復結(jié)構(gòu)后修復紋理的生成圖像取決于第一階段圖像結(jié)構(gòu)的修復,同時這種兩階段的修復方法需要大量計算時間和成本。近幾年,聯(lián)合修復圖像紋理和結(jié)構(gòu)的思想也受到了廣大研究者的關(guān)注,但是他們并沒有解決紋理結(jié)構(gòu)融合出現(xiàn)的不合理圖像。因此,減少圖像紋理和結(jié)構(gòu)相互影響所帶來的修復缺陷應在今后引起重視。

(2)多元圖像修復方法性能的提升以及其評價指標的研究是當前亟需解決的問題之一。圖像修復是一項不確定的任務,因此它只需要在輸出圖像合理的情況下保證圖像的多樣性。多元圖像修復在近幾年逐漸興起,但是它在修復性能上仍存在較大提升空間;同時多元修復方法的評價指標依然是PSNR、SSIM、FID等,然而它們僅用于判斷原始圖像與生成圖像相似性,并不能較好地反映出生成圖像的多樣性。因此,多元圖像修復方法的相關(guān)研究是未來修復研究的熱點之一。

(3)研究低計算成本的高分辨率圖像修復模型是當前最緊迫的任務之一。當前較多圖像修復方法仍重點研究低分辨率的圖像修復,然而隨著數(shù)據(jù)時代的發(fā)展,低分辨率圖像已無法滿足商業(yè)使用需求。雖然Transformer 類修復方法可以實現(xiàn)高分辨率圖像的修復并取得了高質(zhì)量的修復結(jié)果,但是它們需要大量的計算成本和昂貴的實驗設備,并不適合商業(yè)使用。同時Encoder-Decoder 類、U-Net 類、GAN類修復方法雖然也可以通過堆疊卷積層獲取較大感受野進而實現(xiàn)高分辨率的圖像修復,但是堆疊卷積層隨之也會帶來計算成本的增加、修復模型的不穩(wěn)定等不足。因此,如何實現(xiàn)圖像遠距離內(nèi)容的獲取且降低修復的計算成本也是值得深入研究的一個方向。

(4)如何創(chuàng)建一個基于亞洲人臉圖像的數(shù)據(jù)集是未來研究的重點方向。目前的修復方法在人臉數(shù)據(jù)集上取得了較好的修復性能,但是被大量使用的人臉數(shù)據(jù)集CelebA、FFHQ等涵蓋圖像均是基于國外人臉的圖像。使用這些圖像數(shù)據(jù)集訓練模型并修復亞洲人臉時,會出現(xiàn)不準確甚至錯誤的修復結(jié)果。這是因為相較西方人臉,亞洲人臉的面部特征具有獨特的特征。因此,收集合理且符合亞洲面部特征的人臉圖像應成為當前修復的重點研究。

(5)如何實現(xiàn)在不同任務和場景的人臉修復,是一個亟需解決的難題。人臉圖像的修復取得了較大進展并被應用于日常生活中,如公共安全、人臉識別等。然而,不同任務、不同場景條件下的人臉修復不僅需要修復缺失像素,同時需要修復許多無法提前預設的修復挑戰(zhàn),例如佩戴口罩、頭發(fā)遮擋、人臉重疊等,這些問題都會提升人臉圖像的修復難度。于是,收集且整理不同類型的破損人臉圖像或許成為未來的研究熱點。

(6)設計無參考且可以準確反映圖像質(zhì)量的評價指標是當前修復面臨的難題。目前廣泛使用的圖像修復評價指標MAE、PSNR、SSIM等均為全參考指標,這類評價指標需要使用原始圖像作為參考對象,同時計算整幅圖像像素相似性需要大量時間。故而,為了更好地評價修復圖像,研究系統(tǒng)、合理、符合人類視覺判斷的圖像評價指標是未來亟需解決的挑戰(zhàn)。

猜你喜歡
紋理卷積圖像
基于生成對抗網(wǎng)絡的CT圖像生成
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
一種并行不對稱空洞卷積模塊①
淺析p-V圖像中的兩個疑難問題
巧用圖像中的點、線、面解題
基于BM3D的復雜紋理區(qū)域圖像去噪
肺紋理增多是病嗎?
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
TEXTURE ON TEXTURE質(zhì)地上的紋理
杨浦区| 莱州市| 合作市| 井陉县| 安顺市| 沛县| 吴堡县| 聊城市| 韩城市| 浮山县| 东山县| 墨脱县| 南木林县| 友谊县| 兴安县| 随州市| 郁南县| 潞西市| 昌宁县| 西充县| 上思县| 浠水县| 肥城市| 丰县| 西和县| 江陵县| 漠河县| 汕头市| 通州区| 龙州县| 综艺| 旺苍县| 左云县| 兴仁县| 盐山县| 霍邱县| 翁源县| 雷州市| 合肥市| 张家港市| 芮城县|