国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多級解碼網絡的圖像修復

2022-05-11 08:27:18劉微容米彥春楊帆張彥郭宏林劉仲民
電子學報 2022年3期
關鍵詞:解碼器解碼損失

劉微容,米彥春,楊帆,張彥,郭宏林,劉仲民

1 引言

圖像修復是根據(jù)破損圖像的已知信息,利用計算機技術推斷出缺損區(qū)域像素的計算機視覺任務,也稱為圖像補全. 圖像修復的總體目標是重建語義上合理、視覺上逼真的完整圖像,其在遮擋區(qū)域去除、特定對象移除和珍貴歷史資料修復等方面均有重要的應用價值[1].

在深度學習方法提出之前,圖像修復理論研究主要集中在基于擴散的方法[2,3]和基于塊匹配的方法[4,7]. 基于擴散的方法利用距離場機制將相鄰像素的外觀信息傳播到目標區(qū)域,這種方法僅依賴于缺損區(qū)域周圍的像素值,因此只能修復小型破損;對于大面積受損圖像,會產生偽影及中心區(qū)域模糊的現(xiàn)象. 基于塊匹配的圖像修復方法,假設修復區(qū)域內容可以從周圍已知區(qū)域找到,以迭代的方式從未缺損區(qū)域搜索相關塊復制到缺損區(qū)域. 但是,搜索過程往往伴隨大量的計算消耗,匹配速度緩慢. 為減少運行時間,提高內存效率,Barnes 等人[4]提出了隨機化搜索方法PatchMatch,可有效加快搜索速度、提升修復質量.PatchMatch 方法憑借其優(yōu)越的背景修復能力被應用于許多應用程序中,例如經典的Photoshop 商業(yè)軟件. 基于塊匹配的方法雖然在背景修復和重復性結構修復任務中表現(xiàn)出優(yōu)越性能,但因其未借助高級語義信息來引導搜索過程,故難以應用至人臉等高度模式化圖像的修復任務[8,10].

隨著卷積神經網絡(Convolutional Neural Net?works,CNN)[11]和生成對抗網絡(Generative Adversarial Networks,GAN)[12]等深度學習方法的快速發(fā)展,基于CNN和GAN的編解碼網絡[11,13,16]從大規(guī)模數(shù)據(jù)集中學習圖像的語義特征,捕獲缺損區(qū)域并利用已有特征重建完整圖像,實現(xiàn)了語義層面的合理修復. 但是,基于編解碼的圖像修復方法在壓縮編碼過程中不可避免地存在信息丟失現(xiàn)象,單一的解碼網絡難以從壓縮后的少量信息中準確重建出期望的結果,從而導致修復結果出現(xiàn)模糊或邊緣響應等視覺偽影,嚴重影響視覺觀測效果(如圖1 所示). 因此,嚴重的信息丟失問題已成為制約編解碼圖像修復方法性能提升的技術瓶頸.

圖1 是否充分利用編碼部分信息修復結果對比

現(xiàn)有編解碼方法[11,13,16]對缺損區(qū)域的修復僅僅依賴于小尺度下的高級語義特征,忽略了在圖像編碼過程中可以產生豐富不同尺度特征的事實,而大尺度下存在的邊緣信息在圖像紋理和細節(jié)的重建過程中可以起到至關重要的作用. 因此,針對信息利用不完備的問題,本文對編碼部分不同尺度特征施加多級解碼,并將其結果與主解碼器聚合以指導下一級特征的重建. 此外,進一步利用注意力機制來增強對關鍵區(qū)域的關注度,以產生更真實的細節(jié)信息.

本文提出的多級解碼網絡(Multi-Stage Decoding Network,MSDN)基于不同尺度特征增強的機理,可有效解決圖像修復過程出現(xiàn)的模糊、邊緣響應嚴重等影響視覺效果的問題.

本文的主要貢獻如下:

(1)提出了多級解碼網絡MSDN,設計了主、副解碼器,充分利用編碼部分不同尺度下的高低級特征,共同指導合成主解碼網絡的各尺度特征;

(2)提出了并行連接機制,將注意力轉移網絡以并聯(lián)的方式引入主解碼網絡. 注意力轉移網絡從上一層特征中匹配復制到相似塊后,所得特征與上一層特征相結合,共同作用填充下一層特征缺損區(qū)域.

2 相關工作

2.1 圖像修復

近幾年,基于深度學習的圖像修復方法逐漸被眾多科研工作者所關注,其修復目標是:在已知待修復圖像ym的條件下,基于深度網絡具有的映射關系f(?),重建完整的圖像y?,如式(1)所示:

y?=f(ym;β) (1)

式中,β指網絡參數(shù).

圖像修復是一個不適定問題[17],即修復結果并不連續(xù)地依賴于已知輸入,一張缺損圖像可能對應多個修復結果. 為了降低不適定性,需要在網絡訓練時對待修復圖像施加一定先驗,利用先驗知識來重建缺失內容. 期望預訓練網絡重建的完整圖像y?盡可能與原始圖像y相似,即損失函數(shù)最小,從而得到如式(2)所示優(yōu)化目標函數(shù):

式中,β*指網絡修復性能最佳時的參數(shù)值,?k(?)指損失函數(shù),λk為各項損失函數(shù)的權衡參數(shù).

2.2 基于卷積自編碼網絡的圖像修復

基于深度學習的圖像修復方法大多采用主流的編解碼網絡架構,其機理為對稱神經網絡壓縮重構待修復圖像[18],如圖2所示. 編碼器將一張破損的圖像ym映射到低維的特征空間,再通過解碼器重建出完整圖像,實現(xiàn)了從缺損圖像到完整圖像的端到端映射[19].

圖2 帶有跳轉連接的編解碼網絡

上下文解碼(Context Encoder,CE)[13]網絡是首個采用自動編解碼結構的圖像修復方法,其通過卷積神經網絡來填充64×64 的中心缺損,并使用L2像素級重建損失和對抗性損失訓練網絡模型,取得了語義上可信的修復結果,然而CE[13]在生成精細紋理方面效果并不理想. 之后,Iizuka 等人[14]提出使用全局和局部判別器來生成全局圖像和局部圖像,并提出用擴張卷積替換CE 中使用的通道級全連接層,有效提高了修復質量,但是,該方法需要添加后處理步驟以加強邊界顏色的一致性.Yu等人[15]提出上下文注意力(Context Atten?tion,CA)機制,并將其應用在細粒度網絡,以搜索匹配與粗粒度網絡預測結果相似度最高的背景塊. 然而,注意力機制和細粒度網絡的串聯(lián)形式可能會使前一級匹配到的錯誤信息向后傳遞,難以保證鄰域信息一致性[20].Liu 等人[21]將部分卷積引入圖像修復任務,用部分卷積層更新掩碼,重新對卷積計算后的特征映射進行歸一化,確保卷積濾波器將注意力集中在已知區(qū)域的有效信息,以處理不規(guī)則缺損區(qū)域.Wang 等人[22]提出一種生成式多列神經網絡(Generative Multi-Column Convolutional Neural Network,GMCNN)架構,將三個編解碼器相并聯(lián),在訓練階段采用隱式多樣化馬爾可夫隨機場正則化方案,提出用置信值驅動的重建損失,根據(jù)空間位置施加不同約束,該方法在矩形掩碼和不規(guī)則掩碼下均表現(xiàn)出較好的修復性能.

以上所述方法均用到編碼-解碼的思想,但是多個編解碼器并聯(lián)或串聯(lián)的方式并不能從根本上解決信息丟失后重建的問題,模糊和明顯的邊緣響應依舊是制約圖像修復效果的關鍵因素.

3 所提方法

基于編解碼網絡的深度學習修復方法,提取自編碼階段的不同尺度特征必然包含由淺層到深層、由低級到高級的特征信息,但是單一的解碼器無法實現(xiàn)對編碼階段多尺度特征信息的綜合利用. 因此本文提出多級解碼網絡,其在傳統(tǒng)編解碼網絡中引入多個副解碼器,將主流方法中被忽略的編碼階段信息遷移應用至主解碼器中,實現(xiàn)對不同尺度特征信息的完整利用. 此外,本文以并聯(lián)的方式引入注意力轉移網絡(Attention Transfer Network,ATN),通過加權的方式消除一部分錯誤,保證向后傳遞信息的正確性,以克服傳統(tǒng)串聯(lián)方式在搜索未缺損區(qū)域過程中匹配到錯誤信息時,不可避免地將錯誤直接向后傳播的問題.

3.1 MSDN網絡架構

如圖3 所示,多級解碼網絡MSDN 由不可或缺的生成器G和判別器D共同構成,其中生成器G將缺損圖像ym映射為完整圖像y?,判別器D用來判別完整圖像y?的真假. 基于經典的生成對抗原理,G和D兩個網絡通過連續(xù)的“零和博弈”,最終達到納什平衡,得到最佳的網絡修復結果.

圖3 多級解碼網絡的生成器和判別器體系架構.

生成器G包含四個網絡模塊,分別為編碼器、主解碼器、副解碼器和注意力轉移網絡. 編碼器和主解碼器組成基本的編解碼網絡架構. 副解碼器提取編碼階段不同尺度下所包含的語義及細節(jié)層面特征,并與主解碼器對應尺度的特征相聚合. 此外,考慮到接近網絡末端的特征映射已恢復出大部分缺損內容,包含更多細節(jié)信息,因此將ATN 并行連接到主解碼器的后三層,進一步將相似塊從未缺損區(qū)域匹配復制到缺損區(qū)域.

判別器D是一個K層的全卷積網絡,即譜歸一化馬爾科夫判別器(Spectral Normalized Markovian Discrimina?tor,SN-PatchGAN)[23].D映射輸出一個形狀為Rh*w*c的三維特征,其中h,w,c分別表示高度、寬度和數(shù)量,相當于有h*w*c個小判別器同時工作,判別結果的可靠性增加.

3.2 自動編解碼網絡

本文提出的自動編解碼網絡同樣包括編碼器和解碼器兩部分,但是不同于常見的編碼、解碼架構,此處將解碼器劃分為主解碼器和副解碼器,并且稱之為多級解碼器.

3.2.1 編碼器

如圖3 中生成器G所示,編碼器是一個L層的全卷積網絡,通過連續(xù)的卷積操作對輸入圖像ym進行逐級空間壓縮,提取到特征映射在壓縮編碼過程中,編碼器不僅能逐步提取到不同尺度的上下文信息,還可依據(jù)缺損區(qū)域周圍的信息初步填充缺損內容.從依次提取到包含更多語義信息的高級特征,但同時也丟失了大量細節(jié)信息.

3.2.2 多級解碼器

多級解碼器主要包括一個主解碼器和多個副解碼器,均為反卷積網絡的疊加. 主解碼器網絡層數(shù)和編碼器保持一致,也為L,主要作用是逐層恢復出各尺度對應的特征映射. 對于一個L層的主解碼器,各層的特征映射與編碼部分相對應,分別表示為主的形成僅依賴于編碼器中最后一層解碼器第一層特征映射

對于主解碼器中間第j(4 ≤j<L)層的特征,其聚合過程如圖4 所示. 首先由副解碼器將編碼部分不同尺度的特征在當前尺度下解碼至與目標大小相同,將所解碼的特征跟主解碼器解碼的特征相聚合,綜合考慮主副解碼器得到最終聚合后的目標,公式化如式(4).

圖4 不同尺度特征匯聚示意圖,其中黑色箭頭表示主解碼過程,紅色箭頭表示副解碼過程

其中,i?[4,L),呈遞增趨勢,表示編碼器中間層索引;j?(L,4],呈遞減趨勢,為主解碼器中間層索引.⊕表示通道維疊加操作,fd(?)表示對不同尺度特征進行的反卷積操作,即解碼過程.

其中,fa(?)表示注意力模塊ATN對應的操作.

3.3 并行連接的ATN

已有方法引入注意力機制時,都是將其串聯(lián)在網絡層間,如CA[15]和Pen-Net[24],然而串聯(lián)方式存在固有的弊端. 如圖5(a)所示,若紅色區(qū)域表示匹配到的錯誤信息,串聯(lián)方式會導致網絡將錯誤信息逐層向后傳遞,進而產生錯誤的修復結果. 因此,本文以并聯(lián)方式將注意力機制引入MSDN 中. 如圖5(b)所示,并聯(lián)模式的ATN 既能充分利用注意力轉移網絡強大的匹配復制能力,又能保證所傳遞信息的準確性.

注意力轉移網絡[24,25]:注意力轉移網絡ATN 如圖6 所示,通過匹配計算缺損區(qū)域內外塊之間的相關性,可將未缺損區(qū)域的內容加權復制到缺損區(qū)域.

圖5 ATN的連接形式

圖6 注意力轉移網絡(ATN)

通常,缺損區(qū)域內外的相關性用余弦相似性si,j來衡量:

獲得l層的注意力得分Cj,i后,便可用注意力得分加權的上下文指導填充l+1層特征圖中的漏洞:

其中,pl+1j是提取自第l+1 層缺損區(qū)域的第j個前景塊,缺損區(qū)域總共被劃分為N個小塊.

3.4 損失函數(shù)

損失函數(shù)作為訓練過程中非常關鍵的約束條件,主要目的是最小化原始圖像和重建圖像之間的差異.為了完成訓練,首先組織訓練樣本,給定n個真實樣本集合通過生成網絡G生成的樣本集合為依據(jù)Y和Y?之間不同類型的差異來定義損失函數(shù). 本文所提MSDN 中,損失函數(shù)包括三部分,如圖3 中灰色框所示,分別為生成對抗損失?GAN、重建損失?rec和特征匹配損失?FM,各項損失函數(shù)采用加權相加的形式:

其中λ1、λ2分別為重建損失、特征匹配損失的權衡參數(shù).

3.4.1 生成對抗損失

GAN 網絡在生成器G和判別器D相互博弈中進行迭代優(yōu)化,生成對抗損失?GAN反映出生成網絡G生成的圖像與真實圖像之間的相似程度. 對抗損失懲罰并促使生成網絡G生成細節(jié)更為豐富的圖像,可以表示為:

?GAN=Eyi~pdata[logD(yi)]+Ey?i~pG[log(1-D(y?i))](10)其中,pdata和pG分別表示真實數(shù)據(jù)分布和生成數(shù)據(jù)分布,E為數(shù)學期望.

3.4.2 重建損失

為了保證圖像重建前后的一致性,本文引入重建損失?rec,主要包括像素級損失?1和VGG 損失?vgg.?1損失通過計算像素值的相似性保證像素級別的精確重建,?vgg約束語義信息實現(xiàn)高頻信息的精確表達:

其中VGG 是一 個預 訓練CNN 網絡,VGGl(·)則為VGG16 網絡每個最大池化層之后第l個卷積層得到的特征映射.

3.4.3 特征匹配損失

為能有效解決生成對抗網絡訓練過程中出現(xiàn)的梯度消失問題,本文引入特征匹配損失?FM. 特征匹配損失函數(shù)要求生成圖像和真實圖像在判別網絡中的特征中心靠近,通過比較判別器中間層的激活映射,迫使生成器生成與真實圖像相似的特征表示,從而穩(wěn)定訓練過程[9,26,27]. 特征匹配損失?FM公式化表述如下:

其中K為判別器的卷積層數(shù),Dk為判別器D第k層的激活結果,Nk表示判別器D第k個卷積層激活后的元素個數(shù).

4 實驗

4.1 實驗設置

4.1.1 實驗平臺及實驗參數(shù)

本文所提方法MSDN在訓練及測試中,使用的硬件平臺為Intel(R)Core(TM)i7-8700 CPU(3.2 GHz)和單個的NVIDIA TITAN Xp GPU(12 GB),軟件平臺為Ten?sorFlow 1.10.0.

在訓練過程中,使用Adam 優(yōu)化器,初始學習率設置為1×10-4,后期再將其調整為1×10-5,用于對模型進行微調. 一階動量和二階動量分別被設為β1=0.5,β2=0.9. 對于損失函數(shù)的平衡參數(shù),經多次調參后確定為λ1=1.2、λ2=0.01. 網絡設計時,編碼器和主解碼器的卷積層均為L=6;判別器中全卷積層數(shù)K也為6.

4.1.2 實驗數(shù)據(jù)集及對比方法

在上述軟硬件平臺及參數(shù)設置下,分別在人臉數(shù)據(jù)集Celeba-HQ[28]、立體墻面數(shù)據(jù)集Facade[29]、場景圖像數(shù)據(jù)集Places2[30]以及自行組織的壁畫數(shù)據(jù)集Mural 上進行訓練及測試. 分批將各數(shù)據(jù)集下的圖像送入網絡,每批次送6 張,訓練和測試所用圖片大小均為256×256. 訓練集及測試集的樣本量劃分如表1所示.

表1 訓練集、測試集劃分

本文采用以下四種主流的圖像修復方法跟所提出的MSDN方法進行對比:

PatchMatch[4]:一個典型的基于塊的方法,從周圍已知環(huán)境中尋找相似塊復制到缺損區(qū)域,被應用于常見的圖像處理軟件中.

CA[15]:一種分為粗細精度兩階段訓練的模型,采用兩個編解碼器串聯(lián)的形式,在細精度網絡中使用上下文注意力機制.

GMCNN[22]:一種生成式多列神經網絡架構,采用三個編解碼器并聯(lián)的形式.

Pen-Net[24]:一種基于U-Net[31]架構的金字塔式圖像修復方法,采用“由深到淺,多次補全”的策略修復受損圖像.

4.1.3 評價指標

為了客觀評價先進方法CA[15],GMCNN[22]以及本文提出的MSDN 方法的修復效果,在相同的實驗條件下,采用以下幾種客觀指標來評價重建質量:

(1)峰值 信噪 比(Peak Signal-to-Noise Ratio,PSNR)[32]通過圖像之間最大可能像素值Z和均方誤差MSE來定義:

其中,Z取值255,PSNR 的值通常在20 到40 之間,越高表示重建圖像質量越好.

(2)結構相似度(Structural SIMilarity,SSIM)[33]是在比較圖像亮度、對比度特性的基礎上,衡量圖像之間的結構相似度.

其中,μ和σ分別表示圖像像素強度的均值和方差;C1=(k1Z)2,C2=(k2Z)2為保持穩(wěn)定的常數(shù),k1?1且k2?1,Z是可能的最大像素值,通常情況下取值為255.

(3)弗雷切特起始距離(Frechet Inception Distance,F(xiàn)ID)[34]是計算真實圖像與修復圖像特征向量之間距離的性能指標.FID分數(shù)越低,生成圖像質量越好,與原圖相似性越高.

(4)L1損失[35]通過計算重建圖像與原始圖像絕對差值的總和,來評判兩張圖像在像素層面的相似性.

4.2 結果分析

該小節(jié)針對不同修復方法所得修復結果,從主觀、客觀以及用戶研究三方面來對比分析各方法的優(yōu)劣.由于MSDN 在多級解碼過程中實現(xiàn)了高級語義特征指導下對低級紋理細節(jié)特征的重建,因此得到了較為滿意的評價結果.

4.2.1 定性評價

4.2.1.1 不規(guī)則缺損下修復結果分析

以下分別在Celeba-HQ、Fa?ade、Places2 三個數(shù)據(jù)集上討論各算法的修復性能.

在人臉數(shù)據(jù)集Celeba-HQ[25]上,使用不同算法得到的修復結果如圖7 所示. 相對于PatchMatch[4]修復方法,MSDN 生成的圖像語義上更加合理,避免了Patch?Match 因匹配錯誤而產生錯誤結果的情況. 與CA[15]生成的結果相比,MSDN 基本消除了修復區(qū)域模糊和扭曲的現(xiàn)象,生成結果更加平滑、實現(xiàn)了從破損區(qū)域到未破損區(qū)域的完美過渡.GMCNN[22]在待修復區(qū)域面積較小的情況下,修復性能優(yōu)越,但對于較大面積的缺損,其表現(xiàn)出水波紋狀的視覺模糊,影響圖像整體觀測效果.

在立體墻面數(shù)據(jù)集Facade[29]上的修復效果對比如圖8 所示. 塊匹配方法PatchMatch[4]在某些內容重復性較強的圖像修復任務中表現(xiàn)出很好的性能,如圖8(b)上圖,但由于缺乏對圖像整體語義的理解,會出現(xiàn)信息匹配 錯誤 的情 況,如圖8(b)下圖 所示. CA[15]和GMCNN[22]在小面積缺損時均能重建出完整的缺失內容,待修復區(qū)域面積較大時,仍然會出現(xiàn)修復錯誤和模糊的情況,如圖8(c)、(d)所示. 本文所提方法MSDN 整體性能較為穩(wěn)定,不會因待修復圖像結構、缺損面積大小而影響到修復效果.

圖7 不同方法在CelebA-HQ數(shù)據(jù)集上的重建效果圖

圖8 不同方法在Facade數(shù)據(jù)集上的重建效果圖,放大觀察效果更佳

不同算法在自然場景圖像數(shù)據(jù)集Place2[30]上的修復效果如圖9 所示,對于背景重復性自然場景圖像,PatchMatch[4]和MSDN 修復效果基本持平,如圖9(b)、(e)的上圖. 但對于內容復雜的缺損圖像而言,Patch?Match 修復性能驟減,如圖9(b)下圖所示,而MSDN 依然可以修復出連續(xù)性較強的缺失內容,如圖9(e)下圖所示. CA[15]修復區(qū)域內外一致性差的問題在Places2數(shù)據(jù)集中表現(xiàn)的依舊很明顯,嚴重影響到圖像的觀測效果. 同樣,GMCNN[22]修復大面積缺損時出現(xiàn)的水波紋狀模糊現(xiàn)象在此并未得以改善,如圖9(c)所示.

除了在公認數(shù)據(jù)集Celeba-HQ[28]、Facade[29]、Plac?es2[30]上進行的性能驗證外,我們還將所提方法MSDN擴展應用到壁畫圖像修復任務中. 在自行組織的壁畫數(shù)據(jù)集Mural上觀測其重建效果,視覺展示如圖10所示. 從圖中可知,MSDN在修復壁畫圖像時,基本實現(xiàn)了對缺損區(qū)域細節(jié)的重現(xiàn),得到了視覺上完整、語義上合理的修復結果.

圖9 不同方法在Places2數(shù)據(jù)集上的重建效果圖

圖10 MSDN在Mural數(shù)據(jù)集上的重建效果圖

4.2.1.2 矩形缺損時修復結果分析

為了進一步驗證本文所提方法MSDN 在矩形缺損下的修復效果,在人臉數(shù)據(jù)集Celeba-HQ[28]上重新訓練網絡并進行相應測試,并與2019 年CVPR 中Zeng 等人所提方法Pen-Net[24]進行矩形掩碼下的修復效果對比.如圖11 所示,圖11(a)~(d)依次表示待修復圖像、Pen-Net[24]修復結果、MSDN 修復結果和原圖. 由圖可知,Pen-Net[24]修復出的人臉圖像趨于模糊,修復區(qū)域邊緣出現(xiàn)色差、過度不連續(xù)等問題,主要表現(xiàn)在嘴唇部分.而MSDN 修復的人臉圖像五官清晰,色彩一致性較好,僅通過肉眼已難以分辨出原圖還是修復后的圖像.

4.2.2 定量評價

對于測試集中的每一張圖片,我們設置了大小不同的缺損區(qū)域,即不同比例的掩碼面積,并使用三種不同的圖像修復方法得到對應的修復結果. 為了量化模型性能,表2 列出了用不同方法修復破損圖像的客觀評價分值,分別使用標準度量指標PSNR,SSIM,F(xiàn)ID,L1-loss來計算修復后的圖像與原圖之間的相似性及差異. 總體而言,本文提出的MSDN 在四個度量指標下均優(yōu)于CA[15]和GMCNN[22]. 該結果說明MSDN 相對于主流的編解碼網絡,修復效果有明顯提升,尤其是在人臉圖像的修復中,這是因為MSDN加強了對結構化信息的關注度.

圖11 Pen-Net(b)及MSDN(c)在Celeba-HQ數(shù)據(jù)集上的重建效果圖

4.2.3 用戶研究

對圖像修復效果的評價一般以主觀為主,因此本文進行了用戶研究以量化主觀評價. 我們從每個測試集隨機選取出100張圖像,在不同范圍的掩碼下獲得三種方法(CA[15],GMCNN[22],MDSN)的修復結果. 按照掩碼大小將900 張圖像分三批展示給實驗小組中的24個成員(有10個成員從事圖像方面的研究,14個不曾接觸過),每次展示三張由不同方法得到的順序混亂的圖像,在不限制時間的前提下讓評分員對每張圖片打分,分值范圍0~10.

最后分批求出24個評分員對不同方法所得圖像打分的均值,并列出圖12 所示的分值統(tǒng)計圖. 由圖可知,在不同比例的缺損面積下,本文提出的MSDN所得結果用戶認可度高.

表2 各種方法的定量評價結果(不規(guī)則掩碼).

↑表示越大越好,↓表示越小越好.每組實驗最好的評價結果已在表中用粗體標出.

圖12 用戶研究結果統(tǒng)計圖

4.3 消融對比實驗

為了進一步說明并行連接ATN 的有效性,分別組織實驗驗證去除ATN 以及串行連接ATN 時的修復效果,并與本文中的并行連接方式所得結果進行對比,如圖13 所示. 其中,圖13(a)為輸入的待修復圖像,圖13(b)~(d)分別表示無ATN 時的修復結果及串行、并行連接ATN 后的修復結果,e列為原始圖像. 由圖13(b)可知,無ATN 時,修復結果雖然具備較好的內外一致性,但在缺損嚴重的區(qū)域會出現(xiàn)模糊現(xiàn)象,如圖13(b)上圖的修復結果,在修復內容較為復雜時,甚至會表現(xiàn)出修復結果錯誤、扭曲的現(xiàn)象,如圖13(b)下圖的修復結果.串行連接ATN 后,網絡整體性能有一定提升,但模糊和結果錯誤的問題并未得到徹底解決,如圖13(c)所示.ATN 的并聯(lián)方式通過抵消一部分匹配到的錯誤信息,有效解決了無ATN 及串聯(lián)ATN 時出現(xiàn)的修復區(qū)域模糊、匹配信息錯誤的問題,如圖13(d)所示.

圖13 注意力轉移網絡消融對比實驗效果圖

5 結論

本文提出了一種多級解碼網絡MSDN,由副解碼器對編碼階段各尺度特征進行解碼,獲得不同尺度的特征表示,并將其聚合至主解碼器,共同指導下一級特征的重建. 此外,本文以并聯(lián)的方式將注意力機制引入主解碼器,重建出更精確、視覺效果更佳的預測結果. 通過大量實驗證明,MSDN 可有效生成細節(jié)豐富、邊緣過渡平滑、視覺上逼真的完整圖像.

猜你喜歡
解碼器解碼損失
《解碼萬噸站》
少問一句,損失千金
科學解碼器(一)
胖胖損失了多少元
科學解碼器(二)
科學解碼器(三)
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
解碼eUCP2.0
中國外匯(2019年19期)2019-11-26 00:57:32
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
阳朔县| 额济纳旗| 金堂县| 新蔡县| 来凤县| 新宾| 忻州市| 陵水| 浦县| 微博| 遂溪县| 台安县| 宁陕县| 平遥县| 易门县| 崇义县| 若羌县| 德州市| 罗甸县| 巍山| 沙河市| 莎车县| 班玛县| 双柏县| 汝城县| 资兴市| 浮山县| 张掖市| 犍为县| 福州市| 祥云县| 伊金霍洛旗| 兰考县| 尼木县| 土默特右旗| 广州市| 岫岩| 娱乐| 合作市| 孙吴县| 白城市|