趙 磊 吉柏言 邢 衛(wèi) 林懷忠 林志潔
1 (浙江大學計算機科學與技術學院 杭州 310027)
2 (浙江科技學院信息與電子工程學院 杭州 310023)(cszhl@zju.edu.cn)
在人類文明的發(fā)展歷程中,文化藝術起著非常重要的作用.而繪畫是重要的文化藝術形式,它是中華民族文化的重要組成部分,根植于民族文化土壤之中,通過優(yōu)美的藝術形式,來反映廣泛的現(xiàn)實生活內(nèi)容,從而體現(xiàn)各民族的文化面貌和審美趣味,是人類觀察世界和表達世界的獨特而重要的方式.數(shù)千年以來,我國產(chǎn)生了大量的繪畫作品.對這些繪畫作品的研究,是人們了解人類的歷史、文化、藝術以及科技的發(fā)展史,從而進一步推動人類文明的發(fā)展的重要手段.這些繪畫作品上下跨度幾千年,包含有豐富的文化、藝術、科學與歷史價值,但是由于自然災害(地震)與自然風化以及人類越來越多的經(jīng)濟活動等種種原因導致部分繪畫作品存在或多或少的殘損或者大塊缺失,嚴重影響了基于這些繪畫作品的鑒賞、文化創(chuàng)意、文化傳播等活動.因此如何利用最新的科學技術手段對這些已經(jīng)殘損或者大塊缺失的藝術圖像進行數(shù)字化的修復具有非常重要的意義.
隨著計算機采集技術和硬件的發(fā)展以及國家對文化遺產(chǎn)保護的重視,在國家相關部門的支撐下,相關的文保部門開展了大量的繪畫作品(藝術圖像)高精度數(shù)字化采集工程,典型的工程如歷代繪畫大系、宋畫全集、元畫全集等,積累了海量的藝術圖像數(shù)據(jù).這些數(shù)字化數(shù)據(jù)為藝術圖像的智能分析和處理提供了數(shù)據(jù)基礎.同時,計算機人工智能技術特別是深度學習技術目前有了重大的突破,如基于深度學習的圖像分類準確率已經(jīng)達到96%、人臉識別準確率已經(jīng)達到97%以上等.計算機人工智能技術的發(fā)展為藝術圖像的數(shù)字化修復提供了技術可行性.另外,目前我國的人均GDP 已經(jīng)超過了1 萬美元,根據(jù)國際經(jīng)驗,人均GDP 達到1 萬美元時文化娛樂消費需求將出現(xiàn)爆發(fā)式增長.因此藝術圖像的修復工作對當前中國文化產(chǎn)業(yè)而言具有非常重要的意義.
圖像修復定義為:給定一個包含有噪音或者缺失像素的圖像,基于圖像中已有的可見像素,利用各種算法推理缺失像素,進而達到對圖像的缺失內(nèi)容的修復.學術界針對圖像修復已經(jīng)做了大量的工作.通常情況下丟失的像素構成圖像中的狹長區(qū)域或者小洞,這種情況往往會表現(xiàn)為帶有劃痕和污漬的照片.基于偏微分方程(PDE)的算法可以有效地解決這類修復問題.但是,在圖像對象扣除后的圖像修復以及嚴重受損圖像的修復等情況下,待修復圖像中包含有較大的空洞,針對這類圖像的修復來說,基于偏微分方程的算法往往會產(chǎn)生過平滑以及模糊的人工痕跡.基于例子的算法能夠較好地解決這個問題.圖像缺失的像素是按照隨機形式丟失的,這種圖像在實際應用中經(jīng)常出現(xiàn).重建隨機缺失像素的算法和基于案例的算法是有區(qū)別的,因為待修復圖像中沒有例子可以利用,為了解決這個問題學術界提出了很多算法:全變差在已觀察的圖像保真度的約束下通過最小化圖像整體變分(total variation,TV)能量(定義為梯度粒度的積分)來求解問題;矩陣修復算法當原始待修復圖像的秩很低時修復效果較好;基于包的(patch based)算法提供比前述的數(shù)值算法更好的修復結果,但通常需要更多的運行時間和占用更多內(nèi)存.基于深度學習[1-13]的圖像修復技術由于能夠通過深度卷積神經(jīng)網(wǎng)絡來學習和提取圖像的特征以及學習圖像的先驗知識而成為目前主流的圖像修復算法,在自然圖像的修復方面[7-40]也取得了一定的成效.針對空洞區(qū)域是光滑而且沒有紋理的修復效果較好,但是針對復雜紋理圖像的大塊空洞,其修復后的圖像存在紋理不一致、人工痕跡嚴重、修復結果多樣性差等問題,同時上述文獻算法主要針對自然圖像,圖像修復過程的圖像先驗模型主要依據(jù)人類對于圖像內(nèi)容完整性的視覺感知規(guī)律.
與自然圖像相比,中國古畫具有3 個明顯的特點而本文也針對這些特點設計了一些應對方案:
1)古畫圖像的自相似性通常較高,即畫面中往往存在多處相似的局部結構或圖案,比如山水畫中通常有許多外觀相似的巖石、樹木;街景畫中有許多外觀相似的房屋、人物等.基于該特點,本文算法利用雙重注意力模塊中的空間注意力模塊使圖像上的每個位置建立起全局的視野,修復缺失位置的時候借鑒語義上與之相似的位置的更多信息,以已有的畫意作為補缺的標準,使修復結果盡可能接近原作.
2)中國古畫作為一種藝術圖像,有著明顯的風格特點,修復后的區(qū)域不應干擾整幅圖像的風格.因此本文算法利用雙重注意力模塊中的風格注意力模塊增強模型對圖像的風格表示,同時在損失函數(shù)中引入風格損失,約束修復結果以及同時維持原圖的風格.
3)自然圖像相對平滑,而古畫中的筆觸使得圖像有著豐富和細膩的紋理.模型中的多路編碼器具有多個視野大小不同的分支,擁有大視野的分支網(wǎng)絡關注宏觀的結構,而具有小視野的分支網(wǎng)絡關注細微的紋理,使得本文算法不僅能夠修補受損的內(nèi)容,還能相對細致地復原紋理,令接筆處與整幅畫渾然一體,不露痕跡.總的來說,本文算法力求修復后的古畫在內(nèi)容的完整性和風格上的延續(xù)性.
古畫遭受的損害通常是宣紙或絹帛表面的破損褶皺、水漬油污、霉變蟲洞等,這些病害使得古畫不再完整,畫面上部分的內(nèi)容缺失或受損影響了古畫的外觀和信息表達.在傳統(tǒng)的手工修復算法中,會對受損古畫進行全色.全色包括補色和接筆等步驟,補色指的是在畫面缺損處填充與畫面相同的底色,讓整幅畫的色調(diào)趨于協(xié)調(diào),做到“紙必補處莫分”;接筆指的是在因殘損造成的斷筆處,按照畫意填補上缺失的內(nèi)容,使畫意重新銜接完整.但是手工修復的風險較大,而在計算機上利用圖像修復算法對古畫進行數(shù)字化修復能夠避免對文物本體造成再次損傷.由于畫家在創(chuàng)作過程中帶有主觀性,繪畫作品較之于自然圖像有較大的區(qū)別.首先,與自然圖像相比,藝術圖像顏色具有不同程度的退化.其次,與一般的自然圖像相比,繪畫作品是人工作品,圖像內(nèi)容經(jīng)由藝術家刻意設計,具有鮮明的特點,如藝術風格基本組成是線描和色彩.自然圖像主要表達真實存在的內(nèi)容,無論是背景還是目標主題,都不脫離現(xiàn)實.繪畫作品則更多地反映畫家的構想,其內(nèi)容可能與現(xiàn)實差別巨大.即使是同一主體對象,在繪畫作品中也可能會以不同的形式、不同的藝術風格表現(xiàn)出來,更遑論藝術風格本身就是主觀抽象的概念.再次,藝術圖像顏色組成簡單(相對于自然圖像的豐富色彩),而且具有明顯的筆觸(繪畫藝術區(qū)別于攝影藝術的重要標志).如何學習藝術圖像中隱含的風格、色彩等規(guī)律,并應用這些規(guī)律對圖像進行修復是關鍵的科學難題.總的來說,相對于自然圖像而言,藝術圖像由于其色彩退化、噪音類型復雜等問題導致其數(shù)字化修復異常困難,但是同時由于藝術圖像具有鮮明的藝術風格、內(nèi)容色彩簡單有規(guī)律等特點,為藝術圖像的修復提供了良好的先驗性約束.鑒于藝術圖像的特殊性,傳統(tǒng)的圖像修復算法并不適合直接應用于藝術圖像的修復.
綜上所述,針對藝術圖像修復仍然存在2 個問題:
1)藝術作品一般都包含了作者的繪畫風格和流派、意境等信息,如何對藝術圖像中隱含的這些信息進行建模學習,并依據(jù)這些信息作為約束(如風格)來修復藝術圖像是一個難題;
2)相對于自然圖像,藝術圖像數(shù)量較少,另外待修復的藝術圖像并沒有和其對應的真實(ground truth)圖像用于訓練深度學習模型,如何在小樣本條件下構建藝術圖像的無監(jiān)督修復模型是一個難題.
針對這2 個問題,結合中國古畫的特點對算法和模型結構進行設計,采用了雙重注意力模塊分別從風格和內(nèi)容2 個方面來學習古畫的全局語義特征.為了驗證本文提出的算法的先進性,制作了一個古畫數(shù)據(jù)集,在該數(shù)據(jù)集上的實驗證明,提出的算法相對于目前最先進的算法而言具有較好的修復能力.
圖像修復技術作為數(shù)字圖像處理領域中熱門的研究方向在國內(nèi)外都受到了很大的關注,圖像修復[1-6]概念的提出是受到了以往手工修補藝術圖像的啟發(fā),至今已經(jīng)有將近20 年的發(fā)展歷程.目前現(xiàn)有的解決圖像缺失算法主要有4 類.
基于PDE 的圖像修復算法最早是由圖像修復技術概念的提出人Bertalmio 等人[7]在2000 年的SIGGRAPH大會上提出來的,該模型又稱BSCB (Bertalmio sapiro caselles ballester)模型[7].Telea[8]在BSCB 的基礎上提出了快速行進算法,通過確定待修補區(qū)域領域的等照度線方向,層層遞進對圖像進行完整修復.Chan 等人[9]提出了利用歐拉-拉格朗日方程和各向異性擴散的方式來保持等照度線方向的算法,這種算法被稱為整體變分.為了滿足圖像視覺連通性的要求,Chan等人[10]提出基于曲率驅動擴散(curvature-driven diffusion, CDD)的修復模型.相關算法還有:Tsai 等人[11]提出的Mumford-Shah 模型、Shen 等人[12]提出的Euler’s Elastica 模 型、Esedoglu 等 人[13]提 出 的Mumford-Shah-Euler 模型.以上基于PDE 的圖像處理算法在缺失區(qū)域較小的圖像中有較好的表現(xiàn),但對于圖像破損區(qū)域較大的圖像通常會出現(xiàn)一些如邊界模糊、紋理延伸錯誤等問題.
基于紋理合成的圖像修復算法,其起源于Efros等人[14-15]提出用于紋理合成的非參數(shù)算法,通過查詢樣本圖像找到所有相似的鄰域來估計到目前為止合成的所有鄰域的像素的條件分布.Bertalmio 等人[16-17]將圖像分解成2 個部分,結構子圖利用基于擴散的算法進行修復,紋理子圖則用紋理綜合的算法填充.Drori 等人[18]提出了基于碎片的圖像修復算法,但這個算法處理速度慢.Criminisi 等人[19]提出了采樣填充圖像的修復算法,極大地提升了圖像修復的最終效果.Barnes 等人[20]提出的包匹配(patch match)基于快速近似最近鄰的思想大大提高了算法的運行效率[21].
Stark 等人[22]利用形態(tài)成分分析(morphological component analysis)將圖像結構和紋理等部分合并得到最終的修復圖像.Elad 等人[23]在Stark 等人[22]的基礎上引入了懲罰因子來約束圖像結構信息,從而較好地保持原圖的結構信息,兼顧了紋理信息.Mairal等人[24]將學習字典應用于彩色圖像的復原,并且提出了在線字典學習[25]的算法.Shen 等人[26]則將信號標記字典應用于圖像修復,無需字典的訓練來達到提高計算效率的目的.Li[27]提出的綜合稀疏表示(hybrid sparse representations)模型是利用貝葉斯平均法來組合圖像全局和局部稀疏表示的算法.Gabriel[28]將稀疏表示模型和紋理合成相結合提出一種新的修復算法.Zhang 等人[29-30]提出了基于空間變化域上聯(lián)合稀疏統(tǒng)計修復模型來達到更好的修復效果.Zhang等人[31]提出將紋理合成中的基于樣本的修復算法和稀疏表示相結合的方法,并將稀疏表示運用于搜索圖像塊局部特征中,該方法既可以克服紋理擴散問題又可以解決解決稀疏表示中修復大破損區(qū)域的邊界模糊問題.
傳統(tǒng)的非深度學習的圖像修復的算法主要是基于物理和數(shù)學的算法,但是這些算法的修復往往依靠單張圖像的信息,沒有辦法學習某一類圖像的規(guī)律,進而導致其修復效果存在明顯的人工痕跡.近幾年,深度神經(jīng)網(wǎng)絡被引入用于圖像紋理合成圖像修復中,Pathak 等人[4]訓練編碼-解碼CNN(上下文編碼器)和對抗生成網(wǎng)絡[32]的組合網(wǎng)絡直接預測缺失的圖像區(qū)域.該算法的修復結構往往會因為丟失圖像紋理信息導致修復結果缺乏精細的紋理細節(jié)從而在孔的邊界產(chǎn)生較為明顯的偽影,無法處理高分辨率圖像.為了解決高分辨率圖像問題,Yang 等人[33]在上下文編碼器的基礎上提出了基于圖像內(nèi)容和紋理約束的聯(lián)合優(yōu)化的多尺度神經(jīng)補片合成的算法,該算法不僅保留了上下文結構,而且通過匹配和調(diào)整補丁與最相似的中間層特征的相關性來產(chǎn)生高頻細節(jié),從而能獲得較高分辨率圖像.Zeng 等人[34]提出了多尺度的特征金字塔的圖像修復模型.Ren 等人[35]利用圖像的結構信息來對圖像進行修復.Xiong 等人[36]首先將待修復的圖像進行前背景分離,然后再分別進行修復,取得了較好的修復結果.Zheng 等人[37]采用2 條并行路徑來提高圖像修復的多樣性,其中一條路徑學習缺失部分的先驗分布,另一條路徑根據(jù)先驗分布生成缺失部分.然而,這2 條并行路徑只能提供有限的多樣性,因為它僅僅通過學習圖像缺失部分的先驗分布來生成不同的圖像修復結果.Zhao 等人[38]提出了無監(jiān)督跨空間轉換生成對抗網(wǎng)絡來探索可能的修復結果空間,該對抗網(wǎng)絡表現(xiàn)出了較好的圖像修復的多樣性.Liao 等人[39]引入了語義和紋理之間的一致性先驗來增加修復的紋理約束,首先對先驗進行建模,然后以粗到細的方式對圖像修復和語義分割進行相應的交錯優(yōu)化,通過探索非局部語義連貫性,跨尺度細化完成圖像紋理,有效緩解了紋理的混淆.Liu 等人[40]提出了一種用于兩者聯(lián)合恢復的互編碼器-解碼器,使用編碼器深層和淺層的卷積神經(jīng)網(wǎng)絡特征分別表示輸入圖像的結構和紋理,將深層特征發(fā)送到結構分支,將淺層特征發(fā)送到紋理分支,在每個分支中,都會在卷積神經(jīng)網(wǎng)絡的多個尺度特征中填充漏洞.Nazeri 等人[41]提出了一種2 階段對抗模型EdgeConnect,該模型由邊緣生成器和圖像完成網(wǎng)絡組成,邊緣生成器使圖像的缺失區(qū)域(規(guī)則和不規(guī)則)的邊緣產(chǎn)生幻覺,圖像完成網(wǎng)絡使用幻覺邊緣作為先驗來填充缺失區(qū)域.Yu 等人[42]提出了一種生成式圖像修復系統(tǒng),用自由形式的掩模和引導來完成,該系統(tǒng)基于從數(shù)百萬圖像中學習的門控卷積,無需額外的標記工作.
目前,盡管深度學習算法在圖像修復方面做了大量的工作,相對于傳統(tǒng)的修復算法在修復效果上也取得了一定的突破,但是現(xiàn)存算法都是針對自然圖像修復的,針對藝術圖像修復的算法仍然存在前面所述的問題.
當前圖像修復領域最先進的算法都采用生成對抗網(wǎng)絡作為基礎架構,生成對抗網(wǎng)絡中生成器和判別器相互博弈的訓練策略促使生成器去模擬真實數(shù)據(jù)的分布,使得修復結果與真實圖像更接近.本文模型也將生成對抗網(wǎng)絡作為基礎架構,模型包含生成器G網(wǎng)絡和判別器D網(wǎng)絡,在訓練階段,生成器和判別器共同參與訓練;而在測試階段,僅使用生成器對圖像進行修復,不需要判別器的參與.如圖1 所示,進一步對生成器網(wǎng)絡進行劃分,可以分解為3 個部分:位于網(wǎng)絡前段的多路編碼器、位于網(wǎng)絡中間位置的空間-風格注意力模塊和位于網(wǎng)絡后段的解碼器.生成器的輸入是帶有不規(guī)則形狀孔洞的輸入圖像x以及標識缺失像素和完整像素位置的掩膜M.由于不規(guī)則孔洞的數(shù)量、位置、形狀、面積都具有很高的隨機性,僅僅輸入缺失圖像x,生成器很容易將古畫上的一些孔洞和原本的圖案混淆起來,所以此處將M作為輔助的條件信息,輸入到生成器之中.其中x尺寸為256×256,M是一張二值單通道掩膜,寬和高與x相同,M上每個像素的值為0 或1,分別對應圖像上的完整像素和缺失像素.M在通道維度被拼接在x的后面,形成4 通道的 [x,M]后作為生成器的輸入.算法最終輸出的修復圖像為=G([x,M])⊙M+x⊙(1-M),其中符號 ⊙表示求哈達瑪積(Hadamard product),即求2 個矩陣對應元素相乘(element wise)的結果.因此生成器的任務是對輸入圖像上的孔洞中的像素進行修復,孔洞以外的完整像素則直接輸出,這樣生成器不需要考慮這些孔洞以外的區(qū)域的生成問題,簡化了生成器的任務.判別器的輸入是修復圖像y?和對應的真實完整圖像(ground truth)y,D對兩者分別評分,嘗試將它們區(qū)分開來.下面對每個部分進行詳細介紹.
Fig.1 Network structure diagram of Chinese ancient painting restoration algorithm based on multi-channel encoder and dual attention module圖1 基于多路編碼器和雙重注意力模塊的中國古畫修復算法的網(wǎng)絡結構圖
2.1.1 多路編碼器
卷積神經(jīng)網(wǎng)絡通過將輸入圖像逐層地抽象化以提取圖像的特征,在這個過程中,卷積核尺寸(kernel size)、膨脹系數(shù)(dilation)、卷積操作的步長(stride)這些參數(shù)都會影響網(wǎng)絡的感受野(receptive field)的大小,即網(wǎng)絡中某一層輸出的特征圖上的單個像素點對應于輸入圖像上映射區(qū)域的大小.感受野大小不同,觀察到的特征也是不同的,小的感受野關注圖像局部的特征,能夠觀察到更多的細節(jié),大的感受野則能夠觀察到整體的趨勢.因此網(wǎng)絡的感受野大小決定該網(wǎng)絡能夠捕獲到圖像中多大尺度的信息,可以被理解為網(wǎng)絡的“視野”.
在古畫的修復任務中,想要獲得合理且修復痕跡輕的修復結果,需要在不同大小的視野下觀察圖像.以圖2(a)為例,被虛線包圍的白色區(qū)域代表圖像上的孔洞.p1 是孔洞中的1 個待修復的像素點, Ω1指代的方形區(qū)域表示感受野,圖像修復模型要對孔洞造成的內(nèi)容缺失進行修補,需要從較大的視野里看清缺失區(qū)域所屬部分的結構,此時需要較大尺寸的感受野.為了使修復后的結果看起來自然,修復時還要保證修復區(qū)域的紋理被逼真地復原,避免在修復區(qū)域留下明顯的痕跡,此時應當使用較小的視野,關注周圍鄰近區(qū)域的紋理和細節(jié),如圖2(b)所示.本文算法中的多路編碼器能夠實現(xiàn)多尺度特征抽取和多尺度特征融合,如圖1中所展示的多路編碼器結構,它具有3 條并行的卷積神經(jīng)網(wǎng)絡分支.本文算法中通過使用膨脹卷積[43]來迅速地增大部分分支的感受野,使得3 條分支最終的感受野大小各不相同.膨脹卷積與同尺寸的普通卷積相比,并沒有改變實際參與卷積點乘的像素個數(shù),而是通過對像素點按照一定數(shù)目的間隔進行采樣,擴大了輸入窗口的尺寸.膨脹卷積擴大感受野的方式,其中3 張子圖分別表示依次堆疊起來的3 個卷積層,卷積核尺寸均為3×3,步長均為1,而膨脹系數(shù)依次為1,2,4.第1 層卷積層膨脹系數(shù)為1,表示不膨脹,其感受野為3×3;第2 層卷積層膨脹系數(shù)為2,盡管實際只有網(wǎng)格標注的9 個像素參與了卷積運算,但是由于該層的每個像素都是前一層卷積的輸出,因此該層每個像素點的感受野都為3×3,這9 個像素的感受野平鋪后就能覆蓋圖上7×7 的區(qū)域,使得該層達到7×7 的感受野;第3 層卷積層的膨脹系數(shù)為4,同理,由于參與卷積的9 個像素點都具有7×7 的感受野,平鋪后能夠覆蓋圖上15×15 的區(qū)域.普通卷積的感受野隨層數(shù)增長的速度太慢,為了獲得大感受野需要一定的網(wǎng)絡深度,導致訓練難度提高,訓練時長增加.膨脹卷積和同尺寸的普通卷積相比,并沒有增加參數(shù)的數(shù)量和計算量,而膨脹卷積的感受野隨層數(shù)的增加呈指數(shù)級的增長,增長速度明顯快于普通卷積.多路編碼器具有3 條并行的卷積神經(jīng)網(wǎng)絡分支,其輸入數(shù)據(jù)的形式為[x,M],3 個分支網(wǎng)絡都接受相同的輸入,且除了膨脹系數(shù)不同以外,3 個分支網(wǎng)絡具有完全相同的結構和配置.3 個分支均由6 個卷積層構成,卷積核尺寸都為3×3.由于在編碼階段多次下采樣的做法容易丟失圖像細節(jié)信息,導致解碼時重構圖像的紋理模糊,本文算法盡可能減少下采樣的次數(shù).每個分支網(wǎng)絡中,前5 層卷積的步長均為1,僅第6 層卷積的步長為2,即只在最后1 層進行下采樣,目的是將多路編碼器輸出的特征圖尺寸縮小到合適的大小,以減少后續(xù)計算步驟所需的存儲空間.所有卷積層采用Elus[44]作為激活函數(shù),其正值部分與ReLU 函數(shù)相同,導數(shù)均為1,減輕了梯度彌散的問題.但ReLU 的輸出值域不包含負數(shù),所以其激活值的均值為正值,會對下一層造成內(nèi)部協(xié)變量偏移(internal covariate shift)的影響,而Elus 具有負值部分,使得激活值的均值更接近0,產(chǎn)生類似批歸一化(batch normalization)的效果.此外,Elus 與ReLU 相比,負值部分是指數(shù)函數(shù),而不是線性函數(shù),當Elus 的輸入取較小值時具有飽和的特性,對噪聲更魯棒.
Fig.2 Observating image using different receptive fields in the inpainting process圖2 修復過程中使用不同感受野觀察圖像
3 個分支網(wǎng)絡各層的膨脹系數(shù)設置如表1 所示.第1 個分支的6 個卷積層的膨脹系數(shù)均為1,即全不膨脹,最后1 層的感受野大小為13×13;第2 個分支的6 個卷積層的膨脹系數(shù)分別1,2,4,8,16,1,即在中間4 層進行膨脹,最后1 層的感受野大小達到65×65;第3 個分支的6 個卷積層的膨脹系數(shù)分別為1,2,4,8,16,32,即在后5 層進行膨脹,最后1 層的感受野大小達到127×127.不同的膨脹系數(shù)配置,使得不同分支具備大小不同的感受野,從而關注不同尺度的特征.而在這3 個分支網(wǎng)絡的末端,3 個輸出結果在通道維度上被拼接起來,然后再通過1 次卷積,實現(xiàn)對不同尺度特征的融合,融合后的特征輸入到空間-風格注意力模塊執(zhí)行后續(xù)的處理.
Table 1 Network Structure of Multi-Channel Encoder表1 多路編碼器網(wǎng)絡結構
2.1.2 空間-風格注意力模塊
空間注意力模塊為圖像中的每個位置構建全局視野,有效捕獲空間上不同位置之間的長距離依賴關系,令每個位置從語義上更相似的位置處獲取更多信息,在對缺失位置進行修復時更有依據(jù),增強修復結果的可靠性和準確性;風格注意力模塊能夠增強模型對圖像風格的表示,其與損失函數(shù)中的風格損失配合,能夠約束修復結果和保持原圖的風格.如圖3 所示,2 個注意力模塊以串行的方式相連接.空間注意力模塊的輸入特征圖A是由多路編碼器輸出的特征圖,形狀為C×H×W.現(xiàn)有的實驗[45]表明,在計算注意力矩陣時適當降低特征圖的通道數(shù)并不會導致明顯的性能下降,因此在進行矩陣乘法之前,先令特征圖A分別經(jīng)過2 個獨立的卷積層的處理,將深度壓縮為原來的1/8,依次得到形狀為×H×W的特征圖P和Q, 從而提升空間效率.接著將特征圖P和Q的形狀均調(diào)整為×N,其中N=H×W,N表示特征圖上的像素總數(shù).然后對P的 轉置和Q進行矩陣乘法,得到的結果通過Softmax 操作歸一化,得到空間注意力矩陣 β ∈RN×N,如式(1)和式(2)所示:
Fig.3 Structure diagram of space-style attention module圖3 空間-風格注意力模塊的結構圖
由于之前經(jīng)過了多路編碼器的處理,特征圖上的每個點都包含了一定視野范圍內(nèi)的語義信息,此時空間注意力矩陣能夠反映空間上不同位置之間的語義相似性, βi j表示第i個位置對第j個位置的影響力權重,進行Softmax 操作的目的是將矩陣相乘得到的原始分值整理為所有元素之和為1 的概率分布,通過Softmax 機制突出重要元素的權重.與此同時,將輸入的特征圖A再經(jīng)過1 個卷積層的處理得到特征圖K,值得注意的是這次不對K的深度進行壓縮.接著將K的形狀調(diào)整為C×N后,對K和空間注意力矩陣執(zhí)行矩陣乘法,對特征圖上的每個位置進行加權求和,得到o=(o1,o2,···,oj,···,oN)∈RC×N,其中
最后,將o的 形狀還原為C×H×W,并以殘差的形式和原始的特征圖A相加,如式(4)所示:
其中 α是初始值為0 的可學習的比例系數(shù),因此在訓練的初始階段,空間注意力模塊執(zhí)行非常簡單的任務,即直接返回輸入的特征圖A,之后隨著網(wǎng)絡的學習,逐漸地將經(jīng)過注意力加權的特征圖加到原始的特征圖上,從而強調(diào)了需要施加注意力的部分.
綜上所述,空間注意力模塊的主要操作是:通過特征圖之間的矩陣乘法,計算出空間上任意2 個位置之間的語義相似性作為權重系數(shù),對原始特征圖進行加權求和,實現(xiàn)了基于位置之間的語義相似性來分配從每個位置獲取的信息量.
卷積神經(jīng)網(wǎng)絡中特征圖的每個通道可以視作對某個特定類別特征的響應,淺層的特征主要反映圖像局部的特點,比如局部的紋理;深層的特征則更能反映整體的特點,如形狀、輪廓等.在風格遷移領域,將圖畫中形狀、色彩等特征的組合方式理解成圖像的“風格”.風格注意力模塊顯式地計算特征圖的不同通道之間的相關性,并讓每個通道從與其關聯(lián)性更強的通道中獲取更多信息,以增強網(wǎng)絡對圖像風格的表示.
風格注意力模塊的輸入特征圖是空間注意力模塊的輸出E,與計算空間注意力矩陣時不同,輸入特征圖不再經(jīng)過卷積層的預處理.將輸入特征圖E的形狀調(diào)整為C×N得到F, 接著直接將F與它的轉置相乘,得到Gram 矩陣G∈RC×C,G的對角線元素體現(xiàn)每個特征自身的強度,非對角線元素體現(xiàn)不同特征間的相關度,由于G能反映特征本身的信息及特征之間的關系,風格遷移領域將G作為圖像的風格表示.計算得到G后利用Softmax操作進行歸一化,得到風格注意力矩陣 θ ∈RC×C,如式(5)和式(6)所示:
其中 θji表示第i個通道特征對第j個通道特征的影響 力 權 重.之 后 將 θji與F相 乘,得 到p=(p1,p2,···,pj,···,pC)∈RC×N,其中
最后將p的形狀還原為C×H×W,乘上比例系數(shù)γ后和輸入的特征E相加,如式(8)所示.
經(jīng)過風格注意力模塊處理后的特征圖被傳入解碼器模塊.
2.1.3 解碼器
解碼器模塊由1 個反卷積層和1 個卷積層構成,反卷積層的目的是將特征圖尺寸上采樣到原始分辨率,卷積層的目的是將特征圖的通道還原為RGB,網(wǎng)絡結構如表2 所示.
Table 2 Decoder Network Structure表2 解碼器網(wǎng)絡結構
生成器的最終輸出為G([x,M]).缺失圖像上原本完整的那些像素在修復結果中應該保持不變,所以對于輸入圖像上孔洞之外的區(qū)域,修復結果直接使用輸入圖像中的像素;對于孔洞內(nèi)的區(qū)域,修復結果使用生成器輸出圖像中的像素,算法最終產(chǎn)生的修復結果為y?=G([x,M])⊙M+x⊙(1-M).
2.1.4 判別器
判別器的構成如表3 所示,接收的輸入圖像尺寸為256×256.網(wǎng)絡的前4 層為卷積層,步長均為2,采用ReLU 作為激活函數(shù),逐步降低圖像的分辨率,同時提升通道數(shù).最后1 層為全連接層,輸出判別的分值.判別器的訓練目標是使真實圖像y的輸出分值盡可能大、修復圖像的分值盡可能小,以區(qū)分2 種分布.值得注意的是,由于本文算法采用帶梯度懲罰(gradient penalty)[46]的Wasserstein 損失[47]作為對抗損失函數(shù),判別器的輸出結果不再是簡單的二分類,而是對Wasserstein 距離的擬合,因此最后1 層不使用Sigmoid 激活函數(shù).
Table 3 Discriminator Network Structure表3 判別器網(wǎng)絡結構
本文算法中,損失函數(shù)由對抗損失函數(shù)、重構損失函數(shù)和風格損失函數(shù)3 部分構成,下面進行介紹.
2.2.1 對抗損失函數(shù)
原始GAN 的損失函數(shù)設計存在一定缺陷,當判別器D訓 練到最優(yōu)時,生成器G的優(yōu)化目標即為最小化真實圖像分布與修復圖像分布之間的JS 散度.然而JS 散度在度量分布之間的距離時有一定缺陷,當2 個分布幾乎不重疊時,無論2 個分布的中心距離是多少,JS 散度的值恒為常數(shù) ln2,由于常數(shù)的梯度是0,使得采用梯度下降算法進行優(yōu)化的G無法繼續(xù)學習.因此在原始GAN 的損失函數(shù)的指導下,D訓練得越好,G就越可能面臨梯度彌散的問題.
本文算法采用帶梯度懲罰的Wasserstein 損失作為對抗損失函數(shù),如式(9)所示:
M表示殘缺圖像的掩膜.
2.2.2 重構損失函數(shù)
對抗損失引導生成器產(chǎn)生合理的修復結果以欺騙判別器,重構損失則引導生成器產(chǎn)生與真實圖像更接近的修復結果.與L2 距離相比,L1 距離更能減輕修復圖像的模糊,因此本文算法采用L1 距離計算重構損失:
2.2.3 風格損失函數(shù)
古畫修復任務除了需要修復受損的內(nèi)容,還應該保持畫作原有的風格,本文算法利用風格注意力模塊增強模型對圖像風格的表示,并采用風格損失函數(shù)對修復結果進行風格約束.如2.1.2 節(jié)介紹風格注意力模塊時提到的,使用特征的Gram 矩陣G來表示圖像的風格.具體來說,將修復結果圖像和對應的真實圖像y分別輸入在ImageNet 數(shù)據(jù)集上預訓練過的VGG19 網(wǎng)絡[48]中.然后分別提取2 張在VGG19網(wǎng)絡中conv1_1,conv2_1,conv3_1, conv4_1, conv5_1這5 個卷積層輸出的特征圖,并對每層特征計算Gram 矩陣獲得該層的風格表示,最終風格損失的計算為:
最后,完整的損失函數(shù)Ltotal由對抗損失Ladv、重構損失Lrec和風格損失Lstyle的加權和構成:
目前業(yè)內(nèi)關于中國古畫的研究工作很少,也沒有公認的標準數(shù)據(jù)集,所以本文自行建立了一個中國古畫數(shù)據(jù)集并基于此開展實驗.本文收集了197 幅超高分辨率的古畫圖像,這些作品出自11 位畫家之手,作品類別包括山水畫、街景畫、花鳥畫、人物畫等.古畫數(shù)據(jù)的特殊性在于每幅作品的分辨率非常高,一些圖像的長度或寬度可以達到幾萬像素.現(xiàn)有的修復模型和主流顯卡的顯存均無法處理如此高的分辨率圖像,因此這里采用劃分切片的數(shù)據(jù)處理算法,將超大尺寸的古畫圖像裁剪為合適大小的切片圖像.通過PhotoShop 工具,人工將每幅原始圖像裁剪成多個互不重疊的切片,切片的尺寸均為256×256,有些尺寸特別大的圖像會包含數(shù)量巨大的切片.通過人工的手段裁剪切片的原因是中國古畫與其他國家畫作的藝術風格不同,作品中經(jīng)常有大量的留白.古畫中的留白是為了襯托畫面中的實體,是一種“以虛襯實”的藝術表現(xiàn)手法[49].然而本文算法關注古畫的內(nèi)容修復,畫面中大面積的留白導致使用程序自動裁剪時,得到的數(shù)據(jù)集包含大量的空白背景切片,這些大量的空白數(shù)據(jù)會影響算法的學習效果,所以本文人工地選擇原始圖像上包含內(nèi)容的區(qū)域并將其裁剪為切片,如圖4 所示.將每幅作品處理為切片圖像后,需要進行訓練集和測試集的劃分.本文實驗中訓練集有1 個而測試集有2 個,包括測試集I 和測試集II.具體劃分方式為:對表4 中列出的9 位畫家的共計178 幅作品中的每幅作品的切片大致按照4∶1的比例劃分到訓練集和測試集I,最終訓練集中包含10 031 張切片,測試集I 中包含2 516 張切片.對表5中列出的2 位畫家的共計19 幅作品中的每幅作品的所有切片劃分到測試集II,最終測試集II 包含1 634張切片.測試集I 中的切片對于模型而言是未觀測過的新鮮樣本,但是這些切片與訓練集中的切片是來自相同分布(同幅畫作)的采樣,所以模型對于測試集I 中的切片具有較強的泛化能力.測試集I 的劃分方式是合理的,因為在實際情況中,古畫的尺寸通常很大,畫面上的受損區(qū)域在整幅畫卷中所占的比例是較小的,所以在實際應用時,可以先對待修復的古畫劃分切片,用其中內(nèi)容完整的切片對模型進行微調(diào)(fine-tuning) 訓練,待模型學習到古畫的分布后,再用模型修復那些受損的切片.
Table 4 Data Distribution in Training Set and Test Set I表4 訓練集與測試集I 中的數(shù)據(jù)分布
Table 5 Data Distribution in Test Set II表5 測試集II 中的數(shù)據(jù)分布
Fig.4 Schematic diagram of ancient painting slices圖4 古畫切片示意圖
此外,本文算法的模型是在來自不同畫家、不同類別的作品切片上訓練的,所以也能夠學習到古畫域中一些通用的信息,模型對于未見過的作品的切片也具有一定的泛化能力.本節(jié)通過測試集II 來驗證模型對于未觀測過的作品切片的泛化能力.
實驗分為訓練和測試2 個階段.在訓練階段,先生成帶有隨機不規(guī)則形狀孔洞的二值單通道掩膜M,M的尺寸為256×256,與訓練集中圖像的尺寸相同.M中每個位置的值為0 或1,0 代表完整像素,1 代表缺失像素.接著通過掩膜M和訓練集中的真實圖像y制作缺失圖像x=y⊙(1-M), 并將x和M在通道維度拼接起來,形成 [x,M] 作 為生成器G的輸入.然后將生成器的輸出G([x,M])與輸入圖像中的完整像素結合起來,得到修復圖像y?=G([x,M])⊙M+x⊙(1-M).判別器D依次接收修復圖像y? 和 真實圖像y并分別給出評分.生成器和判別器交替進行訓練,判別器的目標是區(qū)分兩者,而生成器的目標是制造出能夠迷惑判別器的修復結果.實驗中使用Adam 優(yōu)化器對生成器和判別器的參數(shù)進行優(yōu)化,學習率為0.000 1,2 個Momentum 參數(shù)分別為0.5 和0.9.Batch Size 設置為1,損失函數(shù)中的系數(shù) λgp,λadv,λrec,λstyle的值分別設置為10,0.002,1,10.在測試階段,同樣先生成形狀隨機的掩膜M,接著通過掩膜和測試集中的真實圖像y制作缺失圖像x=y⊙(1-M), 然后將 [x,M]作為生成器的輸入,經(jīng)過生成器的處理后得到修復圖像y?.測試階段不需要判別器的參與,也不計算損失函數(shù).
在本節(jié)中,按照第3 節(jié)所述流程進行實驗,然后展示模型在測試集I 和測試集II 上的實驗結果.為了更加全面地對本文算法的效果進行評估,本節(jié)還選擇了近年來圖像修復領域較杰出的7 種算法,與本文算法的實驗結果進行定性和定量的對比,并通過消融實驗驗證了空間-風格注意力模塊的有效性.
本文實驗使用了2 種不規(guī)則形狀的孔洞來模擬古畫上的損害,測試階段在NVIDIA GeForce RTX 2 080 GPU 上平均修復每張測試圖像需要105 ms.圖5 展示了本文算法在測試集I 上的實驗結果,其中每一行展示2 組結果,每組包含3 張圖像,從左至右依次為:原始圖像、殘缺圖像和修復圖像.從內(nèi)容的修復效果上看,本文算法對山水畫圖像的修復效果最好,因為山水畫中有很多相似的局部結構和內(nèi)容,在修復受損區(qū)域時有比較豐富的信息可以借鑒,修復結果和真實圖像比較接近.對于花鳥畫圖像,本文算法也能較好地修復圖像的內(nèi)容,但人物畫圖像的修復效果相對遜色,未能較好地修復人物的五官,主要原因可能在于人物畫畫面內(nèi)相似的內(nèi)容相對較少,缺乏可以借鑒的信息.從紋理的修復效果上看,修復區(qū)域的紋理和周圍很接近,削弱了修復區(qū)域與完整區(qū)域之間的視覺差異,沒有留下明顯的修復痕跡.從風格保持的效果上看,修復圖像整體上維持了畫作原有的風格.
Fig.5 Experimental results of our algorithm on test set I圖5 本文算法在測試集I 上的實驗結果
為了進一步評估模型對于未見過的作品的泛化能力,圖6 中展示了模型在測試集II 上的實驗結果.從實驗結果可以看出,模型對于測試集II 中的圖像仍具有較好的泛化能力,基本能夠修復缺失的內(nèi)容.同在測試集I 上的情況一樣,算法在山水畫圖像上的修復效果最好,其次是花鳥畫,對人物畫中人物面部的修復效果最差.
Fig.6 Experimental results of our algorithm on test set II圖6 本文算法在測試集II 上的實驗結果
但是也存在一些問題,比如少數(shù)結果中一些斷裂的結構沒有被連接,如圖6(a)中的第2 行花卉的枝干;少數(shù)結果中修復區(qū)域的色彩紋理與周圍不一致,如圖6(a)中的第3 行花瓣和葉片上留下的修復痕跡.總的來說,模型在測試集II 上的修復穩(wěn)定性略低于測試集I,但足夠體現(xiàn)模型具有較強的泛化能力.此外,本文實驗也嘗試了對大面積內(nèi)容缺失的古畫圖像進行修復,圖7 中展示了本文算法對缺失面積為128×128 的圖像的修復結果.可以看到,針對大面積缺失古畫的修復,本文算法的修復效果不太理想,主要原因是在本文算法中,當受損區(qū)域較小時,模型能夠根據(jù)周圍的信息合理地推測受損區(qū)域原本的語義,然后在圖像的完整區(qū)域尋找和它在語義上相似的位置,利用相似位置的信息進行修復;但是當圖像受損面積很大時,孔洞中越靠近內(nèi)部的像素,周圍的信息越稀疏,模型無法準確推測這些像素的語義,導致對缺失像素的修復缺乏可靠的依據(jù).
Fig.7 Restoration results of our algorithm for ancient painting images with large area of missing content圖7 本文算法對大面積內(nèi)容缺失的古畫圖像的修復結果
為了更加全面地評估本算法的修復效果,本文實驗選取了近年來圖像修復領域較杰出的7 種算法:GL (global&local)[50], CA (context attention)[51], PC(partial convolution)[52], CPST (coherence priors of semantics and textures)[39], MED(mutual encoder-decoder)[40], EC(edge connect)[41], GC(gated convolution)[42]在相同條件下進行實驗,并將得到的結果進行對比.圖8 中展示了不同算法在測試集I 上的修復結果,其中每行展示1 組對比實驗結果,從左至右依次為:原始圖像、殘缺圖像、本文算法的修復結果、GL 算法的修復結果、CA 算法的修復結果、PC 算法的修復結果.從視覺效果上看,經(jīng)GL 算法和PC 算法修復后的局部區(qū)域的色彩和紋理與周圍不夠一致,而經(jīng)CA 算法修復后的區(qū)域比較模糊,GL,CA,PC 這3 種算法均在視覺上造成修復區(qū)域與原圖像之間的差異,干擾了原畫的風格,影響了畫面的連續(xù)性與美觀性.相比之下經(jīng)本文算法修復的局部區(qū)域紋理與周圍更相符且更清晰,修復痕跡不明顯;從整張圖像上看,風格的一致性更高,修復質(zhì)量更高.
Fig.8 Comparison of experimental results of different algorithms on test set I圖8 不同算法在測試集I 上的實驗結果對比
除了從視覺效果上對修復結果進行定性分析,本文實驗還選取了2 種圖像修復領域最常用的評價指標進行定量分析,分別是峰值信噪比(peak signal to noise ratio,PSNR)和結構相似性 (structure similarity,SSIM).PSNR是基于原始圖像和修復圖像對應位置像素間均方誤差的圖像質(zhì)量衡量指標,PSNR的計算公式為:
其中,式(14)中的max 表示像素可能的最大取值,一般情況下取255.因此PSNR值越大表明修復圖像與原始圖像的相似度越高.
SSIM是一種從亮度、對比度、結構3 個角度對修復圖像和原始圖像的相似程度進行評估的指標,計算方式為:
其中l(wèi)(y,)是 亮度比較,c(y,) 是 對比度比較,s(y,)是結 構 比 較, μy和 μy?分 別 表 示y和的 均值, σy和 σy?分 別表 示y和的 標 準 差, σyy?表 示y和的 協(xié) 方 差.c1,c2,c3是為了避免分母為0 而加入的常數(shù),在計算中通常設定 α=β=γ=1.SSIM的值域為[-1, 1],值越大說明2 幅圖像間的差異越小,即修復效果越好.
本文實驗中計算了4 種算法在測試集I 上的2種評價指標的數(shù)值,整理成表6.表7 整理了測試集II 在8 種算法上PSNR和SSIM兩種評價指標的對比.其中PSNR和SSIM的值越大表示修復質(zhì)量越高,表6~8 中每行加粗的數(shù)值表示在該指標上取得的最優(yōu)值.從表6 中可以看出,本文算法在這2 個指標上均領先于其他算法.本文實驗同樣評估了8 種算法在測試集II 上的修復效果,如圖9 所示.4 種算法在測試集II 上的修復情況與先前的對比結果大致相同.同樣,本文算法在這2 個指標上均領先.因此,在綜合考慮了定性和定量分析的結果后,本文算法在古畫圖像的修復結果上要優(yōu)于其他3 種圖像修復算法.
Table 6 Comparison of Evaluation Indicators of Different Algorithms on Test Set I表6 不同算法在測試集I 上的評價指標對比
Table 7 Comparison of Evaluation Indicators of Different Algorithms on Test Set II表7 不同算法在測試集II 上的評價指標對比
Fig.9 Comparison of experimental results of different algorithms on test set II圖9 不同算法在測試集II 上的實驗結果對比
為了驗證空間-風格注意力模塊對修復的提升效果,本節(jié)中設計了相應的消融實驗,分別測試了4 種不同注意力模塊的構成方式:不使用任何注意力模塊、僅使用空間注意力模塊、僅使用風格注意力模塊、使用空間-風格注意力模塊,并將這4 種情況下的模型在測試集I 上的2 種評價指標記錄在表8 中.從實驗結果上看,僅使用空間注意力模塊或風格注意力模塊均對修復質(zhì)量有提升作用,而聯(lián)合使用這2 個模塊能夠取得更好的效果.此外,選擇了1 組具有代表性的實驗結果來更加直觀地說明空間-風格注意力對古畫修復的提升效果,如圖10 所示.
Table 8 Comparison of Evaluation Indicators of Different Attention Module Composition Methods on Test Set I表8 不同的注意力模塊組成方式在測試集I 上的評價指標對比
Table 9 Comparison of Evaluation Indicators of Different Network Architectures on Test Set I表9 不同的網(wǎng)絡架構在測試集I 上的評價指標對比
Fig.10 Comparison of repair effects of different attention module composition methods on test set I圖10 不同的注意力模塊組成方式在測試集I 上的修復效果對比
為了更方便觀察,圖10 中用方形框標出了存在明顯區(qū)別的局部.可以看到,不使用注意力模塊的修復結果中缺失的內(nèi)容并沒有得到補全,如鳥的額頭和上方的樹枝,而且補全區(qū)域的紋理和周圍也不一致,修復質(zhì)量較差;僅使用空間注意力模塊時,缺失的內(nèi)容得到了補全,但是樹枝附近的紋理仍與周圍不一致,使修復區(qū)域顯得比較突兀;僅使用風格注意力模塊時,修復區(qū)域的紋理與周圍比較接近,修復痕跡較輕,但是缺失的內(nèi)容沒有得到補全,如斷開的樹枝沒有被連接;最后,使用空間-風格注意力模塊的修復結果中,內(nèi)容和紋理都得到了較好地修復,修復質(zhì)量相對較高.
針對古畫圖像的自相似性高、具有明顯的風格、豐富和細膩的紋理等特點,提出了基于多路編碼器和雙重注意力機制的修復算法.該算法在網(wǎng)絡架構上能夠學習不同尺度的語義信息,同時利用注意力機制來學習全局結構信息.不同尺度的局部信息加上全部語義信息的學習,使得網(wǎng)絡模型不僅僅支持細膩的細節(jié)修復,同時也能夠在宏觀內(nèi)容結構上也能夠保持和諧一致.另外為了更好地修復色彩和紋理等風格信息,也利用了風格注意力機制來學習待修復古畫圖像的風格特點,有利于修復后的結果圖像在風格上和待修復古畫圖像保持一致.未來希望利用古畫圖像自身隱含的各種信息來提高修復的質(zhì)量,也就是利用自監(jiān)督學習來學習古畫領域的特征表達,通過有效的語義特征表達來進一步提高修復的質(zhì)量.
作者貢獻聲明:趙磊提出論文思路、整體架構設計;吉柏言負責整個模型實現(xiàn)與代碼編寫;邢衛(wèi)負責論文整體思路的討論提升;林懷忠負責論文的修改和提升,并對論文架構做了整體的調(diào)整與優(yōu)化;林志潔負責引言部分的架構設計.