涂鵬琦 高常鑫 桑 農(nóng)
圖像的風格是指一幅圖像或一個域所有圖像共有的觸點、紋理、色彩等特征,如藝術圖和照片表示兩種不同的圖像風格.圖像風格化旨在通過風格化模型,將一幅圖像在保持語義內(nèi)容不變的同時從原始風格轉換為參考圖像或目標域定義的風格,即具有某一風格的原始圖像通過風格化模型轉換為另一個風格的風格化圖像.強大的風格轉換能力和多樣有趣的風格化結果使圖像風格化技術在社交、藝術創(chuàng)作和數(shù)據(jù)生產(chǎn)等領域都有著廣泛的應用.
近年來,深度神經(jīng)網(wǎng)絡由于強大的特征提取和表達能力,受到學術界和工業(yè)界的廣泛關注,并在圖像生成[1-8]、圖像到圖像轉換[9-22]、圖像編輯[23-26]和圖像風格化[27-32]等任務上取得重大的技術突破.在此背景下,越來越多的研究者嘗試使用深度神經(jīng)網(wǎng)絡完成圖像風格化任務,提出各種基于深度神經(jīng)網(wǎng)絡的方法,解決圖像風格化任務中存在的問題.
Gatys等[27,33]首先提出圖像風格化的概念,并提出基于優(yōu)化(Optimization-Based)的圖像風格化方法,這也是圖像風格化研究初期采用的主要方法.為了提高風格化的速度和效率,Johnson等[34]和Ulyanov等[35]先后提出使用前向深度神經(jīng)網(wǎng)絡代替緩慢的優(yōu)化過程,并提出相應的內(nèi)容損失函數(shù)和風格損失函數(shù),用于網(wǎng)絡訓練,為基于前向深度神經(jīng)網(wǎng)絡的圖像風格化研究奠定基礎.此外,生成對抗網(wǎng)絡(Generative Adversarial Network, GAN)[36]的提出,以及它在各種圖像生成和圖像到圖像轉換任務上的突出表現(xiàn),使很多基于GAN的圖像風格化方法被提出,改善已有方法的效果和性能,大幅促進圖像風格化的研究進程.因此,基于前向深度神經(jīng)網(wǎng)絡的圖像風格化方法和基于GAN的圖像風格化方法也成為目前圖像風格化研究中采用的主要方法.
本文根據(jù)風格的定義方式,將基于深度神經(jīng)網(wǎng)絡的圖像風格化方法劃分為兩類:基于參考的圖像風格化方法和基于域的圖像風格化方法.
在基于參考的圖像風格化方法中,風格由單幅圖像定義,即目標風格由參考圖像決定.深度神經(jīng)網(wǎng)絡的輸入為原始圖像和參考圖像.深度神經(jīng)網(wǎng)絡通過訓練,學習如何在保持原始圖像語義內(nèi)容的同時將其風格轉換為參考圖像的風格,所以在這類方法中原始圖像稱為內(nèi)容圖像,參考圖像稱為風格圖像.基于參考的圖像風格化方法的優(yōu)點在于,目標風格由參考圖像定義,對于訓練完成的模型,可根據(jù)參考圖像的不同實現(xiàn)任意目標風格的轉換.不足之處主要有如下兩方面.一方面由于目標風格由參考圖像定義,因此對于模型訓練時未出現(xiàn)的參考圖像,模型對其代表風格的轉換能力較弱,風格化結果較差.另一方面,由于模型很難“干凈地”學到參考圖像的風格,其風格化過程會無法避免地保留一些原始圖像的風格信息,同時引入?yún)⒖紙D像的一些語義內(nèi)容信息.當原始圖像和參考圖像差距過大時,風格化過程中保留的原始圖像的風格信息會使生成的風格化圖像出現(xiàn)不同程度的風格失真,即出現(xiàn)欠風格化問題.引入?yún)⒖紙D像的語義內(nèi)容信息會使生成的風格化圖像出現(xiàn)不同程度的內(nèi)容失真,即產(chǎn)生過度風格化問題.
在基于域的圖像風格化方法中,風格是由一個域的所有圖像共同定義.該任務涉及兩個域:定義原始風格的源域和定義目標風格的目標域,分別由訓練時使用的原始圖像集合和目標圖像集合表達,該任務此時就轉化為從源域到目標域的圖像到圖像轉換任務.鑒于GAN在圖像到圖像轉換任務上的突出表現(xiàn),此類方法常采用GAN學習源域到目標域的映射關系,完成兩者之間的轉換.基于域的圖像風格化方法的優(yōu)點在于,目標風格由目標域的所有圖像共同定義,更魯棒,模型能學到更“干凈的”風格.因此,模型在向目標風格轉換的風格化任務上較魯棒,更多地保留源域圖像的語義內(nèi)容信息,風格化結果更真實自然.不足之處在于,由于該類方法中目標風格由目標域的所有圖像共同定義,因此訓練完成的模型只能完成單一目標風格的轉換,無法實現(xiàn)任意目標風格的轉換,存在一定的局限性.
基于參考的圖像風格化方法需要解決如何在保持原始圖像語義內(nèi)容不變的同時將其風格轉化為參考圖像的風格的問題.問題的關鍵是如何獲取圖像的語義內(nèi)容信息和風格信息,并完成目標風格的轉換.根據(jù)近年來風格化過程中的特征處理方式,基于參考的圖像風格化方法可劃分為兩類:基于特征解耦的圖像風格化方法和基于特征融合的圖像風格化方法.
基于特征解耦的圖像風格化方法是指將圖像的特征解耦為包含語義內(nèi)容信息的內(nèi)容特征和包含風格信息的風格特征,再交換原始圖像和參考圖像的風格特征,完成風格的轉換.該類方法在圖像風格化研究初期采用較多,圖像風格化過程如圖1所示.
圖1 基于特征解耦的圖像風格化過程Fig.1 Image stylization process based on feature decoupling
Gatys等[27,33]首先提出神經(jīng)風格遷移(Neural Style Transfer, NST)的概念和相應的基于優(yōu)化的圖像風格化方法,同時也是第一個基于特征解耦的圖像風格化方法.在方法中,結合原始圖像的內(nèi)容特征和參考圖像的風格特征,不斷迭代以優(yōu)化生成的風格化圖像,并使用Gram矩陣衡量風格化圖像和參考圖像之間的風格相似性.在圖像風格化研究領域,學者們先后提出基于特征解耦的圖像風格化方法.Li等[37]提出使用馬爾科夫隨機場(Markov Random Field, MRF)正則化器代替Gram矩陣以衡量圖像間的風格相似性,MRF在計算時考慮風格化圖像和參考圖像的語義相關性,采用基于塊(Patch)的方式進行匹配并計算風格相似度.基于MRF的模型優(yōu)化進一步提升生成的風格化圖像的質量.
盡管上述方法已獲得較高質量的風格化圖像,但都是基于優(yōu)化的,需要經(jīng)過多次迭代才能獲得較高質量的風格化圖像,在實際應用中非常耗時.為了加快風格化過程,Johnson等[34]和Ulyanov等[35]先后提出使用前向深度神經(jīng)網(wǎng)絡代替緩慢的優(yōu)化過程,并提出用于前向深度神經(jīng)網(wǎng)絡訓練的感知損失.感知損失包括衡量語義內(nèi)容差距的內(nèi)容損失和衡量風格差距的風格損失.首先利用VGG網(wǎng)絡[38]提取原始圖像Is和風格化圖像Is-r,在網(wǎng)絡各層的特征進行對比,即得到表示兩者語義內(nèi)容差距的內(nèi)容損失:
其中,φ表示VGG網(wǎng)絡,j表示網(wǎng)絡的第j層,Cj表示網(wǎng)絡第j層對應特征圖的通道數(shù),Hj、Wj表示網(wǎng)絡第j層對應特征圖的高和寬.進而,再使用VGG網(wǎng)絡提取參考圖像Ir和風格化圖像Is-r在網(wǎng)絡各層的特征,在分別計算Gram矩陣后進行對比,得到表示兩者風格差距的風格損失:
其中Gram表示計算Gram矩陣值.前向深度神經(jīng)網(wǎng)絡的應用使圖像風格化的速度提升2~3個量級,實現(xiàn)實時的圖像風格化,而基于前向深度神經(jīng)網(wǎng)絡的方法也逐漸成為圖像風格化的主流方法.
隨著GAN的提出,及其在圖像生成和圖像到圖像轉換等領域的突出表現(xiàn),研究者們嘗試利用GAN在圖像風格化領域取得新的突破.Huang等[39]提出MUNIT(Multimodal Unsupervised Image-to-Image Translation),Lee等[40]提出DRIT(Diverse Image-to-Image Translation via Disentangled Representa-tions).這兩種方法實質上都可歸為基于特征解耦的圖像風格化方法.MUNIT和DRIT網(wǎng)絡結構基本一致,只在一些網(wǎng)絡層上存在差異,具體網(wǎng)絡結構如圖2所示.
圖2 MUNIT和DRIT網(wǎng)絡結構圖Fig.2 Network architecture of MUNIT and DRIT
該訓練過程涉及的損失函數(shù)如下.
1)生成對抗損失:
用于約束生成的風格化圖像Is-r和參考圖像Ir風格分布的一致性,其中,G表示生成器,D表示判別器.
2)KL損失:
3)循環(huán)一致性損失:
相比文獻[27]、文獻[33]~文獻[35]、文獻[37]方法,MUNIT和DRIT主要有兩方面改進.
1)引入GAN,更容易學到目標風格的分布,獲得更真實的風格化圖像.
2)將風格特征的分布約束為標準正態(tài)分布,推理時既可通過參考圖像編碼產(chǎn)生風格特征,也可直接從標準正態(tài)分布隨機采樣得到風格特征,增加風格化結果的多樣性.
盡管基于特征解耦的圖像風格化方法已獲得較高質量的風格化圖像,但通過對圖像分別編碼的解耦方式很難將風格特征和內(nèi)容特征“干凈地”解耦,導致風格特征中包含內(nèi)容信息,而內(nèi)容特征中包含風格信息,使得由原始圖像轉換得到的風格化圖像會保留較多的原始圖像的風格信息或引入較多參考圖像的內(nèi)容信息.一方面,當參考圖像與原始圖像的風格信息相差較大時,生成的風格化圖像會由于保留較多原始圖像的風格信息,出現(xiàn)欠風格化問題.另一方面,當參考圖像與原始圖像的內(nèi)容信息相差較大時,生成的風格化圖像會由于呈現(xiàn)較多風格圖像的內(nèi)容信息,出現(xiàn)過度風格化問題.
基于特征融合的圖像風格化方法是指分別提取原始圖像和參考圖像的特征,再采用特征融合模塊,融合兩者特征后,得到包含原始圖像語義內(nèi)容信息和參考圖像風格信息的特征,完成風格的轉換.該類方法是目前基于參考的圖像風格化的主流方法,圖像風格化過程如圖3所示.
圖3 基于特征融合的圖像風格化過程Fig.3 Image stylization process based on feature fusion
基于特征融合的圖像風格化方法在進行風格化時,原始圖像Is通過編碼器Es,得到圖像特征Fs,參考圖像Ir通過編碼器Er,得到圖像特征Fr,然后將Fs和Fr通過特征融合模塊,得到融合后的特征Fs-r,再經(jīng)過解碼器得到風格化圖像Is-r.這里編碼器Es和Er可為同個編碼器,一般采用預訓練的VGG網(wǎng)絡[38].
Chen等[41]首先提出基于塊的特征融合方式,采用預訓練的VGG網(wǎng)絡φ分別提取原始圖像Is的特征圖φ(Is)和參考圖像Ir的特征圖φ(Ir).再分別將φ(Is)和φ(Ir)劃分為同樣大小有重疊的特征圖塊,對每個原始圖像特征圖塊,將它和相關性最強的參考圖像特征圖塊交換.然后使用交換后的特征圖塊構建新的特征圖,得到重建的特征圖φs-r(Is,Ir).最后將φs-r(Is,Ir)輸入生成器,得到風格化圖像Is-r.
雖然Chen等[41]提出的應用基于塊的特征匹配和交換進行特征融合的方式可獲得較高質量的風格化圖像,但是這種基于特征匹配和交換的特征融合方式計算量較大,較耗時.
此外,當參考圖像和原始圖像差距較大時,對匹配的特征直接進行交換的方式可能會引入較多參考圖像的語義內(nèi)容信息,使風格化圖像丟失較多原始圖像的語義內(nèi)容信息.
為了解決這些問題,Li等[42]提出新的特征融合方式——WCT(Whitening and Coloring Transforms),在特征層面上提出風格的表示方式,即風格應由圖像特征的協(xié)方差矩陣表示,并基于此理論提出使用原始圖像特征圖的協(xié)方差矩陣匹配參考圖像特征圖的協(xié)方差矩陣進行特征融合的方式.WCT的提出加快基于特征融合的圖像風格化過程的處理速度,并獲得較高質量的風格化圖像,為后續(xù)的基于特征融合的圖像風格化研究奠定基礎.
為了進一步提高風格化圖像的質量,Huang等[28]提出用于圖像風格化的特征融合方式——AdaIN(Adaptive Instance Normalization).他們認為圖像的風格是由其特征圖的統(tǒng)計量均值和方差決定的,并提出使用參考圖像特征圖的均值和方差對原始圖像特征圖進行調制,使調制后的特征圖和參考圖像特征圖的方差和均值一致.AdaIN的提出大幅加快圖像風格化的處理速度,達到實時圖像風格化的水平,也進一步提升風格化圖像的質量.同時,AdaIN的提出也為基于特征融合的圖像風格化方法提供新的研究方向和思路,學者們先后提出基于此的新方法,而AdaIN也成為基于特征融合的圖像風格化方法主要采用的特征融合方式.
為了進一步提升風格化過程中特征融合的準確性和魯棒性,Park等[43]提出SANet(Style Atten-tional Network).首先使用預訓練的VGG網(wǎng)絡提取原始圖像Is和參考圖像Ir的特征圖Fs和Fr,然后采用SANet進行特征融合,SANet結構圖如圖4所示.
圖4 SANet結構圖Fig.4 Architecture of SANet
經(jīng)過SANet可得到融合后的特征:
Wf、Wg和Wh表示可學習矩陣,
AdaIN[28]、WCT[42]和SANet[43]的提出對基于特征融合的圖像風格化方法具有重大意義,后續(xù)提出的該類方法基本都是在這3種方式的基礎上進行特征融合.
An等[44]為了在風格化過程中盡可能地保留原始圖像的語義內(nèi)容信息,改進網(wǎng)絡結構,采用完全可逆的編碼器-解碼器結構ArtFlow,即解碼器是編碼器的逆過程.整個過程的可逆性使風格化過程中原始圖像的語義內(nèi)容信息得到更多的保留,提升風格化圖像的質量.
盡管基于特征融合的圖像風格化方法在一定程度上解決風格化過程的欠風格化和過度風格化問題,獲得較高質量的風格化圖像,但是當參考圖像和原始圖像差距較大時,仍不能完全解決上述問題.這也是未來基于參考的圖像風格化方法的研究熱點.
綜上所述,基于參考的圖像風格化的代表性方法Optimized-Based[27]、AdaIN[28]、WCT[42]、SANet[43]和ArtFlow[44]的特點可總結如表1所示.
表1 基于參考的圖像風格化的代表性方法的特點Table 1 Characteristics of representative methods in reference-based image stylization
基于域的圖像風格化方法是指對兩個域進行轉換,每個域定義一種風格,通過對域的轉換完成對風格的轉換,實現(xiàn)圖像風格化.這類方法一般都是采用GAN的網(wǎng)絡結構,圖像風格化過程如圖5所示.
圖5 基于域的圖像風格化過程Fig.5 Image stylization process based on domain
在基于域的圖像風格化方法進行風格化時,源域圖像Is通過源域到目標域的生成器Gs-t,得到具有目標域風格的風格化圖像Is-t.
Zhu等[10]首先提出用于未配對圖像到圖像轉換的CycleGAN,在基于域的圖像風格化方法中,源域到目標域的轉換也是未配對的,因此 CycleGAN可用于基于域的圖像風格化.CycleGAN包含兩個過程:源域到目標域到源域的風格轉換和目標域到源域到目標域的風格轉換.這兩個訓練過程類似,現(xiàn)只選擇其中一個介紹,采用的網(wǎng)絡結構如圖6所示.
①m ≥ 2,于是得pm|pi,即pm-1|i,i.e.i=pm-1,2pm-1,···,pm,故bi∈ Z(G),此時(biaj)p=bipajp=1,即j=pn-1,2pn-1,···,pn,從而易得p階元的個數(shù)為p2-1,p階子群個數(shù)為p+1.由引理6可知P?(G)的連通分支個數(shù)k(P?(G))=p+1.② m=1,此時G=Mp(n,1)= 〈a,b:apn=bp=1,ab=a1+pn-1〉,容易計算
圖6 CycleGAN網(wǎng)絡結構圖Fig.6 Network architecture of CycleGAN
CycleGAN的提出為未配對圖像到圖像轉換提出一種新的解決思路,也為基于域的圖像風格化研究奠定基礎,后續(xù)基于域的圖像風格化方法基本都是采用CycleGAN作為基本的網(wǎng)絡框架.
Liu等[45]在CycleGAN的基礎上,根據(jù)源域和目標域特征潛層空間共享的假設,即源域圖像Is和目標域圖像It的特征符合同種分布(標準正態(tài)分布),提出UNIT(Unsupervised Image-to-Image Tran-slation).在UNIT中,網(wǎng)絡的訓練包括2個并行的訓練過程:圖像的重建和圖像的風格轉換.圖像的重建過程是指針對源域和目標域訓練相應的變分自編碼器(Variational Autoencoder, VAE)[46],源域的VAE包括編碼器Es和解碼器Gs,目標域的VAE包括編碼器Et和解碼器Gt.圖像的風格轉換過程是指將源域圖像Is通過該域VAE對應的編碼器Es,得到符合某一分布的特征Fs,根據(jù)源域和目標域特征潛層空間共享的假設,F(xiàn)s再經(jīng)過目標域VAE對應的解碼器Gt,得到具有目標域風格的風格化圖像Is-t.
UNIT的提出為基于域的圖像風格化研究提供一種特征潛層空間的研究視角,大幅推動圖像風格化的研究進程.
由于CycleGAN[10]中循環(huán)一致性損失的約束,采用CycleGAN作為基本網(wǎng)絡框架的方法在存在形變的圖像風格化任務上往往會產(chǎn)生較差的風格化結果.為了解決這個問題,Kim等[47]提出U-GAT-IT(Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation).U-GAT-IT采用的網(wǎng)絡結構同樣是CycleGAN,但是在此基礎上引入注意力模塊和自適應的層-實例正則化(Adaptive Layer-Instance Normalization, AdaLIN).注意力模塊指導模型根據(jù)輔助分類器獲得特征圖通道方向的注意力權重,使加權后的特征圖能將注意力集中在源域和目標域區(qū)別最大的區(qū)域,同時也是容易發(fā)生形變的區(qū)域,促進風格化過程中這些區(qū)域的形變.
AdaLIN是指在進行正則化時,采用層正則化和實例正則化,再采用可學習的權重系數(shù)對這兩種正則化的結果進行加權.通過兩種正則化方式的結合,更精確地控制風格化圖像的形狀和紋理.U-GAT-IT的提出為采用CycleGAN的基于域的圖像風格化方法在需要形變的圖像風格化任務上提供一種有效的解決方式,提升該任務中風格化圖像的質量.
盡管基于域的圖像風格化方法能在保留源域圖像語義內(nèi)容信息的基礎上學習目標域的風格,完成目標域風格的轉換,但是已有方法仍很難學到完全由目標域所有圖像共同定義的風格,不可避免地都會學到目標域中一些特定圖像才有的風格特征,使不同風格化圖像的風格存在較大差異.該問題也是后續(xù)基于域的圖像風格化研究需要重點關注的問題.
綜上所述,基于域的圖像風格化中代表性方法CycleGAN[10]、UNIT[45]、U-GAT-IT[47]、Council-GAN[48]的特點總結如表2所示.
表2 基于域的圖像風格化方法中代表性方法的特點Table 2 Characteristics of representative methods in domain-based image stylization
本節(jié)主要從運行速度和效果上對比基于參考的圖像風格化方法,其中運行速度指生成一幅風格化圖像需要的時間,效果指生成的風格化圖像的質量.該類方法對比時無固定的數(shù)據(jù)集,本文選取相關論文中常用的原始圖像和參考圖像作為測試數(shù)據(jù)進行對比.
本文選取Optimization-Based[27]、AdaIN[28]、WCT[42]、Avatar-Net[49]、SANet[43]和ArtFlow[44]進行運行速度和效果的對比,運行速度對比結果如表3所示,其中黑體數(shù)字表示最優(yōu)值.
由表3可知,Optimization-Based因為需要多次迭代優(yōu)化,生成一幅風格化圖像所需時間最長.采用前向深度神經(jīng)網(wǎng)絡的方法WCT、AdaIN、Avatar-Net、SANet和ArtFlow生成一幅風格化圖像所需時間較短,相比Optimization-Based,提升2~3個量級.對比表明前向深度神經(jīng)網(wǎng)絡的使用大幅提升圖像風格化的處理速度.相比WCT和Avatar-Net,AdaIN、SANet和ArtFlow進行特征融合時需要的矩陣運算更簡單,生成一幅風格化圖像所需時間更短,能實現(xiàn)實時的圖像風格化.
表3 各方法的運行時間對比Table 3 Running time comparison of different methods s
各方法生成的風格化圖像對比如圖7所示.由圖可知,SANet和ArtFlow生成的風格化圖像在語義內(nèi)容信息保留上效果較優(yōu),特別是一些關鍵的紋理細節(jié),如SANet和ArtFlow生成的風格化圖像能完整保留原始圖像額頭的皺紋、發(fā)梢等紋理細節(jié),而Optimization-Based、WCT和AdaIN生成的風格化圖像都會存在不同程度的語義內(nèi)容信息丟失問題,這表明SANet和ArtFlow在風格化過程中對于語義內(nèi)容信息保留的有效性.進一步可發(fā)現(xiàn),WCT、AdaIN、Avatar-Net、SANet、ArtFlow生成的風格化圖像和參考圖像的風格一致性更高,而Optimization-Based生成的風格化圖像和參考圖像的風格一致性存在較大波動,表明Optimization-Based得到的風格化圖像的質量會較依賴于優(yōu)化過程中的迭代次數(shù),向不同風格轉換時需要的迭代次數(shù)存在較大差異.
(a)內(nèi)容圖像(a)Content images
基于域的圖像風格化方法都能實現(xiàn)實時的圖像風格化,生成一幅風格化圖像所需時間都在一個量級,因此通常只對各方法的風格化結果進行定量和定性的對比.
本文選取CycleGAN[10]、UNIT[45]、U-GAT-IT[47]、Council-GAN[48]、CUT(Contrastive Unpaired Transla- tion)[50]和SPatchGAN[51],在selfie2-anime、Celeb- A2anime、vangogh2photo、monet2photo數(shù)據(jù)集上進行對比.
selfie2anime數(shù)據(jù)集在U-GAT-IT[47]中被使用,包含人臉和動漫人臉兩種風格.訓練集包含3 400幅人臉圖像和3 400幅動漫人臉圖像.測試集包含100幅人臉圖像和100幅動漫人臉圖像.
CelabA2anime數(shù)據(jù)集是本文構建的,人臉圖像從CelebA數(shù)據(jù)集上篩選,動漫人臉圖像來自selfie2-anime數(shù)據(jù)集,同樣包含人臉和動漫人臉兩種風格.訓練集包含3 400幅人臉圖像和3 400幅動漫人臉圖像.測試集包含100幅人臉圖像和100幅動漫人臉圖像.
vangogh2photo數(shù)據(jù)集在CycleGAN[10]中被使用,包含藝術圖像和照片兩種風格.訓練集包含400幅藝術圖像和6 287幅照片圖像.測試集包含400幅藝術圖像和751幅照片圖像.
monet2photo數(shù)據(jù)集在DRIT[40]中被使用,同樣包含藝術圖像和照片兩種風格.訓練集包含1 811幅藝術圖像和6 452幅照片圖像.測試集包含400幅藝術圖像和751幅照片圖像.
在定量對比方面,采用的定量指標分別為FID(Frechet Inception Distance)和結構相似性(Structural Similarity, SSIM).FID指目標域圖像和風格化圖像特征之間的最大均方差,這里特征是采用 Inception V3網(wǎng)絡[52]提取的.FID值越低表示目標域圖像和風格化圖像之間的風格一致性越高.SSIM指源域圖像和風格化圖像之間的結構相似度,包括亮度、對比度和結構.SSIM值越高,表示源域圖像和風格化圖像的結構一致性越高.
各方法的FID、SSIM值對比如表4所示,表中黑體數(shù)字表示最優(yōu)值.
表4 各方法的FID和SSIM值對比Table 4 Comparison of FID score and SSIM score of different methods
由表4可知,對比FID值可發(fā)現(xiàn),各方法在不同類型的圖像風格化任務上表現(xiàn)存在差異,在selfie2anime、CelebA2anime數(shù)據(jù)集上從人臉到動漫人臉的圖像風格化任務中,SPatchGAN的FID值均最低,CUT、U-GAT-IT、Council-GAN、CycleGAN、UNIT的FID值依次升高,表明U-GAT-IT生成的動漫人臉圖像和目標動漫人臉域的風格一致性最高,CUT、U-GAT-IT、Council-GAN、CycleGAN和UNIT生成的動漫人臉圖像和目標動漫人臉域的風格一致性依次降低.在vangogh2photo、monet2photo數(shù)據(jù)集上從藝術圖像到照片的圖像風格化任務中,UNIT的FID值均最低,SPatchGAN、CUT、U-GAT-IT、Council-GAN和CycleGAN的FID值依次升高,表明UNIT生成的照片圖像和目標照片域的風格一致性最高,SPatch-GAN、CUT 、U-GAT-IT、Council-GAN和CycleGAN生成的照片圖像和目標照片域的風格一致性依次降低.
對比SSIM值可發(fā)現(xiàn),各方法在不同類型的圖像風格化任務上的表現(xiàn)同樣存在差異,在selfie2-anime、CelebA2anime數(shù)據(jù)集上從人臉到動漫人臉的圖像風格化任務中,SPatchGAN的SSIM值均最高,CUT、U-GAT-IT、CycleGAN、Council-GAN、UNIT的SSIM值依次降低,表明SPatchGAN生成的動漫人臉圖像和原始人臉圖像的結構一致性最高,CUT、U-GAT-IT、CycleGAN、Council-GAN、UNIT生成的動漫人臉圖像和原始人臉圖像的結構一致性依次降低.在vangogh2photo、monet2photo數(shù)據(jù)集上從藝術圖像到照片的圖像風格化任務中,U-GAT-IT和SPatch-GAN的SSIM值分別取得最高值,Council-GAN、CUT、UNIT、CycleGAN的SSIM值依次降低,表明U-GAT-IT和SPatchGAN生成的照片圖像和原始藝術圖像的結構一致性較高,Council-GAN、CUT、UNIT、CycleGAN生成的照片圖像和原始藝術圖像的結構一致性依次降低.
各方法在4個數(shù)據(jù)集上生成的風格化圖像對比分別如圖8和圖9所示.由圖可發(fā)現(xiàn),在selfie2-anime、CelebA2anime數(shù)據(jù)集上從人臉到動漫人臉的圖像風格化任務中,SPatchGAN、CUT、U-GAT-IT、Council-GAN生成的動漫人臉圖像質量更高,在語義內(nèi)容信息的保留和風格一致性上表現(xiàn)更優(yōu),而UNIT和CycleGAN生成的動漫人臉圖像質量相對較低,在語義內(nèi)容信息的保留和風格一致性上存在不同程度的問題,特別是生成動漫人臉的頭發(fā)和鬢角處會出現(xiàn)較大的失真.在vangogh2photo、monet2-photo數(shù)據(jù)集上從藝術圖像到照片的圖像風格化任務中,SPatchGAN、U-GAT-IT、UNIT生成的照片圖像質量更高,在語義內(nèi)容信息的保留和風格一致性上表現(xiàn)更優(yōu),而CUT、Council-GAN、CycleGAN生成的照片圖像質量相對較低,在語義內(nèi)容信息的保留和風格一致性上同樣存在一些問題,如CUT、Council-GAN、CycleGAN生成的照片圖像會出現(xiàn)嚴重的語義內(nèi)容信息丟失問題.
整體上,各方法在不同類型的圖像風格化任務上的表現(xiàn)存在差異,SPatchGAN、Council-GAN、UGA-TIT綜合表現(xiàn)更優(yōu),表明SPatchGAN中提出的基于統(tǒng)計特征的判別器能有效幫助模型學習目標風格的分布,U-GAT-IT中提出的注意力機制和AdaLIN在風格化過程中能幫助模型更好地學習目標風格,對語義內(nèi)容和風格的控制更精確,Council-GAN中提出代替循環(huán)一致性約束的多個GAN的協(xié)同約束更適合圖像風格化任務,能幫助模型更好地學習目標風格.UNIT在從藝術圖像到照片的圖像風格化任務上表現(xiàn)更優(yōu),表明這兩類風格的特征潛層空間一致性較高,特征潛層空間共享的假設更適合此類風格化任務.
(a)原始圖像(a)Original images
(a)原始圖像(a)Original images
盡管已有的基于深度神經(jīng)網(wǎng)絡的圖像風格化方法獲得較高質量的風格化圖像,但仍存在一些問題.
1)泛化性難以保證.這是基于深度神經(jīng)網(wǎng)絡的方法在實際應用中都會存在的問題.基于深度神經(jīng)網(wǎng)絡的風格化模型訓練完成后,在實際應用時,對于在訓練中未出現(xiàn)過的、與訓練數(shù)據(jù)集中的圖像差異較大的圖像,模型生成的風格化圖像質量較低,會出現(xiàn)不同程度的失真.提高圖像風格化方法的泛化性仍是圖像風格化研究領域的難點問題.
2)欠風格化和過度風格化問題.盡管已有的圖像風格化方法在一定程度上解決風格化過程的欠風格化和過度風格化問題,并獲得較高質量的風格化圖像,但是當參考圖像和原始圖像差距較大時,該問題仍不能得到完全解決.生成的風格化圖像要么出現(xiàn)欠風格化問題,保留過多原始圖像的風格信息,和參考圖像的風格一致性較低,要么出現(xiàn)過度風格化問題,丟失較多原始圖像的語義內(nèi)容信息.解決該問題是圖像風格化研究領域急需解決的問題.
3)難以學到想要的風格.當采用GAN的風格化模型訓練時,模型收斂后,不同迭代周期可能會學到不同的風格分布,導致同幅源域圖像生成的風格化圖像可能會存在較大差異,難以學到想要的風格.在模型收斂后學到基本相同的風格分布或學到想要的風格,是圖像風格化研究領域需進一步研究的問題.
4)缺乏可解釋性.雖然基于深度神經(jīng)網(wǎng)絡的圖像風格化方法可從人類認知的角度進行風格的定義和轉換,根據(jù)圖像間的相似性定義風格,利用訓練完成的深度神經(jīng)網(wǎng)絡模型實現(xiàn)風格轉換,有一定的可解釋性.但是,風格轉換是在由深度神經(jīng)網(wǎng)絡映射的潛層空間上進行,而潛層空間中特征的含義難以解釋,不同方法潛層空間中特征的含義可能會存在較大的差異,導致這類方法仍不具備可以讓人類能理解的解釋性.
5)設計缺乏理論指導.雖然近年來圖像風格化受到學者們的廣泛關注,并取得不錯成果,但是關于圖像風格化的理論研究卻很少.大部分方法設計的初衷都是來源于人類認知過程中的啟發(fā)或猜測,并無理論保證或指導.
通過對當前基于深度神經(jīng)網(wǎng)絡的圖像風格化方法的梳理及已有相關方法存在問題的分析,可展望未來圖像風格化領域的研究方向.
1)從數(shù)據(jù)和模型兩個角度提升圖像風格化模型的泛化性.在數(shù)據(jù)層面,一方面增加訓練時的數(shù)據(jù)量,即增加訓練數(shù)據(jù)集上圖像的種類數(shù),另一方面對訓練數(shù)據(jù)進行數(shù)據(jù)增強操作,如翻轉、裁剪等操作,提高數(shù)據(jù)的多樣性.在模型層面,考慮多個參考圖像在模型映射的特征潛層空間進行線性插值等操作,進行風格特征的融合,使模型能學習更多樣的風格特征.從數(shù)據(jù)和模型兩個角度出發(fā),使模型學習更多種類的風格和風格特征,提高風格化模型的泛化性.
2)從網(wǎng)絡結構和損失函數(shù)兩個角度解決欠風格化和過度風格化問題.在網(wǎng)絡結構層面,采用級聯(lián)的特征融合結構,如將WCT、AdaIN和SANet進行相應的聯(lián)合,在風格化過程中進行更精細化的特征融合.在損失函數(shù)層面,設計損失函數(shù),對生成的風格化圖像的語義內(nèi)容信息和風格信息進行更嚴格的約束,如使用多細粒度的輪廓損失約束風格化圖像和原始圖像多細粒度輪廓的一致性,使用多尺度的風格特征損失,約束風格化圖像和參考圖像在各層多個尺度風格特征上的一致性.
3)建立不同風格化圖像的聯(lián)系,學習想要的風格.例如,在模型訓練中后期,約束同幅源域圖像在不同迭代周期中生成的風格化圖像的一致性,降低差異性,使模型能學到基本相同的風格分布或學到想要的風格,不會因為迭代周期的不同而學到不同的風格分布.
4)研究可解釋的圖像風格化方法.已有多數(shù)圖像風格化方法常只從人類認知角度給出簡單的定性解釋,說明方法在風格轉換方面的有效性.雖然風格化中間過程的一些可視化結果可部分說明為什么這些方法會起作用,但方法中的網(wǎng)絡結構、損失函數(shù)和訓練策略等如何在風格化過程中起作用缺乏可靠的解釋.因此,設計可解釋的圖像風格化方法,更好地讓風格化模型像人一樣學習是未來值得研究的問題.
5)基于參考的圖像風格化方法能對風格化過程進行更精確的控制,基于域的圖像風格化方法能學習更魯棒的風格分布,因此可結合這兩種方法.采用基于域的圖像風格化方法中風格的定義方式,即風格由目標域的所有圖像共同定義,但采用基于參考的圖像風格化方法的網(wǎng)絡框架,添加額外的約束.例如,在模型訓練時,每次迭代從源域隨機采樣一幅圖像作為原始圖像,從目標域隨機采樣兩幅圖像作為參考圖像,對于模型生成的兩幅風格化圖像,通過相應的損失函數(shù)約束其風格的一致性,即確保模型學到完全由目標域所有圖像共同定義的風格.在推理時,對于同幅原始圖像,從目標域隨機選取一幅圖像作為參考圖像,在一定程度上可保證模型生成的風格化圖像風格的一致性,學到更魯棒的風格分布.