国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于層間互相關感知損失的風格遷移方法*

2020-12-04 08:56:02莊軒權李彩霞黎培興
關鍵詞:層間損失卷積

莊軒權,李彩霞,黎培興,2

(1. 中山大學數(shù)學學院,廣東廣州510275;2. 中山大學廣東省計算科學重點實驗室,廣東廣州510275)

風格遷移技術指對某個圖像進行渲染,使其藝術風格與某個藝術繪畫作品相似,且畫面的主體內(nèi)容不變(見圖1)。2015 年Gatys 等[1-2]開創(chuàng)性地將卷積神經(jīng)網(wǎng)絡運用到風格遷移領域,提出了度量特征相關性的Gram 矩陣用于風格表示,開創(chuàng)了現(xiàn)代風格遷移時代。Gram 矩陣的核心思想是利用預訓練網(wǎng)絡強大的特征提取能力得到有意義的特征映射輸出,并將特征映射之間的相關性作為風格的度量。此后,Justin 等[3]基于Gram 矩陣設計了基于前饋網(wǎng)絡的快速風格遷移模型,使得Prisma等圖像藝術風格化的應用得以流行。

圖1 風格遷移示例Fig. 1 Examples of style transfer

然而自Gatys等提出Gram矩陣以來,風格遷移研究領域?qū)τ趽p失函數(shù)的構造一直沒有足夠的探索,本文提出使用層間互相關矩陣作為Gram 矩陣的代替或補充,在得到良好結(jié)果的情況下縮短20%以上的計算時間,從而提高訓練效率。

1 風格遷移技術

2015 年,Gatys 等[1-2]提出使用Gram 矩陣來度量圖像的風格,由此開辟了基于深度學習的圖像風格遷移領域。對于一張圖片,使用預訓練好的分類網(wǎng)絡,如VGG-16[4],將圖片輸入得到某一層的特征映射,對特征映射的各個通道兩兩做互相關計算得到對稱矩陣,這個矩陣就稱為Gram矩陣。嚴格來說,衡量圖像之間風格差異的損失函數(shù)LS(Is,X)定義為

其中,Is和X 分別表示風格圖像和待優(yōu)化圖像,li表示特征映射處于預訓練網(wǎng)絡的層數(shù),Lli為第li層兩圖像間的風格損失,wli為對應的權重參數(shù)。第ls層的風格損失函數(shù)定義為

風格遷移任務的目標是使用風格圖像的紋理特點繪制內(nèi)容圖像的內(nèi)容信息。因此,除了對風格進行迭代逼近之外,對內(nèi)容的逼近也同樣重要。在Gatys 等的實驗中,直接使用預訓練網(wǎng)絡的中間幾層特征映射之間的像素值差異作為衡量語義信息相似度的標準,并獲得了良好的效果。這其中的原因是這些預訓練網(wǎng)絡都是以圖像分類任務為目標進行訓練的,訓練集包含了大量的物體類別,因此卷積神經(jīng)網(wǎng)絡在訓練中降低多類別交叉熵損失函數(shù)的過程中,卷積層的卷積核在試圖提取各種能描述不同物體差異的信息,這其中就包括了低層到高層的語義信息。以內(nèi)容圖像和待優(yōu)化圖像作為輸入,預訓練網(wǎng)絡在第li層得到的特征映射的損失嚴格定義為

其中,Ic表示內(nèi)容原始圖像,X 表示待優(yōu)化圖像,j表示在第li層特征映射中第j個卷積核的編號,k表示該卷積核得到的特征映射中第k 個位置的像素點??梢钥闯觯饬績蓮垐D像內(nèi)容上差異的損失函數(shù)僅僅只是簡單使用特征映射之間的平方損失,我們不得不感嘆于卷積神經(jīng)網(wǎng)絡強大的特征提取能力。由各層內(nèi)容損失得到的總體內(nèi)容損失為

其中,wli為賦予第li層內(nèi)容損失的權重。由此我們得到了以待優(yōu)化圖像,內(nèi)容圖像,風格圖像作為共同輸入的三元損失

其中α 和β 為內(nèi)容損失和風格損失的權重參數(shù)。在原文中,作者選擇的預訓練網(wǎng)絡是VGG-16,VGG-16在VGG系列的卷積神經(jīng)網(wǎng)絡中是應用最為廣泛的,因為其具有良好的準確率以及不錯的效率。在內(nèi)容損失方面,作者選取了conv4_2 作為計算內(nèi)容損失的特征映射。在風格損失方面,作者選 取 了conv1_1、 conv2_1、 conv3_1、 conv4_1、conv5_1 作為計算風格損失的特征映射,并賦予各層相等的權重,而α/β選取10-3或10-4。

盡管使用Gram 矩陣進行的圖像風格遷移取得了良好的效果,但對于Gram 矩陣的本質(zhì)、是否有其他方式度量風格差異等問題,文中并沒有給出答案。Li 等[5]從遷移學習的角度出發(fā)去看圖像風格遷移。文章將風格遷移任務看做是一種域適應的問題,并從理論上證明了Gram 矩陣實際上與二階多項式核的最大均值差異等價。從這種等價關系可知:

(i)圖像的風格可以本質(zhì)上表示為卷積神經(jīng)網(wǎng)絡中不同卷積層下的特征分布;

(ii)風格遷移的過程可以看成是從內(nèi)容圖像到風格圖像的一種分布調(diào)整。

Li 等嘗試將二階多項式核函數(shù)替換成其他多項式核函數(shù)或高斯核函數(shù),實驗結(jié)果表明,不同的核函數(shù)替代Gram 矩陣進行風格遷移能得到類似的良好結(jié)果,同時又有許多不同的細節(jié)上的變化,從最小均值差異出發(fā)使用不同的核函數(shù)度量風格差異的做法大大豐富了風格遷移結(jié)果的多樣性。

針對Gatys 等[1]通過迭代更新像素值的方式效率較低的問題,以Justin等[3]為代表的一系列研究提出了使用前饋網(wǎng)絡直接輸出風格遷移結(jié)果的快速風格遷移方法,按模型可承載的風格數(shù)量可劃分為單模型單風格方法[3,6]、單模型多風格方法[7]、單模型任意風格方法[8-9]。

自2014 年Goodfellow 等[10]提出生成式對抗網(wǎng)絡(generative adversarial networks,GAN) 以來,有關生成式對抗網(wǎng)絡的研究便一直活躍在眾多研究領域當中。深度卷積生成式對抗網(wǎng)絡[11]提出使用卷積層和轉(zhuǎn)置卷積層對生成式對抗網(wǎng)絡進行改進,為生成式對抗網(wǎng)絡在圖像領域的發(fā)展開拓了更優(yōu)的思路。

近年來,部分研究將生成式對抗網(wǎng)絡運用于兩個域之間的圖像的相互轉(zhuǎn)換,這可以看作是一種廣義上的風格遷移方法。Zhu 等[12]提出使用兩個對稱的生成式對抗網(wǎng)絡構造一種循環(huán)一致性損失,從而實現(xiàn)將輸入的圖像向特定分布轉(zhuǎn)換的目的,如將夏季的圖像轉(zhuǎn)換為冬季的圖像。類似的想 法 還 有DualGAN[13]和DiscoGan[14]等。Style-GAN[15]利用風格遷移領域提出的AdaIN 模塊[8]對生成式對抗網(wǎng)絡進行優(yōu)化,成功實現(xiàn)了對輸入圖像的各種細節(jié)進行微調(diào)的重大突破,成為生成式對抗網(wǎng)絡和廣義風格遷移領域的里程碑之一。

盡管使用生成式對抗網(wǎng)絡系列的方法也能做到將輸入的圖片進行紋理風格上的轉(zhuǎn)化并保持圖片內(nèi)容上的一致性,但和基于Gram 矩陣的一系列風格遷移方法有許多差異:

(i)基于Gram 矩陣的風格遷移方法使用Gram矩陣衡量圖像之間的風格差異,是一個可以被計算的統(tǒng)計量,可以量化地給出任意一張圖片的風格數(shù)值;生成式對抗網(wǎng)絡系列方法無法顯式給出風格的定義,而是通過對抗訓練對兩個域的分布進行學習,試圖讓網(wǎng)絡自行擬合出一套進行風格轉(zhuǎn)換的參數(shù)。

(ii)基于Gram 矩陣的風格遷移方法可以學習任意單一圖像的紋理風格特征并將其遷移到任意圖像之上;而生成式對抗網(wǎng)絡由于損失函數(shù)和訓練的動機限制,只能學習一類圖像的風格而無法刻畫單一圖像的紋理風格特征,比如其通過訓練可以學習畫家梵高的畫作整體風格,但無法很好地學習梵高的《Starry Night》這幅畫作的風格。盡管一些工作嘗試通過生成式對抗網(wǎng)絡學習單一圖像的紋理分布,但基本只能輸出與原風格圖像在內(nèi)容上極度統(tǒng)一的結(jié)果[16],而基于Gram 矩陣的方法通過將對多個圖像分別進行學習得到的參數(shù)進行簡單組合就可以得到融合后的風格輸出,因而也能學習一類圖像的風格紋理特征。

(iii)由于(ii)中提及的原因,基于Gram 矩陣的風格遷移方法得到一個輸出結(jié)果良好的模型所需的數(shù)據(jù)獲取成本會遠低于基于生成式對抗網(wǎng)絡的方法;另外,由于期望網(wǎng)絡自行學習一種風格紋理的概率分布,在訓練生成式對抗網(wǎng)絡時需要更龐大的參數(shù)量,以及更多的訓練技巧和嘗試從而規(guī)避無法收斂或?qū)W習不出特征的問題,其訓練的時間成本也遠大于Gram矩陣方法。

(iv)生成式對抗網(wǎng)絡在生成高分辨率的圖像上效果不如低分辨率圖片,或是需要更大的模型和更長的訓練周期才能達到較好效果;基于Gram矩陣的方法則在各個分辨率尺度上都有穩(wěn)定的表現(xiàn)。

自Gatys 等[1-2]的工作以來,基于Gram 矩陣的風格遷移方法一直是該領域的主流方法,至少現(xiàn)階段包括基于生成式對抗網(wǎng)絡在內(nèi)的方法都還無法得到這樣高效且效果良好的風格遷移結(jié)果。但Gram 矩陣作為人工設計的統(tǒng)計量,必然受到人們先驗知識的限制,通過對生成式對抗網(wǎng)絡訓練過程的深度挖掘以及與Gram 矩陣之間的關聯(lián)的分析或許能為風格遷移進一步的發(fā)展提供動力。

2 基于層間互相關感知損失的風格遷移技術

2.1 層間互相關矩陣

卷積神經(jīng)網(wǎng)絡的卷積核提取的特征等級往往與該卷積核所處的深度有關,即淺層的卷積核提取低級特征,深層的卷積核提取高級特征。理論上,Gram 矩陣只能表現(xiàn)同層級的特征之間的相關程度。針對這一問題,我們提出使用層間互相關矩陣來進行補充。

給定圖像I 在預訓練網(wǎng)絡的第l1、l2層的輸出Fl1(I)及Fl2(I)(l1<l2),層間互相關矩陣為一個Nl1× Nl2的矩陣Gl1l2=(Gjk)Nl1×Nl2,

其中Nl1和Nl2分別為預訓練網(wǎng)絡的第l1層和第l2層的通道數(shù),M表示特征映射的長寬乘積,D(*)為降采樣函數(shù)。

由于不同深度的特征映射的長寬不一致(如VGG-16不同層的特征映射的長寬最大相差16倍),我們需要對淺層特征映射使用降采樣或?qū)ι顚犹卣饔成涫褂蒙蓸?,使得用于層間互相關矩陣計算的兩個特征映射的長寬一致。考慮到計算成本等原因,我們選擇對淺層特征映射進行降采樣,降采樣函數(shù)可使用平均池化或最大池化等。

對于不同的特征映射組,需要使用不同的降采樣參數(shù)使得兩者得感受野對齊。以VGG-16網(wǎng)絡為例,通過對感受野的計算可以發(fā)現(xiàn),特征映射relu2_1的每一個元素實際上對應著特征映射relu1_1 中一個8× 8 大小的區(qū)域。具體地,我們需要在大小為3 的填充下使用8× 8 大小的池化濾波器以步長為2的方式對relu1_1進行池化操作。表1中為VGG-16 中部分特征映射層使用池化方式進行層間互相關計算應該使用的參數(shù),特征映射層A為池化操作的作用層。

表1 層間互相關矩陣計算池化操作參數(shù)Table 1 pooling parameters for cross-layer correlation matrix computation

2.2 層間互相關矩陣與Gram矩陣對比

2.2.1 語義特征的登記對比 Gram 矩陣可以理解為層內(nèi)互相關矩陣,計算同等級語義特征間的相關程度。與之對應,層間互相關矩陣計算不同等級語義特征間的相關程度。從這個意義上來理解,Gram 矩陣和層間互相關矩陣在對圖像風格的描述上應該是互為補充的。

從直觀理解出發(fā),層間互相關矩陣的意義甚至比層內(nèi)互相關矩陣更重要。舉例而言,不同的顏色應該屬于同一等級的特征,不同的動物、植物也應該屬于同一等級的特征,而對于圖像中一塊具體的感受野來說,只應該是某個顏色或者某種動植物,而不應該同時具備多個。相比之下,層間互相關矩陣的可解釋性更強,如某種動植物或山水的特征與某個顏色或線條紋理的特征相關性強,可以理解為作品中對某種事物的刻畫使用了某種技法,這些相關性共同描述了作品的藝術風格。因此,如果從相同深度的卷積核只提取同等級的語義特征這個前提出發(fā),層間互相關矩陣對于風格差異的描述更加具有可解釋性。然而在實際的預訓練網(wǎng)絡中,相同深度的卷積核提取的特征有時也難以說明是否為同一等級的特征,甚至有許多卷積核提取的特征拿出來單獨看無法從人的視覺角度理解,因此無論層間互相關矩陣還是層內(nèi)互相關矩陣在實際的應用中都表現(xiàn)出相似的效果。

2.2.2 計算與存儲效率對比 顯然,區(qū)別于Gram矩陣的對稱方陣的特點,層間互相關矩陣是一個C1× C2的矩陣,且每個元素對應的含義都唯一。而相比之下Gram 矩陣有將近一半的重復元素,信息的冗余度較高,占用大量內(nèi)存的同時卻沒有盡可能精簡出不重復的信息。層間互相關矩陣通過融合兩個特征映射層使得其可以用單個矩陣對兩個特征映射層的信息進行表達,且其存儲和計算量都低于Gram矩陣方法。

以relu3_1 和relu5_1 為例,使用Gram 方法進行風格遷移需要存儲的Gram 矩陣大小為2562+5122= 327 680,使用層間互相關矩陣方法需要存儲的矩陣大小為256 × 512 = 131072,僅為Gram方法存儲量的40%,自然,風格損失的計算量也為Gram 方法的40%;而計算Gram 矩陣本身的成本也比計算層間互相關矩陣要高,Gram 矩陣方法需要 進 行 約2 ×(2562× 642+ 5122× 162)≈6.7× 108次運算,層間互相關方法僅需進行約2 ×(256 ×512 × 162)≈6.7× 107次運算,僅為前者的10%。

然而Gram 矩陣相對層間互相關矩陣而言,由于不需要關注特征映射大小改變的問題,在訓練過程中計算過程更加簡單可理解,相比之下層間互相關矩陣的計算不僅要根據(jù)特定的兩個層的選擇來確定采樣操作中的參數(shù),對于不同的預訓練網(wǎng)絡而言也要重新計算,增加了額外的計算且拓展性不如Gram矩陣好。

3 實 驗

3.1 實驗設計

本文實驗采用與Gatys 等[1]相似的模型結(jié)構,選取多個特征映射層及其組合計算Gram 矩陣和層間互相關矩陣,并對比它們在紋理合成及風格遷移中的實際效果。

實驗使用python3.6 及tensorflow1.13,預訓練網(wǎng)絡使用matlab 平臺在ImageNet 數(shù)據(jù)集上預訓練的VGG-16 網(wǎng)絡①MatConvNet Pretrained Models.http://www.vlfeat.org/matconvnet/pretrained/imagenet-ilsvrc-classification.,使用一塊Tesla K80 GPU 加速。所有圖片均縮放至256 × 256 大小,區(qū)別于Gatys等[1]的實驗,我們使用Adam 優(yōu)化器[17],學習率設置為10-2。在紋理合成實驗中,損失函數(shù)僅使用風格損失,不加入內(nèi)容損失。

3.2 實驗條件

3.2.1 優(yōu)化器的選擇 在本文所進行的所有實驗中,統(tǒng)一選擇了Adam 優(yōu)化器進行模型的訓練。在Gatys等[1]最初提出的風格遷移方法中,使用了LBFGS 方法進行梯度求解。我們注意到,從Johnson等[3]開始的一系列風格遷移的研究中,使用Adam優(yōu)化器已經(jīng)成為了主流的方法。在大量的研究實驗中,Adam 優(yōu)化器證明了其在大規(guī)模參數(shù)優(yōu)化當中卓越的性能[18-19],幾乎所有的深度學習框架對其都有良好的支持,更方便結(jié)果的橫向比對。Adam 算法的提出時間和Gatys 等[1]提出Gram 矩陣的時間相近,在當時仍未普遍使用,但現(xiàn)如今使用Adam 算法已經(jīng)是主流的做法。為了保持實驗條件的一致性,我們在復現(xiàn)Gatys 等[1]提出的方法時也將優(yōu)化方法改為了Adam 方法,以保證結(jié)果對比的公正客觀。

3.2.2 特征提取網(wǎng)絡的選擇 Gatys 等[1]的實驗中選擇了VGG-19[4]作為特征提取網(wǎng)絡,這也是VGG 系列中最深且性能最強悍的網(wǎng)絡。在本文的所有實驗中,特征提取網(wǎng)絡都選擇了VGG-16 網(wǎng)絡。這是由于在多個權威的圖像分類數(shù)據(jù)集上VGG-19 相比VGG-16 在準確率上的提升都不明顯,且參數(shù)量更大,占用資源更多。圖像分類的準確率相當反映出模型在特征提取上的能力相當,而風格遷移中使用預訓練的特征網(wǎng)絡的核心目的就是借助其特征提取能力得到有意義的特征映射,因此選擇VGG-16 與VGG-19 在結(jié)果上的區(qū)別并不明顯(可以從本文的實驗和Gatys 等[1]的實驗結(jié)果對比看出),綜合實驗的計算資源限制等因素,本文使用VGG-16代替VGG-19。

近年來,一些具有革命性意義的模型改進方法使得更深更大的神經(jīng)網(wǎng)絡模型的訓練成為可能,在性能上也大大超越了早期的VGG 等模型[20-21]。然而,這些方法需要的計算規(guī)模也遠超早期的方法,且往往層數(shù)很大,這會給風格遷移任務帶來一個問題,即如何有效地選擇適合的特征映射層進行Gram 矩陣或?qū)娱g互相關矩陣的計算。由于使用大部分特征映射層計算得到的Gram 矩陣共同進行風格損失的計算并不現(xiàn)實,而通過實驗對比選擇適合的特征映射層又有層數(shù)過多的問題導致實驗成本較大,使用最新的高精度模型作為特征提取網(wǎng)絡并不是一個好的選擇。這也解釋了大部分風格遷移方法的研究中都使用較淺的神經(jīng)網(wǎng)絡模型進行特征提取的原因。

3.3 實驗結(jié)果

3.3.1 風格紋理學習實驗 風格紋理學習實驗使用不同的特征映射層計算層間互相關矩陣和Gram矩陣,對六幅繪畫作品的風格紋理進行學習,得到輸出結(jié)果(圖2)。層間互相關矩陣方法全部使用平均池化對淺層特征映射做降采樣處理。從輸出結(jié)果可以看出,單純使用層間互相關矩陣作為損失函數(shù)學習到的風格紋理與使用Gram 矩陣的模型得到的相似,說明單純使用層間互相關矩陣也可以很好地完成風格遷移的目標;其次,通過對輸出結(jié)果的觀察我們可以看出,層間互相關矩陣方法得到的輸出結(jié)果的語義等級(紋理的顆粒度、色彩深淺)大概處于其使用的兩個特征映射層分別使用Gram 矩陣方法進行紋理學習得到的輸出結(jié)果之間,可以看做是兩者的一個加權融合。

另外,從風格紋理學習的實驗中我們發(fā)現(xiàn)了一些值得關注的細節(jié)問。

(i)層間互相關矩陣使用的兩個特征映射層越深,學到的風格圖像中的語義信息越多。這也映證了越深的特征映射層會提取越多高級特征,使得輸出結(jié)果帶有越多風格圖像中的畫面輪廓。這也是層間互相關矩陣和Gram矩陣共同具有的屬性,而這點也可以啟發(fā)我們在風格遷移任務中根據(jù)對風格遷移程度的要求對風格損失函數(shù)的組合進行選擇。

(ii)理論上風格遷移任務中對風格圖像的學習并不需要對其進行縮放,因為層間互相關矩陣或者Gram 矩陣的輸出大小都與原始圖像輸入大小無關。然而由于部分語義相關信息的帶入,可能會使得風格遷移結(jié)果的紋理大小粗細在輸出尺寸下顯得突兀,導致風格遷移的結(jié)果不佳。因此,對于原始風格圖像與風格遷移目標輸出尺寸相差較大的需要進行縮放處理。

(iii)從隨機得到的噪聲圖像開始優(yōu)化圖像,單純使用風格損失很難避免局部失真的現(xiàn)象,即局部色塊中出現(xiàn)明顯不符合原風格圖像特征的噪聲點。使用更小的學習率以及更多的迭代次數(shù)只能稍微緩解該現(xiàn)象,使用一定的平滑技術才能較好地解決該問題,如在目標損失函數(shù)中加入總變分損失。但加入的平滑技術會在一定程度上破壞渲染出的風格紋理,引入局部的條狀或塊狀紋理。因此,如何尋找合適的平滑技巧或其他方法使得輸出結(jié)果,尤其是在高分辨率輸出中避免局部失真現(xiàn)象仍是需要解決的問題。在第二部分的風格遷移實驗中我們使用內(nèi)容圖像作為初始化代替了引入平滑損失的做法,并發(fā)現(xiàn)具有較好的效果。

(iv)實驗部分展示的層間互相關矩陣方法得到的結(jié)果均采用降采樣的方法。除了2.1節(jié)中提到的資源消耗原因外,在實際的實驗結(jié)果中我們也發(fā)現(xiàn)基于上采樣的層間互相關矩陣方法效果較差。最重要的原因是上采樣無法類似降采樣通過步長以及卷積核大小的控制進行感受野的對齊,造成了特征相關關系的紊亂;另外,降采樣的過程是將特征進行組合精簡,是特征的再提取過程,但上采樣則試圖將精簡后特征還原,而這并非一個可逆的過程。

(v)風格紋理學習實驗部分展示的結(jié)果均使用平均池化,我們在實驗中發(fā)現(xiàn)使用最大池化得到的結(jié)果在紋理的細節(jié)和連貫上不如平均池化效果好,即紋理出現(xiàn)局部失真和斷層的現(xiàn)象更多。在風格遷移實驗部分我們展示了最大池化和平均池化的結(jié)果對比。

3.3.2 風格遷移實驗

風格遷移實驗對使用不同特征映射層進行計算的Gram 矩陣方法及層間互相關矩陣方法的輸出結(jié)果進行對比(圖3),用圖2 中的三種風格對圖1中中山大學懷士堂、中山大學北門牌坊兩張圖片進行風格遷移。從風格遷移實驗的輸出圖像以及訓練時長對比(表2)中,我們得到以下結(jié)論:

圖2 紋理合成實驗結(jié)果Fig.2 Texture synthesis outputs

表2 風格遷移方法結(jié)果比較Table 2 comparision of style transfer methods

(i)選取相同的特征映射層,層間互相關矩陣方法和Gram 矩陣方法會得到相似水平的輸出,例如圖3第3行中,使用relu1_1,relu2_1,relu3_1三個特征映射層的Gram 矩陣方法和層間互相關矩陣方法都較好地保留了禮堂整體輪廓形狀,而加入了特征映射層relu4_1 后的三個輸出結(jié)果,整體輪廓都在一定程度上被破壞;第5行中,后三組實驗的天空部分有明顯的黃色塊狀紋理,而前三組則沒有。

(ii)無論是Gram 矩陣方法還是層間互相關矩陣方法,都存在一定的局部失真。在風格遷移的實際實驗過程中,我們首先嘗試了內(nèi)容損失、風格損失和總變分損失三部分進行加權組合的損失函數(shù),但發(fā)現(xiàn)盡管總變分項的加入使得最終的輸出結(jié)果更平滑,但會帶來與藝術風格不匹配的局部紋理。另外,總變分損失的加入使得訓練過程中內(nèi)容損失和風格損失的下降變得困難,難以達到令人滿意的輸出結(jié)果,且對于不同的風格和內(nèi)容,總變分損失部分的損失似乎都需要特殊的調(diào)參,否則結(jié)果差異較大?;诖耸聦?,以及本文比較不同風格損失函數(shù)的核心,最終在實驗中我們舍棄了總變分損失的部分,雖然導致風格遷移結(jié)果局部失真,但在實際實驗中使用內(nèi)容圖像進行初始化的方式很大程度地緩解了問題。

圖3 風格遷移實驗結(jié)果Fig.3 style transfer outputs

(iii)盡管在使用的特征映射層相同的條件下,使用Gram 矩陣和層間互相關矩陣方法得到的風格遷移輸出結(jié)果類似,從個別例子中仍能看出使用最大池化的方法不如使用平均池化方法得到的圖像效果穩(wěn)定,相比之下其差異會更大。如圖3 第6行的后三組實驗中,使用最大池化得到的結(jié)果和使用Gram 矩陣或平均池化的層間互相關矩陣方法得到的結(jié)果差異較大。

(iv)在得到相似輸出水平的情況下,使用層間互相關矩陣方法比使用Gram 矩陣的方法在速度上有著顯著優(yōu)勢。在風格遷移的所有實驗中我們對輸入圖像的優(yōu)化迭代次數(shù)都是20 000 次,這也是前期實驗對比得出的經(jīng)驗值。我們發(fā)現(xiàn)無論是Gram 矩陣方法還是層間互相關矩陣方法,得到效果良好的輸出圖像所需要的迭代次數(shù)是相當?shù)?,這可能是因為相似的損失函數(shù)構成和相同的學習率使得每次反向傳播過程中給出的梯度值都在基本相同的量級。因此在表2的運行時間對比中我們給出了單次迭代耗時,實際上也是總耗時與迭代次數(shù)的比值。在前三組實驗中,使用平均池化、最大池化方法的單次迭代耗時約為Gram 矩陣方法的74.54%及71.6%;后三組實驗中,使用平均池化、最大池化方法的單次迭代耗時約為Gram 矩陣方法的75.54%及69.93%,提速均在20%以上,使用最大池化的層間互相關矩陣方法速度最快。

(v)我們在第2 節(jié)中提到,理論上層間互相關矩陣刻畫的是不同等級語義特征之間的相關性。然而,在實際實驗結(jié)果中我們發(fā)現(xiàn),藝術風格紋理的差異主要是使用了不同的特征映射層造成的,與使用層間互相關矩陣還是Gram 矩陣的關系并不顯著。這是由于這種理論上的語義等級差異并不完全和實際情況相符。實際上,卷積神經(jīng)網(wǎng)絡的中間隱藏層所提取的很多特征從人的角度是難以理解的,其對語義特征等級的區(qū)分也和人的理解有差異。另外,卷積神經(jīng)網(wǎng)絡也難以確保在訓練中將同等級的特征提取放在同一層中進行,光依靠卷積層和池化層的結(jié)構是無法保證這種限制的。因此,同一層的卷積核提取的特征之間也可能存在等級差異,很多情況下,只要選取的特征映射一致,Gram 矩陣方法和層間互相關矩陣方法得到的風格遷移輸出結(jié)果整體不會有很大差異。但這并不妨礙在細節(jié)處層間互相關矩陣帶來的紋理多樣性。

(vi)本文實驗中對比了Gram 矩陣和層間互相關矩陣在Gatys 等[1]提出的算法中表現(xiàn)的差異,若在基于前饋網(wǎng)絡的快速風格遷移系列方法 中 將Gram 矩陣替換為層間互相關矩陣,則無法提升模型使用時的效率,而是提升了模型訓練時的效率。

4 結(jié) 論

本文提出使用層間互相關矩陣作為Gram 矩陣的代替或補充,用于風格遷移任務中風格損失的計算。實驗表明,在獲得與基于Gram 矩陣的神經(jīng)風格遷移方法相似水平的輸出結(jié)果的情況下,使用層間互相關矩陣的方法可以在一定程度上提高模型的訓練效率。

除了風格遷移任務本身外,層間互相關矩陣和Gram 矩陣的有效性也表明深度學習方法在藝術風格的表示、分類、聚類等問題上有著很大的潛力。另外,由于風格遷移任務的特殊性,我們可能需要更多藝術專業(yè)領域的專家知識的指導,作為先驗知識,這可能為未來風格遷移的效果帶來一定的提升。

猜你喜歡
層間損失卷積
少問一句,損失千金
基于超聲檢測的構件層間粘接缺陷識別方法
測控技術(2021年10期)2021-12-21 07:10:08
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
胖胖損失了多少元
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于傅里葉域卷積表示的目標跟蹤算法
基于層間接觸的鋼橋面鋪裝力學分析
上海公路(2018年3期)2018-03-21 05:55:40
結(jié)合多分辨率修正曲率配準的層間插值
一般自由碰撞的最大動能損失
临夏县| 灵宝市| 通辽市| 文成县| 长治县| 同心县| 甘洛县| 谷城县| 城固县| 扎赉特旗| 蓬溪县| 新营市| 通化市| 林州市| 隆昌县| 会东县| 大理市| 新兴县| 福清市| 凉城县| 温泉县| 平武县| 南康市| 霍城县| 丰顺县| 温州市| 灵武市| 平武县| 阳城县| 徐闻县| 依兰县| 紫金县| 喀什市| 黄石市| 宜兰县| 长泰县| 稻城县| 自贡市| 樟树市| 株洲县| 博爱县|