孫梅婷,代龍泉,唐金輝
南京理工大學(xué)計算機科學(xué)與工程學(xué)院,南京 210094
任意風格遷移技術(shù)(arbitrary style transfer)旨在尋求一種通用的風格轉(zhuǎn)換方法,對于給定的任意一幅風格圖像,都能依據(jù)其樣式特點對內(nèi)容圖像進行渲染,生成同時具備內(nèi)容圖像語義結(jié)構(gòu)和風格圖像樣式紋理的藝術(shù)化合成圖像。風格遷移作為圖像處理領(lǐng)域的重要分支,廣泛應(yīng)用于日常生活中的照片和視頻處理軟件中,為用戶提供多種多樣的視覺效果,而任意風格遷移方向提高了風格遷移技術(shù)的通用性和靈活性,因此受到廣泛關(guān)注。
在風格遷移研究中,物體、結(jié)構(gòu)和語義被廣泛視為圖像的內(nèi)容表示,顏色、紋理和筆觸被廣泛視為圖像的風格表示。因此,傳統(tǒng)風格遷移技術(shù)(Haeberli,1990;Hertzmann,1998;Efros 和Freeman,2001;Hertzmann 等,2001;Winnem?ller 等,2006)通過對紋理、線條等圖像低級信息進行抽象處理來實現(xiàn)圖像的藝術(shù)化轉(zhuǎn)變。雖然有一定的風格化成果,但是因為只利用了圖像的表征信息,缺乏整體語義的思考,因此存在視覺效果不佳、處理時間長等不足。
隨著深度學(xué)習在各個領(lǐng)域開花結(jié)果,神經(jīng)風格遷移(neural style transfer)方法應(yīng)運而生,利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)自適應(yīng)提取圖像特征,能夠更好地建模圖像的內(nèi)容和風格表征。Gatys 等人(2016)首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到風格遷移任務(wù)中,將網(wǎng)絡(luò)提取的圖像特征視為內(nèi)容表示,將特征間的相關(guān)性視為風格表示,通過分離與重組,融合內(nèi)容圖像和風格圖像,雖然能夠產(chǎn)生良好的風格效果,但是其中用到的圖像迭代優(yōu)化過程存在風格化速度慢、耗時長等弊端??紤]到生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)(Goodfellow等,2014)優(yōu)秀的圖像生成能力,一些工作(Zhu等,2017;Chen 等,2018;Hicsonmez 等,2020;Kotovenko 等,2019)將GAN 應(yīng)用于風格遷移領(lǐng)域,通過訓(xùn)練網(wǎng)絡(luò)模型,實現(xiàn)快速風格化。盡管這類方法提高了風格化速率,同時能夠生成栩栩如生的風格化圖像,但其網(wǎng)絡(luò)模型受限于GAN 網(wǎng)絡(luò)框架,只能實現(xiàn)有限風格種類的渲染效果,缺乏靈活性,如果要應(yīng)用于不同風格則需要對每一種風格單獨訓(xùn)練一個模型,增加了訓(xùn)練成本。得益于條件生成網(wǎng)絡(luò)(conditional adversarial network,cGAN)(Mirza 和Osindero,2014)的出現(xiàn),Yanai(2017)使用條件網(wǎng)絡(luò)直接從風格圖像中生成條件信號,控制網(wǎng)絡(luò)生成的風格,實現(xiàn)了任意風格的轉(zhuǎn)換。
GAN 中的判別器學(xué)習分辨特定類別圖像的真實性,在一定程度上約束了生成圖像風格的多樣性。為了提高生成網(wǎng)絡(luò)的靈活性,實現(xiàn)任意的藝術(shù)化風格轉(zhuǎn)換效果,后續(xù)工作更加關(guān)注圖像的編碼—轉(zhuǎn)換—解碼過程,旨在尋求能夠更好地分離、融合內(nèi)容信息與風格信息的方法。任意風格遷移方法中,在內(nèi)容圖像中引入風格信息的主要手段可以大致分為基于統(tǒng)計信息和基于圖像塊兩種。前者使用圖像分布統(tǒng)計數(shù)值表示風格信息(Huang 和Belongie,2017;Li等,2017;Luan 等,2017;Wang 等,2020;Xie 等,2020),如均值、方差和協(xié)方差等,通過整體調(diào)整內(nèi)容圖像的分布,使其符合風格圖像數(shù)據(jù)分布,從而獲得與風格圖像相同的樣式特征。后者將圖像劃分為圖像塊,用圖像塊作為風格特征的表示(Chen 和Schmidt,2016;Sheng 等,2018),通過將風格圖像塊替換到內(nèi)容圖像中,使得內(nèi)容圖像具備風格圖像的紋理表征。
CNN 作為風格遷移領(lǐng)域中使用的主流網(wǎng)絡(luò)框架,能夠有效提取圖像的內(nèi)容特征和風格特征,但是卷積操作限制了網(wǎng)絡(luò)的感受野范圍,不利于圖像全局信息的捕獲,若需要獲取更大范圍的感受野,則需要堆疊更深的網(wǎng)絡(luò)層,不利于網(wǎng)絡(luò)訓(xùn)練。而Transformer(Vaswani 等,2017)恰好能彌補卷積網(wǎng)絡(luò)的不足。Transformer網(wǎng)絡(luò)結(jié)構(gòu)最早在自然語言處理領(lǐng)域(natural language processing,NLP)的機器翻譯任務(wù)中提出,它的網(wǎng)絡(luò)主體結(jié)構(gòu)由注意力網(wǎng)絡(luò)層堆疊而成,這使得它可以輕松捕獲句子中單詞間存在的長距離依賴關(guān)系,加深網(wǎng)絡(luò)對每個單詞的理解,提高句子翻譯的合理性和準確性。通過抽象句子翻譯過程,可以發(fā)現(xiàn)基于圖像塊的風格遷移方法與句子翻譯任務(wù)有異曲同工之處。句子翻譯過程可以看做是單詞到單詞的轉(zhuǎn)換過程,而基于圖像塊的風格遷移過程可以視為圖像塊到圖像塊(特征到特征)的替換問題,如圖1 所示。句子可以表示為由單詞構(gòu)成的序列,則句子翻譯過程即為依據(jù)輸入的單詞序列信息預(yù)測輸出單詞的過程;依此思路,將圖像按固定尺寸劃分,則圖像可以表示成由圖像塊構(gòu)成的序列,每次從風格圖像塊序列中選擇合適的風格圖像塊替換內(nèi)容圖像序列中對應(yīng)的內(nèi)容圖像塊,將內(nèi)容圖像塊序列中所有的圖像塊都替換完畢后得到風格化圖像塊序列,將序列重新排列后獲得最終的風格化圖像。
圖1 句子翻譯和基于圖像塊的風格遷移之間的相似性Fig.1 Similarity between sentence translation and patch-based style transfer((a)sentence translation:word-to-word translation;(b)style transfer:patch-to-patch translation)
依據(jù)上述分析,將Transformer 應(yīng)用于風格遷移任務(wù)是合理的和可行的。但是,直接使用Transformer 完成全部的圖像處理任務(wù),仍存在一些問題。1)Transformer 缺乏歸納偏置(inductive bias),難以獲取圖像先驗信息,因此在訓(xùn)練中收斂速度較慢;2)缺乏有效的特征提取手段;3)圖像相較于句子,序列長度更長,導(dǎo)致注意力網(wǎng)絡(luò)層計算消耗更大。而卷積網(wǎng)絡(luò)能夠彌補Transformer 存在的不足,因此將二者結(jié)合能更好地實現(xiàn)風格遷移效果。綜上所述,本文主要貢獻包括以下幾點:1)提出一個用于任意風格遷移任務(wù)的混合網(wǎng)絡(luò),同時結(jié)合CNN 和Transformer網(wǎng)絡(luò)優(yōu)勢,使用卷積操作提取圖像特征,提供圖像先驗知識,便于局部信息的融合;使用Transformer捕獲特征間的內(nèi)在聯(lián)系,豐富特征表示,提供全局信息交互能力;2)引入判別網(wǎng)絡(luò),更好地度量生成的風格化圖像和現(xiàn)實中真實風格圖像間的差異,減少不合理紋理的產(chǎn)生,提升畫面渲染的光滑度;3)通過與其他任意風格遷移方法進行定性和定量比較,表明本文網(wǎng)絡(luò)能夠生成畫面更光滑、真實性更高、風格特征更明顯的高質(zhì)量風格化圖像。
鑒于CNN 能夠建模復(fù)雜的、手工設(shè)計難以捕獲和表示的圖像特征,已經(jīng)廣泛用做圖像處理任務(wù)中的編碼和解碼網(wǎng)絡(luò)。圖像輸入編碼網(wǎng)絡(luò)中提取特征,特征經(jīng)由轉(zhuǎn)換網(wǎng)絡(luò)生成風格化特征,風格化特征再輸入到解碼網(wǎng)絡(luò)中得到最終的風格化圖像,這種編碼—轉(zhuǎn)換—解碼的處理流程是任意風格遷移任務(wù)中常使用的網(wǎng)絡(luò)框架。
在結(jié)構(gòu)豐富多樣的CNN 中,預(yù)訓(xùn)練的VGG(Visual Geometry Group)網(wǎng) 絡(luò)(Simonyan 和Zisserman,2015)是任意風格遷移方法中常見的編碼網(wǎng)絡(luò)結(jié)構(gòu)。它作為特征提取器,為網(wǎng)絡(luò)提供可靠的圖像特征提取能力,同時因為其本身已經(jīng)具備良好的學(xué)習能力,所以在網(wǎng)絡(luò)訓(xùn)練過程中,它可以指導(dǎo)網(wǎng)絡(luò)其他部分的學(xué)習,穩(wěn)定網(wǎng)絡(luò)的訓(xùn)練過程,加速網(wǎng)絡(luò)模型的收斂。不同于直接引入VGG 網(wǎng)絡(luò)的方法(Huang和Belongie,2017;Li 等,2017;Luan 等,2018;Park 和Lee,2019;Yao 等,2019;Wang 等,2020;Chen 等,2021a;Deng 等,2021),Sheng 等人(2018)綜合考慮網(wǎng)絡(luò)編碼與解碼過程,在VGG 網(wǎng)絡(luò)結(jié)構(gòu)中增添中間鏈接結(jié)構(gòu),將提取的特征信息引入到圖像解碼過程中,增強了解碼網(wǎng)絡(luò)的穩(wěn)定性與圖像重建能力。Chen 和Schmidt(2016)分別在圖像空間與特征空間進行風格遷移實驗,表明直接對圖像進行處理生成的風格化結(jié)果,雖然有顏色的改變,但是風格特征并不明顯;而在特征空間進行處理生成的風格化結(jié)果具備更加優(yōu)越的風格特征,說明在任意風格遷移任務(wù)中,使用CNN表示圖像復(fù)雜信息是必要的。
除了CNN,本文還使用了其他理論知識和關(guān)鍵技術(shù)。
網(wǎng)絡(luò)訓(xùn)練時,由于人力與物力的局限,有時難以收集明確的標簽數(shù)據(jù)集,Goodfellow等人(2014)提出GAN 網(wǎng)絡(luò),在其中使用判別網(wǎng)絡(luò)分辨生成結(jié)果的真實性,以此促使生成網(wǎng)絡(luò)提升圖像生成能力。
在有限風格種類遷移中,Chen 等人(2018)提出了專門用于圖像卡通化的網(wǎng)絡(luò)結(jié)構(gòu),促使生成圖像具備卡通圖像高度簡化、邊緣清晰和色彩平滑的特點。Kotovenko 等人(2019)通過在內(nèi)容圖像與風格樣本中尋找相似語義內(nèi)容,使網(wǎng)絡(luò)學(xué)習特定風格是如何改變內(nèi)容細節(jié)的,從而提高網(wǎng)絡(luò)對其他內(nèi)容對象的渲染質(zhì)量。Hicsonmez 等人(2020)則將圖像的形態(tài)特征和邊緣輪廓等低級信息引入風格轉(zhuǎn)換過程中,協(xié)助網(wǎng)絡(luò)更好地保留內(nèi)容,實現(xiàn)插圖類型圖像的生成。
在任意風格種類遷移中,Chen 等人(2021a)使用判別網(wǎng)絡(luò)分辨真實風格圖像和虛假的生成圖像,提高了風格化圖像中顏色渲染的和諧性與紋理樣式的合理性。
注意力機制(attention mechanism)即對觀察事物的不同部分傾注不同程度的關(guān)注,依此方式過濾冗雜信息,保留關(guān)鍵信息。在人類日常生活中,注意力協(xié)助大腦快速、高效地處理海量信息,加快反應(yīng)速度,輔助關(guān)鍵信息記憶。為了使神經(jīng)網(wǎng)絡(luò)學(xué)習數(shù)據(jù)間存在的關(guān)聯(lián)性,提高數(shù)據(jù)處理能力,有些工作引入了注意力機制。
在計算機視覺領(lǐng)域,Lee 等人(2019)應(yīng)用注意力調(diào)整風格權(quán)重,使網(wǎng)絡(luò)關(guān)注重要的風格特征,提高卷積神經(jīng)網(wǎng)絡(luò)的表示能力。Fu 等人(2019)利用注意力建模全局信息的能力,同時捕獲特征在空間和通道維度的上下文關(guān)系,生成了更精確的圖像分割結(jié)果。Zhang 等人(2019)將自注意力融入GAN 網(wǎng)絡(luò),與卷積操作相輔相成,實現(xiàn)長距離、多尺度建模。
在風格遷移領(lǐng)域,注意力機制能夠幫助網(wǎng)絡(luò)關(guān)注內(nèi)容圖像的主要語義結(jié)構(gòu)和風格圖像的關(guān)鍵紋理筆觸。Park和Lee(2019)提出風格注意力網(wǎng)絡(luò),將內(nèi)容特征表示為風格特征的加權(quán)和,靈活且有效地融合了風格信息。為了豐富生成圖像中風格筆觸的多樣性,Yao等人(2019)使用K-means方法將內(nèi)容特征聚類分區(qū),并用注意力捕獲分區(qū)間依賴關(guān)系,指導(dǎo)不同尺度特征的融合過程。Deng 等人(2020)在內(nèi)容圖像上使用空間注意力增強內(nèi)容表征,在風格圖像上使用通道注意力增強風格表征,自適應(yīng)地分離內(nèi)容和風格特征,從而生成語義化渲染效果。
注意力機制協(xié)助網(wǎng)絡(luò)使用主要風格特征繪制主要內(nèi)容結(jié)構(gòu),實現(xiàn)語義感知的風格化渲染效果。
圖像可以看做由像素點構(gòu)成的“句子”,相較于卷積操作需要堆疊多層卷積層來獲得更大感受野內(nèi)像素間的依賴關(guān)系,Transformer 能夠更方便地建模長距離依賴,因此越來越多的研究人員探索將Transformer應(yīng)用在圖像處理任務(wù)中(劉花成 等,2022)。
Transformer 遵循編碼—解碼的網(wǎng)絡(luò)結(jié)構(gòu),整體結(jié)構(gòu)如圖2 所示。網(wǎng)絡(luò)由多頭注意力網(wǎng)絡(luò)層(multihead self-attention,MSA)、前向網(wǎng)絡(luò)層(feed-forward network,F(xiàn)FN)和層標準化網(wǎng)絡(luò)層(layer normalization,LN)構(gòu)成。圖2 中的l符號表示編碼層和解碼層的層數(shù),Add 符號表示相加操作,Embedding 網(wǎng)絡(luò)層將序列映射到更高維度。Vaswani 等人(2017)介紹了Transformer網(wǎng)絡(luò)的具體實現(xiàn)細節(jié)。
圖2 Transformer網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network architecture of Transformer
在分類、分割和檢測任務(wù)中,Dosovitskiy 等人(2021)將圖像劃分為固定大小的圖像塊,構(gòu)造與句子類似的序列化數(shù)據(jù),輸入Transformer 編碼器處理后,得到圖像分類結(jié)果。Liu等人(2021)以滑動窗口形式計算圖像的局部注意力,降低網(wǎng)絡(luò)計算量。
在圖像生成、超分辨率等需要生成圖像的任務(wù)中,Parmar 等人(2018)將圖像生成任務(wù)視為像素點回歸任務(wù),搭建Image Transformer 網(wǎng)絡(luò),以逐像素預(yù)測的方式生成圖像。Esser 等人(2021)將Transformer優(yōu)秀的表達能力與CNN 自帶的歸納偏置相結(jié)合,實現(xiàn)高分辨率圖像合成結(jié)果。上述兩種方法均以回歸方式生成圖像,前者使用像素,后者使用特征,因為需要逐個預(yù)測,因此生成速度較慢。
Chen 等人(2021b)使用卷積網(wǎng)絡(luò)處理圖像,使用Transformer處理特征,在超分辨率、去雨和去噪等圖像處理任務(wù)上均取得了優(yōu)異成果。Jiang 等人(2021)使用Transformer網(wǎng)絡(luò)結(jié)構(gòu)搭建了第一個沒有卷積操作的生成對抗網(wǎng)絡(luò)TransGAN,使用數(shù)據(jù)增強、多任務(wù)聯(lián)合訓(xùn)練和局部注意力初始化等策略,增強圖像塊間連接的光滑度??梢钥闯觯瑳]有卷積網(wǎng)絡(luò)的輔助,則需要更多的策略輔助網(wǎng)絡(luò)訓(xùn)練。
盡管Transformer在圖像處理任務(wù)中得到了廣泛關(guān)注,但是將其應(yīng)用于任意風格遷移領(lǐng)域的研究屈指可數(shù)。鑒于風格遷移過程與句子翻譯過程的相似性,引入Transformer實現(xiàn)特征轉(zhuǎn)換,有助于為風格遷移領(lǐng)域注入新的活力。
為了挖掘Transformer 在任意風格遷移領(lǐng)域的潛力,本文提出了融合Transformer 網(wǎng)絡(luò)結(jié)構(gòu)的任意風格遷移網(wǎng)絡(luò),將從網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)兩方面對其進行詳細介紹,同時為了便于讀者理解本文方法與Transformer 網(wǎng)絡(luò)結(jié)構(gòu)之間存在的聯(lián)系,Transformer 相關(guān)網(wǎng)絡(luò)層符號表示均與1.3 節(jié)保持一致。
圖3 展示了提出的任意風格遷移網(wǎng)絡(luò)的整體結(jié)構(gòu),該網(wǎng)絡(luò)輸入內(nèi)容圖像Ic和風格圖像Is,輸出風格化圖像Ics。網(wǎng)絡(luò)整體遵循對抗生成網(wǎng)絡(luò)框架,圖中生成網(wǎng)絡(luò)G負責學(xué)習生成高質(zhì)量的風格化圖像,判別網(wǎng)絡(luò)D則負責學(xué)習判斷輸入是否為真實風格圖像。
圖3 基于Transformer的任意風格遷移網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network architecture for Transformer-based arbitrary style transfer
生成網(wǎng)絡(luò)G由3 部分構(gòu)成,分別為圖像編碼網(wǎng)絡(luò)、風格轉(zhuǎn)換網(wǎng)絡(luò)和圖像解碼網(wǎng)絡(luò),在圖3 中分別以Enc、T和Dec表示。圖像的風格化過程如下:
首先,將內(nèi)容圖像Ic和風格圖像Is輸入編碼網(wǎng)絡(luò)Enc中,提取內(nèi)容特征fc和風格特征fs,具體為
隨后,將fc和fs輸入風格轉(zhuǎn)換網(wǎng)絡(luò)T 中,依據(jù)二者元素間的相關(guān)性,將內(nèi)容特征替換為對應(yīng)的風格特征,得到風格化特征fcs,具體為
最后,風格化特征fcs經(jīng)由解碼網(wǎng)絡(luò)Dec 解碼回圖像域,生成風格化圖像Ics,具體為
上述生成過程為常見的編碼—轉(zhuǎn)換—解碼風格遷移方式,為了促使生成網(wǎng)絡(luò)生成更加真實的藝術(shù)化結(jié)果,增添一個判別網(wǎng)絡(luò),度量生成的風格化圖像與真實風格圖像間的分布差異,拉近二者的距離。判別網(wǎng)絡(luò)D在訓(xùn)練過程中,學(xué)習為真實風格圖像分類標簽1(real),為生成的風格化圖像分類標簽0(fake),即
2.1.1 圖像編碼網(wǎng)絡(luò)
卷積網(wǎng)絡(luò)種類眾多,鑒于風格遷移任務(wù)不僅需要圖像深層信息理解內(nèi)容語義結(jié)構(gòu),而且需要圖像淺層信息輔助風格紋理筆觸的表現(xiàn),因此使用殘差網(wǎng)絡(luò)(He等,2016)作為編碼網(wǎng)絡(luò),同時將網(wǎng)絡(luò)中第1層7 × 7大小的卷積核改為3 × 3,保留更多的線條紋理細節(jié)。因為風格轉(zhuǎn)換網(wǎng)絡(luò)中用到了Transformer網(wǎng)絡(luò)結(jié)構(gòu),為了降低網(wǎng)絡(luò)中注意力網(wǎng)絡(luò)層的計算量,在殘差網(wǎng)絡(luò)塊中使用平均池化層,降低圖像尺寸。平均池化層縮放因子設(shè)置為2,設(shè)訓(xùn)練時輸入圖像寬高為2x像素,編碼出來的特征寬高固定為2y像素,則編碼網(wǎng)絡(luò)中包含的殘差塊有x-y層。
將內(nèi)容圖像Ic∈R3×H×W和風格圖像Is∈R3×H×W輸入編碼網(wǎng)絡(luò)中,生成尺寸較小的內(nèi)容特征fc∈Rc×h×w和風格特征fs∈Rc×h×w。其中,H和W分別表示圖像的高度和寬度,c,h和w分別表示提取特征的通道數(shù)、高度和寬度,H=W=2x,h=w=2y。
2.1.2 風格轉(zhuǎn)換網(wǎng)絡(luò)
原始Transformer網(wǎng)絡(luò)包含編碼器和解碼器兩部分,編碼器建模句子單詞間的關(guān)聯(lián)性,解碼器部分依據(jù)編碼器編碼結(jié)果及之前輸出的單詞,預(yù)測當前位置單詞的概率分布。依據(jù)解碼部分的特點,可以將其視為基于塊替換的風格遷移方法,即依據(jù)風格特征,替換內(nèi)容特征。該部分網(wǎng)絡(luò)盡量遵循原始Transformer 結(jié)構(gòu)(Vaswani 等,2017),考慮到風格遷移的輸入為兩幅圖像,為了使網(wǎng)絡(luò)更好地學(xué)習內(nèi)容圖像和風格圖像的特點,在原始Transformer 結(jié)構(gòu)的基礎(chǔ)上額外增加一個編碼器,構(gòu)成一個由兩個編碼器和一個解碼器組成的風格轉(zhuǎn)換網(wǎng)絡(luò)。兩個編碼器為內(nèi)容編碼器CTE(content Transformer encoder)和風格編碼器STE(style Transformer encoder),解碼器用TD(Transformer decoder)表示,轉(zhuǎn)換網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 風格轉(zhuǎn)換網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The style transformation network structure
風格轉(zhuǎn)換網(wǎng)絡(luò)接收內(nèi)容特征fc和風格特征fs作為其輸入,輸出風格化特征fcs∈Rc×h×w。網(wǎng)絡(luò)中的unfold 操作使用高度和寬度為P的滑動窗口在特征上以步長P進行滑動,滑動過程中將窗口內(nèi)所有數(shù)據(jù)合并在通道維度上,將輸入的特征展開為特征序列的形式。經(jīng)過unfold 操作處理后,得到內(nèi)容特征序列fc→seq∈Rc′×L和風格特征序列fs→seq∈Rc′×L,其中,c′=c×P2為特征塊編碼長度,L=hw∕P2為序列長度。
為了利用序列中蘊含的特征順序信息,分別為內(nèi)容特征序列添加內(nèi)容位置編碼posc,為風格特征序列添加風格位置編碼poss,其中位置編碼與序列形狀相同,便于二者相加。添加位置信息后將內(nèi)容特征序列fc→seq輸入內(nèi)容編碼器CTE中處理,將風格特征序列fs→seq輸入風格編碼器STE 中處理,得到內(nèi)容編碼器的輸出fcmemory和風格編碼器的輸出fsmemory,上述過程具體表示為
將內(nèi)容編碼器和風格編碼器輸出的fcmemory和fsmemory作為解碼器TD的輸入,求取風格化特征序列fcs→seq,具體為
依靠解碼器中第2 層注意力網(wǎng)絡(luò)層MSA(multihead self-attention)可以達到引入風格信息的目的,該過程可表示為
式中,Qc為內(nèi)容信息,來自,Ks和Vs均為風格信息,來自。Vaswani 等人(2017)具體介紹了MSA注意力操作,該過程可理解為求取內(nèi)容信息Qc和風格信息Ks間的相關(guān)性,使用softmax 激活函數(shù)將二者的相關(guān)性轉(zhuǎn)換為權(quán)重值,將權(quán)重值與風格信息Vs相乘得到應(yīng)引入的風格信息量,最后將內(nèi)容信息Qc加上風格信息量,得到同時具有內(nèi)容信息和風格信息的Qcs。Qcs為fcs→seq中的信息。
使用合并操作fold 將風格化特征序列fcs→seq調(diào)整回圖像的排列形式,得到風格化特征fcs∈Rc×h×w,其形狀與輸入的內(nèi)容特征相同,便于后續(xù)圖像解碼網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計與實現(xiàn)。
2.1.3 圖像解碼網(wǎng)絡(luò)
解碼網(wǎng)絡(luò)同樣由殘差網(wǎng)絡(luò)塊搭建而成,與編碼網(wǎng)絡(luò)相反,解碼網(wǎng)絡(luò)需要將尺寸較小的特征上采樣到原始圖像的大小,因此在該部分殘差塊中使用最近鄰插值操作成倍增加特征尺寸。解碼網(wǎng)絡(luò)結(jié)構(gòu)與編碼網(wǎng)絡(luò)結(jié)構(gòu)對稱,便于網(wǎng)絡(luò)學(xué)習對稱的映射關(guān)系。
將風格轉(zhuǎn)換網(wǎng)絡(luò)輸出的風格化特征fcs輸入解碼網(wǎng)絡(luò)中,生成風格化圖像Ics,。其中,Ics∈R3×H×W與原始內(nèi)容圖像Ic尺寸相同。
2.1.4 判別網(wǎng)絡(luò)
通常,任意風格遷移任務(wù)只由生成網(wǎng)絡(luò)組成,使用風格損失函數(shù)約束生成的風格化效果。然而在實際中,使用數(shù)據(jù)分布表示風格信息的方式,對風格特點進行抽象和量化,可能會損失一些分布無法建模的風格特征信息。為了更好地度量生成的風格化圖像和現(xiàn)實中真實風格圖像間的差異,本文引入一個判別網(wǎng)絡(luò),學(xué)習分辨真實和虛假的風格圖像,從而督促生成網(wǎng)絡(luò)生成更加栩栩如生、貼近現(xiàn)實的藝術(shù)化圖像。
判別網(wǎng)絡(luò)遵循Chen 等人(2021a)工作中的設(shè)置,由3 個判別器組成,分別分辨原始圖像尺寸、1∕2圖像尺寸和1∕4 圖像尺寸下輸入圖像的真實性。通過綜合不同視野范圍下的判別結(jié)果,強化網(wǎng)絡(luò)的判別能力,實現(xiàn)多尺度風格差異度量。
風格遷移的目的是在保證內(nèi)容圖像結(jié)構(gòu)輪廓的前提下,使其具有與風格圖像相同的色調(diào)和筆觸,因此,使用內(nèi)容損失函數(shù)和風格損失函數(shù)對生成結(jié)果進行約束。
使用感知內(nèi)容損失(Johnson 等,2016)約束生成圖像中的結(jié)構(gòu)保留效果,該損失在高維空間中度量特征間的差異,能夠在保留語義信息的情況下,為結(jié)構(gòu)輪廓提供合理的風格形變,其定義為
式中,φi(·)表示預(yù)訓(xùn)練VGG-19 網(wǎng)絡(luò)(Simonyan 和Zisserman,2015)中Relui-1層提取的特征(·)表示特征的均值—方差標準化版本,使用標準化版本是為了降低風格信息的影響。
風格損失定義為
式中,μ(·)和σ(·)表示特征的均值和方差,N為使用的網(wǎng)絡(luò)層數(shù)量,在本文中設(shè)置為5,即在多尺度特征上約束生成圖像的風格分布。
任意風格遷移過程是無監(jiān)督網(wǎng)絡(luò)訓(xùn)練過程,因為缺少明確真值圖像的強力約束,所以只能將風格信息建模為均值—方差的分布來約束風格化效果。這種風格損失考慮了圖像整體風格分布情況,但是缺乏對局部紋理細節(jié)、筆觸的考量。因此,本文引入一個判別網(wǎng)絡(luò),協(xié)助分辨人眼觀察不到的風格特征和風格分布難以表示的細節(jié)。判別網(wǎng)絡(luò)帶來的對抗損失函數(shù)定義為
式中,G(Ic,Is)=Dec(T(Enc(Ic),Enc(Is))),表示生成圖像,D為判別器,判別輸入的圖像是真實的還是網(wǎng)絡(luò)生成的,E為期望,C和S分別表示內(nèi)容圖像和風格圖像的集合,有Ic∈C,Is∈S。判別網(wǎng)絡(luò)通過與生成網(wǎng)絡(luò)進行對抗訓(xùn)練,學(xué)習更能分辨風格信息的關(guān)鍵圖像特征;生成網(wǎng)絡(luò)為了迷惑判別網(wǎng)絡(luò),學(xué)習生成更接近真實圖像的藝術(shù)化結(jié)果。
網(wǎng)絡(luò)的總損失函數(shù)由內(nèi)容損失、風格損失和對抗損失組成,即
式中,λc,λs和λadv分別表示內(nèi)容損失權(quán)重、風格損失權(quán)重和對抗損失權(quán)重。
本文網(wǎng)絡(luò)基于PyTorch深度學(xué)習框架搭建,使用的內(nèi)容數(shù)據(jù)集為MS-COCO(Microsoft common objects in context),風格數(shù)據(jù)集為WikiArt(WikiArt dataset),每個數(shù)據(jù)集均包含大約80 000 幅訓(xùn)練圖像。在網(wǎng)絡(luò)訓(xùn)練階段,輸入圖像統(tǒng)一裁剪為256 ×256 像素。網(wǎng)絡(luò)學(xué)習率設(shè)置為0.000 1,使用兩個Adam優(yōu)化器分別對生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)進行優(yōu)化,前者參數(shù)設(shè)置β1=0.9和β2=0.999,后者參數(shù)設(shè)置為β1=0.5和β2=0.999。風格轉(zhuǎn)換網(wǎng)絡(luò)中,網(wǎng)絡(luò)層數(shù)l設(shè)置為6??倱p失函數(shù)中,權(quán)重參數(shù)λc、λs和λadv均設(shè)置為1。
從定性和定量兩方面對提出的任意風格遷移方法進行分析與比較,并進行消融實驗,驗證引入判別網(wǎng)絡(luò)的必要性。
3.2.1 風格化效果比較
與5 個先進的任意風格遷移方法進行比較,包括AdaIN(adaptive instance normalization)(Huang 和Belongie,2017)、WCT(whitening and coloring transforms)(Li 等,2017)、SANET(style-attentional network)(Park 和Lee,2019)、AAMS(attention-aware multi-stroke)(Yao 等,2019)和A-Net(Avatar-Net)(Sheng 等,2018),圖5 展示了各方法生成的風格化圖像。
圖5 與現(xiàn)有任意風格遷移方法生成效果進行比較Fig.5 Comparison the generated results with existing arbitrary style transfer methods((a)content images;(b)style images;(c)AdaIN;(d)WCT;(e)SANET;(f)AAMS;(g)A-Net;(h)ours)
圖5(a)和圖5(b)分別為內(nèi)容圖像和風格圖像,剩余依次為各任意風格遷移方法生成的結(jié)果。畫家作品擁有繁復(fù)多樣的色彩、筆觸等紋理信息,AdaIN整體調(diào)整內(nèi)容特征分布實現(xiàn)風格渲染,能夠保留較好的結(jié)構(gòu)輪廓,但是因為簡化了風格信息的表示,所以生成結(jié)果風格特點不夠明顯,如圖5(c)所示。WCT 通過修改特征2 維統(tǒng)計信息實現(xiàn)風格化效果,能更好地捕獲風格特點,但是在高維空間調(diào)整風格,圖像的內(nèi)容特征也更容易受到影響,如圖5(d)所示,圖像的結(jié)構(gòu)發(fā)生了形變。直接使用風格圖像塊替換內(nèi)容圖像塊能更好地引入風格筆觸紋理,SANET 使用注意力將內(nèi)容特征塊替換為風格特征塊的加權(quán)和,生成結(jié)果較好地保留了結(jié)構(gòu)和樣式信息,但同時引入了不合理的風格內(nèi)容結(jié)構(gòu),如圖5(e)第1行圖像中嘴巴部分。AAMS繪制多筆觸風格化圖像,畫面整體較為平滑,但是受到區(qū)域聚類操作效果的影響,生成圖像輪廓不夠清晰,同時圖像中主體細粒度筆觸在背景粗粒度筆觸的映襯下略顯突兀,如圖5(f)所示。A-Net生成的圖像較好地保留了風格特點,但是其結(jié)果依賴于紋理塊劃分的大小,當輸入圖像尺寸較小時,生成結(jié)果中內(nèi)容輪廓有些難以分辨。與AdaIN 和WCT 相比,本文網(wǎng)絡(luò)基于塊替換方法,能更好地融合風格圖像的樣式特征,如圖5(h)所示,生成的風格化圖像與風格圖像擁有相似的色彩表現(xiàn)。加之本文使用判別網(wǎng)絡(luò)分辨風格圖像的真實性,拉近了生成結(jié)果與真實風格圖像間的距離,提高了生成圖像的光滑和細膩程度,如圖5(h)第1 行人像所示,線條流暢,臉部區(qū)域干凈,無其他多余紋理,還有第4、5 行圖像的背景部分,都繪制得更加清爽,更好地突出了畫面中的主體。
3.2.2 用戶調(diào)查
通過用戶調(diào)查,觀察用戶更喜歡哪一種任意風格遷移方法生成的風格化圖像。隨機選取網(wǎng)絡(luò)生成的15 幅風格化圖像構(gòu)建調(diào)查問卷,問卷中使用的圖像為256 × 256 像素。要求參與調(diào)查的用戶綜合考慮內(nèi)容和風格因素,在每題中選擇他們最喜歡的風格化圖像,調(diào)查結(jié)果如圖6所示。
圖6 用戶調(diào)查結(jié)果Fig.6 Survey results of users
3.2.3 速度比較
表1展示了各個任意風格遷移方法在256 × 256像素和512 × 512 像素圖像上進行風格化處理的平均時間。
表1 風格化速度比較Table 1 Execution time comparison /s
所有方法模型均在相同實驗環(huán)境下運行,表1中結(jié)果為使用單張NVIDIA RTX A6000 GPU 運行400 次風格遷移過程求取的平均風格化速率。本文方法相較AdaIN 和SANET 速度慢了5~8倍,但是相較于WCT、AAMS 和A-Net 方法風格化速度更快,因此,本文網(wǎng)絡(luò)的風格化速率整體屬于可接受范圍內(nèi)。當圖像尺寸增至512 × 512 像素時,風格化速度變化不大,表明了本文網(wǎng)絡(luò)的穩(wěn)定性。
3.2.4 與基于Transformer的風格遷移方法比較
Deng 等人(2022)使用Transformer 網(wǎng)絡(luò)捕獲圖像全局信息,解決內(nèi)容信息泄露問題,同時提出更適用于圖像風格遷移任務(wù)的內(nèi)容感知位置編碼(content-aware positional encoding,CAPE)方法,使得在圖像尺寸變化時位置編碼信息不變。本文方法與其不同之處在于:1)本文編、解碼網(wǎng)絡(luò)使用殘差結(jié)構(gòu),引入圖像低級紋理信息,增強圖像特征的表示能力;2)本文編、解碼網(wǎng)絡(luò)一同訓(xùn)練,使編碼網(wǎng)絡(luò)學(xué)習提取適合風格遷移的圖像特征;3)本文使用判別網(wǎng)絡(luò)度量生成圖像,依此提高生成圖像的真實性。
本文與Deng等人(2022)在256像素圖像上的風格遷移效果如圖7 所示??梢钥吹剑珼eng 等人(2022)方法生成圖像的紋理細節(jié)豐富、背景干凈;本文方法生成圖像具有風格圖像的繪制筆觸,如圖7(c)第1 行的圖像,具有油畫質(zhì)感,但是過多的筆觸造成背景有些雜亂。
圖7 與Deng等人(2022)方法進行比較Fig.7 Compare with Deng et al.(2022)((a)content images;(b)style images;(c)ours;(d)Deng et al.,(2022))
本文設(shè)計消融實驗以驗證判別網(wǎng)絡(luò)的有效性,實驗結(jié)果如圖8所示。
圖8 比較有無判別網(wǎng)絡(luò)生成的風格化圖像效果Fig.8 Compare the performance of stylized images generated with and without discriminative networks((a)content images;(b)style images;(c)without discriminative networks;(d)with discriminative networks)
1)配置1。去掉判別網(wǎng)絡(luò)后,網(wǎng)絡(luò)訓(xùn)練的基本配置包括內(nèi)容損失函數(shù)和風格損失函數(shù)。從圖8(c)的風格化效果來看,生成圖像保留了良好的內(nèi)容結(jié)構(gòu),這得益于網(wǎng)絡(luò)中殘差結(jié)構(gòu)引入了淺層表征信息。但是,圖像上也出現(xiàn)了輕微的棋盤效應(yīng),畫面中顯示出規(guī)則性塊狀紋理;而從風格來看,盡管生成圖像擁有目標風格分布,但是其風格筆觸較為簡單,例如當參考風格為油畫類型時,生成圖像過于光滑,沒有油畫特有的筆觸信息,風格特點不夠突出。
2)配置2。引入判別網(wǎng)絡(luò)后,在配置1 的基礎(chǔ)上,增加對抗損失函數(shù)對網(wǎng)絡(luò)訓(xùn)練過程進行約束,圖8(d)展示了該配置下圖像的風格化效果??梢钥闯觯蓤D像有了更明顯的結(jié)構(gòu)抽象效果,選擇性地忽略了一些細節(jié)表現(xiàn),降低了大面積區(qū)域多余紋理的出現(xiàn),提升了畫面渲染的簡潔度和平滑度,更好地突出了畫面主體部分。當參考圖像為油畫風格時,能夠體現(xiàn)油畫筆觸特征,使其看起來更像畫家創(chuàng)作的藝術(shù)作品。
本文提出的任意風格遷移網(wǎng)絡(luò)可以在不修改訓(xùn)練階段網(wǎng)絡(luò)結(jié)構(gòu)的情況下完成其他的風格轉(zhuǎn)移任務(wù)。
3.4.1 內(nèi)容—風格權(quán)衡
除了在訓(xùn)練時調(diào)整內(nèi)容損失函數(shù)和風格損失函數(shù)權(quán)重比控制風格化程度,訓(xùn)練好的網(wǎng)絡(luò)在測試階段也能夠?qū)崿F(xiàn)任意程度的風格化渲染效果。使用風格化權(quán)重α控制內(nèi)容重建特征fcc和風格化特征fcs各自所占比例,實現(xiàn)風格化程度調(diào)整。具體為
式中,Control表示內(nèi)容—風格的權(quán)衡操作,fcc是將兩幅相同內(nèi)容圖像輸入網(wǎng)絡(luò)生成的內(nèi)容重建特征,α表示權(quán)衡比,取值范圍為[0,1]。當α=0時,網(wǎng)絡(luò)生成原始內(nèi)容圖像Ic,當α=1時,網(wǎng)絡(luò)生成標準風格化圖像Ics。隨著α值的增加,生成圖像的風格特征越來越明顯,與風格圖像特征越來越相似,如圖9所示。
圖9 控制權(quán)衡參數(shù)實現(xiàn)不同程度的風格化效果Fig.9 Control trade-off parameters to achieve different levels of stylized performance
3.4.2 風格插值
以在兩幅風格圖像間進行風格插值為例,生成的風格化圖像如圖10 所示,圖中s1∶s2形式的數(shù)據(jù)用來計算風格插值權(quán)重,計算過程為
圖10 使用不同插值權(quán)重生成的混合風格化效果Fig.10 Hybrid stylized results generated using different interpolation weights
3.4.3 區(qū)域繪制
本文模型不僅可以整體繪制風格化圖像,還可以使用不同的風格特征繪制內(nèi)容圖像中的不同區(qū)域,即
式中,fc|s1為使用內(nèi)容圖像Ic和風格圖像Is1生成的風格化特征,fc|s2表示使用Ic和風格圖像Is2生成的風格化特征,mask為輸入的二值圖像,用以將內(nèi)容圖像劃分為不同的區(qū)域,⊙表示元素間點乘操作。區(qū)域繪制效果如圖11 所示??梢钥吹剑山Y(jié)果中人像主體與背景擁有不同的樣式風格,但是二者在邊界處融合自然,提高了圖像整體的表現(xiàn)力。
圖11 使用不同風格特征繪制內(nèi)容圖像不同區(qū)域的生成效果Fig.11 Results for drawing different areas of content images using different style features
鑒于風格轉(zhuǎn)換過程與句子翻譯過程間的相似性,本文提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)特征提取能力和Transformer網(wǎng)絡(luò)全局依賴性捕獲能力的混合網(wǎng)絡(luò)模型,用于圖像的任意風格遷移任務(wù)。首先,在卷積網(wǎng)絡(luò)中引入殘差連接,為提取的圖像高級特征增添低級紋理信息,提高特征的表示能力和網(wǎng)絡(luò)保留物體清晰結(jié)構(gòu)的能力;其次,使用Transformer優(yōu)秀的相關(guān)性建模能力,為特征增添全局信息,同時完成語義感知的特征塊替換過程;針對風格信息難以用數(shù)值精確表示的問題,引入判別網(wǎng)絡(luò)度量風格化效果。實驗結(jié)果表明,本文網(wǎng)絡(luò)相較其他方法能高效地生成高質(zhì)量的風格化圖像。
盡管本文網(wǎng)絡(luò)能夠?qū)崿F(xiàn)良好的風格化效果,但仍存在一些問題需要完善。如,判別網(wǎng)絡(luò)將風格判別過程視為一個二分類問題,即生成圖像和真實風格圖像,因此判別網(wǎng)絡(luò)學(xué)習的是兩個圖像域之間的差異。如何調(diào)整判別網(wǎng)絡(luò)使其能判別任意風格特征是后續(xù)研究工作的重要方向。