劉冰
(閩南師范大學 教育科學學院,福建 漳州 363000)
在悠久的歷史中,曾誕生過無數(shù)造詣精深的畫家,他們留下的美妙畫作已經(jīng)成為人類文明歷史中不可或缺的瑰寶。當然,任何一位畫家都具有自己獨特的風格,想要仿照其風格作畫十分困難。20世紀90年代,計算機科學家們開始思考利用強大的算力按照某一畫家的風格對其畫作進行仿制。
這類算法被稱為圖像風格遷移(Image Style Transfer)算法。具體而言,圖像風格遷移算法能夠?qū)W習某張畫作的風格,并將這種風格遷移到另一張圖片,且很大程度上保留該圖片原有的內(nèi)容信息。即經(jīng)算法處理過的圖片能夠兼具所期望擁有的內(nèi)容與所期望呈現(xiàn)的畫家風格。
這類方法具有很強的擴展性。它不僅可以仿照某個特定畫家的風格設(shè)計濾鏡,生成精美絕倫的圖片;也可以依照特定環(huán)境,如冬季、黃昏等風格圖片將圖片轉(zhuǎn)化為在對應情境下的形態(tài);人們還根據(jù)算法原理提出了新的圖像超分辨方法,即從低分辨的模糊圖像中恢復出高分辨的清晰圖像。另外,該算法也具有很強的可應用性。2016年,Alexey Moiseenkoy基于該算法原理開發(fā)了手機軟件Prisma,為普通照片加入藝術(shù)效果,并被評為2016年IOS年度最佳應用程序。
圖像風格遷移最早可以追溯到20世紀90年代中期誕生的非真實性渲染算法(Non Photorealistic Rendering,NPR)[1]。作為計算機圖形學最早誕生的兩大主要問題之一,與真實性渲染(Photorealistic Rendering)相對,非真實性渲染的目的主要在于模擬藝術(shù)化的繪制風格,呈現(xiàn)出手繪的效果。常見的非真實渲染技術(shù)包括卡通渲染、油畫渲染、像素感渲染、鉛筆畫、素描畫、蠟筆畫和水墨畫等類型。這類算法注重對特殊筆觸紋理的模擬,并沒有上升到對整體繪畫風格的遷移。代表性的工作,如Salisbury與Anderson等人提出的參數(shù)化方法的筆觸模擬,能夠較好地根據(jù)用戶繪制的線稿加以完善產(chǎn)生所需筆觸風格的圖片[2]。當然,這類方法極大受到單一風格的影響,很難擴展到其他風格或者更高層次的語義風格。
到20世紀初期,人們將NPR算法的主旨加以提煉,在更抽象的層面提出紋理遷移算法(Texture Transfer)。紋理遷移算法不再拘泥于繪畫的筆觸,轉(zhuǎn)而抽取圖像更抽象層面的紋理特征。所謂紋理特征即通過卷積、降采樣、Harris算子等方式從原圖像中提取出的能代表圖像某種特征信息的因子。提取到紋理特征后,不同的學者采用不同方式將特征融合進目標圖像中。具有代表性的工作,如Efros與Freeman等人引入了包含對應目標圖像紋理特征的對應表以約束紋理遷移過程[3];Hertzmann等人提出了圖像類比方法來實現(xiàn)遷移過程[4]。
然而,這些算法大都是采用非參數(shù)化的方法來實現(xiàn)風格遷移,雖然相比簡單的NPR算法有所提高,但仍然局限于較為潛層的特征遷移。因此,更具普適性的風格遷移算法呼之欲出。
2015年前后,隨著卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)的迅速崛起以及其在諸如圖像識別、自然語言處理等方向達成的巨大成就,圖像風格遷移領(lǐng)域也開始跟進時代技術(shù)的步伐。2016年,Gatys等人在前人工作的基礎(chǔ)上,提出了基于CNN的圖像遷移算法[5],開創(chuàng)了巨大的技術(shù)革新。該算法采用了著名的VGG卷積神經(jīng)網(wǎng)絡模型來提取圖像的風格特征,基于梯度下降方式來調(diào)整生成圖像。
具體而言,Gatys等人使用VGG模型分別提取出風格圖像與目標(內(nèi)容)圖像不同層級特征,其中越高的層級代表越抽象的語義特征。根據(jù)兩類特征,可以分別定義風格圖像與內(nèi)容圖像的損失函數(shù),進而定義結(jié)果圖片的總損失函數(shù):
其中,系數(shù)α與β的大小決定了結(jié)果圖片更傾向于風格化還是更傾向于保留原有結(jié)構(gòu)。訓練開始時,初始化結(jié)果圖片,將結(jié)果圖片中的每個像素值作為參數(shù),通過VGG提取出圖像的特征后依照上面的方法計算出損失函數(shù)值,再由梯度下降與反向傳播算法進行前向與反向的神經(jīng)網(wǎng)絡迭代。在一定次數(shù)的迭代過后結(jié)果圖像便逐漸收斂,得到所需要的效果。Gatys等人工作的結(jié)果可以從圖1中概覽(圖1中,A為目標圖像,B-F為由左下角作為風格圖像時對A圖像進行遷移的結(jié)果)。
Gatys等人發(fā)現(xiàn),一幅圖像中內(nèi)容與風格的特征是可以良好分離并表達的??梢元毩⒌夭倏v這兩種表示,以生成新的、具有感知意義的圖像。而調(diào)整損失函數(shù)中的比例或者選擇CNN中的不同特征層,也可以產(chǎn)生不同效果的圖片。
該算法一經(jīng)發(fā)表便引起了巨大轟動,他們突破了以往非參數(shù)化的特征提取方法,將卷積神經(jīng)網(wǎng)絡應用到圖像風格遷移中,并且達到了非常好的效果。然而,由于該模型需要對結(jié)果圖片的每個像素進行參數(shù)化迭代,在圖片分辨率較高的情況下,每次迭代所花費的代價較高,再加上該模型需要數(shù)百次的迭代才能成形,可見其還是存在較大的局限性。
1.3.1 風格遷移效率的優(yōu)化
為了解決Gatys模型效率低下的問題,Johnson與Ulyanov分別提出兩種不同解決方法。
相比于Gatys等人選擇對結(jié)果圖像進行參數(shù)優(yōu)化的方式,Johnson等人提出了前向傳播(Feed-forward)的方法,轉(zhuǎn)而變?yōu)閷δP瓦M行優(yōu)化[6]。具體而言,在實際開展遷移算法之前,先對風格圖像訓練出一個前向傳播的神經(jīng)網(wǎng)絡,每次需要完成風格遷移任務時只需將目標圖像作為輸入在已訓練好的神經(jīng)網(wǎng)絡上前向傳播計算一遍,即可以達到所需要的效果。此外,還創(chuàng)造性地提出了語義損失(Perceptual Losses)函數(shù)的概念,改進了包括Gatys等先前主要使用的逐像素損失方法,改為綜合語義信息計算圖片損失。
Ulyanov等人提出了另一種網(wǎng)絡結(jié)構(gòu)[7],它采取多尺度架構(gòu)作為生成網(wǎng)絡的輸入,生成網(wǎng)絡產(chǎn)生的目標圖像紋理信息將被輸入到已經(jīng)訓練好的解釋網(wǎng)絡中進行風格融合,最終得到目標圖像。此外他們還發(fā)現(xiàn)對單個圖片進行正規(guī)化而非對批量圖片進行正規(guī)化能夠顯著地提高風格化的質(zhì)量。
Johnson與Ulyanov的模型均極大地提升了Gatys模型的效率,其中Johnson模型能夠比Gatys快約3個數(shù)量級,Ulyanov模型能夠加速約500倍。這樣的優(yōu)化是顯著的,每張圖片的風格化可以在極短的時間內(nèi)實現(xiàn),因此可以將其應用到在線平臺或者視頻中。不過,由于這兩個模型都需要預先針對某個風格圖像提前訓練好前向網(wǎng)絡與解釋網(wǎng)絡,因此每次要對新的風格進行遷移時需要提前訓練一輪,故有其局限性。
圖1 Gatys等人基于CNN的圖像遷移算法的相關(guān)圖像[5]
1.3.2 多風格遷移模型
在Johnson與Ulyanov等人研究的基礎(chǔ)上,學者們又提出了可以適用多風格遷移的單個模型。具有代表性的有Dumoulin等人的工作與Chen等人提出的Style Bank方法。
Dumoulin等人發(fā)現(xiàn),在Johnson等人所提出模型的基礎(chǔ)上,保持卷積參數(shù)不變,只對其進行放縮與移位,能夠通過不同的適配方式對不同風格圖像進行遷移[8]。具體而言,他們提出了條件實例歸一化方法,通過具有不同仿射參數(shù)的特征統(tǒng)計歸一化,將輸入圖像歸一化到不同的遷移風格。當然,Dumoulin等人的模型還可以實現(xiàn)不同風格的平滑過渡,即可以設(shè)置不同風格所占比重,對內(nèi)容圖像進行混合風格遷移。
Chen等人的思路則是通過不同的網(wǎng)絡分量學習對應的內(nèi)容與風格信息,從而精準地將一幅圖像的內(nèi)容與風格特征分離開來[9]。他們提出了風格庫(Style Bank)的概念,即CNN的一個中間層。每種風格都由風格庫中的一系列參數(shù)所確定,網(wǎng)絡中的其余部分則用于學習內(nèi)容信息,這部分信息將被所有風格共享。此外,Chen等人的工作還可以支持圖像的不同區(qū)域?qū)Σ煌娘L格進行遷移操作,也是相比于原先風格遷移算法的另一個突破。
Dumoulin與Chen等人的模型一方面突破了Johnson與Ulyanov模型每次訓練只能對一種風格進行遷移的限制,可以同時訓練約50種風格。一方面又取得了混合風格遷移以及區(qū)域風格遷移的額外收獲,已經(jīng)基本滿足了大部分應用場景的需求。不過,作為代價,其風格化效果與Gatys模型相比略顯遜色。
1.3.3 任意風格遷移模型
盡管Dumoulin與Chen的模型能夠適用于大部分的情況,但由于對于一組新的風格,這類模型仍然需要重新進行訓練,產(chǎn)生較大的開銷,因此又有許多學者提出了對新風格不需要重新進行訓練的方法。其中最具代表性的有Chen與Schmidt的方法與Huang的方法。
Chen與Schmidt的模型核心是基于特征塊的方法[10]。首先從目標圖像與風格圖像中通過VGG等網(wǎng)絡各提取出一系列特征(稱作特征塊),通過匹配最相似的內(nèi)容與風格特征塊,從而重新構(gòu)建特征塊對應關(guān)系,從而達到風格化的效果。這種方法能夠無須事先對風格圖像訓練也能夠?qū)崿F(xiàn)一定的遷移化效果,不過由于某些內(nèi)容特征塊可能被簡單地替換為非目標語義的風格特征塊,因此其風格化結(jié)果從視覺上看并不是特別優(yōu)秀。
Huang等人對Dumoulin模型里條件實例歸一化方程加以修改,通過VGG提取的風格和內(nèi)容特征,在大規(guī)模風格和內(nèi)容圖上進行訓練,從而能夠直接將圖像中的內(nèi)容歸一化為不同風格[11]。不過,Huang等人的模型主要依靠數(shù)據(jù)驅(qū)動,難以擴展到非直接可見的風格特征上。另外,在處理細節(jié)較為豐富的特征與局部結(jié)構(gòu)等較復雜的風格時該模型的表現(xiàn)也不盡如人意。
以上基于卷積神經(jīng)網(wǎng)絡的圖像遷移算法一些代表性的工作,這里引用Jing與Yang等對所有算法處理結(jié)果的橫向?qū)Ρ冉Y(jié)果[1],如圖2所示(圖2中,第一行為輸入的內(nèi)容圖像與風格圖像,其后每行分別為對應模型的處理結(jié)果)。
圖2 圖像風格遷移幾類代表性模型的結(jié)果比較
1.3.4圖像風格遷移算法的其他應用
關(guān)于圖像風格遷移算法,除了最根本性的畫作風格遷移,也可以應用到諸多其他的方面。在上面幾類基本處理方法逐漸完善以后,人們開始關(guān)注該類算法的擴展性。
Gatys等人預見了圖像風格遷移的更多可能。他們提出了圖像風格遷移在照片寫實風格遷移中的應用[5]。通過將一張紐約天際線的夜景照片作為風格圖像,將倫敦天際線的白天照片作為目標圖像,經(jīng)過圖像風格遷移算法處理后,可以得到一張較為逼真的倫敦天際線夜景照片。這為后來的研究者打開了思路,也激發(fā)了他們探索圖像風格遷移在更多方向的可行性。
Huang等人在其多風格模型的基礎(chǔ)上,提出了圖像翻譯(Image-to-Image Translation)的應用場景,即將一張圖片映射到不同的語境域中[12]。例如,給出四張典型的春、夏、秋、冬四季照片,對任意一張照片,通過風格遷移方法,可以在保持原照片風景主體內(nèi)容不變的前提下,加入對應季節(jié)的主要特征,使得照片猶如在該季節(jié)拍攝(圖3)。類似地,也有游戲場景與真實場景之間的翻譯、動物形態(tài)之間的翻譯等。而Yang等人基于風格遷移的原理,發(fā)展出字體及字體特效遷移的方法[13],對于漢字、字母等字體的制作提供了極大便利(圖4)。此外,Zhang等人利用本方法原理,開發(fā)出了對動漫人物線稿上色的算法[14],對于動畫與漫畫創(chuàng)作者是巨大的生產(chǎn)力提升。
圖3 夏、冬季節(jié)間的圖像翻譯[12]
圖4 字體風格遷移效果[13]
學者們也將此算法利用到了實際問題的解決上。代表性的工作,如Lin等人利用生成式對抗網(wǎng)絡(Generative Adversarial Networks,GAN)開發(fā)出了白天與黑夜之間圖像遷移的算法[15],將其用在夜晚車輛檢測上效果顯著,對自動駕駛等領(lǐng)域有不可忽視的促進作用。
基于卷積神經(jīng)網(wǎng)絡的圖像風格遷移算法經(jīng)過大約五年的發(fā)展,基本框架已經(jīng)趨于完善。然而,目前的NST模型還遠非達到成熟的狀態(tài)。
首先,在研究方向上大多數(shù)學者都選擇在性能上進行考量而忽視了遷移質(zhì)量。從Gatys的基于圖像優(yōu)化到Johnson與Ulyanov的快速單風格遷移,再到Dumoulin與Chen的快速多風格遷移以及Tian與Huang的快速任意風格遷移,單模型的效率與可擴展性不斷提高。
就遷移質(zhì)量與觀感而言,在后期工作里有所下降。這主要是由于風格遷移結(jié)果的優(yōu)劣本身是一個不完全定義的問題,其估計大多是經(jīng)驗性的,不存在一個界定明確的標準來評判各遷移結(jié)果孰優(yōu)孰劣。相比之下,性能的優(yōu)化作為可測量結(jié)果卻吸引了更多學者進行研究。針對這一問題,學術(shù)界目前亟須制定一個能夠被普遍性承認的風格遷移結(jié)果評判標準,從而促進對優(yōu)化遷移結(jié)果的研究。
其次,大多數(shù)模型存在特異性,即對于某些風格圖像模型能夠很好遷移,對另外一些風格圖像則有較大的差異。在圖像存在特定形態(tài)的噪聲時,許多模型也會受到不同程度上的干擾。因此,要實現(xiàn)普適性強、遷移性穩(wěn)定的模型還有很長的路要走。
另外,目前的工作仍局限于單張風格圖片的風格遷移,其語義層次還可以進一步提高。每個畫家雖然有風格各異的作品,但各畫作間有作者更為抽象的風格特征。如何從一個作者的多幅畫作中提取出其更高層的特征,并對結(jié)果圖片進行風格遷移,是當前值得探索的一個方向。再者,當前的風格遷移算法依然注重于如何從現(xiàn)有的畫作提煉出風格特征并進行遷移融合,如何使神經(jīng)網(wǎng)絡通過大規(guī)模的學習創(chuàng)造出一種新的、自己的獨特風格特征也是未來令人期待與振奮的研究思路。
總而言之,從最早的NPR算法起,人們開始追求讓計算機生成美妙的藝術(shù)風格,直到Gatys提出的風格遷移算法,許多人終于實現(xiàn)了夢寐以求的效果。正如Gatys所言:“類似于執(zhí)行生物視覺處理的神經(jīng)系統(tǒng)能夠?qū)L格與內(nèi)容精確地分開真令人著迷”,讓AI技術(shù)加入藝術(shù)的創(chuàng)造中,這是一件非常值得欣喜的事情。