馮煜颋,李志偉
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
素描或線稿藝術(shù)上色是一個有著巨大市場需求的研究領(lǐng)域。與強烈依賴紋理信息的普通照片上色不同,草圖上色更具挑戰(zhàn)性,因為草圖可能沒有紋理。在動漫、游戲這些產(chǎn)業(yè)中,大部分的作品都是通過素描或線稿來進行創(chuàng)作的,這就會耗費大量的時間和精力,因為需要人工去給這些線稿上色來達到人們想要的狀態(tài)。如果嘗試將某種繪畫風(fēng)格應(yīng)用到半成品的動漫線稿上,那么就可以省去不少多余的工作,比如用一個動漫的特定人物的某張圖片作為風(fēng)格參考圖像,并將這種顏色風(fēng)格應(yīng)用到人物的素描上。而圖像上色一般分為2 種:有引導(dǎo)上色和無引導(dǎo)上色。其中,無引導(dǎo)指的是全交由算法進行自動化上色,而有引導(dǎo)是在上色過程中有人為(其它參照)干預(yù),比如給出一幅風(fēng)格參考圖像或指定某一區(qū)域為特定顏色。本文提出的上色方法屬于一種有引導(dǎo)上色。
神經(jīng)風(fēng)格算法可以結(jié)合線稿圖和風(fēng)格圖生成優(yōu)秀的圖像,但是卻缺乏處理素描線稿的能力,生成的圖像遠未達到人工上色的預(yù)期效果。事實上,U-net和生成對抗網(wǎng)絡(luò)已獲證明在圖像上色方面有著很好的效果。Zhang 等人提出了一種二階段的線稿上色方法:第一階段是草稿階段,根據(jù)人工輸入顏色提示或是提供參考圖生成模擬合成草圖;第二階段是精修階段,通過Inception V1 網(wǎng)絡(luò)提取草圖的顏色特征和預(yù)先提示的顏色特征,來控制最終生成圖像的顏色風(fēng)格。Zhang 等人開發(fā)了線稿風(fēng)格遷移工具Style2paints,實現(xiàn)了線稿到彩色圖像的風(fēng)格遷移上色,根據(jù)自帶一些顏色風(fēng)格特征或是參考圖像可以進行快速的線稿上色。于是改進了一種殘差增強的U-net 來增加生成網(wǎng)絡(luò)學(xué)習(xí)特征圖的能力,結(jié)合輔助分類器對抗生成網(wǎng)絡(luò)(ACGAN)作為解決方案。這種前饋網(wǎng)絡(luò)能夠快速地合成繪畫,節(jié)省時間。另外,U-net 和條件GAN(CGAN)在沒有成對輸入和輸出信息的均衡量時性能會相對下降。因此,本文在原有的生成網(wǎng)絡(luò)基礎(chǔ)上附加了2 個指引解碼器來實現(xiàn)額外的損失。網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖1所示。
圖1 生成對抗網(wǎng)絡(luò)的整體結(jié)構(gòu)Fig.1 The overall structure of the generative adversarial network
生成網(wǎng)絡(luò)由殘差增強的U-net、分類器和指引解碼器組成;判別網(wǎng)絡(luò)由AC-GAN 進行改進,經(jīng)判別器處理后會輸出一個2 048 或4 096 維的特征向量對應(yīng)VGG 的特征向量(顏色風(fēng)格),而不再是原始GAN 的二分類值。全局的顏色風(fēng)格提示可以被看作是一個具有2 048 或4 096 個類的低級分類結(jié)果。
生成對抗網(wǎng)絡(luò)(GANS)的出現(xiàn),在深度學(xué)習(xí)領(lǐng)域中日益受到廣大學(xué)者的關(guān)注。生成對抗模型通常是由一個生成器和一個判別器組成,其中生成器捕捉真實樣本的潛在分布,并且生成新的數(shù)據(jù)樣本;判別器往往是一個二值分類器,通過訓(xùn)練可以盡可能正確地從生成樣本中區(qū)分出真實樣本。利用判別器來引導(dǎo)生成器的訓(xùn)練,通過2 個模型之間的交替訓(xùn)練不斷進行對抗,最終使得生成模型能夠更好地完成生成任務(wù)。而隨著越來越多GANS 變體的出現(xiàn),GANS 在圖像的各個領(lǐng)域都取得了不錯的成果。在圖像上色領(lǐng)域中,GANS 同樣在主流算法中占據(jù)著至關(guān)重要的地位。目前,基于深度學(xué)習(xí)的自動著色模型大多采用GANS 體系結(jié)構(gòu)。
Lee 等人提出的動漫線稿自動上色算法是基于二次規(guī)劃圖匹配,但是這種基于參考圖的自動上色方法難度較大,原因在于線稿中人物姿態(tài)的變化,使得參考圖和線稿的一些區(qū)域無法對應(yīng)起來,給圖匹配算法帶來了極大挑戰(zhàn)。這種上色方法生成的彩色圖像因參考圖和線稿有些區(qū)域并不匹配,一些區(qū)域只能隨機上色,導(dǎo)致圖像的質(zhì)量很差。GAN 的出現(xiàn)使線稿基于參考圖上色逐漸變得可靠,在生成器和判別器的對抗式訓(xùn)練中,模型不斷學(xué)習(xí)并將線稿到對應(yīng)彩色圖像間的映射關(guān)系做了進一步優(yōu)化。
神經(jīng)風(fēng)格遷移,是通過基于最小化深度卷積層的格拉姆矩陣的差異的算法,可以將一張普通的照片賦予另外一種藝術(shù)作品風(fēng)格。然而,本文的目標是將風(fēng)格圖像和草圖相結(jié)合。事實上,從風(fēng)格圖像到草圖的神經(jīng)風(fēng)格遷移得到的最終圖像遠不是一幅正常的圖像,往往和風(fēng)格圖像有很大差異。
Pix2pix 是基于條件生成對抗網(wǎng)絡(luò)CGAN 的風(fēng)格遷移模型之一,在成對數(shù)據(jù)集的情況下,可以完成很多任務(wù)。如:將素描畫輪廓轉(zhuǎn)換成圖片,將黑夜場景轉(zhuǎn)換成白天場景,自動上色等等。但在實驗中發(fā)現(xiàn),網(wǎng)絡(luò)的輸出的質(zhì)量最終取決于輸入信息和輸出信息的差距程度。實際上,條件判別器很容易導(dǎo)致生成器過于關(guān)注草圖和繪畫之間的關(guān)系,因此,在某種程度上,忽略了繪畫的組成,導(dǎo)致不可避免的過擬合。
本文提出的殘差連接 Enhanced residual connection,是對ResNet 中殘差模塊的一種改進。這種連接方式是SwishMod 集成殘差模塊的連接方式,SwishMod 包含了卷積層和激活函數(shù)。其殘差連接結(jié)構(gòu)如圖2 所示。
圖2 增強殘差連接方式Fig.2 Enhanced residual connection mode
本文圖2 中,表示輸入數(shù)據(jù),()表示殘差,()是殘差連接后的輸出,“”表示像素點對應(yīng)相加;()表示SwishMod 中卷積層的輸出,“·”表示像素點對應(yīng)相乘;()表示卷積層經(jīng)過非線性函數(shù)后的輸出,()是SwishMod 的輸出,“⊕”表示特征圖之間進行拼接,“()⊕()”是的最終輸出。
在殘差連接中,輸入數(shù)據(jù)沒有經(jīng)過處理就直接和殘差相加;而在SwishMod 中,對進行了處理,使用了函數(shù),該種設(shè)計優(yōu)勢就在于能夠控制數(shù)值的幅度,在深層網(wǎng)絡(luò)中可以保持數(shù)據(jù)幅度不會出現(xiàn)大的變化。此外,對Enhanced residual connection 中的卷積層使用了非線性,對于生成類的任務(wù)比有著更好的效果。
采用SwishMod 濾波輸入數(shù)據(jù),控制了輸入數(shù)據(jù)從底層到高層之間通過一個捷徑的特征圖傳輸,得到更精細和準確的顏色特征。
SwishMod 定義為:
SwishGatedBlock 的輸出為:
其中,()是模塊中的殘差部分,()是SwishMod 濾波后的信息,兩者拼接在一起輸出得到更精細的顏色特征。
U-net 雖然在圖像合成領(lǐng)域有著出色的表現(xiàn),能夠提取每個層次的特征圖像,一旦U-net 具備了能夠在低級層中處理問題的能力后,那么高級層就不會再去學(xué)習(xí)任何東西。如果訓(xùn)練一個U-net 來做一項簡單的工作、即復(fù)制圖像(如圖3 所示),當輸入和輸出相同時,損失值將立即降至0。因為第一層編碼器發(fā)現(xiàn),可以簡單地經(jīng)由跳過連接,將所有特征圖直接傳輸?shù)浇獯a器的最后一層,來最小化損失。在這種情況下,無論訓(xùn)練多少次,中間層都不會得到任何梯度。對于U-net 的解碼層來說,每一層的特征圖都是由更高層或是跳接層中獲得。在訓(xùn)練過程的每次迭代中,這些層選擇了經(jīng)過非線性激活其它層的輸出來最小化損失。當U-net 用高斯隨機數(shù)初始化網(wǎng)絡(luò)時,編碼器中第一層的輸出具有足夠的信息來表達完整的輸入映射,而解碼器中第二到最后一層的輸出似乎存在噪聲。因此,“懶惰的”U-net放棄了相對來說有噪聲的特征圖。
圖3 U-net 的跳接方式Fig.3 Skipped connection between U-net layers
網(wǎng)絡(luò)生成器網(wǎng)絡(luò)整體結(jié)構(gòu)是基于殘差增強U-net的變體(如圖4 所示),每個藍色模塊都是一個Enhanced residual connection,在下一個分辨率提取特征時,通過殘差增強可以得到更精細的特征。隨著等級的提高,分辨率也逐漸降低。該網(wǎng)絡(luò)也可以看做是左、右兩個分支,但是把同一個分辨率等級的左、右分支之間嵌入一個SwishMod,來濾波編碼路徑傳遞到解碼路徑的信息,而不再是原來的跳接。因此,SwishMod 在提高網(wǎng)絡(luò)收斂速度的同時,還能提高網(wǎng)絡(luò)的性能。在左側(cè)分支中,每個Enhanced residual connection 的輸出由殘差部分輸出的特征圖和經(jīng)過SwishMod 濾波的特征圖組成;而在右側(cè)分支中,每個Enhanced residual connection 的輸出是由殘差部分輸出的特征圖、經(jīng)過SwishMod 濾波的特征圖、以及對應(yīng)左側(cè)分支通過SwishMod 濾波的特征圖三部分組成。由此可見,經(jīng)過殘差增強的U-net,完全解決了U-net 在訓(xùn)練時中間層不會得到任何梯度的問題。
圖4 殘差增強U-net 層與層之間的連接Fig.4 The connections between residual enhanced U-net layers
此外,本文在生成器的結(jié)構(gòu)中增加了一個分類器,如圖5 所示。相對來說,1×1×256 的風(fēng)格提示不能夠滿足動漫線稿的顏色風(fēng)格,所以在VGG19 全連接層的輸出中不再使用激活函數(shù),則會得到更多的1×1×4 096 的顏色風(fēng)格提示。然而,對于一個新初始化的U-net,如果將4 096 維的特征向量直接添加到該層中,中間層的輸出噪聲可能會非常大。由于有噪聲的中間層會被U-net 放棄,因此這些層不能接收到任何梯度。
為了解決上述問題,本文在原有的生成網(wǎng)絡(luò)中附加了2 個解碼器(見圖5)。如果給每一層附加額外的損失,無論中間一層的輸出有多嘈雜,該層將永遠不會被U-Net 放棄,不會出現(xiàn)梯度消失的情況,從而會得到穩(wěn)定的梯度。通過向中間層添加一個有信息量和有具體內(nèi)容的噪聲提示,解決了原本網(wǎng)絡(luò)傳遞特征信息跳過中間層而導(dǎo)致訓(xùn)練時中間層梯度消失的問題。通過在“指引解碼器1”和“指引解碼器2”中實現(xiàn)了2 個額外的損失,因此就避免了中間層的梯度消失。
圖5 生成器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 The network structure of the generator
損失函數(shù)定義為:
此外,通過用灰度圖輸入位于中間層入口的指引解碼器,可以改善顏色的分布,讓顏色分布不會特別單一,因此最終的損失如下:
其中,()可以將轉(zhuǎn)換為灰度圖像。
繪畫是一項復(fù)雜的過程,需要人類考慮到色彩的選擇、構(gòu)圖和微調(diào),所有這些都需要一個藝術(shù)家專注于繪畫的整體方式。然而,條件鑒別器總是更傾向于關(guān)注素描線和顏色之間的關(guān)系,而不是全局信息。比如在Pixtopix 中使用的是條件鑒別器,生成器會產(chǎn)生強烈的抵抗,這就導(dǎo)致了最終的彩色圖像會出現(xiàn)顏色溢出和顏色混淆的結(jié)果。
在進行風(fēng)格遷移時,需要判別器具有判斷圖像的顏色風(fēng)格、并在風(fēng)格轉(zhuǎn)移時相應(yīng)地提供梯度的能力,因此選用了集成AC-GAN 的判別器。與ACGAN 判別器相比,本文判別器輸出不含二分類,只包含生成圖像的類標簽。具體而言,判別器的輸出為一個4 096 維的特征向量,與VGG 輸出特征向量的意義基本相同,可視為色彩風(fēng)格類別的分類結(jié)果。當判別器的輸入圖像為時,輸出向量接近于全為0;當判別器的輸入圖像為時,輸出向量接近于VGG19 的全連接層輸出的特征向量。
最終的損失函數(shù)定義為:
本文使用的歸一化函數(shù)如下:
最終目標函數(shù)為:
研究指出,由于目前還沒有一個動漫線稿和參考圖配對的數(shù)據(jù)集,本文使用的是訓(xùn)練好的VGG 網(wǎng)絡(luò)-ImageNet 圖片分類數(shù)據(jù)集。由于本文的生成網(wǎng)絡(luò)使用的是U-Net 網(wǎng)絡(luò),可以對任意形狀大小的圖片進行卷積操作,特別是任意大的圖片。因此,在圖像上色任務(wù)中,就可以對任意分辨率的灰度圖像進行上色。實驗數(shù)據(jù)隨機截取了ImageNet 圖片分類數(shù)據(jù)集中的5 000 幅匹配圖像進行訓(xùn)練,并將所有圖像分辨率都調(diào)整為256×256。
為了證明本文采用的2 個指引解碼器能夠解決訓(xùn)練時中間層梯度消失的問題,實驗對象分別采用2 個指引解碼器和無指引解碼器的上色模型;目標函數(shù)分別采用指引解碼器的額外損失和原GAN 的生成對抗損失。Style2color-Guide 使用了2 個指引解碼器的生成模型,生成模型的目標函數(shù)選擇了2個指引解碼器的額外損失作為目標函數(shù);Style2color-GAN不使用指引解碼器的生成模式,生成模型的目標函數(shù)采用原始GAN 的生成對抗損失。實驗結(jié)果如圖6 所示。由圖6 可見,Style2color-Guide 上色模型生成的彩色圖像有著更多的顏色層次,彩色圖像質(zhì)量優(yōu)于Style2color-GAN。此外,Style2color-Guide 生成的彩色圖像顏色風(fēng)格在細節(jié)上更接近于風(fēng)格圖像,而Style2color-GAN 在細節(jié)上的表現(xiàn)依然欠佳(如圖6 中眼睛的顏色部分)。
圖6 2 種方法結(jié)果圖對比Fig.6 Results of two coloring methods
為了驗證本文方法中判別器和生成器都能學(xué)習(xí)到深層次的顏色特征、同時訓(xùn)練時不會有中間梯度消失,將本文方法與Style2paints 方法進行了對比,對比結(jié)果如圖 7 所示。由圖 7 可以看出,Style2paints 過于追求風(fēng)格遷移,在很多區(qū)域的顏色都出現(xiàn)了溢出現(xiàn)象,而本文方法生成的圖像在視覺上更符合審美觀念,同時也能生成更精細的顏色特征,顏色分布不會混淆,算法生成的圖像有著更高的視覺質(zhì)量和更加自然的色彩梯度。
圖7 本文方法和Style2paints 生成圖像對比Fig.7 Results of the proposed method and Style2paints
從上色結(jié)果可以直觀地看出,Style2color-Guide的上色效果相比Style2color-GAN 的上色效果更加細膩連貫。因為2 個上色模型結(jié)構(gòu)幾乎一致,進一步采用(Frechet Inception Distance)指標來評價最終生成的彩色圖像的質(zhì)量。指標的實驗結(jié)果見表1。由此可見,Style2color-Guide 生成的彩色圖像質(zhì)量略優(yōu)于Style2color-GAN 生成的彩色圖像。對于動漫線稿顏色遷移來說,2 種指引解碼器額外實現(xiàn)的損失函數(shù)效果不僅比傳統(tǒng)GAN 生成的對抗損失效果更好,還能避免網(wǎng)絡(luò)訓(xùn)練時梯度消失的問題。
表1 Style2color-Guide 和Style2color-GAN 的實驗結(jié)果Tab.1 Results of Style2color-Guide and Style2color-GAN
此外,為了進一步證明本文方法的優(yōu)越性,采用峰值信噪比()、相似結(jié)構(gòu)性()、特征相似度()三種常規(guī)評價圖像質(zhì)量的方法,評價本文算法和現(xiàn)在流行的Style2paints 算法生成的彩色圖像質(zhì)量(清晰度)和色彩多樣性,結(jié)果見表2。由表2 可見,本文方法在所有指標上都獲得了較好的表現(xiàn),說明這種殘差增強型的生成網(wǎng)絡(luò)能夠解決U-net訓(xùn)練時中間層梯度消失的問題。
表2 本文方法和Style2paints 的實驗結(jié)果Tab.2 Results of the proposed method and Style2paints
本文提出了一種集成U-net 變體和分類器的線稿風(fēng)格遷移模型。通過殘差增強的U-net 變體能夠更好地傳遞顏色特征圖信息,避免了U-net 訓(xùn)練時中間層梯度容易消失的問題,生成的彩色圖像不會出現(xiàn)顏色混淆和顏色溢出的問題。同時引入2 個指引解碼器來附加2 個損失,通過這2 個損失來訓(xùn)練生成網(wǎng)絡(luò),取代了原來的生成對抗的訓(xùn)練方式,使得網(wǎng)絡(luò)模型能夠更多地聚焦于全局信息、而不再關(guān)注顏色和線條的關(guān)系。經(jīng)過實驗證明,本文算法比Style2paints 在輸出的結(jié)果上有著更高的顏色質(zhì)量和更加平滑的顏色梯度,滿足了人們的藝術(shù)審美需求。
本文的不足在于VGG 的分類是ImageNet 分類,只能使用訓(xùn)練好的VGG,如果可以找到或者制作一個龐大的線稿匹配數(shù)據(jù)自行訓(xùn)練,則網(wǎng)絡(luò)的訓(xùn)練效果會更趨完善,甚至于生成的彩色圖像會完全接近人工上色的效果。