国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于U-net 變體和分類器的動漫線稿風(fēng)格遷移

2022-07-29 06:54馮煜颋李志偉
智能計算機與應(yīng)用 2022年8期
關(guān)鍵詞:解碼器殘差梯度

馮煜颋,李志偉

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)

0 引言

素描或線稿藝術(shù)上色是一個有著巨大市場需求的研究領(lǐng)域。與強烈依賴紋理信息的普通照片上色不同,草圖上色更具挑戰(zhàn)性,因為草圖可能沒有紋理。在動漫、游戲這些產(chǎn)業(yè)中,大部分的作品都是通過素描或線稿來進行創(chuàng)作的,這就會耗費大量的時間和精力,因為需要人工去給這些線稿上色來達到人們想要的狀態(tài)。如果嘗試將某種繪畫風(fēng)格應(yīng)用到半成品的動漫線稿上,那么就可以省去不少多余的工作,比如用一個動漫的特定人物的某張圖片作為風(fēng)格參考圖像,并將這種顏色風(fēng)格應(yīng)用到人物的素描上。而圖像上色一般分為2 種:有引導(dǎo)上色和無引導(dǎo)上色。其中,無引導(dǎo)指的是全交由算法進行自動化上色,而有引導(dǎo)是在上色過程中有人為(其它參照)干預(yù),比如給出一幅風(fēng)格參考圖像或指定某一區(qū)域為特定顏色。本文提出的上色方法屬于一種有引導(dǎo)上色。

神經(jīng)風(fēng)格算法可以結(jié)合線稿圖和風(fēng)格圖生成優(yōu)秀的圖像,但是卻缺乏處理素描線稿的能力,生成的圖像遠未達到人工上色的預(yù)期效果。事實上,U-net和生成對抗網(wǎng)絡(luò)已獲證明在圖像上色方面有著很好的效果。Zhang 等人提出了一種二階段的線稿上色方法:第一階段是草稿階段,根據(jù)人工輸入顏色提示或是提供參考圖生成模擬合成草圖;第二階段是精修階段,通過Inception V1 網(wǎng)絡(luò)提取草圖的顏色特征和預(yù)先提示的顏色特征,來控制最終生成圖像的顏色風(fēng)格。Zhang 等人開發(fā)了線稿風(fēng)格遷移工具Style2paints,實現(xiàn)了線稿到彩色圖像的風(fēng)格遷移上色,根據(jù)自帶一些顏色風(fēng)格特征或是參考圖像可以進行快速的線稿上色。于是改進了一種殘差增強的U-net 來增加生成網(wǎng)絡(luò)學(xué)習(xí)特征圖的能力,結(jié)合輔助分類器對抗生成網(wǎng)絡(luò)(ACGAN)作為解決方案。這種前饋網(wǎng)絡(luò)能夠快速地合成繪畫,節(jié)省時間。另外,U-net 和條件GAN(CGAN)在沒有成對輸入和輸出信息的均衡量時性能會相對下降。因此,本文在原有的生成網(wǎng)絡(luò)基礎(chǔ)上附加了2 個指引解碼器來實現(xiàn)額外的損失。網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖1所示。

圖1 生成對抗網(wǎng)絡(luò)的整體結(jié)構(gòu)Fig.1 The overall structure of the generative adversarial network

生成網(wǎng)絡(luò)由殘差增強的U-net、分類器和指引解碼器組成;判別網(wǎng)絡(luò)由AC-GAN 進行改進,經(jīng)判別器處理后會輸出一個2 048 或4 096 維的特征向量對應(yīng)VGG 的特征向量(顏色風(fēng)格),而不再是原始GAN 的二分類值。全局的顏色風(fēng)格提示可以被看作是一個具有2 048 或4 096 個類的低級分類結(jié)果。

1 相關(guān)工作

生成對抗網(wǎng)絡(luò)(GANS)的出現(xiàn),在深度學(xué)習(xí)領(lǐng)域中日益受到廣大學(xué)者的關(guān)注。生成對抗模型通常是由一個生成器和一個判別器組成,其中生成器捕捉真實樣本的潛在分布,并且生成新的數(shù)據(jù)樣本;判別器往往是一個二值分類器,通過訓(xùn)練可以盡可能正確地從生成樣本中區(qū)分出真實樣本。利用判別器來引導(dǎo)生成器的訓(xùn)練,通過2 個模型之間的交替訓(xùn)練不斷進行對抗,最終使得生成模型能夠更好地完成生成任務(wù)。而隨著越來越多GANS 變體的出現(xiàn),GANS 在圖像的各個領(lǐng)域都取得了不錯的成果。在圖像上色領(lǐng)域中,GANS 同樣在主流算法中占據(jù)著至關(guān)重要的地位。目前,基于深度學(xué)習(xí)的自動著色模型大多采用GANS 體系結(jié)構(gòu)。

Lee 等人提出的動漫線稿自動上色算法是基于二次規(guī)劃圖匹配,但是這種基于參考圖的自動上色方法難度較大,原因在于線稿中人物姿態(tài)的變化,使得參考圖和線稿的一些區(qū)域無法對應(yīng)起來,給圖匹配算法帶來了極大挑戰(zhàn)。這種上色方法生成的彩色圖像因參考圖和線稿有些區(qū)域并不匹配,一些區(qū)域只能隨機上色,導(dǎo)致圖像的質(zhì)量很差。GAN 的出現(xiàn)使線稿基于參考圖上色逐漸變得可靠,在生成器和判別器的對抗式訓(xùn)練中,模型不斷學(xué)習(xí)并將線稿到對應(yīng)彩色圖像間的映射關(guān)系做了進一步優(yōu)化。

神經(jīng)風(fēng)格遷移,是通過基于最小化深度卷積層的格拉姆矩陣的差異的算法,可以將一張普通的照片賦予另外一種藝術(shù)作品風(fēng)格。然而,本文的目標是將風(fēng)格圖像和草圖相結(jié)合。事實上,從風(fēng)格圖像到草圖的神經(jīng)風(fēng)格遷移得到的最終圖像遠不是一幅正常的圖像,往往和風(fēng)格圖像有很大差異。

Pix2pix 是基于條件生成對抗網(wǎng)絡(luò)CGAN 的風(fēng)格遷移模型之一,在成對數(shù)據(jù)集的情況下,可以完成很多任務(wù)。如:將素描畫輪廓轉(zhuǎn)換成圖片,將黑夜場景轉(zhuǎn)換成白天場景,自動上色等等。但在實驗中發(fā)現(xiàn),網(wǎng)絡(luò)的輸出的質(zhì)量最終取決于輸入信息和輸出信息的差距程度。實際上,條件判別器很容易導(dǎo)致生成器過于關(guān)注草圖和繪畫之間的關(guān)系,因此,在某種程度上,忽略了繪畫的組成,導(dǎo)致不可避免的過擬合。

2 本文方法

2.1 增強型的殘差連接

本文提出的殘差連接 Enhanced residual connection,是對ResNet 中殘差模塊的一種改進。這種連接方式是SwishMod 集成殘差模塊的連接方式,SwishMod 包含了卷積層和激活函數(shù)。其殘差連接結(jié)構(gòu)如圖2 所示。

圖2 增強殘差連接方式Fig.2 Enhanced residual connection mode

本文圖2 中,表示輸入數(shù)據(jù),()表示殘差,()是殘差連接后的輸出,“”表示像素點對應(yīng)相加;()表示SwishMod 中卷積層的輸出,“·”表示像素點對應(yīng)相乘;()表示卷積層經(jīng)過非線性函數(shù)后的輸出,()是SwishMod 的輸出,“⊕”表示特征圖之間進行拼接,“()⊕()”是的最終輸出。

在殘差連接中,輸入數(shù)據(jù)沒有經(jīng)過處理就直接和殘差相加;而在SwishMod 中,對進行了處理,使用了函數(shù),該種設(shè)計優(yōu)勢就在于能夠控制數(shù)值的幅度,在深層網(wǎng)絡(luò)中可以保持數(shù)據(jù)幅度不會出現(xiàn)大的變化。此外,對Enhanced residual connection 中的卷積層使用了非線性,對于生成類的任務(wù)比有著更好的效果。

采用SwishMod 濾波輸入數(shù)據(jù),控制了輸入數(shù)據(jù)從底層到高層之間通過一個捷徑的特征圖傳輸,得到更精細和準確的顏色特征。

SwishMod 定義為:

SwishGatedBlock 的輸出為:

其中,()是模塊中的殘差部分,()是SwishMod 濾波后的信息,兩者拼接在一起輸出得到更精細的顏色特征。

2.2 生成網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)

U-net 雖然在圖像合成領(lǐng)域有著出色的表現(xiàn),能夠提取每個層次的特征圖像,一旦U-net 具備了能夠在低級層中處理問題的能力后,那么高級層就不會再去學(xué)習(xí)任何東西。如果訓(xùn)練一個U-net 來做一項簡單的工作、即復(fù)制圖像(如圖3 所示),當輸入和輸出相同時,損失值將立即降至0。因為第一層編碼器發(fā)現(xiàn),可以簡單地經(jīng)由跳過連接,將所有特征圖直接傳輸?shù)浇獯a器的最后一層,來最小化損失。在這種情況下,無論訓(xùn)練多少次,中間層都不會得到任何梯度。對于U-net 的解碼層來說,每一層的特征圖都是由更高層或是跳接層中獲得。在訓(xùn)練過程的每次迭代中,這些層選擇了經(jīng)過非線性激活其它層的輸出來最小化損失。當U-net 用高斯隨機數(shù)初始化網(wǎng)絡(luò)時,編碼器中第一層的輸出具有足夠的信息來表達完整的輸入映射,而解碼器中第二到最后一層的輸出似乎存在噪聲。因此,“懶惰的”U-net放棄了相對來說有噪聲的特征圖。

圖3 U-net 的跳接方式Fig.3 Skipped connection between U-net layers

網(wǎng)絡(luò)生成器網(wǎng)絡(luò)整體結(jié)構(gòu)是基于殘差增強U-net的變體(如圖4 所示),每個藍色模塊都是一個Enhanced residual connection,在下一個分辨率提取特征時,通過殘差增強可以得到更精細的特征。隨著等級的提高,分辨率也逐漸降低。該網(wǎng)絡(luò)也可以看做是左、右兩個分支,但是把同一個分辨率等級的左、右分支之間嵌入一個SwishMod,來濾波編碼路徑傳遞到解碼路徑的信息,而不再是原來的跳接。因此,SwishMod 在提高網(wǎng)絡(luò)收斂速度的同時,還能提高網(wǎng)絡(luò)的性能。在左側(cè)分支中,每個Enhanced residual connection 的輸出由殘差部分輸出的特征圖和經(jīng)過SwishMod 濾波的特征圖組成;而在右側(cè)分支中,每個Enhanced residual connection 的輸出是由殘差部分輸出的特征圖、經(jīng)過SwishMod 濾波的特征圖、以及對應(yīng)左側(cè)分支通過SwishMod 濾波的特征圖三部分組成。由此可見,經(jīng)過殘差增強的U-net,完全解決了U-net 在訓(xùn)練時中間層不會得到任何梯度的問題。

圖4 殘差增強U-net 層與層之間的連接Fig.4 The connections between residual enhanced U-net layers

此外,本文在生成器的結(jié)構(gòu)中增加了一個分類器,如圖5 所示。相對來說,1×1×256 的風(fēng)格提示不能夠滿足動漫線稿的顏色風(fēng)格,所以在VGG19 全連接層的輸出中不再使用激活函數(shù),則會得到更多的1×1×4 096 的顏色風(fēng)格提示。然而,對于一個新初始化的U-net,如果將4 096 維的特征向量直接添加到該層中,中間層的輸出噪聲可能會非常大。由于有噪聲的中間層會被U-net 放棄,因此這些層不能接收到任何梯度。

為了解決上述問題,本文在原有的生成網(wǎng)絡(luò)中附加了2 個解碼器(見圖5)。如果給每一層附加額外的損失,無論中間一層的輸出有多嘈雜,該層將永遠不會被U-Net 放棄,不會出現(xiàn)梯度消失的情況,從而會得到穩(wěn)定的梯度。通過向中間層添加一個有信息量和有具體內(nèi)容的噪聲提示,解決了原本網(wǎng)絡(luò)傳遞特征信息跳過中間層而導(dǎo)致訓(xùn)練時中間層梯度消失的問題。通過在“指引解碼器1”和“指引解碼器2”中實現(xiàn)了2 個額外的損失,因此就避免了中間層的梯度消失。

圖5 生成器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 The network structure of the generator

損失函數(shù)定義為:

此外,通過用灰度圖輸入位于中間層入口的指引解碼器,可以改善顏色的分布,讓顏色分布不會特別單一,因此最終的損失如下:

其中,()可以將轉(zhuǎn)換為灰度圖像。

2.3 判別網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)

繪畫是一項復(fù)雜的過程,需要人類考慮到色彩的選擇、構(gòu)圖和微調(diào),所有這些都需要一個藝術(shù)家專注于繪畫的整體方式。然而,條件鑒別器總是更傾向于關(guān)注素描線和顏色之間的關(guān)系,而不是全局信息。比如在Pixtopix 中使用的是條件鑒別器,生成器會產(chǎn)生強烈的抵抗,這就導(dǎo)致了最終的彩色圖像會出現(xiàn)顏色溢出和顏色混淆的結(jié)果。

在進行風(fēng)格遷移時,需要判別器具有判斷圖像的顏色風(fēng)格、并在風(fēng)格轉(zhuǎn)移時相應(yīng)地提供梯度的能力,因此選用了集成AC-GAN 的判別器。與ACGAN 判別器相比,本文判別器輸出不含二分類,只包含生成圖像的類標簽。具體而言,判別器的輸出為一個4 096 維的特征向量,與VGG 輸出特征向量的意義基本相同,可視為色彩風(fēng)格類別的分類結(jié)果。當判別器的輸入圖像為時,輸出向量接近于全為0;當判別器的輸入圖像為時,輸出向量接近于VGG19 的全連接層輸出的特征向量。

最終的損失函數(shù)定義為:

本文使用的歸一化函數(shù)如下:

最終目標函數(shù)為:

3 實驗分析

3.1 數(shù)據(jù)集

研究指出,由于目前還沒有一個動漫線稿和參考圖配對的數(shù)據(jù)集,本文使用的是訓(xùn)練好的VGG 網(wǎng)絡(luò)-ImageNet 圖片分類數(shù)據(jù)集。由于本文的生成網(wǎng)絡(luò)使用的是U-Net 網(wǎng)絡(luò),可以對任意形狀大小的圖片進行卷積操作,特別是任意大的圖片。因此,在圖像上色任務(wù)中,就可以對任意分辨率的灰度圖像進行上色。實驗數(shù)據(jù)隨機截取了ImageNet 圖片分類數(shù)據(jù)集中的5 000 幅匹配圖像進行訓(xùn)練,并將所有圖像分辨率都調(diào)整為256×256。

3.2 實驗結(jié)果

為了證明本文采用的2 個指引解碼器能夠解決訓(xùn)練時中間層梯度消失的問題,實驗對象分別采用2 個指引解碼器和無指引解碼器的上色模型;目標函數(shù)分別采用指引解碼器的額外損失和原GAN 的生成對抗損失。Style2color-Guide 使用了2 個指引解碼器的生成模型,生成模型的目標函數(shù)選擇了2個指引解碼器的額外損失作為目標函數(shù);Style2color-GAN不使用指引解碼器的生成模式,生成模型的目標函數(shù)采用原始GAN 的生成對抗損失。實驗結(jié)果如圖6 所示。由圖6 可見,Style2color-Guide 上色模型生成的彩色圖像有著更多的顏色層次,彩色圖像質(zhì)量優(yōu)于Style2color-GAN。此外,Style2color-Guide 生成的彩色圖像顏色風(fēng)格在細節(jié)上更接近于風(fēng)格圖像,而Style2color-GAN 在細節(jié)上的表現(xiàn)依然欠佳(如圖6 中眼睛的顏色部分)。

圖6 2 種方法結(jié)果圖對比Fig.6 Results of two coloring methods

為了驗證本文方法中判別器和生成器都能學(xué)習(xí)到深層次的顏色特征、同時訓(xùn)練時不會有中間梯度消失,將本文方法與Style2paints 方法進行了對比,對比結(jié)果如圖 7 所示。由圖 7 可以看出,Style2paints 過于追求風(fēng)格遷移,在很多區(qū)域的顏色都出現(xiàn)了溢出現(xiàn)象,而本文方法生成的圖像在視覺上更符合審美觀念,同時也能生成更精細的顏色特征,顏色分布不會混淆,算法生成的圖像有著更高的視覺質(zhì)量和更加自然的色彩梯度。

圖7 本文方法和Style2paints 生成圖像對比Fig.7 Results of the proposed method and Style2paints

3.3 定量分析

從上色結(jié)果可以直觀地看出,Style2color-Guide的上色效果相比Style2color-GAN 的上色效果更加細膩連貫。因為2 個上色模型結(jié)構(gòu)幾乎一致,進一步采用(Frechet Inception Distance)指標來評價最終生成的彩色圖像的質(zhì)量。指標的實驗結(jié)果見表1。由此可見,Style2color-Guide 生成的彩色圖像質(zhì)量略優(yōu)于Style2color-GAN 生成的彩色圖像。對于動漫線稿顏色遷移來說,2 種指引解碼器額外實現(xiàn)的損失函數(shù)效果不僅比傳統(tǒng)GAN 生成的對抗損失效果更好,還能避免網(wǎng)絡(luò)訓(xùn)練時梯度消失的問題。

表1 Style2color-Guide 和Style2color-GAN 的實驗結(jié)果Tab.1 Results of Style2color-Guide and Style2color-GAN

此外,為了進一步證明本文方法的優(yōu)越性,采用峰值信噪比()、相似結(jié)構(gòu)性()、特征相似度()三種常規(guī)評價圖像質(zhì)量的方法,評價本文算法和現(xiàn)在流行的Style2paints 算法生成的彩色圖像質(zhì)量(清晰度)和色彩多樣性,結(jié)果見表2。由表2 可見,本文方法在所有指標上都獲得了較好的表現(xiàn),說明這種殘差增強型的生成網(wǎng)絡(luò)能夠解決U-net訓(xùn)練時中間層梯度消失的問題。

表2 本文方法和Style2paints 的實驗結(jié)果Tab.2 Results of the proposed method and Style2paints

4 結(jié)束語

本文提出了一種集成U-net 變體和分類器的線稿風(fēng)格遷移模型。通過殘差增強的U-net 變體能夠更好地傳遞顏色特征圖信息,避免了U-net 訓(xùn)練時中間層梯度容易消失的問題,生成的彩色圖像不會出現(xiàn)顏色混淆和顏色溢出的問題。同時引入2 個指引解碼器來附加2 個損失,通過這2 個損失來訓(xùn)練生成網(wǎng)絡(luò),取代了原來的生成對抗的訓(xùn)練方式,使得網(wǎng)絡(luò)模型能夠更多地聚焦于全局信息、而不再關(guān)注顏色和線條的關(guān)系。經(jīng)過實驗證明,本文算法比Style2paints 在輸出的結(jié)果上有著更高的顏色質(zhì)量和更加平滑的顏色梯度,滿足了人們的藝術(shù)審美需求。

本文的不足在于VGG 的分類是ImageNet 分類,只能使用訓(xùn)練好的VGG,如果可以找到或者制作一個龐大的線稿匹配數(shù)據(jù)自行訓(xùn)練,則網(wǎng)絡(luò)的訓(xùn)練效果會更趨完善,甚至于生成的彩色圖像會完全接近人工上色的效果。

猜你喜歡
解碼器殘差梯度
多級計分測驗中基于殘差統(tǒng)計量的被試擬合研究*
用于處理不努力作答的標準化殘差系列方法和混合多層模型法的比較*
基于Android環(huán)境下的數(shù)據(jù)包校驗技術(shù)分析
一個具梯度項的p-Laplace 方程弱解的存在性
內(nèi)容、形式與表達——有梯度的語言教學(xué)策略研究
航磁梯度數(shù)據(jù)實測與計算對比研究
淺談SCOPUS解碼器IRD—2600系列常用操作及故障處理
做一個二進制解碼器
組合常見模型梯度設(shè)置問題
測量數(shù)據(jù)的殘差分析法
古浪县| 綦江县| 上思县| 六盘水市| 中西区| 彭山县| 三门县| 乌什县| 雅江县| 公主岭市| 疏勒县| 九江县| 西充县| 贵州省| 东兴市| 常德市| 洪江市| 治县。| 湖南省| 聂拉木县| 平利县| 梁河县| 商河县| 吴忠市| 章丘市| 西城区| 鄂温| 措美县| 临桂县| 阿巴嘎旗| 通江县| 积石山| 贺州市| 阿克陶县| 大安市| 封开县| 武威市| 时尚| 高陵县| 丹江口市| 苍南县|