基于St yl eGAN的動(dòng)漫圖像生成

2021-08-30 06:20:34董虎勝劉誠(chéng)志朱晶徐蘇安

甘肅科技縱橫 2021年7期

董虎勝，劉誠(chéng)志，朱晶，徐蘇安

（蘇州市職業(yè)大學(xué) 計(jì)算機(jī)工程學(xué)院，江蘇蘇州 215104）

0 引言

動(dòng)漫是人們廣為喜愛的一種藝術(shù)表現(xiàn)形式，一些經(jīng)典的動(dòng)漫人物形象更是成為大家共同的美好回憶。在QQ、微信、釘釘?shù)雀鞣N社交平臺(tái)上也有許多用戶喜歡使用個(gè)性化的昵稱與動(dòng)漫頭像來(lái)彰顯自己的愛好或是風(fēng)格。在一些場(chǎng)合中，也需要從真實(shí)圖像獲得動(dòng)漫風(fēng)格圖像。然而，在這些用戶群體中大部分人員卻不一定具備動(dòng)漫圖像的創(chuàng)作能力，根據(jù)特定要求生成動(dòng)漫風(fēng)格的目標(biāo)圖像就成為他們的現(xiàn)實(shí)需求。

近年來(lái)深度學(xué)習(xí)的進(jìn)展為人們使用計(jì)算機(jī)生成動(dòng)漫風(fēng)格圖像提供了可行的解決方案。由KingMa等［1］提出的變分自動(dòng)編碼器（Variational AutoEncoder，VAE）就具有自動(dòng)生成圖像的功能，但是存在生成圖像比較模糊與目標(biāo)圖像隨機(jī)的不足。隨著具有能夠捕捉數(shù)據(jù)內(nèi)在分布規(guī)律的對(duì)抗生成網(wǎng)絡(luò)（Generative Adversarial Net，GAN）［3］的提出，使得生成更為清晰的圖像成為可能［3，4］。但是，GAN模型同樣存在目標(biāo)不可控的問題，而且在訓(xùn)練上也較為困難。

通過對(duì)GAN的改進(jìn)，相繼提出了條件對(duì)抗生成網(wǎng)絡(luò)（Conditional Generative Adversarial Net，CGAN）［5］與深度卷積對(duì)抗生成網(wǎng)絡(luò)（Deep Convolutional GAN，DC?GAN）［6］等模型，模型能夠生成指定類別的圖像。尤其是最近基于風(fēng)格的對(duì)抗生成網(wǎng)絡(luò)（Style based GAN，StyleGAN）［7］的提出，從隨機(jī)噪聲生成具有特定細(xì)節(jié)與整體目標(biāo)風(fēng)格的圖像獲得明顯的進(jìn)步。本論述首先對(duì)StyleGAN的工作機(jī)制進(jìn)行了細(xì)致的分析研究，并將其進(jìn)一步應(yīng)用到動(dòng)漫圖像的生成上，實(shí)驗(yàn)中生成的動(dòng)漫圖像結(jié)果驗(yàn)證了StyleGAN優(yōu)秀的圖像生成質(zhì)量與風(fēng)格可控性。

1 生成對(duì)抗網(wǎng)絡(luò)模型

生成對(duì)抗網(wǎng)絡(luò)GAN學(xué)習(xí)模型由生成器G和判別器D兩個(gè)基本的模塊構(gòu)成，通過兩者的博弈最終達(dá)納什平衡狀態(tài)，達(dá)到學(xué)習(xí)訓(xùn)練數(shù)據(jù)內(nèi)在分布的目標(biāo)。其中生成器G接收的是隨機(jī)的噪聲向量z，輸出的結(jié)果也就是生成的數(shù)據(jù)G（z）與真實(shí)訓(xùn)練數(shù)據(jù)具有相同的結(jié)構(gòu)與尺寸。GAN模型中判別器D的輸入數(shù)據(jù)中即有來(lái)自真實(shí)訓(xùn)練集的樣本xIIIIIIIGIIIG（z）。在訓(xùn)練過程中，判別器D努力地區(qū)分出x與G（z）。如果輸入樣本為G（z），則判斷其類別標(biāo)簽為0；若輸入的真實(shí)樣本x，則判斷其類別標(biāo)簽為1。而生成器G的目標(biāo)則是努力地讓生成的G（z）與來(lái)自真實(shí)訓(xùn)練集的樣本x難以被分辨出來(lái)。這就形成了生成器GIIIID不斷對(duì)抗博弈的過程。通過他們的相互對(duì)抗與迭代優(yōu)化，生成器G和判別器D的性能都會(huì)不斷提升，最終D將無(wú)法區(qū)分出數(shù)據(jù)的來(lái)源，也就是真實(shí)樣本與生成的“假”數(shù)據(jù)的分類概率都將趨于1/2。而這時(shí)生成器G則被認(rèn)為已經(jīng)學(xué)習(xí)到了真實(shí)數(shù)據(jù)的內(nèi)在分布，由其生成的“假”數(shù)據(jù)已經(jīng)能夠混雜于真實(shí)數(shù)據(jù)中，呈現(xiàn)出相同的屬性。

根據(jù)上面的描述，可以將GAN模型的學(xué)習(xí)目標(biāo)表達(dá)為如下的函數(shù)形式：

式中pz(z)為噪聲z服從的概率分布，pdata為真實(shí)訓(xùn)練樣本x服從的概率分布，分別指代判別器D輸出的分類概率的數(shù)學(xué)期望。從式中可知GAN模型訓(xùn)練，實(shí)際上是一個(gè)以最大化判別器D與最小化生成器G為目標(biāo)的min-max的博弈過程。

在GAN模型中對(duì)生成器G和判別器D并不需要嚴(yán)格指定其模型的形式，任何具有生成與判斷能力的模型均可應(yīng)用到這種對(duì)抗學(xué)習(xí)架構(gòu)中來(lái)。但是由于深度模型具有比傳統(tǒng)淺層機(jī)器學(xué)習(xí)模型更優(yōu)的學(xué)習(xí)能力，特別是卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）在處理圖像數(shù)據(jù)時(shí)具有獨(dú)特的優(yōu)勢(shì)，因此在將GAN模型應(yīng)用于圖像生成時(shí)一般使用CNN作為生成器G，并使用具有轉(zhuǎn)置卷積結(jié)構(gòu)的網(wǎng)絡(luò)作為判別器D。

2 StyleGAN模型

在傳統(tǒng)的GAN模型中，生成器G接收的隨機(jī)噪聲在作歸一化處理后隨即通過卷積與上采樣進(jìn)入圖像的生成環(huán)節(jié)。這樣的生成過程比較簡(jiǎn)單，無(wú)法對(duì)結(jié)果圖像添加一些屬性或樣式的控制。為了獲得更好的生成結(jié)果，在StyleGAN中將生成器G拆分為如圖1所示的映射網(wǎng)絡(luò)（Mapping netowrk）f與合成網(wǎng)絡(luò)（Synthesis network）g兩個(gè)子網(wǎng)絡(luò)，通過兩者的協(xié)作實(shí)現(xiàn)在生成圖像的過程中對(duì)細(xì)節(jié)屬性與全局風(fēng)格的控制。

圖1 St yl eGAN中的生成器結(jié)構(gòu)

在映射網(wǎng)絡(luò)f中，對(duì)接收的隱藏表達(dá)向量zl作歸一化處理后，通過8個(gè)全連接層進(jìn)行空間映射處理，從而將輸入的向量編碼為中間表達(dá)w。通過對(duì)z作這樣的映射，將會(huì)使隱藏空間得到有效的解耦。因?yàn)樘卣骺臻g中不同的子空間信息對(duì)應(yīng)著數(shù)據(jù)的不同類別信息或整體風(fēng)格，如果它們之間相互關(guān)聯(lián)存在較高的耦合性，就會(huì)使模型難以獲得特征隱藏的深層次關(guān)系。與之相反，解耦后的特征則有助于更好的對(duì)數(shù)據(jù)分類或合成。

合成網(wǎng)絡(luò)g的作用與傳統(tǒng)的GAN模型中的生成器G相同，起到生成圖像的功能，而且也采用了與傳統(tǒng)生成器G類似的Block結(jié)構(gòu)。但是在g的每個(gè)Block中都額外地輸入了A和B兩個(gè)信號(hào)，其中A是由w轉(zhuǎn)換得到的仿射變換，用于控制生成圖像的風(fēng)格；B是轉(zhuǎn)換后的隨機(jī)噪聲，用于豐富生成圖像的細(xì)節(jié)。每個(gè)卷積層都能根據(jù)輸入的A來(lái)調(diào)整圖像的整體風(fēng)格，同時(shí)又利用B來(lái)調(diào)整畫面中的細(xì)節(jié)信息。合成網(wǎng)絡(luò)g中在較低的層上能夠?qū)崿F(xiàn)對(duì)整體輪廓與外形的視覺控制，而隨著Block層次的加深，將會(huì)為生成的圖像添加更多的細(xì)節(jié)信息，從而在更精細(xì)的尺度上控制圖像的一些微觀特征。

與傳統(tǒng)GAN的生成器相比，StyleGAN中合成網(wǎng)絡(luò)g另一個(gè)重要差異是在每個(gè)Block中都添加了兩個(gè)自適應(yīng)樣本歸一化（Adaptive Instance Normalization，AdaIN）層。該層的工作過程如下式所示：

從式中可以看出AdaIN需要首先對(duì)每個(gè)特征xi作標(biāo)準(zhǔn)化處理，然后使用樣式y(tǒng)中相應(yīng)的信息進(jìn)行縮放與添加偏置。借助AdaIN層對(duì)xi的處理與加入外部信息，合成網(wǎng)絡(luò)g就可以通過接收外部的單通道隨機(jī)噪聲B向生成的圖像中添加局部隨機(jī)的信息。比如，在生成人臉圖像時(shí)在其中添加皺紋和雀斑等局部?jī)?nèi)容。由于AdaIN層還接收映射網(wǎng)絡(luò)獲得的風(fēng)格信息A，因此還同時(shí)能夠控制畫面的整體風(fēng)格，比如生成人臉圖像時(shí)對(duì)其身份、姿態(tài)、角度等進(jìn)行控制。

StyleGAN中的判別器D用于實(shí)現(xiàn)區(qū)分合成圖像與真實(shí)圖像的功能，采用了常用的深度卷積-降采樣-非線性激活的網(wǎng)絡(luò)結(jié)構(gòu)，通過提取圖像的深度卷積特征來(lái)判斷其類別，最終的輸出為二值標(biāo)簽，指示圖像是否為真實(shí)圖像。

在StyleGAN的工作過程中，判別器接收的1024×1024大小的圖像，映射網(wǎng)絡(luò)接收的向量為512×1大小，輸出的隱藏向量的形狀為512×18，所有的非線性激活層均使用了LeakyReLU激活函數(shù)。

3 動(dòng)漫圖像生成實(shí)驗(yàn)

實(shí)驗(yàn)中采用了Anime-Face動(dòng)漫頭像數(shù)據(jù)集對(duì)StyleGAN模型進(jìn)行了訓(xùn)練與圖像生成測(cè)試。Anime-Face中收集了63 632張高質(zhì)量的動(dòng)漫頭像，每張圖像的大小在90×90～120×120大小之間。與其他數(shù)據(jù)集相比，該數(shù)據(jù)集中的動(dòng)漫圖像具有更豐富的色彩，背景也更為清晰。實(shí)驗(yàn)時(shí)這些圖像被統(tǒng)一縮放到了96×96的大小。我們?cè)赨buntu18.04環(huán)境下使用Tensor?Flow1.13深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn)，并使用NVID?IA1080GPU顯卡與CUDA10進(jìn)行加速。

實(shí)驗(yàn)首先進(jìn)行了隨機(jī)的動(dòng)漫頭像生成測(cè)試。為了對(duì)生成的圖像進(jìn)行對(duì)比分析，實(shí)驗(yàn)中還使用DCGAN模型訓(xùn)練200個(gè)epoch后再生成圖像。圖2（a）給出了由StyleGAN生成的部分圖像，可以看到這些圖像具有非常優(yōu)秀的顯示質(zhì)量，圖像的細(xì)節(jié)都很清晰。而由DC?GAN模型生成的圖像（如圖2（b）如示）在圖像清晰度上要差了很多，細(xì)節(jié)上也模糊不清。由此可見StyleGAN在圖像生成質(zhì)量上具有顯著的優(yōu)勢(shì)。

圖2 St yl eGAN與DCGAN生成的圖像對(duì)比

4 結(jié)論