董虎勝,劉誠(chéng)志,朱晶,徐蘇安
(蘇州市職業(yè)大學(xué) 計(jì)算機(jī)工程學(xué)院,江蘇 蘇州 215104)
動(dòng)漫是人們廣為喜愛的一種藝術(shù)表現(xiàn)形式,一些經(jīng)典的動(dòng)漫人物形象更是成為大家共同的美好回憶。在QQ、微信、釘釘?shù)雀鞣N社交平臺(tái)上也有許多用戶喜歡使用個(gè)性化的昵稱與動(dòng)漫頭像來(lái)彰顯自己的愛好或是風(fēng)格。在一些場(chǎng)合中,也需要從真實(shí)圖像獲得動(dòng)漫風(fēng)格圖像。然而,在這些用戶群體中大部分人員卻不一定具備動(dòng)漫圖像的創(chuàng)作能力,根據(jù)特定要求生成動(dòng)漫風(fēng)格的目標(biāo)圖像就成為他們的現(xiàn)實(shí)需求。
近年來(lái)深度學(xué)習(xí)的進(jìn)展為人們使用計(jì)算機(jī)生成動(dòng)漫風(fēng)格圖像提供了可行的解決方案。由KingMa等[1]提出的變分自動(dòng)編碼器(Variational AutoEncoder,VAE)就具有自動(dòng)生成圖像的功能,但是存在生成圖像比較模糊與目標(biāo)圖像隨機(jī)的不足。隨著具有能夠捕捉數(shù)據(jù)內(nèi)在分布規(guī)律的對(duì)抗生成網(wǎng)絡(luò)(Generative Adversarial Net,GAN)[3]的提出,使得生成更為清晰的圖像成為可能[3,4]。但是,GAN模型同樣存在目標(biāo)不可控的問題,而且在訓(xùn)練上也較為困難。
通過對(duì)GAN的改進(jìn),相繼提出了條件對(duì)抗生成網(wǎng)絡(luò)(Conditional Generative Adversarial Net,CGAN)[5]與深度卷積對(duì)抗生成網(wǎng)絡(luò)(Deep Convolutional GAN,DC?GAN)[6]等模型,模型能夠生成指定類別的圖像。尤其是最近基于風(fēng)格的對(duì)抗生成網(wǎng)絡(luò)(Style based GAN,StyleGAN)[7]的提出,從隨機(jī)噪聲生成具有特定細(xì)節(jié)與整體目標(biāo)風(fēng)格的圖像獲得明顯的進(jìn)步。本論述首先對(duì)StyleGAN的工作機(jī)制進(jìn)行了細(xì)致的分析研究,并將其進(jìn)一步應(yīng)用到動(dòng)漫圖像的生成上,實(shí)驗(yàn)中生成的動(dòng)漫圖像結(jié)果驗(yàn)證了StyleGAN優(yōu)秀的圖像生成質(zhì)量與風(fēng)格可控性。
生成對(duì)抗網(wǎng)絡(luò)GAN學(xué)習(xí)模型由生成器G和判別器D兩個(gè)基本的模塊構(gòu)成,通過兩者的博弈最終達(dá)納什平衡狀態(tài),達(dá)到學(xué)習(xí)訓(xùn)練數(shù)據(jù)內(nèi)在分布的目標(biāo)。其中生成器G接收的是隨機(jī)的噪聲向量z,輸出的結(jié)果也就是生成的數(shù)據(jù)G(z)與真實(shí)訓(xùn)練數(shù)據(jù)具有相同的結(jié)構(gòu)與尺寸。GAN模型中判別器D的輸入數(shù)據(jù)中即有來(lái)自真實(shí)訓(xùn)練集的樣本xIIIIIIIGIIIG(z)。在訓(xùn)練過程中,判別器D努力地區(qū)分出x與G(z)。如果輸入樣本為G(z),則判斷其類別標(biāo)簽為0;若輸入的真實(shí)樣本x,則判斷其類別標(biāo)簽為1。而生成器G的目標(biāo)則是努力地讓生成的G(z)與來(lái)自真實(shí)訓(xùn)練集的樣本x難以被分辨出來(lái)。這就形成了生成器GIIIID不斷對(duì)抗博弈的過程。通過他們的相互對(duì)抗與迭代優(yōu)化,生成器G和判別器D的性能都會(huì)不斷提升,最終D將無(wú)法區(qū)分出數(shù)據(jù)的來(lái)源,也就是真實(shí)樣本與生成的“假”數(shù)據(jù)的分類概率都將趨于1/2。而這時(shí)生成器G則被認(rèn)為已經(jīng)學(xué)習(xí)到了真實(shí)數(shù)據(jù)的內(nèi)在分布,由其生成的“假”數(shù)據(jù)已經(jīng)能夠混雜于真實(shí)數(shù)據(jù)中,呈現(xiàn)出相同的屬性。
根據(jù)上面的描述,可以將GAN模型的學(xué)習(xí)目標(biāo)表達(dá)為如下的函數(shù)形式:
式中pz(z)為噪聲z服從的概率分布,pdata為真實(shí)訓(xùn)練樣本x服從的概率分布,分別指代判別器D輸出的分類概率的數(shù)學(xué)期望。從式中可知GAN模型訓(xùn)練,實(shí)際上是一個(gè)以最大化判別器D與最小化生成器G為目標(biāo)的min-max的博弈過程。
在GAN模型中對(duì)生成器G和判別器D并不需要嚴(yán)格指定其模型的形式,任何具有生成與判斷能力的模型均可應(yīng)用到這種對(duì)抗學(xué)習(xí)架構(gòu)中來(lái)。但是由于深度模型具有比傳統(tǒng)淺層機(jī)器學(xué)習(xí)模型更優(yōu)的學(xué)習(xí)能力,特別是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在處理圖像數(shù)據(jù)時(shí)具有獨(dú)特的優(yōu)勢(shì),因此在將GAN模型應(yīng)用于圖像生成時(shí)一般使用CNN作為生成器G,并使用具有轉(zhuǎn)置卷積結(jié)構(gòu)的網(wǎng)絡(luò)作為判別器D。
在傳統(tǒng)的GAN模型中,生成器G接收的隨機(jī)噪聲在作歸一化處理后隨即通過卷積與上采樣進(jìn)入圖像的生成環(huán)節(jié)。這樣的生成過程比較簡(jiǎn)單,無(wú)法對(duì)結(jié)果圖像添加一些屬性或樣式的控制。為了獲得更好的生成結(jié)果,在StyleGAN中將生成器G拆分為如圖1所示的映射網(wǎng)絡(luò)(Mapping netowrk)f與合成網(wǎng)絡(luò)(Synthesis network)g兩個(gè)子網(wǎng)絡(luò),通過兩者的協(xié)作實(shí)現(xiàn)在生成圖像的過程中對(duì)細(xì)節(jié)屬性與全局風(fēng)格的控制。
圖1 St yl eGAN中的生成器結(jié)構(gòu)
在映射網(wǎng)絡(luò)f中,對(duì)接收的隱藏表達(dá)向量zl作歸一化處理后,通過8個(gè)全連接層進(jìn)行空間映射處理,從而將輸入的向量編碼為中間表達(dá)w。通過對(duì)z作這樣的映射,將會(huì)使隱藏空間得到有效的解耦。因?yàn)樘卣骺臻g中不同的子空間信息對(duì)應(yīng)著數(shù)據(jù)的不同類別信息或整體風(fēng)格,如果它們之間相互關(guān)聯(lián)存在較高的耦合性,就會(huì)使模型難以獲得特征隱藏的深層次關(guān)系。與之相反,解耦后的特征則有助于更好的對(duì)數(shù)據(jù)分類或合成。
合成網(wǎng)絡(luò)g的作用與傳統(tǒng)的GAN模型中的生成器G相同,起到生成圖像的功能,而且也采用了與傳統(tǒng)生成器G類似的Block結(jié)構(gòu)。但是在g的每個(gè)Block中都額外地輸入了A和B兩個(gè)信號(hào),其中A是由w轉(zhuǎn)換得到的仿射變換,用于控制生成圖像的風(fēng)格;B是轉(zhuǎn)換后的隨機(jī)噪聲,用于豐富生成圖像的細(xì)節(jié)。每個(gè)卷積層都能根據(jù)輸入的A來(lái)調(diào)整圖像的整體風(fēng)格,同時(shí)又利用B來(lái)調(diào)整畫面中的細(xì)節(jié)信息。合成網(wǎng)絡(luò)g中在較低的層上能夠?qū)崿F(xiàn)對(duì)整體輪廓與外形的視覺控制,而隨著Block層次的加深,將會(huì)為生成的圖像添加更多的細(xì)節(jié)信息,從而在更精細(xì)的尺度上控制圖像的一些微觀特征。
與傳統(tǒng)GAN的生成器相比,StyleGAN中合成網(wǎng)絡(luò)g另一個(gè)重要差異是在每個(gè)Block中都添加了兩個(gè)自適應(yīng)樣本歸一化(Adaptive Instance Normalization,AdaIN)層。該層的工作過程如下式所示:
從式中可以看出AdaIN需要首先對(duì)每個(gè)特征xi作標(biāo)準(zhǔn)化處理,然后使用樣式y(tǒng)中相應(yīng)的信息進(jìn)行縮放與添加偏置。借助AdaIN層對(duì)xi的處理與加入外部信息,合成網(wǎng)絡(luò)g就可以通過接收外部的單通道隨機(jī)噪聲B向生成的圖像中添加局部隨機(jī)的信息。比如,在生成人臉圖像時(shí)在其中添加皺紋和雀斑等局部?jī)?nèi)容。由于AdaIN層還接收映射網(wǎng)絡(luò)獲得的風(fēng)格信息A,因此還同時(shí)能夠控制畫面的整體風(fēng)格,比如生成人臉圖像時(shí)對(duì)其身份、姿態(tài)、角度等進(jìn)行控制。
StyleGAN中的判別器D用于實(shí)現(xiàn)區(qū)分合成圖像與真實(shí)圖像的功能,采用了常用的深度卷積-降采樣-非線性激活的網(wǎng)絡(luò)結(jié)構(gòu),通過提取圖像的深度卷積特征來(lái)判斷其類別,最終的輸出為二值標(biāo)簽,指示圖像是否為真實(shí)圖像。
在StyleGAN的工作過程中,判別器接收的1024×1024大小的圖像,映射網(wǎng)絡(luò)接收的向量為512×1大小,輸出的隱藏向量的形狀為512×18,所有的非線性激活層均使用了LeakyReLU激活函數(shù)。
實(shí)驗(yàn)中采用了Anime-Face動(dòng)漫頭像數(shù)據(jù)集對(duì)StyleGAN模型進(jìn)行了訓(xùn)練與圖像生成測(cè)試。Anime-Face中收集了63 632張高質(zhì)量的動(dòng)漫頭像,每張圖像的大小在90×90~120×120大小之間。與其他數(shù)據(jù)集相比,該數(shù)據(jù)集中的動(dòng)漫圖像具有更豐富的色彩,背景也更為清晰。實(shí)驗(yàn)時(shí)這些圖像被統(tǒng)一縮放到了96×96的大小。我們?cè)赨buntu18.04環(huán)境下使用Tensor?Flow1.13深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn),并使用NVID?IA1080GPU顯卡與CUDA10進(jìn)行加速。
實(shí)驗(yàn)首先進(jìn)行了隨機(jī)的動(dòng)漫頭像生成測(cè)試。為了對(duì)生成的圖像進(jìn)行對(duì)比分析,實(shí)驗(yàn)中還使用DCGAN模型訓(xùn)練200個(gè)epoch后再生成圖像。圖2(a)給出了由StyleGAN生成的部分圖像,可以看到這些圖像具有非常優(yōu)秀的顯示質(zhì)量,圖像的細(xì)節(jié)都很清晰。而由DC?GAN模型生成的圖像(如圖2(b)如示)在圖像清晰度上要差了很多,細(xì)節(jié)上也模糊不清。由此可見StyleGAN在圖像生成質(zhì)量上具有顯著的優(yōu)勢(shì)。
圖2 St yl eGAN與DCGAN生成的圖像對(duì)比
本論述對(duì)深度學(xué)習(xí)中基于風(fēng)格的對(duì)抗生成網(wǎng)絡(luò)StyleGAN模型進(jìn)行了研究,并將其應(yīng)用到動(dòng)漫圖像的生成實(shí)驗(yàn)中。在使用Anime-Face數(shù)據(jù)集中的圖像對(duì)模型訓(xùn)練后,模型能夠生成具有優(yōu)秀視覺質(zhì)量的動(dòng)漫圖像。將該方法應(yīng)用在藝術(shù)創(chuàng)作類的應(yīng)用之上,可以大幅度提高藝術(shù)創(chuàng)作的效率。