林志坤 許建龍 包曉安
摘 要: 人臉屬性編輯在美顏APP和娛樂領(lǐng)域有重要應(yīng)用,但現(xiàn)有方法存在生成圖像質(zhì)量不高、屬性編輯不夠準(zhǔn)確等問題,為此提出了一種基于選擇傳輸生成對抗網(wǎng)絡(luò)(Selective transfer generative adversarial networks, STGAN)的人臉屬性編輯改進(jìn)模型。運用潛碼解耦合思想,將潛碼分解為內(nèi)容潛碼和風(fēng)格潛碼單獨操作,提高源域圖像和目標(biāo)域圖像的內(nèi)容編碼一致性,從而提高屬性編輯準(zhǔn)確率;同時運用像素級重構(gòu)損失和潛碼重構(gòu)損失,在總損失函數(shù)中加入像素級限制和潛碼重構(gòu)限制,通過互補作用提高生成圖像質(zhì)量。在CelebA人臉數(shù)據(jù)集和季節(jié)數(shù)據(jù)集上進(jìn)行實驗,該模型相比當(dāng)前人臉屬性編輯主流模型在定性結(jié)果和定量指標(biāo)上均有提高,其中峰值信噪比和結(jié)構(gòu)相似性相比STGAN模型分別提高了6.06%和1.58%。這說明該改進(jìn)模型能夠有效提高人臉屬性編輯的性能,滿足美顏APP和娛樂領(lǐng)域的需求。
關(guān)鍵詞:生成對抗網(wǎng)絡(luò);人臉編輯;重構(gòu)圖像;潛碼解耦
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
文章編號:1673-3851 (2023) 05-0285-08
引文格式:林志坤,許建龍,包曉安. 基于STGAN的人臉屬性編輯改進(jìn)模型[J]. 浙江理工大學(xué)學(xué)報(自然科學(xué)),2023,49(3):285-292.
Reference Format: LIN Zhikun, XU Jianlong, BAO Xiao′an. Improved model of face attribute editing based on STGAN[J]. Journal of Zhejiang Sci-Tech University,2023,49(3):285-292.
Improved model of face attribute editing based on STGAN
LIN Zhikuna, XU Jianlongb, BAO Xiao′anb
(a.School of Information Science and Engineering; b.School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract:Face attribute editing technology has important applications in beauty APPs and entertainment fields. However, the existing methods still have problems such as low-quality and inaccurate editing. To this end, an improved face editing model based on selective transfer generative adversarial networks (STGAN) was proposed. Using the idea of latent code decoupling, the latent code was decomposed into the content latent code and the style latent code, which improved the content-coding consistency of the source domain image and the target domain image, thereby improving the accuracy of attribute editing. In the meanwhile, we used pixel-level reconstruction loss and latent code reconstruction loss, and added pixel-level restrictions and latent code reconstruction restrictions to the total loss function, improving the quality of generated images through complementary effects. Experiments were carried out on the CelebA face dataset and seasonal dataset. Compared with the current mainstream model of face attribute editing, this model has improved both qualitative results and quantitative indicators. Compared with the STGAN model, the peak signal-to-noise ratio and structural similarity index of this model are improved by 6.06% and 1.58%, respectively. This shows that the improved model can effectively improve the performance of face attribute editing and meet the needs of beauty apps and entertainment fields.
Key words:generative adversarial networks; face editing; reconstructed images; latent code decoupling
0 引 言
圖像屬性編輯是指將源域圖像映射到目標(biāo)域,在保留源域圖像內(nèi)容特征的前提下,根據(jù)目標(biāo)域圖像的風(fēng)格特征合成得到新圖像。圖像屬性編輯有多個應(yīng)用方向,如人臉屬性編輯、圖像修復(fù)[1]、超分辨率、圖像著色[2]等,其中人臉屬性編輯是一個熱門方向,它在美顏APP和娛樂領(lǐng)域有重要應(yīng)用。目前圖像屬性編輯模型主要有基于生成對抗網(wǎng)絡(luò)(Generative adversarial network, GAN)[3]和基于自編碼器[4]這兩種模型。其中基于GAN的圖像屬性編輯模型按照特性有多種分類,如根據(jù)是否需要監(jiān)督分為有監(jiān)督和無監(jiān)督的屬性編輯模型,根據(jù)處理圖像屬性的數(shù)量又可以分為單一屬性和多屬性的編輯模型。
Isola等[5]提出了一個有監(jiān)督的圖像屬性編輯模型;Wang等[6]在Isola等[5]的基礎(chǔ)上對模型進(jìn)行了改進(jìn),提高了生成圖像的分辨率。然而這類模型的訓(xùn)練都需要成對的圖像數(shù)據(jù)集,這在很多任務(wù)中是無法實現(xiàn)的,如同張人臉的男女轉(zhuǎn)換,幾乎無法提供成規(guī)模的同一張人臉的不同性別數(shù)據(jù)集。Zhu等[7]設(shè)計的模型實現(xiàn)了無監(jiān)督的圖像屬性編輯,通過循環(huán)一致性損失對模型進(jìn)行約束,以保留圖像轉(zhuǎn)換過程中的基本特征,擺脫了成對圖像數(shù)據(jù)集的束縛,但這類模型每次訓(xùn)練只能實現(xiàn)特定兩個域之間的轉(zhuǎn)換,若要實現(xiàn)多域轉(zhuǎn)換需要訓(xùn)練相應(yīng)數(shù)量的模型,耗時耗力。Anoosheh等[8]減少了要實現(xiàn)多域轉(zhuǎn)換所需訓(xùn)練的網(wǎng)絡(luò)數(shù)量,但他們提出的模型仍然要訓(xùn)練多個網(wǎng)絡(luò),并且也不能支持多個屬性的同時轉(zhuǎn)換。Choi等[9]提出了StarGAN(Star generative adversarial networks)模型,這種模型可以根據(jù)輸入的標(biāo)簽向量(即屬性向量)不同實現(xiàn)不同域的轉(zhuǎn)換,且只要訓(xùn)練一組模型,很好地完成了多域圖像屬性編輯任務(wù)。He等[10]提出了AttGAN(Attribute generative adversarial networks)模型,他們將編碼器和解碼器結(jié)構(gòu)運用到StarGAN模型中,實現(xiàn)了更好的圖像轉(zhuǎn)換效果。Liu等[11]提出了STGAN(Selective transfer generative adversarial networks)模型,這種模型用目標(biāo)屬性向量和源域?qū)傩韵蛄康牟钪底鳛檩斎?,而不是將原本的整個屬性向量作為輸入,從而提高了圖像重構(gòu)質(zhì)量;STGAN模型在AttGAN模型的生成器(Generative model,G)中加入選擇傳輸單元(Selective transfer unit,STU),在更多層間加入對稱跳躍連接,在提高生成圖像質(zhì)量的同時保證了高屬性編輯準(zhǔn)確率。
近年來,潛碼解耦合思想[12-14]被廣泛運用于圖像屬性編輯,如Shen等[15]提出的InterFaceGAN(Interpreting face generative adversarial networks)模型。不同于Liu等[16]提出的未分解的潛碼一致性,潛碼解耦合思想將潛碼進(jìn)一步分解為內(nèi)容潛碼與風(fēng)格潛碼。內(nèi)容潛碼用來控制圖像的基本內(nèi)容,如人臉的基本輪廓;而風(fēng)格潛碼用來控制圖像的不同風(fēng)格特性,如人臉的發(fā)色、性別、年齡等。雖然上述模型已經(jīng)可以實現(xiàn)多屬性的無監(jiān)督人臉屬性編輯,但是它們生成的人臉圖像仍然存在圖像質(zhì)量低、人臉屬性編輯不準(zhǔn)確等問題。當(dāng)前人臉屬性編輯的應(yīng)用極為廣泛,設(shè)計一個能生成高質(zhì)量、高屬性編輯準(zhǔn)確率人臉圖像的人臉屬性編輯模型有著重要價值。
為了滿足在美顏APP和娛樂領(lǐng)域?qū)Ω哔|(zhì)量人臉屬性編輯能力的需求,本文提出了一種基于STGAN模型的人臉屬性編輯改進(jìn)模型,并將該模型稱為LEGAN(Loss function enhanced generative adversarial network)。該模型在STGAN模型的基礎(chǔ)上,針對人臉屬性編輯不準(zhǔn)確問題,運用潛碼解耦合思想,促進(jìn)源域圖像和目標(biāo)域圖像的內(nèi)容編碼一致性,從而提高人臉屬性編輯準(zhǔn)確率;針對生成圖像質(zhì)量不高的問題,在STGAN模型基礎(chǔ)上同時運用像素級重構(gòu)損失和潛碼重構(gòu)損失,通過互補作用,進(jìn)一步提高生成圖像質(zhì)量。
1 人臉屬性編輯改進(jìn)模型構(gòu)建
本文建立了LEGAN模型,在CelebA人臉數(shù)據(jù)集[17]上進(jìn)行訓(xùn)練,訓(xùn)練后得到的模型具有較強的人臉屬性編輯能力。運行時將所需處理的人臉圖像和所需轉(zhuǎn)換的屬性向量輸入模型,模型在屬性向量的指導(dǎo)下通過生成器生成所需的目標(biāo)人臉圖像。對比STGAN模型,本文提出的LEGAN模型最大的改進(jìn)點是使用了潛碼解耦合思想并改進(jìn)了損失函數(shù),在人臉圖像屬性編輯任務(wù)中能夠處理得到質(zhì)量更高、屬性編輯更準(zhǔn)確的人臉圖像。
1.1 模型結(jié)構(gòu)
LEGAN的模型結(jié)構(gòu)如圖1所示,該模型由生成器、鑒別器、分類器組成,其中生成器由編碼器Genc和解碼器Gdec組成。在訓(xùn)練階段,輸入的人臉圖像xa經(jīng)過Genc處理后得到潛碼za。轉(zhuǎn)換目標(biāo)圖時,將目標(biāo)域人臉圖像的屬性向量b和源域人臉圖像的屬性向量a的差值與潛碼za一同輸入Gdec,經(jīng)過Gdec處理后得到目標(biāo)人臉偽造圖像xb^。將xb^輸入分類器與鑒別器,分別計算屬性分類準(zhǔn)確率和圖像的真實度。將xb^輸入Genc得到潛碼zb^,zb^和za之間進(jìn)行潛碼解耦合約束。將零向量和za輸入Gdec后得到重構(gòu)圖xa^,xa^與xa之間需要計算像素級重構(gòu)損失,xa^輸入Genc后得到重構(gòu)圖的潛碼za^,za^與za之間需要計算潛碼重構(gòu)損失。
Genc提取圖像潛碼的過程可用式(1)—(3)表示:
Gdec將潛碼映射成圖像。Genc和Gdec之間采用對稱跳躍連接,連接應(yīng)用在生成器中所有的層。Genc之間權(quán)重共享,Gdec同理。Liu等[16]證明在Genc和Gdec之間添加STU單元既能提高生成圖像的質(zhì)量,也能提高生成圖像的屬性編輯準(zhǔn)確率,所以此處的Genc和Gdec不同層之間的連接都經(jīng)過STU單元處理。
1.2 內(nèi)容編碼一致性損失
STGAN模型使用編碼器將圖像翻譯成潛碼,之后用條件向量來改變生成圖像的屬性。將STGAN模型的解碼器提取的潛碼視為內(nèi)容編碼,將條件向量視為風(fēng)格編碼,則可在STGAN模型中加入內(nèi)容編碼一致性損失來降低不同域之間圖像內(nèi)容編碼的差異。對于內(nèi)容編碼一致性損失,本文計算在zb^和za的L1距離,計算過程可用式(4)表示:
其中:Lccc表示內(nèi)容編碼一致性損失。通過最小化Lccc可以使不同域的圖像經(jīng)過編碼器處理后得到的內(nèi)容編碼趨同,這可以使模型更精確地編輯需要改變的屬性,即由條件向量控制的部分,從而提高屬性編輯的準(zhǔn)確率。屬性更精準(zhǔn)的控制也能進(jìn)一步提高重構(gòu)圖像的質(zhì)量。
1.3 潛碼重構(gòu)損失
為了提高重構(gòu)能力,常見方法是計算重構(gòu)圖像和輸入圖像對應(yīng)像素之間的L1損失或L2損失(像素級重構(gòu)損失)。例如STGAN模型、AttGAN模型等,均通過最小化L1損失或L2損失使重構(gòu)圖像和輸入圖像之間更加相似。本文在像素級重構(gòu)損失的基礎(chǔ)上,計算了輸入圖像潛碼和重構(gòu)圖像潛碼之間的L1損失,該損失可用式(5)表示:
其中:Lrec2表示潛碼重構(gòu)損失。通過最小化該損失,可以使輸入圖像的潛碼和重構(gòu)圖像的潛碼更加相似。本文實驗表明,同時添加像素級重構(gòu)損失和潛碼重構(gòu)損失可以進(jìn)一步提高模型的重構(gòu)能力,詳見實驗部分。
1.4 總損失函數(shù)
本文分別用LDadv和LGadv表示鑒別器和生成器的對抗損失,兩個損失可用式(6)—(7)表示:
其中:x表示輸入的圖像;x^是真實圖像和生成圖像之間的線性插值;?
表示生成的假圖;adiff是目標(biāo)屬性向量與原屬性向量的差值;D表示判別器。對抗損失采用Gulrajani等[18]提出的WGAN-GP形式。這里對抗損失以最大化的形式展示,具體實現(xiàn)時加入負(fù)號以最小化的形式優(yōu)化。
本文用LDatt和LDatt分別表示生成器和鑒別器的分類損失,兩個損失可用式(8)—(9)表示:
其中:n為分類屬性的個數(shù);as(i)表示源域第i個分類屬性向量;at(i)表示目標(biāo)域第i個分類屬性向量。
本文用Lrec1表示像素級的重構(gòu)損失,該損失可用式(10)表示:
其中:0是零向量。生成重構(gòu)圖像時因為源域的屬性向量即為目標(biāo)域的屬性向量,故差值輸入為零向量。
最后總的損失函數(shù)可用式(11)—(12)表示:
其中:LD表示生成器的損失;LD表示鑒別器的損失;λ1、λ2、λ3、λ4、λ5是超參數(shù)。
2 實驗和結(jié)果分析
本文在人臉數(shù)據(jù)集和季節(jié)數(shù)據(jù)集上進(jìn)行了實驗。為驗證內(nèi)容編碼一致性損失和潛碼重構(gòu)損失在STGAN模型中的有效性,本文設(shè)計并進(jìn)行相關(guān)的消融實驗。
2.1 數(shù)據(jù)集和設(shè)置
本文選擇CelebA[17]作為人臉數(shù)據(jù)集。CelebA人臉數(shù)據(jù)集有數(shù)據(jù)量大、多樣性強、標(biāo)注詳細(xì)等優(yōu)點。在CelebA中本文選擇178×218對齊處理過的數(shù)據(jù)集。該數(shù)據(jù)集總共含有202599張人臉圖像,每張圖像都有對應(yīng)的屬性標(biāo)注。在數(shù)據(jù)集分配方面本文將前182000張圖像分為訓(xùn)練集,182001~182637分為驗證集,其余的分為測試集。屬性方面本文選擇禿頭、劉海、黑發(fā)、金發(fā)、棕發(fā)、濃眉、眼鏡、性別、嘴閉合、上唇胡須、絡(luò)腮胡、蒼白和年齡等一共13種可轉(zhuǎn)換的屬性,這涵蓋了當(dāng)前大部分人臉屬性編輯模型所實現(xiàn)的屬性。本文的模型使用Adam優(yōu)化器(β1=0.5,β2=0.999),Batch_size大小設(shè)置為32,學(xué)習(xí)率的衰減與STGAN模型一致??倱p失函數(shù)的超參數(shù)λ1、λ2、λ3、λ4、λ5分別為25、200、15、5、1。
2.2 定量結(jié)果
屬性編輯的性能可以從生成圖像質(zhì)量和屬性編輯準(zhǔn)確率兩個方面進(jìn)行評價,其中圖像質(zhì)量可以用峰值信噪比(Peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似性(Structural similarity,SSIM)來衡量。因為同一張人臉的不同屬性轉(zhuǎn)換的真實數(shù)據(jù)難以獲?。ㄈ缧詣e轉(zhuǎn)換、年齡轉(zhuǎn)換),所以本文采用和STGAN模型中一樣的兩種方法來代替評估。本文將LEGAN模型與StarGAN、AttGAN、STGAN、InterFaceGAN等模型進(jìn)行比較,其中用來測試人臉屬性編輯的AttGAN模型和STGAN模型是原作者發(fā)布的,而StarGAN模型因為其作者發(fā)布的模型僅支持5個屬性的操作,本文按照StarGAN模型相同的配置并用其作者github上的代碼訓(xùn)練了支持13個屬性的人臉編輯模型來進(jìn)行比較,InterFaceGAN模型也是根據(jù)其作者在github上發(fā)布的代碼訓(xùn)練得到。
在圖像質(zhì)量方面,本文讓目標(biāo)屬性向量與源域?qū)傩韵蛄勘3忠恢芦@得圖像的重構(gòu)結(jié)果,并且通過評估重構(gòu)圖像的質(zhì)量來代替評估模型生成的圖像質(zhì)量。本文在測試集(大約20000張圖像)測試了StarGAN、AttGAN、STGAN、InterFaceGAN、LEGAN等模型的重構(gòu)圖像質(zhì)量,結(jié)果如表1所示。從表1可以看出,LEGAN模型的PSNR、SSIM指標(biāo)相比其余模型都更高,相對之下StarGAN模型和AttGAN模型的重構(gòu)圖像質(zhì)量明顯較弱。雖然AttGAN模型將U-NET的一層對稱跳躍連接運用在生成器里,圖像質(zhì)量相對StarGAN模型有所提高,但提高的幅度有限。STGAN模型因為差異屬性向量輸入和STU單元的運用使得圖像質(zhì)量有較為明顯的提高,尤其是SSIM指標(biāo)達(dá)到了0.948的高分,但它仍然存在改進(jìn)的空間。通過借鑒潛碼解耦合思想以及兩種重構(gòu)損失的互補運用,LEGAN模型在STAGN模型的基礎(chǔ)上再次提高了圖像質(zhì)量,其中SSIM達(dá)到了0.963,相比STGAN模型提高了1.58%。LEGAN模型的PSNR指標(biāo)為33.59,相比STGAN模型提高了6.06%。
在屬性編輯的準(zhǔn)確度方面,本文使用和STGAN模型一致的人臉屬性分類器來代替評估。該分類器是在CelebA數(shù)據(jù)集上對13個屬性進(jìn)行訓(xùn)練得到的,并且在CelebA數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了94.5%。StarGAN、AttGAN、STGAN、InterFaceGAN、LEGAN等模型的屬性編輯準(zhǔn)確率如表2所示。
從表2可以看出,LEGAN模型的平均屬性編輯準(zhǔn)確率最高,達(dá)88.79%。對13個屬性進(jìn)一步觀察,可以看見除了蒼白和絡(luò)腮胡這兩個屬性,LEGAN模型的準(zhǔn)確率比STGAN模型稍差(蒼白屬性差0.41%,絡(luò)腮胡屬性差0.63%),其余的11個屬性LEGAN模型的準(zhǔn)確率都最高,尤其金發(fā)、濃眉、棕發(fā)和年齡等4個屬性分別提高了9.32%、4.91%、5.40%和6.63%。
2.3 定性結(jié)果
經(jīng)過訓(xùn)練,本文得到了人臉屬性編輯效果較優(yōu)的模型。本文分別針對單屬性和多屬性編輯進(jìn)行對比,對比結(jié)果如圖2所示。
從圖2中可以直觀地看出,LEGAN模型的生成結(jié)果相比其余模型生成的圖像質(zhì)量和屬性編輯完成度更高。其中StarGAN模型和AttGAN模型在多屬性編輯時有的屬性容易崩壞,比如StarGAN模型在變老加唇上胡須的轉(zhuǎn)換中人臉膚色出現(xiàn)異常,AttGAN模型在變老加唇上胡須的轉(zhuǎn)換中唇上胡須的效果沒有得到很好體現(xiàn)。InterFaceGAN模型在最后一列的金發(fā)效果上發(fā)色轉(zhuǎn)換得不夠完全。LEGAN模型相比STGAN模型生成效果相似,但屬性細(xì)節(jié)處有所提高,比如圖2最后一列多屬性編輯中LEGAN模型生成的人臉相比STGAN模型更顯蒼老,且生成的劉海也更完整。
2.4 消融實驗
在這一部分,本文評估了兩個主要組成部分的必要性:內(nèi)容編碼一致性損失和潛碼重構(gòu)損失。在STGAN模型的基礎(chǔ)上,本文將加入內(nèi)容編碼一致性損失訓(xùn)練得到的模型稱為LEGAN-1,將加入潛碼重構(gòu)損失訓(xùn)練得到的模型稱為LEGAN-2。兩個損失都加入訓(xùn)練得到的模型為本文提出的LEGAN模型。為了佐證以上兩個損失對原始STGAN模型的影響,本文還添加了以下實驗:STGAN-1,用潛碼重構(gòu)損失代替原始STGAN模型的像素級重構(gòu)損失;STGAN-2,用潛碼重構(gòu)損失代替原始STGAN模型的像素級重構(gòu)損失并加上內(nèi)容編碼一致性損失;STGAN-3,去掉原始STGAN模型的像素級重構(gòu)損失,添加內(nèi)容編碼一致性損失;STGAN-4:去掉原始STGAN模型的像素級重構(gòu)損失。實驗結(jié)果如表3所示。
對比STGAN、STGAN-1、LEGAN-2、STGAN-4這些模型的實驗結(jié)果可以發(fā)現(xiàn),添加潛碼重構(gòu)損失也能提高模型的重構(gòu)能力,只是這個能力相比添加像素級重構(gòu)損失略差。如果將潛碼重構(gòu)損失和像素級重構(gòu)損失一起使用則可以在STGAN模型中起到互補的作用,模型的重構(gòu)能力相比單獨加入像素級重構(gòu)損失的STGAN模型更佳。兩兩對比STGAN-2模型和STGAN-1模型、STGAN-3模型和STGAN-4模型、LEGAN-1模型和STGAN模型可以發(fā)現(xiàn),在STGAN模型中加入內(nèi)容編碼一致性損失對模型的重構(gòu)能力、屬性編輯能力都有促進(jìn)作用。對比LEGAN-1模型、LEGAN-2模型和LEGAN模型可以發(fā)現(xiàn),在STGAN模型中同時加入潛碼重構(gòu)損失和內(nèi)容編碼一致性損失,可以大幅提高模型的重構(gòu)能力和屬性編輯能力。雖然STGAN-3模型的屬性編輯能力是幾個模型中最強的,但它缺乏對模型重構(gòu)能力的優(yōu)化,生成的圖像質(zhì)量較低。
2.5 季節(jié)轉(zhuǎn)換實驗
因為人臉屬性編輯和季節(jié)轉(zhuǎn)換這類圖像轉(zhuǎn)換技術(shù)本質(zhì)上都是圖像風(fēng)格屬性的轉(zhuǎn)換,所以本文也在季節(jié)數(shù)據(jù)集上進(jìn)行了實驗,以更好地評價LEGAN模型的性能,結(jié)果如圖3所示。
本文所使用的季節(jié)數(shù)據(jù)集[11]包含四個季節(jié):春季、夏季、秋季和冬季。經(jīng)過訓(xùn)練的模型需要實現(xiàn)同一風(fēng)景圖像的四個季節(jié)轉(zhuǎn)換。本文在季節(jié)數(shù)據(jù)集上訓(xùn)練了AttGAN模型、STGAN模型和LEGAN模型,并對它們的定量和定性結(jié)果進(jìn)行比較。在定性結(jié)果方面,圖3顯示LEGAN模型的轉(zhuǎn)換能力明顯優(yōu)于AttGAN模型和STGAN模型,尤其是LEGAN模型的冬季轉(zhuǎn)換效果相比STGAN模型和AttGAN模型更自然。在定量結(jié)果方面,表4顯示LEGAN模型的PSNR和SSIM與STGAN模型相比分別提高了5.27%和5.15%。
3 結(jié) 論
本文提出基于STGAN模型的人臉屬性編輯改進(jìn)模型,通過潛碼解耦合思想以及兩種重構(gòu)損失的互補運用,得到一個性能更優(yōu)的人臉屬性編輯模型。運用潛碼解耦合可以讓原STGAN模型更精準(zhǔn)地編輯需要更改的圖像屬性,從而提高模型的屬性編輯能力。將像素級重構(gòu)損失和潛碼重構(gòu)損失互補地運用在STGAN模型中可以進(jìn)一步提高模型生成的圖像質(zhì)量。實驗結(jié)果表明,新模型在CelebA人臉數(shù)據(jù)集上相比StarGAN、AttGAN、STGAN、InterFaceGAN等主流模型擁有更優(yōu)的定量和定性表現(xiàn)。該模型也可以運用在季節(jié)變換等圖像轉(zhuǎn)換任務(wù)里,實驗表明新模型在季節(jié)數(shù)據(jù)集中相較STGAN等模型也有更好的表現(xiàn)。
由于光照、相機、場景、硬件設(shè)備等因素的影響,本文的模型目前還不能準(zhǔn)確地處理所有真實數(shù)據(jù),而且只能生成分辨率較低的圖像。后續(xù)研究將進(jìn)一步完善數(shù)據(jù)集,改進(jìn)模型結(jié)構(gòu),以訓(xùn)練一個功能更強的模型。
參考文獻(xiàn):
[1]曹建芳, 張自邦, 趙愛迪, 等. 增強一致性生成對抗網(wǎng)絡(luò)在壁畫修復(fù)上的應(yīng)用[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2020, 32(8): 1315-1323.
[2]李洪安, 鄭峭雪, 張婧, 等. 結(jié)合Pix2Pix生成對抗網(wǎng)絡(luò)的灰度圖像著色方法[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2021, 33(6): 929-938.
[3]Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]∥Proceedings of Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2014: 2672-2680.
[4]Kingma D P, Welling M. Auto-encoding variational bayes [EB/OL]. (2014-05-01) [2022-08-31]. https:∥arxiv.org/pdf/1312.6114.pdf.
[5]Isola P, Zhu J Y, Zhou T H, et al. Image-to-image translation with conditional adversarial networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5967-5976.
[6]Wang T C, Liu M Y, Zhu J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8798-8807.
[7]Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2242-2251.
[8]Anoosheh A, Agustsson E, Timofte R, et al. ComboGAN: Unrestrained scalability for image domain translation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City: IEEE, 2018: 783-790.
[9]Choi Y, Choi M, Kim M, et al. StarGAN: unified generative adversarial networks for multi-domain image-to-image translation[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8789-8797.
[10]He Z, Zuo W, Kan M, et al. AttGAN: Facial attribute editing by only changing what you want[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5464-5478.
[11]Liu, M, Ding, Y, Xia, M, et al. STGAN: A unified selective trans-fer network for arbitrary image attribute editing [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3673-3682.
[12]Huang X, Liu M Y, Belongie S, et al. Multimodal unsupervised image-to-image translation[C]∥Proceedings of the European Conference on Computer Vision. Munich: IEEE, 2018: 179-196.
[13]Lee H Y, Tseng H Y, Huang J B, et al. Diverse image-to-image translation via disentangled representations[C]∥Proceedings of the European Conference on Computer Vision. Munich: IEEE, 2018: 35-51.
[14]Lin J, Xia Y, Qin T, et al. Conditional image-to-image translation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5524-5532.
[15]Shen Y, Gu J, Tang X, et al. Interpreting the latent space of GANs for semantic face editing[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 9240-9249.
[16]Liu M Y, Breuel T M, Kautz J. Unsupervised image-to-image translation networks[C]∥Proceedings of Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2017: 700-708.
[17]Liu Z W, Luo P, Wang X G, et al. Deep learning face attributes in the wild[C]∥Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3730-3738.
[18]Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of Wasser-stein GANs[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 5769-5779.
(責(zé)任編輯:康 鋒)