衛(wèi) 星 李 佳 孫 曉 劉邵凡 陸 陽(yáng)
多視角圖像生成指的是基于某個(gè)視角的圖像生成其他視角的圖像,該問(wèn)題在實(shí)際生活中具有很多應(yīng)用,例如:電商網(wǎng)站上商品的多視角展示、虛擬現(xiàn)實(shí)中的目標(biāo)建模和和數(shù)據(jù)集擴(kuò)充等.目前多視角圖像生成已經(jīng)吸引了來(lái)自計(jì)算機(jī)視覺(jué)、虛擬現(xiàn)實(shí)等眾多領(lǐng)域研究人員的興趣,并取得了一定的進(jìn)展[1?5].
早期工作中,研究人員嘗試使用變分自編碼器(Variational autoencoder,VAE)[6]生成多視角圖像.變分自編碼器采用變分推斷和深度表示學(xué)習(xí)來(lái)得到一個(gè)復(fù)雜的生成模型,從而擺脫了傳統(tǒng)耗時(shí)的采樣過(guò)程.但變分自編碼器并不能很好地補(bǔ)充生成圖像中的細(xì)節(jié).此外,研究人員[7?8]還嘗試先建立目標(biāo)的3D 模型,再生成目標(biāo)視角的圖像,但這種方法的靈活性較弱,只適合于合成椅子、杯子等簡(jiǎn)單物體的圖像.
近年來(lái),有研究人員提出使用生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network,GAN)[9]來(lái)生成多視角圖像.在文獻(xiàn)[4]中,研究人員將變分自編碼器與生成對(duì)抗網(wǎng)絡(luò)相結(jié)合,提出了一種面向服裝的多視角圖像生成模型VariGANs.VariGAN 模型將圖像生成分為兩步,采用由粗到精的方式生成高分辨率的多視角圖像,本文模型也參考了這種由粗到精的生成方式.但VariGAN 模型局限于服裝的多視角圖像生成,并不能有效遷移至其他領(lǐng)域.
在文獻(xiàn)[2]中,研究人員嘗試在圖像生成中引入語(yǔ)義指導(dǎo),提出了兩種多視角圖像生成模型X-Fork和X-Seq.這兩個(gè)模型將已知視角的圖像與目標(biāo)視角的語(yǔ)義分割圖共同輸入模型,填補(bǔ)了生成圖像中的語(yǔ)義結(jié)構(gòu),使得生成的圖像更加真實(shí).受到文獻(xiàn)[2]中工作的啟發(fā),文獻(xiàn)[5]中的研究人員提出了一種基于多通道注意力機(jī)制的SelectionGAN 模型.SelectionGAN 模型將語(yǔ)義生成空間進(jìn)一步擴(kuò)大,模型通過(guò)參考生成的中間結(jié)果,進(jìn)一步完善了圖像中的語(yǔ)義細(xì)節(jié),在衛(wèi)星圖與地面圖的翻譯任務(wù)中取得了很好的成績(jī).但以上的工作對(duì)于多視角生成任務(wù)中其他場(chǎng)景的兼容性較差,因?yàn)椴⒉皇撬袌?chǎng)景下都有充足的語(yǔ)義分割圖來(lái)進(jìn)行訓(xùn)練模型.
為解決上述問(wèn)題,本文提出了一種基于混合生成對(duì)抗網(wǎng)絡(luò)的多視角圖像生成模型ViewGAN,該模型可以靈活遷移至多視角生成任務(wù)中的各個(gè)場(chǎng)景.ViewGAN 包含多個(gè)生成器和一個(gè)多類別判別器,每一個(gè)生成器負(fù)責(zé)生成某一視角的圖像.如圖1 所示,模型分兩步生成圖像:1) 模型運(yùn)用粗粒度模塊(Coarse image module) 生成低分辨率(Low resolution,LR)下的目標(biāo)圖像;2) 在低分辨率目標(biāo)圖像的基礎(chǔ)上,模型運(yùn)用細(xì)粒度模塊(Fine image module)完善圖像的語(yǔ)義結(jié)構(gòu),生成高分辨率(high resolution,HR)下的目標(biāo)圖像.
圖1 本文模型ViewGAN 在DeepFashion、Dayton 和ICG Lab6 數(shù)據(jù)集上的測(cè)試樣例Fig.1 Examples of ViewGAN on three datasets,i.e.,DeepFashion,Dayton and ICG Lab6
本文的ViewGAN 模型與以往工作的不同之處在于:1) ViewGAN 包含多個(gè)生成器和一個(gè)判別器,每一個(gè)生成器負(fù)責(zé)生成某一視角的圖像,這保證了ViewGAN 模型可以靈活遷移至各種多視角生成任務(wù)中,甚至還可以運(yùn)用到圖像翻譯的其他領(lǐng)域,例如風(fēng)格轉(zhuǎn)換等;2) 為了加強(qiáng)圖像生成過(guò)程中的語(yǔ)義約束,本文使用蒙塔卡羅搜索方法(Monte Carlo search,MCS)[10]對(duì)低分辨率目標(biāo)圖像進(jìn)行多次采樣,并根據(jù)采樣結(jié)果計(jì)算相應(yīng)的懲罰值,懲罰機(jī)制可以迫使每個(gè)生成器生成語(yǔ)義更加豐富的圖像,避免出現(xiàn)模式崩塌(Mode collapse)[11];3) 模型中的多類別判別器使每個(gè)生成器更加專注于生成它們指定視角的圖像,避免生成與其他視角相似的圖像,從而進(jìn)一步完善了圖像的語(yǔ)義結(jié)構(gòu);4) 本文將ViewGAN模型與目前主流的圖像生成模型(例如:Pix2Pix[12],VariGAN[4],X-Fork 和X-Seq[2],SelectionGAN[5])進(jìn)行了對(duì)比,并在3 個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:本文模型在3 個(gè)數(shù)據(jù)集上都取得了最好成績(jī),這表明了本文模型的靈活性和生成圖像的高質(zhì)量.
綜上所述,本文的主要貢獻(xiàn)總結(jié)如下:
1) 提出了一種基于混合生成對(duì)抗網(wǎng)絡(luò)的多視角圖像生成模型ViewGAN,該模型包括多個(gè)生成器和一個(gè)判別器,采用由粗到精的方式生成不同視角下的高質(zhì)量圖像.
2) 提出了一種基于蒙特卡洛搜索的懲罰機(jī)制來(lái)加強(qiáng)圖像生成過(guò)程中的約束,這使得每個(gè)生成器能夠獲得更充足的語(yǔ)義指導(dǎo),在對(duì)應(yīng)視角的圖像中增加更多的語(yǔ)義細(xì)節(jié).
3) 在3 個(gè)數(shù)據(jù)集上與目前的主流模型進(jìn)行了大量的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了ViewGAN 在各種場(chǎng)景下的有效性與靈活性.
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,圖像生成已經(jīng)變成了一個(gè)熱門的話題.變分自編碼器(VAE)[6]是一種基于概率圖模型的生成模型.在文獻(xiàn)[13]中,研究人員提出了一種可由視覺(jué)特征生成圖像的Attribute2Image 模型,該模型通過(guò)合成前景和背景來(lái)建模圖像.之后研究人員[14]嘗試在VAE 中引入注意力機(jī)制,提出了一種DRAW 模型,該模型在一定程度上提升了圖像的質(zhì)量.
近年來(lái),研究人員在采用生成對(duì)抗網(wǎng)絡(luò)[9]在圖像生成方向取得了不錯(cuò)的成績(jī),生成器被訓(xùn)練生成圖像來(lái)欺騙判別器,判別器被訓(xùn)練區(qū)分真實(shí)圖像和虛假圖像.之后大量基于GAN 的變體相繼提出,例如條件生成對(duì)抗網(wǎng)絡(luò)(Conditional GANs)[15]、Bi-GANs[16]、InfoGANs[17]等.GANs 還可以基于標(biāo)簽[15],文本[18?19]或者圖[12,20?22]來(lái)生成圖像.
但上述模型生成的圖像普遍存在模糊、失真等問(wèn)題,模型并沒(méi)有學(xué)會(huì)如何生成圖像,而是簡(jiǎn)單地重復(fù)訓(xùn)練集中圖像的內(nèi)容.本文模型也是一種基于輸入圖像的條件生成對(duì)抗網(wǎng)絡(luò),但本文模型憑借新穎的懲罰機(jī)制引入了更充足的語(yǔ)義指導(dǎo),進(jìn)一步完善了圖像的語(yǔ)義結(jié)構(gòu),在一定程度上克服了圖像失真的問(wèn)題.
早期的研究人員通過(guò)對(duì)物體進(jìn)行3D 建模來(lái)合成不同視角的圖像[7?8,23].在文獻(xiàn)[8]中,研究人員提出一種3D?2D 映射機(jī)制,從而使模型可以從2D 數(shù)據(jù)中學(xué)習(xí)到3D 特征.之后有研究人員[23]提出一種3D-GAN 模型,該模型可以依據(jù)復(fù)雜的概率空間生成3D 物體.
在文獻(xiàn)[2]中,研究人員嘗試使用圖像翻譯的方法進(jìn)行多視角生成,使用條件生成對(duì)抗網(wǎng)絡(luò)在衛(wèi)星圖-街景圖轉(zhuǎn)換任務(wù)中取得了不錯(cuò)的成績(jī).之后在文獻(xiàn)[4]中,研究人提出了一種面向服裝的多視角圖像生成模型VariGANs.VariGAN 模型將圖像生成分為兩步,采用由粗到精的方式生成高分辨率的多視角圖像.受到上述工作的啟發(fā),文獻(xiàn)[5]中的研究人員提出了一種基于多通道注意力機(jī)制的SelectionGAN 模型.SelectionGAN 模型將語(yǔ)義生成空間進(jìn)一步擴(kuò)大,模型通過(guò)充分參考生成的中間結(jié)果,進(jìn)一步完善了圖像中的語(yǔ)義細(xì)節(jié),在衛(wèi)星圖與街景圖的翻譯任務(wù)中取得了很好的成績(jī).
但上述模型對(duì)于數(shù)據(jù)的要求極為嚴(yán)格,模型需要大量的數(shù)據(jù)或者輔助的語(yǔ)義分割圖進(jìn)行訓(xùn)練,這大大限制了模型的靈活性和兼容性.為解決這個(gè)問(wèn)題,本文提出了一種基于混合生成對(duì)抗網(wǎng)絡(luò)的多視角圖像生成模型,本文模型包括多個(gè)生成器和一個(gè)判別器,這使得模型可以同時(shí)訓(xùn)練生成多個(gè)視角的圖像.大量實(shí)驗(yàn)結(jié)果證明,在不需要大量的數(shù)據(jù)或者語(yǔ)義分割圖輔助訓(xùn)練的前提下,本文模型在3 個(gè)數(shù)據(jù)集上都取得了不錯(cuò)的成績(jī).
生成對(duì)抗網(wǎng)絡(luò)(GAN)[9]包括兩個(gè)對(duì)抗學(xué)習(xí)的子網(wǎng)絡(luò):一個(gè)生成器和一個(gè)判別器,它們基于最大?最小博弈理論同時(shí)進(jìn)行訓(xùn)練.生成器G的目的在于將一個(gè)d維的噪聲向量映射成一幅圖像,并盡可能地使生成的圖像接近真實(shí)圖像;另一方面,判別器D用來(lái)鑒別圖像是來(lái)自于生成器的虛假圖像還是來(lái)自真實(shí)數(shù)據(jù)的真實(shí)圖像.整個(gè)生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)可表示為
其中,x表示由真實(shí)數(shù)據(jù)pdata采樣得到的真實(shí)數(shù)據(jù),z表示從高斯分布pz采樣得到的d維噪聲向量.
條件生成對(duì)抗網(wǎng)絡(luò)(Conditional GANs)[15]通過(guò)引入輔助變量來(lái)控制模型的生成結(jié)果.在條件生成對(duì)抗網(wǎng)絡(luò)中,生成器基于輔助信息生成圖像,判別器基于輔助信息和圖像(虛假圖像或者真實(shí)圖像)做出判斷.整個(gè)網(wǎng)絡(luò)的目標(biāo)函數(shù)可表示為
其中,c表示引入的輔助變量,x′=G(z,c) 表示生成器生成的圖像.
除對(duì)抗損失外,以往的工作[20?21]還嘗試最小化真實(shí)圖像和虛假圖像之間的L1 或者L2 距離,這能夠幫助生成器合成與真實(shí)圖像更加相似的圖像.以往工作證明:相比于最小化L2 距離,最小化L1 距離更能夠幫助模型減少圖像中的模糊和失真,因此我們?cè)诒疚哪P椭幸彩褂昧薒1 距離.最小化L1 距離可表示為
因此這類條件生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)就是式(2)和式(3)之和.
這里首先對(duì)多視角生成任務(wù)進(jìn)行簡(jiǎn)短的定義.假設(shè)有一個(gè)多視角集合其中vi對(duì)應(yīng)某一具體視角,例如正面或者側(cè)面.一個(gè)物體在視角vi下的圖像定義為給定某個(gè)視角的圖像,多視角圖像生成任務(wù)是指生成其他不同視角的圖像,其中vj ∈V,ji.
本文提出的ViewGAN 模型的整體框架如圖2所示.假設(shè)我們要生成k種不同視角的圖像(例如:正面、側(cè)面和背面三種視角),我們使用k個(gè)生成器和一個(gè)判別器,其中分別表示第i個(gè)生成器和判別器的網(wǎng)絡(luò)參數(shù).表示從真實(shí)數(shù)據(jù)分布中采樣得到的某一視角的圖像,表示第i個(gè)生成器Gi生成的圖像.
圖2 ViewGAN 模型的整體框架Fig.2 The framework of ViewGAN
整個(gè)模型的訓(xùn)練可以分為兩個(gè)對(duì)抗學(xué)習(xí)過(guò)程:生成器的學(xué)習(xí)和判別器的學(xué)習(xí).第i個(gè)生成器Gi的目標(biāo)是生成視角vi下的圖像,并使得生成的圖像能夠欺騙判別器.換句話說(shuō),生成器的目標(biāo)在于最小化合成圖像與真實(shí)圖像之間的距離.與之相反,判別器的目的在于盡可能的區(qū)分k種視角下的虛假圖像和真實(shí)圖像,并針對(duì)虛假圖像計(jì)算出準(zhǔn)確的懲罰值.
生成器的整體框架如圖3 所示,圖中展示的是第j個(gè)生成器.訓(xùn)練時(shí)中生成圖像的過(guò)程分為3 步:1) 輸入已知視角vi下的圖像和目標(biāo)視角vj下的圖像,生成器首先使用粗粒度生成模塊生成低分辨率的目標(biāo)圖像2)采用蒙特卡洛搜索策略對(duì)低分辨率目標(biāo)圖像進(jìn)行N次采樣,從而得到N幅中間結(jié)果圖像;3) 引入注意力機(jī)制提取N幅中間結(jié)果圖像的特征,并將注意力機(jī)制的輸出與已知視角vi下的圖像輸入到細(xì)粒度生成模塊中,細(xì)粒度生成模塊生成最終結(jié)果,即高分辨率的目標(biāo)圖像.
圖3 生成器 ( Gj) 的整體框架Fig.3 The framework of the generator Gj
3.3.1 懲罰機(jī)制
為加強(qiáng)圖像生成過(guò)程中的語(yǔ)義約束,進(jìn)一步完善圖像中的語(yǔ)義細(xì)節(jié),我們提出了一種基于蒙特卡洛搜索策略的懲罰值機(jī)制.它使混合生成對(duì)抗網(wǎng)絡(luò)中每個(gè)生成器更加專注于生成相應(yīng)視角的圖像.
之后,我們將N張中間結(jié)果圖像和已知視角的圖像送入判別器,根據(jù)判別器的輸出結(jié)果計(jì)算懲罰值.計(jì)算過(guò)程可表示為
3.3.2 注意力機(jī)制
通過(guò)采樣得到N幅中間結(jié)果圖像后,我們希望參考中間結(jié)果圖像為下一步的生成提供充足的語(yǔ)義指導(dǎo).因此我們提出一種基于多通道的注意力機(jī)制,區(qū)別于以往工作中合成圖像僅從RGB 三通道空間中生成的方法,我們將采樣得到的N幅中間結(jié)果作為特征集來(lái)構(gòu)建更大的語(yǔ)義生成空間,模型通過(guò)參考不同通道的信息來(lái)提取更加細(xì)粒度的信息.并將計(jì)算結(jié)果輸入到細(xì)粒度生成模塊中,從而得到高分辨率目標(biāo)圖像.
3.3.3 目標(biāo)函數(shù)
綜上所述,生成器通過(guò)最小化以下目標(biāo)函數(shù)來(lái)不斷優(yōu)化
參考文獻(xiàn)[24]中有關(guān)半監(jiān)督學(xué)習(xí)的工作,我們使用了一種多類別判別器用來(lái)區(qū)分不同視角下的真實(shí)圖像和虛假圖像,判別器的輸入包括已知視角的圖像和目標(biāo)視角的圖像.
3.4.1 目標(biāo)函數(shù)
模型中包含k個(gè)生成器,每個(gè)生成器負(fù)責(zé)生成某一視角下的圖像,所以判別器要輸出k+1 種類的概率分布.前k個(gè)類別的概率值Di(i ∈1,···k)分別表示輸入圖像屬于第i種視角的概率,第k+1個(gè)類別的概率值表示輸入圖像是虛假圖像的概率.判別器通過(guò)最小化以下目標(biāo)來(lái)進(jìn)行優(yōu)化
其中,Pg表示生成器生成的圖像,Pdata表示真實(shí)數(shù)據(jù)分布.Iv表示任一視角的真實(shí)圖像,Ig表示以Iv作為輸入時(shí)生成器生成的圖像,表示視角vi下的真實(shí)圖像,Di(·) 表示判別器輸出結(jié)果中第i個(gè)類別的概率值,Lc表示類內(nèi)損失.下面詳細(xì)闡述類內(nèi)損失的含義,參數(shù)λ用于控制兩種損失的平衡.
下面詳細(xì)論述多類別判別器是如何協(xié)助每個(gè)生成器更專注于生成指定視角的圖像,避免出現(xiàn)圖像模糊或者模式崩塌現(xiàn)象.為了便于描述,這里使用X表示采樣得到的圖像對(duì),例如虛假圖像對(duì)(Iv,Ig)或者真實(shí)圖像對(duì)
首先,理想情況下第i個(gè)生成器可以學(xué)習(xí)到視角vi下圖像的真實(shí)分布.判別器的目標(biāo)函數(shù)如式(9)所示,且=1,Di ∈[0,1],?i.由此可以得到判別器學(xué)習(xí)到的最優(yōu)分布:
基于式(5),生成器的目標(biāo)是最小化以下等式:
3.4.2 類內(nèi)損失
判別器要對(duì)多個(gè)生成器生成的視角圖像進(jìn)行判斷,而每個(gè)視角的圖像之間具有一定的重合部分,僅采用GAN 網(wǎng)絡(luò)對(duì)抗損失進(jìn)行監(jiān)督學(xué)習(xí)容易導(dǎo)致圖像的視角類別預(yù)測(cè)錯(cuò)誤,因此我們?cè)趯?duì)抗損失的基礎(chǔ)上引入了類內(nèi)損失用于減小類內(nèi)特征差異,并增加類間差異.類內(nèi)損失可表示為
其中,δ(·) 是條件表達(dá)式,當(dāng)vi=vj即當(dāng)前圖像屬于視角vj時(shí),條件δ(vi=vj) 為1,其他情況下條件δ(vi=vj)為0.
訓(xùn)練時(shí)將k個(gè)生成器與多類別判別器進(jìn)行對(duì)抗學(xué)習(xí),并交替訓(xùn)練它們,優(yōu)化算法如算法1 所示.
算法1.ViewGAN 的對(duì)抗學(xué)習(xí)過(guò)程
對(duì)于多視角生成問(wèn)題,輸入和輸出之間存在大量底層特征共享,應(yīng)該直接將特征在網(wǎng)絡(luò)之間傳遞.為了解決網(wǎng)絡(luò)特征傳遞問(wèn)題,我們采用U-Net[25]作為生成器和判別器的基礎(chǔ)結(jié)構(gòu)并使用Conv-BNReLu 模塊作為中間結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如表1 和表2所示.其中CONV BLOCK 卷積塊由3 個(gè)串聯(lián)的卷積核大小為3 的卷積層和濾波器大小為2 的平均池化層組成,其中卷積層的步長(zhǎng)等于1 并采用1 個(gè)像素填充;DECONVBLOCK 由2 個(gè)串聯(lián)的卷積核大小為3 的卷積層和濾波器大小為2 的上采樣層組成,卷積層的設(shè)置與CONV BLOCK 相同;HIDDEN LAYER 由1 個(gè)大小為3 的卷積核的卷積層組成.
表1 生成器網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Generator network architecture
表2 判別器網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Discriminator network architecture
U-Net 是一種在編碼器和解碼器之間具有跳躍連接的網(wǎng)絡(luò),這種網(wǎng)絡(luò)結(jié)構(gòu)允許更多的原圖像紋理的信息在高層特征層中進(jìn)行傳播.對(duì)于每個(gè)生成器Gi,編碼器第一層卷積層濾波器大小為64,解碼器最后一層卷積層用于將通道數(shù)映射為輸出圖片通道數(shù)(彩色圖片為3 通道,黑白圖片為2 通道).除了編碼器的第一層卷積層,其余所有卷積層后都連接BatchNorm 層進(jìn)行特征歸一化.
1) DeepFashion[26].該數(shù)據(jù)集包含8697 幅服飾的多視角圖像,每件服飾具有三個(gè)視角:正面、側(cè)面和背面.從中挑選出6000 幅圖像作為訓(xùn)練集,2000幅圖像作為測(cè)試集,圖像尺寸為256×256 像素.
2) Dayton[27].該數(shù)據(jù)集包含超過(guò)13 萬(wàn)幅街道視角?鳥(niǎo)瞰視角的圖像,從中挑選出55000 幅圖像作為訓(xùn)練集,5000 幅圖像作為測(cè)試集.圖像的原始尺寸為354×354 像素,我們將圖像尺寸調(diào)整為256×256 像素.
3) ICG Lab6[28].該數(shù)據(jù)集包含6 名人員的室內(nèi)場(chǎng)景活動(dòng)圖,共使用4 個(gè)不同方位的靜態(tài)攝像頭進(jìn)行拍攝.從中挑選6000 幅圖像作為訓(xùn)練集,1500幅圖像作為測(cè)試集.圖像的原始尺寸為1024×768像素,我們將圖像尺寸調(diào)整為256×256 像素.
我們將本文模型與目前主流的多視角圖像生成、圖像翻譯模型進(jìn)行對(duì)比.
1) Pix2Pix[12].采用對(duì)抗損失學(xué)習(xí)從x∈X到y(tǒng) ∈Y的映射,其中,x和y分別表示不同域X和Y中的圖像,在圖像翻譯任務(wù)上取得了較好成績(jī).
2) X-Fork[2].與Pix2Pix 結(jié)構(gòu)類似,生成器通過(guò)學(xué)習(xí)映射:G:{Ia}→{Ib,Sb}來(lái)生成多視角圖像.其中Ia,Ib分別表示視角a和視角b下的圖像,Sa表示視角b下的語(yǔ)義分割圖.
3) X-Seq[2].兩個(gè)CGAN(G1,G2)的組合模型,其中G1 合成目標(biāo)視角的圖像,G2 基于G1 的輸出圖像合成目標(biāo)視角的語(yǔ)義分割圖.兩個(gè)生成器之間的輸入?輸出依賴約束了生成的圖像和語(yǔ)義分割圖,有效地提升了圖像的質(zhì)量.
4) VariGAN[4].變分自編碼器和GAN 網(wǎng)絡(luò)的組合模型,采用由粗到精的方法生成高分辨率的多視角圖像,在DeepFashion 等服飾數(shù)據(jù)集上取得了較好的結(jié)果.
5) SelectionGAN[5].在X-Seq 模型的基礎(chǔ)上引入了一種多通道注意力機(jī)制來(lái)選擇性地學(xué)習(xí)模型的中間結(jié)果,從而實(shí)現(xiàn)了一種由粗到精的級(jí)聯(lián)式語(yǔ)義指導(dǎo),使合成圖像具有更豐富的語(yǔ)義細(xì)節(jié).
在定量實(shí)驗(yàn)中,我們采用Inception score[24],Top-k預(yù)測(cè)準(zhǔn)確率指標(biāo)從高層特征空間的角度來(lái)評(píng)估合成圖像.此外,我們還采用一些像素級(jí)別的相似度指標(biāo)來(lái)衡量生成的圖像,包括:結(jié)構(gòu)相似性(Structural similarity,SSIM)、峰值信噪比(Peak signal-to-noise ratio,PSNR)和SD (Sharpness difference).
4.3.1 Inception score 和Top-k 預(yù)測(cè)準(zhǔn)確率
1) Inception score 指標(biāo).Inception score (IS)是一種面向生成模型的常見(jiàn)定量指標(biāo),它可以衡量模型生成的圖像是否清晰、生成的圖像是否多樣.其計(jì)算式為
其中,G表示生成器,x表示生成的圖像,y表示合成圖像的預(yù)測(cè)標(biāo)簽.
因?yàn)镈ayton 數(shù)據(jù)集和DeepFashion 數(shù)據(jù)集中包含了ImageNet 數(shù)據(jù)集[29]中未標(biāo)注的戶外物體類別和服裝類別,所以不能直接使用預(yù)訓(xùn)練的Inception 模型.對(duì)于Dayton 數(shù)據(jù)集,使用在Places數(shù)據(jù)集[30]上訓(xùn)練的AlexNet 模型[31]進(jìn)行評(píng)分;對(duì)于DeepFashion 數(shù)據(jù)集,使用預(yù)訓(xùn)練的PaperDoll[32]模型進(jìn)行評(píng)分;對(duì)于ICG Lab6 數(shù)據(jù)集,采用在ImageNet 數(shù)據(jù)集上訓(xùn)練的Inception 模型進(jìn)行評(píng)分.
同時(shí)我們注意到:這些預(yù)訓(xùn)練模型針對(duì)合成圖像輸出的置信度分?jǐn)?shù)較為分散,合成圖像并沒(méi)有包含所有類別的目標(biāo).因此我們只在Top-1 和Top-5類別上計(jì)算Inception score,其中 “Top-1”表示每幅圖像的預(yù)測(cè)標(biāo)簽中概率最大的k個(gè)標(biāo)簽不變,其余標(biāo)簽的概率進(jìn)行平滑處理.
2) Inception score 評(píng)估結(jié)果.基于Inception score 的實(shí)驗(yàn)結(jié)果如表3 所示.從實(shí)驗(yàn)結(jié)果可以看出:本文模型ViewGAN在DeepFashion 數(shù)據(jù)集和ICG Lab6 數(shù)據(jù)集上均優(yōu)于基線模型.其中Deep-Fashion 數(shù)據(jù)集的圖像風(fēng)格、服裝樣式等變化較大,以往模型很難生成這種多樣性較強(qiáng)的圖像,而本文模型通過(guò)采用分布式生成的方法,使模型有足夠的內(nèi)存來(lái)學(xué)習(xí)如何生成各種樣式的服裝以及同一服裝不同視角下的變化.ICG Lab6 數(shù)據(jù)集的圖像取自復(fù)雜的室內(nèi)環(huán)境,對(duì)圖像分辨率的要求較高.以往模型缺乏對(duì)圖像細(xì)節(jié)的補(bǔ)充,導(dǎo)致生成模糊、失真的圖像,而本文模型采用懲罰機(jī)制加強(qiáng)了對(duì)圖像語(yǔ)義細(xì)節(jié)的約束,能夠生成更加清晰的高質(zhì)量圖像.
表3 各模型Inception score 統(tǒng)計(jì)表,該指標(biāo)越高表明模型性能越好Table 3 Inception score of different models (For this metric,higher is better)
同時(shí)我們注意到ViewGAN 在Dayton 數(shù)據(jù)集下Top-1 類別的得分僅次于SelectionGAN.這主要是因?yàn)镈ayton 數(shù)據(jù)集中的多視角圖像是區(qū)別較大的戶外圖像,這種多視角圖像生成任務(wù)具有較大的難度,SelectionGAN 中引入了目標(biāo)圖像的語(yǔ)義分割圖來(lái)輔助生成,本文模型卻沒(méi)有引入外部知識(shí).因此本文模型生成的圖像具有一定的不確定性,從而導(dǎo)致圖像中存在模糊的區(qū)域,但ViewGAN 的得分與SelectionGAN 的得分很接近,這也表明了本文模型的潛力.
3) Top-k指標(biāo).此外,我們還計(jì)算了真實(shí)圖像和合成圖像的Top-k預(yù)測(cè)準(zhǔn)確率.我們使用與Inception score 同樣的與訓(xùn)練模型來(lái)獲得真實(shí)圖像的標(biāo)注和合成圖像的預(yù)測(cè)標(biāo)簽.實(shí)驗(yàn)計(jì)算了Top-1 預(yù)測(cè)準(zhǔn)確率和Top-5 預(yù)測(cè)準(zhǔn)確率.每種準(zhǔn)確率的計(jì)算方法有兩種方法:a)考慮所有的測(cè)試圖像;b)只考慮那些預(yù)測(cè)標(biāo)簽概率值超過(guò)0.5 的測(cè)試圖像.
4) Top-k評(píng)估結(jié)果.基于Top-k的實(shí)驗(yàn)結(jié)果如表4 所示.由實(shí)驗(yàn)結(jié)果可知:本文模型在3 個(gè)數(shù)據(jù)集上的性能均優(yōu)于基線模型,顯著提升了預(yù)測(cè)準(zhǔn)確率.這說(shuō)明本文模型生成圖像具有較高的清晰度、豐富的語(yǔ)義細(xì)節(jié),在復(fù)雜多變的DeepFashion 數(shù)據(jù)集和Dayton數(shù)據(jù)集上表現(xiàn)出了較強(qiáng)的魯棒性.
表4 各模型Top-k 預(yù)測(cè)準(zhǔn)確率統(tǒng)計(jì)表,該指標(biāo)越高表明模型性能越好Table 4 Accuracies of different models (For this metric,higher is better)
值得注意的是,本文模型在ICG Lab6 數(shù)據(jù)集上的準(zhǔn)確率要略低于在其他兩個(gè)數(shù)據(jù)集的準(zhǔn)確率.這主要是因?yàn)镮CG Lab6 數(shù)據(jù)集中的圖像包含較多小目標(biāo)物體,這對(duì)合成清晰圖像來(lái)說(shuō)本身就是一個(gè)很大的挑戰(zhàn),因此以往模型最高只達(dá)到了76.44%的準(zhǔn)確率.而本文模型引入基于蒙特卡洛搜索的懲罰機(jī)制,充分利用了模型的中間結(jié)果,保證了圖像具有更細(xì)致的語(yǔ)義細(xì)節(jié),最高達(dá)到了93.25%的準(zhǔn)確率.
4.3.2 結(jié)構(gòu)相似性、峰值信噪比和Sharpness difference
1) 指標(biāo).參考文獻(xiàn)[33?34]中的工作,我們利用結(jié)構(gòu)相似性、峰值信噪比和SD (Sharpness difference)指標(biāo)來(lái)衡量合成圖像與真實(shí)圖像之間的像素級(jí)相似度.
2) 結(jié)構(gòu)相似性(SSIM).基于圖像的亮度、對(duì)比度等屬性評(píng)估圖像之間的相似度,其取值范圍為[?1,1],值越大則圖像之間的相似度越高.結(jié)構(gòu)相似性的計(jì)算式為
其中,μIg,μIv分別表示合成圖像Ig和真實(shí)圖像Iv的均值,,分別表示圖像Ig和的標(biāo)準(zhǔn)差.c1,c2是為了避免分母為0 而引入的常數(shù).
3) 峰值信噪比(PSNR).通過(guò)測(cè)量到達(dá)噪音比率的頂點(diǎn)信號(hào)來(lái)評(píng)估合成圖像相對(duì)于真實(shí)圖像的質(zhì)量.峰值信號(hào)比越大,合成圖像的質(zhì)量越高.峰值信噪比的計(jì)算式為
4) SD (Sharpness difference)測(cè)量圖像生成過(guò)程中清晰度的損失,為了計(jì)算合成圖像和真實(shí)圖像之間的清晰度差異,我們參考文獻(xiàn)[35]中的思路,計(jì)算圖像之間的梯度變化
中的SharpDiff可看作是梯度的倒數(shù),我們希望圖像之間的梯度盡量小,所以SharpDiff就應(yīng)該盡量大.
5) 結(jié)果.基于SSIM,PSNR,SD 的實(shí)驗(yàn)結(jié)果如表5所示.由實(shí)驗(yàn)結(jié)果可以看出:本文模型ViewGAN在3 個(gè)數(shù)據(jù)集上的得分均高于基線模型的得分.相比于目前主流的SelectionGAN 模型,本文模型ViewGAN 在ICG Lab6 數(shù)據(jù)集上的SSIM 分?jǐn)?shù)提升了32.29%,SD 分?jǐn)?shù)提升了10.18%,在DeepFashion數(shù)據(jù)集上的PSNR 得分提升了14.32%.
表5 各模型SSIM,PSNR,SD 和速度統(tǒng)計(jì)表,其中FPS 表示測(cè)試時(shí)每秒處理的圖像數(shù)量,所有指標(biāo)得分越高表明模型性能越好Table 5 SSIM,PSNR,SD of different models.FPS is the number of images processed per second during testing(For all metrics,higher is better)
上述定量實(shí)驗(yàn)結(jié)果證明:面向室內(nèi)、室外等復(fù)雜環(huán)境,本文模型能夠?qū)W會(huì)如何生成高質(zhì)量多視角圖像,而不是簡(jiǎn)單地重復(fù)訓(xùn)練集中的圖像.這種分布式的生成方式使每個(gè)生成器專注于學(xué)習(xí)固定視角的圖像,提出的懲罰機(jī)制能夠進(jìn)一步完善圖像的語(yǔ)義細(xì)節(jié),使得生成的圖像更加逼真,顯著地化解了圖像中的人工痕跡.
6) 速度對(duì)比實(shí)驗(yàn).為驗(yàn)證各個(gè)模型在速度上的差異,我們?cè)贒ayton 數(shù)據(jù)集上對(duì)各個(gè)模型測(cè)試時(shí)的速度進(jìn)行了對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表5 所示,從實(shí)驗(yàn)結(jié)果看出:ViewGAN 的測(cè)試速度低于所有基線模型,這要是因?yàn)椴捎糜纱值骄膬呻A段生成方法勢(shì)必會(huì)造成計(jì)算量的增加,此外蒙特卡洛搜索耗時(shí)較多.但事實(shí)上,ViewGAN 和SelectionGAN 的速度差距不大,且62 幀/s 可以滿足實(shí)際應(yīng)用中的需要.
7) 最小數(shù)據(jù)量實(shí)驗(yàn).為了驗(yàn)證訓(xùn)練集規(guī)模對(duì)于模型性能的影響,我們?cè)贒eepFashion 數(shù)據(jù)集上對(duì)ViewGAN 的最小訓(xùn)練樣本量進(jìn)行了探究實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表6 所示,從實(shí)驗(yàn)結(jié)果可以看出:隨著訓(xùn)練集規(guī)模的縮小,ViewGAN 的性能下降較為緩慢.直至訓(xùn)練集規(guī)??s小至60%時(shí),ViewGAN 在各指標(biāo)上的得分才低于基線模型SelectionGAN 在完整數(shù)據(jù)集上的得分,這表明ViewGAN 具有較強(qiáng)的魯棒性,即使在小規(guī)模數(shù)據(jù)集上仍能學(xué)習(xí)到關(guān)鍵的特征信息,在一定程度上克服了以往模型泛化能力不強(qiáng)的缺點(diǎn).
表6 最小數(shù)據(jù)量實(shí)驗(yàn)結(jié)果Table 6 Minimum training data experimental results
在3 個(gè)數(shù)據(jù)集上的定性評(píng)估結(jié)果如圖4~ 6 所示,測(cè)試圖像的分辨率均為256×256 像素.從實(shí)驗(yàn)結(jié)果可以看出:本文模型ViewGAN 生成的圖像更加清晰,有關(guān)物體或場(chǎng)景的細(xì)節(jié)更豐富.在Deep-Fashion 數(shù)據(jù)集中,以往模型易生成模糊失真的圖像,ViewGAN 學(xué)會(huì)了如何生成多樣性強(qiáng)的服飾圖像,在服飾的圖案、人物的姿態(tài)上具有更多的語(yǔ)義細(xì)節(jié).在Dayton 數(shù)據(jù)集中,ViewGAN 能夠生成更加自然的圖像,圖像中的房屋、草木和汽車都更符合實(shí)際,減輕了圖像中的人工痕跡.在ICG Lab6數(shù)據(jù)集中,ViewGAN 在面對(duì)復(fù)雜環(huán)境時(shí)仍表現(xiàn)出較好的性能,圖像中的桌椅、電腦等小目標(biāo)都十分逼真,在清晰度方面非常接近真實(shí)圖像.
圖4 各模型在DeepFashion 數(shù)據(jù)集上的測(cè)試樣例Fig.4 Results generated by different models on DeepFashion dataset
為了分析本文模型中不同組件的功能,我們?cè)贒eepFashion 數(shù)據(jù)集上進(jìn)行了消融分析實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表7 所示.由實(shí)驗(yàn)結(jié)果可知:相比于模型A,模型B 的性能更好,這表明由粗到精的兩階段生成方法能夠更好地提升圖像的清晰度.模型C 的性能得到進(jìn)一步的提升,這是因?yàn)楸疚哪P筒捎玫幕旌仙蓪?duì)抗網(wǎng)絡(luò)有效地?cái)U(kuò)充模型的內(nèi)存容量,使得每個(gè)生成器更擅長(zhǎng)生成指定視角的圖像.模型D 通過(guò)引入類內(nèi)損失促進(jìn)了每個(gè)生成器的學(xué)習(xí),在提升系統(tǒng)穩(wěn)定性的同時(shí)提升了圖像的質(zhì)量.而模型E 的得分表明:而本文提出的懲罰機(jī)制顯著提升了模型的性能,使模型在生成過(guò)程中得到了充足的語(yǔ)義約束,這大大增強(qiáng)了合成圖像的清晰度和真實(shí)感.
表7 消融分析實(shí)驗(yàn)結(jié)果Table 7 Ablations study of the proposed ViewGAN
圖5 各模型在Dayton 數(shù)據(jù)集上的測(cè)試樣例Fig.5 Results generated by different models on Dayton dataset
為進(jìn)一步探索本文提出的基于蒙特卡洛搜索的懲罰機(jī)制,我們將ViewGAN 生成圖像的過(guò)程進(jìn)行了可視化,如圖7 所示.從圖中可以看出,低分辨率目標(biāo)圖像僅僅畫(huà)出了人物的基本輪廓,缺乏服飾的細(xì)節(jié).而利用蒙特卡洛搜索進(jìn)行多次挖掘后,提取出了不同層次的語(yǔ)義信息,如服飾的蕾絲邊、手臂的輪廓等,之后調(diào)用細(xì)粒度模塊將這些語(yǔ)義信息填補(bǔ)到目標(biāo)圖像中,從而得到最終逼真的高分辨率目標(biāo)圖像.
圖6 各模型在ICG Lab6 數(shù)據(jù)集上的測(cè)試樣例Fig.6 Results generated by different models on ICG Lab6 dataset
圖7 ViewGAN 生成圖像的可視化過(guò)程((a)輸入圖像;(b)粗粒度模塊合成的低分辨率目標(biāo)圖像;(c)蒙特卡洛搜索的結(jié)果;(d)細(xì)粒度模塊合成的高分辨率目標(biāo)圖像)Fig.7 Visualization of the process of ViewGAN generating images ((a) The input image;(b) The LR image generated by coarse image module;(c) Intermediate results generated by Monte Carlo search module;(d) The HR image generated by fine image module)
本文提出了一種多視角圖像生成模型ViewGAN,它可基于不同視角的圖像合成新視角的圖像.模型首先利用粗粒度模塊生成低分辨率目標(biāo)圖像,之后利用蒙特卡洛搜索挖掘中間結(jié)果的語(yǔ)義信息,細(xì)粒度模塊基于搜索結(jié)果合成高分辨率目標(biāo)圖像.在3個(gè)公開(kāi)數(shù)據(jù)集DeepFashion,Dayton 和ICG Lab6上的定量實(shí)驗(yàn)與定性實(shí)驗(yàn)證明:相比于目前的主流模型,本文模型能夠生成更加清晰的、多樣性的目標(biāo)圖像.其中消融分析實(shí)驗(yàn)證明了本文提出的基于蒙塔卡羅搜索的懲罰機(jī)制顯著提升了圖像的質(zhì)量.此外,本文模型可靈活遷移至多視角生成的各個(gè)場(chǎng)景,未來(lái)我們將進(jìn)一步探索該方法在圖像風(fēng)格遷移、圖像翻譯等領(lǐng)域的應(yīng)用.