基于條件生成對抗網(wǎng)絡(luò)的圖像生成

2019-09-10 07:22陸萍董虎勝

甘肅科技縱橫 2019年7期

陸萍董虎勝

摘要由于生成對抗網(wǎng)絡(luò)能夠比較好地捕捉訓(xùn)練數(shù)據(jù)的內(nèi)在分布，進而生成近乎以假亂真的數(shù)據(jù)，在最近幾年中受到了廣泛的關(guān)注。但是生成對抗網(wǎng)絡(luò)仍存在模型過于自由，生成對象不可控的不足。本文對引入了條件約束的生成對抗網(wǎng)絡(luò)模型進行了研究，并設(shè)計了基于輪廓約束的建筑圖片生成模型。由于在模型訓(xùn)練時使用了外形輪廓進行引導(dǎo)，生成的圖像能夠做到可控可預(yù)測。實驗結(jié)果表明該模型具有非常優(yōu)秀的圖像合成效果。

關(guān)鍵詞生成對抗網(wǎng)絡(luò)，條件約束，圖像合成

0引言

在機器學(xué)習(xí)領(lǐng)域中，生成模型占有著重要的地位，它通過學(xué)習(xí)數(shù)據(jù)的內(nèi)在分布獲取假設(shè)分布的模型參數(shù)，進而能夠使用學(xué)習(xí)到的模型采樣出符合該分布的樣本。但是使用傳統(tǒng)的生成學(xué)習(xí)算法通常需要對數(shù)據(jù)的分布進行假設(shè)，進而使用最大似然估計、馬爾科夫鏈等方法學(xué)習(xí)模型參數(shù)，但受到樣本數(shù)的限制，學(xué)習(xí)到的模型在性能上受到了一定的制約。與這些方法相比，生成對抗網(wǎng)絡(luò)（Generative Adversarial Net， GAN）采用了零和博弈的思想來學(xué)習(xí)真實的數(shù)據(jù)分布，通過生成器（Generator）與判別器（Discriminator）的對抗來優(yōu)化提高模型的生成能力與判別能力，因此無需假設(shè)數(shù)據(jù)的分布就可以很好地學(xué)習(xí)到數(shù)據(jù)的內(nèi)在分布。近年來在圖像生成與圖像合成等方向上，GAN模型得到了廣泛的應(yīng)用和深入的研究。

但是GAN模型在訓(xùn)練時采用了“粗放”式的訓(xùn)練方式，所有訓(xùn)練樣本被不加約束的送入模型訓(xùn)練，這使得GAN模型在用于圖像生成時具有不可控制的不足，生成的圖像自由度過高且不可預(yù)測。而條件約束的GAN模型由于引入標簽約束，因此能夠比較好的避免該問題。本文對條件GAN（Conditional GAN， CGAN）模型進行了研究，并基于CGAN設(shè)計了引入輪廓約束的建筑圖片生成模型。

1 GAN模型

GAN模型包含了兩個基本結(jié)構(gòu)：生成器和判別器。生成器的輸入為隨機噪聲，輸出是與真實訓(xùn)練數(shù)據(jù)具有相同結(jié)構(gòu)的樣本。判別器接收來自于真實訓(xùn)練集的樣本與，并盡力對它們進行分類。如果輸入樣本為，則置其標簽為0;如果輸入為真實樣本，則置其標簽為1。在訓(xùn)練階段，努力地讓自己生成的數(shù)據(jù)與來自真實訓(xùn)練集的樣本表現(xiàn)一致，而則盡力地區(qū)分出當前樣本是由生成器生成的還是取自于真實訓(xùn)練集。這種相互對抗并迭代優(yōu)化的過程會使得不論是生成器還是判別器的性能都能夠得到不斷提升，最終將無法正確地判別數(shù)據(jù)的來源，也就是的分類概率將趨于1/2。此時可以認為生成器學(xué)習(xí)到了真實數(shù)據(jù)的分布，由其生成的樣本一般能夠取得“以假亂真”的效果。

若假設(shè)噪聲服從概率為的分布，真實訓(xùn)練樣本服從概率為的分布，GAN模型的學(xué)習(xí)目標可以表達為如下的函數(shù)形式：

式中與分別指代判別器分類概率的數(shù)學(xué)期望，從式中可知GAN模型的訓(xùn)練實際上是一個min-max的博弈過程。

2 CGAN模型

在GAN模型中不需要對訓(xùn)練數(shù)據(jù)的分布作假設(shè)，使用了從數(shù)據(jù)中直接采樣并訓(xùn)練的方法，在理論上能夠完全逼近真實數(shù)據(jù)分布。但是GAN也存在模型過于自由的缺點，使用訓(xùn)練好的GAN模型生成數(shù)據(jù)時存在不可控與不可預(yù)測的不足。特別是在圖像數(shù)據(jù)的生成中，像素分布空間巨大，使用GAN模型生成的圖像在類別上隨機，有時會生成大量與需要無關(guān)的結(jié)果。為了對GAN模型進行約束，可以在GAN模型訓(xùn)練中添加引導(dǎo)變量（也稱為條件變量），在使用作為標簽來約束GAN模型中的生成器和判別器后，就可以獲得在指定類別的數(shù)據(jù)。這種添加了約束條件的GAN模型也被稱為條件GAN（Conditional GAN， CGAN）模型，它的目標可以被表達為如下的函數(shù)：

從上式可知CGAN與原始GAN模型的差異僅在于模型中引入了條件約束變量，但是這樣的改進使得的模型具有了類別的約束，訓(xùn)練后的生成器能夠生成指定條件的數(shù)據(jù)。與GAN相同，CGAN在訓(xùn)練中也采用了交替迭代優(yōu)化和的方式。

3 本文圖像生成模型

根據(jù)對CGAN模型的分析，本文設(shè)計了根據(jù)指定輪廓生成建筑圖像的CGAN模型，該模型接收如圖1所示的輪廓圖（左）和建筑圖（右），其中輪廓圖用作為訓(xùn)練樣本，建筑圖作為模型引導(dǎo)條件。在創(chuàng)建CGAN模型時，采用了UNet架構(gòu)設(shè)計了生成器，使用8個卷積層與8個反卷積層從輪廓圖中生成偽樣本。在設(shè)計判別器時，采用了5卷積層配合Sigmoid層的網(wǎng)絡(luò)結(jié)構(gòu)。

在生成器中接收用訓(xùn)練輪廓圖，首先通過8個卷積層進行卷積運算。這些卷積層的卷積核被統(tǒng)一設(shè)置為[4， 4，， ]尺寸，其中為輸入的通道數(shù)，為輸出通道數(shù)，卷積設(shè)置移動步長均為2。在該部分使用的激活函數(shù)均為Leaky ReLU函數(shù)，且在每層中均使用了批歸一化處理方法來增強模型的收斂性能。在接收256×256×3的輸入圖像后，各卷積層輸出的特征圖（feature map）尺寸分別為：128×128×64、64×64×128、32×32×256、16×16×512、8×8×512、4×4×512、2×2×512、1×1×512。由于采用了UNet結(jié)構(gòu)，接下來的8層反卷積結(jié)構(gòu)中執(zhí)行了對應(yīng)的類逆向處理，使用的反卷積核大小為[4， 4，， ]，步長為2。但是在該過程中使用了ReLU激活函數(shù)，且將各前一個反卷積層的輸出與對應(yīng)卷層積的輸出作了拼接（concatenation）運算。在最后一個反卷積層中使用的是激活函數(shù)，這樣在將輸出結(jié)果加上1再乘127.5后即可轉(zhuǎn)換為Uint8的像素值。

本文在判別器的結(jié)構(gòu)設(shè)計上較生成器簡化了很多，其接收的數(shù)據(jù)為輸入圖像及其標簽在通道維度上作拼接運算后的結(jié)果。在經(jīng)過5個卷積層后，輸出的結(jié)果被送入層獲得分類輸出概率。在每個卷積層中使用的卷積核均為[4， 4，， ]的結(jié)構(gòu)，步長值為2，且每層均應(yīng)用了批歸一化處理與Leaky ReLU激活函數(shù)。各層輸出的特征圖大小分別為：128×128×64、64×64×128、32×32×256、32×32×512、32×32×1。

4 實驗

應(yīng)用上節(jié)描述的CGAN圖像生成模型，本文使用圖1所示的訓(xùn)練樣本（輪廓圖）及對應(yīng)標簽（建筑圖）對設(shè)計的模型進行了訓(xùn)練與測試。訓(xùn)練使用的建筑圖像數(shù)據(jù)集facade由https：//phillipi.github.io/pix2pix/下載獲得，該數(shù)據(jù)集中收集了600張歐式建筑及其對應(yīng)的輪廓圖。由于這些圖像大小不統(tǒng)一，實驗中將它們的尺寸統(tǒng)一為256×256像素大小，并隨機選擇了300張圖像用作為訓(xùn)練集，剩余作為測試集。實驗使用的硬件環(huán)境為Nvidia GTX 1080顯卡，軟件環(huán)境為PyTorch。

實驗中在訓(xùn)練集上迭代約10萬次后判別器趨于收斂，模型分類概率基本維持在0.5左右浮動。此時生成器生成的圖像如圖2所示，其中由左至右分別為訓(xùn)練輪廓圖、生成圖像與原建筑圖像，可以看出此時生成的圖像已經(jīng)基本上較好地逼近了用作為標簽的原建筑圖像。

利用訓(xùn)練好的生成模型在測試集上測試時獲得了如圖3所示的生成效果，可以看出在測試集上模型基本表現(xiàn)出了良好的生成效果，基本上還原了輪廓圖中的建筑外觀。

5 結(jié)束語

本文對具有條件約束的對抗生成網(wǎng)絡(luò)CGAN模型進行了研究，并基于PyTorch深度學(xué)習(xí)框架設(shè)計了建筑圖像生成模型。實驗中使用了facade數(shù)據(jù)集中的圖像進行了模型的訓(xùn)練，實驗結(jié)果表明CGAN模型在引入了條件約束和引導(dǎo)后能夠獲得優(yōu)秀的圖像生成性能。

參考文獻

[1] Goodfellow Ian， Pouget-Abadie Jean，Mirza Mehdi et al. Generative adversarial nets[C]//Advances in neural information processing systems， 2014：2672-2680.

[2] Mirza， Mehdi and Osindero， Simon. Conditional generative adversarial nets[J]. arXiv preprint arXiv：1411.1784， 2014.

[3] 孫全，曾曉勤.基于生成對抗網(wǎng)絡(luò)的圖像修復(fù)[J]，計算機科學(xué)，2018，45（12）：229-234，261.

[4] Bousmalis Konstantinos， Silberman Nathan， Dohan David et al. Unsupervised pixel-level domain adaptation with generative adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition， 2017， 3722--3731

[5] Isola Phillip， Zhu Jun-Yan， Zhou Tinghui et al. Image-to-image translation with conditional adversarial networks [C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2017， 1125--1134.

作者信息：

陸萍（1979-），女，江蘇太倉人，副教授/碩士，研究方向為數(shù)字圖像處理

董虎勝（1981.04-），男，江蘇泗洪人，講師，研究方向為機器學(xué)習(xí)與計算機視覺

基金項目：江蘇省高等院校國內(nèi)高級訪問學(xué)者計劃資助項目（2018GRFX052）;江蘇省2019年青藍工程骨干教師培養(yǎng)對象

甘肅科技縱橫2019年7期

甘肅科技縱橫的其它文章: 我國科學(xué)家研究出一種分米級單晶薄膜的制備新方法; 基于高速公路機電系統(tǒng)安全運行評價分析; 高校數(shù)字圖書館中當前技術(shù)和未來趨勢; 望海寨鉬礦某邊坡爆破動載作用下降振研究; “米格印相法”與PS法和系數(shù)法測定胡麻葉面積方法的比較研究; 幾種藥劑防治小菜蛾試驗研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于條件生成對抗網(wǎng)絡(luò)的圖像生成