国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

條件約束下的自我注意生成對(duì)抗網(wǎng)絡(luò)

2019-12-24 06:29:18賈宇峰
關(guān)鍵詞:卷積條件樣本

賈宇峰,馬 力

(西安郵電大學(xué) 計(jì)算機(jī)學(xué)院,陜西西安710061)

近年來(lái),生成分辨率更高和更逼真的圖像是一個(gè)具有挑戰(zhàn)性的問(wèn)題。早期的生成模型[1-3]由于訓(xùn)練復(fù)雜性的限制,建模非常困難,使得大規(guī)模數(shù)據(jù)下目標(biāo)函數(shù)變得極難求解。文獻(xiàn)[4]在2014年提出生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN),為解決圖像生成問(wèn)題提供了一個(gè)特征學(xué)習(xí)模型框架,生成對(duì)抗網(wǎng)絡(luò)的顯著特點(diǎn)在于不直接以數(shù)據(jù)分布和模型分布的差異為目標(biāo)函數(shù),轉(zhuǎn)而采用對(duì)抗的方式進(jìn)行學(xué)習(xí),直到達(dá)到納什平衡[5]。目前,各種變異生成對(duì)抗網(wǎng)絡(luò)架構(gòu)在許多特定任務(wù)中取得了令人矚目的成果,如圖像生成[6-7]、圖像到圖像的轉(zhuǎn)換[8-9]、視頻預(yù)測(cè)[10]、圖像風(fēng)格轉(zhuǎn)換[11-12]、圖像超分辨率[13]和文本到圖像的生成[14-15]等。

已知生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練不穩(wěn)定,容易發(fā)生模式崩潰。為了解決這個(gè)問(wèn)題,深度卷積生成對(duì)抗網(wǎng)絡(luò)(Deep Convolutional GAN, DCGAN)[16]引入卷積結(jié)構(gòu)并提出了幾種啟發(fā)式技巧(如特征匹配、單側(cè)標(biāo)簽平滑、虛擬批量歸一化、重建損失[17]等)以提高訓(xùn)練穩(wěn)定性。文獻(xiàn) [18]使用Lipschitz約束的Earth-Mover(EM)[19]距離來(lái)解決消失的梯度飽和的Jensen-Shannon距離問(wèn)題。最小二乘生成對(duì)抗網(wǎng)絡(luò)(Least Squares GAN, LSGAN)[20]在判別器上采用了最小平方損失函數(shù)?;谀芰康纳墒綄?duì)抗網(wǎng)絡(luò)(Energy-Based GAN,EBGAN)[21]采用自動(dòng)編碼器替換判別器進(jìn)行訓(xùn)練,旨在將判別器作為能量函數(shù)。邊界平衡生成對(duì)抗網(wǎng)絡(luò)(Boundary Equilibrium GAN, BEGAN)[22-23]提出了一種新的均衡方法,表現(xiàn)出逼真的面部生成?;谧晕易⒁饬ι蓪?duì)抗網(wǎng)絡(luò)(Self-Attention GAN,SAGAN)[24]首次在生成器和判別器中引入自我注意力模塊,解決了圖像遠(yuǎn)距離空間局部細(xì)節(jié)不清晰問(wèn)題和訓(xùn)練穩(wěn)定性,使得生成對(duì)抗網(wǎng)絡(luò)在圖像的生成上有了新的進(jìn)步。

受條件生成對(duì)抗網(wǎng)絡(luò)(Conditional GAN, CGAN)[25]的監(jiān)督思想的啟發(fā),筆者提出了一種基于條件自我注意生成對(duì)抗網(wǎng)絡(luò),所提方法的創(chuàng)新之處主要體現(xiàn)以下兩個(gè)方面:

(1)生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)中同時(shí)引入條件特征學(xué)習(xí)分布誤差的相似度作為監(jiān)督信息,使得生成模型生成特定的樣本。

(2)引入用于衡量圖像像素級(jí)差別損失中的L1損失函數(shù),使得網(wǎng)絡(luò)在注重圖像的特征信息的同時(shí)兼顧了圖像像素信息重建,L1損失函數(shù)的引入也使得網(wǎng)絡(luò)取得更好的性能和收斂速度。

1 生成對(duì)抗網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)[4]是由生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D兩部分構(gòu)成的。D的任務(wù)是將G生成的樣本與訓(xùn)練數(shù)據(jù)區(qū)分開來(lái)。而G是通過(guò)生成分布接近訓(xùn)練數(shù)據(jù)分布的樣本來(lái)混淆D。整個(gè)過(guò)程G和D同時(shí)訓(xùn)練,構(gòu)成了一個(gè)動(dòng)態(tài)的“二人博弈游戲”(Two-Player Minmax Game)。生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)如式(1):

(1)

1.1 條件生成對(duì)抗網(wǎng)絡(luò)

CGAN[25]與GAN[4]的主要不同處是,CGAN把無(wú)監(jiān)督生成對(duì)抗網(wǎng)絡(luò)改進(jìn)為有監(jiān)督的生成對(duì)抗網(wǎng)絡(luò)模型,對(duì)生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D都引入條件變量c,增加額外信息指導(dǎo)數(shù)據(jù)的生成過(guò)程,生成指定類別的樣本。CGAN的目標(biāo)函數(shù)如式(2)所示:

(2)

其中,條件變量c就是加入的監(jiān)督信息,CGAN接收條件變量c與隨機(jī)噪聲z作為輸入,通常c可以是其他任意的輔助信息,比如類型標(biāo)簽和其他的數(shù)據(jù)類型,并且將c作為附加輸入層輸入到判別器和生成器來(lái)執(zhí)行調(diào)節(jié)。

1.2 自我注意生成對(duì)抗網(wǎng)絡(luò)

傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)[4]模型都依賴卷積操作,它只適合處理鄰域信息,在計(jì)算遠(yuǎn)距離特征上效率很低,即是在低分辨率特征圖的空間局部點(diǎn)上來(lái)生成高分辨率的細(xì)節(jié),而SAGAN[24]是可以從所有的特征處生成細(xì)節(jié),并且SAGAN的判別器可以判別兩幅具有明顯差異的圖像是否具有一致的高度精細(xì)特征。SAGAN的創(chuàng)新就是在判別器和生成器上加入自我注意力模塊[28](Self-Attention Mechanism),幫助網(wǎng)絡(luò)從圖像較遠(yuǎn)部分捕捉細(xì)節(jié),有效地解決了生成對(duì)抗網(wǎng)絡(luò)目前存在的問(wèn)題:當(dāng)訓(xùn)練多類別數(shù)據(jù)集時(shí),生成對(duì)抗網(wǎng)絡(luò)容易捕捉紋理特征但很難捕捉幾何結(jié)構(gòu)特征。SAGAN中的自我注意力模塊如圖1所示。

圖1 注意力機(jī)制模塊結(jié)構(gòu)圖

LD=-E(x,y)~pdata[min(0,-1+D(x,y))]-Ez~pz,y~pdata[min(0,-1-D(G(z),y))] ,

(3)

LG=-Ez~pz,y~pdataD(G(z),y) 。

(4)

2 改進(jìn)的條件自我注意生成對(duì)抗網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)是一種無(wú)監(jiān)督模型,它直接進(jìn)行采樣,從而真正達(dá)到理論上可以完全逼近真實(shí)數(shù)據(jù),這是生成對(duì)抗網(wǎng)絡(luò)最大的優(yōu)勢(shì)。然而,這種不需要預(yù)先建模的方法缺點(diǎn)是太過(guò)自由,生成結(jié)果不太可控?;跅l件生成對(duì)抗網(wǎng)絡(luò)的監(jiān)督思想,在生成器和判別器上引入條件變量,使用額外信息指導(dǎo)數(shù)據(jù)生成過(guò)程,生成指定類別的圖像。并結(jié)合SAGAN網(wǎng)絡(luò)模型的優(yōu)點(diǎn),提出了C-SAGAN模型,其核心思想主要是通過(guò)添加條件特征信息,生成特定類型的高質(zhì)量清晰的圖像。C-SAGAN的原理示意如圖2所示。

圖2 條件自我注意生成對(duì)抗網(wǎng)絡(luò)原理圖

模型的生成器接收隨機(jī)噪聲z與條件特征c作為輸入,生成一張圖片,再將生成的圖片與原條件特征輸入進(jìn)判別器當(dāng)中,同時(shí)判別器接收加入條件特征的真實(shí)圖片x|c作為輸入。C-SAGAN的優(yōu)化函數(shù)將式(3)、(4)中的先驗(yàn)概率x,y變?yōu)楹篁?yàn)概率x|c,y|c,如下所示。

LG=-E(x,y)~pdata[min(0,-1+D(x|c,y|c))]-
Ez~pz,y~pdata[min(0,-1-D(G(z|c)),y|c)]+L1,

(5)

LD=-Ez~pz,y~pdataD(G(z|c),y|c) ,

(6)

其中,L1=λ∑j=1|ωj|。為了提高生成圖像的質(zhì)量,在生成器的后面添加L1正則化損失函數(shù),使得生成器生成的圖像更加平滑,收斂速度更快。

2.1 生成網(wǎng)絡(luò)

C-SAGAN生成器的結(jié)構(gòu)如圖3所示。生成網(wǎng)絡(luò)主要由卷積特征提取模塊、深度注意力殘差模塊、圖像上采樣模塊、圖像重建模塊4部分組成。生成網(wǎng)絡(luò)參數(shù)設(shè)置批次大小、圖像大小、卷積深度均為64,輸入數(shù)據(jù)大小為(64,64),同時(shí)輸入條件特征c(40維),經(jīng)過(guò)卷積層,數(shù)據(jù)大小變?yōu)?64,128,1,1),進(jìn)入深度注意力殘差模塊,經(jīng)過(guò)前三層網(wǎng)絡(luò)后數(shù)據(jù)大小變?yōu)?64,512,4,4),(64,256,8,8),(64,128,16,16);第3層之后計(jì)算self-attention ,其中map1為(64,256,256),再經(jīng)過(guò)一層卷積層變?yōu)?64,64,32,32);在第4層之后也有self-attention層,map2大小為(64,1 024,1 024)。之后再經(jīng)過(guò)上采樣層與最后一層卷積核為4×4,步長(zhǎng)為2的卷積層變?yōu)?64,3,64,64),生成器的輸出圖像的大小為64×64。

圖3 C-SAGAN生成器結(jié)構(gòu)

2.2 判別網(wǎng)絡(luò)

C-SAGAN判別器的結(jié)構(gòu)如圖4所示。判別網(wǎng)絡(luò)設(shè)定參數(shù)每批次大小、圖像大小、卷積深度均為64,輸入圖像的大小為64×64,同時(shí)輸入條件特征c(40維),前3層的網(wǎng)絡(luò)結(jié)構(gòu)基本一致,通道的大小在不斷增加,但是尺寸的大小在減小,由輸入數(shù)據(jù)(64,3,64,64)變?yōu)?64,256,8,8),前3層結(jié)束后,進(jìn)行一層self-attention層,此時(shí)尺寸大小不變,還是(64,256,8,8),map1為(64,64,64),在經(jīng)過(guò)一次卷積層變?yōu)?64,512,4,4),第4個(gè)卷積層結(jié)束之后,再進(jìn)行一次self-attention,輸出第二個(gè)注意力模塊map2為(64,16, 16),經(jīng)過(guò)最后一層卷積層變?yōu)?64,1,1,1),使用squeeze()把shape中為1的維度去掉,判別器的輸出大小為(64)。

圖4 C-SAGAN判別器結(jié)構(gòu)

3 實(shí) 驗(yàn)

實(shí)驗(yàn)在CelebA[26]數(shù)據(jù)集和MNIST[27]數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)在Intel(R) Xeon(R) CPU E5-2 620 v4 @ 2.10GHz處理器,一塊NVIDIA Tesla P100 GPU顯卡,TensorFlow環(huán)境上進(jìn)行。

3.1 CelebA數(shù)據(jù)集

3.1.1 數(shù)據(jù)集預(yù)處理

CelebA數(shù)據(jù)集是一個(gè)大規(guī)模人臉特征數(shù)據(jù)集,每個(gè)圖像具有40個(gè)屬性標(biāo)簽(如“男”“眼睛”“胡子”“劉?!钡?。包含10 177種身份,202 599個(gè)面部圖像和5個(gè)地標(biāo)位置。首先在原始圖像臉部周圍裁剪生成128×128像素大小的圖像并縮小至64×64像素,最后將64×64像素的圖像作為模型輸入。

3.1.2 參數(shù)設(shè)置

實(shí)驗(yàn)在CelebA數(shù)據(jù)集上迭代訓(xùn)練50個(gè)epoch,每一個(gè)epoch的迭代次數(shù)為10 000次。訓(xùn)練每一批圖片的數(shù)量均為64,使用的優(yōu)化器是Adam,其中參數(shù)beta1設(shè)置為0.5,beta2設(shè)置為0.9,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的初始學(xué)習(xí)率分別為0.000 1和0.000 4,學(xué)習(xí)率衰減因子為0.95。

3.1.3 實(shí)驗(yàn)結(jié)果與分析

圖5是模型C-SAGAN使用條件特征生成的樣本。在實(shí)驗(yàn)過(guò)程中,每1、3行添加的條件特征是男性,2、4行添加的是女性特征,經(jīng)過(guò)5次迭代后生成樣本圖像,模型就可以學(xué)習(xí)到準(zhǔn)確的特征。但圖像存在噪聲且圖像的細(xì)節(jié)存在缺陷,人臉輪廓不清晰,當(dāng)?shù)?0次后,模型生成的樣本圖像細(xì)節(jié)效果清晰,具有多樣性且特征明顯。

圖5 CelebA生成樣本

圖6 CelebA添加條件特征生成樣本與SAGAN生成樣本

圖6(a)、(b)、(c)、(d)是在模型C-SAGAN上經(jīng)過(guò)30次迭代后生成的樣本,圖6(e)是SAGAN迭代50次后的結(jié)果。圖6(a)是加入男性、黑發(fā)條件特征的圖像,圖6(b)是加入女性、金發(fā)條件特征的圖像,圖6(c)是加入黑皮膚條件特征的圖像,圖6(d)是加入白皮膚條件特征的圖像。從圖中可以看出,C-SAGAN模型在30次迭代后就可以達(dá)到SAGAN模型訓(xùn)練50次后得到的樣本,并且C-SAGAN生成的樣本特征更明顯,輪廓更分明,細(xì)節(jié)更清晰。

圖7 CelebA監(jiān)督模型生成樣本對(duì)比圖

圖7為C-SAGAN與目前主流的加入條件特征的生成模型,主要包括條件生成對(duì)抗網(wǎng)絡(luò)(CGAN),深度卷積生成對(duì)抗網(wǎng)絡(luò)(DCGAN),基于Wasserstein距離的WGAN和基于條件自我注意生成對(duì)抗網(wǎng)絡(luò)(C-SAGAN)。從圖中可以看出,經(jīng)過(guò)15次迭代后生成的樣本圖像,CGAN與DCGAN生成模型生成的樣本性別特征區(qū)分不明顯,存在模式崩潰且圖像不平滑,WGAN模型生成的樣本性別特征相比較與CGAN與DCGAN較明顯,圖片質(zhì)量較好,C-SAGAN相比其他監(jiān)督模型,生成的樣本清晰,人臉五官輪廓特征明顯,因此,C-SAGAN模型生成的樣本圖片質(zhì)量更好,收斂速度更快。

3.2 MNIST數(shù)據(jù)集

MNIST數(shù)據(jù)集是包含70 000張手寫數(shù)字的灰度圖片,其中有60 000個(gè)訓(xùn)練樣本和10 000個(gè)測(cè)試樣本,每張圖片的大小為28×28像素點(diǎn),總共有0~9的10個(gè)類別。

圖8 MNIST生成樣本

圖8是在模型C-SAGAN上生成的效果。在實(shí)驗(yàn)過(guò)程中,每列分別表示輸入的條件特征為 0~9,使用條件特征生成的樣本總共迭代30次,僅僅經(jīng)過(guò)了1次迭代,模型就學(xué)習(xí)到了非常準(zhǔn)確的特征,但圖像不清晰,有大量的噪聲。當(dāng)?shù)竭_(dá) 30 次迭代后,生成器已經(jīng)能夠生成清晰的圖像,并且圖像平滑且具有多樣性。

圖9 MNIST監(jiān)督模型生成樣本對(duì)比圖

圖9為使用同CelebA實(shí)驗(yàn)相同的加入條件特征的模型對(duì)比圖。從圖中可以看出,經(jīng)過(guò)5次迭代后生成的樣本圖像,除C-SAGAN 外,其他的生成模型生成的樣本都存在噪聲且均不平滑。

3.3 評(píng)價(jià)指標(biāo)

為了定量地評(píng)估生成圖片的質(zhì)量,筆者采用弗雷歇距離(Fréchet Inception Distance, FID)評(píng)估標(biāo)準(zhǔn)衡量生成樣本的質(zhì)量。弗雷歇距離是一個(gè)更具有原則性和綜合性的指標(biāo),它可以更好地捕捉生成圖像與真實(shí)圖像的相似性,符合人類的區(qū)分準(zhǔn)則。弗雷歇距離值越低,意味著生成的圖像有更好的圖像質(zhì)量和多樣性。表1展示了筆者提出的方法與其他生成模型相比較的最佳弗雷歇距離值。

表1 不同模型FID值對(duì)比圖

4 結(jié)束語(yǔ)

筆者提出一種基于條件自我注意力生成對(duì)抗網(wǎng)絡(luò)(C-SAGAN)的監(jiān)督模型,結(jié)合SAGAN的優(yōu)點(diǎn),引入條件特征,從而對(duì)特定類型的圖像進(jìn)行生成。相比于目前主流的加入監(jiān)督類型的生成對(duì)抗網(wǎng)絡(luò)方法,如DCGAN,WGAN等,筆者提出的方法在CelebA、MNIST數(shù)據(jù)集上生成指定類型的樣本具有良好的表現(xiàn),生成圖像的質(zhì)量和多樣性都具有一定的優(yōu)勢(shì),弗雷歇距離值相比較于SAGAN分別提高了1.26和2.47。但同時(shí)發(fā)現(xiàn),在圖像包含復(fù)雜的細(xì)節(jié)特征的情況下,條件特征信息仍有一定局限。不過(guò),相對(duì)于簡(jiǎn)單的條件屬性特征,C-SAGAN仍是一種較為理想的有監(jiān)督生成模型。

猜你喜歡
卷積條件樣本
排除多余的條件
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
選擇合適的條件
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
推動(dòng)醫(yī)改的“直銷樣本”
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
為什么夏天的雨最多
村企共贏的樣本
阿克陶县| 闽侯县| 哈尔滨市| 平和县| 台东市| 会东县| 军事| 准格尔旗| 康定县| 股票| 平潭县| 叙永县| 环江| 安图县| 余庆县| 高尔夫| 卓资县| 鄂尔多斯市| 澄江县| 西青区| 阿巴嘎旗| 故城县| 保山市| 广水市| 大田县| 正镶白旗| 定边县| 潢川县| 桦南县| 南和县| 板桥市| 滕州市| 墨玉县| 汝阳县| 毕节市| 延吉市| 望谟县| 宜良县| 玉溪市| 临夏市| 泾阳县|