基于Pix2Pix 的人臉?biāo)孛鑸D像生成方法研究

2022-02-07 09:19陶知眾王斌君崔雨萌閆尚義

智能計(jì)算機(jī)與應(yīng)用 2022年12期

陶知眾，王斌君，崔雨萌，閆尚義

（中國(guó)人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院，北京 100038）

0 引言

圖像風(fēng)格轉(zhuǎn)換是指將一幅圖像從所在的原圖像域轉(zhuǎn)換到目標(biāo)圖像域，使其在保留圖像原本內(nèi)容的同時(shí)又能具有目標(biāo)圖像域風(fēng)格的一種圖像處理技術(shù)。圖像風(fēng)格轉(zhuǎn)換在社交娛樂(lè)和藝術(shù)創(chuàng)作領(lǐng)域具有十分廣闊的應(yīng)用前景，因此受到學(xué)術(shù)界和企業(yè)領(lǐng)域的高度關(guān)注。早期的圖像風(fēng)格轉(zhuǎn)換被看作是圖像紋理生成問(wèn)題，即通過(guò)設(shè)置一定的約束條件，使生成的圖像既包含了原圖像的語(yǔ)義內(nèi)容，又具有目標(biāo)圖像域的紋理特征［1］。而自深度學(xué)習(xí)問(wèn)世以來(lái)，很多基于深度學(xué)習(xí)的圖像處理算法也已相繼提出，利用深度學(xué)習(xí)來(lái)處理圖像風(fēng)格轉(zhuǎn)換問(wèn)題的各種研究也陸續(xù)展開(kāi)。Gatys 等人［2］提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格轉(zhuǎn)換方法，通過(guò)預(yù)訓(xùn)練的VGG-19［3］模型提取輸入圖像的內(nèi)容特征圖和風(fēng)格特征圖，并使用在此基礎(chǔ)上定義的內(nèi)容損失函數(shù)和風(fēng)格損失函數(shù)生成圖像，該方法生成的圖像效果優(yōu)于許多傳統(tǒng)的機(jī)器學(xué)習(xí)算法。Goodfellow 等人［4］提出的生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Networks，GAN）因其生成圖像質(zhì)量高、易于實(shí)現(xiàn)、兼容各種網(wǎng)絡(luò)模型等優(yōu)點(diǎn)而倍受關(guān)注，很多基于GAN 的風(fēng)格轉(zhuǎn)換模型也取得重大突破，其中包括CycleGAN［5］、StarGAN［6］及Pix2Pix［7］等。研究可知，CycleGAN 模型通過(guò)添加循環(huán)一致性損失函數(shù)，解決了在圖像風(fēng)格轉(zhuǎn)換任務(wù)中缺少監(jiān)督訓(xùn)練數(shù)據(jù)集的問(wèn)題。StarGAN 模型則解決了多個(gè)圖像領(lǐng)域間風(fēng)格轉(zhuǎn)換的問(wèn)題，使其可以只經(jīng)一次訓(xùn)練便可實(shí)現(xiàn)多個(gè)圖像風(fēng)格間的轉(zhuǎn)換。Pix2Pix 模型則在cGAN［8］的基礎(chǔ)上，將U-Net［9］作為生成器，PatchGAN 作為鑒別器，如此一來(lái)則可以生成質(zhì)量較高的圖像，并且因?yàn)槠浣Y(jié)構(gòu)簡(jiǎn)單，易于訓(xùn)練等特點(diǎn)，目前在圖像生成領(lǐng)域比較流行。

由于人臉圖像細(xì)節(jié)較為豐富，而采用Pix2Pix模型很難捕捉到這些細(xì)節(jié)中所包含的信息，導(dǎo)致生成的人臉畫(huà)像在五官、臉部輪廓等細(xì)節(jié)豐富部位會(huì)出現(xiàn)模糊、信息缺失等問(wèn)題。文中針對(duì)該問(wèn)題，提出一種改進(jìn)Pix2Pix 模型。在Pix2Pix 基礎(chǔ)上，研究的主要?jiǎng)?chuàng)新點(diǎn)包括：

（1）在原Pix2Pix 模型的生成器和鑒別器中引入自注意力模塊（Self-Attention Mechanism，SAM），使模型能夠更好地學(xué)習(xí)到人臉的空間輪廓特點(diǎn)，從而解決生成圖像在人臉五官等部位細(xì)節(jié)模糊或缺失等問(wèn)題。

（2）在原Pix2Pix 生成器的損失函數(shù)中引入了內(nèi)容-風(fēng)格損失函數(shù)，使生成器生成的素描圖像在不丟失原圖像細(xì)節(jié)內(nèi)容的同時(shí)，在觀感上更接近手繪素描圖像。

（3）針對(duì)原Pix2Pix 模型訓(xùn)練難度大、難以收斂等問(wèn)題，提出了改進(jìn)的訓(xùn)練方法，進(jìn)而降低模型整體訓(xùn)練難度，加速模型收斂。

1 相關(guān)基礎(chǔ)理論

1.1 Pix2Pix

GAN 是一種由生成器（Generator）和鑒別器（Discriminator）共同構(gòu)成的深度學(xué)習(xí)模型。其中，生成器負(fù)責(zé)學(xué)習(xí)訓(xùn)練集輸入數(shù)據(jù)的概率分布規(guī)律并生成具有相似概率分布的輸出數(shù)據(jù)；鑒別器負(fù)責(zé)評(píng)估輸入數(shù)據(jù)來(lái)自訓(xùn)練集或生成器的概率。訓(xùn)練過(guò)程中生成器和鑒別器一同訓(xùn)練，鑒別器的訓(xùn)練目標(biāo)是能夠正確區(qū)分輸入數(shù)據(jù)是來(lái)自訓(xùn)練集或者生成器，而生成器的目標(biāo)是盡量使鑒別器做出錯(cuò)誤的判斷。通過(guò)讓2 個(gè)模型進(jìn)行對(duì)抗訓(xùn)練，使生成器生成數(shù)據(jù)的概率分布更接近真實(shí)數(shù)據(jù)，而鑒別器對(duì)生成數(shù)據(jù)和真實(shí)數(shù)據(jù)的鑒別能力也隨之提高，并最終達(dá)到一種平衡狀態(tài)。目前，GAN 越來(lái)越受到學(xué)術(shù)界重視，尤其是在計(jì)算機(jī)視覺(jué)領(lǐng)域，許多基于GAN 的深度學(xué)習(xí)模型也逐漸進(jìn)入學(xué)界視野，并已廣泛應(yīng)用在如圖像風(fēng)格轉(zhuǎn)換［4-6］、超分辨率［10-11］、圖像復(fù)原［12-13］等圖像處理任務(wù)上，繼而不斷向著其他領(lǐng)域擴(kuò)展，具有廣泛的應(yīng)用前景［14-15］。

Pix2Pix 是由Isola 等人［7］提出的一種專門(mén)用于處理圖像翻譯問(wèn)題的條件生成對(duì)抗網(wǎng)絡(luò)模型。該模型包含了一個(gè)生成器和一個(gè)鑒別器，其中生成器可以根據(jù)輸入圖像生成其在目標(biāo)圖像域的對(duì)應(yīng)圖像，而鑒別器則是嘗試分辨輸入圖像的真實(shí)性。Pix2Pix 模型結(jié)構(gòu)如圖1 所示。

圖1 Pix2Pix 模型結(jié)構(gòu)示意圖Fig. 1 Structure of Pix2Pix module

圖1 中，x，y分別表示2 個(gè)不同圖像域X，Y中的圖像。在訓(xùn)練生成器G時(shí)，將x輸入到生成器中，生成具有Y圖像域風(fēng)格的圖像y' ＝G（x）。在訓(xùn)練鑒別器D時(shí)，則將y或y'和x一同輸入到鑒別器D中，D輸出圖像來(lái)自生成器G的概率。

Pix2Pix 模型的損失函數(shù)主要由條件對(duì)抗生成損失函數(shù)lcGAN和L1損失函數(shù)lL1兩部分組成，其中l(wèi)cGAN的表達(dá)式見(jiàn)如下：

式（1）中，生成器以輸入的真實(shí)圖像作為條件，試圖生成符合真實(shí)圖像分布的對(duì)應(yīng)虛假圖像并欺騙鑒別器，因此生成器的訓(xùn)練目標(biāo)是盡量減??；而鑒別器則在觀察真實(shí)圖像的基礎(chǔ)上試圖分辨輸入的對(duì)應(yīng)圖像的真實(shí)性，因此鑒別器的訓(xùn)練目標(biāo)是盡量增大。損失函數(shù)的表達(dá)式如式（2）所示：

損失函數(shù)用來(lái)確保生成器在生成虛假對(duì)應(yīng)圖像時(shí)，除了要考慮使虛假對(duì)應(yīng)圖像在概率分布上更接近真實(shí)對(duì)應(yīng)圖像外，還應(yīng)使其在像素層面更接近于真實(shí)圖像。因此，Pix2Pix 模型的最終損失函數(shù)具體如下：

其中，參數(shù)γ為損失函數(shù)的權(quán)重，控制著條件對(duì)抗生成損失函數(shù)和損失函數(shù)的相對(duì)重要性。

Pix2Pix 的生成器采用了U-Net 框架。相較于傳統(tǒng)的編-解碼器框架，Pix2Pix 生成器網(wǎng)絡(luò)在第i卷積層和第n -i卷積層之間增加了直連路徑，其中n是生成器網(wǎng)絡(luò)總層數(shù)，每一個(gè)直連路徑會(huì)將第i層各信道信息拼接在第n -i層各信道之后。通過(guò)增加直連路徑，Pix2Pix 的生成網(wǎng)絡(luò)可以使輸入圖像和輸出圖像共享低層信息，同時(shí)也確保了梯度信息能夠在深層網(wǎng)絡(luò)中有效傳播，改善深層網(wǎng)絡(luò)性能。同時(shí)，Pix2Pix 生成器網(wǎng)絡(luò)還在某些層中使用了Dropout，以取代GAN 中作為輸入的噪聲。生成器的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

圖2 Pix2Pix 模型的生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Generator network structure of Pix2Pix model

Pix2Pix 的鑒別器使用的是PatchGAN 結(jié)構(gòu)。不同于傳統(tǒng)鑒別器，PatchGAN 的輸出是一個(gè)n × n的矩陣，矩陣中每一個(gè)元素的值代表對(duì)輸入圖像對(duì)應(yīng)圖像區(qū)塊的判別結(jié)果，訓(xùn)練過(guò)程中，再通過(guò)將鑒別器產(chǎn)生的矩陣元素均值作為整幅圖像的最終判別結(jié)果，PatchGAN 通過(guò)將鑒別器的注意力集中在圖像各個(gè)子區(qū)塊的方式，使鑒別器可以更好地處理圖像高頻部分，同時(shí)，采用PatchGAN 結(jié)構(gòu)的鑒別器相較于傳統(tǒng)分類網(wǎng)絡(luò)具有更少的參數(shù)，更短的訓(xùn)練周期，并且通過(guò)調(diào)整n的大小，PatchGAN 可以應(yīng)用于任意尺寸的圖像，并使生成的圖像保持較高質(zhì)量。

1.2 自注意力機(jī)制

注意力機(jī)制（Attention Mechanism，AM ）是一種改進(jìn)神經(jīng)網(wǎng)絡(luò)的方法，主要是通過(guò)添加權(quán)重的方式，強(qiáng)化重要程度高的特征并弱化重要程度較低的特征，從而改善神經(jīng)網(wǎng)絡(luò)模型的性能［16］，注意力機(jī)制得到的權(quán)重既可以應(yīng)用在信道上［17-18］，也可以應(yīng)用在特征圖或其它方面［19-20］。

自注意力機(jī)制是由Zhang 等人［21］提出的一種專門(mén)用于生成對(duì)抗網(wǎng)絡(luò)中的注意力機(jī)制變體，其結(jié)構(gòu)如圖3 所示。針對(duì)卷積層的信息感受能力會(huì)受到卷積核大小的影響而無(wú)法高效捕捉到各個(gè)圖像中同類物體的具體特征（如某種動(dòng)物的毛發(fā)紋理特征、人的肢體結(jié)構(gòu)特點(diǎn)等）這一問(wèn)題，自注意力機(jī)制通過(guò)計(jì)算輸入特征圖中每一個(gè)位置在整個(gè)特征圖中的權(quán)重，使整個(gè)網(wǎng)絡(luò)可以更快注意到不同輸入圖像中各物體的空間和紋理特征，從而針對(duì)輸入圖像的不同部位分配不同的權(quán)重，達(dá)到增強(qiáng)生成圖像質(zhì)量的效果。鑒于在人臉?biāo)孛枭扇蝿?wù)中，輸入人臉照片和輸出的人臉?biāo)孛鑸D像在結(jié)構(gòu)上具有高度的關(guān)聯(lián)性以及相似性，因此自注意力機(jī)制可以幫助神經(jīng)網(wǎng)絡(luò)更快地定位人臉細(xì)節(jié)豐富區(qū)域，并且更好地學(xué)習(xí)到各部分的統(tǒng)計(jì)特征，從而提高最終生成的人臉?biāo)孛鑸D像的質(zhì)量。

圖3 自注意力機(jī)制模塊圖Fig. 3 Structure of self-attention mechanism

1.3 內(nèi)容-風(fēng)格損失函數(shù)

內(nèi)容-風(fēng)格損失函數(shù)（Content -Style loss Function）是由Gatys 等人［2］在2016 年提出的一種專門(mén)用于圖像風(fēng)格轉(zhuǎn)換問(wèn)題上的損失函數(shù)，其原理是使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分別對(duì)內(nèi)容圖像、風(fēng)格圖像和生成圖像進(jìn)行特征提取，通過(guò)計(jì)算提取到的特征圖像之間的差異來(lái)衡量生成圖像在內(nèi)容和風(fēng)格上與對(duì)應(yīng)圖像的差異。內(nèi)容-風(fēng)格損失函數(shù)由內(nèi)容損失函數(shù)和風(fēng)格損失函數(shù)兩部分組成。其中，內(nèi)容損失函數(shù)計(jì)算公式可表示為：

其中，g為生成圖像；c為內(nèi)容圖像；Fl和Pl分別為預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)第l層提取的生成圖像g和內(nèi)容圖像c的特征圖矩陣。

風(fēng)格損失函數(shù)計(jì)算公式可表示為：

其中，g為生成圖像；s為風(fēng)格圖像；Gl和Al分別為生成圖像和風(fēng)格圖像在預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)第l層的風(fēng)格特征矩陣；N和M為第l層風(fēng)格特征矩陣的行數(shù)和列數(shù)。Gatys 等人［2］將圖像在神經(jīng)網(wǎng)絡(luò)第l層的風(fēng)格特征矩陣定義為該層特征圖的格拉姆矩陣（Gram matrix），其計(jì)算公式可表示為：

最終，內(nèi)容-風(fēng)格損失函數(shù)計(jì)算公式可表示為：

其中，a和b分別為內(nèi)容損失函數(shù)和風(fēng)格損失函數(shù)的權(quán)重。

2 基于自注意力機(jī)制和風(fēng)格遷移的Pix2Pix

2.1 模型結(jié)構(gòu)

鑒于自注意力機(jī)制能更好地發(fā)現(xiàn)圖像中大范圍特征間的依賴關(guān)系，所以，在空間尺寸越大的特征圖上、自注意力機(jī)制發(fā)揮的作用也就越大，但與此同時(shí)更大尺寸的特征圖也會(huì)顯著增加模型訓(xùn)練的時(shí)間成本。因此本文將自注意力機(jī)制添加到生成器網(wǎng)絡(luò)中最后3 層之間，以達(dá)到在增強(qiáng)生成圖像質(zhì)量目的同時(shí)盡量減小網(wǎng)絡(luò)訓(xùn)練成本。文中提出的改進(jìn)Pix2Pix 模型的生成器網(wǎng)絡(luò)模型如圖4 所示。

圖4 基于自注意力機(jī)制的Pix2Pix 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Network structure of Pix2Pix generator based on self-attention mechanism

生成器的編碼器卷積層參數(shù)設(shè)置均為：卷積核尺寸為4×4，步長(zhǎng)為2，特征圖邊緣填充為1，填充方式為鏡像填充，激活函數(shù)使用LeakyRelu，其參數(shù)設(shè)置為0.2；解碼器反卷積層參數(shù)設(shè)置為：卷積核大小為4×4，步長(zhǎng)為2，特征圖邊緣填充為1，填充方式為鏡像填充，激活函數(shù)使用ReLu函數(shù)，前兩層卷積網(wǎng)絡(luò)使用Dropout，概率設(shè)置為0.5。鑒別器網(wǎng)絡(luò)模型如圖5 所示。

圖5 基于自注意力機(jī)制的Pix2Pix 鑒別器網(wǎng)絡(luò)結(jié)構(gòu)Fig. 5 Network structure of Pix2Pix discriminator based on selfattention mechanism

鑒別器卷積層參數(shù)設(shè)置為：卷積核尺寸為4×4，特征圖邊緣填充為1，填充方式為鏡像填充，前三層卷積核步長(zhǎng)為2，后兩層卷積步長(zhǎng)為1。所有卷積層都采用LeakyReLu為激活函數(shù)，其參數(shù)設(shè)置為0.2。

由于在圖像風(fēng)格轉(zhuǎn)換問(wèn)題中，生成圖像的風(fēng)格主要依賴于風(fēng)格圖像的對(duì)比度信息，因此生成器在生成圖像時(shí)應(yīng)該盡量屏蔽內(nèi)容圖像中的對(duì)比度信息，而批歸一化（Batch Normalization）［22］并不能很好地消除來(lái)自內(nèi)容圖像中的對(duì)比度信息，因此在改進(jìn)的Pix2Pix 模型的生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)中，使用實(shí)例歸一化（Instance Normalization）［23］代替了批歸一化。對(duì)于輸入的一組特征圖，IN 對(duì)每一特征圖的每一信道進(jìn)行歸一化處理，從而更好地消除了每個(gè)特征圖中包含的特殊信息，減少了圖像生成過(guò)程中的干擾，并加快了生成器網(wǎng)絡(luò)的收斂過(guò)程。

2.2 損失函數(shù)

改進(jìn)Pix2Pix 模型的損失函數(shù)的具體表達(dá)式為：

其中，lcGAN（G，D）為Pix2Pix 模型中生成器和鑒別器的對(duì)抗損失函數(shù)；lL1為Pix2Pix 生成器生成圖像和手繪人臉圖像的L1損失；lcs為內(nèi)容-風(fēng)格損失函數(shù)，這里a設(shè)為1，b設(shè)為0.1；α和β分別為控制損失函數(shù)和內(nèi)容風(fēng)格損失函數(shù)的權(quán)重，α設(shè)為100，β設(shè)為1。在計(jì)算內(nèi)容損失函數(shù)lcontent（g，c）時(shí)，本文選擇VGG16 網(wǎng)絡(luò)第二層中的第二個(gè)卷積層來(lái)提取生成素描和人臉照片的內(nèi)容特征；而在計(jì)算風(fēng)格損失函數(shù)lstyle（g，s）時(shí)，則選擇VGG16 網(wǎng)絡(luò)中第四和第五層中的第一個(gè)卷積層來(lái)提取生成素描和對(duì)應(yīng)手繪素描的風(fēng)格特征。

2.3 改進(jìn)訓(xùn)練方法

GAN 的訓(xùn)練是一個(gè)生成器和鑒別器互相博弈的過(guò)程，在這個(gè)過(guò)程中生成器試圖生成與實(shí)際數(shù)據(jù)盡量相似的數(shù)據(jù)騙過(guò)鑒別器，而鑒別器則試圖區(qū)分輸入數(shù)據(jù)是否是真實(shí)數(shù)據(jù)，理論上，隨著訓(xùn)練的進(jìn)行，二者性能逐漸提高，并最終達(dá)到一種穩(wěn)定狀態(tài)。但在實(shí)際訓(xùn)練過(guò)程中，由于生成器和鑒別器網(wǎng)絡(luò)訓(xùn)練難度不同、所采用的優(yōu)化算法、學(xué)習(xí)率設(shè)置和數(shù)據(jù)集等因素影響，很難使2 個(gè)網(wǎng)絡(luò)同時(shí)收斂或達(dá)到納什均衡，造成生成器部分或完全崩潰，以及某一模型收斂過(guò)快導(dǎo)致另一模型梯度消失等問(wèn)題。因此，為了使GAN 訓(xùn)練過(guò)程更穩(wěn)定，文章采用的策略可做闡釋論述如下。

（1）在生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)中使用譜歸一化（Spectral Normalization）。根據(jù)Ulyanov 等人［23］的研究，在生成器和鑒別器網(wǎng)絡(luò)中使用譜歸一化可以約束每層網(wǎng)絡(luò)參數(shù)的譜范數(shù)，從而使網(wǎng)絡(luò)參數(shù)在更新過(guò)程中變化更平滑，整個(gè)訓(xùn)練過(guò)程更加穩(wěn)定。

（2）生成器和鑒別器采用不同的初始學(xué)習(xí)率及學(xué)習(xí)率調(diào)整策略。由于鑒別器的訓(xùn)練難度比生成器低，導(dǎo)致其損失很快收斂到一個(gè)非常低的值，無(wú)法為生成器梯度更新提供有效信息。因此，為了使生成器和鑒別器能夠在訓(xùn)練過(guò)程中保持一種較為平衡的狀態(tài)，讓兩者能夠互相學(xué)習(xí)，在訓(xùn)練開(kāi)始時(shí)分別為兩者設(shè)置不同的學(xué)習(xí)率，并在隨后的訓(xùn)練過(guò)程中根據(jù)具體訓(xùn)練效果采用不同的學(xué)習(xí)率更新策略。

3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)的硬件平臺(tái)為QEMU Virtual CPU Version 2.5＋，使用NVIDIA Tesla V100-SXM2-32 GB 進(jìn)行加速處理。數(shù)據(jù)集使用CUFS（CUHK Face Sketch Database），該數(shù)據(jù)集共包含606 對(duì)人臉-素描圖像。實(shí)驗(yàn)選取CUFS 數(shù)據(jù)集中594 張素描人臉圖像作為訓(xùn)練數(shù)據(jù)集；選取CUFS 數(shù)據(jù)集中12 張學(xué)生人臉圖像作為測(cè)試圖像；將所有訓(xùn)練圖像和測(cè)試圖像的大小縮放為256*256 像素，并通過(guò)以50%的概率對(duì)人臉圖像-素描對(duì)進(jìn)行水平翻轉(zhuǎn)和亮度隨機(jī)調(diào)整的方式對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)。生成器和鑒別器的優(yōu)化器采用Adam 算法，用于計(jì)算梯度以及梯度平方的運(yùn)行平均值的參數(shù)beta1 和beta2 分別設(shè)置為0.5 和0.99，生成器的初始學(xué)習(xí)率設(shè)置為1e-3，鑒別器的初始學(xué)習(xí)率設(shè)置為1e-4。訓(xùn)練過(guò)程中，當(dāng)生成器的損失函數(shù)無(wú)法下降、并超過(guò)10 個(gè)epoch時(shí)，其學(xué)習(xí)率下降10 倍；當(dāng)鑒別器的損失函數(shù)無(wú)法下降、并超過(guò)30 個(gè)epoch時(shí)，其學(xué)習(xí)率下降10 倍。訓(xùn)練共進(jìn)行200 個(gè)epoch，訓(xùn)練結(jié)束時(shí)生成器的學(xué)習(xí)率為1e-8，鑒別器的學(xué)習(xí)率為1e-8。

為更好地展示改進(jìn)Pix2Pix 模型在人臉?biāo)孛鑸D像生成任務(wù)上的有效性，本文將改進(jìn)模型的生成人臉?biāo)孛鑸D像與Pix2Pix 模型和CycleGAN 模型生成的人臉?biāo)孛鑸D像進(jìn)行對(duì)比，上述所有模型在相同實(shí)驗(yàn)平臺(tái)上訓(xùn)練了200 個(gè)epoch。

3.1 改進(jìn)訓(xùn)練方法效果比較

為驗(yàn)證本文提出的改進(jìn)GAN 訓(xùn)練方法的有效性，將原Pix2Pix、分別采用譜歸一化和不同學(xué)習(xí)率更新策略的Pix2Pix 以及采用本文訓(xùn)練方法的Pix2Pix 在實(shí)驗(yàn)數(shù)據(jù)集下分別訓(xùn)練150 個(gè)epoch，并觀察在每個(gè)epoch后生成器損失函數(shù)值變化情況。最終結(jié)果如圖6 所示。

圖6 原Pix2Pix 和采用不同訓(xùn)練方法后的Pix2Pix 在150 個(gè)epoch內(nèi)損失函數(shù)變化對(duì)比Fig. 6 Comparison of loss function changes of original Pix2Pix and Pix2Pix after using different training methods within 150 epochs

從圖6 可以看出，采用譜歸一化和不同學(xué)習(xí)率更新策略的Pix2Pix 相比于原Pix2Pix 生成器在訓(xùn)練過(guò)程中損失函數(shù)下降更快，但下降過(guò)程中仍然波動(dòng)較大，而采用本文訓(xùn)練方法的Pix2Pix 生成器在訓(xùn)練過(guò)程中不僅損失函數(shù)下降相比原Pix2Pix 更快，下降過(guò)程中其波動(dòng)也比其它3 種更小，從而證明本文改進(jìn)GAN 訓(xùn)練方法的有效性。

3.2 生成圖像質(zhì)量比較

為更好地驗(yàn)證文中改進(jìn)Pix2Pix 模型在人臉?biāo)孛枭扇蝿?wù)中的有效性，除將其與原Pix2Pix 模型進(jìn)行對(duì)比外，還選擇了GycleGAN 模型與其進(jìn)行對(duì)比分析。GycleGAN 模型作為圖像翻譯領(lǐng)域中另一經(jīng)典模型，因其訓(xùn)練時(shí)不需要成對(duì)數(shù)據(jù)集、易于實(shí)現(xiàn)以及生成圖像質(zhì)量高等特點(diǎn)，一經(jīng)提出便受到了廣泛關(guān)注，因此選擇將其作為參照對(duì)象可以使參照實(shí)驗(yàn)結(jié)果更具有代表性。

改進(jìn)模型生成圖像與其它模型生成圖像對(duì)比如圖7 所示，通過(guò)對(duì)比發(fā)現(xiàn)，文中提出的改進(jìn)Pix2Pix模型生成的人臉?biāo)孛璞萈ix2Pix 和CycleGAN 生成的圖像人臉輪廓更清晰，細(xì)節(jié)部分保留更完整，表情更明顯，噪點(diǎn)更少，同時(shí)在整體觀感上更接近人工繪制素描。

圖7 生成圖像質(zhì)量對(duì)比Fig. 7 Generated images quality comparison

3.3 生成圖像量化比較

為量化評(píng)價(jià)改進(jìn)Pix2Pix 模型生成的圖像質(zhì)量，本文采用特征相似度（Feature Similarity Index Measure，F(xiàn)SIM）作為系統(tǒng)評(píng)價(jià)指標(biāo)［24］。相較于SSIM［25］和MS -SSIM［26］，F(xiàn)SIM充分考慮了圖像視覺(jué)信息的冗余性和人類視覺(jué)系統(tǒng)主要通過(guò)低級(jí)特征來(lái)理解圖像的特點(diǎn)，并且更偏向于清晰度較高的圖像［27］。FSIM通過(guò)計(jì)算2 幅圖像的相位一致區(qū)域和圖像梯度幅值來(lái)評(píng)價(jià)這2 幅圖像在人類視覺(jué)系統(tǒng)中的相似度。其中，相位一致區(qū)域用來(lái)尋找一張數(shù)字圖像在人類視覺(jué)系統(tǒng)中會(huì)被認(rèn)為是“信息量豐富”的區(qū)域，而圖像梯度幅值用來(lái)彌補(bǔ)相位一致性無(wú)法感知圖像局部對(duì)比度變化對(duì)圖像整體視覺(jué)效果產(chǎn)生影響的不足。在測(cè)試集上各模型所得FSIM分?jǐn)?shù)見(jiàn)表1。由表1 數(shù)據(jù)可知，改進(jìn)Pix2Pix 模型在測(cè)試集上得分為0.648 3，相比原Pix2Pix 模型和CycleGAN模型分別提高了0.020 6和0.027 6，從量化指標(biāo)上進(jìn)一步說(shuō)明了文中提出的改進(jìn)Pix2Pix 模型在人臉?biāo)孛枭扇蝿?wù)中的有效性。此外，相比于原Pix2Pix和CycleGAN 模型更低的分?jǐn)?shù)方差也說(shuō)明除生成的素描圖像質(zhì)量更好之外，改進(jìn)Pix2Pix 模型在穩(wěn)定性上相較于其它對(duì)比模型也更有優(yōu)勢(shì)。

表1 各模型在測(cè)試集上FSIM 得分Tab.1 FSIM score of each model on the test set

3.4 消融實(shí)驗(yàn)

本文通過(guò)消融實(shí)驗(yàn)對(duì)比分析，進(jìn)一步驗(yàn)證了文中提出的改進(jìn)Pix2Pix 模型中各改進(jìn)點(diǎn)在人臉?biāo)孛枭扇蝿?wù)中的優(yōu)化效果，實(shí)驗(yàn)結(jié)果見(jiàn)表2。從表2數(shù)據(jù)可知，原Pix2Pix 在測(cè)試集上FSIM得分為0.627 7，引入自注意力機(jī)制后，增強(qiáng)了原Pix2Pix 模型細(xì)節(jié)特征提取能力，將測(cè)試集上FSIM分?jǐn)?shù)提高了0.108；而通過(guò)在生成器的損失函數(shù)中加入內(nèi)容-風(fēng)格損失函數(shù)，亦提高了模型在測(cè)試集上的表現(xiàn)。綜合上述2 種改進(jìn)后，相較于原Pix2Pix 模型，本文提出的改進(jìn)Pix2Pix 模型有效地提高了生成的人臉?biāo)孛鑸D像質(zhì)量，說(shuō)明了改進(jìn)Pix2Pix 模型在人臉?biāo)孛枭扇蝿?wù)中的有效性。

表2 消融實(shí)驗(yàn)Tab.2 Ablation experiments

4 結(jié)束語(yǔ)

文中主要對(duì)Pix2Pix 的生成器模型進(jìn)行改進(jìn)，將自注意力機(jī)制用于生成器和鑒別器網(wǎng)絡(luò)中，減小無(wú)用信息對(duì)生成器的影響，加強(qiáng)生成器對(duì)輸入圖像中的人臉重要部分的學(xué)習(xí)，提升生成的人臉?biāo)孛鑸D像的質(zhì)量；并在生成器損失函數(shù)中引入了內(nèi)容-風(fēng)格損失函數(shù)，使生成網(wǎng)絡(luò)在生成人臉?biāo)孛鑸D像時(shí)既保留人臉照片中的細(xì)節(jié)部分，又能使圖像更接近素描風(fēng)格。同時(shí)，量化比較實(shí)驗(yàn)表明，改進(jìn)Pix2Pix 在測(cè)試集上的FSIM得分比Pix2Pix 和CycleGAN 分別高出了2%和2.7%，進(jìn)一步說(shuō)明了改進(jìn)Pix2Pix 在人臉?biāo)孛枭扇蝿?wù)中的有效性。但與此同時(shí)，該改進(jìn)模型依然存在一些問(wèn)題，如對(duì)非正面拍攝的人臉圖像效果較差。因此今后的工作便是提出能針對(duì)各種不同場(chǎng)景下不同角度的人臉圖像也能生成質(zhì)量較高的人臉?biāo)孛鑸D像的生成方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡