陶知眾,王斌君,崔雨萌,閆尚義
(中國(guó)人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 100038)
圖像風(fēng)格轉(zhuǎn)換是指將一幅圖像從所在的原圖像域轉(zhuǎn)換到目標(biāo)圖像域,使其在保留圖像原本內(nèi)容的同時(shí)又能具有目標(biāo)圖像域風(fēng)格的一種圖像處理技術(shù)。圖像風(fēng)格轉(zhuǎn)換在社交娛樂(lè)和藝術(shù)創(chuàng)作領(lǐng)域具有十分廣闊的應(yīng)用前景,因此受到學(xué)術(shù)界和企業(yè)領(lǐng)域的高度關(guān)注。早期的圖像風(fēng)格轉(zhuǎn)換被看作是圖像紋理生成問(wèn)題,即通過(guò)設(shè)置一定的約束條件,使生成的圖像既包含了原圖像的語(yǔ)義內(nèi)容,又具有目標(biāo)圖像域的紋理特征[1]。而自深度學(xué)習(xí)問(wèn)世以來(lái),很多基于深度學(xué)習(xí)的圖像處理算法也已相繼提出,利用深度學(xué)習(xí)來(lái)處理圖像風(fēng)格轉(zhuǎn)換問(wèn)題的各種研究也陸續(xù)展開(kāi)。Gatys 等人[2]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格轉(zhuǎn)換方法,通過(guò)預(yù)訓(xùn)練的VGG-19[3]模型提取輸入圖像的內(nèi)容特征圖和風(fēng)格特征圖,并使用在此基礎(chǔ)上定義的內(nèi)容損失函數(shù)和風(fēng)格損失函數(shù)生成圖像,該方法生成的圖像效果優(yōu)于許多傳統(tǒng)的機(jī)器學(xué)習(xí)算法。Goodfellow 等人[4]提出的生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)因其生成圖像質(zhì)量高、易于實(shí)現(xiàn)、兼容各種網(wǎng)絡(luò)模型等優(yōu)點(diǎn)而倍受關(guān)注,很多基于GAN 的風(fēng)格轉(zhuǎn)換模型也取得重大突破,其中包括CycleGAN[5]、StarGAN[6]及Pix2Pix[7]等。研究可知,CycleGAN 模型通過(guò)添加循環(huán)一致性損失函數(shù),解決了在圖像風(fēng)格轉(zhuǎn)換任務(wù)中缺少監(jiān)督訓(xùn)練數(shù)據(jù)集的問(wèn)題。StarGAN 模型則解決了多個(gè)圖像領(lǐng)域間風(fēng)格轉(zhuǎn)換的問(wèn)題,使其可以只經(jīng)一次訓(xùn)練便可實(shí)現(xiàn)多個(gè)圖像風(fēng)格間的轉(zhuǎn)換。Pix2Pix 模型則在cGAN[8]的基礎(chǔ)上,將U-Net[9]作為生成器,PatchGAN 作為鑒別器,如此一來(lái)則可以生成質(zhì)量較高的圖像,并且因?yàn)槠浣Y(jié)構(gòu)簡(jiǎn)單,易于訓(xùn)練等特點(diǎn),目前在圖像生成領(lǐng)域比較流行。
由于人臉圖像細(xì)節(jié)較為豐富,而采用Pix2Pix模型很難捕捉到這些細(xì)節(jié)中所包含的信息,導(dǎo)致生成的人臉畫(huà)像在五官、臉部輪廓等細(xì)節(jié)豐富部位會(huì)出現(xiàn)模糊、信息缺失等問(wèn)題。文中針對(duì)該問(wèn)題,提出一種改進(jìn)Pix2Pix 模型。在Pix2Pix 基礎(chǔ)上,研究的主要?jiǎng)?chuàng)新點(diǎn)包括:
(1)在原Pix2Pix 模型的生成器和鑒別器中引入自注意力模塊(Self-Attention Mechanism,SAM),使模型能夠更好地學(xué)習(xí)到人臉的空間輪廓特點(diǎn),從而解決生成圖像在人臉五官等部位細(xì)節(jié)模糊或缺失等問(wèn)題。
(2)在原Pix2Pix 生成器的損失函數(shù)中引入了內(nèi)容-風(fēng)格損失函數(shù),使生成器生成的素描圖像在不丟失原圖像細(xì)節(jié)內(nèi)容的同時(shí),在觀感上更接近手繪素描圖像。
(3)針對(duì)原Pix2Pix 模型訓(xùn)練難度大、難以收斂等問(wèn)題,提出了改進(jìn)的訓(xùn)練方法,進(jìn)而降低模型整體訓(xùn)練難度,加速模型收斂。
GAN 是一種由生成器(Generator)和鑒別器(Discriminator)共同構(gòu)成的深度學(xué)習(xí)模型。其中,生成器負(fù)責(zé)學(xué)習(xí)訓(xùn)練集輸入數(shù)據(jù)的概率分布規(guī)律并生成具有相似概率分布的輸出數(shù)據(jù);鑒別器負(fù)責(zé)評(píng)估輸入數(shù)據(jù)來(lái)自訓(xùn)練集或生成器的概率。訓(xùn)練過(guò)程中生成器和鑒別器一同訓(xùn)練,鑒別器的訓(xùn)練目標(biāo)是能夠正確區(qū)分輸入數(shù)據(jù)是來(lái)自訓(xùn)練集或者生成器,而生成器的目標(biāo)是盡量使鑒別器做出錯(cuò)誤的判斷。通過(guò)讓2 個(gè)模型進(jìn)行對(duì)抗訓(xùn)練,使生成器生成數(shù)據(jù)的概率分布更接近真實(shí)數(shù)據(jù),而鑒別器對(duì)生成數(shù)據(jù)和真實(shí)數(shù)據(jù)的鑒別能力也隨之提高,并最終達(dá)到一種平衡狀態(tài)。目前,GAN 越來(lái)越受到學(xué)術(shù)界重視,尤其是在計(jì)算機(jī)視覺(jué)領(lǐng)域,許多基于GAN 的深度學(xué)習(xí)模型也逐漸進(jìn)入學(xué)界視野,并已廣泛應(yīng)用在如圖像風(fēng)格轉(zhuǎn)換[4-6]、超分辨率[10-11]、圖像復(fù)原[12-13]等圖像處理任務(wù)上,繼而不斷向著其他領(lǐng)域擴(kuò)展,具有廣泛的應(yīng)用前景[14-15]。
Pix2Pix 是由Isola 等人[7]提出的一種專門(mén)用于處理圖像翻譯問(wèn)題的條件生成對(duì)抗網(wǎng)絡(luò)模型。該模型包含了一個(gè)生成器和一個(gè)鑒別器,其中生成器可以根據(jù)輸入圖像生成其在目標(biāo)圖像域的對(duì)應(yīng)圖像,而鑒別器則是嘗試分辨輸入圖像的真實(shí)性。Pix2Pix 模型結(jié)構(gòu)如圖1 所示。
圖1 Pix2Pix 模型結(jié)構(gòu)示意圖Fig. 1 Structure of Pix2Pix module
圖1 中,x,y分別表示2 個(gè)不同圖像域X,Y中的圖像。在訓(xùn)練生成器G時(shí),將x輸入到生成器中,生成具有Y圖像域風(fēng)格的圖像y' =G(x)。在訓(xùn)練鑒別器D時(shí),則將y或y'和x一同輸入到鑒別器D中,D輸出圖像來(lái)自生成器G的概率。
Pix2Pix 模型的損失函數(shù)主要由條件對(duì)抗生成損失函數(shù)lcGAN和L1損失函數(shù)lL1兩部分組成,其中l(wèi)cGAN的表達(dá)式見(jiàn)如下:
式(1)中,生成器以輸入的真實(shí)圖像作為條件,試圖生成符合真實(shí)圖像分布的對(duì)應(yīng)虛假圖像并欺騙鑒別器,因此生成器的訓(xùn)練目標(biāo)是盡量減??;而鑒別器則在觀察真實(shí)圖像的基礎(chǔ)上試圖分辨輸入的對(duì)應(yīng)圖像的真實(shí)性,因此鑒別器的訓(xùn)練目標(biāo)是盡量增大。損失函數(shù)的表達(dá)式如式(2)所示:
損失函數(shù)用來(lái)確保生成器在生成虛假對(duì)應(yīng)圖像時(shí),除了要考慮使虛假對(duì)應(yīng)圖像在概率分布上更接近真實(shí)對(duì)應(yīng)圖像外,還應(yīng)使其在像素層面更接近于真實(shí)圖像。因此,Pix2Pix 模型的最終損失函數(shù)具體如下:
其中,參數(shù)γ為損失函數(shù)的權(quán)重,控制著條件對(duì)抗生成損失函數(shù)和損失函數(shù)的相對(duì)重要性。
Pix2Pix 的生成器采用了U-Net 框架。相較于傳統(tǒng)的編-解碼器框架,Pix2Pix 生成器網(wǎng)絡(luò)在第i卷積層和第n -i卷積層之間增加了直連路徑,其中n是生成器網(wǎng)絡(luò)總層數(shù),每一個(gè)直連路徑會(huì)將第i層各信道信息拼接在第n -i層各信道之后。通過(guò)增加直連路徑,Pix2Pix 的生成網(wǎng)絡(luò)可以使輸入圖像和輸出圖像共享低層信息,同時(shí)也確保了梯度信息能夠在深層網(wǎng)絡(luò)中有效傳播,改善深層網(wǎng)絡(luò)性能。同時(shí),Pix2Pix 生成器網(wǎng)絡(luò)還在某些層中使用了Dropout,以取代GAN 中作為輸入的噪聲。生成器的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 Pix2Pix 模型的生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Generator network structure of Pix2Pix model
Pix2Pix 的鑒別器使用的是PatchGAN 結(jié)構(gòu)。不同于傳統(tǒng)鑒別器,PatchGAN 的輸出是一個(gè)n × n的矩陣,矩陣中每一個(gè)元素的值代表對(duì)輸入圖像對(duì)應(yīng)圖像區(qū)塊的判別結(jié)果,訓(xùn)練過(guò)程中,再通過(guò)將鑒別器產(chǎn)生的矩陣元素均值作為整幅圖像的最終判別結(jié)果,PatchGAN 通過(guò)將鑒別器的注意力集中在圖像各個(gè)子區(qū)塊的方式,使鑒別器可以更好地處理圖像高頻部分,同時(shí),采用PatchGAN 結(jié)構(gòu)的鑒別器相較于傳統(tǒng)分類網(wǎng)絡(luò)具有更少的參數(shù),更短的訓(xùn)練周期,并且通過(guò)調(diào)整n的大小,PatchGAN 可以應(yīng)用于任意尺寸的圖像,并使生成的圖像保持較高質(zhì)量。
注意力機(jī)制(Attention Mechanism,AM )是一種改進(jìn)神經(jīng)網(wǎng)絡(luò)的方法,主要是通過(guò)添加權(quán)重的方式,強(qiáng)化重要程度高的特征并弱化重要程度較低的特征,從而改善神經(jīng)網(wǎng)絡(luò)模型的性能[16],注意力機(jī)制得到的權(quán)重既可以應(yīng)用在信道上[17-18],也可以應(yīng)用在特征圖或其它方面[19-20]。
自注意力機(jī)制是由Zhang 等人[21]提出的一種專門(mén)用于生成對(duì)抗網(wǎng)絡(luò)中的注意力機(jī)制變體,其結(jié)構(gòu)如圖3 所示。針對(duì)卷積層的信息感受能力會(huì)受到卷積核大小的影響而無(wú)法高效捕捉到各個(gè)圖像中同類物體的具體特征(如某種動(dòng)物的毛發(fā)紋理特征、人的肢體結(jié)構(gòu)特點(diǎn)等)這一問(wèn)題,自注意力機(jī)制通過(guò)計(jì)算輸入特征圖中每一個(gè)位置在整個(gè)特征圖中的權(quán)重,使整個(gè)網(wǎng)絡(luò)可以更快注意到不同輸入圖像中各物體的空間和紋理特征,從而針對(duì)輸入圖像的不同部位分配不同的權(quán)重,達(dá)到增強(qiáng)生成圖像質(zhì)量的效果。鑒于在人臉?biāo)孛枭扇蝿?wù)中,輸入人臉照片和輸出的人臉?biāo)孛鑸D像在結(jié)構(gòu)上具有高度的關(guān)聯(lián)性以及相似性,因此自注意力機(jī)制可以幫助神經(jīng)網(wǎng)絡(luò)更快地定位人臉細(xì)節(jié)豐富區(qū)域,并且更好地學(xué)習(xí)到各部分的統(tǒng)計(jì)特征,從而提高最終生成的人臉?biāo)孛鑸D像的質(zhì)量。
圖3 自注意力機(jī)制模塊圖Fig. 3 Structure of self-attention mechanism
內(nèi)容-風(fēng)格損失函數(shù)(Content -Style loss Function)是由Gatys 等人[2]在2016 年提出的一種專門(mén)用于圖像風(fēng)格轉(zhuǎn)換問(wèn)題上的損失函數(shù),其原理是使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分別對(duì)內(nèi)容圖像、風(fēng)格圖像和生成圖像進(jìn)行特征提取,通過(guò)計(jì)算提取到的特征圖像之間的差異來(lái)衡量生成圖像在內(nèi)容和風(fēng)格上與對(duì)應(yīng)圖像的差異。內(nèi)容-風(fēng)格損失函數(shù)由內(nèi)容損失函數(shù)和風(fēng)格損失函數(shù)兩部分組成。其中,內(nèi)容損失函數(shù)計(jì)算公式可表示為:
其中,g為生成圖像;c為內(nèi)容圖像;Fl和Pl分別為預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)第l層提取的生成圖像g和內(nèi)容圖像c的特征圖矩陣。
風(fēng)格損失函數(shù)計(jì)算公式可表示為:
其中,g為生成圖像;s為風(fēng)格圖像;Gl和Al分別為生成圖像和風(fēng)格圖像在預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)第l層的風(fēng)格特征矩陣;N和M為第l層風(fēng)格特征矩陣的行數(shù)和列數(shù)。Gatys 等人[2]將圖像在神經(jīng)網(wǎng)絡(luò)第l層的風(fēng)格特征矩陣定義為該層特征圖的格拉姆矩陣(Gram matrix),其計(jì)算公式可表示為:
最終,內(nèi)容-風(fēng)格損失函數(shù)計(jì)算公式可表示為:
其中,a和b分別為內(nèi)容損失函數(shù)和風(fēng)格損失函數(shù)的權(quán)重。
鑒于自注意力機(jī)制能更好地發(fā)現(xiàn)圖像中大范圍特征間的依賴關(guān)系,所以,在空間尺寸越大的特征圖上、自注意力機(jī)制發(fā)揮的作用也就越大,但與此同時(shí)更大尺寸的特征圖也會(huì)顯著增加模型訓(xùn)練的時(shí)間成本。因此本文將自注意力機(jī)制添加到生成器網(wǎng)絡(luò)中最后3 層之間,以達(dá)到在增強(qiáng)生成圖像質(zhì)量目的同時(shí)盡量減小網(wǎng)絡(luò)訓(xùn)練成本。文中提出的改進(jìn)Pix2Pix 模型的生成器網(wǎng)絡(luò)模型如圖4 所示。
圖4 基于自注意力機(jī)制的Pix2Pix 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Network structure of Pix2Pix generator based on self-attention mechanism
生成器的編碼器卷積層參數(shù)設(shè)置均為:卷積核尺寸為4×4,步長(zhǎng)為2,特征圖邊緣填充為1,填充方式為鏡像填充,激活函數(shù)使用LeakyRelu,其參數(shù)設(shè)置為0.2;解碼器反卷積層參數(shù)設(shè)置為:卷積核大小為4×4,步長(zhǎng)為2,特征圖邊緣填充為1,填充方式為鏡像填充,激活函數(shù)使用ReLu函數(shù),前兩層卷積網(wǎng)絡(luò)使用Dropout,概率設(shè)置為0.5。鑒別器網(wǎng)絡(luò)模型如圖5 所示。
圖5 基于自注意力機(jī)制的Pix2Pix 鑒別器網(wǎng)絡(luò)結(jié)構(gòu)Fig. 5 Network structure of Pix2Pix discriminator based on selfattention mechanism
鑒別器卷積層參數(shù)設(shè)置為:卷積核尺寸為4×4,特征圖邊緣填充為1,填充方式為鏡像填充,前三層卷積核步長(zhǎng)為2,后兩層卷積步長(zhǎng)為1。所有卷積層都采用LeakyReLu為激活函數(shù),其參數(shù)設(shè)置為0.2。
由于在圖像風(fēng)格轉(zhuǎn)換問(wèn)題中,生成圖像的風(fēng)格主要依賴于風(fēng)格圖像的對(duì)比度信息,因此生成器在生成圖像時(shí)應(yīng)該盡量屏蔽內(nèi)容圖像中的對(duì)比度信息,而批歸一化(Batch Normalization)[22]并不能很好地消除來(lái)自內(nèi)容圖像中的對(duì)比度信息,因此在改進(jìn)的Pix2Pix 模型的生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)中,使用實(shí)例歸一化(Instance Normalization)[23]代替了批歸一化。對(duì)于輸入的一組特征圖,IN 對(duì)每一特征圖的每一信道進(jìn)行歸一化處理,從而更好地消除了每個(gè)特征圖中包含的特殊信息,減少了圖像生成過(guò)程中的干擾,并加快了生成器網(wǎng)絡(luò)的收斂過(guò)程。
改進(jìn)Pix2Pix 模型的損失函數(shù)的具體表達(dá)式為:
其中,lcGAN(G,D)為Pix2Pix 模型中生成器和鑒別器的對(duì)抗損失函數(shù);lL1為Pix2Pix 生成器生成圖像和手繪人臉圖像的L1損失;lcs為內(nèi)容-風(fēng)格損失函數(shù),這里a設(shè)為1,b設(shè)為0.1;α和β分別為控制損失函數(shù)和內(nèi)容風(fēng)格損失函數(shù)的權(quán)重,α設(shè)為100,β設(shè)為1。在計(jì)算內(nèi)容損失函數(shù)lcontent(g,c)時(shí),本文選擇VGG16 網(wǎng)絡(luò)第二層中的第二個(gè)卷積層來(lái)提取生成素描和人臉照片的內(nèi)容特征;而在計(jì)算風(fēng)格損失函數(shù)lstyle(g,s)時(shí),則選擇VGG16 網(wǎng)絡(luò)中第四和第五層中的第一個(gè)卷積層來(lái)提取生成素描和對(duì)應(yīng)手繪素描的風(fēng)格特征。
GAN 的訓(xùn)練是一個(gè)生成器和鑒別器互相博弈的過(guò)程,在這個(gè)過(guò)程中生成器試圖生成與實(shí)際數(shù)據(jù)盡量相似的數(shù)據(jù)騙過(guò)鑒別器,而鑒別器則試圖區(qū)分輸入數(shù)據(jù)是否是真實(shí)數(shù)據(jù),理論上,隨著訓(xùn)練的進(jìn)行,二者性能逐漸提高,并最終達(dá)到一種穩(wěn)定狀態(tài)。但在實(shí)際訓(xùn)練過(guò)程中,由于生成器和鑒別器網(wǎng)絡(luò)訓(xùn)練難度不同、所采用的優(yōu)化算法、學(xué)習(xí)率設(shè)置和數(shù)據(jù)集等因素影響,很難使2 個(gè)網(wǎng)絡(luò)同時(shí)收斂或達(dá)到納什均衡,造成生成器部分或完全崩潰,以及某一模型收斂過(guò)快導(dǎo)致另一模型梯度消失等問(wèn)題。因此,為了使GAN 訓(xùn)練過(guò)程更穩(wěn)定,文章采用的策略可做闡釋論述如下。
(1)在生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)中使用譜歸一化(Spectral Normalization)。根據(jù)Ulyanov 等人[23]的研究,在生成器和鑒別器網(wǎng)絡(luò)中使用譜歸一化可以約束每層網(wǎng)絡(luò)參數(shù)的譜范數(shù),從而使網(wǎng)絡(luò)參數(shù)在更新過(guò)程中變化更平滑,整個(gè)訓(xùn)練過(guò)程更加穩(wěn)定。
(2)生成器和鑒別器采用不同的初始學(xué)習(xí)率及學(xué)習(xí)率調(diào)整策略。由于鑒別器的訓(xùn)練難度比生成器低,導(dǎo)致其損失很快收斂到一個(gè)非常低的值,無(wú)法為生成器梯度更新提供有效信息。因此,為了使生成器和鑒別器能夠在訓(xùn)練過(guò)程中保持一種較為平衡的狀態(tài),讓兩者能夠互相學(xué)習(xí),在訓(xùn)練開(kāi)始時(shí)分別為兩者設(shè)置不同的學(xué)習(xí)率,并在隨后的訓(xùn)練過(guò)程中根據(jù)具體訓(xùn)練效果采用不同的學(xué)習(xí)率更新策略。
實(shí)驗(yàn)的硬件平臺(tái)為QEMU Virtual CPU Version 2.5+,使用NVIDIA Tesla V100-SXM2-32 GB 進(jìn)行加速處理。數(shù)據(jù)集使用CUFS(CUHK Face Sketch Database),該數(shù)據(jù)集共包含606 對(duì)人臉-素描圖像。實(shí)驗(yàn)選取CUFS 數(shù)據(jù)集中594 張素描人臉圖像作為訓(xùn)練數(shù)據(jù)集;選取CUFS 數(shù)據(jù)集中12 張學(xué)生人臉圖像作為測(cè)試圖像;將所有訓(xùn)練圖像和測(cè)試圖像的大小縮放為256*256 像素,并通過(guò)以50%的概率對(duì)人臉圖像-素描對(duì)進(jìn)行水平翻轉(zhuǎn)和亮度隨機(jī)調(diào)整的方式對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)。生成器和鑒別器的優(yōu)化器采用Adam 算法,用于計(jì)算梯度以及梯度平方的運(yùn)行平均值的參數(shù)beta1 和beta2 分別設(shè)置為0.5 和0.99,生成器的初始學(xué)習(xí)率設(shè)置為1e-3,鑒別器的初始學(xué)習(xí)率設(shè)置為1e-4。訓(xùn)練過(guò)程中,當(dāng)生成器的損失函數(shù)無(wú)法下降、并超過(guò)10 個(gè)epoch時(shí),其學(xué)習(xí)率下降10 倍;當(dāng)鑒別器的損失函數(shù)無(wú)法下降、并超過(guò)30 個(gè)epoch時(shí),其學(xué)習(xí)率下降10 倍。訓(xùn)練共進(jìn)行200 個(gè)epoch,訓(xùn)練結(jié)束時(shí)生成器的學(xué)習(xí)率為1e-8,鑒別器的學(xué)習(xí)率為1e-8。
為更好地展示改進(jìn)Pix2Pix 模型在人臉?biāo)孛鑸D像生成任務(wù)上的有效性,本文將改進(jìn)模型的生成人臉?biāo)孛鑸D像與Pix2Pix 模型和CycleGAN 模型生成的人臉?biāo)孛鑸D像進(jìn)行對(duì)比,上述所有模型在相同實(shí)驗(yàn)平臺(tái)上訓(xùn)練了200 個(gè)epoch。
為驗(yàn)證本文提出的改進(jìn)GAN 訓(xùn)練方法的有效性,將原Pix2Pix、分別采用譜歸一化和不同學(xué)習(xí)率更新策略的Pix2Pix 以及采用本文訓(xùn)練方法的Pix2Pix 在實(shí)驗(yàn)數(shù)據(jù)集下分別訓(xùn)練150 個(gè)epoch,并觀察在每個(gè)epoch后生成器損失函數(shù)值變化情況。最終結(jié)果如圖6 所示。
圖6 原Pix2Pix 和采用不同訓(xùn)練方法后的Pix2Pix 在150 個(gè)epoch內(nèi)損失函數(shù)變化對(duì)比Fig. 6 Comparison of loss function changes of original Pix2Pix and Pix2Pix after using different training methods within 150 epochs
從圖6 可以看出,采用譜歸一化和不同學(xué)習(xí)率更新策略的Pix2Pix 相比于原Pix2Pix 生成器在訓(xùn)練過(guò)程中損失函數(shù)下降更快,但下降過(guò)程中仍然波動(dòng)較大,而采用本文訓(xùn)練方法的Pix2Pix 生成器在訓(xùn)練過(guò)程中不僅損失函數(shù)下降相比原Pix2Pix 更快,下降過(guò)程中其波動(dòng)也比其它3 種更小,從而證明本文改進(jìn)GAN 訓(xùn)練方法的有效性。
為更好地驗(yàn)證文中改進(jìn)Pix2Pix 模型在人臉?biāo)孛枭扇蝿?wù)中的有效性,除將其與原Pix2Pix 模型進(jìn)行對(duì)比外,還選擇了GycleGAN 模型與其進(jìn)行對(duì)比分析。GycleGAN 模型作為圖像翻譯領(lǐng)域中另一經(jīng)典模型,因其訓(xùn)練時(shí)不需要成對(duì)數(shù)據(jù)集、易于實(shí)現(xiàn)以及生成圖像質(zhì)量高等特點(diǎn),一經(jīng)提出便受到了廣泛關(guān)注,因此選擇將其作為參照對(duì)象可以使參照實(shí)驗(yàn)結(jié)果更具有代表性。
改進(jìn)模型生成圖像與其它模型生成圖像對(duì)比如圖7 所示,通過(guò)對(duì)比發(fā)現(xiàn),文中提出的改進(jìn)Pix2Pix模型生成的人臉?biāo)孛璞萈ix2Pix 和CycleGAN 生成的圖像人臉輪廓更清晰,細(xì)節(jié)部分保留更完整,表情更明顯,噪點(diǎn)更少,同時(shí)在整體觀感上更接近人工繪制素描。
圖7 生成圖像質(zhì)量對(duì)比Fig. 7 Generated images quality comparison
為量化評(píng)價(jià)改進(jìn)Pix2Pix 模型生成的圖像質(zhì)量,本文采用特征相似度(Feature Similarity Index Measure,F(xiàn)SIM)作為系統(tǒng)評(píng)價(jià)指標(biāo)[24]。相較于SSIM[25]和MS -SSIM[26],F(xiàn)SIM充分考慮了圖像視覺(jué)信息的冗余性和人類視覺(jué)系統(tǒng)主要通過(guò)低級(jí)特征來(lái)理解圖像的特點(diǎn),并且更偏向于清晰度較高的圖像[27]。FSIM通過(guò)計(jì)算2 幅圖像的相位一致區(qū)域和圖像梯度幅值來(lái)評(píng)價(jià)這2 幅圖像在人類視覺(jué)系統(tǒng)中的相似度。其中,相位一致區(qū)域用來(lái)尋找一張數(shù)字圖像在人類視覺(jué)系統(tǒng)中會(huì)被認(rèn)為是“信息量豐富”的區(qū)域,而圖像梯度幅值用來(lái)彌補(bǔ)相位一致性無(wú)法感知圖像局部對(duì)比度變化對(duì)圖像整體視覺(jué)效果產(chǎn)生影響的不足。在測(cè)試集上各模型所得FSIM分?jǐn)?shù)見(jiàn)表1。由表1 數(shù)據(jù)可知,改進(jìn)Pix2Pix 模型在測(cè)試集上得分為0.648 3,相比原Pix2Pix 模型和CycleGAN模型分別提高了0.020 6和0.027 6,從量化指標(biāo)上進(jìn)一步說(shuō)明了文中提出的改進(jìn)Pix2Pix 模型在人臉?biāo)孛枭扇蝿?wù)中的有效性。此外,相比于原Pix2Pix和CycleGAN 模型更低的分?jǐn)?shù)方差也說(shuō)明除生成的素描圖像質(zhì)量更好之外,改進(jìn)Pix2Pix 模型在穩(wěn)定性上相較于其它對(duì)比模型也更有優(yōu)勢(shì)。
表1 各模型在測(cè)試集上FSIM 得分Tab.1 FSIM score of each model on the test set
本文通過(guò)消融實(shí)驗(yàn)對(duì)比分析,進(jìn)一步驗(yàn)證了文中提出的改進(jìn)Pix2Pix 模型中各改進(jìn)點(diǎn)在人臉?biāo)孛枭扇蝿?wù)中的優(yōu)化效果,實(shí)驗(yàn)結(jié)果見(jiàn)表2。從表2數(shù)據(jù)可知,原Pix2Pix 在測(cè)試集上FSIM得分為0.627 7,引入自注意力機(jī)制后,增強(qiáng)了原Pix2Pix 模型細(xì)節(jié)特征提取能力,將測(cè)試集上FSIM分?jǐn)?shù)提高了0.108;而通過(guò)在生成器的損失函數(shù)中加入內(nèi)容-風(fēng)格損失函數(shù),亦提高了模型在測(cè)試集上的表現(xiàn)。綜合上述2 種改進(jìn)后,相較于原Pix2Pix 模型,本文提出的改進(jìn)Pix2Pix 模型有效地提高了生成的人臉?biāo)孛鑸D像質(zhì)量,說(shuō)明了改進(jìn)Pix2Pix 模型在人臉?biāo)孛枭扇蝿?wù)中的有效性。
表2 消融實(shí)驗(yàn)Tab.2 Ablation experiments
文中主要對(duì)Pix2Pix 的生成器模型進(jìn)行改進(jìn),將自注意力機(jī)制用于生成器和鑒別器網(wǎng)絡(luò)中,減小無(wú)用信息對(duì)生成器的影響,加強(qiáng)生成器對(duì)輸入圖像中的人臉重要部分的學(xué)習(xí),提升生成的人臉?biāo)孛鑸D像的質(zhì)量;并在生成器損失函數(shù)中引入了內(nèi)容-風(fēng)格損失函數(shù),使生成網(wǎng)絡(luò)在生成人臉?biāo)孛鑸D像時(shí)既保留人臉照片中的細(xì)節(jié)部分,又能使圖像更接近素描風(fēng)格。同時(shí),量化比較實(shí)驗(yàn)表明,改進(jìn)Pix2Pix 在測(cè)試集上的FSIM得分比Pix2Pix 和CycleGAN 分別高出了2%和2.7%,進(jìn)一步說(shuō)明了改進(jìn)Pix2Pix 在人臉?biāo)孛枭扇蝿?wù)中的有效性。但與此同時(shí),該改進(jìn)模型依然存在一些問(wèn)題,如對(duì)非正面拍攝的人臉圖像效果較差。因此今后的工作便是提出能針對(duì)各種不同場(chǎng)景下不同角度的人臉圖像也能生成質(zhì)量較高的人臉?biāo)孛鑸D像的生成方法。