国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

嵌入自注意力機制的美學特征圖像生成方法

2021-09-13 01:02:24鄒亞莉
計算機與生活 2021年9期

馬 力,鄒亞莉

西安郵電大學 計算機學院,西安710061

隨著互聯(lián)網(wǎng)技術的發(fā)展,圖像在社交媒體平臺上被廣泛地傳播與分享,但因拍攝時光線、設備等因素影響,獲取的圖像質(zhì)量不高、美觀度低,不能滿足人們的審美需求,影響欣賞者愉快的視覺效果。圖像美化對普通用戶而言,學習工具使用方法和了解圖像美化專業(yè)知識的過程復雜,人們希望通過計算機模擬人類審美思維,輔助人類完成圖像美化[1]。因此,在計算機科學范疇提出了可計算圖像美學(computational image aesthetics)[2-3]概念,它是指讓計算機模擬人類視覺及審美思維對圖像進行美學決策,建立計算機與視覺藝術作品之間的橋梁,其研究結果可應用到圖像美學質(zhì)量評估[4-5]、藝術作品鑒賞和圖像美學分類[6]等方面。

面對海量圖像數(shù)據(jù)美觀感不足,不能滿足人們對于美學的需求的問題,計算機為圖像數(shù)據(jù)增加美觀度仍具有很大的挑戰(zhàn);并因與美學相關的美學數(shù)據(jù)集相當稀缺,也為可計算美學的研究帶來了難題。那么研究如何利用先進的圖像生成技術去生成具有美學特征的美學圖像,具有十分重要的研究意義。自Goodfellow 等[7]在2014 年提出生成對抗網(wǎng)絡(generative adversarial networks,GAN)后,相關研究十分火熱,其應用領域有圖像生成[8]、圖像風格轉(zhuǎn)換[9-10]、圖像修復[11-12]、目標檢測[13]和圖像超分辨率[14-15]等。由于生成對抗網(wǎng)絡訓練不穩(wěn)定,容易發(fā)生模型坍塌,WGAN(Wasserstein GAN)[16]拋棄了傳統(tǒng)GAN 的JS散度(Jensen-Shannon 散度)[17]定義,采用EM 距離(Earth Mover 距離)計算兩個分布的距離,解決GAN模型坍塌問題。譜歸一化生成對抗網(wǎng)絡(spectrally normalized GANs,SN-GANs)[18]將譜歸一化引入鑒別器,提高了模型訓練穩(wěn)定性。進化生成對抗網(wǎng)絡(evolutionary GAN,E-GAN)[19],引入進化學習的生成模型,提升了GAN 訓練的穩(wěn)定性得到更好的生成效果,并解決模式崩潰問題。基于自我注意力生成對抗網(wǎng)絡(self-attention GAN,SAGAN)[20]將自注意力機制引入生成器和判別器中,圖像生成的全局性和圖像的幾何結構上更加合理,提升了GAN圖像生成能力。

現(xiàn)有圖像生成模型生成圖像質(zhì)量較好,但生成的圖像結構單一,缺乏美感,鑒于此,本文以進化生成對抗網(wǎng)絡為基礎模型,提出嵌入自注意力機制的美學特征圖像生成方法(aesthetic feature image generation method embedded with self-attention mechanism,ASAEGAN),所提方法創(chuàng)新之處主要為以下兩點:

(1)將圖像美學評價模型與進化生成對抗網(wǎng)絡模型相結合,通過圖像美學評價模型設計相應的美學損失,在生成器中引入美學損失,從美學角度優(yōu)化生成模型;通過VGG網(wǎng)絡特征提取構建內(nèi)容損失,生成器中引入內(nèi)容損失,確保生成圖像和原圖像在內(nèi)容上具有一致性,同時采用Charbonnier 損失代替L1損失,提高網(wǎng)絡性能和模型收斂速度,具有更高的魯棒性。

(2)生成網(wǎng)絡和判別網(wǎng)絡中分別引入自我注意力模塊,解決生成模型圖像遠距離空間局部細節(jié)不清晰問題和訓練穩(wěn)定性,得到高清晰度、細節(jié)特征更豐富的圖像,同時在生成網(wǎng)絡中引入密集卷積塊,加強特征傳播,緩解梯度消失問題。

1 相關工作

1.1 圖像美學

美學是以藝術為主要對象,研究美、丑等審美范疇和人的審美意識、美感經(jīng)驗,以及美的創(chuàng)造、發(fā)展及其規(guī)律的科學[21]。美學的目的是獲得美感,人們在看到一幅圖像時,會根據(jù)圖像的光影、清晰度、色彩、內(nèi)容、構圖、亮度、對比度、趣味等多個方面判斷圖像的美感如何,進而產(chǎn)生愉悅的美感。當兩幅同樣的圖像放在一起,圖像美感的高低與清晰度有一定的關系,可以發(fā)現(xiàn)圖像清晰度越高,細節(jié)越豐富,給人越多的愉悅美感。色彩是美學特征研究中必不可少的一類特征,圖像的美學分數(shù)高低一定程度上取決于圖像色彩分布是否和諧,圖像色彩分布和諧,則圖像美感越高。構圖特征毋庸置疑也是美學特征中不可或缺的,對于自然景觀圖像,一般將主體景觀作為圖像美感主要表現(xiàn)區(qū)域,非自然景觀一般將拍攝對象為支點,構建整幅圖像的布局結構,達到提高圖像美感的目的。亮度特征對于圖像美感的高低也有一定程度的影響,一幅圖像如果色彩、構圖、清晰度等美學特征都有,而亮度較低也會使整幅圖像美感降低,因此,圖像中的美學特征是相輔相成,缺一不可,都對圖像美感高低有著直接影響。

1.2 圖像美學評價模型

人類對于圖像美感的評價存在多種形式,例如“美”與“丑”,給出數(shù)值評分、語言評分等。圖像美學質(zhì)量評價除了具備一定的客觀性之外,還具有很強的主觀性,因此圖像是否具有美感,可以通過主觀和客觀兩種方式進行判斷。從主觀上來說,評價一幅圖像是否具有美感是具有主觀性的,每個人的審美觀不同,對同一幅圖像的評價結果不同。因而,評價一幅圖像美感高低,完全依靠人的主觀評價是不夠的,借助計算機進行圖像美觀度評價成為了一個研究課題,也就是從另一方面來對圖像進行客觀評價。圖像的美學評價[22-23]是指從美學質(zhì)量的角度對所獲得的圖像進行精確而客觀的評價,僅僅依靠人類自己所擁有的審美能力對圖像做出相應的美學評價不夠?qū)I(yè);Datta 等人[24]設計了56 維的美學特征去理解圖片,增加了圖像中的特征提取項,實現(xiàn)了圖像高低美感分類和圖像美學分數(shù)的自動評估;Dhar等人[25]從布局、內(nèi)容和光照的角度學習圖像的高層可描述性,以達到預測輸入圖片的興趣性,進而提高圖像美學評判的準確性。Kong等人[26]設計的圖像美學評價模型,提出了一種新的卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)結構,基于8 種不同的美學因素實現(xiàn)二分類評價,通過提取圖片內(nèi)容特征以及自定義的屬性標簽特征來輔助判斷圖像美觀度,評估美學質(zhì)量。本文采用的是Talebi 等人[27]設計的圖像美學評價模型NIMA(neural image assessment),介紹了一種新穎的方法來預測圖像的技術和美學質(zhì)量。該模型提出通過CNN 預測圖像質(zhì)量得分的分布,網(wǎng)絡用ImageNet預訓練權重,在訓練數(shù)據(jù)集中,每張圖像都與人類直方圖相連接,將分數(shù)的分布作為直方圖來預測。同時根據(jù)人類對圖像的評價概率分布,計算出EMD-basedloss,進行反向傳播。最終一張圖片的綜合評價則是由分數(shù)概率分布的均值與標準差來決定的,均值代表了這張圖片的質(zhì)量分數(shù),標準差代表了非常規(guī)程度,即對圖像進行1~10分的打分,并直接比較同一主題的圖像。

1.3 進化生成對抗網(wǎng)絡

EGAN設計了一個判別器D和生成器“種群”之間的對抗框架。生成器G不再以個體的形式存在,而是以“種群”的形態(tài)與判別器D進行對抗。從演化的角度,判別器D可以被視為演化過程中不斷變化的環(huán)境,根據(jù)優(yōu)勝劣汰的原則,生成器“種群”中表現(xiàn)不好的個體被不斷淘汰,只有表現(xiàn)優(yōu)異的個體才會被保留以進一步地適應環(huán)境與判別器D進行對抗。這樣,每次更新產(chǎn)生的生成器G都將是當下所有策略中最優(yōu)的選項,不必維持訓練過程中D和G的平衡,避免了梯度消失、模式崩潰等一系列訓練不穩(wěn)定的問題。EGAN的原理示意圖如圖1所示。

從圖中可以看出,每一次訓練對抗過程生成器的演化過程分別是變異、評估和選擇三個步驟。

(1)變異其實在對抗過程中,為了可以持續(xù)更新并得到合適的G,首先需要對現(xiàn)有的生成器“種群”進行變異操作,并產(chǎn)生新的后代。由于不同的損失函數(shù)具有不同的功能,采用不同的變異操作得到不同的后代,在對抗過程中三種變異操作被采納,分別用到三種不同的目標函數(shù):

(2)對變異后得到的新子代,先對其生成性能進行評估,并量化為相應的適應分數(shù)F=Fq+γFd,其中質(zhì)量分數(shù)Fq=Ez[D(G(z))]衡量了生成器在變異過程中生成的子代質(zhì)量,多樣性分數(shù)Fd=-lg||?D-Ex[lgD(x)]-Ez[lg(1-D(G(z)))]||衡量了根據(jù)候選生成器,再次更新D時所產(chǎn)生梯度的大小。

(3)在衡量所有子代的生成性能后,根據(jù)優(yōu)勝劣汰的原則擇優(yōu)選取更新過后的G進行新一輪訓練。

1.4 DenseNet

隨著網(wǎng)絡深度的加深,梯度消失問題會愈加嚴重,因此提出了密集網(wǎng)絡(dense convolutional network,DenseNet)[28]解決梯度消失問題。DenseNet具有密集連接機制,每一層都會接受其前面所有層作為其額外的輸入,直接連接來自不同層的特征圖,通過特征在通道上的連接實現(xiàn)特征重用,提升效率。DenseNet網(wǎng)絡結構如圖2所示,x0是輸入,H1的輸入是x0,H2的輸入是x0和x1,主要由DenseBlock(密集塊)和Transition(過渡層)組成。在密集塊中,每層特征圖大小一致,密集塊中的非線性組合函數(shù)由BN(batch normalization)、ReLU、Conv(convolution)組成。由于密集連接的方式,DenseNet提升了梯度的反向傳播,使得網(wǎng)絡更容易訓練,參數(shù)量變小且計算更高效,緩解了梯度消失問題,在數(shù)據(jù)集較小時可以起到減少過擬合的作用。

1.5 自我注意力生成對抗網(wǎng)絡

傳統(tǒng)的生成對抗網(wǎng)絡都使用了卷積操作,但是在處理長距離依賴時,使用小的卷積核很難發(fā)現(xiàn)圖像中的依賴關系,使用大的卷積核就喪失了卷積網(wǎng)絡參數(shù)與計算的效率,導致卷積的效率很低。SAGAN模型的整體框架與傳統(tǒng)的GAN是一樣的,都是由一個生成器和一個判別器組成,不同之處是SAGAN 在生成器和判別器網(wǎng)絡結構內(nèi)部分別加入了自我注意力模塊(self-attention mechanism)[29],對卷積結構進行補充,有助于對圖像區(qū)域中長距離、多層次的依賴關系進行建模,生成圖像時利用所有位置的特征來幫助生成圖片的某一細節(jié),使生成的圖片更加逼真。SAGAN 中的自我注意力模塊的結構圖如圖3所示。

Fig.1 EGAN model structure framework圖1 EGAN模型結構框架

Fig.2 DenseNet network structure圖2 DenseNet網(wǎng)絡結構

Fig.3 Self-attention mechanism module diagram圖3 自注意力機制模塊圖

圖3 中?表示矩陣乘法,每一行都用softmax 歸一化。對于某一個卷積層之后輸出的特征圖(圖3中的x),分別經(jīng)過三個1×1 卷積結構的分支f(x)、g(x)和h(x),特征圖的尺寸均不變,f(x)和g(x)改變了通道數(shù),h(x)的輸出保持通道數(shù)也不變;將f(x)的輸出轉(zhuǎn)置后和g(x)的輸出矩陣相乘,經(jīng)過softmax 歸一化得到一個注意力特征圖;將注意力特征圖與h(x)的輸出進行矩陣相乘,得到一個特征圖,經(jīng)過一個1×1 的卷積結構,得到此時的特征圖(圖3 中的o);最終輸出的特征圖為yi=γOi+xi,yi表示全局空間和局部信息的整合,γ參數(shù)初始值為0,目的是讓模型從領域信息學起,逐漸將權重分配到其他遠距離特征細節(jié)上。該網(wǎng)絡的損失函數(shù)在最小化對抗性損失的前提下進行交替訓練,G和D交替訓練的表達式為:

1.6 圖像美學與生成對抗網(wǎng)絡

關于圖像美學研究領域,較多學者的研究內(nèi)容與圖像美學評價有關,將圖像美學與生成對抗網(wǎng)絡相結合的研究內(nèi)容較少。徐天宇等[30]以文本生成圖像GAN 模型-StackGAN++為基礎,將圖像美學評價模型融入StackGAN++的生成模型中,選定美觀度評判模型構造美學損失,通過增加美學損失的方式改造生成器,從而以美學角度優(yōu)化生成模型,引導模型生成美觀度更高的結果,實驗結果證明生成圖像在色彩對比度、整體色調(diào)背景虛化簡單化等方面均有一定優(yōu)勢,圖像美學分數(shù)得到了有效的提高,并且IS(inception score)也有所提高。受到此方法的啟發(fā),鑒于人們對于審美的需求越來越高,并且美學數(shù)據(jù)集相當稀缺,現(xiàn)有生成模型存在生成圖像紋理特征不明顯、美觀感不足等問題,提出嵌入注意力的美學特征圖像生成方法。針對傳統(tǒng)生成模型的生成圖像結構單一、清晰度低、色彩感不足、缺乏美感等問題,通過圖像美學評價模型定義美學損失,使得模型訓練過程中受到美學控制因素影響,間接提高生成圖像的美觀感,從而擴充圖像美學數(shù)據(jù)集;同時將內(nèi)容損失加入生成器,保證生成圖像與真實圖像語義內(nèi)容上的一致性;生成器和判別器中加入自注意力機制,并在生成器網(wǎng)絡引入自注意力模塊之前,加入了DenseNet中的密集塊,充分提取深層特征,減少網(wǎng)絡中的參數(shù)量,緩解梯度消失問題,模型高效地獲取更多特征內(nèi)部的全局依賴關系,提高生成圖像的質(zhì)量和清晰度,增加圖像細節(jié)特征,并且圖像的紋理細節(jié)更加明顯,解決現(xiàn)有生成模型生成圖像紋理特征不明顯、清晰度低、局部細節(jié)不清晰等問題。

2 嵌入自注意力機制的美學特征圖像生成方法

2.1 模型設計思想

現(xiàn)有圖像生成模型所生成的圖像在圖像美觀感方面存在不足,影響圖像美觀感的因素有光影、色彩、配色、構圖和模糊等,如何在圖像生成過程中為圖像增加較多的美學特征具有一定難度。為引導現(xiàn)有的圖像生成模型去生成美觀度較高的圖像,本文的設計思想是:以進化生成對抗網(wǎng)絡(EGAN)作為圖像生成模型,針對現(xiàn)有生成模型生成圖像色彩感不足、亮度低、對比感不鮮明等問題,根據(jù)圖像美學評價模型的測度,在生成器中引入美學損失,以美學角度使得生成模型朝著豐富圖像色彩、提高顏色對比感的方向生成圖像,進而使得生成圖像具有一定的美學特征;為保證生成圖像保留真實圖像的語義內(nèi)容,將真實圖像和生成圖像輸入到VGG 網(wǎng)絡構建內(nèi)容損失;將美學損失、內(nèi)容損失和進化生成對抗網(wǎng)絡的對抗損失以加權形式組合,引導與優(yōu)化生成器生成具有美學特征的圖像。針對生成圖像的清晰度低、紋理模糊等問題,在生成網(wǎng)絡和判別網(wǎng)絡中,分別引入自注意力機制,并在生成網(wǎng)絡中引入密集卷積塊,充分提取圖像深層特征,使得模型可以高效地獲取更多特征內(nèi)部的全局依賴關系,提高生成圖像的質(zhì)量和清晰度,圖像紋理特征豐富,并且圖像的紋理細節(jié)更加明顯;另一方面由于密集卷積塊的引入,可以減少網(wǎng)絡訓練參數(shù)量,緩解網(wǎng)絡訓練中梯度消失問題。

基于上述處理思想,本文設計了嵌入自注意力機制的美學特征圖像生成方法(ASA-EGAN),其邏輯框圖如圖4所示。

整個網(wǎng)絡模型采用對抗的方式進行訓練,兩個網(wǎng)絡交替訓練,生成器通過訓練得到生成圖像,判別器負責判斷輸入的圖像是真實圖像還是生成圖像。訓練開始首先固定判別器開始訓練生成器,將輸入圖像和隨機噪聲z送入生成器,生成器得到生成圖像,隨后將生成圖像送入美學評分模型,根據(jù)圖像美學評價模型對生成圖像的美學評價分數(shù)設計美學損失Laes,進而以美學角度優(yōu)化生成模型;再將生成圖像與真實圖像輸入到VGG網(wǎng)絡中,通過VGG網(wǎng)絡對生成圖像與真實圖像做高級特征映射,構建內(nèi)容損失Lcon,確保生成圖像與真實圖像在語義內(nèi)容上保持一致性。最后將美學損失、內(nèi)容損失和對抗損失以加權的形式組合,引導生成模型生成具有美學特征的美學圖像,增加圖像美學特征,直到生成的樣本達到想要的效果。固定生成器開始訓練判別器,生成圖像、真實圖像作為判別器的輸入,判別器判斷輸入圖像的真假。

Fig.4 ASA-EGAN framework圖4 ASA-EGAN邏輯框圖

2.2 生成器模型

生成器主要任務是進行特征提取,在生成網(wǎng)絡中引入密集塊,由于在每一個密集塊中,任意兩層之間都是直接連接,可以充分提取深層特征,加強了特征傳播,極大地減少了網(wǎng)絡中的參數(shù)量,緩解了梯度消失問題。生成器中加入自注意力機制的目的是促使生成模型在生成圖像過程中,生成模型高效地獲取特征內(nèi)部的全局依賴關系,提高生成圖像的質(zhì)量和清晰度,從而圖像的紋理細節(jié)更加明顯,從圖像紋理、亮度、清晰度等方面提升圖像美感。

進化生成對抗網(wǎng)絡(EGAN)生成器的生成網(wǎng)絡變異之后的子代的結構基本一致,在此只介紹G1 的結構如圖5所示。

生成器執(zhí)行流程:設定批處理樣本個數(shù)為64,輸入噪聲維度為100,初始噪聲樣本像素為1×1,這三個參數(shù)組成四維張量(64,100,1,1),經(jīng)過一個全連接層再經(jīng)過卷積核為4×4,步長為2的卷積層,數(shù)據(jù)大小為(64,512,4,4);之后通過三個密集塊進行深層特征提取保持網(wǎng)絡輸出維度不變,再經(jīng)過一個卷積層變?yōu)椋?4,256,8,8);接著進行第一次self-attention 運算,得到自注意力特征圖(64,256,64),之后經(jīng)過兩層卷積層變?yōu)椋?4,64,32,32),進行第二次self-attention運算,得到自注意力特征圖(64,64,1 024);最后經(jīng)過上采樣層和一個卷積核為3×3,步長為2的卷積層變?yōu)椋?4,32,64,64),生成器輸出圖像的大小為64×64。

2.3 判別器模型

判別器加入自注意力機制的目的是利用遠距離的細節(jié)約束當前合成圖像的細節(jié),使得生成圖像在內(nèi)容上更加真實,內(nèi)容特征更加豐富,從圖像內(nèi)容構圖方面提高圖像美感,進而提高圖像美學分數(shù)。

判別器的主要功能是與生成器不斷地對抗學習,提升自己辨別真假圖像的能力,判斷輸入的圖像是來自真實圖像還是生成圖像。所提方法中,判別網(wǎng)絡由一系列的卷積層和注意力模塊構成,網(wǎng)絡結構如圖6所示。

判別器執(zhí)行流程:判別網(wǎng)絡設定參數(shù)每批次大小為64,初始維度為3,輸入圖像大小為64×64;經(jīng)過兩層卷積層,圖像通道大小不斷增加,尺寸逐漸減小,由輸入數(shù)據(jù)(64,3,64,64)變?yōu)椋?4,128,16,16);之后經(jīng)過self-attention 層,得到注意力特征圖為(64,128,256),經(jīng)過兩層卷積層變?yōu)椋?4,512,4,4),再經(jīng)過一個self-attention 層,得到注意力特征圖為(64,512,16);最后經(jīng)過一個卷積層變?yōu)椋?4,8 192,1,1),判別器輸出一個長度為8 192的向量。

2.4 損失函數(shù)設計

2.4.1 生成器損失函數(shù)

為使生成圖像具有一定的美學特征,由圖像美學評價模型得到圖像美學分數(shù),定義美學損失Laes。生成器中引入美學損失Laes輔助生成模型訓練過程中受美學因素影響,從而以美學角度優(yōu)化生成模型,間接提高圖像美觀感。為了去掉冗余信息特征,采用L1范數(shù)實現(xiàn)特征稀疏,加快收斂速度,損失函數(shù)定義如下:

Fig.5 Generator network structure圖5 生成器網(wǎng)絡結構

Fig.6 Discriminator network structure圖6 判別器網(wǎng)絡結構

Aes函數(shù)表示使用圖像美學評價模型計算生成結果pi的美學分數(shù)。在計算美學損失時,對圖像美學評價模型返回的美學分數(shù)進行判斷,該損失實際計算了生成器生成圖像的美學分數(shù)與1之間的差距,代表生成圖像美學質(zhì)量的提升。

為保證生成圖像和真實圖像在內(nèi)容上具有一致性,使得生成圖像不會丟失過多真實圖像的特征,將真實圖像和生成的美學圖像輸入到VGG網(wǎng)絡中提取圖像特征。在VGG網(wǎng)絡的高級特征映射做內(nèi)容損失Lcon,同時采用Charbonnierloss[31]可以提高網(wǎng)絡性能,提高模型收斂速度,具有更高的魯棒性。內(nèi)容損失函數(shù)定義如下:

其中,ρ(x)=是Charbonnier 懲罰函數(shù),δ為超參。

生成器除自身的對抗損失外,由于在生成器中引入了自注意力機制,還需要將原始的自我注意生成對抗網(wǎng)絡中的生成器目標函數(shù)引入本文生成模型的生成器的對抗損失中,以保證生成器高效地獲取特征內(nèi)部的全局依賴關系,提高生成圖像的質(zhì)量和清晰度,豐富圖像紋理特征,損失函數(shù)定義如下:

鑒于在生成器中引入了美學損失、內(nèi)容損失,因此生成器的損失函數(shù)定義為:

其中,α、β為平衡不同損失項的權重系數(shù),美學損失和內(nèi)容損失的作用是引導G生成美觀度更高的美學圖像,并確保生成圖像與真實圖像語義內(nèi)容的一致性。而對抗損失是控制整個訓練過程以及生成結果,保證生成器能夠生成圖像美學分數(shù)較高的關鍵。α、β的取值應該保證在訓練過程中美學損失、內(nèi)容損失起到的調(diào)控作用不會超過對抗損失前提下對生成結果的圖像美感產(chǎn)生影響。經(jīng)實驗驗證,表1為α、β為不同取值時,生成圖像的圖像美學分數(shù)??梢钥闯觯?.5<α<1.0,0.5<β<1.0 時,生成圖像的圖像美學分數(shù)較低;當α、β值在0~0.5時,圖像美學分數(shù)較高,生成圖像不僅保留的美學特征較多,在語義內(nèi)容上與真實圖像也保持一致;當α、β的取值分別為0.2、0.1時,圖像美學分數(shù)最高,并且生成圖像效果最好。因此,實驗時α、β取值分別為0.2、0.1。

Table 1 Image aesthetic scores corresponding to different values of α and β表1 α、β不同取值對應的圖像美學分數(shù)值

2.4.2 判別器損失函數(shù)

判別器根據(jù)真實樣本x以及進化后生成器生成的樣本y進行更新,從而保證判別網(wǎng)絡的訓練不落后于生成網(wǎng)絡。同時給生成器不斷提供自適應的損失,以推動其種群進化,以產(chǎn)生更好的結果。并在判別器中引入自注意力機制,利用遠距離的細節(jié)來約束當前合成圖像的細節(jié),使得生成圖像細節(jié)特征豐富,內(nèi)容真實,判別器損失定義如下:

3 實驗

實驗在Cifar10 數(shù)據(jù)集和香港中文大學圖像質(zhì)量CUHKPQ(Chinese University of Hong Kong-Photo Quality)數(shù)據(jù)集上進行;在Intel?Xeon?CPUE5-2620v4@2.10 GHz 處理器,1 塊NVIDIATeslaP100 GPU顯卡,TensorFlow環(huán)境上進行。

3.1 Cifar10數(shù)據(jù)集

3.1.1 數(shù)據(jù)集預處理

Cifar10 是一個包含60 000 張圖片的數(shù)據(jù)集,其中每張照片為32×32 的彩色照片,一共包含10 類,每一類包含6 000 張圖片。其中50 000 張圖片作為訓練集,10 000張圖片作為測試集。

3.1.2 參數(shù)設置

判別網(wǎng)絡和生成網(wǎng)絡初始學習率均為0.000 2,迭代訓練60 個epoch,每個周期的迭代次數(shù)為8 000次,批量大小為64。實驗中生成器和判別器的損失函數(shù)中的權重系數(shù)分別設置為α=0.2,β=0.1。訓練過程使用Adam 優(yōu)化算法,其中參數(shù)beta1 設置為0.5,beta2 設置為0.9。

3.1.3 實驗結果與分析

所提出的ASA-EGAN 模型在Cifar10 數(shù)據(jù)集上生成效果如圖7所示。

Fig.7 Cifar10 generated sample圖7 Cifar10生成樣本

圖7 是模型ASA-EGAN 生成的樣本,生成的樣本細節(jié)特征豐富,物體形狀和背景清晰,圖像具有鮮明的色彩,且色彩分布舒適。

Fig.8 Comparison of samples generated by Cifar10圖8 Cifar10生成樣本對比

圖8為ASA-EGAN模型與其他生成模型經(jīng)過60次迭代以后生成的樣本圖像對比,主要包括DCGAN(deep convolutional generative adversarial networks)、WGAN、EGAN、ASA-EGAN。從圖中可以看出,DCGAN 模型生成的樣本圖像模糊,特征不明顯;WGAN 模型生成的樣本相比于EGAN,圖像較為清晰,圖像質(zhì)量優(yōu)于EGAN;EGAN 模型生成的樣本相比于DCGAN,EGAN 生成的樣本圖像清晰,特征明顯,色彩感較為鮮明;而提出的ASA-EGAN模型生成的樣本圖像不僅圖像清晰,細節(jié)特征更明顯,而且具有更鮮明的色彩,給人更好的視覺效果,圖像質(zhì)量優(yōu)于其他模型所生成的樣本圖像。

為了驗證ASA-EGAN模型對于圖像分類性能是否有所提高,將ASA-EGAN模型所生成的Cifar10生成樣本進行圖像分類實驗。表2為EGAN、DCGAN、WGAN、ASA-EGAN 模型的Cifar10 生成樣本圖像分類結果。可以看出ASA-EGAN生成樣本的分類準確率均高于其他模型,驗證了本文方法對于提高圖像分類效果是有效的。

Table 2 Classification results of generated image by different models on Cifar10表2 Cifar10不同模型生成圖像分類結果

3.2 CUHKPQ數(shù)據(jù)集

CUHKPQ 是一個大規(guī)模圖像數(shù)據(jù)集,該數(shù)據(jù)集包含28 410 張圖像,分為高美學質(zhì)量和低美學質(zhì)量兩個分類,包含7 個場景類別,分別是動物、人類、建筑、植物、風景、靜態(tài)和夜晚。實驗將輸入圖像調(diào)整為128×128 像素大小的圖像并縮小至64×64 像素,將64×64 像素的圖像作為模型輸入。

所提出的ASA-EGAN 模型及EGAN 模型在CUHKPQ數(shù)據(jù)集上生成效果如圖9所示。

為驗證內(nèi)容損失的性能,在同等條件下訓練了基于EGAN+美學損失生成模型,對應圖10。

從圖9、圖10可看出,ASA-EGAN所生成圖像的紋理特征豐富,色彩分布舒適,視覺愉悅感強。未加入內(nèi)容損失生成圖像與ASA-EGAN模型的生成圖像相比,較真實圖像缺乏內(nèi)容真實性。

Fig.9 CUHKPQ generation sample圖9 CUHKPQ生成樣本

Fig.10 EGAN+aesthetic loss generation sample圖10 EGAN+美學損失生成樣本

Fig.11 Comparison of CUHKPQ generation sample圖11 CUHKPQ生成樣本對比

圖11為ASA-EGAN模型與其他生成模型生成的樣本圖像對比,主要包括DCGAN、WGAN和EGAN。從圖中可以看出,ASA-EGAN 模型生成的樣本相比于其他三種生成模型,生成的圖像清晰,細節(jié)特征更明顯,而且具有更鮮明的色彩,給人更好的視覺效果。

圖12為CUHKPQ在EGAN、ASA-EGAN模型上的生成樣本對比單圖。ASA-EGAN模型生成圖像從色彩、對比度、亮度、清晰度等方面都優(yōu)于EGAN 模型,并且紋理特征豐富、內(nèi)容真實性強。以客觀評價指標衡量圖像美觀度,圖中下方數(shù)值為該圖的圖像美學分數(shù)。ASA-EGAN模型生成樣本的圖像美學分數(shù)均高于EGAN 模型生成樣本,因此從主觀和客觀兩方面來講,ASA-EGAN模型生成樣本均優(yōu)于EGAN模型,驗證了所提方法的有效性。

Fig.12 Comparison of single image of CUHKPQ generated sample圖12 CUHKPQ生成樣本對比單圖

3.3 評價指標

為了定量地評估生成的圖像質(zhì)量,采用弗雷歇距離(Fréchet inception distance,F(xiàn)ID)評估標準衡量生成樣本的質(zhì)量。用弗雷歇距離來衡量真實圖像和生成圖像的相似程度,F(xiàn)ID 值越小,說明模型效果越好。表3展示了ASA-EGAN與其他生成模型相比較的最佳FID值。

Table 3 Comparison of FID values of different models表3 不同模型FID值對比

從表3 可看出,Cifar10、CUHKPQ 數(shù)據(jù)集中,ASA-EGAN所生成的圖像FID值相比EGAN提高了3.21和5.44,說明ASA-EGAN生成圖像細節(jié)清晰,紋理特征豐富,具有多樣性、質(zhì)量高等特點。

同時為衡量ASA-EGAN所生成美學圖像的美學質(zhì)量,采用美學評估模型NIMA對生成圖像進行美學評分,不同數(shù)據(jù)集最高評分結果如表4所示。

Table 4 Aesthetic evaluation scores of different models表4 不同模型美學評價分數(shù)

從表4 中可以看到,ASA-EGAN 在Cifar10、CUHKPQ數(shù)據(jù)集上所生成圖像的美學評分比EGAN分別提高了0.75和0.88,再一次驗證了所提方法所生成的美學圖像結果在色彩對比度、整體色調(diào)等方面均有一定優(yōu)勢,反映了其美觀評價相比其他模型有所提升。

4 結束語

針對現(xiàn)有圖像生成模型所生成的圖像大多數(shù)缺乏美觀感,難以滿足人們對于美學的需求這一問題,提出了一種嵌入自注意力機制的美學特征圖像生成方法ASA-EGAN。通過在網(wǎng)絡中引入密集塊,充分提取圖像特征,減少參數(shù)量,緩解梯度消失問題;生成器和判別器加入自注意力機制,保證生成圖像具有豐富的細節(jié)特征,清晰度高;設計美學損失輔助生成模型得到具有一定美學特征的圖像;最后加入內(nèi)容損失確保生成圖像不會丟失真實圖像的內(nèi)容。實驗在Cifar10、CUHKPQ 數(shù)據(jù)集上驗證了本文方法的有效性和可行性,并采用弗雷歇距離值和圖像美學分數(shù)衡量生成圖像,對所提方法與其他方法進行對比,證明了本文方法生成的樣本細節(jié)特征豐富,質(zhì)量高,美觀度高等優(yōu)異表現(xiàn)。但該方法借助圖像美學評價模型對生成圖像進行整體美學評價,未來考慮從構圖、陰影、色彩和諧性等美學屬性方面進一步改善生成圖像美觀感;并且在美學損失、內(nèi)容損失的權重系數(shù)選擇上需要不斷地嘗試才能得到合適的值,在以后的研究中會探索公式化計算方法。

日照市| 洛扎县| 安福县| 凌源市| 清徐县| 清新县| 社会| 合川市| 孙吴县| 康乐县| 若羌县| 绥芬河市| 忻城县| 千阳县| 寿阳县| 龙江县| 渝中区| 青河县| 聂拉木县| 永川市| 将乐县| 临武县| 大埔县| 富源县| 万山特区| 六盘水市| 华宁县| 余干县| 鹰潭市| 庆城县| 建瓯市| 青海省| 同仁县| 西青区| 社旗县| 兴海县| 台东市| 南皮县| 拜城县| 汾阳市| 晋州市|