国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于通道分組注意力的無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型

2021-11-13 09:52孫銘一孫劉杰李佳昕
包裝學(xué)報(bào) 2021年5期
關(guān)鍵詞:殘差編碼卷積

孫銘一 孫劉杰 李佳昕

上海理工大學(xué)

出版印刷與藝術(shù)設(shè)計(jì)學(xué)院

上海 200093

0 引言

圖像風(fēng)格轉(zhuǎn)換是近年來(lái)機(jī)器視覺(jué)領(lǐng)域的研究重點(diǎn)之一。根據(jù)圖像風(fēng)格轉(zhuǎn)換模型在訓(xùn)練中是否需要成對(duì)的數(shù)據(jù),其可分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)需要成對(duì)的數(shù)據(jù)和人工對(duì)數(shù)據(jù)打標(biāo)簽,導(dǎo)致時(shí)間成本過(guò)高。無(wú)監(jiān)督學(xué)習(xí)不需要成對(duì)的數(shù)據(jù),相較于有監(jiān)督學(xué)習(xí),其數(shù)據(jù)獲取更加簡(jiǎn)單高效,普適性更高。根據(jù)一張輸入圖像是否能夠?qū)?yīng)獲得多個(gè)輸出圖像,圖像風(fēng)格轉(zhuǎn)換模型可分為單模態(tài)模型和多模態(tài)模型。在單模態(tài)模型中,一張輸入圖像只能獲得一張對(duì)應(yīng)的輸出圖像,當(dāng)輸入數(shù)據(jù)不成對(duì)時(shí),其局限性便體現(xiàn)在模型的輸出結(jié)果不確定上。在多模態(tài)模型中,一張輸入圖像可以對(duì)應(yīng)多張輸出圖像,因而多模態(tài)模型能夠很好地應(yīng)對(duì)多圖像轉(zhuǎn)換任務(wù),例如包裝平面設(shè)計(jì)[1]、文圖轉(zhuǎn)換等。

近年來(lái)有關(guān)多模態(tài)無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換的研究越來(lái)越多,這些研究都是基于生成對(duì)抗網(wǎng)絡(luò)[2](generative adversarial networks,GAN)。Choi Y.等[3]提出了人臉圖像多模態(tài)轉(zhuǎn)換模型StarGAN,Yu X. M.等[4]提出了SingleGAN。StarGAN使用星形生成網(wǎng)絡(luò)結(jié)構(gòu)并在輸入中添加目標(biāo)領(lǐng)域信息,再結(jié)合判別器的分類(lèi)結(jié)構(gòu)和循環(huán)重構(gòu)一致性約束完成圖像翻譯工作。但是其欠缺對(duì)圖像重構(gòu)損失的考慮,因而圖像風(fēng)格轉(zhuǎn)換時(shí)某些固定屬性會(huì)發(fā)生變化,導(dǎo)致圖像質(zhì)量下降。SingleGAN則采用類(lèi)別便簽指導(dǎo)方法,在StarGAN的基礎(chǔ)之上對(duì)網(wǎng)絡(luò)結(jié)構(gòu)作出改進(jìn)。2018年,Huang X.等[5]提出的MUNIT和Lee H. Y.等[6]提出的DRIT,均是基于內(nèi)容與風(fēng)格分離編碼再交叉解碼的方法以獲得多樣的輸出。與DRIT不同的是,MUNIT采用自適應(yīng)實(shí)例規(guī)范化算法(adaptive instance normalization,AdaIn)的風(fēng)格特征參數(shù)[7]來(lái)融合內(nèi)容特征,以實(shí)現(xiàn)圖像風(fēng)格轉(zhuǎn)換。DRIT的轉(zhuǎn)換效果不如MUNIT,而MUNIT的轉(zhuǎn)換效果不如有監(jiān)督的多模態(tài)模型BicycleGAN[8]。但有監(jiān)督的多模態(tài)模型BicycleGAN需要成對(duì)的輸入數(shù)據(jù),這增加了數(shù)據(jù)集的獲取難度,且模型體積龐大。

為了提高無(wú)監(jiān)督模型的輸出圖像質(zhì)量,解決局部偽影和局部特征丟失等問(wèn)題,本課題組在MUNIT的基礎(chǔ)上,提出了基于通道分組注意力(channel-divided with attention,CDA)的無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型。在生成器部分,構(gòu)建通道分組注意力殘差塊。在鑒別器部分,利用多分辨率尺度的全局鑒別器對(duì)輸出圖像進(jìn)行不同分辨率尺度上的鑒別,利用局部鑒別器[9]對(duì)輸出圖像局部進(jìn)行鑒別。

1 無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型

1.1 模型結(jié)構(gòu)

本文所提的無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型的主要?jiǎng)?chuàng)新點(diǎn)如下:

1)采用通道分組注意力殘差塊構(gòu)建生成器。CDA殘差塊主要包含通道分組和通道注意力機(jī)制(ef ficient channel attention,ECA)[10-11]兩個(gè)模塊。通道分組模塊能夠?qū)崿F(xiàn)殘差塊內(nèi)的跳躍連接,減少特征丟失;ECA模塊能夠自適應(yīng)地調(diào)整特征圖通道權(quán)值,提高網(wǎng)絡(luò)對(duì)有效特征的關(guān)注度,并進(jìn)一步減少模型參數(shù)量以及體積。

2)采用雙鑒別器結(jié)構(gòu)構(gòu)建鑒別器。多尺度全局鑒別器對(duì)輸出圖像在多分辨率尺度上進(jìn)行聯(lián)級(jí)鑒別,以提高輸出圖像的結(jié)構(gòu)連貫性與內(nèi)容完整性;局部鑒別器對(duì)輸入圖像進(jìn)行剪裁,即獲得1/4的圖像,以提高輸出圖像精度。

3)引入 NIMA(neural image assessment)[12]美學(xué)評(píng)分模型評(píng)價(jià)風(fēng)格轉(zhuǎn)換圖像質(zhì)量。NIMA模型對(duì)輸出圖像的真實(shí)性進(jìn)行客觀評(píng)價(jià),并從圖像美學(xué)的角度評(píng)估圖像風(fēng)格是否美觀。將主觀評(píng)價(jià)結(jié)果參數(shù)化減少了人眼判斷的隨意性與主觀偏差,提高了評(píng)價(jià)過(guò)程的操作便捷性與公平性。

無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型的訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。測(cè)試時(shí),本模型僅需輸入單張邊緣圖像或者實(shí)物圖像即可得到轉(zhuǎn)換后的風(fēng)格圖像。

彩圖

在圖1中,無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型為對(duì)稱(chēng)結(jié)構(gòu),包含兩個(gè)結(jié)構(gòu)相同的生成器GA、GB,兩個(gè)結(jié)構(gòu)相同的風(fēng)格編碼器ESA、ESB,以及兩個(gè)結(jié)構(gòu)相同的鑒別器DA、DB。鑒別器DA由多尺度全局鑒別器GD和局部鑒別器LD組成。輸入圖像A(實(shí)物圖像)與輸入圖像B(邊緣圖像)互為各自的風(fēng)格圖像,均在生成器和風(fēng)格編碼器完成圖像內(nèi)容和風(fēng)格的編碼,進(jìn)而實(shí)現(xiàn)兩個(gè)生成器之間的交叉解碼,得到的輸出圖像再進(jìn)入鑒別器進(jìn)行鑒別以及前向反饋,最終完成整個(gè)訓(xùn)練網(wǎng)絡(luò)的調(diào)整與優(yōu)化。基于循環(huán)一致理論,無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型能實(shí)現(xiàn)實(shí)物圖像與邊緣圖像的互相轉(zhuǎn)換?,F(xiàn)有的邊緣提取算法,如Canny算子、Sobel算子等,均能檢測(cè)出清晰完整的邊緣,因此本研究不是將圖像A到圖像AB(邊緣圖像)的風(fēng)格轉(zhuǎn)換作為研究重點(diǎn),而是將圖像B到圖像BA(實(shí)物圖像)的風(fēng)格轉(zhuǎn)換作為研究重點(diǎn)。此轉(zhuǎn)換涉及的主要模塊有生成器GA、風(fēng)格編碼器ESA、鑒別器DA,轉(zhuǎn)換過(guò)程可描述如下:

1.2 風(fēng)格編碼器

風(fēng)格編碼器保留了MUNIT中的方法,由兩個(gè)下采樣層、一個(gè)池化層以及一個(gè)全連接層組成。提取圖像的風(fēng)格編碼后,多層感知器(multilayer perceptron,MLP)對(duì)其進(jìn)行加工處理,以一維的AdaIN參數(shù)形式融合到生成器的解碼器中,與內(nèi)容信息共同解碼,從而獲得新的風(fēng)格圖像。 MLP是一種前向的全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每一層的單個(gè)神經(jīng)元均與下一層中的所有神經(jīng)元連接。其中,AdaIN的工作機(jī)制是,給定一個(gè)內(nèi)容圖像和一個(gè)風(fēng)格圖像,通過(guò)調(diào)整輸入的內(nèi)容圖像的均值和標(biāo)準(zhǔn)差來(lái)匹配輸入的風(fēng)格圖像,從而實(shí)現(xiàn)圖像間的風(fēng)格轉(zhuǎn)換。假設(shè)輸入的內(nèi)容圖像為c,輸入的風(fēng)格圖像為s,則AdaIN歸一化操作公式為

式中:μ(c)、μ(s)分別為內(nèi)容圖像、風(fēng)格圖像的均值;

σ(c)、σ(s)分別為內(nèi)容圖像、風(fēng)格圖像的標(biāo)準(zhǔn)差。

式(2)將內(nèi)容圖像與風(fēng)格圖像的均值和標(biāo)準(zhǔn)差對(duì)齊,即通過(guò)傳遞特征統(tǒng)計(jì)信息在特征空間進(jìn)行風(fēng)格轉(zhuǎn)換。以圖1中的風(fēng)格編碼器ESA為例,在圖像風(fēng)格轉(zhuǎn)換過(guò)程中,ESA對(duì)輸入圖像A進(jìn)行編碼,提取其風(fēng)格特征信息sA,

1.3 生成器

生成器為編碼器-解碼器結(jié)構(gòu),其中,編碼器由兩個(gè)下采樣層和4個(gè)通道分組注意力殘差塊CDA組成,解碼器由4個(gè)通道分組注意力殘差塊CDA和兩個(gè)上采樣層組成。編碼器和解碼器的主要構(gòu)成模塊均為通道分組注意力殘差塊CDA,該殘差塊的構(gòu)建主要參考了Gao S. H.等[13]提出的res2net。res2net能夠以更細(xì)的粒度來(lái)表示多尺度特征,同時(shí)增加了每個(gè)塊內(nèi)網(wǎng)絡(luò)層的感受野,在目標(biāo)檢測(cè)、語(yǔ)義分割等機(jī)器視覺(jué)任務(wù)中其有效性得到證實(shí)。

邊緣圖像中,邊緣在整張圖像中的占比遠(yuǎn)小于空白部分,過(guò)大的感受野會(huì)使邊緣信息占比更少,導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)很多無(wú)效信息,使生成的圖像質(zhì)量下降,出現(xiàn)偽影、空洞等現(xiàn)象。倘若縮小感受野,則會(huì)增加參數(shù)計(jì)算量,加重模型負(fù)擔(dān)。因此,本研究在不改變感受野大小的前提下,將殘差塊中basicblock模塊的第二層卷積層按照通道數(shù)n均分為兩個(gè)維度相同的網(wǎng)絡(luò),一個(gè)為常規(guī)3×3卷積,另一個(gè)作為淺層信息,通過(guò)concat跳躍連接[14]與卷積后的特征圖進(jìn)行拼接,重構(gòu)n通道特征圖。在改進(jìn)后的殘差塊末端引入ECA,構(gòu)建通道分組注意力殘差塊結(jié)構(gòu),如圖2所示。

圖2 通道分組注意力殘差塊結(jié)構(gòu)Fig. 2 Structure of CDA residual block

彩圖

在圖2中,假設(shè)原始輸入數(shù)據(jù)為X,經(jīng)過(guò)第一層卷積后輸出Y,

式中:W1、W2分別為第一層3×3卷積、第二層通道分組模塊的權(quán)重;

σ為Relu激活函數(shù);

K3為3×3卷積核;

第二層卷積按照通道數(shù)均分為兩個(gè)網(wǎng)絡(luò),分別得到n/2通道的特征圖Y1、Y2。Y1通過(guò)跳躍連接與Y2進(jìn)行拼接,重構(gòu)n通道特征圖Z,

殘差塊的輸出F滿(mǎn)足如下公式:

通道分組是通過(guò)將特征先拆分后融合的策略,使卷積網(wǎng)絡(luò)能更高效地處理邊緣特征。這既實(shí)現(xiàn)了邊緣特征的深度提取,又實(shí)現(xiàn)了淺層邊緣特征的重復(fù)利用,保留了更多的有效信息[13]。

隨后,F(xiàn)作為ECA層的輸入數(shù)據(jù),進(jìn)一步完成各通道權(quán)重的自適應(yīng)調(diào)整。ECA是由Wang Q. L.等提出,通過(guò)不降維且自適應(yīng)地捕捉圖像各特征圖之間的跨通道交互,自適應(yīng)地調(diào)整更新各特征圖通道的權(quán)值,并對(duì)各特征圖通道間的內(nèi)部依賴(lài)關(guān)系進(jìn)行建模,從而降低模型的復(fù)雜程度,提高網(wǎng)絡(luò)對(duì)于有效特征的關(guān)注能力。ECA結(jié)構(gòu)如圖3所示。

圖3 ECA結(jié)構(gòu)Fig. 3 Structure of ECA

ECA去除了全連接層,在全局平均池化后通過(guò)一個(gè)可以權(quán)重共享的一維卷積對(duì)特征圖進(jìn)行學(xué)習(xí)。該一維卷積涉及超參數(shù)k即一維卷積的卷積核尺寸,它代表了局部跨通道交互的覆蓋率。超參數(shù)k與輸入特征圖通道數(shù)C之間存在如下映射:

因此,k為

式(8)~(9)中γ和b為常量,γ=2,b=1。

重構(gòu)后的特征圖F可表示為集合{ni}(i=1,2,…,n),則在ECA層中,第i個(gè)通道的局部跨通道交互權(quán)重wi為

式中:θ為sigmoid函數(shù);

wj為所有通道間共享的權(quán)重;為ni的k個(gè)相鄰?fù)ǖ赖募稀?/p>

可視化通道特征通常表現(xiàn)出一定的局部周期性,因此,通過(guò)權(quán)重共享的方式捕獲局部的跨通道交互,既可以實(shí)現(xiàn)有效邊緣信息的提取與利用,又避免了捕捉跨所有通道交互所帶來(lái)的模型復(fù)雜度與計(jì)算量[10]。經(jīng)過(guò)卷積核大小為k的一維卷積后,結(jié)合式(7),通道間的信息交互權(quán)重矩陣w為

式中Kk為k×k卷積。

通過(guò)權(quán)重矩陣w實(shí)現(xiàn)輸出特征圖各通道的權(quán)值自適應(yīng)調(diào)整,以不降維方式捕獲更多有效邊緣信息,因此通道分組注意力殘差塊的最終輸出G為

1.4 鑒別器

鑒別器由兩部分組成,分別是用于鑒別整張輸出圖像的多分辨率尺度全局鑒別器GDA以及用于鑒別剪裁后局部輸出圖像的局部鑒別器LDA。全局鑒別器GDA采用多尺度結(jié)構(gòu),即先對(duì)圖像BA進(jìn)行多次降采樣操作,生成大小不同的圖像,再通過(guò)多分辨率尺度并聯(lián)鑒別,使輸出圖像的全局內(nèi)容連貫和全局結(jié)構(gòu)合理。全局鑒別器GDA包含3個(gè)不同的鑒別分辨率尺度,分別是256×256, 128×128, 64×64,每個(gè)尺度均輸出一個(gè)判斷值,隨后通過(guò)加權(quán)平均得出整個(gè)全局鑒別器的判斷值。局部鑒別器LDA為單尺度結(jié)構(gòu),其輸入為剪裁1/4的圖像BA后的圖像BAcut,大小為128×128。局部鑒別器LDA對(duì)局部圖像進(jìn)行鑒別后輸出一個(gè)判斷值,隨后與全局鑒別器GDA的判斷值通過(guò)加權(quán)平均方式計(jì)算出鑒別器DA的最終判斷值。

全局鑒別器和局部鑒別器均采用PatchGAN[15]結(jié)構(gòu)。PatchGAN是將圖像分成若干個(gè)70×70的小塊,每個(gè)小塊輸出一個(gè)判斷值,最終根據(jù)得到大小為m×m的矩陣計(jì)算判斷值。PatchGAN可以綜合考量整張圖像不同部分的影響,使得判斷結(jié)果更加準(zhǔn)確。

式中:E為期望;

p(?)為圖像的分布;

GD(i=1, 2, 3)為全局鑒別器中3個(gè)不同尺度的鑒別器;

cB為圖像B的內(nèi)容信息;

sA為圖像A的風(fēng)格信息。

式中為各尺度全局鑒別器的權(quán)重系數(shù)。

式中Acut為剪裁1/4的圖像A后的圖像。

式中αCD、βLD分別為全局鑒別器、局部鑒別器的權(quán)重。

鑒別器的結(jié)構(gòu)如圖4所示。

圖4 鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Network structure of discriminators

彩圖

1.5 目標(biāo)函數(shù)

無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型的總體目標(biāo)函數(shù)為

如式(17)所示,目標(biāo)函數(shù)包括4個(gè)部分。

2)源域圖像與重構(gòu)源域圖像間的循環(huán)一致性損失LB′→B與LA′→A。

在生成器GA中,編碼器對(duì)輸入的邊緣圖像B進(jìn)行編碼,提取其內(nèi)容編碼cB,即

隨后,解碼器根據(jù)內(nèi)容編碼cB以及圖像A的風(fēng)格編碼sA,解碼獲得新的風(fēng)格圖像BA,即

按照循環(huán)一致性理論,生成器獲得的風(fēng)格圖像BA也能經(jīng)編碼與解碼操作得到重構(gòu)的輸入圖像B′。B′的重構(gòu)過(guò)程如下:

式(21)~(22)中:cBA為風(fēng)格圖像BA的內(nèi)容編碼;

sB為輸入圖像B的風(fēng)格編碼。

圖像B′與原始輸入圖像B之間的損失為

同理,圖像A與重構(gòu)圖像A′之間的損失為

對(duì)重構(gòu)圖像B′進(jìn)行風(fēng)格編碼,可得風(fēng)格編碼sB′。sB′與sB(呈正態(tài)分布)之間損失應(yīng)當(dāng)滿(mǎn)足如下約束關(guān)系:

式中q(·)為風(fēng)格編碼sB的分布。

同理,重構(gòu)圖像A′的風(fēng)格編碼sA′與風(fēng)格編碼sA之間的損失函數(shù)為

重構(gòu)圖像B′的內(nèi)容編碼cB′與輸入圖像B的內(nèi)容編碼cB應(yīng)該是一致的,則cB′與cB之間應(yīng)當(dāng)滿(mǎn)足如下約束關(guān)系:

重構(gòu)圖像A′的內(nèi)容編碼cA′與輸入圖像A的內(nèi)容編碼cA之間的損失函數(shù)為

2 實(shí)驗(yàn)

本實(shí)驗(yàn)是在Linux18.04系統(tǒng)、Pytorch1.0平臺(tái)完成。訓(xùn)練數(shù)據(jù)來(lái)自iGAN-project的手提包圖像集。輸入圖像和輸出圖像的大小均為256×256。為了驗(yàn)證本文方法的有效性和優(yōu)越性,用兩組不同的測(cè)試數(shù)據(jù)(數(shù)據(jù)來(lái)自iGAN-project和網(wǎng)絡(luò))測(cè)試BicycleGAN模型[8]、MUNIT模型[5]、DRIT模型[6]與本模型,利用NIMA(neural image assessment)距離[11]、LPIPS(learned perceptual image patch similarity)距離[16]評(píng)價(jià)4種模型的輸出圖像質(zhì)量,并比較模型的體積和參數(shù)量。MUNIT模型、DRIT模型和本模型均為無(wú)監(jiān)督模型,輸入數(shù)據(jù)為邊緣圖像;BicycleGAN模型為有監(jiān)督模型,輸入數(shù)據(jù)為一一對(duì)應(yīng)的“邊緣+實(shí)物”圖像對(duì)。

2.1 評(píng)價(jià)指標(biāo)

1)NIMA距離

引入NIMA模型對(duì)4種模型的輸出結(jié)果進(jìn)行真實(shí)性評(píng)價(jià)。NIMA模型是由谷歌于2017年提出的模擬人眼對(duì)圖片美觀度進(jìn)行打分的模型,通過(guò)計(jì)算歸一化的EMD(Earth mover’s distance)距離(見(jiàn)式(29))對(duì)任意圖像生成評(píng)分直方圖,即給圖像進(jìn)行1~10的預(yù)測(cè)評(píng)分。預(yù)測(cè)評(píng)分越高,代表圖像質(zhì)量越高,圖像更加美觀。

式中:CDFp(k)為預(yù)測(cè)評(píng)分的概率累加值,而不是獨(dú)立的預(yù)測(cè)獲得每一個(gè)評(píng)分的概率;

當(dāng)標(biāo)簽中的評(píng)分越高,則累計(jì)概率越大。相比于人眼打分機(jī)制,NIMA模型可以避免人眼主觀性較高、觀測(cè)環(huán)境不統(tǒng)一、人眼樣本屬性不一致等因素帶來(lái)的偏差。

2)LPIPS距離

參考BicycleGAN、MUNIT,引入LPIPS距離對(duì)4種模型的輸出結(jié)果進(jìn)行多樣性評(píng)價(jià)。LPIPS距離由圖像深度特征間的L2距離加權(quán)獲得。參考圖像x與失真圖像x′之間的距離為

⊙為矢量wl對(duì)通道進(jìn)行縮放操作。

2.2 iGAN-project的手提包圖像測(cè)試實(shí)驗(yàn)

從NIMA距離、LPIPS距離以及模型的體積和參數(shù)量方面,比較BicycleGAN模型、MUNIT模型、DRIT模型與本模型的優(yōu)劣。測(cè)試數(shù)據(jù)來(lái)自iGAN-project的手提包圖像。

訓(xùn)練本模型時(shí),輸入圖像為手提包邊緣圖像B,圖像B經(jīng)編碼器編碼內(nèi)容信息后與實(shí)物圖像A的風(fēng)格信息[17-18]共同解碼獲得輸出圖像BA,即不同風(fēng)格的著色手提包圖像。部分實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 手提包風(fēng)格轉(zhuǎn)換結(jié)果Fig. 5 Handbags’style conversion results

彩圖

與BicycleGAN、MUNIT相似,測(cè)試實(shí)驗(yàn)選取50張輸入圖像,每張輸入圖像隨機(jī)采樣獲得10張輸出圖像,計(jì)算500張輸出圖像的NIMA距離均值。對(duì)50張輸入圖像的每張圖像隨機(jī)采樣獲得38張輸出圖像,計(jì)算1900張輸出圖像的LPIPS距離均值。4種模型的實(shí)驗(yàn)結(jié)果評(píng)價(jià)如表1所示。

表1 實(shí)驗(yàn)結(jié)果評(píng)價(jià)Table 1 Evaluation of experimental results

由表1可知:從輸出圖像的美觀度來(lái)說(shuō),本文方法的NIMA值最高;從輸出結(jié)果的多樣性來(lái)說(shuō),本文方法與MUNIT和DRIT模型差不多,與BicycleGAN模型相比,本文方法的多樣性提升了約10%;從模型的體積與參數(shù)量來(lái)說(shuō),本文方法的模型體積最小,參數(shù)量最少。可見(jiàn)本文方法能夠以更小的模型體積、更少的模型參數(shù)量獲得更加美觀且多樣性的輸出結(jié)果。

2.3 紙質(zhì)手提盒圖像測(cè)試實(shí)驗(yàn)

在包裝的外觀設(shè)計(jì)中,從設(shè)計(jì)草圖到設(shè)計(jì)稿的過(guò)程,同樣可以看作是一次圖像間的風(fēng)格轉(zhuǎn)換。本實(shí)驗(yàn)從網(wǎng)絡(luò)選取1張紙質(zhì)手提盒圖像,生成測(cè)試數(shù)據(jù)集。按照實(shí)驗(yàn)要求,先將圖像統(tǒng)一裁剪為256×256,再利用Canny算子提取圖像邊緣,通過(guò)反相操作,獲得白色背景的邊緣圖像(見(jiàn)圖6)。4種模型的實(shí)驗(yàn)結(jié)果如圖7所示。

圖6 紙質(zhì)手提盒實(shí)物圖與邊緣圖Fig. 6 Physical image and edge image of paper portable box

由圖7可知,BicycleGAN模型、MUNIT模型以及DRIT模型的輸出圖像在局部細(xì)節(jié)上如提手與紙盒的黏合處,均存在嚴(yán)重的偽影,導(dǎo)致輸出圖像的局部邊緣細(xì)節(jié)不清晰;BicycleGAN模型和DRIT模型的輸出結(jié)果還出現(xiàn)了著色不均現(xiàn)象,一定程度上影響了輸出圖像的美觀度;本模型的輸出圖像相對(duì)擁有更為清晰的局部細(xì)節(jié),在提手與紙盒的黏合處并未出現(xiàn)肉眼可見(jiàn)的大面積偽影,并且圖像著色均勻,美觀度更高,整體觀感更佳。

圖7 紙質(zhì)手提盒可視化結(jié)果對(duì)比Fig. 7 Comparison of visualization results of paper portable box

彩圖

對(duì)圖7中的輸出結(jié)果計(jì)算NIMA距離均值,結(jié)果如表2所示。

表2 4種模型的NIMA距離Table 2 NIMA distance of 4 models

由表2可知,與BicycleGAN模型、MUNIT模型以及DRIT模型相比,本模型在紙質(zhì)手提盒的平面設(shè)計(jì)中表現(xiàn)最優(yōu),與圖7的可視化效果相吻合。

上述兩組實(shí)驗(yàn)結(jié)果證明了本文所提的無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型在包裝產(chǎn)品平面設(shè)計(jì)遷移應(yīng)用中的有效性。相較于icycleGAN模型、MUNIT模型以及DRIT模型,本模型不僅具有多樣性的輸出,而且能捕獲有效的圖像特征,增強(qiáng)圖像局部細(xì)節(jié)。

3 結(jié)論

針對(duì)多模態(tài)無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型MUNIT模型的輸出圖像真實(shí)性不高的問(wèn)題,本文提出了一種基于通道分組注意力殘差塊的雙鑒別器無(wú)監(jiān)督模型。首先,在生成器采用基于通道注意力的深度特征提取殘差塊CDA,CDA是編碼器與解碼器的重要組成模塊。CDA利用跳躍連接提高生成器部分對(duì)于淺層圖像信息的提取與利用,并通過(guò)ECA實(shí)現(xiàn)殘差塊通道權(quán)值的自適應(yīng)調(diào)整,進(jìn)一步提高網(wǎng)絡(luò)對(duì)有效特征信息的關(guān)注度。其次,采用并聯(lián)的多分辨率尺度全局鑒別器與局部鑒別器,重構(gòu)相應(yīng)的損失函數(shù)。局部鑒別器使生成圖像擁有清晰的局部細(xì)節(jié),多分辨率尺度全局鑒別器提高生成圖像的全局內(nèi)容連貫性與結(jié)構(gòu)合理性,以更好地實(shí)現(xiàn)網(wǎng)絡(luò)優(yōu)化,獲得更高質(zhì)量的輸出圖像。實(shí)驗(yàn)結(jié)果表明:本模型不僅擁有更小的模型體積,更少的參數(shù)量,且在輸出圖像的NIMA美觀度評(píng)價(jià)以及LPIPS多樣性評(píng)價(jià)中均取得了更高的得分。此外,在包裝類(lèi)產(chǎn)品的平面設(shè)計(jì)遷移任務(wù)中,本模型也獲得了較高的NIMA美觀度得分,與BicycleGAN模型、MUNIT模型以及DRIT模型相比,本模型能夠獲得局部細(xì)節(jié)更加清晰、完整的輸出圖像,減少了偽影、特征丟失等問(wèn)題的產(chǎn)生,進(jìn)一步證明了本模型在圖像特征提取以及利用等方面的優(yōu)越性,同時(shí)證明了將多模態(tài)無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換模型應(yīng)用于包裝設(shè)計(jì)是可行的,多模態(tài)的輸出能夠?yàn)樵O(shè)計(jì)工作提供更多的設(shè)計(jì)思路。

在包裝類(lèi)產(chǎn)品的平面設(shè)計(jì)中,盡管本模型相較于BicycleGAN模型和MUNIT模型,在輸出圖像質(zhì)量上有一定的提高,但是輸出圖像還存有小面積的邊界模糊以及輕微的偽影,這將是后續(xù)研究需要解決的問(wèn)題。此外,不同包裝類(lèi)型產(chǎn)品相關(guān)數(shù)據(jù)的獲取,以及是否需要添加額外的特定約束條件來(lái)獲得更加真實(shí)有效的輸出等,也是后續(xù)研究方向。

猜你喜歡
殘差編碼卷積
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
HEVC對(duì)偶編碼單元?jiǎng)澐謨?yōu)化算法
基于殘差-注意力和LSTM的心律失常心拍分類(lèi)方法研究
住院病案首頁(yè)ICD編碼質(zhì)量在DRG付費(fèi)中的應(yīng)用
融合上下文的殘差門(mén)卷積實(shí)體抽取
生活中的編碼
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱(chēng)空洞卷積模塊①
基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法