国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多任務(wù)對(duì)抗和抗噪對(duì)抗學(xué)習(xí)的人臉超分辨率算法

2022-11-18 04:15:32陳泓佑和紅杰蔣桐雨
模式識(shí)別與人工智能 2022年10期
關(guān)鍵詞:多任務(wù)高分辨率人臉

陳泓佑 陳 帆 和紅杰 蔣桐雨

單幅圖像超分辨率重建(Single Image Super-Resolution, SISR)是一個(gè)經(jīng)典問(wèn)題,具有較大的應(yīng)用價(jià)值.超分辨率算法可用于視頻和照片的超分辨率任務(wù),也可拓展用于芯片圖像中的芯片級(jí)特洛伊木馬檢測(cè)[1-2].近年來(lái),基于深度學(xué)習(xí)的超分辨率技術(shù)發(fā)展迅速,端到端學(xué)習(xí)模型是此領(lǐng)域的研究熱點(diǎn),如SRCNN(Super-Resolution Convolutional Neural Net-works)[3]、VDSR(Super-Resolution Using Very Deep Convolutional Networks)[4]、LapSRN(Laplacian Pyra-mid Super-Resolution Networks)[5]、EDSR(Enhanced Deep Super-Resolution Networks)[6]、SRFBN(Image Super-Resolution Feedback Network)[7]、FC2N(Fully Channel-Concatenated Network)[8]、RFANet(Resi-dual Feature Aggregation Network)[9]、基于多殘差網(wǎng)絡(luò)的結(jié)構(gòu)保持超分辨率模型[10]等.這些模型主要通過(guò)設(shè)計(jì)深度卷積神經(jīng)網(wǎng)絡(luò)和一些基本塊(如殘差塊、通道連接塊和注意力塊等)以改進(jìn)超分辨率圖像的質(zhì)量.也有一些模型利用非傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)和流體動(dòng)力學(xué)原理設(shè)計(jì)超分辨率網(wǎng)絡(luò)模型,如SwinIR(Image Restoration Using Swin Transformer)[11]及文獻(xiàn)[12]方法(Fluid Micelle Network for Image Super-Resolution Reconstruction).

由于生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN) 在圖像生成上的成功應(yīng)用,其被迅速用于超分辨率任務(wù)中[13-14].一般地,在端到端模型融入對(duì)抗學(xué)習(xí)后,能使超分辨率圖像更具真實(shí)感.例如,SRGAN(Super-Resolution GAN)[15]、ESRGAN(Enhanced SRGAN)[16]、ESRGAN+(Further Impro-ving ESRGAN)[17]、DBPN(Deep Back-Projection Networks)[18]、PPON(Progressive Perception-Oriented Net- work)[19]等都能使超分辨率人眼視覺(jué)效果更優(yōu).

在人臉超分辨率任務(wù)中,一些通用算法為其提供基礎(chǔ)模型.目前的主流技術(shù)是端到端學(xué)習(xí)、基于GAN相關(guān)技術(shù)[20-21].在一些端到端模型中,先通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到低分辨率(Low-Resolution, LR) 圖像,再將這些低分辨率圖像用于端到端學(xué)習(xí),使人臉超分辨率網(wǎng)絡(luò)更具泛化能力,提高超分辨率圖像質(zhì)量[22-23].在另一些模型中,引入人臉圖像的先驗(yàn)知識(shí),輔助網(wǎng)絡(luò)訓(xùn)練,提高超分辨率圖像質(zhì)量.例如:Chen等[24]提出FSRNet(Face Super-Resolution Net-work),融合人臉關(guān)鍵點(diǎn)熱圖(Facial Landmark Heat-maps)和解析圖(Parsing Maps).Ma等[25]提出DIC(Deep Face Super-Resolution with Iterative Collabora-tion),利用人臉關(guān)鍵點(diǎn)循環(huán)訓(xùn)練策略(Facial Land-marks Cycle Training).Zhang等[26]提出MSFSR(Multi-stage Face Super-Resolution),利用人臉邊界線(xiàn)(Facial Boundaries)進(jìn)行由粗到精的人臉超分辨率重建.蔣桐雨等[27]提出非對(duì)稱(chēng)U型金字塔重建人臉超分辨率網(wǎng)絡(luò)(Asymmetric U-Pyramid Face Super-Resolution Network, AUP-FSRNet),在構(gòu)建非對(duì)稱(chēng)U型編解碼網(wǎng)絡(luò)的同時(shí),引入人臉關(guān)鍵點(diǎn)熱圖損失,約束人臉結(jié)構(gòu)重塑.

一般地,基于GAN的人臉超分辨率模型能使超分辨率圖像更真實(shí)、更符合人眼視覺(jué)習(xí)慣,提高超分辨率圖像的感知圖像質(zhì)量.FSRNet、DIC和AUP-FSRNet引入對(duì)抗學(xué)習(xí)后構(gòu)成FSRGAN[24]、DIC-GAN[25]和AUP-FSRGAN[27],這些模型能重建更清晰的紋理細(xì)節(jié)和面部輪廓信息.此外,Kim等[28]提出PFSR(Progressive Face SR Network),融合面部注意力信息(Facial Attention Information)和對(duì)抗學(xué)習(xí)技術(shù).Bulat等[29]提出Super-FAN,融合人臉關(guān)鍵點(diǎn)距離(Facial Landmark Distance)和GAN.付利華等[30]提出融合參考圖像的人臉超分辨率重構(gòu)方法,利用特征提取網(wǎng)絡(luò)獲得參考圖像的多尺度特征,再結(jié)合對(duì)抗學(xué)習(xí),利用逐級(jí)超分主網(wǎng)絡(luò)對(duì)低分辨率人臉圖像特征進(jìn)行逐次填充.Dou等[31]提出PCA-SRGAN,先通過(guò)主成分分析(Principal Component Analysis, PCA)投影矩陣,將人臉超分辨率圖像投影到特征空間中,再將這些投影特征輸入判別器中,使超分辨率圖像更規(guī)整,減少畸變情況.Chen等[32]提出SPARNet(Spatial Attention Residual Network),引入空間注意力到生成器(這個(gè)生成器是端到端網(wǎng)絡(luò)),改進(jìn)超分辨率圖像的視覺(jué)質(zhì)量.

端到端學(xué)習(xí)的人臉超分辨率模型通常能更好地保持圖像信息,具有更高的結(jié)構(gòu)相似指標(biāo)數(shù)據(jù),但人臉圖像細(xì)節(jié)信息(如頭發(fā)紋理、牙齒邊緣和瞳孔反光點(diǎn)等)相對(duì)較差[24-25],導(dǎo)致端到端學(xué)習(xí)的人臉超分辨率圖像的真實(shí)感較差.基于GAN的人臉超分辨率模型常直接引入判別器進(jìn)行對(duì)抗學(xué)習(xí),并未過(guò)多針對(duì)人臉超分辨率任務(wù)進(jìn)行進(jìn)一步優(yōu)化.由于對(duì)抗學(xué)習(xí)生成圖像的隨機(jī)性,超分辨率圖像在諸如頭發(fā)和面部輪廓等信息上容易扭曲變形[24,28].

考慮到上述問(wèn)題,本文提出基于多任務(wù)對(duì)抗和抗噪對(duì)抗學(xué)習(xí)的人臉超分辨率算法(Face Super-Resolution Algorithm Based on Multi-task Adversarial and Antinoise Adversarial Learning, MTA-ANALFSR).整個(gè)算法分為端到端學(xué)習(xí)和端到端網(wǎng)絡(luò)參數(shù)微調(diào)兩個(gè)階段.在端到端學(xué)習(xí)階段中,設(shè)計(jì)多任務(wù)拉普拉斯金字塔網(wǎng)絡(luò)(Multi-task Laplacian Pyramid Network, MTLapNet),完成多任務(wù)對(duì)抗學(xué)習(xí).在端到端網(wǎng)絡(luò)參數(shù)微調(diào)階段,利用預(yù)訓(xùn)練的二分類(lèi)器,完成端到端網(wǎng)絡(luò)參數(shù)微調(diào)中判別器的優(yōu)化函數(shù)抗噪學(xué)習(xí).利用抗噪對(duì)抗學(xué)習(xí)提高對(duì)抗學(xué)習(xí)的穩(wěn)定性,改進(jìn)最終的對(duì)抗學(xué)習(xí)參數(shù)微調(diào)效果.實(shí)驗(yàn)表明本文算法生成的人臉超分辨率圖像具有更好的圖像真實(shí)性,更符合人眼視覺(jué)習(xí)慣.值得注意的是,在整個(gè)網(wǎng)絡(luò)訓(xùn)練過(guò)程中,并未使用額外的諸如人臉特征點(diǎn)熱圖、解析圖、人臉特征點(diǎn)距離和面部注意力信息等類(lèi)似的圖像特征信息.

1 多任務(wù)對(duì)抗和抗噪對(duì)抗學(xué)習(xí)的人臉超分辨率算法

1.1 網(wǎng)絡(luò)結(jié)構(gòu)

1.1.1多任務(wù)端到端學(xué)習(xí)網(wǎng)絡(luò)

本文提出多任務(wù)對(duì)抗學(xué)習(xí)(Multi-task Adversa-rial Learning, MTAL)的端到端學(xué)習(xí)網(wǎng)絡(luò),結(jié)構(gòu)如圖1所示.

圖1 多任務(wù)對(duì)抗學(xué)習(xí)的端到端學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)圖

為了利用多任務(wù)對(duì)抗學(xué)習(xí)完成端到端網(wǎng)絡(luò)學(xué)習(xí),將一般的端到端網(wǎng)絡(luò)設(shè)計(jì)成多任務(wù)網(wǎng)絡(luò).主任務(wù)網(wǎng)絡(luò)(參數(shù)共享層+主任務(wù)分支網(wǎng)絡(luò))進(jìn)行端到端的人臉超分辨率學(xué)習(xí),子任務(wù)網(wǎng)絡(luò)(參數(shù)共享層+子任務(wù)分支網(wǎng)絡(luò))進(jìn)行含懲罰式對(duì)抗學(xué)習(xí)的人臉超分辨率學(xué)習(xí).主任務(wù)網(wǎng)絡(luò)和子任務(wù)網(wǎng)絡(luò)之間采用部分參數(shù)共享的硬參數(shù)共享方式[33].

多任務(wù)對(duì)抗學(xué)習(xí)中的判別器使用一個(gè)VGG128網(wǎng)絡(luò)[34].主任務(wù)網(wǎng)絡(luò)利用L1優(yōu)化函數(shù),完成從16×16低分辨率圖像到128×128超分辨率圖像的學(xué)習(xí).子任務(wù)網(wǎng)絡(luò)利用L1和對(duì)抗學(xué)習(xí)優(yōu)化函數(shù),完成從16×16低分辨率圖像到128×128超分辨率圖像的學(xué)習(xí).

端到端學(xué)習(xí)對(duì)應(yīng)的多任務(wù)拉普拉斯金字塔網(wǎng)絡(luò)(MTLapNet)結(jié)構(gòu)如圖2所示.

圖2 多任務(wù)拉普拉斯金字塔網(wǎng)絡(luò)結(jié)構(gòu)

在整個(gè)金字塔網(wǎng)絡(luò)的搭建中,應(yīng)用殘差密集連接網(wǎng)絡(luò)塊(Residual in Residual Dense Block, RRDB)[16-17]作為基本塊.RRDB參考?xì)埐罹W(wǎng)絡(luò)(Re-sidual Network, ResNet)[35]和密集連接網(wǎng)絡(luò)(Den-sely Connected Convolutional Networks, DenseNet)[36],能有效預(yù)防神經(jīng)網(wǎng)絡(luò)梯度消失,有效復(fù)用神經(jīng)網(wǎng)絡(luò)的淺層特征.

在圖2中,RRDB由3組殘差密集塊(Residual Dense Block, RDB),共15個(gè)卷積層組成.在參數(shù)共享層中,為每?jī)山M串聯(lián)或一組單獨(dú)使用的RRDB塊進(jìn)行殘差連接.如圖2所示:卷積層中,“n64ks3s1”表示特征通道數(shù)為64、卷積核尺寸為3、卷積步長(zhǎng)為1,其它依次類(lèi)推;在RRDB塊中,gc是指RRDB塊內(nèi)部中密集連接塊(Dense Block) 的塊內(nèi)部卷積通道數(shù);亞像素卷積(Pixel Shuffle, PS)中,n64ks3f2表示亞像素卷積的特征通道數(shù)為64、卷積核尺寸為3、放大倍數(shù)為2;2倍調(diào)整尺寸表示立方線(xiàn)性插值,放大為原來(lái)的2倍.

在主任務(wù)網(wǎng)絡(luò)中,網(wǎng)絡(luò)輸出32×32超分辨率圖像過(guò)程如下:對(duì)應(yīng)的主任務(wù)網(wǎng)絡(luò)輸出的16×16圖像立方線(xiàn)性插值放大2倍后,與輸出的32×32圖像按像素元素相加.相加后的32×32圖像再與32×32高分辨率(High-Resolution, HR) 圖像(128×128高分辨率圖像立方線(xiàn)性插值縮小4倍)進(jìn)行L1優(yōu)化函數(shù)學(xué)習(xí).主任務(wù)網(wǎng)絡(luò)輸出的64×64超分辨率圖像過(guò)程與之類(lèi)似.需要注意的是,生成128×128超分辨率圖像的過(guò)程沒(méi)有64×64超分辨率圖像直接參與,是直接通過(guò)RRDB塊和主任務(wù)網(wǎng)絡(luò)末端卷積層等輸出的.子任務(wù)網(wǎng)絡(luò)與主任務(wù)網(wǎng)絡(luò)對(duì)稱(chēng),32×32圖像、64×64圖像、128×128超分辨率圖像的輸出與主任務(wù)網(wǎng)絡(luò)一致,但在訓(xùn)練過(guò)程中增加對(duì)抗學(xué)習(xí)優(yōu)化函數(shù).

1.1.2 主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)

抗噪對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)(Antinoise Adversarial Lear-ning, ANAL)參數(shù)微調(diào)過(guò)程如圖3所示.當(dāng)圖2中的MTLapNet完成學(xué)習(xí)后,對(duì)其進(jìn)行網(wǎng)絡(luò)剪枝,僅保留主任務(wù)網(wǎng)絡(luò)(參數(shù)共享層+主任務(wù)分支網(wǎng)絡(luò)).主任務(wù)網(wǎng)絡(luò)與一個(gè)VGG128二分類(lèi)網(wǎng)絡(luò)D1構(gòu)成對(duì)抗學(xué)習(xí)雙方.抗噪對(duì)抗學(xué)習(xí)通過(guò)一個(gè)已完成預(yù)訓(xùn)練的VGG128二分類(lèi)網(wǎng)絡(luò)D2,對(duì)D1網(wǎng)絡(luò)的正樣本優(yōu)化函數(shù)LossD+的圖像樣本權(quán)重進(jìn)行校正.預(yù)訓(xùn)練二分類(lèi)網(wǎng)絡(luò)D2的正樣本是訓(xùn)練數(shù)據(jù)中的高分辨率圖像,負(fù)樣本是圖2中主任務(wù)網(wǎng)絡(luò)輸出的人臉超分辨率圖像.在抗噪對(duì)抗學(xué)習(xí)中,主任務(wù)網(wǎng)絡(luò)作為生成器,D1網(wǎng)絡(luò)作為對(duì)抗學(xué)習(xí)判別器,預(yù)訓(xùn)練D2網(wǎng)絡(luò)用于D1網(wǎng)絡(luò)正樣本優(yōu)化函數(shù)LossD+圖像樣本權(quán)重校正.這3個(gè)網(wǎng)絡(luò)共同完成抗噪對(duì)抗學(xué)習(xí)的主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)任務(wù).LossD-是D1網(wǎng)絡(luò)的負(fù)樣本(超分辨率圖像)優(yōu)化函數(shù).LossD+和LossD-共同構(gòu)成D1網(wǎng)絡(luò)的二分類(lèi)優(yōu)化函數(shù),正負(fù)樣本標(biāo)簽期望值分別為1和0.

圖3 抗噪對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)的參數(shù)微調(diào)過(guò)程

1.2 多任務(wù)對(duì)抗學(xué)習(xí)與端到端學(xué)習(xí)

8倍率端到端學(xué)習(xí)的人臉超分辨率網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,圖中不同色柱表示不同上采樣結(jié)構(gòu)塊,可以是卷積層堆疊,也可以是類(lèi)似于RRDB之類(lèi)的結(jié)構(gòu).上采樣結(jié)構(gòu)塊主要任務(wù)是完成小圖像向更大尺寸圖像(也可以是多幅更大尺寸的特征圖)的采樣.在8倍率端到端學(xué)習(xí)人臉超分辨率網(wǎng)絡(luò)中,16×16低分辨率圖像直接輸入一個(gè)上采樣深度神經(jīng)網(wǎng)絡(luò),然后輸出128×128超分辨率圖像.

圖4 端到端學(xué)習(xí)的人臉超分辨率網(wǎng)絡(luò)結(jié)構(gòu)圖

直接進(jìn)行端到端學(xué)習(xí)得到的人臉超分辨率圖像通常較模糊,難以重建頭發(fā)、瞳孔和牙齒邊緣等細(xì)節(jié)[24-25],這是由于L1和L2型解碼優(yōu)化函數(shù)本身的限制所導(dǎo)致的,它們更傾向于尋求批量圖像平均一致.提高端到端學(xué)習(xí)階段的視覺(jué)質(zhì)量,可在基于GAN進(jìn)行端到端網(wǎng)絡(luò)參數(shù)微調(diào)時(shí),設(shè)定更好的網(wǎng)絡(luò)參數(shù)初始值.

在基于樣本特征解碼約束GAN中,為了提高對(duì)抗學(xué)習(xí)生成圖像質(zhì)量,引入樣本特征解碼約束條件[37].其核心思想是:在隨機(jī)噪聲通過(guò)生成器映射到隨機(jī)圖像的對(duì)抗學(xué)習(xí)任務(wù)中,增加訓(xùn)練樣本特征通過(guò)解碼器映射到訓(xùn)練樣本圖像的解碼約束條件.解碼器和生成器結(jié)構(gòu)相同,網(wǎng)絡(luò)參數(shù)共享,樣本特征與隨機(jī)噪聲維度相同.這種GAN能使生成器同時(shí)兼顧對(duì)抗學(xué)習(xí)和樣本特征解碼任務(wù)[37].類(lèi)似地,在端到端學(xué)習(xí)階段設(shè)計(jì)兼顧低分辨率圖像到高分辨率圖像的解碼任務(wù),以及低分辨率圖像到高分辨率圖像的對(duì)抗學(xué)習(xí)任務(wù),可提高人臉超分辨率圖像質(zhì)量.

多任務(wù)學(xué)習(xí)通常適合兩個(gè)及兩個(gè)以上的學(xué)習(xí)任務(wù),相比單任務(wù)學(xué)習(xí),通常具有性能上的優(yōu)勢(shì),便于提高主任務(wù)的學(xué)習(xí)效果[33].通常多任務(wù)學(xué)習(xí)包含硬參數(shù)共享和軟參數(shù)共享兩種方式[33].十字繡網(wǎng)絡(luò)(Cross-Stitch Networks)是一種軟參數(shù)共享方式多任務(wù)網(wǎng)絡(luò),應(yīng)用十字繡單元,自動(dòng)決定最佳共享層,但帶來(lái)諸如參數(shù)初始化、學(xué)習(xí)率設(shè)置等方面的問(wèn)題[38].多任務(wù)學(xué)習(xí)中需要關(guān)注如何對(duì)各子任務(wù)的優(yōu)化函數(shù)進(jìn)行加權(quán)以取得較優(yōu)的訓(xùn)練效果[39].在GAN中,多任務(wù)學(xué)習(xí)依然有效,利用多任務(wù)生成器配合多任務(wù)判別器,優(yōu)化多種散度的加權(quán)組合,可改進(jìn)對(duì)抗學(xué)習(xí)穩(wěn)定性,進(jìn)而改進(jìn)生成圖像質(zhì)量[40].

在端到端學(xué)習(xí)中,由于需要完成低分辨率圖像到超分辨率圖像端到端學(xué)習(xí)(解碼任務(wù))和對(duì)抗學(xué)習(xí)兩個(gè)任務(wù),故設(shè)計(jì)硬參數(shù)共享的多任務(wù)拉普拉斯金字塔網(wǎng)絡(luò)(見(jiàn)圖2).網(wǎng)絡(luò)的主任務(wù)是完成低分辨率圖像映射到高分辨率圖像任務(wù),子任務(wù)是結(jié)合一個(gè)VGG128判別器完成對(duì)抗學(xué)習(xí)任務(wù).在基于樣本特征解碼約束生成式對(duì)抗網(wǎng)絡(luò)中,優(yōu)化JS(Jensen-Shannon)散度時(shí)融入訓(xùn)練圖像樣本特征解碼約束,提高生成圖像質(zhì)量[37].需要注意的是,解碼約束起輔助作用.在本文多任務(wù)對(duì)抗學(xué)習(xí)中,低分辨率圖像通過(guò)解碼盡量擬合高分辨率圖像是主任務(wù),對(duì)抗學(xué)習(xí)起輔助作用,故對(duì)抗學(xué)習(xí)優(yōu)化函數(shù)選用JS散度.在低分辨率圖像的解碼優(yōu)化函數(shù)類(lèi)型選擇上,參考ESRGAN和ESRGAN+[16-17],選用L1型.如圖2所示,拉普拉斯金子塔圖像是網(wǎng)絡(luò)輸出的32×32圖像和64×64圖像(包括主任務(wù)網(wǎng)絡(luò)和子任務(wù)網(wǎng)絡(luò)),優(yōu)化方式和單任務(wù)端到端LapSRN[5]相近.結(jié)合圖1和圖2,給出多任務(wù)對(duì)抗學(xué)習(xí)優(yōu)化函數(shù),如下所示:

分類(lèi)器優(yōu)化函數(shù)

(1)

生成器(子任務(wù)網(wǎng)絡(luò))優(yōu)化函數(shù)

(2)

子任務(wù)網(wǎng)絡(luò)低分辨率圖像解碼優(yōu)化函數(shù)

(3)

子任務(wù)網(wǎng)絡(luò)最終含對(duì)抗學(xué)習(xí)的優(yōu)化函數(shù)

losssub_SR=losssub_Dec+lossG;

(4)

主任務(wù)網(wǎng)絡(luò)低分辨率圖像的解碼優(yōu)化函數(shù)

(5)

其中:xHR32、xHR64、xHR分別表示訓(xùn)練數(shù)據(jù)集的32×32圖像、64×64圖像、128×128高分辨率圖像,xHR32和xHR64可由xHR立方線(xiàn)性插值縮放獲得;xsub_SR32、xsub_SR64、xsub_SR分別表示子任務(wù)網(wǎng)絡(luò)輸出的32×32圖像,64×64圖像、128×128超分辨率圖像;xmain_SR32、xmain_SR64、xmain_SR分別表示主任務(wù)網(wǎng)絡(luò)輸出的32×32圖像、64×64圖像、128×128超分辨率圖像;m表示批尺寸大小,i表示批量樣本中的圖像樣本編號(hào),λ1表示多任務(wù)對(duì)抗學(xué)習(xí)權(quán)重.

1.3 抗噪對(duì)抗學(xué)習(xí)與網(wǎng)絡(luò)參數(shù)微調(diào)

通過(guò)多任務(wù)對(duì)抗學(xué)習(xí),完成多任務(wù)拉普拉斯金字塔網(wǎng)絡(luò)訓(xùn)練后,進(jìn)行網(wǎng)絡(luò)參數(shù)剪枝,僅保留圖2中的主任務(wù)網(wǎng)絡(luò),再通過(guò)對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行參數(shù)微調(diào).當(dāng)對(duì)抗學(xué)習(xí)進(jìn)行網(wǎng)絡(luò)參數(shù)微調(diào)時(shí),由于生成器(主任務(wù)網(wǎng)絡(luò))的梯度反傳是通過(guò)判別器進(jìn)行,故判別器能直接影響生成器的人臉超分辨率圖像效果.

在數(shù)據(jù)分類(lèi)模型中,訓(xùn)練樣本需要與之對(duì)應(yīng)的標(biāo)簽配對(duì),當(dāng)前深度神經(jīng)網(wǎng)絡(luò)中的研究主要集中于噪聲標(biāo)簽對(duì)分類(lèi)效果產(chǎn)生的影響[41].噪聲標(biāo)簽是一種難以避免的類(lèi)型數(shù)據(jù)[41],通??墒狗诸?lèi)模型的判別值偏向隨機(jī)值,預(yù)測(cè)能力降低甚至產(chǎn)生錯(cuò)誤.在深度神經(jīng)網(wǎng)絡(luò)中,抗噪優(yōu)化函數(shù)的設(shè)計(jì)是一種有效的標(biāo)簽噪聲抗噪方法[42].例如:通過(guò)分析優(yōu)化函數(shù)的數(shù)學(xué)性質(zhì),設(shè)計(jì)風(fēng)險(xiǎn)最小化的抗標(biāo)簽噪聲優(yōu)化函數(shù)[42];通過(guò)公式化噪聲察覺(jué)模型完成噪聲標(biāo)簽的感知任務(wù),構(gòu)建優(yōu)化函數(shù)校正模型[43].在對(duì)抗學(xué)習(xí)中,由于分類(lèi)器正負(fù)樣本的標(biāo)簽是設(shè)定值(0或1),故在對(duì)抗學(xué)習(xí)中,分類(lèi)器的抗噪優(yōu)化函數(shù)可針對(duì)訓(xùn)練樣本.在抗噪學(xué)習(xí)和聯(lián)盟博弈的GAN中,分類(lèi)器的抗噪學(xué)習(xí)能提升對(duì)抗學(xué)習(xí)的穩(wěn)定性和生成圖像質(zhì)量[44].可利用生成圖像和訓(xùn)練圖像,訓(xùn)練一個(gè)二分類(lèi)卷積神經(jīng)網(wǎng)絡(luò)(依據(jù)輸出的置信度進(jìn)行噪聲感知),再將訓(xùn)練圖像輸入二分類(lèi)網(wǎng)絡(luò),得到分類(lèi)置信度,以此置信度校正對(duì)抗學(xué)習(xí)中判別器正樣本優(yōu)化函數(shù)樣本權(quán)重[44].

如圖3所示,在抗噪對(duì)抗學(xué)習(xí)進(jìn)行主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)中,D2為一個(gè)已完成預(yù)訓(xùn)練的VGG128二分類(lèi)網(wǎng)絡(luò),正負(fù)樣本分別為訓(xùn)練集高分辨率圖像和主任務(wù)網(wǎng)絡(luò)輸出的超分辨率圖像.D1為另一個(gè)與D2完全相同的VGG128二分類(lèi)網(wǎng)絡(luò).主任務(wù)網(wǎng)絡(luò)和D1網(wǎng)絡(luò)構(gòu)成抗噪對(duì)抗學(xué)習(xí)的組件,預(yù)訓(xùn)練網(wǎng)絡(luò)D2對(duì)D1的正樣本優(yōu)化函數(shù)進(jìn)行樣本權(quán)重歸一化校正.結(jié)合圖3,抗噪對(duì)抗學(xué)習(xí)的主任務(wù)網(wǎng)絡(luò)優(yōu)化函數(shù)如下所示.

分類(lèi)器的正樣本優(yōu)化函數(shù)為:

(6)

(7)

分類(lèi)器的負(fù)樣本優(yōu)化函數(shù)為:

(8)

生成器(主任務(wù)網(wǎng)絡(luò))優(yōu)化函數(shù)為:

(9)

主任務(wù)網(wǎng)絡(luò)低分辨率圖像的解碼優(yōu)化函數(shù)為:

(10)

主任務(wù)網(wǎng)絡(luò)最終含抗噪對(duì)抗學(xué)習(xí)的優(yōu)化函數(shù)為:

lossmain_SR=lossmain_Dec+lossG.

(11)

其中:xHR32、xHR64、xHR分別表示訓(xùn)練數(shù)據(jù)集的32×32圖像、64×64圖像、128×128高分辨率圖像;xmain_SR32、xmain_SR64、xmain_SR分別表示主任務(wù)網(wǎng)絡(luò)輸出的32×32圖像、64×64圖像、128×128超分辨率圖像;wi表示正樣本優(yōu)化函數(shù)的樣本權(quán)重;λ2表示對(duì)抗學(xué)習(xí)權(quán)重.

1.4 人臉超分辨率算法步驟

由1.1節(jié)~1.3節(jié)可知,本文的人臉超分辨率算法(MTA-ANALFSR)分為多任務(wù)對(duì)抗學(xué)習(xí)端到端主任務(wù)網(wǎng)絡(luò)和抗噪對(duì)抗學(xué)習(xí)主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào),具體步驟如下,優(yōu)化器選用Adam(Adaptive Mo-ment Estimation).

算法1多任務(wù)對(duì)抗學(xué)習(xí)主任務(wù)網(wǎng)絡(luò)訓(xùn)練方法(主任務(wù)網(wǎng)絡(luò)預(yù)訓(xùn)練)

輸入訓(xùn)練數(shù)據(jù)集X及對(duì)應(yīng)的16×16的LR圖像,

學(xué)習(xí)率η,優(yōu)化器動(dòng)量因子β,

批尺寸大小m,對(duì)抗學(xué)習(xí)權(quán)重參數(shù)λ1

輸出多任務(wù)拉普拉斯金字塔網(wǎng)絡(luò)

1.while 主任務(wù)網(wǎng)絡(luò)未收斂 do

3. 由式(1)更新D網(wǎng)絡(luò)參數(shù),Adam.

4. 由式(4)更新子任務(wù)網(wǎng)絡(luò)參數(shù),Adam.

5. 由式(5)更新主任務(wù)網(wǎng)絡(luò)參數(shù),Adam.

6.end while

在算法1中,step 3~step 4完成含對(duì)抗學(xué)習(xí)的子任務(wù)網(wǎng)絡(luò)人臉超分辨率任務(wù).step 5完成主任務(wù)網(wǎng)絡(luò)(端到端學(xué)習(xí))的人臉超分辨率任務(wù).

算法2抗噪對(duì)抗學(xué)習(xí)主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)訓(xùn)練方法

輸入訓(xùn)練數(shù)據(jù)集X及它的16×16的LR圖像,

學(xué)習(xí)率η,優(yōu)化器動(dòng)量因子β,

批尺寸大小m,對(duì)抗學(xué)習(xí)權(quán)重參數(shù)λ2,

已完成預(yù)訓(xùn)練的VGG128網(wǎng)絡(luò)D2

輸出主任務(wù)拉普拉斯金字塔網(wǎng)絡(luò)

1.while 主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)未結(jié)束 do

3. 由式(7)計(jì)算128×128的HR圖像樣本權(quán)重.

4. 由式(6)和式(8)更新D1網(wǎng)絡(luò)參數(shù),Adam.

5. 由式(11)更新主任務(wù)網(wǎng)絡(luò)參數(shù),Adam.

6.end while

在算法2中,step 3和step 4完成抗噪對(duì)抗學(xué)習(xí)的D1網(wǎng)絡(luò)參數(shù)更新.step 5完成基于抗噪對(duì)抗學(xué)習(xí)的主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào).

2 實(shí)驗(yàn)及結(jié)果分析

本文實(shí)驗(yàn)中主要的軟硬件環(huán)境為T(mén)ensorFlow 1.13.1 GPU版本、CUDA SDK 10.0、cuDNN 7.6、OpenCV 3.4和Matlab 2016b.GPU包括NVIDIA GTX 1080和GTX 1080Ti.

2.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)選取訓(xùn)練數(shù)據(jù)集為HELEN、CELEBA數(shù)據(jù)集.HELEN數(shù)據(jù)集包含2 330幅人臉圖像,將其中心裁剪成128×128大小,其中2 005幅圖像構(gòu)成訓(xùn)練數(shù)據(jù)集,50幅圖像構(gòu)成驗(yàn)證數(shù)據(jù)集,測(cè)試數(shù)據(jù)集與驗(yàn)證數(shù)據(jù)集相同.CELEBA數(shù)據(jù)集包含202 599幅人物上半身圖像,將其中心裁剪成128×128大小.經(jīng)過(guò)篩選后選擇其中168 854幅圖像構(gòu)成訓(xùn)練數(shù)據(jù)集,100幅圖像構(gòu)成驗(yàn)證數(shù)據(jù)集,1 000幅圖像構(gòu)成測(cè)試數(shù)據(jù)集[25].HELEN數(shù)據(jù)集由于樣本量較少,主要用于測(cè)試模型參數(shù)和驗(yàn)證模型有效性等.CELEBA數(shù)據(jù)集由于數(shù)據(jù)量較大,可用于與其它人臉超分辨率算法的對(duì)比實(shí)驗(yàn).利用MATLAB軟件對(duì)高分辨率圖像進(jìn)行立方插值后制成16×16的低分辨率圖像.

為了對(duì)比分析人臉超分辨率圖像質(zhì)量,選擇如下評(píng)價(jià)指標(biāo):峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)[25],平均結(jié)構(gòu)相似度(Mean Struc-tural Similarity, MSSIM)[45],LPIPS(Learned Percep-tual Image Patch Similarity)[23],人臉關(guān)鍵點(diǎn)的NRMSE(Normalized Root Mean Square Error)[25],F(xiàn)ID(Fré-chet Inception Distance)[46].PSNR表征人臉超分辨率圖像與高分辨率圖像之間的信息損失.MSSIM計(jì)算超分辨率圖像與高分辨率圖像之間的結(jié)構(gòu)信息相似程度.這兩個(gè)指標(biāo)值越高,算法性能越優(yōu).LPIPS表征超分辨率圖像與高分辨率圖像之間的感知信息相似程度,NRMSE表征超分辨率圖像與高分辨率圖像人臉關(guān)鍵點(diǎn)的差異程度,F(xiàn)ID計(jì)算超分辨率圖像與高分辨率圖像數(shù)據(jù)分布之間的差異程度.這3個(gè)指標(biāo)值越低,算法性能越優(yōu).

2.2 模型測(cè)試實(shí)驗(yàn)

2.2.1權(quán)重參數(shù)選取

為了測(cè)試式(2)中λ1相對(duì)適合的參數(shù)值,選取λ1=1.0e-3,5.0e-3,1.0e-2,分別進(jìn)行測(cè)試.實(shí)驗(yàn)基本設(shè)定為Adam,初始學(xué)習(xí)率η=0.000 1,動(dòng)量因子β=0.9,批量樣本數(shù)量m=16.最大迭代周期數(shù)為100,每30個(gè)迭代周期學(xué)習(xí)率減半,最小減到初始學(xué)習(xí)率的1/4.

λ1不同時(shí),多任務(wù)對(duì)抗學(xué)習(xí)算法在HELEN數(shù)據(jù)集上的指標(biāo)值對(duì)比如表1所示.由表可知,λ1=5.0e-3時(shí)取得最高PSNR值和MSSIM值,使超分辨率圖像與高分辨率圖像之間的信息損失和結(jié)構(gòu)信息盡量最優(yōu).λ1=5.0e-3,1.0e-2時(shí)LPIPS相近,但差于λ1=1.0e-3時(shí),這表明λ1=5.0e-3時(shí)能使感知圖像塊的相似度居中.λ1=5.0e-3時(shí)對(duì)應(yīng)的FID值也居中,這表明在超分辨率圖像與高分辨率圖像的分布差異程度上居中.λ1=5.0e-3時(shí)能取得低NR-MSE值,表明能使超分辨率圖像重建與高分辨率圖像最相近人臉關(guān)鍵點(diǎn).由于對(duì)抗學(xué)習(xí)具有穩(wěn)定性較差的特點(diǎn)[40,44],所以訓(xùn)練效果對(duì)權(quán)重λ1較敏感.

表1 λ1不同時(shí)算法在HELEN數(shù)據(jù)集上的指標(biāo)值對(duì)比

λ1不同時(shí),PSNR隨迭代周期數(shù)的收斂曲線(xiàn)如圖5所示.

(a)迭代周期數(shù)在[0,100)內(nèi)

由圖5可知,λ1=1.0e-3時(shí),前期PSNR曲線(xiàn)波動(dòng)較大.λ1=1.0e-2時(shí),后期PSNR曲線(xiàn)波動(dòng)較大.λ1=5.0e-3時(shí),有最好全局和局部的收斂效果.通過(guò)上述分析發(fā)現(xiàn),綜合考慮評(píng)價(jià)指標(biāo)和PSNR曲線(xiàn)收斂過(guò)程,當(dāng)選擇λ1=5.0e-3作為權(quán)重參數(shù)時(shí),懲罰式多任務(wù)對(duì)抗學(xué)習(xí)能使主任務(wù)跳出局部最優(yōu)解[33,40],得到相對(duì)更好的局部最優(yōu)解.

下面測(cè)試直接在主任務(wù)網(wǎng)絡(luò)上添加VGG128二分類(lèi)網(wǎng)絡(luò)后(主任務(wù)網(wǎng)絡(luò)未進(jìn)行任何預(yù)訓(xùn)練),執(zhí)行對(duì)抗學(xué)習(xí)超分辨率任務(wù)的λ2參數(shù).相當(dāng)于將對(duì)抗學(xué)習(xí)直接融入端到端網(wǎng)絡(luò),執(zhí)行人臉超分辨率任務(wù),無(wú)需再進(jìn)行后繼的主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào).

此時(shí),網(wǎng)絡(luò)結(jié)構(gòu)為圖3中直接去掉D2參與的抗噪學(xué)習(xí)對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu).主任務(wù)網(wǎng)絡(luò)優(yōu)化函數(shù)為式(9)~式(11),D1網(wǎng)絡(luò)的分類(lèi)優(yōu)化函數(shù)為標(biāo)準(zhǔn)的交叉熵優(yōu)化函數(shù),與原始對(duì)抗學(xué)習(xí)相同[13].

為了測(cè)試相對(duì)合理的λ2參數(shù),選擇λ2=1.0e-4,1.5e-4,2.0e-4,分別進(jìn)行測(cè)試.

實(shí)驗(yàn)基本設(shè)定為Adam,初始學(xué)習(xí)率η=0.000 1,動(dòng)量因子β=0.9,批量樣本數(shù)量m=16.迭代周期數(shù)為100,每30個(gè)迭代周期學(xué)習(xí)率減半,最小減到初始學(xué)習(xí)率的1/4.

λ2不同時(shí),直接對(duì)抗學(xué)習(xí)算法在HELEN數(shù)據(jù)集上的指標(biāo)值對(duì)比如表2所示.

表2 λ2不同時(shí)算法在HELEN數(shù)據(jù)集上的指標(biāo)值對(duì)比

由表2可知,當(dāng)λ2=1.5e-4時(shí),PSNR值和MSSIM值最高,這表明它能使超分辨率圖像與高分辨率圖像丟失更小的信息損失和圖像結(jié)構(gòu)信息.λ2=1.5e-4時(shí)LPIPS值最差,但有最低FID值和NRMSE值.這表明雖然λ2=1.5e-4時(shí)使超分辨率圖像有較差的感知圖像塊的相似度,但有最佳分布相似程度和人臉特征點(diǎn)重建效果.

λ2不同時(shí)PSNR隨迭代次數(shù)變化的收斂曲線(xiàn)如圖6所示.由圖可知,λ2=1.0e-4時(shí),PSNR曲線(xiàn)波動(dòng)情況最嚴(yán)重,λ2=1.5e-4和2.0e-4時(shí),PSNR曲線(xiàn)波動(dòng)情況相近.通過(guò)上述分析,綜合考慮評(píng)價(jià)指標(biāo)和收斂過(guò)程,選擇λ2=1.5e-4.對(duì)抗學(xué)習(xí)穩(wěn)定性較差,導(dǎo)致訓(xùn)練效果對(duì)權(quán)重λ2敏感.

(a)迭代周期數(shù)在[0,100)內(nèi)

2.2.2 對(duì)抗學(xué)習(xí)效果對(duì)比

本節(jié)測(cè)試直接利用主任務(wù)網(wǎng)絡(luò)進(jìn)行端到端學(xué)習(xí),由此產(chǎn)生的直接對(duì)抗學(xué)習(xí)效果(后繼將不進(jìn)行網(wǎng)絡(luò)參數(shù)微調(diào),表2中后一組實(shí)驗(yàn),選最優(yōu)效果對(duì)比)和含懲罰性質(zhì)的多任務(wù)對(duì)抗學(xué)習(xí)的人臉超分辨率效果(后繼還進(jìn)行網(wǎng)絡(luò)參數(shù)微調(diào),表1中選取最優(yōu)效果對(duì)比).實(shí)驗(yàn)基本設(shè)定為Adam,初始學(xué)習(xí)率η=0.000 1,動(dòng)量因子β=0.9,批量樣本數(shù)量m=16.迭代周期數(shù)為100,每30個(gè)迭代周期學(xué)習(xí)率減半,最小減到初始學(xué)習(xí)率的1/4.

不同人臉超分辨率算法在HELEN數(shù)據(jù)集上的指標(biāo)值對(duì)比如表3所示.由表可見(jiàn),對(duì)比端到端學(xué)習(xí)和多任務(wù)對(duì)抗學(xué)習(xí)可知,通過(guò)多任務(wù)對(duì)抗學(xué)習(xí)后,主任務(wù)網(wǎng)絡(luò)端到端學(xué)習(xí)能提升所有對(duì)比指標(biāo),這表明多任務(wù)對(duì)抗學(xué)習(xí)的超分辨率圖像質(zhì)量得到全面提升,減小高分辨率圖像信息,結(jié)構(gòu)失真的條件下也能在一定程度上提升人眼視覺(jué)效果.對(duì)比端到端學(xué)習(xí)和直接對(duì)抗學(xué)習(xí)可知,主任務(wù)網(wǎng)絡(luò)直接進(jìn)行對(duì)抗學(xué)習(xí)的PSNR值和MSSIM值有所下降,信息損失和結(jié)構(gòu)差異有所增加,但LPIPS、FID、NRMSE這3個(gè)感知指標(biāo)有所提升,超分辨率圖像更符合人眼視覺(jué)習(xí)慣.對(duì)比直接對(duì)抗學(xué)習(xí)和多任務(wù)對(duì)抗學(xué)習(xí)可知,多任務(wù)對(duì)抗的PSNR值和MSSIM值有所提高,超分辨率圖像和高分辨率圖像之間的信息損失和結(jié)構(gòu)差異較少.在LIPIS、FID、NRMSE指標(biāo)中僅FID指標(biāo)更優(yōu),其余兩個(gè)指標(biāo)較差.這表明相比直接對(duì)抗學(xué)習(xí),多任務(wù)對(duì)抗學(xué)習(xí)有利于超分辨率圖像模擬高分辨率圖像分布,但特征感知相似度和人臉關(guān)鍵點(diǎn)重建效果較差,需要下一階段的主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)完成.

表3 不同人臉超分辨率方法在HELEN數(shù)據(jù)集上的指標(biāo)值對(duì)比

不同人臉超分辨率方法的PSNR收斂曲線(xiàn)如圖7所示.由圖可知,端到端學(xué)習(xí)收斂曲線(xiàn)最穩(wěn)定.多任務(wù)學(xué)習(xí)次之,并且PSNR值在30個(gè)迭代周期后超過(guò)端到端學(xué)習(xí).直接對(duì)抗學(xué)習(xí)PSNR值收斂穩(wěn)定性和收斂效果最差.

(a)迭代周期數(shù)在[0,100)內(nèi)

由于對(duì)抗學(xué)習(xí)中生成圖像的隨機(jī)性,所以直接應(yīng)用對(duì)抗學(xué)習(xí)進(jìn)行超分辨率學(xué)習(xí)對(duì)收斂過(guò)程的穩(wěn)定性影響較大,PSNR值和MSSIM值有所下降,其余的感知指標(biāo)性能有所提升.由于多任務(wù)學(xué)習(xí)對(duì)單任務(wù)學(xué)習(xí)具有性能優(yōu)勢(shì),故多任務(wù)對(duì)抗學(xué)習(xí)能提升訓(xùn)練效果.需要注意的是,在多任務(wù)學(xué)習(xí)中,由于子任務(wù)網(wǎng)絡(luò)與主任務(wù)網(wǎng)絡(luò)部分參數(shù)共享,所以對(duì)抗學(xué)習(xí)帶來(lái)的不穩(wěn)定影響小于直接對(duì)抗學(xué)習(xí).

上述數(shù)據(jù)分析表明,綜合考慮PSNR收斂穩(wěn)定性和各指標(biāo)數(shù)據(jù)效果,在端到端學(xué)習(xí)階段,應(yīng)用多任務(wù)對(duì)抗學(xué)習(xí)可提升主任務(wù)網(wǎng)絡(luò)端到端學(xué)習(xí)效果.

幾種不同超分辨率方法得到的超分辨率圖像樣本如圖8所示.由圖可看出,在人臉紋理細(xì)節(jié)和輪廓重建上,直接端到端學(xué)習(xí)所得的超分辨率圖像均差于直接對(duì)抗學(xué)習(xí)和多任務(wù)對(duì)抗學(xué)習(xí).直接對(duì)抗學(xué)習(xí)所得的超分辨率圖像更符合人眼視覺(jué)習(xí)慣,具有更清晰的面部特征信息,但是圖像扭曲相對(duì)嚴(yán)重,這主要是由于對(duì)抗學(xué)習(xí)對(duì)填充圖像內(nèi)容具有隨機(jī)性.多任務(wù)對(duì)抗學(xué)習(xí)人眼視覺(jué)效果在端到端學(xué)習(xí)和直接對(duì)抗學(xué)習(xí)之間,需要注意的是,通過(guò)抗噪對(duì)抗學(xué)習(xí)最終結(jié)果具有最好的視覺(jué)效果.

(a)LR圖像

2.2.3 抗噪對(duì)抗學(xué)習(xí)效果

為了對(duì)比在主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)中,抗噪對(duì)抗學(xué)習(xí)和非抗噪對(duì)抗學(xué)習(xí)的效果差異,進(jìn)行如下實(shí)驗(yàn).在主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)階段,選用2.2.2節(jié)中通過(guò)多任務(wù)對(duì)抗學(xué)習(xí)完成訓(xùn)練的多任務(wù)拉普拉斯金字塔網(wǎng)絡(luò),經(jīng)過(guò)網(wǎng)絡(luò)參數(shù)裁剪,僅保留主任務(wù)網(wǎng)絡(luò)作為網(wǎng)絡(luò)參數(shù)微調(diào)的起始網(wǎng)絡(luò).實(shí)驗(yàn)基本設(shè)定為Adam,初始學(xué)習(xí)率η=2.0e-5,動(dòng)量因子β=0.9,批量樣本數(shù)量m=16,迭代周期數(shù)為40.結(jié)合生成式對(duì)抗網(wǎng)絡(luò)對(duì)抗學(xué)習(xí)的超分辨率任務(wù)參數(shù)設(shè)置經(jīng)驗(yàn),在大樣本量數(shù)據(jù)集CELEBA上,λ2通??刂圃?.0e-3量級(jí)[16-17,24-25,28].在小樣本量數(shù)據(jù)集HELEN上,結(jié)合表2中直接對(duì)抗學(xué)習(xí)的對(duì)抗學(xué)習(xí)權(quán)重測(cè)試效果,對(duì)抗學(xué)習(xí)權(quán)重λ2=1.5e-4.

抗噪對(duì)抗學(xué)習(xí)和非抗噪對(duì)抗學(xué)習(xí)在HELEN數(shù)據(jù)集上的指標(biāo)值對(duì)比如表4所示.

表4 抗噪對(duì)抗學(xué)習(xí)和非抗噪對(duì)抗學(xué)習(xí)在HELEN數(shù)據(jù)集上的指標(biāo)值對(duì)比

由表4可知,2種方法的主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)都影響人臉超分辨率圖像的PSNR值和MSSIM值,這主要是由于對(duì)抗學(xué)習(xí)填充圖像細(xì)節(jié)信息的隨機(jī)性所致.但融入對(duì)抗學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)微調(diào)超分辨率圖像的LPIPS、FID、NRMSE值均有所提升,這表明主任務(wù)網(wǎng)絡(luò)經(jīng)過(guò)對(duì)抗學(xué)習(xí)參數(shù)微調(diào)后,人臉超分辨率圖像更符合人眼視覺(jué)習(xí)慣.對(duì)比抗噪對(duì)抗學(xué)習(xí)和非抗噪對(duì)抗學(xué)習(xí)可看出,抗噪對(duì)抗學(xué)習(xí)效果在PSNR和MSSIM指標(biāo)上稍弱,但在LPIPS、FID和NRMSE感知指標(biāo)上均有所提升,即在人眼視覺(jué)習(xí)慣上優(yōu)于非抗噪對(duì)抗學(xué)習(xí)效果.

抗噪對(duì)抗學(xué)習(xí)和非抗噪對(duì)抗學(xué)習(xí)的PSNR收斂曲線(xiàn)對(duì)比如圖9所示.由圖可看出,抗噪對(duì)抗學(xué)習(xí)在前20個(gè)迭代周期中,PSNR曲線(xiàn)比非抗噪對(duì)抗學(xué)習(xí)更光滑,但在后20個(gè)迭代周期并不明顯.這主要由于在主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)中,對(duì)抗學(xué)習(xí)權(quán)重λ2很小,所以抗噪對(duì)抗學(xué)習(xí)的影響難以明顯體現(xiàn).由此可知,抗噪對(duì)抗學(xué)習(xí)可在一定程度上改進(jìn)收斂過(guò)程的穩(wěn)定性,得到更好的局部最優(yōu)解,超分辨率圖像視覺(jué)效果更優(yōu).

圖9 抗噪對(duì)抗學(xué)習(xí)和非抗噪對(duì)抗學(xué)習(xí)的PSNR收斂曲線(xiàn)

2.2.4 最終的人臉超分辨率效果對(duì)比

由表3和表4可知,相比端到端學(xué)習(xí),多任務(wù)對(duì)抗學(xué)習(xí)的所有指標(biāo)都有一定程度的提升,這表明在主任務(wù)網(wǎng)絡(luò)參數(shù)訓(xùn)練階段,多任務(wù)對(duì)抗學(xué)習(xí)方式不僅能改進(jìn)人臉超分辨率圖像與高分辨率圖像之間的圖像信息損失和結(jié)構(gòu)信息失真,也能使超分辨率圖像更符合人眼視覺(jué)習(xí)慣.在抗噪對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)參數(shù)微調(diào)階段,抗噪對(duì)抗學(xué)習(xí)能損失部分PSNR值和MSSIM值,進(jìn)一步提升LPIPS、FID和NRMSE感知指標(biāo)值,改進(jìn)人眼視覺(jué)質(zhì)量.對(duì)比圖8可知,端到端學(xué)習(xí)效果較模糊,眼睛瞳孔和五官輪廓線(xiàn)條等面部信息丟失嚴(yán)重.多任務(wù)對(duì)抗學(xué)習(xí)超分辨率圖像中的面部信息較豐富,抗噪對(duì)抗學(xué)習(xí)進(jìn)一步提升更細(xì)節(jié)的面部信息.

在CELEBA數(shù)據(jù)集上,實(shí)驗(yàn)基本設(shè)定為Adam,初始學(xué)習(xí)率η=0.000 1,動(dòng)量因子β=0.9,批量樣本數(shù)量m=16.在多任務(wù)對(duì)抗學(xué)習(xí)中,迭代周期數(shù)為90,每30個(gè)迭代周期學(xué)習(xí)率減半,最小減到初始學(xué)習(xí)率的1/4.在抗噪對(duì)抗學(xué)習(xí)階段,迭代周期數(shù)為20,學(xué)習(xí)率不變.

各方法在CELEBA數(shù)據(jù)集上的指標(biāo)值對(duì)比如表5所示.由表可知,相比端到端學(xué)習(xí),多任務(wù)對(duì)抗學(xué)習(xí)在PSNR、MSSIM、LPIPS、NRMSE指標(biāo)上有一定提升,在FID指標(biāo)上少許下降.這表明多任務(wù)對(duì)抗學(xué)習(xí)對(duì)人臉超分辨率圖像在圖像信息損失、結(jié)構(gòu)相似程度、特征感知相似程度及人臉關(guān)鍵點(diǎn)重建上均有改進(jìn),但是對(duì)超分辨率圖像模擬高分辨率圖像分布的影響較小.多任務(wù)對(duì)抗學(xué)習(xí)整體上提高端到端學(xué)習(xí)的人眼視覺(jué)效果.抗噪對(duì)抗學(xué)習(xí)數(shù)據(jù)表明,經(jīng)過(guò)主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)后,由于對(duì)抗學(xué)習(xí)填充圖像內(nèi)容的隨機(jī)性,在損失一定的PSNR值和MSSIM值的條件下,可改進(jìn)LPIPS、FID和NRMSE等指標(biāo),進(jìn)一步改進(jìn)人眼視覺(jué)質(zhì)量.

表5 不同方法在CELEBA數(shù)據(jù)集上的指標(biāo)值對(duì)比

各方法在CELEBA數(shù)據(jù)集上的人臉超分辨率圖像如圖10所示.

(a)LR圖像

由圖10可知,對(duì)比端到端學(xué)習(xí)和多任務(wù)對(duì)抗學(xué)習(xí),除了第3幅圖像以外,多任務(wù)對(duì)抗學(xué)習(xí)能填充更多的細(xì)節(jié)信息,如牙齒輪廓線(xiàn)更清晰.對(duì)比多任務(wù)對(duì)抗學(xué)習(xí)和抗噪對(duì)抗學(xué)習(xí),抗噪對(duì)抗學(xué)習(xí)對(duì)主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)后,具有更豐富的圖像特征,如更清晰的牙齒輪廓線(xiàn)、頭發(fā)紋理和瞳孔反光點(diǎn).最終人臉超分辨率圖像人眼視覺(jué)質(zhì)量更符合人眼視覺(jué)習(xí)慣.

2.3 實(shí)驗(yàn)結(jié)果對(duì)比

實(shí)驗(yàn)中選取如下對(duì)比算法:FSRNet[24]、FSR-GAN[24]、PFSR[28]、DIC[25]、DICGAN[25]、AUP-FSRNet[27]、AUP-FSRGAN[27]、SPARNet[32].各對(duì)比算法的網(wǎng)絡(luò)參數(shù)由原文獻(xiàn)提供.只需將CELEBA數(shù)據(jù)集上的低分辨率圖像輸入對(duì)應(yīng)網(wǎng)絡(luò)后,就能得到對(duì)應(yīng)的人臉超分辨率圖像.其中,F(xiàn)SRGAN、DICGAN、AUPFSR-GAN、PFSR、SPARNet均是融入對(duì)抗學(xué)習(xí)的人臉超分辨率算法.

各算法在CELEBA數(shù)據(jù)集上的指標(biāo)值對(duì)比如表6所示,在表中,MTAL表示本文多任務(wù)對(duì)抗學(xué)習(xí)的端到端學(xué)習(xí)后,主任務(wù)網(wǎng)絡(luò)的人臉超分辨率圖像效果.MTAL-ANALFSR表示主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)后的結(jié)果,黑體數(shù)字表示最優(yōu)值.

由表6可知,對(duì)比FSRNet、DIC、AUP-FSRNet、MTAL這4個(gè)端到端學(xué)習(xí)算法,MTAL在PSNR、MSSIM、LPIPS和NRMSE指標(biāo)上超過(guò)其它算法.這表明本文多任務(wù)對(duì)抗學(xué)習(xí)的端到端學(xué)習(xí)在圖像信息損失、結(jié)構(gòu)信息丟失、特征感知相似度和人臉特征點(diǎn)重建上具有更優(yōu)性能.MTAL的FID值達(dá)到75.253,差于DIC的70.289,優(yōu)于FSRNet和AUP-FSRNet.這表明MTAL模擬高分辨率圖像分布效果居中,但效果相近.對(duì)比Bicubic可知,通過(guò)深度學(xué)習(xí)模型能使所有指標(biāo)均有所提升.

表6 各算法在CELEBA數(shù)據(jù)集上的指標(biāo)值對(duì)比

對(duì)比FSRNet和FSRGAN、DIC和DICGAN、AUP-FSRNet和AUP-FSRGAN、MTAL和MTAL-ANA-LFSR這4組實(shí)驗(yàn)數(shù)據(jù),在端到端網(wǎng)絡(luò)學(xué)習(xí)完成,并通過(guò)對(duì)抗學(xué)習(xí)完成網(wǎng)絡(luò)參數(shù)微調(diào)后,PSNR和MSSIM指標(biāo)均有所變差,LPIPS和FID感知指標(biāo)有所改進(jìn).FSRGAN和AUP-FSRGAN的NRMSE指標(biāo)有所變差,DICGAN和MTA-ANALFSR的NRMSE指標(biāo)均有所改進(jìn).由PSNR、MSSIM指標(biāo)變化可知,對(duì)抗學(xué)習(xí)對(duì)最終人臉超分辨率圖像和高分辨率圖像之間的圖像信息和結(jié)構(gòu)信息重建具有一定影響.由LPIPS、FID和NRMSE感知指標(biāo)變化可知,融入對(duì)抗學(xué)習(xí),通??墒垢兄笜?biāo)數(shù)據(jù)變優(yōu),超分辨率圖像更具圖像真實(shí)感.

各算法在CELEBA數(shù)據(jù)集上的人臉超分辨率圖像如圖11所示.由圖可看出,端到端學(xué)習(xí)效果相對(duì)更模糊,結(jié)合對(duì)抗學(xué)習(xí)最終得到的超分辨率圖像有明顯的輪廓線(xiàn)和頭發(fā)紋理等細(xì)節(jié)信息.由于對(duì)抗學(xué)習(xí)隨機(jī)生成圖像、訓(xùn)練困難、穩(wěn)定性較差等原因[13-14,40,44],雖然能使最終超分辨率圖像更符合人眼視覺(jué)習(xí)慣,但也容易出現(xiàn)圖像內(nèi)容填充較差的情況.例如,對(duì)比FSRNet和FSRGAN可發(fā)現(xiàn),雖然FSRGAN的圖像輪廓線(xiàn)條比FSRNet更明顯,但是出現(xiàn)網(wǎng)格化.對(duì)比DIC、DICGAN、AUP-FSRNet和AUP-FSRGAN可發(fā)現(xiàn),第2幅、第3幅和第5幅圖像填充的頭發(fā)紋理較散亂.值得注意的是,對(duì)比MTAL和MTA-ANALFSR,再結(jié)合高分辨率圖像可知,MTA-ANALFSR生成的頭發(fā)紋理的線(xiàn)條方向更好,更接近高分辨率圖像的頭發(fā)紋理方向,相對(duì)而言更符合人眼視覺(jué)習(xí)慣.

(a)LR圖像

對(duì)比FSRGAN、DICGAN、PFSR、SPARNet、AUP-FSRGAN和MTA-ANALFSR可知,PFSR較低,有最嚴(yán)重的圖像信息損失和結(jié)構(gòu)信息偏差.SPARNet的PSNR值為27.18 dB,MSSIM值為0.793 5,表現(xiàn)最優(yōu).對(duì)比PSNR和MSSIM指標(biāo),MTA-ANALFSR與DIC-GAN相近,FSRGAN與PFSR相近,AUP-FSRGAN介于DICGAN和PFSR之間.對(duì)比LPIPS指標(biāo),MTA-ANALFSR、DICGAN和AUP-FSRGAN均在0.1000以下,優(yōu)于FSRGAN、PFSR和SPARNet,有相對(duì)較好的特征感知相似度.對(duì)比FID指標(biāo),MTA-ANALFSR接近PFSR、DICGAN和AUP-FSRGAN,在高分辨率圖像分布模擬上表現(xiàn)較優(yōu).對(duì)比NRMSE指標(biāo),MTA-ANALFSR取得最好的人臉關(guān)鍵點(diǎn)重建效果,稍?xún)?yōu)于SPARNet和DICGAN.通過(guò)上述數(shù)據(jù)對(duì)比可知,MTA-ANALFSR在各項(xiàng)指標(biāo)的平衡性上與DCIGAN相近,優(yōu)于其它對(duì)比算法.

基于GAN的人臉超分辨率算法在CELEBA數(shù)據(jù)集上的超分辨率圖像如圖12所示.由圖可知,FSRGAN填充的紋理出現(xiàn)網(wǎng)格式失真紋理并且較模糊.PFSR圖像紋理填充豐富,但圖像扭曲失真等現(xiàn)象較嚴(yán)重.SPARNet人臉整體結(jié)構(gòu)較協(xié)調(diào),五官輪廓線(xiàn)條保持較好,但諸如頭發(fā)和瞳孔等細(xì)節(jié)信息重建困難.DICGAN、AUP-FSRGAN和MTA-ANALFSR不但保持較好的人臉輪廓結(jié)構(gòu),還具有較真實(shí)感的紋理填充信息.結(jié)合高分辨率圖像,相比DICGAN和AUP-FSRGAN,MTA-ANALFSR在細(xì)節(jié)信息重構(gòu)上更優(yōu).MTA-ANALFSR生成的超分辨圖像,在瞳孔、頭發(fā)紋理、嘴唇形態(tài)和牙齒輪廓等圖像信息上,更符合人眼視覺(jué)習(xí)慣.例如,MTA-ANA-LFSR生成的第1幅圖像的眼鏡鏡面反光更鮮明,第2幅和第5幅圖像的頭發(fā)紋理更細(xì)致,第3幅圖像的毛衣衣領(lǐng)紋理更豐富,第4幅圖像的五官輪廓線(xiàn)條更明顯.

(a)LR圖像

值得注意的是,本文算法未使用人臉圖像其它特征信息(如人臉關(guān)鍵點(diǎn)熱圖、解析圖、人臉關(guān)鍵點(diǎn)距離和面部注意力信息等)進(jìn)行輔助訓(xùn)練,而其余算法均利用這些人臉圖像的先驗(yàn)知識(shí)輔助人臉超分辨率任務(wù).

上述實(shí)驗(yàn)表明,MTA-ANALFSR將多任務(wù)對(duì)抗學(xué)習(xí)融入端到端學(xué)習(xí),能改進(jìn)端到端人臉超分辨率圖像信息損失、結(jié)構(gòu)信息失真和人眼視覺(jué)感知的習(xí)慣效果.將抗噪對(duì)抗學(xué)習(xí)融入主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)中,雖然損失部分圖像信息和結(jié)構(gòu)信息重建效果,但進(jìn)一步改進(jìn)超分辨率圖像的人眼視覺(jué)感知效果,生成的人臉超分辨率圖像更具有圖像真實(shí)感.

3 結(jié) 束 語(yǔ)

為了改進(jìn)8倍率端到端學(xué)習(xí)人臉超分辨率圖像的人眼視覺(jué)感知效果,提高圖像的真實(shí)感,本文提出基于多任務(wù)對(duì)抗和抗噪對(duì)抗學(xué)習(xí)的人臉超分辨率算法(MTA-ANALFSR).在端到端學(xué)習(xí)階段,設(shè)計(jì)多任務(wù)拉普拉斯金字塔網(wǎng)絡(luò),結(jié)合多任務(wù)對(duì)抗學(xué)習(xí),不僅改進(jìn)主任務(wù)網(wǎng)絡(luò)(端到端學(xué)習(xí))的人臉超分辨率圖像與高分辨率圖像之間的圖像信息損失和結(jié)構(gòu)信息失真,也使超分辨率圖像更符合人眼視覺(jué)習(xí)慣.在主任務(wù)網(wǎng)絡(luò)參數(shù)微調(diào)階段,融入抗噪對(duì)抗學(xué)習(xí),使超分辨率圖像的人眼視覺(jué)效果優(yōu)于非抗噪對(duì)抗學(xué)習(xí)效果.生成的超分辨率人臉圖像,包括頭發(fā)紋理、牙齒輪廓線(xiàn)、瞳孔反光點(diǎn)等細(xì)節(jié)信息更清晰合理.通過(guò)對(duì)比其它基于對(duì)抗學(xué)習(xí)的人臉超分辨率模型,MTA-ANA-LFSR在未使用先驗(yàn)人臉圖像特征信息(如人臉關(guān)鍵點(diǎn)熱圖、解析圖、人臉關(guān)鍵點(diǎn)距離和面部注意力信息等)進(jìn)行輔助訓(xùn)練的前提下,和DICGAN一樣,保持PSNR、MSSIM和LPIPS、FID、NRMSE指標(biāo)之間的平衡性,人眼視覺(jué)質(zhì)量也優(yōu)于對(duì)比模型.本文算法中多任務(wù)對(duì)抗學(xué)習(xí)和抗噪對(duì)抗學(xué)習(xí)在訓(xùn)練上相對(duì)更繁復(fù).今后可考慮結(jié)合人臉的一些先驗(yàn)特征信息,簡(jiǎn)化訓(xùn)練繁復(fù)程度,期望得到更簡(jiǎn)潔的算法,以及更具有圖像真實(shí)感的人臉超分辨率圖像.

猜你喜歡
多任務(wù)高分辨率人臉
有特點(diǎn)的人臉
高分辨率合成孔徑雷達(dá)圖像解譯系統(tǒng)
基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
三國(guó)漫——人臉解鎖
基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
高分辨率對(duì)地觀(guān)測(cè)系統(tǒng)
太空探索(2015年8期)2015-07-18 11:04:44
基于Curvelet-Wavelet變換高分辨率遙感圖像降噪
馬面部與人臉相似度驚人
高分辨率遙感相機(jī)CCD器件精密熱控制
太仆寺旗| 吉隆县| 丰镇市| 普定县| 汤阴县| 渑池县| 吉安县| 平邑县| 太谷县| 凤翔县| 余庆县| 彩票| 定襄县| 灌云县| 长汀县| 孟州市| 洛宁县| 新建县| 巢湖市| 获嘉县| 武义县| 嫩江县| 游戏| 岳普湖县| 长宁县| 绥阳县| 白山市| 阜康市| 芜湖县| 临城县| 莆田市| 琼海市| 永年县| 遂昌县| 新丰县| 扶绥县| 永福县| 炎陵县| 奉化市| 太谷县| 怀集县|