彭進(jìn)業(yè) 曹煜 章勇勤 彭先霖 李展 王珺 張群喜 楊蕊
【主持人語】隨著科學(xué)技術(shù)的快速發(fā)展,人工智能技術(shù)已被廣泛應(yīng)用于人類生活的各個(gè)方面。為了讓人工智能更好地服務(wù)于人類,首要需求是“理解人類”:理解人的情感和行為,進(jìn)而模仿人類與人交流。因此,我們認(rèn)為以理解人類為中心的人工智能技術(shù)將是一個(gè)重要的研究方向。與理解人類的語音信號(hào)分析和自然語言處理問題不同,計(jì)算機(jī)視覺任務(wù)更加寬泛。在當(dāng)前的計(jì)算機(jī)視覺領(lǐng)域,面向理解人類的研究主要集中在人臉分析和行為分析。針對這一新興的研究熱點(diǎn),本欄目將探討基于計(jì)算機(jī)視覺的人臉表情識(shí)別、表情合成和行為分析等相關(guān)問題,提出解決辦法,為以理解人類為中心的人工智能技術(shù)應(yīng)用拋磚引玉。
【主持人】彭進(jìn)業(yè),教授,博士生導(dǎo)師,西北大學(xué)信息科學(xué)與技術(shù)學(xué)院院長,教育部創(chuàng)新團(tuán)隊(duì)負(fù)責(zé)人。
摘要:在計(jì)算機(jī)視覺領(lǐng)域,現(xiàn)有圖像合成方法通常采用一對一的映射網(wǎng)絡(luò)生成人臉表情,存在很大的建模局限性,難以表達(dá)豐富多樣、復(fù)雜多變的人臉表情。為此,該文提出一種基于多任務(wù)增強(qiáng)生成對抗網(wǎng)絡(luò)的圖像合成方法。該方法構(gòu)建多任務(wù)學(xué)習(xí)框架,改善人臉表情生成的多樣性;通過設(shè)計(jì)雙域卷積模塊,利用具有補(bǔ)償?shù)念l域信息改善空域特征映射;引入多尺度自適應(yīng)激活函數(shù),對不同特征進(jìn)行自適應(yīng)修正,進(jìn)一步提升網(wǎng)絡(luò)性能和特征映射效果。實(shí)驗(yàn)結(jié)果表明,該文方法能夠同時(shí)生成多種逼真的人臉表情圖像,與現(xiàn)有先進(jìn)的圖像合成方法相比,具有更好的定性和定量評估結(jié)果。
關(guān)鍵詞:深度學(xué)習(xí);生成對抗網(wǎng)絡(luò);圖像合成;人臉表情;多任務(wù)學(xué)習(xí)
中圖分類號(hào):TP391.41
DOI:10.16152/j.cnki.xdxbzr.2020-03-001
MeGAN: Multi-task enhanced generative adversarialnetwork for image synthesis
PENG JinyeCAO YuZHANG YongqinPENG Xianlin LI Zhan WANG JunZHANG Qunxi3, YANG Rui4
Abstract: In computer vision fields, existing image synthesis methods usually feature a one-to-one mapping network to generate facial expressions. But they have the inherent limitations, which hinder the accurate representation of diverse facial expressions. For this reason, a novel multi-task enhanced generative adversarial network (MeGAN) for facial image synthesis is proposed. This network adopts a multi-task learning framework to improve the diversity of facial expression generation. The dual-domain convolution module is designed to use frequency-domain features as complementary information for improving the learning of spatial feature mapping. A multi-scale adaptive? activation function is introduced to modify the feature maps adaptively for further improvement of network performance. Experimental results show that the proposed method can generate a variety of realistic facial expression images simultaneously and usually achieve better qualitative and quantitative results than the state-of-the-art methods.
Key words:deep learning; generative adversarial network; image synthesis; facial expression;multi-task learning
目前以深度學(xué)習(xí)為代表的人工智能技術(shù)已廣泛應(yīng)用于圖像合成領(lǐng)域[1-8]。現(xiàn)有圖像合成方法絕大多數(shù)假設(shè)輸入和輸出是一對一的映射關(guān)系[9-15],只能在兩個(gè)域之間進(jìn)行跨域轉(zhuǎn)換,其模型存在很大局限性,難以滿足多樣化人臉表情生成等方面的應(yīng)用需求[16-17]。人臉表情復(fù)雜多樣,人們感興趣的可能不止一種,例如人臉數(shù)據(jù)集RaFD[18]將表情分為8種,若使用基于一對一映射的圖像合成方法進(jìn)行跨域生成,需要訓(xùn)練56個(gè)網(wǎng)絡(luò)模型,存在效率低下且效果不佳的問題。
為了生成多樣化的合成圖像,本文提出一種多任務(wù)增強(qiáng)生成對抗網(wǎng)絡(luò)(multi-task enhanced generative adversarial network,MeGAN)。該網(wǎng)絡(luò)通過共享圖像信息,可減少模型參數(shù),改善合成圖像的逼真度。本文的主要貢獻(xiàn)為:①提出多任務(wù)增強(qiáng)生成對抗網(wǎng)絡(luò)模型,實(shí)現(xiàn)多樣化圖像合成;②設(shè)計(jì)雙域卷積模塊,利用具有補(bǔ)償性的頻域特征改善空域特征映射;③引入多尺度自適應(yīng)激活函數(shù),對不同特征進(jìn)行自適應(yīng)修正,改善網(wǎng)絡(luò)建模的效率和性能;④ 利用實(shí)驗(yàn)驗(yàn)證本文方法的性能,通過與基準(zhǔn)方法[11,15,19]比較,分析評估本文方法的有效性。
1 相關(guān)工作
1.1 生成對抗網(wǎng)絡(luò)
Goodfellow等人[20]最先提出生成對抗網(wǎng)絡(luò)(generative adversarial network, GAN)并將其用于數(shù)據(jù)生成。作為一種無監(jiān)督學(xué)習(xí)模型,GAN通過生成器和判別器兩個(gè)模塊的互相博弈學(xué)習(xí)產(chǎn)生好的輸出結(jié)果。在GAN模型訓(xùn)練中,生成器產(chǎn)生盡可能逼真的樣本去欺騙判別器,判別器盡可能準(zhǔn)確地辨別生成的樣本和真實(shí)的樣本。近年,出現(xiàn)了GAN的多種改進(jìn)方法,例如多樣化圖像生成[10]和多域圖像合成[19]。
1.2 圖像合成
自從GAN出現(xiàn)以后,許多關(guān)于GAN的改進(jìn)方法被文獻(xiàn)報(bào)道,廣泛應(yīng)用于圖像合成的各個(gè)方面,并且取得突破性進(jìn)展。由于傳統(tǒng)GAN難以準(zhǔn)確表達(dá)圖像合成的映射關(guān)系,Isola等人[9]利用對抗損失和L1損失構(gòu)建總體目標(biāo)函數(shù),提出基于cGAN模型[21]的圖像合成網(wǎng)絡(luò)pix2pix[9]。隨后,Zhu等人和Kim等人分別提出CycleGAN[11]和DiscoGAN[22],通過建立周期一致性損失函數(shù),先將源圖像前向合成到目標(biāo)域,再反向合成到源圖像域,解決了數(shù)據(jù)集中圖像配對的問題。Huang等人[15]假設(shè)圖像分為內(nèi)容空間和風(fēng)格空間,利用空間重組實(shí)現(xiàn)合成圖像的多樣性。然而,這些方法只考慮兩個(gè)域建模,且不具備擴(kuò)展性。為了解決這個(gè)問題,Choi等人提出針對人臉屬性和表情轉(zhuǎn)換的多域圖像合成網(wǎng)絡(luò)StarGAN[19],僅使用單一生成器即可完成多個(gè)數(shù)據(jù)域之間的圖像合成。StarGAN將域標(biāo)簽作為生成器的附加輸入,利用訓(xùn)練學(xué)習(xí)將輸入圖像轉(zhuǎn)換到相應(yīng)的數(shù)據(jù)域。
1.3 人臉表情
圖像合成廣泛用于人臉分析[17,19,23-25],例如表情合成[21]。Choi等人提出一種多域人臉表情圖像合成方法[19];Shen等人提出一種基于殘差網(wǎng)絡(luò)的人臉屬性操作方法[17];Zhang等人利用cGAN模型[21]將表情分類器內(nèi)嵌于數(shù)據(jù)增強(qiáng)模塊,通過綜合利用不同姿態(tài)和表情,實(shí)現(xiàn)人臉圖像合成和位置不變的人臉表情識(shí)別[25]。然而,現(xiàn)有方法絕大多數(shù)是一對一映射模型,不能對多個(gè)表情同時(shí)操作。
2 方 法
本文提出一種基于多任務(wù)增強(qiáng)生成對抗網(wǎng)絡(luò)的圖像合成方法(MeGAN),本節(jié)詳細(xì)講述雙域卷積、多尺度自適應(yīng)激活函數(shù)、網(wǎng)絡(luò)架構(gòu)和目標(biāo)函數(shù)。
2.1 雙域卷積
傳統(tǒng)深度學(xué)習(xí)方法通常只對空域特征進(jìn)行建模,忽略了頻域特征對空域特征的補(bǔ)償性[26-28]。為此,本文提出雙域卷積(DDConv)模塊,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。對給定的輸入圖像xin∈s,先定義空域s和頻域f,為簡便起見,將輸入圖像xin記作空域圖像xs,而將通過前向離散余弦變換(FDCT)對輸入圖像xin變換的頻域圖像記作xf;然后,對xs和xf分別進(jìn)行卷積處理,從而得到xs1和xf1;接著,利用逆向離散余弦變換(IDCT)將頻域特征xf1轉(zhuǎn)換為空域特征xs2,再將兩個(gè)互補(bǔ)的空域特征xs1和xs2拼接(Concat);最后,利用1×1卷積進(jìn)行融合重建輸出圖像xout。與傳統(tǒng)空域卷積相比,雙域卷積能夠綜合利用圖像的空頻特征,改善神經(jīng)網(wǎng)絡(luò)的表征能力。
2.2 多尺度自適應(yīng)激活函數(shù)
與傳統(tǒng)固定閾值的激活函數(shù)(例如,ReLU)和單一尺度可學(xué)習(xí)的激活函數(shù)(例如,xUnit[29])不同,本文提出一種多尺度自適應(yīng)激活函數(shù),記作MsAA,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。激活函數(shù)MsAA先利用線性修正單元(ReLU)、由傳統(tǒng)卷積(Conv)和空洞卷積(dConv)[30]構(gòu)成的多尺度卷積、拼接(Concat)、卷積(Conv)、批量歸一化(BN)和高斯函數(shù)(Gauss)模塊生成權(quán)重系數(shù),再將其與前級卷積層輸出的特征映射進(jìn)行點(diǎn)乘(Mult),實(shí)現(xiàn)對不同特征進(jìn)行自適應(yīng)修正,改善網(wǎng)絡(luò)性能。
2.3 網(wǎng)絡(luò)框架
MeGAN模型由生成器和判別器組成,生成器的網(wǎng)絡(luò)架構(gòu)如圖3所示。假設(shè)X和Y分別表示圖像集合的源域和目標(biāo)域,對給定輸入圖像x∈X,生成器接受輸入圖像x和目標(biāo)域標(biāo)簽c,產(chǎn)生與x對應(yīng)的屬于目標(biāo)域Y的圖像G(x,c),其中,目標(biāo)域標(biāo)簽c是在模型訓(xùn)練過程中隨機(jī)生成,用于保證訓(xùn)練的充分性和遍歷性。
生成器由編碼器(Encoder)、轉(zhuǎn)換器(Translator)和解碼器(Decoder)3部分組成。編碼器是由雙域卷積組成,從每個(gè)卷積層輸出特征映射被送入實(shí)例歸一化(IN)[31]和MsAA進(jìn)行修正,提高圖像特征表達(dá)的有效性和準(zhǔn)確性。
轉(zhuǎn)換器(Translator)由6個(gè)殘差學(xué)習(xí)塊(ResBlock)[32]組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。利用殘差學(xué)習(xí)設(shè)計(jì)轉(zhuǎn)換器,通過對不同層次的圖像特征進(jìn)行組合,提高網(wǎng)絡(luò)的信息傳播能力和跨域轉(zhuǎn)換能力。
解碼器利用亞像素卷積[33](SubConv)替代轉(zhuǎn)置卷積實(shí)現(xiàn)上采樣, 使用激活函數(shù)tanh將亞像素卷積特征融合生成目標(biāo)域估計(jì)的高分辨率圖像G(x,c)。
判別器是建立在采用PatchGANs[9,11]方法而不是傳統(tǒng)卷積網(wǎng)絡(luò)基礎(chǔ)上,利用輔助分類器[33]允許單個(gè)判別器控制多個(gè)域,區(qū)分生成圖像的真假和對應(yīng)域標(biāo)簽。
2.4 目標(biāo)函數(shù)
對于給定訓(xùn)練數(shù)據(jù)(x,c)和目標(biāo)域Y,類似于StarGAN[20],我們利用對抗損失、域分類損失和重建損失構(gòu)造總體損失函數(shù)。
1) 對抗性損失
為了提高生成對抗網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性和收斂性,采用WGAN[34-35]的梯度懲罰對抗損失:
其中,G(x,c)為輸入圖像x和目標(biāo)域標(biāo)簽c經(jīng)過生成器處理輸出的生成圖像,D是判別器識(shí)別輸出圖像真假的概率分布。為沿著一對真實(shí)圖像和生成圖像之間的均勻采樣。在訓(xùn)練過程中生成器最小化損失函數(shù),判別器最大化損失函數(shù)。
2) 域分類損失
在生成器和判別器中都加入域分類損失[19],指導(dǎo)生成圖像被正確地分類到目標(biāo)域。
判別器在訓(xùn)練過程中,對于給定訓(xùn)練數(shù)據(jù)包括原域圖像x和其相應(yīng)的域標(biāo)簽c0,利用最小化損失函數(shù),使判別器能夠?qū)⑷我饨o定圖像分類到正確的域,定義判別器的域分類損失為
其中,λcls和λrec分別是域分類損失和重建損失的超參數(shù)。
3 實(shí) 驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
本文選用公開的人臉表情數(shù)據(jù)集RaFD[18]驗(yàn)證MeGAN方法的圖像合成性能。該數(shù)據(jù)集包含4 824幅圖像,可分為4 000幅圖像作訓(xùn)練,640幅圖像作驗(yàn)證和184幅圖像作測試。其中,有67名參與者在3個(gè)不同方向上做出8種面部表情,按照8種表情分為8個(gè)域。在數(shù)據(jù)預(yù)處理中,為了公平比較,先把所有圖像剪切成以人臉為中心的尺寸為256×256的圖像,然后,將其縮放至尺寸為128×128。
3.2 實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)中,設(shè)置λgp=10,λcls=1和λrec=10,選用Adam優(yōu)化器[36],并設(shè)置參數(shù)β1=0.5,β2=0.999來訓(xùn)練網(wǎng)絡(luò)模型,同時(shí),每執(zhí)行5次更新判別器,執(zhí)行1次更新生成器。對于數(shù)據(jù)集RaFD[18],在前100個(gè)輪次以0.000 1的學(xué)習(xí)速率訓(xùn)練網(wǎng)絡(luò)模型,而后每隔100次迭代學(xué)習(xí)速率減小10-9,直至模型訓(xùn)練收斂。
3.3 方法評估
選用Inception v3圖像分類模型[37]計(jì)算客觀定量評價(jià)指標(biāo)FID[38-39]來分析評估本文方法的實(shí)驗(yàn)結(jié)果,其中,較低的FID得分表示較高的圖像質(zhì)量。此外,還將本文方法與MUNIT[15],CycleGAN[11]和StarGAN[19]進(jìn)行比較,給出定量和定性評估結(jié)果,這些對比方法的實(shí)驗(yàn)結(jié)果是由公開的源代碼或作者提供。
MUNIT假設(shè)圖像可分解為與域無關(guān)的內(nèi)容空間和依賴域特定屬性的風(fēng)格空間,在圖像合成時(shí),將輸入圖像的內(nèi)容空間和目標(biāo)域的風(fēng)格空間重新組合。CycleGAN由兩個(gè)轉(zhuǎn)換網(wǎng)絡(luò)組成,對每兩個(gè)不同的域,需要兩個(gè)生成器和判別器,在訓(xùn)練過程中,利用對抗性損失和循環(huán)一致?lián)p失對訓(xùn)練過程進(jìn)行約束。StarGAN利用一個(gè)模型實(shí)現(xiàn)單個(gè)網(wǎng)絡(luò)同時(shí)訓(xùn)練不同域的多個(gè)數(shù)據(jù)集,在人臉表情合成等任務(wù)中有明顯優(yōu)勢。
針對公開數(shù)據(jù)集RaFD,為了便于評估,我們將輸入圖像域設(shè)為“Neutral”表情,其余7種表情輪流作為目標(biāo)域。由于MUNIT和CycleGAN是一對一映射模型,對不同的配對表情圖像分別進(jìn)行模型訓(xùn)練和測試,從而實(shí)現(xiàn)多種表情合成。因?yàn)镾tarGAN和本文方法都是多域轉(zhuǎn)換模型,直接利用數(shù)據(jù)集RaFD對它們分別進(jìn)行訓(xùn)練和測試。圖5給出不同方法的表情圖像合成結(jié)果的視覺對比。從圖5可知,與MUNIT和CycleGAN相比,本文的MeGAN方法能夠生成畸變更少、細(xì)節(jié)更豐富的面部特征,其原因在于多任務(wù)學(xué)習(xí)框架更能充分利用多模圖像特征,并且多尺度自適應(yīng)激活函數(shù)更能有效地修正圖像特征。與StarGAN相比,我們的MeGAN方法利用高效的多層次殘差學(xué)習(xí)和頻域特征補(bǔ)償,能夠生成表情細(xì)節(jié)更豐富逼真的合成圖像。
圖6展示了不同方法對任選取的 “Disgusted”表情合成結(jié)果的視覺對比。從圖6可知,MUNIT很難保留輸入圖像的個(gè)人身份和面部特征,CycleGAN和StarGAN在嘴巴等部位存在比較嚴(yán)重的模糊現(xiàn)象,而MeGAN方法生成細(xì)節(jié)清晰表情豐富的合成圖像。
選用FID作為客觀評價(jià)指標(biāo),分析評估本文方法和基準(zhǔn)方法的圖像合成性能。表1給出不同方法對所有測試圖像合成結(jié)果的FID平均值對比,其中,F(xiàn)ID越低表明合成圖像質(zhì)量越好。
4 結(jié) 語
本文提出了一種基于多任務(wù)增強(qiáng)生成對抗網(wǎng)絡(luò)的多域圖像合成方法MeGAN。通過設(shè)計(jì)雙域卷積,利用具有補(bǔ)償?shù)念l域特征輔助空域特征映射建模;提出多尺度自適應(yīng)激活函數(shù)對空頻雙域特征進(jìn)行修正,提高圖像合成網(wǎng)絡(luò)的性能。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有先進(jìn)的圖像合成方法相比,本文方法能夠生成細(xì)節(jié)更逼真、表情更多樣、質(zhì)量更高的合成圖像。
參考文獻(xiàn):
[1]WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8798-8807.
[2]ZHANG Y Q, XIAO J S, PENG J Y, et al. Kernel Wiener filtering model with low-rank approximation for image denoising[J]. Information Sciences, 2018, 462:402-416.
[3]ZHANG Y Q, KANG R W, PENG X L, et al. Image denoising via structure-constrained low-rank approximation[J]. Neural Computing and Applications, 2020(5): 1-16.
[4]ZHANG Y Q, YAP P W, CHEN G, et al. Super-resolution reconstruction of neonatal brain magnetic resonance images via residual structured sparse representation[J]. Medical Image Analysis, 2019, 55:76-87.
[5]ZHANG Y Q, SHI F, CHENG J, et al. Longitudinally guided super-resolution of neonatal brain magnetic resonance images[J]. IEEE Transactions on Cybernetics, 2019, 49(2): 662-674.
[6]PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context encoders: Feature learning by inpainting[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE, 2016: 2536-2544.
[7]ZHANG R, ISOLA P, EFROS A A. Colorful image colorization[M]∥Computer Vision — ECCV 2016. Cham: Springer International Publishing, 2016: 649-666.
[8]GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 2414-2423.
[9]ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE, 2017: 5967-5976.
[10]YI Z L, ZHANG H, TAN P, et al. DualGAN: Unsupervised dual learning for image-to-image translation[C]∥2017 IEEE International Conference on Computer Vision (ICCV).Venice: IEEE, 2017: 2868-2876.
[11]ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2242-2251.
[12]ZHU J Y, ZHANG R, PATHAK D, et al. Toward multimodal image-to-image translation[C]∥Advances in Neural Information Processing Systems, 2017: 465-476.
[13]CHEN Q F, KOLTUN V. Photographic image synthesis with cascaded refinement networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV).Venice: IEEE, 2017: 1520-1529.
[14]LIU M Y, BREUEL T, KAUTZ J. Unsupervised image-to-image translation networks[C]∥Advances in Neural Information Processing Systems. NIPS, 2017: 701-709.
[15]HUANG X, LIU M Y, BELONGIE S, et al. Multimodal unsupervised image-to-image translation[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2019: 1458-1466.
[16]包仁達(dá), 庾涵, 朱德發(fā), 等. 基于區(qū)域敏感生成對抗網(wǎng)絡(luò)的自動(dòng)上妝算法[J].軟件學(xué)報(bào), 2019, 30(4):36-53.
BAO R D, YU H, ZHU D F, et al, Automatic makeup with region sensitive generative adversarial networks[J].Journal of Software, 2019, 30(4):36-53.
[17]SHEN W, LIU R J. Learning residual images for face attribute manipulation[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE, 2017: 1225-1233.
[18]LANGNER O, DOTSCH R, BIJLSTRA G, et al. Presentation and validation of the radboud faces database[J].Cognition and Emotion, 2010, 24(8): 1377-1388.
[19]CHOI Y, CHOI M, KIM M, et al. StarGAN: Unified generative adversarial networks for multi-domain image-to-image translation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE, 2018: 8789-8797.
[20]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]∥Advances in Neural Information Processing Systems,2014:2672-2680.
[21]MIRZA M, OSINDERO S. Conditional generative adversarial nets[EB/OL].2014:arXiv:1411.1784[cs.LG].https://arxiv.org/abs/1411.1784.
[22]KIM T, CHA M, KIM H, et al.Learning to discover cross-domain relations with generative adversarial networks[C]∥The 34th International Conference on Machine Learning(ICML), 2017: 2941-2949.
[23]高巖, 許建中, 王長波,等. 約束條件下的人臉五官替換算法[J].中國圖象圖形學(xué)報(bào), 2019, 15(3):503-506.
GAO Y, XU J Z, WANG C B, et al. Algorithm for human face fusion under constraints[J].Journal of Image and Graphics, 2019, 15(3):503-506.
[24]EHRLICH M, SHIELDS T J, ALMAEV T, et al. Facial attributes classification using multi-task representation learning[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).LasVegas:IEEE, 2016: 752-760.
[25]彭先霖, 張海曦, 胡琦瑤. 基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)的人臉/面癱表情識(shí)別方法[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,49(2):187-192.
PENG X L, ZHANG H X, HU Q Y.? Facial /paralysis expression recognition based on multitask learning of deep convolution neural network[J].Journal of Northwest University(Natural Science Edition), 2019, 49(2):187-192.
[26]ZHANG Y Q, CHENG J Z, XIANG L, et al. Dual-domain cascaded regression for synthesizing 7T from 3T MRI[M]∥Medical Image Computing and Computer Assisted Intervention — MICCAI 2018. Cham: Springer International Publishing, 2018: 410-417.
[27]ZHANG Y Q, YAP P T, QU L Q, et al. Dual-domain convolutional neural networks for improving structural information in 3 T MRI[J].Magnetic Resonance Imaging, 2019, 64: 90-100.
[28]QU L Q, ZHANG Y Q, WANG S, et al. Synthesized 7T MRI from 3T MRI via deep learning in spatial and wavelet domains[J]. Medical Image Analysis, 2020, 62: 101663.
[29]KLIGVASSER I, SHAHAM T R, MICHAELI T. xUnit: Learning a spatial activation function for efficient image restoration[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2433-2442.
[30]YU F, KOLTUN V, FUNKHOUSER T. Dilated residual networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE,2017: 472-480.
[31]ULYANOV D, VEDALDI A, LEMPITSKY V. Instance normalization: The missing ingredient for fast stylization[EB/OL].2016:arXiv:1607.08022[cs.CV]. https://arxiv.org/abs/1607.08022.
[32]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Las Vegas:IEEE, 2016: 770-778.
[33]SHI W Z, CABALLERO J, HUSZR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas:IEEE, 2016: 1874-1883.
[34]ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier gans[C]∥Proceedings of the 34th International Conference on Machine Learning, 2017: 2642-2651.
[35]ARJOVSKY M, CHINTALA S, BOTTOU L, Wasserstein generative adversarial networks[C]∥In Proceedings of the 34th International Conference on Machine Learning (ICML), 2017: 214-223.
[36]GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wassersteinGANs[C]∥Advances in Neural Information Processing Systems,2017: 5767-5777.
[37]KINGMA D P, BA J. Adam: A method for stochastic optimization[EB/OL]. 2014: arXiv:1412.6980[cs.LG]. https:∥arxiv.org/abs/1412.6980.
[38]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas:IEEE, 2016: 2818-2826.
[39]HAN Z, IAN G, DIMITRIS M, et al. Self-Attention Generative Adversarial Networks[C]∥In Proceedings of the 36th International Conference on Machine Learning,2019: 7354-7363.
(編 輯 李 靜)
作者簡介:
彭進(jìn)業(yè),男,湖南漣源人,二級教授,博士生導(dǎo)師。主要從事圖像處理與模式識(shí)別、多媒體信息檢索、量子信息處理等方面的研究與教學(xué)工作?,F(xiàn)任西北大學(xué)信息科學(xué)與技術(shù)學(xué)院院長、軟件學(xué)院院長,兼任陜西省圖像圖形學(xué)學(xué)會(huì)副理事長、陜西省生物醫(yī)學(xué)工程學(xué)會(huì)副理事長、中國圖像圖形學(xué)學(xué)會(huì)理事、陜西省計(jì)算機(jī)學(xué)會(huì)媒體計(jì)算專委會(huì)主任、陜西省電子學(xué)會(huì)常務(wù)理事、陜西省大數(shù)據(jù)與云計(jì)算產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟常務(wù)理事。2002年獲得西北工業(yè)大學(xué)博士學(xué)位,2003年破格晉升教授,2007年入選教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃。擔(dān)任文化遺產(chǎn)數(shù)字化保護(hù)與傳播教育部創(chuàng)新團(tuán)隊(duì)負(fù)責(zé)人及信號(hào)處理系列課程陜西省教學(xué)團(tuán)隊(duì)負(fù)責(zé)人。多次擔(dān)任國際學(xué)術(shù)會(huì)議大會(huì)主席、程序委員會(huì)主席和程序委員會(huì)委員。先后主持國家重點(diǎn)研發(fā)課題、國家自然科學(xué)基金面上項(xiàng)目等20多項(xiàng)國家級和省部級科研項(xiàng)目。在IEEE TIP,TMM,TCSVT,TKDE,《中國科學(xué)》《電子學(xué)報(bào)》《物理學(xué)報(bào)》等國內(nèi)外重要學(xué)術(shù)期刊及CVPR,IJCAI,WWW等重要國際學(xué)術(shù)會(huì)議上發(fā)表學(xué)術(shù)論文多篇,獲國家教學(xué)成果二等獎(jiǎng)、陜西省科學(xué)技術(shù)二等獎(jiǎng)等教學(xué)科技獎(jiǎng)勵(lì)。
收稿日期:2020-04-02
基金項(xiàng)目:國家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2017YFB1402103);陜西省科技計(jì)劃重點(diǎn)項(xiàng)目(2018ZDXM-GY-186);西安市智能感知與文化傳承重點(diǎn)實(shí)驗(yàn)室(2019219614SYS011CG033);陜西高校青年杰出人才支持計(jì)劃(360050001)
作者簡介:彭進(jìn)業(yè),男,湖南漣源人,二級教授,博士生導(dǎo)師,從事圖像處理與模式識(shí)別、多媒體信息檢索、量子信息處理等研究。