国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于生成對抗網(wǎng)絡的人臉圖像翻譯

2019-01-21 09:24吳華明劉茜瑞王耀宏
關鍵詞:素描人臉函數(shù)

吳華明,劉茜瑞,王耀宏

?

基于生成對抗網(wǎng)絡的人臉圖像翻譯

吳華明,劉茜瑞,王耀宏

(天津大學數(shù)學學院,天津 300072)

針對人臉照片和人臉素描間的圖像翻譯問題,本文基于對偶生成對抗網(wǎng)絡模型,對其目標函數(shù)附加兩個損失函數(shù)建立新的網(wǎng)絡模型.通過參數(shù)優(yōu)化實驗不斷優(yōu)化本文提出的模型,從而找到最優(yōu)參數(shù);通過直觀和量化對比實驗表明本文提出的模型在人臉數(shù)據(jù)上的圖像翻譯效果無論在清晰度還是在保持面部特征方面是目前基于生成對抗網(wǎng)絡的圖像翻譯模型中表現(xiàn)最優(yōu)的,并對相關GAN模型的穩(wěn)定性進行了對比;最后通過效果分析實驗說明了所附加的損失函數(shù)的具體作用.

生成對抗網(wǎng)絡;人臉數(shù)據(jù);圖像翻譯;損失函數(shù)

圖像翻譯是圖像處理的一個重要研究領域,圖像翻譯就是把兩個具有不同特征的圖片域進行相應轉換,包括不同域間的風格變換、物體變形、季節(jié)轉換、圖像增強等.按照傳統(tǒng)方法,這些任務都是根據(jù)不同風格模式的圖像間的內在差異分開進行處理的.在過去的幾年里,通用的端到端的深度學習框架,最顯著的是利用全卷積網(wǎng)絡[1](FCNs)和條件生成對抗網(wǎng)絡[2](CGANs)推動了圖像翻譯的發(fā)展,使得多種圖像翻譯問題可以得到統(tǒng)一的處理.經(jīng)歷了針對特定領域單任務的圖像翻譯到多領域多任務圖像翻譯的轉變,從需要帶標簽配對的圖像集到只需無標簽非配對的圖像集的轉變,圖像翻譯過程越來越簡單,功能卻越來越強大.本文主要研究生成對抗網(wǎng)絡(GAN)在圖像翻譯方面的相關模型及其在人臉數(shù)據(jù)上的應用.

由于進行有監(jiān)督的學習和獲得大量的帶標簽的配對數(shù)據(jù)可能很費時間,耗費較大的財力物力,有時甚至是不可能的,例如將日光場景轉換為夜景,即使用固定攝像機,由于場景中經(jīng)常有移動的物體,造成所得的配對圖像有不同程度的內容差異.隨后出現(xiàn)了利用非配對無標簽數(shù)據(jù)進行非監(jiān)督學習的模型CycleGAN、DualGAN和DiscoGAN.Zhu等[7]受循環(huán)一致思想[8]的啟發(fā)提出了CycleGAN模型,解決了利用非配對無標簽數(shù)據(jù)解決圖像間的風格轉移問題.Kim等[9]為確保圖像在不同域轉化時保持圖像的某些特征,比如方向角、面部特征等,提出了DiscoGAN.Yi等[10]受原始的自然語言處理對偶學習方法[11]的啟發(fā),提出DualGAN模型,解決如何利用無標簽非配對的數(shù)據(jù)進行具有不同特點的兩個域之間的圖像翻譯問題.這3個非監(jiān)督學習模型的網(wǎng)絡模型結構很相似,都是由2個GAN結構[12]組成.在目標函數(shù)、生成器、判別器的構成上略有不同.3個模型在各自數(shù)據(jù)集上都取得了不錯的實驗效果,在人臉數(shù)據(jù)上的圖像翻譯效果在清晰度和保持面部特征方面仍有待提高.

本文針對在人臉數(shù)據(jù)上的圖像翻譯問題,在DualGAN模型的基礎上進行改進,通過在DualGAN的目標函數(shù)的基礎上附加2個L1損失函數(shù)來改善實驗效果.通過參數(shù)優(yōu)化實驗,尋找最優(yōu)參數(shù),優(yōu)化本文提出的模型;通過直觀和量化對比實驗表明本文提出的模型在人臉數(shù)據(jù)上的圖像翻譯效果在清晰度、保持面部特征方面是目前基于生成對抗網(wǎng)絡的圖像翻譯模型中表現(xiàn)最優(yōu)的,并對相關GAN模型的穩(wěn)定性進行了對比;最后通過效果分析實驗說明了所附加的損失函數(shù)的具體作用.

1?模型的建立

1.1?模型結構

?(1)

?(2)

?(3)

?(4)

1.2?目標函數(shù)

?(5)

?(6)

DualGAN的生成器的目標函數(shù)在WGAN的基礎上加的是L1損失函數(shù)而非L2,因為L2時常會導致圖像模糊[11, 14].DualGAN的最終目標函數(shù)為

???(7)

???(8)

1.3?網(wǎng)絡結構

1.4?訓練過程

算法1?本文模型的訓練過程.

循環(huán).

結束條件.

直到收斂.

2?實驗及結果

2.1?參數(shù)優(yōu)化實驗

圖2?在不同參數(shù)下人臉素描向人臉照片的翻譯結果

圖3?在不同參數(shù)下人臉照片向人臉素描的翻譯結果

圖4?當參數(shù)、取時人臉素描向人臉照片的翻譯結果

圖5?當參數(shù)、取時人臉照片向人臉素描的翻譯結果

2.2?對比實驗

2.2.1?直觀對比

發(fā)現(xiàn)在人臉素描向人臉圖像翻譯的結果中(如圖6所示),監(jiān)督學習的模型CGAN和Pix2Pix生成的圖像比較清晰,但有大量的人臉出現(xiàn)畸形和扭曲.非監(jiān)督學習的模型CycleGAN、DiscoGAN和原始DualGAN模型的結果相比較,DiscoGAN生成的圖像的結果最差,生成的比較好的圖像有人臉的輪廓和眉目,但圖像還是比較模糊,生成的較差的圖像只能看到大概的人臉輪廓.DualGAN生成的圖片相對DiscoGAN的比較好,大部分圖像的人臉輪廓眉目甚至細紋都有,但缺點是圖像的某些細節(jié)比如眼睛會出現(xiàn)模糊不清的現(xiàn)象,CycleGAN生成的圖像結果最好,保持了輸入的人臉素描的臉的輪廓、五官、細紋等特點,但與本文的模型生成的圖像進行對比,CycleGAN生成的圖像整體帶著朦朧感,給人模糊不清的感覺.

比較人臉照片向人臉素描翻譯的結果(如圖7所示),監(jiān)督學習模型CGAN生成的圖片比較清晰,但在大多數(shù)人臉的鼻子和嘴巴處出現(xiàn)畸形和斑駁.監(jiān)督模型Pix2Pix生成的圖片,單從圖片生成的質量來說,生成的圖像人臉輪廓和五官都比較清晰,但跟輸入圖像或GT圖像進行對比,發(fā)現(xiàn)Pix2Pix模型并沒有很好地保持輸入圖像的面部特征.非監(jiān)督學習的模型CycleGAN、DiscoGAN和原始DualGAN模型的結果相比較,DiscoGAN生產(chǎn)的圖像最差,沒有素描的線條特征,有的甚至沒有人臉的輪廓. CycleGAN生成的圖像整體保持了輸入圖像的特征,但沒有素描的線條特征,圖像表面好像加了一層小方格,不具有人臉素描的特點.DualGAN生成圖像的結果相比前兩者整體比較好,既保持了輸入圖像的面部特征,也具有素描的線條特征,與GT圖像比較接近.但如果細致觀察,本文的模型生成的圖像與DualGAN生成的圖像相比,本文的模型生成的圖像在五官的細節(jié)上更加清晰.

圖6?在不同GAN模型下人臉素描向人臉照片的翻譯結果

圖7?在不同GAN模型下人臉照片向人臉素描的翻譯結果

總體上,在人臉數(shù)據(jù)上圖像翻譯的實驗中,本文的模型的結果相比其他模型的結果更加好.

2.2.2?量化對比

為了進一步說明實驗結果,本文對實驗結果進行了量化對比.由于數(shù)據(jù)太多,本文沒有對所有的模型的結果進行量化對比.本文選出在人臉數(shù)據(jù)上翻譯較好的DualGAN、Pix2Pix和本文模型的結果與GT圖像進行了量化對比.具體方法:本文在測試集中隨機抽取24張圖,其中前12張用于研究人臉素描向人臉照片的圖像翻譯的量化對比,后12張用于研究人臉照片向人臉素描的圖像的量化對比.為研究人臉素描向人臉照片的圖像翻譯結果,在DualGAN、Pix2Pix和本文模型的圖像翻譯結果中以及GT圖像中分別找到前12張圖相對應的人臉照片,給出每張圖的輸入的人臉素描,把來自上述3個模型相應的圖像翻譯的結果以及相應的GT圖像隨機排列,通過根據(jù)每個輸入圖像的圖像特征對這4張隨機排列的圖像翻譯結果進行評分,評分標準具體如下:很差為1分,差為2分,一般為3分,好為4分,很好為5分.本文通過編輯電子調查問卷的方式對數(shù)據(jù)進行收集,最終得到206份來自不同IP地址的評分結果,得到4類來源不同的圖像在前12張圖像翻譯的平均分,最后根據(jù)每類圖像的12個平均分再算平均分.通過對比4類圖像翻譯結果的最終平均分進行量化對比.研究人臉照片向人臉素描的量化對比實驗用后12張圖做上述類似處理.本文量化對比結果如表1所示,由表中數(shù)據(jù)可以看出,在人臉素描向人臉照片(S2P)圖像翻譯的結果中,4類圖像的最終的得分相差相對較大,本文模型的最終得分僅次于GT圖像,其次為DualGAN模型的得分,Pix2Pix模型的得分最低.在人臉照片向人臉素描(P2S)的圖像的翻譯的結果中,4類圖像的最終得分相差相對較小,本文模型得分與GT圖像僅差0.07分,其次為DualGAN模型的得分,Pix2Pix模型的得分仍為最低.綜上,在DualGAN、Pix2Pix和本文模型在人臉數(shù)據(jù)上的圖像翻譯結果中,本文模型得分最高,本文圖像翻譯結果最好.

表1?不同GAN模型圖像翻譯結果真實度平均分

Tab.1 Average realness scores of images translation with various GAN models

此外,通過計算這4類圖像的真實度得分的方差,進而對不同模型的圖像翻譯的穩(wěn)定性進行了比較.如表2所示,在人臉素描向人臉照片的圖像翻譯結果中,Pix2Pix模型圖像翻譯的穩(wěn)定性最好,本文的模型真實度方差比DualGAN模型大0.04,兩模型的穩(wěn)定性相差不大.在人臉照片向人臉素描的圖像翻譯結果中,Pix2Pix模型圖像翻譯的穩(wěn)定性依然最好,DualGAN模型真實度方差比本文的模型大0.38,所以本文模型的穩(wěn)定性要比DualGAN好.

表2?不同GAN模型真實度方差

Tab.2 Variance of realness scores with various GAN models

2.3?效果分析實驗

2.3.1?DualGAN為基礎

圖8 人臉素描向人臉照片翻譯的結果與附加損失函數(shù)

圖9 人臉照片向人臉素描翻譯的結果與附加損失函數(shù)

2.3.2?DiscoGAN為基礎

圖10?Disco和Disco+的圖像翻譯結果

2.3.3?CycleGAN為基礎

圖11?Cycle和Cycle+的圖像翻譯結果

在DualGAN模型、DiscoGAN和CycleGAN模型的基礎上分別進行了效果分析實驗,得出結論:所附加的雙向損失函數(shù)并不是可以改善所有的GAN相關的圖像翻譯模型,改善效果和相關GAN模型的具體網(wǎng)絡結構有關.

3?結?語

本文在DualGAN的模型基礎上通過修改目標函數(shù)來改善模型,通過一系列實驗說明了在人臉數(shù)據(jù)上,本文提出的模型在圖像翻譯清晰度和特征保持方面要優(yōu)于之前的相關的GAN模型,并對相關GAN圖像翻譯模型的穩(wěn)定性進行了比較.不足之處在于本文的模型在測試集的少量圖像的翻譯結果不穩(wěn)定,會出現(xiàn)斑點.此外模型只是在單通道的人臉數(shù)據(jù)上優(yōu)于各深度學習領域的圖像翻譯網(wǎng)絡模型,在多通道圖像上的實驗效果并不是最好的,接下來工作希望進一步對模型進行改善,提高模型的穩(wěn)定性,并使其在多通道圖像上的實驗效果也能達到最好.

[1] Long J,Shelhamer E,Darrell T. Fully convolutional networks for semantic segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston,USA,2015:3431-3440.

[2] Mirza M,Osindero S. Conditional generative adversarial nets[J]. Computer Science,2014:2672-2680.

[3] Goodfellow I J,Pouget-Abadie J,Mirza M,et al. Generative adversarial nets[C]// International Conference on Neural Information Processing Systems. Kuching,Malaysia,2014:2672-2680.

[4] Isola P,Zhu J Y,Zhou T,et al. Image-to-image translation with conditional adversarial networks[C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,USA,2017:5967-5976.

[5] Ronneberger O,F(xiàn)ischer P,Brox T. U-net:Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Calcutta,India,2015:234-241.

[6] Li C,Wand M. Precomputed real-time texture synthesis with markovian generative adversarial networks [C]//European Conference on Computer Vision. Amsterdam,The Netherlands,2016:702-716.

[7] Zhu J Y,Park T,Isola P,et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[EB/OL]. https://arxiv.ogr/abs/1703.10593,2017.

[8] Sundaram N,Brox T,Keutzer K. Dense point trajectories by GPU-accelerated large displacement optical flow[C]//European Conference on Computer Vision. Crete,Greece,2010:438-451.

[9] Kim T,Cha M,Kim H,et al. Learning to discover cross-domain relations with generative adversarial networks[EB/OL]. http://cn.arxiv.org/abs/1703.05192,2017.

[10] Yi Z,Zhang H,Tan P,et al. DualGAN:Unsupervised dual learning for image-to-image translation[C]// IEEE International Conference on Computer Vision. Venice,Italy,2017:2868-2876.

[11] He D,Xia Y,Qin T,et al. Dual learning for machine translation[C]//Advances in Neural Information Processing Systems. Barcelona,Spain,2016:820-828.

[12] Liu M Y,Tuzel O. Coupled generative adversarial networks[C]//Advances in neural information processing systems. Barcelona,Spain,2016:469-477.

[13] Arjovsky M,Chintala S,Bottou L. Wasserstein gan [EB/OL]. http://cn.arxiv.org/abs/1701.07875,2017.

[14] Larsen A B L,Larochelle H,Winther O. Autoencoding beyond pixels using a learned similarity metric[C]// International Conference on International Conference on Machine Learning. New York,USA,2016:1558-1566.

(責任編輯:王曉燕)

Face Image Translation Based on Generative Adversarial Networks

Wu Huaming,Liu Qianrui,Wang Yaohong

(School of Mathematics,Tianjin University,Tianjin 300072,China)

With regard to the problem of image translation between face photo and face sketches,a new network model was established by adding two loss functions to the objective function of the DualGAN. Through optimization experiments of the parameters,the proposed model was continuously optimized to find the optimal parameters. The qualitative and quantitative comparison experiments show that the proposed model has excellent translation performance in face data in terms of sharpness and facial features,and it is now the best among the related GAN network models. The stability of related GAN models was then compared.Finally,the effect analysis experiment clarified the specific function of the additional loss functions.

generative adversarial networks;face data;image translation;loss functions

10.11784/tdxbz201801034

TP391.4

A

0493-2137(2019)03-0306-09

2018-01-03;

2018-04-28.

吳華明(1986—??),男,博士,講師,whming@tju.edu.cn.

劉茜瑞,liuxirui57@tju.edu.cn.

國家自然科學基金資助項目(11601381).

the National Natural Science Foundation of China(No. 11601381).

猜你喜歡
素描人臉函數(shù)
二次函數(shù)
有特點的人臉
一起學畫人臉
第3講 “函數(shù)”復習精講
二次函數(shù)
函數(shù)備考精講
武漢素描
素描
三國漫——人臉解鎖
跟蹤導練(一)4
石台县| 怀安县| 枞阳县| 浮梁县| 赣州市| 贵溪市| 汉阴县| 抚松县| 资中县| 大同县| 青田县| 巫山县| 策勒县| 交城县| 慈溪市| 余姚市| 南丹县| 黄冈市| 大邑县| 昭觉县| 衡阳县| 江阴市| 鹿泉市| 新营市| 登封市| 屯留县| 鹤山市| 连山| 兖州市| 双江| 建水县| 故城县| 临邑县| 洛川县| 木兰县| 苍梧县| 石渠县| 咸宁市| 海伦市| 盘山县| 河西区|