張淑芳,王沁宇
基于生成對(duì)抗網(wǎng)絡(luò)的虛擬試穿方法
張淑芳,王沁宇
(天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津,300072)
為了解決傳統(tǒng)虛擬試穿方法存在的手臂遮擋與細(xì)節(jié)模糊問(wèn)題,提升重建圖像的視覺(jué)質(zhì)量,提出一種基于生成對(duì)抗網(wǎng)絡(luò)的虛擬試穿方法.通過(guò)紋理提取模塊和殘差樣式編碼模塊提取服裝細(xì)節(jié)信息,并結(jié)合人體表征輸入與人物姿勢(shì)來(lái)重建試穿圖像,解決了手臂遮擋問(wèn)題,實(shí)現(xiàn)了對(duì)扭曲失誤服裝的修復(fù)還原,且重建圖像服裝邊緣清晰.定性分析表明,改進(jìn)虛擬試穿方法得到的重建圖像能清楚地展示試穿人物的手臂部分與服裝紋理細(xì)節(jié),具有很好的視覺(jué)逼真度和視覺(jué)質(zhì)量.定量分析表明,該方法結(jié)構(gòu)相似性指標(biāo)提升了8.56%,與原始參考的像素結(jié)構(gòu)更相似;感知相似性指標(biāo)減少了5.24%,與原始參考的卷積特征更相似;Inception 分?jǐn)?shù)提升了0.95%,具有更高的清晰度和更好的多樣性.
圖像重建技術(shù);虛擬試衣;圖像分析;生成對(duì)抗網(wǎng)絡(luò)
近年來(lái),人們對(duì)時(shí)尚產(chǎn)品的網(wǎng)上購(gòu)物需求日益增長(zhǎng).與傳統(tǒng)購(gòu)物相比,網(wǎng)絡(luò)服裝購(gòu)物具有巨大的商業(yè)優(yōu)勢(shì),創(chuàng)造一個(gè)接近現(xiàn)實(shí)的購(gòu)物環(huán)境成為必然趨勢(shì).因此,虛擬試穿技術(shù)的研究具有重大的商業(yè)意義. Magic Mirror、Metail和TriMirror等[1]公司開(kāi)發(fā)了各種虛擬試衣間(試衣鏡).然而,這些虛擬試衣系統(tǒng)的關(guān)鍵技術(shù)需要收集大量的3D注釋數(shù)據(jù),但其存在使用繁瑣、硬件復(fù)雜、成本高昂等問(wèn)題,3D建模的虛擬試衣系統(tǒng)未能大規(guī)模普及.2018年Han等[2]提出了虛擬試穿網(wǎng)絡(luò)(virtually try-on network,VITON),不使用任何形式的3D信息,使用由粗到細(xì)的策略將平鋪的服裝進(jìn)行扭曲變形后合成到2D圖像中穿戴衣服人的相應(yīng)區(qū)域.隨后Wang等[3]在VITON基礎(chǔ)上,提出了保留特征的虛擬試穿網(wǎng)絡(luò)(characteristic-preserving virtually try-on network,CP-VTON),通過(guò)幾何匹配模塊(geometric matching module,GMM)將平鋪服裝轉(zhuǎn)換為與目標(biāo)人物的體型相匹配的服裝;通過(guò)試穿模塊(try-on module,TOM)學(xué)習(xí)合成掩膜整合扭曲服裝及渲染圖像,從而減輕扭曲衣服的邊界偽影.Hyug等[4]提出LA-VITON,在CP-VTON基礎(chǔ)上加入基于網(wǎng)格間距的一致性損失和遮擋處理技術(shù),使GMM變換規(guī)范化,從而提高GMM模塊中扭曲服裝的精度.遮擋處理技術(shù)一定程度上改善了目標(biāo)服裝被頭發(fā)或手遮擋時(shí)的細(xì)節(jié)模糊問(wèn)題.Minar等[5]指出CP-VTON對(duì)于紋理豐富或長(zhǎng)袖服裝以及姿勢(shì)非正面的人的試穿效果不佳并提出了CP-VTON plus,通過(guò)改進(jìn)GMM和TOM模塊的結(jié)構(gòu)并優(yōu)化損失函數(shù),減輕了服裝幾何匹配的失誤概率,進(jìn)一步提升網(wǎng)絡(luò)性能.然而CP-VTON plus對(duì)服裝進(jìn)行扭曲時(shí)仍有一定概率出現(xiàn)失誤,并且不利扭曲會(huì)直接影響最終的試穿效果.此外,在試穿人物出現(xiàn)手臂遮擋問(wèn)題時(shí),試穿圖像的相應(yīng)部分會(huì)出現(xiàn)模糊失真現(xiàn)象.
2014年Goodfellow等[6]提出生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN),其在圖像生成領(lǐng)域的成功應(yīng)用使GAN成為該領(lǐng)域的主流框架之一.隨后Mirza等[7]提出條件對(duì)抗生成網(wǎng)絡(luò)(conditional GAN,CGAN),給訓(xùn)練數(shù)據(jù)添加條件標(biāo)簽形成數(shù)據(jù)對(duì),將條件信息添加到隨機(jī)噪聲中一同輸入,用于指導(dǎo)圖像生成,使生成器能夠根據(jù)給定的信息合成圖像.2017年Ma等[8]提出了基于CGAN的人體姿態(tài)遷移網(wǎng)絡(luò)PG2.該算法將姿態(tài)變換任務(wù)分為兩個(gè)階段,首先通過(guò)U-Net生成器進(jìn)行姿態(tài)融合,生成粗略的目標(biāo)姿勢(shì)模糊圖像,然后以CGAN生成器進(jìn)行圖像細(xì)化,對(duì)前一階段輸出進(jìn)行細(xì)節(jié)補(bǔ)充.此外,一些圖像轉(zhuǎn)換方法,如Pix2Pix[9]和CycleGAN[10]實(shí)現(xiàn)了圖像的風(fēng)格遷移.Karras等[11]提出ProGAN,通過(guò)使生成器和判別器呈漸進(jìn)式增長(zhǎng),從低分辨率開(kāi)始學(xué)習(xí)圖像數(shù)據(jù)的方法在擴(kuò)大網(wǎng)絡(luò)訓(xùn)練規(guī)模的同時(shí)保證了網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性.受ProGAN啟發(fā),Karras等[12]隨后提出StyleGAN,在ProGAN基礎(chǔ)上增加樣式控制,并提出自適應(yīng)實(shí)例正則化(adaptive instance normalization,adaIN),將圖像轉(zhuǎn)化為樣式控制向量,在漸進(jìn)生成分辨率圖像時(shí)進(jìn)行不同尺度的樣式控制.然而由于人物圖像生成的復(fù)雜性,直接將StyleGAN用于人像生成效果不佳.2020年Men等[13]提出屬性分離生成對(duì)抗網(wǎng)絡(luò)(attribute decomposed GAN,ADGAN),將復(fù)雜的人物屬性分解為若干部分并解耦,隨后進(jìn)行編碼學(xué)習(xí),最終實(shí)現(xiàn)樣式可控的人像?生成.
為解決虛擬試穿的手臂遮擋問(wèn)題,本文基于ADGAN的生成器結(jié)構(gòu)對(duì)其進(jìn)行多方面改進(jìn),提出基于特征金字塔結(jié)構(gòu)的紋理提取模塊對(duì)目標(biāo)服裝進(jìn)行二次紋理提??;增加人體表征輸入提升臉部、手部等細(xì)節(jié)生成質(zhì)量;對(duì)CP-VTON plus中的 GMM模塊對(duì)目標(biāo)服裝的不利扭曲做出修復(fù),重建出兼具服裝細(xì)節(jié)與人體結(jié)構(gòu)一致性的試穿圖像.
以目前效果最好的CP-VTON plus為例,傳統(tǒng)虛擬試穿網(wǎng)絡(luò)的主要流程如圖1所示.
圖1中人物表示指試穿人物的身份信息,包括頭發(fā)、臉部等部分的RGB圖像、表示人物體型的模糊邊界二元掩膜以及人物姿勢(shì).
圖1?CP-VTON plus網(wǎng)絡(luò)的虛擬試穿流程
目標(biāo)服裝通過(guò)GMM模塊在人物表示信息指導(dǎo)下進(jìn)行幾何匹配輸出扭曲服裝,隨后通過(guò)TOM模塊與人物表示進(jìn)行整合,合成最終的試穿圖像.TOM模塊的重建原理類(lèi)似復(fù)制-粘貼,通過(guò)人物表示構(gòu)建合成掩膜,將扭曲服裝嵌入已經(jīng)重建好其余部位的圖像中.因此在扭曲服裝與其余部位出現(xiàn)重疊時(shí),手部細(xì)節(jié)必然會(huì)有所缺失,為了確保最終重建圖像中扭曲服裝邊界的平滑,TOM模塊采用渲染操作,因此重疊部分的服裝也出現(xiàn)模糊,導(dǎo)致最終的試穿圖像不夠清晰明亮.
為了解決第1.1節(jié)中傳統(tǒng)虛擬試穿網(wǎng)絡(luò)出現(xiàn)的問(wèn)題,本文提出了一種基于改進(jìn)ADGAN的虛擬試穿方法.該方法依舊采用CP-VTON plus中的GMM模塊,隨后提取扭曲服裝紋理細(xì)節(jié)信息同時(shí)對(duì)其進(jìn)行樣式編碼,結(jié)合人體表征輸入與目標(biāo)姿勢(shì),通過(guò)改進(jìn)ADGAN進(jìn)行編解碼對(duì)抗學(xué)習(xí),最終重建試穿圖像.該方法中輸入的扭曲服裝、人體表征輸入與目標(biāo)姿勢(shì)互不干擾,因此手臂遮擋問(wèn)題得到解決,同時(shí)重建圖像擁有更好的視覺(jué)質(zhì)量.
改進(jìn)的ADGAN生成器結(jié)構(gòu)網(wǎng)絡(luò)框架如圖2所示,由GMM模塊輸出的扭曲服裝分別經(jīng)紋理提取模塊與手臂表征輸入、上半身關(guān)鍵點(diǎn)進(jìn)行紋理姿態(tài)聯(lián)合編碼;然后經(jīng)殘差樣式編碼模塊與融合模塊A生成控制樣式的均值與均方差仿射參數(shù),在解碼階段通過(guò)自適應(yīng)實(shí)例正則化AdaIN操作實(shí)現(xiàn)樣式注入,最后通過(guò)上采樣重建圖像.
圖2?改進(jìn)ADGAN生成器網(wǎng)絡(luò)框架
1.2.1?預(yù)編碼階段
原始ADGAN網(wǎng)絡(luò)的預(yù)編碼階段輸入僅有目標(biāo)姿勢(shì),參考CP-VTON plus中的人物表示與虛擬試穿過(guò)程中保持人物身份的需求,本文在預(yù)編碼階段增加了人體表征輸入,通過(guò)人體語(yǔ)義解析網(wǎng)絡(luò)[14]將提取到的目標(biāo)人物的頭發(fā)、臉部和下半身服裝等與上衣?lián)Q裝無(wú)關(guān)的部分作為表示人物身份的信息同目標(biāo)姿勢(shì)t一同輸入.與t的下采樣編碼器共享參數(shù).
目標(biāo)姿勢(shì)t是通過(guò)人體姿態(tài)估計(jì)網(wǎng)絡(luò)Open Pose[15]的預(yù)訓(xùn)練模型對(duì)試穿人物進(jìn)行姿態(tài)估計(jì)得到的18個(gè)人體關(guān)鍵點(diǎn).為了將提取到的服裝紋理細(xì)節(jié)信息匹配到試穿人物的相應(yīng)部位,18個(gè)關(guān)鍵點(diǎn)被進(jìn)一步細(xì)分類(lèi),分為0~7上半身關(guān)鍵點(diǎn)與8~13下半身關(guān)鍵點(diǎn),舍棄14~17臉部關(guān)鍵點(diǎn)(該部分已由人體表征輸入替代).將上半身關(guān)鍵點(diǎn)、手臂表征輸入與紋理提取模塊輸出的扭曲服裝紋理信息進(jìn)行紋理姿態(tài)聯(lián)合編碼,隨后與下半身關(guān)鍵點(diǎn)及人體表征輸入信息級(jí)聯(lián).紋理姿態(tài)聯(lián)合編碼過(guò)程為
1.2.2?編解碼階段
編碼階段共有4個(gè)殘差編碼塊,采用實(shí)例正則化操作,其余結(jié)構(gòu)與樣式解碼塊一致,結(jié)構(gòu)如圖3所示;解碼階段共有4個(gè)樣式解碼塊,其結(jié)構(gòu)如圖4所示,表示由仿射變換得到的AdaIN層需要的仿射參數(shù),輸出過(guò)程為
式中:對(duì)于第t塊樣式解碼塊,其輸入是前一塊樣式解碼塊輸出的特征Ft-1和從殘差樣式編碼模塊與融合模塊A得到的仿射參數(shù).Ft-1首先經(jīng)過(guò)包含AdaIN層的卷積塊ft,然后將Ft-1直接加到ft卷積輸出得到輸出Ft.t=0時(shí),F(xiàn)0即編碼階段的最終輸出.在卷積塊ft中進(jìn)行正則化處理時(shí),通過(guò)A從樣式編碼提取到的仿射變換參數(shù)對(duì)特征進(jìn)行實(shí)例正則化,使特征圖經(jīng)過(guò)正則化后融入目標(biāo)服裝的樣式.
圖4?樣式解碼塊結(jié)構(gòu)
1.2.3?殘差樣式編碼模塊
樣式編碼并不直接作用于解碼階段的特征圖本身,而是經(jīng)仿射變換后作為AdaIN層中的權(quán)重與偏置參數(shù),在解碼階段控制樣式.ADGAN采用了VGG-19[16]在ImageNet上的預(yù)訓(xùn)練權(quán)重模型,取{Conv1_1,Conv2_1,Conv3_1,Conv4_1} 4層卷積層的特征輸出,借助VGG-19預(yù)訓(xùn)練模型具有全局性和紋理泛化能力強(qiáng)的特點(diǎn),學(xué)習(xí)其樣式編碼性能.但該最終樣式編碼模塊僅選用下采樣4倍的Conv4_1卷積層輸出最終特征.Conv4_1作為較高卷積層,其輸出通常僅包含高級(jí)抽象的語(yǔ)義特征信息,關(guān)于服裝的較局部、具體的語(yǔ)義特征信息的層未被利用,相應(yīng)的一些紋理特征被遺漏.
因此,為了在樣式編碼模塊中盡可能提取到低層的紋理信息,本文參考?xì)埐罹W(wǎng)絡(luò)ResNet[17]的跳躍連接(skip-connection),在原始ADGAN樣式編碼模塊基礎(chǔ)上,通過(guò)下采樣函數(shù)加入兩次skip-connection,將輸入圖片信息繞道直接傳到輸出,保護(hù)樣式特征的完整性,改進(jìn)后的樣式編碼模塊如圖5所示.
圖5?殘差樣式編碼模塊結(jié)構(gòu)
1.2.4?判別器
判別器采用馬爾可夫判別器PatchGAN[9],采用兩個(gè)判別器p和t,p用于保證重建圖像g與目標(biāo)人物的姿勢(shì)對(duì)齊、與目標(biāo)人物的人體表征輸入一致;t用于保證重建圖像的換裝部分紋理與目標(biāo)服裝的一致.p的樣本輸入是目標(biāo)姿勢(shì)t與人體表征輸入級(jí)聯(lián),與重建圖像g(本地對(duì)照?qǐng)D像t)作為假(真)數(shù)據(jù)對(duì);t的樣本輸入是扭曲服裝與重建圖像g(本地對(duì)照?qǐng)D像t)級(jí)聯(lián),作為假(真)數(shù)據(jù)對(duì).
為修復(fù)GMM模塊對(duì)目標(biāo)服裝的不利扭曲,增加重建圖像中的服裝細(xì)節(jié),本文重點(diǎn)研究對(duì)扭曲服裝樣式和紋理信息的提取.原始ADGAN中服裝信息僅通過(guò)樣式編碼作用于解碼階段的AdaIN層.為了盡可能多地提取服裝的細(xì)節(jié)紋理信息,本文提出了基于特征金字塔結(jié)構(gòu)的紋理提取模塊,結(jié)合各尺度圖像特征提取更豐富的服裝細(xì)節(jié)紋理信息,與目標(biāo)姿勢(shì)、手臂表征輸入聯(lián)合編碼對(duì)扭曲服裝進(jìn)行二次紋理信息提取.
特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)具有側(cè)向連接的自上而下的網(wǎng)絡(luò)結(jié)構(gòu),利用深度卷積神經(jīng)網(wǎng)絡(luò)特有的多尺度金字塔結(jié)構(gòu),以極小的計(jì)算量構(gòu)建不同尺寸的兼具高級(jí)抽象和低級(jí)具體語(yǔ)義信息的特征圖.如圖6所示,原始的FPN使用ResNet網(wǎng)絡(luò)作為基礎(chǔ)框架,自下而上提取輸入圖片各個(gè)維度的特征,取其第2~5個(gè)殘差塊的特征輸出參與預(yù)測(cè),{C2,C3,C4,C5}表示layer2、layer3、layer4和layer5的輸出層作為FPN的特征輸出.
本文使用FPN的目的是盡量提取到服裝各尺度的紋理信息,因此本文提出的紋理編碼模塊舍棄高層抽象特征,使用預(yù)訓(xùn)練的VGG-19網(wǎng)絡(luò)作為基礎(chǔ)框架,結(jié)合最終紋理特征的輸出尺寸需要,選取不同維度的3層卷積層={Conv1_1,Conv2_1,Conv3_1}提取特征,這樣不僅提取了輸入圖片具體、局部的紋理信息,也提取了其抽象、整體的紋理信息.
圖6?特征金字塔網(wǎng)絡(luò)基本結(jié)構(gòu)
如圖7所示,紋理提取模塊各尺度特征的結(jié)合不再是FPN中通過(guò)上采樣函數(shù)自上而下將高級(jí)語(yǔ)義信息傳遞給低級(jí)的特征圖,而是利用Conv1×1卷積層轉(zhuǎn)換各層維度并通過(guò)自適應(yīng)池化函數(shù)調(diào)整各層特征圖尺寸,得到大小匹配的3層特征{1,2,3},然后進(jìn)行相加,最終得到語(yǔ)義增強(qiáng)的紋理特征圖.其提取過(guò)程為
圖7?紋理提取模塊網(wǎng)絡(luò)結(jié)構(gòu)
式中:表示選定提取各維度特征的VGG-19的3層卷積層;f(·)表示卷積層的提取特征操作;c(·)表示使用1×1的卷積核的通道轉(zhuǎn)換操作;p(·)表示特征池化操作.
圖8展示了紋理提取模塊中各層的特征輸出,圖8(a)為輸入的目標(biāo)扭曲服裝,圖8(b)~(d)分別為VGG-19中{Conv1_1,Conv2_1,Conv3_1}層的輸出,圖8(b)提取到的紋理特征更偏向服裝邊緣的紋理細(xì)節(jié)信息;而圖8(d)提取到的紋理特征更偏向服裝的主體語(yǔ)義信息,因此紋理提取模塊結(jié)合多層卷積層的特征輸出能夠得到更豐富的服裝紋理信息.
圖8?紋理提取模塊特征圖可視化.
網(wǎng)絡(luò)總損失函數(shù)參考原始ADGAN設(shè)定,由對(duì)抗損失、重建損失、感知損失與上下文損失構(gòu)成,即
(2)重建損失rec:比較g與t在像素層面的相似性,避免明顯的顏色失真,其表達(dá)式為
(4)上下文損失CX:由Mechrez等[18]提出,用于度量?jī)蓚€(gè)非對(duì)齊圖像之間的相似性,有助于減少紋理失真及提升重建圖形合理性.為進(jìn)一步增強(qiáng)重建圖像的服裝紋理細(xì)節(jié),在原始ADGAN基礎(chǔ)上對(duì)CX做出如下修改:①比較對(duì)象由g與t改為g中的上衣部分g和;②用于比較相似性的預(yù)訓(xùn)練卷積層由原來(lái)的Relu{‘r3_2’,‘r4_2’}較高卷積層改為pool{‘Conv1_2’,‘Conv2_2’}較低卷積層,這樣所得到的卷積特征圖l(g)和l()將包含更多的局部紋理信息.CX表示匹配特征之間的相似性度量,則有
為了驗(yàn)證本文方法的網(wǎng)絡(luò)性能,對(duì)本文方法與CP-VTON、CO-VTON plus和原始ADGAN進(jìn)行實(shí)驗(yàn)比較.其中原始ADGAN與本文方法的區(qū)別在于:①原始ADGAN缺少紋理提取模塊(圖7);②樣式提取模塊中沒(méi)有殘差連接(圖5).圖9為出現(xiàn)手臂遮擋問(wèn)題時(shí)的試穿效果比較.由圖9可知,出現(xiàn)手臂遮擋時(shí),CP-VTON與CP-VTON plus的重建圖像均在服裝與手臂出現(xiàn)重疊的部位出現(xiàn)模糊失真;原始ADGAN由于缺少紋理提取模塊導(dǎo)致模特手臂附近出現(xiàn)重建失誤,且第3列服裝的碎花紋理、第4列服裝的波點(diǎn)紋理也沒(méi)有重建成功;而本文方法的重建圖像手臂與服裝重疊部分邊界清晰、細(xì)節(jié)清楚,并且很好地重建了服裝紋理,證明了紋理提取模塊及紋理姿態(tài)聯(lián)合編碼具有增強(qiáng)重建圖像服裝紋理細(xì)節(jié)的作用.圖10為出現(xiàn)不利扭曲問(wèn)題時(shí)的試穿效果比較.圖10第1列的酒紅色長(zhǎng)袖因?yàn)槟L丶绮款^發(fā)遮擋導(dǎo)致肩部扭曲失誤,CP-VTON與CP-VTON plus 的重建圖像在領(lǐng)口處與左手處均出現(xiàn)模糊情況,原始ADGAN在領(lǐng)口部分出現(xiàn)重建失誤,而本文方法所重建的圖像對(duì)應(yīng)部分細(xì)節(jié)清晰;圖10第2列的黃色短袖左腋下部分扭曲失誤,CP-VTON和CP-VTON plus的重建圖像都出現(xiàn)模糊失真,且后者的失真褶皺保留,原始ADGAN與本文方法通過(guò)重建消除了失真褶皺,本文方法對(duì)服裝邊緣的重建效果更好;圖10第3列的黑色長(zhǎng)袖右側(cè)扭曲失誤導(dǎo)致CP-VTON、CP-VTON plus重建圖像的人物腰部細(xì)節(jié)缺失,原始ADGAN和本文方法重建圖像的腰部細(xì)節(jié)得到恢復(fù);圖10第4列長(zhǎng)袖的紋理扭曲失誤,CP-VTON與CP-VTON plus 重建圖像的紋理也相應(yīng)出現(xiàn)明顯失真,原始ADGAN和本文方法均成功對(duì)條紋紋理進(jìn)行了重建,本文方法重建的紋理更加逼真.
最后,為驗(yàn)證本文方法的實(shí)用性,使用數(shù)據(jù)集外的現(xiàn)實(shí)生活中的真人圖片進(jìn)行虛擬試穿,試穿效果比較如圖11所示.結(jié)合重建圖像的服裝細(xì)節(jié)紋理保留情況(第1、3列)、重建圖像色彩明亮度(第4列)、手臂遮擋部分重建情況(第2列)、服裝邊緣清晰度(第4列)多方面比較,本文方法的重建圖像呈現(xiàn)了最佳的試穿效果,證明本文方法具有普適性.
參考CP-VTON plus,本文采用了結(jié)構(gòu)相似性(SSIM)、學(xué)習(xí)感知圖像塊相似性(LPIPS)和Inception Score(IS)[19]對(duì)CP-VTON、CP-VTON plus、原始ADGAN和本文方法進(jìn)行性能比較.SSIM用于衡量?jī)煞鶊D像像素級(jí)別的相似性,本文將SSIM用于比較重建圖像與本地對(duì)照的結(jié)構(gòu)相似性,指標(biāo)與性能呈正相關(guān);學(xué)習(xí)感知圖像塊相似性(LPIPS)由Zhang等[20]提出,通過(guò)預(yù)訓(xùn)練網(wǎng)絡(luò)(如AlexNet,VGG-16)提取圖像特征作為圖像的視覺(jué)表征,用于比較圖像的感知相似性,本文將LPIPS用于比較重建圖像與本地對(duì)照的卷積特征相似性,指標(biāo)與性能呈負(fù)相關(guān);Inception Score用于衡量生成圖像的清晰度和多樣性,本文將IS用于評(píng)價(jià)重建圖像的視覺(jué)質(zhì)量,指標(biāo)與性能呈正相關(guān).定量分析比較如表1所示.
表1?本文方法與其他算法的定量分析
注:↑表示指標(biāo)越高,性能越好;↓表示指標(biāo)越低,性能越好.
由表1可知,本文方法的SSIM與LPIPS均優(yōu)于CP-VTON、CP-VTON plus和原始ADGAN方法,SSIM為0.8862,LPIPS指標(biāo)為0.1084,這說(shuō)明本文方法重建圖像與本地對(duì)照?qǐng)D像相比的結(jié)構(gòu)相似性和感知相似性更高,在重建圖像過(guò)程中保留了更好的服裝細(xì)節(jié)和色彩飽和度,在GMM模塊扭曲目標(biāo)服裝出現(xiàn)失誤時(shí)也能進(jìn)行修復(fù)還原;IS指標(biāo)為3.1344,表明本文網(wǎng)絡(luò)的重建圖像擁有更高的清晰度和更好的多樣性.
本文提出一種改進(jìn)的虛擬試穿方法,首先通過(guò)紋理提取模塊提取扭曲服裝紋理細(xì)節(jié)信息與人體表征輸入、目標(biāo)姿勢(shì)一同輸入改進(jìn)的ADGAN生成器進(jìn)行殘差編碼;然后通過(guò)殘差樣式編碼模塊對(duì)服裝樣式進(jìn)行編碼并映射為樣式控制向量在解碼階段對(duì)重建圖像特征實(shí)現(xiàn)樣式注入;最后經(jīng)過(guò)與判別器的對(duì)抗學(xué)習(xí),生成器重建出高視覺(jué)質(zhì)量的逼真試穿圖像.本文所提算法解決了傳統(tǒng)虛擬試穿方法普遍存在的手臂遮擋問(wèn)題,并且對(duì)于幾何匹配模塊輸出的不利扭曲做出修復(fù),重建圖像的清晰度也有了很大提升,呈現(xiàn)更逼真的試穿效果.
但目前的虛擬試衣僅限于上衣部分,并且服裝結(jié)構(gòu)較簡(jiǎn)單,因此包括下裝、配飾以及多件疊穿等復(fù)雜服裝的虛擬試衣將是未來(lái)的研究工作.
[1] Insights on the virtual dressing rooms global market to 2027-featuring magic mirror,metail & trimirror among others[EB/OL]. https://www.globenewswire.com/news-release/2020/08/13/2077800/0/en/Insights-on-the-Virtual-Dressing-Rooms-Global-Market-to-2027-Featuring-Magic-Mirror-Metail-TriMirror-Among-Others.html,2020-08-13.
[2] Han X,Wu Z,Wu Z,et al. VITON:An image-based virtual try-on network[C]// Proceedings of 2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:7543-7552.
[3] Wang B,Zheng H,Liang X,et al. Toward characteristic-preserving image-based virtual try-on network[C]// Proceedings of 15th European Conference. Munich,Germany,2018:589-604.
[4] Hyug J L,Rokkyu L,Minseok K,et al. LA-VITON:A network for looking-attractive virtual try-on[C]// Proceedings of 2019 IEEE/CVF International Conference on Computer Vision Workshop. Seoul,Korea,2019:3129-3132.
[5] Minar M,Rahman M,Tuan T,et al. CP-VTON+:Clothing shape and texture preserving image-based vitual tryon[EB/OL]. https://sites.google.com/view/cvcreative 2020/program/paper-9-cp-vton-clothing-shape and textur e-preserving-image-based,2020-06-01.
[6] Goodfellow I,Pouget-Abadie J,Mirza M,et al. Generative adversarial nets[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal,Canada,2014:2672-2680.
[7] Mirza M,Osindero S. Conditional generative adversarial nets[EB/OL]. arxiv. org/pdf/1411. 1784. pdf,2014-11-06.
[8] Ma Liqian. Pose guided person image generation[C]// Proceedings of 31st Annual Conference on Neural Information Processing Systems. Long Beach,USA,2017:406-416.
[9] Wang T C,Liu M Y,Zhu J Y,et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:8798-8807.
[10] Zhu J,Park T,Isola P,et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]// Proceedings of 2017 IEEE International Conference on Computer Vision. New York,USA,2017:2242-2251.
[11] Karras T,Aila T,Laine S,et al. Progressive growing of gans for improved quality,stability,and variation[EB/OL]. arxiv. org/pdf/1710. 10196. pdf,2017-11-03.
[12] Karras T,Laine S,Aila T. A style-based generator architecture for generative adversarial networks[C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:4401-4410.
[13] Men Y,Mao Y,Jiang Y,et al. Controllable person image synthesis with attribute-decomposed GAN[C]// Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York,USA,2020:5084-5093.
[14] Liang X,Gong K,Shen X,et al. Look into person:Joint body parsing & pose estimation network and a new benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(4):871-885.
[15] Cao Z,Hidalgo G,Simon T,et al. OpenPose:Realtime multi-person 2D pose estimation using part affinity fields[EB/OL]. arxiv. org/pdf/1812. 08008. pdf,2018-12-18.
[16] Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. arxiv. org/pdf/1409. 1556. pdf,2014-12-23.
[17] He K,Zhang X,Ren S,et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:770-778.
[18] Mechrez R,Talmi I,Zelnik-Manor L. The contextual loss for image transformation with non-aligned data[C]// Proceedings of the European Conference on Computer Vision. Munich,Germany,2018:768-783.
[19] Salimans T,Goodfellow I,Zaremba W,et al. Improved techniques for training GANs[C]// Proceedings of 30th International Conference on Neural Information Processing Systems. Barcelona,Spain,2016:2234-2242.
[20] Zhang R,Isola P,Efros A,et al. The unreasonable effectiveness of deep features as a perceptual metric[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:586-595.
Generative-Adversarial-Network-Based Virtual Try-On Method
Zhang Shufang,Wang Qinyu
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
To solve the problems of arm occlusion and detail blurring in traditional virtual try-on networks,a new virtual try-on method based on generative adversarial networks is proposed. The information on clothing details was extracted and encoded using the texture extraction and residual style encoding modules,respectively,and the try-on image was reconstructed using the extracted clothing information,the target pose,and the human representation as inputs. Our method could solve the arm occlusion problem,repair distorted garments,and generate images with clear details. Qualitative analysis showed that the try-on images reconstructed by our method could clearly show the model’s arm and clothing texture details with good visual fidelity and quality. Meanwhile,a quantitative analysis showed that using our method,the SSIM improved by 8.56%,which is similar to the original clothing’s pixel structure;LPIP reduced by 5.24%,which is similar to the ground truth’s convolution features;and inception score is improved by 0.95%,which has better definition and diversity.
image reconstruction techniques;virtual try-on;image analysis;generative adversarial network
TP37
A
0493-2137(2021)09-0925-09
10.11784/tdxbz202009064
2020-09-23;
2020-11-06.
張淑芳(1979—??),女,博士,副教授.
張淑芳,shufangzhang@tju.edu.cn.
(責(zé)任編輯:孫立華)