金海峰 武昭盟
摘要:人體姿態(tài)生成是指不改變?cè)慈梭w外觀,生成參考人體姿態(tài)的技術(shù)。由于姿勢(shì)轉(zhuǎn)移過程中的身體變形和不同視角帶來的不同外觀, 其生成過程較為復(fù)雜。該技術(shù)可歸納為基于圖像和基于視頻兩種途徑,對(duì)于前者以人體建模的方式為依據(jù),將其分為基于姿態(tài)關(guān)鍵點(diǎn)的人體姿態(tài)生成、基于外觀流的人體姿態(tài)生成以及基于網(wǎng)格的人體姿態(tài)生成,并介紹了其中的典型模型,最后指出人體姿態(tài)生成中的問題,未來在模型優(yōu)化、數(shù)據(jù)集構(gòu)建等方面還需要更深入的研究。
關(guān)鍵詞:人體姿態(tài)生成;關(guān)鍵點(diǎn)提取; 外觀流; 圖像生成; 視頻生成
中圖分類號(hào):TP391.41? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)25-0001-04
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1? 引言
給定一個(gè)源人體圖像和一個(gè)參考人體圖像,人體姿態(tài)生成是指利用給定的參考人體的姿態(tài)圖來生成具有參考人體姿態(tài)、但保持源人體外觀的技術(shù)。它屬于計(jì)算機(jī)視覺生成領(lǐng)域,但因其姿態(tài)生成空間變換的復(fù)雜性,比一般的生成任務(wù)更具有挑戰(zhàn)性。
人體姿態(tài)生成的研究比較新穎,Ma等人[1]在2017年提出了最早的人體姿態(tài)生成網(wǎng)絡(luò)PG2,能夠由源人物圖像和參考姿勢(shì)來生成具有參考姿勢(shì)的源人物圖像。人體姿態(tài)生成任務(wù)生成圖像時(shí)需要推斷出未觀察到的身體部位,以便生成目標(biāo)姿勢(shì)。具有挑戰(zhàn)性的是不同姿勢(shì)的圖像在不同視角下可能有很大的不同,這就不可避免地要求生成器捕捉圖像分布所具有的巨大變化。這項(xiàng)任務(wù)對(duì)計(jì)算機(jī)視覺來說具有廣泛的應(yīng)用價(jià)值,比如視頻合成和視頻編輯,以及在沒有足夠的同人圖像的情況下,對(duì)人的重識(shí)別[2]等問題進(jìn)行數(shù)據(jù)擴(kuò)充。
目前,人體姿態(tài)生成任務(wù)可以歸納為基于圖像的姿態(tài)生成和基于視頻的姿態(tài)生成。從這兩方面出發(fā),分析和總結(jié)了其中典型的算法和模型,按照不同的人體建模方式,將各類模型歸類到基于姿態(tài)關(guān)鍵點(diǎn)的人體姿態(tài)生成、基于外觀流的人體姿態(tài)生成和基于網(wǎng)格的人體姿態(tài)生成。在每個(gè)類別中,首先對(duì)模型進(jìn)行了基本描述和概括,然后對(duì)該方法做了總結(jié)。此外,還介紹了人體姿態(tài)生成任務(wù)的常用數(shù)據(jù)集和評(píng)價(jià)指標(biāo),列舉了部分典型模型的性能表現(xiàn),最后對(duì)人體姿態(tài)生成面臨的問題進(jìn)行了說明以及對(duì)未來的研究方向做了展望。
2? 基于圖像的人體姿態(tài)生成
圖像生成的目標(biāo)是找到與真實(shí)圖像最相似的分布,目前主流的生成模型是基于深度學(xué)習(xí)的變分自動(dòng)編碼器(Variational Autoencoder,VAE)[3]和生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[4]。由于GAN 網(wǎng)絡(luò)在圖像生成方面的優(yōu)秀表現(xiàn),近幾年基于GAN模型的生成任務(wù)更為流行。最早的對(duì)抗生成網(wǎng)絡(luò)由Goodfellow [3]提出,該網(wǎng)絡(luò)由一個(gè)生成器G和一個(gè)判別器D組成,生成器負(fù)責(zé)讓生成的圖像更加真實(shí),判別器負(fù)責(zé)判斷出圖像的真假,生成器和判別器進(jìn)行對(duì)抗訓(xùn)練,并最終期望達(dá)到一個(gè)納什均衡:生成器生成的圖像越來越真實(shí),而判別器越來越難判斷出圖像的真假,GAN的原理如圖1所示。
此后各種優(yōu)化的GAN 模型不斷涌現(xiàn),生成圖像的質(zhì)量也越來越高,但簡(jiǎn)單GAN模型訓(xùn)練不穩(wěn)定,多樣化受限。為此,Mirza提出了條件GAN[5],在生成器和判別器中引入條件變量,以指導(dǎo)符合特定要求的數(shù)據(jù)生成。在人體姿態(tài)生成任務(wù)中,參考人體姿態(tài)作為條件變量或語義標(biāo)簽,指引人體姿態(tài)的生成,而人體姿態(tài)使用人體姿態(tài)估計(jì)的方法獲取。一般來說,人體姿態(tài)估計(jì)將人體模型分為三種[6]:基于骨骼的模型,基于輪廓的模型和基于體積的模型。(1)基于骨骼的模型:將人體拓?fù)浔硎緸橐唤M關(guān)鍵點(diǎn)位置及對(duì)應(yīng)的肢體方向。這種模型由于操作簡(jiǎn)單,被大量用于2D和3D人體姿態(tài)估計(jì)中;(2)基于輪廓的模型:將肢體和軀干用矩形或輪廓邊界表示;(3)基于體積的模型:一般以3D掃描的網(wǎng)格形式表示。
對(duì)于現(xiàn)有的人體姿態(tài)生成任務(wù),以人體建模的方式為依據(jù),可將人體姿態(tài)生成分為三種類型:①基于姿態(tài)關(guān)鍵點(diǎn)的人體姿態(tài)生成;②基于外觀流的人體姿態(tài)生成;③基于網(wǎng)格的人體姿態(tài)生成。
2.1 基于姿態(tài)關(guān)鍵點(diǎn)的人體姿態(tài)生成
基于姿態(tài)關(guān)鍵點(diǎn)的人體姿態(tài)生成是最典型的姿態(tài)生成網(wǎng)絡(luò)。一般來說,首先使用姿態(tài)估計(jì)方法來獲得人體姿勢(shì),然后使用生成對(duì)抗網(wǎng)絡(luò)來完善和細(xì)化結(jié)果。
如圖2中的PG2框架,第一階段,生成器是類似U-Net[7]的結(jié)構(gòu),輸入是原始條件圖像和目標(biāo)姿勢(shì),使用了18個(gè)熱圖來編碼姿勢(shì),輸出是一個(gè)具有目標(biāo)姿勢(shì)但粗糙的生成結(jié)果。第二階段,生成器采用DCGAN[8]的變體進(jìn)行對(duì)抗性訓(xùn)練來完善第一階段的結(jié)果,補(bǔ)充細(xì)節(jié)信息。對(duì)于判別器,PG2將第二階段的輸出與原始條件圖像進(jìn)行配對(duì),讓判別器學(xué)習(xí)判斷真實(shí)的配對(duì)和虛假的配對(duì)。之后,Ma等人[9]進(jìn)一步改進(jìn)了他們以前的工作,將輸入圖像的前景、背景和姿態(tài)分解并編碼為嵌入特征,然后解碼為圖像。雖然生成更加可控,但是降低了生成圖像的質(zhì)量。
面對(duì)姿態(tài)生成中存在的幾何可變性和空間位移,Dong等人提出了Soft-Gated Warping-GAN[10],利用一系列的仿射變換來解決原始條件圖像和目標(biāo)圖像之間的錯(cuò)位問題,并采用了層次結(jié)構(gòu)的兩階段判別器來提高合成圖像的質(zhì)量。雖然Soft-Gated Warping-GAN能夠產(chǎn)生比較真實(shí)的外觀,生成不同姿勢(shì)的高質(zhì)量人物圖像。但在處理不同姿勢(shì)之間的錯(cuò)位時(shí),必須有效地計(jì)算仿射變換,這使得該模型比較脆弱,應(yīng)用于不常見的姿勢(shì)時(shí)表現(xiàn)不佳。
Men等人提出了屬性分解GAN[11],將人的屬性作為獨(dú)立編碼嵌入到隱空間中,并通過顯式風(fēng)格表示中的混合和插值操作,實(shí)現(xiàn)對(duì)屬性的靈活和連續(xù)控制,實(shí)現(xiàn)了可控的人體姿態(tài)生成。Zhu等人[12]提出了一種級(jí)聯(lián)的姿態(tài)-注意力轉(zhuǎn)換模塊PATN,生成器的核心是一連串的姿勢(shì)-注意力轉(zhuǎn)移塊,每個(gè)姿勢(shì)-注意力轉(zhuǎn)移塊結(jié)構(gòu)相同,輸入為圖像和姿勢(shì)的表示,通過模塊當(dāng)中的注意力機(jī)制,能夠推斷出人體姿態(tài)中的感興趣區(qū)域,將姿勢(shì)的變化限制在局部的小范圍,形成漸進(jìn)式的姿勢(shì)轉(zhuǎn)移方案,減少了計(jì)算量。
2.2 基于外觀流的人體姿態(tài)生成
光流[13]能夠提供圖像像素間的對(duì)應(yīng)關(guān)系,常用于動(dòng)作識(shí)別[14]。外觀流[15]則能提供不同視角的圖像間的對(duì)應(yīng)關(guān)系,鑒于此,Li等人[16]提出了基于外觀流的任意姿勢(shì)轉(zhuǎn)換模型。
如圖3所示,該網(wǎng)絡(luò)首先編碼源人物圖像和目標(biāo)姿勢(shì),然后訓(xùn)練一個(gè)外觀流生成模塊,該模塊直接從一對(duì)二維姿勢(shì)回歸到相應(yīng)的外觀流,進(jìn)一步生成一個(gè)可見性圖,可見性圖可以在正確位置合成像素,以指導(dǎo)編碼后的圖像特征,最后這些圖像特征聯(lián)合生成目標(biāo)圖像。這是一種新的人體姿勢(shì)轉(zhuǎn)移的方法,整合了來自二維表征的關(guān)于三維幾何的隱性推理。通過估計(jì)密集的三維外觀流,能更好地指導(dǎo)姿勢(shì)之間的像素轉(zhuǎn)移,但也增加了估計(jì)流場(chǎng)的難度。
Ren等人[17]提出了一個(gè)全局流動(dòng)的局部注意框架。首先提取全局相關(guān)性并生成流場(chǎng),之后根據(jù)獲得的流場(chǎng),使用局部注意對(duì)目標(biāo)人物進(jìn)行源紋理采樣。該方法使模型的每個(gè)輸出位置只與源圖像的局部特征有關(guān),降低了流場(chǎng)估計(jì)任務(wù)的難度。
2.3? 基于網(wǎng)格的人體姿態(tài)生成
針對(duì)人體姿態(tài)合成方法只能表達(dá)位置信息,不能描述個(gè)人的個(gè)性化形狀和建立肢體旋轉(zhuǎn)模型的問題。Liu等人[18]提出了Liquid Warping GAN,將人體分解為姿勢(shì)和形狀。它輸出三維網(wǎng)格,而不再是關(guān)節(jié)或身體布局。
如圖4所示,Warping Block(LWB)的第一個(gè)身體網(wǎng)格恢復(fù)模塊使用HMR[19]作為三維姿勢(shì)和形狀估計(jì)器,估計(jì)源圖像和參考圖像的三維網(wǎng)格,并呈現(xiàn)它們的對(duì)應(yīng)圖。第二個(gè)流組成模塊根據(jù)兩個(gè)對(duì)應(yīng)圖和它們?cè)趫D像空間中的投影網(wǎng)格計(jì)算出變換流,將源圖像分解為正面圖像和被遮蔽的背景,接著流組成模塊根據(jù)變換流進(jìn)行翹曲,產(chǎn)生翹曲的圖像。最后一個(gè)GAN模塊中,生成器由三個(gè)流組成,用來生成背景圖像,重建源圖像,以及合成參考條件下的目標(biāo)圖像。該方法處理不同視角的人物比較靈活,錯(cuò)位較少,但變換過程更復(fù)雜。
3 基于視頻的人體姿態(tài)生成
基于視頻的人體姿態(tài)生成是指給定源主體一系列動(dòng)作的視頻,所對(duì)應(yīng)的目標(biāo)主體能夠執(zhí)行與原主體完全相同的動(dòng)作。2018 年,Nvidia[20 ]基于pix2pixHD[21],提出了高分辨率視頻生成模型vid2vid。vid2vid可以用于合成高分辨率的舞蹈視頻,將舞蹈動(dòng)作遷移到新的舞者身上。
如圖5所示,vid2vid使用了兩階段的生成器,第一階段的生成器用來生成全局的低分辨率視頻,輸入是前L幀和當(dāng)前幀的語義映射序列以及前L幀的生成圖像序列,輸出是原始圖像、光流和權(quán)重掩碼;為了處理視頻中的冗余信息,vid2vid還引入了光流來約束相鄰兩幀之間的運(yùn)動(dòng)像素信息,并得到當(dāng)前幀的預(yù)測(cè)值。第二階段的生成器輸入是原分辨率的語義映射序列及生成圖像,進(jìn)行卷積之后,將提取的特征圖與第一階段的輸出相加,送入第二階段生成器的后半部分,生成局部的高分辨率視頻。vid2vid的判別器則用來計(jì)算圖像是否真實(shí)的得分。
vid2vid模型泛化能力比較差,不能將姿勢(shì)推廣到非訓(xùn)練集中的人。于是Nvidia又提出了Few-shot vid2vid[22],F(xiàn)ew-shot vid2vid新增了一個(gè)權(quán)重生成網(wǎng)絡(luò),用來提取若干實(shí)例圖的特征并映射成一維權(quán)重,之后將該權(quán)重加入訓(xùn)練好的生成模型中,解決了模型泛化的問題,但對(duì)于姿態(tài)生成質(zhì)量并未提升。
2019 年,Chan 等人[23]提出的EDN模型。EDN模型使用預(yù)訓(xùn)練好的姿態(tài)估計(jì)器來創(chuàng)建姿勢(shì)圖,并將獲得的姿勢(shì)作為幀與幀之間轉(zhuǎn)換的中間表示。之后考慮到源人體和目標(biāo)人體幀內(nèi)位置和大小的差異,在姿勢(shì)圖和目標(biāo)人物圖之間計(jì)算相應(yīng)的比例和平移關(guān)系。最后進(jìn)行對(duì)抗性訓(xùn)練,學(xué)習(xí)從姿態(tài)圖到目標(biāo)人物圖像的映射。2020 年Yang 等人[24]提出視頻運(yùn)動(dòng)重定位模型TransMoMo,能夠?qū)⒃匆曨l中人的運(yùn)動(dòng)真實(shí)地轉(zhuǎn)移到另一個(gè)目標(biāo)人的視頻中。TransMoMo主要利用運(yùn)動(dòng)、結(jié)構(gòu)和視角三個(gè)正交因素的不變性進(jìn)行訓(xùn)練。雖然該網(wǎng)絡(luò)能夠生成實(shí)際生活中的某些復(fù)雜動(dòng)作,但是網(wǎng)絡(luò)的損失函數(shù)近乎十項(xiàng),使得網(wǎng)絡(luò)整體比較難訓(xùn)練。
4? 相關(guān)數(shù)據(jù)集及評(píng)價(jià)方法
人體姿態(tài)生成的評(píng)價(jià)指標(biāo)需要對(duì)生成的質(zhì)量進(jìn)行評(píng)價(jià),在驗(yàn)證數(shù)據(jù)集的構(gòu)建方面,不僅要考慮圖像和視頻的類型,而且要兼顧圖像與視頻的復(fù)雜度。目前,針對(duì)基于圖像的人體姿態(tài)生成任務(wù),主要使用的是DeepFashion[25]和Market-1501數(shù)據(jù)集[26],針對(duì)基于視頻的人體姿態(tài)生成任務(wù),EDN和Vid2vid使用的是網(wǎng)上收集的視頻,TransMoMo在合成的Mixamo數(shù)據(jù)集[27]上進(jìn)行訓(xùn)練。
一般來說,人體姿態(tài)生成使用結(jié)構(gòu)相似度(SSIM)[28]、初始得分(IS)[29]和Fréchet Inception Distance(FID)[30]方法,對(duì)生成的圖像和視頻進(jìn)行考量,在基于視頻的人體姿態(tài)生成任務(wù)中,還使用了人類主觀測(cè)試來評(píng)價(jià)生成視頻的效果。本節(jié)主要介紹目前常用的數(shù)據(jù)集、相關(guān)評(píng)價(jià)方法,總結(jié)了部分模型性能。
4.1 人體姿態(tài)生成常用評(píng)價(jià)方法及指標(biāo)
由于人體姿態(tài)生成與圖像生成流程類似,其評(píng)價(jià)也多是使用圖像生成的方法,目前使用最多的是結(jié)構(gòu)相似度(SSIM)和初始得分(IS)。SSIM方法是一種衡量?jī)煞鶊D像相似度的指標(biāo),主要比較亮度、對(duì)比度和結(jié)構(gòu)這三個(gè)方面。用[a]和[b]分別表示兩幅圖像,SSIM 的計(jì)算方法為:
[SSIM(a,b)=[l(a,b)]α[c(a,b)]β[s(a,b)]γ]? ?(1)
α>0,β>0,γ>0,其中,[l(a,b)]表示亮度比較,[c(a,b)]表示對(duì)比度比較,[s(a,b)]表示結(jié)構(gòu)比較,SSIM值的范圍在[0,1]之間,值越大表示圖像越相似。
IS用來衡量GAN網(wǎng)絡(luò)的兩個(gè)指標(biāo):生成圖片的質(zhì)量和多樣性。IS的計(jì)算公式為:
[IS(G)=exp(Ex~pgKL(p(y|x)||p(y)))]? (2)
其中,[x~pg]表示[x]從生成數(shù)據(jù)分布[pg]中采樣而來,KL表示計(jì)算KL散度,[p(y|x)]是條件類分布,[p(y)]表示生成圖像在所有類別上的邊緣分布。IS值越高,則說明生成圖像的分布越接近真實(shí)分布。
有些模型也會(huì)用到FID來作為評(píng)價(jià)指標(biāo),F(xiàn)ID是一個(gè)用于隱性生成模型的指標(biāo),關(guān)聯(lián)了生成樣本的視覺質(zhì)量。FID計(jì)算了生成圖像的特征向量與真實(shí)圖像的特征向量之間的距離,該距離越近,表明生成模型的效果越理想。
4.2 人體姿態(tài)生成數(shù)據(jù)集
在基于圖像的人體姿態(tài)生成領(lǐng)域,目前常用流行公開數(shù)據(jù)集是DeepFashion和Market-1501,DeepFashion 數(shù)據(jù)集是香港中文大學(xué)開放的一個(gè)數(shù)據(jù)集,包括52,712張店內(nèi)服裝圖像和200,000個(gè)交叉姿勢(shì)/比例對(duì)。所有圖像分辨率為256×256,背景較為單一。在該數(shù)據(jù)集的驗(yàn)證集上, 當(dāng)前部分主流模型的性能表現(xiàn)如表1所示。
Market-1501 的訓(xùn)練集包含了 751 個(gè)人的12,936 張圖像;測(cè)試集包含了750 個(gè)人的19,732圖像。圖像的分辨率為128×64,背景多樣。該數(shù)據(jù)集普遍被用于行人重識(shí)別等任務(wù)中。該數(shù)據(jù)集的驗(yàn)證集上, 當(dāng)前部分主流模型的性能表現(xiàn)如表2所示。
5 總結(jié)與展望
姿態(tài)生成任務(wù)屬于圖像及視頻生成的一個(gè)子領(lǐng)域,使用人體姿態(tài)估計(jì)的方法進(jìn)行人類姿態(tài)的處理,目前人們使用生成對(duì)抗網(wǎng)絡(luò)的技術(shù),利用關(guān)鍵點(diǎn)提取、外觀流檢測(cè)等方法,設(shè)計(jì)出一系列效果顯著的模型,在視頻處理中,使用視頻到視頻的合成,已經(jīng)能生成流暢的視頻流。人體姿態(tài)生成技術(shù)是計(jì)算機(jī)視覺中一個(gè)很有意義的研究方向,在時(shí)尚造型設(shè)計(jì)以及短視頻生成中具有廣闊的發(fā)展前景。此外,該任務(wù)還能夠在電影行業(yè)中為演員提供比替身更好的方式,降低人員受傷的幾率,也可以在人體形態(tài)學(xué)的任務(wù),比如行為識(shí)別、姿態(tài)追蹤中實(shí)現(xiàn)大批量高質(zhì)量數(shù)據(jù)集的擴(kuò)充,便于學(xué)術(shù)界人員的研究。
本文回顧了人體姿態(tài)生成任務(wù)的出現(xiàn)與發(fā)展過程,分析了其研究現(xiàn)狀,對(duì)主要的模型進(jìn)行了梳理,并總結(jié)了各模型的優(yōu)越性及局限。未來有以下幾個(gè)方面值得探索:首先,成功的人體姿勢(shì)生成需要對(duì)人體姿勢(shì)和外觀進(jìn)行良好的表示或拆分,需要有推斷不可見部分的能力,還要能夠較好保留人物的高頻細(xì)節(jié)。其次,現(xiàn)有的數(shù)據(jù)集太少,尤其在視頻的生成領(lǐng)域,沒有針對(duì)姿態(tài)生成的標(biāo)準(zhǔn)參考數(shù)據(jù)集。最后,現(xiàn)有模型往往在生成姿態(tài)變化較大的視頻動(dòng)作和將動(dòng)作同時(shí)轉(zhuǎn)移到多個(gè)人時(shí)效果變差。未來結(jié)合多模態(tài)融合技術(shù),人體姿態(tài)生成領(lǐng)域會(huì)有更多的研究空間。
參考文獻(xiàn):
[1] Ma L Q,Jia X,Sun Q R,et al.Pose guided person image generation[EB/OL].2017:arXiv:1705.09368.https://arxiv.org/abs/1705. 09368
[2] Gheissari N,Sebastian T B,Tu P H,et al.Person reidentification using spatiotemporal appearance[J].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006(2):1528-1535.
[3] Kingma D P,Welling M.Auto-encoding variational Bayes[EB/OL].2013:arXiv:1312.6114.https://arxiv.org/abs/1312.6114.
[4] Goodfellow I J , Pouget-Abadie J , Mirza M , et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014(3):2672-2680.
[5] Mirza M,Osindero S.Conditional generative adversarial nets[EB/OL].2014:arXiv:1411.1784.https://arxiv.org/abs/1411.1784.
[6] Chen Y C,Tian Y L,He M Y.Monocular human pose estimation:a survey of deep learning-based methods[J].Computer Vision and Image Understanding,2020,192(C):102897.
[7] Ronneberger O,F(xiàn)ischer P,Brox T.U-net:convolutional networks for biomedical image segmentation[EB/OL].2015:arXiv:1505. 04597.https://arxiv.org/abs/1505.04597.
[8] Radford A,Metz L,Chintala S.Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL].2015:arXiv:1511.06434.https://arxiv.org/abs/1511.06434.
[9] Ma L Q,Sun Q R,Georgoulis S,et al.Disentangled person image generation[EB/OL].2017:arXiv:1712.02621.https://arxiv.org/abs/1712.02621.
[10] Dong H Y,Liang X D,Gong K,et al.Soft-gated warping-GAN for pose-guided person image synthesis[EB/OL].2018:arXiv:1810.11610.https://arxiv.org/abs/1810.11610.
[11] Men Y F,Mao Y M,Jiang Y N,et al.Controllable person image synthesis with attribute-decomposed GAN[EB/OL].2020:arXiv:2003.12267.https://arxiv.org/abs/2003.12267.
[12] Zhu Z,Huang T T,Shi B G,et al.Progressive pose attention transfer for person image generation[EB/OL].2019:arXiv:1904.03349.https://arxiv.org/abs/1904.03349.
[13] Horn B K P,Schunck B G.Determining optical flow[J].Computer Vision,1981:185-203.
[14] Simonyan K,Zisserman A.Two-stream convolutional networks for action recognition in videos[EB/OL].2014:arXiv:1406.2199.https://arxiv.org/abs/1406.2199.
[15] He K M,Zhang X Y,Ren S Q,et al.Identity mappings in deep residual networks[EB/OL].2016:arXiv:1603.05027.https://arxiv.org/abs/1603.05027.
(下轉(zhuǎn)第8頁(yè))
(上接第4頁(yè))
[16] Li Y, Huang C, Loy C C. Dense intrinsic appearance flow for human pose transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019: 3693-3702.
[17] Ren Y R,Yu X M,Chen J M,et al.Deep image spatial transformation for person image generation[EB/OL].2020:arXiv:2003.00696.https://arxiv.org/abs/2003.00696.
[18] Liu W,Piao Z X,Min J,et al.Liquid warping GAN:a unified framework for human motion imitation,appearance transfer and novel view synthesis[EB/OL].2019:arXiv:1909.12224.https://arxiv.org/abs/1909.12224.
[19] Kato H, Ushiku Y, Harada T. Neural 3d mesh renderer[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2018: 3907-3916.
[20] Wang T C,Liu M Y,Zhu J Y,et al.Video-to-video synthesis[EB/OL].2018:arXiv:1808.06601.https://arxiv.org/abs/1808. 06601.
[21] Wang T C, Liu M Y, Zhu J Y, et al. High-resolution image synthesis and semantic manipulation with conditional gans[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2018: 8798-8807.
[22] Wang T C,Liu M Y,Tao A,et al.Few-shot video-to-video synthesis[EB/OL].2019:arXiv:1910.12713.https://arxiv.org/abs/1910.12713.
[23] Chan C,Ginosar S,Zhou T H,et al.Everybody dance now[EB/OL].2018:arXiv:1808.07371.https://arxiv.org/abs/1808.07371.
[24] Yang Z Q,Zhu W T,Wu W,et al.TransMoMo:invariance-driven unsupervised video motion retargeting[EB/OL].2020:arXiv:2003.14401.https://arxiv.org/abs/2003.14401.
[25] Liu Z, Luo P, Qiu S, et al. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2016: 1096-1104.
[26] Zheng L,Shen L Y,Tian L,et al.Scalable person re-identification:a benchmark[J].Proceedings of the IEEE International Conference on Computer Vision,2015,2015 International Conference on Computer Vision,ICCV 2015:1116-1124.
[27] Adobe.Mixamo[EB/OL].(2020-01-02)[2020-01-12]. https://www.mixamo.com.
[28] Wang Z,Bovik A C,Sheikh H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[29] Salimans T,Goodfellow I,Zaremba W,et al.Improved techniques for training GANs[EB/OL].2016:arXiv:1606.03498.https://arxiv.org/abs/1606.03498.
[30] Heusel M,Ramsauer H,Unterthiner T,et al.GANs trained by a two time-scale update rule converge to a local Nash equilibrium[EB/OL].2017:arXiv:1706.08500.https://arxiv.org/abs/1706. 08500.
【通聯(lián)編輯:唐一東】