程 平
(四川長(zhǎng)虹電器股份有限公司,綿陽(yáng) 621000)
圖像處理的很多問題都是將一張輸入的圖片轉(zhuǎn)變?yōu)橐粡垖?duì)應(yīng)的輸出圖片,比如灰度圖、梯度圖、彩色圖之間的轉(zhuǎn)換等。通常每一種問題都使用特定的算法如:使用CNN 來(lái)解決圖像轉(zhuǎn)換問題時(shí),要根據(jù)每個(gè)問題設(shè)定一個(gè)特定的損失函數(shù)來(lái)讓CNN 優(yōu)化。這些方法的本質(zhì)其實(shí)都是從像素到像素的映射?!胺g”常用于語(yǔ)言之間的翻譯,就比如中文和英文的之間的翻譯。但是圖像翻譯的意思是以不同形式在圖與圖之間轉(zhuǎn)換。比如,一張場(chǎng)景可以轉(zhuǎn)換為RGB 全彩圖,也可以轉(zhuǎn)化成素描,也可以轉(zhuǎn)化為灰度圖。一張夜景圖也可以轉(zhuǎn)化為這個(gè)地方的日景圖。本文在GAN 的基礎(chǔ)上提出一個(gè)通用的方法:pix2pixHD 來(lái)解決行人圖像翻譯問題。該網(wǎng)絡(luò)采用一種完全監(jiān)督的方法,即利用完全配對(duì)的輸入和輸出圖像訓(xùn)練模型,通過(guò)訓(xùn)練好的模型將輸入的圖像生成指定任務(wù)的目標(biāo)圖像。在訓(xùn)練階段,使用成對(duì)的行人姿態(tài)mask 和行人圖像訓(xùn)練pix2pixHD 網(wǎng)絡(luò),在測(cè)試階段將行人姿態(tài)mask 輸入到訓(xùn)練好的pix2pixHD 網(wǎng)絡(luò)中,得到基于mask 姿態(tài)的行人圖像。
大量研究者已經(jīng)利用對(duì)抗學(xué)習(xí)來(lái)做圖像到圖像翻譯[9],其目標(biāo)在于翻譯一個(gè)輸入圖像從一個(gè)域到另一個(gè)域,給定輸入-輸出圖像對(duì)來(lái)作為訓(xùn)練數(shù)據(jù)。相較于常使得圖像模糊的L1損失,對(duì)于大多圖像到圖像的任務(wù)adversarial loss 已經(jīng)變得流行起來(lái)。因?yàn)榕袆e器能夠?qū)W到一個(gè)新的可訓(xùn)練的損失函數(shù)并且自動(dòng)地適應(yīng)目標(biāo)域中生成的和真實(shí)的圖片之間的差異。從另一方面來(lái)說(shuō),圖像到圖像翻譯的出現(xiàn)在某種程度上是占了卷積神經(jīng)網(wǎng)絡(luò)的天時(shí),卷積神經(jīng)網(wǎng)絡(luò)所帶來(lái)的對(duì)圖像特征的高層特征的抽取使得風(fēng)格和內(nèi)容的分離成為了可能。pix2pix 網(wǎng)絡(luò)[1]提出了藝術(shù)風(fēng)格的神經(jīng)網(wǎng)絡(luò)算法可以將圖像的內(nèi)容和圖像的自然風(fēng)格分離和再合并,它不再輸入隨機(jī)噪聲,而是輸入用戶給的圖片,但該網(wǎng)絡(luò)需要成對(duì)的訓(xùn)練圖像。CycleGAN 網(wǎng)絡(luò)[2]通過(guò)使用成對(duì)的生成器和判別器,添加一致性損失函數(shù),先將源于上的圖像轉(zhuǎn)換到目標(biāo)域中,再將轉(zhuǎn)換后的圖像還原為原始的圖像。解決了在沒有成對(duì)圖像的基礎(chǔ)上,將源域圖像轉(zhuǎn)化為目標(biāo)域圖像的問題。pix2pixHD 網(wǎng)絡(luò)[3]采取了金字塔式的方法,先輸出低分辨率的圖片。將之前輸出的低分辨率圖片作為另一個(gè)網(wǎng)絡(luò)的輸入,然后生成分辨率更高的圖片。本文將采用pix2pixHD 網(wǎng)絡(luò),實(shí)現(xiàn)根據(jù)行人姿態(tài)mask 到行人圖像的生成。
圖1 pix2pixHD
如圖1所示,生成器由G1和G2兩部分組成,其中G2又被割裂成兩個(gè)部分。G1和pix2pix 的生成器沒有差別,就是一個(gè)端到端的U-Net 結(jié)構(gòu)。G2的左半部分提取特征,并和G1的輸出層的前一層特征進(jìn)行相加融合信息,把融合后的信息送入G2的后半部分輸出高分辨率圖像。首先在低分辨率圖像上訓(xùn)練殘差網(wǎng)絡(luò)G1,然后,G2接在G1的后面,在高分辨率圖像上這兩個(gè)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。
G1 為全局生成網(wǎng)絡(luò),G2 為局部提升網(wǎng)絡(luò)。生成器由G={G1,G2}組成,全局生成器網(wǎng)絡(luò)在一張1024×512 分辨率上進(jìn)行操作,局部提升網(wǎng)絡(luò)輸出一個(gè)比之前(每張圖片維度的2倍)的輸出多4倍的一張圖。在一個(gè)很高的分辨率上進(jìn)行圖像合成。其全局生成網(wǎng)絡(luò)由三個(gè)部分組成:一個(gè)卷積前向到端部分,一系列的殘差結(jié)構(gòu),和一個(gè)反卷積后向到端部分。一個(gè)分辨率為1024×512的語(yǔ)義標(biāo)簽圖連續(xù)經(jīng)過(guò)這三個(gè)部分生成一個(gè)1024×512的圖像。
局部提升網(wǎng)絡(luò)也由3個(gè)部分組成:一個(gè)卷積前向到端部分,一系列的殘差結(jié)構(gòu)和一個(gè)反卷積后向到端部分。G2的輸入標(biāo)簽圖的分辨率是2048×1024,和全局生成器網(wǎng)絡(luò)不同,殘差塊的輸出是兩個(gè)特征圖的對(duì)應(yīng)元素之和:卷積前向到端部分的輸出特征圖和全局生成器網(wǎng)絡(luò)中的最后一層特征圖。這有助于整合G1的全局信息到G2。
判別器使用多尺度判別器,在三個(gè)不同的尺度上進(jìn)行判別并對(duì)結(jié)果取平均。判別的三個(gè)尺度為:原圖,原圖的1/2降采樣,原圖的1/4降采樣。將判別器分別稱為D1,D2,D3。具體來(lái)說(shuō),我們對(duì)真實(shí)圖像和合成圖像進(jìn)行2倍和4倍的下采樣來(lái)創(chuàng)造3個(gè)尺度的圖像金字塔,判別器D1、D2和D3分別由這三個(gè)不同尺寸的不同真實(shí)和合成圖像進(jìn)行訓(xùn)練,雖然判別器的結(jié)構(gòu)都相同,但是最粗糙的尺度的那個(gè)有最大的感受野。這有著更多的圖像全局視角信息,能夠引領(lǐng)生成器生成全局一致的圖像。另一方面,最精細(xì)尺度的判別器鼓勵(lì)生成器能夠生成更加精細(xì)的細(xì)節(jié)。這也使得訓(xùn)練由粗到細(xì)的生成器更加容易。
pix2pixHD 網(wǎng)絡(luò)中使用了三個(gè)判別器,每個(gè)判別網(wǎng)絡(luò)分的輸入是不同尺度的圖片,原始的GAN 變成了一個(gè)多任務(wù)的GAN,因此GAN loss 如式(1)所示:
pix2pixHD 也加入了特征匹配技術(shù),將生成的樣本和真實(shí)樣本分別送入判別器D 網(wǎng)絡(luò)中除了輸出層以外的所有層的特征圖都拿過(guò)來(lái)對(duì)特征做Element-wise loss。因此其特征匹配損失函數(shù)如式(2)所示:
式中,k 表示第k 個(gè)D 網(wǎng)絡(luò);i 表示D 網(wǎng)絡(luò)中的第i 層;s 表示待轉(zhuǎn)換圖片;x 表示轉(zhuǎn)換目標(biāo)圖片;G(s)表示G 網(wǎng)絡(luò)生成的目標(biāo)圖片。
加入特征匹配損失函數(shù)后,pix2pixHD 的損失函數(shù)如式(3)所示,其中λ 為特征匹配損失函數(shù)的權(quán)重:
在網(wǎng)絡(luò)的訓(xùn)練階段,將行人姿態(tài)mask 輸入到pix2pixHD 網(wǎng)絡(luò)的生成器G 中用于生成行人圖像。pix2pixHD 網(wǎng)絡(luò)的判別器D用于判斷行人圖像為真實(shí)的行人圖像還是生成的行人圖像。通過(guò)pix2pixHD 網(wǎng)絡(luò)的生成器和判別器進(jìn)行聯(lián)合訓(xùn)練,生成器和判別器不斷博弈,優(yōu)化。最終在測(cè)試階段,只需輸入行人姿態(tài)mask,pix2pixHD 生成器G 便能生成逼真的行人圖像。由于Market1501等行人數(shù)據(jù)集中只有低分辨率的行人圖像,沒有高分辨率的行人圖像,因此在實(shí)驗(yàn)過(guò)程中,我們的高分辨率圖像和低分辨率圖像是同一張低分辨率的行人圖像。經(jīng)過(guò)兩個(gè)生成器后,我們可以看到生成的行人圖像雖然分辨率不高,但是生成的行人圖像的細(xì)節(jié)性更好。在參數(shù)設(shè)置中,我們將特征匹配損失函數(shù)的權(quán)重λ 設(shè)置為10。batchsize 設(shè)置為32。實(shí)驗(yàn)表明epoch 為104時(shí),在測(cè)試階段,pix2pixHD 生成的行人圖像逼真,視覺效果最佳。圖2為pix2pixHD 訓(xùn)練階段的實(shí)驗(yàn)結(jié)果,圖3為測(cè)試階段的實(shí)驗(yàn)結(jié)果。
圖2 pix2pixHD訓(xùn)練階段的實(shí)驗(yàn)結(jié)果
圖3 pix2pixHD測(cè)試階段的實(shí)驗(yàn)結(jié)果
本文使用了pix2pixHD 網(wǎng)絡(luò)實(shí)現(xiàn)了行人姿態(tài)mask 到行人圖像的翻譯。通過(guò)該網(wǎng)絡(luò)我們可以生成具有目標(biāo)姿態(tài)mask 的不同屬性性質(zhì)的行人圖像。該網(wǎng)絡(luò)實(shí)現(xiàn)了多尺度生成器-判別器結(jié)構(gòu),通過(guò)用了一種最新的生成損失adversarial loss 和特征匹配損失函數(shù)以用于提高行人細(xì)節(jié)的生成,從而使生成的行人視覺效果更加逼真。