盧世杰,郝文寧,余曉晗,于 坤
(中國(guó)人民解放軍陸軍工程大學(xué) 指揮控制工程學(xué)院,南京 210007)
圖像補(bǔ)全是一項(xiàng)極為重要的底層視覺(jué)任務(wù),其目的是根據(jù)圖像中已有信息還原圖像中的缺失部分,在生活中的各個(gè)領(lǐng)域都具有廣泛的應(yīng)用價(jià)值.然而,圖像補(bǔ)全具有不確定性,一張待修復(fù)的圖像往往會(huì)有多種修復(fù)結(jié)果,通常需要添加圖像先驗(yàn)知識(shí)來(lái)約束求解范圍.因此,設(shè)計(jì)好的先驗(yàn)知識(shí)是完成圖像補(bǔ)全任務(wù)的關(guān)鍵.圖像先驗(yàn)描述了自然圖像的統(tǒng)計(jì)信息,它在計(jì)算機(jī)視覺(jué)任務(wù)中得到了廣泛的應(yīng)用.傳統(tǒng)的圖像先驗(yàn)包括馬爾可夫隨機(jī)場(chǎng)[1-3]、暗通道先驗(yàn)[4,5]和總變差正則化等.隨著深度學(xué)習(xí)的發(fā)展,文獻(xiàn)[6]提出將卷積神經(jīng)網(wǎng)絡(luò)作為一種先驗(yàn)信息,但受限于模型結(jié)構(gòu)和參數(shù)隨機(jī)初始化等問(wèn)題,卷積神經(jīng)網(wǎng)絡(luò)無(wú)法擬合顏色、紋理等更高級(jí)的信息.近年來(lái),有研究人員發(fā)現(xiàn)預(yù)訓(xùn)練GAN模型中包含了豐富的圖像先驗(yàn)知識(shí),文獻(xiàn)[7]提出了mGANprior,通過(guò)使用多個(gè)隱變量,并在生成器中間層加入通道注意力,實(shí)現(xiàn)了較高質(zhì)量的圖像重建,還將預(yù)訓(xùn)練模型應(yīng)用于圖像去噪、超分辨率等圖像復(fù)原任務(wù),但由于生成器參數(shù)在訓(xùn)練過(guò)程中沒(méi)有被更新,且在特征融合時(shí)每個(gè)隱變量對(duì)應(yīng)的特征圖被賦予了相同的權(quán)重,導(dǎo)致重建后的圖像丟失了大量的細(xì)節(jié)紋理信息,并且該模型在圖像補(bǔ)全任務(wù)中的表現(xiàn)并不理想.
隨著注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域被越來(lái)越多的探索,有研究提出了卷積塊注意力模型(CBAM)[8],該模型同時(shí)在通道和空間上添加注意力機(jī)制,即圖片的特征體現(xiàn)在每個(gè)通道的每個(gè)像素上.CBAM 可以嵌入到目前大部分主流網(wǎng)絡(luò)中,在不顯著增加計(jì)算量和參數(shù)量的同時(shí)提升網(wǎng)絡(luò)模型的特征提取能力.受此啟發(fā),本文綜合利用預(yù)訓(xùn)練GAN 模型的先驗(yàn)知識(shí)以及注意力機(jī)制在提升模型性能方面的優(yōu)勢(shì),從而高質(zhì)量地完成圖像補(bǔ)全任務(wù).
綜上,本文的主要工作包括以下幾個(gè)方面:
(1)本文在使用多個(gè)隱變量的基礎(chǔ)上,在預(yù)訓(xùn)練生成器中間層同時(shí)對(duì)通道和特征圖添加自適應(yīng)權(quán)重,并在訓(xùn)練過(guò)程中微調(diào)生成器參數(shù).
(2)使用本文模型進(jìn)行圖像重建實(shí)驗(yàn),并與其他圖像重建方法進(jìn)行比較,證實(shí)了本文模型可以更好地恢復(fù)圖像的細(xì)節(jié)紋理信息.
(3)將本文模型應(yīng)用于圖像補(bǔ)全任務(wù),并與其他圖像補(bǔ)全方法進(jìn)行比較,證實(shí)了本文方法可以有效地利用預(yù)訓(xùn)練GAN 模型中的先驗(yàn)知識(shí),進(jìn)而更好地完成圖像補(bǔ)全任務(wù).
生成對(duì)抗網(wǎng)絡(luò)(GAN)包含兩個(gè)相互作用的神經(jīng)網(wǎng)絡(luò): 生成器和鑒別器.生成器的目標(biāo)是合成類似真實(shí)數(shù)據(jù)的偽數(shù)據(jù),鑒別器的目標(biāo)是區(qū)分真實(shí)數(shù)據(jù)和偽數(shù)據(jù),通過(guò)對(duì)抗訓(xùn)練使生成器學(xué)習(xí)從潛在分布到真實(shí)數(shù)據(jù)分布的映射,在學(xué)習(xí)了這種非線性映射之后,GAN就能夠從隱空間隨機(jī)采樣的向量中生成逼真的圖像.因其在產(chǎn)生高質(zhì)量圖片方面具備優(yōu)勢(shì),GAN 被應(yīng)用于多個(gè)圖像處理任務(wù),如圖像去噪[9,10],圖像補(bǔ)全[11,12],超分辨率[13,14],人臉編輯[15,16]等.
GAN 本質(zhì)是將采樣的噪聲向量輸入生成器轉(zhuǎn)變?yōu)閳D片,并不是直接對(duì)真實(shí)圖像進(jìn)行處理.若想將預(yù)訓(xùn)練GAN 模型應(yīng)用于真實(shí)圖像的處理,首先需要將圖片映射為隱變量,而后再將隱變量傳入預(yù)訓(xùn)練生成器,從而實(shí)現(xiàn)圖像重建,該過(guò)程稱為GAN 反演.形式上,反演問(wèn)題描述如式(1):
其中,x是 目標(biāo)圖像,G為GAN 生成器,L表示損失函數(shù).目前有兩種主流方法來(lái)實(shí)現(xiàn)GAN 反演,一種是訓(xùn)練額外的編碼器來(lái)學(xué)習(xí)從圖像空間到隱空間的映射[17,18],另一種是基于優(yōu)化的方法[19],即先將隨機(jī)初始化的隱變量送入生成器,再通過(guò)反向傳播算法最小化重構(gòu)誤差,進(jìn)而優(yōu)化隱變量.
圖像補(bǔ)全屬于圖像復(fù)原任務(wù)的一種,圖像復(fù)原任務(wù)的目的是將降質(zhì)圖像(降低分辨率,加入遮擋等)恢復(fù)為原始圖像,優(yōu)化公式通常如式(2)所示:
其中,x是降質(zhì)后的圖像,x0是網(wǎng)絡(luò)模型生成的圖像,E(x;x0)是針對(duì)具體任務(wù)的優(yōu)化函數(shù),R(x)是正則化項(xiàng),通常表示圖像先驗(yàn)信息.在早期的基于深度學(xué)習(xí)的圖像復(fù)原方法中,通常是通過(guò)大量的數(shù)據(jù)樣例的訓(xùn)練學(xué)習(xí)到R(x).
文獻(xiàn)[6]認(rèn)為隨機(jī)初始化的卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以捕獲低層級(jí)的圖像先驗(yàn)信息,如式(3)、式(4)所示,f是任意的CNN 模型,θ是該模型的權(quán)重參數(shù),z是隨機(jī)初始化的噪聲向量,通過(guò)優(yōu)化CNN 模型的參數(shù)來(lái)獲取圖像先驗(yàn),一旦得到了最優(yōu)的參數(shù),把向量z輸入模型即可得到最優(yōu)的圖像x,即使只在單張降質(zhì)圖像上進(jìn)行反復(fù)迭代,也同樣能學(xué)習(xí)到圖像的先驗(yàn)信息,進(jìn)而完成圖像復(fù)原.
CNN 模型結(jié)構(gòu)雖然可以獲取到圖像的底層統(tǒng)計(jì)特性,但由于其模型參數(shù)由隨機(jī)初始化得到,因此無(wú)法擬合到圖像更高級(jí)的信息,如顏色,紋理等.生成對(duì)抗網(wǎng)絡(luò)(GAN)作為一種很好的自然圖像流形逼近器,具有擬合自然圖像分布的能力,通過(guò)從大型圖像數(shù)據(jù)集學(xué)習(xí),其生成器部分可以捕捉到豐富的高層圖像語(yǔ)義信息,包括顏色、空間相干性、紋理等高級(jí)概念.SinGAN[20]利用目標(biāo)圖像的圖像補(bǔ)丁(patch)來(lái)學(xué)習(xí)圖像內(nèi)部統(tǒng)計(jì)信息,來(lái)實(shí)現(xiàn)各種圖像編輯或恢復(fù)效果.文獻(xiàn)[21]表明預(yù)訓(xùn)練的GAN 模型捕獲了豐富自然圖像的統(tǒng)計(jì)數(shù)據(jù)作為先驗(yàn)知識(shí).文獻(xiàn)[7]利用多個(gè)隱變量實(shí)現(xiàn)GAN 反演,并利用GAN 捕獲的先驗(yàn)知識(shí)完成多種圖像處理任務(wù).
本文使用預(yù)訓(xùn)練PGGAN 的生成器作為基礎(chǔ)模型架構(gòu),PGGAN (progressive GAN)[22]采用一種漸進(jìn)式的訓(xùn)練策略,在訓(xùn)練過(guò)程中逐漸向生成器和判別器網(wǎng)絡(luò)中添加新的層,以此對(duì)越來(lái)越細(xì)粒度的細(xì)節(jié)進(jìn)行建模,提高了訓(xùn)練速度和穩(wěn)定性.文獻(xiàn)[7]提出利用多個(gè)隱變量重建圖像,每個(gè)隱變量負(fù)責(zé)重建圖像的一塊區(qū)域,并在生成器中間層加入通道注意力.文獻(xiàn)[8]提出了一種輕量級(jí)的注意力模塊,將注意力同時(shí)用到了通道和空間兩個(gè)維度上,在ResNet 等經(jīng)典結(jié)構(gòu)上展現(xiàn)了強(qiáng)大的特征提取能力.
本文在使用多個(gè)隱變量的基礎(chǔ)上,提出了在預(yù)訓(xùn)練PGGAN 模型中同時(shí)對(duì)通道和特征圖添加自適應(yīng)權(quán)重的方法,模型結(jié)構(gòu)如圖1 所示,將預(yù)訓(xùn)練生成器G在第k層切分為兩部分,即G1和G2,Tn表示N個(gè)隱變量經(jīng)過(guò)生成器G1后形成的N個(gè)特征圖.αn是一個(gè)M維向量,表示特征圖中對(duì)應(yīng)通道的重要性,M表示生成器第k層輸出通道的個(gè)數(shù),β是一個(gè)N維向量,表示N個(gè)中間層特征圖在合成圖像過(guò)程中的重要性權(quán)重,通過(guò)給中間層特征圖賦予自適應(yīng)權(quán)重,可以充分發(fā)揮不同隱變量的作用.圖像重建過(guò)程分為以下兩個(gè)階段,式(5)表示N個(gè)隱變量經(jīng)過(guò)第1 個(gè)生成器生成N個(gè)中間特征圖,式(6)表示經(jīng)過(guò)特征加權(quán)融合后傳入第2 個(gè)生成器生成最終的圖片.
圖1 圖像重建模型
利用預(yù)訓(xùn)練GAN 生成器重建一張目標(biāo)圖片,此前基于優(yōu)化的反演方法是固定預(yù)訓(xùn)練生成器,僅優(yōu)化隱變量.然而,這種優(yōu)化方式難以完成復(fù)雜紋理圖片的重建.此外,目標(biāo)圖片與訓(xùn)練集圖片的分布可能存在較大的差異,GAN 生成器不可避免地受到訓(xùn)練數(shù)據(jù)分布的限制,從而難以重建訓(xùn)練集以外的圖片.為了更精確的重建目標(biāo)圖像,本文在優(yōu)化自適應(yīng)權(quán)重 α ,β及隱變量z的同時(shí),微調(diào)生成器參數(shù)θ,以減小圖像近似流型和真實(shí)流型之間的差距,通過(guò)這種過(guò)參數(shù)化的方式提高了圖像重建質(zhì)量,待優(yōu)化參數(shù)及優(yōu)化過(guò)程如式(7):
本文使用MSE 和感知損失作為距離度量,二者分別表示像素級(jí)重建誤差以及把兩幅圖像分別輸入到VGG 等深度網(wǎng)絡(luò)中提取的感知特征[23]之間的距離,如式(8)所示,其中,φ表示感知特征提取器,本文使用VGG16 作為特征提取器.
本文先使用LSUN 數(shù)據(jù)集上預(yù)訓(xùn)練的PGGAN 模型進(jìn)行圖像重建實(shí)驗(yàn),在此基礎(chǔ)上利用預(yù)訓(xùn)練GAN 模型中的先驗(yàn)知識(shí)完成圖像補(bǔ)全任務(wù).
為了定量評(píng)估圖像的重建質(zhì)量,本文使用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)兩種圖像評(píng)價(jià)指標(biāo).PSNR是目前應(yīng)用最為廣泛的一種圖像評(píng)價(jià)指標(biāo),它通過(guò)均方差(MSE)進(jìn)行定義.兩個(gè)m×n單色圖像I和K,如果一個(gè)為另外一個(gè)的噪聲近似,那么它們的均方差定義如式(9)所示,峰值信噪比的定義如式(10)所示,MAXI表示圖像中可能出現(xiàn)的最大像素值,它通過(guò)計(jì)算對(duì)應(yīng)像素點(diǎn)間的誤差來(lái)衡量目標(biāo)圖片與重建圖片之間的相似度,數(shù)值越大表示失真越小,SSIM是一種全參考的圖像質(zhì)量評(píng)價(jià)指標(biāo),它分別從亮度、對(duì)比度、結(jié)構(gòu)3 方面度量圖像相似性,如式(10)所示,μx,μy分別表示圖像x和y的均值,σx,σy分別表示圖像x和y的方差,σxy表示圖像x和y的協(xié)方差.SSIM的取值范圍為[0,1],值越大表示補(bǔ)全的圖像與原圖越相似.
本文分別使用LSUN 臥室、LSUN 教堂數(shù)據(jù)集上預(yù)訓(xùn)練的PGGAN 模型上進(jìn)行實(shí)驗(yàn),對(duì)于每個(gè)模型,隨機(jī)選取對(duì)應(yīng)數(shù)據(jù)集中100 張圖像進(jìn)行重建,最終結(jié)果取平均.將本文方法與兩種基于GAN 反演的圖像重建方法進(jìn)行比較,mGANprior 模型僅在通道層面添加自適應(yīng)權(quán)重,且在優(yōu)化過(guò)程中固定生成器參數(shù).idinvert采用基于學(xué)習(xí)的反演方法,使用編碼器初始化隱變量.表1顯示了定量比較結(jié)果,本文在LSUN 臥室、LSUN 教堂數(shù)據(jù)集上預(yù)訓(xùn)練的兩個(gè)PGGAN 模型上,無(wú)論是像素級(jí)(PSNR)還是全參考的評(píng)價(jià)指標(biāo)(SSIM),都優(yōu)于其他兩種方法.圖2 顯示了定性比較結(jié)果,可看出傳統(tǒng)多隱變量先驗(yàn)方法mGANprior 無(wú)法恢復(fù)目標(biāo)圖像的細(xì)節(jié)紋理信息,這是因?yàn)樯善鲄?shù)在訓(xùn)練過(guò)程中沒(méi)有被更新,且在特征融合時(shí)每個(gè)隱變量對(duì)應(yīng)的特征圖被賦予了相同的權(quán)重,而事實(shí)上每個(gè)隱變量在圖像重建中的貢獻(xiàn)程度應(yīng)是不同的.訓(xùn)練域?qū)蚓幋a器的方法idinvert 將圖像編碼為隱變量,再送入生成器實(shí)現(xiàn)圖像重建,該方法重建的圖像雖然在人眼感知層面有著較好的效果,但在布局和結(jié)構(gòu)上與目標(biāo)圖像差別較大.相比之下,使用本文方法重建的圖像,在保持原圖像布局和結(jié)構(gòu)的同時(shí),增添了更多的細(xì)節(jié)信息,如臥室圖片中的抽屜,枕頭,教堂圖片中建筑物的紋理以及路面的標(biāo)線等.
圖2 不同圖像重建方法的定性比較
表1 不同圖像重建方法的定量比較
高質(zhì)量的圖像重建可以使得預(yù)訓(xùn)練GAN 模型作為一種先驗(yàn)知識(shí)應(yīng)用于圖像處理任務(wù),本文利用預(yù)訓(xùn)練GAN 模型的先驗(yàn)知識(shí)完成圖像補(bǔ)全任務(wù).圖像補(bǔ)全的目標(biāo)函數(shù)如式(12)所示,已知完整圖像x,模型生成的圖像xgt與二值掩模m,?表示兩個(gè)矩陣對(duì)應(yīng)元素相乘,在重建過(guò)程中只重建未加入遮擋的部分:
預(yù)訓(xùn)練GAN 模型可以利用自身的先驗(yàn)知識(shí)自動(dòng)填充缺失部分的像素.圖3 展現(xiàn)了更為直觀的補(bǔ)全過(guò)程,模型采用與圖像重建實(shí)驗(yàn)相同的的網(wǎng)絡(luò)結(jié)構(gòu),不同之處在于計(jì)算損失的方式,首先給目標(biāo)圖像添加隨機(jī)遮擋,再給生成器生成的圖片添加相同的遮擋,隨后計(jì)算二者之間的誤差,最后通過(guò)梯度下降算法更新待優(yōu)化參數(shù),經(jīng)過(guò)一定次數(shù)的迭代,生成器便可生成完整無(wú)缺失的圖像.
圖3 圖像補(bǔ)全模型
本文使用30 個(gè)隱變量,并在生成器第8 層進(jìn)行特征加權(quán)融合,將本文方法與兩種圖像補(bǔ)全的方法作比較,隨機(jī)選取LSUN 臥室和LSUN 教堂數(shù)據(jù)集中各100 張圖像進(jìn)行圖像補(bǔ)全實(shí)驗(yàn),表2 顯示了定量比較結(jié)果,可看出本文方法優(yōu)于其他兩種方法.圖4 顯示了定性比較結(jié)果,多隱變量先驗(yàn)方法mGANprior 在生成器第4 層進(jìn)行特征融合,雖然可以填補(bǔ)缺失部分的像素,卻使得整張圖像變得模糊,將CNN 結(jié)構(gòu)作為先驗(yàn)知識(shí)DIP 的補(bǔ)全效果也并不理想,補(bǔ)全后的區(qū)域與背景的語(yǔ)義信息不一致.相比之下,本文方法更有效的利用了預(yù)訓(xùn)練GAN 模型的先驗(yàn)知識(shí),實(shí)現(xiàn)了較高質(zhì)量的圖像補(bǔ)全.
表2 不同圖像補(bǔ)全方法的定量比較
圖4 不同圖像補(bǔ)全方法的定性比較
本文方法在圖像補(bǔ)全任務(wù)中展現(xiàn)出一定的優(yōu)越性,主要得益于3 個(gè)部分: 預(yù)訓(xùn)練的GAN 模型,針對(duì)目標(biāo)圖像的生成器微調(diào),對(duì)中間層特征圖添加自適應(yīng)權(quán)重.為了體現(xiàn)不同部分的作用,本文進(jìn)行了消融實(shí)驗(yàn).首先將隨機(jī)初始化權(quán)重和使用預(yù)訓(xùn)練權(quán)重兩種方式進(jìn)行對(duì)比,以此證明預(yù)訓(xùn)練模型中的先驗(yàn)知識(shí)對(duì)圖像補(bǔ)全效果的影響.結(jié)果如圖5 所示,實(shí)驗(yàn)結(jié)果表明,權(quán)重隨機(jī)初始化的GAN 模型難以捕捉豐富的圖像語(yǔ)義知識(shí),只能重建出目標(biāo)圖像的輪廓和結(jié)構(gòu),而加入預(yù)訓(xùn)練權(quán)重后的生成器則可以作為一種先驗(yàn)知識(shí)引導(dǎo)圖像重建,生成的圖像包含豐富的細(xì)節(jié)紋理信息.
圖5 權(quán)重不同初始化方式效果對(duì)比
為了探究模型微調(diào)對(duì)圖像補(bǔ)全效果的影響,本文對(duì)生成器微調(diào)和不微調(diào)兩種方式進(jìn)行了對(duì)比實(shí)驗(yàn),如圖6 所示,當(dāng)利用臥室數(shù)據(jù)集上預(yù)訓(xùn)練的GAN 模型完成房屋圖片的補(bǔ)全時(shí),如果不微調(diào)生成器參數(shù),生成的圖片會(huì)存在偽影,原因在于待補(bǔ)全圖片與訓(xùn)練集圖片的分布存在較大的差異,而本文在優(yōu)化隱變量和自適應(yīng)權(quán)重的同時(shí),微調(diào)了生成器參數(shù),在一定程度上減小了生成器模擬分布和真實(shí)圖像分布之間的差距,增強(qiáng)了圖像的真實(shí)感.
圖6 不同優(yōu)化策略的效果對(duì)比
本文同時(shí)給通道和特征圖賦予自適應(yīng)權(quán)重,為了體現(xiàn)給特征圖賦權(quán)重的作用,本文進(jìn)行了對(duì)比實(shí)驗(yàn),如圖7 所示,實(shí)驗(yàn)結(jié)果表明,僅給通道加權(quán)的模型在細(xì)節(jié)補(bǔ)全方面效果不太理想,如圖中的窗子出現(xiàn)了模糊和截?cái)?這是因?yàn)樵谔卣魅诤蠒r(shí),每個(gè)隱變量生成的中間層特征圖被賦予了相同的權(quán)重,本文給特征圖加入自適應(yīng)權(quán)重后,效果有一定的提升,原因在于每個(gè)隱變量在圖像補(bǔ)全任務(wù)中的貢獻(xiàn)程度是不同的,通過(guò)給中間層特征圖添加自適應(yīng)權(quán)重,可以充分發(fā)揮每個(gè)隱變量的作用,更好地利用已知區(qū)域的信息填補(bǔ)未知區(qū)域.
圖7 不同加權(quán)方式的效果對(duì)比
為了有效地利用預(yù)訓(xùn)練GAN 模型中的先驗(yàn)知識(shí)完成圖像補(bǔ)全任務(wù),本文在使用多個(gè)隱變量的基礎(chǔ)上,在生成器中間層同時(shí)對(duì)通道和特征圖添加自適應(yīng)權(quán)重,并在訓(xùn)練過(guò)程中微調(diào)生成器參數(shù).實(shí)驗(yàn)結(jié)果表明,本文方法可以更高質(zhì)量地完成圖像補(bǔ)全任務(wù),優(yōu)于其他深度模型先驗(yàn)方法.但現(xiàn)有工作仍存在一些不足,有待進(jìn)一步研究.
(1)利用預(yù)訓(xùn)練GAN 模型的先驗(yàn)知識(shí)完成圖像補(bǔ)全任務(wù),雖然不需要額外的訓(xùn)練數(shù)據(jù),但是需要每張圖片在線自適應(yīng),訓(xùn)練模型的時(shí)間轉(zhuǎn)移到了優(yōu)化參數(shù)上面,這就導(dǎo)致優(yōu)化過(guò)程過(guò)于復(fù)雜緩慢,如何縮短優(yōu)化時(shí)間仍是一個(gè)待解決的問(wèn)題.
(2)本文方法只能針對(duì)降質(zhì)類型確定的圖像,對(duì)于降質(zhì)類型未知的圖像,利用模型先驗(yàn)知識(shí)完成圖像復(fù)原較為困難,仍值得進(jìn)一步探索.