劉航 普?qǐng)@媛 王成超 趙征鵬 朱朋杰 徐丹
摘 要:盡管基于深度學(xué)習(xí)的圖像著色方法已取得顯著效果,但仍存在冗余色斑、著色暗淡和顏色偏差三個(gè)問(wèn)題。為此,提出了一種結(jié)合細(xì)粒度自注意力(fine-grain self-attention,F(xiàn)GSA)的實(shí)例圖像著色方法。具體地,首先將提取的特征圖分為顏色和空間位置,并結(jié)合兩者擬合提高顏色和圖像空間位置的對(duì)應(yīng)關(guān)系,以緩解冗余色斑;其次,受光學(xué)攝影HDR原理的啟發(fā),利用感受野小的卷積核增強(qiáng)或抑制圖像的顏色特征,并結(jié)合softmax對(duì)特征進(jìn)行動(dòng)態(tài)映射,從而提高對(duì)比度,緩解著色暗淡的問(wèn)題;最后,組合不同的非線性基函數(shù),增加網(wǎng)絡(luò)對(duì)非線性顏色的表達(dá),擬合出最接近真實(shí)圖像的顏色分布,以解決顏色偏差。大量的實(shí)驗(yàn)結(jié)果表明,該方法在實(shí)例圖像著色中取得了良好的效果。特別地,與當(dāng)前較優(yōu)的著色方法相比,該方法在特征感知評(píng)價(jià)指標(biāo)LPIPS和FID上分別降低了4.1%和7.9%。
關(guān)鍵詞:圖像著色; 細(xì)粒度注意力機(jī)制; 冗余色斑; 著色暗淡; 顏色偏差
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A?文章編號(hào):1001-3695(2024)05-041-1569-09
doi:10.19734/j.issn.1001-3695.2023.08.0393
Instance image coloring combined with fine-grained self attention
Abstract:Although deep learning-based image coloring methods have achieved significant results, but there are still suffer from three problems: redundant stain, color dimming, and color deviation. To this end, this paper proposed an instance image coloring method combined with fine-grained attention(fine-grain self-attention,F(xiàn)GSA). Specifically, it firstly divided the extracted feature maps into color and spatial location, and combined the two parts of the fittingto improve the correspondence between the color and the spatial location of the image to mitigate the redundant color patches. Secondly, inspired by the principle of HDR for optical photography, it utilized convolutional kernels with small sensory fields to enhance or suppress the color features of the image, and combined them with softmax to dynamically map the features, thus improving contrast and alleviating the darkness of the coloring. Finally, combining different nonlinear basis functions increased the networks representation of nonlinear colors and fitted a color distribution that was closest to the real image to address color bias. Extensive experimental results show that the proposed method achieves satisfactory results in instance image coloring. In particular, compared with the state-of-the-art methods, the proposed method improves 4.1% and 7.9% in feature perception evaluation indexes LPIPS and FID, respectively.
Key words:image coloring; fine-grain self-attention; color stain; color dimming; color deviation
0 引言
圖像著色指為輸入單色圖像中的每個(gè)像素分配顏色和感知顏色的過(guò)程。圖像著色不僅可以賦予黑白照片或影視作品新的意義,也可以作為一種技術(shù)手段輔助平面設(shè)計(jì)師完成作品著色。現(xiàn)有的圖像著色方法主要分為交互式著色和非交互式著色兩類(lèi)。交互式著色主要基于用戶(hù)指導(dǎo),將用戶(hù)選擇的顏色傳播到圖像其他像素,或選擇一張語(yǔ)義相似的彩色圖像,根據(jù)相鄰像素具有相似顏色的原理,將彩色圖像與單色圖像語(yǔ)義對(duì)應(yīng),完成顏色遷移,從而實(shí)現(xiàn)著色。然而,交互式著色存在效率低、過(guò)度依賴(lài)參考圖像、著色質(zhì)量差且不適于批量著色等問(wèn)題。為解決此問(wèn)題,大量基于非交互式的著色方法被提出。非交互式著色使用大量的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)真實(shí)圖像的顏色分布,直接映射出灰度圖像缺失的彩色像素,從而完成著色。例如,Zhang等人[1]將圖像著色建模為一個(gè)自監(jiān)督學(xué)習(xí)任務(wù),提出了一種新型著色網(wǎng)絡(luò)框架,且使用加權(quán)平滑像素?fù)p失方式學(xué)習(xí)正確的圖像顏色。DeepAPI[2]將訓(xùn)練好的著色網(wǎng)絡(luò)封裝為API供測(cè)試。Zhang等人[3]提出一種結(jié)合先驗(yàn)知識(shí)和全局提示的非交互式著色方法,通過(guò)局部先驗(yàn)知識(shí)使著色網(wǎng)絡(luò)能任意選擇目標(biāo)顏色,全局信息保證著色網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性。Su等人[4]提出了一種非交互著色方法,將著色分解為全局和局部著色,再將局部著色結(jié)果融合到全局圖像中。然而,當(dāng)前的非交互式著色方法有三個(gè)主要缺陷:a)冗余色斑,非交互式著色在顏色預(yù)測(cè)階段未能正確學(xué)習(xí)到圖像的顏色和位置信息,導(dǎo)致顏色和目標(biāo)對(duì)應(yīng)錯(cuò)誤,如圖1(a)中第三行矩形框所示;b)著色暗淡,基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)非交互式著色,隨著網(wǎng)絡(luò)的加深,卷積層提取特征的不充分造成中間層的顏色、細(xì)節(jié)等信息丟失,如圖1(b)中第三行矩形框所示;c)顏色偏差,非交互式著色網(wǎng)絡(luò)中的擬合函數(shù)單一,不能準(zhǔn)確從顏色分布中擬合出最接近真實(shí)圖像顏色分布的函數(shù),從而出現(xiàn)色差,如圖1(c)中第三行矩形框所示。
針對(duì)上述問(wèn)題,本文提出一種結(jié)合細(xì)粒度自注意力(fine-grain self-attention,F(xiàn)GSA)的著色網(wǎng)絡(luò)。本工作主要有以下三個(gè)方面的貢獻(xiàn):
a)一種新穎的著色網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)合細(xì)粒度注意力的實(shí)例圖像著色,包括全局顏色預(yù)測(cè)網(wǎng)絡(luò)、實(shí)例顏色預(yù)測(cè)網(wǎng)絡(luò)、細(xì)粒度注意力機(jī)制、實(shí)例分割網(wǎng)絡(luò)和融合網(wǎng)絡(luò)五個(gè)部分實(shí)現(xiàn)非交互著色。
b)細(xì)粒度注意力(FGSA)。本文設(shè)計(jì)了一個(gè)新的注意力機(jī)制,該注意力機(jī)制將圖像特征分為顏色通道和空間位置兩部分,兩者的結(jié)合使網(wǎng)絡(luò)著重學(xué)習(xí)圖像顏色與位置間的非線性關(guān)系,縮小冗余色斑的范圍。此外,F(xiàn)GSA擴(kuò)大顏色的動(dòng)態(tài)映射范圍,增強(qiáng)圖像顏色特征,緩解結(jié)果中的著色暗淡。
c)一個(gè)新的融合模塊。該模塊通過(guò)卷積層分別預(yù)測(cè)全局特征和實(shí)例特征的權(quán)重圖后進(jìn)行融合,減少顏色偏差。
1 相關(guān)工作
1.1 非交互式著色
非交互式著色通過(guò)學(xué)習(xí)網(wǎng)絡(luò)映射,模擬真實(shí)圖像的分布,從而完成著色。近年來(lái),深度學(xué)習(xí)成功應(yīng)用于計(jì)算機(jī)視覺(jué)諸多領(lǐng)域,如風(fēng)格遷移[5,6]、字體風(fēng)格遷移[7]等。一些研究者為了更好地捕獲顏色分布,提出了許多基于深度學(xué)習(xí)的圖像著色方法。例如,Cheng等人[8]提出一種基于深度神經(jīng)網(wǎng)絡(luò)的全自動(dòng)著色方法,從不同圖像中提取特征,再利用聯(lián)合雙邊濾波進(jìn)一步細(xì)化輸出的色度值,從而確保無(wú)偽影的圖像著色。Larsson等人[9]提出一種全自動(dòng)端到端的CNN著色系統(tǒng),預(yù)測(cè)每個(gè)像素的顏色直方圖,從而使著色效果更加生動(dòng)。此外,該系統(tǒng)使用語(yǔ)義特征描述符從不同卷積層中提取特征圖級(jí)聯(lián)之后作為分類(lèi)層的輸入,使網(wǎng)絡(luò)更加有效地學(xué)習(xí)不同尺度的特征,從而提升圖像著色細(xì)節(jié)。Zhang等人[1]提出一種自動(dòng)著色的網(wǎng)絡(luò),作者基于每個(gè)像素的顏色分布,使用多項(xiàng)式交叉熵?fù)p失進(jìn)行訓(xùn)練和平衡稀有類(lèi),進(jìn)而增加圖像顏色的多樣性,但著色結(jié)果中存在冗余色斑等問(wèn)題。Zhao等人[10]使用像素化語(yǔ)義嵌入和像素化語(yǔ)義生成器,使網(wǎng)絡(luò)正確將語(yǔ)義和顏色對(duì)應(yīng),從而減少冗余色斑。Treneska等人[11]首次利用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN),通過(guò)圖像著色,實(shí)現(xiàn)自監(jiān)督視覺(jué)特征學(xué)習(xí)。Wu等人[12]將參考圖像上色的優(yōu)勢(shì)融入到自動(dòng)上色模型中,利用封裝在預(yù)訓(xùn)練BigGAN生成網(wǎng)絡(luò)中豐富多彩的顏色先驗(yàn)來(lái)指導(dǎo)圖像上色,緩解自動(dòng)上色中存在的顏色暗淡問(wèn)題。此外,也有一些研究人員嘗試使用新方法來(lái)實(shí)現(xiàn)自動(dòng)圖像上色。如Wang等人[13]提出了一種新的基于GAN的著色方法PalGAN,它結(jié)合了調(diào)色板估計(jì)和顏色注意。首先從輸入的灰度圖像中估計(jì)一個(gè)概率調(diào)色板,然后通過(guò)生成模型,在調(diào)色板的條件下進(jìn)行顏色分配,并通過(guò)顏色注意來(lái)處理顏色溢出問(wèn)題。Ozbulak[14]修改原始膠囊網(wǎng)絡(luò)的架構(gòu),將膠囊網(wǎng)絡(luò)成功應(yīng)用到圖像上色的任務(wù)中。近年來(lái), Transformer在計(jì)算機(jī)視覺(jué)任務(wù)中取得了巨大成功,許多基于Transformer的圖像著色方法被提出。Kumar等人[15]首次將Transformer應(yīng)用到上色任務(wù)中,實(shí)現(xiàn)了高保真質(zhì)量的圖像上色。ColorFormer[16]提出了一種基于顏色記憶輔助混合注意Transformer的圖像自動(dòng)著色方法。 最近,Unicolor[17]基于Transformer提出了一種統(tǒng)一的著色框架。在其理論中,通過(guò)一個(gè)兩階段的著色框架,將各種條件合并到一個(gè)模型中。一階段將多模態(tài)條件轉(zhuǎn)換為提示點(diǎn)的公共表示,階段基于Transformer生成多樣化和高質(zhì)量的著色結(jié)果。然而,上述非交互式著色方法有兩個(gè)問(wèn)題:a)忽略了著色的細(xì)粒度,導(dǎo)致著色位置不精確;b)隨著網(wǎng)絡(luò)的加深,中間層的有用信息可能會(huì)丟失。
1.2 注意力機(jī)制
近年來(lái),注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大的成功。郭璠等人[18]引入通道注意力機(jī)制和語(yǔ)義分割引導(dǎo)的空間注意力改善網(wǎng)絡(luò)對(duì)目標(biāo)的關(guān)注程度,使網(wǎng)絡(luò)聚焦和增強(qiáng)有效特征,提高了對(duì)小目標(biāo)和遮擋變形目標(biāo)的檢測(cè)性能。Zhao等人[19]提出配對(duì)自注意力和補(bǔ)丁自注意力,配對(duì)自注意力對(duì)局部近鄰特征采用核參數(shù)加權(quán)得到輸出特征,而補(bǔ)丁自注意力的性能比CNN更佳,能夠精準(zhǔn)地輸出非線性映射,兩個(gè)自注意力的結(jié)合很好地實(shí)現(xiàn)了特征聚合和特征變換,從而準(zhǔn)確地識(shí)別圖像。Zhang等人[20]在GAN[21]中結(jié)合原始自注意力機(jī)制,解決了卷積層中感受野所帶來(lái)的限制,讓網(wǎng)絡(luò)在生成圖片的過(guò)程中能夠自己學(xué)習(xí)應(yīng)該關(guān)注的不同區(qū)域,使得網(wǎng)絡(luò)不僅能夠區(qū)分前景和背景,甚至對(duì)一些物體的不同結(jié)構(gòu)也能準(zhǔn)確地進(jìn)行劃分,生成圖片的時(shí)候也會(huì)更合理。Su等人[22]在視覺(jué)和語(yǔ)言模型中引入Transformer注意力模塊,通過(guò)堆疊多層多模態(tài)Transformer,輸出具有豐富視覺(jué)-語(yǔ)言融合與對(duì)齊的特征,從而提高了視覺(jué)和語(yǔ)言?xún)?nèi)容之間細(xì)節(jié)的一致性。
上述方法的主要目的是通過(guò)注意力機(jī)制引導(dǎo)網(wǎng)絡(luò)關(guān)注更加感興趣的區(qū)域。然而,忽略了注意力機(jī)制在顏色通道和空間位置對(duì)圖像著色結(jié)果的影響。本文重點(diǎn)關(guān)注特征圖顏色通道和目標(biāo)位置之間的非線性關(guān)系,提高網(wǎng)絡(luò)對(duì)著色圖像顏色和位置的對(duì)齊能力。
2 本文方法
2.1 問(wèn)題分析
給定一個(gè)灰度圖像,本文模型的目標(biāo)是估計(jì)灰度圖像的RGB顏色,從而實(shí)現(xiàn)著色。從圖1的著色結(jié)果中可以看到,非交互著色方法結(jié)果中主要面臨著冗余色斑、著色暗淡和顏色偏差問(wèn)題。本文試圖去分析產(chǎn)生這些問(wèn)題的原因:a)在顏色預(yù)測(cè)階段,模型不能正確學(xué)習(xí)到圖像的顏色和位置信息,這會(huì)造成顏色和目標(biāo)對(duì)應(yīng)錯(cuò)誤,從而出現(xiàn)冗余色斑;b)隨著網(wǎng)絡(luò)的加深,卷積層提取的特征利用不充分造成中間層的顏色、細(xì)節(jié)等信息丟失,從而導(dǎo)致著色暗淡;c)非交互式著色網(wǎng)絡(luò)中的擬合函數(shù)單一,不能準(zhǔn)確地從顏色分布中擬合出最接近真實(shí)圖像顏色分布的函數(shù),導(dǎo)致顏色偏差。
基于上述分析,本文設(shè)計(jì)了一個(gè)新的非交互式著色模型。具體來(lái)說(shuō),針對(duì)冗余色斑問(wèn)題,本文首先利用目標(biāo)檢測(cè)網(wǎng)絡(luò)提取圖像中存在的顯著實(shí)例,分為全局和實(shí)例圖像顏色預(yù)測(cè)。進(jìn)一步地,在實(shí)例和全局顏色預(yù)測(cè)網(wǎng)絡(luò)中結(jié)合細(xì)粒度注意力。該注意力將圖像特征分為顏色通道特征和空間位置特征,顏色通道部分學(xué)習(xí)圖像顏色信息,空間位置部分學(xué)習(xí)圖像語(yǔ)義位置信息,顏色通道和空間位置的結(jié)合學(xué)習(xí)圖像顏色與空間位置間的非線性關(guān)系,使圖像顏色與空間位置精確對(duì)齊,從而提升著色區(qū)域的準(zhǔn)確性,約束實(shí)例和背景間的冗余色斑。此外,為消除全局和實(shí)例圖像融合中,融合比重不同導(dǎo)致的顏色偽影,實(shí)例圖像顏色預(yù)測(cè)網(wǎng)絡(luò)和全局圖像預(yù)測(cè)網(wǎng)絡(luò)使用相同的網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合可學(xué)習(xí)的網(wǎng)絡(luò)權(quán)重參數(shù),讓網(wǎng)絡(luò)根據(jù)損失函數(shù)不斷更新權(quán)重比例,直至找到網(wǎng)絡(luò)的最優(yōu)解,從而消除融合階段存在的顏色偽影。針對(duì)著色暗淡問(wèn)題,本文借鑒HDR原理和激活函數(shù)的動(dòng)態(tài)映射。使用小感受野的卷積核從不同方向增強(qiáng)或抑制提取到的圖像顏色特征,再使用softmax增加顏色范圍,提升顏色對(duì)比度,從而減少著色暗淡。針對(duì)顏色偏差問(wèn)題,本文基于U-Net顏色預(yù)測(cè)網(wǎng)絡(luò),并結(jié)合不同的非線性函數(shù),包括sigmoid和softmax。其中,sigmoid增強(qiáng)網(wǎng)絡(luò)的非線性表達(dá)能力,而softmax擬合最接近真實(shí)圖像的顏色分布,從而縮小顏色偏差。接下來(lái),本文將詳細(xì)闡述模型的細(xì)節(jié)。
2.2 網(wǎng)絡(luò)框架
2.3 實(shí)例分割網(wǎng)絡(luò)(instance segmentation)
為降低背景對(duì)前景實(shí)例顏色預(yù)測(cè)的影響,本文使用目標(biāo)檢測(cè)網(wǎng)絡(luò)Mask R-CNN[23]進(jìn)行實(shí)例檢測(cè)和定位分割,如圖2中part1實(shí)例分割所示。實(shí)例分割網(wǎng)絡(luò)從輸入灰度圖像X中獲取N個(gè)實(shí)例邊界框{Bk}Nk=1,并剪裁出對(duì)應(yīng)的N個(gè)實(shí)例圖像{Xk}Nk=1,從而輔助實(shí)例顏色預(yù)測(cè)。也就是說(shuō),實(shí)例分割能同時(shí)生成對(duì)應(yīng)實(shí)例的box和mask,box在實(shí)例和全局特征融合中提供位置信息,減少顏色偽影或冗余色斑;mask則用于圖像顏色預(yù)測(cè)區(qū)域的選擇,控制實(shí)例著色區(qū)域,增加著色精確度。
2.4 顏色預(yù)測(cè)網(wǎng)絡(luò)
顏色預(yù)測(cè)網(wǎng)絡(luò)分為全局和實(shí)例顏色預(yù)測(cè)兩部分,受 Zhang等人[3]方法的啟發(fā),本文提出的顏色網(wǎng)絡(luò)框架如圖2中part2和part3所示。本文使用U-Net作為顏色預(yù)測(cè)的基線,將灰度圖像X和{Xk}Nk=1映射為對(duì)應(yīng)的彩色圖像Xg和{Xi}Ni=1。具體來(lái)說(shuō),全局灰度圖像X送入全局顏色預(yù)測(cè)網(wǎng)絡(luò)中,預(yù)測(cè)X缺失的a*b*通道圖像Xg,并同灰度圖像疊加成XG,從而為實(shí)例顏色預(yù)測(cè)階段和融合階段訓(xùn)練提供模型參數(shù)。相似地,將檢測(cè)分割出的實(shí)例圖像{Xk}Nk=1送入同樣結(jié)構(gòu)的顏色預(yù)測(cè)網(wǎng)絡(luò)中,預(yù)測(cè)缺失的a*b*通道圖像{Xi}Ni=1,并同灰度圖像疊加成{XI}NI=1,從而為融合階段提供初始化實(shí)例顏色預(yù)測(cè)訓(xùn)練的模型參數(shù)。為進(jìn)一步提升顏色和圖像目標(biāo)區(qū)域匹配度、增強(qiáng)顏色鮮艷度和縮小預(yù)測(cè)顏色值和真實(shí)顏色值之間的距離,本文分別在全局、實(shí)例顏色預(yù)測(cè)網(wǎng)絡(luò)中插入細(xì)粒度注意力機(jī)制。
2.5 細(xì)粒度注意力機(jī)制(FGSA=PPM+SPM+CM)
為提高網(wǎng)絡(luò)對(duì)顏色預(yù)測(cè)、著色位置捕獲成功率,改善特征表示,擬合真實(shí)圖像顏色分布,本文提出細(xì)粒度注意力機(jī)制FGSA,如圖3所示。
FGSA由并行極化模塊(parallel polarized module,PPM)、順序極化模塊(sequential polarized module,SPM) 和聯(lián)合模塊(combination module,CM)組成。PPM模塊將圖像分為顏色通道特征和空間位置特征,學(xué)習(xí)顏色與圖像位置間的非線性關(guān)系,從而解決模型因不能正確學(xué)習(xí)到圖像的顏色和位置信息,造成顏色和目標(biāo)對(duì)應(yīng)錯(cuò)誤導(dǎo)致的冗余色斑問(wèn)題。SPM模塊使用小感受野卷積核增強(qiáng)圖像的顏色信息,再結(jié)合動(dòng)態(tài)機(jī)制提高圖像顏色映射范圍,以此提高對(duì)比度,從而使著色鮮艷明亮,緩解著色暗淡問(wèn)題。CM模塊結(jié)合不同的非線性基函數(shù),學(xué)習(xí)真實(shí)數(shù)據(jù)集中的顏色分布,最終成功約束圖像中的冗余色斑,減少著色暗淡和縮小顏色偏差,F(xiàn)GSA映射函數(shù)如式(1)所示。
其中:SPM表示串行極化操作;PPM表示并行極化操作;X1T表示輸入圖像特征;X2T表示PPM輸出特征,T表示特征張量tensor;SSM表示softmax操作。
總的來(lái)說(shuō), FGSA考慮圖像著色的根本問(wèn)題,從提高著色目標(biāo)位置精度、強(qiáng)化圖像顏色特征和擬合真實(shí)顏色分布三個(gè)角度來(lái)提升著色細(xì)粒度,進(jìn)而提升著色質(zhì)量。具體地,F(xiàn)GSA用于全局和實(shí)例顏色預(yù)測(cè)網(wǎng)絡(luò),實(shí)現(xiàn)圖像顏色特征和位置對(duì)齊,增加顏色特征動(dòng)態(tài)范圍和擬合真實(shí)圖像的非線性映射,從而使全局和實(shí)例顏色預(yù)測(cè)網(wǎng)絡(luò)輸出無(wú)冗余色斑、著色暗淡和顏色偏差的圖像。
2.5.1 PPM提高著色目標(biāo)位置精度
為緩解圖像著色中由于顏色和空間位置不對(duì)齊帶來(lái)的冗余色斑問(wèn)題,根據(jù)卷積塊注意力模塊(convolutional block attention module,CBAM)[24]、瓶頸注意力模型(bottleneck attention module,BAM)[25]中通道和空間的劃分,本文將圖像特征分為顏色通道特征和空間位置特征,從而提高著色目標(biāo)位置精度,分別對(duì)應(yīng)圖3 PPM中的channel self-attention和spatial self-attention。PPM由學(xué)習(xí)著色“什么”的channel self-attention和學(xué)習(xí)著色“哪里”的spatial self-attention兩部分組成,兩者的結(jié)合增強(qiáng)了網(wǎng)絡(luò)對(duì)圖像顏色特征和語(yǔ)義位置的非線性捕捉能力,使圖像顏色和位置精確對(duì)齊,從而減少著色中的冗余色斑。
PPM映射函數(shù)如式(2)所示。
在spatial self-attention中,為了讓網(wǎng)絡(luò)能夠?qū)W習(xí)圖像對(duì)象中的位置權(quán)重,本文將圖像特征分別送入兩個(gè)1×1的conv中,輸出不同方向的圖像特征。本文將其中一個(gè)方向的圖像特征進(jìn)行全局平均池化操作以降低網(wǎng)絡(luò)的參數(shù)量。然后將對(duì)應(yīng)的圖像特征張量分別進(jìn)行不同的reshape操作。之后兩條支路中的張量相乘輸出圖像位置特征,位置特征張量維度為1×HW。為了匹配圖像位置特征和避免過(guò)擬合,1×HW的圖像位置特征進(jìn)行了reshape和sigmoid操作,從而輸出網(wǎng)絡(luò)對(duì)圖像位置特征的學(xué)習(xí)權(quán)重1×H×W。channel self-attention對(duì)圖像顏色通道的學(xué)習(xí)過(guò)程與spatial self-attention的學(xué)習(xí)過(guò)程類(lèi)似,在此不作過(guò)多細(xì)述。
2.5.2 SPM強(qiáng)化圖像顏色特征
為改善著色結(jié)果存在的顏色暗淡問(wèn)題,本文借鑒光學(xué)攝影中的高動(dòng)態(tài)范圍成像技術(shù)強(qiáng)化圖像顏色特征,PPM模塊的輸出送入SPM模塊,結(jié)構(gòu)如圖3中的SPM所示。SPM映射函數(shù)如式(3)所示。
在顏色通道分離的基礎(chǔ)上,使用softmax的動(dòng)態(tài)映射SPM實(shí)現(xiàn)圖像顏色的高動(dòng)態(tài)對(duì)比,從而提升圖像色彩,解決著色暗淡問(wèn)題,如圖3中channel self-attention操作前所示,其映射關(guān)系如式(4)所示。
HDRch(X2T)=σ1(M1(X2T))×SSM(σ2(M2(X2T)))(4)
其中:HDRch(·)表示圖像動(dòng)態(tài)映射增強(qiáng)操作;σ1、σ2表示不同的reshape操作;M1、M2表示不同的conv操作。根據(jù)從攝影中不同方向所得同一物體的成像在視覺(jué)明暗度和清晰度方面具有層次差異性,本文首先在輸入圖像特征中分別進(jìn)行1×1的conv操作,從而輸出不同方向的顏色特征,使圖像顏色變得分明。再分別將不同方向的顏色特征進(jìn)行reshape操作。之后,選取顏色信息最多的一個(gè)方向進(jìn)行softmax操作,從而形成一個(gè)高度動(dòng)態(tài)范圍的顏色特征。softmax如式(5)所示。
其中:XT表示輸入特征;xj表示輸入特征XT第j個(gè)位置的特征;N表示XT的特征數(shù)量。最后為了使增強(qiáng)后的顏色特征成功輸出,本文根據(jù)HDR中的全局映射機(jī)制,在SPM channel self-attention操作最后使用sigmoid,使增強(qiáng)后的顏色特征映射到0~1,最終形成高對(duì)比度的圖像顏色特征。
全局映射為HDR色調(diào)映射的一種方式,色調(diào)映射是為了使高動(dòng)態(tài)范圍的顏色圖像能成功限制在一定區(qū)間內(nèi),然后顯示輸出。sigmoid作為全局映射的核心,是為了避免使用直方圖校準(zhǔn)算法只利用很少區(qū)域內(nèi)的色度壓縮再拓展,導(dǎo)致的對(duì)比度失真,和為了避免線性變換造成的顏色信息丟失。sigmoid如式(6)所示。
其中:Ssig表示sigmoid操作;XT表示輸入特征;xj表示輸入特征XT第j個(gè)位置的特征。
2.5.3 CM擬合真實(shí)圖像顏色分布
在提高圖像目標(biāo)精度和強(qiáng)化圖像顏色特征的基礎(chǔ)上,為了擬合真實(shí)圖像的顏色分布,減小顏色偏差,本文根據(jù)不同非線性基函數(shù)的作用,提出CM模塊,如圖3中FGSA的CM部分所示,其映射函數(shù)如式(7)所示。
其中:X1T、X2T和X3T表示不同階段的圖像特征。CM在網(wǎng)絡(luò)本身具有擬合非線性函數(shù)的基礎(chǔ)上,聯(lián)合sigmoid和softmax擬合出真實(shí)圖像的顏色分布,從而縮小顏色偏差。sigmoid使網(wǎng)絡(luò)的非線性擬合能力增加,而softmax在所有分布中能輸出概率最大的一個(gè)。聯(lián)合使用sigmoid和softmax的原因是,單獨(dú)使用sigmoid激活函數(shù)時(shí),網(wǎng)絡(luò)僅能將網(wǎng)絡(luò)的非線性表達(dá)限定在0~1,并不會(huì)得到最接近真實(shí)圖像顏色的分布函數(shù);單獨(dú)使用softmax作為激活函數(shù)時(shí),網(wǎng)絡(luò)雖然能選擇最接近真實(shí)圖像的顏色分布,但缺少sigmoid的映射作用和平滑易求導(dǎo)優(yōu)勢(shì),網(wǎng)絡(luò)難以擬合出接近真實(shí)圖像的顏色分布。所以本文在整個(gè)網(wǎng)絡(luò)使用ReLU的基礎(chǔ)上,結(jié)合sigmoid和softmax。sigmoid將顏色映射到0~1,softmax使其中的擬合分布輸出概率最大,即最符合真實(shí)圖像顏色的映射,從而縮小顏色偏差。
2.6 融合模塊(fusion module)
2.7 損失函數(shù)
圖像著色任務(wù)中通常使用像素回歸損失函數(shù)L1或L2訓(xùn)練網(wǎng)絡(luò),如Zhang等人[1]使用L2損失函數(shù)去優(yōu)化網(wǎng)絡(luò)。然而,L2在多模態(tài)性質(zhì)的著色中存在兩個(gè)缺陷:首先,L2對(duì)離群點(diǎn)著色敏感且容易發(fā)生梯度爆炸;其次,L2求解速度慢。為避免這兩個(gè)問(wèn)題,本文使用L1損失函數(shù)優(yōu)化整個(gè)網(wǎng)絡(luò),如式(9)所示。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集
本文方法基于COCO-Stuff[26]訓(xùn)練整個(gè)網(wǎng)絡(luò),COCO-Stuff有164 000張圖片,172個(gè)類(lèi)別,包括80個(gè)thing classes,91個(gè)stuff classes和1個(gè)unlabeled class。為定性測(cè)試算法的有效性,本文選擇常用于圖像著色測(cè)試的數(shù)據(jù)集Pascal VOC[27]作為驗(yàn)證集,該數(shù)據(jù)集包含20個(gè)類(lèi)別,9 963張標(biāo)注過(guò)的圖片,共標(biāo)注24 640個(gè)物體。本文從中隨機(jī)選取231張測(cè)試圖像,包含了人、動(dòng)物、食物、植物、風(fēng)景、建筑等,并對(duì)其裁剪為256×256的大小,進(jìn)行灰值化處理后送入網(wǎng)絡(luò)生成彩色圖像。
3.2 實(shí)驗(yàn)參數(shù)
為了適應(yīng)圖像著色任務(wù),本文采用Xavier[28]來(lái)初始化網(wǎng)絡(luò),采用自定義學(xué)習(xí)策略,該學(xué)習(xí)率來(lái)自于Cycle-GAN[29]中訓(xùn)練的Demo,本文在此基礎(chǔ)上進(jìn)行調(diào)整來(lái)適應(yīng)網(wǎng)絡(luò)著色訓(xùn)練;優(yōu)化器為Adam Optimizer[30],動(dòng)量設(shè)置為0.9。根據(jù)第一階段提取的實(shí)例圖像,本文在第二、三階段訓(xùn)練迭代為150個(gè)epoch,batchsize為16;第四階段訓(xùn)練融合網(wǎng)絡(luò),epoch為30,batchsize為1。本文方法使用PyTorch 1.6.0和Detectron實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò),并在3塊NVIDIA Tesla V100S 的服務(wù)器上進(jìn)行訓(xùn)練,整個(gè)網(wǎng)絡(luò)的訓(xùn)練過(guò)程大約需要4天。
3.3 評(píng)價(jià)指標(biāo)
現(xiàn)有圖像著色的評(píng)價(jià)標(biāo)準(zhǔn)主要包括主觀評(píng)價(jià)和客觀評(píng)價(jià)。主觀評(píng)價(jià)即人眼觀測(cè)圖像輸出圖像,評(píng)定圖像著色質(zhì)量。目前普遍的客觀量化方法包括PSNR[31]、SSIM[32]和LPIPS[32],為了更有力評(píng)估算法的有效性,本文還使用了Fréchet inception distance(FID)[33]、CCI和CNI[34]三個(gè)評(píng)價(jià)指標(biāo)。PSNR用來(lái)度量生成圖像的質(zhì)量和保真度;SSIM用來(lái)度量生成圖像和真實(shí)圖像之間在亮度、結(jié)構(gòu)和對(duì)比度之間的相似度;LPIPS從圖像特征層面來(lái)度量它們之間的感知相似性,LPIPS指標(biāo)為[0,1],LPIPS越接近0,表示著色結(jié)果越接近真實(shí)圖像;FID用來(lái)評(píng)估圖像質(zhì)量(清晰度)、生成多樣性。FID指標(biāo)越接近0,表示著色結(jié)果質(zhì)量越好,越接近真實(shí)圖像;顏色豐富性指數(shù)CCI和顏色自然性指數(shù)CNI用來(lái)評(píng)估圖像顏色的色彩和自然度, CCI指標(biāo)通常在[15,30],圖像色彩比較符合人類(lèi)視覺(jué)。CNI指標(biāo)在[0,1],越接近1說(shuō)明圖像顏色越和諧自然。
3.4 最新著色方法對(duì)比
本文方法對(duì)比了五種先進(jìn)的圖像著色方法,包括DeepAPI[2]、EAMSPC[35]、UGIC[3]、ChromaGAN[36]和IAIC[4]。對(duì)比方法的著色結(jié)果均由作者開(kāi)源的代碼生成。
圖像著色定性結(jié)果:圖5為本文方法對(duì)比五種著色算法的測(cè)試結(jié)果,為了觀察分析不同實(shí)例數(shù)量下圖像的著色結(jié)果,將對(duì)比實(shí)驗(yàn)圖的測(cè)試結(jié)果分為單實(shí)例著色(圖5(a))和多實(shí)例著色(圖5(b))。從這些結(jié)果圖中來(lái)看,本文方法取得了最優(yōu)的視覺(jué)結(jié)果,不存在其他方法中遭遇的冗余色斑、著色暗淡和顏色偏差問(wèn)題。而次優(yōu)的結(jié)果ChromaGAN存在冗余色斑問(wèn)題(可以從雪人中看到)。
具體來(lái)說(shuō),DeepAPI以生成質(zhì)量較好的GAN作為基線,但其面向?qū)ο笾饕獮檫^(guò)去的黑白照片,所以其著色結(jié)果主要呈現(xiàn)出著色暗淡和顏色偏差問(wèn)題,而無(wú)明顯的冗余色斑,如圖5(a)(b)的第二列所示。特別地,圖5(a)中的女士頭部、煙囪和船等均出現(xiàn)了著色暗淡的情況,圖5(b)中的襯衫、草地等都出現(xiàn)了著色偏差。EAMSPC使用了多尺度上色的方法來(lái)改善上色結(jié)果,但其上色結(jié)果偏暗淡,特別是圖5(a)第一行的矩形框所示。UGIC通過(guò)U-Net來(lái)直接預(yù)測(cè)圖像缺失的a*b*通道圖像,但其網(wǎng)絡(luò)缺少能精確擬合圖像顏色和位置間非線性關(guān)系的部分,其著色結(jié)果依然出現(xiàn)一定的冗余色斑,如圖5(a)(b)的第四列所示。ChromaGAN結(jié)合的語(yǔ)義類(lèi)分布反饋機(jī)制依賴(lài)于前期提取特征,而該網(wǎng)絡(luò)提取特征僅用簡(jiǎn)單卷積層堆疊,勢(shì)必會(huì)遭遇圖像信息的丟失,導(dǎo)致語(yǔ)義類(lèi)識(shí)別降低,從而出現(xiàn)冗余色斑,也就出現(xiàn)圖5(a)第五列雪人著色錯(cuò)誤。IAIC著色方法對(duì)真實(shí)彩色圖像的顏色、語(yǔ)義位置特征映射提取不準(zhǔn)確,出現(xiàn)語(yǔ)義與顏色不對(duì)齊,導(dǎo)致出現(xiàn)冗余色斑,且隨著顏色特征提取網(wǎng)絡(luò)不斷加深而造成顏色信息的丟失,導(dǎo)致著色暗淡,著色結(jié)果如圖5(a)(b)的第六列所示。
相比以上五種著色方法,本文方法對(duì)應(yīng)的圖5(a)(b)解決了著色中存在的冗余色斑、著色暗淡和顏色偏差問(wèn)題。此外,當(dāng)網(wǎng)絡(luò)生成的結(jié)果偏離真實(shí)結(jié)果時(shí),考慮不同的非線性函數(shù)組合能讓分布更接近真實(shí)的輸出。五種著色方法對(duì)單實(shí)例圖像和多實(shí)例圖像都表現(xiàn)出相同的問(wèn)題,這說(shuō)明網(wǎng)絡(luò)對(duì)于存在一定數(shù)量實(shí)例的圖像著色不存在顯著差異,也說(shuō)明網(wǎng)絡(luò)魯棒性較好。總之,本文的實(shí)驗(yàn)結(jié)果進(jìn)一步表明本文方法在著色位置和對(duì)象上對(duì)顏色通道和空間位置進(jìn)行分離的準(zhǔn)確性和必要性。
圖像著色定量結(jié)果:表1列出了不同著色方法如在七項(xiàng)評(píng)價(jià)指標(biāo)上的定量比較結(jié)果。最優(yōu)和次優(yōu)的結(jié)果分別用加粗和下畫(huà)線標(biāo)出。向上的箭頭表示數(shù)值越高越好,反之亦然。可以看出,本文方法在所有指標(biāo)上均取得到了最優(yōu)或次優(yōu)的結(jié)果。其中,SSIM達(dá)到最優(yōu),但SSIM提升不大,原因是SSIM不止衡量圖像之間的相似程度,也同樣衡量生成圖像的失真程度。雖然對(duì)比方法存在冗余色斑、著色暗淡和顏色偏差問(wèn)題,但測(cè)試結(jié)果并未出現(xiàn)明顯圖像失真,如圖像模糊或大范圍的冗余色斑,且SSIM基于圖像像素的均值和標(biāo)準(zhǔn)差來(lái)進(jìn)行計(jì)算,圖像中局部冗余色斑、著色暗淡和顏色偏差的像素值中和導(dǎo)致SSIM差距微小。特別地,本文方法的LPIPS和FID指標(biāo)明顯優(yōu)于其他比較方法,分別比次優(yōu)方法提升了4.1%和7.9%,提升最大。原因是LPIPS利用Inception網(wǎng)絡(luò)來(lái)提取特征,最后根據(jù)高斯模型計(jì)算其均值和方差,從而得到特征距離值。FID指標(biāo)利用卷積層提取特征,再分別計(jì)算其對(duì)應(yīng)的特征距離。從本文方法的測(cè)試結(jié)果可看出不存在明顯的冗余色斑、著色暗淡和顏色偏差,但在特征級(jí)別這個(gè)問(wèn)題上將被放大,因此LPIPS和FID兩個(gè)評(píng)價(jià)指標(biāo)的提升最大。
為了更清晰地表明提出方法的優(yōu)越性,本文根據(jù)測(cè)試集中每張圖的LPIPS、CCI繪制了對(duì)應(yīng)的箱線圖,如圖6所示。在LPIPS箱線圖中,五種著色方法在數(shù)據(jù)分布上的異常值差距較小,相比之下,本文方法的LPIPS值更集中且更接近0。在CCI箱線圖中,本文方法的CCI值集中在中位數(shù)及均值附近,說(shuō)明著色結(jié)果顏色豐富,但存在部分高異常值,經(jīng)查驗(yàn)測(cè)試結(jié)果發(fā)現(xiàn),異常值高的顏色最接近真實(shí)圖像,且圖像中顏色較鮮艷單一,如夕陽(yáng)和海水等。
3.5 消融實(shí)驗(yàn)
為驗(yàn)證所提著色算法中各組成部分的有效性,本文對(duì)框架的每個(gè)重要部分進(jìn)行了如下分析:
baseline:初始訓(xùn)練網(wǎng)絡(luò)。以Mask R-CNN作為實(shí)例分割工具,U-Net作為顏色預(yù)測(cè)主干網(wǎng)絡(luò),融合網(wǎng)絡(luò)作為實(shí)例特征和全局特征結(jié)合模塊。
+FGSA:在初始訓(xùn)練網(wǎng)絡(luò)的第一、二階段顏色預(yù)測(cè)網(wǎng)絡(luò)中加入細(xì)粒度注意力機(jī)制(FGSA)。
+FGSA+PPM:在初始訓(xùn)練網(wǎng)絡(luò)的第一、二階段顏色預(yù)測(cè)網(wǎng)絡(luò)中加入細(xì)粒度注意力機(jī)制,在第三階段的生成器中加入極化注意力模塊(PPM)。
本文方法:在初始訓(xùn)練網(wǎng)絡(luò)的第一、二階段顏色預(yù)測(cè)網(wǎng)絡(luò)中添加FGSA,在第三階段的生成器中加入PPM,在整個(gè)網(wǎng)絡(luò)中使用L1損失函數(shù)進(jìn)行優(yōu)化。
不同組成部分的定性結(jié)果和對(duì)應(yīng)的LPIPS映射圖、指標(biāo)值如圖7所示。映射圖為評(píng)價(jià)指標(biāo)LPIPS值的可視化結(jié)果,圖中顏色越接近深紫色表示著色圖像和真實(shí)圖像越接近,對(duì)應(yīng)的LPIPS分?jǐn)?shù)值越低;圖中顏色越接近黃色表示著色圖像越遠(yuǎn)離真實(shí)圖像,LPIPS分?jǐn)?shù)值越高。
從圖7中可以看出,結(jié)合細(xì)粒度注意力機(jī)制后的著色結(jié)果在顏色協(xié)調(diào)性和接近真實(shí)圖像上均有顯著提升,解決了冗余色斑問(wèn)題。特別地,結(jié)合細(xì)粒度注意力機(jī)制對(duì)網(wǎng)絡(luò)性能的提升最大。因?yàn)镕GSA中組合sigmoid和softmax非線性激活函數(shù)。sigmoid使網(wǎng)絡(luò)擬合出多個(gè)滿足真實(shí)圖像的分布;softmax從多個(gè)分布中選擇一個(gè)輸出概率最大的分布,即最接近真實(shí)圖像的顏色分布;FGSA中結(jié)合卷積核的濾波機(jī)制,將顏色特征分為不同的方向,形成不一樣的顏色層次,然后通過(guò)不同方向特征分離選擇性增強(qiáng)或削弱顏色特征,并用softmax進(jìn)行顏色范圍擴(kuò)大,從而提升顏色色深也就是對(duì)比度,使著色結(jié)果鮮明;FGSA將圖像特征分為顏色通道特征和空間位置特征,顏色通道和空間位置的結(jié)合能學(xué)習(xí)圖像中顏色與位置間的非線性關(guān)系,使網(wǎng)絡(luò)訓(xùn)練真實(shí)圖像怎樣讓顏色和目標(biāo)精準(zhǔn)對(duì)齊,提高著色準(zhǔn)確率,減少冗余色斑產(chǎn)生。從圖7可以看到,與基線模型相比,當(dāng)加入FGSA模塊后,模型的著色效果有著明顯的提升(第一行的天空。圖7(b1)(c1)(d1)背景部分的上色結(jié)果更接近標(biāo)簽;圖7(f1)基線模型前景目標(biāo)與標(biāo)簽的差異巨大,相比之下,F(xiàn)GSA模型的著色結(jié)果與標(biāo)簽更為接近)。 與+FGSA相比,+FGSA+PPM的大多數(shù)結(jié)果在LPIPS映射圖、分?jǐn)?shù)值上并沒(méi)有提高反而降低,是因?yàn)镕GSA只在全局顏色預(yù)測(cè)和實(shí)例顏色預(yù)測(cè)網(wǎng)絡(luò)中加入,未在融合生成器中結(jié)合,全局顏色預(yù)測(cè)模型參數(shù)和實(shí)例顏色預(yù)測(cè)模型參數(shù)發(fā)生改變,實(shí)例顏色預(yù)測(cè)結(jié)果和全局圖像對(duì)應(yīng)實(shí)例的顏色預(yù)測(cè)位置出現(xiàn)偏差,從而產(chǎn)生冗余特征,但+FGSA+PPM的著色結(jié)果比+FGSA更接近真實(shí)圖像。 特別是圖7(a1)中的大海,F(xiàn)GSA存在著色錯(cuò)誤,而加入PPM之后與標(biāo)簽更為接近。當(dāng)添加了所有模塊后(本文方法),輸出著色更真實(shí)、無(wú)冗余色塊的圖像,因?yàn)槿哂嗌珘K的產(chǎn)生可以視作異常值,異常值在L2中會(huì)被放大,不宜收斂,而L1損失函數(shù)對(duì)異常值不敏感,且能找到多個(gè)解,網(wǎng)絡(luò)只需通過(guò)L1不斷學(xué)習(xí)訓(xùn)練,找到全局最優(yōu)解,從而輸出無(wú)冗余色塊的圖像。
表2總結(jié)了不同組成部分的定量結(jié)果。從表中可以看出,與baseline相比,各模塊的FID、SSIM、LPIPS、CCI和CNI指標(biāo)均有顯著提升。表中加粗為最優(yōu)結(jié)果,下畫(huà)線為次優(yōu)結(jié)果。
總的來(lái)說(shuō),每加入一個(gè)組件后,模型的上色結(jié)果均得到了性能提升,表明這些模塊相輔相成,共同改進(jìn)了著色結(jié)果。
3.6 注意力機(jī)制對(duì)比實(shí)驗(yàn)
相關(guān)對(duì)比實(shí)驗(yàn)進(jìn)一步驗(yàn)證了所提注意力機(jī)制的有效性。將所提細(xì)粒度注意力機(jī)制FGSA與單個(gè)的PPM和SPM兩個(gè)模塊進(jìn)行實(shí)驗(yàn),以此說(shuō)明雙重注意力機(jī)制比單個(gè)注意力機(jī)制著色效果好。此外,本文也對(duì)比了兩種注意力機(jī)制方法,包括經(jīng)典的和通道與空間結(jié)合的注意力機(jī)制CBAM[24]和SA[37],實(shí)驗(yàn)測(cè)試結(jié)果如圖8所示。
PPM中雖然包含顏色通道和空間位置,但顏色通道最后輸出缺少softmax的動(dòng)態(tài)映射,使得顏色特征范圍沒(méi)有明顯擴(kuò)大,結(jié)果出現(xiàn)一定的著色暗淡,但相比其他五種方法,整體著色效果有一定優(yōu)勢(shì),對(duì)應(yīng)的定量指標(biāo)也處于次優(yōu)。SPM中雖然包含顏色通道和空間位置注意力,但其顏色通道和空間位置的串行沒(méi)有并行方式的顏色與空間位置對(duì)齊能力強(qiáng),因?yàn)榇蟹绞绞窍忍崛☆伾卣?,然后學(xué)習(xí)圖像位置信息,顏色與空間位置的非線性擬合沒(méi)那么強(qiáng),從而在著色結(jié)果中出現(xiàn)冗余色斑,但其著色效果和定量指標(biāo)僅次于PPM。CBAM為初始時(shí)期經(jīng)典的通道與空間位置注意力的組合,但在其結(jié)構(gòu)中,顏色特征與本文方法相比,通道數(shù)出現(xiàn)折疊導(dǎo)致顏色信息丟失,同時(shí)空間位置上的位置信息也出現(xiàn)相應(yīng)的折疊,使得兩部分的顏色特征和空間位置信息不能夠充分學(xué)習(xí)其對(duì)齊能力,等同于該機(jī)制對(duì)冗余色斑的約束并未達(dá)到期望的著色效果,其實(shí)驗(yàn)結(jié)果也可以看出存在一定的冗余色斑。SA中將特征分為通道和空間位置兩個(gè)分支,兩者結(jié)合學(xué)習(xí)圖像顏色與位置間的非線性表達(dá),從而約束一定的冗余色斑,同時(shí)結(jié)合了組卷積和channel shuffle來(lái)減少計(jì)算量,但注意力進(jìn)行分支的同時(shí),顏色通道信息遭遇到一定損失,且沒(méi)有得到后續(xù)補(bǔ)充,導(dǎo)致圖像出現(xiàn)著色暗淡,如定性測(cè)試結(jié)果所示,著色結(jié)果暗淡且CCI、CNI指標(biāo)處于較低水平。與上述注意力機(jī)制相比,本文所提注意力機(jī)制消除了冗余色斑,增強(qiáng)了色彩并更接近真實(shí)圖像,并且本文方法提出的細(xì)粒度注意力機(jī)制在大多數(shù)指標(biāo)上能達(dá)到最優(yōu)。
3.7 損失函數(shù)對(duì)比實(shí)驗(yàn)
為驗(yàn)證本文方法中使用損失函數(shù)的有效性,選擇了三種最常用于圖像著色的像素回歸損失函數(shù)及其三個(gè)組合進(jìn)行對(duì)比,如表3所示。其中加粗為最優(yōu)結(jié)果,下畫(huà)線為次優(yōu)結(jié)果。
第一個(gè)版本Huber loss與L1 loss的組合(HL1),第二版本Huber loss與L2 loss的組合(HL2),第三個(gè)版本L1 loss與L2 loss組合(L1L2),第四個(gè)版本僅使用L2 loss(L2),第五個(gè)版本僅使用Huber loss(H)和最后一個(gè)版本僅使用L1 loss(L1)。因?yàn)槿N像素回歸損失函數(shù)的組合仍然是像素?fù)p失函數(shù),所以其著色結(jié)果整體對(duì)比先前各種對(duì)比實(shí)驗(yàn)效果均有一定優(yōu)勢(shì),其對(duì)應(yīng)的大部分定量指標(biāo)也說(shuō)明圖像著色的整體質(zhì)量。L2因?yàn)槠洳环€(wěn)定和解單一等特性,整體著色結(jié)果相較其他幾種損失函較差。H和L1L2在組成上較為接近,均由L1和L2組成。其損失相較于L2函數(shù),曲線更加平滑和易于求導(dǎo)。相較于L1,收斂更快。但L1具有多個(gè)解的優(yōu)勢(shì),這也說(shuō)明為什么H和L1L2對(duì)應(yīng)的著色結(jié)果中存在微弱的著色暗淡和色差等冗余色塊,而L1沒(méi)有,且三者對(duì)應(yīng)的定量指標(biāo)占據(jù)絕大部分的最優(yōu)和次優(yōu)結(jié)果。本文方法對(duì)應(yīng)最終著色結(jié)果得到了一定優(yōu)化完善。
4 結(jié)束語(yǔ)
本文提出一種細(xì)粒度注意力機(jī)制和融合模塊,并應(yīng)用于非交互式著色網(wǎng)絡(luò),能有效解決非交互式著色中出現(xiàn)的冗余色斑、著色暗淡和顏色偏離真實(shí)圖像等問(wèn)題。本文提出的注意力機(jī)制FGSA將圖像特征分為顏色通道和空間位置,以關(guān)注在圖像上著“什么”顏色和在“哪里”著色,加上濾波與動(dòng)態(tài)映射機(jī)制增強(qiáng)或抑制部分特征,消除圖像中的冗余色斑和減少著色暗淡。融合模塊中的非線性基函數(shù)擬合真實(shí)圖像的顏色分布,以此拉近生成圖像和真實(shí)圖像間的顏色差距,最終完成圖像著色中的細(xì)粒度任務(wù)。同時(shí)本文設(shè)計(jì)一系列對(duì)比實(shí)驗(yàn)、消融實(shí)驗(yàn)、注意力機(jī)制對(duì)比實(shí)驗(yàn)和損失函數(shù)對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證本文算法的有效性。大量實(shí)驗(yàn)結(jié)果表明,本文提出的細(xì)粒度注意力機(jī)制與現(xiàn)有的五種先進(jìn)著色方法相比,取得了較好結(jié)果。在未來(lái)的工作中,筆者將致力于探索基于擴(kuò)散模型的著色任務(wù)。此外,還將探討如何將框架作為修復(fù)老照片的輔助工具。
參考文獻(xiàn):
[1]Zhang R, Isola P, Efros A A. Colorful image colorization[C]//Proc of the 14th European Conference Computer Vision. Netherlands: Springer, 2016: 649-666.
[2]Antic J. DeOldify image colorization on DeepAPI[EB/OL]. (2019-12-24)[2021-12-01]. https://deepai. org/machine-learning-model/colorizer.
[3]Zhang R, Zhu Junyan, Isola P, et al. Real-time user-guided image colorization with learned deep priors[J]. ACM Trans on Graphics, 2017,36(4): 1-11.
[4]Su J, Chu H K, Huang Jiabin. Instance-aware image colorization[C]//Proc of the 23rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington: DC: IEEE Computer Society, 2020: 7968-7977.
[5]李鑫, 普?qǐng)@媛, 趙征鵬, 等. 內(nèi)容語(yǔ)義和風(fēng)格特征匹配一致的藝術(shù)風(fēng)格遷移[J]. 圖學(xué)學(xué)報(bào), 2023,44(4): 699-709. (Li Xin, Pu Yuanyuan, Zhao Zhengpeng, et al. Conten semantics and style features match consistent artistic style transfer[J]. Journal of Gra-phics, 2023,44(4): 699-709.)
[6]Kong Fanmin, Pu Yuanyuan, Lee I, et al. Unpaired artistic portrait style transfer via asymmetric double-stream GAN[J]. IEEE Trans on Neural Networks and Learning Systems, 2023,34(9): 5427-5439.
[7]姚偉健, 趙征鵬, 普?qǐng)@媛, 等. 稠密自適應(yīng)生成對(duì)抗網(wǎng)絡(luò)的爨體字風(fēng)格遷移模型[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2023, 35(6): 915-924. (Yao Weijian, Zhao Zhengpeng, Pu Yuanyuan, et al. Cuan font generation model of dense adaptive generation adversa-rial network[J]. Journal of Computer-Aided Design & Computer Graphics, 2023,35(6): 915-924.)
[8]Cheng Zezhou, Yang Qingxiong, Sheng Bin. Deep colorization[C]//Proc of the 15th IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2015: 415-423.
[9]Larsson G, Maire M, Shakhnarovich G. Learning representations for automatic colorization[C]//Proc of the 14th European Conference on Computer Vision. Cham: Springer, 2016: 577-593.
[10]Zhao Jiaojiao, Han Jungong, Shao Ling, et al. Pixelated semantic colorization[J]. International Journal of Computer Vision, 2020, 128(4): 818-834.
[11]Treneska S, Zdravevski E, Pires I M, et al. GAN-based image colo-rization for self-supervised visual feature learning[J]. Sensors, 2022,22(4): 1599.
[12]Wu Yanze, Wang Xintao, Li Yu, et al. Towards vivid and diverse image colorization with generative color prior[C]//Proc of the 18th IEEE/CVF International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2021: 14377-14386.
[13]Wang Yi, Xia Menghan, Qi Lu, et al. PalGAN: image colorization with palette generative adversarial networks[C]//Proc of the 17th European Conference on Computer Vision. Cham: Springer, 2022: 271-288.
[14]Ozbulak G. Image colorization by capsule networks[C]//Proc of the 22nd IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington DC: IEEE Computer Society, 2019: 2150-2158.
[15]Kumar M, Weissenborn D, Kalchbrenner N. Colorization transformer[C]//Proc of the 8th International Conference on Learning Representations. 2020: 3388-3411.
[16]Ji Xiaozhong, Jiang Boyuan, Luo Donghao, et al. ColorFormer: image colorization via color memory assisted hybrid-attention transformer[C]//Proc of the 17th European Conference on Computer Vision. Cham: Springer, 2022: 20-36.
[17]Huang Zhitong, Zhao Nanxuan, Liao Jing. Unicolor: a unified framework for multi-modal colorization with transformer[J].ACM Trans on Graphics, 2022, 41(6): 1-16.
[18]郭璠, 張泳祥, 唐琎, 等. YOLOv3-A: 基于注意力機(jī)制的交通標(biāo)志檢測(cè)網(wǎng)絡(luò)[J]. 通信學(xué)報(bào), 2021, 42(1): 87-99. (Guo Fan, Zhang Yongxiang, Tang Jin, et al. YOLOv3-A: traffic sign detection network based on attention mechanism[J]. Journal on Communications, 2021,42(1): 87-99.)
[19]Zhao Hengshuang, Jia Jiaya, Koltun V. Exploring self-attention for image recognition[C]//Proc of the 23rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2020: 10076-10085.
[20]Zhang Han, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[C]//Proc of the 7th International Conference on Machine Learning. 2019: 7354-7363.
[21]Goodfellow I, Pouget A J, Mirza M, et al. Generative adversarial nets[C]//Proc of the 28th Conference and Workshop on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2661-2669.
[22]Su Weijie, Zhu Xizhou, Cao Yue, et al. VL-BERT: pre-training of generic visual-linguistic representations.[C]//Proc of the 22nd IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2019: 8530-8544.
[23]He Kaiming, Gkioxari G, Dollar P, et al. Mask R-CNN[C]//Proc of the 16th IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2017: 2961-2969.
[24]Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proc of the 15th European Conference on Computer Vision. Berlin: Springer, 2018: 3-19.
[25]Park J, Woo S, Lee J Y, et al. BAM: bottleneck attention module[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Washington DC: IEEE Computer Society, 2018: 6514-6527.
[26]Caesar H, Uijlings J, Ferrari V. COCO-Stuff: thing and stuff classes in context[C]//Proc of the 21st IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2018: 1209-1218.
[27]Everingham M, Ali Eslami S M, Van Gool L, et al. The Pascal visual object classes challenge: a retrospective[J]. International Journal of Computer Vision, 2015,111(1): 98-136.
[28]Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proc of the 13th International Conference on Artificial Intelligence and Statistics. 2010: 249-256.
[29]Zhu Junyan, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of the 20th IEEE Conference on Computer Vision and Pattern Recognition. Wa-shington DC: IEEE Computer Society, 2017: 2223-2232.
[30]Kingma D P , Ba J. Adam: a method for stochastic optimization[C]//Proc of the 3rd International Conference on Learning Representations. 2015: 6980-6994.
[31]Horé A, Ziou D. Image quality metrics: PSNR vs. SSIM[C]//Proc of the 20th International Conference on Pattern Recognition. Pisca-taway,NJ: IEEE Press, 2010: 2366-2369.
[32]Zhang R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2018: 586-595.
[33]Thomas E, Mannila H. Computing discrete Fréchet distance[J]. See Also, 1994,64(3): 636-637.
[34]Yue Guanghui, Hou Chunping, Zhou Tianwei. Blind quality assessment of tone-mapped images considering colorfulness, naturalness, and structure[J]. IEEE Trans on Industrial Electronics, 2018,66(5): 3784-3793.
[35]Xia Jun, Tan Guanghua, Xiao Yi, et al. Edge-aware multi-scale progressive colorization[C]//Proc of the 46th IEEE International Confe-rence on Acoustics, Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2021: 1655-1659.
[36]Vitoria P, Raad L, Ballester C. ChromaGAN: adversarial picture co-lorization with semantic class distribution[C]//Proc of the 19th IEEE/CVF Winter Conference on Applications of Computer Vision. Washington DC: IEEE Computer Society, 2020: 2445-2454.
[37]Zhang Qinglong, Yang Yubin. SA-Net: shuffle attention for deep con-volutional neural networks[C]//Proc of the 46th IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2021: 2235-2239.