張政 姚楠 方利
摘要:圖像著色是對灰度圖像進(jìn)行彩色化的過程。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用在圖像處理算法中取得了巨大的成功。對于灰度圖像著色問題,由于同一個(gè)實(shí)體可以對應(yīng)不同的顏色,這種“實(shí)體-顏色”不確定性,容易導(dǎo)致語境混淆和邊緣色彩混合,并且網(wǎng)絡(luò)的訓(xùn)練不易收斂。為了解決這個(gè)問題,本文提出一種全新的基于卷積神經(jīng)網(wǎng)絡(luò)并結(jié)合圖像語義分割的自動(dòng)著色方法,結(jié)合圖像的局部特征和深層語義特征用于指導(dǎo)著色,并采用聯(lián)合雙邊過濾方法增強(qiáng)著色效果,實(shí)現(xiàn)了端到端的處理。實(shí)驗(yàn)結(jié)果表明,本文方法能夠?qū)崿F(xiàn)很好的著色效果,達(dá)到了較先進(jìn)的性能。
關(guān)鍵詞:圖像著色;語義分割;卷積神經(jīng)網(wǎng)絡(luò);聯(lián)合雙邊過濾
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)06-0198-03
1 相關(guān)工作
灰度圖像彩色化在歷史照片和視頻處理、文藝品修復(fù)以及醫(yī)學(xué)影像方面有廣泛的應(yīng)用前景。傳統(tǒng)的圖像著色算法主要分為兩種類型,基于局部顏色擴(kuò)散[1]的方法,基于參考圖的[2]方法,這兩種傳統(tǒng)方法都需要用戶的參與才能完成。其中,前者需要用戶指定整張圖片的顏色,并且在目標(biāo)圖片上標(biāo)注一定數(shù)量的彩色筆刷作為著色的參考依據(jù),再擴(kuò)展著色。這類方法的優(yōu)點(diǎn)是著色效果較好,但是缺點(diǎn)在于需要處理復(fù)雜的圖像紋理和用戶干涉;后者在著色過程中盡可能消除用戶干涉,但是這類方法需要一張彩色圖片作為參考圖來傳遞顏色信息,得到跟參考圖像類似的著色效果。但是要找到一張合適的參考圖并不容易。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)用來處理圖像著色和分割已經(jīng)成為了一種趨勢。最近的著色算法[3][7][9]都采用神經(jīng)網(wǎng)絡(luò)來提取灰色圖像的語義特征,并參考圖像的語義特征進(jìn)行著色。如Iizuka等人[4]提出利用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合圖像的全局特征和局部特征進(jìn)行著色,對于戶外景觀照片取得了令人滿意的結(jié)果; Cheng 等人[5]提出一種通過卷積神經(jīng)網(wǎng)絡(luò)對圖像提取高層次特征進(jìn)行圖像自動(dòng)著色的算法,同時(shí)結(jié)合雙邊過濾來提升效果;另外Larsson 等人[6]提出利用深度網(wǎng)絡(luò)結(jié)合圖像的底層細(xì)節(jié)特征和高層語義特征,實(shí)現(xiàn)圖像的自動(dòng)著色。但是,當(dāng)灰度圖片包涵復(fù)雜場景和實(shí)體對象時(shí),往往經(jīng)典算法著色效果不佳,如Iizuka的方法,容易產(chǎn)生語境混淆和邊緣色彩混合的現(xiàn)象,因?yàn)橥粋€(gè)實(shí)體可以有不同顏色,比如背包可以是黑色也可以是紅色,如圖1所示。
針對這個(gè)問題,本文提出一種全新的基于卷積神經(jīng)網(wǎng)絡(luò)并結(jié)合圖像語義分割的自動(dòng)著色方法,設(shè)計(jì)雙路卷積神經(jīng)網(wǎng)絡(luò),分別用于提取圖像底層特征和深層語義特征用于指導(dǎo)著色,采用聯(lián)合雙邊過濾方法增強(qiáng)著色效果。并在PASCAL VOC 2012數(shù)據(jù)集上進(jìn)行驗(yàn)證,結(jié)果表明本文方法達(dá)到了較先進(jìn)的效果。
2 結(jié)合語義分割的圖像著色網(wǎng)絡(luò)
為了結(jié)合低級特征和深層語義特征指導(dǎo)圖像自動(dòng)著色,本文設(shè)計(jì)了如圖2的網(wǎng)絡(luò)結(jié)構(gòu):
網(wǎng)絡(luò)的輸入是灰度圖片,如圖所示,首先經(jīng)過一系列的卷積操作,提取圖像的低級特征。在每次卷積運(yùn)算之后,會(huì)生成相應(yīng)的特征圖,這里本文使用步長位2的卷積運(yùn)算,使得每次卷積操作之后特征圖分辨率縮小為原來的二分之一。四次卷積運(yùn)算之后,能夠得到有效的特征圖。然后將網(wǎng)絡(luò)結(jié)合語義分割,用圖像的語義類別標(biāo)簽作為監(jiān)督信息,指導(dǎo)網(wǎng)絡(luò)訓(xùn)練并提取圖像的深層語義特征,完成分割之后再結(jié)合著色網(wǎng)絡(luò)進(jìn)行著色。最后結(jié)合分割的結(jié)果和原始的繪圖圖片生成彩色圖片,并采用聯(lián)合雙邊過濾來增強(qiáng)著色效果。
2.1 結(jié)合語義分割的損失函數(shù)
本文采用[CIELab]顏色空間處理著色,因?yàn)長ab空間只需要學(xué)習(xí)a和b兩個(gè)通道信息。高為H寬為W的亮度通道L定義由輸入 [X∈RH×W×1]和輸出[Y∈RH×W×2]來表示a,b兩個(gè)通道。著色問題的本質(zhì)是要學(xué)習(xí)一個(gè)函數(shù)映射關(guān)系:[f:X→Y],這里本文參考Richard Zhang等人[7]的方法,本文將顏色ab分為Q=313,這里Q是具體的ab取值的數(shù)量。圖2的網(wǎng)絡(luò)結(jié)構(gòu)給出[Z=GX]為可能的顏色概率分布[Z∈0,1H×W×Q] 。給定真實(shí)圖片作為參考,一個(gè)結(jié)合分類再平衡的多尺度交叉熵?fù)p失函數(shù)L可以定義為:
2.2 語義特征提取和雙邊過濾
為了提取圖像的深層語義特征,本文在網(wǎng)絡(luò)結(jié)構(gòu)中結(jié)合了語義分割,并使用圖像的分類標(biāo)簽作為監(jiān)督信息,指導(dǎo)著色。如圖2所示,在四層卷積之后,語義分割網(wǎng)絡(luò)用于提取深層語義特征,結(jié)合著色網(wǎng)絡(luò)共同生產(chǎn)彩色圖片。兩部分網(wǎng)絡(luò)都采用加權(quán)交叉熵?fù)p失函數(shù)訓(xùn)練,Iizuka等人[5]的論文里,這種分類標(biāo)簽作為監(jiān)督信息提取的特征叫作全局特征,本文主要是指語義特征。
此外,本文使用了聯(lián)合雙邊過濾來提升著色效果,因?yàn)橥ǔJ褂命c(diǎn)估計(jì)或者是平均分布都會(huì)產(chǎn)生不飽和的效果。本文在Richard Zhang等人[7]的基礎(chǔ)上嘗試采用雙邊過濾來解決這個(gè)問題,它結(jié)合了初始特征圖上的空間過濾核和灰度圖片的范圍過濾核來評估顏色值。對于一個(gè)像素p,在顏色通道ab的過濾結(jié)果是:
[Jcp=1kpq∈ΩIcqfp-qgIp-Iq]
這里f是空間類似于高斯核的空間過濾核,g是以灰度圖片[I]在p處的強(qiáng)度值為中心的過濾核,[Ω]是f的空間支持,[kp]是歸一化向量。采用這個(gè)方法,邊緣得以保持,并且使得著色更飽滿更自然。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 實(shí)驗(yàn)環(huán)境和設(shè)置
本文采用PASCAL VOC 2012作為數(shù)據(jù)集,訓(xùn)練網(wǎng)絡(luò)并且驗(yàn)證著色結(jié)果。而且由于PASCAL VOC 2012數(shù)據(jù)集是一個(gè)常用的語義分割數(shù)據(jù)集,它包含20個(gè)對象類別(車,人等),本文實(shí)驗(yàn)基于17125張圖片訓(xùn)練,1440張圖片用于測試和驗(yàn)證。
本文訓(xùn)練網(wǎng)絡(luò)時(shí)采用聯(lián)合語義分割和著色損失函數(shù)來訓(xùn)練,并設(shè)置權(quán)重[αc:αs=1:100],因?yàn)檫@樣兩個(gè)損失在量級上基本相等。實(shí)驗(yàn)基于的GPU是NVIDIA Tesla K10。
3.2 著色結(jié)果展示
本文著色算法得到的結(jié)果如下圖3如所示,可以看出,本文方法的著色結(jié)果語境混淆現(xiàn)象基本消失,并且實(shí)體邊緣著色效果也較好,對實(shí)體的著色合理并且減少了語境混淆和邊緣混合的現(xiàn)象。
3.3 實(shí)驗(yàn)評估
為進(jìn)一步評估實(shí)驗(yàn)結(jié)果,對于雙邊聯(lián)合過濾采樣,本文給出一個(gè)大概的在三種情況下的峰值信噪比PSNR對比結(jié)果,分別是沒有語義分割和JBF采樣、僅有語義分割以及同時(shí)進(jìn)行分割和JBF采樣。其中PSNR由均方差MSE得到,定義如下:
從上表實(shí)驗(yàn)結(jié)果看出,三種不同設(shè)置的方法得到的PSNR值基本相等,說明聯(lián)合雙邊上采樣對于著色圖片的質(zhì)量沒有影響,但是卻增加了著色結(jié)果的自然度和豐富度,并且有助于保持圖像實(shí)體的邊界色彩信息,是可行的。
3.4 用戶研究
為進(jìn)一步評估和驗(yàn)證本文算法的著色效果,我們邀請了50位年齡在20歲到30歲的用戶參加用戶研究,并隨機(jī)挑選了原始灰度圖片作為輸入,和經(jīng)典算法Iizuka等人[4]、Larsson等人[6]的著色結(jié)果進(jìn)行對比,進(jìn)行了用戶測試實(shí)驗(yàn)。
4 結(jié)論
灰度圖像彩色化有很大的應(yīng)用價(jià)值和發(fā)展前景,在文物修復(fù)和醫(yī)學(xué)影像應(yīng)用方面有很大的前景。本文在基于深度學(xué)習(xí)的經(jīng)典著色方法基礎(chǔ)上,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)并結(jié)合圖像深層語義特征的自動(dòng)著色方法,它增加了圖像分割網(wǎng)絡(luò),提取圖像的深層語義特征用于指導(dǎo)圖像著色,并結(jié)合聯(lián)合雙邊過濾上采樣,對著色結(jié)果進(jìn)行平滑處理,提升了灰度實(shí)體著色的準(zhǔn)確度,減少了語境混淆和邊緣色彩混合的現(xiàn)象。實(shí)驗(yàn)結(jié)果表明,本文方法在對灰度圖像進(jìn)行自動(dòng)著色時(shí)有較好的效果。
參考文獻(xiàn):
[1] Welsh T, Ashikhmin M, Mueller K. Transferring color to greyscale images[J]. Acm Transactions on Graphics,2002,21(3):277-280.
[2] Levin A, Lischinski D, Weiss Y. Colorization using optimization[J]. Acm Transactions on Graphics,2004,23(3):686-691.
[3] Deshpande A, Rock J, Forsyth D. Learning Large-Scale Automatic Image Colorization[C]. IEEE International.
Conference on Computer Vision. IEEE Computer Society,2015:567-575.
[4] Iizuka S, Simoserra E, Ishikawa H. Let there be color?。?joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification[J]. Acm Transactions on Graphics,2016,35(4):1-11.
[5] Cheng, Z, Yang, Q, Sheng, B. Deep colorization[C].Proceedings of the IEEE International Conference on Computer Vision,2015:415-423.
[6] Larsson G, Maire M, Shakhnarovich G. Learning Representations for Automatic Colorization[J]. 2016:577-593.
[7] Evan Shelhamer, Jonathan Long, and Trevor Darrell, Fully Convolutional Networks for Semantic Segmentation, IEEE Transactions on pattern analysis and machine intelligence,2017,39(4).
[8] Zhuo Su, Xiangguo Liang , Jiaming Guo ,et al. An edge-refined vectorized deep colorization model for grayscale-to-color images. Neurocomputing,2018(311):305-315.
【通聯(lián)編輯:唐一東】