田影 陳國棟 王娜 楊志偉
摘 要:黑白圖像著色在計算機圖形學(xué)方面應(yīng)用廣泛,有著非常好的發(fā)展前景,針對人物圖像的著色的研究更是復(fù)雜多樣。本文提出了一種深度學(xué)習(xí)算法,通過訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)直接將人物的灰度圖像輸入映射到輸出著色。該算法利用Imagenet數(shù)據(jù)集中大規(guī)模的人物圖像來學(xué)習(xí)自然人物彩色圖像的先驗,同時使用卷積和完全連接的網(wǎng)絡(luò)結(jié)構(gòu)來提取適合筆畫調(diào)整的視覺特征和空間特征來學(xué)習(xí)CNN模型。然后經(jīng)過我們的多次試驗表明,在減少人工交互的同時,可在較短的時間內(nèi)實時生成效果很好的彩色人物圖像。
關(guān)鍵詞:人物圖像;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)(CNN);實時著色
中圖分類號:TP391
文獻(xiàn)標(biāo)識碼: A
在以前的大部分照片中,無論是重要歷史人物的珍貴照片還是家庭生活照,大都是黑白的,因為那時的彩色攝影還沒有普及。要想使一張人物的黑白照片變?yōu)椴噬?,讓畫面看起來更生動、真實,更能活靈活現(xiàn)地展示它拍攝的意義,給人更好的視覺效果,唯一的方法就是為其上色。自從有了電腦,就擁有了各種神奇的圖像處理軟件(最常用的就是Photoshop圖像處理軟件)。但這些圖像處理軟件的著色步驟較為麻煩,需要深入學(xué)習(xí)該軟件的操作方法,使用起來會占用用戶過多時間。
在計算機圖形學(xué)中,存在兩種廣泛的圖像著色方法:用戶引導(dǎo)的編輯傳播和數(shù)據(jù)驅(qū)動的自動著色。第一種方法由Levin等人[1]開創(chuàng)性作品普及,用戶在圖像上繪制彩色筆畫,然后優(yōu)化過程產(chǎn)生與用戶的涂鴉相匹配的彩色圖像。這樣可以獲得較好的結(jié)果,但通常需要繁瑣的操作,因為每個不同顏色的圖像區(qū)域必須由用戶明確指出,選擇精確的所需自然色度也是非常困難的。第二種是數(shù)據(jù)驅(qū)動著色方法。它是通過以下兩種方式之一來對灰度照片進(jìn)行著色:(1)通過將其與數(shù)據(jù)庫中的示例性彩色人物圖像進(jìn)行匹配,并從該照片中非參數(shù)地“竊取”顏色,這一想法類似Hertzmann等人[2]的圖像類比,(2)Aditya和Jason等人[3]通過從大規(guī)模人物圖像數(shù)據(jù)中學(xué)習(xí)從灰度到顏色的參數(shù)映射。但著色結(jié)果包含不正確的顏色。
為了可以自動提取編輯傳播的有效特征而無需手動選擇圖像特征,本文提出了一種卷積神經(jīng)網(wǎng)絡(luò)技術(shù),訓(xùn)練Imagenet數(shù)據(jù)集中人物以及少量場景,自動從低級特征中提取用于人物圖像的有效高級特征。系統(tǒng)首先從輸入圖像和用戶筆畫中學(xué)習(xí)CNN模型。接下來,使用CNN模型估計所有像素上的筆畫概率,并且獲得概率圖。最后,概率圖通過后處理來完善。每次用戶更新筆劃時,系統(tǒng)都會使用先前學(xué)習(xí)的參數(shù)有效更新CNN模型。采用大規(guī)模數(shù)據(jù)傳播稀疏用戶點,通過訓(xùn)練深層網(wǎng)絡(luò)直接預(yù)測從灰度圖像到全色圖像的映射,實現(xiàn)人物圖像快速簡單的著色。
1 學(xué)習(xí)人物圖像著色算法
本文提出了一種CNN體系結(jié)構(gòu),該體系結(jié)構(gòu)使用卷積和完全連接的網(wǎng)絡(luò)結(jié)構(gòu)來提取人物圖像中適合筆畫調(diào)整的視覺特征和空間特征。所提取的兩個特征的重要性也是使用特征組合器層自動確定的,并且使用soft ̄max層從組合特征計算出人物圖像中所含筆畫概率向量。
3 實驗環(huán)境以及結(jié)果
3.1 實驗環(huán)境
本文用到的深度學(xué)習(xí)框架是caffe深度學(xué)習(xí)框架,主要依賴軟件有OpenCV、scikit ̄learn、scikit-image、Python 2.7、Qt4以及重要的caffe文件。環(huán)境配置的系統(tǒng)使用Ubutun 16.04。為了實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)著色,該系統(tǒng)在顯卡為1.NVIDIA GeForce GTX 670MX (99)和2. Intel(R) HD Gr(49),處理器為 Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz 雙核以及內(nèi)存為8 G的PC上運行。
3.2 實驗結(jié)果
通過利用卷積神經(jīng)網(wǎng)絡(luò)為黑白人物圖像著色實現(xiàn)這些結(jié)果。用戶從輸入到輸出僅使用不到一分鐘的時間就可以大大提高圖片質(zhì)量。實現(xiàn)系統(tǒng)的實時著色,產(chǎn)生了很好的彩色圖像輸出。無論是家里的古老照片還是珍貴的黑白照片,都可以實現(xiàn)幾秒鐘的實時著色結(jié)果。
4 總結(jié)
為了達(dá)到較好的色彩效果和更真實的人物圖片顏色還原,本文使用了卷積神經(jīng)網(wǎng)絡(luò)對灰度人物圖像實時著色。通過對數(shù)據(jù)集人物照片的訓(xùn)練,提取特征,采用估計概率圖對圖片實現(xiàn)較為準(zhǔn)確的著色效果。通過CNN的整體前饋網(wǎng)絡(luò)完成識別到自動著色過程。本文實現(xiàn)了較為真實的色彩效果圖。但對于每個圖片實現(xiàn)顏色的更改,人工選擇多種適合的顏色會在今后的研究中進(jìn)一步探討,從而實現(xiàn)對人物黑白圖像著色的多樣性。
參考文獻(xiàn):
[1]Levin A, Lischinski D, Weiss Y. Colorization using optimization[C]// ACM SIGGRAPH. New York, USA: ACM, 2004:689-694.
[2]Hertzmann A, Jacobs C E, Oliver N, et al. Image analogies[C]// Conference on Computer Graphics and Interactive Techniques. New York, USA: ACM, 2001:327-340.
[3]Deshpande A, Rock J, Forsyth D. Learning Large-Scale Automatic Image Colorization[C]// IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015:567-575.
[4]張國云, 向燦群, 羅百通,等. 一種改進(jìn)的人臉識別CNN結(jié)構(gòu)研究[J]. 計算機工程與應(yīng)用, 2017, 53(17):180-185.
[5]Wu Z, Jiang Y G, Wang J, et al. Exploring Inter-feature and Inter-class Relationships with Deep Neural Networks for Video Classification[C]// Proceedings of the ACM International Conference on Multimedia. New York, USA: ACM, 2014:167-176.
[6]Ngiam J, Khosla A, Kim M, et al. Multimodal Deep Learning[C]// International Conference on Machine Learning, ICML 2011, Bellevue, Washington, USA, June 28-July. Washington, USA: ICML DBLP, 2011:689-696.
[7]Glorot X, Bordes A, Bengio Y. Deep Sparse Rectifier Neural Networks[C]// International Conference on Artificial Intelligence and Statistics. Canary Islands, Spain:AISTATS, 2012:315-323.
[8]蔣帥. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別[D]. 長春:吉林大學(xué), 2017.
[9]Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012, 34(11):2274-2282.
[10]Chen X, Zou D, Zhao Q, et al. Manifold preserving edit propagation[J]. Acm Transactions on Graphics, 2012, 31(6):132.
[11]Xu L, Yan Q, Jia J. A sparse control model for image and video editing[M]. ?New York, USA: ACM, 2013.
(責(zé)任編輯:曾 晶)