国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于密集神經(jīng)網(wǎng)絡(luò)的灰度圖像著色算法

2019-08-27 02:26張娜秦品樂曾建潮李啟
計算機應(yīng)用 2019年6期

張娜 秦品樂 曾建潮 李啟

摘 要:針對在灰度圖像著色領(lǐng)域中,傳統(tǒng)算法信息提取率不高、著色效果不理想的問題,提出了基于密集神經(jīng)網(wǎng)絡(luò)的灰度圖像著色算法,以實現(xiàn)改善著色效果,讓人眼更好地觀察圖片信息的目的。利用密集神經(jīng)網(wǎng)絡(luò)的信息提取高效性,構(gòu)建并訓(xùn)練了一個端到端的深度學(xué)習模型,對圖像中的各類信息及特征進行提取。訓(xùn)練網(wǎng)絡(luò)時與原圖像進行對比,以逐漸減小網(wǎng)絡(luò)輸出結(jié)果的信息、分類等各類型的損失。訓(xùn)練完成后,只需向網(wǎng)絡(luò)輸入一張灰度圖片,即可生成一張顏色飽滿、鮮明逼真的彩色圖片。實驗結(jié)果表明,引入密集網(wǎng)絡(luò)后,可有效改善著色過程中的漏色、細節(jié)信息損失、對比度低等問題,所提算法著色效果較基于VGG網(wǎng)絡(luò)及U-Net、雙流網(wǎng)絡(luò)結(jié)構(gòu)、殘差網(wǎng)絡(luò)(ResNet)等性能優(yōu)異的先進著色算法而言取得了顯著的改進。

關(guān)鍵詞:圖像著色;密集神經(jīng)網(wǎng)絡(luò);灰度圖像;特征利用;信息損失

中圖分類號:TP391.4

文獻標志碼:A

Abstract: Aiming at the problem of low information extraction rate of traditional methods and the unideal coloring effect in the grayscale image colorization field, a grayscale image colorization algorithm based on dense neural network was proposed to improve the colorization effect and make the information of image be better observed by human eyes. With making full use of the high information extraction efficiency of dense neural network, an end-to-end deep learning model was built and trained to extract multiple types of information and features in the image. During the training, the loss of the network output result (such as information loss and classification loss) was gradually reduced by comparing with the original image. After the training, with only a grayscale image input into the trained network, a full and vibrant vivid color image was able to be obtained. The experimental results show that the introduction of dense network can effectively alleviate the problems such as color leakage, loss of detail information and low contrast, during the colorization process. The coloring effect has achieved significant improvement compared with the current advanced coloring methods based on Visual Geometry Group (VGG)-net, U-Net, dual stream network structure, Residual Network (ResNet), etc.

Key words:

image coloring; dense neural network; grayscale image; feature utilization; information loss

0 引言

色彩信息是圖像所包含的一種重要信息,能夠結(jié)合圖中場景的語義及物體表面紋理信息,共同展現(xiàn)豐富的層次感。研究表明,人眼對彩色強度及其變換具有很高的敏感度,彩色圖像較灰度圖像而言,更便于人眼觀察信息;且從人的心理層面而言,彩色圖像能給與觀察者以更加愉悅、明快的感受,從而有助于理解圖像的內(nèi)容,從中獲取更加全面、豐富的信息,提高圖像使用價值。因此,將灰度圖像通過一定算法轉(zhuǎn)換為彩色圖像,獲得更好的觀察效果是非常有意義的?;叶葓D像著色(即偽彩色處理)技術(shù),即是在上述需求下產(chǎn)生的,通過一種指定的規(guī)則,對灰度值賦以顏色[1],實現(xiàn)還原、增強或改變圖像的色彩信息。

目前,主要存在著三類圖像著色的方法。

1)基于用戶引導(dǎo)下的顏色傳播類算法。在灰度圖像著色領(lǐng)域出現(xiàn)較早,由用戶進行關(guān)鍵部位或區(qū)域的指導(dǎo)性著色,并按照設(shè)定的算法或轉(zhuǎn)換規(guī)范進行顏色擴展。其中,Levin等[2]提出了全局優(yōu)化著色算法,支持圖像先驗定義,用戶在著色后,生成與著色筆跡匹配的彩色圖像;Lagodzinski等[3-4]提出了一種新穎的著色方法,利用形態(tài)距離變換和圖像結(jié)構(gòu)自動傳播用戶在灰度圖像內(nèi)所寫的顏色。上述方法可取得不錯的效果,但由于不同的顏色區(qū)域需要明確指示,通常需要密集的用戶交互,且對與色度深淺等屬性無法較好地進行表征與實現(xiàn),也容易出現(xiàn)由于標注不當、灰度值過于相近等原因產(chǎn)生的顏色滲漏問題。

2)基于指定函數(shù)或參數(shù)的顏色映射算法。通過設(shè)定的著色函數(shù),將灰度值與彩色值之間建立某種映射關(guān)系,實現(xiàn)由灰色向彩色的變換。Shah等[5]在基于優(yōu)化的著色方法基礎(chǔ)上,使用三個相關(guān)系數(shù)來評估其在信息損失方面的性能;Li等[6]也使用了基于閾值應(yīng)用著色技術(shù),該類方法對閾值選取依賴性較高,且得到的著色效果顏色數(shù)目有限,效果較為生硬。

3)基于數(shù)據(jù)驅(qū)動的圖像著色方法。此類方法在早期主要有基于實例圖像參考法及類比法。Welsh等[7]提出可將灰度圖像的亮度及紋理信息與實例參考圖像進行對比,實現(xiàn)灰度圖像的著色;Liu等[8]提出可直接從互聯(lián)網(wǎng)中搜索與目標灰度圖相關(guān)的彩色參考實例圖像進行著色;Liu等[9]及Morimoto等[10]通過顏色轉(zhuǎn)換和圖像分析,實現(xiàn)對目標灰度圖像著色。此類方法在目標灰度圖與參考圖像中內(nèi)容相似的較高時,效果非常不錯,但查找參考圖像及匹配過程非常耗時,當著色目標或場景非常復(fù)雜或罕見時,著色效果就更難以得到保證。Irony等[11]則利用紋理特征匹配,首先對參考圖像和灰度圖像進行圖像分割處理,參照參考圖像,對灰度圖像中具有相似紋理的部分賦以相同的色彩,雖然也可取得不錯效果,但分割處理操作也增加了圖像處理負擔。

深度學(xué)習方法的發(fā)展及高性能圖形處理器(Graphics Processing Unit, GPU)的出現(xiàn),為基于數(shù)據(jù)驅(qū)動的圖像著色方法開辟了新的方向。該類方法利用神經(jīng)網(wǎng)絡(luò),搭建不同的網(wǎng)絡(luò)架構(gòu),通過卷積操作對圖像的內(nèi)容和特征進行提取及分析,尋找灰度圖像到彩色圖像之間的映射關(guān)系,從而訓(xùn)練出相應(yīng)的模型,實現(xiàn)著色。Cheng等[12]通過為大規(guī)模數(shù)據(jù)建模,采用基于聯(lián)合雙邊濾波的后處理方式,利用自適應(yīng)圖像聚類技術(shù)來整合圖像全局信息;Deshpande等[13]通過訓(xùn)練色度圖中的二次目標函數(shù),通過最小化目標函數(shù)實現(xiàn)圖像著色。此類網(wǎng)絡(luò)結(jié)構(gòu)較為簡單,其著色效果比較有限。Zhang等[14]提出通過VGG(Visual Geometry Group)卷積神經(jīng)網(wǎng)絡(luò)[15]來提取圖像特征,預(yù)測每個像素的顏色直方圖來為圖像著色,后又提出了新的思路,利用U-Net網(wǎng)絡(luò)[16]進行信息提取,并結(jié)合用戶交互進行著色[17];Lizuka等[18]構(gòu)建了雙流結(jié)構(gòu)網(wǎng)絡(luò),同時提取圖像的全局分類信息及局部特征信息,將兩類信息進行融合,實現(xiàn)對像素顏色的預(yù)測。此三類方法較之前的方法已取得了較大改善,但由于其網(wǎng)絡(luò)均在圖像處理過程中均進行了下采樣及上采樣操作,存在一定程度的信息丟失。Qin等[19]采用殘差網(wǎng)絡(luò)[20]進行細節(jié)特征的提取,結(jié)合分類信息指導(dǎo),在一定程度上改善了信息損失,但仍存在細節(jié)著色不完善、漏色等問題。

通過對現(xiàn)有灰度圖像著色算法進行廣泛研究分析,可以看出,現(xiàn)有的灰度圖像著色已經(jīng)可以實現(xiàn)給定一幅灰度圖像,通過一定算法得出一幅彩色圖像,但基本都存在如下共性問題:

1)細節(jié)信息還原度不高。由于對應(yīng)映射關(guān)系效率有限,特征提取的過程中存在著一定程度的信息損失,導(dǎo)致圖像中的部分內(nèi)容(尤其是較小的物體)不能被賦予適當?shù)念伾?/p>

2)物體邊界清晰度不高。在一定程度上存在著“漏色”的問題,在物體邊界處,容易存在顏色滲漏。

3)用戶交互的依賴性較強。需要借由用戶做出大量輔助操作,往往容易引入較多的隨機性誤差,且不利于將用戶從繁雜的參數(shù)調(diào)整工作中解放出來。

綜合考慮上述因素,為了充分利用圖像細節(jié)信息、輪廓信息等低階語義信息,本文采用自適應(yīng)性強、用戶依賴低的密集神經(jīng)網(wǎng)絡(luò),搭建著色網(wǎng)絡(luò),并且構(gòu)造了著色網(wǎng)絡(luò)損失函數(shù)以及評價指標。經(jīng)實驗驗證和理論分析,本文算法與傳統(tǒng)方法相比,可以明顯改善細節(jié)信息損失、邊界不清晰的問題,同時不需要用戶干預(yù),得到的著色模型細節(jié)更加完善、豐富。

1 相關(guān)理論

1.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)在圖像識別、語音分析、自然語言處理等領(lǐng)域已經(jīng)成為研究熱點,該網(wǎng)絡(luò)具有特征共享性,可有效降低網(wǎng)絡(luò)的復(fù)雜性,在解決特征提取及特征映射問題時可發(fā)揮非常有效的作用。特別是在圖像分析與處理應(yīng)用中,可直接將圖像輸入網(wǎng)絡(luò),避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。目前已經(jīng)有AlexNet(Alex Network)[21]、VGG、GoogleNet[22]、殘差網(wǎng)絡(luò)(Residual Network, ResNet)等不同結(jié)構(gòu)的基于卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)秀網(wǎng)絡(luò),在圖像分類任務(wù)中已經(jīng)將Top5錯誤率降到5%以下。

1.2 跨層級連接思想

在深度學(xué)習網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)深度的加深,梯度消失問題會愈加明顯,因此產(chǎn)生了較大的信息損失。目前,很多研究學(xué)者都針對此問題提出了解決方案,如ResNet、Highway Networks[23]、Stochastic depth[24]、FractalNets[25]等,此類算法的網(wǎng)絡(luò)結(jié)構(gòu)各有差別,但其核心都在于——創(chuàng)建早期層級到后期層級之間的短連接路徑,在較小的代價下,利用較早層級提取到的信息,提高整體信息利用率。其中,ResNet由于其較好的性能和結(jié)構(gòu)的簡單性,為較多研究者所采用。該網(wǎng)絡(luò)通過在殘差塊的輸出和輸入之間引入一個短連接,而不是簡單地堆疊網(wǎng)絡(luò),實際映射關(guān)系可表示為F(x)+x,如圖 1所示。

1.3 密集神經(jīng)網(wǎng)絡(luò)

與傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)不同,密集神經(jīng)網(wǎng)絡(luò)DenseNet(Densely connected convolutional Network)[26]不是通過極其深或者寬的網(wǎng)絡(luò)來獲得更好的性能,而是通過特征重用來提升網(wǎng)絡(luò)的性能及潛力,產(chǎn)生易于訓(xùn)練和參數(shù)效率高的壓縮模型。殘差神經(jīng)網(wǎng)絡(luò)(ResNet)雖然也利用了跳層連接的思想,但其僅利用了上一層輸入作為信息補充,并未充分利用早期層級特征。而密集網(wǎng)絡(luò)通過連接不同層級的特征圖,將傳統(tǒng)模型中未曾利用或充分利用的前期層級的特征均引入新的層級中,充分利用了低層級卷積層對位置信息、形狀信息的敏感性,增加后續(xù)層輸入的變化,將更加有效地提高效率,這也是DenseNet和ResNet之間的主要區(qū)別。DenseNet相較于ResNet及早期其他類型網(wǎng)絡(luò),具備更高的信息利用率。密集網(wǎng)絡(luò)主體結(jié)構(gòu)如圖2所示。

2 本文算法

本文算法引入密集神經(jīng)網(wǎng)絡(luò),利用其信息提取率和特征利用率高的特性,結(jié)合分類指導(dǎo)及損失優(yōu)化,使輸出彩色圖像的細節(jié)特征更為豐富、輪廓更為清晰,進而達到更好的著色效果。

2.1 設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)

2.1.1 總體網(wǎng)絡(luò)結(jié)構(gòu)

現(xiàn)有的基于深度學(xué)習的灰度圖像著色網(wǎng)絡(luò)主要是通過構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),對圖像的細節(jié)紋理特征進行提取,著色效果尚可,但因沒有適當?shù)姆绞絹韺W(xué)習正確的圖像全局上下文信息(如場景是屬于室內(nèi)還是室外等),著色網(wǎng)絡(luò)可能出現(xiàn)明顯的錯誤。Lizuka等[18]將圖片的類別信息也融入網(wǎng)絡(luò),用圖片的類別信息來協(xié)同訓(xùn)練模型,對整個著色網(wǎng)絡(luò)起到了分類指導(dǎo)作用。Qin等[19]在此原理基礎(chǔ)上進行網(wǎng)絡(luò)設(shè)計,也獲得了不錯的效果,也證實了雙流結(jié)構(gòu)的有效性。

本文汲取Lizuka等[18]、Qin等[19]算法的優(yōu)點,總體采用雙流架構(gòu),主要由分類子網(wǎng)絡(luò)和特征提取子網(wǎng)絡(luò)構(gòu)成,通過整合特征信息和分類信息,實現(xiàn)由灰度圖像到彩色圖像的轉(zhuǎn)換。分類子網(wǎng)絡(luò)采用VGG網(wǎng)絡(luò)獲取圖像的分類信息;在設(shè)計特征提取子網(wǎng)絡(luò)時,為了解決傳統(tǒng)深度學(xué)習算法容易出現(xiàn)的梯度消失及底層特征利用率不足的問題,采用了密集神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)將紋理細節(jié)信息及分類信息融合后進行特征再提取,根據(jù)得到的綜合特征進行色彩預(yù)計,并與彩色圖像進行對比,計算色彩、信息量等損失,經(jīng)過多次優(yōu)化訓(xùn)練后得到最終著色模型。網(wǎng)絡(luò)結(jié)構(gòu)如圖 3所示。

2.1.2 特征提取部分

輸入圖像的L通道(此部分即為灰度圖,大小為H ×W×1)進入特征提取部分,經(jīng)過一層卷積后,將依次進入4個密集塊。每一個密集塊中的不同卷積層與其后續(xù)的卷積層進行密集連接(塊內(nèi)每層均為k個feature map,本文設(shè)置k=12)。鑒于密集網(wǎng)絡(luò)的稠密性,每一個3×3卷積前設(shè)置了一個1×1卷積(結(jié)構(gòu)如表1中的Dense-block部分),此操作可減少輸入的feature map數(shù)量,可實現(xiàn)降維效果,減少計算量,同時還可融合各個通道的特征。

在每兩個Dense-block之間,增加了1×1的卷積操作(即圖3中的Transition層),該操作可減少上一個Dense-block輸出的feature map數(shù)量(本文網(wǎng)絡(luò)設(shè)置為減少到一半),這將有效避免網(wǎng)絡(luò)過于龐大,減少進入下一個Dense-block后的計算負擔。

圖像在經(jīng)過具有上述特征的網(wǎng)絡(luò)后,大量細節(jié)特征及紋理信息將被提取出,由于密集塊中的卷積層都與前面的每一層保持連接,低級的信息也將被有效利用,有效減少了信息損失,并改善了梯度彌散的問題。

2.1.3 分類指導(dǎo)部分

圖像進入分類指導(dǎo)網(wǎng)絡(luò)后,網(wǎng)絡(luò)將逐步通過卷積操作提取圖像的分類信息,全連接層fc1將提取到的特征重構(gòu)為1×4096的特征向量,再經(jīng)由fc2、fc3整合后得到維度為1×64的特征向量,作為輔助信息進入fusion層,幫助判別圖像內(nèi)容的類別。fc4和fc5層和輸入圖像的標簽進行對比,經(jīng)過損失優(yōu)化,訓(xùn)練分類網(wǎng)絡(luò)

2.1.4 融合及輸出部分

特征提取網(wǎng)絡(luò)及分類指導(dǎo)網(wǎng)絡(luò)均完成信息提取后,可將二者進行融合,進一步充分利用分類特征及細節(jié)紋理特征。由于特征提取部分和分類提取部分所得的特征圖維度不同(前者即Dense-block4,為由密集塊組成的特征提取網(wǎng)絡(luò)產(chǎn)生的特征圖,尺寸仍為輸入網(wǎng)絡(luò)時的H×W(H=W=256),通道數(shù)為383;而后者即fc3,為VGG分類子網(wǎng)絡(luò)經(jīng)卷積操作、全連接操作及重構(gòu)整合后形成的一維特征向量,尺寸為1×64),在融合時需要進行統(tǒng)一維度,將兩部分信息將重構(gòu)為具有相同維度的feature map,即將fc3層擴展重構(gòu)為與Dense-block4特征圖相同的大小H×W,通道數(shù)為64。二者尺寸統(tǒng)一后完成通道連接融合,形成尺寸為H×W,通道數(shù)為447的特征圖Fusion_out,經(jīng)卷積操作后成為fusion層(維度為H×W×128),隨后進入Dense-block5進行特征再提取,最后經(jīng)卷積操作后成為得到H×W×2的輸出output,此部分即為網(wǎng)絡(luò)所給出的色彩部分預(yù)測值(ab通道),與黑白通道(L通道)進行融合,轉(zhuǎn)化為RGB顏色空間,就形成了一副彩色圖像。

2.2 構(gòu)造損失函數(shù)

網(wǎng)絡(luò)的損失將作為調(diào)整權(quán)重的重要參考內(nèi)容。為更好地調(diào)節(jié)網(wǎng)絡(luò)的特征提取能力及分類性能,本文綜合了特征提取子網(wǎng)絡(luò)的特征提取損失(L1)及分類指導(dǎo)子網(wǎng)絡(luò)的分類損失(L2),共同構(gòu)成總網(wǎng)絡(luò)的損失(Loss)。兩部分損失均獨立反饋給網(wǎng)絡(luò),彼此不交互影響。

2.2.1 特征提取損失L1

2.2.2 分類損失L2

分類指導(dǎo)部分,輸入圖像的分類信息作為指導(dǎo)標簽ylabel,指導(dǎo)網(wǎng)絡(luò)的預(yù)測結(jié)果為yout,采用交叉熵(Cross-Entropy)來衡量網(wǎng)絡(luò)預(yù)測的分類與真實分類的損失,即如式(7)所示:

L2=1n∑ni=1[-∑iylabeli log (youti)](7)

在對youti求log函數(shù)值時,如果youti的值為0,會出現(xiàn)log(youti)值為無窮,本文在計算時,令小于1E-10的數(shù)都等于1E-10。

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)集及環(huán)境

作為有監(jiān)督的著色網(wǎng)絡(luò),本文提出的網(wǎng)絡(luò)需要大量有分類標簽的彩色圖像作為訓(xùn)練數(shù)據(jù)集,故采用MIT Places Database[27](含205個場景分類、250多萬張圖片)、ImageNet[28](含1000個場景分類、120多萬張圖片)兩種數(shù)據(jù)集對網(wǎng)絡(luò)進行訓(xùn)練。采用HDF5對數(shù)據(jù)集進行處理,生成一個“.h5”類型的data文件,不再需要依次讀取大量單幅圖片,方便運行與維護。

本文提出的著色網(wǎng)絡(luò)需要進行大量的矩陣計算,故為提高訓(xùn)練效率,采用GPU進行訓(xùn)練,GPU型號為NVIDIA Tesla M40。在方法實現(xiàn)時,采用Python編程環(huán)境,基于TensorFlow[29]架構(gòu)進行網(wǎng)絡(luò)搭建。

3.2 評價指標

對灰度圖像進行著色的目的,主要是希望從著色結(jié)果中獲得較灰度圖像而言更豐富的信息, 那么,著色結(jié)果是否清晰,包含的信息量是否充分,即可視為衡量著色算法優(yōu)劣的重要指標。

傳統(tǒng)的圖像客觀評價指標采用的是峰值信噪比(Peak Signal-to-Noise Ratio, PSNR),分值越高即認為若質(zhì)量越好,如式(8)所示,其中MSE計算方式如式(4)所示。

PSNR=10×lg(2n-1)MSE(8)

此標準主要針對的是新圖與原圖像素之間的像素差異性,分數(shù)無法和人眼看到的視覺品質(zhì)完全一致,有可能PSNR較高者看起來反而比PSNR較低者差,不能較好地描述信息量豐富程度。為此本文引入了評價圖像所含信息充分程度的廣為采用的量化指標——圖像熵(Image Entropy)。熵指的是某一特定體系的混亂的程度,對圖像而言,圖像熵越大,圖像包含的信息更豐富。通過計算整張圖片彩色通道的信息熵,判斷圖像包含的信息量。利用圖像熵,可從客觀角度評價著色結(jié)果與人眼主觀感受是否一致。其計算方式如式(9)所示:

InEn=-∑ci=0P(i)lb P(i) (9)

其中:InEn表示圖像熵值;P(i)表示值為i的顏色在整幅圖像中出現(xiàn)的概率。

本文構(gòu)造了基于信息熵的評價標準,通過計算著色圖像的信息熵,結(jié)合主觀觀察結(jié)果,從而判斷信息豐富程度, 同時,主觀觀察結(jié)果也將驗證指標的有效性。

由于本文提出的網(wǎng)絡(luò)主要是基于Lab空間對圖像ab通道的色值進行預(yù)估,不對圖像的L通道(反映圖像的灰度信息)進行重復(fù)的計算及處理,故為提高效率,本文在評價著色效果時,僅考慮彩色通道所包含的信息。

3.3 實驗結(jié)果

3.3.1 有原圖參考下的著色效果對比

為了驗證本文所提算法的有效性及優(yōu)異性,現(xiàn)選取了部分代表性的圖片,與現(xiàn)有表現(xiàn)優(yōu)異的算法(如Zhang等[14]提出的基于VGG的著色算法,Lizuka等[18]提出的雙流結(jié)構(gòu)算法,Qin等[19]提出的基于殘差網(wǎng)絡(luò)算法)進行比較,從是否漏色、色彩對比度、細節(jié)信息損失程度等方面對上述算法著色效果進行比較,具體如圖5所示。著色效果對比中,Zhang等[14]算法、Lizuka等[18]算法的著色效果均來自其對外公示網(wǎng)站的著色結(jié)果,Qin等[19]算法的著色效果采用其最終版著色模型。

是否漏色 對圖像中的物體著色時,需要準確地識別物體的邊界,否則將會發(fā)生顏色漏色,如圖5中組(e)箭頭指出部分,Zhang等[14]算法、Lizuka等[18]算法將天空的色彩滲漏到地面上,使得著色效果不太理想,本文算法在此方面表現(xiàn)較好。

色彩對比度 在對灰度圖像著色時要注意彩色圖像中物體的顏色是各不相同的,圖5中組(a)~(d)中Zhang等[14]算法、Lizuka等[18]算法的著色結(jié)果傾向于整體賦予暖黃色色調(diào),各個物體之間的顏色沒有較好地區(qū)分開來,特別是天花板的顏色也混入主色調(diào)。 Qin等[19]算法著色效果物體區(qū)分度有了一定改善,但不如本文算法著色結(jié)果色彩對比度更鮮明,本文算法所得圖像的色彩對比度就飽和度更高,各個物體的顏色彼此獨立,不受整體色調(diào)蔓延影響,如本文算法組(a)及組(c)中的地板更接近于真實的木地板色澤紋理;組(b)中的床上用品顏色更為鮮艷。

細節(jié)信息損失程度 在整體著色能達到一定效果時,細節(jié)信息可否良好還原即成為了重要衡量指標。為對比細節(jié)效果,將圖5中組(b)和組(d)的細節(jié)進行放大對比,詳見圖6。圖6(a)中(即圖5組(b)中虛線框圈出的床頭掛畫中的綠色植物),本文算法準確地賦予了應(yīng)有的綠色,但其他三種并沒有合理地著色,與主色調(diào)融為一體;圖6(b)中本文算法相對于其他算法而言,較好地為盆栽植物及掛畫中的景物賦予了綠色。從對比效果可看出,本文算法在實現(xiàn)整體著色時,不會忽略細節(jié)部分,具備更好的細節(jié)處理能力,能較好地對細節(jié)部位予以著色。

此外,為客觀評價各個算法的性能優(yōu)劣,本文采用了3.2節(jié)中所述的圖像熵InEn作為評價指標,計算方式如式(9)所示,同時列出了采用式(8)中PSNR值,即峰值信噪比計算的結(jié)果,對比結(jié)果詳見表4。表4中圖像熵指標采用加粗的方式表示性能最好的算法,由圖像熵的定義可知,熵值更大的,表示信息量更豐富;峰值信噪比指標也采用加粗的方式表示性能最好的算法,按照定義,峰值信噪比越高,圖像質(zhì)量越好。

從圖5性能對比可以看出,采用本文所用評價指標圖像熵InEn,其評價結(jié)果與人眼所觀察的效果基本一致,這在客觀上說明了本文算法的優(yōu)異性,同時也印證了本文采用評價指標的有效性,而采用PSNR方式進行客觀評價,按此指標最高的為圖像質(zhì)量最好的,但實際效果并非如此。

3.3.2 老照片及黑白圖像著色效果對比

為了驗證本文算法的普適性,現(xiàn)選取了部分老照片及黑白圖像進行著色效果比較,對比如圖7所示。

Zhang等[14]算法、Lizuka等[18]算法存在些許著色不均勻、漏色的問題,如圖7(a)的門柱和地面;圖7(b)、(c)中天空在湖水中的倒影應(yīng)為藍色色調(diào),Zhang等[14]算法著色為綠色;圖7(c)中山體在水中的倒影,只有本文算法沒有被旁邊綠色植物的倒影影響變?yōu)榫G色;圖7(d)中,Zhang等[14]算法、Lizuka等[18]算法、Qin等[19]算法的文字牌匾及屋頂均存在一定程度的漏色、色調(diào)暗沉等問題,本文算法則表現(xiàn)良好。

從上述老照片及黑白照片著色效果來看,本文提出的算法較Zhang等[14]算法、Lizuka等[18]算法、Qin等[19]算法而言,較少出現(xiàn)漏色現(xiàn)象,細節(jié)更為豐富,對比度也更好。

3.3.3 信息損失對比

從圖5和圖7的著色效果對比中可以得知,Qin等[19]提出的基于殘差神經(jīng)網(wǎng)絡(luò)的著色算法較之前的表現(xiàn)優(yōu)秀的深度學(xué)習著色算法而言,在一定程度上減少了信息損失,著色效果也有所改善。將本文算法與其進行對比,通過隨機選取5000張圖片,按照本文3.2節(jié)中的評價指標,比較兩種著色方法的信息熵,即InEn值,Qin等[19]算法的算法均值為8.60,而本文算法均值為10.34,圖8為數(shù)據(jù)對比。上述的實驗結(jié)果可以客觀地反映出,本文著色算法較Qin等[19]的算法取得了明顯改善,信息量更豐富,著色效果更好。

4 結(jié)語

本文提出了一種基于密集神經(jīng)網(wǎng)絡(luò)的灰度圖像著色算法,該算法通過密集模塊構(gòu)成的子網(wǎng)絡(luò)和VGG分類子網(wǎng)絡(luò)分別對圖像的細節(jié)特征紋理及分類信息進行提取,二者融合后實現(xiàn)對彩色結(jié)果的預(yù)測與輸出。通過實驗證明,本文算法較現(xiàn)有的優(yōu)秀灰度圖像著色算法而言,信息量可提高1%~20%,色澤和對比度等方面也取得了較大的改善,漏色程度也明顯減小,運用于老照片及黑白照片等方面也可取得不錯的效果。

本文將密集神經(jīng)網(wǎng)絡(luò)引入圖像著色任務(wù)中,尚未針對性地研究引入后續(xù)層級的低級層級特征中,哪些層級對后期層級及網(wǎng)絡(luò)輸出有較大的影響,是否有必要全部加入后期層級,無差別地將前期層級提取的特征融入到后期層級中,可能存在一定的“冗余連接”,造成了該網(wǎng)絡(luò)的稠密性,從而對于運行設(shè)備性能要求較高,網(wǎng)絡(luò)訓(xùn)練時間也較長。同時,由于采用的數(shù)據(jù)集并未涵蓋所有圖像類別,本文所提的算法對于未學(xué)習過的圖像著色效果還不太理想。

在下一階段的研究中,首先可考慮通過優(yōu)化密集網(wǎng)絡(luò)部分及整體網(wǎng)絡(luò)架構(gòu),嘗試通過引入自適應(yīng)學(xué)習特征權(quán)重類的方式,或自適應(yīng)剪枝算法,判別早期特征的重要程度,降低網(wǎng)絡(luò)稠密性,提高整體效率;同時,可盡量多地嘗試更多種圖像類別,進一步強化算法的普適性與實用性。

參考文獻 (References)

[1] 岡薩雷斯,伍茲.數(shù)字圖像處理[M].3版.阮秋琦,譯.北京:電子工業(yè)出版社,2007:484-486.(GONZALEZ R C, WOODS R E. Digital Image Processing [M]. 3rd ed. RUAN Q Q, translated. Beijing: Publishing House of Electronics Industry, 2007: 484-486.)

[2] LEVIN A, LISCHINSKI D, WEISS Y. Colorization using optimization [J]. ACM Transactions on Graphics, 2004, 23(3): 689-694.

[3] LAGODZINSKI P, SMOLKA B. Medical image colorization [J]. Journal of Medical Informatics & Technologies, 2007(11): 47-57.

[4] LAGODZINSKI P, SMOLKA B. Colorization of medical images [J]. China Healthcare Innovation, 2009, 15(4): 13-23.

[5] SHAH A A, MIKITA G, SHAH K M. Medical image colorization using optimization technique [J]. Acta Medica Okayama, 2013, 62(141): 235-248.

[6] LI F, ZHU L, ZHANG L, et al. Pseudo-colorization of medical images based on two-stage transfer model [J]. Chinese Journal of Stereology and Image Analysis, 2013, 18(2): 135-144.

[7] WELSH T, ASHIKHMIN M, MUELLER K. Transferring color to greyscale images [J]. ACM Transactions on Graphics, 2002, 21(3): 277-280.

[8] LIU X, WAN L, QU Y, et al. Intrinsic colorization [J]. ACM Transactions on Graphics, 2008, 27(5): Article No. 152.

[9] LIU Y, COHEN M, UYTTENDAELE M, et al. AutoStyle: automatic style transfer from image collections to users images [J]. Computer Graphics Forum, 2014, 33(4): 21-31.

[10] MORIMOTO Y, TAGUCHI Y, NAEMURA T. Automatic colorization of grayscale images using multiple images on the Web [C]// Proceedings of ACM SIGGRAPH 2009. New York: ACM, 2009: Article No. 59.

[11] IRONY R, COHEN-OR D, LISCHINSKI D. Colorization by example [C]// Proceedings of the 16th Eurographics Conference on Rendering Techniques. Aire-la-Ville, Switzerland: Eurographics Association, 2005: 201-210.

[12] CHENG Z, YANG Q, SHENG B. Deep colorization [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 415-423.

[13] DESHPANDE A, ROCK J, FORSYTH D. Learning large-scale automatic image colorization [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 567-575.

[14] ZHANG R, ISOLA P, EFROS A A. Colorful image colorization [C]// ECCV2016: Proceedings of the 2016 European Conference on Computer Vision. Amsterdam: Springer International Publishing, 2016: 649-666.

[15] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J/OL]. arXiv Preprint, 2014, 2014: arXiv.1409.1556 (2014-09-04) [2018-08-10]. http://arxiv.org/abs/1409.1556.

[16] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation [C]// MICCAI 2015: Proceedings of the 2015 Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer International Publishing, 2015: 234-241.

[17] ZHANG R, ZHU J Y,? ISOLA P, et al. Real-time user-guided image colorization with learned deep priors [J]. ACM Transactions on Graphics, 2017, 36(4): Article No. 119.

[18] LIZUKA S, SIMOSERRA E, ISHIKAWA H. Let there be color?。?joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification [J]. ACM Transactions on Graphics, 2016, 35(4): Article No. 110.

[19] QIN P L, CHENG Z R, CUI Y H, et al. Research on image colorization algorithm based on residual neural network [C]// CCCV 2017: Proceedings of the 2017 CCF Chinese Conference on Computer Vision, CCIS 771. Berlin: Springer, 2017: 608-621.

[20] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.

[21] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2012: 1097-1105.

[22] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1-9.

[23] SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway networks [J/OL]. arXiv Preprint, 2015, 2015: arXiv.1505.00387 (2015-03-03) [2018-08-10]. https://arxiv.org/abs/1505.00387.

[24] HUANG G, SUN Y, LIU Z, et al. Deep networks with stochastic depth [C]// ECCV 2016: Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016: 646-661.

[25] LARSSON G, MAIRE M, SHAKHNAROVICH G. FractalNet: ultra-deep neural networks without residuals [J/OL]. arXiv Preprint, 2016, 2016: arXiv.1605.07648 (2016-05-24) [2018-08-16]. https://arxiv.org/abs/1605.07648.

[26] HUANG G, LIU Z, LAURENS V D M, et al. Densely connected convolutional networks [C]// CVPR 2017: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 2261-2269.

[27] ZHOU B, LAPEDRIZA A, XIAO J, et al. Learning deep features for scene recognition using places database [C]// NIPS 2014: Proceedings of the 2014 27th International Conference on Neural Information Processing Systems. Cambridge, CA: MIT Press, 2014: 487-495.

[28] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// CVPR 2009: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 248-255.

[29] ABADI M, AGARWAL A, BARHAM P, et al. TensorFlow: large-scale machine learning on heterogeneous distributed systems [J/OL]. arXiv Preprint, 2016, 2016: arXiv.1603.04467 [2018-08-14]. https://arxiv.org/abs/1603.04467.