高美玲,段 錦,趙偉強(qiáng),胡 奇
〈圖像處理與仿真〉
基于空洞全局注意力機(jī)制的近紅外圖像彩色化方法
高美玲,段 錦,趙偉強(qiáng),胡 奇
(長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院,吉林 長(zhǎng)春 130012)
針對(duì)目前卷積神經(jīng)網(wǎng)絡(luò)未能充分提取圖像的淺層特征信息導(dǎo)致近紅外圖像彩色化算法存在結(jié)果圖像局部區(qū)域誤著色及網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定導(dǎo)致結(jié)果出現(xiàn)模糊問(wèn)題,提出了一種新的生成對(duì)抗網(wǎng)絡(luò)方法用于彩色化任務(wù)。首先,在生成器殘差塊中引入自行設(shè)計(jì)的空洞全局注意力模塊,對(duì)近紅外圖像的每個(gè)位置理解更加充分,改善局部區(qū)域誤著色問(wèn)題;其次,在判別網(wǎng)絡(luò)中,將批量歸一化層替換成梯度歸一化層,提升網(wǎng)絡(luò)判別性能,改善彩色化圖像生成過(guò)程帶來(lái)的模糊問(wèn)題;最后,將本文算法在RGB_NIR數(shù)據(jù)集上進(jìn)行定性和定量對(duì)比。實(shí)驗(yàn)表明,本文算法與其他經(jīng)典算法相比能充分提取近紅外圖像的淺層信息特征,在指標(biāo)方面,結(jié)構(gòu)相似性提高了0.044,峰值信噪比提高了0.835,感知相似度降低了0.021。
彩色化;近紅外圖像;生成對(duì)抗網(wǎng)絡(luò);空洞全局注意力;梯度歸一化
近紅外光是介于可見(jiàn)光和中紅外光之間的電磁波,其波長(zhǎng)范圍為780~1000nm。近紅外成像技術(shù)穿透性能非常高,即使在惡劣天氣下也能獲得細(xì)節(jié)豐富的圖像。但是與符合人類(lèi)視覺(jué)系統(tǒng)的彩色圖像相比,近紅外圖像缺少顏色信息,人類(lèi)對(duì)灰度圖像的敏感度低于彩色圖像敏感度,且近紅外圖像具有可見(jiàn)光圖像不具備的紋理細(xì)節(jié)特征,故需要將其彩色化來(lái)增加色彩信息,使近紅外圖像能更符合人類(lèi)的視覺(jué)感官。
目前針對(duì)近紅外圖像彩色化算法主要分為兩大類(lèi),一類(lèi)是基于參考圖像的顏色像素匹配方法,另一類(lèi)是基于深度學(xué)習(xí)的信息特征映射方法。
基于參考圖像的顏色像素匹配方法需要將近紅外圖像與參考圖像轉(zhuǎn)換到特定顏色空間,利用各像素級(jí)進(jìn)行映射實(shí)現(xiàn)圖像彩色化。主要分為兩類(lèi),一類(lèi)是局域顏色拓展著色,另一類(lèi)是顏色傳遞著色。針對(duì)局域顏色拓展著色,戴康[1]利用圖像的局部馬爾可夫性質(zhì)通過(guò)最小化相鄰像素間的顏色區(qū)別實(shí)現(xiàn)著色。Musialski[2]等人實(shí)現(xiàn)個(gè)性化用戶(hù)輸入偏好的物體顏色信息以實(shí)現(xiàn)圖像的彩色化;針對(duì)顏色傳遞著色,Welsh[3]等人利用查找匹配像素的方式實(shí)現(xiàn)近紅外圖像的顏色遷移。Reinhard[4]等人提出色彩遷移公式,在CIELAB(commission international eclairage LAB, CIELAB)顏色空間轉(zhuǎn)換進(jìn)行著色。以上兩種方法中均需要一張?zhí)囟ǖ膮⒖紙D像作為輸入,且顏色傳遞方法需要人工操作進(jìn)行上色,生成結(jié)果因素復(fù)雜且操作量較大。
基于深度學(xué)習(xí)的信息特征映射方法,通常將灰度圖像和可見(jiàn)光圖像兩個(gè)不同域作為網(wǎng)絡(luò)的輸入,兩個(gè)域的圖像不斷地通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,網(wǎng)絡(luò)不斷地進(jìn)行兩個(gè)域之間的特征學(xué)習(xí),進(jìn)而實(shí)現(xiàn)近紅外圖像彩色化。主要分為兩類(lèi),一類(lèi)是卷積神經(jīng)網(wǎng)絡(luò)著色,另一類(lèi)是生成對(duì)抗網(wǎng)絡(luò)著色。針對(duì)卷積神經(jīng)網(wǎng)絡(luò)著色,馮佳男[5]等通過(guò)卷積神經(jīng)網(wǎng)絡(luò)將低級(jí)特征與高級(jí)特征進(jìn)行融合著色實(shí)現(xiàn)圖像彩色化,但由于近紅外圖像淺層特征與深層特征進(jìn)行融合會(huì)導(dǎo)致淺層特征信息被覆蓋,從而邊緣漫色問(wèn)題依舊存在。Cheng[6]等利用色度分量和聯(lián)合雙邊濾波結(jié)合得到彩色化結(jié)果,但生成效果不佳;針對(duì)生成對(duì)抗網(wǎng)絡(luò)著色,Zhu[7]等人提出雙向循環(huán)生成對(duì)抗網(wǎng)絡(luò)模型,引入雙向循環(huán)一致?lián)p失函數(shù)更好地實(shí)現(xiàn)圖像彩色化,但由于生成對(duì)抗網(wǎng)絡(luò)因陡峭的梯度空間導(dǎo)致網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定,使得該方法彩色化結(jié)果出現(xiàn)模糊現(xiàn)象;Deblina[8]等人提出DUNIT網(wǎng)絡(luò),借用無(wú)監(jiān)督框架完成黑天到白天的轉(zhuǎn)換及目標(biāo)檢測(cè)兩大視覺(jué)任務(wù),但結(jié)果圖像紋理細(xì)節(jié)不清晰。萬(wàn)園園[9]等人提出的UNIT和GAN相結(jié)合實(shí)現(xiàn)灰度圖像彩色化,在一定程度上提升了彩色化效果,但錯(cuò)誤著色、模糊問(wèn)題依舊存在。
目前已有的配對(duì)并標(biāo)注好的近紅外-可見(jiàn)光圖像數(shù)據(jù)集稀少,這為近紅外圖像彩色化任務(wù)增添了難題。但生成對(duì)抗網(wǎng)絡(luò)著色采用的是無(wú)監(jiān)督學(xué)習(xí),無(wú)需成對(duì)圖像就能完成基本的著色任務(wù),且獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練機(jī)制能更好地學(xué)習(xí)建立近紅外圖像與可見(jiàn)光圖像之間的映射關(guān)系,使得生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)在大多數(shù)視覺(jué)任務(wù)中廣泛應(yīng)用,如圖像超分辨率[10-11],圖像分割[12-13]及目標(biāo)識(shí)別[14-15]等。
受此啟發(fā),本文設(shè)計(jì)了一種新的近紅外圖像彩色化生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu),將空洞全局注意力機(jī)制和梯度歸一化相結(jié)合完成近紅外圖像彩色化任務(wù)。第一,為解決彩色近紅外圖像中出現(xiàn)的局部區(qū)域誤著色問(wèn)題,本文結(jié)合空洞卷積模塊和全局注意力模塊的優(yōu)勢(shì),自行構(gòu)建了一個(gè)名為空洞全局注意力機(jī)制模塊,該模塊利用空洞卷積模塊不同擴(kuò)張率實(shí)現(xiàn)不同感受野下同等特征圖的信息,解決近紅外圖像特征感受野受限制的問(wèn)題,并結(jié)合全局注意力機(jī)制模塊中通道和空間兩路注意力操作來(lái)解決上下級(jí)近紅外圖像特征理解不充分、淺層特征提取不足問(wèn)題。在生成器網(wǎng)絡(luò)中將空洞全局注意力模塊融入到殘差塊中,用來(lái)充分提取近紅外圖像特征并反卷積進(jìn)行著色。第二,為解決彩色近紅外圖像出現(xiàn)的模糊問(wèn)題,本文在判別網(wǎng)絡(luò)中將梯度歸一化代替批量歸一化,克服了批量歸一化模塊在訓(xùn)練過(guò)程中不穩(wěn)定的問(wèn)題,提高了彩色近紅外圖像的生成質(zhì)量。
本文模型生成器在ResNet網(wǎng)絡(luò)殘差塊基礎(chǔ)上引入了空洞全局注意力機(jī)制模塊(dilated global attention module, DA Block),該模塊充分結(jié)合了空洞卷積模塊和全局注意力模塊的優(yōu)勢(shì),解決了近紅外圖像淺層特征理解不充分的問(wèn)題;利用空洞卷積模塊的優(yōu)點(diǎn)解決生成對(duì)抗網(wǎng)絡(luò)淺層特征圖感受野受限制,不能獲取近紅外圖像全部細(xì)節(jié)信息的缺陷;利用全局注意力模塊的優(yōu)點(diǎn)解決近紅外圖像全局上下文特征信息理解不充分、局部區(qū)域誤著色問(wèn)題,通道注意力模塊引入全連接進(jìn)行降維并提取近紅外圖像中更重要的細(xì)節(jié)信息,空間注意力模塊引入池化操作提取近紅外圖像不同特征并增強(qiáng)特征多樣性,使得近紅外圖像更能充分理解上下文信息,著色結(jié)果準(zhǔn)確率顯著提升。生成器結(jié)構(gòu)如圖2所示,空洞全局注意力機(jī)制模塊如圖3所示,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
1)空洞卷積模塊
空洞卷積是指在卷積核元素之間填充0來(lái)擴(kuò)大卷積核的過(guò)程??斩淳矸e如圖5所示。
若為擴(kuò)張率,為原卷積核大小,則加入空洞卷積后尺寸為=+(-1)(-1)。比如=1、2、4時(shí)感受野如圖6所示。
從圖6中可以看出空洞卷積可以增大輸出單元的感受野且不會(huì)增大卷積核大小,帶有多個(gè)不同空洞率的卷積進(jìn)行疊加時(shí)不同的感受野可以帶來(lái)多尺度信息,獲取上下文多尺度信息。本文基于TriddentNet[17]的思想,通過(guò)空洞率分別為1、2、3的空洞卷積實(shí)現(xiàn)不同感受野下同等特征圖的獲取。
2)全局注意力模塊
全局注意力模塊[18]用于在減少信息彌散情況下也同時(shí)放大全局維度交互特征。給定一個(gè)中間特征圖作為輸入,卷積注意力模塊會(huì)依次沿通道和空間兩個(gè)獨(dú)立維度判斷注意力圖,然后將其乘以自適應(yīng)特征進(jìn)行優(yōu)化得到結(jié)果。
通道注意力模塊是將中間特征圖作為輸入,分別通過(guò)全局池化和最大池化兩個(gè)操作轉(zhuǎn)成1×1×,然后經(jīng)過(guò)多層感知機(jī)進(jìn)行全連接逐像素加權(quán)操作,再經(jīng)過(guò)Sigmoid激活操作生成通道注意力特征圖,最后將通道注意力特征圖與輸入逐像素加乘得到最終的通道注意力特征圖。該特征圖關(guān)注的是該近紅外圖像上哪些內(nèi)容有重要作用,通道注意力機(jī)制可表達(dá)為公式(1)所示:
c()=[MLP(AvgPool()]+MLP(MaxPool() (1)
式中:為Sigmoid函數(shù);MLP是多層感知機(jī);AvgPool為平均池化;MaxPool為最大池化。
圖2 生成器結(jié)構(gòu)
圖3 空洞全局注意力機(jī)制模塊
圖4 空洞全局注意力機(jī)制模塊網(wǎng)絡(luò)結(jié)構(gòu)
圖5 空洞卷積
圖6 不同擴(kuò)張率下感受野
空間注意力模塊是將最終通道注意力特征圖作為輸入,經(jīng)過(guò)基于通道的全局最大池化和平均池化操作,接著將這兩個(gè)結(jié)果進(jìn)行通道融合操作,再降維成1個(gè)通道的特征圖,再經(jīng)過(guò)Sigmoid激活函數(shù)生成空間注意力機(jī)制圖,最后將該特征圖與輸入特征圖逐像素加乘得到最終的結(jié)果??臻g注意力機(jī)制表達(dá)式如公式(2)所示:
式中:7×7代表卷積核。
本文模型判別器采用的是原始馬爾可夫模型。判別器屬于卷積神經(jīng)網(wǎng)絡(luò),為了提取圖像特征,最后一層輸出一維特征圖判斷圖像的真假。針對(duì)訓(xùn)練不穩(wěn)定帶來(lái)的彩色化結(jié)果模糊問(wèn)題,本文在原始判別器批量歸一化層(batch normalization, BN)[19]替換成梯度歸一化層(gradient norm, GN),為判別函數(shù)施加了一個(gè)L1-利普希茨約束,解決了判別器因陡峭的空間造成訓(xùn)練不穩(wěn)定的問(wèn)題,提升了判別器性能。本文判別網(wǎng)絡(luò)模型如圖7所示。
1)批量歸一化
批量歸一化是2015年Google研究人員提出的一種參數(shù)歸一化手段。BN層可使網(wǎng)絡(luò)超參數(shù)的設(shè)定更加寬泛,收斂較快。BN操作在數(shù)據(jù)輸入層,對(duì)輸入數(shù)據(jù)進(jìn)行求均值、方差做歸一化,具體操作如下:
輸入:輸入:={1,…,m}
輸出:歸一化后的網(wǎng)絡(luò)響應(yīng){y=BN,(x)}
⑤返回學(xué)習(xí)參數(shù)和。
圖7 判別模型
2)梯度歸一化
梯度歸一化(gradient normalization, GN)是2021年Wu[20]提出的帶有L1-利普希茨約束的歸一化方式,該文主要解決的問(wèn)題就是生成對(duì)抗網(wǎng)絡(luò)生成圖像質(zhì)量較模糊問(wèn)題,并且在CIFAR10、CelebA-HQ及LSUN Church Outdoor等數(shù)據(jù)集上進(jìn)行測(cè)試,證明GN同時(shí)滿(mǎn)足模型集、非基于采樣及硬約束3個(gè)特性,且可兼容各種網(wǎng)絡(luò)架構(gòu),帶有約束的參數(shù)不會(huì)損失生成圖像的分辨率,不會(huì)帶有額外的超參數(shù)。具體操作如下:
輸入:生成器與判別器參數(shù)G、D,學(xué)習(xí)率G、D,批處理圖片,更新率dis,總迭代次數(shù)。
②對(duì)于=1~;
③對(duì)于dis=1~;
④對(duì)于=1~;
⑤~p,~p();
⑧潛在空間的隨機(jī)樣本{z}=12M~p();
批量歸一化雖有優(yōu)點(diǎn),但在實(shí)際網(wǎng)絡(luò)訓(xùn)練中,訓(xùn)練批尺寸參數(shù)通常設(shè)置為1,無(wú)法有效地處理所有批次圖像,進(jìn)而導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)不穩(wěn)定,出現(xiàn)生成圖像模糊問(wèn)題,而原梯度歸一化論文的思想就是為了解決生成對(duì)抗網(wǎng)絡(luò)結(jié)果圖像生成模糊問(wèn)題,故本文模型將批量歸一化層替換成梯度歸一化層進(jìn)行驗(yàn)證。
本文算法的損失函數(shù)基于生成對(duì)抗網(wǎng)絡(luò)進(jìn)行設(shè)計(jì),為了使生成圖像的細(xì)節(jié)和邊緣紋理更接近原始近紅外圖像,在對(duì)抗網(wǎng)絡(luò)損失函數(shù)基礎(chǔ)上引入SSIM(structure similarity index measure, SSIM)損失函數(shù),SSIM損失函數(shù)在亮度、對(duì)比度和圖像結(jié)構(gòu)三方面考慮了兩幅圖像之間的細(xì)節(jié)。為了實(shí)現(xiàn)上述目標(biāo),本文損失函數(shù)如下所示。
1)對(duì)抗損失。該損失目的是使生成的圖像更加真實(shí),生成更加生動(dòng)的結(jié)果,是生成對(duì)抗網(wǎng)絡(luò)中基礎(chǔ)的損失函數(shù)。
式中:是生成函數(shù);是判別函數(shù);為近紅外圖像域;為可見(jiàn)光圖像域。
2)循環(huán)一致?lián)p失。該損失用來(lái)增強(qiáng)整體結(jié)構(gòu)信息,降低近紅外圖像域和可見(jiàn)光圖像域間錯(cuò)誤映射的概率。
(())及(())為前向預(yù)測(cè),差異越大,預(yù)測(cè)與原始之間差別越大。
3)識(shí)別損失。該損失旨在控制生成器隨意修改生成的色調(diào)及樣式,增強(qiáng)生成圖像的色調(diào)準(zhǔn)確性等。
4)結(jié)構(gòu)相似性損失。用于衡量近紅外圖像與彩色近紅外圖像之間的差異,提升生成器對(duì)輸入圖像結(jié)構(gòu)的學(xué)習(xí)能力。
式中:i和v分別是近紅外圖像和生成的彩色圖像的像素平均值;i和v分別是近紅外圖像和生成的彩色圖像的方差。
5)總損失函數(shù)。聯(lián)合上述所有損失函數(shù),本文目標(biāo)是優(yōu)化總損失函數(shù)。
式中:1、2,3為超參數(shù),調(diào)整1可以調(diào)節(jié)循環(huán)一致?lián)p失函數(shù)的權(quán)重,1=10;調(diào)整2可以調(diào)節(jié)識(shí)別損失函數(shù)的權(quán)重,2=10;調(diào)節(jié)3可以調(diào)節(jié)結(jié)構(gòu)相似性損失函數(shù)的權(quán)重,3=0.6。
本實(shí)驗(yàn)在Windows 10操作系統(tǒng)下進(jìn)行,深度學(xué)習(xí)框架選取PyTorch,CUDA版本為11.1,開(kāi)源視覺(jué)庫(kù)為Python-Open CV4.5.1,圖像工作站配置為:Intel Core i7-6700 CPU,16GB內(nèi)存,NVIDIA GeFore RTX2060S(8G)顯卡,選用RGB_NIR[21]數(shù)據(jù)集進(jìn)行訓(xùn)練,統(tǒng)一尺寸為500×500。在構(gòu)建網(wǎng)絡(luò)時(shí),通過(guò)隨機(jī)梯度下降更新生成器的和判別器的權(quán)重,優(yōu)化器采用Adam,學(xué)習(xí)率初始設(shè)置為2×10-4,權(quán)重衰減設(shè)置為1×10-4,批處理大小設(shè)置為32,訓(xùn)練周期數(shù)量為200,訓(xùn)練前100周期保持學(xué)習(xí)率不變,訓(xùn)練時(shí)間為9h左右。
為了驗(yàn)證本文算法的彩色化效果,本文從定性和定量?jī)蓚€(gè)方面進(jìn)行評(píng)估。定性分析主要是從主觀(guān)角度進(jìn)行評(píng)價(jià),定量分析主要是從客觀(guān)的評(píng)價(jià)指標(biāo)作為參考進(jìn)行評(píng)價(jià)。本文選用峰值信噪比(peak signal to noise ratio, PSNR)、結(jié)構(gòu)相似性(image similarity)、感知相似度(learned perceptual image patch similarity, LPIPS)作為評(píng)價(jià)指標(biāo)。結(jié)構(gòu)相似性是用來(lái)衡量?jī)煞鶊D像在結(jié)構(gòu)上的相似程度,其值越大說(shuō)明兩者之間的結(jié)構(gòu)未發(fā)生質(zhì)變。峰值信噪比是為了衡量圖像的失真程度,數(shù)值越大說(shuō)明生成圖像的失真越小。感知相似度是用來(lái)衡量?jī)煞鶊D像之間的紋理結(jié)構(gòu)相似程度,數(shù)值越小說(shuō)明近紅外圖像與彩色近紅外圖像紋理結(jié)構(gòu)越相似,畫(huà)質(zhì)越好。
為了驗(yàn)證本文算法的有效性,將本文算法與4種典型的基于生成對(duì)抗網(wǎng)絡(luò)的彩色化算法進(jìn)行對(duì)比,算法分別是算法1:Deoldify[22]、算法2:Wei[23]、算法3:In2i[24]、算法4:CycleGAN算法[7]。算法結(jié)果對(duì)比如圖8所示。指標(biāo)比對(duì)如表1所示。
從圖8可以看出,Deoldify算法結(jié)果只針對(duì)天空上色非常好,但是對(duì)于其他場(chǎng)景效果并不符合人類(lèi)視覺(jué)感官。Wei及In2i結(jié)果針對(duì)草坪和樹(shù)木上色效果幾乎呈現(xiàn)熒綠色,存在很多不合理的細(xì)節(jié)顏色信息,飽和度較差。CycleGAN算法出現(xiàn)了嚴(yán)重的誤著色現(xiàn)象,草坪圖像中幾乎所有物體均呈現(xiàn)出紅色,無(wú)法區(qū)分物體顏色。本文算法相較于其他算法在牧場(chǎng)、大樹(shù)、雕像圖中沒(méi)有明顯的局部區(qū)域誤著色現(xiàn)象,且結(jié)果圖像顏色整體分布合理。從表1可以看出,本文算法除了在山峰圖中PSNR較低于CycleGAN算法,其他情況均取得了最佳的結(jié)果,在牧場(chǎng)圖中相較于其他算法SSIM提高了0.09,PSNR提高了1.744,LPIPS降低了0.017,在山峰圖中相較于其他算法SSIM提高了0.037,PSNR減少了0.467,LPIPS降低了0.016,在雕像圖中相較于其他算法SSIM提高了0.004,PSNR提高了1.228,LPIPS降低了0.03。
本實(shí)驗(yàn)采取不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,來(lái)驗(yàn)證GAN結(jié)構(gòu)和各模塊對(duì)算法性能的影響。共采取4組實(shí)驗(yàn)分別進(jìn)行驗(yàn)證,分別是實(shí)驗(yàn)一:原始GAN;實(shí)驗(yàn)二:GAN+空洞卷積注意力模塊;實(shí)驗(yàn)三:GAN+梯度歸一化;實(shí)驗(yàn)四:GAN+空洞卷積注意力模塊+梯度歸一化,即本文算法。從測(cè)試集中隨機(jī)挑選3組實(shí)驗(yàn)結(jié)果如圖9所示,指標(biāo)對(duì)比如表2所示。
評(píng)價(jià)指標(biāo)選取IS和FID作為衡量生成圖像清晰度和質(zhì)量的考核標(biāo)準(zhǔn)。Inception分?jǐn)?shù)(Inception score,IS)是對(duì)生成圖片清晰度和多樣性的衡量,IS值越大越好。特征度量距離(Fréchet inception distance,F(xiàn)ID)是用來(lái)衡量?jī)山M圖像的相似度,是計(jì)算真實(shí)圖像和生成圖像的特征向量之間距離的一種度量。FID分?jǐn)?shù)常被用于評(píng)估由生成對(duì)抗網(wǎng)絡(luò)生成的圖像的質(zhì)量,分?jǐn)?shù)越低說(shuō)明圖像的質(zhì)量越高。
綜合圖9和表2指標(biāo)的結(jié)果可以看出,實(shí)驗(yàn)一結(jié)果會(huì)出現(xiàn)誤著色、上色模糊問(wèn)題,實(shí)驗(yàn)二在實(shí)驗(yàn)一基礎(chǔ)上引入了空洞全局注意力機(jī)制模塊,效果上可以清晰看出錯(cuò)誤著色現(xiàn)象明顯改善,實(shí)驗(yàn)三是在實(shí)驗(yàn)一基礎(chǔ)上引入了梯度歸一化模塊,可以明顯看出生成圖像較實(shí)驗(yàn)一更為清晰,但誤著色現(xiàn)象依舊存在,實(shí)驗(yàn)四也就是本文算法,在實(shí)驗(yàn)一基礎(chǔ)上引入空洞全局注意力機(jī)制模塊和梯度歸一化模塊,從結(jié)果圖可以明顯看出圖像細(xì)節(jié)處顏色界限更加分明,模糊現(xiàn)象已明顯改善,并且從指標(biāo)中也可以看出,IS平均提高了0.491,F(xiàn)ID平均降低了1.055。為此說(shuō)明本文引入的空洞全局注意力機(jī)制模塊解決了近紅外圖像局部區(qū)域誤著色問(wèn)題,引入的梯度歸一化較好地改善了上色模糊現(xiàn)象。
圖8 各個(gè)算法對(duì)比結(jié)果:(a) 近紅外圖像;(b) Deoldify[22]結(jié)果;(c) Wei[23]結(jié)果;(d) In2i[24]結(jié)果;(e) CycleGAN算法[7]結(jié)果;(f) 本文算法結(jié)果;(g) 可見(jiàn)光圖像
為驗(yàn)證本文引入的SSIM損失函數(shù)著色效果是否有提升,采用均方誤差(mean-square error, MSE)、峰值信噪比作為評(píng)價(jià)指標(biāo)。均方誤差指的是真實(shí)圖像與彩色近紅外圖像之間的誤差,數(shù)值越大說(shuō)明兩者的相差越大。峰值信噪比是為了衡量圖像的失真程度,數(shù)值越大說(shuō)明生成圖像的失真越小。
共采取兩組實(shí)驗(yàn)進(jìn)行驗(yàn)證。實(shí)驗(yàn)一:本文模型+原始總損失函數(shù)。實(shí)驗(yàn)二:本文模型+改進(jìn)后總損失函數(shù)。將兩組實(shí)驗(yàn)分別進(jìn)行200周期訓(xùn)練,且每25周期隨機(jī)抽取15組圖像進(jìn)行MSE及PSNR測(cè)試,并取平均值繪制成最終曲線(xiàn)。其均方誤差趨勢(shì)曲線(xiàn)圖和峰值信噪比趨勢(shì)曲線(xiàn)圖分別如圖10、圖11所示。
圖10、11中黑色線(xiàn)代表實(shí)驗(yàn)一結(jié)果,紅色線(xiàn)代表實(shí)驗(yàn)二結(jié)果。從兩個(gè)曲線(xiàn)趨勢(shì)圖中可以明顯看出,引入SSIM損失函數(shù)后,本文算法在200周期中,實(shí)驗(yàn)二中MSE較實(shí)驗(yàn)一提高了3.0001,實(shí)驗(yàn)二PSNR較實(shí)驗(yàn)一提高了2.71dB,并且無(wú)論迭代次數(shù)處于什么階段,MSE和PSNR指標(biāo)均優(yōu)于實(shí)驗(yàn)一,進(jìn)一步證明了引入SSIM損失后確實(shí)提升了近紅外圖像彩色化效果。
圖9 消融實(shí)驗(yàn)一對(duì)比算法結(jié)果:(a) 近紅外圖像;(b) 實(shí)驗(yàn)一結(jié)果;(c) 實(shí)驗(yàn)二結(jié)果;(d) 實(shí)驗(yàn)三結(jié)果;(e) 實(shí)驗(yàn)四結(jié)果;(f) 可見(jiàn)光圖像
表2 消融實(shí)驗(yàn)一指標(biāo)比對(duì)
圖10 均方誤差趨勢(shì)
圖11 峰值信噪比趨勢(shì)
本文提出一種適用于近紅外圖像的彩色化生成對(duì)抗網(wǎng)絡(luò)模型,利用空洞全局注意力模塊的優(yōu)勢(shì)解決了生成的結(jié)果圖像出現(xiàn)的局部區(qū)域誤著色問(wèn)題,在判別網(wǎng)絡(luò)中將梯度歸一化代替原批量歸一化,提高了判別器性能的同時(shí),也解決了生成對(duì)抗網(wǎng)絡(luò)因陡峭的梯度空間導(dǎo)致訓(xùn)練不穩(wěn)定問(wèn)題。在生成對(duì)抗網(wǎng)絡(luò)損失的基礎(chǔ)上引入了SSIM損失函數(shù),便于網(wǎng)絡(luò)的訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文算法保留了近紅外圖像更多的細(xì)節(jié)信息,生成了色彩飽和度更高的彩色結(jié)果圖像。通過(guò)消融實(shí)驗(yàn)證明了空洞全局注意力模塊和梯度歸一化解決了近紅外彩色化任務(wù)中出現(xiàn)的結(jié)果圖像局部區(qū)域誤著色及模糊問(wèn)題。相比于其他彩色化算法,本文算法結(jié)果圖在圖像細(xì)節(jié)、邊緣紋理及清晰度方面有較好的優(yōu)勢(shì)。
[1] 戴康. 基于超像素提取和級(jí)聯(lián)匹配的灰度圖像自動(dòng)彩色化[J]. 計(jì)算機(jī)與數(shù)字工程, 2019, 47(12): 3169-3172.
DAI K. Automatic colorization of grayscale images based on superpixel extraction and cascade matching[J]., 2019, 47(12): 3169-3172.
[2] 曹麗琴, 商永星, 劉婷婷, 等. 局部自適應(yīng)的灰度圖像彩色化[J]. 中國(guó)圖象圖形學(xué)報(bào), 2019, 24(8): 1249-1257.
CAO L Q, SHANG Y X, LIU T T, et al. Locally adaptive grayscale image colorization[J]., 2019, 24(8): 1249-1257.
[3] Tomihisa Welsh, Michael Ashikhmin, Klaus Mueller. Transferring color to greyscale images[C]//, 2002, 21(3): 277-280.
[4] Reinhard E, Adhikhmin M, Gooch B, et al. Color transfer between images[J]., 2001, 21(5): 34-41.
[5] 馮佳男, 江倩, 金鑫, 等. 基于深度神經(jīng)網(wǎng)絡(luò)的遙感圖像彩色化方法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2021, 33(11): 1658-1667.
FENG J N, JIANG Q, JINX, et al. Colorization method of remote sensing image based on deep neural network[J]., 2021, 33(11): 1658-1667.
[6] CHENG Z, YANG Q, SHENG B. Deep colorization[C]//, 2015: 415-423.
[7] Isola P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[C]//2017, 2017: 1125-1134.
[8] Deblina Bhattacharjee, Seungryong Kim, Guillaume Vizier, et al. DUNIT: detection based unsupervised image-to-image translation[C]//2020(CVPR), 2020: 4787-4796.
[9] 萬(wàn)園園, 王雨青, 張曉寧, 等. 結(jié)合全局語(yǔ)義優(yōu)化的對(duì)抗性灰度圖像彩色化[J]. 液晶與顯示, 2021, 36(9): 1305-1313.
WAN Y Y, WANG Y Q, ZHANG X N, et al. Adversarial grayscale image colorization combined with global semantic optimization[J]., 2021, 36(9): 1305-1313.
[10] 左岑, 楊秀杰, 張捷, 等. 基于輕量級(jí)金字塔密集殘差網(wǎng)絡(luò)的紅外圖像超分辨增強(qiáng)[J]. 紅外技術(shù), 2021, 43(3): 251-257.
ZUO Q, YANG X J, ZHANG J, et al. Super-resolution enhancement of infrared images based on lightweight pyramidal dense residual networks[J]., 2021, 43(3): 251-257.
[11] 姜玉寧, 李勁華, 趙俊莉. 基于生成式對(duì)抗網(wǎng)絡(luò)的圖像超分辨率重建算法[J]. 計(jì)算機(jī)工程, 2021, 47(3): 249-255.
JIANG Y N, LI J H, ZHAO J L. Image super resolution reconstruction algorithm based on generative adversarial networks[J]., 2021, 47(3): 249-255.
[12] 張振江, 張寶金, 劉偉新, 等. 基于深度卷積網(wǎng)絡(luò)的礦巖圖像分割算法研究[J]. 采礦技術(shù), 2021, 21(5): 149-152, 171.
ZHANG Z J, ZHANG B J, LIU W X, et al. Research on mining rock image segmentation algorithm based on deep convolutional network[J]., 2021, 21(5): 149-152, 171.
[13] 姚永康. 基于對(duì)抗式遷移學(xué)習(xí)的皮膚病變圖像分割方法研究[D]. 西安:西京學(xué)院, 2021.
YAO Y K. Research on Skin Lesion Image Segmentation Method Based on Adversarial Transfer Learning[D]. Xi’an: Xijing University, 2021.
[14] 吳杰, 段錦, 董鎖芹, 等. DFM-GAN網(wǎng)絡(luò)在跨年齡模擬的人臉識(shí)別技術(shù)研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(10): 117-124.
WU J, DUAN J, TONG S Q, et al. DFM-GAN networks in cross-age simulation for face recognition[J]., 2021, 57(10): 117-124.
[15] 劉高天, 段錦, 范祺, 等. 基于改進(jìn)RFBNet算法的遙感圖像目標(biāo)檢測(cè)[J]. 吉林大學(xué)學(xué)報(bào): 理學(xué)版, 2021, 59(5): 1188-1198.
LIU G T, DUAN J, FAN Q, et al. Remote sensing image target detection based on improved RFBNet algorithm[J].(Science Edition), 2021, 59(5): 1188-1198.
[16] LI C, WAN D M. Precomputed real-time texture synthesis with markovian generative adversarial networks[C]//2016, 2016: 702-716.
[17] LI Y, CHEN Y, WANG N, et al. Scale aware trident networks for object detection[C]//2019(ICCV), 2019: 6053-6062.
[18] Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//2018, 2018: 3-19.
[19] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//201532, 2015: 448-456.
[20] Bhaskara V S, Aumentado-Armstrong T, Jepson A D, et al. GraN-GAN: piecewise gradient normalization for generative adversarial networks[C]//, 2022: 3821-3830.
[21] Brown M, Süsstrunk S. Multi-spectral sift for scene category recognition[C]//2011, 2011: 177-184.
[22] Jason Antic. jantic/deoldify: a deep learning based project for colorizing and restoring old images (and video!)[J/OL] [2019-10-16] https://github.com/jantic/DeOldify.
[23] LIANG W, DING D, WEI G. An improved dual GAN for near infrared image colorization[J]., 2021, 116(4): 103764-103777.
[24] Perera P, Abavisani M, Patel V M. In2i: Unsupervised multi-image-to-image translation using generative adversarial networks[C]//2018, 2018: 140-146.
Near-infrared Image Colorization Method Based on a Dilated Global Attention Mechanism
GAO Meiling,DUAN Jin,ZHAO Weiqiang,HU Qi
(,,130012,)
A new generative adversarial network method is proposed for colorization of near-infrared (NIR) images, because current convolutional neural networks fail to fully extract the shallow feature information of images. This failure leads to miscoloring of the local area of the resultant image and blurring due to unstable network training. First, a self-designed dilated global attention module was introduced into the generator residual block to identify each position of the NIR image accurately and improve the local region miscoloring problem. Second, in the discriminative network, the batch normalization layer was replaced with a gradient normalization layer to enhance the network discriminative performance and improve the blurring problem caused by the colorized image generation process. Finally, the algorithms used in this study are compared qualitatively and quantitatively using the RGB_NIR dataset. Experiments show that the proposed algorithm can fully extract the shallow information features of NIR images and improve the structural similarity by 0.044, PSNR by 0.835, and LPILS by 0.021 compared to other colorization algorithms.
colorization, near-infrared images, generative adversarial networks, dilated global attention, gradient normalization
TP391
A
1001-8891(2023)10-1096-10
2022-09-07;
2022-09-29.
高美玲(1997-),女,遼寧錦州人,博士研究生,主要研究方向:圖像處理等。
段錦(1971-),男,吉林長(zhǎng)春人,博士,教授,博士生導(dǎo)師,主要研究方向:圖像處理與模式識(shí)別等。
吉林省科技發(fā)展計(jì)劃項(xiàng)目(20210203181SF)。