黃玲琳,李強(qiáng),2,路錦正,賀賢珍,彭波,2
(1.西南科技大學(xué) 信息工程學(xué)院,四川 綿陽(yáng) 621010;2.西南科技大學(xué) 特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室,四川 綿陽(yáng) 621010)
對(duì)多模態(tài)圖像進(jìn)行融合從而得到更全面的描述信息是國(guó)內(nèi)外圖像研究與應(yīng)用關(guān)注的重點(diǎn)方向[1]。進(jìn)行融合的源圖像主要來(lái)自于視覺傳感器,在光照條件良好的情況下,使用普通視覺傳感器,當(dāng)光照不足時(shí)就需要用到紅外相機(jī)[2]。紅外圖像的抗干擾能力強(qiáng),能夠彌補(bǔ)可見光圖像的缺點(diǎn),但是紅外圖像的分辨率低和紋理細(xì)節(jié)模糊[3-4]。所以,考慮將紅外圖像與可見光圖像進(jìn)行融合,獲得更加完整的場(chǎng)景信息。
目前,國(guó)內(nèi)外已提出較多的圖像融合算法,如陳潮起[5]等人提出了一種基于多尺度低秩分解的圖像融合方法,通過(guò)多尺度低秩分解將紅外與可見光圖像分別分解為顯著圖和細(xì)節(jié)圖,根據(jù)分解圖像的特點(diǎn),有針對(duì)地設(shè)計(jì)最優(yōu)融合策略,通過(guò)此算法生成的融合圖像目標(biāo)清晰、細(xì)節(jié)豐富。林子慧[6]等人將顯著性檢測(cè)算法進(jìn)行改進(jìn),得到一種能夠提取紅外圖像顯著圖的算法,利用此算法指導(dǎo)高低頻分解圖像的融合策略,得到的融合圖像有較好的視覺效果。但是,傳統(tǒng)方法的數(shù)據(jù)量多,且往往根據(jù)圖像的單一特征進(jìn)行圖像融合,導(dǎo)致融合圖像信息量不多。隨著神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的發(fā)展,由于神經(jīng)網(wǎng)絡(luò)的計(jì)算能力強(qiáng)大,基于深度學(xué)習(xí)的圖像融合算法被提出來(lái),利用神經(jīng)網(wǎng)絡(luò)對(duì)源圖像進(jìn)行特征提取能夠彌補(bǔ)傳統(tǒng)圖像融合方法的缺陷。馬旗[7]等人提出了基于VGG(visual geometry group)網(wǎng)絡(luò)的雙波段圖像融合方法,將源圖像輸入VGG 模型提取特征圖,通過(guò) ZCA(zero-phase component analysis)白化加歸一化處理將特征降為二維,再通過(guò)3 次插值將特征恢復(fù)為源圖像的尺寸,最后加權(quán)平均得到融合圖。該方法的融合速度明顯高于其他方法。Li[8]等人提出基于Resnet 和零相位分量分析的圖像融合方法,首先用Resnet50 將源圖像的特征提取出來(lái),然后將提取到的樣式特征和內(nèi)容特征用零相位分析投影到同一空間,再通過(guò)零相位的反向操作得到最終的轉(zhuǎn)換特征,最后通過(guò)解碼網(wǎng)絡(luò)獲得融合圖像,該方法在主客觀評(píng)價(jià)上均具有較好融合性能。
基于深度學(xué)習(xí)的圖像融合框架包括編碼網(wǎng)絡(luò)、融合層以及解碼網(wǎng)絡(luò)3 部分。在編碼網(wǎng)絡(luò)采用卷積神經(jīng)網(wǎng)絡(luò)提取源圖像的特征;在融合層將提取到的特征圖進(jìn)行融合,獲得融合的特征圖;在解碼網(wǎng)絡(luò)將融合的特征圖恢復(fù)為源圖像大小。此框架有利于源圖像特征的提取以及融合圖像的生成,基于此框架,本文提出一種基于多尺度特征的圖像融合框架(feature pyramid network fuse,FPNFuse),更好地提取源圖像的特征以及融合多尺度特征。同時(shí)采用兩階段注意力模型的融合策略,突出融合圖像的目標(biāo)。
本文通過(guò)編碼網(wǎng)絡(luò)提取紅外與可見光源圖像不同尺度的特征圖,將兩階段注意力模型加入融合層,融合提取的特征圖。在解碼網(wǎng)絡(luò)將融合層輸出的多尺度特征圖進(jìn)一步融合,解碼融合的特征圖,得到最終的融合圖像。
采用深度學(xué)習(xí)框架進(jìn)行圖像融合,傳統(tǒng)的方法是直接使用訓(xùn)練好的VGG[7]或者Resnet[8]深度卷積網(wǎng)絡(luò)進(jìn)行特征提取。這些網(wǎng)絡(luò)的卷積層數(shù)多,且隨著卷積層數(shù)的增加,特征圖的空間分辨率減少,尺寸減小,高級(jí)語(yǔ)義特征被提取出來(lái)。但是只使用最后一層的深度特征進(jìn)行圖像融合,可能使小目標(biāo)完全丟失,不利于圖像中小目標(biāo)的融合。因此借鑒特征金字塔結(jié)構(gòu)[9],提出多尺度特征圖像融合框架FPNFuse,進(jìn)行圖像特征的提取與多尺度特征的融合。
在編碼網(wǎng)絡(luò)通過(guò)不同倍數(shù)的下采樣獲得不同尺寸的特征圖,在解碼網(wǎng)絡(luò)將不同尺寸的特征圖融合在一起。尺寸大的特征圖分辨率高,能夠保留小目標(biāo)的特征,尺寸小的特征圖有較高語(yǔ)義信息,能夠提取深度的特征信息,將多尺度特征圖融合起來(lái)就能兼具這兩種優(yōu)點(diǎn)。
多尺度融合框架FPNFuse 如圖1 所示,在編碼網(wǎng)絡(luò),將紅外與可見光圖像分別進(jìn)行2 倍下采樣、4 倍下采樣、8 倍下采樣以及16 倍下采樣,提取到5 種不同尺度的特征圖。將每個(gè)尺度的紅外與可見光特征圖輸入融合層進(jìn)行融合,得到不同尺寸的融合特征圖,使得源圖像不同尺度的特征信息能夠被提取出來(lái)。在解碼層,將不同尺度的融合特征圖進(jìn)行相應(yīng)倍數(shù)的上采樣,然后與該尺度的融合特征圖進(jìn)行連接,使多尺度的融合特征圖進(jìn)一步被融合。最后,解碼得到與源圖像尺寸相同的融合圖像。圖中C1 表示步長(zhǎng)為1 卷積核為3×3 的卷積操作,ECB10-ECB50 表示4 個(gè)下采樣層組成的編碼網(wǎng)絡(luò),F(xiàn)S 代表融合策略,DCB41-DCB11 表示4 個(gè)上采樣層組成的解碼網(wǎng)絡(luò)。
圖1 多尺度融合框架FPNFuseFig.1 Multi-scale image fusion framework FPNFuse
人眼在觀察物體時(shí)容易被目標(biāo)區(qū)域所吸引,這種現(xiàn)象被稱為注意力機(jī)制。通過(guò)此原理得到的注意力模型通常作為一個(gè)單獨(dú)的模塊被加入卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[10]用于目標(biāo)檢測(cè),其使用可以提高目標(biāo)檢測(cè)的準(zhǔn)確度。深度神經(jīng)網(wǎng)絡(luò)提取的特征圖眾多,為了更好地利用這些深度特征圖,使目標(biāo)在融合圖像中更突出,并且融合圖像更適合于人類視覺。因此,將注意力模型引入融合層[11]。目前融合層的融合策略主要是加權(quán)平均以及基于L1 范數(shù),這兩種策略幾乎沒有對(duì)將要融合的特征圖進(jìn)行篩選,融合圖像容易引入噪聲造成偽影,在融合層引入注意力模型能夠盡量少地引入噪聲?,F(xiàn)今融合層添加的主要是空間注意力模型,但是卷積神經(jīng)網(wǎng)絡(luò)提取的特征是三維張量,對(duì)于特征圖的通道信息也應(yīng)該進(jìn)行篩選。所以,將通道注意力模型和空間注意力模型結(jié)合起來(lái)共同對(duì)深度特征進(jìn)行融合。
紅外與可見光圖像經(jīng)過(guò)編碼網(wǎng)絡(luò)分別得到5 種尺度的特征圖,將兩類圖像相同尺度的特征圖同時(shí)輸入融合層,得到融合兩種圖像特征的空間增強(qiáng)特征圖與通道增強(qiáng)特征圖,最后將兩種增強(qiáng)特征圖進(jìn)行加權(quán)平均獲得最終的融合特征圖。這個(gè)過(guò)程見下式(1):
式中:m表示提取的深度特征級(jí)數(shù),文中m=5;表示每個(gè)尺度融合層輸出的特征圖;γ=0.5 表示進(jìn)行相加的空間注意力與通道注意力的特征權(quán)重相等;表示空間注意力模型得到的紅外與可見光融合特征圖;表示通道注意力模型得到的紅外與可見光融合特征圖。
1.2.1 空間注意力模型
將源圖像的特征圖輸入到融合層,利用L1-norm計(jì)算特征圖對(duì)應(yīng)通道數(shù)維度向量的各元素之和,再根據(jù)軟最大算子(soft-max)計(jì)算該尺度下深層特征的權(quán)重映射,將該權(quán)重與未經(jīng)處理的特征向量相乘得到增強(qiáng)特征,最后紅外和可見光圖像的增強(qiáng)特征圖相加得到空間融合特征圖。其過(guò)程見下式(2):
式中:k=2,表示進(jìn)行融合的紅外與可見光圖像;φKm(x,y)表示通道數(shù)維度的特征向量;(x,y)表示其對(duì)應(yīng)的位置;表示對(duì)特征向量進(jìn)行L1 正則化運(yùn)算;表示利用空間注意力模型在同一尺度下融合兩類圖像得到的增強(qiáng)特征圖。
1.2.2 通道注意力模型通道注意力模型的計(jì)算方式是使用全局池化計(jì)算初始加權(quán)向量,然后利用軟最大算子(soft-max)計(jì)算初始加權(quán)向量的三維加權(quán)向量,最后將三維加權(quán)向量與各通道提取到的深度特征向量相乘得到增強(qiáng)特征,將紅外和可見光圖像的增強(qiáng)特征圖相加得到通道融合特征圖。其過(guò)程見下式(3):
式中:P()表示全局池化運(yùn)算;K=2,表示進(jìn)行融合的紅外與可見光圖像;n表示深度特征φKm(n)的通道索引。
融合圖像的質(zhì)量評(píng)價(jià)分為主觀和客觀兩種方式,目前,圖像融合的客觀評(píng)價(jià)標(biāo)準(zhǔn)分為基于熵、互信息、邊緣信息保持度、自然場(chǎng)景分析等[12]。本文選擇熵(entropy,EN)、互信息(mutual information,MI)、標(biāo)準(zhǔn)差(standard deviation,SD)、小波特征互信息(feature mutual information based on wavelet,FMI_w、邊緣保持度(Qab/f)和視覺信息保真度(visual information fidelity,VIF)等作為融合圖像質(zhì)量評(píng)價(jià)度量。En 越大,表示融合圖像包含的信息越多。MI 越大,表示融合圖像的信息越真實(shí)。SD 和FMI_w 越大,表示融合圖像的有效信息越多。Qab/f越大,表示融合到結(jié)果圖像的邊緣信息越多。VIF 越大,表示越符合人眼視覺。除此之外,增加融合圖像的平均用時(shí)(average time,AT)作為融合速率評(píng)價(jià)指標(biāo),平均用時(shí)越短表示融合效率越高。
首先訓(xùn)練FPNFuse 圖像融合框架,實(shí)驗(yàn)中學(xué)習(xí)率設(shè)置為lr=1×10-4,批處理大小batch_size=4,epoch=2,使用256×256 的紅外與可見光圖像進(jìn)行測(cè)試。模型的損失為像素?fù)p失與結(jié)構(gòu)相似性損失的加權(quán)和,結(jié)構(gòu)相似性損失由結(jié)構(gòu)相似性的值乘以權(quán)值λ。經(jīng)過(guò)試驗(yàn)對(duì)比λ分別為1,10,100,1000,當(dāng)λ=100時(shí),模型的損失函數(shù)收斂的最快,于是在后續(xù)試驗(yàn)均基于λ等于100。將此模型與已有的經(jīng)典圖像融合模型作對(duì)比,驗(yàn)證所提圖像融合算法和兩階段注意力模型的效果。
FPNFuse 框架的編碼器網(wǎng)絡(luò)與解碼器網(wǎng)絡(luò)每層的卷積核、步長(zhǎng)、輸入輸出通道數(shù)如表1 所示,除池化層以外,編解碼網(wǎng)絡(luò)的激活函數(shù)均使用ReLu,步長(zhǎng)均為1。解碼網(wǎng)絡(luò)的最后一個(gè)卷積層將融合特征圖恢復(fù)為一張圖像,因此將卷積核設(shè)置為1×1,最終的輸出通道數(shù)為1。
表1 編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)的設(shè)置Table 1 The setting of encoder and decoder networks
由于配準(zhǔn)好的紅外與可見光圖像數(shù)據(jù)集很少,同時(shí)訓(xùn)練階段主要訓(xùn)練模型提取特征的能力,圖像類型對(duì)模型提取圖像特征的能力影響較小。所以使用Microsoft COCO 數(shù)據(jù)集[13]作為訓(xùn)練樣本,從中選擇80000 張圖片作為訓(xùn)練集,直到損失函數(shù)達(dá)到收斂結(jié)束訓(xùn)練。每50 次記錄一下?lián)p失值,選擇前400 次迭代畫出損失曲線如圖2 所示,從圖中可以看出在50次迭代后圖像融合模型開始收斂。
圖2 模型訓(xùn)練損失曲線圖:(左)結(jié)構(gòu)相似性損失(右)像素?fù)p失Fig.2 The loss curve during model training: (Left) SSIM loss;(Right): Pixel loss
為了驗(yàn)證注意力模型對(duì)圖像融合的影響,使用TNO[14]紅外與可見光圖像數(shù)據(jù)集,隨機(jī)選取23 組配準(zhǔn)的紅外與可見光圖片作為測(cè)試集。使用FPNFuse 和DenseFuse[15]圖像融合框架進(jìn)行實(shí)驗(yàn),改變模型的融合策略,融合策略包括加權(quán)平均(add),以及添加了兩階段注意力模型的融合策略,其中通道注意力模型的全局池化函數(shù)選擇平均池化(avg)。
每個(gè)評(píng)價(jià)度量的平均值如表2 所示,在FPNFuse和DenseFuse 模型中添加注意力模塊的圖像融合模型在熵、標(biāo)準(zhǔn)差、互信息量、邊緣保持度、小波特征互信息量以及視覺保真度等指標(biāo)均優(yōu)于直接加權(quán)平均策略。
表2 不同融合策略下融合圖像質(zhì)量評(píng)價(jià)均值Table 2 The mean value of image quality evalution under different fusion strategies
將 FPNFuse 與 DeepFuse[16]、WLS[17]、Dense Fuse[15]等圖像融合框架進(jìn)行對(duì)比實(shí)驗(yàn)。DenseFuse 圖像融合框架的融合層選擇加權(quán)平均(DenseFuse_add),以及添加兩階段注意力模型的融合策略,其中通道注意力模型的全局池化函數(shù)選擇平均池化(avg)。FPNFuse 圖像融合框架的融合層添加兩階段注意力模型,其中通道注意力模型的全局池化函數(shù)選擇平均池化(avg)、最大池化(max)和核函數(shù)(nuclear)。使用23 組測(cè)試圖像在7 個(gè)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)上進(jìn)行對(duì)比,每個(gè)評(píng)價(jià)度量的平均值如表3 所示,這7 個(gè)指標(biāo)的最佳值均在FPNFuse_avg 和FPNFuse_nu-clear 中產(chǎn)生,最佳值在表中加粗??陀^評(píng)價(jià)指標(biāo)表明所提出的FPNFuse 框架能夠使融合圖像保留更多源圖像的邊緣信息,且融合效率更高,更適合人類的視覺系統(tǒng)。
表3 不同算法融合圖像質(zhì)量度量均值Table 3 The mean value of image quality evalution under different fusion algorithms
選擇一張有代表性的融合圖像“房子”作為示例,F(xiàn)PNFuse 與各圖像融合框架所獲得的融合圖像如圖3所示。對(duì)于天空中的云朵,DeepFuse、WLS 和使用加權(quán)平均的FPNFuse 算法得到的融合圖像均產(chǎn)生了很多偽影,其效果如圖3 的紅色矩形框所示。WLS、DeepFuse、DenseFuse(add)以及FPNFuse(add)的融合圖像的云朵部分均產(chǎn)生了偽影。只有添加兩階段注意力模型的FPNFuse(avg)算法得到的融合圖像的亮度與源可見光圖像最相似,且云朵的形狀未產(chǎn)生偽影與源圖像最接近。房子前的人,只有添加了注意力模型的算法在融合時(shí)以紅外圖像為主,在光線不足的條件下融合圖像更能夠突出目標(biāo)的輪廓。這些表現(xiàn)與客觀評(píng)價(jià)結(jié)果一致,因此,本文提出的算法在主客觀評(píng)價(jià)上均優(yōu)于對(duì)比算法。
圖3 “房子”圖像不同算法融合結(jié)果Fig.3 The fusion results of the same image of different fusion algorithms
多尺度特征融合結(jié)合注意力模型同樣適用于近紅外與熱紅外圖像等異源圖像的融合,融合結(jié)果如圖4,該融合圖像融合了兩種圖像的特征,保留很多細(xì)節(jié)部分且無(wú)偽影。
圖4 近紅外與熱紅外的融合圖像Fig.4 The fusion image of near and thermal infrared images
本文提出了一種基于多尺度和注意力模型的圖像融合算法,通過(guò)對(duì)源圖像多尺度特征的提取與融合,使得融合圖像能夠保留源圖像的特征且不會(huì)產(chǎn)生偽影。在融合層加入了兩階段注意力模型,突出融合圖像的輪廓。在公開數(shù)據(jù)集TNO 上進(jìn)行實(shí)驗(yàn),從主觀上可以看出,融合圖像的亮度合理,細(xì)節(jié)紋理清晰,滿足預(yù)期效果??陀^評(píng)價(jià)指標(biāo)表明,多數(shù)指標(biāo)接近或優(yōu)于對(duì)比算法,尤其是標(biāo)準(zhǔn)差、邊緣保持度、視覺信息保真度和平均用時(shí)等指標(biāo)較對(duì)比算法具有較大提升。實(shí)驗(yàn)結(jié)果表明基于對(duì)尺度和注意力模型能夠有效融合可見光與紅外圖像。