山子岐 鄒華宇 李凡 刁悅欽
DOI:10.20030/j.cnki.1000?3932.202403022
摘 要 為解決現(xiàn)有紅外與可見光圖像融合目標(biāo)不夠顯著,輪廓紋理細(xì)節(jié)不夠清晰等問題,提出了一種基于交互注意力的紅外和可見光圖像融合網(wǎng)絡(luò)。該方法通過雙流特征提取分支提取源圖像的多尺度特征,然后經(jīng)過交互融合網(wǎng)絡(luò)獲得注意力圖,以便從紅外與可見光圖像中自適應(yīng)地選擇特征進(jìn)行融合,最后通過圖像重建模塊生成高質(zhì)量的融合圖像。在MSRS數(shù)據(jù)集和TNO數(shù)據(jù)集的實驗結(jié)果表明,所提方法在主觀視覺描述和客觀指標(biāo)評價方面均表現(xiàn)出了較好的性能,融合結(jié)果包含更清晰的細(xì)節(jié)信息和更明顯的目標(biāo)。
關(guān)鍵詞 圖像融合 深度學(xué)習(xí) 交互注意力 密集殘差連接
中圖分類號 TP183?? 文獻(xiàn)標(biāo)志碼 A?? 文章編號 1000?3932(2024)03?0523?06
作者簡介:山子岐(1998-),碩士研究生,從事計算機(jī)視覺、機(jī)器學(xué)習(xí)及人工智能等的研究。
通訊作者:李凡(1986-),副教授,從事圖像處理、計算機(jī)視覺等的研究,478263823@qq.com。
引用本文:山子岐,鄒華宇,李凡,等.基于交互注意力的紅外與可見光圖像融合算法[J].化工自動化及儀表,2024,51(3):523-527;534.
由于成像設(shè)備技術(shù)的限制,僅憑單一模態(tài)的傳感器或單一攝像頭下捕獲的信息不能有效、全面地描述成像場景[1],因此,圖像融合技術(shù)應(yīng)運(yùn)而生。紅外傳感器通過捕獲物體散發(fā)的熱輻射信息成像,能夠有效地突出行人、車輛等顯著目標(biāo),但是缺失了大部分場景的細(xì)節(jié)信息??梢姽鈭D像通常包含許多細(xì)節(jié)信息,但卻容易遭受極端環(huán)境的影響而丟失顯著性目標(biāo)。紅外和可見光圖像融合旨在整合源圖像中的互補(bǔ)信息,并生成既能突出顯著目標(biāo)又包含豐富紋理細(xì)節(jié)的高對比度融合圖像。目前,紅外和可見光圖像融合技術(shù)已在軍事行動、目標(biāo)檢測[2]、人臉識別[3]、行人重識別[4]及語義分割[5]等領(lǐng)域得到了廣泛應(yīng)用。
現(xiàn)有的融合方法主要分為兩類:傳統(tǒng)融合方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)融合方法利用數(shù)學(xué)變換將源圖像轉(zhuǎn)換到變換域,并在變換域中設(shè)計融合規(guī)則以實現(xiàn)圖像融合。傳統(tǒng)的圖像融合技術(shù)主要包括基于多尺度分解的方法、基于子空間聚類的方法[6]、基于稀疏表示的方法[7]、基于優(yōu)化的方法[8]和混合方法[9]。然而,傳統(tǒng)方法采用的變換方式越來越復(fù)雜,這無法滿足計算機(jī)實時應(yīng)用的要求[10],也難以適應(yīng)復(fù)雜場景。
近年來,深度學(xué)習(xí)的方法越來越多地應(yīng)用到圖像融合領(lǐng)域。目前,基于深度學(xué)習(xí)的紅外與可見光圖像融合大致可以分為3類,即基于自編碼器(AE)的方法、基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法和基于生成對抗網(wǎng)絡(luò)(GAN)的方法。
基于AE的方法繼承了傳統(tǒng)圖像融合算法,主要包括特征提取、融合和重建過程。LI H和WU X J首先提出了一種簡單的融合架構(gòu)[11],由編碼器層、手工融合層和解碼器層3部分組成。之后,LI H等進(jìn)一步對編碼器進(jìn)行強(qiáng)化,引入密集連接提取深度特征,實現(xiàn)特征提取與重建[12]。然而,上述方法依賴手工制作的方法來制定融合規(guī)則,嚴(yán)重限制了融合性能的提高。
基于CNN的圖像融合可以在一定程度上避免手工制作的融合規(guī)則的局限性。ZHANG H等提出一種端到端的框架[13],通過強(qiáng)度和梯度損失來保持圖像梯度和強(qiáng)度的比例。JIAN L等進(jìn)一步提出了一種基于殘差塊的對稱編碼器和解碼器結(jié)構(gòu)的紅外和可見光圖像融合方法[14]。
基于GAN的圖像融合方法采用對抗損失來約束融合網(wǎng)絡(luò)。MA J等首先將基于GAN的方法用于紅外和可見圖像融合[15]。之后,MA J等進(jìn)一步提出了一種雙鑒別器的生成對抗網(wǎng)絡(luò),以保持不同源圖像之間的分布平衡[16]。但是,過強(qiáng)的約束容易將人工紋理引入到融合圖像中。
1 基于交互注意力的紅外與可見光圖像融合網(wǎng)絡(luò)
筆者提出的融合網(wǎng)絡(luò)總體框架如圖1所示,網(wǎng)絡(luò)以端到端的CNN框架作為主干,主要由特征提取模塊、交互融合模塊和特征重建模塊組成。
1.1 特征提取
特征提取模塊包含兩條并行的特征提取支路,上下兩條支路具有相同的基于密集殘差連接的卷積層,分別用來提取紅外和可見光圖像的特征。為了更好地保留源圖像的相關(guān)信息,采用密集殘差連接的方式來提取源圖像多尺度特征。在每條特征提取分支中設(shè)有4個卷積層,卷積層的具體參數(shù)見表1,所有層的卷積核大小均為3×3,并采用LReLU作為激活函數(shù)。
1.2 交互融合
為了更好地融合來自不同源圖像的特征,筆者采用交互注意力的融合方法。首先將特征提取網(wǎng)絡(luò)提取到的紅外圖像的特征圖F和可見光圖像的特征圖F逐元素進(jìn)行相乘,得到F,之后將F與紅外圖像特征圖F進(jìn)行通道拼接和卷積操作,再將作用后的結(jié)果進(jìn)行Sigmoid操作,得到紅外圖像的注意力圖A,具體操作如下:
A=S(f((F?F),F(xiàn))) (1)
其中,?表示逐元素相乘,f表示拼接和卷積操作,S為Sigmoid函數(shù)。
同理,對可見光支路進(jìn)行相同的操作,可以得到可見光圖像的注意力圖A:
A=S(f((F?F),F(xiàn)))? (2)
接下來,將紅外圖像與可見光圖像的特征圖及其注意力圖逐元素相乘,得到加權(quán)后的紅外圖像特征注意力圖F以及可見光圖像特征注意力圖F。
具體公式定義如下:
F=A?F (3)
F=A?F (4)
最后,將F和F進(jìn)行逐元素相加,就得到了初步融合后的特征圖。
1.3 特征重建
融合后的特征圖即為特征重建模塊的輸入,其中特征重建模塊包含4個卷積層,用于充分集合公有和互補(bǔ)的特征信息,并生成最終的融合圖像。特征重建模塊的具體參數(shù)見表2,除最后一層的卷積核大小為1×1外,其余層的大小均為3×3。只有最后一層的激活函數(shù)為Tanh激活函數(shù),其余圖像重建分支中的所有卷積層均采用LReLU作為激活函數(shù)。在圖像融合領(lǐng)域,避免信息丟失是一個關(guān)鍵問題。因此,該網(wǎng)絡(luò)不引入任何下采樣,從而保證融合圖像的大小與源圖像一致。
1.4 損失函數(shù)
損失函數(shù)是優(yōu)化算法的關(guān)鍵部分,在訓(xùn)練過程中,通過最小化損失函數(shù)來調(diào)整模型參數(shù),使得模型能夠不斷優(yōu)化以提高結(jié)果的準(zhǔn)確性。文中的損失函數(shù)由結(jié)構(gòu)相似性損失L和紋理損失L組成。
為了使融合圖像能夠保持更多的結(jié)構(gòu)信息,引入結(jié)構(gòu)相似性損失Lssim:
L=(1-SSIM(I,I))+(1-SSIM(I,I)) (5)
其中,I表示融合圖像,I表示紅外圖像,I表示可見光圖像,SSIM()表示結(jié)構(gòu)相似度。
為了使融合圖像能夠保留豐富的紋理細(xì)節(jié),引入紋理損失L:
L=?I -max( ?I , ?I )? (6)
其中,max()表示選擇最大元素,?表示對圖像取梯度運(yùn)算。
融合總損失由結(jié)構(gòu)相似性損失和紋理損失兩部分構(gòu)成:
L=L+λL (7)
其中,λ是一個超參數(shù),用于平衡兩種損失函數(shù)間的差異。
2 實驗驗證
2.1 實驗數(shù)據(jù)集及實驗設(shè)置
筆者在MSRS數(shù)據(jù)集上訓(xùn)練提出的融合模型。首先在MSRS數(shù)據(jù)集上選取1 000對紅外和可見光圖像構(gòu)成訓(xùn)練集,然后采用裁剪等數(shù)據(jù)擴(kuò)充的方式擴(kuò)充數(shù)據(jù),以保證有足夠的訓(xùn)練樣本來進(jìn)行訓(xùn)練。所有實驗均基于NVIDIA 2080 Ti GPU下的PyTorch框架實現(xiàn)。筆者采用Adam優(yōu)化器對模型進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)置為0.001。測試階段,從MSRS數(shù)據(jù)集和TNO數(shù)據(jù)集中選擇部分紅外和可見光圖像對作為測試數(shù)據(jù)。
2.2 對比實驗
為了全面評估筆者所提方法的實驗性能,將其與其他5種圖像融合算法進(jìn)行了定性與定量的比較,包括DenseFuse[11]、FusionGAN[14]、IFCNN[17]、PMGI[13]和U2Fusion[18]。
2.2.1 主觀評價
圖像融合的可視化結(jié)果如圖2所示,紅外圖像含有顯著性目標(biāo)信息,可見光圖像主要包含細(xì)節(jié)信息。在每張融合圖像中劃定了一個紋理區(qū)域(紅框)、顯著目標(biāo)區(qū)域(綠框)和細(xì)節(jié)區(qū)域(藍(lán)框)。在融合結(jié)果中,F(xiàn)usionGAN和U2Fusion在一定程度上削弱了紅外目標(biāo),PMGI在融合過程中引入了噪聲,DenseFuse、FusionGAN、IFCNN和U2Fusion未能清楚地顯示隱藏在黑暗中的樹干等信息,另外FusionGAN和PMGI模糊了圖像中的文字。與其他方法相比,筆者所提方法較好地整合了紅外和可見光圖像的互補(bǔ)信息。
2.2.2 客觀評價
筆者采用視覺保真度(VIF)、互信息(MI)、熵(EN)和基于邊緣信息的指標(biāo)Q作為評價指標(biāo)對融合效果進(jìn)行客觀評價。所有評價指標(biāo)的值與圖像的融合質(zhì)量均成正相關(guān)。
圖像融合的定量結(jié)果見表3,筆者所提方法在4個指標(biāo)中都表現(xiàn)出顯著優(yōu)勢。其中,本文方法實現(xiàn)了最高的VIF,表明此方法的融合圖像具有高對比度和滿意的視覺效果。此外,本文方法的Q顯示了最好的性能,這意味著融合結(jié)果中保留了更多的邊緣細(xì)節(jié)信息。
2.3 泛化實驗
為了驗證筆者所提方法的泛化能力,將其在MSRS數(shù)據(jù)集上進(jìn)行訓(xùn)練,并將訓(xùn)練好的模型在TNO數(shù)據(jù)集上進(jìn)行測試,可視化結(jié)果如圖3所示。
在TNO數(shù)據(jù)集上的融合結(jié)果顯示,DenseFuse和U2Fusion削弱了顯著目標(biāo)。此外,F(xiàn)usionGAN和PMGI模糊了目標(biāo)的邊緣,并且在背景區(qū)域存在一定的光譜污染。與其他方法相比,筆者所提方法在顯著目標(biāo)突出、紋理細(xì)節(jié)保留等方面更加具有優(yōu)勢。
3 結(jié)束語
針對現(xiàn)有融合圖像任務(wù)中融合圖像缺乏顯著性目標(biāo)、紋理細(xì)節(jié)等問題,提出了基于交互注意力的漸進(jìn)式紅外與可見光圖像融合算法。該算法可以自適應(yīng)地集成紅外圖像與可見光圖像中有意義的特征信息。經(jīng)過大量實驗驗證,筆者提出的方法無論是在主觀還是客觀評價層面均取得了最佳的融合效果,在目標(biāo)突出、紋理細(xì)節(jié)保留等方面均有一定的優(yōu)勢,并且具有一定的泛化能力。
參 考 文 獻(xiàn)
[1] MA J,MA Y,LI C.Infrared and visible image fusion me? thods and applications:A survey[J].Information Fusion,2019,45:153-178.
[2] 寧大海,鄭晟.可見光和紅外圖像決策級融合目標(biāo)檢測算法[J].紅外技術(shù),2023,45(3):282-291.
[3] 趙云豐,尹怡欣.基于決策融合的紅外與可見光圖像人臉識別研究[J].激光與紅外,2008,38(6):622-625.
[4] LU Y,WU Y,LIU B,et al.Cross?modality person re?
identification with shared?specific feature transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2020:13379-13389.
[5] HA Q,WATANABE K,KARASAWA T,et al.MFNet:Towards real?time semantic segmentation for autono? mous vehicles with multi?spectral scenes[C]//2017 IEEE/RSJ International Conference on Intelligent Robo? ts and Systems(IROS).Piscataway,NJ:IEEE,2017:5108-5115.
[6] CVEJIC N,BULL D,CANAGARAJAH N.Region?based multimodal image fusion using ICA bases[J].IEEE Sensors Journal, 2007,7(5):743-751.
[7] LIU Y,CHEN X,WARD R K,et al.Image fusion with convolutional sparse representation[J].IEEE Signal Processing Letters,2016,23(12):1882-1886.
[8] MA J,CHEN C,LI C,et al.Infrared and visible image fusion via gradient transfer and total variation minimization[J].Information Fusion,2016,31:100-109.
[9] MA J,ZHOU Z,WANG B,et al.Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J].Infrared Physics & Technology,2017,82:8-17.
[10] LI S,KANG X,F(xiàn)ANG L,et al.Pixel?level image fu?
sion:A survey of the state of the art[J].Information Fusion,2017,33:100-112.
[11] LI H,WU X J.DenseFuse:A fusion approach to infra? red and visible images[J].IEEE Transactions on Image Processing,2018,28(5):2614-2623.
[12] LI H,WU X J,DURRANI T.NestFuse:An infrared
and visible image fusion architecture based on nest connection and spatial/channel attention models[J].IEEE Transactions on Instrumentation and Measurement,2020,69(12):9645-9656.
[13] ZHANG H,XU H,XIAO Y,et al.Rethinking the image fusion:A fast unified image fusion network based on proportional maintenance of gradient and intensity[C]//Proceedings of the AAAI Conference on Artificial Intelligence.AAAI,2020:12797-12804.
[14] JIAN L,YANG X,LIU Z,et al.A symmetric encoder?decoder with residual block for infrared and visible image fusion[J].arXiv Preprint,2019.DOI:10.48550/arXiv.1905.11447.
[15] MA J,XU H,JIANG J,et al.DDcGAN:A dual?discri? minator conditional generative adversarial network for multi?resolution image fusion[J].IEEE Transactions on Image Processing,2020,29:4980-4995.
[16] MA J,ZHANG H,SHAO Z,et al.GANMcC:A generative adversarial network with multiclassification constraints for infrared and visible image fusion[J].IEEE Transactions on Instrumentation and Measurement,2020,70:1-14.
[17] ZHANG Y,LIU Y,SUN P,et al.IFCNN:A general image fusion framework based on convolutional neural network[J].Information Fusion,2020,54:99-118.
[18] XU H,MA J,JIANG J,et al.U2Fusion:A unified unsupervised image fusion network[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,44(1):502-518.
(收稿日期:2023-05-22,修回日期:2024-03-15)
Interactive Attention?based Fusion Algorithm for
Infrared and Visible Images
SHAN Zi?qi, ZOU Hua?yu,? LI Fan,? DIAO? Yue?qin
(Faculty of Information Engineering and Automation, Kunming University of Science and Technology)
Abstract?? Considering insufficient remarkability and unclear? contour texture of existing? infrared and visible images,? an interactive attention?based infrared and visible image fusion network was proposed. In which, multi?scale features of the source image through a dual?stream feature extraction branch was extracted and? an attention map was obtained through the interactive fusion network to adaptively select features from the IR and visible images for fusion and finally generates a high?quality fused image through the image reconstruction module. Experiments on both the MSRS dataset and the TNO dataset show that, the algorithm proposed exhibits better performance in both subjective visual description and objective index evaluation, and the image fusion results contain clearer detail information and more obvious targets.
Key words??? image fusion, deep learning, interactive attention,? dense residual connectivity