何 樂,李忠偉,羅 偲,任 鵬,隋 昊
基于空洞卷積與雙注意力機制的紅外與可見光圖像融合
何 樂1,李忠偉1,羅 偲1,任 鵬1,隋 昊2
(1. 中國石油大學(華東)海洋與空間信息學院,山東 青島 266580;2. 中國石油大學(華東)計算機科學與技術學院,山東 青島 266580)
針對紅外與可見光圖像融合算法中多尺度特征提取方法損失細節(jié)信息,且現(xiàn)有的融合策略無法平衡視覺細節(jié)特征和紅外目標特征,出了基于空洞卷積與雙注意力機制(Dilated Convolution and Dual Attention Mechanism, DCDAM)的融合網(wǎng)絡。該網(wǎng)絡首先通過多尺度編碼器從圖像中提取原始特征,其中編碼器利用空洞卷積來系統(tǒng)地聚合多尺度上下文信息而不通過下采樣算子。其次,在融合策略中引入雙注意力機制,將獲得的原始特征輸入到注意力模塊進行特征增強,獲得注意力特征;原始特征和注意力特征合成最終融合特征,得在不丟失細節(jié)信息的情況下捕獲典型信息,同時抑制融合過程中的噪聲干擾。最后,解碼器采用全尺度跳躍連接和密集網(wǎng)絡對融合特征進行解碼生成融合圖像。通過實驗表明,DCDAM比其他同類有代表性的方法在定性和定量指標評價都有提高,體現(xiàn)良好的融合視覺效果。
圖像融合;空洞卷積;多尺度結(jié)構(gòu);密集網(wǎng)絡
圖像融合是將同一場景的多模態(tài)圖像中的重要信息集成到單張圖像中,以實現(xiàn)最佳信息豐富度。高分辨率、細節(jié)豐富的可見光圖像有利于視覺觀察,但當光照不足或物體被陰影、煙霧等遮擋時,會丟失重要的目標信息;而紅外圖像可以突出比背景溫度更高或低的目標而不受外在條件約束[1-2]。因此,紅外與可見光圖像融合可以全面恢復場景信息。
目前圖像融合算法可分為傳統(tǒng)方法和深度學習方法。傳統(tǒng)方法的分解和融合過程需要人工設計和大量計算,這限制了它在實時檢測任務中的應用。因此,深度學習因其能保留高級語義信息和強大的自主學習能力而被廣泛應用于圖像融合。深度學習方法可分為卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)、生成對抗網(wǎng)絡(Generative Adversarial Networks, GAN)和自動編碼/解碼器。而CNN網(wǎng)絡模型結(jié)構(gòu)簡單,對學習較復雜融合模型時效果不佳;GAN模型生成圖像不穩(wěn)定,容易造成融合圖像整體亮度降低,且在融合過程中易引入噪聲;而自動編碼/解碼器架構(gòu)在沒有監(jiān)督學習的情況下具有良好的重構(gòu)特性。2018年Li[3]等提出了一種端到端模型,將網(wǎng)絡分為編碼器、解碼器和融合層,編碼器中引入Densenet網(wǎng)絡提取圖像的深層特征,并在訓練階段丟棄融合層以獲得更加靈活的網(wǎng)絡。在此基礎上,Jian[4]等在融合階段引入了殘差模塊,通過元素選擇獲得的補償特征被傳遞到相應的卷積層去重建圖像。但是這種方法并未充分提取圖像的多尺度特征。在圖像處理中,不同尺度的特征映射得到不同的信息,底層特征圖具有詳細的空間信息和圖像邊緣信息;高級特征映射更多地是關于圖像的位置信息。因此,采用多尺度特征提取會使圖像包含信息更加豐富。2020年,Li[5]等將Unet++結(jié)構(gòu)用于圖像融合,提出NestFuse,在每層編碼器與解碼器間形成一個多尺度嵌套連接;為了減少層級之間的語義鴻溝,通過上采樣與跳躍連接,引入更多參數(shù)將中間層的特征信息利用,最后重建圖像。但是這種網(wǎng)絡模型都使用下采樣算子進行多尺度特征提取。在每次下采樣操作中,詳細信息逐漸被稀釋;同時,多尺度結(jié)構(gòu)在解碼中沒有得到充分利用。
為了進一步滿足多尺度信息融合算法的要求,本文設計了一種新的圖像融合模型DCDAM。首先提出了一種新的多尺度特征提取網(wǎng)絡,它在不改變圖像分辨率的情況下增加感受野,避免由于多次下采樣操作而丟失圖像細節(jié)信息,從而最大限度地保留原始圖像信息。同時,在特征融合中引入了雙注意力機制模塊進行特征加強。將原始特征與注意力特征相加后得到最終的融合特征,以平衡紅外目標與可見光細節(jié)信息。最后,在特征重建時提出了一種密集連接解碼網(wǎng)絡,該網(wǎng)絡通過全尺度密集網(wǎng)絡連接,充分利用多尺度特征,對提取的特征最大程度重建。通過實驗表明,DCDAM比其他同類有代表性的方法在定性和定量指標評價都有提高,體現(xiàn)良好的融合視覺效果。
本文算法模型主要包含特征提取編碼器模塊與圖像融合模塊,其中圖像融合模塊包括雙注意力機制特征融合與全尺度密集連接解碼器。vi和ir分別表示輸入可見光圖像與紅外圖像,f表示輸出融合圖像,網(wǎng)絡框架圖如1所示。
圖1 基于空洞卷積與雙注意力機制的融合框架
如表1所示,編碼器結(jié)構(gòu)深度為5層,用于圖像特征的多尺度提取。由于空洞卷積提取圖像特征可以保留內(nèi)部數(shù)據(jù)結(jié)構(gòu),可避免多次下采樣算子造成的像素損失。同時可以通過設置空洞因子的步長,在不改變分辨率情況下增加感受野[6]。DCDAM網(wǎng)絡中前兩層為普通卷積層,后3層的卷積塊用空洞卷積塊替代。卷積塊CB1和CB2(ConvBlock)包含兩個卷積與一個池化層;空洞卷積塊DCB1(Dilated ConvBlock)和DCB2包含3個空洞卷積與一個池化層。最后一次卷積提取特征后將進行特征融合,因此DCB3則比其他兩個空洞卷積塊少一個池化層。為消除空洞卷積造成的網(wǎng)格效應,并在圖像特征提取中實現(xiàn)特征全覆蓋。我們采用HDC[7]結(jié)構(gòu),通過將空洞因子設置為鋸齒狀結(jié)構(gòu)避免像素消失,即3個空洞因子分別設置為[1,2,5]。特征提取時,同時輸入一組可見光和紅外圖像,這些特征的融合是可行的,因為相同的卷積層共享相同的權重,這可以輸出相同類型的特征。
表1 編碼器的網(wǎng)絡設置
兩幅源圖像進行特征提取后輸入到圖像融合模塊。圖像融合模塊包含兩部分:一是雙注意力機制的特征融合策略;二是全尺度密集連接解碼器。下面我們將分別介紹特征融合和特征解碼重建。
1.2.1 雙注意力機制特征融合策略
大多數(shù)特征融合策略是采用平均加權方式來融合特征。但是這種融合方法無法突出源圖像中的重要信息,如紅外圖像中的目標特征信息。為了獲得更好的融合效果,保留重要細節(jié)和突出紅外目標特征,我們引入雙注意力融合策略。我們的特征融合模塊與特征提取網(wǎng)絡類似,同樣具有5層。如圖2所示為其中一層特征融合過程,將提取的可見光圖像特征與紅外圖像特征分別輸入通道注意力模塊和空間注意力模塊進行特征加強后獲得注意力特征。本文中通道注意力模塊,采用全局池化和softmax函數(shù)計算加權向量;在空間注意力模塊中由L1范數(shù)和softmax函數(shù)計算加權向量。將加權向量與原始圖相乘后獲得通道注意力特征圖,最后將注意力特征圖與原始特征圖相加獲得每層融合特征圖。
圖2 雙注意力機制融合策略
1.2.2 全尺度密集連接解碼器
解碼器目的是從全尺度上探索足夠的信息以重建融合圖像。特征融合后需要解碼器解碼以重建融合圖像。受到UNet3+[8]的解碼器啟發(fā),我們的解碼器網(wǎng)絡同樣采用全尺度密集連接網(wǎng)絡。我們將5層重建特征映射連接到解碼器塊中,在每個解碼卷積路徑上集成一個密集塊,將淺層細節(jié)信息與高層語義信息無縫集成,為后續(xù)重建提供更豐富的特征。圖3說明了構(gòu)造密集塊D3特征圖過程。上面兩條跳躍連接通過最大池化操作將F1和F2的特征進行池化下采樣,以統(tǒng)一特征圖的分辨率。下面兩條跳躍連接則通過雙線性插值法對解碼器中的D5和D4進行上采樣放大特征圖的分辨率。統(tǒng)一分辨率后通過64個3×3大小的濾波器進行卷積,產(chǎn)生64個通道的特征圖。將5個尺度的特征圖進行拼接融合后,得到320個分辨率相同的特征圖。再通過320個3×3濾波器卷積、BN和ReLU函數(shù)后獲得解碼塊D3。其他解碼塊同理獲得。最后將D1進行一次1×1卷積重建出融合圖像。
圖3 解碼器聚合圖
由于紅外和可見光圖像融合屬于異質(zhì)圖像融合,沒有融合后的真值圖像用于訓練,而訓練階段是為了獲得良好的網(wǎng)絡模型進行特征提取和特征重構(gòu),因此我們在訓練階段丟棄融合層。如圖4所示,輸入單張源圖像,在特征提取操作后跳過異源融合特征階段,直接執(zhí)行特征解碼重建的過程。通過計算重建圖像和原始圖像之間的損失值來訓練網(wǎng)絡。
圖4 訓練框架
在訓練階段,我們的損失函數(shù)由像素損失(loss)和結(jié)構(gòu)相似性損失(SSIMloss)作為總損失函數(shù)。這兩個損失函數(shù)可以同時在像素和結(jié)構(gòu)上約束重建圖像與原始圖像保持一致。像素損失loss計算公示如下:
式中:與分別代表輸出圖像和輸入圖像;(,)代表像素點位置。結(jié)構(gòu)相似性函數(shù)SSIM(structural similarity index measure)結(jié)合亮度、對比度和結(jié)構(gòu)3方面對比圖像相似性質(zhì)量。用A和B表示兩張圖像,計算其結(jié)構(gòu)相似性值表達式為:
在訓練中我們將設置為11×11,為9×10-4。結(jié)構(gòu)相似性損失(SSIMloss)定義公式如下:
式中:表示滑窗的總個數(shù)。SSIMloss越小代表融合圖像與源圖像越相似。網(wǎng)絡總損失函數(shù)定義如下:
loss=loss+SSIMloss(5)
我們從MS-COCO數(shù)據(jù)集中選擇80000張可見光圖像,從KAIST數(shù)據(jù)集中選擇20000張紅外圖像作為我們的訓練數(shù)據(jù)集。為了驗證我們方法的有效性,我們選擇了7種有代表性的融合方法進行測試實驗分析,方法包括交叉雙邊濾波融合(CBF)[9]、Densefuse、Deeplearning[10]、FusionGAN[11]、Bayesian[12]、NestFuse和DDcGAN[13]。同時,因為視覺觀測易受到主觀因素影響,我們選擇了6個客觀評價指標評估實驗結(jié)果,包括熵(En)、標準差(SD)、互信息(MI)、無參考圖像的改進結(jié)構(gòu)相似度(SSIMa)[14]、視覺信息保真度(VIF)[15]和峰值信噪比(PSNR)。所有的客觀評價指標值與融合圖像質(zhì)量成正比。本文實驗平臺為NVIDIA GeForce GTX 1650顯卡。我們將部分融合結(jié)果的細節(jié)圖放大到紅色框內(nèi),便于主觀視覺分析;客觀指標中最優(yōu)值用加粗字體,次優(yōu)值用下劃線標出。
如圖5所示,我們選取TNO[16]數(shù)據(jù)集中21組圖像進行測試,并將其中6組代表性圖像展示。從(a)到(j)分別為可見光源圖像、紅外源圖像、CBF、Densefuse、Deeplearning、FusionGAN、Bayesian、NestFuse、DDcGAN和DCDAM。從圖5中總體融合效果顯示CBF的結(jié)果噪聲干擾嚴重,結(jié)果產(chǎn)生較多虛假像素和邊緣偽影,視覺效果差;Densefuse、Deeplearning和Bayesian的融合結(jié)果更偏向可見光圖像的細節(jié)信息沒有突出紅外目標且圖像對比度低;而FusionGAN側(cè)重紅外圖像而損失了紋理細節(jié)信息,并且融合圖像產(chǎn)生平滑清晰度低。圖中第四組NestFuse沒有凸顯出傘骨的輪廓細節(jié)且背景對比度低,視覺效果較不理想,而DDcGAN結(jié)果偏紅外源圖像,在樹的重疊處出現(xiàn)融合失真,圖像中產(chǎn)生邊緣偽影。DCDAM結(jié)果中傘的輪廓清晰且失真較小。圖中第三組DDcGAN忽略了人物的細節(jié)同時融合結(jié)果有平滑效果導致圖像不清晰,NestFuse中的人物與紅外源圖像中的目標一致,沒有重建衣物細節(jié)紋理信息;而DCDAM保留了人員衣物細節(jié)。圖中第六組DDcGAN對于郵筒的輪廓重建失真不清晰,NestFuse沒有清晰顯示郵筒上的圖案,DCDAM對郵筒的輪廓和細節(jié)都有很好的重建效果。圖中第五組NestFuse目標不突出,DDcGAN可以突出目標但無法將草的細節(jié)特征形態(tài)重建出來,DCDAM的融合結(jié)果中不僅草的輪廓和細節(jié)紋理清晰,且紅外目標與背景細節(jié)的對比度高。綜上所述,DCDAM在紋理細節(jié)和突出目標上都表現(xiàn)出強大的重構(gòu)能力。
圖5 TNO數(shù)據(jù)集實驗對比數(shù)據(jù)
客觀分析中,我們對21組融合圖像客觀指標值取平均值得到表2的結(jié)果,加粗的數(shù)據(jù)為最優(yōu)結(jié)果,下劃線的數(shù)據(jù)為次優(yōu)結(jié)果。從表2數(shù)據(jù)顯示,我們的融合結(jié)果在EN、MI、SSIMa、VIF和PSNR這5種指標均為表現(xiàn)最佳,說明DCDAM在信息豐富度和視覺保真度均優(yōu)于其他方法。SD指標值稍低是因為雙注意力機制導致融合過程中存在特征平滑,導致?lián)p失清晰度。但是我們的方法SD數(shù)值仍處于前幾列,并未過于損失清晰度。NestFuse的多項指標獲得次優(yōu)值,是因為NestFuse也采用多尺度特征提取方法。但是不同的是它融合時沒有加入原始可見光圖像中的細節(jié)特征,而且特征提取時下采樣算子操作會損失細節(jié)信息,導致融合結(jié)果中紅外目標的細節(jié)紋理丟失。DDcGAN在EN指標中獲得次佳值是因為其方法產(chǎn)生邊緣偽影虛假像素,這與我們主觀分析一致。
INO[17]是加拿大光學所錄制的視頻監(jiān)控數(shù)據(jù)集,內(nèi)容涉及各種生活日常場景。我們對INO數(shù)據(jù)集的視頻幀提取后選取36組圖像作為INO測試集。將其中一組典型融合結(jié)果擴大展示如圖6,其融合結(jié)果客觀指標取平均值于表3所示。從圖6中可以看出,CBF、Densefuse、Deeplearning方法對于重建路燈的輪廓和細節(jié)信息都有損失;FusionGAN中建筑細節(jié)信息模糊,邊緣信息缺失;Beyesian在可見光細節(jié)重建方面效果較好,但是樹枝重建時丟失了紅外的輪廓信息;NestFuse中路燈細節(jié)有損失且人物重建結(jié)果偏紅外不利于視覺觀測;DDcGAN中建筑的細節(jié)模糊,同時融合圖像背景融入紅外源圖像中的噪聲點;DCDAM在路燈和建筑的輪廓細節(jié)都有很好的重建效果,同時對路燈的輪廓重建也清晰。
表2 TNO數(shù)據(jù)集評價指標
從表3的評價指標可以看出,我們的方法在EN、MI、SSIMa、VIF和PSNR指標都獲得了最佳值,說明DCDAM在此數(shù)據(jù)集上也實現(xiàn)了較好的融合結(jié)果。值得說明的是INO數(shù)據(jù)集的PSNR指標值相較于其他兩個數(shù)據(jù)集的PSNR指標值較低,是因為INO數(shù)據(jù)集是從視頻中進行提取幀圖像,含有較多噪聲點,融合結(jié)果皆會包含噪聲較多所以導致此指標值較低。DCDAM的SD指標值較低是由于我們的注意力機制在抑制噪聲點的同時對圖像有平滑效果,而此測試集中噪聲較多,導致DCDAM融合過程中圖像產(chǎn)生平滑導致清晰度不高。而NestFuse的SSIMa和VIF指標值居第二但是其他指標值低,表明其結(jié)構(gòu)信息重建很好,但是它的紅外目標的紋理信息缺失;DDcGAN方法的EN和MI指標值高,是因為其融合圖像中含有較多噪點,與源紅外圖像像素保持較多相似,這與主觀分析一致。
圖6 INO數(shù)據(jù)集實驗對比數(shù)據(jù)
VOT-RGBT[18]數(shù)據(jù)集是愛爾蘭大學利用熱成像攝像機和彩色攝像機采用同步鎖相方式拍攝。我們選取了18組圖片作為測試集,將一組融合結(jié)果展示如圖7。從圖7中看出,CBF融合結(jié)果產(chǎn)生失真,融入了噪聲干擾;Densefuse、Deeplearning、NestFuse和DDcGAN融合結(jié)果沒有突出目標特征;FusionGAN的融合結(jié)果出現(xiàn)邊緣偽影;Bayesian融合結(jié)果在放大框的結(jié)果目標不夠突出,且在融合背景天空云朵的特征時有所忽略,邊緣細節(jié)丟失;DCDAM不僅紅外目標輪廓清晰且邊緣信息保留,實現(xiàn)了紅外與可見光圖像良好的平衡。
表3 INO數(shù)據(jù)集評價指標
圖7 VOT-RGBT數(shù)據(jù)集實驗對比數(shù)據(jù)
從表4可以看出,DDcGAN在EN、VIF和PSNR指標值較高但是SD、MI和SSIMa指標低表示DDcGAN信息豐富度高,但是與源圖像相似度低,結(jié)果出現(xiàn)了失真。這與主觀視覺中融合圖像的天空云彩重建效果較好,但是出現(xiàn)了邊緣陰影分析一致。NestFuse的SD和MI指標較高表示細節(jié)紋理重構(gòu)結(jié)構(gòu)和清晰度較好,與我們主觀分析一致。DCDAM在6種評價指標中均實現(xiàn)了最佳,表明DCDAM在紅外與可見光特征實現(xiàn)了良好的平衡,在保留細節(jié)的同時突出了紅外目標。
表4 VOT-RGBT數(shù)據(jù)集評價指標
本文針對紅外與可見光圖像融合領域?qū)τ谏顚犹卣魈崛『屠们啡?,融合圖像無法平衡目標與細節(jié)信息,提出了基于空洞卷積與雙注意力機制的紅外與可見光圖像融合方法。通過空洞卷積對圖像進行多尺度信息提取,將原始特征輸入到雙注意力模塊得到注意力特征,與原始特征聚合成最終融合特征,最后通過一系列密集連接對融合特征加以解碼,在3個數(shù)據(jù)集上的主觀與客觀雙重指標證明了我們的網(wǎng)絡獲得良好的效果。但是當源圖像中含有較多噪聲點時,注意力機制會噪聲抑制對圖像進行平滑,導致清晰度欠佳,下一步我們將進一步解決此問題。
[1] LI S, KANG X, FANG L, et al. Pixel-level image fusion: a survey of the state of the art[J]., 2017, 33: 100-112.
[2] ZHAO W, LU H, WANG D. Multisensor image fusion and enhancement in spectral total variation domain[J]., 2017, 20(4): 866-879.
[3] HUI L, WU X J . DenseFuse: a fusion approach to infrared and visible images[J]., 2018, 28(5): 2614-2623.
[4] JIAN L, YANG X, LIU Z, et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion[J]., 2020, 70: 1-15.
[5] LI H, WU X J, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]., 2020, 69(12): 9645-9656.
[6] YU F, Koltun V. Multi-scale context aggregation by dilated convolutions[J/OL]. arXiv preprint arXiv:1511.07122, 2015.
[7] WANG P, CHEN P, YUAN Y, et al. Understanding convolution for semantic segmentation[C]//2018(WACV)., 2018: 1451-1460.
[8] HUANG H, LIN L, TONG R, et al. Unet 3+: A full-scale connected unet for medical image segmentation[C]//ICASSP 2020-2020(ICASSP)., 2020: 1055-1059.
[9] Shreyamsha Kumar B K. Image fusion based on pixel significance using cross bilateral filter[J]., 2015, 9(5): 1193-1204.
[10] LI H, WU X J, Kittler J. Infrared and visible image fusion using a deep learning framework[C]//2018 24th(ICPR)., 2018: 2705-2710.
[11] MA J, WEI Y, LIANG P, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]., 2019, 48:11-26.
[12] ZHAO Z, XU S, ZHANG C, et al. Bayesian fusion for infrared and visible images[J]., 2020, 177: 107734.
[13] MA J, XU H, JIANG J, et al. DDcGAN: a dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]., 2020, 29: 4980-4995.
[14] WANG Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]., 2004, 13(4): 600-612.
[15] HAN Y, CAI Y, CAO Y, et al. A new image fusion performance metric based on visual information fidelity[J]., 2013, 14(2): 127-135.
[16] Toet Alexander. TNO Image Fusion Dataset [EB/OL]. 2014, https://doi.org/10.6084/m9.figshare.1008029.v1.
[17] INO. INO’s Video Analytics Dataset[EB/OL]. [2022-06-07]. https://www. ino.ca/en/technologies/video-analytics-dataset/.
[18] Conaire C ó, O'Connor N E, Cooke E, et al. Comparison of fusion methods for thermo-visual surveillance tracking[C]//2006 9th, 2006: 1-7.
Infrared and Visible Image Fusion Based on Dilated Convolution and Dual Attention Mechanism
HE Le1,LI Zhongwei1,LUO Cai1,REN Peng1,SUI Hao2
(1. College of Oceanography and Space Informatics, China University of Petroleum (East China), Qingdao 266580, China;2. College of Computer Science and Technology, China University of Petroleum (East China), Qingdao 266580, China)
The multiscale features extraction method in infrared and visible image fusion algorithms loses detail information. Existing fusion strategies also cannot balance the visual detail and infrared target features. Therefore, a fusion network via a dilated convolution and dual-attention mechanism (DCDAM) is proposed. First, the network extracts the original features from the image through a multiscale encoder. The encoder systematically aggregates the multiscale context information through dilated convolution instead of using downsampling operator. Second, a dual-attention mechanism is introduced into the fusion strategy, and the original features are input into the attention module for feature enhancement to obtain the attention features. The original and attention features were combined into the final fusion feature. The mechanism captured the typical information without losing details and suppressed the noise during the fusion process. Finally, the decoder used a full-scale jump connection and dense network to decode the fusion features and generate the fused image. The experimental results show that the DCDAM is better than other representative methods in qualitative and quantitative index evaluations and has a good visual effect.
image fusion, dilated convolution, multiscale structure, dense network
TP391
A
1001-8891(2023)07-0732-07
2022-06-07;
2022-08-10.
何樂(1997-),女,碩士研究生。主要研究方向為圖像融合與目標檢測。E-mail:hele0128@163.com。
羅偲(1983-),男,副教授。主要研究方向為無人系統(tǒng)的仿生設計和控制。E-mail:tsai.lo.95@gmail.com。
國家自然科學基金聯(lián)合基金(U1906217);國家自然科學基金(62071491);國家重點研發(fā)計劃(2021YFE0111600);中央高校基本科研業(yè)務費專項資金資助(22CX01004A-1)。