国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積與自注意力的紅外與可見光圖像融合

2024-11-26 00:00:00陳曉萱徐書胡紹海馬曉樂
關(guān)鍵詞:圖像融合深度學(xué)習(xí)

摘 要: 由于卷積運(yùn)算過(guò)于關(guān)注圖像的局部特征,在對(duì)源圖像進(jìn)行融合時(shí)容易造成融合圖像的全局語(yǔ)義信息丟失。為了解決該問(wèn)題,提出一種基于卷積與自注意力的紅外與可見光圖像融合模型。該模型在使用卷積模塊提取圖像局部特征的同時(shí),還使用自注意力來(lái)提取圖像全局特征。此外,由于簡(jiǎn)單運(yùn)算無(wú)法滿足不同層次特征的融合,提出使用嵌入式塊殘差融合模塊來(lái)實(shí)現(xiàn)多層次特征融合。實(shí)驗(yàn)結(jié)果表明,相比無(wú)監(jiān)督深度融合算法,所提的方法在主觀評(píng)價(jià)與6項(xiàng)客觀指標(biāo)上的結(jié)果具有一定優(yōu)勢(shì)。其中,互信息、標(biāo)準(zhǔn)差和視覺保真度分別提升了6133%、9.96%和19.46%。

關(guān)鍵詞: 圖像融合; 全局特征; 自注意力機(jī)制; 自編碼器; 深度學(xué)習(xí)

中圖分類號(hào): TN 911.73

文獻(xiàn)標(biāo)志碼: A

DOI:10.12305/j.issn.1001-506X.2024.08.12

Infrared and visible light image fusion based on convolution and self attention

CHEN Xiaoxuan1, XU Shuwen2, HU Shaohai1,*, MA Xiaole1

(1. School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China; 2. Research

Institute of TV and Electro-Acoustics, China Electronics Technology Group Corporation, Beijing 100015, China)

Abstract: As convolution operation pays too much attention to local features of an image, which easily cause the loss of the global semantic information of the fused image when fusing source images. To solve this problem, an infrared and visible light image fusion model based on convolution and self attention is proposed in this paper. In the proposed model, convolution module is adopted to extract local features of image, and self attention is adopted to extract global features. In addition, since the simple operation cannot handle the fusion of features at different levels, the embedded block residual fusion module is proposed to realize the multi-layer feature fusion. Experimental results demonstrate that the proposed method has superiority over the unsupervised deep fusion algorithms in both subjective evaluation and six objective metrics, among which the mutual information, standard deviation, and visual fidelity are improved by 61.33%, 9.96%, and 19.46%, respectively.

Keywords: image fusion; global features; self attention; auto-encoder; deep learning

0 引 言

紅外相機(jī)是通過(guò)測(cè)量圖像向外輻射的熱量成像,因此圖像具有很強(qiáng)的抗干擾能力,但仍存在噪聲較強(qiáng)、對(duì)比度較低等缺點(diǎn)[1。可見光相機(jī)通過(guò)捕獲反射光成像,其圖像具有分辨率較高、清晰度較高的特點(diǎn),但其對(duì)于惡劣條件不具有抵抗能力[2。利用紅外與可見光圖像的互補(bǔ)特性對(duì)其進(jìn)行融合,可以獲得健壯且信息量豐富的融合圖像[3。因此,紅外與可見光圖像融合如今已廣泛應(yīng)用于高級(jí)視覺任務(wù),在計(jì)算機(jī)視覺領(lǐng)域發(fā)揮著越來(lái)越重要的作用[4。

近年來(lái),隨著深度學(xué)習(xí)領(lǐng)域的不斷突破,越來(lái)越多的學(xué)者選擇使用基于深度學(xué)習(xí)的方法來(lái)解決圖像融合問(wèn)題。文獻(xiàn)[5]通過(guò)訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN),首次將基于深度學(xué)習(xí)的方法引入到圖像融合領(lǐng)域。該方法解決了傳統(tǒng)方法需要手動(dòng)設(shè)計(jì)活動(dòng)水平測(cè)量與融合規(guī)則的問(wèn)題。文獻(xiàn)[6]首次將自編碼器作為融合框架,使用多個(gè)卷積層取代全連接層,從而大大提高了融合效率。同樣,文獻(xiàn)[7]將生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)作為融合框架,建立了生成器與判別器之間的對(duì)抗博弈,從而解決該無(wú)監(jiān)督問(wèn)題。

然而,當(dāng)前基于深度學(xué)習(xí)的圖像融合方法仍存在一些亟待解決的問(wèn)題,例如卷積運(yùn)算的局限性、融合的客觀評(píng)價(jià)體系不完善、融合的實(shí)用目的尚未挖掘等。在特征提取過(guò)程中,雖然卷積運(yùn)算有著其他方法無(wú)可比擬的優(yōu)勢(shì),但其只能挖掘感受野內(nèi)的交互,難于對(duì)長(zhǎng)程依賴進(jìn)行捕獲[8。文獻(xiàn)[9]提出全局特征編碼U型網(wǎng)絡(luò),引入了全局特征金字塔提取模塊,有效地提取和利用了全局語(yǔ)義信息和邊緣信息。在特征融合過(guò)程中,由于手動(dòng)設(shè)計(jì)融合規(guī)則容易導(dǎo)致融合結(jié)果不理想,因此如何利用深度學(xué)習(xí)的方法合理設(shè)計(jì)融合模塊,也成為圖像融合領(lǐng)域值得關(guān)注的問(wèn)題。受上述啟發(fā),本文創(chuàng)新點(diǎn)如下。

(1) 本文提出了一個(gè)新穎的基于卷積與自注意力的紅外與可見光圖像融合模型。該模型可以兼顧局部特征與全局特征的保留,降低上采樣特征損失造成的影響。

(2) 為了解決單一融合模塊無(wú)法適應(yīng)圖像不同頻率特征融合的問(wèn)題,本文提出了嵌入式塊殘差融合模塊。其淺層意在融合圖像的低頻特征,深層意在融合圖像的高頻特征。

(3) 所提出的融合模型在紅外與可見光圖像的多個(gè)數(shù)據(jù)集中得到了目標(biāo)顯著、紋理豐富的融合結(jié)果,并具有不錯(cuò)的泛化能力。將融合圖像應(yīng)用于目標(biāo)檢測(cè)任務(wù)中,結(jié)果證明本文所提方法具有一定的實(shí)際應(yīng)用價(jià)值。

1 自注意力機(jī)制

全局特征是指圖像的整體屬性,其主要包括顏色特征、紋理特征和形狀特征等。局部特征則是從圖像局部區(qū)域中提取的特征,其主要包括邊緣特征和特別屬性的區(qū)域等[10。由于傳統(tǒng)的卷積運(yùn)算是基于窗口實(shí)現(xiàn)的,難以捕獲長(zhǎng)程依賴,容易忽視對(duì)全局特征的提取。

文獻(xiàn)[11]指出,自注意力機(jī)制擁有提取圖像全局特征的能力。受此啟發(fā),本文試圖在特征提取部分引入自注意力機(jī)制,其具體構(gòu)造如圖1所示。

自注意力機(jī)制主要由以下幾個(gè)部分構(gòu)成:兩個(gè)層歸一化、多頭注意力[12、多層感知機(jī)。多頭注意力通過(guò)將多個(gè)注意力拼接在一起,彌補(bǔ)了自注意力機(jī)制過(guò)多地將注意力集中于自身位置的缺陷,實(shí)現(xiàn)了基于單一注意力學(xué)習(xí)多種行為。多層感知機(jī)就是由全連接層組成的神經(jīng)網(wǎng)絡(luò),且每個(gè)隱藏層的輸出通過(guò)激活函數(shù)進(jìn)行變換。在多頭注意力和多層感知機(jī)之前本文應(yīng)用了層歸一化,之后應(yīng)用了殘差連接。

特征圖F輸入到自注意力機(jī)制時(shí),需要先將其破壞,分割成M個(gè)一維的補(bǔ)丁Fp,其中M=(H×W)/(P×P),P表示分割后補(bǔ)丁的大小。之后,將這M個(gè)一維的補(bǔ)丁進(jìn)行自注意力機(jī)制運(yùn)算。特征F∈RH×W經(jīng)過(guò)自注意力機(jī)制的處理后得到Ft∈RH×W。

2 所提出的模型

本文針對(duì)紅外與可見光圖像融合提出了一個(gè)新穎的模型,其具體構(gòu)造如圖2所示。該模型使用改良后的U型網(wǎng)絡(luò)(U-Net)作為融合的基本框架,其具體流程為:紅外與可見光圖像分別經(jīng)過(guò)編碼器的處理,將下采樣后的特征送入卷積與自注意力模塊,得到圖像局部特征與全局特征,之后將其送入融合層。在深層融合特征的指導(dǎo)下,完成淺層特征的上采樣重建,得到最終的融合圖像。

在下采樣與上采樣之間進(jìn)行跳躍連接時(shí),容易發(fā)生大小不匹配的情況。這里本文使用轉(zhuǎn)置卷積的out_padding參數(shù)來(lái)控制輸出特征的大小。當(dāng)特征圖大小為奇數(shù)時(shí),out_padding=0;當(dāng)特征圖大小為偶數(shù)時(shí),out_padding=1。

2.1 卷積與自注意力模塊

由于卷積運(yùn)算專注局部特征的提取,為了使融合圖像既包含局部特征又包含全局特征,本文需要設(shè)計(jì)一個(gè)模塊來(lái)挖掘感受野內(nèi)的交互[13。受文獻(xiàn)[14]的啟發(fā),本文在特征提取部分使用卷積模塊與自注意力模塊并聯(lián)的方式來(lái)提取圖像全局特征與局部特征,其具體構(gòu)造如圖3所示。

本文使用3個(gè)3×3的卷積層相串聯(lián),用于提取圖像中的局部特征。之后將卷積模塊的輸出結(jié)果與自注意力模塊的輸出結(jié)果在通道層相疊加,并繼續(xù)向后續(xù)模塊進(jìn)行傳遞。

2.2 嵌入式塊殘差融合模塊

傳統(tǒng)的融合層一般采用直接或加權(quán)相加的方式,這種不具備針對(duì)性的方式容易造成特征丟失,嚴(yán)重影響圖像融合質(zhì)量[15。受文獻(xiàn)[16]提出的用于提高分辨率的模型啟發(fā),本文提出了嵌入式塊殘差融合模塊,用于融合不同層次的頻率分量,其具體構(gòu)造如圖4所示。

嵌入式塊殘差融合模塊由n個(gè)塊殘差模塊構(gòu)成,且以嵌入式的方式進(jìn)行排列。其中,塊殘差模塊的具體構(gòu)造如圖5所示。該模塊分為兩部分,分別為上采樣投影流和下采樣投影流。上采樣投影流通過(guò)一個(gè)反卷積層實(shí)現(xiàn)特征上采樣,再經(jīng)過(guò)3個(gè)卷積層得到輸出。下采樣投影流則是將反卷積后的特征進(jìn)行下采樣,再與源特征圖相減,來(lái)獲取上采樣投影流無(wú)法處理的較高頻率的特征。之后,將相減后的結(jié)果送入殘差層,作為下一個(gè)塊殘差模塊的輸入。

如圖4所示,特征融合過(guò)程可以概括為以下幾個(gè)步驟:輸入的紅外與可見光特征經(jīng)過(guò)塊殘差模塊的處理,得到對(duì)應(yīng)的上采樣投影流與下采樣投影流。下采樣投影流向下繼續(xù)進(jìn)行傳遞,而上采樣投影流的結(jié)果O1_i和O2_i(i=1,2,3,4)以遞歸融合的方式,在通道層疊加之后再經(jīng)過(guò)卷積模塊的處理,得到Oa_i(i=1,2,3,4)。最后,將遞歸融合后的結(jié)果再次在通道層相疊加,得到融合特征。如此即可實(shí)現(xiàn)多層次特征融合。

2.3 損失函數(shù)

本文設(shè)計(jì)的混合損失函數(shù)如下所示:

Loss=λ1LSSIM2LMSE3LTV(1)

該損失函數(shù)由內(nèi)容損失以及總變分 (total variation, TV) 損失構(gòu)成,內(nèi)容損失由結(jié)構(gòu)相似性指數(shù)(structural similarity index, SSIM)與均方誤差(mean squared error, MSE)損失構(gòu)成。其中,λ1設(shè)置為300,λ2和λ3被設(shè)置為1。

SSIM損失公式定義如下:

LSSIM=1-1N∑NW=1Ans(IV,IR,IF)(2)

式中:N表示圖像像素?cái)?shù);IV表示可見光圖像;IR表示紅外圖像;IF表示融合圖像。由于本文提出的是一種無(wú)監(jiān)督的訓(xùn)練方式,因此本文使用Ans(·)來(lái)判別SSIM損失作用的對(duì)象。

Ans(IV,IR,IF)=SSIM(IV,IF), E(IV)gt;E(IR

SSIM(IR,IF), E(IV)lt;E(IR)(3)

E(IR)=1N∑NW=1IRW(4)

式中:E表示局部窗口中像素的平均強(qiáng)度。式(3)說(shuō)明,當(dāng)可見光圖像的像素平均強(qiáng)度高于紅外圖像時(shí),本文選擇可見光圖像與融合圖像之間的SSIM來(lái)計(jì)算損失;反之則選擇紅外圖像與融合圖像之間的SSIM來(lái)計(jì)算損失。

MSE損失的公式定義如下:

LMSE1MSE(IV,IF)+ω2MSE(IR,IF) (5)

式中:ω1與ω2 被設(shè)置為0.5。

本文使用TV損失來(lái)消減噪聲對(duì)融合圖像的影響,其公式定義如下:LTV=∑i,j(R(i,j+1)-R(i,j)2)

R(i,j)=IV(i,j)-IF(i,j)(6)

式中:i,j分別表示圖像像素的行與列數(shù);·表示L2范數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)設(shè)置

在訓(xùn)練集方面,為了獲取數(shù)量龐大且健壯的紅外與可見光圖像對(duì)作為訓(xùn)練集,本文從TNO數(shù)據(jù)集中隨機(jī)選取25對(duì)紅外與可見光圖像,并從每對(duì)圖像中隨機(jī)取1 000對(duì)64×64的圖像塊。這樣所構(gòu)造的數(shù)據(jù)集就包含了25 000對(duì)紅外與可見光圖像,數(shù)目足以滿足模型訓(xùn)練的條件。之后,對(duì)構(gòu)建的數(shù)據(jù)集隨機(jī)左右翻轉(zhuǎn)進(jìn)行圖像增強(qiáng),就得到了用于訓(xùn)練的紅外與可見光圖像對(duì)。

在測(cè)試集方面,為了驗(yàn)證本文所提出的方法不受數(shù)據(jù)集的限制且具有不錯(cuò)的泛化性能,本文在多個(gè)紅外與可見光圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。本文所采用的數(shù)據(jù)集有:TNO數(shù)據(jù)集[17、LLVIP數(shù)據(jù)集[18、M3FD數(shù)據(jù)集[19。TNO數(shù)據(jù)集側(cè)重于自然場(chǎng)景,LLVIP數(shù)據(jù)集側(cè)重于夜晚交通場(chǎng)景,M3FD側(cè)重于城市小目標(biāo)場(chǎng)景。本文取以上3種數(shù)據(jù)集各25對(duì)進(jìn)行實(shí)驗(yàn)驗(yàn)證。

該實(shí)驗(yàn)的訓(xùn)練階段與測(cè)試階段是在TITAN_X_Pascal上執(zhí)行的,并且本實(shí)驗(yàn)使用

PyTorch環(huán)境。本文選擇Adam優(yōu)化器進(jìn)行迭代優(yōu)化,設(shè)置batch_size的值為8,設(shè)置學(xué)習(xí)率的值為0.001,設(shè)置epoch的值為100。

3.2 主觀評(píng)價(jià)

本文選擇了9種經(jīng)典融合算法作為對(duì)比實(shí)驗(yàn),分別是:曲波變換(curvelet transform, CVT)[20、非下采樣輪廓波變換(nonsubsampled contourlet transform, NSCT)[21、小波變換(wavelet transform, Wavelet)[22、多分辨率單值分解(multi-resolution singular value decomposition, MSVD)[23、引導(dǎo)濾波(gradient filter, GTF)[24、密集塊融合(dense block fusion, densefuse)[25、無(wú)監(jiān)督深度融合(unsupervised deep fusion, Deepfuse)[6、密集連接融合(densely connected fusion, FusionDN)[8、統(tǒng)一的無(wú)監(jiān)督融合(unified unsupe-rvised fusion, U2Fusion)[26。其中,CVT、NSCT、Wavelet、MSVD、GTF屬于傳統(tǒng)方法,Densefuse、Deepfuse、FusionDN、U2Fusion屬于基于深度學(xué)習(xí)的方法。以上對(duì)比實(shí)驗(yàn)的代碼在網(wǎng)絡(luò)上均可找到。

圖6展示的是在3個(gè)數(shù)據(jù)集上本文所提方法與源圖像以及其他經(jīng)典融合方法對(duì)比的結(jié)果。其中前兩列、中間兩列、最后兩列分別表示在TNO數(shù)據(jù)集、LLVIP數(shù)據(jù)集以及M3FD數(shù)據(jù)集上的主觀圖像對(duì)比結(jié)果。為了更好地對(duì)比,本文在圖中用紅色框與綠色框標(biāo)注放大區(qū)域。相較于源圖像,融合圖像既能保留紅外圖像中顯著的熱輻射信息且不受惡劣視覺條件的影響,同樣也可以保留可見光圖像中豐富的紋理細(xì)節(jié)信息。如圖6第一列所示,融合的難點(diǎn)在于樹下的行人以及脈絡(luò)清晰的樹干。圖6(c)~圖6(e)人影較為模糊,圖6(f)樹干脈絡(luò)不夠清晰。圖6第二列中雖然GTF可以得到飛機(jī)目標(biāo)較為顯著的圖像,但云層細(xì)節(jié)丟失嚴(yán)重。相比較而言,本文所提出的方法具有一定優(yōu)勢(shì)。接著,在LLVIP數(shù)據(jù)集與M3FD數(shù)據(jù)集上驗(yàn)證所提融合方法在主觀評(píng)價(jià)方面的泛化能力。圖6(c)~圖6(h)、圖6(k)中信號(hào)燈的對(duì)比度不高,缺失一部分細(xì)節(jié)。圖6(e)~圖6(i)中紅色框內(nèi)植物細(xì)節(jié)較為模糊,而圖6(c)~圖6(h)中密集人影目標(biāo)不夠顯著。綜上,本文所提出的方法能夠獲得豐富紋理細(xì)節(jié)與顯著熱輻射信息,且具有一定泛化能力。

3.3 客觀評(píng)價(jià)

為了進(jìn)一步闡述該模型在紅外與可見光圖像融合方面的優(yōu)越性,本文使用客觀指標(biāo)來(lái)對(duì)比不同融合算法。本文所采用的指標(biāo)有:相關(guān)系數(shù)CC、信息熵EN、小波特征的互信息FMIw、互信息MI、標(biāo)準(zhǔn)差SD、視覺保真度VIF。以上指標(biāo)從與源圖像的相關(guān)性、圖像本身的質(zhì)量等方面入手,使數(shù)據(jù)更具備說(shuō)服力。

如表1所示,本文所提出的方法在其中4個(gè)指標(biāo)(FMIw、MI、SD、VIF)取得了最優(yōu)的結(jié)果。FusionDN雖然在EN上實(shí)現(xiàn)了最優(yōu),但其在MI等指標(biāo)上表現(xiàn)不佳。同樣的,在LLVIP數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示??梢杂^察到,本文所提方法在其中的5個(gè)指標(biāo)(EN、FMIw、MI、SD、VIF)取得了最優(yōu)值。從表3中可以觀察到本文所提方法在M3FD數(shù)據(jù)集上能夠在其中的4個(gè)指標(biāo)(EN、FMIw、MI、VIF)上取得最優(yōu)值。雖然本文所提方法在CC上未取得過(guò)最優(yōu)值,但仍在強(qiáng)相關(guān)的范圍內(nèi)。綜上,本文所提的方法相比較而言具有不錯(cuò)的客觀評(píng)價(jià)結(jié)果。

3.4 消融實(shí)驗(yàn)

本文共進(jìn)行3組消融實(shí)驗(yàn),分別針對(duì)所提出的特征提取模塊、融合模塊以及損失函數(shù)的超參數(shù)設(shè)置,其具體結(jié)果如表4所示。

首先驗(yàn)證本文所提出的卷積與自注意力模塊的優(yōu)越性。將本文所提出的特征提取模塊與卷積模塊相比較,可以在其中4個(gè)指標(biāo)(FMIw、MI、SD、VIF)取得最優(yōu)的結(jié)果。接著驗(yàn)證本文所提出的嵌入式塊殘差融合模塊在融合紅外與可見光圖像時(shí)的優(yōu)越性。從表4可以觀察到,所提出的融合模塊相較于其他常見融合方法(直接相加、注意力機(jī)制),能夠在其中5個(gè)指標(biāo)(EN、FMIw、MI、SD、VIF)取得最優(yōu)的結(jié)果。在損失函數(shù)的構(gòu)建中,需要確定SSIM損失,MSE損失和TV損失所對(duì)應(yīng)的權(quán)重,因此本文通過(guò)消融實(shí)驗(yàn)來(lái)確定λ1參數(shù)的最佳取值。從表4還可以觀察到,當(dāng)λ1取值為300時(shí),相較于其他取值,所得到的融合圖像能夠取得更為優(yōu)越的客觀評(píng)價(jià)結(jié)果,因此在損失函數(shù)中,λ1被設(shè)置為300,λ2和λ3被設(shè)置為1。

3.5 目標(biāo)檢測(cè)的擴(kuò)展實(shí)驗(yàn)

為了驗(yàn)證所提出的方法具有實(shí)際的應(yīng)用價(jià)值,本文將源圖像和所得到的的融合圖像應(yīng)用于目標(biāo)檢測(cè)任務(wù),并且選擇5種經(jīng)典的目標(biāo)檢測(cè)模型即SSD(single shot detector)[27、快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region CNN, Faster RCNN)[28、YOLO(you only look once)v3[29、YOLOv4[30、YOLOvx[31,來(lái)驗(yàn)證不同圖像的檢測(cè)性能。在數(shù)據(jù)集的選擇方面,由于LLVIP數(shù)據(jù)集大多為夜晚交通場(chǎng)景,包含豐富的熱輻射目標(biāo)信息,因此本文從該數(shù)據(jù)集中選擇25組源圖像與融合圖像來(lái)驗(yàn)證。

如圖7所示,檢測(cè)難點(diǎn)在于密集的行人目標(biāo)以及行人所騎車輛。由于夜晚環(huán)境下燈光較暗,難以對(duì)可見光圖像中的行人進(jìn)行檢測(cè)。紅外圖像由于缺乏車輛細(xì)節(jié),容易造成車輛誤檢,將自行車檢測(cè)為摩托車。而本文所提方法得到的融合結(jié)果相比較而言能夠較為全面地對(duì)行人進(jìn)行檢測(cè)。綜上,可以證明本文所提出的融合方法能夠提升目標(biāo)檢測(cè)的精度,具有實(shí)際應(yīng)用價(jià)值。

4 結(jié) 論

本文提出了一種基于卷積與自注意力的紅外與可見光圖像融合模型。該模型基于改良后的U-Net框架,能夠兼顧全局特征與局部特征的保留,從而豐富融合圖像的細(xì)節(jié)。在編碼器部分,本文提出了卷積與自注意力模塊來(lái)提取圖像全局特征與局部特征。此外,本文還提出了嵌入式塊殘差融合模塊用于融合圖像的不同頻率分量。本文的實(shí)驗(yàn)在TNO數(shù)據(jù)集、LLVIP數(shù)據(jù)集和M3FD數(shù)據(jù)集上進(jìn)行驗(yàn)證。大量的對(duì)比實(shí)驗(yàn)以及消融實(shí)驗(yàn)表明,所提出的融合方法在主觀評(píng)價(jià)和客觀評(píng)價(jià)上均有著良好的表現(xiàn),且具有不錯(cuò)的泛化能力,更重要的是,本文所得到的融合圖像能夠提升目標(biāo)檢測(cè)的精度,從而更好地輔助各種高級(jí)視覺任務(wù),具有實(shí)際應(yīng)用價(jià)值。

自注意力機(jī)制具有較深的層次,時(shí)間復(fù)雜度較高,本文所提出的方法以時(shí)間復(fù)雜度較低的U-Net作為框架,并且以輕量級(jí)的嵌入式塊殘差融合模塊進(jìn)行融合。雖然這在一定程度上降低了融合的時(shí)間復(fù)雜度,但仍有改良的空間。這也是今后工作中需要改進(jìn)的地方,未來(lái)將繼續(xù)探索如何通過(guò)輕量級(jí)模塊更好地提取全局特征并且降低時(shí)間復(fù)雜度的問(wèn)題。

參考文獻(xiàn)

[1]李舒涵, 許宏科, 武治宇. 基于紅外與可見光圖像融合的交通標(biāo)志檢測(cè)[J]. 現(xiàn)代電子技術(shù), 2020, 43(3): 45-49.

LI S H, XU H K, WU Z Y. Traffic sign detection based on infrared and visible image fusion[J]. Modern Electronics Technique, 2020, 43(3): 45-49.

[2]BIKASH M, SANJAY A, RUTUPARNA P, et al. A survey on region based imagefusion methods[J]. Information Fusion, 2019, 48: 119-132.

[3]李霖, 王紅梅, 李辰凱. 紅外與可見光圖像深度學(xué)習(xí)融合方法綜述[J]. 紅外與激光工程, 2022, 51(12): 337-356.

LI L, WANG H M, LI C K. A review of deep learning fusion methods for infrared and visible images[J]. Infrared and Laser Engineering, 2022, 51(12): 337-356.

[4]王新賽, 馮小二, 李明明. 基于能量分割的空間域圖像融合算法研究[J]. 紅外技術(shù), 2022, 44(7): 726-731.

WANG X S, FENG X E, LI M M. Research on spatial domain image fusion algorithm based on energy segmentation[J]. Infrared Technology, 2022, 44(7): 726-731.

[5]LIU Y, CHEN X, PENG H, et al. Multi-focus image fusion with a deep convolutional neural network[J]. Information Fusion, 2017, 36: 191-207.

[6]RAM P K, SAI S V, VENKATESH B R. DeepFuse: a deep unsupervised approach for exposure fusion with extreme exposure image pairs[C]∥Proc.of the IEEE International Conference on Computer Vision, 2017: 4714-4722.

[7]MA J Y, YU W, LIANG P W, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26.

[8]XU H, MA J Y, LE Z L, et al. FusionDN: a unified densely connected network for image fusion[C]∥Proc.of the AAAI Conference on Artificial Intelligence, 2020: 12484-12491

[9]XIAO B, XU B C, BI X L, et al. Global-feature encoding U-Net (GEU-Net) for multi-focus image fusion[J]. IEEE Trans.on Image Processing, 2021, 30: 163-175.

[10]FANG Y M, YAN J B, LI L D, et al. No reference quality assessment for screen content images with both local and global feature representation[J]. IEEE Trans.on Image Processing, 2018, 27(4): 1600-1610.

[11]QU L H, LIU S L, WANG M N, et al. TransMEF: a transformer-based multi-exposure image fusion framework using self-supervised multi-task learning[C]∥Proc.of the AAAI Conference on Artificial Intelligence, 2022: 2126-2134.

[12]MA J Y, TANG L F, FAN F, et al. SwinFusion: cross-domain long-range learning for general image fusion via swin transformer[J]. IEEE/CAA Journal of Automatica Sinica, 2022, 9(7): 1200-1217.

[13]TANG W, HE F Z, LIU Y, et al. DATFuse: infrared and visible image fusion via dual attention transformer[J]. IEEE Trans.on Circuits and System for Video Technology, 2023, 33(7): 3159-3172.

[14]PENG Z L, HUANG W, GU S Z, et al. Conformer: local features coupling global representations for visual recognition[C]∥Proc.of the IEEE/CVF International Conference on Computer Vision, 2021: 367-376.

[15]WANG J X, XI X L, LI D M, et al. FusionGRAM: an infrared and visible image fusion framework based on gradient residual and attention mechanism[J]. IEEE Trans.on Instrumentation and Measurement, 2023, 72: 5005412.

[16]QIU Y J, WANG R X, TAO D P, et al. Embedded block residual network: a recursive restoration model for single-image super-resolution[C]∥Proc.of the IEEE/CVF International Conference on Computer Vision, 2019: 4179-4188.

[17]TOET A. The TNO multiband image data collection[J]. Data in Brief, 2017, 15: 249-251.

[18]JIA X Y, ZHU C, LI M Z, et al. LLVIP: a visible-infrared paired dataset for low-light vision[C]∥Proc.of the IEEE International Conference on Computer Vision, 2021: 3496-3504.

[19]LIU J Y, FAN X, HUANG Z B, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5802-5811.

[20]EMADALDEN A, UZAIR A B, HUANG M X, et al. Image fusion based on discrete cosine transform with high compression[C]∥Proc.of the 7th International Conference on Signal and Image Processing, 2022: 606-610.

[21]ZHU Z Q, ZHENG M Y, QI G Q, et al. A phase congruency and local laplacian energy based multi-modality medical image fusion method in NSCT domain[J]. IEEE Access, 2019, 7: 20811-20824.

[22]GUO H, CHEN J Y, YANG X, et al. Visible-infrared image fusion based on double-density wavelet and thermal exchange optimization[C]∥Proc.of the IEEE 5th Advanced Information Technology, Electronic and Automation Control Conference, 2021: 2151-2154.

[23]NAIDU VPS. Image fusion technique using multi-resolution singular value decomposition[J]. Defence Science Journal, 2011, 61: 479-484.

[24]MA J Y, CHEN C, LI C, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]. Information Fusion, 2016, 31: 100-109.

[25]LI H, WU X J. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Trans.on Image Processing, 2019, 28(5): 2614-2623.

[26]XU H, MA J Y, JIANG J J, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Trans.on Pattern Analysis and Machine Intelligence, 2022, 44(1): 502-518.

[27]LIU W, DRAGOMIR A, DUMITRU E, et al. SSD: single shot multibox detector[C]∥Proc.of the European Conference on Computer Vision, 2016: 21-37.

[28]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE.on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[29]REDMON J, FARHAD A. Yolov3: an incremental improvement[EB/OL]. [2023-05-29]. http:∥arxiv.org/pdf/1804.02767

[30]ALEXEY B, WANG C Y, LIAO H Y. Yolov4: optimal speed and accuracy of object detection[EB/OL]. [2023-05-29]. https:∥arxiv.org/abs/2004.10934.

[31]GE Z, LIU S T, WANG F, et al. Yolox: exceeding Yolo series in 2021[EB/OL]. [2023-05-29]. https:∥arxiv.org/abs/2107.08430.

作者簡(jiǎn)介

陳曉萱(1998—),女,博士研究生,主要研究方向?yàn)閳D像融合、目標(biāo)檢測(cè)。

徐書文(1954—),女,研究員,博士,主要研究方向?yàn)樾盘?hào)處理、信息融合。

胡紹海(1954—),男,教授,博士,主要研究方向?yàn)樾盘?hào)處理、信息融合。

馬曉樂(1991—),女,講師,博士,主要研究方向?yàn)樾盘?hào)處理、信息融合。

猜你喜歡
圖像融合深度學(xué)習(xí)
基于小波變換的多模態(tài)醫(yī)學(xué)圖像的融合方法
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
灰色關(guān)聯(lián)度在紅外與微光圖像融合質(zhì)量評(píng)價(jià)中的應(yīng)用研究
林火安防預(yù)警與應(yīng)急處理系統(tǒng)設(shè)計(jì)
基于Matlab的遙感圖像IHS小波融合算法的并行化設(shè)計(jì)
科技視界(2016年11期)2016-05-23 08:13:35
霍山县| 定襄县| 隆化县| 宣恩县| 大足县| 平阴县| 信阳市| 德阳市| 黄大仙区| 观塘区| 郧西县| 瓦房店市| 乌拉特后旗| 南华县| 阿克| 大城县| 临泉县| 新野县| 南召县| 利辛县| 凤城市| 大城县| 田林县| 洪泽县| 塘沽区| 浪卡子县| 辉县市| 文安县| 阳江市| 扶沟县| 潼南县| 灌南县| 博罗县| 林甸县| 铜梁县| 凯里市| 策勒县| 桦南县| 景谷| 阿克陶县| 承德县|