国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

紅外與可見光圖像注意力生成對抗融合方法研究

2022-02-23 06:59:06武圓圓王志社王君堯邵文禹陳彥林
紅外技術 2022年2期
關鍵詞:尺度紅外卷積

武圓圓,王志社,王君堯,邵文禹,陳彥林

〈圖像處理與仿真〉

紅外與可見光圖像注意力生成對抗融合方法研究

武圓圓,王志社,王君堯,邵文禹,陳彥林

(太原科技大學 應用科學學院,山西 太原 030024)

目前,基于深度學習的融合方法依賴卷積核提取局部特征,而單尺度網(wǎng)絡、卷積核大小以及網(wǎng)絡深度的限制無法滿足圖像的多尺度與全局特性。為此,本文提出了紅外與可見光圖像注意力生成對抗融合方法。該方法采用編碼器和解碼器構成的生成器以及兩個判別器。在編碼器中設計了多尺度模塊與通道自注意力機制,可以有效提取多尺度特征,并建立特征通道長距離依賴關系,增強了多尺度特征的全局特性。此外,構建了兩個判別器,以建立生成圖像與源圖像之間的對抗關系,保留更多細節(jié)信息。實驗結果表明,本文方法在主客觀評價上都優(yōu)于其他典型方法。

圖像融合;通道自注意力機制;深度學習;生成對抗網(wǎng)絡;紅外圖像;可見光圖像

0 引言

可見光圖像具有豐富的細節(jié)信息,易于判讀,但是其對良好的光照條件和天氣情況有較強的依賴性;紅外圖像反映目標與背景的輻射特性,紅外輻射透過霾、霧及大氣的能力比可見光強,它可以克服部分視覺上的障礙而探測到目標,具有較強的抗干擾能力,但目標的結構特征和紋理信息缺失。紅外與可見光圖像融合,使融合圖像既具有紅外圖像的輻射特性,又具有可見光圖像的結構特征和紋理信息,有利于人眼的觀察和后續(xù)圖像處理,在遙感探測、醫(yī)療診斷、智能駕駛、安全監(jiān)控等方面具有廣泛應用[1]。

目前紅外與可見光圖像融合方法包括傳統(tǒng)融合方法與基于深度學習的融合方法[2-3]。傳統(tǒng)的融合方法包括:基于多尺度變換的融合方法[4]、基于稀疏表示的融合方法[5]、基于顯著性的融合方法[6]、基于混合模型的融合方法[7]等。其中,多尺度變換融合方法利用圖像變換模型對源圖像進行分解,再利用特定的融合規(guī)則合并不同尺度的特征,重構得到最終融合圖像。稀疏表示方法利用多尺度變換分析字典或在線學習構造學習字典,其在一定程度上改進了多尺度融合方法,提高了融合效果。顯著性方法可以很好地評判圖像重要信息,使保留顯著的圖像特征,通常包含兩種方式,即基于顯著區(qū)域提取的圖像融合和基于權重計算的圖像融合[8]?;旌夏P吐?lián)合多種模型的優(yōu)點,克服單一模型缺陷,提高融合效果,常用的混合模型包括基于多尺度和稀疏方法的混合模型[7,9-10]、基于顯著性和多尺度的混合模型等[11]。目前這些傳統(tǒng)融合方法已經(jīng)取得了一定的成果,但此類方法通常采用固定的數(shù)學模型提取圖像特征,對模型敏感的特征才可以被有效提取。而不同源圖像成像特性不同,圖像特征復雜多變,固定的變換模型無法提取圖像全面的特征信息。此外融合過程計算復雜且需要根據(jù)先驗知識確定分解方法和融合規(guī)則,具有較大的局限性。因此,基于深度學習的融合方法廣泛應用于紅外與可見光圖像融合領域,該方法可以有效挖掘圖像復雜特征,克服了傳統(tǒng)算法缺乏學習特征能力的缺陷。其包括基于卷積神經(jīng)網(wǎng)絡的圖像融合與基于生成對抗網(wǎng)絡的圖像融合兩部分[12]。其中,Liu等[13]通過卷積神經(jīng)網(wǎng)絡獲取決策圖整合紅外圖像與可見光圖像的像素活動信息,該方法不需要考慮融合規(guī)則的設計與權重分配問題,但其特征提取能力有限。Li等[14]利用卷積核自動提取圖像復雜特征,克服了之前單一模型只能提取圖像敏感特征的局限性,但該方法是單輸入單輸出過程,故特征融合時需要設計復雜的融合規(guī)則或者使用現(xiàn)存的單一融合規(guī)則進行特征合并,而無法實現(xiàn)端對端的過程。新近,一些學者利用卷積神經(jīng)網(wǎng)絡實現(xiàn)了紅外與可見光圖像端到端的融合,并取得良好的效果[15-17]。但紅外與可見光圖像融合方法是多輸入單輸出的過程,它沒有標準的融合圖像監(jiān)督網(wǎng)絡參數(shù)學習的過程,因此,生成對抗思想的引入,實現(xiàn)有監(jiān)督的圖像融合過程。生成對抗融合方法利用生成損失函數(shù)控制生成器保留源圖像的特征信息,再利用生成器與判別器之間的對抗損失使融合圖像獲取源圖像更多細節(jié)信息,提高融合質量,如FusionGAN[18],首次將生成對抗思想引入圖像融合領域,獲得較好的融合效果,它利用卷積神經(jīng)網(wǎng)絡搭建端對端網(wǎng)絡的同時,實現(xiàn)了源圖像對網(wǎng)絡學習的監(jiān)督。隨后,Ma等在FusionGAN的基礎上改進網(wǎng)絡,提出了ResNetGAN[19]與DDcGAN[20],并取得良好的融合效果。生成對抗融合方法以卷積神經(jīng)網(wǎng)絡為框架,通過其強特征提取能力與大數(shù)據(jù)驅動,極大地提高了融合質量,其次通過源圖像與生成圖像的對抗,實現(xiàn)源圖像對學習參數(shù)的監(jiān)督。但是因卷積核大小以及網(wǎng)絡深度的限制,單一尺度深度特征表征空間信息能力有限;其次,卷積核所提取的特征依賴圖像某一位置相關性最強的局部區(qū)域,而沒有考慮特征圖通道之間的相關性。

為了解決上述問題,提高圖像融合質量,本文提出了紅外與可見光圖像注意力生成對抗融合方法。該方法將Res2Net[21]模塊引入編碼器中,作為卷積模塊,增加了網(wǎng)絡各層不同尺度的特征數(shù)量,提高了特征表示能力。其次,考慮到特征圖自身通道之間的相關關系,采用通道自注意力機制,增強不同尺度、不同通道特征之間的依賴性,克服了卷積的局限性。最后,利用公開數(shù)據(jù)集,對本文方法與一些典型方法進行大量實驗,從主觀、客觀的角度分析融合結果,驗證本文方法的融合性能。

1 融合方法

1.1 融合模型結構

本文所提網(wǎng)絡結構如圖1所示。網(wǎng)絡主要有兩個部分,編碼器(Encoder)和解碼器(Decoder)構成的生成器以及兩個判別器。編碼器包含一個卷積層(C0),兩個多尺度殘差塊(Res2Net1, Res2Net2)與一個通道自注意力機制(channel-self-attention, CA),該編碼器在不影響網(wǎng)絡深度的情況下,增強輸出特征的多尺度表達能力,提高網(wǎng)絡性能,同時建立特征通道之間的聯(lián)系,增強了多尺度特征的全局特性;解碼器由4個卷積層(C1, C2, C3, C4)構成,用于重構融合圖像。生成器參數(shù)設置如表1所示。判別器包含4個卷積層(L1, L2, L3, L4)與一個全連接層(L5),其中紅外判別器與可見光判別器具有相同的結構但不共享權重。在訓練過程中,判別器提取圖像特征,通過計算特征間的Wasserstein距離,感知特征差異,以鑒別源圖像與生成圖像。此外通過生成器與判別器之間的對抗關系,保留更多源圖像細節(jié)。判別器參數(shù)設置如表2所示。

1.2 Res2Net模塊

為了提高卷積神經(jīng)網(wǎng)絡多尺度特征提取能力,Gao等[21]提出了Res2Net模塊,一種新穎的多尺度卷積網(wǎng)絡架構,其結構如圖2所示,它將傳統(tǒng)的單一濾波器替換為一系列更小的濾波器組,該濾波器組以類似殘差分層的模式進行連接,以增加不同尺度的特征數(shù)量。該模塊先將輸入特征圖分為幾組,每一組的輸入特征圖與先前組經(jīng)過濾波器生成的特征圖拼接在一起,并送入下一組卷積核進行處理。以此類推,將所有的特征圖處理完畢。為了使不同尺度的信息融合得更好,Res2Net將拆分處理后的特征圖拼接在一起,并通過1×1卷積核進行各尺度特征的信息融合。

圖1 本文方法網(wǎng)絡結構

表1 生成器參數(shù)設置

表2 判別器參數(shù)設置

圖2 Res2Net結構

本文將Res2Net引入編碼器中,作為一個卷積模塊,提取圖像多尺度特征。此外,本文采用卷積層與LeakyReLU激活函數(shù),并去除其中的BN層。

1.3 通道自注意力機制模塊

式中:權重因子從0開始學習。

圖3 通道自注意力結構

1.4 損失函數(shù)的設計

生成器損失函數(shù)由兩部分組成,分別是生成對抗損失和語義損失,生成器損失函數(shù)如公式(3)所示:

式中:第一項advers()表示生成器對抗損失;第二項content表示語義損失;表示平衡因子,用于平衡兩項損失,本文中=1。

1)語義損失:語義損失促使生成器構造與源圖像相似的數(shù)據(jù)分布。該損失主要有均方誤差損失和邊緣損失兩部分,如式(4)所示。其中均方誤差損失以圖像像素為單位進行計算,分別估計融合圖像與紅外圖像、融合圖像與可見光圖像之間數(shù)據(jù)分布的相似度,可以盡可能地保留紅外圖像的目標信息以及可見光圖像像素級別的細節(jié)信息,如式(5)所示。但是均方誤差容易造成融合圖像模糊現(xiàn)象。故引入紅外與可見光圖像邊緣損失,如式(6)所示,實現(xiàn)融合圖像的銳化,補償這一問題。其中,=5,vi=0.49,ir=0.51。

午后的太陽偶爾也會唱著火辣辣的歌曲,不減夏日勢頭地炙烤著大地,但這些絲毫不影響我們做運動。同學們似乎變得比平時更認真,個個頭頂著烈日,隨著激昂的音樂做起了廣播體操。倘若來一場秋雨,同學們就會聚集在室內(nèi)體育館活動。瞧!那幾位女同學還在跳高難度的長繩呢!還有幾位生龍活虎的男同學正在進行如火如荼的羽毛球比賽。這一切,讓秋日的校園增添了勃勃生機!

2)生成對抗損失:本文的網(wǎng)絡模型中,設計了兩個判別器,即紅外判別器ir與可見光判別器vi。。它們分別使融合圖像保留更多的紅外、可見光的細節(jié)信息,因此生成對抗損失包含兩部分,如式(7)所示:

判別器損失函數(shù)用于訓練判別器,使其可以有效鑒別生成圖像與源圖像,進而與生成器形成對抗,如式(8)所示:

1.5 數(shù)據(jù)集與參數(shù)設置

在訓練過程中,本文采用TNO的數(shù)據(jù)集,從TNO中選取49對不同場景的紅外與可見光圖像,由于49對圖像無法訓練一個良好的模型,因此,對源圖像做預處理以擴大訓練集。本文將源圖像對做裁剪,裁剪大小為120×120,裁剪步長為12,以獲取54594對紅外與可見光圖像,并將其歸一化為[-1,1],以加快計算速度,減少內(nèi)存占用。

此外,本文從訓練集中選取batchsize=18的圖像對。首先對紅外判別器與可見光判別器分別訓練次;其次再對生成器訓練一次,生成器與判別器均采用Adam優(yōu)化器。整個訓練過程即重復上述過程次。在實驗過程中的參數(shù)設置=2,=20。本文訓練以及測試硬件平臺為NVIDIA GeForce RTX 3090 GPU,Intel(R)Core(TM) i9-10850K CPU;軟件環(huán)境為Windows10,Python3.7.10,Pytorch1.8.1。

2 實驗結果與分析

2.1 實驗說明

本文采用6個指標對融合結果作客觀評價??陀^指標包括信息熵(entropy, EN)、標準差(standard deviation, SD)、相關系數(shù)(correlation coefficient, CC)、相關差異和(the sum of the correlation differences,SCD)、結構相似度(multi-scale structural similarity index measure,MS-SSIM)、融合保真度(the visual information fidelity for fusion,VIFF)。其中,EN反映融合圖像紋理信息的豐富程度,其熵值越大,則說明其保留了更豐富的源圖像信息;SD表示各像素灰度相對于灰度平均值的離散情況,值越大,則所融合的圖像對比度越高;CC描述融合圖像與源圖像的相似程度;SCD是表征圖像質量的指標;MS-SSIM反映圖像間的亮度、對比度、結構失真水平的差異性;VIFF反映視覺效果,其結果與主觀評價結果具有一致性,值越大,則所融合的圖像視覺效果越佳。

2.2 消融實驗

為了驗證網(wǎng)絡結構中不同模塊對融合結果的影響,本文對Res2Net模塊與通道注意力模塊分別進行實驗,首先保留Res2Net模塊并去除通道自注意力模塊(記作No-CA);其次網(wǎng)絡使用普通卷積層代替Res2Net模塊,同時保留通道注意力模塊(記作No-Res2Net)。

實驗采用Roadscene數(shù)據(jù)集的105組紅外可見光圖像,分別對各類模型進行實驗,客觀指標評價如表3所示。由表3可知,本文模型的EN,SD,SCD,MS-SSIM,VIFF指標最高,僅在CC指標上略低于其他模型,表明Res2Net模塊可以有效提取多尺度特征,同時通道注意力機制有效建立了特征通道之間的遠程依賴關系,增強了多尺度特征的全局特性,提高融合結果性能。相比于其他模型,本文模型融合的結果包含較豐富的源圖像信息,具有較高對比度以及較好的視覺效果。

表3 消融實驗的定量比較

2.3 TNO數(shù)據(jù)集實驗

本文從TNO數(shù)據(jù)集中選取20組圖像定性定量分析融合結果,展示其中4組圖像并做主觀評價分析,分別包括“Nato_camp”、“helicopter”、“bench”以及”Movie_18”。

第一組對“Nato_camp”圖像做融合,其圖像及融合結果如圖4所示,(a)中人影目標突出,而背景模糊;(b)中可以觀察到樹木紋理,房檐色彩、邊緣以及圍欄,背景清晰,但無法觀察到人影;(c)(e)(g)(h)方法的融合結果紋理信息較好,但圖像目標與背景區(qū)域對比度不高,導致圖像一些紋理不易被觀察,如圍欄上的鐵絲;(d)方法的融合結果邊緣細節(jié)豐富,可以清晰的觀察到煙囪的形狀與圍欄邊緣等細節(jié);(f)的融合結果目標對比度高,如人影,但背景紋理模糊,目標邊緣信息丟失;本文方法增強了目標與背景區(qū)域的對比度,比其它方法更容易觀察到圖像細節(jié),如樹木紋理、圍欄上的鐵絲以及房檐色彩分布與輪廓等,視覺效果良好。

第二組對“helicopter”圖像做融合,其圖像及融合結果如圖5所示,在(c)(d)(e)(g)(h)方法融合圖像中,直升機邊緣以及雨水細節(jié)保存較好,但目標與背景的對比度略低,不容易觀察天空中云的分布,此外,直升機發(fā)動機亮度不高;(f)方法的融合結果保留雨水細節(jié)的同時,提高發(fā)動機亮度,螺旋槳轉動細節(jié)清晰,但機身細節(jié)丟失;本文方法發(fā)動機亮度略高于(c)(d)(e)(g)(h)方法,且不影響機身細節(jié),如窗戶、起落架等,同時雨水細節(jié)沒有丟失,又因對比度較高,容易捕捉到云的分布。

圖4 “Nato_camp”實驗結果

第3組對“bench”圖像做融合,其圖像及融合結果如圖6所示,(c)(e)(g)(h)方法的融合結果存在“朦朧感”,背景對比度不高,長凳目標保留但不易觀察;(f)方法的融合圖像保留了人影的亮度,但其邊緣模糊,背景細節(jié)丟失,如長凳以及背景色彩分布等。本文方法較好地保留了紅外與可見光的信息,如人影,水中倒影以及長凳。

圖5 “helicopter”實驗結果

圖6 “bench”實驗結果

第4組對“Movie_18”圖像做融合,其圖像及融合結果如圖7所示,(a)中可以觀察到明顯的人影、車子的輪廓、馬路欄桿以及路牌,遠景目標清晰,如樹木、圍墻,且房子對比度高,結構鮮明,如房頂、墻面與門窗;(b)中房子邊緣較好,天空細節(jié)突出,但看不到人影以及遠景樹木等;與其他融合方法相比,本文方法的融合結果目標突出,如人影、車子、馬路欄桿以及遠景樹木,此外邊緣細節(jié)清晰,如天空,房檐邊緣、色彩分布以及窗子開合等??傮w視覺效果良好。

主觀評價是根據(jù)人類視覺系統(tǒng)評估融合圖像的質量,但仍會存在一定的偏差,為了更全面地評估融合圖像的質量,本文使用6個指標對各方法融合結果進行客觀評價。TNO數(shù)據(jù)集定量評價指標如圖8所示,從圖中指標來看,本文方法在EN,SD,CC,SCD,MS-SSIM,VIFF指標中平均數(shù)值最高,表明本文融合結果相比于其他方法包含更豐富的源圖像信息,較高的對比度以及更好的視覺效果。

圖7 “Movie_18”實驗結果

2.4 Roadscene數(shù)據(jù)集實驗

為了進一步驗證本文方法融合性能,將從Roadscene數(shù)據(jù)集中選取20組圖像做定性定量分析,展示其中兩組圖像并做主觀評價分析,該兩組圖像分別命名為“example1”、“example2”。

第一組與第二組分別對“example1”、“example2”圖像做融合,其圖像及融合結果如圖9、圖10所示,與之前TNO四組融合結果主觀評價一致,本文方法在不丟失紅外目標的情況下,盡可能多地保留可見光的細節(jié)信息。此外,本文使用6個指標對各方法融合結果做客觀評價,Roadscene數(shù)據(jù)集定量評價指標如圖11所示,從圖中指標來看,相比于其他方法,本文方法在EN,SD,CC,SCD,MS-SSIM,VIFF指標中平均數(shù)值最高,表明本文融合結果包含與源圖像更相似的結構,具有較高的對比度以及更符合人眼的視覺系統(tǒng),有利于人眼觀察。

圖8 “TNO”數(shù)據(jù)集定量評價指標

圖9 “example 1”實驗結果

圖10 “example 2”實驗結果

為了進一步評價本文方法與其他融合方法的時間效率,采用TNO、Roadscene數(shù)據(jù)集的紅外可見光圖像進行實驗。時間效率比較如表4所示,其中基于傳統(tǒng)融合方法CVT、ASR與WLS在CPU上運行,基于深度學習融合方法DenseFuse、FusionGan與IFCNN在GPU上運行。由表4可知,其計算效率僅次于IFCNN與DenseFuse,不同于它們的平均規(guī)則融合,本文融合方法利用多尺度模塊代替普通卷積層,同時與通道自注意力模塊級聯(lián),計算量較大。因此,與其他方法相比,所提方法具有較高計算效率同時能保持良好的融合效果。

圖11 “Roadscene”數(shù)據(jù)集定量評價指標

表4 時間計算率比較

3 結語

本文提出了一種紅外與可見光圖像注意力生成對抗融合方法,該方法使用多尺度模塊代替?zhèn)鹘y(tǒng)卷積層,將傳統(tǒng)的單一濾波器替換為一系列更小的濾波器組,在不影響網(wǎng)絡深度的同時提高網(wǎng)絡的寬度,增加了網(wǎng)絡各層不同尺度的特征數(shù)量,增強網(wǎng)絡特征表達能力;其次,將通道自注意力機制引入編碼器中,增強不同尺度、不同通道特征之間的依賴性,克服了卷積的局限性;與其他典型融合結果相比,本文方法在主觀客觀上都有良好的融合效果。但同時本方法在目標顯示上不是特別突出,背景紋理略帶虛影,且模塊帶來指標提升較為微弱。因此優(yōu)化模型,最大限度提高多尺度模塊與自注意力機制模塊的作用;同時使融合結果保留清晰的可見光細節(jié)信息、突出目標區(qū)域對比度將是下一階段研究的重點。

[1] MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]., 2019, 45: 153-178.

[2] LI S, KANG X, FANG L, et al. Pixel-level image fusion: a survey of the state of the art[J]., 2017, 33: 100-112.

[3] LIU Y, CHEN X, WANG Z, et al. Deep learning for pixel-level image fusion: Recent advances and future prospects[J]., 2018, 42: 158-173.

[4] LI S, YANG B, HU J. Performance comparison of different multi-resolution transforms for image fusion[J]., 2011, 12(2): 74-84.

[5] ZHANG Q, LIU Y, Rick S Blum, et al. Sparse representation based multi-sensor image fusion for multi-focus and multi-modality images: a review[J]., 2018, 40: 57-75.

[6] ZHANG Xiaoye, MA Yong, ZHANG Ying, et al. Infrared and visible image fusion via saliency analysis and local edge-preserving multi-scale decomposition[J]., 2017, 34(8): 1400-1410.

[7] YU L, LIU S, WANG Z. A general framework for image fusion based on multi-scale transform and sparse representation[J]., 2015, 24: 147-164.

[8] HAN J, Pauwels E J, P De Zeeuw. Fast saliency-aware multimodality image fusion[J]., 2013, 111: 70-80.

[9] YIN Haitao. Sparse representation with learned multiscale dictionary for image fusion[J]., 2015, 148: 600-610.

[10] WANG Zhishe, YANG Fengbao, PENG Zhihao, et al. Multi-sensor image enhanced fusion algorithm based on NSST and top-hat transformation[J]., 2015, 126(23): 4184-4190.

[11] CUI G, FENG H, XU Z, et al. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition[J]., 2015, 341: 199-209.

[12] LI Q, LU L, LI Z, et al. Coupled GAN with relativistic discriminators for infrared and visible images fusion[J]., 2021, 21(6): 7458-7467.

[13] LIU Y, CHEN X, CHENG J, et al. Infrared and visible image fusion with convolutional neural networks[J]., 2018, 16(3): 1850018.

[14] LI H, WU X J. DenseFuse: a fusion approach to infrared and visible images[J].:, 2019, 28(5): 2614-2523.

[15] XU H, MA J, JIANG J, et al. U2Fusion: A unified unsupervised image fusion network[J]., 2020, 44(1): 502-518.

[16] HOU R. VIF-Net: an unsupervised framework for infrared and visible image fusion[J]., 2020, 6: 640-651.

[17] HUI L A, XJW A, JK B. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]., 2021, 73: 72-86.

[18] MA J, WEI Y, LIANG P, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]., 2019, 48: 11-26.

[19] JM A, Pl A, WEI Y A, et al. Infrared and visible image fusion via detail preserving adversarial learning[J]., 2020, 54: 85-98.

[20] MA J, XU H, JIANG J, et al. DDcGAN: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]., 2020, 29: 4980-4995.

[21] GAO S, CHENG M M, ZHAO K, et al. Res2Net: A new multi-scale backbone architecture[J]., 2021, 43(2): 652-662.

[22] FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation[C]//2019, 2020: DOI: 10.1109/cvpr. 2019.00326.

[23] Nencini F, Garzelli A, Baronti S, et al. Alparone, remote sensing image fusion using the curvelet transform[J]., 2007, 8(2): 143-156.

[24] LIU Y, WANG Z. Simultaneous image fusion and denoising with adaptive sparse representation[J]., 2014, 9(5): 347-357.

[25] MA J, ZHOU Z, WANG B, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]., 2017, 82: 8-17.

[26] YU Z A, YU L B, PENG S C, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]., 2020, 54: 99-118.

Infrared and Visible Image Fusion Using Attention-Based Generative Adversarial Networks

WU Yuanyuan,WANG Zhishe,WANG Junyao,SHAO Wenyu,CHEN Yanlin

(School of Applied Science, Taiyuan University of Science and Technology, Taiyuan 030024, China)

At present, deep learning-based fusion methods rely only on convolutional kernels to extract local features, but the limitations of single-scale networks, convolutional kernel size, and network depth cannot provide a sufficient number of multi-scale and global image characteristics. Therefore, here we propose an infrared and visible image fusion method using attention-based generative adversarial networks. This study uses a generator consisting of an encoder and decoder, and two discriminators. The multi-scale module and channel self-attention mechanism are designed in the encoder, which can effectively extract multi-scale features and establish the dependency between the long ranges of feature channels, thus enhancing the global characteristics of multi-scale features. In addition, two discriminators are constructed to establish an adversarial relationship between the fused image and the source images to preserve more detailed information. The experimental results demonstrate that the proposed method is superior to other typical methods in both subjective and objective evaluations.

image fusion, channel self-attention mechanism, deep learning, generative adversarial networks, infrared image, visible image

TP391.4

A

1001-8891(2022)02-0170-09

2021-05-29;

2021-07-20.

武圓圓(1997-)女,碩士研究生,研究方向為光學測控技術與應用。E-mail:yywu321@163.com。

王志社(1982-)男,副教授,博士,研究方向為紅外圖像處理、機器學習和信息融合。E-mail:wangzs@tyust.edu.cn。

山西省面上自然基金項目(201901D111260);信息探測與處理山西省重點實驗室開放研究基金(ISTP2020-4);太原科技大學博士啟動基金(20162004)。

猜你喜歡
尺度紅外卷積
網(wǎng)紅外賣
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
閃亮的中國紅外『芯』
金橋(2021年4期)2021-05-21 08:19:20
財產(chǎn)的五大尺度和五重應對
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應用
電子制作(2019年7期)2019-04-25 13:17:14
基于傅里葉域卷積表示的目標跟蹤算法
基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
9
陕西省| 灵石县| 海淀区| 中宁县| 惠水县| 亳州市| 维西| 龙南县| 科技| 永丰县| 江川县| 清水河县| 鄢陵县| 萨嘎县| 屏边| 泰兴市| 获嘉县| 常宁市| 驻马店市| 增城市| 芦山县| 张家界市| 梅州市| 大余县| 嘉定区| 香河县| 海晏县| 遂平县| 成安县| 醴陵市| 中阳县| 洞口县| 祁连县| 克山县| 宾阳县| 南华县| 敖汉旗| 徐水县| 房产| 鲜城| 砚山县|