蓋 赟, 荊國棟
1(中國社會科學(xué)院大學(xué) 計算機教研部, 北京 102488)2(中國氣象局氣象干部培訓(xùn)學(xué)院, 北京 100081)
圖像融合是將兩幅或多幅圖像中的重要信息合并為同一張圖像的處理過程, 融合后的圖像能夠提供更多的場景信息, 這些信息對提高圖像識別率和特征提取準確率都具有極大的推動作用.紅外傳感器和可見光傳感器是兩種最常用的傳感器: 紅外傳感器通過檢測目標的熱輻射信息完成圖像成像, 這種圖像能在可視條件差的情況下仍能捕獲目標的位置、輪廓等信息.但是紅外圖像的成像效果較差, 圖像中的目標成像效果、且包含的噪聲信息較多.可見光傳感器通過收集物體反射的光線來完成圖像成像工作, 這類圖像能夠捕捉目標物體豐富的細節(jié)信息.但是可見光圖像在昏暗的條件下圖像成像質(zhì)量會大幅下降, 在光線條件特別差的情況下可能完全無法成像.如果能將兩類圖像中的重要信息融合在同一幅圖像中, 一定可以提高圖像的信息含量, 這對于提高圖像的可用性具有極大的推動作用.
在過去的幾十年里, 學(xué)者們在圖像融合問題上做了大量的工作.現(xiàn)有的融合方法大致可以分為7類: 多尺度變換方法、稀疏表示方法、神經(jīng)網(wǎng)絡(luò)方法、子空間方法、顯著性方法、融合模型法和深度學(xué)習(xí)方法.深度學(xué)習(xí)方法是近年來應(yīng)用領(lǐng)域最廣、效果最好的圖像處理方法.隨著研究的深入, 學(xué)者提出了VGG (Very Deep Convolution Network)[1]、AlextNet[2]、R-CNN(Region-CNN)[3]等高效而準確的經(jīng)典學(xué)習(xí)模型.這些模型不僅可以自動學(xué)習(xí)圖像的特征, 還可以根據(jù)學(xué)到的特征產(chǎn)生新的圖像.因此使用深度學(xué)習(xí)方法進行圖像融合研究不僅可以提高圖像特征提取的準確率, 還可以得到有效的融合規(guī)則.
目前基于深度學(xué)習(xí)的圖像融合方法大致可以分為兩類.一類是使用現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)進行特征提取, 另一類是構(gòu)建適合目標問題的網(wǎng)路結(jié)構(gòu).第一類方法的代表性工作有: Li等人[4]通過多尺度分解將VGG模型應(yīng)用在細節(jié)層, 他們還使用殘差網(wǎng)計算出融合的權(quán)重圖.然而VGG模型是針對圖像分類設(shè)計的, 所以直接將經(jīng)典模型應(yīng)用在圖像融合問題的研究會存在適應(yīng)性不足的問題.第二類方法的代表性工作有: Liu等人[5]基于卷積神經(jīng)網(wǎng)絡(luò)方法構(gòu)建領(lǐng)域了一個圖像融合模型, 該方法使用行為水平圖和權(quán)重分配來完成圖像融合工作.基于Liu的方法, Li等人[6]設(shè)計了一個包含卷積層、融合層和密集模塊的學(xué)習(xí)模型, 并用在解碼層完成了圖像融合工作.Jiang等人[7]將殘差網(wǎng)絡(luò)和白化操作引入了模型的構(gòu)建過程, 并基于卷積神經(jīng)網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)提出了一個可以充分應(yīng)用每個層輸出的自編碼模型.但是該模型無法區(qū)分輸入的信息是紅外圖像還是可見光圖像.除此之外, 這些方法還忽略低層特征對學(xué)習(xí)結(jié)果的影響, 僅僅是根據(jù)最后一層的輸出做出網(wǎng)絡(luò)決策.針對這個問題, An等人[8]通過在編碼層增加多個密集連接網(wǎng)絡(luò)模塊來提高模型對各層網(wǎng)絡(luò)輸出的感知, 但是數(shù)據(jù)在各個密集模塊之間的流動仍是單向的, 后面的密集模塊無法感知到前面密集模塊的信息.Mustafa等人[9]對于每類圖像的低層卷積輸出應(yīng)用了多組尺度不同的密集連接模塊, 并通過將所有密集模塊的輸出融合來在一起完成多尺度特征的捕獲.圖像的高層特征是對低層特征的進一步抽象, 所以如果低層特征沒有改變, 高層特征使用何種尺度分析都無法讓模型真正感知到圖像在不同尺度下的特征.
為此本文提出了一個基于多尺度卷積算子, 融合密集連接網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)的圖像融合方法.該方法首先使用多個尺度的卷積算子分別對輸入圖像進行多尺度特征提取.在得到多的尺度特征圖之后, 再分別使用多個密集連接網(wǎng)絡(luò)模塊對低層特征進行計算.每個密集連接模塊中的卷積算子都是 的卷積算子.為了讓每個密集模塊都能感知到低層卷積網(wǎng)絡(luò)的輸出, 本文使用了全局連接的機制, 即讓低層特征圖成為每個密集模塊的輸出.在特征融合階段, 所有尺度的特征圖被整合在一起, 并形成了融合圖像的權(quán)重系數(shù), 最終通過加權(quán)的形式完成圖像融合工作.
隨著深度學(xué)習(xí)網(wǎng)絡(luò)的層數(shù)的增加, 梯度消失或梯度爆炸問題成為阻礙網(wǎng)絡(luò)深度進一步增加的最重要因素.Gao等人[10]在2017年提出密集連接網(wǎng)絡(luò)是近年來解決這一問題最好的一個網(wǎng)絡(luò)結(jié)構(gòu).該網(wǎng)絡(luò)在短連接思路的影響下, 提出了包含密集連接的網(wǎng)絡(luò)結(jié)構(gòu), 即:將每個中間層神經(jīng)元需要與之前所有層的輸出進行連接, 也就是每一層的輸入是由前面所有層的輸出組成.這樣每個中間網(wǎng)絡(luò)不僅可以感知到圖像在高層網(wǎng)絡(luò)的間接特征, 還可以感知到圖像在低層網(wǎng)絡(luò)的直接特征,這對于各層網(wǎng)絡(luò)都感知前面網(wǎng)絡(luò)的輸出是非常重要的.
在傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)中, 每個中間層網(wǎng)絡(luò)的神經(jīng)元只與前一層網(wǎng)絡(luò)的輸出相連接.每一層都是上一層的局部特征再抽象, 高層特征是在低層特征基礎(chǔ)之上提取出來的.所以隨著網(wǎng)絡(luò)層數(shù)的增加, 傳統(tǒng)網(wǎng)絡(luò)的高層神經(jīng)元再也無法感知到目標在低層網(wǎng)絡(luò)的特征, 而低層網(wǎng)絡(luò)的特征對于提高網(wǎng)絡(luò)準確率具有重要的應(yīng)用意義.在密集網(wǎng)絡(luò)的結(jié)構(gòu)中, 每個密集模塊的中間層與前驅(qū)層都建立了連接, 這樣網(wǎng)絡(luò)就可以綜合分析目標在不同級別下的特征來提高模型學(xué)習(xí)的準確性.
本節(jié)我們對本文提出的多尺度密集連接網(wǎng)絡(luò)圖像融合模型進行介紹.本文提出的模型通過提取輸入圖像的多尺度特征, 并在密集網(wǎng)絡(luò)模塊的幫助下實現(xiàn)圖像特征的提取和融合圖像重建的工作.圖像融合模型主要包含特征提取、特征融合、圖像重建3個模塊.如圖1所示, 首先將一組對齊的紅外和可見光圖像輸入模型進行多尺度特征提取.然后使用密集連接網(wǎng)絡(luò)模塊對每個尺度下的特征圖進行深度特征計算, 并將每個尺度下的密集特征圖進行融合得到輸入圖像的全局特征圖.最后對每個圖像提取到的特征圖進行融合,并使用活動圖完整圖像融合工作.
圖1 模型結(jié)構(gòu)
紅外圖像和可見光圖像的融合實質(zhì)是將紅外圖像中的信息根據(jù)一定的規(guī)則融合可見光圖像.融合時除了考慮亮度信息還需要考慮當前像素所在的連通區(qū)域面積, 如果連通區(qū)域只包含幾個點就說明當前點是紅外圖像中包含的噪聲.如果能夠充分考慮包含當前像素的多尺度區(qū)域特征, 就可以讓提取關(guān)于目標對象更加準確的特征.
卷積神經(jīng)網(wǎng)絡(luò)是目前提取圖像特征的常用方法,通常網(wǎng)絡(luò)的前幾層提取的特征是圖片的直接特征如:邊緣特征、區(qū)域特征等.網(wǎng)絡(luò)的高層卷積特征是以底層卷積特征為基礎(chǔ)計算出來的.如果在低層卷積只使用 3 ×3的算子進行特征計算, 高層卷積是無法感知到圖像在其他卷積尺度下的特征表現(xiàn).為了充分提取輸入圖像在不同尺度下的特征, 本文首先分別使用多個不同尺度的卷積算子分別對輸入圖像進行多尺度特征提取, 這些算子的尺度包含 3 ×3、5 ×5和 7 ×7.
網(wǎng)絡(luò)中間卷積層提取的特征是圖像直接特征的組合特征, 這些組合特征表達的信息可以被看作圖像的間接特征.深層卷積在計算特征時無法直接感知到淺層卷積的特征輸出, 綜合使用直接特征和間接特征能夠進一步提升特征提取的準確性.密集連接網(wǎng)絡(luò)將每層卷積的計算結(jié)果輸出至后續(xù)所有的卷積層, 這種方式可以讓每個卷積層都能感知到前驅(qū)卷積層的計算結(jié)果.為了能夠充分利用圖像各層卷積的特征輸出, 本文在每個尺度的卷積后面都連接了1個密集連接網(wǎng)絡(luò)模塊, 該模塊是由4個密集連接的卷積層組成.密集連接模塊中的卷積算子的尺度都是 3 ×3.
在完成密集連接計算后, 本文將圖像在各個尺度下的密集特征進行拼接形成一組多尺度的特征圖.因為在特征計算時所采用的補洞策略都是“SAME”, 所以不同尺度卷積得到的特征圖尺度是一樣的, 他們是可以直接通過堆疊方式拼接在一起.為了防止特征圖數(shù)量過多, 本文在完成特征圖的堆疊后使用1 ×1的卷積操作對特征圖數(shù)量進行縮減.這樣做一方面可以減少特征的數(shù)量, 另一方面也可以提高模型的穩(wěn)定性.
融合模塊包含局部特征融合和全局特征融合, 局部特征融合是指將單一圖像的多尺度特征進行融合,全局特征融合是指將多個圖像的多尺度特征進行融合.本文首先在各個圖像范圍內(nèi)進行局部特征融合, 然后以此為基礎(chǔ)進行全局特征融合.全局融合模塊需要將所有圖像的特征圖融合在一下, 并以此為基礎(chǔ)完成融合圖像重建.
在傳統(tǒng)的框架中, 特征融合是通過將各個圖像的特征圖進行線性疊加來完成的.令(i=1,2,···,k;m∈{1,2,···,M})表示網(wǎng)絡(luò)中訓(xùn)練到的特征圖, 其中m表示特征圖的索引,k代表圖像的索引,M代表特征圖的數(shù)量,fm代表抽取出來的特征圖, 文獻[5]中給出的融合方法是:
這種融合策略過于簡單, 為了對這些特征圖進行有效的融合, 本文通過計算活動圖的方式來完成融合工作.活動圖是一種可以將特征轉(zhuǎn)化為融合權(quán)重的方法.令A(yù)i表示特征圖, 特征圖中對應(yīng)位置的像素值累計可以用式(2)表示:
為了提高活動圖的關(guān)于誤匹配的魯棒性, 本文使用塊平均方法對初始映射和特征圖Ai進行操作.
其中,r表示塊的尺寸,r的值越大算子魯棒性越好.但是當塊尺寸過大時, 細節(jié)信息可能會丟失.所以r的值一般設(shè)置為3.
其中,k代表圖像的索引,的值被限制在[0, 1]范圍內(nèi).
因為我們有很多不同的卷積組, 融合權(quán)重可以根據(jù)初始權(quán)重在不同的權(quán)重圖進行優(yōu)化.來自大尺度的權(quán)重映射可以表示結(jié)構(gòu)圖像, 來自小尺度的權(quán)重映射可以表示為細節(jié)特征.為了充分使用這些權(quán)重, 我們對這些權(quán)重繼續(xù)實施了Softmax操作.
其中,t表示卷積組的索引, 當最終的權(quán)重映射被計算出來后, 候選融合圖像就可以根據(jù)式(6)得出.
最終融合圖像可以通過從候選融合圖像中選擇最大像素值來完成.
為了驗證本文提出方法的有效性, 我們在20組輸入圖片上進行了融合實驗.這些圖片部分來自于THO圖像數(shù)據(jù)庫, 該數(shù)據(jù)庫包含兩類圖像: 一類是紅外圖像和可見光圖像.另一組圖像是從中國氣象局CMA數(shù)據(jù)庫獲取的, CMA數(shù)據(jù)庫中包含的數(shù)據(jù)均是氣象衛(wèi)星云圖, 這些圖像資料也是由可見光圖像和紅外圖像組成.CMA中所有的圖像都是由球狀圖像展開得到的平面圖像, 所以圖像形態(tài)呈扇形.為了便于操作, 我們從中心區(qū)域裁剪下一塊大小為 5 44×544子圖像作為研究對象.本文所選用的部分樣本圖像如圖2所示, 其中第1行是紅外圖像, 第2行是可見光圖像.
圖2 三組輸入圖像
本文采用結(jié)構(gòu)相似性函數(shù)(Structure SIMilarity,SSIM)[11]作為網(wǎng)絡(luò)訓(xùn)練的損失函數(shù),SSIM被廣泛地用于評估圖像融合的質(zhì)量, 該函數(shù)是基于輸入圖像的亮度、對比度和結(jié)構(gòu)進行計算的, 函數(shù)的具體計算形式為:
其中,C1和C2是[0, 1]之間的極小非零值, 用于確保分母部分不為零.結(jié)構(gòu)相似性指標重點關(guān)注圖像中的關(guān)于物體的結(jié)構(gòu)性信息, 圖像融合工作的重點是將紅外圖像和可見光圖像中的重要信息進行融合, 所以SSIM常用于圖像融合的結(jié)果評估.
本文選擇了CBF方法[12]和Mustafa等人提出的MLDNet方法[9]作為比較對象, CBF方法使用雙線性濾波算子對兩幅圖像的顯著性像素進行融合, MLDNet方法選擇多尺度密集連接算子進行特征計算和圖像融合.CBF方法是一種非深度學(xué)習(xí)方法法, MLDNet是一種多尺度深度學(xué)習(xí)方法, 本文選擇它們二者進行比較是為了評估兩類方法和兩種網(wǎng)絡(luò)結(jié)構(gòu)對融合結(jié)果的影響.實驗平臺是Matlab, 實驗環(huán)境配置是: CPU: 2.6 GHz Intel(R) Core(TM) i7-8850H CPU; 內(nèi)存: 32 GB RAM.部分實驗結(jié)果如圖3所示.
圖3(a)是使用CBF方法得到的融合結(jié)果, 圖3(b)是想使用MLDNet方法得到的融合, 圖3(c)是使用本文方法得到的融合結(jié)果.從圖中可以很明顯地看到, 圖3(c)中包含的更豐富的細節(jié)信息和更清晰的結(jié)構(gòu)信息.從云圖結(jié)果可以看出CBF方法只是將亮度信息融合如可見光圖像, 而沒有考慮云圖的結(jié)構(gòu)信息.MLDNet的方法雖然考慮了結(jié)構(gòu)信息, 但是圖像清晰度不高, 很難分辨出那一部分是融合區(qū)域.這是因為MLDNet方法的多尺度計算階段停留在間接特征階段, 不能真正的感知到圖像多尺度直接特征.要想讓模型有效地感知到圖像的多尺度特征, 必須在低層卷積層設(shè)置多尺度算子.在云圖分析領(lǐng)域, 研究者一方面希望看到清晰的結(jié)構(gòu)信息, 另一方面也希望看到所有的亮度信息.與前兩種方法相比, 使用本文方法得到的圖像更清晰, 被融合的紅外信息更多.這是因為我們在將直接特征和后續(xù)網(wǎng)絡(luò)做了密集連接, 使得后續(xù)卷積模塊都能感知到輸入圖像的直接信息, 所有得到的融合圖像才能在結(jié)構(gòu)和細節(jié)方面更加豐富.
為了進一步比較本文方法與現(xiàn)有方法的差別, 本文使用SSIM函數(shù)對3種方法的融合結(jié)果進行了計算和比較, 計算結(jié)果如表1所示.SSIM的計算結(jié)果是0和1之間的一個小數(shù), 數(shù)值越大兩個圖像的相似性越高, 即圖像融合質(zhì)量越好.當兩幅圖像完全一樣時,SSIM的值為1.
表1中圖3(a)、圖3(b)、圖3(c)分別代表氣象云圖、打傘的行人和道路上的人3類圖像, 表中的3行數(shù)據(jù)分別代表著3種方法對3類圖像的融合結(jié)果.在從表1可以看出, 無論是在3個圖像的比較看, 還是從平均結(jié)果看本文提出方法的評估結(jié)果和其他兩個方法結(jié)果相比均有較好的表現(xiàn).值得注意的是本文的結(jié)果和MLDNet的評估結(jié)果相近, 這是因為這兩類方法都是基于多尺度思想建立的, 不同之處在于MLDNet網(wǎng)絡(luò)高層采用的是多分辨率密集連接模塊, 而本文方法在網(wǎng)絡(luò)底層采用的是多尺度卷積算子.所以文本提出的方法能夠更加直接地對輸入圖像進行多尺度特征捕獲, 所以得到特征也更為準確.
圖3 三組重建對比圖像
表1 不同方法在SSIM的結(jié)果
本文提出了一種有效的紅外和可見光圖像融合方法, 該方法首先使用多尺度卷積算子獲得輸入圖像的多尺度特征, 然后使用密集網(wǎng)絡(luò)計算圖像的間接特征,最后使用活動圖的方法將卷積網(wǎng)絡(luò)輸出的特征圖轉(zhuǎn)化為融合權(quán)重, 并得到最終的融合結(jié)果.該方法充分發(fā)掘了輸入圖像在多尺度直接特征和間接特征, 使用融合模型對輸入圖像的特征表示更為準確.但是多尺度算子融合的權(quán)重和結(jié)構(gòu)相關(guān)性不明確, 下一步將重點研究多尺度算子的權(quán)重融合計算方法.