劉 博, 韓廣良, 羅惠元
(1. 中國科學院 長春光學精密機械與物理研究所, 吉林 長春 130033;2. 中國科學院大學, 北京 100049)
圖像融合將同一場景下兩幅或多幅源圖像的相關聯(lián)有效信息整合成一幅綜合圖像,實現(xiàn)了不同模態(tài)圖像的信息互補。經(jīng)融合處理得到的圖像能夠彌補單一圖像信息量不足問題,更符合人眼視覺感知和工業(yè)視覺領域需求,因此圖像融合在許多領域都有廣泛的應用。
近些年,圖像融合技術發(fā)展迅速,相關學者針對像素級圖像融合進行了深入研究。其中基于多尺度的融合方法因有著魯棒性強、具有局部時頻特性等特點,一直是一個熱門的研究課題。經(jīng)典融合方法包括基于塔形分解的變化融合方法、基于小波變換的融合方法、基于輪廓波變換方法[1]等?;谒畏纸獾淖儞Q方法包括:基于拉普拉斯金字塔變換(LP)[2]、基于對比度金字塔變換[3]以及基于梯度金字塔變換[4]等?;谛〔ㄗ儞Q方法包括:基于方向小波變換[5]以及雙樹復小波變換(DTCWT)[6]等。然而以上方法在方向性上存在較大限制,且不具備平移不變性,融合結(jié)果中易出現(xiàn)邊緣特征捕獲不足和邊緣圓暈效應問題。而非下采樣輪廓波(NSCT)[7]和非下采樣剪切波(NSST)[8]具有較好的方向性和平移性,能夠在一定程度上解決上述問題,但融合過程中沒有充分考慮空間一致性,對全局結(jié)構(gòu)的邊緣輪廓特征提取能力不強。邊緣保留濾波具有平移不變性和邊緣保留性,能夠在平滑圖像的同時保持邊緣清晰。因此,很多方法將邊緣保留濾波引入到圖像融合中,以克服上述缺陷。文獻[9]構(gòu)造了一種多尺度方向雙邊濾波器,結(jié)合雙邊濾波器和非采樣方向濾波器組進行圖像融合。文獻[10]采用基于L0光滑濾波的多尺度邊緣保持分解,提出了一種增強融合結(jié)果細節(jié)的融合策略。文獻[11]提出了基于滾動引導濾波和混合多尺度分解的圖像融合方法,其利用滾動引導濾波將圖像分解到基本層、小尺度層和大尺度層,通過對不同層級進行融合使融合圖像具有更好的紋理邊緣特征。滾動引導濾波作為保邊濾波器的一種,不僅能夠平滑細節(jié),而且能夠保留圖像的邊緣特征,避免邊緣位置出現(xiàn)圓暈現(xiàn)象,這對保證融合圖像質(zhì)量具有重要意義。
此外,隨著機器學習技術的發(fā)展,一些基于學習的融合方法也被相繼提出。文獻[12]設計一種基于編碼和解碼體系結(jié)構(gòu)的網(wǎng)絡框架,通過無監(jiān)督訓練實現(xiàn)端到端圖像融合。文獻[13]結(jié)合多尺度模塊設計融合網(wǎng)絡,通過對不同尺度的特征進行提取提高融合效果。文獻[14]結(jié)合圖像塊融合思想,通過設計神經(jīng)網(wǎng)絡來指導源圖像塊進行融合。神經(jīng)網(wǎng)絡具有強大的特征提取能力,其可以捕捉圖像中最顯著物體的內(nèi)部特征。但隨著網(wǎng)絡層數(shù)增多,不斷進行池化的操作,可能會使特征圖損失很多細節(jié)信息,導致在邊緣部分的信息丟失。
基于邊緣濾波的多尺度分解具有較好的細節(jié)信息與邊緣輪廓信息提取能力,而神經(jīng)網(wǎng)絡則對物體的內(nèi)部區(qū)域具有較強的特征提取能力。本文中將這兩個模塊結(jié)合起來使用,并提出了一種基于多尺度細節(jié)的卷積神經(jīng)網(wǎng)絡圖像融合方法。通過將神經(jīng)網(wǎng)絡與改進的滾動引導濾波相結(jié)合,以多尺度的方式結(jié)合神經(jīng)網(wǎng)絡得到的權值圖共同處理信息,使融合圖像更好地滿足人類視覺效果。滾動引導濾波的聯(lián)合濾波采用聯(lián)合雙邊濾波器來實現(xiàn),并采用前次迭代圖像作為濾波器引導圖像。通過結(jié)合信息熵原理對空間平滑參數(shù)與灰度權重參數(shù)進行改進,使其實現(xiàn)針對不同源圖像的參數(shù)自適應化。這種方法能夠保留邊緣信息的同時使多尺度圖像充分提取細節(jié)信息。另外,通過非線性映射變換對構(gòu)建的多尺度圖像細節(jié)進行非線性映射,從而豐富突出細節(jié)層內(nèi)細節(jié)紋理信息。
本文融合框架主要分為3部分,如圖1所示。首先,兩張源圖像被送入孿生卷積神經(jīng)網(wǎng)絡中,經(jīng)過網(wǎng)絡特征提取后,得到與源圖像特征相關的權值映射圖。其次,對源圖像進行滾動引導濾波,并對相鄰迭代的細節(jié)層圖像進行差值,獲得多級差分細節(jié)圖像。然后對多級差分圖像進行函數(shù)映射變換,使圖像細節(jié)得到增強。最后,通過局部能量與權值圖相結(jié)合,自適應調(diào)整融合模式對多尺度圖像進行融合,從而得到融合圖像。
圖1 多聚焦圖像融合框架Fig.1 Multi-focus image fusion framework
孿生網(wǎng)絡是由兩個完全相同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡組成,兩個CNN能夠?qū)⑤斎雸D像映射到新的空間中進行表示,然后通過損失函數(shù)計算評價兩者之間的相似度。Sumit 等[15]提出了孿生網(wǎng)絡,通過從數(shù)據(jù)中學習相似性度量來對不同類別樣本加以區(qū)分,從而實現(xiàn)多分類任務。本文以孿生網(wǎng)絡作為神經(jīng)網(wǎng)絡框架提取融合圖像的權值圖W,如圖2所示。源圖像通過滑窗的方式得到16×16的patch作為網(wǎng)絡的輸入圖像輸入到訓練好的網(wǎng)絡中。網(wǎng)絡對圖像進行特征提取,然后將特征圖像連接起來組成特征向量。特征向量經(jīng)過兩個全連接層,得到一個二分類的特征向量,該向量代表清晰度分類的得分情況。將該二維向量經(jīng)softmax層進行歸一化后可得到所屬類別的概率值,它可表示為圖像的清晰度度量值,依據(jù)此值來組成權值圖。該CNN結(jié)構(gòu)主要由3個卷積層、一個池化層、兩個全連接層以及softmax層組成。具體參數(shù)如表1所示,3個卷積層的卷積核大小為3×3,步長設定為1,最大池化層采用2×2大小的內(nèi)核,步長設定為2。
圖2 孿生網(wǎng)絡框架Fig.2 Architecture of siamese network
表1 CNN網(wǎng)絡參數(shù)Tab.1 CNN network parameters
輸入網(wǎng)絡的patch的大小影響著算法的速度與精度,為保證兩者之間的平衡,本文中patch采用16×16的尺寸。源圖像通過滑窗得到16×16的patch,由于網(wǎng)絡結(jié)構(gòu)中存在一個pooling層,因此滑窗的步長為2。將取得的patch對送入網(wǎng)絡后會得到與清晰度特征信息相關的二分類概率值,將此值作為融合系數(shù)用來指導源圖像融合。為得到與源圖像大小尺寸相對應的權值圖,需要對其進行填充。如圖3所示,將1×1的權值進行填充使其與patch的尺寸相同,對于滑窗相鄰的patch,其權值圖在其相對應的重疊部分采用均值法來得到對應權值。通過這種方式可以重組出與源圖像大小相對應的權值圖。
圖3 權值圖生成機制Fig.3 Mechanism for generating the weight map
傳統(tǒng)金字塔分解多尺度的過程中對邊緣細節(jié)信息并不敏感,對細節(jié)的捕捉能力差,因此,利用保邊濾波器進行多尺度圖像構(gòu)建能夠更好地保護圖像的邊緣信息。其中滾動引導濾波[16]能夠在平滑細節(jié)紋理等信息的同時,通過不斷迭代的方式實現(xiàn)邊緣信息的恢復。
滾動引導濾波過程主要可分為小結(jié)構(gòu)消除和邊緣恢復兩部分。小結(jié)構(gòu)消除過程主要通過高斯濾波來實現(xiàn),如式(1)所示。
(1)
(2)
式中:
同樣作為歸一化系數(shù);Jt(m)、Jt(n)是第t次迭代得到的引導圖像在空間索引m、n處的像素值,σr是灰度域的權重,它決定圖像邊緣恢復的強度。該過程采用聯(lián)合雙邊濾波的形式將第t次迭代的輸出圖像Jt作為引導圖像,在濾波過程中它能夠在梯度變化處起主導作用,提高濾波器處理邊緣特征信息的強度,經(jīng)濾波后得到輸出圖像Jt+1。通過迭代使輸出圖像不斷更新,圖像的邊緣特征也被不斷恢復。
參數(shù)σs和σr是表征滾動引導濾波性能的重要參數(shù),它們決定著圖像濾波的最終效果。采用固定值作為σs和σr的輸入往往需要大量實驗和經(jīng)驗總結(jié),并且隨著濾波迭代更替圖像對參數(shù)的要求也會發(fā)生變化,不具備自適應性。圖像的信息熵能夠反映圖像內(nèi)信息的豐富程度,熵的本質(zhì)體現(xiàn)了一個系統(tǒng)的混亂程度,而圖像的濾波正是對圖像混亂程度進行改變的過程。因此,圖像的信息熵與參數(shù)σs和σr存在聯(lián)系,通過圖像的信息熵來決定參數(shù)σs和σr可以使?jié)L動引導濾波具備較強的自適應性。
參數(shù)σs主要用于控制濾波的尺度,通過式(3)、式(4)和式(5)對各層濾波參數(shù)進行設置。
(3)
(4)
(5)
圖像的每次迭代會在聯(lián)合濾波的作用下進行不同程度的保邊濾波,對相鄰迭代圖像進行差值處理可以得到差分圖像。圖4展示了相鄰兩次迭代圖像間被模糊掉的細節(jié)信息。σs的每次迭代更新都采取公式(3)進行更新,這使得圖像的紋理平滑程度將隨之變化,不同尺度的細節(jié)層包含的紋理信息也將由細到粗變化,從而實現(xiàn)細節(jié)輪廓特征的多尺度自適應提取。
圖4 滾動引導濾波多尺度構(gòu)建Fig.4 Multi-scale construction of rolling guided filtering
參數(shù)σr主要用于濾波的邊緣恢復與保留,其設置如式(6)、式(7)和式(8)所示:
(6)
(7)
(8)
局部拉普拉斯濾波[17]是一種邊緣保護濾波。它通過對圖像進行逐個像素點的像素映射變換使圖像的細節(jié)信息得到增強。本文參考其原理對滾動引導濾波分解的細節(jié)層圖像進行非線性映射變換,實現(xiàn)圖像細節(jié)增強,圖5大致展示了其變換過程。本文首先對多尺度細節(jié)層圖像進行函數(shù)映射變換,以t作為閾值用于界定細節(jié)特征像素與邊緣特征像素。對于t范圍內(nèi)的細節(jié)像素,通過映射變換對其進行非線性增強,而對邊緣像素保持線性不變。
圖5顯示了細節(jié)增強的效果圖,圖5(a)和圖5(b)是一組多聚焦源圖像,圖5(c)和圖5(e)經(jīng)滾動引導濾波分解的多尺度細節(jié)層圖像,圖5(d)和圖5(f)是與之對應的映射增強后細節(jié)層圖像。具體映射變換如式(9)、式(10)所示。
(9)
(10)
圖5 非線性映射增強。(a),(b)一組多聚焦源圖像;(c),(e)多尺度分解后的細節(jié)層圖像;(d),(f)映射增強后細節(jié)層圖像。Fig.5 Nonlinear mapping enhancement. (a), (b) a group of multi-focus source images; (c), (e) detail layer images after multi-scale decomposition, (d), (f) detail layer images after mapping enhancement.
源圖像經(jīng)多尺度分解以及細節(jié)層增強后與基礎層共同組成多尺度圖像。圖像的融合主要針對各層之間進行融合然后逐層疊加。左、右聚焦多尺度圖像分別記作Dl{L}、Dl{R},其中l(wèi)代表第l層多尺度圖像,并將基礎層記作D0{L}、D0{R}。各層之間采用局部能量與權值圖W相結(jié)合的方式進行融合。局部能量特征的定義是
E(x,y)=∑m∑nS(m,n)·
F(x+m,y+n)2,
(11)
式中,S(m,n)是局部區(qū)域的加權系數(shù),其核大小為3×3。E(x,y)代表點(x,y)在m,n區(qū)域像素值的能量值。反映到圖像特征上,E(x,y)值高代表該區(qū)域的特征更加明顯,即此區(qū)域?qū)牟煌叨葓D像細節(jié)信息更豐富或是低頻亮度特征更充分。所以,對Dl{L}、Dl{R}求區(qū)域能量,即:
(12)
(13)
(14)
(15)
當Ml≥th時,此時認定兩圖像的相似度較高,都存在重要特征信息,故采用基于權值圖W進行融合。計算如下:
Dl{F}=W(x,y)·Dl{L}(x,y)+
(1-W(x,y))·Dl{R}(x,y).
(16)
通過這種融合規(guī)則對各層多尺度圖像進行融合,最后對各層的融合圖像進行疊加,得到源圖像的融合圖像。
為驗證算法的有效性,本部分將通過主觀評價和客觀評價相結(jié)合的方式對算法進行比較分析。所對比方法分別為拉普拉斯變換融合方法(LP)[2],基于稀疏表示與輪廓波的融合方法(CVT_SR)[18],雙樹復小波變換融合方法(DTCWT)[6],基于稀疏表示與非下采樣輪廓波的融合方法(NSCT_SR)[19]以及滾動引導濾波(GFF)[11]的融合方法。主觀評價由人眼的視覺效果作為評價指標,具有直觀、簡單等優(yōu)點。圖6是采用lytro數(shù)據(jù)集中的一組多聚焦圖像,通過不同融合算法進行的實驗效果對比圖。左上部分為圖中黃色框內(nèi)的局部放大圖像用于對比各種算法的細節(jié)紋理效果。圖6(f)為本文算法融合結(jié)果,可以看到相比其他算法,黃色框內(nèi)的衣物對比度更高,紋理特征更加清晰。為便于分辨與觀測,本文將圖6(d),圖6(e)和圖6(f)分別與源圖像進行差值處理,通過歸一化后取圖中黃色框區(qū)域的差分圖像進行對比,如圖7所示。
圖6 采用lytro數(shù)據(jù)集中多聚焦圖像“小孩”進行融合對比實驗。(a)~(f)所采用方法依次是:CVT_SR、DTCWT、GFF、LP、NSCT_SR以及本文方法。Fig.6 Multi-focus image “child” in inlytro data set were used for the fusion comparison experiment. The methods used in (a) ~ (f) are CVT_SR, DTCWT, GFF, LP, NSCT_SR and Ours.
圖7 “小孩”的細節(jié)放大效果對比圖Fig.7 “Child” local details effect comprison diagram
圖8 采用lytro數(shù)據(jù)集中多聚焦圖像“雕塑”進行融合對比實驗。(a)~(f)所采用方法依次是:CVT_SR、DTCWT、GFF、LP、NSCT_SR以及本文方法。Fig.8 Multi-focus image “sculpture” in inlytro data set were used for the fusion comparison experiment. The methods used in (a) ~ (f) are CVT_SR, DTCWT, GFF, LP, NSCT_SR and Ours.
可以看到,圖7(c)的紋理更加清晰,邊緣部分沒有模糊現(xiàn)象。圖8也是采用lytro數(shù)據(jù)集中的一組多聚焦圖像進行對比實驗,圖9是圖8(d),圖8(e)和圖8(f)中黃色框內(nèi)的局部放大效果。經(jīng)對比可以看到,圖9(c)中雕像頭部與手臂的輪廓邊緣清晰完整,細節(jié)特征更加豐富。
圖9 “雕塑”的細節(jié)放大效果對比圖Fig.9 “Sculpture” local details effect comprison diagram
圖10是TNO數(shù)據(jù)集中一組紅外可見圖像的各算法實驗結(jié)果。
圖10 各算法全局效果對比圖Fig.10 Comparison of the global effect of each algorithm
類似地,本文在圖11中展示了融合圖像的局部放大圖??梢钥吹?,相較與其他算法效果圖,圖11(c)人物目標顯著,坡地草坪、樹枝紋理以及木樁輪廓可分辨度更高,具有更好的視覺效果。
圖11 融合圖像的細節(jié)放大效果對比圖Fig.11 Comparision of details enlarged of the fusion images
由于人的視覺感知存在差異,對評價結(jié)果存在一定的影響,因此需要通過構(gòu)建與人眼視覺效果相近的客觀評價指標模型對融合圖像進行更進一步的客觀評價。
本文采用6種重要的評價指標對算法進行測試。這6種評價指標分別是:平均梯度(AG)、QAB/F度量(QAB/F)、空間頻率(SF)、信息熵(EN)、結(jié)構(gòu)相似性(SSIM)以及視覺信息保真度(VIFF)。其中AG也稱作圖像銳度值,能夠衡量圖像細節(jié)紋理特征清晰度,其值越高代表圖像細節(jié)紋理越清晰。QAB/F利用局部度量來估計輸入圖像的顯著信息在融合圖像中的表現(xiàn)程度,能夠反映融合圖像從輸入圖像中獲得的視覺信息的質(zhì)量。SF能夠度量圖像空間域的總體活躍度,可反映圖像對微小細節(jié)反差表達的能力。EN是用于測量融合圖像中所包含信息量的重要指標。SSIM通過計算融合圖像與參考圖像之間的結(jié)構(gòu)相關信息來判斷結(jié)構(gòu)的相似度。VIFF通過模擬人類視覺系統(tǒng)原理從通信和信息共享的角度評判圖像質(zhì)量,具有圖像視覺效果的判定能力,其值越大,圖像的保真度越高。
表2、表3分別是多聚焦圖像集和紅外圖像集在各種算法下所得客觀指標的均值表。表2采用 lytro數(shù)據(jù)集中的17對多聚焦圖像作為源圖像數(shù)據(jù)進行測試,而表3采用TNO數(shù)據(jù)集和紅外圖像數(shù)據(jù)集中的29對紅外可見光圖像作為源圖像數(shù)據(jù)進行測試。由表2和表3可見,本文算法在MG、SF、IE和VIFF上具有明顯優(yōu)勢,代表著本文算法在細節(jié)紋理分辨度和視覺效果保真度方面效果更佳。但在SSIM上略低于其他算法,究其原因在于進行多尺度非線性增強使圖像的照明度、對比度以及圖像結(jié)構(gòu)部分得到一定增強。用源圖像作為參考圖像時,由于結(jié)構(gòu)發(fā)生一定變化,使得此項指標低于其他算法結(jié)果。綜合主觀評價與客觀評價,本文算法在細節(jié)紋理、輪廓清晰以及視覺保真效果上具有明顯優(yōu)勢。
表2 多聚焦融合圖像客觀指標比較Tab.2 Objective index comparison of multi-focus fusion images
表3 紅外可見光融合圖像客觀指標比較Tab.3 Comparison of objective indexes of infrared visible light fusion images
本文提出一種基于多尺度細節(jié)的卷積神經(jīng)網(wǎng)絡圖像融合算法。通過孿生網(wǎng)絡提取圖像特征構(gòu)建權值圖,并通過改進的滾動引導濾波對源圖像進行自適應多尺度分解,并進一步使用映射函數(shù)增強了圖像細節(jié),最后基于局部能量原理與權值圖,設計自適應調(diào)整融合模式,將多尺度特征圖進行融合。該方法能夠更好地突出細節(jié)紋理特征,提高視覺感知特性。實驗結(jié)果表明,所提方法融合結(jié)果具有更加豐富的細節(jié)特征,避免了圖像出現(xiàn)圓暈效應,更符合人類的視覺感知系統(tǒng)。