李妙宇,付瑩
北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100089
高光譜圖像(hyperspectral image,HSI)包含豐富的光譜信息,相比于多光譜圖像(multispectral images,MSI),可以更好地反映出物體的材質(zhì)信息,在目標(biāo)探測(cè)(Liang 等,2013;Li 等,2015)、農(nóng)業(yè)檢測(cè)(Ad?o 等,2017)和人臉識(shí)別(Uzair 等,2015)等領(lǐng)域有著廣泛的應(yīng)用。但由于光通量和成像系統(tǒng)的限制,高光譜圖像難于同時(shí)具有較高的空間分辨率和光譜分辨率。將低空間分辨率的高光譜圖像(lowresolution hyperspectral image,LR-HSI)和高空間分辨率的多光譜圖像(high-resolution multispectral image,HR-MSI)進(jìn)行融合,從而獲得高空間分辨率的高光譜圖像(high-resolution hyperspectral image,HR-HSI),是一種行之有效的提升高光譜圖像空間分辨率的方法。
目前已有的高光譜圖像融合超分辨率方法主要分為兩類,一類是基于優(yōu)化模型的方法,另一類是基于深度學(xué)習(xí)的方法。基于優(yōu)化模型的方法將各種圖像先驗(yàn)知識(shí)與優(yōu)化過(guò)程相結(jié)合(Peng等,2021;Zhang等,2018a),通過(guò)最大后驗(yàn)概率來(lái)融合高光譜圖像和多光譜圖像,實(shí)現(xiàn)高光譜圖像的超分辨。其中,基于矩陣分解的方法(Kawakami等,2011;Liu等,2020;Li等,2021)將LR-HSI 和HR-MSI 分別進(jìn)行解混,獲得表征光譜信息的字典矩陣和表征空間信息的系數(shù)矩陣,根據(jù)字典矩陣和系數(shù)矩陣,恢復(fù)出HR-HSI?;谪惾~斯表示的方法(Akhtar 等,2015)使用非參數(shù)貝葉斯字典學(xué)習(xí)圖像的光譜分布和空間分布來(lái)進(jìn)行高光譜圖像超分辨。Zhang 等人(2018b)通過(guò)流形聚類方法來(lái)保留多光譜的空間域信息,以此對(duì)后驗(yàn)高光譜圖像進(jìn)行約束和超分辨。此外,全變分正則約束(Wang 等,2017;Li 等,2022)、相似性約束(Han等,2018)和子空間約束(Sim?es 等,2015)也被用于高光譜融合超分辨中,以獲得更好的融合效果。雖然這些基于優(yōu)化模型的方法表現(xiàn)良好,但它們往往依賴于手工提取的先驗(yàn)特征,對(duì)多樣性的場(chǎng)景適應(yīng)有限,且融合模型復(fù)雜,需要長(zhǎng)時(shí)間的迭代優(yōu)化。
深度學(xué)習(xí)在高光譜圖像融合超分辨領(lǐng)域開始得到廣泛應(yīng)用。其通過(guò)大規(guī)模的數(shù)據(jù)集來(lái)自動(dòng)地學(xué)習(xí)網(wǎng)絡(luò)輸入到輸出的映射,降低了圖像融合過(guò)程對(duì)手工提取特征的依賴,因此,這類方法往往能取得比基于優(yōu)化模型的方法更好的融合效果。根據(jù)優(yōu)化方法和網(wǎng)絡(luò)設(shè)計(jì)方式的區(qū)別,基于深度學(xué)習(xí)的融合方法又可以分為深度展開的方法和端到端的方法。
深度展開方法將深度網(wǎng)絡(luò)和傳統(tǒng)迭代模型相結(jié)合,將迭代過(guò)程中的部分環(huán)節(jié)用深度網(wǎng)絡(luò)代替,使得整體網(wǎng)絡(luò)具有更好的可解釋性。Xie 等人(2022)利用圖像的低秩先驗(yàn)信息,對(duì)網(wǎng)絡(luò)進(jìn)行多次迭代優(yōu)化,從而獲得高分辨率的融合圖像。Dong 等人(2021)將高光譜圖像的退化矩陣用網(wǎng)絡(luò)來(lái)表示,利用迭代算法來(lái)優(yōu)化融合網(wǎng)絡(luò)和退化網(wǎng)絡(luò)。
端到端的深度學(xué)習(xí)融合方法主要探索如何設(shè)計(jì)深度網(wǎng)絡(luò)來(lái)提取多源圖像的空間信息和光譜信息。Zhang 等人(2021)將退化矩陣的估計(jì)與深度網(wǎng)絡(luò)相結(jié)合,實(shí)現(xiàn)高光譜圖像的融合超分辨。此外,為了更好地融合光譜特征和空間特征,Yao 等人(2020)提出基于交叉注意力機(jī)制的無(wú)監(jiān)督融合網(wǎng)絡(luò),對(duì)光譜分支的信息和空間分支的信息進(jìn)行交互,但其融合結(jié)果受網(wǎng)絡(luò)初始化影響大,且需要較長(zhǎng)時(shí)間來(lái)進(jìn)行優(yōu)化。Hu 等人(2021)提出一種基于深度空間—光譜注意力的卷積網(wǎng)絡(luò),以保留圖像的光譜信息和空間信息,但此方法獲得的特征表征能力不足,容易出現(xiàn)過(guò)擬合現(xiàn)象。
LR-HSI 在光譜維度上表現(xiàn)出高度相關(guān)性,HRMSI 則在空間紋理上有明顯的自相似性,因此,待融合圖像中像素或波段間存在著依賴關(guān)系。這種依賴關(guān)系不僅限于鄰近像素,長(zhǎng)距離像素間同樣具有一定相似性依賴,充分利用這種內(nèi)在依賴關(guān)系可以有效提高融合圖像的空間質(zhì)量和光譜保真度。現(xiàn)有的深度學(xué)習(xí)方法(Dong 等,2021;Hu 等,2021;Yao 等,2020)雖然表現(xiàn)良好,但是仍缺少對(duì)多源圖像中內(nèi)在依賴關(guān)系的聯(lián)合探索。在HR-HSI 和HR-MSI 的融合階段,往往使用退化估計(jì)模型(Dong 等,2021;Yao等,2020)或直接疊加(Hu等,2021;Xie等,2022)的方式,對(duì)圖像的自相似性關(guān)注度不夠,造成融合圖像光譜細(xì)節(jié)或空間紋理的丟失;此外,在深度特征提取階段,以往的方法大多基于卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),其感受野受限于卷積核的大小,不能很好地表征長(zhǎng)距離像素或波段間的依賴關(guān)系。此外,由于卷積核的參數(shù)固定,以往方法也難于動(dòng)態(tài)地表達(dá)圖像特征,融合表現(xiàn)也因此受限。
Transformer 網(wǎng) 絡(luò)(Vaswani 等,2017;Wang 等,2021b)在自然語(yǔ)言、圖像處理等領(lǐng)域取得了良好的效果,其核心為自注意力模塊,利用自相似性度量矩陣,可以動(dòng)態(tài)建模序列間的關(guān)聯(lián)程度,從而有效地提取長(zhǎng)距離依賴關(guān)系,更好地表達(dá)圖像特征。然而,現(xiàn)有的Transformer 網(wǎng)絡(luò)大多針對(duì)RGB 圖像設(shè)計(jì),沒(méi)有明確考慮到高光譜圖像和多光譜圖像的特性,難于適配高光譜圖像融合問(wèn)題。
針對(duì)上述問(wèn)題,本文提出一種聯(lián)合自注意力高光譜圖像融合超分辨Transformer 網(wǎng)絡(luò),有效地從光譜相關(guān)性和空間相似性對(duì)多源圖像進(jìn)行融合,利用融合特征間的長(zhǎng)距離依賴關(guān)系充分挖掘融合特征的深度先驗(yàn)知識(shí)。首先,采用聯(lián)合自注意力模塊,從光譜維度和空間維度進(jìn)行多源圖像的融合,在保留全局光譜信息的同時(shí),提高圖像的空間分辨率。具體地,通過(guò)相似性度量矩陣,分別提取LR-HSI 的光譜相關(guān)性信息和HR-MSI 的空間相似性信息,從而保留光譜信息和空間信息;然后,利用提取的光譜相關(guān)性特征和空間相似性特征對(duì)融合過(guò)程進(jìn)行引導(dǎo),獲得初步超分圖像;最后,考慮融合特征也存在內(nèi)在相似性,通過(guò)一系列堆疊的殘差Transformer塊對(duì)融合特征進(jìn)行優(yōu)化,增強(qiáng)網(wǎng)絡(luò)長(zhǎng)距離依賴關(guān)系表征能力,從而獲得高空間分辨率的高光譜融合圖像。
本文的主要貢獻(xiàn)點(diǎn)如下:1)提出聯(lián)合自注意力融合模塊,有效地從光譜相關(guān)性和空間自相似性兩個(gè)層面,對(duì)低分辨率高光譜和多光譜圖像的信息進(jìn)行融合;2)在模型中引入Transformer深度融合網(wǎng)絡(luò),通過(guò)對(duì)融合特征中長(zhǎng)距離像素間依賴信息的探索,增強(qiáng)融合特征;3)實(shí)驗(yàn)結(jié)果表明,從定量指標(biāo)和視覺(jué)效果上,本文的方法都取得了比當(dāng)前先進(jìn)方法更好的融合超分辨結(jié)果,在提升高光譜圖像空間分辨率的同時(shí),準(zhǔn)確地保留了光譜信息。
設(shè)Y∈RB×n表示LR-HSI,B、h和w分別表示圖像光譜維的波段數(shù)目和空間維的長(zhǎng)和寬。設(shè)Z∈Rb×N表示HR-MSI,N=H×W,b、H和W分別表示圖像光譜維的波段數(shù)目和空間維的長(zhǎng)和寬,其中,b?B,n?N。融合LR-HSI 和HR-MSI 獲得的HRHSI 則表示為X∈RB×N。這些光譜圖像之間的關(guān)系可以線性建模為
式中,D∈RN×N為空間模糊矩陣,S∈RN×n為空間降采樣矩陣,P∈Rb×B為多光譜相機(jī)的光譜響應(yīng)曲線。由于從LR-HSI和HR-MSI中觀測(cè)到的值數(shù)量要遠(yuǎn)遠(yuǎn)小于HR-HSI 的未知值數(shù)量(Bn+bN?BN),這類融合問(wèn)題是一個(gè)病態(tài)的逆問(wèn)題,往往需要通過(guò)先驗(yàn)知識(shí)來(lái)對(duì)融合過(guò)程進(jìn)行約束。因此,高光譜融合超分辨問(wèn)題的優(yōu)化過(guò)程通??梢员硎緸?/p>
式中,‖ · ‖F(xiàn)為Frobenius 范數(shù)。式中前兩項(xiàng)為優(yōu)化過(guò)程的保真項(xiàng),?(X)為先驗(yàn)正則項(xiàng),λ是權(quán)重系數(shù)。
基于傳統(tǒng)優(yōu)化模型的高光譜融合方法使用不同的先驗(yàn)項(xiàng)來(lái)迭代優(yōu)化目標(biāo)融合圖像?;谏疃葘W(xué)習(xí)的方法則不需要顯式地引入手工設(shè)計(jì)的先驗(yàn)項(xiàng),其往往在有監(jiān)督框架下,通過(guò)深度網(wǎng)絡(luò),從大量數(shù)據(jù)中學(xué)習(xí)圖像的內(nèi)在先驗(yàn)知識(shí)。在訓(xùn)練過(guò)程中,可以認(rèn)為HR-HSIX是已知的。令fθ表示網(wǎng)絡(luò)從雙輸入到單輸出的映射,θ為網(wǎng)絡(luò)參數(shù),基于深度學(xué)習(xí)方法的優(yōu)化過(guò)程可以表示為
本文通過(guò)設(shè)計(jì)并訓(xùn)練更為合適的深度網(wǎng)絡(luò)fθ,對(duì)LR-HSI和HR-MSI進(jìn)行融合,獲得目標(biāo)HR-HSI。
本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。網(wǎng)絡(luò)整體主要包括3 部分,第1 部分為聯(lián)合自注意力融合模塊,對(duì)雙輸入光譜圖像進(jìn)行初步融合;第2 部分為深層的Transformer 融合網(wǎng)絡(luò),以獲取更具有代表性的圖像先驗(yàn)知識(shí);最后,輸出特征通過(guò)卷積層映射為目標(biāo)高分辨率的高光譜圖像。具體地,給定LR-HSIY和HR-MSIZ,模型首先對(duì)輸入進(jìn)行空間維度和光譜維度上的對(duì)齊。Y通過(guò)插值操作進(jìn)行空間上采樣,從而獲得與HR-MSI 空間大小一致的上采樣圖像YU。隨后YU和Z都通過(guò)1 × 1 卷積層進(jìn)行光譜維度的對(duì)齊,對(duì)齊后的初步特征通過(guò)聯(lián)合自注意力模塊進(jìn)行融合,再通過(guò)一系列堆疊的Transformer 網(wǎng)絡(luò),進(jìn)一步恢復(fù)空間細(xì)節(jié)和光譜信息。最后,輸出特征通過(guò)3 × 3 卷積將融合特征映射為HR-HSIX。
圖1 聯(lián)合自注意力的Transformer高光譜融合超分辨網(wǎng)絡(luò)示意圖Fig.1 Architecture of the joint self-attention-based Transformer for hyperspectral image super-resolution
高光譜圖像融合超分辨的目標(biāo)是在保留豐富的光譜信息的同時(shí),提高圖像的空間分辨率。因此,有效地利用LR-HSI的光譜信息和HR-MSI的空間信息是提高融合圖像質(zhì)量的關(guān)鍵。高光譜圖像具有光譜帶多、帶寬窄的特點(diǎn),其波段間具有高度相關(guān)性;同時(shí),多光譜圖像本身在空間上存在紋理的自相似性。直接對(duì)LR-HSI和HR-MSI進(jìn)行拼接并輸入到深度網(wǎng)絡(luò)中,易導(dǎo)致空間細(xì)節(jié)和光譜信息的丟失。從圖像內(nèi)在特性出發(fā),本文采用聯(lián)合自注意力模塊,充分利用多源圖像的光譜相關(guān)性和空間自相似性。通過(guò)光譜注意力機(jī)制,從LR-HSI 中提取出光譜相關(guān)性特征;使用空間注意力機(jī)制,從HR-MSI 中提取出空間相似性特征;利用相似性特征,指導(dǎo)多源圖像的融合,更有效地融合LR-HSI和HR-MSI。
如圖2 所示,本文提出的聯(lián)合自注意力融合模塊首先利用3 × 3卷積層對(duì)來(lái)自LR-HSI的特征Fy和來(lái)自HR-MSI 的特征Fz進(jìn)行初步融合,獲得注意力模塊共享的輸入Fv;光譜注意力模塊的查詢向量Qy和鍵向量Ky由Fy得到,空間注意力模塊的查詢向量Qz和鍵向量Kz由Fz得到,它們的鍵向量由共享的輸入Fv得到;最后,將并行的光譜注意力模塊和空間注意力模塊的輸出拼接,通過(guò)3 × 3 卷積層,從而獲得光譜—空間融合特征。
圖2 聯(lián)合自注意力融合模塊示意圖Fig.2 Architecture of the joint self-attention fusion module((a)overall architecture of the proposed module;(b)architecture of spectral attention module;(c)architecture of spatial attention module)
2.1.1 光譜注意力模塊
如圖2(b)所示,光譜注意力模塊通過(guò)光譜注意力矩陣,提取LR-HSI的光譜信息。為增強(qiáng)模型表征能力,來(lái)自LR-HSI 的特征Fy∈RC×HW首先分別通過(guò)兩個(gè)1 × 1 卷積層,獲得查詢向量Qy和鍵向量Ky;初步融合的特征Fv∈RC×HW同樣通過(guò)一個(gè)1 × 1 卷積層,獲得值向量Vy。C表示特征維度,H和W為特征的長(zhǎng)和高。這一過(guò)程可表示為
式中,α為可學(xué)習(xí)的縮放參數(shù)。
在網(wǎng)絡(luò)實(shí)現(xiàn)中,為獲得更加具有多樣性的特征,增強(qiáng)網(wǎng)絡(luò)泛化性,在矩陣乘法計(jì)算時(shí),將Qy、Ky和Vy按照通道維度劃分為Nh頭的形式,在不改變計(jì)算量的同時(shí),提高了自注意力機(jī)制的表達(dá)能力。最后,基于光譜注意力機(jī)制獲取的特征fy通過(guò)1 × 1 卷積層,進(jìn)行線性映射后輸出。
2.1.2 空間注意力模塊
多光譜圖像一般具有較大的空間分辨率,直接在多光譜圖像上使用基于全局空間的注意力機(jī)制將會(huì)帶來(lái)極大的運(yùn)算量。為了在融合質(zhì)量和運(yùn)行時(shí)間中取得平衡,本文使用基于窗口的空間自注意力模塊,對(duì)HR-MSI 的空間信息進(jìn)行提取。如圖2(c)所示,在空間注意力模塊中,首先將輸入的特征Fz∈RC×HW和Fv∈RC×HW拆分為不重疊的塊,分別表示 為其 中,且K表 示空 間降采樣倍數(shù)。
式中,β為可學(xué)習(xí)的縮放參數(shù)。
在空間注意力模塊中,同樣使用多頭并行的方式來(lái)進(jìn)行計(jì)算。與光譜注意力有區(qū)別的是,空間注意力模塊計(jì)算出的空間相似性矩陣為KK×KK,表征了窗口中像素的相似程度。此外,基于窗口獲得的注意力矩陣在通過(guò)1 × 1 卷積后,需要通過(guò)合并窗口操作,合并為fz∈RC×HW。
聯(lián)合自注意力模塊對(duì)LR-HSI和HR-MSI從空間信息和光譜信息兩個(gè)維度進(jìn)行融合,但這種融合特征仍然比較淺層,需要后續(xù)網(wǎng)絡(luò)對(duì)融合特征進(jìn)一步挖掘。以往的深度學(xué)習(xí)融合方法大多基于卷積神經(jīng)網(wǎng)絡(luò),缺少對(duì)特征間長(zhǎng)距離依賴的探索。近年來(lái),Transformer 網(wǎng) 絡(luò)(Chen 等,2021;Dosovitskiy 等,2021;趙琛琦 等,2022)在圖像處理領(lǐng)域取得了良好的效果,可以有效利用圖像的自相似性,在建模長(zhǎng)距離依賴關(guān)系上相比于卷積操作,更具有優(yōu)勢(shì)。本文將Transformer 網(wǎng)絡(luò)作為融合網(wǎng)絡(luò)的主干,其包含3 個(gè)基于偏移窗口的殘差Transformer 塊(residual shifted windows Transformer,RSwinT),每個(gè)RSwinT模塊的具體結(jié)構(gòu)如圖3 所示。在初步融合特征的基礎(chǔ)上,進(jìn)一步探索深度特征間的長(zhǎng)距離依賴信息,從而實(shí)現(xiàn)更好的融合效果。給定初步融合特征,Transformer深度網(wǎng)絡(luò)可表示為
圖3 基于Transformer的深度融合網(wǎng)絡(luò)示意圖Fig.3 Flowchart of deep Transformer fusion network((a)RSwinT block;(b)two successive Transformer blocks)
每個(gè)RSwinT 模塊包含6 個(gè)Transformer 層和1 個(gè)卷積層。具體地,來(lái)自上一模塊的輸入首先通過(guò)連續(xù)的Transformer層,再通過(guò)卷積層輸出,即
式中,P=6,表示第i個(gè)RSwinT 模塊第j層的輸出表示第i個(gè)RSwinT 模塊的最終輸出。此外,為了使得不同層級(jí)模塊的輸出可以更好的融合,防止網(wǎng)絡(luò)梯度彌散,在模塊中引入了殘差連接。
Transformer 層由空間注意力模塊(multi-head self-attention,MSA)、歸一化層(layernorm,LN)、多層感知機(jī)(multilayer perceptron,MLP)構(gòu)成。假設(shè)Transformer 層的輸入為I,輸出為I′′,包含殘差連接的Transformer層的計(jì)算為
輸入特征首先通過(guò)歸一化層,從通道維度對(duì)特征進(jìn)行歸一化,隨后,通過(guò)基于窗口的注意力層,有效地探索融合特征中的長(zhǎng)距離依賴信息;隨后再次進(jìn)行歸一化,防止訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題;最后,通過(guò)多層感知機(jī)進(jìn)行輸出。
受Liu 等人(2021)方法的啟發(fā),使用基于偏移窗口的Transformer 結(jié)構(gòu),如圖3(b)所示,分別包含表示基于窗口的空間注意力模塊(window-based multi-head self-attention,W-MSA)和基于偏移窗口的空間注意力模塊(shift window-based multi-head selfattention,SW-MSA)。
為了驗(yàn)證本文方法的有效性,本文在CAVE 數(shù)據(jù)集和Harvard 數(shù)據(jù)集上進(jìn)行8 倍降采樣和16 倍降采樣上的對(duì)比實(shí)驗(yàn)及分析。CAVE 數(shù)據(jù)集由通用像素?cái)z像機(jī)拍攝,包含32 幅室內(nèi)真實(shí)場(chǎng)景下的高光譜圖像。每幅圖像的空間分辨率為512 × 512 像素,包含31 個(gè)光譜通道,以10 nm 的間隔覆蓋了400 nm 到700 nm 的波長(zhǎng)。Harvard 數(shù)據(jù)集中有50 幅真實(shí)場(chǎng)景下的高光譜圖像,其光譜范圍為420 nm 到720 nm,具有31 個(gè)光譜通道。相較于CAVE 數(shù)據(jù)集,Harvard數(shù)據(jù)集的空間分辨率更高,每幅圖包含1 392 ×1 040像素,因此相鄰像素間的光譜信息更加平滑。
本文選用CAVE 數(shù)據(jù)集的前20 幅圖像用于訓(xùn)練,后12 幅圖像用于測(cè)試。對(duì)于Harvard 數(shù)據(jù)集,使用前30 幅高光譜圖像作為訓(xùn)練,后20 幅用于測(cè)試。為了降低傳統(tǒng)方法的測(cè)試時(shí)間,在測(cè)試時(shí),將來(lái)自Harvard 測(cè)試數(shù)據(jù)從中心裁剪為512 × 512 × 31 的圖像。訓(xùn)練圖像被交疊裁剪為96 × 96 × 31的圖像,通過(guò)例如翻轉(zhuǎn)和旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方法,獲得更多的訓(xùn)練數(shù)據(jù)。參照Dong 等人(2021)的設(shè)置,這些真值圖像先通過(guò)8 × 8的高斯模糊核進(jìn)行平滑,然后進(jìn)行空間均值降采樣,獲得低空間分辨率的高光譜圖像;通過(guò)尼康D700相機(jī)的響應(yīng)曲線,對(duì)真值圖像進(jìn)行光譜降采樣,獲得RGB 圖像。這些成對(duì)的低分辨率高光譜圖像和RGB 圖像將作為L(zhǎng)R-HSI 和HR-MSI,輸入到網(wǎng)絡(luò)中。其對(duì)應(yīng)的未經(jīng)過(guò)降采樣處理的真值高光譜圖像作為HR-HSI,與網(wǎng)絡(luò)的輸出進(jìn)行損失函數(shù)計(jì)算,從而對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
本文的融合網(wǎng)絡(luò)使用Adam(Kingma 和Ba,2017)優(yōu)化器進(jìn)行訓(xùn)練,采用均方誤差作為損失函數(shù),其中學(xué)習(xí)率設(shè)置為1 × 10-4,50輪次后下降為1 ×10-5,總訓(xùn)練輪次為100,訓(xùn)練批次為16。本文網(wǎng)絡(luò)由PyTorch 實(shí)現(xiàn),并在NVIDIA GeForce 3090 下進(jìn)行訓(xùn)練和測(cè)試。
為了評(píng)估所提出方法的性能,將本文提出的方法與NSSR(non-negative structured sparse representation)(Dong 等,2016)、MHF-Net(MS/HS fusion network)(Xie 等,2022)、UAL(unsupervised adaptation learning)(Zhang 等,2020)、CUCaNe(tcoupled unmixing cross-attention network)(Yao 等,2020)、MGD(model-guided deep network)(Dong 等,2021)、EDBIN(enhanced deep blind hyperspectral image fusion network)(Wang 等,2021a)和HSRNet(hyperspectral image super-resolution network)(Hu 等,2021進(jìn)行比較。NSSR是基于模型的傳統(tǒng)方法,其余方法為基于深度學(xué)習(xí)的方法。MGD 和EDBIN 采用深度展開的方式,CUCaNet 采用無(wú)監(jiān)督的方式,對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
為了對(duì)融合結(jié)果進(jìn)行定量評(píng)價(jià),使用峰值信噪比(peak signal-to-noise ratio,PSNR)、結(jié)構(gòu)相似性指數(shù)(structural similarity index,SSIM)、光譜角映射(spectral angle mapper,SAM)和相對(duì)全局融合誤差(erreur relative globale adimensionnelle de Synthèse,ERGAS)四個(gè)指標(biāo)對(duì)本文方法與對(duì)比方法進(jìn)行評(píng)價(jià)。其中,PSNR、SSIM、ERGAS 對(duì)圖像的全局融合質(zhì)量進(jìn)行評(píng)估,SAM 用于衡量圖像光譜信息的完整程度。PSNR 和SSIM 越高,代表融合圖像與真值高光譜圖像差異越小。SAM 和ERGAS越大,代表融合結(jié)果與真值高光譜圖像差異越大。
表1 以數(shù)值結(jié)果的形式展示了CAVE 數(shù)據(jù)集上,8 倍降采樣倍數(shù)和16 倍降采樣倍數(shù)下本文方法與對(duì)比方法的融合結(jié)果??梢钥吹剑疚姆椒ㄔ谒卸吭u(píng)價(jià)指標(biāo)上都取得了最好的結(jié)果。相比于基于優(yōu)化模型的傳統(tǒng)方法NSSR,本文方法在8 倍采樣率和16 倍采樣率下,PSNR 提高了5 dB。相較于深度學(xué)習(xí)方法中表現(xiàn)比較好的EDBIN 和MHFNet,本文方法在16 倍采樣率下,PSNR 提高了至少0.8 dB,ERGAS 下降了至少0.5。相較于其他對(duì)比方法,本文方法也取得了最低的SAM 值和ERGAS值,表明其具有更好的光譜信息保留能力。
表1 不同算法在8倍和16倍降采樣的CAVE數(shù)據(jù)集12幅圖像上的平均結(jié)果Table 1 Average results of the comparative methods over 12 testing samples of CAVE dataset for scaling factor 8 and 16
表2 展示了8 倍降采樣率和16 倍降采樣率下,本文方法與對(duì)比方法在Harvard 數(shù)據(jù)集上融合實(shí)驗(yàn)的數(shù)值結(jié)果。其中,無(wú)監(jiān)督深度學(xué)習(xí)方法CUCaNet的融合結(jié)果不佳。在4 個(gè)評(píng)價(jià)指標(biāo)上,本文方法都取得了最好的融合結(jié)果。相較于第二好的方法EDBIN,本文方法在PSNR 這一指標(biāo)上提高了至少0.4 dB,說(shuō)明本文提出的方法相較于其他融合方法,具有明顯優(yōu)勢(shì),能夠更好地融合LR-HSI的空間紋理信息和HR-MSI的光譜信息。同時(shí),對(duì)比CAVE 數(shù)據(jù)集上的結(jié)果,可以看到Harvard 數(shù)據(jù)集上,本文方法和對(duì)比方法的融合效果都普遍更好,說(shuō)明在Harvard數(shù)據(jù)集上的融合更簡(jiǎn)單。
表2 不同算法在8倍和16倍降采樣的Havard數(shù)據(jù)集20幅圖像上的平均結(jié)果Table 2 Average results of the comparative methods over 20 testing samples of Harvard dataset for scaling factor 8 and 16
圖4 和圖5 分別展示了CAVE 數(shù)據(jù)集和Harvard數(shù)據(jù)集上高分辨率圖像真值、低分辨率高光譜圖像和可視化誤差圖像。其中,誤差圖由真值高光譜圖像與融合圖像的誤差絕對(duì)值生成,誤差越小說(shuō)明融合結(jié)果越好??傮w上,本文方法取得了最好的融合效果。以圖4 為例,在圖像邊緣處,UAL 方法和HSRNet方法的融合結(jié)果誤差較大,說(shuō)明它的融合結(jié)果相比于目標(biāo)高分辨率高光譜圖像有一定差距,沒(méi)有很好地保留空間紋理信息。雖然MGD 方法和EDBIN 方法整體上取得了比較好的融合效果,但在細(xì)節(jié)上,仍有空間信息的缺失。本文方法通過(guò)聯(lián)合自注意力模塊,有效保留了光譜信息和空間信息,并通過(guò)Transformer深度網(wǎng)絡(luò)提取特征中的長(zhǎng)距離依賴信息,從而在圖像的整體視覺(jué)效果和空間細(xì)節(jié)保留上,都獲得了更優(yōu)的恢復(fù)結(jié)果。
圖4 8倍降采樣率下CAVE數(shù)據(jù)集在第20個(gè)波段上的重建結(jié)果誤差圖Fig.4 Error maps of reconstructed images at the 20-th band on CAVE dataset under scale factor=8((a)HR-HSI;(b)LR-HSI;(c)NSSR;(d)MHF-Net;(e)UAL;(f)CUCaNet;(g)MGD;(h)EDBIN;(i)HSRNet;(j)ours)
圖5 16倍降采樣率下Harvard數(shù)據(jù)集在第20個(gè)波段上的重建結(jié)果誤差圖Fig.5 Error maps of reconstructed images at the 20-th band on Harvard dataset under scale factor=16((a)HR-HSI;(b)LR-HSI;(c)NSSR;(d)MHF-Net;(e)UAL;(f)CUCaNet;(g)MGD;(h)EDBIN;(i)HSRNet;(j)ours)
圖6 展示了在CAVE 數(shù)據(jù)集和Harvard 數(shù)據(jù)集上不同融合方法獲得的融合圖像和真值圖像在光譜維的均方根誤差(root mean square error,RMSE)結(jié)果圖。RMSE 越低,說(shuō)明該融合波段越接近真實(shí)值。其中,圖6(a)為CAVE 數(shù)據(jù)集上16 倍降采樣下的結(jié)果,圖6(b)為Harvard 數(shù)據(jù)集上8 倍降采樣下的結(jié)果。從圖6 中可以看出,CUCaNet 的融合結(jié)果與真實(shí)圖像誤差較大,沒(méi)有很好地保留光譜信息。本文方法在各個(gè)波段都取得了較低的RMSE 值,說(shuō)明本文方法有效地保留了高光譜圖像的光譜信息。
圖6 本文方法和對(duì)比方法在光譜維度的重建誤差結(jié)果圖Fig.6 RMSE comparison results of our method and comparison methods in the spectral dimension((a)results on Cave datase(tsponges_ms image);(b)results on Harvard datase(timgf3 image))
表3 展示了本文方法與對(duì)比方法在單幅測(cè)試圖像上的平均運(yùn)行時(shí)間和PSNR 的對(duì)比。無(wú)監(jiān)督高光譜融合超分方法NSSR和CUCaNet耗時(shí)最長(zhǎng),相比于有監(jiān)督超分方法,PSNR 也更低。雖然HSRNet 方法的運(yùn)行時(shí)間最少,但融合結(jié)果與其他有監(jiān)督超分方法有較大差距。相較于UAL 和MGD,本文方法在PSNR指標(biāo)上的結(jié)果提高了2 dB,并且以更少的運(yùn)行時(shí)間,取得了比EDBIN和MHF-Net更好的結(jié)果。
表3 不同融合方法的平均運(yùn)行時(shí)間及PSNR對(duì)比Table 3 Inference time and PSNR comparison of different fusion methods
為進(jìn)一步驗(yàn)證本文方法的有效性,將其與3 個(gè)Transformer 圖像恢復(fù)方法對(duì)比,包括Uformer(Wang等,2022)、Restorme(rZamir等,2022)和SwinIR(Liang等,2021)。實(shí)驗(yàn)在8倍降采樣率下的CAVE數(shù)據(jù)集上進(jìn)行。為了適配多光譜和高光譜圖像融合任務(wù),通過(guò)插值對(duì)LR-HSI進(jìn)行空間上采樣,與HR-MSI拼接,作為對(duì)比方法的輸入。結(jié)果如表4所示,本文方法以更小的參數(shù)量取得了更好的結(jié)果,驗(yàn)證了本文方法在高光譜圖像融合任務(wù)上的優(yōu)越性。
表4 與其他Transformer方法的對(duì)比結(jié)果Table 4 Comparison results of Transformer-based methods
本文方法主要包含聯(lián)合自注意力模塊和Transformer 深度網(wǎng)絡(luò)兩部分。為了驗(yàn)證本文方法中這兩部分的有效性,對(duì)其分別進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)統(tǒng)一在16 倍降采樣的CAVE 數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。對(duì)于每個(gè)實(shí)驗(yàn),除了是否包含所需驗(yàn)證的模塊這一區(qū)別,其他實(shí)驗(yàn)設(shè)置均保持一致。
首先,對(duì)聯(lián)合自注意力模塊進(jìn)行單獨(dú)實(shí)驗(yàn),去除深度融合網(wǎng)絡(luò)部分,將聯(lián)合自注意力模塊的融合結(jié)果直接輸出。同樣地,進(jìn)行Transformer 深度網(wǎng)絡(luò)的單獨(dú)實(shí)驗(yàn),為了進(jìn)行LR-HSI 和HR-MSI 的圖像初步融合,將聯(lián)合自注意力模塊替換為一層卷積網(wǎng)絡(luò),再輸入到Transformer 深度網(wǎng)絡(luò)中進(jìn)一步融合。如表5所示,從實(shí)驗(yàn)結(jié)果可以看出,僅使用聯(lián)合自注意力模塊對(duì)多光譜和高光譜圖像進(jìn)行融合,也能以0.29 M的參數(shù)量,取得不錯(cuò)的融合效果。但相比于僅使用Transformer 深度網(wǎng)絡(luò)的融合結(jié)果,PSNR 低了4 dB,說(shuō)明提取深度特征的重要性。將聯(lián)合自注意力模塊與Transformer 深度網(wǎng)絡(luò)相結(jié)合,可以進(jìn)一步提高融合效果,PSNR 提高了0.27 dB,參數(shù)量卻只增加了0.08 M,從而驗(yàn)證了本文方法的合理性和有效性。
表5 本文方法各模塊的有效性驗(yàn)證Table 5 The effectiveness of modules in proposed method
此外,由于UNet 網(wǎng)絡(luò)(Ronneberger 等,2015)在多種圖像恢復(fù)任務(wù)都取得了不錯(cuò)的效果,將其作為消融實(shí)驗(yàn)中的對(duì)比網(wǎng)絡(luò),以突出本文所提出的Transformer深度網(wǎng)絡(luò)的優(yōu)勢(shì)。同樣采用聯(lián)合注意力模塊來(lái)初步融合特征,本文的Transformer 深度網(wǎng)絡(luò)相比于基于卷積的UNet網(wǎng)絡(luò),能建模深度特征中的長(zhǎng)距離依賴關(guān)系,因此,以更低的參數(shù)量,獲得了更好的融合結(jié)果。
本文提出用于多光譜和高光譜圖像融合的聯(lián)合自注意力Transformer 網(wǎng)絡(luò),有效地利用低分辨高光譜圖像的光譜相關(guān)性信息和高分辨多光譜圖像的空間相似性信息,探索深度特征中長(zhǎng)依賴關(guān)系,對(duì)高光譜圖像進(jìn)行超分辨。首先,本文通過(guò)聯(lián)合注意力模塊對(duì)圖像進(jìn)行初步融合,通過(guò)光譜注意力機(jī)制提取低分辨高光譜圖像的光譜相關(guān)性;同時(shí),通過(guò)空間注意力機(jī)制提取多光譜圖像的空間自相似性;將相似性信息用于指導(dǎo)圖像的融合過(guò)程。然后,融合特征通過(guò)殘差Transformer 融合網(wǎng)絡(luò),探索融合特征間的長(zhǎng)距離依賴關(guān)系,獲得更加深層的特征表示,進(jìn)而重建出具有高光譜分辨率和高空間分辨率的融合圖像。定量實(shí)驗(yàn)與定性實(shí)驗(yàn)表明,本文提出的多光譜和高光譜圖像融合超分辨方法具有更好的光譜保真度和空間清晰度。本文方法建立在高光譜圖像空間降采樣函數(shù)和光譜降采樣函數(shù)已知的前提下,因此,后續(xù)可以進(jìn)一步針對(duì)盲高光譜圖像融合問(wèn)題,進(jìn)行方法的改進(jìn)和探索。