吳燕燕,王亞杰,謝延延
(沈陽航空航天大學(xué) 工程訓(xùn)練中心, 沈陽 110136)
遙感圖像全色銳化(pan-sharpening)是指將高空間分辨率的全色(panchromatic,PAN)圖像與低空間分辨率的多光譜(low-resolution multi-spectral,LRMS)圖像進(jìn)行融合[1-2],以合理利用和整合星載全色多光譜圖像信息,獲得高空間分辨率多光譜圖像(high spatial resolution multispectral images,HRMS),便于目標(biāo)探測、土地覆蓋分類及檢測[3-4]。全色圖像具有較高的空間分辨率,包含較多地理位置信息、紋理和邊緣;多光譜圖像具有豐富的光譜信息,能很好地對各種地物進(jìn)行解譯、分類,利用兩者信息的互補(bǔ)性可以有效提高監(jiān)測效率和改善視覺效果[5-6]。
遙感圖像融合方法主要包括成分替換法(component substitution,CS)[7-9]、多分辨率分析法(multi-resolution analysis,MRA)[10-11]、模型優(yōu)化法[12-14]、深度學(xué)習(xí)方法[15-16]。其中,基于深度學(xué)習(xí)的遙感圖像融合算法是近年研究的熱點(diǎn)。2016年,Masi等[17]開創(chuàng)性地提出了一種應(yīng)用在遙感圖像融合中的卷積神經(jīng)網(wǎng)絡(luò)方法(pansharpening by convolutional neural networks,PNN),該方法采用三層卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和一些輔助的非線性指數(shù),將遙感圖像融合當(dāng)成一個端到端的問題,在不增加網(wǎng)絡(luò)復(fù)雜性的同時提高了算法性能。之后,大量使用卷積神經(jīng)網(wǎng)絡(luò)的全色銳化方法被提出。2017年,Rao等[18]在CNN網(wǎng)絡(luò)中加入了殘差網(wǎng)絡(luò),改善了融合圖像的光譜失真問題。2018年,Scarpa等[19]為了改進(jìn)網(wǎng)絡(luò)的性能,使得到的融合圖像包含更多的信息,在CNN網(wǎng)絡(luò)中加入了目標(biāo)自適應(yīng)函數(shù)。2020年,Liu等[20]提出了一種兩流融合遙感圖像融合方法,使用2個子網(wǎng)絡(luò)分別提取LRMS和PAN圖像的信息,并且在重建HRMS部分中加入了殘差網(wǎng)絡(luò),既保留了大量光譜信息也提高了圖像的清晰度。
然而,基于CNN的遙感圖像融合方法大多使用相同的網(wǎng)絡(luò)結(jié)構(gòu)提取源圖像的特征,或者是將源圖像疊加后經(jīng)過淺層卷積提取圖像的特征,會導(dǎo)致融合后的圖像存在光譜或空間信息丟失,因此多尺度卷積神經(jīng)網(wǎng)絡(luò)被提出[21]。此外,CNN網(wǎng)絡(luò)中的所有通道被平等對待,不能靈活地判別通道之間不同頻度的信息,而注意力機(jī)制網(wǎng)絡(luò)被證實(shí)能夠?qū)W習(xí)通道之間更深的相互依賴性[22-23]。
綜上所述,提出了一種基于多尺度殘差注意力網(wǎng)絡(luò)的遙感圖像全色銳化方法。先將LRMS圖像經(jīng)過雙三次插值上采樣,與PAN圖像進(jìn)行級聯(lián)作為輸入;設(shè)計3個不同的子網(wǎng)絡(luò)并行提取源圖像的高頻和低頻特征,每個網(wǎng)絡(luò)中包含多個含有殘差注意力機(jī)制的多尺度塊,一方面,可以使用不同的卷積核提取多尺度特征,另一方面,可以自適應(yīng)地考慮通道信息特征,使融合圖像在包含較多光譜信息的同時保留更多的空間信息,處理過程包含淺層特征提取、深層特征提取、特征融合和特征重建;最后將3個子網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行級聯(lián)得到最終融合圖像。同時,將平均絕對誤差(mean absolute error,MAE)、光譜角映射(spectral angle mapper,SAM)和幾何梯度(geometric gradient,GG)作為一種新的損失函數(shù)來進(jìn)行訓(xùn)練,進(jìn)一步改善融合效果。
多尺度殘差注意力網(wǎng)絡(luò)主要包含4個部分:淺層特征提取層、深層特征提取層、特征融合層和特征重建層,網(wǎng)絡(luò)框架如圖1所示。
1) 淺層特征提取層
淺層特征提取層以三層卷積神經(jīng)網(wǎng)絡(luò)[24]為基礎(chǔ),提取輸入圖像不同頻度的淺層特征,得到原始圖像不同角度的淺層特征圖。
2) 深層特征提取層
根據(jù)原始圖像結(jié)構(gòu)特點(diǎn),使用不同數(shù)量的多尺度殘差注意力模塊(multi-scale residual attention,MRA)進(jìn)行深層特征提取,充分提取原始圖像不同頻度上的空間和光譜特征,準(zhǔn)確地表示特征并全面重建HRMS,每個MRA包括2個部分:多尺度特征提取網(wǎng)絡(luò)和殘差通道-空間注意力網(wǎng)絡(luò),結(jié)構(gòu)如圖2所示。
圖2 MRA多尺度殘差注意力模塊
在多尺度特征提取網(wǎng)絡(luò)部分,使用卷積核分別為3×3、5×5、7×7,步長為1,邊界填充值為0的卷積神經(jīng)網(wǎng)絡(luò)提取輸入的特征圖中不同尺度的特征,每個尺度得到的特征數(shù)都是20。為了增強(qiáng)得到的特征,將多個尺度提取的特征進(jìn)行級聯(lián),經(jīng)過一個卷積核為1×1,步幅為1,邊界填充值為0的卷積神經(jīng)網(wǎng)絡(luò)后,輸出特征數(shù)為64。在殘差注意力網(wǎng)絡(luò)部分使用的注意力網(wǎng)絡(luò)是一種通道-空間注意力聯(lián)合的卷積鎖注意力機(jī)制(convolutional block attention module,CBAM)網(wǎng)絡(luò)[25],與其他的通道注意力網(wǎng)絡(luò)和空間注意力網(wǎng)絡(luò)相比,CBAM可以從通道和空間兩方面學(xué)習(xí)和表示圖像的特征。由于殘差網(wǎng)絡(luò)在計算機(jī)視覺和圖像處理領(lǐng)域表現(xiàn)出了顯著優(yōu)越性,在使用CBAM注意力機(jī)制時,將CBAM和殘差網(wǎng)絡(luò)進(jìn)行結(jié)合,用于保留更多重要的特征,如圖2中虛框所示,并且為了防止過擬合和特征丟失,每個MRA網(wǎng)絡(luò)中都使用了局部跳連接操作。
3) 特征融合層
特征融合層的任務(wù)是將多個MRA獲得的特征數(shù)進(jìn)行級聯(lián),并使用卷積神經(jīng)網(wǎng)絡(luò)將級聯(lián)后的特征進(jìn)行融合,減少參數(shù)量和保留更多重要的特征。
4) 特征重建層
在特征重建層,使用輸出特征數(shù)為原始圖像通道數(shù)的卷積神經(jīng)網(wǎng)絡(luò)獲得包含不同頻度特征的HRMS圖像。
為了充分保留原始圖像的空間信息和光譜信息,該算法使用了3個并行的多尺度殘差注意力網(wǎng)絡(luò)分別提取圖像不同級別的特征,將這3個子網(wǎng)絡(luò)分別表示為M1、M2、M3,其中M1提取輸入圖像的低頻特征,M2和M3提取輸入圖像的高頻特征,通過3個子網(wǎng)絡(luò)輸出結(jié)果的跳連接可以獲得最終融合圖像。基于多尺度殘差注意力網(wǎng)絡(luò)的遙感圖像全色銳化過程如圖3所示。
圖3 基于多尺度殘差注意力網(wǎng)絡(luò)的遙感圖像全色銳化
將LRMS圖像經(jīng)過雙三次插值上采樣后與PAN圖像級聯(lián),得到一個5通道圖像作為整個網(wǎng)絡(luò)的輸入,具體融合過程如下。
1)在淺層特征提取層,在M1、M2、M3中分別使用了卷積核為5×5、7×7、9×9,步長為1,邊界填充值為0的卷積神經(jīng)網(wǎng)絡(luò)[26]實(shí)現(xiàn)淺層特征的提取,每個卷積神經(jīng)網(wǎng)絡(luò)提取的特征數(shù)都是64。
2)在深層特征提取層,考慮到參數(shù)爆炸的問題,在M1中使用了3個MRA,在M2中使用了2個MRA,在M3中使用了1個MRA。
3)在特征融合層,將多個MRA獲得的特征數(shù)進(jìn)行級聯(lián),在M1、M2、M3 3個子網(wǎng)絡(luò)中分別使用卷積核為1×1,步長為1,邊界填充值為0,輸出特征數(shù)為32的卷積神經(jīng)網(wǎng)絡(luò)將級聯(lián)后的特征進(jìn)行融合,以減少參數(shù)量和保留更多重要特征。
4)在圖像重建階段,每個子網(wǎng)絡(luò)中使用相同的卷積核為5×5,步長為1,邊界填充值為0,輸出特征數(shù)為4(原始LRMS上采樣后的通道數(shù))的卷積神經(jīng)網(wǎng)絡(luò)獲得3個包含不同頻度的融合圖像。
5) 將每個子網(wǎng)絡(luò)獲得的不同頻度的HRMS圖像進(jìn)行級聯(lián),獲得最終的高空間分辨率多光譜圖像。
為了防止訓(xùn)練過程中出現(xiàn)梯度爆炸和過擬合現(xiàn)象,整個網(wǎng)絡(luò)除了最后一層5×5的卷積神經(jīng)網(wǎng)絡(luò)外,在每個卷積層的后面都加上了歸一化層,并且每一個卷積層使用的激勵函數(shù)都是Relu,由于殘差學(xué)習(xí)的優(yōu)越性,該算法使用了多個短跳過連接和長跳過連接,以減少空間和光譜損失。
損失函數(shù)是為了衡量目標(biāo)圖像與生成圖像之間的誤差,為了更進(jìn)一步改善圖像融合的效果,減少目標(biāo)圖像與融合圖像之間的差異,選擇MAE、 SAM和GG作為損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)參數(shù),與均方差(mean square error,MSE)相比,MAE收斂性能更好[26]。將參考圖像表示為I、融合圖像表示為F,所設(shè)計的損失函數(shù)如式(1)所示。
Lloss=αL1(I,F)+SAM(I,F)+βGG(I,F)
(1)
式中:L1表示MAE,其函數(shù)如式(2)所示,計算的是參考圖像和融合圖像之間的平均絕對誤差值,在實(shí)際計算時,α和β的取值各為0.5。
(2)
式中:N表示圖像的數(shù)量;|·|表示絕對值;In表示參考圖像;Fn表示融合后的圖像。
SAM是指目標(biāo)圖像與生成圖像之間的光譜損失真度,計算的是在相同像素內(nèi)融合圖像和參考圖像光譜向量之間的角度[27]。SAM的值與光譜失真度是正相關(guān)的關(guān)系,SAM越小,融合圖像的光譜失真率越低,當(dāng)SAM的值為0時,則表示融合圖像沒有出現(xiàn)光譜失真的問題,是最理想的融合結(jié)果。SAM的計算如式(3)所示,在損失函數(shù)中引入SAM函數(shù)能使融合的圖像包含更多光譜信息。
(3)
幾何梯度GG表示融合圖像和參考圖像的幾何空間細(xì)節(jié)損失[28],用于改善融合圖像的空間失真,如式(4)所示。
(4)
式中:N表示圖像的數(shù)量;Ω表示圖像的像素域;▽表示梯度計算。
為了驗(yàn)證該算法的有效性,采用WorldView-3和WorldView-2衛(wèi)星數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并與其他算法進(jìn)行比較。選擇WorldView-3數(shù)據(jù)中的3對LRMS圖像和PAN圖像,其中2對做訓(xùn)練和驗(yàn)證,1對做測試。同樣從WorldView-2數(shù)據(jù)中選取3對LRMS圖像和PAN圖像,2對做訓(xùn)練和驗(yàn)證,1對做測試。首先依據(jù)Wald’s協(xié)議分別對原始的LRMS圖像和PAN圖像進(jìn)行下采樣[29],將原始的LRMS圖像作為參考圖像;其次將下采樣后的LRMS圖像進(jìn)行雙三次插值與PAN圖像的分辨率保持一致;最后將獲得的上采樣后的LRMS圖像、PAN圖像、參考圖像裁剪為128×128的尺寸,將裁剪得到的數(shù)據(jù)集的70%作為訓(xùn)練集,30%作為驗(yàn)證集,并取與訓(xùn)練圖像不同的另一對圖像數(shù)據(jù),將其裁剪成400×400的小塊作為測試集。
使用Keras搭建網(wǎng)絡(luò)框架,在PyCharm上實(shí)現(xiàn),并利用自適應(yīng)矩估計(adaptive moment estimation,Adam)優(yōu)化器對模型進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)置為0.000 1,beta1設(shè)置為0.9,beta2設(shè)置為0.99,Batchsize設(shè)置為8,超參數(shù)α=100,β=0.05。 實(shí)驗(yàn)環(huán)境的配置是AMD和RTX2080TI。為了驗(yàn)證所提算法的性能,將該算法與自適應(yīng)施密特正交(gram-schmidt adapative,GSA)方法[30]、基于調(diào)制變換參數(shù)和高斯濾波的廣義拉普拉斯變換(modulation transfer function (MTF) matched filter,MTFGLP)方法[31]、GFPCA[32]、PNN[17]、高通濾波和殘差網(wǎng)絡(luò)結(jié)合的PanNet算法[33]、FusionNet[34]、ResTFnet[20]7種方法進(jìn)行對比,并使用有參考評價指標(biāo)SAM、空間相關(guān)系數(shù)(Spatial CC,SCC)[35]、全局融合誤差(ERGAS)[36]、峰值信噪比(PSNR)[37]和無參考評價指標(biāo)Dλ、Ds與QNR[38]評價不同算法得到的融合圖像質(zhì)量。SCC越高,說明融合圖像中包含的空間信息越多;ERGAS計算融合圖像和參考圖像之間的波段誤差,ERGAS值越小,說明融合圖像與參考圖像的差異越小,融合結(jié)果越好;PSNR計算融合圖像的最大峰值和2幅圖像的均方誤差的比值,PSNR值越大,融合圖像的失真程度越小;空間失真指數(shù)Dλ評估融合圖像和源全色圖像的空間差異;光譜失真指數(shù)Ds評估融合圖像和源多光譜圖像之間的光譜差異,兩者的值越小,融合圖像質(zhì)量越高;QNR用來評估融合圖像總體的光譜和空間信息,數(shù)值越大,融合圖像質(zhì)量越好,最大值是1。
圖4和圖5展示了不同的算法在低分辨率設(shè)置下得到的2種衛(wèi)星圖像融合結(jié)果,(a)和(b)分別為原始的LRMS圖像與PAN圖像;(c)為GFPCA算法得到的融合結(jié)果;(d)為GSA算法得到的融合結(jié)果;(e)為MTFGLP算法得到的融合結(jié)果;(f)為PNN 算法得到的融合結(jié)果;(g)為PanNet算法得到的融合結(jié)果;(h)為FusionNet 算法的融合結(jié)果;(i)為ResTFnet 算法的融合結(jié)果;(j)為本文融合結(jié)果。
圖4 WorldView-2圖像融合結(jié)果
圖5 WorldView-3圖像融合結(jié)果
從圖4 WorldView-2數(shù)據(jù)集的融合結(jié)果看出,GFPCA的融合圖像清晰度較低(如紅色框所示),但包含的色彩信息較多;GSA和MTFGLP的融合圖像包含的清晰度較高,但是產(chǎn)生了光譜失真的現(xiàn)象;PNN得到的圖像包含的細(xì)節(jié)信息較多,但有顏色丟失的現(xiàn)象;PanNet得到的融合圖像保留了大量的顏色信息,但存在某些空間細(xì)節(jié)表現(xiàn)不足的問題,如圖中紅框所示建筑物的邊緣較本文的稍模糊;FusionNet的融合圖像較為模糊,存在顏色過飽和;ResTFnet融合結(jié)果的顏色和清晰度均表現(xiàn)不錯,但紅框中所示的建筑物存在顏色失真的問題。相比而言,本文方法得到的融合圖像包含了更多的空間細(xì)節(jié)和光譜信息。
圖5為各種融合方法在WorldView-3數(shù)據(jù)集上的融合結(jié)果,可以看出GFPCA的融合圖像較模糊(如圖中紅框所示);GSA和MTFGLP的融合圖像的清晰度較GFPCA算法高,但是產(chǎn)生了光譜失真;PNN得到的融合結(jié)果包含的細(xì)節(jié)較多,顏色接近自然色;PanNet得到的融合圖像顏色信息豐富,但依然存在局部空間細(xì)節(jié)保留不佳的問題,例如圖中大紅色框所示的建筑物和地表信息與本文相比,清晰度略顯遜色;FusionNet的融合圖像清晰度欠佳,但顏色信息較豐富;ResTFnet整體融合效果較好,但存在部分細(xì)節(jié)丟失。對比可見,本文方法得到的融合圖像在空間細(xì)節(jié)和光譜信息保持方面具有一定的優(yōu)勢。
不同遙感圖像融合算法在WorldView-2數(shù)據(jù)集上得到的評價結(jié)果如表1所示。
表1 WorldView-2數(shù)據(jù)集上的評價結(jié)果
由表1可知, 雖然PanNet在PSNR和ERGAS上獲得的評價結(jié)果優(yōu)于其他深度學(xué)習(xí)的遙感圖像融合方法,但是本文方法在表征光譜信息和空間信息的評價指標(biāo)SAM、SCC上表現(xiàn)最好,Dλ評價結(jié)果也優(yōu)于其他深度學(xué)習(xí)方法,僅次于GSA。客觀驗(yàn)證了本文方法在WorldView-2遙感圖像融合方面能夠保留較多源圖像的光譜信息和空間信息。
為了進(jìn)一步驗(yàn)證該方法的有效性,表2給出了不同遙感圖像融合算法在WorldView-3數(shù)據(jù)集上的客觀評價結(jié)果。
表2 WorldView-3數(shù)據(jù)集上的評價結(jié)果
從表2的評價結(jié)果可以看出,本文方法在ERGAS和SCC上獲得的融合圖像評價結(jié)果最好,說明本文方法在遙感圖像融合過程中保留了更多源圖像的空間特征。在無參考評價指標(biāo)中,本文方法的Dλ和Ds值小于其他的深度學(xué)習(xí)算法,說明本文得到的融合圖像包含的顏色信息和紋理信息多于其他對比的深度學(xué)習(xí)融合方法,本文的QNR值高于其他深度學(xué)習(xí)融合算法,說明融合質(zhì)量高,客觀地證明了該方法能夠在WorldView-3全分辨率圖像融合中保留更多光譜信息和空間信息。
為了測試模型和損失函數(shù)的性能,在WorldView-3數(shù)據(jù)集上分別對不同的注意力機(jī)制模型和損失函數(shù)進(jìn)行了實(shí)驗(yàn)分析,評估結(jié)果如表3所示。使用平均絕對誤差MAE作為損失函數(shù)進(jìn)行評估,記為L1;在MRA中使用通道注意力機(jī)制壓縮-激勵(squeeze-and-excitation,SE)網(wǎng)絡(luò)[22]和CBAM[25],分別記為SE和CBAM,并與本文方法進(jìn)行比較。
表3 不同損失函數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)的融合結(jié)果
從表3中可以看出,使用本文的損失函數(shù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)所得到的融合結(jié)果,除了Ds一項指標(biāo)外,其他指標(biāo)均優(yōu)于L1、SE和CBAM,說明改進(jìn)的損失函數(shù)提高了網(wǎng)絡(luò)性能,獲得了更好的融合效果,而且在遙感圖像全色銳化時使用殘差網(wǎng)絡(luò)與CBAM結(jié)合比單獨(dú)使用SE和CBAM獲得的融合圖像效果要好,證明了殘差注意力網(wǎng)絡(luò)可以提高圖像的特征表達(dá)能力,使融合圖像包含更多的光譜信息和空間信息,減少顏色畸變和空間細(xì)節(jié)丟失的現(xiàn)象。
提出了一種基于多尺度殘差注意力網(wǎng)絡(luò)的全色圖像和多光譜圖像融合方法,有效改善了傳統(tǒng)基于深度學(xué)習(xí)的全色銳化方法導(dǎo)致的空間信息丟失和光譜信息失真的問題。該網(wǎng)絡(luò)由3個并行的多尺度殘差注意力網(wǎng)絡(luò)構(gòu)成,分別提取源圖像不同頻度的特征信息;殘差注意力多尺度模塊的引入,保證了從空間和通道兩方面提取更多源圖像的特征,使融合圖像包含較多光譜信息和空間信息。