張攀 李曉華 周激流
全色銳化旨在將低空間分辨率的多光譜圖像和高空間分辨率的全色圖像進(jìn)行融合,生成一幅高空間分辨率的多光譜圖像.伴隨卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,涌現(xiàn)出很多基于CNN的全色銳化方法.這些用于全色銳化的CNN模型大都未考慮不同通道特征和不同空間位置特征對(duì)最終銳化結(jié)果的影響.并且僅使用基于像素的1-范數(shù)或2-范數(shù)作為損失函數(shù)對(duì)銳化結(jié)果與參考圖像進(jìn)行評(píng)估,易導(dǎo)致銳化結(jié)果過于平滑,空間細(xì)節(jié)缺失.為了解決上述問題,本文提出一種嵌入注意力機(jī)制,并輔以空間結(jié)構(gòu)信息對(duì)抗損失的生成對(duì)抗網(wǎng)絡(luò)模型.該網(wǎng)絡(luò)模型由2個(gè)部分組成:一個(gè)生成器網(wǎng)絡(luò)模型和一個(gè)判別器網(wǎng)絡(luò)模型.嵌入通道注意力機(jī)制和空間注意力機(jī)制的生成器將低分辨多光譜圖像和全色圖像融合為高質(zhì)量的高分辨多光譜圖像.判別器以patch-wise判別的方式對(duì)銳化結(jié)果與參考圖像的梯度進(jìn)行一致性檢驗(yàn),以確保銳化結(jié)果的空間細(xì)節(jié)信息.最后,在3種典型數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)驗(yàn)證了所提出方法的有效性.
全色銳化; 深度學(xué)習(xí); 注意力機(jī)制; 生成對(duì)抗網(wǎng)絡(luò)
TP751A2023.012001
收稿日期: 2022-03-04
作者簡介: 張攀(1997-), 男, 重慶人, 碩士研究生, 研究方向?yàn)檫b感圖像處理.E-mail: zhangpan@stu.scu.edu.cn
通訊作者: 李曉華. E-mail: lxhw@scu.edu.cn
AESGGAN: an attention embedded adversarial network for pansharpening
ZHANG Pan, LI Xiao-Hua, ZHOU Ji-Liu
(College of Computer Science, Sichuan University, Chengdu 610065, China)
Pansharpening aims to fuse low-resolution multispectral image with high-resolution panchromatic image to generate a high-resolution multispectral image. With the development of Convolutional Neural Network (CNN), many CNN-based pansharpening methods have appeared and achieved promising performance. However, most of CNN-based pansharpening methods did not consider that the features in different channel dimensions and spatial dimensions have the different importance to generate a good result. In addition, only L1-norm or L2-norm is used as the loss function in the pixel domain to examine the distortion between the pansharpening results and the reference images, which usually cause the pansharpening results appear overly smooth and lack spatial detail information. In order to address the two problems, the authors proposed an attention embedded adversarial network with spatial structure information adversarial loss. This network consists of two parts: the generator and the discriminator. The channel attention and spatial attention embedded generator fuses low-resolution multispectral image and panchromatic image into a high quality high-resolution multispectral image. In order to ensure the spatial information of pansharpening results, the discriminator verifies the consistency of the gradient of pansharpening results and reference image by a patch-wise way. Finally, comparative experiments on three typical datasets verify the effectiveness of the proposed method.
Pansharpening; Deep learning; Attention mechanism; Generative adversarial networks
1 引 言
高分辨率多光譜圖像HRMS(High Resolution Multispectral)廣泛應(yīng)用于軍事、農(nóng)業(yè)、醫(yī)學(xué)研究等領(lǐng)域,并且例如Google Earth等商業(yè)產(chǎn)品對(duì)HRMS圖像的需求量也在持續(xù)增長.然而,由于受到衛(wèi)星傳感器的物理限制,單一傳感器較難獲取兼顧空間分辨率和光譜分辨率的HRMS圖像[1].相應(yīng)的,一般采用兩個(gè)傳感器分別獲取低空間分辨率的多光譜圖像LRMS(Low-Resolution Multispectral)和高空間分辨率的全色圖像PAN(Panchromatic),傳回地面后通過全色銳化方法將它們合成為HRMS圖像.張 攀, 等: 一種基于注意力嵌入對(duì)抗網(wǎng)絡(luò)的全色銳化方法
隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在圖像領(lǐng)域的廣泛運(yùn)用,其在遙感領(lǐng)域多個(gè)方向也有著許多實(shí)際應(yīng)用,例如遙感圖像去噪[2]、高光譜圖像分類[3]以及全色銳化.目前全色銳化方法主要分為兩大類[4]:傳統(tǒng)方法和基于CNN的方法.其中傳統(tǒng)方法又可分為基于分量替換(Component Substitution,CS)和基于多分辨率分析(Multiresolution Analysis,MRA)兩大類.CS方法首先對(duì)上采樣的LRMS圖像進(jìn)行某種變換,然后用PAN圖像對(duì)變換后的第一分量進(jìn)行替換,最后通過逆變換得到HRMS圖像[5].根據(jù)所采用的變換,CS方法有IHS(Intensity-Hue-Saturation)[6]、PCA(principal Component Analysis)[7]和GS(Gram-Schmidt)[8]等.MRA方法的主要原理是通過多分辨率分析算法從PAN圖像中提取高頻空間信息,并將其注入到上采樣的LRMS圖像中.根據(jù)所采用的多分辨率分析方法,MRA方法有DWT(Decimated Wavelet Transform)[9]、ATWT(“à Trous”Wavelet Transform)[10]和LP(Laplacian Pyramid)[11]等.有研究表明[12],幾乎所有的傳統(tǒng)方法都可以用一個(gè)通用的細(xì)節(jié)注入模型來描述,即將PAN圖像中的空間細(xì)節(jié)信息注入到上采樣的LRMS圖像中得到HRMS圖像.總的來說,CS方法可以保留較多的空間信息,但是光譜失真一般較為嚴(yán)重[13],而MRA方法光譜失真較小,但是會(huì)面臨不同程度的空間信息丟失問題[14].
近年來,隨著深度學(xué)習(xí)在圖像領(lǐng)域的廣泛應(yīng)用,陸續(xù)誕生了許多基于CNN的全色銳化方法[15-17].PNN[15]在基于超分辨率的三層CNN架構(gòu)之上,首次將CNN用于全色銳化,通過將上采樣后的LRMS圖像與PAN圖像進(jìn)行堆疊作為輸入,生成對(duì)應(yīng)的HRMS圖像.因?yàn)槔昧擞斜O(jiān)督的深度學(xué)習(xí),PNN的各項(xiàng)指標(biāo)都顯著優(yōu)于傳統(tǒng)方法.Yang等[16]受到ResNet中跳躍連接(Skip Connection)和全色銳化先驗(yàn)知識(shí)的啟發(fā),提出基于殘差學(xué)習(xí)的全色銳化方法PanNet,該方法通過在全色銳化CNN模型中添加跳躍連接來模擬通用的細(xì)節(jié)注入模型,并且搭建較深的網(wǎng)絡(luò)來學(xué)習(xí)HRMS圖像和LRMS圖像的殘差,獲得了更優(yōu)的銳化結(jié)果.Zhang等[18]認(rèn)為,基于殘差學(xué)習(xí)的全色銳化方法學(xué)習(xí)到的殘差由大部分空間細(xì)節(jié)信息和少部分光譜信息組成,少部分的光譜信息會(huì)對(duì)空間信息的注入造成干擾,所以引入圖像的空間梯度來檢驗(yàn)銳化結(jié)果與PAN圖像的空間信息一致性,從而提升合成圖像的空間質(zhì)量.Liu等[17]首次提出基于生成對(duì)抗網(wǎng)絡(luò)的全色銳化方法PSGAN,采用一個(gè)雙分支結(jié)構(gòu)生成器分別處理LRMS圖像和PAN圖像,再合并處理生成HRMS圖像,同時(shí)使用判別器使生成的HRMS圖像盡可能逼近真實(shí)的HRMS圖像.Zhang等[19]認(rèn)為PSGAN架構(gòu)較為簡單,并未使用全色銳化領(lǐng)域的先驗(yàn)知識(shí),所以提出一個(gè)基于空間特征變換和殘差學(xué)習(xí)的生成對(duì)抗網(wǎng)絡(luò)SFTGAN,相較于PSGAN,SFTGAN銳化結(jié)果在光譜和空間兩方面都得到了進(jìn)一步的提升.
通過分析,我們發(fā)現(xiàn)目前用于全色銳化的CNN模型存在兩個(gè)不足.首先,這些模型只是簡單的將經(jīng)卷積層處理得到的特征送入下一層,忽略了不同通道特征和不同空間位置特征對(duì)最終銳化結(jié)果的影響.其次,在訓(xùn)練階段,只采用基于像素的1-范數(shù)或2-范數(shù)作為模型的損失函數(shù)來評(píng)估銳化結(jié)果與參考圖像的整體相似程度,這會(huì)導(dǎo)致銳化結(jié)果過于平滑,空間細(xì)節(jié)缺失[20].針對(duì)以上不足,本文提出一種基于注意力嵌入對(duì)抗網(wǎng)絡(luò)的全色銳化方法AESGGAN(Attention Embedded Spatial Gradient Generative Adversarial Network).一方面在生成器的設(shè)計(jì)中引入通道注意力機(jī)制和空間注意力機(jī)制[21],使生成器從通道和空間兩個(gè)維度對(duì)能生成更好銳化結(jié)果的關(guān)鍵特征給予更多的重視.另一方面,我們?cè)趽p失函數(shù)中添加了空間結(jié)構(gòu)信息的對(duì)抗損失,對(duì)融合結(jié)果的梯度進(jìn)行patch-wise判別,以避免由1-范數(shù)損失函數(shù)帶來的高頻細(xì)節(jié)丟失問題.最后,在三種典型數(shù)據(jù)集上的大量客觀指標(biāo)和主觀視覺評(píng)估表明,與一些典型的方法相比,本文提出的方法具有更好的性能表現(xiàn).
2 相關(guān)背景
2.1 問題描述
全色銳化的目標(biāo)是,以LRMS圖像M和PAN圖像P為輸入生成HRMS圖像H,期望生成的HRMS圖像同時(shí)具有與LRMS圖像相同的光譜分辨率和與PAN圖像相同的空間分辨率.現(xiàn)有的傳統(tǒng)方法[12]都可以用公式的細(xì)節(jié)注入模型表示.
Hb=M~b+gbD(1)
式中,b∈{1,…,B}表示第b個(gè)波段;M~表示r倍上采樣后的LRMS;r為PAN圖像和LRMS圖像的分辨率比;g=g1,…,gb,…,gB是注入增益向量;D是高頻細(xì)節(jié).根據(jù)高頻細(xì)節(jié)的獲取方式不同,傳統(tǒng)方法可進(jìn)一步分為基于CS的方法和基于MRA的方法.
隨著CNN在圖像領(lǐng)域的廣泛運(yùn)用,陸續(xù)誕生了許多基于CNN的全色銳化方法[15-17].比如,PNN[15]直接將全色銳化看做一個(gè)盲盒,通過深度學(xué)習(xí)的方式獲得一個(gè)CNN銳化模型,模型以LRMS圖像和PAN圖像作為輸入,以銳化后的結(jié)果,即HRMS圖像,作為輸出,如下式所示.
H=Gθ(M,P)(2)
式中,Gθ表示全色銳化CNN模型;θ是模型的參數(shù).
PanNet[16]通過引入跳躍連接來模擬公式描述的細(xì)節(jié)注入模型,此時(shí)深度學(xué)習(xí)的目標(biāo)轉(zhuǎn)化為如式(3)所示的HRMS圖像與LRMS圖像之間的殘差學(xué)習(xí).
H=M~+Dθ(M,P)(3)
式中,Dθ表示以LRMS圖像和PAN作為輸入,輸出殘差信息的子模型.
由于結(jié)合了傳統(tǒng)全色銳化方法的先驗(yàn)知識(shí),基于殘差學(xué)習(xí)的全色銳化CNN模型比基于普通CNN的全色銳化模型的整體銳化效果更好.
2.2 注意力機(jī)制
注意力機(jī)制是人類視覺系統(tǒng)的一個(gè)重要特性,人類的視覺系統(tǒng)可以從復(fù)雜的場景中快速且自然的識(shí)別出重要場景,并給予更多的注意力.在深度學(xué)習(xí)中實(shí)施注意力機(jī)制[22],可以實(shí)現(xiàn)與人類視覺系統(tǒng)類似的效果[23],即深度學(xué)習(xí)模型可以從大量的特征中抽取出更具代表性的特征,對(duì)能產(chǎn)生更好輸出的特征賦予更大的注意力權(quán)值,從而讓模型更加關(guān)注重要的特征,忽略不重要的特征,最終提高模型的性能.基于注意力機(jī)制的特征優(yōu)化模式可用式(4)描述[21].
FA=M(F)F(4)
式中,F(xiàn)∈RC×H×W表示原始輸入特征;M表示以F作為輸入獲取注意力權(quán)值的模塊,注意力權(quán)值用注意力圖表示;表示element-wise乘法;FA∈RC×H×W表示利用注意力圖加權(quán)優(yōu)化后的特征.
在CNN模型中,特征的具體表現(xiàn)一般為多通道的2D張量,因此注意力機(jī)制通常以通道注意力[24]和空間注意力[25]兩種方式來實(shí)現(xiàn).其中,通道注意力依據(jù)視覺系統(tǒng)對(duì)不同通道的注意力差異,生成1D的注意力圖對(duì)原始特征在通道維度進(jìn)行加權(quán)優(yōu)化.類似的,空間注意力依據(jù)視覺系統(tǒng)對(duì)2D空間不同位置的注意力差異生成2D的注意力圖,對(duì)原始特征在2D空間進(jìn)行加權(quán)優(yōu)化.
在CNN模型中順序連接通道注意力模塊和空間注意力模塊,可以從通道域和空間域兩方面考慮視覺系統(tǒng)的注意力差異,從而提高模型的性能.并且由于通道注意力模塊和空間注意力模塊的輕量級(jí)架構(gòu),并不會(huì)帶來過多的資源開銷.
2.3 生成對(duì)抗網(wǎng)絡(luò)
GANs[26]的主要思想是運(yùn)用對(duì)抗策略來訓(xùn)練一個(gè)足以以假亂真的網(wǎng)絡(luò)模型.GANs通常由一個(gè)生成器G和一個(gè)判別器D組成,生成器以噪聲變量作為輸入,以生成樣本為輸出,其目標(biāo)是生成判別器無法區(qū)分的樣本.判別器以生成樣本或真實(shí)樣本作為輸入,判定輸出該樣本為真實(shí)樣本的概率,其目標(biāo)是區(qū)分生成樣本和真實(shí)樣本.它們的目標(biāo)函數(shù)可以用公式表示.GANs的訓(xùn)練一般通過生成器和判別器的迭代交互訓(xùn)練完成.
minG maxDVGAN(G,D)=
Ex~Pr[logD(x)]+
Ex~~Pg[1-logD(x~)](5)
式中,pr表示真實(shí)樣本分布;pg表示生成樣本分布.盡管原始的GANs能夠在MNIST數(shù)據(jù)集上生成效果很好的手寫數(shù)字圖像,但是原始的GANs存在著兩個(gè)主要問題,一個(gè)是訓(xùn)練不穩(wěn)定,另一個(gè)是當(dāng)GANs用于高分辨率圖像生成時(shí)生成圖像的質(zhì)量不高.學(xué)者們?cè)谌绾翁嵘鼼ANs訓(xùn)練時(shí)的穩(wěn)定性這一問題進(jìn)行了更進(jìn)一步的探索[27-29].Arjovsky等[28]依據(jù)Wasserstein距離提出WGAN,并重新設(shè)計(jì)了如下式所示的目標(biāo)函數(shù).
minGmaxDVWGAN(G,D)=
Ex~Pr[D(x)]-Ex~~Pg[D(x~)](6)
并且WGAN要求判別器的輸出值足夠平滑,為了達(dá)到這個(gè)要求,WGAN提出的策略是權(quán)重裁剪(Weight Clipping),即按照預(yù)先設(shè)置的權(quán)重范圍硬性的裁剪判別器的參數(shù),從而限制判別器輸出值的范圍.雖然WGAN提高了GANs訓(xùn)練時(shí)的穩(wěn)定性,但是權(quán)重裁剪策略過于簡單,并且使用權(quán)重裁剪會(huì)面臨權(quán)重范圍難以選取的問題.Gulrajani等[29]在WGAN的基礎(chǔ)上提出WGAN-GP,采用梯度懲罰(Gradient Penalty)策略替換權(quán)重裁剪策略,實(shí)施方法是在判別器的目標(biāo)函數(shù)中添加如下式所示的梯度懲罰項(xiàng).
LGP=Ex^~Px^‖SymbolQC@x^D(x^)‖2-12(7)
其中,Px^表示符合式(8)的樣本分布;SymbolQC@x^Dx^表示判別器的梯度.
x^=ε·x+1-ε·x~,ε∈0,1(8)
采用梯度懲罰策略可以實(shí)現(xiàn)在提升模型訓(xùn)練穩(wěn)定性的同時(shí)簡化模型超參數(shù)的調(diào)整步驟.
此外,為了提高GANs生成圖像的質(zhì)量,學(xué)者們進(jìn)行了進(jìn)一步的研究[30-32].Isola等[32]認(rèn)為,對(duì)輸入圖像分區(qū)域判定能夠豐富生成圖像的細(xì)節(jié)信息,并據(jù)此對(duì)判別器進(jìn)行改進(jìn),提出馬爾可夫判別器(PatchGAN),使判別器從只輸出一個(gè)判別值改為輸出一個(gè)空間尺寸為n×n的矩陣標(biāo)簽X,X的元素Xi,j代表著馬爾可夫判別器對(duì)輸入圖像中相應(yīng)區(qū)域patch的判定結(jié)果.由于馬爾可夫判別器是對(duì)輸入圖像不同局部區(qū)域進(jìn)行判定,所以能提高生成圖像的局部保真度,即提高生成圖像的質(zhì)量.
本文受PatchGAN的啟示,將馬爾可夫判別器應(yīng)用于全色銳化中,以期提高銳化結(jié)果的質(zhì)量.
3 方 法
3.1 網(wǎng)絡(luò)整體框架
全色銳化的目標(biāo)是在保留LRMS圖像中光譜信息的同時(shí)盡可能融入PAN圖像中的空間細(xì)節(jié)信息.對(duì)于光譜信息的保留,目前基于CNN的全色銳化方法廣泛使用的策略是在CNN模型中添加跳躍連接,即通過深度學(xué)習(xí)獲取HRMS圖像和LRMS圖像的殘差信息,然后將上采樣的LRMS圖像與殘差信息相加獲得最終的HRMS圖像.這種基于殘差學(xué)習(xí)的方式可以較好的保留LRMS圖像中的光譜信息.然而,在空間細(xì)節(jié)信息的融入方面,仍然有較大的提升空間.在模型訓(xùn)練中,現(xiàn)有基于CNN的方法通常以模型銳化結(jié)果與參考HRMS圖像的1-范數(shù)或2-范數(shù)作為損失函數(shù).這種基于像素的損失函數(shù)注重的是生成圖像與參考圖像的整體相似性,容易導(dǎo)致生成圖像過于平滑,丟失高頻細(xì)節(jié)信息[20],例如道路和房屋的邊緣.此外,目前大部分基于CNN的全色銳化方法將所有的特征統(tǒng)一對(duì)待,使得模型不能高效的學(xué)習(xí)特征之間的聯(lián)系.
為了解決上述問題,本文以GANs為基礎(chǔ)框架,對(duì)生成器和判別器分別進(jìn)行改進(jìn),以期銳化結(jié)果在保留光譜信息的同時(shí)融入盡可能多的空間細(xì)節(jié)信息.首先,我們?cè)谏善鞯脑O(shè)計(jì)中引入注意力機(jī)制,使模型更加關(guān)注能產(chǎn)生更好銳化結(jié)果的重要特征.其次,本文在采用基于像素的損失函數(shù)基礎(chǔ)上,添加了空間結(jié)構(gòu)的對(duì)抗損失,具體來說,使用馬爾可夫判別器對(duì)銳化結(jié)果和參考圖像的梯度進(jìn)行patch-wise判定,使對(duì)抗訓(xùn)練中的局部細(xì)節(jié)信息得到更多的重視,從而確保銳化結(jié)果的空間細(xì)節(jié)信息.圖 1給出了AESGGAN的整體框架,該框架主要由兩部分組成:基于注意力機(jī)制的生成器負(fù)責(zé)將LRMS圖像和PAN圖像融合為HRMS圖像;馬爾科夫判別器實(shí)現(xiàn)對(duì)梯度圖的patch-wise真?zhèn)闻卸?
3.1.1 基于注意力機(jī)制的生成器 首先,我們實(shí)施了一個(gè)單純的基于殘差學(xué)習(xí)的生成器.考慮到人眼視覺系統(tǒng)對(duì)細(xì)節(jié)信息常常具有更多的關(guān)注度,而且具有代表性的特征往往只出現(xiàn)在某些特征通道或某些局部空間位置,我們?cè)趩渭兓跉埐顚W(xué)習(xí)的生成器的部分卷積層之后引入通道注意力模塊和空間注意力模塊,對(duì)中間特征進(jìn)行加權(quán)優(yōu)化.此外,受到DenseNet[33]的啟發(fā),我們向模型中添加多個(gè)跳躍連接,把從LRMS圖像和PAN圖像中提取到的低級(jí)特征多次注入模型,實(shí)現(xiàn)對(duì)特征的復(fù)用.
圖2給出了基于注意力機(jī)制的生成器G的網(wǎng)絡(luò)架構(gòu)及空間注意力模塊SABlock和通道注意力模塊CABlock.通道注意力模塊的結(jié)構(gòu)如圖 2d所示.通道注意力模塊接收尺寸為256×N×N的特征作為輸入,然后對(duì)輸入特征在空間域上分別求全局平均值和全局最大值,得到通道維度為256的空間平均特征和空間最大特征.接著將兩組特征輸入共享多層感知機(jī)(Shared MLP),輸出維度不變的兩組特征.值得說明的是,為減少參數(shù)量,共享感知機(jī)內(nèi)部對(duì)特征的通道進(jìn)行了的壓縮和擴(kuò)充.在這之后,將經(jīng)共享多層感知機(jī)處理后的兩組特征相加并輸入激活函數(shù),得到大小為256×1×1的通道注意力圖.最后,利用通道注意力圖對(duì)輸入特征加權(quán),得到在通道域優(yōu)化后的特征并作為輸出.
空間注意力模塊的結(jié)構(gòu)如圖 3b所示.空間注意力模塊接收尺寸同樣為256×N×N的特征作為輸入,不同的是,空間注意力模塊對(duì)輸入特征分別在通道域上求全局平均值和全局最大值,得到尺寸都為1×N×N的通道平均特征和通道最大特征.接著連接兩組特征得到尺寸為2×N×N的復(fù)合特征.再將復(fù)合特征依次輸入卷積層和激活層,可以得到尺寸為1×N×N的空間注意力圖.最后利用空間注意力圖對(duì)輸入特征加權(quán),輸出在空間域優(yōu)化后的特征.
3.1.2 馬爾可夫梯度判別器 AESGGAN包含兩個(gè)結(jié)構(gòu)相同的馬爾可夫判別器,它們分別從水平和垂直方向?qū)︿J化結(jié)果的梯度和參考圖像的梯度進(jìn)行patch-wise判定.圖 3展示了判別器的網(wǎng)絡(luò)框架.水平梯度判別器DX接收銳化結(jié)果或參考圖像的水平梯度,輸出對(duì)它們的判定結(jié)果.類似的,垂直梯度判別器DY接收銳化結(jié)果或參考圖像的垂直梯度,輸出對(duì)它們的判定結(jié)果.與傳統(tǒng)GANs的判別器僅判別整個(gè)輸入的真?zhèn)尾煌?,馬爾可夫判別器接收空間尺寸為N×N的輸入,輸出patch-wise的真?zhèn)闻卸ńY(jié)果,即一個(gè)空間尺寸為n×n的矩陣標(biāo)簽,其中n=N/8-2.矩陣元素Xi,j即是判別器對(duì)相應(yīng)patch的判定值.通過patch-wise判別,可提高判別器對(duì)圖像局部空間細(xì)節(jié)的關(guān)注,從而促使生成器模型朝著豐富銳化結(jié)果的局部空間細(xì)節(jié)的方向?qū)W習(xí).
3.2 損失函數(shù)
模型的訓(xùn)練通過生成器和判別器的迭代交互訓(xùn)練完成,即先固定判別器學(xué)習(xí)生成器,然后固定生成器學(xué)習(xí)判別器,一直重復(fù),直到達(dá)到給定結(jié)束條件.生成器的損失函數(shù)包含1-范數(shù)損失項(xiàng)和空間結(jié)構(gòu)信息對(duì)抗損失項(xiàng).其中空間結(jié)構(gòu)信息對(duì)抗損失項(xiàng)包含水平梯度判別損失和垂直梯度判別損失兩個(gè)子項(xiàng).生成器的整體損失函數(shù)LG如下式.
其中,λ是超參數(shù);LGPX和LGPY表示梯度懲罰項(xiàng),梯度懲罰的具體計(jì)算見式(7)和式(8).
4 實(shí)驗(yàn)及分析
4.1 實(shí)驗(yàn)設(shè)置
為了驗(yàn)證我們方法的有效性,我們?cè)贕aoFen-2,WorldView-2和QuickBird 3個(gè)數(shù)據(jù)集上,對(duì)7個(gè)典型傳統(tǒng)方法:Brovey[34]、SFIM[35]、IHS[6]、GFPCA[36]、GSA[37]、CNMF[38]和MTF_GLP_HPM[39],4個(gè)較先進(jìn)的基于CNN的方法:PanNet[16]、SFTGAN[19]、GPPNN[40]和FGF-GAN[41],以及本文提出方法AESGGAN進(jìn)行了對(duì)比實(shí)驗(yàn),并從客觀指標(biāo)和主觀視覺兩方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了展示和分析.另外通過消融實(shí)驗(yàn)對(duì)所提方法中的創(chuàng)新點(diǎn)進(jìn)行了有效性驗(yàn)證.
4.1.1 數(shù)據(jù)集 我們收集了GaoFen-2,WorldView-2,QuickBird衛(wèi)星拍攝的原始LRMS圖像和PAN圖像.PAN圖像的空間分辨率分別為0.8、0.5和0.6 m,對(duì)應(yīng)的LRMS圖像包含紅、綠、藍(lán)和近紅外4個(gè)波段,空間分辨率分別為3.2、2.0和2.4 m.
對(duì)于每個(gè)數(shù)據(jù)集,我們都獲得了11 000對(duì)尺寸分別為128×128的LRMS圖像塊和512×512的PAN圖像塊.首先,由于無法獲得真實(shí)的HRMS參考圖像,我們依據(jù)Walds Protocol[42]對(duì)LRMS圖像塊和PAN圖像塊進(jìn)行了降分辨率和下采樣處理.得到的降分辨率LRMS圖像塊和PAN圖像塊用作模型的輸入,原始的LRMS圖像塊將作為銳化結(jié)果的參考HRMS圖像.然后,我們通過隨機(jī)劃分的方式將10 000對(duì)當(dāng)作訓(xùn)練集,剩余1000對(duì)當(dāng)作測試集.數(shù)據(jù)集的詳細(xì)信息在表 1中展示.
4.1.2 評(píng)價(jià)指標(biāo) 為了評(píng)估全色銳化結(jié)果,本文采用以下6個(gè)廣泛使用的評(píng)價(jià)指標(biāo):Spectral Angle Mapper(SAM)[43],Relative Dimensionless Global Error in Synthesis(ERGAS)[44],Spatial Correlation Coefficient(SCC)[45],Structural Similarity(SSIM)[46],Peak Signal to Noise Ratio(PSNR),Universal Image Quality Index(Q)[47].其中SAM和ERGAS是評(píng)價(jià)光譜失真的指標(biāo),值越小越好,理想值為0.SCC是評(píng)價(jià)空間相似度的指標(biāo),值越大越好,理想值為1.SSIM、PSNR和Q是綜合性指標(biāo),值越大越好.
4.1.3 實(shí)驗(yàn)細(xì)節(jié) 我們?cè)赨buntu 20.04.1操作系統(tǒng)上使用PyTorch框架實(shí)現(xiàn)AESGGAN,并在Intel Xeon E5-2650 v4 CPU和Nvidia GeForce GTX 1080Ti GPU上運(yùn)行.訓(xùn)練AESGGAN時(shí)epoch設(shè)置為200,batch size為16.采用Adam優(yōu)化器,初始學(xué)習(xí)率為1e-3,每20個(gè)epoch乘以0.5.損失函數(shù)中α=1,β=γ=1e-4,λ=100.訓(xùn)練時(shí)對(duì)數(shù)據(jù)進(jìn)行了歸一化處理.
4.2 實(shí)驗(yàn)結(jié)果及分析
4.2.1 GaoFen-2上的實(shí)驗(yàn)結(jié)果 在GaoFen-2測試集上,我們對(duì)上面提到的12種方法和本文提出的方法進(jìn)行了測試,表 2給出了實(shí)驗(yàn)結(jié)果.可以看出,基于CNN的方法普遍優(yōu)于傳統(tǒng)方法,他們的SAM、ERGAS、SSIM和PSNR等4項(xiàng)指標(biāo)明顯好于傳統(tǒng)的全色銳化方法,尤其是表示光譜失真的SAM指標(biāo),其中我們提出的AESGGAN的SAM指標(biāo)比傳統(tǒng)全色銳化方法平均提升了60%.這一方面得益于深度學(xué)習(xí)的先進(jìn)理論,另一方面是因?yàn)榛贑NN的方法是一種有監(jiān)督學(xué)習(xí)方法.本文提出的方法和現(xiàn)有的較先進(jìn)的深度學(xué)習(xí)方法PanNet、SFTGAN和GPPNN相比,各項(xiàng)指標(biāo)都達(dá)到最優(yōu),相較于次優(yōu)的GPPNN,提出方法的SAM指標(biāo)提升21%,ERGAS指標(biāo)則提升16%.
圖4以GaoFen-2數(shù)據(jù)集中一個(gè)圖像塊為例,展示了各種方法的全色銳化視覺效果.由圖 4可以發(fā)現(xiàn),相較于參考圖像,Brovey、IHS、GFPCA、CNMF、MTF_GLP_HPM的銳化結(jié)果有較明顯的光譜失真.而在空間細(xì)節(jié)信息保留方面,除了AESSGAN,所有的全色銳化方法都存在明顯的空間細(xì)節(jié)丟失,具體表現(xiàn)在圖像框選區(qū)域草地上的土路模糊,幾乎無法辨別.相較之下,提出的AESGGAN方法對(duì)框選區(qū)域的空間細(xì)節(jié)信息還原最為準(zhǔn)確.整體比較發(fā)現(xiàn),在GaoFen-2數(shù)據(jù)集下,所有參與比較的全色銳化方法中,AESGGAN可以在保證LRMS圖像的光譜信息準(zhǔn)確性下,最大程度保留PAN圖像中的空間細(xì)節(jié)信息.
4.2.2 WorldView-2上的實(shí)驗(yàn)結(jié)果 表3展示了WorldView-2測試集上12種方法的評(píng)價(jià)指標(biāo).可以發(fā)現(xiàn),在光譜信息和空間信息保留方面,和在GaoFen-2數(shù)據(jù)集一樣,基于CNN的方法都優(yōu)于傳統(tǒng)方法的評(píng)價(jià)指標(biāo),并且GPPNN在WorldView-2上的表現(xiàn)最優(yōu),提出的AESGGAN總體與之持平.
圖 5以一幅WorldView-2圖像為例,展示了不同方法的銳化結(jié)果.從圖5可以發(fā)現(xiàn),傳統(tǒng)方法獲得的銳化結(jié)果在空間細(xì)節(jié)較為復(fù)雜的地方,會(huì)存在較嚴(yán)重的空間信息丟失現(xiàn)象,如框選區(qū)域中的足球場標(biāo)線,并且SFIM、IHS、GSA、CNMF和MTF_GLP_HPM獲得的銳化結(jié)果還會(huì)出現(xiàn)較明顯的光譜失真.相比之下,基于CNN方法獲得的銳化結(jié)果,光譜失真和空間信息丟失都較小.值得注意的是,雖然GPPNN銳化結(jié)果中的“足球場標(biāo)線”很清晰,但是其整體顏色偏深,存在較為明顯的光譜失真.總的來說,AESGGAN獲得的銳化結(jié)果,不論是光譜信息還是和空間信息,都與參考圖像最相似.
4.2.3 QuickBird上的實(shí)驗(yàn)結(jié)果 表4展示了12種方法在QuickBird測試集上的評(píng)價(jià)指標(biāo).表 4表明AESGGAN在所有指標(biāo)中均能達(dá)到最優(yōu),尤其是SAM、ERGAS和PSNR指標(biāo).相較于傳統(tǒng)方法,AESGGAN的SAM指標(biāo)平均提升66%,ERGAS指標(biāo)平均提升60%,PSNR平均提升25%.相較于基于CNN的方法,AESGGAN的SAM指標(biāo)平均提升33%,ERGAS指標(biāo)平均提升35%,PSNR指標(biāo)提升8%.圖6以一張QuickBird圖像為例,展示了不同方法的降銳化結(jié)果.從框選區(qū)域以及圖像右下部分可以發(fā)現(xiàn),所有傳統(tǒng)方法的銳化結(jié)果都存在嚴(yán)重的空間信息丟失問題.基于CNN的方法中,PanNet、SFTGAN和GPPNN的銳化結(jié)果在圖像右下部分也有較為明顯的空間信息丟失,F(xiàn)GF-GAN雖然空間信息保留較為完整,但是存在較為明顯的光譜失真現(xiàn)象,表現(xiàn)為顏色偏深.相對(duì)而言,在QuickBird數(shù)據(jù)集下,AESGGAN仍然可以保留最多的光譜信息和空間信息.
4.3 消融實(shí)驗(yàn)
為了檢驗(yàn)通道注意力模塊、空間注意力模塊和空間結(jié)構(gòu)信息判別模塊的有效性,這里以GaoFen-2數(shù)據(jù)集為例進(jìn)行消融實(shí)驗(yàn).具體來說,按照是否包含通道注意力模塊(CA)、空間注意力模塊(SA)和空間結(jié)構(gòu)信息判別模塊(D)構(gòu)建了如表 5所示的6個(gè)模型,不同的模型對(duì)應(yīng)不同的添加模塊.然后用這些模型進(jìn)行測試并與提出的AESGGAN進(jìn)行對(duì)比.
表6展示了在GaoFen-2數(shù)據(jù)集上6個(gè)模型的降測試結(jié)果,圖 7以一個(gè)圖像塊為例展示了各模型的視覺效果.
綜合表 6和圖 7可以發(fā)現(xiàn),僅添加空間結(jié)構(gòu)判別模塊的模型,光譜信息保留和空間信息保留能力相較于模型M提升較小.而兩種注意力模塊的嵌入都可以提升銳化效果,相對(duì)而言,通道注意力模塊對(duì)銳化效果的提升要高于注意力模塊對(duì)銳化效果的提升.我們認(rèn)為,通道注意力模塊比空間注意力模塊的效果更好的原因在于,在生成器中,通道注意力模塊提取的是不同通道特征對(duì)最終銳化結(jié)果的重要性,在CNN中每個(gè)通道都對(duì)應(yīng)原始輸入的一種濾波結(jié)果,即常常代表一種具有共性的特征,所以在面對(duì)具體的測試樣本時(shí),不僅能關(guān)注當(dāng)前樣本的特點(diǎn),還能加強(qiáng)共性的特征.而空間注意力模塊提取的是不同空間位置的特征對(duì)最終銳化結(jié)果的重要性,因?yàn)闃颖镜亩鄻踊沟貌煌臻g位置的特征個(gè)性化較強(qiáng),因此在測試階段僅能獲取當(dāng)前樣本的特點(diǎn).在此基礎(chǔ)上,同時(shí)添加通道注意力、空間注意力和空間結(jié)構(gòu)信息判別模塊能夠取得整體最好的全色銳化效果.
5 結(jié) 論
本文提出了一種基于注意力機(jī)制和空間結(jié)構(gòu)信息判定的多光譜全色銳化對(duì)抗網(wǎng)絡(luò)AESGGAN,一方面通過在生成器中嵌入通道注意力和空間注意力來提高對(duì)能生成更好銳化結(jié)果的重要特性的提取能力,另一方面在水平和垂直方向?qū)︿J化結(jié)果和參考圖像的梯進(jìn)行patch-wise判別,以保證銳化結(jié)果和參考圖像的空間結(jié)構(gòu)信息一致性.三種典型數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,AESGGAN的銳化效果優(yōu)于參與比較的所有傳統(tǒng)方法和目前較為先進(jìn)的深度學(xué)習(xí)算法.
由于真實(shí)的HRMS圖像無法獲得,幾乎所有基于CNN的有監(jiān)督全色銳化方法都是通過對(duì)原始圖像進(jìn)行降分辨率處理得到有監(jiān)督學(xué)習(xí)的訓(xùn)練集.雖然這種方法在降分辨率的測試中能夠取的很好的效果,但是降辨率圖像和原始分辨率圖像的分布存在差異,在降分辨率下訓(xùn)練得到的模型在原始分辨率輸入下不一定能取得同樣好的效果.因此,下一步工作我們擬對(duì)通過降分辨率數(shù)據(jù)集下訓(xùn)練好的全色銳化模型在原始分辨率的數(shù)據(jù)集下進(jìn)行無監(jiān)督的遷移學(xué)習(xí),使它更符合原始分辨率下真實(shí)HRMS圖像的分布.
參考文獻(xiàn):
[1] Ye F, Guo Y, Zhuang P. Pan-sharpening via a gradient-based deep network prior [J]. Signal Process: Image, 2019, 74: 322.
[2] 張意, 闞子文, 邵志敏, 等. 基于注意力機(jī)制和感知損失的遙感圖像去噪[J]. 四川大學(xué)學(xué)報(bào):自然科學(xué)版, 2021, 58: 042001.
[3] 池濤, 王洋, 陳明. 多層局部感知卷積神經(jīng)網(wǎng)絡(luò)的高光譜圖像分類[J]. 四川大學(xué)學(xué)報(bào):自然科學(xué)版, 2020, 57: 103.
[4] Ghassemian H. A review of remote sensing image fusion methods [J]. Inform? Fusion, 2016, 32: 75.
[5] Zhang L, Shen H, Gong W, et al. Adjustable model-based fusion method for multispectral and panchromatic images [J].IEEE T Syst Man Cybern: B, 2012, 42: 1693.
[6] Haydn R. Application of the IHS color transform to the processing of multisensor data and image enhancement[C]//Proceedings of the International Symposium on Remote Sensing of Arid and Semi-Arid Lands. Egypt: Environ Res Inst of Mich, 1982.
[7] Kwarteng P, Chavez A. Extracting spectral contrast in landsat thematic mapper image data using selective principal component analysis [J]. Photogramm Eng Remote Sens, 1989, 55: 339.
[8] Laben C A, Brower B V. Process for enhancing the spatial resolution of multispectral imagery using pan-sharpening:US06011875A [P]. 2000-01-04.
[9] Mallat S G. A theory for multiresolution signal decomposition: the wavelet representation [J]. IEEE T? Pattern Anal, 1989, 11: 674.
[10] Shensa M J. The discrete wavelet transform: wedding the a trous and Mallat algorithms [J]. IEEE T Signal Process, 1992, 40: 2464.
[11] Burt P J, Adelson E H. The laplacian pyramid as a compact image code [M]//Readings in computer vision. San Francisco: Morgan Kaufmann, 1987.
[12] Vivone G, Alparone L, Chanussot J, et al. A critical comparison among pansharpening algorithms [J]. IEEE T? Geosci Remote Sens, 2014, 53: 2565.
[13] Zhou X, Liu J, Liu S, et al. A GIHS-based spectral preservation fusion method for remote sensing images using edge restored spectral modulation [J]. ISPRSJ Photogramm, 2014, 88: 16.
[14] Aiazzi B , Alparone L , Baronti S, et al. 25 years of pansharpening: a critical review and new developments [M]//Signal and Image Processing for Remote Sensing. Boca Raton: CRC Press, 2012.
[15] Masi G, Cozzolino D, Verdoliva L, et al. Pansharpening by convolutional neural networks [J]. Remote Sens, 2016, 8: 594.
[16] Yang J, Fu X, Hu Y, et al. PanNet: a deep network architecture for pan-sharpening [C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017.
[17] Liu Q, Zhou H, Xu Q, et al. PSGAN: a generative adversarial network for remote sensing image pan-sharpening [J]. IEEE T Geosci Remote S, 2020, 59: 10227.
[18] Zhang H, Ma J. GTP-PNet: a residual learning network based on gradient transformation prior for pansharpening [J]. ISPRS J Photogramm, 2021, 172: 223.
[19] Zhang Y, Li X, Zhou J. SFTGAN: a generative adversarial network for pan-sharpening equipped with spatial feature transform layers [J]. J? Appl Remote Sens, 2019, 13: 026507.
[20] Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network [C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Honolulu: IEEE, 2017.
[21] Woo S, Park J, Lee J Y, et al. Cbam: convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV). Munich: Springer, 2018.
[22] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[C]// International Conference of Legal Regulators. San Diego: arXiv, 2015.
[23] Guo M H, Xu T X, Liu J J, et al. Attention mechanisms in computer vision: a survey[J]. Comput Visual Media, 2022, 8: 331.
[24] Hu J, Shen L, Sun G. Squeeze-and-excitation networks [C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City: IEEE, 2018.
[25] Mnih V, Heess N, Graves A. Recurrent models of visual attention[C]// Proceedings of the Advances in Neural Information Processing Systems(NIPS). Montreal: MIT Press, 2014.
[26] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets [C]. Advances in Neural Information Processing Systems(NIPS). Montreal: MIT Press, 2014.
[27] Mao X, Li Q, Xie H, et al. Least squares generative adversarial networks [C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017.
[28] Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks [C]//Proceedings of the International Conference on Machine Learning. Sydney: International Machine Learning Society, 2017.
[29] Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of wasserstein gans [C]//Advances in Neural Information Processing Systems(NIPS). Long Beach: MIT Press, 2017.
[30] Gregor K, Danihelka I, Graves A, et al. Draw: a recurrent neural network for image generation [C]//Proceedings of the International Conference on Machine Learning. Lille: International Machine Learning Society.[S.l.:S.n.], 2015.
[31] Dosovitskiy A, Brox T. Generating images with perceptual similarity metrics based on deep networks[C]//Advances in Neural Information Processing Systems(NIPS). Barcelona: MIT Press, 2016.
[32] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017.
[33] Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017.
[34] Gillespie A R, Kahle A B, Walker R E. Color enhancement of highly correlated images. II. Channel ratio and “chromaticity” transformation techniques[J]. Remote Sens Environ, 1987, 22: 343.
[35] Liu J G. Smoothing filter-based intensity modulation: a spectral preserve image fusion technique for improving spatial details [J]. Int J Remote Sens, 2000, 21: 3461.
[36] Liao W, Huang X, Van Coillie F, et al. Two-stage fusion of thermal hyperspectral and visible RGB image by PCA and guided filter [C]//Proceedings of the 2015 7th Workshop on Hyperspectral Image and Signal Processing: Evolution in Remote Sensing (WHISPERS). [S.l.]: IEEE, 2015.
[37] Aiazzi B, Baronti S, Selva M. Improving component substitution pansharpening through multivariate regression of MS + Pan data [J]. IEEE T Geosci Remote Sens, 2007, 45: 3230.
[38] Yokoya N, Yairi T, Iwasaki A. Coupled nonnegative matrix factorization unmixing for hyperspectral and multispectral data fusion[J]. IEEE T Geosci Remote Sens, 2011, 50: 528.
[39] Aiazzi B, Alparone L, Baronti S, et al. MTF-tailored multiscale fusion of high-resolution MS and Pan imagery [J]. Photogramm Eng Rem S, 2006, 72: 591.
[40] Xu S, Zhang J, Zhao Z, et al. Deep gradient projection networks for pansharpening [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.[S.l.]: IEEE, 2021.
[41] Zhao Z, Zhang J, Xu S, et al. FGF-GAN: a lightweight generative adversarial network for pansharpening via fast guided filter [C]//Proceedings of the 2021 IEEE International Conference on Multimedia and Expo (ICME). [S. l.]: IEEE, 2021.
[42] Wald L, Ranchin T, Mangolini M. Fusion of satellite images of different spatial resolutions: assessing the quality of resulting images [J]. Photogramm Eng Rem S, 1997, 63: 691.
[43] Yuhas R H, Goetz A F H, Boardman J W. Discrimination among semi-arid landscape endmembers using the spectral angle mapper (SAM) algorithm[C]// Proceedings of the JPL, Summaries of the Third Annual JPL Airborne Geoscience Workshop. Pasadena: AVIRIS Workshop, 1992.
[44] Wald L. Data fusion: definitions and architectures: fusion of images of different spatial resolutions [M]. Paris: Presses des MINES, 2002.
[45] Zhou J, Civco D L, Silander J A. A wavelet transform method to merge Landsat TM and SPOT panchromatic data [J]. Int J Remote Sens, 1998, 19: 743.
[46] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEET Image Process, 2004, 13: 600.
[47] Wang Z, Bovik A C. A universal image quality index [J]. IEEE Signal Proc Let, 2002, 9: 81.