基于跨層復(fù)制連接卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像融合

2020-07-18 06:51王明麗郭曉新王獻(xiàn)昌

吉林大學(xué)學(xué)報(bào)（理學(xué)版） 2020年4期

王明麗, 王剛, 郭曉新, 王獻(xiàn)昌

(吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 長(zhǎng)春 130012)

遙感圖像廣泛應(yīng)用于軍事偵察、變化檢測(cè)和水質(zhì)監(jiān)測(cè)[1]等領(lǐng)域. 由于遙感衛(wèi)星傳感器自身的限制, 因此不能同時(shí)獲得具有高空間分辨率和高光譜分辨率的圖像[2]. 在實(shí)際應(yīng)用中, 如植被識(shí)別、地圖更新和巖性分析等領(lǐng)域, 需要同時(shí)使用高空間分辨率信息描述圖像的紋理和高光譜分辨率信息判斷圖像的類(lèi)別[3]. 遙感圖像融合通過(guò)將具有高空間分辨率、低光譜分辨率的全色圖像(panchromatic image, PAN)中的空間信息與具有低空間分辨率、高光譜分辨率的多光譜圖像(multispectral image, MS)中的高光譜信息融合, 獲得同時(shí)具有高空間分辨率和高光譜分辨率的融合圖像.

目前, 圖像融合方法分為3個(gè)處理級(jí)別：像素級(jí)、特征級(jí)和決策級(jí)[4], 其中像素級(jí)融合方法應(yīng)用廣泛. 像素級(jí)的融合方法逐像素對(duì)圖像進(jìn)行處理, 處理精度高, 產(chǎn)生的融合圖像能獲得比特征級(jí)和決策級(jí)所處理的圖像更豐富的紋理. 傳統(tǒng)遙感圖像像素級(jí)融合方法主要分為兩類(lèi)：基于成分替代(component substitution, CS)的方法和基于多尺度分析(multiresolution analysis, MRA)的方法. 成分替代法有強(qiáng)度色度飽和度(intensity-hue-saturation, IHS)變換[5]、比值變換(brovey transform, BT)[6]和主成成分分析(principle component analysis, PCA)[7], 通過(guò)將MS圖像轉(zhuǎn)換到某種空間域中, 并用PAN圖像替換在該空間域中與PAN圖像相關(guān)性最高的分量, 最后經(jīng)空間域逆變換得到融合圖像. 該方法能有效地將PAN圖像的空間信息注入MS圖像中, 但當(dāng)PAN圖像與被替換的分量局部差異較大時(shí), 光譜扭曲問(wèn)題嚴(yán)重[8]. 基于多尺度分析方法有小波變換(wavelet transform, WT)[9]、高通濾波器(high pass filter, HPF)[10]和非向下采樣輪廓波變換(non-subsampled contourlet transform, NSCT)[11]等, 該類(lèi)方法首先對(duì)多源圖像進(jìn)行多尺度分解, 再在不同尺度上根據(jù)各分量的特點(diǎn)選擇不同的融合規(guī)則, 最后經(jīng)分解逆變換得到融合圖像. 圖像的分解方法、分解層次和在不同級(jí)別中選擇的融合規(guī)則將對(duì)最終的融合結(jié)果產(chǎn)生較大影響. 傳統(tǒng)遙感圖像方法都是在對(duì)圖像處理過(guò)程理解的基礎(chǔ)上人工選擇融合規(guī)則進(jìn)行融合, 不能妥善處理由于環(huán)境變化或不同類(lèi)型數(shù)據(jù)帶來(lái)的影響, 普適性較低.

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[12-16]由于其具有權(quán)值共享和局部連接等特性, 使其與傳統(tǒng)方法相比有更好的魯棒性和容錯(cuò)能力, 并且能更好地保留圖像的紋理信息, 已廣泛應(yīng)用于圖像分割、計(jì)算機(jī)視覺(jué)識(shí)別和圖像分類(lèi)等領(lǐng)域. 全卷積網(wǎng)絡(luò)(fully convolutional networks, FCN)是一種用于圖像語(yǔ)義分割的網(wǎng)絡(luò), 其對(duì)圖像進(jìn)行像素級(jí)的分類(lèi), 從而解決了語(yǔ)義級(jí)別的圖像分割(semantic segmentation)問(wèn)題. U-Net是一種基于全卷積網(wǎng)絡(luò), 已成功應(yīng)用于醫(yī)學(xué)圖像分割的網(wǎng)絡(luò)結(jié)構(gòu)[17]. U-Net在全卷積網(wǎng)絡(luò)基礎(chǔ)上去掉全連接層, 由于醫(yī)學(xué)圖像分割需對(duì)每個(gè)像素點(diǎn)進(jìn)行精準(zhǔn)分類(lèi), 所以U-Net將來(lái)自網(wǎng)絡(luò)收縮路徑的高分辨率特征與網(wǎng)絡(luò)上采樣輸出相結(jié)合進(jìn)行處理, 通過(guò)跨層復(fù)制連接操作將信息組合后學(xué)習(xí), 可得到更精確的分類(lèi)結(jié)果.

本文提出一種基于跨層復(fù)制連接卷積神經(jīng)網(wǎng)絡(luò)的端到端遙感圖像融合模型, 克服了傳統(tǒng)融合方法需人工制定融合規(guī)則, 且模型易實(shí)現(xiàn). 首先, 構(gòu)建輸入是MS圖像和PAN圖像, 輸出為融合圖像的高效網(wǎng)絡(luò)模型；其次, 使用從公開(kāi)數(shù)據(jù)庫(kù)下載的遙感圖像數(shù)據(jù)集構(gòu)建訓(xùn)練集, 并利用構(gòu)建好的訓(xùn)練集訓(xùn)練網(wǎng)絡(luò)模型；最后, 將MS圖像上采樣到PAN圖像大小作為網(wǎng)絡(luò)輸入, 得到同時(shí)具有高光譜分辨率和高空間分辨率的融合圖像. 實(shí)驗(yàn)結(jié)果表明, 與傳統(tǒng)遙感圖像融合方法相比, 本文方法有更好的魯棒性, 能有效抑制光譜扭曲并提升融合圖像的質(zhì)量.

1 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像融合

1.1 FCNNs模型

本文提出的基于跨層復(fù)制連接卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像融合模型----FCNNs, 融合方法包括以下3個(gè)步驟：

1) 構(gòu)建訓(xùn)練集；

2) 使用訓(xùn)練集訓(xùn)練FCNNs模型；

3) 選擇MS圖像的R,G,B波段作為待融合的MS圖像, 將MS圖像上采樣為PAN圖像分辨率, 并使用FCNNs模型融合上采樣的MS圖像和PAN圖像, 得到具有更好空間細(xì)節(jié)和光譜特征的融合圖像.

用具有3個(gè)分支的卷積神經(jīng)網(wǎng)絡(luò)建立回歸模型, 訓(xùn)練好的網(wǎng)絡(luò)等價(jià)于傳統(tǒng)遙感圖像融合中的融合規(guī)則. 卷積神經(jīng)網(wǎng)絡(luò)包含的卷積層越多, 所提取的特征圖對(duì)應(yīng)原始圖像中越大的區(qū)域, 可將其視為一種特殊的多尺度分解方法. 這種較大的特征圖可提供更好的圖像解譯能力. 卷積運(yùn)算用于計(jì)算融合圖像, 其不僅考慮了待融合圖像中的像素點(diǎn), 也考慮了其周?chē)袼攸c(diǎn).

為了更好地保留PAN圖像的空間信息和MS圖像的光譜信息, 刪除了傳統(tǒng)卷積網(wǎng)絡(luò)中的下采樣層[18]. FCNNs模型結(jié)構(gòu)如圖1所示, 其等價(jià)于融合規(guī)則FCNNs(MS,PAN)=fusion. FCNNs包含3個(gè)分支: 上下分支M和P分別表示對(duì)MS圖像和PAN圖像的特征提取; 中間主分支MP進(jìn)行融合操作.

圖1 FCNNs模型

M分支的操作可表示為

M1=F(WM1*MS+BM1),

(1)

其中: MS為輸入的三通道多光譜圖像; *表示卷積運(yùn)算;WM1表示尺寸為3×N×N×nM1的卷積核;BM1表示M1層的偏置向量;nM1為卷積核的個(gè)數(shù). 同理可得:

M2=F(WM2*M1+BM2),

(2)

M3=F(WM3*M2+BM3).

(3)

P分支的操作可表示為

P1=F(WP1*PAN+BP1),

(4)

其中: PAN為輸入的單通道全色圖像;WP1表示尺寸為1×N×N×nP1的卷積核,nP1為卷積核的個(gè)數(shù)；BP1為偏置向量. 同理可得：

P2=F(WP2*P1+BP2),

(5)

P3=F(WP3*P2+BP3).

(6)

MP分支的前三層卷積層將MS圖像和PAN圖像同時(shí)作為輸入進(jìn)行卷積, 可表示為

MP1=F(WMP1*MP+BMP1),

(7)

其中:MP為將MS圖像和PAN圖像連接作為輸入的四通道圖像;WMP1表示尺寸為4×N×N×nMP1的卷積核,nMP1為卷積核的個(gè)數(shù)；BMP1為偏置向量. 利用前三層的計(jì)算結(jié)果繼續(xù)進(jìn)行卷積運(yùn)算可得：

MP2=F(WMP2*MP1+BMP2),

(8)

MP3=F(WMP2*MP2+BMP3).

(9)

與傳統(tǒng)CNN網(wǎng)絡(luò)相比, FCNNs模型增加了跨卷積層的復(fù)制連接操作, 將高層分辨率信息通過(guò)跨層復(fù)制連接操作傳播到混合層進(jìn)行融合, 能更好利用多源圖像的局部信息, 并彌補(bǔ)在卷積過(guò)程中的信息損失. 多源圖像經(jīng)不同層卷積網(wǎng)絡(luò)得到的多尺度特征圖, 在混合卷積層進(jìn)一步融合, 能得到更高質(zhì)量的融合圖像.MP分支中的混合卷積層可表示為

與傳統(tǒng)遙感圖像融合人為設(shè)計(jì)濾波器不同, FCNNs模型的卷積核是基于大量的遙感圖像數(shù)據(jù)訓(xùn)練獲得的. 由于純卷積運(yùn)算是線(xiàn)性的, 因此FCNNs模型在每個(gè)卷積層后還增加了非線(xiàn)性激活運(yùn)算, 以增強(qiáng)模型的融合能力. FCNNs模型的融合過(guò)程表示為

F=ReLU(W,X),

(13)

ReLU(x)=max{0,x},

(14)

其中:W為卷積核；X為輸入； ReLU為非線(xiàn)性激活函數(shù)；x表示ReLU的輸入.

在混合卷積層后利用多個(gè)濾波器數(shù)量逐漸遞減的1×1卷積核將得到的Mix_Conv1特征圖轉(zhuǎn)化為三通道, 得到融合結(jié)果為

Fusion=F(Wfusion*Mix_Conv1+Bfusion).

(15)

1.2 構(gòu)建訓(xùn)練集

本文使用大量遙感圖像數(shù)據(jù)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型, 建立多源遙感圖像像素點(diǎn)與融合圖像像素點(diǎn)之間的回歸關(guān)系. 訓(xùn)練后的回歸模型可生成具有更好空間細(xì)節(jié)和光譜特征的高分辨率多光譜融合圖像. 為了成功地訓(xùn)練回歸模型, 首先需構(gòu)建合適的訓(xùn)練數(shù)據(jù)集.

在實(shí)際應(yīng)用中不存在理想的融合圖像, 即沒(méi)有用于訓(xùn)練FCNNs模型的目標(biāo)融合圖像. 所以為了訓(xùn)練回歸模型, 需將MS圖像和PAN圖像下采樣到低分辨率水平. 根據(jù)Wald協(xié)議[19], 可將下采樣的遙感圖像視為在對(duì)應(yīng)較低分辨率水平傳感器獲得的遙感圖像. 因此, 將PAN圖像下采樣到MS圖像大小, 得到的低分辨率PAN圖像記為PAN_L, 將MS圖像先下采樣到1/2尺寸, 再將其上采樣到原始圖像大小, 得到的低分辨率MS圖像記為MS_L. MS_L和PAN_L作為樣本輸入到回歸模型中, 同時(shí)將原始MS圖像作為模型的訓(xùn)練目標(biāo), 訓(xùn)練集可表示為

Dataset={[MS_L,PAN_L],MS}.

(16)

本文使用的遙感圖像來(lái)自L(fǎng)andsat 8衛(wèi)星. Landsat 8衛(wèi)星圖像中的4,3,2波段對(duì)應(yīng)于MS圖像的R,G,B波段, 分辨率為30 m, 8波段對(duì)應(yīng)于PAN圖像, 分辨率為15 m. 訓(xùn)練好的FCNNs模型可直接處理大尺寸的遙感圖像, 但基于計(jì)算效率考慮, 參與訓(xùn)練圖像的大小通常比原始圖像小得多. 本文使用的訓(xùn)練數(shù)據(jù)集包含10萬(wàn)個(gè)訓(xùn)練樣本, 大小為64×64. 圖2為訓(xùn)練樣本示例, 其中： (A)為融合目標(biāo), 即原始MS圖像； (B)為MS_L圖像； (C)為PAN_L圖像.

圖2 訓(xùn)練集示例

1.3 訓(xùn)練集的訓(xùn)練及參數(shù)設(shè)置

本文的核心是利用構(gòu)建好的訓(xùn)練集Dataset訓(xùn)練回歸模型FCNNs. 記FCNNs模型的參數(shù)為θ, 則模型的訓(xùn)練過(guò)程可表示為

(17)

其中：F表示融合模型FCNNs;L表示基于回歸模型輸出和目標(biāo)輸出之間誤差定義的損失函數(shù). 采用均方誤差損失函數(shù)作為優(yōu)化目標(biāo), 定義為

(18)

其中n為訓(xùn)練集中樣本的數(shù)量.

基于平衡融合質(zhì)量和計(jì)算資源的考慮, 本文將使用的卷積核N設(shè)為3, 因?yàn)?×3的卷積核是能最小捕獲上下、左右和中心域信息的尺寸, 步幅設(shè)為1. 在混合卷積層和最后的融合層, 使用多個(gè)1×1卷積核. FCNNs每層卷積核的數(shù)量列于表1.

表1 FCNNs模型各層卷積數(shù)量

在Nvidia GTX 2080Ti GPU上訓(xùn)練FCNNs模型, 并使用隨機(jī)梯度下降法最小化損失函數(shù). Adam算法是一種基于隨機(jī)梯度下降的自適應(yīng)學(xué)習(xí)優(yōu)化方法, 計(jì)算效率較高. 因此, 本文選擇Adam算法作為優(yōu)化算法更新模型參數(shù). 學(xué)習(xí)率初始設(shè)定為0.001, 訓(xùn)練迭代次數(shù)為10, 學(xué)習(xí)率在第四次和第八次分別進(jìn)行學(xué)習(xí)率衰減. 訓(xùn)練數(shù)據(jù)集被分為小批量, 而每批包含64個(gè)樣本. 全部訓(xùn)練時(shí)間為35 min, 訓(xùn)練完成的平均訓(xùn)練誤差為0.001 4.

2 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文算法的有效性, 將本文算法的實(shí)驗(yàn)結(jié)果與傳統(tǒng)融合方法色彩超球面銳化變換(hypersphere color sharpening, HCS)、小波變換(WT)、比值變換(BT)、高通濾波器融合(HPF)和主成分分析(PCA)進(jìn)行比較. 所選取的圖像來(lái)自Deimos衛(wèi)星和QuickBird衛(wèi)星數(shù)據(jù)集, 對(duì)比算法的參數(shù)設(shè)置與本文融合方法中所設(shè)置的參數(shù)相同. 通過(guò)主觀感知和客觀指標(biāo)相結(jié)合的評(píng)價(jià)方法對(duì)本文遙感圖像融合方法進(jìn)行評(píng)價(jià).

2.1 評(píng)價(jià)指標(biāo)

為定量評(píng)估融合后遙感圖像的質(zhì)量, 選擇均方根誤差(root mean square error, RMSE)[20]、相對(duì)全局綜合誤差(erreur relative globale adimensionnelle de synthese, ERGAS)[21]、相關(guān)系數(shù)(correlation coefficient, CC)[22]、相對(duì)平均光譜誤差(relative average spectral error, RASE)[23]、峰值信噪比(peak signal to noise ratio, PSNR)和結(jié)構(gòu)相似性(structural similarity, SSIM)[24]6個(gè)評(píng)價(jià)指標(biāo)對(duì)融合圖像進(jìn)行評(píng)價(jià). 由于不能獲得理想的融合圖像, 因此為了定量評(píng)價(jià)光譜信息, 本文使用原始MS圖像作為參考圖像, 將下采樣得到相同大小的MS圖像和PAN圖像進(jìn)行融合.

1) 均方根誤差(RMSE)為

(19)

其中：R為參考圖像；F為融合圖像；M和N分別為圖像的寬和高；D為圖像的波段數(shù). 式(19)用于計(jì)算融合圖像與參考圖像之間誤差的標(biāo)準(zhǔn)值, 該值越接近0, 表示融合圖像與參考圖像越相似, 融合質(zhì)量越高.

2) 相對(duì)全局綜合誤差(ERGAS)為

(20)

其中：h/l表示PAN圖像與MS圖像的分辨率比值; Mean(d)表示每個(gè)子帶的平均值. 計(jì)算結(jié)果表示融合圖像與參考圖像各波段之間的誤差, 其值越小, 融合效果越好.

3) 相關(guān)系數(shù)(CC)為

(21)

其中：R(i,j)和F(i,j)分別表示參考圖像和融合圖像在(i,j)處的像素值. 式(21)表示融合圖像與參考圖像之間光譜相似度, 該值越接近于1表示融合圖像與參考圖像越相似, 融合效果越好.

4) 相對(duì)平均光譜誤差(RASE)為

(22)

其中: Mean(R)表示參考圖像的均值, 式(22)表示圖像光譜細(xì)節(jié)信息損失, 該值越小, 融合圖像質(zhì)量越高.

5) 峰值信噪比(PSNR)為

(23)

其中L表示融合圖像的最大灰度值. 式(23)用于衡量有效信息和噪聲的比率, 該值越大表明融合圖像與原始圖像之間失真越小, 融合圖像質(zhì)量越好.

6) 結(jié)構(gòu)相似性(SSIM)為

(24)

其中：μR,σR,μF,σF分別表示參考圖像和融合圖像的灰度均值和標(biāo)準(zhǔn)差;σRF表示參考圖像和融合圖像之間的灰度協(xié)方差. SSIM取值范圍為[-1,1], 該值越接近1, 表示融合圖像與參考圖像之間的結(jié)構(gòu)、亮度、對(duì)比度越相似, 融合質(zhì)量越好.

2.2 結(jié)果分析

本文使用4組實(shí)驗(yàn)驗(yàn)證算法的有效性, 前兩組實(shí)驗(yàn)圖像來(lái)自Deimos衛(wèi)星, 后兩組實(shí)驗(yàn)圖像來(lái)自QuickBird衛(wèi)星. 使用MS圖像的R,G,B波段和PAN圖像進(jìn)行融合. 4組實(shí)驗(yàn)MS圖像大小為200×200, PAN圖像大小為800×800. 為了客觀評(píng)價(jià)融合圖像的質(zhì)量, 本文將原始MS圖像作為參考圖像, 將重采樣的MS和下采樣的PAN圖像作為輸入進(jìn)行融合. 4組實(shí)驗(yàn)圖像融合結(jié)果分別如圖3～圖6及表2～表5所示.

由圖3可見(jiàn)： HCS,BT和PCA算法雖然可有效地將PAN圖像的空間信息保留, 但有嚴(yán)重的光譜扭曲； WT算法很好地保留了MS圖像的光譜信息, 但在空間紋理細(xì)節(jié)上存在光譜失真； HPF算法將PAN圖像不具有的空間信息加入, 導(dǎo)致融合圖像人工痕跡明顯. 由圖4可見(jiàn)： PCA算法得到的融合圖像偏暗； HCS和BT算法雖然很好地保留了光譜信息, 但融合后的結(jié)果相比于本文算法在空間細(xì)節(jié)上較差； WT算法局部空間細(xì)節(jié)出現(xiàn)光譜失真； HPF算法雖然空間紋理信息保持較好, 但融合圖像顏色飽和度不夠, 有一定的光譜扭曲. 由圖5和圖6可見(jiàn)： HCS,BT和PCA算法都存在不同程度的光譜扭曲； WT算法空間失真較嚴(yán)重； HPF算法將圖像的空間紋理信息加強(qiáng), 但光譜信息保存不足.

圖3 第一組Deimos衛(wèi)星測(cè)試圖像及融合結(jié)果

由表2～表5可見(jiàn), 本文模型FCNNs得到的融合圖像的各項(xiàng)指標(biāo)均優(yōu)于對(duì)比傳統(tǒng)融合算法, 表明本文算法在光譜信息保存完整的情況下, 融合圖像的空間細(xì)節(jié)信息得到有效提升. 本文算法在不同的衛(wèi)星上通過(guò)主觀感知和客觀評(píng)價(jià)都優(yōu)于對(duì)比算法, 成功驗(yàn)證了本文遙感圖像融合模型FCNNs有更好的適應(yīng)性, 且在保留MS光譜信息的同時(shí)能有效提升融合圖像的空間分辨率.

圖4 第二組Deimos衛(wèi)星測(cè)試圖像及融合結(jié)果

綜上所述, 本文提出了一種基于跨層復(fù)制連接卷積神經(jīng)網(wǎng)絡(luò)模型FCNNs的遙感圖像融合算法. 該算法克服了傳統(tǒng)遙感圖像算法基于人工制定遙感圖像融合規(guī)則, 不能妥善處理由于環(huán)境變化或不同類(lèi)型衛(wèi)星數(shù)據(jù)帶來(lái)的影響. 本文模型中的各層卷積核通過(guò)大量遙感圖像數(shù)據(jù)訓(xùn)練得到, 對(duì)不同類(lèi)型遙感圖像適應(yīng)性較好. 為更好地保留多源遙感圖像中的信息, 取消了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的下采樣層, 并通過(guò)跨層復(fù)制連接操作構(gòu)建了一個(gè)更適合于遙感圖像融合的卷積神經(jīng)網(wǎng)絡(luò)模型. 通過(guò)跨層復(fù)制連接網(wǎng)絡(luò)結(jié)構(gòu), 更好地利用了多源圖像的局部信息, 并將不同尺度的特征圖在混合卷積層進(jìn)行處理, 提供了對(duì)多源遙感圖像的多尺度融合. 通過(guò)主觀感知和客觀評(píng)價(jià)將本文算法與其他傳統(tǒng)融合算法進(jìn)行對(duì)比, 驗(yàn)證了本文算法能更好地保留MS圖像的光譜信息, 并有效提升融合圖像的空間細(xì)節(jié)信息, 抑制光譜扭曲.