基于稠密卷積神經(jīng)網(wǎng)絡的遙感圖像自動色彩校正*

2019-01-21 08:15朱思捷吳一戎

中國科學院大學學報 2019年1期

朱思捷，雷斌，吳一戎

(中國科學院大學電子電氣與通信工程學院，北京 100190；中國科學院電子學研究所中國科學院空間信息處理與應用系統(tǒng)技術重點實驗室，北京 100190)(2017年12月25日收稿； 2018年3月6日收修改稿)

隨著近30年遙感領域的迅猛發(fā)展，光學遙感圖像的空間分辨率和數(shù)量都有了巨大提高[1]，對海量的遙感光學圖像進行色彩校正是一個重要的問題。無論是Google地球上的遙感圖像，還是中國的GF系列衛(wèi)星圖像，都存在顏色失真的情況。如圖1所示，圖1(a)是GF-2號衛(wèi)星遙感圖像，受到大氣條件及傳感器的影響，顏色產(chǎn)生失真；圖1(b)是經(jīng)過顏色校正后的圖像，顏色與真實地物相吻合，可進一步用于圖像分割、目標檢測與識別等應用；圖1(c)為Google地球上的多幅圖像拼接處，可以看到交界處的顏色差異十分明顯，且右半部分明顯偏色。可見對海量遙感光學圖像進行大規(guī)模的自動化顏色校正仍是一個有待解決的重要問題。

圖1 遙感光學圖像的色彩失真Fig.1 Color distortion in remote sensing image

目前已有的色彩校正方法可以分為3類：顏色遷移法、經(jīng)驗統(tǒng)計法和基于物理模型的方法。顏色遷移法在校正每一幅圖時，需要一幅參考圖像，將參考圖像的顏色直方圖作為基準，對原圖進行校正，從而得到與參考圖像類似的顏色分布，如2008年Fecker等[2]改進直方圖遷移，用它來補償視頻的顏色偏移；Kim和Pollefeys[3]考慮漸暈效應，從而更好地設計顏色遷移函數(shù)。然而在對海量的遙感圖像進行校正時，無法對每幅圖都獲取參考圖像，故此方法無法實現(xiàn)大量圖像的自動化校正。

經(jīng)驗統(tǒng)計法以圖像中各種穩(wěn)定統(tǒng)計量的經(jīng)驗值作為依據(jù)，對圖像進行顏色校正。此類方法大多來自于圖像處理領域，如1980年Buchsbaum[4]提出零階統(tǒng)計方法，即假設圖像的平均反射率為灰色，從而校正圖像。2007年J.van de Weijer等[5]提出一階以及更高階的統(tǒng)計方法，使用空間梯度或更高階統(tǒng)計量代替簡單的平均值。此外，2012年Hirakawa等[6]提出基于濾波器組的校正方法，2014年Cheng等[7]使用主成分分析——PCA(principal component analysis)進一步改進統(tǒng)計模型。然而這些方法都基于攝影照片的統(tǒng)計經(jīng)驗，攝影照片和遙感光學圖像的顏色失真機理有很大區(qū)別，目前此類方法對遙感圖像的色彩校正效果還有待提高。

基于物理模型的方法源于大氣校正算法，此類方法以地物的地表反射率作為真實顏色，而衛(wèi)星傳感器獲取的圖像包含大氣的影響，此類方法通過估計圖像獲取時的各項大氣參數(shù)，基于大氣傳輸模型計算大氣的影響，從而從圖像中除去這部分影響，得到顏色真實的地表反射率圖像。如典型的FLAASH(fast line-of-sight atmospheric analysis of spectral hypercubes)大氣校正方法[8]，使用MODTRAN模型估計圖像中的水汽和氣溶膠參數(shù)，再加上大氣模型和水汽反演模型，計算出大氣的影響，從而得到地表反射率圖像。由于需要一些特殊譜段估計水汽和氣溶膠參數(shù)，此類方法多用于高光譜圖像[9]。而光學圖像波段較少，如GF-2衛(wèi)星，除全色圖像外，僅有4個譜段，無法從圖中準確估計大氣參數(shù)。且此類方法需要人工經(jīng)驗來選取合適的大氣模型，也不適用于海量圖像的自動化校正。

綜上可以看出，目前已有的方法可以對單幅圖像進行很好的色彩校正，但無法完成海量遙感圖像的自動化色彩校正。近年來，機器學習的方法在計算機視覺領域取得了很多突破性的成果，在ImageNet[10]目標識別問題上，基于卷積神經(jīng)網(wǎng)絡——CNN(convolutional neural networks)的模型已經(jīng)取得目前最好的結果，從2012年的AlexNet[11]到VGG[12]，再到ResNet[13]，網(wǎng)絡結構還在不斷被改進，分類的準確率也越來越高?，F(xiàn)在已經(jīng)有很多研究將機器學習的方法應用到遙感領域當中[14]，目前大部分相關工作集中在目標檢測與識別[15]和圖像分類[16]等應用問題，但也有一些研究成功地將機器學習應用于遙感圖像處理當中，例如2009年Lary等[17]利用機器學習的方法對MODIS大氣氣溶膠光學厚度進行偏置校正，2015年Ali等[18]總結機器學習方法在生物量和土壤濕度反演方面的應用，其結果均優(yōu)于傳統(tǒng)的方法，機器學習也給遙感圖像色彩校正問題提供了新的解決思路。

本文提出基于稠密卷積神經(jīng)網(wǎng)絡——DCN(dense convolutional network)的方法，可以實現(xiàn)對海量不同大氣條件下遙感圖像的自動色彩校正。該方法通過直接預測每個通道的顏色校正系數(shù)K，實現(xiàn)對圖像的顏色校正。此方法不依賴于人工經(jīng)驗和對場景的先驗知識，模型訓練完后，即可對全新的圖像進行快速的色彩校正，且此方法不受限于輸入圖像的大小。

1 問題建模

1.1 大氣模型

色彩校正的目標是獲得與地表真實顏色接近的遙感圖像，可以認為RGB這3個波段地表反射率的顏色為真實顏色，若能準確地進行大氣校正，就能獲得顏色真實的圖像。令衛(wèi)星傳感器獲取到的輻亮度值為Ra，地表的反射率值為Re。根據(jù)FLAASH大氣校正中的模型，對于一個像素點，每個波段上傳感器接收到的輻亮度值Ra與地表的反射率Re有如下關系

，

(1)

式中：A,B,S,RL均為在一幅圖像中隨波段變化的量，在不同的空間位置上不變，由各項傳感器參數(shù)和大氣條件決定；R0為像素點周圍的反射率均值，通常取1 km的量級，對于高分辨率光學圖像來說，如分辨率為4 m的GF-2，為250×250的像素范圍，在圖像內(nèi)變化緩慢，故也可近似為一個空間不變量。在這些條件下，上式退化為一個線性關系：

(2)

式中：L為圖像中反射率為零的地物處的輻亮度值;K為顏色校正系數(shù)，主要由大氣的參數(shù)決定。由快速大氣校正[19]中使用的假設，圖像中各波段最暗的地物點可以近似認為反射率為零，對于RGB 3個波段，可分別估計出圖中的L值，故顏色校正取決于對K的估計。

1.2 評價標準

RGB這3個通道的K值對應一個2維的顏色空間，即色相和飽和度。要得到顏色準確的圖像，則需保證3維K向量K的方向保持準確，即預測出的向量K與真值向量K*方向保持一致，這兩個向量的夾角即為色偏角[20](color angular error)θ，表達式如下

(3)

計算機視覺領域[21]通常也使用θ作為顏色校正的標準。對于同一區(qū)域的已有圖像和真值圖像，直接使用最小二乘法計算兩圖的擬合系數(shù)K，公式如下

(4)

式中：xi和yi分別為已有圖像與真值圖像的矩陣。計算K向量與標準向量(1,1,1)的夾角即為此圖像的色偏角θ。

2 模型結構

本文使用兩個模型進行顏色校正，第1個為傳統(tǒng)的CNN模型，第2個為DCN模型。

2.1 CNN模型

AlexNet是2012年ImageNet目標識別比賽中的冠軍隊伍設計的經(jīng)典CNN結構，其中用到的很多結構是后來眾多改進網(wǎng)絡的基礎。AlexNet的前5個卷積層[11](Conv)及其輔助結構用于從圖中提取空間紋理特征，并逐層向上轉(zhuǎn)化為復雜的高級特征。第5層后則為3個全連接層(FC)，使用前面提取的特征來獲取高層語義特征，最終完成圖像分類。

在AlexNet中，每個卷積層后都會接上一組激活層[11](ReLU)和歸一化層[11](LRN)。激活層的作用是為網(wǎng)絡產(chǎn)生非線性連接，從而使網(wǎng)絡可以學習到復雜的非線性函數(shù)。如常用的ReLU激活層，其激活函數(shù)為：

(5)

x為輸入值，這個函數(shù)在后來的神經(jīng)網(wǎng)絡中被廣泛使用。歸一化層全稱為局部響應歸一化層，目的是實現(xiàn)類似生物神經(jīng)系統(tǒng)的側抑制機制，使得響應較大的網(wǎng)絡節(jié)點在附近相對更大，從而提升網(wǎng)絡的泛化能力，后來的網(wǎng)絡常用批歸一化層[11](Batch Normalization)來代替這一層。當需要逐層減小輸出特征的空間大小時，CNN會加入池化層[11](Pooling)，AlexNet中在第1、第2和第5個卷積層后使用最大值池化層(Max Pooling)，使得輸入的227×227圖像，經(jīng)過5層后變成6×6的特征矩陣，將其拉伸為一維向量后即可接上全連接層來學習上層語義特征。全連接層通常還與隨機丟棄層(Dropout)結合使用，該層在訓練時會以一定的概率隨機丟棄部分輸入網(wǎng)絡節(jié)點，從而有效地抑制過擬合的發(fā)生。

本文的CNN結構使用AlexNet的前5個卷積層及其激活層、歸一化層和池化層，在此基礎上增加1個卷積層和2個全連接層。

2.2 DCN模型

全卷積神經(jīng)網(wǎng)絡(FCN)[22]是2015年由Chen S等人提出的模型，在圖像語義分割中取得了目前最優(yōu)的結果。傳統(tǒng)的CNN會在卷積層結束后，接上全連接層來學習上層語義信息，而FCN則全部使用卷積層，沒有全連接層，因此被稱作全卷積。使用卷積層代替全連接層有很多好處，首先卷積層在空間上共享參數(shù)，參數(shù)數(shù)量比全連接層少很多，使得占用空間少，且不易過擬合，具有更好的泛化能力。FCN可以在輸出層之前加上一個反卷積層，從而使輸出層的大小與輸入層相同，構成一個端到端的模型。而且由于全是卷積層，模型可以使用在不同大小的圖像上，不用修改參數(shù)。

稠密連接的卷積神經(jīng)網(wǎng)絡(DenseNet)[23]是2017年Huang等提出的網(wǎng)絡結構，在多個圖像分類數(shù)據(jù)集上都取得了目前最優(yōu)的結果。此前使用的網(wǎng)絡，如AlexNet的卷積層往往特征維數(shù)很大，這一網(wǎng)絡的思想是將多個特征維數(shù)很小的卷積層進行稠密連接，如圖2所示，前面所有卷積層的輸出連在一起，作為后一個卷積層的輸入，這樣僅使用n層，就能得到n(n+1)/2個連接，從而用更少的參數(shù)擬合更復雜的函數(shù)。一組這樣的卷積層被稱為一個稠密模塊(Dense Block)，每個卷積層的特征維數(shù)被稱為增長率(Growth Rate)。在這些模塊間，有一個卷積核長寬為1的卷積層和一個核長寬和步長都為2的均值池化層(Average Pooling)。

圖2 含5個卷積層的稠密模塊結構圖Fig.2 The dense block with 5 convolutional layers

本文同時借鑒FCN的全卷積思想和DenseNet的稠密模塊。DCN結構的前2層基于AlexNet的前2個卷積層，然后接上1個稠密模塊，其中包含3個卷積層，增長率為20，卷積核為3×3，模塊的輸出再接上2個卷積層和全局均值池化層直接得到最終的3通道K值，圖3給出本文采用的DCN和CNN模型的結構及其具體參數(shù)，除第一個卷積層步長為4外，其他卷積層步長皆為1。由于沒有全連接層，且最后用的是全局均值池化層，即對前一層的輸出結果取空間上的平均值，故這一結構無需指定輸入圖像的大小。AlexNet的輸入被限制為227×227，而DCN結構則可以使用較大的圖像，本文使用1 280×1 440的圖像。本應用需要從場景中預測顏色系數(shù)向量K，場景越大，包含的信息越豐富，就有利于產(chǎn)生更好的預測結果，這一改進對于其他基于場景的應用同樣適用。除此之外，稠密模塊能使用較少的卷積層數(shù)實現(xiàn)大量的連接，從而用較少的參數(shù)擬合復雜的函數(shù)關系，在本實驗中，DCN的參數(shù)比傳統(tǒng)CNN要少得多，在訓練過程中可以更好地避免過擬合，而且訓練速度也更快，這些優(yōu)勢非常適合海量遙感圖像的處理。

卷積層上數(shù)字表示卷積核大小和通道數(shù)。圖3 本文的CNN和DCN模型結構Fig.3 CNN and DCN models used in this work

3 模型訓練

3.1 數(shù)據(jù)集來源

本文使用的數(shù)據(jù)集來源于GF2衛(wèi)星多光譜遙感圖像，其參數(shù)如表1所示。實驗中使用空間分辨率為4 m的3個波段：Band2、 Band3、Band4，分別對應藍(B)、綠(G)、紅(R)3個波段。原始圖像為未校正圖像，作為實驗時的輸入。實驗中根據(jù)實際地物顏色，對其中質(zhì)量較好的圖像進行人工校正，校正后的圖像作為標準圖像。用校正后的圖像和原始圖像計算得到校正系數(shù)向量K*作為訓練時的真值，每一幅切片均對應一個3通道的K*值。

表1 實驗中GF2數(shù)據(jù)參數(shù)Table 1 Parameters of GF2 data

3.2 數(shù)據(jù)集構建

實驗中總共裁剪出無重疊區(qū)域的3 000幅切片，大小為1 280×1 440，訓練時隨機選取70%作為訓練集，剩下的30%則用于測試，測試圖像與訓練圖像來自不同的區(qū)域，且使用隨機顏色拉伸，保證每幅圖的偏色系數(shù)各不相同。

為了抑制訓練時的過擬合，實驗使用數(shù)據(jù)擴展，對訓練集的圖像進行隨機水平或垂直翻轉(zhuǎn)。

3.3 訓練參數(shù)

實驗中使用Tensorflow深度學習框架作為平臺，訓練時采用Adam(Adaptive Moment Estimation)優(yōu)化器進行訓練，初始學習率為0.000 1，分別在訓練到20、35和50個樣本周期(Epoch)時將學習率調(diào)低10倍。學習前對網(wǎng)絡參數(shù)進行隨機初始化，CNN的前5層和DCN的前2層使用AlexNet的預訓練參數(shù)進行初始化。CNN和DCN均采用色偏角作為損失函數(shù)(Loss)。稠密模塊的Dropout保留概率為0.8，全連接層的Dropout保留概率為0.5。

4 實驗結果

在tensorflow平臺上分別實現(xiàn)圖3中CNN和DCN的模型結構，使用校正系數(shù)向量K與真值K*的色偏角作為損失函數(shù)進行訓練，訓練集每一步的損失函數(shù)值和測試集每個Epoch(數(shù)據(jù)集周期)的平均損失函數(shù)隨訓練步數(shù)的變化如圖4所示，可以看到DCN比CNN更快地將色偏角收斂到2.2以下，且最終收斂值也較低，而CNN則過擬合現(xiàn)象嚴重，訓練集的色偏角遠小于測試集，這也反映了使用卷積層代替全連接層的有效性。

由于測試集中各圖像本身的原始顏色失真情況有所不同，色偏角均值不能完全反映校正效果，本文統(tǒng)計了測試集結果的色偏角均值、中值、最優(yōu)25%和最差25%，如表2所示?？梢钥吹紻CN的結果明顯優(yōu)于傳統(tǒng)CNN的結果。

圖4 訓練集與測試集的損失函數(shù)隨步數(shù)的變化Fig.4 Loss functions of the training and test data sets

(°)

可以看到DCN方法的結果在均值、中值、最優(yōu)25%和最差25%上均優(yōu)于傳統(tǒng)CNN方法，且相比于輸入圖像有巨大提高。使用預測得到的色彩校正系數(shù)對原始圖像進行色彩校正，本文選取一些不同色彩失真情況下的圖像，比較不同方法的校正結果，如圖5所示。可以看到，DCN的結果略優(yōu)于CNN，這兩種方法的結果與參考真值圖像基本保持一致。而基于概率統(tǒng)計的方法——零階統(tǒng)計方法則很不穩(wěn)定，顏色校正軟件，即Photoshop中的自動色彩校正功能，得到的結果也同樣與真值圖像相差較大，雖然這些處理結果在統(tǒng)計上達到了白平衡，但實際地物的顏色分布并非如此。

圖5 不同方法的校正結果比較Fig.5 The color correction results using different methods

實驗中使用的圖像雖然尺寸很大，為1 280×1 440×3，然而進行預測耗時并不長。DCN模型在單個NVIDIA? GeForce? GTX 1080圖形處理單元上，一個Batch的5幅圖像訓練時間為1.3 s，而使用已經(jīng)訓練好的模型對新的圖像進行校正，則每幅圖僅需0.11 s，運算速度已經(jīng)達到大規(guī)模處理的要求。模型訓練完成后，不再需要人工經(jīng)驗和對場景的先驗知識，可以在大規(guī)模實時處理系統(tǒng)中進行自動化的色彩校正。

5 總結

本文提出的DCN模型可以自動化地預測輸入圖像的色彩偏差，從而進行顏色校正，不需要人工經(jīng)驗以及對場景的先驗知識，且校正結果優(yōu)于傳統(tǒng)的CNN方法，適合于在大規(guī)模實時處理系統(tǒng)中進行色彩校正。

由于使用機器學習的方法，訓練集的場景分布和標注精度會影響到最終結果，隨著遙感數(shù)據(jù)的不斷積累，標注精度的不斷提高，本文提出的方法將會取得更好的校正結果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡