朱思捷,雷 斌,吳一戎
(中國科學院大學電子電氣與通信工程學院, 北京 100190; 中國科學院電子學研究所 中國科學院空間信息處理與應用系統(tǒng)技術重點實驗室, 北京 100190)(2017年12月25日收稿; 2018年3月6日收修改稿)
隨著近30年遙感領域的迅猛發(fā)展,光學遙感圖像的空間分辨率和數(shù)量都有了巨大提高[1],對海量的遙感光學圖像進行色彩校正是一個重要的問題。無論是Google地球上的遙感圖像,還是中國的GF系列衛(wèi)星圖像,都存在顏色失真的情況。如圖1所示,圖1(a)是GF-2號衛(wèi)星遙感圖像,受到大氣條件及傳感器的影響,顏色產(chǎn)生失真;圖1(b)是經(jīng)過顏色校正后的圖像,顏色與真實地物相吻合,可進一步用于圖像分割、目標檢測與識別等應用;圖1(c)為Google地球上的多幅圖像拼接處,可以看到交界處的顏色差異十分明顯,且右半部分明顯偏色。可見對海量遙感光學圖像進行大規(guī)模的自動化顏色校正仍是一個有待解決的重要問題。
圖1 遙感光學圖像的色彩失真Fig.1 Color distortion in remote sensing image
目前已有的色彩校正方法可以分為3類:顏色遷移法、經(jīng)驗統(tǒng)計法和基于物理模型的方法。顏色遷移法在校正每一幅圖時,需要一幅參考圖像,將參考圖像的顏色直方圖作為基準,對原圖進行校正,從而得到與參考圖像類似的顏色分布,如2008年Fecker等[2]改進直方圖遷移,用它來補償視頻的顏色偏移;Kim和Pollefeys[3]考慮漸暈效應,從而更好地設計顏色遷移函數(shù)。然而在對海量的遙感圖像進行校正時,無法對每幅圖都獲取參考圖像,故此方法無法實現(xiàn)大量圖像的自動化校正。
經(jīng)驗統(tǒng)計法以圖像中各種穩(wěn)定統(tǒng)計量的經(jīng)驗值作為依據(jù),對圖像進行顏色校正。此類方法大多來自于圖像處理領域,如1980年Buchsbaum[4]提出零階統(tǒng)計方法,即假設圖像的平均反射率為灰色,從而校正圖像。2007年J.van de Weijer等[5]提出一階以及更高階的統(tǒng)計方法,使用空間梯度或更高階統(tǒng)計量代替簡單的平均值。此外,2012年Hirakawa等[6]提出基于濾波器組的校正方法,2014年Cheng等[7]使用主成分分析——PCA(principal component analysis)進一步改進統(tǒng)計模型。然而這些方法都基于攝影照片的統(tǒng)計經(jīng)驗,攝影照片和遙感光學圖像的顏色失真機理有很大區(qū)別,目前此類方法對遙感圖像的色彩校正效果還有待提高。
基于物理模型的方法源于大氣校正算法,此類方法以地物的地表反射率作為真實顏色,而衛(wèi)星傳感器獲取的圖像包含大氣的影響,此類方法通過估計圖像獲取時的各項大氣參數(shù),基于大氣傳輸模型計算大氣的影響,從而從圖像中除去這部分影響,得到顏色真實的地表反射率圖像。如典型的FLAASH(fast line-of-sight atmospheric analysis of spectral hypercubes)大氣校正方法[8],使用MODTRAN模型估計圖像中的水汽和氣溶膠參數(shù),再加上大氣模型和水汽反演模型,計算出大氣的影響,從而得到地表反射率圖像。由于需要一些特殊譜段估計水汽和氣溶膠參數(shù),此類方法多用于高光譜圖像[9]。而光學圖像波段較少,如GF-2衛(wèi)星,除全色圖像外,僅有4個譜段,無法從圖中準確估計大氣參數(shù)。且此類方法需要人工經(jīng)驗來選取合適的大氣模型,也不適用于海量圖像的自動化校正。
綜上可以看出,目前已有的方法可以對單幅圖像進行很好的色彩校正,但無法完成海量遙感圖像的自動化色彩校正。近年來,機器學習的方法在計算機視覺領域取得了很多突破性的成果,在ImageNet[10]目標識別問題上,基于卷積神經(jīng)網(wǎng)絡——CNN(convolutional neural networks)的模型已經(jīng)取得目前最好的結果,從2012年的AlexNet[11]到VGG[12],再到ResNet[13],網(wǎng)絡結構還在不斷被改進,分類的準確率也越來越高?,F(xiàn)在已經(jīng)有很多研究將機器學習的方法應用到遙感領域當中[14],目前大部分相關工作集中在目標檢測與識別[15]和圖像分類[16]等應用問題,但也有一些研究成功地將機器學習應用于遙感圖像處理當中,例如2009年Lary等[17]利用機器學習的方法對MODIS大氣氣溶膠光學厚度進行偏置校正,2015年Ali等[18]總結機器學習方法在生物量和土壤濕度反演方面的應用,其結果均優(yōu)于傳統(tǒng)的方法,機器學習也給遙感圖像色彩校正問題提供了新的解決思路。
本文提出基于稠密卷積神經(jīng)網(wǎng)絡——DCN(dense convolutional network)的方法,可以實現(xiàn)對海量不同大氣條件下遙感圖像的自動色彩校正。該方法通過直接預測每個通道的顏色校正系數(shù)K,實現(xiàn)對圖像的顏色校正。此方法不依賴于人工經(jīng)驗和對場景的先驗知識,模型訓練完后,即可對全新的圖像進行快速的色彩校正,且此方法不受限于輸入圖像的大小。
色彩校正的目標是獲得與地表真實顏色接近的遙感圖像,可以認為RGB這3個波段地表反射率的顏色為真實顏色,若能準確地進行大氣校正,就能獲得顏色真實的圖像。令衛(wèi)星傳感器獲取到的輻亮度值為Ra,地表的反射率值為Re。根據(jù)FLAASH大氣校正中的模型,對于一個像素點,每個波段上傳感器接收到的輻亮度值Ra與地表的反射率Re有如下關系
,
(1)
式中:A,B,S,RL均為在一幅圖像中隨波段變化的量,在不同的空間位置上不變,由各項傳感器參數(shù)和大氣條件決定;R0為像素點周圍的反射率均值,通常取1 km的量級,對于高分辨率光學圖像來說,如分辨率為4 m的GF-2,為250×250的像素范圍,在圖像內(nèi)變化緩慢,故也可近似為一個空間不變量。在這些條件下,上式退化為一個線性關系:
(2)
式中:L為圖像中反射率為零的地物處的輻亮度值;K為顏色校正系數(shù),主要由大氣的參數(shù)決定。由快速大氣校正[19]中使用的假設,圖像中各波段最暗的地物點可以近似認為反射率為零,對于RGB 3個波段,可分別估計出圖中的L值,故顏色校正取決于對K的估計。
RGB這3個通道的K值對應一個2維的顏色空間,即色相和飽和度。要得到顏色準確的圖像,則需保證3維K向量K的方向保持準確,即預測出的向量K與真值向量K*方向保持一致,這兩個向量的夾角即為色偏角[20](color angular error)θ,表達式如下
(3)
計算機視覺領域[21]通常也使用θ作為顏色校正的標準。對于同一區(qū)域的已有圖像和真值圖像,直接使用最小二乘法計算兩圖的擬合系數(shù)K,公式如下
(4)
式中:xi和yi分別為已有圖像與真值圖像的矩陣。計算K向量與標準向量(1,1,1)的夾角即為此圖像的色偏角θ。
本文使用兩個模型進行顏色校正,第1個為傳統(tǒng)的CNN模型,第2個為DCN模型。
AlexNet是2012年ImageNet目標識別比賽中的冠軍隊伍設計的經(jīng)典CNN結構,其中用到的很多結構是后來眾多改進網(wǎng)絡的基礎。AlexNet的前5個卷積層[11](Conv)及其輔助結構用于從圖中提取空間紋理特征,并逐層向上轉(zhuǎn)化為復雜的高級特征。第5層后則為3個全連接層(FC),使用前面提取的特征來獲取高層語義特征,最終完成圖像分類。
在AlexNet中,每個卷積層后都會接上一組激活層[11](ReLU)和歸一化層[11](LRN)。激活層的作用是為網(wǎng)絡產(chǎn)生非線性連接,從而使網(wǎng)絡可以學習到復雜的非線性函數(shù)。如常用的ReLU激活層,其激活函數(shù)為:
(5)
x為輸入值,這個函數(shù)在后來的神經(jīng)網(wǎng)絡中被廣泛使用。歸一化層全稱為局部響應歸一化層,目的是實現(xiàn)類似生物神經(jīng)系統(tǒng)的側抑制機制,使得響應較大的網(wǎng)絡節(jié)點在附近相對更大,從而提升網(wǎng)絡的泛化能力,后來的網(wǎng)絡常用批歸一化層[11](Batch Normalization)來代替這一層。當需要逐層減小輸出特征的空間大小時,CNN會加入池化層[11](Pooling),AlexNet中在第1、第2和第5個卷積層后使用最大值池化層(Max Pooling),使得輸入的227×227圖像,經(jīng)過5層后變成6×6的特征矩陣,將其拉伸為一維向量后即可接上全連接層來學習上層語義特征。全連接層通常還與隨機丟棄層(Dropout)結合使用,該層在訓練時會以一定的概率隨機丟棄部分輸入網(wǎng)絡節(jié)點,從而有效地抑制過擬合的發(fā)生。
本文的CNN結構使用AlexNet的前5個卷積層及其激活層、歸一化層和池化層,在此基礎上增加1個卷積層和2個全連接層。
全卷積神經(jīng)網(wǎng)絡(FCN)[22]是2015年由Chen S等人提出的模型,在圖像語義分割中取得了目前最優(yōu)的結果。傳統(tǒng)的CNN會在卷積層結束后,接上全連接層來學習上層語義信息,而FCN則全部使用卷積層,沒有全連接層,因此被稱作全卷積。使用卷積層代替全連接層有很多好處,首先卷積層在空間上共享參數(shù),參數(shù)數(shù)量比全連接層少很多,使得占用空間少,且不易過擬合,具有更好的泛化能力。FCN可以在輸出層之前加上一個反卷積層,從而使輸出層的大小與輸入層相同,構成一個端到端的模型。而且由于全是卷積層,模型可以使用在不同大小的圖像上,不用修改參數(shù)。
稠密連接的卷積神經(jīng)網(wǎng)絡(DenseNet)[23]是2017年Huang等提出的網(wǎng)絡結構,在多個圖像分類數(shù)據(jù)集上都取得了目前最優(yōu)的結果。此前使用的網(wǎng)絡,如AlexNet的卷積層往往特征維數(shù)很大,這一網(wǎng)絡的思想是將多個特征維數(shù)很小的卷積層進行稠密連接,如圖2所示,前面所有卷積層的輸出連在一起,作為后一個卷積層的輸入,這樣僅使用n層,就能得到n(n+1)/2個連接,從而用更少的參數(shù)擬合更復雜的函數(shù)。一組這樣的卷積層被稱為一個稠密模塊(Dense Block),每個卷積層的特征維數(shù)被稱為增長率(Growth Rate)。在這些模塊間,有一個卷積核長寬為1的卷積層和一個核長寬和步長都為2的均值池化層(Average Pooling)。
圖2 含5個卷積層的稠密模塊結構圖Fig.2 The dense block with 5 convolutional layers
本文同時借鑒FCN的全卷積思想和DenseNet的稠密模塊。DCN結構的前2層基于AlexNet的前2個卷積層,然后接上1個稠密模塊,其中包含3個卷積層,增長率為20,卷積核為3×3,模塊的輸出再接上2個卷積層和全局均值池化層直接得到最終的3通道K值,圖3給出本文采用的DCN和CNN模型的結構及其具體參數(shù),除第一個卷積層步長為4外,其他卷積層步長皆為1。由于沒有全連接層,且最后用的是全局均值池化層,即對前一層的輸出結果取空間上的平均值,故這一結構無需指定輸入圖像的大小。AlexNet的輸入被限制為227×227,而DCN結構則可以使用較大的圖像,本文使用1 280×1 440的圖像。本應用需要從場景中預測顏色系數(shù)向量K,場景越大,包含的信息越豐富,就有利于產(chǎn)生更好的預測結果,這一改進對于其他基于場景的應用同樣適用。除此之外,稠密模塊能使用較少的卷積層數(shù)實現(xiàn)大量的連接,從而用較少的參數(shù)擬合復雜的函數(shù)關系,在本實驗中,DCN的參數(shù)比傳統(tǒng)CNN要少得多,在訓練過程中可以更好地避免過擬合,而且訓練速度也更快,這些優(yōu)勢非常適合海量遙感圖像的處理。
卷積層上數(shù)字表示卷積核大小和通道數(shù)。圖3 本文的CNN和DCN模型結構Fig.3 CNN and DCN models used in this work
本文使用的數(shù)據(jù)集來源于GF2衛(wèi)星多光譜遙感圖像,其參數(shù)如表1所示。實驗中使用空間分辨率為4 m的3個波段:Band2、 Band3、Band4,分別對應藍(B)、綠(G)、紅(R)3個波段。原始圖像為未校正圖像,作為實驗時的輸入。實驗中根據(jù)實際地物顏色,對其中質(zhì)量較好的圖像進行人工校正,校正后的圖像作為標準圖像。用校正后的圖像和原始圖像計算得到校正系數(shù)向量K*作為訓練時的真值,每一幅切片均對應一個3通道的K*值。
表1 實驗中GF2數(shù)據(jù)參數(shù)Table 1 Parameters of GF2 data
實驗中總共裁剪出無重疊區(qū)域的3 000幅切片,大小為1 280×1 440,訓練時隨機選取70%作為訓練集,剩下的30%則用于測試,測試圖像與訓練圖像來自不同的區(qū)域,且使用隨機顏色拉伸,保證每幅圖的偏色系數(shù)各不相同。
為了抑制訓練時的過擬合,實驗使用數(shù)據(jù)擴展,對訓練集的圖像進行隨機水平或垂直翻轉(zhuǎn)。
實驗中使用Tensorflow深度學習框架作為平臺,訓練時采用Adam(Adaptive Moment Estimation)優(yōu)化器進行訓練,初始學習率為0.000 1,分別在訓練到20、35和50個樣本周期(Epoch)時將學習率調(diào)低10倍。學習前對網(wǎng)絡參數(shù)進行隨機初始化,CNN的前5層和DCN的前2層使用AlexNet的預訓練參數(shù)進行初始化。CNN和DCN均采用色偏角作為損失函數(shù)(Loss)。稠密模塊的Dropout保留概率為0.8,全連接層的Dropout保留概率為0.5。
在tensorflow平臺上分別實現(xiàn)圖3中CNN和DCN的模型結構,使用校正系數(shù)向量K與真值K*的色偏角作為損失函數(shù)進行訓練,訓練集每一步的損失函數(shù)值和測試集每個Epoch(數(shù)據(jù)集周期)的平均損失函數(shù)隨訓練步數(shù)的變化如圖4所示,可以看到DCN比CNN更快地將色偏角收斂到2.2以下,且最終收斂值也較低,而CNN則過擬合現(xiàn)象嚴重,訓練集的色偏角遠小于測試集,這也反映了使用卷積層代替全連接層的有效性。
由于測試集中各圖像本身的原始顏色失真情況有所不同,色偏角均值不能完全反映校正效果,本文統(tǒng)計了測試集結果的色偏角均值、中值、最優(yōu)25%和最差25%,如表2所示??梢钥吹紻CN的結果明顯優(yōu)于傳統(tǒng)CNN的結果。
圖4 訓練集與測試集的損失函數(shù)隨步數(shù)的變化Fig.4 Loss functions of the training and test data sets
(°)
可以看到DCN方法的結果在均值、中值、最優(yōu)25%和最差25%上均優(yōu)于傳統(tǒng)CNN方法,且相比于輸入圖像有巨大提高。使用預測得到的色彩校正系數(shù)對原始圖像進行色彩校正,本文選取一些不同色彩失真情況下的圖像,比較不同方法的校正結果,如圖5所示。可以看到,DCN的結果略優(yōu)于CNN,這兩種方法的結果與參考真值圖像基本保持一致。而基于概率統(tǒng)計的方法——零階統(tǒng)計方法則很不穩(wěn)定,顏色校正軟件,即Photoshop中的自動色彩校正功能,得到的結果也同樣與真值圖像相差較大,雖然這些處理結果在統(tǒng)計上達到了白平衡,但實際地物的顏色分布并非如此。
圖5 不同方法的校正結果比較Fig.5 The color correction results using different methods
實驗中使用的圖像雖然尺寸很大,為1 280×1 440×3,然而進行預測耗時并不長。DCN模型在單個NVIDIA? GeForce? GTX 1080圖形處理單元上,一個Batch的5幅圖像訓練時間為1.3 s,而使用已經(jīng)訓練好的模型對新的圖像進行校正,則每幅圖僅需0.11 s,運算速度已經(jīng)達到大規(guī)模處理的要求。模型訓練完成后,不再需要人工經(jīng)驗和對場景的先驗知識,可以在大規(guī)模實時處理系統(tǒng)中進行自動化的色彩校正。
本文提出的DCN模型可以自動化地預測輸入圖像的色彩偏差,從而進行顏色校正,不需要人工經(jīng)驗以及對場景的先驗知識,且校正結果優(yōu)于傳統(tǒng)的CNN方法,適合于在大規(guī)模實時處理系統(tǒng)中進行色彩校正。
由于使用機器學習的方法,訓練集的場景分布和標注精度會影響到最終結果,隨著遙感數(shù)據(jù)的不斷積累,標注精度的不斷提高,本文提出的方法將會取得更好的校正結果。