黃宇鴻 周維勛
(南京信息工程大學(xué) 遙感與測(cè)繪工程學(xué)院, 江蘇 南京 210044)
遙感影像場景級(jí)變化檢測(cè)是近年遙感影像變化檢測(cè)的一個(gè)重要發(fā)展方向,從語義層次分析場景的類別變化,其中高分辨率遙感影像具有空間分辨率高、地物細(xì)節(jié)信息豐富的特點(diǎn),是一種重要的變化檢測(cè)數(shù)據(jù)源,在土地利用監(jiān)測(cè)、違法用地監(jiān)測(cè)、生態(tài)環(huán)境監(jiān)測(cè)等領(lǐng)域應(yīng)用廣泛。
目前場景變化檢測(cè)方法按是否分類可分為分類后比較法以及直接比較法。直接比較法是直接對(duì)同一區(qū)域不同時(shí)相影像的光譜信息差異進(jìn)行比較,確定發(fā)生變化的位置與范圍,一大缺陷在于其無法給出明確的變化類型;而分類后比較法先對(duì)每一時(shí)相影像以相同的分類標(biāo)準(zhǔn)單獨(dú)分類,然后比較分類結(jié)果以確定變化信息,操作簡單且可明確變化類型,但其檢測(cè)精度也因此大大受限于兩時(shí)相影像分類的精度,故提高各時(shí)相影像分類的精度是提高分類后比較變化檢測(cè)精度的關(guān)鍵。
在影像分類中,如何對(duì)影像進(jìn)行特征提取及提取影像的哪些特征影響著分類的準(zhǔn)確性。傳統(tǒng)常用的特征包括紋理特征和顏色特征,如胡玉福等利用影像的紋理特征實(shí)現(xiàn)了高效的高分辨率遙感影像土地利用分類;陳善靜等提出一種基于滑坡區(qū)域顏色特征模型的支持向量機(jī)(support vector machine,SVM)遙感檢測(cè)方法,對(duì)滑坡區(qū)域進(jìn)行了目標(biāo)精確分類與識(shí)別。但是,這類特征的表達(dá)能力有限,往往無法全面反映高分辨率遙感影像復(fù)雜的深層語義信息。
隨著深度學(xué)習(xí)技術(shù)的日漸成熟,一些深度學(xué)習(xí)模型開始被應(yīng)用于遙感影像變化檢測(cè)的分類后比較法中。其應(yīng)用的特征主要有以下三大類:深度置信網(wǎng)絡(luò)特征、棧式編碼器網(wǎng)絡(luò)特征以及卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)特征。其中,CNN特征具有很強(qiáng)的表達(dá)能力和泛化能力,近年來在遙感圖像分類問題上受到了廣泛的使用并取得了較好的分類精度。徐真等提出了一種基于CNN特征的合成孔徑雷達(dá)(synthetic aperture radar,SAR)圖像變化檢測(cè)方法并驗(yàn)證了該方法的準(zhǔn)確性和有效性,王艷恒等結(jié)合深度學(xué)習(xí)和超像元分割實(shí)現(xiàn)對(duì)同物異譜的區(qū)域做出有效判決,提升了變化檢測(cè)精度。
對(duì)于場景變化檢測(cè),現(xiàn)有方法大多采用傳統(tǒng)圖像特征如顏色和紋理特征,或采用單一CNN特征進(jìn)行分類器訓(xùn)練,沒有對(duì)不同特征的變化檢測(cè)性能進(jìn)行綜合性評(píng)估。因此,與現(xiàn)有研究不同,本文利用公開的標(biāo)準(zhǔn)數(shù)據(jù)集,對(duì)比分析了顏色特征、紋理特征以及8種CNN特征對(duì)高分辨率遙感影像變化檢測(cè)的效果,以評(píng)估不同特征提取策略對(duì)變化檢測(cè)結(jié)果的影響。
本文實(shí)驗(yàn)方法的流程如圖1所示。
圖1 實(shí)驗(yàn)方法流程
本文采用兩種策略提取遙感影像的場景特征,包括傳統(tǒng)的紋理特征和顏色特征,以及基于艾歷克斯網(wǎng)絡(luò)(AlexNet)、視覺幾何圖形小組十六層網(wǎng)絡(luò)(visual geometry group16,VGG16)、視覺幾何圖形小組十九層網(wǎng)絡(luò)(visual geometry group19,VGG19)、谷歌模塊組裝型網(wǎng)絡(luò)(Google inception net,GoogLeNet)、十八層殘差網(wǎng)絡(luò)(residual network18,ResNet18)、五十層殘差網(wǎng)絡(luò)(residual network50,ResNet50)、壓縮型網(wǎng)絡(luò)(SqueezeNet)和十九層黑暗網(wǎng)絡(luò)(DarkNet19)等網(wǎng)絡(luò)提取的CNN特征。
1.1.1
紋理特征紋理是圖像中某種局部序列性不斷重復(fù)的非隨機(jī)排列的視覺特征,可由像素及其鄰域的灰度分布來表現(xiàn)。本文對(duì)輸入圖像做小波分解后,用每個(gè)分解層上能量分布的均值和標(biāo)準(zhǔn)方差構(gòu)成一個(gè)6×2的向量來表示其紋理特征。
1.1.2
顏色特征顏色特征是一種全局特征,描述了圖像所對(duì)應(yīng)的地物表面性質(zhì)。其中顏色直方圖是最常用的表達(dá)方法,它不易受圖像旋轉(zhuǎn)和平移的影響,且對(duì)尺度變換不敏感。本文首先將輸入圖像從RGB顏色空間轉(zhuǎn)換至HSV空間,后對(duì)H、S分量按16個(gè)等間隔區(qū)間進(jìn)行量化,經(jīng)歸一化后得到一個(gè)16×2的向量來表示其顏色特征。
1.1.3
CNN
特征CNN基本結(jié)構(gòu)通常包括卷積層、池化層和全連接層。本文分別采用AlexNet、VGG16、VGG19、GoogLeNet、ResNet18、ResNet50、SqueezeNet和DarkNet19共8種預(yù)訓(xùn)練深度學(xué)習(xí)模型對(duì)數(shù)據(jù)集圖像做特征提取。
Alexnet采用8層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括5個(gè)卷積層、3個(gè)池化層和3個(gè)全連接層,采用Relu作為激活函數(shù)并使用Dropout代替正則以降低過擬合。本文選取Alexnet的“fc8”(最后一個(gè)全連接層特征)用于后續(xù)分類。VGGNet最早由牛津大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室提出,VGG16是其中較為典型的一個(gè),共有16個(gè)帶參數(shù)的網(wǎng)絡(luò)層(不包括激活層),即13個(gè)卷積層、3個(gè)全連接層。而VGG19共19個(gè)參數(shù)層,包括16個(gè)卷積層和最后的3個(gè)全連接層。本文選取VGG16和VGG19的“fc8”(最后一個(gè)全連接層特征)用于后續(xù)分類。
GoogLeNet引進(jìn)了Inception結(jié)構(gòu),深度達(dá)到22層。本文選取GoogLeNet的“l(fā)oss3-classifier”(最后一個(gè)全連接層特征)用于后續(xù)分類。
ResNet網(wǎng)絡(luò)在結(jié)構(gòu)中增加了直連通道,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的是上一個(gè)網(wǎng)絡(luò)輸出的殘差,其中ResNet18和ResNet50的深度分別為18和50,本文選取ResNet18和ResNet50的“fc1000”(最后一個(gè)全連接層特征)用于后續(xù)分類。
SqueezeNet是一種超輕量CNN模型,由AlexNet網(wǎng)絡(luò)發(fā)展而來,包含若干個(gè)Fire模塊結(jié)合卷積層、降采樣層、全連接層,網(wǎng)絡(luò)深度達(dá)到18層。本文選取SqueezeNet的“pool10”(平均池化層特征)用于后續(xù)分類。
DarkNet19是一個(gè)深度為19的卷積神經(jīng)網(wǎng)絡(luò),包含有19個(gè)卷積層、5個(gè)最大值池化層和1個(gè)全局平均池化層。本文選取DarkNet19的“avg1”(全局平均池化層特征)用于后續(xù)分類。
SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法,它通過最優(yōu)化問題解算確定出特征空間的最優(yōu)分類超平面,能處理復(fù)雜的數(shù)據(jù)分類問題。本文依次提取訓(xùn)練集和測(cè)試集圖像的上述6種特征后,分別將訓(xùn)練集的各類特征向量輸入SVM分類器內(nèi),選擇線性核函數(shù)進(jìn)行訓(xùn)練,將得到的訓(xùn)練模型應(yīng)用到測(cè)試集上進(jìn)行分類測(cè)試,生成類別預(yù)測(cè)結(jié)果。若預(yù)測(cè)結(jié)果中兩時(shí)相的類別相同,則判斷該區(qū)域未發(fā)生變化;若預(yù)測(cè)結(jié)果中兩時(shí)相的類別不同,則判斷該區(qū)域發(fā)生變化。
實(shí)驗(yàn)采用的數(shù)據(jù)集為MtS-WH,該數(shù)據(jù)集主要用于場景變化檢測(cè)方法的理論研究與驗(yàn)證,包括武漢市漢陽區(qū)的兩幅伊科諾斯(IKONOS,世界上第一顆提供高分辨率衛(wèi)星影像的商業(yè)遙感衛(wèi)星)影像,大小為7 200×6 000像素,共紅、綠、藍(lán)和近紅外4個(gè)波段,空間分辨率為1m。兩幅影像分別獲取于2002年2月和2009年6月,分別如圖2(a)和圖2(b)所示。
本文選取紅、綠、藍(lán)三波段真彩色合成的影像進(jìn)行實(shí)驗(yàn),標(biāo)簽與地物類型的對(duì)應(yīng)關(guān)系如表1所示。其中0類為未定義類,故0類不參與精度評(píng)價(jià)。
為評(píng)估各特征在場景變化檢測(cè)中的性能,本文分別將兩個(gè)時(shí)相的影像裁切為1 920幅150×150像素的場景對(duì),去除標(biāo)簽為0的場景后得到1 050對(duì)非0類場景對(duì);然后將非0類場景對(duì)按4∶1的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集。其中,訓(xùn)練集用于訓(xùn)練SVM分類器,而測(cè)試集用于評(píng)價(jià)基于各類特征的檢測(cè)精度。
表1 MtS-WH數(shù)據(jù)標(biāo)簽與相應(yīng)的地物類型
圖2 MtS-WH數(shù)據(jù)集
本文使用基于二分類混淆矩陣計(jì)算的總體精度(overall accuracy,OA)和Kappa系數(shù)作為評(píng)價(jià)指標(biāo),如表2所示。
表2 二分類混淆矩陣
總體精度是指對(duì)每一個(gè)隨機(jī)測(cè)試樣本,所分類的結(jié)果與檢驗(yàn)數(shù)據(jù)類型相一致的概率。Kappa系數(shù)用于評(píng)估模型預(yù)測(cè)結(jié)果和實(shí)際分類結(jié)果的一致性。計(jì)算公式分別為
(1)
(2)
其中,p
即總體分類精度P
,p
計(jì)算公式為(3)
其中,A
1=a
+b
,A
2=c
+d
,B
1=a
+c
,B
2=b
+d
,n
=A
1+A
2+B
1+B
2。基于不同特征的SVM分類精度和變化檢測(cè)結(jié)果對(duì)比如表3、表4所示。
表3 基于不同特征的SVM分類精度
表4 基于不同特征的變化檢測(cè)精度
結(jié)合表3、表4可知,變化檢測(cè)性能明顯與分類精度密切相關(guān),尤其受時(shí)相2分類精度的影響。時(shí)相2分類精度大于0.86的幾種CNN特征在后續(xù)變化檢測(cè)中均表現(xiàn)良好。綜合分類精度和檢測(cè)精度來看,最優(yōu)的是SqueezeNet、DarkNet19和ResNet50,三者在場景分類精度上分列前三且變化檢測(cè)性能是所有實(shí)驗(yàn)特征中的最佳,總體精度均達(dá)0.95且Kappa達(dá)0.90,而檢測(cè)精度最差的是VGG19,其在時(shí)相2分類中的表現(xiàn)尤其偏差。對(duì)于時(shí)相2的分類精度,前三者分別比VGG19高出8%、7%和7%,前三者總體精度和Kappa系數(shù)分別比VGG19高出11%和25%。根據(jù)CNN特征之間的精度對(duì)比可以發(fā)現(xiàn),可見分類精度越高,變化檢測(cè)的精度就越高,在Kappa系數(shù)上這種依賴關(guān)系表現(xiàn)得尤其明顯。
而傳統(tǒng)的紋理和顏色特征在分類精度和變化檢測(cè)精度上都遠(yuǎn)遜于CNN特征,相比CNN特征中表現(xiàn)最差的VGG19特征,基于紋理特征進(jìn)行的兩時(shí)相分類精度分別低39%和26%,變化檢測(cè)總體精度低了12%、Kappa系數(shù)低了28%,;而基于顏色特征進(jìn)行的兩時(shí)相分類精度分別低27%和6%,變化檢測(cè)總體精度和Kappa系數(shù)則分別低了4%和8%??梢哉f,分類精度的差距帶來了最終的變化檢測(cè)精度差距。傳統(tǒng)特征只能提取圖像的淺層特征,未能充分利用高分辨率遙感影像提供的復(fù)雜的深層信息,在SVM分類中更容易出現(xiàn)誤判而導(dǎo)致最終的變化檢測(cè)精度偏低。
本文選取AlexNet、VGG16、VGG19、GoogLeNet、ResNet18、ResNet50、SqueezeNet和DarkNet19共8種CNN特征與傳統(tǒng)影像特征(紋理特征和顏色特征)分別對(duì)Mts-WH數(shù)據(jù)集進(jìn)行了分類后比較的變化檢測(cè)實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),由于缺少對(duì)深層語義信息的利用,傳統(tǒng)特征在高分辨率遙感影像的場景分類中表現(xiàn)不佳,導(dǎo)致其變化檢測(cè)總體精度不足0.85且Kappa系數(shù)不足0.7,較CNN特征中表現(xiàn)最差的VGG19特征還要遜色;能反映圖像深層語義信息的CNN特征則更加適合高分遙感場景變化檢測(cè)。其中,SqueezeNet、DarkNet19和ResNet50在場景分類中擁有最出色的表現(xiàn),使得三者在變化檢測(cè)中的應(yīng)用效果最好,總體精度均高達(dá)0.95,且Kappa系數(shù)達(dá)0.90。
由于本文實(shí)驗(yàn)所選的數(shù)據(jù)集相對(duì)較小,各CNN特征與傳統(tǒng)影像特征的提取耗時(shí)差異不明顯,因此不同特征提取策略在時(shí)間效率上的性能尚未評(píng)估。下一步研究中,將選用規(guī)模更大、場景類別更豐富的數(shù)據(jù)集,結(jié)合運(yùn)行耗時(shí)來對(duì)不同特征提取策略做出更為全面的性能評(píng)估。