葉利華,王 磊,張文文,李永剛,王贈(zèng)凱
1. 同濟(jì)大學(xué)電子與信息工程學(xué)院,上海 201804; 2. 嘉興學(xué)院數(shù)理與信息工程學(xué)院,浙江 嘉興 314001
隨著遙感影像技術(shù)的快速發(fā)展,高分辨率光學(xué)遙感影像數(shù)據(jù)量獲得快速增長(zhǎng)。與中低分辨率遙感影像相比,高分影像包含的信息更豐富,如空間信息、紋理信息、地物的幾何結(jié)構(gòu)信息等。影像中的地物目標(biāo)具有同類差異大和部分類間相似度高的特點(diǎn),因而如何有效地自動(dòng)解譯影像已吸引眾多研究者的關(guān)注[1-2]。
為實(shí)現(xiàn)計(jì)算機(jī)視覺技術(shù)自動(dòng)解譯高分辨率光學(xué)遙感影的目標(biāo),很多處理方法被提出,主要可分為人工設(shè)計(jì)特征法和深度學(xué)習(xí)法。描述場(chǎng)景信息采用人工設(shè)計(jì)特征方法提取時(shí),由于缺乏語(yǔ)義信息,導(dǎo)致這些方法的識(shí)別準(zhǔn)確率與實(shí)際應(yīng)用要求有較大差距。當(dāng)前,由于出色的性能,深度學(xué)習(xí)方法已成為人工智能與模式識(shí)別領(lǐng)域的研究熱點(diǎn)。針對(duì)圖像分類問題,大量深度學(xué)習(xí)模型被構(gòu)建,其中深度卷積神經(jīng)網(wǎng)絡(luò)模型的效果最好,如VGGNet[3]、GoogLeNet[4]、ResNet[5]等。在遙感影像場(chǎng)景分類任務(wù)中,基于深度學(xué)習(xí)方法的分類準(zhǔn)確率獲得大幅度地提高[2,6]。與人工設(shè)計(jì)特征方法相比,深度學(xué)習(xí)方法需要更多的標(biāo)注樣本。在標(biāo)注樣本較少的應(yīng)用中,遷移學(xué)習(xí)方法能有效地解決樣本缺少問題[6-7]。
針對(duì)上述三元組方法存在的問題,本文提出均值中心度量方法以提升深度學(xué)習(xí)模型的學(xué)習(xí)能力。該方法通過增加C個(gè)均值聚類中心來(lái)改進(jìn)現(xiàn)有深度學(xué)習(xí)模型。與現(xiàn)有的遙感影像場(chǎng)景分類方法相比,本文方法的特點(diǎn)如下:①單輸入方式實(shí)現(xiàn)深度學(xué)習(xí)與度量學(xué)習(xí)相結(jié)合的遙感影像場(chǎng)景分類;②改進(jìn)深度學(xué)習(xí)模型的損失函數(shù),新?lián)p失函數(shù)由交叉熵?fù)p失項(xiàng)、權(quán)重與偏置正則項(xiàng)和均值中心度量損失項(xiàng)組成;③與現(xiàn)有方法相比,在3個(gè)公開遙感數(shù)據(jù)集上都取得最高的分類準(zhǔn)確率。
早期遙感影像場(chǎng)景分類采用基于低層特征的方法,包括光譜特征、紋理特征、形狀特征等。文獻(xiàn)[10—11]分別提取光譜微分特征和脫氧核糖核酸編碼光譜特征的方法進(jìn)行分類。針對(duì)對(duì)象紋理信息差異的特點(diǎn),文獻(xiàn)[12]提出光譜與紋理相結(jié)合的場(chǎng)景特征表示。單獨(dú)或融合的紋理特征可有效地表征高分遙感影像信息,如灰度共生矩陣、Gabor小波紋理等[13]。文獻(xiàn)[14]融合像素上下文的形狀結(jié)構(gòu)特征與光譜特征提高了分類準(zhǔn)確率。
若用語(yǔ)義信息描述能力差的低層特征來(lái)表征富含語(yǔ)義信息的遙感影像場(chǎng)景,識(shí)別性能存在局限性。視覺詞袋模型(bag of visual words,BoVW)描述的特征含有中層語(yǔ)義信息,該方法在圖像分類領(lǐng)域獲得廣泛應(yīng)用。文獻(xiàn)[15]采用該模型顯著地提高了遙感影像場(chǎng)景的分類準(zhǔn)確率。文獻(xiàn)[16]采用空間金字塔模型,將分層圖像的BoVW特征級(jí)聯(lián)組成最終特征用于描述圖像特征。文獻(xiàn)[17]基于BoVW提出一種空間共生矩陣核來(lái)表示相對(duì)空間信息并采用同心圓的劃分方式解決圖像旋轉(zhuǎn)敏感問題。然而,BoVW模型僅利用圖像局部特征的統(tǒng)計(jì)信息但忽略這些信息之間關(guān)聯(lián)關(guān)系。為挖掘這些關(guān)聯(lián)信息,文獻(xiàn)[18]提出主題模型實(shí)現(xiàn)場(chǎng)景的語(yǔ)義標(biāo)注,文獻(xiàn)[19]則利用多種低層特征分別構(gòu)建主題模型來(lái)實(shí)現(xiàn)。基于主題模型方法使場(chǎng)景分類的準(zhǔn)確率獲得大幅度地提高,然而,上述方法在復(fù)雜場(chǎng)景上的分類準(zhǔn)確率仍很低[1]。
隨著高性能計(jì)算技術(shù)的快速發(fā)展,深度學(xué)習(xí)方法被廣泛地應(yīng)用于各領(lǐng)域的研究并取得巨大成功,其原因在于深度學(xué)習(xí)方法能從原始數(shù)據(jù)中自動(dòng)地學(xué)習(xí)高層語(yǔ)義信息[20]。與其他圖像分類任務(wù)一樣,基于深度學(xué)習(xí)的高分遙感影像場(chǎng)景分類準(zhǔn)確率也獲得大幅提升。文獻(xiàn)[21—23]分別構(gòu)建端到端的深度學(xué)習(xí)模型用于高分遙感影像場(chǎng)景分類任務(wù)。VGGNet、ResNet等優(yōu)秀深度學(xué)習(xí)模型直接地用于高分遙感影像場(chǎng)景分類可獲得更好的性能[24-25]。針對(duì)遙感影像數(shù)據(jù)集標(biāo)注數(shù)據(jù)量少的問題,基于遷移學(xué)習(xí)的方法有效地提高了分類準(zhǔn)確率[6,7,26]。融合不同的深度特征也可有效地提高分類準(zhǔn)確率[27-28]。
盡管深度學(xué)習(xí)方法極大地提高了高分辨率光學(xué)遙感影像場(chǎng)景分類的準(zhǔn)確率,但面對(duì)相似程度較高的場(chǎng)景時(shí)區(qū)分能力仍不足。因此,度量學(xué)習(xí)被引入用于改進(jìn)深度學(xué)習(xí)模型,其目的在于改進(jìn)特征在空間上的分布,降低相似場(chǎng)景之間的混淆比率。文獻(xiàn)[8—9]采用三元組深度度量學(xué)習(xí)方法提高深度學(xué)習(xí)模型的區(qū)分能力。
綜上所述,現(xiàn)有高分辨率光學(xué)遙感影像場(chǎng)景分類方法中,人工設(shè)計(jì)特征方法的特點(diǎn)是對(duì)標(biāo)注數(shù)據(jù)量要求低、模型簡(jiǎn)單、運(yùn)行速度快等,但是表征能力差、知識(shí)遷移困難、分類準(zhǔn)確率低等;而深度學(xué)習(xí)方法則正相反,特征學(xué)習(xí)能力強(qiáng)、遷移學(xué)習(xí)較易及分類準(zhǔn)確率高,但需更多的計(jì)算資源。
本文的深度卷積神經(jīng)網(wǎng)絡(luò)模型如圖1所示。該模型基于VGGNet-16[3]構(gòu)建,虛線框部分繼承原有模型,由卷積層、池化層及全連接層構(gòu)成,增加全連接層(1×1×N,N為類型數(shù))以及聯(lián)合損失層構(gòu)成本文模型。圖1中,“224×224×3”代表有3個(gè)通道,輸入數(shù)據(jù)的尺寸為224×224。本文模型由13個(gè)卷積層、5個(gè)池化層、3個(gè)全連接層以及聯(lián)合損失層組成。
圖1 基于VGGNet-16的深度卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Structure diagram of deep convolutional neural network model based on VGGNet-16
在特征空間上不同場(chǎng)景類型的間距越大,相似場(chǎng)景之間混淆的可能性就越低。因此,改進(jìn)深度學(xué)習(xí)模型輸出特征的空間分布,對(duì)提高總體分類準(zhǔn)確率有積極意義。在文獻(xiàn)[8,29]的啟發(fā)下,本文提出均值中心度量方法以改進(jìn)特征的空間分布,實(shí)現(xiàn)提升模型場(chǎng)景識(shí)別能力的目標(biāo)。圖2展示了本文深度度量學(xué)習(xí)方法的核心思想。“d”代表各聚類中心之間歐氏距離的平方,計(jì)算方法如式(1)所示
(1)
圖2 均值中心度量方法Fig.2 The diagram of average center metric method
式中,i和j為類型編號(hào);N為數(shù)據(jù)樣本類型數(shù)目;cik為第i類均值聚類中心向量的第k維;“margin”超參數(shù)為均值聚類中心之間的最小距離。該方法為各場(chǎng)景類型添加聚類中心,聚類中心的值在訓(xùn)練過程中按批次進(jìn)行動(dòng)態(tài)調(diào)整。
模型的損失函數(shù)由3部分構(gòu)成,包括交叉熵?fù)p失項(xiàng)(Ls)、均值中心度量損失項(xiàng)(Lcm)和權(quán)重(W)與偏置(b)正則項(xiàng)。各項(xiàng)的作用分別是:交叉熵?fù)p失項(xiàng)使不相同類型樣本分離;中心度量損失項(xiàng)使同類型聚集并擴(kuò)大各類聚集中心之間的最小間距;權(quán)重與偏置正則項(xiàng)是為防止模型過擬合。模型的損失函數(shù)定義如式(2)所示
(2)
式中,λ1和λ2為權(quán)重系數(shù)。
(3)
式中,m為每批次的樣本數(shù);yi為第i個(gè)樣本的類型編號(hào)。根據(jù)上述均值中心度量方法的描述,Lcm定義如式(4)所示
(4)
式中,cyi為yi類型的均值聚類中心,其值采用梯度下降方法通過訓(xùn)練求得;h(x)定義為max(x,0)。
針對(duì)式(2)的優(yōu)化問題,本文采用隨機(jī)梯度下降(stochastic gradient descent,SGD)方法進(jìn)行求解。根據(jù)SGD求解原理,Lcm項(xiàng)的xi偏導(dǎo)數(shù)及均值聚類中心的更新梯度如式(5)和式(6)所示
(5)
(6)
式中,δ函數(shù)在條件滿足時(shí)返回1否則返回0;n為類型序號(hào)。cn值的更新方法如式(7)所示
(7)
式中,t為迭代次序。
為驗(yàn)證所提方法的有效性,本文選取其中3個(gè)各有特點(diǎn)的數(shù)據(jù)集進(jìn)行試驗(yàn),包括RSSCN7、UC Merced和NWPU-RESISC45數(shù)據(jù)集[1]。RSSCN7數(shù)據(jù)集共有7類場(chǎng)景,每類場(chǎng)景都有400幅400×400像素的影像并平均分為4種尺度。UC Merced數(shù)據(jù)集有21類場(chǎng)景且只有一個(gè)尺度,各類型有100幅256×256像素的影像。NWPU-RESISC45是當(dāng)前規(guī)模最大、種類最多的公開遙感場(chǎng)景影像數(shù)據(jù)集共有45類場(chǎng)景,分別包含700幅256×256像素的影像。該數(shù)據(jù)集的特點(diǎn)是同類內(nèi)部差異大和異類之間相似度高,對(duì)高分遙感圖像場(chǎng)景分類方法有很高的挑戰(zhàn)性。
為公平比較,數(shù)據(jù)集的設(shè)置與其他方法一致[1,24],隨機(jī)選取各類型的兩種比例作為訓(xùn)練樣本,剩余為測(cè)試樣本,其中RSSCN7為20%和50%、UC Merced為50%和80%以及NWPU-RESISC45為10%和20%。
試驗(yàn)結(jié)果采用平均總體分類準(zhǔn)確率、標(biāo)準(zhǔn)差和混淆矩陣作為分類性能的評(píng)估方法??傮w分類準(zhǔn)確率的計(jì)算方法如式(8)所示
(8)
式中,N為測(cè)試樣本的總數(shù);T為各類型分類正確數(shù)的總和。平均總體分類準(zhǔn)確率和標(biāo)準(zhǔn)差的計(jì)算如式(9)和式(10)所示
(9)
(10)
式中,M為重復(fù)試驗(yàn)的次數(shù),本文M為10。
混淆矩陣能直觀地展示各類型之間的混淆比率,矩陣的行為真實(shí)類型而列為預(yù)測(cè)類型。矩陣的對(duì)角線元素為各類型的分類準(zhǔn)確率,其他任意元素xi,j代表第i類被誤識(shí)為第j類場(chǎng)景占該類型的比率。
試驗(yàn)中有兩類參數(shù)需要配置。一類是損失函數(shù)中的超參數(shù),包括λ1、λ2和“margin”。參考文獻(xiàn)[8],λ2設(shè)為0.000 5;λ1和“margin”的值,本文通過在NWPU-RESISC45數(shù)據(jù)集上以10%樣本測(cè)試確定。首先,設(shè)定“margin”參數(shù)為1并分別設(shè)置λ1的值為{0.01,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}進(jìn)行試驗(yàn),見圖3,λ1設(shè)置為0.3。然后,將λ1設(shè)置為0.3,分別設(shè)置“margin”參數(shù)為{0.01,0.05,0.1,0.5,1,2}進(jìn)行試驗(yàn),見圖4,“margin”設(shè)置為1。另一類是訓(xùn)練參數(shù),設(shè)置如下:學(xué)習(xí)率(0.0005)、更新策略(“inv”)、迭代次數(shù)(20000)、批次大小(20)等。
軟硬件環(huán)境如下:Ubuntu 16.04操作系統(tǒng)、Caffe深度學(xué)習(xí)框架、Python2.7編程語(yǔ)言、Intel I5 3.4 GHz雙核CPU、16 GB RAM和GTX1070顯卡。
本文下列所有試驗(yàn)結(jié)果都是基于遷移學(xué)習(xí)ImageNet數(shù)據(jù)集獲得。
圖3 不同λ1參數(shù)配置下的分類準(zhǔn)確率變化對(duì)比曲線Fig.3 The overall accuracies of the proposed method using different λ1 settings
圖4 不同“margin”參數(shù)配置下的分類準(zhǔn)確率變化對(duì)比曲線Fig.4 The overall accuracies of the proposed method using different “margin” settings
3.4.1 RSSCN7數(shù)據(jù)集試驗(yàn)
表1列出近期相關(guān)方法以及本文方法的準(zhǔn)確率。在訓(xùn)練樣本分別為20%和50%時(shí),本文方法的準(zhǔn)確率分別達(dá)到93.93%和96.01%,高于其他方法的結(jié)果。盡管增強(qiáng)數(shù)據(jù)的量比文獻(xiàn)[24]少,本文方法的準(zhǔn)確率仍分別提高了1.46%和0.42%。圖5顯示了20%訓(xùn)練樣本的分類結(jié)果混淆矩陣,結(jié)果表明僅有田與草地、工業(yè)區(qū)與停車場(chǎng)的混淆比率相對(duì)較高。
表1 不同方法對(duì)RSSCN7數(shù)據(jù)集的分類準(zhǔn)確率
Tab.1 Overall accuracy (%) and standard deviations of the proposed method and the comparison of state-of-the-art methods on the RSSCN7dataset
方法年份訓(xùn)練樣本占比20%50%Deep Filter Banks[23]2016—90.04±0.6VGGNet-16[25]201783.98±0.8787.18±0.94LOFs+GCFs[24]1201892.47±0.2995.59±0.49本文方法2—93.93±0.4296.01±0.58
注:1 通過旋轉(zhuǎn)0°、90°、180°和270°、左右和上下翻轉(zhuǎn)以及隨機(jī)添加白高斯噪聲方式增強(qiáng)訓(xùn)練樣本。
2 通過旋轉(zhuǎn)0°、90°、180°和270°方式增強(qiáng)訓(xùn)練樣本。
圖5 RSSCN7數(shù)據(jù)集以20%為訓(xùn)練樣本的混淆矩陣Fig.5 Confusion matrix of the RSSCN7 dataset with a 20% ratio as training samples
3.4.2 UC Merced數(shù)據(jù)集試驗(yàn)
表2列出近期公開方法以及本文方法的分類結(jié)果。在訓(xùn)練樣本為80%時(shí),本文方法的準(zhǔn)確率略高于目前最好結(jié)果;而在訓(xùn)練樣本為50%時(shí),與文獻(xiàn)[9]相比,準(zhǔn)確率提升了1.09%。圖6顯示了50%訓(xùn)練樣本的分類結(jié)果混淆矩陣,除密集住宅、中密度住宅和稀疏住宅之間容易混淆外,其他場(chǎng)景都能較好地識(shí)別。與文獻(xiàn)[24]中的混淆矩陣相比,密集住宅和中密度住宅的混淆比率大幅地降低,從18%降至6%。
表2 不同方法對(duì)UC Merced數(shù)據(jù)集的分類準(zhǔn)確率
Tab.2 Overall accuracy (%) and standard deviations of the proposed method and the comparison of state-of-the-art methods on the UC Merced dataset
方法年份訓(xùn)練樣本占比50%80%VGG-VD-16[25]201694.14±0.6995.21±1.20salM3 LBP-CLM[30]201794.21±0.7595.75±0.80Fine-tuned VGGNet-16+SVM[8]2018—97.14±0.10Triplet networks[9]12018—97.99±0.53D-CNN with VGGNet-16[8]22018—98.93±0.10LOFs+GCFs[24]3201897.37±0.4499.00±0.35本文方法3-98.46±0.1899.15±0.29
注:1四個(gè)角上按75%和50%覆蓋方式分別裁剪與中間按50%覆蓋方式裁剪,實(shí)現(xiàn)九倍訓(xùn)練樣本增強(qiáng)。
2 每次迭代訓(xùn)練中,隨機(jī)選擇2(C-1)幅圖像以單獨(dú)生成C-1個(gè)同類和異類的影像對(duì)得到批訓(xùn)練樣本,其中C為類型數(shù)。
3 數(shù)據(jù)增強(qiáng)方法與表1一致。
3.4.3 NWPU-RESISC45數(shù)據(jù)集試驗(yàn)
表3列出了最新研究結(jié)果,本文方法與其他方法相比在分類準(zhǔn)確率上有顯著地提高。與文獻(xiàn)[8]相比,分類準(zhǔn)確率分別提高2.51%和1.58%;與文獻(xiàn)[9]相比,分類準(zhǔn)確率提高了1.14%。圖7為20%訓(xùn)練樣本的分類結(jié)果混淆矩陣。
分析混淆矩陣發(fā)現(xiàn)教堂易被識(shí)為宮殿和商業(yè)區(qū)、宮殿易被識(shí)為教堂、鐵路易被識(shí)為火車站。圖8列出3類誤識(shí)的對(duì)比場(chǎng)景影像,(a)教堂、(b)宮殿和(c)鐵路分別被誤識(shí)為宮殿、教堂和火車站,與對(duì)應(yīng)樣例(d)宮殿、(e)教堂和(f)鐵路非常相似。
表3 不同方法對(duì)NWPU-RESISC45數(shù)據(jù)集的分類準(zhǔn)確率
Tab.3 Overall accuracy (%) and standard deviations of the proposed method and the comparison of state-of-the-art methods on the NWPU-RESISC45 dataset
方法年份訓(xùn)練樣本占比10%20%Fine-tuned VGGNet-16[1]201787.15±0.4590.36±0.18D-CNN with VGGNet-16[8]*201889.22±0.5091.89±0.22Triplet networks[9]*2018—92.33±0.20本文方法*—91.73±0.2193.47±0.30
注:* 數(shù)據(jù)增強(qiáng)方法與表2一致。
圖6 UC Merced數(shù)據(jù)集以50%為訓(xùn)練樣本的混淆矩陣Fig.6 Confusion matrix of the UC Merced dataset with a 50% ratio as training samples
圖7 NWPU-RESISC45數(shù)據(jù)集以20%為訓(xùn)練樣本的混淆矩陣Fig.7 Confusion matrix of the NWPU-RESISC45 dataset with a 20% ratio as training samples
在3個(gè)數(shù)據(jù)集上的試驗(yàn)結(jié)果表明,本文方法的準(zhǔn)確率明顯高于其他方法。為進(jìn)一步分析本文方法的性能,表4列出消融試驗(yàn)結(jié)果。試驗(yàn)結(jié)果說明調(diào)優(yōu)訓(xùn)練、數(shù)據(jù)增強(qiáng)及均值中心度量方法都能有效地提高分類準(zhǔn)確率。
方法RSSCN7UC MercedNWPU-RESISC45205050801020VGGNet-16(基準(zhǔn))83.98±0.8787.18±0.9494.14±0.6995.21±1.2076.47±0.1879.79±0.15VGGNet-16(調(diào)優(yōu))92.16±0.8794.80±0.5197.02±0.2798.15±0.2487.30±0.2690.16±0.29VGGNet-16(調(diào)優(yōu)+增強(qiáng))93.07±0.4295.22±0.3597.64±0.3698.65±0.3288.55±0.3190.83±0.25本文方法(調(diào)優(yōu))93.92±0.7795.43±0.3298.24±0.3298.61±0.3990.18±0.1592.53±0.12本文方法(調(diào)優(yōu)+增強(qiáng))94.30±0.5396.01±0.5898.46±0.1899.15±0.2991.73±0.2193.47±0.30
為分析本文方法對(duì)特征空間分布的影響,采用LargeVis算法將第2個(gè)全鏈接層的4096維輸出映射成二維向量。圖9是RSSCN7以50%訓(xùn)練樣本在沒有增強(qiáng)條件下獲取的特征分布對(duì)比圖,每個(gè)圈代表不同類型大概聚集范圍。圖9(b)的特征聚集程度顯著地提升,不同類型間的界線更清晰;圖9(a)的特征分布范圍是50×60而圖9(b)為120×200,類型間距離明顯地增大。表4和圖9的結(jié)果驗(yàn)證了本文方法的有效性。
分析表1至表4發(fā)現(xiàn)在訓(xùn)練樣本比例較低的情況下準(zhǔn)確率獲得更明顯的提升,說明本文方法在少樣本的應(yīng)用中適用性更強(qiáng)。
針對(duì)高分場(chǎng)景圖像分類存在相似場(chǎng)景之間容易混淆的問題,本文提出深度學(xué)習(xí)與度量學(xué)習(xí)相結(jié)合的方法來(lái)降低混淆比率。新模型的損失函數(shù)由交叉熵?fù)p失項(xiàng)、均值中心度量損失項(xiàng)以及權(quán)重與偏置正則項(xiàng)組成。試驗(yàn)結(jié)果表明,本文方法與現(xiàn)有其他方法相比在分類準(zhǔn)確率上有明顯的提高。在RSSCN7、UC Merced和NWPU-RESISC45數(shù)據(jù)集上以較小比例為訓(xùn)練樣本時(shí),分類準(zhǔn)確率分別達(dá)到93.93%、98.46%和91.73%。盡管如此,在處理規(guī)模更大、類型更多、場(chǎng)景更復(fù)雜的高分遙感場(chǎng)景影像分類的任務(wù)中,分類準(zhǔn)確率還有待改進(jìn)。改進(jìn)方法可從兩個(gè)方面:一是改進(jìn)模型以提升局部細(xì)節(jié)信息的學(xué)習(xí)能力,構(gòu)建全局特征與局部細(xì)節(jié)特征相結(jié)合的學(xué)習(xí)模型;二是應(yīng)用多特征融合方法,如多個(gè)深度模型特征或人工設(shè)計(jì)特征。
圖9 RSSCN7數(shù)據(jù)集的測(cè)試樣本輸出特征的2D映射特征可視化圖Fig.9 2D feature visualization of image representations of the RSSCN7 dataset