国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GAN的半監(jiān)督遙感圖像場(chǎng)景分類

2022-04-01 09:21夏英李駿垚郭東恩
光子學(xué)報(bào) 2022年3期
關(guān)鍵詞:殘差卷積精度

夏英,李駿垚,郭東恩,2

(1 重慶郵電大學(xué)空間大數(shù)據(jù)智能技術(shù)重慶市工程研究中心,重慶400065)

(2 南陽理工學(xué)院計(jì)算機(jī)與軟件學(xué)院,河南南陽473000)

0 引言

高分辨率遙感衛(wèi)星技術(shù)迅速發(fā)展,產(chǎn)生了大量場(chǎng)景豐富的高分辨率遙感圖像,如何充分利用不斷增長的遙感圖像變得尤為重要。近年來,智能解釋遙感圖像已成為重要研究?jī)?nèi)容,場(chǎng)景分類是活躍的研究領(lǐng)域之一。遙感圖像場(chǎng)景分類主要利用語義信息,將圖像的場(chǎng)景作為一個(gè)整體進(jìn)行分類,被廣泛應(yīng)用在智能城市建設(shè)、災(zāi)情監(jiān)測(cè)與評(píng)估、目標(biāo)判讀和土地資源利用等領(lǐng)域[1]。目前,基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)遙感圖像進(jìn)行有監(jiān)督分類,需要大量有標(biāo)簽數(shù)據(jù),并且已經(jīng)達(dá)到較高的分類精度。然而,遙感圖像的標(biāo)注需要豐富的工程技能和專家知識(shí),在遙感應(yīng)用中,大部分情況下僅存在少量的有標(biāo)簽遙感圖像進(jìn)行有監(jiān)督訓(xùn)練,大量無標(biāo)簽圖像無法得到充分利用。因此,通過學(xué)習(xí)少量標(biāo)注數(shù)據(jù),從大量未標(biāo)注數(shù)據(jù)提取有效特征的半監(jiān)督學(xué)習(xí)方法,成為解決這類問題的潛在途徑。

生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[2]是近年來最具有潛力的半監(jiān)督方法之一,通過生成對(duì)抗的方式訓(xùn)練模型。GAN 在訓(xùn)練時(shí),通過生成器產(chǎn)生大量樣本擴(kuò)充數(shù)據(jù)集,解決有標(biāo)簽樣本少的問題。同時(shí),對(duì)抗訓(xùn)練提高了判別器的泛化能力和抗干擾能力,進(jìn)而增強(qiáng)特征提取能力。因此,針對(duì)遙感領(lǐng)域有標(biāo)簽樣本量不足、人工標(biāo)注困難以及難以提取判別力強(qiáng)的特征等問題,相關(guān)研究人員已經(jīng)將GAN 應(yīng)用在遙感圖像場(chǎng)景分類領(lǐng)域。

RADFORD A 等[3]在生成對(duì)抗網(wǎng)絡(luò)中加入卷積層和歸一化層,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),提高特征提取能力;ODENA A 等[4]將GAN 應(yīng)用在半監(jiān)督分類中,用少量有標(biāo)簽數(shù)據(jù)和大量無標(biāo)簽數(shù)據(jù)訓(xùn)練模型;TAO Y 等[5]將GAN 應(yīng)用于遙感圖像場(chǎng)景分類,用來解決有標(biāo)簽遙感圖像樣本少的問題。但由于遙感圖像背景復(fù)雜,場(chǎng)景類別繁多,上述基于GAN的算法存在訓(xùn)練不穩(wěn)定、假樣本質(zhì)量低以及不能收斂等問題,限制了分類性能的提高。

基于上述問題,ROY S 等[6]提出了Semantic Fusion Generation Adversarial Network(SFGAN)算法,引入語義融合方法,增強(qiáng)分類性能。MIYATO T 等[7]針對(duì)生成對(duì)抗訓(xùn)練時(shí)出現(xiàn)的模式坍塌等問題,提出了Spectral Normalization Generation Adversarial Network(SNGAN)算法,可以增強(qiáng)GAN 訓(xùn)練的穩(wěn)定性。MAO X 等[8]提出Least squares Generation Adversarial Network(LSGAN),緩解了生成圖像質(zhì)量差、多樣性不足的問題。LECOUAT B 等[9]提出Manifold Regularization Generation Adversarial Network(REG-GAN),通過流行正則化提高生成圖像的質(zhì)量。GUO D 等[10]提出基于門控單元的自注意力Self-Attention Gating Generation Adversarial Network(SAGGAN),增強(qiáng)對(duì)魯棒性強(qiáng)的特征的提取,提升模型收斂速度。

綜上,為了進(jìn)一步增強(qiáng)生成對(duì)抗訓(xùn)練的穩(wěn)定性,充分利用大量無標(biāo)簽數(shù)據(jù)提取判別力更強(qiáng)的特征,以SFGAN 算法為基礎(chǔ),提出一種殘差注意力生成對(duì)抗網(wǎng)絡(luò)(Residual Attention Generation Adversarial Network,RAGAN)。該方法具有以下特點(diǎn):1)在網(wǎng)絡(luò)結(jié)構(gòu)中,引入譜歸一化的殘差塊(Spectral Normalized Residual Block,SNRB),增強(qiáng)生成對(duì)抗訓(xùn)練的穩(wěn)定性,同時(shí)解決梯度消失問題;2)將淺層特征和深層特征融合,更全面地反映場(chǎng)景信息,進(jìn)一步增強(qiáng)特征表示能力;3)引入結(jié)合門控的注意力模塊(Gate Attention Module,GAM),讓判別器聚焦于魯棒性好、判別力強(qiáng)的特征,為其賦予更高的權(quán)重,同時(shí)過濾干擾信息。

1 相關(guān)技術(shù)基礎(chǔ)

1.1 生成對(duì)抗網(wǎng)絡(luò)

GAN 是一種基于博弈論的深度學(xué)習(xí)模型。GAN 采用了一個(gè)生成網(wǎng)絡(luò)G來生成對(duì)抗樣本,同時(shí)采用一個(gè)判別網(wǎng)絡(luò)D來判別樣本是否真實(shí)。G的訓(xùn)練目標(biāo)就是生成接近真實(shí)的假樣本欺騙D,而D則是盡可能地區(qū)分真實(shí)樣本和G生成的假樣本,博弈到最后的解是達(dá)到納什平衡。此時(shí),判別器D的判別能力足夠強(qiáng),可以區(qū)分出真假樣本,并且生成器G生成的樣本足夠真實(shí),判別器D難以判斷其真假。整個(gè)生成對(duì)抗的訓(xùn)練過程可表示為

式中,G、D分別表示生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò),V(G,D)表示G與D的差異值,E表示數(shù)學(xué)期望,z表示隨機(jī)噪聲,pdata(x)表示真實(shí)樣本的分布,Pz(z)表示生成器生成的假樣本分布。

SALIMANS T 等[11]擴(kuò)展上述框架應(yīng)用于半監(jiān)督學(xué)習(xí),每個(gè)類別對(duì)應(yīng)一個(gè)神經(jīng)元,最終將K個(gè)完整神經(jīng)元添加到判別器D里。D的輸入由未標(biāo)注的樣本、已標(biāo)注的樣本以及生成的假樣本組成,輸出由K個(gè)真實(shí)類和代表假樣本的K+1 類組成。因此,D的損失函數(shù)分為有監(jiān)督的損失和無監(jiān)督的損失,即

其中有監(jiān)督的損失函數(shù)為

無監(jiān)督的損失函數(shù)為

式中,pD(y=K+1|x)代表G生成假樣本的概率,pD(y|x,y<K+1)代表真實(shí)樣本的概率。

1.2 SFGAN 網(wǎng)絡(luò)結(jié)構(gòu)

SFGAN 用于半監(jiān)督遙感圖像場(chǎng)景分類模型,引入語義分支增強(qiáng)判別器的特征提取能力。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,判別器將原始的64×64×3 遙感圖像x和語義信息f(x)作為輸入,引入Inception V3 網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集提取的語義信息s(x)。通過融合兩種不同通道的語義信息豐富特征表示能力,從而提高分類的性能。

圖1 SFGAN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 SFGAN network structure

2 方法

2.1 RAGAN 網(wǎng)絡(luò)結(jié)構(gòu)

SFGAN 算法雖然采用深度卷積生成對(duì)抗網(wǎng)絡(luò)對(duì)遙感圖像進(jìn)行特征提取和場(chǎng)景分類,但網(wǎng)絡(luò)層數(shù)的增加會(huì)導(dǎo)致梯度消失和特征損失的問題,無法更好地提取特征。

為解決這些問題,實(shí)現(xiàn)良好的分類性能,提出一種用于半監(jiān)督的遙感圖像場(chǎng)景分類方法,即一種殘差注意力生成對(duì)抗網(wǎng)絡(luò)RAGAN。該方法主要對(duì)SFGAN的判別器D做了以下三個(gè)方面的改進(jìn):1)采用譜歸一化的殘差塊SNRB 代替標(biāo)準(zhǔn)的二維卷積,每個(gè)殘差塊包含兩層卷積,能夠更充分地提取特征,解決梯度消失問題;2)將多層譜歸一化殘差塊提取的深層特征和標(biāo)準(zhǔn)二維卷積提取的淺層特征進(jìn)行融合,更全面地反映場(chǎng)景信息,同時(shí)減少訓(xùn)練造成的特征損失;3)引入結(jié)合門控的注意力模塊GAM,讓判別器充分提取融合后的特征再進(jìn)行權(quán)重分配,減少不相關(guān)信息的干擾。

為了讓生成對(duì)抗網(wǎng)絡(luò)更適合于圖像的生成和處理,采取深度卷積生成對(duì)抗網(wǎng)絡(luò)來構(gòu)建模型[3],它由全連接層(Fully Connected,F(xiàn)C)、反卷積層(Deconvolution,Deconv)、批歸一化層(Batch Normalization,BN)以及激活函數(shù)ReLU 與Tanh 組成,RAGAN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 RAGAN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 RAGAN network structure

2.2 譜歸一化殘差塊

受深度殘差網(wǎng)絡(luò)[12]的啟發(fā),深度神經(jīng)網(wǎng)絡(luò)引入跳躍結(jié)構(gòu)形成殘差模塊,該模塊由網(wǎng)絡(luò)層、跳躍結(jié)構(gòu)和激活函數(shù)Relu 組成,如圖3所示。x表示輸入的數(shù)據(jù),Relu 表示線性激活函數(shù),F(xiàn)(x)表示網(wǎng)絡(luò)殘差,H(x)表示學(xué)習(xí)到的特征,可表示為H(x)=F(x)+x。如果網(wǎng)絡(luò)訓(xùn)練達(dá)到飽和的分類精度或下層的誤差較大時(shí),只需F(x)=0,使x的值近似等于H(x),保證往后的網(wǎng)絡(luò)層數(shù)不會(huì)造成精度下降,有效避免了退化現(xiàn)象[13]。

圖3 殘差神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)單元Fig.3 Basic structure of residual neural network

生成對(duì)抗網(wǎng)絡(luò)的性能很大程度上依賴于判別器D的穩(wěn)定性。判別器中C-Lipschitz 的條件是

式中,x和x′表示輸入,f(x)和f(x′)表示輸出,Lipschitz 常數(shù)C是f的最小常數(shù),僅由譜范數(shù)決定。GAN的穩(wěn)定性定理指出,當(dāng)判別網(wǎng)絡(luò)的輸入輸出滿足1-Lipschitz 連續(xù)時(shí),GAN的訓(xùn)練就會(huì)穩(wěn)定。因此,為增強(qiáng)訓(xùn)練的穩(wěn)定性,在殘差塊的每一個(gè)卷積層引入譜歸一化(Spectral Normalization,SN)[7]約束權(quán)重矩陣的譜范數(shù)。保證每一批次數(shù)據(jù)的輸入和輸出對(duì)權(quán)重的計(jì)算滿足1-Lipschitz 連續(xù),使得生成對(duì)抗訓(xùn)練始終都保持平滑,提升訓(xùn)練的穩(wěn)定性[14]。

由Lipschitz 的復(fù)合函數(shù)可知,單個(gè)函數(shù)滿足1-Lipschitz 連續(xù),那么它們所組成的復(fù)合函數(shù)同樣滿足1-Lipschitz 連續(xù)。RAGAN的判別器由多層譜歸一化殘差塊SNRB 組成,每個(gè)殘差塊包括兩個(gè)二維卷積和一個(gè)Relu 激活函數(shù),相當(dāng)于一個(gè)復(fù)合函數(shù)。激活函數(shù)Relu 滿足1-Lipschitz 連續(xù),因此只需要將譜歸一化應(yīng)用在每一個(gè)卷積層,保證卷積層滿足1-Lipschitz 連續(xù),那么整個(gè)判別網(wǎng)絡(luò)就滿足1-Lipschitz 連續(xù)。卷積層的譜范數(shù)σ(W)計(jì)算方式為

式中,h表示輸入,W表示參數(shù)矩陣,σ(W)表示矩陣W的譜范數(shù),sup 表示最小上界,卷積層的Lipschitz 常數(shù)C等于該卷積層參數(shù)矩陣W的譜范數(shù)σ(W)。譜歸一化WSN(W)計(jì)算方式為

通過譜歸一化使參數(shù)矩陣W的譜范數(shù)σ(W)標(biāo)準(zhǔn)化,使其滿足1-Lipschitz 連續(xù),即σ(WSN(W))=1。此時(shí),卷積層滿足1-Lipschitz 連續(xù),由Lipschitz 的復(fù)合定理可知,整個(gè)判別網(wǎng)絡(luò)也滿足1-Lipschitz 連續(xù)。

然而,譜范數(shù)的求解過程涉及矩陣奇異值分解,所需計(jì)算量較大??刹捎脙绲ń魄蠼猓岣哂?jì)算效率,實(shí)現(xiàn)譜歸一化。隨機(jī)初始化向量m和n,分別作為參數(shù)矩陣W的左奇異值向量和右奇異值向量,即

經(jīng)過式(8)多次迭代后,可估算出矩陣W的譜范數(shù),即

綜上,為了緩解網(wǎng)絡(luò)層數(shù)增加帶來的梯度消失和訓(xùn)練不穩(wěn)定問題,采用譜歸一化殘差塊SNRB 代替原本判別器D中的二維卷積,不僅保留全部的原始信息還減少網(wǎng)絡(luò)參數(shù),解決網(wǎng)絡(luò)退化的問題,增強(qiáng)訓(xùn)練過程的穩(wěn)定性。

2.3 特征融合與結(jié)合門控的注意力機(jī)制

圖像中的特征包括淺層和深層的語義信息,底層卷積提取的淺層特征(Shallow Feature)包含更多位置和局部信息,但語義信息較弱。而隨著網(wǎng)絡(luò)層數(shù)的加深,提取到的深層特征(Deep Feature)包含較強(qiáng)的語義信息和全局信息,但對(duì)細(xì)節(jié)的感知能力較差。為了更全面地反映遙感圖像場(chǎng)景信息,有必要對(duì)網(wǎng)絡(luò)模型提取到的不同特征進(jìn)行融合(Fusion)[15]。因此,在進(jìn)入深層網(wǎng)絡(luò)訓(xùn)練前,先進(jìn)行一次普通的二維卷積提取淺層特征,然后與多層譜歸一化殘差塊提取的深層特征進(jìn)行融合,減少特征的損失,讓模型學(xué)習(xí)到不同特征之間的互補(bǔ)關(guān)系,從而提升模型的表征能力。

由于遙感成像技術(shù)的進(jìn)步,遙感圖像的分辨率隨之提高,類別也逐漸增多,導(dǎo)致圖像背景復(fù)雜,神經(jīng)網(wǎng)絡(luò)模型很難聚焦到魯棒性良好的特征。注意力機(jī)制(Attention)在很多計(jì)算機(jī)視覺任務(wù)中被證明可以有效提升網(wǎng)絡(luò)性能,該方法模仿了人類視覺所特有的大腦信號(hào)處理過程,通過快速掃描全局圖像,明確需要重點(diǎn)關(guān)注的區(qū)域,然后對(duì)這一區(qū)域投入更多的資源來獲得充分的細(xì)節(jié)信息,從而過濾掉冗余無用的信息[16]。

傳統(tǒng)的卷積是將通道信息和空間信息混合在一起提取信息特征,受WOO S[17]、LIU W[18]和GUO D等[19]的啟發(fā),卷積模塊的注意力機(jī)制模塊(Convolutional Block Attention Module,CBAM)是由通道注意力(Channel Attention)模塊和空間注意力(Spatial Attention)模塊兩個(gè)部分組成,重點(diǎn)沿著通道和空間這兩個(gè)維度分別進(jìn)行特征聚焦,通道注意力關(guān)注什么樣的特征以及空間注意力模塊關(guān)注哪里的特征是有意義的。由于它是一個(gè)輕量級(jí)的通用模塊,可以無縫地集成到任何神經(jīng)網(wǎng)絡(luò)模塊中,因此將其引入到生成對(duì)抗網(wǎng)絡(luò)的判別器D中,引導(dǎo)模型更有針對(duì)性地關(guān)注重要特征并抑制不必要的特征。同時(shí),為了獲得更強(qiáng)的特征表達(dá)能力,捕獲特征之間的依賴關(guān)系,引入門控機(jī)制(Gate Block),構(gòu)造結(jié)合門控的注意力模塊GAM,特征融合和GAM 的結(jié)構(gòu)如圖4所示。

圖4 特征融合和GAM 結(jié)構(gòu)Fig.4 Feature fusion and GAM structure

首先,對(duì)有標(biāo)簽圖像(Labelled)、無標(biāo)簽圖像(Unlabeled)以及生成的假樣本(Generated)進(jìn)行特征提取,并將淺層特征和深層特征融合;然后,通道注意力模塊對(duì)融合的特征進(jìn)行平均尺化和最大尺化產(chǎn)生兩個(gè)空間元素,通過元素求和得到MC(F),最后,與輸入的特征F進(jìn)行點(diǎn)乘得到F′;同理,空間注意力模塊以F′作為輸入,求和得到MS(F′),與F′點(diǎn)乘得到輸出F′′,可用公式表示為

式中,F(xiàn)表示輸入的特征,MC表示通道注意力聚焦,F(xiàn)′表示通道注意力聚焦后的輸出,MS表示空間注意力聚焦,F(xiàn)′表示空間注意力聚焦后的輸出,?表示點(diǎn)乘。

為了增強(qiáng)注意力模塊聚焦后特征之間的相關(guān)性,提高判別器D的表征能力,引入門控機(jī)制,特征圖F′被輸入到門控單元,并轉(zhuǎn)換為內(nèi)部關(guān)聯(lián)性更強(qiáng)的新特征。最終,分類器通過關(guān)聯(lián)性更強(qiáng)的特征分類出不同的場(chǎng)景類別(Scene Category),比如海洋湖泊(SeaLake)、高速公路(Highway)、牧場(chǎng)(Pasture)、河流(River)、森林(Forest)等。門控單元推導(dǎo)過程可表示為

式中,σ(x)表示sigmoid 激活函數(shù),fgate(x)表示門控機(jī)制,dense(x)表示完全連接操作。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

EuroSAT 數(shù)據(jù)集[20]由Sentinel-2 衛(wèi)星獲取的27 000 幅帶標(biāo)記的衛(wèi)星圖像組成,覆蓋了13 個(gè)光譜帶,將其分為10 個(gè)不同的土地利用類別,如工業(yè)、住宅等,圖像的分辨率為64×64。UC Merced Land-Use Dataset(UCM)[21]是一個(gè)用于研究的21 級(jí)土地利用圖像遙感數(shù)據(jù)集,其被用于美國各地的城市地區(qū),圖像的分辨率大小為256×256,包含21 個(gè)類別的場(chǎng)景圖像共計(jì)2 100 張,其中每個(gè)類別有100 張。數(shù)據(jù)集信息見表1。

表1 數(shù)據(jù)集信息Table 1 Dataset information

3.2 參數(shù)設(shè)置

針對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化算法的過擬合的問題,采用簡(jiǎn)單交叉驗(yàn)證的方法,從EuroSAT 和UC Merced 數(shù)據(jù)集中隨機(jī)選取80%作為訓(xùn)練集,剩下的20%作為測(cè)試集。然后,用訓(xùn)練集來訓(xùn)練模型,在測(cè)試集驗(yàn)證模型及參數(shù)。接著,再把樣本打亂,重新選擇訓(xùn)練集和測(cè)試集,繼續(xù)訓(xùn)練數(shù)據(jù)和檢驗(yàn)?zāi)P?。通過反復(fù)交叉驗(yàn)證,用損失函數(shù)來度量得到模型的好壞,最終確立一個(gè)較好的模型。為了驗(yàn)證所提出的RAGAN 方法的優(yōu)越性,在EuroSAT 數(shù)據(jù)集中,通過隨機(jī)種子隨機(jī)為圖像進(jìn)行標(biāo)注,標(biāo)記的樣本數(shù)量M(Numbers of labelMon EuroSAT)分別設(shè)置為100、1 000、2 000、21 600(全部訓(xùn)練集);同理,在UC Merced 數(shù)據(jù)集中,隨機(jī)標(biāo)注的樣本數(shù)量M(Numbers of labelMon UC Merced)設(shè)置為100、200、400、1 680(全部訓(xùn)練集)。實(shí)驗(yàn)在64 位Ubuntu18.04 操作系統(tǒng)下進(jìn)行,框架采用TensorFlow-GPU 1.8.0,GPU 為11GB 的NVIDIA GeForce GTX 2080Ti。參數(shù)設(shè)置參考了SFGAN,即β1= 0.5,β2= 0.9,批處理大小bitch-size 為128,訓(xùn)練周期epoch 設(shè)置為30,初始學(xué)習(xí)率lr-rate 設(shè)置為0.000 3,每次衰減設(shè)為0.9。

3.3 評(píng)價(jià)指標(biāo)

在圖像分類任務(wù)中,目前被學(xué)者廣泛使用的評(píng)價(jià)指標(biāo)是總體分類精度(Overall Accuracy,OA)和混淆矩陣(Confusion Matrix,CM)。

1)總體分類精度,即指被正確分類的類別像元數(shù)與總的類別個(gè)數(shù)的比值,計(jì)算公式為

2)混淆矩陣,也稱誤差矩陣,用n行n列的矩陣形式來表示,主要通過映射每個(gè)實(shí)測(cè)像元的位置和類別與分類圖像中相應(yīng)的位置和類別,來顯示分類結(jié)果的準(zhǔn)確性。

3.4 實(shí)驗(yàn)結(jié)果與分析

將RAGAN 方法與其他幾種具有代表性的圖像分類方法在EuroSAT 與UCM 數(shù)據(jù)集進(jìn)行性能比較,并通過總體分類精度OA 和混淆矩陣CM 來分析實(shí)驗(yàn)結(jié)果。CNN[6]作為傳統(tǒng)的深度學(xué)習(xí)模型,是一種有監(jiān)督的訓(xùn)練方法。Inception V3[6]采用了遷移學(xué)習(xí),在Image Net 自然圖像數(shù)據(jù)集預(yù)訓(xùn)練了一個(gè)良好的模型。生成對(duì)抗網(wǎng)絡(luò)作為最具潛力的半監(jiān)督算法,在進(jìn)行半監(jiān)督遙感圖像場(chǎng)景分類時(shí),可以生成一定量的假樣本,解決了樣本數(shù)量不足的問題。FMGAN[2]、REG-GAN[9]、SFGAN[6]和SAGGAN[10]都基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的基礎(chǔ)上改進(jìn),其中SFGAN 和SAGGAN 都沿用了Inception v3 分支,增強(qiáng)了特征提取能力。各類方法的總體分類精度對(duì)比結(jié)果如表2所示。

表2 在EuroSAT 和UCM 數(shù)據(jù)集上的分類結(jié)果Table 2 Classification results on EuroSAT and UCM datasets

從表2 可以看出:

1)Inception V3 在Image Net 自然圖像數(shù)據(jù)集預(yù)訓(xùn)練了一個(gè)良好的模型,并且可以通過微調(diào),遷移到遙感圖像場(chǎng)景分類的應(yīng)用上提高泛化性能。與沒有引用Inception v3 的FMGAN 和REG-GAN 相比,RAGAN、SFGAN 和SAGGAN 都沿用了Inception v3 分支,以增強(qiáng)分類性能,當(dāng)有標(biāo)簽的樣本數(shù)量足夠時(shí),它們的總體分類精度均有小幅度提升。

2)由分類總體精度表可以看出,有標(biāo)簽的樣本數(shù)量越多,分類精度越高。特別是在EuroSAT 數(shù)據(jù)集中,可以看到M=1 000 時(shí)(占總訓(xùn)練集的4.6%),RAGAN的總體分類精度可以達(dá)到88.2%。而當(dāng)M=2 000(占總訓(xùn)練集的9.3%)和21 600(全部訓(xùn)練集)時(shí),RAGAN的總體分類精度分別達(dá)到了93.3%和97.4%,相比半監(jiān)督遙感圖像分類算法SAGGAN 提升了2.6%和3.1%。

3)當(dāng)M=100 時(shí)(占總訓(xùn)練集的0.46%),RAGAN 相比SFGAN 算法的總體分類精度提升了2.9%,但是和SAGGAN 算法相比,精度下降了5.3%。經(jīng)過分析,在有標(biāo)簽的樣本數(shù)量低于1%時(shí),RAGAN 算法的優(yōu)越性體現(xiàn)不出來,原因可能是樣本數(shù)量太少,未能學(xué)習(xí)到判別性強(qiáng)的特征造成的。而當(dāng)有標(biāo)簽的樣本數(shù)量高于5%時(shí),RAGAN 方法的總體分類性能更有優(yōu)越性。

4)從運(yùn)行時(shí)間對(duì)比可知,RAGAN的運(yùn)行時(shí)間相比其他基于GAN的半監(jiān)督算法略長,其原因是:首先,RAGAN 方法需要對(duì)每一個(gè)殘差塊的卷積層進(jìn)行譜歸一化,增加了運(yùn)行成本;其次,卷積模塊的注意力機(jī)制盡管是輕量級(jí)模型,但是經(jīng)過不同層次的特征融合和門控單元的引入,RAGAN 將注意力聚焦后的特征轉(zhuǎn)化為內(nèi)部關(guān)聯(lián)性更強(qiáng)的新特征。因此,增加了計(jì)算資源的投入和運(yùn)算時(shí)間。

實(shí)驗(yàn)同時(shí)生成了混淆矩陣圖CM,進(jìn)一步詳細(xì)分析方法的效果,如圖5 和圖6所示。在圖5 中,橫縱坐標(biāo)0~9 代表的場(chǎng)景分別是“居民樓”、“河”、“高速公路”、“牧場(chǎng)”、“森林”、“莊稼作物”、“草本植被”、“工業(yè)建筑”、“永久性作物”、“海洋湖泊”。從混淆矩陣可以看出,RAGAN 方法在6 號(hào)草本植物場(chǎng)景中分類效果最好,在7 號(hào)工業(yè)建筑場(chǎng)景中分類效果最差。原因是:飛機(jī)和衛(wèi)星進(jìn)行拍攝時(shí),由于成像角度、云霧和光照輻射等因素的影響。居民樓、牧場(chǎng)和工業(yè)建筑等不同場(chǎng)景的相同對(duì)象例如房屋、道路和汽車等,出現(xiàn)深層語義重疊,造成分類效果不明顯。而RAGAN 方法對(duì)草本植被、森林和永久性作物分類精度較高,表明RAGAN 在類間相似性高的復(fù)雜場(chǎng)景中可以提取到判別力強(qiáng)的特征。在圖6 中,橫縱坐標(biāo)0~20 代表的場(chǎng)景分別是“稀疏住宅區(qū)”、“飛機(jī)”、“高速公路”、“路口”、“河”、“網(wǎng)球場(chǎng)”、“密集住宅區(qū)”、“棒球場(chǎng)”、“立交橋”、“港口”、“儲(chǔ)油罐”、“農(nóng)業(yè)”、“中型住宅”、“海灘”、“叢林”、“停車場(chǎng)”、“森林”、“移動(dòng)家庭公園”、“跑道”、“高爾夫球場(chǎng)”、“建筑物”。同理,RAGAN 方法在14 號(hào)叢林、16 號(hào)森林和11 號(hào)的農(nóng)業(yè)分類效果良好,體現(xiàn)該方法在復(fù)雜場(chǎng)景中分類的優(yōu)越性。類間相似性高的場(chǎng)景,如0 號(hào)稀疏住宅區(qū)、12 號(hào)中型住宅和20 號(hào)建筑物,分類效果較高,再次表明該方法能夠提取判別力強(qiáng)的特征,具有更好的適應(yīng)性和實(shí)際性。

圖5 EuroSAT 數(shù)據(jù)集中不同標(biāo)記數(shù)量的混淆矩陣Fig.5 Confusion matrix of different number of markers in EuroSAT dataset

圖6 UCM 數(shù)據(jù)集中不同標(biāo)記數(shù)量的混淆矩陣Fig.6 Confusion matrix of different number of markers in UCM dataset

3.5 RAGAN 收斂性分析

在EuroSAT 和UCM 數(shù)據(jù)集中,通過不同標(biāo)簽數(shù)量的訓(xùn)練精度曲線和驗(yàn)證精度曲線,討論該方法的收斂性,如圖7所示。圖7(a)是RAGAN 方法在EuroSAT 數(shù)據(jù)集里不同標(biāo)記樣本的訓(xùn)練精度曲線和驗(yàn)證精度曲線,可以看出RAGAN的訓(xùn)練精度曲線在epoch=8 之前明顯提高,在epoch=10 以后逐漸收斂,并趨近于1。當(dāng)有標(biāo)記樣本量M 為100 的時(shí)候,RAGAN的驗(yàn)證精度曲線在epoch=26 以后逐漸收斂趨于1。其原因是因?yàn)橛袠?biāo)簽樣本量過少,低于訓(xùn)練集的1%,RAGAN 在較短的周期內(nèi)沒有充分學(xué)習(xí)深層特征,導(dǎo)致訓(xùn)練周期增長。除此之外,當(dāng)epoch=18 之前驗(yàn)證曲線逐步提高,并于epoch=20 以后逐漸收斂。同理,7(b)是RAGAN 方法在UCM 數(shù)據(jù)集里不同標(biāo)記樣本的訓(xùn)練精度曲線和驗(yàn)證精度曲線,可以看出RAGAN的訓(xùn)練精度曲線在epoch=18 以前明顯提高,并于epoch=20 以后逐漸收斂。而RAGAN的驗(yàn)證精度曲線在epoch=26 以前逐漸提高,并于epoch=26 以后逐漸收斂。RAGAN 方法在UCM 數(shù)據(jù)集收斂較慢的原因是:UCM 數(shù)據(jù)集的總體樣本量和有標(biāo)記樣本量較低,RAGAN 無法充分訓(xùn)練,還學(xué)習(xí)了一部分冗余無用的特征。綜上,引入譜歸一化殘差塊后,生成對(duì)抗的訓(xùn)練精度曲線更加平滑穩(wěn)定;不同層次的特征融合與結(jié)合門控的注意力機(jī)制,可以在提取判別力強(qiáng)的特征同時(shí)讓網(wǎng)絡(luò)更快地收斂;特別是,當(dāng)訓(xùn)練集的樣本量充足且有標(biāo)簽的樣本量超過總訓(xùn)練集的5%時(shí),RAGAN 只需要10 個(gè)epoch 即可實(shí)現(xiàn)穩(wěn)定收斂。

圖7 EuroSAT 和UCM 數(shù)據(jù)集中不同標(biāo)記數(shù)量的精度曲線Fig.7 Accuracy curves of different numbers of markers in EuroSAT and UCM datasets

3.6 消融實(shí)驗(yàn)驗(yàn)證

為了進(jìn)一步驗(yàn)證譜歸一化殘差塊、結(jié)合門控的注意力模塊以及特征融合模塊的貢獻(xiàn),在EuroSAT 和UCM 數(shù)據(jù)集驗(yàn)證各個(gè)模塊的有效性。從表3 的消融實(shí)驗(yàn)結(jié)果中,可以觀察到譜歸一化殘差塊、注意力模塊、特征融合模塊對(duì)分類精度的整體提升均有貢獻(xiàn)。貢獻(xiàn)最大的是譜歸一化殘差塊,它對(duì)任何一個(gè)標(biāo)簽量的精度均有提升,原因是譜歸一化相比其他方法穩(wěn)定性更好,特別是應(yīng)用在生成對(duì)抗網(wǎng)絡(luò)里。其次是結(jié)合門控的注意力模塊,特別是在有標(biāo)簽樣本量大于10%時(shí),分類效果提升比較大,因?yàn)闃颖緮?shù)量充足能夠?qū)W習(xí)到更全面的特征。貢獻(xiàn)較小的是特征融合模塊,分析得出是淺層特征的語義信息不夠完整,沒有深層特征豐富,因此和深層特征融合后,沒有出現(xiàn)很好的分類效果。值得注意的是,在有標(biāo)簽樣本量極少的情況下,使用了注意力模塊和特征融合模塊,分類精度和只使用譜歸一化殘差塊相比有所降低。經(jīng)過分析認(rèn)為,由于樣本量極少,沒有充分訓(xùn)練和學(xué)習(xí),提取了一部分冗余或無用的特征,造成分類精度降低。

表3 各模塊對(duì)分類精度的影響Table 3 Influence of each module on classification accuracy

4 結(jié)論

針對(duì)有標(biāo)簽的高分辨率遙感圖像樣本較少、難以提取判別力強(qiáng)的特征的問題,提出了一種基于譜歸一化殘差塊和門控注意力機(jī)制的半監(jiān)督遙感圖像場(chǎng)景分類方法RAGAN。該方法首先采用譜歸一化殘差塊代替判別網(wǎng)絡(luò)中的卷積層,增強(qiáng)了生成對(duì)抗的穩(wěn)定性,同時(shí)每一個(gè)殘差塊包含兩次卷積,可以更好地提取遙感圖像特征。然后,融合不同層次的特征,更全面地反映場(chǎng)景信息。最后,引入結(jié)合門控的注意力模塊,更好地聚焦于判別力強(qiáng)的特征,從而實(shí)現(xiàn)分類精度的提升。為了驗(yàn)證該方法的優(yōu)越性,對(duì)EuroSAT 和UC Merced 兩個(gè)高分辨率遙感圖像數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),在EuroSAT 數(shù)據(jù)集中,當(dāng)有標(biāo)簽的數(shù)量M為2 000 和21 600 時(shí),RAGAN 有更好的分類效果,最高分類精度分別達(dá)到了93.3%和97.4%,相比半監(jiān)督分類方法SAGGAN 提高了2.6%和3.1%。同理,在UC Merced 數(shù)據(jù)集中,當(dāng)M為400 和1 680 時(shí),分類精度分別達(dá)到了85.7%和91.0%,相比SAGGAN 準(zhǔn)確率提高了2.4%和0.5%。

猜你喜歡
殘差卷積精度
基于不同快速星歷的GAMIT解算精度分析
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
多級(jí)計(jì)分測(cè)驗(yàn)中基于殘差統(tǒng)計(jì)量的被試擬合研究*
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
用于處理不努力作答的標(biāo)準(zhǔn)化殘差系列方法和混合多層模型法的比較*
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
近似邊界精度信息熵的屬性約簡(jiǎn)
卷積神經(jīng)網(wǎng)絡(luò)概述
電力系統(tǒng)短期負(fù)荷預(yù)測(cè)方法與預(yù)測(cè)精度
測(cè)量數(shù)據(jù)的殘差分析法