夏英,李駿垚,郭東恩,2
(1 重慶郵電大學(xué)空間大數(shù)據(jù)智能技術(shù)重慶市工程研究中心,重慶400065)
(2 南陽理工學(xué)院計(jì)算機(jī)與軟件學(xué)院,河南南陽473000)
高分辨率遙感衛(wèi)星技術(shù)迅速發(fā)展,產(chǎn)生了大量場(chǎng)景豐富的高分辨率遙感圖像,如何充分利用不斷增長的遙感圖像變得尤為重要。近年來,智能解釋遙感圖像已成為重要研究?jī)?nèi)容,場(chǎng)景分類是活躍的研究領(lǐng)域之一。遙感圖像場(chǎng)景分類主要利用語義信息,將圖像的場(chǎng)景作為一個(gè)整體進(jìn)行分類,被廣泛應(yīng)用在智能城市建設(shè)、災(zāi)情監(jiān)測(cè)與評(píng)估、目標(biāo)判讀和土地資源利用等領(lǐng)域[1]。目前,基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)遙感圖像進(jìn)行有監(jiān)督分類,需要大量有標(biāo)簽數(shù)據(jù),并且已經(jīng)達(dá)到較高的分類精度。然而,遙感圖像的標(biāo)注需要豐富的工程技能和專家知識(shí),在遙感應(yīng)用中,大部分情況下僅存在少量的有標(biāo)簽遙感圖像進(jìn)行有監(jiān)督訓(xùn)練,大量無標(biāo)簽圖像無法得到充分利用。因此,通過學(xué)習(xí)少量標(biāo)注數(shù)據(jù),從大量未標(biāo)注數(shù)據(jù)提取有效特征的半監(jiān)督學(xué)習(xí)方法,成為解決這類問題的潛在途徑。
生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[2]是近年來最具有潛力的半監(jiān)督方法之一,通過生成對(duì)抗的方式訓(xùn)練模型。GAN 在訓(xùn)練時(shí),通過生成器產(chǎn)生大量樣本擴(kuò)充數(shù)據(jù)集,解決有標(biāo)簽樣本少的問題。同時(shí),對(duì)抗訓(xùn)練提高了判別器的泛化能力和抗干擾能力,進(jìn)而增強(qiáng)特征提取能力。因此,針對(duì)遙感領(lǐng)域有標(biāo)簽樣本量不足、人工標(biāo)注困難以及難以提取判別力強(qiáng)的特征等問題,相關(guān)研究人員已經(jīng)將GAN 應(yīng)用在遙感圖像場(chǎng)景分類領(lǐng)域。
RADFORD A 等[3]在生成對(duì)抗網(wǎng)絡(luò)中加入卷積層和歸一化層,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),提高特征提取能力;ODENA A 等[4]將GAN 應(yīng)用在半監(jiān)督分類中,用少量有標(biāo)簽數(shù)據(jù)和大量無標(biāo)簽數(shù)據(jù)訓(xùn)練模型;TAO Y 等[5]將GAN 應(yīng)用于遙感圖像場(chǎng)景分類,用來解決有標(biāo)簽遙感圖像樣本少的問題。但由于遙感圖像背景復(fù)雜,場(chǎng)景類別繁多,上述基于GAN的算法存在訓(xùn)練不穩(wěn)定、假樣本質(zhì)量低以及不能收斂等問題,限制了分類性能的提高。
基于上述問題,ROY S 等[6]提出了Semantic Fusion Generation Adversarial Network(SFGAN)算法,引入語義融合方法,增強(qiáng)分類性能。MIYATO T 等[7]針對(duì)生成對(duì)抗訓(xùn)練時(shí)出現(xiàn)的模式坍塌等問題,提出了Spectral Normalization Generation Adversarial Network(SNGAN)算法,可以增強(qiáng)GAN 訓(xùn)練的穩(wěn)定性。MAO X 等[8]提出Least squares Generation Adversarial Network(LSGAN),緩解了生成圖像質(zhì)量差、多樣性不足的問題。LECOUAT B 等[9]提出Manifold Regularization Generation Adversarial Network(REG-GAN),通過流行正則化提高生成圖像的質(zhì)量。GUO D 等[10]提出基于門控單元的自注意力Self-Attention Gating Generation Adversarial Network(SAGGAN),增強(qiáng)對(duì)魯棒性強(qiáng)的特征的提取,提升模型收斂速度。
綜上,為了進(jìn)一步增強(qiáng)生成對(duì)抗訓(xùn)練的穩(wěn)定性,充分利用大量無標(biāo)簽數(shù)據(jù)提取判別力更強(qiáng)的特征,以SFGAN 算法為基礎(chǔ),提出一種殘差注意力生成對(duì)抗網(wǎng)絡(luò)(Residual Attention Generation Adversarial Network,RAGAN)。該方法具有以下特點(diǎn):1)在網(wǎng)絡(luò)結(jié)構(gòu)中,引入譜歸一化的殘差塊(Spectral Normalized Residual Block,SNRB),增強(qiáng)生成對(duì)抗訓(xùn)練的穩(wěn)定性,同時(shí)解決梯度消失問題;2)將淺層特征和深層特征融合,更全面地反映場(chǎng)景信息,進(jìn)一步增強(qiáng)特征表示能力;3)引入結(jié)合門控的注意力模塊(Gate Attention Module,GAM),讓判別器聚焦于魯棒性好、判別力強(qiáng)的特征,為其賦予更高的權(quán)重,同時(shí)過濾干擾信息。
GAN 是一種基于博弈論的深度學(xué)習(xí)模型。GAN 采用了一個(gè)生成網(wǎng)絡(luò)G來生成對(duì)抗樣本,同時(shí)采用一個(gè)判別網(wǎng)絡(luò)D來判別樣本是否真實(shí)。G的訓(xùn)練目標(biāo)就是生成接近真實(shí)的假樣本欺騙D,而D則是盡可能地區(qū)分真實(shí)樣本和G生成的假樣本,博弈到最后的解是達(dá)到納什平衡。此時(shí),判別器D的判別能力足夠強(qiáng),可以區(qū)分出真假樣本,并且生成器G生成的樣本足夠真實(shí),判別器D難以判斷其真假。整個(gè)生成對(duì)抗的訓(xùn)練過程可表示為
式中,G、D分別表示生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò),V(G,D)表示G與D的差異值,E表示數(shù)學(xué)期望,z表示隨機(jī)噪聲,pdata(x)表示真實(shí)樣本的分布,Pz(z)表示生成器生成的假樣本分布。
SALIMANS T 等[11]擴(kuò)展上述框架應(yīng)用于半監(jiān)督學(xué)習(xí),每個(gè)類別對(duì)應(yīng)一個(gè)神經(jīng)元,最終將K個(gè)完整神經(jīng)元添加到判別器D里。D的輸入由未標(biāo)注的樣本、已標(biāo)注的樣本以及生成的假樣本組成,輸出由K個(gè)真實(shí)類和代表假樣本的K+1 類組成。因此,D的損失函數(shù)分為有監(jiān)督的損失和無監(jiān)督的損失,即
其中有監(jiān)督的損失函數(shù)為
無監(jiān)督的損失函數(shù)為
式中,pD(y=K+1|x)代表G生成假樣本的概率,pD(y|x,y<K+1)代表真實(shí)樣本的概率。
SFGAN 用于半監(jiān)督遙感圖像場(chǎng)景分類模型,引入語義分支增強(qiáng)判別器的特征提取能力。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,判別器將原始的64×64×3 遙感圖像x和語義信息f(x)作為輸入,引入Inception V3 網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集提取的語義信息s(x)。通過融合兩種不同通道的語義信息豐富特征表示能力,從而提高分類的性能。
圖1 SFGAN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 SFGAN network structure
SFGAN 算法雖然采用深度卷積生成對(duì)抗網(wǎng)絡(luò)對(duì)遙感圖像進(jìn)行特征提取和場(chǎng)景分類,但網(wǎng)絡(luò)層數(shù)的增加會(huì)導(dǎo)致梯度消失和特征損失的問題,無法更好地提取特征。
為解決這些問題,實(shí)現(xiàn)良好的分類性能,提出一種用于半監(jiān)督的遙感圖像場(chǎng)景分類方法,即一種殘差注意力生成對(duì)抗網(wǎng)絡(luò)RAGAN。該方法主要對(duì)SFGAN的判別器D做了以下三個(gè)方面的改進(jìn):1)采用譜歸一化的殘差塊SNRB 代替標(biāo)準(zhǔn)的二維卷積,每個(gè)殘差塊包含兩層卷積,能夠更充分地提取特征,解決梯度消失問題;2)將多層譜歸一化殘差塊提取的深層特征和標(biāo)準(zhǔn)二維卷積提取的淺層特征進(jìn)行融合,更全面地反映場(chǎng)景信息,同時(shí)減少訓(xùn)練造成的特征損失;3)引入結(jié)合門控的注意力模塊GAM,讓判別器充分提取融合后的特征再進(jìn)行權(quán)重分配,減少不相關(guān)信息的干擾。
為了讓生成對(duì)抗網(wǎng)絡(luò)更適合于圖像的生成和處理,采取深度卷積生成對(duì)抗網(wǎng)絡(luò)來構(gòu)建模型[3],它由全連接層(Fully Connected,F(xiàn)C)、反卷積層(Deconvolution,Deconv)、批歸一化層(Batch Normalization,BN)以及激活函數(shù)ReLU 與Tanh 組成,RAGAN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 RAGAN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 RAGAN network structure
受深度殘差網(wǎng)絡(luò)[12]的啟發(fā),深度神經(jīng)網(wǎng)絡(luò)引入跳躍結(jié)構(gòu)形成殘差模塊,該模塊由網(wǎng)絡(luò)層、跳躍結(jié)構(gòu)和激活函數(shù)Relu 組成,如圖3所示。x表示輸入的數(shù)據(jù),Relu 表示線性激活函數(shù),F(xiàn)(x)表示網(wǎng)絡(luò)殘差,H(x)表示學(xué)習(xí)到的特征,可表示為H(x)=F(x)+x。如果網(wǎng)絡(luò)訓(xùn)練達(dá)到飽和的分類精度或下層的誤差較大時(shí),只需F(x)=0,使x的值近似等于H(x),保證往后的網(wǎng)絡(luò)層數(shù)不會(huì)造成精度下降,有效避免了退化現(xiàn)象[13]。
圖3 殘差神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)單元Fig.3 Basic structure of residual neural network
生成對(duì)抗網(wǎng)絡(luò)的性能很大程度上依賴于判別器D的穩(wěn)定性。判別器中C-Lipschitz 的條件是
式中,x和x′表示輸入,f(x)和f(x′)表示輸出,Lipschitz 常數(shù)C是f的最小常數(shù),僅由譜范數(shù)決定。GAN的穩(wěn)定性定理指出,當(dāng)判別網(wǎng)絡(luò)的輸入輸出滿足1-Lipschitz 連續(xù)時(shí),GAN的訓(xùn)練就會(huì)穩(wěn)定。因此,為增強(qiáng)訓(xùn)練的穩(wěn)定性,在殘差塊的每一個(gè)卷積層引入譜歸一化(Spectral Normalization,SN)[7]約束權(quán)重矩陣的譜范數(shù)。保證每一批次數(shù)據(jù)的輸入和輸出對(duì)權(quán)重的計(jì)算滿足1-Lipschitz 連續(xù),使得生成對(duì)抗訓(xùn)練始終都保持平滑,提升訓(xùn)練的穩(wěn)定性[14]。
由Lipschitz 的復(fù)合函數(shù)可知,單個(gè)函數(shù)滿足1-Lipschitz 連續(xù),那么它們所組成的復(fù)合函數(shù)同樣滿足1-Lipschitz 連續(xù)。RAGAN的判別器由多層譜歸一化殘差塊SNRB 組成,每個(gè)殘差塊包括兩個(gè)二維卷積和一個(gè)Relu 激活函數(shù),相當(dāng)于一個(gè)復(fù)合函數(shù)。激活函數(shù)Relu 滿足1-Lipschitz 連續(xù),因此只需要將譜歸一化應(yīng)用在每一個(gè)卷積層,保證卷積層滿足1-Lipschitz 連續(xù),那么整個(gè)判別網(wǎng)絡(luò)就滿足1-Lipschitz 連續(xù)。卷積層的譜范數(shù)σ(W)計(jì)算方式為
式中,h表示輸入,W表示參數(shù)矩陣,σ(W)表示矩陣W的譜范數(shù),sup 表示最小上界,卷積層的Lipschitz 常數(shù)C等于該卷積層參數(shù)矩陣W的譜范數(shù)σ(W)。譜歸一化WSN(W)計(jì)算方式為
通過譜歸一化使參數(shù)矩陣W的譜范數(shù)σ(W)標(biāo)準(zhǔn)化,使其滿足1-Lipschitz 連續(xù),即σ(WSN(W))=1。此時(shí),卷積層滿足1-Lipschitz 連續(xù),由Lipschitz 的復(fù)合定理可知,整個(gè)判別網(wǎng)絡(luò)也滿足1-Lipschitz 連續(xù)。
然而,譜范數(shù)的求解過程涉及矩陣奇異值分解,所需計(jì)算量較大??刹捎脙绲ń魄蠼猓岣哂?jì)算效率,實(shí)現(xiàn)譜歸一化。隨機(jī)初始化向量m和n,分別作為參數(shù)矩陣W的左奇異值向量和右奇異值向量,即
經(jīng)過式(8)多次迭代后,可估算出矩陣W的譜范數(shù),即
綜上,為了緩解網(wǎng)絡(luò)層數(shù)增加帶來的梯度消失和訓(xùn)練不穩(wěn)定問題,采用譜歸一化殘差塊SNRB 代替原本判別器D中的二維卷積,不僅保留全部的原始信息還減少網(wǎng)絡(luò)參數(shù),解決網(wǎng)絡(luò)退化的問題,增強(qiáng)訓(xùn)練過程的穩(wěn)定性。
圖像中的特征包括淺層和深層的語義信息,底層卷積提取的淺層特征(Shallow Feature)包含更多位置和局部信息,但語義信息較弱。而隨著網(wǎng)絡(luò)層數(shù)的加深,提取到的深層特征(Deep Feature)包含較強(qiáng)的語義信息和全局信息,但對(duì)細(xì)節(jié)的感知能力較差。為了更全面地反映遙感圖像場(chǎng)景信息,有必要對(duì)網(wǎng)絡(luò)模型提取到的不同特征進(jìn)行融合(Fusion)[15]。因此,在進(jìn)入深層網(wǎng)絡(luò)訓(xùn)練前,先進(jìn)行一次普通的二維卷積提取淺層特征,然后與多層譜歸一化殘差塊提取的深層特征進(jìn)行融合,減少特征的損失,讓模型學(xué)習(xí)到不同特征之間的互補(bǔ)關(guān)系,從而提升模型的表征能力。
由于遙感成像技術(shù)的進(jìn)步,遙感圖像的分辨率隨之提高,類別也逐漸增多,導(dǎo)致圖像背景復(fù)雜,神經(jīng)網(wǎng)絡(luò)模型很難聚焦到魯棒性良好的特征。注意力機(jī)制(Attention)在很多計(jì)算機(jī)視覺任務(wù)中被證明可以有效提升網(wǎng)絡(luò)性能,該方法模仿了人類視覺所特有的大腦信號(hào)處理過程,通過快速掃描全局圖像,明確需要重點(diǎn)關(guān)注的區(qū)域,然后對(duì)這一區(qū)域投入更多的資源來獲得充分的細(xì)節(jié)信息,從而過濾掉冗余無用的信息[16]。
傳統(tǒng)的卷積是將通道信息和空間信息混合在一起提取信息特征,受WOO S[17]、LIU W[18]和GUO D等[19]的啟發(fā),卷積模塊的注意力機(jī)制模塊(Convolutional Block Attention Module,CBAM)是由通道注意力(Channel Attention)模塊和空間注意力(Spatial Attention)模塊兩個(gè)部分組成,重點(diǎn)沿著通道和空間這兩個(gè)維度分別進(jìn)行特征聚焦,通道注意力關(guān)注什么樣的特征以及空間注意力模塊關(guān)注哪里的特征是有意義的。由于它是一個(gè)輕量級(jí)的通用模塊,可以無縫地集成到任何神經(jīng)網(wǎng)絡(luò)模塊中,因此將其引入到生成對(duì)抗網(wǎng)絡(luò)的判別器D中,引導(dǎo)模型更有針對(duì)性地關(guān)注重要特征并抑制不必要的特征。同時(shí),為了獲得更強(qiáng)的特征表達(dá)能力,捕獲特征之間的依賴關(guān)系,引入門控機(jī)制(Gate Block),構(gòu)造結(jié)合門控的注意力模塊GAM,特征融合和GAM 的結(jié)構(gòu)如圖4所示。
圖4 特征融合和GAM 結(jié)構(gòu)Fig.4 Feature fusion and GAM structure
首先,對(duì)有標(biāo)簽圖像(Labelled)、無標(biāo)簽圖像(Unlabeled)以及生成的假樣本(Generated)進(jìn)行特征提取,并將淺層特征和深層特征融合;然后,通道注意力模塊對(duì)融合的特征進(jìn)行平均尺化和最大尺化產(chǎn)生兩個(gè)空間元素,通過元素求和得到MC(F),最后,與輸入的特征F進(jìn)行點(diǎn)乘得到F′;同理,空間注意力模塊以F′作為輸入,求和得到MS(F′),與F′點(diǎn)乘得到輸出F′′,可用公式表示為
式中,F(xiàn)表示輸入的特征,MC表示通道注意力聚焦,F(xiàn)′表示通道注意力聚焦后的輸出,MS表示空間注意力聚焦,F(xiàn)′表示空間注意力聚焦后的輸出,?表示點(diǎn)乘。
為了增強(qiáng)注意力模塊聚焦后特征之間的相關(guān)性,提高判別器D的表征能力,引入門控機(jī)制,特征圖F′被輸入到門控單元,并轉(zhuǎn)換為內(nèi)部關(guān)聯(lián)性更強(qiáng)的新特征。最終,分類器通過關(guān)聯(lián)性更強(qiáng)的特征分類出不同的場(chǎng)景類別(Scene Category),比如海洋湖泊(SeaLake)、高速公路(Highway)、牧場(chǎng)(Pasture)、河流(River)、森林(Forest)等。門控單元推導(dǎo)過程可表示為
式中,σ(x)表示sigmoid 激活函數(shù),fgate(x)表示門控機(jī)制,dense(x)表示完全連接操作。
EuroSAT 數(shù)據(jù)集[20]由Sentinel-2 衛(wèi)星獲取的27 000 幅帶標(biāo)記的衛(wèi)星圖像組成,覆蓋了13 個(gè)光譜帶,將其分為10 個(gè)不同的土地利用類別,如工業(yè)、住宅等,圖像的分辨率為64×64。UC Merced Land-Use Dataset(UCM)[21]是一個(gè)用于研究的21 級(jí)土地利用圖像遙感數(shù)據(jù)集,其被用于美國各地的城市地區(qū),圖像的分辨率大小為256×256,包含21 個(gè)類別的場(chǎng)景圖像共計(jì)2 100 張,其中每個(gè)類別有100 張。數(shù)據(jù)集信息見表1。
表1 數(shù)據(jù)集信息Table 1 Dataset information
針對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化算法的過擬合的問題,采用簡(jiǎn)單交叉驗(yàn)證的方法,從EuroSAT 和UC Merced 數(shù)據(jù)集中隨機(jī)選取80%作為訓(xùn)練集,剩下的20%作為測(cè)試集。然后,用訓(xùn)練集來訓(xùn)練模型,在測(cè)試集驗(yàn)證模型及參數(shù)。接著,再把樣本打亂,重新選擇訓(xùn)練集和測(cè)試集,繼續(xù)訓(xùn)練數(shù)據(jù)和檢驗(yàn)?zāi)P?。通過反復(fù)交叉驗(yàn)證,用損失函數(shù)來度量得到模型的好壞,最終確立一個(gè)較好的模型。為了驗(yàn)證所提出的RAGAN 方法的優(yōu)越性,在EuroSAT 數(shù)據(jù)集中,通過隨機(jī)種子隨機(jī)為圖像進(jìn)行標(biāo)注,標(biāo)記的樣本數(shù)量M(Numbers of labelMon EuroSAT)分別設(shè)置為100、1 000、2 000、21 600(全部訓(xùn)練集);同理,在UC Merced 數(shù)據(jù)集中,隨機(jī)標(biāo)注的樣本數(shù)量M(Numbers of labelMon UC Merced)設(shè)置為100、200、400、1 680(全部訓(xùn)練集)。實(shí)驗(yàn)在64 位Ubuntu18.04 操作系統(tǒng)下進(jìn)行,框架采用TensorFlow-GPU 1.8.0,GPU 為11GB 的NVIDIA GeForce GTX 2080Ti。參數(shù)設(shè)置參考了SFGAN,即β1= 0.5,β2= 0.9,批處理大小bitch-size 為128,訓(xùn)練周期epoch 設(shè)置為30,初始學(xué)習(xí)率lr-rate 設(shè)置為0.000 3,每次衰減設(shè)為0.9。
在圖像分類任務(wù)中,目前被學(xué)者廣泛使用的評(píng)價(jià)指標(biāo)是總體分類精度(Overall Accuracy,OA)和混淆矩陣(Confusion Matrix,CM)。
1)總體分類精度,即指被正確分類的類別像元數(shù)與總的類別個(gè)數(shù)的比值,計(jì)算公式為
2)混淆矩陣,也稱誤差矩陣,用n行n列的矩陣形式來表示,主要通過映射每個(gè)實(shí)測(cè)像元的位置和類別與分類圖像中相應(yīng)的位置和類別,來顯示分類結(jié)果的準(zhǔn)確性。
將RAGAN 方法與其他幾種具有代表性的圖像分類方法在EuroSAT 與UCM 數(shù)據(jù)集進(jìn)行性能比較,并通過總體分類精度OA 和混淆矩陣CM 來分析實(shí)驗(yàn)結(jié)果。CNN[6]作為傳統(tǒng)的深度學(xué)習(xí)模型,是一種有監(jiān)督的訓(xùn)練方法。Inception V3[6]采用了遷移學(xué)習(xí),在Image Net 自然圖像數(shù)據(jù)集預(yù)訓(xùn)練了一個(gè)良好的模型。生成對(duì)抗網(wǎng)絡(luò)作為最具潛力的半監(jiān)督算法,在進(jìn)行半監(jiān)督遙感圖像場(chǎng)景分類時(shí),可以生成一定量的假樣本,解決了樣本數(shù)量不足的問題。FMGAN[2]、REG-GAN[9]、SFGAN[6]和SAGGAN[10]都基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的基礎(chǔ)上改進(jìn),其中SFGAN 和SAGGAN 都沿用了Inception v3 分支,增強(qiáng)了特征提取能力。各類方法的總體分類精度對(duì)比結(jié)果如表2所示。
表2 在EuroSAT 和UCM 數(shù)據(jù)集上的分類結(jié)果Table 2 Classification results on EuroSAT and UCM datasets
從表2 可以看出:
1)Inception V3 在Image Net 自然圖像數(shù)據(jù)集預(yù)訓(xùn)練了一個(gè)良好的模型,并且可以通過微調(diào),遷移到遙感圖像場(chǎng)景分類的應(yīng)用上提高泛化性能。與沒有引用Inception v3 的FMGAN 和REG-GAN 相比,RAGAN、SFGAN 和SAGGAN 都沿用了Inception v3 分支,以增強(qiáng)分類性能,當(dāng)有標(biāo)簽的樣本數(shù)量足夠時(shí),它們的總體分類精度均有小幅度提升。
2)由分類總體精度表可以看出,有標(biāo)簽的樣本數(shù)量越多,分類精度越高。特別是在EuroSAT 數(shù)據(jù)集中,可以看到M=1 000 時(shí)(占總訓(xùn)練集的4.6%),RAGAN的總體分類精度可以達(dá)到88.2%。而當(dāng)M=2 000(占總訓(xùn)練集的9.3%)和21 600(全部訓(xùn)練集)時(shí),RAGAN的總體分類精度分別達(dá)到了93.3%和97.4%,相比半監(jiān)督遙感圖像分類算法SAGGAN 提升了2.6%和3.1%。
3)當(dāng)M=100 時(shí)(占總訓(xùn)練集的0.46%),RAGAN 相比SFGAN 算法的總體分類精度提升了2.9%,但是和SAGGAN 算法相比,精度下降了5.3%。經(jīng)過分析,在有標(biāo)簽的樣本數(shù)量低于1%時(shí),RAGAN 算法的優(yōu)越性體現(xiàn)不出來,原因可能是樣本數(shù)量太少,未能學(xué)習(xí)到判別性強(qiáng)的特征造成的。而當(dāng)有標(biāo)簽的樣本數(shù)量高于5%時(shí),RAGAN 方法的總體分類性能更有優(yōu)越性。
4)從運(yùn)行時(shí)間對(duì)比可知,RAGAN的運(yùn)行時(shí)間相比其他基于GAN的半監(jiān)督算法略長,其原因是:首先,RAGAN 方法需要對(duì)每一個(gè)殘差塊的卷積層進(jìn)行譜歸一化,增加了運(yùn)行成本;其次,卷積模塊的注意力機(jī)制盡管是輕量級(jí)模型,但是經(jīng)過不同層次的特征融合和門控單元的引入,RAGAN 將注意力聚焦后的特征轉(zhuǎn)化為內(nèi)部關(guān)聯(lián)性更強(qiáng)的新特征。因此,增加了計(jì)算資源的投入和運(yùn)算時(shí)間。
實(shí)驗(yàn)同時(shí)生成了混淆矩陣圖CM,進(jìn)一步詳細(xì)分析方法的效果,如圖5 和圖6所示。在圖5 中,橫縱坐標(biāo)0~9 代表的場(chǎng)景分別是“居民樓”、“河”、“高速公路”、“牧場(chǎng)”、“森林”、“莊稼作物”、“草本植被”、“工業(yè)建筑”、“永久性作物”、“海洋湖泊”。從混淆矩陣可以看出,RAGAN 方法在6 號(hào)草本植物場(chǎng)景中分類效果最好,在7 號(hào)工業(yè)建筑場(chǎng)景中分類效果最差。原因是:飛機(jī)和衛(wèi)星進(jìn)行拍攝時(shí),由于成像角度、云霧和光照輻射等因素的影響。居民樓、牧場(chǎng)和工業(yè)建筑等不同場(chǎng)景的相同對(duì)象例如房屋、道路和汽車等,出現(xiàn)深層語義重疊,造成分類效果不明顯。而RAGAN 方法對(duì)草本植被、森林和永久性作物分類精度較高,表明RAGAN 在類間相似性高的復(fù)雜場(chǎng)景中可以提取到判別力強(qiáng)的特征。在圖6 中,橫縱坐標(biāo)0~20 代表的場(chǎng)景分別是“稀疏住宅區(qū)”、“飛機(jī)”、“高速公路”、“路口”、“河”、“網(wǎng)球場(chǎng)”、“密集住宅區(qū)”、“棒球場(chǎng)”、“立交橋”、“港口”、“儲(chǔ)油罐”、“農(nóng)業(yè)”、“中型住宅”、“海灘”、“叢林”、“停車場(chǎng)”、“森林”、“移動(dòng)家庭公園”、“跑道”、“高爾夫球場(chǎng)”、“建筑物”。同理,RAGAN 方法在14 號(hào)叢林、16 號(hào)森林和11 號(hào)的農(nóng)業(yè)分類效果良好,體現(xiàn)該方法在復(fù)雜場(chǎng)景中分類的優(yōu)越性。類間相似性高的場(chǎng)景,如0 號(hào)稀疏住宅區(qū)、12 號(hào)中型住宅和20 號(hào)建筑物,分類效果較高,再次表明該方法能夠提取判別力強(qiáng)的特征,具有更好的適應(yīng)性和實(shí)際性。
圖5 EuroSAT 數(shù)據(jù)集中不同標(biāo)記數(shù)量的混淆矩陣Fig.5 Confusion matrix of different number of markers in EuroSAT dataset
圖6 UCM 數(shù)據(jù)集中不同標(biāo)記數(shù)量的混淆矩陣Fig.6 Confusion matrix of different number of markers in UCM dataset
在EuroSAT 和UCM 數(shù)據(jù)集中,通過不同標(biāo)簽數(shù)量的訓(xùn)練精度曲線和驗(yàn)證精度曲線,討論該方法的收斂性,如圖7所示。圖7(a)是RAGAN 方法在EuroSAT 數(shù)據(jù)集里不同標(biāo)記樣本的訓(xùn)練精度曲線和驗(yàn)證精度曲線,可以看出RAGAN的訓(xùn)練精度曲線在epoch=8 之前明顯提高,在epoch=10 以后逐漸收斂,并趨近于1。當(dāng)有標(biāo)記樣本量M 為100 的時(shí)候,RAGAN的驗(yàn)證精度曲線在epoch=26 以后逐漸收斂趨于1。其原因是因?yàn)橛袠?biāo)簽樣本量過少,低于訓(xùn)練集的1%,RAGAN 在較短的周期內(nèi)沒有充分學(xué)習(xí)深層特征,導(dǎo)致訓(xùn)練周期增長。除此之外,當(dāng)epoch=18 之前驗(yàn)證曲線逐步提高,并于epoch=20 以后逐漸收斂。同理,7(b)是RAGAN 方法在UCM 數(shù)據(jù)集里不同標(biāo)記樣本的訓(xùn)練精度曲線和驗(yàn)證精度曲線,可以看出RAGAN的訓(xùn)練精度曲線在epoch=18 以前明顯提高,并于epoch=20 以后逐漸收斂。而RAGAN的驗(yàn)證精度曲線在epoch=26 以前逐漸提高,并于epoch=26 以后逐漸收斂。RAGAN 方法在UCM 數(shù)據(jù)集收斂較慢的原因是:UCM 數(shù)據(jù)集的總體樣本量和有標(biāo)記樣本量較低,RAGAN 無法充分訓(xùn)練,還學(xué)習(xí)了一部分冗余無用的特征。綜上,引入譜歸一化殘差塊后,生成對(duì)抗的訓(xùn)練精度曲線更加平滑穩(wěn)定;不同層次的特征融合與結(jié)合門控的注意力機(jī)制,可以在提取判別力強(qiáng)的特征同時(shí)讓網(wǎng)絡(luò)更快地收斂;特別是,當(dāng)訓(xùn)練集的樣本量充足且有標(biāo)簽的樣本量超過總訓(xùn)練集的5%時(shí),RAGAN 只需要10 個(gè)epoch 即可實(shí)現(xiàn)穩(wěn)定收斂。
圖7 EuroSAT 和UCM 數(shù)據(jù)集中不同標(biāo)記數(shù)量的精度曲線Fig.7 Accuracy curves of different numbers of markers in EuroSAT and UCM datasets
為了進(jìn)一步驗(yàn)證譜歸一化殘差塊、結(jié)合門控的注意力模塊以及特征融合模塊的貢獻(xiàn),在EuroSAT 和UCM 數(shù)據(jù)集驗(yàn)證各個(gè)模塊的有效性。從表3 的消融實(shí)驗(yàn)結(jié)果中,可以觀察到譜歸一化殘差塊、注意力模塊、特征融合模塊對(duì)分類精度的整體提升均有貢獻(xiàn)。貢獻(xiàn)最大的是譜歸一化殘差塊,它對(duì)任何一個(gè)標(biāo)簽量的精度均有提升,原因是譜歸一化相比其他方法穩(wěn)定性更好,特別是應(yīng)用在生成對(duì)抗網(wǎng)絡(luò)里。其次是結(jié)合門控的注意力模塊,特別是在有標(biāo)簽樣本量大于10%時(shí),分類效果提升比較大,因?yàn)闃颖緮?shù)量充足能夠?qū)W習(xí)到更全面的特征。貢獻(xiàn)較小的是特征融合模塊,分析得出是淺層特征的語義信息不夠完整,沒有深層特征豐富,因此和深層特征融合后,沒有出現(xiàn)很好的分類效果。值得注意的是,在有標(biāo)簽樣本量極少的情況下,使用了注意力模塊和特征融合模塊,分類精度和只使用譜歸一化殘差塊相比有所降低。經(jīng)過分析認(rèn)為,由于樣本量極少,沒有充分訓(xùn)練和學(xué)習(xí),提取了一部分冗余或無用的特征,造成分類精度降低。
表3 各模塊對(duì)分類精度的影響Table 3 Influence of each module on classification accuracy
針對(duì)有標(biāo)簽的高分辨率遙感圖像樣本較少、難以提取判別力強(qiáng)的特征的問題,提出了一種基于譜歸一化殘差塊和門控注意力機(jī)制的半監(jiān)督遙感圖像場(chǎng)景分類方法RAGAN。該方法首先采用譜歸一化殘差塊代替判別網(wǎng)絡(luò)中的卷積層,增強(qiáng)了生成對(duì)抗的穩(wěn)定性,同時(shí)每一個(gè)殘差塊包含兩次卷積,可以更好地提取遙感圖像特征。然后,融合不同層次的特征,更全面地反映場(chǎng)景信息。最后,引入結(jié)合門控的注意力模塊,更好地聚焦于判別力強(qiáng)的特征,從而實(shí)現(xiàn)分類精度的提升。為了驗(yàn)證該方法的優(yōu)越性,對(duì)EuroSAT 和UC Merced 兩個(gè)高分辨率遙感圖像數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),在EuroSAT 數(shù)據(jù)集中,當(dāng)有標(biāo)簽的數(shù)量M為2 000 和21 600 時(shí),RAGAN 有更好的分類效果,最高分類精度分別達(dá)到了93.3%和97.4%,相比半監(jiān)督分類方法SAGGAN 提高了2.6%和3.1%。同理,在UC Merced 數(shù)據(jù)集中,當(dāng)M為400 和1 680 時(shí),分類精度分別達(dá)到了85.7%和91.0%,相比SAGGAN 準(zhǔn)確率提高了2.4%和0.5%。