李大湘 南藝璇劉 穎
(西安郵電大學(xué)通信與信息工程學(xué)院 西安 710121)
隨著衛(wèi)星與遙感技術(shù)的飛速發(fā)展,獲取高分辨率遙感圖像(Remote Sensing Image,RSI)變得越來(lái)越容易,且在農(nóng)業(yè)災(zāi)害檢測(cè)[1]與交通出行[2]等方面得到廣泛應(yīng)用。由于RSI數(shù)量的增多,如何利用計(jì)算機(jī)對(duì)RSI進(jìn)行自動(dòng)分類,以提高人們基于RSI對(duì)地球表面的觀測(cè)效率具有重要意義。
根據(jù)拍攝場(chǎng)景所包含的主要目標(biāo)存在的差異性,已有RSI分類方法可分為兩類:(1)基于手工特征的方法。例如:姜亞楠等人[3]提出一種基于多尺度LBP特征融合的RSI分類方法,一定程度上緩解了類似方法因忽略RSI本征屬性及多尺度局部結(jié)構(gòu)而導(dǎo)致獲取的信息量少的問(wèn)題;Chaib等人[4]則在手工特征的基礎(chǔ)上,對(duì)其再實(shí)施稀疏自動(dòng)編碼,這樣做可以有效去除冗余信息,且增加了特征的旋轉(zhuǎn)不變、尺度不變及稀疏性,從而提高了RSI場(chǎng)景分類精度但由于RSI均由飛行器從高空多角度鳥(niǎo)瞰隨機(jī)拍攝,目標(biāo)對(duì)象尺度變化大且無(wú)中心分布,這就導(dǎo)致了RSI存在“類內(nèi)差異大且類間差異小”的問(wèn)題,則基于手工特征的方法在分類精度方面受限。(2)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法。例如:李彥甫等人[5]將自注意力機(jī)制融入殘差卷積網(wǎng)絡(luò),用CNN提取深度語(yǔ)義特征,然后在最后3層嵌入多頭自注意力模塊來(lái)提取RSI復(fù)雜的全局信息,以此來(lái)提高RSI分類性能;Xu等人[6]提出了一個(gè)由圖卷積神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的深度特征聚合框架,用于RSI場(chǎng)景分類;Chen等人[7]提出了一種基于多分支局部注意網(wǎng)絡(luò)的RSI場(chǎng)景分類方法,有助于在復(fù)雜背景下突出主要目標(biāo),提高特征表示能力。實(shí)驗(yàn)結(jié)果表明,基于大數(shù)據(jù)驅(qū)動(dòng)的CNN方法一定程度上提高了RSI場(chǎng)景分類精度,但也存在對(duì)RSI局部目標(biāo)感知不足、模型參數(shù)量過(guò)大的問(wèn)題。
針對(duì)上述問(wèn)題,如圖1所示,本文設(shè)計(jì)了一個(gè)基于雙知識(shí)蒸餾(Double Know ledge Distillation,DKD)的RSI場(chǎng)景分類新模型。首先,將改進(jìn)的通道注意力(Channel A ttention,CA)和空間注意力(Spatial A ttention,SA)相結(jié)合,構(gòu)造成一個(gè)新的雙注意力(Dual A ttention,DA)模塊,且設(shè)計(jì)了一個(gè)DA蒸餾函數(shù),以將教師網(wǎng)絡(luò)中的“注意力知識(shí)”遷移到學(xué)生網(wǎng)絡(luò)之中,增強(qiáng)其對(duì)RSI局部目標(biāo)的感知能力;然后,在學(xué)生訓(xùn)練過(guò)程中,將每批圖像的特征建模成一個(gè)空間結(jié)構(gòu)關(guān)系圖(Spatial Structure Graph,SSG),且設(shè)計(jì)了一個(gè)基于距離、邊與角度等信息的蒸餾函數(shù),構(gòu)造成一個(gè)空間結(jié)構(gòu)(Spatial Structure,SS)蒸餾模塊,以將教師網(wǎng)絡(luò)中“SS知識(shí)”遷移到學(xué)生網(wǎng)絡(luò)之中,增強(qiáng)其對(duì)RSI的高層語(yǔ)義提取與表達(dá)能力。
圖1 設(shè)計(jì)的DKD模型框架結(jié)構(gòu)示意圖
由圖1可見(jiàn),設(shè)計(jì)的DKD模型主要由3大部分組成,即復(fù)雜的教師網(wǎng)絡(luò)、輕型的學(xué)生網(wǎng)絡(luò)與蒸餾函數(shù),旨在通過(guò)設(shè)計(jì)的知識(shí)蒸餾函數(shù)將教師網(wǎng)絡(luò)中的DA與SS知識(shí)遷移到學(xué)生網(wǎng)絡(luò),使其在參數(shù)量很小的條件下,性能接近教師網(wǎng)絡(luò)[8]。
2.1.1教師網(wǎng)絡(luò)設(shè)計(jì)
本節(jié)設(shè)計(jì)了一個(gè)新的DA模塊,且將其加入到ResNet101[9]的Conv1殘差模塊之后作為教師網(wǎng)絡(luò)。如圖2所示,設(shè)計(jì)的DA模塊主要由CA及SA兩個(gè)分支組成,不防設(shè)F∈RH×W×C表示任意輸入的特征圖譜,其中W,H和C分別表示特征圖譜的寬度、高度與通道數(shù),DA過(guò)程可總結(jié)為
圖2 雙注意力(DA)模塊架構(gòu)示意圖
圖3 教師網(wǎng)絡(luò)訓(xùn)練3元孿生框架示意圖
其中,⊙表示廣播元素乘法,F(xiàn)ˉ∈RH×W×C表示經(jīng)過(guò)DA模塊加權(quán)之后得到的特征圖,MS ∈RH×W×1表示經(jīng)SA分支獲得的2維空間注意映射,M C ∈R1×1×C表示經(jīng)CA分支獲得的1維通道注意映射。
(1)SA分支。為了讓教師網(wǎng)絡(luò)在特征提取時(shí)更能聚焦于RSI的局部區(qū)域,且對(duì)不同形態(tài)的目標(biāo)進(jìn)行自適應(yīng)性,在CBAM方法[10]啟發(fā)下,引入1×1卷積與可變形卷積理論[11],構(gòu)造一個(gè)新的SA分支(如圖2上半部分所示)。設(shè)F∈RW×H×C表示輸入的特征圖譜,其中W,H和C分別表示其寬度、高度與通道數(shù)。首先,將F送入1×1卷積層進(jìn)行處理,其結(jié)果再送入3×3可變形卷積層,最后經(jīng)過(guò)Sigm oid操作,得到空間注意力映射M s∈RW×H。具體計(jì)算過(guò)程為
2.2.1學(xué)生網(wǎng)絡(luò)設(shè)計(jì)
在知識(shí)蒸餾模型中,當(dāng)一個(gè)復(fù)雜且高精度的教師網(wǎng)絡(luò)訓(xùn)練成功之后,就要設(shè)計(jì)一個(gè)與教師網(wǎng)絡(luò)結(jié)構(gòu)相仿的輕型學(xué)生網(wǎng)絡(luò),以利于從教師網(wǎng)絡(luò)接受底層特征提取與高層語(yǔ)義表示能力。本節(jié)設(shè)計(jì)的輕型學(xué)生網(wǎng)絡(luò)包含5個(gè)卷積模塊、1個(gè)平均池化及1個(gè)SoftM ax分類層。為了使學(xué)生網(wǎng)絡(luò)更能關(guān)注到RSI的局部目標(biāo),且能從教師網(wǎng)絡(luò)中接受相應(yīng)的DA知識(shí),在其第1個(gè)卷積后也添加了一個(gè)與教師網(wǎng)絡(luò)相同的DA模塊,詳細(xì)信息如表1所示。
表1 學(xué)生網(wǎng)絡(luò)具體參數(shù)設(shè)計(jì)
2.2.2雙知識(shí)蒸餾設(shè)計(jì)
(1)DA知識(shí)蒸餾
為了將教師網(wǎng)絡(luò)中的DA知識(shí)遷移到學(xué)生網(wǎng)絡(luò),從而提高其前端卷積層對(duì)RSI的底層特征捕獲能力。設(shè)B={(IMGi,y i)|i=1,2,···,BS}表示任意一批訓(xùn)練圖像,IMGi與yi分別表示第i幅圖像及其標(biāo)簽,BS表示批大小。當(dāng)B中的圖像送入教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)之后,基于歸一化均方差函數(shù),定義的DA蒸餾損失為
(2)SS知識(shí)蒸餾
設(shè)B={(IMGi,y i)|i=1,2,···,BS}表示任意一批訓(xùn)練圖像,當(dāng)這些圖像經(jīng)教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)處理之后,最后一個(gè)FC層的輸出被視作高層語(yǔ)義特征,分別表示為T(mén) b={t i|i=1,2,...,BS}與 Sb={s i|i=1,2,...,BS},其中ti與si表示第i幅圖像I MGi分別從教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)得到的高層語(yǔ)義特征。為了將教師網(wǎng)絡(luò)中的高層語(yǔ)義表示能力遷移到學(xué)生網(wǎng)絡(luò)之中,如圖4所示,是本節(jié)設(shè)計(jì)的SS知識(shí)蒸餾示意圖,旨在利用教師網(wǎng)絡(luò)中實(shí)例間的相互關(guān)系來(lái)傳遞結(jié)構(gòu)知識(shí)[14]。傳統(tǒng)的知識(shí)蒸餾只蒸餾單個(gè)圖像語(yǔ)義特征所帶來(lái)的知識(shí),而本節(jié)設(shè)計(jì)的SS蒸餾方法,是在傳統(tǒng)方法的基礎(chǔ)上增加了SS關(guān)系中的二元距離和3元角度的知識(shí)傳遞,其設(shè)計(jì)動(dòng)機(jī)是:構(gòu)成知識(shí)的東西,通過(guò)所學(xué)的表征關(guān)系比通過(guò)所學(xué)表征個(gè)體更好地表現(xiàn)出來(lái)。
圖4 SS知識(shí)蒸餾
首先,以教師網(wǎng)絡(luò)獲得的語(yǔ)義特征Tb={t i|i=1,2,...,BS}為例(ti表示教師網(wǎng)絡(luò)的特征圖譜),構(gòu)造
為了將教師網(wǎng)絡(luò)中的DA知識(shí)與SS知識(shí)遷移到學(xué)生網(wǎng)絡(luò)之中,在DA蒸餾損失LDA(B)與SS蒸餾損失LSS(B)的基礎(chǔ)上,且結(jié)合標(biāo)準(zhǔn)的交叉熵分類損失LCE(B),本節(jié)定義混合型損失LHTL來(lái)訓(xùn)練學(xué)生網(wǎng)絡(luò),其公式為
其中,y i與y?i分別表示第i幅圖像的真實(shí)標(biāo)簽向量與預(yù)測(cè)標(biāo)簽向量。在設(shè)計(jì)的DKD模型中,利用HTL函數(shù)來(lái)訓(xùn)練學(xué)生網(wǎng)絡(luò),可使其從教師網(wǎng)絡(luò)中獲得多種類型的知識(shí),以提高學(xué)生網(wǎng)絡(luò)的分類準(zhǔn)確性。最后,為了更好地理解教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)之間的知識(shí)蒸餾,學(xué)生網(wǎng)絡(luò)訓(xùn)練及測(cè)試步驟總結(jié)如算法1所示。。
實(shí)驗(yàn)數(shù)據(jù)集采用RSI場(chǎng)景分類領(lǐng)域中的兩個(gè)經(jīng)典大規(guī)模數(shù)據(jù)集AID[15]和NUWPU-45[16],其基本信息是:(1)AID是一個(gè)大型航測(cè)遙感場(chǎng)景分類數(shù)據(jù)集,它包含30個(gè)場(chǎng)景類別,每類樣本有220至420張,數(shù)量不等,共有10 000個(gè)樣本。AID中的樣本來(lái)自不同的遙感傳感器,具有8~0.5m的不同空間分辨率,每張圖像的大小為600×600;(2)NUW PU-45是西北工業(yè)大學(xué)創(chuàng)建的航空?qǐng)D像場(chǎng)景分類公開(kāi)數(shù)據(jù)集,該數(shù)據(jù)集共有場(chǎng)景類45個(gè),每類有700張圖像,每張圖像的大小為256×256,總樣本31500張,且具有30~0.2 m的不同空間分辨率,該數(shù)據(jù)集的挑戰(zhàn)在于不同的空間分辨率、類內(nèi)強(qiáng)多樣性及類間相似性。在實(shí)驗(yàn)之前,首先對(duì)訓(xùn)練圖像進(jìn)行了標(biāo)準(zhǔn)化預(yù)處理,即將RSI的像素值歸一化至0-1的范圍,然后采用數(shù)據(jù)擴(kuò)充技術(shù)來(lái)增加數(shù)據(jù)集的多樣性,以防止訓(xùn)練過(guò)程中的過(guò)擬合和偏差[17]。
在實(shí)驗(yàn)過(guò)程中,將RSI的大小統(tǒng)一調(diào)整為224×224,且采用以下策略對(duì)數(shù)據(jù)集進(jìn)行劃分:隨機(jī)選取A ID的20%和50%圖像用于構(gòu)造訓(xùn)練集,其余圖像用于測(cè)試。同樣,隨機(jī)選取NW PU-45圖像的10%和20%用于構(gòu)造訓(xùn)練集,其余用于測(cè)試。模型訓(xùn)練過(guò)程中,Epoches與批大小BS分別設(shè)置為1 000與32,選擇Adam優(yōu)化器,并將初始學(xué)習(xí)率lr設(shè)為0.001,且采用余弦衰減策略進(jìn)行更新。
本文采用RSI分類任務(wù)中兩種常用的指標(biāo)[16]用于定量評(píng)價(jià)實(shí)驗(yàn)結(jié)果,即:(1)總體精度(Overall Accuracy,OA):定義為正確分類的樣本數(shù)量與所有樣本數(shù)量的比值;(2)混淆矩陣(Con fusion M atrix,CM):是一個(gè)2維表,用于分析類間分類誤差和混淆程度,可視化算法的性能。
為了驗(yàn)證知識(shí)蒸餾在RSI場(chǎng)景分類中的有效性,本節(jié)評(píng)估了學(xué)生網(wǎng)絡(luò)從教師網(wǎng)絡(luò)中蒸餾不同知識(shí)的情況下的分類性能,基于數(shù)據(jù)集A ID及NWPU-45的消融實(shí)驗(yàn)結(jié)果如表2所示,且與其他模型的復(fù)雜度對(duì)比如表3所示?!盎€”表示學(xué)生網(wǎng)絡(luò)在訓(xùn)練時(shí)只使用標(biāo)簽作為監(jiān)督信息,即LHTL(B)中只保留LCE(B),學(xué)生網(wǎng)絡(luò)的訓(xùn)練不使用任何蒸餾知識(shí);“+DA”或“+SS”分別表示只將教師網(wǎng)絡(luò)的DA或SS知識(shí)作為蒸餾信息來(lái)指導(dǎo)學(xué)生網(wǎng)絡(luò)的訓(xùn)練;“+DKD”表示同時(shí)使用教師網(wǎng)絡(luò)中的DA與SS知識(shí)蒸餾來(lái)指導(dǎo)學(xué)生網(wǎng)絡(luò)訓(xùn)練;“教師”表示用“圖3所示3元孿生框架”訓(xùn)練的教師網(wǎng)絡(luò)。
表2 不同訓(xùn)練比例下消融實(shí)驗(yàn)的OA值(%)
表3 教師與學(xué)生網(wǎng)絡(luò)性能比較(以A ID數(shù)據(jù)集(50%)為例)
從表2所示消融實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在A ID與NW PU-45兩個(gè)RSI數(shù)據(jù)集上,較之無(wú)任何知識(shí)蒸餾的原始學(xué)生網(wǎng)絡(luò),采用DA蒸餾訓(xùn)練的學(xué)生網(wǎng)絡(luò)的OA平均提高了5.56%(20%),4.93%(50%)和5.41%(10%),5.17(20%);采用SS蒸餾訓(xùn)練的學(xué)生網(wǎng)絡(luò)的OA平均提高了6.40%(20%),5.20%(50%)和6.64%(10%),5.64(20%);經(jīng)過(guò)DKD訓(xùn)練的學(xué)生網(wǎng)絡(luò)OA平均提高了7.69%(20%),7.61%(50%)和7.61%(10%),7.39(20%)。顯然,本文設(shè)計(jì)的兩個(gè)知識(shí)蒸餾模塊是有效的,能提高RSI場(chǎng)景分類精度,主要原因是:DA模塊將SA與CA相結(jié)合,且設(shè)計(jì)了一個(gè)DA蒸餾函數(shù),能將教師網(wǎng)絡(luò)的DA知識(shí)有效地傳遞給學(xué)生網(wǎng)絡(luò),以提升其提取RSI局部信息的能力;SS蒸餾模塊在學(xué)生網(wǎng)絡(luò)訓(xùn)練過(guò)程中,將每批訓(xùn)練圖像的語(yǔ)義特征建模成一個(gè)SSG,且設(shè)計(jì)了融合距離損失、邊損失與角度損失的SS蒸餾函數(shù),以將教師網(wǎng)絡(luò)中SS知識(shí)遷移到學(xué)生網(wǎng)絡(luò)之中,增強(qiáng)其對(duì)RSI的高層語(yǔ)義提取與表達(dá)能力。同時(shí)也可看出,兩個(gè)知識(shí)蒸餾模塊同時(shí)使用,比用任意一個(gè)蒸餾模塊提升更高,這證實(shí)了兩個(gè)蒸餾模塊可以相互補(bǔ)充。由表3的數(shù)據(jù)也可以看出,經(jīng)DKD的學(xué)生網(wǎng)絡(luò)分類精度接近教師網(wǎng)絡(luò),但教師網(wǎng)絡(luò)的復(fù)雜性(參數(shù)量、模型大小與訓(xùn)練耗時(shí))遠(yuǎn)高于學(xué)生網(wǎng)絡(luò);同時(shí),也可發(fā)現(xiàn)學(xué)生網(wǎng)絡(luò)在精度較高的前提下,其參數(shù)量也低于當(dāng)前其他經(jīng)典方法。
為了進(jìn)一步驗(yàn)證所提DKD模型的有效性,基于AID和NWPU-45數(shù)據(jù)集,與近幾年的ARCNet-VGG[19],MobileNet[20]與V iT-B-16[21]等基準(zhǔn)方法進(jìn)行綜合對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。
表4 基于AID與NWPU-45數(shù)據(jù)集的綜合對(duì)比實(shí)驗(yàn)結(jié)果(%)
從表4所示的數(shù)據(jù)可知,基于A ID數(shù)據(jù)集所提DKD模型在20%和50%的訓(xùn)練比例下,都展現(xiàn)出了最高的OA,分別為95.21%和97.04%;同時(shí),從表4所示數(shù)據(jù)也可知,基于NWPU-45數(shù)據(jù)集,所提DKD模型在兩種訓(xùn)練比例下OA分別達(dá)到了93.88%和95.87%,相比其他效果最好的V iT-B-16[21]方法,OA分別提高了2.92%與2.51%,且較之經(jīng)典的輕量級(jí)模型MobileNet[20],OA分別提高了13.56%與12.61%。由此,在以上兩個(gè)數(shù)據(jù)集下的表現(xiàn)可以看出,所提DKD模型在RSI場(chǎng)景分類任務(wù)中是有效的。
為了進(jìn)一步觀察所提DKD模型在RSI場(chǎng)景分類中的具體表現(xiàn),如圖5與圖6所示,在訓(xùn)練比例20%的情況下,繪制了A ID和NW PU-45數(shù)據(jù)集測(cè)試時(shí)的混淆矩陣。
圖5 AID數(shù)據(jù)集訓(xùn)練比例為20%時(shí)的混淆矩陣
圖6 NWPU-45數(shù)據(jù)集訓(xùn)練比例為20%時(shí)的混淆矩陣
圖5展示了A ID數(shù)據(jù)集在20%訓(xùn)練比例下的混淆矩陣,可以看出,30個(gè)場(chǎng)景類別中只有5個(gè)的分類精度低于90%。例如:“School”的分類準(zhǔn)確率只有84%,是30類中最低的,其中有6%的圖像被錯(cuò)分為“Industrial”,主要原因是這2個(gè)類別均具有相同或相似的紋理特征(例如圓弧),在局部特征上存在較高的相似性。圖6展示了在NWPU-45數(shù)據(jù)集的混淆矩陣,當(dāng)訓(xùn)練比例為20%時(shí),在45個(gè)類別中只有3類的分類準(zhǔn)確率小于90%,其中“Palace”的精確度最低,只達(dá)到76%,這是由于該類圖像的主要目標(biāo)是宮殿建筑物,而其他很多類別的圖像中也包含有房屋建筑,特別是“Church”類別,它們具有極相似的建筑風(fēng)格與布局,使得其分類變得困難,導(dǎo)致分類準(zhǔn)確率最低。
對(duì)于使用了注意力機(jī)制的RSI場(chǎng)景分類算法,為了分析CNN網(wǎng)絡(luò)在RSI中關(guān)注的是什么局部區(qū)域,熱圖是一種非常有效的方法。如圖7所示(圖像是來(lái)自NW PU-45驗(yàn)證集),本節(jié)使用G rad-CAM[28]將經(jīng)過(guò)訓(xùn)練的4種不同網(wǎng)絡(luò)進(jìn)行了可視化,即利用梯度來(lái)計(jì)算最后一個(gè)卷積層中每個(gè)神經(jīng)元的重要性,以獲得感興趣的決策,可視化結(jié)果顯示圖像中的哪個(gè)區(qū)域是模型做出分類決策的重要特征,熱圖中顯示越紅的區(qū)域表示這些地方更具辨別力,是模型在對(duì)該圖像進(jìn)行分類時(shí)最感興趣的區(qū)域。從圖7所示熱圖可見(jiàn),經(jīng)DKD之后學(xué)生網(wǎng)絡(luò)在具有復(fù)雜背景的RSI中,較之其他3種方法,其注意力聚焦的感興趣區(qū)域更精準(zhǔn)且更完整。
圖7 使用Grad-CAM進(jìn)行可視化對(duì)比
面向RSI場(chǎng)景分類問(wèn)題,本文設(shè)計(jì)了一種新的DKD模型。首先,將改進(jìn)的CA與SA相結(jié)合構(gòu)造成DA模塊,且設(shè)計(jì)了一個(gè)DA蒸餾函數(shù),以將教師網(wǎng)絡(luò)的DA知識(shí)傳遞到學(xué)生網(wǎng)絡(luò),提高后者對(duì)RSI目標(biāo)局部信息的提取能力;其次,將每批訓(xùn)練圖像的特征建模成一個(gè)SSG,且構(gòu)造了一個(gè)SS蒸餾模塊,以將教師網(wǎng)絡(luò)中的SS知識(shí)傳遞給學(xué)生網(wǎng)絡(luò),從而增強(qiáng)后者對(duì)RSI的高層語(yǔ)義提取與表達(dá)能力。此外,在兩個(gè)大型公開(kāi)RSI數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,學(xué)生模型在參數(shù)數(shù)量明顯減少的情況下,其精度可接近復(fù)雜的教師網(wǎng)絡(luò),也優(yōu)于其他方法,更利于部署在遙感應(yīng)用平臺(tái)上。