汪菲菲,趙慧潔,李娜,李思遠,蔡昱
(1 北京航空航天大學 儀器科學與光電工程學院 精密光機電一體化技術教育部重點實驗室,北京 100191)
(2 北京航空航天大學 人工智能研究院,北京 100191)
(3 北京航空航天大學 “空天光學-微波一體化精準智能感知”工信部重點實驗室,北京 100191)
(4 中國科學院西安光學精密機械研究所 光譜成像技術重點實驗室,西安 710119)
(5 中國運載火箭技術研究院,北京 100076)
高光譜圖像(Hyper Spectral Image,HSI)通過幾十甚至上百個光譜通道來提供豐富的光譜信息,可用于對各地物類別進行準確分類[1]。高光譜圖像分類是高光譜影像處理和應用領域的一個熱點研究方向,分類模型通過分析每個像素的光譜信息與空間信息,對該像素所屬類別進行預測,然后與實際地物進行對應比較,實現(xiàn)地物目標分類。深度學習由于其強大的特征學習能力成為高光譜分類的主流算法。
在基于深度學習的分類算法,根據(jù)是否提取到數(shù)據(jù)的空間信息,可分為基于光譜和基于光譜-空間融合的分類方法?;诰矸e神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)的方法是一種帶有卷積結構的前饋神經(jīng)網(wǎng)絡[2],是一類非常重要的高光譜地物分類方法。其中基于光譜的分類方法使用一維卷積操作提取到待分類像素的光譜信息進行分類。HU Wei 等[3]利用一維卷積神經(jīng)網(wǎng)絡提取像素光譜信息來進行分類。MOU Lichao 等[4]利用循環(huán)神經(jīng)網(wǎng)絡來進行高光譜圖像分類,其本質上也是利用了一維卷積網(wǎng)絡進行分類?;诠庾V的方法雖然簡單,但是其精度無法令人滿意。高光譜的空間上下文信息也有助于提高分類精度,因此現(xiàn)在常見分類算法都是基于光譜-空間信息融合的。ZHONG Zilong 等[5]提出了一種光譜-空間變換網(wǎng)絡,由光譜特征提取模塊和空間注意力模塊組成,充分利用HSI 的光譜-空間信息進行分類。而GHADERIZADEH S 等[6]則是提出利用混合三維和二維卷積神經(jīng)網(wǎng)絡來進行高光譜分類,其中三維卷積有效地提取光譜-空間信息,并用二維卷積來增強空間信息。WU Hao 等[7]將卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡相結合提出了卷積循環(huán)神經(jīng)網(wǎng)絡,利用卷積操作提取到高光譜圖像的光譜-空間信息,然后利用循環(huán)神經(jīng)網(wǎng)絡進一步提取光譜-空間特征上下文信息。ZHONG Zilong 等[8]提出了光譜空間殘差網(wǎng)絡,連續(xù)提取光譜信息和空間信息特征。SHI Yuetian 等[9]提出了利用多角度平行特征編碼的方式,通過增強局部空間特征的方式提高圖像分類精度,并且該算法對圖像旋轉魯棒。與此同時,在高光譜圖像實際分類任務中存在光譜相似、類別易混等問題,注意力機制廣泛應用于分類任務,XU Yue 等[10]在三維光譜卷積模塊中利用注意力機制進行光譜-空間特征選擇和提取。YANG Kai 等[11]提出了交叉注意力機制,該網(wǎng)絡分為像素和圖像塊2 個分支輸入,并對像素分支網(wǎng)絡采用光譜注意力機制提取光譜特征,并將該特征作用到圖像塊分支網(wǎng)絡中。ZHENG Xiangtao 等[12]提出了中心光譜注意力機制,將中心光譜像素值作為特征權重對光譜特征進行新的校正,但高光譜圖像塊不可避免地包含干擾像素,因此采用全局平均池化引入干擾像素類別對注意力權重的生成不利。FANG Shuai 等[13]的研究表明了不同地物類別其分類所依靠的光譜波段并不相同,也說明不同類別的光譜冗余波段可能不同。為此,中心池化的操作可將中心像素值直接代替原有的全局平均池化后的像素,并根據(jù)該中心像素值生成光譜注意力權重。
盡管上述工作取得了不錯的效果,但是還有如下問題:1)多數(shù)工作在使用光譜注意力機制后,直接進行了空間特征提取,沒有單獨提取光譜特征,或者是單獨提取光譜特征時,默認光譜各維度同等重要;2)光譜注意力機制多采用全局特征或中心像素特征進行權重調整,前者引入了較多干擾像素;而后者忽略了周圍相同類別對其的影響。
為了解決上述問題,本文提出了光譜-空間注意力殘差網(wǎng)絡(Spectral-Spatial Attention Residual Network,SSARN)來進行高光譜分類。該網(wǎng)絡主要包括光譜特征學習、空間特征學習和分類器。其中,光譜特征學習部分包括光譜注意力模塊和光譜殘差網(wǎng)絡模塊;而空間特征學習部分包括空間注意力模塊和空間殘差網(wǎng)絡模塊。由于現(xiàn)有的光譜注意力模塊通常采用全局平均池化或者中心池化來提取光譜特征,但是無論哪種方式都會丟失光譜特征,為此提出了一種新的光譜注意力機制,盡可能減少光譜信息損失。
高光譜圖像是一個包含光譜信息和空間信息的三維立方體,基于此提出了一個用于高光譜圖像分類的光譜-空間注意力殘差網(wǎng)絡(SSARN)。如圖1 所示,SSARN 包括光譜特征學習、空間特征學習和分類器。其中,光譜特征學習部分包括光譜注意力模塊和光譜殘差網(wǎng)絡模塊;而空間特征學習部分包括空間注意力模塊和空間殘差網(wǎng)絡模塊。
首先高光譜圖像會根據(jù)設定好的尺寸分割成圖像塊,然后這些圖像塊會被送入到網(wǎng)絡中,根據(jù)各個模塊提取圖像特征,最后將特征輸入到分類器中得到最終的分類結果。
1.1.1 中心區(qū)域光譜注意力機制
注意力機制的提出是為了節(jié)省資源,不需要讓網(wǎng)絡處理全部的輸入信息,而是從這些信息中有選擇地對與任務相關的信息進行計算[14]。根據(jù)處理任務時注意力機制作用的數(shù)據(jù)域位置不同,可分為光譜注意力機制和空間注意力機制。
光譜注意力機制在圖像的光譜維度進行特征提取,也被稱為通道注意力機制。圖2 所示就是一種光譜注意力機制。由于高光譜圖像包含幾十甚至上百個光譜波段,而將全部波段放入網(wǎng)絡中提取特征是不可行的,一方面需要大量的計算資源,另一方面這些波段和波段具有冗余關系[14],可以用部分波段表征全部波段。主流方式用注意力模塊重新調整各個波段的權重。該模塊可以根據(jù)任務需要獨立嵌入到任何網(wǎng)絡中,自適應地生成注意力權重,即
圖2 中心區(qū)域光譜注意力機制結構Fig.2 The structure of the central region spectral attention mechanism
式中,權重參數(shù)η表示生成的每個波段的權重,fSpeA(?)表示光譜注意力,X表示高光譜圖像塊,σ(?)表示激活函數(shù),F(xiàn)C(?)表示全連接層,ave(?)表示全局平均池化。權重越大的波段在后續(xù)特征學習時更容易得到神經(jīng)網(wǎng)絡的關注,提取更多的有利于高光譜分類的信息。通常,利用全局平均池化融合圖像塊的全部空間信息,然后對該信息利用全連接層和sigmoid 函數(shù)來自適應地生成權重η參數(shù)。不同地物類別其分類所依靠的光譜波段不相同[14],中心池化操作是將中心像素值直接代替原有的全局平均池化后的像素,并根據(jù)該中心像素值生成光譜注意力權重[11]。雖然該方法在一定程度上避免了干擾像素對權重的影響,但是也丟失了周圍相同類別的光譜特征對中心像素光譜權重增強的作用。
根據(jù)地理學第一定律[15]空間自相關性,待分類像素周圍的像素可能屬于同一類地物,因此周圍的高光譜像素有可能會包含可用于提高分類結果的空間信息。所以一般在高光譜圖像塊中,周圍像素與中心像素完全不同的概率較小,更多的是周圍像素中包含了和中心像素相同的地物類別,并且越接近中心像素的區(qū)域,其包含相同類別的像素越多。為此,在現(xiàn)有的光譜注意力機制上提出了中心區(qū)域光譜注意力模塊,在盡可能避免周圍不同類別像素對中心像素干擾的同時,盡可能多利用周圍相同類別像素波段對中心像素增強的作用。所提出的中心區(qū)域光譜注意力機制可以表示為
式中,Center3×3(X)表示中心區(qū)域3×3 范圍的像素,conv(?)表示卷積和激活函數(shù)的操作,?表示卷積計算。如圖2 所示,選取中心區(qū)域像素,對這些像素求取平均值,獲得中心區(qū)域像素平均值。然后采用1×1 卷積和激活函數(shù)從基于中心區(qū)域平均像素生成注意力權重η。緊接著,利用該權重η與原始的圖像塊X 進行卷積獲得經(jīng)過光譜注意力機制的高光譜圖像塊。
1.1.2 空間注意力機制
空間注意力機制和光譜注意力機制的目的類似,都是將注意力轉移到重要的部分,本質上是定位網(wǎng)絡感興趣的信息,抑制無用的信息。對于高光譜分類來說,空間包含的所有像素對中心像素的貢獻并不是同等重要,只有能夠幫助中心像素增加類間差異、縮小類內(nèi)差異的像素才是網(wǎng)絡需要關心的。空間注意力機制可以表示為
式中,δ代表空間注意力權重,[?]代表特征拼接,fm,fa分別代表最大池化和平均池化,X代表圖像塊(輸入端)或者是空間-光譜特征(在網(wǎng)絡中),代表經(jīng)過空間注意力機制后的空間特征??臻g注意力機制如圖3 所示,將高光譜圖像塊X,經(jīng)過池化層分別獲取平均池化和最大池化特征,這兩個特征在光譜維拼接后進行特征提取,輸出經(jīng)過注意力機制后的權重,最后和原始輸入的空間特征進行卷積得到空間注意力機制后的空間特征。
圖3 空間注意力機制結構Fig.3 The structure of the spatial attention mechanism
在深度學習中,神經(jīng)網(wǎng)絡層數(shù)的增加引發(fā)梯度下降,網(wǎng)絡會發(fā)生退化現(xiàn)象,即訓練集的損失會逐漸增大,淺層網(wǎng)絡的精度反而優(yōu)于深層網(wǎng)絡,失去了深度學習的優(yōu)勢。其原因在于隨著網(wǎng)絡層數(shù)的遞增,提取的特征所包含的圖像信息越來越少,導致網(wǎng)絡的分類精度下降。殘差網(wǎng)絡可進行圖像識別任務[16-19],被廣泛用于高光譜圖像分類中[8,20-21],其由一系列殘差單元組成,標準的殘差單元可以表示為
式中,xl+1代表第l+1層特征,F(xiàn)(xl,Wl,bl)代表對第l層特征進行特征提取,(Wl,bl)分別代表第l層網(wǎng)絡參數(shù),目的是讓第l層和第l+1層的特征圖保持大小一致,然后在輸入輸出前后增加一個恒等映射的跳躍連接,殘差塊的基本結構如圖4 所示。
圖4 殘差塊的基本結構Fig.4 The structure of the residual network
光譜特征學習的殘差塊如圖5 所示,殘差塊包括兩個連續(xù)的卷積層和一個跳躍連接,跳躍連接可以保證第p+2 層特征中包含有第p層的特征。對于第p層和第p+1 層,分別使用尺寸為1×1×m的卷積核Cp+1和Cp+2,并利用填充策略保持第p+1 層和第p+2 層的特征空間大小尺寸一致不變,即空間大小為w×w。最后,利用殘差函數(shù)對第p層和第p+2 層進行連接。光譜殘差網(wǎng)絡模塊結構可以表示為
圖5 光譜殘差網(wǎng)絡模塊Fig.5 The spectral residual network module
式中,Xp代表第p層的特征,F(xiàn)(?)代表特征提取的函數(shù),r={Wp+1,Wp+2,dp+1,dp+2}代表第p+1 層和第p+2 層卷積核和偏置參數(shù)的集合,C代表卷積核參數(shù),d代表偏置參數(shù)。
空間殘差網(wǎng)絡模塊如圖6 所示,殘差塊包括兩個連續(xù)的卷積層和一個跳躍連接,跳躍連接可以保證第q+2 層特征中包含有第q層的特征。對于第q層和第q+1 層,分別使用尺寸為a×a×b的卷積核Kq+1和Kq+2,這些空間卷積核的光譜維度為b,等于輸入特征圖的光譜維度。利用填充策略保持第q+1 層和第q+2 層的特征空間大小尺寸一致不變,即空間大小為w×w。最后,利用殘差函數(shù)對第q層和第q+2 層進行連接。因此,空間殘差網(wǎng)絡模塊可以表示為
圖6 空間殘差網(wǎng)絡模塊Fig.6 The spatial residual network module
式中,Xq代表第q層的特征,F(xiàn)(?)代表特征提取的函數(shù),h={Kq+1,Kq+2,lq+1,lq+2}代表第q+1 層和第q+2 層的卷積核和偏置參數(shù),K代表卷積核參數(shù),l代表偏置參數(shù)。
在上述內(nèi)容基礎上,提出了一個可以連續(xù)提取光譜和空間特征的高光譜分類網(wǎng)絡,即圖7 所示的光譜-空間注意力殘差網(wǎng)絡(SSARN),該網(wǎng)絡包括光譜特征學習模塊、空間特征學習模塊和分類器。其中,光譜特征學習模塊包括光譜注意力和光譜殘差網(wǎng)絡;而空間特征學習模塊包括空間注意力和空間殘差網(wǎng)絡。并且在網(wǎng)絡中每個模塊之間添加跳躍連接,將分層特征的表示層連接成為連續(xù)的殘差塊,以緩解精度下降的現(xiàn)象。
圖7 以IP 數(shù)據(jù)集為例的SSARN 流程Fig.7 The flow chart of SSARN with IP dataset as an example
以Indian Pines (IP)數(shù)據(jù)集為例來解釋所提出的SSARN 網(wǎng)絡。首先,將高光譜圖像逐像素分割為一定尺寸的圖像塊,為方便說明,假定圖像塊尺寸大小為13×13,其光譜維度為200。該圖像塊經(jīng)過中心區(qū)域光譜注意力后,光譜波段權重被重新調整,提高重要波段權重,降低不重要波段的權重。經(jīng)過該注意力模塊后,其圖像塊尺寸依然為13×13×200。中心區(qū)域選取范圍為以中心像素為基準,周圍3×3 范圍內(nèi)為中心區(qū)域,一方面該范圍內(nèi)包含了一定相同類別的光譜信息,另一方面也盡可能減少不同類別像素的干擾。中心區(qū)域光譜注意力的計算方式如圖2 和式(3)~(5)所示。
光譜特征提取部分包括1 個卷積層和1 個光譜殘差網(wǎng)絡。在HSI 中采用尺寸為1×1×n的三維卷積核提取光譜信息,不影響空間結構,保持了空間相關性。使用1×1×7 的三維卷積作為光譜卷積核。該卷積核對經(jīng)過中心區(qū)域光譜注意力機制的特征進行卷積,卷積步長為(1,1,2)。經(jīng)過卷積層后,生成了13×13×97的光譜-空間特征。隨后,該圖像塊被送入到光譜殘差網(wǎng)絡中提取光譜特征。光譜殘差網(wǎng)絡模塊包含2 個卷積層。在每個卷積層使用1×1×7 的光譜卷積核來學習光譜特征。為了能夠使用殘差連接,需要保證輸入和輸出同樣的尺寸,因此需要在卷積層中使用填充來保持相同的尺寸,填充尺寸統(tǒng)一為(0,0,3)。圖像塊經(jīng)過光譜注意力和光譜殘差網(wǎng)絡模塊后,網(wǎng)絡已經(jīng)提取到相應的光譜特征,該特征尺寸為13×13×97,最后該特征輸入到空間特征學習模塊中。
空間特征學習模塊包括1 個空間注意力和2 個空間殘差網(wǎng)絡模塊。經(jīng)過光譜特征學習后的空間-光譜特征輸入到空間注意力模塊中,進行空間權重重新校正,提高對中心像素的判別能力??臻g注意力機制并不會改變特征的空間尺寸,因此經(jīng)過空間注意力機制后的特征尺寸依然為13×13×97。接著使用28 個13×13×97 的三維卷積核提取空間-光譜特征,同時降低空間尺寸和光譜尺寸;輸出的光譜-空間特征為11×11×28。在空間殘差網(wǎng)絡模塊使用連續(xù)的二維卷積核提取空間判別特征,每層卷積均采用28 個3×3的二維卷積核,同時為了保證殘差網(wǎng)絡模塊前后尺寸統(tǒng)一,需要使用空間填充,填充尺寸為(1,1)。經(jīng)過4 個卷積層,2 個空間殘差網(wǎng)絡的特征學習,所提出的特征已經(jīng)包含了豐富的光譜特征和空間特征。
將該特征放進分類器中,完成最后的分類任務。分類器包含平均池化層和全連接層,平均池化將提取11×11×28 的光譜空間特征變成1 個1×1×28 的特征向量。接著全連接層根據(jù)每個數(shù)據(jù)集所包含的類別數(shù)生成一個輸出向量,并選取最大值為預測結果。
本次實驗選取的數(shù)據(jù)為三組公開的Indian Pines( IP)數(shù)據(jù)集、Salinas( SA)數(shù)據(jù)集、Pavia University(PU)和Houston 2013 標準劃分數(shù)據(jù)集。各個數(shù)據(jù)集的假彩色圖和真值圖如圖8~11 所示。
圖8 IP 數(shù)據(jù)集Fig.8 IP dataset
圖10 PU 數(shù)據(jù)集Fig.10 PU dataset
圖11 Houston 數(shù)據(jù)集Fig.11 Houston dataset
IP 數(shù)據(jù)集每類隨機選擇20%的樣本作為訓練樣本,SA 數(shù)據(jù)集每類隨機選擇2%的樣本作為訓練樣本,PU 數(shù)據(jù)集每類隨機選擇1%的樣本作為訓練樣本。隨機按照比例選取樣本,可以保留數(shù)據(jù)集本身的樣本不均衡問題,有效驗證算法在面對樣本分布不均衡的性能。Houston 數(shù)據(jù)集有標準劃分,因此按照標準劃分進行訓練和測試。各個數(shù)據(jù)集的訓練樣本和測試樣本見表1~4。
表1 IP 數(shù)據(jù)集的訓練樣本數(shù)量和測試樣本數(shù)量Table 1 The number of training and testing samples on IP dataset
表2 SA 數(shù)據(jù)集的訓練樣本數(shù)量和測試樣本數(shù)量Table 2 The number of training and testing samples on SA dataset
表3 PU 數(shù)據(jù)集的訓練樣本數(shù)量和測試樣本數(shù)量Table 3 The number of training and testing samples on PU dataset
表4 Houston 數(shù)據(jù)集的訓練樣本數(shù)量和測試樣本數(shù)量Table 4 The number of training and testing samples on Houston dataset
實驗平臺為Pytorch 1.12,Python 3.9 和Nvidia GTX 3090,24GB 圖形處理器。所有算法的訓練輪數(shù)設置為100,每次訓練輸入64 個圖像塊。損失函數(shù)、優(yōu)化器都按照對比算法的最佳效果進行設置。所提出的光譜-空間注意力殘差網(wǎng)絡采用交叉熵損失函數(shù),優(yōu)化器為Adam 優(yōu)化器。初始學習率為0.001,每10 輪學習率調整為原來的0.6 倍。
評價指標為總體準確度(Overall Accuracy,OA)、平均準確度(Average Accuracy,AA)和Kappa 系數(shù)??傮w準確度(OA)表示正確分類的樣本數(shù)占總樣本數(shù)的比例,其公式為
式中,nij代表圖像中第i類樣本預測標簽為j的樣本數(shù)目,nii代表i類樣本中分類正確的樣本數(shù)目,Ni=∑jnij代表第i類樣本待分類樣本的數(shù)目。
平均準確度(AA)表示每一類分類精度的平均值,其公式為
式中,k代表待分類樣本的類別。
Kappa 系數(shù)是用來衡量分類結果與真值地物之間一致性的指標。由于樣本類別不均衡,OA、AA 的指標會受到大樣本精度影響。Kappa 系數(shù)可以表示整個分類情況的偏差,代表分類與完全隨機分類產(chǎn)生錯誤減少的比例,其公式為
圖像塊尺寸選取過大,則需要較多的計算資源和時間成本。而圖像塊尺寸過小,又有可能使得網(wǎng)絡不能夠充分學習圖像的空間特征,導致分類精度較低。因此,詳細探索不同的圖像塊尺寸對總體分類準確度的影響。其分類結果見表5。
表5 不同圖像塊尺寸在四個數(shù)據(jù)集上的總體準確度Table 5 The overall accuracy of the different size of the patch on the four datasets
通過表5 可知,總體準確度總體上是根據(jù)尺寸大小先上升后下降。在IP 數(shù)據(jù)集上,13×13 的圖像塊精度最高;在SA 數(shù)據(jù)集上,19×19 的圖像塊精度最高,在較小尺寸的圖像塊上精度都有所下降。在PU 數(shù)據(jù)集上,13×13 和17×17 的圖像塊精度一樣,但在19×19 時開始下降。在Houston 數(shù)據(jù)集上,隨著尺寸的增加,其精度不斷提高,在17×17 時達到最高精度。
對于IP 數(shù)據(jù)集,其樣本區(qū)域較為平滑,不同樣本區(qū)域之間有交錯但邊緣區(qū)分較為明顯,因此隨著圖像塊尺寸的增大,其包含的空間信息越豐富,分類準確度也有所上升;當圖像塊尺寸超過一定尺寸時,有可能包含了更多的冗余空間信息,例如不屬于同一類別的樣本空間信息,反而會使分類精度下降。對于SA 數(shù)據(jù)集,其樣本區(qū)域較為規(guī)整,不同樣本區(qū)域之間沒有交錯,當空間尺寸逐漸增大時,其精度會有提升。圖像塊尺寸越大,能提供的空間信息越豐富,越有利于提高分類精度。所以在圖像塊尺寸最大時,其精度最高。然而,過大的尺寸會導致計算成本和計算資源成倍增長,因此需要平衡精度和計算資源來選取合適的圖像塊尺寸。對于PU 數(shù)據(jù)集,其不同樣本區(qū)域之間有交錯。隨著圖像塊尺寸增大,其總體準確度在上升,在尺寸為13×13 時達到最大,后續(xù)基本保持不變。對于Houston 數(shù)據(jù)集,各個樣本區(qū)域比較分散,同一種樣本分布也不集中;隨著圖像塊尺寸增大,其包含的空間信息增多,總體分類精度在上升,尺寸在17×17 時精度達到最高。而尺寸為13×13 時,其精度比最高精度僅低了0.05%。
根據(jù)上述實驗結果,從平衡計算資源和總體準確度出發(fā),圖像塊尺寸統(tǒng)一為13×13。這樣,一方面不需要過多的計算資源,另一方面還可以保持精度優(yōu)勢。
為驗證所提出的算法各個模塊的有效性,在四個數(shù)據(jù)集上進行了消融實驗,具體實驗設置為:
基本網(wǎng)絡:由1 個光譜特征學習模塊和2 個空間特征學習模塊構成。這些特征學習模塊均采用了殘差模塊作為基礎。
光譜注意力網(wǎng)絡:由1 個包含了中心光譜注意力機制的光譜特征學習模塊和2 個空間特征學習模塊構成。也就是在基本網(wǎng)絡的基礎上,在光譜特征學習模塊前加上中心光譜注意力機制。
光譜-空間注意力殘差網(wǎng)絡:由1 個包含了中心光譜注意力機制的光譜特征學習模塊和2 個空間特征學習模塊構成。在光譜特征提取結束后,空間特征學習前引入了空間注意力機制。
消融實驗采取總體準確度(OA)作為評價指標,各個網(wǎng)絡在四個數(shù)據(jù)集上的結果見表6。
表6 不同網(wǎng)絡在四個數(shù)據(jù)集上的總體準確度Table 6 The overall accuracy of the different network on the four datasets
通過表6 可以發(fā)現(xiàn),相比基本網(wǎng)絡,光譜注意力網(wǎng)絡在IP、SA、PU 和Houston 數(shù)據(jù)集上,精度分別提升了1.13%、0.53%、0.23%和1.85%。說明光譜注意力機制可以有效地改變各個波段的權重,對分類結果影響較大的波段給予較高的權重,影響較小的波段給予較小的權重,而基本網(wǎng)絡默認各個波段的權重相同,由于不同類別都有其容易識別的波段,而不是整個波段都可以用來進行分類[14],意味著每個波段對待分類樣本的影響程度不同。
光譜-空間注意力殘差網(wǎng)絡相比光譜注意力網(wǎng)絡在IP、SA、PU 和Houston 數(shù)據(jù)集上,精度分別提升了0.77%、0.95%、0.55%和0.84%,比基本網(wǎng)絡精度分別提升了1.9%、1.48%、0.78%和2.69%,說明空間信息對于分類結果的有一定影響。引入空間注意力機制可以有效地調整周圍像素對中心像素的影響,具體來說,周圍像素對待分類的中心像素有幫助時,其相應的權重就會提高,能有效地增強后續(xù)網(wǎng)絡所提取的光譜-空間特征。而對待分類的中心像素沒有幫助或者負面作用時,其權重則會降低。
綜上,所提出的各個模塊對最后的分類結果都有積極的影響,能夠有效提高總體分類準確度。
本次實驗中,選取了2D CNN[22]、3D CNN[23]、HybridSN[24]、RIAN[12]、SSFTT[25]這5 種方法作為對比算法,其中2D CNN、3D CNN、HybridSN、RIAN 都是基于CNN 的高光譜分類網(wǎng)絡,而SSFTT 是基于視覺變換網(wǎng)絡(Vision Transformer,ViT)的高光譜分類網(wǎng)絡,這些算法都是當前較為有代表性的算法。
2.4.1 不同訓練比例對實驗的影響
考慮到所用到的4 個數(shù)據(jù)集中,只有Houston 數(shù)據(jù)集給出了標準的訓練集和測試集劃分,其余3 個數(shù)據(jù)集均沒有標準劃分,因此需要驗證不同的訓練集比例對各個算法的精度影響。在IP 數(shù)據(jù)集中,訓練集樣本占全部樣本的比例為5%、10%、15%和20%。在SA 數(shù)據(jù)集中,訓練集樣本占全部樣本的比例為0.5%、1%、1.5%和2%。在PU 數(shù)據(jù)集中,訓練集樣本占全部樣本的比例為0.3%、0.5%、0.7%和1%。各個算法在不同比例的訓練集中的總體準確度表現(xiàn)如表7~9 所示。
表7 不同網(wǎng)絡在IP 數(shù)據(jù)集上的不同訓練比例的總體準確度Table 7 The overall accuracy of the different network with different training ratios on the IP datasets
表8 不同網(wǎng)絡在SA 數(shù)據(jù)集上的不同訓練比例的總體準確度Table 8 The overall accuracy of the different network with different training ratios on the IP datasets
表9 不同網(wǎng)絡在PU 數(shù)據(jù)集上的不同訓練比例的總體準確度Table 9 The overall accuracy of the different network with different training ratios on the IP datasets
從表7~9 中可以看出,隨著訓練比例提高,各個算法總體準確度都在上升。而SSARN 在任何比例下都具有最高的精度,因此選擇了各個算法精度最高的訓練集比例,即IP 數(shù)據(jù)集每類隨機選擇20%的樣本作為訓練樣本,SA 數(shù)據(jù)集每類隨機選擇2%的樣本作為訓練樣本,PU 數(shù)據(jù)集每類隨機選擇1%的樣本作為訓練樣本作為統(tǒng)一比較的基礎。
2.4.2 對比算法在各個數(shù)據(jù)集上的結果
表10 展示了各個算法在IP 數(shù)據(jù)集上的各類別準確度、總體準確度(OA)、平均準確度(AA)和Kappa值。表中所展示的Kappa 值是在Kappa 計算公式(17)的基礎上乘以100 進行展示。
表10 不同算法在IP 數(shù)據(jù)集上的類別準確度、OA、AA 和KappaTable 10 The category accuracy,OA,AA and Kappa of the different algorithms on IP dataset
通過表10 可知,所提出的光譜-空間注意力殘差網(wǎng)絡SSARN,在AA、OA 和Kappa 系數(shù)上都取得了最佳的結果,并且在16 個類別精度中有12 個都達到了最好的效果,其中10 個各類的精度為100%。這說明SSARN 能夠有效地學習不同類別的光譜特征和空間特征。在效果不好的4 個類別中,其訓練樣本分別是285 個、166 個、194 個和18 個,相比類別最少的訓練樣本4 個而言,其樣本充足。也從側面證明了SSARN 可以有效地解決樣本分布不均勻帶來的在少樣本上精度較差的效果。而對于上述4 個效果較差的類別主要在兩個不同樣本區(qū)域的邊緣,由于圖像塊包含了不同類別的樣本,所學習的主要特征較少,最后分類的時候判斷錯誤類別。
圖12 展示了各個算法在IP 數(shù)據(jù)集上的分類效果。對比真值圖(Ground Truth),2D CNN 和3D CNN 分類效果較差,而HybridSN、RIAN、SSFTT、SSARN 效果相對較好。2D CNN 和3D CNN 錯誤類別多集中在樣本區(qū)域的內(nèi)部,說明其對高光譜的空間特征沒有有效地學習。而SSARN 算法相比HybridSN、RIAN、SSFTT 算法,判斷錯誤的樣本更少,更貼近真值圖,說明該算法可以有效地學習高光譜圖像的光譜特征和空間特征。
圖12 各個對比算法在IP 數(shù)據(jù)集的效果Fig.12 The visualization result of each algorithm on the IP dataset
表11 展示了各個算法在SA 數(shù)據(jù)集上的各類別準確度、總體準確度(OA),平均準確度(AA)和Kappa 值。
表11 不同算法在SA 數(shù)據(jù)集上的類別準確度、OA、AA 和KappaTable 11 The category accuracy,OA,AA and Kappa of the different algorithms on SA dataset
從表11 可以看到,提出的SSARN 在OA、AA 和Kappa 值上均達到了最優(yōu)值,在16 個類別精度中有12 個都達到了最好的效果,其中8 個類別精度為100%。這說明了該算法能夠有效地學習不同類別的光譜特征和空間特征,而且面對不同數(shù)據(jù)集具有良好的泛化性。在效果相對不好的4 個類別中,其精度也分別達到了98.64%、99.97%、98.93% 和99.81%,相比最優(yōu)效果,這4 個類別精度僅僅低了0.86%,0.03%、0.25% 和0.19%,差距并不明顯。
圖13 展示了各個算法在SA 數(shù)據(jù)集上的分類效果。對比真值圖(Ground Truth),2D CNN、3D CNN、HybridSN、RIAN、SSFTT 的分類效果都不如SSARN。SSARN 分類錯誤的樣本主要是第8 類,會被錯誤地分為第14 類,一方面是空間位置上這2 類較近,另一方面其他算法錯誤的分類也集中在第8 類,說明網(wǎng)絡所提取第8 類的光譜特征與第14 類的光譜特征較為相近,進而出現(xiàn)了類別誤判。
圖13 各個算法在SA 數(shù)據(jù)集的效果Fig.13 The visualization result of each algorithm on the SA dataset
表12 展示了各個算法在PU 數(shù)據(jù)集上的類別準確度、總體準確度(OA)、平均準確度(AA)和Kappa 值。
表12 不同算法在PU 數(shù)據(jù)集上的類別準確度、OA、AA 和KappaTable 12 Category accuracy,OA,AA and Kappa of the different algorithms on PU dataset
從表12 可以看到,SSARN 在OA、AA 和Kappa 值上均達到了最優(yōu)值,在9 個類別精度中有6 個都達到了最好的效果,其中2 個類別精度為100%。這說明了該算法能夠有效地學習不同類別的光譜特征和空間特征,而且面對不同數(shù)據(jù)集具有良好的泛化性。在效果相對不好的3 個類別中,其精度也分別達到了94.13%、99.85%和94.81%,和最優(yōu)的效果相比,分別低了3.42%、0.15%和3.08%,主要是第3 類和第6 類表現(xiàn)較差。分析其主要原因是第3 類和第6 類分散在全局中,集中區(qū)域較少,并且訓練時選取的樣本量也較少,因此網(wǎng)絡提取特征時丟失了部分細節(jié)特征,從而導致其精度偏低。
圖14 展示了各個算法在PU 數(shù)據(jù)集上的分類效果。對比真值圖(Ground Truth),2D CNN、3D CNN、HybridSN、RIAN、SSFTT 的分類效果都不如SSARN。SSARN 算法判斷錯誤的樣本更少,更貼近真值圖。
圖14 各個算法在PU 數(shù)據(jù)集的效果Fig.14 The visualization result of each algorithm on the PU dataset
表13 展示了各個算法在Houston 數(shù)據(jù)集上的類別準確度、總體準確度(OA)、平均準確度(AA)和Kappa 值。
表13 不同算法在Houston 數(shù)據(jù)集上的類別準確度、OA、AA 和KappaTable 13 The category accuracy,OA,AA and Kappa of the different algorithms on Houston dataset
從表13 可以看到,SSARN 在OA、AA 和Kappa值上均達到了最優(yōu)值,在15 個類別精度中有11 個都達到了最好的效果,其中3 個類別精度為100%。這說明該算法能夠有效地學習不同類別的光譜特征和空間特征,而且面對不同數(shù)據(jù)集具有良好的泛化性。在效果相對不好的4 個類別中,相比最優(yōu)的效果,精度低了1.32%、52.12%、4.84%和4.57%。效果最差的是類別9,即高速公路(Highway)這一類別。絕大多數(shù)對比算法在這一類表現(xiàn)都很差,而對比算法HybirdSN 在這一類達到了100%的精度,分析主要原因可能是數(shù)據(jù)預處理階段,只有HybirdSN 利用PCA 進行數(shù)據(jù)降維,保留了主要的光譜特征,而其他算法都是在原始的光譜維度上進行特征學習,冗余的光譜波段會導致網(wǎng)絡學習該類別的光譜能力下降,進而導致在該類別上精度下降較多。
圖15 展示了各個算法在Houston 數(shù)據(jù)集上的分類效果。對比真值圖(Ground Truth),2D CNN、3D CNN、HybridSN、RIAN、SSFTT 的分類效果都不如SSARN。SSARN 分類錯誤的樣本主要是第9 類,其他算法錯誤的分類也集中在第9 類。冗余的光譜特征會導致網(wǎng)絡對某些類別產(chǎn)生過擬合,進而導致其分類精度下降。總體來看SSARN 算法相比其他算法,判斷錯誤的樣本更少,更貼近真值圖。
圖15 各個對比算法在Houston 數(shù)據(jù)集的效果Fig.15 The visualization result of each algorithm on the Houston dataset
本文提出了基于光譜-空間注意力殘差網(wǎng)絡(SSARN)的高光譜分類方法,該方法利用中心區(qū)域光譜注意力機制,在保留全部光譜信息的基礎上,對光譜之間的權重進行了調整,避免了網(wǎng)絡提取光譜特征時認為各個通道權重一致的問題。重新調整光譜權重后,采用了殘差網(wǎng)絡對光譜維度進行特征提取,一方面可以有效地提取和保留光譜信息,另一方面便于優(yōu)化網(wǎng)絡。在提取光譜特征后,利用空間注意力機制對空間-光譜特征進行學習,使后續(xù)的空間特征學習模塊更多地關注輸入中的相關空間特征,盡可能多地提取有用的空間特征來幫助分類??臻g特征學習模塊采用2 個類似的殘差特征提取模塊,主要是因為空間信息相比光譜信息更多,需要更多的網(wǎng)絡參數(shù)進行學習。在4 個公開的數(shù)據(jù)集上,消融實驗證明了各個模塊的有效性。和常用以及最新算法相比,所提出的SSARN 在所有數(shù)據(jù)集上都達到了最好效果,也證明了該網(wǎng)絡的有效性和魯棒性。
但是該算法面對分散樣本時,其特征提取能力以及判別能力出現(xiàn)了下降,一方面是因為所提出的網(wǎng)絡都是基于圖像塊輸入的,對上下文信息的獲取較差;另一方面類別分散在全局中,樣本比例的不均衡性會導致網(wǎng)絡提取特征時,分散類別樣本特征權重較低,可能導致其重要的特征丟失??紤]到視覺變換模型對圖像全局信息的把握能力更強,后續(xù)可以考慮用Transformer 網(wǎng)絡,并根據(jù)樣本不均衡引入動態(tài)權重調整系數(shù)調整小樣本的特征權重來解決全局分散樣本精度較低的問題。