陳會(huì)偉,劉樹美,劉培學(xué),公茂法
(1.青島黃海學(xué)院 智能制造學(xué)院,山東 青島 266427;2.山東科技大學(xué) 電氣與自動(dòng)化工程學(xué)院,山東 青島 266427)
隨著遙感傳感器的快速發(fā)展,高空間分辨率遙感圖像可以為目標(biāo)物體提供更詳細(xì)、更多樣的幾何結(jié)構(gòu)描述[1]及豐富的細(xì)節(jié)和空間結(jié)構(gòu)信息。但由于物體尺度變化的復(fù)雜性,遙感目標(biāo)的識(shí)別仍然存在巨大挑戰(zhàn)。
截止目前,國內(nèi)外研究人員設(shè)計(jì)了諸多算法以檢測(cè)和識(shí)別遙感圖像中不同類型的物體[2-3]。早期的多尺度目標(biāo)檢測(cè)識(shí)別算法多基于人工參與的特征設(shè)計(jì),如DALAL[4]、LOWE[5]等利用多尺度滑動(dòng)窗口生成不同尺度的圖像塊,分別通過手工制作的HOG(Histogram of Oriented Gradient)和SIFT(Scale-Invariant Feature Transform)等特征描述符提取特征,并將提取的特征輸入支持向量機(jī)(SVM)或條件隨機(jī)場(chǎng)(CRF)中進(jìn)行分類識(shí)別。TAO 等[6]利用改進(jìn)的SIFT匹配策略對(duì)機(jī)場(chǎng)中的目標(biāo)物體進(jìn)行檢測(cè)。XIAO等[7]利用HOG 的旋轉(zhuǎn)不變性檢測(cè)遙感圖像中的飛機(jī)、汽車等大型目標(biāo)。雖然手工制作的特征在特定的目標(biāo)識(shí)別任務(wù)中表現(xiàn)良好,但其通用性和魯棒性較差[1],且特征的設(shè)計(jì)耗時(shí)較長(zhǎng)。
隨著深度學(xué)習(xí)模型在自然語言處理、圖像分割等領(lǐng)域的廣泛應(yīng)用,深度學(xué)習(xí)技術(shù)被研究人員應(yīng)用于多尺度遙感目標(biāo)識(shí)別和檢測(cè)任務(wù)中以減少人工參與特征設(shè)計(jì)帶來的誤差[8]。如HAN 等[9]使用Fast-RCNN 檢測(cè)高分辨率遙感圖像中地理空間目標(biāo)。CHEN 等[10]結(jié)合轉(zhuǎn)移學(xué)習(xí)方法,利用單一結(jié)構(gòu)CNN 和有限的訓(xùn)練樣本以實(shí)現(xiàn)飛機(jī)識(shí)別。DENG 等[11]采用級(jí)聯(lián)整流線性單元(ReLU)和inception 模塊的CNN 來捕獲圖像多尺度特征,并通過多個(gè)中間層生成類目標(biāo)區(qū)域。ZHONG 等[12]提出一種位置敏感平衡(Position-Sensitive Balancing,PSB)框架,有效解決特征提取中的平移不變性。DING 等[13]采用密集卷積網(wǎng)絡(luò)(Dene Convolution Networks)、多尺度表示和多種改進(jìn)方案以增強(qiáng)VGG-16 的特征提取能力,提高了檢測(cè)精度。WANG 等[14]提出一種多尺度的視覺注意網(wǎng)絡(luò)以捕獲多尺度空間的上下文語義,并突出目標(biāo)區(qū)域的特征。
雖然上述的多尺度目標(biāo)檢測(cè)方法提高了目標(biāo)檢測(cè)或識(shí)別的精度,但這些多尺度結(jié)構(gòu)多是建立在單一結(jié)構(gòu)的卷積層上,受到卷積層數(shù)的限制且缺乏豐富的接收域,導(dǎo)致捕獲的多尺度特征難以對(duì)極端尺度變化的目標(biāo)對(duì)象進(jìn)行建模,影響高空間分辨率遙感圖像中超大和極小目標(biāo)的識(shí)別精度。但是,如果僅通過疊加單一結(jié)構(gòu)的卷積層來增強(qiáng)特征提取能力,就會(huì)隨著網(wǎng)絡(luò)層數(shù)的增加而出現(xiàn)擬合和梯度消失、爆炸等問題。
為緩解高空間分辨率遙感圖像中目標(biāo)對(duì)象的極端尺度變化問題,本文提出一種超尺度自導(dǎo)注意力網(wǎng) 絡(luò)(Hyper-Scale Self-Guided Attention Networks,HSSGAN)的目標(biāo)識(shí)別框架。該網(wǎng)絡(luò)在卷積層中構(gòu)建多個(gè)輕量級(jí)多尺度結(jié)構(gòu),從多個(gè)卷積子空間組中捕獲豐富的多尺度特征,根據(jù)組之間的連接將多尺度特征進(jìn)行組合,形成極端尺度特征,即小尺度和超尺度特征。利用自導(dǎo)注意力網(wǎng)絡(luò)逐層細(xì)化極端特征圖,在極端尺度的局部和全局語義之間建立長(zhǎng)期依賴關(guān)系,并解決冗余信息的重復(fù)使用問題以提高遙感圖像中目標(biāo)船舶的識(shí)別精度。
高空間分辨率遙感圖像中目標(biāo)物體的結(jié)構(gòu)通常在尺度、紋理和形狀上變化較大,且容易表現(xiàn)出類內(nèi)和類間多樣性。而傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的接受域有限,產(chǎn)生的局部特征難以對(duì)超尺度的目標(biāo)物體進(jìn)行詳細(xì)描述。為解決這些問題,提出一種超尺度自導(dǎo)注意力網(wǎng)絡(luò)的遙感船舶識(shí)別框架,利用超尺度子空間組捕獲目標(biāo)船舶的局部和全局語義,并逐步細(xì)化超尺度特征圖,自適應(yīng)地建立長(zhǎng)期依賴關(guān)系,濾除冗余信息以提高識(shí)別精度。HSSGAN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 HSSGAN 的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of HSSGAN
在圖1 中,Conv1×1 表示卷積核大小為1×1,Conv3×3 表示卷積核大小為3×3。該超尺度自導(dǎo)注意力的遙感船舶識(shí)別框架主要包含超尺度特征提取模塊和自導(dǎo)注意力模塊2 個(gè)部分。超尺度特征提取模塊主要被用于提取船舶目標(biāo)的不同尺度特征,其中包括極小尺度和超大尺度。而自導(dǎo)注意力模塊主要由通道注意力和位置注意力2 個(gè)模塊組成,被應(yīng)用于不同尺度的特征中以實(shí)現(xiàn)不同尺度特征的逐步細(xì)化、去除冗余信息、增強(qiáng)相關(guān)特征的表征能力,使特征對(duì)不同類型的目標(biāo)具有更優(yōu)異的區(qū)分能力。
超尺度塊[15]是由多個(gè)不同尺度的卷積層通過組連接構(gòu)成的輕量級(jí)子空間模塊,能夠增強(qiáng)超尺度特征的表示能力。與傳統(tǒng)卷積層通過提取多尺度特征以增強(qiáng)表征能力[16-17]不同,組連接為2 個(gè)卷積層中組特性之間的連接,通過實(shí)現(xiàn)層間信息復(fù)用使該2 層能獲得更多細(xì)節(jié)信息。在卷積接收域有限的情況下,此方法可提高同尺度卷積特征的利用率,并增加層間細(xì)節(jié)信息的傳遞。
假設(shè) 初始輸入為xi,且xi?{x1,x2,…,xn},經(jīng)過不同尺度的單一卷積層可得到CK(xi),其中:K為卷積核的大小,且滿足K=1,3,5,7。組連接復(fù)合函數(shù)為γ(·),尺度特征Fi?{F1,F(xiàn)2,…,F(xiàn)n},尺度塊內(nèi)的組連接計(jì)算如式(1)所示:
其中:M表示同尺度卷積塊數(shù)量;⊙表示點(diǎn)積拼接;concat(·)表示簡(jiǎn)單拼接。
在不增加卷積層接收域的情況下,捕獲的卷積特征按照組連接方式可提高特征的復(fù)用率,彌補(bǔ)有限接收域帶來的局限性。繼續(xù)對(duì)不同尺度卷積層捕獲特征Fi并使用組連接方式,可得到超尺度的特征圖FHS,計(jì)算公式如式(2)所示:
其中:F′(xi)表示不同尺度的組連接特征。
由于相鄰尺度組之間具有很強(qiáng)的關(guān)聯(lián)性,對(duì)其進(jìn)行組連接能有效增強(qiáng)特征的表征能力,且可實(shí)現(xiàn)不同尺度信息組之間的互補(bǔ),有利于遙感目標(biāo)的準(zhǔn)確定位。
超尺度塊雖然能有效捕獲目標(biāo)船舶的超尺度信息,但是對(duì)圖像進(jìn)行編碼時(shí),容易忽略超端尺度上的細(xì)節(jié)信息以及重復(fù)使用不相關(guān)的冗余信息,導(dǎo)致相關(guān)信息的表征效果弱化。為解決此問題,引入自導(dǎo)注意力網(wǎng)絡(luò)(Self-Guided Attention),對(duì)這些超尺度特征進(jìn)行逐步細(xì)化有助于編碼局部和全局語義,從而自適應(yīng)地在局部和全局語義之間建立長(zhǎng)期依賴關(guān)系,通過消除冗余信息以突出相關(guān)信息對(duì)目標(biāo)船舶的表征。由于低層級(jí)特征包含大量的紋理細(xì)節(jié)信息,因此將超尺度特征FHS與不同尺度特征相結(jié)合,使不同尺度特征映射的低層信息和高層語義相互補(bǔ)充,并將其輸入到自導(dǎo)注意力模塊中,能生成細(xì)化的注意力特征AS。計(jì)算公式如式(3)所示:
自導(dǎo)注意力模塊由位置注意力(Position Attention,PA)[18-19]和通道注意力[20](Channel Attention,CA)構(gòu)成,位置注意力能獲得豐富的上下文表示,而通道注意力可被看作是特定類的響應(yīng),能加強(qiáng)不同語義信息之間的關(guān)聯(lián)性。
設(shè)輸入到注意力的特征圖為F?RC×W×H,其中:C表示通道維度;W表示寬維度;H表示高維度。
PA 是特征圖F經(jīng)過卷積塊傳遞并重構(gòu)生成新的特征圖,利用上述同樣操作得到的過程,2 個(gè)特征圖的空間注意力系數(shù)如式(4)所示:
通過位置注意力,進(jìn)一步聚合了超尺度特征圖的全局上下文語義。
通過CA 增加了超尺度特征對(duì)不同類之間差異性的區(qū)分能力。
由于自導(dǎo)注意力模塊被應(yīng)用在多個(gè)超尺度特征圖上,因此自導(dǎo)損失為多個(gè)模塊的損失之和,定義為τG,如式(8)所示:
其中:τi表示不同超尺度注意力圖的引導(dǎo)損失。通過自導(dǎo)注意力模塊,可對(duì)超尺度的特征圖進(jìn)行逐步細(xì)化,在局部和全局語義之間建立長(zhǎng)期依賴關(guān)系,并增強(qiáng)不同類之間特征圖的差異性。
該數(shù)據(jù)集由Kaggle提供,共4 000張80像素×80像素的RGB 高空間分辨率遙感圖像,其中1 000 張為有船舶圖像,3 000 張無船舶圖像。為驗(yàn)證本文所提HSSGAN 方法的可行性,對(duì)原始數(shù)據(jù)集進(jìn)行了旋轉(zhuǎn)、平移等增強(qiáng)處理,并將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中,20%的圖像用于訓(xùn)練,并從中隨機(jī)抽取其中10%進(jìn)行5 倍交叉驗(yàn)證。剩余80%的圖像用于測(cè)試。
為進(jìn)一步驗(yàn)證該方法的正確性,采用精準(zhǔn)率(Precision,P)、召回率(Recall,R)和F1-Score 值(F1)等多種評(píng)測(cè)指標(biāo)進(jìn)行驗(yàn)證。計(jì)算公式如式(9)所示:
其中:TTP表示真陽性,即正確識(shí)別數(shù);FFP表示假陽性,即錯(cuò)誤識(shí)別次數(shù);FFN表示假陰性。
使用Adam 優(yōu)化函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,學(xué)習(xí)率為0.000 5,批處理設(shè)置為64,迭代次數(shù)為250 次。為證明超尺度模塊的有效性,對(duì)不同超尺度塊的識(shí)別效果進(jìn)行了驗(yàn)證,即設(shè)置為Hyper-1、Hyper-2、Hyper-3和Hyper-4。
為驗(yàn)證所提HSSGAN 方法的優(yōu)越性,與如下相關(guān)方法進(jìn)行了比較。
1)HSF-Net[21]。該方法稱之為嵌入深度多尺度特征的光學(xué)遙感船舶檢測(cè),主要是將不同尺度的特征映射到同一尺度空間,并使用端對(duì)端網(wǎng)絡(luò)進(jìn)行訓(xùn)練檢測(cè)。
2)CF-SDN[22]。該方法為提高特征的表征能力,融合了不同層次的特征,由粗到精的對(duì)船舶進(jìn)行了檢測(cè)。
3)TP-FCN[23]。該方法主要對(duì)不同深度的層分配不同任務(wù),深層提供檢測(cè)功能,淺層補(bǔ)充捕獲特征信息,以實(shí)現(xiàn)精確定位,可有效緩解精確定位與特征表征能力之間的權(quán)衡問題。
2.3.1 不同超尺度塊間的比較
為驗(yàn)證本文所提HSSGAN 方法的有效性,使用不同超尺度塊在Kaggle 實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行測(cè)試驗(yàn)證。實(shí)驗(yàn)結(jié)果如表1 所示,其中:Hyper-1 表示1 個(gè)超尺度塊;Hyper-2 表示2 個(gè)超尺度塊;Hyper-3 表 示3 個(gè)超尺度塊,即本文所提HSSGAN 方法;Hyper-4表示4 個(gè)超尺度塊,以此順推。
表1 不同超尺度塊的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of different super-scale blocks
從表1 中可看出,隨著超尺度塊的增加,識(shí)別精度也隨之增加。而當(dāng)超尺度塊為4,即Hyper-4 時(shí),識(shí)別精度開始下降,其F1 值為0.939 58。而Hyper-11的識(shí)別精度最低為0.869 18,因?yàn)檩^少的超尺度塊不能有效地捕獲遙感船舶的細(xì)節(jié)信息,且不能獲得足量的判別特征,導(dǎo)致影響船舶的識(shí)別精度。當(dāng)超尺度塊足夠多時(shí),可能會(huì)增加冗余信息的使用率及增加網(wǎng)絡(luò)參數(shù)量,導(dǎo)致網(wǎng)絡(luò)出現(xiàn)擬合現(xiàn)象,從而使識(shí)別精度下降。
HSSGAN 方法迭代200 次的精準(zhǔn)率、損失率和混淆矩陣如圖2 所示。圖2(a)表示訓(xùn)練和驗(yàn)證集的準(zhǔn)確率(Accuracy);圖2(b)表示訓(xùn)練和驗(yàn)證集的損失率;圖2(c)表示測(cè)試集的混淆矩陣。
圖2 HSSGAN 的精準(zhǔn)率、損失率和混淆矩陣Fig.2 Accuracy rate,obfuscation matrix and loss rate of HSSGAN
從圖2 中可看出,隨著迭代次數(shù)的增加,精準(zhǔn)率先增加然后處于穩(wěn)定狀態(tài),損失率則下降一定程度后處于穩(wěn)定狀態(tài)。
HSSGAN 方法對(duì)不同尺度船舶的檢測(cè)效果如圖3所示。圖3(a)~圖3(c)的左部分為自導(dǎo)注意力對(duì)不同尺度變化船舶的熱力圖,右部分為識(shí)別結(jié)果。
圖3 不同尺度的識(shí)別效果Fig.3 Recognition effects of different scales
由圖3 可看出,超尺度塊能有效獲取遙感船舶的超尺度特征,即對(duì)極端尺度的船舶特征具有較強(qiáng)的敏感性,特別是對(duì)尺度較小的船舶,如圖3(a)所示。這是因?yàn)槌叨葔K捕獲了遙感船舶的高層語義,同時(shí)也融合了低層級(jí)信息。
自導(dǎo)注意力網(wǎng)絡(luò)可對(duì)超尺度塊的特征圖逐步細(xì)化,并在局部和全局語義間建立長(zhǎng)期依賴關(guān)系,同時(shí)進(jìn)一步豐富上下文語義,強(qiáng)調(diào)相關(guān)特征的關(guān)聯(lián)。該功能尤其對(duì)尺度較大的遙感船舶非常明顯,如圖3(b)和圖3(c)所示。
2.3.2 與相關(guān)方法的比較
為驗(yàn)證HSSGAN 方法的優(yōu)越性,與相關(guān)方法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表2 所示。
表2 與相關(guān)方法對(duì)比的實(shí)驗(yàn)結(jié)果Table 2 Experimental results compared with relevant methods
從表2 中可以看出,本文所提方法HSSGAN 在精準(zhǔn)率、召回率和F1-Score 值上均取得最優(yōu)效果,分別為0.961 58、0.973 01 和0.966 78。這是因?yàn)槌叨葔K有效捕獲了遙感船舶的超尺度特征,從多個(gè)尺度對(duì)目標(biāo)船舶進(jìn)行了描述,同時(shí)自導(dǎo)注意力網(wǎng)絡(luò)使這些特征更加精細(xì),讓相關(guān)特征受到了更多關(guān)注。
相比于TP-FCN 方法,CF-SDN 和HSF-Net 方法的識(shí)別效果更好,F(xiàn)1-Score 值分別提高了0.095 81 和0.117 34。因?yàn)檫@2 種方法都采用了多尺度策略,從不同尺度對(duì)圖像中的目標(biāo)對(duì)象進(jìn)行了描述,對(duì)比結(jié)果也證明了多尺度策略的有效性。
在小尺度上的識(shí)別效果如圖4 所示,其中橢圓形圈表示該區(qū)域內(nèi)無船舶。
圖4 不同方法在小尺度上的識(shí)別效果Fig.4 Recognition effects of different methods on a small scale
由圖4 可知,TP-FCN 方法雖然對(duì)橢圓形圈內(nèi)的目標(biāo)進(jìn)行了精準(zhǔn)識(shí)別,但對(duì)水中船舶的辨識(shí)度有待提高。CF-SDN 和HSF-Ne 方法將紅色圈內(nèi)的其他目標(biāo)誤識(shí)別成船舶,但對(duì)水上目標(biāo)進(jìn)行了正確識(shí)別。
2.3.3 自導(dǎo)注意力模塊的研究
為驗(yàn)證自導(dǎo)注意力網(wǎng)絡(luò)對(duì)識(shí)別效果的影響,針對(duì)自導(dǎo)注意力網(wǎng)絡(luò)進(jìn)行了消融實(shí)驗(yàn)測(cè)試,結(jié)果如表3 所示,其中:Non-guided 表示無自導(dǎo)注意力模塊;PA-guided 表示只使用了位置注意力模塊;CA-guided 表示只使用了通道注意力模塊;加粗字體表示最大值。
表3 自導(dǎo)注意力模塊的消融實(shí)驗(yàn)結(jié)果Table 3 Ablation results of self-directed attention module
從表3 中可以看出,無自導(dǎo)注意力模塊的F1-Score值僅為0.942 20,識(shí)別效果最差。盡管位置注意力模塊對(duì)船舶的識(shí)別效果有所提高,但通道注意力模塊的識(shí)別效果要稍強(qiáng)于位置注意力模塊,這證明在該數(shù)據(jù)集上通道注意力模塊的貢獻(xiàn)要高于空間注意力模塊(PAguided),即在船舶識(shí)別過程中,增加超尺度特征在類間的差異性能更好地提高識(shí)別效果,識(shí)別效果的可視化如圖5 所示。
圖5 識(shí)別效果的可視化Fig.5 Visualization of the recognition effect
由圖5 可知,圖5(b)和圖5(c)給出的識(shí)別效果一樣,這是因?yàn)橥ǖ雷⒁饬δK的F1 值僅比位置注意力模塊提高了0.004 44,這進(jìn)一步說明了兩者共同使用的增強(qiáng)效果要高于單個(gè)組件,即所提的自導(dǎo)注意力模塊細(xì)化的特征圖更好地聚合了局部和全局語義。
本文設(shè)計(jì)超尺度自導(dǎo)注意力識(shí)別框架,采用超尺度的子空間組捕獲遙感船舶的超尺度特征和不同層級(jí)的結(jié)構(gòu)信息,使用自導(dǎo)注意力模塊逐步聚合相關(guān)的上下文語義及濾除冗余信息,增加特征在不同類之間的差異性,并突出相關(guān)信息的表征能力。實(shí)驗(yàn)結(jié)果表明,所提模型在定量和定性上均優(yōu)于HSF-Net、CF-SDN、TD-FCN 等其他相關(guān)方法。