超尺度自導(dǎo)注意力網(wǎng)絡(luò)的遙感船舶識(shí)別

2021-10-15 10:08:52陳會(huì)偉劉樹美劉培學(xué)公茂法

計(jì)算機(jī)工程 2021年10期

陳會(huì)偉，劉樹美，劉培學(xué)，公茂法

（1.青島黃海學(xué)院智能制造學(xué)院，山東青島 266427；2.山東科技大學(xué) 電氣與自動(dòng)化工程學(xué)院，山東青島 266427）

0 概述

隨著遙感傳感器的快速發(fā)展，高空間分辨率遙感圖像可以為目標(biāo)物體提供更詳細(xì)、更多樣的幾何結(jié)構(gòu)描述［1］及豐富的細(xì)節(jié)和空間結(jié)構(gòu)信息。但由于物體尺度變化的復(fù)雜性，遙感目標(biāo)的識(shí)別仍然存在巨大挑戰(zhàn)。

截止目前，國內(nèi)外研究人員設(shè)計(jì)了諸多算法以檢測(cè)和識(shí)別遙感圖像中不同類型的物體［2-3］。早期的多尺度目標(biāo)檢測(cè)識(shí)別算法多基于人工參與的特征設(shè)計(jì)，如DALAL［4］、LOWE［5］等利用多尺度滑動(dòng)窗口生成不同尺度的圖像塊，分別通過手工制作的HOG（Histogram of Oriented Gradient）和SIFT（Scale-Invariant Feature Transform）等特征描述符提取特征，并將提取的特征輸入支持向量機(jī)（SVM）或條件隨機(jī)場(chǎng)（CRF）中進(jìn)行分類識(shí)別。TAO 等［6］利用改進(jìn)的SIFT匹配策略對(duì)機(jī)場(chǎng)中的目標(biāo)物體進(jìn)行檢測(cè)。XIAO等［7］利用HOG 的旋轉(zhuǎn)不變性檢測(cè)遙感圖像中的飛機(jī)、汽車等大型目標(biāo)。雖然手工制作的特征在特定的目標(biāo)識(shí)別任務(wù)中表現(xiàn)良好，但其通用性和魯棒性較差［1］，且特征的設(shè)計(jì)耗時(shí)較長(zhǎng)。

隨著深度學(xué)習(xí)模型在自然語言處理、圖像分割等領(lǐng)域的廣泛應(yīng)用，深度學(xué)習(xí)技術(shù)被研究人員應(yīng)用于多尺度遙感目標(biāo)識(shí)別和檢測(cè)任務(wù)中以減少人工參與特征設(shè)計(jì)帶來的誤差［8］。如HAN 等［9］使用Fast-RCNN 檢測(cè)高分辨率遙感圖像中地理空間目標(biāo)。CHEN 等［10］結(jié)合轉(zhuǎn)移學(xué)習(xí)方法，利用單一結(jié)構(gòu)CNN 和有限的訓(xùn)練樣本以實(shí)現(xiàn)飛機(jī)識(shí)別。DENG 等［11］采用級(jí)聯(lián)整流線性單元（ReLU）和inception 模塊的CNN 來捕獲圖像多尺度特征，并通過多個(gè)中間層生成類目標(biāo)區(qū)域。ZHONG 等［12］提出一種位置敏感平衡（Position-Sensitive Balancing，PSB）框架，有效解決特征提取中的平移不變性。DING 等［13］采用密集卷積網(wǎng)絡(luò)（Dene Convolution Networks）、多尺度表示和多種改進(jìn)方案以增強(qiáng)VGG-16 的特征提取能力，提高了檢測(cè)精度。WANG 等［14］提出一種多尺度的視覺注意網(wǎng)絡(luò)以捕獲多尺度空間的上下文語義，并突出目標(biāo)區(qū)域的特征。

雖然上述的多尺度目標(biāo)檢測(cè)方法提高了目標(biāo)檢測(cè)或識(shí)別的精度，但這些多尺度結(jié)構(gòu)多是建立在單一結(jié)構(gòu)的卷積層上，受到卷積層數(shù)的限制且缺乏豐富的接收域，導(dǎo)致捕獲的多尺度特征難以對(duì)極端尺度變化的目標(biāo)對(duì)象進(jìn)行建模，影響高空間分辨率遙感圖像中超大和極小目標(biāo)的識(shí)別精度。但是，如果僅通過疊加單一結(jié)構(gòu)的卷積層來增強(qiáng)特征提取能力，就會(huì)隨著網(wǎng)絡(luò)層數(shù)的增加而出現(xiàn)擬合和梯度消失、爆炸等問題。

為緩解高空間分辨率遙感圖像中目標(biāo)對(duì)象的極端尺度變化問題，本文提出一種超尺度自導(dǎo)注意力網(wǎng) 絡(luò)（Hyper-Scale Self-Guided Attention Networks，HSSGAN）的目標(biāo)識(shí)別框架。該網(wǎng)絡(luò)在卷積層中構(gòu)建多個(gè)輕量級(jí)多尺度結(jié)構(gòu)，從多個(gè)卷積子空間組中捕獲豐富的多尺度特征，根據(jù)組之間的連接將多尺度特征進(jìn)行組合，形成極端尺度特征，即小尺度和超尺度特征。利用自導(dǎo)注意力網(wǎng)絡(luò)逐層細(xì)化極端特征圖，在極端尺度的局部和全局語義之間建立長(zhǎng)期依賴關(guān)系，并解決冗余信息的重復(fù)使用問題以提高遙感圖像中目標(biāo)船舶的識(shí)別精度。

1 超尺度自導(dǎo)注意力網(wǎng)絡(luò)的識(shí)別框架

高空間分辨率遙感圖像中目標(biāo)物體的結(jié)構(gòu)通常在尺度、紋理和形狀上變化較大，且容易表現(xiàn)出類內(nèi)和類間多樣性。而傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的接受域有限，產(chǎn)生的局部特征難以對(duì)超尺度的目標(biāo)物體進(jìn)行詳細(xì)描述。為解決這些問題，提出一種超尺度自導(dǎo)注意力網(wǎng)絡(luò)的遙感船舶識(shí)別框架，利用超尺度子空間組捕獲目標(biāo)船舶的局部和全局語義，并逐步細(xì)化超尺度特征圖，自適應(yīng)地建立長(zhǎng)期依賴關(guān)系，濾除冗余信息以提高識(shí)別精度。HSSGAN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

圖1 HSSGAN 的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of HSSGAN

在圖1 中，Conv1×1 表示卷積核大小為1×1，Conv3×3 表示卷積核大小為3×3。該超尺度自導(dǎo)注意力的遙感船舶識(shí)別框架主要包含超尺度特征提取模塊和自導(dǎo)注意力模塊2 個(gè)部分。超尺度特征提取模塊主要被用于提取船舶目標(biāo)的不同尺度特征，其中包括極小尺度和超大尺度。而自導(dǎo)注意力模塊主要由通道注意力和位置注意力2 個(gè)模塊組成，被應(yīng)用于不同尺度的特征中以實(shí)現(xiàn)不同尺度特征的逐步細(xì)化、去除冗余信息、增強(qiáng)相關(guān)特征的表征能力，使特征對(duì)不同類型的目標(biāo)具有更優(yōu)異的區(qū)分能力。

1.1 超尺度塊

超尺度塊［15］是由多個(gè)不同尺度的卷積層通過組連接構(gòu)成的輕量級(jí)子空間模塊，能夠增強(qiáng)超尺度特征的表示能力。與傳統(tǒng)卷積層通過提取多尺度特征以增強(qiáng)表征能力［16-17］不同，組連接為2 個(gè)卷積層中組特性之間的連接，通過實(shí)現(xiàn)層間信息復(fù)用使該2 層能獲得更多細(xì)節(jié)信息。在卷積接收域有限的情況下，此方法可提高同尺度卷積特征的利用率，并增加層間細(xì)節(jié)信息的傳遞。

假設(shè) 初始輸入為xi，且xi?{x1，x2，…，xn}，經(jīng)過不同尺度的單一卷積層可得到CK(xi)，其中：K為卷積核的大小，且滿足K=1，3，5，7。組連接復(fù)合函數(shù)為γ(·)，尺度特征Fi?{F1，F(xiàn)2，…，F(xiàn)n}，尺度塊內(nèi)的組連接計(jì)算如式（1）所示：

其中：M表示同尺度卷積塊數(shù)量；⊙表示點(diǎn)積拼接；concat(·)表示簡(jiǎn)單拼接。

在不增加卷積層接收域的情況下，捕獲的卷積特征按照組連接方式可提高特征的復(fù)用率，彌補(bǔ)有限接收域帶來的局限性。繼續(xù)對(duì)不同尺度卷積層捕獲特征Fi并使用組連接方式，可得到超尺度的特征圖FHS，計(jì)算公式如式（2）所示：

其中：F′(xi)表示不同尺度的組連接特征。

由于相鄰尺度組之間具有很強(qiáng)的關(guān)聯(lián)性，對(duì)其進(jìn)行組連接能有效增強(qiáng)特征的表征能力，且可實(shí)現(xiàn)不同尺度信息組之間的互補(bǔ)，有利于遙感目標(biāo)的準(zhǔn)確定位。

1.2 自導(dǎo)注意力模塊

超尺度塊雖然能有效捕獲目標(biāo)船舶的超尺度信息，但是對(duì)圖像進(jìn)行編碼時(shí)，容易忽略超端尺度上的細(xì)節(jié)信息以及重復(fù)使用不相關(guān)的冗余信息，導(dǎo)致相關(guān)信息的表征效果弱化。為解決此問題，引入自導(dǎo)注意力網(wǎng)絡(luò)（Self-Guided Attention），對(duì)這些超尺度特征進(jìn)行逐步細(xì)化有助于編碼局部和全局語義，從而自適應(yīng)地在局部和全局語義之間建立長(zhǎng)期依賴關(guān)系，通過消除冗余信息以突出相關(guān)信息對(duì)目標(biāo)船舶的表征。由于低層級(jí)特征包含大量的紋理細(xì)節(jié)信息，因此將超尺度特征FHS與不同尺度特征相結(jié)合，使不同尺度特征映射的低層信息和高層語義相互補(bǔ)充，并將其輸入到自導(dǎo)注意力模塊中，能生成細(xì)化的注意力特征AS。計(jì)算公式如式（3）所示：

自導(dǎo)注意力模塊由位置注意力（Position Attention，PA）［18-19］和通道注意力［20］（Channel Attention，CA）構(gòu)成，位置注意力能獲得豐富的上下文表示，而通道注意力可被看作是特定類的響應(yīng)，能加強(qiáng)不同語義信息之間的關(guān)聯(lián)性。

設(shè)輸入到注意力的特征圖為F?RC×W×H，其中：C表示通道維度；W表示寬維度；H表示高維度。

PA 是特征圖F經(jīng)過卷積塊傳遞并重構(gòu)生成新的特征圖，利用上述同樣操作得到的過程，2 個(gè)特征圖的空間注意力系數(shù)如式（4）所示：

通過位置注意力，進(jìn)一步聚合了超尺度特征圖的全局上下文語義。

通過CA 增加了超尺度特征對(duì)不同類之間差異性的區(qū)分能力。

由于自導(dǎo)注意力模塊被應(yīng)用在多個(gè)超尺度特征圖上，因此自導(dǎo)損失為多個(gè)模塊的損失之和，定義為τG，如式（8）所示：

其中：τi表示不同超尺度注意力圖的引導(dǎo)損失。通過自導(dǎo)注意力模塊，可對(duì)超尺度的特征圖進(jìn)行逐步細(xì)化，在局部和全局語義之間建立長(zhǎng)期依賴關(guān)系，并增強(qiáng)不同類之間特征圖的差異性。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)來源和評(píng)價(jià)指標(biāo)

該數(shù)據(jù)集由Kaggle提供，共4 000張80像素×80像素的RGB 高空間分辨率遙感圖像，其中1 000 張為有船舶圖像，3 000 張無船舶圖像。為驗(yàn)證本文所提HSSGAN 方法的可行性，對(duì)原始數(shù)據(jù)集進(jìn)行了旋轉(zhuǎn)、平移等增強(qiáng)處理，并將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中，20%的圖像用于訓(xùn)練，并從中隨機(jī)抽取其中10%進(jìn)行5 倍交叉驗(yàn)證。剩余80%的圖像用于測(cè)試。

為進(jìn)一步驗(yàn)證該方法的正確性，采用精準(zhǔn)率（Precision，P）、召回率（Recall，R）和F1-Score 值（F1）等多種評(píng)測(cè)指標(biāo)進(jìn)行驗(yàn)證。計(jì)算公式如式（9）所示：

其中：TTP表示真陽性，即正確識(shí)別數(shù)；FFP表示假陽性，即錯(cuò)誤識(shí)別次數(shù)；FFN表示假陰性。

2.2 實(shí)驗(yàn)參數(shù)設(shè)置

使用Adam 優(yōu)化函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，學(xué)習(xí)率為0.000 5，批處理設(shè)置為64，迭代次數(shù)為250 次。為證明超尺度模塊的有效性，對(duì)不同超尺度塊的識(shí)別效果進(jìn)行了驗(yàn)證，即設(shè)置為Hyper-1、Hyper-2、Hyper-3和Hyper-4。

為驗(yàn)證所提HSSGAN 方法的優(yōu)越性，與如下相關(guān)方法進(jìn)行了比較。

1）HSF-Net［21］。該方法稱之為嵌入深度多尺度特征的光學(xué)遙感船舶檢測(cè)，主要是將不同尺度的特征映射到同一尺度空間，并使用端對(duì)端網(wǎng)絡(luò)進(jìn)行訓(xùn)練檢測(cè)。

2）CF-SDN［22］。該方法為提高特征的表征能力，融合了不同層次的特征，由粗到精的對(duì)船舶進(jìn)行了檢測(cè)。

3）TP-FCN［23］。該方法主要對(duì)不同深度的層分配不同任務(wù)，深層提供檢測(cè)功能，淺層補(bǔ)充捕獲特征信息，以實(shí)現(xiàn)精確定位，可有效緩解精確定位與特征表征能力之間的權(quán)衡問題。

2.3 結(jié)果分析

2.3.1 不同超尺度塊間的比較

為驗(yàn)證本文所提HSSGAN 方法的有效性，使用不同超尺度塊在Kaggle 實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行測(cè)試驗(yàn)證。實(shí)驗(yàn)結(jié)果如表1 所示，其中：Hyper-1 表示1 個(gè)超尺度塊；Hyper-2 表示2 個(gè)超尺度塊；Hyper-3 表示3 個(gè)超尺度塊，即本文所提HSSGAN 方法；Hyper-4表示4 個(gè)超尺度塊，以此順推。

表1 不同超尺度塊的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of different super-scale blocks

從表1 中可看出，隨著超尺度塊的增加，識(shí)別精度也隨之增加。而當(dāng)超尺度塊為4，即Hyper-4 時(shí)，識(shí)別精度開始下降，其F1 值為0.939 58。而Hyper-11的識(shí)別精度最低為0.869 18，因?yàn)檩^少的超尺度塊不能有效地捕獲遙感船舶的細(xì)節(jié)信息，且不能獲得足量的判別特征，導(dǎo)致影響船舶的識(shí)別精度。當(dāng)超尺度塊足夠多時(shí)，可能會(huì)增加冗余信息的使用率及增加網(wǎng)絡(luò)參數(shù)量，導(dǎo)致網(wǎng)絡(luò)出現(xiàn)擬合現(xiàn)象，從而使識(shí)別精度下降。

HSSGAN 方法迭代200 次的精準(zhǔn)率、損失率和混淆矩陣如圖2 所示。圖2（a）表示訓(xùn)練和驗(yàn)證集的準(zhǔn)確率（Accuracy）；圖2（b）表示訓(xùn)練和驗(yàn)證集的損失率；圖2（c）表示測(cè)試集的混淆矩陣。

圖2 HSSGAN 的精準(zhǔn)率、損失率和混淆矩陣Fig.2 Accuracy rate，obfuscation matrix and loss rate of HSSGAN

從圖2 中可看出，隨著迭代次數(shù)的增加，精準(zhǔn)率先增加然后處于穩(wěn)定狀態(tài)，損失率則下降一定程度后處于穩(wěn)定狀態(tài)。

HSSGAN 方法對(duì)不同尺度船舶的檢測(cè)效果如圖3所示。圖3（a）～圖3（c）的左部分為自導(dǎo)注意力對(duì)不同尺度變化船舶的熱力圖，右部分為識(shí)別結(jié)果。

圖3 不同尺度的識(shí)別效果Fig.3 Recognition effects of different scales

由圖3 可看出，超尺度塊能有效獲取遙感船舶的超尺度特征，即對(duì)極端尺度的船舶特征具有較強(qiáng)的敏感性，特別是對(duì)尺度較小的船舶，如圖3（a）所示。這是因?yàn)槌叨葔K捕獲了遙感船舶的高層語義，同時(shí)也融合了低層級(jí)信息。

自導(dǎo)注意力網(wǎng)絡(luò)可對(duì)超尺度塊的特征圖逐步細(xì)化，并在局部和全局語義間建立長(zhǎng)期依賴關(guān)系，同時(shí)進(jìn)一步豐富上下文語義，強(qiáng)調(diào)相關(guān)特征的關(guān)聯(lián)。該功能尤其對(duì)尺度較大的遙感船舶非常明顯，如圖3（b）和圖3（c）所示。

2.3.2 與相關(guān)方法的比較

為驗(yàn)證HSSGAN 方法的優(yōu)越性，與相關(guān)方法進(jìn)行了對(duì)比，實(shí)驗(yàn)結(jié)果如表2 所示。

表2 與相關(guān)方法對(duì)比的實(shí)驗(yàn)結(jié)果Table 2 Experimental results compared with relevant methods

從表2 中可以看出，本文所提方法HSSGAN 在精準(zhǔn)率、召回率和F1-Score 值上均取得最優(yōu)效果，分別為0.961 58、0.973 01 和0.966 78。這是因?yàn)槌叨葔K有效捕獲了遙感船舶的超尺度特征，從多個(gè)尺度對(duì)目標(biāo)船舶進(jìn)行了描述，同時(shí)自導(dǎo)注意力網(wǎng)絡(luò)使這些特征更加精細(xì)，讓相關(guān)特征受到了更多關(guān)注。

相比于TP-FCN 方法，CF-SDN 和HSF-Net 方法的識(shí)別效果更好，F(xiàn)1-Score 值分別提高了0.095 81 和0.117 34。因?yàn)檫@2 種方法都采用了多尺度策略，從不同尺度對(duì)圖像中的目標(biāo)對(duì)象進(jìn)行了描述，對(duì)比結(jié)果也證明了多尺度策略的有效性。

在小尺度上的識(shí)別效果如圖4 所示，其中橢圓形圈表示該區(qū)域內(nèi)無船舶。

圖4 不同方法在小尺度上的識(shí)別效果Fig.4 Recognition effects of different methods on a small scale

由圖4 可知，TP-FCN 方法雖然對(duì)橢圓形圈內(nèi)的目標(biāo)進(jìn)行了精準(zhǔn)識(shí)別，但對(duì)水中船舶的辨識(shí)度有待提高。CF-SDN 和HSF-Ne 方法將紅色圈內(nèi)的其他目標(biāo)誤識(shí)別成船舶，但對(duì)水上目標(biāo)進(jìn)行了正確識(shí)別。

2.3.3 自導(dǎo)注意力模塊的研究

為驗(yàn)證自導(dǎo)注意力網(wǎng)絡(luò)對(duì)識(shí)別效果的影響，針對(duì)自導(dǎo)注意力網(wǎng)絡(luò)進(jìn)行了消融實(shí)驗(yàn)測(cè)試，結(jié)果如表3 所示，其中：Non-guided 表示無自導(dǎo)注意力模塊；PA-guided 表示只使用了位置注意力模塊；CA-guided 表示只使用了通道注意力模塊；加粗字體表示最大值。

表3 自導(dǎo)注意力模塊的消融實(shí)驗(yàn)結(jié)果Table 3 Ablation results of self-directed attention module

從表3 中可以看出，無自導(dǎo)注意力模塊的F1-Score值僅為0.942 20，識(shí)別效果最差。盡管位置注意力模塊對(duì)船舶的識(shí)別效果有所提高，但通道注意力模塊的識(shí)別效果要稍強(qiáng)于位置注意力模塊，這證明在該數(shù)據(jù)集上通道注意力模塊的貢獻(xiàn)要高于空間注意力模塊（PAguided），即在船舶識(shí)別過程中，增加超尺度特征在類間的差異性能更好地提高識(shí)別效果，識(shí)別效果的可視化如圖5 所示。

圖5 識(shí)別效果的可視化Fig.5 Visualization of the recognition effect

由圖5 可知，圖5（b）和圖5（c）給出的識(shí)別效果一樣，這是因?yàn)橥ǖ雷⒁饬δK的F1 值僅比位置注意力模塊提高了0.004 44，這進(jìn)一步說明了兩者共同使用的增強(qiáng)效果要高于單個(gè)組件，即所提的自導(dǎo)注意力模塊細(xì)化的特征圖更好地聚合了局部和全局語義。

3 結(jié)束語

本文設(shè)計(jì)超尺度自導(dǎo)注意力識(shí)別框架，采用超尺度的子空間組捕獲遙感船舶的超尺度特征和不同層級(jí)的結(jié)構(gòu)信息，使用自導(dǎo)注意力模塊逐步聚合相關(guān)的上下文語義及濾除冗余信息，增加特征在不同類之間的差異性，并突出相關(guān)信息的表征能力。實(shí)驗(yàn)結(jié)果表明，所提模型在定量和定性上均優(yōu)于HSF-Net、CF-SDN、TD-FCN 等其他相關(guān)方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡