基于多維度信息交互的遙感圖像目標(biāo)檢測(cè)算法

2022-11-01 05:37卜薈力方賢進(jìn)楊高明

黑龍江工業(yè)學(xué)院學(xué)報(bào)(綜合版) 2022年10期

卜薈力，方賢進(jìn)，2，楊高明

(1.安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院，安徽淮南232001；2.合肥綜合性國(guó)家科學(xué)中心人工智能研究院，安徽合肥230088)

隨著衛(wèi)星遙感技術(shù)的不斷發(fā)展，高分辨率遙感影像的信息量急劇增加，其中包含的詳細(xì)信息也越來(lái)越豐富。一些敏感目標(biāo)，如船舶、坦克、飛機(jī)、港口等，肉眼也能清晰可見(jiàn)，其檢測(cè)的方法已成為學(xué)者們關(guān)注的熱點(diǎn)[1]。而目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域最基本的問(wèn)題之一。檢測(cè)的任務(wù)是準(zhǔn)確有效地從圖像中識(shí)別和定位預(yù)定義類(lèi)別對(duì)象實(shí)例。經(jīng)過(guò)多年的深度學(xué)習(xí)發(fā)展，可以在普通圖像中高精度地識(shí)別物體，幾乎可以滿(mǎn)足各種應(yīng)用。

傳統(tǒng)目標(biāo)檢測(cè)算法簡(jiǎn)單、快速、易于實(shí)現(xiàn)，但對(duì)目標(biāo)狀態(tài)和目標(biāo)大小要求較高，在復(fù)雜背景下性能表現(xiàn)較差。而近些年來(lái)，基于深度學(xué)習(xí)的檢測(cè)發(fā)展迅速，許多基于CNN(卷積神經(jīng)網(wǎng)絡(luò))的目標(biāo)檢測(cè)算法已經(jīng)被提出并應(yīng)用于遙感圖像中的目標(biāo)檢測(cè)。目前，目標(biāo)檢測(cè)算法可以分為兩種主要類(lèi)型：兩階段算法和一階段算法。兩階段方法是基于候選區(qū)域的深度卷積神經(jīng)網(wǎng)絡(luò)。它首先生成包含檢測(cè)目標(biāo)的可能候選區(qū)域，然后對(duì)候選區(qū)域進(jìn)行分類(lèi)和回歸，最終得到檢測(cè)框，實(shí)現(xiàn)目標(biāo)檢測(cè)。比較常見(jiàn)的算法有R-CNN、Fast R-CNN和Faster R-CNN[2]等。這些方法檢測(cè)精度高，但速度較慢。一階段方法是基于回歸計(jì)算的深度卷積網(wǎng)絡(luò)的目標(biāo)檢測(cè)，它使用端到端的目標(biāo)檢測(cè)方法，直接回歸目標(biāo)的類(lèi)別和定位信息。常見(jiàn)算法有SSD[3]、YOLO系列[4-6]等。這些方法檢測(cè)速度較快，可以滿(mǎn)足實(shí)時(shí)性要求。

以YOLOv5s為網(wǎng)絡(luò)框架為基準(zhǔn)，提出了一種改進(jìn)YOLOv5s的網(wǎng)絡(luò)模型MPSA-YOLOv5，該方法通過(guò)在主干網(wǎng)絡(luò)中加入設(shè)計(jì)的高效多維度信息交互極化自注意力(Multi-dimensional information interaction Polarized Self-Attention，MPSA)模塊，改進(jìn)特征增強(qiáng)結(jié)構(gòu)等方式增強(qiáng)網(wǎng)絡(luò)的特征提取能力，提高遙感圖像的檢測(cè)精度。

1 YOLOv5目標(biāo)檢測(cè)算法

YOLOv5于2020年6月由ultralytics LLC公司推出，目前只有官方代碼，還在不斷更新當(dāng)中。它是一個(gè)單級(jí)檢測(cè)器和基于區(qū)域的目標(biāo)檢測(cè)網(wǎng)絡(luò)。YOLO算法將目標(biāo)檢測(cè)定義為回歸任務(wù)，從而提高了處理速度。YOLOv5在借鑒了上一版本以及其他網(wǎng)絡(luò)的優(yōu)勢(shì)后，改變了之前YOLO目標(biāo)檢測(cè)算法檢測(cè)速度較快但準(zhǔn)確率不高的缺點(diǎn)，提高了檢測(cè)精度和實(shí)時(shí)性。其一共有四種網(wǎng)絡(luò)模型，針對(duì)不同的網(wǎng)絡(luò)模型，提供了不同的網(wǎng)絡(luò)深度和寬度，分別為YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x，模型復(fù)雜程度依次遞增，其中YOLOv5s可以在移動(dòng)端使用，不僅滿(mǎn)足了實(shí)時(shí)圖像檢測(cè)的需求，而且結(jié)構(gòu)更小，效果非常驚人。因此使用YOLOv5s作為檢測(cè)模型。其網(wǎng)絡(luò)模型分為4部分，分別是Input、Backbone、Neck和Prediction，其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)

輸入端包括馬賽克數(shù)據(jù)增強(qiáng)(MDE)、自適應(yīng)錨框尺寸計(jì)算(AAFSC)和自適應(yīng)圖像縮放用于數(shù)據(jù)處理。YOLOv5s采用和YOLOv4相同的馬賽克數(shù)據(jù)增強(qiáng)方式，通過(guò)隨機(jī)裁剪、隨機(jī)縮放和隨機(jī)排布將四張圖片拼接，豐富了檢測(cè)數(shù)據(jù)集，尤其增加了小目標(biāo)，提高了網(wǎng)絡(luò)的魯棒性，同時(shí)也降低了GPU的計(jì)算量，增加了網(wǎng)絡(luò)的通用性。自適應(yīng)錨框計(jì)算為不同的數(shù)據(jù)集通過(guò)聚類(lèi)算法設(shè)置初始錨框，網(wǎng)絡(luò)在初始錨框的基礎(chǔ)上進(jìn)行預(yù)測(cè)，然后與真實(shí)框進(jìn)行比較計(jì)算損失值，通過(guò)反向傳播不斷迭代更新網(wǎng)絡(luò)參數(shù)。錨框參數(shù)為[116，90，156，198，373，326]，[30，61，62，45，59，119]，[10，13，16，30，33，23]。自適應(yīng)圖像縮放是對(duì)于不同尺寸的圖像統(tǒng)一縮放到固定大小，在數(shù)據(jù)預(yù)處理階段已經(jīng)實(shí)現(xiàn)。

Backbone包括Focus和C3模塊。Focus模塊將輸入圖像切分為4份，然后在channel維度進(jìn)行拼接。最后再經(jīng)過(guò)卷積操作得到最終的特征圖，C3模塊具體結(jié)構(gòu)如圖1中所示。

Neck采用FPN(特征金字塔網(wǎng)絡(luò))和PANet(金字塔結(jié)構(gòu)與路徑聚合網(wǎng)絡(luò))結(jié)構(gòu)。FPN通過(guò)從上到下的上采樣傳遞和融合高級(jí)特征信息，以傳達(dá)強(qiáng)烈的語(yǔ)義特征信息。PAN是一個(gè)自下而上的特征金字塔，用于傳達(dá)強(qiáng)大的定位特征信息。將兩者同時(shí)使用，增強(qiáng)網(wǎng)絡(luò)特征融合能力。

預(yù)測(cè)部分包括邊界框損失函數(shù)和NMS(非最大抑制)。YOLOv5s-6.0使用CIoU損失函數(shù)作為邊界框的損失函數(shù)，有效解決了邊界框不重合的問(wèn)題，提高了預(yù)測(cè)框回歸的速度和準(zhǔn)確率。

為了增強(qiáng)識(shí)別多個(gè)目標(biāo)和被遮擋目標(biāo)的能力，在得到所有的目標(biāo)檢測(cè)框后，YOLOv5s使用加權(quán)NMS進(jìn)行過(guò)濾，得到最優(yōu)的目標(biāo)檢測(cè)框。

2 改進(jìn)的YOLOv5目標(biāo)檢測(cè)算法

2.1 MPSA模塊

Polarized Self-Attention(PSA)[7]是一種結(jié)合空間與通道兩個(gè)維度更精細(xì)的雙重注意力建模結(jié)構(gòu)，提出一種極化濾波的機(jī)制，在對(duì)空間或通道維度進(jìn)行壓縮時(shí)，讓其正交方向的維度依然保持高分辨率，并通過(guò)Softmax對(duì)被壓縮特征矩陣進(jìn)行信息增強(qiáng)。但PSA的通道與空間注意力是分離的，并未考慮計(jì)算注意力權(quán)重時(shí)捕獲跨維度依賴(lài)的重要性，這會(huì)導(dǎo)致部分細(xì)節(jié)信息的丟失。因此本文從維度交互的角度出發(fā)，提出一種多維度信息交互極化自注意力(Multi-dimensional information interaction Polarized Self-Attention，MPSA)模塊，對(duì)PSA增加了一個(gè)旋轉(zhuǎn)自注意力模塊，具體做法如圖2中間部分所示。首先輸入特征先經(jīng)過(guò)一個(gè)旋轉(zhuǎn)操作，變?yōu)镠×C×W維度特征，接著使用1×1卷積將輸入轉(zhuǎn)換為q和v，其中q的H維度被完全壓縮，而v的H維度縮減為一半。對(duì)q執(zhí)行Softmax進(jìn)行信息增強(qiáng)，對(duì)v執(zhí)行Reshape操作變?yōu)镠/2×CW的權(quán)重，將q和v進(jìn)行矩陣乘法并依次接上1×1卷積、LN和Sigmoid函數(shù)。最后再通過(guò)旋轉(zhuǎn)操作變?yōu)镃×H×W維度矩陣。將所得結(jié)果與PSA輸出進(jìn)行相加。通過(guò)對(duì)原始特征圖進(jìn)行維度置換操作得到新特征圖，并使用較小的計(jì)算開(kāi)銷(xiāo)對(duì)新生成的特征圖進(jìn)行編碼，將不同維度間的相互依賴(lài)連接起來(lái)，有效避免了細(xì)節(jié)信息的大量丟失。將MPSA模塊嵌入到Y(jié)OLOv5s中，具體嵌入位置參照2.3節(jié)，改進(jìn)后的模型命名為MPSA-YOLOv5。

圖2 MPSA模塊

2.2 改進(jìn)的特征增強(qiáng)網(wǎng)絡(luò)

空間金字塔池化(Spatial Pyramid Pooling，SPP)[8]是由HE等人提出，其最初的目的是為了解決圖像尺度統(tǒng)一的問(wèn)題，避免輸入圖像因裁剪或縮放導(dǎo)致信息丟失。其主要做法是接收任意尺寸的特征圖，通過(guò)不同尺度的池化操作，得到固定大小的特征向量。在目標(biāo)檢測(cè)任務(wù)中常使用的SPP結(jié)構(gòu)主要由三個(gè)不同尺度的最大池化層和一個(gè)跳躍連接構(gòu)成四個(gè)并行的分支，池化核大小分別為5×5，9×9，13×13，但最大池化(MaxPool)只能選擇局部最大的單一值，在進(jìn)行特征映射時(shí)可能會(huì)丟失關(guān)鍵信息，而SoftPool[9]對(duì)感受野內(nèi)的所有像素以加權(quán)求和的方式映射到網(wǎng)絡(luò)的下一層中，相比MaxPool能更好的保留特征圖中的細(xì)粒度特征，因此選擇其代替MaxPool，公式如式(1)所示。

(1)

其中aj為感受野內(nèi)像素激活值，R為激活區(qū)域。

同時(shí)為了提取不同尺寸目標(biāo)的空間特征信息，提升模型對(duì)于空間布局和物體變形的魯棒性，將原SPPF中串行連接的三個(gè)池化層調(diào)整為四個(gè)，為了節(jié)約計(jì)算資源，將原SPPF中的池化層的池化核大小由5×5調(diào)整為3×3，具體結(jié)構(gòu)如圖3所示。

圖3 改進(jìn)后的SPPF模塊

2.3 MPSA-YOLOv5主干網(wǎng)絡(luò)

YOLOv5s算法具有體積小、檢測(cè)效果好等特點(diǎn)，尤其是加強(qiáng)了對(duì)小物體的識(shí)別能力。因此選擇其作為基準(zhǔn)網(wǎng)絡(luò)。但是結(jié)合目前的研究進(jìn)展和實(shí)際應(yīng)用情況來(lái)看，YOLOv5s仍具有進(jìn)一步的改進(jìn)空間，改進(jìn)后的MPSA-YOLOv5主干網(wǎng)絡(luò)整體結(jié)構(gòu)如表1所示。

其中From列數(shù)字表示對(duì)應(yīng)層的輸出作為當(dāng)前層的輸入，而負(fù)數(shù)表示以當(dāng)前層為基準(zhǔn)，取前x層的輸出作為當(dāng)前層的輸入，例如-1，-2表示取前1，2層的輸出。Module列對(duì)應(yīng)當(dāng)前層模塊名稱(chēng)。Params列為當(dāng)前模塊具體參數(shù)量。Arguments列參數(shù)包括當(dāng)前層模塊的輸入通道數(shù)、輸出通道數(shù)、卷積核大小以及步長(zhǎng)等信息。

表1 MPSA-YOLOv5主干網(wǎng)絡(luò)結(jié)構(gòu)

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)基于Ubuntu20.04操作系統(tǒng)，使用PyTorch深度學(xué)習(xí)框架搭建模型，具體實(shí)驗(yàn)配置如下：CPU型號(hào)為Intel(R) Xeon(R) Gold 6142 CPU@2.60GHz，GPU型號(hào)為NVIDIA GeForce RTX 3060，內(nèi)存為16G，顯存為12G，并使用cuda11.1和cudnn8.1.1進(jìn)行加速計(jì)算。

3.2 數(shù)據(jù)集

NWPUVHR-10數(shù)據(jù)集[10-12]包含800個(gè)高分辨率的衛(wèi)星圖像，這些圖像是從Google Earth和Vaihingen數(shù)據(jù)集裁剪而來(lái)的，數(shù)據(jù)集分成10類(lèi)(飛機(jī)，輪船，儲(chǔ)罐，棒球場(chǎng)，網(wǎng)球場(chǎng)，籃球場(chǎng)，地面跑道，港口，橋梁和車(chē)輛)。其中正樣本圖像(至少包含一個(gè)目標(biāo))共計(jì)650張，負(fù)樣本圖像(背景圖片)共計(jì)150張，標(biāo)簽由專(zhuān)家手動(dòng)進(jìn)行標(biāo)注得到。由于采用監(jiān)督學(xué)習(xí)，因此只選用正樣本數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)之前，按照6∶2∶2的比例將正樣本數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。最終得到390張訓(xùn)練圖像，130張驗(yàn)證圖像，130張測(cè)試圖像。其中部分?jǐn)?shù)據(jù)集示例如圖4所示。

圖4 數(shù)據(jù)集示例

3.3 評(píng)價(jià)指標(biāo)

在目標(biāo)檢測(cè)的領(lǐng)域，召回率、精確率和平均精度均值(Mean Average Precision, mAP)通常用于評(píng)估目標(biāo)檢測(cè)算法的性能。其中召回率描述在所有正例的樣本中有多少被預(yù)測(cè)對(duì)的比例。精確率描述預(yù)測(cè)為正例的樣本中真實(shí)正樣本的比例[13]。計(jì)算公式如式(2)和式(3)所示。

(2)

(3)

其中R為召回率，P為精確率，TP為算法預(yù)測(cè)正確的正樣本個(gè)數(shù)，F(xiàn)N為算法預(yù)測(cè)錯(cuò)誤且判斷為負(fù)樣本的個(gè)數(shù)，F(xiàn)P為算法預(yù)測(cè)錯(cuò)誤但是判斷為正樣本的個(gè)數(shù)。

平均精度均值(Mean Average Precision, mAP)指的是數(shù)據(jù)集中每個(gè)類(lèi)別平均檢測(cè)精度(AP)的均值，具體公式如式(4)和式(5)所示。

(4)

(5)

其中公式(4)中AP值為PR曲線(xiàn)所圍成的面積，公式(5)中的n表示總類(lèi)別數(shù)。依據(jù)預(yù)測(cè)框和真實(shí)框的交并比(IoU)判斷是否檢測(cè)到物體，并在評(píng)估時(shí)統(tǒng)一將IoU閾值選定為0.5。具體公式如式(6)所示。

(6)

其中M表示預(yù)測(cè)框，N表示真實(shí)框。

3.4 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)使用原始YOLOv5s和MPSA-YOLOv5在相同數(shù)據(jù)集上進(jìn)行對(duì)比分析，在實(shí)驗(yàn)中，將輸入圖片大小設(shè)置為640×640，使用SGD優(yōu)化器優(yōu)化網(wǎng)絡(luò)，動(dòng)量為0.937，權(quán)重衰減系數(shù)為0.0005。初始學(xué)習(xí)率設(shè)置為0.01，為避免學(xué)習(xí)率過(guò)高導(dǎo)致模型訓(xùn)練時(shí)不穩(wěn)定，使用余弦退火算法[14]來(lái)對(duì)學(xué)習(xí)率進(jìn)行更新，最終學(xué)習(xí)率為0.001。Batch Size設(shè)置為16，訓(xùn)練epoch數(shù)設(shè)置為220。

圖5和圖6為MPSA-YOLOv5算法在訓(xùn)練過(guò)程中性能指標(biāo)的變化情況，圖5為訓(xùn)練集和驗(yàn)證集上損失值的變化情況，圖6為性能評(píng)估指標(biāo)值的變化情況。從圖5中可以看到，經(jīng)過(guò)220個(gè)epoch的訓(xùn)練，模型逐漸趨于穩(wěn)定。

圖5 loss變化曲線(xiàn)

圖6 性能指標(biāo)變化曲線(xiàn)

為了進(jìn)一步驗(yàn)證MPSA-YOLOv5的有效性，在設(shè)置的相同訓(xùn)練條件下訓(xùn)練其他幾種常見(jiàn)的目標(biāo)檢測(cè)算法，最終的實(shí)驗(yàn)分析結(jié)果如表2所示。

由表2可知，MPSA-YOLOv5儲(chǔ)油罐、網(wǎng)球場(chǎng)、橋梁三個(gè)類(lèi)別上的平均精度優(yōu)于其它算法，而在其余7類(lèi)目標(biāo)上也均處于較高水平。因此最終的平均精度均值達(dá)到91.4%，均優(yōu)于其他檢測(cè)算法，相比YOLOv3、YOLOX-S、YOLOv5s分別提高了2.8%、1.45%、1.7%。

3.5 實(shí)驗(yàn)效果圖

實(shí)驗(yàn)使用原始YOLOv5s和MPSA-YOLOv5算法對(duì)測(cè)試集進(jìn)行測(cè)試，圖7顯示了部分檢測(cè)圖片的對(duì)比結(jié)果。

圖7 MPSA-YOLOv5與原始YOLOv5s的檢測(cè)對(duì)比

對(duì)于圖7，其中上邊四張為原始YOLOv5s的檢測(cè)效果圖，可以明顯看到在橋梁、港口、艦船等目標(biāo)上均出現(xiàn)了漏檢現(xiàn)象，在車(chē)輛目標(biāo)上還出現(xiàn)了誤檢現(xiàn)象。相比之下，下面四張圖為MPSA-YOLOv5算法的檢測(cè)結(jié)果，基本解決了對(duì)目標(biāo)的漏檢和誤檢問(wèn)題，改進(jìn)后的網(wǎng)絡(luò)可以準(zhǔn)確給出正確的目標(biāo)框，提高目標(biāo)檢測(cè)的置信度，大大減少了誤判次數(shù)。

4 結(jié)論

文章提出了一種改進(jìn)的深度學(xué)習(xí)算法MPSA-YOLOv5用于遙感圖像檢測(cè)，同時(shí)經(jīng)過(guò)最終的實(shí)驗(yàn)結(jié)果表明，改進(jìn)后的模型MPSA-YOLOv5與原始YOLOv5s相比具有更高的檢測(cè)精度。綜合來(lái)看該算法是一種有效的遙感圖像檢測(cè)算法。由于數(shù)據(jù)集較小、硬件設(shè)備等問(wèn)題，因此檢測(cè)效果還存在進(jìn)一步優(yōu)化的空間，后續(xù)研究將考慮收集制作更復(fù)雜環(huán)境下的樣本，同時(shí)進(jìn)一步改進(jìn)網(wǎng)絡(luò)，提升模型的泛化性能，使得模型的檢測(cè)效果更佳。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡