聯(lián)合多尺度和注意力機(jī)制的遙感影像檢測(cè)

2021-05-14 06:29:22張朕通單玉剛

計(jì)算機(jī)工程與應(yīng)用 2021年9期

張朕通，單玉剛，袁杰

1.新疆大學(xué) 電氣工程學(xué)院，烏魯木齊830047

2.湖北文理學(xué)院教育學(xué)院，湖北襄陽441053

遙感影像檢測(cè)一直是遙感圖像領(lǐng)域的熱點(diǎn)研究方向。遙感圖像中的目標(biāo)檢測(cè)對(duì)于城市監(jiān)控、農(nóng)作物檢測(cè)、環(huán)境探測(cè)都有重要意義。遙感影像有其獨(dú)特的特點(diǎn)，使得遙感目標(biāo)檢測(cè)比普通的目標(biāo)檢測(cè)更具有挑戰(zhàn)性，研究人員針對(duì)遙感目標(biāo)的特殊性提出了許多相應(yīng)的解決方案。為了解決遙感圖像中信息量大，數(shù)據(jù)非線性的問題，文獻(xiàn)[1]使用光譜、紋理、形狀等特征從不同角度分析圖像，并對(duì)多個(gè)特征進(jìn)行線性組合，提高了檢測(cè)精度。文獻(xiàn)[2]提出一種流形學(xué)習(xí)計(jì)算遙感特征信息低維投影矩陣，通過優(yōu)化最小誤差重建輸入特征。文獻(xiàn)[3]提出了按塊低秩分解的方法，將特征降維處理。為了解決遙感影像不同于自然圖像的水平視角的問題，文獻(xiàn)[4]提出了建立旋轉(zhuǎn)不變性特征的方法。為了解決檢測(cè)區(qū)域內(nèi)地物突變的情況，文獻(xiàn)[5]提出了結(jié)合MNF變換和Canny 算子方法。針對(duì)遙感影像中同類目標(biāo)尺度變化大的問題，文獻(xiàn)[6]基于相鄰區(qū)域生長(zhǎng)的最小異質(zhì)性準(zhǔn)側(cè)，提出了一種面向?qū)ο蟮亩喑叨葯z測(cè)算法。文獻(xiàn)[7]利用多尺度多方向梯度算子提取遙感圖像特征，提高了提取特征的魯棒性。

近年來，隨著人工智能在計(jì)算機(jī)視覺領(lǐng)域的發(fā)展，出現(xiàn)了大量使用深度學(xué)習(xí)檢測(cè)目標(biāo)的相關(guān)研究成果。深度學(xué)習(xí)的檢測(cè)方法一般分為單階段和雙階段兩種類型，例如文獻(xiàn)[8]提出一種雙階段算法，借鑒滑動(dòng)窗口思想，通過算法產(chǎn)生一系列目標(biāo)候選框后再進(jìn)行分類和回歸。而文獻(xiàn)[9]僅僅使用卷積神經(jīng)網(wǎng)進(jìn)行預(yù)測(cè)，直接對(duì)目標(biāo)位置和所屬類別進(jìn)行回歸。兩種方法各有利弊，雙階段方法在準(zhǔn)確率上有一定優(yōu)勢(shì)，單階段方法則速度比較快。也有研究將傳統(tǒng)的目標(biāo)識(shí)別方法和深度學(xué)習(xí)方法相結(jié)合，文獻(xiàn)[10]在深度學(xué)習(xí)的基礎(chǔ)上使用馬爾科夫隨機(jī)場(chǎng)銳化領(lǐng)域像素改善檢測(cè)位置信息丟失的情況，精細(xì)化檢測(cè)結(jié)果。文獻(xiàn)[11]提出了基于柯西分布的子圖像隨機(jī)剪切方法，將采集到的子圖模型送入金字塔池化模塊進(jìn)行訓(xùn)練。文獻(xiàn)[12]在目標(biāo)檢測(cè)前對(duì)數(shù)據(jù)中各類目標(biāo)按大小聚類，劃分出多組先驗(yàn)框來。深度學(xué)習(xí)雖然相較傳統(tǒng)方法提取特征效果好，但是依然有許多不足，訓(xùn)練推理時(shí)間長(zhǎng)，需要數(shù)據(jù)樣本多，制約了其在實(shí)際工程項(xiàng)目中的應(yīng)用。針對(duì)此問題，本文提出了一種聯(lián)合多尺度和注意力機(jī)制的遙感影像檢測(cè)算法，并采用了最新優(yōu)化算法尋優(yōu)，實(shí)驗(yàn)結(jié)果表明本文網(wǎng)絡(luò)在提高速度的同時(shí)保證了檢測(cè)精度。

1 改進(jìn)網(wǎng)絡(luò)方法

1.1 多尺度網(wǎng)絡(luò)設(shè)計(jì)

本文的主干網(wǎng)絡(luò)共由8 個(gè)卷積層和6 個(gè)池化層組成，使用最大池化層下采樣，使用3×3 卷積提取目標(biāo)相關(guān)特征，使用1×1 卷積融合通道間特征。在圖像領(lǐng)域，目標(biāo)特征在特征圖中數(shù)值較大，最大池化的作用就是將領(lǐng)域內(nèi)數(shù)值較大的顯著特征保留下來，使得下采樣時(shí)不會(huì)影響識(shí)別結(jié)果，去除冗余信息，避免模型過擬合。YOLOv3 中采用卷積下采樣，假設(shè)輸入維度為(H,W,M)，步長(zhǎng)為2不考慮偏置，卷積核大小為(K,K,N)，則卷積的參數(shù)量為K×K×M×N，最大池化直接輸出鄰域最大值無需儲(chǔ)存參數(shù)，卷積的計(jì)算量為K×K×H×W×M×N/4，最大池化計(jì)算量為H×W×M×3/4 遠(yuǎn)小于前者，并且最大池化不含超參數(shù)不用執(zhí)行反向傳播。綜上最大池化能夠有效保留目標(biāo)特征同時(shí)降低計(jì)算量，加快模型推理速度。本文借鑒了Yolo[12]提出了輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)（Yolo-3d），加入本文提出的三維注意力機(jī)制，適用要求實(shí)時(shí)性的遙感目標(biāo)檢測(cè)例如無人機(jī)導(dǎo)航及軍事制導(dǎo)，具有一定的可行性。因?yàn)檫b感影像中目標(biāo)尺度差異較大并且經(jīng)常存在小目標(biāo)，而高層卷積特征中每個(gè)像素感受野大包含信息較多，小目標(biāo)容易和背景信息融合被忽略。而低層特征圖尺度大，感受野較小，能夠有效捕捉到小目標(biāo)的特征信息，但是低層特征中多為目標(biāo)局部特征，目標(biāo)整體語義信息缺少，所以將中層特征及高層特征上采樣與低層特征融合，將目標(biāo)局部信息和整體信息相結(jié)合，可以有效提高遙感影像中小目標(biāo)物體的檢測(cè)準(zhǔn)確率。本文設(shè)計(jì)了多條檢測(cè)支路，在多種尺度的特征圖上檢測(cè)目標(biāo)，以增加網(wǎng)絡(luò)對(duì)不同大小目標(biāo)的檢測(cè)性能。本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 本文網(wǎng)絡(luò)（Yolo-3d）

本文使用k-means 對(duì)數(shù)據(jù)集中標(biāo)注的檢測(cè)框聚類來加速訓(xùn)練和提高準(zhǔn)確性。綜合考慮到遙感檢測(cè)的實(shí)時(shí)性和準(zhǔn)確性，本文共設(shè)置9個(gè)聚類點(diǎn)，得到9組不同大小比例的先驗(yàn)框。圖中使用第17 層特征圖（13×13）檢測(cè)較大目標(biāo)，每個(gè)特征點(diǎn)代表原圖32×32個(gè)像素的特征信息，比較適合檢測(cè)較大的目標(biāo)，先驗(yàn)框?yàn)椋?34×132）（264×387）（442×407）；使用第15 層特征上采樣和第10層特征融合得到特征圖（26×26），每個(gè)特征點(diǎn)代表原圖16×16 個(gè)像素的特征信息，用來檢測(cè)中等大小目標(biāo)，先驗(yàn)框?yàn)椋?8，62）（88，82）（111，108）；使用第15層和第10層融合后的特征上采樣與第8 層特征再次融合的特征圖（52×52），每個(gè)特征點(diǎn)代表8×8個(gè)像素的特征信息，用來檢測(cè)小目標(biāo)，先驗(yàn)框?yàn)椋?5，22）（39，35）（54，48）。綜上所述，本文設(shè)計(jì)了3 個(gè)不同尺度的檢測(cè)支路，并通過聚類得到9種先驗(yàn)框，將經(jīng)過拼接和卷積的不同層特征圖融合，與先驗(yàn)框匹配檢測(cè)相應(yīng)尺度的目標(biāo)，改進(jìn)網(wǎng)絡(luò)能夠有效應(yīng)對(duì)數(shù)據(jù)集中各種尺度遙感目標(biāo)分布不均的情況，提高檢測(cè)準(zhǔn)確率。每個(gè)先驗(yàn)框預(yù)測(cè)一個(gè)十維向量，包含邊框坐標(biāo)，置信度和類別概率。損失函數(shù)分為坐標(biāo)誤差，置信度誤差和分類誤差。本文為了減少訓(xùn)練時(shí)間，節(jié)約計(jì)算成本，使用了遷移學(xué)習(xí)技術(shù)，將預(yù)訓(xùn)練過的部分參數(shù)作為模型構(gòu)建的起始點(diǎn)。

1.2 注意力機(jī)制設(shè)計(jì)

深度學(xué)習(xí)目標(biāo)檢測(cè)中的注意力[13]機(jī)制本質(zhì)上是給不同的像素賦予不同的權(quán)重，使其能夠更加關(guān)注有效信息。卷積神經(jīng)網(wǎng)絡(luò)除了學(xué)習(xí)到目標(biāo)的特征外，還包含了大量無效背景信息，這就會(huì)導(dǎo)致在神經(jīng)元中含有大量背景信息，影響檢測(cè)性能。另外YOLOv3 中使用Darknet53為主干網(wǎng)含有53個(gè)卷積層和11個(gè)殘差單元，為了保證梯度信息的反向傳播，殘差單元對(duì)于深層的網(wǎng)絡(luò)是必不可少的，大量的卷積層和殘差單元造成了參數(shù)量和計(jì)算量增加。而本文網(wǎng)絡(luò)為了保證實(shí)時(shí)性網(wǎng)絡(luò)層數(shù)較少不會(huì)出現(xiàn)梯度消失的現(xiàn)象，所以沒有采用殘差單元。但是較淺的網(wǎng)絡(luò)也有弊端，卷積層數(shù)少會(huì)導(dǎo)致邊緣特征信息不易捕捉，學(xué)習(xí)的特征表現(xiàn)不夠好，導(dǎo)致池化時(shí)有效特征不夠明顯影響識(shí)別精度。針對(duì)這個(gè)問題，提出三維注意力機(jī)制將目標(biāo)的位置、邊緣等相對(duì)重要特征提取出來并賦予較高的權(quán)重，對(duì)于特征相對(duì)不明顯的背景，降低其權(quán)重，達(dá)到抑制目的，從而在池化時(shí)保留住目標(biāo)區(qū)域的特征，提高檢測(cè)性能。

本文設(shè)計(jì)的注意力機(jī)制結(jié)構(gòu)如圖2所示，能夠從通道、行和列三個(gè)維度上給每個(gè)像素分配合適的權(quán)重。根據(jù)模型的首層特征圖，獲得通道、行和列注意力權(quán)重圖，然后分別將其和原特征圖點(diǎn)乘，得到帶有權(quán)重的特征圖，計(jì)算公式如公式（1）所示：

其中，F(xiàn)為原特征圖，F(xiàn)′為輸出特征圖，?為矩陣間元素點(diǎn)乘，*為卷積操作，Mc(F)為通道注意力圖，Mr(F)為行注意力圖，Ml(F)為列注意力圖，G為卷積核。

每個(gè)注意力模塊計(jì)算的是除自身外其余兩個(gè)維度的特征壓縮值，使用最大池化和平均池化兩種池化操作得到兩個(gè)不同的矩陣。其中通道維度的兩個(gè)矩陣首先使用1×1 卷積降維，再進(jìn)行特征融合升維，最終得到和通道長(zhǎng)度一致的一維向量。行和列的矩陣則先使用特征拼接，再使用3×1或1×3卷積聚合特征，同樣得到和自身長(zhǎng)度一致的一維向量。通過兩種池化操作顯著和連續(xù)的特征被提取出來，后續(xù)的卷積操作將相關(guān)特征關(guān)聯(lián)起來，最終得到3組權(quán)重值，使用sigmod激活函數(shù)將權(quán)重歸一化到0～1 之間。通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練更新注意力機(jī)制參數(shù)，最后將三個(gè)維度矩陣相加得到三維權(quán)重圖，采用矩陣加和操作也可以有效降低計(jì)算量。加入注意力機(jī)制后，本文設(shè)計(jì)網(wǎng)絡(luò)的參數(shù)量依然遠(yuǎn)少于YOLOv3網(wǎng)絡(luò)，在速度上對(duì)比YOLOv3上有明顯優(yōu)勢(shì)，并且在精度上幾乎沒有下降。其中通道注意力計(jì)算方式如公式（2）所示，行和列注意力計(jì)算方式如公式（3）所示。

其中F是輸入特征圖，Mc(F)是通道注意力圖，Mi(F)為行或列注意力圖，MLP是多層神經(jīng)網(wǎng)絡(luò)，σ是激活函數(shù)，AvgPool是均值池化，MaxPool是最大池化。

圖2 三維注意力機(jī)制結(jié)構(gòu)圖

1.3 Lookhead優(yōu)化算法

SGD 優(yōu)化器因?yàn)樵诟鱾€(gè)維度上梯度的縮放是一致的，導(dǎo)致在訓(xùn)練數(shù)據(jù)分布不均勻的情況下尋優(yōu)效果不是很理想。而收斂速度較快的自適應(yīng)優(yōu)化算法，雖然在訓(xùn)練早期收斂較快，但是最后的表現(xiàn)卻不如SGD優(yōu)化器。為了改善自適應(yīng)優(yōu)化算法在訓(xùn)練后期學(xué)習(xí)率出現(xiàn)極端的情況，本文加入了Lookhead[14]優(yōu)化算法。Lookhead維護(hù)了速率不同的兩套權(quán)重，內(nèi)部循環(huán)使用了標(biāo)準(zhǔn)優(yōu)化器。Lookhead計(jì)算方法如下：

在內(nèi)部?jī)?yōu)化器的快速權(quán)重經(jīng)過k次更新后，Lookahead在權(quán)重空間中通過線性插值更新慢速權(quán)重，方向?yàn)閮?nèi)部?jī)?yōu)化器最后一次權(quán)重方向，可以有效避免模型學(xué)習(xí)率出現(xiàn)震蕩或收斂速度慢的現(xiàn)象。

2 結(jié)果分析與討論

2.1 實(shí)驗(yàn)配置與指標(biāo)

本文使用的遙感數(shù)據(jù)集是武漢大學(xué)團(tuán)隊(duì)提供的RSOD-Dataset[15]，包含了不同時(shí)間、角度和高度拍攝的飛機(jī)、操場(chǎng)、立交橋、油桶四類物體，共976張圖片，5 383個(gè)實(shí)例目標(biāo)，具有一定的代表性。實(shí)驗(yàn)環(huán)境配置為Intel?Core?i7-4720HQ處理器、8 GB內(nèi)存條，Nvidia GeForce GTX 950M 顯卡，操作系統(tǒng)為Win10，使用深度學(xué)習(xí)框架Pytorch[16]。

從數(shù)據(jù)集中隨機(jī)選取592 張圖片作為訓(xùn)練集進(jìn)行訓(xùn)練，72張圖片進(jìn)行驗(yàn)證，72張圖片進(jìn)行測(cè)試。訓(xùn)練時(shí)一個(gè)批次包含16 張圖片，Lookhead 的內(nèi)部?jī)?yōu)化器動(dòng)量設(shè)置為0.9。為了防止過擬合，權(quán)重衰減設(shè)置為0.000 5。采用動(dòng)態(tài)學(xué)習(xí)率，初始學(xué)習(xí)率設(shè)置為0.005，隨著迭代次數(shù)增加學(xué)習(xí)率逐漸降低。

本文使用了查準(zhǔn)率（P），查全率（R），MAP@0.5，F(xiàn)1作為實(shí)驗(yàn)指標(biāo)。F1 和MAP@0.5 兼顧了查準(zhǔn)率和查全率兩個(gè)指標(biāo)。MAP@0.5 是每類AP 的均值，而AP 是對(duì)P-R 曲線下方積分計(jì)算出的面積。F1 是查準(zhǔn)率和查全率的調(diào)和平均值，F(xiàn)1計(jì)算方式如公式（4）：

訓(xùn)練前將所有圖片縮放到416×416，共訓(xùn)練了400輪，迭代次數(shù)14 800次。改進(jìn)模型訓(xùn)練的loss曲線如圖3所示，可以看出loss值在200輪后值趨于穩(wěn)定，最終降低到3 左右。MAP@0.5 曲線由圖4 可知，MAP@0.5 同樣在200 輪左右逐漸穩(wěn)定，最終收斂到0.93 附近，最高可到0.945。

圖3 模型loss曲線

圖4 模型MAP@0.5曲線

本文使用了4 種指標(biāo)Yolo-tiny[17]、Yolo、Yolo-3d 進(jìn)行了詳細(xì)的對(duì)比。如表1所示，本文模型參數(shù)量比Yolotiny 略多，比Yolov3 參數(shù)少了一倍，但是最終的各項(xiàng)指標(biāo)查準(zhǔn)率達(dá)到了75.2%，查全率達(dá)到了96.1%，MAP@0.5 達(dá)到了94.5%，F(xiàn)1 達(dá)到了84.1%，相較于Yolo-tiny 均有較大提升，性能基本可以和Yolov3持平，在兼顧實(shí)時(shí)性的情況下保證了檢測(cè)精度。從表2 可以看出Yolotiny 模型檢測(cè)飛機(jī)和立交橋單類AP 表現(xiàn)較差，是因?yàn)轱w機(jī)目標(biāo)較小，并且和立交橋一樣自身特征信息不明顯，而Yolo-3d能夠有效改善這些問題，對(duì)這兩類目標(biāo)的AP 能夠提高3%左右。對(duì)于油罐和操場(chǎng)這些在原模型AP 較高的目標(biāo)，因?yàn)樗鼈儽旧砭哂歇?dú)特的特征信息有利于遙感目標(biāo)的檢測(cè)，本文模型對(duì)于這類目標(biāo)也能平均提高2%的AP。

表1 不同網(wǎng)絡(luò)模型指標(biāo)對(duì)比

表2 單個(gè)目標(biāo)在測(cè)試集AP對(duì)比

2.2 分類結(jié)果對(duì)比

為了驗(yàn)證本文設(shè)計(jì)模型在遙感影像目標(biāo)檢測(cè)方面的有效性，將Yolo-3d 與Yolo-tiny 檢測(cè)結(jié)果進(jìn)行對(duì)比。部分檢測(cè)圖片對(duì)比如圖5，（e）為Yolo-tiny 飛機(jī)檢測(cè)結(jié)果，對(duì)比原圖可以看出Yolo-tiny 只檢測(cè)到了部分目標(biāo)，（i）中Yolo-3d可以檢測(cè)到基本所有的飛機(jī)目標(biāo)，證明了本文模型對(duì)小目標(biāo)檢測(cè)的有效性。如圖（f）、（j），因?yàn)橛凸薜奶卣饕子跈z測(cè)，Yolo-tiny和本文模型都可以檢測(cè)到目標(biāo)，但是對(duì)于具體的目標(biāo)位置沒有改進(jìn)模型預(yù)測(cè)的準(zhǔn)確，檢測(cè)框部分有偏差，同時(shí)置信度不如本文模型。如圖（g）、（h），Yolo-tiny沒有預(yù)測(cè)出應(yīng)有的立交橋，預(yù)測(cè)操場(chǎng)出現(xiàn)了數(shù)量不符的現(xiàn)象，這是因?yàn)閅olo-tiny層數(shù)較淺不能很好地提取出目標(biāo)的必要特征信息，所以出現(xiàn)了位置丟失和回歸不準(zhǔn)確的現(xiàn)象，而（k）、（l）可以很準(zhǔn)確地預(yù)測(cè)出目標(biāo)的位置和類別。綜上所述，本文提出的Yolo-3d 能很好地識(shí)別這些遙感目標(biāo)。Yolo-3d 推理時(shí)間比Yolo-tiny略長(zhǎng)，主要是因?yàn)閷訑?shù)增多導(dǎo)致模型構(gòu)建時(shí)間變長(zhǎng)，但是依然可以滿足實(shí)時(shí)性的要求，在實(shí)際工程應(yīng)用中具備可行性。

圖5 多目標(biāo)檢測(cè)實(shí)驗(yàn)結(jié)果

3 結(jié)論

本文提出了一種聯(lián)合多尺度和注意力機(jī)制的遙感影像檢測(cè)算法。采用聚類的先驗(yàn)框匹配多條檢測(cè)支路，利用低層特征改善小目標(biāo)檢測(cè)準(zhǔn)確率，能夠適應(yīng)多種尺度的物體。提出了三維注意力機(jī)制能夠從三個(gè)維度上得到特征的自適應(yīng)權(quán)重，有效地提取遙感影像中目標(biāo)的語義信息。使用遷移學(xué)習(xí)技術(shù)和新的優(yōu)化算法節(jié)省了訓(xùn)練成本，提高了模型的性能。通過實(shí)驗(yàn)，比較了不同模型間檢測(cè)效果的差別，分析了不同模型的利弊。本文提出的算法能夠?qū)Ρ疚臄?shù)據(jù)集中的4 種遙感目標(biāo)實(shí)現(xiàn)準(zhǔn)確識(shí)別和檢測(cè)，同時(shí)兼顧實(shí)時(shí)性，滿足實(shí)際工程應(yīng)用中的需求。對(duì)于遙感影像目標(biāo)檢測(cè)的問題，隨著算法的進(jìn)步，有越來越多的可能應(yīng)用于各種實(shí)時(shí)的遙感檢測(cè)問題，如自然異常檢測(cè)、城市目標(biāo)檢測(cè)、軍事目標(biāo)檢測(cè)等，為人們的生活帶來便利。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡