国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于YOLOv5全局注意力和上下文增強(qiáng)的遙感圖像目標(biāo)檢測(cè)方法

2024-06-01 01:41:52楊新秀徐黎明馮正勇
關(guān)鍵詞:注意力精度特征

楊新秀 徐黎明 馮正勇

摘要:針對(duì)遙感圖像目標(biāo)密集排列,提出一種基于YOLOv5的全局注意力和上下文增強(qiáng)的遙感圖像目標(biāo)檢測(cè)算法。首先,在主干網(wǎng)絡(luò)CSPDarknet53的尾部將C3模塊替換為Transformer Encoder模塊,利用全局注意力捕獲目標(biāo)和周圍環(huán)境信息;再引入上下文增強(qiáng)模塊,利用不同的分支結(jié)構(gòu)獲得側(cè)重于大、中、小目標(biāo)的特征信息;后處理中將NMS替換為DIoU_NMS,有效去除密集排列目標(biāo)的冗余框,改善檢測(cè)效果。在RSOD數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試,與原網(wǎng)絡(luò)相比,精度提升了13.9%,在飛機(jī)數(shù)據(jù)集進(jìn)行了消融試驗(yàn),驗(yàn)證了模塊的有效性。

關(guān)鍵詞:遙感目標(biāo)檢測(cè);YOLOv5算法;上下文增強(qiáng);Transformer模塊

中圖分類號(hào):TP751.1文獻(xiàn)標(biāo)志碼:A文章編號(hào):1673-5072(2024)03-032106

近年來,航天遙感技術(shù)不斷發(fā)展,吉林一號(hào)、遙感三十四號(hào)03星等新一批遙感探測(cè)衛(wèi)星相繼成功發(fā)射,我國(guó)正在建立一個(gè)種類齊全、體系完整的遙感空間探測(cè)系統(tǒng),遙感圖像目標(biāo)檢測(cè)廣泛應(yīng)用在軍用和民用兩方面。

遙感圖像目標(biāo)檢測(cè)算法大多是由自然圖像目標(biāo)檢測(cè)算法改進(jìn)而來。90年代前,傳統(tǒng)目標(biāo)檢測(cè)算法是基于手動(dòng)設(shè)計(jì)特征,通過對(duì)圖像進(jìn)行區(qū)域選取、特征提取和分類器分類三步驟處理圖像,然而人工設(shè)計(jì)的特征較為單一,且基于滑窗的方法計(jì)算量巨大,適用于有明顯特征、背景簡(jiǎn)單的環(huán)境。基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法往往能檢測(cè)復(fù)雜多密集目標(biāo)的環(huán)境,基于有無候選框的生成,該算法被分為單階段目標(biāo)檢測(cè)算法和二階段目標(biāo)檢測(cè)算法。

目前,根據(jù)遙感圖像的自身特點(diǎn),眾多學(xué)者選擇單階段目標(biāo)檢測(cè)算法來攻克具有挑戰(zhàn)性的難題,其中,針對(duì)遙感圖像目標(biāo)尺寸差異大的特點(diǎn),Chalavadi等[1]提出在主干網(wǎng)絡(luò)EfficientNet中引入不同采樣率的空洞卷積,更好地提取上下文信息;Wang等[2]提出了具有上下文信息細(xì)化的單階段檢測(cè)算法。針對(duì)遙感圖像背景噪聲多,易受干擾的問題,Li等[3]提出TRD網(wǎng)絡(luò),聚合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于自注意力的網(wǎng)絡(luò)(Transformer)。針對(duì)目標(biāo)密集排列的特點(diǎn),張?jiān)谱舻龋?]設(shè)計(jì)了RotateSoftNMS,通過抑制檢測(cè)框的置信度去除相鄰的重復(fù)檢測(cè)框。肖振久等[5]采用PSRRMaxpoolNMS替換原非極大值抑制算法進(jìn)行后處理。

為提高遙感圖像目標(biāo)檢測(cè)的精度,本文在單階段目標(biāo)檢測(cè)算法YOLOv5基礎(chǔ)上提出了全局注意力和上下文增強(qiáng)網(wǎng)絡(luò)(Globalaware and Context Enhancement,GCENet),主要?jiǎng)?chuàng)新點(diǎn)和貢獻(xiàn)有:(1)針對(duì)遙感圖像背景復(fù)雜,目標(biāo)像素占比少的特點(diǎn),提出上下文增強(qiáng)模塊(Comtext Enhancement,CE),有效提取不同側(cè)重點(diǎn)的特征信息;(2)針對(duì)目標(biāo)排列密集的特點(diǎn),在網(wǎng)絡(luò)后處理中將NMS替換為DIOU_NMS,有效去除冗余檢測(cè)框,改善檢測(cè)效果。

1改進(jìn)YOLOv5目標(biāo)檢測(cè)算法

1.1網(wǎng)絡(luò)模型本文在YOLOv5基礎(chǔ)上提出了全局注意力和上下文增強(qiáng)網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,為提高特征利用率,增強(qiáng)網(wǎng)絡(luò)的魯棒性,將主干網(wǎng)絡(luò)CSPDarknet53尾部的C3模塊替換為Transformer Encoder結(jié)構(gòu);為了實(shí)現(xiàn)不同感受野的特征融合,有效提取出不同尺寸目標(biāo)的特征信息,在檢測(cè)層引入CE模塊,選用不同采樣率的卷積核進(jìn)行卷積;在后處理中將原網(wǎng)絡(luò)使用的NMS替換為DIoU_NMS[7],有效去除冗余的檢測(cè)框,改善檢測(cè)效果。

1.2Transformer Encoder結(jié)構(gòu)受TPHYOLOv5結(jié)構(gòu)的影響,本文將主干結(jié)構(gòu)CSPDarknet53尾部的C3模塊替換為Transformer Encoder模塊。該模塊包括MLP和MultiHead Attention模塊,由于主干末端的特征圖屬于低分辨率,該模塊可以放大輸入圖像的分辨率,同時(shí)降低計(jì)算量和存儲(chǔ)成本,有效捕獲全局目標(biāo)和周圍環(huán)境信息。公式(1)中Q是查詢向量,K是鍵向量,V是值向量,KT代表鍵向量的轉(zhuǎn)置,計(jì)算權(quán)重系數(shù)是根據(jù)Q獲取每個(gè)K對(duì)應(yīng)的分?jǐn)?shù),再除以dk以保持正態(tài)分布,之后利用softmax求出概率分布,再將得到的權(quán)重系數(shù)與V相乘得到自注意力(Attention(Q,K,V))。公式(2)表示并行計(jì)算不同維度下的自注意力,從而得到單頭部的自注意力(headi),通過不同位置的共同關(guān)注來映射子空間的不同信息,W代表并行計(jì)算不同維度的自注意力時(shí)可學(xué)習(xí)的參數(shù)。公式(3)表示合并所有的單頭部自注意力得到多頭注意力(MultiHead (Q,K,V)),W0代表拼接單頭部注意力時(shí)可學(xué)習(xí)的參數(shù)。

1.3上下文增強(qiáng)模塊如圖2所示,CE模塊包含CELarge(CEL)和CESmall(CES),CEL模塊用于高分辨率圖像,CES模塊用于低分辨率圖像。在結(jié)構(gòu)上,CE模塊包含上下兩部分,上半部分是4個(gè)并行分支,對(duì)于同一階段的信息進(jìn)行采樣率不同的卷積處理,獲得側(cè)重于大、中、小目標(biāo)的特征信息;再拼接合并不同層的信息,下半部分是2個(gè)并行分支,通過不同的池化獲得局部突出特征。

上半部分先壓縮通道數(shù)為C/4,第一個(gè)分支是殘差結(jié)構(gòu)確保梯度持續(xù)存在,其余3個(gè)分支設(shè)置不同的采樣率。對(duì)于CEL模塊的后3個(gè)分支,采樣率分別為2、4、6,設(shè)置較大的長(zhǎng)寬比是為了在不引入較多參數(shù)量的情況下,用于較大目標(biāo)特征信息的獲取;對(duì)于CES模塊的后3個(gè)分支,采樣率分別為1、2、3,設(shè)置較小的長(zhǎng)寬比是由于目標(biāo)物狹小,但為了獲取較多的細(xì)節(jié)信息,所以提取小范圍內(nèi)潛在小目標(biāo)的語(yǔ)義信息。最后將拼接合并得到的特征信息,再通過一個(gè)1×1的卷積層擴(kuò)張通道數(shù)為C。

下半部分先采用最大池化,減少過擬合現(xiàn)象,獲得具有最大像素值的特征圖;再采用平均池化去除冗余特征信息,獲得全局特征,在輸出端拼接起來;最后,再通過3×3的卷積層增強(qiáng)模型的非線性表達(dá)能力,有效去除背景噪聲,更好地鎖定和聚焦大、小目標(biāo)。

CE模塊充分考慮了SAR圖像目標(biāo)的離散特性,極大地抑制復(fù)雜背景中的噪聲。

1.4DIoU_NMS將原網(wǎng)絡(luò)后處理中的NMS替換為DIoU_NMS,抑制冗余預(yù)測(cè)框,能夠有效緩解密集目標(biāo)出現(xiàn)遮擋容易產(chǎn)生錯(cuò)誤抑制的問題。在篩選真值框和預(yù)測(cè)框重疊達(dá)到50%以上的錨框時(shí),不僅考慮重疊的影響,也考慮預(yù)測(cè)框和真值框中心點(diǎn)之間的距離,篩選找到最優(yōu)框,改善檢測(cè)效果。通過實(shí)驗(yàn)發(fā)現(xiàn)替換后,當(dāng)模型對(duì)目標(biāo)產(chǎn)生重疊的預(yù)測(cè)框時(shí),逐一算出得分最高的檢測(cè)框和其他檢測(cè)框?qū)?yīng)的DIoU的值,超過閾值就過濾掉,最終篩選出的最佳錨框能夠改善網(wǎng)絡(luò)對(duì)遙感圖像密集排列目標(biāo)的檢測(cè)效果。

2試驗(yàn)

2.1試驗(yàn)參數(shù)

本文使用的硬件環(huán)境是64位Windows 10,GPU使用的是NVIDIA Tesla V100SXM2 32GB,CUDN是100版,CUDNN是10.1版,學(xué)習(xí)框架是Pytorch 1.2.0。

2.2數(shù)據(jù)集

本文所使用的數(shù)據(jù)集是飛機(jī)數(shù)據(jù)集和RSOD數(shù)據(jù)集。飛機(jī)數(shù)據(jù)集來源于DOTA數(shù)據(jù)集[8],其中包含400 000個(gè)目標(biāo)實(shí)例,涵蓋15個(gè)類別。先通過圖像切割和增廣等數(shù)據(jù)處理方法擴(kuò)充DOTA數(shù)據(jù)集,再將數(shù)據(jù)集的原始標(biāo)簽文件的格式轉(zhuǎn)換為YOLO格式,之后從DOTA數(shù)據(jù)集中識(shí)別并記錄文件中飛機(jī)目標(biāo)的索引“3”,將其對(duì)應(yīng)的飛機(jī)圖像和標(biāo)簽文件抽取出來,最終構(gòu)建了飛機(jī)數(shù)據(jù)集作為消融試驗(yàn)的數(shù)據(jù)集,其中包含11 388張遙感圖像和13 831個(gè)目標(biāo)實(shí)例用于訓(xùn)練,并將結(jié)果與其他CE模塊作對(duì)比。RSOD數(shù)據(jù)集包含4個(gè)類別共936張遙感圖像,從中隨機(jī)選取742張圖片作為訓(xùn)練集,194張圖片作為測(cè)試集,并將測(cè)試集結(jié)果作為對(duì)比試驗(yàn)的數(shù)據(jù)集。

2.3指標(biāo)評(píng)估為了評(píng)估目標(biāo)檢測(cè)方法的有效性,本文采用5種衡量檢測(cè)結(jié)果優(yōu)劣的評(píng)價(jià)指標(biāo)。

式中:TP是準(zhǔn)確預(yù)測(cè)正樣本的數(shù)量;FP是誤檢為正樣本的負(fù)樣本的數(shù)量;FN表示預(yù)測(cè)為負(fù)樣本的正樣本的數(shù)量;平均精度(AP)是PR曲線所圍成的面積表示該類別的平均精度值;類平均準(zhǔn)確率(mAP)是所有類別精度的平均值;F1是準(zhǔn)確率和召回率的加權(quán)平均值;n代表樣本量;N代表總量。

AP50表示交并比(IoU)為50%時(shí)AP的均值;AP50:95表示交并比(IoU)從50%到95%每間隔5%時(shí)AP的均值,下同。

將本文算法與其他經(jīng)典算法在RSOD數(shù)據(jù)集上進(jìn)行了比對(duì),如表1所示,本文算法相較于YOLOv5算法的精度提升了13.9%,相較于SSD、Faster RCNN、YOLOv3、YOLOv4算法檢測(cè)精度分別提升了21.1%、170%、159%和97%,本文算法在飛機(jī)和立交橋目標(biāo)的檢測(cè)精度均高于經(jīng)典算法。

為驗(yàn)證CE模塊的有效性,試驗(yàn)了3種較為前沿的同類型模塊,結(jié)果如表2所示,本文的CE模塊檢測(cè)精度最高,其值達(dá)到975%,說明能有效擴(kuò)大感受野,有效提取側(cè)重于大、中、小目標(biāo)的特征信息。以消融試驗(yàn)在飛機(jī)數(shù)據(jù)集上驗(yàn)證各模塊的有效性,對(duì)比了飛機(jī)檢測(cè)精度,參數(shù)量,每秒10億次浮點(diǎn)運(yùn)算次數(shù)(GRLOPS)和模型大小等評(píng)價(jià)指標(biāo),結(jié)果如表3所示。當(dāng)引入Transformer Encoder模塊后精度提升了0.4%,當(dāng)引入CE模塊后精度提升了0.3%,當(dāng)2個(gè)模塊一起加入后精度提升了0.5%,表明加入Transformer Encoder模塊有利于在相似背景下捕獲目標(biāo)及周圍環(huán)境信息,加入CE模塊有利于模型獲取側(cè)重于大、中、小目標(biāo)的特征信息。雖然本文算法小幅增加了模型的參數(shù)量和模型容量,但對(duì)于當(dāng)前存儲(chǔ)設(shè)備,完全有能力存放。將后處理中的NMS替換為DIoU_NMS后,減少了飛機(jī)目標(biāo)的冗余框,改善了密集排列目標(biāo)的檢測(cè)效果,如圖3所示。

3結(jié)語(yǔ)

試驗(yàn)結(jié)果表明,在飛機(jī)數(shù)據(jù)集中、驗(yàn)證了CE模塊的有效性;在RSOD數(shù)據(jù)集上,相較于基準(zhǔn)算法YOLOv5的精度提升了13.9%,相較于SSD、Faster RCNN、YOLOv3、YOLOv4算法分別提升了21.1%、170%、15.9%和9.7%,將NMS替換為DIoU_NMS能有效去除冗余框,有效解決小目標(biāo)密集排列漏檢的問題,降低虛警率有利于更好地展現(xiàn)目標(biāo)檢測(cè)的性能。

因此,本文提出的算法提高了遙感圖像目標(biāo)檢測(cè)算法的檢測(cè)精度,為遙感圖像目標(biāo)檢測(cè)的應(yīng)用技術(shù)提供了可行的參考方案,但未來還有許多改進(jìn)方向值得進(jìn)一步嘗試。因此,在未來,將針對(duì)輕量化方向進(jìn)行網(wǎng)絡(luò)優(yōu)化,在嵌入式設(shè)備上進(jìn)行部署,對(duì)網(wǎng)絡(luò)的可移植性進(jìn)行測(cè)評(píng),得到適用于不同硬件的檢測(cè)結(jié)果。

參考文獻(xiàn):

[1]CHALAVADI V,JERIPOTHULA P,DATLA R,et al.mSODANet:A network for multiscale object detection in aerial images using hierarchical dilated convolutions[J].Elsevier.2022,126:110.

[2]WANG Y,XU X F,LIU C W,et al.Context information refinement for fewshot object detection in remote Sensing images[J].Remote Sensing.2022,14(14):118.

[3]LI Q Y,CHEN Y S,ZENG Y.Transformer with transfer CNN for remotesensingimage object detection[J].Remote Sensing.2022,14(4):121.

[4]張?jiān)谱?,郭威,李文?遙感圖像密集小目標(biāo)全方位精準(zhǔn)檢測(cè)算法[J/OL].吉林大學(xué)學(xué)報(bào)(工學(xué)版),(20220905)[20221210]:http://doi.org/10.13229/j.cnki.jdxbgxb20220715.

[5]肖振久,楊玥瑩,孔祥旭.基于改進(jìn)YOLOv4的遙感圖像目標(biāo)檢測(cè)方法[J].激光與光電子學(xué)進(jìn)展,2023,60(6):407415.

[6]ZHU X K,LYU S C,WANG X,et al.TPHYOLOv5:improved YOLOv5 based on transformer prediction head for object detection on dronecaptured scenarios[C]// Proceedings of IEEE International Conference on Computer Vision Workshop.Piscataway:IEEE,2021:111.

[7]ZHENG Z H,WANG P,LIU W,et al.DistanceIoU loss:faster and better learning for bounding box regression[C]// Proceedings of AAAI Conference on Artificial Intelligence.Menlo Park:AAAI,2020:18.

[8]XIA G S,BAI X,DING J,et al.DOTA:A largescale dataset for object detection in aerial Images[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2018.

[9]LIU W,ANGUELOV D,ERHAN,D,et al.SSD:Single shot MultiBox detector[C]// Proceedings of European Conf erence on Computer Vision.Berlin:Springer,2016:2137.

[10]REN S Q,HE K M,GIRSHICK R,et al.Faster RCNN:towards realtime object detection with region proposal networks [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2016:1-14.

[11]REDMON J,F(xiàn)ARHADI A.YOLOv3:An incremental improvement[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2018:1-6.

[12]BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:optimal speed and accuracy of object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2020:1-17.

[13]JOCHER G.YOLOv5[EB/OL].[20200610] [20231210].https://github.com/ultralytics/yolov5.

[14]ZHANG P,XU H,TIAN T,et al.SFRENet:scattering feature relation enhancement network for aircraft detection in SAR images[J].Remote Sensing.2022,14(9):1-18.

[15]肖進(jìn)勝,趙陶,周劍,等.基于上下文增強(qiáng)和特征提純的小目標(biāo)檢測(cè)網(wǎng)絡(luò)[J].計(jì)算機(jī)研究與發(fā)展,2023,60(2):465-474.

Detection Method of Remote Sensing Image TargetsBased on YOLOv5 with Globalaware and Context Enhancement

YANG Xinxiuac, XU Limingb,F(xiàn)ENG Zhengyongc

(a.School of Physics and Astronomy,b.School of Computer Science,c.School of Electronic Information Engineering,China West Normal University,Nanchong Sichuan 637009,China)

Abstract:On account of the dense arrangement of remote sensing image targets,a detection algorithm of remote sensing image targets is proposed on the basis of YOLOv5 with globalaware and Context Enhancement network.Firstly,the C3 module is replaced with the Transformer Encoder module at the tail of the backbone CSPDarknet53,and global attention is utilized to capture the targets and surrounding environment information;then,the Context Enhancement module is introduced to obtain the feature information focused on large,medium and small targets by employing different branching structures;after that,the NMS is replaced by DIoU_NMS in postprocessing to effectively remove the redundant boxes of densely arranged targets and improve the detection effect.The network is tested on the RSOD dataset,and the precision is improved by 13.9% when compared with that of the original network.Ablation experiments are conducted on the aircraft dataset to verify the effectiveness of the module.

Keywords:detection of remote sensing targets;YOLOv5 algorithm;Context Enhancement;Transformer module

猜你喜歡
注意力精度特征
讓注意力“飛”回來
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
基于DSPIC33F微處理器的采集精度的提高
電子制作(2018年11期)2018-08-04 03:25:38
抓住特征巧觀察
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
GPS/GLONASS/BDS組合PPP精度分析
改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
贡山| 手机| 分宜县| 蓝田县| 衡阳县| 东港市| 庄浪县| 吴川市| 泉州市| 西贡区| 松滋市| 宜良县| 鸡东县| 扶沟县| 新化县| 上林县| 清远市| 丹寨县| 玉溪市| 桂林市| 罗平县| 嘉义县| 澳门| 新营市| 扬州市| 绥中县| 和田县| 庆云县| 油尖旺区| 郧西县| 应用必备| 祥云县| 玉环县| 江口县| 宁波市| 巴东县| 宜君县| 大名县| 娱乐| 葵青区| 麟游县|