国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于YOLOv8s改進的小目標檢測算法

2024-07-17 00:00:00雷幫軍余翱余快
無線電工程 2024年4期

摘 要:針對目標檢測任務(wù)中小目標尺寸較小、背景復(fù)雜、特征提取能力不足、漏檢和誤檢嚴重等問題,提出了一種基于YOLOv8s 改進的小目標檢測算法———Improvedv8s。Improvedv8s 算法重新設(shè)計了特征提取和特征融合網(wǎng)絡(luò),優(yōu)化檢測層架構(gòu),增強淺層信息和深層信息的融合,提高了小目標的感知和捕獲能力;在特征提取網(wǎng)絡(luò)中使用部分卷積(PartialConvolution,PConv) 和高效多尺度注意力(Efficient Multiscale Attention,EMA) 機制構(gòu)建全新的F_ C2 f_ EMA,在降低網(wǎng)絡(luò)參數(shù)量和計算量的同時,通過通道重塑和維度分組最大化保留小目標的特征信息;為了更好地匹配小目標的尺度,優(yōu)化調(diào)整SPPCSPC 池化核的尺寸,同時引入無參注意力機制(Simpleparameterfree Attention Module,SimAM),加強復(fù)雜背景下小目標特征提?。辉冢危澹悖?部分使用輕量級上采樣模塊———CARAFE,通過特征重組和特征擴張保留更多的細節(jié)信息;引入了全局注意力機制(Global Attention Mechanism,GAM) 通過全局上下文的關(guān)聯(lián)建模,充分獲取小目標的上下文信息;使用GSConv 和Effective SqueezeExcitation (EffectiveSE) 設(shè)計全新的G_E_C2 f,進一步降低參數(shù)量,降低模型的誤檢率和漏檢率;使用WIoU 損失函數(shù)解決目標不均衡和尺度差異的問題,加快模型收斂的同時提高了回歸的精度。實驗結(jié)果表明,該算法在VisDrone2019 數(shù)據(jù)集上的精確度(Precision)、召回率(Recall) 和平均精度(mean Average Precision,mAP) 為58. 5% 、46. 0% 和48. 7% ,相較于原始YOLOv8s 網(wǎng)絡(luò)分別提高了8% 、8. 5% 和9. 8% ,顯著提高了模型對小目標的檢測能力。在WiderPerson 和SSDD 數(shù)據(jù)集上進行模型泛化性實驗驗證,效果優(yōu)于其他經(jīng)典算法。

關(guān)鍵詞:小目標檢測;YOLOv8s;全局注意力機制;CARAFE;損失函數(shù)

中圖分類號:TP391. 4 文獻標志碼:A 開放科學(資源服務(wù))標識碼(OSID):

文章編號:1003-3016(2024)04-0857-14

0 引言

目標檢測是計算機視覺領(lǐng)域中一項重要而有挑戰(zhàn)性的任務(wù),旨在自動識別和定位圖像或視頻中的特定對象。隨著計算機視覺技術(shù)的迅猛發(fā)展和深度學習算法的廣泛應(yīng)用,目標檢測被廣泛應(yīng)用在人臉識別[1]、身份認證系統(tǒng)[2]和自動駕駛等領(lǐng)域。當前,以深度學習為代表的大目標檢測已經(jīng)取得了理想的效果,但是對微小目標檢測還處于探索階段。由于小目標尺度小、分辨率低、上下文信息不足、目標與背景之間的尺度失衡、缺乏位置的準確性,導(dǎo)致小目標檢測非常困難,誤檢和漏檢嚴重。小目標的定義目前有2 種:一種是相對尺寸大小,根據(jù)國際光學工程學會的定義,將圖像中物體的尺寸小于原始圖像大小0. 12% 的看作是小目標;另外一種是絕對尺寸大小,在MS COCO[3]數(shù)據(jù)集中將尺寸小于32 pixel×32 pixel 的目標視為小目標。目標檢測算法中對于小目標檢測的算法可以分為2 類:一類是傳統(tǒng)的目標檢測算法;另一類是基于深度學習的目標檢測算法。傳統(tǒng)目標檢測算法可以分為3 個步驟,首先通過特定方法生成一系列的候選框,然后提取目標的特征信息,最后設(shè)計合適的分類器,但是這類方法特征表示能力有限、缺乏上下文信息、計算復(fù)雜度高、難以應(yīng)對小目標復(fù)雜場景。基于深度學習的算法又可以細分為兩階段目標檢測(Twostage)算法和一階段目標檢測(One-stage)算法。Two-stage算法生成一系列目標候選區(qū)域,通過卷積神經(jīng)網(wǎng)絡(luò)對目標區(qū)域進行特征提取以分類和定位。這類經(jīng)典算法的代表有R-CNN[4]、Fast R-CNN[5]和Faster R-CNN[6],優(yōu)點是精度高檢測效果好,但由于計算量大、運行速度慢、實時性不高等問題難以在移動端設(shè)備上部署。One-stage 算法省略了先驗框的生成,通過回歸分析直接產(chǎn)生目標類別概率和預(yù)測框坐標信息。這類算法的代表有YOLOv1[7]、YOLOv2[8]、YOLOv3[9]、YOLOv4[10]、YOLOv5[11]、YOLOv8[12] 和SSD[13]等。由于計算量小、實時性高,應(yīng)用更加廣泛。

近年來在小目標檢測算法的研究中,吳明杰等[14]在YOLOv5s 中加入雙層路由注意力機制并采用動態(tài)目標檢測頭,解決小目標特征信息丟失和漏檢的問題,但是計算量和參數(shù)量增加較大。賈曉芬等[15]將深度可分離卷積和ECA 注意力機制結(jié)合設(shè)計輕量化的卷積模塊ECAConv,并在骨干網(wǎng)絡(luò)中引入跳躍連接構(gòu)建特征綜合提取單元EC3 ,有效增加了淺層信息的提取,降低網(wǎng)絡(luò)的參數(shù)量,但是檢測精度提升不明顯。余俊宇等[16]在YOLOv7 中加入集中特征金字塔和混合注意力模塊ACmix,加強網(wǎng)絡(luò)對小目標的敏感度,解決在檢測過程中受遙感目標尺度差異顯著和檢測背景復(fù)雜帶來的影響,但是存在一定的漏檢和誤檢。張徐等[17]在YOLOv7 中添加小目標檢測層,利用余弦注意力機制和后正則化方法設(shè)計了cosSTR 模塊,解決尺度變化范圍大以及目標特征信息過少的問題,但是對特征不明顯的目標仍然存在漏檢的情況。李子豪等[18]在主干網(wǎng)絡(luò)和特征增強網(wǎng)絡(luò)部分嵌入自適應(yīng)協(xié)同注意力機制模塊,同時優(yōu)化檢測頭設(shè)計,提升對小目標區(qū)域的關(guān)注度和檢測性能,但是對目標遮擋的情況還有待提高。這些方法都存在著一些不足,例如以參數(shù)量換取精度的提升、面對復(fù)雜場景小目標漏檢嚴重、實時性有待提高等。

針對小目標像素少、分辨率低、表達能力弱、背景信息復(fù)雜、誤檢和漏檢嚴重等問題,本文提出了一種基于YOLOv8s 改進的算法Improved-v8s,主要創(chuàng)新如下:

① 針對小目標尺度小、特征表達能力弱,重新設(shè)計了特征提取和特征融合網(wǎng)絡(luò),刪除大目標檢測層新增小目標檢測層,實現(xiàn)淺層信息和深層信息的充分融合,加強小目標特征的表征能力,實現(xiàn)小目標感受野的加權(quán)。

② 在特征提取部分,使用部分卷積(PartialConvolution,PConv ) [19]和高效多尺度注意力(Efficient Multi-scale Attention,EMA)機制[20]構(gòu)建了全新的F_C2 f_EMA 模塊,利用PConv 的特性有效降低了網(wǎng)絡(luò)的計算量和參數(shù)量,引入EMA 機制,通過通道重塑和維度分組最大化保留小目標的特征信息,提高檢測性能。

③ 使用無參注意力機制(Simple-parameter-freeAttention Module,SimAM)[21]和SPPCSPC 構(gòu)建了全新的SM_SPPCSPC 多尺度結(jié)構(gòu),針對小目標空間位置范圍小,重新調(diào)整了池化核的大小,適應(yīng)小目標的尺度,之后嵌入SimAM 進一步加強復(fù)雜背景下密集小目標特征提取能力,提升模型的魯棒性。

④ 在Neck 部分,為了進一步降低模型的參數(shù)量,使用鬼影混洗卷積(GSConv)[22]和EffectiveSE(Effective Squeeze-Excitation)注意力機制[23]構(gòu)建G_E_C2 f 模塊,在輕量化的同時降低小目標漏檢率和誤檢率。

1 YOLOv8s 算法

YOLOv8 是目前YOLO 系列中最新的One-stage算法,相較于其他主流目標檢測算法,其速度更快、精度更高、性能更好,在眾多任務(wù)上取得了SOTA 的成績。YOLOv8 目前一共有5 個版本:YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l 和YOLOv8x,考慮到計算速度、實時性和精度,本文選擇YOLOv8s 作為Baseline,在此基礎(chǔ)上改進和創(chuàng)新滿足小目標檢測的任務(wù)。相較于YOLOv5,YOLOv8 主要有兩大改進,首先檢測頭部分換成了當前主流的解耦頭,同時從Anchor-Based 變?yōu)椋粒睿悖瑁铮?Free;其次拋棄了以往IoU 匹配或者單邊比例的匹配方式,而是使用了Task-Aligned Assigner 正負樣本匹配方式,并引入了DFL loss。在數(shù)據(jù)增強部分借鑒了YOLOX[24]的思想,在最后10 個epoch 關(guān)閉Mosaic 數(shù)據(jù)增強,有效提升了精度。

2 Improved-v8s 總體網(wǎng)絡(luò)介紹

Improved-v8s 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,由Backbone、Neck 和Head 三部分構(gòu)成,其中Backbone負責特征信息的提??;Neck 增強骨干網(wǎng)絡(luò)提取的特征,引入多尺度信息,提高模型對小目標的感知能力;Head 生成目標檢測的最終輸出。Improved-v8s 共有4 個創(chuàng)新模塊和3 個現(xiàn)有工作改進點。首先針對小目標的特性,重新設(shè)計了特征提取和特征融合網(wǎng)絡(luò),豐富不同階段信息的融合,在原始網(wǎng)絡(luò)上刪除大目標檢測層,新增小目標檢測層,在大幅降低參數(shù)量,保證模型輕量化的同時,顯著提高了小目標檢測的精度;之后在Backbone 特征提取網(wǎng)絡(luò)使用PConv 和EMA 機制結(jié)合C2 f 設(shè)計了全新的F_C2 f_EMA 模塊,在有效降低網(wǎng)絡(luò)參數(shù)量和計算量的同時,跨空間處理短期和長期依賴,通過重塑通道和維度分組,保留更多小目標的信息。針對小目標空間位置小的特性,使用SimAM 和SPPCSPC 結(jié)構(gòu)設(shè)計了多尺度結(jié)構(gòu)SM_SPPCSPC,通過重新設(shè)計池化核的大小,適應(yīng)小目標的空間尺度,SimAM 的引入進一步加強了復(fù)雜場景下密集小目標特征信息的提取。最后為了降低小目標的漏檢和誤檢率,在Neck 部分使用GSConv 和EffectiveSE 注意力機制結(jié)合C2 f 精心設(shè)計了G_E_C2 f 模塊。

為了進一步提升網(wǎng)絡(luò)的性能引入了3 個現(xiàn)有改進點,分別是使用輕量級上采樣模塊CARAFE[25]替換普通上采樣;之后連接全局注意力機制(GlobalAttention Mechanism,GAM)[26]增強小目標的上下文信息;使用WIoU[27]損失函數(shù)替換原始CIoU[28]損失函數(shù),加快了模型的收斂,提高了回歸速度。

實驗表明,Improved-v8s 在VisDrone2019 數(shù)據(jù)集上精確度(Precision,P )和平均精度均值(meanAverage Precision,mAP)達到58. 5% 、48. 7% ,相較于YOLOv8s 提升了8% 和9. 8% ,顯著提高了對小目標的檢測能力,并且FPS 達到116,實時性較高。后文將重點介紹4 個創(chuàng)新模塊。

2. 1 網(wǎng)絡(luò)重設(shè)計增加小目標檢測層

YOLOv8s 網(wǎng)絡(luò)檢測層架構(gòu)如圖2(a)所示,P3 、P4 、P5 檢測層輸出特征圖的尺度分別為80 pixel×80 pixel、40 pixel×40 pixel、20 pixel×20 pixel,依次對應(yīng)檢測小、中、大目標。其中P3 檢測層輸出的特征圖尺寸為80 pixel×80 pixel,每個像素點表示原始圖像8 pixel×8 pixel 區(qū)域的信息,但是實際上很多小目標的尺度比8 pixel×8 pixel 更小,這就導(dǎo)致了小目標檢測準確率不高、漏檢嚴重?;诖?,劉展威等[29]提出新增特征圖尺度為160 pixel×160 pixel 的小目標檢測層來解決無人機航拍圖像小目標信息特征捕獲不足的問題,如圖2(b)所示,這種方法在性能上雖然有一定提升,但是網(wǎng)絡(luò)的參數(shù)量大,計算開銷也大。基于此,Improved-v8s 改進YOLOv8s,刪除20 pixel× 20 pixel 大目標檢測層,新增160 pixel ×160 pixel P2 小目標檢測層,實現(xiàn)了微小目標的捕獲,在大幅度降低參數(shù)量的同時,精度保持較高。如圖2(c)所示,在特征融合階段首先進行深層語義信息向淺層語義信息的流動,實現(xiàn)了40 pixel ×40 pixel、80 pixel×80 pixel、160 pixel×160 pixel 的特征融合,然后進行淺層語義信息向深層語義信息的流動,實現(xiàn)了160 pixel×160 pixel、80 pixel×80 pixel、40 pixel×40 pixel 的特征融合,減少了小目標特征信息的丟失。Improved-v8s 檢測層架構(gòu)如圖2 (c)所示。

為了驗證網(wǎng)絡(luò)重新設(shè)計的合理性,將文獻[29]額外添加小目標檢測層的網(wǎng)絡(luò)記為方案一并在YOLOv8 上進行實驗,與Improved-v8s 進行對比。實驗結(jié)果如表1 所示,從表1 可以看出,Improved-v8s,相比方案一,在參數(shù)量下降一半的情況下,漏檢率降低3. 5% ,平均檢測精度高出4% ,模型體積降至12. 8 MB,FPS 達到116,實時性更高;相比YOLOv8s,P、mAP 分別提高了8% 和9. 8% ,說明Improved-v8s 網(wǎng)絡(luò)設(shè)計合理,對小目標檢測效果提升明顯。

2. 2 F_C2 f_EMA 模塊

隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,特征圖的語義信息逐漸提取和聚合,導(dǎo)致深層特征圖中往往包含許多相似的信息。另外由于卷積層的權(quán)重共享機制,深層特征圖的不同位置會共享卷積核參數(shù),導(dǎo)致特征圖信息的冗余。基于此,文獻[19]使用PConv構(gòu)建輕量化網(wǎng)絡(luò)FasterNet 減少內(nèi)存訪問和開銷,同時減少特征圖信息的冗余,加強表征能力。針對小目標特征信息容易丟失、尺度捕獲能力不強的問題,本文提出使用PConv 和EMA 模塊構(gòu)建Faster-EMABlock,并結(jié)合C2 f 設(shè)計了全新的F_C2 f_EMA 模塊,在有效降低模型參數(shù)量和浮點計算量的同時,對全局信息進行編碼以重新校準每個并行分支的權(quán)重,突出強調(diào)小目標的特征。之后通過跨維度交互進一步聚合并行分支的輸出特征,跨空間處理短期和長期依賴關(guān)系,增強不同通道之間信息的融合,保留更多的上下文信息。

EMA 模塊采用并行子結(jié)構(gòu)減少網(wǎng)絡(luò)深度,在不降低通道維度的情況下,為高級特征圖產(chǎn)生更好的像素級關(guān)注。如圖3 所示,將圖3 中黃色部分XAvg Pool、Y Avg Pool、3×3 卷積所在的分支記為1×1分支、1×1 分支、3×3 分支。其中2 個1×1 分支位于上面,一個3 ×3 分支位于下面。EMA 使用1 ×1 分支、1×1 分支、3×3 分支3 條平行線路來提取分組特征圖的注意力權(quán)重。在1×1 分支中,對x 和y 方向進行自適應(yīng)全局平均池化對信道進行編碼,從而對跨通道信息交互進行建模,之后在h 方向?qū)ⅲ?個編碼特征連接起來,共享1×1 的卷積。在1×1 的卷積輸出2 個向量之后,使用Sigmoid 非線性激活函數(shù)擬合。之后在通過全局平均池化對1 ×1 分支中輸出的全局空間信息進行編碼,并且將最小分支的輸出直接在信道特征的聯(lián)合激活函數(shù)之前轉(zhuǎn)化為相應(yīng)的形狀,進一步實現(xiàn)了跨空間信息的聚合。3 ×3 分支使用3×3 的卷積核捕獲多尺度特征表示,類似1×1分支,同樣使用全局平均池化編碼3×3 分支輸出的全局信息,經(jīng)過聯(lián)合激活函數(shù)轉(zhuǎn)化為相應(yīng)的形狀。之后導(dǎo)出保留了整個精確空間位置信息的注意力圖。最后每組輸出的特征圖會被計算為2 個生成空間空間注意力值的權(quán)重,經(jīng)過Sigmoid 函數(shù),突出顯示像素的全局上下文。

以PConv 和EMA 構(gòu)建Faster-EMA Block 替代C2 f 的Bottleneck 結(jié)構(gòu),具體如圖4 所示,輸入端經(jīng)過PConv,PConv 在1 / 4 通道上進行卷積,剩下3 / 4的通道保持不變,之后將卷積的結(jié)果和上述未卷積的通道進行Concat 連接,減少冗余信息。緊接著經(jīng)過CBS 模塊,將上層輸出特征圖的通道數(shù)擴充為原來的2 倍,保持特征的多樣性實現(xiàn)更低的延時。CBS 模塊由1 ×1 的卷積、正則化和激活函數(shù)組成,其中1×1 卷積主要起到升、降維的作用。經(jīng)過1×1的卷積降維使通道數(shù)和輸入保持一樣,再接入EMA模塊,對全局信息編碼,實現(xiàn)跨空間信息的聚合,建立短期和長期依賴關(guān)系,獲取多尺度特征表示,增強小目標的上下文信息。F_C2 f_EMA 以Faster-EMABlock 作為Bottleneck 結(jié)構(gòu),首先通過CBS 模塊將輸出通道數(shù)變?yōu)椋玻悖俳?jīng)過Split 操作切分為2 份,將輸出的結(jié)果串聯(lián)n 個Faster-EMA Block,在降低參數(shù)量和計算量的同時獲得了梯度流更加豐富的結(jié)構(gòu)。之后將上述n 個串聯(lián)的Faster-EMA Block 與經(jīng)過切分的通道特征圖Concat 得到輸出為(n+2)×c 的特征圖,再經(jīng)過CBS 模塊將通道數(shù)變?yōu)椋悖?。如圖5 所示,以n =3 即Faster-EMA Block 使用個數(shù)3 為例,展示了設(shè)計的F_C2 f_EMA 結(jié)構(gòu)。

將Improved-v8s 特征提取網(wǎng)絡(luò)中第一層和第二層F _ C2 f _ EMA 模塊的參數(shù)量和計算量與原始YOLOv8s 第一層和第二層C2 f 進行對比,C2 f-1 表示第一層C2 f,后面依次類推。實驗結(jié)果如表2 所示。可以看出,改進后的模塊相比原C2 f,參數(shù)量和計算量大幅減少,精度有較大提升(見后面消融實驗)。

2. 3 SM_SPPCSPC

為了增強對小目標區(qū)域的關(guān)注度,解決背景復(fù)雜、小目標遮擋嚴重的問題。使用SimAM 和SPPC-SPC 設(shè)計了SM_SPPCSPC 結(jié)構(gòu)。SimAM 建立在神經(jīng)科學的基礎(chǔ)理論上,類似于人腦中的神經(jīng)元傳遞信息一樣,SimAM 為每一個神經(jīng)元賦予了三維注意力機制權(quán)重,表示小目標關(guān)鍵特征信息的重要性,同時將復(fù)雜背景區(qū)域和小目標區(qū)域進行像素劃分,增強復(fù)雜背景小目標密集區(qū)域的敏感度。針對小目標空間位置小、對周邊信息感知不強的問題,將SPPCSPC 中池化核大小由(5,9,13)優(yōu)化調(diào)整為(5,7,9),匹配小目標的感受野,更好地感知目標周圍的局部細節(jié)信息,豐富多尺度融合的信息。

SimAM 如圖6 所示。C 代表輸入特征圖的通道信號與信息處理數(shù),H 代表高度,W 代表寬度。SimAM 通過神經(jīng)元感知生成三維注意力機制權(quán)重,更加精確地提取小目標特征。

SM_SPPCSPC 結(jié)構(gòu)如圖7 所示,首先輸入特征圖經(jīng)過SimAM,對小目標關(guān)鍵特征賦予三維權(quán)重,將復(fù)雜背景區(qū)域和小目標區(qū)域進行像素劃分。之后經(jīng)過5×5、7×7、9×9 三個不同尺寸大小的池化核,在不同空間尺度上進行特征提取,進一步捕獲小目標特征信息,實現(xiàn)多尺度感知。在多尺度拼接之后使用PConv 進行通道調(diào)整,減少浮點運算量。再和捷徑分支進行Concat 融合,豐富特征表示。最后的SimAM 進一步關(guān)注密集小目標區(qū)域,弱化復(fù)雜背景的影響,提升模型的魯棒性。

2. 4 G_E_C2 f 模塊

GSConv 是Li 等[22]提出的一種新型卷積方式,是由標準卷積、深度可分離卷積和隨機排列組成的混洗卷積。雖然深度可分離卷積可以有效降低網(wǎng)絡(luò)的參數(shù)量,但是會帶來通道間特征信息的丟失,而GSConv 則在減少參數(shù)量的同時,最大化保留特征圖之間信息的連接,增強小目標信息的提取?;诖?,在Neck 部分使用GSConv 和EffectiveSE 注意力機制,結(jié)合C2 f,設(shè)計了全新的G_E_C2 f,在輕量化網(wǎng)絡(luò)的同時,精確地對特征圖通道之間的依賴性進行建模,增強特征表示,有效減少小目標漏檢率和誤檢率,進一步提升了網(wǎng)絡(luò)總體的檢測性能。

EffectiveSE 注意力機制如圖8 所示,輸入特征圖在h 和w 方向上經(jīng)過全局平均池化和全連接層,保留通道之間的信息,再經(jīng)過Sigmoid 激活函數(shù)(符號表示為σ),生成通道注意特征權(quán)重,作用于輸出特征圖,使小目標特征信息更加多樣化。EffectiveSE注意力機制只使用一個全連接層就巧妙解決了SE注意力機制由于采用2 個全連接層時先降維后升維帶來的通道信息丟失問題。EffectiveSE 注意力機制用公式表達如下,其中Xdiv 表示輸入特征圖,Favg 表示經(jīng)過全局平均池化,Wc 表示經(jīng)過全連接層,σ 表示激活函數(shù),AeSE 表示通道注意力權(quán)重。

AeSE(Xdiv ) = σ(Wc(Favg(Xdiv ))), (1)

Xrefine = AeSE(Xdiv )"?Xdiv 。(2)

設(shè)計的G_E BottleNeck 結(jié)構(gòu)如圖9 所示,首先下分支進行2 次GSConv,降低網(wǎng)絡(luò)的參數(shù)量,最大化保留通道之間的特征信息;之后與上分支的卷積進行通道上的拼接,保證通道的正確性;最后經(jīng)過EffectiveSE 注意力機制,進一步保留強化小目標的紋理細節(jié)信息。

設(shè)計的全新的G_E_C2 f 結(jié)構(gòu)如圖10 所示,用上述G_E BottleNeck 替換C2 f 中的BottleNeck 結(jié)構(gòu),通過融合不同階段的特征信息,豐富梯度流表示,提升網(wǎng)絡(luò)學習之間的多樣性。由于GSConv 和EffectiveSE 注意力機制的引入,網(wǎng)絡(luò)參數(shù)量減少,特征信息進一步保留,誤檢和漏檢減少,更加適應(yīng)多樣化的小目標場景。

3 實驗結(jié)果與分析

3. 1 實驗環(huán)境。

本文實驗環(huán)境為:NVIDIA GeForce RTX3090,顯存大小為24 GB,Ubuntu 20. 04 操作系統(tǒng),使用的編程語言為Python3. 8,CUDA 為11. 3,YOLOv8s 依賴庫ultralytics 版本為8. 0. 157,初始學習率為0. 01,預(yù)熱輪數(shù)為3,在最后10 輪關(guān)閉數(shù)據(jù)增強,早停設(shè)置為50。

3. 2 數(shù)據(jù)集介紹

為了保證實驗數(shù)據(jù)的合理性,本文共選擇了3 個具有代表性的公開數(shù)據(jù)集進行實驗,分別為VisDrone2019、WiderPerson 和SSDD 數(shù)據(jù)集。Vis-Drone2019 為無人機航拍小目標數(shù)據(jù)集,小目標居多、背景復(fù)雜;WiderPerson 數(shù)據(jù)集是密集行人數(shù)據(jù)集,遮擋嚴重、目標密集;SSDD 艦船數(shù)據(jù)集中幾乎都為小目標,尺度小、挑戰(zhàn)性大。VisDrone2019 作為本次實驗的主要數(shù)據(jù)集,在其上做了非常詳細的對比實驗和消融實驗。為了驗證模型的泛化性和普適性,在WiderPerson 和SSDD 數(shù)據(jù)集上進行實驗驗證。

3. 2. 1 VisDrone2019 數(shù)據(jù)集

VisDrone2019 數(shù)據(jù)集是天津大學機器學習與數(shù)據(jù)挖掘?qū)嶒炇沂占l(fā)布的,一共8 629 幅圖片。其中,6 471 幅圖片作為訓練集,548 幅圖片作為驗證集,1 610 幅圖片作為測試集。該數(shù)據(jù)集共包括日常場景的10 個類別:行人、人、自行車、汽車、面包車、卡車、三輪車、遮陽棚三輪車、巴士和摩托車。該數(shù)據(jù)集中,類別比例不均衡,并且圖片中大多是以小目標的形式存在,給檢測帶來了極大的困難。

3. 2. 2 WiderPerson 數(shù)據(jù)集

WiderPerson 數(shù)據(jù)集為野外行人檢測數(shù)據(jù)集,行人遮擋嚴重、目標密集,給檢測帶來了一定的挑戰(zhàn)。由于部分圖片不帶標注,經(jīng)過合理處理之后得到12 482 幅圖片,其中7 290 幅圖片作為訓練集,810 幅圖片作為驗證集,4 282 幅圖片作為測試集。

3. 2. 3 SSDD 數(shù)據(jù)集

SSDD 數(shù)據(jù)集由中國人民解放軍海軍航空大學發(fā)布,數(shù)據(jù)集一共包含1 160 幅SAR 圖像,數(shù)據(jù)集只有一個類別即艦船,以微小和極小目標為主,檢測較為困難,極易出現(xiàn)漏檢的情況。按照8 ∶ 1 ∶ 1 的比例劃分數(shù)據(jù)集、訓練集與測試集,其中928 幅圖片作為訓練集,116 幅圖片作為驗證集,116 幅圖片作為測試集。

3. 3 指標參數(shù)介紹

本文使用P、召回率(Recall,R)、mAP、模型體積(單位MB)和FPS 作為模型的評價指標。其中P、R 和mAP 的計算如下:

式中:Tp 表示真正例即預(yù)測正確,Fp 表示假正例即將不是小目標的預(yù)測為小目標,FN 表示假負例即將小目標預(yù)測為其他的類別,AP 表示單個類別的準確率,mAP 表示對PR 曲線下的面積進行積分得到的結(jié)果,是所有類別準確率的均值;k 表示類別數(shù)。

3. 4 消融實驗

為了驗證本文提出的算法對小目標檢測性能提升明顯,在VisDrone2019 上進行消融實驗。由于Improved-v8s 網(wǎng)絡(luò)架構(gòu)與YOLOv8s 整體差異較大,將Improved-v8s 中添加的所有模塊刪除得到的基線網(wǎng)絡(luò)記為A,在A 上進行消融實驗驗證。在A上依次加入F_C2 f_EMA、SM_SPPCSPC、G_E_C2 f、GAM、CARAFE、WIoU,將得到的網(wǎng)絡(luò)依次記為B、C、D、E、F、G,實驗結(jié)果如表3 所示。從表3 可以看出,重新設(shè)計的網(wǎng)絡(luò)在參數(shù)量下降43. 9% 的情況下P、R、mAP @ 0. 5 相較YOLOv8s 分別提升了2. 3% 、4. 3% 、4. 2% ,FPS 提升了12,說明刪除大目標檢測層加入小目標檢測層,大幅降低了模型的參數(shù)量,加強了模型對小目標的捕獲能力,加入F_C2 f_EMA 之后,由于PConv 卷積的特性,網(wǎng)絡(luò)參數(shù)量進一步降低,FPS 提升了11. 1% ,之后通過通道重塑和維度分組最大化保留小目標的特征信息,P 和mAP 有一定提升,經(jīng)過SM _SPPCSPC 多尺度結(jié)構(gòu)之后,感受野和小目標更加匹配,同時SimAM 進一步強化了小目標復(fù)雜背景特征信息的提取,P 和mAP 提升明顯,由于多尺度結(jié)構(gòu)復(fù)雜,參數(shù)量小幅上升,G_E_C2 f 模塊精確地對特征圖通道之間的依賴性進行建模,增強特征表示,大大降低了漏檢率,mAP 提升幅度較大。GAM 通過全局建模,保留小目標信息,精度進一步提升。之后通過輕量級上采樣CARAFE,利于細節(jié)特征重建,進一步提高檢測的準確性。最后通過WIoU解決正負樣本分配不均的問題,加快模型收斂速度。綜上,Improved-v8s 相較于YOLOv8s 在P、R、mAP@ 0. 5% 、mAP@ 0. 5:0. 95、FPS 上分別提升了8% 、8. 5% 、9. 8% 、6. 5% 、10. 47% ,可以看到改進后的算法在大幅降低參數(shù)量的同時,網(wǎng)絡(luò)總體性能有較大提升,對小目標檢測效果提升顯著。

3. 5 3 個數(shù)據(jù)集實驗結(jié)果與分析

3. 5. 1 VisDrone 上對比實驗結(jié)果及分析

為了驗證本文提出的算法在小目標檢測上的優(yōu)越性,在VisDrone2019 上將本文算法與當前先進的小目標檢測算法進行對比,實驗結(jié)果如表4 所示。對比其他優(yōu)秀的小目標檢測算法,Improvedv8s 算法在行人、人、自行車、汽車、面包車、卡車、三輪車、遮陽棚三輪車、巴士和摩托車這10 個類別上均取得了最佳的檢測性能,精度均值分別為57. 3% 、46. 5% 、21. 4% 、85. 9% 、53. 1% 、43. 9% 、35. 4% 、20. 8% 、65. 1% 、57. 4% 。其中小目標類別行人、人、自行車、三輪車、遮陽棚三輪車相較YOLOv8s 提高了15. 1% 、14% 、10. 4% 、8. 4% 、4. 8% ;目標類別汽車、面包車、摩托車相較YOLOv8s 提高了6. 1% 、7. 7% 、12. 7% ,大目標類別卡車、巴士相較YOLOv8s 提高了8. 1% 、10. 3% 。以上實驗結(jié)果說明Improvedv8s 在顯著提高小目標檢測精度的同時,對中、大目標的檢測性能依然做出了較大的提升,兼顧了三者之間的平衡。相較于次優(yōu)的YOLOv8m,Improved-v8s 的mAP 值高出5. 5% 。對比較新的文獻算法1、2、3,Improved-v8s 的mAP 值比它們高出10% 左右,說明了Improved-v8s 算法優(yōu)秀的檢測性能。歸因于本文算法重新設(shè)計了特征提取和特征融合模塊,加強了小目標特征信息的提取和保留,再加上精心設(shè)計的F_C2 f_EMA、SM_SPPCSPC 等模塊,進一步加強了應(yīng)對復(fù)雜背景的檢測能力,提升檢測精確度的同時大大降低了漏檢率,使得本文算法在應(yīng)對小目標檢測具有極大的優(yōu)勢的同時,對中、大目標檢測效果提升明顯,具有較好的魯棒性。

為了驗證本文算法在實際場景中的檢測效果,選取了VisDrone2019 測試集中難度較大的圖片進行可視化,檢測效果對比如圖11 所示,左側(cè)為YOLOv8s 算法,右側(cè)為Improved-v8s 算法,從第一行、第三行、第四行可以看出,本文算法在航拍多尺度小目標、夜間光照復(fù)雜場景、夜間密集人群場景下,能夠檢測出更遠和更小的小目標,大大降低了漏檢率,提升了模型在復(fù)雜場景下的抗干擾能力和提取特征的能力。第五行在海岸高空小目標場景下,YOLOv8s 由于對小目標尺度不敏感出現(xiàn)了誤檢的情況,而Improved-v8s 不僅沒有誤檢,還把更多遠距離極小目標精準檢測出來。從第二行可以看出,對于較大的目標檢測,Improved-v8s 誤檢和漏檢的情況非常少,總體檢測精度較高。以上結(jié)果表明,經(jīng)過改進后的算法Improved-v8 在面對復(fù)雜場景、極小目標、密集人群和大目標檢測等場景下,表現(xiàn)出了優(yōu)越的性能,模型的精準率顯著提升,誤檢和漏檢率大大降低。

3. 5. 2 模型泛化性實驗對比驗證

為了驗證本文算法在其他小目標數(shù)據(jù)集上面檢測效果顯著、泛化性好。在WiderPerson 和SSDD 數(shù)據(jù)集上面進行實驗,并與其他主流的經(jīng)典算法進行對比,結(jié)果如表5 所示。從表5 可以看出,在WiderPerson 數(shù)據(jù)集上,Improved-v8s 在R、mAP@ 0. 5、mAP @ 0. 5:0. 95 上較YOLOv8s 提高了1. 7% 、1. 4% 、1. 7% ,平均檢測精度提高,漏檢率降低,相比YOLOv7-tiny、YOLOv5s 在mAP@ 0. 5上分別提高了2. 6% 、3. 2% 。在SSDD 數(shù)據(jù)集上,Improved-v8s 在R、mAP@ 0. 5、mAP@ 0. 5:0. 95 上比YOLOv8s 提高了3. 5% 、0. 4% 、3. 9% ,相比YOLOv7-tiny、YOLOv5s 在mAP @ 0. 5 上分別提高了4. 8% 、0. 8% 。綜上,Improved-v8 算法在其他小目標數(shù)據(jù)集上面表現(xiàn)優(yōu)異,精度高、漏檢率低、模型尺寸小,具有通用性。

選取WiderPerson 和SSDD 測試集中挑戰(zhàn)性較大的圖片進行可視化效果對比驗證,如圖12 所示,左邊為YOLOv8s 算法,右邊為Improved-v8s 算法。從第一行可以看出,在WiderPerson 數(shù)據(jù)集上,Improved-v8s 算法在遠距離微小目標場景下,檢測出了很多YOLOv8s 算法漏檢的目標;從第二行可以看出,在SSDD 數(shù)據(jù)集上,YOLOv8s 算法漏檢嚴重,很多微小的艦船沒有檢測出來,而本文算法能夠非常精確地將極其微小的目標全部檢測出來,說明Improved-v8s 算法對小目標檢測效果顯著,漏檢率低、泛化能力強,對小目標檢測具有通用性。

4 結(jié)束語

針對小目標尺度小、特征提取能力不足、背景復(fù)雜、誤檢和漏檢嚴重等問題。提出了一種基于YOLOv8s 改進的算法Improved-v8s。Improved-v8s通過合理增加小目標檢測層,重新構(gòu)建特征提取和特征融合網(wǎng)絡(luò),加強淺層信息和深層語義信息的融合。利用PConv 和EMA 機制構(gòu)建全新的F_C2 f_EMA,降低網(wǎng)絡(luò)參數(shù)量,對全局信息編碼,實現(xiàn)小目標跨空間信息的聚合,建立短期和長期依賴,增強小目標特征提取能力。重新設(shè)計SPPCSPC 多尺度結(jié)構(gòu),適應(yīng)小目標的空間尺度,同時引入SimAM,劃分復(fù)雜背景和小目標像素區(qū)域并賦予三維注意力機制權(quán)重,加強復(fù)雜場景下密集小目標的表征能力。之后使用GSConv 和EffectiveSE 注意力機制設(shè)計了全新的G_E_C2 f,通過融合不同階段的特征信息,提升網(wǎng)絡(luò)學習之間的多樣性,保留特征信息,減少誤檢和漏檢率。使用輕量級上采樣模塊CARAFE 感知生成權(quán)重,聚合空間信息。最后使用WIoU 損失函數(shù),平衡正負樣本不均衡的問題,加快模型收斂,提高回歸精度。實驗表明,本文算法精度在VisDrone2019數(shù)據(jù)集上超越其他主流經(jīng)典算法,具有精度高、參數(shù)量小和實時性高等優(yōu)點。在WiderPerson 和SSDD數(shù)據(jù)集上進行泛化實驗驗證,效果較好。由此,本文提出的小目標檢測算法可以看成一種通用小目標檢測算法,效果顯著。

參考文獻

[1] LI L X,MU X H,LI S Y,et al. A Review of Face RecognitionTechnology[J]. IEEE Access,2020,8:139110-139120.

[2] ISLAM S M M,BORIC' LUBECKE O,ZHENG Y,et al. Ra-darbased Noncontact Continuous Identity Authentication[J]. Remote Sensing,2020,12(14):2279.

[3] LIN T Y,MAIRE M,BELONGIE S,et al. MicrosoftCOCO:Common Objects in Context[C]∥Proceedings ofthe European Conference on Computer Vision. Zurich:Springer,2014:740-755.

[4] GIRSHICK R,DONAHUE J,DARRELL T,et al. RichFeature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]∥Proceedings of the IEEE conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:580-587.

[5] GIRSHICK R. Fast RCNN [C ]∥ Proceedings of theIEEE International Conference on Computer Vision. Santiago:IEEE,2015:1440-1448.

[6] REN S Q,HE K M,GIRSHICK R,et al. Faster RCNN:Towards Realtime Object Detection with Region ProposalNetworks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2017,39(6):1137-1149.

[7] REDMON J,DIVVALA S,GIRSHICK R,et al. You OnlyLook Once:Unified,Realtime Object Detection[C]∥Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. Las Vegas:IEEE,2016:779-788.

[8] REDMON J,FARHADI A. YOLO9000:Better,Faster,Stronger[C]∥ Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Honolulu:IEEE,2017:6517-6525.

[9] REDMON J,FARHADI A. YOLOv3:An Incremental Improvement[EB / OL]. (2018 - 04 - 08)[2023 - 11 - 09].https:∥arxiv. org / abs / 1804. 02767.

[10] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. YOLOv4:Optimal Speed and Accuracy of Object Detection [EB /OL]. (2020 - 04 - 23)[2023 - 11 - 09]. https:∥ arxiv.org / abs / 2004. 10934.

[11] ZHU X K,LYU S C,WANG X,et al. TPHYOLOv5:Improved YOLOv5 Based on Transformer Prediction Headfor Object Detection on Dronecaptured Scenarios[C]∥2021 IEEE / CVF International Conference on ComputerVision Workshops (ICCVW ). Montreal:IEEE,2021:2778-2788.

[12] TERVEN J,CORDOVAESPARZA D. A ComprehensiveReview of YOLO:From YOLOv1 to YOLOv8 and Beyond[EB / OL]. (2023 - 04 - 02)[2023 - 11 - 09]. https:∥arxiv. org / abs / 2304. 00501.

[13] LIU W,ANGUELOV D,ERHAN D,et al. SSD:SingleShot Multibox Detector[C]∥Proceedings of the EuropeanConference on Computer Vision. Amsterdam:Springer,2016:21-37.

[14] 吳明杰,云利軍,陳載清,等. 改進YOLOv5s 的無人機視角下小目標檢測算法[J]. 計算機工程與應(yīng)用,2024,60(2):1-12.

[15] 賈曉芬,江再亮,趙佰亭. 裂縫小目標缺陷的輕量化檢測方法[J/ OL]. 湖南大學學報(自然科學版):1 -11.http:∥kns. cnki. net / kcms/ detail / 43. 1061. N. 20231008.1953. 002. html.

[16] 余俊宇,劉孫俊,許桃. 融合注意力機制的YOLOv7 遙感小目標檢測算法研究[J]. 計算機工程與應(yīng)用,2023,59(20):167-175.

[17] 張徐,朱正為,郭玉英,等. 基于cosSTRYOLOv7 的多尺度遙感小目標檢測[J/ OL]. 電光與控制:1 -9. http:∥kns. cnki. net / kcms/ detail / 41. 1227. tn. 20230615. 1017.002. html.

[18] 李子豪,王正平,賀云濤. 基于自適應(yīng)協(xié)同注意力機制的航拍密集小目標檢測算法[J]. 航空學報,2023,44(13):244-254.

[19] CHEN J R,KAO S H,HE H,et al. Run,Don’t Walk:Chasing Higher FLOPS for Faster Neural Networks[C]∥Proceedings of the IEEE / CVF Conference on ComputerVision and Pattern Recognition. Vancouver:IEEE,2023:12021-12031.

[20] OUYANG D L,HE S,ZHANG G Z,et al. Efficient Multiscale Attention Module with Crossspatial Learning[C]∥Proceedings of the IEEE International Conference onAcoustics,Speech and Signal Processing. Rhodes Island:IEEE,2023:1-5.

[21] YANG L X,ZHANG R Y,LI L D,et al. SimAM:ASimple,Parameterfree Attention Module for ConvolutionalNeural Networks [C]∥ Proceedings of the InternationalConference on Machine Learning. [S. l. ]:PMLR:2021:11863-11874.

[22] LI H L,LI J,WEI H B,et al. Slimneck by GSConv:ABetter Design Paradigm of Detector Architectures for Autonomous Vehicles [EB / OL]. (2022 - 06 - 06 )[2023 -11-09]. https:∥doi. org / 10. 48550 / arXiv. 2206. 02424.

[23] LEE Y W,PARK J Y. Centermask:Realtime AnchorFree Instance Segmentation [C ]∥ Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Seattle:IEEE,2020:13903-13912.

[24] GE Z,LIU S T,WANG F,et al. YOLOX:Exceeding YOLOSeries in 2021[EB / OL]. (2021-07-18)[2023-11-09].https:∥arxiv. org / abs/ 2107. 08430.

[25] WANG J Q,CHEN K,XU R,et al. CARAFE:Contentaware Reassembly of Features [C]∥ Proceedings of theIEEE / CVF International Conference on Computer Vision.Seoul:IEEE,2019:3007-3016.

[26] LIU Y C,SHAO Z R,HOFFMANN N. Global AttentionMechanism:Retain Information to Enhance ChannelSpatial Interactions[EB / OL]. (2021 - 12 - 10)[2023 -11-09]. https:∥arxiv. org / abs / 2112. 05561.

[27] TONG Z J,CHEN Y H,XU Z W,et al. WiseIoU:Bounding Box Regression Loss with Dynamic FocusingMechanism[EB / OL]. (2023 -01 -24)[2023 -11 -09].https:∥arxiv. org / abs / 2301. 10051.

[28] ZHENG Z H,WANG P,LIU W,et al. DistanceIoU Loss:Faster and Better Learning for Bounding Box Regression[C]∥Proceedings of the AAAI Conference on Artificial InTelligence. New York:AAAI Press,2020:12993-13000.

[29] 劉展威,陳慈發(fā),董方敏. 基于YOLOv5s 的航拍小目標檢測改進算法研究[J]. 無線電工程,2023,53 (10):2286-2294.

[30] YU W P,YANG T J N,CHEN C. Towards Resolving theChallenge of Longtail Distribution in UAV Images for Object Detection [C ]∥ Proceedings of the IEEE / CVFWinter Conference on Applications of Computer Vision.Waikoloa:IEEE,2021:3257-3266.

[31] ZHOU X Y,WANG D Q,KR?HENBHL P. Objects asPoints[EB / OL]. (2019-04-16)[2023-11-09]. https:∥arxiv. org / abs/ 1904. 07850.

[32] DU D W,ZHU P F,WEN L Y,et al. VisDroneDET2019:The Vision Meets Drone Object Detection in Image Challenge Results[C]∥Proceedings of the IEEE / CVF International Conference on Computer Vision Workshops.Seoul:IEEE,2019:213-226.

[33] WANG C Y,YEH I H,LIAO H Y M. You Only LearnOne Representation:Unified Network for Multiple Tasks[EB / OL]. (2021 - 05 - 10)[2023 - 11 - 09]. https:∥arxiv. org / abs / 2105. 04206.

[34] 劉濤,高一萌,柴蕊等. 改進YOLOv5s 的無人機視角下小目標檢測算法[J]. 計算機工程與應(yīng)用,2024,60(1):110-121.

[35] 李校林,劉大東,劉鑫滿,等. 改進YOLOv5 的無人機航拍圖像目標檢測算法[J / OL]. 計算機工程與應(yīng)用:1 -13. http:∥ kns. cnki. net / kcms / detail / 11. 2127. TP.20231013. 0942. 002. html.

作者簡介

雷幫軍 男,(1973—),博士,教授,博士生導(dǎo)師,歐盟2020 計劃特聘顧問,歐盟高級人才計劃會審專家,IEEE 高級會員,湖北省楚天學者特聘教授,湖北省百人計劃人才。主要研究方向:計算機視覺、圖像處理、人工智能、模式識別。

余 翱 男,(1999—),碩士研究生。主要研究方向:計算機視覺、目標檢測。

余 快 女,(1999—),碩士研究生。主要研究方向:深度學習、遙感影像建筑物提取。

基金項目:水電工程智能視覺監(jiān)測湖北省重點實驗室建設(shè)(2019ZYYD007)

酒泉市| 三明市| 蒲城县| 庆元县| 延寿县| 林口县| 扎鲁特旗| 台安县| 宣汉县| 安远县| 泽库县| 祁门县| 民勤县| 南昌市| 屯留县| 迁西县| 潍坊市| 晋宁县| 顺平县| 婺源县| 原阳县| 类乌齐县| 读书| 刚察县| 墨脱县| 青河县| 喀什市| 万源市| 崇仁县| 洞头县| 宝鸡市| 绥芬河市| 桃园县| 莒南县| 乌恰县| 繁昌县| 搜索| 上犹县| 团风县| 南川市| 镇巴县|