国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)YOLOv7的無人機(jī)圖像目標(biāo)檢測算法

2024-07-17 00:00:00梁秀滿賈梓涵于海峰劉振東
無線電工程 2024年4期
關(guān)鍵詞:無人機(jī)

摘 要:針對(duì)無人機(jī)圖像中由于目標(biāo)微小且相互遮擋、特征信息少導(dǎo)致檢測精度低的問題,提出一種基于改進(jìn)YOLOv7的無人機(jī)圖像目標(biāo)檢測算法。在頸部和檢測頭中加入了坐標(biāo)卷積,能更好地感受特征圖中目標(biāo)的位置信息;增加P2 檢測層,減少小目標(biāo)特征丟失、提高小目標(biāo)檢測能力;提出多信息流融合注意力機(jī)制———Spatial and Channel Attention Mechanism(SCA),動(dòng)態(tài)調(diào)整注意力對(duì)空間信息流和語義信息流的關(guān)注,獲得更豐富的特征信息以提高捕獲目標(biāo)的能力;更換損失函數(shù)為SIoU,加快模型收斂速度。在公開數(shù)據(jù)集VisDrone2019 上進(jìn)行對(duì)比實(shí)驗(yàn),改進(jìn)后算法的mAP50 值相比YOLOv7 提高了4% ,達(dá)到了52. 4% ,FPS 為37,消融實(shí)驗(yàn)驗(yàn)證了每個(gè)模塊均提升了檢測精度。實(shí)驗(yàn)表明,改進(jìn)后的算法能較好地檢測無人機(jī)圖像中的目標(biāo)。

關(guān)鍵詞:無人機(jī);小目標(biāo)檢測;多信息流融合注意力機(jī)制;YOLOv7;損失函數(shù)

中圖分類號(hào):TP391. 4 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

文章編號(hào):1003-3106(2024)04-0937-10

0 引言

隨著技術(shù)的進(jìn)步和不斷創(chuàng)新,無人機(jī)的應(yīng)用正逐漸融入到日常生活中,例如農(nóng)業(yè)、電力能源、攝影和地質(zhì)勘探等。由于無人機(jī)飛行在一定高度,拍攝的圖像存在大量小尺寸目標(biāo)以及目標(biāo)之間相互遮擋的現(xiàn)象,從而導(dǎo)致檢測的準(zhǔn)確度下降。這一問題在對(duì)無人機(jī)圖像進(jìn)行目標(biāo)檢測時(shí)帶來了一定的挑戰(zhàn)。因此,設(shè)計(jì)一種能夠精準(zhǔn)地檢測無人機(jī)圖像目標(biāo)的網(wǎng)絡(luò)結(jié)構(gòu)變得尤為重要。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional NeuralNetwork,CNN)的出現(xiàn),使得基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)迅速發(fā)展[1]。目前基于深度學(xué)習(xí)的目標(biāo)檢測算法根據(jù)有無候選區(qū)域分為2 類:兩階段算法和單階段算法。兩階段算法以Fast R-CNN[2]、Faster R-CNN[3]為代表。單階段算法中的典型算法為SSD[4]和YOLO 系列YOLOv1[5]、YOLOv3[6]、YOLOv4[7]、YOLOv7[8]等,單階段算法因在檢測精度和計(jì)算效率之間能夠取得平衡,已成為目標(biāo)檢測任務(wù)中一個(gè)具有吸引力的選擇。

為提高對(duì)無人機(jī)圖像的檢測精度,趙耘徹等[9]使用輕量級(jí)網(wǎng)絡(luò)MobileNetv3 替換YOLOv4 的主干網(wǎng)絡(luò),并使用Kmeans++算法重新生成錨框,減少模型的參數(shù)量的同時(shí)提升了檢測精度。雷幫軍等[10]在檢測模型中引入自適應(yīng)校準(zhǔn)模塊,融合來自不同空間的特征信息,使輸出特征圖的感受野變大,并引入注意力機(jī)制使其更加關(guān)注局部信息,檢測精度有了顯著提升。王恒濤等[11]提出一種基于YOLOv5的輕量化網(wǎng)絡(luò)結(jié)構(gòu),通過對(duì)檢測層和感受野進(jìn)行調(diào)整,使淺層特征的權(quán)重變大,提高了對(duì)小目標(biāo)的檢測能力。張上等[12]重新設(shè)計(jì)了YOLOv5 中的特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò),大大降低了網(wǎng)絡(luò)模型參數(shù),使用EIoU 加速模型收斂,能滿足無人機(jī)對(duì)小目標(biāo)的實(shí)時(shí)檢測需求。劉展威等[13]在主干網(wǎng)絡(luò)中加入了CA 注意力機(jī)制,用于提高網(wǎng)絡(luò)對(duì)目標(biāo)位置信息的關(guān)注度,在頸部加入了BiFPN 結(jié)構(gòu),能有效融合不同層次之間的特征信息,檢測精度相比基線大幅提高。Li 等[14] 引入Bi-PAN-FPN 的思想,改進(jìn)了YOLOv8 的頸部網(wǎng)絡(luò),在保證模型參數(shù)量可控的情況下,能使網(wǎng)絡(luò)更好地進(jìn)行特征融合,將主干中部分C2f 模塊變成了GhostblockV2 結(jié)構(gòu),保證特征在長距離傳輸中不丟失信息,具有較強(qiáng)的魯棒性。齊向明等[15]將YOLOv7 中SPPCSPC 結(jié)構(gòu)中的2 個(gè)CBS層改為了SimAM 注意力機(jī)制,同時(shí)縮小了池化層中的池化核,可以提高網(wǎng)絡(luò)對(duì)密集區(qū)域的關(guān)注程度,捕獲相互遮擋目標(biāo)的特征。張徐等[16]基于YOLOv7算法,將主干網(wǎng)絡(luò)的EELAN 模塊替換成使用余弦注意機(jī)制和后正則化方法改進(jìn)后的SwinTransformer(STR)模塊,能夠更好地捕捉圖像中的上下文信息,理解目標(biāo)與背景之間的關(guān)系,并且具有較好的實(shí)時(shí)性和魯棒性。

盡管上述工作對(duì)提高無人機(jī)圖像檢測精度做出了有效改進(jìn),但無人機(jī)圖像中小目標(biāo)繁多且呈現(xiàn)密集的趨勢,仍容易出現(xiàn)漏檢、誤檢等情況,并且對(duì)于目標(biāo)的特征提取能力不足,導(dǎo)致檢測精度不高。針對(duì)上述問題,本文考慮無人機(jī)圖像的特點(diǎn),提出一種基于YOLOv7 的無人機(jī)圖像目標(biāo)檢測算法,主要工作如下:

① 將CoordConv 引入網(wǎng)絡(luò)的頸部和頭部,使卷積具備空間感知能力,能在提取的特征中更好地定位目標(biāo)。

② 添加P2 檢測層,與其他3 個(gè)檢測層相結(jié)合獲取更多小目標(biāo)的特征,能顯著提升小目標(biāo)的檢測精度。利用Kmeans 聚類算法重新生成先驗(yàn)框。

③ 提出一種新穎的多信息流融合注意力機(jī)制———Spatial and Channel Attention Mechanism(SCA),將不同層次的全局信息和局部信息結(jié)合起來,有助于不同尺度的特征提取,提高多尺度表達(dá)能力,捕獲小目標(biāo)的能力顯著提高。

④ 將邊界框損失函數(shù)替換為SIoU,考慮了預(yù)測框和真實(shí)框之間的角度差異,進(jìn)而加快模型訓(xùn)練速度。

1 YOLOv7 算法

YOLOv7 是一個(gè)兼具速度與精度的檢測模型,在YOLOv5 的基礎(chǔ)上改進(jìn)得到。YOLOv7 由輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和頭部(Head)組成。首先將輸入端處理好的圖片送入主干網(wǎng)絡(luò)進(jìn)行特征提取,然后進(jìn)入頸部網(wǎng)絡(luò)進(jìn)行特征融合,得到3 種不同尺寸的特征,最后將這3 種特征送入檢測頭,得到預(yù)測結(jié)果。

輸入端:對(duì)輸入圖像進(jìn)行數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算和自適應(yīng)圖像縮放等處理,豐富數(shù)據(jù)集的同時(shí)能加快網(wǎng)絡(luò)訓(xùn)練速度。

主干網(wǎng)絡(luò):對(duì)輸入端傳來的圖像進(jìn)行特征提取,主干由若干個(gè)ELAN、CBS 和MPConv 模塊組成,使主干網(wǎng)絡(luò)具備優(yōu)秀的特征提取能力。ELAN 由多個(gè)CBS 構(gòu)成,使網(wǎng)絡(luò)能夠?qū)W習(xí)到豐富的特征。

頸部網(wǎng)絡(luò):包含SPPCSPC、ELANW、CBS 和MPConv 模塊。SPPCSPC 用來增大感受野,ELANW 比ELAN 多了2 個(gè)輸出進(jìn)行拼接操作。與YOLOv5 相同,頸部網(wǎng)絡(luò)也使用FPN 和PAN 進(jìn)行特征融合,得到3 種不同尺寸的特征。

頭部:根據(jù)頸部3 個(gè)不同尺度的特征輸出來預(yù)測物體的位置和類別。

2 改進(jìn)的YOLOv7 算法

本文以YOLOv7 為基線模型,添加坐標(biāo)卷積、P2檢測層和SCA,并將SIoU 作為邊界框損失函數(shù)。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

2. 1 CoordConv 模塊

深度學(xué)習(xí)中的卷積運(yùn)算有平移等變形,允許在圖像的不同位置共享參數(shù),從而有效地捕捉特征。然而,這種方式也帶來了一個(gè)限制:在卷積的學(xué)習(xí)過程中,網(wǎng)絡(luò)無法感知當(dāng)前特征在圖像中的具體坐標(biāo)位置。因此,本文將頸部網(wǎng)絡(luò)中的卷積模塊和檢測頭中的卷積模塊替換為CoordConv[17]模塊。

為了使卷積具備感知空間信息的能力,在特征圖后加入了2 個(gè)坐標(biāo)通道,代表原始輸入的i 和j 坐標(biāo),然后再進(jìn)行傳統(tǒng)卷積操作,使卷積能夠感受特征圖的空間信息。如果坐標(biāo)通道學(xué)習(xí)了一定的信息,那么CoordConv 就具備了平移依賴性,當(dāng)沒有學(xué)習(xí)到信息時(shí),等同于傳統(tǒng)卷積具備平移不變性。傳統(tǒng)卷積如圖2 所示,坐標(biāo)卷積如圖3 所示。

2. 2 增加小目標(biāo)檢測層

無人機(jī)從一定高度采集圖像,目標(biāo)在圖像中占據(jù)較小的像素,同時(shí)YOLOv7 算法在多次進(jìn)行下采樣過程中會(huì)丟失小目標(biāo)的特征信息,導(dǎo)致小目標(biāo)的檢測精度不盡人意。為了增加小目標(biāo)的特征提取能力,進(jìn)而有效提高小目標(biāo)的檢測精度,本文在不改變其他特征圖尺度的基礎(chǔ)上,在頸部網(wǎng)絡(luò)添加一個(gè)分辨率為160 pixel×160 pixel 的P2 檢測層。該層位于原有頸部網(wǎng)絡(luò)上采樣過程中的最后一個(gè)ELANW模塊之后,該層的輸入包含部分:一部分是主干網(wǎng)絡(luò)中第一個(gè)ELAN 模塊進(jìn)行卷積之后的特征圖;另一部分是經(jīng)過卷積和上采樣操作的擴(kuò)展特征圖。將來自兩部分的特征圖由ELANW 模塊進(jìn)行融合,得到包含豐富位置信息的特征圖。P2、P3、P4、P5 檢測層分別對(duì)應(yīng)了4 倍、8 倍、16 倍、32 倍下采樣特征圖,4 倍下采樣特征圖感受野較小,位置信息更加豐富,因此其特征圖包含大量小目標(biāo)的紋理特征及更多的細(xì)節(jié)信息,在特征圖的傳遞過程中,能最大程度地保留小目標(biāo)的特征,進(jìn)而提升小目標(biāo)檢測精度。增加的小目標(biāo)檢測層如圖1 中紅色虛線框所示。由于本文數(shù)據(jù)集中小目標(biāo)眾多,寬高尺寸都比較小,不宜使用原來的先驗(yàn)框,因此利用Kmeans 聚類算法生成一組更加匹配數(shù)據(jù)集的先驗(yàn)框,如表1 所示。

2. 3 多信息流融合注意力機(jī)制

特征融合是把不同層之間的特征進(jìn)行結(jié)合,低層的特征圖有較多的空間信息,高層的特征圖有較多的語義信息。目前的注意力機(jī)制大多是對(duì)單層和單個(gè)信息流中傳遞來的特征進(jìn)行處理,可能會(huì)丟失某些特征信息。為了得到更全面的特征信息,使模型更加關(guān)注應(yīng)該注意的目標(biāo),本文提出SCA。相比傳統(tǒng)注意力,本文注意力擴(kuò)展到多個(gè)信息流,可以動(dòng)態(tài)調(diào)整注意力對(duì)空間信息流和語義信息流的關(guān)注,將不同層次的全局信息和局部信息結(jié)合起來,獲取更多更全面的特征。

多信息流融合注意力機(jī)制SCA 如圖4 所示。圖4(a)表示注意力所添加的位置,圖4(b)左側(cè)為空間注意力,右側(cè)為通道注意力。

Ul 代表語義信息流,X′l 代表空間信息流。在空間注意力中更關(guān)注位置信息,更加關(guān)注特征圖中含有有效信息的區(qū)域。將Ul 和X′l 分別通過平均池化層進(jìn)行壓縮操作,將2 個(gè)輸出拼接后通過3×3 卷積提取更豐富的特征,調(diào)整雙線性層的大小,再經(jīng)過一個(gè)1 ×1 調(diào)整通道數(shù)后得到ε。通道注意力同樣使Ul 和X′l 通過最大池化層,使其在空間維度上整合全局空間信息并縮小特征圖。將其結(jié)果進(jìn)行拼接后,分別通過1 ×1、3 ×3 以及平均池化后的1 ×1卷積操作,得到包含不同信息的特征圖。

將上述操作結(jié)果相加經(jīng)過1 ×1 卷積調(diào)整通道數(shù)后得到ξ。將ε 和ξ 拼接后通過1×1 的卷積,經(jīng)過Sigmoid 激活函數(shù)得到權(quán)重Z,平衡了語義信息和空間信息之間的關(guān)系。計(jì)算如下:

Z = Sigmoid(Conv(ε,ξ))。(1)

上述空間注意力和通道注意力結(jié)合就構(gòu)成了多信息流注意力機(jī)制。將權(quán)重分別與空間信息流和語義信息流相乘得到M 和N:

M = Z × X′l , (2)

N = Z × Ul。(3)

最后將M 和N 進(jìn)行加和操作,結(jié)合通道與空間2 個(gè)維度的特征。加和后經(jīng)過Sigmoid 激活函數(shù)得到融合空間和通道注意力的權(quán)重,定義如下:

P = Sigmoid(M + N)。(4)

本文所提出的多信息流注意力機(jī)制可以結(jié)合不同層次的語義信息和空間信息,在不同尺度上提取更全面的特征,減少背景信息的干擾,提升檢測精度。

為了更直觀地驗(yàn)證多信息流融合注意力SCA的有效性,圖5 展示了添加SCA 注意力前后的熱力圖。圖5(a)為原始輸入圖片,圖5(b)為基線模型的熱力圖,圖5(c)為基線基礎(chǔ)上添加SCA 注意力后的熱力圖??梢钥闯鎏砑樱樱茫?注意力后模型對(duì)圖片中的目標(biāo)定位更加準(zhǔn)確,更有效地關(guān)注圖片中的重要信息,過濾背景信息。

2. 4 改進(jìn)損失函數(shù)

YOLOv7 采用的損失函數(shù)包括邊界損失、置信度損失和分類損失。邊界損失和置信度損失由交叉熵?fù)p失函數(shù)進(jìn)行計(jì)算,而邊界框損失函數(shù)使用CIoU損失函數(shù)計(jì)算:

式中:b 和bgt 分別表示預(yù)測框和真實(shí)框的中心點(diǎn),ρ表示2 個(gè)框中心點(diǎn)之間的歐氏距離,c 表示包含2個(gè)框的最小方框的對(duì)角線距離,wgt、hgt 表示真實(shí)框的寬度和高度,w、h 表示預(yù)測框的寬度和高度??梢钥闯觯茫桑铮?基于預(yù)測框和真實(shí)框的寬高相對(duì)比例進(jìn)行計(jì)算,二者寬高比例一致時(shí)其懲罰項(xiàng)就失效了。為此,本文使用SIoU[18]替換原來的CIoU,其包含的參數(shù)和示意如圖6 所示。SIoU 損失函數(shù)包括角度成本、距離成本和形狀成本三部分。具體的計(jì)算如下:

(1)角度成本

若α 的角度小于45° ,則直接帶入下述公式計(jì)算,否則使用α 的互補(bǔ)角β 代替,角度成本的計(jì)算如下:

式中:x 為α 的正弦值,σ 為兩框中點(diǎn)之間的距離,ch為兩框之間的高度差。

(2)距離成本

距離成本定義如下:

Δ = Σt = x,y(1 - e-γρt) = 2 - e-γρx - e-γρy , (9)

式中:γ = 2-Λ,ρx 表示Cw 和Cx 之比的平方,ρy 表示Ch 和Cy 之比的平方。

(3)形狀成本

形狀成本定義如下:

Ω = (1 - e-ωw) θ + (1 - e-ωh) θ , (10)

式中:θ 的值定義了形狀成本的權(quán)重,控制著應(yīng)該將多少注意力放在形狀成本上,本文中θ 值為1。ωw表示兩框?qū)挾炔畹慕^對(duì)值與最大值之比,ωh 表示兩框高度差的絕對(duì)值與最大值之比。最后,SIoU 的定義如下:

相比其他損失函數(shù),SIoU 考慮了角度因素,使預(yù)測框能更快地向真實(shí)框靠近,加快損失函數(shù)的收斂速度。SIoU 在計(jì)算真實(shí)框和預(yù)測框的寬高關(guān)系時(shí),采用分別計(jì)算的方法,而不是計(jì)算其相對(duì)比例,避免了預(yù)測框和真實(shí)框?qū)捀弑认嗤瑫r(shí)懲罰項(xiàng)為0 的情況。

3 實(shí)驗(yàn)與結(jié)果分析

3. 1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

網(wǎng)絡(luò)訓(xùn)練基于深度學(xué)習(xí)框架PyTorch1. 11. 0 實(shí)現(xiàn),并使用CUDA11. 3 進(jìn)行訓(xùn)練。實(shí)驗(yàn)在Ubuntu20. 04 環(huán)境下進(jìn)行,RTXA5000 顯卡,24 GB 顯存,Intel(R )Xeon (R ) Platinum 8358P @ 2. 60 GHzCPU。輸入圖像大小為640 pixel × 640 pixel,訓(xùn)練300 輪,batchsize 設(shè)為8,初始學(xué)習(xí)率為0. 01。

本文采用天津大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)室AiskYeye 團(tuán)隊(duì)收集的VisDrone2019 數(shù)據(jù)集[19],由288 個(gè)視頻片段、261 908 幀和10 209 幅靜態(tài)圖像組成,共6 471 幅圖像用以訓(xùn)練,548 幅圖像用以驗(yàn)證,1 610 幅圖像用以測試。該數(shù)據(jù)為日常生活中的場景,總共包含10 個(gè)類別,分別為行人、人、自行車、汽車、面包車、卡車、三輪車、遮陽篷三輪車、公共汽車和摩托車。數(shù)據(jù)集中,類別比例不均衡,并且圖片中大多以小目標(biāo)的形式存在,給檢測帶來了極大的挑戰(zhàn)。

3. 2 評(píng)價(jià)指標(biāo)

本文所用到的評(píng)價(jià)指標(biāo)有精準(zhǔn)率(Precision,P)、召回率(Recall,R)、平均精度均值(mAP)、模型參數(shù)量、每秒檢測幀數(shù)(FPS)和浮點(diǎn)運(yùn)算次數(shù)(GFLOPs)。P 指預(yù)測為正樣本中實(shí)際正樣本的比例,計(jì)算如下:

式中:TP 為正確預(yù)測出正樣本的檢測框數(shù)量,FP 為負(fù)樣本被預(yù)測成正類的數(shù)量。

Recall 代表正確預(yù)測的樣本數(shù)占總樣本數(shù)的比例,計(jì)算如下:

式中:FN 為被預(yù)測成負(fù)類的正樣本數(shù)。

mAP 代表平均精度均值,是所有類別檢測精度的平均值,計(jì)算如下:

式中:n 為檢測的類別數(shù)量,AP 為PR 曲線下面的面積。mAP50 是IoU 為0. 5 時(shí)所有類別的平均檢測精度;mAP50:95 是IoU 以0. 05 為步長、0. 5 ~ 0. 95的全部平均檢測精度。

FPS 為模型每秒處理的圖片數(shù)量,用來衡量檢測速度;GFLOPs 為網(wǎng)絡(luò)模型的浮點(diǎn)運(yùn)算次數(shù)。

3. 3 消融實(shí)驗(yàn)

為了驗(yàn)證所提出的方法對(duì)無人機(jī)圖像檢測性能的有效性,本文進(jìn)行了消融實(shí)驗(yàn),以YOLOv7 為基線,逐步加入所提出的改進(jìn)方法,實(shí)驗(yàn)結(jié)果如表2 所示。

分析表2 結(jié)果可知,引入CoordConv、加入小目標(biāo)檢測層、加入SCA 注意力、損失函數(shù)更換為SIoU都提升了檢測性能。改進(jìn)1 使用CoordConv 替代了頸部和頭部中卷積核為1 的卷積,具備了空間感知能力,可以有效地定位目標(biāo),mAP50 提高了0. 6% 的同時(shí)參數(shù)量降低了0. 6 M,檢測速度也由原來的48提高到了52,驗(yàn)證了改進(jìn)1 的有效性。改進(jìn)2 添加了小目標(biāo)檢測層,由于多了ELANW 模塊、上采樣、額外的卷積操作和檢測頭,導(dǎo)致模型的復(fù)雜度增加,計(jì)算量增加在可接受范圍之內(nèi),但是能最大程度保留小目標(biāo)位置信息,檢測精度有了極大的提升,小目標(biāo)檢測層的加入使檢測精度相比基線提升了2. 1% ,達(dá)到了50. 5% 。改進(jìn)3 在基線模型添加了SCA。SCA 注意力的加入,使不同尺度的特征融合,補(bǔ)充上下文信息,獲得了更全面的特征,從而提高了檢測精度,同時(shí)也帶來了一定的參數(shù)量,FPS 也有所下降,但是檢測精度提升了1. 7% 。改進(jìn)4 替換了損失函數(shù),SIoU 考慮了角度成本和距離成本,在沒有增加參數(shù)量和計(jì)算量的情況下,檢測精度提升了1. 1% ,相比基線,檢測速度也有所提升。改進(jìn)5 將改進(jìn)1 和改進(jìn)2 相結(jié)合,雖然僅比改進(jìn)2 的精度提升了0. 2% ,但是參數(shù)量有所下降。改進(jìn)6 在改進(jìn)5的基礎(chǔ)上添加了SCA,檢測精度再次提升了0. 2% 。改進(jìn)7 將所有改進(jìn)方法融合在一起,mAP50 的值相比基線模型提高了4% ,達(dá)到了52. 4% 。通過消融實(shí)驗(yàn)可以看到,本文所提出的每個(gè)改進(jìn)都提升了模型的檢測性能,雖然改進(jìn)的模塊帶來了一定的計(jì)算量和參數(shù)量,但是檢測精度得到了提升,能滿足實(shí)時(shí)性檢測的需求。

3. 4 注意力對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本文所提出注意力的有效性,將目前主流的SE[20]、CBAM[21]、CA[22]注意力機(jī)制與本文注意力機(jī)制進(jìn)行對(duì)比實(shí)驗(yàn)。在YOLOv7 的基礎(chǔ)上,在相同的位置添加注意力機(jī)制,設(shè)置相同參數(shù)。實(shí)驗(yàn)結(jié)果如表3 所示,可以看出,本文所提出的注意力機(jī)制相比其他3 個(gè)注意力機(jī)制帶來了額外的參數(shù)量,但是檢測精度高于其他3 個(gè)注意力機(jī)制,提升了1. 7% ,證明了模型中添加SCA 注意力的有效性。加入SCA 注意力,可以使模型更加關(guān)注有效區(qū)域,提高對(duì)目標(biāo)的關(guān)注度,減輕背景信息對(duì)檢測的干擾,從而提升檢測精度。

3. 5 損失函數(shù)對(duì)比實(shí)驗(yàn)

表4 展示了本文所用的損失函數(shù)SIoU 與CIoU、EIoU[23]和WIoU[24]在VisDrone2019 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果,以mAP50 和mAP50:95 為評(píng)價(jià)指標(biāo),從結(jié)果中可以看出SIoU 與EIoU 有著相同的mAP50:95,但mAP50 高于EIoU。相比其他損失函數(shù),SIoU 具有更良好的性能表現(xiàn)和更快的收斂速度。

3. 6 對(duì)比實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文算法的性能優(yōu)勢,本文采用YOLO 系列中具有代表性的算法YOLOv5L、TPHYOLOv5、SCAYOLO、YOLOXL、YOLOv7 和YOLOv8L在公開數(shù)據(jù)集VisDrone2019 上與本文算法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5 所示。

由表5 可知,YOLOv5L 比本文算法的mAP50值低了12. 6% ,并且參數(shù)量多出了7. 35 M,對(duì)該數(shù)據(jù)集的檢測效果不佳。TPHYOLOv5 比YOLOv5L的mAP50 值高了2. 2% ,同時(shí)帶來了額外的計(jì)算量。SCAYOLO 是在YOLOv5L 的基礎(chǔ)上進(jìn)行改進(jìn)的,相比YOLOv5L 精度提高明顯,但仍然低于本文算法。YOLOXL 相比本文算法在參數(shù)量和計(jì)算量上都有大幅度增加,且檢測精度相差8. 9% 。YOLOv8 是目前最先進(jìn)的檢測算法,計(jì)算量和參數(shù)量分別比本文算法多了35% 和12% ,并且檢測精度低了5% 。

分析得知,盡管本文算法在參數(shù)量和計(jì)算量上都有小幅增長,但仍然低于同量級(jí)的其他主流檢測算法,并且本文算法在檢測精度上占據(jù)優(yōu)勢,檢測精度達(dá)到了52. 4% ,能夠滿足實(shí)時(shí)性檢測的需求。因此本文算法綜合表現(xiàn)最好,驗(yàn)證了改進(jìn)的有效性,對(duì)復(fù)雜場景下的目標(biāo)具有更強(qiáng)的辨識(shí)能力。

3. 7 可視化分析

在VisDrone2019 的測試集中選取了密集、模糊、遮擋和高空場景下具有代表性的圖片進(jìn)行檢測,用于更直觀地評(píng)估本文算法。檢測效果如圖7 所示。圖7(a)是密集場景下的檢測圖,可以看到圖片中有較多種類的小目標(biāo)且目標(biāo)之間相互重疊比例較大,尤其是人群相互重疊的現(xiàn)象十分嚴(yán)重,但本文算法依然可以檢測出行人這一類別。圖7(b)是模糊場景下的檢測圖,由于無人機(jī)移動(dòng)速度較快導(dǎo)致拍攝的圖像出現(xiàn)了模糊的情況,但仍然可以檢測出車輛、行人等類別;下方的圖片受昏暗和部分光照的影響,圖片質(zhì)量不高,同樣可以較為全面地檢測出圖像的目標(biāo)。圖7(c)展示了遮擋情況下的檢測圖,圖像中存在大量樹木遮蓋住了部分物體,使小目標(biāo)更加不明顯,圖中可以看出,改進(jìn)后的算法仍然可以檢測出被樹木遮擋住的汽車。圖7(d)是高空場景的檢測圖,與其他3 組場景相比,高空場景的圖片中車輛變得非常微小,并且背景占了圖片的大部分內(nèi)容,背景噪聲給檢測帶來了一定的挑戰(zhàn),但改進(jìn)的算法仍然檢測出了微小車輛的存在。

將基線模型和改進(jìn)后的算法進(jìn)行對(duì)比,檢測效果對(duì)比如圖8 所示。圖8(a)為YOLOv7 的檢測圖,圖8(b)為改進(jìn)后的YOLOv7 檢測圖,為更方便地看出差異,將不同的地方用黃色框標(biāo)注出來。從第一行可以看出,YOLOv7 將廣告牌上的字誤檢成了行人類別,并且樓房旁邊的重疊摩托車沒有檢測出來,而改進(jìn)后的算法將其檢測了出來。從第二行中看出,YOLOv7 沒有檢測出重疊的人群。改進(jìn)后的算法較YOLOv7 相比,有更高檢測精度的同時(shí)減少了漏檢、誤檢的現(xiàn)象。

4 結(jié)論

本文提出了一種基于YOLOv7 改進(jìn)的無人機(jī)圖像目標(biāo)檢測算法,主要工作和結(jié)論如下:

① 在頸部和檢測頭中加入了坐標(biāo)卷積,網(wǎng)絡(luò)能夠感受特征圖中物體的位置信息,提高了空間感知能力,進(jìn)一步定位目標(biāo)從而提升了檢測精度。

② 針對(duì)圖像中小目標(biāo)占比大的問題,生成一組新的錨框,同時(shí)在頸部增加較淺的P2 檢測層,使網(wǎng)絡(luò)在特征提取時(shí)獲得更多小目標(biāo)的信息,從而提高了小目標(biāo)的檢測精度。

③ 針對(duì)檢測密集場景中出現(xiàn)誤檢漏檢的現(xiàn)象,提出了SCA,將不同層次的全局信息和局部信息結(jié)合,獲得更加全面的特征信息,降低了漏檢誤檢現(xiàn)象的發(fā)生,mAP50 值提升了1. 7% 。

④ 使用SIoU 替換CIoU,加快模型收斂速度同時(shí)提高了檢測精度。

在VisDrone2019 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,改進(jìn)后算法的mAP50 值為52. 4% ,提高了4% ,FPS為37。消融實(shí)驗(yàn)中,逐一驗(yàn)證了每一個(gè)改進(jìn)模塊對(duì)提升檢測精度的有效性。本文改進(jìn)的算法優(yōu)于目前主流的目標(biāo)檢測算法,能較好地檢測出無人機(jī)圖像中的目標(biāo)。改進(jìn)后的模型在檢測精度上有更大優(yōu)勢,同時(shí)也能滿足實(shí)時(shí)性檢測的需求。接下來將繼續(xù)深入研究,降低模型的計(jì)算復(fù)雜度和參數(shù)量,使模型整體更加輕量化,并用不同的數(shù)據(jù)集驗(yàn)證模型的泛化性。

參考文獻(xiàn)

[1] ZOU Z X,CHEN K Y,SHI Z W,et al. Object Detection in20 Years:A Survey[J]. Proceedings of the IEEE,2023,111(3):257-276.

[2] GIRSHICK R. Fast RCNN[C]∥2015 IEEE InternationalConference on Computer Vision. Santiago:IEEE,2015:1440-1448.

[3] REN S Q,HE K M,GIRSHICK R,et al. Faster RCNN:Towards Realtime Object Detection with Region ProposalNetworks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2017,39(6):1137-1149.

[4] LIU W,ANGUELOV D,ERHAN D,et al. SSD:SingleShot Multibox Detector [C ]∥ Computer VisionECCV2016:14th European Conference. Amsterdam:Springer,2016:21-37.

[5] REDMON J,DIVVALA S,GIRSHICK R,et al. You OnlyLook Once:Unified,Realtime Object Detection [C]∥2016 IEEE Conference on Computer Vision and PatternRecognition (CVPR). Las Vegas:IEEE,2016:779-788.

[6] REDMON J,FARHADI A. YOLOv3:An Incremental Improvement[EB / OL]. (2018 - 04 - 08)[2023 - 06 - 07].https:∥arxiv. org / abs / 1804. 02767.

[7] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. YOLOv4:Optimal Speed and Accuracy of Object Detection [EB /OL]. (2020 - 04 - 23)[2023 - 06 - 07]. https:∥ arxiv.org / abs / 2004. 10934.

[8] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7:Trainable Bagoffreebies Sets New Stateoftheart forRealtime Object Detectors[C]∥2023 IEEE / CVF Conference on Computer Vision and Pattern Recognition(CVPR). Vancouver:IEEE,2023:7464-7475.

[9] 趙耘徹,張文勝,劉世偉. 基于改進(jìn)YOLOv4 的無人機(jī)航拍目標(biāo)檢測算法[J]. 電子測量技術(shù),2023,46(8):169-175.

[10] 雷幫軍,耿紅彬,吳正平. 基于自適應(yīng)校準(zhǔn)和多分支注意力的遙感目標(biāo)檢測[J]. 電子測量技術(shù),2022,45(22):106-111.

[11] 王恒濤,張上,陳想,等. 輕量化無人機(jī)航拍目標(biāo)檢測算法[J]. 電子測量技術(shù),2022,45(19):167-174.

[12] 張上,張?jiān)溃鹾銤?,等?輕量化無人機(jī)遙感圖像小目標(biāo)檢測算法[J]. 無線電工程,2023,53(10):2329-2336.

[13] 劉展威,陳慈發(fā),董方敏. 基于YOLOv5s 的航拍小目標(biāo)檢測改進(jìn)算法研究[J]. 無線電工程,2023,53 (10):2286-2294.

[14] LI Y T,FAN Q S,HUANG H S,et al. A ModifiedYOLOv8 Detection Network for UAV Aerial Image Recognition[J]. Drones,2023,7(5):304.

[15] 齊向明,柴蕊,高一萌. 重構(gòu)SPPCSPC 與優(yōu)化下采樣的小目標(biāo)檢測算法[J]. 計(jì)算機(jī)工程與應(yīng)用,2023,59(20):158-166.

[16] 張徐,朱正為,郭玉英,等. 基于cosSTRYOLOv7 的多尺度遙感小目標(biāo)檢測[J / OL ]. 電光與控制:1 - 9[2023-06 -24]. http:∥ kns. cnki. net / kcms / detail / 41.1227. tn. 20230615. 1017. 002. html.

[17] LIU R,LEHMAN J,MOLINO P,et al. An IntriguingFailing of Convolutional Neural Networks and the Coordconv Solution [EB / OL]. (2018 - 07 - 09 )[2023 - 06 -24]. https:∥arxiv. org / abs / 1807. 03247.

[18] GEVORGYAN Z. SIoU Loss:More Powerful Learning forBounding Box Regression [EB / OL ]. (2022 - 05 - 25 )[2023-06-24]. https:∥arxiv. org / abs / 2205. 12740.

[19] ZHU P F,WEN L Y,DU D W,et al. Detection and Tracking Meet Drones Challenge [J]. IEEE Transactions onPattern Analysis and Machine Intelligence,2021,44(11):7380-7399.

[20] HU J,SHEN L,SUN G. SqueezeandExcitation Networks[C]∥2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE,2018:7132-7141.

[21] WOO S,PARK J,LEE J Y,et al. CBAM:ConvolutionalBlock Attention Module [C ]∥ Proceedings of theEuropean Conference on Computer Vision (ECCV2018). Munich:Springer,2018:3-19.

[22] HOU Q B,ZHOU D Q,FENG J S. Coordinate Attentionfor Efficient Mobile Network Design [C]∥ 2021 IEEE /CVF Conference on Computer Vision and Pattern Recognition. Nashville:IEEE,2021:13708-13717.

[23] ZHANG Y F,REN W Q,ZHANG Z,et al. Focal and Efficient IOU Loss for Accurate Bounding Box Regression[J]. Neurocomputing,2022,506:146-157.

[24] TONG Z J,CHEN Y H,XU Z W,et al. WiseIoU:Bounding Box Regression Loss with Dynamic FocusingMechanism[EB / OL]. (2023 -01 -24)[2023 -06 -26].https:∥arxiv. org / abs / 2301. 10051.

[25] ZHU X K,LYU S C,WANG X,et al. TPHYOLOv5:Improved YOLOv5 Based on Transformer Prediction Headfor Object Detection on Dronecaptured Scenarios[C]∥2021 IEEE / CVF International Conference on ComputerVision Workshops (ICCVW ). Montreal:IEEE,2021:2778-2788.

[26] ZENG S,YANG W Z,JIAO Y Y,et al. SCAYOLO:ANew Small Object Detection Model for UAV Images[J].The Visual Computer,2024,40:1787-1803.

作者簡介

梁秀滿 女,(1973—),碩士,副教授,碩士生導(dǎo)師。主要研究方向:檢測技術(shù)及智能裝置、人工智能與模式識(shí)別。

賈梓涵 男,(2000—),碩士研究生。主要研究方向:深度學(xué)習(xí)與圖像處理。

(*通信作者)于海峰 男,(1990—),博士,講師。主要研究方向:深度學(xué)習(xí)與圖像處理。

劉振東 男,(1973—),碩士,副高級(jí)工程師。主要研究方向:深度學(xué)習(xí)與圖像處理。

基金項(xiàng)目:河北省自然科學(xué)基金(F2018209289)

猜你喜歡
無人機(jī)
基于蟻群算法的一種無人機(jī)二維航跡規(guī)劃方法研究
無人機(jī)動(dòng)態(tài)跟蹤展示系統(tǒng)設(shè)計(jì)
淺論無人機(jī)航拍發(fā)展及展望
無人機(jī)配送的障礙性因素分析
無人機(jī)在海上人命救助中的應(yīng)用
植保無人機(jī)操作規(guī)程及注意事項(xiàng)
高職院校新開設(shè)無人機(jī)專業(yè)的探討
人間(2016年26期)2016-11-03 17:52:40
利用無人機(jī)進(jìn)行航測工作的方式方法
一種適用于輸電線路跨線牽引無人機(jī)的飛行方案設(shè)計(jì)
科技視界(2016年22期)2016-10-18 14:30:27
淺析無人機(jī)技術(shù)在我國的發(fā)展前景
鄢陵县| 卢龙县| 泸西县| 恩平市| 邢台县| 广饶县| 西畴县| 通州市| 张家界市| 榆社县| 扬中市| 汝州市| 潮州市| 岳阳县| 分宜县| 安阳市| 会昌县| 大丰市| 阿图什市| 英吉沙县| 外汇| 曲松县| 仙桃市| 全南县| 巴里| 三门峡市| 伊川县| 中宁县| 仪陇县| 襄汾县| 洪湖市| 赫章县| 锡林浩特市| 黔西县| 保亭| 襄垣县| 胶南市| 平顶山市| 禹城市| 瑞安市| 鄂托克前旗|