国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)YOLOv7 的小目標(biāo)檢測

2023-01-27 08:27戚玲瓏高建瓴
計(jì)算機(jī)工程 2023年1期
關(guān)鍵詞:注意力卷積損失

戚玲瓏,高建瓴

(貴州大學(xué)大數(shù)據(jù)與信息工程學(xué)院,貴陽 550025)

0 概述

目標(biāo)檢測作為計(jì)算機(jī)視覺領(lǐng)域中如目標(biāo)追蹤、目標(biāo)分割等其他更高層次視覺任務(wù)的基礎(chǔ),其主要任務(wù)包括識別圖片目標(biāo)類別和定位目標(biāo)所在位置兩個(gè)部分[1]。傳統(tǒng)目標(biāo)檢測算法主要依賴于手工構(gòu)建特征,存在速度慢、精度低等問題,是早期目標(biāo)檢測常用的算法。隨著卷積神經(jīng)網(wǎng)絡(luò)的提出,基于深度學(xué)習(xí)的目標(biāo)檢測算法因其結(jié)構(gòu)簡單、檢測效果好等特點(diǎn),成為目標(biāo)檢測方向的研究主流。

基于深度學(xué)習(xí)的目標(biāo)檢測模型[2]主要分為兩類:兩階段(two-stage)模型和單階段(one-stage)模型。其中:前者通過卷積神經(jīng)網(wǎng)絡(luò)得到一系列候選區(qū)域,進(jìn)而完成分類和定位任務(wù);后者利用回歸思想將輸入圖片送入卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)檢測后直接輸出得到結(jié)果。

與其他計(jì)算機(jī)視覺任務(wù)相比,小目標(biāo)檢測(Small Object Detection,SOD)的歷史相對較 短。2014 年,通用數(shù)據(jù)集MSCOCO 將分辨率小于32×32像素的目標(biāo)定義為小目標(biāo)。2016 年,文獻(xiàn)[3]提出了基于深度學(xué)習(xí)的小目標(biāo)檢測網(wǎng)絡(luò),通過引入小目標(biāo)檢測數(shù)據(jù)集以及數(shù)據(jù)集的評估指標(biāo),從相對大小出發(fā)將同類別目標(biāo)中目標(biāo)框面積占總面積0.05%~0.58%的部分定義為小目標(biāo),為探索小目標(biāo)檢測奠定了一定的基礎(chǔ)。文獻(xiàn)[4]提出一種基于上采樣的技術(shù),在小目標(biāo)檢測中取得了更好的效果。2018 年,文獻(xiàn)[5]將反卷積RCNN 應(yīng)用于遙感小目標(biāo)檢測。隨后,在Faster RCNN[6]、SSD[7]以及YOLO 系列網(wǎng)絡(luò)模型的基礎(chǔ)上,研究人員提出了很多小目標(biāo)檢測網(wǎng)絡(luò)模型。

ReDet[8]、Oriented Bounding Boxes[9]以及Box Boundary-Aware Vectors[10]通過旋轉(zhuǎn)預(yù)測框和旋轉(zhuǎn)檢測器提升了小目標(biāo)檢測效果,但針對的只是遙感場景;TPH-YOLOv5[11]通過增加目標(biāo)檢測層,使用transformer 預(yù)測頭集成CBAM 注意力模塊[12],有效提升了網(wǎng)絡(luò)對小目標(biāo)的檢測性能,但在不密集的情況下容易造成漏檢;YOLO-Z[13]雖然通過將PAFPN替換為Bi-FPN,擴(kuò)大Neck 層等一系列操作,使中淺層特征得到很好融合,但并不適用于目標(biāo)尺寸變化大的場景。

為解決上述問題,本文提出一種改進(jìn)的YOLOv7 目標(biāo)檢測模型。通過結(jié)合特征分離合并的思想,對MPConv 模塊進(jìn)行改進(jìn),以減少特征提取過程中的有效特征缺失及漏檢情況。針對小目標(biāo)檢測中的誤檢,引入注意力機(jī)制,并結(jié)合卷積注意力機(jī)制和自注意力機(jī)制實(shí)現(xiàn)特征優(yōu)化。最終通過改進(jìn)損失函數(shù),將兩錨框中心點(diǎn)連線與水平方向形成的最小角納入考慮,以提高網(wǎng)絡(luò)對于目標(biāo)尺寸的魯棒性。

1 相關(guān)工作

1.1 YOLOv7 模型

YOLOv7[14]是YOLO 系列中的基本模型,在5~160 幀/s 范圍內(nèi),其速度和精度都超過了多數(shù)已知的目標(biāo)檢測器,在GPU V100 已知的30 幀/s 以上的實(shí)時(shí)目標(biāo)檢測器中,YOLOv7 的準(zhǔn)確率最高。根據(jù)代碼運(yùn)行環(huán)境的不同(邊緣GPU、普通GPU 和云GPU),設(shè)置了3種基本模型,分別稱為YOLOv7-tiny、YOLOv7 和YOLOv7-W6。相比于YOLO 系列其他網(wǎng)絡(luò)模型,YOLOv7 的檢測思路與YOLOv4[15]、YOLOv5[16]相似,其網(wǎng)絡(luò)架構(gòu)如圖1 所示。

圖1 YOLOv7 網(wǎng)絡(luò)架構(gòu)Fig.1 YOLOv7 network architecture

YOLOv7 網(wǎng)絡(luò)模型主要包含了輸入(Input)、骨干網(wǎng)絡(luò)(Backbone)、頸部(Neck)、頭部(Head)等4 部分。首先,圖片經(jīng)過輸入部分?jǐn)?shù)據(jù)增強(qiáng)等一系列操作進(jìn)行預(yù)處理后,被送入主干網(wǎng),主干網(wǎng)部分對處理后的圖片提取特征;隨后,提取到的特征經(jīng)過Neck模塊特征融合處理得到大、中、小3 種尺寸的特征;最終,融合后的特征被送入檢測頭,經(jīng)過檢測之后輸出得到結(jié)果。

YOLOv7 網(wǎng)絡(luò)模型的主干網(wǎng)部分主要由卷積、E-ELAN(Extended-ELAN)模塊、MPConv 模塊以及SPPCSPC 模塊構(gòu)成。E-ELAN 模塊在原始ELAN 的基礎(chǔ)上,在改變計(jì)算塊的同時(shí)保持原ELAN 的過渡層結(jié)構(gòu),并利用expand、shuffle、merge cardinality 來實(shí)現(xiàn)在不破壞原有梯度路徑的情況下增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)的能力。SPPCSPC 模塊在一串卷積中加入并行的多次MaxPool 操作,避免了由于圖像處理操作所造成的圖像失真等問題,同時(shí)解決了卷積神經(jīng)網(wǎng)絡(luò)提取到圖片重復(fù)特征的難題。在MPConv 模塊中,MaxPool 操作將當(dāng)前特征層的感受野進(jìn)行擴(kuò)張?jiān)倥c正常卷積處理后的特征信息進(jìn)行融合,提高了網(wǎng)絡(luò)的泛化性。

在Neck模塊,YOLOv7 與YOLOv5 網(wǎng)絡(luò)相同,也采用了傳統(tǒng)的PAFPN 結(jié)構(gòu)。在檢測頭部分,本文的基線YOLOv7 選用了表示大、中、小3 種目標(biāo)尺寸的IDetect 檢測頭,RepConv 模塊在訓(xùn)練和推理時(shí)其結(jié)構(gòu)具有一定的區(qū)別。

1.2 注意力機(jī)制

注意力機(jī)制[17]是機(jī)器學(xué)習(xí)中的一種數(shù)據(jù)處理方法,廣泛應(yīng)用在自然語言處理、圖像處理及語音識別等各種不同類型的任務(wù)中。

由于注意力機(jī)制的引入,可使網(wǎng)絡(luò)集中的目標(biāo)區(qū)域獲得更多細(xì)節(jié)性的信息。對于目標(biāo)檢測任務(wù)而言,網(wǎng)絡(luò)中注意力模塊的添加,可使網(wǎng)絡(luò)模型的表征能力得到提升[17],有效減少無效目標(biāo)的干擾,從而提升對關(guān)注目標(biāo)的檢測效果,達(dá)到提高網(wǎng)絡(luò)模型整體檢測效果的目的。機(jī)器學(xué)習(xí)中的注意力機(jī)制主要分為卷積注意力機(jī)制和自注意力機(jī)制兩類。

本文對YOLOv7 的主干網(wǎng)絡(luò)進(jìn)行多次實(shí)驗(yàn),發(fā)現(xiàn)在特征提取的過程中,許多對于小目標(biāo)檢測及其重要的中、淺層紋理和輪廓信息都沒有被充分提取,對小目標(biāo)檢測產(chǎn)生了一定程度的影響,容易造成目標(biāo)漏檢。因此,本文從增強(qiáng)網(wǎng)絡(luò)對小目標(biāo)的注意力出發(fā),兼顧輸入與輸入之間的關(guān)系及輸入與輸出之間的關(guān)系,減少漏檢情況的發(fā)生。

1.3 IoU 損失函數(shù)

在目標(biāo)檢測網(wǎng)絡(luò)中,目標(biāo)定位依賴于一個(gè)邊界框回歸模塊,而IoU 損失函數(shù)的作用就是使預(yù)測框靠近正確目標(biāo)從而提升目標(biāo)框的定位效果[18]。2019年,針對在兩框不相交情況下IoU 很難衡量回歸框好壞的問題,GIoU[19]通過引入能夠包圍預(yù)測框和真實(shí)框的最小框(類似于圖像處理中的閉包區(qū)域)來獲取預(yù)測框、真實(shí)框在閉包區(qū)域中的比重。次年,考慮到當(dāng)預(yù)測框和真實(shí)框處于水平位置時(shí)GIoU 就會退化為IoU 的情況,DIoU[21]在IoU 的基礎(chǔ)上,將預(yù)測框和真實(shí)框中心點(diǎn)之間的距離納入考慮,從而提高了損失函數(shù)的收斂速度。之后,為了得到更加精準(zhǔn)的預(yù)測框,CIoU[22]對DIoU 進(jìn)行改進(jìn),將長寬比引入計(jì)算,提升了回歸框的檢測效果。

由于在遇到預(yù)測框和真實(shí)框長寬比相同的情況時(shí),CIoU 損失函數(shù)長寬比的懲罰項(xiàng)恒為0,收斂過程波動相對較大。因此,本文對損失函數(shù)進(jìn)行更細(xì)致的表示,以達(dá)到損失函數(shù)平穩(wěn)收斂的目的,使目標(biāo)框具有更好的定位精度。

2 YOLOv7 目標(biāo)檢測模型的改進(jìn)

2.1 MPConv 改進(jìn)模塊

在YOLOv7 網(wǎng)絡(luò)中,MPConv 模塊上的分支在最大池化層后連接一個(gè)k=1、s=1 的卷積;下分支在k=1、s=1 的卷積后連接一個(gè)k=3、s=2 的卷積。其中,最大池化層和1×1 卷積進(jìn)行級聯(lián),通過選取局部最大值對圖像的邊緣和紋理信息進(jìn)行學(xué)習(xí),而另一分支通過兩個(gè)卷積級聯(lián),提取得到了圖像的更多細(xì)節(jié)信息。兩分支合并為網(wǎng)絡(luò)帶來了更好的信息融合效果。如圖2 所示,當(dāng)選擇卷積核為3、步長為2 的卷積時(shí),卷積過程會造成一些細(xì)粒度的丟失,從而使得網(wǎng)絡(luò)產(chǎn)生低效率的特征表示學(xué)習(xí)。

圖2 stride 為2 時(shí)的卷積過程Fig.2 Convolution process with stride of two

為避免這類由于步長為2 的卷積對小目標(biāo)網(wǎng)絡(luò)所造成的特征缺失,需進(jìn)行分離合并操作,操作原理如圖3 所示。對于一張含有S×S像素的圖片,本文將其分離成4 個(gè)S/2×S/2 的子圖,然后將4 個(gè)子圖按照通道進(jìn)行拼接。經(jīng)過分離合并后的特征再通過1×1卷積就可以得到S/2×S/2×1 大小的特征。

圖3 分離合并操作示意圖Fig.3 Schematic diagram of separation and merging operation

如圖4 所示,改進(jìn)后MPConv 模塊的右分支與改進(jìn)前相同,達(dá)到了特征圖尺寸減半的目的,但操作過程中不會造成特征的缺失。

圖4 MPConv 框架Fig.4 MPConv framework

為進(jìn)一步探究改進(jìn)后MPConv 模塊放在網(wǎng)絡(luò)哪個(gè)位置能夠最大程度地提升檢測效果,本文針對以下3 種情況進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1 所示。其中,mAP@0.5 和mAP@0.5∶0.95 分別表示IoU=0.5、0.5≤IoU≤0.95 時(shí)各個(gè)類別的平均AP 值。

表1 不同情況下的實(shí)驗(yàn)結(jié)果對比Table 1 Comparison of experimental results under different conditions

1)只將Backbone 結(jié)構(gòu)中的MPConv 模塊替換為改進(jìn)后的MPConv 模塊。

2)只將Neck 結(jié)構(gòu)中的MPConv 模塊替換為改進(jìn)后的MPConv 模塊。

3)將網(wǎng)絡(luò)中所有MPConv 模塊替換為改進(jìn)后的MPConv 模塊。

從表1 的實(shí)驗(yàn)結(jié)果可以看出,只將Neck 結(jié)構(gòu)中的MPConv 模塊替換為改進(jìn)后的MPConv 模塊時(shí),網(wǎng)絡(luò)表現(xiàn)最佳,相比于原網(wǎng)絡(luò),提取到了更多有效的特征信息。

2.2 ACmix 注意力模塊

在注意力機(jī)制中,卷積注意力模塊多注重輸入與輸出的關(guān)系,而自注意力模塊則多注重輸入與輸入之間的關(guān)系。受CoAtNet[23]網(wǎng)絡(luò)的啟發(fā),本文結(jié)合自注意力和卷積注意力兩者的優(yōu)點(diǎn),引入ACmix注意力模塊[24]以增強(qiáng)網(wǎng)絡(luò)對于小目標(biāo)的注意力。如圖5 所示,ACmix 注意力模塊由卷積注意力和自注意力兩個(gè)模塊并行組合而成。

圖5 ACmix 原理圖Fig.5 Principle diagram of the ACmix

ACmix 原理如下:將H×W×C的特征通過3 個(gè)1×1×C卷積進(jìn)行投影后分成N片,得到3×N個(gè)尺寸為(H×W×C/N)的子特征。

對于上分支(內(nèi)核為k的卷積路徑),網(wǎng)絡(luò)像傳統(tǒng)卷積注意力一樣從局部感受野收集信息,子特征通過3N×K2N的全連接層后,對生成的特征進(jìn)行移位和聚合以及卷積處理,得到H×W×C的特征;對于下分支(自注意路徑),網(wǎng)絡(luò)像自注意力一樣在考慮全局的同時(shí)并聚焦重點(diǎn),3N個(gè)子特征對應(yīng)的3 個(gè)H×W×C/N尺寸的特征圖分別作為查詢、鍵和值,并遵循傳統(tǒng)的多頭自注意力模型,通過移位、聚合、卷積處理得到H×W×C的特征。最終,對兩條路徑的輸出進(jìn)行Concat 操作,強(qiáng)度由兩個(gè)可學(xué)習(xí)的標(biāo)量控制,如式(1)所示:

其中:Fout表示路徑的最終輸出;Fatt表示自注意力分支的輸出;Fconv表示卷積注意力分支的輸出;參數(shù)α和β的值均為1。

兩分支的輸出結(jié)果經(jīng)過合并后,兼顧了全局特征和局部特征,從而提升了網(wǎng)絡(luò)對于小目標(biāo)的檢測效果。

2.3 損失函數(shù)

YOLOv7 網(wǎng)絡(luò)模型中損失函數(shù)如式(2)所示:

其中:Lloc,Loss表示定位損失;Lconf,Loss表示置信度損失;Lclass,Loss表示分類 損失。

置信度損失和分類損失均采用BCEWithLogits Loss 函數(shù)進(jìn)行計(jì)算,而坐標(biāo)損失采用CIoU 進(jìn)行計(jì)算,計(jì)算公式如下:

其中:b表示預(yù)測框;bgt表示真實(shí)框;c表示能夠同時(shí)包含預(yù)測框和真實(shí)框的最小閉包區(qū)域的對角線距離;α為平衡參數(shù);v用來衡量長寬比是否一致。從式(4)可以看出,當(dāng)預(yù)測框與真實(shí)框的長寬比一樣大時(shí),v取0,此時(shí)長寬比的懲罰項(xiàng)并沒有起到作用,CIoU 損失函數(shù)得不到穩(wěn)定表達(dá)。

因此,使用SIoU[25]損失函數(shù)替換原網(wǎng)絡(luò)中的CIoU,將角度成本納入考慮,使用角度成本對距離重新進(jìn)行描述,減少損失函數(shù)的總自由度,SIoU 損失函數(shù)所用到的參數(shù)如圖6 所示。

圖6 SIoU 損失函數(shù)的計(jì)算Fig.6 Calculation of SIoU loss function

2.3.1 角度成本

通過角度是否大于45°,判斷使用最小化β還是α,角度成本的計(jì)算如式(6)所示:

2.3.2 距離成本

距離成本代表預(yù)測框與真實(shí)框兩框的中心點(diǎn)距離。結(jié)合上述定義的角度成本,SIoU 對距離成本重新定義如式(10)所示:

當(dāng)α趨向于0 時(shí),距離成本的貢獻(xiàn)大幅降低。相反,當(dāng)α越接近π/4 時(shí),距離成本的貢獻(xiàn)越大。隨著角度的增大,γ被賦予時(shí)間優(yōu)先的距離值。

2.3.3 形狀成本

形狀成本Ω的定義如式(14)所示:

此處θ的值定義了形狀損失的關(guān)注程度,本文設(shè)置為1,它將優(yōu)化形狀的長寬比,從而限制形狀的自由移動。

綜上,SIoU 損失函數(shù)的最終定義如式(17)所示:

由于角度成本的增加,損失函數(shù)在得到更充分表達(dá)的同時(shí),減少了懲罰項(xiàng)為0 出現(xiàn)的概率,使得損失函數(shù)收斂更加平穩(wěn),提高了回歸精度,從而降低了預(yù)測誤差。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

網(wǎng)絡(luò)實(shí)驗(yàn)環(huán)境為Ubuntu18.04、Python2.7.17 和PyTorch1.12.1,相關(guān)硬件配置和模型參數(shù)如表2 所示,其中訓(xùn)練數(shù)據(jù)量為300。

表2 實(shí)驗(yàn)相關(guān)硬件配置和模型參數(shù)Table 2 Experiment related hardware configuration and model parameters

3.2 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)采用歐卡智舶發(fā)布的無人船視角下內(nèi)河漂浮垃圾數(shù)據(jù)集,該數(shù)據(jù)集是全球第一個(gè)真實(shí)內(nèi)河場景下無人船視角的漂浮垃圾檢測數(shù)據(jù)集。在FloW-Img 子數(shù)據(jù)集中,超過1/2 的目標(biāo)都是小目標(biāo)(Area<32×32 像素),可以支持針對小目標(biāo)檢測的研究。數(shù)據(jù)集采集于不同的光照和波浪條件下,在不同方向和視角上對目標(biāo)進(jìn)行觀測。數(shù)據(jù)集共包括2 000 張圖片。為滿足實(shí)驗(yàn)需求,本文以6∶2∶2 比例劃分為訓(xùn)練集、驗(yàn)證集和測試集。數(shù)據(jù)集示例如圖7所示。

圖7 本文數(shù)據(jù)集示例Fig.7 Sample data sets for this paper

3.3 評價(jià)指標(biāo)

通過對比同樣實(shí)驗(yàn)環(huán)境下改進(jìn)前后的網(wǎng)絡(luò)模型對幾種類型圖像的檢測差異來評估漏檢、誤檢情況,主要選取準(zhǔn)確率-召回率(P-R)曲線和平均準(zhǔn)確率(Average Precision,AP)、平均精度均值(mean Average Precision,mAP)等3 個(gè)指標(biāo),計(jì)算公式如下:

其中:TTP表示正確預(yù)測;FFP表示錯(cuò)誤預(yù)測,包括把不是瓶子的目標(biāo)檢測為瓶子和漏檢兩種情況;FFN表示誤把瓶子目標(biāo)檢測為其他類別的情況;P為準(zhǔn)確率;R為召回率。在P-R曲線中,P-R曲線與坐標(biāo)軸圍成的面積等于AP 值大小。對所有類別的AP 值取平均值就可以得到mAP,一般地,使用mAP 來對整個(gè)目標(biāo)檢測網(wǎng)絡(luò)模型的檢測性能進(jìn)行評價(jià)。

3.4 損失函數(shù)收斂對比

在同一網(wǎng)絡(luò)模型同種實(shí)驗(yàn)環(huán)境下,對YOLOv7損失函數(shù)的收斂性進(jìn)行驗(yàn)證。兩種Loss 函數(shù)隨著迭代次數(shù)的變化曲線如圖8 所示。其中,兩條曲線分別表示邊框損失使用CIoU 和SIoU 時(shí)平均邊界框損失的情況。

圖8 損失函數(shù)迭代對比Fig.8 Loss function iteration comparison

從圖8 可以看出,隨著迭代次數(shù)的增加,SIoU 和CIoU 最終都處于收斂狀態(tài)。但是SIoU 相對于CIoU損失值更小,穩(wěn)定性也得到了一定的提升。所以,使用SIoU 作為本文數(shù)據(jù)集的邊界框損失函數(shù),對網(wǎng)絡(luò)模型的性能提升有著更重要的意義。

3.5 YOLOv7 網(wǎng)絡(luò)模型與改進(jìn)網(wǎng)絡(luò)模型實(shí)驗(yàn)對比

改進(jìn)前后網(wǎng)絡(luò)模型對于水面漂浮小目標(biāo)檢測得出的P-R曲線對比如圖9 所示。P-R曲線與坐標(biāo)軸圍成的面積大小描述了水瓶的AP 值??梢悦黠@看出,改進(jìn)后的YOLOv7 網(wǎng)絡(luò)模型在小目標(biāo)數(shù)據(jù)集的檢測中取得了較好的性能,檢測目標(biāo)的AP 值明顯高于改進(jìn)前網(wǎng)絡(luò)模型。

圖9 改進(jìn)前后網(wǎng)絡(luò)模型P-R 曲線對比Fig.9 Comparison of network models P-R curves before and after improvement

針對實(shí)際情況中目標(biāo)密集圖像、小目標(biāo)圖像、超小目標(biāo)圖像等3 種類型的圖片,基礎(chǔ)YOLOv7 網(wǎng)絡(luò)模型與改進(jìn)YOLOv7 網(wǎng)絡(luò)模型的檢測效果如圖10~圖12 所示。圖10 對于目標(biāo)密集圖片,原圖共有11 個(gè)目標(biāo),原網(wǎng)絡(luò)模型檢測到9 個(gè)目標(biāo),漏檢2 個(gè),改進(jìn)后網(wǎng)絡(luò)模型全檢測出;圖11 針對小目標(biāo)圖片,改進(jìn)前后網(wǎng)絡(luò)模型均檢測出2 個(gè)目標(biāo),但改進(jìn)后網(wǎng)絡(luò)模型的預(yù)測框置信度明顯大于原網(wǎng)絡(luò)模型;對于圖12 超小目標(biāo)(目標(biāo)框大小為0.05×0.04)的圖片,原網(wǎng)絡(luò)模型漏檢,而改進(jìn)后的網(wǎng)絡(luò)模型仍能檢測出目標(biāo)。

圖10 目標(biāo)密集圖片檢測結(jié)果對比Fig.10 Comparison of detection results of target dense pictures

圖11 小目標(biāo)圖片檢測結(jié)果對比Fig.11 Comparison of detection results of small target pictures

圖12 超小目標(biāo)圖片檢測結(jié)果對比Fig.12 Comparison of detection results of ultra-small target pictures

3.6 改進(jìn)YOLOv7網(wǎng)絡(luò)模型與其他網(wǎng)絡(luò)模型的對比

在保證配置環(huán)境及初始訓(xùn)練參數(shù)一致的情況下,本文將改進(jìn)的YOLOv7 網(wǎng)絡(luò)模型與其他網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn)來驗(yàn)證改進(jìn)網(wǎng)絡(luò)模型的有效性,結(jié)果如表3 所示??梢钥闯觯倪M(jìn)后的YOLOv7 網(wǎng)絡(luò)模型在輸入相同尺寸圖片的情況下,mAP 值超過了其他經(jīng)典網(wǎng)絡(luò)模型,更適合小目標(biāo)檢測場景。

表3 不同網(wǎng)絡(luò)模型實(shí)驗(yàn)結(jié)果對比Table 3 Comparison of experimental results of different network models

4 結(jié)束語

針對小目標(biāo)檢測困難的問題,本文提出一種改進(jìn)的YOLOv7 檢測模型。通過將分離合并思想與卷積相結(jié)合,對MPConv 模塊進(jìn)行改進(jìn),提取圖片中的細(xì)節(jié)信息。同時(shí),將傳統(tǒng)卷積注意力機(jī)制與自注意力機(jī)制進(jìn)行融合,并加入ACmix 注意力模塊,在此基礎(chǔ)上,對IoU 損失函數(shù)進(jìn)行優(yōu)化,引入SIoU 損失函數(shù)增強(qiáng)網(wǎng)絡(luò)的定位能力,從而提高網(wǎng)絡(luò)檢測精度,減少檢測過程中小目標(biāo)誤檢、漏檢情況。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的YOLOv7 網(wǎng)絡(luò)模型檢測效果優(yōu)于原網(wǎng)絡(luò)模型和傳統(tǒng)經(jīng)典目標(biāo)檢測網(wǎng)絡(luò)模型。下一步通過對數(shù)據(jù)集進(jìn)行擴(kuò)增,增加數(shù)據(jù)集中的檢測類別,擴(kuò)大檢測范圍,以提高模型在實(shí)際應(yīng)用中的檢測性能。

猜你喜歡
注意力卷積損失
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
胖胖損失了多少元
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
菜燒好了應(yīng)該盡量馬上吃