国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)YOLOv8的復(fù)雜環(huán)境行人檢測(cè)算法研究

2024-01-02 00:00:00金吉成

摘 要:復(fù)雜場(chǎng)景下行人檢測(cè)的準(zhǔn)確性和魯棒性面臨極大挑戰(zhàn),本文提出了一種改進(jìn)YOLOv8的行人檢測(cè)算法,以提高檢測(cè)質(zhì)量。首先,本文將重參數(shù)化網(wǎng)絡(luò)UniRepLKNet代替原YOLOv8s模型的骨干網(wǎng)絡(luò),將其用于行人特征提取。該網(wǎng)絡(luò)不僅增大了感受野,而且避免了小尺寸核大量地堆疊使用。其次,將Focal-Modulation模塊替代原SPPF模塊,該模塊利用焦點(diǎn)調(diào)制機(jī)制聚焦行人圖像中的關(guān)鍵特征區(qū)域。最后,引入形態(tài)交并比損失Shape-IoU來(lái)提高邊界回歸準(zhǔn)確性。在RTTS和WiderPerson數(shù)據(jù)集上進(jìn)行試驗(yàn),結(jié)果顯示,與原YOLOv8s模型相比,改進(jìn)算法的平均精度(AP)提升了3.1%、2.6%。所提算法具有較高的檢測(cè)精度和魯棒性,可以滿足監(jiān)控領(lǐng)域復(fù)雜場(chǎng)景下行人檢測(cè)的需求。

關(guān)鍵詞:行人檢測(cè);YOLOv8;UniRepLKNet;Focal-Modulation

中圖分類號(hào):TP 391 " " 文獻(xiàn)標(biāo)志碼:A

行人檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域中的常見任務(wù),被廣泛應(yīng)用于智能交通、智能安防等領(lǐng)域[1]。目標(biāo)檢測(cè)算法的不斷更新推動(dòng)了行人檢測(cè)的發(fā)展,但是復(fù)雜環(huán)境下的行人檢測(cè)的精度依然具有挑戰(zhàn)性。目前主流的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型分為兩階段檢測(cè)算法和單階段檢測(cè)算法,前者以R-CNN系列算法[2]為代表,后者以YOLO系列算法為代表,后者在速度上顯著優(yōu)于前者,但是檢測(cè)精度不足[3]。隨著深度學(xué)習(xí)技術(shù)發(fā)展,YOLO系列算法的較新版本在精度上已經(jīng)高于兩階段檢測(cè)算法。

為進(jìn)行復(fù)雜環(huán)境下的行人檢測(cè),本文提出了一種基于YOLOv8的行人檢測(cè)算法,利用UniRepLKNet網(wǎng)絡(luò)來(lái)提取行人特征,采用Focal-Modulation模塊來(lái)處理行人關(guān)鍵特征區(qū)域,引入Shape-IoU損失來(lái)提高邊界回歸的準(zhǔn)確性。

1 YOLOv8算法

在計(jì)算機(jī)視覺領(lǐng)域中,YOLO算法不僅廣泛應(yīng)用于工業(yè)界,而且廣泛應(yīng)用于學(xué)界,其版本也不斷更新,在實(shí)時(shí)性、準(zhǔn)確性和靈活性方面表現(xiàn)優(yōu)秀。YOLOv8算法是由Ultralytics團(tuán)隊(duì)提出的較新的YOLO系列算法。根據(jù)不同的網(wǎng)絡(luò)深度,YOLOv8算法具有N、S、M、L和X共5種尺度的模型,其作用是滿足不同場(chǎng)景下的需求。其中YOLOv8s是最輕量級(jí)的網(wǎng)絡(luò),訓(xùn)練速度和檢測(cè)速度均較快,因此本文將YOLOv8s作為基礎(chǔ)模型框架進(jìn)行改進(jìn)。

YOLOv8算法是在YOLOv5算法的基礎(chǔ)上加入了新的功能和方法,進(jìn)一步提升了模型性能。在主干網(wǎng)絡(luò)部分,YOLOv8算法將梯度流更豐富的C2f模塊替換YOLOv5算法中的C3模塊,調(diào)整了不同深度網(wǎng)絡(luò)的通道數(shù)量,不僅計(jì)算量顯著降低,而且模型收斂速度和收斂效果也顯著提升。在網(wǎng)絡(luò)頭部分,YOLOv8算法將Anchor-Based替換成Anchor-Free,其優(yōu)點(diǎn)是算法相對(duì)簡(jiǎn)潔,無(wú)須設(shè)計(jì)大量錨框,更適用于小目標(biāo)檢測(cè),同時(shí)采用解耦頭的設(shè)計(jì),將分類和檢測(cè)頭分離,使二者功能更集中,能夠有效提高目標(biāo)檢測(cè)的準(zhǔn)確性和泛化性。在損失函數(shù)部分,YOLOv8算法將正、負(fù)樣本匹配策略代替?zhèn)鹘y(tǒng)的IOU匹配方法,同時(shí)采用Distribution Focal Loss(DFL)來(lái)解決正樣本少、負(fù)樣本多導(dǎo)致的模型學(xué)習(xí)不均衡的問題。

2 改進(jìn)的YOLOv8模型

2.1 構(gòu)建重參數(shù)化骨干網(wǎng)絡(luò)(UniRepLKNet)

在目前的行人檢測(cè)任務(wù)中,通用的目標(biāo)檢測(cè)模型均使用小尺寸卷積核(例如3*3)來(lái)堆疊網(wǎng)絡(luò)結(jié)構(gòu),這種感受野較小的網(wǎng)絡(luò)結(jié)構(gòu)不適用于大視野監(jiān)控視角下的行人檢測(cè),因此需要檢測(cè)網(wǎng)絡(luò)具有更大的感受野,以學(xué)習(xí)行人目標(biāo)的空間分布,同時(shí)也需要增加模型網(wǎng)絡(luò)深度,以提高高級(jí)語(yǔ)義特征的提取能力。UniRepLKNet[4]是一種新穎的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),它采用大尺寸卷積核、高效的局部結(jié)構(gòu)設(shè)計(jì)和重參數(shù)化等機(jī)制,不僅保證了大尺寸感受野,而且提高了網(wǎng)絡(luò)的表征能力和抽象層次,因此本文將YOLOv8s模型的骨干網(wǎng)絡(luò)替代為UniRepLKNet。

一個(gè)完整的UniRepLKNet網(wǎng)絡(luò)包括4個(gè)階段,每個(gè)階段均由不同的大尺寸核塊和小尺寸核塊交替排列組成,它借鑒了ConvNeXt網(wǎng)絡(luò)的架構(gòu)思想,將1個(gè)大尺寸核塊和2個(gè)小尺寸核塊作為1組,4個(gè)階段的組數(shù)分別為{1,1,3,1}。

UniRepLKNet的大尺寸核塊和小尺寸核塊結(jié)構(gòu)圖如圖1所示,可以看出,大尺寸核塊與小尺寸核塊的結(jié)構(gòu)基本相同,不同的是大尺寸核塊中采用的是膨脹修復(fù)塊,而小尺寸核塊采用的是尺寸為3*3的深度可分卷積塊。通常將大尺寸卷積核與小尺寸卷積核并行使用,再分別通過BN層操作將兩者輸出結(jié)果相加。但是大尺寸卷積核的參數(shù)較多,會(huì)降低模型提取的特征效果,因此需要借鑒結(jié)構(gòu)重參數(shù)化的思想,將BN層操作與卷積層一起使用,可以達(dá)到大、小不同卷積核尺寸合并推斷的效果,同時(shí)也符合膨脹修復(fù)塊的捕捉模式特征的機(jī)制。

首先,UniRepLKNet網(wǎng)絡(luò)采用少量大卷積核,能夠保證大感受野,在不過度增加模型深度的情況下可以有效擴(kuò)展模型對(duì)空間信息的感知范圍。其次,小尺寸核塊中的深度可分離卷積結(jié)構(gòu)可以提高特征抽象層次,允許模型能夠在局部區(qū)域更有效地捕捉特征。最后,本文引入了一些高效結(jié)構(gòu),例如SE塊和瓶頸結(jié)構(gòu)來(lái)提高模型深度,使其能夠更好地?cái)M合復(fù)雜函數(shù),從而更全面地學(xué)習(xí)輸入數(shù)據(jù)的復(fù)雜特征和關(guān)系。

2.2 引入Focal-Modulation模塊

YOLOv8算法沿用了YOLOv5算法中的SPPF(快速空間金字塔池化)模塊,它通常在目標(biāo)檢測(cè)算法中用于處理各種尺寸的輸入圖像,并產(chǎn)生大小相同的輸出圖像,同時(shí)還能保持較快的處理速度。但是對(duì)復(fù)雜場(chǎng)景下的行人檢測(cè)任務(wù)來(lái)說,SPPF模塊不能較好地處理小目標(biāo)和遮擋目標(biāo),也不能較好地定位到圖像中的關(guān)鍵區(qū)域。Focal-Modulation模塊[5]是一種新的特征增強(qiáng)方法,它采用焦點(diǎn)調(diào)制機(jī)制,能夠聚焦于圖像中的關(guān)鍵區(qū)域,不僅可以處理不同尺寸的輸入圖像,而且可以更精確地識(shí)別和定位圖像中的對(duì)象。因此本文提出將SPPF模塊替代為Focal-Modulation模塊。

Focal-Modulation模塊結(jié)構(gòu)如圖2所示,該模塊運(yùn)行步驟包括3個(gè)方面。1)焦點(diǎn)上、下文化。該模塊使用一系列深度卷積層堆棧實(shí)現(xiàn)焦點(diǎn)上、下文化,從短范圍到長(zhǎng)范圍對(duì)視覺上、下文進(jìn)行編碼,從而允許網(wǎng)絡(luò)在不同層次上理解圖像內(nèi)容,增強(qiáng)對(duì)圖像全局結(jié)構(gòu)的認(rèn)識(shí)。2)門控聚合。該模塊選擇性地將多層次上、下文信息(l=1,2,3)聚合到每個(gè)查詢令牌的調(diào)制器中,即網(wǎng)絡(luò)能夠決定哪些特定的上、下文信息對(duì)當(dāng)前處理的查詢令牌是重要的,從而專注于那些最具相關(guān)性的信息。3)逐元素仿射變換。模塊使用聚合后的調(diào)制器,對(duì)每個(gè)查詢令牌進(jìn)行逐元素仿射變換,更細(xì)致地識(shí)別每個(gè)查詢令牌的特征,并根據(jù)上、下文信息增強(qiáng)或抑制某些特征。通過這3個(gè)步驟,F(xiàn)ocal-Modulation模塊能夠在聚合上、下文信息過程中保持對(duì)局部細(xì)節(jié)的敏感性,增強(qiáng)模型對(duì)全局特征的認(rèn)識(shí),也可以選擇性地集中處理重要的上、下文信息,提升網(wǎng)絡(luò)的效率和性能,還可以利用上、下文信息來(lái)調(diào)整查詢令牌,增強(qiáng)模型對(duì)關(guān)鍵視覺特征的捕捉和表達(dá)能力。因此Focal-Modulation模塊特別適用于處理目標(biāo)檢測(cè)中難以檢測(cè)的小對(duì)象或復(fù)雜背景中的對(duì)象。

2.3 引入Shape-IoU損失函數(shù)

YOLOv8算法中的邊界框損失函數(shù)采用CIoU損失函數(shù)。CIoU損失函數(shù)基于邊界框間的相對(duì)位置關(guān)系來(lái)計(jì)算邊界損失,目前大多數(shù)目標(biāo)檢測(cè)模型也都采用該方法。但是行人檢測(cè)任務(wù)中的行人與其他目標(biāo)不同,行人目標(biāo)通常處于站立狀態(tài),此時(shí)的行人邊界框具有相對(duì)恒定的長(zhǎng)寬比,其形狀和尺度等固有屬性對(duì)邊界框回歸計(jì)算也具有一定影響。因此,針對(duì)行人邊界框的特點(diǎn),本文將Shape-IoU[6]代替CIoU損失函數(shù)。Shape-IoU損失利用邊界框本身的形狀和尺度來(lái)計(jì)算損失,從而使邊界框回歸更準(zhǔn)確。

Shape-IoU損失的計(jì)算過程如公式(1)所示。

Shape-IoU=1-IOU+disshape+0.5Ωshape (1)

式中:IOU為常規(guī)的交并比損失;disshape為距離系數(shù),對(duì)應(yīng)邊界框的尺度偏差;Ωshape為形狀系數(shù),對(duì)應(yīng)邊界框的形狀偏差,具體計(jì)算方式見文獻(xiàn)[6]。

3 試驗(yàn)結(jié)果與分析

3.1 試驗(yàn)數(shù)據(jù)集

常見的行人檢測(cè)數(shù)據(jù)集包括CityPersons、VOC和COCO等,這些數(shù)據(jù)集中圖片的光照、分辨率和背景環(huán)境等因素都較好,行人目標(biāo)可以較容易地檢測(cè)出來(lái)。為了評(píng)估所提改進(jìn)模型在復(fù)雜場(chǎng)景下的效果,本文使用RTTS和WiderPerson數(shù)據(jù)集進(jìn)行試驗(yàn)。RTTS數(shù)據(jù)集是RESIDE數(shù)據(jù)集下的一個(gè)子分支,所有數(shù)據(jù)均在霧、雨和雪天氣條件下采集,包括道路、鄉(xiāng)村和景區(qū)等不同場(chǎng)景。WiderPerson數(shù)據(jù)集在戶外進(jìn)行數(shù)據(jù)采集,專門用于戶外行人檢測(cè)任務(wù),數(shù)據(jù)集中行人眾多、圖片分辨率各異。這2個(gè)數(shù)據(jù)集包括復(fù)雜天氣、遮擋和密集分布的情形,更貼近實(shí)際應(yīng)用場(chǎng)景,能夠更好地驗(yàn)證模型的有效性。

3.2 評(píng)價(jià)指標(biāo)

在目標(biāo)檢測(cè)任務(wù)中,常用的評(píng)價(jià)指標(biāo)包括召回率R(Recall)、精準(zhǔn)率P(Precision)和mAP(mean Average Precision)。召回率R表示正樣本的數(shù)量占標(biāo)記為正樣本的數(shù)量的比例,精準(zhǔn)率P表示正樣本的數(shù)量占所有樣本的比例。平均精度AP是PR曲線下的面積,mAP是每個(gè)類別下AP的均值,其計(jì)算過程如公式(2)所示。

(2)

式中:m為數(shù)據(jù)集中檢測(cè)類別的總數(shù)量;i為數(shù)據(jù)集中每張圖片的序號(hào);APi為第i張圖片的平均精度。

此外,漏檢率(Miss Rate,MR)也是行人檢測(cè)常用的評(píng)價(jià)指標(biāo),它表示未檢測(cè)到的行人數(shù)量占總行人數(shù)量的比例,MR越低,表示模型漏檢越少,性能也越好。

3.3 試驗(yàn)結(jié)果和分析

本文試驗(yàn)環(huán)境包括操作系統(tǒng)Windows 10、Pytorch-1.12、CUDA-11.7和GPU-MVIDIA GeForce RTX 2070 SUPER。

試驗(yàn)訓(xùn)練的相關(guān)設(shè)置如下所示。采用UniRepLKNet的預(yù)訓(xùn)練權(quán)重,使用Adam優(yōu)化器,設(shè)momentum為0.9,初始學(xué)習(xí)率為1×10-3,權(quán)重衰減系數(shù)為5×10-4,BatchSize為16,迭代輪數(shù)epoch為300。在輸入端的數(shù)據(jù)增強(qiáng)方面,延續(xù)使用YOLOv5中的Mosaic數(shù)據(jù)增強(qiáng)方式,即通過隨機(jī)縮放、隨機(jī)裁剪和隨機(jī)排布的方式將輸入圖片進(jìn)行拼接,這種方式對(duì)小目標(biāo)的檢測(cè)效果較好。在訓(xùn)練策略上,本文引入了YOLOX中的數(shù)據(jù)增強(qiáng)策略,在訓(xùn)練的最后10個(gè)epoch關(guān)閉Mosaic數(shù)據(jù)增強(qiáng),該策略可以有效提升模型精度。改進(jìn)YOLOv8s模型在RTTS數(shù)據(jù)集中的試驗(yàn)結(jié)果見表1。

由表1可知,與YOLOv8s基準(zhǔn)檢測(cè)模型相比,本文改進(jìn)的YOLOv8s模型的平均精度(AP)提升了3.1%,召回率提升了3.9%,精度提升了0.1%,并且在精度方面基本取得了二階段檢測(cè)網(wǎng)絡(luò)Faster R-CNN的效果。

為了分析改進(jìn)YOLOv8s模型的各項(xiàng)改進(jìn)內(nèi)容的效果,本文進(jìn)行了消融試驗(yàn),其結(jié)果見表2??梢钥闯?,單獨(dú)使用UniRepLKNet、Focal-Modulation和Shape-IoU,均能提升模型精度,聯(lián)合使用這3個(gè)模塊,模型的平均精度(AP)比基準(zhǔn)模型提高3.1%,證明了改進(jìn)模型的有效性。

改進(jìn)模型在WiderPerson數(shù)據(jù)集中的試驗(yàn)結(jié)果見表3??梢钥闯觯c基準(zhǔn)模型相比,改進(jìn)模型的平均精度(AP)提升了2.6%,漏檢率(MR)下降了0.7%。

綜合表2、表3的試驗(yàn)結(jié)果可知,本文提出的3個(gè)改進(jìn)方面均能有效增強(qiáng)模型的準(zhǔn)確性和魯棒性,在復(fù)雜環(huán)境,例如光照變化、遮擋情況、背景相似情況和小目標(biāo)情況下,仍然能夠檢查出行人邊框,并降低漏檢率。綜上所述,本文提出的改進(jìn)模型在復(fù)雜環(huán)境下能夠有效提取并處理行人特征,更能滿足現(xiàn)實(shí)監(jiān)控場(chǎng)景的需求。

4 結(jié)語(yǔ)

為了提高復(fù)雜環(huán)境下行人檢測(cè)的質(zhì)量,本文在YOLOv8模型基礎(chǔ)上進(jìn)行了3個(gè)方面的改進(jìn)。首先,將UniRepLKNet作為骨干網(wǎng)絡(luò),以有效感知空間信息和捕捉局部區(qū)域特征。其次,選用Focal-Modulation模塊來(lái)捕捉圖像中的關(guān)鍵視覺特征和上、下文信息,以處理難以檢測(cè)的小對(duì)象或復(fù)雜背景中的對(duì)象。最后,選用Shape-IoU損失函數(shù),它不僅符合行人邊框的特點(diǎn),而且使邊界框回歸更精確。試驗(yàn)結(jié)果表明,3個(gè)方面的改進(jìn)均有成效,改進(jìn)模型取得了較優(yōu)異的檢測(cè)效果,具有較好的準(zhǔn)確性和魯棒性。

參考文獻(xiàn)

[1]羅會(huì)蘭,陳鴻坤.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究綜述[J].電子學(xué)報(bào),2020,48(6):1230-1239.

[2]郭慶梅,劉寧波,王中訓(xùn),等.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述[J].探測(cè)與控制學(xué)報(bào),2023,45(6):10-20.

[3]劉毅,于暢洋,李國(guó)燕,等.UAST-RCNN:遮擋行人的目標(biāo)檢測(cè)算法[J].電子測(cè)量與儀器學(xué)報(bào),2022(12):168-175.

[4]肖志鵬,何書峰,田春岐.EmoRepLKNet:一種基于UniRep-

LKNet的面部情緒識(shí)別神經(jīng)網(wǎng)絡(luò)[EB/OL].(2024-10-12)[2024-11-18].https://doi.org/10.19678/j.issn.1000-3428.0069761.

[5]YANG J W,LI C Y,DAI X Y.Focal Modulation Networks[EB/OL].

[2022-03-22].https://arxiv.org/abs/2203.11926?context=cs.

[6]ZHANG H,ZHANG S J.Shape-IoU:More accurate metric considering bounding box shape and scale[EB/OL].[2023-11-29].https:

//arxiv.org/abs/2312.17663?context=cs.

克什克腾旗| 郓城县| 什邡市| 南涧| 那坡县| 达拉特旗| 中西区| 阜阳市| 柳州市| 清河县| 文成县| 巴塘县| 泾川县| 侯马市| 铁力市| 龙口市| 平原县| 万载县| 海阳市| 桂林市| 张家界市| 天门市| 亳州市| 东明县| 土默特右旗| 介休市| 孟连| 大冶市| 扬中市| 大英县| 邯郸市| 翁源县| 嘉荫县| 宾阳县| 金塔县| 香港| 柘荣县| 洪雅县| 宜都市| 奉贤区| 乌什县|