国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)YOLOv5的無(wú)人機(jī)遙感圖像檢測(cè)算法探究

2024-12-17 00:00:00劉華清王晗武美辰

摘 要:為了提高YOLOv5模型對(duì)無(wú)人機(jī)遙感圖像的檢測(cè)性能,本文進(jìn)行了研究,該模型的主要問(wèn)題是對(duì)小目標(biāo)的漏檢率和誤檢率較高。通過(guò)理論分析,發(fā)現(xiàn)其Anchor機(jī)制具有一定的優(yōu)化空間,改進(jìn)策略為使用NWD損失函數(shù)代替IoU損失函數(shù)。在性能仿真階段,對(duì)比了4種基準(zhǔn)模型的特點(diǎn),將YOLOv5s模型與改進(jìn)后的模型進(jìn)行對(duì)比,對(duì)無(wú)人機(jī)遙感圖像進(jìn)行檢測(cè)。結(jié)果顯示,改進(jìn)后的YOLOv5模型在準(zhǔn)確度、召回率、多類別平均精確度方面均優(yōu)于改進(jìn)前。

關(guān)鍵詞:YOLOv5;無(wú)人機(jī)遙感圖像檢測(cè)算法;Anchor機(jī)制改進(jìn);網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)

中圖分類號(hào):TP 391" " " " 文獻(xiàn)標(biāo)志碼:A

YOLOv5是一種應(yīng)用廣泛的圖像檢測(cè)算法模型,它能夠識(shí)別無(wú)人機(jī)遙感圖像中的人、物及環(huán)境信息,但該模型的性能存在不足,難以準(zhǔn)確識(shí)別圖像中較小的檢測(cè)目標(biāo)。鑒于此,研究過(guò)程旨在確定影響算法性能的原因,并進(jìn)行改進(jìn)。

1 YOLOv5模型在圖像檢測(cè)中的應(yīng)用

1.1 YOLOv5模型基本原理

1.1.1 YOLOv1~YOLOv4模型發(fā)展過(guò)程

YOLOv5模型由YOLOv1~YOLOv4模型發(fā)展而來(lái),因此繼承了前4種算法模型的基本原理。YOLOv1模型將整個(gè)圖形作為輸入,利用網(wǎng)絡(luò)將圖形劃分為若干區(qū)域,在此基礎(chǔ)上進(jìn)行預(yù)測(cè)和歸類,從而對(duì)特定目標(biāo)進(jìn)行檢測(cè)。區(qū)域劃分的本質(zhì)是將圖像切割成正方形的格柵,如果在某個(gè)格柵中出現(xiàn)物體的影像,就預(yù)測(cè)其邊界框,并計(jì)算反映物體是否存在以及物體類別的Score[1]。雖然該算法的檢測(cè)速度較快,但也有一定的局限性,例如難以檢測(cè)小目標(biāo),在每個(gè)格柵中只能預(yù)測(cè)2個(gè)物體。

YOLOv2模型是在YOLOv1模型的基礎(chǔ)上進(jìn)行改進(jìn)的,其 引入了批量歸一化處理、Anchor機(jī)制,并且將YOLOv1中的原有的網(wǎng)絡(luò)結(jié)構(gòu)改為Darknet-19。與YOLOv1模型相比,YOLOv2模型在保持圖像目標(biāo)檢測(cè)速度不變的情況下,提高了檢測(cè)精度。

YOLOv3模型以YOLOv2模型為基礎(chǔ),改進(jìn)措施為將Darknet-19網(wǎng)絡(luò)結(jié)構(gòu)升級(jí)為Darknet-53,使模型具備多尺度檢測(cè)的能力。在圖像分類中,將YOLOv2的Softmax(歸一化指數(shù)函數(shù))更換為邏輯回歸方法。與YOLOv2模型相比,該算法對(duì)圖像目標(biāo)的檢測(cè)速度和精度均顯著提高。

YOLOv4模型在YOLOv3模型的基礎(chǔ)上對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,利用CSPDarknet53網(wǎng)絡(luò)替換Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)。YOLOv3模型的主干網(wǎng)絡(luò)采用Relu激活函數(shù),在YOLOv4模型中,改用Mish激活函數(shù)。與YOLOv3模型相比,YOLOv4模型的優(yōu)點(diǎn)為可進(jìn)行反向求導(dǎo),并且提取上下文特征。

1.1.2 YOLOv5模型介紹

YOLOv5模型在YOLOv4模型的基礎(chǔ)上進(jìn)行優(yōu)化,其優(yōu)勢(shì)為進(jìn)一步加快了圖像中目標(biāo)物體的檢測(cè)速度。YOLOv5模型由輸入端、檢測(cè)端、頸部和主干網(wǎng)絡(luò)4個(gè)部分組成。在輸入端,繼續(xù)使用YOLOv4模型的Mosaic數(shù)據(jù)增強(qiáng),從4張不同的圖像中各裁剪一部分,再組成一個(gè)新圖片,實(shí)現(xiàn)了單次傳入4張訓(xùn)練圖片。在主干網(wǎng)絡(luò)方面,YOLOv5模型將CSP結(jié)構(gòu)和Focus結(jié)構(gòu)整合在一起,實(shí)現(xiàn)切片[2]。模型提取目標(biāo)特征的關(guān)鍵是頸部能夠產(chǎn)生特征金字塔。為了確保目標(biāo)檢測(cè)的精度,在YOLOv5模型中引入了損失函數(shù),該函數(shù)包括3種損失量,分別為分類損失、位置損失和置信度損失,3種損失的占比分別為40%、30%、30%。位置損失的計(jì)算原理為GIoU(Generalized IoU),該評(píng)價(jià)標(biāo)準(zhǔn)建立在IoU(Intersection over Union)的基礎(chǔ)上。另外兩種損失均采用BCE loss損失函數(shù)。以GIoU計(jì)算位置損失為例,相應(yīng)的計(jì)算過(guò)程如公式(1)所示。

(1)

式中:B為預(yù)測(cè)框,Bgt為實(shí)際框;B∪Bgt為二者的并集;C為最小矩形區(qū)域,并且要求該區(qū)域必須包括預(yù)測(cè)框和真實(shí)框;IoU=(B∩Bgt)/(B∪Bgt)。

1.2 YOLOv5模型在圖像檢測(cè)中的局限性

YOLOv5模型作為一種目標(biāo)檢測(cè)技術(shù),在實(shí)際應(yīng)用中存在一定的局限性,主要體現(xiàn)在以下3個(gè)方面。

當(dāng)被檢測(cè)目標(biāo)的特征不明顯或者目標(biāo)物較小時(shí),算法模型的檢測(cè)精度難以保證,容易出現(xiàn)誤檢或者漏檢。

在圖像中除了待檢測(cè)目標(biāo)外,通常還有較多的背景噪聲,受其干擾,算法模型有可能弱化目標(biāo)的特征信息,該問(wèn)題在小目標(biāo)檢測(cè)中很常見(jiàn)。

YOLOv5模型的網(wǎng)絡(luò)結(jié)構(gòu)有可能丟失小目標(biāo)的特征。

1.3 YOLOv5算法改進(jìn)

1.3.1 調(diào)整輸入圖像大小

對(duì)于無(wú)人機(jī)遙感圖像,研究人員通過(guò)調(diào)整輸入圖像的大小來(lái)優(yōu)化網(wǎng)絡(luò)。YOLOv5默認(rèn)的輸入尺寸是640px×640px,但是針對(duì)高分辨率的圖像,可以嘗試使用更大的輸入尺寸,如1024px×1024px,以便網(wǎng)絡(luò)能夠更好地捕捉細(xì)節(jié)信息。在模型訓(xùn)練中,可以調(diào)整批量大小以適應(yīng)更大尺寸的圖像。

1.3.2 引入多尺度處理

多尺度處理是通過(guò)引入不同分辨率的特征圖,來(lái)處理不同尺寸的目標(biāo)。可以調(diào)整網(wǎng)絡(luò)的結(jié)構(gòu)以引入或改進(jìn)特征金字塔網(wǎng)絡(luò)(FPN)或者類似的結(jié)構(gòu),以便更好地融合不同尺度的信息。在模型訓(xùn)練過(guò)程中,研究人員需要調(diào)整特征金字塔網(wǎng)絡(luò)中各個(gè)尺度特征圖之間的連接方式和權(quán)重,以優(yōu)化多尺度信息的融合效果。

1.3.3 引入注意力機(jī)制

注意力機(jī)制可以幫助網(wǎng)絡(luò)集中關(guān)注重要的區(qū)域,對(duì)于無(wú)人機(jī)圖像中變化較大,或信息量豐富的區(qū)域尤為重要??梢酝ㄟ^(guò)引入注意力機(jī)制模塊,如SENet來(lái)增強(qiáng)網(wǎng)絡(luò)對(duì)關(guān)鍵區(qū)域的感知能力。

1.3.4 增加深度或?qū)挾?/p>

增加網(wǎng)絡(luò)的深度或?qū)挾?,可以有效提高網(wǎng)絡(luò)的表達(dá)能力,但也會(huì)增加計(jì)算復(fù)雜度??梢酝ㄟ^(guò)增加殘差塊的數(shù)量或者擴(kuò)展模型的通道數(shù)來(lái)調(diào)整網(wǎng)絡(luò)的深度或?qū)挾?。在?shí)驗(yàn)中,需要根據(jù)性能和計(jì)算資源的平衡進(jìn)行參數(shù)調(diào)整,可能需要對(duì)深度、寬度以及其他層次的參數(shù)進(jìn)行調(diào)優(yōu)。

1.3.5 優(yōu)化損失函數(shù)

YOLOv5的損失函數(shù)包括目標(biāo)檢測(cè)、分類和坐標(biāo)回歸損失。可以對(duì)不同部分的權(quán)重進(jìn)行調(diào)整,以便更加關(guān)注對(duì)小目標(biāo)或遠(yuǎn)距離目標(biāo)的檢測(cè)。此外,根據(jù)具體場(chǎng)景和數(shù)據(jù)集的特點(diǎn),研究人員需要調(diào)整不同損失函數(shù)的權(quán)重,以平衡不同部分對(duì)整體算法性能的影響。

2 基于改進(jìn)YOLOv5的無(wú)人機(jī)遙感圖像檢測(cè)算法

2.1 Anchor機(jī)制存在的問(wèn)題

YOLOv5模型作為一種圖像檢測(cè)技術(shù),需要解決小目標(biāo)檢測(cè)問(wèn)題,Anchor機(jī)制是主要的應(yīng)對(duì)策略。該機(jī)制根據(jù)目標(biāo)物的尺度及其長(zhǎng)寬比來(lái)切割相關(guān)的圖像區(qū)域,以此提高模型的學(xué)習(xí)效率,同時(shí)減少框與框間的重疊干擾。但Anchor機(jī)制本身也存在以下的局限性。1)錨框值取值問(wèn)題。錨框值包括框的尺度(大?。┖烷L(zhǎng)寬比,其取值結(jié)果會(huì)影響算法的檢測(cè)精度和效率。YOLOv5模型利用K-means算法確定錨框值,但可能出現(xiàn)局部收斂,導(dǎo)致不能獲得全局最優(yōu)解。2)小目標(biāo)錨框計(jì)算問(wèn)題。算法模型在訓(xùn)練階段會(huì)生成數(shù)量較多的錨框,并且要對(duì)錨框進(jìn)行分類,判斷真實(shí)框與錨框間的偏差。通過(guò)IoU計(jì)算的標(biāo)簽對(duì)錨框進(jìn)行分類。當(dāng)被檢測(cè)目標(biāo)較小時(shí),會(huì)顯著影響IoU閾值的計(jì)算結(jié)果,進(jìn)而干擾標(biāo)簽分配和錨框分類。

2.2 Anchor機(jī)制的改進(jìn)策略

IoU對(duì)圖像中小目標(biāo)的位置偏移過(guò)于敏感,容易造成算法檢測(cè)精度不高,因此使用NWD損失函數(shù)代替IoU,NWD損失函數(shù)有以下應(yīng)用原理。

無(wú)人機(jī)遙感圖像中存在較多的小目標(biāo)物體,而物體大多具有不規(guī)則性,因此在一個(gè)標(biāo)準(zhǔn)的邊界框內(nèi)通常包括背景信息和目標(biāo)物的信息,前者集中在邊界上,后者位于邊界框的中心。針對(duì)邊界框建立二維高斯分布,由于目標(biāo)位于邊界框的中心,因此為中心像素設(shè)置最高權(quán)重,并且權(quán)重從中心向四周遞減[3]。

將邊界框記為R,則有R=(cx,cy,w,h),其中cx、cy分別為邊界框中心點(diǎn)的橫、縱坐標(biāo),w為邊界框的寬度,h為邊界框的高度。將R擬合成二維高斯分布N(μ,Σ),其中μ=[cx cy]T,Σ的計(jì)算過(guò)程如公式(2)所示。

(2)

NWD是歸一化的Wasserstein距離,將邊界框A和邊界框B分別為A=(cxa,cya,wa,ha),B=(cxb,cyb,wb,hb),則兩個(gè)邊界框的二階Wasserstein距離如公式(3)所示。

(3)

式中:Na、Nb分別為邊界框A、B的二維高斯分布;W22(Na,Nb)為二階Wasserstein距離單位;cxa、cya為第一個(gè)邊界框的中心點(diǎn)坐標(biāo);wa,ha為第一個(gè)邊界框的寬度和高度;cxb、cyb為第二個(gè)邊界框的中心點(diǎn)坐標(biāo);wb、hb為第二個(gè)邊界框的寬度和高度。原模型中的IoU為一個(gè)介于0~1的比例關(guān)系,因此要對(duì)W22(Na,Nb)進(jìn)行歸一化處理,c為2個(gè)分布的質(zhì)心,使其落在(0,1)[4]。經(jīng)歸一化處理之后,可得到公式(4)。

(4)

2.3 性能仿真

2.3.1 仿真環(huán)境及評(píng)價(jià)指標(biāo)

2.3.1.1 搭建仿真環(huán)境

仿真過(guò)程采用Python語(yǔ)言編寫(xiě)算法的程序代碼,操作系統(tǒng)為Windows10,計(jì)算機(jī)主頻為2.6GHz,內(nèi)存為32G。訓(xùn)練算法時(shí)需要使用可編程的GPU,型號(hào)為NVIDIA GeForce RTX 3060。

2.3.1.2 性能評(píng)價(jià)指標(biāo)

性能評(píng)價(jià)階段的主要指標(biāo)包括精確率P、召回率R、IoU為0.5時(shí)的多類別平均精確度(記為mAP@.5)以及IoU按照0.05步長(zhǎng)從0.5升至0.95的多類別平均精確度(記為mAP@.5:.95)。

精確率P的計(jì)算方法為P=TP/(TP+FP),召回率R=TP/(TP+FN)。將正樣本預(yù)測(cè)結(jié)果為正記為T(mén)P(True Positive),負(fù)樣本預(yù)測(cè)結(jié)果為正記為FP( Positive),負(fù)樣本預(yù)測(cè)結(jié)果為負(fù)記為FN( Negative)。從精確率和召回率的含義可知,前者越高,后者越低。

平均精確度(Average Precision,AP)的計(jì)算方法如公式(5)所示。

AP=∫01F(x)dx" (5)

式中:x為橫坐標(biāo);F(x)為x點(diǎn)對(duì)應(yīng)的縱坐標(biāo)[5];mAP為每個(gè)類對(duì)應(yīng)AP的平均值,該指標(biāo)用于評(píng)價(jià)多類標(biāo)簽的平均預(yù)測(cè)精度,mAP的計(jì)算方法如公式(6)所示。

(6)

式中:QR為分類的數(shù)量;q為某個(gè)具體類別的編號(hào);AP(q)為類別q對(duì)應(yīng)的平均精確度。

2.3.2 試驗(yàn)數(shù)據(jù)集選取

無(wú)人機(jī)航拍數(shù)據(jù)采用VisDrone2019機(jī)器學(xué)習(xí)數(shù)據(jù)集,該數(shù)據(jù)集包括10209張靜態(tài)圖像,全部為無(wú)人機(jī)攝像頭在不同高度、不同方位、不同距離捕獲的影像,圖片中的內(nèi)容包括環(huán)境信息、物體信息以及人物信息等。從中隨機(jī)選取7028張圖片,將6479張圖片作為算法模型的訓(xùn)練數(shù)據(jù)集,剩余的549張圖片作為模型的測(cè)試數(shù)據(jù)集。由于改進(jìn)的Anchor機(jī)制主要用于提高模型對(duì)無(wú)人機(jī)遙感影像中小目標(biāo)的檢測(cè)能力,因此從照片中選取10種較小的目標(biāo)觀測(cè)對(duì)象,包括行人、公共汽車、面包車、自行車以及摩托車等。另外,所有圖片均在真實(shí)場(chǎng)景下拍攝,因此存在較多的干擾因素,例如低光照、下雨和大霧。

2.3.3 YOLOv5基準(zhǔn)模型選型

YOLOv5是一系列算法模型的統(tǒng)稱,由YOLOv5s、YOLOv5x、YOLOv5m以及YOLOv5l組成,為了選取最具代表性的基準(zhǔn)模型,先使用訓(xùn)練數(shù)據(jù)集訓(xùn)練和測(cè)試以上4種模型的目標(biāo)檢測(cè)效果,從中選擇最優(yōu)模型,作為YOLOv5的基準(zhǔn)模型。

2.3.3.1 參數(shù)設(shè)置及預(yù)熱學(xué)習(xí)

在大規(guī)模訓(xùn)練前,先通過(guò)Warm-Up預(yù)熱學(xué)習(xí)策略評(píng)估4種基準(zhǔn)模型的基本特性,預(yù)測(cè)學(xué)習(xí)僅迭代3次,得到的結(jié)果見(jiàn)表1。其中深度是網(wǎng)絡(luò)通道的系數(shù),寬度為是指網(wǎng)絡(luò)中BottleneckCSP結(jié)構(gòu)模塊的層縮放系數(shù),層數(shù)和參數(shù)數(shù)量用于表征模型的復(fù)雜程度,每秒千兆浮點(diǎn)運(yùn)算次數(shù)為模型對(duì)GPU造成的負(fù)擔(dān),從中可基本判斷4種基準(zhǔn)模型的運(yùn)行特點(diǎn)。

2.3.3.2 基準(zhǔn)模型在無(wú)人機(jī)遙感圖像檢測(cè)中的性能對(duì)比

分別運(yùn)用4種YOLOv5基準(zhǔn)模型檢測(cè)無(wú)人機(jī)遙感圖像中的小目標(biāo),模型訓(xùn)練的迭代次數(shù)為1000次,并計(jì)算相應(yīng)的性能評(píng)價(jià)指標(biāo),結(jié)果見(jiàn)表2。從中可知,4種基準(zhǔn)模型的精確率P和召回率R較為接近,都達(dá)到了較高的水平,不同條件下的平均準(zhǔn)準(zhǔn)確率依次提高,但模型訓(xùn)練時(shí)長(zhǎng)卻成倍增加。因此在兼顧性能和檢測(cè)速度的情況下,將YOLOv5s模型作為代表性的基準(zhǔn)模型。

2.3.4 基準(zhǔn)模型與改進(jìn)模型的性能對(duì)比

將YOLOv5s模型作為對(duì)照組,利用NWD代替IoU,從而優(yōu)化YOLOv5s模型的Anchor機(jī)制,將優(yōu)化后的模型記為YOLOv5+NWD,使用訓(xùn)練數(shù)據(jù)進(jìn)行1000次模型迭代訓(xùn)練。再利用兩種模型檢測(cè)549張遙感圖片組成的無(wú)人機(jī)測(cè)試數(shù)據(jù)集,結(jié)果見(jiàn)表3。改進(jìn)后的YOLOv5模型的精確度、召回率、使用IoU閾值為0.5時(shí)的平均精度這三個(gè)性能指標(biāo)均明顯提高,2種算法模型的每秒千兆浮點(diǎn)運(yùn)算次數(shù)保持一致,僅檢測(cè)耗時(shí)略有提高[6]。與性能提高效果相比,檢測(cè)耗時(shí)的小幅度提高可以忽略。

3 結(jié)語(yǔ)

YOLOv5是一種重要的圖像檢測(cè)算法模型,能夠識(shí)別無(wú)人機(jī)遙感圖像中的人、車輛、道路以及其他環(huán)境信息。根據(jù)現(xiàn)有的研究和使用情況,該模型存在一定的局限性,在小目標(biāo)檢測(cè)中缺乏足夠的準(zhǔn)確性。針對(duì)該問(wèn)題進(jìn)行優(yōu)化,使用MWD損失計(jì)算方法代替原模型的IoU計(jì)算方法,從而優(yōu)化模型的Anchor機(jī)制。經(jīng)過(guò)性能仿真試驗(yàn),改進(jìn)模型的精確度、多類別檢測(cè)平均精確度以及召回率均明顯改善,達(dá)到了提高性能的目的。

參考文獻(xiàn)

[1]路琪,于元強(qiáng),許道明,等.改進(jìn)YOLOv5的小型旋翼無(wú)人機(jī)目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)科學(xué),2023,50(增刊2):212-219.

[2]李甜,林貴敏,施文灶,等.改進(jìn)YOLOv5s無(wú)人機(jī)航拍圖像目標(biāo)檢測(cè)[J].閩江學(xué)院學(xué)報(bào),2023,44(5):51-62.

[3]陳范凱,李士心.改進(jìn)Yolov5的無(wú)人機(jī)目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(18):218-225.

[4]傅強(qiáng),盧志偉,潘磊.CC-YOLOv5:改進(jìn)的YOLOv5用于無(wú)人機(jī)航拍圖像目標(biāo)檢測(cè)[J].現(xiàn)代計(jì)算機(jī),2023,29(7):16-22.

[5]王建楠,呂勝濤,牛健.基于改進(jìn)YOLOv5的無(wú)人機(jī)檢測(cè)方法[J].光學(xué)與光電技術(shù),2022,20(5):48-56.

[6]奉志強(qiáng),謝志軍,包正偉,等.基于改進(jìn)YOLOv5的無(wú)人機(jī)實(shí)時(shí)密集小目標(biāo)檢測(cè)算法[J].航空學(xué)報(bào),2023,44(7):251-265.

安溪县| 芜湖市| 永福县| 广汉市| 蓬安县| 邹平县| 高淳县| 班玛县| 谢通门县| 南漳县| 柳林县| 江门市| 泽州县| 通州市| 瓮安县| 山阴县| 金乡县| 北海市| 苍梧县| 隆子县| 澎湖县| 肃南| 周宁县| 东台市| 滕州市| 永安市| 勃利县| 达尔| 普兰县| 阳东县| 湘潭县| 于都县| 潢川县| 民丰县| 阿城市| 邮箱| 兖州市| 林周县| 江达县| 怀仁县| 梨树县|