基于YOLOv5 無人機小目標檢測技術(shù)研究

2023-11-29 02:11張豐節(jié)郁書好王冠凌代廣珍

牡丹江師范學院學報（自然科學版） 2023年4期

張豐節(jié)，郁書好，王冠凌，代廣珍*

（1.安徽工程大學電氣工程學院，安徽蕪湖 241000;2.高端裝備先進感知與智能控制教育部重點實驗室，安徽蕪湖 241000）

在實際應(yīng)用場景中，無人機獲取的圖像可以看作是一個特殊的物體檢測場景，這些圖像中的小目標信息通常特征較少. 當無人機飛行高度變化時極易導致物體比例發(fā)生變化，使得檢測精度降低，在密集場景中可能會存在目標之間相互遮擋的情況，使得一些目標遺失.[1-4]因此，需要設(shè)計一種適用于搭載在無人機上的目標檢測模型. 目前，無人機小目標檢測研究取得了較多進展，不少學者在雙階段目標檢測算法Fast R-CNN 和單階段算法YOLO 的基礎(chǔ)上給出了優(yōu)化方案. 宋建輝[5]等在Faster R-CNN 基礎(chǔ)上，采用骨干網(wǎng)絡(luò)ResNet-50 以進行多特征融合，針對正負樣本不均衡的問題采用Focal Loss 損失函數(shù)進行優(yōu)化，大大提高了模型的感受野和平均精度. 黃文斌[6]等基于YOLOv3-SPP 模型，在BN 層中添加縮放因子以進行稀疏訓練和通道剪枝，再對數(shù)據(jù)及數(shù)據(jù)集進行優(yōu)化，這一方法提升了模型的推理速度和檢測精度. 韓玉潔[7]等通過在YOLOv4 上運用空間金字塔池化和路徑聚合網(wǎng)絡(luò)的方法以改進特征層之間的連接，采用自對抗訓練、馬賽克法等數(shù)據(jù)增強方法，提升了無人機對地面小目標的檢測精度；陳旭[8]等參考了YOLOv5s 的網(wǎng)絡(luò)結(jié)構(gòu)，設(shè)計了一種改進的淺層網(wǎng)絡(luò)YOLOv5sm，引入可增大感受野的殘差空洞卷積模塊來提高空間特征的利用率，使得模型的精度在前人的基礎(chǔ)上大大提高. 應(yīng)用無人機航拍視頻流進行實時目標檢測，對算法模型的檢測速度有較高要求，而無人機上嵌入式機載平臺算力有限、存儲容量小，對于模型參數(shù)量較高的雙階段算法，雖然其檢測精度較高但檢測實時性達不到實際需求.

YOLOv5 模型參數(shù)量小，具有推理速度快，精度高等優(yōu)點，推理速度上最快能夠達到140 FPS[9-10].本文采用基于YOLOv5 算法，提出一種無人機小目標檢測方法. 主要從兩個方面進行改進：在模型主干網(wǎng)絡(luò)引入CAM-SAM 注意力模塊，在特征融合中采用跳躍式連接方法，進行不同尺度的特征融合；在預測網(wǎng)絡(luò)，使用高斯加權(quán)的Soft-NMS 替換NMS( 圖1).

圖1 改進的YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)

1 YOLOv5m 算法改進

1.1 注意力機制

注意力機制源于對人類視覺的研究，使神經(jīng)網(wǎng)絡(luò)能夠?qū)Ｗ⒂谝粋€特征子集并選擇特定的輸入，將輸入圖像特征輸出到下一層進行加權(quán)組合，增強特征圖中有效特征的積累，并在深度的學習中得到廣泛應(yīng)用[11-12].本文在CBAM 基礎(chǔ)上進行改進，得到通道-空間注意力模塊CAM-SAM，其結(jié)構(gòu)如圖2 所示.CAM-SAM 利用空間和通道兩個維度的注意力權(quán)值，挖掘小目標密集區(qū)域的特征信息，提高小目標區(qū)域的注意程度.

圖2 改進的通道-空間注意力結(jié)構(gòu)

圖3為注意力機制CBAM 的結(jié)構(gòu)，與通道-空間注意力進行對比，通道-空間注意力的優(yōu)點在于沒有將CBAM 結(jié)構(gòu)中的特征Ms與通道特征向量F1相乘輸出最終特征圖，而是將特征Ms與通道特征Mc相乘得到的結(jié)果作為最后的特征輸出，其優(yōu)點是減少了該模塊的參數(shù)量和計算量，使其能作為輕量級通用模塊集成到檢測網(wǎng)絡(luò)中.

圖3 CBAM 結(jié)構(gòu)

通道和空間注意力采用平行-串聯(lián)的方式連接組成通道-空間注意力模塊.首先，將特征F∈RC*H*W輸入通道注意力，進行全局最大池化和全局平均池化，將生成的兩組序列發(fā)送給神經(jīng)網(wǎng)絡(luò)MLP，得到兩組特征向量1×1×C，將兩組特征向量相加，并使用sigmoid 函數(shù)激活，得到通道注意權(quán)值Mc，并與原始輸入特征F相乘得到通道特征向量F1. 計算公式為：

將通道-注意力生成的特征向量F1作為空間注意力模塊的輸入特征，得到兩個H×W×1 特征圖，并利用7*7 卷積核進行降維操作生成一個H×W×1 特征圖，得到空間注意權(quán)重Ms，最后與通道注意權(quán)重Mc相乘，輸出通道-空間注意力特征圖.F2

[13-14]計算公式為：

上式中，F(xiàn)∈RC*H*W為輸入特征圖，C為特征圖的通道數(shù)，H和W分別為特征圖的高度和寬度，MLP為人工神經(jīng)網(wǎng)絡(luò)，表示使用7×7 的卷積核對特征進行卷積處理，σ 為Sigmoid 函數(shù)，?表示兩個向量之間的乘法.

1.2 非極大值抑制

NMS 是目標檢測領(lǐng)域中重要的組成部分，在YOLO 算法的后處理階段中，采用非極大值抑制NMS進行檢測框篩選，抑制非極大值的元素.NMS 算法是對每個類別所有檢測框的分類得分進行排序，計算分數(shù)最高的檢測框與其他框的IOU 值，刪除大于閾值的框，保留小于閾值的框.[15]其目的是在檢測目標生成的多個候選框中，去除冗余邊框，保留最佳候選框.存在的問題是：當面對多目標且相互重疊遮擋的情況時，NMS 算法易將重疊程度大的邊框得分置為0,從而造成目標漏檢.因此，本文采用Soft-NMS算法并引入分數(shù)重置的方法，完成預測框的篩選.通過對大于閾值的框進行懲罰，保留IOU 值大且置信度高的同類別遮擋目標，利用加權(quán)降低置信度的方法，取代原NMS 中直接刪除大于閾值的框.Soft-NMS加權(quán)的方式有線性加權(quán)與高斯加權(quán)[16-17]，線性加權(quán)的公式如(5)所示.

式(5)中，Si為第i個預測框?qū)?yīng)的分類得分，Ni為預設(shè)閾值，bi表示第i個預測框，M為每一輪得分最高的預測框，Xiou為預測邊界框面積A與實際邊界框面積B的交集與并集的比值.

高斯加權(quán)對IOU 值較大的目標得分衰減更強，而線性加權(quán)的分數(shù)重置函數(shù)是一個斷層不連續(xù)函數(shù)，為防止檢測序列突然發(fā)生變化，提出高斯分數(shù)懲罰函數(shù)來解決檢測序列不連續(xù)的情況.對重疊遮擋的候選框使用高斯加權(quán)比使用線性加權(quán)有更好的檢測作用.本文在高斯加權(quán)的基礎(chǔ)上，對函數(shù)進行改進，公式為：

(6)式中，σ 取值0.5,分數(shù)重置函數(shù)的衰減幅度更大，對于有高度重疊的預測框，有利于預測框bi的置信度得分衰減至分數(shù)閾值之下，從而加快預測框的篩選過程.

2 實驗結(jié)果與分析

2.1 VisDrone 數(shù)據(jù)集

本文采用天津大學無人機拍攝的數(shù)據(jù)集VisDrone-2019.數(shù)據(jù)集共計包含6 471 張訓練集圖像，548張驗證集圖像，1 610 張測試集圖像，平均每張圖片包含50 多個目標，其訓練集10 類檢測目標樣本數(shù)量總計343 205 個，檢測目標類別一共10 類，包括car, bus, motor, people, pedestrian, van, bicycle, truck,tri-cycle,awning-tricycle[18-19]，數(shù)據(jù)集中，小目標較多.

2.2 評價指標

網(wǎng)絡(luò)訓練基于pytorch 深度學習框架，硬件配置：CPU 為AMD EPYC-7543,GPU 為RTX A5000,24 G內(nèi)存，云臺鏡像環(huán)境為pytorch1.7.0,Python3.8,Cuda11.0.

模型相關(guān)超參數(shù)設(shè)置：批量大小(Batch Size) 為4,訓練周期(epochs)為200,權(quán)重衰減系數(shù)為0.000 5,初始學習率為0.02.實驗評估指標使用平均精度(Averge Precision, AP)、平均精度均值(mean Average Precision, mAP)、參數(shù)量(Params)、檢測速率(FPS)檢驗算法的性能，計算公式為：

式(7)和式(8)中，AP代表訓練數(shù)據(jù)集中各類別目標的平均精度值，mAP表示所有類別目標AP值的平均值[18]，N為預測總類別數(shù).

評價指標交并比(IOU)計算公式如(9)所示.其中，A為實際框，B為預測框.分子部分A∩B的值為預測框和實際框之間的重疊區(qū)域，分母部分A∪B為預測框和實際框所占有的全部區(qū)域.

2.3 網(wǎng)絡(luò)訓練結(jié)果分析

選擇YOLOv5m 作為本文改進設(shè)計目標的檢測模型. 將YOLOv3, YOLOv4, YOLOv5m 和YOLOv5m+CAM-SAM+Soft-NMS 在相同數(shù)據(jù)集上進行200 輪訓練，實驗結(jié)果表明，YOLOv5m+CAMSAM+Soft-NMS 模型在平均精度均值上要優(yōu)于其他3 種模型，且4 種模型在訓練約150 輪后逐漸趨于穩(wěn)定，均沒有出現(xiàn)過擬合與欠擬合的情況.

為了驗證改進模塊的有效性，實驗在輸入圖像分辨率大小為640×640、IOU 閾值0.5、相關(guān)超參數(shù)和訓練輪數(shù)相同的情況下，得到訓練的實驗參數(shù)結(jié)果如表1 所示.表1 的實驗4 通過引入改進的通道-空間注意力CAM-SAM 和高斯加權(quán)的Soft-NMS，大大提高了模型的性能，其mAP 為42.1,與原始YO- LOv5m相比提高了5.8%,檢測速度FPS 提高了3 幀.檢測精度的提高反映出CAM-SAM 注意力機制增加了小目標通道的權(quán)重比例，通過挖掘目標特征信息引導模型更加關(guān)注小目標相關(guān)特征信息，并加強了這些特征的訓練.模型在引入改進的Soft-NMS 后，準確識別了一部分重疊的遮擋目標，加快了模型的收斂速度.在此基礎(chǔ)上分別使用YOLOv3 和YOLOv4 進行對比實驗.結(jié)果顯示，改進的YOLOv5m 算法在檢測精度和推理速度上有明顯的提升.

表1 4 種目標檢測算法實驗

2.4 對比實驗分析

2.4.1 YOLOv5 模型版本選擇

YOLOv5 目標檢測網(wǎng)絡(luò)中共有4 個版本，分別為YOLOv5s, YOLOv5m, YOLOv5 l, YOLOv5x. 本文需要在這四個版本中選擇一個檢測精度較高、檢測速率合適且易部署在無人機終端的目標檢測網(wǎng)絡(luò)模型.因此，使用YOLOv5s, m, 1, x 四種網(wǎng)絡(luò)模型進行對比實驗.在輸入圖像分辨率和相關(guān)實驗超參數(shù)相同的情況下，實驗結(jié)果如表2 所示.

表2 YOLOv5 不同版本模型的檢測精度和速度

分析四種模型的訓練結(jié)果，YOLOv5l 與YOLOv5x 在mAPs0 值比YOLOv5m 高出不到9%的情況下，模型的檢測速率下降了45%左右，且網(wǎng)絡(luò)訓練時間更長，所得到的訓練權(quán)重文件更大，難以在無人機中部署，且檢測實時性上不滿足實際需求.雖然YOLOv5s 在檢測速率上能夠達到每秒121 幀，且參數(shù)量較少，但其檢測精度相比YOLOv5m 下降了7.3.因此，在權(quán)衡下選擇YOLOv5m 作為無人機目標檢測模型.

2.4.2 不同算法實驗對比

為了驗證改進后YOLOv5m 算法的有效性，將改進后YOLOv5m 算法與其他算法進性對比，結(jié)果見表3.文獻[6]使用的YOLOv3-SPP 模型是在YOLOv3 的基礎(chǔ)上，在第五層和第六層卷積中添加一個空間金字塔池化SPP 模塊，并使用GIoU 損失函數(shù)替代損失模型，提高目標定位的精度，相比YOLOv3,其mAP50提高了18.3%,但檢測速度有所下降.相比文獻[20],在相同數(shù)據(jù)集和圖像分辨率的情況下，改進模型mAP50值比文獻中的模型提高了27.6%.對比改進模型與其他五種模型實驗結(jié)果，可以發(fā)現(xiàn)，改進模型在檢測精度要優(yōu)于其他模型，檢測速度也達到了不錯的效果.

表3 不同目標檢測網(wǎng)絡(luò)對比

2.4.3 Soft-NMS 與NMS 對比驗證

用高斯加權(quán)Soft-NMS 替換預測網(wǎng)絡(luò)中的NMS, 驗證改進的Soft-NMS 模塊對重疊遮擋目標檢測精度的影響.實驗模型中均引入通道-空間注意力機制.AP(NMSo.s)表示IOU 閾值為0.5 時的平均精度，AP(NMSo5)表示IOU 閾值為0.75 時的平均精度.結(jié)果見表4.對比NMSo.s 和Soft-NMSo.s 的檢測數(shù)據(jù)發(fā)現(xiàn)，使用高斯加權(quán)的Soft-NMS 可以有效減少重疊遮擋目標的漏檢，提高各類別目標檢測的精度.用NMSo75時，因閾值過大，真實預測框被抑制，導致AP 精度顯著降低.

表4 不同非極大抑制方法對精度的影響

采用NMS 在閾值為0.5 和0.75 時與Soft-NMSo.s 對實際小目標漏檢和誤檢的改進效果顯示，使用高斯加權(quán)的Soft-NMS 能有效減少重疊目標的漏檢和誤檢問題.

2.5 無人機平臺測試

實驗無人機搭載開源飛控PX4 和 Nvidia Jetson Xavier NX 機載計算機，采用Intel Realsense D435i 深度相機作為視覺傳感器，通過無人機上搭載的深度相機進行圖像采集，利用地面站與板載計算機的高清圖傳進行實時數(shù)據(jù)交互.

在無人機平臺上使用YOLOv5m 與YOLOv5m+CAM-SAM+Soft-NMS 模型進行測試，將模型訓練得到的權(quán)重文件部署在無人機機載平臺上，并選擇一處公園進行實景試飛檢測.實驗結(jié)果見圖4.兩種模型都能夠準確檢測出圖中3 個行人小目標，YOLOv5m+CAM-SAM+Soft-NMS 模型在檢測精度數(shù)值上分別為0.84,0.80,0.73,高于原YOLOv5m 模型中的0.81,0.79,0.49.

圖4 兩種模型搭載無人機檢測效果圖

3 結(jié)論

本文提出了一種改進的YOLOv5m 目標檢測算法，解決無人機航拍圖像中小目標像素信息少、特征表示弱導致的模型檢測準確率低的情況.首先，基于CBAM 提出了一種輕量級通用的通道-空間注意力CAM-SAM 模塊，使小目標群體獲得更大的注意力權(quán)重，提高關(guān)鍵特征提取能力，并集成在主干網(wǎng)絡(luò)中，在頸部網(wǎng)絡(luò)中使用跳躍式特征金字塔結(jié)構(gòu)提高模型檢測性能.其次，在預測網(wǎng)絡(luò)使用高斯加權(quán)的 Soft-NMS 替換NMS 算法，作為遮擋情況下精度優(yōu)化的方法.改進的模型在保證檢測精度的同時，檢測速度上也得到了保證，在無人機目標檢測實際任務(wù)當中得到了較好的應(yīng)用 .

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡