張豐節(jié),郁書好,王冠凌,代廣珍*
(1.安徽工程大學電氣工程學院,安徽 蕪湖 241000;2.高端裝備先進感知與智能控制教育部重點實驗室,安徽 蕪湖 241000)
在實際應(yīng)用場景中,無人機獲取的圖像可以看作是一個特殊的物體檢測場景,這些圖像中的小目標信息通常特征較少. 當無人機飛行高度變化時極易導致物體比例發(fā)生變化,使得檢測精度降低,在密集場景中可能會存在目標之間相互遮擋的情況,使得一些目標遺失.[1-4]因此,需要設(shè)計一種適用于搭載在無人機上的目標檢測模型. 目前,無人機小目標檢測研究取得了較多進展,不少學者在雙階段目標檢測算法Fast R-CNN 和單階段算法YOLO 的基礎(chǔ)上給出了優(yōu)化方案. 宋建輝[5]等在Faster R-CNN 基礎(chǔ)上,采用骨干網(wǎng)絡(luò)ResNet-50 以進行多特征融合,針對正負樣本不均衡的問題采用Focal Loss 損失函數(shù)進行優(yōu)化,大大提高了模型的感受野和平均精度. 黃文斌[6]等基于YOLOv3-SPP 模型,在BN 層中添加縮放因子以進行稀疏訓練和通道剪枝,再對數(shù)據(jù)及數(shù)據(jù)集進行優(yōu)化,這一方法提升了模型的推理速度和檢測精度. 韓玉潔[7]等通過在YOLOv4 上運用空間金字塔池化和路徑聚合網(wǎng)絡(luò)的方法以改進特征層之間的連接,采用自對抗訓練、馬賽克法等數(shù)據(jù)增強方法,提升了無人機對地面小目標的檢測精度;陳旭[8]等參考了YOLOv5s 的網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計了一種改進的淺層網(wǎng)絡(luò)YOLOv5sm,引入可增大感受野的殘差空洞卷積模塊來提高空間特征的利用率,使得模型的精度在前人的基礎(chǔ)上大大提高. 應(yīng)用無人機航拍視頻流進行實時目標檢測,對算法模型的檢測速度有較高要求,而無人機上嵌入式機載平臺算力有限、存儲容量小,對于模型參數(shù)量較高的雙階段算法,雖然其檢測精度較高但檢測實時性達不到實際需求.
YOLOv5 模型參數(shù)量小,具有推理速度快,精度高等優(yōu)點,推理速度上最快能夠達到140 FPS[9-10].本文采用基于YOLOv5 算法,提出一種無人機小目標檢測方法. 主要從兩個方面進行改進:在模型主干網(wǎng)絡(luò)引入CAM-SAM 注意力模塊,在特征融合中采用跳躍式連接方法,進行不同尺度的特征融合;在預測網(wǎng)絡(luò),使用高斯加權(quán)的Soft-NMS 替換NMS( 圖1).
圖1 改進的YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)
注意力機制源于對人類視覺的研究,使神經(jīng)網(wǎng)絡(luò)能夠?qū)W⒂谝粋€特征子集并選擇特定的輸入,將輸入圖像特征輸出到下一層進行加權(quán)組合,增強特征圖中有效特征的積累,并在深度的學習中得到廣泛應(yīng)用[11-12].本文在CBAM 基礎(chǔ)上進行改進,得到通道-空間注意力模塊CAM-SAM,其結(jié)構(gòu)如圖2 所示.CAM-SAM 利用空間和通道兩個維度的注意力權(quán)值,挖掘小目標密集區(qū)域的特征信息,提高小目標區(qū)域的注意程度.
圖2 改進的通道-空間注意力結(jié)構(gòu)
圖3為注意力機制CBAM 的結(jié)構(gòu),與通道-空間注意力進行對比,通道-空間注意力的優(yōu)點在于沒有將CBAM 結(jié)構(gòu)中的特征Ms與通道特征向量F1相乘輸出最終特征圖,而是將特征Ms與通道特征Mc相乘得到的結(jié)果作為最后的特征輸出,其優(yōu)點是減少了該模塊的參數(shù)量和計算量,使其能作為輕量級通用 模塊集成到檢測網(wǎng)絡(luò)中.
圖3 CBAM 結(jié)構(gòu)
通道和空間注意力采用平行-串聯(lián)的方式連接組成通道-空間注意力模塊.首先,將特征F∈RC*H*W輸入通道注意力,進行全局最大池化和全局平均池化,將生成的兩組序列發(fā)送給神經(jīng)網(wǎng)絡(luò)MLP,得到兩組特征向量1×1×C,將兩組特征向量相加,并使用sigmoid 函數(shù)激活,得到通道注意權(quán)值Mc,并與原始輸入特征F相乘得到通道特征向量F1. 計算公式為:
將通道-注意力生成的特征向量F1作為空間注意力模塊的輸入特征,得到兩個H×W×1 特征圖,并利用7*7 卷積核進行降維操作生成一個H×W×1 特征圖,得到空間注意權(quán)重Ms,最后與通道注意權(quán)重Mc相乘,輸出通道-空間注意力特征圖.F2
[13-14]計算公式為:
上式中,F(xiàn)∈RC*H*W為輸入特征圖,C為特征圖的通道數(shù),H和W分別為特征圖的高度和寬度,MLP為人工神經(jīng)網(wǎng)絡(luò),表示使用7×7 的卷積核對特征進行卷積處理,σ 為Sigmoid 函數(shù),?表示兩個向量之間的乘法.
NMS 是目標檢測領(lǐng)域中重要的組成部分,在YOLO 算法的后處理階段中,采用非極大值抑制NMS進行檢測框篩選,抑制非極大值的元素.NMS 算法是對每個類別所有檢測框的分類得分進行排序,計算分數(shù)最高的檢測框與其他框的IOU 值,刪除大于閾值的框,保留小于閾值的框.[15]其目的是在檢測目標生成的多個候選框中,去除冗余邊框,保留最佳候選框.存在的問題是:當面對多目標且相互重疊遮擋的情況時,NMS 算法易將重疊程度大的邊框得分置為0,從而造成目標漏檢.因此,本文采用Soft-NMS算法并引入分數(shù)重置的方法,完成預測框的篩選.通過對大于閾值的框進行懲罰,保留IOU 值大且置信度高的同類別遮擋目標,利用加權(quán)降低置信度的方法,取代原NMS 中直接刪除大于閾值的框.Soft-NMS加權(quán)的方式有線性加權(quán)與高斯加權(quán)[16-17],線性加權(quán)的公式如(5)所示.
式(5)中,Si為第i個預測框?qū)?yīng)的分類得分,Ni為預設(shè)閾值,bi表示第i個預測框,M為每一輪得分最高的預測框,Xiou為預測邊界框面積A與實際邊界框面積B的交集與并集的比值.
高斯加權(quán)對IOU 值較大的目標得分衰減更強,而線性加權(quán)的分數(shù)重置函數(shù)是一個斷層不連續(xù)函數(shù),為防止檢測序列突然發(fā)生變化,提出高斯分數(shù)懲罰函數(shù)來解決檢測序列不連續(xù)的情況.對重疊遮擋的候選框使用高斯加權(quán)比使用線性加權(quán)有更好的檢測作用.本文在高斯加權(quán)的基礎(chǔ)上,對函數(shù)進行改進,公式為:
(6)式中,σ 取值0.5,分數(shù)重置函數(shù)的衰減幅度更大,對于有高度重疊的預測框,有利于預測框bi的置信度得分衰減至分數(shù)閾值之下,從而加快預測框的篩選過程.
本文采用天津大學無人機拍攝的數(shù)據(jù)集VisDrone-2019.數(shù)據(jù)集共計包含6 471 張訓練集圖像,548張驗證集圖像,1 610 張測試集圖像,平均每張圖片包含50 多個目標,其訓練集10 類檢測目標樣本數(shù)量總計343 205 個,檢測目標類別一共10 類,包括car, bus, motor, people, pedestrian, van, bicycle, truck,tri-cycle,awning-tricycle[18-19],數(shù)據(jù)集中,小目標較多.
網(wǎng)絡(luò)訓練基于pytorch 深度學習框架,硬件配置:CPU 為AMD EPYC-7543,GPU 為RTX A5000,24 G內(nèi)存,云臺鏡像環(huán)境為pytorch1.7.0,Python3.8,Cuda11.0.
模型相關(guān)超參數(shù)設(shè)置:批量大小(Batch Size) 為4,訓練周期(epochs)為200,權(quán)重衰減系數(shù)為0.000 5,初始學習率為0.02.實驗評估指標使用平均精度(Averge Precision, AP)、平均精度均值(mean Average Precision, mAP)、參數(shù)量(Params)、檢測速率(FPS)檢驗算法的性能,計算公式為:
式(7)和式(8)中,AP代表訓練數(shù)據(jù)集中各類別目標的平均精度值,mAP表示所有類別目標AP值的平均值[18],N為預測總類別數(shù).
評價指標交并比(IOU)計算公式如(9)所示.其中,A為實際框,B為預測框.分子部分A∩B的值為預測框和實際框之間的重疊區(qū)域,分母部分A∪B為預測框和實際框所占有的全部區(qū)域.
選擇YOLOv5m 作為本文改進設(shè)計目標的檢測模型. 將YOLOv3, YOLOv4, YOLOv5m 和YOLOv5m+CAM-SAM+Soft-NMS 在相同數(shù)據(jù)集上進行200 輪訓練,實驗結(jié)果表明,YOLOv5m+CAMSAM+Soft-NMS 模型在平均精度均值上要優(yōu)于其他3 種模型,且4 種模型在訓練約150 輪后逐漸趨于穩(wěn)定,均沒有出現(xiàn)過擬合與欠擬合的情況.
為了驗證改進模塊的有效性,實驗在輸入圖像分辨率大小為640×640、IOU 閾值0.5、相關(guān)超參數(shù)和訓練輪數(shù)相同的情況下,得到訓練的實驗參數(shù)結(jié)果如表1 所示.表1 的實驗4 通過引入改進的通道-空間注意力CAM-SAM 和高斯加權(quán)的Soft-NMS,大大提高了模型的性能,其mAP 為42.1,與原始YO- LOv5m相比提高了5.8%,檢測速度FPS 提高了3 幀.檢測精度的提高反映出CAM-SAM 注意力機制增加了小目標通道的權(quán)重比例,通過挖掘目標特征信息引導模型更加關(guān)注小目標相關(guān)特征信息,并加強了這些特征的訓練.模型在引入改進的Soft-NMS 后,準確識別了一部分重疊的遮擋目標,加快了模型的收斂速度.在此基礎(chǔ)上分別使用YOLOv3 和YOLOv4 進行對比實驗.結(jié)果顯示,改進的YOLOv5m 算法在檢測精度和推理速度上有明顯的提升.
表1 4 種目標檢測算法實驗
2.4.1 YOLOv5 模型版本選擇
YOLOv5 目標檢測網(wǎng)絡(luò)中共有4 個版本,分別為YOLOv5s, YOLOv5m, YOLOv5 l, YOLOv5x. 本文需要在這四個版本中選擇一個檢測精度較高、檢測速率合適且易部署在無人機終端的目標檢測網(wǎng)絡(luò)模型.因此,使用YOLOv5s, m, 1, x 四種網(wǎng)絡(luò)模型進行對比實驗.在輸入圖像分辨率和相關(guān)實驗超參數(shù)相同的情況下,實驗結(jié)果如表2 所示.
表2 YOLOv5 不同版本模型的檢測精度和速度
分析四種模型的訓練結(jié)果,YOLOv5l 與YOLOv5x 在mAPs0 值比YOLOv5m 高出不到9%的情況下,模型的檢測速率下降了45%左右,且網(wǎng)絡(luò)訓練時間更長,所得到的訓練權(quán)重文件更大,難以在無人機中部署,且檢測實時性上不滿足實際需求.雖然YOLOv5s 在檢測速率上能夠達到每秒121 幀,且參數(shù)量較少,但其檢測精度相比YOLOv5m 下降了7.3.因此,在權(quán)衡下選擇YOLOv5m 作為無人機目標檢測模型.
2.4.2 不同算法實驗對比
為了驗證改進后YOLOv5m 算法的有效性,將改進后YOLOv5m 算法與其他算法進性對比,結(jié)果見表3.文獻[6]使用的YOLOv3-SPP 模型是在YOLOv3 的基礎(chǔ)上,在第五層和第六層卷積中添加一個空間金字塔池化SPP 模塊,并使用GIoU 損失函數(shù)替代損失模型,提高目標定位的精度,相比YOLOv3,其mAP50提高了18.3%,但檢測速度有所下降.相比文獻[20],在相同數(shù)據(jù)集和圖像分辨率的情況下,改進模型mAP50值比文獻中的模型提高了27.6%.對比改進模型與其他五種模型實驗結(jié)果,可以發(fā)現(xiàn),改進模型在檢測精度要優(yōu)于其他模型,檢測速度也達到了不錯的效果.
表3 不同目標檢測網(wǎng)絡(luò)對比
2.4.3 Soft-NMS 與NMS 對比驗證
用高斯加權(quán)Soft-NMS 替換預測網(wǎng)絡(luò)中的NMS, 驗證改進的Soft-NMS 模塊對重疊遮擋目標檢測精度的影響.實驗模型中均引入通道-空間注意力機制.AP(NMSo.s)表示IOU 閾值為0.5 時的平均精度,AP(NMSo5)表示IOU 閾值為0.75 時的平均精度.結(jié)果見表4.對比NMSo.s 和Soft-NMSo.s 的檢測數(shù)據(jù)發(fā)現(xiàn),使用高斯加權(quán)的Soft-NMS 可以有效減少重疊遮擋目標的漏檢,提高各類別目標檢測的精度.用NMSo75時,因閾值過大,真實預測框被抑制,導致AP 精度顯著降低.
表4 不同非極大抑制方法對精度的影響
采用NMS 在閾值為0.5 和0.75 時與Soft-NMSo.s 對實際小目標漏檢和誤檢的改進效果顯示,使用高斯加權(quán)的Soft-NMS 能有效減少重疊目標的漏檢和誤檢問題.
實驗無人機搭載開源飛控PX4 和 Nvidia Jetson Xavier NX 機載計算機,采用Intel Realsense D435i 深度相機作為視覺傳感器,通過無人機上搭載的深度相機進行圖像采集,利用地面站與板載計算機的高清圖傳進行實時數(shù)據(jù)交互.
在無人機平臺上使用YOLOv5m 與YOLOv5m+CAM-SAM+Soft-NMS 模型進行測試,將模型訓練得到的權(quán)重文件部署在無人機機載平臺上,并選擇一處公園進行實景試飛檢測.實驗結(jié)果見圖4.兩種模型都能夠準確檢測出圖中3 個行人小目標,YOLOv5m+CAM-SAM+Soft-NMS 模型在檢測精度數(shù)值上分別為0.84,0.80,0.73,高于原YOLOv5m 模型中的0.81,0.79,0.49.
圖4 兩種模型搭載無人機檢測效果圖
本文提出了一種改進的YOLOv5m 目標檢測算法,解決無人機航拍圖像中小目標像素信息少、特征表示弱導致的模型檢測準確率低的情況.首先,基于CBAM 提出了一種輕量級通用的通道-空間注意力CAM-SAM 模塊,使小目標群體獲得更大的注意力權(quán)重,提高關(guān)鍵特征提取能力,并集成在主干網(wǎng)絡(luò)中,在頸部網(wǎng)絡(luò)中使用跳躍式特征金字塔結(jié)構(gòu)提高模型檢測性能.其次,在預測網(wǎng)絡(luò)使用高斯加權(quán)的 Soft-NMS 替換NMS 算法,作為遮擋情況下精度優(yōu)化的方法.改進的模型在保證檢測精度的同時,檢測速度上也得到了保證,在無人機目標檢測實際任務(wù)當中得到了較好的應(yīng)用 .