鄭陸石,胡曉鋒,于偉國(guó),趙東志,張鴻濤
1.中北大學(xué) 機(jī)電工程學(xué)院, 太原 030051; 2.北方工程設(shè)計(jì)研究院有限公司, 石家莊 050011; 3.北方華安工業(yè)集團(tuán)有限公司, 黑龍江 齊齊哈爾 161006)
現(xiàn)代戰(zhàn)爭(zhēng)中對(duì)于戰(zhàn)場(chǎng)態(tài)勢(shì)的感知十分重要,無(wú)人機(jī)(UAV)是近年來(lái)廣泛應(yīng)用于戰(zhàn)場(chǎng)的裝備之一,其可以執(zhí)行戰(zhàn)場(chǎng)偵察、目標(biāo)監(jiān)控、反偵察等多種感知任務(wù)。在偵察任務(wù)中,相比于遙感衛(wèi)星和偵察機(jī)等方式,利用無(wú)人機(jī)具有如下幾點(diǎn)優(yōu)勢(shì)[1]:① 飛行頻率高。相對(duì)于偵察機(jī)每次執(zhí)行任務(wù)前需要根據(jù)敵方雷達(dá)陣地和防空系統(tǒng)位置規(guī)劃偵察線路,無(wú)人機(jī)可以應(yīng)對(duì)掌握敵方陣地信息較少的情況,與偵察機(jī)等形成互補(bǔ)。② 飛行成本低。減少了對(duì)空勤人員訓(xùn)練和培養(yǎng)的昂貴費(fèi)用,只需要操作員遠(yuǎn)程發(fā)送指令給無(wú)人機(jī)就能完成一系列任務(wù)。因此,利用無(wú)人機(jī)對(duì)地面坦克車輛進(jìn)行拍攝并檢測(cè)有著重要意義。
但是,無(wú)人機(jī)航拍在發(fā)揮其重要作用的同時(shí)也面臨著目標(biāo)隱蔽性大、目標(biāo)尺度跨度大、與背景差別小和空中視角下目標(biāo)特征不明顯等困難。
隨著深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)的發(fā)展,其在目標(biāo)檢測(cè)領(lǐng)域的應(yīng)用范圍更加廣泛。在深度神經(jīng)網(wǎng)絡(luò)方法出現(xiàn)之前,傳統(tǒng)目標(biāo)檢測(cè)任務(wù)流程分為3個(gè)階段[2]:首先采用大小不同的滑動(dòng)窗口進(jìn)行特征區(qū)域選擇,獲取可能的目標(biāo)位置;其次通過(guò)方向梯度直方圖[3](histogram of oriented gradients,HOG)等方法對(duì)目標(biāo)的特征進(jìn)行提取;最后利用支持向量機(jī)[4](support vector machine,SVM)、Adaboost[5]等分類器分類,得到各類目標(biāo)的位置和置信度。傳統(tǒng)方法對(duì)目標(biāo)尺寸較為固定,窗口冗余,提取的特征魯棒性較差。深度學(xué)習(xí)方法出現(xiàn)后,目標(biāo)檢測(cè)領(lǐng)域取得了重大的突破,主要有2個(gè)方向成為研究重點(diǎn):① 基于回歸方法的單階段目標(biāo)檢測(cè)算法,如YOLO系列、SSD[6]等;② 基于區(qū)域提議的雙階段目標(biāo)檢測(cè)算法,如RCNN、Cascade R-CNN等。2022年WANG等[7]提出YOLOv7,其性能是目前單階段方法中較好的一種。在工業(yè)界也提出很多方法,以提升算法的魯棒性。劉軍黎等[8]提出一種融合淺層特征圖和超輕量級(jí)子空間注意模塊的YOLOX-IM算法,實(shí)現(xiàn)了無(wú)人機(jī)對(duì)交通情況的實(shí)時(shí)檢測(cè),但無(wú)人機(jī)高度較為固定;白俊卿等[9]將MobileNetv3作為特征提取網(wǎng)絡(luò),實(shí)現(xiàn)了無(wú)人機(jī)障礙物檢測(cè),但存在因?yàn)檎系K物大小變化快所導(dǎo)致檢測(cè)精度下降的問(wèn)題。錢坤等[10]對(duì)模型中多尺度特征融合層進(jìn)行改進(jìn),達(dá)到對(duì)艦船目標(biāo)及其關(guān)鍵部位的檢測(cè)。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)已較為成熟,但主要針對(duì)一些常見(jiàn)目標(biāo)的檢測(cè),對(duì)于無(wú)人機(jī)視角的坦克車輛檢測(cè)研究較為不足;并且機(jī)載計(jì)算機(jī)算力有限,在保證精度不變的同時(shí)能夠有更快的檢測(cè)速度已經(jīng)成為了當(dāng)前研究的關(guān)鍵問(wèn)題。為了解決上述問(wèn)題,本文中提出了一種基于改進(jìn)YOLOv7-tiny的坦克車輛檢測(cè)算法。
近幾年神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用到圖像檢測(cè)領(lǐng)域,基于戰(zhàn)場(chǎng)作戰(zhàn)對(duì)目標(biāo)檢測(cè)的時(shí)效性、準(zhǔn)確性要求,需要神經(jīng)網(wǎng)絡(luò)模型具備檢測(cè)精度高、實(shí)時(shí)的特點(diǎn)。YOLOv7-tiny是目前較為先進(jìn)的單階段目標(biāo)檢測(cè)模型YOLOv7的輕量級(jí)模型,其模型大小只有12 MB左右,在保持了較高的精準(zhǔn)度的同時(shí)進(jìn)一步縮小模型大小。YOLOv7-tiny由特征提取網(wǎng)絡(luò)Backbone、特征融合網(wǎng)絡(luò)Neck和檢測(cè)頭Head構(gòu)成,Backbone 和 Neck將圖像分辨率減小、通道數(shù)增大,實(shí)現(xiàn)圖像語(yǔ)義層面的增強(qiáng);Head主要為多個(gè)解耦頭,將特征信息進(jìn)行解耦,得到目標(biāo)在圖像中的位置與類別。YOLOv7-tiny的Backbone網(wǎng)絡(luò)由卷積層、池化層和高效長(zhǎng)程聚合網(wǎng)絡(luò)[11](efficient layer aggregation networks, ELAN)組成,Neck繼承了YOLO系列的PA-Net(path aggregation networks)。
為了更好地區(qū)分坦克車輛與背景信息,將YOLOv7-tiny特征提取網(wǎng)絡(luò)中的3個(gè)ELAN結(jié)構(gòu),替換為本文中提出的AC-ELAN(asymmetric convolutions-ELAN)結(jié)構(gòu),利用文獻(xiàn)[12]提出的非對(duì)稱卷積替換ELAN結(jié)構(gòu)路徑上的普通卷積,構(gòu)成改進(jìn)的特征提取網(wǎng)絡(luò),非對(duì)稱卷積結(jié)構(gòu)如圖1所示。
圖1 非對(duì)稱卷積結(jié)構(gòu)
并列的3×1、1×3、3×3卷積核替代原本的3×3卷積核,構(gòu)成非對(duì)稱卷積塊。利用不同大小的卷積核對(duì)輸入特征圖進(jìn)行計(jì)算,此過(guò)程可表示為:
(1)
式(1)中:O∈RR×T×D為輸出特征圖;M∈RU×V×C為輸入特征圖;F∈RH×W×E為卷積核;R、U、H為特征圖及卷積核寬度,T、V、W為高度,D、C、E為通道數(shù);*為二維卷積運(yùn)算;j為第j個(gè)卷積核;k為第k層通道。
對(duì)輸出O:,:, j進(jìn)行批歸一化處理得到中間級(jí)輸出為:
(2)
式(2)中:μj、σj為批處理數(shù)據(jù)的均值、標(biāo)準(zhǔn)差;γj、βj為縮放系數(shù)和偏移量。
最后,將中間級(jí)輸出對(duì)應(yīng)點(diǎn)位信息相加后得到最終的融合特征圖。相對(duì)于普通卷積,由于并列結(jié)構(gòu)的非對(duì)稱卷積塊增加了卷積計(jì)算次數(shù),推理過(guò)程所耗費(fèi)的時(shí)間相應(yīng)增加。利用卷積的可加性,可以在不增加推理時(shí)間的前提下達(dá)到相同的效果,可加性表示為:
I*K(1)+I*K(2)=I*(K(1)⊕K(2))
(3)
式(3)中:K(1)、K(2)為2個(gè)兼容尺寸的卷積核;I為輸入矩陣;⊕為按位置求和。
由此,3個(gè)大小不同的卷積核轉(zhuǎn)換為一個(gè)等效卷積核,其十字中心位置權(quán)重增大,特征提取能力有所加強(qiáng),并且受到圖像的水平、垂直翻轉(zhuǎn)影響減弱。
將非對(duì)稱卷積融入ELAN結(jié)構(gòu),模型結(jié)構(gòu)圖如圖2所示。
圖2 AC-ELAN結(jié)構(gòu)圖
改進(jìn)的YOLOv7-tiny網(wǎng)絡(luò)中AC-ELAN通過(guò)不同長(zhǎng)度的分支結(jié)構(gòu)將輸入特征圖尺寸減小、通道數(shù)擴(kuò)大,得到更高維和抽象的特征,并聚合淺層和深層網(wǎng)絡(luò)輸出以起到減少計(jì)算量和增強(qiáng)特征表達(dá)的作用。具體來(lái)說(shuō),AC-ELAN將輸入特征圖在通道維度等分成2個(gè)部分,下層通過(guò)1×1卷積調(diào)整通道數(shù)后直接與上層輸出拼接,上層調(diào)整通道數(shù)后利用2層非對(duì)稱卷積提取不同尺度的特征,每層非對(duì)稱卷積輸出的一部分直接進(jìn)入聚合層,另一部分進(jìn)入下一層提取更高維的特征信息,最后將輸出特征圖組合調(diào)整通道數(shù)輸入下一層網(wǎng)絡(luò)。引入了非對(duì)稱卷積的特征融合塊能夠根據(jù)特征的重要性重新分配它們的權(quán)重,加之分支結(jié)構(gòu)具有不同深度,對(duì)于不同維度的特征提取效果得到增強(qiáng),同時(shí)不會(huì)增加網(wǎng)絡(luò)復(fù)雜度和計(jì)算量。
空間金字塔池化[13](spatial pyramid pooling,SPP)的提出是為了解決卷積神經(jīng)網(wǎng)絡(luò)(CNN)需要輸入一個(gè)固定大小圖像的問(wèn)題。對(duì)此,利用SPP結(jié)構(gòu)對(duì)經(jīng)過(guò)卷積操作后的特征圖進(jìn)行不同規(guī)格的池化。其原理為:輸入經(jīng)過(guò)卷積操作的特征圖,3種池化框通過(guò)滑動(dòng)窗口的方式提取特征,利用最大池化提取一個(gè)最顯著特征。本文中,輸入SPP結(jié)構(gòu)的特征圖大小為20×20×1 024,其中20為特征圖的寬高、1 024為通道數(shù),經(jīng)過(guò)大小為5、9、13的池化框池化之后,得到大小為4×4、2×2、1×1的輸出特征圖。然后將其展開(kāi)并進(jìn)行拼接,最后得到大小為(16+4+1)×1 024的一維數(shù)組,與一個(gè)跳躍連接構(gòu)成4分支結(jié)構(gòu),如圖3所示。大尺寸特征圖具有較高水平的全局性,而小尺寸特征圖可以彌補(bǔ)大尺寸特征圖在細(xì)節(jié)方面的缺失,因此SPP結(jié)構(gòu)實(shí)現(xiàn)了全局特征和局部特征的有效融合,擴(kuò)大了網(wǎng)絡(luò)對(duì)目標(biāo)的感受野,增強(qiáng)了網(wǎng)絡(luò)的魯棒性。
圖3 SPP結(jié)構(gòu)原理圖
本文中,將YOLOv7-tiny傳統(tǒng)的特征提取網(wǎng)絡(luò)池化結(jié)構(gòu)替換為SPPCSPC結(jié)構(gòu),如圖4所示。SPPCSPC結(jié)構(gòu)將空間金字塔池化與跨階段局部網(wǎng)絡(luò)[14](cross stage partial,CSP)相結(jié)合,CSP的提出是為了減少計(jì)算量和增強(qiáng)梯度表現(xiàn)力。特征圖在通道維度分為2個(gè)部分:一部分通過(guò)卷積對(duì)梯度信息進(jìn)行學(xué)習(xí),另一部分通過(guò)直連映射跨梯度與其融合,經(jīng)過(guò)并行分支結(jié)構(gòu)使梯度路徑數(shù)目翻倍,達(dá)到減少計(jì)算量的目的。其中Conv1_1將通道數(shù)進(jìn)行調(diào)整,以便融合特征,Conv2_2、Conv2_5為3×3卷積層,提升感受野。Conv3_1、Conv2_5為過(guò)渡層,Conv3_1卷積層處在Concat操作后,其作用是使不同特征梯度信息得到重用,能夠增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)能力;Conv2_5處在Concat操作前,其輸入的維度小于Conv3_1,有效減少了計(jì)算復(fù)雜度。
圖4 SPPCSPC結(jié)構(gòu)圖
計(jì)算機(jī)視覺(jué)中的注意力機(jī)制是從人類大腦處理外界輸入圖像的過(guò)程中獲取靈感。人類大腦會(huì)關(guān)注圖像中感興趣的區(qū)域而忽略重要性較低的背景區(qū)域。正因?yàn)橛凶⒁饬C(jī)制,人腦可以獲取更多目標(biāo)的細(xì)節(jié)信息而抑制干擾信息。傳統(tǒng)的注意力機(jī)制主要為通道注意力和空間注意力以及將兩者并行或串行。例如由Jie Hu等[15]提出的SENet(squeeze-and-excitation networks),通過(guò)擠壓、激勵(lì)操作對(duì)特征圖通道進(jìn)行優(yōu)化來(lái)提高網(wǎng)絡(luò)的表示能力,因要為通道分配不同的權(quán)重,會(huì)帶來(lái)參數(shù)量的增加。
通過(guò)SimAM[16](simple parameter-free attention module)能夠提高網(wǎng)絡(luò)性能,增強(qiáng)目標(biāo)檢測(cè)精度。其是一種用于卷積神經(jīng)網(wǎng)絡(luò)的無(wú)參數(shù)注意力模塊,該模塊利用人腦神經(jīng)元的工作方式,通過(guò)推導(dǎo)能量函數(shù)確定不同神經(jīng)元的重要程度,對(duì)于能量大的神經(jīng)元賦予更高的權(quán)值。在訓(xùn)練過(guò)程中,SimAM模塊能夠?qū)μ卣鲌D中的關(guān) 鍵信息進(jìn)行增強(qiáng)。
最小能量計(jì)算公式為
(4)
SimAM模塊通過(guò)尋找擁有最小能量的神經(jīng)元確定重要性最高的目標(biāo),與SENet、CBAM等注意力機(jī)制相比,具有更好的可解釋性、更少的參數(shù)量。將SimAM模塊引入到改進(jìn)YOLOv7-tiny網(wǎng)絡(luò)中的3個(gè)特征提取層之后,可以提高坦克車輛目標(biāo)檢測(cè)精度,在訓(xùn)練過(guò)程中提高對(duì)目標(biāo)的關(guān)注度。改進(jìn)后的整體網(wǎng)絡(luò)框架如圖5所示。
圖5 改進(jìn)網(wǎng)絡(luò)整體框架
邊界框損失函數(shù)作為目標(biāo)檢測(cè)任務(wù)中損失函數(shù)的重要組成部分,優(yōu)良的邊界框損失函數(shù)會(huì)為目標(biāo)檢測(cè)模型帶來(lái)顯著的性能提升,包括減小損失值、加快模型收斂速度等。YOLOv7-tiny的邊界框損失函數(shù)為CIoU,重點(diǎn)考慮了邊界框的幾何因素,即相交面積、中心點(diǎn)距離等。但是坦克車輛在無(wú)人機(jī)圖像中所占像素較少,在標(biāo)注過(guò)程中難免出現(xiàn)虛標(biāo)、漏標(biāo)等狀況,由于CIoU損失函數(shù)中的幾何因素會(huì)加劇低質(zhì)量標(biāo)注的懲罰,從而不利于模型從中學(xué)習(xí)到內(nèi)容,導(dǎo)致模型泛化能力降低。針對(duì)上述問(wèn)題,將CIoU替換為WIoU[17],其提出了3種不同的方法來(lái)提升損失函數(shù)性能。WIoU v1同時(shí)考慮了幾何因素和邊界框質(zhì)量,通過(guò)對(duì)權(quán)重的調(diào)整使損失函數(shù)更加關(guān)注中低質(zhì)量邊界框,從而達(dá)到更好的訓(xùn)練效果,其計(jì)算公式為:
LWIoUv1=RWIoULIoU
(5)
(6)
式(5)、式(6)中:系數(shù)RWIoU∈[1,e),其用為放大較低質(zhì)量錨框的損失值;x、y為預(yù)測(cè)框坐標(biāo);xgt、ygt為目標(biāo)框坐標(biāo);Wg、Hg為最小封閉框(見(jiàn)圖6);*為將帶梯度的變量轉(zhuǎn)變成常量。
圖6 目標(biāo)最小封閉框
WIoU v2在此基礎(chǔ)上增加了離群度β,以描述錨框的質(zhì)量,離群度定義為
(7)
LWIoUv2=β0.5LWIoUv1
(8)
(9)
式(9)中,α、δ為控制梯度增益的超參數(shù)。由此得到WIoU v3邊界框損失計(jì)算公式為
(10)
式(10)中,當(dāng)β=δ時(shí),使得r=1。
由于各國(guó)軍隊(duì)對(duì)于航拍坦克車輛圖像數(shù)據(jù)較為敏感,目前針對(duì)無(wú)人機(jī)視角的地面可見(jiàn)光坦克車輛圖像暫無(wú)權(quán)威數(shù)據(jù)集,因此采用自建數(shù)據(jù)集的方式,數(shù)據(jù)集實(shí)例如圖7所示,圖7中圖像來(lái)源為2個(gè)部分:利用爬蟲(chóng)技術(shù)爬取網(wǎng)絡(luò)中含有“坦克”、“裝甲車輛”等關(guān)鍵字的圖像418幅;利用四旋翼無(wú)人機(jī)進(jìn)行人工實(shí)地?cái)?shù)據(jù)采集的圖像150幅。在不同高度采集的圖像數(shù)據(jù)分布如圖8所示,分辨率設(shè)置為1 920×1 080。最終建立的數(shù)據(jù)集包含圖像568幅,圖像大小在1 920×1 080至600×600之間,經(jīng)自適應(yīng)模塊縮放后統(tǒng)一為640×640并送入網(wǎng)絡(luò)。將數(shù)據(jù)集中圖像隨機(jī)以7∶2∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。具體實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置如表1所示。
圖7 數(shù)據(jù)集實(shí)例
圖8 圖像數(shù)據(jù)分布圖
表1 實(shí)驗(yàn)環(huán)境配置
本文中網(wǎng)絡(luò)訓(xùn)練優(yōu)化器為 Adam,初始學(xué)習(xí)率 0.01,動(dòng)量為 0.907,權(quán)重衰減因子為0.005,Batchsize 為 2,采用mosaic數(shù)據(jù)增強(qiáng)方式。
利用平均精度AP,準(zhǔn)確率P評(píng)價(jià)網(wǎng)絡(luò)整體性能,計(jì)算公式如下:
(11)
(12)
(13)
式(11)—式(13)中:真陽(yáng)性(ture positive,TP)為檢測(cè)正確的目標(biāo)數(shù)量;假陽(yáng)性(false positive,FP)為檢測(cè)錯(cuò)誤的目標(biāo)數(shù)量;假陰性(false negative,FN)為漏檢的目標(biāo)數(shù)量。
利用每秒傳輸幀數(shù)FPS評(píng)價(jià)網(wǎng)絡(luò)是否滿足實(shí)時(shí)檢測(cè)條件,一般認(rèn)為FPS≥30即達(dá)到實(shí)時(shí)檢測(cè)要求;利用參數(shù)量評(píng)價(jià)模型大小,參數(shù)量由模型結(jié)構(gòu)確定,希望用更小的模型達(dá)到更高的檢測(cè)精度。利用Grad-cam[18]熱力圖評(píng)估注意力機(jī)制效果,利用損失函數(shù)曲線評(píng)估模型收斂速度和收斂穩(wěn)定狀態(tài)時(shí)邊界框損失值大小。
為了保證實(shí)驗(yàn)的準(zhǔn)確性和公平性,在pytorch框架下對(duì)不同的YOLOv7-tiny網(wǎng)絡(luò)損失函數(shù)進(jìn)行驗(yàn)證。分別采用CIoU、WIoU v2、WIoU v3作為損失函數(shù),邊界框損失隨輪次變化曲線如圖9所示。
在模型訓(xùn)練初期采用WIoU v2訓(xùn)練效果最好,平均損失值為0.034 2,分別比CIoU、WIoU v3降低15.8%、11.5%,認(rèn)為與其訓(xùn)練初期的單調(diào)聚焦機(jī)制使模型聚焦于困難示例有關(guān);在訓(xùn)練中期,CIoU、WIoU v3收斂速度明顯加快,WIoU v2收斂速度放緩并且出現(xiàn)損失值突然增大的情況;在訓(xùn)練200epochs后,各損失函數(shù)接近收斂,此時(shí)損失值由大到小為:WIoU v2、CIoU、WIoU v3,分別為0.022、0.020、0.019,認(rèn)為WIoU v3在訓(xùn)練后期重點(diǎn)關(guān)注普通、較低質(zhì)量錨框,對(duì)于網(wǎng)絡(luò)的訓(xùn)練起到關(guān)鍵作用。實(shí)驗(yàn)證明WIoU v3對(duì)于網(wǎng)絡(luò)模型具有更高的穩(wěn)定性及更小的損失值,對(duì)于模型訓(xùn)練和學(xué)習(xí)有提升效果,驗(yàn)證了損失函數(shù)改進(jìn)的有效性。
圖9 邊界框損失值曲線
實(shí)驗(yàn)證明,加入simAM模塊制后平均精度有所提升,由89.8%提升到90.4%,但是增加了網(wǎng)絡(luò)復(fù)雜度,導(dǎo)致推理時(shí)間有所增加。為了進(jìn)一步說(shuō)明simAM模塊的有效性,利用Grad-cam對(duì)圖像進(jìn)行可視化分析,提取正向傳播輸出的特征圖,再經(jīng)過(guò)反向傳播得到梯度,并在寬度和高度維度上進(jìn)行全局平均池化,得到能夠表示特征重要性的權(quán)重,最后計(jì)算權(quán)重和梯度的加權(quán)值并經(jīng)過(guò)激活函數(shù)得到Grad-cam熱力圖。熱力圖中顏色越接近紅色表示加權(quán)值越大,模型對(duì)此區(qū)域的關(guān)注度越高。選取3張圖像作為輸入,分別提取了SimAM、SENet及傳統(tǒng)的YOLOv7-tiny網(wǎng)絡(luò)對(duì)應(yīng)層的熱力圖,如圖10所示。對(duì)比傳統(tǒng)網(wǎng)絡(luò)和加入注意力機(jī)制的熱力圖可以發(fā)現(xiàn),注意力機(jī)制能夠有效聚焦坦克車輛目標(biāo),降低對(duì)非目標(biāo)區(qū)域的關(guān)注程度;由圖10(a)、圖10(b)可知,對(duì)比SENet和SimAM,SimAM模塊對(duì)確定的坦克車輛目標(biāo)關(guān)注度較高,但對(duì)類似目標(biāo)的關(guān)注度低。
圖10 注意力機(jī)制熱力圖對(duì)比
本文中一共提出了4個(gè)模型改進(jìn)點(diǎn),為了驗(yàn)證各改進(jìn)點(diǎn)單獨(dú)及組合后算法整體的優(yōu)化提升性能,采用消融實(shí)驗(yàn)進(jìn)行分析,從網(wǎng)絡(luò)模型的AP、FPS進(jìn)行對(duì)比,結(jié)果如表2所示。
表2 消融實(shí)驗(yàn)結(jié)果
傳統(tǒng)的YOLOv7-tiny作為消融實(shí)驗(yàn)的baseline,采用相同的預(yù)訓(xùn)練權(quán)重、超參數(shù)等訓(xùn)練條件,依次將simAM模塊和AC-ELAN結(jié)構(gòu)、SPPCSPC結(jié)構(gòu)和改進(jìn)的損失函數(shù)加入baseline。分析表2數(shù)據(jù)發(fā)現(xiàn),各改進(jìn)點(diǎn)均對(duì)算法AP有所提升。首先SimAM+AC-ELAN結(jié)構(gòu)提升效果最好,提升1.9個(gè)百分點(diǎn),說(shuō)明基于能量函數(shù)的SimAM模塊和基于非對(duì)稱卷積的AC-ELAN結(jié)構(gòu)共同提高了對(duì)坦克車輛目標(biāo)的關(guān)注程度,并且沒(méi)有過(guò)多增加推理時(shí)間。其次為加入SPPCSPC結(jié)構(gòu),AP提升1.4個(gè)百分點(diǎn),但是由于網(wǎng)絡(luò)結(jié)構(gòu)變復(fù)雜,導(dǎo)致FPS下降1.1幀/s。最后,將損失函數(shù)替換為WIoU對(duì)AP和FPS的影響較小。
為了進(jìn)一步客觀驗(yàn)證改進(jìn)算法的有效性,主要選取參數(shù)量在10 M以下輕量級(jí)算法Att-YOLOv4-tiny 、YOLOX-tiny 、YOLOv5s和YOLOv7-tiny和2種中量級(jí)算法SSD、SE-DenseSSD作為對(duì)比,利用訓(xùn)練好的模型權(quán)重對(duì)驗(yàn)證集中圖像進(jìn)行檢測(cè),結(jié)果如表3所示。由于SSD算法對(duì)于小目標(biāo)不敏感,改進(jìn)算法對(duì)比以VGG-16為骨干網(wǎng)絡(luò)的SSD算法 AP提升9.2%,FPS提高39幀/s,在無(wú)人機(jī)計(jì)算平臺(tái)算力有限情況下,也能夠滿足實(shí)時(shí)檢測(cè)要求;對(duì)比幾種輕量級(jí)算法發(fā)現(xiàn),在沒(méi)有進(jìn)一步擴(kuò)大參數(shù)規(guī)模的情況下,改進(jìn)算法平均精度為幾種算法中最高,達(dá)到94.3%,分別比Att-YOLOv4-tiny 、YOLOX-tiny 、YOLOv5s和YOLOv7-tiny提升3.2%、9.8%、6.6%、5.0%,且在GPU下檢測(cè)幀率達(dá)到71幀/s。
為了展現(xiàn)改進(jìn)算法訓(xùn)練過(guò)程的性能,將模型訓(xùn)練過(guò)程與傳統(tǒng)的YOLOv7-tiny對(duì)比,在分析結(jié)果時(shí)發(fā)現(xiàn)某些輪次的準(zhǔn)確率突然下降,造成原因是數(shù)據(jù)集中低質(zhì)量圖像導(dǎo)致的噪聲,訓(xùn)練過(guò)程的準(zhǔn)確率曲線如圖11所示。
表3 不同算法性能對(duì)比結(jié)果
圖11 準(zhǔn)確率曲線
在訓(xùn)練前期2種算法準(zhǔn)確率差別較小,從第40輪次開(kāi)始改進(jìn)算法準(zhǔn)確率上升明顯,且準(zhǔn)確率曲線一直位于YOLOv-tiny算法之上。隨著學(xué)習(xí)率的不斷降低,準(zhǔn)確率沒(méi)有發(fā)生較大波動(dòng),改進(jìn)模型在訓(xùn)練過(guò)程中體現(xiàn)了較好的穩(wěn)定性和學(xué)習(xí)能力。
針對(duì)基于深度學(xué)習(xí)的坦克車輛目標(biāo)檢測(cè)算法實(shí)時(shí)性差、無(wú)人機(jī)飛行高度不統(tǒng)一、坦克車輛與背景難以區(qū)分等問(wèn)題,構(gòu)建了具有針對(duì)性的數(shù)據(jù)集,并創(chuàng)新性地提出了基于YOLOv7-tiny的改進(jìn)算法。
1) 提出了AC-LEAN結(jié)構(gòu)并融合simAM模塊,使算法對(duì)目標(biāo)的特征提取能力增強(qiáng), 有效降低了圖像中復(fù)雜背景的干擾;
2) 引入SPPCSPC結(jié)構(gòu),提升了算法感受野并減少改變結(jié)構(gòu)帶來(lái)的計(jì)算量增加;
3) 優(yōu)化損失函數(shù),利用利群度對(duì)錨框質(zhì)量進(jìn)行劃分,在訓(xùn)練不同時(shí)期關(guān)注不同質(zhì)量錨框,提升了模型收斂速度。
實(shí)驗(yàn)結(jié)果表明,提出的基于YOLOv7-tiny改進(jìn)算法在自建數(shù)據(jù)集下平均精度達(dá)到94.3%,比傳統(tǒng)的YOLOv7-tiny提升5.0%,在GPU下檢測(cè)幀率達(dá)到每秒71幀。但是,由于數(shù)據(jù)集規(guī)模較小,實(shí)際應(yīng)用中還存在不確定性。未來(lái)將進(jìn)一步擴(kuò)大坦克車輛目標(biāo)數(shù)據(jù)集,使改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)能力、泛化能力得到提升,并將其部署到無(wú)人機(jī)機(jī)載計(jì)算機(jī)中進(jìn)行性能檢測(cè),完成實(shí)時(shí)坦克車輛目標(biāo)檢測(cè)任務(wù)。