馬田源,孫 涵
(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106)
近年來(lái),隨著無(wú)人機(jī)制造成本和使用難度的不斷降低,無(wú)人機(jī)得以迅速應(yīng)用到各行各業(yè),普通人也可以很容易操控?zé)o人機(jī)。這給人們的生產(chǎn)和生活帶來(lái)了很大方便,但與此同時(shí),無(wú)人機(jī)“黑飛”也給空中交通、公共安全等領(lǐng)域的監(jiān)管帶來(lái)了巨大挑戰(zhàn)。因此,作為無(wú)人機(jī)監(jiān)管的重要環(huán)節(jié),對(duì)無(wú)人機(jī)小目標(biāo)的檢測(cè)就成為了目前亟待解決的關(guān)鍵問(wèn)題。
目前無(wú)人機(jī)檢測(cè)的方案有很多種,基于雷達(dá)、聲、無(wú)線電、光電設(shè)備等。這些利用無(wú)人機(jī)的物理屬性對(duì)無(wú)人機(jī)進(jìn)行定位的技術(shù)非常常見(jiàn),但是這些檢測(cè)方案往往需要非常昂貴的設(shè)備和嚴(yán)格的配置。基于視覺(jué)的方法則成本較低,配置相對(duì)簡(jiǎn)單,且易于部署。
而今,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了大量的突破,優(yōu)秀的工作不斷涌現(xiàn)出來(lái),早期的工作例如Fast R-CNN[1]、Faster R-CNN[2]、YOLO[3]等,在各個(gè)通用數(shù)據(jù)集上均取得了不錯(cuò)的成績(jī)。后來(lái)何愷明等人提出了特征金字塔融合網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[4],該網(wǎng)絡(luò)由自底向上和自頂向下兩條通路以及一條橫向連接三部分構(gòu)成。首先,自底向上進(jìn)行特征提?。蝗缓?,橫向連接對(duì)齊通道數(shù)目;接著,自頂向下進(jìn)行特征融合;最后,得到具有多尺度特征的特征圖進(jìn)行預(yù)測(cè)。該方法通過(guò)將語(yǔ)義信息從深層傳播到淺層來(lái)實(shí)現(xiàn)多尺度的特征融合,使深層豐富的語(yǔ)義信息得以傳遞到淺層,解決了淺層語(yǔ)義信息缺失的問(wèn)題,提高了網(wǎng)絡(luò)對(duì)不同尺度目標(biāo),尤其是對(duì)小目標(biāo)的檢測(cè)性能。因此FPN在各種通用的目標(biāo)檢測(cè)方法中普遍被采用,例如RetinaNet[5]、FCOS[6]等工作。然而,無(wú)人機(jī)小目標(biāo)與通用尺度的目標(biāo)不同,它尺度極小,通常占整張圖像的像素比低于0.1%,且小型無(wú)人機(jī)鏤空的外觀,使其與背景融為一體,特征極不明顯,檢測(cè)難度很高。
該文總結(jié)了FPN方法在無(wú)人機(jī)目標(biāo)檢測(cè)任務(wù)中表現(xiàn)不佳的三點(diǎn)原因:(1)原始FPN上采樣所使用的最近鄰插值法會(huì)造成特征偏移失真,這些偏移會(huì)對(duì)無(wú)人機(jī)小目標(biāo)檢測(cè)造成很大的影響;(2)無(wú)人機(jī)小目標(biāo)通常在網(wǎng)絡(luò)淺層被檢測(cè)出來(lái),而網(wǎng)絡(luò)淺層特征的語(yǔ)義信息缺失問(wèn)題導(dǎo)致網(wǎng)絡(luò)對(duì)小目標(biāo)檢測(cè)性能不佳。因此原始的FPN方法將深層的語(yǔ)義信息傳遞到淺層來(lái)緩解這個(gè)問(wèn)題,但是在FPN的實(shí)際操作過(guò)程中,通道維度對(duì)齊的做法仍會(huì)產(chǎn)生大量通道信息衰減,造成深層語(yǔ)義信息向淺層傳遞不足的問(wèn)題。對(duì)于更需要深層語(yǔ)義信息補(bǔ)充的無(wú)人機(jī)這類極小目標(biāo)來(lái)說(shuō),語(yǔ)義信息不足會(huì)產(chǎn)生更大的影響;(3)在FPN特征融合時(shí),網(wǎng)絡(luò)最深層特征只有本層的語(yǔ)義信息,同其他層產(chǎn)生了語(yǔ)義差異,這種差異在一定程度上會(huì)影響后續(xù)的推理。
為了解決上述問(wèn)題,基于RetinaNet提出了新的多尺度特征融合方式,具體貢獻(xiàn)如下:
(1)受到超分辨率領(lǐng)域中效果十分優(yōu)秀的像素洗牌(Pixel Shuffle,PS)[7]上采樣方式的啟發(fā),設(shè)計(jì)了像素洗牌上采樣模塊(Pixel Shuffle Unit,PSU),將其作為特征融合網(wǎng)絡(luò)中的上采樣方法,解決特征失真問(wèn)題,并且使深層的語(yǔ)義信息得到充分利用。
(2)設(shè)計(jì)了像素洗牌特征融合網(wǎng)絡(luò) (Pixel Shuffle Feature Fusion,PSFF)。采用PSU改進(jìn)了上采樣方式,并且重構(gòu)了特征通道融合流程。降低了深層語(yǔ)義信息向淺層傳遞過(guò)程中的衰減,使深層的語(yǔ)義信息能夠有效地傳遞到淺層,進(jìn)而增強(qiáng)淺層無(wú)人機(jī)小目標(biāo)的特征表示。
(3)增加了深層語(yǔ)義增強(qiáng)模塊(High-level Semantic Enhancement,HSE)。在網(wǎng)絡(luò)深層追加特征提取模塊,使網(wǎng)絡(luò)可以提取到更深層的語(yǔ)義信息,提高網(wǎng)絡(luò)整體的特征提取能力,同時(shí)消除FPN最深層同其他層之間的語(yǔ)義差異。
實(shí)驗(yàn)結(jié)果驗(yàn)證,在自建蜂群無(wú)人機(jī)數(shù)據(jù)集上,與其他類似特征融合方式相比,提出的新特征融合方式具有明顯優(yōu)勢(shì),基于RetinaNet的檢測(cè)效果提升了1.7%,精度達(dá)到了91.2%。
通用目標(biāo)檢測(cè)方法主要分為兩個(gè)大方向:一是以Faster R-CNN[2]、Cascade R-CNN[8]、Grid R-CNN[9]、Sparse R-CNN[10]為代表的二階段目標(biāo)檢測(cè)方法。這類方法首先預(yù)測(cè)出目標(biāo)可能出現(xiàn)的候選區(qū)域(Region Proposal),再對(duì)該區(qū)域內(nèi)的目標(biāo)進(jìn)行目標(biāo)檢測(cè)和類別預(yù)測(cè)[11],這類方法精度相對(duì)較高,但是模型相對(duì)復(fù)雜,且推理速度較慢;二是以YOLO[3,12-13]系列、SSD[14-16]系列、RetinaNet為代表的一階段目標(biāo)檢測(cè)方法。這類方法沒(méi)有復(fù)雜的預(yù)測(cè)候選區(qū)域的過(guò)程,直接根據(jù)輸入圖像預(yù)測(cè)出目標(biāo)的類別和檢測(cè)框的位置,因此這類方法具有速度快、開(kāi)銷低的優(yōu)點(diǎn),但是檢測(cè)精度往往不如二階段檢測(cè)方法。
為了應(yīng)對(duì)不同尺度的目標(biāo)檢測(cè),何愷明等人首先提出了特征金字塔融合網(wǎng)絡(luò)FPN[4]。后續(xù)對(duì)FPN進(jìn)行改進(jìn)的多種多尺度特征融合方法相繼提出。例如PAFPN[17]采用雙向融合,在原有自頂向下融合的基礎(chǔ)上,增加了反向傳遞,縮短了淺層與深層特征之間的信息路徑,在一定程度上提高了信息的利用率,讓融合效率提高。NAS-FPN[18]在多尺度特征融合網(wǎng)絡(luò)中,將神經(jīng)網(wǎng)絡(luò)搜索出來(lái)的不規(guī)則拓?fù)浣Y(jié)構(gòu)作為融合網(wǎng)絡(luò),效果優(yōu)異,但訓(xùn)練成本極高。文獻(xiàn)[19]提出了HRFPN,使特征金字塔在進(jìn)行下采樣的過(guò)程中保留盡可能多的細(xì)節(jié)信息。BiFPN[20]中重復(fù)堆疊簡(jiǎn)化的PAFPN,同時(shí)引入權(quán)重參數(shù),來(lái)平衡不同尺度的特征信息。文獻(xiàn)[21]在顯著性檢測(cè)領(lǐng)域提出了多尺度特征金字塔網(wǎng)格MFPG來(lái)豐富語(yǔ)義信息。
基于傳統(tǒng)方法的無(wú)人機(jī)檢測(cè)工作如下:文獻(xiàn)[22]采用基于卡爾曼模型的方法動(dòng)態(tài)地對(duì)無(wú)人機(jī)進(jìn)行檢測(cè)和跟蹤。文獻(xiàn)[23]利用無(wú)人機(jī)本身的移動(dòng)性、振動(dòng)性、空間性這三個(gè)本身的物理特性來(lái)發(fā)現(xiàn)并定位無(wú)人機(jī)?;谏疃葘W(xué)習(xí)的無(wú)人機(jī)檢測(cè)工作如下:文獻(xiàn)[24]在YOLOv3中引入多尺度的特征圖融合方法,以此提升無(wú)人機(jī)檢測(cè)精度。文獻(xiàn)[25]基于RetinaNet構(gòu)建了無(wú)人機(jī)目標(biāo)檢測(cè)網(wǎng)絡(luò),對(duì)多旋翼無(wú)人機(jī)進(jìn)行檢測(cè)識(shí)別,取得了較好的效果。文獻(xiàn)[26]基于SSD,將高層的特征引入到淺層,以此增強(qiáng)淺層無(wú)人機(jī)小目標(biāo)的特征表示,來(lái)提高網(wǎng)絡(luò)對(duì)無(wú)人機(jī)的檢測(cè)效果。文獻(xiàn)[27]受到人臉檢測(cè)方法的啟發(fā),設(shè)計(jì)了輕量級(jí)迭代的無(wú)人機(jī)檢測(cè)網(wǎng)絡(luò)TIB-Net,取得了不錯(cuò)的檢測(cè)效果。
原始RetinaNet[5]在采用FPN的基礎(chǔ)之上,又引入聚焦損失Focal Loss的概念,解決了類不平衡問(wèn)題,提高了一階段目標(biāo)檢測(cè)方法的精度,同時(shí)也保持了較高的檢測(cè)速度。其網(wǎng)絡(luò)由三個(gè)主要部分構(gòu)成:一是特征提取的主干網(wǎng)絡(luò);二是多尺度特征融合網(wǎng)絡(luò);三是分類和邊界框回歸的檢測(cè)網(wǎng)絡(luò)。因?yàn)樵摲椒ň哂休^高的檢測(cè)速度,且結(jié)構(gòu)清晰易于擴(kuò)展,對(duì)小目標(biāo)有較好的檢測(cè)效果,所以該文采用該框架作為基本的檢測(cè)框架。
總體結(jié)構(gòu)如圖1所示??蚣芑赗etinaNet,該文重新設(shè)計(jì)了新的多尺度特征融合方法。其中Backbone部分采用ResNet50[28]進(jìn)行自底向上的特征提取。多尺度特征融合部分采用像素洗牌融合網(wǎng)絡(luò)PSFF進(jìn)行自頂向下的多尺度特征融合,深層語(yǔ)義增強(qiáng)模塊HSE繼續(xù)提取更深層次的語(yǔ)義信息,并且注入到PSFF中,讓深層的語(yǔ)義信息可以更有效地傳遞到淺層。最后為兩個(gè)FCN全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[29]分類分支和檢測(cè)框回歸分支。
圖1 總體結(jié)構(gòu)
原始FPN網(wǎng)絡(luò)在自底向上的通路中,隨著網(wǎng)絡(luò)的不斷加深,特征通道數(shù)會(huì)逐層增加,特征圖尺寸會(huì)逐層減小。在網(wǎng)絡(luò)的最深層,通道數(shù)量最多。例如ResNet50的{C2,C3,C4,C5}特征層分別對(duì)應(yīng){256,512,1 024,2 048}個(gè)特征通道,最深層的C5通道數(shù)量為2 048包含最豐富的語(yǔ)義信息。在橫向連接中,由于特征融合需要對(duì)齊特征維度,所以該步驟將得到的特征層的通道維數(shù)統(tǒng)一壓縮到256。在自頂向下的通路中,從頂層開(kāi)始,進(jìn)行2倍最近鄰上采樣的同時(shí),與橫向連接對(duì)齊通道數(shù)量的特征層進(jìn)行特征融合。
可見(jiàn),原始FPN上采樣的過(guò)程造成了特征失真;在進(jìn)行橫向連接時(shí)將所有層的通道維數(shù)統(tǒng)一壓縮到256再進(jìn)行自頂向下的特征融合的做法,造成了深層特征沒(méi)有充分地傳遞到淺層的問(wèn)題;最深層特征F5直接來(lái)自C5層,沒(méi)有融合其他層的特征,只具備一層的語(yǔ)義信息,造成了深層同其他層之間的語(yǔ)義差異。
考慮以上因素,該文對(duì)特征融合網(wǎng)絡(luò)進(jìn)行了重新設(shè)計(jì),其中包括兩大塊:其一,使用像素洗牌上采樣模塊PSU構(gòu)造了像素洗牌特征融合網(wǎng)絡(luò)PSFF。該網(wǎng)絡(luò)既解決了原始FPN上采樣方法的缺陷,又可以讓深層特征充分地參與到向淺層傳遞的過(guò)程中去,使深層語(yǔ)義信息更有效地傳遞到淺層,以此提升淺層小目標(biāo)的特征表示。其二,引入深層語(yǔ)義增強(qiáng)模塊HSE,既解決深層語(yǔ)義差異問(wèn)題,又可以提取更深層的語(yǔ)義信息,提高網(wǎng)絡(luò)整體的特征提取能力。
為此,該文首先引入深層語(yǔ)義增強(qiáng)模塊HSE,來(lái)補(bǔ)充深層缺失的語(yǔ)義信息;接著,采用像素洗牌上采樣模塊PSU,利用深層大量的通道信息進(jìn)行上采樣,在完成上采樣的同時(shí),將特征的維度信息轉(zhuǎn)化到空間尺度信息中去,以此將深層的語(yǔ)義信息由低分辨率的特征圖帶入到高分辨率特征圖,既對(duì)齊了維度又對(duì)齊了尺度;然后,進(jìn)行逐像素相加和,即特征融合;最后進(jìn)行去除混疊和通道壓縮。具體實(shí)現(xiàn)如圖2所示,其中{C3,C4,C5}為來(lái)自主干網(wǎng)絡(luò)Backbone也就是ResNet50特征提取網(wǎng)絡(luò)的第3、第4和第5層的特征,{F3,F(xiàn)4,F(xiàn)5}為對(duì)應(yīng)的輸出。PSU為像素洗牌上采樣模塊。C5*為深層語(yǔ)義增強(qiáng)模塊HSE的輸出,Conv-3×3用來(lái)去除混疊效應(yīng)。圖中“64x”代表相對(duì)于原始網(wǎng)絡(luò)輸入圖像下采樣64倍的尺度,“64x->32x”代表該過(guò)程圖像尺度由64x上采樣到32x,“2 048->256”表示通道數(shù)從2 048變?yōu)?56?!皑挕北硎咎卣鲌D之間逐像素相加。
圖2 像素洗牌特征融合網(wǎng)絡(luò)PSFF
原始的特征金字塔融合網(wǎng)絡(luò)FPN采用最近鄰插值的上采樣法,該方法在上采樣的過(guò)程中使用鄰近像素值進(jìn)行填充,簡(jiǎn)單且不需要復(fù)雜計(jì)算。但該方法在計(jì)算上采樣圖像像素點(diǎn)對(duì)應(yīng)位置時(shí),對(duì)非整數(shù)的計(jì)算結(jié)果直接向下取整的做法會(huì)造成像素偏移,使某一區(qū)域的像素值相同,讓像素變化不連續(xù),產(chǎn)生鋸齒狀失真??紤]以上因素,該文采用了像素洗牌[7]上采樣方法,該方法具有高效、快速、無(wú)參的特性,更重要的是,它可以充分利用主干網(wǎng)絡(luò)最深層大量的通道信息,將其作為像素洗牌所需的像素信息,進(jìn)行像素洗牌的上采樣。簡(jiǎn)言之,就是可以把通道維度信息轉(zhuǎn)換成空間信息保留下來(lái)。如此,不僅避免了簡(jiǎn)單最近鄰差值特征失真的缺陷,還可以最大程度地讓深層豐富的語(yǔ)義信息傳遞到淺層,讓淺層獲得到更加豐富的深層語(yǔ)義信息,提升淺層無(wú)人機(jī)小目標(biāo)特征表示,進(jìn)而提升網(wǎng)絡(luò)對(duì)無(wú)人機(jī)小目標(biāo)的檢測(cè)性能。
圖3 像素洗牌上采樣原理PS
將該做法整理為公式(1),其中PS代表Pixel Shuffle,是像素洗牌英文名簡(jiǎn)稱,默認(rèn)擴(kuò)張因子(Scale)為2,代表使用像素洗牌方法進(jìn)行2倍上采樣,其中輸入為x'∈Rh×w×4c其通道數(shù)量為4c,輸出為y'∈R2w×2h×c其通道數(shù)量為c,在這個(gè)過(guò)程中通道數(shù)由4c減少到c,圖像尺寸由h×w擴(kuò)增到2h×2w。
直觀來(lái)看,可以在原始FPN方法的基礎(chǔ)上直接替換上采樣方式。首先,將統(tǒng)一壓縮到256維的特征進(jìn)行4倍通道擴(kuò)增;接著,采用像素洗牌上采樣,通道數(shù)還原為256;最后,與上層特征進(jìn)行融合。以上作法雖然解決了原始FPN上采樣特征失真問(wèn)題,但是并沒(méi)有解決深層特征大量丟失的問(wèn)題。因?yàn)闄M向連接的過(guò)程特征首先被統(tǒng)一壓縮到256維,這一造成深層特征大量丟失問(wèn)題的根源,沒(méi)有被改變。所以該文未予采用。
圖4 像素洗牌上采樣模塊PSU
y'=PS(x')
(1)
y=Conv-3×3(PS(Conv-1×1(x)))
(2)
在原始的FPN中,融合后網(wǎng)絡(luò)的最深層F5層僅包含它本層一個(gè)尺度的語(yǔ)義信息,而其他層則融合了多層語(yǔ)義信息,同其他層之間產(chǎn)生了語(yǔ)義差異。對(duì)此,該文設(shè)計(jì)了深層語(yǔ)義增強(qiáng)模塊HSE,旨在向F5中注入更深層次的語(yǔ)義信息,消除該層同其他層之間的語(yǔ)義差異問(wèn)題,同時(shí)提高網(wǎng)絡(luò)整體的特征提取能力。
HSE具體流程如圖5所示,采用并行分支結(jié)構(gòu)。第一個(gè)分支首先進(jìn)行全局平均值池化,接著用廣播的形式還原特征尺度,以獲取全局信息;第二個(gè)分支采用瓶頸結(jié)構(gòu)結(jié)合3×3卷積獲取局部信息;第三個(gè)分支利用最大值池化進(jìn)行下采樣,結(jié)合3×3卷積,然后用1×1卷積進(jìn)行通道維度擴(kuò)增,再通過(guò)像素洗牌還原特征尺度,以再次增大感受野來(lái)獲取更豐富的語(yǔ)義信息。
圖5 深層語(yǔ)義增強(qiáng)模塊HSE
最后HSE模塊以殘差形式加入特征融合網(wǎng)絡(luò),防止網(wǎng)絡(luò)退化。在特征融合網(wǎng)絡(luò)中引入該深層語(yǔ)義增強(qiáng)模塊,首先消除了最后一層F5與其他層之間的語(yǔ)義差異;其次,在層內(nèi)形成了多層級(jí)的特征提取,提高了網(wǎng)絡(luò)整體的特征提取能力;最終為自頂向下的特征融合過(guò)程提供了更加豐富的深層語(yǔ)義信息。因此使淺層小目標(biāo)可以獲得更多深層的語(yǔ)義信息,進(jìn)而提升網(wǎng)絡(luò)對(duì)無(wú)人機(jī)小目標(biāo)的特征提取能力。
在訓(xùn)練設(shè)置部分,模型的損失是兩個(gè)部分損失的加和,第一部分為回歸子網(wǎng)絡(luò)的檢測(cè)框回歸損失,采用標(biāo)準(zhǔn)的Smooth L1 Loss損失;第二部分為分類子網(wǎng)絡(luò)的分類損失,采用帶平衡因子的聚焦損失(Focal Loss)[5],其形式如公式(3)。
FL(pt)=-αt(1-pt)γlog(pt)
(3)
FL代表Focal Loss,其中αt為正負(fù)樣本的加權(quán)平衡參數(shù),值越大正樣本的權(quán)重越大,這里設(shè)置為0.25。γ為聚焦系數(shù),控制樣本權(quán)重更新速率,是一個(gè)大于0的超參數(shù),該文設(shè)置為2。pt表示樣本屬于正樣本的概率,(1-pt)γ是權(quán)重表達(dá)式。以上超參數(shù)設(shè)置均來(lái)自RetinaNet[5]原文。
Focal Loss聚焦損失函數(shù)就是給簡(jiǎn)單樣本和困難樣本分別加上一組權(quán)重系數(shù)。這個(gè)系數(shù)跟模型預(yù)測(cè)的樣本屬于真實(shí)類別的概率相關(guān)。對(duì)于簡(jiǎn)單樣本,如果模型預(yù)測(cè)該樣本屬于真實(shí)類別的概率很大,那該樣本對(duì)于模型來(lái)說(shuō)就是簡(jiǎn)單樣本,此時(shí)的pt接近于1,權(quán)重系數(shù)接近于0,如此就會(huì)降低簡(jiǎn)單樣本的損失權(quán)重。對(duì)于困難樣本,如果模型預(yù)測(cè)某樣本屬于真實(shí)樣本的概率很小(也可以說(shuō)這很可能是錯(cuò)誤分類),那么該樣本對(duì)于模型來(lái)講就屬于困難樣本,此時(shí)的pt很小,權(quán)重系數(shù)接近于1,如此就會(huì)讓困難樣本的損失得以最大限度地保留。無(wú)人機(jī)小目標(biāo)尺度小、特征少、區(qū)分度不高導(dǎo)致其難以識(shí)別,對(duì)于網(wǎng)絡(luò)來(lái)說(shuō)屬于困難樣本。而聚焦損失又能夠讓網(wǎng)絡(luò)聚焦于困難樣本,因此采用該損失函數(shù),有利于網(wǎng)絡(luò)學(xué)習(xí)無(wú)人機(jī)小目標(biāo)的特征,提高對(duì)無(wú)人機(jī)小目標(biāo)的檢測(cè)性能。
實(shí)驗(yàn)采用自建的蜂群無(wú)人機(jī)數(shù)據(jù)集。以往的無(wú)人機(jī)數(shù)據(jù)集都是單架次的,即每張圖像中只存在一個(gè)無(wú)人機(jī)目標(biāo)。但真實(shí)場(chǎng)景中會(huì)有多架無(wú)人機(jī)同時(shí)出現(xiàn)的情況,目前還沒(méi)有這類公開(kāi)的數(shù)據(jù)集。而在圖像中剪切粘貼很多架次無(wú)人機(jī),這種方式生成的無(wú)人機(jī)群數(shù)據(jù)集又有失樣本的真實(shí)性。因此本次研究專門采集了真實(shí)的無(wú)人機(jī)群數(shù)據(jù),并且為保證數(shù)據(jù)的多樣性,涵蓋了不同天氣條件、不同時(shí)間段、不同地點(diǎn)、不同距離以及不同視角的數(shù)據(jù)。如圖6,其中(a,b,c)分別為晴天、陰天、霧霾天,(a,b,c)分別為中午、下午和傍晚,(b/c,d,a/e/f)分別為城市、鄉(xiāng)村、凈空,(a/e/f,b/c/d)分別為遠(yuǎn)距離和近距離圖像,(e,f)分別為下面視角和側(cè)面視角,且以上每個(gè)場(chǎng)景關(guān)注的空域中都有包含1~10架次無(wú)人機(jī)的無(wú)人機(jī)編隊(duì)。所有數(shù)據(jù)均通過(guò)手持?jǐn)z像頭和固定機(jī)位的云臺(tái)攝像頭以視頻形式采集,然后抽幀獲得,最后對(duì)其中2 843張圖像進(jìn)行標(biāo)注,標(biāo)注采用VOC數(shù)據(jù)集[30]的標(biāo)注格式。
圖6 數(shù)據(jù)集中多場(chǎng)景無(wú)人機(jī)樣本
實(shí)驗(yàn)環(huán)境如下:Ubuntu20.04 LTS系統(tǒng)、Intel i9-9900KCPU×16、內(nèi)存為64 GB、兩張NVIDIA 2080Ti顯卡(12 GB 顯存) 、Pytorch1.7.1、CUDA10.2、CUDNN7.6.5,實(shí)驗(yàn)采用的預(yù)訓(xùn)練模型是由Pytorch官方提供的在Imagenet上進(jìn)行了預(yù)訓(xùn)練的模型。
為公平起見(jiàn),所有的實(shí)驗(yàn)結(jié)果都是基于以下訓(xùn)練參數(shù):迭代次數(shù)為12、動(dòng)量為0.9、批大小為4、初始學(xué)習(xí)率為0.000 5、每訓(xùn)練4個(gè)epoch權(quán)重衰減為原來(lái)的0.3倍。為了降低模型計(jì)算開(kāi)銷,所有圖像在送入模型前尺寸都被統(tǒng)一調(diào)整為1 333×800。
對(duì)于RetinaNet,主干網(wǎng)絡(luò)全部采用ResNet50作為特征提取網(wǎng)絡(luò),其余配置與RetinaNet原文配置相同。
3.3.1 評(píng)估指標(biāo)
為了評(píng)價(jià)該方法的有效性,該文采用VOC[30]數(shù)據(jù)集的評(píng)價(jià)指標(biāo),使用mAP (mean Average Precision)來(lái)評(píng)價(jià)檢測(cè)器的性能。mAP是由精確率和召回率得到的。其計(jì)算公式如公式(4)和公式(5):
(4)
(5)
其中,p(Precision)表示精確率、r(Recall)表示召回率,AP (Average Precision)表示平均精度,是計(jì)算在不同召回率下精度的平均值,N表示類別數(shù)目,由于該文無(wú)人機(jī)檢測(cè)任務(wù)目標(biāo)類別數(shù)為1,因此這里的N值設(shè)為1。
3.3.2 實(shí) 驗(yàn)
為驗(yàn)證該方法的有效性,表1展示了模塊消融實(shí)驗(yàn)。分別使用深層語(yǔ)義增強(qiáng)模塊HSE和像素洗牌融合網(wǎng)絡(luò)PSFF。可以看出在只引入深層語(yǔ)義增強(qiáng)模塊HSE時(shí)模型性能提升0.7%,只引入像素洗牌融合網(wǎng)絡(luò)PSFF時(shí),模型性能提升0.9%,在兩者都加入網(wǎng)絡(luò)時(shí),模型精度提升到91.2%,提升了1.7%。
表1 模塊消融實(shí)驗(yàn)
如表2所示,其中Neck表示該方法的多尺度特征融合部分,Backbone表示主干網(wǎng)絡(luò)部分。第1行為基準(zhǔn)實(shí)驗(yàn),第2、3行分別為使用HRFPN和PAFPN特征融合方法的實(shí)驗(yàn)結(jié)果,最后一行中的Ours代表該文提出的多尺度特征融合方法??梢钥闯?,同其他特征融合方法相比,使用該文提出的新的特征融合方式具有更好的結(jié)果,對(duì)無(wú)人機(jī)小目標(biāo)檢測(cè)的精度更高。
表2 對(duì)比實(shí)驗(yàn)
另外,該文也與使用其他方法進(jìn)行無(wú)人機(jī)檢測(cè)的方法進(jìn)行對(duì)比。這里由于缺乏公開(kāi)的代碼,使用當(dāng)前最優(yōu)秀的通用目標(biāo)檢測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn)。表2下半部分展示的對(duì)比實(shí)驗(yàn)包括:二階段的方法Cascade R-CNN、Sparse R-CNN,一階段的方法FCOS、不同版本的YOLO,同樣專門進(jìn)行無(wú)人機(jī)檢測(cè)的TIB-Net、TIB-Net的改進(jìn)方法(表2中的TIB-Net++)。從結(jié)果上看,文中方法都優(yōu)于它們。為了展示模型的性能,圖7將部分場(chǎng)景的檢測(cè)結(jié)果進(jìn)行展示,其中右上角為圖中無(wú)人機(jī)目標(biāo)的放大圖??梢钥闯?,RetinaNet在引入該文提出的新特征融合方式之后,能夠在不同場(chǎng)景、不同天氣、不同光照條件下得到較好的檢測(cè)結(jié)果,網(wǎng)絡(luò)具有魯棒性,并且檢測(cè)結(jié)果十分精準(zhǔn)。
新的特征融合方法在特征融合的過(guò)程中緩解了上采樣造成的失真、深層語(yǔ)義信息衰減以及深層語(yǔ)義差異問(wèn)題。所以,網(wǎng)絡(luò)可以提取到更加豐富的語(yǔ)義信息,并且深層的語(yǔ)義信息可以更好地豐富淺層小目標(biāo)的特征表示。因此,該網(wǎng)絡(luò)模型可以根據(jù)無(wú)人機(jī)所處的背景調(diào)整其置信度,有效地過(guò)濾掉一些不合理的誤檢情況,進(jìn)而提升無(wú)人機(jī)小目標(biāo)在各種場(chǎng)景的檢測(cè)性能。
對(duì)于檢測(cè)失敗的情況,例如,圖7誤檢中誤將電線桿的一部分誤檢為無(wú)人機(jī),從展示的放大細(xì)節(jié)來(lái)看,電線桿支架部分的外觀同無(wú)人機(jī)確實(shí)十分接近,所以網(wǎng)絡(luò)將其誤檢為無(wú)人機(jī)目標(biāo)。圖7漏檢中,漏檢了一架無(wú)人機(jī),原因可能是該無(wú)人機(jī)由于距離較遠(yuǎn),且與背景墻的顏色和線條較為接近,導(dǎo)致漏檢。對(duì)于這類背景十分復(fù)雜的情況,網(wǎng)絡(luò)的檢測(cè)效果仍有待提高。
圖7 檢測(cè)結(jié)果
基于RetinaNet,根據(jù)無(wú)人機(jī)小目標(biāo)的特點(diǎn)進(jìn)行了有針對(duì)性地改進(jìn)。首先,通過(guò)引入深層語(yǔ)義增強(qiáng)模塊HSE,解決深層語(yǔ)義差異問(wèn)題,同時(shí)又能提高網(wǎng)絡(luò)整體的特征提取能力;接著,基于像素洗牌上采樣模塊PSU設(shè)計(jì)了像素洗牌特征融合網(wǎng)絡(luò)PSFF,改進(jìn)了上采樣方式造成特征失真的問(wèn)題,使網(wǎng)絡(luò)能夠?qū)⑸顚拥恼Z(yǔ)義信息更有效地向淺層傳遞,以此增強(qiáng)淺層小目標(biāo)的特征表示;最后,在自建蜂群無(wú)人機(jī)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了提出的方法可以提升無(wú)人機(jī)小目標(biāo)的檢測(cè)效果。
對(duì)于接下來(lái)的工作,準(zhǔn)備從目標(biāo)之間的關(guān)系入手,嘗試建立無(wú)人機(jī)與背景之間、無(wú)人機(jī)群之間的關(guān)聯(lián)性,以此解決復(fù)雜場(chǎng)景中漏檢和誤檢的問(wèn)題。