李 靜,喻佳成,張靈靈
(1.西安工業(yè)大學(xué) 電子信息工程學(xué)院,陜西 西安 710021;2.西安工業(yè)大學(xué) 兵器科學(xué)與技術(shù)學(xué)院,陜西 西安 710021)
近年來(lái),隨著無(wú)人機(jī)技術(shù)與目標(biāo)檢測(cè)技術(shù)的快速發(fā)展,通過(guò)結(jié)合兩者來(lái)獲取空間數(shù)據(jù)已經(jīng)成為當(dāng)下的主流趨勢(shì)。尤其是在軍用領(lǐng)域,因無(wú)人機(jī)具有機(jī)動(dòng)性強(qiáng)、隱蔽性好、成本低的優(yōu)點(diǎn),使用無(wú)人機(jī)來(lái)獲取軍事場(chǎng)所的目標(biāo)信息已經(jīng)成為重點(diǎn)研究對(duì)象[1-3]。隨著計(jì)算機(jī)算力的提高和卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力被發(fā)掘,很多研究人員將其應(yīng)用于目標(biāo)檢測(cè)[4-6]、目標(biāo)跟蹤[7-8]等領(lǐng)域,以深度學(xué)習(xí)為基礎(chǔ)的目標(biāo)檢測(cè)技術(shù)已逐步應(yīng)用在航拍圖像的目標(biāo)檢測(cè)任務(wù)當(dāng)中[9-11]。
目前,通過(guò)深度學(xué)習(xí)來(lái)提取特征并完成檢測(cè)任務(wù)的方法主要有兩類:兩階段和單階段目標(biāo)檢測(cè)算法。兩階段目標(biāo)檢測(cè)算法采用先確定待檢區(qū)然后確定目標(biāo)位置信息與類別的思想,典型代表有R-CNN[12]、Faster R-CNN[13]等。以YOLO[14-16]、SSD[17]算法為代表的單階段目標(biāo)檢測(cè)算法則不去單獨(dú)地確定待檢區(qū),而是直接確定待檢目標(biāo)的位置信息與類別信息。YOLO 算法將待檢測(cè)圖像劃分為多個(gè)網(wǎng)格,使用每個(gè)網(wǎng)格來(lái)檢測(cè)一個(gè)目標(biāo),這樣雖然能夠快速地完成檢測(cè),但是對(duì)于航拍圖像中的小目標(biāo)檢測(cè)效果不佳。SSD 算法將金字塔特征層級(jí)的思想應(yīng)用在目標(biāo)檢測(cè)問(wèn)題中,使用不同尺寸的特征圖檢測(cè)不同大小的目標(biāo),對(duì)于小目標(biāo)的檢測(cè)效果有所提高,因此許多學(xué)者以SSD 算法為基礎(chǔ)對(duì)其改進(jìn)來(lái)完成航拍圖像中的目標(biāo)檢測(cè)任務(wù)。Jisoo Jeng[18]等人提出的R-SSD 算法使用特征金字塔(Feature Pyramid Networks,F(xiàn)PN)[19]的方法將深層網(wǎng)絡(luò)提取的特征圖與淺層網(wǎng)絡(luò)提取的特征圖進(jìn)行融合構(gòu)成了語(yǔ)義、細(xì)節(jié)信息豐富的特征圖用于檢測(cè),提高了小目標(biāo)的檢測(cè)精度,但是大量的融合操作導(dǎo)致模型參數(shù)變大,檢測(cè)速率下降。Fu 等人[20]提出的DSSD 算法通過(guò)反卷積以及跳躍連接的方式來(lái)融合深層網(wǎng)絡(luò)與淺層網(wǎng)絡(luò),豐富了淺層網(wǎng)絡(luò)的語(yǔ)義信息,對(duì)航拍圖像中的目標(biāo)檢測(cè)效果較好,但是模型參數(shù)過(guò)大,檢測(cè)速度較慢。Chen 等人[21]提出的改進(jìn)多尺度特征融合SSD 算法跳躍式地將兩層深層網(wǎng)絡(luò)特征圖與淺層網(wǎng)絡(luò)特征圖融合,很好地解決了航拍圖像中小目標(biāo)檢測(cè)效果不好的問(wèn)題,但是融合機(jī)制過(guò)于復(fù)雜,導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)大,檢測(cè)速度大幅下降。
針對(duì)現(xiàn)有算法對(duì)航拍圖像中的小目標(biāo)檢測(cè)效果不佳、實(shí)時(shí)性不足等問(wèn)題,基于SSD 算法進(jìn)行改進(jìn),引入一種特征融合機(jī)制通過(guò)逐層地將深層特征圖與淺層特征圖進(jìn)行融合,構(gòu)成具有豐富語(yǔ)義、細(xì)節(jié)信息的特征圖用于檢測(cè),并在網(wǎng)絡(luò)特征圖輸出處引入混合注意力機(jī)制,在不會(huì)過(guò)多增加計(jì)算量的基礎(chǔ)上使網(wǎng)絡(luò)優(yōu)先將注意力放在有用信息上并抑制復(fù)雜背景等無(wú)用信息,最后優(yōu)化默認(rèn)框參數(shù),進(jìn)一步提升小目標(biāo)檢測(cè)精度。
SSD 模型是典型的單階段檢測(cè)算法,將預(yù)測(cè)問(wèn)題轉(zhuǎn)換成列回歸問(wèn)題,在保證檢測(cè)精度的同時(shí)提高了檢測(cè)速度。采用金字塔特征層級(jí)的思想,即在不同尺度的特征層上預(yù)測(cè)不同大小的物體,使用具有較高分辨率的淺層特征圖來(lái)預(yù)測(cè)小物體,分辨率較低的深層特征圖來(lái)預(yù)測(cè)較大的物體,相對(duì)提高了對(duì)小目標(biāo)的檢測(cè)精度。SSD 模型由骨干網(wǎng)絡(luò)和額外卷積層兩部分組成,具體模型框架如圖1 所示。
圖1 SSD 模型結(jié)構(gòu)Fig.1 Structure of SSD model
SSD 模型以VGG16 作為主干網(wǎng)絡(luò),貫穿至VGG16 的Conv5_3 層并將max_pooling5 的步距由2 調(diào)整至1。額外卷積層由Conv6~Conv11 組成,并逐層將特征圖的尺寸縮小構(gòu)成金字塔層級(jí),提取Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv10_2 作為預(yù)測(cè)特征圖來(lái)檢測(cè)不同大小的目標(biāo)。SSD 模型在提取到的預(yù)測(cè)特征圖上會(huì)生成數(shù)量不同的預(yù)測(cè)框,對(duì)于每個(gè)預(yù)測(cè)特征圖都會(huì)有n×n個(gè)中心點(diǎn)并且每個(gè)中心點(diǎn)都會(huì)生成m個(gè)預(yù)測(cè)框。Conv4_3~Conv11_2 層n和m的取值分別為38,19,10,5,3,1 和4,6,6,6,4,4。最后,通過(guò)非極大值抑制算法和設(shè)置的置信度閾值消去位置、類別不符合的預(yù)測(cè)框,輸出檢測(cè)結(jié)果。
SSD 模型使用金字塔特征層級(jí)的思想,用不同尺度的特征層來(lái)檢測(cè)不同大小的目標(biāo)。其中淺層特征圖負(fù)責(zé)檢測(cè)小目標(biāo),而在航拍圖像中小目標(biāo)檢測(cè)效果不好的原因主要有兩點(diǎn),分別是淺層特征圖沒(méi)有具備足夠的紋理、位置等細(xì)節(jié)信息和語(yǔ)義信息匱乏。針對(duì)這兩點(diǎn)原因,本文設(shè)計(jì)了一種特征融合機(jī)制,首先就淺層特征圖的細(xì)節(jié)信息不夠豐富和缺乏語(yǔ)義信息的問(wèn)題,引入細(xì)節(jié)信息補(bǔ)充特征層(Details complement feature layer,DCFL)和自深向淺逐層融合的語(yǔ)義信息補(bǔ)充特征層(Semantic complements feature layer,SCFL)來(lái)增加Conv4_3 層的細(xì)節(jié)和紋理信息。然后引入混合注意力機(jī)制(Botteleneck-Attention-Module,BAM)來(lái)增強(qiáng)特征層對(duì)關(guān)鍵信息的提取能力。最后針對(duì)遙感圖像數(shù)據(jù)集尺度偏小,對(duì)默認(rèn)框的尺度和數(shù)量進(jìn)行優(yōu)化。網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,F(xiàn)FM(Feature Fusion Module)為特征融合機(jī)制中的特征融合模塊。
圖2 改進(jìn)SSD 模型結(jié)構(gòu)Fig.2 Structure of improved SSD model
在SSD 框架中,對(duì)小目標(biāo)的檢測(cè)主要由淺層網(wǎng)絡(luò)中Conv4_3 層輸出的特征圖完成。但因?yàn)榧?xì)節(jié)信息不夠豐富以及語(yǔ)義信息匱乏兩點(diǎn)原因,導(dǎo)致對(duì)航拍圖像中的小目標(biāo)檢測(cè)效果不佳。因此引入細(xì)節(jié)信息補(bǔ)充層和語(yǔ)義信息補(bǔ)充層與Conv4_3 層經(jīng)過(guò)特征融合模塊(FFM)輸出新的Conv4_3_1 層的特征圖,用來(lái)對(duì)小目標(biāo)進(jìn)行檢測(cè)。
對(duì)于細(xì)節(jié)信息補(bǔ)充特征層(DCFL),應(yīng)當(dāng)選取尺寸大、感受野小、細(xì)節(jié)信息豐富的Conv3_3層。而語(yǔ)義信息補(bǔ)充層(SCFL)是由深層特征圖通過(guò)遞歸反向路徑逐層融合而來(lái)。在以往的特征融合過(guò)程中,直接將深層的特征圖與淺層特征圖進(jìn)行融合來(lái)增加淺層特征圖中的語(yǔ)義信息,這樣忽略了層與層之間的連接關(guān)系,導(dǎo)致丟失過(guò)多的關(guān)鍵信息。具體的融合過(guò)程如式(1)~(3)所示:
式中:cfi(i=1,2,3)為融合后的特征層,ci(i=3,4,5,7,8,9)為融合層,?f為特征融合模塊。首先選取Conv8_2 和Conv9_2 層作為遞歸反向路徑的起始層。不選取Conv10_2 和Conv11_2 的原因是這兩個(gè)特征層尺寸過(guò)小,所包含信息太少,融合之后對(duì)目標(biāo)定位與分類精度并沒(méi)有提升,反而使模型的訓(xùn)練與檢測(cè)速度變慢。將Conv8_2 和Conv9_2經(jīng)過(guò)特征融合模塊后的輸出結(jié)果Conv8_2_1 再與兩個(gè)相鄰的特征層Conv7 和Conv5_3 送入特征融合模塊得到最終的語(yǔ)義信息補(bǔ)充特征層。特征融合模塊將本文特征融合機(jī)制中選取的特征層進(jìn)行融合,首先對(duì)Conv3_3、Conv4_2 和Conv7_1這3 個(gè)特征層進(jìn)行融合,如圖3 所示,其具體步驟如下:
圖3 特征融合過(guò)程示意圖Fig.3 Schematic diagram of the FFM process
使用1×1卷積核對(duì)Conv3_1和Conv7_1兩個(gè)特征層進(jìn)行通道降維處理,變?yōu)樵瓉?lái)通道數(shù)的1/4,Conv4_3 變?yōu)樵瓉?lái)通道數(shù)的1/2。然后使用雙線性插值對(duì)Conv7_1 進(jìn)行上采樣處理,使其尺度擴(kuò)大一倍,與Conv4_3 的尺度保持一致。使用3×3 卷積核對(duì)Conv3_3 進(jìn)行下采樣處理,使其尺度縮小一倍,與Conv4_3 保持一致。然后將進(jìn)行過(guò)上、下采樣處理后的Conv7_1 和Conv3_1 以及Conv4_3經(jīng)過(guò)批歸一化(BN)層和ReLU 激活函數(shù),最后采用concat融合方式讓網(wǎng)絡(luò)去學(xué)習(xí)融合特征,避免造成信息的損失。融合輸出為Conv4_3_1。對(duì)于Conv7_1 的融合過(guò)程與Conv4_3_1 的融合過(guò)程類似。對(duì)于Conv8_2 和Conv9_2 兩個(gè)特征層進(jìn)行融合,沒(méi)有了需要下采樣的特征層,將Conv8_2和Conv9_2 使用1×1 卷積核,將Conv8_2 通道數(shù)降維處理變?yōu)樵瓉?lái)的1/2,Conv9_2 通道數(shù)不變,然后將Conv9_2 進(jìn)行雙線性插值使其尺度變?yōu)樵叨鹊? 倍,與Conv8_2 一致。經(jīng)過(guò)批歸一化(BN)層和ReLU 激活函數(shù),最后采用Concat 融合得到融合特征層Conv8_2_1。
為了驗(yàn)證經(jīng)過(guò)特征融合后的Conv4_3_1 層具有更豐富的細(xì)節(jié)信息與語(yǔ)義信息,將其特征圖輸出并與原網(wǎng)絡(luò)的Conv4_3 層的特征圖進(jìn)行對(duì)比,如圖4 所示。通過(guò)原網(wǎng)絡(luò)的Conv4_3 層輸出與融合后的Conv4_3_1 輸出對(duì)比可以看出,在飛機(jī)目標(biāo)處原網(wǎng)絡(luò)僅提取到很少的特征,而融合后飛機(jī)目標(biāo)部分的輪廓、細(xì)節(jié)信息顯示更為明顯,顯然具備更多特征。理論上,融合后的特征層可以預(yù)測(cè)到更多的目標(biāo),精度也會(huì)有所提升。
圖4 融合前后的特征圖對(duì)比Fig.4 Feature map comparison before and after fusion
在特征融合機(jī)制中,為了獲得更多的細(xì)節(jié)、語(yǔ)義信息,將多個(gè)特征層的特征通道進(jìn)行了疊加,但是并沒(méi)有反映不同通道之間的重要性和相關(guān)性以及沒(méi)有考慮特征圖的空間層面上的重要性,因此引入了一種混合空間與通道的注意力機(jī)制(Botteleneck-Attention-Module,BAM)[22]。BAM 在通道注意力機(jī)制SE-Net(Squeeze-and-Excitation Networks,SE-Net)[23]的基礎(chǔ)上添加了空間壓縮生成的空間注意力向量與SE-Net 生成的通道注意力向量進(jìn)行疊加,得到既有空間注意力又有通道注意力的向量,其具體網(wǎng)絡(luò)模型的結(jié)構(gòu)圖如圖5 所示。
圖5 BAM 示意圖Fig.5 Schematic diagram of the bottleneck attention module
對(duì)于構(gòu)建空間注意力向量,首先將輸入的特征圖使用1×1 卷積核進(jìn)行通道壓縮,其次使用兩個(gè)3×3 卷積核來(lái)增大感受野,然后再次使用一個(gè)1×1 卷積核將通道數(shù)變?yōu)?,最后經(jīng)過(guò)歸一化操作調(diào)整空間分支的輸出尺度構(gòu)成空間注意力向量。對(duì)于構(gòu)建通道注意力向量,首先將輸入的特征圖使用全局平均池化將輸入圖像的寬、高壓縮為1×1,然后利用多層感知機(jī)制學(xué)習(xí)每個(gè)通道的估計(jì),最后經(jīng)過(guò)歸一化操作得到通道注意力向量。將得到的空間注意力向量與通道注意力向量疊加并且經(jīng)過(guò)Sigmoid 函數(shù)得到最終的混合注意力向量,整體過(guò)程如式(4)~(6)所示:
式中F為輸入的特征圖為不同大小的卷積核,Ms(F)為歸一化操作,Ms(F)為空間注意力向量,Avgpool 為全局平均池化,MLP 為多層感知機(jī)制,Mc(F)為通道注意力向量,M(F)為混合注意力向量,σ為Sigmoid 函數(shù),BN 為批歸一化層。
使用Grad-CAM[24]技術(shù)來(lái)直觀地展示模型中引入混合注意力模塊的有效性。熱力圖顏色區(qū)域越深說(shuō)明該區(qū)域?qū)︻悇e識(shí)別的影響越大。如圖6 所示,在添加通道注意力機(jī)制后,模型開(kāi)始關(guān)注右側(cè)的目標(biāo)。在加入混合注意力機(jī)制后,模型對(duì)右側(cè)目標(biāo)的關(guān)注度是優(yōu)于通道注意力機(jī)制的。
圖6 熱力圖可視化Fig.6 Visualization of heat maps
SSD 模型用不同尺度的特征圖來(lái)檢測(cè)不同大小的目標(biāo),因此不同的特征層會(huì)產(chǎn)生不同大小的先驗(yàn)框并且先驗(yàn)框的大小符合線性遞增的原則:隨著特征層尺度的減小,先驗(yàn)框的尺寸增大,具體如式(7)~(9)所示:
式中Sn為6 個(gè)特征層的先驗(yàn)框?qū)τ谠瓐D的比例;Smin和Smax為比例的最大值與最小值,在原SSD框架中取0.2 和0.9;default 為先驗(yàn)框的尺寸。
通過(guò)統(tǒng)計(jì)數(shù)據(jù)集中標(biāo)注框與原圖的比例,如圖7 所示,可以看出飛機(jī)目標(biāo)的最小尺寸約為22×22,在原SSD 模型中當(dāng)Smin設(shè)置為0.2 時(shí),最淺層特征層先驗(yàn)框的尺寸為30×30,不能覆蓋數(shù)據(jù)集中最小尺寸的飛機(jī)目標(biāo)。因此根據(jù)數(shù)據(jù)集中最小目標(biāo)的尺寸對(duì)先驗(yàn)框進(jìn)行調(diào)整,將Smin的值調(diào)整為0.14,根據(jù)式(8)可以計(jì)算出此時(shí)最小的先驗(yàn)框尺寸為21×21,基本上可以覆蓋輸入圖像中的各種形狀和大小的目標(biāo)。尺寸調(diào)整前后的先驗(yàn)框尺寸如表1 所示。
圖7 待檢測(cè)目標(biāo)真實(shí)框與原圖比值Fig.7 Size ratio of the real frame in the original image
表1 每層特征圖上的先驗(yàn)框尺寸Tab.1 Priori boxes and numbers on layer of feature maps
本實(shí)驗(yàn)在自制的航拍飛機(jī)數(shù)據(jù)集上進(jìn)行。其中航拍的飛機(jī)圖片共3 581 張,按照7∶1∶2 的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集包含2 506 張圖片,驗(yàn)證集包含358 張圖片,測(cè)試集包含717 張圖片。航拍數(shù)據(jù)集按照Pascal VOC2012 的格式建立,場(chǎng)景中大多數(shù)目標(biāo)均為小目標(biāo)。實(shí)驗(yàn)在Windows 操作系統(tǒng)下進(jìn)行,其中CPU 為AMD Ryzen5 5600x6-Core Processor,內(nèi)存為16G,GPU為NVIDIA GeForce RTX 2080Ti,采 用Pytorch作為深度學(xué)習(xí)框架。初始學(xué)習(xí)率為0.000 1,動(dòng)量因子參數(shù)為0.9,批處理大小為16,優(yōu)化算法采用隨機(jī)梯度下降,衰減系數(shù)為0.1,最大迭代次數(shù)為120 000 次。
為了提高測(cè)量的精度,可在同一放大倍率下對(duì)不同的圓直徑進(jìn)行測(cè)量并分別計(jì)算出每一個(gè)像素所代表的長(zhǎng)度,然后求平均值作為在該放大倍率下的比例尺。
本文采用平均精度(Average Precision,AP)和每秒檢測(cè)圖像的幀數(shù)(Frame Per Second,F(xiàn)PS)作為評(píng)價(jià)指標(biāo)。其中AP 是在0~1 范圍之間由準(zhǔn)確率(Precision)和召回率(Recall)繪制的曲線與坐標(biāo)軸之間的面積。準(zhǔn)確率、召回率和精度(AP)的定義如式(10)~(12)所示:
其中:TP 為正樣本中的比例,F(xiàn)P 為負(fù)樣本正例,F(xiàn)N 為負(fù)樣本中的負(fù)例。
為了對(duì)改進(jìn)SSD 模型的性能進(jìn)行評(píng)估,在自制的航拍圖像數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果如表2 所示。
由表2可知,本文所提的改進(jìn)SSD 模型與兩階段的目標(biāo)檢測(cè)模型Faster R-CNN 相比,精度提高了3.35%,檢測(cè)速度提高了24.1,說(shuō)明本文的模型在檢測(cè)準(zhǔn)確率和速度上均優(yōu)于兩階段的檢測(cè)算法。與經(jīng)典的改進(jìn)SSD 模型DSSD 相比精度分別提高了4.26%,檢測(cè)速度較DSSD 提高了19.4。與YOLOv3 相比,精度提高了4.03%,檢測(cè)速度降低了3.1。與YOLOv4 相比精度提高了1.4%,檢測(cè)速度降低了6.6。與主打檢測(cè)速度的輕量級(jí)網(wǎng)絡(luò)YOLOv4-tiny 相比精度提高了6.4%,檢測(cè)速度降低了30.4。實(shí)驗(yàn)表明,改進(jìn)的SSD 模型能夠提升對(duì)小目標(biāo)檢測(cè)的效果,并且也能夠滿足實(shí)時(shí)檢測(cè)的要求。圖8 為不同方法在不同場(chǎng)景下航拍飛機(jī)圖像上的檢測(cè)結(jié)果,其中從上到下依次為小目標(biāo)密集區(qū)域、復(fù)雜背景區(qū)、多尺度目標(biāo)區(qū)。
表2 各算法在航拍飛機(jī)數(shù)據(jù)集上的檢測(cè)精度Tab.2 Detection accuracy of each algorithm in aerial aircraft data set
由圖8 可以看出,在小目標(biāo)密集區(qū)域,對(duì)于圖最左側(cè)的幾個(gè)極小的飛機(jī)目標(biāo),改進(jìn)的SSD 模型可以全部檢測(cè)到,YOLOv4 模型漏檢了一個(gè),其他的模型都有較多的目標(biāo)沒(méi)有檢測(cè)到。在復(fù)雜背景區(qū)域,最右側(cè)的目標(biāo)較小且機(jī)身顏色與地面顏色十分相似,改進(jìn)的SSD 模型可以全部檢測(cè)出,并且在圖的左側(cè)沒(méi)有出現(xiàn)誤檢的情況;YO‐LOv4 模型對(duì)于右側(cè)的小目標(biāo)漏檢了一個(gè)并且左側(cè)出現(xiàn)了一個(gè)誤檢的情況;YOLOv4-tiny 模型對(duì)于右側(cè)與背景顏色相近的目標(biāo)均沒(méi)有檢測(cè)出并且在左側(cè)存在多個(gè)誤檢的情況;YOLOv3 模型相比于YOLOv4-tiny 模型能夠檢測(cè)到更多的目標(biāo),但是也有多個(gè)目標(biāo)未能檢測(cè)到且存在誤檢的情況;其他模型也存在漏檢、誤檢的情況。在多尺度目標(biāo)區(qū)域可以看出,所有模型對(duì)于較大尺度的模型都檢測(cè)到,但對(duì)于圖中最上方和右側(cè)以及左側(cè)靠下位置的小目標(biāo),只有改進(jìn)的SSD 模型可以全部檢測(cè)出,YOLOv4 模型沒(méi)有檢測(cè)到左側(cè)的小目標(biāo),YOLOv4-tiny 有較多小目標(biāo),沒(méi)有檢測(cè)到,YOLOv3 模型除沒(méi)有檢測(cè)到的小目標(biāo)還出現(xiàn)了一個(gè)誤檢的目標(biāo)。通過(guò)在不同場(chǎng)景下與不同方法的對(duì)比可以得出,改進(jìn)的SSD 模型相比于其他模型能夠更好地檢測(cè)出小目標(biāo),并且對(duì)于一些復(fù)雜場(chǎng)景下的目標(biāo)也可以做到正確識(shí)別。
圖8 不同方法在不同場(chǎng)景下的檢測(cè)結(jié)果Fig.8 Detection results of different algorithms in different scenarios
圖9 為在存在外界干擾的特殊環(huán)境時(shí)的改進(jìn)SSD 模型的檢測(cè)結(jié)果,其中圖9(a)為飛機(jī)與周圍環(huán)境顏色相近,圖9(b)為航拍時(shí)受到云的遮擋,圖9(c)為飛機(jī)隱蔽在樹(shù)林中。可以看出改進(jìn)的SSD 模型在3 種特殊的環(huán)境中均可以識(shí)別到目標(biāo),驗(yàn)證了改進(jìn)的SSD 模型在受到一定環(huán)境因素干擾時(shí)仍然有著較好的檢測(cè)結(jié)果。
圖9 特殊環(huán)境下的檢測(cè)結(jié)果Fig.9 Detection results in special environments
為了驗(yàn)證改進(jìn)的SSD 模型中各個(gè)模塊的有效性,在航拍的飛機(jī)數(shù)據(jù)集上使用具有不同模塊的模型進(jìn)行消融實(shí)驗(yàn),迭代次數(shù)設(shè)置為120 000 次。包含的模塊有是否使用特征融合機(jī)制、是否使用混合注意力機(jī)制、是否對(duì)先驗(yàn)框進(jìn)行優(yōu)化幾項(xiàng)區(qū)別。所有實(shí)驗(yàn)結(jié)果記錄在表3 中,其中使用模塊時(shí)在表格中用對(duì)勾號(hào)表示,不使用時(shí)則表格的這一欄為空。
由表3可知,在SSD 原模型的基礎(chǔ)上添加了特征融合機(jī)制后,召回率和精度分別提高了13.1%和3.5%,代表檢測(cè)到的小目標(biāo)增多,整體的檢測(cè)性能得到了提升,證明了將深層語(yǔ)義信息和淺層細(xì)節(jié)信息融合的有效性。準(zhǔn)確率和幀率分別下降了0.4%和6.9 FPS,是因?yàn)闄z測(cè)到的小目標(biāo)增多,但是存在很小一部分的誤檢情況以及網(wǎng)絡(luò)增大,導(dǎo)致檢測(cè)速度下降。在添加混合注意力模塊(BAM)后,召回率和精度分別提升了8.5%和2.6%,證明了使用混合注意力機(jī)制可以使網(wǎng)絡(luò)關(guān)注有目標(biāo)的區(qū)域來(lái)提升檢測(cè)效果。在優(yōu)化先驗(yàn)框參數(shù)后,召回率和精度分別提升了4.6%和1.6%,證明在對(duì)先驗(yàn)框參數(shù)進(jìn)行優(yōu)化后可以改變感受野的大小,使其與目標(biāo)大小更匹配,提高對(duì)小目標(biāo)的檢測(cè)效果。在表3 最后一行可以看出,在將3 個(gè)模塊均添加到SSD 原模型上后,召回率提高了39.8%,精度提高了7.5%,證明了該算法的有效性,對(duì)小目標(biāo)的檢測(cè)有著較大的提升。
表3 各獨(dú)立模塊對(duì)航拍目標(biāo)的檢測(cè)效果影響Tab.3 Influence of each independent module on aerial target detection
為解決在航拍圖像中對(duì)于小目標(biāo)檢測(cè)效果不佳的問(wèn)題,通過(guò)引入特征融合機(jī)制、添加注意力機(jī)制和優(yōu)化先驗(yàn)框等措施,在SSD 算法的基礎(chǔ)上提出了一種改進(jìn)的航拍圖像SSD 檢測(cè)算法。實(shí)驗(yàn)結(jié)果表明,改進(jìn)SSD 模型的檢測(cè)結(jié)果優(yōu)于原SSD 模型,精度由原來(lái)的88.2%提升到95.7%且對(duì)不同場(chǎng)景下的航拍飛機(jī)小目標(biāo)均有比較好的檢測(cè)結(jié)果,充分證明了方法的有效性。對(duì)比其他幾種經(jīng)典的目標(biāo)檢測(cè)算法,改進(jìn)后模型在航拍目標(biāo)檢測(cè)任務(wù)中具有更高的綜合性能。