国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向遙感圖像小目標(biāo)檢測(cè)的改進(jìn)YOLOv3算法

2021-10-28 05:52:48王建軍梅少輝
關(guān)鍵詞:濾波器尺度卷積

王建軍,魏 江,梅少輝,王 健,2

1.西北工業(yè)大學(xué) 電子信息學(xué)院,西安 710129

2.西北工業(yè)大學(xué) 第365研究所,西安 710129

目標(biāo)檢測(cè)是一種為檢測(cè)特定對(duì)象(汽車(chē)、建筑物和人類(lèi)等)而提出的計(jì)算機(jī)視覺(jué)技術(shù),廣泛應(yīng)用于機(jī)器人導(dǎo)航、智能監(jiān)控、工業(yè)檢測(cè)、航空航天等諸多領(lǐng)域。近年來(lái),隨著深度學(xué)習(xí)理論的成熟,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法得到了快速發(fā)展,目前大多數(shù)目標(biāo)檢測(cè)算法都采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)作為特征提取器,例如AlexNet[1]?;贑NN的目標(biāo)檢測(cè)算法通??梢苑譃閮纱箢?lèi):一類(lèi)是單階段目標(biāo)檢測(cè)算法,這類(lèi)算法不需要生成候選區(qū)域,直接在網(wǎng)絡(luò)中提取特征來(lái)預(yù)測(cè)目標(biāo)的類(lèi)別和位置,再經(jīng)過(guò)檢測(cè)器得到檢測(cè)結(jié)果,典型的代表算法有YOLO[2-5]、SSD[6]、Retina-Net[7]等;另一類(lèi)是雙階段目標(biāo)檢測(cè)算法,這類(lèi)算法首先產(chǎn)生候選區(qū)域,然后對(duì)候選區(qū)域進(jìn)行分類(lèi),代表算法有R-CNN[8]、Fast R-CNN[9]、Faster R-CNN[10]、Mask R-CNN[11]等。

遙感圖像通常由航空航天平臺(tái)獲取,其中感興趣的目標(biāo)相對(duì)背景而言比較小,這些小目標(biāo)的檢測(cè)是富有挑戰(zhàn)的研究方向。大部分目標(biāo)檢測(cè)算法雖然在通用目標(biāo)檢測(cè)中有較高的精度和泛化性能,但是在遙感圖像小目標(biāo)檢測(cè)中精度仍然較低。小目標(biāo)的定義方式有兩種,一種是相對(duì)尺寸的定義,若目標(biāo)尺寸是原圖像尺寸的十分之一,即可認(rèn)為是小目標(biāo);另外一種是絕對(duì)尺寸的定義,即尺寸小于32×32像素的目標(biāo)即可認(rèn)為是小目標(biāo)。Lin等人[12]提出的FPN(Feature Pyramid Networks)首先將小尺度特征圖上采樣,然后與大尺度特征圖進(jìn)行融合,最后再進(jìn)行預(yù)測(cè),使小目標(biāo)檢測(cè)的精度提升顯著;Li等人[13]提出的感知生成對(duì)抗網(wǎng)絡(luò)(Perceptual Generative Adversarial Network,Perceptual GAN)算法通過(guò)降低小目標(biāo)和大目標(biāo)之間的表示差距來(lái)提升小目標(biāo)檢測(cè)的精度;Kisantal等人[14]將包含小目標(biāo)的樣本進(jìn)行過(guò)采樣,使小目標(biāo)的檢測(cè)精度有較大提升;Liu等人[15]提出了RFB(Receptive Field Block)結(jié)構(gòu),通過(guò)引入空洞卷積[16],增大感受野,進(jìn)而提高小目標(biāo)的檢測(cè)精度。

YOLOv3[4]借鑒了FPN的思想,通過(guò)特征融合,既保證了大目標(biāo)的檢測(cè)精度,又提高了小目標(biāo)的檢測(cè)精度。本文基于YOLOv3提出了一種改進(jìn)的目標(biāo)檢測(cè)算法——YOLOv3-CS,首先根據(jù)不同尺度特征在網(wǎng)絡(luò)中的重要程度來(lái)修改backbone結(jié)構(gòu),然后引入RFB結(jié)構(gòu)增大淺層特征圖的感受野,最后對(duì)anchor boxes重新分配。在數(shù)據(jù)集RSOD上的驗(yàn)證結(jié)果表明本文提出的算法在遙感圖像小目標(biāo)檢測(cè)方面有較高的優(yōu)勢(shì)。

1 YOLOv3目標(biāo)檢測(cè)模型

圖1為YOLOv3結(jié)構(gòu)圖,YOLOv3比YOLOv2[3]在精度方面有大幅度提升的一個(gè)主要原因是采用Darknet-53作為backbone。backbone包含1個(gè)輸入層,5個(gè)下采樣層和23個(gè)殘差結(jié)構(gòu)(Residual block),全部由卷積層構(gòu)成,使用1×1和3×3兩種尺度的卷積核。YOLOv3中每一個(gè)卷積層之后都含有一個(gè)BN層,對(duì)卷積層的輸出進(jìn)行歸一化,再輸入到激活層,激活函數(shù)采用Leaky ReLU,即構(gòu)成backbone的最小組件DBL(Conv+BN+Leaky ReLU)。Darknet-53是基于ResNet[17]的思想提出的,在卷積層之間設(shè)置了快捷鏈路層(shortcut),防止由于網(wǎng)絡(luò)過(guò)深導(dǎo)致的性能“退化”,相比于ResNet-101和ResNet-152,Top-1精度與ResNet-101相當(dāng),Top-5精度與ResNet-152相當(dāng),但速度比ResNet-152提高了2倍以上。

圖1 YOLOv3結(jié)構(gòu)圖Fig.1 Structure of YOLOv3

YOLOv3對(duì)輸入圖片進(jìn)行“端到端”預(yù)測(cè)。一幅輸入圖像(縮放到416×416)經(jīng)過(guò)YOLOv3的backbone后輸出三個(gè)不同尺度的特征(13×13、26×26和52×52),分別針對(duì)大、中、小三類(lèi)目標(biāo)進(jìn)行預(yù)測(cè),每個(gè)尺度對(duì)應(yīng)一個(gè)三維張量,如圖2所示。以13×13特征圖為例,輸入圖像被劃分為13×13的Grid Cell,則輸出張量的維度為13×13×(k×(4+1+class)),每個(gè)Grid Cell對(duì)應(yīng)一個(gè)三維張量中的一個(gè)子張量1×1×(k×(4+1+class)),其中k(默認(rèn)為3)表示Bounding boxes數(shù)量,由anchor boxes對(duì)應(yīng)得來(lái),4表示每個(gè)Bounding box對(duì)應(yīng)四個(gè)坐標(biāo)預(yù)測(cè),1表示每個(gè)Bounding box有一個(gè)置信度預(yù)測(cè),class表示類(lèi)別預(yù)測(cè)。如果一幅圖像的目標(biāo)對(duì)應(yīng)Bounding Box的中心恰好落在了某個(gè)Grid Cell(圖2紅色Grid Cell)中,那么這個(gè)Grid Cell就負(fù)責(zé)預(yù)測(cè)該目標(biāo)的Bounding Box,并將它的置信度設(shè)為1,其余Grid Cell的置信度則為0。

圖2 YOLOv3檢測(cè)流程Fig.2 Detection flow chart of YOLOv3

YOLOv3設(shè)定每個(gè)Grid Cell會(huì)預(yù)測(cè)3個(gè)Bounding Boxes。Grid Cell會(huì)選擇與Bounding Box的IoU最高的anchor box進(jìn)行微調(diào)作為網(wǎng)絡(luò)的輸出預(yù)測(cè)框。每個(gè)Bounding Box有5個(gè)預(yù)測(cè)參數(shù)(t x、t y、t w、t h、confidence)和class個(gè)類(lèi)別概率。YOLOv3輸出的Bounding Box坐標(biāo)實(shí)際為偏移量,需要對(duì)其進(jìn)行修正,圖3為坐標(biāo)偏移示意圖。圖中t x、t y表示預(yù)測(cè)框的左上角坐標(biāo),t w、t h表示預(yù)測(cè)框的寬度和高度,如果預(yù)測(cè)框中心點(diǎn)所處Grid Cell的左上角坐標(biāo)為c x、c y,且anchor box的寬和高分別為pw和p h,則修正后的邊框?yàn)椋?/p>

圖3 坐標(biāo)偏移示意圖Fig.3 Diagram of coordinate offset

b x和b y表示預(yù)測(cè)框的中心坐標(biāo),b w和b h表示預(yù)測(cè)框的寬和高,δ代表sigmoid函數(shù),目的是將預(yù)測(cè)偏移量縮放到0和1之間。

2 改進(jìn)的YOLOv3模型

YOLOv3雖然通過(guò)特征融合輸出三個(gè)尺度的特征圖,兼顧了小目標(biāo)預(yù)測(cè),但是對(duì)于以小目標(biāo)檢測(cè)為主的遙感目標(biāo)檢測(cè)任務(wù),YOLOv3的檢測(cè)精度仍然有待提升。本文首先根據(jù)對(duì)backbone中不同尺度特征重要性的分析,對(duì)backbone進(jìn)行重構(gòu),其次引入RFB結(jié)構(gòu)來(lái)增大淺層特征的感受野,最后優(yōu)化了anchor boxes并改進(jìn)其分配原則。

2.1 特征重要性分析

對(duì)于特定的數(shù)據(jù)集,backbone中五種尺度特征的重要性通常不同,本文在分析每種尺度特征重要性的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行重構(gòu)。

文獻(xiàn)[18]證明了網(wǎng)絡(luò)中某層的所有濾波器中,位于或靠近幾何中位數(shù)(Geometric Median,GM)的濾波器對(duì)網(wǎng)絡(luò)的貢獻(xiàn)較小,可以用其他濾波器來(lái)代替。假設(shè)網(wǎng)絡(luò)有L層,N i和N i+1分別表示第i層卷積層的輸入通道和輸出通道數(shù),F(xiàn)i,j∈?N i×K×K表示第i層卷積層的第j個(gè)濾波器,K為卷積核尺寸,則第i層濾波器的幾何中位數(shù)定義為:

那么第i層接近幾何中位數(shù)的濾波器可以表示為:

幾何中位數(shù)是歐氏空間數(shù)據(jù)中心的一個(gè)估計(jì)量,如果某個(gè)濾波器接近幾何中位數(shù)xGM,可以認(rèn)為這個(gè)濾波器和其他濾波器共享信息,該濾波器可以被其他濾波器替代,因此去掉該濾波器不會(huì)對(duì)網(wǎng)絡(luò)的輸出產(chǎn)生影響。在訓(xùn)練過(guò)程中,直接將接近幾何中位數(shù)的濾波器置零,即稀疏訓(xùn)練。濾波器置零后對(duì)應(yīng)的輸出特征圖為無(wú)效特征圖,對(duì)網(wǎng)絡(luò)的輸出不再起作用。

本文首先在遙感數(shù)據(jù)集上對(duì)YOLOv3進(jìn)行流程如圖4所示的稀疏訓(xùn)練,再統(tǒng)計(jì)不同尺度特征圖中無(wú)效特征圖的比例,最后調(diào)整不同尺度特征的深度來(lái)改善網(wǎng)絡(luò)性能,調(diào)整原則為:如果一種尺度的特征圖中無(wú)效特征圖的比例較高,則降低該尺度特征對(duì)應(yīng)卷積層的深度,反之則增加該尺度特征對(duì)應(yīng)卷積層的深度。

圖4 稀疏訓(xùn)練流程Fig.4 Sparse training flowchart

2.2 RFB模塊

在YOLOv3的三個(gè)檢測(cè)頭中,檢測(cè)頭2和檢測(cè)頭3分別融合了26×26和52×52的特征,進(jìn)行中等尺寸和較小尺寸目標(biāo)的預(yù)測(cè)。雖然淺層特征的細(xì)節(jié)信息比較豐富,對(duì)檢測(cè)遙感圖像小目標(biāo)有很大的幫助,但是特征圖的感受野較小,缺少上下文信息。本文為了增大特征圖的感受野,在YOLOv3中引入了RFB。

RFB利用擁有不同尺寸卷積核的卷積層構(gòu)成多分支結(jié)構(gòu),再引入空洞卷積增加感受野,提高了小目標(biāo)檢測(cè)精度。與Inception[19]結(jié)構(gòu)類(lèi)似,RFB的每個(gè)分支上使用不同尺度的常規(guī)卷積和空洞卷積的組合。不同尺度的常規(guī)卷積用來(lái)模擬群體感受野(population RF,pRF)中的不同感受野,空洞卷積所得到的離心率來(lái)模擬pRF的尺度與離心率的比例,最后將三個(gè)通道連接以減少特征的通道數(shù)。RFB度量了感受野的尺度、離心率間的關(guān)系,可以生成更有判別性、更具魯棒性的特征。

圖5為RFB的一種結(jié)構(gòu),首先通過(guò)1×1、3×3和5×5卷積核構(gòu)成三分支結(jié)構(gòu),并在每一個(gè)分支中分別引入dilation rate=1、dilation rate=2和dilation rate=3的空洞卷積增大感受野,最后將三個(gè)分支的輸出連接在一起,達(dá)到融合不同特征的目的。

圖5 RFB結(jié)構(gòu)圖Fig.5 Structure diagram of RFB

2.3 優(yōu)化anchor

YOLOv3使用K-means算法對(duì)COCO數(shù)據(jù)集的標(biāo)注框聚類(lèi)得到9個(gè)anchor boxes,每個(gè)檢測(cè)層分配3個(gè)anchor boxes。不同的數(shù)據(jù)集有不同的anchor boxes分布,anchor boxes的選擇會(huì)直接影響網(wǎng)絡(luò)的預(yù)測(cè)精度,在YOLOv3中9個(gè)anchor boxes平均分配在三個(gè)檢測(cè)頭上,但是不同尺寸的特征對(duì)不同的anchor box有不同的敏感程度,因此需要對(duì)不同尺寸的特征匹配對(duì)應(yīng)的anchor boxes。文獻(xiàn)[20]對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi),但是沒(méi)有考慮anchor boxes分配問(wèn)題,本文首先計(jì)算三種尺度特征圖對(duì)應(yīng)的anchor box尺寸范圍[21],然后對(duì)數(shù)據(jù)集重新聚類(lèi),進(jìn)行不同尺度特征上anchor boxes的分配。

圖6為anchor box、Grid Cell和預(yù)測(cè)框的位置關(guān)系圖,金色框表示anchor box,黑色框表示目標(biāo)的標(biāo)注框,紅色框?yàn)镚rid Cell。為了方便計(jì)算,假設(shè)anchor box和標(biāo)注框均為正方形并且anchor box比標(biāo)注框大,anchor box邊長(zhǎng)為a,標(biāo)注框邊長(zhǎng)為g,Grid Cell邊長(zhǎng)為2s,s為下采樣倍數(shù)。

圖6 anchor box、Grid Cell和預(yù)測(cè)框位置關(guān)系圖Fig.6 Structure diagram of anchor box,Grid Cell and prediction box location

下面分兩種情況討論:

(1)當(dāng)標(biāo)注框在anchor box內(nèi)部時(shí),IoU可以定義為:

當(dāng)IoU≥0.5時(shí),可得:

(2)當(dāng)anchor box的中心在特征圖Grid Cell的左上角,真實(shí)框的中心在Grid Cell的右下角,并且anchor box和標(biāo)注框邊長(zhǎng)的二分之一大于Grid Cell的邊長(zhǎng)時(shí),即,IoU定義為:

令a=g,可得:

當(dāng)IoU≥0.5時(shí),可以得到s和a的關(guān)系:

根據(jù)式(1),可以知道anchor boxes的尺寸和下采樣倍數(shù)的關(guān)系如表1所示。實(shí)際的標(biāo)注框不一定是正方形,因此通過(guò)K-means算法聚類(lèi)得到的anchor boxes也不一定是正方形,這里通過(guò)面積做近似。假設(shè)一個(gè)anchor box的寬為w,高為h,則面積為w×h,即可用來(lái)近似a。

表1 下采樣數(shù)與anchor boxes尺寸之間的關(guān)系Table 1 Relationship between down sampling number and anchor boxes size

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)在遙感圖像數(shù)據(jù)集RSOD上測(cè)試。RSOD數(shù)據(jù)集由武漢大學(xué)于2015年發(fā)布,用于遙感圖像目標(biāo)檢測(cè)。數(shù)據(jù)集包含從谷歌Earth和Tianditu下載的976張圖像,圖像的空間分辨率在0.3 m到3 m之間,其中包含飛機(jī)(aircraft)、油桶(oiltank)、立交橋(overpass)和操場(chǎng)(playground)四類(lèi)目標(biāo)。圖7為樣例圖片。

圖7 RSOD數(shù)據(jù)集樣例Fig.7 Sample image of RSOD dataset

遙感圖像中大多是小目標(biāo),這就導(dǎo)致目標(biāo)信息量小,難以檢測(cè)。由于YOLOv3的輸入為416×416,因此本文首先將圖片縮放到416×416,然后對(duì)目標(biāo)的大小做了統(tǒng)計(jì)。圖8為四類(lèi)目標(biāo)的標(biāo)注框占原圖像尺寸的比例分布圖,可以看出,aircraft和oiltank類(lèi)別中基本為小目標(biāo),并且分布集中。overpass類(lèi)別中包含少量的小目標(biāo),playground類(lèi)別中目標(biāo)分布較為分散,總之?dāng)?shù)據(jù)集中大部分目標(biāo)為小目標(biāo)(目標(biāo)的尺寸是原圖的十分之一)。

圖8 RSOD數(shù)據(jù)集標(biāo)注框占原圖像尺寸的比例分布Fig.8 Proportion of labeled box to original image size in RSOD dataset

3.2 目標(biāo)檢測(cè)算法評(píng)價(jià)指標(biāo)

目標(biāo)檢測(cè)的效果由預(yù)測(cè)框的分類(lèi)精度和定位精度共同決定,因此目標(biāo)檢測(cè)問(wèn)題既是分類(lèi)問(wèn)題,又是回歸問(wèn)題。目標(biāo)檢測(cè)算法的綜合評(píng)價(jià)指標(biāo)通常有平均精確率和F1分?jǐn)?shù)。

(1)平均精確率(Average Precision,AP)

AP被定義為PR曲線下的面積,用來(lái)衡量數(shù)據(jù)集中一類(lèi)的平均分類(lèi)精確率,計(jì)算公式如下:

6.預(yù)防措施:正確使用安全套,采取安全的性行為;不吸毒,不共用針具;推行無(wú)償獻(xiàn)血,對(duì)獻(xiàn)血人群進(jìn)行HIV篩查;加強(qiáng)醫(yī)院管理,嚴(yán)格執(zhí)行消毒制度,控制醫(yī)院交叉感染;預(yù)防職業(yè)暴露與感染;控制母嬰傳播;對(duì)HIV/AIDS患者的配偶和性伴、與HIV/AIDS患者共用注射器的靜脈藥物依賴者,以及HIV/AIDS患者所生的子女,進(jìn)行醫(yī)學(xué)檢查和HIV檢測(cè),為其提供相應(yīng)的咨詢服務(wù)。

但是對(duì)于多分類(lèi)問(wèn)題,需要對(duì)N個(gè)類(lèi)別的AP求均值,即平均精確率均值(mean Average Precision,mAP),用來(lái)衡量分類(lèi)器對(duì)所有類(lèi)別的分類(lèi)精度,也是目標(biāo)檢測(cè)算法最重要的指標(biāo),計(jì)算公式如下:

(2)F1分?jǐn)?shù)(F1 Score,F(xiàn)1)

僅使用P和R兩個(gè)指標(biāo)不能很好地評(píng)價(jià)模型的綜合性能,因此通過(guò)F1分?jǐn)?shù)來(lái)評(píng)價(jià)模型的綜合性能,計(jì)算公式如下:

3.3 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)在Ubuntu16.04操作系統(tǒng)下進(jìn)行,模型搭建采用PyTorch深度學(xué)習(xí)框架,CPU為i7-6850K,內(nèi)存為64 GB,GPU為NVIDIA GTX1080。在模型的訓(xùn)練過(guò)程中batch_size設(shè)置為16;優(yōu)化器為SGD(Stochastic Gradient Descent),動(dòng)量參數(shù)momentum設(shè)置為0.93;epochs設(shè)置為273;初始學(xué)習(xí)率設(shè)置為0.005。

首先設(shè)計(jì)了三組實(shí)驗(yàn)分別對(duì)三個(gè)改進(jìn)點(diǎn)進(jìn)行訓(xùn)練和測(cè)試,最后結(jié)合三個(gè)改進(jìn)點(diǎn),設(shè)計(jì)了綜合實(shí)驗(yàn)并進(jìn)行訓(xùn)練和測(cè)試:

實(shí)驗(yàn)1對(duì)改進(jìn)backbone的YOLOv3在遙感圖像數(shù)據(jù)集RSOD上進(jìn)行訓(xùn)練和測(cè)試。根據(jù)式對(duì)網(wǎng)絡(luò)進(jìn)行稀疏訓(xùn)練,設(shè)定稀疏率(無(wú)效特征圖占總特征圖的比例)為40%,然后統(tǒng)計(jì)每種尺度特征中無(wú)效特征的比例。圖9為backbone在稀疏訓(xùn)練后不同尺度無(wú)效特征圖的占比,可以看出,13×13的特征圖中有70%以上為無(wú)效特征圖,26×26的特征圖中有約56%的無(wú)效特征圖,52×52特征圖的無(wú)效特征約為13%,104×104的無(wú)效特征約為2%,這說(shuō)明YOLOv3在進(jìn)行小目標(biāo)檢測(cè)時(shí),具有豐富位置信息的淺層特征比具有豐富語(yǔ)義信息的深層特征更重要,因此小目標(biāo)檢測(cè)需要更多的淺層特征。在文獻(xiàn)[22]中,通過(guò)進(jìn)一步融合104×104的特征,提升小目標(biāo)檢測(cè)精度,文獻(xiàn)[23]中更是對(duì)6個(gè)不同尺寸的特征進(jìn)行融合。但是融合104×104特征會(huì)增加一個(gè)檢測(cè)頭,同時(shí)會(huì)增加32 448個(gè)輸出預(yù)測(cè)框,不僅增大了模型尺寸,還降低了推理速度。

圖9 不同尺度特征中無(wú)效特征的占比Fig.9 Proportion of invalid features in different scale features

為了符合YOLOv3的結(jié)構(gòu)特點(diǎn),以2的倍數(shù)增減殘差層數(shù)量。表2中分析了增減不同尺度特征圖對(duì)應(yīng)殘差塊數(shù)量時(shí),mAP和F1的變化情況,可以看出,當(dāng)增加104×104特征圖對(duì)應(yīng)的殘差層后,模型的mAP提升比較明顯,降低13×13特征圖對(duì)應(yīng)的殘差層后,mAP損失較小,而且模型大小降低較為明顯。綜合考慮模型的mAP、F1以及模型大小,本文在backbone的基礎(chǔ)上增加了2個(gè)104×104特征對(duì)應(yīng)的殘差層,減少了2個(gè)13×13特征對(duì)應(yīng)的殘差層。

表2 增加不同尺度特征圖對(duì)應(yīng)殘差塊時(shí)精度的變化Table 2 Change of accuracy when adding residual blocks corresponding to different scale feature maps

表3比較了改進(jìn)backbone的YOLOv3算法、文獻(xiàn)[22]算法和YOLOv3,可以看出,相比YOLOv3-[22],改進(jìn)backbone的YOLOv3算法mAP提高1.06%,模型大小降低16.97%。

表3 改進(jìn)backbone的YOLOv3、YOLOv3-[22]和YOLOv3比較Table 3 Comparison of YOLOv3,YOLOv3-[22]and YOLOv3 of improved backbone

圖10 改進(jìn)backbone的YOLOv3在數(shù)據(jù)集上的各類(lèi)精度Fig.10 Accuracy of improved backbone’s YOLOv3 in dataset

實(shí)驗(yàn)2對(duì)引入RFB的YOLOv3進(jìn)行訓(xùn)練和測(cè)試。RFB結(jié)構(gòu)的作用是增大特征圖的感受野,一般來(lái)說(shuō)淺層特征感受野較小,深層特征的感受野較大。YOLOv3通過(guò)上采樣的方式將深層特征與淺層特征進(jìn)行融合。本文首先將淺層特征輸入RFB,然后再與深層特征進(jìn)行融合,表4分析了RFB對(duì)不同尺度特征圖的作用,可以發(fā)現(xiàn),與YOLOv3相比,當(dāng)RFB插入在檢測(cè)頭1之前時(shí),mAP并沒(méi)有提高,而F1有了3.15%的提高,而在檢測(cè)頭2和檢測(cè)頭3之前同時(shí)插入RFB時(shí),mAP提高了3.07%,F(xiàn)1提高了4.97%。因此RFB可以增大淺層特征圖的感受野,從而提高目標(biāo)的檢測(cè)精度。

表4 不同位置插入RFB的精度比較Table 4 Accuracy comparison of RFB insertion in different positions

圖11為檢測(cè)頭2和檢測(cè)頭3之前同時(shí)引入RFB時(shí),數(shù)據(jù)集中各類(lèi)的AP比較圖,可以發(fā)現(xiàn),小目標(biāo)居多的aircraft類(lèi)的AP提高約為6.42%,目標(biāo)相對(duì)較大的playground類(lèi)的AP提高約為1.15%。說(shuō)明YOLOv3中引入RFB結(jié)構(gòu)主要通過(guò)提高小目標(biāo)的檢測(cè)精度來(lái)提高整個(gè)模型的檢測(cè)精度。

圖11 引入RFB的YOLOv3在數(shù)據(jù)集上的各類(lèi)精度Fig.11 Accuracy of YOLOv3 with RFB in dataset

實(shí)驗(yàn)3對(duì)優(yōu)化anchor boxes的YOLOv3進(jìn)行訓(xùn)練和測(cè)試。RSOD數(shù)據(jù)集小目標(biāo)居多,本文對(duì)RSOD數(shù)據(jù)集使用K-means聚類(lèi)算法進(jìn)行聚類(lèi),得到新的anchor boxes,根據(jù)表1中不同下采樣倍數(shù)與anchor boxes之間的關(guān)系重新分配三個(gè)檢測(cè)頭中的anchor boxes,分配結(jié)果與每個(gè)分類(lèi)層的濾波器個(gè)數(shù)如表5所示。

表5 各尺度上的anchor box分配Table 5 Anchor box assignment on different scales

圖12比較了優(yōu)化anchor boxes的YOLOv3和原始YOLOv3的精度,可以看出,優(yōu)化anchor boxes的YOLOv3在遙感圖像數(shù)據(jù)集RSOD上,mAP提升約2%,F(xiàn)1提升約4.48%。

圖12 優(yōu)化anchor boxes的YOLOv3與YOLOv3精度比較Fig.12 Comparison of accuracy between optimized anchor boxes’s YOLOv3 and YOLOv3

綜合實(shí)驗(yàn)前三組實(shí)驗(yàn)證明,本文對(duì)YOLOv3的三個(gè)改進(jìn)點(diǎn)對(duì)目標(biāo)檢測(cè)的精度都有所提升,尤其是遙感小目標(biāo)的檢測(cè)精度。因此,綜合三個(gè)改進(jìn)點(diǎn),本文提出了改進(jìn)的YOLOv3目標(biāo)檢測(cè)算法——YOLOv3-CS,結(jié)構(gòu)如圖13所示。

圖13 YOLOv3-CS結(jié)構(gòu)圖Fig.13 Structure of YOLOv3-CS

CNN在本質(zhì)上是一種輸入到輸出的映射,它能夠?qū)W習(xí)大量的輸入與輸出之間的映射關(guān)系,而不需要任何輸入和輸出之間的精確的數(shù)學(xué)表達(dá)式,只要用已知的模式對(duì)卷積網(wǎng)絡(luò)加以訓(xùn)練,網(wǎng)絡(luò)就具有輸入輸出對(duì)之間的映射能力。YOLOv3-CS的訓(xùn)練過(guò)程中網(wǎng)絡(luò)的總損失、mAP和F1的變化曲線如圖14所示。橫軸表示迭代次數(shù)(epoch),可以看出,隨著訓(xùn)練過(guò)程的進(jìn)行,網(wǎng)絡(luò)的損失穩(wěn)定下降,mAP和F1的變化也比較平穩(wěn),因此網(wǎng)絡(luò)的收斂過(guò)程非常穩(wěn)定。

圖14 YOLOv3-CS的損失、mAP、F1變化曲線Fig.14 Loss,mAP and F1 of YOLOv3-CS

表6中比較了YOLOv3-CS、YOLOv3、YOLOv3-SPP和YOLOv4[5]的精度、模型尺寸和推理時(shí)間,可以看出,YOLOv3-CS的mAP比YOLOv3提高約6.49%,比YOLOv3-SPP高5.49%,比YOLOv4高3.08%;F1比YOLOv3高4.85%,比YOLOv3-SPP高3.35%,比YOLOv4高1.53%;模型大小比YOLOv3減小了12.58%??梢?jiàn),YOLOv3-CS目標(biāo)檢測(cè)模型在檢測(cè)精度和模型尺寸上都具有較大優(yōu)勢(shì)。

表6 YOLOv3-CS、YOLOv3、YOLOv3-SPP和YOLOv4算法比較Table 6 Comparison of YOLOv3-CS,YOLOv3,YOLOv3-SPP and YOLOv4 algorithms

4 結(jié)束語(yǔ)

本文對(duì)YOLOv3的backbone和anchor boxes分配原則進(jìn)行了改進(jìn),再引入RFB模塊增大感受野。在數(shù)據(jù)集RSOD上做了訓(xùn)練和測(cè)試,結(jié)果表明本文提出的YOLOv3-CS在mAP和F1兩種指標(biāo)上都優(yōu)于YOLOv3和YOLOv4,尤其是對(duì)小目標(biāo)的檢測(cè),mAP提高較為明顯,并且模型尺寸比YOLOv3更小。本文模型的推理時(shí)間比YOLOv3增加了9.4%,在一些算力較低且實(shí)時(shí)性要求較高的場(chǎng)合,仍然無(wú)法滿足要求,如何在保持模型精度的情況下縮短模型推理時(shí)間是未來(lái)的主要研究目標(biāo)。

猜你喜歡
濾波器尺度卷積
基于無(wú)擾濾波器和AED-ADT的無(wú)擾切換控制
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
開(kāi)關(guān)電源EMI濾波器的應(yīng)用方法探討
電子制作(2018年16期)2018-09-26 03:26:50
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
基于TMS320C6678的SAR方位向預(yù)濾波器的并行實(shí)現(xiàn)
9
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
中西区| 宁远县| 迁安市| 汪清县| 闻喜县| 汤原县| 绥中县| 大兴区| 邛崃市| 文化| 富民县| 杭州市| 湟源县| 贡觉县| 舒城县| 峨眉山市| 渑池县| 托里县| 平遥县| 冀州市| 桐柏县| 陈巴尔虎旗| 广平县| 兴国县| 巴南区| 若尔盖县| 武城县| 水城县| 乐清市| 浑源县| 恩平市| 那坡县| 宁阳县| 准格尔旗| 苗栗市| 旺苍县| 辽源市| 资中县| 绥宁县| 白朗县| 虎林市|