国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于路徑增強(qiáng)SSD的遺失物體檢測(cè)模型

2020-01-05 07:00徐好好單志勇徐超
軟件導(dǎo)刊 2020年11期
關(guān)鍵詞:目標(biāo)檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)

徐好好 單志勇 徐超

摘 要:在日常出行中,乘客經(jīng)常會(huì)將一些重要物品遺落在出租車后座上,而司機(jī)往往因?yàn)楹鲆暿钩丝统霈F(xiàn)損失。為對(duì)車內(nèi)遺失物體進(jìn)行檢測(cè),提出一種改進(jìn)的SSD目標(biāo)檢測(cè)模型。在主干網(wǎng)絡(luò)部分引入路徑增強(qiáng)的特征金字塔網(wǎng)絡(luò)(FPN),稱為PA-SSD。將PA-SSD應(yīng)用于常見(jiàn)遺失物品檢測(cè)實(shí)驗(yàn),結(jié)果表明,該算法檢測(cè)速度為12fps,在驗(yàn)證集上的mAP為98.6%?;赑A-SSD的檢測(cè)模型能高效且準(zhǔn)確地識(shí)別乘客遺失物體,方便通知領(lǐng)取,減少乘客不必要的損失。

關(guān)鍵詞:目標(biāo)檢測(cè);卷積神經(jīng)網(wǎng)絡(luò);SSD;FPN;路徑增強(qiáng)

DOI:10. 11907/rjdk. 201379

中圖分類號(hào):TP306 ??? 文獻(xiàn)標(biāo)識(shí)碼:A?????? 文章編號(hào):1672-7800(2020)011-0017-04

Lost Object Detector Based on PA-SSD

XU Hao-hao1,SHAN Zhi-yong2,XU Chao1

(1. School of Information Science and Technology, Donghua University;

2. Ministry of Education, Digital Textile Research Center, Shanghai 201620, China)

Abstract:In daily travel, passengers often leave some important items in the back seat of the taxi, and drivers often fail to notice that the loss of these items, which causes passengers property lose. In order to detect the lost objects in the car,this paper proposes an improved SSD detector which uses path augumented FPN in the backbone and it is called single shot multibox detection with path augumentation(PA-SSD). PA-SSD is applied to the detection of common lost items. The experimental results show that the detection speed of this detector is 12fps, and the mAP on the verification set is 98.6. PA-SSD can efficiently and accurately identify the lost objects, and it is easy to remind the passengers.

Key Words:object detection; convolutional neural network; SSD; FPN; path augumentation

0 引言

隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型研究成為熱點(diǎn)。Firshick[1]為解決R-CNN速度較慢問(wèn)題提出Fast R-CNN,使特征提取過(guò)程可共享,加快了檢測(cè)速度,但提取RoI仍然會(huì)消耗大量時(shí)間;Ren等[2]提出Faster R-CNN并引入RPN,將獲取提議區(qū)域過(guò)程放入整個(gè)網(wǎng)絡(luò)一起訓(xùn)練以加快檢測(cè)速度;Dai等[3]提出R-FCN引入位置敏感得分圖使RoI具有較明確的位置信息,減輕Head結(jié)構(gòu)計(jì)算量從而提高檢測(cè)速度;Redmon等[4]提出在YOLO引入網(wǎng)格思想,在網(wǎng)格中做預(yù)測(cè);Liu等[5]在SSD中基于不同尺度特征圖生成錨框進(jìn)行預(yù)測(cè);Lin等[6]提出RetinaNet引入Focal loss作為分類損失函數(shù),避免樣本不平衡的影響;佘顥等[7]引入組歸一化和TReLU激活函數(shù)對(duì)SSD進(jìn)行改進(jìn);沈新烽等[8]使用輕量級(jí)MobileNetV3-Large作為SSD主干網(wǎng)絡(luò),并利用FPN[9]提升對(duì)小物體檢測(cè)效果;韓文軒等[10]采用深度可分離卷積代替卷積層加快SSD檢測(cè)速度。

以上文獻(xiàn)均沒(méi)有考慮主干網(wǎng)絡(luò)輸出的較深層特征圖位置信息不明確這一因素。本文借鑒PANet[11]思想,基于Mask R-CNN[12]框架進(jìn)行改進(jìn),在主干網(wǎng)絡(luò)FPN結(jié)構(gòu)上添加一條自底向上的路徑增強(qiáng)分支,用于加強(qiáng)深層特征圖位置信息,針對(duì)PANet不便于實(shí)時(shí)性檢測(cè)問(wèn)題提出PA-SSD。在遺失物體圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,結(jié)果顯示mAP較SSD檢測(cè)率有顯著提升。

1 SSD簡(jiǎn)介

1.1 SSD整體框架

SSD整體框架由一個(gè)主干網(wǎng)絡(luò)和若干個(gè)下采樣模塊連接而成,如圖1所示。使用VGG16[13]作為主干網(wǎng)絡(luò)只輸出一個(gè)特征圖,然后通過(guò)若干下采樣模塊將特征圖尺寸減半生成多尺度特征圖。因此,圖1中越靠近頂部的特征圖尺寸越小,像素感受野越大,越適合檢測(cè)尺寸較大目標(biāo)。針對(duì)不同尺度特征圖分別基于錨框機(jī)制進(jìn)行分類以及邊界框偏移量回歸,使檢測(cè)器適應(yīng)不同尺度物體。

1.2 損失函數(shù)

目標(biāo)檢測(cè)任務(wù)分為分類和邊界框偏移量回歸,最終損失函數(shù)定義為兩者各自損失函數(shù)的加權(quán)和。SSD損失函數(shù)如下:

式(1)為模型最終損失函數(shù),是回歸損失和分類損失兩部分的加權(quán)和。其中[N]代表錨框數(shù)量,[Lconf(x,c)]和[Lloc(x,l,g)]分別代表分類和回歸損失,[x]為錨框,[c]為置信度,[l]為預(yù)測(cè)框,[g]為真實(shí)框,[α]代表權(quán)重系數(shù)。式(2)是回歸損失,使用光滑L1損失,只對(duì)正類錨框計(jì)算損失,[i,j,p]分別代表錨框、真實(shí)框和類別索引,[p=0]代表背景類,[m∈{cx,cy,w,h}]代表4個(gè)邊界框偏移量,[xpij={0,1}],取1時(shí)代表第[i]個(gè)錨框與第[j]個(gè)真實(shí)框交并比大于設(shè)定閾值,即關(guān)于類別[p]匹配,取0時(shí)即不匹配,不計(jì)算損失。式(3)是分類損失,為多元交叉熵?fù)p失,[cpi]代表第[i]個(gè)錨框預(yù)測(cè)為類別[p]的概率。

2 PA-SSD

使用如ResNet[14]等全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為主干網(wǎng)絡(luò),輸出特征圖位置信息較少,通過(guò)下采樣模塊后生成的深層特征圖包含的位置信息更少,無(wú)法準(zhǔn)確預(yù)測(cè)目標(biāo)邊界框,這是SSD存在的主要問(wèn)題。針對(duì)該問(wèn)題,本文結(jié)合FPN以及路徑增強(qiáng)方法對(duì)SSD進(jìn)行改進(jìn),提出PA-SSD,使主干網(wǎng)絡(luò)輸出的多尺度特征圖同時(shí)具有較高的位置信息和語(yǔ)義信息,從而提升檢測(cè)精度。

2.1 FPN簡(jiǎn)介

深度卷積神經(jīng)網(wǎng)絡(luò)往往輸出具有明確語(yǔ)義信息的特征圖,但其位置信息不明確。FPN在基礎(chǔ)網(wǎng)絡(luò)上引入特征金字塔結(jié)構(gòu)提取多尺度特征圖,采用特征融合方式使得淺層特征圖也具有較明確的語(yǔ)義信息,其結(jié)構(gòu)如圖2所示,包括自底向上分支、自頂向下分支以及橫向連接3個(gè)部分。自底向上分支采用基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以ResNet為例,輸出特征圖分別為[C1,C2,C3,C4,C5],C1由于尺度過(guò)大不參與特征融合。橫向連接利用1×1的卷積將這些特征圖通道數(shù)統(tǒng)一到256,得到[C2,C3,C4,C5]。自頂向下分支即特征融合計(jì)算,C5即M5,上采樣后與C4'作逐元素求和得到M4,同理得到M3和M2。為消除混疊效應(yīng)還需要將[M2,M3,M4,M5]通過(guò)3×3卷積得到的[P2,P3,P4,P5]作為FPN輸出。FPN結(jié)合錨框機(jī)制適用于檢測(cè)各種尺寸目標(biāo),但FPN輸出的頂層特征圖位置信息并未得到加強(qiáng),所以檢測(cè)器對(duì)大物體位置回歸不夠準(zhǔn)確。

2.2 基于路徑增強(qiáng)FPN的主干網(wǎng)絡(luò)

PANet為解決FPN深層特征圖位置信息不明確問(wèn)題引入基于路徑增強(qiáng)的FPN作為主干網(wǎng)絡(luò),結(jié)構(gòu)如圖3所示。FPN輸出[P2,P3,P4,P5],此時(shí)深層特征圖位置信息仍然很弱,所以在FPN右側(cè)添加一條自底向上的特征融合分支。P2即N2,N2通過(guò)步幅為2的3×3卷積將尺寸減半后,與P3作逐元素求和后再經(jīng)過(guò)一個(gè)步幅為1的3×3卷積得到N3,同理得到N4和N5。本文為了檢測(cè)更大的目標(biāo)將N5通過(guò)一個(gè)最大池化層將尺寸減半得到N6。綜上,基于路徑增強(qiáng)的FPN由于進(jìn)行了兩次特征融合,使得特征圖同時(shí)具備較明確的語(yǔ)義信息與位置信息,能更好地執(zhí)行目標(biāo)檢測(cè)任務(wù)。

2.3 PA-SSD整體框架

PA-SSD目標(biāo)檢測(cè)流程如圖4所示。為減少計(jì)算量,主干網(wǎng)絡(luò)輸出的N2不參與預(yù)測(cè)。由于FPN結(jié)構(gòu)直接輸出多尺度特征圖,所以不需要額外的尺寸減半模塊和全局平均池化層,直接基于[N3,N4,N5,N6]生成錨框并基于這些錨框進(jìn)行分類與偏移量回歸。

PA-SSD的Head結(jié)構(gòu)包含類別預(yù)測(cè)層和邊界框回歸層,損失函數(shù)與SSD保持一致。設(shè)預(yù)測(cè)物體類別數(shù)為C,加上背景類,每個(gè)錨框?qū)㈩A(yù)測(cè)C+1個(gè)類別,則對(duì)于一個(gè)高、寬分別為h、w的特征圖,每個(gè)單元生成a個(gè)錨框,一共生成ahw個(gè)錨框。分類預(yù)測(cè)層利用卷積層通道輸出類別預(yù)測(cè),將[N3,N4,N5,N6]分別進(jìn)行1×1的卷積使通道數(shù)變?yōu)閍(C+1),使輸出和輸入與特征圖上每個(gè)點(diǎn)的空間坐標(biāo)一一對(duì)應(yīng),最后使用Softmax函數(shù)作為激活函數(shù)輸出類別置信度。邊界框回歸層設(shè)計(jì)方法同類別預(yù)測(cè)層設(shè)計(jì)類似,同樣對(duì)[N3,N4,N5,N6]分別做1×1卷積。由于每個(gè)錨框需要預(yù)測(cè)4個(gè)偏移量,所以輸出通道數(shù)設(shè)為4a。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

本文使用自制數(shù)據(jù)集,包含1 000張圖像,其中訓(xùn)練集800張,驗(yàn)證和測(cè)試集各100張。數(shù)據(jù)集包含6類容易遺漏的物體,分別為筆記本電腦、身份證、水杯、手機(jī)、背包和錢包。加載數(shù)據(jù)集時(shí)需將輸入圖片尺寸轉(zhuǎn)換為1 024×???? 1 024×3,批量大小為4,所以一個(gè)批量輸入形狀為(4,3,?? 1 024,1 024),標(biāo)簽形狀為(批量大小,n,5),n代表單個(gè)圖像最多含有的邊界框個(gè)數(shù),本文設(shè)置n=10,而5代表物體類別及4個(gè)偏移量。

3.2 實(shí)驗(yàn)流程

PA-SSD損失函數(shù)與SSD保持一致,主干網(wǎng)絡(luò)使用ResNet50基于ImageNet預(yù)訓(xùn)練,整個(gè)模型使用SGD優(yōu)化器進(jìn)行訓(xùn)練,基礎(chǔ)學(xué)習(xí)率設(shè)置為1e-3,隨迭代次數(shù)逐漸降低,權(quán)重衰減系數(shù)設(shè)置為5e-4,共迭代20 000次。訓(xùn)練流程如圖5所示。

將SSD、DSSD[15]、YOLO V3[16]以及本文提出的PA-SSD在數(shù)據(jù)集上進(jìn)行訓(xùn)練,并使用均值平均精確率(mean Average Precision, mAP)對(duì)4種檢測(cè)器進(jìn)行評(píng)估對(duì)比,mAP指每一類物體對(duì)應(yīng)P-R曲線下的面積平均值,能夠較好顯示檢測(cè)器質(zhì)量。

3.3 實(shí)驗(yàn)結(jié)果

4種檢測(cè)器在遺失物體數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)如表1所示,分別記錄不同檢測(cè)器的主干網(wǎng)絡(luò)結(jié)構(gòu)、mAP以及識(shí)別速度。

如表1所示,PA-SSD雖然較SSD和YOLOV3犧牲了一些識(shí)別速度,但是精度得到顯著提高,且精度和速度都優(yōu)于DSSD,證明PA-SSD在檢測(cè)遺失物體精度上優(yōu)于主流一階段目標(biāo)檢測(cè)框架。

為了移除檢測(cè)器生成的多余邊界框,在測(cè)試階段使用非極大值抑制(non-maximum suppression,NMS)對(duì)檢測(cè)器結(jié)果進(jìn)行后處理,選取測(cè)試集中某張測(cè)試圖片,其預(yù)測(cè)結(jié)果如圖6所示,可以看到即使在光線較暗的場(chǎng)景下,PA-SSD也能準(zhǔn)確識(shí)別出遺漏的物體。

4 結(jié)語(yǔ)

本文基于SSD提出一種PA-SSD目標(biāo)檢測(cè)模型,主干網(wǎng)絡(luò)部分引入自底向上路徑增強(qiáng)的FPN,摒棄了下采樣模塊和全局平均池化層獲取多尺度特征圖方式,直接基于主干網(wǎng)絡(luò)輸出多尺度特征圖生成錨框,并進(jìn)行分類和邊界框回歸。使用本文模型在遺失物數(shù)據(jù)集上進(jìn)行訓(xùn)練實(shí)驗(yàn),結(jié)果表明,PA-SSD較主流一階段的檢測(cè)模型具有更高的mAP。但本文自制的數(shù)據(jù)集只包含6個(gè)類別,在更多類別上的檢測(cè)結(jié)果未知,泛化能力有待增強(qiáng),需在后續(xù)工作中繼續(xù)優(yōu)化。

參考文獻(xiàn):

[1] GIRSHICK R. Fast R-CNN[C].? Proceedings of the IEEE conference on computer vision and pattern recognition, 2015: 1440-1448.

[2] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C].? Advances in Neural Information Processing Systems,2015: 91-99.

[3] DAI J, LI Y, HE K, et al. R-FCN: object detection via region-based fully convolutional networks[C].? Advances in Neural Information Processing Systems,2016: 379-387.

[4] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C].? Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.

[5] LIU W, ANGUELOV D, ERHAN D, et al. Ssd: single shot multibox detector[C].? European Conference on Computer Vision. Springer, Cham, 2016:21-37.

[6] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J].? arXivpreprint:2017,1708(2),2002-2011.

[7] 佘顥,吳伶,單魯泉. 基于SSD網(wǎng)絡(luò)模型改進(jìn)的水稻害蟲識(shí)別方法[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版): 2019,26(5):1-6.

[8] 沈新烽,姜平,周根榮. 改進(jìn)SSD算法在零部件檢測(cè)中的應(yīng)用研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,25(4):1-10.

[9] LIN TY, DOLLAR P, GIRSHICK R,et al. Feature pyramid networks for object detection[J].? arXiv preprint, 2016,1612(1):31-44.

[10] 韓文軒,阿里甫·庫(kù)爾班,黃梓桐. 基于改進(jìn)SSD算法的遙感影像小目標(biāo)快速檢測(cè)[J]. 新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,18(11):1-7.

[11] LIU S,?QI L,?QIN H, et al.Path aggregation network for instance segmentation[J].? arXiv preprint, 2018,18(3):15-34.

[12] HE K, GKIOXARI G, DOLLAR P, et al. Mask r-cnn[C].? Computer Vision (ICCV), 2017 IEEE International Conference on,IEEE, 2017:2980-2988.

[13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J].? arXiv preprint,2014(9):1409-1556.

[14] HE K, ZHANG X, REN S, etal. Deep residual learningfor image recognition[C].? Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 770-778.

[15] FU CY, LIU W, RANGA A, et al. Dssd: deconvolutional single shot detector[J].? arXiv preprint, 2017,1701(12):59-66.

[16] REDMON J, FARHADI A. Yolov3: an incremental improvement[J]. arXiv preprint, 2018, 1804(9):27-67.

(責(zé)任編輯:杜能鋼)

收稿日期:2020-04-17

基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61602110)

作者簡(jiǎn)介:徐好好(1994-),男,東華大學(xué)信息科學(xué)與技術(shù)學(xué)院碩士研究生,研究方向?yàn)橛?jì)算機(jī)視覺(jué);單志勇(1967-),男,博士,東華大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授、碩士生導(dǎo)師,研究方向?yàn)殡姶艌?chǎng)與微波技術(shù)、無(wú)線通信、天線、人工智能;徐超(1994-),男,東華大學(xué)信息科學(xué)與技術(shù)學(xué)院碩士研究生,研究方向?yàn)槿褐悄軆?yōu)化算法。本文通訊作者:?jiǎn)沃居隆?/p>

猜你喜歡
目標(biāo)檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
一種改進(jìn)的峰均功率比判源方法