張新 郭福亮 梁英杰
摘 要:由于小目標(biāo)分辨率低、攜帶的信息少,現(xiàn)有基于深度學(xué)習(xí)的目標(biāo)檢測算法對小目標(biāo)檢測精度遠(yuǎn)遠(yuǎn)小于對大目標(biāo)的檢測精度。針對小目標(biāo)檢測精度問題,以基于深度學(xué)習(xí)的目標(biāo)檢測為切入點(diǎn),系統(tǒng)總結(jié)了基于深度學(xué)習(xí)的目標(biāo)檢測代表算法,并以檢測精度和檢測速度為標(biāo)準(zhǔn)分析各種算法優(yōu)缺點(diǎn)。將能有效提高小目標(biāo)檢測精度的方法進(jìn)行分類匯總,介紹了各種方法的相關(guān)應(yīng)用。針對目標(biāo)檢測及小目標(biāo)檢測存在的問題,對未來目標(biāo)檢測領(lǐng)域發(fā)展趨勢進(jìn)行了預(yù)測與展望。
關(guān)鍵詞:目標(biāo)檢測;小目標(biāo);深度學(xué)習(xí);RCNN;SSD;YOLO
DOI:10. 11907/rjdk. 191987 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP312文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2020)005-0276-05
0 引言
隨著人工智能應(yīng)用研究不斷發(fā)展,深度學(xué)習(xí)等方法也隨之興起,在目標(biāo)檢測、自然語言處理、語音識別等領(lǐng)域應(yīng)用越來越廣泛。相比于傳統(tǒng)機(jī)器學(xué)習(xí)采用滑動窗口提取目標(biāo)(如SIFT[1]、HOG[2]等視覺特征這種低效率方法),深度學(xué)習(xí)算法借助神經(jīng)網(wǎng)絡(luò)產(chǎn)生候選區(qū)域提取目標(biāo)特征,大大提升了目標(biāo)檢測的精度和速率。但就像物理學(xué)中的烏云一般,目標(biāo)檢測也存在一片烏云,即小目標(biāo)檢測。小目標(biāo)由于圖像像素較少,包含的特征信息不明顯,檢測時常會出現(xiàn)漏檢和誤檢情況,嚴(yán)重影響目標(biāo)檢測效果,是目標(biāo)檢測領(lǐng)域亟待解決的一個重難點(diǎn)問題。由于小目標(biāo)檢測算法大多是在現(xiàn)有檢測算法上的改進(jìn)與加強(qiáng),因此本文首先總結(jié)現(xiàn)有深度學(xué)習(xí)目標(biāo)檢測算法的優(yōu)缺點(diǎn);然后對小目標(biāo)檢測改進(jìn)算法進(jìn)行分析,最后對未來小目標(biāo)檢測應(yīng)用與發(fā)展進(jìn)行展望。
1 基于深度學(xué)習(xí)的目標(biāo)檢測算法
自從AlexNet[3]獲得ILSVRC2012挑戰(zhàn)賽冠軍后,用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類成為主流。該算法以其簡單的訓(xùn)練方法、較高的檢測精度和不俗的檢測速度迅速取代了傳統(tǒng)的機(jī)器學(xué)習(xí)方法。如今基于深度學(xué)習(xí)的目標(biāo)檢測逐漸出現(xiàn)了不同分支,根據(jù)檢測思想不同,可分為基于區(qū)域提取的檢測方法和基于回歸的檢測方法,兩種方法分別在檢測準(zhǔn)確率和檢測速度上占據(jù)優(yōu)勢。
1.1 基于區(qū)域提取的檢測方法
基于區(qū)域提取的檢測方法首先通過選擇性搜索[4](Selective Search)或RPN(Region Proposal Net)等方法提取出候選區(qū)域,然后利用回歸等方法對候選區(qū)域進(jìn)行分類和位置預(yù)測,代表算法有RCNN[5]、SPP-Net[6]、Fast RCNN[7]、Faster RCNN[8]和Mask RCNN[9]等。
1.1.1 RCNN
2014年,Girshick等提出了RCNN算法,在VOC 2007測試集上mAP達(dá)到了48%。2014年修改網(wǎng)絡(luò)結(jié)構(gòu)后又將mAP提升至66%,同時在ILSVRC 2013測試集上mAP達(dá)到了31.4%。RCNN算法主要包含4個步驟:①利用選擇性搜索算法提取候選區(qū)域,將候選區(qū)域縮放至同一大小;②使用卷積神經(jīng)網(wǎng)絡(luò)提取候選區(qū)域特征;③SVM分類器對候選區(qū)域特征分類;④利用邊框回歸算法進(jìn)行邊框預(yù)測。RCNN算法作為第一個基于深度學(xué)習(xí)的較成熟算法,相比于傳統(tǒng)機(jī)器學(xué)習(xí)算法有了很大進(jìn)步,但其劣勢也很明顯:采用4個分離的步驟進(jìn)行檢測不適于端到端訓(xùn)練;每次檢測都需要生成2 000多個候選框,每個候選框都需要一次卷積操作,重疊的候選框帶來大量的重復(fù)計(jì)算,極大影響了檢測速度。
1.1.2 SPP-Net
針對RCNN這一缺點(diǎn),2014年何愷明等提出了空間金字塔池化網(wǎng)絡(luò)進(jìn)行了優(yōu)化。傳統(tǒng)的CNN網(wǎng)絡(luò)由于連接了全連接層,因此需要對輸入的圖片尺寸進(jìn)行裁剪或拉伸,以符合全連接層輸入要求。但是在圖片裁剪或拉伸過程中會扭曲圖像,使目標(biāo)特征有所變形。為解決這一問題,SPP-Net在CNN網(wǎng)絡(luò)中加入了空間金字塔池化層(SPP)。不管輸入尺寸如何,SPP都會將其輸出固定為同一個尺寸,提高了圖像的尺度不變性并降低了過擬合。采用SPP后,只需要對圖像作一次卷積操作,通過計(jì)算原圖與特征圖的映射關(guān)系即可得到圖像的候選區(qū)域,大幅縮減了算法的檢測時間。但是SPP-Net的后續(xù)操作與RCNN類似,并未完全擺脫RCNN的影響。
1.1.3 Fast RCNN
2015年Ren等提出了Fast RCNN算法。首先,將圖片送入神經(jīng)網(wǎng)絡(luò)提取特征,利用Selective Search提取候選區(qū)域;然后,利用RoI Pooling將大小不同的輸入池化為統(tǒng)一大小輸出到全連接層;最后,對全連接輸出的特征進(jìn)行邊框回歸和分類。Fast RCNN算法的一個重要改進(jìn)就是引入了類似于SPP-Net的RoI Pooling層。RoI Pooling將特征圖像分割成W*H大小的網(wǎng)格,對每個網(wǎng)格做MaxPooling,將所有輸出值組合起來便形成固定大小為W*H的特征圖,避免了候選區(qū)域的縮放,也減少了算法的運(yùn)行時間。將算法各步驟連接在一起,可以實(shí)現(xiàn)端到端的訓(xùn)練,不用像RCNN那樣需要保存中間特征,節(jié)省了空間。但是Fast RCNN仍然采用Selective Search方法產(chǎn)生候選框,耗費(fèi)了太多時間。
1.1.4 Faster RCNN
2015年Ren等提出了Faster RCNN算法,算法整體框架如圖1所示。首先,使用卷積神經(jīng)網(wǎng)絡(luò)提取圖片特征;其次,將圖片特征送入RPN(Region Proposal Network)網(wǎng)絡(luò)得到提取的區(qū)域;然后,將以上兩步的結(jié)果送入RoI Pooling層綜合提取邊界框特征;最后,根據(jù)候選框特征預(yù)測物體的邊界框和類別。相比于Fast RCNN算法,該算法較重要的改進(jìn)點(diǎn)就是采用RPN代替Selective Search提取候選區(qū)域。RPN是一個全卷積網(wǎng)絡(luò),包含3個卷積層,采用滑動窗口機(jī)制遍歷每個特征點(diǎn),通過分類層和回歸層后,輸出特征點(diǎn)映射的原圖區(qū)域是否為前景圖像及相對坐標(biāo)。算法另一個極為重要的改進(jìn)就是先驗(yàn)框的引入。通過先驗(yàn)框,RPN可以產(chǎn)生大小不同的候選區(qū)域,應(yīng)對大小不同的目標(biāo),這一方法被許多算法借鑒。
1.2 基于回歸的目標(biāo)檢測算法
基于區(qū)域提取的目標(biāo)檢測算法需要提取候選區(qū)域并對其進(jìn)行分類及邊框預(yù)測,在時間上不能達(dá)到實(shí)時要求。基于回歸的目標(biāo)檢測算法只需要對圖片作一次卷積操作,然后直接在原始圖像上通過回歸的方法預(yù)測出目標(biāo)的分類與位置,相比基于區(qū)域提取的目標(biāo)檢測算法在時間上有很大優(yōu)勢。
1.2.1 YOLO
2016年Redmon等[10]提出YOLO(You Only Look Once)算法。YOLO算法采用一個單獨(dú)的卷積神經(jīng)網(wǎng)絡(luò),將目標(biāo)檢測問題看成一個回歸問題,實(shí)現(xiàn)了端到端的目標(biāo)檢測。YOLO算法首先將圖片縮放至448×448大小,然后將其送入神經(jīng)網(wǎng)絡(luò)中,輸出一個維度為S×S*(B×5+C)的張量,將輸出的張量送入NMS得到最后的邊界框和分類信息。其中,S為劃分網(wǎng)格數(shù),B為每個網(wǎng)格負(fù)責(zé)檢測的目標(biāo)個數(shù),C為類別個數(shù)。YOLO算法將輸入的圖片劃分為S×S個網(wǎng)格,如果一個目標(biāo)的中心落在該網(wǎng)格中,則該網(wǎng)格負(fù)責(zé)檢測這個目標(biāo)。每個網(wǎng)格需要預(yù)測B個邊界框信息,每個邊界框信息包含邊界框的位置信息及置信度,同時網(wǎng)格還需要預(yù)測各類目標(biāo)的條件概率值。YOLO算法將檢測看作回歸問題,只作一次卷積操作,因此檢測速度很快。但是YOLO算法由于劃分尺度問題,對小目標(biāo)的檢測效果不太理想。若同時出現(xiàn)兩個目標(biāo)中心落在同一個網(wǎng)格中,算法就不能很好地檢測出目標(biāo)。
1.2.2 SSD
2016年Liu等[11]提出了SSD(Single Shot MultiBox Director)算法,吸收了Faster RCNN和YOLO算法中的許多優(yōu)點(diǎn),既有出色的檢測精度也有很快的檢測速度。SSD算法也采用了類似于YOLO的基于回歸的方法,在一個網(wǎng)絡(luò)中直接回歸出物體的類別和位置。SSD取消了YOLO算法中的全連接層,直接采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測。算法在網(wǎng)絡(luò)結(jié)構(gòu)的不同層次上提取不同尺度的目標(biāo)特征進(jìn)行多尺度預(yù)測,利用大尺度檢測小目標(biāo),小尺度檢測大目標(biāo)。算法借鑒了Faster RCNN中先驗(yàn)框的方法,采用不同尺度和長寬比的先驗(yàn)框,有效解決了YOLO算法在小目標(biāo)檢測上的不足。在網(wǎng)絡(luò)結(jié)構(gòu)上,算法選用VGG16作為基礎(chǔ)網(wǎng)絡(luò),在VGG16的基礎(chǔ)上新增卷積層來獲得更多的特征圖用于檢測。除此之外,算法還采用空洞卷積提高卷積核的感受野。
1.2.3 YOLO v2
2016年Redmon等[12]在YOLO基礎(chǔ)上提出了YOLO v2算法。YOLO v2借鑒Faster RCNN中的anchor box思想,取代了YOLO中每個網(wǎng)格的B個邊界框。不同于Faster RCNN的是,YOLO v2中邊界框的尺寸是利用K-means聚類計(jì)算得出的。YOLO v2在采用先驗(yàn)框后,取消了網(wǎng)絡(luò)結(jié)構(gòu)中的全連接層,把網(wǎng)絡(luò)輸入尺寸調(diào)整為416×416,在經(jīng)過32倍下采樣后,圖片分成13×13個網(wǎng)格。YOLO算法可以預(yù)測7×7×2個邊界框,YOLO v2可以預(yù)測13×13×9個邊界框,因此劃分網(wǎng)格的尺度更細(xì)。YOLO v2算法在對小目標(biāo)識別時準(zhǔn)確率有了提升。另外由于沒有了全連接層,因此YOLO v2可以使用多尺度訓(xùn)練的方式進(jìn)行訓(xùn)練,可以輸入大小尺度不同的圖片以增加算法對不同尺度的適應(yīng)能力。YOLO v2算法也采用了新的網(wǎng)絡(luò)結(jié)構(gòu)Darknet-19,具有比原網(wǎng)絡(luò)更好的性能。
1.2.4 YOLO v3
2018年Redmon[13]等提出YOLO v3算法。YOLO v3借鑒了Faster RCNN和SSD中的許多優(yōu)點(diǎn)。算法采用了新的網(wǎng)絡(luò)結(jié)構(gòu)Darknet-53,網(wǎng)絡(luò)內(nèi)部含有多個殘差模塊,可以減少梯度消失問題。算法采用32倍下采樣、16倍下采樣和8倍下采樣的方式生成52×52,26×26,13×13三種大小不同的網(wǎng)格尺度,在多尺度上對目標(biāo)進(jìn)行預(yù)測,可以有效提升小目標(biāo)的檢測準(zhǔn)確率。算法依然采用了先驗(yàn)框思想。但和YOLO v2不同的是,YOLO v3將9個先驗(yàn)框分給了3種不同的尺度,每種尺度有3個先驗(yàn)框。算法還采用了特征融合和上采樣方法,將高層特征上采樣后與低層特征融合,充分結(jié)合高低層的特征信息,提高了算法的檢測準(zhǔn)確率。通過這一系列改進(jìn),算法在目標(biāo)檢測準(zhǔn)確率上有了進(jìn)一步提升,但是速度上稍有損失。
1.3 算法對比
在目標(biāo)檢測中,比較常用的數(shù)據(jù)集有VOC2007、VOC2012和COCO。表1、表2為基于深度學(xué)習(xí)的目標(biāo)檢測算法在各數(shù)據(jù)集上的檢測性能。
從表1、表2可以看出,基于區(qū)域提取的目標(biāo)檢測算法檢測精度要高于基于回歸的目標(biāo)檢測算法。同時也可以看出,各種算法對小目標(biāo)的檢測精度要遠(yuǎn)遠(yuǎn)小于大目標(biāo)的檢測精度。在檢測速度上,基于回歸的目標(biāo)檢測算法要遠(yuǎn)遠(yuǎn)超過基于區(qū)域提取的目標(biāo)檢測算法。
2 小目標(biāo)檢測方法
小目標(biāo)由于分辨率低,圖像模糊,攜帶的信息較少,導(dǎo)致特征表達(dá)能力弱,能提取到的特征很少,不利于小目標(biāo)檢測。因此,針對小目標(biāo)特性,在對小目標(biāo)檢測識別時,通常會采用多尺度預(yù)測,利用低層特征信息檢測小目標(biāo)或通過上采樣、反卷積,將高層特征放大,與低層特征融合,利用對抗生成網(wǎng)絡(luò)不斷生成和對抗,提高小目標(biāo)質(zhì)量。但這些方法相互之間不是獨(dú)立的,一種算法中可以采用一種或多種方法提高小目標(biāo)檢測效果。
2.1 多尺度預(yù)測
不同網(wǎng)絡(luò)層次上特征圖所攜帶的信息不同,低層網(wǎng)絡(luò)能更多地提取到目標(biāo)的位置形狀等信息,而高層網(wǎng)絡(luò)能更好地提取目標(biāo)的深層特征。對于小目標(biāo)來說,位置等低層特征在檢測中尤為重要。因此在檢測時,將低層用于小目標(biāo)檢測,高層用于大目標(biāo)檢測,能更有效地提升目標(biāo)檢測效果。多尺度預(yù)測利用多層特征,在不同尺度的特征圖上預(yù)測不同大小的目標(biāo)。
多尺度預(yù)測的代表FPN就是在3種尺度上預(yù)測目標(biāo)的。FPN[14]模型結(jié)構(gòu)如圖2所示。FPN由自底向上和自頂向下兩個路徑組成。自底向上的路徑通常是提取特征的卷積網(wǎng)絡(luò)。自底向上空間分辨率遞減,檢測到更多的高層結(jié)構(gòu),網(wǎng)絡(luò)層語義值相應(yīng)增加。FPN還采用橫向連接,起到跳躍連接的作用,可以幫助檢測器更好地預(yù)測位置。FPN采用的多尺度預(yù)測合理利用了低層特征和高層特征信息,有效提升了小目標(biāo)的檢測準(zhǔn)確率。基于FPN的Faster RCNN在COCO數(shù)據(jù)集上[APS]達(dá)到了17.5%,比之前提升了5%。
Singh等[15]對COCO數(shù)據(jù)集尺度進(jìn)行了分析,發(fā)現(xiàn)訓(xùn)練集和測試集的尺度分布存在很大差異?;跀?shù)據(jù)集分布的考慮,提出Scale Normalization for Image Pyramids (SNIP)模塊,只對與預(yù)訓(xùn)練尺度相匹配的目標(biāo)進(jìn)行梯度回傳。除此之外,作者還借鑒多尺度訓(xùn)練思想,引入圖像金字塔處理數(shù)據(jù)集中不同尺寸的數(shù)據(jù)。SNIP算法在COCO數(shù)據(jù)集上[APS]達(dá)到了31.4%,比之前的算法有較大提升;Li等[16]在FPN基礎(chǔ)上改進(jìn)了特征融合方式,將FPN由底向上逐層上采樣特征融合改為直接融合,檢測時同樣采用了多尺度預(yù)測方式,在不同網(wǎng)絡(luò)層次對目標(biāo)進(jìn)行檢測,在VOC07測試集上mAP達(dá)到了80.9%;趙亞男等[17]針對小目標(biāo)檢測精度不佳問題,以SSD和DSSD[18]為基礎(chǔ),設(shè)計(jì)融合模塊實(shí)現(xiàn)Top-Down結(jié)構(gòu)提取多尺度特征,提出了一種基于MFDSSD網(wǎng)絡(luò)(Multi-scale Fusion Deconvolutional Single Shot Detector,MFDSSD)的小目標(biāo)檢測算法,在不同尺度的特征圖上實(shí)現(xiàn)分類預(yù)測與位置回歸,在TILDA數(shù)據(jù)集上檢測精度為 78.2%mAP。
2.2 反卷積、上采樣
小目標(biāo)在圖像中所占像素較少,而且輪廓比較粗糙。如果能提高圖像特征的分辨率,使小目標(biāo)的特征變大,對小目標(biāo)檢測是有幫助的。將反卷積和上采樣應(yīng)用在網(wǎng)絡(luò)中可以提高特征圖尺寸,通過與低層特征融合可提高特征的表達(dá)力,更好地預(yù)測小目標(biāo)。
Fu等[19]針對SSD對小目標(biāo)檢測效果不好的缺點(diǎn),將SSD改進(jìn)成DSSD。DSSD將SSD中的VGG16網(wǎng)絡(luò)化成了更深的ResNet101,可以提取更深層次的目標(biāo)特征。添加了新的回歸預(yù)測模塊,利用殘差模塊消除梯度消失問題。在SSD添加的輔助卷積層后又添加了反卷積層,將高層信息與低層特征融合,使特征圖同時擁有高層和低層特征信息。該算法在 VOC2007數(shù)據(jù)集上mAP達(dá)到了81.5%;Harish Krishna等[20]在Faster RCNN基礎(chǔ)上對分辨率低的小目標(biāo)所在候選區(qū)域作超分辨率處理,提高了特征質(zhì)量及小目標(biāo)檢測準(zhǔn)確率;Jonathan等[21]提出了全卷積FCN(Fully Convolutional Networks)網(wǎng)絡(luò),舍棄了全連接層,對堆疊后的特征圖進(jìn)行上采樣,使其與原圖大小一致。對上采樣后的堆疊特征圖,在其映射到原圖位置的像素點(diǎn)上作分類預(yù)測,這樣可以基于原圖作出精細(xì)的圖像分割。對于小目標(biāo)檢測,可以通過像素點(diǎn)分類,作出更精細(xì)的位置劃分;Mate等[22]通過分析COCO數(shù)據(jù)集中小目標(biāo)物體的數(shù)量,發(fā)現(xiàn)小目標(biāo)檢測率低的原因之一是訓(xùn)練數(shù)據(jù)中缺少小目標(biāo)表示,因此提出了一種基于復(fù)制粘貼小對象的增強(qiáng)算法。除此之外還在訓(xùn)練過程中對包含小物體的圖像進(jìn)行過采樣,輕松提升了小目標(biāo)物體的檢測性能,相比于Mask RCNN在小目標(biāo)上的檢測準(zhǔn)確率提升了7%;針對SSD網(wǎng)絡(luò)中用于預(yù)測的特征圖沒有再利用問題,范欽民[23]在SSD的基礎(chǔ)上將部分高層特征圖進(jìn)行反卷積,以“element-sum”操作與低層特征圖進(jìn)行融合形成新的特征圖,提出了AFFSSD,在COCO數(shù)據(jù)集上小目標(biāo)檢測精度得到了提高;吳天舒[24]針對SSD對小目標(biāo)檢測能力不足的問題,在SSD算法中引入轉(zhuǎn)置卷積結(jié)構(gòu),將低分辨率高語義信息特征圖與高分辨率低語義信息特征圖相融合,增強(qiáng)低層特征提取能力,提高SSD算法的平均精準(zhǔn)度。
2.3 GAN
在目標(biāo)檢測上,對于GAN的應(yīng)用主要是通過生成模塊將小目標(biāo)低質(zhì)量的分辨率提高到高分辨率水平,然后利用辨別模塊不斷識別高分辨率圖像,兩者不斷競爭對抗以提高小目標(biāo)檢測能力。
Li等[25]提出了使用感知生成網(wǎng)絡(luò)提取小目標(biāo)檢測準(zhǔn)確率的方法。PGAN包含兩個子網(wǎng)絡(luò),分別是生成網(wǎng)絡(luò)和感知分辨網(wǎng)絡(luò)。生成網(wǎng)絡(luò)通過引入網(wǎng)絡(luò)低層細(xì)粒度的特征將其轉(zhuǎn)化為高分辨率特征,分辨網(wǎng)絡(luò)一方面分辨出高分辨率特征與真實(shí)大目標(biāo)特征之間的關(guān)系,另一方面使用感知損失提高目標(biāo)檢測率。通過上述網(wǎng)絡(luò),PGAN可以挖掘不同尺度物體間的結(jié)構(gòu)關(guān)聯(lián),提高小物體的特征表示,該方法在小目標(biāo)檢測準(zhǔn)確率和召回率上均優(yōu)于Faster RCNN。針對小目標(biāo)的高層特征包含信息不足的問題,黃繼鵬[26]提出了一種基于條件生成式對抗網(wǎng)絡(luò)(CGAN)的小目標(biāo)數(shù)據(jù)增強(qiáng)算法。CGAN可以生成小目標(biāo)與常規(guī)目標(biāo)之間的殘差,并利用殘差強(qiáng)化小目標(biāo)特征,應(yīng)用該方法提升Faster RCNN對小目標(biāo)的檢測精度;Bai等[27]提出了一種端到端的多任務(wù)生成對抗網(wǎng)絡(luò)(MTGAN)。MTGAN生成的模塊可以將小目標(biāo)的模糊圖像采樣生成高分辨率圖像,并恢復(fù)詳細(xì)信息以便更準(zhǔn)確地檢測。辨別模塊可以區(qū)分生成的高分辨率圖像真假,并輸出每個超分辨率圖像塊的對象類別得分和邊框回歸偏移量。在COCO數(shù)據(jù)集上,該方法對小目標(biāo)有良好的檢測效果。
3 總結(jié)與展望
基于深度學(xué)習(xí)的目標(biāo)檢測算法因其優(yōu)良的性能在許多方面取代傳統(tǒng)機(jī)器學(xué)習(xí)方法成為人們的首選。近幾年人們不斷提升目標(biāo)檢測精度,小目標(biāo)檢測準(zhǔn)確率也有了明顯提升。但相比于大目標(biāo),小目標(biāo)檢測依然是一個難點(diǎn)。隨著目標(biāo)檢測應(yīng)用場景的逐漸擴(kuò)大,對于小目標(biāo)檢測的需求也會越來越大。如何提高小目標(biāo)檢測精度將成為目標(biāo)檢測領(lǐng)域的研究方向。
基于深度學(xué)習(xí)的目標(biāo)檢測兩個分支,即基于區(qū)域提取的目標(biāo)檢測和基于回歸的目標(biāo)檢測分別在檢測準(zhǔn)確率和檢測速度上占據(jù)優(yōu)勢,但即便是檢測速度更快的基于回歸的目標(biāo)檢測也無法滿足工業(yè)需求。現(xiàn)有的檢測效果大多是建立在實(shí)驗(yàn)室環(huán)境下的,性能出色的CPU和GPU為目標(biāo)檢測提供了良好的保證。一個好的成果并不應(yīng)該屬于實(shí)驗(yàn)室,應(yīng)該有更廣泛的應(yīng)用場景。隨著人工智能應(yīng)用領(lǐng)域的不斷擴(kuò)展,無人機(jī)、智能機(jī)器人或軍工等領(lǐng)域都有目標(biāo)檢測需求。但在工業(yè)嵌入式設(shè)備中,更多采用了輕量級CPU或FPGA設(shè)備。如何讓現(xiàn)有目標(biāo)檢測算法在這些設(shè)備上更好地運(yùn)行,將現(xiàn)有算法真正做到工業(yè)級應(yīng)用,還有很多問題需要解決。
4 結(jié)語
按照基于深度學(xué)習(xí)的目標(biāo)檢測算法分類,本文系統(tǒng)地介紹了基于區(qū)域提取的目標(biāo)檢測算法和基于回歸的目標(biāo)檢測算法。在此基礎(chǔ)上重點(diǎn)關(guān)注了小目標(biāo)檢測改進(jìn)方法,并將小目標(biāo)檢測與現(xiàn)有目標(biāo)檢測的改進(jìn)方法進(jìn)行了分類匯總。最后對小目標(biāo)檢測未來的應(yīng)用和發(fā)展方向作了展望??傮w來看,小目標(biāo)檢測在檢測精度上依然存在不足,是目標(biāo)檢測的未來研究方向。
參考文獻(xiàn):
[1] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision,2004,60( 2):91-110.
[2] DALAL N,TRIGGS B. Histograms of oriented gradients for human detection [C]. IEEE Computer Society Conference on Computer Vision&Pattern Recognition,2005.
[3] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. Imagenet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems,2012: 1097-1105.
[4] UIJLINGS J R R, K E A,VAN DE SANDE,et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2):154-171.
[5] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. ?Computer Vision and Pattern Recognition, 2014.
[6] HE K M,ZHANG X Y,REN S Q. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2014.
[7] GIRSHICK R. Fast R-CNN[C]. IEEE International Conference on Computer Vision (ICCV), 2015.
[8] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[C]. Proc of Conference on Neural Information Processing Systems. [S.I.]:NIPS Press,2015:1-15.
[9] HE K,GKIOXARI G,DOLLAR P,et al. Mask R-CNN[C]. IEEE Conference on Computer Vision and Pattern Gecognition,Washington DC:IEEE Computer Society, 2018.
[10] REDMON J,DIVVALA S,GIRSHICK R,et al. You only look once:unified, real-time object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.I.]:IEEE.2016:779-788.
[11] LIU W, ANGUELOV D, ERHAN D, et al. SSD:single shot multibox detector [C]. Proc of IEEE Conference on Computer Vision and Pattern Recognition. [S.I. ]:CVPR Press,2016:13-17.
[12] REDMON J,F(xiàn)ARHADI A. YOLO9000: better,faster,stronger[J]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016(6):6517-6525.
[13] REDMON J,F(xiàn)ARHADI A. YOLOv3:an incremental improvement[C]. IEEE Conference on Computer Vision and Pattern Recognition, arXiv preprint:1804.02767, 2018.
[14] LIN T Y,DOLLAR P,GIRSHICK R,et al. Feature pyramid networks for object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition,2017: 936-944.