李美玲 張俊陽
【摘要】近年來,深度學(xué)習(xí)技術(shù)的快速發(fā)展使得計(jì)算機(jī)視覺在工業(yè)、零售、交通等多個行業(yè)中的應(yīng)用更為成熟,而實(shí)現(xiàn)計(jì)算機(jī)視覺中自動化檢測定位并識別目標(biāo)具有重要的實(shí)際意義。本文分析了小目標(biāo)檢測的定義,指出深度學(xué)習(xí)技術(shù)用于小目標(biāo)檢測所存在的難點(diǎn),并對當(dāng)前深度學(xué)習(xí)中小目標(biāo)檢測方法所取得的進(jìn)展進(jìn)行總結(jié),同時,分析相應(yīng)的優(yōu)勢和不足。
【關(guān)鍵詞】深度學(xué)習(xí);計(jì)算機(jī)視覺;小目標(biāo)檢測;
目標(biāo)檢測為計(jì)算機(jī)視覺領(lǐng)域重要研究方向之一, 在工業(yè)自動化、新零售、交通等多個方面具有巨大的應(yīng)用價值。國內(nèi)外專家學(xué)者在近些年開展了深入研究,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)算法被證明在目標(biāo)檢測方面具有優(yōu)越的性能,并取得了一系列成果。
相較于大分辨率目標(biāo),小目標(biāo)的檢測更具挑戰(zhàn)性和現(xiàn)實(shí)意義。本文分析了小目標(biāo)的定義以及檢測小目標(biāo)存在的難點(diǎn),總結(jié)了深度學(xué)習(xí)算法在小目標(biāo)檢測方向取得的研究進(jìn)展,并分析算法相應(yīng)的優(yōu)勢和不足。
1. 小目標(biāo)檢測定義及難點(diǎn)
在實(shí)際應(yīng)用中,小目標(biāo)檢測非常重要,例如自動駕駛檢測攝像頭需在獲得的高分辨率圖像中檢測較小的物體或者較遠(yuǎn)的物體、早期的腫塊或腫瘤在醫(yī)學(xué)影像中也顯得較小、工業(yè)自動化也需要對材料上的小缺陷做檢測。在計(jì)算機(jī)視覺理論中,目前尚未明確限定當(dāng)目標(biāo)的分辨率尺度或整體像素數(shù)量小于具體閾值時,其為小目標(biāo)。通常是根據(jù)研究目標(biāo)或?qū)嶋H應(yīng)用,根據(jù)需要定義小目標(biāo)。
歷年國際級MS COCO目標(biāo)檢測競賽的結(jié)果表明當(dāng)前目標(biāo)檢測算法的平均精確度有了較大的提升,但同一算法在小、中、大三種目標(biāo)的實(shí)驗(yàn)結(jié)果表明算法性能隨著目標(biāo)分辨率變小降低,三種目標(biāo)的分辨率為0×0-32×32、32×32-96×96、96×96-∞×∞。同一檢測算法,應(yīng)用于小目標(biāo)檢測得到的性能度量值僅為大目標(biāo)檢測的2至3倍,該實(shí)驗(yàn)結(jié)果為小目標(biāo)的分辨率限定提供了學(xué)術(shù)參考。故當(dāng)前提出的主流目標(biāo)檢測算法在應(yīng)用于小目標(biāo)檢測時,需在算法模型、參數(shù)、數(shù)據(jù)集等多個方面需根據(jù)實(shí)際情況做出相應(yīng)的調(diào)整。由于目標(biāo)尺度變小,獲得的信息也較少;另一方面,小目標(biāo)未能很好地出現(xiàn)在圖像中的各個位置,且小目標(biāo)占比低,數(shù)據(jù)集缺乏多樣性,由此訓(xùn)練集訓(xùn)練得到的參數(shù)更偏向于擬合大目標(biāo),原算法的模型、參數(shù)將不再適用。
2. 小目標(biāo)檢測方法
針對小目標(biāo)檢測的難點(diǎn),目前已有一系列有效的改進(jìn)方法被提出。
2.1 針對小目標(biāo)尺度提出改進(jìn)
小目標(biāo)因?yàn)榉直媛实?,圖像模糊,表觀信息少,故而所能提取的特征也較少。故通過放大小目標(biāo)獲得更多特征是直接有效的方法,代表算法有FPN、Feature-Fused SSD、SNIP。
FPN是利用常規(guī)CNN模型高效提取圖片中各維度特征的方法。2017年提出的用于目標(biāo)檢測的特征金字塔網(wǎng)絡(luò),作者主要是將頂層特征通過上采樣和低層特征做融合,而且融合后的每層都是獨(dú)立做檢測的,這將增加整體算法耗時,但是融合了低層的特征對于檢測小物體是很有幫助的。
圖1是使用FPN生成一張圖片多維度特征組合的四種方法。
圖1(a)是通過對圖片進(jìn)行壓縮或放大所形成不同維度的圖片作為模型輸入進(jìn)行處理,所得到的特征再組合,從而得到可反映多維度信息的特征集。圖1(b)僅采用網(wǎng)絡(luò)的最后一層的特征。圖1(c)是從網(wǎng)絡(luò)不同層抽取不同尺度的特征做預(yù)測。圖1(d)每層都是獨(dú)立預(yù)測的,頂層特征通過上采樣和低層特征做融合。
Feature-Fused SSD 是一種對SSD優(yōu)化小目標(biāo)檢測的算法,其主要也是將不通尺度的特征圖信息融合起來,這里的特征圖有別于FPN算法所選擇的頂層特征,選擇融合的特征圖需要經(jīng)過試驗(yàn)確定,所采用的融合方法有疊加特征圖和對特征圖元素作求和。缺點(diǎn)為作融合的特征圖需要經(jīng)過試驗(yàn)確定,具有一定的偶然性。
2018年提出的SNIP算法作者認(rèn)為目前目標(biāo)檢測算法的難點(diǎn)在于數(shù)據(jù)集中目標(biāo)物體的尺寸分布較大,尤其對于小目標(biāo)的檢測效果也有待提高,因此提出Scale Normalization for Image Pyramids (SNIP)算法來解決這個問題,SNIP相當(dāng)于開了三個pipe-line(流水線),其劃分了三個尺度,其中包括了三個并行的特征提取,對應(yīng)三種不同分辨率的圖像,每個pipe-line的RPN(區(qū)域提名網(wǎng)絡(luò))只負(fù)責(zé)一個尺度范圍的候選框生成,每個分辨率下的RoI(候選框和基準(zhǔn)框的交疊比例)都有其指定范圍,如果基準(zhǔn)框的大小在這個范圍內(nèi),就被標(biāo)記做有效,否則就被標(biāo)記為無效。每個尺度只學(xué)習(xí)最容易學(xué)的區(qū)域候選框,故SNIP對小目標(biāo)檢測準(zhǔn)確率有顯著提升,但速度慢。
2.2 針對錨框生成提出改進(jìn)
錨框是當(dāng)前基于深度學(xué)習(xí)目標(biāo)檢測算法中的重要技術(shù)之一,計(jì)算機(jī)視覺中有錨點(diǎn)或錨框,目標(biāo)檢測中常出現(xiàn)的anchor box是錨框,表示固定的參考框,也可稱為錨候選框。錨框的出現(xiàn),取代了遍歷滑窗尋找目標(biāo)的方法[3]。
在設(shè)置方面錨框需要考慮三個因素,密度、范圍、形狀數(shù)量;密度與基準(zhǔn)框和錨框的交疊比閾值有關(guān),因?yàn)橥ǔ=化B比閾值設(shè)置越高,則有效的錨框數(shù)量越少。范圍則需要根據(jù)任務(wù)檢測目標(biāo)的范圍確定。形狀數(shù)量則通常會選取多比例多尺度,可適當(dāng)增加錨框的密度,諸如三個尺度三個比例就有九個形狀的錨框。
2.3 針對ROI池化提出改進(jìn)
現(xiàn)有的ROI池化破壞了小目標(biāo)的結(jié)構(gòu),提出了一個基于周邊信息的RoI池化來維護(hù)小目標(biāo)的周邊信息和原始結(jié)構(gòu)。這也是改進(jìn)小目標(biāo)檢測的研究方向之一。
2.4 針對訓(xùn)練數(shù)據(jù)集提出改進(jìn)
針對訓(xùn)練數(shù)據(jù)集提出改進(jìn),一方面可直接對訓(xùn)練數(shù)據(jù)集中的小目標(biāo)圖像做放大之后再進(jìn)行裁剪,相當(dāng)于將目標(biāo)變大,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更多的信息;另一方面,可將小物體在圖片中復(fù)制多份,在保證不影響其他物體的基礎(chǔ)上,增加小物體在圖片中出現(xiàn)的次數(shù)(把小目標(biāo)扣下來貼到原圖中去),提升被錨框包含的概率。但只單對訓(xùn)練數(shù)據(jù)集改進(jìn),性能提升較小。
3. 總結(jié)
本文分析了小目標(biāo)檢測的定義以及存在的難點(diǎn),總結(jié)了當(dāng)前深度學(xué)習(xí)中小目標(biāo)檢測方法的發(fā)展,通過目前所提出的一系列改進(jìn)方法,能夠有效提升深度學(xué)習(xí)中小目標(biāo)檢測的性能。
參考文獻(xiàn):
[1] 萬維.基于深度學(xué)習(xí)的目標(biāo)檢測算法研究及應(yīng)用[D].
[2] 李名波.基于機(jī)器學(xué)習(xí)的目標(biāo)檢測算法綜述[J].計(jì)算機(jī)產(chǎn)品與流通(06):156-157.
作者簡介:李美玲(1988—),女,廣東廉江人,大學(xué)本科,主要從事通信工程設(shè)計(jì)與管理和樓宇智能化工程技術(shù)的教學(xué)工作。張俊陽(1991—),男,廣東揭陽人,碩士研究生,主要從事通信工程、模式識別的研究工作。