廖龍杰 呂文濤 葉冬 郭慶 魯競 劉志偉
摘 要: 基于深度學(xué)習(xí)的小目標檢測算法可以有效提高小目標檢測性能和檢測速率,在圖像處理領(lǐng)域得到了廣泛應(yīng)用。首先概述了小目標檢測的難點,分別對基于錨框優(yōu)化、基于網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、基于特征增強的小目標檢測算法進行了分析,總結(jié)了各算法的優(yōu)缺點;然后介紹了用于小目標檢測的公共數(shù)據(jù)集和小目標檢測算法的評價指標,對檢測算法的性能指標進行了分析;最后對小目標檢測算法已經(jīng)解決的難點進行了總結(jié),并對有待后續(xù)研究方向進行了展望。深度學(xué)習(xí)在小目標檢測領(lǐng)域仍有較大的發(fā)展空間,在模型通用性、耗時與精度和特定場景的小目標檢測等方面有待深入研究。
關(guān)鍵詞:深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);圖像處理;目標檢測;小目標檢測
中圖分類號:TP391.4
文獻標志碼:A
文章編號:1673-3851 (2023) 05-0331-13
引文格式:廖龍杰,呂文濤,葉冬,等. 基于深度學(xué)習(xí)的小目標檢測算法研究進展[J]. 浙江理工大學(xué)學(xué)報(自然科學(xué)),2023,49(3):331-343.
Reference Format: LIAO? Longjie,L? Wentao, YE Dong,et al. Research progress of small target detection based on deep learning[J]. Journal of Zhejiang Sci-Tech University,2023,49(3):331-343.
Research progress of small target detection based on deep learning
LIAO Longjie1,L? Wentao1, YE Dong2, GUO Qing3,LU Jing3, LIU Zhiwei1
(1a.School of Information Science and Engineering; 1b.Key Laboratory of Intelligent Textile and Flexible Interconnection of Zhejiang Province, Zhejiang Sci-Tech University, Hangzhou 310018, China; 2.Zhejiang Mobile Information System Integration Co., Ltd., Hangzhou 311217, China; 3.Zhejiang Technology Innovation Service Center, Hangzhou 310007, China)
Abstract: The small target detection algorithm based on deep learning can effectively improve the detection performance and detection rate of small targets, and has been widely used in the field of image processing. Firstly, the difficulties of small target detection are summarized, and the small target detection algorithms based on anchor frame optimization, network structure optimization and feature enhancement are analyzed respectively, and the advantages and disadvantages of each algorithm are summarized.Then, the common data set for small target detection and the evaluation index of small target detection algorithm are introduced, and the performance index of the detection algorithm is analyzed. Finally, the difficulties that have been solved by the small target detection algorithm are summarized, and the future research directions are prospected. Deep learning still has a large development space in the field of small target detection, and needs to be further studied in the aspects of model universality, time consuming and precision, and small target detection in specific scenes.
Key words:deep learning; neural network; image processing; object detection; small target detection
0 引 言
在圖像處理中,小目標檢測是一個非常重要的研究方向。小目標檢測算法的發(fā)展過程可以大致分為兩個階段,即傳統(tǒng)的小目標檢測算法和基于深度學(xué)習(xí)的小目標檢測算法[1]。傳統(tǒng)的目標檢測方法主要有3個步驟:選擇候選目標區(qū)域、提取特征和利用分類器分類[2]。傳統(tǒng)的目標檢測算法有很多不足,如目標區(qū)域選擇算法一般采用滑動窗口實現(xiàn),針對性較差,時間復(fù)雜度較高,冗余窗口較多,并且魯棒性也不強,檢測的效率和準確性都很低。因此,傳統(tǒng)的目標檢測算法并不適用于小目標檢測。然而,隨著深度學(xué)習(xí)技術(shù)在圖像處理中的應(yīng)用,小目標檢測技術(shù)已經(jīng)取得了長足的進步。
基于深度學(xué)習(xí)的小目標檢測算法,通常在兩階段目標檢測算法和單階段目標檢測算法的基礎(chǔ)上改進。這兩種算法可以根據(jù)是否需要生成候選區(qū)域進行劃分[3]。兩階段目標檢測算法首先將目標可能出現(xiàn)的區(qū)域(即候選區(qū)域)篩選出來,然后對候選區(qū)域中的目標進行分類和回歸。目前兩階段目標檢測算法的典型代表為R-CNN系列算法[4],如Sparse R-CNN[5]、DeFRCN[6]等。相較于兩階段目標檢測算法,單階段目標檢測算法無需生成候選區(qū)域,直接計算物體的類別概率和位置坐標,經(jīng)過一次檢測即可得到最終的檢測結(jié)果?,F(xiàn)階段較為常用的單階段目標檢測算法有YOLO系列目標檢測算法[7-9]和SSD系列目標檢測算法[10-13]。因為兩階段目標檢測算法分為兩步進行,通常效率較低,但檢測效果較好;而單階段目標檢測算法只有一步操作,因此它較兩階段目標檢測算法速度更快,但檢測的精度略有下降。
目前基于深度學(xué)習(xí)的目標檢測算法在大、中型目標上已取得了較好的結(jié)果,但由于小目標在圖像中面積占比小,難以獲取有效的特征信息,檢測性能并不理想[14]。目前,在Microsoft common objects in context(以下簡稱“MS COCO”)等公共數(shù)據(jù)集[15]中,小目標檢測算法的精度遠不及大目標和中目標檢測算法,并且經(jīng)常出現(xiàn)漏檢和誤檢。雖然小目標的檢測十分困難,但是小目標大量存在于各個場景中,有著重要應(yīng)用,這也讓小目標檢測成為圖像處理領(lǐng)域的研究熱點。
本文檢索了近幾年來國內(nèi)外典型的相關(guān)文獻,對各類基于深度學(xué)習(xí)的小目標檢測算法進行了綜述。首先,概述了小目標檢測算法的難點;其次,將基于深度學(xué)習(xí)的小目標檢測算法分為基于錨框優(yōu)化的小目標檢測算法、基于網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的小目標檢測算法、基于特征增強的小目標檢測算法3類,分析了小目標檢測算法的研究現(xiàn)狀,并總結(jié)了各算法的優(yōu)缺點;再次,介紹了用于小目標檢測的公共數(shù)據(jù)集和小目標檢測算法的評價指標,并對檢測算法的性能指標進行了分析;最后,對小目標檢測算法的研究進展進行了總結(jié),并對未來研究進行了展望。
1 小目標檢測算法的難點
各類基于深度學(xué)習(xí)的目標檢測算法在對于大目標檢測時效果相對較好,而對于小目標的檢測的效果相對較差,主要原因有如下幾點。
a)小目標的特征信息難以被充分提取。在圖像中,小目標不像大、中目標占較大的面積,一般并不清晰,且不如大、中目標那樣攜帶豐富的特征信息,因此小目標易受噪音干擾,檢測模型無法精確定位小目標,且不易對目標類型進行分類[16]。
b)小目標樣本難以在數(shù)據(jù)集中平均分布。目前,公共數(shù)據(jù)集普遍存在一個問題,即大、中目標的數(shù)量遠遠多于小目標的數(shù)量。如MS COCO數(shù)據(jù)集[15],小目標所占比例只有31.62%,且每幅圖像的目標數(shù)量龐大,小目標分散于圖像的各個位置。又比如TinyPerson數(shù)據(jù)集[17],每一幅圖像中小目標數(shù)量差異較大,有的圖像中小目標數(shù)量非常的多,超過100個,也有的圖像中小目標數(shù)量非常的少,不足20個。這樣目標不均勻分布的樣本,在使用特定方法訓(xùn)練時難以提升模型的檢測性能。同時,模型訓(xùn)練時更加關(guān)注大、中目標,小目標樣本數(shù)量不均也加大了模型訓(xùn)練的困難程度。
c)小目標檢測模型的先驗框難以設(shè)置。預(yù)先設(shè)定的先驗框,通常都有固定的尺寸和比例,對于大、中目標的檢測一般比較有效。但對于小目標,其尺寸較小且比例可能不像大、中目標那樣易于預(yù)估,這樣導(dǎo)致先驗框幾乎不能正確框選小目標,甚至有可能框選的大目標中包含了小目標,造成了正負樣本不均衡,使模型訓(xùn)練變得困難[18]。
d)小目標檢測模型的損失函數(shù)難以設(shè)置。對于采用深度學(xué)習(xí)的目標檢測算法來說,每輪訓(xùn)練完成后需要計算損失并進行回歸來優(yōu)化參數(shù)的設(shè)置,而最初的損失函數(shù)是為大、中目標而設(shè)計的。損失函數(shù)由定位損失和類別損失組成,有些算法在這兩種損失的基礎(chǔ)上額外增加了交并比損失。在進行回歸優(yōu)化時,有些損失忽略了小目標樣本的特殊性,使得部分檢測模型的效果較差。
e)小目標檢測模型的正負樣本難以匹配?,F(xiàn)階段,正負樣本的劃分是按照檢測器生成的邊界框與真實框之間的交并比決定的。通常交并比大于50%所對應(yīng)的錨框中的目標判定為正樣本,其余為負樣本[7]。但是,一般小目標在圖像中所占的面積較小,有時交并比很難達到50%,小目標匹配的情況不如大、中目標那么理想,存在包含很多小目標的正樣本遺漏的情況。
f)小目標檢測模型難以通用?,F(xiàn)階段,小目標的數(shù)據(jù)集通常是某一類物體,例如織物瑕疵數(shù)據(jù)集,小目標樣本全都是織物瑕疵,TinyPerson數(shù)據(jù)集的小目標樣本都是一些小型人物目標。這樣造成訓(xùn)練出來的模型只能專門檢測某一類物體,模型的通用性會非常差。
2 基于錨框優(yōu)化的小目標檢測算法
在目標檢測中,錨框(Anchor box)是以圖像的每個像素點為中心生成的多個大小和寬高比不同的邊界框。目前絕大多數(shù)基于深度學(xué)習(xí)的目標檢測算法都是基于錨框機制(Anchor based)設(shè)計的。但基于錨框機制的目標檢測算法主要用來檢測大目標或者中目標,對于小目標的檢測效果不好,因此有不少研究人員對基于錨框機制的小目標檢測算法進行研究,且近幾年基于無錨框機制(Anchor free)的小目標檢測也是研究的熱點。
2.1 錨框機制
錨框機制最早出現(xiàn)于兩階段目標檢測算法Faster R-CNN[4]中的Region proposal network (RPN),RPN使用特征提取的形式生成預(yù)選框的位置,從而降低了Selective search算法帶來的計算時間上的開銷。而在單階段目標檢測算法如YOLO V3中,錨框是通過使用K-means聚類算法從真實框中得到一些不同寬高比的框?,F(xiàn)階段大部分目標檢測算法都是使用錨框機制來選擇候選區(qū)域,顯著提升小目標檢測效果的方法之一就是改善錨框的設(shè)置機制。
Yang等[19]針對預(yù)先設(shè)定錨框的尺寸比例過于死板的問題,提出了MetaAnchor,這是一種動態(tài)錨框生成機制,MetaAnchor可以自定義任意的錨框,并從中選擇合適的動態(tài)生成。Zhang等[20]提出了單鏡頭尺度不變?nèi)四槞z測器,對不同尺度的人臉采用不同尺度的錨框,并通過尺度補償錨框匹配機制提高小人臉的召回率,顯著提高了錨框?qū)τ谛∧繕似ヅ涞某晒β?。Wang等[21]提出一種稱為引導(dǎo)錨框的錨框生成機制,其中錨框的選定借助上下文信息引導(dǎo)實現(xiàn),同時該機制還推算出目標中心點可能出現(xiàn)的坐標和不同坐標處的尺度和長寬比,并通過自適應(yīng)的方法來解決錨框形狀特征不相符的問題。
以上幾種方法都采用動態(tài)的方法來產(chǎn)生錨框,這些方法能有效解決錨框預(yù)先設(shè)定后無法改動的問題,能有效提高基于錨框機制的小目標檢測算法的性能。
此外,由于小目標一般數(shù)量規(guī)模較大且密集,錨框在該問題上表現(xiàn)的效果非常差,以下幾種方法是較為有效的改進方法。Zhang等[22]提出了一種關(guān)于錨框密度的策略,讓在同一幅圖像上不同類型的錨框具有相同的密度,從而大幅提高了小人臉的召回率。Zhu等[23]提出了一種錨框設(shè)計方案,引入了新的預(yù)期最大重疊分數(shù),該分數(shù)可以從理論上解釋錨框與小目標人臉低重疊問題,使基于錨框的小目標人臉檢測獲得更好的性能。Wang等[24]提出了一種稱為SFace的算法,有效整合了基于錨框和不基于錨框的方法,以解決高分辨率圖像和視頻中廣泛存在的尺度變化較大的問題,該算法能有效提高具有超大尺度變化的人臉檢測算法的性能。
2.2 無錨框機制
錨框在目標檢測中起到了重要的作用,目前大部分的目標檢測算法都是基于錨框設(shè)計的,但是該類算法也有不足之處。第一,錨框通常需要預(yù)先設(shè)定大小和比例,這對于檢測小目標不利。相較于大目標,小目標不易被錨框框選,這會造成正負樣本不均衡,使模型難以針對小目標進行訓(xùn)練。第二,錨框引入超參數(shù)過多,如錨框數(shù)量、大小、長寬比等,提高了算法設(shè)計難度。因此,最近幾年來目標檢測領(lǐng)域逐漸將研究的主要方向轉(zhuǎn)移到無錨框機制上,在小目標檢測應(yīng)用上顯著提升了檢測效果。
無錨框機制的一種研究思路是將原先用錨框來框選目標的操作改成根據(jù)關(guān)鍵點來定位目標。根據(jù)關(guān)鍵點的目標檢測主要包含兩種:一種是根據(jù)角點來定位,另一種是根據(jù)中心點來定位。DeNet通過估計4個角點來替代錨框定位,這4個角點分別為左上、右上、左下、右下角點,具體流程為:a)讓模型訓(xùn)練帶有標簽的數(shù)據(jù)集;b)用訓(xùn)練好的模型預(yù)測角點的位置分布;c)將4個角點所包圍的區(qū)域定為候選區(qū)域[25]。Law等[26]提出了一種根據(jù)角點來定位目標的網(wǎng)絡(luò)模型CornerNet,CornerNet通過兩個點來定位:左上和右下角點,具體流程為:首先將所有目標的左上和右下角點的位置預(yù)測出來,并在每兩個角點中嵌入距離向量,通過判斷距離向量,讓屬于同一個目標的兩個角點兩兩配對,然后利用這兩個角點生成目標的邊界框。
CornerNet有效地解決了錨框預(yù)先固定尺寸和高寬比對小目標檢測帶來的困難,但CornerNet也有明顯的缺點。CornerNet在生成目標邊界框時,有時不能準確框選目標的邊界,有的邊界框雖然框選了目標,但存在邊界框遠遠大于目標的情況;此外還會框選錯誤的目標,出現(xiàn)了很多冗余和錯誤的目標框。針對這個問題,Duan等[27]提出了一種借助中心點提高判別能力的檢測框架CenterNet。CenterNet使用3個關(guān)鍵點,即左上角點、中心點、右下角點,這讓網(wǎng)絡(luò)能通過中心點來加強網(wǎng)絡(luò)對物體的辨別能力,能有效減少冗余和錯誤的目標框。
全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional networks, FCN)通過對圖像每個像素點都進行分類,解決了很多語義分割的問題,特別是對于密集型的預(yù)測任務(wù),F(xiàn)CN的完成情況相對較好。受到FCN的啟發(fā),Tian等[28]在目標檢測框架上運用語義分割的方法,提出了一種基于全卷積的單階段目標檢測框架(Fully convolutional one-stage object detection, FCOS),解決了由錨框過多帶來的超參數(shù)計算困難的問題;同時,該研究表明將FCOS應(yīng)用于兩階段檢測模型的第一階段,也能顯著提高檢測效率。
3 基于網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的小目標檢測算法
用于小目標檢測算法的一般網(wǎng)絡(luò)模型的結(jié)構(gòu)由骨干網(wǎng)絡(luò)(Backbone)、特征融合與特征增強(Neck)和檢測頭(Head)3部分組成。優(yōu)化Backbone和Neck可顯著提升小目標檢測性能,此外在模型上加入注意力機制也能起到較好的效果。下面將從這幾個角度介紹相關(guān)研究進展。
3.1 Backbone優(yōu)化
目標檢測模型通常使用骨干網(wǎng)絡(luò)進行特征提取操作,典型的骨干網(wǎng)絡(luò)有AlexNet、VGGNet、ResNet、GoogLeNet等[29]。由于特征提取網(wǎng)絡(luò)通過多層卷積層進行下采樣來提取特征,在這過程中目標特別是小目標的特征容易丟失,眾多研究人員提出了引入CSP模塊和殘差模塊等改進方案。
YOLO V3模型采用DarkNet-53作為骨干網(wǎng)絡(luò)。Bochkovskiy等[30]受到Cross stage partial network(CSPNet)思想的啟發(fā),在YOLO V3的基礎(chǔ)上提出YOLO V4模型,該模型構(gòu)造CSPDarkNet-53作為骨干網(wǎng)絡(luò)進行特征提取操作,在減少了計算量的同時可以保證準確率。崔文靚等[31]針對YOLO V3算法檢測公路車道線準確率低和漏檢率高的問題,提出了一種基于改進YOLO V3網(wǎng)絡(luò)結(jié)構(gòu)的公路車道線檢測方法,該方法去掉了3個YOLO層前的兩組卷積層,降低了車道線小目標在復(fù)雜背景下漏檢的概率。Pan等[32]對YOLO-Tiny的骨干網(wǎng)絡(luò)進行改進,將DenseNet作為骨干網(wǎng)絡(luò)。DenseNet可以將本層特征層的輸出作為下一層的輸入,使每一層特征信息的利用率上升,消除了部分冗余參數(shù),提升了網(wǎng)絡(luò)訓(xùn)練的效率。Fu等[11]提出反卷積單步檢測模型(Deconvolutional single shot detector, DSSD),該模型在SSD的基礎(chǔ)上將骨干網(wǎng)絡(luò)由VGG更換為ResNet-101,并在此基礎(chǔ)上增加了反卷積和預(yù)測模塊,讓模型增強了識別和分辨小目標的能力。
由此可見,通過引入CSP模塊和殘差模塊,可以有效提高模型的性能,其主要思想都是降低卷積操作對小目標的影響。此外,關(guān)于DenseNet和DSSD,第一個模型是建立特征通道使前面的特征能傳遞到后面,第二個模型是采用反卷積模塊,兩個模型都是通過提高特征的利用率來提升小目標的檢測性能。
3.2 Neck優(yōu)化
在骨干網(wǎng)絡(luò)提取特征時,分布在淺層的特征因下采樣次數(shù)少,特征信息損失較少,具有較高的分辨率和大量位置特征信息,但語義特征信息不足;深層特征經(jīng)過多層下采樣,特征損失較多,分辨率也下降較多,但是語義特征信息得到了增強。引入特征融合和特征增強(Neck),可將淺層特征和深層特征結(jié)合,也是一種提高小目標檢測性能的方式。
遙感圖像目標通常會遇到目標間尺度差距較大和種類間近似度較高的問題,多尺度特征融合是一種解決該問題的方法,但目前基本上都采用不變的權(quán)重系數(shù)來融合不同尺度的特征,忽略了目標尺度對特征融合的影響。針對該問題,謝星星等[33]提出了一種動態(tài)特征融合網(wǎng)絡(luò),通過引入特征門控和動態(tài)融合模塊實現(xiàn)了多尺度特征的動態(tài)融合,其中特征門控模塊在特征融合前針對性地對部分特征進行了加強或者削弱,減少了背景信息對之后融合的影響,動態(tài)融合模塊可以根據(jù)目標的尺度動態(tài)調(diào)整融合的權(quán)重,該網(wǎng)絡(luò)在大規(guī)模遙感目標檢測數(shù)據(jù)集上驗證了其有效性。
針對之前用來特征融合的Feature pyramid networks(FPN)層都是由手工設(shè)計的,Ghiasi等[34]提出了特征金字塔網(wǎng)絡(luò)NAS-FPN,該網(wǎng)絡(luò)主要由自下而上和自上而下的連接組成,可以跨范圍地融合特征,優(yōu)化了小目標的特征融合。
3.3 注意力機制優(yōu)化
除了改進Backbone和Neck之外,在網(wǎng)絡(luò)模型中加入注意力機制也是一種改進方式。添加注意力機制后,網(wǎng)絡(luò)模型能重點關(guān)注候選區(qū)域的局部特征,提高了模型的檢測效率。對于小目標檢測來說,引入注意力機制可以使網(wǎng)絡(luò)更加關(guān)注小目標所在的位置,增強了小目標的特征表達能力。
Lim等[35]提出一種上下文注意力機制,該機制可以聚焦于圖像中的目標,并且還可以聚焦來自目標層的上下文信息,能有效降低淺層環(huán)境噪聲的影響,能使檢測器聚焦于小目標。Hu等[36]提出了Squeeze-and-excitation networks(SENet),該網(wǎng)絡(luò)對通道維度上的特征進行信息權(quán)重分配,對重要程度不同的信息分配不同的權(quán)重,以此在特征通道上加入注意力機制。Wang等[37]認為SENet對通道注意力機制的預(yù)測帶來了副作用,捕獲所有通道的依賴關(guān)系是低效并且是不必要的,認為卷積具有良好的跨通道信息獲取能力,并提出了ECA-Net;該網(wǎng)絡(luò)將SE模塊中的全連接層去除,直接在全局平均池化之后的特征上通過一個1D卷積進行學(xué)習(xí)。Shen等[38]提出了一種群體多尺度注意力金字塔網(wǎng)絡(luò)(Group multi-scale attention pyramid network, GMSAPN),通過引入一個多尺度注意力模塊,聚集了不同尺度的特征,并且抑制了背景中的雜亂信息。Li等[39]提出了一種跨層注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)設(shè)計了一個跨層注意力模塊,獲得了每個層中小目標的非局部關(guān)聯(lián),并通過跨層集成和平衡進一步增強小目標的特征表達能力。
4 基于特征增強的小目標檢測算法
由于小目標的特征信息較為缺乏,在檢測過程經(jīng)常會受到抑制,而增強特征能有效提高小目標檢測性能。本文總結(jié)并分析了以下幾種特征增強的算法,分別為基于生成對抗網(wǎng)絡(luò)的小目標檢測算法、基于數(shù)據(jù)增強的小目標檢測算法、基于多尺度學(xué)習(xí)的小目標檢測算法、基于上下文學(xué)習(xí)的小目標檢測算法和基于其他優(yōu)化模型的小目標檢測算法。
4.1 生成對抗網(wǎng)絡(luò)
Goodfellow等[40]于2014年提出了生成對抗網(wǎng)絡(luò)(Generative adversarial network, GAN)。該網(wǎng)絡(luò)是由生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)這兩個相互對抗的子網(wǎng)絡(luò)構(gòu)成,在兩者競爭對抗的過程中,將各自的參數(shù)進行交替學(xué)習(xí)和更新。在小目標檢測中,一般把分辨率較低的小目標通過GAN轉(zhuǎn)換成對應(yīng)的分辨率高的特征,讓小目標與其他較大目標的特征差異縮小,使小目標的特征信息表達得更清晰,從而提高小目標檢測效果。
Li等[41]提出了一種新的生成對抗網(wǎng)絡(luò)模型,該模型通過生成對抗學(xué)習(xí),將感知到的低分辨率小目標轉(zhuǎn)換為超分辨率表示,縮小小目標與大目標的表示差異,以改進小目標檢測算法。Bai等[42]提出了多任務(wù)生成對抗網(wǎng)絡(luò)(Multi-task generative adversarial network, MTGAN),它將生成器網(wǎng)絡(luò)提升到超分辨率,該超分辨率網(wǎng)絡(luò)可以通過上采樣將不清晰的小目標采樣到清晰的圖像中,讓不清晰的小目標還原為清晰的狀態(tài),從而提供更多特征信息來獲得更精確的檢測結(jié)果。Noh等[43]提出一種特征超分辨率方法,該方法在檢測時通過對抗生成網(wǎng)絡(luò)將普通特征轉(zhuǎn)化為超分辨率的特征,在對抗生成網(wǎng)絡(luò)轉(zhuǎn)化小目標時,會充分利用上下文信息,擴大了感受野。
基于生成對抗網(wǎng)絡(luò)的超分辨率圖像增強模型具有較好的圖像增強性能,但在重構(gòu)圖像時常常丟失邊緣信息,尤其是遙感小目標。由此,Rabbi等[44]提出了端到端的增強型超分辨率生成對抗網(wǎng)絡(luò)(End-to-end enhanced super-resolution generative adversarial network, EESRGAN),該網(wǎng)絡(luò)借鑒了EEGAN和ESRGAN,以端到端的方式運用不同的檢測網(wǎng)絡(luò),并將得到的損失反饋回去,提高了小目標尤其是遙感目標的檢測性能。Zhao等[45]針對紅外小目標的基本特征,提出了一種基于生成對抗網(wǎng)絡(luò)的目標檢測模型,該模型根據(jù)紅外小目標其獨特的分布特征,添加了對抗性損失以提高定位能力,構(gòu)建了一個生成對抗網(wǎng)絡(luò)模型來自動學(xué)習(xí)目標的特征并直接預(yù)測目標的類別概率。
4.2 數(shù)據(jù)增強
數(shù)據(jù)增強一般用于訓(xùn)練集,指的是讓原本少量有限的數(shù)據(jù)通過某種方法變得更多,擴充可訓(xùn)練的樣本量,并且通過增加類別不同的樣本使其多樣性得以提升,從而減少模型對參數(shù)的依賴,可以防止模型過擬合。數(shù)據(jù)增強的方法一般有:將數(shù)據(jù)上下左右各種方向平移,將數(shù)據(jù)旋轉(zhuǎn)不同角度,變換顏色、調(diào)整亮度、調(diào)整飽和度和色調(diào)等。對于小目標像素低、特征信息不足、樣本數(shù)量少等困難,數(shù)據(jù)增強方法也可提高小目標檢測算法的性能。
Kisantal等[46]提出了一種復(fù)制增強的方法,這個方法將小目標復(fù)制出很多個副本,增加小目標的數(shù)量,讓訓(xùn)練集有更多的小目標樣本,解決了小目標在圖像中面積占比低、在圖像中分布不合理等問題,有效提升了小目標的檢測效果。針對復(fù)制時有可能發(fā)生的背景和尺度無法配對的情況,Chen等[47]提出了一種稱為RRNet的混合檢測器,引入了重采樣策略,在邏輯上進行數(shù)據(jù)增強;該策略是自適應(yīng)的,能夠根據(jù)當前語義環(huán)境在復(fù)制數(shù)據(jù)時將數(shù)據(jù)的周圍環(huán)境信息也考慮進去,表現(xiàn)出較好的數(shù)據(jù)增強效果。
在一般情況下,網(wǎng)絡(luò)的預(yù)訓(xùn)練數(shù)據(jù)集和檢測器學(xué)習(xí)的數(shù)據(jù)集在尺度上要相適配,如果出現(xiàn)不匹配情況,可能會對特征表示和檢測器造成負面影響。針對這個問題,Yu等[17]提出了一種尺度匹配方法,使兩個數(shù)據(jù)集之間的目標尺度相適配。該方法按照目標大小進行相應(yīng)的裁剪,使目標之間的尺度差異盡可能地減少,讓小目標在縮放操作時的特征丟失大幅減少。Chen等[48]引入了一種由反饋驅(qū)動的數(shù)據(jù)提供器Stitcher,用平衡的方式訓(xùn)練目標檢測器。在訓(xùn)練過程中,Stitcher對數(shù)據(jù)進行壓縮和拼接,將數(shù)據(jù)集中的目標尺度縮小一個量級,解決了小目標在數(shù)據(jù)集中占比不平衡導(dǎo)致的問題,提高了小目標檢測性能。此外,強化學(xué)習(xí)也可以應(yīng)用于數(shù)據(jù)增強,如Zoph等[49]提出了一種數(shù)據(jù)增強方法,該方法通過強化學(xué)習(xí)將最合適的數(shù)據(jù)選出來,讓模型選擇最優(yōu)的數(shù)據(jù)進行訓(xùn)練,提高了小目標檢測性能。
4.3 多尺度學(xué)習(xí)
目標檢測網(wǎng)絡(luò)的最后一層通常都是對前面獲得的特征信息進行回歸和預(yù)測,但隨著網(wǎng)絡(luò)的深入,一些較小的目標信息在經(jīng)過大量的下采樣后逐漸損失,不容易被網(wǎng)絡(luò)識別出。小目標在淺層網(wǎng)絡(luò)有較多的坐標信息,在深層網(wǎng)絡(luò)中有較多上下文信息,兼顧這兩種信息才能更好地檢測小目標,而多尺度學(xué)習(xí)在一定程度上可以完成這一任務(wù)。
Liu等[10]提出了單步多框目標檢測算法(Single shot multibox detector, SSD),該算法對不同尺度的特征圖進行分層檢測,淺層的特征圖感受野小,適合檢測小目標,深層特征圖感受野大,適合檢測大目標。Bell等[50]提出了Inside-outside net(ION),該網(wǎng)絡(luò)首先收集了待檢測目標可能出現(xiàn)區(qū)域的淺層到深層的不同尺度的特征圖,并在其中提取出所需的特征,將這些不同尺度的特征信息相結(jié)合,消除了背景環(huán)境對小目標檢測造成的影響。
以上兩種多尺度學(xué)習(xí)方法通過對不同層次采取不同的操作進行特征提取,此外還可以采用不同尺度特征融合的方法。Zeng等[51]提出了一種增強多尺度特征的融合方法,即空洞空間金字塔池平衡特征金字塔網(wǎng)絡(luò)(Atrous spatial pyramid pooling-balanced-feature pyramid network, ABFPN),該網(wǎng)絡(luò)采用具有不同膨脹率的空洞卷積算子來充分利用上下文信息,應(yīng)用跳躍連接來實現(xiàn)特征的充分融合。Lin等[52]提出了特征金字塔網(wǎng)絡(luò)(Feature pyramid networks, FPN),該網(wǎng)絡(luò)在特征提取網(wǎng)絡(luò)之后,將特征提取獲得的最后一層特征層經(jīng)過上采樣后與相鄰的同尺寸的特征層進行融合,可以在不浪費較多計算資源的情況下獲得更好的特征增強效果。Han等[53]提出了多尺度殘差塊(Multiscale residual block, MRB),通過在級聯(lián)殘差塊中使用擴張卷積來捕獲多尺度上下文信息,從而提高卷積神經(jīng)網(wǎng)絡(luò)的特征表示能力。Cao等[54]提出了Feature-fused SSD,該算法在SSD上改進,特征融合時增加了上下文信息,減少了小目標檢測的計算時間。Li等[13]提出了特征融合單階段多框檢測器(Feature fusion single shot multi-box detector, FSSD),該算法在特征融合階段選擇小型模塊,先將不同尺度的特征提取出來,然后將它們?nèi)诤系揭粋€較大尺度的特征圖中,之后在這個大尺度的特征圖上建立FPN,解決了在不同特征層上提取的特征尺度不同導(dǎo)致融合困難的問題。
除了將不同尺度特征融合的方法外,提升特征圖尺度和增強圖像分辨率也是有效的方法。Nayan等[55]提出了一種目標檢測算法,在特征融合階段,將特征圖向上采樣,使特征圖尺度增大,并使用跳躍連接,可以獲得不同尺度下的多種特征,在對小目標檢測上取得了不錯的提升。Liu等[56]提出了一種高分辨率檢測網(wǎng)絡(luò)(High-resolution detection network, HRDNet),通過將高分辨率圖像輸入淺層網(wǎng)絡(luò),以保留更多位置信息并降低計算成本,將低分辨率圖像輸入深層網(wǎng)絡(luò)以提取更多語義信息,不僅能節(jié)約計算成本還能增強檢測效果。Deng等[57]提出了擴展特征金字塔網(wǎng)絡(luò)(Extended feature pyramid network, EFPN),EFPN的特征金字塔具有超高分辨率,適合檢測小目標,能夠有效解決特征金字塔中不同尺度的特征耦合影響小目標檢測性能的不足。
4.4 上下文學(xué)習(xí)
由于小目標分辨率較低,特征信息較少,小目標檢測較易受周圍背景環(huán)境信息影響,因此將小目標周圍的背景環(huán)境信息即上下文信息作為額外信息能有效地提升小目標檢測性能。
Feng等[58]提出了三重上下文感知網(wǎng)絡(luò)(Triple context-aware network, TCANet),該網(wǎng)絡(luò)引入了全局上下文感知增強(Global context-aware enhancement, GCAE)模塊,通過捕獲全局視覺場景上下文來激活整個目標的特征。Lim等[35]提出了一種基于上下文連接多尺度特征的目標檢測方法,該方法通過連接多尺度特征,將各層的附加特征作為語義特征,并引入了注意力機制,使模型關(guān)注圖像中的目標,更好地利用語義信息,提高了模型在實際場景下對小目標的檢測性能。Shen等[59]提出了一種基于特征聚合模塊和混合注意力選擇模塊HSFA2Net的室內(nèi)多人檢測網(wǎng)絡(luò)模型,其中特征聚合模塊使用聚合和離散的思想來融合環(huán)境語義信息,給小目標多人檢測提供了更多的詳細信息,而提出的改進混合注意選擇模塊將選擇機制與混合注意模塊相結(jié)合,解決了室內(nèi)群體特征和背景特征重疊且分類邊界不明顯的問題,有效地提高了室內(nèi)小目標多人的檢測效果。Cui等[60]提出了一種上下文感知塊網(wǎng)絡(luò)(Context-aware block net, CAB Net),通過構(gòu)建高分辨率和強語義特征圖來提高小目標檢測性能。Leng等[61]提出了一種基于內(nèi)部-外部網(wǎng)絡(luò)(Internal-external network, IENet)的檢測器,它使用目標的外觀和上下文信息進行魯棒檢測,從特征提取、定位和分類等方面改進了小目標檢測算法。Guan等[62]提出了語義上下文感知網(wǎng)絡(luò)(Semantic context aware network, SCAN),通過金字塔池化融合多級上下文信息,以構(gòu)建上下文感知特征,有效提高了對小目標檢測的性能。
由此可見,小目標與背景場景存在一定的聯(lián)系,通過研究這種關(guān)系可以有效提升小目標的檢測性能。
4.5 其他優(yōu)化模型
損失函數(shù)對小目標檢測的效果有很大影響,將其優(yōu)化也是一種不錯的思路。Chen等[48]發(fā)現(xiàn)由于小目標在圖像中面積占比較少,在模型訓(xùn)練時小目標對損失函數(shù)基本沒有有效的反饋,因此提出了一種目標檢測算法Stitcher,將訓(xùn)練損失作為反饋,指導(dǎo)下一次訓(xùn)練的迭代更新,大幅提高了小目標檢測精度。Kim等[63]提出了類不確定性感知(Class uncertainty-aware, CUA)損失,CUA損失在調(diào)制損失函數(shù)時考慮了預(yù)測模糊性以及對分類分數(shù)的預(yù)測。Shuang等[64]提出了尺度平衡損失(Scale-balanced loss, SBL),SBL通過重新加權(quán)策略顯著提高了多尺度目標尤其是小目標的檢測精度。
分階段檢測也是一種提升小目標檢測性能的方法。Chen等[65]提出一種雙重檢測器Dubox,該檢測器分兩次檢測,第一個檢測器盡可能地檢測小目標,第二個檢測器幫第一個檢測器檢測遺漏或者無法檢測的小目標。
尺度自適應(yīng)也能提高小目標的檢測性能。Gao等[66]采用從粗略到精細的檢測方式,對低分辨的圖像進行粗略檢測,對目標有可能出現(xiàn)的位置進行放大,并在該高分辨的區(qū)域進行精細搜索,通過不斷循環(huán)以上操作,提高網(wǎng)絡(luò)對于小目標的檢測性能。
平衡小目標檢測的準確率和計算時間也是一種改進思路。Sun等[67]提出了模塊化特征融合檢測器(Modular feature fusion detector, MFFD),該檢測器包含了兩個基本模塊用于高效計算,前模塊減少了原始輸入圖像的信息損失,后模塊減少了模型大小和計算成本,同時確保了檢測精度。
以上基于深度學(xué)習(xí)模型的小目標檢測算法的優(yōu)缺點見表1。
5 小目標數(shù)據(jù)集、檢測算法評價指標和各類檢測算法的性能
目前,大多數(shù)目標檢測算法在常規(guī)數(shù)據(jù)集上已經(jīng)得到了較好的效果,但對于小目標數(shù)據(jù)集的效果還較差。對于一個算法,需要合適的數(shù)據(jù)集進行訓(xùn)練和檢驗,因此適合小目標檢測的數(shù)據(jù)集十分重要。以下介紹一些適合用來檢測小目標的公共數(shù)據(jù)集和小目標檢測算法的評價指標,并對一些算法在小目標數(shù)據(jù)集上的檢測性能進行分析。
5.1 主流小目標數(shù)據(jù)集介紹
a)MS COCO數(shù)據(jù)集[15]。該數(shù)據(jù)集由微軟構(gòu)建,是一個龐大的、樣本充足的目標檢測、語義分割和關(guān)鍵點檢測數(shù)據(jù)集。該數(shù)據(jù)集共有330萬幅圖像,包括80個目標類別和91個物體類別,有20多萬幅已標注的圖像。相比于PASCAL VOC數(shù)據(jù)集和ImageNet數(shù)據(jù)集,MS COCO數(shù)據(jù)集中的小目標數(shù)量更多。
b)DOTA數(shù)據(jù)集[68]。該數(shù)據(jù)集是由航拍圖像構(gòu)成的小目標檢測數(shù)據(jù)集,由武漢大學(xué)于2017年11月建立。該數(shù)據(jù)集共有2806幅圖像,共有15種標簽的類型,尺寸由800×800到4000×4000不等,共有35 Gi。完全標注的DOTA圖像包含188282個樣本,每個樣本都由一個四邊形標注。
c)WIDER FACE數(shù)據(jù)集[69]。該數(shù)據(jù)集是一個大規(guī)模人臉圖像的benchmark數(shù)據(jù)集合,包括32203幅圖像,共有393703個帶有標簽的人臉。該數(shù)據(jù)集被分為訓(xùn)練集、驗證集和測試集,其中:訓(xùn)練集包含158989個帶有標簽的人臉,驗證集包含39496個帶有標簽的人臉,測試集包含了195218個帶有標簽的人臉。WIDER FACE數(shù)據(jù)集考慮了通用目標的檢測效率以及對人眼的識別程度,按照像素高低把人臉分為3個尺度:大尺度(>300像素)、中尺度(50~300像素)、小尺度(10~50像素)。每種人臉的大小、位置以及光線、動作、遮擋角度等各類情況較為全面。
d)WiderPerson數(shù)據(jù)集[70]。該數(shù)據(jù)集是比較擁擠場景的行人檢測數(shù)據(jù)集,其圖像由多種場景組成,不只有交通場景。數(shù)據(jù)集共有13382幅圖像,有5個不同種類的標簽,共有40萬多條遮擋注釋。在該數(shù)據(jù)集中,訓(xùn)練集、驗證集、測試集圖像數(shù)量之比大約為8∶1∶4。
e)TinyPerson數(shù)據(jù)集[17]。該數(shù)據(jù)集為海上快速救援背景下的小目標人群數(shù)據(jù)集,主要關(guān)注海邊的人。TinyPerson數(shù)據(jù)集在海上和海灘場景中人物圖像的分辨率很低,一般少于20個像素。在TinyPerson數(shù)據(jù)集中,人像的縱橫比有較大差異,人的姿勢和拍攝視角更加復(fù)雜,在多樣性方面對現(xiàn)有數(shù)據(jù)集進行了有效補充。在TinyPerson數(shù)據(jù)集中,有很多帶有密集目標的圖像(每個圖像超過200個人)。
f)BIRDSAI數(shù)據(jù)集[71]。該數(shù)據(jù)集由Bondi等[71]在WACV 2020上提出。該數(shù)據(jù)集通過在無人機上安裝紅外攝像頭以模仿鳥的視覺拍攝獲得的,是一個大自然場景的數(shù)據(jù)集。該數(shù)據(jù)集一共包含10個種類,有各種動物、人類還有未知事物,其中還有一些特殊圖像,如圖像尺寸劇烈變化、熱反射造成的背景混亂、攝像機旋轉(zhuǎn)抖動造成的圖像模糊等。
5.2 小目標檢測算法的評價指標
小目標檢測算法的評價指標主要有精確率、召回率、平均精度、平均精確度均值和每秒處理幀數(shù)。待檢測目標分為正樣本(Positive)和負樣本(Negative)兩類,而檢測目標樣本分為如下四4類:a)True positives (TP)是正樣本被正確預(yù)測為正樣本;b)False positives (FP)是本為負樣本被錯誤地預(yù)測為正樣本;c)True negatives(TN)是本為負樣本被正確預(yù)測為負樣本;d)False negatives(FN)是正樣本被錯誤預(yù)測為負樣本。小目標檢測的評價指標分為如下5種:
a)精確率(Precision):是指正確被預(yù)測為正樣本的樣本個數(shù)與所有被預(yù)測為正樣本的樣本個數(shù)的比值,計算公式為:p=nTP/(nTP+nFP),其中:p表示精確率,nTP表示TP樣本數(shù),nFP表示FP樣本數(shù)。
b)召回率(Recall):是指正確被預(yù)測的正樣本個數(shù)與所有正樣本的比值,計算公式為:r=nTP/(nTP+nFN),其中r表示召回率。
c)平均精度(Average precision,AP):在多類物體檢測中,單個類別以召回率為橫坐標,以精確率為縱坐標,與在根據(jù)一定閾值計算基礎(chǔ)形成的曲線所圍成的面積稱為AP。對于單類目標檢測效果越好,AP值越高。
d)平均精確度均值(Mean average precision,mAP):在檢測多類目標時,分別計算一次每一類目標的AP,再做平均運算即為mAP。mAP一般用來衡量模型在檢測多類目標時表現(xiàn)的優(yōu)劣程度。
e)每秒處理幀數(shù)(Frames per second,F(xiàn)PS):對于評價一個目標檢測算法的檢測速度,通常采用FPS每秒處理幀數(shù)這一指標。FPS值越大,表示算法檢測速度越快。
5.3 典型基于深度學(xué)習(xí)的小目標檢測算法的性能
以MS COCO數(shù)據(jù)集作為檢測數(shù)據(jù)集,近幾年較為典型的目標檢測算法性能對比情況見表2。表2中APS、APM、APL分別表示小目標、中目標、大目標的平均精度。通過對比分析可以得出,各種算法對于小目標的平均精度都遠不及大目標,基本上小目標的平均精度都只有大目標的50%,這說明小目標檢測算法目前還不夠完善,仍有待提升。在表2中,Scaled-YOLOv4[72]是效果最好的檢測算法,這主要因為該算法集成了眾多優(yōu)秀的改進方法,例如特征融合、數(shù)據(jù)增強、多尺度學(xué)習(xí)、上下文學(xué)習(xí)等。
6 結(jié) 語
本文對基于深度學(xué)習(xí)的小目標檢測算法進行了總結(jié),介紹了小目標檢測算法的難點與評價指標,綜述了基于錨框優(yōu)化、網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、特征增強的小目標檢測算法,介紹了小目標數(shù)據(jù)集并分析了各類檢測算法的性能。對于小目標檢測的難點,目前已經(jīng)解決的有如下幾點:
a)對于小目標的特征信息難以被充分提取的問題,可以采用網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化中的基于Neck優(yōu)化的方法。將特征融合與特征增強模塊引入小目標檢測模型,可以有效解決小目標在特征信息不足的情況下,經(jīng)過特征提取網(wǎng)絡(luò)后損失大量特征而導(dǎo)致檢測效果低下的問題。
b)對于小目標樣本在數(shù)據(jù)集中難以平均分布的問題,可以采用數(shù)據(jù)增強的方法。如果是樣本數(shù)量不足,可以采用復(fù)制增強的方法。如果是樣本多樣性不足、數(shù)據(jù)集過于單一導(dǎo)致模型過擬合,可以采用顏色變換、隨機翻轉(zhuǎn)、隨機裁剪等方法增加樣本的多樣性。
c)對于小目標檢測模型的先驗框難以設(shè)置的問題,可以采用錨框優(yōu)化的方法。針對小目標尺寸較小且比例不統(tǒng)一不易被框選的問題,目前主要的解決思路是采用自適應(yīng)的動態(tài)錨框。
d)對于小目標檢測模型的損失函數(shù)難以設(shè)置的問題,可以采用優(yōu)化損失函數(shù)的方法。目前大多目標檢測模型的損失函數(shù)都是為大、中目標檢測算法設(shè)置的,并不適合小目標檢測算法,因此可以優(yōu)化損失函數(shù),使其對小目標也能起作用。
e)對于小目標檢測模型的正負樣本難以匹配的問題,可以采用Anchor Free方法。由于Anchor Based的檢測模型一般將錨框與物體的交并比大于50%的當作正樣本,但小目標一般難以滿足這一要求,導(dǎo)致正負樣本失衡。采用Anchor Free方法后,不需要滿足交并比大于50%這一要求去尋找正樣本,通過關(guān)鍵點或者語義分割的方法可以更加準確地找到正樣本,并且比起Anchor Based方法正樣本的遺漏率更低。
目前,隨著深度學(xué)習(xí)的快速發(fā)展,小目標檢測算法也隨之完善,但仍有待提升。本文提及的數(shù)據(jù)增強、多尺度學(xué)習(xí)等方法可以在一定程度上解決小目標樣本分布不均、難以提取充足特征信息等問題,但小目標檢測仍面臨許多困難,以下方面還需進一步研究:
a)小目標檢測模型難以通用。目前,小目標檢測模型基本上都是專用于檢測某一類物體,如專門用于檢測織物瑕疵或者針對醫(yī)學(xué)影像,這樣很難將一個模型遷移到另一個模型上。對于通用性差的問題,在目前還沒有較好的解決方案。而且,不僅僅是小目標檢測模型的通用性差,小目標數(shù)據(jù)集的通用性也不足。研究通用的小目標檢測模型是未來重要的發(fā)展方向,建立大體量、多種類的小目標數(shù)據(jù)集也是一項非常重要的工作。
b)小目標檢測模型難以較好地平衡耗時與精度?,F(xiàn)階段大多數(shù)小目標檢測模型的規(guī)模都比較大,冗余程度比較高,如何在維持高精度的檢測結(jié)果下簡化檢測模型,還需再進一步研究。目前該方向較為主流的思路是采用知識蒸餾的方法,將大模型在盡可能保持精度的情況下轉(zhuǎn)化為輕量級的模型。
c)特定場景的小目標檢測。在遙感航拍等特定場景中,小目標非常密集,這非常不利于檢測。由于大、中目標在一幅圖中所占面積比較大,而圖像總面積有限,不會出現(xiàn)密集的大規(guī)模檢測情況,因此該問題只針對小目標。特定場景的小目標檢測也將是研究的熱點之一。
參考文獻:
[1]Zou Z X, Shi Z W, Guo Y H, et al. Object detection in 20 years: A survey[EB/OL]. (2019-05-13)[2022-11-18]. https:∥arxiv.org/abs/1905.05055.
[2]張順, 龔怡宏, 王進軍. 深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在計算機視覺領(lǐng)域的應(yīng)用[J]. 計算機學(xué)報, 2019, 42(3): 453-482.
[3]陳科圻, 朱志亮, 鄧小明, 等. 多尺度目標檢測的深度學(xué)習(xí)研究綜述[J]. 軟件學(xué)報, 2021, 32(4): 1201-1227.
[4]Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[5]Sun P Z, Zhang R F, Jiang Y, et al. Sparse R-CNN: End-to-end object detection with learnable proposals[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA. IEEE, 2021: 14449-14458.
[6]Qiao L M, Zhao Y X, Li Z Y, et al. DeFRCN: Decoupled faster R-CNN for few-shot object detection[C]∥2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada. IEEE, 2021: 8681-8690.
[7]Redmon J, Farhadi A. YOLOv3: An incremental improvement [EB/OL]. (2018-04-08)[2022-11-18]. https:∥arxiv.org/abs/1804.02767.
[8]Li C, Li L, Jiang H, et al. YOLOv6: A single-stage object detection framework for industrial applications [EB/OL]. (2022-09-07)[2022-11-18]. https:∥arxiv.org/abs/2209.02976.
[9]Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. (2022-07-06)[2022-11-18]. https:∥arxiv.org/abs/2207.02696.
[10]Liu W, Anguelov D, Erhan D, et al. SSD: single shot MultiBox detector[C]∥Proceedings of the 14th European Conference on Computer Vision. Cham: Springer International Publishing, 2016: 21-37.
[11]Fu C Y, Liu W, Ranga A, et al. DSSD: Deconvolutional single shot detector[EB/OL].(2017-01-23)[2022-11-18].https:∥arxiv.org/abs/1701.06659.
[12]Zhou S R, Qiu J. Enhanced SSD with interactive multi-scale attention features for object detection[J]. Multimedia Tools and Applications, 2021, 80(8): 11539-11556.
[13]Li Z X, Zhou F Q. FSSD: feature fusion single shot multi-box detector[EB/OL]. (2017-12-04)[2022-11-18]. https:∥arxiv.org/abs/1712.00960.
[14]Chen G, Wang H T, Chen K, et al. A survey of the four pillars for small object detection: Multiscale representation, contextual information, super-resolution, and region proposal[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022, 52(2): 936-953.
[15]Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context[C]∥Proceedings of European Conference on Computer Vision. Cham: Springer International Publishing, 2014: 740-755.
[16]寧欣, 田偉娟, 于麗娜, 等. 面向小目標和遮擋目標檢測的腦啟發(fā)CIRA-DETR全推理方法[J]. 計算機學(xué)報, 2022, 45(10): 2080-2092.
[17]Yu X H, Gong Y Q, Jiang N, et al. Scale match for tiny person detection[C]∥Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Snowmass, USA. IEEE, 2020: 1246-1254.
[18]聶光濤, 黃華. 光學(xué)遙感圖像目標檢測算法綜述[J]. 自動化學(xué)報, 2021, 47(8): 1749-1768.
[19]Yang T, Zhang X Y, Li Z M, et al. MetaAnchor: Learning to detect objects with customized anchors[C]∥Proceedings of the 32nd International Conference on Neural Information Processing Systems. New York: ACM, 2018: 318-328.
[20]Zhang S F, Zhu X Y, Lei Z, et al. S3FD: Single shot scale-invariant face detector[C]∥2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy. IEEE, 2017: 192-201.
[21]Wang J Q, Chen K, Yang S, et al. Region proposal by guided anchoring[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA. IEEE, 2019: 2960-2969.
[22]Zhang S F, Zhu X Y, Lei Z, et al. FaceBoxes: A CPU real-time face detector with high accuracy[C]∥2017 IEEE International Joint Conference on Biometrics (IJCB). Denver, USA. IEEE, 2018: 1-9.
[23]Zhu C C, Tao R, Luu K, et al. Seeing small faces from robust anchor′s perspective[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA. IEEE, 2018: 5127-5136.
[24]Wang J F, Yuan Y, Li B X, et al. SFace: An efficient network for face detection in large scale variations[EB/OL]. (2018-04-18)[2022-11-18]. https:∥arxiv.org/abs/1804.06559.
[25]Tychsen-Smith L, Petersson L. DeNet: Scalable real-time object detection with directed sparse sampling[C]∥2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy. IEEE, 2017: 428-436.
[26]Law H, Deng J. CornerNet: Detecting objects as paired keypoints[C]∥Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer International Publishing, 2018: 765-781.
[27]Duan K W, Bai S, Xie L X, et al. CenterNet: Keypoint triplets for object detection[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South). IEEE, 2020: 6568-6577.
[28]Tian Z, Shen C H, Chen H, et al. FCOS: Fully convolutional one-stage object detection[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South). IEEE, 2020: 9626-9635.
[29]Khan A, Sohail A, Zahoora U, et al. A survey of the recent architectures of deep convolutional neural networks[J]. Artificial Intelligence Review, 2020, 53(8): 5455-5516.
[30]Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. (2020-04-23)[2022-11-18]. https:∥arxiv.org/abs/2004.10934.
[31]崔文靚, 王玉靜, 康守強, 等. 基于改進 YOLOv3 算法的公路車道線檢測方法[J]. 自動化學(xué)報, 2022, 45: 1-9.
[32]Pan Z H, Chen Y. Object detection algorithm based on dense connection[C]∥2019 IEEE 4th Advanced Information Technology, Electronic and Automation Control Conference. Chengdu. IEEE, 2020: 1558-1562.
[33]謝星星, 程塨, 姚艷清, 等. 動態(tài)特征融合的遙感圖像目標檢測[J]. 計算機學(xué)報, 2022, 45(4): 735-747.
[34]Ghiasi G, Lin T Y, Le Q V. NAS-FPN: Learning scalable feature pyramid architecture for object detection[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2020: 7029-7038.
[35]Lim J S, Astrid M, Yoon H J, et al. Small object detection using context and attention[C]∥2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC). Jeju Island, Korea (South). IEEE, 2021: 181-186.
[36]Hu J, Shen L, Albanie S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[37]Wang Q L, Wu B G, Zhu P F, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. IEEE, 2020: 11531-11539.
[38]Shen L L, You L, Peng B, et al. Group multi-scale attention pyramid network for traffic sign detection[J]. Neurocomputing, 2021, 452: 1-14.
[39]Li Y Y, Huang Q, Pei X, et al. Cross-layer attention network for small object detection in remote sensing imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 14: 2148-2161.
[40]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
[41]Li J N, Liang X D, Wei Y C, et al. Perceptual generative adversarial networks for small object detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA. IEEE, 2017: 1951-1959.
[42]Bai Y C, Zhang Y Q, Ding M L, et al. SOD-MTGAN: Small object detection via multi-task generative adversarial network[C]∥Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer International Publishing, 2018: 210-226.
[43]Noh J, Bae W, Lee W, et al. Better to follow, follow to be better: Towards precise supervision of feature super-resolution for small object detection[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea(South). IEEE, 2020: 9724-9733.
[44]Rabbi J, Ray N, Schubert M, et al. Small-object detection in remote sensing images with end-to-end edge-enhanced GAN and object detector network[J]. Remote Sensing, 2020, 12(9): 1432.
[45]Zhao B, Wang C P, Fu Q, et al. A novel pattern for infrared small target detection with generative adversarial network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(5): 4481-4492.
[46]Kisantal M, Wojna Z, Murawski J, et al. Augmentation for small object detection[EB/OL]. (2019-02-19)[2022-11-18]. https:∥arxiv.org/abs/1902.07296.
[47]Chen C R, Zhang Y, Lv Q X, et al. RRNet: A hybrid detector for object detection in drone-captured images[C]∥2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul, Korea (South). IEEE, 2020: 100-108.
[48]Chen Y K, Zhang P Z, Li Z M, et al. Stitcher: Feedback-driven data provider for object detection[EB/OL]. (2020-04-26)[2022-11-18]. https:∥arxiv.org/abs/2004.12432.
[49]Zoph B, Cubuk E D, Ghiasi G, et al. Learning data augmentation strategies for object detection[C]∥Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer International Publishing, 2020: 566-583.
[50]Bell S, Lawrence Zitnick C, Bala K, et al. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA. IEEE, 2016: 2874-2883.
[51]Zeng N Y, Wu P S, Wang Z D, et al. A small-sized object detection oriented multi-scale feature fusion approach with application to defect detection[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-14.
[52]Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA. IEEE, 2017: 936-944.
[53]Han W X, Kuerban A, Yang Y C, et al. Multi-vision network for accurate and real-time small object detection in optical remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1-5.
[54]Cao G M, Xie X M, Yang W Z, et al. Feature-fused SSD: Fast detection for small objects[C]∥Ninth International Conference on Graphic and Image Processing (ICGIP 2017). Qingdao: SPIE, 2018: 381-388.
[55]Nayan A A, Saha J, Mozumder A N. Real time detection of small objects[J]. International Journal of Innovative Technology and Exploring Engineering, 2020, 9(5): 837-839.
[56]Liu Z M, Gao G Y, Sun L, et al. HRDNet: High-resolution detection network for small objects[C]∥2021 IEEE International Conference on Multimedia and Expo (ICME). Shenzhen, China. IEEE, 2021: 1-6.
[57]Deng C F, Wang M M, Liu L, et al. Extended feature pyramid network for small object detection[J]. IEEE Transactions on Multimedia, 2022, 24: 1968-1979.
[58]Feng X X, Han J W, Yao X W, et al. TCANet: Triple context-aware network for weakly supervised object detection in remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(8): 6946-6955.
[59]Shen W X, Qin P L, Zeng J C. An indoor crowd detection network framework based on feature aggregation module and hybrid attention selection module[C]∥2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul, Korea(South). IEEE, 2020: 82-90.
[60]Cui L S, Lv P, Jiang X H, et al. Context-aware block net for small object detection[J]. IEEE Transactions on Cybernetics, 2022, 52(4): 2300-2313.
[61]Leng J X, Ren Y H, Jiang W, et al. Realize your surroundings: Exploiting context information for small object detection[J]. Neurocomputing, 2021, 433: 287-299.
[62]Guan L T, Wu Y, Zhao J Q. SCAN: Semantic context aware network for accurate small object detection[J]. International Journal of Computational Intelligence Systems, 2018, 11(1): 951.
[63]Kim J U, Kim S T, Lee H J, et al. CUA loss: Class uncertainty-aware gradient modulation for robust object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(9): 3529-3543.
[64]Shuang K, Lyu Z H, Loo J, et al. Scale-balanced loss for object detection[J]. Pattern Recognition, 2021, 117: 107997.
[65]Chen S, Li J P, Yao C Q, et al. DuBox: No-prior box objection detection via residual dual scale detectors[EB/OL]. (2019-04-16)[2022-11-18]. https:∥arxiv.org/abs/1904.06883.
[66]Gao M F, Yu R C, Li A, et al. Dynamic zoom-in network for fast object detection in large images[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA. IEEE, 2018: 6926-6935.
[67]Liu Y Z, Cao S, Lasang P, et al. Modular lightweight network for road object detection using a feature fusion approach[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2021, 51(8): 4716-4728.
[68]Xia G S, Bai X, Ding J, et al. DOTA: A large-scale dataset for object detection in aerial images[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA. IEEE, 2018: 3974-3983.
[69]Yang S, Luo P, Loy C C, et al. WIDER FACE: A face detection benchmark[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA. IEEE, 2016: 5525-5533.
[70]Zhang S F, Xie Y L, Wan J, et al. Widerperson: A diverse dataset for dense pedestrian detection in the wild[J].IEEE Transactions on Multimedia, 2020, 22(2): 380-393.
[71]Bondi E, Jain R, Aggrawal P, et al. BIRDSAI: A dataset for detection and tracking in aerial thermal infrared videos[C]∥2020 IEEE Winter Conference on Applications of Computer Vision (WACV). Snowmass, USA. IEEE, 2020: 1736-1745.
[72]Wang C Y, Bochkovskiy A, Liao H Y M. Scaled-YOLOv4: Scaling cross stage partial network[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA. IEEE, 2021: 13024-13033.
(責任編輯:康 鋒)