宋程程,李 捷,高曉利,王 維,趙火軍
(四川九洲電器集團(tuán)有限責(zé)任公司,四川 綿陽(yáng) 621000)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的基礎(chǔ)任務(wù)之一,主要任務(wù)是對(duì)圖像中的目標(biāo)進(jìn)行分類和定位。在實(shí)際應(yīng)用中,如防災(zāi)減災(zāi)、大區(qū)域監(jiān)控、國(guó)防等領(lǐng)域,由于被觀測(cè)物體距離較遠(yuǎn),待檢測(cè)目標(biāo)在圖像中所占像素點(diǎn)少、信噪比低,表現(xiàn)為弱小目標(biāo)狀態(tài)。傳統(tǒng)的檢測(cè)識(shí)別技術(shù)難以從復(fù)雜背景中提取其色彩、紋理、形狀等特征,識(shí)別難度較大。近年來(lái),深度學(xué)習(xí)在目標(biāo)檢測(cè)領(lǐng)域中取得了卓越進(jìn)展,在某些分類、檢測(cè)領(lǐng)域的能力甚至超過(guò)人類。但是在很多情況下,可獲取數(shù)據(jù)量極少,導(dǎo)致深度學(xué)習(xí)模型性能欠佳。基于此,開(kāi)展小樣本目標(biāo)檢測(cè)方法研究,對(duì)于國(guó)防和民生領(lǐng)域都具有重要的現(xiàn)實(shí)意義。
目前,大多小樣本目標(biāo)檢測(cè)方法是基于傳統(tǒng)目標(biāo)檢測(cè)方法結(jié)合小樣本學(xué)習(xí)的思想進(jìn)行研究,旨在通過(guò)少量標(biāo)注樣本學(xué)習(xí)具有對(duì)新類的檢測(cè)能力[1]。LSTD 在模型層面結(jié)合了Faster RCNN 和SDD 的優(yōu)點(diǎn),提出知識(shí)遷移正則化和背景抑制正則化兩種方法,促進(jìn)知識(shí)從源域轉(zhuǎn)移到目標(biāo)域,增強(qiáng)模型對(duì)小樣本數(shù)據(jù)的泛化能力[2-4]。Meta R-CNN 元學(xué)習(xí)通道式注意層,用于重塑RoI 頭部[5]。FSIW 通過(guò)在平衡數(shù)據(jù)集上進(jìn)行更復(fù)雜的特征聚合和元訓(xùn)練,改進(jìn)了Meta-R CNN[6]。RepMet 將基于距離的小樣本學(xué)習(xí)思想引入,構(gòu)造原型度量網(wǎng)和檢測(cè)模塊,提取圖像的嵌入特征并使用歐式距離計(jì)算進(jìn)行檢測(cè)[7]。文獻(xiàn)[8]探索不用對(duì)象類別內(nèi)在的通用特征,提出了通用原型,減輕了不平衡對(duì)象類別的影響。FSCE 將對(duì)比學(xué)習(xí)引入小樣本目標(biāo)檢測(cè)中,更有助于對(duì)象分類[9]。Meta YOLO 將元學(xué)習(xí)策略與重加權(quán)模型融合,將支持集特征以通道相乘融合到查詢集特征,但是這種方法需要額外的分支,計(jì)算復(fù)雜度增加[10]。MPSR 設(shè)計(jì)了一個(gè)特征金字塔模塊生成多尺度特征,并在不同尺度上進(jìn)行細(xì)化,但其網(wǎng)絡(luò)構(gòu)造復(fù)雜,且細(xì)化分支需要手動(dòng)決策,推廣性受限[11]。相對(duì)于其他小樣本檢測(cè)方法,基于模型微調(diào)的方法TFA 通過(guò)對(duì)在目標(biāo)域中訓(xùn)練的模型使用少量新類進(jìn)行微調(diào)即可進(jìn)行檢測(cè),是一種既簡(jiǎn)單又高效的方法,在不增加算法復(fù)雜度的基礎(chǔ)上仍能獲得相對(duì)好的檢測(cè)性能[12]。
考慮實(shí)際應(yīng)用中數(shù)據(jù)獲取困難、背景復(fù)雜、目標(biāo)弱小等情況導(dǎo)致的算法性能欠佳。本文基于遷移學(xué)習(xí)的兩階段小樣本檢測(cè)方法,提出了一種基于可變卷積與遷移學(xué)習(xí)的小樣本檢測(cè)方法,主要?jiǎng)?chuàng)新點(diǎn)有:1)提出了一種學(xué)習(xí)能力更強(qiáng)的可變卷積主干網(wǎng),將可變卷積思想加入Resnet 網(wǎng)絡(luò)中,使其在極少數(shù)據(jù)條件下也可以完成對(duì)樣本的特征學(xué)習(xí),提高算法的泛化能力;2)面對(duì)實(shí)際場(chǎng)景中可能存在的多目標(biāo)重疊出現(xiàn)漏檢情況,將改進(jìn)的Soft-NMS 代替?zhèn)鹘y(tǒng)的NMS 降低漏檢率。
本文小樣本檢測(cè)任務(wù)的基本流程整體可以分為兩步:1)模型在基類上的整體訓(xùn)練;2)在少量基類和新類上的對(duì)訓(xùn)練好的模型進(jìn)行適當(dāng)?shù)奈⒄{(diào),完成對(duì)新類和基類的檢測(cè)。改進(jìn)算法整體框架如圖1 所示。
圖1 改進(jìn)算法網(wǎng)絡(luò)架構(gòu)Fig.1 Network architecture for improved algorithms
基礎(chǔ)模型訓(xùn)練:本文選取雙階段的目標(biāo)檢測(cè)器Faster R-CNN 作為基本模型,算法的整體架構(gòu)如圖1 所示。首先輸入基類圖片,經(jīng)主干網(wǎng)絡(luò)提取特征圖,然后將提取出的特征輸入RPN 網(wǎng)絡(luò),生成一堆Anchor box,對(duì)其進(jìn)行裁剪過(guò)濾,輸出Bbox 邊界框和類別分?jǐn)?shù)。由RPN 輸出的圖像特征提取RoIs 傳入網(wǎng)絡(luò),再經(jīng)過(guò)RoI 池化進(jìn)入全連接層輸出,完成分類與回歸工作,此時(shí)基礎(chǔ)模型的訓(xùn)練完成。
模型微調(diào)階段:數(shù)據(jù)包含少量的基類和新類圖片,首先完成模型的參數(shù)初始化,然后固定網(wǎng)絡(luò)的其余部分不變,對(duì)檢測(cè)器的最后一層參數(shù)進(jìn)行調(diào)整,同時(shí)引入余弦相似度分類器,使模型在具有對(duì)基類檢測(cè)能力的同時(shí)也有對(duì)新類的檢測(cè)能力。
傳統(tǒng)的目標(biāo)檢測(cè)網(wǎng)絡(luò)常使用VGG、Resnet 等作為主干網(wǎng)絡(luò)模型對(duì)圖像進(jìn)行特征提取,但是這些主干網(wǎng)模塊由固定幾何結(jié)構(gòu)組成,卷積單元在固定位置對(duì)輸入特征圖進(jìn)行采樣,在一個(gè)固定的層中,空間分辨率較低,缺乏處理幾何變換的能力。為了解決這個(gè)問(wèn)題,本文引入可變卷積的思想對(duì)主干網(wǎng)進(jìn)行改進(jìn),增強(qiáng)對(duì)幾何變換建模的能力,使其具有更強(qiáng)的學(xué)習(xí)能力。
可變卷積是在傳統(tǒng)卷積的基礎(chǔ)上,通過(guò)在模塊中增加額外的偏移量來(lái)增大空間采樣位置,使采樣更靈活,并且可以在沒(méi)有額外監(jiān)督的情況下學(xué)習(xí)目標(biāo)任務(wù)的偏移量[13]。兩種卷積采樣方式對(duì)比如圖2所示,其中,圖2(a)是傳統(tǒng)卷積采樣過(guò)程,圖2(b)是可變卷積采樣過(guò)程,可以看出增加偏移量后,可以更好地應(yīng)對(duì)目標(biāo)移動(dòng)、尺寸縮放、旋轉(zhuǎn)等情況。
圖2 傳統(tǒng)卷積和可變卷積對(duì)比圖Fig.2 Comparison chart between traditional convolution and deformable convolution
實(shí)際生活中很多物體的形狀都是不規(guī)則的,如圖3 中的自行車,此時(shí)對(duì)自行車的車輪進(jìn)行特征學(xué)習(xí),可以看出如果用傳統(tǒng)的正方形卷積對(duì)其進(jìn)行特征提取效果可能不好,此時(shí),將傳統(tǒng)卷積換成可變卷積的話,可變卷積會(huì)根據(jù)特征形狀自動(dòng)計(jì)算偏移量,實(shí)現(xiàn)在當(dāng)前位置附近的隨機(jī)采樣。
圖3 可變卷積過(guò)程圖Fig.3 Process diagram of deformable convolution
雖然傳統(tǒng)殘差網(wǎng)絡(luò)在深度學(xué)習(xí)中表現(xiàn)很好,但是在小樣本學(xué)習(xí)中,由于樣本量少且圖像形變大,直接應(yīng)用此網(wǎng)絡(luò)不能很好地從少量樣本中進(jìn)行學(xué)習(xí),所以本文將可變卷積嵌入到Resnet101 的殘差塊中進(jìn)行改進(jìn),如圖4 所示,圖4(a)是傳統(tǒng)的殘差塊,圖4(b)是加入可變卷積之后的殘差塊。可以看到基于可變卷積的殘差網(wǎng)絡(luò)增強(qiáng)模型的幾何變換能力,獲得更具“代表性”的特性。
圖4 原始?xì)埐顗K與可變卷積殘差塊結(jié)構(gòu)圖Fig.4 Structure diagram of original residual block and deformable convolutional residual block
在實(shí)際應(yīng)用場(chǎng)景中,待檢測(cè)圖像常常背景復(fù)雜、目標(biāo)遮掩、重疊,此時(shí)使用傳統(tǒng)的非最大抑制(NMS)方法會(huì)造成對(duì)多個(gè)有重疊目標(biāo)的漏檢,影響檢測(cè)效果,本文提出使用改進(jìn)算法Soft-NMS 代替?zhèn)鹘y(tǒng)的NMS 來(lái)提升算法對(duì)復(fù)雜場(chǎng)景下的檢測(cè)性能,檢測(cè)效果如圖5 所示。
圖5 NMS 與Soft-NMS 結(jié)果對(duì)比圖Fig.5 Comparison picture of results between NMS and Soft-NMS
在傳統(tǒng)檢測(cè)算法的檢測(cè)過(guò)程中,首先會(huì)對(duì)圖片進(jìn)行滑窗處理,然后得到一系列檢測(cè)框B 和其對(duì)應(yīng)的得分S,非最大抑制會(huì)對(duì)各檢測(cè)框按從高到低的得分進(jìn)行排序,然后得分最高的檢測(cè)框M 被選中,將其放在最終檢測(cè)結(jié)果集C 中,將其他與檢測(cè)框M重疊部分大于一定閾值的檢測(cè)框移除。例如,設(shè)定閾值為0.5,圖5 中紅色檢測(cè)框與藍(lán)色檢測(cè)框的重疊>0.5,就將藍(lán)色檢測(cè)框剔除。如果一個(gè)目標(biāo)處于預(yù)設(shè)的重疊閾值之內(nèi),就會(huì)導(dǎo)致檢測(cè)不到該物體,造成有效信息的丟失,影響最終檢測(cè)結(jié)果。
與NMS 對(duì)重疊預(yù)測(cè)框全部抑制不同,Soft-NMS主要是對(duì)一個(gè)與預(yù)測(cè)框M 有高度重疊的檢測(cè)框B1的檢測(cè)分?jǐn)?shù)進(jìn)行衰減[14]。同樣對(duì)圖中的情況,Soft-NMS 不會(huì)直接對(duì)藍(lán)色的檢測(cè)框進(jìn)行抑制,而是會(huì)重新對(duì)其進(jìn)行衰減計(jì)算檢測(cè)框分?jǐn)?shù),設(shè)置一個(gè)置信度閾值,將小于閾值的剔除,藍(lán)色檢測(cè)框的得分大于閾值被保留,最后被成功檢測(cè)出來(lái),提升算法的性能。Soft-NMS 有線性計(jì)算和高斯計(jì)算兩種方法,本文采用的是線性計(jì)算法。
本文所提出方法在公開(kāi)數(shù)據(jù)集PASCAL VOC與多種先進(jìn)方法結(jié)果進(jìn)行對(duì)比分析,證明本文改進(jìn)方法的有效性;在實(shí)測(cè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證明算法的實(shí)用性。將原始算法記為TFA,基于Soft-NMS改進(jìn)的算法記為TFA/soft-nms,基于可變卷積改進(jìn)的算法記為TFA/DCN,基于Soft-NMS 與可變卷積改進(jìn)的算法記為DS-TFA。
本節(jié)實(shí)驗(yàn)在公開(kāi)數(shù)據(jù)集VOC 上開(kāi)展。VOC 數(shù)據(jù)集常用來(lái)衡量圖像分類檢測(cè)能力,由VOC2007 和VOC2012 組成,共包含20 個(gè)不同的類別,每個(gè)類別有600 張圖片。按照前人工作中的設(shè)置[10],將其隨機(jī)劃分成包含大量實(shí)例的基類和僅有少量樣本的新類,其中,基類包含15 個(gè)類別,新類包含5 個(gè)類別,用于微調(diào)的新類的樣本數(shù)為K。
為了評(píng)估算法的魯棒性,將VOC 數(shù)據(jù)集進(jìn)行三切片,表1 展示了各改進(jìn)方法與原算法、LSTD、Deformable-DETR-ft-full、Meta YOLO 和Meta RCNN在K 較少時(shí)對(duì)新類的檢測(cè)結(jié)果,優(yōu)于各改進(jìn)方法的結(jié)果已加粗。表2 展示了各改進(jìn)方法與原算法在VOC 不同切片上的檢測(cè)結(jié)果,下頁(yè)表3 展示了各改進(jìn)方法與原算法在VOC 不同切片上對(duì)基類的檢測(cè)結(jié)果,最優(yōu)結(jié)果均已加粗。
表1 不同方法在VOC 切片上對(duì)新類的檢測(cè)性能Table 1 Detection performance for the novel classes of VOC sections with different methods
表2 在VOC 數(shù)據(jù)集上的檢測(cè)性能Table 2 Detection performance on VOC datasets
表3 不同方法在VOC 切片上對(duì)基類的檢測(cè)性能Table 3 Detection performance for the base classes of VOC sections with different methods
從表1 可以看出,在VOC split1 實(shí)驗(yàn)中,本文改進(jìn)方法性能均達(dá)到了最優(yōu)性能。在split2 實(shí)驗(yàn)中,K=1,2,5 時(shí),本文方法效果最好。K=3 時(shí),本文改進(jìn)方法性能29.3%與Meta RCNN29.4%性能相當(dāng)??梢钥闯觯跇?biāo)注類別K 較少時(shí),相比其他先進(jìn)的小樣本檢測(cè)方法,本文方法對(duì)新類的檢測(cè)具有明顯優(yōu)勢(shì)。
對(duì)表1 結(jié)果中改進(jìn)方法與原始方法的結(jié)果進(jìn)一步分析。在split1 實(shí)驗(yàn)中,對(duì)新類檢測(cè)性能最高可以提升到7.9%;在split2 實(shí)驗(yàn)中,對(duì)新類檢測(cè)性能最高可以提升到9.4%。在split3 上K=5 實(shí)驗(yàn)中,對(duì)新類檢測(cè)性能可以提升到11.4%。相比原算法,本文的方法有明顯優(yōu)勢(shì)。
進(jìn)一步分析本文各改進(jìn)方法與原始算法的整體性能對(duì)比,從表2 可以看出,本文改進(jìn)的方法整體性能均要優(yōu)于原始方法。且在K 極少情況下(K=2),相比原方法最高提升了5.4%、4.3%和5.5%,證明了本文改進(jìn)方法的有效性。
所有微調(diào)后的模型在擁有對(duì)新類檢測(cè)能力的同時(shí)會(huì)影響對(duì)基類的檢測(cè)效果[13]。從表1 的結(jié)果可知,本文改進(jìn)方法對(duì)新類的檢測(cè)效果更好,從表3結(jié)果可以看出,在對(duì)基類的檢測(cè)上,本文提出的改進(jìn)方法性能仍高于原始算法,說(shuō)明改進(jìn)方法的穩(wěn)定性,在擁有對(duì)基類檢測(cè)的優(yōu)異性能的同時(shí)擁有對(duì)新類好的檢測(cè)能力。
本節(jié)基于實(shí)際場(chǎng)景中現(xiàn)場(chǎng)采集的弱小目標(biāo)可見(jiàn)光圖像進(jìn)行實(shí)驗(yàn),驗(yàn)證算法的泛化性和實(shí)用性。數(shù)據(jù)集包含車、鳥(niǎo)、客機(jī)和無(wú)人機(jī)4 類,每一類別圖像數(shù)量均小于80 張,并且目標(biāo)尺寸均小于32*32,最小目標(biāo)尺寸為8*8,數(shù)據(jù)集如圖6 所示。對(duì)數(shù)據(jù)進(jìn)行標(biāo)注處理,將其做成VOC 數(shù)據(jù)格式。
圖6 實(shí)測(cè)數(shù)據(jù)集示例圖Fig.6 Example diagram of the actual measured datasets
在本節(jié)實(shí)驗(yàn)中,從VOC 數(shù)據(jù)集中選取與自測(cè)數(shù)據(jù)集不同類的12 類數(shù)據(jù)作為基類,進(jìn)行基礎(chǔ)模型的訓(xùn)練,將4 類自測(cè)數(shù)據(jù)集作為要識(shí)別的新類,同樣K 分別取1、2、3、5、10。表4 和下頁(yè)表5 分別展示了各改進(jìn)方法與原算法的檢測(cè)結(jié)果和在基類和新類上的檢測(cè)結(jié)果。
表4 在實(shí)測(cè)數(shù)據(jù)上的檢測(cè)性能Table 4 Detection performance on actual measured data
表5 對(duì)實(shí)測(cè)數(shù)據(jù)基類和新類的檢測(cè)性能(mAP50)Table 5 Detection performance for the base and novel classes on actual measured data(mAP50)
由表4 可以看出,在以VOC 數(shù)據(jù)集為基類,自測(cè)弱小目標(biāo)數(shù)據(jù)集為新類的檢測(cè)上,改進(jìn)的算法均取得了比原方法更好的效果。在1-shot、2-shot、5-shot 和10-shot 情況下,DS-TFA 改進(jìn)方法性能最優(yōu),相比原方法性能分別提升8.3%、8%、2.4%和3.5%。在3-shot 情況下,TFA/soft_nms 改進(jìn)方法性能最優(yōu),相比原方法提升3.9%,DS-TFA 方法性能與其相當(dāng)??傮w看來(lái),在弱小目標(biāo)檢測(cè)上DS-TFA 改進(jìn)方法性能最佳。
由表5 可以看出,各方法可以保證在基類的檢測(cè)上的檢測(cè)mAP,并且各改進(jìn)方法性能均高于原方法,針對(duì)10-shot 檢測(cè)結(jié)果低于5-shot 檢測(cè)結(jié)果的情況,分析應(yīng)該是由于微調(diào)之后,加入的新類別影響了算法對(duì)基類的檢測(cè)性能。在對(duì)新類的檢測(cè)方面,在2-shot 和3-shot 極少標(biāo)注樣本情況下,DSTFA 和TFA/DCN 改進(jìn)方法性能達(dá)到相當(dāng),相比原方法性能分別提升約7%和6%,當(dāng)類別極少時(shí)(K=1),DS-TFA 可以達(dá)到31.602,相比其他方法性能最多提升了一倍。以上結(jié)果表明,相比原方法,本文提出的改進(jìn)方法有明顯優(yōu)勢(shì)。
本文基于少量樣本的情況,結(jié)合可變卷積和Soft-NMS 的優(yōu)勢(shì),提出了一種面向弱小目標(biāo)的小樣本檢測(cè)方法,可實(shí)現(xiàn)對(duì)多尺度圖像的檢測(cè)識(shí)別。仿真結(jié)果表明,相比其他先進(jìn)小樣本檢測(cè)方法,本文提出的新方法不僅能夠提升對(duì)VOC 數(shù)據(jù)集大尺寸目標(biāo)的檢測(cè)率,同時(shí)還可以提升對(duì)弱小目標(biāo)的準(zhǔn)確率,并且在達(dá)到對(duì)新類檢測(cè)的基礎(chǔ)上,還保持了對(duì)基類的檢測(cè)效果。