基于可變卷積與遷移學(xué)習(xí)的小樣本檢測(cè)方法

2024-01-18 10:23:42宋程程高曉利趙火軍

火力與指揮控制 2023年12期

宋程程，李捷，高曉利，王維，趙火軍

（四川九洲電器集團(tuán)有限責(zé)任公司，四川綿陽(yáng) 621000）

0 引言

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的基礎(chǔ)任務(wù)之一，主要任務(wù)是對(duì)圖像中的目標(biāo)進(jìn)行分類和定位。在實(shí)際應(yīng)用中，如防災(zāi)減災(zāi)、大區(qū)域監(jiān)控、國(guó)防等領(lǐng)域，由于被觀測(cè)物體距離較遠(yuǎn)，待檢測(cè)目標(biāo)在圖像中所占像素點(diǎn)少、信噪比低，表現(xiàn)為弱小目標(biāo)狀態(tài)。傳統(tǒng)的檢測(cè)識(shí)別技術(shù)難以從復(fù)雜背景中提取其色彩、紋理、形狀等特征，識(shí)別難度較大。近年來(lái)，深度學(xué)習(xí)在目標(biāo)檢測(cè)領(lǐng)域中取得了卓越進(jìn)展，在某些分類、檢測(cè)領(lǐng)域的能力甚至超過(guò)人類。但是在很多情況下，可獲取數(shù)據(jù)量極少，導(dǎo)致深度學(xué)習(xí)模型性能欠佳。基于此，開(kāi)展小樣本目標(biāo)檢測(cè)方法研究，對(duì)于國(guó)防和民生領(lǐng)域都具有重要的現(xiàn)實(shí)意義。

目前，大多小樣本目標(biāo)檢測(cè)方法是基于傳統(tǒng)目標(biāo)檢測(cè)方法結(jié)合小樣本學(xué)習(xí)的思想進(jìn)行研究，旨在通過(guò)少量標(biāo)注樣本學(xué)習(xí)具有對(duì)新類的檢測(cè)能力［1］。LSTD 在模型層面結(jié)合了Faster RCNN 和SDD 的優(yōu)點(diǎn)，提出知識(shí)遷移正則化和背景抑制正則化兩種方法，促進(jìn)知識(shí)從源域轉(zhuǎn)移到目標(biāo)域，增強(qiáng)模型對(duì)小樣本數(shù)據(jù)的泛化能力［2-4］。Meta R-CNN 元學(xué)習(xí)通道式注意層，用于重塑RoI 頭部［5］。FSIW 通過(guò)在平衡數(shù)據(jù)集上進(jìn)行更復(fù)雜的特征聚合和元訓(xùn)練，改進(jìn)了Meta-R CNN［6］。RepMet 將基于距離的小樣本學(xué)習(xí)思想引入，構(gòu)造原型度量網(wǎng)和檢測(cè)模塊，提取圖像的嵌入特征并使用歐式距離計(jì)算進(jìn)行檢測(cè)［7］。文獻(xiàn)［8］探索不用對(duì)象類別內(nèi)在的通用特征，提出了通用原型，減輕了不平衡對(duì)象類別的影響。FSCE 將對(duì)比學(xué)習(xí)引入小樣本目標(biāo)檢測(cè)中，更有助于對(duì)象分類［9］。Meta YOLO 將元學(xué)習(xí)策略與重加權(quán)模型融合，將支持集特征以通道相乘融合到查詢集特征，但是這種方法需要額外的分支，計(jì)算復(fù)雜度增加［10］。MPSR 設(shè)計(jì)了一個(gè)特征金字塔模塊生成多尺度特征，并在不同尺度上進(jìn)行細(xì)化，但其網(wǎng)絡(luò)構(gòu)造復(fù)雜，且細(xì)化分支需要手動(dòng)決策，推廣性受限［11］。相對(duì)于其他小樣本檢測(cè)方法，基于模型微調(diào)的方法TFA 通過(guò)對(duì)在目標(biāo)域中訓(xùn)練的模型使用少量新類進(jìn)行微調(diào)即可進(jìn)行檢測(cè)，是一種既簡(jiǎn)單又高效的方法，在不增加算法復(fù)雜度的基礎(chǔ)上仍能獲得相對(duì)好的檢測(cè)性能［12］。

考慮實(shí)際應(yīng)用中數(shù)據(jù)獲取困難、背景復(fù)雜、目標(biāo)弱小等情況導(dǎo)致的算法性能欠佳。本文基于遷移學(xué)習(xí)的兩階段小樣本檢測(cè)方法，提出了一種基于可變卷積與遷移學(xué)習(xí)的小樣本檢測(cè)方法，主要?jiǎng)?chuàng)新點(diǎn)有：1）提出了一種學(xué)習(xí)能力更強(qiáng)的可變卷積主干網(wǎng)，將可變卷積思想加入Resnet 網(wǎng)絡(luò)中，使其在極少數(shù)據(jù)條件下也可以完成對(duì)樣本的特征學(xué)習(xí)，提高算法的泛化能力；2）面對(duì)實(shí)際場(chǎng)景中可能存在的多目標(biāo)重疊出現(xiàn)漏檢情況，將改進(jìn)的Soft-NMS 代替?zhèn)鹘y(tǒng)的NMS 降低漏檢率。

1 本文方法

本文小樣本檢測(cè)任務(wù)的基本流程整體可以分為兩步：1）模型在基類上的整體訓(xùn)練；2）在少量基類和新類上的對(duì)訓(xùn)練好的模型進(jìn)行適當(dāng)?shù)奈⒄{(diào)，完成對(duì)新類和基類的檢測(cè)。改進(jìn)算法整體框架如圖1 所示。

圖1 改進(jìn)算法網(wǎng)絡(luò)架構(gòu)Fig.1 Network architecture for improved algorithms

基礎(chǔ)模型訓(xùn)練：本文選取雙階段的目標(biāo)檢測(cè)器Faster R-CNN 作為基本模型，算法的整體架構(gòu)如圖1 所示。首先輸入基類圖片，經(jīng)主干網(wǎng)絡(luò)提取特征圖，然后將提取出的特征輸入RPN 網(wǎng)絡(luò)，生成一堆Anchor box，對(duì)其進(jìn)行裁剪過(guò)濾，輸出Bbox 邊界框和類別分?jǐn)?shù)。由RPN 輸出的圖像特征提取RoIs 傳入網(wǎng)絡(luò)，再經(jīng)過(guò)RoI 池化進(jìn)入全連接層輸出，完成分類與回歸工作，此時(shí)基礎(chǔ)模型的訓(xùn)練完成。

模型微調(diào)階段：數(shù)據(jù)包含少量的基類和新類圖片，首先完成模型的參數(shù)初始化，然后固定網(wǎng)絡(luò)的其余部分不變，對(duì)檢測(cè)器的最后一層參數(shù)進(jìn)行調(diào)整，同時(shí)引入余弦相似度分類器，使模型在具有對(duì)基類檢測(cè)能力的同時(shí)也有對(duì)新類的檢測(cè)能力。

2 基于可變卷積的特征提取主干網(wǎng)

傳統(tǒng)的目標(biāo)檢測(cè)網(wǎng)絡(luò)常使用VGG、Resnet 等作為主干網(wǎng)絡(luò)模型對(duì)圖像進(jìn)行特征提取，但是這些主干網(wǎng)模塊由固定幾何結(jié)構(gòu)組成，卷積單元在固定位置對(duì)輸入特征圖進(jìn)行采樣，在一個(gè)固定的層中，空間分辨率較低，缺乏處理幾何變換的能力。為了解決這個(gè)問(wèn)題，本文引入可變卷積的思想對(duì)主干網(wǎng)進(jìn)行改進(jìn)，增強(qiáng)對(duì)幾何變換建模的能力，使其具有更強(qiáng)的學(xué)習(xí)能力。

可變卷積是在傳統(tǒng)卷積的基礎(chǔ)上，通過(guò)在模塊中增加額外的偏移量來(lái)增大空間采樣位置，使采樣更靈活，并且可以在沒(méi)有額外監(jiān)督的情況下學(xué)習(xí)目標(biāo)任務(wù)的偏移量［13］。兩種卷積采樣方式對(duì)比如圖2所示，其中，圖2（a）是傳統(tǒng)卷積采樣過(guò)程，圖2（b）是可變卷積采樣過(guò)程，可以看出增加偏移量后，可以更好地應(yīng)對(duì)目標(biāo)移動(dòng)、尺寸縮放、旋轉(zhuǎn)等情況。

圖2 傳統(tǒng)卷積和可變卷積對(duì)比圖Fig.2 Comparison chart between traditional convolution and deformable convolution

實(shí)際生活中很多物體的形狀都是不規(guī)則的，如圖3 中的自行車，此時(shí)對(duì)自行車的車輪進(jìn)行特征學(xué)習(xí)，可以看出如果用傳統(tǒng)的正方形卷積對(duì)其進(jìn)行特征提取效果可能不好，此時(shí)，將傳統(tǒng)卷積換成可變卷積的話，可變卷積會(huì)根據(jù)特征形狀自動(dòng)計(jì)算偏移量，實(shí)現(xiàn)在當(dāng)前位置附近的隨機(jī)采樣。

圖3 可變卷積過(guò)程圖Fig.3 Process diagram of deformable convolution

雖然傳統(tǒng)殘差網(wǎng)絡(luò)在深度學(xué)習(xí)中表現(xiàn)很好，但是在小樣本學(xué)習(xí)中，由于樣本量少且圖像形變大，直接應(yīng)用此網(wǎng)絡(luò)不能很好地從少量樣本中進(jìn)行學(xué)習(xí)，所以本文將可變卷積嵌入到Resnet101 的殘差塊中進(jìn)行改進(jìn)，如圖4 所示，圖4（a）是傳統(tǒng)的殘差塊，圖4（b）是加入可變卷積之后的殘差塊。可以看到基于可變卷積的殘差網(wǎng)絡(luò)增強(qiáng)模型的幾何變換能力，獲得更具“代表性”的特性。

圖4 原始?xì)埐顗K與可變卷積殘差塊結(jié)構(gòu)圖Fig.4 Structure diagram of original residual block and deformable convolutional residual block

3 Soft-NMS

在實(shí)際應(yīng)用場(chǎng)景中，待檢測(cè)圖像常常背景復(fù)雜、目標(biāo)遮掩、重疊，此時(shí)使用傳統(tǒng)的非最大抑制（NMS）方法會(huì)造成對(duì)多個(gè)有重疊目標(biāo)的漏檢，影響檢測(cè)效果，本文提出使用改進(jìn)算法Soft-NMS 代替?zhèn)鹘y(tǒng)的NMS 來(lái)提升算法對(duì)復(fù)雜場(chǎng)景下的檢測(cè)性能，檢測(cè)效果如圖5 所示。

圖5 NMS 與Soft-NMS 結(jié)果對(duì)比圖Fig.5 Comparison picture of results between NMS and Soft-NMS

在傳統(tǒng)檢測(cè)算法的檢測(cè)過(guò)程中，首先會(huì)對(duì)圖片進(jìn)行滑窗處理，然后得到一系列檢測(cè)框B 和其對(duì)應(yīng)的得分S，非最大抑制會(huì)對(duì)各檢測(cè)框按從高到低的得分進(jìn)行排序，然后得分最高的檢測(cè)框M 被選中，將其放在最終檢測(cè)結(jié)果集C 中，將其他與檢測(cè)框M重疊部分大于一定閾值的檢測(cè)框移除。例如，設(shè)定閾值為0.5，圖5 中紅色檢測(cè)框與藍(lán)色檢測(cè)框的重疊＞0.5，就將藍(lán)色檢測(cè)框剔除。如果一個(gè)目標(biāo)處于預(yù)設(shè)的重疊閾值之內(nèi)，就會(huì)導(dǎo)致檢測(cè)不到該物體，造成有效信息的丟失，影響最終檢測(cè)結(jié)果。

與NMS 對(duì)重疊預(yù)測(cè)框全部抑制不同，Soft-NMS主要是對(duì)一個(gè)與預(yù)測(cè)框M 有高度重疊的檢測(cè)框B1的檢測(cè)分?jǐn)?shù)進(jìn)行衰減［14］。同樣對(duì)圖中的情況，Soft-NMS 不會(huì)直接對(duì)藍(lán)色的檢測(cè)框進(jìn)行抑制，而是會(huì)重新對(duì)其進(jìn)行衰減計(jì)算檢測(cè)框分?jǐn)?shù)，設(shè)置一個(gè)置信度閾值，將小于閾值的剔除，藍(lán)色檢測(cè)框的得分大于閾值被保留，最后被成功檢測(cè)出來(lái)，提升算法的性能。Soft-NMS 有線性計(jì)算和高斯計(jì)算兩種方法，本文采用的是線性計(jì)算法。

4 試驗(yàn)結(jié)果與分析

本文所提出方法在公開(kāi)數(shù)據(jù)集PASCAL VOC與多種先進(jìn)方法結(jié)果進(jìn)行對(duì)比分析，證明本文改進(jìn)方法的有效性；在實(shí)測(cè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，證明算法的實(shí)用性。將原始算法記為TFA，基于Soft-NMS改進(jìn)的算法記為TFA/soft-nms，基于可變卷積改進(jìn)的算法記為TFA/DCN，基于Soft-NMS 與可變卷積改進(jìn)的算法記為DS-TFA。

4.1 公開(kāi)數(shù)據(jù)集實(shí)驗(yàn)及結(jié)果分析

本節(jié)實(shí)驗(yàn)在公開(kāi)數(shù)據(jù)集VOC 上開(kāi)展。VOC 數(shù)據(jù)集常用來(lái)衡量圖像分類檢測(cè)能力，由VOC2007 和VOC2012 組成，共包含20 個(gè)不同的類別，每個(gè)類別有600 張圖片。按照前人工作中的設(shè)置［10］，將其隨機(jī)劃分成包含大量實(shí)例的基類和僅有少量樣本的新類，其中，基類包含15 個(gè)類別，新類包含5 個(gè)類別，用于微調(diào)的新類的樣本數(shù)為K。

為了評(píng)估算法的魯棒性，將VOC 數(shù)據(jù)集進(jìn)行三切片，表1 展示了各改進(jìn)方法與原算法、LSTD、Deformable-DETR-ft-full、Meta YOLO 和Meta RCNN在K 較少時(shí)對(duì)新類的檢測(cè)結(jié)果，優(yōu)于各改進(jìn)方法的結(jié)果已加粗。表2 展示了各改進(jìn)方法與原算法在VOC 不同切片上的檢測(cè)結(jié)果，下頁(yè)表3 展示了各改進(jìn)方法與原算法在VOC 不同切片上對(duì)基類的檢測(cè)結(jié)果，最優(yōu)結(jié)果均已加粗。

表1 不同方法在VOC 切片上對(duì)新類的檢測(cè)性能Table 1 Detection performance for the novel classes of VOC sections with different methods

表2 在VOC 數(shù)據(jù)集上的檢測(cè)性能Table 2 Detection performance on VOC datasets

表3 不同方法在VOC 切片上對(duì)基類的檢測(cè)性能Table 3 Detection performance for the base classes of VOC sections with different methods

從表1 可以看出，在VOC split1 實(shí)驗(yàn)中，本文改進(jìn)方法性能均達(dá)到了最優(yōu)性能。在split2 實(shí)驗(yàn)中，K=1，2，5 時(shí)，本文方法效果最好。K=3 時(shí)，本文改進(jìn)方法性能29.3%與Meta RCNN29.4%性能相當(dāng)?？梢钥闯觯跇?biāo)注類別K 較少時(shí)，相比其他先進(jìn)的小樣本檢測(cè)方法，本文方法對(duì)新類的檢測(cè)具有明顯優(yōu)勢(shì)。

對(duì)表1 結(jié)果中改進(jìn)方法與原始方法的結(jié)果進(jìn)一步分析。在split1 實(shí)驗(yàn)中，對(duì)新類檢測(cè)性能最高可以提升到7.9%；在split2 實(shí)驗(yàn)中，對(duì)新類檢測(cè)性能最高可以提升到9.4%。在split3 上K=5 實(shí)驗(yàn)中，對(duì)新類檢測(cè)性能可以提升到11.4%。相比原算法，本文的方法有明顯優(yōu)勢(shì)。

進(jìn)一步分析本文各改進(jìn)方法與原始算法的整體性能對(duì)比，從表2 可以看出，本文改進(jìn)的方法整體性能均要優(yōu)于原始方法。且在K 極少情況下（K=2），相比原方法最高提升了5.4%、4.3%和5.5%，證明了本文改進(jìn)方法的有效性。

所有微調(diào)后的模型在擁有對(duì)新類檢測(cè)能力的同時(shí)會(huì)影響對(duì)基類的檢測(cè)效果［13］。從表1 的結(jié)果可知，本文改進(jìn)方法對(duì)新類的檢測(cè)效果更好，從表3結(jié)果可以看出，在對(duì)基類的檢測(cè)上，本文提出的改進(jìn)方法性能仍高于原始算法，說(shuō)明改進(jìn)方法的穩(wěn)定性，在擁有對(duì)基類檢測(cè)的優(yōu)異性能的同時(shí)擁有對(duì)新類好的檢測(cè)能力。

4.2 實(shí)測(cè)數(shù)據(jù)集實(shí)驗(yàn)及結(jié)果分析

本節(jié)基于實(shí)際場(chǎng)景中現(xiàn)場(chǎng)采集的弱小目標(biāo)可見(jiàn)光圖像進(jìn)行實(shí)驗(yàn)，驗(yàn)證算法的泛化性和實(shí)用性。數(shù)據(jù)集包含車、鳥(niǎo)、客機(jī)和無(wú)人機(jī)4 類，每一類別圖像數(shù)量均小于80 張，并且目標(biāo)尺寸均小于32*32，最小目標(biāo)尺寸為8*8，數(shù)據(jù)集如圖6 所示。對(duì)數(shù)據(jù)進(jìn)行標(biāo)注處理，將其做成VOC 數(shù)據(jù)格式。

圖6 實(shí)測(cè)數(shù)據(jù)集示例圖Fig.6 Example diagram of the actual measured datasets

在本節(jié)實(shí)驗(yàn)中，從VOC 數(shù)據(jù)集中選取與自測(cè)數(shù)據(jù)集不同類的12 類數(shù)據(jù)作為基類，進(jìn)行基礎(chǔ)模型的訓(xùn)練，將4 類自測(cè)數(shù)據(jù)集作為要識(shí)別的新類，同樣K 分別取1、2、3、5、10。表4 和下頁(yè)表5 分別展示了各改進(jìn)方法與原算法的檢測(cè)結(jié)果和在基類和新類上的檢測(cè)結(jié)果。

表4 在實(shí)測(cè)數(shù)據(jù)上的檢測(cè)性能Table 4 Detection performance on actual measured data

表5 對(duì)實(shí)測(cè)數(shù)據(jù)基類和新類的檢測(cè)性能（mAP50）Table 5 Detection performance for the base and novel classes on actual measured data（mAP50）

由表4 可以看出，在以VOC 數(shù)據(jù)集為基類，自測(cè)弱小目標(biāo)數(shù)據(jù)集為新類的檢測(cè)上，改進(jìn)的算法均取得了比原方法更好的效果。在1-shot、2-shot、5-shot 和10-shot 情況下，DS-TFA 改進(jìn)方法性能最優(yōu)，相比原方法性能分別提升8.3%、8%、2.4%和3.5%。在3-shot 情況下，TFA/soft_nms 改進(jìn)方法性能最優(yōu)，相比原方法提升3.9%，DS-TFA 方法性能與其相當(dāng)?？傮w看來(lái)，在弱小目標(biāo)檢測(cè)上DS-TFA 改進(jìn)方法性能最佳。

由表5 可以看出，各方法可以保證在基類的檢測(cè)上的檢測(cè)mAP，并且各改進(jìn)方法性能均高于原方法，針對(duì)10-shot 檢測(cè)結(jié)果低于5-shot 檢測(cè)結(jié)果的情況，分析應(yīng)該是由于微調(diào)之后，加入的新類別影響了算法對(duì)基類的檢測(cè)性能。在對(duì)新類的檢測(cè)方面，在2-shot 和3-shot 極少標(biāo)注樣本情況下，DSTFA 和TFA/DCN 改進(jìn)方法性能達(dá)到相當(dāng)，相比原方法性能分別提升約7%和6%，當(dāng)類別極少時(shí)（K=1），DS-TFA 可以達(dá)到31.602，相比其他方法性能最多提升了一倍。以上結(jié)果表明，相比原方法，本文提出的改進(jìn)方法有明顯優(yōu)勢(shì)。

5 結(jié)論

本文基于少量樣本的情況，結(jié)合可變卷積和Soft-NMS 的優(yōu)勢(shì)，提出了一種面向弱小目標(biāo)的小樣本檢測(cè)方法，可實(shí)現(xiàn)對(duì)多尺度圖像的檢測(cè)識(shí)別。仿真結(jié)果表明，相比其他先進(jìn)小樣本檢測(cè)方法，本文提出的新方法不僅能夠提升對(duì)VOC 數(shù)據(jù)集大尺寸目標(biāo)的檢測(cè)率，同時(shí)還可以提升對(duì)弱小目標(biāo)的準(zhǔn)確率，并且在達(dá)到對(duì)新類檢測(cè)的基礎(chǔ)上，還保持了對(duì)基類的檢測(cè)效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡