国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合分類校正與樣本擴(kuò)增的小樣本目標(biāo)檢測(cè)

2024-01-18 16:52:52黃友文肖貴光
關(guān)鍵詞:基類檢測(cè)器主干

黃友文,豆 恒,肖貴光

江西理工大學(xué) 信息工程學(xué)院,江西 贛州 341000

近幾年,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[1-2]的發(fā)展提高了深度學(xué)習(xí)的特征提取能力,使通用目標(biāo)檢測(cè)器性能得到很大的提升[3-5]。深度檢測(cè)器通常需要大量帶標(biāo)注的訓(xùn)練數(shù)據(jù)才能讓其性能達(dá)到最優(yōu)[6],然而這些訓(xùn)練樣本數(shù)據(jù)在很多現(xiàn)實(shí)場景中都難以獲取。相比而言,人類只要給出極少數(shù)的樣本就可以迅速理解這些新的對(duì)象,并且可以識(shí)別新類中的物體,模仿人類的學(xué)習(xí)特性實(shí)現(xiàn)小樣本目標(biāo)檢測(cè)已成為當(dāng)前學(xué)術(shù)研究的熱點(diǎn)。與一般學(xué)習(xí)任務(wù)需要大量樣本的情況不同,小樣本學(xué)習(xí)任務(wù)需要在樣本不足的情況下完成深度網(wǎng)絡(luò)模型的有效訓(xùn)練。在小樣本學(xué)習(xí)任務(wù)下,深度檢測(cè)器有嚴(yán)重的過擬合問題,小樣本檢測(cè)任務(wù)與通用檢測(cè)任務(wù)的差距大于小樣本檢測(cè)任務(wù)和小樣本分類之間的差距[7]。這就導(dǎo)致在樣本數(shù)據(jù)稀缺的情況下,深度檢測(cè)器提取新類信息的能力與人類相差甚遠(yuǎn)。

小樣本目標(biāo)檢測(cè)(few-shot object detection,F(xiàn)SOD)相對(duì)于小樣本分類和通用目標(biāo)檢測(cè)難度更高。從算法上看,F(xiàn)SOD有兩個(gè)分支,一個(gè)是以元學(xué)習(xí)任務(wù)為主導(dǎo),目的是找到對(duì)所有任務(wù)都通用的最優(yōu)參數(shù),文獻(xiàn)[8]在元學(xué)習(xí)注意層重新構(gòu)建檢測(cè)器的RoI頭部,對(duì)其產(chǎn)生的特征圖進(jìn)一步處理。文獻(xiàn)[9]在重新平衡處理后的數(shù)據(jù)集上進(jìn)行特征聚合和元訓(xùn)練,使一個(gè)框架同時(shí)適用于小樣本目標(biāo)檢測(cè)和小樣本視點(diǎn)估計(jì)任務(wù)。另一個(gè)分支以微調(diào)為主導(dǎo),利用新類數(shù)據(jù)對(duì)現(xiàn)有模型參數(shù)進(jìn)行微調(diào),文獻(xiàn)[10]將遷移訓(xùn)練的方法用在Faster R-CNN 上進(jìn)行小樣本目標(biāo)檢測(cè),還引入廣義小樣本檢測(cè)作為評(píng)價(jià)指標(biāo)。文獻(xiàn)[11]在尺度范圍上擴(kuò)增樣本數(shù)據(jù)解決樣本數(shù)據(jù)稀缺的問題。由于微調(diào)算法采用基類數(shù)據(jù)訓(xùn)練模型,凍結(jié)一部分參數(shù)后在新類數(shù)據(jù)上微調(diào),因此會(huì)產(chǎn)生數(shù)據(jù)分布偏移和新類數(shù)據(jù)利用率不足的問題。

最新提出的算法中,文獻(xiàn)[12]在所有目標(biāo)類別中學(xué)習(xí)通用原型,利用通用原型的軟注意來增強(qiáng)目標(biāo)特征,提高模型的泛化能力。文獻(xiàn)[13]通過強(qiáng)化前景區(qū)域,再將支持圖像和查詢圖像結(jié)合得到帶有位置信息的支持向量,增加檢測(cè)器對(duì)于目標(biāo)的注意力。文獻(xiàn)[14]在基礎(chǔ)類別與新類別之間構(gòu)建兩個(gè)子圖,利用圖卷積將區(qū)域提案特征重構(gòu)之后與原類型匹配訓(xùn)練。文獻(xiàn)[15]針對(duì)RoI提取的區(qū)域提案構(gòu)建對(duì)比分支,將支持集和查詢集數(shù)據(jù)進(jìn)行更好的匹配。文獻(xiàn)[16]利用對(duì)抗的方式干擾新類目標(biāo)的特征表達(dá),優(yōu)化特征空間,使基類與新類的邊界更加明顯。文獻(xiàn)[17]以平均分?jǐn)?shù)從記憶增強(qiáng)特征中重新采樣,提升頭尾類的區(qū)分邊界,在保持頭部類性能的同時(shí)提高尾部類性能??梢钥闯?,使用現(xiàn)有樣本數(shù)據(jù)增強(qiáng)特征含有的信息是小樣本目標(biāo)檢測(cè)算法的主流,但是這種優(yōu)化沒有解決新類樣本數(shù)據(jù)稀缺的問題。文獻(xiàn)[18]利用蒸餾技術(shù)將支持集和查詢集的數(shù)據(jù)重新匹配,充分利用支持集數(shù)據(jù)的同時(shí)產(chǎn)生更多不同尺度的樣本特征。文獻(xiàn)[19]構(gòu)建幻覺網(wǎng)絡(luò)在RoI空間中生成更多的新類樣本。上述算法生成樣本數(shù)據(jù)利用的數(shù)據(jù)集規(guī)模都很小,生成的樣本多樣性并不豐富。與上述算法相比,所提方法通過限制主干網(wǎng)絡(luò)接收的信息和附加分類網(wǎng)絡(luò)校正分類任務(wù)讓特征更符合小樣本檢測(cè)的需要,同時(shí)使用大規(guī)模圖像分類數(shù)據(jù)集進(jìn)行樣本擴(kuò)增,可以有效緩解上述算法存在的問題。

針對(duì)上述算法的問題,提出分類校正模塊(classification calibration block,CCB),利用強(qiáng)分類網(wǎng)絡(luò)對(duì)RCNN 的分類分?jǐn)?shù)進(jìn)行校正,緩解定位任務(wù)對(duì)于分類任務(wù)性能的影響。引入樣本擴(kuò)增模塊(sample amplification block,SAB),用大規(guī)模圖像分類數(shù)據(jù)修正新類樣本分布,通過采樣完成樣本擴(kuò)增。同時(shí)通過梯度限制層(gradient control layer,GCL)對(duì)反向傳播到主干網(wǎng)絡(luò)的梯度信息乘以一個(gè)常數(shù),限制RPN 和R-CNN 模塊傳遞給主干網(wǎng)絡(luò)的信息。

所提方法可以有效解決小樣本目標(biāo)檢測(cè)任務(wù)面臨新類樣本數(shù)量不足以及樣本多樣性不足導(dǎo)致的過擬合問題,在PASCAL VOC 和COCO 兩個(gè)數(shù)據(jù)集上均取得了目前最好的效果。

1 問題定義

參照以往研究工作使用的設(shè)置方法[9-10,20-21],將常規(guī)目標(biāo)檢測(cè)數(shù)據(jù)集拆分為小樣本目標(biāo)檢測(cè)數(shù)據(jù)集。目標(biāo)類分為帶有大量標(biāo)注數(shù)據(jù)的基類Cbase和每類只有k個(gè)標(biāo)注數(shù)據(jù)的新類Cnovel,其中Cbase來自基類數(shù)據(jù)集Dbase,Cnovel來自新類數(shù)據(jù)集Dnovel,兩個(gè)類別之間沒有交集,即Cbase∩Cnovel=?。小樣本目標(biāo)檢測(cè)任務(wù)的學(xué)習(xí)過程分為基類訓(xùn)練階段和新類微調(diào)階段。前一階段利用含有大量帶標(biāo)注目標(biāo)的基類Cbase訓(xùn)練模型,讓檢測(cè)器擁有可以轉(zhuǎn)移到新類上的信息;后一階段在樣本數(shù)據(jù)稀缺的新類Cnovel上進(jìn)行微調(diào),讓整個(gè)檢測(cè)器更適應(yīng)新類。輸入圖像(x,y)∈Dbase∪Dnovel,其中x={ti,i=1,2,…,N}表示有N個(gè)目標(biāo)的圖像,ti表示圖像中的第i個(gè)目標(biāo),y={(ci,bi),i=1,2,…,N}表示圖像的標(biāo)注,ci=Cbase∪Cnovel是目標(biāo)ti的類別,bi表示目標(biāo)ti的邊框位置。依據(jù)上述設(shè)置,算法最終目的是利用基類數(shù)據(jù)集Dbase和新類數(shù)據(jù)集Dnovel在不同的學(xué)習(xí)階段優(yōu)化檢測(cè)器,然后對(duì)查詢集Dquery的樣本進(jìn)行檢測(cè),查詢集Dquery樣本的目標(biāo)都屬于類別Cquery,其中Cquery?Cbase∪Cnovel。

2 模型架構(gòu)

2.1 Faster R-CNN

Faster R-CNN[3]是一個(gè)經(jīng)典的兩階段目標(biāo)檢測(cè)器,由主干網(wǎng)絡(luò)、區(qū)域提案網(wǎng)絡(luò)(region proposal network,RPN)和R-CNN[22]三部分組成。主干網(wǎng)絡(luò)提取預(yù)處理圖片的特征,RPN利用錨框?qū)⑻卣鬓D(zhuǎn)換為一組高質(zhì)量類別無關(guān)的區(qū)域提案,R-CNN利用RoI池化層[23]將區(qū)域提案映射為固定大小的特征,R-CNN 的分類器與回歸器分別輸出類別分?jǐn)?shù)和邊框坐標(biāo)。三個(gè)模塊通過最小化損失函數(shù)L實(shí)現(xiàn)共同優(yōu)化,如式(1)所示:

在Faster R-CNN 的架構(gòu)中,RPN 模塊主要負(fù)責(zé)定位任務(wù);R-CNN 模塊同時(shí)負(fù)責(zé)定位任務(wù)和分類任務(wù)。由于分類任務(wù)需要轉(zhuǎn)移不變特征,而定位任務(wù)需要轉(zhuǎn)移變化特征[24]。最終會(huì)彼此影響對(duì)方性能。Faster R-CNN利用損失函數(shù)L平衡兩個(gè)互相矛盾的任務(wù),但這樣會(huì)導(dǎo)致單個(gè)任務(wù)陷入次優(yōu)解。

RPN和R-CNN根據(jù)損失函數(shù)L把對(duì)應(yīng)任務(wù)的梯度信息反向傳播給主干網(wǎng)絡(luò),優(yōu)化主干網(wǎng)絡(luò),并且利用主干網(wǎng)絡(luò)在兩個(gè)模塊之間傳遞信息。但是RPN和R-CNN會(huì)有前景-背景混淆和錯(cuò)誤分類的情況,通過梯度信息會(huì)將問題傳播到整個(gè)檢測(cè)器。擁有大量帶標(biāo)注的樣本數(shù)據(jù)時(shí),少量錯(cuò)誤對(duì)整個(gè)檢測(cè)器的性能影響有限。然而對(duì)小樣本目標(biāo)檢測(cè)而言,由于樣本稀少,這個(gè)問題在微調(diào)階段會(huì)嚴(yán)重?fù)p害檢測(cè)器的性能。

2.2 框架

基于上面的描述,提出一種新的小樣本目標(biāo)檢測(cè)框架,整體架構(gòu)如圖1所示。訓(xùn)練過程分為基類訓(xùn)練和新類微調(diào)兩個(gè)階段。在評(píng)估時(shí)引入CCB,利用一個(gè)訓(xùn)練好的強(qiáng)分類網(wǎng)絡(luò),將區(qū)域提案作為輸入,通過強(qiáng)分類網(wǎng)絡(luò)的分類分?jǐn)?shù)校正R-CNN的分類分?jǐn)?shù)。SAB附加在主干網(wǎng)絡(luò)之后,只在新類微調(diào)階段調(diào)用,利用大規(guī)模圖像分類數(shù)據(jù)集修正新類的樣本數(shù)據(jù)分布,再從修正后的數(shù)據(jù)分布中抽取更多的樣本加入微調(diào)過程,擴(kuò)增新類數(shù)據(jù)。在基類訓(xùn)練和新類微調(diào)兩個(gè)階段中都加入GCL,通過給兩個(gè)模塊的梯度數(shù)據(jù)乘上不同大小的限制因子,可以不同程度限制梯度信息的傳遞,從而使主干網(wǎng)絡(luò)在保存基類信息的同時(shí)加快對(duì)新類信息的適應(yīng)速度。

圖1 算法的網(wǎng)絡(luò)框架Fig.1 Network framework of algorithm

基類訓(xùn)練階段采用Dbase中的數(shù)據(jù)作為輸入,主干網(wǎng)絡(luò)提取樣本特征后送入RPN 和R-CNN 兩個(gè)模塊中,得到分類分?jǐn)?shù)與邊框坐標(biāo)。在新類微調(diào)階段將Dnovel中的數(shù)據(jù)送到主干網(wǎng)絡(luò)提取新類樣本的特征,然后使用SAB模塊對(duì)新類樣本在特征域擴(kuò)增,擴(kuò)增后的數(shù)據(jù)輸入RPN 和R-CNN 模塊進(jìn)行后續(xù)預(yù)測(cè)。R-CNN 分類器輸出的分?jǐn)?shù)經(jīng)過CCB 校正得到最終的檢測(cè)器分類分?jǐn)?shù),回歸器得到最終的邊框坐標(biāo)。在兩個(gè)訓(xùn)練階段反向傳播時(shí),梯度信息都經(jīng)過GCL處理,再傳遞到主干網(wǎng)絡(luò)。

2.3 分類校正模塊

分類校正模塊(CCB)利用分類性能很好的強(qiáng)分類網(wǎng)絡(luò)對(duì)檢測(cè)器的分類分?jǐn)?shù)進(jìn)行校正,有效解決了檢測(cè)器中分類任務(wù)受到定位任務(wù)影響的問題。通用目標(biāo)檢測(cè)器一般將分類器和回歸器并行部署在主干網(wǎng)絡(luò)之后,提升全局特征的利用率。然而,定位任務(wù)需要轉(zhuǎn)移變化特征,會(huì)驅(qū)使主干網(wǎng)絡(luò)提取的全局特征擁有轉(zhuǎn)移變化特征,這會(huì)影響全局特征中的轉(zhuǎn)移不變特性。分類任務(wù)需要轉(zhuǎn)移不變特征,因此負(fù)責(zé)定位任務(wù)的回歸器會(huì)影響分類器的性能。在大量標(biāo)注樣本的情況下,可以利用數(shù)據(jù)集的全面性緩解這個(gè)問題,但在小樣本檢測(cè)中,這個(gè)問題會(huì)影響檢測(cè)器的最終結(jié)果。模型在新類微調(diào)階段時(shí),樣本數(shù)量稀缺直接導(dǎo)致模型的分類器性能受到很大影響。本文采用如圖2 所示的分類校正模塊對(duì)結(jié)果進(jìn)行校正,消除分類器產(chǎn)生的高分假陽性(false positive)和低分假陰性(false negative)。

圖2 分類校正模塊Fig.2 Classification calibration block

模塊利用在ImageNet 數(shù)據(jù)集訓(xùn)練的強(qiáng)分類網(wǎng)絡(luò)作為CCB 的主干網(wǎng)絡(luò),將基類數(shù)據(jù)集Dbase中的基類圖片輸入到CCB 主干網(wǎng)絡(luò)提取特征,根據(jù)標(biāo)注中的真實(shí)邊框數(shù)據(jù)與特征相結(jié)合得到輸入圖片中的第i個(gè)目標(biāo)特征xi。將數(shù)據(jù)集轉(zhuǎn)換為目標(biāo)原型庫,uc表示類別為c的目標(biāo)特征原型,其計(jì)算方式如式(2)所示:

式中,Dc是基類數(shù)據(jù)集Dbase中所有類別為c的樣本子集。

將檢測(cè)圖片Ii輸入到微調(diào)之后的小樣本檢測(cè)器,得到結(jié)果,ci是預(yù)測(cè)類別,si是預(yù)測(cè)類別的分?jǐn)?shù),bi表示預(yù)測(cè)邊框。對(duì)輸入的檢測(cè)圖片Ii根據(jù)預(yù)測(cè)邊框bi生成對(duì)應(yīng)的目標(biāo)特征xi,利用目標(biāo)特征xi與目標(biāo)特征原型uc計(jì)算余弦相似度,如式(3)所示:

其中,α是平衡兩個(gè)分?jǐn)?shù)的超參數(shù)。

分類校正模塊獨(dú)立于檢測(cè)器之外,不共享參數(shù)可以確保分類校正模塊不受檢測(cè)器的影響,使其提取的特征有很強(qiáng)的轉(zhuǎn)移不變特征,適用于分類任務(wù)。CCB使用官方訓(xùn)練的參數(shù),不需要遷移訓(xùn)練,可以即插即用,很好地適用于提升其他類型的小樣本檢測(cè)器性能。

2.4 樣本擴(kuò)增模塊

為解決小樣本目標(biāo)檢測(cè)中微調(diào)階段樣本數(shù)據(jù)稀缺導(dǎo)致檢測(cè)器過擬合的問題,提出樣本擴(kuò)增模塊(SAB),在特征域?qū)颖緮?shù)據(jù)進(jìn)行擴(kuò)增。一般目標(biāo)檢測(cè)器的訓(xùn)練過程中,每個(gè)類別都有足夠多的樣本為檢測(cè)器提供此類別盡可能正確的樣本分布。小樣本目標(biāo)檢測(cè)器由于其任務(wù)的特殊性,在新類微調(diào)階段每個(gè)新類只有少量樣本為檢測(cè)器提供類別信息。這樣檢測(cè)器學(xué)習(xí)到的樣本分布相對(duì)于真實(shí)的樣本分布有很大的偏差,這些偏差會(huì)導(dǎo)致檢測(cè)器出現(xiàn)嚴(yán)重的錯(cuò)誤。在新類微調(diào)階段,主干網(wǎng)絡(luò)之后加入樣本擴(kuò)增模塊,利用圖片類別和數(shù)量都很多的圖像分類數(shù)據(jù)集在特征域擴(kuò)增新類。模型的架構(gòu)如圖3所示。

圖3 樣本擴(kuò)增模塊Fig.3 Sample amplification block

首先將圖像分類數(shù)據(jù)集DImage中的圖片輸入到在基類數(shù)據(jù)集Dbase訓(xùn)練過的主干網(wǎng)絡(luò),獲得整個(gè)數(shù)據(jù)集的類別原型庫UImage={u1,u2,…,ui},ui表示數(shù)據(jù)集DImage中類別為i的類別原型,如式(5)所示:

其中,Ni表示數(shù)據(jù)集DImage中類別為i的圖片數(shù)量,xi,j表示類別i中第j個(gè)圖片經(jīng)過主干網(wǎng)絡(luò)得到的特征。得到的類別原型存儲(chǔ)到本地,作為離線文件。然后將新類數(shù)據(jù)集Dnovel的圖片Ik輸入到主干網(wǎng)絡(luò)中,得到特征fk。利用余弦相似度計(jì)算fk與類別原型ui的相似度,得到圖片Ik與數(shù)據(jù)集DImage中每個(gè)類別的相似度mk={mk,1,mk,2,…,mk,i},mk,i代表圖片Ik和類別i的相似度,如式(6)所示:

對(duì)于mk取Top-d進(jìn)行歸一化得到權(quán)重系數(shù)wk={wk,1,wk,2,…,wk,i},其中wk,i表示歸一化后的圖片與DImage中類別i的權(quán)重系數(shù),如式(7)所示:

其中,d表示生成新數(shù)據(jù)集中使用到的類別數(shù)量,即Top-d中的d。

利用權(quán)重系數(shù)對(duì)類別原型加權(quán)之后可以得到新類數(shù)據(jù)集Dnovel的修正原型,如式(8)所示:

式中,ui為DImage中第i類的類別原型,wk,i為每個(gè)類別原型的權(quán)重。

最后,利用類別原型和修正原型構(gòu)建一個(gè)均勻分布,從這個(gè)均勻分布中采樣構(gòu)建新的數(shù)據(jù)集,如式(9)所示:

式中,x*為新生成的樣本,y表示新生成樣本的類別標(biāo)簽,U表示均勻分布,fk是主干網(wǎng)絡(luò)提取的新類樣本特征,pk是前述通過加權(quán)得到的新類修正原型特征,構(gòu)成均勻分布的兩個(gè)邊界。在生成的分布中采樣一定數(shù)量的樣本作為新的訓(xùn)練樣本Dnew,擴(kuò)增后的數(shù)據(jù)集D*novel如式(10)所示:

式中,Dnovel表示擴(kuò)增前的新類數(shù)據(jù)集,Dnew表示修正分布之后采樣生成的數(shù)據(jù)集。

樣本擴(kuò)增模塊主干網(wǎng)絡(luò)和檢測(cè)器主干網(wǎng)絡(luò)都使用ResNet-101,使用經(jīng)過基類訓(xùn)練的參數(shù)。對(duì)mini-ImageNet 數(shù)據(jù)集類別原型庫的構(gòu)建過程位于基類訓(xùn)練之后,獨(dú)立于小樣本目標(biāo)檢測(cè)器的訓(xùn)練過程。在新類微調(diào)階段只需要利用本地?cái)?shù)據(jù)生成新的數(shù)據(jù)集,不會(huì)帶來大量的運(yùn)算成本。通過擴(kuò)增樣本數(shù)量解決小樣本任務(wù)中最根本的數(shù)據(jù)不足問題可以很好地提高小樣本檢測(cè)器的性能。

2.5 梯度限制層

本節(jié)中,針對(duì)主干網(wǎng)絡(luò)中梯度信息獲取與真實(shí)樣本數(shù)量不匹配的問題,引入梯度限制層(GCL)限制RPN和R-CNN兩個(gè)模塊在訓(xùn)練階段反向傳播給主干網(wǎng)絡(luò)的梯度信息。小樣本檢測(cè)器的主干網(wǎng)絡(luò)不只需要基類信息,還需要新類信息,兩種類別信息都是在反向傳播中直接傳播到主干網(wǎng)絡(luò)。由于新類的樣本數(shù)量相比于基類相差很多,所以基類在訓(xùn)練過程中傳遞給主干網(wǎng)絡(luò)的信息更加符合類別的真實(shí)信息,但是新類也會(huì)將梯度完全傳遞給主干網(wǎng)絡(luò),這就讓主干網(wǎng)絡(luò)會(huì)受到新類信息的誤導(dǎo),學(xué)到與新類真實(shí)信息有區(qū)別的干擾信息。通過限制梯度傳遞,可以有效控制不同訓(xùn)練階段傳播給主干網(wǎng)絡(luò)的信息,讓主干網(wǎng)絡(luò)側(cè)重于利用基類信息提取新類特征。同時(shí),通過對(duì)RPN 和R-CNN 兩個(gè)模塊的反向傳播過程進(jìn)行不同程度的限制,可以有效地緩解定位任務(wù)與分類任務(wù)互相影響的問題。

從梯度反向傳播的角度,加入一個(gè)新的網(wǎng)絡(luò)層,稱為梯度限制層。正向傳播時(shí),按照Faster R-CNN 的設(shè)置正常傳播,不作任何處理。反向傳播時(shí),GCL取后一層的梯度,與限制因子λ∈[0,1]相乘,傳遞給前面一層,結(jié)構(gòu)如圖4所示。

圖4 梯度限制層Fig.4 Gradient control layer

其中,η為檢測(cè)器的學(xué)習(xí)率,λrpn和λrcnn分別表示RPN和R-CNN的梯度限制因子。式(11)表示主干網(wǎng)絡(luò)參數(shù)θt的更新受到λrpn和λrcnn的影響。當(dāng)λrpn=0 或λrcnn=0時(shí),表示θt不受θrpn或θrcnn的影響,相當(dāng)于主干網(wǎng)絡(luò)只接受RPN 或R-CNN 單個(gè)模塊的梯度信息;當(dāng)λrpn或λrcnn∈(0,1) 時(shí),表示θt受到θrpn或θrcnn部分影響,RPN或R-CNN 對(duì)于主干網(wǎng)絡(luò)的更新都提供梯度信息;當(dāng)λrpn=λrcnn時(shí),代表RPN 和R-CNN 兩個(gè)模塊的梯度信息限制程度相同;當(dāng)λrpn=λrcnn=1 時(shí),即GCL不起作用,檢測(cè)器反向傳播與Faster R-CNN一樣。當(dāng)λ<0 時(shí)對(duì)于梯度更新沒有意義。另外,限制因子λ對(duì)于RPN 和RCNN模塊參數(shù)θrpn和θrcnn的更新不產(chǎn)生影響。

梯度限制層加入兩個(gè)超參數(shù),在兩個(gè)訓(xùn)練階段使用超參數(shù)可以不同程度地限制RPN和R-CNN模塊傳播給主干網(wǎng)絡(luò)的梯度信息。限制不同訓(xùn)練階段的梯度信息可以有效解決檢測(cè)器在新類別上過擬合的問題。在SAB 擴(kuò)增樣本時(shí),因?yàn)閗-shot 任務(wù)下新類樣本的隨機(jī)性,差異化很大的樣本會(huì)導(dǎo)致擴(kuò)增樣本與輸入樣本偏離太多,GCL通過限制梯度信息的傳播可以有效糾正這個(gè)錯(cuò)誤。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

參照以往的研究工作使用的方法[9-10,21],利用TFA[10]的實(shí)驗(yàn)方案將常規(guī)目標(biāo)檢測(cè)數(shù)據(jù)集切割為符合小樣本標(biāo)準(zhǔn)的數(shù)據(jù)集,用得到的小樣本目標(biāo)檢測(cè)數(shù)據(jù)集對(duì)所提方法進(jìn)行公平的評(píng)估比較。

PASCAL VOC 屬于常規(guī)目標(biāo)檢測(cè)數(shù)據(jù)集,根據(jù)TFA的實(shí)驗(yàn)方法將其20個(gè)類別拆分為15個(gè)基礎(chǔ)類別和5 個(gè)新類別?;愑?xùn)練階段使用15 個(gè)基礎(chǔ)類別的所有樣本進(jìn)行訓(xùn)練,新類微調(diào)階段在新類別所有樣本中抽取k個(gè)樣本進(jìn)行微調(diào)。對(duì)于每個(gè)新類別抽取k個(gè)樣本進(jìn)行新類微調(diào)稱為小樣本k-shot任務(wù),設(shè)置k=1,2,3,5,10,按照k-shot 任務(wù)分別對(duì)模型輸入不同數(shù)量的k個(gè)微調(diào)樣本。從而將常規(guī)目標(biāo)檢測(cè)數(shù)據(jù)集PASCAL VOC轉(zhuǎn)換為符合小樣本標(biāo)準(zhǔn)的數(shù)據(jù)集。其中,用于訓(xùn)練和微調(diào)的樣本來自VOC-07/12 的訓(xùn)練集。根據(jù)TFA 的實(shí)驗(yàn)設(shè)置抽樣出基類和新類的三種劃分結(jié)果,分別為Novel Set 1,2 和3。在VOC-07 測(cè)試集使用新類預(yù)測(cè)AP50 進(jìn)行評(píng)估。

對(duì)于COCO 數(shù)據(jù)集,根據(jù)TFA 實(shí)驗(yàn)設(shè)置將其80 個(gè)類別劃分為基礎(chǔ)類別和新類別,與VOC 數(shù)據(jù)集不相交的60 個(gè)類別設(shè)置為基礎(chǔ)類別,剩余20 個(gè)類別設(shè)置為新類別。同VOC 數(shù)據(jù)集一樣,使用60 個(gè)基礎(chǔ)類別的所有樣本參與基類訓(xùn)練,對(duì)于新類別按照k=1,2,3,5,10,30,設(shè)置小樣本k-shot 任務(wù),按照k-shot 任務(wù)在每個(gè)新類別中抽取k個(gè)樣本作為參與微調(diào)的樣本。依據(jù)上述方法將大規(guī)模目標(biāo)檢測(cè)數(shù)據(jù)集COCO 轉(zhuǎn)換為符合小樣本標(biāo)準(zhǔn)的數(shù)據(jù)集。使用驗(yàn)證集里的5 000 張圖片遵循mAP進(jìn)行評(píng)估。此外所有的結(jié)果都是十次重復(fù)運(yùn)行的平均值。

本文以Faster R-CNN[3]作為基本檢測(cè)框架,使用在ImageNet上預(yù)訓(xùn)練的ResNet-101作為檢測(cè)器主干網(wǎng)絡(luò),采用同樣在ImageNet上訓(xùn)練過的ConvNeXt-XL作為分類校正模塊主干網(wǎng)絡(luò),使用大規(guī)模圖像分類數(shù)據(jù)集mini-ImageNet 生成SAB 的類別原型庫。采用SGD 對(duì)檢測(cè)器進(jìn)行端到端的優(yōu)化,小批量尺寸為4,動(dòng)量因子為0.9,權(quán)重衰減因子為0.000 05。學(xué)習(xí)率在基礎(chǔ)訓(xùn)練時(shí)設(shè)置為0.02,在新類微調(diào)時(shí)設(shè)置為0.01。CCB中的平衡系數(shù)α設(shè)置為0.6。SAB每個(gè)類別生成的新樣本數(shù)量為50。在基類訓(xùn)練階段,GCL 中的λrpn與λrcnn分別設(shè)置為0.25 和0.75;新類微調(diào)階段,將λrpn與λrcnn設(shè)置為0和0.1。

3.2 比較結(jié)果

在表1 中展示了VOC 數(shù)據(jù)集上三種不同分割方式的評(píng)估結(jié)果??梢钥闯鏊岱椒ㄔ贔SOD評(píng)估標(biāo)準(zhǔn)下,整體性能優(yōu)于其他模型,證明所提算法的有效性。對(duì)于FSOD評(píng)估,在k-shot任務(wù)中,k值越小,其提升的性能越大,當(dāng)k=1 和2 時(shí),與其他算法相比,均取得了最好的檢測(cè)效果,在Novel Set 2 的2-shot 任務(wù)中相比次優(yōu)的DeFRCN算法有5.1個(gè)百分點(diǎn)的提升。而對(duì)于k值較大的5-shot 和10-shot,與DeFRCN 的結(jié)果相差不大,不同分組的結(jié)果互有勝負(fù),如Novel Set 1 中5-shot結(jié)果略差于DeFRCN,但10-shot 的檢測(cè)效果要好于DeFRCN。

表1 不同算法在PASCAL VOC數(shù)據(jù)集下的結(jié)果對(duì)比Table 1 Comparison of different algorithms under PASCAL VOC dataset 單位:%

表2 展示了在COCO 數(shù)據(jù)集上采用mAP 評(píng)估得到的結(jié)果。在k=1 和2時(shí),本文方法達(dá)到了最好的結(jié)果,對(duì)于次優(yōu)算法DeFRCN 有1.9 和0.9 個(gè)百分點(diǎn)的顯著提升,同時(shí)針對(duì)k=5 和10,結(jié)果也好于次優(yōu)算法DeFRCN。證明所提方法在不同的數(shù)據(jù)集下都有很好的效果,在小樣本檢測(cè)任務(wù)下?lián)碛泻芎玫聂敯粜院头夯芰Α?/p>

表2 不同算法在COCO數(shù)據(jù)集下的結(jié)果對(duì)比Table 2 Comparison of different algorithms under COCO dataset 單位:%

3.3 消融實(shí)驗(yàn)

使用不同分類模型作為CCB模塊主干網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果如表3 所示。由表3 可以看出ConvNeXt-XL 作為分類器時(shí),檢測(cè)器的效果最好。主干網(wǎng)絡(luò)采用分類性能最弱的ResNet-18 得到的最終效果也最差。表明CCB主干網(wǎng)絡(luò)的分類能力越強(qiáng),對(duì)于整個(gè)檢測(cè)器分類能力的校正效果就越強(qiáng)。

表3 CCB不同主干網(wǎng)絡(luò)的結(jié)果對(duì)比Table 3 Comparison of classification calibration block different backbone network results 單位:%

針對(duì)不同模塊的消融實(shí)驗(yàn),結(jié)果如表4 所示。第1行是基礎(chǔ)Faster R-CNN 的檢測(cè)結(jié)果,可以看到在樣本稀缺的情況下,F(xiàn)aster R-CNN存在嚴(yán)重的過擬合現(xiàn)象,檢測(cè)效果很差。第1~7行和8~14行數(shù)據(jù)顯示,在基類訓(xùn)練階段(base-training)使用GCL 的檢測(cè)結(jié)果,基類提升2.5個(gè)百分點(diǎn),新類也有提高(1.4~2.1個(gè)百分點(diǎn)),說明限制檢測(cè)器對(duì)于基類信息的接收可以產(chǎn)生更適合于小樣本檢測(cè)的基類模型。第4行和第11行的結(jié)果說明,在新類微調(diào)階段(novel-fine-tuing)加入GCL,對(duì)于小樣本檢測(cè)性能有很大的提升(3.9~16.9個(gè)百分點(diǎn)),GCL使用限制因子限制了檢測(cè)器對(duì)于新類信息的接收,讓檢測(cè)器以基類信息為主導(dǎo),避免過擬合風(fēng)險(xiǎn)。第2 行和第9 行展示了在評(píng)估階段引入CCB 對(duì)性能的影響,有3.3~4.3 個(gè)百分點(diǎn)的性能提升。第3 行和第10 行表示在新類微調(diào)階段加入SAB的性能提升效果(3.4~15.5個(gè)百分點(diǎn)),其對(duì)于k-shot任務(wù)k值越小提升效果越大,說明其很好地緩解了新類樣本數(shù)據(jù)稀缺的問題。當(dāng)k值較大時(shí),提升性能較少,說明檢測(cè)器不只需要大量的圖片,更需要高質(zhì)量的圖片。第10行與第12行對(duì)比說明新類微調(diào)階段加入GCL 對(duì)于SAB 的結(jié)果會(huì)有優(yōu)化,原因是新類擴(kuò)增采用差異化很大的樣本數(shù)據(jù),如果樣本數(shù)據(jù)與真實(shí)分布相差很大,最終擴(kuò)增的數(shù)據(jù)也有很大的誤差,而GCL可以通過限制信息傳遞到整個(gè)檢測(cè)器,緩解SAB 的缺點(diǎn)。第14 行顯示了所有模塊都加入的結(jié)果,與第一行相比提升顯著(6.8~21.3個(gè)百分點(diǎn))。

表4 不同模塊的消融實(shí)驗(yàn)Table 4 Ablation experiments of different modules 單位:%

在CCB和SAB中使用不同的度量方式對(duì)于性能的影響結(jié)果如表5所示。通過表5可以看出使用余弦相似度作為度量特征之間的距離可以取得很好的結(jié)果。在CCB中使用其他度量方式,諸如歐氏距離和協(xié)方差距離對(duì)于檢測(cè)器最終的結(jié)果有很大的影響,而在SAB 中使用這幾種度量方式卻沒有如此大的差距。分析原因在于CCB利用度量方式得到的結(jié)果直接影響檢測(cè)器的最終輸出分類分?jǐn)?shù),而SAB 使用度量方式計(jì)算新類修正原型特征pk的權(quán)重系數(shù)來間接影響檢測(cè)器的性能。

表5 CCB和SAB不同度量方式的結(jié)果比較Table 5 Comparison of classification calibration block and sample amplification block with different measurement results 單位:%

3.4 超參數(shù)選擇

SAB 在擴(kuò)增樣本數(shù)據(jù)時(shí),需要利用mini-ImageNet數(shù)據(jù)集中的Top-d個(gè)類別修正新類特征分布,d的不同取值對(duì)于性能結(jié)果的影響如圖5 所示??梢钥闯鋈op-300時(shí),檢測(cè)器的性能最好,取Top-100效果最差,原因在于新類的樣本數(shù)據(jù)很少,使用過少的類別修正很可能因?yàn)槟承┓顷P(guān)鍵特征很相似其他類別,導(dǎo)致特征分布修正時(shí)出錯(cuò)。同時(shí),實(shí)驗(yàn)結(jié)果表明,使用過多的類別修正分布對(duì)于性能沒有很好的提升。

圖5 SAB修正分布Top-dFig.5 Sample amplification block modified distribution Top-d

SAB通過在修正后的新類分布中采樣N個(gè)樣本作為擴(kuò)增樣本,采樣數(shù)量N的不同對(duì)于檢測(cè)器的性能影響如圖6 所示??梢钥闯霎?dāng)N取50 時(shí),檢測(cè)器的性能最優(yōu)。且在1/2/3-shot 時(shí),隨著N值的增大,檢測(cè)器性能提升非常大,但是在5/10-shot 時(shí),其優(yōu)化提升很小。原因在于對(duì)于5/10-shot任務(wù)而言,檢測(cè)器可以從未擴(kuò)增數(shù)據(jù)集中獲得很好的類別分布信息,因此擴(kuò)增后的數(shù)據(jù)集對(duì)于檢測(cè)器性能的提升效果不顯著。

圖6 SAB樣本擴(kuò)增數(shù)量NFig.6 Number of sample amplification block samples amplified N

GCL 在反向傳播階段用兩個(gè)限制因子λrpn和λrcnn控制主干網(wǎng)絡(luò)接收的信息,不同取值的λrpn和λrcnn在不同訓(xùn)練階段對(duì)檢測(cè)器的性能影響如表6所示。第1~5行顯示新類微調(diào)階段的兩個(gè)限制因子和基類訓(xùn)練階段的限制因子λrcnn固定不變,只改變基類訓(xùn)練階段限制因子λrpn,當(dāng)λrpn=0.25 時(shí),檢測(cè)器的檢測(cè)效果最好。同理確保其他三個(gè)限制因子不變,只改變一個(gè)限制因子,第6~10行只修改基類訓(xùn)練階段的限制因子λrcnn,第11~15行改變新類微調(diào)階段的限制因子λrpn,第16~20 行改變新類微調(diào)階段的限制因子λrcnn。通過實(shí)驗(yàn)結(jié)果得知,基類訓(xùn)練階段限制因子設(shè)置為λrpn=0.25 和λrcnn=0.75,新類微調(diào)階段限制因子設(shè)置為λrpn=0 和λrcnn=0.1 達(dá)到最好。另外第6~10行證明檢測(cè)器不需要微調(diào)階段的RPN提供的定位信息,即新類別所需的定位信息主要由基礎(chǔ)類別提供。

表6 GCL不同訓(xùn)練階段限制因子λrpn 與λrcnnTable 6 Limiting factors of gradient control layer in different training stages λrpn and λrcnn

校正分類過程中,CCB使用平衡系數(shù)α∈[0,1]平衡強(qiáng)分類網(wǎng)絡(luò)和檢測(cè)器網(wǎng)絡(luò)的檢測(cè)結(jié)果,α的不同對(duì)檢測(cè)器性能的影響如圖7 所示,α取0.6 最為合適。由于檢測(cè)器同時(shí)負(fù)責(zé)分類和定位兩個(gè)任務(wù),分類性能不可避免地受到影響,但是CCB中的強(qiáng)分類器不受影響,因此在最終的校正過程中強(qiáng)分類器的權(quán)重略大于檢測(cè)器的權(quán)重。

圖7 CCB平衡系數(shù)αFig.7 Classification calibration block equilibrium coefficient α

4 結(jié)束語

本文提出一種新的小樣本目標(biāo)檢測(cè)算法,用于解決小樣本目標(biāo)檢測(cè)擴(kuò)增樣本時(shí)存在的數(shù)據(jù)分布偏移問題,以及分類任務(wù)性能容易受定位任務(wù)影響的問題?,F(xiàn)有算法對(duì)主干網(wǎng)絡(luò)提取的特征進(jìn)行融合、映射等操作以加強(qiáng)特征攜帶的信息量,所提方法通過控制主干網(wǎng)絡(luò)接收類別信息的程度和使用強(qiáng)分類網(wǎng)絡(luò)校正分類分?jǐn)?shù)的方式使主干網(wǎng)絡(luò)提取的特征更適合小樣本目標(biāo)檢測(cè)任務(wù);現(xiàn)有算法使用目標(biāo)檢測(cè)數(shù)據(jù)集或生成網(wǎng)絡(luò)得到訓(xùn)練數(shù)據(jù)的擴(kuò)增樣本,所提方法使用大規(guī)模分類數(shù)據(jù)集擴(kuò)增新類樣本可以有效提升檢測(cè)器性能。在PASCAL VOC和COCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相比于現(xiàn)有的方法,所提方法實(shí)現(xiàn)了最佳的小樣本目標(biāo)檢測(cè)性能,驗(yàn)證了算法的有效性。在未來的研究中,可以將超參數(shù)作為可學(xué)習(xí)參數(shù),以學(xué)習(xí)到適應(yīng)檢測(cè)器最優(yōu)值的參數(shù)配置,進(jìn)一步提高小樣本目標(biāo)檢測(cè)器的性能。

猜你喜歡
基類檢測(cè)器主干
全球首條1.2T超高速下一代互聯(lián)網(wǎng)主干通路
軍事文摘(2024年2期)2024-01-10 01:58:34
抓主干,簡化簡單句
基于C#面向?qū)ο蟪绦蛟O(shè)計(jì)的封裝、繼承和多態(tài)分析
二代支架時(shí)代數(shù)據(jù)中糖尿病對(duì)無保護(hù)左主干患者不同血運(yùn)重建術(shù)預(yù)后的影響
高齡無保護(hù)左主干病變患者血運(yùn)重建術(shù)的長期預(yù)后
車道微波車輛檢測(cè)器的應(yīng)用
空戰(zhàn)游戲設(shè)計(jì)實(shí)例
一種霧霾檢測(cè)器的研究與設(shè)計(jì)
一種基于用戶興趣的STC改進(jìn)算法
虛機(jī)制在《面向?qū)ο蟪绦蛟O(shè)計(jì)C++》中的教學(xué)方法研究
洛宁县| 儋州市| 玉树县| 永吉县| 高雄县| 仲巴县| 绍兴县| 毕节市| 金乡县| 汉中市| 黔东| 抚顺市| 旺苍县| 陇南市| 鄂温| 静乐县| 车险| 金昌市| 绿春县| 宁陕县| 元谋县| 陆丰市| 商丘市| 青冈县| 武乡县| 东乌珠穆沁旗| 建平县| 苏尼特右旗| 苏尼特左旗| 墨玉县| 宜都市| 新平| 玉环县| 敦煌市| 遂川县| 韶山市| 合水县| 凉城县| 馆陶县| 区。| 台山市|