侯玥 王開宇 金順福
摘 要:深度學(xué)習(xí)技術(shù)在目標(biāo)檢測領(lǐng)域取得了顯著的成果,但是相關(guān)模型在樣本量不足的條件下難以發(fā)揮作用,借助小樣本學(xué)習(xí)技術(shù)可以解決這一問題。本文提出一種新的小樣本目標(biāo)檢測模型。首先,設(shè)計了一種特征學(xué)習(xí)器,由Swin Transformer模塊和PANET模塊組成,從查詢集中提取包含全局信息的多尺度元特征,以檢測新的類對象。其次,設(shè)計了一種權(quán)重調(diào)整模塊,將支持集轉(zhuǎn)換為一個具有類屬性的權(quán)重系數(shù),為檢測新的類對象調(diào)整元特征分布。最后在ImageNet-LOC 、PASCAL VOC和COCO三種數(shù)據(jù)集上進行實驗分析,結(jié)果表明本文提出的模型在平均精度、平均召回率指標(biāo)上相對于現(xiàn)有的先進模型都有了顯著的提高。
關(guān)鍵詞:小樣本;目標(biāo)檢測;Swin Transformer;通道注意力機制;YOLOv5
中圖分類號: TP391.4? 文獻標(biāo)識碼: A? DOI:10.3969/j.issn.1007-791X.2023.01.007
0 引言
近年來,在圖像分類領(lǐng)域研究成果的基礎(chǔ)上,以深度學(xué)習(xí)為核心的目標(biāo)檢測技術(shù)得到飛速發(fā)展。其在智能實時監(jiān)測[1]、船舶檢測[2]、自動駕駛[3]、人臉識別[4]等領(lǐng)域得到廣泛的應(yīng)用。
目前,基于深度學(xué)習(xí)的目標(biāo)檢測模型想要訓(xùn)練出好的效果,須要以大量的標(biāo)注樣本為基礎(chǔ),但是在實際應(yīng)用中,很難獲得大規(guī)模樣本數(shù)據(jù)。而小樣本學(xué)習(xí)只需要少量樣本就可以實現(xiàn)對新類目標(biāo)的分類識別,減少對大規(guī)模標(biāo)簽數(shù)據(jù)的依賴。受到小樣本學(xué)習(xí)的啟發(fā),小樣本條件下的目標(biāo)檢測技術(shù)也在不斷崛起。基于包含足夠標(biāo)記樣本的數(shù)據(jù)集,小樣本目標(biāo)檢測只需檢測新類別中的少量標(biāo)記樣本,然后構(gòu)建正確的訓(xùn)練方法,設(shè)計合適的模型結(jié)構(gòu)以及與訓(xùn)練相對應(yīng)的損失函數(shù),就可以得到具有泛化性能的檢測模型。這大大提高了模型開發(fā)的效率。
目前,小樣本目標(biāo)檢測方法有基于單階段或兩階段的目標(biāo)檢測算法。文獻[5]以Faster R-CNN為骨干網(wǎng)絡(luò),也有一些研究基于單階段目標(biāo)檢測算法。文獻[6-7]使用YOLO作為骨干網(wǎng)絡(luò),文獻[8]使用SSD作為小樣本目標(biāo)檢測的骨干網(wǎng)絡(luò)。近年來,研究者在不斷地將注意力機制與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合。例如,自注意力機制Transformer[9]在自然語言處理領(lǐng)域取得突破,例如iGPT[10]和ViT[11]。2020年,Detection Transformer(DETR)[12]的提出將Transformer成功引入到計算機視覺領(lǐng)域。文獻[13]在Deformable DETR[14]的基礎(chǔ)上,將Transformer與元學(xué)習(xí)相結(jié)合,提出了一種圖像級元學(xué)習(xí)小樣本目標(biāo)檢測模型。2021年文獻[15]提出了Transformer的改進模型Swin Transformer,其在分類、檢測和分割任務(wù)中取得了優(yōu)異的成績,并且成為一個新的熱點模型。例如,文獻[16]利用Swin Transformer實現(xiàn)腰部圖像的精準(zhǔn)分割。
小樣本目標(biāo)檢測過程不僅需要提取高層次的語義信息來完成分類任務(wù),還需要低層次的像素信息來實現(xiàn)目標(biāo)定位。因此,針對上述因素,本文以YOLOv5模型為主干網(wǎng)絡(luò),設(shè)計出一種新的小樣本目標(biāo)檢測模型STFS(Swin Transformer based Few-Shot Learning),它充分利用圖像的上下文信息來尋找不同類別之間的可區(qū)分特征,以此可以實現(xiàn)圖像分類,但圖像中包含的無關(guān)信息可能會誤導(dǎo)目標(biāo)的定位和識別。因此,增加了注意力機制來提取重要目標(biāo)周圍的有用信息,抑制無關(guān)信息的干擾,有助于小樣本目標(biāo)檢測的定位和分類。具體工作如下:
1)設(shè)計了一個元特征提取網(wǎng)絡(luò)(Swin Transformer based YOLOv5,ST-YOLO)。它由兩部分組成:Swin Transformer模塊,通過自注意力的方式擴大全局感受野,并獲取全局上下文信息;PANET模塊,實現(xiàn)深、淺層之間多尺度的特征融合。
2)設(shè)計了一個權(quán)重調(diào)整模塊(Reweighting based ECA,REW-ECA),通過少量的支持集生成具有類屬性的權(quán)重系數(shù),并自動調(diào)整元特征分布以檢測新類對象。
1 小樣本目標(biāo)檢測模型
本文提出的小樣本目標(biāo)檢測算法STFS結(jié)構(gòu)如圖1所示,一共包括三大模塊。
1)ST-YOLO模塊為元特征提取器,用于學(xué)習(xí)多尺度元特征。它主要是通過注意力的方式逐漸增強全局感受野,獲取全局上下文信息,從而建立對目標(biāo)的遠距離的依賴。
2)REW-ECA模塊為元學(xué)習(xí)器,用于生成權(quán)重系數(shù)。權(quán)重系數(shù)是一個具有類屬性的全局變量,這個全局變量具有感興趣的類別對象的語義信息。該類別的語義信息被集成到元特征中,以增強元特征中待檢測對象的類別語義信息的表達。
3)預(yù)測模塊負責(zé)接收ST-YOLO和ECANet的輸出,并生成目標(biāo)檢測結(jié)果。具體來說,它將元特征和權(quán)重系數(shù)聚合為一組特定于類別的特征,然后使用YOLOv5的檢測頭預(yù)測回歸位置和分類信息。
1.1 ST-YOLO模塊
本文設(shè)計的ST-YOLO模塊是在YOLOv5模型基礎(chǔ)上進行改進的。其主要任務(wù)是學(xué)習(xí)從基類中提取全局上下文信息,并聚合高層強語義信息和低層強定位信息。
對于小樣本訓(xùn)練,YOLOv5模型的原主干網(wǎng)絡(luò)無法通過有限的標(biāo)注樣本學(xué)習(xí)全局上下文信息,雖然可以通過堆疊卷積神經(jīng)網(wǎng)絡(luò)來增加感受野,但深層卷積網(wǎng)絡(luò)會大大增加計算量。因此,將用作特征提取的主干網(wǎng)絡(luò)替換為Swin Transformer模塊,其自注意力機制用來學(xué)習(xí)整個數(shù)據(jù)集中同類的相同特征和不同種類的可區(qū)分全局特征,從而解決小樣本容易忽略數(shù)據(jù)集內(nèi)部特征之間關(guān)系的問題。
Swin Transformer是一個基于自注意力機制的網(wǎng)絡(luò)。它具有專注于全局信息建模的能力,可以用作視覺和語言處理的統(tǒng)一模型。在Swin Transformer模型中,對輸入向量進行線性變換后,將得到的矩陣均分為三部分,這三部分成為Transformer中查詢向量Q、關(guān)鍵向量K和位置向量V的三個特征,注意力機制的計算公式為
AttentionQ,K,V=SoftmaxQKTdk+BV,
式中,B表示相對位置偏差,dk表示特征K的方差,Softmax為歸一化指數(shù)函數(shù)。可以看出,該機制是為了在圖像中找到關(guān)鍵信息而設(shè)計的,這是一種尋找全局特征的方法。
在Swin Transformer用于特征提取的過程中,會失去大量位置信息,不利于目標(biāo)的定位。因此,將提取的全局特征輸入PANET模塊,特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)將高層的強語義特征傳遞下來,像素聚合網(wǎng)絡(luò)(Pixel Aggregation Network,PAN) 將低層的強定位信息傳遞上去,實現(xiàn)對目標(biāo)的精確定位。
總體而言,ST-YOLO模塊主要是利用自注意力機制和特征金字塔結(jié)構(gòu),增強了骨干網(wǎng)絡(luò)在小樣本圖像中捕獲全局語義信息的能力,并將高層語義信息和低層細粒度信息完美融合,以此提高小樣本檢測模型學(xué)習(xí)特征的能力。
1.2 REW-ECA模塊
如前所述,REW-ECA模塊的功能是生成感興趣區(qū)域的全局變量,該變量具有感興趣區(qū)域中對象的類特征。為此設(shè)計的系數(shù)生成網(wǎng)絡(luò)有兩個主要功能:一是提取有類別信息的語義特征;二是突出感興趣的區(qū)域。第一點直接使用層數(shù)合適的卷積神經(jīng)網(wǎng)絡(luò)。第二點通過引入注意力機制來實現(xiàn)。
注意力機制借鑒人類的視覺系統(tǒng)獲得關(guān)鍵信息的內(nèi)部處理過程。例如人類要在嘈雜的市場尋找結(jié)伴的伙伴,視線內(nèi)所有事物的形狀、顏色等信息量過于巨大,于是可以選擇忽略一部分無關(guān)緊要的信息(水果顏色、貨物形狀),重點觀察人的衣服顏色、體型、發(fā)色等特征,從而找到相應(yīng)的目標(biāo)對象。注意力機制的信息處理過程具體可以表示為
Attention=fgx,x,
式中,g(·)為處理輸入特征和產(chǎn)生注意力的過程,f(·)表示結(jié)合注意力對輸入特征進行處理。對于自注意力機制self-attention,上述過程可以具體表示為
Q,K,V=Linearx
gx=SoftmaxQK
fgx,x=g(x)V。
注意力機制主要分為空間注意和通道注意。在本文中,為了彌補卷積層不考慮每個通道之間依賴關(guān)系的缺陷,選擇通道注意力ECA在每個卷積通道之間分配資源,并設(shè)計了ECANet網(wǎng)絡(luò)來生成任務(wù)所需的權(quán)重系數(shù)。
總的來說,REW-ECA模塊將支持集作為其輸入,學(xué)習(xí)將支持集的信息轉(zhuǎn)換為全局向量,該向量具有感興趣區(qū)域中對象的類特性。在該模塊的作用下,將增強查詢集中新類對象的特征,有助于檢測頭的預(yù)測。
1.2.1 通道關(guān)注模塊
通道關(guān)注模塊(Efficient Channel Attention,ECA)的設(shè)計主要考慮到捕獲所有通道之間的依賴關(guān)系不是必要的,且效率會很低。因此,通過局部跨通道之間的信息交流產(chǎn)生通道之間的注意力,相比與所有通道之間交互有效地降低了模型的復(fù)雜度,并保持較高的模型效率。每個通道只與其相鄰的才k個通道進行相互交流,通道yi的權(quán)重計算為
wi=σ∑kj=1αjiyji,
其中,yji∈Ωki,Ωik表示yij的k個相鄰?fù)ǖ赖募?。使用卷積的共享權(quán)重的方法,以此來進一步提高模型的性能。
跨通道信息交互的覆蓋率由卷積核k的大小決定,其計算公式為
k=ψC=log2Cγ+bγodd,
式中,|X|odd為與X距離最近的奇數(shù),C為通道維數(shù)。
原始ECA模塊通過全局平均池化操作(Global Average Pooling,GAP)獲取全局信息,并提取全局完整信息。針對小樣本條件下的目標(biāo)檢測任務(wù),將ECA模塊進行了修改。本文修改后的ECA模塊結(jié)構(gòu)如圖2所示,利用全局最大池化操作(Global Max Pooling,GXP) 替換原先GAP,以便它可以關(guān)注圖像中最感興趣的區(qū)域。
3.4 實驗過程和結(jié)果分析
本研究采用元學(xué)習(xí)訓(xùn)練策略,分為兩個階段。第一階段為基礎(chǔ)訓(xùn)練階段,以具有足夠標(biāo)記樣本的基類作為輸入,并以指定的學(xué)習(xí)率對模型進行特定輪次的預(yù)訓(xùn)練;第二階段為微調(diào)階段,使用新類或類似數(shù)量的新類和基類來微調(diào)模型。
1)ImageNet-LOC數(shù)據(jù)集
先在COCO數(shù)據(jù)集上進行基礎(chǔ)訓(xùn)練,再使用少量樣本數(shù)據(jù)集進行訓(xùn)練。分別為50個ImageNet-LOC數(shù)據(jù)集的類別進行1-shot、5-shot、10-shot訓(xùn)練。每類測試集的樣本為500個,總共進行了500次的episode訓(xùn)練。
觀察表1結(jié)果可以看到,在樣本量相對較多的 10-shot和5-shot任務(wù)上,檢測結(jié)果均高于另外兩種算法。并且在樣本量極少的1-shot任務(wù)上,檢測結(jié)果同樣優(yōu)于經(jīng)典的小樣本目標(biāo)檢測算法LSTD和RepMet。在10-shot任務(wù)中,STFS模型的性能達到50.8%,比其他先進算法的最佳結(jié)果49.2%高出1.6%。主要原因有兩方面:一方面是使用Swin Transformer和PANET進行全局上下文信息提取和多尺度特征融合,提升了小樣本的學(xué)習(xí)能力;另一方面,通道注意力機制ECA的使用突出了感興趣區(qū)域,抑制了無關(guān)任務(wù)信息對小樣本檢測的干擾。
2) PASCAL VOC數(shù)據(jù)集
使用trainval 07+12進行正常訓(xùn)練,并對test 07進行測試,按照文獻[17]中的小樣本目標(biāo)識別設(shè)置方法。比較結(jié)果如表2所示。可以看到,在大多數(shù)情況下,STFS的性能比現(xiàn)有的方法要好,除了在樣本量極少的1-shot任務(wù)上,特征提取模塊在多尺度的放大下可能導(dǎo)致模型過度擬合,因此平均精度平均值(mean of Average Precision,mAP) 低于RepMet模型和FsDet View模型。然而,隨著新類別樣本量的逐漸增加,STFS在2-shot、3-shot、5-shot和10-shot任務(wù)中的檢測結(jié)果均高于其他模型。
3)COCO數(shù)據(jù)集
選取與PACAL VOC重疊的20個類別,將其作為新類別,剩下的60個類別作為基類,對10-shot和30-shot任務(wù)進行評估,結(jié)果顯示如表3與表4??梢钥吹?,盡管COCO數(shù)據(jù)集在更高的復(fù)雜性方面(如大規(guī)模變化)更具挑戰(zhàn)性,但STFS在所有任務(wù)下的表現(xiàn)仍優(yōu)于其他模型。具體來說,在主要指標(biāo)AP0.5:0.95中,STFS模型在10-shot上比最先進的方法高3.9%,在30-shot上高出7.0%。在嚴(yán)格指標(biāo)AP0.75中,10-shot的9.8%增加到17.1%,30-shot的12.2%增加到22.5%。此外,STFS在所有規(guī)模的圖像,尤其是大規(guī)模圖像上的性能最好,主要是因為STFS通過圖像級預(yù)測有效地利用了全局上下文信息和各個通道之間的信息,多尺度的特征融合機制有效地提高了復(fù)雜場景中的小目標(biāo)檢測。除了直接測量檢測器性能的平均精度(Average Precision,AP )外,平均召回率(Average Recall,AR)同樣重要,AR越高,檢測遺漏越少。如表3所示,STFS在AR100方面也大大超過了最先進的方法,其中10-shot增加了6.8%,30-shot增加了7.5%。
最后,對STFS模型下的三種數(shù)據(jù)集部分檢測結(jié)果進行可視化,如圖5~7所示,更直觀地說明了本文模型的性能。圖中只顯示新類別的檢測結(jié)果,因為主要重點是檢測新類別的對象??梢杂^察到,本文提出的STFS模型即使在訓(xùn)練樣本稀少的情況下也能檢測出新類別對象。此外,STFS在大型對象上的性能非常好,在小型對象上的性能也不差。
經(jīng)過上述3個數(shù)據(jù)集的對比實驗,本文提出的STFS模型的可行性得到驗證。無論是在PASCAL VOC數(shù)據(jù)集、ImageNet-LOC數(shù)據(jù)集還是更復(fù)雜的COCO數(shù)據(jù)集中,面對少量樣本條件下的目標(biāo)識別都能取得較好的效果。
4 結(jié)論
為了進一步提高小樣本的檢測效果,本文提出了一種新的目標(biāo)檢測框架STFS。在特征提取過程中,利用Swin Transformer對圖像的全局信息進行建模,盡量保留小樣本信息,提高小目標(biāo)的檢測效果。采用MixUp數(shù)據(jù)擴充的方法,減少小樣本模型的過度擬合。不同數(shù)據(jù)集上的實驗結(jié)果表明,該模型有效地利用了全局上下文信息和各個通道之間的信息,借助多尺度特征融合機制有效地提高了復(fù)雜場景中的小目標(biāo)檢測。在平均精度與平均召回率性能指標(biāo)上比其他先進的網(wǎng)絡(luò)模型具有更好的性能,在小樣本的目標(biāo)檢測中可以取得良好的效果。
參考文獻
[1] 胡正平, 張樂, 李淑芳, 等. 端對端SSD實時視頻監(jiān)控異常目標(biāo)檢測與定位算法[J].燕山大學(xué)學(xué)報, 2020, 44(5): 493-501.
HU Z P, ZHANG L, LI S F, et al. End-to-end SSD real-time video surveillance abnormal target detection and localization algorithm[J]. Journal of Yanshan University, 2020, 44(5): 493-501.
[2] 董眾,林寶軍,申利民.一種基于圖像顯著性的離岸船舶目標(biāo)檢測效率優(yōu)化方法[J].燕山大學(xué)學(xué)報, 2020, 44(4): 418-424.
DONG Z, LIN B J, SHEN L M. An efficiency optimization method of offshore ship target detection based on saliency[J]. Journal of Yanshan University, 2020, 44(4): 418-424.
[3] 段續(xù)庭, 周宇康, 田大新, 等. 深度學(xué)習(xí)在自動駕駛領(lǐng)域應(yīng)用綜述[J].無人系統(tǒng)技術(shù), 2021, 4(6): 1-27.
DUAN X T, ZHOU Y K, TIAN D X, et al. A review of the application of deep learning in the field of autonomous driving[J]. Unmanned Systems Technology, 2021, 4(6): 1-27.
[4] 鄧熠, 畢磊, 薛甜, 等. 基于深度學(xué)習(xí)的人臉識別技術(shù)發(fā)展現(xiàn)狀分析[J].無線互聯(lián)科技, 2021, 18(19): 71-72.
DENG Y, BI L, XUE T, et al. Analysis of the development status of face recognition technology based on deep learning[J]. Wireless Internet Technology, 2021, 18(19): 71-72.
[5] FAN Q, ZHUO W, TANG C K, et al. Few-shot object detection with attention-RPN and multi-relation detector[C] //2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle, USA, 2020: 4012-4021.
[6] LI X, DENG J, FANG Y. Few-shot object detection on remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing,2022,60:5601614.
[7] 陳誠, 代江華, 呂秒, 等. 基于Yolov3的小樣本智能電極帽端面檢測和識別系統(tǒng)[J].電腦編程技巧與維護, 2021 (8): 130-131.
CHEN C, DAI J H, LU M, et al. Few-shot intelligent electrode cap end face detection and recognition system based on Yolov3[J]. Computer Programming Skills and Maintenance, 2021 (8): 130-131.
[8] 李鈞正, 殷子玉, 樂心怡. 基于小樣本學(xué)習(xí)的鋼板表面缺陷檢測技術(shù)[J].航空科學(xué)技術(shù),2021,32(6):65-70.
LI J Z, YIN Z Y, LE X Y. Surface defect detection technology of steel plate based on Few-Shot learning[J]. Aviation Science and Technology, 2021, 32(6): 65-70.
[9] CHEN C, ZHA Y, ZHU D, et al. Hydrogen bonds meet self-attention: all you need for protein structure embedding[C] //2021 IEEE International Conference on Bioinformatics and Biomedicine, Houston, USA, 2021:12-17.
[10] CHEN M, RADFORD A, CHILD R, et al. Generative pretraining from pixels[C] //International Conference on Machine Learning, New York, USA, 2020: 1691-1703.
[11] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[C] //International Conference on Learning Representations,Addis Ababa, Ethiopia,2020:1-22.
[12] CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C] //European Conference on Computer Vision, Berlin, German, 2020: 213-229.
[13] ZHANG G, LUO Z, CUI K, et al.Meta-DETR: few-shot object detection via unified image-level meta-learning[C] //International Conference on Learning Representations,Virtual Event, Austria,2021:1-21.
[14] ZHU X, SU W, LU L, et al. Deformable DETR: deformable transformers for end-to-end object detection[C] //International Conference on Learning Representations,Addis Ababa, Ethiopia,2020:1-12.
[15] LIU Z,LIN Y T,CAO Y, et al. Swin Transformer: hierarchical vision transformer using shifted windows[C] //2021 IEEE/CVF International Conference on Computer Vision,Montreal, Canada,2021:9992-10002.
[16] 田應(yīng)仲, 卜雪虎. 基于注意力機制與Swin Transformer模型的腰椎圖像分割方法[J].計量與測試技術(shù),2021, 48(12): 57-61.
TIAN Y Z, BU X H. Lumbar spine image segmentation method based on attention mechanism and Swin Transformer model[J]. Metrology and Testing Technology, 2021, 48(12): 57-61.
[17] ANG Y, WEI F, SHI M, et al. Restoring negative information in few-shot object detection[J]. Advances in Neural Information Processing Systems, 2020,33:3521-3532.
A few-shot object detection model based on YOLOv5
HOU Yue,WANG Kaiyu,JIN Shunfu
(School of Information and Engineering, Yanshan University, Qinhuangdao, Hebei 066004, China)
Abstract:
Deep learning technology has achieved remarkable results in the field of target detection, but related models are difficult to function under the condition of insufficient sample size.With the help of few-shot learning technology,a new few-shot object detection model is proposed.First, a feature learner is designed, consisting of a Swin Transformer module and a PANET module, to extract multi-scale meta-features containing global information from the query set to detect new class objects. Second, a weight adjustment module is designed to convert the support set into a weight coefficient with class attributes to adjust the meta-feature distribution for detecting new class objects. Finally, experimental analysis is carried out on ImageNet-LOC, PASCAL VOC and COCO datasets. The results show that the model proposed in this paper has a significant improvement in mAP and AR indicators compared to the existing advanced models.
Keywords: few-shot; object detection; Swin Transformer; channel attention mechanism; YOLOv5