摘 要:
針對小樣本激化的目標(biāo)檢測耦合問題,以高價值空中目標(biāo)為研究對象,提出一種基于解耦的小樣本目標(biāo)檢測算法。首先,在區(qū)域候選網(wǎng)絡(luò)中引入梯度調(diào)整層,強化區(qū)域候選網(wǎng)絡(luò),緩和任務(wù)耦合問題。其次,將目標(biāo)檢測頭拆解成分類和回歸兩個分支,在前端添加無參平均注意力模塊,緩和特征耦合問題。所提算法可以提高小樣本目標(biāo)檢測性能,增強對新類的檢測能力。實驗結(jié)果表明,所提算法在1、2、3、5、10樣本實驗中均表現(xiàn)最佳,平均精度分別達到32.5%、35.6%、39.6%、41.2%和57.4%。相較于兩階段微調(diào)方法,所提算法檢測性能大幅度提高,能夠解決在小樣本激化的耦合矛盾下網(wǎng)絡(luò)檢測能力下降的問題,提升對小樣本高價值空中目標(biāo)的檢測精度。
關(guān)鍵詞:
小樣本目標(biāo)檢測; 空中目標(biāo); 耦合問題; 深度學(xué)習(xí)
中圖分類號:
TP 391.4
文獻標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.09.06
Research on few shot target detection method based on decoupling
CAI Wei, WANG Xin*, JIANG Xinhao, YANG Zhiyong, CHEN Dong
(School of Missile Engineering, Rocket Military Engineering University, Xi’an 710025, China)
Abstract:
Aiming at the coupling problem of target detection with few shot intensification, a few shot target detection algorithm based on decoupling is proposed focusing on high-value air targets as the research object. Firstly, a gradient adjustment layer is introduced into the regional candidate network to strengthen the regional candidate network and alleviate the task coupling problem. Secondly, the target detection head is disassembled into two branches, classification and regression, and a parameter-free average attention module is added at the front end to alleviate the feature coupling problem. The proposed algorithm improves the detection performance of few shot target detection and enhances the detection ability of new classes. The experimental results show that the proposed algorithm performs best in the 1, 2, 3, 5 and 10 shot experiments, with average accuracy of 32.5%, 35.6%, 39.6%, 41.2% and 57.4%, respectively. Compared with the two-stage fine-tuning method, the detection performance of the proposed algorithm is greatly improved, which solves the problem of the decline of network detection ability under the coupling contradiction of few shot intensification, and improves the detection accuracy of few shot high-value air targets.
Keywords:
few shot target detection; air target; coupling issue; deep learning
0 引 言
在軍事領(lǐng)域中,高價值空中目標(biāo)具有明顯的非合作性和小樣本特征,是決定高科技戰(zhàn)爭勝負(fù)的作戰(zhàn)利器。其自身作為空中偵察打擊威脅的“視覺中樞”,具有高突防、高精度的特點,可對重點目標(biāo)實施“外科手術(shù)”式精確打擊,以較低成本破壞作戰(zhàn)體系。因此,實現(xiàn)小樣本條件下的高價值空中目標(biāo)的精確檢測對于防護重點設(shè)施、保護整體作戰(zhàn)體系具有重要的意義。
當(dāng)前的小樣本目標(biāo)檢測算法大體上分為6類,分別為基于度量學(xué)習(xí)的方法[1]、基于微調(diào)的方法[2]、基于元學(xué)習(xí)的方法[3]、基于數(shù)據(jù)增強的方法[4]、基于模型的方法[5]和基于集成的方法[6]。其中,基于度量的方法重點關(guān)注類別的相似性,通過計算距離或者相似度對潛在的目標(biāo)區(qū)域進行分類,如文獻[7]中將語義相似度引入分類模型,提升小樣本的泛化能力,但由于基于度量的方法側(cè)重于分類相似度,其定位信息依賴于區(qū)域候選網(wǎng)絡(luò)(region proposal network, RPN),制約了網(wǎng)絡(luò)模型的整體精度?;谠獙W(xué)習(xí)的方法則借鑒人類杰出的學(xué)習(xí)特性,利用能夠快速適應(yīng)學(xué)習(xí)新任務(wù)的能力實現(xiàn)對少樣本新類的目標(biāo)檢測訓(xùn)練。但相比于其他方法,元學(xué)習(xí)器設(shè)計復(fù)雜,訓(xùn)練容易出現(xiàn)不收斂的情況[8]。數(shù)據(jù)增強是目標(biāo)檢測提升網(wǎng)絡(luò)性能的重要手段之一,特別是在小樣本情況下,通過數(shù)據(jù)增強擴充樣本數(shù)量,能夠有效提高模型的魯棒性,但單純地使用數(shù)據(jù)增強,對檢測能力提升有限,難以從根本上解決樣本數(shù)量不足的問題[8]?;谖⒄{(diào)的方法是利用基類數(shù)據(jù)預(yù)訓(xùn)練網(wǎng)絡(luò)模型,通過少量新類微調(diào)網(wǎng)絡(luò)參數(shù),實現(xiàn)小樣本條件下的目標(biāo)檢測。文獻[9]發(fā)現(xiàn)相比于元學(xué)習(xí)方法,基于微調(diào)的方法效果更好,在基類和新類上均達到較好的檢測性能,但基于微調(diào)的方法對超參敏感,類無關(guān)參數(shù)的劃分不清晰?;谀P偷姆椒ㄔO(shè)計比較靈活,通過改進模型結(jié)構(gòu)解決小樣本檢測存在的問題,降低對樣本數(shù)量的依賴,但模型訓(xùn)練比較困難,適用于處理專項問題。與上述4種方法相比,基于集成的方法則集成了不同方法的優(yōu)點,從不同角度實現(xiàn)模型檢測性能的提升,達到聯(lián)合制勝的效果。
近些年來,隨著深度卷積網(wǎng)絡(luò)的發(fā)展,小樣本目標(biāo)檢測的模型結(jié)構(gòu)不斷優(yōu)化,解決了小樣本目標(biāo)檢測存在的許多問題。Wu等[10]學(xué)習(xí)目標(biāo)通用原型,并通過通用原型的軟注意增強目標(biāo)特征。Li等[11]將余弦相似性引入支持特征和查詢特征的特征融合,形成新的聚合公式,增強特征信息。Hsieh等[12]對支持集分支進行重加權(quán),增強支持圖像的定位能力。上述方法均提高了小樣本目標(biāo)檢測的精度,但都忽略了小樣本激化的目標(biāo)檢測耦合問題,該問題嚴(yán)重制約了小樣本目標(biāo)檢測性能。
具體來說,小樣本情況首先激化了RPN參數(shù)在預(yù)訓(xùn)練和微調(diào)兩個任務(wù)中的耦合性,這是因為預(yù)訓(xùn)練階段和微調(diào)階段任務(wù)不同,再加之新類樣本數(shù)量較少,導(dǎo)致RPN在微調(diào)階段對新類類別混淆不分,將新類誤認(rèn)為背景的概率上升,使其對新類的檢測能力較差,造成RPN與檢測頭網(wǎng)絡(luò)在梯度損失反向傳遞的不平衡。其次,小樣本情況加劇了分類和回歸輸入特征的沖突,在檢測頭網(wǎng)絡(luò)中分類檢測器需要平移不變特征捕捉關(guān)鍵信息,回歸檢測器輸入的特征則需具有平移漸變性來準(zhǔn)確確定目標(biāo)所在范圍,而樣本數(shù)量的不足導(dǎo)致網(wǎng)絡(luò)訓(xùn)練不充分,加劇了分類和定位的特征耦合矛盾。
為了應(yīng)對上述挑戰(zhàn),在基于微調(diào)方法的基礎(chǔ)上融入基于模型方法的思想,進行方法集成,提出一種新的基于解耦的小樣本目標(biāo)檢測算法。本算法以兩階段微調(diào)方法[13](two-stage fine-tuning approach, TFA)為基本框架。首先,按照目標(biāo)類別設(shè)立類無關(guān)基類和小樣本新類兩個數(shù)據(jù)集,分別作為預(yù)訓(xùn)練和小樣本微調(diào)的輸入數(shù)據(jù)。其次,在預(yù)訓(xùn)練階段利用基類樣本對網(wǎng)絡(luò)參數(shù)進行訓(xùn)練。訓(xùn)練中,基類圖片輸入網(wǎng)絡(luò)模型中,經(jīng)骨干網(wǎng)絡(luò)學(xué)習(xí)特征信息,而后生成候選框,將候選框和特征網(wǎng)絡(luò)輸出的原始特征圖輸入感興趣區(qū)域(region of interest, ROI)池化和ROI特征提取器,得到固定大小的區(qū)域特征圖,并將其輸入分類頭和回歸頭中輸出最終檢測結(jié)果。訓(xùn)練結(jié)束后凍結(jié)除分類和回歸檢測器以外的所有模塊。最后,在微調(diào)階段輸入新類數(shù)據(jù)對分類定位檢測器的未凍結(jié)參數(shù)進行微調(diào),以適應(yīng)新類的檢測要求。在TFA基礎(chǔ)上對RPN和目標(biāo)檢測頭網(wǎng)絡(luò)結(jié)構(gòu)進行了相應(yīng)改進,以解決RPN在預(yù)訓(xùn)練和微調(diào)階段中的任務(wù)耦合矛盾和分類定位的特征耦合矛盾。首先,在網(wǎng)絡(luò)中引入梯度調(diào)整層(gradient adjustment layer, GAL),通過調(diào)整因子調(diào)節(jié)微調(diào)階段RPN的分類損失,平衡RPN與檢測頭網(wǎng)絡(luò)的梯度分類損失,同時改進預(yù)選框篩選規(guī)則,并調(diào)整微調(diào)階段RPN的凍結(jié)狀態(tài),以提升RPN對新類的檢測能力。其次,在檢測頭網(wǎng)絡(luò)前端加入無參平均注意力模塊(parameter-free average attention module, PFAAM),聚焦關(guān)鍵信息,緩和因小樣本加劇的特征耦合矛盾。同時,提出雙分支網(wǎng)絡(luò)(dual branch network, DBN), 優(yōu)化原有檢測頭結(jié)構(gòu),搭建分類和回歸兩個分支網(wǎng)絡(luò),進一步緩和小樣本條件下加劇的分類和回歸模塊特征沖突。本文主要貢獻如下:
(1) 針對RPN在預(yù)訓(xùn)練和微調(diào)加劇的任務(wù)耦合問題,首先,引入GAL,通過調(diào)整因子解決耦合矛盾造成的RPN與檢測頭網(wǎng)絡(luò)梯度分類損失不平衡問題。其次,通過提升新類樣本在RPN的通過率,使更多含新類樣本的預(yù)選框通過RPN的篩選,并對微調(diào)階段的解凍模塊做出調(diào)整,解除RPN最后一層的凍結(jié)狀態(tài),提升耦合矛盾降低的RPN新類檢測性能,提高對新類的檢測能力。
(2) 針對分類檢測頭和定位檢測頭因特征要求不同激化的特征耦合問題,首先在網(wǎng)絡(luò)前端加入PFAAM,聚焦跨空間和跨通道特征信息,提升檢測頭網(wǎng)絡(luò)分類和回歸檢測性能,其次對檢測頭網(wǎng)絡(luò)進行優(yōu)化,將檢測頭網(wǎng)絡(luò)劃分為分類和回歸兩個分支,在分類分支和回歸分支中分別構(gòu)建提取平移不變性和平移漸變性特征信息的網(wǎng)絡(luò)結(jié)構(gòu),緩解了分類回歸存在的特征耦合矛盾。
(3) 將所設(shè)計的算法在通用數(shù)據(jù)集 PASCAL VOC和自建的小樣本軍事類空中目標(biāo)數(shù)據(jù)集進行實驗驗證,均取得良好效果。
1 相關(guān)工作
基于深度學(xué)習(xí)的目標(biāo)檢測:當(dāng)前目標(biāo)檢測算法主要分為兩類,雙階段算法和單階段算法,雙階段算法在檢測過程中先生成區(qū)域建議框,區(qū)分背景和前景,然后對每個建議框執(zhí)行分類和定位回歸操作。2014年,Girshick等[14]首次提出雙階段算法區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region convolutional neural network, R-CNN)模型。但由于其算法步驟繁瑣、計算速度較慢,研究人員在此基礎(chǔ)上提出快速R-CNN (Fast R-CNN)[15]和更快R-CNN (Faster R-CNN)[16],以提升精度,減少時間。目前,雙階段算法已被廣泛應(yīng)用于無人駕駛、軍用探測[17-20]、人臉識別、工業(yè)檢測等領(lǐng)域,并取得良好效果。相比于雙階段算法,單階段算法可直接對特征圖預(yù)測定位和分類,Redmin等[21]在 2016年首次提出YOLO (you only look once)算法,并經(jīng)歷YOLO系列[21-24]的版本更新,逐漸成為一步目標(biāo)檢測的重要框架。單次檢測器(single shot detector, SSD)算法[25]則借鑒兩階段算法的優(yōu)點,將Faster R-CNN 中區(qū)域的設(shè)計思想融入單階段算法。反卷積SSD (deconvolutional SSD, DSSD)算法[26]在此基礎(chǔ)上引用Resnet-101[27]作為特征提取網(wǎng)絡(luò),提升檢測性能。相比于雙階段算法,單階段算法實現(xiàn)更加簡單,訓(xùn)練速度更快,在但是因缺少RPN,整體在準(zhǔn)確性上遜于雙階段算法。
小樣本學(xué)習(xí):小樣本學(xué)習(xí)旨在利用少量的樣本學(xué)習(xí)新的知識,其主要思想在于如何準(zhǔn)確地將知識從基類訓(xùn)練模型遷移到新類,現(xiàn)有的小樣本學(xué)習(xí)方法可大致分為3類:第1種是基于優(yōu)化的方法,以模型不可知元學(xué)習(xí)[28](model-agnostic meta-learning, MAML)為例,通過學(xué)習(xí)好的初始化的規(guī)則,在較短的時間內(nèi)快速適應(yīng)新的任務(wù)。Jamal等[29]在 MAML 基礎(chǔ)上進行發(fā)展,提出未知任務(wù)元學(xué)習(xí)(task agnostic meta-learning, TAML)法,解決元學(xué)習(xí)器偏移問題。第2種是基于度量學(xué)習(xí)的方法,通過學(xué)習(xí)獲得類別的泛化度量空間,以執(zhí)行之后的相似度度量操作。Karlinsky等[30]將多模態(tài)分布引入度量學(xué)習(xí),實現(xiàn)端對端同時訓(xùn)練主干網(wǎng)絡(luò)參數(shù)和嵌入空間分布。Wang等[31]利用詞表示的全局向量編碼將標(biāo)簽信息嵌入特征圖中,實現(xiàn)了數(shù)據(jù)的特征增強。第3種為基于參數(shù)生成的方法[32],與前面兩種方法不同,該方法通過預(yù)訓(xùn)練得到較好的網(wǎng)絡(luò)模型,在第2階段針對類相關(guān)參數(shù)進行微調(diào),實現(xiàn)對新任務(wù)的較好適應(yīng)。Sun等[33-34]將MAML方法融入模型微調(diào)中,實現(xiàn)算法改進,提升算法的泛化性能。
小樣本目標(biāo)檢測:與小樣本目標(biāo)分類相同,目前大多數(shù)小樣本目標(biāo)檢測也采用兩階段訓(xùn)練,即預(yù)訓(xùn)練階段和微調(diào)階段,但其與小樣本學(xué)習(xí)的不同之處在于小樣本目標(biāo)檢測不僅需要將樣本中的目標(biāo)識別出來,還需從背景中定位目標(biāo)的具體位置,實現(xiàn)難度更大。通過特征重加權(quán)的小樣本目標(biāo)檢測(few-shot object detection via featur-e reweighting, FSRW)[35]是基于YOLO2模型建立的輕量化的小樣本目標(biāo)檢測網(wǎng)絡(luò),其在網(wǎng)絡(luò)中重新加權(quán)具有通道注意力的特征,提高重要度以提升檢測效能。野外場景小樣本目標(biāo)檢測和視點估計(few-shot object detection and viewpoint estimation for objects in the wild, FSDView)[36]方法在此基礎(chǔ)上提出一種新的特征聚合方法,將新類與基類信息緊密聯(lián)系以提升新類檢測性能。Meta R-CNN[37]將元學(xué)習(xí)引入R-CNN,其沒有從整體的角度提取特征圖信息,而是關(guān)注每個ROI的特征。Fan等[38]在元學(xué)習(xí)網(wǎng)絡(luò)模型的基礎(chǔ)上設(shè)計一種聚合模型Attention RPN,從全局、局部和互相關(guān)3個角度來衡量支持集特征與查詢集特征的相似度,幫助檢測器更好地區(qū)分不同類別。Wu等[39]提出用于小樣本目標(biāo)檢測的多尺度正樣本細(xì)化(multi-scale positive sample refinement, MPSR)模型,通過數(shù)據(jù)增強生成多尺度樣本,建立Faster R-CNN分支,緩解樣本不足的問題。Khandelwal等[40]通過計算新類和基類的語義相似度,將回歸和分類權(quán)重轉(zhuǎn)移至新類,提高小樣本目標(biāo)檢測的泛化能力和檢測效果。Sun等[9]將新類和基類混合組成微調(diào)數(shù)據(jù)集,以減少基類和新類特征差異。Zhang等[41]提出合作RPN(cooperating RPN, CoRPN)以解決樣本數(shù)據(jù)不足加劇的前景背景不平衡問題,增加前景分類器的數(shù)量,避免損失更多的預(yù)選框。
2 本文方法
文中提出的基于解耦的小樣本目標(biāo)檢測算法的整體架構(gòu)如圖1所示,在原有TFA的基礎(chǔ)上對RPN和檢測頭進行了改進,設(shè)計了解耦RPN (decouple RPN, D-RPN)和檢測解耦頭(detect decoupling head, DDH)??罩心繕?biāo)圖片輸入預(yù)訓(xùn)練后的網(wǎng)絡(luò)模型中,經(jīng)骨干網(wǎng)絡(luò)學(xué)習(xí)特征信息,而后在D-RPN生成候選框,將候選框和特征網(wǎng)絡(luò)輸出的原始特征圖輸入ROI池化和ROI特征提取器,得到固定大小的區(qū)域特征圖,輸入DDH中,得到目標(biāo)類別與邊界框的預(yù)測輸出。
D-RPN在預(yù)訓(xùn)練階段和微調(diào)階段呈現(xiàn)不同的特性,在預(yù)訓(xùn)練階段輸入XFineture,輸出反向分類梯度損失Δ;在微調(diào)階段引入調(diào)整因子λ,輸入XFineture,輸出的反向分類梯度損失為λΔ。在DDH中,輸入特征圖經(jīng)PFAAM模塊聚焦特征信息后,進入分類分支和回歸分支分別提取相關(guān)特征,輸出的分類和回歸特征結(jié)果輸入分類和回歸檢測器中得到分類和回歸的預(yù)測輸出。
2.1 問題定義
小樣本目標(biāo)檢測訓(xùn)練數(shù)據(jù)集D分為兩個數(shù)據(jù)集Dbase和Dnovel,對應(yīng)基本類別Cbase和新類別Cnovel,Dbase∩Dnovel=。訓(xùn)練數(shù)據(jù)集D整體上由X和Y組成, X代表輸入圖像, Y代表輸入類別和坐標(biāo),Y={(ci,bi)i=1,2,…,M},ci∈{Cbase,Cnovel},預(yù)選框bi={xi,yi,wi,hi},x和y為坐標(biāo)值, w和h分別為邊界框的寬度和高度,M代表輸入樣本每張圖片中目標(biāo)的個數(shù)。小樣本目標(biāo)檢測分為預(yù)訓(xùn)練和微調(diào)兩個階段,預(yù)訓(xùn)練階段利用帶標(biāo)注Dbase對基本模型進行訓(xùn)練,通過Dbase樣本數(shù)量的優(yōu)勢使模型的類無關(guān)參數(shù)得到充分訓(xùn)練。微調(diào)階段在預(yù)訓(xùn)練的基礎(chǔ)上通過新類別Cnovel微調(diào),使網(wǎng)絡(luò)模型參數(shù)向Cnovel轉(zhuǎn)移。在微調(diào)階段,針對Kshot任務(wù)的Dnovel由每個類別含有的K個帶注釋對象實例組成。
2.2 D-RPN
本節(jié)通過設(shè)計D-RPN解決因預(yù)訓(xùn)練和微調(diào)在RPN加劇的任務(wù)耦合帶來的問題,RPN解耦部分由GAL和強化RPN (strengthen RPN, S-RPN)組成。
2.2.1 GAL
在預(yù)訓(xùn)練階段,RPN以大量基類樣本Dbase作為訓(xùn)練數(shù)據(jù),而微調(diào)階段的輸入為少量的新類數(shù)據(jù)Dnovel。在微調(diào)階段RPN的參數(shù)基于Cbase訓(xùn)練得出,這導(dǎo)致RPN對Cnovel的識別困難,引發(fā)RPN與檢測頭網(wǎng)絡(luò)分類梯度損失不平衡問題。為解決此問題,在微調(diào)階段加入GAL,將GAL置于RPN分類損失函數(shù)之前,梯度調(diào)整原理如圖2所示。
2.3.2 DBN
在原檢測頭網(wǎng)絡(luò)中,分類頭和回歸頭前端具有共享的神經(jīng)網(wǎng)絡(luò),輸入的特征圖經(jīng)共享神經(jīng)網(wǎng)絡(luò)處理后,直接進入回歸和分類的全連接層中,進行位置的回歸定位和類別的劃分。但分類和回歸的特征要求存在差異,分類頭需要平移不變特征,定位頭需要平移漸變特征,兩者所需特征的沖突會造成檢測頭性能的下降,而注釋樣本數(shù)量的缺少會進一步激化矛盾。
為解決此問題,對原有的檢測頭網(wǎng)絡(luò)進行優(yōu)化,取消共享神經(jīng)網(wǎng)絡(luò),將網(wǎng)絡(luò)劃分為分類和回歸兩大分支,搭建相應(yīng)網(wǎng)絡(luò)結(jié)構(gòu),以符合分類頭平移不變特征和回歸頭平移漸變特征的要求,解耦網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
DBN承接PFAAM模塊,其中分類分支在PFAAM模塊之后接入兩個全連接層(fully connected layer, FCL)和Relu函數(shù)組成的FCL-Relu(FR)模塊。利用FCL的優(yōu)點,提取平移不變特征,將捕捉的目標(biāo)類別的關(guān)鍵信息輸入分類FCL,得到分類分?jǐn)?shù)。分類分?jǐn)?shù)輸入分類損失函數(shù)中,得到目標(biāo)的分類結(jié)果;回歸分支在PFAAM模塊后引入兩個由坐標(biāo)協(xié)同卷積,批歸一化層(batch normalization, BN)和函數(shù)Leaky Relu組成的坐標(biāo)協(xié)同卷積-BN-Leaky Relu(coordinate conv-BN-Leaky Relu, CBL)模塊,用以提取平移漸變特征,將捕捉空間位置的敏感信息輸入回歸FCL,得到回歸分?jǐn)?shù)?;貧w分?jǐn)?shù)輸入定位損失函數(shù)中,得到目標(biāo)的位置結(jié)果。
相比于普通卷積,坐標(biāo)協(xié)同卷積額外增加兩個通道,分別用于表示橫坐標(biāo)(i坐標(biāo))和縱坐標(biāo)(j坐標(biāo)),這使得其在保留一般卷積層平移不變性的基礎(chǔ)上,具有一定的平移漸變性,即在卷積過程中可以感知特征圖的位置信息,有效提取特征的位置信息,解決了卷積過程中特征的坐標(biāo)映射問題,坐標(biāo)協(xié)同卷積與普通卷積的對比如圖7所示。
圖7中左側(cè)為普通卷積,右側(cè)為坐標(biāo)協(xié)同卷積,h、w、c分別表示輸入特征圖的高度、寬度和通道數(shù),h′、w′、c′分別表示輸出特征圖的高度、寬度和通道數(shù)。對于普通卷積,由于本身存在的缺陷,無法學(xué)習(xí)笛卡爾空間和像素空間之間的平滑函數(shù)來處理特征圖的位置信息。而坐標(biāo)協(xié)同卷積在此基礎(chǔ)上,引入i坐標(biāo)和j坐標(biāo)的通道,使卷積層具有坐標(biāo)映射能力。具體而言,i坐標(biāo)的通道是一個h×w矩陣,其第1行填充為0,第2行填充為1,第3行填充為2;并以此類推,j坐標(biāo)的通道類似,不同之處在于其列填充值為常數(shù)。對i和j坐標(biāo)值進行線性縮放,控制數(shù)值位于[-1,1]區(qū)間,以i和j坐標(biāo)通道實現(xiàn)對像素位置的有效提取。坐標(biāo)協(xié)同卷積層可插入回歸網(wǎng)絡(luò)中,提升回歸網(wǎng)絡(luò)目標(biāo)定位能力。
3 實驗結(jié)果與分析
3.1 實驗設(shè)置
本文的整體基本框架為Faster R-CNN網(wǎng)絡(luò),并以在ImageNet上預(yù)訓(xùn)練的ResNet-101作為檢測器主干網(wǎng)絡(luò),在基類訓(xùn)練過程中采用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器對檢測模型訓(xùn)練進行控制,初始學(xué)習(xí)率設(shè)置為0.02,動量因子為0.9,權(quán)重衰減系數(shù)為0.000 1,單位輸入樣本數(shù)和單位線程效均設(shè)置為2,輸入PASCAL VOC數(shù)據(jù)集進行訓(xùn)練。針對小樣本任務(wù),將相應(yīng)模塊參數(shù)凍結(jié),未凍結(jié)模塊參數(shù)初始化,初始學(xué)習(xí)率設(shè)為0.001。
3.2 實驗條件
本文所有的實驗均在Windows10服務(wù)器進行,中央處理器為Intel Xeon 6184,圖形處理器為quadro GV100,內(nèi)存32 G,采用pytorch1.7平臺作為基礎(chǔ)框架搭建神經(jīng)網(wǎng)絡(luò),使用python語言進行編程?;悢?shù)據(jù)集為PASCAL VOC[9],整個數(shù)據(jù)集包含20個類別,主要應(yīng)用于人體動作識別、語義分割、目標(biāo)檢測、圖像識別等任務(wù)。小樣本訓(xùn)練和測試數(shù)據(jù)集為本文所構(gòu)建的空中平臺軍事小樣本數(shù)據(jù)集。
3.3 軍事類空中目標(biāo)小樣本數(shù)據(jù)集
所構(gòu)建的軍事類空中目標(biāo)小樣本數(shù)據(jù)集包含F(xiàn)35、Su57、J20、MQ9、RQ4、B2這6類空中軍事目標(biāo),按照小樣本目標(biāo)檢測的原則,針對1、2、3、5、10樣本訓(xùn)練的要求,訓(xùn)練集從每類中對應(yīng)提供1、2、3、5、10張照片,并另從每類中提供10張照片組成驗證集,輔助模型訓(xùn)練。為有效測試模型有效性,從各類中提供5張圖片,共計30張圖片組成模型的測試集。然后,利用圖像標(biāo)記軟件 LabelImg 對訓(xùn)練集、驗證集和測試集中的樣本數(shù)據(jù)進行標(biāo)記,數(shù)據(jù)集標(biāo)簽格式與 PASCAL VOC 數(shù)據(jù)標(biāo)簽格式一致。
3.4 評價指標(biāo)
本文利用平均查準(zhǔn)率AP來評價單個目標(biāo)的檢測準(zhǔn)確率,AP從召回率Recall和精確度Precision兩個角度來評估模型的檢測效果,其中Recall是指結(jié)果中真實正樣本占全部正樣本的比例,公式如下所示:
Recall=TPTP+FN(13)
式中:TP為真陽性,正確的結(jié)果預(yù)測為正;FN為假陰性,正確的結(jié)果預(yù)測為負(fù)。而Precision是指結(jié)果中真實正樣本占預(yù)測正樣本的比例,公式如下所示:
Precision=TPTP+FP(14)
式中:FP為假陽性,錯誤的結(jié)果預(yù)測為正。AP綜合召回率和精確度的結(jié)果,按照文獻[24]的計算方式計算,其中地面實況邊界框的交并比(intersection over union, IoU)閾值、置信度閾值分別設(shè)置為 0.5、0.001。所得AP值可有效地評價模型對單個目標(biāo)類別的檢測性能。mAP表示對多個類別的AP值取平均數(shù),用于評價模型對所有類別的綜合檢測性能,定義如下:
mAP=∑niAPn(15)
式中:n代表類別總數(shù),0lt;i≤n。通常情況下,AP和mAP值越高,模型的檢測性能越好,反之亦然。
3.5 軍事類空中目標(biāo)檢測結(jié)果分析
本文中用到的檢測指標(biāo)統(tǒng)一為mAP50,是指檢測框IoU閾值從0.5到0.95的mAP值。用TFA/FCL[7]、TFA/余弦(TFA/Cosine, TFA/COS)[7]、注意力RPN (attention RPN, Attention RPN)[32]和本文算法對本文所構(gòu)建的軍事類空中目標(biāo)小樣本數(shù)據(jù)集進行檢測,其檢測性能對比結(jié)果如表1所示。從表1中可以看出,本文提出的基于解耦的算法檢測效果最佳,在1、2、3、5、10樣本任務(wù)中的檢測精度均處于首位,相比次優(yōu)的算法分別高出4.7、6.2、10.5、1.8、3.1個百分點。特別是在3樣本任務(wù)中漲點明顯,說明本文設(shè)計解耦算法有效緩解了由于樣本不足加劇的耦合矛盾。
表2是以10樣本任務(wù)為例,利用TFA/FCL、TFA/COS、Attention RPN和本文所提出的算法對6類目標(biāo)檢測的結(jié)果。從表2中可以看出, TFA/FCL最差結(jié)果為F35目標(biāo)的檢測值12.3,TFA/COS最差結(jié)果為B2目標(biāo)的檢測值7.8,Attention RPN最差結(jié)果為F35目標(biāo)的檢測值9.8。而本文算法最差結(jié)果為F35目標(biāo)的檢測值18.1,比其他算法的最差結(jié)果次優(yōu)值提升5.8個百分點,最好結(jié)果為Su57目標(biāo)的檢測值74.4,比其他算法的最好結(jié)果次優(yōu)值提升1.9個百分點。在6類目標(biāo)的檢測結(jié)果中,本文算法檢測在3類目標(biāo)中居于最優(yōu),3類目標(biāo)居于次優(yōu),整體效果分布最為均勻,并在mAP上保持領(lǐng)先。
圖8為本文算法與Attention RPN和TFA/FCL的3種網(wǎng)絡(luò)模型可視化輸出結(jié)果對比。
3.6 軍事類空中目標(biāo)的消融實驗分析
為了分析基于解耦算法各改進模塊對檢測效果的影響,在軍事類空中目標(biāo)小樣本數(shù)據(jù)集上進行了消融實驗,實驗結(jié)果如表3所示?;€模型在1、2、3、5、10樣本任務(wù)中mAP分別為25.6、29.4、27.4、37.1和44.2。改進RPN篩選原則后,各樣本任務(wù)的mAP都有不同程度的上升,特別在3樣本處,上升了7.9個百分點,說明改進RPN篩選原則增大了新類通過率,提高了RPN對新類的檢測性能。在改進篩選原則的基礎(chǔ)上調(diào)整解凍范圍后,shot任務(wù)平均上漲1.8個百分點,在10樣本任務(wù)上升最快,為6.3個百分點,驗證了RPN解凍范圍的調(diào)整,提升了RPN參數(shù)對新類的敏感程度,增強了RPN的新類檢測能力。加入PFAAM模塊后,各樣本任務(wù)的mAP繼續(xù)上升,最大上升處為10樣本任務(wù),上升1.8個百分點,證明加入PFAAM模塊通過聚合通道信息和位置感知信息有效提升了因特征沖突問題降低的檢測頭檢測精度。優(yōu)化檢測頭為DBN網(wǎng)絡(luò)后,樣本任務(wù)上升最快處在10樣本,上升4.8個百分點,檢測精度最終達到54.2。說明DBN網(wǎng)絡(luò)有效緩解了加劇的分類回歸特征沖突,提高了檢測頭檢測能力。
表4為網(wǎng)絡(luò)模型在改進RPN篩選原則,調(diào)整解凍范圍,加入PFAAM模塊和DBN網(wǎng)絡(luò)后進行GAL超參選擇的實驗結(jié)果對比。由表4可知,在1、2、3、5、10樣本任務(wù)中,調(diào)整因子設(shè)為0.5時,檢測精度最佳,分別上升2、1.4、1.2、0.5和3.2個百分點,這表明通過GAL的調(diào)整因子調(diào)節(jié),解決了因加劇的任務(wù)耦合導(dǎo)致的RPN與檢測網(wǎng)絡(luò)之間的分類梯度損失不平衡問題,提升了整體的檢測性能,使最終網(wǎng)絡(luò)模型在1、2、3、5、10樣本任務(wù)的mAP分別達到32.5、35.5、39.6、41.2和57.4。
3.7 PASCAL VOC數(shù)據(jù)集目標(biāo)檢測結(jié)果分析
用TFA/FCL、TFA/COS、Attention RPN和本文算法在PASCAL VOC數(shù)據(jù)集上進行小樣本目標(biāo)檢測,將其中20類目標(biāo)中的bird、bus、cow、motorbike、 sofa這5類作為新類,其他15類作為基類,其檢測性能對比結(jié)果如表5所示。從表5可以看出,本文所提出的算法在1、2、3、5、10樣本任務(wù)中均取得最好的檢測結(jié)果,相比于次優(yōu)算法分別提高0.3、6.2、6.4、2.4、3個百分點,在2樣本和3樣本任務(wù)中提點明顯,證明所提方法在通用數(shù)據(jù)集下具有很好的效果,在小樣本檢測任務(wù)下?lián)碛泻芎玫聂敯粜院头夯芰?。圖9為本文算法與Attention RPN和TFA/FCL的3種網(wǎng)絡(luò)模型可視化輸出結(jié)果對比。
4 結(jié) 論
本文提出的基于解耦的小樣本目標(biāo)檢測算法通過引入GAL,強化RPN解決任務(wù)耦合引發(fā)的RPN與檢測頭網(wǎng)絡(luò)分類梯度損失不平衡、RPN自身檢測性能較低的問題。針對特征耦合矛盾,在檢測頭前端插入無參注意力機制,并搭建DBN,緩和分類回歸因小樣本激化的特征沖突。實驗表明,本算法在各樣本實驗中均表現(xiàn)最佳,在軍事類空中數(shù)據(jù)集和PASCAL VOC數(shù)據(jù)集中較TFA/FCL算法檢測精度平均提升8.5和4.5個百分點,提高了小樣本條件下對高價值空中目標(biāo)的檢測精度,對于軍事偵察、重點目標(biāo)防護具有重要的意義。
參考文獻
[1] 杜蕓彥, 李鴻, 楊錦輝, 等. 基于負(fù)邊距損失的小樣本目標(biāo)檢測[J]. 計算機應(yīng)用, 2022, 42(11): 3617-3624.
DU Y Y, LI H, YANG J H, et al. Few shot target detection based on negative margin loss[J]. Computer Applications, 2022, 42(11): 3617-3624.
[2] KAUL P, XIE W D, ZISSERMAN A. Label, verify, correct: a simple few shot object detection method[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2022: 14237-14247.
[3] YIN L, PEREZ-RUA J M, LIANG K J. Sylph: a hypernetwork framework for incremental few-shot object detection[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2022: 9035-9045.
[4] ZHANG S, WANG L, MURRAY N, et al. Kernelized few-shot object detection with efficient integral aggregation[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2022: 19207-19216.
[5] CHEN T I, LIU Y C, SU H T, et al. Dual-awareness attention for few-shot object detection[J]. IEEE Trans.on Multimedia, 2023, 25(1), 291-301.
[6] FAN Z B, MA Y C, LI Z M, et al. Generalizedfew-shot object detection without forgetting[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2021: 4527-4536.
[7] 徐鵬幫, ?;w, 路冬媛. 類別語義相似性監(jiān)督的小樣本圖像識別[J]. 中國圖象圖形學(xué)報, 2021, 26(7): 1594-1603.
XU P B, SANG J T, LU D Y. Few shot image recognition for category semantic similarity monitoring[J]. Chinese Journal of Image Graphics, 2021, 26(7): 1594-1603.
[8] 張振偉, 郝建國, 黃健, 等.小樣本圖像目標(biāo)檢測研究綜述[J]. 計算機工程與應(yīng)用, 2022, 58(5): 1-11.
ZHANG Z W, HAO J G, HUANG J, et al. Summary of research on target detection in small sample images[J]. Computer Engineering and Applications, 2022, 58(5): 1-11.
[9] SUN B, LI B H, CAI S C, et al. Few-shot object detection via contrastive proposal encoding[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2021: 7352-7362.
[10] WU A M, HAN Y H, ZHU L C, et al. Universal-prototype enhancing for few-shot object detection[C]∥Proc.of the International Conference on Computer Vision, 2021: 9567-9576.
[11] LI X, ZHANG L, CHEN Y P, et al. One-shot object detection without fine-tuning[EB/OL]. [2023-03-16]. http:∥arxiv.org/abs/2005.03819.
[12] HSIEH T I, LO Y C, CHEN H T, et al. One-shot object detection with co-attentionand co-excitation[EB/OL]. [2023-03-16]. http:∥arxiv.org/abs/1911.12529.
[13] WANG X, HUANG T E, DARRELL T, et al. Frustratingly simple few shot object detection[C]∥Proc.of the 37th International Conference on Machine Learning, 2020: 9919-9928.
[14] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[15] GIRSHICK R. Fast R-CNN[C]∥Proc.of the IEEE International Conference on Computer Vision, 2015: 1440-1448.
[16] REN S, HE K, GIRSHICK R, et al. Faster RCNN: towards real-time object detection with region proposal networks[J]. IEEE Trans.on Pattern Analysis amp; Machine Intelligence, 2017, 39(6): 1137-1149.
[17] 范加利, 田少兵, 黃葵, 等. 基于Faster R-CNN的航母艦面多尺度目標(biāo)檢測算法[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(1): 40-46.
FAN J L, TIAN S B, HUANG K, et al. Multiscale target detection algorithm for aircraft carrier surface based on Fast R-CNN[J]. Systems Engineering and Electronics, 2022, 44(1): 40-46.
[18] 張大恒, 張英俊, 張闖. 基Faster R-CNN的電子海圖和雷達圖像的數(shù)據(jù)融合[J]. 系統(tǒng)工程與電子技術(shù), 2020, 42(6): 1267-1273.
ZHANG D H, ZHANG Y J, ZHANG C. Data fusion of electronic charts and radar images based on fast R-CNN[J]. Systems Engineering and Electronics, 2020, 42(6): 1267-1273.
[19] JIANG X H, CAI W, YANG Z Y, et al. A lightweight multiscale infrared aerocraft recognition algorithm[J]. Arabian Journal for Science and Engineering, 2022, 47(2): 2289-2303.
[20] JIANG X H, CAI W, DING Y, et al. Camouflaged object detection based on ternary cascade perception[J]. Remote Sensing, 2023, 15(5): 1188.
[21] REDMIN J, DIVALAS, GIRSICK R, et al.You can only watch it once: unified real time object detection[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 777-7888.
[22] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7263-7271.
[23] REDMON J, FARHADI A. YOLOv3: an incremental improve-ment[EB/OL]. [2023-03-16]. http:∥arxiv.org/abs/1804.02767.
[24] ALEXEY B, WANG C Y, HONG Y. Yolov4: optimal speed and accuracy of object detection[EB/OL]. [2023-03-16]. http:∥arxiv.org/abs/2004.10934.
[25] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]∥Proc.of the European Conference on Computer Vision, 2016: 21-37.
[26] FU C Y, LIU W, RANGA A, et al. DSSD: deconvolutional single shot detector[EB/OL]. [2023-03-16]. http:∥arxiv.org/abs/1701.06659.
[27] XIE S N, GIRSHICK R, DOLLAR P, et al. Aggregated resi-dual transformations for deep neural networks[C]∥Proc.of the IEEE International Conference on Computer Vision and Pattern Recognition, 2017: 1492-1500.
[28] FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep network[EB/OL]. [2023-03-16]. http:∥arxiv.org/abs/1703.03400.
[29] JAMAL M A, QI G J. Task agnostic meta-learning for few-shot learning[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 11719-11727.
[30] KARLINSKY L, SHTOK J, HARARY S, et al. RepMet: representative based metric learning for classification and few-shot object detection[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 5197-5206.
[31] WANG P, LIU L U, SHEN C H, et al. Multiple-attention networks for one learning[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2721-2729.
[32] TIAN Y L, WANG Y L, KRISHNAN D, et al. Rethinking few-shot image classification: agood embedding is all you need?[C]∥Proc.of the European Conference on Computer Vision, 2020: 266-282.
[33] SUN Q R, LIU Y Y, CHUA T S, et al. Metatransfer learning for few-shot learning[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 403-412.
[34] LIU Y Y, SUN Q R, LIU A A, et al. LCC: learning to customize and combine neural networks for few-shot Learning[EB/OL]. [2023-03-16]. http:∥arxiv.org/abs/1904.08479.
[35] KANG B Y, LIU Z, WANG X, et al. Few shot object detection via feature reweighting[C]∥Proc.of the IEEE International Conference on Computer Vision, 2019: 8420-8429.
[36] XIAO Y, LETEPIT V, MARLET R. Few-shot object detection and viewpoint estimation for objectsin the wild[C]∥Proc.of the European Conference on Computer Vision, 2020: 192-210.
[37] YAN X P, CHEN Z L, XU A N, et al. Meta R-CNN: towards general solver for instancelevel low-shot learning[C]∥Proc.of the IEEE International Conference on Computer Vision, 2019: 9577-9586.
[38] FAN Q, ZHUO W, TANG C K, et al. Few shot object detection with attention RPN and multi-relation detector[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recogni-tion, 2020: 4013-4022.
[39] WU J X, LIU S T, HUANG D, et al. Multi scale positive sample refinement for fewshot object detection[C]∥Proc.of the European Conference on Computer Vision, 2020: 456-472.
[40] KHANDELWAL S, GOYAL R, SIGAl L. Unified knowledge transfer for any shot object detection and segmentation[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2021: 5951-5961.
[41] ZHANG W L, WANG Y X, FORSYTH D A.Cooperating RPN’s improve few-shot object detection[EB/OL]. [2023-03-16]. http:∥arxiv.org/abs/2011.10142.
作者簡介
蔡 偉(1974—),男,教授,博士研究生導(dǎo)師,博士,主要研究方向為定位定向與光電防護。
王 鑫(1999—),男,碩士研究生,主要研究方向為計算機視覺、小樣本目標(biāo)檢測。
蔣昕昊(1997—),男,博士研究生,主要研究方向為計算機視覺、目標(biāo)檢測。
楊志勇(1983—),男,副教授,博士研究生導(dǎo)師,博士,主要研究方向為定位定向與光電防護。
陳 棟(1993—),男,碩士研究生,主要研究方向為定位定向與光電防護。