国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Dense Teacher 的半監(jiān)督雙階段遙感目標(biāo)檢測(cè)方法

2024-12-25 00:00:00李雨秋薛健呂科王泳
無線電工程 2024年12期

摘 要:針對(duì)遙感圖像中的有向物體檢測(cè)任務(wù),提出了一種基于半監(jiān)督學(xué)習(xí)的密集區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Dense RegionConvolutional Neural Network,DRCNN) 框架,以減少對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴并提高檢測(cè)精度。在該框架中,利用教師-學(xué)生模型通過稠密偽標(biāo)簽生成與一致性損失進(jìn)行訓(xùn)練,結(jié)合偽標(biāo)簽學(xué)習(xí)與數(shù)據(jù)擾動(dòng),提升模型對(duì)無標(biāo)注數(shù)據(jù)的有效利用率。針對(duì)長(zhǎng)尾分布問題,引入了Seesaw Loss 以動(dòng)態(tài)調(diào)整各類別權(quán)重,進(jìn)一步優(yōu)化模型性能。在DOTA 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,DRCNN 在1% 、2% 、5% 標(biāo)注率下的檢測(cè)精度AP50 分別較完全監(jiān)督方法提升了7. 21% 、8. 02% 和2. 84% 。在低標(biāo)注率條件下,DRCNN 在多個(gè)主要類別上表現(xiàn)出顯著的性能優(yōu)勢(shì),驗(yàn)證了其在遙感場(chǎng)景下的有效性。

關(guān)鍵詞:半監(jiān)督學(xué)習(xí);遙感圖像;有向物體檢測(cè);偽標(biāo)簽學(xué)習(xí);一致性訓(xùn)練

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1003-3106(2024)12-2754-11

0 引言

近年來,隨著遙感技術(shù)的快速發(fā)展,航拍圖像在城市規(guī)劃、災(zāi)害監(jiān)測(cè)和軍事情報(bào)等多個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,遙感圖像中的目標(biāo)檢測(cè)任務(wù),尤其是定向目標(biāo)檢測(cè),由于目標(biāo)的復(fù)雜形狀、任意角度旋轉(zhuǎn)及尺度不一致等特性,給傳統(tǒng)的目標(biāo)檢測(cè)方法帶來了巨大的挑戰(zhàn)[1-2]。盡管監(jiān)督學(xué)習(xí)在此類任務(wù)上取得了一定進(jìn)展,但其高度依賴大量標(biāo)注數(shù)據(jù),在實(shí)際應(yīng)用中,特別是大規(guī)模遙感場(chǎng)景中往往難以實(shí)現(xiàn)。標(biāo)注遙感圖像中的目標(biāo)既昂貴又費(fèi)時(shí),這使得半監(jiān)督學(xué)習(xí)成為一個(gè)極具吸引力的研究方向。

半監(jiān)督目標(biāo)檢測(cè)(SemiSupervised Object Detection,SSOD)通過結(jié)合少量標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù),顯著提升了目標(biāo)檢測(cè)的性能。近年來,SSOD 的研究主要集中在教師-學(xué)生框架和偽標(biāo)簽學(xué)習(xí)。一些典型方法如STAC[2]通過離線偽標(biāo)簽生成與學(xué)生模型的交替訓(xùn)練顯著提高了檢測(cè)精度。而UnbiasedTeacher[3]采用指數(shù)移動(dòng)平均(Exponential MovingAverage,EMA)[4]與焦點(diǎn)損失(Focal Loss)[5],進(jìn)一步緩解了偽標(biāo)簽中的類別不平衡問題。為了提升偽標(biāo)簽的質(zhì)量,文獻(xiàn)[6]引入了一致性訓(xùn)練,并通過減少負(fù)樣本的分類權(quán)重,針對(duì)偽標(biāo)簽中的漏檢問題提供了有效的解決方案。此外,文獻(xiàn)[7]提出了多視圖尺度不變學(xué)習(xí)策略,利用特征金字塔對(duì)齊和多尺度偽標(biāo)簽復(fù)用,大幅提升了檢測(cè)效果。文獻(xiàn)[8]使用教師模型的密集預(yù)測(cè)作為偽標(biāo)簽,并通過區(qū)域劃分策略充分利用了復(fù)雜背景中的難負(fù)樣本信息。

針對(duì)遙感圖像中的定向目標(biāo)檢測(cè)問題,半監(jiān)督定向目標(biāo)檢測(cè)(Semisupervised Oriented Object Detection,SOOD)[9]是目前少數(shù)嘗試應(yīng)用半監(jiān)督學(xué)習(xí)于此領(lǐng)域的工作之一。SOOD 引入了動(dòng)態(tài)權(quán)重調(diào)節(jié)與特定的旋轉(zhuǎn)目標(biāo)損失函數(shù),盡管在一定程度上解決了偽標(biāo)簽中的目標(biāo)錯(cuò)位和漏檢問題,但其對(duì)長(zhǎng)尾類別的處理能力仍有不足。此外,現(xiàn)有的SSOD 方法普遍在稀有類別目標(biāo)檢測(cè)上表現(xiàn)欠佳,如何在偽標(biāo)簽生成過程中提高少見目標(biāo)的精度仍是亟待解決的問題[10]。

為應(yīng)對(duì)上述挑戰(zhàn),本文提出了密集區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Dense Region Convolutional Neural Network,DRCNN),一種基于稠密偽標(biāo)簽生成的SSOD 框架。與現(xiàn)有的SSOD 方法大多使用經(jīng)過非極大值抑制(NonMaximum Suppression,NMS)后的最終檢測(cè)結(jié)果作為偽標(biāo)簽不同,DRCNN 通過利用教師模型生成的稠密預(yù)測(cè),即尚未經(jīng)過NMS 等后處理操作的檢測(cè)頭輸出結(jié)果作為偽標(biāo)簽,結(jié)合區(qū)域劃分策略,充分挖掘了無標(biāo)注數(shù)據(jù)中的硬負(fù)樣本區(qū)域,提高了偽標(biāo)簽的質(zhì)量。此外,在有監(jiān)督訓(xùn)練分支中引入SeesawLoss,有效緩解了長(zhǎng)尾分布下類別不均衡的問題,提升了稀有類別的檢測(cè)精度[11-13]。實(shí)驗(yàn)結(jié)果表明,DRCNN 在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上均優(yōu)于現(xiàn)有方法,尤其在稀有類別和旋轉(zhuǎn)目標(biāo)檢測(cè)任務(wù)上取得了顯著提升。

本文的主要貢獻(xiàn)包括:① 提出了一種新的稠密偽標(biāo)簽生成策略,能夠更好地利用無標(biāo)注數(shù)據(jù)中的難檢區(qū)域;② 通過Seesaw Loss 緩解了遙感圖像中長(zhǎng)尾類別的檢測(cè)難題;③ 在遙感圖像定向目標(biāo)檢測(cè)領(lǐng)域,通過大量實(shí)驗(yàn)驗(yàn)證了DRCNN 在多種標(biāo)注率下的優(yōu)越性能,證明了該方法在少量標(biāo)注數(shù)據(jù)條件下的有效性和魯棒性。

1 教師-學(xué)生訓(xùn)練框架

教師-學(xué)生訓(xùn)練框架是一種常用于半監(jiān)督學(xué)習(xí)的方法,廣泛應(yīng)用于目標(biāo)檢測(cè)、圖像分類等任務(wù)中。該框架的基本思想是通過2 個(gè)模型的協(xié)同工作,在有限的標(biāo)注數(shù)據(jù)和大量無標(biāo)注數(shù)據(jù)上進(jìn)行高效學(xué)習(xí)[14]。具體來說,教師模型為學(xué)生模型提供偽標(biāo)簽和監(jiān)督信號(hào),指導(dǎo)學(xué)生模型在未標(biāo)注數(shù)據(jù)上的訓(xùn)練,其框架如圖1 所示。

在教師-學(xué)生框架中,教師模型的參數(shù)通過對(duì)學(xué)生模型參數(shù)的指數(shù)滑動(dòng)平均進(jìn)行更新,以確保教師模型具有較強(qiáng)的穩(wěn)定性和泛化能力[15]。EMA 更新公式如下:

θt = αθt + (1 - α)θs , (1)

式中:θt 表示教師模型的參數(shù),θs 表示學(xué)生模型的參數(shù),α 表示平滑系數(shù)(通常設(shè)置為接近于1),用于逐步融合學(xué)生模型的信息到教師模型中。學(xué)生模型同時(shí)接受來自有標(biāo)注數(shù)據(jù)的監(jiān)督信號(hào),以及無標(biāo)注數(shù)據(jù)的偽標(biāo)簽進(jìn)行訓(xùn)練。為提高模型的魯棒性,教師模型和學(xué)生模型接收的輸入通常經(jīng)過不同的數(shù)據(jù)增強(qiáng)。教師模型的輸入通常只采用弱數(shù)據(jù)增強(qiáng),以保持其對(duì)輸入數(shù)據(jù)的基本結(jié)構(gòu)信息;而學(xué)生模型的輸入則經(jīng)過強(qiáng)數(shù)據(jù)增強(qiáng),以增加其對(duì)噪聲的魯棒性和泛化能力。

半監(jiān)督學(xué)習(xí)中的2 個(gè)核心原理是偽標(biāo)簽學(xué)習(xí)和一致性訓(xùn)練。偽標(biāo)簽學(xué)習(xí)通過教師模型對(duì)未標(biāo)注數(shù)據(jù)生成偽標(biāo)簽,并將這些偽標(biāo)簽作為監(jiān)督信號(hào),用于指導(dǎo)學(xué)生模型的訓(xùn)練[16]。為提高偽標(biāo)簽的質(zhì)量,通常只選擇高置信度的預(yù)測(cè)作為偽標(biāo)簽。與此同時(shí),一致性訓(xùn)練則通過衡量教師模型和學(xué)生模型在相同輸入下的預(yù)測(cè)差異,確保學(xué)生模型的輸出與教師模型保持一致,從而逐步提高學(xué)生模型的性能[17]。

通過教師-學(xué)生訓(xùn)練框架,學(xué)生模型能夠在標(biāo)注數(shù)據(jù)有限的情況下,通過教師模型提供的監(jiān)督信號(hào)學(xué)習(xí)到更多的有用信息,顯著提升模型的檢測(cè)性能[18]。

2 DRCNN 方法

2. 1 方法概述

本文提出的DRCNN 方法,旨在結(jié)合DenseTeacher 與Faster RCNN 的雙階段目標(biāo)檢測(cè)架構(gòu),解決遙感圖像目標(biāo)檢測(cè)中小目標(biāo)、類不平衡和標(biāo)注數(shù)據(jù)稀缺等問題。其整體架構(gòu)如圖2 所示。

Dense Teacher 方法通過教師模型生成稠密的目標(biāo)預(yù)測(cè)結(jié)果(稱為稠密偽標(biāo)簽),這些偽標(biāo)簽為學(xué)生模型提供監(jiān)督信號(hào),指導(dǎo)其在未標(biāo)注數(shù)據(jù)上的訓(xùn)練。稠密偽標(biāo)簽包括目標(biāo)的分類概率、邊界框預(yù)測(cè)和中心度信息,能夠覆蓋圖像中的不同目標(biāo)區(qū)域。本文采用置信度篩選機(jī)制,確保只使用高置信度的前景樣本作為偽標(biāo)簽,從而減少低質(zhì)量偽標(biāo)簽對(duì)訓(xùn)練過程的干擾。與此同時(shí),學(xué)生模型在另一條分支上接受來自帶標(biāo)注數(shù)據(jù)的監(jiān)督信息進(jìn)行有監(jiān)督訓(xùn)練。

在訓(xùn)練過程中,DRCNN 的學(xué)生模型通過與教師模型的稠密偽標(biāo)簽進(jìn)行對(duì)比,計(jì)算一致性損失。一致性損失包括三部分:分類一致性、邊界框回歸一致性和中心度一致性。這些損失通過衡量學(xué)生模型和教師模型在稠密預(yù)測(cè)結(jié)果上的差異,確保學(xué)生模型能夠有效學(xué)習(xí)教師模型的知識(shí),并逐步優(yōu)化自身的檢測(cè)能力。

2. 2 差異化數(shù)據(jù)增強(qiáng)策略

在DRCNN 方法中,教師模型與學(xué)生模型通過不同的數(shù)據(jù)增強(qiáng)策略進(jìn)行訓(xùn)練。具體而言,教師模型的輸入采用弱數(shù)據(jù)增強(qiáng)策略,以保留圖像的基本結(jié)構(gòu)信息;而學(xué)生模型的輸入則使用了強(qiáng)數(shù)據(jù)增強(qiáng)策略,以增強(qiáng)其對(duì)輸入噪聲和復(fù)雜環(huán)境的魯棒性。這種增強(qiáng)的區(qū)別確保教師模型生成的偽標(biāo)簽穩(wěn)定可靠,同時(shí)學(xué)生模型可以應(yīng)對(duì)更復(fù)雜的場(chǎng)景。教師模型的弱增強(qiáng)策略包括圖像的隨機(jī)尺寸調(diào)整,結(jié)合水平和垂直翻轉(zhuǎn),以相對(duì)較少的變換保留圖像的結(jié)構(gòu)完整性。具體配置如下:

① 隨機(jī)調(diào)整尺寸:圖像尺寸在1 024 pixel×1 024 pixel與1 500 pixel×1 500 pixel 之間隨機(jī)變化。

② 水平和垂直翻轉(zhuǎn):以50% 的概率進(jìn)行水平或垂直翻轉(zhuǎn)。

學(xué)生模型的強(qiáng)增強(qiáng)策略包含更為復(fù)雜的變換,除了隨機(jī)調(diào)整尺寸和翻轉(zhuǎn),還包括顏色變換(如隨機(jī)顏色調(diào)整、隨機(jī)對(duì)比度調(diào)整、隨機(jī)亮度調(diào)整等)、幾何變換(如隨機(jī)旋轉(zhuǎn)、隨機(jī)剪切)以及隨機(jī)擦除。這些變換旨在增加訓(xùn)練過程中對(duì)噪聲和場(chǎng)景復(fù)雜度的魯棒性。強(qiáng)增強(qiáng)配置的關(guān)鍵點(diǎn)如下:

① 隨機(jī)調(diào)整尺寸:圖像尺寸調(diào)整為1 024 pixel×1 024 pixel,學(xué)生模型輸入與教師模型輸入之間存在大小為ρ 的放縮率。

② 水平和垂直翻轉(zhuǎn):50% 的概率進(jìn)行水平或垂直翻轉(zhuǎn)。

③ 顏色變換:應(yīng)用顏色變換,如隨機(jī)顏色調(diào)整、隨機(jī)對(duì)比度調(diào)整、隨機(jī)亮度調(diào)整等。

④ 隨機(jī)旋轉(zhuǎn):隨機(jī)旋轉(zhuǎn)圖像,角度范圍為(-90°,90°)。

⑤ 隨機(jī)擦除:隨機(jī)擦除圖像的一部分,模擬噪聲和遮擋情況。

2. 3 稠密偽標(biāo)簽生成

在DRCNN 方法中,稠密偽標(biāo)簽是學(xué)生模型訓(xùn)練的重要監(jiān)督信號(hào)。通過教師模型生成的稠密預(yù)測(cè)結(jié)果,稠密偽標(biāo)簽包括目標(biāo)的分類概率、邊界框預(yù)測(cè)和目標(biāo)的中心度信息。這些偽標(biāo)簽不僅為標(biāo)注數(shù)據(jù)提供了補(bǔ)充,還通過與學(xué)生模型的對(duì)比學(xué)習(xí),促進(jìn)了學(xué)生模型的逐步優(yōu)化。

然而,由于教師模型和學(xué)生模型的輸入經(jīng)過了不同的數(shù)據(jù)增強(qiáng)(教師模型使用弱增強(qiáng),而學(xué)生模型使用強(qiáng)增強(qiáng)),二者的空間位置會(huì)有所不同。因此,直接使用教師模型生成的區(qū)域提議框(RegionProposals)進(jìn)行監(jiān)督,可能導(dǎo)致教師模型與學(xué)生模型在空間上的不一致。為了解決這個(gè)問題,本文設(shè)計(jì)了一種基于空間變換的機(jī)制,以確保教師模型與學(xué)生模型的稠密預(yù)測(cè)值能夠進(jìn)行一對(duì)一映射。

教師模型在區(qū)域建議網(wǎng)絡(luò)階段生成區(qū)域提議框Pt。為了將這些區(qū)域提議框投影到學(xué)生模型的輸入空間中,必須記錄數(shù)據(jù)增強(qiáng)過程中教師模型和學(xué)生模型之間的空間變換矩陣M。該變換矩陣由數(shù)據(jù)增強(qiáng)步驟中的幾何變換(如縮放、翻轉(zhuǎn)和旋轉(zhuǎn))計(jì)算得到。通過這一矩陣,可以將教師模型的區(qū)域提議框映射到學(xué)生模型的輸入空間,投影后的區(qū)域提議框記作Ps:

Ps = M·Pt, (2)

式中:M 為記錄2 次數(shù)據(jù)增強(qiáng)之間的變換關(guān)系的矩陣,Pt 為教師模型生成的區(qū)域提議框,Ps 為投影到學(xué)生模型輸入上的區(qū)域提議框。通過該投影過程,保證了學(xué)生模型可以利用教師模型的區(qū)域提議進(jìn)行進(jìn)一步的目標(biāo)檢測(cè)和回歸。

完成空間變換后,學(xué)生模型的感興趣區(qū)域(Region of Interest,RoI)池化層對(duì)投影后的區(qū)域提議框Ps 進(jìn)行處理,生成最終的分類預(yù)測(cè)、邊界框預(yù)測(cè)和目標(biāo)中心度預(yù)測(cè)。此時(shí),教師模型生成的分類預(yù)測(cè)、邊界框預(yù)測(cè)和目標(biāo)中心度預(yù)測(cè)與學(xué)生模型的對(duì)應(yīng)預(yù)測(cè)值一一對(duì)應(yīng),同樣,教師模型的稠密預(yù)測(cè)結(jié)果也需要像區(qū)域提議框一樣投影到學(xué)生模型的輸入空間以得到對(duì)齊后的稠密偽標(biāo)簽,為后續(xù)一致性損失的計(jì)算奠定基礎(chǔ)。為了進(jìn)一步提升偽標(biāo)簽的質(zhì)量,本文還采用了置信度篩選機(jī)制。具體來說,教師模型的輸出結(jié)果包括分類分?jǐn)?shù)tcls,根據(jù)這些分?jǐn)?shù)選取置信度最高的前景樣本作為偽標(biāo)簽。只有置信度超過設(shè)定閾值的樣本會(huì)被保留用于后續(xù)的監(jiān)督學(xué)習(xí):

2. 4 一致性損失設(shè)計(jì)

在DRCNN 的半監(jiān)督學(xué)習(xí)框架中,一致性損失是學(xué)生模型從教師模型學(xué)習(xí)的重要機(jī)制。通過對(duì)教師模型生成的稠密偽標(biāo)簽進(jìn)行監(jiān)督,學(xué)生模型的輸出與教師模型的預(yù)測(cè)保持一致,從而逐步提高模型在未標(biāo)注數(shù)據(jù)上的性能。一致性損失主要包括三部分:分類損失、邊界框回歸損失和中心度損失。

① 分類一致性損失:基于教師模型與學(xué)生模型在相同區(qū)域上的分類概率分布,衡量二者之間的差異。本文的分類損失函數(shù)受質(zhì)量焦點(diǎn)損失(QualityFocal Loss,QFL)[19]的啟發(fā),用于處理遙感圖像中的類不平衡問題。具體而言,QFL 將分類分?jǐn)?shù)與預(yù)測(cè)質(zhì)量相結(jié)合,計(jì)算教師模型與學(xué)生模型的分類結(jié)果差異。

對(duì)于每個(gè)樣本i,假設(shè)教師模型的分類分?jǐn)?shù)為t(i)cls ,學(xué)生模型的分類分?jǐn)?shù)為s(i)cls ,則分類一致性損失的計(jì)算公式為:

② 邊界框回歸一致性損失:用于衡量學(xué)生模型與教師模型在目標(biāo)邊界框預(yù)測(cè)上的差異。通過對(duì)教師模型的邊界框偽標(biāo)簽tbbox 和學(xué)生模型的邊界框預(yù)測(cè)sbbox 進(jìn)行對(duì)比,計(jì)算二者在經(jīng)過空間變換后的區(qū)域中的一致性。

邊界框回歸損失采用Smooth L1 損失,結(jié)合教師模型的中心度估計(jì)作為權(quán)重,公式如下:

③ 中心度一致性損失:用于約束學(xué)生模型和教師模型在目標(biāo)中心度估計(jì)上的一致性。中心度反映了目標(biāo)的空間中心性,確保目標(biāo)的定位準(zhǔn)確。中心度一致性損失使用BCE 函數(shù)來計(jì)算二者的差異:

該損失項(xiàng)確保了學(xué)生模型在預(yù)測(cè)目標(biāo)的中心度時(shí)與教師模型保持一致,進(jìn)一步提升了目標(biāo)的定位精度。

總損失:學(xué)生模型的總損失由有監(jiān)督損失Lsup與無監(jiān)督的一致性損失組成,公式如下:

通過上述一致性損失的設(shè)計(jì),DRCNN 能夠充分利用教師模型生成的稠密偽標(biāo)簽,確保學(xué)生模型在分類、邊界框回歸和目標(biāo)中心度估計(jì)上與教師模型保持一致,從而提高其在未標(biāo)注數(shù)據(jù)上的檢測(cè)性能。

3 實(shí)驗(yàn)與結(jié)果分析

3. 1 實(shí)驗(yàn)數(shù)據(jù)

本次實(shí)驗(yàn)主要使用了DOTAv2. 0 數(shù)據(jù)集[20]。Dataset of Object Detection in Aerial Images(DOTA)是目前遙感目標(biāo)檢測(cè)領(lǐng)域規(guī)模最大、應(yīng)用最廣泛的數(shù)據(jù)集之一,專為高分辨率遙感圖像中的目標(biāo)檢測(cè)任務(wù)設(shè)計(jì)。DOTA 數(shù)據(jù)集不同版本的比較如表1 所示。DOTA 數(shù)據(jù)集自2018 年發(fā)布以來,先后經(jīng)歷了多個(gè)版本的更新,從最初的DOTAv1. 0 到最新的DOTAv2. 0,數(shù)據(jù)量和類別覆蓋范圍逐步增加,現(xiàn)已成為遙感圖像分析領(lǐng)域的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集。DOTA數(shù)據(jù)集為研究者提供了大量來自不同傳感器和平臺(tái)的航空?qǐng)D像,用于發(fā)展和評(píng)估目標(biāo)檢測(cè)模型。

DOTAv2. 0 版本相較于早期版本,不僅擴(kuò)展了數(shù)據(jù)量,還增加了類別。DOTAv2. 0 數(shù)據(jù)集標(biāo)注示例如圖3 所示,DOTAv2. 0 包含18 個(gè)常見的遙感目標(biāo)類別,包括飛機(jī)(plane)、船只(ship)、儲(chǔ)油罐(storage tank)、棒球場(chǎng)(baseball diamond)、網(wǎng)球場(chǎng)(tennis court)、籃球場(chǎng)(basketball court)、田徑場(chǎng)(ground track field)、港口(harbor)、橋梁(bridge)、大型車輛(large vehicle)、小型車輛(small vehicle)、直升機(jī)(helicopter )、環(huán)島(roundabout )、足球場(chǎng)(soccer ball field)、游泳池(swimming pool)、集裝箱起重機(jī)(container crane)、機(jī)場(chǎng)(airport)和停機(jī)坪(helipad)。這一版本共有11 268 張圖像和1 793 658 個(gè)標(biāo)注實(shí)例,遠(yuǎn)遠(yuǎn)超過了其上一個(gè)版本DOTAv1. 5 的圖像數(shù)量和標(biāo)注數(shù)量。

DOTAv2. 0 的數(shù)據(jù)來源于多種傳感器和平臺(tái),包括Google Earth、GF2 衛(wèi)星和JL1 衛(wèi)星,這些圖像既有RGB 圖像,也有灰度圖像,分辨率從800 pixel×800 pixel ~ 20 000 pixel×20 000 pixel 不等。DOTAv2. 0 的圖像涵蓋了各種尺度、方向和形狀的目標(biāo),能夠模擬實(shí)際遙感應(yīng)用中的復(fù)雜場(chǎng)景。這些目標(biāo)均由專業(yè)遙感圖像專家標(biāo)注,標(biāo)注格式采用任意旋轉(zhuǎn)的四邊形(Oriented Bounding Box,OBB),每個(gè)實(shí)例由8 個(gè)自由度(Degrees of Freedom,DoF)的頂點(diǎn)坐標(biāo)定義,能夠準(zhǔn)確描述物體的方位與形狀[21]。此外,標(biāo)注文件還包含目標(biāo)類別和難度等級(jí)(difficult)標(biāo)簽,用于標(biāo)記檢測(cè)難度。

DOTAv2. 0 數(shù)據(jù)集按任務(wù)需要分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,具體劃分為:訓(xùn)練集包含1 830 張圖像和268 627 個(gè)實(shí)例,驗(yàn)證集包含593 張圖像和81 048 個(gè)實(shí)例,testdev 集包含2 792 張圖像和353 346 個(gè)實(shí)例,testchallenge 集包含6 053 張圖像和1 090 637 個(gè)實(shí)例。為避免模型過擬合,DOTAv2. 0 特別設(shè)計(jì)了2 個(gè)測(cè)試集(testdev 和testchallenge),其中testdev提供圖像但不提供標(biāo)注,更高難度的testchallenge僅在2021 年的挑戰(zhàn)賽期間開放。

DOTAv2. 0 作為一個(gè)具有廣泛代表性的遙感數(shù)據(jù)集,不僅體現(xiàn)在其龐大的數(shù)據(jù)量上,還因?yàn)樘峁┝酸槍?duì)多種復(fù)雜場(chǎng)景和類不平衡問題的挑戰(zhàn),成為當(dāng)前遙感目標(biāo)檢測(cè)領(lǐng)域評(píng)估模型性能的標(biāo)準(zhǔn)基準(zhǔn)。

3. 2 實(shí)驗(yàn)設(shè)計(jì)

為了驗(yàn)證本文提出的SSOD 方法的有效性,設(shè)計(jì)了一系列實(shí)驗(yàn),模擬了標(biāo)注數(shù)據(jù)遠(yuǎn)少于無標(biāo)注數(shù)據(jù)的場(chǎng)景。本實(shí)驗(yàn)基于DOTAv2. 0 數(shù)據(jù)集,使用雙階段檢測(cè)器Rotated Faster RCNN[22]并通過有標(biāo)注數(shù)據(jù)與無標(biāo)注數(shù)據(jù)的劃分,評(píng)估半監(jiān)督訓(xùn)練對(duì)目標(biāo)檢測(cè)精度的提升。

將DOTAv2. 0 數(shù)據(jù)集中的訓(xùn)練集(train set)與驗(yàn)證集(val set)合并,形成一個(gè)新的訓(xùn)練-驗(yàn)證集(trainval set)。為了確保模型可以有效學(xué)習(xí)到小尺度目標(biāo),將每張遙感圖像切分為尺寸為1 024 pixel×1 024 pixel 的子圖像。在切分過程中,引入了200 pixel 的重疊部分,以保證目標(biāo)不會(huì)因?yàn)榍蟹侄唤財(cái)嗷騺G失。通過這種方式處理后的子圖像能夠更好地反映原始圖像中的多尺度和密集目標(biāo)分布。

得到切分的數(shù)據(jù)后,對(duì)其進(jìn)行隨機(jī)劃分,將其中的一部分作為有標(biāo)注數(shù)據(jù),另一部分去掉標(biāo)注作為無標(biāo)注數(shù)據(jù)。具體而言,設(shè)置了3 個(gè)標(biāo)注率,即1% 、2% 、5% ,以模擬不同程度的標(biāo)注數(shù)據(jù)稀缺情況。在每個(gè)標(biāo)注率下,對(duì)有標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)進(jìn)行如下處理:

① 有標(biāo)注數(shù)據(jù):占總數(shù)據(jù)量的1% 、2% 、5% ,并保持其對(duì)應(yīng)的標(biāo)注信息,用于有監(jiān)督訓(xùn)練。

② 無標(biāo)注數(shù)據(jù):剩余的子圖像被視為無標(biāo)注數(shù)據(jù),即僅保留圖像本身,去掉所有原始標(biāo)注信息,用于半監(jiān)督訓(xùn)練中的偽標(biāo)簽生成和一致性監(jiān)督。

為了增加實(shí)驗(yàn)的穩(wěn)健性,在每個(gè)標(biāo)注率下,進(jìn)行了10 次隨機(jī)劃分(10fold 交叉驗(yàn)證),在每個(gè)折(fold)上進(jìn)行獨(dú)立訓(xùn)練,并將訓(xùn)練得到的模型在測(cè)試集testdev 上進(jìn)行評(píng)估。每個(gè)數(shù)據(jù)折上對(duì)應(yīng)的AP50 指標(biāo)取平均值,并計(jì)算方差,以得到該標(biāo)注率下的穩(wěn)定性能評(píng)價(jià)指標(biāo)。

首先,僅利用有標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練,得到模型的檢測(cè)性能,作為評(píng)價(jià)后續(xù)半監(jiān)督方法的基線。其次,引入無標(biāo)注數(shù)據(jù)進(jìn)行半監(jiān)督訓(xùn)練。具體而言,通過教師模型生成偽標(biāo)簽,并在學(xué)生模型中計(jì)算一致性損失,使模型在無標(biāo)注數(shù)據(jù)上學(xué)習(xí)到更多有用的特征。最終,比較半監(jiān)督方法相對(duì)于基線的檢測(cè)精度提升,驗(yàn)證本文提出方法的有效性。

3. 3 超參數(shù)消融實(shí)驗(yàn)

為了確定合適的置信度閾值,進(jìn)行了超參數(shù)消融實(shí)驗(yàn),實(shí)驗(yàn)?zāi)繕?biāo)是在不同值下測(cè)試檢測(cè)模型的性能,并選擇最優(yōu)的。為了節(jié)省計(jì)算資源,本實(shí)驗(yàn)選取了標(biāo)注率1% 的一個(gè)數(shù)據(jù)折進(jìn)行訓(xùn)練,并使用模型在無標(biāo)注數(shù)據(jù)部分的測(cè)試結(jié)果與原有真實(shí)標(biāo)注進(jìn)行對(duì)比分析。實(shí)驗(yàn)評(píng)估指標(biāo)為COCOstyle 的AP50和召回率(Recall)[23]。

在實(shí)驗(yàn)中, 的取值設(shè)置為[0. 3,0. 75],每隔0. 05 取一個(gè)值。表2 展示了不同值對(duì)應(yīng)的AP50 ,表3 展示了相同值對(duì)應(yīng)的召回率,其中加粗的數(shù)值為同類別中最大值,加下劃線的數(shù)值為同類別中次優(yōu)值。由表2 可以看出,當(dāng)= 0. 5 時(shí),所有類別的AP50 為0. 438 2,相較于其他值下,整體檢測(cè)準(zhǔn)確率表現(xiàn)最佳。在部分類別上,如船只(AP50 = 0. 719)和飛機(jī)(AP50 = 0. 895), = 0. 5 時(shí)的表現(xiàn)處于最佳或接近最佳狀態(tài)。同時(shí),雖然大型車輛在=0. 45 時(shí)達(dá)到最高AP50 =0. 574 9,但=0. 5 時(shí)的表現(xiàn)(AP50 =0. 558 5)與其差距不大,依然能保持較高的準(zhǔn)確率。此外,游泳池和足球場(chǎng)的表現(xiàn)也接近最優(yōu),表明= 0. 5 在多數(shù)類別上取得了較好的平衡。

由表3 的召回率結(jié)果可以看出, = 0. 5 時(shí),橋梁(Recall = 0. 497 5)、小型車輛(Recall = 0. 825 8)和飛機(jī)(Recall = 0. 940 1)等類別的召回率表現(xiàn)達(dá)到或接近最優(yōu)。對(duì)于其他類別,雖然= 0. 5 并非所有情況下召回率最高,但其表現(xiàn)與最優(yōu)值非常接近(如游泳池和大型車輛),因此= 0. 5 可以在保證召回率的同時(shí),取得良好的檢測(cè)準(zhǔn)確率。

綜合考慮AP50 和召回率2 項(xiàng)指標(biāo), = 0. 5 是一個(gè)較為合適的置信度閾值。它在整體準(zhǔn)確率上取得了最優(yōu)結(jié)果,同時(shí)在多數(shù)類別的召回率上表現(xiàn)穩(wěn)定,不會(huì)過度損失檢測(cè)能力。因此,選擇= 0. 5 作為DRCNN 模型的偽標(biāo)簽置信度閾值。

3. 4 對(duì)比實(shí)驗(yàn)

為了評(píng)估DRCNN 方法在半監(jiān)督遙感目標(biāo)檢測(cè)任務(wù)中的表現(xiàn),并檢驗(yàn)Seesaw Loss 在處理長(zhǎng)尾分布數(shù)據(jù)集中的效果,設(shè)計(jì)了4 組對(duì)比實(shí)驗(yàn):

① 僅使用標(biāo)注數(shù)據(jù)的有監(jiān)督訓(xùn)練,作為全監(jiān)督基線方法;

② 在①的基礎(chǔ)上引入Seesaw Loss 替代原始交叉熵作為分類損失函數(shù);

③ SSOD 基線方法SOOD;④ 提出的DRCNN 方法。

這些實(shí)驗(yàn)在不同的標(biāo)注率(1% 、2% 、5% )下進(jìn)行,以COCOstyle 的AP50 為主要評(píng)估指標(biāo)。實(shí)驗(yàn)結(jié)果對(duì)比如表4 和圖4 所示。

SOOD 方法是一種針對(duì)遙感場(chǎng)景中旋轉(zhuǎn)目標(biāo)的半監(jiān)督學(xué)習(xí)方法,特別適用于具有旋轉(zhuǎn)特性的目標(biāo)檢測(cè)任務(wù)。SOOD 基于半監(jiān)督偽標(biāo)簽生成框架,并引入了2 個(gè)關(guān)鍵損失函數(shù):旋轉(zhuǎn)感知自適應(yīng)加權(quán)損失(RotationAware Weighted Loss,RAW Loss)和全局一致性損失(Global Consistency Loss,GC Loss)。其中,RAW Loss 通過動(dòng)態(tài)調(diào)整旋轉(zhuǎn)物體的損失權(quán)重,提升對(duì)多方向物體的檢測(cè)效果;GC Loss 則促進(jìn)了教師模型和學(xué)生模型預(yù)測(cè)結(jié)果在全局分布上的一致性,從而提高偽標(biāo)簽的質(zhì)量。SOOD 方法在處理旋轉(zhuǎn)物體檢測(cè)任務(wù)時(shí)具有一定優(yōu)勢(shì),是本文在半監(jiān)督訓(xùn)練范式上的基線方法。

在處理長(zhǎng)尾分布問題時(shí),引入了Seesaw Loss 來增強(qiáng)稀有類別的分類能力。在遙感目標(biāo)檢測(cè)數(shù)據(jù)集DOTAv2. 0 中,常見類別(如飛機(jī)、船只)的出現(xiàn)頻率遠(yuǎn)高于稀有類別(如直升機(jī)、游泳池等)。傳統(tǒng)的交叉熵?fù)p失在處理長(zhǎng)尾數(shù)據(jù)時(shí),模型往往傾向于學(xué)習(xí)常見類別,導(dǎo)致稀有類別的表現(xiàn)較差。SeesawLoss 的設(shè)計(jì)目標(biāo)是動(dòng)態(tài)調(diào)整正負(fù)樣本的損失權(quán)重,以平衡類別不平衡帶來的負(fù)面影響。其公式如下:

從表4 和圖4 可以明顯看出,本文提出的DRCNN 方法在不同標(biāo)注率下均表現(xiàn)出較為穩(wěn)定且顯著的優(yōu)勢(shì)。其中加粗?jǐn)?shù)據(jù)為不同方法中最優(yōu)結(jié)果,而加下劃線的數(shù)據(jù)為次優(yōu)結(jié)果。具體而言,在1% 、2%和5% 標(biāo)注率下,DRCNN 的AP50 分別為0. 237 9、0. 290 7 和0. 372 6,相較于其他方法均有不同程度的提升。例如,在1% 標(biāo)注率下,DRCNN 方法比完全監(jiān)督訓(xùn)練提升了0. 016,即7. 2% 的增幅;而在5% 標(biāo)注率下,DRCNN 較SOOD 方法提高了0. 015(4. 2% ),顯示了該方法在低標(biāo)注率下的優(yōu)勢(shì)。此外,從圖4 (d)可以看出,隨著標(biāo)注率的提升,DRCNN 方法的優(yōu)勢(shì)愈發(fā)明顯,特別是在5% 標(biāo)注率時(shí),相較于其他方法,提升幅度尤為顯著。

在細(xì)粒度的類別分析中,DRCNN 在復(fù)雜類別(如“飛機(jī)”“小型車輛”“儲(chǔ)油罐”)的檢測(cè)表現(xiàn)尤為突出。例如,在1% 標(biāo)注率下,DRCNN 在“飛機(jī)”類別上的AP50 為0. 613 0,顯著優(yōu)于其他方法;而在“儲(chǔ)油罐”類別中,盡管完全監(jiān)督訓(xùn)練加Seesaw Loss方法表現(xiàn)出了一定優(yōu)勢(shì),但DRCNN 依然能在2%和5% 標(biāo)注率下分別取得0. 477 0 和0. 517 5 的較好結(jié)果,展現(xiàn)了其較強(qiáng)的檢測(cè)能力。

總的來說,DRCNN 在不同標(biāo)注率下均展示出了較好的泛化性和魯棒性,尤其在低標(biāo)注率場(chǎng)景下,其表現(xiàn)優(yōu)于傳統(tǒng)方法。引入的密集偽標(biāo)簽生成策略有效緩解了數(shù)據(jù)稀缺帶來的挑戰(zhàn)。此外,在自動(dòng)駕駛、監(jiān)控、安全等實(shí)際應(yīng)用場(chǎng)景中,DRCNN 通過偽標(biāo)簽生成策略和自監(jiān)督學(xué)習(xí),提升了模型在低標(biāo)注數(shù)據(jù)環(huán)境下的魯棒性和準(zhǔn)確性。尤其是在這些領(lǐng)域中,標(biāo)注數(shù)據(jù)的獲取成本較高,而DRCNN 能夠利用少量的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)有效提升目標(biāo)檢測(cè)的性能,展現(xiàn)了其在實(shí)際應(yīng)用中的廣泛適用性。然而,從AP75 和mAP@ 0. 5:0. 95 等更高要求的指標(biāo)來看,DRCNN 在處理部分類別(如“直升機(jī)”和“集裝箱起重機(jī)”)時(shí)表現(xiàn)仍有提升空間,特別是在精確度要求較高的場(chǎng)景中,未來的改進(jìn)方向可以著眼于進(jìn)一步提升高精度檢測(cè)的效果。

4 結(jié)束語

本文提出的DRCNN 方法,通過稠密偽標(biāo)簽生成和一致性損失的創(chuàng)新設(shè)計(jì),有效提升了遙感圖像中有向物體檢測(cè)的性能,特別是在低標(biāo)注率條件下表現(xiàn)尤為突出。實(shí)驗(yàn)結(jié)果表明,該方法在1% 、2%和5% 標(biāo)注率下,相較于傳統(tǒng)的完全監(jiān)督方法均顯著提高了檢測(cè)精度,尤其是在長(zhǎng)尾分布問題嚴(yán)重的場(chǎng)景中,引入Seesaw Loss 進(jìn)一步優(yōu)化了稀有類別的檢測(cè)效果。與現(xiàn)有SSOD 方法(如SOOD)相比,DRCNN 在低標(biāo)注率下展示出更高的檢測(cè)精度,特別是在“飛機(jī)”“小型車輛”“儲(chǔ)油罐”等復(fù)雜類別中表現(xiàn)尤為優(yōu)越,驗(yàn)證了其在多標(biāo)注率下的廣泛適用性。該方法在自動(dòng)駕駛、軍事監(jiān)測(cè)和城市規(guī)劃等需要處理大量未標(biāo)注遙感數(shù)據(jù)的領(lǐng)域具有良好的推廣潛力,實(shí)驗(yàn)數(shù)據(jù)進(jìn)一步證明了DRCNN 在復(fù)雜場(chǎng)景中的有效性和先進(jìn)性。然而,Seesaw Loss 在高密度物體檢測(cè)或極端長(zhǎng)尾數(shù)據(jù)集下的表現(xiàn)仍有優(yōu)化空間。未來研究可通過改進(jìn)Seesaw Loss 適應(yīng)更復(fù)雜的數(shù)據(jù)分布,并結(jié)合動(dòng)態(tài)偽標(biāo)簽篩選和多尺度數(shù)據(jù)增強(qiáng)策略,增強(qiáng)模型在高精度檢測(cè)場(chǎng)景和復(fù)雜環(huán)境中的泛化能力,從而推動(dòng)遙感目標(biāo)檢測(cè)技術(shù)在更廣泛應(yīng)用中的發(fā)展。

參考文獻(xiàn)

[1] DING J,XUE N,XIA G S,et al. Object Detection in Aerial Images:A Largescale Benchmark and Challenges[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,44(11):7778-7796.

[2] SOHN K,ZHANG Z Z,LI C L,et al. A Simple Semisu pervised Learning Framework for Object Detection [EB /OL]. (2020 - 05 - 10)[2024 - 09 - 09]. https:∥ arxiv.org / abs / 2005. 04757.

[3] LIU Y C,MA C Y,HE Z J,et al. Unbiased Teacher for Semisupervised Object Detection[EB / OL]. (2021 - 02 -18)[2024-08-09]. https:∥arxiv. org / abs/ 2102. 09480.

[4] TARVAINEN A,VALPOLA H. Mean Teachers are Better Role Models: Weightaveraged Consistency Targets Improve Semisupervised Deep Learning Results [C]∥ Proceedings of the 31st International Conference on Neural Information Processing Systems Pages. Long Beach:Curran Associates Inc. ,2017:1195-1204.

[5] LIN T Y,GOYAL P,GIRSHICK R,et al. Focal Loss for Dense Object Detection [C]∥ Proceedings of the IEEE International Conference on Computer Vision. Venice:IEEE,2017:2999-3007.

[6] XU M D,ZHANG Z,HU H,et al. EndtoEnd Semisu pervised Object Detection with Soft Teacher [C]∥ Pro ceedings of the IEEE / CVF International Conference on Computer Vision. Montreal:IEEE,2021:3060-3069.

[7] LI G,LI X,WANG Y J,et al. PseCo:Pseudo Labeling and Consistency Training for Semisupervised Object Detection[C ]∥ European Conference on Computer Vision. TelAviv:Springer,2022:457-472.

[8] ZHOU H Y,GE Z,LIU S T,et al. Dense Teacher:Dense Pseudolabels for Semisupervised Object Detection[C]∥European Conference on Computer Vision. Tel Aviv:Springer,2022:35-50.

[9] HUA W,LIANG D K,LI J Y,et al. SOOD:Towards Semisu pervised Oriented Object Detection[C]∥Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:15558-15567.

[10] 王志紅,王煜晟. 面向數(shù)據(jù)長(zhǎng)尾分布的道路目標(biāo)檢測(cè)算法研究[J]. 武漢理工大學(xué)學(xué)報(bào),2022,44 (10 ):102-108.

[11] WANG J Q,ZHANG W W,ZANG Y H,et al. Seesaw Loss for Longtailed Instance Segmentation[C]∥ Proceedings of the IEEE / CVF Conference on Computer Vision and Pattern Recognition. Nashville:IEEE,2021:9690-9699.

[12] 馮號(hào),黃朝兵,文元橋. 基于改進(jìn)YOLOv3 的遙感圖像小目標(biāo)檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用,2022,42(12):3723-3732.

[13] 劉奕辰. 長(zhǎng)尾分布下的深度領(lǐng)域自適應(yīng)模型泛化性分析與優(yōu)化研究[D]. 北京:北京郵電大學(xué),2023.

[14] 高玉才,付忠廣,謝玉存,等. 基于指數(shù)加權(quán)移動(dòng)平均算法的半監(jiān)督故障診斷模型[C]∥ 第15 屆全國(guó)轉(zhuǎn)子動(dòng)力學(xué)學(xué)術(shù)大會(huì)(ROTDYN2023). 沈陽:[出版者不詳],2023:162.

[15] 王巖,李少波,張儀宗,等. 數(shù)據(jù)驅(qū)動(dòng)的無人機(jī)異常檢測(cè)算法綜述[J]. 無線電工程,2024,54(6):1407-1420.

[16] 劉雅芬,鄭藝峰,江鈴邁,等. 深度半監(jiān)督學(xué)習(xí)中偽標(biāo)簽方法綜述[J]. 計(jì)算機(jī)科學(xué)與探索,2022,16 (6):1279-1290.

[17] 董世超,王愷,李濤. 一種保持多度量空間一致性的多損失聯(lián)合訓(xùn)練方法:CN202010252779. 1 [P ]. 2020 -07-17.

[18] 王嬌,羅四維. 一種半監(jiān)督協(xié)同訓(xùn)練的正則化算法[J]. 計(jì)算機(jī)科學(xué),2012,39(7):215-218.

[19] LI X,WANG W H,WU L J,et al. Generalized Focal Loss:Learning Qualified and Distributed Bounding Boxes for Dense Object Detection[C]∥Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver:Curran Associates Inc. ,2020:21002-21012.

[20] XIA G S,DING J,QIAN M,et al. LUAI Challenge 2021 on Learning to Understand Aerial Images [C ] ∥Proceedings of the IEEE / CVF International Conference on Computer Vision. Montreal:IEEE,2021:762-768.

[21] ZAND M,ETEMAD A,GREENSPAN M. Oriented Bounding Boxes for Small and Freely Rotated Objects[J]. IEEE Transactions on Geoscience and Remote Sensing,2021,60:1-15.

[22] YANG S,PEI Z Q,ZHOU F,et al. Rotated Faster RCNN for Oriented Object Detection in Aerial Images[C]∥Pro ceedings of the 2020 3rd International Conference on Robot Systems and Applications. Chengdu:ACM,2020:35-39.

[23] LIN T Y,MAIRE M,BELONGIE S,et al. Microsoft COCO:Common Objects in Context [C ]∥ Computer VisionECCV 2014. Zurich:Springer,2014:740-755.

作者簡(jiǎn)介

李雨秋 男,(1998—),博士研究生。主要研究方向:計(jì)算機(jī)視覺、遙感圖像處理。

薛 健 男,(1979—),博士,教授,博士生導(dǎo)師。主要研究方向:數(shù)字圖像處理、科學(xué)計(jì)算可視化。

(通信作者)呂 科 男,(1971—),博士,教授,博士生導(dǎo)師。主要研究方向:計(jì)算機(jī)視覺、多媒體信息處理。

王 泳 男,(1975—),博士,講師。主要研究方向:復(fù)雜系統(tǒng)建模與優(yōu)化、模式識(shí)別、數(shù)據(jù)挖掘。

凤阳县| 出国| 同江市| 肥城市| 渝中区| 云林县| 天门市| 罗源县| 承德县| 庄浪县| 屏山县| 云林县| 龙海市| 西安市| 甘孜| 香河县| 福鼎市| 县级市| 饶阳县| 长春市| 萝北县| 五大连池市| 沈阳市| 辽宁省| 买车| 绥阳县| 蚌埠市| 高雄县| 苍溪县| 鹰潭市| 莆田市| 翼城县| 惠东县| 微博| 霍山县| 荃湾区| 礼泉县| 滦平县| 清水河县| 滁州市| 土默特右旗|