摘 要:針對(duì)目前遙感圖像目標(biāo)檢測算法中存在的誤檢、漏檢和檢測精度低等問題,提出了一種改進(jìn)YOLOv8 的遙感圖像檢測算法。在主干網(wǎng)絡(luò)中引入注意力機(jī)制EMA 到C2f 模塊,以提高模型對(duì)多尺度目標(biāo)的特征提取能力;在頸部網(wǎng)絡(luò)中提出Slim-PAN 結(jié)構(gòu),以減少模型計(jì)算量;使用WIOU 損失函數(shù)代替CIOU 損失函數(shù),以提升模型的檢測精度。通過在DIOR 和RSOD 遙感數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法與原YOLOv8 算法相比,mAP 分別提升了1. 5% 和2. 3% ,計(jì)算量降低了0. 3 GFLOPs,改進(jìn)算法在不增加計(jì)算量的同時(shí)能提高檢測精度,證明了改進(jìn)算法的有效性和先進(jìn)性。
關(guān)鍵詞:遙感圖像;目標(biāo)檢測;YOLOv8;注意力機(jī)制
中圖分類號(hào):TP391. 9 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
文章編號(hào):1003-3106(2024)05-1155-07
0 引言
遙感圖像是指通過衛(wèi)星、飛機(jī)或其他傳感器從遙遠(yuǎn)地面獲取的圖像數(shù)據(jù)。伴隨著科技的不斷進(jìn)步和應(yīng)用需求的不斷增加,遙感圖像在精準(zhǔn)農(nóng)業(yè)、地質(zhì)災(zāi)害檢測、城市規(guī)劃和軍事國防等多個(gè)領(lǐng)域都起到了重要作用[1]。對(duì)于遙感圖像而言,這些圖像中的目標(biāo)通常分布密集、尺度差異顯著,而且還會(huì)受光照、天氣和其他建筑的影響,檢測背景十分復(fù)雜,從而給檢測過程帶來一定的影響[2]。因此,降低誤檢率和漏檢率是此領(lǐng)域亟需解決的問題[3]。
目前,基于深度學(xué)習(xí)的目標(biāo)檢測算法根據(jù)有無候選區(qū)域分為2 類:一類是以R-CNN 系列(R-CNN[4]、Faster R-CNN[5]和Cascade R-CNN[6])為代表的雙階段目標(biāo)檢測算法;另一類是以YOLO[7]系列(YOLOv3[8]、YOLOv5 和YOLOv6[9])、SSD[10]、Cascade retinanet[11]和CenterNet[12]等為代表的單階段目標(biāo)檢測算法。單階段目標(biāo)檢測算法得到了更廣泛的應(yīng)用是由于它具有更快的識(shí)別速度。國內(nèi)外已有很多學(xué)者使用單階段目標(biāo)檢測算法在遙感圖像檢測領(lǐng)域取得了顯著的成績,Hou 等[13]將MS Trans-former 模塊與CBAM 注意力機(jī)制引入YOLOv5 中,形成新的R-YOLO 網(wǎng)絡(luò),提高了對(duì)遙感目標(biāo)的檢測精度。張上等[14]設(shè)計(jì)了一種能重構(gòu)特征提取與特征融合的LUSS-YOLO 網(wǎng)絡(luò)結(jié)構(gòu),使其能夠提高檢測精度。Wan 等[15]將多層特征金字塔、多檢測頭策略和混合注意力模塊放入到YOLOv5 中,形成新的YOLOHR 網(wǎng)絡(luò),提高了對(duì)光學(xué)遙感目標(biāo)的檢測精度。
雖然上述研究已經(jīng)找到了有效的方法來提高遙感圖像檢測的準(zhǔn)確性,但由于遙感圖像中目標(biāo)尺度變化范圍大且分布密集,容易出現(xiàn)漏檢、誤檢等情況,并且對(duì)于目標(biāo)的特征提取能力不足,導(dǎo)致檢測精度不高[16]。針對(duì)上述問題,本文以YOLOv8n 作為基線網(wǎng)絡(luò),進(jìn)行了一系列改進(jìn)和優(yōu)化。首先,在主干特征提取網(wǎng)絡(luò)中將注意力機(jī)制EMA[17]引入到C2f模塊中,構(gòu)成C2f_EMA 模塊,以提升網(wǎng)絡(luò)對(duì)遙感目標(biāo)的注意力;其次,在特征融合網(wǎng)絡(luò)中提出了SlimPAN 結(jié)構(gòu),在保證準(zhǔn)確性的前提下,降低了計(jì)算量;使用WIOU[18]損失函數(shù)替換原網(wǎng)絡(luò)中的CIOU[19]損失函數(shù),以提高檢測框的定位能力;最后,在DIOR[20]和RSOD[21]公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明改進(jìn)后的算法對(duì)分布密集且尺寸差異明顯的遙感目標(biāo)具有良好的檢測效果。
1 YOLOv8 算法
YOLOv8 模型是由Ultralytics 團(tuán)隊(duì)在2023 年1 月提出,本文選擇以YOLOv8n 網(wǎng)絡(luò)模型為基本框架,其模型結(jié)構(gòu)如圖1 所示,主要包括輸入端、主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部模塊。
輸入端:通過Mosaic 數(shù)據(jù)增強(qiáng)對(duì)圖片進(jìn)行隨機(jī)選擇、拼接和旋轉(zhuǎn)等操作,使模型能夠更好地適應(yīng)真實(shí)世界的復(fù)雜場景,具有更好的魯棒性和泛化能力,進(jìn)而提高模型在復(fù)雜背景下對(duì)目標(biāo)的檢測能力。
主干網(wǎng)絡(luò):主要由Conv 模塊、C2f 模塊、SPPF模塊組成。通過Conv 模塊可以改變圖像的分辨率和通道數(shù),實(shí)現(xiàn)更好的特征提??;C2f 模塊的核心思想是通過結(jié)合全局語義信息和局部目標(biāo)信息來更好地理解圖像,并使目標(biāo)檢測器更關(guān)注有意義的區(qū)域;SPPF 模塊能在同尺度上對(duì)特征進(jìn)行池化,以允許網(wǎng)絡(luò)在不同大小的輸入圖像上執(zhí)行目標(biāo)檢測,從而提高模型的感受野和魯棒性。
頸部網(wǎng)絡(luò):用于將來自不同層次或不同尺度的特征圖進(jìn)行融合,以提高模型在多尺度場景下的性能,這種融合機(jī)制可以提高模型的感受野,使得模型更適應(yīng)于處理多尺度的輸入圖像,從而增強(qiáng)了模型的魯棒性和泛化能力。
頭部模塊:采用解耦頭結(jié)構(gòu),將分類和檢測頭分離,同時(shí)將錨框換成了無錨框,減少了設(shè)計(jì)復(fù)雜性,提高了位置精度和模型的泛化能力,使其變得更加靈活。
2 改進(jìn)YOLOv8n 算法
本文以YOLOv8n 為基線模型,使用C2f_EMA模塊替換原始主干網(wǎng)絡(luò)中的部分C2f 模塊,提出Slim-PAN 結(jié)構(gòu)替換原始頸部網(wǎng)絡(luò)中的PAN 結(jié)構(gòu),最后采用WIOU 作為邊界框損失函數(shù)。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
2. 1 EMA 模塊
EMA 模塊是一種新的跨空間學(xué)習(xí)的高效多尺度注意力模塊,它能夠在保留每個(gè)通道上信息的同時(shí)將注意力放在感興趣的位置,其結(jié)構(gòu)如圖3 所示。
具體流程如下:首先,對(duì)于任何給定的輸入特征映射X,將跨通道維度方向X 劃分為G 個(gè)子特征,接下來利用2 條1×1 分支和一條3 ×3 分支來提取分組特征圖的注意力權(quán)重描述符。在1×1 分支中,通過2 個(gè)一維全局平均池化操作對(duì)通道進(jìn)行編碼,再連接2 個(gè)編碼特征之后采用1×1 卷積生成2 個(gè)并行的一維特征編碼向量并分別送入Sigmoid 函數(shù)中。然后通過簡單的乘法將每個(gè)組內(nèi)的通道注意力圖合并,以實(shí)現(xiàn)不同通道之間的交互特征。在3×3 分支中,采用3×3 的卷積操作旨在捕獲局部不同通道的互動(dòng)特征,從而擴(kuò)大特征空間。其次,引入了2 個(gè)張量。在1×1 分支中,用二維全局平均池化進(jìn)行全局空間信息編碼,注意在通道特征聯(lián)合激活機(jī)制前,將最小支路的輸出直接轉(zhuǎn)化為對(duì)應(yīng)的維度形狀。隨后用自然非線性函數(shù)Softmax 來擬合以上的線性變換。通過將并行處理后的輸出與矩陣點(diǎn)積相乘,來獲得一個(gè)空間注意力圖。在3×3 分支中,原理與1×1 分支相同。最后,將每組內(nèi)的輸出特征映射相加,從而生成2 個(gè)空間注意力權(quán)重值的集合,隨后使用Sigmoid 函數(shù)和簡單的乘法操作,使得EMA 的最終輸出與X 的大小相同。
通過將EMA 模塊引入到C2f 中,使模型更加關(guān)注于目標(biāo)區(qū)域位置信息,以提高對(duì)目標(biāo)區(qū)域的檢測精度,其結(jié)構(gòu)如圖4 所示。Sigmoid 函數(shù)和簡單的乘法操作,使得EMA 的最終輸出與X 的大小相同。
通過將EMA 模塊引入到C2f 中,使模型更加關(guān)注于目標(biāo)區(qū)域位置信息,以提高對(duì)目標(biāo)區(qū)域的檢測精度,其結(jié)構(gòu)如圖4 所示。
2. 2 SlimPAN 結(jié)構(gòu)
遙感圖像通常從無人機(jī)、飛機(jī)等輕量化設(shè)備中獲取,參數(shù)量和計(jì)算量較大的網(wǎng)絡(luò)模型在這些邊緣設(shè)備中難以應(yīng)用,因此本文提出了一種由GSConv[22]和VoVGSCSP[22]構(gòu)成的輕量化SlimPAN結(jié)構(gòu)。
為了使深度可分離卷積的結(jié)果盡可能地近似標(biāo)準(zhǔn)卷積,標(biāo)準(zhǔn)卷積和深度可分離卷積可以聯(lián)合使用,將普通卷積、深度可分離卷積混合起來,得到GSConv,其結(jié)構(gòu)如圖5 所示。
具體操作如下:首先,將輸入的圖片進(jìn)行標(biāo)準(zhǔn)卷積操作,得到通道數(shù)為c2 / 2 的特征圖A,接著對(duì)特征圖A 進(jìn)行深度可分離卷積操作,得到通道數(shù)為c2 / 2 的特征圖B。然后將特征圖A、B 進(jìn)行連接,形成特征圖C。最后,將特征圖C 進(jìn)行混洗操作,得到最后的輸出特征圖。從圖5 可以看出,GSConv 的計(jì)算成本約為Conv 的一半,但對(duì)模型的貢獻(xiàn)與標(biāo)準(zhǔn)卷積相當(dāng)?;冢牵樱茫铮睿?設(shè)計(jì)了GSbottleneck 模塊,并在此基礎(chǔ)上使用單階段聚合方法設(shè)計(jì)了跨階段局部網(wǎng)絡(luò)模塊VoVGSCSP,在降低了計(jì)算量和復(fù)雜度的同時(shí)保持了足夠的精度。其中,GS bottleneck 的結(jié)構(gòu)如圖6 所示,VoVGSCSP 的結(jié)構(gòu)如圖7 所示。
2. 3 損失函數(shù)
在原YOLOv8n 網(wǎng)絡(luò)中,計(jì)算預(yù)測框的坐標(biāo)損失所采用的是CIOU 損失函數(shù),其計(jì)算公式如下:
式中:wgt、hgt 表示真實(shí)框的寬和高,w、h 表示預(yù)測框的寬和高,ρ2(b,bgt )表示預(yù)測框與真實(shí)框中心點(diǎn)之間的歐式距離,IoU 表示真實(shí)框與預(yù)測框交并比,C表示預(yù)測框與真值框的最小外接矩陣的對(duì)角線長度,α 表示權(quán)重,v 表示衡量長寬比一致性的參數(shù)。
雖然CIOU 在DIOU 的懲罰項(xiàng)基礎(chǔ)上添加了一個(gè)影響因子αν,但是,當(dāng)影響因子中的v = 0 時(shí),此時(shí)長寬比的懲罰項(xiàng)為0,于是提出單調(diào)靜態(tài)聚焦機(jī)制,引入WIOU 損失函數(shù)。其計(jì)算公式如下:
式中:Wg、Hg 表示最小包圍框的寬和高,r 表示梯度增益。
3 實(shí)驗(yàn)
3. 1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
實(shí)驗(yàn)環(huán)境為64 位Windows 11 操作系統(tǒng)下搭建的Pytorch 2. 0. 1 深度學(xué)習(xí)框架,Python3. 8 以及CU-DA 11. 7 編程軟件。計(jì)算機(jī)CPU 為AMD Ryzen 97945HX,GPU 為NVIDIA GeForce RTX 4060,顯存為8 GB,內(nèi)存為16 GB,訓(xùn)練選用的batch-size 為8,epochs 為200。
3. 2 數(shù)據(jù)集
為驗(yàn)證算法的可行性,本文在DIOR 遙感數(shù)據(jù)集和RSOD 遙感數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。其中,DIOR 數(shù)據(jù)集是一個(gè)用于光學(xué)遙感圖像目標(biāo)檢測的大規(guī)?;鶞?zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集包含23 463 張圖像和192 472 個(gè)實(shí)例,涵蓋20 個(gè)對(duì)象類。RSOD 數(shù)據(jù)集是一個(gè)開放的、用于遙感圖像目標(biāo)檢測的公開數(shù)據(jù)集,該數(shù)據(jù)集包含946 張圖像和6 950 個(gè)實(shí)例,包括4 個(gè)對(duì)象類。這4 個(gè)對(duì)象類是飛機(jī)、操場、立交橋和油箱,其中由于操場圖像中包含40 張無標(biāo)注圖像,本文只使用149 張標(biāo)注過的操場圖像。在實(shí)驗(yàn)中,按照7 ∶ 2 ∶ 1的比例隨機(jī)的將數(shù)據(jù)分成訓(xùn)練集、驗(yàn)證集和測試集,以進(jìn)行實(shí)驗(yàn)。
3. 3 性能評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)評(píng)價(jià)指標(biāo)采用精密度(Precision,P)、回收率(Recall,R)、平均測量精度(mAP)、浮點(diǎn)運(yùn)算次數(shù)(Giga Floating-point Operations Per Second,GFLOPs)對(duì)改進(jìn)后的網(wǎng)絡(luò)進(jìn)行評(píng)估。P、R、mAP 計(jì)算如下:
式中:TP 表示模型預(yù)測為正向的正樣本,FP 表示模型預(yù)測為正向的負(fù)樣本,FN 表示模型預(yù)測為負(fù)向的正樣本,即漏檢數(shù);APi 表示對(duì)數(shù)據(jù)集中的某一種類別求平均精度,k 表示數(shù)據(jù)集中所有類別的數(shù)目。
3. 4 消融實(shí)驗(yàn)
為了分析每個(gè)模塊對(duì)原網(wǎng)絡(luò)的作用和有效性,通過設(shè)計(jì)4 組消融實(shí)驗(yàn)來分別評(píng)估使用C2f_EMA模塊、Slim-PAN 結(jié)構(gòu)、WIOU 損失函數(shù)對(duì)YOLOv8n的改進(jìn)效果,結(jié)果如表1 所示。分析表1 實(shí)驗(yàn)數(shù)據(jù)可知,原YOLOv8n 的P、R、mAP、GFLOPs 分別為89% 、79. 3% 、85. 5% 、8. 9。加入C2f_EMA 模塊后,R 和mAP 均有不同程度的提升,說明C2f_EMA 模塊有助于更好地聚焦于網(wǎng)絡(luò)關(guān)注的地方,從而克制對(duì)無關(guān)的背景信息的關(guān)注。用SlimPAN 結(jié)構(gòu)改進(jìn)PAN結(jié)構(gòu),減少了計(jì)算量的同時(shí)使得P 提高了0. 2% ,R 提高了0. 8% ,mAP 提高了0. 8% ,說明SlimPAN 結(jié)構(gòu)能在實(shí)現(xiàn)輕量化的同時(shí)提高準(zhǔn)確率、召回率和平均精度均值;用WIOU 損失函數(shù)替換CIOU 損失函數(shù),P 下降了0. 8% ,R 提高了1. 7% ,mAP 提高了1. 2% ,說明WIOU 損失函數(shù)以降低準(zhǔn)確率為代價(jià)大大提升了召回率和平均精度均值;同時(shí)添加C2f_EMA 模塊、Slim-PAN 結(jié)構(gòu)以及WIOU 損失函數(shù)后,P 提高了0. 5% ,R 提高了1. 2% ,mAP 提高了1. 5% ,GFLOPs減少了0. 3,取得了最優(yōu)改進(jìn)。
3. 5 對(duì)比實(shí)驗(yàn)
為了證明所提模型的優(yōu)勢,在其余所有條件都不變的前提下,利用DIOR 公開遙感數(shù)據(jù)集在YOLOv3、YOLOv5、YOLOv6、YOLOv8n 以及改進(jìn)的YOLOv8n 網(wǎng)絡(luò)進(jìn)行了對(duì)比試驗(yàn),結(jié)果如表2 所示。
從表2 可以看出,YOLOv8n 網(wǎng)絡(luò)的P、R、mAP指標(biāo)要明顯優(yōu)于其他經(jīng)典YOLO 模型,而改進(jìn)的YOLOv8n 網(wǎng)絡(luò)在計(jì)算量低于原YOLOv8n 網(wǎng)絡(luò)的前提下,其P、R、mAP 均有不同程度的提升,既實(shí)現(xiàn)了網(wǎng)絡(luò)的輕量化又提升了對(duì)遙感圖像中目標(biāo)的檢測精度,證明了本文改進(jìn)方法的有效性。
為了充分反映本文方法的適用性,設(shè)置相同的訓(xùn)練參數(shù),將改進(jìn)后的YOLOv8n 網(wǎng)絡(luò)在RSOD 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如表3 所示。
分析表3 實(shí)驗(yàn)數(shù)據(jù)可知,改進(jìn)YOLOv8n 網(wǎng)絡(luò)的P 提高了0. 4% ,R 提高了5. 3% ,mAP 提高了2. 3% ,計(jì)算量GFLOPs 減少了0. 3,證明了本文改進(jìn)方法的適用性。
本文對(duì)DIOR 數(shù)據(jù)集中檢測效果具有代表性的幾類場景進(jìn)行改進(jìn)前后檢測效果的可視化效果進(jìn)行了展示,如圖8 所示。其中,圖8 (a)1、圖8 (a)3、圖8(b)1、圖8 (b)3、圖8 (c)1、圖8 (c)3 為原YOLOv8n 算法檢測效果圖,圖8 (a)2、圖8 (a)4、圖8(b)2、圖8(b)4、圖8(c)2、圖8(c)4 為改進(jìn)后的YOLOv8n 算法檢測效果圖。由圖8(a)1、圖8(a)2 的檢測效果可知,在待檢測目標(biāo)分布密集且尺度變化范圍大的情況下,改進(jìn)后的算法有效地解決了對(duì)于紅框處海港的漏檢問題并且提升了對(duì)海港這種大目標(biāo)的檢測精度。由圖8(a)3、圖8(a)4 的檢測效果可知,在背景復(fù)雜且待檢測目標(biāo)尺度變化范圍大的情況下,改進(jìn)后的算法有效地解決了對(duì)于紅圈處車輛的漏檢。由圖8(b)1、圖8(b)2 的檢測效果對(duì)比可知,在待檢測目標(biāo)分布密集的情況下,原始YOLOv8n 算法錯(cuò)誤地將房屋陰影處識(shí)別為車輛,而改進(jìn)后的YOLOv8n 算法有效地解決了誤檢問題。由圖8(b)3、圖8(b)4 的檢測效果對(duì)比可知,在待檢測目標(biāo)分布密集且尺度變化范圍大的情況下,改進(jìn)后的算法完美地解決了對(duì)于天橋這種大目標(biāo)的誤檢。圖8(c)1、圖8(c)2、圖8(c)3、圖8(c)4 的檢測結(jié)果表明,在背景復(fù)雜且目標(biāo)尺度變化范圍大的情況下,改進(jìn)后的算法相比原始YOLOv8n 算法檢測精度更高,檢測效果更好??傮w上來說,改進(jìn)后的算法既解決了目標(biāo)被漏檢或誤檢的問題又提升了檢測精度,體現(xiàn)了該算法的有效性。
4 結(jié)束語
針對(duì)復(fù)雜背景下遙感圖像目標(biāo)分布密集、尺度變化范圍較大的檢測難題,將注意力機(jī)制EMA 引入到主干網(wǎng)絡(luò)部分C2f 模塊中,從而加強(qiáng)網(wǎng)絡(luò)在復(fù)雜背景下對(duì)目標(biāo)的注意力;提出了Slim-PAN 的結(jié)構(gòu),使不同尺度之間的特征相互融合,既實(shí)現(xiàn)了網(wǎng)絡(luò)的輕量化又提升了對(duì)遙感目標(biāo)的檢測精度;使用WIOU 損失函數(shù)來替換原網(wǎng)絡(luò)中的CIOU 損失函數(shù),解決了當(dāng)預(yù)測框與真實(shí)框重合時(shí)懲罰項(xiàng)失靈的問題,提高了定位框的準(zhǔn)確度。在DIOR 數(shù)據(jù)集和RSOD 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),改進(jìn)后的YOLOv8n 網(wǎng)絡(luò)比原YOLOv8n 網(wǎng)絡(luò)的準(zhǔn)確率、召回率、平均精度均值分別提高了0. 5% 和0. 4% 、1. 2% 和5. 3% 、1. 5%和2. 3% ,且計(jì)算量GFLOPs 降低了0. 3,證明了改進(jìn)算法既具有適用性又具有有效性。鑒于DIOR 數(shù)據(jù)集和RSOD 數(shù)據(jù)集主要包含白天或晴天的遙感圖像,晚上、霧天和雨天等惡劣天氣環(huán)境下的圖像很少,因此未來將在惡劣天氣下收集相關(guān)遙感圖像并加入DIOR 和RSOD 數(shù)據(jù)集中,以增強(qiáng)網(wǎng)絡(luò)在惡劣環(huán)境下的魯棒性和泛化性。
參考文獻(xiàn)
[1] 李阿標(biāo),郭浩,戚暢,等. 復(fù)雜背景下遙感圖像密集目標(biāo)檢測[J]. 計(jì)算機(jī)工程與應(yīng)用,2023,59(8):247-253.
[2] 余俊宇,劉孫俊,許桃. 融合注意力機(jī)制的YOLOv7 遙感小目標(biāo)檢測算法研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2023,59(20):167-175.
[3] 付涵,范湘濤,嚴(yán)珍珍,等. 基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測技術(shù)研究進(jìn)展[J]. 遙感技術(shù)與應(yīng)用,2022,37(2):290-305.
[4] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Se-mantic Segmentation[C]∥Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:580-587.
[5] GIRSHICK R. Fast RCNN [C ]∥ Proceedings of theIEEE International Conference on Computer Vision. Santiago:IEEE,2015:1440-1448.
[6] CAI Z W,VASCONCELOS N. Cascade RCNN:Delvinginto High Quality Object Detection[C]∥ Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition. Salt Lake City:IEEE,2018:6154-6162.
[7] REDMON J,DIVVALA S,GIRSHICK R,et al. You OnlyLook Once:Unified,Realtime Object Detection [C]∥Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR ). Las Vegas:IEEE,2016:779-788.
[8] REDMON J,FARHADI A. YOLOv3:An Incremental Improvement[EB / OL]. (2018 - 04 - 08)[2023 - 09 - 04].https:∥arxiv. org / abs / 1804. 02767.
[9] LI C Y,LI L L,JIANG H L,et al. YOLOv6:A Singlestage Object Detection Framework for Industrial Applications[J]. (2022 - 09 - 07 )[2023 - 12 - 04 ]. https:∥arxiv. org / abs / 2209. 02976.
[10] LIU W,ANGUELOV D,ERHAN D,et al. SSD:Single ShotMultibox Detector[C]∥Computer VisionECCV 2016:14thEuropean Conference. Amsterdam:ECCV,2016:21-37.
[11] ZHANG H K,CHANG H,MA B P,et al. Cascade Retinanet:Maintaining Consistency for Singlestage ObjectDetection[J]. (2019-07-16)[2023 -09 -04]. https:∥arxiv. org / abs / 1907. 06881.
[12] DUAN K W,BAI S,XIE L X,et al. Centernet:KeypointTriplets for Object Detection [C]∥ Proceedings of theIEEE / CVF International Conference on Computer Vision.Seoul:IEEE,2019:6568-6577.
[13] HOU Y J,SHI G,ZHAO Y X,et al. RYOLO:A YOLObased Method for Arbitraryoriented Target Detection inHighresolution Remote Sensing Images [J ]. Sensors,2022,22(15):5716.
[14] 張上,張?jiān)?,王恒濤,等?輕量化無人機(jī)遙感圖像小目標(biāo)檢測算法[J]. 無線電工程,2023,53(10):2329-2336.
[15] WAN D H,LU R S,WANG S L,et al. YOLOHR:Improved YOLOv5 for Object Detection in HighresolutionOptical Remote Sensing Images [J ]. Remote Sensing,2023,15(3):614.
[16] 梁秀滿,賈梓涵,于海峰,等. 基于改進(jìn)YOLOv7 的無人機(jī)圖像目標(biāo)檢測算法[J / OL]. (2023 -10 -17)[2023 -12 - 04 ]. http:∥ kns. cnki. net / kcms / detail / 13. 1097.TN. 20231013. 1804. 010. html.
[17] OUYANG D L,HE S,ZHANG G Z,et al. Efficient Multiscale Attention Module with Crossspatial Learning[C]∥ICASSP 2023 - 2023 IEEE International Conference onAcoustics,Speech and Signal Processing (ICASSP ).Rhodes Island:IEEE,2023:1-5.
[18] TONG Z J,CHEN Y H,XU Z W,et al. WiseIoU:Bounding Box Regression Loss with Dynamic FocusingMechanism[EB / OL]. (2023 -01 -24)[2023 -12 -04].https:∥arxiv. org / abs / 2301. 10051.
[19] ZHENG Z H,WANG P,REN D W,et al. Enhancing Geometric Factors in Model Learning and Inference for ObjectDetection and Instance Segmentation [J ]. IEEETransactions on Cybernetics,2021,52(8):8574-8586.
[20] LI K,WAN G,CHENG G,et al. Object Detection inOptical Remote Sensing Images:A Survey and a NewBenchmark[J]. ISPRS Journal of Photogrammetry andRemote Sensing,2020,159:296-307.[21] LONG Y,GONG Y P,XIAO Z F,et al. 。Accurate ObjectLocalization in Remote Sensing Images Based on Convolutional Neural Networks[J]. IEEE Transactions on Geoscience and Remote Sensing,2017,55(5):2486-2498.
[22] LI H L,LI J,WEI H B,et al. Slimneck by GSConv:ABetter Design Paradigm of Detector Architectures for Autonomous Vehicles[EB / OLJ]. (2022 - 08 - 17)[2023 -12-04]. https:∥arxiv. org / abs / 2206. 02424.
作者簡介
程換新 男,(1966—),博士,教授,碩士生導(dǎo)師。主要研究方向:人工智能、先進(jìn)控制、機(jī)器視覺。
矯立浩 男,(1999—),碩士研究生。主要研究方向:人工智能、深度學(xué)習(xí)、目標(biāo)檢測。
(*通信作者)駱曉玲 女,(1966—),博士,教授,碩士生導(dǎo)師。主要研究方向:過程裝備自動(dòng)化的優(yōu)化設(shè)計(jì)。
于沙家 女,(1986—),碩士,講師。主要研究方向:人工智能、先進(jìn)控制技術(shù)。
基金項(xiàng)目:國家自然科學(xué)基金(62273192)