鄒華宇 王劍 刁悅欽 山子岐 史小兵
基金項(xiàng)目:國(guó)家級(jí)創(chuàng)新項(xiàng)目(批準(zhǔn)號(hào):KKPT202103005)資助的課題。
作者簡(jiǎn)介:鄒華宇(1993-),高級(jí)工程師,從事深度學(xué)習(xí)、計(jì)算機(jī)視覺目標(biāo)檢測(cè)的研究。
通訊作者:王劍(1976-),副教授,從事圖像處理、自然語(yǔ)言處理方向的研究,1528906057@qq.com。
引用本文:鄒華宇,王劍,刁悅欽,等.基于視覺注意和語(yǔ)義信息特征融合的遙感圖像目標(biāo)檢測(cè)方法[J].化工自動(dòng)化及儀表,2024,51(3):379-387;395.
DOI:10.20030/j.cnki.1000?3932.202403002
摘 要 針對(duì)遙感圖像目標(biāo)檢測(cè)方法中存在的特征提取不充分、語(yǔ)義信息表達(dá)能力弱、小目標(biāo)檢測(cè)準(zhǔn)確率低和定位不準(zhǔn)確的問題,提出了一種基于YOLOv5和Swin Transformer的改進(jìn)策略。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)方法以及其他改進(jìn)策略方法相比,文中的方法在公共數(shù)據(jù)集DOTA和自建數(shù)據(jù)集SkyView上均表現(xiàn)出更高的檢測(cè)準(zhǔn)確率,性能優(yōu)勢(shì)顯著。
關(guān)鍵詞 遙感圖像目標(biāo)檢測(cè) 多尺度特征融合 坐標(biāo)注意力機(jī)制 Swin Transformer
中圖分類號(hào) TP393.08?? 文獻(xiàn)標(biāo)志碼 A?? 文章編號(hào) 1000?3932(2024)03?0379?10
目標(biāo)檢測(cè)問題作為計(jì)算機(jī)視覺工程的基礎(chǔ),是計(jì)算機(jī)視覺領(lǐng)域的核心任務(wù)之一,其在工業(yè)領(lǐng)域中具有巨大的實(shí)用價(jià)值,例如遙感影像分析、醫(yī)療健康檢查等[1]。
遙感圖像目標(biāo)檢測(cè)是指在遙感圖像中自動(dòng)識(shí)別和定位目標(biāo)物體的過程,其應(yīng)用范圍廣泛,涉及城市規(guī)劃、農(nóng)業(yè)、軍事及國(guó)防安全等諸多領(lǐng)域。然而,遙感圖像目標(biāo)檢測(cè)在實(shí)際應(yīng)用過程中存在一些弊端:首先,遙感圖像的目標(biāo)物體往往比較小,且目標(biāo)與背景之間的差異較小,增加了目標(biāo)檢測(cè)的難度;其次,遙感圖像中存在大量的干擾因素,如云層、陰影及反射等,這些因素都會(huì)影響目標(biāo)檢測(cè)的準(zhǔn)確性和效率;最后,在實(shí)際應(yīng)用中還需要考慮到算法的實(shí)時(shí)性、魯棒性等問題。因此,遙感圖像的目標(biāo)檢測(cè)仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
在深度學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、Transformer等模型被廣泛應(yīng)用于遙感圖像目標(biāo)檢測(cè)中。其中,基于CNN的網(wǎng)絡(luò)在抽取底層特征方面(如針對(duì)小目標(biāo)檢測(cè)的RetinaNet[2]、針對(duì)旋轉(zhuǎn)目標(biāo)的檢測(cè)[3]等)具有顯著優(yōu)勢(shì)。與CNN相比,基于Transformer的檢測(cè)技術(shù)能夠?qū)崿F(xiàn)更好的視覺建模,因?yàn)樗鼰o需像CNN一樣手動(dòng)設(shè)計(jì)卷積核大小、步長(zhǎng)等超參數(shù),通過自注意力機(jī)制[4]即可實(shí)現(xiàn)全局信息的交互和建模,能夠更好地捕捉遙感圖像中目標(biāo)之間的關(guān)聯(lián)性和上下文信息,從而提高目標(biāo)檢測(cè)的準(zhǔn)確率[5,6]。
在此,筆者提出一種適用于遙感圖像中小目標(biāo)檢測(cè)的網(wǎng)絡(luò)模型,該模型基于Swin Transformer[7]和YOLOv5[8]網(wǎng)絡(luò)的組合,通過引入坐標(biāo)注意力機(jī)制(Coordinate Attention,CA)[9]和卷積塊注意模塊(Convolutional Block Attention Module,CBAM)[10],在減少網(wǎng)絡(luò)計(jì)算開銷的同時(shí)關(guān)注更大的區(qū)域。同時(shí),通過改進(jìn)K?means聚類算法,使其生成更適合遙感圖像的錨框,從而提高檢測(cè)結(jié)果的召回率并加快模型的收斂速度。
1 模型基礎(chǔ)
1.1 YOLOv5
目前,主流的目標(biāo)檢測(cè)算法主要分為單階段和兩階段兩種策略。其中,基于候選框的兩階段方法例如R?CNN[11]、Faster RCNN[12]及Cascade
RCNN[13]等,其實(shí)現(xiàn)過程為:首先,對(duì)感興趣的區(qū)域進(jìn)行候選框獲取,然后利用CNN網(wǎng)絡(luò)生成對(duì)應(yīng)的特征圖,對(duì)候選框進(jìn)行分類識(shí)別和邊框回歸從而完成目標(biāo)檢測(cè)。這類方法檢測(cè)精度較高,但計(jì)算量較大,不適合實(shí)時(shí)應(yīng)用?;诨貧w的單階段方法如SSD[14]、YOLO系列等,此類方法將整個(gè)檢測(cè)過程簡(jiǎn)化為一個(gè)回歸問題,直接預(yù)測(cè)每個(gè)網(wǎng)格或錨點(diǎn)框內(nèi)是否存在目標(biāo)及其位置信息,這類算法通常收斂速度較快、計(jì)算復(fù)雜度較低、檢測(cè)實(shí)時(shí)性較強(qiáng)。尤其是YOLOv5,其在計(jì)算速度和精度方面都具有顯著優(yōu)勢(shì)。
1.2 Swin Transformer
自注意力機(jī)制通過對(duì)輸入序列中不同位置的元素之間的關(guān)系進(jìn)行建模,從而實(shí)現(xiàn)對(duì)全局信息的建模和提取。2017年,Google研究團(tuán)隊(duì)基于自注意力機(jī)制提出了Transformer[15]架構(gòu),隨即在自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的序列建模、機(jī)器翻譯等任務(wù)上顯示出了巨大優(yōu)勢(shì)。隨后,研究學(xué)者通過將CNN中成功的先驗(yàn)知識(shí)引入Transformer中,實(shí)現(xiàn)了局部性、層次化、多尺度、殘差連接及歸納偏置等設(shè)計(jì)。2018年,文獻(xiàn)[16]首次將Transformer應(yīng)用于計(jì)算機(jī)視覺領(lǐng)
域。2021年,目標(biāo)檢測(cè)模型DETR和圖像分類模
型[17]的提出成為了Transformer高速發(fā)展的開端,其中Swin Transformer是將Transformer引入目標(biāo)檢測(cè)領(lǐng)域的一次成功嘗試。以上算法可通過直接比較所有位置或時(shí)間的特征來建立全局信息模型,在圖像分類、目標(biāo)檢測(cè)、分割等任務(wù)中取得了良好的效果,為計(jì)算機(jī)視覺領(lǐng)域的各種問題提供了一種新的解決方案。
盡管Transformer模型在處理全局信息方面表現(xiàn)出色,但是它們可能會(huì)忽略一部分局部信息,對(duì)遙感目標(biāo)不敏感,導(dǎo)致對(duì)小物體目標(biāo)的檢測(cè)效果不佳。為了獲得更好的性能表現(xiàn),筆者聯(lián)合使用CNN和Transformer,并集成了Swin Transformer和YOLOv5網(wǎng)絡(luò),以提高模型的檢測(cè)精度和魯棒性。
2 網(wǎng)絡(luò)模型的建立
2.1 網(wǎng)絡(luò)整體架構(gòu)
遙感圖像目標(biāo)檢測(cè)方法結(jié)構(gòu)框架如圖1所示。其中,輸入部分用于對(duì)圖像進(jìn)行預(yù)處理,以增強(qiáng)網(wǎng)絡(luò)的魯棒性、提高檢測(cè)精度。在骨干網(wǎng)絡(luò)部分,通過CBS、C3和SPPF(空間金字塔池化模
塊)[18]3種結(jié)構(gòu)從預(yù)處理的輸入圖像中提取豐富的特征信息。其中,CBS負(fù)責(zé)對(duì)輸入特征進(jìn)行卷積、歸一化和激活操作;C3結(jié)構(gòu)作為一個(gè)簡(jiǎn)化的瓶頸CSP,包含3個(gè)CBS層和多個(gè)瓶頸模塊,有助于進(jìn)一步提取特征;SPPF用于實(shí)現(xiàn)局部特征和全局特征的融合,提升特征表達(dá)能力。在骨干網(wǎng)絡(luò)末尾,添加基于Swin Transformer的改進(jìn)CSPDarknet53[19]網(wǎng)絡(luò),通過引入自注意力機(jī)制提高特征提取能力。頸部部分采用路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)[20]結(jié)構(gòu)進(jìn)行特征融合,用于聚合骨干部分不同檢測(cè)層的參數(shù),實(shí)現(xiàn)自上而下的路徑傳遞語(yǔ)義特征,自下而上的路徑傳遞定位特征。此外,使用雙向特征金字塔網(wǎng)絡(luò)(Bi?directional Feature Pyramid Network,BiFPN)[21]將特征融合層擴(kuò)展到4個(gè)尺度的檢測(cè)分支結(jié)構(gòu),從而提高檢測(cè)性能。在檢測(cè)部分,使用CIoU[22]作為損失函數(shù)。與傳統(tǒng)的IoU損失函數(shù)相比,CIoU損失函數(shù)同時(shí)考慮了邊界框的重疊程度、中心點(diǎn)偏移和長(zhǎng)寬比例差異,因此能夠提高預(yù)測(cè)邊界框回歸的速度和精度。
網(wǎng)絡(luò)整體架構(gòu)是由多個(gè)模塊組成的深度神經(jīng)網(wǎng)絡(luò),用于識(shí)別圖像中的物體并為它們提供分類標(biāo)簽(Class)和邊界框(Bbox),并利用上采樣(Upsample)和拼接(Concat)操作結(jié)合不同層次的特征,以提高模型預(yù)測(cè)精度。
2.2 K?means聚類算法的改進(jìn)
錨框是一種常用的目標(biāo)檢測(cè)方法,用于在輸入圖像中生成一組候選區(qū)域。為了在具體的數(shù)據(jù)集上更好地匹配目標(biāo)特征,需要考慮該數(shù)據(jù)集所有錨框的尺度分布情況,從而選取合適的錨框,以便穩(wěn)定模型訓(xùn)練并加快收斂速度。YOLOv5使用K?means聚類算法來生成錨框。該算法的思想是將所有訓(xùn)練集的邊界框分成若干簇,根據(jù)各簇的中心點(diǎn)生成錨框。然而,傳統(tǒng)的K?means聚類算法存在一些缺點(diǎn),例如需要手動(dòng)確定K值即簇的數(shù)量,需要使用歐氏距離來度量邊界框之間的相似性,這在長(zhǎng)寬比不同的邊界框中可能無法體現(xiàn)出它們之間的相似性。為此,筆者提出采用Elbow Method和Silhouette Method自動(dòng)確定最佳K值,這將有助于選取更適合的錨框數(shù)量,從而提高模型性能;使用CIoU指數(shù)代替歐氏距離作為相似性指標(biāo),它綜合了邊界框的重疊程度、長(zhǎng)寬比和中心點(diǎn)距離。CIoU損失L的計(jì)算式如下:
L=1-IoU++αv(1)
α=(2)
v=arctan
-arctan
(3)
其中,IoU代表交并比;ρ代表兩個(gè)中心點(diǎn)之間的歐氏距離;b和b分別代表預(yù)測(cè)框和真實(shí)框的中心點(diǎn)坐標(biāo);c代表對(duì)角線長(zhǎng)度;α代表長(zhǎng)寬比失衡的懲罰項(xiàng);v代表長(zhǎng)寬比失衡程度;αv是一個(gè)常數(shù),用于對(duì)誤差進(jìn)行懲罰;w、h與w、h分別代表預(yù)測(cè)框與真實(shí)框的寬度、高度。
使用CIoU指數(shù)作為相似性指標(biāo),可以更準(zhǔn)確地度量邊界框之間的相似性,從而在K?means聚類過程中得到更準(zhǔn)確的錨框,這將有助于提高YOLOv5在目標(biāo)檢測(cè)任務(wù)中的性能。
2.3 引入注意力機(jī)制的特征加強(qiáng)網(wǎng)絡(luò)
2.3.1 注意力機(jī)制
在目標(biāo)檢測(cè)任務(wù)中,模型需要對(duì)不同目標(biāo)物體的特征進(jìn)行不同的關(guān)注。如果模型對(duì)所有特征圖的關(guān)注程度相同,則會(huì)影響模型的收斂速度。因此,如何快速且有效地提取重要特征對(duì)于模型至關(guān)重要。
CBAM(圖2)是一種用于深度卷積神經(jīng)網(wǎng)絡(luò)的輕量級(jí)注意力模塊,作為特征增強(qiáng)網(wǎng)絡(luò)的輸入,主要負(fù)責(zé)連接主干特征提取網(wǎng)絡(luò)和特征增強(qiáng)網(wǎng)絡(luò),從而提高模型性能。CBAM主要包含兩部分:通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)。其中,γ、λ、ω是多層感知器中的權(quán)重參數(shù),代表不同層的學(xué)習(xí)參數(shù)。通過這種注意力機(jī)制,網(wǎng)絡(luò)能夠更加專注于圖像的關(guān)鍵區(qū)域,從而在圖像分類、目標(biāo)檢測(cè)等任務(wù)中取得更好的結(jié)果。
在遙感圖像中,小物體占用的像素較少,容易受到復(fù)雜場(chǎng)景的影響。因此,在CBAM的基礎(chǔ)上增加一個(gè)CA模塊(圖3),用于增強(qiáng)對(duì)位置信息的關(guān)注度,這樣能夠以較小的計(jì)算代價(jià)在更充分的信息基礎(chǔ)上學(xué)習(xí)表示,從而提高模型性能。
r——衰減率,用于減少參數(shù); C——通道數(shù);
H——特征圖的高度;??? W——特征圖的寬度
通過CA模塊的加權(quán)相乘操作,神經(jīng)網(wǎng)絡(luò)可以更加有效地學(xué)習(xí)輸入數(shù)據(jù)的關(guān)鍵特征,并提高模型在任務(wù)上的性能。具體實(shí)現(xiàn)步驟如下:
a. 將輸入特征圖分別送入兩個(gè)分支,生成通道向量和位置向量;
b. 將位置向量和通道向量相互作用,生成一個(gè)加權(quán)的注意力矩陣;
c. 使用注意力矩陣對(duì)輸入的特征進(jìn)行加權(quán),以生成最終的特征表示,并將其傳遞給后續(xù)的網(wǎng)絡(luò)層進(jìn)行分類或其他任務(wù)。
在此過程中,CA自適應(yīng)學(xué)習(xí)不同坐標(biāo)位置的相關(guān)性,從而增強(qiáng)特征表示能力。
2.3.2 雙向加權(quán)特征融合
YOLOv5目標(biāo)檢測(cè)模型的Neck組件采用PANet結(jié)構(gòu)以實(shí)現(xiàn)多尺度特征融合。然而,PANet結(jié)構(gòu)在特征圖融合方面使用相對(duì)簡(jiǎn)單的張量拼接方法,并未考慮不同尺度特征圖對(duì)網(wǎng)絡(luò)檢測(cè)效果的影響。為了解決這些問題并提高特征融合的質(zhì)量與效率,針對(duì)原特征金字塔網(wǎng)絡(luò)的局限性,引入雙向加權(quán)特征金字塔網(wǎng)絡(luò)BiFPN(圖4)。相較于PANet結(jié)構(gòu),BiFPN通過雙向特征傳遞和特征加權(quán)機(jī)制可以實(shí)現(xiàn)高效的多尺度特征融合,并且可以在不損失檢測(cè)精度的情況下大幅減少模型的參數(shù)量和計(jì)算量。
P~P——不同層級(jí)主干網(wǎng)絡(luò)中不同分辨率的輸出
首先,BiFPN刪除了只有單個(gè)輸入的節(jié)點(diǎn),減少了一些冗余計(jì)算,從而提高網(wǎng)絡(luò)的計(jì)算效率。其次,BiFPN在同一尺寸的特征圖上增加了跳躍連接,使得特征融合時(shí)能夠獲得更多的特征;在特征融合方面,BiFPN選擇引用權(quán)重對(duì)特征進(jìn)行加權(quán)融合,從而提高了特征融合的質(zhì)量、準(zhǔn)確性和效率。最后,在權(quán)值歸一化方面,BiFPN采用一種精度與softmax相近但速度比其快30%的歸一化方法,進(jìn)一步提高網(wǎng)絡(luò)的收斂速度和計(jì)算效率。模型輸出特征O的計(jì)算式為:
O=·I(4)
其中,I表示輸入特征;ε是一個(gè)極小的值,為避免歸一化計(jì)算中數(shù)值不穩(wěn)定,ε通常設(shè)置為0.000 1;ω表示學(xué)習(xí)到的權(quán)重值,并用激活函數(shù)ReLU確保ω≥0。
改進(jìn)的網(wǎng)絡(luò)采用跨尺度連接和加權(quán)特征融合,將從主干網(wǎng)絡(luò)提取的3種尺度不同的特征P、P、P作為輸入。以P層為例,改進(jìn)的特征融合計(jì)算過程如下:
P=Conv
(5)
P=Conv
(6)
其中,P表示“自頂而下”的中間特征;P表示“自底向上”的輸出特征;Conv(·)表示卷積操作;Resize(·)表示對(duì)特征層尺度進(jìn)行修改,即上采樣或下采樣;ω′、ω′、ω′表示不同輸入特征層的權(quán)重,這些權(quán)重用于加權(quán)融合不同分辨率的特征層,在雙向特征金字塔網(wǎng)絡(luò)(BiFPN)中進(jìn)行特征整合。
2.4 Swin Transformer模型
在計(jì)算機(jī)視覺領(lǐng)域,Transformer通過注意力機(jī)制捕獲全局信息并建立目標(biāo)的遠(yuǎn)距離依賴,從而提取更強(qiáng)有力的特征。然而,Transformer在實(shí)際使用過程中面臨兩大挑戰(zhàn):物體尺度變化大,圖像像素點(diǎn)眾多。在目標(biāo)檢測(cè)和語(yǔ)義分割等任務(wù)中,物體的大小可能在5%~95%甚至更大的范圍內(nèi)變化,在這種情況下,多尺度分層特征圖是至關(guān)重要的。此外,對(duì)于像素點(diǎn)多的密集預(yù)測(cè)任務(wù),若把像素點(diǎn)作為token,序列長(zhǎng)度將變得極大,同時(shí)由于計(jì)算成本與圖像大小的平方成正比,導(dǎo)致Transformer難以處理高分辨率圖像。
為了解決上述問題,在連續(xù)的兩個(gè)Swin Transformer Block(圖5)中采用不同的MSA模塊,其主要由歸一化層(Layer Normalization,LN)、多
頭自注意力模塊(Multi?head Self?Attention,
MSA)、殘差連接和多層感知機(jī)(Multi?Layer Perceptron,MLP)組成。其中,z表示輸入或輸出特征表示的序列,例如z表示第l-1層的輸出特征(或第l層的輸入特征),[z][^]表示第l層之后的特征表示。
首先,采用基于窗口的多頭自注意力(Window?based Multi?head Self?Attention,W?MSA)模塊將輸入圖像分割為不重疊的窗口,每個(gè)窗口內(nèi)的像素點(diǎn)或圖像塊(例如分割后的小尺寸圖像塊)將被視為獨(dú)立的輸入序列。然后,在這些窗口中進(jìn)行局部自注意力計(jì)算,使模型具有線性的計(jì)算復(fù)雜度。該處理方式不僅降低了計(jì)算復(fù)雜度,而且引入了局部性先驗(yàn),有助于處理物體尺度變化的問題。盡管W?MSA降低了自注意力計(jì)算的復(fù)雜度,但由于窗口間缺乏信息交互,難以提取圖像的高層語(yǔ)義信息。為此,引入基于移動(dòng)窗口的多頭自注意力(Shifted Window?based Multi?head Self?Attention,SW?MSA)模塊。SW?MSA通過連接上一層相鄰但不重疊的窗口從而擴(kuò)大感受野,捕獲圖像的高層語(yǔ)義信息。同時(shí),在模型中連續(xù)使用兩個(gè)或其倍數(shù)的Swin Transformer Block,以便交替使用W?MSA模塊和SW?MSA模塊,從而保證不重疊的窗口間可以實(shí)現(xiàn)信息交換,相鄰窗口間能夠進(jìn)行信息傳遞,增強(qiáng)模型建模效果,解決全局特征缺失的問題。
針對(duì)大規(guī)模復(fù)雜場(chǎng)景的遙感影像YOLOv5特征提取過程中細(xì)節(jié)信息丟失的問題(例如LN層會(huì)破壞在CNN中使用時(shí)學(xué)到的樣本特征),提出一種集成了CSPDarknet53和Swin Transformer的改進(jìn)結(jié)構(gòu)C3 SW?T。C3 SW?T可以擴(kuò)展網(wǎng)絡(luò)的感受野,提供更高的效率,更好地捕獲全局信息,豐富上下文信息,可以更好地識(shí)別遙感目標(biāo)。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集
采用DOTA數(shù)據(jù)集[23]和課題組自建數(shù)據(jù)集
SkyView來驗(yàn)證筆者所提模型的有效性。
DOTA數(shù)據(jù)集是用于遙感圖像中目標(biāo)檢測(cè)的圖像數(shù)據(jù)集,用于發(fā)現(xiàn)和評(píng)估航拍圖像中的物體。DOTA數(shù)據(jù)集含有15類總計(jì)2 806幅航拍圖,每張圖像的像素尺寸范圍在(800×800)~(4000×4000),涵蓋不同尺度、方向和形狀的物體。所有的訓(xùn)練和驗(yàn)證圖像都被分割成640×640像素的塊,并重疊150像素。
SkyView數(shù)據(jù)集有1 825張無人機(jī)航拍圖像,涵蓋了多種自然和人工環(huán)境,包括城市(圖6a)、鄉(xiāng)村(圖6b)、森林、道路、建筑及農(nóng)田等。圖像采集自不同的飛行高度、航拍視角、城市、光照條件,單張圖像中往往包含多種目標(biāo)信息,其檢測(cè)目標(biāo)較小且易被遮擋。SkyView數(shù)據(jù)集使用Labelimg軟件進(jìn)行標(biāo)注,每張圖像配有一個(gè)對(duì)應(yīng)的JSON文件,包含圖像的基本信息、目標(biāo)物體及場(chǎng)景描述。按照7∶3的比例隨機(jī)劃分訓(xùn)練集和驗(yàn)證集。
3.2 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
實(shí)驗(yàn)在Ubuntu系統(tǒng)下的深度學(xué)習(xí)框架PyTorch中進(jìn)行,詳細(xì)實(shí)驗(yàn)環(huán)境配置列于表1。
網(wǎng)絡(luò)訓(xùn)練階段使用SGD算法來優(yōu)化損失函數(shù),此外還采取了優(yōu)化策略,例如預(yù)熱訓(xùn)練、余弦退火、梯度累積和指數(shù)移動(dòng)平均,具體設(shè)置見表2。
3.3 評(píng)價(jià)標(biāo)準(zhǔn)
模型訓(xùn)練完成后,使用訓(xùn)練好的權(quán)重對(duì)模型進(jìn)行測(cè)試,從多個(gè)方面對(duì)模型進(jìn)行評(píng)價(jià)。筆者選取以下指標(biāo)評(píng)估模型的性能。
精確率P代表模型預(yù)測(cè)正類的準(zhǔn)確性,表示被分類器判斷為正例的樣本中,實(shí)際為正例的比例;召回率R是正確檢測(cè)到的對(duì)象數(shù)與所有標(biāo)記對(duì)象數(shù)的比值,兩者的計(jì)算式如下:
P=×100%(7)
R=×100%(8)
其中,TP為真陽(yáng)性,表示被正確預(yù)測(cè)為正樣本的數(shù)量;FP為假陽(yáng)性,表示被錯(cuò)誤預(yù)測(cè)為正樣本的數(shù)量;FN為假陰性,表示被錯(cuò)誤預(yù)測(cè)為負(fù)樣本的數(shù)量。
平均精度均值mAP是綜合考慮了不同類別目標(biāo)的檢測(cè)精度得分,是衡量目標(biāo)檢測(cè)算法性能的重要指標(biāo)之一,它由精確率和召回率計(jì)算得到:
mAP=AP(9)
AP=P(R)dR (10)
其中,APi為類別序號(hào)取i時(shí)對(duì)應(yīng)的精度值;n為類別數(shù)。
每秒幀數(shù)(Frames per Second,F(xiàn)PS)表示在推理過程中能夠處理的圖像幀數(shù)。
3.4 實(shí)驗(yàn)及結(jié)果分析
3.4.1 不同改進(jìn)策略的性能對(duì)比
為了更全面地評(píng)估改進(jìn)后YOLOv5的檢測(cè)性能,筆者進(jìn)行多組對(duì)比實(shí)驗(yàn),比較不同改進(jìn)策略(K?means聚類算法改進(jìn)、加入坐標(biāo)注意力CA模塊、采用BiFPN架構(gòu)、引入Swin Transformer模型)的效果,結(jié)果見表3。從表3可以看出,采用不同的改進(jìn)策略后,YOLOv5的性能有了不同程度的提升。融合所有改進(jìn)策略后,即本文方法使得YOLOv5的性能達(dá)到了最佳,mAP最高,達(dá)到了78.5%,相較于未做任何改進(jìn)的原始YOLOv5s提高了5.2%,精確率P和召回率R分別增加了6.1%和11.0%,F(xiàn)PS也提升了10幀,可見改進(jìn)策略在提高檢測(cè)精度的同時(shí)還保持了較高的處理速度。
3.4.2 不同比例模型的效果對(duì)比
YOLOv5提供了4個(gè)不同比例的模型,分別為YOLOv5s(small,小型)、YOLOv5m(medium,中型)、YOLOv5l(large,大型)和YOLOv5x[24](extra large,超大型)。每個(gè)檢測(cè)器會(huì)對(duì)模型的深度和寬度乘以不同的系數(shù),以保持整體的結(jié)構(gòu)穩(wěn)定性,同時(shí)實(shí)現(xiàn)不同的比例和復(fù)雜度。然而,網(wǎng)絡(luò)模型越復(fù)雜,并不代表檢測(cè)準(zhǔn)確性越好,反而可能會(huì)導(dǎo)致推理時(shí)間的增加。
為了驗(yàn)證筆者所提方法的優(yōu)勢(shì),對(duì)不同比例的模型方法進(jìn)行性能比較(表4)。由表4可以看出,筆者所提方法能夠獲得更高的精確率、召回率和mAP,同時(shí)保持較快的推理速度,這主要得益于Swin Transformer的計(jì)算效率優(yōu)勢(shì)。
3.5 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)通過減少或增加模型中的某些模塊進(jìn)行算法性能檢測(cè),以評(píng)估各模塊對(duì)算法性能的貢獻(xiàn)和影響[25]。將改進(jìn)的各模塊進(jìn)行組合,分別加入原始算法YOLOv5中,其中改進(jìn)K?means聚類算法記為K,加入坐標(biāo)注意力模塊記為CA,采用雙向加權(quán)特征金字塔網(wǎng)絡(luò)架構(gòu)記為BiFPN,引入Swin Transformer模型記為SW?T。
消融實(shí)驗(yàn)結(jié)果列于表5,可以看出,不同策略改進(jìn)后的方法,其4項(xiàng)性能指標(biāo)均高于原始YOLOv5s算法,驗(yàn)證了改進(jìn)策略的有效性。
4 結(jié)束語(yǔ)
筆者提出了一種針對(duì)遙感圖像目標(biāo)檢測(cè)的改進(jìn)方法,結(jié)合了YOLOv5和Swin Transformer,有效提高了遙感小目標(biāo)檢測(cè)的性能。實(shí)驗(yàn)結(jié)果表明,筆者所提方法在DOTA和SkyView數(shù)據(jù)集上取得了顯著的性能提升。盡管本研究取得了一定的成果,但仍存在進(jìn)一步優(yōu)化的空間。未來研究可以繼續(xù)探索新的注意力機(jī)制、特征融合方法和網(wǎng)絡(luò)結(jié)構(gòu),以進(jìn)一步提高遙感圖像目標(biāo)檢測(cè)的準(zhǔn)確性和效率,探索Swin Transformer在其他領(lǐng)域的改進(jìn)和應(yīng)用。
參 考 文 獻(xiàn)
[1]??? 楊鋒,丁之桐,邢蒙蒙,等.深度學(xué)習(xí)的目標(biāo)檢測(cè)算法改進(jìn)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(11):1-15.
[2]??? XU Z, SU J, HUANG K.A?RetinaNet:A novel Retina Net with an asymmetric attention fusion mechanism for dim and small drone detection in infrared images[J].Mathematical Biosciences and Engineering,2023,
20(4):6630-6651.
[3]??? ZHU K, ZHANG X, CHEN G, et al. Multi?Oriented Rotation?Equivariant Network for Object Detection on Remote Sensing Images[J].IEEE Geoscience and Remote Sensing Letters,2022,19:1-5.
[4]??? YANG C L,WANG Y L,ZHANG J M,et al.Lite vision transformer with enhanced self?attention[C]//Proceedi?
ngs of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).New Orleans,LA,USA,2021:11998-12008.DOI:10.48550/arXiv.2112.
10809.
[5]??? GAO P,ZHENG M H,WANG X G,et al.Fast convergence of DETR with spatially modulated Co?attention[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV).Montreal,QC,Canada,2021:3621-3630.
[6]??? DAI L H,LIU H,TANG H,et al.AO2?DETR:Arbitrary?oriented object detection transformer[J].IEEE Transactions on Circuits and Systems for Video Technology,2023,33(5):2342-2356.
[7]??? LIU Z,LIN Y T,CAO Y,et al.Swin transformer:Hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).IEEE,2021:10012-10022.
[8]??? 陳旭,彭冬亮,谷雨.基于改進(jìn)YOLOv5s的無人機(jī)圖像實(shí)時(shí)目標(biāo)檢測(cè)[J].光電工程,2022,49(3):210372?1-210372?13.
[9]??? HOU Q B,ZHOU D Q,F(xiàn)ENG J S.Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2021:13713-13722.
[10]??? LI H Y, RAZI A. MEDA:Multi?output Encoder?Decoder for Spatial Attention in Convolutional Neural Networks[C]//2019 53rd Asilomar Conference on Signals, Systems, and Computers. IEEE, 2019:2087-2091.
[11]??? GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2014:580-587.
[12]??? REN S Q, HE K M, GIRSHICK R, et al.Faster R?CNN:Towards real?time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[13]??? CAI Z W,VASCONCELOS N.Cascade R?CNN:Delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:6154-6162.
[14]??? WANG L, SHOULIN Y, ALYAMI H, et al.A novel deep learning?based single shot multibox detector model for object detection in optical remote sensing images[J].Geoscience Data Journal,2022:1-15.
[15]??? VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems.Long Beach,CA,USA,2017:5998-6008.
[16]??? PARMAR N, VASWANI A, USZKOREIT J,et al.Image Transformer[C]//International Conference on Machine Learning.PMLR,2018:4055-4064.
[17]??? DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16×16 words:Transformers for image recognition at scale[C]//International Conference on Learning Representations.ICLR,2021:1-21.
[18]??? HE K M,ZHANG X Y,REN S Q,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[19]??? WANG C Y, LIAO H Y, WU Y H, et al.CSPNet:A new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).IEEE,2020:390-391.
[20]??? LIU S,QI L,QIN H F,et al.Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:8759-8768.
[21]??? TAN M X, PANG R M, LE Q V.EfficientDet:Scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2020:10781-10790.
[22]??? ZHENG Z H, WANG P, LIU W, et al. Distance?IoU loss:Faster and better learning for bounding box regression[C]//AAAI Conference on Artificial Intelligence.Palo Alto,California,USA:AAAI Press,2020:12993-13000.
[23]??? XIA G S,BAI X,DING J,et al.DOTA:A large?scale dataset for object detection in aerial images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:3974-3983.
[24]??? GE Z, LIU S T, WANG F,et al. YOLOX:Exceeding YOLO Series in 2021[J].2021.DOI:10.48550/arXiv.2107.08430.
(收稿日期:2023-04-28,修回日期:2024-03-25)
The Remote Sensing Object Detection Based on Visual
Attention and Semantic Information Feature Fusion
ZOU Hua?yua, WANG Jiana,b, DIAO Yue?qina, SHAN Zi?qia, SHI Xiao?binga
(a. Faculty of Information Engineering and Automation; b. Key Laboratory of Artificial Intelligence of
Yunnan Province, Kunming University of Science and Technology)
Abstract?? Considering insufficient feature extraction, weak semantic information representation, low detection accuracy for small targets and inaccurate localization in remote sensing object detection methods, an improved strategy based on YOLOv5 and Swin Transformer was proposed. Experimental results show that, compared with the traditional method and other improved strategy methods, the proposed method shows higher detection accuracy rating on the public data set DOTA and the self?built data set SkyView, and the performance advantage is significant.
Key words?? remote sensing object detection, multi?scale feature fusion, coordinate attention mechanism, Swin Transformer