卜薈力,方賢進(jìn),2,楊高明
(1.安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽淮南232001;2.合肥綜合性國(guó)家科學(xué)中心人工智能研究院,安徽合肥230088)
隨著衛(wèi)星遙感技術(shù)的不斷發(fā)展,高分辨率遙感影像的信息量急劇增加,其中包含的詳細(xì)信息也越來(lái)越豐富。一些敏感目標(biāo),如船舶、坦克、飛機(jī)、港口等,肉眼也能清晰可見(jiàn),其檢測(cè)的方法已成為學(xué)者們關(guān)注的熱點(diǎn)[1]。而目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域最基本的問(wèn)題之一。檢測(cè)的任務(wù)是準(zhǔn)確有效地從圖像中識(shí)別和定位預(yù)定義類(lèi)別對(duì)象實(shí)例。經(jīng)過(guò)多年的深度學(xué)習(xí)發(fā)展,可以在普通圖像中高精度地識(shí)別物體,幾乎可以滿(mǎn)足各種應(yīng)用。
傳統(tǒng)目標(biāo)檢測(cè)算法簡(jiǎn)單、快速、易于實(shí)現(xiàn),但對(duì)目標(biāo)狀態(tài)和目標(biāo)大小要求較高,在復(fù)雜背景下性能表現(xiàn)較差。而近些年來(lái),基于深度學(xué)習(xí)的檢測(cè)發(fā)展迅速,許多基于CNN(卷積神經(jīng)網(wǎng)絡(luò))的目標(biāo)檢測(cè)算法已經(jīng)被提出并應(yīng)用于遙感圖像中的目標(biāo)檢測(cè)。目前,目標(biāo)檢測(cè)算法可以分為兩種主要類(lèi)型:兩階段算法和一階段算法。兩階段方法是基于候選區(qū)域的深度卷積神經(jīng)網(wǎng)絡(luò)。它首先生成包含檢測(cè)目標(biāo)的可能候選區(qū)域,然后對(duì)候選區(qū)域進(jìn)行分類(lèi)和回歸,最終得到檢測(cè)框,實(shí)現(xiàn)目標(biāo)檢測(cè)。比較常見(jiàn)的算法有R-CNN、Fast R-CNN和Faster R-CNN[2]等。這些方法檢測(cè)精度高,但速度較慢。一階段方法是基于回歸計(jì)算的深度卷積網(wǎng)絡(luò)的目標(biāo)檢測(cè),它使用端到端的目標(biāo)檢測(cè)方法,直接回歸目標(biāo)的類(lèi)別和定位信息。常見(jiàn)算法有SSD[3]、YOLO系列[4-6]等。這些方法檢測(cè)速度較快,可以滿(mǎn)足實(shí)時(shí)性要求。
以YOLOv5s為網(wǎng)絡(luò)框架為基準(zhǔn),提出了一種改進(jìn)YOLOv5s的網(wǎng)絡(luò)模型MPSA-YOLOv5,該方法通過(guò)在主干網(wǎng)絡(luò)中加入設(shè)計(jì)的高效多維度信息交互極化自注意力(Multi-dimensional information interaction Polarized Self-Attention,MPSA)模塊,改進(jìn)特征增強(qiáng)結(jié)構(gòu)等方式增強(qiáng)網(wǎng)絡(luò)的特征提取能力,提高遙感圖像的檢測(cè)精度。
YOLOv5于2020年6月由ultralytics LLC公司推出,目前只有官方代碼,還在不斷更新當(dāng)中。它是一個(gè)單級(jí)檢測(cè)器和基于區(qū)域的目標(biāo)檢測(cè)網(wǎng)絡(luò)。YOLO算法將目標(biāo)檢測(cè)定義為回歸任務(wù),從而提高了處理速度。YOLOv5在借鑒了上一版本以及其他網(wǎng)絡(luò)的優(yōu)勢(shì)后,改變了之前YOLO目標(biāo)檢測(cè)算法檢測(cè)速度較快但準(zhǔn)確率不高的缺點(diǎn),提高了檢測(cè)精度和實(shí)時(shí)性。其一共有四種網(wǎng)絡(luò)模型,針對(duì)不同的網(wǎng)絡(luò)模型,提供了不同的網(wǎng)絡(luò)深度和寬度,分別為YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,模型復(fù)雜程度依次遞增,其中YOLOv5s可以在移動(dòng)端使用,不僅滿(mǎn)足了實(shí)時(shí)圖像檢測(cè)的需求,而且結(jié)構(gòu)更小,效果非常驚人。因此使用YOLOv5s作為檢測(cè)模型。其網(wǎng)絡(luò)模型分為4部分,分別是Input、Backbone、Neck和Prediction,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)
輸入端包括馬賽克數(shù)據(jù)增強(qiáng)(MDE)、自適應(yīng)錨框尺寸計(jì)算(AAFSC)和自適應(yīng)圖像縮放用于數(shù)據(jù)處理。YOLOv5s采用和YOLOv4相同的馬賽克數(shù)據(jù)增強(qiáng)方式,通過(guò)隨機(jī)裁剪、隨機(jī)縮放和隨機(jī)排布將四張圖片拼接,豐富了檢測(cè)數(shù)據(jù)集,尤其增加了小目標(biāo),提高了網(wǎng)絡(luò)的魯棒性,同時(shí)也降低了GPU的計(jì)算量,增加了網(wǎng)絡(luò)的通用性。自適應(yīng)錨框計(jì)算為不同的數(shù)據(jù)集通過(guò)聚類(lèi)算法設(shè)置初始錨框,網(wǎng)絡(luò)在初始錨框的基礎(chǔ)上進(jìn)行預(yù)測(cè),然后與真實(shí)框進(jìn)行比較計(jì)算損失值,通過(guò)反向傳播不斷迭代更新網(wǎng)絡(luò)參數(shù)。錨框參數(shù)為[116,90,156,198,373,326],[30,61,62,45,59,119],[10,13,16,30,33,23]。自適應(yīng)圖像縮放是對(duì)于不同尺寸的圖像統(tǒng)一縮放到固定大小,在數(shù)據(jù)預(yù)處理階段已經(jīng)實(shí)現(xiàn)。
Backbone包括Focus和C3模塊。Focus模塊將輸入圖像切分為4份,然后在channel維度進(jìn)行拼接。最后再經(jīng)過(guò)卷積操作得到最終的特征圖,C3模塊具體結(jié)構(gòu)如圖1中所示。
Neck采用FPN(特征金字塔網(wǎng)絡(luò))和PANet(金字塔結(jié)構(gòu)與路徑聚合網(wǎng)絡(luò))結(jié)構(gòu)。FPN通過(guò)從上到下的上采樣傳遞和融合高級(jí)特征信息,以傳達(dá)強(qiáng)烈的語(yǔ)義特征信息。PAN是一個(gè)自下而上的特征金字塔,用于傳達(dá)強(qiáng)大的定位特征信息。將兩者同時(shí)使用,增強(qiáng)網(wǎng)絡(luò)特征融合能力。
預(yù)測(cè)部分包括邊界框損失函數(shù)和NMS(非最大抑制)。YOLOv5s-6.0使用CIoU損失函數(shù)作為邊界框的損失函數(shù),有效解決了邊界框不重合的問(wèn)題,提高了預(yù)測(cè)框回歸的速度和準(zhǔn)確率。
為了增強(qiáng)識(shí)別多個(gè)目標(biāo)和被遮擋目標(biāo)的能力,在得到所有的目標(biāo)檢測(cè)框后,YOLOv5s使用加權(quán)NMS進(jìn)行過(guò)濾,得到最優(yōu)的目標(biāo)檢測(cè)框。
Polarized Self-Attention(PSA)[7]是一種結(jié)合空間與通道兩個(gè)維度更精細(xì)的雙重注意力建模結(jié)構(gòu),提出一種極化濾波的機(jī)制,在對(duì)空間或通道維度進(jìn)行壓縮時(shí),讓其正交方向的維度依然保持高分辨率,并通過(guò)Softmax對(duì)被壓縮特征矩陣進(jìn)行信息增強(qiáng)。但PSA的通道與空間注意力是分離的,并未考慮計(jì)算注意力權(quán)重時(shí)捕獲跨維度依賴(lài)的重要性,這會(huì)導(dǎo)致部分細(xì)節(jié)信息的丟失。因此本文從維度交互的角度出發(fā),提出一種多維度信息交互極化自注意力(Multi-dimensional information interaction Polarized Self-Attention,MPSA)模塊,對(duì)PSA增加了一個(gè)旋轉(zhuǎn)自注意力模塊,具體做法如圖2中間部分所示。首先輸入特征先經(jīng)過(guò)一個(gè)旋轉(zhuǎn)操作,變?yōu)镠×C×W維度特征,接著使用1×1卷積將輸入轉(zhuǎn)換為q和v,其中q的H維度被完全壓縮,而v的H維度縮減為一半。對(duì)q執(zhí)行Softmax進(jìn)行信息增強(qiáng),對(duì)v執(zhí)行Reshape操作變?yōu)镠/2×CW的權(quán)重,將q和v進(jìn)行矩陣乘法并依次接上1×1卷積、LN和Sigmoid函數(shù)。最后再通過(guò)旋轉(zhuǎn)操作變?yōu)镃×H×W維度矩陣。將所得結(jié)果與PSA輸出進(jìn)行相加。通過(guò)對(duì)原始特征圖進(jìn)行維度置換操作得到新特征圖,并使用較小的計(jì)算開(kāi)銷(xiāo)對(duì)新生成的特征圖進(jìn)行編碼,將不同維度間的相互依賴(lài)連接起來(lái),有效避免了細(xì)節(jié)信息的大量丟失。將MPSA模塊嵌入到Y(jié)OLOv5s中,具體嵌入位置參照2.3節(jié),改進(jìn)后的模型命名為MPSA-YOLOv5。
圖2 MPSA模塊
空間金字塔池化(Spatial Pyramid Pooling,SPP)[8]是由HE等人提出,其最初的目的是為了解決圖像尺度統(tǒng)一的問(wèn)題,避免輸入圖像因裁剪或縮放導(dǎo)致信息丟失。其主要做法是接收任意尺寸的特征圖,通過(guò)不同尺度的池化操作,得到固定大小的特征向量。在目標(biāo)檢測(cè)任務(wù)中常使用的SPP結(jié)構(gòu)主要由三個(gè)不同尺度的最大池化層和一個(gè)跳躍連接構(gòu)成四個(gè)并行的分支,池化核大小分別為5×5,9×9,13×13,但最大池化(MaxPool)只能選擇局部最大的單一值,在進(jìn)行特征映射時(shí)可能會(huì)丟失關(guān)鍵信息,而SoftPool[9]對(duì)感受野內(nèi)的所有像素以加權(quán)求和的方式映射到網(wǎng)絡(luò)的下一層中,相比MaxPool能更好的保留特征圖中的細(xì)粒度特征,因此選擇其代替MaxPool,公式如式(1)所示。
(1)
其中aj為感受野內(nèi)像素激活值,R為激活區(qū)域。
同時(shí)為了提取不同尺寸目標(biāo)的空間特征信息,提升模型對(duì)于空間布局和物體變形的魯棒性,將原SPPF中串行連接的三個(gè)池化層調(diào)整為四個(gè),為了節(jié)約計(jì)算資源,將原SPPF中的池化層的池化核大小由5×5調(diào)整為3×3,具體結(jié)構(gòu)如圖3所示。
圖3 改進(jìn)后的SPPF模塊
YOLOv5s算法具有體積小、檢測(cè)效果好等特點(diǎn),尤其是加強(qiáng)了對(duì)小物體的識(shí)別能力。因此選擇其作為基準(zhǔn)網(wǎng)絡(luò)。但是結(jié)合目前的研究進(jìn)展和實(shí)際應(yīng)用情況來(lái)看,YOLOv5s仍具有進(jìn)一步的改進(jìn)空間,改進(jìn)后的MPSA-YOLOv5主干網(wǎng)絡(luò)整體結(jié)構(gòu)如表1所示。
其中From列數(shù)字表示對(duì)應(yīng)層的輸出作為當(dāng)前層的輸入,而負(fù)數(shù)表示以當(dāng)前層為基準(zhǔn),取前x層的輸出作為當(dāng)前層的輸入,例如-1,-2表示取前1,2層的輸出。Module列對(duì)應(yīng)當(dāng)前層模塊名稱(chēng)。Params列為當(dāng)前模塊具體參數(shù)量。Arguments列參數(shù)包括當(dāng)前層模塊的輸入通道數(shù)、輸出通道數(shù)、卷積核大小以及步長(zhǎng)等信息。
表1 MPSA-YOLOv5主干網(wǎng)絡(luò)結(jié)構(gòu)
實(shí)驗(yàn)基于Ubuntu20.04操作系統(tǒng),使用PyTorch深度學(xué)習(xí)框架搭建模型,具體實(shí)驗(yàn)配置如下:CPU型號(hào)為Intel(R) Xeon(R) Gold 6142 CPU@2.60GHz,GPU型號(hào)為NVIDIA GeForce RTX 3060,內(nèi)存為16G,顯存為12G,并使用cuda11.1和cudnn8.1.1進(jìn)行加速計(jì)算。
NWPUVHR-10數(shù)據(jù)集[10-12]包含800個(gè)高分辨率的衛(wèi)星圖像,這些圖像是從Google Earth和Vaihingen數(shù)據(jù)集裁剪而來(lái)的,數(shù)據(jù)集分成10類(lèi)(飛機(jī),輪船,儲(chǔ)罐,棒球場(chǎng),網(wǎng)球場(chǎng),籃球場(chǎng),地面跑道,港口,橋梁和車(chē)輛)。其中正樣本圖像(至少包含一個(gè)目標(biāo))共計(jì)650張,負(fù)樣本圖像(背景圖片)共計(jì)150張,標(biāo)簽由專(zhuān)家手動(dòng)進(jìn)行標(biāo)注得到。由于采用監(jiān)督學(xué)習(xí),因此只選用正樣本數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)之前,按照6∶2∶2的比例將正樣本數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。最終得到390張訓(xùn)練圖像,130張驗(yàn)證圖像,130張測(cè)試圖像。其中部分?jǐn)?shù)據(jù)集示例如圖4所示。
圖4 數(shù)據(jù)集示例
在目標(biāo)檢測(cè)的領(lǐng)域,召回率、精確率和平均精度均值(Mean Average Precision, mAP)通常用于評(píng)估目標(biāo)檢測(cè)算法的性能。其中召回率描述在所有正例的樣本中有多少被預(yù)測(cè)對(duì)的比例。精確率描述預(yù)測(cè)為正例的樣本中真實(shí)正樣本的比例[13]。計(jì)算公式如式(2)和式(3)所示。
(2)
(3)
其中R為召回率,P為精確率,TP為算法預(yù)測(cè)正確的正樣本個(gè)數(shù),F(xiàn)N為算法預(yù)測(cè)錯(cuò)誤且判斷為負(fù)樣本的個(gè)數(shù),F(xiàn)P為算法預(yù)測(cè)錯(cuò)誤但是判斷為正樣本的個(gè)數(shù)。
平均精度均值(Mean Average Precision, mAP)指的是數(shù)據(jù)集中每個(gè)類(lèi)別平均檢測(cè)精度(AP)的均值,具體公式如式(4)和式(5)所示。
(4)
(5)
其中公式(4)中AP值為PR曲線(xiàn)所圍成的面積,公式(5)中的n表示總類(lèi)別數(shù)。依據(jù)預(yù)測(cè)框和真實(shí)框的交并比(IoU)判斷是否檢測(cè)到物體,并在評(píng)估時(shí)統(tǒng)一將IoU閾值選定為0.5。具體公式如式(6)所示。
(6)
其中M表示預(yù)測(cè)框,N表示真實(shí)框。
實(shí)驗(yàn)使用原始YOLOv5s和MPSA-YOLOv5在相同數(shù)據(jù)集上進(jìn)行對(duì)比分析,在實(shí)驗(yàn)中,將輸入圖片大小設(shè)置為640×640,使用SGD優(yōu)化器優(yōu)化網(wǎng)絡(luò),動(dòng)量為0.937,權(quán)重衰減系數(shù)為0.0005。初始學(xué)習(xí)率設(shè)置為0.01,為避免學(xué)習(xí)率過(guò)高導(dǎo)致模型訓(xùn)練時(shí)不穩(wěn)定,使用余弦退火算法[14]來(lái)對(duì)學(xué)習(xí)率進(jìn)行更新,最終學(xué)習(xí)率為0.001。Batch Size設(shè)置為16,訓(xùn)練epoch數(shù)設(shè)置為220。
圖5和圖6為MPSA-YOLOv5算法在訓(xùn)練過(guò)程中性能指標(biāo)的變化情況,圖5為訓(xùn)練集和驗(yàn)證集上損失值的變化情況,圖6為性能評(píng)估指標(biāo)值的變化情況。從圖5中可以看到,經(jīng)過(guò)220個(gè)epoch的訓(xùn)練,模型逐漸趨于穩(wěn)定。
圖5 loss變化曲線(xiàn)
圖6 性能指標(biāo)變化曲線(xiàn)
為了進(jìn)一步驗(yàn)證MPSA-YOLOv5的有效性,在設(shè)置的相同訓(xùn)練條件下訓(xùn)練其他幾種常見(jiàn)的目標(biāo)檢測(cè)算法,最終的實(shí)驗(yàn)分析結(jié)果如表2所示。
由表2可知,MPSA-YOLOv5儲(chǔ)油罐、網(wǎng)球場(chǎng)、橋梁三個(gè)類(lèi)別上的平均精度優(yōu)于其它算法,而在其余7類(lèi)目標(biāo)上也均處于較高水平。因此最終的平均精度均值達(dá)到91.4%,均優(yōu)于其他檢測(cè)算法,相比YOLOv3、YOLOX-S、YOLOv5s分別提高了2.8%、1.45%、1.7%。
實(shí)驗(yàn)使用原始YOLOv5s和MPSA-YOLOv5算法對(duì)測(cè)試集進(jìn)行測(cè)試,圖7顯示了部分檢測(cè)圖片的對(duì)比結(jié)果。
圖7 MPSA-YOLOv5與原始YOLOv5s的檢測(cè)對(duì)比
對(duì)于圖7,其中上邊四張為原始YOLOv5s的檢測(cè)效果圖,可以明顯看到在橋梁、港口、艦船等目標(biāo)上均出現(xiàn)了漏檢現(xiàn)象,在車(chē)輛目標(biāo)上還出現(xiàn)了誤檢現(xiàn)象。相比之下,下面四張圖為MPSA-YOLOv5算法的檢測(cè)結(jié)果,基本解決了對(duì)目標(biāo)的漏檢和誤檢問(wèn)題,改進(jìn)后的網(wǎng)絡(luò)可以準(zhǔn)確給出正確的目標(biāo)框,提高目標(biāo)檢測(cè)的置信度,大大減少了誤判次數(shù)。
文章提出了一種改進(jìn)的深度學(xué)習(xí)算法MPSA-YOLOv5用于遙感圖像檢測(cè),同時(shí)經(jīng)過(guò)最終的實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型MPSA-YOLOv5與原始YOLOv5s相比具有更高的檢測(cè)精度。綜合來(lái)看該算法是一種有效的遙感圖像檢測(cè)算法。由于數(shù)據(jù)集較小、硬件設(shè)備等問(wèn)題,因此檢測(cè)效果還存在進(jìn)一步優(yōu)化的空間,后續(xù)研究將考慮收集制作更復(fù)雜環(huán)境下的樣本,同時(shí)進(jìn)一步改進(jìn)網(wǎng)絡(luò),提升模型的泛化性能,使得模型的檢測(cè)效果更佳。
黑龍江工業(yè)學(xué)院學(xué)報(bào)(綜合版)2022年10期