国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種多尺度特征關(guān)聯(lián)網(wǎng)絡(luò)的遙感影像場景分類方法

2024-01-05 11:10段燁陳國坤李佳田金維胡浩
遙感信息 2023年5期
關(guān)鍵詞:尺度注意力卷積

段燁,陳國坤,李佳田,金維,胡浩

(昆明理工大學(xué) 國土資源工程學(xué)院,昆明 650093)

0 引言

在遙感技術(shù)快速發(fā)展的大背景下[1],對地觀測衛(wèi)星成為常用的數(shù)據(jù)源,遙感影像的應(yīng)用變得日漸廣泛。隨著遙感影像的發(fā)展,影像解譯作為解讀遙感影像的方式也在不斷地發(fā)展。遙感影像場景分類的目的是根據(jù)影像的關(guān)鍵特征內(nèi)容,判斷遙感影像上的地物類別。因遙感影像的分辨率不斷提高,單張影像能涵蓋的信息量變多,這一技術(shù)在地理學(xué)、生態(tài)學(xué)、城市規(guī)劃等學(xué)科中受到關(guān)注和應(yīng)用[2]。

在遙感影像的圖像處理方面,單純使用全局信息會錯誤地將背景當(dāng)成關(guān)鍵特征,從而導(dǎo)致分類出現(xiàn)錯誤結(jié)果。因此,準(zhǔn)確地獲取局部特征信息至關(guān)重要,而融合多尺度圖像信息和注意力機(jī)制可以很好地解決這一問題。多尺度圖像信息提取是計算機(jī)視覺領(lǐng)域常用的方法,其中最有代表性的是特征金字塔。Lin等[3]提出特征金字塔網(wǎng)絡(luò)(feature pyramid networks,FPN)用于目標(biāo)檢測,通過自頂向下和橫向連接的過程,解決低層特征語義信息少的問題,實現(xiàn)圖像中的多尺度融合。然而,FPN自頂向下的多尺度圖像融合方式會將不同尺度的冗余信息和無關(guān)信息向下融合,無法更好地關(guān)注特征信息。注意力機(jī)制最早被引用于遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),直至Hu等[4]提出的SE-Net在卷積神經(jīng)網(wǎng)絡(luò)中使用了注意力機(jī)制。該網(wǎng)絡(luò)將通道信息并入特征提取方法中,通過改變不同通道的權(quán)重指數(shù)來應(yīng)用注意力機(jī)制。應(yīng)用注意力機(jī)制后具有顯著特征信息的通道被增強(qiáng),使得卷積神經(jīng)網(wǎng)絡(luò)能夠更好地關(guān)注特征信息。

2017年Transformer[5]模型在自然語言處理(natural language processing,NLP)領(lǐng)域的成效優(yōu)于RNN與卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)。該模型僅使用編解碼結(jié)構(gòu)和注意力機(jī)制就能取得很好的效果。Dosovitskiy等[6]將Transformer模型引用到計算機(jī)視覺領(lǐng)域,并提出了ViT (visual transformer)模型,所提模型在許多圖像處理任務(wù)中表現(xiàn)出優(yōu)異的性能。盡管ViT表現(xiàn)優(yōu)異,但計算復(fù)雜度很高。為了解決這些問題,Liu等[7]提出Swin Transformer模型,將圖像分為多個窗口,僅對每個窗口進(jìn)行計算,從而限制了計算復(fù)雜度。通過滑動窗口的機(jī)制,使每個窗口的信息得到交互,既能實現(xiàn)多頭自注意力的空間注意力效果,一定程度上也能減少網(wǎng)絡(luò)的計算復(fù)雜度。

結(jié)合上述所表現(xiàn)出來的問題,本文提出一種新的多尺度特征關(guān)聯(lián)網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)合了Swin Transformer中的滑動窗口多頭自注意力(shifted window multi-head self attention,SW-MSA)模塊、FPN結(jié)構(gòu)和關(guān)聯(lián)模塊,采用空洞卷積進(jìn)行影像特征提取,以擴(kuò)大感受野來結(jié)合上文語義信息。此外,多頭注意力模塊中的滑動窗口方式可以提高局部信息的提取效率,其中借助FPN結(jié)構(gòu)進(jìn)行自上而下的融合,可實現(xiàn)更好地關(guān)注局部信息,減少多尺度影像直接融合的冗余信息,同時使用關(guān)聯(lián)模塊能進(jìn)一步加強(qiáng)通道內(nèi)的關(guān)鍵特征。實驗結(jié)果表明,該方法能夠提升MFC-Net網(wǎng)絡(luò)的局部特征提取和背景抑制的能力,以提高遙感影像場景分類的精度。

1 研究方法

1.1 多尺度特征關(guān)聯(lián)網(wǎng)絡(luò)的遙感場景分類模型

本文提出的遙感場景分類模型由3個主要部分構(gòu)成:多尺度影像提取部分、獲取空間注意力與多尺度融合部分及多尺度特征關(guān)聯(lián)與分類部分,具體如圖1所示。

圖1 MFC-Net結(jié)構(gòu)

MFC-Net網(wǎng)絡(luò)結(jié)構(gòu)的核心思想為:將預(yù)處理影像輸入ResNet-18架構(gòu),以獲取多尺度圖像Ci(i=1,2,3,4);將多尺度圖像輸入到多信息融合特征金字塔(multi-information fusion feature pyramid,MIF-FP)中,獲取多尺度圖像特征信息并進(jìn)行融合輸出Mi(i=1,2,3,4);將融合后的特征信息輸入多特征關(guān)聯(lián)部分,進(jìn)行特征信息相互關(guān)聯(lián)獲取Oi(i=1,2,3,4),經(jīng)平均池化后融合為特征F,再將F輸入到softmax分類器中進(jìn)行分類預(yù)測,輸出預(yù)測類別。

1.2 多尺度圖像提取

本文采用ResNet18作為多尺度圖像提取的架構(gòu),其殘差結(jié)構(gòu)可以避免整個網(wǎng)絡(luò)出現(xiàn)過擬合的情況,從而更好地提取所需的多尺度影像。

ResNet18的網(wǎng)絡(luò)架構(gòu)由5個Conv卷積層、1個全局平均池化層以及1個全連接層組成。本文使用ResNet18中前4個Conv卷積層來完成多尺度圖像獲取,輸出結(jié)果如式(1)所示。

(1)

式中:Conv1、Conv2_x、Conv3_x、Conv4_x均為卷積層操作;I∈RH×W×C為預(yù)處理后輸入的影像;H、W和C分別為輸入影像的高、寬和通道數(shù);Ci為多尺度特征圖,分別為C1∈R(H/2)×(W/2)×64、C2∈R(H/2)×(W/2)×64、C3∈R(H/4)×(W/4)×128、C4∈R(H/8)×(W/8)×256分別為提取多尺度影像的結(jié)果。

本文未使用第5個卷積層進(jìn)行多尺度圖像提取,其原因為第5個卷積層輸出的圖像尺度較小,而小尺度圖片在后面進(jìn)行的獲取空間注意力與多尺度融合部分中難以達(dá)到更優(yōu)的效果。相比之下,大尺寸圖像在使用空間注意力的效果更為明顯。因此,選擇特定的結(jié)構(gòu)來進(jìn)行多尺度圖像提取,能夠更好地提取所需的多尺度影像特征信息。

1.3 多信息融合特征金字塔

MIF-FP是基于FPN框架提出的一種融合多尺度圖像特征信息的架構(gòu)。較傳統(tǒng)FPN結(jié)構(gòu),本文將空洞卷積與SW-MSA加入其中,提取的多尺度圖像Ci經(jīng)多信息模塊后使其獲得關(guān)注信息并進(jìn)行上下層融合得到Mi,框架如圖2所示。

圖2 MIF-FP結(jié)構(gòu)

MI module如圖3所示,其表達(dá)如式(2)至式(3)所示。

圖3 MI module結(jié)構(gòu)

Mi=attention{σ{Conv{Cat[MDC]}}}+Pi

(2)

MDC=DConv(Ci,1),DConv(Ci,2)

(3)

式中:Ci為ResNet18獲取的多尺度影像;Pi為經(jīng)過空洞卷積計算后得到的特征影像;DConv(Ci,r)表示對多尺度影像Ci進(jìn)行擴(kuò)張率為r的空洞卷積計算;Cat(·)為通道拼接操作;Conv(·)為1×1卷積操作;σ(·)為ReLU激活操作;attention(·)為滑動窗口注意力模塊;Mi表示輸出結(jié)果。

傳統(tǒng)卷積局限于捕捉到特定位置的信息,忽略了上下文等密集語義信息。而空洞卷積通過調(diào)整擴(kuò)張率,可以在不增加參數(shù)量的情況下獲得更大感受野。這種方式在保證圖像分辨率的基礎(chǔ)上能提取較大范圍的圖像特征,可以有效地提取影像上下文信息[8]。在提取圖像特征信息中,感受野越大所提取到的特征信息越接近于局部特征。不同于空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)[9],本文僅使用較小擴(kuò)張率的空洞卷積,這是因為在小尺度圖像和分類任務(wù)中,主要關(guān)注小部分和小區(qū)域的特征以及其上下文信息,而過大的擴(kuò)張率可能會獲取到其他易混淆的特征。

SW-MSA是Swin Transformer中的滑動窗口自注意力模塊,與傳統(tǒng)的卷積空間注意力方式不同,SW-MSA通過將圖片劃分成M×M的窗口,這樣的做法更加注重對局部信息的空間注意力計算,即將影像P∈RH×W×C劃分為多個平面窗口,每一個窗口的訓(xùn)練參數(shù)為WQ、WK、Wv3個參數(shù)矩陣,對每個窗口進(jìn)行多頭自注意力計算,并且計算局部空間注意力時不會有過大的計算復(fù)雜度。同時加入滑動窗機(jī)制,使得每個窗口之間的信息能夠相交互,其自注意力機(jī)制如式(4)所示。

(4)

式中:Q,K,V∈RM2×d表示為每個窗口的變量、關(guān)鍵字和關(guān)系值矩陣;KT為轉(zhuǎn)置矩陣;B∈RM2×M2為相對位置偏置;d表示的是Q/K的維度大小;M2則表示為切分影像窗口的大小。

不同于傳統(tǒng)FPN直接自上而下的融合,MIF-FP模塊通過引入空洞卷積和SW-MSA空間注意力計算,獲取更多有用的上下文語義信息,避免了直接融合的信息冗余問題。MIF-FP對每層獲取的多尺度圖像使用空洞卷積進(jìn)行局部特征獲取,經(jīng)過空間注意力后能關(guān)注到各層圖像的關(guān)鍵特征信息。MIF-FP結(jié)構(gòu)能夠?qū)Ω鲗犹卣鬟M(jìn)行增強(qiáng)或抑制,以突出關(guān)鍵特征信息,如圖4所示。傳統(tǒng)FPN未添加特征增強(qiáng)或是抑制模塊,容易融合周圍無效信息,例如飛機(jī)類別圖中無法準(zhǔn)確關(guān)注到右上角的目標(biāo)地物,且未能有效屏蔽周圍無效信息;船類別圖和儲水罐類別圖也存在類似問題,因影響特征的關(guān)注而導(dǎo)致分類錯誤。MIF-FP則能夠有效抑制非關(guān)注特征,突出關(guān)鍵特征信息。

圖4 熱力圖可視化

1.4 多尺度特征關(guān)聯(lián)與分類

將MIF-FP輸出的融合圖像輸入到多尺度特征關(guān)聯(lián)部分進(jìn)行最后的特征增強(qiáng)以及分類,主要架構(gòu)如圖5所示,具體過程見圖6。

圖5 多特征關(guān)聯(lián)部分

圖6 關(guān)聯(lián)模塊

關(guān)聯(lián)是將Mi的相鄰層進(jìn)行相關(guān)聯(lián)的操作。在多尺度圖像中,底層圖像通常包含著高層次圖像的特征信息,并且Mi通過前一部分的空間注意力計算,高層圖像的特征信息可以更好地融合到底層圖像中。接著,經(jīng)過MIF-FP后,各層多尺度圖像的特征信息被提取到不同的通道中,使用關(guān)聯(lián)模塊將通道激活,與上一層的特征信息進(jìn)行融合,加強(qiáng)關(guān)鍵特征的表現(xiàn),抑制無效信息。因此,將底層特征與高層特征相融合,能夠更好地突出分類中所關(guān)注的重要特征信息。其結(jié)構(gòu)計算如式(5)所示。

Oi+1=FC(Gpool[Mi])?Mi+1=
δ(Conv2[σ{BN{Conv1{Gpool(Mi)}}}])?Mi+1

(5)

式中:FC表示卷積層運算;Mi(i=1,2,3)表示第i層的特征圖;Oi+1(i=1,2,3)表示關(guān)聯(lián)后的第i+1輸出層;Gpool(·)為全局平均池化操作;Conv1(·)、Conv2(·)分別為降維1×1卷積和升維1×1卷積;BN(·)為批量標(biāo)準(zhǔn)化;σ(·)為ReLU激活操作;δ(·)為sigmoid激活操作;?為像素相乘操作。

最后將每層輸出結(jié)果Oi(i=1,2,3,4)進(jìn)行平均池化和加和操作,得到最后特征。通過網(wǎng)絡(luò)計算最終得到F特征,輸入分類器進(jìn)行分類,使用交叉熵函數(shù)進(jìn)行整體網(wǎng)絡(luò)的損失計算。

2 實驗方法

2.1 實驗數(shù)據(jù)集

為驗證所提網(wǎng)絡(luò)架構(gòu)的有效性,本文使用了兩個公開數(shù)據(jù)集進(jìn)行驗證測試。

1)2017年武漢大學(xué)和華中科技大學(xué)共同發(fā)布AID(aerial image dataset)遙感場景影像數(shù)據(jù)集[10]。該數(shù)據(jù)集共包括30個場景類別,其中所有樣本的圖像均從世界上不同國家和地區(qū)采集獲得,每個類別包含220~420張影像,每張圖像為600像素×600像素,空間分辨率為0.5~8 m,總計有10 000張影像。

2)2016年西北工業(yè)大學(xué)發(fā)布的NWPU45(NWPU-RESISC45 dataset)數(shù)據(jù)集。NWPU45數(shù)據(jù)集包含飛機(jī)、教堂、沙漠等總計45個類別,每個類別有1 000張影像,影像空間分辨率為0.2~30 m,總計有31 500張影像,包含超過100個國家與地區(qū)的影像。

2.2 評價指標(biāo)

本文所提方法的有效性通過使用總體分類準(zhǔn)確率(overall accuracy,OA)、Kappa系數(shù)和F1值來評估。OA為經(jīng)過計算后正確分類的樣本數(shù)占測試集總樣本數(shù)的比例,它反映了數(shù)據(jù)集總體的分類情況。Kappa系數(shù)是一個衡量分類效果和檢驗分類一致性的指標(biāo)。分類一致性是指模型預(yù)測結(jié)果和實際分類結(jié)果是否一致?;诨煜仃囉嬎愕玫終appa系數(shù),通常系數(shù)值落在0~1之間。F1值是精確率和召回率評估指標(biāo)。

2.3 實驗配置

本實驗基于中國移動云服務(wù)器完成,操作系統(tǒng)為Ubuntu 18.04.3 LTS,GPU為Tesla V100。實驗基于Pytorch V1.10.1框架進(jìn)行,其中超參數(shù)設(shè)置迭代次數(shù)為100,批處理大小為32,學(xué)習(xí)率為0.000 1。優(yōu)化器采用Adam優(yōu)化器,權(quán)重衰減為0.001,使用交叉熵函數(shù)作為損失函數(shù)。

2.4 實驗結(jié)果

在公共數(shù)據(jù)集上使用本文方法與現(xiàn)有已知相關(guān)分類方法進(jìn)行對比實驗,以確保本文方法的有效性。AID數(shù)據(jù)集和NWPU數(shù)據(jù)集的訓(xùn)練比例分別為50%和20%。首先,對兩種不同多尺度影像輸入方式進(jìn)行比較;接著,進(jìn)行不同擴(kuò)張率的空洞卷積對比,并比較不同注意力機(jī)制的效果;最后,與其他方法進(jìn)行對比。對比方法包括傳統(tǒng)簡單路線的VGG_VD16、傳統(tǒng)路線網(wǎng)絡(luò)的改進(jìn)算法如VGG_VD16加入MSCP模塊[11]、多分支網(wǎng)絡(luò)DCCNN[12]、多分支注意力池化網(wǎng)絡(luò)APDC-Net[13]、深度遷移可變形卷積神經(jīng)網(wǎng)絡(luò)DTDCNN[14]、注意力一致網(wǎng)絡(luò)ACNet[15]以及基于自注意力融合特征的SAFF[16]。表1表示在AID和NWPU數(shù)據(jù)集上不同算法的精度結(jié)果。

表1 不同提取方式的分類精度

本文使用兩種不同獲取多尺度影像方式進(jìn)行對比。第一種輸入方式使用ResNet-18中后4個Conv卷積層的輸出結(jié)果,第二種輸入方式使用前4個Conv卷積層的輸出結(jié)果。

從表1能夠看出,在相同的網(wǎng)絡(luò)架構(gòu)下,本文使用的提取方式2在兩個數(shù)據(jù)集的分類精度上提升1%左右。主要原因在于多尺度融合過程中,大尺寸的影像能夠獲得更多有效的特征。引入滑動窗口多頭自注意力機(jī)制,能夠?qū)⒂跋襁M(jìn)行切割并獲取各個小塊的特征,而更大尺寸的影像能使影像切割進(jìn)入更多的信息,有利于使用空間注意力。

本文對兩個數(shù)據(jù)集使用了3種不同膨脹方式的卷積模塊,并進(jìn)行結(jié)果對比分析。由表2的實驗結(jié)果可以看出,與不使用空洞卷積和使用較大膨脹系數(shù)的空洞卷積相比,本文使用的較小膨脹系數(shù)卷積模塊分類總體精度提高1%左右。同時,使用較大膨脹系數(shù)的空洞卷積模塊所用時間更長。因此,在時間效率方面,本文所使用的小膨脹系數(shù)的模塊具有優(yōu)勢。

表2 不同膨脹系數(shù)的卷積模塊

為探究注意力機(jī)制對于模型性能的影響,在多尺度特征關(guān)聯(lián)網(wǎng)絡(luò)中,使用SE(squeeze-and-excitation)和CBAM(convolutional block attention module)[17]兩種注意力機(jī)制,分別在兩個數(shù)據(jù)集上進(jìn)行分類測試。結(jié)合表3給出的結(jié)果,可以看出在沒有使用注意力機(jī)制的網(wǎng)絡(luò)中,分類精度能達(dá)到93.82%和89.38%的分類效果,說明整體網(wǎng)絡(luò)在框架上具有一定的優(yōu)勢。兩個注意力機(jī)制在分類總體精度上較SW-MSA差1%左右。注意力機(jī)制在金字塔這種多層特征融合的框架上有一定的影響,注意力能力越強(qiáng)且復(fù)合的模塊能更有效地利用這種特征融合框架。

表3 不同注意力方法的分類精度 %

在AID數(shù)據(jù)集中,MFC-Net比經(jīng)典單一路線網(wǎng)絡(luò)VGG_VD16精度高5.09%;較經(jīng)典網(wǎng)絡(luò)中添加特征融合算法的AlexNet-MSCP提升2.37%,與網(wǎng)絡(luò)層數(shù)更深的VGG_VD16-MSCP效果相當(dāng);較密集連接的特征增強(qiáng)網(wǎng)絡(luò)DCCNN和多分支注意力池化網(wǎng)絡(luò)APDC-Net分別提升3.24%和2.58%;較經(jīng)典網(wǎng)絡(luò)中添加自注意力機(jī)制的VGG_VD16-SAFF提升0.9%;相比于遷移可變形卷積網(wǎng)絡(luò)DTDCNN提高5.47%;略低于使用約束注意力機(jī)制ACNet的95.38%。從上述結(jié)果可以看出,MFC-Net在特征提取、融合和增強(qiáng)方面與具有更深層次的特征提取層網(wǎng)絡(luò)VGG_VD16-MSCP和ACNet相當(dāng)。

AID數(shù)據(jù)集中主要的易混分的類別有旅游勝地、廣場與公園。公園與旅游勝地存在相近地物,廣場與旅游勝地存在相似形狀的情況,如圖(7)所示。這幾類地物復(fù)雜且周圍地物會對其分類產(chǎn)生影響,關(guān)鍵特征地物受到周圍信息影響從而錯誤分類(圖7)。

圖7 在AID數(shù)據(jù)集上的易混分類別

NWPU數(shù)據(jù)集較AID數(shù)據(jù)集地物種類多,圖像數(shù)量大且有部分地物易混分,因此在分類精度上不如AID,本文方法較多數(shù)對比方法可以取得更高的分類精度。較傳統(tǒng)VGG_VD16提升10.72%;較VGG_VD16-MSCP提升1.58%,整體效果相當(dāng);較AlexNet- MSCP提升4.93%;較多分支網(wǎng)絡(luò)的DCCNN和APDC-Net分別提升4.88%和2.67%;比VGG_VD16-SAFF的精度高2.65%,較AID的提升效果更大;AlexNet-SAFF與本文方法精度差距較VGG_VD16-SAFF更大;相較于DTDCNN提升6.39%;低于ACNet的92.42%。NWPU中,對于無易混分類別的地物,MFC-Net能準(zhǔn)確提取并增強(qiáng)地物特征,但易混分地物中,金字塔和關(guān)聯(lián)模塊的特征獲取能力還有待進(jìn)一步提高。

NWPU數(shù)據(jù)集中最容易混分的是教堂和宮殿。宮殿的部分建筑物類型與教堂中的主要建筑物十分相似,多尺度融合以及注意力機(jī)制的運用不能很好地進(jìn)行區(qū)分。另外,火車站分類成為鐵路,如圖8所示,二者類別中火車站通常包含著鐵路的地物特征信息,但當(dāng)圖像內(nèi)容復(fù)雜多樣且火車站特征地物較小時,空洞卷積和多尺度融合會丟失掉火車站特征信息,無法正確找到此類的關(guān)鍵特征,因此錯誤分類為鐵路。

圖8 在NWPU數(shù)據(jù)集上的易混分類別

表5展示了不同方法的網(wǎng)絡(luò)參數(shù)量。由表4和表5看出,MFC-Net在兩個數(shù)據(jù)集的總體分類精度上均優(yōu)于VGG_VD16、VGG_VD16-MSCP、AlexNet- MSCP、DCCNN、APDC-Net、VGG_VD16-SAFF以及DTDCNN,較ACNet稍低;網(wǎng)絡(luò)參數(shù)量低于其余網(wǎng)絡(luò),稍高于DCCNN和APDC-Net。

表4 不同方法在兩個數(shù)據(jù)集上的分類精度 %

表5 不同方法的參數(shù)量

MFC-Net將空洞卷積和滑動窗口多頭自注意力模塊融入金字塔結(jié)構(gòu),使其在遙感影像的場景特征提取上較上述對比網(wǎng)絡(luò)有更優(yōu)的提取和抑制能力,且多特征關(guān)聯(lián)部分能在提取準(zhǔn)確的前提下更好地增強(qiáng)特征信息。

相較于總體分類精度相近的ACNet網(wǎng)絡(luò),雖然ACNet的分類精度略優(yōu)于本文方法,但MFC-Net網(wǎng)絡(luò)的參數(shù)量僅為其十六分之一,其他參數(shù)量較少的網(wǎng)絡(luò)分類精度較低。因此,結(jié)合考慮精度和參數(shù)量的綜合表現(xiàn),MFC-Net網(wǎng)絡(luò)具有一定的可用性。

2.5 消融實驗

本文方法中添加空洞卷積模塊、滑動窗口多頭自注意力模塊以及特征關(guān)聯(lián)模塊。本小節(jié)使用NWPU數(shù)據(jù)集對本文方法進(jìn)行消融實驗,驗證各個模塊的有效性。表6為消融實驗的結(jié)果。

表6 消融實驗

從表6結(jié)果看出,滑動窗口多頭自注意力模塊和空洞卷積模塊對網(wǎng)絡(luò)的提升效果相當(dāng)。兩個模塊結(jié)合在一起能更有效地提高分類精度,結(jié)合多尺度特征關(guān)聯(lián)模塊能達(dá)到最優(yōu)效果。主要原因是僅使用空洞卷積雖然能聯(lián)系上下文語義信息,但卻無法更多地關(guān)注關(guān)鍵特征。引入滑動窗口多頭自注意力模塊后,可以在空間域上增強(qiáng)通過空洞卷積所獲得的特征,從而更好地關(guān)注關(guān)鍵特征,因此能有更好的效果。

3 結(jié)束語

MFC-Net以ResNet18為多尺度提取網(wǎng)絡(luò),使用特征金字塔結(jié)構(gòu)多尺度融合的基礎(chǔ)框架。此外,MFC-Net結(jié)合空洞卷積模塊和滑動窗口多頭自注意力機(jī)制模塊,以獲得圖像多尺度特征信息、多尺度注意力獲取以及多尺度特征圖像有效融合的效果。同時,MFC-Net采用多尺度特征關(guān)聯(lián)來增強(qiáng)提取特征之間的信息交互,通過多尺度特征加和的形式增強(qiáng)最終特征,最后進(jìn)行有效的場景分類。實驗結(jié)果表明,在兩個大型且具有挑戰(zhàn)性的數(shù)據(jù)集上,場景分類總體精度較高。MFC-Net在多尺度圖像獲取部分過濾小尺寸圖像,使用大尺寸圖像結(jié)合空洞卷積的方式來提取局部、小區(qū)域的特征信息。此外,MFC-Net網(wǎng)絡(luò)內(nèi)部使用Swin Transformer多頭自注意力模塊以增強(qiáng)特征提取效果。實驗結(jié)果證明該方法能有效提高分類精度,較Transformer類網(wǎng)絡(luò),參數(shù)量更少、時間成本降低,表明了MFC-Net網(wǎng)絡(luò)的優(yōu)越性。后續(xù)將研究在多尺度圖像融合部分中添加有效的判斷機(jī)制,提高特征增強(qiáng)的有效性。

猜你喜歡
尺度注意力卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
財產(chǎn)的五大尺度和五重應(yīng)對
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
宇宙的尺度
9
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法