国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多層級(jí)特征增強(qiáng)聚合的遙感圖像細(xì)小水體提取

2024-01-17 08:57:18孟月波劉光輝
關(guān)鍵詞:細(xì)小特征提取語(yǔ)義

孟月波,王 靜,劉光輝

(西安建筑科技大學(xué)信息與控制工程學(xué)院,陜西 西安 710055)

0 引言

水體提取作為遙感圖像地物分割中的一個(gè)重要任務(wù),包含對(duì)河流、湖泊、坑塘及水庫(kù)等豐富類型的提取,在水資源監(jiān)測(cè)和自然災(zāi)害評(píng)估等方面具有重要作用[1]。目前高分辨率遙感圖像水體提取方法在特征簡(jiǎn)單的大中型水體上呈現(xiàn)出較優(yōu)的提取結(jié)果,但對(duì)于紋理、輪廓、光譜特征各有差異的細(xì)小水體提取的性能較差。細(xì)小水體是小尺度水體及細(xì)長(zhǎng)狹窄水體的總稱,在遙感圖像中展現(xiàn)出多樣的屬性和細(xì)節(jié)信息[2],具有像素占比較少、特征不明顯等特點(diǎn)。其中細(xì)小水體特征不明顯主要表現(xiàn)在外部邊界不清晰、紋理特征不突出、與鄰近背景相似度高。因此,在遙感圖像中可以捕獲到的目標(biāo)有效特征少且目標(biāo)容易受到相似目標(biāo)和其他地物陰影等背景噪聲的干擾,這使得細(xì)小水體的精確提取更具挑戰(zhàn)性。傳統(tǒng)遙感圖像水體提取方法處理流程繁瑣且特征表達(dá)能力弱,難以滿足不同區(qū)域細(xì)小水體提取對(duì)精度的要求。

隨著深度學(xué)習(xí)的不斷發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)憑借其較強(qiáng)的深層次特征提取能力及非線性擬合能力被廣泛應(yīng)用于語(yǔ)義分割領(lǐng)域,在遙感圖像水體提取方面取得了諸多研究成果[3-4]。文獻(xiàn)[5]運(yùn)用FCN提取水體相比傳統(tǒng)算法取得最優(yōu)解,但由于下采樣路徑多次池化操作逐漸降低輸入特征圖的分辨率,且細(xì)小水體自身空間分布較少,導(dǎo)致目標(biāo)細(xì)節(jié)信息不斷減少甚至消失,提取精度明顯下降。文獻(xiàn)[6-7]針對(duì)細(xì)節(jié)信息損失致使細(xì)小水體分割結(jié)果變差的問(wèn)題,提出了改進(jìn)的U-Net編解碼網(wǎng)絡(luò),通過(guò)強(qiáng)化下采樣結(jié)構(gòu)和改變跳躍連接方式增強(qiáng)低維特征信息,彌補(bǔ)空間信息的損失,但細(xì)小目標(biāo)很難通過(guò)跳躍連接恢復(fù),從而影響細(xì)小水體預(yù)測(cè)結(jié)果。文獻(xiàn)[8]在跳躍連接中添加殘差卷積結(jié)構(gòu)實(shí)現(xiàn)特征提取,增強(qiáng)中間層特征表達(dá),但其直接在整張?zhí)卣鲌D上進(jìn)行操作,未考慮細(xì)小目標(biāo)的空間位置信息。文獻(xiàn)[9]設(shè)計(jì)了中間層特征切分上采樣模塊用于自然圖像分割,通過(guò)擴(kuò)大區(qū)域內(nèi)的目標(biāo)提高其關(guān)注度,但特征提取能力欠佳,且網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于冗余造成模型參數(shù)量較大。因此,本文認(rèn)為結(jié)合特征切分從空間維度上放大細(xì)小目標(biāo),并設(shè)計(jì)高效輕量的重點(diǎn)區(qū)域特征提取結(jié)構(gòu)是解決遙感圖像細(xì)小水體有效信息提取量少的有效思路。

由于遙感圖像中細(xì)小水體形狀特征多變,紋理空間特征豐富,淺層特征無(wú)法滿足細(xì)小水體的精準(zhǔn)提取。文獻(xiàn)[10]采用普通卷積作為骨干網(wǎng)絡(luò)提取圖像特征,但受限于卷積計(jì)算,小范圍感受野不利于充分利用圖像全局上下文信息進(jìn)行特征捕獲及更深層次的特征疊加,故選取性能優(yōu)異的骨干網(wǎng)絡(luò)挖掘穩(wěn)定深層特征是細(xì)小水體精確提取的前提。文獻(xiàn)[11-12]將編碼器編碼特征輸入到4個(gè)不同擴(kuò)張率的并行擴(kuò)張卷積中進(jìn)行學(xué)習(xí),提取更豐富的深層次上下文特征,但膨脹率過(guò)大使得相鄰像素?zé)o法參與運(yùn)算,不利于圖像連續(xù)信息的提取,導(dǎo)致細(xì)小水體分割效果較差,如何更好地利用空洞卷積進(jìn)一步獲取深層次語(yǔ)義特征是改善細(xì)小水體分割效果的關(guān)鍵問(wèn)題。

細(xì)小目標(biāo)亮度、輪廓等信息特征響應(yīng)弱,易于地面其他相似物體相混淆是影響細(xì)小水體分割精度和實(shí)際效果的關(guān)鍵問(wèn)題之一。一方面,文獻(xiàn)[12-13]提出利用注意力機(jī)制增強(qiáng)網(wǎng)絡(luò)對(duì)弱目標(biāo)信息的感知,抑制圖像噪聲信息,但不同層級(jí)特征語(yǔ)義信息都有差異,僅將關(guān)注機(jī)制應(yīng)用于單層特征圖而忽略了不同層級(jí)特征的重要性,無(wú)法發(fā)揮其最大優(yōu)勢(shì)。另一方面,解碼階段將具有較高語(yǔ)義信息的高層特征與富含空間細(xì)節(jié)的低層特征進(jìn)行特征聚合,獲取更具有判別力的特征表達(dá)。文獻(xiàn)[14]通過(guò)拼接操作聚合不同層級(jí)特征,但簡(jiǎn)單的聚合方式并未充分利用高低層特征之間的互補(bǔ)性,且額外噪聲會(huì)干擾高層水體語(yǔ)義特征的表達(dá)。文獻(xiàn)[15]設(shè)計(jì)特征聚合模塊,通過(guò)對(duì)直接拼接后的特征輔以全局池化操作,生成全局上下文優(yōu)化特征聚合過(guò)程,但其未考慮高低層特征之間的語(yǔ)義差距,直接利用低層特征幫助高層特征恢復(fù)圖像細(xì)節(jié),造成有用信息的丟失和無(wú)用信息的冗余,從而使網(wǎng)絡(luò)模型的性能下降。

基于以上分析,本文基于U型網(wǎng)絡(luò)提出一種多層級(jí)特征增強(qiáng)聚合的遙感圖像細(xì)小水體語(yǔ)義分割方法(multi-level feature enhancement aggregation network,MLEA-Net),旨在充分保留遙感圖像中的空間細(xì)節(jié)信息,同時(shí)獲取高質(zhì)量的語(yǔ)義上下文信息,改善最終輸出特征圖的質(zhì)量,提高遙感圖像細(xì)小水體的分割精度和效果。

1 相關(guān)研究工作

1.1 U型網(wǎng)絡(luò)

U型網(wǎng)絡(luò)采用編解碼結(jié)構(gòu)學(xué)習(xí)特征的豐富層次表達(dá),編碼部分對(duì)輸入圖像進(jìn)行特征提取,解碼部分將編碼端輸出特征圖通過(guò)上采樣還原至原圖尺寸,結(jié)合跳躍連接融合多尺度特征信息,提供高低特征圖的同時(shí)加速模型收斂。U型網(wǎng)絡(luò)利用特殊對(duì)稱結(jié)構(gòu)在高分辨率圖像中獲取局部特征,在低分辨率圖像中捕捉全局特征,實(shí)現(xiàn)端到端分割,被廣泛應(yīng)用于遙感影像水體提取任務(wù)。U型結(jié)構(gòu)如圖1所示。

1.2 CSPDarknet53特征提取

遙感圖像中細(xì)小水體具有形狀特征多變,紋理空間信息豐富等特點(diǎn),其深度特征利用不足不能較好地滿足細(xì)小水體的識(shí)別與提取。深度卷積神經(jīng)網(wǎng)絡(luò)CSPDarknet53[16]引入了CSP-Resblock_body模塊,通過(guò)截?cái)嗵荻攘鞯姆绞椒乐惯^(guò)多重復(fù)梯度信息,既增強(qiáng)了網(wǎng)絡(luò)對(duì)目標(biāo)特征的學(xué)習(xí)能力,又解決了深層次網(wǎng)絡(luò)帶來(lái)的計(jì)算瓶頸問(wèn)題,大幅節(jié)省計(jì)算內(nèi)存的消耗;同時(shí)合理的卷積層數(shù)量設(shè)計(jì)使其感受野可覆蓋更大的圖像面積。所采用的CSPDarknet53由stem,stage0-stage4組成。stage0-stage4分別對(duì)應(yīng)5個(gè)CSP-Resbody模塊,5個(gè)模塊中分別由1,2,8,8四個(gè)小的殘差塊組成,其中利用3×3卷積代替maxpool層實(shí)現(xiàn)下采樣。另外網(wǎng)絡(luò)前端的stem由1個(gè)3×3的卷積層組成。CSPDarknet53網(wǎng)絡(luò)及CSP-Resbody模塊如圖2所示。

圖2 CSPDarknet53 網(wǎng)絡(luò)結(jié)構(gòu)及CSP-Resbody模塊Fig.2 CSPDarknet53 Network and CSP-Resbody module

圖2(a)為CSPDarknet53的網(wǎng)絡(luò)結(jié)構(gòu),圖2(b)為CSP-Resbody模塊,該模塊在保持原來(lái)Bottleneck的基礎(chǔ)上,利用卷積的方式將輸入的特征分為兩個(gè)部分,其中一部分做ResNet的殘差卷積,另一部分為1×1卷積,最后與另一部分進(jìn)行cat拼接操作,與單分支殘差塊相比,獲取了更豐富的梯度融合信息且降低了計(jì)算量。

1.3 非對(duì)稱卷積塊

與普通卷積相比,非對(duì)稱卷積塊[17](asymmetric convolution block,ACB)用兩個(gè)一維非對(duì)稱卷積分別從水平和垂直方向?qū)Ψ胶司矸e進(jìn)行特征增強(qiáng),減輕冗余信息對(duì)捕獲代表性特征的影響,然后將3個(gè)并行卷積核獲取的信息集中到方核卷積,在不增加額外計(jì)算量的基礎(chǔ)上,提取到豐富的空間細(xì)節(jié)信息,保證網(wǎng)絡(luò)對(duì)各切分區(qū)域內(nèi)目標(biāo)具有良好地辨識(shí)能力,利用式(1)、式(2)描述非對(duì)稱卷積塊:

CXI=Lconv3×3(XI)+Lconv1×3(XI)+Lconv3×1(XIi),

(1)

(2)

式中,XI和XI1分別表示輸入特征和輸出特征,Var(·)和E(·)表示輸入的方差函數(shù)和期望值,ε是保持?jǐn)?shù)值穩(wěn)定性的常數(shù),γ和β是BN層的兩個(gè)可訓(xùn)練參數(shù),σ(·)表示ReLU激活函數(shù)。

2 多層級(jí)特征增強(qiáng)聚合的遙感圖像細(xì)小水體語(yǔ)義分割模型

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文方法的網(wǎng)絡(luò)基本結(jié)構(gòu)如圖3所示,采用U型網(wǎng)絡(luò)框架,具體包括4個(gè)部分:特征提取網(wǎng)絡(luò)、細(xì)節(jié)特征增強(qiáng)模塊(detail feature enhancement module,DFEM)、全局局部空間金字塔池化模塊(global local-spatial pyramid pooling,GL-SPP)、雙分支聚合模塊(two-branch fusion module,TBFM)。特征提取網(wǎng)絡(luò)以CSPDarknet53為主干網(wǎng)絡(luò)采用stem,stage0-stage4卷積塊連續(xù)下采樣,得到多分辨率特征信息{E0,E1,E2,E3,E4}。將含豐富空間信息的淺中層特征{E1,E1}輸入至DFEM模塊,擴(kuò)大不同尺度下局部區(qū)域的細(xì)小目標(biāo)并捕獲更加有效的上下文信息和全局信息,得到描述不同語(yǔ)義信息的特征{PE1,PE2},采用逐像素相加的方式將其與上一階段的特征合并得到特征{DE1,DE2},以便后期編碼階段融合。編碼末端特征E4通過(guò)GL-SPP模塊生成優(yōu)化特征EP4,實(shí)現(xiàn)深層次語(yǔ)義信息的充分提取和有效編碼。在解碼端4個(gè)A-TBFM模塊用于逐步完成上采樣特征聚合和恢復(fù),通過(guò)相互融合和引導(dǎo)生成豐富特征{D1,D2,D3,D4},低層特征提供更精確的空間定位,高級(jí)特征增強(qiáng)信息的長(zhǎng)期依賴性,提供更準(zhǔn)確的類別一致性判斷。通過(guò)4×4轉(zhuǎn)置卷積將D1還原到原圖像大小,使用3×3卷積將D0進(jìn)行通道壓縮,經(jīng)由SigMoid函數(shù)映射完成輸出。

圖3 網(wǎng)絡(luò)基本結(jié)構(gòu)Fig.3 Network basic structure

2.2 細(xì)節(jié)特征增強(qiáng)模塊

中間層特征復(fù)用有助于網(wǎng)絡(luò)對(duì)編碼特征的增強(qiáng)和利用,是解決遙感圖像細(xì)小水體提取目標(biāo)有效信息量少的有效途徑,其處理方式通常直接對(duì)整張?zhí)卣鲌D進(jìn)行卷積操作。但對(duì)細(xì)小水體而言,其往往分布于圖像的某一小塊區(qū)域內(nèi),這種特征提取過(guò)程未考慮細(xì)小水體的空間位置信息,對(duì)處于圖像某局部區(qū)域細(xì)小目標(biāo)缺乏很好的關(guān)注,且隨著特征提取層數(shù)的變多無(wú)法避免地增加了模型參數(shù)量。此外,根據(jù)可視化深度卷積神經(jīng)網(wǎng)絡(luò),淺中層特征攜帶大量的空間細(xì)節(jié)信息,而高層特征基本不包含[18]。因此,如何以淺中層特征為主高效地捕獲豐富信息是實(shí)現(xiàn)遙感圖像細(xì)小水體提取的關(guān)鍵。

本文設(shè)計(jì)的DFEM模塊從空間維度上劃分淺中層特征,生成局部擴(kuò)大區(qū)域以充分利用所攜帶的空間細(xì)節(jié)信息,然后將其輸送到混合分層非對(duì)稱卷積特征提取塊(mixed layered asymmetric convolution feature extraction block,AFEB)獲取對(duì)應(yīng)區(qū)域下的語(yǔ)義類別信息,得到更具空間區(qū)域性質(zhì)的上下文信息和全局信息,利用參數(shù)共享機(jī)制加強(qiáng)各局部擴(kuò)大特征之間的聯(lián)系,最后將獲取的特征與解碼階段對(duì)應(yīng)輸出特征融合生成更全面的特征表達(dá),達(dá)到增強(qiáng)細(xì)小目標(biāo)特征辨識(shí)能力的目的。DFEM模塊具體如圖4所示,將DFEM模塊附著在主干網(wǎng)絡(luò)編碼階段{E1,E2}處,獲取更加有效的淺中層特征。

圖4 DFEM模塊Fig.4 DFEM module

以E1為例分析說(shuō)明DFEM模塊,當(dāng)高度為H,寬度為W,通道數(shù)為C的輸入特征經(jīng)切分操作之后,得到2×2個(gè)張量大小為H/2×W/2×C的局部區(qū)域切分塊E1i,利用式(3)將其還原至原特征大小,生成局部擴(kuò)大區(qū)域特征FE1i:

FE1i=Lupsampling(E1i) (FE1i=1,2,3,4),

(3)

式(3)中,Lupsampling(·)表示雙線性插值上采樣。

AFEB具體結(jié)構(gòu)如圖5所示,以通道數(shù)為C的FE11為例,經(jīng)方形卷積和帶有擴(kuò)張率的非對(duì)稱卷積構(gòu)成兩條分支進(jìn)行特征提取,提升卷積層的實(shí)際感受野,各分支分別對(duì)特征圖維度進(jìn)行壓縮,之后將不同尺寸卷積核提取的特征在通道維度上進(jìn)行拼接。利用擴(kuò)張卷積的分層加法,在多尺度上下文中保留層次相關(guān)性,在特征圖的計(jì)算中涉及更多像素。因此,疊加擴(kuò)張非對(duì)稱卷積特征提取層,獲得不同尺度增強(qiáng)特征P,V,獲取過(guò)程如式(4)、式(5)所示;結(jié)合兩層生成的特征圖得到深層次融合特征K,獲取過(guò)程如式(6)所示。

圖5 AFEB具體結(jié)構(gòu)Fig.5 AFEB specific structure

P=Lconv1×1×C′(FE11)·
‖LACB3×3×C′,rate=2(Lconv1×1×C′(FE11)),

(4)

V=Lconv1×1×C′(FE11)·
‖LACB3×3×C′,rate=4(Lconv1×1×C′(FE11)),

(5)

K=P⊕V,

(6)

式中,‖表示特征拼接,⊕表示按元素相加,LACB3×3×C′,rate=i(·)表示擴(kuò)張率為i的非對(duì)稱卷積塊。

將全局平均池化操作擴(kuò)展到特征提取中得全局特征信息,將該特征結(jié)合式(5)生成深層次融合特征K,通過(guò)式(7)獲取更具空間區(qū)域性質(zhì)的上下文信息表征AE11,其大小與初始特征E11保持一致。最后,將{AE11,AE12,AE13,AE14}在空間維度上重新拼接,生成通道數(shù)為C,高度為2H,寬度為2W的淺層優(yōu)化特征PE1。該操作在不同的切分區(qū)域提取對(duì)應(yīng)區(qū)域下的語(yǔ)義類別信息,從而能夠關(guān)注區(qū)域內(nèi)的細(xì)小目標(biāo),提供更加有效的淺中層特征信息。

AE11=GP(K)⊙K,

(7)

式(7)中,⊙表示按元素相乘,GP表示全局池化操作。

2.3 全局局部空間金字塔池化模塊

高層次上下文語(yǔ)義信息的充分提取和有效編碼是緩解淺層特征無(wú)法滿足具有特征多樣性的細(xì)小水體精確提取的常用手段,而擴(kuò)張卷積和空間金字塔池化是捕獲高質(zhì)量語(yǔ)義上下文信息的有效模塊。通常,以級(jí)聯(lián)或并聯(lián)的方式堆疊不同擴(kuò)展率的擴(kuò)張卷積增大感受野,但文獻(xiàn)[19]表明積極增加的擴(kuò)展因子會(huì)導(dǎo)致相鄰單元之間的空間不一致,以及無(wú)法聚合小對(duì)象的局部特征。此外,擴(kuò)張卷積可能會(huì)因?yàn)楦惺芤斑^(guò)大造成從特征圖中提取到的有用信息量較少,使其失去建模能力。基于此,本文提出一個(gè)GL-SPP模塊(見圖6),用于提升網(wǎng)絡(luò)感受野的同時(shí)減少特征信息的丟失,整合水體更多尺度的語(yǔ)義信息。

圖6 GL-SPP模塊Fig.6 GL-SPP module

GL-SPP模塊通過(guò)堆疊遞增遞減不同擴(kuò)張率的3×3卷積核提取E4特征,獲取像素點(diǎn)周圍的特征信息;遞增的擴(kuò)張因子提取覆蓋上下文的特征,保證其最大感受野可以獲取全局語(yǔ)義信息;遞減的擴(kuò)張因子逐漸恢復(fù)相鄰單元之間的一致性,聚合前端分散的局部特征;同時(shí),多條并行支路與初始特征E4利用相加操作將具有不同感受野的擴(kuò)張卷積融合,利用式(8)進(jìn)行計(jì)算,得到輸出特征SE4,獲得周圍特征信息和大感受野的同時(shí)減少信息丟失。其次,利用池化核大小分別為13×13,9×9,5×5,1×1的空間金字塔池化進(jìn)一步分離出最顯著的上下文特征,獲取特征圖不同局部感受野及全局感受野的特征信息,對(duì)它們進(jìn)行拼接操作及1×1卷積將其通道數(shù)調(diào)整為與E4相同。最后,與殘差進(jìn)行融合獲得多尺度特征EP4,增強(qiáng)高階水體語(yǔ)義表達(dá)能力的同時(shí)加速梯度反向傳播。

(8)

式(8)中,conv1-conv4表示依次疊加擴(kuò)張率為1,2,4,8的3×3卷積,conv5包含擴(kuò)張率為1,2,4,8,3的3×3卷積,conv6包含擴(kuò)張率為1,2,4,8,3,1的3×3卷積。

2.4 注意力引導(dǎo)的雙分支聚合模塊

融合更多特征信息對(duì)于細(xì)小水體識(shí)別取得優(yōu)秀的分割效果至關(guān)重要,但跨越不同層級(jí)特征間的語(yǔ)義差距也是細(xì)小水體分割面臨的一個(gè)挑戰(zhàn)。語(yǔ)義差距通常是指低層和高層語(yǔ)義特征之間的差異。一般而言,低層特征包含邊緣、顏色和紋理等空間細(xì)節(jié),但缺乏高級(jí)語(yǔ)義信息;而高層特征包含更多的判別性信息,如語(yǔ)義信息,卻缺乏空間細(xì)節(jié)信息。為了使這些信息相互補(bǔ)充以獲得更具有判別力的特征表示,進(jìn)行多層次的特征融合是必要的。待融合的低分辨率高層特征通過(guò)轉(zhuǎn)置卷積或者雙線性插值的上采樣操作恢復(fù)到與低層特征相同的分辨率,使得兩層特征圖在空間尺寸上保持一致,然后經(jīng)沿通道拼接或逐像素相加的方式進(jìn)行融合。然而,由于特征結(jié)構(gòu)以及特征內(nèi)容本身的限制,不同層級(jí)之間的特征簡(jiǎn)單融合勢(shì)必會(huì)存在語(yǔ)義差距[20]。例如高低層特征的每個(gè)位置并不都是同等有效的,直接利用相同的權(quán)重來(lái)融合,忽略了多層級(jí)特征的不同重要性。并且,直接融合勢(shì)必會(huì)引入低層特征的背景噪聲。

因此,針對(duì)細(xì)小水體特征響應(yīng)弱,易與地面其他相似目標(biāo)混淆的問(wèn)題,本文提出A-TBFM模塊將通道注意力和空間注意力結(jié)合,用于特征聚合強(qiáng)化關(guān)鍵特征信息,緩解不同層級(jí)特征之間語(yǔ)義不一致的問(wèn)題,減少背景噪聲對(duì)識(shí)別任務(wù)的干擾,生成表征信息更加豐富的語(yǔ)義特征圖,實(shí)現(xiàn)不同尺度特征有效融合。即深入挖掘和使用不同尺度的圖像信息,并將輸出具有較強(qiáng)語(yǔ)義信息的高層特征反饋至低層,在補(bǔ)充低層特征信息的同時(shí)引導(dǎo)其進(jìn)行學(xué)習(xí),使得最終低高層特征分別提供更精確的空間定位和類別一致性判斷。

本文使用4個(gè)雙分支聚合模塊逐步完成特征聚合和恢復(fù),高層特征分支采用經(jīng)轉(zhuǎn)置卷積上采樣獲取的語(yǔ)義信息,低層特征分支中包含下采樣的語(yǔ)義信息和DFEM模塊優(yōu)化的語(yǔ)義信息,為實(shí)現(xiàn)小水體分割提供更詳細(xì)的特征信息,A-TBFM模塊具體結(jié)構(gòu)如圖7所示。為了充分利用低層特征信息,A-TBFM模塊首先利用3×3深度可分離卷積層對(duì)其進(jìn)行建模,并在卷積操作后附加歸一化BN層,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以提高訓(xùn)練效率,強(qiáng)化網(wǎng)絡(luò)泛化能力;再經(jīng)過(guò)激活函數(shù)ReLu層,增加網(wǎng)絡(luò)的非線性表達(dá)能力,緩解梯度消失的問(wèn)題,之后生成低級(jí)優(yōu)化特征L。同時(shí),通道數(shù)為C、高度為H、寬度為W的高級(jí)語(yǔ)義特征經(jīng)式(9)-式(11),獲得通道數(shù)為C的區(qū)域重塑特征B,A,D。B∈RN×C,{A,D}∈RC×N,其中N=H×W:

B=Lreshape(H)T,

(9)

A=Lreshape(H),

(10)

D=Lreshape(H)。

(11)

采用式(12)計(jì)算A和B的通道注意力圖S∈RC×C。具體來(lái)說(shuō),在A與B之間進(jìn)行矩陣相乘,計(jì)算相似度,在最后一個(gè)維度上執(zhí)行softmax操作。這個(gè)過(guò)程相當(dāng)于通道注意,即利用所有對(duì)應(yīng)位置的空間信息來(lái)建模通道相關(guān)性,softmax激活函數(shù)主要是求特征圖中每個(gè)像素與圖片中的其他圖像的歸一化相關(guān)系數(shù)。最后,(C,C)通道注意力矩陣中第i行第j列元素的值為圖中第i通道像素點(diǎn)與第j通道像素點(diǎn)之間的相關(guān)性。接著,通過(guò)式(13)生成具有全局上下文信息的高層通道增強(qiáng)特征Z。對(duì)通道注意力矩陣ST和D之間執(zhí)行矩陣乘法,并將結(jié)果再次重塑為RC×H×W。這樣得到的輸出是考慮全局信息的特征圖,每個(gè)位置的輸出值為所有其他通道的加權(quán)和,用于建模特征映射之間的長(zhǎng)期語(yǔ)義依賴關(guān)系。最后,高層通道增強(qiáng)特征Z與低級(jí)優(yōu)化特征L相乘為其提供加權(quán)參數(shù),獲取圖像的通道語(yǔ)義關(guān)系y。

S=Lsoftmax(A×B),

(12)

Z=(Lreshape(ST×D)),

(13)

式中,×表示矩陣相乘,即對(duì)于矩陣運(yùn)算ST×D,ST∈RC×C,D∈RC×N,則結(jié)果為RC×N。

為獲得特征圖的空間注意力信息,對(duì)加權(quán)低級(jí)優(yōu)化特征y通過(guò)平均池化操作壓縮通道特征信息,采用SigMoid激活函數(shù)獲取特征圖在寬度和高度維度的空間權(quán)重,生成子區(qū)域特征相關(guān)性注意力矩陣y′,y′∈R1×H×W,將y′結(jié)合高層通道增強(qiáng)特征Z得到區(qū)域間特征空間位置信息的注意力表征。最后將其與高層特征和帶有全局上下文信息的通道特征融合,通過(guò)式(14)獲取兼具空間定位信息和上下文信息的高級(jí)語(yǔ)義特征F,F∈RC×H×W:

F=H+y+y′⊙Z,

(14)

式中,⊙表示按元素相乘,+表示像素級(jí)相加。

2.5 損失函數(shù)

本文采用如式(15)所示損失函數(shù),采用逐像素二元交叉熵?fù)p失(binary cross entropy,BCE)和Dice損失函數(shù)的混合損失函數(shù)進(jìn)行計(jì)算:

L=Lbce+LDice。

(15)

Lbce和LDice計(jì)算公式為

(16)

(17)

式中,tij為某像素真實(shí)類別標(biāo)簽,pij為某像素預(yù)測(cè)類別標(biāo)簽,W和H分別為圖像的寬度和高度。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

3.1.1數(shù)據(jù)集

1) GOQQ數(shù)據(jù)集

GOQQ數(shù)據(jù)集以青藏高原湖泊水體數(shù)據(jù)集[8]為基礎(chǔ)進(jìn)行擴(kuò)充豐富水體多樣性,補(bǔ)充研究區(qū)域?yàn)榍嗪J?水體類型包括湖泊、河流、水庫(kù)等。青海和青藏高原屬于典型寒旱區(qū)域,不同于一般區(qū)域,寒旱區(qū)地形復(fù)雜,山脈河谷較多,其遙感圖像易受到山體陰影、干涸河床、植被等影響;且因天氣因素影響,寒旱區(qū)降水量少且分布不均,使水體具有小尺度目標(biāo)以及細(xì)長(zhǎng)狹窄目標(biāo)多,排布較為分散等特點(diǎn),適合細(xì)小水體遙感信息提取。目前對(duì)于細(xì)小水體的定義尚未形成嚴(yán)格的標(biāo)準(zhǔn),本文參考多種研究將占據(jù)5~30個(gè)像素的水體定義為細(xì)小水體。選取第14級(jí)谷歌遙感圖像作為研究數(shù)據(jù),共截取50張大小為256×256的包含細(xì)小水體的圖像構(gòu)成補(bǔ)充數(shù)據(jù)集,最終GOQQ數(shù)據(jù)集按照訓(xùn)練集(5 460張),驗(yàn)證集(688張)和測(cè)試集(674張)進(jìn)行劃分。

2) LoveDA數(shù)據(jù)集

為進(jìn)一步檢驗(yàn)網(wǎng)絡(luò)模型的穩(wěn)定性,本文選擇在LoveDA[21]數(shù)據(jù)集上進(jìn)行模型應(yīng)用驗(yàn)證。該數(shù)據(jù)集共5 987幅高空間分辨率遙感影像,包含城市和農(nóng)村兩個(gè)區(qū)域,地理環(huán)境風(fēng)格差異大且水生環(huán)境復(fù)雜,包含眾多類型細(xì)小水體,適合作為驗(yàn)證細(xì)小水體提取模型穩(wěn)定性的研究區(qū)域。由于測(cè)試集標(biāo)簽未開源,則將訓(xùn)練集和驗(yàn)證集合并,重新劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。圖像尺寸裁剪為512×512,去除標(biāo)注錯(cuò)誤、存在黑邊區(qū)域和純背景標(biāo)簽的圖像,減小數(shù)據(jù)誤差及樣本不平衡對(duì)實(shí)驗(yàn)的影響,最終選用訓(xùn)練集5 313幅,驗(yàn)證集1 518幅,測(cè)試集759幅。

3.1.2評(píng)價(jià)指標(biāo)

準(zhǔn)確率、召回率、精確率、F1以及平均交并比是遙感圖像語(yǔ)義分割任務(wù)常采用的評(píng)價(jià)指標(biāo),具體計(jì)算公式為

(18)

(19)

(20)

(21)

(22)

式中,VTP為真正例,表示正樣本被判斷為正確樣本的數(shù)目;VFN為假反例,表示正樣本被判斷為錯(cuò)誤樣本的數(shù)目;VFP為假正例,表示負(fù)樣本被判斷為正確樣本的數(shù)目;VTN為真反例,表示負(fù)樣本被判斷為錯(cuò)誤樣本的數(shù)目。

3.2 實(shí)驗(yàn)環(huán)境及訓(xùn)練策略

本文及所對(duì)比算法均在Ubuntu系統(tǒng)下進(jìn)行,GPU型號(hào)為RTX2080Ti,環(huán)境配置為CUDA11.2+python3+pytorch1.7.0。主干網(wǎng)絡(luò)CSPDarkNet53選擇ImageNet[22]預(yù)訓(xùn)練結(jié)果作為初始化參數(shù),采用Adam算法對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,GOQQ數(shù)據(jù)集Batch Size設(shè)置為8,LoveDA數(shù)據(jù)集Batch Size設(shè)置為4,動(dòng)態(tài)改變網(wǎng)絡(luò)學(xué)習(xí)率大小。在訓(xùn)練網(wǎng)絡(luò)過(guò)程中,采用數(shù)據(jù)增強(qiáng)策略,包括對(duì)比度變換、隨機(jī)水平垂直翻轉(zhuǎn)以及圖像隨機(jī)旋轉(zhuǎn)90°。此外,訓(xùn)練的總迭代次數(shù)設(shè)置為120,以保證各模型在訓(xùn)練過(guò)程中均可達(dá)到收斂。使用早停策略,避免過(guò)擬合。

3.3 GOQQ數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證本文方法的有效性,與SegNet,U-Net,DeeplabV3+,DANet,Linknet等模型進(jìn)行對(duì)比實(shí)驗(yàn),從定量與定性兩個(gè)方面綜合評(píng)價(jià)本文方法的性能。對(duì)比實(shí)驗(yàn)的定量性能指標(biāo)如表 1所示,所提模型MLEA-Net在準(zhǔn)確率、召回率、精確率、F1和平均交并比等精度指標(biāo)上分別達(dá)到了96.91%,96.90%,95.61%,96.23%和93.82%,與各網(wǎng)絡(luò)模型相比都有顯著的提升。因此,表1的對(duì)比結(jié)果證明了所提模型在細(xì)小水體分割任務(wù)中的有效性。

表1 GOQQ數(shù)據(jù)集不同算法結(jié)果對(duì)比Tab.1 Comparison of results of different algorithms in GOQQ dataset

如圖8所示,選擇5張典型影像進(jìn)行分析,進(jìn)一步突出本文方法的可行性。其中影像1有大面積和分散的不規(guī)則小目標(biāo)水體,可將其用來(lái)驗(yàn)證模型對(duì)于小目標(biāo)水體的識(shí)別效果;影像2包含大量彼此非常接近并且具有微小輪廓的小目標(biāo)水體;影像3,4用來(lái)分析細(xì)長(zhǎng)目標(biāo)的分割性能;影像5有較明顯的山脈陰影干擾區(qū)域,用于探究模型受陰影干擾時(shí)的分割性能。為了更清晰地對(duì)比各模型的提取結(jié)果,在圖中用虛線框圍出區(qū)域?yàn)榉指罴?xì)節(jié)對(duì)比和漏分及誤分情況。

圖8 不同網(wǎng)絡(luò)模型在GOQQ數(shù)據(jù)集上的預(yù)測(cè)結(jié)果對(duì)比Fig.8 Comparison of prediction results of different network models of GOQQ dataset

分析圖8的分割結(jié)果圖細(xì)節(jié),在圖8(c)中,無(wú)論是排列分散或密集的小目標(biāo)水體都存在被漏分割的現(xiàn)象,細(xì)長(zhǎng)水體的連接處也被誤分為背景,受高山陰影干擾的區(qū)域水體將背景誤分為水體,這種誤分割主要是因?yàn)镾egNet的編碼器深度不夠?qū)е绿卣魈崛〔粔虺浞?無(wú)法很好地處理區(qū)域內(nèi)的陰影干擾,且網(wǎng)絡(luò)中的最大池化索引無(wú)法使編解碼特征有效聚合,達(dá)不到增強(qiáng)目標(biāo)語(yǔ)義的作用。圖8(d)中,U-Net網(wǎng)絡(luò)對(duì)水體分割效果較好,其通過(guò)在上采樣過(guò)程中,跳躍連接相同尺寸的特征圖并采用拼接操作進(jìn)行特征融合,在受高山陰影干擾的水體區(qū)域中,水體的輪廓可以大概被分割出來(lái),但仍會(huì)將小部分陰影錯(cuò)誤識(shí)別為水體。由于其利用的2倍上采樣倍數(shù)小,特征保留相對(duì)比較豐富,除極小水體外大多數(shù)小目標(biāo)水體能夠被識(shí)別出,但在細(xì)長(zhǎng)水體的較細(xì)處出現(xiàn)了中斷,細(xì)節(jié)識(shí)別效果不理想。圖8(e)中,DeepLabV3+模型中使用擴(kuò)張卷積可以緩解由于下采樣過(guò)多使得水體信息丟失的問(wèn)題,但其會(huì)造成局部信息丟失以及長(zhǎng)距離獲取的信息關(guān)聯(lián)減弱,無(wú)法完全正確提取出水體的精細(xì)邊界,如第二列圖中小目標(biāo)水體輪廓分割過(guò)多,第四列圖中細(xì)長(zhǎng)水體的較細(xì)處將背景誤分為水體。圖8(f)中,DANet網(wǎng)絡(luò)不同于ASPP等結(jié)構(gòu)特征聚合獲取上下文,其利用并行注意力機(jī)制分別模擬空間和通道維度中的語(yǔ)義相互依賴性,有效地集成局部特征與全局特征,對(duì)大尺寸水體整體分割表現(xiàn)較好,但缺乏包含豐富空間信息的淺層特征造成小目標(biāo)水體識(shí)別效果較差。圖8(g)中,LinkNet模型編碼部分采用ResNet捕獲豐富特征,且編解碼層采用相加的操作有效增強(qiáng)了語(yǔ)義信息,對(duì)細(xì)長(zhǎng)水體的分割效果較好,如第4列圖中細(xì)長(zhǎng)水體的輪廓連續(xù)完整,但簡(jiǎn)單的逐像素相加的方式,使得背景噪聲影響高階水體語(yǔ)義特征的表達(dá),同時(shí)結(jié)構(gòu)中無(wú)優(yōu)化模塊,缺乏抑制背景噪聲的能力,使得極小目標(biāo)漏分割,山脈陰影與水體難以區(qū)分。圖8(h)是本文方法的分割結(jié)果,從影像一和影像二的分割結(jié)果可以看出,所提模型將分散和密集排布的小目標(biāo)都能夠完整地識(shí)別,且影像一右上方受干擾區(qū)域也未出現(xiàn)誤分割的現(xiàn)象,具有較強(qiáng)的小目標(biāo)分割能力。影像三和影像四中的細(xì)長(zhǎng)水體識(shí)別較為完整連貫,清晰地反映出水體的細(xì)節(jié)部分。由于影像五中山脈陰影與水體具有相似的特征,分割結(jié)果很大程度上受其干擾,對(duì)高山陰影遮擋等干擾因素有較強(qiáng)的區(qū)分性。對(duì)比實(shí)驗(yàn)結(jié)果表明,本文所提模型具有提取細(xì)小水體的能力,提取細(xì)小水體區(qū)域面積準(zhǔn)確且輪廓邊緣信息清晰完整,總體精度較高,優(yōu)于其他水體提取算法。

3.4 LoveDA數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

為驗(yàn)證模型穩(wěn)定性,在LoveDA數(shù)據(jù)集上也評(píng)測(cè)了本文方法,將所提模型與其他5種語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行對(duì)比,定量精度如表2所示。

表2 LoveDA數(shù)據(jù)集不同算法結(jié)果對(duì)比Tab.2 Comparison of results of different algorithms in LoveDA dataset

從表2可以看出,本文提出的MLEA-Net模型在準(zhǔn)確率、召回率、精確率、F1和平均交并比5個(gè)精度指標(biāo)上分別達(dá)到96.04%,89.83%,85.65%,86.27%和85.65%,各項(xiàng)指標(biāo)均高于其他網(wǎng)絡(luò),具有一定的性能優(yōu)勢(shì)。

為比較不同方法的水體提取結(jié)果,從測(cè)試集中選取5幅典型影像進(jìn)行分析,如圖9第1行所示,其中包含植被與人工建筑交錯(cuò)的水體、細(xì)長(zhǎng)和微小水體、不同面積規(guī)則和顏色的水體分布緊湊以及具有陰影和其他地物干擾的水體。

圖9 不同網(wǎng)絡(luò)模型在LoveDA數(shù)據(jù)集上的預(yù)測(cè)結(jié)果對(duì)比Fig.9 Comparison of prediction results of different network models of LoveDA dataset

從圖9可以看出,與其他方法相比,本文方法的水體提取結(jié)果與真值圖最匹配,漏分和錯(cuò)分現(xiàn)象也比較少且輪廓更為準(zhǔn)確清晰。影像一中,小塊水體之間夾雜較細(xì)的中間邊界且右下方水體被植被陰影遮擋著一小部分,對(duì)比方法中間距微小的水體幾乎都被粘連,而本文方法則提取了較為精細(xì)的邊界;影像二微小水體和窄長(zhǎng)的溝渠識(shí)別結(jié)果更連續(xù)和完整,水體的完整性不受河岸周圍植被的影響,且準(zhǔn)確區(qū)分出水體和相鄰的建筑物陰影;影像三中不同面積規(guī)則的坑塘水體分布緊湊,同物異譜現(xiàn)象顯著,本文方法將絕大多數(shù)坑塘都提取出來(lái),與水體特征相似的干涸河床也沒(méi)有被錯(cuò)誤分類為水體;影像四中除本文方法外,與小面積水體特征相似的操場(chǎng)、植被和深色頂棚的建筑物幾乎都存在誤分;影像五中港口處的碼頭和??康拇粚⑺w分割成邊界崎嶇的幾部分,使得在對(duì)水體輪廓的提取過(guò)程中難以保證其完整性,本文方法可以對(duì)大面積水體和微小水體都實(shí)現(xiàn)較為準(zhǔn)確的識(shí)別,然而過(guò)于凹凸的細(xì)節(jié)處沒(méi)有被完全提取出來(lái)。基于以上分析,表明本文方法MLEANet具有較高的穩(wěn)定性,在應(yīng)用于地理環(huán)境風(fēng)格差異大的數(shù)據(jù)集時(shí)也可以表現(xiàn)出較為優(yōu)越的性能。

3.5 消融實(shí)驗(yàn)

為驗(yàn)證MLEA-Net模型各模塊的有效性,在GOQQ遙感數(shù)據(jù)集上開展消融實(shí)驗(yàn)。表3給出了各網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu),所提模型以CSPDarknet53為特征提取網(wǎng)絡(luò),利用轉(zhuǎn)置卷積進(jìn)行特征恢復(fù),輔以跳躍連接減輕信息損失,故將該U型結(jié)構(gòu)作為baseline網(wǎng)絡(luò),DFEM表示細(xì)節(jié)特征增強(qiáng)模塊,GL-SPP表示全局局部空間金字塔池化模塊,A-TBFM表示注意力引導(dǎo)的雙分支聚合模塊。對(duì)比結(jié)果如表4所示。

表3 各模塊組成的方法Tab.3 Method of composition of each module

表4 消融實(shí)驗(yàn)結(jié)果Tab.4 Ablation experiment results

分析表4可得:

1) 以CSPDarknet53為特征提取網(wǎng)絡(luò),5個(gè)指標(biāo)分別為95.43%,94.80%,94.13%,94.46%,91.01%,表明CSPDarknet53能有效增強(qiáng)網(wǎng)絡(luò)特征提取能力,可學(xué)習(xí)到更利于辨別水體的判別信息。

2) 對(duì)比baseline和M1結(jié)構(gòu),通過(guò)在跳躍連接處添加DFEM模塊,準(zhǔn)確率、召回率、F1和平均交并比指標(biāo)分別提高了0.63%,1.52%,0.73%和1.17%,表明DFEM模塊高效利用了編碼端淺中層特征,在保留空間細(xì)節(jié)信息的同時(shí)提升語(yǔ)義表達(dá)能力;對(duì)比M1和M2結(jié)構(gòu),加入GL-SPP模塊后各性能指標(biāo)均有小幅度提升,其中平均交并比提高了0.79%,說(shuō)明GL-SPP模塊能獲取有效的周圍特征以及不同尺度特征,從而提高分割性能;對(duì)比M2和M3(MLEA-Net)結(jié)構(gòu),精度指標(biāo)準(zhǔn)確率、F1和平均交并比分別提升了0.44%,0.53%和0.85%,表明添加A-TBFM模塊后能夠集中注意力關(guān)注輸入特征的重要語(yǔ)義信息,可以融合更多跨層特征信息,對(duì)于提升網(wǎng)絡(luò)的分割性能十分有益。

3) 隨著本文提出的關(guān)鍵模塊逐步添加在baseline網(wǎng)絡(luò)上,分割的準(zhǔn)確性逐漸提升,對(duì)比baseline和D(MLEA-Net)結(jié)構(gòu),5個(gè)指標(biāo)分別提高了1.48%,2.10%,1.48%,1.77% 和2.79%。實(shí)驗(yàn)結(jié)果表明本文提出的每個(gè)關(guān)鍵模塊對(duì)于獲得最佳遙感圖像水體語(yǔ)義分割結(jié)果都是必要的。

4 結(jié)論

針對(duì)遙感圖像細(xì)小水體多樣、有效特征信息難獲取及易受背景噪聲干擾的問(wèn)題,設(shè)計(jì)多層級(jí)特征增強(qiáng)聚合的遙感圖像細(xì)小水體提取方法(MLEA-Net),以CSPDarknet53作為骨干網(wǎng)絡(luò)挖掘深層次特征,保證網(wǎng)絡(luò)特征提取能力的同時(shí)降低模型復(fù)雜度,利用細(xì)節(jié)特征增強(qiáng)模塊(DFEM)提高淺中層特征質(zhì)量;而后,設(shè)計(jì)全局局部空間金字塔池化結(jié)構(gòu)(GL-SPP)在編解末端捕獲全局局部多尺度上下文信息;最終,在解碼端提出通道注意力和空間注意力引導(dǎo)的雙分支聚合模塊(A-TBFM)進(jìn)行不同尺度特征圖有效聚合,增強(qiáng)目標(biāo)邊緣的像素信息和空間信息,進(jìn)而提升細(xì)小水體的分割性能。

實(shí)驗(yàn)結(jié)果證明:GOQQ數(shù)據(jù)集的精確率、召回率和平均交并比分別為96.91%,95.61%,96.90%和93.82%,LoveDA數(shù)據(jù)集的精確率、召回率和平均交并比分別為83.65%,89.83%和85.23%,提升效果顯著。但本文方法仍有需要改進(jìn)的地方,MLEA-Net對(duì)與山脈陰影緊密相連的細(xì)長(zhǎng)水體分割效果仍有提升的空間,后期研究將進(jìn)一步優(yōu)化注意力模塊或嘗試將其與網(wǎng)絡(luò)其他位置結(jié)合,抑制噪聲信息。

猜你喜歡
細(xì)小特征提取語(yǔ)義
語(yǔ)言與語(yǔ)義
豬細(xì)小病毒感染的防治
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
犬細(xì)小病毒病(CPV)的診斷與治療
為善小 傳播愛(ài)——樂(lè)善好施從細(xì)小處開始
海峽姐妹(2015年5期)2015-02-27 15:10:46
認(rèn)知范疇模糊與語(yǔ)義模糊
基于MED和循環(huán)域解調(diào)的多故障特征提取
犬細(xì)小病毒病的診治
草食家畜(2012年2期)2012-03-20 13:22:40
姜堰市| 莒南县| 永川市| 大渡口区| 荆门市| 桃园市| 象山县| 天水市| 白山市| 巨野县| 从化市| 扎囊县| 甘谷县| 新闻| 香港| 二手房| 海林市| 任丘市| 红桥区| 江津市| 长汀县| 五原县| 志丹县| 罗定市| 石楼县| 出国| 七台河市| 梁河县| 龙南县| 建水县| 怀仁县| 安丘市| 大兴区| 东港市| 宣城市| 丽江市| 清原| 中卫市| 邵阳县| 绥滨县| 大安市|