于海洋,滑志華,2,宋草原,謝賽飛,景 鵬
(1.河南理工大學(xué) 自然資源部礦山時(shí)空信息與生態(tài)修復(fù)重點(diǎn)實(shí)驗(yàn)室,河南 焦作 454003;2.黃河勘測(cè)規(guī)劃設(shè)計(jì)研究院有限公司,鄭州 450000)
遙感變化檢測(cè)是識(shí)別多時(shí)相遙感圖像之間差異性的過(guò)程,在城市管理、災(zāi)害評(píng)估、土地利用變化檢測(cè)、環(huán)境監(jiān)測(cè)等領(lǐng)域應(yīng)用廣泛[1]。建筑物作為人類活動(dòng)的主要場(chǎng)所和人工地理目標(biāo)的代表,其變化檢測(cè)一直是攝影測(cè)量與遙感、人工智能等領(lǐng)域的研究熱點(diǎn)[2]。近年來(lái)深度學(xué)習(xí)技術(shù)在遙感圖像目標(biāo)識(shí)別與分類中得到了推廣應(yīng)用,部分學(xué)者開(kāi)始關(guān)注其在遙感圖像變化檢測(cè)中的應(yīng)用[3-6],并取得了一定的研究成果。
目前變化檢測(cè)方法大致分為兩類:傳統(tǒng)方法和基于深度學(xué)習(xí)方法。傳統(tǒng)的遙感圖像變化檢測(cè)主要采用圖像差分、比值、變化向量分析(CVA)等方法,葉沅鑫[7]和劉陸洋[8]等分別將鄰域信息、結(jié)構(gòu)特征和對(duì)數(shù)比差異圖、均值差異圖以及主成分分析應(yīng)用于變化檢測(cè),檢測(cè)精度有一定的提升。但上述方法部分依賴于手工構(gòu)建的特征表示,對(duì)復(fù)雜的高層次變化信息的建模能力有限,并且當(dāng)變化類和非變化類的特征重疊或其統(tǒng)計(jì)分布建模不準(zhǔn)確時(shí),檢測(cè)結(jié)果會(huì)產(chǎn)生較大誤差,具有一定的局限性。近年來(lái),基于深度學(xué)習(xí)的遙感圖像變化檢測(cè)方法發(fā)展較快,與傳統(tǒng)方法相比,深度學(xué)習(xí)方法可以更好地處理高分辨率遙感圖像所包含的海量信息?;谏疃葘W(xué)習(xí)的遙感變化檢測(cè)主要采用孿生結(jié)構(gòu)、編碼-解碼結(jié)構(gòu)等方法,如Fang等[9]提出了一種密集連接孿生結(jié)構(gòu)網(wǎng)絡(luò)SNUNet-CD,該網(wǎng)絡(luò)通過(guò)編碼器和解碼器之間的密集連接,減輕了神經(jīng)網(wǎng)絡(luò)深層定位信息損失的問(wèn)題。Zheng等[10]提出了一種高頻注意力引導(dǎo)孿生網(wǎng)絡(luò)HFA-Net,該網(wǎng)絡(luò)主要由兩個(gè)部分組成,即空間注意力(SA)和高頻增強(qiáng)(HF)。雖然該模型較有效地改善建筑物邊緣細(xì)節(jié)問(wèn)題,但高頻注意力模塊導(dǎo)致模型參數(shù)量增加較大,模型計(jì)算量開(kāi)銷增加。Zhu等[11]提出了一種孿生全局學(xué)習(xí)(Siam GL)框架,利用共享參數(shù)的孿生架構(gòu)提取雙時(shí)態(tài)遙感圖像特征;全局分層(G-H)采樣機(jī)制解決樣本不足的不平衡訓(xùn)練樣本問(wèn)題,降低了對(duì)數(shù)據(jù)量的要求,但檢測(cè)精度有待提高。為了解決建筑物變化檢測(cè)需要大量由雙時(shí)相圖像及其變化圖組成的標(biāo)記數(shù)據(jù)的局限性,Sun等[12]提出了一種融合圖注意機(jī)制的孿生嵌套模型SANet,并采用半監(jiān)督方式訓(xùn)練模型,該方法顯著降低了對(duì)大型數(shù)據(jù)集的依賴性,降低了數(shù)據(jù)采集處理成本,但模型總體精度仍弱于全監(jiān)督方法。張翠軍[13]針對(duì)圖像背景復(fù)雜的問(wèn)題,提出了一種在特征提取部分用非對(duì)稱卷積塊來(lái)代替標(biāo)準(zhǔn)卷積的建筑物變化檢測(cè)方法,結(jié)果表明F1分?jǐn)?shù)有明顯提升。綜上所述,深度學(xué)習(xí)允許基于多個(gè)處理層構(gòu)建的模型學(xué)習(xí)具有多個(gè)抽象級(jí)別的數(shù)據(jù)樣本表示,與貝葉斯[14]、支持向量機(jī)(SVM)[15]、隨機(jī)森林[16]和決策樹(shù)[17]等傳統(tǒng)機(jī)器學(xué)習(xí)模型相比,具有更多的學(xué)習(xí)優(yōu)勢(shì)。
目前的變化檢測(cè)方法除上述的局限性外還往往側(cè)重于深層語(yǔ)義特征的提取,而忽略了像元之間豐富的時(shí)空信息,導(dǎo)致成像光照變化及配準(zhǔn)誤差等極易影響算法精度。文中通過(guò)采用一種混合注意力機(jī)制,用于捕捉豐富的空間-時(shí)間信息,獲得光照不變量和配準(zhǔn)誤差的特征。同時(shí)考慮到變化對(duì)象具有不同的尺度,為了更好地提取各層級(jí)特征,提出構(gòu)建一種多尺度的混合注意力模塊,通過(guò)對(duì)原始輸入圖像進(jìn)行區(qū)塊劃分,并對(duì)每塊子區(qū)域引入混合注意力機(jī)制,以獲得不同尺度的細(xì)節(jié)特征,增強(qiáng)模型準(zhǔn)確性及魯棒性。
建筑物變化檢測(cè)處理流程可以分為3步:①數(shù)據(jù)預(yù)處理,對(duì)于獲取的原始數(shù)據(jù)首先需要進(jìn)行分割,以滿足電腦硬件的限制。同時(shí)需進(jìn)行數(shù)據(jù)增強(qiáng)(翻轉(zhuǎn)、旋轉(zhuǎn)、高斯模糊),以滿足模型訓(xùn)練所需的數(shù)據(jù)量。②訓(xùn)練并優(yōu)化網(wǎng)絡(luò)模型,通過(guò)梯度更新和反向傳播算法優(yōu)化網(wǎng)絡(luò)模型。③模型測(cè)試,對(duì)訓(xùn)練好的模型進(jìn)行泛化實(shí)驗(yàn),驗(yàn)證模型的有效性。
圖1展示了所提出方法的總體結(jié)構(gòu)。該模型主要包括3個(gè)部分,特征提取模塊、混合注意力模塊、評(píng)價(jià)度量模塊。特征提取模塊(一種輕量化的孿生網(wǎng)絡(luò)結(jié)構(gòu))從輸入的高分辨率遙感影像對(duì)中獲取特征圖X1,X2∈RC×H×W,其中H,W是特征圖的高、寬,C是每個(gè)特征向量的通道維度。將所獲取的特征圖融合為X,并送入混合注意力模塊,通過(guò)該模塊計(jì)算得到相似矩陣A,并經(jīng)過(guò)矩陣乘法和reahape得到更新后的特征圖Z1,Z2。調(diào)整更新后的注意力特征圖大小,恢復(fù)至輸入圖像大小,利用評(píng)估度量模塊計(jì)算兩張?zhí)卣鲌D里每個(gè)像素對(duì)的距離,最終生成距離圖Di,j,并與閾值進(jìn)行比較得到二值圖(0:未變化,1:變化)。
圖1 變化檢測(cè)模型結(jié)構(gòu)
遙感圖像變化檢測(cè)是一項(xiàng)基于像素級(jí)預(yù)測(cè)的二分類(變化、不變化)任務(wù)。在特征提取結(jié)構(gòu)中(見(jiàn)圖2),上下文語(yǔ)義引導(dǎo)模塊(context guidance block,CGB)采用平行擴(kuò)張卷積來(lái)替代標(biāo)準(zhǔn)卷積,同時(shí)利用深度可分離的方式進(jìn)行計(jì)算,顯著減少了模型參數(shù)量,提高了模型效率。同時(shí),上下文語(yǔ)義引導(dǎo)模塊可以獲取不同范圍內(nèi)的局部上下文語(yǔ)義信息。網(wǎng)絡(luò)中的高層特征包含豐富的語(yǔ)義信息,但位置信息較為粗略,低層特征包含豐富的位置、細(xì)粒度等信息,但缺乏語(yǔ)義信息。因此,本文將深層語(yǔ)義信息和淺層空間信息進(jìn)行融合,以產(chǎn)生更為精細(xì)的特征表示。輕量化孿生特征提取網(wǎng)絡(luò)由4個(gè)復(fù)合層組成,每個(gè)復(fù)合層分別包含[3, 3, 8, 12]個(gè)CGBs。輸入數(shù)據(jù)X經(jīng)局部和全局語(yǔ)義信息提取后送入由平均池化層、非線性層和sigmoid層組成的結(jié)構(gòu)中用于通道交互和全局信息提取??梢员硎緸?
圖2 孿生特征提取模塊結(jié)構(gòu)
(1)
深度可分離卷積(depthwise separable convolution,DSC)[18]由逐通道卷積和逐點(diǎn)卷積兩部分組成(見(jiàn)圖3)。首先進(jìn)行逐通道卷積,它對(duì)輸入的特征圖的每個(gè)通道分別使用一個(gè)卷積核,然后將所有卷積核的輸出再進(jìn)行拼接,最終得到該部分的輸出結(jié)果。在逐點(diǎn)卷積中需要使用1×1×C的卷積核對(duì)逐通道卷積輸出的結(jié)果進(jìn)行計(jì)算,C為上層輸出結(jié)果的通道數(shù)。逐點(diǎn)卷積能夠讓DSC自由的改變輸出通道的數(shù)量,同時(shí)也能對(duì)上層輸出的特征圖進(jìn)行通道融合。
圖3 深度可分離卷積結(jié)構(gòu)
標(biāo)準(zhǔn)卷積、逐通道卷積、逐點(diǎn)卷積和深度可分離卷積的參數(shù)量計(jì)算如式(2)~(5)所示。由算式可知,深度可分離卷積與標(biāo)準(zhǔn)卷積參數(shù)量的比值為1/N+1/(K×L),N為輸出特征圖的通道數(shù),說(shuō)明DSC的計(jì)算效率優(yōu)于標(biāo)準(zhǔn)卷積。
(2)
(3)
SepConv(Xp,Xd,y)(i,j)=PointwiseConv(i,j)
(4)
((Xp),DepthwiseConv(X,y)(i,j)(Xd,y)).
(5)
其中,X為輸入數(shù)據(jù);y為尺寸為K×L的卷積核;C為數(shù)據(jù)的通道數(shù);(i,j)是每張圖像的像素?cái)?shù)。
為了充分利用輸入圖像對(duì)的上下文信息,構(gòu)建了一種多尺度的混合注意力模塊,通過(guò)聚合不同尺度的通道-空間信息來(lái)生成多尺度注意力特征矩陣,提高模型識(shí)別精細(xì)細(xì)節(jié)的能力。在多尺度混合注意力模塊中,每個(gè)分支將特征圖均分為一定尺度的子區(qū)域,并在每個(gè)子區(qū)域中引入混合注意力模塊,以獲取每個(gè)子區(qū)域的注意力特征,然后將每個(gè)分支生成的不同尺度的注意力特征張量進(jìn)行融合,生成多尺度注意力特征張量,并進(jìn)行拼接。
如圖4(a)所示,將特征提取器獲取的特征圖送入混合注意力模塊中,該模塊包含兩部分,分別為空間注意力和通道注意力。
圖4 結(jié)構(gòu)
1)首先,對(duì)輸入特征圖X進(jìn)行全局平均池化操作以聚合不同通道的特征圖,同時(shí)生成的通道向量FC會(huì)對(duì)每個(gè)通道的特征信息進(jìn)行編碼,最終生成通道注意力矩陣MC(X),如式(6)所示。為了驗(yàn)證通道注意力的效果,使用多層感知機(jī)(MLP)對(duì)其進(jìn)行評(píng)估,并在MLP之后增加批量歸一化(BN)層調(diào)整輸出尺寸。
MC(X)=BN(MLP(Avgpool(X))).
(6)
2)空間注意力模塊利用1×1卷積對(duì)輸入特征圖X進(jìn)行降維,并在整個(gè)通道維度上進(jìn)行合并和壓縮。然后利用兩個(gè)3×3的擴(kuò)張卷積擴(kuò)大感受野,使之能夠充分利用上下文時(shí)空語(yǔ)義信息,同時(shí)降低了模型參數(shù)量。最后,采用1×1卷積將特征圖簡(jiǎn)化為空間注意力圖MS(X),并在空間注意力分支末尾應(yīng)用BN層調(diào)節(jié)輸出結(jié)果尺寸??臻g注意力計(jì)算如式(7)所示。
(7)
其中,f代表卷積操作,下標(biāo)代表卷積次序,上標(biāo)表示卷積核大小。
將獲得的通道注意力圖MC(X)和空間注意力圖MS(X)進(jìn)行組合,生成最終的3D注意力圖M(X)。由于MC(X)和MS(X)具有不同的尺寸,因此,首先將兩種注意力圖擴(kuò)展為C×H×W,然后采用元素求和的方法進(jìn)行組合,這樣更有助于梯度更新傳播。最后采用非線性函數(shù)sigmoid獲得[0, 1]范圍內(nèi)的注意力特征圖M(X),將M(X)與輸入特征圖進(jìn)行逐元素相加獲得更新后的特征圖Z,如圖1所示。
M(X)=σ(MC(X)+MS(X)).
(8)
式中,MC(X)∈RC是通道注意力;MS(X)∈RH×W是空間注意力。
如圖4(b),將混合注意力作為基礎(chǔ)注意力模塊(basic attention block, BAB)引入到多尺度分割特征圖中。
1)多尺度分割:多尺度混合注意力模塊(multi-scale attention block, MSAB)將原始特征圖X1,X2堆疊為特征張量X,然后送入3個(gè)分支,每個(gè)分支將特征張量均分為d×d個(gè)子區(qū)域,d=[1,2,5],并對(duì)每個(gè)分支引入BAB模塊。
2)引入混合注意力模塊:通過(guò)對(duì)多尺度分割所產(chǎn)生的每個(gè)特征圖子區(qū)域引入混合注意力模塊,以生成不同尺度的注意力特征。
3)特征融合:對(duì)不同尺度的輸出特征圖進(jìn)行融合,并經(jīng)過(guò)1×1卷積生成新的特征圖,再與原始張量X相加,產(chǎn)生更新后的張量Z。在混合注意力模塊中下采樣階段的卷積和非線性映射用于提取變化區(qū)域的顯著特征,最大池化層用于降低特征圖的分辨率,同時(shí)增大特征圖的感受野。
隨著下采樣層數(shù)的增加,感受野會(huì)逐漸增大,特征圖的判別能力會(huì)逐漸增強(qiáng);上采樣使用雙線性插值將特征圖逐步恢復(fù)為原始大小。
深度度量學(xué)習(xí)涉及訓(xùn)練網(wǎng)絡(luò),以學(xué)習(xí)從輸入到嵌入空間的非線性變換。其中,相似樣本的嵌入向量更加相近,而不同樣本差距更大。為了評(píng)價(jià)由特征提取模塊提取、多尺度注意力模塊更新后的特征圖(Z1、Z2)之間的相似度,文中采用對(duì)比損失函數(shù)(Contrastive Loss函數(shù))作為評(píng)價(jià)度量標(biāo)準(zhǔn)。Contrastive Loss函數(shù)能有效地處理孿生神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)對(duì),表達(dá)式如下:
1/2(Y){max(0,m-DW)}2.
(9)
首先利用雙線性插值將更新后的特征圖Z1、Z2調(diào)整為大小相同,并作為位時(shí)圖像輸入評(píng)價(jià)度量模塊。然后根據(jù)像素對(duì)計(jì)算調(diào)整后的特征圖之間的歐氏距離,生成距離圖。通過(guò)生成的距離圖與閾值相比較,確定該像素點(diǎn)是否發(fā)生變化。
(10)
其中,下標(biāo)i,j分別表示像素點(diǎn)位置;θ是分離變化區(qū)域的固定閾值;P為生成的變化圖,1表示變化,0表示未變化。
數(shù)據(jù)集WHU-CD[19]選取的是新西蘭城市克賴斯特徹奇,覆蓋了2011年2月發(fā)生6.3級(jí)地震并在隨后幾年重建的區(qū)域。該數(shù)據(jù)集由2012年4月獲得的航拍圖像組成,其中包含20.5 km2的12 796座建筑物(2016年數(shù)據(jù)集中同一區(qū)域的16 077座建筑物)。遙感影像空間分辨率為0.2 m。
數(shù)據(jù)集LEVIR-CD[20]由637個(gè)高分辨率(VHR,0.5 m/px)的Google地球圖像對(duì)組成,大小為1 024像素×1 024像素。時(shí)間跨度為5~14年,圖像對(duì)土地利用有顯著變化,尤其是建筑增加。LEVIR-CD涵蓋各種類型的建筑,如別墅住宅、高大公寓、小型車庫(kù)和大型倉(cāng)庫(kù)。LEVIR-CD總共包含31 333個(gè)單獨(dú)變化的實(shí)例。
由于電腦內(nèi)存限制高分辨率遙感影像并不能直接用于變化檢測(cè)的數(shù)據(jù)集,需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
1)對(duì)遙感影像進(jìn)行切片,設(shè)置切片大小為256像素×256像素,重疊度為0。其中雙時(shí)相的遙感影像為3通道的RGB圖像,標(biāo)簽(label)為單通道的灰度圖(灰度值:0~255)。
2)為增強(qiáng)模型的泛化能力,對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)處理,主要技術(shù)手段包括:翻轉(zhuǎn)、旋轉(zhuǎn)、色彩增強(qiáng)(減弱)、高斯模糊。
3)對(duì)數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集進(jìn)行劃分,其中訓(xùn)練集占70%,驗(yàn)證集占10%,測(cè)試集占20%。
實(shí)驗(yàn)硬件采用Ubuntu18.04.5LTS操作系統(tǒng),GPU采用RTX2080Ti,CPU采用Xeno(R)×5650,深度學(xué)習(xí)框架采用pytorch1.6、python3.6,CUDA版本11.4,CUDNN版本8.2.2。
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中參數(shù)不斷進(jìn)行更新,但固定學(xué)習(xí)率不能適應(yīng)所有參數(shù)的更新,為平衡不同參數(shù)的學(xué)習(xí)能力應(yīng)動(dòng)態(tài)調(diào)整學(xué)習(xí)率,文中采用Adam優(yōu)化器更新網(wǎng)絡(luò)權(quán)重,模型訓(xùn)練初始學(xué)習(xí)率設(shè)置為0.001,同時(shí)采用ReLU作為激活函數(shù),迭代次數(shù)epoch=200。
實(shí)驗(yàn)結(jié)果精度評(píng)定采用總體精度(OA)、平均交并比(MIoU)、精確率(Precision)、召回率(Recall)及F1值。其中F1值能夠很好的兼顧精確率和召回率。算式如下:
(11)
(12)
(13)
(14)
(15)
式中:TP:真陽(yáng)性(真實(shí)值為1,預(yù)測(cè)值也為1);TN:真陰性(真實(shí)值為0,預(yù)測(cè)值也為0);FP:假陽(yáng)性(真實(shí)值為0,預(yù)測(cè)值為1);FN:假陰性(真實(shí)值為1,預(yù)測(cè)值為0);k為分類數(shù)。
采用消融實(shí)驗(yàn)對(duì)比分析改進(jìn)模塊對(duì)模型性能的影響。對(duì)比對(duì)象包括不包含注意力模塊的骨干模型(Base)、融合混合注意力模塊的網(wǎng)絡(luò)(BAB)和融合多尺度混合注意力模塊網(wǎng)絡(luò)(MSAB),實(shí)驗(yàn)數(shù)據(jù)集采用WHU-CD和LEVIR-CD。
圖5為WHU-CD數(shù)據(jù)集消融實(shí)驗(yàn)不同網(wǎng)絡(luò)收斂情況統(tǒng)計(jì)對(duì)比。選取Precision、Recall、F1 3個(gè)代表性評(píng)價(jià)指標(biāo),分析不同模塊在WHU-CD數(shù)據(jù)集上迭代訓(xùn)練過(guò)程中收斂情況。相較于基線模型和BAB模型,MSAB模型在迭代訓(xùn)練過(guò)程中保持了最高的Precision和F1值。Recall值統(tǒng)計(jì)結(jié)果顯示,隨著迭代訓(xùn)練次數(shù)的增加,僅融合注意力模塊的BAB模型性能有所下降,增加多尺度特征的MSAB模型能夠保持較高的精度。表1為WHU-CD數(shù)據(jù)集消融實(shí)驗(yàn)測(cè)試精度對(duì)比統(tǒng)計(jì)結(jié)果。BAB模型相較于基線模型在Precision、MIoU、F1值上分別提升了6%、2.1%、3.9%。MSAB在BAB的基礎(chǔ)上分別提升了3.8%、3.6%、2.5%,證明改進(jìn)模塊的有效性。
圖5 WHU-CD數(shù)據(jù)集消融實(shí)驗(yàn)不同網(wǎng)絡(luò)收斂情況對(duì)比
為了保證模型具有良好的普適性,在LEVIR-CD數(shù)據(jù)集上也進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)中不同網(wǎng)絡(luò)收斂情況對(duì)比,如圖6所示。從圖6統(tǒng)計(jì)結(jié)果可以看出,融合了多尺度混合注意力模塊的網(wǎng)絡(luò)在精確率(Precision)、召回率(Recall)、F1值評(píng)價(jià)指標(biāo)上依舊優(yōu)于基線模型和BAB模型,且召回率提升明顯。由表2測(cè)試統(tǒng)計(jì)結(jié)果可知,融合BAB模塊后的模型優(yōu)于基線模型,平均交并比(MIoU)提高2.2%、F1值提高2.8%。進(jìn)一步融合MSAB模塊后,每個(gè)評(píng)價(jià)指標(biāo)均有提升,其中平均交并比達(dá)到87.9%,F1值達(dá)到88.1%,相較于基線網(wǎng)絡(luò)分別提升了5.6%、5.4%。試驗(yàn)結(jié)果表明,融合多尺度混合注意力模塊后增強(qiáng)對(duì)變化像素識(shí)別能力的同時(shí)又提高了感受野,進(jìn)一步提升模型識(shí)別精細(xì)特征的能力,通過(guò)增加實(shí)驗(yàn)數(shù)據(jù)集種類,表明了本文所提方法具有良好的泛化能力。
表2 LEVIR-CD數(shù)據(jù)集消融實(shí)驗(yàn)測(cè)試集結(jié)果對(duì)比
圖6 LEVIR-CD數(shù)據(jù)集消融實(shí)驗(yàn)不同網(wǎng)絡(luò)收斂情況對(duì)比
通過(guò)實(shí)驗(yàn)對(duì)所提方法進(jìn)行綜合評(píng)估,并與其他優(yōu)秀的變化檢測(cè)方法STANet[21]、IFNet[22]、FC-EF[23]、FC-Siam-conc[23]、FC-Siam-diff[23]和DSAMNet[24]進(jìn)行對(duì)比。如表3所示,與6種變化檢測(cè)模型相比,采用融合多尺度混合注意力的輕量化模型進(jìn)行建筑物變化檢測(cè),可以實(shí)現(xiàn)更好的檢測(cè)分割精度。所提方法在WHU-CD數(shù)據(jù)集上的F1-score達(dá)到87.8%,優(yōu)于其他對(duì)比模型,MIoU、Recall、OA等關(guān)鍵指標(biāo)也均有不同程度的領(lǐng)先,其中Recall值提升5.6%。表4是基于LEVIR-CD數(shù)據(jù)集得到的測(cè)試結(jié)果,文中所提出的改進(jìn)方法具有最優(yōu)的F1、MIoU、Recall和OA統(tǒng)計(jì)值。
表3 不同變化檢測(cè)方法在WHU-CD數(shù)據(jù)集測(cè)試結(jié)果對(duì)比
表4 不同變化檢測(cè)方法在LEVIR-CD數(shù)據(jù)集測(cè)試結(jié)果對(duì)比
與WHU-CD數(shù)據(jù)集結(jié)果相比,LEVIE-CD數(shù)據(jù)集上的實(shí)驗(yàn)精度有所提升,這主要是由于LEVIR-CD的數(shù)據(jù)量大于WHU-CD。由表3和表4可知,對(duì)比模型對(duì)數(shù)據(jù)量的變化較為敏感,性能損失程度較大,而所提方法在低數(shù)據(jù)量的測(cè)試中更加穩(wěn)健,性能損失較小。
表5為骨干網(wǎng)絡(luò)參數(shù)和計(jì)算量的比較,因?yàn)楸疚乃峁歉删W(wǎng)絡(luò)層數(shù)為52層,與ResNet-50相似,通過(guò)對(duì)比可知文中所提骨干網(wǎng)絡(luò)無(wú)論在參數(shù)量還是計(jì)算量都具有明顯的優(yōu)勢(shì)。圖7為不同模型的參數(shù)計(jì)算量統(tǒng)計(jì),文中改進(jìn)方法具有最低的計(jì)算量,相較于其他模型中計(jì)算量最小的FC-EF模型,計(jì)算量降低27.8%,具有較高的計(jì)算效率。上述算法對(duì)比實(shí)驗(yàn)結(jié)果表明融合多尺度混合注意力機(jī)制的改進(jìn)模型能夠兼顧處理多層次細(xì)節(jié)特征的同時(shí)又能充分利用豐富的上下文時(shí)空語(yǔ)義信息,降低計(jì)算復(fù)雜度,提升變化檢測(cè)精度。
表5 骨干網(wǎng)絡(luò)參數(shù)和計(jì)算量的比較
圖7 不同模型計(jì)算量比較
圖8和圖9分別為WHU-CD和LEVIR-CD的部分可視化對(duì)比結(jié)果圖,包含大、中、小3種尺度的建筑物類型,白色代表前景(變化像素),黑色代表背景(未變化像素)。與真實(shí)標(biāo)簽對(duì)比,FC-EF,FC-Siam-Conc和FC-Siam-Diff模型預(yù)測(cè)結(jié)果中,檢測(cè)建筑物邊緣模糊,精度較低。IFNet由于將通道注意力應(yīng)用于解碼器每一級(jí)特征提取中,所以預(yù)測(cè)結(jié)果邊緣精細(xì)度相較于前3種模型有所改進(jìn)。STANet模型采用孿生結(jié)構(gòu)處理雙時(shí)相遙感圖像,且模型中的自注意力機(jī)制能較好的識(shí)別建筑物邊緣細(xì)節(jié)特征,相較于IFNet模型有所提升。DSAMNet模型集成了CBAM塊以在空間和通道兩個(gè)層面上獲得更具區(qū)分性的特征,并集成了深度監(jiān)督層以獲得更好的特征提取,最終的結(jié)果相較于STANet有略微的提升。而文中所提方法在聚合上下文語(yǔ)義引導(dǎo)模塊的輕量化特征提取器的基礎(chǔ)上增加多尺度的混合注意力結(jié)構(gòu),使模型能更好地識(shí)別建筑物邊緣特征,預(yù)測(cè)標(biāo)簽更加精細(xì),降低了因識(shí)別變化特征不夠明確而造成的預(yù)測(cè)標(biāo)簽邊緣粗糙、缺失的情況,提高了模型準(zhǔn)確率。此外,對(duì)比模型存在一定的誤報(bào)率,主要原因在于道路或其他地物具有與建筑物相似的顏色,紋理特征,由于對(duì)比模型的感受野(RF)有限,較難辨別這些偽變化。最后,通過(guò)圖8(第4行)可知,對(duì)比模型對(duì)于微小尺度的變化不敏感,容易造成微小變化建筑物漏檢的問(wèn)題。
圖8 WHU-CD可視化結(jié)果
圖9 LEVIR-CD可視化結(jié)果
圖10和圖11分別為基于WHU-CD和LEVIR-CD的誤差對(duì)比圖。通過(guò)對(duì)比可得FC-EF,FC-Siam-Conc和FC-Siam-Diff存在較多的漏檢(紅色)、多檢(藍(lán)色)的問(wèn)題,總體模型精度較低;IFNet在多檢問(wèn)題上有所改善,但依然存在多檢嚴(yán)重的問(wèn)題;STANet和DSAMNet相較于前4種方法在漏檢、多檢問(wèn)題上有明顯的改善。而文中所提方法漏檢(紅色)、多檢(藍(lán)色)的建筑物明顯少于對(duì)比模型,更加接近真實(shí)的變化情況。
圖10 基于WHU-CD的誤差圖對(duì)比 (褐色、綠色:正確檢測(cè),紅色:漏檢,藍(lán)色:多檢)
圖11 基于LEVIR-CD的誤差圖對(duì)比(黑色、綠色:正確檢測(cè),紅色:漏檢,藍(lán)色:多檢)
通過(guò)以上評(píng)價(jià)指標(biāo)對(duì)比,表明本方法在預(yù)測(cè)標(biāo)簽邊緣精細(xì)度、誤報(bào)率、召回率方面具有優(yōu)勢(shì)。
針對(duì)建筑物變化檢測(cè)問(wèn)題,提出了一種融合輕量化特征提取模塊和多尺度混合注意力機(jī)制的深度學(xué)習(xí)網(wǎng)絡(luò)模型,并在WHU-CD和LEVIR-CD公開(kāi)數(shù)據(jù)集上進(jìn)行了消融和對(duì)比實(shí)驗(yàn),結(jié)論如下:
1)通過(guò)與6種優(yōu)秀的變化檢測(cè)方法對(duì)比,文中所提方法總體精度為97.0%、F1得分為87.8%、平均交并比為87.6%、召回率為90.9%,相較于對(duì)比模型表現(xiàn)最優(yōu),主要體現(xiàn)在變化建筑邊緣預(yù)測(cè)更加精細(xì)化,有效降低了微小建筑物漏檢率以及影像非真實(shí)變化所引起的錯(cuò)誤檢測(cè)。表明文中所提方法在高分辨率遙感圖像建筑物變化檢測(cè)中效果較好,具有較高的精度。
2)文中所提方法具有最低的模型計(jì)算量,顯著提升了模型變化檢測(cè)效率。相較于STANet、IFNet、FC-EF、FC-Siam-conc、FC-Siam-diff和DSAMNet 6種對(duì)比模型,文中提出的方法模型計(jì)算量?jī)H有5.22GFLOPs,相較于其他模型中計(jì)算量最小的FC-EF模型,計(jì)算量降低27.8%,具有較高的計(jì)算效率。
3)通過(guò)在WHU-CD、LEVIR-CD兩種數(shù)據(jù)集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果相較于對(duì)比模型均達(dá)到了最優(yōu)表現(xiàn),證明了該方法具有良好的普適性以及魯棒性,模型泛化能力強(qiáng)。
今后研究將考慮融合多源數(shù)據(jù)特征進(jìn)行變化建筑物的精確檢測(cè)與提取,彌補(bǔ)單一光學(xué)遙感圖像的局限性,進(jìn)一步提高檢測(cè)精度。