摘 要:遙感圖像變化檢測是為了識別出雙時相圖像之間的顯著變化。給定2 個在不同時間拍攝的配準圖像,光照變化和錯配誤差會掩蓋真實物體的變化,探索不同時空像素之間的關系可以提高遙感圖像變化檢測方法的性能。在SpatialTemporal Attention Neural Network (STANet) 中,提出了一種基于孿生的時空注意力神經網絡。在其基礎上進行改進:① 對距離度量模塊由于線性插值導致的變化特征間隙模糊問題,設計了對距離特征的上采樣模塊,使得變化區(qū)域間隙更加明顯,虛警率更低;② 針對STANet 的Pyramid Spatial Temporal Attention Module (PAM) 模塊計算開銷大的問題,引用了新的Coordinate Attention (CA) 模塊,在降低運算開銷的基礎上,更好地識別了不同空間、通道的特征;③ 針對STANet 對Residual Network (ResNet) 提取出的特征圖利用不充分的問題,加入了深監(jiān)督模塊,利用中間層的特征計算一個權重衰減的loss,起到正則化的作用。實驗表明,改進之后的網絡將基線模型的F1 得分從81. 6 提高到86. 1。在公共遙感圖像數據集上的實驗結果表明,改進的方法優(yōu)于其他幾種先進的方法。
關鍵詞:遙感圖像;STANet;深監(jiān)督;CA
中圖分類號:TP391. 4 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3106(2024)05-1226-10
0 引言
遙感變化檢測是識別多時相遙感圖像之間顯著差異的過程,顯著差異通常取決于特定的應用,如城市化監(jiān)測[1-2]、災害評估[3]和環(huán)境監(jiān)測[4]。近年來,自動化變化檢測技術促進了遙感應用的發(fā)展,受到了廣泛的關注。
隨著深度學習的發(fā)展,許多變化檢測的網絡模型被提出,而針對遙感圖像的變化檢測模型也層出不窮。深度學習由于其端到端的網絡結構,輸入的雙時相圖片經過特征提取后在輸出端直接輸出相應的特征圖,不但簡化了對變化檢測任務研究的復雜程度,還大大提高了檢測的精確度。
通常,最流行的變化檢測解決方案是使用來自相同傳感器的雙時間遙感圖像[5],利用孿生神經網絡對雙時相遙感圖像分別進行處理并提取出對應的特征,再根據提取出的特征進行差別檢測。孿生結構使用不同的網絡分支來實現差異化特征提取,以獲得更有針對性的特征。在所有深度神經網絡架構中,62% 的神經網絡架構使用卷積神經網絡(CNN)[5]。在檢測差異時,大部分檢測方法以識別二進制變化為主,區(qū)分變化的存在與否[6]。在整個檢測過程中,研究者以不同的角度進行深入探索,得出了多種有效的檢測方法。
Daudt 等[7]引入全卷積孿生網絡,為遙感圖像變化檢測任務帶來了一種新的方法。全卷積意味著網絡的所有層都是卷積層,不包含全連接層,這使得網絡可以接受不同尺寸的輸入圖像。而孿生網絡是一種特殊的網絡結構,其中有2 個相同結構的分支,分別接受2 幅輸入圖像,然后通過比較這2 個分支的特征來判斷圖像是否發(fā)生變化。設計了適用于孿生網絡的損失函數,用于比較2 個分支提取的特征。損失函數的設計使得網絡在訓練過程中能夠學習到有效的特征表示,以便更好地判斷圖像是否發(fā)生變化。實驗結果表明,該方法在變化檢測任務中具有較好的性能,相比傳統方法具有更高的準確性和魯棒性。
從網絡架構的角度,Bandara 等[8]提出的Change-Former 利用編-解碼結構搭建網絡,提出的方法統一了分層結構的變換器、編碼器與多層感知解碼器,在孿生網絡架構中高效地提取精確檢測所需的多尺度長程細節(jié),降低了神經網絡的復雜度和深度,實驗結果表明該方法有良好的檢測效果。
從多級特征有效利用的角度,Li 等[9]提出一種名為AR-CDNet 的新型變化檢測網絡,將在線不確定性估計分支提取的不確定性感知特征與多級時間差異特征聚合起來,并且從可靠性的角度,構建了一個在線不確定性估計分支來模擬像素級的不確定性。實驗表明,訓練完成后,AR-CDNet 能夠在沒有地面真值的情況下提供準確的變化圖和評估像素級的不確定性。
從上下文差異信息的角度,Chen 等[10]提出的BIT 網絡是一種基于Transformer 的方法,基于Transformer 的網絡可以通過利用卷積和變換器的強度來有效地對上下文信息進行建模[5]。該方法使用Transformer 編碼器-解碼器網絡通過語義標記增強ConvNet 特征的上下文信息,然后進行特征差分得到變化圖。
從網絡連接的角度,Fang 等[11]提出了一種SNUNet-CD 的方法,即密集連接孿生網絡變化檢測方法。通過堆疊多個密集塊(Dense Block)來提取特征。每個密集塊由多個卷積層組成,通過密集連接將前面的層與后面的層連接起來。由于高分辨率圖像通常具有更多的細節(jié)和信息,SNUNet-CD 的密集連接結構可以更好地捕獲圖像的特征,提高變化檢測的準確性,從而提高網絡的特征提取能力和重用性。
從對提取出的特征進行處理的角度,Chen 等[12]提出了一種新網絡———SARAS-Net。在特征相減之前使用關系感知模塊,在相減之后使用比例感知模塊和交叉變壓器模塊。最后,交叉Transformer 模塊融合了多層次的特征,更加注重空間信息,容易分離前景和背景,從而減少誤報。實驗表明,SARAS-Net 在不同數據集上均取得了良好的效果。
從數據集的角度,盡管深度學習算法可以從原始遙感圖像中學習高度抽象的特征表示,但檢測和識別是否成功取決于大量的訓練樣本[6]。然而,由于收集標記的高分辨率圖像具有挑戰(zhàn)性,因此經常缺乏高質量的訓練。在這些條件下,如何用較少的適當訓練樣本,來保持深度學習算法的學習性能,仍然是一個重要的問題。因此,文獻[13-14]提出了一種單時間監(jiān)督學習(Single Temporal Supervised Learning,STAR)的模型,利用未配對標記的圖像來訓練高精度變化檢測器,并將其推廣到現實世界的雙時態(tài)圖像。STAR 使用單個時間點的監(jiān)督數據來訓練模型,避免了獲取多個時間點標注數據的難題,提高了數據獲取的效率。相對于多時相圖像變化檢測,單時間點監(jiān)督學習簡化了問題,減少了模型訓練和推斷的復雜性。綜合實驗結果表明,ChangeStar 在單時間監(jiān)督下以較大的優(yōu)勢優(yōu)于基線,在雙時間監(jiān)督下實現了優(yōu)異的性能。
從雙時相特征差異度量標準的角度,Chen 等[15]提出的Spatial Temporal Attention Neural Network(STANet)網絡集成了一種新的變化檢測自注意模塊,在時間和空間尺度上對特征圖進行處理,計算不同區(qū)域的注意力權重,對2 個特征圖做距離計算來評估差異性的大小,最終取得了良好的效果。但是,在最后對特征圖的處理上,STANet 是對雙時間距離特征圖取歐氏距離再做線性插值,會導致圖像上的變化區(qū)域間隙模糊、虛警率高,雖然識別到了變化像素的位置,但丟失了檢測的精度。Pyramid SpatialTemporal Attention Module(PAM)的設計雖然對圖像不同區(qū)域計算了注意力權重,然而計算開銷大。在PAM 之前的特征圖沒有得到更好的利用。
針對上述問題,本文設計了一種基于STANet 的改進方法,引入了分層上采樣模塊對特征圖進行處理,提高檢測精度。使用Coordinate Attention(CA)[16]模塊替換Basic Spatial Temporal AttentionModule(BAM)模塊,在不降低檢測精度的前提下,大大降低了計算開銷。在特征圖進入PAM 之前,加入了深監(jiān)督,使注意力能夠在更加明顯的特征上計算注意力權重。
1 算法框架介紹
1. 1 改進的STANet 網絡結構
STANet 主干網絡為ResNet,利用ResNet 提取出雙時相遙感圖像的距離特征。為了解決神經網絡對雙時相遙感圖像特征不同時間、空間特征依賴性的檢測缺失,STANet 集成了BAM 模塊,用來捕捉任意2 個位置之間的時空依賴關系(注意權重)。之后將它嵌入到金字塔模型中,達到聚合多尺度的注意力特征的效果,獲取圖像更精細的細節(jié),充分利用了不同位置和時間單個圖像之間的時空相關性,有效地在時間和空間上提取了長期的變化特征。從中得到的雙時相距離特征輸入到度量模塊,計算雙時相特征的歐氏距離,再經過閾值分割器判斷出變化區(qū)域的位置,然后,經過線性插值得到變化圖。因此,距離特征圖的計算將會直接影響到最終的變化圖。STANet 基于此設計了度量距離與標簽差距的批量平衡對比損失函數(Batch-balanced ContrastiveLoss,BCL),通過批量的距離特征圖中的距離值和標簽中的變化與未變化區(qū)域像素來計算監(jiān)督損失函數。
本文的網絡結構如圖1 所示,在STANet 原有的基礎上進行了改進。
BAM 雖然可以有效提取時空特征,但是計算開銷大,并且卷積沒有辦法獲取圖像特征中不同維度之間長期的關聯特征,只能提取出局部性特征。CA通過將特征圖中的空間信息融合到通道特征中,進而提取出不同維度的長期依賴關系,同時大大降低了計算開銷。因此本文引入CA 替換BAM 用來在降低計算開銷的同時提高檢測的精度。
由于變化區(qū)域相隔較近,線性插值將會導致檢測出的變化圖中變化區(qū)域之間間隙模糊甚至重疊,并且檢測的精度不夠,變化區(qū)域不能很好地符合真實標簽。因此,本文移除了STANet 中的距離度量模塊,在注意力檢測后加入分層上采樣模塊。
在STANet 網絡中,注意力機制的引入是為了更好地捕獲從ResNet 中提取出來的距離特征。從這一點看來,ResNet 提取的特征也應該符合網絡終端輸出的特征圖。因此,為了使距離特征更加明顯,也為了使注意力模塊能夠從更明顯的特征圖中捕獲注意力信息,引入了深監(jiān)督機制。將ResNet 的特征圖提前輸入到上采樣模塊,再計算相應的損失函數,這樣就可以使特征更加明顯。
1. 2 時空注意力模塊
1. 2. 1 CA 機制
Hou 等[16]提出了一種新型且高效的注意力機制,通過將特征圖中的空間信息融合到通道特征中,進而提取出不同維度的長期依賴關系,同時大大降低了計算開銷。由于2D 的全局池化層通常會造成圖像特征中的空間信息丟失,CA 機制將圖像特征通過2 個一維網絡進行編碼,生成X 和Y 兩部分一維特征,從而有效地通過圖像的空間特征生成相應的注意力特征。
具體地說,如圖2 所示,CA 通過2 個一維的全局池化層,將圖像的特征圖按照垂直和水平方向提?。?個具有方向特征的特征圖。之后,利用這2 個具有方向性的圖像特征,通過一個卷積層分別進行編碼,進而得到2 個不同方向的注意力特征,這2 個注意力特征分別是對圖像特征沿2 個方向的長期依賴進行捕獲而生成的注意力特征圖。
因此,圖像特征中的空間信息可以被有效地保留在生成的注意力特征圖中。然后,通過和原圖相乘,得到注意力分數加權的圖像特征。其中,注意力分數也表示了對圖像特征中感興趣部分的強調。CA 對圖像特征的處理具體對2 個方向的坐標注意力進行捕獲,因此也叫作坐標注意力。
可以看到,注意力在垂直方向和水平方向都對輸入的特征產生了作用,2 個方向的注意力特征張量的每個特征元素都可以在2 個方向上有效感知輸入特征中感興趣的對象元素,從而使整個模型更有效地進行識別。
總體上看,CA 不僅可以在通道維度上跨通道捕獲有效特征,還可以在不同的方向上感知并捕獲空間坐標特征,有效地提取輸入特征中感興趣的對象。同時CA 計算開銷小、復雜度低,可以高效地為不同的模型增強特征。因此,本文引入CA 來代替BAM 用以捕獲特征圖中的注意力信息。
1. 2. 2 金字塔坐標注意力模塊
與STANet 相同,為了聚合多尺度時空注意上下文來增強細節(jié)的識別能力,引入CA 機制后,在原有的PAM 基礎上替換了BAM,組成了金字塔坐標注意力(Pyramid Coordinate Attention,PCA )模塊。PCA 模塊結合不同尺度的時空注意語境,生成多尺度注意特征。PCA 模塊有4 個分支,每個分支將特征圖平均劃分為一定尺度的幾個子區(qū)域。在每個分支中,PCA 模塊將CA 應用于每個子區(qū)域的像素,以獲得該尺度下的局部注意力表示。然后,通過聚合4 個分支的輸出特征,生成多尺度的注意力表示。因為圖像空間中的每個像素都涉及不同尺度子區(qū)域的自注意機制,這些子區(qū)域是由小到大排列的,就像金字塔的結構一樣,所以稱這種架構為金字塔注意力模塊。
圖1 中給出了PCA 模塊的架構。給定雙時間特征圖X(1)、X(2)∈RC×H×W ,在輸入PCA 模塊前對特征圖做差值生成X(3)∈RC×H×W ,之后將3 個特征圖堆疊成一個特征張量X∈RC×H×W×3 。然后有4 個平行的分支,每個分支將特征張量平均劃分為s×s 個子區(qū)域,其中s∈S,S∈{1,2,4,8},定義了4 個金字塔尺度。在尺度s 的分支中,每個區(qū)域定義為Rs,i,j ∈RC×W/s×W/s×3 ,1 ≤ i,j≤ s,對這4 個分支分別使用4 個CA。在每個金字塔分支中,分別對所有子區(qū)域Rs,i,j應用CA,生成更新的殘差特征張量Ys ∈RC×H×W×3 。然后,將這些特征張量Ys(s∈S)堆疊起來并輸入卷積層,生成最終的特征張量Y∈RC×H×W×3 。最后,將Y 與X 相加,得到新的張量Z∈RC×H×W×3 。
1. 3 分層上采樣模塊
在STANet 中,對時空注意力模塊生成的雙時間特征圖取歐式距離得到最終的距離特征,然后根據選取的閾值將特征圖每個像素區(qū)分為變化像素和未變化像素,再將得到的檢測圖線性插值,最終得到與輸入圖像大小相同的變化檢測圖。
然而,由于線性插值的影響,變化區(qū)域之間的間隙會變得模糊,變化區(qū)域的形狀不夠明顯,并且容易放大錯誤檢測的像素值,造成虛警率上升。因此,本文設計了一種上采樣模塊,用來對PCA 模塊提取出的距離特征進行判別,經過多層上采樣對特征圖的處理,可以生成更接近真實標簽的特征圖。
分層上采樣模塊網絡結構如圖3 所示。每個卷積塊中包含2 個卷積層,其中Covi,i∈(1,3,5)是2 個卷積核為3×3、步幅為1、填充為1 的卷積層,再經過批量規(guī)范化(BatchNorm2d)和ReLU 激活函數。特征圖經過Covi,i∈(1,3,5)后會和輸入的特征圖相加,再輸入下一個Covi,i ∈ (2,4,5),它代表了一個卷積核為1×1、步幅為1、填充為1 的卷積層,緊接著經過BatchNorm2d 和ReLU 激活函數。3 個卷積塊分別提取不同尺度、通道的距離特征圖,再將它們堆疊起來輸入到Cov7 中,Cov7 是一個卷積核為1×1、步幅為1 的卷積層。最終,經過上采樣模塊會輸出一個和輸入圖像大小相同的距離特征圖。1. 4 深監(jiān)督機制
傳統的神經網絡由于端到端的學習架構,會出現隱藏層的特征透明度不高以及辨別力不高的問題,繼而會導致整個訓練過程十分困難,過度依賴大量數據的訓練以及大量參數的調試。在STANet 中,引入PAM 的目的是捕獲雙時間特征圖時空上的長期依賴,從而獲取到更好的注意力特征。然而,整個網絡在訓練中,輸入PAM 之前的特征圖如果并不符合變化檢測需要的特征,PAM 的作用將會被降低,從而導致訓練時間久、損失函數波動較大。
為了解決深度神經網絡中收斂速度慢和梯度消失等問題,深監(jiān)督采用了在深度神經網絡的隱藏層加入分支的策略來對整個網絡進行監(jiān)督,并起到正則化的作用。具體而言,針對中間隱藏層特征透明度不高、深層網絡中淺層以及中間網絡難以訓練的問題,對隱藏層再進行監(jiān)督(損失函數),同時用最后輸出特征的監(jiān)督以及中間隱藏層的監(jiān)督(伴隨損失函數)對網絡進行訓練,可以促進網絡更好更快地收斂。
因此,為了解決STANet 訓練困難的問題,在ResNet 網絡提取出特征后除了輸入主干網絡外引入第2 個分支,即將特征圖直接輸入到上采樣模塊進行解碼,然后用解碼出來的特征圖計算損失函數loss_1,最終的損失函數計算loss 為loss_1 與主干網絡損失函數loss_2 的求和。同時為了保證主干網絡loss_2 不受過多影響,對loss_1 加上一個隨迭代次數epoch 衰減的權重:
loss = loss_1 + α(1 - epoch / n_epoch)× loss_2, (1)式中:epoch 為當前已到達的迭代次數,n_epoch 為訓練的迭代總數,α 為超參數,loss_1 和loss_2 的計算都采用STANet 中的BCL。
2 實驗結果及分析
為了驗證改進的STANet 網絡各模塊的有效性,本文進行了消融實驗。另外,使用不同的算法在2 個公開數據集(LEVIRCD 和WHUCD)做對比實驗,以驗證所提算法的優(yōu)越性和泛化能力。
2. 1 評價指標
為了有效客觀地評估模型的性能,本文選取精確率(Precision,Pr)、召回率(Recall,Re)和F1 作為評價指標。在圖像變換檢測中,對樣本的檢測情況分別為:把正類預測為正類(True Positive,TP)、把負類預測為正類(False Positive,FP)、把正類預測為負類(False Negative,FN)、把負類預測為負類(TrueNegative,TN)。以上指標的計算如下:
2. 2 數據集介紹
LEVIRCD[15]是一個包含1 024 pixel×1 024 pixel的遙感圖像對的變化檢測數據集。從這些圖像中,本文將每張圖像隨機裁剪為5 張256 pixel ×256 pixel 的圖像,并將其中的70% 用于訓練,10%用于驗證,20% 用于測試。
WHU[17]由2012 年和2016 年在20. 5 km2 面積上獲得的2 張航空圖像組成,其中分別包含12 796、16 077 個建筑實例。每張圖像的空間大小為15 354 pixel× 32 507 pixel,空間分辨率為0. 2 m。由于2011 年2 月的6. 3 級地震,該地區(qū)有大量重建建筑物和新建筑。本文將每張圖像隨機裁剪為256 pixel×256 pixel 大小的圖像用于訓練。
2. 3 實驗參數
實驗環(huán)境為Ubuntu 18. 04. 6 LTS 系統,處理器為Intel(R)Xeon(R)CPU E5-2686 v4 @ 2. 30 GHz,GPU 為NVDIA GeForce RTX3090,軟件環(huán)境為CU-DA11. 1. 1,深度學習框架為torch1. 12. 1。
訓練中使用的超參數α = 1,預訓練模型采用STANet 中的ResNet-18,初始學習率為0. 001。按照文獻[18],在前100 個epoch 中保持相同的學習率,并在剩余的100 個epoch 中線性衰減到0。使用Adam 優(yōu)化器[19],批量大小為4,β1 為0. 5,β2 為0. 99。模型應用隨機翻轉和隨機旋轉(-15° ~ 15°)進行數據增強。
2. 4 對比試驗
為了驗證模型的泛化性能,將改進的模型同時應用在LEVIR-CD 和WHU 數據集上,并同其他經典的遙感圖像變化檢測方法進行比較。
所對比方法包括經典的純粹基于卷積的方法(FC-EF[7]、FC-SiamDi[7]、FC-Siam-Conc[7])、利用了密集網絡和深監(jiān)督機制的方法(SNUNet[11])、目前檢測效果比較出色的方法(BIT)[10]。
(1)3 種經典的純粹基于卷積的方法。由于這3 種方法的網絡架構所有層都是卷積層,不包含全連接層,因此比較適合與其他神經網絡進行對比,以此來校驗不同模塊的有效性,簡要介紹如下。
① FC-EF:連接雙時間圖像,通過ConvNet 進行處理,檢測變化。
② FC-Siam-Di:是一種特征-差異方法,從Siamese ConvNet 中提取雙時間圖像的多層次特征,并用它們的差異來檢測變化。
③ FC-SiamConc:是一種特征拼接方法,從Sia-mese ConvNet 中提取雙時間圖像的多層次特征,通過特征拼接來檢測變化。
(2)最近幾年較新的網絡架構。SNUNet 與本文思路相似,采用多尺度特征進行分析,并利用深監(jiān)督提升對中間特征的識別能力。
SNUNet:多尺度特征拼接方法,結合Siamese 網絡和NestedUNet[20]提取高分辨率高級特征。信道注意應用于解碼器的每個級別的特征。采用深度監(jiān)督的方法,提高了中間特征的識別能力。
(3)BIT 是較為新穎的根據語義標記來對圖像特征進行處理,該網絡取得了非常好的識別結果,簡要介紹如下。
BIT:一種基于Transformer 的方法,該方法使用Transformer 編碼器-解碼器網絡通過語義標記增強ConvNet 特征的上下文信息,然后進行特征差分得到變化圖。
以上方法在2022—2023 年的文獻[8 -10,12]中均有對比,其網絡架構多有創(chuàng)新和可取之處。在實驗中,對比方法與本文方法均在同樣環(huán)境下進行試驗,實驗結果如表1 所示。
從表1 可以看出,本文對STANet 的改進有效提升了F1 分數,均領先于其他算法,并且在準確率和回召率上也取得了良好的效果。從圖4 可以看到,本文算法在檢測的特征圖上更接近真實標簽,并且檢測的特征區(qū)域細節(jié)上更加明顯,區(qū)域之間的間隙更加分明,而其他算法都較為模糊。
2. 5 消融實驗
為了驗證改進的STANet 網絡各個模塊的有效性,本文在LEVIR-CD 數據集上進行消融實驗,分別是以下7 組:
① 基線(STANet):Res(ResNet-18)+ PAM + M(Metric Module);
② 加入上采樣:Res + PAM + UP(UPSample);
③ 加入深監(jiān)督:Res + PAM + M + S
④ 加入上采樣、CA 模塊:Res + CA + UP;
⑤ 加入上采樣、PCA 模塊:Res + PCA + UP;
⑥ 加入上采樣、CA 模塊、深監(jiān)督:Res + CA +UP + S(Deep Supervision);
⑦ 加入上采樣、PCA 模塊、深監(jiān)督:Res + PCA +UP + S(Deep Supervision)。
以上所有實驗使用同樣的超參數,每組實驗將訓練好的模型應用在測試集上,實驗結果如表2 所示。
從表2 可以看出:
① 根據實驗一和二可以發(fā)現上采樣模塊將模型的F1 提升了3% ,準確率提升了1% ,召回率提升了4. 9% 。
② 從實驗一和三、實驗四和六以及實驗五和七可以看出,深監(jiān)督機制的加入總會使模型的F1 提升0. 4% ~ 0. 7% ,在計算開銷可接受的情況下,深監(jiān)督對模型的特征提取效果總會有所提升。
③ 從實驗二和四效果來看,CA 注意力機制的引入使F1 提升了0. 6% ,而從實驗四和五、實驗六和七來看,PCA 機制的引入會使F1 繼續(xù)提升0. 2% 。并且,實驗七訓練過程中每個epoch 耗時約1 min,而實驗三每個epoch 耗時約1 min 40 s。因此,CA機制的引入可以大大降低計算開銷,并且對模型的檢測效果也有所提升。
④ 從實驗一和七可以看出,改進之后的網絡與原網絡相比,準確率提升了2% ,召回率提升了6. 8% ,F1 提升了4. 5% ,改善效果十分明顯。
從圖5 的實驗結果可以發(fā)現:
① 上采樣的加入十分有效地解決了變化區(qū)域間隙模糊的問題。檢測出的變化結果圖間距明顯,與真實標簽之間差距更小,變化區(qū)域形狀更加鮮明。
② 金字塔機制和CA 的引入也基本上會使檢測結果在細節(jié)上更加出色,有效降低漏檢率和虛警率。
③ 深監(jiān)督機制可以幫助模型在特征的檢測上處理得更好,每個變化區(qū)域的形狀都會有所提升。
④ 改進之后的網絡相比STANet,檢測出的變化圖特征更加接近真實標簽,變化區(qū)域間距和形狀更加明顯,尤其是大大降低了虛警率和漏檢率,改進效果顯著。
2. 6 數據集不同的處理方式對實驗結果的影響
在文獻[15]中,STANet 的F1 分數為87. 3,而本文所得結果為81. 6,與原文有所區(qū)別。這是由于原論文對LEVIR-CD 數據集的處理是將一張1 024 pixel×1 024 pixel 的圖片裁剪為16 張256 pixel×256 pixel的圖片進行訓練、驗證和測試,與本文裁剪為5 張有所區(qū)別。為了對這一情況進行驗證,本文將圖像裁剪為16 張進行對照實驗如表3 所示。
從表3 的實驗結果可知,在同樣的數據集處理方式下,本文的算法仍要優(yōu)于STANet。準確率提高了0. 6% ,召回率提高了5. 7% ,F1 分數提高了3. 3% ,改進效果明顯。從2 種數據集的處理可以看出,裁剪5 張的情況下數據集大小顯著降低,STANet在小數據集的情況下效果大幅下降,而本文改進的算法即使數據集規(guī)模小也可以取得良好的效果。
3 結束語
本文在STANet 上進行改進:設計了對距離特征的上采樣模塊,使得變化區(qū)域間隙更加明顯,虛警率更低;引用了新的CA 模塊,在降低運算開銷的基礎上,更好地識別了不同空間、通道的特征。為了使訓練收斂更快,更好地利用隱藏層的特征,加入了深監(jiān)督模塊,起到了正則化的作用。在LEVIR-CD 數據集上進行的消融實驗驗證了每個模塊的有效性;在LEVIR-CD 和WHU-CD 數據集上對不同算法進行比較,驗證了改進算法的泛化性能。實驗結果表明,改進的算法相比其他算法具有一定的優(yōu)越性。
參考文獻
[1] HAFNER S,BAN Y F,NASCETTI A. Urban ChangeDetection Using a Dualtask Siamese Network and Semisupervised Learning[C]∥IGARSS 2022-2022 IEEE International Geoscience and Remote Sensing Symposium.Kuala Lumpur:IEEE,2022:1071-1074.
[2] 陳璐,管霜霜. 基于深度學習的城市高分遙感圖像變化檢測方法的研究[J]. 計算機應用研究,2020,37(增刊1):320-323.
[3] CHAN H P,CHANG C P,LIN T H,et al. The Potential ofSatellite Remote Sensing for Monitoring the Onset of Volcanic Activity on Taipeis Doorstep[J]. International Journal of Remote Sensing,2020,41(4):1372-1388.
[4] CHEN C F,SON N T,CHANG N B,et al. MultidecadalMangrove Forest Change Detection and Prediction in Honduras,Central America,with Landsat Imagery and aMarkov Chain Model[J]. Remote Sensing,2013,5(12):6408-6426.
[5] JIANG H W,PENG M,ZHONG Y J,et al. A Survey onDeep Learningbased Change Detection from Highresolution Remote Sensing Images[J]. Remote Sensing,2022,14(7):1552.
[6] SHAFIQUE A,CAO G,KHAN Z,et al. Deep Learningbased Change Detection in Remote Sensing Images:AReview[J]. Remote Sensing,2022,14(4):871.
[7] DAUDT R C,SAUX B L,BOULCH A. Fully ConvolutionalSiamese Networks for Change Detection[C]∥2018 25thIEEE International Conference on Image Processing(ICIP). Athens:IEEE,2018:4063-4067.
[8] BANDARA W G C,PATEL V M. A Transformerbased Siamese Network for Change Detection[C]∥IGARSS 2022-2022 IEEE International Geoscience and Remote SensingSymposium. Kuala Lumpur:IEEE,2022:207-210.
[9] LI Z L,TANG C,LI X J,et al. Towards Accurate and Reliable Change Detection of Remote Sensing Images viaKnowledge Review and Online Uncertainty Estimation[EB / OL]. (2023 - 05 - 31)[2023 - 09 - 02]. https:∥arxiv. org / abs / 2305. 19513.
[10] CHEN H,QI Z P,SHI Z W. Remote Sensing Image ChangeDetection with Transformers [J]. IEEE Transactions onGeoscience and Remote Sensing,2021,60:1-14.
[11] FANG S,LI K Y,SHAO J Y,et al. SNUNetCD:ADensely Connected Siamese Network for Change Detectionof VHR Images [J ]. IEEE Geoscience and RemoteSensing Letters,2021,19:1-5.
[12] CHEN C P,HSIEH J W,CHEN P Y,et al. SARASNet:Scale and Relation Aware Siamese Network for ChangeDetection[C]∥ Proceedings of the AAAI Conference onArtificial Intelligence. Washington D. C. :AAAI Press,2023:14187-14195.
[13] ZHENG Z,MA A L,ZHANG L P,et al. Change Is Everywhere:Singletemporal Supervised Object Change Detectionin Remote Sensing Imagery [C ]∥ Proceedings of theIEEE / CVF International Conference on Computer Vision.Montreal:IEEE,2021:15173-15182.
[14] ZHENG Z,ZHONG Y F,WANG J J,et al. Foregroundaware Relation Network for Geospatial Object Segmentationin High Spatial Resolution Remote Sensing Imagery[C]∥Proceedings of the IEEE / CVF Conference on ComputerVision and Pattern Recognition. Seattle:IEEE,2020:4095-4104.
[15] CHEN H,SHI Z W. A SpatialTemporal AttentionbasedMethod and a New Dataset for Remote Sensing ImageChange Detection[J]. Remote Sensing,2020,12(10):1662.
[16] HOU Q B,ZHOU D Q,FENG J S. Coordinate Attention forEfficient Mobile Network Design[C]∥Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Nashville:IEEE,2021:13708-13717.
[17] JI S P,WEI S Q,LU M. Fully Convolutional Networks forMultisource Building Extraction from an Open Aerial andSatellite Imagery Data Set[J]. IEEE Transactions on Geoscience and Remote Sensing,2018,57(1):574-586.
[18] ZHU J Y,PARK T,ISOLA P,et al. Unpaired ImagetoImageTranslation Using Cycleconsistent Adversarial Networks[C]∥ Proceedings of the IEEE International Conferenceon Computer Vision. Venice:IEEE,2017:2242-2251.
[19] KINGMA D P,BA J. Adam:A Method for Stochastic Optimization[EB / OL]. (2024 - 12 - 22)[2023 - 09 - 02 ].https:∥arxiv. org / abs / 1412. 6980.
[20] ZHOU Z W,SIDDIQUEE M M R,TAJBAKHSH N,et al.Unet++:A Nested UNet Architecture for Medical ImageSegmentation [C ]∥ Deep Learning in Medical ImageAnalysis and Multimodal Learning for Clinical DecisionSupport(DLMIA). Granada:Springer,2018:3-11.
作者簡介
王文韜 男,(1999—),碩士研究生。主要研究方向:計算機視覺、圖像處理。
(*通信作者)何小海 男,(1964—),博士,教授,博士生導師。主要研究方向:圖像處理與網絡通信、機器視覺與智能系統。
張豫 男,(1986—)。主要研究方向:智能控制、圖像處理及應用。
王正勇 女,(1994—),博士,副教授,碩士生導師。主要研究方向:圖像處理與模式識別、計算機視覺與智能系統。
滕奇志 女,(1961—),博士,教授,博士生導師。主要研究方向:圖像處理與模式識別。
基金項目:國家自然科學基金(62271336,62211530110)