譚大寧 劉 瑜 姚力波 丁自然 路興強
(1.海軍航空大學信息融合研究所,山東煙臺 264001;2.中科衛(wèi)星(山東)科技集團有限公司,山東濟南 250199)
遙感影像分割是遙感衛(wèi)星數(shù)據(jù)處理與分析的重要研究內(nèi)容,隨著城市管理、資源調(diào)查、環(huán)境監(jiān)測等需求的上升,準確獲取遙感圖像中指定語義區(qū)域的分布情況成為管理決策的重要信息來源[1]。目前用于多源遙感圖像融合語義分割的數(shù)據(jù)主要包括MS、PAN、SAR 以及激光(LiDAR)數(shù)據(jù)等。不同遙感數(shù)據(jù)具有不同的特性,因而在分割任務(wù)中也有各自不同的優(yōu)勢[2]。PAN 圖像的空間分辨率高,MS圖像具有更豐富的光譜信息,LiDAR 包含地面物體的三維空間信息,而SAR 圖像具有全天候、全天時的觀測能力[3]。近年來,隨著衛(wèi)星和機載傳感器平臺的蓬勃發(fā)展,多源遙感數(shù)據(jù)的同時獲取更加容易,利用多源遙感數(shù)據(jù)進行區(qū)域分割也成為一個研究熱點,特別是利用深度學習技術(shù)進行多源遙感圖像的融合區(qū)域提?。?]。
多源遙感圖像區(qū)域提取主要采用語義分割的方法,其原理是將圖像中分屬同一類別的像素聚合為一個連通區(qū)域,并生成分割掩膜。在深度學習技術(shù)得到大規(guī)模應用之前,主要的語義分割算法有基于馬爾科夫隨機場(Markov Random Fields,MRF)[5]的方法和基于隨機森林(Random Forest,RF)的方法[6]。2014 年,加利福尼亞大學Long 等人提出完全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[7],標志著深度學習正式進入圖像語義分割領(lǐng)域,F(xiàn)CN 也成為后續(xù)大部分語義分割方法的基本結(jié)構(gòu)。Seg?Net[8]在FCN 的基礎(chǔ)上,通過類似U-Net的編碼-解碼結(jié)構(gòu)和跳躍連接,同時采用最大值池化,使得與FCN 相比更為高效。PSPNet[9]與上述方法不同的是,它采用卷積神經(jīng)網(wǎng)絡(luò)來提取圖像的特征圖,然后通過金字塔池化模塊來聚合背景信息,從而使得模型具有更好的多尺度特性,對小目標分割效果更好。單一數(shù)據(jù)源的圖像分割算法為多源圖像融合分割提供了很好的借鑒。按照融合的不同時期,多源數(shù)據(jù)融合可以分為早期融合和后期融合。FuseNet[10]采用早期融合的模型結(jié)構(gòu),將RGB 光譜信息和深度信息進行融合用于室內(nèi)場景的語義分割任務(wù),展現(xiàn)了多源數(shù)據(jù)融合分割的優(yōu)勢,同時也存在著融合效率不高的問題。Audebert等人采用后期融合思路,將SegNet 進行改進用于多源數(shù)據(jù)融合分割任務(wù)[11],同時與FuseNet 進行對比,并得出后期融合可以恢復模糊數(shù)據(jù)產(chǎn)生的錯誤,而早期融合可以更好地聯(lián)合特征學習,但代價是對缺失數(shù)據(jù)更加敏感。改進的SegNet 與FuseNet 相比模型參數(shù)量更大,但兩者均展現(xiàn)出與SOTA 算法相當?shù)男阅堋@钊f琦等[12]提出一種將數(shù)值地表模型(Digital Surface Model,DSM)與RGB 光譜信息相結(jié)合的多模態(tài)融合模型SEU-Net,該模型也屬于早期融合類型。它使用了SE(Squeeze and Excitation)模塊用于模態(tài)信息加權(quán),克服了卷積網(wǎng)絡(luò)多模態(tài)信息融合過程中的加權(quán)問題,但該模型只針對兩種數(shù)據(jù)源,對于兩種以上的數(shù)據(jù)源并不具有可移植性。
針對以上問題,以及多源遙感數(shù)據(jù)融合處理的特點,本文以U-Net模型[13]為基礎(chǔ),提出一種適用于多種模態(tài)的多源遙感圖像融合語義分割模型,用于從遙感圖像提取目標區(qū)域。該模型將Transformer模塊與U-Net模型結(jié)合,利用U-Net的編碼器結(jié)構(gòu)將MS、PAN 和SAR 圖像進行編碼融合,同時使用通道交換策略將多源遙感圖像的特征圖進行交換,從而獲得更好的多源互補性。通過Transformer 模塊的注意力機制對拼接融合的特征圖進行全局信息建模,以此來捕獲全局上下文信息,從而對目標建立長距離依賴項,提取出更有效的全局特征。對于建筑物輪廓分割任務(wù),可以得到類似人眼視覺的效果。
U-Net 在圖像分割任務(wù)特別是醫(yī)學圖像分割任務(wù)中最具代表性,其編碼器-解碼器結(jié)構(gòu)和跳躍連接(skip connection)是一種非常經(jīng)典、高效的設(shè)計。最初U-Net 被用于二維圖像分割的卷積神經(jīng)網(wǎng)絡(luò),并分別贏得ISBI 2015 細胞追蹤挑戰(zhàn)賽和齲齒檢測挑戰(zhàn)賽的冠軍[14]。自2015 年在MICCAI 會議上提出以來,該方法目前已被引用四千多次。目前圖像分割網(wǎng)絡(luò)出現(xiàn)許多新的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計方式,但很多依然延續(xù)U-Net 的設(shè)計思想,加入了新的模塊或者融入其他設(shè)計理念。
U-Net的結(jié)構(gòu)如圖1所示,左側(cè)可視為一個編碼器,右側(cè)可視為一個解碼器。其中,編碼器有四個子模塊,每個子模塊又包含了兩個卷積層,每個子模塊之后通過最大值池化實現(xiàn)下采樣。U-Net 的輸入圖像分辨率為572×572,經(jīng)過每個模塊之前的分辨率分別為572×572、284×284、140×140、68×68 和32×32。解碼器與編碼器有著對稱的分布,也包含四個子模塊,每一模塊的分辨率通過上采樣操作依次上升,直到與輸入圖像的分辨率一致。與此同時,該網(wǎng)絡(luò)還使用了跳躍連接,將上采樣結(jié)果與編碼器中具有相同分辨率的子模塊的輸出進行連接,作為解碼器中下一子模塊的輸入,具有良好的多尺度特性。
2.2.1 Transformer基本結(jié)構(gòu)
Google 于2017 年提出Transformer 結(jié)構(gòu)[15],最初在自然語言處理(NLP)的多個任務(wù)上取得了較好的效果,極大促進了NLP 的發(fā)展。Transformer 擯棄了傳統(tǒng)的CNN和RNN,整個網(wǎng)絡(luò)結(jié)構(gòu)完全由注意力機制(attention mechanism)組成。由于其出色的性能以及廣泛的適用性,不斷有研究者將Transformer 引入計算機視覺任務(wù)。在本文中,主要思路是利用Transformer 的自注意力機制(self-attention),對PAN、MS 和SAR 圖像建立長距離依賴,從而更好地提取全局上下文信息。
Transformer 模塊以向量組成的序列作為輸入,每個向量由位置編碼和特征編碼相加得到。將輸入序列表示為Fin∈RN×Df,其中N為序列中的向量數(shù),每個向量用維數(shù)Df的特征向量表示。Trans?former 使用線性投影來計算一組查詢、鍵和值(Q、K和V),
其 中Mq∈RDf×Dq,Mk∈RDf×Dk和Mv∈RDf×Dv是權(quán)重矩陣,它使用Q和K之間的點積來計算注意力權(quán)值,然后對每個查詢的值進行聚合,計算方法如下:
其中Softmax 函數(shù)用于描述相似度。最后,Trans?former 采用非線性變換來計算輸出特征Fout,其形狀與輸入特征Fin相同,
Transformer 在整個架構(gòu)中多次應用注意機制,從而產(chǎn)生L個注意力層。標準Transformer的每一層都有多個并行注意頭,這涉及到在式(1)中每個Fin產(chǎn)生幾個Q,K和V值,并從式(2)中連接得出的A值。
2.2.2 多源融合Transformer
為了學習多模態(tài)任務(wù),在Transformer的編碼器-解碼器體系結(jié)構(gòu)之上,建立多源Transformer 模型[16]。它由每個輸入模態(tài)的獨立編碼器和一個解碼器組成,在多個不同的模態(tài)信息輸入下,融合多源全局上下文信息。對于PAN、MS 圖像和SAR 三種模態(tài)輸入,通過Transformer 編碼器編碼到一個隱藏狀態(tài)列表中,以合并全局上下文信息。在將輸入模式編碼到隱藏狀態(tài)序列后,將Transformer 解碼器應用于多種編碼模態(tài)的串聯(lián)序列。
設(shè)輸入的多源圖像為I1、I2和I3,在本文所提的模型中,通過卷積神經(jīng)網(wǎng)絡(luò)和Transformer 編碼器對輸入圖像進行編碼,并將三種模態(tài)的輸入編碼成視覺隱藏狀態(tài)圖像編碼的思路來源于DETR[17],其過程如下:首先,將卷積神經(jīng)網(wǎng)絡(luò)應用于輸入圖像,分別提取大小為的特征圖xm、yp和zs。在特征映射xm、yp和zs的頂部分別應用一個具有L1層、L2層、L3層和隱藏尺寸的可視化Transformer編碼器Em、Ep、Es,進一步將其編碼為大小為和的可視化隱藏狀態(tài)iv、jv、k(v其中是已編碼的可視化隱藏狀態(tài)的長度)。在對輸入多模態(tài)進行編碼后,對其應用一個隱藏尺寸為、層數(shù)為Nd的Transformer 解碼器D,輸出解碼后的隱藏狀態(tài)hdec序列,用于后續(xù)的任務(wù)。變壓器解碼器D采用編碼后的輸入序列henc和長度為q的任務(wù)特定查詢嵌入序列qtask,它為Transformer解碼器每l層的層輸出解碼后的隱藏狀態(tài)序列hdec,l,該序列與查詢嵌入qtask的長度q相同,其計算方式如下:
解碼器結(jié)構(gòu)遵循在DETR[18]中的Transformer 解碼器實現(xiàn)。在第l層譯碼器中,自注意力在解碼器隱藏狀態(tài)hdec,l之間應用,l在不同位置上應用,跨注意力應用于編碼輸入模態(tài)henc。
目前深度多模態(tài)融合方法主要分為基于聚合的融合、基于對齊的融合[19]和混合方法?;诰酆系姆椒ǎㄈ鐖D2(a))采用某種操作(如平均[10]、連接[20]和自注意力[21])將多模態(tài)的子網(wǎng)絡(luò)組合成一個統(tǒng)一的網(wǎng)絡(luò)。而基于對齊的融合[22-23]則采用特定的損失函數(shù)來對齊所有子網(wǎng)絡(luò)的嵌入,同時保持每個子網(wǎng)絡(luò)的全傳播。盡管目前的多模態(tài)融合方法進展顯著,但如何在保留每一種模態(tài)信息的同時整合各模態(tài)的共同信息方面仍然面臨許多困難。特別是當多模態(tài)子網(wǎng)絡(luò)被聚合時,基于聚合的融合容易忽略模態(tài)內(nèi)的傳播。相反,基于對齊的融合(如圖2(b))雖然保持了模態(tài)內(nèi)傳播,但由于僅通過訓練對齊損失函數(shù)而導致信息交換較弱,往往無法實現(xiàn)有效的模態(tài)間融合。
為了平衡模態(tài)間融合和模態(tài)內(nèi)處理,本文采用了無參數(shù)、自適應、有效的通道交換網(wǎng)絡(luò)[24](Channel-Exchanging-Network,簡稱CEN)。該策略將尺度因子的稀疏性約束應用于不同模態(tài)的不相交區(qū)域。如果特征圖的比例因子低于閾值,則在同一位置的特征圖將被其他模態(tài)的特征圖所取代。CEN 不使用聚合或?qū)R,而是通過動態(tài)地在子網(wǎng)絡(luò)之間交換通道以進行融合(如圖2(c))。具體而言,利用批量歸一化(Batch Norm,BN)的尺度因子(即γ)作為每個對應通道的重要性度量,并將每個模態(tài)的接近零因子相關(guān)的通道替換為其他模態(tài)的均值。這種通道交換是無參數(shù)且自適應的,它由訓練本身確定的尺度因子動態(tài)控制。此外,為了保持模態(tài)內(nèi)的傳播,實際使用時只允許在每個模態(tài)通道的特定范圍內(nèi)進行有向的通道交換。
如圖3 所示,Conv 表示卷積,BN 表示批量歸一化,ReLU 表示非線性函數(shù)。在下采樣后的每一級卷積中,通道交換發(fā)生在第二個BN 層之后。經(jīng)過BN層后對應輸出為
其中xm,l,c表示第m個分支第l級下采樣的第c個通道的特征圖,μm,l,c和σm,l,c表示均值和標準差,γm,l,c和βm,l,c為訓練得到的比例因子和偏置,ε為避免被零整除的趨于零的常數(shù)。式(5)中的比例因子γm,l,c評估了xm,l,c和x′m,l,c之間的相關(guān)性,當γm,l,c→0,表示xm,l,c對最終預測沒有影響,從而成為冗余。因此,當γm,l,c→0 時,CEN 將替換掉較小比例因子對應的通道。因而經(jīng)過交換后的輸出為:
在式(6)中,M表示分支網(wǎng)絡(luò)數(shù)。當通道的比例因子低于某一閾值(θ≈0+)時,將其替換為其他通道的均值。對每個分支網(wǎng)絡(luò)均應用式(6),然后將處理完的特征圖輸入非線性激活函數(shù)ReLU,然后進行下一級下采樣操作。
本文在3D 醫(yī)學影像分割模型TransBTS[25]的基礎(chǔ)上提出了適用于多源遙感融合語義分割的模型Transformer U-Net(簡稱TU-Net)。如圖4所示,該模型主體借鑒了U-Net的編碼-解碼器結(jié)構(gòu)和跳躍連接結(jié)構(gòu),輸入為PAN、MS 和SAR 三種模態(tài)的遙感數(shù)據(jù)(分別設(shè)為X∈RC1×H×W、Y∈RC2×H×W和Z∈RC3×H×W,其中H×W代表空間分辨率,Ck代表通道數(shù),k=1,2,3)。首先,通過編碼器的卷積神經(jīng)網(wǎng)絡(luò)對多源遙感信息進行提取,生成多分辨率的特征圖,以獲得空間結(jié)構(gòu)信息;然后利用Transformer 編碼器對多源融合特征圖全局空間中的長距離依賴項進行建模,使得大型的不規(guī)則區(qū)域更容易被分割出來;之后將上采樣層和卷積層進行逐級像素級相加,逐步得到高分辨率的分割結(jié)果。由于全色圖像具有更好的空間分辨率和更易分辨的細節(jié)信息,因此通過連接全色圖像支路編碼器和解碼器的跳躍連接來改善分割精度。
由于輸入圖像的尺寸不能太大,Transformer 在計算機視覺中的應用十分受限。對于N×N的圖像,輸入Transformer 重整形后序列長度達到N2,因此直接將輸入圖像與序列聯(lián)系起來作為Trans?former的輸入是不切實際的。文獻[26]提出圖像切分的概念,將輸入圖像切分成16×16的圖像塊,然后將每個補丁重塑為一個向量,將序列長度縮減為162。在多源融合處理任務(wù)中,直接切分輸入圖像也使得模型計算量較大。為了縮減開支,先通過編碼網(wǎng)絡(luò)對輸入數(shù)據(jù)進行下采樣,逐步將輸入圖像編碼為低分辨率特征表示。經(jīng)過的3 次下采樣后,數(shù)據(jù)大小變?yōu)?,這樣,豐富的局部上下文特征就可以有效地嵌入到Fi。之后Fi被輸入到Transformer 編碼器中,以進一步學習具有全局感受域的大范圍相關(guān)性。在下采樣過程中,3 個分支網(wǎng)絡(luò)通過2.3 中的通道交換網(wǎng)絡(luò)進行通道交換。
對于編碼網(wǎng)絡(luò)輸出特征圖Fi,進行通道拼接為由 于輸入Transformer 的需要是一維序列,因此將F的空間維度折疊為一維,得到一個的特征圖f,也可以看作是N個d維的向量。為了對建筑物分割任務(wù)中至關(guān)重要的位置信息進行編碼,引入可學習的位置嵌入,并通過直接相加的方式將其與特征圖f融合,生成如下特征嵌入:
其中,PE∈Rd×N代表位置嵌入,z0∈Rd×N為特征嵌入[27]。Transformer 編碼器由L個Transformer 層 組成,每層都有一個標準的架構(gòu),由一個多頭注意力(Multi-Head Attention,MHA)塊和一個前饋網(wǎng)絡(luò)(Feed Forward Network,F(xiàn)FN)組成[28]。第l個Trans?former層(l∈[1,2,…,L])計算如下:
其中,LN(?)表示標準化層,zl為第l個Transformer層的輸出。
為了將序列還原成特征圖,這里通過特征映射實現(xiàn)。對于Transformer 輸出的特征圖zL∈Rd×N,將其重整形為,這樣特征圖的大小恢復為,得到與編碼部分特征圖F相同的尺寸大小。
如圖4所示,解碼網(wǎng)絡(luò)與編碼網(wǎng)絡(luò)類似,不同的是在上采樣的過程中與PAN 分支網(wǎng)絡(luò)的各級輸出特征圖進行像素級拼接,通過跳躍連接將編碼器特征圖與解碼器對應的特征圖融合,這更使得分割掩膜有更豐富的空間細節(jié)。之所以選擇PAN 圖像是因為在PAN、MS 和SAR 圖像中,PAN 圖像具有最高的地面空間分辨率,紋理細節(jié)更加清晰,可以提高語義分割精度。最終解碼器的輸出為建筑物分割掩膜Mask ∈RH×W。
表1 展示了本文提出的TU-Net 網(wǎng)絡(luò)結(jié)構(gòu)細節(jié),其中Conv 表示3×3 卷積(未標明步長的步長為1),下采樣中Conv 的步長為2。Dropout表示隨機失活,對神經(jīng)元進行正則化,減少權(quán)重使得網(wǎng)絡(luò)對丟失特定神經(jīng)元鏈接的魯棒性提高。BN 為批量歸一化。Reshape 代表重整形,將特征圖由d×N重整形為ReLU 表示非線性激活函數(shù),DeConv表示反卷積層,Softmax 表示分類器,輸出結(jié)果為最終的分割掩膜。編碼塊和解碼塊均為殘差塊。表1的第3 列表示對應層輸出特征圖的尺寸,三種輸入編碼器均采用了相同的輸出特征圖,目的是便于在通道交換過程中進行通道交換。
表1 本文提出的TU-Net網(wǎng)絡(luò)結(jié)構(gòu)細節(jié)Tab.1 The details of the TU-Net network proposed in this paper
基于融合Transformer 的多源遙感圖像語義分割流程如圖5所示,主要步驟為:①對已配準多源遙感圖像進行大小調(diào)整,按照PAN 圖像的分辨率對SAR 和MS 圖像進行插值,使得多源遙感圖像的分辨率一致,之后裁剪成256×256的圖像對;②將處理好的多源遙感圖像輸入編碼網(wǎng)絡(luò),以進行下采樣和通道交換;③對多源拼接特征圖進行位置嵌入,并輸入Transformer 進行長距離依賴項進行建模,然后由重整形恢復到原始特征圖大??;④輸入解碼網(wǎng)絡(luò)進行上采樣,并與編碼網(wǎng)絡(luò)的每一級輸出進行跳躍連接相融合;⑤通過建筑物標簽數(shù)據(jù)進行有監(jiān)督訓練,更新權(quán)值;⑥最后通過Softmax 分類器完成區(qū)域分割提取。
為了檢驗本文所提方法的有效性,設(shè)置了對比實驗和消融實驗。實驗所采用的數(shù)據(jù)源自All Weather Mapping(MSAW)數(shù)據(jù)集[29],該數(shù)據(jù)集包含荷蘭鹿特丹港口0.5 m 四偏振X 波段SAR 圖像和0.5 m光學圖像。MSAW 覆蓋面積約120平方公里,涵蓋了不同的地理環(huán)境,包括高密度的城市環(huán)境、農(nóng)村農(nóng)業(yè)區(qū)、郊區(qū)、工業(yè)區(qū)和港口,導致不同的建筑規(guī)模、密度、背景和外觀。該數(shù)據(jù)集總面積為120平方公里,標有48000 個建筑標簽。實驗選取了其中的0.5 m分辨率四極化SAR圖像、0.5 m分辨率全色圖像和2 m分辨率多光譜圖像(藍色、綠色、紅色和近紅外波段),如圖6所示??紤]到圖像尺寸和模型訓練時間問題,實驗中對原數(shù)據(jù)集的3401對多源遙感圖像及標簽進行了隨機裁剪,得到256×256 標準大小的圖像進行實驗。按照訓練集、驗證集和測試集各70%、10%和20%的劃分比例,將遙感圖像劃分為訓練集2381對、驗證集340對和測試集680對。
實驗平臺選擇為安裝Ubuntu16.04 的服務(wù)器,軟件平臺為PyTorch深度學習框架,采用python語言編程實現(xiàn),硬件環(huán)境為Nvidia RTX2080Ti×2 GPU 和Intel(R)Core(TM)i9900K CPU。模型采用Dice 損失函數(shù)對網(wǎng)絡(luò)進行訓練,采用L2范數(shù)對模型進行正則化,初始學習率設(shè)置為0.0004,權(quán)值衰減率為10-5。模型共訓練100個epoch,batch size設(shè)置為16。
為了取得更好的融合分割效果,實驗1 對不同通道交換閾值θ下的語義分割效果進行了對比。實驗選取的θ取值為2×10-4、2×10-3、2×10-2和2×10-1,記錄的θ值與對應分割結(jié)果的F1值散點圖如圖7 所示。為了便于展示,圖7 橫坐標取對數(shù)表示為log10θ。由圖7可以看出,在實驗選取的四個θ值下θ=2×10-2時分割效果最佳,其次是θ=2×10-3,效果最差的是θ=2×10-4,原因在于θ值過小導致通道交換進行次數(shù)少,沒有發(fā)揮出多源遙感圖像的互補性優(yōu)勢。因此,后續(xù)實驗中θ取值2×10-2。
實驗2為消融實驗,共設(shè)置了四組,第一組對應模型為U-Net,多源圖像的融合方式為2.3中圖2(a)基于聚合的融合;第二組在第一組的基礎(chǔ)上加入了Transformer,多源圖像的融合方式與第一組相同;第三組在第一組的基礎(chǔ)上加入了通道交換,多源圖像的融合方式與第一組相同;第四組為本文所提方法,在第一組的基礎(chǔ)上加入了Transformer 和通道交換策略。實驗2的目的是驗證本文所提的多源融合策略的有效性。為了便于訓練,實驗中通過圖像預處理將全色圖像、多光譜圖像和SAR 圖像裁剪成256×256的圖像對,輸入模型進行建筑物分割訓練。實驗在測試集上的平均指標值如表2 所示,部分結(jié)果如圖8所示。
從表2 的實驗指標值可以看出,所提出的Transformer 和通道交換策略在多源遙感融合建筑物提取中具有顯著的效果,其中使用Transformer 后F1和Dice 系數(shù)相比第一組分別提高了6.27%和5.93%;使用通道交換后F1和Dice 系數(shù)相比第一組分別提高了2.28%和2.97%;二者同時作用時,F(xiàn)1和Dice 系數(shù)分別提高了12.74%和13.01%。結(jié)果表明,本文所提出的多源融合策略對于多傳感器數(shù)據(jù)融合建筑物分割提取任務(wù)有效。
表2 不同方法建筑物分割結(jié)果評價指標Tab.2 Results evaluation indexes of different building Segmentation methods
除了表2 的性能指標,從圖8 的(c)~(f)對比結(jié)果可以看出,在第一組基礎(chǔ)上引入Transformer 可以提高對全局信息的建模能力,大目標的分割提取能力得以提升;在第一組的基礎(chǔ)上引入通道交換網(wǎng)絡(luò)建筑物分割提取結(jié)果略有改進;當二者同時作用時,對于非建筑物區(qū)域的錯誤分割比例降低,正確分割建筑物區(qū)域的比例提升。圖8所示實驗結(jié)果與表2結(jié)果相互印證,本文方法的有效性得以驗證。
為了檢驗本文所提方法的優(yōu)越性,設(shè)置了第3組對比實驗。對比算法選擇文獻[10]、文獻[8]和文獻[13]中的多源融合算法,分別為方法一、方法二和方法三,其中前兩者采用聚合的融合方法。實驗在測試集上的平均指標值如表3所示。不同建筑物分割提取方法的部分結(jié)果如圖9所示。
從表3的數(shù)據(jù)可以看出,與對比算法相比,本文提出的多源融合策略對于建筑物分割提取的性能提升顯著,在測試集的平均F1值和Dice 系數(shù)分別高出3.31%~11.47%和4.87%~8.55%,指標性能最佳。在模型的訓練時長上,本文所提方法與方法一、方法二相當,方法三的時長最短,綜合來看本文所提方法具有優(yōu)勢。
表3 不同方法建筑物提取結(jié)果評價指標Tab.3 Results evaluation indexes of different building extraction methods
除了表3 的性能指標,從圖9 的(c)~(f)對比結(jié)果可以看出,相比方法一、方法二和方法三,本文提出的方法對建筑物全局特征有更好的提取能力,分割結(jié)果的整體輪廓更完整清晰。圖9所示實驗結(jié)果與表3結(jié)果相互印證,本文方法的優(yōu)越性得以驗證。
由于對比算法和本文所提方法均使用的Dice損失函數(shù),因此為了進一步說明本文所提出算法的優(yōu)越性,實驗記錄了訓練過程中不同方法的訓練損失和驗證損失,其平滑處理結(jié)果如圖10 和圖11 所示。觀察圖10中的訓練損失可以得出,本文所提方法具有更好的收斂效果,在四種方法中收斂效果最好。在圖11 中,四種方法的驗證損失均為震蕩曲線,而本文提出的方法的驗證損失曲線位于其他方法的曲線下方,均值和震蕩幅度最小,模型訓練過程中更加穩(wěn)定。實驗結(jié)果再次驗證了本文所提出方法的優(yōu)越性。
為了解決多源遙感圖像融合過程中的數(shù)據(jù)不均衡問題,本文設(shè)計了一種基于注意力機制的多源遙感數(shù)據(jù)融合語義分割模型TU-Net。該模型在U-Net的基礎(chǔ)上引入了通道交換網(wǎng)絡(luò)進行多編碼支路的通道交換,并將融合后的特征圖輸入Transformer 模塊進行全局信息建模,以獲得對全局上下文信息更強的提取能力。在MSAW 數(shù)據(jù)集上的實驗表明,本文提出的方法平均F1值和Dice系數(shù)分別達到0.593和0.495,取得最好的分割效果。與對比算法相比,在測試集上的平均F1值和Dice 系數(shù)分別高出3.31%~11.47%和4.87%~8.55%,通過數(shù)據(jù)說明了TU-Net的有效性。在后續(xù)研究工作中,將重點關(guān)注小目標的分割方法,從模型的多尺度特性及動態(tài)融合方面進行優(yōu)化,以獲得更好的多源語義分割提取能力。