安昭先,魏霖靜
(甘肅農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,甘肅 蘭州 730070)
目前針對自然土地覆被的分割手段一直采用傳統(tǒng)圖像分割方法,不同于城市建筑分割任務(wù),自然土地覆被分布廣、土地覆被對象形狀不規(guī)則。將現(xiàn)有的深度學(xué)習(xí)圖像分割方法直接應(yīng)用于自然土地覆被分割任務(wù)上效果不理想,因為這些方法過于追求圖像語義,忽視了有限感受野下的局部特征。
因此,本文提出作用于自然土地覆被遙感圖像的語義分割方法GFormer,一個在自然土地覆被任務(wù)中具有極強(qiáng)分割能力與分割穩(wěn)定性的深度學(xué)習(xí)分割方法。本文創(chuàng)新點(diǎn)如下:①提出一個應(yīng)用于自然土地覆被分割任務(wù)的數(shù)據(jù)集處理手段;②改進(jìn)了MixTransFormer[1]的結(jié)構(gòu),使該結(jié)構(gòu)更適應(yīng)遙感圖像的特征提?。虎墼O(shè)計一個具備遞進(jìn)式特征融合結(jié)構(gòu)的解碼器,迫使解碼需按序提取編碼器輸出的層次性特征。通過與DeepLabV3+[2]、Unet[3]以及SegFormer等進(jìn)行對比,證明GFormer 在地物覆蓋遙感圖像分割中具備有效性和魯棒性。
國內(nèi)外針對自然土地覆被的遙感圖像分割研究已經(jīng)有幾十年歷史,學(xué)者們針對不同的場景、數(shù)據(jù)集提出了眾多方法,這些方法根據(jù)解決手段可大致分為傳統(tǒng)方法和深度學(xué)習(xí)方法[4]。
傳統(tǒng)方法大多 數(shù)是基于閾值[5-8]、邊緣[9-13]、區(qū)域[14-16]、聚類[17-20]、圖論[21-23]等的圖像分割方法,根據(jù)人為定義的特征提取函數(shù)作用于遙感圖像,對地面覆蓋物的顏色、形狀、紋理、結(jié)構(gòu)、分部等特征進(jìn)行數(shù)量化描述,再進(jìn)行分割。傳統(tǒng)方法計算量小、分割效果好,且不依賴于學(xué)習(xí)數(shù)據(jù)。但傳統(tǒng)方法具有處理手段單一、對圖像顏色的寬容度低、分割類型少等缺點(diǎn)。
深度學(xué)習(xí)方法將圖像分割任務(wù)轉(zhuǎn)化為像素點(diǎn)分類任務(wù),在圖像分類工作中表現(xiàn)突出,因此眾多學(xué)者嘗試將深度學(xué)習(xí)方法應(yīng)用于圖像語義分割任務(wù)中。全卷積網(wǎng)絡(luò)[24](Fully Convolutional Networks,F(xiàn)CN)的編碼器由經(jīng)典的卷積層組成,解碼器采用反卷積對卷積層最后一個輸出的特征圖進(jìn)行上采樣,最后直接在上采樣的特征圖上進(jìn)行像素分類,從而解決了語義級別的像素分割問題。FCN 的提出也基本確定了語義分割包含編碼器和解碼器兩部分的基本結(jié)構(gòu)。Unet[3]證明了退化現(xiàn)象在語義分割領(lǐng)域的存在,可使用快捷連接的手段解決模型性能與有效感受野[25]之間的矛盾,并且通過特征融合幫助找回反卷積層上更大尺寸特征圖上的特征邊緣。DeepLab[2]提出一個新的卷積計算方式——空洞卷積,空洞卷積解決了內(nèi)部數(shù)據(jù)結(jié)構(gòu)丟失和空間層級化丟失的問題,并且增加了卷積感受野的大小,降低了重建特征信息的難度,還將條件隨機(jī)場[26](Conditional Random Field,CRF)引入到整個網(wǎng)絡(luò)的末端,利用標(biāo)簽的關(guān)聯(lián)信息,進(jìn)一步提高了語義分割精度。
Transformer 模型的問世帶來了一種全新的結(jié)構(gòu)——自注意力機(jī)制(self-attention),該結(jié)構(gòu)完全不同于CNN 或RNN,其能自動捕獲序列不同位置的相對關(guān)聯(lián),正是這種特性使得Transformer 在NLP 任務(wù)中大放異彩。部分學(xué)者隨后將其遷移到計算機(jī)視覺領(lǐng)域,并取得了不錯的成績,ViT 就是其中一個著名的例子[28]。ViT 引入基于計算機(jī)視覺設(shè)計的位置編碼,將圖像轉(zhuǎn)化為序列,一個計算機(jī)視覺任務(wù)就轉(zhuǎn)化為一個純seq2seq 的任務(wù)。緊接著眾多研究人員嘗試將ViT 引入語義分割模型,其中一個比較成功的方法是復(fù)旦和騰訊聯(lián)合提出的SETR[29],其在ADE20K[30]排行上獲得第一,證明了自注意力機(jī)制在語義分割任務(wù)中的可行性。但SETR 仍具有一定局限性,其應(yīng)用在大尺寸圖像上的模型參數(shù)量過于龐大,也沒有像U-Net 一樣輸出不同層次的特征塊進(jìn)行特征融合。SegFormer[1]設(shè)計了一種具有新的層次結(jié)構(gòu)的自注意力機(jī)制編碼器MixTransFormer,可以輸出不同尺寸的特征,且不需要位置編碼。
研究選取陜西省延安市志丹縣中西部地區(qū)的衛(wèi)星遙感圖像,此地區(qū)植被屬于草原化森林草原區(qū),在歷史上這里曾有過植被葳蕤的時期,后經(jīng)歷戰(zhàn)爭破壞和長期的亂砍濫伐,使天然植被一蹶不振、分布不均,從而為自然土地覆被分割提供了先決條件。本文在此地區(qū)截取一張16 級的衛(wèi)星全彩遙感圖像,截取窗口大小為X軸方向24 459.85 m,Y 軸方向17 121.89 m,柵格圖像左上角世界坐標(biāo)為(X:12 067 878.03,Y:4 386 873.93)。此柵格圖像分辨率為10 240*7 168,由截取窗口大小求得空間分辨率為2.388 7 m/像素,如圖1所示。
Fig.1 Original image圖1 原始圖像
根據(jù)此地區(qū)的植被覆蓋情況和地貌特性,本文設(shè)置了3 個自然土地覆被研究對象:森林植被、低矮植被、農(nóng)田。語義對象分類示例如圖2所示。
Fig.2 Semantic object classification example圖2 語義對象分類示例
EISeg(Efficient Interactive Segmentation)[31]是以RITM[32]與EdgeFlow[31]算法為基礎(chǔ),基于飛槳開發(fā)的一個高效、智能的交互式分割標(biāo)注軟件。本文采用適用于遙感建筑物標(biāo)注的輕量化模型HRNet18s_OCR48,該模型以HRNet18s[33]為基礎(chǔ),在OCR48 遙感影像建筑分割數(shù)據(jù)集上達(dá)到擬合。盡管本文采用的數(shù)據(jù)集主體并非建筑物,但其仍然對本文遙感影像數(shù)據(jù)中的紋理、空間信息、相鄰關(guān)系等特征敏感,可進(jìn)行分割和標(biāo)注。
為了方便訓(xùn)練集和測試集的劃分,并考慮了原始圖像的像素尺寸,本文首先將原始圖像分割為70 張1 024× 1 024 像素的區(qū)塊,再單獨(dú)標(biāo)注每個區(qū)塊。區(qū)塊分割示意圖如圖3 所示,其中淺色標(biāo)注的是用于訓(xùn)練的區(qū)塊(49 個,70%),深色標(biāo)注的是用于測試的區(qū)塊(21 個,30%)??紤]到標(biāo)注人員對土地覆蓋類的認(rèn)知標(biāo)準(zhǔn)存在差異,因此3 位研究人員分別只針對一種自然土地覆被類進(jìn)行標(biāo)注。標(biāo)注圖是與遙感圖像分辨率一致的單通道圖像,然后以農(nóng)田>森林植被>低矮植被的優(yōu)先級順序?qū)?biāo)注圖進(jìn)行合并。合并后的標(biāo)注值如表1 所示,遙感原圖與合并后的標(biāo)注圖如圖4所示。
Table 1 Labeled pixel value表1 標(biāo)注像素值
Fig.3 Block division diagram圖3 區(qū)塊分割示意圖
Fig.4 Labeled example圖4 標(biāo)注示例
衛(wèi)星遙感圖像相較于其他圖像,采集環(huán)境穩(wěn)定、光學(xué)特征單一,且具有連續(xù)性的特點(diǎn)。本研究考慮到模型對衛(wèi)星圖像的紋理、大小敏感,因此沒有針對衛(wèi)星遙感圖像作任何顏色變換,只針對遙感圖像進(jìn)行隨機(jī)旋轉(zhuǎn)、切分和翻轉(zhuǎn)。在數(shù)據(jù)增強(qiáng)方面,首先將遙感圖像與標(biāo)注圖在通道維度上進(jìn)行連接,組成一張具有4 個通道的混合圖像,接著將混合圖像進(jìn)行隨機(jī)旋轉(zhuǎn)、切分和翻轉(zhuǎn),最后將切分好的混合圖像在色彩通道維度上進(jìn)行拆分。本文在數(shù)據(jù)增強(qiáng)過程中保證了圖像沒有被縮放或拉伸,且切分后的圖像不存在黑域。數(shù)據(jù)增強(qiáng)手段如圖5所示。
上文分割好的區(qū)塊為70 個,由于區(qū)塊尺寸大小為 1 024*1 024,再分割后的遙感圖像及對應(yīng)的標(biāo)注圖尺寸大小為256*256,所以包含有效像素點(diǎn)的理論圖像數(shù)量為 1 120 張。本文分別在49 個訓(xùn)練區(qū)塊和21 個測試區(qū)塊上進(jìn)行再分割和數(shù)據(jù)增強(qiáng),得到具有98 000 張圖像的訓(xùn)練數(shù)據(jù)集和42 000 張圖像的測試數(shù)據(jù)集。需要注意的是,由于MixTransFormer 輸出的特征塊尺寸為2 的負(fù)指數(shù)次方,所以需使用圖像尺寸為2 的指數(shù)次方,而不是傳統(tǒng)的7 的指數(shù)次方。
針對衛(wèi)星遙感圖像中自然土地覆蓋語義提取的問題,本文對 SegFormer 進(jìn)行了設(shè)計改進(jìn),提出了新的遙感語義分割模型GFormer。GFormer 架構(gòu)設(shè)計如圖6 所示。網(wǎng)絡(luò)中OPE、Block 屬于模型的編碼器,包含一個具有新層次結(jié)構(gòu)的Transformer 編碼器,輸出多層次、多尺度特征;M1、M2、M3 屬于模型的解碼器,是一種遞進(jìn)式特征融合解碼器,能夠?qū)⒔獯a器輸出的多層次、多尺度特征進(jìn)行融合,生成最終的語義分割掩碼。
Fig.6 GFormer architecture圖6 GFormer架構(gòu)
在衛(wèi)星遙感圖像分割任務(wù)中,MixTransFormer 編碼器以其輸出多尺度特征和具有穩(wěn)定分級結(jié)構(gòu)的優(yōu)勢,在性能上具備很大的潛力。然而,衛(wèi)星遙感圖像分割不同于多場景分割,其是一個連續(xù)、單場景的分割識別任務(wù)。此外,衛(wèi)星遙感圖像分割的目標(biāo)對象通常呈現(xiàn)出不規(guī)則形狀、復(fù)雜背景和單一紋理等特點(diǎn)。針對這些自然土地覆蓋的特征,MixTransFormer 對于低分辨率細(xì)節(jié)的全局關(guān)注,可能會導(dǎo)致在此項任務(wù)中影響性能并損害分割能力。因此,本文通過增加高分辨率層編碼器(MVT)的深度,同時降低分辨率層編碼器(MVT)的深度,迫使MixTransFormer 減弱對低分辨率細(xì)節(jié)的全局特征提取能力,并提升對高分辨率細(xì)節(jié)的局部特征提取能力。
MixTransFormer 編碼器由OPE 和Block 兩部分組成。OPE 用來結(jié)合非重疊的圖像塊或特征塊,Block 中包含一個高效的自注意力網(wǎng)絡(luò)和一個輕量化的FNN 網(wǎng)絡(luò),用來生成圖像塊的特征圖。其中,Block 是MixTransFormer 編碼器性能優(yōu)劣的關(guān)鍵,也是模型一個主要的計算瓶頸。
OPE 中僅包含一層卷積層,用于將重疊的塊合并,以產(chǎn)生與非重疊過程大小相同的特征。OPE 將給定圖像塊的層次特征I=C×H/a×W/a 收縮為I^'=C^'×H/2a×W/2a。本文部署的OPE 部分卷積參數(shù)如表2所示。
Table 2 OPE parameters表2 OPE參數(shù)
ViT 已經(jīng)證明了自注意力機(jī)制在語義分割網(wǎng)絡(luò)中作為編碼器的可行性。在自注意力機(jī)制中,Q(查詢向量)、K(鍵向量)、V(值向量)的維度為d=C×H×W,計算方式為:
FNN為自注意力網(wǎng)絡(luò)提供位置信息,F(xiàn)NN直接由FC網(wǎng)絡(luò)和3×3的卷積驅(qū)動。激活函數(shù)選取GELU,許多方法都證明了GELU在語義分割中具有優(yōu)異的性能。FNN可寫為:
相比于具有最佳性能的SegFormer 編碼器MiT-B5,本文通過增加淺層Block 層數(shù)并減少深層Block 層數(shù),以增強(qiáng)模型對紋理特征的響應(yīng)。層數(shù)信息如表3所示。
Table 3 Number of encoder layers表3 編碼器層數(shù)
GFormer 解碼器包括3 個步驟:MixTransFormer 輸出的多級特征X 首先通過再編碼器M1 進(jìn)行再編碼,接著將再編碼后的特征使用M2 進(jìn)行遞進(jìn)式融合,最后將融合后的特征通過預(yù)測網(wǎng)絡(luò)M3生成預(yù)測掩膜。
語義信息在MixTransFormer 輸出的特征塊上達(dá)到飽和,本文使用4 個融合模塊M1 對MixTransFormer 輸出的特征塊進(jìn)行再編碼,避免直接對輸出的多級特征進(jìn)行融合導(dǎo)致語義信息丟失。M11、M12、M13、M14 分別處理Mix-TransFormer 輸出的特征塊X1、X2、X3、X4。M1 的部分參數(shù)如表4所示。
Table 4 M1 parameters表4 M1參數(shù)
GFormer 解碼器在融合方式上采用一種新設(shè)計的融合結(jié)構(gòu)M2,對編碼器輸出的多層次特征采用遞進(jìn)式融合的方式,對再編碼后的多層次、多尺度特征進(jìn)行融合。融合器M2 由一層MLP 與BatchNormalization、RELU 拼接而成。在復(fù)雜場景下的語義分割任務(wù)中,分割對象邊緣形狀多樣、復(fù)雜,致使對編碼器輸出的特征圖進(jìn)行上采樣難度大,其特征圖邊緣的采樣效果往往不好,地被覆蓋物衛(wèi)星遙感圖像的分割對象卻紋理明顯。本文并未對原始遙感圖像采用放縮、模糊、噪聲、顏色干擾等形式的數(shù)據(jù)增強(qiáng)方法,最大限度地保留了遙感圖像的紋理特征。并且在計算機(jī)視覺任務(wù)中,許多方法都證明了采用特征融合來豐富語義信息是有效的,而特征融合往往采用遞進(jìn)的融合方式。所以本文也借鑒了這種融合思想對多層次特征進(jìn)行遞進(jìn)融合,即在高感受野特征圖像塊上遞進(jìn)融合低感受野特征圖像塊,迫使解碼器首先關(guān)注宏觀語義信息,接著在宏觀語義上豐富細(xì)節(jié)。需要注意的是,在融合前本文對特征塊進(jìn)行了雙線性插值,使其統(tǒng)一尺寸為64。M2 共有3 個依次融合再編碼的特征塊,詳細(xì)參數(shù)如表5所示。
最后將融合后的特征塊經(jīng)過僅由MLP 組成的預(yù)測網(wǎng)絡(luò)M3,生成分割好的預(yù)測掩膜。
如圖6中的M1、M2、M3所示,解碼器可寫為:
最后在C×64×64 的標(biāo)注掩碼上,使用雙線性插值恢復(fù)到原始圖片尺寸C×256×256。
4.1.1 實(shí)驗環(huán)境
本文在網(wǎng)絡(luò)模型訓(xùn)練部分使用TeslaV100,Video Mem為32GB,CPU 為4 核,RAM 為32GB,軟件環(huán)境為:Ubuntu 18.04LTS,Python3.7,paddlepaddle2.2.2。
4.1.2 模型訓(xùn)練
在上節(jié)的實(shí)驗環(huán)境中對第3 章所描述的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,模型在paddlepaddle 深度學(xué)習(xí)框架下進(jìn)行訓(xùn)練。模型訓(xùn)練采用批處理方式,在140 000×0.7(70%的圖片作為訓(xùn)練集,其余作為驗證集)張圖片中,將每32 張作為一個批次(batch)輸入模型進(jìn)行訓(xùn)練,總計訓(xùn)練100 000 個批次。使用Momentum 作為優(yōu)化器,學(xué)習(xí)率服從多項式衰減策略。本文使用大比重Momentum、小學(xué)習(xí)率的策略進(jìn)行優(yōu)化,損失函數(shù)使用交叉熵?fù)p失函數(shù)。模型的部分參數(shù)如表6—表8所示。
Table 6 Some parameters of model training表6 模型訓(xùn)練部分參數(shù)
Table 7 Some parameters of the optimizer表7 優(yōu)化器部分參數(shù)
模型訓(xùn)練過程如圖7 所示(對loss 數(shù)據(jù)作了平滑處理)。從圖中可以看出,得益于學(xué)習(xí)率的線性下降,隨著迭代次數(shù)的增加,Loss 曲線不斷下降并趨于平緩,驗證集的MIoU 和Acc 不斷升高且波動減小,損失函數(shù)基本收斂,表明模型達(dá)到了最優(yōu)。
Fig.7 Model training process圖7 模型訓(xùn)練過程
4.1.3 模型預(yù)測
本研究采用滑窗的方式對未參與訓(xùn)練的21 個測試區(qū)塊進(jìn)行預(yù)測,預(yù)測結(jié)果為單通道暗圖,像素值與表1 所示數(shù)據(jù)一致。預(yù)測的部分參數(shù)如表9所示。
Table 9 Some parameters of the prediction表9 預(yù)測部分參數(shù)
4.1.4 基于模型標(biāo)注的面積測算
由于衛(wèi)星遙感圖像焦距與取像距離恒等,并且在模型訓(xùn)練過程中并未對遙感圖像進(jìn)行放縮變換,從而使根據(jù)模型標(biāo)注計算正投影下的真實(shí)地面覆蓋物面積成為可能。在插值前的模型標(biāo)注中,每個像素點(diǎn)標(biāo)注的面積是原始圖像的4 倍。因此,只要對模型標(biāo)注結(jié)果進(jìn)行像素點(diǎn)統(tǒng)計,即可計算得到正投影下的真實(shí)地面覆蓋物面積。其計算公式如下:
其中,N_sum 為模型標(biāo)注像素點(diǎn)數(shù)量,p 為遙感圖像空間分辨率。
4.2.1 性能評價
對模型分類標(biāo)注結(jié)果使用準(zhǔn)確率(Accuracy)、精準(zhǔn)率(Precision)、召回率(Recall)、均交并比(MIoU)、Dice 系數(shù)、kappa 值進(jìn)行評估。語義分割可看作像素的分類問題,可(1)MixTransFormer 編碼器。本文的人工標(biāo)注精細(xì)程度并不高,這也是整個語義分割數(shù)據(jù)標(biāo)注面臨的普遍性問以將真實(shí)標(biāo)注值與模型預(yù)測的標(biāo)注值組合劃分為真正例(True Positive)、假真例(False Positive)、真反例(True Negative)、假反例(False Negative)4 種情形,令TP、FP、TN、FN分別表示其對應(yīng)的像素數(shù)量,并建立混淆矩陣M。設(shè)N 為總例數(shù),Ai、Bi分別為混淆矩陣M 第i行、第i列的邊際值。
Accuracy 描述的是正確分類的像素數(shù)占總像素的比例。計算公式為:
Precision 描述的是正確分類為正像素數(shù)占全部預(yù)測為正像素數(shù)的比例。計算公式為:
Recall 描述的是正確預(yù)測為正像素數(shù)占全部正樣本像素數(shù)的比例。計算公式為:
F1 值描述的是精確率和召回率的調(diào)和平均數(shù)。計算公式為:
MIoU 是語義分割最常用的標(biāo)準(zhǔn)度量手段,描述的是分類為正像素集與正樣本像素集的交集和并集之比,直接反映了真實(shí)標(biāo)注與模型預(yù)測標(biāo)注的重疊程度。計算公式為:
Dice 系數(shù)是一種集合相似度度量函數(shù),Dice 系數(shù)描述的是分類為正像素集與正樣本像素集的相似度。計算公式為:
Kappa 值是一種分類一致性檢驗方法,Kappa 值描述的是分類為正像素集與正樣本像素集的一致性程度。計算公式為:
4.2.2 結(jié)果分析
圖8 展現(xiàn)了不同模型在同一數(shù)據(jù)集下的分割結(jié)果,其中第一行是在測試集中選取一張1 024×1 024 大小的原始圖像和人工標(biāo)注以及各個模型對應(yīng)的分割結(jié)果,后3 行則是森林植被、低矮植被與農(nóng)田所對應(yīng)的原始圖像、人工標(biāo)注以及各個模型分割結(jié)果的細(xì)節(jié)展示。表10 展現(xiàn)了本任務(wù)中各個語義分割模型在各方面的性能表現(xiàn)。
Fig.8 Segmentation results of different models圖8 不同模型分割結(jié)果
題。一個著名的例子是ADE20K 數(shù)據(jù)集的作者Adela,其在時隔半年后重復(fù)標(biāo)注61 張圖片,對比前后標(biāo)注得到的MIoU 僅為82%。對比圖8 中的人工標(biāo)注和原圖可以明顯看出:森林植被的人工標(biāo)注圖中間部分具有一道壞點(diǎn)像素;低矮植被的標(biāo)注由于過于復(fù)雜,人工標(biāo)注直接將所有像素全部標(biāo)注為正;農(nóng)田的人工標(biāo)注圖右上角將本屬于農(nóng)田的一小部分像素錯誤地排除到標(biāo)注之外。
在模型訓(xùn)練過程中錯誤標(biāo)簽帶來的是錯誤的懲罰,所以數(shù)據(jù)標(biāo)注的精細(xì)程度直接影響著模型訓(xùn)練結(jié)果。觀察圖8 中DeepLabV3+[2,34]和Unet 在農(nóng)田上的預(yù)測結(jié)果,DeepLabV3+和Unet 都是以卷積為核心的語義分割網(wǎng)絡(luò),Unet存在嚴(yán)重的欠分割問題,DeepLabV3+嚴(yán)重到未觀測到這塊農(nóng)田。
由于農(nóng)田占總像素的比例小,本文加大了對農(nóng)田分類錯誤的懲罰,該做法在保持?jǐn)?shù)據(jù)平衡的同時,也破壞了模型對特征的敏感程度。對不同種類的地面覆蓋物信息敏感程度不同,這也許是以卷積為核心的語義分割框架效果不理想的原因。反觀圖8 中以高效自注意力機(jī)制為編碼器的語義分割模型在農(nóng)田上的預(yù)測結(jié)果,不僅基本正確分割了農(nóng)田,而且正確預(yù)測了標(biāo)簽中錯誤標(biāo)注的像素,展現(xiàn)了高效的自注意力機(jī)制作為編碼器具有極強(qiáng)的魯棒性。
(2)GFormer 解碼器。SegFormer-B5 是SegFormer 框架下分割表現(xiàn)最好的模型,同時也是規(guī)模最大的模型。Seg-Former-B4 具有稍差于SegFormer-B5 的分割表現(xiàn)和更小的模型規(guī)模,并具有一致的模型結(jié)構(gòu)。SegFormer-B4 具有與GFormer 一樣的高效自注意力機(jī)制編碼器,僅在層數(shù)布局與OPE 參數(shù)上稍有不同,所以SegFormer-B4 具有與GFormer 相似規(guī)模的編碼器。由于GFormer 采用了更輕量化的解碼器,因此GFormer 的模型規(guī)模更小。從表10 中可看出,SegFormer-B5、SegFormer-B4 的Flops 分別比GFormer 高60.3%和37.26%,SegFormer-B5 模型參數(shù)量比GFormer多30%,GFormer的參數(shù)量與SegFormer-B4大致相同。
對比圖8 中GFormer、SegFormer-B5 和SegFormer-B4在森林植被與農(nóng)田上的分割結(jié)果,GFormer 不僅正確預(yù)測了標(biāo)簽中錯誤標(biāo)注的像素,而且具有比標(biāo)簽更圓滑的邊界。因此,GFormer 具有比SegFormer-B5 和SegFormer-B4更貼合實(shí)際的分割結(jié)果。對比表10,GFormer 也具有比SegFormer-B5和SegFormer-B4更好的性能。
SegFormer-B4 的規(guī)模適合提取遙感圖像中植被覆蓋的語義特征,但其解碼器的能力不足以有效地解碼編碼器中蘊(yùn)含的語義特征。本文設(shè)計的遞進(jìn)式融合結(jié)構(gòu)的解碼器具有比SegFormer解碼器更強(qiáng)的解碼能力。
地被覆蓋物的遙感圖像分割一直是地圖科學(xué)研究的重點(diǎn),該任務(wù)具有數(shù)據(jù)量大、采集難度高、標(biāo)注困難、分割穩(wěn)定性差等問題。本文提出一種基于輕量級圖像自注意力機(jī)制編碼器與具有遞進(jìn)式融合結(jié)構(gòu)解碼器的地被覆蓋物分割方法,構(gòu)建GFormer模型,對地被覆蓋物的衛(wèi)星遙感圖像進(jìn)行語義級別的圖像分割。GFormer 展現(xiàn)了基于注意力機(jī)制的語義分割算法極強(qiáng)的魯棒性,全新設(shè)計的遞進(jìn)式特征融合結(jié)構(gòu)編碼器在遙感圖像分割中也具有更強(qiáng)的解碼能力。雖然本文方法在模型規(guī)?;静辉黾拥那闆r下提升了衛(wèi)星遙感圖像分割能力,但模型的編碼器規(guī)模仍然占比較大,如何在保證分割表現(xiàn)的情況下進(jìn)一步減小解碼器規(guī)模是接下來的工作重心。