国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)Swin-Unet的遙感圖像分割方法

2024-07-20 00:00:00張?jiān)?/span>王遜
無線電工程 2024年5期
關(guān)鍵詞:語義分割

摘 要:針對(duì)遙感圖像數(shù)據(jù)本身存在分辨率高、背景復(fù)雜和光照不均等特性導(dǎo)致邊界分割不連續(xù)、目標(biāo)錯(cuò)分漏分以及存在孔洞等問題,提出了一種基于改進(jìn)Swin-Unet 的遙感圖像分割方法。在編碼器末端引入空洞空間金字塔池化(AtrousSpatial Pyramid Pooling,ASPP) 模塊,用于捕獲多尺度特征,增強(qiáng)網(wǎng)絡(luò)獲取不同尺度的能力,充分提取上下文信息;將解碼器端的Swin Transformer Block 替換為殘差Swin Transformer Block,不僅保留了原始信息,又能夠緩解模型出現(xiàn)梯度彌散現(xiàn)象;在跳躍連接中引入殘差注意力機(jī)制,可以讓模型更加關(guān)注特征圖中的重要特征信息,抑制無效信息,從而提高模型分割的準(zhǔn)確率。在自建數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,改進(jìn)后的網(wǎng)絡(luò)平均交并比(mean Intersection over Union,mIoU) 達(dá)到了80. 55% ,提高了4. 13 個(gè)百分點(diǎn),證明改進(jìn)后的網(wǎng)絡(luò)可以有效提高遙感圖像分割的精度。

關(guān)鍵詞:遙感圖像;語義分割;SwinUnet;空洞空間金字塔池化;殘差注意力機(jī)制

中圖分類號(hào):TP751 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

文章編號(hào):1003-3106(2024)05-1217-09

0 引言

遙感圖像包含豐富的地物特征信息[1],通過遙感圖像分割技術(shù),可以幫助人們自動(dòng)提取出關(guān)鍵信息,為合理分析和利用土地資源提供應(yīng)用指導(dǎo),已廣泛應(yīng)用于軍事、農(nóng)業(yè)、城市規(guī)劃、自然災(zāi)害監(jiān)測、道路分析和森林植被等各個(gè)領(lǐng)域。然而,由于遙感圖像的分辨率高、紋理信息豐富、同物異譜和異物同譜現(xiàn)象明顯[2],給遙感圖像分割帶來了很大挑戰(zhàn)。

近年來,越來越多的學(xué)者針對(duì)如何提高遙感圖像分割精度的問題展開了研究[3]。閾值分割算法通過選取合適的閾值來實(shí)現(xiàn)目標(biāo)和背景的分離,算法難度小、實(shí)現(xiàn)簡單,能夠?qū)崿F(xiàn)圖像的快速分割[4],但對(duì)噪聲比較敏感[5],不適用于復(fù)雜場景下的遙感圖像分割。聚類分割算法具有分割速度快、拓展性強(qiáng)、無監(jiān)督、高效等特性[6],但初始聚類中心和聚類數(shù)量難以確定,對(duì)噪聲也較為敏感[7]。支持向量機(jī)(Support Vector Machine,SVM)方法可以排除大量冗余樣本,具有較好的魯棒性[8],但耗時(shí)較長,并且只能用于小型數(shù)據(jù)集,對(duì)空間的信息利用率不高[9]。閾值、聚類和SVM 分割方法屬于傳統(tǒng)圖像分割方法,對(duì)于復(fù)雜的遙感圖像來說,傳統(tǒng)分割方法時(shí)間效率低、分割的精度并不能滿足實(shí)際需要。Unet是由Ronneberger 等[10]提出的一種對(duì)稱的編碼-解碼結(jié)構(gòu),它可以融合淺層和深層次的語義信息[11],并且簡單靈活,可以在較小的數(shù)據(jù)集上獲得良好的分割效果[12],但仍會(huì)由于空間和細(xì)節(jié)信息的丟失而導(dǎo)致邊緣分割模糊[13]。深度學(xué)習(xí)方法可以更深層次地提取遙感圖像的特征,但不能充分利用遙感圖像豐富的上下文信息,仍然會(huì)存在細(xì)節(jié)丟失、邊界模糊等問題。

將U 型網(wǎng)絡(luò)與Transformer 結(jié)合已經(jīng)成為近2 年來的研究熱點(diǎn)之一[14]。Swin-Unet[15]是一種以Transformer 為骨干網(wǎng)絡(luò)的U 型網(wǎng)絡(luò),它可以利用Transformer 來彌補(bǔ)Unet 本身在捕獲長距離依賴上的缺陷。Gao 等[16]改進(jìn)了Swin-Unet 以解決糖尿病視網(wǎng)膜病變黃斑水腫區(qū)域分割不準(zhǔn)確的問題,結(jié)果表明,改進(jìn)后的網(wǎng)絡(luò)不僅提高了視網(wǎng)膜黃斑水腫的整體語義分割精度,還進(jìn)一步提高了多尺度、多區(qū)域水腫區(qū)域的語義分割效果。張文康[17]針對(duì)云區(qū)域識(shí)別精度低的問題,采用了Swin-Unet 模型對(duì)云圖進(jìn)行識(shí)別,結(jié)果表明,該模型可以從遙感圖像中提取更多的語義信息,獲得更好的識(shí)別效果,雖然云的邊緣和細(xì)節(jié)仍存在一定的誤差,但整體上提高了對(duì)云圖的識(shí)別精度。Yao 等[18]針對(duì)遙感圖像同物異譜和同譜異物問題,提出將改進(jìn)后的Swin-Unet 模型作為一個(gè)純Transformer 模型和新的預(yù)處理方式。實(shí)驗(yàn)結(jié)果證明,該模型能夠更有效地提升遙感圖像分割的精度,相比于傳統(tǒng)模型更有優(yōu)勢。然而,Swin-Unet 提取的遙感圖像仍然存在邊緣模糊、目標(biāo)漏分等問題。

針對(duì)遙感圖像背景復(fù)雜、分辨率高導(dǎo)致遙感圖像的分割結(jié)果不理想的問題,本文設(shè)計(jì)了一種基于改進(jìn)Swin-Unet 圖像分割算法。本文的主要貢獻(xiàn)如下:① 標(biāo)注新的遙感數(shù)據(jù)集,并進(jìn)行數(shù)據(jù)增強(qiáng)等一系列預(yù)處理操作;② 在編碼器末端引入空洞空間金字塔池化,充分提取多尺度遙感圖像特征,增大感受野;③ 將殘差思想引入解碼器端的Swin TransformerBlock,防止模型出現(xiàn)過擬合現(xiàn)象;④ 在跳躍連接中引入殘差注意力機(jī)制,增強(qiáng)重要特征,抑制不重要特征。

1 基于改進(jìn)Swin-Unet 的遙感圖像分割網(wǎng)絡(luò)

1. 1 網(wǎng)絡(luò)結(jié)構(gòu)

本文在Swin-Unet 的基礎(chǔ)上加以改進(jìn)來實(shí)現(xiàn)遙感圖像分割,改進(jìn)Swin-Unet 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。改進(jìn)后的Swin-Unet 網(wǎng)絡(luò)包括編碼器、解碼器和跳躍連接3 個(gè)部分。在編碼器部分,輸入圖像先通過圖像分塊處理(Patch Partition)操作,將輸入圖像劃分為一個(gè)個(gè)大小相等的分塊,再通過線性嵌入(Linear Embedding)改變每個(gè)分塊的通道數(shù)目。將這些分塊輸入多個(gè)Swin Transformer Block 和圖像塊合并層(Patch Merging)中,在編碼器的末端引入空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模塊,用于提取不同尺度信息,增大感受野,提取更多細(xì)節(jié)信息。其中,Swin Transformer Block可以提取圖像特征,Patch Merging 操作的主要作用是下采樣,可以將特征圖的長寬變?yōu)樵瓉淼囊话耄瑫r(shí)通道數(shù)增加為原來的2 倍。解碼器部分包括了多個(gè)殘差Swin Transformer 模塊(Res-Swin TransformerBlock)和圖像塊擴(kuò)展層(Patch Expanding)。Res-Swin Transformer Block 中引入了殘差思想,可以有效防止模型出現(xiàn)過擬合現(xiàn)象,提升模型的泛化能力。Patch Expanding 的主要作用是上采樣,可以將特征圖的長寬變?yōu)樵瓉淼模?倍,通道數(shù)減半。最后一個(gè)Patch Expanding 將特征圖的長寬變?yōu)樵瓉淼模?倍,通道數(shù)不變,最后經(jīng)過一個(gè)線性映射得到最終的遙感圖像分割結(jié)果。在跳躍連接部分,將編碼器端的Swin Transformer Block 與解碼器端的Res-Swin Trans-former Block 進(jìn)行跨層連接,彌補(bǔ)了信息的丟失,同時(shí)在跳躍連接中加入了殘差通道注意力模塊(Res-SE Block),可以關(guān)注特征圖中重要的信息,抑制不重要的信息,以提升圖像的分割精度。

1. 2 ASPP

圖像分割網(wǎng)絡(luò)大多是基于編碼器-解碼器的結(jié)構(gòu),在通過下采樣擴(kuò)大感受野、上采樣恢復(fù)至原圖的過程中,很容易丟失一些重要的語義特征信息,并且未能充分考慮上下文信息,往往會(huì)造成很大的精度損失。ASPP 模塊是由Chen 等[19]在DeepLab V2 中首次提出的,它可以利用不同膨脹率的空洞卷積并行捕獲圖像的不同尺度特征,獲得不同的感受野特征,并將其進(jìn)行融合,充分考慮了上下文信息,同時(shí)提高了網(wǎng)絡(luò)對(duì)細(xì)節(jié)特征的提取能力。

ASPP 模塊主要包括5 條分支,第1 條分支為1 個(gè)1×1 的卷積,第2、3、4 條分支為空洞率分別為3、6、12 的3×3 空洞卷積,第5 條分支為全局平均池化(Global Average Pooling,GAP)。其中,空洞卷積可以在不增加模型參數(shù)量的同時(shí),增大特征圖的感受野[20]。最后通過雙線性差值將圖像還原至原始圖像大小。ASPP 模塊如圖2 所示。本文在SwinUnet 編碼器的末端加入ASPP 模塊,可以充分提取多尺度信息,增大感受野,同時(shí)也有助于解碼器恢復(fù)細(xì)節(jié)信息。

1. 3 Res-Swin Transformer Block

隨著深度學(xué)習(xí)網(wǎng)絡(luò)模型層數(shù)的不斷增加,網(wǎng)絡(luò)模型很容易出現(xiàn)過擬合和網(wǎng)絡(luò)退化的問題,進(jìn)一步限制了網(wǎng)絡(luò)模型精度的提升。為了解決這一問題,He 等[21]提出了ResNet 模型,它通過一條有向快捷連接,將輸入直接越層連接到輸出,在不增加參數(shù)量的前提下,有效緩解了網(wǎng)絡(luò)出現(xiàn)梯度彌散的現(xiàn)象,同時(shí)捕獲了更加豐富的語義特征,提高了圖像識(shí)別的精度。

受到ResNet 的啟發(fā),本文將殘差思想引入SwinTransformer Block,用一條快捷連接,連接SwinTransformer Block 的頭尾,通過恒等映射來防止網(wǎng)絡(luò)模型出現(xiàn)梯度消失的現(xiàn)象。本文將成對(duì)帶有Window Multi-Head Self Attention (W-MSA)和ShiftWindows Multi-Head Self-Attention(SW-MSA)的模塊作為一個(gè)Swin Transformer Block,Res-Swin TransformerBlock 結(jié)構(gòu)如圖3 所示。實(shí)驗(yàn)中發(fā)現(xiàn),將解碼器端的Swin Transformer Block 替換為Res-Swin TransformerBlock 后,可以有效提高模型對(duì)遙感圖像分割的準(zhǔn)確率。

1. 4 殘差注意力機(jī)制

跳躍連接能夠通過將編碼器端的低層次特征與解碼器端的高層次特征進(jìn)行拼接,進(jìn)一步彌補(bǔ)信息的丟失。然而,低層次特征中包含大量冗余的信息,同時(shí)缺少特定的語義信息,可能會(huì)影響遙感圖像分割的精度。為此,本文將殘差注意力機(jī)制引入跳躍連接中,可以強(qiáng)化重要的特征區(qū)域,減弱冗余的特征區(qū)域,從而提高遙感圖像分割的準(zhǔn)確率。

注意力機(jī)制[22]是在2017 年提出的,它的基本思路是從特征通道角度入手,增強(qiáng)重要的特征通道信息,弱化不重要的特征通道信息。壓縮與激勵(lì)(Squeeze & Excitation,SE)模塊主要包括壓縮和激勵(lì)兩部分。壓縮(Squeeze)部分將特征圖進(jìn)行GAP操作,生成1×1×C 的向量;激勵(lì)(Excitation)部分使用2 個(gè)全連接層來得到每個(gè)特征通道的通道權(quán)重,最后進(jìn)行Scale 操作,將得到的權(quán)重與原有的特征圖進(jìn)行相乘,得到最后的輸出結(jié)果。

殘差注意力機(jī)制首先對(duì)Swin Transformer Block輸出特征圖進(jìn)行Reshape 操作,將其從L×C 形狀改變?yōu)椋取粒住粒?形狀。接著,對(duì)特征圖進(jìn)行GAP、全連接等一系列操作,并將得到的特征圖通過Scale 操作與原特征圖相乘;然后,通過一條快捷連接將改變形狀后的Swin Transformer Block 直接與Scale 操作后得到的特征圖相加,得到新的特征圖;最后,再通過Reshape 操作,將其從H×W ×C 形狀重新恢復(fù)為L×C 形狀大小。殘差注意力機(jī)制既沒有增加模型的參數(shù)量,又保留了原始信息,同時(shí)也防止模型出現(xiàn)過擬合問題。殘差注意力機(jī)制結(jié)構(gòu)如圖4 所示。

2 實(shí)驗(yàn)

2. 1 數(shù)據(jù)集制作及預(yù)處理

WHU-RS19 數(shù)據(jù)集[23]是從Google Earth 中提取的遙感影像圖像,包含機(jī)場、沙灘、橋梁、沙漠、農(nóng)田和足球場等19 個(gè)場景類別,每一類大約有50 張圖像,共計(jì)1 005 張圖像,每張圖像尺寸為600 pixel×600 pixel。由于受尺度、方向和照明等因素影響,該數(shù)據(jù)集更為復(fù)雜。

RSC11 數(shù)據(jù)集[24]是中科院于2016 年發(fā)布的開源高分辨率遙感影像,涵蓋了美國多個(gè)城市的影像圖片,包含了港口、居民區(qū)、鐵路、立交橋、儲(chǔ)罐、密林和疏林等11 個(gè)類別,圖像尺寸為512 pixel ×512 pixel,每一類大約有100 張圖像,整個(gè)數(shù)據(jù)集總共有1 232 張圖像。

本文從WHU-RS19 和RSC11 數(shù)據(jù)集內(nèi)篩選出了一些具有明顯特征的類別,去除了相似、重復(fù)和單一背景的類別,形成遙感圖像分類數(shù)據(jù)集。通過使用Python 腳本,將數(shù)據(jù)集內(nèi)所有圖像的后綴名修改為png 并調(diào)整圖像大小為512 pixel × 512 pixel。然而,由于遙感圖像分類數(shù)據(jù)集屬于圖像分類數(shù)據(jù)集,缺乏語義分割標(biāo)簽,因此需要Labelme 手動(dòng)標(biāo)注圖像,生成遙感圖像分割數(shù)據(jù)集。標(biāo)注完成后,通過“labelme2voc”腳本將標(biāo)注完成后所生成的json 文件批量轉(zhuǎn)換為語義分割數(shù)據(jù)集,并將語義分割數(shù)據(jù)集內(nèi)的RGB 彩色標(biāo)簽轉(zhuǎn)換為對(duì)應(yīng)的單通道數(shù)字標(biāo)簽。最后采用水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、對(duì)比度增強(qiáng)、旋轉(zhuǎn)和添加噪聲等一系列數(shù)據(jù)增強(qiáng)方法,最終得到的遙感圖像分割數(shù)據(jù)集總共有3 528 張圖像,其中選取3 000 張作為訓(xùn)練集,528 張作為測試集。原圖片與標(biāo)注圖片(部分?jǐn)?shù)據(jù)集)展示如圖5 所示。

2. 2 實(shí)驗(yàn)環(huán)境

本文的實(shí)驗(yàn)環(huán)境基于Ubuntu 18. 04 系統(tǒng),采用的深度學(xué)習(xí)框架為Pytorch。實(shí)驗(yàn)所用的GPU 為單卡的NVIDIA RTX_3090,CUDA 的版本為11. 7。預(yù)訓(xùn)練權(quán)重使用在ImageNet 數(shù)據(jù)集上預(yù)先訓(xùn)練好的swin_tiny_patch4_window7_224. pth 權(quán)重,初始學(xué)習(xí)率為0. 01,動(dòng)量為0. 9,優(yōu)化算法為隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)方法。訓(xùn)練模型的epoch 設(shè)置為300 個(gè),batch size 大小為12,窗口大小為8。

2. 3 損失函數(shù)

本文使用的損失函數(shù)為經(jīng)典的交叉熵?fù)p失(Cross Entropy Loss,CE Loss)和骰子損失(DiceLoss)相結(jié)合的損失函數(shù)。二者結(jié)合的損失函數(shù)公式為:

Loss(y,ypred ) = 0. 4Lossce(y,ypred )+ 0. 6LossDice(y,ypred ),(1)

CE Loss 是經(jīng)典的語義分割中常用的損失函數(shù),可以很好地優(yōu)化類間距離,同時(shí)還可以緩解DiceLoss 訓(xùn)練造成的震蕩問題,其公式為:

由于遙感圖像的前景與背景之間存在不平衡的問題,Dice Loss 可以減輕復(fù)雜背景對(duì)分割結(jié)果的影響,衡量前景與背景之間的重疊部分,很好地解決部分圖像中前景所占比例較小的問題,用來計(jì)算真實(shí)值和預(yù)測值之間的相似度,其公式為:

式中:n 為遙感圖像分割的類別數(shù)。

2. 4 評(píng)價(jià)指標(biāo)

為了驗(yàn)證改進(jìn)網(wǎng)絡(luò)的有效性,本文采用平均交并比(mean Intersection over Union,mIoU)、總體準(zhǔn)確率(Overall Accuracy,OA)和平均像素精度(meanPixel Accuracy,mPA)作為評(píng)價(jià)指標(biāo)來評(píng)估模型對(duì)遙感圖像的分割效果,具體計(jì)算公式如下:

式中:k 表示遙感圖像分割的類別數(shù)(不包含背景),pii 表示真正例,即實(shí)際為類別i 且被正確地預(yù)測為類別i 的像素?cái)?shù)量;pij 表示假正例,即實(shí)際為類別i卻被錯(cuò)誤地預(yù)測為類別j 的像素?cái)?shù)量;pji 表示假負(fù)例,即實(shí)際為類別j 卻被錯(cuò)誤地預(yù)測為i 的像素?cái)?shù)量。

3 實(shí)驗(yàn)結(jié)果與分析

3. 1 消融實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證所引入模塊的有效性,本文依次將Res-Swin Transformer Block、殘差注意力機(jī)制以及ASPP 疊加到基線模型中進(jìn)行消融實(shí)驗(yàn),并通過評(píng)價(jià)指標(biāo)結(jié)果評(píng)估每個(gè)模塊對(duì)模型性能的影響效果。消融實(shí)驗(yàn)評(píng)估結(jié)果對(duì)比如表1 所示。其中,Res_SE表示殘差注意力機(jī)制,Res _ Swin 表示Res-SwinTransformer Block,ASPP 表示空洞空間金字塔池化。

從表1 可以看出,引入Res-Swin TransformerBlock 后,相較于基線模型,模型的mIoU 提升了1. 12 個(gè)百分點(diǎn)。在此基礎(chǔ)上,進(jìn)一步添加殘差注意力機(jī)制,mIoU 提高了1. 93 個(gè)百分點(diǎn),最后引入ASPP 模塊,模型的mIoU、OA 和mPA 分別提高了4. 13、1. 76、5. 5 個(gè)百分點(diǎn),進(jìn)一步驗(yàn)證了本文所提的3 個(gè)模塊均可以有效提升遙感圖像分割的精度。

為了更直觀地比較各個(gè)模塊對(duì)分割結(jié)果的影響,本文對(duì)消融實(shí)驗(yàn)結(jié)果進(jìn)行了可視化,消融實(shí)驗(yàn)分割結(jié)果對(duì)比如圖6 所示。從圖6 可以看出,原始的Swin-Unet 模型存在著明顯的漏分和錯(cuò)分問題,但隨著Res_Swin、Res_SE 和ASPP 等模塊的逐步引入,目標(biāo)輪廓變得更加準(zhǔn)確和清晰,模型的分割效果與真實(shí)標(biāo)簽更加接近,目標(biāo)誤分、漏分的現(xiàn)象也有所減少,這充分證明了本文所提模型能夠有效地改善遙感圖像分割的結(jié)果。

3. 2 模型對(duì)比實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文所提模型的優(yōu)越性,本文分別將測試圖片輸入到訓(xùn)練好的Unet、SegNet、DeeplabV3 +、Swin-Unet 以及本文所提模型中進(jìn)行對(duì)比實(shí)驗(yàn),并隨機(jī)選擇了幾張預(yù)測圖像進(jìn)行了可視化,模型對(duì)比實(shí)驗(yàn)分割結(jié)果如圖7 所示。模型對(duì)比實(shí)驗(yàn)除了改變網(wǎng)絡(luò)模型外,其余實(shí)驗(yàn)條件均保持一致,包括數(shù)據(jù)集、數(shù)據(jù)增強(qiáng)方式等。

從圖7 可以看出,Unet 能夠基本還原物體輪廓,但存在較多噪聲和多分類識(shí)別錯(cuò)誤現(xiàn)象;相比之下,SegNet 表現(xiàn)有所提升,噪聲和誤分類現(xiàn)象得到一定改善;DeeplabV3 +能夠識(shí)別更大的區(qū)域,噪聲也有所減少,但在邊緣輪廓識(shí)別方面仍有待提高;Swin-Unet 能夠準(zhǔn)確識(shí)別目標(biāo)物體,但仍存在未被識(shí)別和錯(cuò)誤識(shí)別的像素;而本文所提模型更接近真實(shí)標(biāo)簽,能夠準(zhǔn)確分割出更為精細(xì)的遙感目標(biāo),顯著改善了目標(biāo)錯(cuò)分和漏分現(xiàn)象,分割效果最佳。

為了客觀評(píng)估不同方法對(duì)遙感圖像分割效果的影響,本文通過3 個(gè)評(píng)價(jià)指標(biāo)來對(duì)不同方法進(jìn)行定量評(píng)估。各個(gè)方法的模型對(duì)比實(shí)驗(yàn)結(jié)果如表2 所示。

由表2 可知,本文所提的模型在各項(xiàng)評(píng)價(jià)指標(biāo)中均取得了較大的提升。本文模型的mIoU 為80. 55% ,相比于其他模型分別提高了10. 54% 、6. 23% 、6. 73%和4. 13% ;OA 為91. 89% ,比其他模型分別提升了6. 6% 、4. 91% 、4. 42% 和1. 76% ;mPA 為90. 36% ,分別提升了10. 96% 、8. 62% 、7. 92% 和5. 5% ,提升效果顯著。由此可以證明,本文提出的模型分割效果最好,驗(yàn)證了融合多尺度提取更細(xì)節(jié)的特征、引入殘差減少過擬合、引入殘差注意力機(jī)制關(guān)注重要特征的有效性,優(yōu)化了遙感圖像分割的效果。

4 結(jié)束語

本文提出了一種基于改進(jìn)Swin-Unet 的遙感圖像分割方法,并用于自建的遙感圖像分割數(shù)據(jù)集,以解決遙感圖像分割邊界模糊、目標(biāo)漏分等問題。在原有Swin-Unet 的基礎(chǔ)上,引入ASPP 模塊,融合不同尺度遙感圖像特征,增大感受野;使用Res-SwinTransformer Block,不僅保留了原始特征信息,還有效防止了模型出現(xiàn)過擬合問題;在跳躍連接中引入殘差注意力機(jī)制,增強(qiáng)重要特征信息,弱化冗余背景特征信息。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的Swin-Unet 網(wǎng)絡(luò)分割結(jié)果與真實(shí)標(biāo)簽更為接近,相比于其他模型,分割效果均有所提升,證明了本文所提模型的優(yōu)越性和有效性。雖然本文所提方法取得了較好的提升效果,但Swin-Unet 模型復(fù)雜度較高。未來將進(jìn)一步優(yōu)化Swin-Unet 網(wǎng)絡(luò),降低其復(fù)雜度,并設(shè)計(jì)更加輕量化的網(wǎng)絡(luò)模型。

參考文獻(xiàn)

[1] WU Z H,GAO Y M,LI L,et al. Semantic Segmentation ofHighresolution Remote Sensing Images Using Fully Convolutional Network with Adaptive Threshold[J]. ConnectionScience,2018,31(2):169-184.

[2] WANG C,XU W,PEI X F,et al. An Unsupervised Multiscale Segmentation Method Based on Automated Parameterization [J]. Arabian Journal of Geosciences,2016,9(15):1-10.

[3] JIANG B D,AN X Y,XU S F,et al. Intelligent Image Semantic Segmentation:A Review Through Deep LearningTechniques for Remote Sensing Image Analysis [J ].Journal of the Indian Society of Remote Sensing,2023,51:1865-1878.

[4] 黃旭,張世義,李軍. 圖像分割技術(shù)研究綜述[J]. 裝備機(jī)械,2021(2):6-9.

[5] 閔蕾,高昆,李維,等. 光學(xué)遙感圖像分割技術(shù)綜述[J]. 航天返回與遙感,2020,41(6):1-13.

[6] 何瀚志,朱紅,王競. 基于聚類分析的醫(yī)學(xué)圖像分割綜述[J]. 中國科技信息,2017(15):43.

[7] 王怡,涂宇,羅斐,等. 彩色圖像分割方法綜述[J]. 電腦知識(shí)與技術(shù),2020,16(23):183-184.

[8] LU W Z,LIANG L X,WU X S,et al. An Adaptive Multiscale Fusion Network Based on Regional Attention for Remote Sensing Images [J ]. IEEE Access,2020,8:107802-107813.

[9] ZHANG L B,LI A X,LI X W,et al. Remote SensingImage Segmentation Based on an Improved 2D GradientHistogram and MMAD Model[J]. IEEE Geoscience andRemote Sensing Letters,2015,12(1):58-62.

[10] RONNEBERGER O,FISCHER P,BROX T. UNet:Convolutional Networks for Biomedical Image Segmentation[C]∥Medical Image Computing and Computerassisted InterventionMIGGI 2015. Munich:Springer,2015:234-241.

[11] ZHANG Z X,LIU Q J,WANG Y H. Road Extraction byDeep Residual UNet[J]. IEEE Geoscience and RemoteSensing Letters,2018,15(5):749-753.

[12] SU Z B,LI W,MA Z,et al. An Improved UNet Methodfor the Semantic Segmentation of Remote Sensing Images[J]. Applied Intelligence,2022,52(3):3276-3288.

[13] 黃杰,蔣豐. 遙感影像中建筑物的Unet 分割改進(jìn)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(10):319-324.

[14] 傅勵(lì)瑤,尹夢(mèng)曉,楊鋒. 基于Transformer 的U 型醫(yī)學(xué)圖像分割網(wǎng)絡(luò)綜述[J]. 計(jì)算機(jī)應(yīng)用,2023,43 (5 ):1584-1595.

[15] CAO H,WANG Y Y,CHEN J,et al. SwinUnet:UnetlikePure Transformer for Medical Image Segmentation[C]∥Computer VisionECCV 2022 Workshops. Tel Aviv:Springer,2022:205-218.

[16] GAO Z J,CHEN L. Research on Semantic SegmentationMethod of Macular Edema in Retinal OCT Images Based onImproved SwinUnet[J]. Electronics,2022,11(15):2294.

[17] 張文康. 基于SwinUnet 的云分割算法的研究[J]. 儀器儀表用戶,2022,29(4):5-9.

[18] YAO J Y,JIN S G. Multicategory Segmentation ofSentinel2 Images Based on the Swin UNet Method[J].Remote Sensing,2022,14(14):3382.

[19] CHEN L C,PAPANDREOU G,SCHROFF F,et al. Rethinking Atrous Convolution for Semantic Image Segmentation[EB/ OL]. (2017 -12 -05)[2023 -06 -06]. https:∥arxiv. org / abs / 1706. 05587.

[20] 姚慶安,張鑫,劉力鳴,等. 融合注意力機(jī)制和多尺度特征的圖像語義分割[J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版),2022,60(6):1383-1390.

[21] HE K M,ZHANG X Y,REN S Q,et al. Deep ResidualLearning for Image Recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition(CVRR). Las Vegas:IEEE,2016:770-778.

[22] HU J,SHEN L,SUN G. SqueezeandExcitation Networks[C]∥2018 IEEE / CVF Conference on Computer Visionand Pattern Recognition. Salt Lake City:IEEE,2018:7132-7141.

[23] SHENG G F,YANG W,XU T,et al. Highresolution Satellite Scene Classification Using a Sparse Coding BasedMultiple Feature Combination[J]. International Journal ofRemote Sensing,2012,33(8):2395-2412.

[24] ZHAO L J,TANG P,HUO L Z. Feature Significancebased Multibagofvisualwords Model for Remote SensingImage Scene Classification[J]. Journal of Applied RemoteSensing,2016,10(3):035004.

作者簡介

張 越 女,(1998—),碩士研究生。主要研究方向:圖像處理、計(jì)算機(jī)視覺。

王 遜 女,(1973—),碩士,副教授。主要研究方向:數(shù)據(jù)挖掘、軟件工程、機(jī)器學(xué)習(xí)。

猜你喜歡
語義分割
基于全卷積網(wǎng)絡(luò)的肝臟CT語義分割
軟件工程(2020年6期)2020-06-21 15:16:16
基于弱監(jiān)督學(xué)習(xí)的圖像語義分割方法綜述
基于語義分割的室內(nèi)動(dòng)態(tài)場景同步定位與語義建圖
結(jié)合語義邊界信息的道路環(huán)境語義分割方法
一種改進(jìn)迭代條件模型的遙感影像語義分割方法
基于積神經(jīng)網(wǎng)絡(luò)的圖像著色方法研究
基于全卷積網(wǎng)絡(luò)FCN的圖像處理
基于語義分割的車道線檢測算法研究
基于深度學(xué)習(xí)的太陽能電池板缺陷檢測模型設(shè)計(jì)
一種基于多尺度角點(diǎn)檢測的語義分割網(wǎng)絡(luò)
都江堰市| 新密市| 黄石市| 松阳县| 阳春市| 中山市| 临汾市| 怀安县| 托克逊县| 宁波市| 石屏县| 石台县| 昌宁县| 涞源县| 敖汉旗| 巨鹿县| 灵石县| 大厂| 大方县| 牟定县| 精河县| 奇台县| 安顺市| 沈丘县| 勃利县| 积石山| 江津市| 扎赉特旗| 环江| 定陶县| 巴林右旗| 长垣县| 丰都县| 合川市| 司法| 宝山区| 临朐县| 茶陵县| 马鞍山市| 商水县| 胶州市|