關(guān)鍵詞:遙感圖像;圖像分割;輕量化;多尺度
0引言
隨著遙感技術(shù)的飛速發(fā)展,多分類遙感分割作為一項關(guān)鍵任務(wù),成為解決全球資源管理、環(huán)境監(jiān)測和城市規(guī)劃等復(fù)雜問題的關(guān)鍵技術(shù)。從高分辨率遙感圖像中準確地提取和分類地表信息,對于推動可持續(xù)發(fā)展、應(yīng)對氣候變化以及解決自然災(zāi)害等挑戰(zhàn)至關(guān)重要。遙感圖像復(fù)雜程度高,一般包含多種類別信息,圖像中不同目標的尺寸大小也千差萬別,在上述影響下想要實現(xiàn)遙感圖像的精確分割十分困難,這一任務(wù)的復(fù)雜性和數(shù)據(jù)的高維度性質(zhì)使得傳統(tǒng)的分割方法面臨嚴峻挑戰(zhàn)。
傳統(tǒng)分割方法主要有包括分水嶺算法、邊緣檢測法、閾值分割法和區(qū)域生長法等。這些方法相比于人工分割,在提高檢測效率的同時避免了人工分割誤差的產(chǎn)生。然而這些方法只能對單一、非變化場景的分割起到較好的分割效果,并不具有普適性。在面對多類別、復(fù)雜地形和光譜變化的情況下,常常難以同時保持高準確度和高效性。近年來,深度學習技術(shù)的興起為解決這些挑戰(zhàn)提供了新的可能性。以FCN、U-Net和DeepLabv3+等為代表的語義分割方法,對每個像素賦予合適的標簽,實現(xiàn)了圖像端到端的像素級分類。Alam等將U-Net和SegNet結(jié)合起來生成一個集成式網(wǎng)絡(luò)進行分割,其在BDCI數(shù)據(jù)集上取得了高于U-Net和Seg-Net單個模型的分割效果。Sravya等提出了一種深度明智金字塔池網(wǎng)絡(luò)-DPPNet,使用了具有多重擴展深度明智殘差連接的密集塊。Shen等提出了一種基于殘差塊和多尺度特征融合的語義分割網(wǎng)絡(luò),可以提取信息更加豐富的特征圖,性能超越了U-Net。然而,盡管深度學習模型在提高分割精度上取得了顯著成果,但其通常伴隨龐大的參數(shù)量和復(fù)雜的計算過程,對計算資源要求較高,限制了在資源受限的場景中的應(yīng)用。輕量化模型的設(shè)計不僅關(guān)乎對地球資源的高效管理,還關(guān)系到在移動平臺、嵌入式系統(tǒng)和邊緣計算環(huán)境中實現(xiàn)實時、高效的遙感分割應(yīng)用。目前一些主流的經(jīng)典輕量化分割網(wǎng)絡(luò)包括ICNET、ENET和CGNET等,這些輕量化網(wǎng)絡(luò)模型小、運算速度快,但大都輕量化過度導(dǎo)致分割效果差。因此,在保證模型精度的前提下,如何減少分割模型參數(shù)量使其更加輕量化并提高推理速度是當前研究亟需解決的問題。同時針對遙感圖像本身類別多樣、目標尺寸不一等特點,在模型設(shè)計中需要采取一些多尺度的特征提取方式來保證更豐富的特征從而實現(xiàn)精確分割。
因此本文重點研究如何設(shè)計一個多類別遙感分割模型利用多尺度特征提取方式提高分割性能的同時,在模型輕量化方面也取得顯著進展。由此提出了一種輕量化多尺度遙感分割模型,該算法使用了2種輕量化卷積塊結(jié)合而成的主干網(wǎng)絡(luò),其中一種卷積-MSConv采用多尺度特征提取方式,并且模型加入了改進過后的注意力機制——特征融合注意力模塊(Feature Fusion Attention Module,MSAM)和更加輕量化的池化方法——局部重要性池化(LocalImportance Pooling,LIP)以及多尺度特征提取——空洞空間卷積池化金字塔(Atrous Spatial PyramidPooling,ASPP)模塊。在公開數(shù)據(jù)集WHDLD上進行了消融實驗并與一些經(jīng)典分割模型進行了實驗對比,以驗證模型的可行性和先進性。
1本文方法
多尺度特征提取分割網(wǎng)絡(luò)(Multi-Scale FeatureExtraction and Segmentation Network, MSNET)模型結(jié)構(gòu)如圖1所示,由3個主要部分組成:基于Mobile-NetV2的輕量化編碼網(wǎng)絡(luò)部分,多尺度特征提取ASPP模塊部分,以及基于多尺度特征融合解碼模塊MS-Modle的解碼部分。MobileNetV2骨干網(wǎng)絡(luò)采用1、3、7數(shù)量排列。下采樣(DownSample)采用LIP模塊,上采樣(UpSample)采用雙線性插值上采樣。
1.1輕量化編碼部分
對于應(yīng)用于高分辨率遙感圖像的語義分割問題設(shè)計的深度學習算法來說,受到應(yīng)用設(shè)備的內(nèi)存和功耗限制,網(wǎng)絡(luò)本身的輕量級和高效性尤為關(guān)鍵。如何在減少網(wǎng)絡(luò)計算量的同時保證精度受到了廣泛關(guān)注,其中MobileNet系列表現(xiàn)出色,于是使用MobileNetV2作為編碼網(wǎng)絡(luò)。MobileNetV2在V1深度可分離卷積的基礎(chǔ)上采用了具有線性瓶頸的結(jié)構(gòu),使得V2的精度和運行速度進一步得到優(yōu)化。MobileNetV2模塊結(jié)構(gòu)如圖2所示,卷積模塊由倒置殘差結(jié)構(gòu)組成,首先使用1x1標準卷積進行升維,然后通過深度可分離卷積提取特征,最后使用1×1標準卷積進行降維然后輸出。這種設(shè)計減少了參數(shù)量又極大地保留了提取特征的豐富度,同時減少了信息丟失。
1.2多尺度特征融合解碼模塊MS-Modle
多尺度融合解碼模塊MS-Modle由特征融合部分和輕量化解碼部分構(gòu)成。特征融合部分使用MSAM把編碼部分和解碼部分的特征圖進行融合,并使用通道加空間注意力機制進行特征提??;輕量化解碼部分使用多尺度卷積MSConv作為解碼卷積,在遙感圖像復(fù)雜場景情況下多尺度特征提取可以發(fā)揮很好的作用,以實現(xiàn)輕量化的同時保持分割性能。
1.2.1MSAM
MSAM在卷積塊注意力模塊(Convolutional BlockAttention Module,CBAM)的基礎(chǔ)上改進而來,整體結(jié)構(gòu)如圖3所示。首先,在CBAM模塊的網(wǎng)絡(luò)架構(gòu)中加入殘差的思想,將原始特征F與經(jīng)過通道注意力和空間注意力的特征F直接求和進行融合。其次,將通道注意力模塊的全連接層替換為一維卷積,避免了全連接層破壞圖像結(jié)構(gòu)。
經(jīng)過一系列處理后,特征圖的尺寸不會改變,因此這種注意力機制可以便捷地插入到任何特征之后,網(wǎng)絡(luò)不需要做改變。最后,將F與輸出特征F采用殘差思想向結(jié)合生成最后的特征圖F,如式(3)所示,F(xiàn)與編碼層特征進行通道拼接最后輸出。
1.2.2輕量化解碼部分
在解碼部分更加專注多尺度的特征提取,于是在解碼部分的卷積模塊使用了設(shè)計的多尺度輕量化卷積模塊MSConv。ConvNeXt模型設(shè)計時就已經(jīng)證明了7x7卷積的分割性能為最優(yōu),但受制于7x7大小卷積帶來的巨大參數(shù)量以及計算量,7x7卷積并沒有得到研究者大量使用。在MSConv中,采用通道二分組然后分別進行3x3大小深度卷積和7x7大小深度卷積探測相結(jié)合的方式,相比普通7x7標準卷積大大降低了參數(shù)量,同時2種不同大小的卷積核能夠探測到不同尺度的特征。在解碼部分使用這種多尺度的模塊能更好地利用多尺度MSAM部分輸出的特征圖,使分割精度更高。模塊結(jié)構(gòu)并沒有使用主流的殘差結(jié)構(gòu)或者倒殘差結(jié)構(gòu),使用了一種新型結(jié)構(gòu),先進行特征提取然后再進行特征升維降維,這種方式更加輕量化,同時在分割效果上幾乎與主流結(jié)構(gòu)效果一致。MSConv結(jié)構(gòu)如圖4所示,輸入的特征圖進行分組為2組,2組特征圖分別進行3x3深度卷積和7x7深度卷積,然后分別進行1X1升維和降維,其中升維降維比率設(shè)置為3倍。
1.3ASPP和LIP池化
本文利用即插即用的ASPP模塊和LIP模塊來進一步提升模型的性能以及輕量化改進。ASPP模塊是從空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊演變而來的,其目的是通過不同尺度的卷積核對特征進行采樣,從而實現(xiàn)對任意尺度的區(qū)域進行準確有效的分類。這種融合局部和全局特征信息的方法可以增強空間維度上特征之間的相關(guān)性。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)通常使用下采樣來縮小特征空間,但是在一些特別的任務(wù)中可能會丟失一些重要細節(jié),損失模型精度。在下采樣的過程中自動增加特征判別功能能夠在一定程度上緩和這一現(xiàn)象。LIP模塊就是通過輸入特征自動學習重要性度量來更新模塊參數(shù)權(quán)重,自適應(yīng)地確定哪些特征更重要,需要通過下采樣來保持,從而減少了重要信息的丟失。在網(wǎng)絡(luò)的特定層中引入這種池化機制,可以使網(wǎng)絡(luò)更加專注于圖像中的關(guān)鍵特征,從而在圖像分割中取得更為優(yōu)越的性能。
2實驗
為了驗證本文方法的有效性,在公開的WHDLD數(shù)據(jù)集上與一些經(jīng)典的分割算法進行了對比實驗。本節(jié)介紹所使用的數(shù)據(jù)集、實驗環(huán)境、評估指標和實驗結(jié)果。
2.1數(shù)據(jù)集
WHDLD數(shù)據(jù)集是武漢大學發(fā)布的開源遙感圖像分割數(shù)據(jù)集,圖像分辨率為256pixel×256pixel;類別為裸土、建筑物、人行道、道路、車輛和水體6類,共有4940張圖像。按照4:1的比例隨機劃分每個類別的訓練集和驗證集,其中3952張圖像用于訓練,988張圖像用于測試。WHDLD數(shù)據(jù)集的一些圖像和標簽如圖5所示。
2.2實驗環(huán)境和評估指標
本文的實驗硬件環(huán)境為NVIDIA GeForce RTX30708 GB, Intel(R)Core(TM)i7-10700K CPU@3.80 GHz,64GB運行內(nèi)存;軟件環(huán)境為Python3.8,PyTorch 1.12.1。
為了評估模型分割的準確性,使用平均交并比(Mean Intersection over Union,MIoU)、像素準確率(Accuracy)、精準度(Precision)、Recall(召回率)和F1-Score來衡量分割性能。用參數(shù)量、計算量和在GPU上單張圖片的運算時間作為模型輕量化的參考。
2.3對比結(jié)果分析
為了公平地比較,各模型添加的模塊的參數(shù)、數(shù)據(jù)集、輸入圖像大小、相關(guān)超參數(shù)、訓練策略和實驗環(huán)境等,在對比實驗以及消融實驗、注意力機制實驗、網(wǎng)絡(luò)對比實驗中都是相同的。
2.3.1網(wǎng)絡(luò)對比試驗
為了進行全面評估、驗證本文方法的有效性,在WHDLD數(shù)據(jù)集上進行了2種網(wǎng)絡(luò)對比實驗:一種是主流經(jīng)典大模型和MSNET進行對比,另一種是主流輕量化模型和MSNET的對比。
第一組是主流經(jīng)典大模型DeepLabv3+、SegNet、PspNet和MSNET進行實驗對比。各模型在WHDLD數(shù)據(jù)集上的測試結(jié)果如表1所示。
由表1可以看出,MSNET在MIoU、F1-Score、Accuracy、Precision和Recall上明顯優(yōu)于其他經(jīng)典分割網(wǎng)絡(luò),特別是MIoU達到了72.43%,遠遠超過了其他模型。綜合指標F1-Score和Recall達到83.12%和83.11%,相比于其他模型增幅十分明顯。這也代表了模型的整體均衡表現(xiàn)優(yōu)秀,魯棒性良好。MSNET的參數(shù)量和計算量相比其他網(wǎng)絡(luò)有大幅下降,使得MSNET模型對設(shè)備計算、存儲性能的要求低,運算時間在GPU上為7.46ms,相比于其他模型速度提升明顯。這些都得益于輕量化骨干對模型的減重,以及模型整個架構(gòu)的設(shè)計。本實驗也證實了MSNET性能全方面表現(xiàn)出色。
第二組是主流輕量化模型ICNET、ENET、CGNET和MSNET進行實驗對比。各模型在WHDLD數(shù)據(jù)集上的測試結(jié)果如表2所示。由表2可以看出,盡管MSNET的參數(shù)量計算量和其余模型相比并不具有優(yōu)勢,但是單純看參數(shù)量和計算量并不能體現(xiàn)模型運算速率的快慢,只能說在存儲上有一定優(yōu)勢,而0~3M的參數(shù)量差距對目前大部分設(shè)備的內(nèi)存容量影響微乎其微。實際上模型推理速度不單單受模型參數(shù)量、計算量的影響,也與訪存量和一些其他因素息息相關(guān)。在ShuffleNetV2中提出:①同樣大小通道數(shù)可以最小化內(nèi)存訪問代價(Memory Access Cost,MAC)。②太多分組會增加MAC。③網(wǎng)絡(luò)碎片化會減少并行度。所以本模型大量使用了相同輸入輸出的卷積操作,并且僅僅使用了對運算效率影響最小的二分組卷積來減少計算量、參數(shù)量,整體架構(gòu)大多采用相同模塊堆疊而成不會產(chǎn)生太多碎片化操作。因此MSNET模型在與其他輕量化模型的對比實驗中能夠產(chǎn)生參數(shù)量、計算量高于個別模型但是計算速率更優(yōu)的效果,取得了7.44ms的最優(yōu)運算速率,并且在分割精度上各項指標都優(yōu)于其他輕量化模型,特別是綜合指標MIoU和F1-Score提升較大。本實驗也證明了MSNET模型在輕量化模型類別中的出色表現(xiàn)。
在DLRSD遙感數(shù)據(jù)集上驗證了本文模型的有效性,該數(shù)據(jù)集是一個密集的標簽數(shù)據(jù)集,共包含17個類別,分割難度更高,數(shù)據(jù)集包含2100張圖片和標簽對,按照8:2的比例劃分為訓練集和測試集。訓練結(jié)果如表3所示,與在WHDLD數(shù)據(jù)集中的結(jié)果基本一致,MSNET的分割精度指標相較于其他模型都有小幅提升,各指標提升幅度均在3%~9%,這也充分證明了MSNET模型的普適性。
2.3.2消融實驗
為了驗證MSNET各模塊的合理性和有效性,設(shè)計了消融實驗來探究網(wǎng)絡(luò)中不同模塊組合的執(zhí)行對結(jié)果的影響。WHDLD數(shù)據(jù)集上MSNET的消融實驗如表4所示,基礎(chǔ)算法Baseline為圖一模型不添加注意力機制MSAM、ASPP模塊以及未使用LIP下采樣,使用MobileNet卷積下采樣狀態(tài),當Baseline僅使用主干網(wǎng)絡(luò)提取特征并輸出結(jié)果而不添加任何模塊時,MIoU和F1-Score僅為70.33%和81.57%。添加ASPP模塊、MSAM、LIP模塊時都在之前基礎(chǔ)上得到了分割精度指標的全面提升。添加完所有模塊后的模型MSNET在綜合分割指標MIoU、F1-Score上分別上升至72.43%、83.12%,并且在所有模塊添加完后運算速率并未產(chǎn)生較大增幅,7.74ms的運算速率依舊是一個非常不錯的速度。這些消融實驗表明,所提出的網(wǎng)絡(luò)模塊在執(zhí)行分割任務(wù)時可以有效提高分割精度,并且對運算速率影響較小。
2.3.3注意力機制改進實驗
為了驗證改進的注意力機制,設(shè)計了注意力機制的消融實驗,結(jié)果如表5所示。可以看出,基礎(chǔ)算法Baseline(ASPP)為上文基礎(chǔ)算法Baseline添加ASPP模塊狀態(tài)。原始的CBAM注意力機制并未帶來分割效果的明顯提升。然而,當使用改進的方法時,比使用基準網(wǎng)絡(luò)取得了更好的結(jié)果。證實改進后的特征融合注意力模塊MSAM更有效。
2.3.4各模型預(yù)測圖對比
WHDLD數(shù)據(jù)集中各模型預(yù)測圖對比如圖6所示,可以看出,MSNET在預(yù)測效果上整體最佳,能有效分割簡單圖像及復(fù)雜圖像,除去過于細致部分都能準確分割。其他對比模型在一些簡單預(yù)測圖上基本都能較好地分割出目標類別,但在復(fù)雜圖像上部分模型出現(xiàn)細節(jié)不夠、類別錯誤等問題,其中ENET表現(xiàn)最差,在簡單圖像和復(fù)雜圖像的預(yù)測上都出現(xiàn)了較大誤測。
3結(jié)束語
近年來,隨著衛(wèi)星成像技術(shù)和深度學習技術(shù)的發(fā)展,遙感圖像分割逐漸成為熱點問題,受到眾多研究者的關(guān)注。然而,遙感圖像中多類別目標的分割仍然存在許多困難,遙感圖像復(fù)雜且目標大小及類別多樣,目前在輕量化方面的研究較為少見。為了對大尺寸、高分辨率遙感圖像進行自動、快速、有效的多類別分割,并在不損失精度的情況下降低計算成本,提出了一種端到端的圖像分割模型——MSNET。在輕量化方面,整體模型架構(gòu)采用MobileNetV2作為編碼主干特征提取網(wǎng)絡(luò)、MSConv作為解碼主干特征提取網(wǎng)絡(luò)、LIP作為整個模型的輕量化池化方法,因此整體模型可以保證高效的自動特征提取,同時顯著減少模型參數(shù)總數(shù)。其次在特征提取方面,設(shè)計了由ASPP模塊和MSConv等多尺度特征提取網(wǎng)絡(luò)模塊以及MSAM,這些模塊提高了算法在不同尺度分割目標時的分割精度。最后,在公共數(shù)據(jù)集WHDLD上進行評估,F(xiàn)1-Score達到83.12%,每張256pixelx256 pixel大小圖片的推理時間為0.0074s,證實了MSNET模型能高效地在遙感圖像上進行快速、準確的多類別分割。