摘 要:從遙感影像中提取建筑物是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)基本任務(wù)。近年來(lái),基于深度學(xué)習(xí)的方法已成為遙感影像中自動(dòng)提取建筑物的主流方法。由于建筑物結(jié)構(gòu)復(fù)雜、尺度多樣等特點(diǎn),從遙感影像中準(zhǔn)確高效地提取建筑物仍然是一個(gè)挑戰(zhàn)。針對(duì)建筑物尺度多樣導(dǎo)致在提取過程中無(wú)法同時(shí)兼顧小型和大型建筑物的問題,提出一種基于多尺度指導(dǎo)的遙感影像建筑物提取網(wǎng)絡(luò)。通過4 條路徑分別提取小尺度、大尺度以及其他尺度特征,通過基于交互的尺度指導(dǎo)模塊和可選擇核(Selective Kernel,SK) 卷積模塊分別對(duì)特征進(jìn)行指導(dǎo)和優(yōu)化特征,融合不同路徑提取的特征預(yù)測(cè)建筑物信息。分別在WHU數(shù)據(jù)集和inria 數(shù)據(jù)集上評(píng)估提出網(wǎng)絡(luò)的有效性, 對(duì)比實(shí)驗(yàn)結(jié)果表明, 所提出的網(wǎng)絡(luò)在WHU 數(shù)據(jù)集上的交并比(Intersection over Union,IoU) 較網(wǎng)絡(luò)SegNet、ENet、MMB-Net、Refine-UNet、MAP-Net 分別提高2. 37% 、1. 48% 、1. 05% 、0. 83% 、0. 59% ,在inria 數(shù)據(jù)集上IoU 較其他網(wǎng)絡(luò)分別提高3. 65% 、4. 93% 、2. 42% 、1. 82% 、1. 21% 。結(jié)果顯示,所提出的網(wǎng)絡(luò)是一種有效、提取結(jié)果完整性更高、魯棒性更強(qiáng)的目標(biāo)提取網(wǎng)絡(luò)。
關(guān)鍵詞:深度學(xué)習(xí);遙感影像;建筑物提?。欢喑叨戎笇?dǎo)
中圖分類號(hào):TP751 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
文章編號(hào):1003-3106(2024)07-1694-08
0 引言
建筑物是城市遙感影像中人工物體的主要內(nèi)容,與人類活動(dòng)息息相關(guān)。有效地提取建筑物對(duì)城市規(guī)劃、發(fā)展、建設(shè)以及地理數(shù)據(jù)庫(kù)更新等發(fā)揮著重要作用。隨著遙感技術(shù)的發(fā)展,遙感影像分辨率越來(lái)越高,獲得的目標(biāo)更加清晰,相關(guān)研究也不斷增加。
近年來(lái),針對(duì)遙感影像建筑物提取,人們提出大量的方法,主要分為2 類:一類為基于傳統(tǒng)的方法,如基于紋理和基于閾值的方法[1-4],通常需要手動(dòng)處理和選擇特征。但這種方法提取效果較差,而且非常低效,需要耗費(fèi)過多人力和物力。另一類為基于深度學(xué)習(xí)的方法。隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[5-7]到全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,FCN)[8-10]的演變,基于深度學(xué)習(xí)的語(yǔ)義分割方法開始被提出并收獲了較好的結(jié)果。隨后,其變體也由于具有良好的性能而受到廣泛認(rèn)可,如編碼器- 解碼器結(jié)構(gòu)[11-12]。為了充分發(fā)揮深度學(xué)習(xí)的優(yōu)勢(shì),Qiu 等[13]利用空洞空間卷積池化金字塔(Atrous SpatialPyramid Pooling,ASPP)和改進(jìn)的深度可分離卷積提取建筑物的多尺度特征;Zhu 等[14]采用多條路徑分別提取不同分辨率的特征以提取建筑物的多尺度信息。楊棟杰等[15]利用通道注意力和多尺度特征融合注意力提高建筑物提取的性能。盡管這些方法提高了建筑物提取的精度,但是對(duì)于建筑物的多尺度信息提取不夠充分,同時(shí)會(huì)引入大量冗余信息。
因此設(shè)計(jì)了一個(gè)基于多尺度指導(dǎo)的建筑物提取網(wǎng)絡(luò),通過路徑間相互指導(dǎo)分別提取小尺度、大尺度以及其他尺度的建筑物信息。同時(shí),利用可選擇核(Selective Kernel,SK)卷積模塊優(yōu)化提取特定尺度下的多尺度信息,有效提高了建筑物提取的精度和效率,使遙感影像下建筑物提取結(jié)果更加可靠和高效。
1 方法
1. 1 多尺度指導(dǎo)建筑物提取網(wǎng)絡(luò)
針對(duì)高分辨率遙感影像建筑物提取提出一種多尺度指導(dǎo)方法,如圖1 所示,該網(wǎng)絡(luò)包含4 條路徑L1 、L2 、L3 、L4 ,分別提取小尺度、大尺度和其他尺度的建筑物信息。通過多條路徑不僅可以保留建筑物的細(xì)節(jié)特征,還提取了建筑物的語(yǔ)義特征,同時(shí)具有較大的感受野。然后將多條路徑提取的建筑物特征進(jìn)行融合,通過上采樣恢復(fù)到輸入分辨率大小,獲得最終的預(yù)測(cè)圖。
通過輸入I,分辨率大小為256 pixel×256 pixel×3 的通道,得到每條路徑上的特征圖F1 、F2 、F3 、F4 ,分別為128 pixel×128 pixel×64 通道、64 pixel×64 pixel×128 通道、32 pixel × 32 pixel × 256 通道、16 pixel ×16 pixel×512 通道。對(duì)于同一條路徑上的特征圖,分辨率大小和通道數(shù)保持一致。分辨率較大的特征圖具有更多的細(xì)節(jié)特征,但是感受野較??;分辨率較小的特征圖感受野更廣闊,但是丟失較多的細(xì)節(jié)特征。鑒于此,將L1 路徑用于提取小尺度建筑物,L4路徑用于提取大尺度建筑物,L2 、L3 兩條路徑共同提取其他尺度建筑物。在特征提取階段,通過輸入模塊將I 轉(zhuǎn)化為大?。保玻?pixel×128 pixel×64 通道的特征圖,用于減少訓(xùn)練的參數(shù)。利用卷積塊提取特征,每個(gè)卷積塊包括4 個(gè)卷積核3×3 卷積層。在分路徑階段,使用平行模塊保留原始路徑信息,下采樣模塊生成新路徑信息?;A(chǔ)塊細(xì)節(jié)如圖2 所示,其中輸入模塊包括2 個(gè)3×3 卷積層和一個(gè)最大池化層,經(jīng)過第一個(gè)卷積層,將大小為256 pixel×256 pixel×3通道的輸入通道數(shù)調(diào)整為64,第二層卷積輸出大小保持不變,最后經(jīng)過最大池化層,特征圖大小變?yōu)椋保玻?pixel×128 pixel×64 通道;下采樣模塊包括一個(gè)最大池化層和一個(gè)1 ×1 卷積層,經(jīng)過最大池化層,特征圖大小變?yōu)樵瓉?lái)的一半,然后通過1×1 卷積將通道數(shù)調(diào)整為輸入的2 倍;平行模塊由一個(gè)3×3 卷積層構(gòu)成,通過此模塊生成的特征圖與輸入特征圖的大小和通道數(shù)一致;其中每個(gè)模塊中的卷積層后均包含一個(gè)ReLU 激活函數(shù)和BN 層。
特征提取后,將L2 、L3 路徑提取的特征圖進(jìn)行融合得到路徑L23 ,融合過程如下:
L23 = BR((Conv1 ×1(Cat(L2 ,Up(L3 ))))), (1)
式中:Up 表示2 倍上采樣,Cat 表示通道維度上的拼接函數(shù),Conv1×1 表示1×1 的卷積層,BR 表示BN 層和ReLU 層。然后通過指導(dǎo)模塊,L1 路徑指導(dǎo)L4 路徑特征圖的生成;L1 路徑和L4 路徑共同指導(dǎo)L23 路徑特征圖的生成。使得L1 、L23 、L4 能夠分別捕獲到小尺度建筑物信息、其他尺度建筑物信息、大尺度建筑物信息。
由于不同路徑間特征圖分辨率不同,因此指導(dǎo)模塊包括2 個(gè)過程:自上而下指導(dǎo)和自下而上指導(dǎo)。自上而下指導(dǎo)過程表示將指導(dǎo)特征圖分辨率下采樣到被指導(dǎo)特征圖分辨率大小進(jìn)行指導(dǎo),由圖1 中自上而下指導(dǎo)模塊表示;自下而上指導(dǎo)過程表示將被指導(dǎo)特征圖上采樣到指導(dǎo)特征圖分辨率大小然后被指導(dǎo),由圖1 中自下而上指導(dǎo)模塊表示。前者用于增強(qiáng)被指導(dǎo)特征圖對(duì)應(yīng)尺度的特征信息,后者為被指導(dǎo)特征彌補(bǔ)細(xì)節(jié)信息,同時(shí)將對(duì)應(yīng)路徑的特征圖恢復(fù)到被指導(dǎo)特征圖分辨率大小。指導(dǎo)過程如下:
L ^4 = Guide(Down(L1 ),L4 ), (2)
L~4 = Guide(L1 ,Up(L4 )), (3)
式中:Guide 表示指導(dǎo)模塊,具體結(jié)構(gòu)在1. 2 節(jié)介紹;Down 表示下采樣,Up 表示上采樣。式(2)表示自上而下指導(dǎo)過程,式(3)表示自下而上指導(dǎo)過程。
自上而下過程指導(dǎo)完成后,使用SK 卷積模塊優(yōu)化指導(dǎo)后的特征圖,然后進(jìn)行自下而上指導(dǎo)過程,同樣指導(dǎo)結(jié)束后利用SK 卷積模塊優(yōu)化特征圖,SK卷積模塊的細(xì)節(jié)在1. 3 節(jié)展示。優(yōu)化完成后,利用Add 函數(shù)直接將3 個(gè)提取不同尺度的特征圖融合,最后通過上采樣和Sigmoid 操作得到最終預(yù)測(cè)圖,大小為256 pixel×256 pixel×1 通道。
1. 2 基于交互的尺度指導(dǎo)模塊
文獻(xiàn)[16]提出的尺度指導(dǎo)模塊,獨(dú)立提取了不同尺度的信息。然而,該模塊在指導(dǎo)過程中忽視了不同尺度物體存在重疊性,導(dǎo)致被指導(dǎo)特征對(duì)應(yīng)尺度信息部分被抑制,進(jìn)而無(wú)法有效提取對(duì)應(yīng)尺度建筑物信息。如小尺度特征圖中包含大尺度特征的部分信息,在指導(dǎo)大尺度特征圖生成過程中,會(huì)抑制大尺度特征圖中的這些特征,因此指導(dǎo)結(jié)果不理想。針對(duì)該問題,本文提出了一個(gè)基于交互的尺度指導(dǎo)模塊。該模塊在尺度指導(dǎo)模塊的基礎(chǔ)上,充分利用指導(dǎo)特征與被指導(dǎo)特征的交互信息。在小尺度特征指導(dǎo)大尺度特征時(shí),利用大尺度特征抑制小尺度特征中提取的少量大型建筑物區(qū)域,增強(qiáng)小型建筑物區(qū)域;將增強(qiáng)后的小尺度特征進(jìn)一步指導(dǎo)大尺度特征,得到指導(dǎo)后的特征尺度針對(duì)性更強(qiáng),包含對(duì)應(yīng)尺度的建筑物信息更全面。具體結(jié)構(gòu)如圖3 所示。
圖3(a)中輸入為小尺度特征Fs 和大尺度特征Fb,通過一個(gè)1 ×1 卷積層和Sigmoid 激活函數(shù)得到二值圖S1、B1,通過式(4)得到B。首先,將B1 進(jìn)行1-B1 操作,使作為權(quán)重圖的B2 對(duì)于大尺度特征具有更小的激活值;其次將B2 與S1 逐元素相乘,得到的權(quán)重圖S 對(duì)大尺度特征信息給予更低的關(guān)注,而對(duì)小尺度特征信息具有更高的關(guān)注;最后,將優(yōu)化的權(quán)重圖S 與B1 逐元素相乘,分別增強(qiáng)和抑制B1中小型建筑物特征信息和大型建筑物特征信息,生成對(duì)大尺度特征信息關(guān)注更多的權(quán)重圖B。其中Mul 函數(shù)表示直接相乘。
在特征提取過程中,淺層特征由于具有更多的細(xì)節(jié)信息,適用于提取小尺度特征信息;深層特征由于具有更大的感受野,可以提取大尺度建筑物信息;而對(duì)于其他尺度建筑物信息,使用中間2 層提取。因此,在指導(dǎo)其他尺度特征生成時(shí),利用大尺度特征和小尺度特征共同指導(dǎo),故圖3(b)中輸入為3 個(gè)特征圖,分別為小尺度特征Fs、大尺度特征Fb 和其他尺度特征Fm 。首先將小尺度特征圖和大尺度特征圖拼接到一起,通過1 ×1 卷積和Sigmoid 激活函數(shù)得到權(quán)重圖Bs1,其他過程和圖3(a)中相似,具體實(shí)現(xiàn)如下:
B = Mul(B1,1 - Mul(S1,1 - B1)), (4)
M = Mul(M1,1 - Mul(Bs1,1 - M1))。(5)
1. 3 SK 卷積模塊
在本文網(wǎng)絡(luò)中引入SK 卷積模塊,用于優(yōu)化各條路徑提取的建筑物特征。該模塊最初在文獻(xiàn)[17]中提出,不僅可以自主選擇感受野,同時(shí)可以提取多尺度特征。具體結(jié)構(gòu)如圖4 所示,包括分離、融合和選擇3 個(gè)步驟。首先通過空洞率分別為1、2的2 個(gè)3×3 卷積將特征圖分離;然后將分離后的特征直接相加融合,經(jīng)過全局平均池化和全連接層后通道數(shù)變?yōu)檩斎胪ǖ罃?shù)的2 倍;接著利用Softmax 函數(shù),如圖4 中黃色部分,將相同通道計(jì)算對(duì)應(yīng)的權(quán)重,得到2 個(gè)相同通道互補(bǔ)的權(quán)重向量;最后將互補(bǔ)的權(quán)重向量分別作用于分離過程生成的2 個(gè)特征圖,相加得到最終的特征圖。
本文網(wǎng)絡(luò)通過SK 卷積模塊優(yōu)化特征信息,經(jīng)過尺度指導(dǎo)模塊后,各條路徑提取的特征圖具有不同的尺度。不同路徑的特征圖通過SK 卷積模塊自主選擇感受野,同時(shí)也提取了相應(yīng)路徑下的多尺度信息。文中在每一個(gè)指導(dǎo)模塊之后均使用SK 卷積模塊進(jìn)行優(yōu)化,因此,每條路徑包括2 個(gè)SK 卷積模塊。
2 實(shí)驗(yàn)
2. 1 實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證本文模型的有效性,選取WHU 數(shù)據(jù)集[18]和inria 數(shù)據(jù)集[19]進(jìn)行訓(xùn)練和測(cè)試。WHU 數(shù)據(jù)集來(lái)自武漢大學(xué)GPCV 團(tuán)隊(duì),采用航空數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù);inria 數(shù)據(jù)集包括5 個(gè)不同區(qū)域的數(shù)據(jù),不同區(qū)域之間建筑物特點(diǎn)各異,可以有效評(píng)估模型的泛化能力。
在訓(xùn)練階段,由于資源設(shè)備有限,將訓(xùn)練數(shù)據(jù)分割為256 pixel×256 pixel 大小,然后將分割后數(shù)據(jù)中沒有建筑物的影像和標(biāo)簽去除,得到最終訓(xùn)練數(shù)據(jù)。
2. 2 評(píng)價(jià)指標(biāo)
針對(duì)模型預(yù)測(cè)的結(jié)果,采用精確率(Precision)、召回率(Recall)、F1 分?jǐn)?shù)(F1)、交并比(Intersectionover Union,IoU)作為評(píng)價(jià)指標(biāo)。計(jì)算如下:
Precision = TP/TP + FP, (6)
Recall = TP/TP + FN, (7)
F1 = 2 × Precision × Recall/Precision + Recall , (8)
IoU = TP/TP + FP + FN, (9)
式中:TP 表示預(yù)測(cè)結(jié)果和標(biāo)簽均為建筑物;FP 表示預(yù)測(cè)結(jié)果為非建筑物,標(biāo)簽為建筑物;TN 表示預(yù)測(cè)結(jié)果和標(biāo)簽為非建筑物;FN 表示預(yù)測(cè)結(jié)果為建筑物,標(biāo)簽為非建筑物。
遙感影像下建筑物提取屬于二分類問題,提取類別為建筑物和非建筑物2 類。針對(duì)模型,實(shí)驗(yàn)以PyTorch 為框架,在NVIDIA GeForce RTX 3060 設(shè)備上構(gòu)建模型。訓(xùn)練過程中,超參數(shù)迭代次數(shù)設(shè)置為200,初始學(xué)習(xí)率為0. 000 1,Batch Size 為4,驗(yàn)證集上Batch Size 為2,采用多步長(zhǎng)Multi-StepLR 動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)更新學(xué)習(xí)率,通過Adam 優(yōu)化器迭代優(yōu)化損失函數(shù)。采用文獻(xiàn)[20]中的損失函數(shù)評(píng)價(jià)預(yù)測(cè)結(jié)果和真實(shí)值之間的差異,具體如式(10)所示:
L(predict,label) = α1 BCE(predict,label)+α2 Dice(predict,label), (10)
式中:α1 、α2 為超參數(shù),分別取值0. 8、0. 2。
2. 3 實(shí)驗(yàn)結(jié)果
在WHU 數(shù)據(jù)集和inria 數(shù)據(jù)集上將模型和多個(gè)語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),其中包括語(yǔ)義分割模型SegNet、ENet[21]以及近2 年建筑物提取領(lǐng)域提出的模型MMB-Net[22]、Refine-UNet 和MAP-Net。
2. 3. 1 WHU 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
使用在WHU 訓(xùn)練集上訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),輸入大小為512 pixel×512 pixel×3 通道,輸出為建筑物提取預(yù)測(cè)圖。實(shí)驗(yàn)中所有的網(wǎng)絡(luò)均在相同的設(shè)備以及超參數(shù)下進(jìn)行,部分預(yù)測(cè)結(jié)果如圖5 所示。
本文提出的基于多尺度指導(dǎo)的建筑物提取網(wǎng)絡(luò)模型采用多路徑結(jié)構(gòu),利用改進(jìn)的指導(dǎo)模塊,減少路徑提取特征圖的冗余信息,指引每條路徑提取相應(yīng)尺度的建筑物信息。然后通過SK 卷積模塊優(yōu)化對(duì)應(yīng)尺度的特征,使提取的特征不僅可以自由選擇感受野,也擁有豐富的多尺度信息。通過圖5 可以發(fā)現(xiàn),第一行中藍(lán)色框部分顯示本文提出的模型提取的小型建筑物邊界更光滑,與標(biāo)簽匹配度更高;第三行中藍(lán)色框部分表明本文模型提取的大型建筑物較MMB-Net、Refine-UNet 完整性更高,提取的邊界較模型SegNet、ENet 與MAP-Net 更完整;第二行和第四行中紅色框表明對(duì)于影像中形狀變化較大的建筑物,本文模型提取結(jié)果邊界更完善。綜合表明,在WHU 建筑物數(shù)據(jù)集上效果優(yōu)于其他模型,提出的方法具有更多的細(xì)節(jié)信息,連續(xù)性較好,而且小型建筑物遺漏更少。該模型可以有效提取遙感影像下的建筑物,建筑物提取精度定性分析如表1 所示。
由表1 可以看出,本文網(wǎng)絡(luò)提取結(jié)果在F1 上比其他5 個(gè)網(wǎng)絡(luò)分別提高1. 31% 、0. 82% 、0. 58% 、0. 46% 、0. 32% ,IoU 分別提高2. 37% 、1. 48% 、1. 05% 、0. 83% 、0. 59% ,與可視化結(jié)果一致,本文網(wǎng)絡(luò)綜合性能較其他對(duì)比網(wǎng)絡(luò)更優(yōu)。
2. 3. 2 inria 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
使用在inria 數(shù)據(jù)集上訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),輸入大小為512 pixel×512 pixel×3 通道,輸出為建筑物預(yù)測(cè)圖??梢暬Y(jié)果如圖6 所示。其中包括5 個(gè)區(qū)域austin、chicago、kitsap、tyrol 和vienna 的影像,分別對(duì)應(yīng)每一行。5 個(gè)區(qū)域的建筑物特點(diǎn)各異,austin 和chicago 區(qū)域建筑物分布均勻,chicago 區(qū)域建筑物呈列排布,tyrol 區(qū)域建筑物大小變化較大分布無(wú)規(guī)律,vienna 區(qū)域建筑物形狀變化較大。圖中第一行、第三行和第四行紅色框部分表明,對(duì)于規(guī)則的建筑物,本文網(wǎng)絡(luò)提取的建筑物輪廓更清楚和光滑;而第五行紅色框中對(duì)于復(fù)雜的建筑物,本文網(wǎng)絡(luò)預(yù)測(cè)結(jié)果更接近標(biāo)簽形狀。
綜合表明,對(duì)比網(wǎng)絡(luò)提取結(jié)果完整性較差,本文網(wǎng)絡(luò)提取結(jié)果更準(zhǔn)確。在inria 數(shù)據(jù)集上,所提網(wǎng)絡(luò)與其他對(duì)比網(wǎng)絡(luò)的定量實(shí)驗(yàn)結(jié)果如表2 所示。
由表2 可以看出,本文提出的網(wǎng)絡(luò)在4 個(gè)評(píng)價(jià)指標(biāo)上均優(yōu)于對(duì)比網(wǎng)絡(luò)。對(duì)比結(jié)果顯示本文網(wǎng)絡(luò)的F1 比其他5 個(gè)網(wǎng)絡(luò)分別提高2. 55% 、3. 4% 、1. 76% 、1. 37% 、0. 98% ,IoU 分別提高3. 65% 、4. 93% 、2. 42% 、1. 82% 、1. 21% 。結(jié)果顯示,本文提出的方法和其他5 種網(wǎng)絡(luò)相比性能更佳,魯棒性更強(qiáng)。
2. 3. 3 消融實(shí)驗(yàn)結(jié)果
自上而下指導(dǎo)模塊和自下而上指導(dǎo)模塊分別通過分辨率向下兼容和向上兼容指導(dǎo)特定尺度特征生成;SK 卷積模塊通過優(yōu)化指導(dǎo)后特征,從而提升網(wǎng)絡(luò)特征提取能力。本節(jié)通過在WHU 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)驗(yàn)證上述3 個(gè)模塊對(duì)模型性能影響,結(jié)果如表3 所示。
①自上而下指導(dǎo)模塊。該模塊通過指導(dǎo)特征圖下采樣對(duì)被指導(dǎo)特征圖進(jìn)行指導(dǎo),增強(qiáng)相關(guān)尺度特征信息,抑制不相關(guān)尺度特征信息。采用相同的訓(xùn)練集、驗(yàn)證集、測(cè)試集和訓(xùn)練參數(shù)驗(yàn)證該模塊性能。在WHU 數(shù)據(jù)集上的驗(yàn)證結(jié)果如表3 第二行所示,與第一行相比,精確率和召回率均有提升,IoU 提高0. 28% 。結(jié)果表明,自上而下指導(dǎo)模塊有助于建筑物的分割,對(duì)于建筑物誤檢更少。
②自下而上指導(dǎo)模塊。該模塊通過被指導(dǎo)特征圖上采樣后被指導(dǎo)特征圖指導(dǎo),可以彌補(bǔ)被指導(dǎo)特征圖下采樣后丟失的細(xì)節(jié)信息。驗(yàn)證結(jié)果如表3 第四行和第五行所示,通過比較第一行和第四行,IoU提高0. 24% ,精確率和召回率均有提升,而精確率提升幅度更大。第二行和第五行相比,IoU 提升0. 38% ,精確率同樣提升空間更大。實(shí)驗(yàn)結(jié)果表明,自下而上指導(dǎo)模塊恢復(fù)更多的空間細(xì)節(jié),提高了建筑物分割的完整性。
③SK 卷積模塊。SK 卷積模塊為不同的卷積核分配相應(yīng)的權(quán)重,達(dá)到控制感受野和優(yōu)化特征的目的。表3 的第三行和第六行驗(yàn)證該模塊的有效性,通過比較第二行和第三行,IoU 提升0. 33% ,比較第五行和第六行,IoU 提升0. 23% 。綜合表明,SK 卷積模塊進(jìn)一步優(yōu)化了指導(dǎo)后的特征圖,從而提升建筑物檢測(cè)表現(xiàn)。
通過以上消融實(shí)驗(yàn)可以發(fā)現(xiàn),本文提出的自上而下指導(dǎo)模塊、自下而上指導(dǎo)模塊以及SK 卷積模塊對(duì)于網(wǎng)絡(luò)表達(dá)能力和提取性能都至關(guān)重要。通過2 個(gè)不同過程的指導(dǎo)以及指導(dǎo)后的優(yōu)化,能有效提升建筑物提取能力。
3 結(jié)束語(yǔ)
針對(duì)高分辨率遙感影像建筑物提取中大型建筑物完整性較低、小型建筑物容易丟失等問題,本文提出了基于多尺度指導(dǎo)的建筑物提取網(wǎng)絡(luò)。網(wǎng)絡(luò)包括4 條路徑,分別用于提取不同尺度的建筑物信息,通過指導(dǎo)模塊和SK 卷積模塊生成3 類特征圖。淺層路徑用于提取小尺度特征,深層路徑用于提取大尺度特征,中間2 條路徑提取其他尺度特征。通過融合以及上采樣多條路徑生成的特征圖得到最終預(yù)測(cè)圖,不僅在分割大型建筑物時(shí)具有更高的完整性,同時(shí)建筑物漏檢誤檢更少。通過對(duì)比實(shí)驗(yàn),在WHU數(shù)據(jù)集和inria 數(shù)據(jù)集上,本文提出的網(wǎng)絡(luò)均優(yōu)于其他5 種網(wǎng)絡(luò),表明此網(wǎng)絡(luò)性能更好,泛化能力更強(qiáng);進(jìn)行的消融實(shí)驗(yàn)表明各模塊對(duì)于網(wǎng)絡(luò)性能的提升至關(guān)重要,共同促進(jìn)網(wǎng)絡(luò)提取建筑物能力。但是本文網(wǎng)絡(luò)還需進(jìn)一步改進(jìn),提升分割建筑物邊界的能力,后續(xù)將朝著此方向努力。
參考文獻(xiàn)
[1] COTE M,SAEEDI P. Automatic Rooftop Extraction inNadir Aerial Imagery of Suburban Regions Using Cornersand Variational Level Set Evolution[J]. IEEE Transactionson Geoscience and Remote Sensing,2013,51(1):313-328.
[2] LI E,FEMIANI J,XU S B,et al. Robust RooftopExtraction from Visible Band Images Using Higher OrderCRF[J]. IEEE Transactions on Geoscience and RemoteSensing,2015,53(8):4483-4495.
[3] ZHONG S,HUANG J,XIE W. A New Method of BuildingDetection from a Single Aerial Photograph[C]∥2008 9thInternational Conference on Signal Processing. Beijing:IEEE,2008:1219-1222.
[4] 李治,隋正偉,傅俏燕,等. 基于形態(tài)學(xué)序列和多源先驗(yàn)信息的城市建筑物高分遙感提?。郏剩荩?遙感學(xué)報(bào),2023,27(4):998-1008.
[5] HE K M,ZHANG X Y,REN S Q,et al. Deep ResidualLearning for Image Recognition[C]∥Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE,2016:770-778.
[6] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNetClassification with Deep Convolutional Neural Networks[J]. Communications of the ACM,2017,60(6):84-90.
[7] SZEGEDY C,LIU W,JIA Y Q,et al. Going Deeper withConvolutions[C]∥ 2015 IEEE Conference on ComputerVision and Pattern Recognition. Boston:IEEE,2015:1-9.
[8] CHEN L C,PAPANDREOU G,SCHROFF F,et al.Rethinking Atrous Convolution for Semantic Image Segmentation[EB/ OL]. (2017-12-05)[2023-06-11]. https:∥arxiv. org/ abs/ 1706. 05587.
[9] LONG J,SHELHAMER E,DARRELL T. Fully Convolutional Networks for Semantic Segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston:IEEE,2015:3431-3440.
[10] RONNEBERGER O,FISCHER P,BROX T. UNet:Convolutional Network for Biomedical Image Segmentation[C]∥Medical Image Computing and Computerassisted InterventionMICCAI 2015. Munich:Springer,2015:234-241.
[11] BADRINARAYANAN V,KENDALL A,CIPOLLA R. SegNet:A Deep Convolutional EncoderDecoder Architecture forImage Segmentation [J]. IEEE Transactions on PatternAnalysis and Machine Intelligence,2017,39(12):2481-2495.
[12] CHEN L C,ZHU Y K,PAPANDREOU G,et al. EncoderDecoder with Atrous Separable Convolution for SemanticImage Segmentation [C]∥ Proceedings of the EuropeanConference on Computer Vision (ECCV). Munich:Springer,2018:833-851.
[13] QIU W Y,GU L J,GAO F,et al. Building Extraction fromVery Highresolution Remote Sensing Images Using RefineUNet[J]. IEEE Geoscience and Remote Sensing Letters,2023,20:6002905.
[14] ZHU Q,LIAO C,HU H,et al. MAPNet:MultipleAttending Path Neural Network for Building Footprint Extraction from Remote Sensed Imagery [J ]. IEEETransactions on Geoscience and Remote Sensing,2021,59(7):6169-6181.
[15] 楊棟杰,高賢君,冉樹浩,等. 基于多重多尺度融合注意力網(wǎng)絡(luò)的建筑物提?。郏剩荩?浙江大學(xué)學(xué)報(bào)(工學(xué)版),2022,56(10):1924-1934.
[16] HANG R L,YANG P,ZHOU F,et al. MultiscaleProgressive Segmentation Network for Highresolution Remote Sensing Imagery [J ]. IEEE Transactions onGeoscience and Remote Sensing,2022,60:5412012.
[17] LI X,WANG W H,HU X L,et al. Selective KernelNetworks[C]∥Proceedings of the IEEE / CVF Conferenceon Computer Vision and Pattern Recognition. Long Beach:IEEE,2019:510-519.
[18] JI S P,WEI S Q,LU M. Fully Convolutional Networks forMultisource Building Extraction from an Open Aerial andSatellite Imagery Data Set[J]. IEEE Transactions on Geoscience and Remote Sensing,2019,57(1):574-586.
[19] MAGGIORI E,TARABALKA Y,CHARPIAT G,et al. CanSemantic Labeling Methods Generalize to Any City?TheInria Aerial Image Labeling Benchmark[C]∥2017 IEEEInternational Geoscience and Remote Sensing Symposium(IGARSS). Fort Worth:IEEE,2017:3226-3229.
[20] JADON S. A Survey of Loss Functions for Semantic Segmentation[C]∥2020 IEEE Conference on ComputationalIntelligence in Bioinformatics and Computational Biology(CIBCB). Via del Mar:IEEE,2020:1-7.
[21] PASZKE A,CHAURASIA A,KIM S,et al. ENet:A DeepNeural Network Architecture for Realtime Semantic Segmentation[EB / OL]. (2016 - 06 - 07)[2023 - 06 - 11].https:∥arxiv. org / abs/ 1606. 02147.
[22] ZHANG H,ZHENG X C,ZHENG N S,et al. A Multiscaleand Multipath Network with Boundary Enhancement forBuilding Footprint Extraction from Remotely SensedImagery[J]. IEEE Journal of Selected Topics in AppliedEarth Observations and Remote Sensing,2022,15:8856-8869.
作者簡(jiǎn)介
宋寶貴 男,(2000—),碩士研究生。主要研究方向:深度學(xué)習(xí)、遙感影像建筑物提取。
石衛(wèi)超 男,(1999—),碩士研究生。主要研究方向:深度學(xué)習(xí)、遙感影像變化檢測(cè)。
余 快 女,(1999—),碩士研究生。主要研究方向:深度學(xué)習(xí)、遙感影像建筑物提取。
基金項(xiàng)目:國(guó)家自然科學(xué)基金青年項(xiàng)目(41901341)