吳從中,董 浩,方 靜
(1.合肥工業(yè)大學(xué)計算機(jī)與信息學(xué)院,安徽 合肥 230601; 2.安徽省六安市金安區(qū)生態(tài)環(huán)境分局,安徽 六安 237005)
遙感圖像分割是計算機(jī)視覺研究的重要組成部分,在環(huán)境監(jiān)測、城市規(guī)劃以及地震、洪災(zāi)、山火等自然災(zāi)害的救援方面有著重要的作用和實(shí)際應(yīng)用價值。特別在自然災(zāi)害的救援方面,若能夠?qū)b感圖像進(jìn)行更快、更精準(zhǔn)的分割,則能爭取更多的救援時間,從而最大程度地減少損失。道路和建筑物常常是遙感衛(wèi)星捕捉的對象,而對象的背景往往是復(fù)雜多樣的。如圖1所示:道路數(shù)據(jù)集包括城市、鄉(xiāng)鎮(zhèn)和荒郊等不同場景下的道路;建筑物數(shù)據(jù)集包括稠密的城鎮(zhèn)建筑物和稀少的鄉(xiāng)村建筑物。這些是遙感圖像背景類內(nèi)差異較大,前景與背景之間的不平衡等問題的表現(xiàn),使得遙感圖像前景特征很難定位和識別,造成遙感圖像中小目標(biāo)和目標(biāo)邊緣的錯分和漏分。
Figure 1 Samples of images(road and building) and corresponding labels圖1 道路、建筑物圖像樣本及其對應(yīng)標(biāo)簽
對遙感圖像語義分割的研究方法主要分為2種:基于人工特征提取的傳統(tǒng)方法和基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。傳統(tǒng)的圖像分割方法包括基于閾值的分割方法、基于區(qū)域的分割方法和基于邊緣的分割方法等,這些方法只能提取到圖像的淺層特征,很難充分地表達(dá)出圖像的高級語義信息,使得圖像分割的精度和效率都很低。隨著VGGNet[1]、GoogleNet[2]和ResNet[3]等卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺任務(wù)中的廣泛應(yīng)用,大量的遙感圖像分割研究工作都開始采用基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。在深度學(xué)習(xí)中,網(wǎng)絡(luò)通過卷積、下采樣、激活函數(shù)結(jié)合大量的訓(xùn)練數(shù)據(jù),能夠較快且準(zhǔn)確地提取遙感圖像的特征。其中,下采樣是重要的一步,通過下采樣可以大大減少網(wǎng)絡(luò)的參數(shù)量和計算量,擴(kuò)大網(wǎng)絡(luò)的感受野;但是也會引起前景目標(biāo)信息的失真和損失,造成混疊。
在傳統(tǒng)的數(shù)字信號處理中,混疊是指由于采樣頻率較低,使得采樣后信號發(fā)生失真,無法恢復(fù)到原始信號。此時,研究人員常利用奈奎斯特采樣定理,使采樣頻率滿足是信號最高頻率的2倍或以上,以此來保證采樣后的信號能完整地恢復(fù)原始信號。在卷積神經(jīng)網(wǎng)絡(luò)中,由于圖像分割需要經(jīng)過下采樣和上采樣2個過程,同樣存在混疊。深度學(xué)習(xí)背景中的混疊是指由于背景類內(nèi)差異較大以及背景與前景的不平衡的干擾,使信號在采樣后退化成完全不同于原始信號的信號的現(xiàn)象。受到數(shù)字信號處理中低通濾波器可恢復(fù)或重建原始信號的特點(diǎn)的啟發(fā),Zhang[4]將濾波處理概念應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)中,提出在下采樣前插入相同的高斯模糊層。盡管模糊層能夠在一定程度上減少混疊,但對背景信息模糊過多或者不足會使得邊界細(xì)節(jié)信息丟失。這是由于特征圖中不同空間位置、不同通道的信號頻率不同造成的。在各個下采樣前使用相同參數(shù)的高斯濾波器往往達(dá)不到最好的效果。例如,在處理背景噪聲信息和前景邊緣信息時,前景邊緣會被過多地模糊,導(dǎo)致重要的邊緣信息丟失,因此應(yīng)該對前景和背景應(yīng)用不同的濾波器。
Long等[5]將全卷積網(wǎng)絡(luò)FCN(Fully Convolutional Network)中的全連接層替換成卷積層,使深度學(xué)習(xí)成功地應(yīng)用于圖像分割。Ji等[6]將FCN成功地應(yīng)用到建筑物分割上。Ronneberger等[7]在U-Net(U-shaped Network)中提出的跳躍連接被廣泛地應(yīng)用于編碼解碼中。將下采樣前后的高頻信息和上采樣前后的低頻信息直接級聯(lián)式融合,可有助于恢復(fù)圖像細(xì)節(jié)和邊緣信息。Zhang等[8]將U-Net成功應(yīng)用于遙感道路圖像分割中。Badrinarayanan等[9]在語義像素級分割網(wǎng)絡(luò)SegNet(semantic pixel-wise Segmentation Network)中提出下采樣索引,在解碼器端使用相應(yīng)的編碼器端的下采樣索引對特征圖進(jìn)行非線性上采樣。Chaurasia等[10]提出在LinkNet的編碼和解碼之間通過像素相加的方式,融合兩者之間的特征。Zhou等[11]在D-LinkNet中改進(jìn)了LinkNet并將其成功地應(yīng)用于道路分割。但是,這些網(wǎng)絡(luò)模型都忽視了下采樣帶來的混疊效應(yīng),同時也忽視了Ibtehaz等[12]提出的特征融合前后差異性的影響。
對于遙感圖像存在的尺度變化較大的問題,池化和擴(kuò)張卷積是2種有效的處理方式。Zhao等[13]在金字塔場景解析網(wǎng)絡(luò)PSPNet(Pyramid Scene Parsing Network)中采用不同大小的池化核,增大網(wǎng)絡(luò)的感受野,融合不同尺度的特征。通過聚合不同區(qū)域信息,達(dá)到充分挖掘全局信息的目的。Yu等[14]首次提出的擴(kuò)張卷積,在不增加訓(xùn)練參數(shù)的情況下,增大網(wǎng)絡(luò)的感受野,可提取多尺度目標(biāo)特征。Hamaguchi等[15]提出的局部特征提取LFE(Local Feature Extraction)網(wǎng)絡(luò)采用擴(kuò)張卷積可有效地分割建筑物遙感圖像,但隨著擴(kuò)張率的增大,網(wǎng)絡(luò)的感受野范圍呈指數(shù)級擴(kuò)大,可能存在冗余信息。因此,擴(kuò)張率的設(shè)計會影響到網(wǎng)絡(luò)的性能。DeepLabv3[16]和混合擴(kuò)張卷積HDC(Hybrid Dilated Convolution)網(wǎng)絡(luò)[17]的共同之處都是進(jìn)行了基于擴(kuò)張率的設(shè)計和改進(jìn)。然而,人為地設(shè)計擴(kuò)展率或者改變多個擴(kuò)張卷積的連接方式,仍會存在冗余信息干擾,不利于最終的像素級預(yù)測。
引入注意力機(jī)制是改善遙感圖像分割的有效方式。Zheng等[18]提出的前景感知關(guān)系分割FarSeg(Foreground-aware relation Segmentation)網(wǎng)絡(luò)基于遙感圖像數(shù)據(jù)分布間的關(guān)聯(lián)性,通過捕獲特征圖不同維度間的數(shù)據(jù)依賴關(guān)系,突出對遙感圖像分割有用的前景特征信息,抑制無關(guān)的冗余背景信息。Fu等[19]提出的雙重注意力網(wǎng)絡(luò)DANet(Dual Attention Network),從空間維度和通道維度引入注意力。在空間維度上,提取特征圖中各個位置的顯著性信息,基于這些空間信息為各個位置分配不同權(quán)重;在通道維度上,則關(guān)注不同通道間蘊(yùn)含的有用信息,如圖像紋理、輪廓形狀等。Li等[20]提出的空間和通道注意力網(wǎng)絡(luò)SCAttNet(Spatial and Channel Attention Network)將空間注意力與通道注意力結(jié)合起來分割遙感圖像。但是,引入注意力的這些網(wǎng)絡(luò)計算較為復(fù)雜,訓(xùn)練時間長,分割速度較慢。綜上所述,利用深度學(xué)習(xí)網(wǎng)絡(luò)對遙感圖像分割時仍然存在以下問題:(1)池化和下采樣等操作可能引起混疊效應(yīng),導(dǎo)致信號的失真和損失。(2)處理多尺度目標(biāo)時,增大網(wǎng)絡(luò)的感受野也會引入冗余信息。(3)淺層特征和深層特征相加或者通過直接級聯(lián)的融合方法忽視了不同特征間的差異性。
Figure 3 Structure of ARGNet圖3 ARGNet結(jié)構(gòu)
本文提出了一種基于注意力機(jī)制的自適應(yīng)濾波分割網(wǎng)絡(luò)ARGNet(Adaptive-Residual-Global Network)網(wǎng)絡(luò),主要工作包括:
(1)提出了自適應(yīng)濾波模塊AFM(Adaptive Filtering Module)。在不同空間位置、不同分組通道上自適應(yīng)學(xué)習(xí)濾波器權(quán)重參數(shù),從而避免混疊,同時保留下游任務(wù)的有用細(xì)節(jié)信息。
(2)提出了注意力門控模塊GAM(Global Attention Module)。自適應(yīng)捕獲多尺度的上下文信息,同時能夠抑制無關(guān)冗余信息,進(jìn)一步增強(qiáng)前景特征的表征能力。
(3)提出了特征融合優(yōu)化模塊RFM(Residual Fusion Module)。通過一個殘差模塊,進(jìn)一步學(xué)習(xí)編碼端的語義信息,從而減少在解碼端不同層級特征融合時的語義差異性。
本文研究的遙感圖像分割任務(wù)本質(zhì)上是一個像素級的二分類問題,需要將圖像分為前景對象和背景2個不同區(qū)域;同時,需要進(jìn)一步為前景對象區(qū)域的每一個像素分配一個統(tǒng)一的語義標(biāo)簽。這對網(wǎng)絡(luò)能夠精準(zhǔn)地建模小目標(biāo)和目標(biāo)的邊緣有著更高的要求。本文使用預(yù)訓(xùn)練的ResNet-34為網(wǎng)絡(luò)編碼器,以LinkNet為基本骨架,解碼器使用轉(zhuǎn)置卷積[21]進(jìn)行上采樣。編碼器與解碼器的基本結(jié)構(gòu)如圖2所示。
Figure 2 Basic structures of encoder and decoder圖2 編碼器與解碼器的基本結(jié)構(gòu)
圖3展示了本文提出的ARGNet結(jié)構(gòu)。在編碼部分的4個下采樣(Enconder1~ Enconder4)前,輸入圖像先通過卷積(卷積核大小k=7,步長s=2,填充層數(shù)p=3)運(yùn)算后,再經(jīng)過自適應(yīng)濾波模塊(AFM)處理。其次,在各個跳躍連接中加入RFM。在網(wǎng)絡(luò)的中心部分,增加GAM來改善擴(kuò)張卷積帶來的不利影響。最后,解碼器層的圖像X經(jīng)過sigmoid層輸出分割結(jié)果。本文的sigmoid()函數(shù)如式(1)所示:
(1)
為了減少卷積神經(jīng)網(wǎng)絡(luò)中的混疊效應(yīng),本文在網(wǎng)絡(luò)中的每個下采樣前添加了自適應(yīng)濾波層。在遙感圖像中低頻信息往往具有相對比較平滑的特點(diǎn),而高頻信息往往具有強(qiáng)度變化明顯的特點(diǎn)。AFM的作用是濾除遙感圖像背景中的高頻信息,從而削弱下采樣引起的混疊效應(yīng)。先在不同的空間位置和通道上生成濾波器,然后將其應(yīng)用在采樣前的輸入特征圖上。
(1)空間自適應(yīng)濾波。由于遙感圖像在不同空間位置中的頻率分量不同,為了有效減少混疊,需要在不同的空間位置(i,j)學(xué)習(xí)不同的濾波器權(quán)重矩陣ω,并將其作用在采樣前的輸入圖像X上,具體如式(2)所示:
(2)
(2)分組通道自適應(yīng)濾波。特征圖的不同通道可以捕獲圖像的不同方面特性(如圖像的邊緣特性),這些不同特性往往具有不同的頻率分量。網(wǎng)絡(luò)可以在每一個特征通道上學(xué)習(xí)不同的濾波器。由于在卷積中特征圖的通道數(shù)很多,而一些通道會捕獲到相似的信息,所以本文將通道分成G組,在每一組通道上學(xué)習(xí)一個濾波器。在每一組通道中,特征是相似的,每組通道捕獲圖像的一個不同方面特征,如式(3)所示:
(3)
其中,c(1≤c≤C)表示采樣前特征圖的通道數(shù),g(1≤g≤G)表示劃分的組編號,C為圖像的通道數(shù)。
如圖4所示,通過卷積(conv)、批歸一化(bn)和維度轉(zhuǎn)換(reshape)等操作, 濾波器在每個空間位置和每組通道中動態(tài)生成。其中,unfold的作用是將輸入特征圖的維度從(B,C,h,w)轉(zhuǎn)換為(B,C*kh*kw,L),其中,B是批處理的大小,表示一次批處理的圖像數(shù)量,h和w是圖像的高和寬,L=(h-kh+1)*(w-kw+1)。reshape將特征圖的維度從(B,C,h,w)轉(zhuǎn)換到(B,1,C,h*w)。reshape1在空間維度上進(jìn)行變換,reshape2在通道維度上變換。采樣前特征圖X的大小為(B,C,h,w),生成的濾波器大小為(G,k*k,h,w),最后,通過softmax層將學(xué)習(xí)到的濾波器權(quán)重歸一化到0~1,同時確保了濾波器的低通特性,如式(4)所示:
(4)
其中,N表示標(biāo)簽的類別總數(shù),xi表示第i個類。
Figure 4 Structure of AFM圖4 AFM結(jié)構(gòu)圖
當(dāng)圖像的內(nèi)容包含高頻背景信息時,學(xué)習(xí)到的濾波器方差較??;當(dāng)圖像的內(nèi)容相對平滑時,學(xué)習(xí)到的濾波器方差較大。不同方差大小的濾波器有助于對有較大背景類內(nèi)差異的目標(biāo)進(jìn)行特征提取,同時增強(qiáng)目標(biāo)特征的魯棒性。
Figure 5 Architecture of GAM圖5 GAM結(jié)構(gòu)圖
由于遙感圖像尺度變化較大,D-LinkNet采用擴(kuò)張卷積來增加網(wǎng)絡(luò)的感受野,使得每個擴(kuò)張卷積的輸出包含較大范圍的目標(biāo)信息。通過采用不同大小的擴(kuò)張率(小擴(kuò)張率用于提取本地信息,大擴(kuò)張率用于提取長距離信息),從不同的感受野中提取不同尺度的目標(biāo)特征,捕獲豐富的上下文信息,增強(qiáng)所學(xué)特征表征能力。但是,由于較大的擴(kuò)張率會造成局部信息丟失,當(dāng)擴(kuò)張率越來越大時,從輸入圖像中采樣的數(shù)據(jù)會越來越稀疏,不利于小目標(biāo)的卷積學(xué)習(xí)。同時,在較大感受野所包含的信息中,存在冗余信息的干擾。為了減少這種影響并進(jìn)一步提升特征圖的表征能力,本文提出全局注意力模塊(如圖5所示),即在原來級聯(lián)的擴(kuò)張卷積中,去掉r=1(r表示擴(kuò)張卷積的擴(kuò)張率)的擴(kuò)張卷積塊,保留了r=2,4,8的部分;并在通道維度上將在不同擴(kuò)張率下所提取的不同尺度的上下文信息拼接起來。之后,通過1×1卷積減少通道維度,降低網(wǎng)絡(luò)復(fù)雜度。接著將這些不同尺度的上下文信息與CNN提取的原始高級特征經(jīng)過1×1卷積后以逐像素的方式相乘,從而在空間維度上構(gòu)成注意力。此外,通過GAM的第1個分支上的GP(Global Pooling)、1×1卷積等操作自適應(yīng)捕獲前景對象的全局目標(biāo)信息。最后,將2個分支上學(xué)習(xí)的特征通過相加融合,從而提取到遙感圖像的多尺度上下文信息,如式(5)所示:
(5)
其中,I*k′(i,j)表示擴(kuò)張卷積操作,I表示二維遙感輸入圖像,k′(·)表示擴(kuò)張卷積的卷積核;h和w分別表示圖像的高和寬;r表示擴(kuò)張率。擴(kuò)張卷積核大小k′d的計算如式(6)所示:
k′d=(k-1)·(r-1)+k
(6)
其中,k表示一般卷積的卷積核大小。
在網(wǎng)絡(luò)編碼部分,4個下采樣層使得空間層級化信息逐漸丟失,D-LinkNet采用跳躍連接,直接將下采樣時的編碼層信息和上采樣時的解碼層信息相連,這樣有助于減少恢復(fù)圖像細(xì)節(jié)所需要的空間信息。但是,因?yàn)榫幋a部分的特征信息是較低層次的,而解碼部分的特征是較高層次的,所以,直接通過跳躍連接特征可能存在語義上的差異,從而影響最終的預(yù)測結(jié)果。為此,本文在跳躍連接上引入改進(jìn)的殘差融合模塊,模塊結(jié)構(gòu)如圖6所示。首先,通過1×1卷積降低通道數(shù)量,減少計算的冗余度;其次,將淺層特征經(jīng)過2個3×3卷積學(xué)習(xí),縮小淺層與深層特征的語義間隙;最后,RFM的輸出是初始輸入與殘差輸出之和。
Figure 6 Structure of RFM圖6 RFM結(jié)構(gòu)圖
DeepGlobe Road Extraction(Demir I等)[22]是道路分割數(shù)據(jù)集,包含泰國、印度和印度尼西亞3個國家的多個不同場景的道路(覆蓋城市、鄉(xiāng)鎮(zhèn)、荒郊、海濱和熱帶雨林等)。圖像大小為1024×1024,地面分辨率為0.5 m。數(shù)據(jù)集中共有6 226幅圖像,隨機(jī)選取,其中的5 226幅圖像用于訓(xùn)練,其余1 000幅圖像用于測試。道路的RGB圖像為jpg格式,對應(yīng)的標(biāo)簽為png格式。由于原始圖像尺寸較大,無法直接用于網(wǎng)絡(luò)輸入,本文將所有的圖像裁剪為512×512大小。
Inria Aerial Image Labeling是建筑物分割數(shù)據(jù)集,包含了新西蘭基督城的187 000個建筑物。圖像大小為512×512,地面分辨率為0.3 m。實(shí)驗(yàn)中所用數(shù)據(jù)集共5 736幅圖像,其中的4 736幅用于訓(xùn)練,其余1 000幅用于測試。建筑物的RGB圖像為tiff格式,對應(yīng)的標(biāo)簽也為tiff格式。
在遙感圖像分割中,公開的數(shù)據(jù)集相對較少。即使在一些公開的數(shù)據(jù)集中,圖像數(shù)量也遠(yuǎn)遠(yuǎn)達(dá)不到訓(xùn)練網(wǎng)絡(luò)的要求。因此,研究人員常常采用數(shù)據(jù)增強(qiáng)的方式來優(yōu)化訓(xùn)練,同時防止網(wǎng)絡(luò)過擬合。圖像的形態(tài)變換和色彩變換是2種常見的數(shù)據(jù)增強(qiáng)方式。在形態(tài)變換中,有水平和垂直翻轉(zhuǎn),90度、180度、270度的旋轉(zhuǎn)以及尺度縮放等。色彩變換包括飽和度、亮度和對比度的調(diào)節(jié)。
為了準(zhǔn)確評估網(wǎng)絡(luò)的分割效果,本文采用了4個定量指標(biāo):精度P(Precision)、召回率R(Recall)、F1分?jǐn)?shù)和交并比IoU。P表示預(yù)測為正樣本的個數(shù)占全部預(yù)測為目標(biāo)的比例。R表示預(yù)測為正樣本的個數(shù)占全部正樣本的比例,衡量了分類器對正類的識別能力。由于精度和召回率的相互制約不利于消融實(shí)驗(yàn)中對網(wǎng)絡(luò)整體性能的直接評估,常使用F1作為兩者的調(diào)和平均。IoU是分割的另一標(biāo)準(zhǔn)度量,表示真實(shí)值和預(yù)測值的交集占兩者并集的比例。這些評價指標(biāo)的計算分別如式(7)~式(10)所示:
(7)
(8)
(9)
(10)
其中,TP表示前景對象被正確分類的像素總數(shù),F(xiàn)P表示背景被預(yù)測為前景對象的像素總數(shù),TN表示背景被正確判定為背景的像素總數(shù),F(xiàn)N表示前景對象被預(yù)測為背景的像素總數(shù)。
實(shí)驗(yàn)硬件配置為Intel Xeon (R)CPU E5-2640 v4@2.40 GHz,顯存為2塊共22 GB的NVIDIA GeForce GTX1080Ti顯卡(每塊顯卡的顯存為11 GB)。實(shí)驗(yàn)軟件配置是Ubuntu16.04LTS系統(tǒng),磁盤容量為184.4 GB;PyTorch深度學(xué)習(xí)框架,Python編程語言。在訓(xùn)練時,初始的學(xué)習(xí)率為0.000 2,若在3個訓(xùn)練的epoch中,損失函數(shù)沒有下降,則將學(xué)習(xí)率減小為當(dāng)前的1/5。batch size設(shè)為8;優(yōu)化器是Adam[23],其中,α=0.9,β=0.999,eps=1e-8。
在像素級的二值分類分割網(wǎng)絡(luò)中,常采用二進(jìn)制交叉熵?fù)p失函數(shù)bce_loss,它可以很好地度量2個隨機(jī)變量的概率分布差異。由于遙感圖像存在背景類內(nèi)差異較大、前景與背景之間不平衡問題,為了減少復(fù)雜背景的影響,本文引入dice_loss[24]損失函數(shù)。dice用于衡量2個樣本的重疊部分,能有效解決部分圖像中前景所占比例較小的問題。本文采用的損失函數(shù)是基于分布類損失函數(shù)bce_loss和基于區(qū)域類損失函數(shù)dice_loss的疊加,如式(11)~式(13)所示:
bce_loss=
(11)
(12)
loss=bce_loss+dice_loss
(13)
其中,gti表示原始圖像對應(yīng)的標(biāo)簽,pi表示網(wǎng)絡(luò)的預(yù)測標(biāo)簽。
本文分別在DeepGlobe Road Extraction和Inria Aerial Image Labeling 2個數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)。
在AFM的參數(shù)對比實(shí)驗(yàn)中,為減少訓(xùn)練時間,本節(jié)使用ResNet18作為LinkNet的編碼器。在AFM中,將濾波器大小k設(shè)為3,從而匹配普通卷積中的卷積核的大小,便于在不同維度上進(jìn)行濾波處理。表1所示是在道路數(shù)據(jù)集上的測試結(jié)果。通過不同通道分組實(shí)驗(yàn)發(fā)現(xiàn),隨著分組數(shù)增加,網(wǎng)絡(luò)的濾波性能逐漸提升,當(dāng)G=8時,達(dá)到最優(yōu)。再增加分組數(shù),由于可能存在網(wǎng)絡(luò)的過擬合從而導(dǎo)致性能下降。
Table 1 Ablation experimental results of different group channels in AFM
本文對不同模塊進(jìn)行了消融實(shí)驗(yàn),以定量地驗(yàn)證各模塊在道路分割數(shù)據(jù)集上的性能,結(jié)果如表2所示。本文的網(wǎng)絡(luò)較原始的LinkNet34在召回率R和F1方面分別約提升了3.2%和3.6%。
Table 2 Ablation experimental results of different modules on road dataset
在DeepGlobe Road Extraction上的部分測試結(jié)果如圖7所示,從左到右依次為原圖、標(biāo)簽、LinkNet34分割結(jié)果、LinkNet34加入GAM分割結(jié)果、LinkNet34加入GAM和RFM分割結(jié)果,以及最終ARGNet(GAM+RFM+AFM)分割結(jié)果。其中,白色表示道路前景對象,黑色表示背景。
Figure 7 Segmentation results on the DeepGlobe Road Extraction test set圖7 在DeepGlobe Road Extraction測試集上的分割結(jié)果
圖7第1幅和第2幅原圖中,背景占據(jù)較大比例;第1幅和第3幅原圖存在較大的背景類內(nèi)差異。此外,道路在形狀上各不相同。這些特點(diǎn)增加了道路分割的困難。如圖7中的第1、2行分割結(jié)果所示,通過加入GAM、RFM和AFM模塊逐步改善了由于背景與前景的不平衡帶來的遮擋問題,減少了復(fù)雜背景冗余信息的干擾。如第3、4行的分割結(jié)果所示,通過加入不同的模塊能夠逐步分割出小目標(biāo)道路的輪廓。最終ARGNet改善了道路整體分割效果,使得道路更加連通。
不同網(wǎng)絡(luò)在道路數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示。
Table 3 Experimental results of different networks on road dataset
表4為各個模塊在建筑物數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果。如表4所示,ARGNet較原始的LinkNet34在IoU和F1方面分別提升了約4.3%和3.2%。
Table 4 Ablation experimental resutls of different modules on building dataset
在Inria Aerial Image Labeling上的部分測試結(jié)果如圖8所示,從左到右依次為原圖、標(biāo)簽、LinkNet34分割結(jié)果、LinkNet34加入GAM分割結(jié)果、LinkNet34加入GAM和RFM分割結(jié)果,以及最終ARGNet(GAM+RFM+AFM)分割結(jié)果。其中,白色表示建筑物前景對象,黑色表示背景。
如圖8中的原圖所示,建筑物的大小、顏色以及不同背景等特點(diǎn),增加了建筑物分割的難度。如圖中第1行分割結(jié)果所示,ARGNet能夠逐步改善由于背景與目標(biāo)的對比度較低帶來的漏分。如第2行分割結(jié)果所示,ARGNet改善了原始網(wǎng)絡(luò)會在紅色建筑物邊緣分割產(chǎn)生的鋸齒現(xiàn)象(放大圖像可獲得高分辨率邊緣)。在第3、4行中,ARGNet逐步改善了小目標(biāo)建筑物的漏分;同時也改善了部分小建筑錯分的情況。ARGNet模型相較于原始的LinkNet34,能夠改善小建筑物和建筑物的邊緣分割,使其有更加規(guī)則、平滑和完整的預(yù)測結(jié)果。表5是不同網(wǎng)絡(luò)在建筑物數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。
Figure 8 Segmentation results on the Inria Aerial Image Labeling test set圖8 在Inria Aerial Image Labeling測試集上的分割結(jié)果
LinkNet34的網(wǎng)絡(luò)參數(shù)量為21 642 401。在此基礎(chǔ)上增加AFM(G=8)后,網(wǎng)絡(luò)的參數(shù)量變?yōu)?2 555 793。在LinkNet34的基礎(chǔ)上增加GAM后,網(wǎng)絡(luò)的參數(shù)量變?yōu)?0 035 617。在LinkNet34的基礎(chǔ)上增加RFM后,網(wǎng)絡(luò)的參數(shù)量變?yōu)?3 191 585。
為避免下采樣帶來的混疊效應(yīng),本文在Link-
Table 5 Experimental results of different networks on building dataset
Net的下采樣前插入低通濾波器層。同時 ,由于遙感圖像有著較為復(fù)雜的背景信息,擴(kuò)張卷積在增大感受野的同時,可能存在冗余的背景信息干擾。為此,本文通過注意力門控的擴(kuò)張卷積模塊進(jìn)一步減少冗余信息的干擾。此外,還引入了殘差融合模塊,以減少不同層級特征在融合時存在的語義上的間隙。經(jīng)過改進(jìn),ARGNet能夠更加精準(zhǔn)地分割目標(biāo),改善了目標(biāo)分割的連通性和完整性。