楊運(yùn)龍,梁 路,滕少華
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006)
語(yǔ)義分割是對(duì)圖像中的每個(gè)像素進(jìn)行分類。高分辨率遙感圖像語(yǔ)義分割是遙感領(lǐng)域一個(gè)長(zhǎng)期研究的課題。它在城市規(guī)劃[1]、自然災(zāi)害監(jiān)測(cè)[2]、土地覆蓋變化[3]、自動(dòng)道路監(jiān)測(cè)[4]等方面扮演著重要的角色。隨著對(duì)太空的不斷探索,發(fā)射的衛(wèi)星越來(lái)越多,獲取到的遙感圖像數(shù)量也越來(lái)越多,如何對(duì)遙感圖像進(jìn)行解譯已經(jīng)成為了當(dāng)下的研究熱點(diǎn)之一。傳統(tǒng)方法通常是依賴圖像像素自身的低階視覺(jué)信息來(lái)進(jìn)行語(yǔ)義分割。2006年以卷積神經(jīng)網(wǎng)絡(luò)為主體的深度學(xué)習(xí)模型的提出在圖像識(shí)別任務(wù)上取得了重大突破[5]。近年來(lái),隨著深度學(xué)習(xí)的不斷發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNNs)在所有主要的評(píng)價(jià)基準(zhǔn)上都取得了顯著的提高,并成為遙感圖像處理的常用方法。
語(yǔ)義分割模型由用于圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái)。為使網(wǎng)絡(luò)能夠進(jìn)行稠密像素預(yù)測(cè),將卷積神經(jīng)網(wǎng)絡(luò)中的全連接層轉(zhuǎn)變?yōu)槎鄠€(gè)卷積層[6]。然而,使用分類網(wǎng)絡(luò)的基本結(jié)構(gòu)會(huì)帶來(lái)一些問(wèn)題[7-8]。例如,網(wǎng)絡(luò)中池化層進(jìn)行下采樣會(huì)導(dǎo)致輸出結(jié)果的空間分辨率損失,降低分割精度[9-10]。對(duì)于圖像中不同尺度的物體,感受野的限制也會(huì)對(duì)分割結(jié)果產(chǎn)生不利影響[11-13]。值得注意的是,對(duì)于分割中目標(biāo)邊緣的處理也是其中的難題。網(wǎng)絡(luò)對(duì)邊緣劃分不夠明確,常常會(huì)導(dǎo)致分割結(jié)果錯(cuò)誤,網(wǎng)絡(luò)的準(zhǔn)確率下降。圖1為神經(jīng)網(wǎng)絡(luò)輸出與真實(shí)標(biāo)簽邊緣對(duì)比圖,其中圖1(a)為輸入圖像,圖1(b)為真實(shí)標(biāo)簽,圖1(c)為神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),從圖中可以看出,神經(jīng)網(wǎng)絡(luò)在不同類別邊緣處更容易分割錯(cuò)誤。卷積神經(jīng)網(wǎng)絡(luò)可以可靠地預(yù)測(cè)圖像中物體的存在和粗略位置,但不太適合精確地指出它們的確切輪廓。卷積網(wǎng)絡(luò)的分類精度和定位精度之間存在一種內(nèi)在的權(quán)衡,具有多個(gè)池化層的更深層模型增加了平移不變性,擴(kuò)大了頂層節(jié)點(diǎn)的感受野,但丟失了高頻細(xì)節(jié),而目標(biāo)邊緣的精確定位需要更多的局部細(xì)節(jié)信息[14]。本文認(rèn)為這種影響對(duì)于包含至少數(shù)十到數(shù)百個(gè)多尺度目標(biāo)的遙感圖像非常關(guān)鍵。
圖1 神經(jīng)網(wǎng)絡(luò)輸出與真實(shí)標(biāo)簽邊緣對(duì)比圖Fig.1 The comparison of edge between ground truth and CNN
已經(jīng)有一些模型試圖減輕由于下采樣而造成的細(xì)節(jié)損失,如在網(wǎng)絡(luò)中引入空洞卷積[7,14-15],在編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間增加對(duì)等的跳躍連接[12,16]等。然而,在應(yīng)用于小目標(biāo)較多的遙感影像時(shí),這些方法仍有模糊目標(biāo)邊界的傾向。邊緣特征對(duì)于完成語(yǔ)義分割、目標(biāo)識(shí)別等多種視覺(jué)任務(wù)都非常重要[17]。但由于分類網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的固有屬性,顏色、形狀、紋理等特征都在一個(gè)網(wǎng)絡(luò)中處理,這些特征與識(shí)別的相關(guān)性各不相同。為了增強(qiáng)模型對(duì)邊緣的識(shí)別能力,本文提出了一種融合語(yǔ)義分割與邊緣檢測(cè)的單一網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架??蚣苡蓛蓚€(gè)部分構(gòu)成:分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)。具體來(lái)說(shuō),分割網(wǎng)絡(luò)提取圖像的分割特征,為每個(gè)像素生成語(yǔ)義標(biāo)簽,邊緣網(wǎng)絡(luò)提取邊緣特征,判斷不同類別間的邊界。邊緣網(wǎng)絡(luò)以分割網(wǎng)絡(luò)的中間特征作為輸入,從分割網(wǎng)絡(luò)中提取多路語(yǔ)義特征構(gòu)建邊緣特征。在框架的頂層融合兩個(gè)網(wǎng)絡(luò)的特征,利用邊緣特征細(xì)化分割特征,提高分割結(jié)果的準(zhǔn)確性,并實(shí)現(xiàn)端到端的訓(xùn)練。
多年來(lái),語(yǔ)義分割一直是計(jì)算機(jī)視覺(jué)和遙感研究的核心問(wèn)題。早期的方法主要是基于區(qū)域建議的方法,通過(guò)生成區(qū)域建議對(duì)像素進(jìn)行分類[18-19]。一個(gè)重要的里程碑是Long等[6]提出的全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCNs),它表明全連接層可以看作是卷積層的堆疊,并且已經(jīng)成為語(yǔ)義分割網(wǎng)絡(luò)應(yīng)用最廣泛的選擇。為了降低池化層造成的空間分辨率損失,一些方法提出采用反卷積[20-21]來(lái)恢復(fù)損失的細(xì)節(jié)信息。反卷積使用存儲(chǔ)池化位置并在其他位置補(bǔ)零的方式進(jìn)行上采樣操作。另一些方法則采用空洞卷積來(lái)控制特征圖的分辨率[14,22],擴(kuò)大感受野,同時(shí)建立空間金字塔池,在多尺度上對(duì)圖像進(jìn)行分割。還有很多方法利用中間層特征進(jìn)行分割。U-net[16]和RefineNet[12]在編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間應(yīng)用跳躍連接,使用來(lái)自早期卷積的細(xì)粒度特征直接補(bǔ)充更深層次網(wǎng)絡(luò)中捕獲的高級(jí)語(yǔ)義特征。一些研究提出對(duì)網(wǎng)絡(luò)輸出使用條件隨機(jī)場(chǎng)來(lái)細(xì)化目標(biāo)邊界,以此來(lái)提高分割性能[23-25]。Pohlen等[26]提出了一個(gè)雙流網(wǎng)絡(luò),其中一個(gè)流用于恢復(fù)在池化中損失的高分辨率特征。與這些方法通過(guò)恢復(fù)下采樣造成的空間分辨率損失不同,雙路網(wǎng)絡(luò)模型在網(wǎng)絡(luò)增加邊緣特征來(lái)提高對(duì)目標(biāo)邊緣的分割能力。
語(yǔ)義邊緣檢測(cè)最早由Prasad等[27]提出。Bertasius等[28]提出使用高級(jí)對(duì)象特征來(lái)告知低級(jí)邊界檢測(cè)的方法,在使用FCNs等深度語(yǔ)義分割網(wǎng)絡(luò)來(lái)獲得類別標(biāo)簽之前,使用分類網(wǎng)絡(luò)來(lái)定位二值語(yǔ)義邊緣。Bertasius等[29]引入的BNF(Boundary Neural Field)使用了綜合FCNs預(yù)測(cè)和邊緣線索的能量模型。一個(gè)值得注意的方法是HED(Holistically-nested Edge Detection)[30],它證明了FCNs除了類別分類外,也可以被訓(xùn)練為邊緣檢測(cè)器來(lái)輸出圖像的邊緣的特征圖。CASENet[17]提出了一種新的跨層結(jié)構(gòu)來(lái)預(yù)測(cè)多標(biāo)簽語(yǔ)義邊緣。深度卷積神經(jīng)網(wǎng)絡(luò)不僅可以用于圖像分類、目標(biāo)檢測(cè)等任務(wù),也可以學(xué)習(xí)邊緣信息用于邊緣檢測(cè),并在效果上取得了顯著的提升。
一些研究探索了將網(wǎng)絡(luò)與互補(bǔ)任務(wù)相結(jié)合的想法,以提高計(jì)算機(jī)視覺(jué)任務(wù)的學(xué)習(xí)效率、預(yù)測(cè)精度和泛化。Kendall等[31]提出了一個(gè)統(tǒng)一的架構(gòu),結(jié)合多個(gè)損失函數(shù),利用同方差不確定性同時(shí)學(xué)習(xí)多個(gè)目標(biāo)。為了學(xué)習(xí)DCNNs中的共享表示,十字形網(wǎng)絡(luò)[32]引入十字形單元進(jìn)行多任務(wù)學(xué)習(xí)。在本文的雙路網(wǎng)絡(luò)中,通過(guò)增加邊緣網(wǎng)絡(luò),讓模型可以同時(shí)學(xué)習(xí)邊緣特征和分割特征,并用邊緣特征細(xì)化分割特征。
雙路網(wǎng)絡(luò)模型主要由兩個(gè)網(wǎng)絡(luò)構(gòu)成,分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)協(xié)同工作進(jìn)行語(yǔ)義分割。分割網(wǎng)絡(luò)對(duì)圖像像素進(jìn)行分類,輸出像素點(diǎn)類別的可能性;邊緣網(wǎng)絡(luò)利用分割網(wǎng)絡(luò)的中間特征作為輸入,來(lái)學(xué)習(xí)和邊緣相關(guān)的特征,判斷像素點(diǎn)是否為邊緣。接著,在網(wǎng)絡(luò)的頂層,將分割特征和邊緣特征融合在一起,提升模型的識(shí)別能力。
分割網(wǎng)絡(luò)是用于語(yǔ)義分割的深度卷積神經(jīng)網(wǎng)絡(luò),以高度H、寬度W的圖像為輸入,提取圖像的分割特征,輸出同樣大小的密集特征預(yù)測(cè)圖。分割網(wǎng)絡(luò)可以是任意前饋的全卷積網(wǎng)絡(luò),如FCNs[6]、SegNet[33]或Deeplab[34]。為了兼顧效果和模型參數(shù)的平衡,本文選擇SegNet作為分割網(wǎng)絡(luò)。
分割網(wǎng)絡(luò)由兩部分組成:編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)。編碼網(wǎng)絡(luò)由一系列卷積層和池化層構(gòu)成,卷積層負(fù)責(zé)獲取圖像的局部特征,池化層負(fù)責(zé)對(duì)圖像進(jìn)行下采樣。隨著網(wǎng)絡(luò)的深入,獲得的特征圖包含更多的高層次語(yǔ)義信息,但空間分辨率也不斷下降。為了克服這一問(wèn)題,SegNet在編碼網(wǎng)絡(luò)的基礎(chǔ)上增加了一個(gè)解碼網(wǎng)絡(luò),用于恢復(fù)特征的分辨率。解碼網(wǎng)絡(luò)的設(shè)計(jì)類似于編碼網(wǎng)絡(luò)的鏡像版本,它使用上采樣操作替代池化層擴(kuò)大分辨率,以復(fù)原物體的幾何形狀,彌補(bǔ)編碼網(wǎng)絡(luò)中下采樣造成的細(xì)節(jié)損失,獲得更精細(xì)的特征圖。編碼網(wǎng)絡(luò)中有5組卷積層,與VGG-16[35]網(wǎng)絡(luò)中的13個(gè)卷積層相同。在每組卷積層后,都使用BN(Batch Normalization)和RELU(Rectified Linear Units)來(lái)加速訓(xùn)練。接下來(lái)是大小為2×2,步長(zhǎng)為2的最大池化層來(lái)實(shí)現(xiàn)平移不變性。在解碼網(wǎng)絡(luò)中,使用了與編碼網(wǎng)絡(luò)中對(duì)稱的卷積層,并用上采樣操作替代最大池化層。
由于高層次特征圖的空間分辨率損失,語(yǔ)義分割的結(jié)果可能會(huì)在邊緣附近包含錯(cuò)誤的分類。本文提出了一個(gè)雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架,擴(kuò)展了一個(gè)特殊的分支來(lái)處理邊緣相關(guān)信息。邊緣網(wǎng)絡(luò)以分割網(wǎng)絡(luò)的中間層次特征作為輸入,生成語(yǔ)義邊緣作為輸出。
邊緣網(wǎng)絡(luò)由少量殘差塊[36]和卷積核大小為1×1的卷積層構(gòu)成。具體地說(shuō),邊緣網(wǎng)絡(luò)從分割網(wǎng)絡(luò)中編碼網(wǎng)絡(luò)的第一和第二組卷積中獲得兩個(gè)特征作為輸入,從解碼網(wǎng)絡(luò)對(duì)稱地獲得另外兩個(gè)特征作為輸入。為了保持邊緣特征分辨率的一致,將這些特征通過(guò)線性插值恢復(fù)到與輸入圖像分辨率相同。低層特征包含更多的局部細(xì)節(jié),從編碼網(wǎng)絡(luò)提?。桓邔犹卣靼嗟恼Z(yǔ)義信息,從解碼網(wǎng)絡(luò)提取。通過(guò)殘差塊構(gòu)成的邊緣網(wǎng)絡(luò)來(lái)學(xué)習(xí)這些中間特征中語(yǔ)義邊緣信息,提取邊緣特征。殘差結(jié)構(gòu)具有很強(qiáng)的學(xué)習(xí)能力,適合在深度網(wǎng)絡(luò)中使用。卷積核大小為1×1的卷積層被插入分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)之間。它能將兩個(gè)網(wǎng)絡(luò)連接起來(lái),使整個(gè)模型更加靈活,并讓分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)更專注于它們各自的任務(wù)。同時(shí),它也能降低中間特征的維數(shù),減少內(nèi)存消耗,加快訓(xùn)練過(guò)程。兩種殘差塊如圖2所示。
圖2 兩種殘差塊結(jié)構(gòu)圖Fig.2 The architecture of residual block
殘差塊由卷積層和恒等映射組成,可定義為
式中:xl和xl+1分別是殘差塊的輸入和輸出,F(xiàn)(xl,wl)表示需要學(xué)習(xí)的殘差映射。殘差塊有兩層恒等殘差和性能更強(qiáng)大的三層恒等殘差兩種結(jié)構(gòu)。殘差結(jié)構(gòu)解決了深度網(wǎng)絡(luò)中的退化問(wèn)題,很適合在本框架中提取邊緣特征。為了減少計(jì)算量,與分割網(wǎng)絡(luò)適應(yīng),本文選擇兩層恒等殘差塊。圖3為雙路網(wǎng)絡(luò)的結(jié)構(gòu)圖,分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)并行學(xué)習(xí)輸入圖片的特征信息,并在網(wǎng)絡(luò)的頂層融合分割特征和邊緣特征,將其輸入一系列卷積層以產(chǎn)生最終的預(yù)測(cè)結(jié)果。
圖3 雙路網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Architecture of the proposed two-way model
雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架可以實(shí)現(xiàn)端到端的訓(xùn)練,分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)并行地分別學(xué)習(xí)分割特征和邊緣特征。一方面,多任務(wù)學(xué)習(xí)框架有助于優(yōu)化分割模型,另一方面,可以通過(guò)兩個(gè)網(wǎng)絡(luò)的融合,利用邊緣網(wǎng)絡(luò)的輸出進(jìn)一步提高整個(gè)模型的性能。
在訓(xùn)練過(guò)程中,多任務(wù)學(xué)習(xí)框架可以同時(shí)監(jiān)督分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)的預(yù)測(cè)特征。這里,邊緣特征是指圖像中目標(biāo)邊緣的二值表示。本文利用交叉熵?fù)p失函數(shù)來(lái)訓(xùn)練分割網(wǎng)絡(luò),其定義為
式中:li是點(diǎn)i的標(biāo)簽,pk,i是點(diǎn)i屬于第k類的輸出概率,K是總的類別數(shù)量,σ(·)是一個(gè)指示函數(shù),當(dāng)li=k時(shí)為1,否則為0。θseg是分割網(wǎng)絡(luò)的參數(shù)集合,N是一幅圖像中所有像素點(diǎn)的數(shù)量。
同時(shí),本文使用標(biāo)準(zhǔn)的二值交叉熵函數(shù)作為邊緣網(wǎng)絡(luò)的損失函數(shù),監(jiān)督邊緣網(wǎng)絡(luò)的訓(xùn)練,其定義為
式中:yi是點(diǎn)i是否為邊緣的真實(shí)標(biāo)簽,表示點(diǎn)i屬于第c類的概率。C是所有標(biāo)簽類別的總數(shù),在邊緣檢測(cè)中大小為2。θedg是邊緣網(wǎng)絡(luò)的參數(shù)集合,邊緣損失函數(shù)可以同時(shí)監(jiān)督更新分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)的參數(shù)。本文在真實(shí)的分割標(biāo)簽中產(chǎn)生遙感圖像邊緣標(biāo)簽[37-38],并把原始圖像、分割標(biāo)簽和邊緣標(biāo)簽放入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。在網(wǎng)絡(luò)頂部,可以得到分割特征圖和邊緣特征圖作為輸出。
在多任務(wù)學(xué)習(xí)的情況下,為了進(jìn)一步提高整個(gè)模型的性能,用邊緣特征細(xì)化分割特征,使預(yù)測(cè)結(jié)果在邊緣更加清晰,本文引入了一種正則化方法來(lái)實(shí)現(xiàn)分割特征和邊緣特征的融合。類似于Takikawa等的方法[39],本文希望預(yù)測(cè)邊緣與真實(shí)邊緣不符合時(shí)受到懲罰,并且避免邊緣像素主導(dǎo)損失函數(shù)。因此引入
式中:ζ代表某個(gè)特定像素是否屬于語(yǔ)義邊緣,它是對(duì)輸出的分割特征圖取空間導(dǎo)數(shù)計(jì)算出來(lái)的。是用同樣方式從真實(shí)分割標(biāo)簽中計(jì)算出的真實(shí)邊緣掩碼。p+是所有非零像素點(diǎn)的集合。
同樣,本文也希望二進(jìn)制邊緣預(yù)測(cè)s和預(yù)測(cè)的分割特征p(y|r,s)保持一致:
式中:p和k分別代表所有的圖像像素點(diǎn)和語(yǔ)義類。1s={1:s>thrs}對(duì)應(yīng)了一個(gè)指示函數(shù),thrs是置信度閾值。將整個(gè)模型的最終損失函數(shù)定義為
式中:λ是用于調(diào)整不同損失函數(shù)之間相對(duì)權(quán)重的超參數(shù)。該損失函數(shù)用于監(jiān)督更新整個(gè)模型的所有參數(shù)。
在本節(jié)中,將對(duì)雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架進(jìn)行評(píng)估。為了驗(yàn)證本文所提出方法的有效性,本文在ISPRS Potsdam 數(shù)據(jù)集和 ISPRSVaihingen 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)集分別拍攝于德國(guó)的 Potsdam 市和 Vaihingen 市,包含了多張高分辨率的航拍遙感圖片。本文將雙路網(wǎng)絡(luò)模型與多個(gè)經(jīng)典的語(yǔ)義分割模型在不同評(píng)價(jià)指標(biāo)上進(jìn)行比較。
為了驗(yàn)證雙路網(wǎng)絡(luò)模型的性能,本文將與多個(gè)語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行對(duì)比:
(1)FCNs:FCNs是經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò),它將傳統(tǒng)CNN中的全連接層轉(zhuǎn)化為多個(gè)卷積層,實(shí)現(xiàn)了網(wǎng)絡(luò)端到端的訓(xùn)練。
(2)SegNet:首次提出使用對(duì)稱的編碼器和解碼器結(jié)構(gòu)網(wǎng)絡(luò)進(jìn)行語(yǔ)義分割。
(3)PSPNet:使用金字塔池化結(jié)構(gòu),該結(jié)構(gòu)能夠聚合不同區(qū)域的上下文信息進(jìn)行語(yǔ)義分割。
(4)DeeplabV3:提出空洞空間金字塔結(jié)構(gòu),能夠獲取不同尺度目標(biāo)的特征。
ISPRS Potsdam Dataset:Potsdam是一個(gè)典型的歷史城市,數(shù)據(jù)集由38張遙感圖片組成,地面采樣距離為5 cm。圖像大小為6 000×6 000,包含 IRRG圖像、IRGB圖像和NDSM圖像。實(shí)驗(yàn)使用8張高分辨率遙感圖像進(jìn)行訓(xùn)練,1張高分辨率遙感圖像進(jìn)行測(cè)試。數(shù)據(jù)集中定義了6個(gè)類別,分別為不透水的表面(白色)、建筑(藍(lán)色)、低植被(青色)、樹(shù)(綠色)、汽車(黃色)、背景(紅色)。實(shí)驗(yàn)沒(méi)有使用NDSM圖像和DSM圖像。
ISPRS Vaihingen Dataset:Vaihingen市是一個(gè)規(guī)模較小的城市,數(shù)據(jù)集由33張遙感圖片組成,地面采樣距離為9 cm。圖像的平均大小為2 494×2 064,包含IRRG圖像、IRGB圖像和DSM圖像。實(shí)驗(yàn)使用10張圖像作為訓(xùn)練集,3張圖像作為驗(yàn)證集。
為了評(píng)估模型的效果,本文使用3個(gè)評(píng)價(jià)指標(biāo),Precision、IoU(Intersection over union)和F1-score。
式中:TP為真正例,代表正樣本預(yù)測(cè)結(jié)果為正確的數(shù)目;FP為假正例,代表負(fù)樣本被預(yù)測(cè)為正樣本的數(shù)量;FN為假負(fù)例,代表正樣本被預(yù)測(cè)為負(fù)樣本的數(shù)量。β是精確率和召回率之間的權(quán)重,設(shè)置為1。對(duì)于數(shù)據(jù)集中的6個(gè)類別,本文使用各不同指標(biāo)的平均值進(jìn)行比較,分別記為mIoU,mprecision,mF1-score。
雙路網(wǎng)絡(luò)是基于Pytorch框架實(shí)現(xiàn)的。在數(shù)據(jù)預(yù)處理中,使用256×256的滑動(dòng)窗口對(duì)原始的遙感圖像進(jìn)行隨機(jī)裁剪,生成大小為8 000張圖片的訓(xùn)練集,并通過(guò)隨機(jī)的旋轉(zhuǎn)、翻轉(zhuǎn)和添加噪聲等方法對(duì)訓(xùn)練集中的部分樣本進(jìn)行了數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)使用NVIDIA Tesla P100顯卡訓(xùn)練網(wǎng)絡(luò)模型,批次大小為16并進(jìn)行同步的批歸一化。初始學(xué)習(xí)率為0.01,采用多項(xiàng)式衰減。損失函數(shù)如式(6)所示,其中 λ1為 1,λ2為150,λ3為1,λ4為1,雙路網(wǎng)絡(luò)在440輪訓(xùn)練得到最佳結(jié)果。
在表1中,提供了雙路網(wǎng)絡(luò)模型在Potsdam數(shù)據(jù)集上與FCNs、SegNet、PSPNet、DeeplabV3等語(yǔ)義分割網(wǎng)絡(luò)模型的定量比較。從最終結(jié)果來(lái)看,雙路網(wǎng)絡(luò)在mIoU、mF1-score和mprecision等指標(biāo)上均取得優(yōu)異的表現(xiàn),高于其他的語(yǔ)義分割網(wǎng)絡(luò)。對(duì)比基線模型SegNet,在增加邊緣網(wǎng)絡(luò)這一分支后,雙路網(wǎng)絡(luò)模型在mIoU評(píng)價(jià)標(biāo)準(zhǔn)上取得6%的提升,在mF1-score評(píng)價(jià)標(biāo)準(zhǔn)上取得5%的提升。對(duì)比其他網(wǎng)絡(luò)模型,以ResNet-34為基礎(chǔ)網(wǎng)絡(luò)的PSPNet性能僅次于雙路網(wǎng)絡(luò)模型。雙路網(wǎng)絡(luò)模型在mIoU評(píng)價(jià)標(biāo)準(zhǔn)上取得3%的提升,在mF1-score評(píng)價(jià)標(biāo)準(zhǔn)上取得2%的提升,這說(shuō)明,對(duì)比層次更深的神經(jīng)網(wǎng)絡(luò)模型,雙路網(wǎng)絡(luò)模型在網(wǎng)絡(luò)中增加邊緣特征后,也能有更加優(yōu)異的表現(xiàn)。
表1 在Potsdam數(shù)據(jù)集上對(duì)比結(jié)果Table 1 Comparison results on the Potsdam dataset
在表2中,提供了雙路網(wǎng)絡(luò)模型在Vaihingen數(shù)據(jù)集上與不同語(yǔ)義分割網(wǎng)絡(luò)模型的定量比較。與基線網(wǎng)絡(luò)SegNet比較,雙路網(wǎng)絡(luò)在mIoU、mF1-score和mprecision 3個(gè)指標(biāo)上均取得2%左右的提升。對(duì)比層次更深、模型更加復(fù)雜的PSPNet和DeeplabV3,雙路網(wǎng)絡(luò)也表現(xiàn)表現(xiàn)優(yōu)異。除在mF1-score指標(biāo)上雙路網(wǎng)絡(luò)較PSPNet略低外,其余兩個(gè)指標(biāo)均高于PSPNet,其中,在mIoU上提升2%左右。
表2 在Vaihingen數(shù)據(jù)集上對(duì)比結(jié)果Table 2 Comparison results on the Vaihingen dataset
表3展示了雙路網(wǎng)絡(luò)與其他語(yǔ)義分割網(wǎng)絡(luò)在Potsdam數(shù)據(jù)集上對(duì)于不同類別IoU指標(biāo)的比較。從表中的結(jié)果可以看出,雙路網(wǎng)絡(luò)模型在不同類別的IoU指標(biāo)上均取得了領(lǐng)先的效果。表4展示了對(duì)于雙路網(wǎng)絡(luò)中損失函數(shù),不同的超參數(shù) λ2對(duì)于模型性能的影響。在 λ2為150時(shí),雙路模型在Vaihingen數(shù)據(jù)集上取得最佳的效果,mIoU指標(biāo)最高,而隨著 λ2增大,模型性能有所下降。
表3 不同網(wǎng)絡(luò)模型在Potsdam數(shù)據(jù)集上對(duì)IoU的對(duì)比結(jié)果Table 3 Comparison in terms of IoU on the Potsdam dataset %
表4 不同λ2在Vaihingen數(shù)據(jù)集上對(duì)IoU的對(duì)比結(jié)果Table 4 Comparison in terms of different λ2 on the Vaihingen dataset %
表5對(duì)比了雙路網(wǎng)絡(luò)與基線網(wǎng)絡(luò)SegNet的模型參數(shù)量與單張圖片的GFLOPs(Giga Floating Point Operations Per Second),也就是每秒10億次的浮點(diǎn)運(yùn)算數(shù)。與SegNet相比,雙路網(wǎng)絡(luò)只增加了少量殘差塊和卷積層,模型參數(shù)增加較少,只增加了0.52 M。但是由于增加了一個(gè)旁路網(wǎng)絡(luò),計(jì)算量增加較大,運(yùn)行時(shí)間較基線模型增加了一半左右。
表5 雙路網(wǎng)絡(luò)與SegNet參數(shù)和計(jì)算量比較Table 5 Comparison in terms of parameters and calculation between two-way Network and SegNet
在Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集上,本文將雙路網(wǎng)絡(luò)與多個(gè)語(yǔ)義分割模型在不同指標(biāo)上進(jìn)行了對(duì)比。從結(jié)果可以看出,雙路網(wǎng)絡(luò)均取得了領(lǐng)先的效果。雙路網(wǎng)絡(luò)模型,在原有的分割網(wǎng)絡(luò)基礎(chǔ)上,增加了一路邊緣網(wǎng)絡(luò),使網(wǎng)絡(luò)在學(xué)習(xí)分割特征的同時(shí)學(xué)習(xí)邊緣特征,并對(duì)邊緣特征和分割特征進(jìn)行融合,用邊緣特征細(xì)化分割特征,提升網(wǎng)絡(luò)對(duì)邊緣的識(shí)別能力。在網(wǎng)絡(luò)中注入邊緣特征信息后,雙路網(wǎng)絡(luò)模型取得了更好的性能,得到了更好的語(yǔ)義分割結(jié)果,實(shí)驗(yàn)結(jié)果證明了雙路網(wǎng)絡(luò)的有效性。
圖4展示了雙路網(wǎng)絡(luò)模型對(duì)圖像物體邊緣的識(shí)別結(jié)果。從左至右依次為遙感圖像、分割標(biāo)簽、邊緣標(biāo)簽和雙路網(wǎng)絡(luò)的邊緣輸出。從圖中可以看出,雙路網(wǎng)絡(luò)學(xué)習(xí)到了圖像的邊緣特征信息,對(duì)遙感圖像中不同類別目標(biāo)間的輪廓有個(gè)大致的區(qū)分,尤其對(duì)于圖像中的小目標(biāo),如汽車、道路的邊緣都有清晰的劃分。圖5對(duì)比了雙路網(wǎng)絡(luò)模型與基線網(wǎng)絡(luò)SegNet分割效果。從左至右依次為遙感圖像、分割標(biāo)簽、SegNet網(wǎng)絡(luò)和雙路網(wǎng)絡(luò)的分割結(jié)果。從圖中可以看出,對(duì)比基線網(wǎng)絡(luò),雙路網(wǎng)絡(luò)模型在不同類別的邊緣處分割效果更好,誤分類更少。就遙感圖像中的小目標(biāo)汽車類來(lái)說(shuō),SegNet對(duì)該類的分割劃分模糊,有些輸出結(jié)果中汽車連接在一起;而雙路網(wǎng)絡(luò)的輸出中,汽車的輪廓被分割的更加清晰,分割效果更好??梢钥闯?,邊緣特征的學(xué)習(xí),有助于網(wǎng)絡(luò)對(duì)高分辨率遙感圖像的分割,提升了雙路網(wǎng)絡(luò)模型的性能。
圖4 邊緣檢測(cè)結(jié)果圖Fig.4 Visual comparison of edge detection results
圖5 分割結(jié)果比較圖Fig.5 Visual comparison of segmentation results
本文提出了一種用于高分辨率遙感圖像的密集像素預(yù)測(cè)的雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架。在原有語(yǔ)義分割網(wǎng)絡(luò)模型的基礎(chǔ)上,增加了一個(gè)專門(mén)用于提取圖像邊緣特征的邊緣網(wǎng)絡(luò)與分割網(wǎng)絡(luò)組成一個(gè)統(tǒng)一的雙路網(wǎng)絡(luò)。本文使用SegNet作為基線網(wǎng)絡(luò),并在ISPRS Potsdam數(shù)據(jù)集和ISPRSVaihingen數(shù)據(jù)集上與多個(gè)語(yǔ)義分割模型對(duì)比驗(yàn)證雙路網(wǎng)絡(luò)模型的性能,證明了該模型在高分辨率遙感圖像語(yǔ)義分割領(lǐng)域的有效性。在未來(lái),可以探索基于更深層次卷積神經(jīng)網(wǎng)絡(luò)的雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架,研究更好的融合網(wǎng)絡(luò)去融合邊緣特征與分割特征。