一種雙路網(wǎng)絡(luò)語(yǔ)義分割模型

2022-02-11 07:00:08楊運(yùn)龍滕少華

廣東工業(yè)大學(xué)學(xué)報(bào) 2022年1期

楊運(yùn)龍，梁路，滕少華

（廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院，廣東廣州 510006）

語(yǔ)義分割是對(duì)圖像中的每個(gè)像素進(jìn)行分類。高分辨率遙感圖像語(yǔ)義分割是遙感領(lǐng)域一個(gè)長(zhǎng)期研究的課題。它在城市規(guī)劃[1]、自然災(zāi)害監(jiān)測(cè)[2]、土地覆蓋變化[3]、自動(dòng)道路監(jiān)測(cè)[4]等方面扮演著重要的角色。隨著對(duì)太空的不斷探索，發(fā)射的衛(wèi)星越來(lái)越多，獲取到的遙感圖像數(shù)量也越來(lái)越多，如何對(duì)遙感圖像進(jìn)行解譯已經(jīng)成為了當(dāng)下的研究熱點(diǎn)之一。傳統(tǒng)方法通常是依賴圖像像素自身的低階視覺(jué)信息來(lái)進(jìn)行語(yǔ)義分割。2006年以卷積神經(jīng)網(wǎng)絡(luò)為主體的深度學(xué)習(xí)模型的提出在圖像識(shí)別任務(wù)上取得了重大突破[5]。近年來(lái)，隨著深度學(xué)習(xí)的不斷發(fā)展，深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNNs)在所有主要的評(píng)價(jià)基準(zhǔn)上都取得了顯著的提高，并成為遙感圖像處理的常用方法。

語(yǔ)義分割模型由用于圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái)。為使網(wǎng)絡(luò)能夠進(jìn)行稠密像素預(yù)測(cè)，將卷積神經(jīng)網(wǎng)絡(luò)中的全連接層轉(zhuǎn)變?yōu)槎鄠€(gè)卷積層[6]。然而，使用分類網(wǎng)絡(luò)的基本結(jié)構(gòu)會(huì)帶來(lái)一些問(wèn)題[7-8]。例如，網(wǎng)絡(luò)中池化層進(jìn)行下采樣會(huì)導(dǎo)致輸出結(jié)果的空間分辨率損失，降低分割精度[9-10]。對(duì)于圖像中不同尺度的物體，感受野的限制也會(huì)對(duì)分割結(jié)果產(chǎn)生不利影響[11-13]。值得注意的是，對(duì)于分割中目標(biāo)邊緣的處理也是其中的難題。網(wǎng)絡(luò)對(duì)邊緣劃分不夠明確，常常會(huì)導(dǎo)致分割結(jié)果錯(cuò)誤，網(wǎng)絡(luò)的準(zhǔn)確率下降。圖1為神經(jīng)網(wǎng)絡(luò)輸出與真實(shí)標(biāo)簽邊緣對(duì)比圖，其中圖1(a)為輸入圖像，圖1(b)為真實(shí)標(biāo)簽，圖1(c)為神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)，從圖中可以看出，神經(jīng)網(wǎng)絡(luò)在不同類別邊緣處更容易分割錯(cuò)誤。卷積神經(jīng)網(wǎng)絡(luò)可以可靠地預(yù)測(cè)圖像中物體的存在和粗略位置，但不太適合精確地指出它們的確切輪廓。卷積網(wǎng)絡(luò)的分類精度和定位精度之間存在一種內(nèi)在的權(quán)衡，具有多個(gè)池化層的更深層模型增加了平移不變性，擴(kuò)大了頂層節(jié)點(diǎn)的感受野，但丟失了高頻細(xì)節(jié)，而目標(biāo)邊緣的精確定位需要更多的局部細(xì)節(jié)信息[14]。本文認(rèn)為這種影響對(duì)于包含至少數(shù)十到數(shù)百個(gè)多尺度目標(biāo)的遙感圖像非常關(guān)鍵。

圖1 神經(jīng)網(wǎng)絡(luò)輸出與真實(shí)標(biāo)簽邊緣對(duì)比圖Fig.1 The comparison of edge between ground truth and CNN

已經(jīng)有一些模型試圖減輕由于下采樣而造成的細(xì)節(jié)損失，如在網(wǎng)絡(luò)中引入空洞卷積[7,14-15]，在編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間增加對(duì)等的跳躍連接[12,16]等。然而，在應(yīng)用于小目標(biāo)較多的遙感影像時(shí)，這些方法仍有模糊目標(biāo)邊界的傾向。邊緣特征對(duì)于完成語(yǔ)義分割、目標(biāo)識(shí)別等多種視覺(jué)任務(wù)都非常重要[17]。但由于分類網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的固有屬性，顏色、形狀、紋理等特征都在一個(gè)網(wǎng)絡(luò)中處理，這些特征與識(shí)別的相關(guān)性各不相同。為了增強(qiáng)模型對(duì)邊緣的識(shí)別能力，本文提出了一種融合語(yǔ)義分割與邊緣檢測(cè)的單一網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架?？蚣苡蓛蓚€(gè)部分構(gòu)成：分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)。具體來(lái)說(shuō)，分割網(wǎng)絡(luò)提取圖像的分割特征，為每個(gè)像素生成語(yǔ)義標(biāo)簽，邊緣網(wǎng)絡(luò)提取邊緣特征，判斷不同類別間的邊界。邊緣網(wǎng)絡(luò)以分割網(wǎng)絡(luò)的中間特征作為輸入，從分割網(wǎng)絡(luò)中提取多路語(yǔ)義特征構(gòu)建邊緣特征。在框架的頂層融合兩個(gè)網(wǎng)絡(luò)的特征，利用邊緣特征細(xì)化分割特征，提高分割結(jié)果的準(zhǔn)確性，并實(shí)現(xiàn)端到端的訓(xùn)練。

1 相關(guān)研究

1.1 語(yǔ)義分割模型

多年來(lái)，語(yǔ)義分割一直是計(jì)算機(jī)視覺(jué)和遙感研究的核心問(wèn)題。早期的方法主要是基于區(qū)域建議的方法，通過(guò)生成區(qū)域建議對(duì)像素進(jìn)行分類[18-19]。一個(gè)重要的里程碑是Long等[6]提出的全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCNs)，它表明全連接層可以看作是卷積層的堆疊，并且已經(jīng)成為語(yǔ)義分割網(wǎng)絡(luò)應(yīng)用最廣泛的選擇。為了降低池化層造成的空間分辨率損失，一些方法提出采用反卷積[20-21]來(lái)恢復(fù)損失的細(xì)節(jié)信息。反卷積使用存儲(chǔ)池化位置并在其他位置補(bǔ)零的方式進(jìn)行上采樣操作。另一些方法則采用空洞卷積來(lái)控制特征圖的分辨率[14,22]，擴(kuò)大感受野，同時(shí)建立空間金字塔池，在多尺度上對(duì)圖像進(jìn)行分割。還有很多方法利用中間層特征進(jìn)行分割。U-net[16]和RefineNet[12]在編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間應(yīng)用跳躍連接，使用來(lái)自早期卷積的細(xì)粒度特征直接補(bǔ)充更深層次網(wǎng)絡(luò)中捕獲的高級(jí)語(yǔ)義特征。一些研究提出對(duì)網(wǎng)絡(luò)輸出使用條件隨機(jī)場(chǎng)來(lái)細(xì)化目標(biāo)邊界，以此來(lái)提高分割性能[23-25]。Pohlen等[26]提出了一個(gè)雙流網(wǎng)絡(luò)，其中一個(gè)流用于恢復(fù)在池化中損失的高分辨率特征。與這些方法通過(guò)恢復(fù)下采樣造成的空間分辨率損失不同，雙路網(wǎng)絡(luò)模型在網(wǎng)絡(luò)增加邊緣特征來(lái)提高對(duì)目標(biāo)邊緣的分割能力。

1.2 語(yǔ)義邊緣檢測(cè)

語(yǔ)義邊緣檢測(cè)最早由Prasad等[27]提出。Bertasius等[28]提出使用高級(jí)對(duì)象特征來(lái)告知低級(jí)邊界檢測(cè)的方法，在使用FCNs等深度語(yǔ)義分割網(wǎng)絡(luò)來(lái)獲得類別標(biāo)簽之前，使用分類網(wǎng)絡(luò)來(lái)定位二值語(yǔ)義邊緣。Bertasius等[29]引入的BNF(Boundary Neural Field)使用了綜合FCNs預(yù)測(cè)和邊緣線索的能量模型。一個(gè)值得注意的方法是HED(Holistically-nested Edge Detection)[30]，它證明了FCNs除了類別分類外，也可以被訓(xùn)練為邊緣檢測(cè)器來(lái)輸出圖像的邊緣的特征圖。CASENet[17]提出了一種新的跨層結(jié)構(gòu)來(lái)預(yù)測(cè)多標(biāo)簽語(yǔ)義邊緣。深度卷積神經(jīng)網(wǎng)絡(luò)不僅可以用于圖像分類、目標(biāo)檢測(cè)等任務(wù)，也可以學(xué)習(xí)邊緣信息用于邊緣檢測(cè)，并在效果上取得了顯著的提升。

1.3 多任務(wù)學(xué)習(xí)

一些研究探索了將網(wǎng)絡(luò)與互補(bǔ)任務(wù)相結(jié)合的想法，以提高計(jì)算機(jī)視覺(jué)任務(wù)的學(xué)習(xí)效率、預(yù)測(cè)精度和泛化。Kendall等[31]提出了一個(gè)統(tǒng)一的架構(gòu)，結(jié)合多個(gè)損失函數(shù)，利用同方差不確定性同時(shí)學(xué)習(xí)多個(gè)目標(biāo)。為了學(xué)習(xí)DCNNs中的共享表示，十字形網(wǎng)絡(luò)[32]引入十字形單元進(jìn)行多任務(wù)學(xué)習(xí)。在本文的雙路網(wǎng)絡(luò)中，通過(guò)增加邊緣網(wǎng)絡(luò)，讓模型可以同時(shí)學(xué)習(xí)邊緣特征和分割特征，并用邊緣特征細(xì)化分割特征。

2 網(wǎng)絡(luò)模型

雙路網(wǎng)絡(luò)模型主要由兩個(gè)網(wǎng)絡(luò)構(gòu)成，分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)，兩個(gè)網(wǎng)絡(luò)協(xié)同工作進(jìn)行語(yǔ)義分割。分割網(wǎng)絡(luò)對(duì)圖像像素進(jìn)行分類，輸出像素點(diǎn)類別的可能性；邊緣網(wǎng)絡(luò)利用分割網(wǎng)絡(luò)的中間特征作為輸入，來(lái)學(xué)習(xí)和邊緣相關(guān)的特征，判斷像素點(diǎn)是否為邊緣。接著，在網(wǎng)絡(luò)的頂層，將分割特征和邊緣特征融合在一起，提升模型的識(shí)別能力。

2.1 分割網(wǎng)絡(luò)

分割網(wǎng)絡(luò)是用于語(yǔ)義分割的深度卷積神經(jīng)網(wǎng)絡(luò)，以高度H、寬度W的圖像為輸入，提取圖像的分割特征，輸出同樣大小的密集特征預(yù)測(cè)圖。分割網(wǎng)絡(luò)可以是任意前饋的全卷積網(wǎng)絡(luò)，如FCNs[6]、SegNet[33]或Deeplab[34]。為了兼顧效果和模型參數(shù)的平衡，本文選擇SegNet作為分割網(wǎng)絡(luò)。

分割網(wǎng)絡(luò)由兩部分組成:編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)。編碼網(wǎng)絡(luò)由一系列卷積層和池化層構(gòu)成，卷積層負(fù)責(zé)獲取圖像的局部特征，池化層負(fù)責(zé)對(duì)圖像進(jìn)行下采樣。隨著網(wǎng)絡(luò)的深入，獲得的特征圖包含更多的高層次語(yǔ)義信息，但空間分辨率也不斷下降。為了克服這一問(wèn)題，SegNet在編碼網(wǎng)絡(luò)的基礎(chǔ)上增加了一個(gè)解碼網(wǎng)絡(luò)，用于恢復(fù)特征的分辨率。解碼網(wǎng)絡(luò)的設(shè)計(jì)類似于編碼網(wǎng)絡(luò)的鏡像版本，它使用上采樣操作替代池化層擴(kuò)大分辨率，以復(fù)原物體的幾何形狀，彌補(bǔ)編碼網(wǎng)絡(luò)中下采樣造成的細(xì)節(jié)損失，獲得更精細(xì)的特征圖。編碼網(wǎng)絡(luò)中有5組卷積層，與VGG-16[35]網(wǎng)絡(luò)中的13個(gè)卷積層相同。在每組卷積層后，都使用BN(Batch Normalization)和RELU(Rectified Linear Units)來(lái)加速訓(xùn)練。接下來(lái)是大小為2×2，步長(zhǎng)為2的最大池化層來(lái)實(shí)現(xiàn)平移不變性。在解碼網(wǎng)絡(luò)中，使用了與編碼網(wǎng)絡(luò)中對(duì)稱的卷積層，并用上采樣操作替代最大池化層。

2.2 邊緣網(wǎng)絡(luò)

由于高層次特征圖的空間分辨率損失，語(yǔ)義分割的結(jié)果可能會(huì)在邊緣附近包含錯(cuò)誤的分類。本文提出了一個(gè)雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架，擴(kuò)展了一個(gè)特殊的分支來(lái)處理邊緣相關(guān)信息。邊緣網(wǎng)絡(luò)以分割網(wǎng)絡(luò)的中間層次特征作為輸入，生成語(yǔ)義邊緣作為輸出。

邊緣網(wǎng)絡(luò)由少量殘差塊[36]和卷積核大小為1×1的卷積層構(gòu)成。具體地說(shuō)，邊緣網(wǎng)絡(luò)從分割網(wǎng)絡(luò)中編碼網(wǎng)絡(luò)的第一和第二組卷積中獲得兩個(gè)特征作為輸入，從解碼網(wǎng)絡(luò)對(duì)稱地獲得另外兩個(gè)特征作為輸入。為了保持邊緣特征分辨率的一致，將這些特征通過(guò)線性插值恢復(fù)到與輸入圖像分辨率相同。低層特征包含更多的局部細(xì)節(jié)，從編碼網(wǎng)絡(luò)提?。桓邔犹卣靼嗟恼Z(yǔ)義信息，從解碼網(wǎng)絡(luò)提取。通過(guò)殘差塊構(gòu)成的邊緣網(wǎng)絡(luò)來(lái)學(xué)習(xí)這些中間特征中語(yǔ)義邊緣信息，提取邊緣特征。殘差結(jié)構(gòu)具有很強(qiáng)的學(xué)習(xí)能力，適合在深度網(wǎng)絡(luò)中使用。卷積核大小為1×1的卷積層被插入分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)之間。它能將兩個(gè)網(wǎng)絡(luò)連接起來(lái)，使整個(gè)模型更加靈活，并讓分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)更專注于它們各自的任務(wù)。同時(shí)，它也能降低中間特征的維數(shù)，減少內(nèi)存消耗，加快訓(xùn)練過(guò)程。兩種殘差塊如圖2所示。

圖2 兩種殘差塊結(jié)構(gòu)圖Fig.2 The architecture of residual block

殘差塊由卷積層和恒等映射組成，可定義為

式中：xl和xl+1分別是殘差塊的輸入和輸出，F(xiàn)(xl,wl)表示需要學(xué)習(xí)的殘差映射。殘差塊有兩層恒等殘差和性能更強(qiáng)大的三層恒等殘差兩種結(jié)構(gòu)。殘差結(jié)構(gòu)解決了深度網(wǎng)絡(luò)中的退化問(wèn)題，很適合在本框架中提取邊緣特征。為了減少計(jì)算量，與分割網(wǎng)絡(luò)適應(yīng)，本文選擇兩層恒等殘差塊。圖3為雙路網(wǎng)絡(luò)的結(jié)構(gòu)圖，分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)并行學(xué)習(xí)輸入圖片的特征信息，并在網(wǎng)絡(luò)的頂層融合分割特征和邊緣特征，將其輸入一系列卷積層以產(chǎn)生最終的預(yù)測(cè)結(jié)果。

圖3 雙路網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Architecture of the proposed two-way model

3 多任務(wù)學(xué)習(xí)和正則化

雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架可以實(shí)現(xiàn)端到端的訓(xùn)練，分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)并行地分別學(xué)習(xí)分割特征和邊緣特征。一方面，多任務(wù)學(xué)習(xí)框架有助于優(yōu)化分割模型，另一方面，可以通過(guò)兩個(gè)網(wǎng)絡(luò)的融合，利用邊緣網(wǎng)絡(luò)的輸出進(jìn)一步提高整個(gè)模型的性能。

在訓(xùn)練過(guò)程中，多任務(wù)學(xué)習(xí)框架可以同時(shí)監(jiān)督分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)的預(yù)測(cè)特征。這里，邊緣特征是指圖像中目標(biāo)邊緣的二值表示。本文利用交叉熵?fù)p失函數(shù)來(lái)訓(xùn)練分割網(wǎng)絡(luò)，其定義為

式中：li是點(diǎn)i的標(biāo)簽，pk,i是點(diǎn)i屬于第k類的輸出概率，K是總的類別數(shù)量，σ(·)是一個(gè)指示函數(shù)，當(dāng)li=k時(shí)為1，否則為0。θseg是分割網(wǎng)絡(luò)的參數(shù)集合，N是一幅圖像中所有像素點(diǎn)的數(shù)量。

同時(shí)，本文使用標(biāo)準(zhǔn)的二值交叉熵函數(shù)作為邊緣網(wǎng)絡(luò)的損失函數(shù)，監(jiān)督邊緣網(wǎng)絡(luò)的訓(xùn)練，其定義為

式中：yi是點(diǎn)i是否為邊緣的真實(shí)標(biāo)簽，表示點(diǎn)i屬于第c類的概率。C是所有標(biāo)簽類別的總數(shù)，在邊緣檢測(cè)中大小為2。θedg是邊緣網(wǎng)絡(luò)的參數(shù)集合，邊緣損失函數(shù)可以同時(shí)監(jiān)督更新分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)的參數(shù)。本文在真實(shí)的分割標(biāo)簽中產(chǎn)生遙感圖像邊緣標(biāo)簽[37-38]，并把原始圖像、分割標(biāo)簽和邊緣標(biāo)簽放入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。在網(wǎng)絡(luò)頂部，可以得到分割特征圖和邊緣特征圖作為輸出。

在多任務(wù)學(xué)習(xí)的情況下，為了進(jìn)一步提高整個(gè)模型的性能，用邊緣特征細(xì)化分割特征，使預(yù)測(cè)結(jié)果在邊緣更加清晰，本文引入了一種正則化方法來(lái)實(shí)現(xiàn)分割特征和邊緣特征的融合。類似于Takikawa等的方法[39]，本文希望預(yù)測(cè)邊緣與真實(shí)邊緣不符合時(shí)受到懲罰，并且避免邊緣像素主導(dǎo)損失函數(shù)。因此引入

式中：ζ代表某個(gè)特定像素是否屬于語(yǔ)義邊緣，它是對(duì)輸出的分割特征圖取空間導(dǎo)數(shù)計(jì)算出來(lái)的。是用同樣方式從真實(shí)分割標(biāo)簽中計(jì)算出的真實(shí)邊緣掩碼。p+是所有非零像素點(diǎn)的集合。

同樣，本文也希望二進(jìn)制邊緣預(yù)測(cè)s和預(yù)測(cè)的分割特征p(y|r,s)保持一致：

式中：p和k分別代表所有的圖像像素點(diǎn)和語(yǔ)義類。1s={1:s>thrs}對(duì)應(yīng)了一個(gè)指示函數(shù)，thrs是置信度閾值。將整個(gè)模型的最終損失函數(shù)定義為

式中：λ是用于調(diào)整不同損失函數(shù)之間相對(duì)權(quán)重的超參數(shù)。該損失函數(shù)用于監(jiān)督更新整個(gè)模型的所有參數(shù)。

4 實(shí)驗(yàn)結(jié)果

在本節(jié)中，將對(duì)雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架進(jìn)行評(píng)估。為了驗(yàn)證本文所提出方法的有效性，本文在ISPRS Potsdam 數(shù)據(jù)集和 ISPRSVaihingen 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，數(shù)據(jù)集分別拍攝于德國(guó)的 Potsdam 市和 Vaihingen 市，包含了多張高分辨率的航拍遙感圖片。本文將雙路網(wǎng)絡(luò)模型與多個(gè)經(jīng)典的語(yǔ)義分割模型在不同評(píng)價(jià)指標(biāo)上進(jìn)行比較。

4.1 對(duì)比方法

為了驗(yàn)證雙路網(wǎng)絡(luò)模型的性能，本文將與多個(gè)語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行對(duì)比：

(1)FCNs：FCNs是經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò)，它將傳統(tǒng)CNN中的全連接層轉(zhuǎn)化為多個(gè)卷積層，實(shí)現(xiàn)了網(wǎng)絡(luò)端到端的訓(xùn)練。

(2)SegNet：首次提出使用對(duì)稱的編碼器和解碼器結(jié)構(gòu)網(wǎng)絡(luò)進(jìn)行語(yǔ)義分割。

(3)PSPNet：使用金字塔池化結(jié)構(gòu)，該結(jié)構(gòu)能夠聚合不同區(qū)域的上下文信息進(jìn)行語(yǔ)義分割。

(4)DeeplabV3：提出空洞空間金字塔結(jié)構(gòu)，能夠獲取不同尺度目標(biāo)的特征。

4.2 數(shù)據(jù)集

ISPRS Potsdam Dataset:Potsdam是一個(gè)典型的歷史城市，數(shù)據(jù)集由38張遙感圖片組成，地面采樣距離為5 cm。圖像大小為6 000×6 000，包含 IRRG圖像、IRGB圖像和NDSM圖像。實(shí)驗(yàn)使用8張高分辨率遙感圖像進(jìn)行訓(xùn)練，1張高分辨率遙感圖像進(jìn)行測(cè)試。數(shù)據(jù)集中定義了6個(gè)類別，分別為不透水的表面(白色)、建筑(藍(lán)色)、低植被(青色)、樹(shù)(綠色)、汽車(黃色)、背景(紅色)。實(shí)驗(yàn)沒(méi)有使用NDSM圖像和DSM圖像。

ISPRS Vaihingen Dataset：Vaihingen市是一個(gè)規(guī)模較小的城市，數(shù)據(jù)集由33張遙感圖片組成,地面采樣距離為9 cm。圖像的平均大小為2 494×2 064，包含IRRG圖像、IRGB圖像和DSM圖像。實(shí)驗(yàn)使用10張圖像作為訓(xùn)練集，3張圖像作為驗(yàn)證集。

4.3 評(píng)價(jià)指標(biāo)

為了評(píng)估模型的效果，本文使用3個(gè)評(píng)價(jià)指標(biāo)，Precision、IoU(Intersection over union)和F1-score。

式中：TP為真正例，代表正樣本預(yù)測(cè)結(jié)果為正確的數(shù)目；FP為假正例，代表負(fù)樣本被預(yù)測(cè)為正樣本的數(shù)量；FN為假負(fù)例，代表正樣本被預(yù)測(cè)為負(fù)樣本的數(shù)量。β是精確率和召回率之間的權(quán)重，設(shè)置為1。對(duì)于數(shù)據(jù)集中的6個(gè)類別，本文使用各不同指標(biāo)的平均值進(jìn)行比較，分別記為mIoU，mprecision，mF1-score。

4.4 實(shí)驗(yàn)細(xì)節(jié)

雙路網(wǎng)絡(luò)是基于Pytorch框架實(shí)現(xiàn)的。在數(shù)據(jù)預(yù)處理中，使用256×256的滑動(dòng)窗口對(duì)原始的遙感圖像進(jìn)行隨機(jī)裁剪，生成大小為8 000張圖片的訓(xùn)練集，并通過(guò)隨機(jī)的旋轉(zhuǎn)、翻轉(zhuǎn)和添加噪聲等方法對(duì)訓(xùn)練集中的部分樣本進(jìn)行了數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)使用NVIDIA Tesla P100顯卡訓(xùn)練網(wǎng)絡(luò)模型，批次大小為16并進(jìn)行同步的批歸一化。初始學(xué)習(xí)率為0.01，采用多項(xiàng)式衰減。損失函數(shù)如式(6)所示，其中 λ1為 1，λ2為150，λ3為1，λ4為1，雙路網(wǎng)絡(luò)在440輪訓(xùn)練得到最佳結(jié)果。

4.5 定量比較

在表1中，提供了雙路網(wǎng)絡(luò)模型在Potsdam數(shù)據(jù)集上與FCNs、SegNet、PSPNet、DeeplabV3等語(yǔ)義分割網(wǎng)絡(luò)模型的定量比較。從最終結(jié)果來(lái)看，雙路網(wǎng)絡(luò)在mIoU、mF1-score和mprecision等指標(biāo)上均取得優(yōu)異的表現(xiàn)，高于其他的語(yǔ)義分割網(wǎng)絡(luò)。對(duì)比基線模型SegNet，在增加邊緣網(wǎng)絡(luò)這一分支后，雙路網(wǎng)絡(luò)模型在mIoU評(píng)價(jià)標(biāo)準(zhǔn)上取得6%的提升，在mF1-score評(píng)價(jià)標(biāo)準(zhǔn)上取得5%的提升。對(duì)比其他網(wǎng)絡(luò)模型，以ResNet-34為基礎(chǔ)網(wǎng)絡(luò)的PSPNet性能僅次于雙路網(wǎng)絡(luò)模型。雙路網(wǎng)絡(luò)模型在mIoU評(píng)價(jià)標(biāo)準(zhǔn)上取得3%的提升，在mF1-score評(píng)價(jià)標(biāo)準(zhǔn)上取得2%的提升，這說(shuō)明，對(duì)比層次更深的神經(jīng)網(wǎng)絡(luò)模型，雙路網(wǎng)絡(luò)模型在網(wǎng)絡(luò)中增加邊緣特征后，也能有更加優(yōu)異的表現(xiàn)。

表1 在Potsdam數(shù)據(jù)集上對(duì)比結(jié)果Table 1 Comparison results on the Potsdam dataset

在表2中，提供了雙路網(wǎng)絡(luò)模型在Vaihingen數(shù)據(jù)集上與不同語(yǔ)義分割網(wǎng)絡(luò)模型的定量比較。與基線網(wǎng)絡(luò)SegNet比較，雙路網(wǎng)絡(luò)在mIoU、mF1-score和mprecision 3個(gè)指標(biāo)上均取得2%左右的提升。對(duì)比層次更深、模型更加復(fù)雜的PSPNet和DeeplabV3，雙路網(wǎng)絡(luò)也表現(xiàn)表現(xiàn)優(yōu)異。除在mF1-score指標(biāo)上雙路網(wǎng)絡(luò)較PSPNet略低外，其余兩個(gè)指標(biāo)均高于PSPNet，其中，在mIoU上提升2%左右。

表2 在Vaihingen數(shù)據(jù)集上對(duì)比結(jié)果Table 2 Comparison results on the Vaihingen dataset

表3展示了雙路網(wǎng)絡(luò)與其他語(yǔ)義分割網(wǎng)絡(luò)在Potsdam數(shù)據(jù)集上對(duì)于不同類別IoU指標(biāo)的比較。從表中的結(jié)果可以看出，雙路網(wǎng)絡(luò)模型在不同類別的IoU指標(biāo)上均取得了領(lǐng)先的效果。表4展示了對(duì)于雙路網(wǎng)絡(luò)中損失函數(shù)，不同的超參數(shù) λ2對(duì)于模型性能的影響。在 λ2為150時(shí)，雙路模型在Vaihingen數(shù)據(jù)集上取得最佳的效果，mIoU指標(biāo)最高，而隨著 λ2增大，模型性能有所下降。

表3 不同網(wǎng)絡(luò)模型在Potsdam數(shù)據(jù)集上對(duì)IoU的對(duì)比結(jié)果Table 3 Comparison in terms of IoU on the Potsdam dataset %

表4 不同λ2在Vaihingen數(shù)據(jù)集上對(duì)IoU的對(duì)比結(jié)果Table 4 Comparison in terms of different λ2 on the Vaihingen dataset %

表5對(duì)比了雙路網(wǎng)絡(luò)與基線網(wǎng)絡(luò)SegNet的模型參數(shù)量與單張圖片的GFLOPs(Giga Floating Point Operations Per Second)，也就是每秒10億次的浮點(diǎn)運(yùn)算數(shù)。與SegNet相比，雙路網(wǎng)絡(luò)只增加了少量殘差塊和卷積層，模型參數(shù)增加較少，只增加了0.52 M。但是由于增加了一個(gè)旁路網(wǎng)絡(luò)，計(jì)算量增加較大，運(yùn)行時(shí)間較基線模型增加了一半左右。

表5 雙路網(wǎng)絡(luò)與SegNet參數(shù)和計(jì)算量比較Table 5 Comparison in terms of parameters and calculation between two-way Network and SegNet

在Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集上，本文將雙路網(wǎng)絡(luò)與多個(gè)語(yǔ)義分割模型在不同指標(biāo)上進(jìn)行了對(duì)比。從結(jié)果可以看出，雙路網(wǎng)絡(luò)均取得了領(lǐng)先的效果。雙路網(wǎng)絡(luò)模型，在原有的分割網(wǎng)絡(luò)基礎(chǔ)上，增加了一路邊緣網(wǎng)絡(luò)，使網(wǎng)絡(luò)在學(xué)習(xí)分割特征的同時(shí)學(xué)習(xí)邊緣特征，并對(duì)邊緣特征和分割特征進(jìn)行融合，用邊緣特征細(xì)化分割特征，提升網(wǎng)絡(luò)對(duì)邊緣的識(shí)別能力。在網(wǎng)絡(luò)中注入邊緣特征信息后，雙路網(wǎng)絡(luò)模型取得了更好的性能，得到了更好的語(yǔ)義分割結(jié)果，實(shí)驗(yàn)結(jié)果證明了雙路網(wǎng)絡(luò)的有效性。

4.6 定性比較

圖4展示了雙路網(wǎng)絡(luò)模型對(duì)圖像物體邊緣的識(shí)別結(jié)果。從左至右依次為遙感圖像、分割標(biāo)簽、邊緣標(biāo)簽和雙路網(wǎng)絡(luò)的邊緣輸出。從圖中可以看出，雙路網(wǎng)絡(luò)學(xué)習(xí)到了圖像的邊緣特征信息，對(duì)遙感圖像中不同類別目標(biāo)間的輪廓有個(gè)大致的區(qū)分，尤其對(duì)于圖像中的小目標(biāo)，如汽車、道路的邊緣都有清晰的劃分。圖5對(duì)比了雙路網(wǎng)絡(luò)模型與基線網(wǎng)絡(luò)SegNet分割效果。從左至右依次為遙感圖像、分割標(biāo)簽、SegNet網(wǎng)絡(luò)和雙路網(wǎng)絡(luò)的分割結(jié)果。從圖中可以看出，對(duì)比基線網(wǎng)絡(luò)，雙路網(wǎng)絡(luò)模型在不同類別的邊緣處分割效果更好，誤分類更少。就遙感圖像中的小目標(biāo)汽車類來(lái)說(shuō)，SegNet對(duì)該類的分割劃分模糊，有些輸出結(jié)果中汽車連接在一起；而雙路網(wǎng)絡(luò)的輸出中，汽車的輪廓被分割的更加清晰，分割效果更好?？梢钥闯?，邊緣特征的學(xué)習(xí)，有助于網(wǎng)絡(luò)對(duì)高分辨率遙感圖像的分割，提升了雙路網(wǎng)絡(luò)模型的性能。

圖4 邊緣檢測(cè)結(jié)果圖Fig.4 Visual comparison of edge detection results

圖5 分割結(jié)果比較圖Fig.5 Visual comparison of segmentation results

5 結(jié)語(yǔ)

本文提出了一種用于高分辨率遙感圖像的密集像素預(yù)測(cè)的雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架。在原有語(yǔ)義分割網(wǎng)絡(luò)模型的基礎(chǔ)上，增加了一個(gè)專門(mén)用于提取圖像邊緣特征的邊緣網(wǎng)絡(luò)與分割網(wǎng)絡(luò)組成一個(gè)統(tǒng)一的雙路網(wǎng)絡(luò)。本文使用SegNet作為基線網(wǎng)絡(luò)，并在ISPRS Potsdam數(shù)據(jù)集和ISPRSVaihingen數(shù)據(jù)集上與多個(gè)語(yǔ)義分割模型對(duì)比驗(yàn)證雙路網(wǎng)絡(luò)模型的性能，證明了該模型在高分辨率遙感圖像語(yǔ)義分割領(lǐng)域的有效性。在未來(lái)，可以探索基于更深層次卷積神經(jīng)網(wǎng)絡(luò)的雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架，研究更好的融合網(wǎng)絡(luò)去融合邊緣特征與分割特征。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡