沈秭揚(yáng),倪 歡,管海燕
南京信息工程大學(xué)遙感與測(cè)繪工程學(xué)院,江蘇 南京 210044
地物分類(lèi)(語(yǔ)義分割)是遙感地學(xué)分析的基礎(chǔ),得到了廣泛研究。這些研究引入經(jīng)典的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)技術(shù),推動(dòng)了遙感圖像語(yǔ)義分割的自動(dòng)化和實(shí)用化。經(jīng)典的機(jī)器學(xué)習(xí)方法,如支持向量機(jī)[1]、人工神經(jīng)網(wǎng)絡(luò)[2]、決策樹(shù)[3]、隨機(jī)森林[4]及自適應(yīng)增強(qiáng)[5]等,難以建模深層特征空間的語(yǔ)義信息,難以在遙感圖像語(yǔ)義分割任務(wù)中取得精度突破。深度學(xué)習(xí)方法,如卷積神經(jīng)網(wǎng)絡(luò)[6-7]、圖卷積網(wǎng)絡(luò)[8]、Transformer[9]及多模態(tài)融合[10]等,有效建模高層次語(yǔ)義信息,進(jìn)一步提高了遙感圖像語(yǔ)義分割精度。但是,深度學(xué)習(xí)模型要求用于訓(xùn)練的源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)間服從同一分布。在成像傳感器和地理環(huán)境不同時(shí),同分布要求無(wú)法滿(mǎn)足,即源域和目標(biāo)域之間存在域偏移,阻礙了深度學(xué)習(xí)模型的泛化能力。如圖1所示,直接將訓(xùn)練好的模型應(yīng)用于存在域偏移的目標(biāo)域數(shù)據(jù)集上,難以取得預(yù)期結(jié)果[11]。因此,如何將模型遷移到存在域偏移的目標(biāo)域數(shù)據(jù)集上,是當(dāng)前遙感領(lǐng)域需要解決的重要問(wèn)題[12]。
圖1 源域模型在源域和目標(biāo)域的分割結(jié)果對(duì)比Fig.1 The comparison between segmentation results produced by source-domain model in source and target domains
目前,無(wú)監(jiān)督域自適應(yīng)是解決域偏移問(wèn)題的有效方法,僅利用源域標(biāo)簽進(jìn)行訓(xùn)練,便可得到適用于目標(biāo)域的語(yǔ)義分割模型。無(wú)監(jiān)督域自適應(yīng)方法分為兩大類(lèi)[13],即基于差異測(cè)度和基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial nets,GAN)[14]的方法?;诓町悳y(cè)度的方法通過(guò)不同測(cè)度,如MMD(maximum mean discrepancy)[15-16]、CORAL(correlation alignment)[17-18]及CMD(central moment discrepancy)[19]等,來(lái)衡量源域和目標(biāo)域之間的差異,進(jìn)而實(shí)現(xiàn)差異最小化?;贕AN的方法根據(jù)應(yīng)用方式的不同,又可分為兩個(gè)子類(lèi)。第1類(lèi)利用GAN的重構(gòu)能力,如通過(guò)CycleGAN[20]、ColorMap GAN[21]和ResiDualGAN[22]等方法對(duì)源域圖像進(jìn)行風(fēng)格轉(zhuǎn)換,并對(duì)轉(zhuǎn)換后的源域圖像進(jìn)行監(jiān)督訓(xùn)練,從而緩解域偏移問(wèn)題;第2類(lèi)則使用GAN在特征[23]或輸出[24]空間進(jìn)行對(duì)抗學(xué)習(xí),并引入實(shí)例[25]和類(lèi)別[26-27]信息,提取穩(wěn)健的域不變特征?;贕AN的方法在遙感圖像語(yǔ)義分割域自適應(yīng)任務(wù)中應(yīng)用更為廣泛,但由于對(duì)抗學(xué)習(xí)過(guò)程的復(fù)雜性,GAN難以同時(shí)拓展到多個(gè)空間?;诖?本文舍棄GAN思想,采用基于差異測(cè)度的方法,引入最優(yōu)傳輸理論,從數(shù)學(xué)角度構(gòu)建源域和目標(biāo)域?qū)R途徑,并充分利用圖像、特征和輸出空間信息。
基于最優(yōu)傳輸理論的域自適應(yīng)思想通過(guò)減小域間的Wasserstein距離來(lái)對(duì)齊源域和目標(biāo)域分布[28]。該思想首先利用最優(yōu)傳輸,根據(jù)目標(biāo)域特征遷移源域圖像,然后對(duì)遷移后的源域圖像進(jìn)行監(jiān)督學(xué)習(xí),并引入?yún)⒖挤植糩29]、空間原型信息[30]和注意力機(jī)制[31],提高跨域泛化能力。通過(guò)最優(yōu)傳輸與域自適應(yīng)理論的結(jié)合,模型能夠以一種合理的幾何方式衡量源域和目標(biāo)域的特征分布差異[32-33]。但是,目前基于最優(yōu)傳輸?shù)挠蜃赃m應(yīng)方法主要面向自然圖像分類(lèi)任務(wù),即每一張圖像僅對(duì)應(yīng)一個(gè)標(biāo)簽,尚無(wú)法充分顧及高分遙感圖像語(yǔ)義分割任務(wù)需求。為彌補(bǔ)以上問(wèn)題,本文基于最優(yōu)傳輸理論,提出一種顧及多空間分布對(duì)齊的全局域自適應(yīng)方法,以解決高分遙感圖像語(yǔ)義分割的域偏移問(wèn)題。本文方法的核心即在圖像空間、特征空間和輸出空間,利用最優(yōu)傳輸理論來(lái)減輕源域和目標(biāo)域的分布差異。本文的創(chuàng)新點(diǎn)如下:①將最優(yōu)傳輸理論引入遙感圖像語(yǔ)義分割域自適應(yīng)任務(wù),給出了整合最優(yōu)傳輸與語(yǔ)義分割域自適應(yīng)框架的具體方案;②構(gòu)建了一種基于最優(yōu)傳輸?shù)娜钟蜃赃m應(yīng)模型,與現(xiàn)有方法相比,進(jìn)一步減弱了域偏移影響,取得了更高精度。
本文方法具體分為3個(gè)部分:圖像空間風(fēng)格遷移、特征空間和輸出空間對(duì)齊。方法的整體框架如圖2所示,首先在圖像空間計(jì)算源域圖像和目標(biāo)域圖像之間的最優(yōu)傳輸矩陣,利用最優(yōu)傳輸矩陣將源域圖像風(fēng)格轉(zhuǎn)換至目標(biāo)域;其次將轉(zhuǎn)換后的源域圖像、目標(biāo)域圖像輸入語(yǔ)義分割網(wǎng)絡(luò),同時(shí)獲取源域和目標(biāo)域的深度特征(對(duì)應(yīng)特征空間)和模型預(yù)測(cè)(對(duì)應(yīng)輸出空間);再次計(jì)算源域和目標(biāo)域特征空間Wasserstein距離(earth mover distance,EMD),作為特征空間損失;然后在輸出空間計(jì)算源域和目標(biāo)域之間的EMD,作為輸出空間損失;同時(shí)為保證模型穩(wěn)定性,將源域輸出空間結(jié)果進(jìn)行上采樣,作為源域預(yù)測(cè)結(jié)果,利用源域標(biāo)簽計(jì)算交叉熵?fù)p失,實(shí)現(xiàn)源域監(jiān)督學(xué)習(xí);最后將訓(xùn)練好的模型應(yīng)用于目標(biāo)域圖像,以完成目標(biāo)域語(yǔ)義分割。
注:OT為最優(yōu)傳輸;Lossfeature為特征空間損失;Lossoutput為輸出空間損失;Lossseg為語(yǔ)義分割損失。圖2 本文方法框架Fig.2 Framework of the proposed method
本文采用基于ResNet101[34]的DeepLab-V2框架作為語(yǔ)義分割網(wǎng)絡(luò),并遵循文獻(xiàn)[24]的做法,移除最后一個(gè)分類(lèi)層,將最后兩個(gè)卷積層的步長(zhǎng)從2修改為1,使得輸出特征的尺寸是輸入圖像的1/8;網(wǎng)絡(luò)在最后兩個(gè)卷積層中應(yīng)用擴(kuò)張卷積以增大感受野,其步長(zhǎng)分別為2和4;在特征提取后,使用ASPP(atrous spatial pyramid pooling)[35]作為最終預(yù)測(cè)層。
最優(yōu)傳輸[36]理論可以找到從一個(gè)分布ds(如源域分布)至另一個(gè)分布dt(如目標(biāo)域分布)的最優(yōu)映射方案。具體而言,最優(yōu)傳輸在ds和dt之間搜索一個(gè)具有最小傳輸成本的概率耦合γ∈Π(ds,dt),如式(1)所示
(1)
式中,c是成本函數(shù),可以用來(lái)衡量源域樣本xs和目標(biāo)域樣本xt之間的差異。Tds,dt可以進(jìn)一步定義ds和dt之間的p階Wasserstein距離,具體為
(2)
式中,d(xs,xt)p是一種距離度量,對(duì)應(yīng)式(1)中的成本函數(shù)c(xs,xt)。Wasserstein距離在計(jì)算機(jī)視覺(jué)領(lǐng)域也被稱(chēng)為EMD[37]。
在本文的域自適應(yīng)問(wèn)題中,源域和目標(biāo)域的分布ds和dt只能通過(guò)離散樣本獲取,故離散化后的最優(yōu)傳輸公式為
(3)
T(xs)=(xs-μs)·A+μt
(4)
式中,A為傳輸矩陣;xs和xt分別表示源域和目標(biāo)域樣本。值得注意的是,可行傳輸矩陣A的結(jié)果不唯一,但最優(yōu)可行解,即最優(yōu)傳輸矩陣不存在多個(gè)解[38]。通過(guò)最優(yōu)傳輸可以找到一個(gè)最優(yōu)的映射T來(lái)最小化源域和目標(biāo)域分布之間的距離,即
(5)
式中,c的含義和式(1)中的含義一致,即成本函數(shù),本文采用歐氏距離形式。式(5)對(duì)應(yīng)的最優(yōu)傳輸矩陣為
(6)
圖像空間最優(yōu)傳輸?shù)木唧w步驟如下:
(1) 統(tǒng)計(jì)源域和目標(biāo)域圖像色彩空間分布直方圖,獲取源域和目標(biāo)域色彩分布參數(shù)μs、Σs、μt、Σt;
(2) 根據(jù)式(6),計(jì)算最優(yōu)傳輸矩陣A;
(3) 利用式(4)對(duì)源域圖像xs進(jìn)行轉(zhuǎn)換,得到具備目標(biāo)域色彩風(fēng)格的源域圖像T(xs),如圖2圖像空間部分所示。
文獻(xiàn)[33]提出DeepJDOT方法,最早將JDOT[32]引入深度學(xué)習(xí)域自適應(yīng)任務(wù)。但是,該方法僅在特征空間進(jìn)行最優(yōu)傳輸,且僅可以應(yīng)用于圖像分類(lèi)任務(wù)。在語(yǔ)義分割任務(wù)中,所需傳輸?shù)臉颖緮?shù)量遠(yuǎn)大于圖像分類(lèi)任務(wù),直接將DeepJDOT應(yīng)用于語(yǔ)義分割任務(wù)是不現(xiàn)實(shí)的。若降低輸入圖像尺寸,則會(huì)增加特征空間匹配難度,導(dǎo)致源域和目標(biāo)域特征錯(cuò)誤匹配、傳輸,降低整體域自適應(yīng)效果。
針對(duì)上述問(wèn)題,本文提出了以下解決方案:①在不降低輸入圖像尺寸的情況下,在特征空間進(jìn)行下采樣,進(jìn)一步壓縮需要匹配的樣本數(shù)量,在保證特征能夠成功匹配的情況下降低最優(yōu)傳輸計(jì)算量;②在輸出空間進(jìn)行最優(yōu)傳輸,通過(guò)輸出空間類(lèi)別邊緣分布保證源域和目標(biāo)域?qū)R。
特征空間和輸出空間的優(yōu)化過(guò)程為
(7)
1.3.1 特征空間最優(yōu)傳輸
在特征空間,本文采用L2距離衡量源域和目標(biāo)域特征之間的差異,即
(8)
進(jìn)而,特征空間的損失函數(shù)為
(9)
1.3.2 輸出空間最優(yōu)傳輸
輸出空間包含重要的類(lèi)別分布信息,通過(guò)輸出空間對(duì)齊,可以減弱源域和目標(biāo)域的類(lèi)別分布差異。具體而言,本文采用L2距離衡量源域和目標(biāo)域輸出空間距離,即
(10)
進(jìn)而,輸出空間的損失函數(shù)為
(11)
為了保證所提出方法的基礎(chǔ)性能,本文添加源域監(jiān)督學(xué)習(xí)過(guò)程,即根據(jù)源域圖像的預(yù)測(cè)結(jié)果和其對(duì)應(yīng)的標(biāo)簽信息,計(jì)算交叉熵?fù)p失,具體為
(12)
結(jié)合特征空間與輸出空間的損失函數(shù),整體模型優(yōu)化損失為
Loss=Lossseg+β1Lossfeature+β2Lossoutput
(13)
式中,β1、β2為特征空間和輸出空間最優(yōu)傳輸損失的控制參數(shù)。默認(rèn)設(shè)置為β1=0.01,β2=0.01。
需要說(shuō)明的是,圖像空間風(fēng)格遷移,特征空間、輸出空間最優(yōu)傳輸,源域監(jiān)督學(xué)習(xí)的損失函數(shù)計(jì)算可以在同一次訓(xùn)練中進(jìn)行;即本文方法不需要單獨(dú)訓(xùn)練源域模型,域自適應(yīng)過(guò)程與源域監(jiān)督學(xué)習(xí)可以同步進(jìn)行,有效減少了人工干涉,縮短了訓(xùn)練時(shí)間,進(jìn)一步提高了模型自動(dòng)化能力。
本文使用國(guó)際攝影測(cè)量與遙感學(xué)會(huì)(ISPRS)所提供的兩個(gè)高分航空遙感數(shù)據(jù)集,即Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集。其中Potsdam數(shù)據(jù)集由38張6000×6000像素圖像組成,分辨率為0.05 m,包括IRRG和RGB兩種波段組合;涵蓋6個(gè)常見(jiàn)地物類(lèi)別,即不透水層、車(chē)輛、樹(shù)木、低矮植被、建筑物和背景。Vaihingen數(shù)據(jù)集由33張大小不一的圖像構(gòu)成,圖像平均大小為2000×2000像素,分辨率為0.09 m,具備與Potsdam數(shù)據(jù)集相同的地物類(lèi)別體系,但僅有IRRG波段組合。如圖3所示,Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集在圖像色彩、地物外觀(guān)及尺度上均存在較大差異,這為跨域語(yǔ)義分割任務(wù)帶來(lái)了挑戰(zhàn)。為定量評(píng)估方法性能,本文使用當(dāng)前主流的交并比(intersection over union,IoU)指數(shù)來(lái)評(píng)估各類(lèi)別分割精度。同時(shí),本文引入所有類(lèi)別的IoU精度平均值(mean intersection over union,mIoU),以衡量模型的整體性能。
圖3 ISPRS Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集Fig.3 ISPRS Potsdam datasets and Vaihingen datasets
為了充分驗(yàn)證所提出方法有效性,本文對(duì)Potsdam數(shù)據(jù)集IRRG→Vaihingen數(shù)據(jù)集IRRG、Vaihingen數(shù)據(jù)集IRRG→Potsdam數(shù)據(jù)集IRRG、Potsdam數(shù)據(jù)集RGB→Vaihingen數(shù)據(jù)集IRRG、Vaihingen數(shù)據(jù)集IRRG→Potsdam數(shù)據(jù)集RGB這4組跨域場(chǎng)景進(jìn)行試驗(yàn)。試驗(yàn)使用Pytorch框架和單個(gè)NVIDIA GTX 2080Ti顯卡進(jìn)行訓(xùn)練,并使用動(dòng)量為0.9、權(quán)重衰減為5×10-4的SGD算法優(yōu)化網(wǎng)絡(luò)。試驗(yàn)初始學(xué)習(xí)率lr設(shè)置為5×10-4,并以0.9的冪進(jìn)行多項(xiàng)式衰減
(14)
式中,iter為迭代次數(shù);max_iter是最大迭代次數(shù);max_iter設(shè)置為50 000。訓(xùn)練時(shí),模型隨機(jī)裁切源域圖像為1000×1000像素的圖像塊進(jìn)行訓(xùn)練,并隨機(jī)進(jìn)行圖像豎直翻轉(zhuǎn)和水平翻轉(zhuǎn)等增強(qiáng)處理;測(cè)試時(shí)使用1000×1000像素的滑動(dòng)窗口進(jìn)行整幅圖像預(yù)測(cè)。
關(guān)于超參數(shù)β1和β2的設(shè)置,本文通過(guò)Potsdam數(shù)據(jù)集IRRG→Vaihingen數(shù)據(jù)集IRRG的試驗(yàn)進(jìn)行了驗(yàn)證。β1和β2代表特征空間和輸出空間最優(yōu)傳輸在整個(gè)訓(xùn)練過(guò)程中的影響權(quán)重,數(shù)值越大,模型在訓(xùn)練過(guò)程中對(duì)域遷移關(guān)注度越高。β1和β2數(shù)值為0.010 0時(shí),本文方法取得最高精度(表1和表2)。在逐步增大β1和β2過(guò)程中,模型精度略有下降,這是由于模型過(guò)度關(guān)注源域和目標(biāo)域分布對(duì)齊,而忽略源域語(yǔ)義分割監(jiān)督訓(xùn)練的結(jié)果;在逐步減小β1和β2的過(guò)程中,模型精度也緩慢下降,這說(shuō)明特征空間和輸出空間域遷移對(duì)精度提升的積極作用。因此,本文將β1和β2的默認(rèn)值設(shè)置為0.010 0。
表1 超參數(shù)β1的選擇
表2 超參數(shù)β2的選擇
為說(shuō)明本文方法的優(yōu)勢(shì),本文與5種代表性域自適應(yīng)方法進(jìn)行了對(duì)比。這些方法包括CycleGAN[20]、AdaptSegNet[24]、SIM(stuff instance matching)[25]、CaGAN(class-aware generative adversarial network)[26]和UDA方法[27]。這些方法的語(yǔ)義分割模型均為基于ResNet101的DeepLab-V2。此外,本文加入了“僅源域”(即僅在源域進(jìn)行監(jiān)督訓(xùn)練,直接用于目標(biāo)域預(yù)測(cè)),并將僅源域訓(xùn)練精度作為幾組試驗(yàn)的基線(xiàn)精度。
2.3.1 精度對(duì)比與分析
試驗(yàn)精度結(jié)果見(jiàn)表3—表6,其中僅源域訓(xùn)練精度最低,這說(shuō)明不同域之間存在分布偏差,單純?cè)从蛴?xùn)練所得到的模型難以在目標(biāo)域上取得較高精度。此外,如表3和表4、表5和表6的精度差異所示,即便訓(xùn)練任務(wù)中源域和目標(biāo)域存在相同的域偏移,但由于遷移順序的差異,仍會(huì)帶來(lái)不同的精度結(jié)果,且圖像數(shù)量較多的源域具備更加多樣化的特征分布,可以在遷移至目標(biāo)域時(shí)取得更高精度。CycleGAN方法在Vaihingen數(shù)據(jù)集→Potsdam數(shù)據(jù)集遷移任務(wù)中,即表4和表6中,較好地減弱了低矮植被與樹(shù)木兩個(gè)類(lèi)別的域偏移問(wèn)題,但在其他地物類(lèi)別上精度較低,如表4的不透水層和表6的車(chē)輛,相對(duì)于僅源域訓(xùn)練的精度有所下降,且CycleGAN方法的mIoU指數(shù)提升并不明顯,這表明單一的圖像空間風(fēng)格遷移并不能較好地解決域偏移問(wèn)題。AdaptSegNet方法在多組試驗(yàn)中的表現(xiàn)相對(duì)較好,但由于缺乏圖像空間色彩分布和特征空間高維特征分布對(duì)齊,其在復(fù)雜的跨域任務(wù)Vaihingen數(shù)據(jù)集IRRG→Potsdam數(shù)據(jù)集RGB中表現(xiàn)較差,建筑物類(lèi)別精度相對(duì)于僅源域訓(xùn)練精度有所下降;引入實(shí)例和類(lèi)別信息的SIM、CaGAN和UDA(Chen)方法,進(jìn)一步緩解了域偏移問(wèn)題,保證了各類(lèi)別精度的穩(wěn)步提升。相比于其他方法,本文方法通過(guò)結(jié)合多個(gè)空間最優(yōu)傳輸優(yōu)勢(shì),在僅源域訓(xùn)練的精度基礎(chǔ)上,取得了顯著的精度提升(表3—表6),mIoU指數(shù)分別提高了17.39%、22.02%、16.91%、17.84%,且高于其他方法,這表明多空間最優(yōu)傳輸相結(jié)合可以有效提高模型總體的域自適應(yīng)能力。
表3 Potsdam數(shù)據(jù)集IRRG→Vaihingen數(shù)據(jù)集IRRG精度結(jié)果
表4 Vaihingen數(shù)據(jù)集IRRG→Potsdam數(shù)據(jù)集IRRG精度結(jié)果
表5 Potsdam數(shù)據(jù)集RGB→Vaihingen數(shù)據(jù)集IRRG精度結(jié)果
表6 Vaihingen數(shù)據(jù)集IRRG→Potsdam數(shù)據(jù)集RGB精度結(jié)果
2.3.2 可視化結(jié)果與分析
可視化結(jié)果如圖4—圖7所示。在所有測(cè)試方法中,僅源域訓(xùn)練的結(jié)果最差,在目標(biāo)域圖像場(chǎng)景復(fù)雜度較高時(shí)(如圖6(c)和圖7(c)所示),地物的邊界完全模糊,預(yù)測(cè)類(lèi)別混亂,僅在少量結(jié)果中可以看到建筑物的大致輪廓。CycleGAN能夠較好解決因色彩差異而導(dǎo)致的域偏移問(wèn)題,但由于缺少高維特征分布對(duì)齊,地物邊界存在模糊不清現(xiàn)象,背景類(lèi)與其他類(lèi)別混淆嚴(yán)重。AdaptSegNet方法相比于CycleGAN方法具備一定優(yōu)勢(shì),但在源域和目標(biāo)域圖像波段組合不同時(shí),如圖6(e)、圖7(e)所示,建筑物、低矮植被與背景的分類(lèi)結(jié)果混淆,部分區(qū)域存在明顯誤判現(xiàn)象。CaGAN在輸出空間對(duì)抗訓(xùn)練的基礎(chǔ)上添加了類(lèi)別信息,進(jìn)一步緩解了模型在部分類(lèi)別中的錯(cuò)分問(wèn)題,但地物邊界仍然模糊,且由于高維類(lèi)別特征分布差異較大,簡(jiǎn)單的類(lèi)別特征分布對(duì)齊反而帶來(lái)了負(fù)遷移問(wèn)題,即未能找到源域和目標(biāo)域分布的合理對(duì)齊方式。如圖4(a)和圖6(d)結(jié)果所示,CaGAN將建筑物錯(cuò)分為背景,可視化結(jié)果不及AdaptSegNet;SIM和UDA(Chen)方法也存在諸多誤判現(xiàn)象,但它們分別采用實(shí)例對(duì)齊和判別器逐類(lèi)判別過(guò)程,部分解決了遙感圖像復(fù)雜的類(lèi)內(nèi)差異所引起的遷移困難問(wèn)題。
圖4 Potsdam數(shù)據(jù)集IRRG→Vaihingen數(shù)據(jù)集IRRG可視化結(jié)果Fig.4 The visual results of Potsdam IRRG→Vaihingen IRRG
圖5 Vaihingen數(shù)據(jù)集IRRG→Potsdam數(shù)據(jù)集IRRG可視化結(jié)果Fig.5 The visual results of Vaihingen IRRG→Potsdam IRRG
圖6 Potsdam數(shù)據(jù)集RGB→Vaihingen數(shù)據(jù)集IRRG可視化結(jié)果Fig.6 The visual results of Potsdam RGB→Vaihingen IRRG
圖7 Vaihingen數(shù)據(jù)集IRRG→Potsdam數(shù)據(jù)集RGB可視化結(jié)果Fig.7 The visual results of Vaihingen IRRG→Potsdam RGB
本文提出多空間結(jié)合的最優(yōu)傳輸域自適應(yīng)方法,能夠有效結(jié)合多空間最優(yōu)傳輸優(yōu)勢(shì),在保持地物邊界的同時(shí)有效區(qū)分紋理和色調(diào)相近的地物,提高了模型在目標(biāo)域上的分割效果。如圖4(c)所示,本文方法較好地分類(lèi)了低矮植被,未出現(xiàn)其他方法中常見(jiàn)的低矮植被與背景的混淆問(wèn)題,這緣于最優(yōu)傳輸可以在分布間差異較大情況下,提供具備完備幾何意義的距離度量,這對(duì)遙感圖像復(fù)雜場(chǎng)景的分割任務(wù)是至關(guān)重要的。此外,如圖6、圖7所示,即便在復(fù)雜遷移任務(wù)中,本文方法也能夠清晰界定地物輪廓,內(nèi)部噪聲較少,相對(duì)準(zhǔn)確地識(shí)別復(fù)雜形態(tài)地物(如樹(shù)木)。
2.3.3 模型復(fù)雜度分析
為了定量評(píng)估模型效率,本文采用參數(shù)量和計(jì)算量(floating-point operations per second,FLOPs)兩個(gè)指標(biāo),在輸入圖像尺寸(512×512像素)相同情況下,測(cè)試模型運(yùn)算的復(fù)雜度,具體結(jié)果見(jiàn)表7。其中,CycleGAN的參數(shù)量和FLOPs值顯著高于其他方法;本文方法的參數(shù)量和FLOPs值最小。這表明,相對(duì)于采用GAN的域自適應(yīng)方法,包括CycleGAN,AdaptSegNet,SIM,CaGAN和UDA(Chen)方法,本文方法的模型復(fù)雜度更小,訓(xùn)練更加便捷。
表7 測(cè)試模型的參數(shù)量和FLOPs
為驗(yàn)證本文方法各模塊的有效性,本文在Potsdam數(shù)據(jù)集IRRG→Vaihingen數(shù)據(jù)集IRRG遷移任務(wù)上進(jìn)行了消融試驗(yàn),表8和圖8顯示了每個(gè)模塊及其不同組合的作用和可視化效果。在單空間對(duì)齊測(cè)試中,輸出空間最優(yōu)傳輸?shù)臏y(cè)試精度最高(mIoU指數(shù)達(dá)到46.88%),這緣于輸出空間同時(shí)包含幾何和類(lèi)別信息。同時(shí),即便特征空間維度較高,最優(yōu)傳輸理論仍然可以充分考慮特征中隱含的幾何結(jié)構(gòu),因此,特征空間最優(yōu)傳輸也能取得精度提升(mIoU指數(shù)達(dá)到42.11%)。此外,在圖像空間最優(yōu)傳輸和輸出空間最優(yōu)傳輸?shù)目梢暬Y(jié)果中,地物類(lèi)別更加準(zhǔn)確,而在特征空間最優(yōu)傳輸?shù)目梢暬Y(jié)果中,地物邊界的界定則更加清晰(如上方建筑物)。
表8 消融試驗(yàn)精度分析
圖8 消融試驗(yàn)可視化結(jié)果Fig.8 The visual results of ablation study
在多空間組合對(duì)齊測(cè)試中,精度普遍高于單空間對(duì)齊,這說(shuō)明多空間最優(yōu)傳輸可以有效提高跨域語(yǔ)義分割精度。將圖像空間與特征空間或輸出空間最優(yōu)傳輸進(jìn)行結(jié)合(即圖像空間+特征空間最優(yōu)傳輸,圖像空間+輸出空間最優(yōu)傳輸),可獲取相對(duì)完整的預(yù)測(cè)結(jié)果,地物邊界相對(duì)清晰,類(lèi)別錯(cuò)分現(xiàn)象有所減少,有效消除單輸出空間或特征空間最優(yōu)傳輸結(jié)果中出現(xiàn)的過(guò)分割現(xiàn)象。將圖像空間、特征空間和輸出空間最優(yōu)傳輸相結(jié)合(即本文方法),能夠獲取清晰準(zhǔn)確的地物邊界,地物內(nèi)部缺失問(wèn)題得到改善;并且,圖中右側(cè)部分車(chē)輛和樹(shù)木細(xì)節(jié)的分割結(jié)果也較好。這與表8的定量化精度結(jié)果相呼應(yīng),圖像空間、特征空間和輸出空間最優(yōu)傳輸相結(jié)合所取得的精度最高(mIoU指數(shù)達(dá)到53.83%)。這說(shuō)明基于最優(yōu)傳輸構(gòu)建的單空間對(duì)齊模塊可以簡(jiǎn)單而有效的結(jié)合在一起,充分發(fā)揮各個(gè)模塊的優(yōu)勢(shì),提高整體域自適應(yīng)性能。
本文提出了一種基于最優(yōu)傳輸理論的無(wú)監(jiān)督域自適應(yīng)方法,用于解決遙感圖像跨域語(yǔ)義分割時(shí)普遍存在的域偏移問(wèn)題。首先,本文利用最優(yōu)傳輸理論構(gòu)建了一種更為簡(jiǎn)單的色彩映射方法,在圖像空間進(jìn)行風(fēng)格遷移,減弱圖像空間域偏移影響;然后,將最優(yōu)傳輸引入語(yǔ)義分割無(wú)監(jiān)督域自適應(yīng)框架,分別在特征空間和輸出空間使用最優(yōu)傳輸理論計(jì)算損失,減輕數(shù)據(jù)分布差異,提升了模型的跨域語(yǔ)義分割性能。試驗(yàn)引入Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集,利用IoU指數(shù),對(duì)本文方法進(jìn)行測(cè)試。結(jié)果表明,相對(duì)于其他單一空間域自適應(yīng)方法,本文方法能夠有效結(jié)合高維特征空間、輸出空間與圖像空間域自適應(yīng)方法優(yōu)勢(shì);在不同域遷移任務(wù)中,本文方法皆表現(xiàn)出較為明顯的優(yōu)勢(shì),得到了更高的跨域語(yǔ)義分割精度。
本文方法尚未充分研究并細(xì)化源域和目標(biāo)域潛在的類(lèi)間關(guān)系,在后續(xù)研究中,將對(duì)該問(wèn)題進(jìn)行深入研究,尋求突破。