国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于合成圖像的語義分割任務(wù)域適應(yīng)算法研究?

2024-01-23 13:38徐淑怡
計算機(jī)與數(shù)字工程 2023年10期
關(guān)鍵詞:標(biāo)簽語義像素

徐淑怡

(南京理工大學(xué)計算機(jī)科學(xué)與工程學(xué)院 南京 210018)

1 引言

1.1 研究背景

深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)使計算機(jī)視覺領(lǐng)域發(fā)生了革命性的變化[1],在諸如圖像分類,語義分割,目標(biāo)檢測等多種任務(wù)中實(shí)現(xiàn)了超高性能[2~5]。這種強(qiáng)勁的表現(xiàn)可歸因于目前數(shù)量龐大的有標(biāo)簽訓(xùn)練數(shù)據(jù)集。但對于語義分割任務(wù)來說,在數(shù)據(jù)注釋方面需要大量人力物力以獲得密集的像素級標(biāo)簽。從CITYSCAPES 數(shù)據(jù)集獲取單個圖像的逐像素標(biāo)簽的注釋就需要約1h,難度也很高。在數(shù)據(jù)收集方面,雖然自然圖像更容易獲得,但在一些領(lǐng)域,例如醫(yī)學(xué)成像,收集數(shù)據(jù)和請專家精確標(biāo)記這些數(shù)據(jù)都非常昂貴。

解決上述問題的一種方法是利用生成的數(shù)據(jù)參與訓(xùn)練。然而,由于數(shù)據(jù)集之間存在域位移,因此在合成數(shù)據(jù)上訓(xùn)練的模型在真實(shí)數(shù)據(jù)集上往往表現(xiàn)不佳。域適應(yīng)就是解決該域位移問題的一類技術(shù)。因此,本文重點(diǎn)是研究用于語義分割的領(lǐng)域自適應(yīng)算法。這類問題最普遍也最有難度的一種情況是,沒有來自目標(biāo)域的標(biāo)簽可用。這類技術(shù)通常被稱為無監(jiān)督域適應(yīng)。

1.2 研究現(xiàn)狀

全卷積神經(jīng)網(wǎng)絡(luò)(FCN)的發(fā)展[4]見證著域適應(yīng)研究重點(diǎn)從各種距離度量及其變體[6]轉(zhuǎn)移到以端到端方式學(xué)習(xí)域不變特征。傳統(tǒng)方法在分類問題上取得了成功,然而它們的性能改進(jìn)無法很好地為語義分割問題所用。這促使我們開發(fā)適合于語義分割的域適應(yīng)技術(shù)。

我們專注于對抗性方法。Revgrad[7]通過在特征空間中應(yīng)用對抗性損失來完成域自適應(yīng),而PixelDA[8]和CoGAN[9]在像素空間中進(jìn)行操作。雖然這些技術(shù)適用于分類任務(wù),但很少有針對語義分割任務(wù)的方法。目前來說,文獻(xiàn)[10]和文獻(xiàn)[11]提出解決這一問題較好的兩種方法。FCN in the wild[10]提出了兩種對齊策略:1)全局對齊,它是文獻(xiàn)[7]對分割問題提出的域?qū)褂?xùn)練的擴(kuò)展;2)局部對齊,將其定義為類別特定統(tǒng)計多實(shí)例學(xué)習(xí)問題。另一邊,文獻(xiàn)[11]提出了課程式學(xué)習(xí)方法,首先學(xué)習(xí)估計地標(biāo)超像素上的圖像和局部分布的全局標(biāo)簽分布的簡單任務(wù)。然后訓(xùn)練分割網(wǎng)絡(luò),使得目標(biāo)標(biāo)簽分布遵循這些推斷的標(biāo)簽屬性。

2 網(wǎng)絡(luò)模型原理與實(shí)現(xiàn)

我們提出一種方法,該方法采用生成模型來對齊特征空間中的源和目標(biāo)分布。首先通過使用L1和對抗性損失的組合訓(xùn)練重建模塊,將使用DCNN獲得的中間特征表示投影到圖像空間。然后,通過強(qiáng)制網(wǎng)絡(luò)學(xué)習(xí)特征來強(qiáng)制域?qū)R約束,使得源特征在傳遞到重建模塊時產(chǎn)生類似目標(biāo)的圖像,反之亦然。這是通過采用一系列對抗性損失來實(shí)現(xiàn)的。隨著訓(xùn)練的進(jìn)行,生成質(zhì)量逐漸提高,同時,特征變得更加領(lǐng)域不變。

2.1 模型設(shè)計

令X?RL×W×C為任意輸入圖像(帶有C通道),Y?RL×W是相應(yīng)的標(biāo)簽圖。給定輸入X,我們將CNN 的輸出表示為,其中NC是類的數(shù)量。是表示CNN 輸出的像素位置(i,j)處的類概率分布的向量。源(s)或目標(biāo)(t)域由上標(biāo)表示,例如Xs或Xt。

2.2 處理源和目標(biāo)數(shù)據(jù)

給定源圖像和標(biāo)簽對{Xs,Ys}作為輸入,首先使用F 網(wǎng)絡(luò)提取特征表示。分類器C 將嵌入F(Xs)作為輸入,并生成圖像大小的標(biāo)簽映射。生成器G重建以嵌入為條件的源輸入Xs。在圖像生成工作之后,我們沒有明確地將生成器輸入與隨機(jī)噪聲向量連接,而是在整個G網(wǎng)絡(luò)中使用丟失層。如圖1所示,D執(zhí)行兩個任務(wù):1)將真實(shí)源輸入和生成的源圖像區(qū)分為源—真或源—偽;2)產(chǎn)生生成的源圖像的像素標(biāo)簽圖。

圖1 網(wǎng)絡(luò)模型流程圖

給定目標(biāo)輸入Xt,生成器網(wǎng)絡(luò)G 將來自F 的目標(biāo)嵌入作為輸入并重建目標(biāo)圖像。與之前的情況類似,訓(xùn)練D以區(qū)分真實(shí)目標(biāo)數(shù)據(jù)(目標(biāo)—真)和從G 生成的目標(biāo)圖像(目標(biāo)—假)。與前一種情況不同,D 僅執(zhí)行單個任務(wù),將目標(biāo)輸入分類為目標(biāo)—真實(shí)或目標(biāo)—偽造。由于目標(biāo)數(shù)據(jù)在訓(xùn)練期間沒有任何標(biāo)簽,因此當(dāng)給定目標(biāo)輸入時,分類網(wǎng)絡(luò)C不活動。

2.3 迭代優(yōu)化

首先描述方法中使用的各種損失。用于訓(xùn)練模型的不同對抗性損失如表1 所示。除了這些對抗性損失之外,我們還使用以下?lián)p失:1)Lseg和Laux像素級的交叉熵?fù)p失在分割網(wǎng)絡(luò)中使用,例如FCN。2)輸入和重建圖像之間的損失Lrec-L1。

表1 各類損失

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集介紹

SYNTHIA 是具有精確像素級語義注釋的虛擬城市渲染照片真實(shí)幀的大型數(shù)據(jù)集。我們使用SYNTHIA-RAND-CITYSCAPES 子集,其中包含9400個帶有注釋的圖像。

使用CITYSCAPES 作為我們的真實(shí)數(shù)據(jù)集。該數(shù)據(jù)集包含從德國和鄰國50 個城市的移動車輛中收集的城市街道圖像。該數(shù)據(jù)集帶有5000 個帶注釋的圖像。在本文所有實(shí)驗(yàn)中,使用標(biāo)記的SYNTHIA 數(shù)據(jù)集作為源域,并將未標(biāo)記的CITYSCAPES 訓(xùn)練集作為我們的目標(biāo)域。將來自CITYSCAPES 的val 集的500 個圖像指定為我們的測試集。

3.2 實(shí)驗(yàn)架構(gòu)和實(shí)施細(xì)節(jié)

在我們所有的實(shí)驗(yàn)中,使用FCN-8 作為我們的基礎(chǔ)網(wǎng)絡(luò)。使用在Imagenet 上訓(xùn)練的VGG-16模型的權(quán)重來初始化該網(wǎng)絡(luò)的權(quán)重。圖像被調(diào)整大小并裁剪為1024×512。我們使用Adam solver 訓(xùn)練我們的模型進(jìn)行了100,000 次迭代,批量大小為1。F 和C 網(wǎng)絡(luò)的學(xué)習(xí)率為10-5,G 和D 網(wǎng)絡(luò)的學(xué)習(xí)率為2×10-4。

3.3 實(shí)驗(yàn)結(jié)果

為了確保實(shí)驗(yàn)結(jié)果的公平性,我們遵循了先前工作(文獻(xiàn)[10~11])所指定的:選擇SYNTHIA 和CITYSCAPES 之間的16 個常用類作為我們的標(biāo)簽。對應(yīng)于其他類的預(yù)測被視為屬于void類,而不在訓(xùn)練期間反向傳播。

表2 展示了我們的方法與文獻(xiàn)[10]和文獻(xiàn)[11]相比的表現(xiàn)。對于無域適應(yīng)情況的僅源模型,即僅用源域數(shù)據(jù)進(jìn)行訓(xùn)練,本文方法實(shí)現(xiàn)了26.9的mIOU。僅目標(biāo)域模型表示使用CITYSCAPES 訓(xùn)練集(監(jiān)督訓(xùn)練)訓(xùn)練的模型獲得的性能,以它作為域適應(yīng)性能的粗略上界。我們的方法達(dá)到了36.2 的mIOU,將基線提高了9.3個點(diǎn),與其他方法相比,貢獻(xiàn)了更高的性能提升。

表2 SYNTHIA →CITYSCAPES

4 結(jié)語

本文的研究重點(diǎn)是探討一種適用于語義分割任務(wù)的域適應(yīng)算法,以最大限度地克服語義分割任務(wù)中合成圖像和真實(shí)場景圖像之間的域間隙。我們提出一種聯(lián)合對抗方法,它使用生成器鑒別器對將目標(biāo)分布的信息傳遞給特征提取網(wǎng)絡(luò)。用此方法在大規(guī)模數(shù)據(jù)集上實(shí)驗(yàn)并與其他方法對比,實(shí)驗(yàn)結(jié)果表明了我們的方法優(yōu)于現(xiàn)有方法,且兼具通用性和可擴(kuò)展性。

猜你喜歡
標(biāo)簽語義像素
趙運(yùn)哲作品
像素前線之“幻影”2000
語言與語義
“像素”仙人掌
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
標(biāo)簽化傷害了誰
高像素不是全部
基于多進(jìn)制查詢樹的多標(biāo)簽識別方法