国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DDPM的遙感建筑輪廓數(shù)據(jù)增強(qiáng)方法

2024-11-02 00:00:00馬孝冬朱靈杰解則曉高翔
現(xiàn)代電子技術(shù) 2024年21期

摘 "要: 針對(duì)現(xiàn)有真實(shí)場(chǎng)景遙感建筑輪廓數(shù)據(jù)集存在數(shù)據(jù)豐富度有限、復(fù)雜形狀數(shù)據(jù)樣本量少,影響模型性能等問題,文中提出一種基于擴(kuò)散模型的有限遙感數(shù)據(jù)增強(qiáng)方法,對(duì)合成數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練,從而得到形狀更加豐富的建筑物數(shù)據(jù),擴(kuò)充建筑物數(shù)據(jù)的多樣性。首先,使用擴(kuò)散模型DDPM對(duì)合成建筑數(shù)據(jù)和真實(shí)場(chǎng)景數(shù)據(jù)訓(xùn)練集進(jìn)行訓(xùn)練,生成大量與真實(shí)數(shù)據(jù)分布更接近、形狀更多樣的數(shù)據(jù);然后,使用基于Transformer改進(jìn)的輪廓提取模型在合成數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練;最后,在真實(shí)數(shù)據(jù)集上進(jìn)行建筑物輪廓提取。實(shí)驗(yàn)結(jié)果表明:使用預(yù)訓(xùn)練模型訓(xùn)練與未使用預(yù)訓(xùn)練模型相比,在交并比、頂點(diǎn)檢測(cè)精確率、頂點(diǎn)檢測(cè)召回率、頂點(diǎn)檢測(cè)[F1]分?jǐn)?shù)、角度預(yù)測(cè)精確率、角度預(yù)測(cè)召回率、角度預(yù)測(cè)[F1]分?jǐn)?shù)上分別提升了1.7%、2.4%、2.5%、2.5%、7.3%、8.2%、7.7%,表明在大規(guī)模合成數(shù)據(jù)上預(yù)訓(xùn)練有助于提升建筑物輪廓提取模型在真實(shí)數(shù)據(jù)上的表現(xiàn);同時(shí)使用1.2×105合成數(shù)據(jù)預(yù)訓(xùn)練比2.4×104合成數(shù)據(jù)預(yù)訓(xùn)練在上述指標(biāo)上提升0.8%、0.9%、1.3%、1.1%、1.1%、0.7%、0.9%,驗(yàn)證了預(yù)訓(xùn)練數(shù)據(jù)量增加對(duì)模型性能提升的有效性。

關(guān)鍵詞: 遙感數(shù)據(jù); 合成數(shù)據(jù); 建筑物輪廓提?。?數(shù)據(jù)生成; 數(shù)據(jù)增強(qiáng); 擴(kuò)散模型

中圖分類號(hào): TN911?34; TP751.1 " " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " "文章編號(hào): 1004?373X(2024)21?0106?07

Remote sensing building contour data augmentation method based on DDPM

MA Xiaodong1, ZHU Lingjie2, XIE Zexiao1, GAO Xiang3

(1. College of Engineering, Ocean University of China, Qingdao 266100, China;

2. Cenozoic Robotics, Hangzhou 310052, China;

3. Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China)

Abstract: In view of the limited data richness in the existing real scene remote sensing building contour data sets and the insufficient samples of complex?shaped data, which affects model performance, a limited remote sensing data enhancement method based on diffusion model is proposed. In the method, the synthetic data and real data are trained to obtain buildings with richer shapes and expand the diversity of building data. First, the denoising diffusion probabilistic model (DDPM) is used to train the synthetic building data and real scene data training set, which in turn generates a large amount of data with closer distribution and more diverse shapes than the real data. Then, the improved contour extraction model based on Transformer is used for pre?training on the synthetic dataset. Finally, the building contour extraction is performed on the real dataset. The experimental results indicate that the training with pre?trained models improves the performance in comparison with the training without pre?training on the synthetic dataset, with respective increases of 1.7%, 2.4%, 2.5%, 2.5%, 7.3%, 8.2% and 7.7% in intersection over union (IoU), vertex detection precision, vertex detection recall, vertex detection [F1] score, angle prediction precision, angle prediction recall, and angle prediction [F1] score, which demonstrates that the pre?training on large?scale synthetic data helps improve the performance of building contour extraction models on real data. Additionally, the pre?training with 1.2×105 synthetic data improves the above mentioned indicators by 0.8%, 0.9%, 1.3%, 1.1%, 1.1%, 0.7% and 0.9%, respectively, in comparison with the results of the pre?training with 2.4×104 synthetic data, which validates that the increase of pre?training data is effective in improving the performance of the model.

Keywords: remote sensing data; synthetic data; building contour extraction; data generation; data augmentation; diffusion model

0 "引 "言

從遙感圖像中提取矢量化表示的建筑物輪廓對(duì)于三維城市建模[1?2]、地籍地形測(cè)繪[3]、地圖更新[4]等方面具有重要意義。目前這項(xiàng)任務(wù)大都基于深度神經(jīng)網(wǎng)絡(luò),有很多遙感圖像數(shù)據(jù)集[5?6]用于模型訓(xùn)練。但現(xiàn)有數(shù)據(jù)集豐富度有限,對(duì)于某些復(fù)雜形狀的建筑,難以獲得足夠的樣本來訓(xùn)練模型;除此之外,真實(shí)場(chǎng)景數(shù)據(jù)集中存在部分復(fù)雜形狀數(shù)據(jù)標(biāo)注不準(zhǔn)確的情況,影響模型的性能。

為解決上述問題,可以合成大量復(fù)雜形狀數(shù)據(jù)來訓(xùn)練模型。合成數(shù)據(jù)可以覆蓋更廣泛的場(chǎng)景和情況,提高數(shù)據(jù)豐富度,使模型在面對(duì)新的、未見過的情況時(shí)具有更好的泛化能力,從而提高建筑物輪廓提取的準(zhǔn)確性和魯棒性。在圖像生成方面,生成式模型是當(dāng)前主流方法,其主要目標(biāo)是學(xué)習(xí)并模擬數(shù)據(jù)的生成過程,從而能夠生成與原始數(shù)據(jù)類似的新樣本。生成式模型應(yīng)用非常廣泛,在圖像生成、自然語言處理、音頻生成等領(lǐng)域取得了顯著的成就。文獻(xiàn)[7]提出了變分自編碼器(Variational Autoencoder, VAE),它是一種基于概率圖模型的生成式模型,通過編碼器和解碼器的結(jié)合學(xué)習(xí)數(shù)據(jù)的潛在表示,并從中生成新的樣本。文獻(xiàn)[8]提出了生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN),其中包含一個(gè)生成器網(wǎng)絡(luò)和一個(gè)判別器網(wǎng)絡(luò),通過對(duì)抗訓(xùn)練的方式,使得生成器網(wǎng)絡(luò)能夠生成逼真的樣本,從而模擬數(shù)據(jù)的真實(shí)分布。與VAE相比,GAN能生成更清晰和更多樣的數(shù)據(jù)。文獻(xiàn)[9]提出了擴(kuò)散模型(Diffusion Probabilistic Model, DPM),它基于馬爾科夫鏈(Markov Chain),在一系列隨機(jī)擴(kuò)散步驟中不斷添加高斯噪聲,逐漸將數(shù)據(jù)的分布代入簡(jiǎn)單的高斯分布;之后使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這個(gè)隨機(jī)過程的反向過程,將隨機(jī)采樣的高斯噪聲作為輸入,逐步去噪,從高斯分布逼近感興趣的分布,實(shí)現(xiàn)對(duì)數(shù)據(jù)的建模。DPM訓(xùn)練時(shí)只需要訓(xùn)練生成器即可,而GAN還需要訓(xùn)練判別器。文獻(xiàn)[10]提出了去噪概率擴(kuò)散模型(Denoising Diffusion Probabilistic Model, DDPM),它優(yōu)化了DPM,提高了生成圖像的質(zhì)量,奠定了擴(kuò)散模型在圖像生成領(lǐng)域應(yīng)用的基礎(chǔ)。

本文提出了一種基于DDPM的遙感數(shù)據(jù)增強(qiáng)方法。首先使用DDPM對(duì)初始建筑數(shù)據(jù)進(jìn)行訓(xùn)練,生成大規(guī)模合成建筑物輪廓數(shù)據(jù),增加數(shù)據(jù)豐富度;然后基于Transformer[11]的建筑物輪廓提取模型[12]在合成建筑數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練;最后使用預(yù)訓(xùn)練模型在真實(shí)數(shù)據(jù)集上微調(diào)。該方法能增加數(shù)據(jù)豐富度及數(shù)量,用于提升建筑物輪廓提取模型性能,整體流程如圖1所示。

1 "數(shù)據(jù)生成

1.1 "去噪概率擴(kuò)散模型DDPM

DDPM的基本原理可以概括為兩個(gè)過程:前向擴(kuò)散過程和反向過程,如圖2所示。

1.1.1 "前向擴(kuò)散過程

設(shè)初始數(shù)據(jù)分布為[x0~qx],DDPM的正向擴(kuò)散過程將向該分布中逐步添加高斯噪聲,隨著時(shí)間步長的增大,最終數(shù)據(jù)的分布[xT]變成了一個(gè)高斯分布。前向擴(kuò)散過程可以看作一個(gè)馬爾科夫鏈,表示為:

[px0:T=qx0t=1Tqxtxt-1] (1)

式中[p(x0:T)]表示整個(gè)網(wǎng)絡(luò)的聯(lián)合概率分布。由于概率密度函數(shù)[q(x)]無法確定但是[x0]已知,根據(jù)鏈?zhǔn)椒▌t,可以將聯(lián)合概率分布轉(zhuǎn)換為條件概率分布:

[qx1:Tx0=t=1Tqxtxt-1qxtxt-1=Nαtxt-1,(1-αt)I] (2)

式中[qxtxt-1]可以看作是在[αtxt-1]上增加了隨機(jī)高斯噪聲數(shù)據(jù)[?]。

[xt=αtxt-1+N0,(1-αt)I=αtxt-1+1-αt?, " "?~N(0,I)] (3)

式中[αtlt;1]。由式(3)可知,DDPM的前向擴(kuò)散過程中,隨著時(shí)間步的增加,[xt]最終將接近標(biāo)準(zhǔn)正態(tài)分布。原則上[xt]的獲取需要經(jīng)過循環(huán)運(yùn)算,但是經(jīng)過重參數(shù)化,可將[xt]變?yōu)椋?/p>

[xt=αtx0+1-αt?, " "xt~Nαtx0,(1-αt)Iαt=i=1tαi, " "?~N(0,I)] (4)

由式(4)可以直接從[x0]計(jì)算任意時(shí)刻的[x],提高運(yùn)算效率。

1.1.2 "反向過程

DDPM的反向過程是一個(gè)去噪的過程。對(duì)于從標(biāo)準(zhǔn)正態(tài)分布中隨機(jī)采樣得到的高斯噪聲[xT]進(jìn)行逐步去噪,最終得到和初始數(shù)據(jù)分布一致的圖像[x0]。同樣,按照鏈?zhǔn)椒▌t,反向過程可分解為:

[p(x0:T)=p(xT)t=T-10pxtxt+1] (5)

式中條件概率[pxtxt+1]計(jì)算比較困難,因此,DDPM采用神經(jīng)網(wǎng)絡(luò)去擬合它,得到一個(gè)近似分布,定義為[pθxtxt+1],[θ]為模型參數(shù),通過以下目標(biāo)函數(shù)來優(yōu)化。

[argminθ?θ(xt,t)-?22] (6)

式中[?θ(xt,t)]表示從時(shí)間步[t]-1~[t]添加的隨機(jī)高斯噪聲。

1.2 "DDPM訓(xùn)練用數(shù)據(jù)

訓(xùn)練DDPM所使用的數(shù)據(jù)包括基礎(chǔ)合成數(shù)據(jù)以及3.1.1節(jié)中數(shù)據(jù)訓(xùn)練集。本文定義的合成多邊形數(shù)據(jù)集包括八種形狀的建筑模板,即矩形(Rec)、L形、T形、H形、C形、Z形、塔形(Tower)及交叉形(Cross),如圖3所示。

2 "建筑輪廓提取模型

RoomFormer[12]是一個(gè)基于Transformer改進(jìn)的網(wǎng)絡(luò),如圖4所示,用于對(duì)室內(nèi)場(chǎng)景進(jìn)行矢量化建模。建筑物結(jié)構(gòu)化輪廓提取與室內(nèi)場(chǎng)景平面圖重建相似,為序列預(yù)測(cè)問題,輸入是圖片,輸出是多邊形序列;同時(shí)RoomFormer為Transformer架構(gòu),對(duì)大數(shù)量具有更好的適配性,因此本文使用RoomFormer作為建筑物輪廓提取的基線方法進(jìn)行相關(guān)實(shí)驗(yàn)。

RoomFormer將室內(nèi)場(chǎng)景矢量化建??醋魇嵌噙呅涡蛄蓄A(yù)測(cè)問題,場(chǎng)景中每個(gè)房間被看作是一個(gè)有序頂點(diǎn)序列,利用Transformer對(duì)序列建模的有效性,引入了兩級(jí)查詢,使得網(wǎng)絡(luò)可以直接輸出室內(nèi)場(chǎng)景中每個(gè)房間的頂點(diǎn)序列。RoomFormer基本組成可分為以下幾個(gè)部分。

2.1 "特征提取網(wǎng)絡(luò)

特征提取網(wǎng)絡(luò)為CNN,對(duì)輸入圖像進(jìn)行卷積得到多尺度特征圖[xl∈RC×Hl×Wl],其中[l]表示特征圖層級(jí),[C]表示特征維度,[H]、[W]表示圖像高和寬;然后,對(duì)每層特征圖進(jìn)行逐像素位置編碼,將編碼后的位置信息[el∈RC×Hl×Wl]與特征圖相加,得到多尺度融合特征[fl∈RC×Hl×Wl];最后,將各個(gè)尺度的融合特征圖展平進(jìn)行拼接得到Transformer編碼器的輸入。

2.2 "Transformer編碼器

Transformer編碼器輸入為多尺度特征圖,輸出為相同分辨率的增強(qiáng)特征圖。每個(gè)編碼器層由多尺度可變形自注意力(Multi?Scale Deformable Self?Attention, MS?DSA)模塊和前饋網(wǎng)絡(luò)(Feed Forward Network, FFN)組成。在MS?DSA模塊中,查詢和鍵元素都來自多尺度特征圖的像素特征。參考點(diǎn)是每個(gè)查詢像素的坐標(biāo)。特征表示中還加入了可學(xué)習(xí)的尺度級(jí)別嵌入,以確定每個(gè)查詢像素位于哪個(gè)特征級(jí)別。

MS?DSA與傳統(tǒng)注意力機(jī)制對(duì)輸入特征圖所有位置進(jìn)行運(yùn)算不同,只對(duì)參考點(diǎn)周圍的關(guān)鍵采樣點(diǎn)進(jìn)行運(yùn)算,減少了計(jì)算復(fù)雜度。

2.3 "Transformer解碼器

解碼器中的每個(gè)解碼器層由自注意力模塊、多尺度可變交叉注意力模塊(Multi?Scale Deformable Cross Attention, MS?DCA)和FFN組成。Transformer解碼器輸入為編碼器的增強(qiáng)特征圖和上一解碼器層的多邊形查詢向量[Qi-1∈RM×N×C],輸出為不斷迭代細(xì)化后的多邊形查詢向量[Qi∈RM×N×C]。最終,細(xì)化后的多邊形查詢向量經(jīng)過一個(gè)FFN,得到密度圖的矢量化表達(dá)[S∈RM×N×3],[M]表示設(shè)置的最大多邊形查詢數(shù)量,[N]表示設(shè)置的每個(gè)多邊形輪廓的最大長度,3表示預(yù)測(cè)頂點(diǎn)的信息,包括用于判斷是否為頂點(diǎn)的標(biāo)志(1表示頂點(diǎn),0表示非頂點(diǎn))及坐標(biāo)([x]、[y])。

3 "實(shí)驗(yàn)與分析

3.1 "數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

3.1.1 "數(shù)據(jù)集

本文使用的數(shù)據(jù)集來自Building3D數(shù)據(jù)集[13],Building3D數(shù)據(jù)集是首個(gè)城市級(jí)建筑物數(shù)據(jù)集,其數(shù)據(jù)為真實(shí)建筑數(shù)據(jù),包含了大部分房屋類型,可用于大規(guī)模城市場(chǎng)景建模。Building3D數(shù)據(jù)集中的樣本為來自愛沙尼亞城市的超過1.6×105棟建筑的激光雷達(dá)點(diǎn)云數(shù)據(jù),包括建筑物點(diǎn)云和屋頂點(diǎn)云,標(biāo)簽為使用商業(yè)軟件建模得到的網(wǎng)格(Mesh)和線框(Wireframe)模型。由于建筑物輪廓提取模型輸入為圖片,因此需要對(duì)Building3D數(shù)據(jù)集進(jìn)行處理。將點(diǎn)云轉(zhuǎn)換成二值化點(diǎn)云投影圖,如圖5第一行所示;對(duì)Mesh進(jìn)行渲染,提取輪廓,得到輪廓數(shù)組作為標(biāo)簽,如圖5第二行所示。

3.1.2 "評(píng)價(jià)指標(biāo)

本文使用FID(Fréchet Inception Distance)[14]和最大平均差異(Maximum Mean Discrepancy, MMD)[15]來評(píng)估DDPM生成樣本的效果,使用交并比(Intersection over Union, IoU)、精確率、召回率和[F1]分?jǐn)?shù)評(píng)價(jià)建筑物輪廓提取模型的性能[12]。

FID是一種用于評(píng)估生成式模型生成圖像質(zhì)量的指標(biāo),通過計(jì)算生成圖像的特征分布與真實(shí)圖像的特征分布之間的Fréchet距離來度量生成圖像的質(zhì)量。計(jì)算式如下:

[FID(X,Y)=μX-μY2+TrCX+CY-2CXCY] (7)

式中:[μX]、[μY]分別是數(shù)據(jù)集[X={x1,x2,…,xm}]和數(shù)據(jù)集[Y={y1,y2,…,yn}]的特征向量的均值;[CX]、[CY]分別是數(shù)據(jù)集[X]和數(shù)據(jù)集[Y]的特征向量的協(xié)方差矩陣;Tr表示矩陣的跡;[?2]表示[L2]范數(shù)。FID的值越低表示生成圖像與真實(shí)圖像之間的分布越接近,即生成的圖像質(zhì)量越高。與FID類似,MMD也是對(duì)生成數(shù)據(jù)和真實(shí)數(shù)據(jù)分布差異的一種度量,但是MMD是將數(shù)據(jù)映射到希爾伯特空間中進(jìn)行度量的。MMD將圖像輸入預(yù)訓(xùn)練的CNN中獲得高維特征向量,然后使用核函數(shù)(一般為高斯核函數(shù))將兩個(gè)分布映射到希爾伯特空間,計(jì)算它們距離的均值。MMD的計(jì)算公式如下:

[MMD2(X,Y)=1mi=1mf(xi)-1nj=1nf(yj)2H] (8)

式中:[m]和[n]表示數(shù)據(jù)集[X]、[Y]的樣本數(shù)量;[f(?)]表示高斯核函數(shù)。MMD值越小表示兩個(gè)數(shù)據(jù)集之間的分布越相似。

[P](精確率,Precision)、[R](召回率,Recall)和[F1]分?jǐn)?shù)計(jì)算式分別如下:

[P=TP(TP+FP)R=TP(TP+FN)F1=2PR(P+R)] (9)

式中:TP表示樣本被分為正樣本且分類正確;FP表示樣本被分為正樣本但分類錯(cuò)誤;FN表示樣本被分為負(fù)樣本但分類錯(cuò)誤。

3.2 "實(shí)驗(yàn)設(shè)置

DDPM使用Adam優(yōu)化器[16]進(jìn)行模型訓(xùn)練,學(xué)習(xí)率為8×10-5,損失函數(shù)為MSE(Mean Squared Error),在DDPM中,參數(shù)[βt=1-αt],通常用于調(diào)整噪聲水平,以控制模型的生成過程。優(yōu)化[βt]的策略通常是通過訓(xùn)練過程中的學(xué)習(xí),使得模型學(xué)習(xí)到最優(yōu)的[βt]值,以最大程度地減少生成樣本的噪聲,提高生成質(zhì)量。DDPM中使用Sigmoid動(dòng)態(tài)增長策略,前向擴(kuò)散步數(shù)為1 000。

RoomFormer使用AdamW優(yōu)化器[17]進(jìn)行模型訓(xùn)練,學(xué)習(xí)率為5×10-5,采用多步長學(xué)習(xí)率調(diào)度器動(dòng)態(tài)調(diào)整學(xué)習(xí)率,權(quán)重衰減因子為1×10-4,訓(xùn)練周期為400。

3.3 "DDPM相關(guān)實(shí)驗(yàn)

對(duì)DDPM的訓(xùn)練策略進(jìn)行了相關(guān)對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。其中,Nof為Number of的縮寫,RTR(Random Transform Ratio)表示合成數(shù)據(jù)中變形數(shù)據(jù)占總數(shù)據(jù)量的比例,變形數(shù)據(jù)是對(duì)合成數(shù)據(jù)中隨機(jī)選取的邊進(jìn)行拉伸或收縮,拉伸或收縮的長度為該邊長度的[15~12];Real Data表示在DDPM的訓(xùn)練過程中是否加入真實(shí)數(shù)據(jù)的訓(xùn)練集。

由定量結(jié)果可知,訓(xùn)練DDPM的合成數(shù)據(jù)量為1.28×105或2.56×105時(shí),模型在FID和MMD上的表現(xiàn)是近似的。在合成數(shù)據(jù)量為1.28×105的基礎(chǔ)上,加入Random Transform后,模型生成數(shù)據(jù)的性能有了一定的提高,當(dāng)比例設(shè)置為0.2時(shí),DDPM的FID和MMD較之前分別降低了4.21和0.028。在當(dāng)前基礎(chǔ)上加入真實(shí)數(shù)據(jù)的訓(xùn)練集訓(xùn)練DDPM,模型生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的FID和MMD為36.41和0.443,比之前下降了1.84和0.032。本節(jié)最終選取1.28×105合成真實(shí)數(shù)據(jù)、RTR=0.2以及加入真實(shí)數(shù)據(jù)條件下訓(xùn)練的DDPM模型來生成新的合成數(shù)據(jù),部分生成結(jié)果如圖6所示。

3.4 "RoomFormer實(shí)驗(yàn)

3.4.1 "實(shí)驗(yàn)一

在使用與真實(shí)數(shù)據(jù)訓(xùn)練集規(guī)模相當(dāng)?shù)暮铣蓴?shù)據(jù)量的條件下,對(duì)RoomFormer的訓(xùn)練策略進(jìn)行了相關(guān)對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。

表2中,Pre?Train Epochs表示RoomFormer在使用DDPM生成的數(shù)據(jù)集上預(yù)訓(xùn)練的輪數(shù),Train Epochs表示RoomFormer在真實(shí)數(shù)據(jù)上的訓(xùn)練輪數(shù)。

由表2結(jié)果可知,使用預(yù)訓(xùn)練的RoomFormer在真實(shí)數(shù)據(jù)集上進(jìn)行微調(diào)后,在各個(gè)指標(biāo)上的綜合表現(xiàn)優(yōu)于未進(jìn)行微調(diào)的模型。當(dāng)微調(diào)輪數(shù)不變,預(yù)訓(xùn)練輪數(shù)增加時(shí),RoomFormer的性能也隨之提高;當(dāng)預(yù)訓(xùn)練輪數(shù)不變,微調(diào)輪數(shù)設(shè)置在200時(shí),模型的性能最優(yōu)。當(dāng)預(yù)訓(xùn)練輪數(shù)設(shè)置為400,微調(diào)輪數(shù)設(shè)置為200時(shí),RoomFormer模型在測(cè)試集上的表現(xiàn)最優(yōu),在IoU、頂點(diǎn)精確率、頂點(diǎn)召回率、頂點(diǎn)[F1]分?jǐn)?shù)、角度精確率、角度召回率、角度[F1]分?jǐn)?shù)上的表現(xiàn)比只訓(xùn)練200輪的Roomformer分別高1.7%、2.4%、2.5%、2.5%、7.3%、8.2%、7.7%。

實(shí)驗(yàn)一的部分定性結(jié)果如圖7所示。其中,w/Pre?train表示RoomFormer在合成數(shù)據(jù)集上預(yù)訓(xùn)練400輪,在真實(shí)數(shù)據(jù)集上微調(diào)200輪,w/o Pre?train表示RoomFormer在真實(shí)數(shù)據(jù)集上訓(xùn)練200輪。由定性結(jié)果可知,經(jīng)過預(yù)訓(xùn)練的RoomFormer模型所提取的輪廓在輪廓點(diǎn)數(shù)以及輪廓形狀方面比未經(jīng)過預(yù)訓(xùn)練的模型更接近真值。

3.4.2 "實(shí)驗(yàn)二

在實(shí)驗(yàn)一得到的最優(yōu)訓(xùn)練策略的基礎(chǔ)上,對(duì)預(yù)訓(xùn)練模型所用數(shù)據(jù)量進(jìn)行相關(guān)實(shí)驗(yàn),驗(yàn)證合成數(shù)據(jù)的數(shù)據(jù)量對(duì)于RoomFormer性能的提升效果。定量結(jié)果如表3所示。

由表3結(jié)果可知,隨著預(yù)訓(xùn)練使用的數(shù)據(jù)量增加,RoomFormer在真實(shí)數(shù)據(jù)集上的性能不斷提高,當(dāng)預(yù)訓(xùn)練數(shù)據(jù)為1.2×105時(shí),模型各項(xiàng)指標(biāo)比預(yù)訓(xùn)練數(shù)據(jù)量為2.4×104時(shí)分別高0.8%、0.9%、1.3%、1.1%、1.1%、0.7%、0.9%。當(dāng)預(yù)訓(xùn)練使用的合成數(shù)據(jù)量為1.2×105時(shí),部分定性結(jié)果如圖8所示,由定性結(jié)果可知,使用數(shù)據(jù)量為1.2×105時(shí),預(yù)測(cè)的建筑物輪廓更加精確。

4 "結(jié) "語

本文針對(duì)建筑物輪廓提取任務(wù)中遙感數(shù)據(jù)豐富度有限及數(shù)據(jù)量有限的問題,提出一種基于擴(kuò)散模型DDPM的遙感數(shù)據(jù)增強(qiáng)方法。該方法使用基礎(chǔ)合成數(shù)據(jù)及真實(shí)數(shù)據(jù)訓(xùn)練集訓(xùn)練DDPM,生成大量隨機(jī)形狀數(shù)據(jù),然后使用RoomFormer在合成數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,最后遷移到真實(shí)數(shù)據(jù)上進(jìn)行微調(diào)。定量和定性的實(shí)驗(yàn)結(jié)果表明,該方法可以增加數(shù)據(jù)豐富度及復(fù)雜形狀數(shù)據(jù)的數(shù)量,提高建筑物輪廓提取的準(zhǔn)確性和魯棒性。但使用DDPM進(jìn)行建筑物輪廓數(shù)據(jù)合成時(shí),會(huì)出現(xiàn)一些不合理的數(shù)據(jù),如自交多邊形等,后續(xù)應(yīng)當(dāng)考慮對(duì)模型結(jié)構(gòu)進(jìn)行改進(jìn),或者在訓(xùn)練時(shí)加入相關(guān)條件引導(dǎo),降低模型產(chǎn)生不合理數(shù)據(jù)的比例。

注:本文通訊作者為高翔。

參考文獻(xiàn)

[1] LAFARGE F, DESCOMBES X, ZERUBIA J, et al. Automatic building extraction from DEMs using an object approach and application to the 3D?city modeling [J]. ISPRS journal of photogrammetry and remote sensing, 2008, 63(3): 365?381.

[2] ZHU L J, SHEN S H, GAO X, et al. Large scale urban scene modeling from MVS meshes [C]// Proceedings of the European Conference on Computer Vision. Heidelberg, Germany: Springer, 2018: 640?655.

[3] TURKER M, KOC?SAN D. Building extraction from high?resolution optical spaceborne images using the integration of support vector machine (SVM) classification, Hough transformation and perceptual grouping [J]. International journal of applied earth observation and geoinformation, 2015, 34: 58?69.

[4] SUN X, ZHAO W, MARETTO R V, et al. Building outline extraction from aerial imagery and digital surface model with a frame field learning framework [J]. The international archives of the photogrammetry, remote sensing and spatial information sciences, 2021, 43: 487?493.

[5] VAN ETTEN A, LINDENBAUM D, BACASTOW T M. SpaceNet: A remote sensing dataset and challenge series [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1807.01232.

[6] MOHANTY S P, CZAKON J, KACZMAREK K A, et al. Deep learning for understanding satellite imagery: An experimental survey [J]. Frontiers in artificial intelligence, 2020, 3: 534696.

[7] KINGMA D P, WELLING M. Auto?encoding variational Bayes [EB/OL]. [2019?08?04]. http://arxiv.org/abs/1312.6114.

[8] GOODFELLOW I, POUGET?ABADIE J, MIRZA M, et al. Generative adversarial networks [J]. Communications of the ACM, 2020, 63(11): 139?144.

[9] SOHL?DICKSTEIN J, WEISS E A, MAHESWARANATHAN N, et al. Deep unsupervised learning using nonequilibrium thermodynamics [C]// Proceedings of the International Conference on Machine Learning. [S.l.: s.n.], 2015: 2256?2265.

[10] HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models [C]// Proceedings of the Advances in Neural Information Processing Systems. [S.l.: s.n.], 2020: 6840?6851.

[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the Advances in Neural Information Processing Systems. [S.l.: s.n.], 2017: 5998?6008.

[12] YUE Y W, KONTOGIANNI T, SCHINDLER K, et al. Connecting the dots: Floorplan reconstruction using two?level queries [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 845?854.

[13] WANG R S, HUANG S F, YANG H X. Building3D: An urban?scale dataset and benchmarks for learning roof structures from point clouds [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2023: 20019?20029.

[14] HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time?scale update rule converge to a local Nash equilibrium [C]// Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017. [S.l.: s.n.], 2017: 6626?6637.

[15] GRETTON A, BORGWARDT K M, RASCH M J, et al. A kernel two?sample test [J]. The journal of machine learning research, 2012, 13(1): 723?773.

[16] KINGMA D P, BA J. Adam: A method for stochastic optimization [EB/OL]. [2019?06?25]. http://arxiv.org/abs/1412.6980.

[17] LOSHCHILOV I, HUTTER F. Decoupled weight decay regularization [EB/OL]. [2019?01?04]. https://arxiv.org/abs/1711.05101.

作者簡(jiǎn)介:馬孝冬(1999—),男,山東德州人,碩士研究生,研究方向?yàn)槿S計(jì)算機(jī)視覺。

朱靈杰(1992—),男,湖北黃岡人,博士研究生,算法工程師,研究方向?yàn)槿S計(jì)算機(jī)視覺。

解則曉(1968—),男,山東臨沂人,博士研究生,教授,研究方向?yàn)闄C(jī)器視覺與視覺測(cè)量。

高 "翔(1989—),男,山東臨沂人,博士研究生,副研究員,研究方向?yàn)槿S計(jì)算機(jī)視覺。

永仁县| 江安县| 乌拉特前旗| 海丰县| 桃江县| 来凤县| 三明市| 彝良县| 柏乡县| 长汀县| 天全县| 额尔古纳市| 铜鼓县| 张家界市| 沁源县| 绥化市| 崇义县| 枝江市| 三穗县| 托里县| 报价| 明星| 阿拉尔市| 林周县| 泽普县| 云阳县| 嘉兴市| 连南| 江门市| 沁阳市| 卢龙县| 云浮市| 肃南| 濮阳市| 淳化县| 大同市| 嘉鱼县| 延津县| 尚志市| 馆陶县| 乌拉特中旗|