国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

室外動(dòng)態(tài)場景圖的構(gòu)建及其三維重建方法研究

2023-04-29 08:43李健康景堯楊鈞何斌

李健 康景堯 楊鈞 何斌

摘要:合理有效的表示空間和場景語義信息是計(jì)算機(jī)視覺高級(jí)任務(wù)的基礎(chǔ)之一.目前多數(shù)場景表示工作都是基于室內(nèi)靜態(tài)環(huán)境展開的,對(duì)室外場景表示時(shí),存在三維建模結(jié)果易受到光照等干擾以及分層表示的屬性、結(jié)構(gòu)不適用的問題.故提出了一種針對(duì)室外環(huán)境的空間感知統(tǒng)一表示——室外3D動(dòng)態(tài)場景圖,根據(jù)室外場景中對(duì)象的不同尺度、種類等,對(duì)分層的屬性及邏輯進(jìn)行改進(jìn).特別針對(duì)現(xiàn)有三維重建方法易受到室外環(huán)境干擾的問題,結(jié)合深度特征度量改進(jìn)稀疏重建中關(guān)鍵點(diǎn)調(diào)整和束調(diào)整步驟,通過改進(jìn)后的關(guān)鍵點(diǎn)位置和相機(jī)位姿提高稠密重建的結(jié)果.在ETH3D數(shù)據(jù)集與自采室外圖像上進(jìn)行三維重建實(shí)驗(yàn),并從準(zhǔn)確率、完整率以及F1分?jǐn)?shù)等指標(biāo)上與其他多視幾何方法進(jìn)行了對(duì)比.實(shí)驗(yàn)結(jié)果表明,所提方法能夠更精確的重建室外場景,并且在光照等室外條件不理想情況下重建效果更好.

關(guān)鍵詞:場景理解; 室外3D動(dòng)態(tài)場景圖; 室外三維重建; 運(yùn)動(dòng)恢復(fù)結(jié)構(gòu); 多視圖立體

中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼: A

Research on construction of outdoor dynamic scene graphs and

3D reconstruction method

LI Jian KANG Jing-yao YANG Jun HE Bin(1.School of Electronic Information and Artificial Intelligence, Shaanxi University of Science & Technology,? Xi′an 710021, China;? 2.College of Electronic and Information Engineering, Tongji University, Shanghai 201804, China)

Abstract:It is one of the fundamental problems in high-level computer vision tasks to represent the scene semantic information and spatial information comprehensively.Most current work aim at the indoor static environment.When representing outdoor scenes,there are problems that the three-dimensional modeling results are susceptible to interference such as lighting and the properties and structures of the hierarchical representation are not applicable.Therefore,a unified representation of spatial perception for the outdoor environment is proposed——outdoor 3D dynamic scene map,and the properties and logic of the layer are improved according to the different scales and types of objects in the outdoor scene.In particular,aiming at the problem that the existing three-dimensional reconstruction method is susceptible to outdoor environmental interference,combined with the depth featuremetric to improve the key point adjustment and bundle adjustment steps in the sparse reconstruction,the result of the dense reconstruction is improved by improving the key point position and camera posture.3D reconstruction experiments were performed on the ETH3D dataset and the self-production outdoor images,and compared with other multi-view geometry methods in terms of accuracy,completeness and F1 score.Experimental results show that the proposed method can reconstruct the outdoor scene more accurately,and the reconstruction effect is better under the unsatisfactory outdoor conditions such as lighting.

Key words:scene understanding; outdoor 3d dynamic scene graph; 3d reconstruction; structure from motion; multi view stereo

0引言

合理有效的將一個(gè)場景中不同層次的空間和語義信息統(tǒng)一表示并形成模型結(jié)構(gòu),是推動(dòng)計(jì)算機(jī)在人機(jī)交互、自動(dòng)駕駛、智能建造等領(lǐng)域應(yīng)用的關(guān)鍵因素.Armeni等[1]針對(duì)室內(nèi)場景,首先利用激光掃描獲取室內(nèi)場景的高精度三維模型,其次使用場景圖[2]結(jié)構(gòu),建立了對(duì)象、3D空間和相機(jī)之間的關(guān)系;同樣針對(duì)室內(nèi)場景,Rosinol等[3]首先對(duì)采用雙目相機(jī)獲取到的圖像和IMU(Inertial Measurement Unit)信息進(jìn)行處理,使用Kimera這種方法[4]恢復(fù)場景的三維網(wǎng)格信息,然后提出了3D動(dòng)態(tài)場景圖(3D Dynamic Scene Graphs, DSG)作為可操作空間感知的統(tǒng)一表示,添加了動(dòng)態(tài)對(duì)象的語義信息,通過五層不同抽象的層捕獲場景的三維幾何和語義信息.目前多數(shù)工作都是針對(duì)室內(nèi)場景,相較于室外場景的規(guī)模,對(duì)象之間不同的尺度、種類,以及豐富的區(qū)域?qū)傩缘忍攸c(diǎn),上述工作在進(jìn)行室外場景表示時(shí),可能會(huì)造成分層邏輯混亂、對(duì)象語義不完整等情況.

因此本文針對(duì)室外場景與室內(nèi)場景的差異,在DSG[3]的基礎(chǔ)上,提出了室外3D動(dòng)態(tài)場景圖(Outdoor 3D Dynamic Scene Graphs,ODSG),根據(jù)室外場景的規(guī)模、對(duì)象尺度、種類等特點(diǎn),劃分不同的層次,支撐對(duì)室外場景的表示,并且可以通過更改不同節(jié)點(diǎn)的屬性關(guān)系,為其他計(jì)算機(jī)視覺任務(wù)提供不同級(jí)別的抽象信息特征.

三維模型作為3D場景圖的基礎(chǔ),能夠提供任意的3D、遮擋等信息,并且ODSG中不同計(jì)算機(jī)任務(wù)的執(zhí)行也依賴一個(gè)精確的三維模型.為了從圖像中重建出完整的場景三維模型,通用的方法是將重建分解為圖像檢索、圖像特征點(diǎn)匹配、稀疏重建和稠密重建等步驟.特征匹配作為重建的上游任務(wù),特征點(diǎn)提取的準(zhǔn)確與否決定了最終的重建效果.而在室外場景中,由于光照、幾何約束條件不理想等問題,會(huì)導(dǎo)致特征點(diǎn)的提取存在很大誤差.因此本文結(jié)合深度特征的魯棒性,通過深度特征度量優(yōu)化傳統(tǒng)重建方法,提高重建模型的精度.

綜上所述,本文的主要貢獻(xiàn)是定義了室外3D場景圖ODSG的框架,并且對(duì)ODSG中的三維重建模塊進(jìn)行了改進(jìn),結(jié)合深度特征解決室外三維建模中由于光照和約束不足造成的影響,提高稠密重建的質(zhì)量.

1相關(guān)工作

1.1場景圖

場景圖是一種流行的計(jì)算機(jī)圖形模型,通過節(jié)點(diǎn)表示場景中的對(duì)象、邊表示節(jié)點(diǎn)間的關(guān)系,并進(jìn)而描述、操作和渲染復(fù)雜的場景.相較于其他圖像的表示,場景圖包含了更多的視覺、語義、邏輯等信息.傳統(tǒng)的場景圖通常用于描述計(jì)算機(jī)視覺中的2D圖像內(nèi)容,目前已經(jīng)被用在圖像檢索、動(dòng)作檢測、視覺回答等領(lǐng)域.但傳統(tǒng)的場景圖出現(xiàn)于深度學(xué)習(xí)之前,因此缺少了高級(jí)語義理解.Kim等[5]開創(chuàng)了3D場景圖在機(jī)器人和計(jì)算機(jī)視覺中的應(yīng)用,但他們只捕獲了對(duì)象,缺少多個(gè)可以操作的層次.Armeni等[1]設(shè)計(jì)了一個(gè)半自動(dòng)的框架,構(gòu)建了場景中對(duì)象、相機(jī)語義以及實(shí)體間關(guān)系的場景圖,克服了手工制作耗時(shí)耗力的難題.目前多數(shù)工作的研究重點(diǎn)都是針對(duì)室內(nèi)環(huán)境的,針對(duì)室外環(huán)境的工作還十分匱乏,但隨著數(shù)字孿生、智能建造等概念的提出,面向室外的場景圖表示也有大量的需求.

1.2三維重建

早期的三維重建方法通常使用圖像檢索、圖像特征點(diǎn)匹配、稀疏重建和稠密重建等子步驟完成重建.其中稀疏重建是根據(jù)圖像中的2D特征點(diǎn)進(jìn)行匹配,獲取稀疏點(diǎn)云和相機(jī)位姿,是三維重建的核心任務(wù).稠密重建是根據(jù)場景中相機(jī)的位姿參數(shù),獲取更豐富的場景表達(dá)形式[6].但傳統(tǒng)方法依賴于場景中的幾何關(guān)系,對(duì)于弱紋理、光線不理想以及遮擋等情況的重建仍然有一定的挑戰(zhàn).

近年來,由于神經(jīng)網(wǎng)絡(luò)的發(fā)展,人們提出各種基于學(xué)習(xí)的重建方法.Eigen等[7]已經(jīng)將基于監(jiān)督學(xué)習(xí)的模型成功應(yīng)用于單幅圖像深度估計(jì).但是利用監(jiān)督學(xué)習(xí)方法訓(xùn)練這些模型需要場景準(zhǔn)確的深度信息,而在室外場景中往往難以獲得這些深度信息.為了解決這個(gè)問題,Mayer等[8]研究在合成數(shù)據(jù)集上進(jìn)行訓(xùn)練 ,Chen等[9]通過收集相對(duì)深度注釋,并且將圖像映射到深度函數(shù),表示成神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí).雖然這些研究在一定程度上克服了監(jiān)督學(xué)習(xí)的問題,但是大量的數(shù)據(jù)集依舊是一個(gè)挑戰(zhàn),自監(jiān)督學(xué)習(xí)方法因其能夠從原始立體對(duì)(Godard等[10])或者單目視頻(Zhou等[11]) 中直接學(xué)習(xí)單目深度估計(jì)模型的能力,而受到了很大的關(guān)注.自監(jiān)督學(xué)習(xí)的核心思想是應(yīng)用可微翹曲,使光度重投影的誤差最小.Godard等[10]利用Spatial Transformer Networks將立體圖像右側(cè)和左側(cè)圖像所預(yù)測出的深度幾何變化,合成為左側(cè)圖像.然后使用結(jié)構(gòu)相似度和額外的深度正則化,以完全可微的方式定義合成圖像和原始左圖像之間的損失,從而允許深度網(wǎng)絡(luò)以端到端的方式進(jìn)行自監(jiān)督.

但是在室外環(huán)境寬基線、深度范圍較大的情況下,傳統(tǒng)方法基于強(qiáng)烈的幾何約束,重建結(jié)果準(zhǔn)確率優(yōu)于基于學(xué)習(xí)的方法.因此針對(duì)室外環(huán)境的三維重建,本文選擇在傳統(tǒng)方法上進(jìn)行改進(jìn),通過融入深度特征,以提升室外場景三維重建方法的魯棒性.

2ODSG與三維重建方法

2.1ODSG框架

室外3D動(dòng)態(tài)場景圖(ODSG)是一種針對(duì)室外場景的可操作空間感知的統(tǒng)一表示,它在不同的抽象層次上捕獲場景的三維幾何和語義信息,并對(duì)靜態(tài)對(duì)象、動(dòng)態(tài)對(duì)象、地點(diǎn)、結(jié)構(gòu)以及其之間的視覺關(guān)系進(jìn)行建模,其框架如圖1所示.ODSG是一個(gè)具有分層結(jié)構(gòu)的有向圖,每一層均有一組節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都包含一組具體實(shí)例空間坐標(biāo)、形狀或邊界框信息的屬性,節(jié)點(diǎn)之間均有一條表示關(guān)系的邊.ODSG將場景的抽象級(jí)別從低到高分為:(1)度量語義網(wǎng)格層(Metric-Semantic Mesh Layer,M);(2)對(duì)象層(Objects Layer,O);(3)結(jié)構(gòu)層(Structures Layer,S);(4)區(qū)域?qū)樱≧eigon Layer,R);(5)建筑層(Building Layer,B).層次劃分以及對(duì)應(yīng)元素、屬性、不同層次之間的關(guān)系如表1所示.

(1)度量語義網(wǎng)格層:ODSG的最底層是場景的三維模型,該層中的節(jié)點(diǎn)是三維點(diǎn)(區(qū)域頂點(diǎn)),每個(gè)節(jié)點(diǎn)均具有兩個(gè)屬性:(i)三維位置;(ii)全景語義標(biāo)簽,節(jié)點(diǎn)關(guān)系包括:本層節(jié)點(diǎn)之間的相對(duì)空間信息(M,M)以及節(jié)點(diǎn)與上層父級(jí)之間的關(guān)系(M,O).

(2)對(duì)象層:對(duì)象層主要由語義注釋的圖像分割與目標(biāo)檢測數(shù)據(jù)所構(gòu)成,其中包含兩種類型的節(jié)點(diǎn):靜態(tài)對(duì)象與動(dòng)態(tài)對(duì)象.

靜態(tài)對(duì)象表示環(huán)境中非結(jié)構(gòu)化的靜態(tài)元素(桌椅、路標(biāo)等),該層中的節(jié)點(diǎn)是三維包圍框中心點(diǎn),每個(gè)節(jié)點(diǎn)均具有兩個(gè)屬性:(i)邊界框;(ii)語義標(biāo)簽.

動(dòng)態(tài)對(duì)象代表室外場景中的動(dòng)態(tài)實(shí)體,包括非剛性類與剛性類.雖然存在許多類型的動(dòng)態(tài)實(shí)體,但在這里為了不失一般性,ODSG主要關(guān)注兩類:非剛性的人類,剛性的車類.本層節(jié)點(diǎn)具有兩個(gè)共同的屬性:(i)3D包圍框;(ii)語義類.而非剛性類節(jié)點(diǎn)還具有3D位姿信息,3D位姿信息是由數(shù)學(xué)離散模型中定義的節(jié)點(diǎn)和邊組成的,節(jié)點(diǎn)是某時(shí)刻的位姿,邊是相對(duì)測量的位姿.節(jié)點(diǎn)關(guān)系包括:可見性、相對(duì)大小、距離、是否接觸等同層關(guān)系(O,O)、上層父級(jí)關(guān)系(O,S)與下層子級(jí)關(guān)系(O,M).

(3)結(jié)構(gòu)層:結(jié)構(gòu)層是不同空間之間的分隔物,這一層的主要任務(wù)為:捕獲不同空間之間的分割部件(道路、圍欄、墻壁等).將場景分割成不同功能區(qū)域的結(jié)構(gòu)集合,結(jié)構(gòu)的節(jié)點(diǎn)屬性包括邊界框、語義標(biāo)簽與三維空間信息;節(jié)點(diǎn)的關(guān)系分為同層位置關(guān)系(S,S),以及集合內(nèi)區(qū)域和結(jié)構(gòu)關(guān)系(S,R)三種.

(4)區(qū)域?qū)樱簠^(qū)域?qū)用枋隽藞鼍爸斜环指畹膮^(qū)域情況,節(jié)點(diǎn)分別對(duì)應(yīng)著被分割的各個(gè)區(qū)域.每個(gè)節(jié)點(diǎn)均具有三個(gè)屬性:(i)三維信息;(ii)邊界框和(iii)語義標(biāo)簽(休閑區(qū)、施工區(qū)、飲食區(qū)等).節(jié)點(diǎn)關(guān)系包括:區(qū)域之間的空間信息(R,R)、區(qū)域與上層父級(jí)的關(guān)系(R,B)、區(qū)域與下層子級(jí)關(guān)系(R,S).

(5)建筑層:建筑層描述了不同建筑物的信息,以建筑物為節(jié)點(diǎn).每個(gè)節(jié)點(diǎn)均具有三個(gè)屬性:(i)三維信息;(ii)邊界框;(iii)語義標(biāo)簽(如辦公樓、住房樓).節(jié)點(diǎn)關(guān)系包括:建筑物之間的空間信息(B,B)、建筑物與下層子級(jí)關(guān)系(B,R)兩種.

ODSG的基礎(chǔ)是度量語義網(wǎng)格層,該層中的元素為場景中的3D模型.在對(duì)整個(gè)場景以及場景中的對(duì)象、區(qū)域、建筑等進(jìn)行3D建模后,ODSG使用SMPL[12]模型對(duì)場景中的人類進(jìn)行建模,之后用語義分割算法提取節(jié)點(diǎn)的語義信息,通過關(guān)系網(wǎng)絡(luò)提取各節(jié)點(diǎn)的關(guān)系,將不同的層次連接起來,最終整合節(jié)點(diǎn)的屬性和關(guān)系構(gòu)建ODSG.由于度量語義網(wǎng)格層的模型精度會(huì)影響到ODSG后續(xù)的操作,因此本文接下來主要聚焦于ODSG中度量語義網(wǎng)格層的三維重建任務(wù).

2.2三維重建改進(jìn)

目前,使用最廣泛的三維重建方法就是COLMAP[13].COLMAP不斷對(duì)主流三維重建中多個(gè)關(guān)鍵技術(shù)進(jìn)行改進(jìn)和優(yōu)化,用于稀疏重建、稠密重建和表面重建.但是Germain等[14]的實(shí)驗(yàn)表明,COLMAP使用的SIFT算子(Scale Invariant Feature Transform)在視覺變換強(qiáng)烈的室外環(huán)境會(huì)產(chǎn)生一定誤差,基于深度學(xué)習(xí)的特征提取方法在光照和約束條件不足的情況下表現(xiàn)更加優(yōu)異.本文受Lindenberger等[15]的啟發(fā),利用深度特征度量約束關(guān)鍵點(diǎn)之間的位置,對(duì)COLMAP方法進(jìn)行改進(jìn),使得在光照和約束條件不足的室外環(huán)境場景三維重建中表現(xiàn)得更加優(yōu)異.

本文方法框架如圖2所示,對(duì)于一組輸入的圖像,首先執(zhí)行SFM(Structure from Motion)以實(shí)現(xiàn)面向稀疏重建的特征匹配,同時(shí)提取輸入圖像的深度特征;在試探性匹配后,通過最小化稀疏關(guān)鍵點(diǎn)之間的深度特征度量,優(yōu)化關(guān)鍵點(diǎn)的位置;之后使用優(yōu)化后的關(guān)鍵點(diǎn)進(jìn)行后續(xù)的SFM操作.完成SFM操作后,用深度特征度量代替?zhèn)鹘y(tǒng)束調(diào)整方法中3D點(diǎn)和重投影點(diǎn)之間的距離,通過最小化深度特征度量,獲得更準(zhǔn)確的相機(jī)位姿和關(guān)鍵點(diǎn)的3D位置.接著使用COLMAP中的MVS(Mulit View Stereo)方法實(shí)現(xiàn)稠密重建,輸入優(yōu)化后的相機(jī)位姿和稀疏點(diǎn)云,完成后續(xù)的稠密重建工作;最終使用更精確的三維點(diǎn)云構(gòu)建ODSG.

在SFM稀疏重建的操作中,空間位置中的某一個(gè)3D點(diǎn)是由許多不同視角的2D稀疏關(guān)鍵點(diǎn)觀察得到,這些2D稀疏關(guān)鍵點(diǎn)之間的對(duì)應(yīng)關(guān)系被稱為軌跡.SFM稀疏重建的幾何驗(yàn)證就是通過2D關(guān)鍵點(diǎn)的對(duì)應(yīng)關(guān)系進(jìn)行的.由于3D點(diǎn)在每個(gè)圖像平面上只有一個(gè)投影點(diǎn),所以有效的軌跡在一幅圖片中只能包含一個(gè)關(guān)鍵點(diǎn).根據(jù)這一特性,本文借鑒Dusmanu等[16]的軌跡分離算法,在試探性匹配階段采用貪心策略,設(shè)所有軌跡中的節(jié)點(diǎn)集合為V,對(duì)V中任意兩個(gè)連接不同軌跡的節(jié)點(diǎn)u和v,以及邊u→v進(jìn)行精煉.只有當(dāng)u和v的patch來自不同的圖像時(shí),連接這兩條軌跡,該方法能夠有效地刪除大多數(shù)不正確的匹配,降低匹配中的噪聲.下面重點(diǎn)對(duì)本文方法中不同于傳統(tǒng)方法的關(guān)鍵點(diǎn)調(diào)整優(yōu)化和束調(diào)整優(yōu)化做進(jìn)一步闡釋.

(2)束調(diào)整優(yōu)化.傳統(tǒng)的束調(diào)整通過最小化關(guān)鍵點(diǎn)與重投影關(guān)鍵點(diǎn)之間的差值,來獲得最優(yōu)的相機(jī)參數(shù)和三維空間的關(guān)鍵點(diǎn)坐標(biāo).與傳統(tǒng)方法不同,本文采用方法是通過最小化深度特征點(diǎn)之間的距離來進(jìn)行優(yōu)化.首先采用公式(2)找到一個(gè)與軌跡j中所有關(guān)鍵點(diǎn)距離最小的向量,

3實(shí)驗(yàn)結(jié)果與討論

3.1數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

本文的定量與定性實(shí)驗(yàn)均使用ETH3D High-Res數(shù)據(jù)集[18]中的室外場景展開.ETH3D數(shù)據(jù)集提供了毫米級(jí)的相機(jī)位姿和激光掃描儀重建的稠密地面真實(shí)值,對(duì)于每個(gè)場景的地面真實(shí)值記錄2 800萬個(gè)點(diǎn).ETH3D數(shù)據(jù)集使用專業(yè)的單反相機(jī)進(jìn)行采集,采集圖像為2 400萬像素,分辨率為6 048×4 032像素.除此之外,為了驗(yàn)證本文采用方法的泛化能力,本文定性實(shí)驗(yàn)中還對(duì)自采的室外校訓(xùn)石圖像進(jìn)行了三維重建.

ETH3D數(shù)據(jù)集從完整率(ACC)、準(zhǔn)確率(COM)以及F1分?jǐn)?shù)三個(gè)方面對(duì)點(diǎn)云模型進(jìn)行評(píng)估.輸入生成的點(diǎn)云文件,通過和真值點(diǎn)云進(jìn)行計(jì)算可以得到評(píng)估的數(shù)據(jù).其中,完整率定義為:與最近重建點(diǎn)的距離小于一定閾值的地面真實(shí)點(diǎn)的數(shù)量;準(zhǔn)確率定義為:在距離閾值內(nèi)的重建點(diǎn)和所有點(diǎn)的比值;F1分?jǐn)?shù)綜合考量準(zhǔn)確率和完整率,定義為:

3.2實(shí)驗(yàn)細(xì)節(jié)

3.3實(shí)驗(yàn)結(jié)果及其分析

3.3.1定量分析

本節(jié)通過與其他主流傳統(tǒng)方法進(jìn)行對(duì)比評(píng)估,以驗(yàn)證本文所用方法的有效性.實(shí)驗(yàn)結(jié)果如表2所示.可以看出,本文方法在1 cm和2 cm范圍無論從準(zhǔn)確率、完整率還是F1分?jǐn)?shù)均優(yōu)于其他方法,雖然在5 cm閾值內(nèi)沒有達(dá)到最好的結(jié)果,但是總體上趨向于最好的結(jié)果.在運(yùn)行時(shí)間方面,Gipuma表現(xiàn)更好,本文方法與COLAMP方法耗時(shí)相近.

這是因?yàn)楸疚脑贑OLMAP的方法中結(jié)合了深度學(xué)習(xí)的方法,因此表現(xiàn)優(yōu)于COLMAP與Gipuma[19].而Gipuma方法首先使用SFM進(jìn)行稀疏重建,獲取相機(jī)參數(shù),之后利用多視幾何方法進(jìn)行稠密重建,在多視幾何的PatchMatch流程中,Gipuma采用了紅黑棋盤的傳播策略,能夠充分利用GPU實(shí)現(xiàn)大規(guī)模并行操作,提高了算法的效率,但是Gipuma方法并沒有使用視圖選擇策略,這會(huì)導(dǎo)致在視圖選擇中,沒有優(yōu)先選擇具有足夠基線、類似分辨率及非傾斜拍攝方向的圖像,導(dǎo)致重建的魯棒性下降.COLMAP方法同樣首先使用SFM方法進(jìn)行稀疏重建,獲取相機(jī)參數(shù),之后使用多視幾何方法進(jìn)行稠密重建,區(qū)別在于稠密重建時(shí)PatchMatch流程中選擇的策略不同.COLMAP使用了從上到下、從左到右的傳播策略,并且選擇了基于馬爾科夫鏈模型的視圖選擇策略,以運(yùn)行時(shí)間為代價(jià)提高重建結(jié)果,因此在性能方面優(yōu)于Gipuma.

3.3.2定性分析

為了進(jìn)一步驗(yàn)證本文方法的有效性,本節(jié)對(duì)校訓(xùn)石和ETH3D數(shù)據(jù)集中的室外場景進(jìn)行重建.實(shí)驗(yàn)結(jié)果如圖3所示.其中,圖3(a)為校訓(xùn)石的稠密重建,圖3(b)為數(shù)據(jù)集中室外場景(facade)的稠密重建,可以看出COLMAP可以較完整的重建場景,但由于圖3(a)中采集的圖像處于逆光狀態(tài),導(dǎo)致紅框中的細(xì)節(jié)受到噪聲影響,而改進(jìn)后的方法可以更好的恢復(fù)結(jié)果;在圖3(b)場景中,由于重復(fù)紋理區(qū)域以及噪聲干擾,COLMAP方法中的特征提取及匹配會(huì)出現(xiàn)一定誤差,導(dǎo)致區(qū)域幾何結(jié)構(gòu)不正確,像素置信度降低,在結(jié)果中出現(xiàn)空洞,而本文方法在特征提取時(shí)結(jié)合神經(jīng)網(wǎng)絡(luò),增加了方法在特征提取時(shí)的魯棒性,同時(shí)能夠剔除一部分有誤差的匹配,因此表現(xiàn)優(yōu)于COLMAP方法.驗(yàn)證了融合傳統(tǒng)方法和深度學(xué)習(xí)方法在室外情況下的重建能力.

3.3.3消融實(shí)驗(yàn)

為驗(yàn)證本文引入方法的有效性,分析結(jié)合深度特征度量對(duì)重建的影響,本文從稀疏重建和稠密重建兩部分進(jìn)行關(guān)鍵點(diǎn)調(diào)整模塊(EFKA)和束調(diào)整模塊(EFBA)的消融實(shí)驗(yàn).實(shí)驗(yàn)在ETH3D數(shù)據(jù)集中的6個(gè)室外場景上進(jìn)行,最終結(jié)果為6個(gè)場景評(píng)估數(shù)值的平均值.

稀疏重建的實(shí)驗(yàn)結(jié)果如表3所示,第一行是無任何優(yōu)化的稀疏重建結(jié)果,第二行是添加本文的關(guān)鍵點(diǎn)優(yōu)化EFKA的結(jié)果,在1 cm、2 cm、5 cm閾值的條件下,準(zhǔn)確率分別提升了13.89%、10.65%、6.06%,完整率分別提升了0.05%、0.17%、0.71%,準(zhǔn)確率和完整率均有提高;第三行是添加本文的束優(yōu)化EFBA結(jié)果,在1 cm、2 cm、5 cm閾值的條件下,準(zhǔn)確率分別提升了16.8%、13.59%、8.59%,完整率分別提升了0.06%、0.22%、0.86%,準(zhǔn)確率有較大的提高,完整率也有所提高;第四行是同時(shí)添加關(guān)鍵點(diǎn)優(yōu)化和束優(yōu)化的結(jié)果,達(dá)到了最好的效果,準(zhǔn)確率較無任何優(yōu)化的方法分別提升了18.37%、15.13%、9.27%,完整率分別提升了0.06%、0.24%、0.96%.傳統(tǒng)SFM使用SIFT算子提取關(guān)鍵點(diǎn),并利用關(guān)鍵點(diǎn)進(jìn)行后續(xù)的步驟,因此關(guān)鍵點(diǎn)的準(zhǔn)確與否對(duì)重建結(jié)果影響很大.本文方法采用深度特征代替關(guān)鍵點(diǎn),實(shí)驗(yàn)的準(zhǔn)確率提升較大.

針對(duì)稠密重建,為了驗(yàn)證束調(diào)整對(duì)相機(jī)位姿、3D關(guān)鍵點(diǎn)位置的影響,實(shí)驗(yàn)采用SFM估計(jì)的相機(jī)參數(shù)進(jìn)行稠密重建,并使用ICP算法(Iterative Closest Point)與真值進(jìn)行配準(zhǔn)后,在1 cm、2 cm、5 cm的閾值內(nèi)進(jìn)行評(píng)估.實(shí)驗(yàn)結(jié)果如表4所示,其中第一行是未做任何優(yōu)化的結(jié)果,第二行是添加關(guān)鍵點(diǎn)優(yōu)化(EFKA)的結(jié)果,整體結(jié)果均有提升,F(xiàn)1整體結(jié)果分別提升了2.48、4.68、1.95;第三行是添加束優(yōu)化(EFBA)的結(jié)果,準(zhǔn)確率有較大提升,完整度也有提升,F(xiàn)1整體結(jié)果分別提升了2.02、4.28、7.74;第四行是聯(lián)合優(yōu)化的結(jié)果,準(zhǔn)確率在1 cm、2 cm閾值均有提升,完整度有較大提升,F(xiàn)1整體結(jié)果分別提升了1.88、6.29、10.36.由于ICP配準(zhǔn)算法的誤差存在,可能導(dǎo)致某項(xiàng)指標(biāo)結(jié)果上下略有浮動(dòng),但是整體結(jié)果趨勢(shì)表明:結(jié)合深度特征度量的優(yōu)化能夠有效提高稠密重建的結(jié)果.

4結(jié)論

本文構(gòu)建了具有五層空間感知表示支撐的室外3D動(dòng)態(tài)場景圖,根據(jù)室外場景對(duì)象的不同尺度、種類以及功能進(jìn)行分層表示;并且通過結(jié)合深度特征,對(duì)度量語義網(wǎng)格層的三維重建進(jìn)行改進(jìn),提升在室外視覺情況下重建的魯棒性.三維重建的效果在ETH3D數(shù)據(jù)集中以及實(shí)際場景中都取得了一定的進(jìn)步,但是重建的完整性仍然有提升的空間.在后續(xù)工作中,將結(jié)合基于學(xué)習(xí)的方法,利用其強(qiáng)大的數(shù)據(jù)先驗(yàn)?zāi)芰M(jìn)一步改進(jìn)三維重建效果,提高重建的完整率.

參考文獻(xiàn)

[1] Armeni I,He Z Y,Gwak J Y,et al.3d scene graph:A structure for un-ified semantics,3d space,and camera[C]//Proceedings of the IEEE/C IEEE/CVF International Conference on Computer Vision.Seoul:IEEE,2019:5 664-5 673.

[2] Johnson J,Krishna R,Stark M,et al.Image retrieval using scene graphs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:3 668-3 678.

[3] Rosinol A,Gupta A,Abate M,et al.3D dynamic scene graphs:Actionable spatial perception with places,objects,and humans[DB/OL].https://arxiv.org/abs/2002.06289,2020-06-16.

[4] Rosinol A,Abate M,Chang Y,et al.Kimera:An open-source library for real-time metric-semantic localization and mapping[C]//2020 IEEE International Conference on Robotics and Automation (ICRA).Paris:IEEE,2020:1 689-1 696.

[5] Kim U H,Park J M,Song T J,et al.3d scene graph:A sparse and semantic representation of physical environments for intelligent agents[J].IEEE Transactions on cybernetics,2019,50(12):4 921-4 933.

[6] 顏深,張茂軍,樊亞春,等.大規(guī)模室外圖像3維重建技術(shù)研究進(jìn)展[J].中國圖象圖形學(xué)報(bào),2021,26(6):1 429-1 449.

[7] Eigen D,Puhrsch C,F(xiàn)ergus R.Depth map prediction from a single image using a multi-scale deep network[J].Advances in Neural Information Processing Systems,2014,27(2):2 366-2 374.

[8] Mayer N,Ilg E,Hausser P,et al.A large dataset to train convolutional networks for disparity,optical flow,and scene flow estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:4 040-4 048.

[9] Chen W,F(xiàn)u Z,Yang D,et al.Single-image depth perception in the wild[J].Advances in Neural Information Processing Systems,2016,29:730-738.

[10] Godard C,Mac Aodha O,Brostow G J.Unsupervised monocular depth estimation with left-right consistency[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:270-279.

[11] Zhou H,Ummenhofer B,Brox T.Deeptam:Deep tracking and mapping[C]//Proceedings of the European Conference on Computer Vision (ECCV).Munich:Springer,2018:822-838.

[12] Loper M,Mahmood N,Romero J,et al.SMPL:A skinned multi-person linear model[J].ACM Transactions on Graphics (TOG),2015,34(6):1-16.

[13] Schonberger J L,F(xiàn)rahm J M.Structure-from-motion revisited[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Lasvegas:IEEE,2016:4 104-4 113.

[14] Germain H,Bourmaud G,Lepetit V.S2dnet:Learning accurate correspondences for sparse-to-dense feature matching[DB/OL].https://arxiv.org/abs/2004.01673,2020-04-03.

[15] Lindenberger P,Sarlin P E,Larsson V,et al.Pixel-perfect structure-from-motion with featuremetric refinement[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Montreal:IEEE,2021:5 987-5 997.

[16] Dusmanu M,Schnberger J L,Pollefeys M.Multi-view optimization of local feature geometry[C]//European Conference on Computer Vision.Glasgow:Springer,2020:670-686.

[17] Hampel F R,Ronchetti E M,Rousseeuw P J,et al.Robust statistics:The approach based on influence functions[M].New York:John Wiley & Sons,2011.

[18] Schops T,Schonberger J L,Galliani S,et al.A multi-view stereo benchmark with high-resolution images and multi-camera videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:3 260-3 269.

[19] Galliani S,Lasinger K,Schindler K.Massively parallel multiview stereopsis by surface normal diffusion [C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:873-881.

【責(zé)任編輯:蔣亞儒】

威海市| 昭通市| 甘泉县| 墨江| 临洮县| 兰考县| 平山县| 茌平县| 迭部县| 阿拉善左旗| 贡嘎县| 吐鲁番市| 新巴尔虎右旗| 阳朔县| 勃利县| 安阳市| 贵定县| 易门县| 永顺县| 沁阳市| 洪洞县| 道真| 龙口市| 长白| 独山县| 霍山县| 三穗县| 松原市| 巴中市| 迁西县| 如东县| 南岸区| 新晃| 和林格尔县| 万州区| 思南县| 宝兴县| 潮安县| 宁津县| 东至县| 江城|