摘 要:
在計算機(jī)視覺和圖形學(xué)領(lǐng)域,多視圖物體表面重建是一個重要的研究方向。符號距離函數(shù)的體渲染技術(shù)是一種新興的物體表面重建方法,因其在復(fù)雜場景重建中的出色表現(xiàn)受到人們廣泛關(guān)注。旨在對符號距離函數(shù)的體渲染技術(shù)進(jìn)行全面分析和總結(jié),為未來研究人員提供參考。首先介紹了有向符號距離函數(shù)的基本原理及其在體渲染技術(shù)中的應(yīng)用;隨后,從提升表面重建質(zhì)量、加快訓(xùn)練速度、稀疏視圖重建、重光照和材料編輯、特定場景重建等方面整理分析了該領(lǐng)域的關(guān)鍵模型改進(jìn)和技術(shù)進(jìn)展;此外,還對比分析了不同模型在速度和性能方面的表現(xiàn),并簡要介紹了模型評估的主要指標(biāo)和公開數(shù)據(jù)集;最后,對該領(lǐng)域的研究現(xiàn)狀進(jìn)行了總結(jié),并對未來的研究前景進(jìn)行了展望和探討。
關(guān)鍵詞:符號距離函數(shù);體渲染技術(shù);物體表面重建
中圖分類號:TP391.9"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號:1001-3695(2024)12-002-3533-10
doi: 10.19734/j.issn.1001-3695.2024.05.0242
Review of research on volume rendering surface reconstruction based on signed distance function
Yu Yinga,b, Wan Yiqiana, Hong Hana, Ye Qinga,b
(a.School of Computer Science, b.Key Laboratory of Artificial Intelligence in Chinese Medicine, Jiangxi University of Chinese Medicine, Nanchang 330004, China)
Abstract:
In the fields of computer vision and graphics, multi-view object surface reconstruction is a significant research direction. SDF volume rendering, as an emerging method for object surface reconstruction, garners widespread attention due to its outstanding performance in reconstructing complex scenes. This study provided a comprehensive analysis and summary of SDF volume rendering techniques, serving as a reference for future researchers. Firstly, this paper introduced the fundamental principles of directed SDF and its application in volume rendering technology. Subsequently, it organized and analyzed key model improvements and technological advancements in areas such as enhancing surface reconstruction quality, accelerating training speed, sparse view reconstruction, relighting, and material editing, as well as specific scene reconstruction. Additio-nally, this paper compared the speed and performance of different models and briefly introduced the main evaluation metrics and publicly available datasets. Finally, it summarized the current research status in this field, discussed and explored the future research prospects.
Key words:signed distance function(SDF); volume rendering technology; object surface reconstruction
0 引言
在計算機(jī)視覺和計算機(jī)圖形學(xué)領(lǐng)域中,多視圖物體表面重建一直是一個重要的研究方向。傳統(tǒng)的多視圖立體法(multi-view stereo, MVS)在處理復(fù)雜場景時往往面臨諸多挑戰(zhàn)。近年來,神經(jīng)輻射場(neural radiance field, NeRF)技術(shù)的突破性發(fā)展為這一問題提供了新的解決思路。NeuS[1]和VolSDF[2]引入有向符號距離函數(shù)(SDF)隱式表示三維物體表面,顯著提高了物體表面三維重建的質(zhì)量。由于目前還未有針對SDF體渲染重建技術(shù)的綜述性文章,所以,本文全面回顧和總結(jié)基于SDF的神經(jīng)隱式曲面重建的最新研究進(jìn)展,以助人們更好地追蹤和深入理解該領(lǐng)域的動態(tài)發(fā)展。
1 神經(jīng)隱式曲面
1.1 多視圖曲面重建
傳統(tǒng)的多視圖三維重建方法通常可以分為深度估計的特征匹配法[3~6]和基于體素的形狀表示法[7~10]兩類。在深度估計的特征匹配方法中,首先需要從圖像中提取特征,并在不同視圖之間進(jìn)行匹配以估計深度。然后,將預(yù)測的深度圖融合生成密集點(diǎn)云。最后利用泊松表面重建等方法[11]將三維表面進(jìn)行網(wǎng)格化。然而,這種方法受匹配準(zhǔn)確性影響較大,對于紋理較弱的物體,匹配過程中常產(chǎn)生嚴(yán)重的偽影和缺失。而基于體素重建的方法則是通過從多視角圖像中估計體素網(wǎng)格的占用和顏色,并評估每個體素的顏色一致性,從而規(guī)避了特征匹配的困難??墒怯捎谑艿娇蓪?shí)現(xiàn)的體素分辨率的限制,該方法也無法實(shí)現(xiàn)高精度的重建。近年來,一些方法通過引入歸納偏差,將三維理解嵌入到深度學(xué)習(xí)框架中。這些歸納偏差可以是顯式表示,如體素網(wǎng)格、點(diǎn)云和網(wǎng)格,也可以是隱式表示,如圖1所示。其中,由于神經(jīng)網(wǎng)絡(luò)編碼隱式表示的連續(xù)性和高空間分辨率受到人們廣泛關(guān)注,這些方法通過使用連續(xù)函數(shù)對空間中的物體進(jìn)行隱式表達(dá),實(shí)現(xiàn)了高效的三維結(jié)構(gòu)編碼,例如,占用預(yù)測網(wǎng)絡(luò)[12]和SDF[13]利用神經(jīng)網(wǎng)絡(luò)來逼近一個連續(xù)可微的信號,并在神經(jīng)網(wǎng)絡(luò)中對該信號進(jìn)行編碼。另外,隱式神經(jīng)表征還可以在任意空間分辨率下進(jìn)行采樣,克服了顯示表征在分辨率上的限制,并成功應(yīng)用于形狀表示、新視圖合成和多視圖3D重建等領(lǐng)域。
1.2 神經(jīng)輻射場
神經(jīng)輻射場是一種將三維重建技術(shù)和神經(jīng)渲染技術(shù)相結(jié)合的新視圖合成方法。該方法使用多層感知器(multilayer perceptron,MLP)來學(xué)習(xí)3D場景體積密度以及顏色等物理屬性,通過優(yōu)化連續(xù)的體積場景,從而實(shí)現(xiàn)對場景的高精度渲染。如圖2[14]所示,通過輸入三維空間位置(x, y, z)和觀察方向 (θ, φ),利用MLP模型來預(yù)測每個三維點(diǎn)的RGB顏色值和體積密度。接著,通過體積渲染技術(shù),模擬光線在場景中穿越多個三維點(diǎn)時的累積效應(yīng),從而生成高精度的二維圖像。在訓(xùn)練過程中,從攝像機(jī)位置出發(fā),沿光線方向采樣多個三維點(diǎn),并使用MLP模型預(yù)測這些點(diǎn)的顏色和密度。然后,將渲染圖像與真實(shí)圖像進(jìn)行比較,計算它們之間的差異來定義渲染損失。通過使用優(yōu)化算法不斷調(diào)整MLP的參數(shù),最小化渲染損失,使得渲染的圖像與真實(shí)圖像之間的差異逐漸減小。通過這種方式,NeRF能夠精確地重建復(fù)雜的三維場景,并生成高質(zhì)量的渲染圖像。
在此基礎(chǔ)上,許多研究者對NeRF模型[14]進(jìn)行了改進(jìn)和優(yōu)化[15~19],并有相關(guān)文獻(xiàn)總結(jié)了其最新進(jìn)展[20~22]。盡管NeRF在生成新視角圖像方面表現(xiàn)出色,但由于其主要關(guān)注體積渲染而非表面重建,使用NeRF方法得到的三維模型表面可能存在大量噪聲和空間漂浮物。為解決這一問題,UNISURF[23]、VolSDF[2]和NeuS[1]等方法將占用函數(shù)或帶符號距離函數(shù)引入體繪制方程。其中,UNISURF通過體積渲染優(yōu)化二進(jìn)制占用函數(shù),VolSDF將這概念擴(kuò)展到SDF,而NeuS則通過分析得出體積渲染優(yōu)化SDF時會引起偏差,并提出了一種無偏差且能夠感知遮擋的加權(quán)方案,能夠有效恢復(fù)更精確的表面細(xì)節(jié)。
1.3 基于SDF的體渲染
神經(jīng)隱式表示法采用連續(xù)隱式函數(shù),直接從二維圖像中重建物體形狀。例如,IDR[24]和DVR[25]分別使用SDF和占用網(wǎng)格來表示場景。通過應(yīng)用可微分渲染技術(shù),這些方法能夠恢復(fù)高頻的幾何形狀和顏色。然而,這兩種方法都需要掩碼監(jiān)督,這在實(shí)踐中不容易獲得。為了消除對掩碼監(jiān)督信息的依賴,研究者們開始將體渲染技術(shù)應(yīng)用于表面重建,并據(jù)此開展了一系列基于體渲染的多視角三維重建研究。本節(jié)將簡要介紹基于SDF的體渲染技術(shù)的基本工作原理。
1.3.1 場景表示
為了將體積渲染方法應(yīng)用于SDF網(wǎng)絡(luò)的訓(xùn)練,還需要引入一個概率密度函數(shù)S(f(x)),其中f(x),x∈Euclid ExtraaBp3為有符號距離函數(shù)。這個概率密度函數(shù)S(f(x))函數(shù)能將SDF的輸出轉(zhuǎn)換成一個概率值,用于判斷一個點(diǎn)x是否接近物體表面。S(x)=Se-Sx/(1+e-Sx)2,通常稱為邏輯密度分布,是sigmoid函數(shù)ΦS(x)=(1+e-Sx)-1的導(dǎo)數(shù),即S(x)=Φ′S(x)。它的分布為鐘型,中心峰值對應(yīng)零點(diǎn),即物體的表面。因此接近物體表面的點(diǎn)x會有較高的概率值。在訓(xùn)練過程中,概率密度函數(shù)的標(biāo)準(zhǔn)差1/S是可調(diào)整的參數(shù),隨著網(wǎng)絡(luò)對物體表面的表示越來越精確,1/S會逐漸趨于零,這表明網(wǎng)絡(luò)對表面位置的預(yù)測更為準(zhǔn)確。
1.3.2 體渲染
想要從SDF表示中渲染圖像,需要先學(xué)習(xí)神經(jīng)SDF和顏色場(color field)的參數(shù)。給定一個像素,定義該像素發(fā)出的光線{p(t)=o+vt|t≥0},其中o是相機(jī)的中心,v是光線的單位方向向量,t是光線在該方向上的距離參數(shù)。為了得到該像素的最終顏色,需要對光線上每一點(diǎn)的顏色進(jìn)行加權(quán)并積分來實(shí)現(xiàn),積分公式為
C(o,v)=∫∞0a(t)c(p(t),v)dt(2)
其中:C(o,v)是該像素的輸出顏色;C(p(t),v)是觀察方向v上點(diǎn)p的顏色;權(quán)重函數(shù)w(t)是光線在點(diǎn)p(t)結(jié)束的概率,它是通過透射率T(t)計算得來的;其中T(t)是從光線的起點(diǎn)到點(diǎn)p(t)之間透射率的累積,可以用式(3)表示。
ω(t)=T(t)σ(t), T(t)=exp(-∫t0σ(s)ds)(3)
其中:σ(s)是介質(zhì)的密度函數(shù),表示在路徑上點(diǎn)s處的吸收率。在實(shí)驗(yàn)中,并不是對整個連續(xù)的光線路徑進(jìn)行積分,而是在一組采樣點(diǎn){pi}ni=1上評估密度和光的強(qiáng)度。這些點(diǎn)是按照光線方向等間隔取樣的,用離散化的公式來近似顏色積分:
C^(o,v)=∑Ni=1Tiαici(4)
其中:Ti是到達(dá)點(diǎn)pi之前的累積透射率;ai是點(diǎn)pi的不透明度。光線從起點(diǎn)到點(diǎn)pi之間的透射率乘積Ti表示為
Ti=∏i-1j=1(1-αj)(5)
每個點(diǎn)pi的不透明度可以從密度函數(shù)σ(t)估計得來,使用式(6)表示。
αi=1-exp(-∫ti+1tiσ(t)dt)(6)
2 基于SDF體渲染的改進(jìn)與優(yōu)化
目前,NeuS是基于SDF的表面重建領(lǐng)域中的一種主流方法。通過結(jié)合多層感知器對SDF進(jìn)行建模,并優(yōu)化體積渲染過程,NeuS能夠有效地從多視圖圖像中恢復(fù)場景的幾何結(jié)構(gòu)。然而,盡管NeuS在重建物體表面上取得了顯著成就,但在處理動態(tài)場景和復(fù)雜幾何結(jié)構(gòu)等方面仍存在局限性。為了進(jìn)一步提高重建效果和適用性,大量研究人員對最初的NeuS模型進(jìn)行了大量的改進(jìn)和優(yōu)化。這些改進(jìn)主要包括提升對復(fù)雜區(qū)域的重建能力、加快處理速度,以及增強(qiáng)在特定應(yīng)用場景下的表現(xiàn)。
2.1 提高表面重建質(zhì)量
物體表面的重建質(zhì)量是衡量模型重建效果的關(guān)鍵指標(biāo)。本節(jié)將著重介紹幾個關(guān)鍵模型,它們通過對原始NeuS模型的理論和方法進(jìn)行創(chuàng)新性改進(jìn),有效提高表面重建質(zhì)量。此外,為了減輕體渲染過程中出現(xiàn)的偏差,不少研究通過引入幾何約束來降低這些偏差,從而進(jìn)一步提升重建質(zhì)量。這些進(jìn)展不僅提高了重建質(zhì)量,也為體渲染重建領(lǐng)域帶來了新的理論和技術(shù)突破。
表1~4對部分SDF體渲染模型的改進(jìn)進(jìn)行了對比分析。表中PSNR、CD(chamfer distance)值均為多個測試場景的平均值,由于不同文獻(xiàn)實(shí)驗(yàn)所使用GPU的內(nèi)存和算力有所不同,因此表中的實(shí)驗(yàn)結(jié)果數(shù)據(jù)僅作參考。
2.1.1 理論方法的創(chuàng)新與改進(jìn)
為了得到帶符號距離函數(shù)f,VolSDF和NeuS分別對密度函數(shù)σ(r(t))=f(r(t))和加權(quán)函數(shù)w(r(t))=f(r(t))進(jìn)行建模。HF-NeuS[26]提出了一種新的透明度函數(shù)建模方法,通過將SDF分解為基函數(shù)和位移函數(shù)來模擬透明度,有效地捕獲了低頻和高頻細(xì)節(jié)。這種方法可以更精確地重建表面的細(xì)節(jié)和紋理,尤其是在處理高頻部分時。此外,它還應(yīng)用了自適應(yīng)優(yōu)化策略,專注于改善表面附近的偽影區(qū)域。與VolSDF和NeuS相比,HF-NeuS簡化了采樣過程,并提供了一個更簡化的密度計算公式,減少了由于分割導(dǎo)致的數(shù)值問題。
NeuS模型通過構(gòu)造無偏權(quán)重函數(shù)ω(t)來保證無偏性。然而后續(xù)的實(shí)驗(yàn)證明,該方法并不能得到真正的無偏。Zhang等人[27]分析了現(xiàn)有基于SDF的體繪制策略存在的偏差,并為無偏差的SDF體繪制提供了一個附加條件:繪制深度應(yīng)等于射線上第一個交點(diǎn)到攝像機(jī)中心沿著的距離。為了減小這種偏差,還引入了一種新的從SDF場到密度場的變換。采用觀察方向與表面法向量夾角的余弦來縮放SDF場,然后將縮放后的SDF場與一定的累計分布函數(shù)(cumulative distribution function,CDF)相結(jié)合來模擬密度場。實(shí)驗(yàn)結(jié)果表明該方法能有效減少渲染偏差。
D-NeuS[28]對NeuS模型進(jìn)行了兩個方面的優(yōu)化,以減少偏差。首先,在體積渲染中減少了幾何偏差。它通過在體積渲染過程中生成額外的距離圖,然后將其回投影到3D點(diǎn),并對其絕對SDF值施加懲罰,從而實(shí)現(xiàn)體積渲染與基礎(chǔ)表面之間的一致性;其次,應(yīng)用了多視圖特征一致性。它通過線性插值SDF零交叉點(diǎn)來確定表面點(diǎn),然后在多個視圖之間進(jìn)行特征比較,以確保幾何細(xì)節(jié)的一致性。這些改進(jìn)顯著提高了重建質(zhì)量。
PET-NeuS[29]采用三平面數(shù)據(jù)結(jié)構(gòu)來編碼局部特征。這種結(jié)構(gòu)不僅在內(nèi)存消耗上更少,而且更容易擴(kuò)展到更高的分辨率。在該方法中,首先將三平面數(shù)據(jù)結(jié)構(gòu)整合到一個表面重建框架中,以便能夠?qū)哂懈嗑植考?xì)節(jié)的SDF進(jìn)行建模;其次,由于三平面像素之間的特征不共享可學(xué)習(xí)參數(shù),采用位置編碼來調(diào)制三平面特征,從而增強(qiáng)可學(xué)習(xí)特征的平滑性;第三,位置編碼涉及不同頻率的函數(shù)。為了更好地匹配不同的頻率,使用具有不同窗口大小的多尺度自注意卷積核在空間域中進(jìn)行卷積,以生成不同頻帶的特征,進(jìn)一步提高了真實(shí)性
雖然PET-NeuS采用自注意卷積來生成基于三平面的表示,有效地提高了重建質(zhì)量,但在三平面特征和位置上進(jìn)行位置編碼會增加模型參數(shù)和計算復(fù)雜度。LoD-NeuS[30]提出了一種多尺度三平面位置編碼來捕獲不同的LoD。為了有效地表示高頻采樣,設(shè)計了一種多卷積特征化來近似圓錐體內(nèi)的射線積分,如圖3[30]所示。多重卷積特征化利用高斯核在不同分辨率層級上處理采樣點(diǎn)特征,錐樣本混合則通過混合權(quán)重將錐形內(nèi)采樣點(diǎn)的特征融合,最終在錐體內(nèi)生成連續(xù)的特征表示,從而在連續(xù)方式下高效地聚合任何樣本的LoD特征。此外,文中還提出了一個錯誤引導(dǎo)的采樣策略,以指導(dǎo)SDF增長過程中的優(yōu)化。
2.1.2 增添幾何約束
為了改善低紋理區(qū)域的重建,一種典型的方法是利用人造場景的平面先驗(yàn)。ManhattanSDF[31]提出了一種基于曼哈頓世界假設(shè)的室內(nèi)場景重建方法,旨在改善低紋理區(qū)域的重建質(zhì)量。其核心思想是利用平面區(qū)域的語義信息來指導(dǎo)幾何重構(gòu)。該方法利用語義分割檢測這些區(qū)域,并基于曼哈頓世界假設(shè)應(yīng)用幾何約束來增強(qiáng)無紋理區(qū)域的重建。為了解決語義分割的不準(zhǔn)確性,還將語義信息編碼到隱式場景表示中,并將語義與場景的幾何形狀和外觀一起聯(lián)合優(yōu)化。實(shí)驗(yàn)結(jié)果表明,該方法能夠在保持非平面區(qū)域細(xì)節(jié)的同時,重建出準(zhǔn)確完整的平面。
由于渲染無法生成高頻紋理,通常導(dǎo)致3D精度較低,為了克服這個限制,NeuralWarp[32]通過對不同視角的圖像進(jìn)行補(bǔ)丁變形優(yōu)化,提高了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和呈現(xiàn)高頻紋理的能力。該方法利用預(yù)測的占用率和法線信息對整個補(bǔ)丁進(jìn)行變形,以及通過結(jié)構(gòu)相似性測量它們的相似度,有效地處理可見性和遮擋問題,從而在重建中避免了不正確的變形。
但是由于室內(nèi)場景缺乏紋理,NeuralWarp在室內(nèi)場景中表現(xiàn)并不佳。NeuRIS[33]提出了一種新的先驗(yàn)引導(dǎo)優(yōu)化框架,用于神經(jīng)體繪制幾何約束。其核心思想是將室內(nèi)場景的估計法線作為神經(jīng)渲染框架中的先驗(yàn)進(jìn)行整合,以重建大型無紋理形狀。訓(xùn)練過程分為兩個階段:首先,訓(xùn)練一個粗略模型來適應(yīng)多視角圖像和體積渲染估計的法線圖,不使用任何過濾策略;接著,通過適應(yīng)性地施加法線先驗(yàn)來進(jìn)行監(jiān)督。同時訓(xùn)練兩個分支:一個分支評估幾何質(zhì)量,通過計算多視圖視覺一致性;另一個分支只接受通過幾何檢查的先驗(yàn)法線作為渲染法線的適當(dāng)監(jiān)督。實(shí)驗(yàn)證明,這種方法能夠在紋理較為稀疏的區(qū)域應(yīng)用先驗(yàn)知識,同時在紋理豐富的小物體上保持細(xì)節(jié)的精細(xì)重建能力。
MonoSDF[34]則將單眼幾何線索整合到多視圖圖像的神經(jīng)隱式表面重建中。它通過在優(yōu)化過程中使用來自單眼預(yù)測器的深度和表面法線作為額外的監(jiān)督信號來提高重建質(zhì)量,尤其是在紋理較少和觀察較少的區(qū)域。該方法利用預(yù)訓(xùn)練的Omnidata模型為每個輸入的RGB圖像生成深度圖。雖然無法精確測量絕對距離,但提供了有用的深度信息。同時,使用Omnidata模型為每個RGB圖像生成法線映射。與深度圖提供的半局部相對信息不同,法線映射提供更局部的信息,能夠捕捉到更細(xì)微的幾何細(xì)節(jié)。這兩種線索相結(jié)合,特別是在處理復(fù)雜場景時,深度圖和法線映射作為互補(bǔ)信息,共同優(yōu)化神經(jīng)隱式曲面,提高了重建的準(zhǔn)確性和細(xì)節(jié)表現(xiàn),尤其在無紋理或稀疏覆蓋區(qū)域。
在NeuS框架中,體繪制技術(shù)通過對顏色積分的隱式監(jiān)督來精確地建模物體表面。這種方法在渲染顏色方面取得了顯著的成效,然而,它在估計物體表面顏色的過程中未能充分保留物體的幾何信息。這導(dǎo)致了在渲染的顏色和物體的幾何形狀之間出現(xiàn)了一定的偏差。Geo-Neus[36]提出一種新的方法,直接定位SDF網(wǎng)絡(luò)的零層集。該方法通過引入了稀疏3D點(diǎn)的SDF損失和多視角立體的光度一致性損失,以顯式監(jiān)督SDF網(wǎng)絡(luò),如圖4[36]所示。這種策略相比傳統(tǒng)依賴顏色損失的方法,更有效地監(jiān)督和優(yōu)化SDF網(wǎng)絡(luò),使得Geo-Neus在處理包含復(fù)雜薄結(jié)構(gòu)和廣泛光滑區(qū)域的場景時,能夠?qū)崿F(xiàn)高質(zhì)量的表面重建。
相比通過結(jié)合由輔助數(shù)據(jù)預(yù)訓(xùn)練的模型提供的幾何線索來減小誤差,HelixSurf[37]將傳統(tǒng)的PM-MVS (PatchMatch)與神經(jīng)隱式表面相結(jié)合,采用互補(bǔ)機(jī)制,取得了更好的結(jié)果。它利用中間預(yù)測策略來指導(dǎo)另一種策略的學(xué)習(xí),并在學(xué)習(xí)過程中交替應(yīng)用這種正則化方法。針對MVS在預(yù)測無紋理表面區(qū)域方面不夠可靠的問題,HelixSurf設(shè)計了一種方案,通過利用觀察到的多視圖圖像中每個超像素的同質(zhì)性來規(guī)范這些區(qū)域的學(xué)習(xí)過程。此外,為了提高HelixSurf在體渲染方面的效率,采用了在3D場景空間中維護(hù)動態(tài)占用網(wǎng)格的方法,以自適應(yīng)地引導(dǎo)點(diǎn)沿著射線采樣,從而顯著提升了渲染效率。
盡管以前方法通過利用 RGB 圖像和深度圖在重建效果上取得了顯著的成果,但在弱光條件和大規(guī)模場景下仍面臨挑戰(zhàn)。Yan等人[38]提出了一種利用稀疏 LiDAR 點(diǎn)云進(jìn)行隱式神經(jīng)重建的方法。首先,通過里程計獲取點(diǎn)云序列和初始粗略位姿,并根據(jù)視點(diǎn)變化選擇關(guān)鍵幀,去除冗余幀和測量誤差大的幀。然后,利用關(guān)鍵幀的點(diǎn)云和粗略位姿進(jìn)行聯(lián)合優(yōu)化,訓(xùn)練隱式占據(jù)場。該隱式模型采用MLP和多分辨率哈希編碼器表示3D結(jié)構(gòu)。通過光線采樣,將樣本點(diǎn)分類為被占據(jù)或未被占據(jù),并利用加權(quán)二元交叉熵(BCE)損失函數(shù)進(jìn)行監(jiān)督學(xué)習(xí),從而實(shí)現(xiàn)對遮擋情況的感知和無偏見的3D重建。
2.2 提高訓(xùn)練和推理速度
在NeuS模型中為了提高計算效率,采用了分層渲染技術(shù)。與傳統(tǒng)的樸素渲染方法需要對每條光線進(jìn)行密集采樣相比,NeuS模型通過使用粗細(xì)兩個不同層次的網(wǎng)絡(luò)來表示場景。粗網(wǎng)絡(luò)的輸出用于為細(xì)網(wǎng)絡(luò)挑選采樣點(diǎn),防止了細(xì)尺度下的密集采樣,從而降低了計算量。然而,盡管如此,NeuS模型的速度仍然無法完全滿足實(shí)際應(yīng)用需求。因此,在隨后的工作中,部分工作專注于提升神經(jīng)輻射場的渲染速度,以進(jìn)一步優(yōu)化性能。
Dogaru等人[39]通過結(jié)合神經(jīng)隱式表面和粗略的球形表面重建來優(yōu)化采樣過程。為了減少無效采樣空間,該系統(tǒng)采用一個可訓(xùn)練的球形云來指導(dǎo)射線采樣和行走過程以提高效率。另外,研究提出了一種基于梯度下降的優(yōu)化方法,允許球形云與隱式表面場同時訓(xùn)練。為了避免球形云在訓(xùn)練過程中陷入局部最小值,促進(jìn)更全面的表面探索和更準(zhǔn)確的重建,研究還引入點(diǎn)重采樣方案和排斥機(jī)制。
Instant-NGP模型[18]通過引入多分辨率哈希編碼顯著提升了NeRF模型的訓(xùn)練和推理速度。該模型使用多分辨率哈希表存儲特征向量,這些特征向量通過隨機(jī)梯度下降優(yōu)化,允許使用較小的神經(jīng)網(wǎng)絡(luò)的同時保持高質(zhì)量的結(jié)果。此外,Instant-NGP采用新的光線行進(jìn)方案,將樣本數(shù)據(jù)壓縮到密集緩沖區(qū)中,以提高執(zhí)行效率,并優(yōu)化了浮點(diǎn)數(shù)運(yùn)算和內(nèi)存訪問,顯著減少了這些操作的次數(shù),如圖5[18]所示。這些改進(jìn)同樣可以應(yīng)用于Neus模型,通過減少全連接神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量、優(yōu)化光線行進(jìn)方案和減少計算資源的消耗,Neus模型在保持高重建精度的同時,能夠顯著提升訓(xùn)練和推理速度,適應(yīng)更多實(shí)時或高效計算需求的應(yīng)用場景。
Voxurf[40]提出了一種基于體素網(wǎng)格的表面重建方法。該方法通過采用兩階段訓(xùn)練過程獲得連貫的粗略形狀并連續(xù)恢復(fù)精細(xì)細(xì)節(jié)。為此,研究還設(shè)計了一個雙色網(wǎng)絡(luò),能夠通過體素網(wǎng)格來表示復(fù)雜的顏色場,并通過兩個協(xié)同工作的子網(wǎng)絡(luò)來保持顏色幾何依賴性;此外,研究提出了基于SDF體素網(wǎng)格的分層幾何特征,以促進(jìn)信息在更大區(qū)域內(nèi)的穩(wěn)定優(yōu)化和共享;最后,引入了多個正則化項(xiàng),以提高結(jié)果的平滑度并降低噪聲的影響。
盡管Voxurf和Instant-NGP[18]兩種方法都利用多級網(wǎng)格方案來擴(kuò)大體素網(wǎng)格的感受野并鼓勵相鄰體素之間共享更多的信息。但因?yàn)轶w素網(wǎng)格所保持的幾何特征均勻地分布在3D表面周圍,從而可能無法捕獲尖銳的局部拓?fù)浣Y(jié)構(gòu)。NeuDA[41]提出了一種靈活的神經(jīng)隱式表示,利用分層體素網(wǎng)格即神經(jīng)變形錨進(jìn)行高保真表面重建。該方法存儲3D位置,即錨點(diǎn),而不是每個頂點(diǎn)處的常規(guī)嵌入。它通過直接內(nèi)插查詢點(diǎn)的八個相鄰錨點(diǎn)的頻率嵌入來獲得查詢點(diǎn)的輸入特征,并通過反向傳播優(yōu)化錨點(diǎn),從而在建模不同的細(xì)粒度幾何結(jié)構(gòu)時表現(xiàn)出靈活性。
針對基于SDF的體渲染表面重建的幾何形狀和顏色過于平滑的問題,PermutoSDF[42]融合了哈希編碼和隱式表面的優(yōu)點(diǎn)加以解決。該方法通過SDF和顏色場表示場景,并采用無偏差的體積積分進(jìn)行渲染。在該方法中還提出了一種規(guī)范化方案,能在保持平滑幾何形狀的同時,精確重建細(xì)節(jié),如毛孔和皺紋。此外,PermutoSDF引入了全面體晶格,這種結(jié)構(gòu)的頂點(diǎn)數(shù)量隨維度線性增長,而不是像立方體體素那樣指數(shù)級增長,提高了3D重建和4D背景估計的性能。
Neuralangelo[43]利用Instant NGP作為底層3D場景的神經(jīng)SDF表示,通過神經(jīng)表面渲染從多視圖圖像觀察進(jìn)行優(yōu)化,實(shí)現(xiàn)了復(fù)雜三維場景的高質(zhì)量重建。該方法充分利用了多分辨率哈希編碼的作用。首先,它在反向傳播過程中,通過對比解析梯度和數(shù)值梯度,選擇使用數(shù)值梯度計算高階導(dǎo)數(shù)來穩(wěn)定優(yōu)化過程,如圖6[43]所示。其次,采用逐步優(yōu)化策略,對哈希網(wǎng)格進(jìn)行從粗到細(xì)的優(yōu)化,有效地恢復(fù)了不同細(xì)節(jié)層面的結(jié)構(gòu)。因此,即使沒有深度信息等輔助輸入,Neuralangelo也能從多視圖圖像中高效恢復(fù)密集的3D表面結(jié)構(gòu)。
Neuralangelo使用多分辨率哈希網(wǎng)格和數(shù)值梯度計算進(jìn)行神經(jīng)表面重建,盡管可以實(shí)現(xiàn)高保真幾何重建,但增加了訓(xùn)練成本。NeuS2[44]則通過利用多分辨率哈希編碼來參數(shù)化神經(jīng)表面表示,并引入了輕量級的二階導(dǎo)數(shù)計算,大幅度提高了計算速度。為了進(jìn)一步提高訓(xùn)練的穩(wěn)定性和速度,NeuS2還引入了漸進(jìn)式學(xué)習(xí)策略,逐步優(yōu)化多分辨率哈希編碼,提升了模型的效率和性能。此外,NeuS2 還將該方法應(yīng)用于動態(tài)場景的快速訓(xùn)練,通過增量訓(xùn)練策略使系統(tǒng)逐步適應(yīng)數(shù)據(jù)變化,同時引入全局變換預(yù)測組件,更準(zhǔn)確地預(yù)測和理解場景中的運(yùn)動和變化,使得 NeuS2能夠有效處理具有復(fù)雜運(yùn)動和形變的長序列數(shù)據(jù)。
2.3 稀疏視圖重建
在多視圖圖像的表面重建任務(wù)中,當(dāng)僅提供稀疏圖像作為輸入時,通常會產(chǎn)生不完整或失真的結(jié)果。為解決這一難題,SparseNeuS[45](圖7)提出了一種新的基于神經(jīng)繪制的曲面重建方法,專門用于從少量的視角中重建物體表面。它通過使用SDF和幾何編碼體積作為表面的表示方式,從圖像特征中學(xué)習(xí)并應(yīng)用可泛化的先驗(yàn)知識,從而在數(shù)據(jù)稀疏的情況下也能準(zhǔn)確地預(yù)測復(fù)雜表面。另外,SparseNeuS還結(jié)合了多層級的幾何推理和多尺度的顏色混合方案,以實(shí)現(xiàn)更可靠的顏色預(yù)測,并通過一致性感知的微調(diào)策略來處理遮擋和噪聲導(dǎo)致的不一致問題。
SparseNeuS通過學(xué)習(xí)圖像特征來提高稀疏場景的重建質(zhì)量,但它對高精度的相機(jī)姿勢依賴性較高,這通常難以獲得。為了解決這個問題,SC-NeuS[46]提出了一種稀疏視圖一致性神經(jīng)表面學(xué)習(xí)策略。該策略能夠從稀疏且?guī)в性肼暤南鄼C(jī)姿勢中進(jìn)行幾何一致的表面重建,包括細(xì)粒度的細(xì)節(jié)。該方法通過從顯式幾何結(jié)構(gòu)中采樣點(diǎn)并引入額外的正則化來提高幾何一致性。此外,它還引入了一個快速可微的表面交集方法,允許從神經(jīng)表面的顯式幾何形狀中采樣點(diǎn)。通過在這些采樣點(diǎn)上定義有效的視圖一致性損失,可以實(shí)現(xiàn)端到端的聯(lián)合學(xué)習(xí),從而對神經(jīng)表面表示和相機(jī)姿勢進(jìn)行學(xué)習(xí)。同時,該方法還采用了由粗到細(xì)的學(xué)習(xí)策略,進(jìn)一步提高了幾何一致性的學(xué)習(xí)效果從而保持高精度的表面重建結(jié)果。
VolRecon[47]通過引入創(chuàng)新的signed ray distance function (SRDF),結(jié)合投影特征和全局體積特征,并利用視圖變換器和射線變換器進(jìn)行多視圖特征聚合,實(shí)現(xiàn)了高質(zhì)量、細(xì)節(jié)豐富的3D場景重建。與傳統(tǒng)的SDF不同,SRDF定義了沿給定射線到最近表面的距離,通過射線變換器計算采樣點(diǎn)的SRDF值,并進(jìn)行顏色和深度的渲染。全局特征體編碼了全局形狀先驗(yàn),提供了更精確的幾何估計。視圖變換器聚合多視圖特征,使VolRecon在遮擋和無紋理表面等復(fù)雜情況下仍能準(zhǔn)確重建。
S-VolSDF[48]結(jié)合MVS中的概率體積和廣義交叉熵?fù)p失,通過利用MVS粗略階段的預(yù)測結(jié)果來優(yōu)化神經(jīng)隱式表面,從而提升稀疏視圖輸入下的3D重建性能。該方法將 MVS 概率體積與神經(jīng)體積表面重建技術(shù)結(jié)合,引入軟一致性約束,以處理噪聲并確保概率體積與渲染權(quán)重之間的一致性。通過渲染的深度圖指導(dǎo)MVS的下一階段深度采樣,S-VolSDF實(shí)現(xiàn)了一種從粗到細(xì)的多視圖立體重建方法。這一方法結(jié)合了多層次特征,增強(qiáng)了對低級和高級特征的感知。最終,通過顏色和深度的綜合損失函數(shù)提供全面的訓(xùn)練監(jiān)督信號,確保了模型的準(zhǔn)確性和重建質(zhì)量。
ReTR[49]通過利用Transformer架構(gòu)重新設(shè)計渲染過程,創(chuàng)新性地引入可學(xué)習(xí)的元射線token和交叉注意力機(jī)制,以模擬渲染過程與采樣點(diǎn)的復(fù)雜交互。該方法在高維特征空間中操作,而非顏色空間,減弱了對源視圖投影顏色的依賴,從而提升了表面重建的精確性和可靠性。ReTR 還引入了遮擋變換器,模擬光子與介質(zhì)的交互,考慮遮擋和采樣點(diǎn)間隔,以增強(qiáng)對復(fù)雜物理效果的建模能力。通過連續(xù)位置編碼,解決了不同采樣點(diǎn)數(shù)量導(dǎo)致的位置編碼錯位問題,從而確保模型的準(zhǔn)確性。混合特征提取器結(jié)合多層次特征,增強(qiáng)了對低級和高級特征的感知,進(jìn)一步提高了重建質(zhì)量。通過組合優(yōu)化的渲染損失和深度損失,ReTR提供了更全面的訓(xùn)練監(jiān)督信號,進(jìn)一步提升了重建效果。
2.4 重光照與材質(zhì)編輯
針對野外變化的光照條件下,Sun等人[50]提出了一種混合體素表面引導(dǎo)采樣技術(shù),與基線方法相比顯著縮短了訓(xùn)練時間。為了減少冗余的訓(xùn)練樣本,首先利用來自運(yùn)動恢復(fù)結(jié)構(gòu)(structure from motion,SfM)的稀疏點(diǎn)云來初始化稀疏體素,從而生成采樣點(diǎn)。然后,將這種體素引導(dǎo)策略與表面引導(dǎo)采樣技術(shù)相結(jié)合,并根據(jù)當(dāng)前優(yōu)化狀態(tài)生成采樣點(diǎn)。該方法的關(guān)鍵點(diǎn)在于,不僅使用SfM點(diǎn)云,還通過使用表面近似產(chǎn)生以真實(shí)表面為中心的新采樣點(diǎn)。這種策略引導(dǎo)網(wǎng)絡(luò)使用接近表面的采樣點(diǎn)來解釋渲染的顏色,從而實(shí)現(xiàn)更精確的幾何擬合。
IRON [51]通過引入混合優(yōu)化方案顯著提高了逆向渲染的質(zhì)量。首先,它利用體積輻射場優(yōu)化恢復(fù)幾何拓?fù)浣Y(jié)構(gòu),然后使用邊緣感知的基于物理的表面渲染來優(yōu)化細(xì)節(jié),同時解耦材料與光照。通過設(shè)計邊緣采樣算法,生成無偏梯度估計,有效改善邊緣區(qū)域的重建效果。該方法采用神經(jīng) SDF 和材料的神經(jīng)表示,兼具靈活性和緊湊性,能夠輸出高質(zhì)量的三角網(wǎng)格和材質(zhì)紋理,方便與現(xiàn)有圖形管線兼容。通過簡化的物理渲染方程,IRON 考慮了光照與材質(zhì)的相互作用,進(jìn)一步優(yōu)化幾何和材質(zhì)參數(shù),實(shí)現(xiàn)高精度的逆向渲染。另外,該方法無須額外的物體遮罩或 3D 監(jiān)督,即可從多視圖光度圖像中進(jìn)行優(yōu)化,在實(shí)際應(yīng)用中更加便捷和高效。
Zeng等人[52]提出了一種新穎的神經(jīng)隱式輻射表示方法,用于從一組非結(jié)構(gòu)化照片中實(shí)現(xiàn)自由視點(diǎn)的重光照。該方法通過兩個MLP來建模:第一個MLP用來建模形狀的SDF;第二個MLP建模局部和全局光傳輸。在第二個MLP中不僅考慮密度特征、當(dāng)前位置、法線、視點(diǎn)方向和光源位置,還引入了陰影和高光提示,以幫助網(wǎng)絡(luò)捕捉高頻光傳輸效果。與之前的方法不同,該方法不分離不同的光傳輸組件,而是在每個點(diǎn)上同時建模局部和全局光傳輸。實(shí)驗(yàn)結(jié)果表明,該方法在處理各種形狀、材質(zhì)和全局光傳輸效果的合成以及真實(shí)場景中表現(xiàn)出色。
NeFII算法[53]通過路徑追蹤和神經(jīng)網(wǎng)絡(luò)結(jié)合,實(shí)現(xiàn)了從多視圖圖像中精確分解材料和光照,尤其是處理近場間接光照。該方法引入基于蒙特卡羅采樣的路徑追蹤,將間接光照緩存為神經(jīng)輻射,從而實(shí)現(xiàn)物理真實(shí)且易于優(yōu)化的逆向渲染。為提升效率和實(shí)用性,NeFII使用球形高斯(SG)來表示平滑的環(huán)境光照,并應(yīng)用重要性采樣技術(shù)。最后,引入輻射一致性約束,通過對未觀察到的光線進(jìn)行一致性訓(xùn)練,減少材料與間接光照的分解歧義,實(shí)現(xiàn)材料和光照的聯(lián)合優(yōu)化。
NeRO[54]提出了一種基于神經(jīng)渲染的兩階段方法,通過創(chuàng)新的光照表示和近似技術(shù),在無物體遮罩和未知環(huán)境光的情況下,準(zhǔn)確重建多視圖圖像中的反射性物體的幾何和BRDF。在第一階段,NeRO利用分割求和近似和集成方向編碼準(zhǔn)確重建物體幾何形狀;在第二階段,固定幾何形狀后,通過更精確的蒙特卡羅采樣估計BRDF。這種方法通過兩個獨(dú)立的MLP分別編碼直接光和間接光,并計算遮擋概率,以高效處理光照效果。
2.5 特定場景表面重建
2.5.1 人臉表面重建
NeuFace [55]結(jié)合了物理基礎(chǔ)渲染(PBR)與神經(jīng)雙向反射分布函數(shù)(bi-directional reflectance distribution function,BRDF),通過引入低秩先驗(yàn)和積分分離技術(shù),解決了復(fù)雜面部皮膚反射建模的難題。采用基于SDF的幾何表示,NeuFace 能夠在端到端逆向渲染過程中同步優(yōu)化面部外觀和幾何。通過神經(jīng)光度校準(zhǔn)解決了相機(jī)之間顏色響應(yīng)和白平衡不一致的問題,采用球體追蹤和稀疏采樣策略,在提高采樣效率的同時保持高質(zhì)量渲染。最終,將外觀反射特性分解為漫反射、光積分和BRDF積分,通過學(xué)習(xí)球諧光照和神經(jīng)基函數(shù)來實(shí)現(xiàn)高保真度和物理意義的3D面部渲染,展示出優(yōu)秀的面部重建和泛化能力。
與NeuFace注重光度校準(zhǔn)和高效渲染策略不同,Xu等人[56]通過幾何分解和模板訓(xùn)練,實(shí)現(xiàn)了在低視角條件下的高保真度3D頭部重建。該方法通過幾何分解和兩階段訓(xùn)練策略,聯(lián)合SDF表示將3D人頭分解為光滑模板、非剛性變形和高頻位移場。首先在多個個體上訓(xùn)練模板和變形網(wǎng)絡(luò),生成初步的幾何結(jié)構(gòu)和中性模板;然后針對每個個體單獨(dú)訓(xùn)練位移場,從而逐步捕捉高頻幾何細(xì)節(jié)。這種方法不需要3D監(jiān)督或?qū)ο笳谡?,通過體積渲染和正則化來優(yōu)化幾何和顏色重建。實(shí)驗(yàn)結(jié)果顯示,該方法在低視圖條件下的3D人頭重建和新視圖合成方面顯著優(yōu)于現(xiàn)有的神經(jīng)渲染方法,且預(yù)訓(xùn)練的模板提高了模型在遇到新個體時的魯棒性和泛化能力。
2.5.2 開放曲面重建
基于SDF的體渲染方法擺脫了對掩膜的依賴,實(shí)現(xiàn)了更精確的重建。然而,由于采用SDF作為表示,這些方法僅適用于封閉曲面,而對于非封閉曲面,它們的性能下降很多。NeUDF[57]采用無符號距離函數(shù)(unsigned distance function,UDF)作為表面表示,以處理任意拓?fù)浣Y(jié)構(gòu)的表面,包括開放和封閉的表面,解決了以往方法在處理非封閉表面時的局限性。NeUDF引入了一種新的無偏加權(quán)機(jī)制。此外,為了解決UDF表示中的不穩(wěn)定梯度問題,它還引入了法線規(guī)范化方法。這些改進(jìn)使得NeUDF在重建具有開放邊界的復(fù)雜形狀方面表現(xiàn)出色,同時在恢復(fù)封閉表面方面也能達(dá)到與現(xiàn)有方法相當(dāng)?shù)男Ч?/p>
雖然NeUDF能夠有效地重建出非封閉曲面,但是將UDF轉(zhuǎn)換為網(wǎng)格通常會遇到偽影、法線不一致和計算成本高等問題。與基于UDF的方法相比,NeAT[58]通過引入有效性分支和雙面渲染技術(shù),實(shí)現(xiàn)高精度的3D重建。它將輸入圖像的像素投影到3D空間,對這些點(diǎn)進(jìn)行幾何、有效性和顏色信息的預(yù)測。通過有效性分支評估表面存在的概率,避免渲染低有效性點(diǎn),提高渲染精度。NeAT采用的雙面渲染技術(shù)能夠同時處理和渲染表面的兩側(cè),克服了傳統(tǒng)渲染方法僅處理表面正面的局限。結(jié)合體積渲染和光線追蹤,NeAT處理復(fù)雜光線交互,并通過正則化機(jī)制促進(jìn)開放表面的形成,確保了重建結(jié)果的準(zhǔn)確性和細(xì)節(jié)豐富度,如圖8[58]所示。
2.5.3 反射表面重建
在多視圖重建中,反射會導(dǎo)致模糊和不一致性,影響重建的準(zhǔn)確性。為了提高對反射表面的重建效果,Ref-NeuS[59]引入了反射感知的光度損失,根據(jù)反射分?jǐn)?shù)自適應(yīng)地降低了對反射表面的權(quán)重,從而保持了多視圖一致性,減少了不確定性的影響。此外,Ref-NeuS還采用了一種考慮反射方向的輻射度估計方法,提高了反射表面重建的質(zhì)量。這種方法在處理具有明顯反射和鏡面特性的場景時表現(xiàn)出色,并克服了傳統(tǒng)三維重建方法在這些情況下的局限性。
ReNeuS算法[60]提出了一種創(chuàng)新的神經(jīng)隱式表示方法,通過將復(fù)雜場景分為內(nèi)部和外部兩個子空間來解決透明容器內(nèi)物體的3D重建問題。內(nèi)部子空間使用兩個MLP分別表示幾何和外觀,外部子空間假定為均勻背景和固定環(huán)境光。ReNeuS引入了混合渲染策略,結(jié)合體積渲染和光線追蹤技術(shù),處理跨越兩種介質(zhì)界面的復(fù)雜光線交互。此外,該方法采用新的物理損失函數(shù),直接在三維空間上進(jìn)行監(jiān)督,提高了訓(xùn)練的準(zhǔn)確性和效率。通過這些創(chuàng)新,ReNeuS能夠有效地處理透明容器中的光線折射和反射,實(shí)現(xiàn)高質(zhì)量的3D場景重建。
3 數(shù)據(jù)集與評價指標(biāo)
3.1 評價指標(biāo)
峰值信噪比(peak signal-to-noise ratio,PSNR)和倒角距離(chamfer distance)[61]是目前大多數(shù)文獻(xiàn)采用的兩個重建效果評價指標(biāo)。
PSNR是衡量重建圖像質(zhì)量的一種標(biāo)準(zhǔn)指標(biāo),通常用于比較原始圖像和重建圖像之間的差異。PSNR值越高,表示圖像重建的質(zhì)量越好,誤差越小。具體公式為
PSNR=10·lgMAX2IMSE(7)
其中:MAXI是圖像中可能的最大像素值,如果每個采樣點(diǎn)用8 bit表示,那么最大數(shù)值為255;MSE是在所有顏色通道上計算的逐像素均方誤差。對于兩張h×w的單色圖像I與K,原始圖像和重建圖像間的均方誤差(MSE)定義為
MSE=1h×w∑hi=1 ∑wj=1(I(i, j)-K(i, j))2(8)
倒角距離用于衡量重建的曲面與實(shí)際曲面之間的差異。它計算了重建曲面上的點(diǎn)與實(shí)際曲面上最近點(diǎn)之間的距離,以及實(shí)際曲面上的點(diǎn)與重建曲面上最近點(diǎn)之間的距離,然后將這些距離的平方和相加。具體公式為
3.2 數(shù)據(jù)集
SDF體渲染技術(shù)的重建效果依賴于輸入圖像的質(zhì)量和視角的豐富性。盡管目前有一些模型能夠從較少的輸入視圖中進(jìn)行學(xué)習(xí)和訓(xùn)練,但大多數(shù)體渲染模型仍然需要大量、多樣化的圖像輸入以確保重建的準(zhǔn)確性。在這個過程中,常用COLMAP[62]來獲取相機(jī)的姿態(tài)信息,以協(xié)助訓(xùn)練過程。為了更好地理解這些模型的應(yīng)用和性能,本文接下來將介紹神經(jīng)隱式曲面重建領(lǐng)域中常用的幾個公開數(shù)據(jù)集(表5),并對它們進(jìn)行簡要概述。這些數(shù)據(jù)集不僅提供了豐富的訓(xùn)練材料,也為模型的評估和比較提供了基礎(chǔ)。
DTU數(shù)據(jù)集[63]是一個專門為多視圖立體視覺算法評估設(shè)計的重要基準(zhǔn)數(shù)據(jù)集。由丹麥技術(shù)大學(xué)開發(fā),包括80個不同的三維場景,涵蓋了從日常物品到復(fù)雜雕塑等多種對象。這些場景在幾何形狀、紋理和反射性方面具有高度多樣性,為MVS算法提供全面挑戰(zhàn)。每個場景由49到64個精確控制的相機(jī)位置拍攝,總計約3 200張高分辨率圖像。此外,數(shù)據(jù)集還包括每個場景的結(jié)構(gòu)光掃描作為精確的3D參考,有助于評估和比較不同MVS算法的性能。DTU數(shù)據(jù)集因其場景的多樣性、數(shù)據(jù)的高質(zhì)量和精確的基準(zhǔn)測試而在MVS研究中被廣泛使用。
BlendedMVS[64]是一個大規(guī)模的多視圖立體視覺(MVS)數(shù)據(jù)集,特別設(shè)計用于支持基于學(xué)習(xí)的MVS算法的訓(xùn)練。該數(shù)據(jù)集包含113個精心選擇和重建的三維模型,這些紋理模型覆蓋了多種不同場景,包括城市、建筑、雕塑和小物件。每個場景包含20~1 000張輸入圖像,總共超過17 000張高分辨率的圖像。BlendedMVS采用了一種獨(dú)特的數(shù)據(jù)生成方法,通過將渲染的色彩圖像與輸入圖像混合,以引入訓(xùn)練過程中的環(huán)境光照信息。這種方法不僅增強(qiáng)了模型對現(xiàn)實(shí)世界場景的泛化能力,而且提供了豐富的視覺細(xì)節(jié)和一致的深度圖,為MVS網(wǎng)絡(luò)訓(xùn)練提供了一個質(zhì)量高、覆蓋面廣的數(shù)據(jù)集。
NeRF-synthetic dataset[14]是專為評估和測試NeRF技術(shù)而設(shè)計的合成數(shù)據(jù)集。該數(shù)據(jù)集包含八個對象,具有復(fù)雜的幾何形狀和真實(shí)非朗伯特材料。這些對象從不同視點(diǎn)渲染,以生成高質(zhì)量的圖像。其中六個對象的視點(diǎn)位于上半球,另外兩個對象的視點(diǎn)覆蓋了完整的球體。每個場景都渲染了100個視圖作為輸入,而另外200個視圖用于測試。所有圖像的分辨率為800×800像素。
ScanNet[65]是一個大規(guī)模的真實(shí)RGB-D多模態(tài)數(shù)據(jù)集,該數(shù)據(jù)集包含1 513次掃描,覆蓋707個獨(dú)特的室內(nèi)環(huán)境,擁有250萬張RGB-D圖像。深度幀以640×480像素捕獲,RGB圖像以1 296×968像素捕獲。ScanNet的特點(diǎn)在于其豐富的注釋,包括3D相機(jī)位姿、表面重建、紋理網(wǎng)格、密集的物體級語義分割以及與CAD模型的對齊。此數(shù)據(jù)集的豐富語義標(biāo)簽對于使用語義信息的模型非常有用,例如場景編輯、場景分割和語義視圖合成。
Tanks and Temples[66]由14個場景組成,包括“坦克”和“火車”等單個對象,以及“禮堂”和“博物館”等大型室內(nèi)場景。該數(shù)據(jù)集的獨(dú)特之處在于提供了高分辨率的視頻序列作為輸入,支持新型重建技術(shù)的開發(fā),這些技術(shù)利用視頻輸入增加了重建的保真度。此外,使用先進(jìn)的工業(yè)激光掃描器獲取的地面真實(shí)數(shù)據(jù),確保了評估的準(zhǔn)確性和可靠性。Tanks and Temples數(shù)據(jù)集不僅對現(xiàn)有重建管道的極限進(jìn)行了挑戰(zhàn),還為未來三維重建技術(shù)的研究和發(fā)展提供了一個豐富的實(shí)驗(yàn)平臺。
OmniObject3D數(shù)據(jù)集[67]是一個大規(guī)模的三維對象數(shù)據(jù)集,專為神經(jīng)輻射場三維重建和視覺感知研究而設(shè)計。該數(shù)據(jù)集包含了6 000個高質(zhì)量的真實(shí)掃描的三維對象,涵蓋190個日常類別。其顯著特點(diǎn)是為每個三維對象提供了豐富的注釋,包括紋理化的網(wǎng)格、點(diǎn)云、多視角渲染圖像以及多個真實(shí)捕獲的視頻。OmniObject3D數(shù)據(jù)集通過專業(yè)掃描儀捕獲對象,保證了精確的形狀和逼真的外觀。這些高保真的掃描,結(jié)合廣泛的探索空間,使得OmniObject3D成為一個具有挑戰(zhàn)性和代表性的研究平臺,特別適合于評估和發(fā)展新型的三維感知、重建和生成技術(shù)。
4 結(jié)束語
自從SDF體渲染技術(shù)提出以來,NeuS模型在多個方面取得了顯著進(jìn)展,包括速度、質(zhì)量和對訓(xùn)練視圖數(shù)量的需求等。這些改進(jìn)有效地克服了原始模型的弱點(diǎn),為三維重建技術(shù)的發(fā)展提供了強(qiáng)大的推動力。通過引入無偏性公式、幾何約束等方案,NeuS模型顯著提升了重建質(zhì)量;同時,通過加速采樣策略、多分辨率散列位置編碼等方法,大大縮短了模型的訓(xùn)練時間,使其在實(shí)際應(yīng)用中更具競爭力。雖然這些進(jìn)展令人振奮,SDF體渲染領(lǐng)域仍存在許多挑戰(zhàn)和未解的問題需要解決。
4.1 關(guān)于質(zhì)量和速度
過去的研究在重建質(zhì)量和速度方面取得了巨大進(jìn)展,但重建具有高頻細(xì)節(jié)、陰影和反射表面的對象仍然是一個未解決的問題。未來,本文將致力于開發(fā)更復(fù)雜、更高效的神經(jīng)網(wǎng)絡(luò)架構(gòu),利用更先進(jìn)的優(yōu)化技術(shù)和損失函數(shù),以更好地捕捉場景中的細(xì)節(jié)和變化。在速度方面,盡管在測試階段的快速推理方面已經(jīng)取得了一些進(jìn)展,但縮短訓(xùn)練時間仍然是一個重大挑戰(zhàn)。本文相信未來的研究可以專注于改進(jìn)數(shù)據(jù)結(jié)構(gòu),并設(shè)計額外的學(xué)習(xí)功能,以在混合和顯式場景表示方法中實(shí)現(xiàn)內(nèi)存與性能的平衡。
4.2 關(guān)于可擴(kuò)展性
目前,重建工作主要集中在單個物體或簡單場景上,這些場景較小且結(jié)構(gòu)簡單,因此現(xiàn)有的神經(jīng)渲染方法可以較好地應(yīng)用。然而,當(dāng)處理如城市、復(fù)雜室內(nèi)環(huán)境或大型戶外場景等大規(guī)模場景時,現(xiàn)有方法便會遇到困難。這些大規(guī)模場景在每個輸入幀中通常只能被部分觀察到,因此難以有效地學(xué)習(xí)和表示整個場景。為解決這些問題,未來需要開發(fā)新的存儲和檢索技術(shù),以更高效地構(gòu)建和更新場景,且無須重新計算整個模型。此外,還需高效檢索場景中的局部內(nèi)容,以便處理和編輯大規(guī)模場景中的特定區(qū)域。
4.3 關(guān)于泛化性
大多數(shù)體繪制技術(shù)在重建表面結(jié)構(gòu)時依賴大規(guī)模的多視圖數(shù)據(jù)集,這些數(shù)據(jù)集提供了充足的視角和信息,并要求物體形狀和結(jié)構(gòu)在不同視角下保持不變,以便模型能學(xué)習(xí)到場景的結(jié)構(gòu)和細(xì)節(jié)。未來研究需要減少對大量數(shù)據(jù)的依賴,并提高對非剛性場景的處理能力,以提升泛化能力。SparseNeuS等模型嘗試僅用三張視圖重建表面,盡管能有效重建物體表面,但仍處于初步階段,需要進(jìn)一步改進(jìn)。針對非剛性變形場景,由于場景中的物體會隨時間和視角變化而變形,增加了學(xué)習(xí)和重建難度,模型的泛化能力有限。未來研究可以利用多視圖數(shù)據(jù)集中的變化模式,或分離物體的變形和靜態(tài)部分,以減少學(xué)習(xí)難度,提高模型在不同場景中的泛化能力。
4.4 關(guān)于多模態(tài)學(xué)習(xí)
目前基于SDF的體渲染技術(shù)只專注于單一數(shù)據(jù)模式,即圖像數(shù)據(jù)。而多模態(tài)學(xué)習(xí)則意味著超越視覺信號,并結(jié)合其他數(shù)據(jù)類型,如語義、文本描述和聲音。增加語義信息可以幫助模型更好地理解場景結(jié)構(gòu),提高重建質(zhì)量;而文本描述可以為模型提供額外的上下文信息,輔助視覺信號進(jìn)行更準(zhǔn)確的重建;結(jié)合聲音數(shù)據(jù)可以實(shí)現(xiàn)更加真實(shí)和沉浸的增強(qiáng)現(xiàn)實(shí)體驗(yàn)。通過整合這些多模態(tài)數(shù)據(jù),未來的SDF體渲染技術(shù)將能夠在更廣泛的應(yīng)用場景中展現(xiàn)出更高的靈活性和精度。
4.5 關(guān)于應(yīng)用
基于SDF體渲染的表面重建技術(shù)目前主要應(yīng)用于三維重建、虛擬現(xiàn)實(shí)、醫(yī)療影像、動畫制作和產(chǎn)品設(shè)計等領(lǐng)域。未來,SDF體渲染技術(shù)有望在城市和建筑環(huán)境重建、自動駕駛和機(jī)器人、沉浸式體驗(yàn)和互動藝術(shù)、環(huán)境監(jiān)測和地質(zhì)研究,以及個性化定制和制造中發(fā)揮更大作用。通過不斷發(fā)展和創(chuàng)新,進(jìn)一步提升三維重建的精度和效率,為各行各業(yè)帶來更多可能性。
總而言之,SDF體渲染技術(shù)在計算機(jī)圖形學(xué)領(lǐng)域展現(xiàn)了巨大的潛力和廣泛的應(yīng)用前景。隨著技術(shù)的不斷進(jìn)步和優(yōu)化,可以期待這一領(lǐng)域在未來呈現(xiàn)更多創(chuàng)新和突破。
參考文獻(xiàn):
[1]Wang Peng, Liu Lingjie, Liu Yuan, et al. NeuS: learning neural implicit surfaces by volume rendering for multi-view reconstruction[J]. Advances in Neural Information Processing Systems, 2021, 34: 27171-27183.
[2]Yariv L, Gu Jiatao, Kasten Y, et al. Volume rendering of neural implicit surfaces[J]. Advances in Neural Information Processing Systems, 2021, 34: 4805-4815.
[3]Fridovich-Keil S, Yu A, Tancik M, et al. Plenoxels: radiance fields without neural networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5491-5500.
[4]Galliani S, Lasinger K, Schindler K. Massively parallel multiview stereopsis by surface normal diffusion [C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 873-881.
[5]Schnberger J L, Zheng Enliang, Frahm J M, et al. Pixelwise view selection for unstructured multi-view stereo[C]// Proc of the 14th European Conference on Computer Vision. Cham: Springer, 2016: 501-518.
[6]Zheng Enliang, Dunn E, Jojic V, et al. Patchmatch based joint view selection and depthmap estimation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2014: 1510-1517.
[7]Curless B, Levoy M. A volumetric method for building complex mo-dels from range images [C]// Proc of the 23rd Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 1996: 303-312.
[8]Newcombe R A, Izadi S, Hilliges O, et al. KinectFusion: real-time dense surface mapping and tracking [C]// Proc of the 10th IEEE International Symposium on Mixed and Augmented Reality. Piscataway, NJ: IEEE Press, 2011: 127-136.
[9]Niener M, Zollhfer M, Izadi S, et al. Real-time 3D reconstruction at scale using voxel hashing [J]. ACM Trans on Graphics, 2013, 32(6): 1-11.
[10]Whelan T, Salas-Moreno R F, Glocker B, et al. ElasticFusion: real-time dense SLAM and light source estimation [J]. The International Journal of Robotics Research, 2016, 35(14): 1697-1716.
[11]Kazhdan M, Hoppe H. Screened Poisson surface reconstruction[J]. ACM Trans on Graphics, 2013, 32(3): 1-13.
[12]Mescheder L, Oechsle M, Niemeyer M, et al. Occupancy networks: learning 3D reconstruction in function space [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscata-way, NJ: IEEE Press, 2019: 4455-4465.
[13]Park J J, Florence P, Straub J, et al. DeepSDF: learning continuous signed distance functions for shape representation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 165-174.
[14]Mildenhall B, Srinivasan P P, Tancik M, et al. NeRF: representing scenes as neural radiance fields for view synthesis [J]. Communications of the ACM, 2021, 65(1): 99-106.
[15]Barron J T, Mildenhall B, Tancik M, et al. MIP-NeRF: a multiscale representation for anti-aliasing neural radiance fields [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 5835-5844.
[16]Chen Anpei, Xu Zexiang, Zhao Fuqiang, et al. MVSNeRF: fast ge-neralizable radiance field reconstruction from multi-view stereo [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 14104-14113.
[17]Xu Qiangeng, Xu Zexiang, Philip J, et al. Point-NeRF: point-based neural radiance fields [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5428-5438.
[18]Müller T, Evans A, Schied C, et al. Instant neural graphics primitives with a multiresolution hash encoding [J]. ACM Trans on Graphics, 2022, 41(4): 1-15.
[19]Park K, Sinha U, Barron J T, et al. NeRFies: deformable neural radiance fields [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 5845-5854.
[20]韓開, 徐娟. 3D場景渲染技術(shù)—神經(jīng)輻射場的研究綜述 [J]. 計算機(jī)應(yīng)用研究, 2024, 41(8): 1-10. (Han Kai, Xu Juan. Comprehensive review of 3D scene rendering technique-neural radiance fields [J]. Application Research of Computers, 2024, 41(8): 1-10.)
[21]馬漢聲, 祝玉華, 李智慧, 等. 神經(jīng)輻射場多視圖合成技術(shù)綜述 [J]. 計算機(jī)工程與應(yīng)用, 2024, 60(4): 21-38. (Ma Hansheng, Zhu Yuhua, Li Zhihui, et al. A review of neural radiance field multi-view synthesis technology [J]. Computer Engineering and Applications, 2024, 60(4): 21-38.)
[22]成歡, 王碩, 李孟, 等. 面向自動駕駛場景的神經(jīng)輻射場綜述 [J]. 圖學(xué)學(xué)報, 2023, 44(6): 1091-1103. (Cheng Huan, Wang Shuo, Li Meng, et al. A review of neural radiance fields for autonomous driving scenarios [J]. Journal of Graphics, 2023, 44(6): 1091-1103.)
[23]Oechsle M, Peng Songyou, Geiger A. UNISURF: unifying neural implicit surfaces and radiance fields for multi-view reconstruction [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 5569-5579.
[24]Yariv L, Kasten Y, Moran D, et al. Multiview neural surface reconstruction by disentangling geometry and appearance[J]. Advances in Neural Information Processing Systems, 2020, 33: 2492-2502.
[25]Niemeyer M, Mescheder L, Oechsle M, et al. Differentiable volume-tric rendering: learning implicit 3D representations without 3D supervision [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 3504-3515.
[26]Wang Yiqun, Skorokhodov I, Wonka P. HF-NeuS: improved surface reconstruction using high-frequency details [J]. Advances in Neural Information Processing Systems, 2022, 35: 1966-1978.
[27]Zhang Yongqiang, Hu Zhipeng, Wu Haoqian, et al. Towards unbiased volume rendering of neural implicit surfaces with geometry priors [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 4359-4368.
[28]Chen Decai, Zhang Peng, Feldmann I, et al. Recovering fine details for neural implicit surface reconstruction [C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2023: 4319-4328.
[29]Wang Yiqun, Skorokhodov I, Wonka P. PET-NeuS: positional encoding tri-planes for neural surfaces [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 12598-12607.
[30]Zhuang Yiyu, Zhang Qi, Feng Ying, et al. Anti-aliased neural implicit surfaces with encoding level of detail[C]// Proc of SIGGRAPH Asia 2023 Conference. New York: ACM Press, 2023: article No.119.
[31]Guo Haoyu, Peng Sida, Lin Haotong, et al. Neural 3D scene reconstruction with the Manhattan-world assumption[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2022: 5501-5510.
[32]Darmon F, Bascle B, Devaux J C, et al. Improving neural implicit surfaces geometry with patch warping [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 6250-6259.
[33]Wang Jiepeng, Wang Peng, Long Xiaoxiao, et al. NeuRIS: neural reconstruction of indoor scenes using normal priors [C]// Proc of European Conference on Computer Vision. Cham: Springer, 2022: 139-155.
[34]Yu Zehao, Peng Songyou, Niemeyer M, et al. MonoSDF: exploring monocular geometric cues for neural implicit surface reconstruction[J]. Advances in Neural Information Processing Systems, 2022, 35: 25018-25032.
[35]Eftekhar A, Sax A, Malik J, et al. OmniData: a scalable pipeline for making multi-task mid-level vision datasets from 3D scans [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 10766-10776.
[36]Fu Qiancheng, Xu Qingshan, Ong Y S, et al. Geo-NeuS: geometry-consistent neural implicit surfaces learning for multi-view reconstruction[J]. Advances in Neural Information Processing Systems, 2022, 35: 3403-3416.
[37]Liang Zhihao, Huang Zhangjin, Ding Changxing, et al. HelixSurf: a robust and efficient neural implicit surface learning of indoor scenes with iterative intertwined regularization [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 13165-13174.
[38]Yan Dongyu, Lyu Xiaoyang, Shi Jieqi, et al. Efficient implicit neural reconstruction using lidar [C]// Proc of IEEE International Confe-rence on Robotics and Automation. Piscataway, NJ: IEEE Press, 2023: 8407-8414.
[39]Dogaru A, Ardelean A T, Ignatyev S, et al. Sphere-guided training of neural implicit surfaces [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 20844-20853.
[40]Wu Tong, Wang Jiaqi, Pan Xingang, et al. Voxurf: voxel-based efficient and accurate neural surface reconstruction [EB/OL]. (2023-08-13). https://arxiv.org/abs/2208.12697.
[41]Cai Bowen, Huang Jinchi, Jia Rongfei, et al. NeuDA: neural deformable anchor for high-fidelity implicit surface reconstruction [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 8476-8485.
[42]Rosu R A, Behnke S. PermutoSDF: fast multi-view reconstruction with implicit surfaces using permutohedral lattices [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 8466-8475.
[43]Li Z, Müller T, Evans A, et al. Neuralangelo: high-fidelity neural surface reconstruction [C]// Proceedings of the IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 8456-8465.
[44]Wang Yiming, Han Qin, Habermann M, et al. Neus2: fast learning of neural implicit surfaces for multi-view reconstruction [C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2023: 3272-3283.
[45]Long Xiaoxiao, Lin Cheng, Wang Peng, et al. SparseNeuS: fast generalizable neural surface reconstruction from sparse views[C]// Proc of the 17th European Conference on Computer Vision. Cham: Springer, 2022: 210-227.
[46]Huang Shisheng, Zou Zixin, Zhang Yichi, et al. SC-NeuS: consis-tent neural surface reconstruction from sparse and noisy views[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2024: 2357-2365.
[47]Ren Yufan, Wang Fangjinhua, Zhang Tong, et al. VolRecon: vo-lume rendering of signed ray distance functions for generalizable multi-view reconstruction [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 16685-16695.
[48]Wu Haoyu, Graikos A, Samaras D. S-VolSDF: sparse multi-view stereo regularization of neural implicit surfaces[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 3556-3568.
[49]Liang Yixun, He Hao, Chen Yingcong. ReTR: modeling rendering via Transformer for generalizable neural surface reconstruction[C]// Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2024: 62332-62351.
[50]Sun Jiaming, Chen Xi, Wang Qianqian, et al. Neural 3D reconstruction in the wild[C]// Proc of ACM SIGGRAPH Conference Proceedings. New York: ACM Press, 2022: article No. 26.
[51]Zhang Kai, Luan Fujun, Li Zhengqi, et al. IRON: inverse rendering by optimizing neural SDFS and materials from photometric images [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5565-5574.
[52]Zeng Chong, Chen Guojun, Dong Yue, et al. Relighting neural radiance fields with shadow and highlight hints [C]// Proc of ACM SIGGRAPH Conference. New York: ACM Press, 2023: article No. 73.
[53]Wu Haoqian, Hu Zhipeng, Li Lincheng, et al. NeFII: inverse rendering for reflectance decomposition with near-field indirect illumination [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 4295-4304.
[54]Liu Yuan, Wang Peng, Lin Cheng, et al. NeRO: neural geometry and BRDF reconstruction of reflective objects from multiview images[J]. ACM Trans on Graphics, 2023, 42(4): 1-22.
[55]Zheng Mingwu, Zhang Haiyu, Yang Hongyu, et al. NeuFace: realistic 3D neural face rendering from multi-view images [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 16868-16877.
[56]Xu Baixin, Zhang Jiarui, Lin K Y, et al. Deformable model-driven neural rendering for high-fidelity 3D reconstruction of human heads under low-view settings[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 17878-17888.
[57]Liu Y T, Wang Li, Yang Jie, et al. NeUDF: leaning neural unsigned distance fields with volume rendering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 237-247.
[58]Meng Xiaoxu, Chen Weikai, Yang Bo. Neat: learning neural implicit surfaces with arbitrary topologies from multi-view images [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 248-258.
[59]Ge Wenhang, Hu Tao, Zhao Haoyu, et al. Ref-NeuS: ambiguity-reduced neural implicit surface learning for multi-view reconstruction with reflection[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 4228-4237.
[60]Tong Jinguang, Muthu S, Maken F A, et al. Seeing through the glass: neural 3D reconstruction of object inside a transparent container[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 12555-12564.
[61]Fan Haoqiang, Su Hao, Guibas L. A point set generation network for 3D object reconstruction from a single image [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 2463-2471.
[62]Schnberger J L, Frahm J M. Structure-from-motion revisited[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 4104-4113.
[63]Jensen R, Dahl A, Vogiatzis G, et al. Large scale multi-view stereopsis evaluation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2014: 406-413.
[64]Yao Yao, Luo Zixin, Li Shiwei, et al. BlendedMVS: a large-scale dataset for generalized multi-view stereo networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 1787-1796.
[65]Dai Angela, Chang A X, Savva M, et al. ScanNet: richly-annotated 3D reconstructions of indoor scenes[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 2432-2443.
[66]Knapitsch A, Park J, Zhou Qianyi, et al. Tanks and temples: benchmarking large-scale scene reconstruction[J]. ACM Trans on Graphics, 2017, 36(4): 1-13.
[67]Wu Tong, Zhang Jiarui, Fu Xiao, et al. OmniObject3D: large-vocabulary 3D object dataset for realistic perception, reconstruction and generation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 803-814.