国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

3D場景渲染技術(shù)

2024-08-15 00:00韓開徐娟
計算機應(yīng)用研究 2024年8期

摘 要:神經(jīng)輻射場(NeRF)是一種面向三維隱式空間建模的深度學(xué)習(xí)模型,在表示和渲染三維場景領(lǐng)域具有重要價值。然而由于神經(jīng)輻射場算法訓(xùn)練過程復(fù)雜、需要大量的計算資源和時間等,其可用性和實用性受到一定限制,如何針對神經(jīng)輻射場的痛點問題進行優(yōu)化是當(dāng)前計算機視覺等領(lǐng)域研究的熱點之一。此研究旨在對神經(jīng)輻射場的優(yōu)化和應(yīng)用進行全面綜述。首先,在深入解析神經(jīng)輻射場基本原理的基礎(chǔ)上,從渲染質(zhì)量、計算復(fù)雜度、位姿等方面對現(xiàn)階段神經(jīng)輻射場的優(yōu)化情況進行概述;其次,列舉神經(jīng)輻射場應(yīng)用狀況,為未來更高效和實用的算法優(yōu)化設(shè)計提供參考;最后,總結(jié)神經(jīng)輻射場的優(yōu)勢與局限性,并提出未來可能的發(fā)展方向,以期發(fā)揮神經(jīng)輻射場在三維渲染、場景合成等方面的巨大潛力。

關(guān)鍵詞:神經(jīng)輻射場; 神經(jīng)渲染; 三維場景; 深度學(xué)習(xí)

中圖分類號:TP399 文獻標(biāo)志碼:A

文章編號:1001-3695(2024)08-002-2252-09

doi:10.19734/j.issn.1001-3695.2023.11.0551

Comprehensive review of 3D scene rendering technique-neural radiance fields

Han Kai, Xu Juan

(School of Information Science, Beijing Language University, Beijing 100083, China)

Abstract:NeRF is a deep learning model aimed at modeling three-dimensional implicit spaces, and it holds significant value in the representation and rendering of 3D scenes. However, due to the complex training process, substantial computational resources, and time requirements, the usability and practicality of the NeRF algorithm are somewhat limited. Addressing the pain points of NeRF optimization has become a hot topic in the field of computer vision. This paper aimed to provide a comprehensive review of the optimization and application of NeRF. Firstly, it delved into the basic principles of NeRF and outlined the current optimization status from the perspectives of rendering quality, computational complexity, and pose. Secondly, it enumerated the application scenarios of NeRF to provide references for future, more efficient and practical algorithmic optimizations. Finally, it summarized the strengths and limitations of NeRF and proposed potential future directions tailored to harness the tremendous potential of NeRF in 3D rendering, scene synthesis, and beyond.

Key words:neural radiance fields(NeRF); neural rendering; 3D scene; deep learning

0 引言

近年來,虛擬現(xiàn)實(virtual reality,VR)和增強現(xiàn)實(augmented reality,AR)等技術(shù)引發(fā)了虛實結(jié)合的浪潮,人們對于在線教育、遠(yuǎn)程辦公和數(shù)字文娛等需求逐漸增加,使VR/AR行業(yè)呈現(xiàn)出快速增長的態(tài)勢。特別是2021年元宇宙(Metaverse)[1]概念引爆全球,構(gòu)建高質(zhì)量的虛擬鏡像世界需要大量的數(shù)據(jù)、算力和算法的支持。然而,目前VR/AR資源較少,構(gòu)建方式往往采用人工或三維重建的方式,較為復(fù)雜。其中三維重建通過對拍攝的多張照片進行分析匹配,構(gòu)建相應(yīng)的三維模型[2],傳統(tǒng)三維重建的關(guān)鍵技術(shù)主要包括激光掃描法、結(jié)構(gòu)光法、Kinect技術(shù)和單目視覺等,按照是否主動向場景中發(fā)射光源分為主動式和被動式[3]。主動式通過傳感器主動向物體照射光源,依靠解析返回的信號來獲得物體的三維信息;被動式不使用任何其他能量,依靠多視圖幾何原理基于視差進行計算。

隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,研究者開始探索利用神經(jīng)網(wǎng)絡(luò)來解決三維場景重建和圖像合成的問題。為了擺脫傳統(tǒng)體積渲染的束縛,神經(jīng)輻射場應(yīng)運而生。神經(jīng)輻射場是一種新興的機器學(xué)習(xí)方法,最早出現(xiàn)在2020年ECCV會議上,由Mildenhall等人[4]提出。自該文發(fā)表以來,神經(jīng)輻射場引起了計算機科學(xué)與技術(shù)領(lǐng)域的廣泛關(guān)注,特別是在計算機視覺領(lǐng)域掀起了研究熱潮,對計算機圖形學(xué)、虛擬現(xiàn)實和增強現(xiàn)實等領(lǐng)域均產(chǎn)生了積極影響,是一項具有極大研究潛力的技術(shù)[5,6]。在Google Scholar上搜索2020年1月至2023年11月神經(jīng)輻射場有關(guān)論文達(dá)1萬余篇,引用量已超6 000次,ICCV、ECCV等學(xué)術(shù)會議中都收錄了大量關(guān)于神經(jīng)輻射場的高質(zhì)量論文??梢姡窠?jīng)輻射場已然成為國內(nèi)外圖形圖像領(lǐng)域?qū)W術(shù)研究重要關(guān)注的內(nèi)容。

然而,在技術(shù)應(yīng)用過程中,神經(jīng)輻射場訓(xùn)練一次需要100 k~300 k次迭代,完成一個三維場景需要構(gòu)建大量的物體,采用當(dāng)前的訓(xùn)練模式無法有效運用在下游產(chǎn)業(yè)中。同時,神經(jīng)輻射場大量的神經(jīng)網(wǎng)絡(luò)運算導(dǎo)致其渲染速度緩慢,種種因素制約了神經(jīng)輻射場在實際場景中的應(yīng)用。為使神經(jīng)輻射場能夠更好地發(fā)揮其價值,學(xué)界開始了對神經(jīng)輻射場技術(shù)的優(yōu)化研究,這些研究成果對更好地發(fā)揮神經(jīng)輻射場具有重要借鑒意義。鑒于此,本文將從全面介紹神經(jīng)輻射場方法的基本原理出發(fā),針對神經(jīng)輻射場優(yōu)化技術(shù)進行分析,并從實際應(yīng)用情況進行概述,旨在對當(dāng)前神經(jīng)輻射場的發(fā)展情況進行總結(jié),從而探索其在渲染技術(shù)和相關(guān)領(lǐng)域中的潛力和未來可能的研究方向,為后續(xù)進一步優(yōu)化研究提供有益參考。

1 神經(jīng)輻射場的基本原理

神經(jīng)輻射場是一種高質(zhì)量場景重建技術(shù),它能夠表示場景的三維結(jié)構(gòu),從而實現(xiàn)新視角的視圖合成[4]。神經(jīng)輻射場的主要任務(wù)是在已知視圖的視角下生成未知視角的圖像,基本形式是將三維場景表示為神經(jīng)網(wǎng)絡(luò)近似的輻射場,并從二維圖像中重建出逼真高質(zhì)量的三維場景,本質(zhì)上也是一種基于深度學(xué)習(xí)的機器學(xué)習(xí)方法。下文將從神經(jīng)輻射場基本架構(gòu)、渲染和訓(xùn)練這三個主要方面展開,深入闡釋神經(jīng)輻射場方法的基本原理。

1.1 神經(jīng)輻射場的基本架構(gòu)

神經(jīng)輻射場引入了輻射場的概念,指在空間中每個點上的顏色和輻射強度的分布,這里每個點的輻射信息可以表示為一個連續(xù)的函數(shù),以此獲取這個輻射場包含在任意空間點處的顏色、密度等屬性信息。在實際訓(xùn)練中,使用基于神經(jīng)網(wǎng)絡(luò)的隱式表示方法來表示場景的輻射場,這是因為相較于顯式表示方法,隱式表示方法無須顯式存儲場景的幾何形狀和材質(zhì),能進行無限的分辨率渲染,并且使用神經(jīng)網(wǎng)絡(luò)可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)場景的復(fù)雜性和多樣性。神經(jīng)輻射場的基本架構(gòu)主要包括位置編碼和多層感知機。

1.1.1 位置編碼

在傳統(tǒng)的MLP網(wǎng)絡(luò)中,由于其局限性,較難有效學(xué)習(xí)和表示顏色、紋理和光照等高頻數(shù)據(jù)的細(xì)節(jié)。但場景中的顏色紋理信息通常具有高頻成分,如果直接使用MLP網(wǎng)絡(luò)對場景進行學(xué)習(xí),可能會導(dǎo)致習(xí)得的紋理表面變得相當(dāng)模糊。

為了解決這一問題,神經(jīng)輻射場引入了位置編碼(positional encoding)[7]的概念。位置編碼函數(shù)采用與Transformer 中類似正余弦周期函數(shù)的形式,在不同頻域上對位置進行編碼,允許MLP網(wǎng)絡(luò)同時學(xué)習(xí)場景中的高低頻信息,以提高對細(xì)節(jié)的捕捉能力。位置編碼主要用于提升MLP網(wǎng)絡(luò)對場景中高頻信息的捕捉能力,類似于傅里葉變換,利用高頻函數(shù)將低維空間的數(shù)據(jù)輸入映射到高維空間,以增加網(wǎng)絡(luò)對高頻數(shù)據(jù)的敏感性[8]。神經(jīng)輻射場能夠采用位置編碼將輸入的空間位置(x,y,z)和觀察方向(θ,)映射到高維空間,實現(xiàn)高頻信息的有效擬合,提高生成圖像的清晰度。

1.1.2 多層感知機

神經(jīng)輻射場通常使用多層感知機(multilayer perceptron,MLP)來學(xué)習(xí)一個三維場景顏色、密度等物理屬性,MLP是一個由多個全連接的隱藏層組成的深度神經(jīng)網(wǎng)絡(luò),可以作為通用函數(shù)近似器表示表面或體積屬性[4]。其中每個隱藏層中的神經(jīng)元與前一層中的所有神經(jīng)元相互連接,通過非線性變換將輸入映射到輸出,再通過輸出層的神經(jīng)元輸出對應(yīng)的屬性。

神經(jīng)輻射場使用Fθ(x,d)→(c,σ)兩個獨立的MLP來分別表示場景中每個點的輻射顏色和密度。具體操作步驟如下:首先,將輸入數(shù)據(jù)x(即x,y,z)傳入第一個MLP網(wǎng)絡(luò),經(jīng)過一系列的非線性變換和激活函數(shù)后,得到對應(yīng)的中間特征和σ(即對應(yīng)點的密度);接著,將中間特征和d(即觀察視角)再次輸入到另一個全連接層中,并預(yù)測場景中的顏色c,由此得到對應(yīng)點的顏色和密度值。

如圖1所示,神經(jīng)網(wǎng)絡(luò)的輸入是連續(xù)的5D坐標(biāo),包括空間點坐標(biāo)(x,y,z)和觀察方向(θ,),共計五個變量[4],經(jīng)過位置編碼和多層感知機的處理,輸出對應(yīng)點的顏色(r,g,b)和體積密度。整個過程需要在場景中進行大量空間點的采樣并進行預(yù)測,使神經(jīng)輻射場從不同視角合成出逼真的連續(xù)視角圖像,實現(xiàn)對場景的渲染任務(wù)??梢酝ㄟ^限制顏色的預(yù)測,保持多視圖之間的一致性,使得神經(jīng)輻射場能夠根據(jù)不同視角下的光照效果生成不同的圖像。結(jié)合MLP的能力,神經(jīng)輻射場能夠模擬逼真的場景,并有效提升生成圖像的畫面質(zhì)量。它可以通過捕捉復(fù)雜的非線性關(guān)系,有效進行建模,從而實現(xiàn)后續(xù)高質(zhì)量的圖像渲染效果。

1.2 圖像渲染

在渲染階段,神經(jīng)輻射場使用了體積渲染方法[9],通過光線和場景點的采樣預(yù)測顏色和密度,并將其累積到最終的合成圖像中。體積渲染是一種將三維場景轉(zhuǎn)換為二維圖像的技術(shù),具體到神經(jīng)輻射場中來說,當(dāng)給定不同視角的相機姿態(tài)后,可以計算出特定像素坐標(biāo)的顏色。

具體實現(xiàn)步驟為:通過對采樣點或途經(jīng)點(即相機光心發(fā)出的一條射線經(jīng)過要計算顏色的像素坐標(biāo),并穿過場景中的各個點)的顏色值累加,可以得到該像素的最終顏色。在這個過程中,通過渲染方程對每個途經(jīng)點進行遞歸計算,能夠獲取途經(jīng)點到相機位置的顏色值,具體體現(xiàn)在渲染方程中

(γ)=∫tftnT(t)σ(r(t))c(r(t),d)dt(1)

其中:c表示顏色;σ表示密度;r表示相機發(fā)出射線上的距離;d表示相機射線上的方向;t則表示在相機射線上采樣點到相機光心的距離;dt表示光線在每一步積分的微分距離。這里一條射線上的點是連續(xù)的,因此射線的顏色可以由積分得到。T(t)是射線從tn到t這一段路徑上的光線累積透明度,可以理解為這條射線從tn到t沒有擊中任何粒子的概率。在方程中,累積的體積密度σ越大,T(t)的值越小,有效降低了遮擋對該位置顏色的影響。

考慮到一條射線上大部分區(qū)域都是空區(qū)域或被遮擋的區(qū)域,對最終顏色的貢獻值較小,神經(jīng)輻射場中采用了一種優(yōu)化策略分層體素渲染[4],通過對不同區(qū)域分別進行粗采樣和細(xì)采樣的方式來減少計算開銷。在粗采樣階段,神經(jīng)輻射場使用較為稀疏的采樣點,在起點和終點之間均勻采樣Nc個點。這些粗采樣的點用于計算體素的密度和顏色值。對于得到的粗采樣點,神經(jīng)輻射場通過歸一化權(quán)重進行分段常數(shù)概率密度函數(shù)的構(gòu)建,并使用逆變換方法對粗采樣的點進行二次采樣,以此得出更多的細(xì)采樣點。通過將這些細(xì)采樣點與原有的粗采樣點一起采樣,減小估算積分式的計算開銷,加快訓(xùn)練速度。

1.3 神經(jīng)輻射場的訓(xùn)練

總的來說,神經(jīng)輻射場的訓(xùn)練過程包括數(shù)據(jù)準(zhǔn)備、射線采樣、場景表示預(yù)測、渲染圖像生成和損失函數(shù)計算幾個步驟,如圖2所示。

收集準(zhǔn)備用于訓(xùn)練的場景數(shù)據(jù)是訓(xùn)練的基礎(chǔ),數(shù)據(jù)包括多個角度下拍攝的圖像以及相機姿態(tài)信息。一些常見的神經(jīng)輻射場數(shù)據(jù)集通常會涵蓋不同類型的場景,包括LLFF、360_v2和Objectron[10]等。其次,需要完成對多視角圖像的射線采樣,這里的一條射線對應(yīng)最終圖片的一個像素,找到射線與場景的若干個交點,這些采樣點將作為MLP的輸入完成后續(xù)的訓(xùn)練。想要確定射線,離不開對相機位姿的確認(rèn),可以利用SFM(structure from motion)方法[11]進行相機位姿的生成。

接著,將每個采樣點的3D坐標(biāo)和觀察位置輸入到神經(jīng)網(wǎng)絡(luò)中,通過一系列非線性變換和激活函數(shù),產(chǎn)生該位置的密度值和顏色值。利用體積渲染技術(shù),沿著光線路徑對密度和顏色值進行插值[12]和融合,以計算出每個像素的顏色值。

因為體積渲染函數(shù)是可微的,可以通過計算渲染生成的圖像與真實圖像之間的差異,使用損失函數(shù)進行比較,從而對神經(jīng)輻射場的場景表示進行迭代優(yōu)化。這里的損失函數(shù)可以用于衡量生成圖像和真實圖像中每個像素RGB值之間的差異。通過整個訓(xùn)練過程,使得神經(jīng)輻射場可以在之前未見過的視角下生成逼真的圖像。

2 神經(jīng)輻射場的優(yōu)化

神經(jīng)輻射場能較好地和現(xiàn)有的圖像內(nèi)容理解方法兼容,能夠不受網(wǎng)格限制更好地處理場景細(xì)節(jié)和紋理,并且可以在不同視角下生成高質(zhì)量的圖像。但同時,神經(jīng)輻射場的訓(xùn)練和渲染往往需要大量的計算資源和時間,使得研究者需要從渲染質(zhì)量、計算復(fù)雜度、位姿優(yōu)化等多個方面不斷嘗試優(yōu)化和改進神經(jīng)輻射場算法。為了更加透徹地了解作為神經(jīng)隱式表征突出代表的神經(jīng)輻射場技術(shù)的應(yīng)用潛力,如圖3,本章圍繞現(xiàn)階段神經(jīng)輻射場的優(yōu)化,從渲染質(zhì)量、渲染速度、位姿、可編輯場景等優(yōu)化方法出發(fā),對相關(guān)研究成果進行系統(tǒng)梳理和總結(jié)。

2.1 關(guān)于渲染質(zhì)量的優(yōu)化

渲染質(zhì)量是評判神經(jīng)輻射場技術(shù)好壞的重要指標(biāo),影響著后續(xù)的研究工作。研究者們大多將精力集中于優(yōu)化和提升生成的三維空間的渲染質(zhì)量上。以下模型皆致力于提升合成視圖的渲染圖像質(zhì)量。

Mip-NeRF[13]是一種減少圖像鋸齒神經(jīng)輻射場的多尺度表示方法,如圖4所示,相較于傳統(tǒng)神經(jīng)輻射場的表示方法,它提出利用錐追蹤(cone tracing)[14]來完成光線追蹤,改善了神經(jīng)輻射場投出光線產(chǎn)生混疊的問題,顯著提高了神經(jīng)輻射場呈現(xiàn)精細(xì)細(xì)節(jié)的能力。不同于傳統(tǒng)的光線追蹤,該方法通過有效地渲染圓錐體,構(gòu)建了每個圓錐體覆蓋體積的綜合位置編碼,從而降低了混疊出現(xiàn),顯著提高了神經(jīng)輻射場呈現(xiàn)細(xì)節(jié)精細(xì)度的能力。

Mip-NeRF在渲染場景時能夠展現(xiàn)更加清晰、平滑的圖像效果,并減少了圖像鋸齒現(xiàn)象,使得渲染結(jié)果更加逼真。同時,Mip-NeRF在性能方面也有所提升,相較于傳統(tǒng)神經(jīng)輻射場,其渲染速度提高了約7%的同時,還能將模型的大小減半,節(jié)約了存儲空間。但Mip-NeRF存在一定的缺點,它的效果實現(xiàn)需要準(zhǔn)確標(biāo)定相機位姿,只有當(dāng)收集圖片質(zhì)量高且相機姿態(tài)準(zhǔn)確時,它才能呈現(xiàn)良好的效果,否則容易因為拍攝過程中出現(xiàn)的運動模糊等噪聲受到影響,后續(xù)的工作在一定程度上對此問題進行了優(yōu)化。

針對應(yīng)用于無界場景表現(xiàn)不佳的問題,Barron等人[15]提出一種無邊界抗鋸齒神經(jīng)輻射場Mip-NeRF 360,它是Mip-NeRF的擴展,使用非線性場景參數(shù)化、在線蒸餾和基于失真的正則化器來克服無界場景問題。與Mip-NeRF相比,它減少了57%的均方誤差。

Ref-NeRF[16]建立在Mip-NeRF的基礎(chǔ)上,用反射亮度取代了神經(jīng)輻射場中參數(shù)化視相關(guān)的出射亮度,并采用一組空間變化場景屬性構(gòu)造函數(shù),提出了一種新的關(guān)于視相關(guān)輻射值的參數(shù)化和結(jié)構(gòu)化方式,對法向量提出新的正則化。這些操作能讓MLP在上面更好地插值,主要解決了合成中的高光和反光問題。

為解決神經(jīng)輻射場在多尺度的視圖合成任務(wù)中產(chǎn)生模糊和鋸齒的問題,范騰等人[17]提出了多尺度神經(jīng)輻射場(MS-NeRF)方法,該方法通過在多尺度視圖合成任務(wù)過程中引入不同尺度場景下稀疏的視圖特征和視點特征作為先驗信息,并利用淺層的殘差塊網(wǎng)絡(luò)對深層網(wǎng)絡(luò)進行監(jiān)督,從而提高了合成視圖的視覺效果。

NeRF-W[18]是一種神經(jīng)輻射場的擴展,通過放寬嚴(yán)格一致性的假設(shè)來處理實際場景中的復(fù)雜性和多樣性。其主要技術(shù)點包括采用自監(jiān)督學(xué)習(xí)方法來學(xué)習(xí)如何將非結(jié)構(gòu)化網(wǎng)絡(luò)照片集轉(zhuǎn)換為3D場景表示,通過比較渲染圖像與實際圖像之間的差異來學(xué)習(xí)場景的外觀和結(jié)構(gòu)。這種方法允許在渲染圖像中出現(xiàn)一些不一致性,但需要在可接受的范圍內(nèi)。NeRF-W能夠更好地處理實際場景中的復(fù)雜性和多樣性,從而提高了3D場景重構(gòu)的精度和質(zhì)量。

NeRF++方法[19]引入了自適應(yīng)采樣策略和分層網(wǎng)絡(luò)結(jié)構(gòu),使用球體分離場景,為未綁定場景生成新的視圖,它主要訓(xùn)練了兩個獨立的神經(jīng)輻射場模型,一個用于球體內(nèi)部,一個用于球體外部,使用這種訓(xùn)練方法將原始的神經(jīng)輻射場擴展,實現(xiàn)了遠(yuǎn)景渲染質(zhì)量的提高。對渲染質(zhì)量優(yōu)化方法的總結(jié)及對比如表1所示。

上述各項提升NeRF渲染質(zhì)量的優(yōu)化技術(shù)都對渲染質(zhì)量有一定的提升,且各有其優(yōu)勢和不足。在神經(jīng)輻射場基礎(chǔ)上,目前Mip-NeRF對于后續(xù)的進一步研究最具影響力,它提出了錐形追蹤,減少了鋸齒偽影,Ref-NeRF實現(xiàn)效果同樣十分優(yōu)秀。除此之外,Deblur-NeRF[20]使用了一個新穎的可變形稀疏核模塊,實現(xiàn)了模糊輸入恢復(fù)清晰的效果,使神經(jīng)輻射場對模糊輸入具有魯棒性。具體應(yīng)用到圖像處理方向,RawNeRF[21]和HDR-NeRF[22]同樣展現(xiàn)了創(chuàng)新的一面。然而,究其本質(zhì),神經(jīng)輻射場離不開對渲染高清視圖的需求,當(dāng)前研究盡管在一定程度上提高了渲染質(zhì)量,但在實際應(yīng)用的過程中仍可能面臨成本過高等現(xiàn)實問題,除了注重渲染質(zhì)量的提升以外,還應(yīng)平衡成本與效益的關(guān)系,以真正實現(xiàn)NeRF的落地應(yīng)用。

2.2 關(guān)于計算復(fù)雜度的優(yōu)化

原始版神經(jīng)輻射場需要100張左右的圖片進行訓(xùn)練,隨著計算復(fù)雜度的改進,現(xiàn)有模型只需要幾張圖像幾秒鐘就可以進行高質(zhì)量重建。Instant-NGP[23]模型極大地提高了神經(jīng)輻射場模型的訓(xùn)練速度,如圖5所示,原先一個場景訓(xùn)練需要幾個小時,Instant-NGP只要幾秒鐘就可以完成。不同于神經(jīng)輻射場的MLP,Instant-NGP用體素網(wǎng)格進行哈希編碼,這種新的位置編碼極大地提高了訓(xùn)練和推理速度。

Depth-Supervised NeRF[24]在原有損失函數(shù)的基礎(chǔ)上提出了創(chuàng)新,充分利用了現(xiàn)有的深度監(jiān)督學(xué)習(xí)方法,并巧妙地利用了運動恢復(fù)結(jié)構(gòu)(structure from motion,SFM)將稀疏3D點作為額外的深度監(jiān)督信號。通過引入這個損失函數(shù),DS-NeRF能夠把光線的深度分布與給定的3D關(guān)鍵點相匹配,并且還考慮了深度的不確定性。這種方法在訓(xùn)練過程中僅使用較少的視圖就能生成更加優(yōu)質(zhì)的圖像,并且訓(xùn)練速度提高了2~3倍。此外,DS-NeRF的優(yōu)勢還在于它能夠支持多種深度監(jiān)督形式,如掃描深度傳感器和RGBD重建輸出。

SNeRG[25]則是一種加速渲染的方法。Hedman等人通過預(yù)計算和存儲稀疏神經(jīng)輻射網(wǎng)格來對神經(jīng)輻射場進行實時渲染,將MLP模型轉(zhuǎn)換成一個稀疏網(wǎng)格模型進行訓(xùn)練,實現(xiàn)30 fps以上的典型神經(jīng)輻射場場景。但其對含反射和透明場景進行建模時較為困難,需要對每個表面的視圖依賴性完成單獨建模,這對于城市規(guī)模的渲染,將會出現(xiàn)成本過高的情況。

DVGO[26]提出了對網(wǎng)格進行訓(xùn)練加速的方法,采用將場景進行顯示體素表達(dá)的方法,將神經(jīng)輻射場的訓(xùn)練時間縮減到半小時以內(nèi)。Sun等人采用了兩個先驗算法,通過混合體素階段跳過了大量無關(guān)點的采樣,相比于傳統(tǒng)神經(jīng)輻射場,它直接使用三線性插值得出空間點的信息,無須通過MLP,由此實現(xiàn)了加速訓(xùn)練。DVGO測試中得到的結(jié)果通常比NeRF好,特別是在一些具有復(fù)雜幾何的場景上,但對無界場景沒有給出處理方法。對以上計算復(fù)雜度優(yōu)化方法的總結(jié)及對比如表2所示。

除此之外,Point-NeRF[27]、HeadNeRF[28]和Plenoxels[29]等模型都在高效建模與渲染方面展現(xiàn)出優(yōu)秀的能力。Point-NeRF用3D點云和神經(jīng)特征來模擬輻射場進行優(yōu)化,訓(xùn)練時間大大縮短;HeadNeRF則是將神經(jīng)輻射場集成到人頭的參數(shù)表示中,可以實時渲染高保真頭部圖像,同時通過設(shè)計新的損耗項,將一幀的渲染時間從5 s減少到25 ms;Plenoxels通過梯度方法和正則化對校準(zhǔn)圖像進行優(yōu)化,是一種全體素用于逼真視圖合成的系統(tǒng),優(yōu)化速度比神經(jīng)輻射場快兩個數(shù)量級。

神經(jīng)輻射場技術(shù)涉及復(fù)雜的計算問題,需要高度優(yōu)化技術(shù)來提高計算效率。以上研究從訓(xùn)練和渲染階段入手,致力于優(yōu)化神經(jīng)輻射場的計算復(fù)雜度,以提高計算速度和準(zhǔn)確性。這些研究取得了一定的進步,但仍然存在一些不足。例如,當(dāng)使用幾張簡單的圖像進行重建時,如何更好地把控渲染后三維模型的精細(xì)度是一項重要的挑戰(zhàn)。由此可見,未來在應(yīng)用神經(jīng)輻射場進行場景重建時,需要同時考慮渲染質(zhì)量的提升和計算復(fù)雜度的降低,以獲得最佳的效果。

2.3 關(guān)于位姿的優(yōu)化

傳統(tǒng)神經(jīng)輻射場的訓(xùn)練建立在已有相機位姿的基礎(chǔ)上,通常受到不對準(zhǔn)相機位姿訓(xùn)練樣本的影響,且在實際應(yīng)用中存在相機位姿未知的情況,因此,位姿優(yōu)化的NeRF具有一定的研究價值。部分研究采用NeRF-based SLAM(simultaneously localization and mapping)等方法來優(yōu)化位姿,并不斷嘗試與深度學(xué)習(xí)融合,如下幾個關(guān)于位姿的優(yōu)化模型和方法值得關(guān)注。

iNeRF[30]是一種用于姿態(tài)估計的反向神經(jīng)輻射場框架,通過固定網(wǎng)絡(luò)模型優(yōu)化相機位姿。它可以在沒有3D網(wǎng)格模型或深度感應(yīng)的情況下,僅使用RGB圖像作為輸入來估計具有復(fù)雜幾何形狀的場景和物體的姿態(tài)。通過反轉(zhuǎn)從單一視圖推斷出的NeRF模型,對RGB圖像進行類別級別的物體姿態(tài)估計,包括訓(xùn)練期間未見的物體實例。它的優(yōu)點是可以應(yīng)用于真實世界的場景和物體,并且可以通過預(yù)測更多圖像的相機姿態(tài)來改善模型。iNeRF可以通過估計新圖像的相機姿態(tài),并將這些圖像用作NeRF的額外訓(xùn)練數(shù)據(jù),從而改善NeRF在復(fù)雜真實世界場景(如LLFF數(shù)據(jù)集)中的性能。

BARF[31]同時優(yōu)化網(wǎng)絡(luò)模型和相機位姿,是一種用于訓(xùn)練NeRF的新方法,如圖6所示,可以在不準(zhǔn)確甚至未知的相機姿勢下進行訓(xùn)練。Lin等人[31]發(fā)現(xiàn)從粗到細(xì)地注冊相機幀對NeRF同樣適用。BARF可以有效地優(yōu)化神經(jīng)場景表征,并解決大型相機姿勢的錯位問題,為視覺定位系統(tǒng)和未知相機姿勢的場景表示提供了新的可能性。

MVSNeRF[32]本質(zhì)上是一種結(jié)合了多視角立體匹配(MVS)和神經(jīng)輻射場(NeRF)技術(shù)的方法。其主要技術(shù)點在于利用平面掃描3D成本體積進行幾何感知場景理解,通過將附近輸入視圖的2D圖像特征扭曲到參考視圖的掃描平面上,在輸入?yún)⒖家晥D處構(gòu)建成本體積。該方法進一步微調(diào)提速特征和MLP解碼器,能夠高效地重建復(fù)雜的三維場景,并提升泛化能力,使得重建的輻射場可以適用于不同的視角和光照條件。

NeRF--[33]專注于前向場景的新視圖合成。與傳統(tǒng)神經(jīng)輻射場方法不同,NeRF--簡化了訓(xùn)練過程,擯棄了對已知或預(yù)先相機參數(shù)的需求。為了實現(xiàn)這一改進,NeRF--提出了三項關(guān)鍵貢獻:首先,它將相機參數(shù)視為可學(xué)習(xí)的參數(shù),與神經(jīng)輻射場模型一同進行聯(lián)合優(yōu)化,通過光度重建實現(xiàn)了相機參數(shù)的聯(lián)合優(yōu)化;其次,為了評估相機參數(shù)和新視圖渲染質(zhì)量,引入了一個新的數(shù)據(jù)集,名為BLEFF(blender forward-facing dataset);最后證明在大多數(shù)場景下,聯(lián)合優(yōu)化流程能夠恢復(fù)準(zhǔn)確的相機參數(shù)。NeRF--技術(shù)為新視圖合成提供了一種高效、靈活的解決方案,并為相機參數(shù)的學(xué)習(xí)和優(yōu)化帶來了新的視角和進展。

傳統(tǒng)神經(jīng)輻射場的訓(xùn)練依賴于每張圖片的相機位姿和內(nèi)參,因此對于這一階段的優(yōu)化也尤為重要。上文列舉的各類位姿優(yōu)化方法較好地解決了相機姿勢估計誤差問題,總結(jié)及對比如表3所示。

2.4 其他優(yōu)化

學(xué)者們除了對神經(jīng)輻射場在渲染質(zhì)量、計算復(fù)雜度和相機位姿上的改進展開大量研究外,還面向高分辨率實時渲染、動態(tài)場景、可編輯NeRF、語義表示、無約束等其他方面的優(yōu)化問題作出了探討。針對神經(jīng)輻射場技術(shù)瓶頸的優(yōu)化,促使更多的研究者發(fā)現(xiàn)神經(jīng)輻射場的可能性,加入優(yōu)化的隊伍,不斷促進著視圖合成領(lǐng)域的發(fā)展。

對于無邊界和1080p分辨率下無法實現(xiàn)實時渲染的問題,文獻[34]提出用3D高斯函數(shù)表示場景,這是一種類似于神經(jīng)輻射場的技術(shù),可以實現(xiàn)在1080p分辨率下的高質(zhì)量實時渲染。如圖7所示,首先,在相機校準(zhǔn)過程中生成稀疏點,使用3D高斯函數(shù)表示場景,既保留了輻射場的特性,又可以避免在空白區(qū)域內(nèi)不必要的計算;其次,對3D高斯函數(shù)進行交錯優(yōu)化/密度控制,特別是通過優(yōu)化各向異性協(xié)方差,以實現(xiàn)對場景的準(zhǔn)確表示;最后,開發(fā)了一種GPU友好的快速可視性感知渲染算法,該算法支持各向異性飛濺,在加速訓(xùn)練的同時支持實時渲染。

針對神經(jīng)輻射場只能重建靜態(tài)場景的技術(shù)瓶頸,不少研究致力于將其擴展到動態(tài)領(lǐng)域。Pumarola等人[35]提出的D-NeRF可以用于對動態(tài)場景的建模和渲染,在單相機圍繞場景旋轉(zhuǎn)一周的情況下,重建物體的剛性和非剛性運動,將神經(jīng)輻射場擴展到動態(tài)領(lǐng)域。圖8描述了動態(tài)場景數(shù)據(jù)集的構(gòu)建和訓(xùn)練D-NeRF模型的過程,與靜態(tài)場景的神經(jīng)輻射場不同,動態(tài)場景中的物體和相機位置可能隨時間變化,D-NeRF將時間作為額外輸入實現(xiàn)對動態(tài)場景的建模,捕捉物體的運動和場景隨時間產(chǎn)生的變化,從而控制物體的移動。

基于多視圖視頻的神經(jīng)3D視頻合成[36]采用時間條件神經(jīng)輻射場,通過一組緊湊的代碼表示場景動態(tài)信息。這種方法可以有效地將10臺攝像機記錄的18 s 30幀/s的多視圖視頻進行建模,并且模型大小僅為28 MB,實現(xiàn)了高效的動態(tài)場景合成與建模。

除高分辨率實時渲染、動態(tài)建模外,還存在其他基于神經(jīng)輻射場劣勢的改良。針對神經(jīng)輻射場無法在場景中執(zhí)行用戶控制的形狀變形的情況,NeRF-Editing[37]通過建立顯式網(wǎng)格表示和目標(biāo)場景的隱式神經(jīng)表示之間的對應(yīng)關(guān)系,使得用戶可以對場景的隱式表示進行可控的形狀變形,并合成編輯后的場景新視圖。這種方法為編輯場景提供了更加直觀和靈活的方式,允許用戶以交互方式修改場景的外觀和形狀。近期提出的Blended-NeRF[38]提供了一種全面的框架,能夠在場景中進行局部編輯。通過引入預(yù)訓(xùn)練模型和3D RoI框以及獨特的融合技術(shù)和視覺增強方法,顯著提高了編輯的效率和質(zhì)量。

基于神經(jīng)渲染的無監(jiān)督連續(xù)語義自適應(yīng)Semantic-NeRF[39]模型首次提出將語義信息加入NeRF,實現(xiàn)了僅依靠少量特定語義標(biāo)簽就能獲取準(zhǔn)確的語義標(biāo)注和理解。通過融合分割模型的預(yù)測來訓(xùn)練每個場景的Semantic-NeRF模型網(wǎng)絡(luò),然后使用視圖一致呈現(xiàn)的語義標(biāo)簽作為偽標(biāo)簽來適應(yīng)模型,如圖9所示。由于該模型體積較小,可以儲存在長期記憶中,隨后可用于從任意角度呈現(xiàn)數(shù)據(jù),對正確的語義輸出有著重要影響。

SS-NeRF[40]提供了一種新的場景理解方法,能夠從新穎的視點渲染逼真的RGB圖像,而且還能夠渲染各種精確的場景屬性。有助于在統(tǒng)一的框架下解決各種場景理解任務(wù),包括語義分割、表面法線估計、重塑、關(guān)鍵點檢測和邊緣檢測。

針對神經(jīng)輻射場需要大量輸入視圖的問題,PixelNeRF[41]可以根據(jù)一個或少數(shù)幾個輸入圖像預(yù)測連續(xù)的神經(jīng)場景表示。傳統(tǒng)的神經(jīng)輻射場構(gòu)建方法涉及對每個場景進行獨立的優(yōu)化,需要大量校準(zhǔn)的視圖和計算時間。為了解決這些問題,PixelNeRF提出了一個全卷積的架構(gòu),將神經(jīng)輻射場與圖像輸入進行條件化。這使得網(wǎng)絡(luò)能夠跨多個場景進行訓(xùn)練,學(xué)習(xí)場景的先驗知識,從少數(shù)幾個視圖中以前向傳播的方式執(zhí)行新視圖合成。

針對將真實物體轉(zhuǎn)移到虛擬世界的目標(biāo),ScanNeRF[42]通過比對三個先進神經(jīng)輻射場優(yōu)化技術(shù),提出了一個基準(zhǔn)思想來評估神經(jīng)輻射場和神經(jīng)渲染框架,并設(shè)計了一個可以實現(xiàn)短時間收集對象數(shù)千張圖像的流程,用于快速掃描真實物體,為促進神經(jīng)輻射場框架的研究起到了促進作用。

近年來,國內(nèi)研究者在神經(jīng)輻射場領(lǐng)域進行了其他方面的優(yōu)化探索。苗源等人[43]從光場數(shù)據(jù)采集的角度出發(fā),提出了基于神經(jīng)輻射場的光場角度域超分辨方法。該方法能夠準(zhǔn)確表達(dá)具有復(fù)雜不利條件的光場場景,有效解決了場景高頻紋理信息較難擬合的問題,為后續(xù)開展光場計算成像研究提供參考。

表4對比了以上優(yōu)化方法的創(chuàng)新、結(jié)果及應(yīng)用場景。神經(jīng)輻射場的優(yōu)化研究涵蓋了渲染速度、渲染質(zhì)量、動態(tài)建模、語義分割等各個方面,從傳統(tǒng)神經(jīng)輻射場各個階段出發(fā),研究者們結(jié)合實際,能夠發(fā)掘出不同的優(yōu)化方式,從而改進神經(jīng)輻射場。這些優(yōu)化工作使得神經(jīng)輻射場在實際應(yīng)用中更具有吸引力,為圖像渲染和場景重建等領(lǐng)域的發(fā)展帶來了新的可能性。但往往研究者僅針對某一個方面進行優(yōu)化,或者融合某兩部分完成優(yōu)化,因其訓(xùn)練成本過高,大部分研究者在入手階段就“望而卻步”,不利于深入實踐。因此對神經(jīng)輻射場各個階段的前后交融研究十分必要,開源數(shù)據(jù)集和實際應(yīng)用使用的技術(shù)整理可以幫助未來研究者在某一階段優(yōu)化的基礎(chǔ)上繼續(xù)完善,不斷發(fā)掘神經(jīng)輻射場的可能性。

3 神經(jīng)輻射場的應(yīng)用

每一項新技術(shù)的出現(xiàn),都需要將其應(yīng)用到實際生活中,以促進便利和改善現(xiàn)有技術(shù)的不足。近年來,深度學(xué)習(xí)技術(shù)的快速發(fā)展為各個領(lǐng)域帶來了革命性的變化,神經(jīng)輻射場作為其中的一種先進方法,在場景合成和渲染方面展示出巨大潛力。它能夠為用戶帶來沉浸式視覺效果,增強個性化定制,進一步降低人工成本。它的創(chuàng)新思想和技術(shù)為許多實際應(yīng)用領(lǐng)域帶來了前所未有的機會,了解神經(jīng)輻射場應(yīng)用場景從而探尋未來發(fā)展的可能性是十分必要的。本章以神經(jīng)輻射場實際應(yīng)用為重點,闡述神經(jīng)輻射場在計算機視覺、計算機圖形學(xué)和增強現(xiàn)實等領(lǐng)域的具體應(yīng)用案例,并介紹了一些相關(guān)的研究進展內(nèi)容。

3.1 自動駕駛

隨著科技的不斷進步,自動駕駛已經(jīng)成為社會炙手可熱的話題之一。然而,要大規(guī)模推廣自動駕駛無人車,在前期的開發(fā)階段需要進行多次測試和設(shè)置。神經(jīng)輻射場作為一種高度逼真的場景渲染方法,在場景感知、決策支持等方面發(fā)揮著重要作用,在自動駕駛領(lǐng)域具有廣泛的應(yīng)用前景?;谏窠?jīng)輻射場的衍生版本Block-NeRF[44],利用自動駕駛的傳感器收集附近街區(qū)的環(huán)境數(shù)據(jù),并合成大規(guī)模的逼真3D場景。這種視圖合成技術(shù)可以實現(xiàn)虛擬和現(xiàn)實場景的實時融合,為自動駕駛系統(tǒng)提供精確的視覺效果。CityNeRF[45]首次嘗試將神經(jīng)輻射場帶到城市級規(guī)模,捕捉了城市環(huán)境的復(fù)雜細(xì)節(jié)和空間變化,為在不同細(xì)節(jié)級別上的視圖渲染提供了強大的解決方案。

如圖10所示,除了基本的視圖合成,神經(jīng)輻射場還可以通過改變環(huán)境照明條件,模擬一些復(fù)雜的路況,包括天氣和時間的變化、環(huán)境照明變化等情況,幫助自動駕駛提供一個很好的模擬數(shù)據(jù),提升導(dǎo)航的穩(wěn)定性,從而進一步提升模擬駕駛場景的仿真度。

利用神經(jīng)輻射場技術(shù),自動駕駛系統(tǒng)可以實現(xiàn)對周圍環(huán)境的實時三維重建,為自動駕駛的定位和導(dǎo)航提供重要的支持。通過不斷更新的場景重建模型,系統(tǒng)能夠準(zhǔn)確定位車輛在場景中的位置,為后續(xù)的路徑規(guī)劃和選擇提供精確的參考。這種三維重建能力對于自動駕駛的定位和導(dǎo)航非常關(guān)鍵,有助于提高自動駕駛系統(tǒng)的定位準(zhǔn)確性。

神經(jīng)輻射場技術(shù)能夠協(xié)助自動駕駛系統(tǒng)實現(xiàn)對周圍障礙物的三維檢測和跟蹤。通過將實時攝像頭圖像輸入到已訓(xùn)練好的模型中,系統(tǒng)可以獲取障礙物的準(zhǔn)確三維位置和形狀信息,這為自動駕駛系統(tǒng)提供了關(guān)鍵的感知能力,使其能夠更好地規(guī)避障礙物,確保行駛的安全性和穩(wěn)定性。

3.2 圖像處理

神經(jīng)輻射場作為一種隱式表示方法,在圖像處理方面展現(xiàn)出了很大的發(fā)展前景。與傳統(tǒng)的圖像處理方法依賴于人工設(shè)計的提取器不同,神經(jīng)輻射場采用了一種全新的思路,即從隱式神經(jīng)表示或神經(jīng)場的角度來處理圖像。例如,RawNeRF[21]能夠處理高動態(tài)范圍(high dynamic range imaging,HDR)圖像視圖的合成,能夠處理具有復(fù)雜光照和明暗變化的HDR圖像,使得還原夜景照片成為可能。它使用原始線性圖像作為訓(xùn)練數(shù)據(jù),并在線性顏色空間中進行渲染。這使得RawNeRF能夠處理不同曝光和色調(diào)映射曲線,從而提供更大的靈活性。它在神經(jīng)輻射場渲染之后處理,而不是直接使用后處理的圖像作為訓(xùn)練數(shù)據(jù)。然而,與RawNeRF中的原始線性圖像相反,HDR-NeRF[22]通過使用可變曝光時間的低動態(tài)范圍訓(xùn)練圖像來接近HDR視圖合成,在HDR重建上獲得了較高的視覺評估分?jǐn)?shù)。

如圖11所示,Neural Knitworks[46]在單個樣本上訓(xùn)練的模型可以在非常低的內(nèi)存要求下執(zhí)行許多不同的圖像合成任務(wù)。它是一種用于自然圖像神經(jīng)隱式表示學(xué)習(xí)的體系結(jié)構(gòu),通過對抗的方式優(yōu)化圖像補丁的分布,能夠捕捉圖像的特征和結(jié)構(gòu),并通過增強補丁預(yù)測之間的一致性,確保生成的圖像在多個任務(wù)中都能保持穩(wěn)定和準(zhǔn)確,以此來實現(xiàn)圖像合成。

綜上,神經(jīng)輻射場在圖像處理方面展現(xiàn)出了在高動態(tài)范圍圖像視圖合成、去噪和圖像修復(fù)等方面的能力,這些技術(shù)的發(fā)展將為圖像處理領(lǐng)域帶來更多創(chuàng)新和進步。

3.3 數(shù)字化人體

數(shù)字人是一種虛擬人體形象技術(shù),其目標(biāo)是運用數(shù)字技術(shù)創(chuàng)造出與人類形象類似的虛擬人物形象。數(shù)字人常運用于教育、電子商務(wù)和媒體娛樂等領(lǐng)域,可以充當(dāng)虛擬助教、虛擬客服或是虛擬主播,近年來十分火爆。但傳統(tǒng)的數(shù)字人制作非常復(fù)雜,不僅需要昂貴的設(shè)備還需要完成3D建模、材質(zhì)紋理處理、骨骼綁定和動作步驟等流程,并且需要大量專業(yè)人士的協(xié)作,這極大地限制了數(shù)字人技術(shù)的應(yīng)用范圍。神經(jīng)輻射場為通過少量訓(xùn)練數(shù)據(jù)實現(xiàn)高質(zhì)量數(shù)字人建模與渲染帶來可能,它能夠簡化數(shù)字人的制作難度,為創(chuàng)造寫實、還原的數(shù)字人形象提供了強大的算法支持;虛擬主播數(shù)字人也有望在電商經(jīng)濟日益火爆的背景下,助力減少人力成本,為直播帶來不一樣的體驗;為影視制作、動畫游戲開發(fā)等領(lǐng)域提供更廣闊的空間。

在數(shù)字化人體中,神經(jīng)輻射場的主要應(yīng)用之一是人體姿態(tài)估計和重建。通過收集多個視角的圖像或視頻,神經(jīng)輻射場可以對人體進行3D重建,從而獲得人體的準(zhǔn)確姿態(tài)和形狀信息。這對于虛擬人物形象的創(chuàng)建非常重要,可以為虛擬角色賦予逼真的動作和姿態(tài),增強用戶的沉浸感[47]。除了完成基本人體結(jié)構(gòu)的制作,數(shù)字人實現(xiàn)仿真性的一個重要因素在于人臉面部表情變化。人臉重建要求神經(jīng)輻射場模型在面部表情變化下具有魯棒性,而面部表情變化可能表現(xiàn)為拓?fù)渥兓?。模型通常將變形場參?shù)化為附加的MLP,潛在地受到潛在代碼的制約,允許從基線人臉控制變形,能夠?qū)崿F(xiàn)人臉的位姿、表情編輯,在動畫制作和游戲制作領(lǐng)域有著很好的發(fā)展前景[48]。

此外,神經(jīng)輻射場在人臉面部表情重建和編輯方面也開始有了新發(fā)展。如圖12所示,通過給定一個人的單目肖像視頻序列,無須專門的捕獲設(shè)置,就可以重建一個代表4D面部化身的動態(tài)神經(jīng)輻射場,從而合成新的頭部姿勢以及面部表情的變化[49]。神經(jīng)輻射場的高質(zhì)量渲染能力為數(shù)字化人體中的虛擬影像生成提供了新思路。通過神經(jīng)輻射場的神經(jīng)場表示,可以生成逼真的虛擬人體影像,用于電影特效、虛擬演員和虛擬角色的制作等方面。神經(jīng)輻射場通過算法生成對應(yīng)的數(shù)字人,為數(shù)字人建模和渲染帶來了全新的技術(shù)方案。目前,神經(jīng)輻射場在數(shù)字化人體方面的相關(guān)算法研究大多只是針對單個身體部位如肢體或面部進行的[47~49],未來有望在數(shù)字人的智能化與擬人化方面實現(xiàn)突破。

3.4 其他應(yīng)用

神經(jīng)輻射場除在以上三個方面的應(yīng)用,在虛擬現(xiàn)實和增強現(xiàn)實領(lǐng)域也展現(xiàn)出巨大的價值,無論是重建真實世界的場景還是創(chuàng)造元宇宙的數(shù)字地圖,都可以運用在游戲、教育等各行各業(yè),為用戶提供更真實的體驗。通過利用神經(jīng)輻射場技術(shù),開發(fā)者可以創(chuàng)建逼真的虛擬世界,讓用戶能夠沉浸在更真實、詳細(xì)的環(huán)境中。這樣的體驗可以讓用戶感覺身臨其境,增加樂趣并提高使用者的沉浸感。

同時,神經(jīng)輻射場在醫(yī)療領(lǐng)域具有廣泛的應(yīng)用前景,可以作為醫(yī)療教學(xué)輔助和實操訓(xùn)練的重要工具,可以用于重建和可視化醫(yī)學(xué)圖像,如CT掃描和MRI核磁共振成像。在成像中,傳感器探測的數(shù)據(jù)需要經(jīng)過離散采樣并重建成體數(shù)據(jù)或者切片供人類觀看。Truong等人[50]提出一種在稀疏采樣下進行神經(jīng)場重建的框架,通過神經(jīng)輻射場生成的逼真渲染結(jié)果,可以幫助醫(yī)生更好地理解患者的解剖結(jié)構(gòu)、診斷疾病,并進行手術(shù)規(guī)劃。相較于傳統(tǒng)依賴于模型的解剖學(xué)教學(xué),神經(jīng)輻射場可以通過對患者影像數(shù)據(jù)進行處理和重建,生成高度逼真的三維解剖模型,幫助醫(yī)學(xué)生在虛擬環(huán)境中進行解剖學(xué)習(xí)和實踐,提高其對人體結(jié)構(gòu)和器官的理解,提供更生動、立體的學(xué)習(xí)體驗。

除此之外,神經(jīng)輻射場還有其他一些潛在的應(yīng)用。例如,神經(jīng)輻射場可以用于模擬和訓(xùn)練機器人,通過對真實環(huán)境的建模和渲染,幫助其學(xué)習(xí)和訓(xùn)練各種技能和行為模式,提高機器人面對復(fù)雜環(huán)境任務(wù)的高度智能和適應(yīng)能力。綜上,神經(jīng)輻射場具有廣泛的應(yīng)用潛力。未來,隨著神經(jīng)輻射場技術(shù)的不斷優(yōu)化和發(fā)展,相信它將在各個領(lǐng)域發(fā)揮更大的價值,為產(chǎn)業(yè)新發(fā)展帶來更多機遇和可能。

4 結(jié)束語

4.1 神經(jīng)輻射場的優(yōu)勢與局限性

神經(jīng)輻射場作為一種新興的計算機視覺技術(shù),具有巨大的優(yōu)勢。如前所述,它能夠有效地對復(fù)雜的場景進行重建,在一定程度上減輕傳統(tǒng)建模的壓力。同時,它能夠從有限數(shù)量的輸入樣本中學(xué)習(xí)預(yù)測出近似3D場景的輻射場和密度場,對場景中的物體進行精確捕捉和識別,為各種應(yīng)用提供了有力支持。它也能夠適應(yīng)不同場景的外在條件,例如光照等,通過神經(jīng)網(wǎng)絡(luò)從現(xiàn)有觀測中學(xué)習(xí)渲染,實現(xiàn)高質(zhì)量三維場景的生成,這些優(yōu)勢使得神經(jīng)輻射場成為一種強大而有效的技術(shù)。但是,沒有一項技術(shù)是完美無缺的。高計算成本、高計算復(fù)雜度限制了神經(jīng)輻射場在實際應(yīng)用和交互式場景中的使用,對單一方面的優(yōu)化不足以實現(xiàn)廣泛的推廣應(yīng)用。同時,神經(jīng)渲染的一個主要局限體現(xiàn)在它無法處理結(jié)構(gòu)數(shù)據(jù),如網(wǎng)格、點云等,它采用的是隱式場景表示方法,構(gòu)建的虛擬現(xiàn)實內(nèi)容是體積數(shù)據(jù),無法進行物理碰撞等檢測,因此無法直接遷移到現(xiàn)有的渲染引擎中進行交互,這意味著神經(jīng)輻射場生成的內(nèi)容可能無法與其他常見的三維模型和場景進行無縫集成和交互。這些限制使得神經(jīng)輻射場在實際應(yīng)用中受到一定的制約。然而,隨著技術(shù)的不斷發(fā)展和改進,相信這些問題未來都能解決,神經(jīng)輻射場也有望成為一種更加強大和靈活的工具,為元宇宙、虛擬現(xiàn)實和增強現(xiàn)實等領(lǐng)域帶來更多創(chuàng)新和可能性[51]。

4.2 未來可能的研究方向

神經(jīng)輻射場的提出引起了學(xué)術(shù)界的熱烈反響,研究者們對于神經(jīng)輻射場的研究熱情高漲,促使神經(jīng)輻射場取得了快速發(fā)展。然而,盡管神經(jīng)輻射場是一個關(guān)鍵性的突破,但要實現(xiàn)完美的效果仍需要一定的時間,現(xiàn)階段出色的研究成果尚未落地,神經(jīng)輻射場的優(yōu)化還可以從以下三個方面考慮:

a)渲染質(zhì)量和渲染成本并行優(yōu)化。為了實現(xiàn)更全面、精細(xì)的場景重建,需要進一步探索神經(jīng)輻射場在質(zhì)量和成本并行的優(yōu)化方式。當(dāng)前對這方面的研究大多是分步進行的,質(zhì)量高、成本低的處理仍然是一個挑戰(zhàn),因此需要開發(fā)更有效的方法來解決這一問題,在提高渲染質(zhì)量的同時,降低訓(xùn)練成本。

b)探索神經(jīng)輻射場的多模態(tài)表示能力。當(dāng)前基于神經(jīng)輻射場的優(yōu)化工作,大部分還是由視圖作為輸入,對于多模態(tài)數(shù)據(jù)的處理研究較少,因此有必要探索其他模態(tài)如文字、音頻和視頻等的結(jié)合。同時可以探索與生成式人工智能的結(jié)合,訓(xùn)練擴散模型,完成一些生成方面的任務(wù)。訓(xùn)練具有語義理解能力和語義視圖綜合能力的神經(jīng)輻射場,判斷其應(yīng)用落地的可能,也許會產(chǎn)生令人驚艷的效果。同時還需開發(fā)更有效的方法來整合不同類型的數(shù)據(jù),以提高場景感知和理解的能力。

c)與實際應(yīng)用緊密結(jié)合。神經(jīng)輻射場技術(shù)可以嘗試與顯式場景表示相結(jié)合,以投入實際應(yīng)用場景為目標(biāo)進行研究,在與實際應(yīng)用結(jié)合的過程中,催生新的優(yōu)化方式,不斷迭代促成神經(jīng)輻射場的發(fā)展。

總而言之,神經(jīng)輻射場技術(shù)的出現(xiàn)令人振奮,通過辯證的眼光審視這一新技術(shù),本文既看到了其發(fā)展前景,也意識到了現(xiàn)有技術(shù)的不足之處。在未來的工作中,神經(jīng)輻射場將在現(xiàn)有工作基礎(chǔ)上,重點在更高質(zhì)量更快速度的渲染、虛擬現(xiàn)實和應(yīng)用落地等方面的進一步研究。相信通過持續(xù)的研究和創(chuàng)新,神經(jīng)輻射場技術(shù)將真正實現(xiàn)在各個領(lǐng)域的全面落地和應(yīng)用。

參考文獻:

[1]Lee L H, Braud T, Zhou Pengyuan, et al. All one needs to know about metaverse: a complete survey on technological singularity, virtual ecosystem, and research agenda[EB/OL]. (2021-11-03). https://arxiv.org/abs/2110.05352.

[2]Ebrahimnezhad H, Ghassemian H. Robust motion from space curves and 3D reconstruction from multiviews using perpendicular double stereo rigs[J]. Image and Vision Computing, 2008, 26(10): 1397-1420.

[3]江靜, 張雪松. 基于計算機視覺的深度估計方法[J]. 光電技術(shù)應(yīng)用, 2011,26(1): 51-55. (Jiang Jing, Zhang Xuesong. Depth estimation methods based on computer vision[J]. Electro-Optic Technology Application, 2011,26(1): 51-55.)

[4]Mildenhall B, Srinivasan P P, Tancik M, et al. NeRF: representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2021, 65(1): 99-106.

[5]Gao K, Gao Yina, He Hongjie, et al. NeRF: neural radiance field in 3D vision, a comprehensive review[EB/OL]. (2023-11-30). https://arxiv.org/abs/2210.00379.

[6]Tewari A, Thies J, Mildenhall B, et al. Advances in neural rendering[J]. Computer Graphics Forum, 2022, 41(2): 703-735.

[7]Tancik M, Srinivasan P, Mildenhall B, et al. Fourier features let networks learn high frequency functions in low dimensional domains[J]. Advances in Neural Information Processing Systems, 2020, 33: 7537-7547.

[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017:6000-6010.

[9]Kajiya J T, Von Herzen B P. Ray tracing volume densities[J]. ACM SIGGRAPH Computer Graphics, 1984, 18(3): 165-174.

[10]Ahmadyan A, Zhang Liangkai, Ablavatski A, et al. Objectron: a large scale dataset of object-centric videos in the wild with pose annotations[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 7818-7827.

[11]Schonberger J L, Frahm J M. Structure-from-motion revisited[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 4104-4113.

[12]鐘寶江, 陸志芳, 季家歡. 圖像插值技術(shù)綜述[J]. 數(shù)據(jù)采集與處理, 2016, 31(6): 1083-1096. (Zhong Baojiang, Lu Zhifang, Ji Jiahuan. Review on image interpolation techniques[J]. Journal of Data Acquisition and Processing, 2016, 31(6): 1083-1096.)

[13]Barron J T, Mildenhall B, Tancik M, et al. Mip-NeRF: a multiscale representation for anti-aliasing neural radiance fields[C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 5835-5844.

[14]桂梅書, 侯進, 譚光鴻, 等. 基于體素錐追蹤的全局光照算法[J]. 光學(xué)學(xué)報, 2019, 39(6): 292-301. (Gui Meishu, Hou Jin, Tan Guanghong, et al. Global illumination algorithm based on voxel cone tracing[J]. Acta Optica Sinica, 2019, 39(6): 292-301.)

[15]Barron J T, Mildenhall B, Verbin D, et al. Mip-NeRF 360: unbounded anti-aliased neural radiance fields[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5460-5469.

[16]Verbin D, Hedman P, Mildenhall B, et al. Ref-NeRF: structured view-dependent appearance for neural radiance fields[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5481-5490.

[17]范騰, 楊浩, 尹穩(wěn),等. 基于神經(jīng)輻射場的多尺度視圖合成研究[J]. 圖學(xué)學(xué)報, 2023,44(6):1140-1148. (Fan Teng, Yang Hao, Yin Wen, et al. Multi-scale view synthesis based on neural radiance field[J]. Journal of Graphics, 2023,44(6):1140-1148.)

[18]Martin-Brualla R, Radwan N, Sajjadi M S M, et al. NeRF in the wild: neural radiance fields for unconstrained photo collections[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2021: 7206-7215.

[19]Zhang Kai, Riegler G, Snavely N, et al. NeRF++: analyzing and improving neural radiance fields[EB/OL]. (2020-10-21). https://arxiv.org/abs/2010.07492.

[20]Ma Li, Li Xiaoyu, Liao Jing, et al. Deblur-NeRF: neural radiance fields from blurry images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 12851-12860.

[21]Mildenhall B, Hedman P, Martin-Brualla R, et al. NeRF in the dark: high dynamic range view synthesis from noisy raw images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2022: 16169-16178.

[22]Huang Xin, Zhang Qi, Feng Ying, et al. HDR- NeRF: high dynamic range neural radiance fields[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 18377-18387.

[23]Müller T, Evans A, Schied C, et al. Instant neural graphics primitives with a multiresolution hash encoding[J]. ACM Trans on Graphics, 2022, 41(4): 1-15.

[24]Deng Kangle, Liu A, Zhu Junyan, et al. Depth-supervised NeRF: fewer views and faster training for free[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 12872-12881.

[25]Hedman P, Srinivasan P P, Mildenhall B, et al. Baking neural radiance fields for real-time view synthesis[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 5855-5864.

[26]Sun Cheng, Sun Min, Chen H T. Direct voxel grid optimization: super-fast convergence for radiance fields reconstruction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5459-5469.

[27]Xu Qiangeng, Xu Zexiang, Philip J, et al. Point- NeRF: point-based neural radiance fields[C]//Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5428-5438.

[28]Hong Yang, Peng Bo, Xiao Haiyao, et al. HeadNeRF: a real-time NeRF-based parametric head model[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 20342-20352.

[29]Fridovich-Keil S, Yu A, Tancik M, et al. Plenoxels: radiance fields without neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5491-5500.

[30]Lin Yenchen, Florence P, Barron J T, et al. iNeRF: inverting neural radiance fields for pose estimation[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2021: 1323-1330.

[31]Lin C H, Ma W C, Torralba A, et al. BARF: bundle-adjusting neural radiance fields[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 5721-5731.

[32]Chen Anpei, Xu Zexiang, Zhao Fuqiang, et al. MvsNeRF: fast generalizable radiance field reconstruction from multi-view stereo[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 14104-14113.

[33]Wang Zirui, Wu Shangzhe, Xie Weidi, et al. NeRF--: neural radiance fields without known camera parameters[EB/OL]. (2022-04-06). https://arxiv.org/abs/2102.07064.

[34]Kerbl B, Kopanas G, Leimkühler T, et al. 3D Gaussian splatting for real-time radiance field rendering[J]. ACM Trans on Graphics, 2023, 42(4): 1-14.

[35]Pumarola A, Corona E, Pons-Moll G, et al. D-NeRF: neural radiance fields for dynamic scenes[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 10313-10322.

[36]Li Tianye, Slavcheva M, Zollhoefer M, et al. Neural 3D video synthesis from multi-view video[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5511-5521.

[37]Yuan Yujie, Sun Yangtian, Lai Yukun, et al. NeRF-editing: geometry editing of neural radiance fields[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 18332-18343.

[38]Gordon O, Avrahami O, Lischinski D. Blended-NeRF: zero-shot object generation and blending in existing neural radiance fields[EB/OL]. (2023-09-07). https://arxiv.org/abs/2306.12760.

[39]Liu Zhizheng, Milano F, Frey J, et al. Unsupervised continual semantic adaptation through neural rendering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 3031-3040.

[40]Zhang Mingtong, Zheng Shuhong, Bao Zhipeng, et al. Beyond RGB: scene-property synthesis with neural radiance fields[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2023: 795-805.

[41]Yu A, Ye V, Tancik M, et al. PixelNeRF: neural radiance fields from one or few images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 4576-4585.

[42]De Luigi L, Bolognini D, Domeniconi F, et al. ScanNeRF: a scalable benchmark for neural radiance fields[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2023: 816-825.

[43]苗源, 劉暢, 邱鈞. 基于神經(jīng)輻射場的光場角度域超分辨[J]. 光學(xué)學(xué)報, 2023, 43(14): 93-102. (Miao Yuan, Liu Chang, Qiu Jun. Neural radiance field-based light field super-resolution in angular domain[J]. Acta Optica Sinica, 2023, 43(14): 93-102.)

[44]Tancik M, Casser V, Yan Xinchen, et al. Block-NeRF: scalable large scene neural view synthesis[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 8238-8248.

[45]Xiangli Yuanbo, Xu Linning, Pan Xingang, et al. CityNeRF: building NeRF at city scale[EB/OL]. (2021). https://api. semanticscholar. org/CorpusID: 245117494.

[46]Czerkawski M, Cardona J, Atkinson R, et al. Neural Knitworks: patched neural implicit representation networks[J]. Pattern Recognition, 2024,151:110378.

[47]Chen Jianchuan, Yi Wentao, Ma Liqian, et al. GM-NeRF: learning generalizable model-based neural radiance fields from multi-view images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 20648-20658.

[48]Zheng Mingwu, Zhang Haiyu, Yang Hongyu, et al. NeuFace: realistic 3D neural face rendering from multi-view images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 16868-16877.

[49]Gafni G, Thies J, Zollhofer M, et al. Dynamic neural radiance fields for monocular 4D facial avatar reconstruction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2021: 8645-8654.

[50]Truong P, Rakotosaona M J, Manhardt F, et al. Sparf: neural radiance fields from sparse and noisy poses[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 4190-4200.

[51]馬瑞祾, 徐娟. 國際中文教育元宇宙: 理論意蘊、雙輪驅(qū)動與發(fā)展進路[J]. 云南師范大學(xué)學(xué)報: 對外漢語教學(xué)與研究版, 2023, 21(4): 16-25. (Ma RuiLing, Xu Juan. The metaverse of international Chinese language education: theoretical implications, two-wheel drive and development strategies[J]. Journal of Yunnan Normal University: Teaching & Studying Chinese as a Foreign Language Edition, 2023, 21(4): 16-25.)