朱方
(1.中興通訊微電子研究院,深圳 518057;2.移動通訊與移動多媒體國家重點實驗室,深圳 518055)
自然場景的3D空間建模,以及基于空間建模先驗的場景內(nèi)容重現(xiàn)一直是信息技術(shù)圍繞人類交互體驗的重要努力方向。如圖1所示,從1920年第一個數(shù)字圖像完成對1866年的跨大西洋電報電纜在紐芬蘭登陸場景的記錄,到結(jié)合計算機圖形學(xué)的構(gòu)建和基于物理渲染營造逼真呈現(xiàn),再到結(jié)合成像的投影幾何去完成空間場景的幾何建模,研究者一直嘗試將自然真實場景轉(zhuǎn)化為有效的數(shù)字資產(chǎn)。同時對于場景的3D建模和高逼真呈現(xiàn)與再編輯能力也是元宇宙和增強現(xiàn)實等構(gòu)建數(shù)字和現(xiàn)實世界紐帶技術(shù)的核心基礎(chǔ)。
圖1 自然場景的建模和重現(xiàn)發(fā)展歷程
當前,隨著深度學(xué)習(xí)驅(qū)動的信息技術(shù)快速發(fā)展,作為建模和內(nèi)容重現(xiàn)的核心—3D場景表征相關(guān)技術(shù)(從點云,網(wǎng)格,體素,隱函數(shù)以及神經(jīng)隱函數(shù)等)得到了澎湃發(fā)展,特別是當前神經(jīng)輻射場相關(guān)技術(shù)(NeRF:Neural Radiance Fields)的興起,為基于有限觀測自由地生成虛擬視點內(nèi)容,以及基于空間和時間維度的體積顯示重采樣提供了豐富應(yīng)用基石。
為了更加透徹的了解基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)加持下,3D場景表征相關(guān)技術(shù)的發(fā)展,特別是作為神經(jīng)隱式表征一個突出代表的NeRF技術(shù)的應(yīng)用潛力和內(nèi)在關(guān)鍵機理,本文對近期相關(guān)研究成果進行了深入的回顧和研究。
本文首先總結(jié)了不同3D 場景表征技術(shù)的應(yīng)用背景,并回顧了近期針對不同表征技術(shù)基于深度學(xué)習(xí)處理所取得的進展,由此引出了隱表面和神經(jīng)隱式表征這些有著巨大發(fā)展?jié)摿Φ谋碚骷夹g(shù);其次,對于神經(jīng)隱函數(shù)中的特別具有代表性的NeRF 技術(shù),就其近期發(fā)展和延伸研究展開了廣泛的探討,包括其空間和光照可編輯性方面的研究,以及針對動態(tài)場景和時序輸入場景建模的發(fā)展,和如何加速其內(nèi)容生成以方便實際部署方面的進展。
然后通過針對近期NeRF涉及場景構(gòu)建及其交叉領(lǐng)域相關(guān)研究的深入分析,本文揭示了顯性三維空間和語義信息對于NeRF的神經(jīng)高維隱空間訓(xùn)練構(gòu)建的重要價值。同時結(jié)合近期基于圖像的NeRF的有意義的成果,和對當前單幀圖像顯性3D空間信息感知的挑戰(zhàn)分析,揭示了NeRF這種基于輸入信息連續(xù)高維建模能力為3D場景魯棒表征和自適應(yīng)擴展帶來的優(yōu)勢。
最后本文對相關(guān)論述進行了總結(jié),并進一步呼吁越來越多的后期3D空間多媒體研究以這種“記憶和重現(xiàn)能力”方式向前推進。
現(xiàn)實場景3D 建模和內(nèi)容重現(xiàn)的核心—場景表征技術(shù)一直是研究者的重點關(guān)注領(lǐng)域,常用的包括了計算機圖形學(xué)日常使用的網(wǎng)格技術(shù),計算機視覺3D 重建傳統(tǒng)使用的點云技術(shù),和沉浸式3D 多媒體常規(guī)使用的3D 體積表征(體素網(wǎng)格)技術(shù)[1]等。以上三種表征技術(shù)以不同的方式離散了輸出空間。為了獲得更好的空間表征,包括表征量的連續(xù)性和多尺度自適應(yīng)性,以隱性表面為代表的隱式表征技術(shù)逐步獲得更多研究者的關(guān)注[2,3]。特別是近期作為基于神經(jīng)網(wǎng)絡(luò)技術(shù)有機延伸的神經(jīng)隱式表征技術(shù),成為當前研究的熱點并獲得了廣泛的探討,如文獻[4?6]。
表1 總結(jié)了當前主流5種表征類別(點云,網(wǎng)格,體素,隱式表面以及隱式神經(jīng)(空間)表征)及其局限性。這也是研究者積極尋求突破的重要方向[7?21]。本章節(jié)后續(xù)部分將就相應(yīng)方向近期基于深度學(xué)習(xí)取得的研究進展進行闡述。并鑒于這些成果揭示空間表面隱式表征以及基于深度神經(jīng)網(wǎng)絡(luò)的延伸(神經(jīng)隱式(空間)表征)對于場景三維空間感知建模和基于先驗的內(nèi)容重現(xiàn)發(fā)展帶來的機遇。
表1 3D場景表征相關(guān)技術(shù)
總體而言,近期探索大體可以分成三個主要演進方向:
(1)解決不規(guī)則離散歐式空間數(shù)值的處理問題
在傳統(tǒng)的三種常規(guī)表征中,如表1所示,網(wǎng)格和點集體現(xiàn)了實景采集數(shù)字化應(yīng)用場景當前面臨的挑戰(zhàn),即空間幾何表現(xiàn)(具備清晰的拓撲關(guān)系和連續(xù)的空間占用表示)和感知工程實踐(零散的確定性空間采樣點)之間的差距。同時對于結(jié)合歐式距離和局部結(jié)構(gòu)特征的拓撲性提取,深度學(xué)習(xí)網(wǎng)絡(luò)(如卷積神經(jīng)網(wǎng)絡(luò)(CNN))可以提供較好地多層次特征提取能力,但是往往面臨如下問題。即直接操作于原始數(shù)據(jù)(網(wǎng)格和點云),其歐式空間表示的不規(guī)則性嚴重阻礙了直接開展傳統(tǒng)的深度學(xué)習(xí)技術(shù)。在歐式空間下3D 網(wǎng)格規(guī)則化表示的體素網(wǎng)格,由于其空間表示規(guī)則化,成為傳統(tǒng)卷積網(wǎng)絡(luò)技術(shù)在三維空間下的直接擴展。然而,細粒度的幾何信息最終會在3D 網(wǎng)格量化中丟失,而且其可伸縮性也會受到高計算和內(nèi)存成本的阻礙。
這一問題引發(fā)了兩方面的努力,包括a)既維護基于體積表征的良好準確性,同時大幅降低處理計算復(fù)雜度,如近期文獻中分別引入了自適應(yīng)分辨率體積映射[7]和稀疏卷積網(wǎng)絡(luò)[8]。前者利用空間八叉樹數(shù)據(jù)結(jié)構(gòu)對輸出空間分層分解,而后者利用三維點云數(shù)據(jù)的固有稀疏性,通過只在輸入數(shù)據(jù)的非空位置上保留和執(zhí)行卷積來降低計算成本。另一方面,b)引入可以適應(yīng)非歐臨域關(guān)系或者基于流形的新型卷積計算方法也成為一個積極探索的方向,如球形分形卷積(SFC:Spherical Fractal Convolution)[9]、位 置 自 適 應(yīng) 卷 積(PAC:Position Adaptive Convolution)[10]和點流算法(PointFlow)[11]以及基于細分結(jié)構(gòu)的網(wǎng)格卷積網(wǎng)絡(luò)算法(SBMC:Subdivision?Based Mesh Convolution)[12]。
對于缺乏拓撲性的點云表征數(shù)據(jù),SFC 方法將三維空間點映射到一個由基于分形的規(guī)則二十面晶格體創(chuàng)建的離散球體上,然后基于此球體構(gòu)建具有多層次尺度的卷積神經(jīng)網(wǎng)絡(luò)。而PAC 方法通過基于由基本權(quán)重矩陣構(gòu)建的模板庫構(gòu)造動態(tài)卷積核來模擬三維點云的復(fù)雜空間變化和幾何結(jié)構(gòu)。其中卷積核對應(yīng)的基本權(quán)重矩陣的組合系數(shù)由多層感知器(MLP)從相對點位置自適應(yīng)學(xué)習(xí)。和以上基于流形映射以及動態(tài)組合來契合CNN 的特性不同,PointFlow 方法采用比較新穎的圖數(shù)據(jù)表示來表征原始空間數(shù)據(jù),以應(yīng)對數(shù)據(jù)原始空間表達存在的不規(guī)則性。結(jié)合這種圖表示,PointFlow 算法采用了全新的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架,動態(tài)圖卷積網(wǎng)絡(luò)(DGCNN:Dynamic Graph CNN),來改進相鄰位置之間的特征聚合計算。這種網(wǎng)絡(luò)框架的徹底革新使得可以從空間數(shù)據(jù)點的各個空間角度分析其臨近點來迭代優(yōu)化本地三維空間特征的預(yù)測。
而對于本身具備拓撲信息的網(wǎng)格表征數(shù)據(jù),SBMC 方法通過將輸入網(wǎng)格進行重網(wǎng)格化,將原本任意連接的局部網(wǎng)格構(gòu)建為保持特定細分循環(huán)序列連接的網(wǎng)格模式。這種特定循環(huán)特質(zhì)意味著一種類似于照片中像素的規(guī)則結(jié)構(gòu),方便了CNN 對局部臨域規(guī)則性的要求。
(2)解決自然場景真實連續(xù)性信號多尺度自適應(yīng)表征的問題
雖然前文例舉的相關(guān)研究,為將點集和網(wǎng)格引入基于深度網(wǎng)絡(luò)學(xué)習(xí)框架,以及緩解基于體素表征的計算成本提供了很大的便利,但原始離散化數(shù)據(jù)(點集和網(wǎng)格)和基于原始數(shù)據(jù)的離散化(體素)仍然會限制多尺度密集輸出空間的表達,也可能存在量化誤差積累(如采用文獻[7]中八叉樹層次化表示體積表征計算引發(fā)的離散量化誤差)。而且高質(zhì)量的交互空間三維幾何表示,需要能夠描述足夠精細的連續(xù)空間占用,并在較少存儲要求下包含多尺度信息。也正是因此,隱式表面(Implicit surface)相關(guān)技術(shù)吸引了相關(guān)研究者的關(guān)注。
使用隱式表面進行空間幾何表征可以追溯到文獻[13],其通過將帶符號距離函數(shù)(SDF:Signed Dis‐tance Function)數(shù)值存儲在一組描述被占據(jù)表面的體素中。雖然這樣隱函數(shù)描述的表面是連續(xù)的,但輸入空間簡單離散化會引入表面質(zhì)量缺陷,如文獻[14]中所述。為了克服這一缺點,后續(xù)的研究[15,16]采用高斯過程對映射進行建模,將離散輸入轉(zhuǎn)化為數(shù)據(jù)先驗問題,并增量地執(zhí)行貝葉斯映射更新優(yōu)化。
近期,隨著深度神經(jīng)網(wǎng)絡(luò)所展現(xiàn)的強大數(shù)據(jù)驅(qū)動學(xué)習(xí)能力,利用深度學(xué)習(xí)融入相關(guān)數(shù)據(jù)先驗的問題解決引發(fā)了神經(jīng)隱式(空間)表征(INR:Implicit Neural Representation)研究熱潮[4?6],包括了非線性擬合[17]和元學(xué)習(xí)[18]等方面的研究嘗試。其中比較經(jīng)典的文獻為近期的空間占用預(yù)測網(wǎng)絡(luò)(Occupancy Networks)[4]和隱式移動最小二乘曲面算法(IMLS:Implicit mov‐ing least?squares surface)[19]。其中空間占用預(yù)測網(wǎng)絡(luò)使用深度神經(jīng)網(wǎng)絡(luò)分類器隱式地將三維空間表面表征為連續(xù)決策邊界。這樣利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的連續(xù)決策邊界不僅可以在固定的離散3D 位置(如已有體素表示)推理空間表面占用率,而且在任何可能的空間3D 點(p∈R3)都可以實現(xiàn)占用率推理。因此這種創(chuàng)新方法可以在極小內(nèi)存空間占用(學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)權(quán)重)并在無限輸入分辨率下輸出3D空間表面描述。
而IMLS方法則進一步體現(xiàn)了INR的優(yōu)點。首先其和空間占用預(yù)測網(wǎng)絡(luò)類似,即利用一個內(nèi)嵌參數(shù)的神經(jīng)網(wǎng)絡(luò)的零水平集表述三維空間中的一個曲面。如前文所述,參數(shù)化信號所需的內(nèi)存與輸入空間分辨率無關(guān)。同時IMLS方法還拓展定義了所表征曲面所在的空間維度,即可以表示高維空間中的一個流形(超曲面)。這樣INR 即可不同于傳統(tǒng)空間表征(點云、網(wǎng)格和體素)僅僅局限于空間占用或空間表面的表征,其還可以作為融合其他高維特性的重要表達。近期研究概率局部隱式體素(PLIVox: Probabilistic Local Implicit Voxel)[20]就是一個極好的例證。其不僅捕獲場景空間幾何描述,還通過單一深度神經(jīng)網(wǎng)絡(luò)捕獲空間占用描述的不確定性屬性。最近諸多的研究,如文獻[21],也不斷地證明了INR 源自深度神經(jīng)網(wǎng)絡(luò)的靈活性和良好的表達能力。其中特別需要強調(diào)的是其對可高維關(guān)聯(lián)良好的歸納偏置以及隱式的正則化屬性。
(3)解決多影響因素融合的光學(xué)被動采樣信號的顯式分離問題,如位置、角度、環(huán)境、材質(zhì)和局部空間特征
如以上章節(jié)所述,常規(guī)INR 使用離散空間點集作為輸入對光滑連續(xù)空間曲面進行建模,可以為下游任務(wù)結(jié)合點集輸入的靈活性和隱式曲面輸出質(zhì)量優(yōu)異的特性。但是如果進一步提升自然場景空間表述的完整性和連續(xù)性,離散空間點集(對空間點可信感知)輸入成為進一步制約。
光學(xué)被動采樣的空間采集完備性(僅僅受限于采集傳感器精度)一般遠遠大于主動檢測。但光學(xué)被動感知的后續(xù)運用,如傳統(tǒng)的多視角立體幾何稠密重建,一直受限于光學(xué)被動采樣結(jié)果的多影響因素融合,如照明、相機參數(shù)、采集姿態(tài)和對象外觀等。近期由有限觀測自由生成虛擬視點內(nèi)容驅(qū)動的INR 升級,神經(jīng)輻射場(NeRF:Neural Radiance Fields)[22]為消除以上局限性開辟了新的機遇。和常規(guī)INR 的零水平集表征不同,基于NeRF 的一個空間場景被表示為一個輸入為5D 向量的函數(shù),用一個多層感知器(MLP)神經(jīng)網(wǎng)絡(luò)隱式表達,其輸入包括視圖采集射線的角度和場景中射線上的特定3D 位置,其輸出包括了3D 位置對應(yīng)的顏色和空間體積密度。其公式如式1 所示,詳細注解和計算過程可以參照文獻[22]。
對于一個已知場景和觀測角度,F(xiàn)θ對應(yīng)的視圖可視內(nèi)容需要依賴數(shù)值積分方法來近似一個真實的體積渲染過程,如下式所示。
基于以上表征模型和可視內(nèi)容生成模型(NeRF的核心構(gòu)成),3D 空間場景可以結(jié)合許多已知姿態(tài)的視圖圖像進行訓(xùn)練,對應(yīng)場景體積表示(包含光照和對象外觀等隱變量)存儲為MLP的權(quán)值。
NeRF 自2020年進入研究者視野,成為近期的一個重要技術(shù)方向,也為基于深度學(xué)習(xí)有機融合已有計算機圖形學(xué)和計算機視覺的典型機理開辟了廣闊的機遇。
發(fā)展之初的NeRF伴隨著如下問題,諸如:無論是訓(xùn)練(小時級)和渲染(幾百毫秒)都很慢;只對靜態(tài)場景表征;一個訓(xùn)練所得場景表征無法拆解和知識轉(zhuǎn)移到類似場景/對象。這些問題的提出也體現(xiàn)了研究者和業(yè)界對NeRF 表征對后續(xù)應(yīng)用的期望:包括快速可部署性,和基于時序動態(tài)可變形場景內(nèi)容建模以及后期結(jié)果基于環(huán)境和空間的可編輯性。針對這些訴求,近期眾多的 NeRF 研究成果[23?48]涌現(xiàn),主要歸納為如下幾個方向的開拓和嘗試:
(1)針對可變形對象的建模
這個方向主要針對動態(tài)對象建模。這里的動態(tài)主要指時變觀測下場景中對象外觀存在非剛性形變,但同時這種形變存在很強隱變量約束。近期可變形對象研究方向的成果主要聚焦在人體的體積動畫模型表征構(gòu)建和相關(guān)自由視角合成方面。典型成果包括了基于像素對齊的人物化身體積動畫建模研究(PVA:Pixel?aligned Volumetric Avatars)[23],姿態(tài)可控的人物化身自由視角影像合成研究(Neural Actor)[24],和用于動態(tài)人物化身的動畫神經(jīng)輻射場研究(AN‐eRF:Animatable Neural Radiance Fields)[25]。相關(guān)的包括了聚焦人臉面部化身4D 動畫重建應(yīng)用的動態(tài)神經(jīng)輻射場研究(D?NReF?Face)[26],以及可以兼具場景和人物化身4D 動畫處理能力的動態(tài)神經(jīng)輻射場研究(D?NeRF)[27]和顯式構(gòu)建神經(jīng)輻射場拓撲可變高維表示的研究(Hyper?NeRF)[28]。
其中對可變形對象神經(jīng)輻射場建模的一個基本思路往往是將一個動態(tài)神經(jīng)輻射場(對應(yīng)非剛性變形場景)分解為一組變形場和一個標準的靜態(tài)神經(jīng)輻射場。其中變形場負責(zé)將被觀測變形空間點映射到標準空間,從而使它們能夠從圖像視圖序列中學(xué)習(xí)動態(tài)可變形場景。比較典型的如D?NeRF 和Hyper?NeRF,其主架構(gòu)中都啟用了不同的變形網(wǎng)絡(luò)架構(gòu)將動態(tài)場景中變形后的空間點映射到后續(xù)靜態(tài)神經(jīng)輻射場所包含的一個標準空間。所不同的是映射計算過程不同。其中D?NeRF 直接將變形估計為3 維空間位移推斷,而Hyper?NeRF 則在變形網(wǎng)絡(luò)基礎(chǔ)上并行一個高維輔助函數(shù)的切片推斷網(wǎng)絡(luò),通過提升原有映射空間到一個高維變形場模擬(額外維度為環(huán)境維度)實現(xiàn)了對一系列拓撲變化的形狀建模,并強化了拓撲可變中包含的上下文一致性。在時間和空間維度下的場景插值測試中,Hyper?NeRF 方法都保持了很高的場景設(shè)定一致性和視覺合理性。
同時對于聚焦人物化身體積動畫的研究,如Neu‐ral Actor 和ANeRF,往往會強化添加與人的形體相關(guān)的特定約束。如ANeRF 采用了基于骨架驅(qū)動的變形預(yù)測,利用可觀測三維人體骨架分析賦能隨后的權(quán)重混合計算,進而推動觀察變形空間到標準空間準確映射。而Neural Actor 則是利用結(jié)合形狀參數(shù)和姿勢參數(shù)的人體編碼模型(SMPL:Skinned Multi?Person Lin‐ear Model)作為代理,并結(jié)合變形空間點周圍紋理特征分析推動相關(guān)準確映射展開。
(2)針對連續(xù)時序內(nèi)容的建模
和之前的側(cè)重點不同,這個方向主要針對基于時空聯(lián)系的場景表征建模。通過同時構(gòu)建時空兩個維度的建模表征,研究者后期就可以方便開展基于場景視頻記錄的時間插值、視點插值以及混合插值的應(yīng)用探索。相關(guān)領(lǐng)域典型成果包括針對動態(tài)場景時空視圖自由合成的場景流場算法(NSFF:Neural Scene Flow Fields)[29],時 空 輻 照 度 場 算 法(STNIF:Space?time Neural Irradiance Fields)[30],動態(tài)視點合成算法(DVS:Dynamic View Synthesis from Dynamic Monocular Video)[31]和側(cè)重于人體動態(tài)時空新視角合成的隱式神經(jīng)人體表征研究(Neural Body)[32]。和Neural Body 方法側(cè)重于連續(xù)時刻稀疏多視圖同步輸入構(gòu)建時空模型不同,NSFF 等其他方法都側(cè)重于單一視圖的視頻輸入,既在任何時間點只包含對場景的一個觀察結(jié)果。基于顯性時空聯(lián)系的場景表征建模方法,如具有代表性的NSFF 和DVS 方法,都將動態(tài)時變空間場景建模為場景元素的外觀、空間幾何屬性和其三維場景中運動的時變連續(xù)函數(shù)表示。特別是NSFF 通過明確地將時間納入場景函數(shù)表征變量域內(nèi),將場景元素三維運動建模為密集的場景流場,并同時將正向和反向場景流都顯式建模為密集的三維向量場來準確建模場景中元素三維運動。同時針對視頻內(nèi)動態(tài)空間場景元素涉及的采樣特點:即運動元素通常會經(jīng)歷較大形變,無法可靠地推斷出在較大時間間隙上的空間對應(yīng)關(guān)系,而靜態(tài)元素則能保持準確的對應(yīng)關(guān)系,可利用框架下所有的可共視觀察樣本強化靜態(tài)元素的表征構(gòu)建。NSFF 和DVS 都采用基于以上機理的區(qū)域分別處理和再合成的處理策略。當前的研究取得了不錯的進展,但在應(yīng)對更加挑戰(zhàn)的野外場景,如包括復(fù)雜薄結(jié)構(gòu)和包含復(fù)雜運動程度等,還存在不足。
(3)表征建模的環(huán)境光照分離和編輯
這個方向主要針對場景元素建模的外觀分量中光照隱變量的分解和重計算,包括了如何消除建模過程中不規(guī)則光照的影響,以及準確捕獲新穎視角下的光照效果和重新構(gòu)建場景中的光照效果。近期典型文獻包括了基于不受約束環(huán)境下采樣照片集合構(gòu)建神經(jīng)輻射場的算法(NeRF?W)[33], 對形狀和反射率隱變量進行因子分解的算法(NeRFactor)[34]和NeRD[35],以及用于視圖和光照重新合成的神經(jīng)反射和可見場算法(NeRV)[36]。其中 NeRF?W 是 NeRF 的第一批后續(xù)工作之一,針對NeRF 依賴光照保持不變的輸入視圖集合的缺陷,其運用生成式隱變量優(yōu)化框架(GLO:Generative Latent Optimization),優(yōu)化出每個輸入圖像的外觀嵌入向量(apperance embedding),并以此學(xué)習(xí)到整個輸入照片數(shù)據(jù)集中的共享外觀表示。這使得相片相關(guān)的外觀和光照變化解耦,并可以顯式地建模。這種光照分離讓NeRF?W 在光照環(huán)境變化的場景下有很大的靈活性和魯棒性,可以從較少環(huán)境約束的多視圖集合中穩(wěn)健地完成場景神經(jīng)表征學(xué)習(xí)。為了更好實現(xiàn)NeRF輻射場隱函數(shù)空間對應(yīng)隱空間變量(光照,法線,漫反射,空間表面表征)的分解,后續(xù)相關(guān)的研究都引入了類似式3 的輻射合成計算模型,如NeRFactor 和NeRV 算法。這也借鑒了計算機圖形學(xué)高逼真渲染的計算機理。
其中s表示圍繞場景的球形環(huán)境圖,Lvis表示場景可視性因素,Dill表示直接光照因素,Iill表示間接光照因素,BRDF為雙向反射分布函數(shù),ω為入射角度。
整個分解過程/網(wǎng)絡(luò)框架也遵循利用多個獨立MLP對相應(yīng)隱空間變量進行建模原則,包括對應(yīng)表面法線、表面材質(zhì)參數(shù)、體積密度、場景對于外部環(huán)境在任何方向的可見性等。即整個框架為借助于將標準NeRF 表征(獨立MLP)輸出到后續(xù)的多個MLP 之中,并利用這些MLP完成對應(yīng)隱空間變量的因式分解。
為了有效訓(xùn)練對應(yīng)空間表征的隱函數(shù)參數(shù)(MLP網(wǎng)絡(luò)的權(quán)重),整個訓(xùn)練過程,如NeRFactor,采用了分步開展的流程。在其余MLP 被固定的情況下,先訓(xùn)練好標準NeRF MLP,同時利用真實測量值訓(xùn)練隱變量空間進而獲得BRDF 先驗?zāi)P汀H缓髮eRF 初始估計完成的體積密度提取成空間表面表征(結(jié)合法線和可視性)并聯(lián)合優(yōu)化,再最終實現(xiàn)結(jié)合反照率(Al‐bedo)和反射系數(shù)特征(BRDF latent code)以及光照環(huán)境(Light)的聯(lián)合模型訓(xùn)練和全局優(yōu)化。
以上處理使得相應(yīng)研究算法,如NeRFactor,能夠基于一系列不同位置的圖片估算出物體形狀和光場信息,并能在任意光照條件下,都可以從新的視點完成體場景空間的準確呈現(xiàn)。
(4)基于空間的表征建??删庉嬓?/p>
這個方向主要針對多物體組成的大型場景的結(jié)構(gòu)化表征,包括了如何將多物體組合成一個完整可體積渲染場景,以及場景內(nèi)容再編輯方面的研究。其也對應(yīng)可控圖像合成任務(wù)。換言之,表征建??删庉嬓灾塾谏尚碌膱D像和控制將要出現(xiàn)的內(nèi)容、對象及其位置和方向、背景等。近期典型文獻包括了針對可編輯場景表示的可組合生成特征算法(GIRAFFE:Compositional Generative Neural Feature Fields)[37],可組合場景對象算法(ObjectNeRF)[38],以及涉及動態(tài)場景構(gòu)建的場景圖算法(Neural Scene Graphs)[39], 和可編輯條件輻射場算法(EditNeRF)[40]。其中GIRAFFE為國際計算機視覺與模式識別會議(CVPR)2021的最佳論文。
空間表征建模的結(jié)構(gòu)化對應(yīng)著3D 體積表征和3D 對象以及3D 特征的關(guān)聯(lián)構(gòu)建過程(訓(xùn)練),同時可控圖像合成也覆蓋了結(jié)合特征空間的3D 體渲染內(nèi)容生成過程。早期工作生成輻射場(GRAF:Generative Radiance Fields)[41]開創(chuàng)性的引入了生成框架(GAN),和NeRF 訓(xùn)練以及體渲染過程融合,實現(xiàn)了局限于單物體場景的高分辨率可控圖像合成。GIRAFFE 和EditNeRF方法多受其啟發(fā)。
同時,為了進一步深入多物體大型場景,即需要從背景中分離出一個或多個物體以及能夠表達單個物體的形狀和外觀,GIRAFFE 突破性地將場景表示為可組合的神經(jīng)特征場。其將不同物體從場景中分解出來,并引入了對應(yīng)仿射變換來表示每個物體,從而可以對場景中單個物體的姿態(tài)、形狀和外觀進行控制。在后續(xù)處理中,GIRAFFE 通過使用以對象為中心的NeRF 模型輸出特征向量而不是顏色來支持組合,并通過平均來開展組合計算,并最終通過神經(jīng)渲染將2D特征向量圖轉(zhuǎn)化成高分辨率彩色可視圖像。
(5)更快的可視視圖內(nèi)容生成推理
伴隨著以上NeRF內(nèi)容適應(yīng)性和應(yīng)用擴展性的研究,眾多研究者也就快速生成顯示內(nèi)容(神經(jīng)輻射場渲染)展開了大量探索工作。其中極具代表性的包括:起始于2020年的稀疏體素場算法SVF(Sparse Voxel Fields)[42],和 2021年涌現(xiàn)出的快速高保真輻射場渲染相關(guān)研究:FastNeRF[43],SNeRG(Sparse Neural Radiance Grid)[44],和 PlenOctrees(plenoptic oc‐trees)[45]。
以上研究成果都圍繞上文公式2所描述的依賴數(shù)值積分方法近似一個體積渲染過程。參照公式2和文獻[22]相關(guān)描述,其中沿攝像機射線與場景空間幾何表征的精確交叉查詢,以及在場景描述精度上(對應(yīng)網(wǎng)絡(luò)容量)沿射線進行的體積積分都引發(fā)了較大計算負荷。針對相關(guān)空間內(nèi)數(shù)據(jù)的稀疏性,展開高效檢索,如采用空間八叉樹(Octrees)的數(shù)據(jù)組織結(jié)構(gòu),成為很多方法共同的考量,如NSVF 和PlenOctrees方法。
同時就其初始的端到端計算過程,F(xiàn)astNeRF將原有過程拆解成2個步驟(位置相關(guān)和角度相關(guān))。其中位置相關(guān)計算結(jié)果為包含深度信息的輻射度貼圖,可以緩存下來供后期使用,而不用反復(fù)計算。SNeRG則更進一步,首先將輻射度計算按影響因素分解(如空間表面,漫反射和反射)。這些因素針對NeRF的輸入(位置和射線角度)具有不同的可復(fù)用計算程度,如漫反射對于特定空間位置和領(lǐng)域就比較一致,而反射和空間表面特性有關(guān),可以通過結(jié)構(gòu)特征提取構(gòu)建組合模板。進而,SNeRG將整個計算過程有機的區(qū)分和預(yù)計算,將一個端到端的計算過程轉(zhuǎn)化為一個高效的查詢和簡單組合計算過程,如同計算機圖形學(xué)常用的烘培技術(shù)。
除了將整個空間表征作為一個整體,參照式2 進行流程優(yōu)化,2021年也有很多研究者試圖從輻射場體積表征數(shù)據(jù)分解的角度,探索加速可能性。這類研究以成果(DeRF)[46]和(KiloNeRF)[47]為代表。其中特別是KiloNeRF 探討了利用眾多微小MLP 替換原有MLP(NeRF空間表征隱函數(shù)權(quán)重)的神經(jīng)輻射場加速創(chuàng)新的可行性,并在沒有產(chǎn)生較高存儲成本前提下,與原始的NeRF模型相比取得了三個數(shù)量級的渲染速度提升。
上文將近期NeRF 諸多發(fā)展方向進行了詳細闡述。同時也使得我們對基于NeRF體系的神經(jīng)隱式空間表征模型特點有了一定認識。本節(jié)將結(jié)合近期如何更快完成表征參數(shù)空間訓(xùn)練的研究,即相應(yīng)場景構(gòu)建分析,以及包含顯性使用空間和語義的NeRF 相關(guān)交叉研究來揭示顯性空間和語義信息及其預(yù)測對NeRF的重要性。
(1)高效表征的參數(shù)空間訓(xùn)練研究
在構(gòu)建NeRF體積空間表征時,如前文所述,我們需要大量已知采集方向和位置的視圖圖像反復(fù)使用輻射場體積渲染,來訓(xùn)練對應(yīng)MLP網(wǎng)絡(luò)權(quán)重。
如何高效(利用少量稀疏輸入以及高速訓(xùn)練)實現(xiàn)權(quán)重訓(xùn)練和最終結(jié)果的核心影響因素是什么是本節(jié)希望解析的要點。以下我們就兩個方向的近期研究展開回溯:
首先是如何基于稀疏視圖(單個或幾個視圖圖像)來實現(xiàn)NeRF 的MLP 網(wǎng)絡(luò)訓(xùn)練。這方面可以借鑒的典型論文包括:隱性構(gòu)建統(tǒng)一空間幾何先驗的神經(jīng)輻射場訓(xùn)練研究(pixelNeRF)[48], 顯性構(gòu)建統(tǒng)一空間幾何先驗的神經(jīng)輻射場訓(xùn)練研究(SRF:Stereo Radi‐ance Fields)[49], 和神經(jīng)輻射場正則化的研究(RegN‐eRF)[50],以及 360 度無邊界場景無歧義神經(jīng)輻射場訓(xùn)練的研究(Mip?NeRF 360)[51]。
初始構(gòu)建神經(jīng)輻射場的方法是獨立地優(yōu)化對每個視圖場景的表示,其中視圖場景的生成依賴于輸入射線的位置和方向。從前文對加速體積渲染的相關(guān)成果闡述中(如SNeRG 方法),我們可以發(fā)現(xiàn)其場景內(nèi)部的空間結(jié)構(gòu)也是一個重要的隱變量,并具備一定的共視一致性和外觀決定性。
pixelNeRF 方法就引入了一種完全卷積架構(gòu),對視圖圖像輸入序列進行跨多個場景的統(tǒng)一學(xué)習(xí)訓(xùn)練,以學(xué)習(xí)場景中的空間先驗。而SRF 方法更是直接借鑒計算機視覺的立體幾何重建機理,即組合圖像對可以構(gòu)建基于幾何一致性的顯性外觀匹配關(guān)系,同時表面空間占用信息(空間結(jié)構(gòu))會導(dǎo)致對應(yīng)外觀有明顯可區(qū)分性。SRF 方法對于輸入的參考視圖集合基于場景中空間點對應(yīng)視圖投影位置提取CNN 特征并結(jié)合學(xué)習(xí)到的相似度函數(shù)構(gòu)建對應(yīng)匹配。然后用深度神經(jīng)網(wǎng)絡(luò)計算聚合的立體特征和對應(yīng)編碼。這個立體特征空間也對應(yīng)了其神經(jīng)隱式空間表征,其編碼對應(yīng)了顯性外觀顏色和空間密度,通過輻射場解碼網(wǎng)絡(luò)完成對應(yīng)推理計算。
雖然不管是運用隱性或顯性的場景空間幾何先驗都可以有效降低原始訓(xùn)練對輸入樣本數(shù)量上的需求,但過于稀疏的輸入視圖數(shù)據(jù)仍然會導(dǎo)致場景空間輻射場估計的誤差,并最終導(dǎo)致新穎視點視圖合成輸出的偽影。RegNeRF方法針對這種情況,設(shè)計了一套正則化機制來規(guī)范化未觀察到的視點顏色。其核心思想就包括了外觀正則化和空間幾何正則化兩個部分。其空間幾何正則化過程通過設(shè)計重建損失優(yōu)化項,即對渲染圖形片段的深度強制執(zhí)行平滑性損失,并通過在訓(xùn)練過程中對射線采樣空間進行退火,進而提升了過于稀疏的輸入導(dǎo)致的質(zhì)量下降問題。除了以上視點聚焦的中心場景及其對象,在360 全景自由視點構(gòu)建時,其360 度背景也會呈現(xiàn)稀疏輸入且場景無邊界的特點。近期論文Mip?NeRF 360 亦和RegN‐eRF 方法相似的構(gòu)建了空間幾何失真正則化器(基于不同場景參數(shù)化形式)。通過此正則化器,場景空間幾何屬性訓(xùn)練結(jié)果可以更有效地糾正懸浮物和背景坍塌等缺陷。
其次,我們在保證最終新穎視點視圖質(zhì)量的前提下,聚焦場景表征的快速構(gòu)建方法,并嘗試對相關(guān)核心要素進行剖析。
這個領(lǐng)域相關(guān)核心力作包括兩方面的探索,第一類當屬如何對MLP 構(gòu)建的權(quán)重空間進行分解和并行構(gòu)建方面的研究。這個方面前文已有初步涉及,如KiloNeRF 方法,但最具代表性的文獻為近期英偉達研究團隊的Instant NeRF/Instant Neural Graphics Primitives[52]和谷歌研究團隊的 Block NeRF[53]。
其中Instant NeRF相關(guān)研究區(qū)別于之前的權(quán)重空間分離(KiloNeRF)和檢索方法(NSVF)最突出的是體積渲染和檢索所依賴體積空間索引通過特征可學(xué)習(xí)的參數(shù)編碼,即不僅公式1 的映射函數(shù)用學(xué)習(xí)驅(qū)動的隱式特征表征(MLP),而且公式2 的組織方式也用學(xué)習(xí)驅(qū)動的特征向量協(xié)助構(gòu)建。其網(wǎng)絡(luò)框架轉(zhuǎn)化為以MLP為核心,由包含特征向量組成的多分辨率哈希表增強的參數(shù)編碼框架。由于引入此種位置參數(shù)編碼機制和巧妙設(shè)計了低計算復(fù)雜度的哈希算法,Instant NeRF 的訓(xùn)練學(xué)習(xí)完成時間縮小到了秒級。這種通過輸入?yún)?shù)特征空間引發(fā)計算簡化提升效率,也在一定程度上體現(xiàn)了背后空間和語義信息的重要性。
第二類是關(guān)于結(jié)合輻射顯示計算機理更新隱式參數(shù)表征的物理意義方面的研究,如基于基函數(shù)隱式組合擴展的多平面圖像(MPI)場景表征的研究(NeX)[54],以及依據(jù)輻射場和光場的關(guān)聯(lián)性,探討光場神經(jīng)隱式表征(LFN:Light Field Networks)的研究,如近期麻省理工團隊的研究成果[55]和卡內(nèi)基梅隆的團隊相關(guān)研究成果[56]。
其中NeX 采用了混合隱顯式建模策略,即和NeRF 原始采用隱式空間幾何表征對比,其利用了MPI 這種顯示的空間幾何表征作為基礎(chǔ),但吸取了NeRF 對于視角依賴隱式表征的優(yōu)勢。這樣的有機混合不但加速了相應(yīng)的生成速度(有點和FastNeRF 相似),而且使得相比于原始NeRF對于更具挑戰(zhàn)性的場景視覺效果(比如CD上的彩虹反射)取得了更一致和逼真的效果。
而LFN 相關(guān)研究則揭示了光場和輻射場對于視圖合成和場景建模的優(yōu)缺點。其中光場可以表示沿光線的輻射合成,其渲染過程比較輻射場計算(多次計算完成一條射線的近似體積積分)簡單。但其對空間幾何場景的映射方式(沿可觀測射線),由于并不直接對應(yīng)空間占用的顯性信息(三維世界坐標),導(dǎo)致其不是直接保證多視圖的一致性。而相反,基于3 維世界坐標系的NeRF通過射線和空間的匹配計算可以確保多視圖的一致性。也基于此NeRF可以直接通過最小化已知相機姿態(tài)下的真實視圖與對應(yīng)基于表征重建之間的差異來充分優(yōu)化。為此,麻省理工的研究者和卡內(nèi)基梅隆的研究者都通過引入元計算(Meta Learning)來學(xué)習(xí)LFN的空間先驗信息,既三維場景的空間分布。并基于此,相關(guān)LFN 研究在生成質(zhì)量和NeRF 齊平的情況下,實現(xiàn)了表征緊湊和生成迅速的目標。
(2)顯性空間和語義結(jié)合的NeRF交叉研究
本節(jié),我們將就包含顯性使用空間和語義的NeRF 相關(guān)交叉研究展開探討,相關(guān)研究可以歸納為三個主要類型:
第一類相關(guān)研究借助于顯性使用多視圖的一致性信息,提升NeRF 的訓(xùn)練和顯示計算的魯棒性和準確性。典型研究包括借助多視圖立體幾何計算優(yōu)化神經(jīng)輻射場的成果,如 MVSNeRF[57],NerfingMVS[58],和BARF[59]。此類研究或者提高了稀疏輸入的魯棒性,如MVSNeRF,或消除了NeRF 構(gòu)建過程可能存在的幾何形狀與生成內(nèi)容的不匹配模糊,如NerfingM‐VS,或提升了NeRF 訓(xùn)練過程對相機姿勢缺失的魯棒性。
其中MVSNeRF 運用3D CNN,基于多視圖多深度平面掃描計算,構(gòu)建了由體素神經(jīng)特征組成的神經(jīng)編碼空間,進而獲得了可微分學(xué)習(xí)的場景空間幾何顯式表達,并將其與體積渲染相結(jié)合。而NerfingMVS則利用運動結(jié)構(gòu)恢復(fù)(SFM:Structure from motion)對每個視圖輸入的單幀稠密深度估計進行微調(diào),進而通過優(yōu)化的視圖深度先驗來監(jiān)測和優(yōu)化NeRF體積渲染的采樣過程。BARF則是聚焦位置編碼(NeRF構(gòu)建過程的核心)局限性:即沒有位置編碼在重建中缺乏保真度,而完全位置編碼容易導(dǎo)致空間注冊次優(yōu)。通過建立與經(jīng)典圖像對齊理論的聯(lián)系,BARF 構(gòu)建了從粗到細的NeRF 配準流程,實現(xiàn)了三維神經(jīng)表示和相機幀注冊問題的聯(lián)合學(xué)習(xí)。
除了以上經(jīng)典成果,近期研究 Point?NeRF[60]則更是將空間先驗索引構(gòu)建和引導(dǎo)NeRF訓(xùn)練優(yōu)化推到了一個新的高度。其利用基于成本空間的3DCNN 基于多視圖空間一致性生成視圖稠密深度估計,并利用2DCNN 生成平面片段特征。其中特征矢量和顯性空間占用的點集合并構(gòu)成初始神經(jīng)點云(每個點都有一個空間位置、一個置信度和反投影的圖像特征)。然后其利用三維點云顯性空間信息索引構(gòu)建基于空間點臨域圖像特征矢量的隱性輻射場(由MLP 構(gòu)建隱性表征參數(shù))。由于神經(jīng)點云可以借助顯性空間信息,使得其構(gòu)建過程可以利用通常點云處理工具實現(xiàn)點云的剪枝和補全以提高質(zhì)量。同時基于此神經(jīng)點云,以及由此構(gòu)建的局部點特征輸入,MLP 更容易優(yōu)化,這一點可以借鑒上文提到的方法KiloNeRF。以上顯性的空間信息構(gòu)建和利用使得Point?NeRF 相較于初始的NeRF在構(gòu)建速度和生成視覺質(zhì)量方面都有較大的提升。
第二類相關(guān)研究直接利用顯性深度信息提升NeRF 的相關(guān)訓(xùn)練和可視化內(nèi)容生成。這類研究包括了近期利用單視圖稠密深度信息預(yù)測網(wǎng)絡(luò)輔助實時繪制視點視圖的研究(DONeRF)[61],和稀疏輸入訓(xùn)練的研究(DS?NeRF)[62],以及結(jié)合連續(xù)主動深度檢測信息實現(xiàn)動態(tài)場景視圖生成的研究(T?RF)[63]。
其中DONeRF 的原理基于當樣本采樣積聚在場景空間表面周圍時,視圖渲染中每個視圖射線計算所需的樣本數(shù)量可以顯著減少。DS?NeRF 則是揭示了稠密的深度信息(空間幾何信息)提供了整個視圖重建基于像素級的空間和顏色反向傳播優(yōu)化的途徑,這一點在Point?NeRF方法中也有明顯的體現(xiàn)。
而T?RF方法則創(chuàng)新性的探討了結(jié)合主動深度檢測結(jié)果指導(dǎo)動態(tài)NeRF構(gòu)建的意義和局限性。其基于飛行時間(ToF)相機測量數(shù)據(jù)的NeRF建模,和僅使用彩色攝像頭相比,減少了場景建模所需的圖像數(shù)量。同時也進一步驗證了直接編碼有關(guān)場景空間幾何信息令基于單視圖的動態(tài)NeRF建模更容易處理。
第三類相關(guān)研究主要聚焦語義信息和NeRF隱性表征的互動,包括基于語義一致性稀疏輸入訓(xùn)練的研究(DietNeRF)[64], 和通過語義信息嵌入將 NeRF 隱空間維度提升的研究(Semantic?NeRF: Semantic Neural Radiance Fields)[65], 以及直接由語義圖生成 NeRF 表征的嘗試(Sem2NeRF)[66]。
其中DietNeRF 和之前基于多視圖一致性研究相比,提出了高層語義一致性的思路,提升了多視圖一致性的應(yīng)用層面。而Semantic?NeRF 相比于前文高維NeRF 表示研究的Hyper—NeRF 方法,強化了語義背后對于外觀和幾何形狀的表征,這也被Sem2NeRF 研究進一步揭示。同時Semantic?NeRF 利用自然場景空間臨域固有(由幾何空間信息決定)的一致性和平滑性,強化了稀疏語義標簽的空間有效傳播。這為諸多視覺語義空間感知的相關(guān)應(yīng)用,如新穎的語義視圖合成、標簽去噪、超分辨率、標簽插值和多視圖語義標簽融合,提供了一種高效和魯棒的方法。
在上一章節(jié)中,我們可以清晰捕捉到顯性場景空間和語義信息是有效提升神經(jīng)隱式表征的核心環(huán)節(jié)。同時在當前3D 空間場景感知研究領(lǐng)域,也如文獻[67]所述,單視圖空間感知(稠密深度估計)然后融合通常比直接多視圖配置具有更高的魯棒性。
由于基于神經(jīng)網(wǎng)絡(luò)的單視圖3D 場景感知,其早于NeRF的出現(xiàn)已經(jīng)經(jīng)歷了一定的發(fā)展階段。本章我們將從其近期發(fā)展和面臨的挑戰(zhàn)入手,和NeRF 相關(guān)研究展現(xiàn)的裨益,探討融合NeRF的單視圖3D場景感知面臨的機遇。
(1)當前單視圖3D場景空間和語義感知的挑戰(zhàn)
單視圖3D 場景空間和語義是基于神經(jīng)網(wǎng)絡(luò)計算的三維重建和場景理解處理框架的一種重要領(lǐng)域,其具備潛質(zhì)可以避免現(xiàn)有基于有源深度傳感器密集測量的諸多缺點,包括操作范圍有限、空間分辨率低、傳感器多源和多徑干擾和功耗過高等。
近期很多新穎的研究成果展示了基于神經(jīng)網(wǎng)絡(luò)的單視圖圖像稠密深度感知的潛力。其主要圍繞2個主題展開:
a)提高單視圖稠密深度預(yù)測的性能
近期典型研究成果對性能方面的追求包括了對單視圖場景結(jié)合高分辨率輸入提升預(yù)測精度的探索(MergNet)[68], 通過輔助可信度信息提升準確性的探索(Neural RGB?D)[69], 和結(jié)合圖像中的結(jié)構(gòu)信息和紋理信息解耦,降低基于深度學(xué)習(xí)的被動感知紋理依賴性的探索(S2R?DepthNet)[70],以及輕量化應(yīng)用網(wǎng)絡(luò)架構(gòu)的探索(FuSaNet)[71]。
其中,對于單視圖每像素深度估計存在的挑戰(zhàn),即由于給定網(wǎng)絡(luò)模型容量和接收域大小限制引發(fā)的準確性缺失。Neural RGB?D將基于單張圖像的一次深度值估計轉(zhuǎn)變?yōu)閱未紊疃戎档母怕史植己篁?,并利用多次估計基于時間聚合優(yōu)化(通過貝葉斯濾波框架)來提高準確性。而MergNet 對這個問題的解決則通過利用圖像的近似邊緣圖(對RGB 梯度進行閾值處理獲得)構(gòu)建結(jié)構(gòu)一致性傳遞的重要線索,將單次網(wǎng)絡(luò)推理對應(yīng)的不同圖像分塊的不同分辨率估計進行合并,來構(gòu)建一個具有一致整體結(jié)構(gòu)高頻細節(jié)的高分辨率估計。FuSaNet則是通過對應(yīng)視圖顯著點的提取和對應(yīng)空間信息來規(guī)范化深度預(yù)測結(jié)果來提升對應(yīng)網(wǎng)絡(luò)模型有效容量。
和之前挖掘網(wǎng)絡(luò)容量,利用全局結(jié)構(gòu)一致性和時間一致性規(guī)范預(yù)測輸出結(jié)果提升質(zhì)量不同,S2R?Dep‐thNet 則針對深度預(yù)測訓(xùn)練中深度網(wǎng)絡(luò)比較聚焦紋理特征的提取,對結(jié)構(gòu)特征關(guān)注不夠的缺點,提取深度相關(guān)結(jié)構(gòu)信息強化網(wǎng)絡(luò)對深度預(yù)測的準確性和網(wǎng)絡(luò)泛化能力。這一研究也揭示了當前很多方法過分關(guān)注紋理信息,也會導(dǎo)致深度信息的數(shù)據(jù)領(lǐng)域存在場景依賴,加重了網(wǎng)絡(luò)容量負荷。同時現(xiàn)實場景下紋理信息容易受光照、噪音和運動模糊等因素的干擾,結(jié)構(gòu)信息往往更加重要。同時,這也體現(xiàn)出當前階段的稠密深度預(yù)測依然存在很大的提升空間。
b)提升單視圖深度預(yù)測的自監(jiān)督學(xué)習(xí)能力
自監(jiān)督單視圖深度預(yù)測是實際部署相關(guān)感知能力非常重要的環(huán)節(jié)。而且單視圖深度估計的自監(jiān)督方法本質(zhì)上是利用三維場景中對象在投影成像后結(jié)合空間結(jié)構(gòu)信息和相機位姿存在的光度一致性,基于內(nèi)在幾何關(guān)系(主要是多視圖一致性)監(jiān)督網(wǎng)絡(luò)對深度信息/相機位姿估計的學(xué)習(xí)。其中配合自監(jiān)督訓(xùn)練過程,構(gòu)建最小重構(gòu)誤差的規(guī)范項,和提升重構(gòu)光度計算的準確性,以及有效搜尋對應(yīng)光度匹配就顯得尤其重要。
在這方面探索的典型成果包括了近期的成果基線MonoDepth2[72]和對目標細節(jié)更好特征封裝的PackNet[73],以及同時應(yīng)對剛性和非剛性部件的 Non‐Rigid?DepthNet[74]。其中 MonoDepth2 方法引入了在輸入/目標圖像之間對邊緣敏感的平滑度損失規(guī)范項,鼓勵模型學(xué)習(xí)到尖銳邊緣并有效抑制噪聲。而PackNet 方法則添加了對相機位姿平移分量的約束,避免了之前方法存在的尺度不清晰的問題。同時PackNet 使用3D 卷積替換了傳統(tǒng)使用的pooling 和線性upsample操作,從而使得圖片中的目標細節(jié)能夠更好的保留下來,提升了重構(gòu)光度計算的準確性。Non‐Rigid?DepthNet 方法則通過針對像素構(gòu)建運動內(nèi)嵌隱變量,并利用結(jié)合光流計算的結(jié)構(gòu)邊緣提取來提取有效匹配。同時其通過在CNN 訓(xùn)練中盡可能利用剛性變換先驗作為監(jiān)督,對非剛性單目深度實現(xiàn)了有效無監(jiān)督學(xué)習(xí)。
從以上研究結(jié)果可以看到像素級甚至亞像素級的結(jié)構(gòu)細節(jié)提取,以及與噪音區(qū)別的準確光度計算都將為后期相關(guān)研究提供重要的提升空間。
同時針對單視圖3D 場景空間和語義聯(lián)合感知方面,聚焦核心挑戰(zhàn),即如何提升顯性融合和輔助同步語義理解,很多研究也做了積極嘗試。其中就包括近期經(jīng)典研究,單目三維空間語義場景完全感知(Mono‐Scene)[75]。針對挑戰(zhàn),MonoScene 方法提出從單個RGB 圖像中通過對特征進行視線投影計算(FLoSP:Features Line of Sight Projection),即由光學(xué)投影啟發(fā)的二維?三維特征轉(zhuǎn)換,構(gòu)建了一種圖像三維特征體素空間計算范式。其中體素特征通過反投影圖像坐標臨近的多尺度特征構(gòu)建。同時這種計算范式為后繼基于3D 卷積的空間上下文關(guān)系先驗挖掘提供了一種獨特的損失函數(shù)約束基礎(chǔ),即視錐空間和投影平面語義一致性損失。
通過文獻自身的結(jié)果分析,可以看到基于圖像的稠密語義提取往往是不穩(wěn)定的,容易受到視點焦平面,光照環(huán)境和環(huán)境噪音的諸多影響。前文中的研究Semantic?NeRF 中提示的NeRF 語義固有多視圖一致性和平滑性使非常嘈雜環(huán)境下稀疏可信采集信息能有效傳播也給我們提供了不小的想象空間。
(2)融合NeRF的單幀圖像空間語義探索的機遇
近期融合NeRF的單幀圖像空間語義探索已經(jīng)引發(fā)研究社區(qū)的興趣,初步涌現(xiàn)的研究成果包括了最近的為新穎視圖合成應(yīng)用結(jié)合NeRF的連續(xù)深度MPI研究(MINE:Continuous Depth MPI with NeRF)[76]。
其中MINE的研究,在一個單一圖像輸入基礎(chǔ)上,通過引入神經(jīng)輻射場思想構(gòu)建了一個可表達連續(xù)深度的多平面圖像(MPI:Multiple Image)擴展三維空間表達方式。在弱監(jiān)督的系統(tǒng)設(shè)置下,MINE 在單目深度估計任務(wù)上取得了大幅超越其他弱監(jiān)督設(shè)置方法的性能,甚至非常接近全監(jiān)督設(shè)置最先進的方法性能。
同時基于單張圖片的NeRF 構(gòu)建進展,如用于圖像超分應(yīng)用的,基于局部隱式圖像函數(shù)(LIIF:Local Implicit Image Function)學(xué)習(xí)的連續(xù)圖像表示研究[77],為后續(xù)基于圖像的自適應(yīng)多尺度空間理解,提供了高度結(jié)構(gòu)一致性的新解決線索。其中LIIF 的相關(guān)研究受隱式神經(jīng)表征的啟發(fā),通過自監(jiān)督方式在圖像超分任務(wù)上訓(xùn)練了一個提取特征編碼器網(wǎng)絡(luò)和圖像表征,局部隱式圖像函數(shù)(LIIF)。所學(xué)習(xí)的連續(xù)表達因坐標連續(xù)性,能夠表示成任意分辨率形式,甚至對自然圖像和復(fù)雜圖像可進行30倍放大插值。
近期基于NeRF,對于高噪音低照度輸入圖像的單視圖場景構(gòu)建和后繼動態(tài)光度的高質(zhì)量高精度合成的研究(RAWNeRF:NeRF in the Dark)[78],也為相關(guān)基于圖像的空間及語義理解的實際落地應(yīng)用提供了一定新穎的思路。其中RAWNeRF 初始需要應(yīng)對輸入為基于受損相機信號采集管道的低動態(tài)范圍(LDR)原始傳感器數(shù)據(jù),其伴隨著噪音扭曲和細節(jié)平滑等質(zhì)量問題,且信號采集在高噪音低照度環(huán)境下。為了應(yīng)對這一挑戰(zhàn),RAWNeRF 在訓(xùn)練流程中結(jié)合這種原始傳感器數(shù)據(jù)(保留了場景的全動態(tài)范圍信息),并采用了由高動態(tài)范圍(HDR)新穎視圖合成驅(qū)動的網(wǎng)絡(luò)學(xué)習(xí)。研究結(jié)果發(fā)現(xiàn)RAWNeRF 網(wǎng)絡(luò)體現(xiàn)的基于積累噪音輸入優(yōu)化的場景信號保留能力要超過原始學(xué)習(xí)流程上采用專用去噪器所產(chǎn)生的效果,可以應(yīng)對接近黑暗的學(xué)習(xí)場景。同時建模完成的NeRF甚至具備了操縱對焦、曝光和色調(diào)映射能力。
現(xiàn)實場景3D 建模和內(nèi)容重現(xiàn)的核心—場景表征技術(shù)一直是研究者重點關(guān)注的領(lǐng)域。伴隨著對3D 虛擬場景、真實場景以及虛實融合場景的構(gòu)建/呈現(xiàn)/編輯的不斷嘗試,3D 場景表征技術(shù)涵蓋了從計算機圖形學(xué)日常使用的網(wǎng)格技術(shù),以及計算機視覺3D 重建傳統(tǒng)使用的點云技術(shù),和沉浸式3D 多媒體常規(guī)使用的3D體素網(wǎng)格技術(shù)等。
為了實現(xiàn)對已觀測采樣的自然場景3D 內(nèi)容更自由和智能地呈現(xiàn)與再編輯,研究者對于有限采樣下獲得更高效的空間表征(隱式表面技術(shù)等)以及基于已建表征如何快速生成高逼真度的可視內(nèi)容展開了積極探索,特別是在當前快速發(fā)展的深度神經(jīng)網(wǎng)絡(luò)技術(shù)加持下。在這個背景下,能基于低存儲空間實現(xiàn)空間連續(xù)性表征和基于體積渲染實現(xiàn)高質(zhì)量內(nèi)容生成的神經(jīng)輻射場(NeRF)技術(shù)及其延申研究獲得了眾多研究者的關(guān)注。
本文針對NeRF 相關(guān)3D 場景表征近期研究進行了回顧,包括:a)NeRF 近期針對空間和光照的編輯方法;b)基于時序輸入的表征構(gòu)建方法;c)基于動態(tài)內(nèi)容的表征構(gòu)建方法;c)基于表征的可視內(nèi)容快速生成方法。這些不斷涌現(xiàn)的優(yōu)秀成果,也一定會激發(fā)研究者對NeRF構(gòu)建和生成核心影響要素的渴求。為了揭示這一奧秘,本文結(jié)合對近期如何更快完成表征參數(shù)空間訓(xùn)練的研究,和包含顯性使用空間和語義的NeRF 相關(guān)交叉研究的回顧,揭示了顯性空間和語義信息及其預(yù)測對NeRF的核心重要性。
最后,結(jié)合近期顯性空間和語義挖掘中的重要發(fā)展方向,單視圖深度估計,面臨的挑戰(zhàn)和神經(jīng)輻射場相關(guān)研究展現(xiàn)的裨益,揭示了基于神經(jīng)輻射場對場景三維空間感知建模和基于先驗的內(nèi)容重現(xiàn)發(fā)展帶來的機遇。本文專注于基于神經(jīng)網(wǎng)絡(luò)的3D 空間場景高維表征,特別是NeRF的研究,并進一步呼吁越來越多的后期3D 空間多媒體研究以這種“記憶和重現(xiàn)能力”方式向前推進。