程斌 楊勇 徐崇斌,* 李國帥 任鏷 高致
基于NeRF的文物建筑數字化重建
程斌1楊勇2徐崇斌2,*李國帥2任鏷3高致2
(1 中國空間技術研究院杭州中心,杭州 310012) (2 北京空間機電研究所,北京 100094) (3 北京印刷學院,北京 102600)
文物古跡建筑在歷史的發(fā)展中不斷丟失其本身的特征,在時間的推移中不斷改變或消失。因此,如何精確的測量保存當前文物的歷史風貌是一個亟需解決的問題。數字化建??梢宰畲蟪潭鹊乇4嫖奈镌诋斍皶r期的外觀特征,因此將數字化建模應用到文物重建中具有重要意義。文物重建任務中用到的大多依舊是傳統(tǒng)的基于視覺的重建方法,這種方法一般需要多個視點圖像,并且負擔極高的時間成本,對于大量文物古跡的重建與更新是不夠高效的。針對這一問題,文章通過無人機拍攝遙感影像完成數據采集,引入神經輻射場(Neural Radiance Fields,NeRF)方法進行文物古跡的數字化重建,構建體素,完成目標渲染。該方法可以在10min左右實現較好的重建效果,并且避免傳統(tǒng)網格重建結果中孔洞的出現,給文物古跡建筑的重建提供了新的思路。
遙感影像 文物保護 三維重建 神經輻射場
文物古跡是每一個歷史時期文化的重要見證,是研究歷史、追本溯源的重要信息來源。隨著時間推移,許多文物逐漸風蝕,丟失其本身的歷史風貌。這一點在古跡建筑中更為常見。但作為地標建筑,其本身便自帶不可移動性,給建筑文物的保護帶來了難題,文物保護的推進已經刻不容緩。
三維重建技術的發(fā)展給文物保護帶來了新的解決方向。通過對文物的數字化重建,可以最大程度地保存文物本身的結構信息和紋理信息。近年來,三維重建方法[1]發(fā)展十分迅速。1963年,Roberts等人[2]提出將圖像轉換為三維表示后,基于視覺的方法就在重建領域中逐步占據主流。自此,結構光、立體匹配、三角測距等多種方法層出不窮,共同促進三維重建領域快速發(fā)展。這些方法大多通過測量或者特征匹配的方式獲取物體的深度信息,再通過點云配準融合與表面網格生成的方式獲取目標三維模型,并且已經很好地落地在實際生產應用中。
隨著人工智能技術的快速發(fā)展,深度學習快速席卷各大工業(yè)領域?;谏疃葘W習的三維重建算法發(fā)展迅速,并以其高效、快速的優(yōu)勢逐步獲得研究人員青睞。但是由于結構上的復雜性,基于表面(點云、網格)的重建很難適用于深度學習的訓練,而基于體素的重建在神經網絡重建中更加常見。這種方法通過將圖像像素投影為三維空間中的體素,在三維重建中展現了獨特的優(yōu)勢。而后,神經輻射場[3](Neural Radiance Fields,NeRF)的提出為體素重建的進展作出了巨大貢獻,基本成為了未來一段時間內三維重建發(fā)展的主流路線。它大大增強了渲染圖像的真實效果,并且基于圖像的損失計算方法使神經渲染的結果更加趨近于觀測圖像。通過圖像與相機參數生成體素,并不斷訓練調整體素重建效果,最終能夠渲染得到趨近真實的結果。受限于機器算力與算法本身的局限性,NeRF的訓練通常同樣消耗大量的時間。針對這一問題,2021年Thomas等人[4]將哈希編碼融入到NeRF中,大大縮短了神經渲染的訓練時間。目前,文物古建筑重建領域大部分采用的依舊是傳統(tǒng)方法,而對NeRF的相關方法幾乎不曾涉及。
另外,在遙感技術領域,針對大范圍的古跡建筑場景數字化問題,通常采用無人機巡航攝影的方法采集多視角觀測圖像,并對圖像進行特征提取與融合從而估計場景點云,完成場景重建。此類方法一般需要大批量不同視角的圖像,在相機姿態(tài)估計后進行點云的融合與配準,這一步驟將會消耗大量時間成本。因此,進行高效、快速地對建筑、自然場景等進行三維重建的研究依然具有十分重要的理論意義與實際意義。
本文對具有歷史意義的古跡建筑,采用無人機拍攝獲取遙感影像,并且將NeRF引入到文物古建筑場景的重建任務中。相較于傳統(tǒng)的無人機巡航攝影測量的重建方法,NeRF在重建質量、重建速度和資源消耗方面表現的更加優(yōu)異。
傳統(tǒng)的三維重建方法具體可區(qū)分為主動視覺和被動視覺兩種。這兩種技術大多可劃分為深度數據獲取、數據預處理、點云生成、點云融合配準以及表面網格生成等步驟?;谥鲃右曈X的方法一般通過測量儀器直接獲得目標物體的深度信息,主要有激光掃描[5-7]、結構光[8-11]、TOF[12-14](Time of Flight)和陰影法[15-16]等。
但是由于主動視覺的三維重建技術大多容易收到周圍光照環(huán)境的影響,并且復雜或者昂貴的采集裝置使得它們的使用場景十分受限。而基于被動視覺的三維重建技術以其價格低、實用性強、采集數據便捷等優(yōu)點吸引了許多研究者的關注。這種技術一般僅需要一臺或多臺相機采集圖像數據,通過提取不同圖像間的特征對應點獲得物體的深度信息,重構點云。但缺點是目前為止,重建精度依舊不如基于主動視覺的技術。因此,近年來,大量的研究人員涌入這一方向,促進該方向的研究進展。
傳統(tǒng)的基于被動視覺的三維重建技術從相機數目上區(qū)分可分為單目視覺、雙目視覺和多目視覺三種。單目視覺指在三維重建過程中,僅用一臺相機采集單幅或多幅圖像,通過采集的圖像重建目標的三維模型。對于這種單個相機從多個視角拍攝的圖像,通常使用運動恢復結構法[17-18](Structure from Motion,SfM)恢復目標場景的三維信息。雙目視覺[19-20]的方法是利用兩個相同的相機在不同視角對同一個目標場景進行拍攝,根據特征匹配計算同一成像點在不同視角下的視差,根據視差獲得物體的深度信息,重構三維點云。多目視覺[21]即在雙目視覺的基礎上增加一臺或多臺相機進行拍攝。
除了傳統(tǒng)的三維重建技術之外,神經網絡也逐漸成為三維重建領域的重要手段。卷積神經網絡一經提出,就以其獨特的感受野優(yōu)勢在圖像處理領域大放異彩。研究者們開始將基于圖像的三維重建轉移到深度學習的方法上,并且在實驗中取得了極佳的效果?;趯W習的三維重建算法大多基于二維圖像,考慮到點云與網絡在結構上的不均勻性導致其轉移到神經網絡中尤為困難,而利用體素網絡對三維物體進行參數化表示則可以很輕易地將深度學習中的二維卷積擴展到三維,因此基于體素的重建方法在深度學習中更為適用。NeRF則是體素重建的典型代表。
2020年,Mildenhall等人[3]提出了神經輻射場的概念,通過沿攝像機射線對5D坐標(位置和觀察方向)進行采樣,并將位置輸入MLP網絡來估計顏色和體素密度,利用體素渲染合成圖像。由于網絡和渲染函數是全程可微的,因此可以通過最小化渲染圖像和真實圖像的殘差進行優(yōu)化。由于該工作的網絡訓練一般需要消耗大量的時間成本,一些針對加快NeRF渲染速度的工作也被提出。Liu等人[22]在優(yōu)化MLP的同時,通過動態(tài)更新八叉樹結構。在體素渲染計算中,當沿線的透射率為0時,允許跳過射線上的空隙和提前終止射線積分計算,以此減小體素渲染的時間消耗。Wizadwongsa等人[23]將MLP和多平面圖像參數化結合,直接在三維MPI坐標網格上進行監(jiān)督,網格可以很容易地被緩存,從而加快實時渲染速度。Lindell等人[24]通過監(jiān)督網絡的梯度表現得像一個標準的神經輻射場的MLP,來訓練一個網絡可以沿著射線“自動整合”得到輸出顏色值。這使得渲染步驟可以將沿射線的積分分解成比標準正交估計少2或4個樣本,加快NeRF的渲染速度。Sitzmann等人[25]通過直接編碼從光線到輸出顏色的映射來優(yōu)化MLP。這樣在渲染時每條光線只需要對MLP進行一次評估,而最初的體素渲染則需要數百次,有效地加快了網絡的訓練時間。
傳統(tǒng)的三維重建技術關注的是幾何表達而不是真實感渲染,這意味著即使重建的幾何精度很高也不一定能得到真實的渲染效果。而NeRF更加注重真實感渲染,能夠以新視角合成的方式交互性、實時性的在任意視角對物體進行渲染,從而模擬三維效果。
2020年,NeRF[3]一經發(fā)表就迅速獲得三維重建領域的廣泛關注,并在兩年的發(fā)展中逐漸成為三維重建的關鍵技術,基本奠定了三維重建技術在未來一段時間內的發(fā)展路線。與一般的深度學習方法不同,NeRF不是在訓練網絡之后用既定的網絡參數測試結果,而是在訓練過程中逐漸優(yōu)化體素,完成體素的隱式表達,從而獲得新視角下的渲染結果。NeRF的工作流程主要分為兩步:體素重建和體素渲染。
NeRF工作的MLP網絡結構圖如圖1所示。
圖1 NeRF重建網絡結構圖
式中表示從第一個采樣點到采樣點的所有采樣點的索引。
另外,為了減少射線上采樣點過多造成計算量過大的影響,NeRF采用了由“粗”到“精”的分層采樣方法。由于一條射線上僅有少部分區(qū)域對最終渲染的像素顏色有貢獻,而大部分區(qū)域周圍都是沒有顏色存在的。因此,NeRF先對射線均勻采樣個采樣點作為“粗”采樣,根據每個采樣點的透射率求得射線上顏色分布,從而進行射線上的“精”采樣,這樣可以有效地分配計算資源。
根據體素渲染的結果和原圖像進行損失計算,不斷優(yōu)化體素重建結果。
在遙感影像文物數字化重建任務中,影像數據對重建結果至關重要。傳統(tǒng)的建筑攝影測量技術一般通過無人機[27]或者光學攝影測量衛(wèi)星[28]進行數據采集。而無人機拍攝的影像具有更多細節(jié),因此,用于對細節(jié)要求程度很高的文物重建更具優(yōu)勢。
本文選取的無人機攝影測量數據,拍攝塔爾寺。塔爾寺坐落于青海省西寧市,建于1379年。塔爾寺是中國藏傳佛教格魯派六大寺院之一,作為青海省標志性的古跡建筑與全國重點文物保護單位,塔爾寺的數字化重建具有十分重大的理論價值與文化價值。
本文分別使用傳統(tǒng)的三維重建技術與NeRF進行塔爾寺的數字化重建。傳統(tǒng)重建方法中采用的傾斜攝影軟件ContextCapture Center Master (CCMaster)是一款專業(yè)的建筑重建軟件,在業(yè)內一直獲得廣泛認可。而為了更快地獲得重建結果,采用的NeRF是Thomas等人[4]提出的instance-ngp[4],能有效地減少NeRF的訓練時間,并提供交互式的可視化重建結果。
目前在遙感技術領域中,衛(wèi)星遙感影像的分辨率大多還是以m作為單位,對于古跡建筑的數字化重建往往達不到重建需求。而無人機遙感技術由于成本低、分辨率高、靈活性強等優(yōu)點,逐漸成為衛(wèi)星遙感的有力補充。本文利用無人機搭載高分辨率CCD陣列相機從空中對塔爾寺內不同地表建筑進行巡航拍攝,從不同視角采集了塔爾寺的遙感影像數據,包括八寶如意塔、大金瓦殿和吉祥行宮場景。
本研究的所有實驗都在相同的環(huán)境配置下完成,采用的是Rtx3090顯卡,內存大小為64G。CCMaster直接導入遙感影像進行網格重建,但是由于受到內存的限制,該軟件需要對整個場景分塊重建后進行人工拼接,在本文的實驗中,統(tǒng)一將原場景分成四塊,既能滿足內存需求,人工拼接也不需要消耗太多的時間;而NeRF方法中,由于圖像數據不能直接被NeRF所使用,需要進行數據預處理,即估計相機的內外參數,此步驟采用colmap[29]-30]軟件完成。
為了更好地比較傳統(tǒng)重建技術和NeRF體素重建的效果,本文分別從模型的重建效果、重建時間和重建所需遙感影像圖數量進行了對比分析。
本文對塔爾寺篩選了250張遙感影像作為重建數據,通過兩種重建方法對其進行數字化重建,并 分別在影像的拍攝角度與非拍攝角度進行對比。其中,八寶如意塔及周圍場景的對比結果如圖2所示。圖2左邊兩列是重建三維模型的某一視角的觀測結果,GroundTruth是原始圖像。通過圖2中傳統(tǒng)重建方法與NeRF體素重建方法的對比來看,NeRF的重建效果比傳統(tǒng)方法的效果更好。在各區(qū)域顏色、形狀更接近于遙感影像的效果。在細節(jié)部分,CCMaster錯誤地將木材地紋理映射在了八寶如意塔上,塔頂的白色區(qū)域也錯誤地映射了紋理。并且從周圍情況看,CCMaster出現很多孔洞(如紅色標注所示),而NeRF不會出現這種情況,并且可以更好地渲染出樹木等細節(jié)情況。雖然NeRF重建塔周圍的直立木架有一定難度,但是CCMaster重建的木架顯得更加凌亂。
圖2 CCMaster傳統(tǒng)重建方法與NeRF重建效果對比
長期以來,時間消耗一直是三維重建技術領域的重點問題之一。傳統(tǒng)的重建方法流程中,深度信息估計往往需要消耗大量的時間,這也導致整個重建的時間成本急劇增多。而instance-ngp則大大縮短了重建時間。
由于NeRF的重建結果取決于網絡訓練的時間,因此本文將instance-ngp對八寶如意塔場景在不同訓練時間下的重建結果進行對比,對比結果如圖3所示,并且將NeRF訓練過程中的重建損失收斂情況繪制在圖4中。
圖3 NeRF不同訓練迭代次數的重建結果
圖4 八寶如意塔場景的NeRF重建的訓練損失收斂情況
該場景的重建共訓練50 000個迭代次數,消耗時間8.23min。圖3中分別顯示了instance-ngp訓練的迭代次數從1000到50 000的重建效果。從圖中可以看出,從1 000到5 000次期間重建效果優(yōu)化更為明顯,而10 000到50 000次的迭代優(yōu)化后人眼幾乎看不出差別。并且從圖4中可以看出,在訓練到20 000個迭代次數左右時,網絡已經接近收斂到最終情況,此時的NeRF重建結果也接近于最終的重建結果。在本文的實驗中,沒有計算具體收斂的時間,而是以50 000個迭代次數消耗的時間作為最終的重建時間,因為在具體的重建任務中并不能確定模型的收斂時間,往往都是設定固定的迭代次數完成重建。即使是這樣,NeRF重建的消耗時間也遠小于傳統(tǒng)重建 技術。
在確定NeRF體素重建消耗的時間之后,本文對比了三個場景在CCMaster和instance-ngp (NeRF)中的重建時間,包括八寶如意塔場景、大金瓦寺場景和吉祥行宮場景,見表1。
表1 不同場景的文物數字化重建消耗時間
從表1中可以看出,instance-ngp重建所消耗的時間遠遠少于CCMaster的重建時間。另外,從instance- ngp對不同古跡建筑的重建時間上可以看出,NeRF的時間消耗始終在一定的范圍之內,這得益于深度學習強大的擬合能力。
遙感文物三維重建的質量受到影像數量的影響。在一般情況下,不同視點的影像數據越多就能夠提取到更多的圖像匹配特征點,能在更大程度上減少遮擋帶來的影響,因此可以重建出更稠密的點云,三維重建的質量自然更好。但是很多時候往往得不到足夠高質量與數量的影響數據,如何用更少的數據對文物古跡進行數字化重建也是文物三維重建的重點問題之一。
本文分別使用50張圖像、150張圖像和250張圖像對大金瓦寺進行重建對比,如圖5所示,圖中為影像數量。
如圖5所示,當輸入的遙感影像數量較少時,兩種方法的重建效果都一般,NeRF具體表現為模糊,而CCMaster則是孔洞太多(如紅色標注所示),網格形狀誤差較大。隨著遙感影像數量的增多,NeRF方法中,大金瓦寺樓頂的細節(jié)也越來越好,重建效果逐步改善;而CCMaster的結果中,孔洞的數目相對減少,但是大金瓦寺樓頂的網格反而有更大的誤差,這可能是不同的影像數據估計的相機參數之間的誤差導致的。通過最后的NeRF和CCMaster的結果比較也可以看出,NeRF重建結果中大金瓦寺的瓦片細節(jié)以及周邊的樹等都展現了更好的效果,這也說明NeRF的重建結果更加優(yōu)秀。
圖5 傳統(tǒng)重建方法與NeRF重建方法在不同的遙感影像數量下的重建結果對比
另外,本文對比了兩種方法在不同遙感影像數量的重建所消耗時間,見表2。從表中可以看出,CCMaster重建消耗的時間隨著數量的增加成倍數上升,而NeRF重建方法消耗的時間雖然也會增加,但增加幅度遠小于CCMaster。這說明當影像數量越多時,NeRF的重建效率越高。
表2 不同影像數量的文物數字化重建消耗時間
圖6中展示了NeRF重建結果樣本,分別是塔爾寺內三個場景的三個視角重建展示,證明了NeRF對各種地標建筑的普適性。
圖6 更多的NeRF重建結果
如圖6所示,第一、二行中在顯示目標建筑的周圍環(huán)境時,重建結果較好;但是在三行裁剪掉周圍建筑環(huán)境后,地面上裁剪的邊緣區(qū)域會有些凌亂,這是因為無人機空中拍攝的遙感影像中,目標建筑會被周圍建筑物遮擋,從而影響其底部的重建效果。
另外,本文將NeRF重建渲染結果與真實圖像進行MSE誤差計算,見表3。
表3 不同場景的NeRF重建渲染誤差(MSE)
如表3所示,拍攝圖像受到光照、天氣等因素的影響,不同場景的重建誤差也會不同。由于NeRF依托于無人機拍攝的遙感影像圖的損失計算,因此受到圖像質量的影響較大,特別是對于曝光度、光照、陰影等影響因素極為敏感。因此,保證良好的拍攝設備與良好的拍攝環(huán)境是保證NeRF重建質量的前提。
長期以來,文物保護的工作都在有條不紊的展開,但不可移動的古跡地標建筑一直是文物保護工作者的難題。隨著科技進步,三維重建技術的發(fā)展給此類文物保護工作帶來了新的解決方案,通過對古跡建筑的數字化重建,可以極好的將現階段的文物轉化為可永久保存的虛擬數字化資產。本文將NeRF應用在文物建筑的數字化重建中。通過與傳統(tǒng)的多視圖立體匹配重建技術進行對比,NeRF的重建效果更加優(yōu)秀。
目前,針對NeRF的研究還在火熱進行中,但是體素重建在一定程度上限制其應用范圍,關于NeRF網格模型重建的相關工作效果依舊還有很大的進步空間。
[1] 鄭太雄, 黃帥, 李永福, 等. 基于視覺的三維重建關鍵技術研究綜述[J]. 自動化學報, 2020, 46(4): 631-652.
ZHENG Taixiong, HUANG Shuai, LI Yongfu, et al. Key Techniques for Vision Based 3D Reconstruction: a Review[J]. Acta Automatica Sinica, 2020, 46(4): 631-652. (in Chinese)
[2] ROBERTS L G. Machine Perception of Three-dimensional Solids[D]. Cambridge: Massachusetts Institute of Technology, 1963.
[3] MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. Nerf: Representing Scenes as Neural Radiance Fields for View Synthesis[EB/OL].[2022-11-25]. https://arxiv.org/pdf/2003.08934.pdf.
[4] THOMAS M, ALEX E, CHRISTOPH S, et al. Instant Neural Graphics Primitives with a Multiresolution Hash Encoding[J]. Transactions on Graphics, 2022, 41(4): 1-15.
[5] 楊耀權, 施仁, 于希寧, 等. 激光掃描三角法大型曲面測量中影響參數分析[J]. 西安交通大學學報, 1999, 33(7): 15-18.
YANG Yaoquan, SHI Ren, YU Xining, et al. Laser Scanning Triangulation for Large Profile Measurement[J]. Journal of Xi'an Jiaotong University, 1999, 33(7): 15-18. (in Chinese)
[6] BOEHLER W, VICENT M B, MARBS A. Investigating Laser Scanner Accuracy[J]. The International Archives of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2003, 34(5): 696-701.
[7] RESHETYUK Y. Investigation and Calibration of Pulsed Time-of-flight Terrestrial Laser Scanners[D]. Stockholm: Royal Institute of Technology, 2006: 14-17.
[8] SCHARSTEIN D, SZELISKI R. High-accuracy Stereo Depth Maps Using Structured Light[C]//2003 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 18-20, 2003, Madison, WI, USA. IEEE, 2003.
[9] CHEN F, BROWN G M, SONG M. Overview of 3-D Shape Measurement Using Optical Methods[J]. Optical Engineering, 2000, 39(1): 10-22.
[10] POLLEFEYS M, VAN GOOL L. Stratifified Self-calibration with the Modulus Constraint[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(8): 707-724.
[11] SONG Z, CHUNG R. Determining both Surface Position and Orientation in Structured-light-based Sensing[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(10): 1770-1780.
[12] MAY S, DROESCHEL D, HOLZ D, et al. 3D Pose Estimation and Mapping with Time-of-flight Cameras[EB/OL]. [2022-11-25]. https://www.ais.uni-bonn.de/~holz/papers/may_2008_iros_abstract.pdf.
[13] HEGDE G P M, YE C. Extraction of Planar Features from Swissranger SR-3000 Range Images by a Clustering Method Using Normalized Cuts[C]//2009 IEEE/RSJ International Conference on Intelligent Robots and Systems, October 10-15, 2009, St. Louis, MO, USA. IEEE, 2009: 4034-4039.
[14] STIPES J A, COLE J G P, HUMPHREYS J. 4D Scan Registration with the SR-3000 LIDAR[C]//2008 IEEE International Conference on Robotics and Automation, May19-23, 2008, Pasadena, CA, USA. IEEE, 2008: 2988-2993.
[15] SAVARESE S, ANDREETTO M, RUSHMEIER H, et al. 3D Reconstruction by Shadow Carving: Theory and Practical Evaluation[J]. International Journal of Computer Vision, 2007, 71(3): 305-336.
[16] WANG Y X, CHENG H D, SHAN J. Detecting Shadows of Moving Vehicles Based on HMM[C]// 19th International Conference on Pattern Recognition, December 8-11, 2008, Tampa, FL, USA. IEEE, 2008: 1-4.
[17] WU Changchang. Towards Linear-time Incremental Structure from Motion[C]// International Conference on 3D Vision - 3DV 2013, June 29-July 1, 2013, Seattle, WA, USA. IEEE, 2013: 127-134.
[18] CUI Hainan, SHEN Shuhan, GAO Wei, et al. Efficient Large-scale Structure from Motion by Fusing Auxiliary Imaging Information[J]. IEEE Transactions on Image Processing, 2015, 24(11): 3561-3573.
[19] LI Dawei, XU Lihong, TANG Xuesong, et al. 3D Imaging of Greenhouse Plants with An Inexpensive Binocular Stereo Vision System[J]. Remote Sensing, 2017, 9(5): 508.
[20] HELVESTON E M, BOUDREAULT G. Binocular Vision and Ocular Motility: Theory and Management of Strabismus[J]. American Journal of Ophthalmology, 1986, 101(1): 135.
[21] BAILLARD C, ZISSERMAN A. A Plane-sweep Strategy for the 3D Reconstruction of Buildings from Multiple Images[EB/OL]. [2022-11-25]. https://www.isprs.org/proceedings/XXXIII/congress/part4/23_XXXIII-part4s.pdf.
[22] LIU Linfjie, GU Jiatao, LIN K Z, et al. Neural Sparse Voxel Fields[EB/OL]. [2022-11-25]. https://arxiv.org/pdf/2007.11571.pdf.
[23] WIZADWONGSA S, PHONGTHAWEE P, YENPHRAPHAI J, et al. Nex: Real-time View Synthesis with Neural Basis Expansion[EB/OL]. [2022-11-25].https://arxiv.org/pdf/2103.05606.pdf.
[24] LINDELL D B, MARTEL J N, WETZSTEIN G. Autoint: Automatic Integration for Fast Neural Volume Rendering[EB/OL]. [2022-11-25]. https://arxiv.org/pdf/2012.01714.pdf.
[25] SITZMANN V, RRZCHIKOV S, FREEMAN W T, et al. Light Field Networks: Neural Scene Representations with Single-evaluation Rendering[EB/OL]. [2022-11-25].https://arxiv.org/pdf/2106.02634.pdf.
[26] KAJIYA J T, HERZEN B P. Ray Tracing Volume Densities[J]. ACM SIGGRAPH Computer Graphics, 1984, 18(3): 165-174.
[27] 李兵, 岳京憲, 李和軍. 無人機攝影測量技術的探索與應用研究[J]. 北京測繪, 2008(1): 1-3.
LI Bing, YUE Jingxian, LI Hejun. Exploration and Application of UAV Photogrammetry Technology[J]. Beijing Surveying and Mapping, 2008(1): 1-3. (in Chinese)
[28] 王建榮, 王任享, 胡莘. 光學攝影測量衛(wèi)星發(fā)展[J]. 航天返回與遙感, 2020, 41(2): 12-16.
WANG Jianrong, WANG Renxiang, HU Xin. Development of Optical Satellite Photogrammetry[J]. Spacecraft Recovery & Remote Sensing, 2020, 41(2): 12-16. (in Chinese)
[29] SCH?NBERGER J L, FRAHM J M. Structure-from-Motio Revisited[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016,Las Vegas, NV, USA. IEEE, 2016.
[30] SCH?NBERGER J L, ZHENG Enliang, FRAHM J M, et al. Pixelwise View Selection for Unstructured Multi-view Stereo[EB/OL]. [2022-11-25]. https://link.springer.com/chapter/10.1007/978-3-319-46487-9_31.
The Digital Reconstruction of Heritage Buildings Based on NeRF
CHENG Bin1YANG Yong2XU Chongbin2,*LI Guoshuai2REN Pu3GAO Zhi2
(1 China Academy of Space Technology Hangzhou Institute, Hangzhou 310012, China) (2 Beijing Institute of Space Mechanics & Electricity, Beijing 100094, China)(3 Beijing Institute of Graphic Communication, Beijing 102600, China)
Heritage buildings have been losing their own characteristics in the course of history, changing or disappearing in the course of time. Therefore, how to accurately measure the preservation of the historical appearance of current heritage is an urgent problem to be solved. Digital modeling can be an excellent way to preserve the appearance of artifacts in the current period, and therefore this research is of great importance in the conservation of cultural assets. Most of the reconstruction tasks used in heritage reconstruction are still traditional visual-based reconstruction methods, which generally require multiple viewpoint images and are extremely time-consuming, and are not efficient enough for the reconstruction and updating of a large number of heritage sites. To address this problem, this paper completes data acquisition by remote sensing images taken by UAV, and introduces NeRF (Neural Radiance Fields) method for digital reconstruction of cultural relics and monuments, and constructs voxels to complete target rendering. This method can achieve a better reconstruction effect of the relics in ten minutes, and avoid the appearance of holes in the traditional mesh reconstruction results, which provides a new idea for the reconstruction of relics and monuments buildings.
remote sensing image; heritage conservation; 3D reconstruction; Neural Radiance Fields (NeRF)
TP399
A
1009-8518(2023)01-0040-10
10.3969/j.issn.1009-8518.2023.01.005
2022-10-23
北京市自然科學基金(4214064:數據驅動的古建筑三維場景建模方法);北京印刷學院校級項目(Eb202308:博物館數字展示內容智能生成方法研究)
程斌, 楊勇, 徐崇斌, 等. 基于NeRF的文物建筑數字化重建[J]. 航天返回與遙感, 2023, 44(1): 40-49.
CHENG Bin, YANG Yong, XU Chongbin, et al. The Digital Reconstruction of Heritage Buildings Based on NeRF[J]. Spacecraft Recovery & Remote Sensing, 2023, 44(1): 40-49. (in Chinese)
程斌,男,1997年生,2022年獲北京師范大學信號與信息處理專業(yè)碩士學位。主要研究方向為計算機圖形學。E-mail:chengbin@casthz.cn。
徐崇斌,男,1984年生,2014年獲北京師范大學系統(tǒng)分析與集成專業(yè)博士學位,高級工程師。主要研究方向為計算機圖形學、遙感信息處理與應用技術、虛擬現實工程學和三維人機交互技術。E-mail:sear2005@163.com。
(編輯:陳艷霞)