英偉達正在利用人工智能讓設(shè)計師、游戲開發(fā)等人員在短時間內(nèi)用3D對象進行創(chuàng)作。創(chuàng)作者們能夠使用其提出的英偉達3D MoMa方法對內(nèi)容進行快速導入、修改和更改材質(zhì)等工作。
“逆渲染是一種將一系列靜態(tài)照片重建為物體或場景3D模型的技術(shù)。該技術(shù)長期以來對統(tǒng)一計算機視覺和計算機圖形學至關(guān)重要?!庇ミ_圖形研究副總裁大衛(wèi)·呂布克說,“通過將逆渲染問題的每一部分表述為GPU加速的可微分組件,英偉達3D MoMa渲染管道使用現(xiàn)代人工智能的機制和莫偉達GPU的原始計算能力來快速生成3D對象,創(chuàng)作者可以在現(xiàn)有工具中不受限制地導入、編輯和擴展。”
傳統(tǒng)上,人們創(chuàng)建3D對象會使用攝影測量技術(shù),這涉及的是一個多階段、相當耗時的過程。創(chuàng)作者需要通過大量的軟件工具和手動調(diào)整來達到最終期望的3D模型效果。
目前的神經(jīng)輻射場等技術(shù)在生成對象或場景的3D表示方面取得一定優(yōu)勢,并提供了高質(zhì)量的新視圖合成。
然而,這些方法通常會產(chǎn)生將幾何圖形、材料和照明糾纏到神經(jīng)網(wǎng)絡中的表示形式,不能以三角形網(wǎng)格格式生成,因此很難支持場景編輯操作?!叭切尉W(wǎng)格是用于在3D圖形和建模中定義形狀的基礎(chǔ)框架,是此類3D工具使用的通用語言?!毖芯空咴谀獋ミ_官網(wǎng)博文中寫到。
另外,為了更為實用,3D對象應該適配眾多常用工具,比如,游戲引擎、3D建模器和電影渲染器等。而要在傳統(tǒng)的圖形引擎中使用它們,需要使用諸如標記立方體等方法從網(wǎng)絡中提取幾何圖形,這可能會導致較差的表面質(zhì)量,特別是在低三角形計數(shù)時。神經(jīng)網(wǎng)絡編碼的材料不能輕易地編輯或提取與傳統(tǒng)游戲引擎兼容的形式。
由靜態(tài)圖片制作的虛擬樂隊
從一組多視圖圖像中重建具有未知拓撲結(jié)構(gòu)、空間變化材料和照明的三角形網(wǎng)格
相比之下,本次研究重建了與傳統(tǒng)圖形引擎兼容的3D內(nèi)容,支持重啟和場景編輯。由此產(chǎn)生的3D模型不需要轉(zhuǎn)換就可以在任何支持三角形渲染的設(shè)備上進行部署,手機和網(wǎng)頁瀏覽器同樣適用。它可以在標準的游戲引擎中不經(jīng)修改地使用,并對所有階段進行基于梯度的優(yōu)化。
研究方法概述
該三維重建方法英偉達3D MoMa的相關(guān)論文,近日在2022年計算機視覺和模式識別會議上發(fā)表,并以《從圖像中提取三角形三維模型、材質(zhì)和照明》為題提交在arxiv上。
與NeRF、NeRD的對比
研究人員針對各種應用程序來評估他們的系統(tǒng),對已有對象進行重新編輯和模擬,以展示他們的方法顯式分解為三角形網(wǎng)格和材料,并與神經(jīng)輻射場、神經(jīng)反射分解等方法做了比較。
值得一提的是,研究人員還做了一個虛擬樂隊視頻演示,以體現(xiàn)英偉達3D MoMa的強大功能。
首先,他們從不同角度拍攝了約100張樂器圖像,并用新提出的研究方法將這些靜態(tài)圖像分別重建為3D表示和三角形網(wǎng)格。
然后,將對象從原始場景中分離出,再導入英偉達 Omniverse 3D平臺編輯。在廣泛使用的圖形引擎中,可輕易地將產(chǎn)生的形狀材料替換為黃金、木材等不同材質(zhì),就好像把網(wǎng)格裝扮成不同的裝飾一樣,也能將其放在任意虛擬場景(比如康奈爾盒,一種經(jīng)典圖形測試)中。
最后證明,不同的虛擬樂器對光有不同反應,跟在現(xiàn)實中幾乎相同。新生成的對象能夠用作復雜畫場景的構(gòu)建塊。
值得注意的是,研究人員在論文中還表示:“為了加速優(yōu)化,選擇了簡化的著色模型,也沒有考慮全局照明或陰影。這種選擇是材料提取和回收的限制因素。在未來的工作中,隨著目前在可微路徑跟蹤方面的進展,這一限制有望得到解除。”
總的來說,本研究展示了一種與最先進的視圖合成等技術(shù)相媲美的方法,同時還有著優(yōu)化的三角形網(wǎng)格、兼容傳統(tǒng)圖形引擎和建模工具等優(yōu)勢,并由渲染模型的外觀驅(qū)動來執(zhí)行端到端優(yōu)化。
這簡化了進行3D內(nèi)容創(chuàng)作人員的大量工作流程,極大節(jié)省他們的時間和提升效率。該研究方法還可以作為外觀感知轉(zhuǎn)換器,補充了許多最近的技術(shù)。