編輯部編譯
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和圖形學(xué)領(lǐng)域中的廣泛應(yīng)用,越來(lái)越多的方法開(kāi)始利用神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)三維幾何模型的表征。最近,谷歌提出使用神經(jīng)關(guān)節(jié)形狀近似(NASA),來(lái)對(duì)有關(guān)節(jié)的三維模型進(jìn)行估計(jì)。相較于以往的傳統(tǒng)方法,它復(fù)雜度低、模型水密性好、模型估計(jì)效果好,具有良好的性能表現(xiàn)。
可以說(shuō),諸如人體之類(lèi)的有關(guān)節(jié)對(duì)象的有效表征是計(jì)算機(jī)視覺(jué)和圖形學(xué)中的一個(gè)重要問(wèn)題。為了有效地模擬變形,現(xiàn)有方法將對(duì)象表示為網(wǎng)格,并使用蒙皮算法(Skinning algorithms)對(duì)其進(jìn)行變形。本文提出了神經(jīng)關(guān)節(jié)形狀近似(NASA),該框架可通過(guò)使用姿勢(shì)參數(shù)化的神經(jīng)指示函數(shù)來(lái)實(shí)現(xiàn)有關(guān)節(jié)、可變形對(duì)象的有效表征。相較于傳統(tǒng)方法,NASA避免了在不同表征形式之間進(jìn)行轉(zhuǎn)換的需求。對(duì)于占用測(cè)試,NASA規(guī)避了網(wǎng)格的復(fù)雜性并且解決了水密性問(wèn)題。與常規(guī)網(wǎng)格和八叉樹(shù)相比,我們的方法無(wú)需使用大量?jī)?nèi)存即可提供高分辨率。
介紹
近年來(lái),人們對(duì)計(jì)算機(jī)視覺(jué)產(chǎn)生了濃厚的興趣,希望開(kāi)發(fā)出更好、更靈活的關(guān)于目標(biāo)和場(chǎng)景的3D表征方法。而在這些領(lǐng)域中所取得的最新進(jìn)展成果,部分是由用于場(chǎng)景理解的“逆向圖形(inverse graphics)”管道的發(fā)展推動(dòng)的。得益于深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的主導(dǎo)地位,我們可以看到逆向圖形的蓬勃發(fā)展,尤其是當(dāng)可微分的幾何模型可用時(shí)。但是,在各種可能的應(yīng)用中,有關(guān)節(jié)對(duì)象的神經(jīng)模型卻很少受到關(guān)注??梢哉f(shuō),有關(guān)節(jié)對(duì)象的模型非常重要,因?yàn)樗鼈儼巳祟?lèi)的3D表征,在計(jì)算機(jī)游戲和動(dòng)畫(huà)電影,以及諸如增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)之類(lèi)的其他應(yīng)用程序中,虛擬人類(lèi)都是中心主題。
現(xiàn)有的幾何學(xué)習(xí)算法,包括針對(duì)人臉、身體和低層級(jí)幾何的自監(jiān)督方法,都依賴于完全可微的編碼器—解碼器體系架構(gòu)的優(yōu)化。其實(shí),神經(jīng)解碼器的使用也是有可能實(shí)現(xiàn)的,但是當(dāng)在架構(gòu)中直接表達(dá)有關(guān)被建?,F(xiàn)象的更多結(jié)構(gòu)時(shí),使用上述方法所產(chǎn)生的結(jié)果質(zhì)量將得到顯著提高。幾何模型通常必須滿足若干個(gè)目的,例如表征用于渲染的形狀,或表征用于交叉查詢的體積。盡管在有關(guān)節(jié)、可變形的環(huán)境中已開(kāi)始使用神經(jīng)網(wǎng)絡(luò),但它們僅僅解決了變形問(wèn)題,同時(shí)又將交叉查詢和整體關(guān)節(jié)都?xì)w類(lèi)為經(jīng)典方法,從而犧牲了完全可微性。
在本文中,我們所提出的方法是使用一個(gè)可微的神經(jīng)模型對(duì)有關(guān)節(jié)對(duì)象進(jìn)行表征,并訓(xùn)練了一個(gè)神經(jīng)解碼器。與以往的一些幾何學(xué)習(xí)方法一樣,我們用指示函數(shù)(也稱(chēng)為占用函數(shù))來(lái)表示幾何,該函數(shù)在對(duì)象內(nèi)取值為1,在其他情況下則值為0。如果需要的話,可以通過(guò)移動(dòng)立方體來(lái)提取顯式表面。一般來(lái)說(shuō),以往的研究方法側(cè)重于由(未知)形狀參數(shù)所描述的靜態(tài)對(duì)象集合,與之不同的是,我們?cè)诟淖冏藙?shì)參數(shù)時(shí)著眼于學(xué)習(xí)指示函數(shù),這可以通過(guò)對(duì)動(dòng)畫(huà)序列的訓(xùn)練發(fā)現(xiàn)??傮w而言,我們的主要研究成果是:
1.我們提出了一種通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)近似有關(guān)節(jié)、可變形模型的方法;
2.我們展示了如何明確地在網(wǎng)絡(luò)中表示變形結(jié)構(gòu),在使用更少的模型參數(shù)的同時(shí)提供相似的性能和更好的泛化能力;
3.指示函數(shù)表征法支持有效的交叉和碰撞查詢(collision query),因此無(wú)需將其轉(zhuǎn)換為其他的表征法;
4.我們的研究方法在學(xué)習(xí)3D人體動(dòng)作上的表現(xiàn)要優(yōu)于以往的幾何學(xué)習(xí)算法,并且可以與手工統(tǒng)計(jì)人體模型方法相媲美。
相關(guān)研究
神經(jīng)形狀近似方法提供了一個(gè)單一的框架來(lái)解決那些往往被單獨(dú)解決的問(wèn)題。因此,該方法所涉及的相關(guān)研究文獻(xiàn)包括跨越多個(gè)不同領(lǐng)域的大量著作。
蒙皮算法:傳統(tǒng)上,有效有關(guān)節(jié)變形是使用蒙皮算法完成的,該算法會(huì)在基礎(chǔ)抽象骨架的關(guān)節(jié)發(fā)生變化時(shí)對(duì)網(wǎng)格表面的頂點(diǎn)進(jìn)行變形。經(jīng)典的線性混合蒙皮(LBS)算法將變形的頂點(diǎn)表示為若干個(gè)相鄰骨骼剛性變換后的頂點(diǎn)的加權(quán)和。線性混合蒙皮算法廣泛用于計(jì)算機(jī)游戲中,并且是目前流行的視覺(jué)模型的核心組成部分。通常情況下,為了進(jìn)行壓縮和操縱,平常的(不一定是具有關(guān)節(jié)的)變形對(duì)象的網(wǎng)格序列也是使用蒙皮算法來(lái)表示的,使用的往往是通過(guò)聚類(lèi)發(fā)現(xiàn)的非層次“骨骼”變換的集合。當(dāng)然,線性混合蒙皮算法也具有眾所周知的缺點(diǎn):變形具有一個(gè)過(guò)于簡(jiǎn)單的算法形式,無(wú)法生成與姿勢(shì)相關(guān)的細(xì)節(jié),會(huì)導(dǎo)致典型的體積損失效應(yīng),例如“塌陷的肘部”和“糖果包裹物”偽影,而為了獲得最佳效果,必須由藝術(shù)家手動(dòng)繪制權(quán)重。我們可以通過(guò)深度網(wǎng)絡(luò)回歸來(lái)添加與姿勢(shì)有關(guān)的細(xì)節(jié),此過(guò)程可作為是對(duì)經(jīng)典線性混合蒙皮算法變形的修正。
對(duì)象交叉查詢:注冊(cè)、模板匹配、3D追蹤、碰撞檢測(cè)和其他任務(wù)等都需要有效的內(nèi)部/外部測(cè)試。多邊形網(wǎng)格的一個(gè)缺點(diǎn)是它們不能有效地支持這些查詢,因?yàn)榫W(wǎng)格通常包含成千上萬(wàn)個(gè)必須針對(duì)每個(gè)查詢進(jìn)行測(cè)試的單個(gè)三角形。這導(dǎo)致了各種空間數(shù)據(jù)結(jié)構(gòu)的發(fā)展,以加速點(diǎn)對(duì)象查詢,包括體素網(wǎng)格(voxel grids)、八叉樹(shù)等。在使對(duì)象變形的情況下,空間數(shù)據(jù)結(jié)構(gòu)必須隨著對(duì)象的變形而反復(fù)重建。進(jìn)一步面對(duì)的問(wèn)題就是典型網(wǎng)格結(jié)構(gòu)的構(gòu)建可能沒(méi)有考慮“水密性”,因此沒(méi)有一個(gè)關(guān)于內(nèi)部空間的明確定義。
基于部位的表征:對(duì)于有關(guān)節(jié)對(duì)象的對(duì)象相交查詢,根據(jù)支持有效相交測(cè)試的剛性部位(如球體或橢圓體)的移動(dòng)集合來(lái)近似整體形狀可能會(huì)更有效。不幸的是,這種做法有一個(gè)缺點(diǎn),它引入了一個(gè)第二近似表征法,與原始期望變形不完全匹配。進(jìn)一步的核心挑戰(zhàn)和持續(xù)研究的課題便是自動(dòng)創(chuàng)建這種基于部位的表征。最近,無(wú)監(jiān)督部位發(fā)現(xiàn)方法被許多深度學(xué)習(xí)方法所取代,通常而言,這些方法解決了跨形狀集合的分析和對(duì)應(yīng)問(wèn)題,但沒(méi)有針對(duì)有關(guān)節(jié)、可變形對(duì)象的精確表征。這些方法中的任何一種都沒(méi)有考慮與姿勢(shì)有關(guān)的變形效應(yīng)。
神經(jīng)隱式對(duì)象表征:最近有一些研究使用神經(jīng)隱式函數(shù)來(lái)表征對(duì)象。這些研究側(cè)重于對(duì)齊規(guī)范框架中靜態(tài)形狀的神經(jīng)表征上,而不是針對(duì)轉(zhuǎn)換建模。因此,我們的研究方法可以被認(rèn)為是上述這些方法的擴(kuò)展,其核心區(qū)別在于它能夠有效表地表征復(fù)雜而詳細(xì)的有關(guān)節(jié)對(duì)象,如人體等。
評(píng)估
我們使用兩個(gè)數(shù)據(jù)集在2D和3D中對(duì)提出的方法進(jìn)行評(píng)估。數(shù)據(jù)集包括rest配置表面、采樣的指示函數(shù)值、每個(gè)姿勢(shì)的骨骼變換框架和蒙皮權(quán)重。然后,通過(guò)具有泛化能力的繞組數(shù)對(duì)參照指示函數(shù)進(jìn)行可靠計(jì)算,并使用表面上的附加樣本在變形表面周?chē)囊?guī)則網(wǎng)格中對(duì)其進(jìn)行評(píng)估??梢酝ㄟ^(guò)將預(yù)測(cè)結(jié)果與參照樣本之間的“聯(lián)合相交”(IOU)來(lái)評(píng)估模型的性能表現(xiàn)。
結(jié)論
在本文中,我們從神經(jīng)角度介紹了可變形(實(shí)體)模型的幾何建模問(wèn)題,展示了與結(jié)構(gòu)化基線相比,非結(jié)構(gòu)化基線需要更多的神經(jīng)預(yù)算,但更重要的是,它們根本不具有泛化能力。在結(jié)構(gòu)化基線中,可變形模型在插值方面表現(xiàn)最佳,而剛性模型在外推基準(zhǔn)方面領(lǐng)先。理解如何對(duì)這兩個(gè)模型進(jìn)行組合并學(xué)習(xí)這兩種性能表現(xiàn)是很有趣的,但需要注意的是,只要查詢姿勢(shì)與訓(xùn)練時(shí)看到的姿勢(shì)足夠相似,可變形模型仍可在應(yīng)用程序中使用。
我們所提出的方法可以應(yīng)用于許多問(wèn)題,包括復(fù)雜的有關(guān)節(jié)物體的表征,例如人物角色、用于計(jì)算機(jī)視覺(jué)注冊(cè)和追蹤的對(duì)象相交查詢、用于計(jì)算機(jī)游戲和其他應(yīng)用程序的碰撞檢測(cè)以及網(wǎng)格序列的壓縮等。在所有這些應(yīng)用中,神經(jīng)形狀近似方法使得我們能夠使用相同的通用方法來(lái)處理效率與細(xì)節(jié)之間的多種權(quán)衡。
未來(lái),我們的一個(gè)研究方向是減少該方法中所需的監(jiān)管數(shù)量,以便使其在應(yīng)用中具有更好的性能表現(xiàn)。