沙 浩,劉 越,2
基于深度學(xué)習(xí)的圖像本征屬性預(yù)測方法綜述
沙 浩1,劉 越1,2
(1. 北京理工大學(xué)光電學(xué)院,北京 100081;2. 北京電影學(xué)院未來影像高精尖創(chuàng)新中心,北京 100088)
真實(shí)世界的外觀主要取決于場景內(nèi)對象的幾何形狀、表面材質(zhì)及光照的方向和強(qiáng)度等圖像的本征屬性。通過二維圖像預(yù)測本征屬性是計算機(jī)視覺和圖形學(xué)中的經(jīng)典問題,對于圖像三維重建、增強(qiáng)現(xiàn)實(shí)等應(yīng)用具有重要意義。然而二維圖像的本征屬性預(yù)測是一個高維的、不適定的逆向問題,通過傳統(tǒng)算法無法得到理想結(jié)果。針對近年來隨著深度學(xué)習(xí)在二維圖像處理各個方面的應(yīng)用,出現(xiàn)的大量利用深度學(xué)習(xí)對圖像本征屬性進(jìn)行預(yù)測的研究成果,首先介紹了基于深度學(xué)習(xí)的圖像本征屬性預(yù)測算法框架,分析了以獲得場景反射率和陰影圖為主的本征圖像預(yù)測、以獲得圖像中材質(zhì)BRDF參數(shù)為主的本征屬性預(yù)測及以獲得圖像光照相關(guān)信息為主的本征屬性預(yù)測3個方向的國內(nèi)外研究進(jìn)展并總結(jié)了各自方法的優(yōu)缺點(diǎn),最后指出了圖像本征屬性預(yù)測的研究趨勢和重點(diǎn)。
計算機(jī)視覺;計算機(jī)圖形學(xué);本征屬性預(yù)測;本征圖像預(yù)測;BRDF預(yù)測;光照預(yù)測;深度學(xué)習(xí)
真實(shí)世界的外觀由光線作用在各個對象的幾何形狀之間發(fā)生反射、散射等一系列復(fù)雜交互作用所形成。在模擬真實(shí)世界進(jìn)行計算機(jī)圖像渲染時,需要首先將場景建模成具有材質(zhì)屬性的三角面片,然后通過基于光線追蹤等渲染方法的渲染管線將來自光源的光線通過場景的反射、折射等一系列作用傳播到成像平面上以形成二維計算機(jī)圖像[1]。這些屬性包括光照、幾何形狀、表面材質(zhì)的反射率和場景的深度或法線等信息,決定著圖像形成的本質(zhì),統(tǒng)稱為圖像的本征屬性。為了產(chǎn)生新的二維圖像,在計算得到圖像的本征屬性后首先需要對圖像中的場景進(jìn)行準(zhǔn)確的三維重建[2],然后在三維空間中對場景進(jìn)行處理并將處理后的場景重投影到成像平面上。通過控制圖像的本征屬性可以直接在二維圖像中對圖像外觀進(jìn)行三維化的更改,包括對材質(zhì)進(jìn)行替換、對圖像進(jìn)行重新光照等,因此本征屬性預(yù)測在三維重建、增強(qiáng)現(xiàn)實(shí)(augmented reality, AR)/虛擬現(xiàn)實(shí)(virtual reality, VR)中有著廣泛地應(yīng)用。
根據(jù)需求的不同和實(shí)踐的可行性,研究人員一般會將原始的多個本征屬性參數(shù)進(jìn)行簡化或組合,形成新的本征屬性參數(shù)。近年來研究人員普遍以獲得場景的反射率和陰影圖、以獲得圖像中材質(zhì)雙向反射分布函數(shù)(bidirectional reflectance distribution function, BRDF)參數(shù)及以獲得圖像光照相關(guān)信息為主的3個方向?qū)Ρ菊鲗傩赃M(jìn)行預(yù)測。理論上圖像的本征屬性預(yù)測旨在解決一個基于渲染方程的逆映射問題。其不僅需要估計大量的本征屬性參數(shù),還要克服二維空間映射到三維空間的高維不適定性。而在實(shí)踐中,經(jīng)過大量訓(xùn)練的三維建模美術(shù)師們通??梢砸揽孔约旱慕?jīng)驗(yàn)完成對二維圖像本征屬性的估測,因此讓計算機(jī)模仿人類行為,獲取二維圖像中的本征屬性參數(shù)也并非是一項(xiàng)不可能的工作。
傳統(tǒng)算法大都從圖像外觀的形成出發(fā),依靠某種先驗(yàn)完成對其他本征屬性的預(yù)測。例如文獻(xiàn)[3]將圖像中的陰影看作是本征屬性的先驗(yàn)知識,通過優(yōu)化代價函數(shù)對圖像場景的形狀、光照和反射率進(jìn)行最大概率估計,在假定圖像中物體為朗伯模型的情況下取得了不錯的結(jié)果。近年來出現(xiàn)的深度學(xué)習(xí)算法的綜合性能在圖像處理的很多領(lǐng)域都超過了以文獻(xiàn)[3]為代表的傳統(tǒng)算法,尤其對于這種不適定、欠約束問題,深度學(xué)習(xí)的效果更加顯著。
深度學(xué)習(xí)旨在利用數(shù)據(jù)驅(qū)動的方式通過不斷迭代優(yōu)化損失函數(shù),使卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)模型擬合到一個可以解決特定問題的狀態(tài),其獨(dú)特的結(jié)構(gòu)模仿了生物神經(jīng)元的連接方式,因此在許多問題上表現(xiàn)出類似于生物的智能性。圖像的本征屬性預(yù)測是圖像渲染的逆向過程,顯式的模型不足以建立其映射關(guān)系,而CNN可以看作是一個未知的“黑盒”,對于這種難以用數(shù)學(xué)模型解釋的問題有著良好的適應(yīng)性,因此,越來越多的研究人員將深度學(xué)習(xí)算法應(yīng)用到了圖像的本征屬性預(yù)測中。
深度學(xué)習(xí)是一種采用CNN作為模型的機(jī)器學(xué)習(xí)算法,與其他算法相比,在學(xué)習(xí)圖像表示的層次上獲得了突破,因而在與圖像有關(guān)的各個領(lǐng)域廣泛使用。在圖像的本征屬性預(yù)測方面,深度學(xué)習(xí)方法大多將單張或多張圖像輸入CNN,然后輸出圖像本征屬性的預(yù)測值,通過計算預(yù)測值和真實(shí)值之間的損失函數(shù),不斷迭代優(yōu)化網(wǎng)絡(luò)參數(shù),使特定模型達(dá)到可以完成對所需本征屬性進(jìn)行預(yù)測的狀態(tài)[4]。深度學(xué)習(xí)算法主要包含網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)、數(shù)據(jù)集3個核心模塊,對于不同的任務(wù),這3個模塊會有所不同。
應(yīng)用在圖像本征屬性預(yù)測中代表性的網(wǎng)絡(luò)結(jié)構(gòu)主要有VGG-16[5]、深度殘差網(wǎng)絡(luò)[6]和Unet[7]等。文獻(xiàn)[8]利用VGG變體網(wǎng)絡(luò),第一次實(shí)現(xiàn)了基于CNN的單幅圖像深度預(yù)測。雖然深度預(yù)測[9]更多是作為計算機(jī)視覺的一大獨(dú)立問題,但深度信息本質(zhì)上代表了場景的幾何參數(shù),同屬于圖像的本征屬性,因此深度預(yù)測也屬于圖像的本征屬性預(yù)測。文獻(xiàn)[10]利用深度殘差網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí),預(yù)測出的單目圖像深度信息在精度上超越了之前利用其他CNN進(jìn)行預(yù)測的算法。結(jié)構(gòu)上相互對稱的Unet網(wǎng)絡(luò)如圖1所示,其對輸入圖像的計算過程類似于圖像正逆渲染,因而基于此結(jié)構(gòu)的網(wǎng)絡(luò)在圖像的本征屬性預(yù)測上有著更為廣泛地使用。
深度學(xué)習(xí)的損失函數(shù)與所完成的任務(wù)有關(guān),在分類問題中,常用softmax等分類器結(jié)合交叉熵?fù)p失進(jìn)行誤差計算。而對于像素級的任務(wù),常常使用L1,L2損失對預(yù)測圖像和真實(shí)圖像各個位置上的像素值進(jìn)行誤差計算。在圖像本征屬性的預(yù)測任務(wù)中,對于均勻一致的本征屬性參數(shù),通??梢詫⑵淇醋饕粋€范圍值,進(jìn)而轉(zhuǎn)化為不同范圍的分類問題[11-12],所以常常采用交叉熵?fù)p失計算誤差。然而更多情況下,圖像的本征屬性參數(shù)并不會全局均勻且一致,因此更多將其視為一個像素級的圖像到圖像的任務(wù)。在大多數(shù)圖像的本征屬性預(yù)測中,還會引入重建損失[13-17]旨在將預(yù)測到的圖像本征屬性參數(shù)重投影并渲染生成新的圖像,進(jìn)而計算重建圖像與原始輸入圖像之間的像素級誤差。重建損失可以自動平衡每個參數(shù)在損失函數(shù)中所占的比重,讓網(wǎng)絡(luò)的收斂更符合渲染的物理性。
數(shù)據(jù)集的質(zhì)量和數(shù)量在深度學(xué)習(xí)任務(wù)中起到了決定性的作用。真實(shí)數(shù)據(jù)集的制作一般采用眾包的手段,通過人工注釋和測量的方式產(chǎn)生數(shù)據(jù)集中的真實(shí)值標(biāo)簽。文獻(xiàn)[18]利用Kinect深度攝像機(jī)對室內(nèi)場景的深度進(jìn)行測量,生成一個對應(yīng)著場景深度和場景分割標(biāo)簽圖的NYU depth v2數(shù)據(jù)集。然而在圖像的本征屬性預(yù)測任務(wù)中,獲取真實(shí)場景的真實(shí)本征屬性十分困難,難以應(yīng)用生成真實(shí)標(biāo)簽數(shù)據(jù)集的傳統(tǒng)方法。文獻(xiàn)[19]通過眾包的方式讓用戶對場景中的反射率進(jìn)行判斷,從而生成一個帶有稀疏注釋的本征屬性數(shù)據(jù)集,但是其標(biāo)簽密度太小,訓(xùn)練出的網(wǎng)絡(luò)可信度太差。圖2所示的MIT intrinsic[20]數(shù)據(jù)集雖然測量了包含陰影、漫反射率和鏡面反射分量的16個真實(shí)物體的本征屬性參數(shù),但是其規(guī)模遠(yuǎn)遠(yuǎn)不能滿足圖像本征屬性預(yù)測任務(wù)的訓(xùn)練需要,因此許多工作常常將其用作測試集來衡量算法的性能。文獻(xiàn)[21]利用大型的真實(shí)感游戲合成了像素級別的帶有語義標(biāo)簽的數(shù)據(jù)集,該策略不僅減少了傳統(tǒng)數(shù)據(jù)集制作上的困難,同時也提高了語義分割模型在真實(shí)圖像預(yù)測任務(wù)中的精度,證明了合成數(shù)據(jù)集的可用性。隨著真實(shí)感渲染技術(shù)的發(fā)展,渲染出照片級別的合成圖像已經(jīng)成為可能,研究人員可以程序化地控制本征屬性參數(shù)進(jìn)而合成不同的圖像,這樣不僅得到了可靠的數(shù)據(jù)集,還大大減輕了人力負(fù)擔(dān),因此在圖像本征屬性預(yù)測中,一般都會采用合成數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
文獻(xiàn)[22]提出圖像亮度的不連續(xù)性主要是由反射率變化造成的,而圖像的其他起伏變化來源于場景中陰影的改變。文獻(xiàn)[23]提出對于一張彩色場景圖像,可以將其簡單地分解為對應(yīng)場景中不同位置均勻漫反射率的反射率圖和對應(yīng)光照作用于場景幾何結(jié)構(gòu)后的陰影灰度圖的逐像素乘積,即
之后,國內(nèi)外研究人員開始開展針對彩色圖像的本征圖像預(yù)測研究工作。文獻(xiàn)[24]利用CNN將單張圖像分解為反射率圖和陰影圖,在精度、泛化性等方面都優(yōu)于文獻(xiàn)[25]和[26]等基于深度圖輔助的傳統(tǒng)算法。作者利用文獻(xiàn)[8]提出的多尺度深度預(yù)測網(wǎng)絡(luò)的變體,通過計算和的損失函數(shù)之和迭代優(yōu)化模型。由于真實(shí)反射率和陰影的強(qiáng)度不是絕對的,不能施加標(biāo)準(zhǔn)L2誤差對網(wǎng)絡(luò)進(jìn)行約束,所以其使用了尺度不變性L2誤差[8]為
其中,和為圖像的像素坐標(biāo)位置;為RGB通道索引;為要計算的像素數(shù)目。為尺度誤差不變的平衡項(xiàng),其值為0時,損失函數(shù)變?yōu)楹唵蔚淖钚∑椒讲睿黄渲禐?時,損失函數(shù)變?yōu)槌叨炔蛔冋`差。文獻(xiàn)[24]使用通過游戲的合成的MPI Sintel 數(shù)據(jù)集(圖3)和MIT intrinsic數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,雖然成功分解出了和,但其數(shù)據(jù)集的質(zhì)量和網(wǎng)絡(luò)的簡單結(jié)構(gòu)還是限制了模型的泛化性能和精度。為此文獻(xiàn)[27]在直接預(yù)測本征圖像網(wǎng)絡(luò)的基礎(chǔ)上,并行地添加了一個輸入邊緣輪廓圖像、輸出反射率指導(dǎo)圖的指導(dǎo)網(wǎng)絡(luò),再將基礎(chǔ)網(wǎng)絡(luò)預(yù)測得到的反射率圖與指導(dǎo)圖像輸入?yún)^(qū)域?yàn)V波器,從而得到最終的反射率圖。文獻(xiàn)[27]還為不同類型的數(shù)據(jù)集設(shè)置了不同的網(wǎng)絡(luò)框架,將合成數(shù)據(jù)集與IIW真實(shí)數(shù)據(jù) 集[19](圖3)同時加入網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,進(jìn)而改進(jìn)預(yù)測結(jié)果。文獻(xiàn)[13]將IIW數(shù)據(jù)集加入網(wǎng)絡(luò)訓(xùn)練過程的同時,也為此任務(wù)制作了一個基于物理渲染的大規(guī)模場景本征圖像的CGI數(shù)據(jù)集(圖3)。文獻(xiàn)[13]在采用尺度不變L2誤差損失函數(shù)的基礎(chǔ)上,利用稀疏注釋數(shù)據(jù)集的約束設(shè)置了對陰影、反射率的平滑損失和基于原始圖像重建損失,結(jié)果表明高質(zhì)量數(shù)據(jù)集的加入大大改善了模型的質(zhì)量,不同數(shù)據(jù)集的聯(lián)合訓(xùn)練和其他損失的約束也一定程度上提升了模型的表現(xiàn)。
合成高質(zhì)量的數(shù)據(jù)集需要耗費(fèi)大量的時間和資源,為了減輕對大規(guī)模數(shù)據(jù)集的依賴,文獻(xiàn)[28]提出一個結(jié)合了預(yù)測與重渲染的CNN網(wǎng)絡(luò)框架,通過2個編碼器到解碼器結(jié)構(gòu)的網(wǎng)絡(luò)分別進(jìn)行本征圖像的預(yù)測和圖像的重渲染,并利用自增強(qiáng)的訓(xùn)練策略讓網(wǎng)絡(luò)在預(yù)測本征圖像的同時生成新的數(shù)據(jù)對,進(jìn)而對整體網(wǎng)絡(luò)進(jìn)行半監(jiān)督訓(xùn)練。文獻(xiàn)[29]提出一個組合2個可以共享參數(shù)的雙流并行CNN架構(gòu),通過輸入2張不同照度的彩色圖像,將訓(xùn)練模式從半監(jiān)督進(jìn)一步改進(jìn)為無監(jiān)督,讓網(wǎng)絡(luò)可以在沒有本征圖像真實(shí)值的情況下完成訓(xùn)練,最終預(yù)測出本征圖像。無監(jiān)督的訓(xùn)練模式不需要真實(shí)值的對應(yīng)標(biāo)簽,因而可以擺脫合成數(shù)據(jù)集對訓(xùn)練的約束,但真實(shí)圖像包含的光照、幾何、材質(zhì)變化更復(fù)雜,對本征圖像的預(yù)測難度更高。文獻(xiàn)[30]將同一場景的多張不同真實(shí)圖像作為輸入,對網(wǎng)絡(luò)進(jìn)行無監(jiān)督訓(xùn)練。其引入法線圖和全局光照代替陰影與反射率進(jìn)行渲染生成重建圖像,計算重建損失,還通過多圖像生成的深度圖與反射率對圖像進(jìn)行交叉投影從而計算交叉投影損失。該方法不僅恢復(fù)出了傳統(tǒng)的本征圖像,還引入了全局光照,因而可以開發(fā)出如重光照一樣的新應(yīng)用。由于該方法引入的光照只包含全局光照,應(yīng)用于戶外圖像時重建誤差較小,但對包含豐富局部光照變化的室內(nèi)圖像有著明顯的限制。為此,文獻(xiàn)[31]在預(yù)測全局光照和法線圖之后對其進(jìn)行渲染生成陰影,再將陰影加入第二個網(wǎng)絡(luò)進(jìn)行局部光照的細(xì)化預(yù)測,最后再將細(xì)化后的法線和光照進(jìn)行重渲染,進(jìn)而生成陰影圖,加強(qiáng)了其在局部范圍內(nèi)的精細(xì)度。文獻(xiàn)[32]則在文獻(xiàn)[31]的基礎(chǔ)上將局部光照和全局光照進(jìn)行集成,并將預(yù)測法線的網(wǎng)絡(luò)特征添加至本征圖像預(yù)測中,在陰影的平滑度和反射率的精細(xì)度上均比文獻(xiàn)[13]和[31]中的算法要好(圖4)。
圖3 本征圖像分解常用數(shù)據(jù)集示例(紅色框選中區(qū)域代表RGB輸入圖像)
上述基于朗伯模型的本征圖像預(yù)測算法忽略了鏡面反射等真實(shí)場景中的復(fù)雜外觀效果,所以其使用范圍十分受限。為此文獻(xiàn)[33]改進(jìn)了本征圖像分解的表達(dá)形式,為其增加了鏡面反射圖,即
其選擇了ShapeNet[34]數(shù)據(jù)庫中具有鏡面反射的特定類別模型,利用Mitsuba[35]渲染器進(jìn)行圖像合成,創(chuàng)建了一個增添了鏡面反射圖的基于非朗伯模型物體的本征圖像數(shù)據(jù)集。在網(wǎng)絡(luò)結(jié)構(gòu)方面,文獻(xiàn)[33]為每個本征圖像提供了共享的編碼器和獨(dú)立的解碼器,但鑒于不同的本征屬性參數(shù)互相關(guān)聯(lián),其在網(wǎng)絡(luò)的后半部分還添加了交織的連接以便不同的解碼器共享參數(shù)。該方法的模型在預(yù)測精度和泛化性上表現(xiàn)良好,但是遇到具有高頻鏡面反射的物體時,預(yù)測出的反射率和陰影圖可能會出現(xiàn)偽影。盡管當(dāng)前基于深度學(xué)習(xí)的方法在定量結(jié)果的比較中表現(xiàn)出優(yōu)異的性能,但基于物理的傳統(tǒng)算法在很大程度上仍然有著重要的意義。文獻(xiàn)[36]基于文獻(xiàn)[22]中的假設(shè),將傳統(tǒng)算法和深度學(xué)習(xí)相結(jié)合,在輸入原始圖像的基礎(chǔ)上添加梯度圖預(yù)測其反射率與陰影的梯度圖,接著將反射率與陰影的梯度圖與原始輸入圖像相結(jié)合對CNN進(jìn)行訓(xùn)練,進(jìn)而預(yù)測出細(xì)節(jié)更豐富的本征圖像。
圖3展示了本征圖像分解常用數(shù)據(jù)集示例,其中IIW數(shù)據(jù)集包含5 000多張真實(shí)RGB圖像和人為相對反射率判斷圖;MPI Sintel數(shù)據(jù)集包含13 000多張合成的RGB圖像和相對應(yīng)的反射率圖、深度圖、光流圖;CGI數(shù)據(jù)集包含25 000多張合成的RGB圖像和對應(yīng)的反射率圖;SAW數(shù)據(jù)集[37]包含了5 200多張陰影變換的3類注釋圖像。綜合來看,數(shù)據(jù)集對本征圖像分解的影響最大,而損失函數(shù)及其他訓(xùn)練策略的添加會不同程度地提升網(wǎng)絡(luò)的性能。表1對上述本征圖像分解的算法在幾方面進(jìn)行了比較,觀察不同數(shù)據(jù)集上的表現(xiàn)來看,網(wǎng)絡(luò)在相同數(shù)據(jù)集下訓(xùn)練和測試時,結(jié)果會比跨數(shù)據(jù)集測試要好很多,進(jìn)一步表明現(xiàn)有數(shù)據(jù)集之間的差異性較大,網(wǎng)絡(luò)不能在某一數(shù)據(jù)集上訓(xùn)練出良好的泛化性,這種情況在跨越合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集時尤為明顯。有些算法在預(yù)測時還會添加其他方法,進(jìn)而增加對網(wǎng)絡(luò)訓(xùn)練的約束,提升網(wǎng)絡(luò)的性能,如文獻(xiàn)[27]中將預(yù)測后的本征圖像輸入?yún)^(qū)域?yàn)V波器進(jìn)行平滑,獲得了表1內(nèi)最好的量化結(jié)果。引入其他信息進(jìn)行交叉預(yù)測、采用自監(jiān)督的訓(xùn)練模式也在一定程度上增加了可用數(shù)據(jù)集的范圍和模型的泛化性。目前的本征圖像假設(shè)較為簡單,考慮非朗伯模型假設(shè)的算法也大多停留在單個物體圖像的預(yù)測中,因而當(dāng)遇到模型假設(shè)外的外觀效果時,往往會預(yù)測出一些錯誤的本征圖像。
圖4 真實(shí)圖像中不同算法的本征圖像分解效果對比,綠色框選中的是圖像放大后的細(xì)節(jié)特征((a)輸入圖像;(b)文獻(xiàn)[13];(c)文獻(xiàn)[31];(d)文獻(xiàn)[32])
表1 本征圖像分解代表性算法比較
注:WHDR和MSE的數(shù)值越低,代表算法性能越好
圖形學(xué)中一般用BRDF[40]對材質(zhì)表面進(jìn)行建模,因此圖像中材質(zhì)的BRDF參數(shù)代表其本征屬性。材質(zhì)外觀越復(fù)雜,表示其BRDF的形式就越繁瑣[41-44],參數(shù)就越多。因此在傳統(tǒng)中,材質(zhì)BRDF參數(shù)的預(yù)測需要借助復(fù)雜的機(jī)械工具完成[45-46],相比之下,基于圖像的材質(zhì)BRDF參數(shù)預(yù)測極大地節(jié)約了成本。在基于圖像的BRDF參數(shù)預(yù)測算法中,基于CNN的算法在輕量性和準(zhǔn)確性權(quán)衡后的綜合性能上往往領(lǐng)先于其他算法[47-48],因此成為當(dāng)下BRDF預(yù)測的研究熱點(diǎn)。
在獲取圖像中材質(zhì)的BRDF參數(shù)時,研究人員通常會將光照加以限制,并將平行成像平面的平面材質(zhì)圖像作為輸入,進(jìn)而簡化預(yù)測難度。文獻(xiàn)[14]在U-net的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上添加了一個為捕獲和傳播全局信息而定制的并行網(wǎng)絡(luò)層,并基于Cook-Torrance模型[42]將BRDF模型參數(shù)設(shè)為法線、漫反射率、粗糙度和鏡面反射率,制作了大型數(shù)據(jù)集(圖5),實(shí)現(xiàn)了對手持閃光燈照明平面的單張材質(zhì)圖片BRDF的預(yù)測。同時提出的全局網(wǎng)絡(luò)層讓每一對信息交換在每個像素之間形成非線性依賴關(guān)系,通過在不同區(qū)域之間重復(fù)傳輸局部信息可以很好地減輕一些局部高頻信息所造成的偽影。文獻(xiàn)[15]則將一張開閃光燈手機(jī)拍攝的平面圖像與反映像素亮度的灰度圖作為輸入,并在BRDF預(yù)測CNN的基礎(chǔ)上加入一個將材質(zhì)分類結(jié)果用作權(quán)重的分類器,對不同材質(zhì)的BRDF預(yù)測進(jìn)行平均,最后再利用動態(tài)條件隨機(jī)場(dynamic conditional randomness field, DCRF)依次對預(yù)測出的本征屬性圖像進(jìn)行優(yōu)化,得到最終的BRDF參數(shù)圖。雖然基于單張平面材質(zhì)圖像的BRDF預(yù)測非常便捷,但是單張圖像不能展現(xiàn)完整材質(zhì)的信息,一些重要的物質(zhì)效果常常會被忽略。因此,文獻(xiàn)[49]利用最大池化層將文獻(xiàn)[14]中的網(wǎng)絡(luò)輸入從單張擴(kuò)展為多張圖像(圖5),利用來自多張不同光照條件和視角圖像中更完整的局部信息和全局信息,使預(yù)測結(jié)果的細(xì)節(jié)更豐富,偽影更少。文獻(xiàn)[16]利用文獻(xiàn)[14]中的網(wǎng)絡(luò)首先將輸入圖像分解為BRDF參數(shù)圖,然后再將其輸入所提出的自動編碼器CNN和重渲染框架進(jìn)行級聯(lián)優(yōu)化,與以往的直接優(yōu)化方法不同,該方法在本質(zhì)上優(yōu)化了自動編碼器中關(guān)于參數(shù)的潛在向量,相較于文獻(xiàn)[14]和[15],在BRDF輸出的精細(xì)度和重建質(zhì)量上都有了明顯地提升。具體來說,文獻(xiàn)[15]相對文獻(xiàn)[14]法線預(yù)測更加細(xì)致,但粗糙度和鏡面反射圖的預(yù)測會出現(xiàn)錯誤,而文獻(xiàn)[16]相對上述2種方法,預(yù)測出的各個分量都有所提升;文獻(xiàn)[49]相較于文獻(xiàn)[14]和[15]預(yù)測結(jié)果的局部細(xì)節(jié)更清晰,偽影更少(圖6)。
圖5 文獻(xiàn)[14]中的網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)集(左)及文獻(xiàn)[15]和[16]、文獻(xiàn)[49]中改進(jìn)后的多輸入網(wǎng)絡(luò)結(jié)構(gòu)(右)
上述方法多以高質(zhì)量、大規(guī)模的數(shù)據(jù)集為基礎(chǔ),但是生成帶有對應(yīng)BRDF參數(shù)標(biāo)注的數(shù)據(jù)集往往會耗費(fèi)大量的資源與時間。為此文獻(xiàn)[17]制作了包含小規(guī)模的帶有對應(yīng)BRDF參數(shù)圖標(biāo)簽和大規(guī)模只包含材質(zhì)照片的數(shù)據(jù)集,并提出“自增強(qiáng)”的弱監(jiān)督訓(xùn)練模式,讓網(wǎng)絡(luò)可以在訓(xùn)練過程中生成數(shù)據(jù)集以減少對標(biāo)記數(shù)據(jù)集規(guī)模依賴的同時預(yù)測出高精度的BRDF參數(shù)圖。但是自增強(qiáng)策略需要少量的標(biāo)記數(shù)據(jù)為網(wǎng)絡(luò)提供一個良好的潛在空間,且標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)的分布也對網(wǎng)絡(luò)性能產(chǎn)生了巨大影響,所以文獻(xiàn)[50]在文獻(xiàn)[17]的基礎(chǔ)上,首先利用神經(jīng)紋理合成算法[51]和隨機(jī)生成的方式從未標(biāo)記圖像中構(gòu)造BRDF參數(shù)圖,然后再用自增強(qiáng)策略對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。該方法在不需要標(biāo)記數(shù)據(jù)集的同時,其網(wǎng)絡(luò)性能方面也超越了文獻(xiàn)[17]中的“自增強(qiáng)”算法。上述方法所預(yù)測的平面材質(zhì)外觀并不會隨視角產(chǎn)生變化,但現(xiàn)實(shí)中的許多材質(zhì)表面卻不是這樣(如金屬拉絲、天鵝絨等)。為此文獻(xiàn)[12]制作了一個各向異性的材質(zhì)平面數(shù)據(jù)集(圖8),并將包含30°和90°拍攝的2組做了單應(yīng)化處理的圖像輸入一個組合嵌套型CNN,恢復(fù)出了包含各向異性性質(zhì)、折射率以及反射多色性等新的本征屬性。
圖6 文獻(xiàn)[14–16]和文獻(xiàn)[49]對相同數(shù)據(jù)的預(yù)測結(jié)果
基于平面材質(zhì)的BRDF預(yù)測簡化了渲染方程中光照與幾何結(jié)構(gòu)的復(fù)雜積分,也降低了預(yù)測難度,而預(yù)測圖像中三維物體的BRDF更具有挑戰(zhàn)性。文獻(xiàn)[11]設(shè)計了2個輕量級的網(wǎng)絡(luò)可以從多張場景圖和深度圖的輸入中獲取場景中三維物體的7參數(shù)BRDF。文獻(xiàn)[52]利用級聯(lián)式的CNN依次訓(xùn)練其不同的BRDF參數(shù),最終可以從包含三維物體的單張圖像中預(yù)測出基于非朗伯模型的BRDF參數(shù),且網(wǎng)絡(luò)模型同樣可以實(shí)時對場景中的物體材質(zhì)進(jìn)行提取,但當(dāng)遇到復(fù)雜材質(zhì)和彩色照明場景時,會出現(xiàn)錯誤。文獻(xiàn)[53]提出了組合2個CNN的無監(jiān)督網(wǎng)絡(luò)框架,可以從點(diǎn)光源照亮拍攝的多張二維圖像中預(yù)測出三維物體的表面法線和其BRDF。該方法針對特定場景特定訓(xùn)練,不需要數(shù)據(jù)集的支持,降低了數(shù)據(jù)生成的成本,但需要為每個不同的對象訓(xùn)練不同的網(wǎng)絡(luò),因此在實(shí)時性上有著很大的限制。為了計算出更精確的重建損失,文獻(xiàn)[54]提出了一個模擬全局光照渲染的CNN和一個用于預(yù)測環(huán)境光照明的CNN,通過二者組合合成最終的重建圖像。作者采用級聯(lián)式的網(wǎng)絡(luò)架構(gòu),為次級網(wǎng)絡(luò)輸入來自上一階段輸出的圖像、BRDF、光照預(yù)測及渲染損失,通過依次訓(xùn)練級聯(lián)網(wǎng)絡(luò)恢復(fù)單張RGB圖像中三維物體的BRDF參數(shù)和法線。基于圖像的BRDF參數(shù)預(yù)測意義在于可以便捷地重建出圖像中物體的三維特征,但良好的預(yù)測結(jié)果往往伴隨著大型的網(wǎng)絡(luò)和復(fù)雜的輸入,因此如何將其融入應(yīng)用是研究人員的一大難題。文獻(xiàn)[55]利用多個輕量級的網(wǎng)絡(luò)以級聯(lián)的方式在合成數(shù)據(jù)集上訓(xùn)練,通過輸入一張閃光燈照亮和一張未照亮的圖像并引入融合卷積層合并2張圖像中的信息,完成對其BRDF、光照、深度及法線的粗預(yù)測。在粗預(yù)測后作者將粗預(yù)測后的重建圖像與原始圖像的差值和粗預(yù)測結(jié)果共同輸入第二級精煉網(wǎng)絡(luò)以細(xì)化預(yù)測結(jié)果,所采用的任務(wù)分離和階段式預(yù)測方法不但可以獲得更好的結(jié)果,還能更便捷地部署到應(yīng)用中,有著很強(qiáng)的實(shí)用性。
BRDF參數(shù)預(yù)測難度隨預(yù)測目標(biāo)的復(fù)雜度逐步上升,上述方法預(yù)測出的最復(fù)雜場景也僅包含一個三維物體,為此文獻(xiàn)[56]制作了一個包含BRDF、光照、法線和深度的大型場景數(shù)據(jù)集(圖7),以完成多任務(wù)聯(lián)合預(yù)測。該網(wǎng)絡(luò)采用多層級聯(lián)的方式,通過多網(wǎng)絡(luò)的逐步預(yù)測與精煉最終得到了所需的預(yù)測圖像。這一工作相較之前基于場景的本征圖像預(yù)測更細(xì)致,但較之前基于單個物體的BRDF預(yù)測更復(fù)雜,可以獲得更好的效果,同時為以后的研究工作提供了方向。
BRDF參數(shù)預(yù)測的不同主要是與數(shù)據(jù)集有關(guān),圖7展示了BRDF參數(shù)預(yù)測中代表性的數(shù)據(jù)集,從中可以看出不同數(shù)據(jù)集有不同的側(cè)重點(diǎn),材質(zhì)的微觀信息越復(fù)雜,其幾何信息就越簡單。但是總體來看,數(shù)據(jù)集的制作在同時向微觀和幾何信息復(fù)雜度的方向發(fā)展。表2比較了BRDF參數(shù)預(yù)測的代表性算法,整體來看數(shù)據(jù)集決定了網(wǎng)絡(luò)的預(yù)測結(jié)果,當(dāng)缺乏數(shù)據(jù)集時可以利用無監(jiān)督或自監(jiān)督策略訓(xùn)練網(wǎng)絡(luò)。許多算法通過引入多張輸入圖像為網(wǎng)絡(luò)提供更完整的外觀信息,進(jìn)而改善預(yù)測結(jié)果。許多算法還通過引入幾何信息和光照信息以及聯(lián)合交叉預(yù)測的方式提升預(yù)測結(jié)果。雖然利用CNN預(yù)測BRDF參數(shù)有了一定進(jìn)展,但現(xiàn)有的算法還存在一些共通的問題有待解決:在遇到某些特殊效果或是高頻信息時,圖像中材質(zhì)BRDF參數(shù)的預(yù)測會出現(xiàn)較大錯誤(如圖6右圖反射率預(yù)測出現(xiàn)的偽影),同時基于CNN的方法預(yù)測出的大多數(shù)BRDF參數(shù)形式也較為簡單,對真實(shí)材質(zhì)的重建效果表現(xiàn)欠佳。相較于平面材質(zhì)的BRDF預(yù)測,獲取圖像中三維物體和場景的BRDF參數(shù)更為困難,因此預(yù)測得到的BRDF模型更簡單,精度也略差。
圖7 不同類別BRDF參數(shù)預(yù)測數(shù)據(jù)集示例,其中紅色框內(nèi)是數(shù)據(jù)集的輸入RGB圖像,緊隨其后的是對應(yīng)的BRDF參數(shù)標(biāo)簽
表2 BRDF參數(shù)預(yù)測代表算法比較
作為圖像本征屬性的一部分,光照的位置、方向、強(qiáng)度、數(shù)目和色彩等因素都極大地影響了圖像的外觀。分離并替換原始光照可以為圖像帶來三維化的效果,在AR中加入光照渲染后的虛擬物體也會更加真實(shí),因此對光照信息的預(yù)測一直以來都是研究人員非常重視的問題。
已有的光照預(yù)測算法大多依賴于幾何線索[57]的提取或是圖像先驗(yàn)信息[58-59]的輸入,隨著深度學(xué)習(xí)在圖像本征屬性分解上的應(yīng)用,研究人員對光照相關(guān)信息進(jìn)行了不同程度的解耦與預(yù)測。文獻(xiàn)[60]首先利用低動態(tài)范圍(low dynamic range, LDR)數(shù)據(jù)集對CNN進(jìn)行訓(xùn)練完成對光照方向的預(yù)測,然后利用高動態(tài)范圍(high dynamic range, HDR)數(shù)據(jù)集對之前預(yù)訓(xùn)練的CNN進(jìn)行遷移學(xué)習(xí)完成對光照強(qiáng)度的預(yù)測,從而預(yù)測出室內(nèi)環(huán)境光照的HDR圖像。而文獻(xiàn)[61]則利用CNN完成了對戶外HDR環(huán)境光照圖像的預(yù)測。并基于戶外光照圖的參數(shù)假設(shè),預(yù)測出了輸入圖像中的太陽位置參數(shù)、大氣條件參數(shù)和相機(jī)參數(shù),進(jìn)而利用預(yù)測參數(shù)合成相應(yīng)的HDR環(huán)境光照圖。如圖8所示,文獻(xiàn)[60]和[61]都利用恢復(fù)出的HDR環(huán)境光照圖向二維圖像插入虛擬物體,可以看出加入光照渲染后的虛擬物體更加真實(shí),提升了AR應(yīng)用的效果。相較于復(fù)雜場景圖像,只包含單個物體的圖像所擁有的光照信息較少,因此其預(yù)測難度更大。文獻(xiàn)[62]首先只利用環(huán)境光照圖訓(xùn)練一個可以將環(huán)境光照圖壓縮成多維潛在向量空間的“編碼器到潛在空間再到解碼器”結(jié)構(gòu)的CNN,再將該潛在空間層和解碼器層與新的編碼器層相連,輸入環(huán)境光照圖渲染后的單個物體圖和其法線圖,通過添加原始環(huán)境光照圖和場景圖的潛在空間向量的誤差損失,對新的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使最后的網(wǎng)絡(luò)模型預(yù)測出單個物體圖像中的室內(nèi)環(huán)境光照圖。文獻(xiàn)[63]對輸入圖像的場景不做室內(nèi)或戶外的限制,作者采用3個級聯(lián)的CNN,其中第一個網(wǎng)絡(luò)首先對輸入圖像進(jìn)行反射率顏色的預(yù)測;然后將預(yù)測結(jié)果和原始圖像輸入第二個網(wǎng)絡(luò)進(jìn)行光照陰影圖的預(yù)測,與以往不同的是其預(yù)測了2個不同光照形成的陰影圖,最后將陰影圖和原始圖像輸入第三個CNN,使原始圖像中的光照分離,形成2張在不同光照作用下的場景圖,其實(shí)現(xiàn)了對原始輸入圖像光源位置的預(yù)測與解耦。文獻(xiàn)[64]提出了一種基于CNN的人像重照明系統(tǒng)。人的皮膚具有的散射等復(fù)雜物理性質(zhì)會導(dǎo)致合成數(shù)據(jù)與真實(shí)數(shù)據(jù)過于偏差,因此特為此任務(wù)設(shè)計了專用的采集設(shè)備并制作了真實(shí)的數(shù)據(jù)集。其所設(shè)計的CNN不僅可以預(yù)測出場景的光照圖,還能實(shí)現(xiàn)人像的重照明,但是當(dāng)輸入圖像包含硬陰影、尖銳的鏡面反射或飽和像素時,預(yù)測結(jié)果仍然有著較大錯誤。
在對光照信息進(jìn)行預(yù)測的同時,許多算法也常常會將其他本征屬性一并預(yù)測出來。文獻(xiàn)[65]利用CNN不僅將圖像按照光照反射方向分為上下左右4個部分,還將單張圖像的漫反射率、陰影、輻照度和鏡面高光一并分解出來。文獻(xiàn)[66]則在得到圖像中材質(zhì)反射貼圖[67]的前提下,利用2個獨(dú)立的CNN從反射貼圖中預(yù)測出7個基于馮模型的材質(zhì)BRDF參數(shù)和分辨率為原始圖像一半的場景光照圖。通過改進(jìn)文獻(xiàn)[66]中的方案,文獻(xiàn)[68]又利用2個CNN,直接和間接地獲取了輸入圖像中材質(zhì)的反射貼圖,再利用文獻(xiàn)[66]中的CNN結(jié)構(gòu)預(yù)測出了圖像的場景光照信息和材質(zhì)信息。文獻(xiàn)[69]為了關(guān)注圖像中一些常被忽略的復(fù)雜光照效應(yīng),通過引入直接渲染器和一個基于學(xué)習(xí)的“復(fù)雜光照殘余外觀”渲染器對圖像進(jìn)行重建進(jìn)而計算重建損失,在用合成數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行初始化預(yù)訓(xùn)練后,引入真實(shí)數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行自增強(qiáng)訓(xùn)練,最后預(yù)測出場景光照圖的同時,還預(yù)測出了更精細(xì)的場景的法線和反射率圖。文獻(xiàn)[70]將傳統(tǒng)的蒙特卡洛渲染器可微分化,并將其嵌入到CNN后端,通過訓(xùn)練的方式逆向求解場景的光照信息和BRDF參數(shù)。該方法可以正確地估計出場景中的發(fā)光器,但當(dāng)場景中不存在發(fā)光器時,可能會出現(xiàn)錯誤的預(yù)測結(jié)果。
圖8 虛擬物體插入((a)文獻(xiàn)[60]中的虛擬物體插入效果;(b)文獻(xiàn)[61]中的虛擬物體插入效果)
光照信息除了被編碼成光照圖以外,還可以其他的形式表示。文獻(xiàn)[30]利用9參數(shù)的球諧函數(shù)表示戶外光照信息,通過CNN將其參數(shù)和本征圖像一同恢復(fù)出來。但其采用的光照模型只能較好地表示全局光照,對于豐富的局部光照表現(xiàn)欠佳。為此,文獻(xiàn)[31]在表示全局光照的基礎(chǔ)上添加局部光照的殘余項(xiàng),通過階段性的預(yù)測將全局光照信息和局部光照信息通過級聯(lián)式CNN依次恢復(fù)出來,得到了更細(xì)致的光照信息。雖然文獻(xiàn)[31]預(yù)測出的光照信息非常細(xì)致,但包含了大量的參數(shù),為此,文獻(xiàn)[32]將全局光照和局部光照進(jìn)行集成,以一個照明矢量圖的形式編碼豐富的室內(nèi)光照信息,以預(yù)測出本征圖像為最終結(jié)果,連帶地將光照矢量圖預(yù)測出來,以更少的參數(shù)表示了更細(xì)致的光照。文獻(xiàn)[56]利用各向同性球面高斯函數(shù),以較少的參數(shù)近似了所有頻率的照明。其用2個分支的網(wǎng)絡(luò)分別預(yù)測圖像的空間變化雙向反射分布函數(shù)(spatially-varying bi-directional reflectance distribution function, SVBRDF)參數(shù)和光照信息,并將預(yù)測出的光照信息與SVBRDF進(jìn)行重渲染輸入下一相同的級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行進(jìn)一步的精煉,進(jìn)而逐級恢復(fù)出場景的光照信息和SVBRDF。
圖9展示了不同算法用來表示光照模式的數(shù)據(jù)集,可以看出隨著表示形式趨于復(fù)雜,包含的光照細(xì)節(jié)在增加。表3比較了光照相關(guān)信息預(yù)測的代表性算法,可以看出在對不同場景進(jìn)行光照預(yù)測時,因?yàn)閳鼍暗奶厥庑?,往往要對光照進(jìn)行不同形式的編碼,以參數(shù)最少、表達(dá)效果最好的原則設(shè)計出最適合該場景的光照模式表示,如文獻(xiàn)[61]利用天空光模型中的幾個參數(shù)就可以預(yù)測出良好的戶外光照信息,實(shí)現(xiàn)虛擬物體插入的重渲染應(yīng)用。整體來看,利用CNN直接恢復(fù)出場景光照信息往往比較困難,其應(yīng)用范圍也較窄,更多的工作是將光照作為目標(biāo)信息之一,連帶預(yù)測出其他的目標(biāo)屬性。從許多算法的結(jié)果可知,聯(lián)合預(yù)測圖像的其他本征屬性可以在幾個預(yù)測目標(biāo)之間相互促進(jìn),同時提高光照預(yù)測和其他本征屬性預(yù)測的效果。但對光照相關(guān)信息預(yù)測仍然存在一些現(xiàn)實(shí)問題,比如現(xiàn)實(shí)中戶外光照和室內(nèi)光照本身存在較大差異,因而一般算法也難以同時在室內(nèi)和戶外光照條件下恢復(fù)出效果一樣的光照信息。
圖9 不同光照表示數(shù)據(jù)集示例,其中紅色框選中的是輸入圖像,未選中的是對應(yīng)光照信息標(biāo)簽
表3 光照相關(guān)信息預(yù)測代表算法比較
在基于深度學(xué)習(xí)的圖像本征屬性預(yù)測任務(wù)中,數(shù)據(jù)集、網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)的設(shè)計是每個算法的核心。鑒于預(yù)測對象的不同,許多工作都為各自的任務(wù)開發(fā)出了獨(dú)有的數(shù)據(jù)集,且數(shù)據(jù)集的數(shù)目與質(zhì)量往往決定了模型的魯棒性和泛化性能。在網(wǎng)絡(luò)結(jié)構(gòu)方面,對于圖像到圖像的任務(wù),最常采用以編碼器到解碼器結(jié)構(gòu)為基礎(chǔ)的變體CNN,為了緩解單個網(wǎng)絡(luò)的預(yù)測壓力,通常還會采用多網(wǎng)絡(luò)并行或級聯(lián)的方式增強(qiáng)整體算法的預(yù)測能力;而對于基于數(shù)字參數(shù)的本征屬性預(yù)測,網(wǎng)絡(luò)通常采用相似于分類網(wǎng)絡(luò)的下采樣結(jié)構(gòu)。在損失函數(shù)方面,大多數(shù)工作都將獨(dú)立參數(shù)的誤差與預(yù)測參數(shù)重渲染后的重建誤差相結(jié)合,根據(jù)數(shù)據(jù)集類型和所要預(yù)測對象性質(zhì)的不同,會添加額外的損失來約束網(wǎng)絡(luò)訓(xùn)練,使預(yù)測結(jié)果在細(xì)節(jié)上更進(jìn)一步。總之,本征屬性預(yù)測在任務(wù)上不是獨(dú)立的,越來越多的工作將更多的本征屬性加入到網(wǎng)絡(luò)預(yù)測中,原因在于各個本征屬性之間有著不可分割的關(guān)系,通過逐級或聯(lián)合預(yù)測本征屬性相當(dāng)于為每個單獨(dú)的預(yù)測任務(wù)額外提供多個先驗(yàn)知識,這些先驗(yàn)知識不僅可以降低網(wǎng)絡(luò)預(yù)測難度,還可以提升網(wǎng)絡(luò)預(yù)測效果。在實(shí)際中,某些本征屬性可以通過物理采集等方法獲得,但有些卻不能,因此許多工作在訓(xùn)練時通過采用多個數(shù)據(jù)集聯(lián)合、多個訓(xùn)練模式共同訓(xùn)練的策略來提高網(wǎng)絡(luò)在真實(shí)圖像中的表現(xiàn)和不同類別圖像任務(wù)中的泛化能力。
從近年圖像本征屬性預(yù)測任務(wù)的研究狀況來看,所要預(yù)測的圖像復(fù)雜度逐漸增加,預(yù)測出的本征屬性參數(shù)在數(shù)目增多的同時,預(yù)測精度方面也有所提高。即使這樣,依然存在如下問題:數(shù)目和類型太少的訓(xùn)練的數(shù)據(jù)集會導(dǎo)致網(wǎng)絡(luò)的泛化性能變差,當(dāng)網(wǎng)絡(luò)遇到數(shù)據(jù)集之外的圖像時,結(jié)果表現(xiàn)往往不佳;若輸入圖像中存在如鏡面高光等高頻信息時,預(yù)測出的本征屬性圖往往會出現(xiàn)偽影;若圖像中存在一些復(fù)雜的外觀效果時,預(yù)測結(jié)果也會出現(xiàn)錯誤的表示;大多數(shù)任務(wù)在開始前都需要有一定的約束,如圖像采集步驟往往需要在特定條件下完成;分解質(zhì)量的增加意味著模型復(fù)雜程度也將增加,復(fù)雜模型的大小和計算時間限制了其實(shí)踐任務(wù)中的可行性。為了解決上述問題,未來的工作中,可以制作規(guī)模更大、質(zhì)量更高的數(shù)據(jù)集用來解決過擬合問題,也可以將更多不同類型的數(shù)據(jù)集加入訓(xùn)練,提升模型的泛化能力??梢酝ㄟ^輸入更多圖像以展現(xiàn)更完整的圖像場景信息,進(jìn)而增加網(wǎng)絡(luò)對圖像場景的理解力,減少偽影等錯誤信息出現(xiàn)的概率。為了降低網(wǎng)絡(luò)對大規(guī)模合成數(shù)據(jù)集的依賴和真實(shí)數(shù)據(jù)集的缺乏,可以利用半監(jiān)督、無監(jiān)督等策略讓網(wǎng)絡(luò)在沒有圖像對應(yīng)目標(biāo)標(biāo)簽的情況下進(jìn)行訓(xùn)練,提高網(wǎng)絡(luò)在真實(shí)數(shù)據(jù)上的表現(xiàn)。為了讓算法更好地應(yīng)用到實(shí)踐中去,必須對模型進(jìn)行“瘦身”,在輕量性和準(zhǔn)確性上做權(quán)衡,可以通過增加網(wǎng)絡(luò)個數(shù)降低單個網(wǎng)絡(luò)大小,將整體網(wǎng)絡(luò)預(yù)測分解成子網(wǎng)絡(luò)預(yù)測,進(jìn)而提升網(wǎng)絡(luò)模型的可部署性。也可以依靠5G的快速傳輸能力,將網(wǎng)絡(luò)計算加入云平臺,從而減輕對網(wǎng)絡(luò)模型輕量化的需求[71-72]。在設(shè)計損失函數(shù)時,要謹(jǐn)慎選擇各個獨(dú)立參數(shù)的權(quán)重,要依據(jù)數(shù)據(jù)集和網(wǎng)絡(luò)結(jié)構(gòu)的不同為每個任務(wù)設(shè)置最合適的損失。傳統(tǒng)的基于濾波器、統(tǒng)計特征等圖像處理方法雖然不能直接解決本征圖像預(yù)測問題,但通過將傳統(tǒng)算法作為指導(dǎo)和約束引入CNN預(yù)測,可以大大降低網(wǎng)絡(luò)訓(xùn)練的時間,提升網(wǎng)絡(luò)的預(yù)測效果。最后在預(yù)測結(jié)果的優(yōu)化方面,在使用如DCRF等傳統(tǒng)數(shù)學(xué)模型的同時,還可考慮用CNN對預(yù)測結(jié)果的細(xì)節(jié)[73]進(jìn)行優(yōu)化。
雖然深度學(xué)習(xí)在圖像本征屬性預(yù)測中已經(jīng)獲得了廣泛的應(yīng)用,但在下述特殊的圖像外觀領(lǐng)域仍有待開拓:①具有復(fù)雜物理效應(yīng)的表面外觀圖像上,如具有強(qiáng)衍射效應(yīng)的材質(zhì)表面外觀圖像、多層光傳輸?shù)牟馁|(zhì)的表面外觀圖像等;②具有復(fù)雜光照效果的場景圖像上,如彩色光照明的場景圖像、具有強(qiáng)烈折射衍射等效應(yīng)的場景圖像等;③帶有高頻信息外觀的圖像上,如具有尖銳邊緣信息的圖像和過強(qiáng)鏡面反射外觀的圖像等。在未來對具有這些特殊外觀圖像進(jìn)行本征屬性數(shù)據(jù)集的制作、新訓(xùn)練策略和網(wǎng)絡(luò)結(jié)構(gòu)的引入、更合理有效的損失函數(shù)及約束條件的設(shè)置有望成為基于深度學(xué)習(xí)對本征屬性預(yù)測的新研究趨勢和熱點(diǎn)。
[1] GUARNERA D, GUARNERA G C, GHOSH A, et al. BRDF representation and acquisition[C]//The 37th Annual Conference of the European Association for Computer Graphics : State of the Art Reports. Goslar: Eurographics Association, 2016: 625-650.
[2] 張志林, 苗蘭芳. 基于深度圖像的三維場景重建系統(tǒng)[J]. 圖學(xué)學(xué)報, 2018, 39(6): 1123-1129.
ZHANG Z L, MIAO L F. 3D scene reconstruction system based on depth image[J]. Journal of Graphics, 2018, 39(6): 1123-1129 (in Chinese).
[3] BARRON J T, MALIK J. Shape, illumination, and reflectance from shading[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37(8): 1670-1687.
[4] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[5] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-08-02]. https://arxiv.org/abs/1409.1556.
[6] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press 2016: 770-778.
[7] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Heidelberg: Springer, 2015: 234-241.
[8] EIGEN D, FERGUS R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2650-2658.
[9] 畢天騰, 劉越, 翁冬冬, 等. 基于監(jiān)督學(xué)習(xí)的單幅圖像深度估計綜述[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2018, 30(8): 1383-1393.
BI T T, LIU Y, WENG D D, et al. Survey on supervised learning based depth estimation from a single image[J]. Journal of Computer-Aided Design and Computer Graphics. 2018, 30(8): 1383-1393 (in Chinese).
[10] LAINA I, RUPPRECHT C, BELAGIANNIS V, et al. Deeper depth prediction with fully convolutional residual networks[C]//2016 4th International Conference on 3D Vision (3DV). New York: IEEE Press, 2016: 239-248.
[11] KIM K, GU J W, TYREE S, et al. A lightweight approach for on-the-fly reflectance estimation[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 20-28.
[12] VIDAURRE R, CASAS D, GARCES E, et al. BRDF estimation of complex materials with nested learning[C]//2019 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2019: 1347-1356.
[13] LI Z Q, SNAVELY N. Cgintrinsics: better intrinsic image decomposition through physically-based rendering[C]//2018 European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 371-387.
[14] DESCHAINTRE V, AITTALA M, DURAND F, et al. Single-image SVBRDF capture with a rendering-aware deep network[J]. ACM Transactions on Graphics, 2018, 37(4): 1-15.
[15] LI Z Q, SUNKAVALLI K, CHANDRAKER M. Materials for masses: SVBRDF acquisition with a single mobile phone image[C]//2018 European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 72-87.
[16] GAO D, LI X, DONG Y, et al. Deep inverse rendering for high-resolution SVBRDF estimation from an arbitrary number of images[J]. ACM Transactions on Graphics., 2019, 38(4): 1-15.
[17] LI X, DONG Y, PEERS P, et al. Modeling surface appearance from a single photograph using self-augmented convolutional neural networks[J]. ACM Transactions on Graphics, 2017, 36(4): 1-11.
[18] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from rgbd images[C]//2012 European Conference on Computer Vision. Heidelberg: Springer, 2012: 746-760.
[19] BELL S, BALA K, SNAVELY N. Intrinsic images in the wild[J]. ACM Transactions on Graphics, 2014, 33(4): 1-12.
[20] GROSSE R, JOHNSON M K, ADELSON E H, et al. Ground truth dataset and baseline evaluations for intrinsic image algorithms[C]//2009 IEEE 12th International Conference on Computer Vision. New York: IEEE Press, 2009: 2335-2342.
[21] RICHTER S R, VINEET V, ROTH S, et al. Playing for data: ground truth from computer games[C]//2016 European Conference on Computer Vision. Heidelberg: Springer, 2016: 102-118.
[22] LAND E H, MCCANN J J. Lightness and retinex theory[J]. Journal of the Optical Society of America, 1971, 61(1): 1-11.
[23] BARROW H, TENENBAUM J, HANSON A, et al. Recovering intrinsic scene characteristics[J]. Computer Vision Systems 1978, 2(3-26): 2.
[24] NARIHIRA T, MAIRE M, YU S X. Direct intrinsics: learning albedo-shading decomposition by convolutional regression[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2992-2992.
[25] LEE K J, ZHAO Q, TONG X, et al. Estimation of intrinsic image sequences from image+ depth video[C]//2012 European Conference on Computer Vision. Heidelberg: Springer, 2012: 327-340.
[26] CHEN Q F, KOLTUN V. A simple model for intrinsic image decomposition with depth cues[C]//2013 IEEE International Conference on Computer Vision. New York: IEEE Press, 2013: 241-248.
[27] FAN Q N, YANG J L, HUA G, et al. Revisiting deep intrinsic image decompositions[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8944-8952.
[28] JANNER M, WU J J, KULKARNI T D, et al. Self-supervised intrinsic image decomposition[EB/OL]. [2020-09-08]. https://arxiv.org/abs/1711.03678.
[29] MA W C, CHU H, ZHOU B L, et al. Single image intrinsic decomposition without a single intrinsic image[C]//2018 European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 201-217.
[30] YU Y, SMITH W A P. InverseRenderNet: learning single image inverse rendering[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3155-3164.
[31] ZHOU H, YU X, JACOBS D W. GLoSH: global-local spherical harmonics for intrinsic image decomposition[C]// 2019 IEEE International Conference on Computer Vision. New York: IEEE Press, 2019: 7820-7829.
[32] LUO J D, HUANG Z Y, LI Y J, et al. NIID-Net: adapting surface normal knowledge for intrinsic image decomposition in indoor scenes[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(12): 3434-3445.
[33] SHI J, DONG Y, SU H, et al. Learning non-lambertian object intrinsics across shapenet categories[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1685-1694.
[34] CHANG A X, FUNKHOUSER T, GUIBAS L, et al. Shapenet: an information-rich 3D model repository[EB/OL]. [2020-05-27]. https://arxiv.org/abs/1512.03012.
[35] JAKOB W. Mitsuba [EB/OL]. [2020-05-27]. https://www. mitsuba-renderer. org.
[36] BASLAMISLI A S, LE H A, GEVERS T. CNN based learning using reflection and retinex models for intrinsic image decomposition[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6674-6683.
[37] KOVACS B, BELL S, SNAVELY N, et al. Shading annotations in the wild[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6998-7007.
[38] LI Z Q, SNAVELY N. Megadepth: learning single-view depth prediction from internet photos[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 2041-2050.
[39] VASILJEVIC I, KOLKIN N, ZHANG S Y, et al. DIODE: a dense indoor and outdoor Depth dataset[EB/OL]. [2020-07-19]. https://arxiv.org/abs/1908.00463.
[40] NICODEMUS F E, RICHMOND J C, HSIA J J, et al. Geometrical considerations and nomenclature for reflectance[J]. NBS Monograph, 1992, 160: 4.
[41] PHONG B T. Illumination for computer generated pictures[J]. Communications of the ACM, 1975, 18(6): 311-317.
[42] COOK R L, TORRANCAE K E. A reflectance model for computer graphics[J]. ACM Transactions on Graphics, 1982, 1(1): 7-24.
[43] WARD G J. Measuring and modeling anisotropic reflection[C]//The 19th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 1992: 265-272.
[44] ASHIKMIN M, PREMO?E S, SHIRLEY P. A microfacet-based BRDF generator[C]//The 27th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2000: 65-74.
[45] GHOSH A, ACHUTHA S, HEIDRICH W, et al. BRDF acquisition with basis illumination[C]//2007 IEEE 11th International Conference on Computer Vision. NewYork: IEEE Press, 2007: 1-8.
[46] BEN-EZRA M, WANF J P, WILBURN B, et al. An LED-only BRDF measurement device[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Presss, 2008: 1-8.
[47] DUPUY J, HEITZ E, IEHI J C, et al. Extracting microfacet-based BRDF parameters from arbitrary materials with power iterations[J]. Computer Graphics Forum, 2015, 34(4): 21-30.
[48] AITTALA M, WEYRICH T, LEHTINEN J. Two-shot SVBRDF capture for stationary materials[J]. ACM Transactions on Graphics, 2015, 34(4): 110:1-110:13.
[49] DESCHAINTRE V, AITTALA M, DURAND F, et al. Flexible SVBRDF capture with a multi‐image deep network[J]. Computer Graphics Forum, 2019, 38(4): 1-13.
[50] YE W J, LI X, DONG Y, et al. Single image surface appearance modeling with self‐augmented cnns and inexact supervision[J]. Computer Graphics Forum, 2018, 37(7): 201-211.
[51] AITTALA M, AILA T, LEHTINEN J. Reflectance modeling by neural texture synthesis[J]. ACM Transactions on Graphics, 2016, 35(4): 1-13.
[52] MEKA A, MAXIMOV M, ZOLLHOEFER M, et al. Lime: live intrinsic material estimation[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6315-6324.
[53] TANIAI T, MAEHARA T. Neural inverse rendering for general reflectance photometric stereo[EB/OL]. [2020-06-11]. https://arxiv.org/abs/1802.10328v2.
[54] LI Z Q, XU Z X, RAMAMOORTHI R, et al. Learning to reconstruct shape and spatially-varying reflectance from a single image[J]. ACM Transactions on Graphics, 2018, 37(6): 1-11.
[55] BOSS M, JAMPANI V, KIM K, et al. Two-shot spatially-varying BRDF and shape estimation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3982-3991.
[56] LI Z Q, SHAFIEI M, RAMAMOORTHI R, et al. Inverse rendering for complex indoor scenes: shape, spatially-varying lighting and SVBRDF from a single image[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2475-2484.
[57] LALONDE J F, EFROS A A, NARASIMHAN S G. Estimating natural illumination from a single outdoor image[C]//2009 IEEE 12th International Conference on Computer Vision. New York: IEEE Press, 2009: 183-190.
[58] LOMBARDI S, NISHINO K. Reflectance and illumination recovery in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(1): 129-141.
[59] LALONDE J F, MATTHEWS I. Lighting estimation in outdoor image collections[C]//2014 2nd International Conference on 3D Vision. New York: IEEE Press, 2014: 131-138.
[60] GARDNER M A, SUNKAVALLI K, YUMER E, et al. Learning to predict indoor illumination from a single image[EB/OL]. [2020-08-10]. https://arxiv.org/abs/1704. 00090v2.
[61] HOLD-GEOFFROY Y, SUNKAVALLI K, HADAP S, et al. Deep outdoor illumination estimation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 7312-7321.
[62] WEBER H, PRéVOST D, LALONDE J F. Learning to estimate indoor lighting from 3D objects[C]//2018 International Conference on 3D Vision (3DV). New York: IEEE Press, 2018: 199-207.
[63] HUI Z, CHAKRABARTI A, SUNKAVALLI K, et al. Learning to separate multiple illuminants in a single image[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3780-3789.
[64] SUN T C, BARRON J T, TSAI Y T, et al. Single image portrait relighting[J]. ACM Transactions on Graphics, 2019, 38(4): 79:1-79:12.
[65] INNAMORATI C, RITSCHEL T, WEVRICH T, et al. Decomposing single images for layered photo retouching[J]. Computer Graphics Forum. 2017, 36(4): 15-25.
[66] GEORGOULIS S, REMATAS K, RITSCHEL T, et al. Delight-net: decomposing reflectance maps into specular materials and natural illumination[EB/OL]. [2020-04-29]. https://arxiv.org/abs/1603.08240v1.
[67] HORN B K P, SJOBERG R W. Calculating the reflectance map[J]. Applied Optics, 1979, 18(11): 1770-1779.
[68] GEORGOULIS S, REMATAS K, RITSCHEL T, et al. Reflectance and natural illumination from single-material specular objects using deep learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(8): 1932-1947.
[69] SENGUPTA S, GU J W, KIM K, et al. Neural inverse rendering of an indoor scene from a single image[C]//2019 IEEE International Conference on Computer Vision. New York: IEEE Press, 2019: 8598-8607.
[70] AZINOVIC D, LI T M, KAPLANVAN A, et al. Inverse path tracing for joint material and lighting estimation[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 2447-2456.
[71] 趙子忠, 張坤. 傳媒變革: 5G對媒體的基本影響[J]. 中興通訊技術(shù), 2019, 25(6): 48-54.
ZHAO Z Z, ZHANG K. Media revolution: the impact of 5G on the media[J]. ZTE Technology Journal, 2019, 25(6): 48-54 (in Chinese).
[72] 喬秀全, 任沛, 商彥磊. 關(guān)于增強(qiáng)現(xiàn)實(shí)技術(shù)潛在發(fā)展方向的思考[J]. 中興通訊技術(shù), 2017, 23(6): 37-40.
QIAO X Q, REN P, SHANG Y L. Thoughts on the potential development direction of augmented reality technology[J]. ZTE Technology Journal, 2017, 23(6): 37-40 (in Chinese).
[73] 王紫薇, 鄧慧萍, 向森, 等. 基于CNN的彩色圖像引導(dǎo)的深度圖像超分辨率重建[J]. 圖學(xué)學(xué)報, 2020, 41(2): 262-269.
WANG Z W, DENG H P, XIANG S, et al. Super-resolution reconstruction of depth image guided by color image based on CNN[J]. Journal of Graphics, 2020, 41(2): 262-269 (in Chinese).
Review on deep learning based prediction of image intrinsic properties
SHA Hao1, LIU Yue1,2
(1. School of Optics and Photonics, Beijing Institute of Technology, Beijing 100081, China; 2. Advanced Innovation Center for Future Visual Entertainment, Beijing Film Academy, Beijing 100088, China)
The appearance of the real world primarily depends on such intrinsic properties of images as the geometry of objects in the scene, the surface material, and the direction and intensity of illumination. Predicting these intrinsic properties from two-dimensional images is a classical problem in computer vision and graphics, and is of great importance in three-dimensional image reconstruction and augmented reality applications. However, the prediction of intrinsic properties of two-dimensional images is a high-dimensional and ill-posed inverse problem, and fails to yield the desired results with traditional algorithms. In recent years, with the application of deep learning to various aspects of two-dimensional image processing, a large number of research results have predicted the intrinsic properties of images through deep learning. The algorithm framework was proposed for deep learning-based image intrinsic property prediction. Then, the progress of domestic and international research was analyzed in three areas: intrinsic image prediction based on acquiring scene reflectance and shading map, intrinsic properties prediction based on acquiring material BRDF parameters, and intrinsic properties prediction based on acquiring illumination-related information. Finally, the advantages and disadvantages of each method were summarized, and the research trends and focuses for image intrinsic property prediction were identified.
computer vision; computer graphics; intrinsic properties prediction; intrinsic image prediction; BRDF prediction; illumination prediction; deep learning
TP 391
10.11996/JG.j.2095-302X.2021030385
A
2095-302X(2021)03-0385-13
2020-10-23;
2020-12-15
23 October,2020;
15 December,2020
國家自然科學(xué)基金項(xiàng)目(61960206007);廣東省重點(diǎn)領(lǐng)域研發(fā)計劃項(xiàng)目(2019B010149001);高等學(xué)校學(xué)科創(chuàng)新引智計劃項(xiàng)目(B18005)
National Natural Science Foundation of China (61960206007); R & D Projects in Key Areas of Guangdong (2019B010149001); Programme of Introducing Talents of Discipline to Universities (B18005)
沙 浩(1997–),男,甘肅天水人,碩士研究生。主要研究方向?yàn)閳D像的本征屬性預(yù)測、計算機(jī)視覺、深度學(xué)習(xí)。E-mail:sh15271201@163.com
SHA Hao (1997-), male, master student. His main research interests cover intrinsic properties prediction, computer vision and deep learning. E-mail:sh15271201@163.com
劉 越(1968–),男,吉林長春人,教授,博士。主要研究方向?yàn)樵鰪?qiáng)現(xiàn)實(shí)、計算機(jī)視覺等。E-mail:liuyue@bit.edu.cn
LIU Yue (1968-), male, professor, Ph.D. His main research interests cover augmented reality, computer vision, etc. E-mail:liuyue@bit.edu.cn