姚 翰,殷雪峰,李 童,張肇軒,楊 鑫,尹寶才
基于多任務(wù)模型的深度預(yù)測(cè)算法研究
姚 翰,殷雪峰,李 童,張肇軒,楊 鑫,尹寶才
(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
圖像的深度值預(yù)測(cè)是計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域中的一個(gè)熱門的研究課題。深度圖的構(gòu)建是三維重建的重要前提,傳統(tǒng)方法主要依靠確定固定點(diǎn)深度進(jìn)行人工標(biāo)注或是根據(jù)相機(jī)的位置變化來進(jìn)行雙目定位預(yù)測(cè)深度,但這類方法一方面費(fèi)時(shí)費(fèi)力,另一方面也受到相機(jī)位置、定位方式、分布概率性等因素的限制,準(zhǔn)確率很難得到保證,從而導(dǎo)致預(yù)測(cè)的深度圖難以完成后續(xù)三維重建等工作。通過引入基于多任務(wù)模塊的深度學(xué)習(xí)方法,可以有效解決這一問題。針對(duì)場(chǎng)景圖像提出一種基于多任務(wù)模型的單目圖像深度預(yù)測(cè)網(wǎng)絡(luò),能同時(shí)訓(xùn)練學(xué)習(xí)深度預(yù)測(cè)、語義分割、表面向量估計(jì)3個(gè)任務(wù),包括共有特征提取模塊和多任務(wù)特征融合模塊,能在提取共有特征的同時(shí)保證各個(gè)特征的獨(dú)立性,提升各個(gè)任務(wù)的結(jié)構(gòu)性的同時(shí)保證深度預(yù)測(cè)的準(zhǔn)確性。
計(jì)算機(jī)視覺;單目深度預(yù)測(cè);多任務(wù)模型;語義分割;表面向量估計(jì)
“近大遠(yuǎn)小”是人們?cè)谧匀唤缰袑?duì)距離遠(yuǎn)近把控的奧秘,大自然中的生物經(jīng)過不斷進(jìn)化已形成了優(yōu)秀的視覺系統(tǒng),能輕松地識(shí)別視野中各物體與自身之間的距離,以完成各種交互任務(wù)。在計(jì)算機(jī)視覺領(lǐng)域,2D圖像的場(chǎng)景深度估計(jì)已然成為一個(gè)重點(diǎn)的研究方向,深度作為2.5D的因素,是連接2D圖像和3D立體模型的重要橋梁,可以說,深度是二維向三維過渡的關(guān)鍵,更是對(duì)場(chǎng)景結(jié)構(gòu)理解復(fù)現(xiàn)的重點(diǎn),可以用于人體姿態(tài)預(yù)測(cè)、自動(dòng)駕駛汽車、場(chǎng)景理解、3D重建和語義分割等多個(gè)方面。然而,目前的深度預(yù)測(cè)算法提取出的語義信息很難準(zhǔn)確地反應(yīng)深度信息在結(jié)構(gòu)上的信息,物體與物體、物體與背景之間的結(jié)構(gòu)性很難體現(xiàn),且易受光照、陰影影響,而與之對(duì)應(yīng)的語義分割任務(wù)則會(huì)提取物體間的不同,更能反映物體間的結(jié)構(gòu)性信息。所以本文基于深度預(yù)測(cè)、語義分割、表面向量預(yù)測(cè)3個(gè)任務(wù)的共通性,設(shè)計(jì)了新的神經(jīng)網(wǎng)絡(luò)模型,提取更可靠的特征,使深度預(yù)測(cè)的結(jié)果更有結(jié)構(gòu)性。實(shí)驗(yàn)表明,通過與深度預(yù)測(cè)有關(guān)的任務(wù)一同預(yù)測(cè),可以利用兩者間相關(guān)的信息相互促進(jìn)以提高效果,從而達(dá)到較好的效果。
在機(jī)器學(xué)習(xí)出現(xiàn)之前,一種是傳統(tǒng)方法,即使用人工的手工標(biāo)注方法,通過對(duì)類似圖片的手工標(biāo)注深度定位,再對(duì)場(chǎng)景提出合理的幾何假設(shè),在概率模型的基礎(chǔ)上分析各部分的深度值;另一種方法則是SAXENA等[1-2]使用馬爾可夫條件隨機(jī)場(chǎng)(Markov random filed,MRF),將深度圖正則化,再將平面上像素通過平面系數(shù)和條件隨機(jī)場(chǎng)來預(yù)測(cè)對(duì)應(yīng)的深度值,由于在公式中添加了約束相鄰像素的部分,使得該方法可以分析圖像中的局部特征和全局特征來推測(cè)其深度信息。
隨著深度學(xué)習(xí)方法在計(jì)算機(jī)圖形學(xué)領(lǐng)域的廣泛使用,LAINA等[3]基于全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)來進(jìn)行單目深度估計(jì),并通過加深網(wǎng)絡(luò)結(jié)構(gòu)來促進(jìn)效果的提升,且FCN不限制分辨率大小,所以不需要進(jìn)行圖像后處理。一方面使用不限制分辨率大小且同時(shí)優(yōu)化效率的新的Encoder-Decoder方法;另一方面使用逆Huber Loss函數(shù)進(jìn)行優(yōu)化處理,可以使深度分布更合理。CAO等[4]將深度預(yù)測(cè)問題作為精細(xì)的語義分割處理。首先離散化圖像中的深度值,之后訓(xùn)練一個(gè)殘差網(wǎng)絡(luò)來估計(jì)各個(gè)像素對(duì)應(yīng)的分類。通過其相應(yīng)的概率分布來使用條件隨機(jī)場(chǎng)(conditional random field,CRF)進(jìn)行處理優(yōu)化。GARG等[5]首次實(shí)現(xiàn)無監(jiān)督的單目深度預(yù)測(cè),使用立體圖像但不需要深度值數(shù)據(jù)。利用左目圖像、右目圖像和深度圖像的關(guān)系,先輸入左目RGB圖像來預(yù)測(cè)一個(gè)模糊的深度圖像,再通過深度圖像和原圖像恢復(fù)出右目圖像,計(jì)算右目圖像與真值之間的損失來優(yōu)化網(wǎng)絡(luò)。ZORAN等[6]則對(duì)圖像中的相對(duì)深度關(guān)系更感興趣,利用雙目系統(tǒng)中的點(diǎn)匹配關(guān)系來估計(jì)深度值,以達(dá)到無監(jiān)督或弱監(jiān)督的目的。該算法首先利用雙目圖像中點(diǎn)與點(diǎn)的對(duì)應(yīng)關(guān)系,將2個(gè)預(yù)測(cè)的深度圖像進(jìn)行插值優(yōu)化,以獲得更準(zhǔn)確的深度。CASSER等[7]提出一種更有效的方法,即通過對(duì)移動(dòng)目標(biāo)進(jìn)行建模,產(chǎn)生更高質(zhì)量的深度估計(jì)效果,另利用一種無縫的在線優(yōu)化方法,使訓(xùn)練效果更好,提升預(yù)測(cè)的魯棒性,并且可在不同數(shù)據(jù)集中進(jìn)行轉(zhuǎn)移。
雖然卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)在深度預(yù)測(cè)任務(wù)中能達(dá)到良好的效果,但還是存在一些問題,首先深度預(yù)測(cè)使用的網(wǎng)絡(luò)結(jié)構(gòu)多是用來解決語義分割問題,雖然能達(dá)到較好的準(zhǔn)確率,但很難表達(dá)深度圖像所具有的結(jié)構(gòu)性。另外,深度圖像數(shù)據(jù)集存在的數(shù)量較少且有噪點(diǎn)問題也影響預(yù)測(cè)的魯棒性。
深度預(yù)測(cè)的研究離不開語義分割的方式方法,相似的特征提取方式使得深度預(yù)測(cè)可以與語義分割等其他任務(wù)一同訓(xùn)練,因此既能提取出各個(gè)任務(wù)的相同特征,又能利用各任務(wù)的相互關(guān)系來進(jìn)行彼此促進(jìn),旨在執(zhí)行任務(wù)交互的特征融合或參數(shù)共享。融合或共享方式可以利用任務(wù)之間的相關(guān)信息。最近,針對(duì)此類任務(wù)的幾種聯(lián)合任務(wù)學(xué)習(xí)方法已顯示出一個(gè)有前途的方向,即通過利用與任務(wù)相關(guān)的信息相互促進(jìn)來提高預(yù)測(cè)。EIGEN和FERGUS[8]提出了深度預(yù)測(cè)可以和語義分割與表面向量預(yù)測(cè)等任務(wù)一同使用一個(gè)網(wǎng)絡(luò)來進(jìn)行訓(xùn)練。MOUSAVIAN等[9]提出的模型將深度值預(yù)測(cè)和語義分割2個(gè)任務(wù)一同訓(xùn)練,先將2個(gè)任務(wù)在第一階段一起訓(xùn)練,在第二階段再使用損失函數(shù)分別收斂訓(xùn)練以調(diào)整整個(gè)網(wǎng)絡(luò)形成優(yōu)化,之后將CNN與CRF結(jié)合進(jìn)來,利用語義標(biāo)簽和深度值的信息來優(yōu)化結(jié)果。WANG等[10]同樣結(jié)合CRF與CNN構(gòu)建模型,提出一種框架可以將深度與多種其他視覺信息結(jié)合起來,通過推導(dǎo)設(shè)計(jì)好的能量函數(shù),使得整個(gè)框架可以通過反向傳播進(jìn)行訓(xùn)練。GODARD等[11]將單一視角的深度預(yù)測(cè)、相機(jī)位姿預(yù)測(cè)、光流信息、靜態(tài)場(chǎng)景和移動(dòng)區(qū)域的語義分割4個(gè)基本的視覺問題通過幾何關(guān)系進(jìn)行約束,耦合在一起進(jìn)行訓(xùn)練。ZHANG等[12]將RGB圖像處理成了不同尺度的特征圖,在通過解碼器處理得到不同的深度信息和語義信息,經(jīng)過交替的特征融合來提升精度。ZHANG等[13]提出了一種“角度模式-主動(dòng)傳播”(pattern-affinitive propagation,PAP)的框架,以實(shí)現(xiàn)同時(shí)預(yù)測(cè)深度、表面法線和語義分割任務(wù),通過2種類型的傳播,能更好地使網(wǎng)絡(luò)適應(yīng)不同任務(wù)之間的區(qū)別,每個(gè)任務(wù)的學(xué)習(xí)可以通過補(bǔ)充任務(wù)級(jí)別的能力來進(jìn)行規(guī)范和增強(qiáng)。
目前多任務(wù)模型存在的問題主要是特征融合的方式僅是使用參數(shù)共享,并未將共有特征對(duì)任務(wù)的幫助和各任務(wù)之間的特點(diǎn)表現(xiàn)出來。
通過與深度預(yù)測(cè)有關(guān)的任務(wù)共同預(yù)測(cè),可以利用兩者間相關(guān)的信息相互促進(jìn)以提高效果,其根本原因是對(duì)相同的語義信息,網(wǎng)絡(luò)會(huì)給與相同的參數(shù),而共享這些參數(shù)則會(huì)使某些共有的信息更突出化,避免某一任務(wù)由于數(shù)據(jù)原因,忽略了一部分特征的提取。其中,語義分割和表面向量預(yù)測(cè)是與深度預(yù)測(cè)非常相關(guān)的2個(gè)任務(wù),語義分割能有效地提取特征以區(qū)別不同物體,通過物體間梯度變換的特性,可以與深度預(yù)測(cè)中的物體關(guān)聯(lián),另一方面,語義分割能對(duì)不同物體進(jìn)行分類,使得深度值的預(yù)測(cè)更能依賴于物體獨(dú)有的梯度變化,也更能分辨與背景相似的物體間的聯(lián)系。而表面向量對(duì)深度預(yù)測(cè)的影響更為直接,兩者之間存在著幾何關(guān)系可以互相轉(zhuǎn)換,其數(shù)學(xué)關(guān)系為
為了完成這一目的,本文將通過2個(gè)模塊進(jìn)行網(wǎng)絡(luò)訓(xùn)練,一個(gè)是共有特征提取模塊,負(fù)責(zé)提取各任務(wù)的特征,并可以恢復(fù)粗糙的深度圖、語義分割圖、表面向量圖;另一個(gè)模塊是多任務(wù)特征融合模塊,改模塊負(fù)責(zé)將第一個(gè)模塊提取到的特征進(jìn)行多任務(wù)的融合,網(wǎng)絡(luò)模型將會(huì)區(qū)分各任務(wù)共有語義特征和各任務(wù)獨(dú)有的語義特征,使得最后恢復(fù)的圖像更具有結(jié)構(gòu)性。
圖1為整個(gè)算法的流程和2個(gè)模塊的信息,整體網(wǎng)絡(luò)的輸入為單張的RGB圖像,輸出為該圖像所對(duì)應(yīng)的深度圖像、語義分割圖像、表面向量圖像。網(wǎng)絡(luò)中將共有特征提取模塊和多任務(wù)特征融合模塊整合成統(tǒng)一的結(jié)構(gòu),并在統(tǒng)一的訓(xùn)練中完成端到端的生成。
圖1 基于多任務(wù)的深度預(yù)測(cè)算法流程圖
共有特征提取模塊由單編碼器多解碼器構(gòu)成,目的是為了實(shí)現(xiàn)深度預(yù)測(cè)、語義分割、表面向量預(yù)測(cè)3個(gè)任務(wù)的共同特征提取以及第一階段的任務(wù)分化。該模塊首先通過編碼器將輸入的圖片進(jìn)行編碼成一維特征,再通過3個(gè)解碼器分別解碼成3個(gè)任務(wù)所需的尺寸和通道,然后通過特征連接的方式結(jié)合各尺度的特征,最后可以將本模塊輸出的圖像與數(shù)據(jù)集中的真值圖像比較減少損失,更新網(wǎng)絡(luò)參數(shù),以保證編碼器提取的是3個(gè)任務(wù)共有的特征。
如圖2所示,本模塊使用的網(wǎng)絡(luò)結(jié)構(gòu)是以VGG-16模型搭建的FCN為主,其能很好地在像素級(jí)別對(duì)圖像進(jìn)行分類,并完成語義分割的任務(wù);在深度圖預(yù)測(cè)的問題上,表現(xiàn)也十分出色。
圖2 共有特征提取模塊結(jié)構(gòu)
本模塊包含4部分:編碼器、多維解碼器、多尺度特征融合模塊和細(xì)化模塊。其中,編碼器由4個(gè)卷積層組成,負(fù)責(zé)提取1/4,1/8,1/16和1/32多種尺度的特征。解碼器采用4個(gè)上采樣模塊,逐步擴(kuò)大編碼器的最終特征,同時(shí)減少通道數(shù)量。多尺度特征融合模塊使用向上采樣和通道連接來集成自編碼器的4種不同比例特征。與編碼器相對(duì)應(yīng),將編碼器的4層輸出(每個(gè)具有16個(gè)通道)分別以×2,×4,×8和×16的形式上采樣,以便具有與最終輸出相同的大小。這種上采樣以通道連接方式完成,然后通過卷積層進(jìn)一步變換以獲得具有64個(gè)通道的輸出。多尺度特征融合模塊的主要目的是將多個(gè)尺度的不同信息合并為一個(gè),從而使編碼器的下層輸出保留了具有更精細(xì)空間分辨率的信息,有助于恢復(fù)由于多次下采樣而丟失的細(xì)節(jié)信息。最后,細(xì)化模型用于調(diào)整圖像的輸出大小以及通道數(shù),分別對(duì)應(yīng)3個(gè)任務(wù)采用3個(gè)卷積層,使得輸出的通道數(shù)恢復(fù)為深度圖像的1通道,語義分割圖像的1通道和表面向量的3通道,便于進(jìn)行損失的計(jì)算和反向傳播。
網(wǎng)絡(luò)輸入為320×240×3大小的RGB圖像,然后將其通過編碼器的4個(gè)卷積層得到4層特征,然后將此特征通過解碼器,解碼器由4個(gè)上采樣層組成,將不同尺度的特征進(jìn)行解碼,完畢后,由多尺度融合模塊將不同尺度的上采樣輸出融合在一起,最后通過細(xì)化模塊中不同的反卷積層恢復(fù)出深度圖像、語義分割圖、表面向量圖的形狀,具體網(wǎng)絡(luò)參數(shù)及各層的輸出見表1。
表1 共有特征提取模塊網(wǎng)絡(luò)參數(shù)
本模塊屬于單輸入多輸出型網(wǎng)絡(luò),在訓(xùn)練的過程中,需要網(wǎng)絡(luò)根據(jù)數(shù)據(jù)集中RGB圖像與深度圖像、語義分割圖、表面向量圖與網(wǎng)絡(luò)預(yù)測(cè)的對(duì)應(yīng)圖像之間建立損失函數(shù),進(jìn)行網(wǎng)絡(luò)參數(shù)的更新、迭代直至損失函數(shù)收斂時(shí),能夠得到訓(xùn)練好的網(wǎng)絡(luò)。
由于需要同時(shí)處理3個(gè)任務(wù),且保證各任務(wù)之間的相關(guān)性,所以本文的損失函數(shù)分為3個(gè)部分。特征提取損失函數(shù)為
各部分損失函數(shù)的作用和目的如下:
(1) 深度圖損失函數(shù),即
該函數(shù)為1損失函數(shù)與梯度損失函數(shù)之和,其中對(duì)于每個(gè)像素點(diǎn),對(duì)應(yīng)的預(yù)測(cè)深度與真實(shí)深度分別為d和D,1損失函數(shù)可以約束d與D間的不同,為該損失函數(shù)的主要部分,提供了準(zhǔn)確率的保證。
(2) 語義分割損失函數(shù),其為交叉熵函數(shù),是語義分割問題中常用的損失函數(shù),常用于描述2個(gè)概率之間的距離,在本文中約束圖像中物體的預(yù)測(cè)語義類別的概率,其表達(dá)式為
在該模塊訓(xùn)練過程中,本文通過直接在網(wǎng)絡(luò)的輸出端得到3個(gè)任務(wù)的圖像并與其對(duì)應(yīng)的真值之間設(shè)計(jì)損失函數(shù),經(jīng)過梯度下降的方式進(jìn)行反向傳播,從而對(duì)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新,當(dāng)損失函數(shù)收斂時(shí),可完成訓(xùn)練。在本文算法的訓(xùn)練過程中,設(shè)定迭代次數(shù)為100,每次處理圖像數(shù)量為4,初始學(xué)習(xí)率為10–4,每經(jīng)過20次迭代更新學(xué)習(xí)率為原來的十分之一,最后在經(jīng)過100次迭代后得到的收斂損失函數(shù)值為0.124 5。
本模塊負(fù)責(zé)處理共有特征提取模塊的數(shù)據(jù),通過本模塊將共有特征更精細(xì)地進(jìn)行特征融合和分化,旨在提取出各任務(wù)的具體的共同特征和分化特征,提高各任務(wù)的精度,增強(qiáng)各任務(wù)的結(jié)構(gòu)一致性。由于共有特征提取模塊僅僅是通過參數(shù)共享實(shí)現(xiàn)的共有特征的提取,其并不能準(zhǔn)確的代表本文中3個(gè)任務(wù)的共通性,所以設(shè)計(jì)該模塊以保證多任務(wù)特征提取的普遍性。
多任務(wù)特征融合模塊由2個(gè)部分組成,第一部分是多輸入特征融合模塊,負(fù)責(zé)將上一模塊輸出的多任務(wù)特征進(jìn)行融合,所使用的網(wǎng)絡(luò)為密集連接的U-net;第二部分為特征解碼部分,與上一部分的解碼器部分類似,為多輸出解碼器,故不詳細(xì)介紹,本模塊的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 多任務(wù)特征融合模塊結(jié)構(gòu)
本文在原U-net網(wǎng)絡(luò)的基礎(chǔ)上添加了密集連接的方法,能有效地增強(qiáng)多輸入模式的特征提取能力,為了實(shí)現(xiàn)這種密集的連接模式,首先創(chuàng)建一個(gè)由多個(gè)流組成的編碼路徑,每個(gè)流都處理上一模塊不同的任務(wù)的圖像形式。對(duì)不同的圖像形式采用單獨(dú)的流的主要目的是分散原本會(huì)在早期融合的信息,從而限制了網(wǎng)絡(luò)捕獲模式之間復(fù)雜關(guān)系的學(xué)習(xí)能力。從網(wǎng)絡(luò)結(jié)構(gòu)中可以看出,3個(gè)任務(wù)先分別通過U-net的編碼器進(jìn)行編碼,但不同點(diǎn)在于,在不同的卷積層傳遞時(shí)會(huì)產(chǎn)生交互,比如,任務(wù)1的圖像在經(jīng)過一次卷積池化操作之后,得到的池化特征會(huì)在任務(wù)2的二次池化特征進(jìn)行結(jié)合,通過卷積層后又與任務(wù)3的池化特征結(jié)合。這樣可以使特征在任務(wù)之間流動(dòng),保證特征的共用性。在解碼器部分,將得到的共用特征先通過一個(gè)上采樣操作得到一個(gè)共有上采樣特征,再將此上采樣特征結(jié)合之前的池化特征一起進(jìn)行解碼,分別將其與3種任務(wù)不同尺度的池化特征送入解碼器,并與之前的各任務(wù)提取的特征進(jìn)行連接并通過上采樣層,恢復(fù)各任務(wù)原來的形狀,再將恢復(fù)的深度圖像、語義分割圖、和表面向量圖與數(shù)據(jù)集中的真值進(jìn)行損失比較,以更新網(wǎng)絡(luò)中參數(shù)。本模塊網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)見表2。
表2 U-net編碼器解碼器網(wǎng)絡(luò)參數(shù)
通過此種通道連接和下采樣連接結(jié)合的方式可以進(jìn)一步將不同任務(wù)的特征融合,促進(jìn)各任務(wù)之間的轉(zhuǎn)化,該方式與共有特征提取模塊中的共有特征不同,在保留原有特征的情況下更能體現(xiàn)不同任務(wù)之間的聯(lián)系,突出多任務(wù)特征之間的融合。
本模塊屬于多輸入多輸出型網(wǎng)絡(luò),在訓(xùn)練中,需要將輸出與數(shù)據(jù)庫中對(duì)應(yīng)的深度圖像、語義分割圖、表面向量圖真值之間的關(guān)系建立損失函數(shù),并通過減小損失函數(shù)來更新網(wǎng)絡(luò)參數(shù),經(jīng)過迭代更新到損失函數(shù)收斂,得到訓(xùn)練好的網(wǎng)絡(luò)。
在訓(xùn)練網(wǎng)絡(luò)時(shí),可以將本模塊與共有特征提取模塊統(tǒng)一訓(xùn)練,以便形成一個(gè)端到端的神經(jīng)網(wǎng)絡(luò),即輸入為單張RGB圖像,輸出為與其對(duì)應(yīng)的深度圖像、語義分割圖、表面向量圖。由于3個(gè)任務(wù)與第3節(jié)相同,故采用相同的損失函數(shù)進(jìn)行約束,故不詳細(xì)說明。
關(guān)于該模塊訓(xùn)練的過程,本文通過直接在網(wǎng)絡(luò)的輸出端得到3個(gè)任務(wù)的圖像并與其對(duì)應(yīng)的真值之間設(shè)計(jì)損失函數(shù),經(jīng)過梯度下降的方式進(jìn)行反向傳播,從而對(duì)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新,當(dāng)損失函數(shù)收斂時(shí),可完成訓(xùn)練。在本文算法的訓(xùn)練過程中,設(shè)定迭代次數(shù)為100,每次處理圖像數(shù)量為4,初始學(xué)習(xí)率為10–4,每經(jīng)過20次迭代更新學(xué)習(xí)率為原來的十分之一,最后在經(jīng)過100次迭代后得到的收斂損失函數(shù)值為0.115 9。
本文實(shí)驗(yàn)使用的數(shù)據(jù)集,是基于NYU Depth V2數(shù)據(jù)集[14]建立的。并使用1 449組包含RGB圖像、語義分割圖像、深度圖像來完成訓(xùn)練和測(cè)試,表面向量圖像由文獻(xiàn)[8]提出的方法將深度圖像轉(zhuǎn)換而成,并統(tǒng)一將圖像的大小轉(zhuǎn)換為320×240,與網(wǎng)絡(luò)的輸入一致。其中,795組用于訓(xùn)練,654組用于測(cè)試。每組訓(xùn)練圖像通過10像素的上下左右平移再獲得4組訓(xùn)練集增強(qiáng)訓(xùn)練的魯棒性,即訓(xùn)練集包括3 975組RGB圖像、語義分割圖像、深度圖像和表面向量圖像,測(cè)試集為654組。
本文實(shí)驗(yàn)的環(huán)境為Ubuntu操作系統(tǒng),編程語言為Python,網(wǎng)絡(luò)框架為Pytorch 1.0.0,顯卡為GTX 2080Ti,顯存為11 G。其他實(shí)驗(yàn)具體參數(shù)見第3.2節(jié)和第4.2節(jié)的訓(xùn)練方法。
實(shí)驗(yàn)數(shù)據(jù)與其他實(shí)驗(yàn)的對(duì)比,首先在深度預(yù)測(cè)方面,本文從準(zhǔn)確率和誤差率2個(gè)方面進(jìn)行結(jié)果評(píng)價(jià),本文實(shí)驗(yàn)各個(gè)階段的結(jié)果見表3,其中第一項(xiàng)單任務(wù)表示的是按基于CNN的深度預(yù)測(cè)模型進(jìn)行的預(yù)測(cè);第二項(xiàng)則是按第3節(jié)中使用多任務(wù)模型中共有特征提取模塊進(jìn)行深度圖像預(yù)測(cè)的結(jié)果;第三項(xiàng)則是按第4節(jié)中加入多任務(wù)特征融合模塊后的深度預(yù)測(cè)評(píng)價(jià)。表格中RMS(root mean squared error)表示均方根誤差,REL(average relative error)表平均相對(duì)誤差。
對(duì)于誤差評(píng)價(jià)而言,誤差率越小表面預(yù)測(cè)效果越好;反之,準(zhǔn)確率越高說明預(yù)測(cè)結(jié)果更好,從結(jié)果中可以看出,多任務(wù)特征提取能有效地提取出共有特征,并提升深度預(yù)測(cè)的效果,而加入多任務(wù)特征融合模塊后,則更能體現(xiàn)出提取特征的共有性和獨(dú)有性,使得預(yù)測(cè)的結(jié)果更為準(zhǔn)確,并且其他2個(gè)任務(wù)也能達(dá)到類似的提升效果。
表3 不同條件下的深度預(yù)測(cè)評(píng)價(jià)
語義分割和表面向量的預(yù)測(cè)結(jié)果見表4,其中,語義分割預(yù)測(cè)的評(píng)價(jià)標(biāo)準(zhǔn)為交并比函數(shù)(intersection over union,IoU),其是目標(biāo)區(qū)域和預(yù)測(cè)區(qū)域交集和并集的比值,在本文中會(huì)將每一類別的IoU疊加,再進(jìn)行平均,即均交并比函數(shù)(mean intersection over union, mean IoU),即
其中,Classes為圖像中含有的類別個(gè)數(shù)。
另外,表面向量的評(píng)價(jià)標(biāo)準(zhǔn)為均方根誤差(root mean square error,RMSE),即
從表3和表4可以看出,使用多任務(wù)模型能有效提升語義分割的準(zhǔn)確率,降低表面向量預(yù)測(cè)的誤差,進(jìn)一步證明了共有特征提取模塊和多任務(wù)特征融合模塊不僅能有效提升深度預(yù)測(cè)的能力,還可以對(duì)語義分割和表面向量預(yù)測(cè)起到積極促進(jìn)作用。
表4 不同條件下的語義分割和表面向量評(píng)價(jià)
表5為相同條件下本文算法與全卷積殘差網(wǎng)絡(luò)(fully convolutional residual networks,F(xiàn)CRN)[3]和DenseDepth[15]方法在深度預(yù)測(cè)方面的對(duì)比,從表中可以看出,所列舉的方法無論在準(zhǔn)確率上還是誤差率上都能達(dá)到一個(gè)很好的水平。
表5 相同條件下的不同方法深度預(yù)測(cè)評(píng)價(jià)
圖4~6分別為深度預(yù)測(cè)、語義分割、表面向量預(yù)測(cè)3個(gè)任務(wù)在本文實(shí)驗(yàn)中的部分可視化結(jié)果,其中圖4包含了FRCN[3]方法,從可視化結(jié)果可以看出,本文算法基本達(dá)到各任務(wù)所需要求。
圖4 深度預(yù)測(cè)可視化結(jié)果
圖5 語義分割可視化結(jié)果
圖6 表面向量預(yù)測(cè)可視化結(jié)果
本文提出了一種基于多任務(wù)模型的單目深度預(yù)測(cè)網(wǎng)絡(luò),通過與語義分割、表面向量預(yù)測(cè)2個(gè)任務(wù)一并訓(xùn)練,利用深度預(yù)測(cè)、語義分割、表面向量預(yù)測(cè)3個(gè)任務(wù)之間的相互聯(lián)系來提升網(wǎng)絡(luò)的訓(xùn)練效果。本文算法通過共有特征提取模塊共有特征來提升深度預(yù)測(cè)結(jié)構(gòu)性,再通過多任務(wù)特征融合模塊來進(jìn)一步區(qū)分各任務(wù)間的特征獨(dú)特性和聯(lián)系性,使得各個(gè)任務(wù)的預(yù)測(cè)效果能夠進(jìn)一步提升。實(shí)驗(yàn)證明,本文算法在各個(gè)模塊的效果上均有提升,多任務(wù)特征提取和跨任務(wù)特征融合對(duì)網(wǎng)絡(luò)預(yù)測(cè)深度值提供了幫助,通過對(duì)比實(shí)驗(yàn)也說明了本文算法的優(yōu)越性。
[1] SAXENA A, CHUNG S H, NG A Y. Learning depth from single monocular images[C]//The 18th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2005: 1161-1168.
[2] SAXENA A, SUN M, NG A Y. Make3d: learning 3D scene structure from a single still image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 31(5): 824-840.
[3] LAINA I, RUPPRECHT C, BELAGIANNIS V, et al. Deeper depth prediction with fully convolutional residual networks[C]//2016 4th International Conference on 3D Vision (3DV). Washington,DC: IEEE Computer Society Press, 2016: 239-248.
[4] CAO Y, WU Z F, SHEN C H. Estimating depth from monocular images as classification using deep fully convolutional residual networks[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(11): 3174-3182.
[5] GARG R, BG V K, CARNEIRO G, et al. Unsupervised CNN for single view depth estimation: geometry to the rescue[C]//The 14th European Conference on Computer Vision. Heidelberg: Springer, 2016: 740-756.
[6] ZORAN D, ISOLA P, KRISHNAN D, et al. Learning ordinal relationships for mid-level vision[C]//2015 IEEE International Conference on Computer Vision. Washington,DC: IEEE Computer Society, 2015: 388-396.
[7] CASSER V, PIRK S, MAHJOURIAN R, et al. Depth prediction without the sensors: leveraging structure for unsupervised learning from monocular videos[C]//The 33rd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 8001-8008.
[8] EIGEN D, FERGUS R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture[C]//2015 IEEE International Conference on Computer Vision. Washington,DC: IEEE Computer Society, 2015: 2650-2658.
[9] MOUSAVIAN A, PIRSIAVASH H, KO?ECKá J. Joint semantic segmentation and depth estimation with deep convolutional networks[C]//2016 4th International Conference on 3D Vision (3DV). Washington,DC: IEEE Computer Society, 2016: 611-619.
[10] WANG P, SHEN X H, RUSSELL B, et al. Surge: surface regularized geometry estimation from a single image[C]//The 30th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2016: 172-180.
[11] GODARD C, MAC AODHA O, BROSTOW G. Digging into self-supervised monocular depth estimation[C]//2019 IEEE International Conference on Computer Vision. Washington,DC: IEEE Computer Society, 2019: 3828-3838.
[12] ZHANG Z Y, CUI Z, XU C Y, et al. Joint task-recursive learning for semantic segmentation and depth estimation[C]//The 15th European Conference on Computer Vision. Heidelberg: Springer, 2018: 235-251.
[13] ZHANG Z Y, CUI Z, XU C Y, et al. Pattern-affinitive propagation across depth, surface normal and semantic segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 4106-4115.
[14] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from rgbd images[C]//The 12th European Conference on Computer Vision. Heidelberg: Springer, 2012: 746-760.
[15] ALHASHIM I, WONKA P. High quality monocular depth estimation via transfer learning[EB/OL]. [2020-01-05]. https://arxiv.org/abs/1812.11941.
Research on depth prediction algorithm based on multi-task model
YAO Han, YIN Xue-feng, LI Tong, ZHANG Zhao-xuan, YANG Xin, YIN Bao-cai
(School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116024, China)
Image depth prediction is a hot research topic in the field of computer vision and robotics. The construction of depth image is an important prerequisite for 3D reconstruction. Traditional methods mainly conduct manual annotation based on the depth of a fixed point, or predict the depth based on binocular positioning according to the position of the camera. However, such methods are time-consuming and labor-intensive and restricted by factors such as camera position, positioning method, and distribution probability. As a result, the difficulty in guaranteeing high accuracy poses a challenge to subsequent tasks following the predicted depth map, such as 3D reconstruction. This problem can be effectively solved by introducing a deep learning method based on multi-task modules. For scene images, a multi-task model-based monocular-image depth-prediction network was proposed, which can simultaneously train and learn three tasks of depth prediction, semantic segmentation, and surface vector estimation. The network includes a common feature extraction module and a multi-task feature fusion module, which can ensure the independence of each feature while extracting common features, and guarantee the accuracy of depth prediction while improving the structure of each task.
computer vision; monocular depth prediction; multi-task model; semantic segmentation; surface normal estimation
TP 391
10.11996/JG.j.2095-302X.2021030446
A
2095-302X(2021)03-0446-08
2020-08-28;
2020-12-15
28 August,2020;
15 December,2020
國家自然科學(xué)基金項(xiàng)目(91748104,61972067,61632006,U1811463,U1908214,61751203);國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018AAA0102003)
National Natural Science Foundation of China (91748104, 61172007, 61632006, U1811463, U1908214, 61751203); National Key Research and Development Program (2018AAA0102003)
姚 翰(1994-),男,遼寧沈陽人,碩士研究生。主要研究方向?yàn)閿?shù)字圖像處理與三維重建。E-mail:yaohan@mail.dlut.edu.cn
YAO Han (1994-), male, master student. His main research interests cover digital image processing and 3D reconstruction. E-mail: yaohan@mail.dlut.edu.cn
楊 鑫(1984-),男,吉林四平人,教授,博士。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)與視覺。E-mail:xinyang@mail.dlut.edu.cn
YANG Xin (1984-), male, professor, Ph.D. His main research interests cover computer graphics and vision. E-mail: xinyang@mail.dlut.edu.cn