朱尊杰,徐浙峰,任小元,侯 佳,孫垚棋,顏成鋼
(1.杭州電子科技大學(xué)自動(dòng)化學(xué)院,浙江 杭州 310018;2.中國(guó)電子學(xué)會(huì),北京 100036)
計(jì)算機(jī)視覺(jué)是一門(mén)高度交叉和復(fù)雜的學(xué)科,發(fā)展迅猛,并且廣泛應(yīng)用于安保、交通、醫(yī)療等領(lǐng)域,與人們的生活息息相關(guān)。單目相機(jī)是目前計(jì)算機(jī)視覺(jué)中圖片數(shù)據(jù)的主要來(lái)源,具有結(jié)構(gòu)簡(jiǎn)單、成本較低等特點(diǎn)。得益于智能手機(jī)的快速發(fā)展及普及,可以輕易獲取單張高分辨率、高質(zhì)量的彩色圖片。相比灰度圖,彩色圖的顏色提供了更多的視覺(jué)信息。因此,大量關(guān)于計(jì)算機(jī)視覺(jué)的研究均以單張彩色圖片為輸入。計(jì)算機(jī)視覺(jué)的研究目標(biāo)是讓計(jì)算機(jī)代替人類(lèi)完成諸如目標(biāo)檢測(cè)、圖像描述、人臉識(shí)別等任務(wù)。在人類(lèi)感知的尺度上,平面是人類(lèi)社會(huì)環(huán)境中最常見(jiàn)的結(jié)構(gòu)之一,并且具有強(qiáng)大的約束能力,約束著大量的點(diǎn)/線及其所攜帶的信息。各種曲面都可以用平面進(jìn)行近似,根據(jù)精度要求選擇擬合的平面數(shù)量。實(shí)際應(yīng)用中,許多計(jì)算機(jī)視覺(jué)任務(wù)都需要平面信息,比如:機(jī)器人領(lǐng)域中,識(shí)別地面、墻面等平面可用于路徑規(guī)劃、視覺(jué)導(dǎo)航,識(shí)別桌面、書(shū)架等平面可輔助機(jī)械手抓取和放置物品;增強(qiáng)現(xiàn)實(shí)、混合現(xiàn)實(shí)中,利用平面信息放置物品,或者更換桌面、地板、墻面的紋理可以進(jìn)行快速展示;三維場(chǎng)景重建中,用平面而非點(diǎn)云可以實(shí)現(xiàn)對(duì)一個(gè)城市大規(guī)模、簡(jiǎn)潔的重建。因此,高效準(zhǔn)確地從單張彩色圖中提取平面信息對(duì)以上各類(lèi)任務(wù)具有重要意義。本文針對(duì)基于單張彩色圖輸入的平面提取方法展開(kāi)研究,介紹這類(lèi)方法的基本概念,整理和歸納其相關(guān)工作,分析相關(guān)方案的優(yōu)缺點(diǎn),進(jìn)一步討論其發(fā)展方向。
假設(shè)輸入單張圖像I,平面提取的目標(biāo)是尋求一種目標(biāo)算法H,能準(zhǔn)確分割出圖像I中的平面區(qū)域P并估算平面的三維信息D:
H∶I→{P,D}
(1)
由該定義可知,經(jīng)算法輸出的平面信息包括兩部分:像素層面的平面分割結(jié)果和其在真實(shí)世界中的平面三維信息。平面分割結(jié)果具體指將圖像中的平面區(qū)域打上標(biāo)簽,并進(jìn)一步區(qū)分各個(gè)平面實(shí)例。常用的標(biāo)記方法分為兩種:一種是以像素為單位,通過(guò)將圖像中的像素點(diǎn)聚合從而形成平面;另一種是將圖像中平面區(qū)域看成一個(gè)整體,通過(guò)在圖像中構(gòu)造亞像素級(jí)的線條圍成平面。平面三維信息具體指平面在三維空間中的坐標(biāo)信息,可以定義為三維x-y-z坐標(biāo)系中一個(gè)方程的集合:
ax+by+cz+d=0,
f1(y,z)≤x≤g1(y,z),f2(x,z)≤y≤g2(x,z),f3(x,y)≤z≤g3(x,y)
(2)
式中,a,b,c,d為實(shí)數(shù),且a,b,c不全為0;P=(x,y,z)T表示空間平面上某一點(diǎn)的三維坐標(biāo);fi(·)和gi(·)(i=1,2,3)為空間平面/曲面方程,分別表示x,y,z取值范圍的下/上限。平面也可以使用三維法向量n的形式表示[1]:
(3)
(4)
式中,Q為圖像中一點(diǎn)的三維坐標(biāo),nT為平面A的平面向量。
值得注意的是,平面分割與平面三維信息并不是獨(dú)立的兩部分,平面分割的結(jié)果可提高計(jì)算平面三維信息的準(zhǔn)確度。反之,平面三維信息可以優(yōu)化分割出的平面邊緣信息。
作為目標(biāo)算法的輸入,單張彩色圖片由單目相機(jī)采集,本質(zhì)上是將現(xiàn)實(shí)中的三維場(chǎng)景投影在相機(jī)的二維成像平面上。顯然,投影過(guò)程中,在一定程度上會(huì)丟失場(chǎng)景的深度(或距離)維度,導(dǎo)致用肉眼觀察二維圖片易產(chǎn)生錯(cuò)覺(jué),如圖1(a)中的“巨人”與“侏儒”。因此,如何從單張彩色圖片中準(zhǔn)確估計(jì)平面的深度信息成為平面提取的一個(gè)難點(diǎn)。雖然深度的維度已經(jīng)丟失,但人類(lèi)肉眼觀察照片時(shí)都會(huì)有一個(gè)直觀的空間感,因?yàn)閳D片中的視覺(jué)線索包含了相應(yīng)的深度信息,比如近大遠(yuǎn)小、物體的遮擋、平行線的匯聚、熟知物體的大小關(guān)系等。除此之外,物體的紋理也可用于深度的估計(jì),比如物體的亮度、影子、顏色、清晰度等。然而,紋理有時(shí)不能用于深度估計(jì),甚至可能產(chǎn)生誤導(dǎo),比如白墻缺少紋理,而繪制在地上的3D畫(huà)則可能讓人誤以為地上出現(xiàn)了一個(gè)懸浮在空中的殿宇,如圖1(b)所示。此外,物體的語(yǔ)義信息也有助于平面提取,比如墻面幾乎都是平面,而大部分的籃球則不是平面。
圖1 單目相機(jī)成像示例
基于單張彩色圖輸入的平面提取首先是從圖片中提取特征。傳統(tǒng)方法關(guān)注的是幾何基元的提取,比如點(diǎn)、線段等;也會(huì)使用紋理信息,比如顏色、形狀等。神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力可以從像素點(diǎn)中提取信息,然后聚合成平面;也有研究是用神經(jīng)網(wǎng)絡(luò)提取圖片中點(diǎn)、線之類(lèi)的幾何基元來(lái)構(gòu)成平面。本文將基于單張彩色圖輸入的平面提取研究工作分為兩類(lèi):幾何方法提取平面、神經(jīng)網(wǎng)絡(luò)提取平面。
幾何方法提取平面使用一種自下而上的方法,即先尋找單張彩色圖片中的幾何基元(geometric primitive)來(lái)恢復(fù)三維信息,從而進(jìn)一步提取平面,圖2展示了幾何方法算法流程。為了提高平面提取精度,大部分幾何方法使用了一定的場(chǎng)景約束,最常用的是曼哈頓世界假設(shè)(Manhattan-world assumption)[2]。曼哈頓世界假設(shè)是指場(chǎng)景中不同朝向的平面應(yīng)相互正交,即分別對(duì)應(yīng)三維笛卡爾坐標(biāo)系中的xy面、xz面和yz面。文獻(xiàn)[3]的應(yīng)用場(chǎng)景為滿足曼哈頓世界假設(shè)的室內(nèi)環(huán)境。文獻(xiàn)[4]的目標(biāo)為水平地面,因此對(duì)環(huán)境的約束為無(wú)懸掛在空中的物體。文獻(xiàn)[5]使用最嚴(yán)格的場(chǎng)景約束,除了滿足曼哈頓世界假設(shè)的室內(nèi)環(huán)境,還要求場(chǎng)景中出現(xiàn)一個(gè)地板和一個(gè)天花板。文獻(xiàn)[6]則沒(méi)有任何場(chǎng)景約束。表格1總結(jié)了現(xiàn)有方法使用的特征、是否區(qū)分平面/非平面、深度估計(jì)和平面分割的方法以及處理的場(chǎng)景類(lèi)別,圖3展示了實(shí)驗(yàn)效果圖。
圖2 幾何方法算法流程
表1 幾何方法對(duì)比
注:第一行為輸入圖,第二行為各方法輸出的平面分割效果圖。
基于幾何的方法包含以下幾類(lèi)關(guān)鍵特征:
(1)線段。共面的線段是構(gòu)成平面的重要形式,線段分為直線、曲線。幾何方法中使用的都是直線段,可進(jìn)一步用于提取滅點(diǎn)。線段提取算法有Canny算子[7]、Sobel算子[8]、相位一致性[9]等。
(2)滅點(diǎn)。在三維空間中,平行的兩條直線投影到相機(jī)的二維成像平面后,兩條線會(huì)趨于一點(diǎn),該點(diǎn)稱為滅點(diǎn)。若兩條直線平行于相機(jī)成像平面,則滅點(diǎn)位于無(wú)窮遠(yuǎn)處,否則,滅點(diǎn)的位置可以被唯一確定。通過(guò)檢測(cè)一個(gè)平面中的多對(duì)平行線的滅點(diǎn),可以唯一確定該平面的法線方向[10]。滅點(diǎn)檢測(cè)算法有霍夫變換[11]、RANSAC[12]等。
(3)超像素。圖片中具有相似顏色、紋理等特性的相鄰像素點(diǎn)更可能位于同一平面上,這些像素點(diǎn)聚合成的大小不一的圖像塊就是超像素。使用超像素作為算法的輸入,可以大大降低輸入數(shù)據(jù)的維度和后續(xù)算法的復(fù)雜度,并剔除圖片中的異常像素點(diǎn)。超像素算法有g(shù)raph-based方法[13]、SLIC方法[14]等。
(4)特征點(diǎn)。特征點(diǎn)指圖片中含有豐富局部信息的點(diǎn),比圖像中的其他區(qū)域更有價(jià)值。特征點(diǎn)需包含紋理、顏色等可用于平面判斷的信息,并且對(duì)光照的變化具有魯棒性,特征點(diǎn)提取算法有SIFT[15]、SUFT[16]等。ORB[17]之類(lèi)的算法只能對(duì)灰度圖提取特征點(diǎn),丟失了彩色信息,因此不能用于平面信息提取。
大部分幾何方法使用馬爾可夫隨機(jī)場(chǎng)(Markov Random Field, MRF)估計(jì)深度信息。MRF也稱為概率無(wú)向圖模型,其中的某個(gè)隨機(jī)變量只與其相鄰的隨機(jī)變量有關(guān),與不相鄰的隨機(jī)變量無(wú)關(guān)。這與圖像的性質(zhì)相符,即圖像中每個(gè)點(diǎn)與周?chē)c(diǎn)的關(guān)系跟距離成反比。文獻(xiàn)[3]使用MRF從線段和超像素特征中估計(jì)深度信息,并使用拉普拉斯概率分布來(lái)優(yōu)化結(jié)果。文獻(xiàn)[4]使用MRF從紋理和霧霾信息中估計(jì)深度信息。文獻(xiàn)[6]先利用相關(guān)向量機(jī)(Relevance Vector Machine, RVM)[18]估計(jì)每個(gè)特征點(diǎn)的深度信息,然后通過(guò)MRF計(jì)算出平面方向。文獻(xiàn)[5]沒(méi)有使用MRF,而是利用滅點(diǎn)和線段的幾何關(guān)系推斷得到深度圖。
不同的幾何方法在分割平面時(shí)亦考慮了不同的處理方式。文獻(xiàn)[3]在使用MRF估計(jì)深度的同時(shí)完成平面分割,并且使用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian Network, DBN)專(zhuān)門(mén)分割地面,因?yàn)榈匕迮c很多平面(比如墻面)相連接,高質(zhì)量的地板分割有助于其他平面的提取。文獻(xiàn)[4]從圖片中分割出超像素,然后結(jié)合深度圖,利用廣度優(yōu)先搜索(Breadth-First Search,BFS)找出方向相似且相鄰的超像素融合成水平地面。文獻(xiàn)[5]將線段的連接情況與事先規(guī)定的12種情況對(duì)比,可以獲得三維結(jié)構(gòu)假設(shè),窮舉所有可能的12種假設(shè),保留深度圖中的每個(gè)區(qū)域中匹配度最高的假設(shè)作為平面,最終得到完整的平面提取。文獻(xiàn)[6]先根據(jù)RVM提取出的每個(gè)特征點(diǎn)位于平面的概率,用MRF將平面區(qū)域與非平面區(qū)域分割開(kāi),然后結(jié)合深度信息再次利用MRF從平面區(qū)域中分割出平面實(shí)例。對(duì)于SIFT算法無(wú)法從馬路等缺少紋理的區(qū)域提取特征點(diǎn)的情況,文獻(xiàn)[6]提出可以用間距相等的網(wǎng)格代替特征點(diǎn)。
在傳統(tǒng)的幾何方法中,雖然人們已經(jīng)可以成功提取諸如點(diǎn)、線這樣簡(jiǎn)單的幾何基元,但是如何進(jìn)一步從中提取高質(zhì)量的平面一直是個(gè)困難?,F(xiàn)有的幾何方法無(wú)法對(duì)圖片中的幾何線索有效建模。大部分幾何方法使用曼哈頓世界假設(shè)之類(lèi)的約束,但同時(shí)它們的應(yīng)用場(chǎng)景也受到了極大得約束。部分幾何方法還使用了一個(gè)約束——平面的邊緣由直線構(gòu)成,這導(dǎo)致它們無(wú)法提取邊緣為曲線的平面或只能提取其中的一部分?,F(xiàn)有的研究中,有些領(lǐng)域與本文研究的幾何方法相關(guān),比如矩形檢測(cè)[19-20]、場(chǎng)景理解[21]、恢復(fù)場(chǎng)景三維結(jié)構(gòu)[22-23]、表面布局恢復(fù)[24]等。
神經(jīng)網(wǎng)絡(luò)的本質(zhì)是特征提取器,其中著名的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的強(qiáng)大之處在于它的多層結(jié)構(gòu)能自動(dòng)學(xué)習(xí)特征,并且可以學(xué)習(xí)到多個(gè)層次的特征。神經(jīng)網(wǎng)絡(luò)提取平面的主要流程是利用現(xiàn)有的網(wǎng)絡(luò)作為編碼器對(duì)圖片信息進(jìn)行提取,然后通過(guò)幾個(gè)分支將這些信息解碼成平面/非平面掩膜、平面實(shí)例分割掩膜和深度圖,最終整合為完整的3D平面模型,圖4展示了神經(jīng)網(wǎng)絡(luò)提取平面的主要框架。表2總結(jié)了現(xiàn)有方法的提取平面思路、網(wǎng)絡(luò)主干、識(shí)別的平面數(shù)量和使用的數(shù)據(jù)集,圖5展示了實(shí)驗(yàn)效果圖。
圖4 神經(jīng)網(wǎng)絡(luò)算法流程
表2 神經(jīng)網(wǎng)絡(luò)方法對(duì)比
注:(1)第一行為輸入圖,第二行為各方法輸出的平面分割效果圖。(2)文獻(xiàn)[32]中輸入圖上的標(biāo)注為實(shí)驗(yàn)對(duì)比時(shí)添加,作為網(wǎng)絡(luò)輸入時(shí)無(wú)任何標(biāo)注。
大部分文獻(xiàn)通過(guò)聚合像素點(diǎn)來(lái)提取平面,主要思路是將平面提取問(wèn)題轉(zhuǎn)化為語(yǔ)義分割問(wèn)題或?qū)嵗指顔?wèn)題。其中,PlaneNet和PlaneRecover將平面提取問(wèn)題轉(zhuǎn)化為語(yǔ)義分割問(wèn)題。PlaneNet的網(wǎng)絡(luò)主干為DRNs網(wǎng)絡(luò)(Dilated Residual Networks)[33-34],它分別用3個(gè)分支分別預(yù)測(cè)平面方向、平面分割掩膜和非平面區(qū)域深度圖。PlaneRecover使用的全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[35]。FCN網(wǎng)絡(luò)將普通CNN[36-37]中最后的全連接層替換為卷積,從而可以一步預(yù)測(cè)圖片中的所有像素點(diǎn)的類(lèi)別。PlaneRecover利用圖片中物體的語(yǔ)義信息,從FCN網(wǎng)絡(luò)的輸出同時(shí)得到平面/非平面分割和平面實(shí)例分割,然后在FCN網(wǎng)絡(luò)中間維度最高的特征處連接1個(gè)分支以獲得平面實(shí)例的三維信息。但是PlaneNet和PlaneRecover只能預(yù)測(cè)固定數(shù)量的平面(前者10個(gè)后者5個(gè)),在復(fù)雜情況中可能表現(xiàn)糟糕。
Plane R-CNN和文獻(xiàn)[30]則使用實(shí)例分割方法提取平面。Plane R-CNN使用Mask R-CNN[38]獲取圖片的深度圖和其中的平面實(shí)例,并使用U-Net[39]專(zhuān)門(mén)優(yōu)化平面實(shí)例的邊界。它將平面面積的下限定為圖片大小的1%,因此平面數(shù)量沒(méi)有限制。文獻(xiàn)[30]基于ResNet-101-FPN[40],將平面/非平面分割當(dāng)作二分類(lèi)問(wèn)題,并使用嵌入式聯(lián)接(Associative Embedding)[41]來(lái)分割平面實(shí)例。嵌入式聯(lián)接的核心思想是在檢測(cè)環(huán)節(jié)給每個(gè)像素點(diǎn)分配一個(gè)編碼矢量,即實(shí)例標(biāo)簽,通過(guò)均值漂移算法將距離近的單元?jiǎng)澐譃橥粚?shí)例,因此也沒(méi)有限制平面數(shù)量。
文獻(xiàn)[32]的方法與上述文獻(xiàn)不同,在曼哈頓世界假設(shè)下,提取圖片中的3D線框(wireframe)然后提取平面。它的網(wǎng)絡(luò)主干為堆疊式沙漏網(wǎng)絡(luò)(Stacked Hourglass Network)[42],負(fù)責(zé)預(yù)測(cè)圖片中的線段、連接點(diǎn)、深度圖和滅點(diǎn),最終輸出三維的線框模型。此方法用直線和連接點(diǎn)組成平面,因此提取出的平面邊緣整齊平滑,而聚合像素的方法提取出的平面邊緣相對(duì)粗糙。
對(duì)于神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)集是極其重要的一部分,優(yōu)質(zhì)數(shù)據(jù)集有助于神經(jīng)網(wǎng)絡(luò)的性能提升。由表2可知,所有文獻(xiàn)使用的數(shù)據(jù)集都不是專(zhuān)門(mén)用于平面提取,是在現(xiàn)有數(shù)據(jù)集中通過(guò)特定的算法給數(shù)據(jù)打上所需類(lèi)型的標(biāo)簽。一種思路是利用colorD數(shù)據(jù)集中的深度信息,通過(guò)聚類(lèi)算法擬合出平面,但是任何聚類(lèi)算法都需要選定一個(gè)閾值,無(wú)論閾值怎么選擇,擬合出結(jié)果都會(huì)存在一定誤差,而且從現(xiàn)實(shí)世界中采集的數(shù)據(jù)集因?yàn)橛布毕莶豢杀苊鈳в幸欢ǖ脑肼?。為了克服這個(gè)問(wèn)題,以PlaneRecover為例,其主要使用來(lái)自人造環(huán)境的SYNTHIA數(shù)據(jù)集,利用損失函數(shù)和數(shù)據(jù)集中的語(yǔ)義標(biāo)注整合平面信息,即
(5)
式中,q為圖片中的一個(gè)像素點(diǎn),若q屬于“平面”類(lèi)別(比如建筑、馬路、圍墻等)則z(q)=1,若q屬于“非平面”類(lèi)別(比如天空,汽車(chē),行人等)則z(q)=0,pplane(q)為q位于平面的概率。
比較神經(jīng)網(wǎng)絡(luò)和幾何方法的實(shí)驗(yàn)效果圖(圖3和圖5),神經(jīng)網(wǎng)絡(luò)在平面分割和深度估計(jì)上的表現(xiàn)都優(yōu)于幾何方法。但是神經(jīng)網(wǎng)絡(luò)也存在一定問(wèn)題,比如容易過(guò)擬合、需要大量算力和數(shù)據(jù)集等。并且在所有神經(jīng)網(wǎng)絡(luò)方法都使用GPU加速的情況下,只有PlaneRecover和文獻(xiàn)[30]能達(dá)到實(shí)時(shí)計(jì)算。關(guān)于影響神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)深度信息的因素,文獻(xiàn)[43]使用在KITTI數(shù)據(jù)集[44]上訓(xùn)練過(guò)的MonoDepth網(wǎng)絡(luò)[45]進(jìn)行實(shí)驗(yàn),表明拍照時(shí)相機(jī)的姿態(tài)、圖片中物體的紋理和縱坐標(biāo)對(duì)深度估計(jì)都有一定的影響。有一個(gè)研究領(lǐng)域與本小節(jié)的神經(jīng)網(wǎng)絡(luò)研究相關(guān),即室內(nèi)房間布局的估計(jì)[46],其中研究的幾何結(jié)構(gòu)就是包含地板、墻面、天花板的簡(jiǎn)單盒子模型。
從基于單張彩色圖輸入的平面提取研究現(xiàn)狀可知,近三年的研究工作大部分都使用神經(jīng)網(wǎng)絡(luò)來(lái)提取平面,而之前的工作通常傳統(tǒng)的幾何方法。神經(jīng)網(wǎng)絡(luò)的提取效果優(yōu)于幾何方法,但提取速度受到一定限制。無(wú)論是何種方法,提取的平面邊緣都存在一定問(wèn)題:使用像素點(diǎn)聚合提取的平面邊緣粗糙不平滑,而通過(guò)直線段構(gòu)成平面的方法對(duì)邊緣為曲線的平面提取效果較差。
基于單張彩色圖輸入的平面提取的未來(lái)工作主要是進(jìn)一步提升平面分割和深度估計(jì)的精度。除此之外,還有很多拓展研究,比如:
(1)平面邊緣的優(yōu)化。如果平面由像素點(diǎn)構(gòu)成,可對(duì)平面邊緣進(jìn)行平滑處理,或使用直線/曲線擬合,或從圖片中提取邊緣信息后與平面的邊緣結(jié)合。如果平面由線條構(gòu)成,可以針對(duì)性地使用直線/曲線構(gòu)成平面。
(2)遮擋推理。單張彩色圖包含的信息有限,從中提取的平面會(huì)因遮擋而部分缺失,比如被桌子遮擋的墻面。使用圖片中已有的紋理對(duì)平面缺失處進(jìn)行填充,可極大提高平面重建的完整性和觀賞性。文獻(xiàn)[29]和文獻(xiàn)[32]對(duì)此略有涉及。
(3)絕對(duì)深度。由于缺失深度的維度,根據(jù)單張圖片重建出的三維模型與真實(shí)世界相差一個(gè)因子,即尺度??梢酝ㄟ^(guò)圖片內(nèi)特定物體的尺寸來(lái)確定絕對(duì)深度。
(4)幾何方法和神經(jīng)網(wǎng)絡(luò)方法的結(jié)合。兩類(lèi)方法各有優(yōu)缺點(diǎn),后續(xù)工作可通過(guò)取長(zhǎng)補(bǔ)短的方式結(jié)合兩類(lèi)方法,有以下兩種思路可供參考:一是,傳統(tǒng)方法難以有效建模圖像中的不規(guī)則線段等幾何信息,因此通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)圖像中的滅點(diǎn)、線段的位置等[32]能更有效的提取圖片中的幾何信息,進(jìn)而用傳統(tǒng)幾何方法根據(jù)已知的幾何結(jié)構(gòu)實(shí)現(xiàn)更高效的平面提取;二是,利用神經(jīng)網(wǎng)絡(luò)提取的特征點(diǎn)(例如SuperPoint[47])替代傳統(tǒng)人工特征點(diǎn),提取更具有描述性和重復(fù)性的特征,進(jìn)行平面位置以及平面邊緣的定位。
從單張彩色圖和平面結(jié)構(gòu)的特點(diǎn)出發(fā),本文綜述了基于單張彩色圖輸入的平面提取問(wèn)題。本文將現(xiàn)有的研究方法劃分為幾何方法和神經(jīng)網(wǎng)絡(luò)兩類(lèi),分析了兩類(lèi)方法的算法流程和優(yōu)缺點(diǎn),并以表格形式對(duì)比各類(lèi)方法,最后展示了所有方法的實(shí)驗(yàn)效果圖。然而,現(xiàn)實(shí)環(huán)境往往復(fù)雜多樣,導(dǎo)致現(xiàn)有的基于單張彩色圖輸入的平面提取工作無(wú)法應(yīng)用到多種場(chǎng)景中,有些方法使用強(qiáng)烈的場(chǎng)景約束,從而限制了其應(yīng)用范圍。在提高平面提取精度的基礎(chǔ)上,未來(lái)工作可以進(jìn)一步針對(duì)平面邊緣的優(yōu)化、遮擋推理、絕對(duì)深度的恢復(fù),以及幾何方法和神經(jīng)網(wǎng)絡(luò)方法的結(jié)合等展開(kāi)進(jìn)一步研究。