●創(chuàng)新點
給定一張圖像,人類可以根據(jù)以往的視覺經(jīng)驗推斷出 3D 景深,而如何讓計算機從單張圖片推斷 3D結(jié)構(gòu)一直是計算機視覺領(lǐng)域的難點和熱點?,F(xiàn)有的 CNN+Depth 或者CNN+SLAM 技術(shù)通常是直接利用深度圖進行監(jiān)督學(xué)習(xí),以及利用幀間轉(zhuǎn)移的 ground-truth pose 技術(shù)進行監(jiān)督學(xué)習(xí)。然而,這類監(jiān)督學(xué)習(xí)的方法需要的數(shù)據(jù)成本較高,難以獲取大規(guī)模訓(xùn)練數(shù)據(jù)。在小數(shù)據(jù)集上訓(xùn)練,往往導(dǎo)致這些方法在未見過的場景下不能正常工作。目前,CNN與Depth以及 SLAM 的結(jié)合都停留在實驗室階段,由于自動駕駛面臨復(fù)雜多變的道路場景,這些監(jiān)督學(xué)習(xí)的方法都不太適用。美國加利福尼亞大學(xué)伯克利分校的研究人員采用了無監(jiān)督的方法針對視頻數(shù)據(jù)進行訓(xùn)練,從而對單張圖片的深度以及連續(xù)幀之間的車輛運動進行估計,為 CNN 在自動駕駛領(lǐng)域的應(yīng)用帶來了新的啟發(fā)。
●方法和結(jié)果
該研究組利用視頻連續(xù)幀不同視角的幾何信息作為監(jiān)督信號,訓(xùn)練了一種端到端的單目圖像深度估計和車輛運動估計構(gòu)架,其中包括一個用于單一視角深度估計的CNN+Depth,以及用于連續(xù)幀間運動估計的 Pose CNN。該方法通過將當前幀圖像結(jié)合預(yù)測的深度圖,并將幀間轉(zhuǎn)移投影到臨近幀上,計算像素誤差,從而對兩個網(wǎng)絡(luò)進行聯(lián)合訓(xùn)練。在 KITTI 數(shù)據(jù)集上的評估結(jié)果顯示,該方法和之前用 ground-truth pose或者 Depth 進行監(jiān)督的方法性能是相當?shù)?,并且運動估計的結(jié)果和現(xiàn)有的通用 SLAM 方法性能相當。
應(yīng)用前景
在自動駕駛領(lǐng)域,這種無監(jiān)督的方法使大規(guī)模的訓(xùn)練成為可能,即使 pose 估計的精度不能滿足實際應(yīng)用,單張圖像的深度圖對特征點的選擇也有很好的指導(dǎo)意義。此外,該方法可以解決 SLAM 技術(shù)中的重要問題,即如何濾除場景中的運動物體。研究者們相信這一技術(shù)可以應(yīng)用到其他領(lǐng)域中去,在訓(xùn)練數(shù)據(jù)缺乏標記的情況下讓機器學(xué)習(xí)發(fā)揮作用。
Source:Tinghui Zhou,Matthew Brown,Noah Snavely,et al.Unsupervised Learning of Depth and Ego-Motion from Video[A].Computer Vision and Pattern Recognition 2017[C],arXiv:1704.07813.