對于在不可見的環(huán)境中導航到給定對象類別的任務,使用基于端到端學習的導航方法是很難實現(xiàn)的。因此,來自卡內(nèi)基梅隆大學的Devendra Singh Chaplot、Ruslan Salakhutdinov,來自Facebook人工智能研究實驗室的Dhiraj Gandhi,以及卡內(nèi)基梅隆大學機器人研究所副教授兼Facebook人工智能研究實驗室科研管理Abhinav Gupta提出了“面向目標的語義探索”模塊系統(tǒng)。該模型在CVPR 2020 Habitat ObjectNav挑戰(zhàn)賽上獲得了優(yōu)勝。
本研究探索了對象目標導航的問題,該問題涉及在不可見的環(huán)境中導航到給定對象類別實例?;诙说蕉藢W習的導航方法在這個任務上很困難,因為它們在探索和長期規(guī)劃方面效率低下。我們提出了一個模塊系統(tǒng),稱為“面向目標的語義探索”,它構建了一個情景語義地圖,并根據(jù)目標對象類別使用它來有效地探索環(huán)境。在視覺上逼真的仿真環(huán)境中的實證結果顯示,所提出的模型性能優(yōu)于許多不同的本研究探索了對象目標導航的問題,該問題涉及在不可見的環(huán)境中導航到給定對象類別實例?;诙说蕉藢W習的導航方法在這個任務上很困難,因為它們在探索和長期規(guī)劃方面效率低下。我們提出了一個模塊系統(tǒng),稱為“面向目標的語義探索”,它構建了一個情景語義地圖,并根據(jù)目標對象類別使用它來有效地探索環(huán)境。在視覺上逼真的仿真環(huán)境中的實證結果顯示,所提出的模型性能優(yōu)于許多不同的基線,包括基于端到端學習的方法以及基于模塊化地圖的方法。消融分析表明,該模型學習了場景中對象相對排列的語義先驗,并使用它們進行了有效的探索。與領域無關的(domain-agnostic)模塊設計使我們能夠將該模型遷移到移動機器人平臺上,并在現(xiàn)實世界中實現(xiàn)類似的目標導航性能。
引言
自主導航是構建能夠體現(xiàn)智能體智能性的核心要求。假設一個自主智能體被要求在不可見環(huán)境中導航到“餐桌”(如圖1所示)。在語義理解方面,該任務不僅涉及到對象檢測,即“餐桌”是什么樣子的,而且涉及到場景理解,即“餐桌”在哪里更容易被找到。后者需要長期的情景記憶,也需要學習場景中對象相對排列的語義先驗(semantic prior)。長期的情景記憶使智能體能夠記錄已探索和未探索的區(qū)域。學習語義先驗使智能體能夠使用情景記憶來決定下一步要探索哪個區(qū)域,以便在最短的時間內(nèi)找到目標對象。
我們?nèi)绾卧O計一個計算模型來建立情景記憶,并基于語義先驗有效地使用它,以便在不可見的環(huán)境中高效地導航。一種流行的方法是通過循環(huán)神經(jīng)網(wǎng)絡使用端到端強化或模仿學習來建立情景記憶,并隱性地學習語義先驗[1,2,3,4]。然而,基于端到端學習的方法存在樣本復雜度大、泛化能力差的問題,因為它們會記憶對象在訓練環(huán)境中的位置和外觀。
最近,《學習探索使用主動神經(jīng)SLAM》[5]中推出了一個基于模塊化學習的系統(tǒng),稱為“主動神經(jīng)SLAM”(Active Neural SLAM),該系統(tǒng)可以構建顯性的障礙地圖來維持情景記憶。顯性地圖還使分析路徑規(guī)劃成為可能,從而大大提高了探索和樣本的復雜性。然而,旨在使探索覆蓋面最大化的主動神經(jīng)SLAM并沒有在情景記憶中進行語義編碼,因此也沒有學習語義先驗。在本文中,我們擴展了主動神經(jīng)SLAM系統(tǒng),以構建顯性的語義地圖,并使用語義感知的長期策略學習語義先驗。
我們所提出的方法稱為“面向目標的語義探索”(Goal-Oriented Semantic Exploration,SemExp)。與《學習探索使用主動神經(jīng)SLAM》[5]相比,該方法進行了兩個改進,以處理語義導航任務。首先,它構建了類似于《學習探索使用主動神經(jīng)SLAM》[5]中自頂向下的度量映射,但是添加了額外的通道來顯性地對語義類別進行編碼。我們沒有像該研究[5]中那樣直接從第一人稱圖像(first-person image)預測自頂向下的映射,而是使用第一人稱預測,然后進行可區(qū)分的幾何投影。這使我們能夠利用現(xiàn)有的經(jīng)過預訓練的對象檢測和語義分割模型來構建語義地圖,而不是從頭開始學習。其次,我們沒有使用僅基于障礙地圖的覆蓋面最大、目標不確定的探索策略,而是訓練了一個面向目標的語義探索策略,該策略可以學習語義先驗以實現(xiàn)高效的導航。這些改進使我們能夠處理具有挑戰(zhàn)性的對象目標導航任務。我們在視覺上逼真的仿真環(huán)境中進行的實驗表明,SemExp的性能顯著優(yōu)于先前的方法。我們所提出的模型還贏得了CVPR 2020 Habitat ObjectNav挑戰(zhàn)賽3。
相關研究
下面我們將簡要討論語義地圖和導航的相關研究。
語義地圖。有大量研究使用來自運動和即時定位與地圖構建(Simultaneous Localization and Mapping,SLAM)的結構來構建2D和3D的障礙地圖[6,7,8]。我們請感興趣的讀者參閱Fuentes-Pacheco等人[9]關于SLAM的調(diào)查。一些更相關的研究使用概率圖模型(probabilistic graphical model)[10]或使用最近的基于學習的計算機視覺模型[11,12]在地圖中加入語義。與這些研究不同的是,我們使用可區(qū)分的投影操作來學習地圖空間中帶有監(jiān)督的語義地圖。這限制了由于第一人稱語義預測的小誤差而造成的地圖中的大誤差。
導航。經(jīng)典的導航方法使用顯性的幾何地圖通過路徑規(guī)劃來計算到達目標位置的路徑[13,14,15,16]。目標的選擇是基于啟發(fā)式方法的,如基于前沿的探索算法(Frontier-based Exploration algorithm)[17]。與此不同,我們使用基于學習的策略,根據(jù)對象目標類別,使用語義先驗選擇探索目標。
最近的基于學習的方法使用端到端強化或模仿學習來訓練導航策略。這些方法包括使用循環(huán)神經(jīng)網(wǎng)絡[1,18,19,20,21,22,23,24]、結構化空間表征[2,25,26,27,28]和拓撲表征[29,30]。最近處理對象目標導航的研究包括[31,32,33,4]。Wu等人[31] 試圖通過在語義信息(如房間類型)上構建概率圖模型來探索環(huán)境之間結構的相似性。類似地,Yang等人[32]提出使用圖卷積網(wǎng)絡(Graph Convolutional Network)將語義先驗加入深度強化學習框架。Wortsman等人[33]提出了一種元強化學習(meta-reinforcement learning)方法,在這種方法中,智能體學習自監(jiān)督的交互損失(self-supervised interaction loss),從而鼓勵有效的導航,甚至在測試環(huán)境中持續(xù)學習。Mousavian等人[4]使用在輸入觀測上運行先進的計算機視覺算法所獲得的語義分割和檢測掩膜,并使用深度網(wǎng)絡在此基礎上學習導航策略。在上述方法中,學習的表征都是隱性的,而且模型需要從目標驅動的獎勵中隱性地學習避障、情景記憶、規(guī)劃和語義先驗。對于不同的導航任務,顯性地圖表征已經(jīng)被證明比基于端到端學習的方法提高了性能和樣本效率[5,34],然而它們是隱性地學習語義的。在本研究中,我們使用顯性的結構化語義地圖表征,這使我們能夠學習語義感知的探索策略并處理對象目標導航任務。同時進行的研究考察在學習探索策略中使用類似的語義地圖來改進對象檢測系統(tǒng)[35]。
方法論
對象目標任務的定義。在對象目標任務[20,36]中,目標是導航到給定對象類別的實例,如“椅子”或“床”。智能體在環(huán)境中的一個隨機位置進行初始化,并接收目標對象類別作為輸入。在每個時間步驟,智能體接收視覺觀測和傳感器姿態(tài)讀數(shù),并采取導航操作。該視覺觀測由第一人稱和深度圖像組成。動作空間由四個動作組成:向前移動、向左轉、向右轉、停止。當智能體認為它已經(jīng)接近目標對象時,它需要執(zhí)行“停止”動作。如果到目標對象的距離小于某個閾值,,當智能體執(zhí)行“停止”動作時,那么該情景被認為是成功的。在固定的最大時間步值(=500)之后,該情景終止。
概述。我們提出了一個模塊化模型,稱為“面向目標的語義探索”(Goal-Oriented Semantic Exploration,SemExp),以處理對象目標導航任務(概覽如圖2所示)。它由兩個可學習的模塊組成,即“語義映射”(Semantic Mapping)和“面向目標的語義策略”(Goal-Oriented Semantic Policy)。語義映射模塊隨著時間推移構建語義地圖;面向目標的語義策略根據(jù)語義地圖選擇長期目標,以高效地達到給定的對象目標。基于分析規(guī)劃器(analytical planner)的確定性局部策略被用于執(zhí)行低層次導航動作,以達到長期目標。我們首先對我們的模型所使用的語義地圖表征進行描述,然后對各模塊進行描述。
語義地圖表征。SemExp模型在內(nèi)部維持了語義度量映射和智能體的位姿??臻g地圖是一個矩陣,其中表示地圖的大小,該空間地圖中的每個元素對應物理世界中大小為25cm2 (5cm×5cm)的單元。為語義地圖中的通道數(shù),其中為語義類別的總數(shù)。前兩個通道代表障礙和探索區(qū)域,其余通道分別代表一個對象類別。通道中的每個元素都代表對應的位置是障礙、已探索或者包含對應類別的對象。在一個情景開始時,地圖被初始化為所有都是0,。姿態(tài) 表示該智能體在時刻的x、y坐標和方向。該智能體總是從地圖的中心開始,在情景開始時朝向東,。
語義映射。為了構建語義地圖,我們需要對在視覺觀測中看到的對象的語義類別和分割進行預測。最好使用現(xiàn)有的對象檢測和語義分割模型,而不是從頭開始學習。主動神經(jīng)SLAM(Active Neural SLAM)模型直接從的觀測預測自頂向下的映射,因此,該模型沒有任何機制來整合預訓練的對象檢測或語義分割系統(tǒng)。相反,我們在第一人稱視角中預測語義分割,并使用可區(qū)分的投影將第一人稱預測轉換為自頂向下的映射。這使我們能夠使用現(xiàn)有的預訓練模型進行第一人稱語義分割。然而,第一人稱語義分割中的小誤差會導致投影后的地圖出現(xiàn)大誤差。我們通過在第一人稱空間之外增加地圖空間的損失來克服這一限制。
圖3是語義映射模塊的概覽。深度觀測被用于計算點云。點云中的每個點都與預測的語義類別相關聯(lián)。使用預訓練的Mask RCNN[37]在觀測上對語義類別進行預測。然后使用可區(qū)分的幾何計算將點云中的每個點投影到3D空間中,以獲得體素表征。再將體素表征轉換為語義地圖。將所有障礙、所有單元和每個類別的體素表征的高度維度相加,得到投影語義地圖的不同通道。然后使該投影語義地圖通過去噪神經(jīng)網(wǎng)絡,得到最終的語義地圖預測。如《學習探索使用主動神經(jīng)SLAM》[5]所述,該地圖使用空間轉換(spatial transformation)和通道智慧池化(channel-wise pooling)的方法隨著時間聚合。在語義分割和語義地圖預測上,使用帶有交叉熵損失(crossentropy loss)的有監(jiān)督學習方法訓練該語義映射模塊。該幾何投影是使用可區(qū)分的操作實現(xiàn)的,這樣一來,如果需要的話,在語義地圖預測上的損失可以反向傳播到整個模塊。
面向目標的語義策略。面向目標的語義策略根據(jù)當前語義地圖確定一個長期目標,以達到給定的對象目標。如果類別對應的通道有一個非零元素,即觀測到對象目標,那么簡單地選擇所有非零元素作為長期目標。如果對象目標沒有被觀測到,那么面向目標的語義策略需要選擇一個最有可能被找到的目標類別對象作為長期目標。這需要學習對象和區(qū)域的相對排列的語義先驗。我們使用神經(jīng)網(wǎng)絡來學習這些語義先驗。它將語義地圖、智能體當前和過去的位置以及對象目標作為輸入,并在自頂向下的地圖空間中預測長期目標。
基于目標的語義策略使用強化學習的方法進行訓練,并以距離縮短到最近的目標對象作為獎勵。我們在一個粗略的時間尺度上對長期目標采樣,每u=25步采樣一次,類似于《學習探索使用主動神經(jīng)SLAM》[5]中目標不確定的全局策略。這就將RL探索的時間范圍指數(shù)化地減少,從而減少了樣本的復雜度。
確定性局部策略。局部策略使用快速行進方法(Fast Marching Method)[16],根據(jù)語義地圖的障礙通道,從當前位置規(guī)劃出一條通往長期目標的路徑。它只是沿著通往路徑采取確定性的動作以達到長期目標。我們使用了確定性的局部策略與《學習探索使用主動神經(jīng)SLAM》[5]中經(jīng)過訓練的局部策略作比較,因為它們在我們的實驗中表現(xiàn)出了類似的性能。請注意,盡管上述語義策略在粗略的時間尺度內(nèi)起作用,但局部策略在細小的時間尺度內(nèi)起作用。在每一個時間步中,我們都會更新地圖并重新規(guī)劃通往長期目標的路徑。
結論
在本文中,我們提出了一種基于語義感知的探索模型來處理大型現(xiàn)實環(huán)境中的對象目標導航任務。該模型與先前的方法相比有兩個主要的改進:一是將語義加入顯性的情景記憶;二是學習面向目標的語義探索策略。我們的方法在對象目標導航任務上實現(xiàn)了杰出的性能,并在CVPR 2020 Habitat ObjectNav挑戰(zhàn)賽上獲勝。消融研究表明,該模型可以學習語義先驗,從而實現(xiàn)更高效的目標驅動導航。與領域無關的模塊設計讓我們成功地將該模型遷移到現(xiàn)實世界中。我們還分析了該模型的誤差模式,并在未來的研究中沿著兩個重要的維度(語義映射和面向目標的探索)量化改進的空間。該模型還可以被擴展以處理一系列的對象目標,通過利用情景地圖為后續(xù)目標進行更高效的導航。
參考文獻
[1] Piotr Mirowski,Razvan Pascanu,F(xiàn)abio Viola,Hubert Soyer,Andrew J Ballard,Andrea Banino,Misha Denil,Ross Goroshin,Laurent Sifre, Koray Kavukcuoglu,et al. Learning to navigate in complex environments. ICLR,2017.
[2] Saurabh Gupta,James Davidson, Sergey Levine,Rahul Sukthankar,and Jitendra Malik. Cognitive mapping and planning for visual navigation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pages 2616-2625,2017.
[3] Yuke Zhu,Roozbeh Mottaghi,Eric Kolve,Joseph J Lim,Abhinav Gupta,Li Fei-Fei, and Ali Farhadi. Target-driven visual navigation in indoor scenes using deep reinforcement learning. In 2017 IEEE international conference on robotics and automation(ICRA),pages 3357-3364. IEEE,2017.
[4] Arsalan Mousavian,Alexander Toshev, Marek Fi?er,Jana Ko?eck,Ayzaan Wahid,and James Davidson. Visual representations for semantic target driven navigation. In 2019 International Conference on Robotics and Automation(ICRA),pages 8846-8852. IEEE, 2019.
[5] Devendra Singh Chaplot,Dhiraj Gandhi, Saurabh Gupta,Abhinav Gupta,and Ruslan Salakhutdinov. Learning to explore using active neural slam. In International Conference on Learning Representations(ICLR),2020.
[6] Peter Henry,Michael Krainin,Evan Herbst,Xiaofeng Ren,and Dieter Fox. Rgb-d mapping:Using depth cameras for dense 3d modeling of indoor environments. In Experimental robotics,pages 477-491. Springer, 2014.
[7] Shahram Izadi,David Kim,Otmar Hilliges,David Molyneaux,Richard Newcombe, Pushmeet Kohli,Jamie Shotton,Steve Hodges, Dustin Freeman,Andrew Davison,and Andrew Fitzgibbon. KinectFusion:real-time 3D reconstruction and interaction using a moving depth camera. UIST,2011.
[8] Noah Snavely,Steven M Seitz,and Richard Szeliski. Modeling the world from internet photo collections. International journal of computer vision,80(2):189-210,2008.
[9] J. Fuentes-Pacheco,J. Ruiz-Ascencio, and J. M. Rendón-Mancha. Visual simultaneous localization and mapping:a survey. Artificial Intelligence Review,2015.
[10] Sean L Bowman,Nikolay Atanasov, Kostas Daniilidis,and George J Pappas. Probabilistic data association for semantic slam. In 2017 IEEE international conference on robotics and automation(ICRA),pages 1722-1729. IEEE, 2017.
[11] Liang Zhang,Leqi Wei,Peiyi Shen,Wei Wei,Guangming Zhu,and Juan Song. Semantic slam based on object detection and improved octomap. IEEE Access,6:75545-75559,2018.
[12] Lingni Ma,J?rg Stückler,Christian Kerl,and Daniel Cremers. Multi-view deep learning for consistent semantic mapping with rgb-d cameras. In 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),pages 598-605. IEEE,2017.
[13] Lydia E Kavraki,Petr Svestka,J-C Latombe,and Mark H Overmars. Probabilistic roadmaps for path planning in high-dimensional configuration spaces. RA,1996.
[14] Steven M Lavalle and James J Kuffner Jr. Rapidly-exploring random trees:Progress and prospects. In Algorithmic and Computational Robotics:New Directions,2000.
[15] John Canny. The complexity of robot motion planning. MIT press,1988.
[16] James A Sethian. A fast marching level set method for monotonically advancing fronts. Proceedings of the National Academy of Sciences,93(4):1591-1595,1996.
[17] Brian Yamauchi. A frontier-based approach for autonomous exploration. In cira, volume 97,page 146,1997.
[18] Guillaume Lample and Devendra Singh Chaplot. Playing FPS games with deep reinforcement learning. In Thirty-First AAAI Conference on Artificial Intelligence,2017.
[19] Devendra Singh Chaplot and Guillaume Lample. Arnold:An autonomous agent to play fps games. In Thirty-First AAAI Conference on Artificial Intelligence,2017.
[20] Manolis Savva,Angel X. Chang,Alexey Dosovitskiy,Thomas Funkhouser,and Vladlen Koltun. MINOS:Multimodal indoor simulator for navigation in complex environments. arXiv:1712.03931,2017.
[21] Karl Moritz Hermann,F(xiàn)elix Hill,Simon Green,F(xiàn)umin Wang,Ryan Faulkner,Hubert Soyer,David Szepesvari,Wojtek Czarnecki,Max Jaderberg,Denis Teplyashin,et al. Grounded language learning in a simulated 3d world. arXiv preprint arXiv:1706.06551,2017.
[22] Devendra Singh Chaplot,Kanthashree Mysore Sathyendra,Rama Kumar Pasumarthi, Dheeraj Rajagopal,and Ruslan Salakhutdinov. Gated-attention architectures for task-oriented language grounding. arXiv preprint arXiv:1706.07230,2017.
[23] Manolis Savva,Abhishek Kadian, Oleksandr Maksymets,Yili Zhao,Erik Wijmans, Bhavana Jain,Julian Straub,Jia Liu,Vladlen Koltun, Jitendra Malik,et al. Habitat:A platform for embodied ai research. In Proceedings of the IEEE International Conference on Computer Vision, pages 9339-9347,2019.
[24] Erik Wijmans,Abhishek Kadian,Ari Morcos,Stefan Lee,Irfan Essa,Devi Parikh, Manolis Savva,and Dhruv Batra. Decentralized distributed ppo:Solving pointgoal navigation. arXiv preprint arXiv:1911.00357,2019.
[25] Emilio Parisotto and Ruslan Salakhutdinov. Neural map:Structured memory for deep reinforcement learning. ICLR,2018.
[26] Devendra Singh Chaplot,Emilio Parisotto,and Ruslan Salakhutdinov. Active neural localization. ICLR,2018.
[27] Joao F Henriques and Andrea Vedaldi. Mapnet:An allocentric spatial memory for mapping environments. In proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pages 8476–8484,2018.
[28] Daniel Gordon,Aniruddha Kembhavi, Mohammad Rastegari,Joseph Redmon,Dieter Fox,and Ali Farhadi. Iqa:Visual question answering in interactive environments. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pages 4089-4098,2018.
[29] Nikolay Savinov,Alexey Dosovitskiy, and Vladlen Koltun. Semi-parametric topological memory for navigation. In International Conference on Learning Representations(ICLR), 2018.
[30] Nikolay Savinov,Anton Raichuk, Rapha?l Marinier,Damien Vincent,Marc Pollefeys,Timothy Lillicrap,and Sylvain Gelly. Episodic curiosity through reachability. In ICLR, 2019.
[31] Yi Wu,Yuxin Wu,Aviv Tamar,Stuart Russell,Georgia Gkioxari,and Yuandong Tian. Learning and planning with a semantic model. arXiv preprint arXiv:1809.10842,2018.
[32] Wei Yang,Xiaolong Wang,Ali Farhadi, Abhinav Gupta,and Roozbeh Mottaghi. Visual semantic navigation using scene priors. arXiv preprint arXiv:1810.06543,2018.
[33] Mitchell Wortsman,Kiana Ehsani, Mohammad Rastegari,Ali Farhadi,and Roozbeh Mottaghi. Learning to learn how to learn:Self-adaptive visual navigation using meta-learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pages 6750-6759,2019.
[34] Devendra Singh Chaplot,Ruslan Salakhutdinov,Abhinav Gupta,and Saurabh Gupta. Neural topological slam for visual navigation. In CVPR,2020.
[35] Devendra Singh Chaplot,Helen Jiang, Saurabh Gupta,and Abhinav Gupta. Semantic curiosity for active visual learning. arXiv preprint arXiv:2006.09367,2020.
[36] Peter Anderson,Angel Chang,Devendra Singh Chaplot,Alexey Dosovitskiy,Saurabh Gupta,Vladlen Koltun,Jana Kosecka,Jitendra Malik,Roozbeh Mottaghi,Manolis Savva,et al. On evaluation of embodied navigation agents. arXiv preprint arXiv:1807.06757,2018.
[37] K. He,G. Gkioxari,P. Dollár, and R. Girshick. Mask r-cnn. In 2017 IEEE International Conference on Computer Vision (ICCV), pages 2980-2988,2017.