穆莉莉 郭楓
摘要:同時(shí)定位和地圖構(gòu)建技術(shù)(SLAM)在移動(dòng)機(jī)器人自主導(dǎo)航領(lǐng)域有著廣泛的應(yīng)用。首先列舉了國(guó)內(nèi)外具有代表性的單目SLAM算法,并簡(jiǎn)要介紹了這些算法的概況;其次依托這些算法闡述并分析了單目視覺SLAM過程中的關(guān)鍵步驟,包括初始化,特征點(diǎn)跟蹤,直接法跟蹤,回環(huán)檢測(cè),后端優(yōu)化步驟的原理和現(xiàn)有的處理方法;最后對(duì)未來視覺SLAM中的多傳感器融合,深度學(xué)習(xí)的發(fā)展趨勢(shì)做了總結(jié)。
關(guān)鍵詞:?jiǎn)文恳曈X;同時(shí)定位與地圖構(gòu)建;圖優(yōu)化;多傳感器融合;深度學(xué)習(xí)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)32-0197-04
Abstract: Simultaneous Localization and Mapping (SLAM) has a wide range of applications in the field of mobile robot autonomous navigation. Firstly, the representative monocular SLAM algorithms at home and abroad are listed, and the overview of these algorithms is briefly introduced. Secondly, based on these algorithms, the theories and existing method of key steps in the monocular visual SLAM process include initialization, feature tracking, direct method tracking, loop detection, back-end optimization are described and analyzed. Finally, the trend of future visual SLAM involed multi-sensor fusion and deep learning is summarized.
Key words: monocular vision; simultaneous location and mapping; graph optimization; multi-sensor fusion; deep learning
1 引言
同時(shí)定位與地圖構(gòu)建SLAM(Simultaneous Localization and Mapping)于1987年由Smith Self和Che-eseman兩位學(xué)者提出[1],是當(dāng)前移動(dòng)機(jī)器人研究的核心。SLAM研究的主要問題集中在如何在缺少先驗(yàn)信息的環(huán)境中利用自身攜帶傳感器進(jìn)行準(zhǔn)確的自身定位和地圖構(gòu)建。當(dāng)前,隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,SLAM對(duì)傳感器的選擇逐漸由開始的激光雷達(dá)向視覺相機(jī)發(fā)展,相機(jī)具有價(jià)格低廉,獲取信息豐富,小范圍內(nèi)定位精度高的優(yōu)點(diǎn),將其應(yīng)用于移動(dòng)機(jī)器人SLAM具有更好的效果,因此視覺SLAM成為目前SLAM研究領(lǐng)域中一個(gè)重要的發(fā)展方向,其中結(jié)構(gòu)最簡(jiǎn)單的單目相機(jī)被廣泛研究和應(yīng)用。本文將從單目視覺SLAM過程的關(guān)鍵步驟出發(fā),介紹單目視覺SALM中關(guān)鍵步驟的原理和實(shí)現(xiàn)過程,綜述當(dāng)前的發(fā)展現(xiàn)狀和未來的發(fā)展趨勢(shì)。
2 單目視覺SLAM算法
在SLAM技術(shù)發(fā)展進(jìn)程中,國(guó)外的研究團(tuán)隊(duì)做出了重要的貢獻(xiàn)。2007年英國(guó)倫敦帝國(guó)理工學(xué)院的A.J.Davison教授及其團(tuán)隊(duì)提出了單目視覺SLAM系統(tǒng)MonoSLAM[2],采用概率橢圓主動(dòng)搜索的方式匹配特征點(diǎn),在線創(chuàng)建了稀疏的地圖,真正意義上實(shí)現(xiàn)了視覺SLAM的實(shí)時(shí)化,是視覺SLAM一個(gè)里程碑式的工作。同年,Klein等提出了一種跟蹤和建圖并行的SLAM算法PTAM[3],它也是第一個(gè)使用非線性優(yōu)化作為優(yōu)化方法的SLAM算法,對(duì)比基于濾波器作為后端優(yōu)化的算法,可取得更好的優(yōu)化效果。Engel J等人于2014年提出的LSD-SLAM[5]利用直接法跟蹤,避免了特征點(diǎn)提取,構(gòu)建了半稠密地圖,與稀疏特征點(diǎn)法不同的是,它采用單目創(chuàng)建信息更為豐富的地圖且可以實(shí)時(shí)運(yùn)行。Forster C等人在2014年設(shè)計(jì)了一個(gè)半直接SLAM算法SVO[6],它提取關(guān)鍵點(diǎn)的同時(shí)用周圍圖像塊的亮度信息估計(jì)相機(jī)的運(yùn)動(dòng),用逆深度[7]表示關(guān)鍵點(diǎn)深度,用深度濾波器迭代計(jì)算關(guān)鍵點(diǎn)位置,該算法特點(diǎn)是速度極快。2015年R Mur-Artal等繼承PTAM大體框架研究了一種十分成熟的SLAM算法ORB-SLAM[4], 它首次將SLAM過程分成了特征點(diǎn)跟蹤,局部建圖,回環(huán)融合三個(gè)線程,在跟蹤和優(yōu)化能力上相較于以前的算法有了巨大的提升。
國(guó)內(nèi)對(duì)SLAM技術(shù)研究起步較晚,但其中也不乏一些優(yōu)秀的算法。2013年浙江大學(xué)Wei等提出的RDSLAM[8]采用全局SIFT[9]特征匹配,并用KD-Tree加速了匹配過程,同時(shí)基于時(shí)序先驗(yàn)自適應(yīng) RANSAC[10]方法可以有效剔除誤匹配,該算法能魯棒地處理動(dòng)態(tài)場(chǎng)景中包括物體位置改變或被遮擋的情況下的圖像匹配問題,具有十分重要的現(xiàn)實(shí)意義。2016年,浙江大學(xué)章國(guó)鋒等人等提出了ENFT-SLAM算法,是ENFT-SfM[11]實(shí)時(shí)化算法,它改進(jìn)了傳統(tǒng)的特征點(diǎn)跟蹤方式,提出了非連續(xù)特征跟蹤方法和分段式全局優(yōu)化的方法,這兩種方法對(duì)SLAM過程中場(chǎng)景變化,多回路閉合的情況十分友好。
3 單目視覺SLAM關(guān)鍵步驟
單目視覺SLAM算法流程如圖1,主要包括圖像信息的獲取、初始化、視覺里程計(jì)、回環(huán)檢測(cè)、后端優(yōu)化、地圖構(gòu)建等幾個(gè)步驟。
圖像信息直接由單目相機(jī)獲?。粏文肯鄼C(jī)不同于深度相機(jī)和雙目相機(jī),其不可以直接求地圖點(diǎn)的深度,故必須通過初始化分解出相機(jī)的姿態(tài)并解出地圖點(diǎn)的深度;視覺里程計(jì)通過特征點(diǎn)跟蹤或者直接法跟蹤計(jì)算相機(jī)的位姿信息;后端優(yōu)化對(duì)相機(jī)的位姿和地圖點(diǎn)進(jìn)行調(diào)整以得到更精確的定位和建圖結(jié)果;回環(huán)檢測(cè)是通過計(jì)算兩個(gè)不同時(shí)刻圖像的相似程度來判斷相機(jī)是否經(jīng)過同一個(gè)位置,給后端優(yōu)化增加約束,提升SLAM精度;地圖構(gòu)建由后端對(duì)地圖點(diǎn)的優(yōu)化直接完成。
3.1 初始化
單目相機(jī)的初始化必須考慮平移以及避免純旋轉(zhuǎn)的情況。MonoSLAM采用在場(chǎng)景中預(yù)先放置已知形狀的目標(biāo)以完成初始化。PTAM通過分解單應(yīng)矩陣獲取相機(jī)運(yùn)動(dòng)[12],用戶選擇前兩個(gè)關(guān)鍵幀,在第一幀中提取FAST角點(diǎn)[13],在平面內(nèi)緩慢平滑移動(dòng)相機(jī)跟蹤匹配直至確定第二個(gè)關(guān)鍵幀,采用MLESAC方法[14]來計(jì)算兩個(gè)關(guān)鍵幀之間的單應(yīng)矩陣,分解得到相機(jī)的運(yùn)動(dòng)。SVO同樣采取分解單應(yīng)矩陣初始化,與PTAM不同的是它不需要用戶指定關(guān)鍵幀,當(dāng)算法認(rèn)為提取到兩個(gè)關(guān)鍵幀時(shí)自動(dòng)計(jì)算分解單應(yīng)矩陣。RDSLAM由選定的兩個(gè)關(guān)鍵幀通過5點(diǎn)法[15]計(jì)算確定相機(jī)的運(yùn)動(dòng)。LSD-SLAM將第一個(gè)關(guān)鍵幀深度信息設(shè)置成一個(gè)方差很大的隨機(jī)量,連續(xù)匹配后來的圖像并采用濾波的方式不斷迭代得到初始特征點(diǎn)的正確深度信息。ORB-SLAM以啟發(fā)式方式初始化地圖,對(duì)于平面場(chǎng)景分解單應(yīng)矩陣,對(duì)于非平面場(chǎng)景分解基礎(chǔ)矩陣。ENFT-SLAM通過分解單應(yīng)矩陣求解相機(jī)的運(yùn)動(dòng),在圖像的匹配過程中采用效率更高的非連續(xù)特征跟蹤算法,初始化速度更快。
3.2 特征點(diǎn)跟蹤和直接法追蹤
基于特征點(diǎn)的SLAM方法在估計(jì)兩幀之間相機(jī)的運(yùn)動(dòng)和空間結(jié)構(gòu)時(shí),需要對(duì)兩幀的圖像進(jìn)行特征點(diǎn)的提取和匹配,根據(jù)匹配關(guān)系求解相機(jī)運(yùn)動(dòng)。早期,主要以Harris[16]、F?rsnter[17]等局部角點(diǎn)作為圖像特征點(diǎn)提取算子[18],但當(dāng)場(chǎng)景變化較大時(shí),角點(diǎn)的性能急劇下降,可能會(huì)造成無法匹配的情況。據(jù)此,Lowe D G、Rublee E等提出了一些性能更高的特征點(diǎn)如SIFT,ORB[19]來解決這個(gè)問題。MonoSLAM使用Shi and Tomasi角點(diǎn)[20],在概率模型投影橢圓中主動(dòng)搜索匹配。PTAM使用FAST角點(diǎn)作為特征算子,ORB-SLAM全局采用ORB特征,都假設(shè)相機(jī)做勻速運(yùn)動(dòng),通過再投影方式計(jì)算相機(jī)的運(yùn)動(dòng)。RDSLAM和ENFT-SLAM全局采用SIFT算子,分別用KD-Tree和非連續(xù)跟蹤的方式進(jìn)行匹配。
直接法追蹤的SLAM方法,不需要提取計(jì)算關(guān)鍵點(diǎn)和描述子,直接通過最小化光度誤差求解相機(jī)的運(yùn)動(dòng)。優(yōu)點(diǎn)是節(jié)省了計(jì)算量,對(duì)于特征缺失區(qū)域的跟蹤也有較好魯棒性,不僅可以像基于特征點(diǎn)SLAM算法一樣構(gòu)建稀疏的地圖,也能夠構(gòu)建半稠密和稠密的地圖。缺點(diǎn)是對(duì)光照極為敏感,在光照變化大的情況下,很有可能跟蹤失敗。LSD-SLAM通過直接圖像配準(zhǔn)得到高度準(zhǔn)確的姿態(tài)估計(jì)。SVO為半直接法,提取關(guān)鍵點(diǎn),并跟蹤關(guān)鍵點(diǎn)周圍的像素塊進(jìn)行匹配,得到相機(jī)的運(yùn)動(dòng)。
3.3 回環(huán)檢測(cè)
回環(huán)檢測(cè)的目的是減小SLAM過程中的累積誤差,過程是判斷當(dāng)前時(shí)刻的數(shù)據(jù)和過去某個(gè)時(shí)刻是否相似,若相似,則形成一個(gè)回環(huán),生成一個(gè)約束,送入后端優(yōu)化,提高系統(tǒng)的定位精度。也可以利用回環(huán)檢測(cè)在相機(jī)跟蹤失敗時(shí)進(jìn)行重定位[21]。MonoSLAM匹配過程中使用概率橢圓主動(dòng)搜索,若地圖點(diǎn)可持續(xù)在橢圓中搜索到直至在某一幀可匹配到足夠多的點(diǎn),認(rèn)為回環(huán)產(chǎn)生。RDSLAM沒有回路檢測(cè)機(jī)制,但全局采用SIFT特征且用KD-Tree加速匹配過程,可以在回路發(fā)生時(shí)快速檢測(cè)出匹配關(guān)系繼而通過優(yōu)化消除累積誤差[22]。ORB-SLAM采用詞袋模型(BoW)[23]做回環(huán)檢測(cè),步驟主要分為1)計(jì)算關(guān)鍵幀Ki詞袋和它在covisibility graph[4]相鄰圖像的相似度,選取一系列圖像作為候選幀。2)計(jì)算當(dāng)前關(guān)鍵幀和這些圖像幀的相似變換以得到回環(huán)的累積誤差,使用RANSAC和 Horn[24]方法進(jìn)行迭代和計(jì)算相似變換,不斷優(yōu)化匹配效果好的圖像直到可以作為閉環(huán)幀。LSD-SLAM和ORB-SLAM采用類似的回路檢測(cè)方式,先選取十個(gè)可能形成閉環(huán)的關(guān)鍵幀,計(jì)算每一個(gè)關(guān)鍵幀的兩個(gè)相似變換,當(dāng)相似變換接近時(shí),才把約束加入優(yōu)化過程。ENFT-SLAM的回路閉合是通過計(jì)算當(dāng)前幀與歷史關(guān)鍵幀的相似度并選擇相似度高的關(guān)鍵幀進(jìn)行匹配確定回環(huán)。
3.4 后端優(yōu)化
優(yōu)化方法主要分為濾波器法和圖優(yōu)化。在SLAM發(fā)展前期,主要使用擴(kuò)展卡爾曼濾波(EKF)作為優(yōu)化方法[25]。SLAM是一個(gè)非線性系統(tǒng),要使用擴(kuò)展卡爾曼濾波,需要對(duì)其做泰勒展開近似成線性系統(tǒng)[26]進(jìn)行預(yù)測(cè)更新。基于濾波器方法的優(yōu)化大都認(rèn)為當(dāng)前時(shí)刻的系統(tǒng)狀態(tài)僅僅和上個(gè)時(shí)刻或者上幾個(gè)時(shí)刻的狀態(tài)有關(guān),這在一定程度不夠準(zhǔn)確,應(yīng)該把前面所有相關(guān)時(shí)刻的狀態(tài)量考慮進(jìn)來對(duì)當(dāng)前時(shí)刻做估計(jì),得到的估計(jì)值更為精確。目前主流的方法是使用圖優(yōu)化,示意圖如圖2所示。
和濾波器方法不同,圖優(yōu)化從全局出發(fā),優(yōu)化當(dāng)前和歷史時(shí)刻所有相機(jī)位姿和空間點(diǎn)狀態(tài)量。隨著相機(jī)運(yùn)動(dòng)時(shí)間的增加和空間點(diǎn)數(shù)量的增加,雖然可以利用矩陣的稀疏性[27]減少計(jì)算量,但這種優(yōu)化方式對(duì)計(jì)算能力仍提出了不小的挑戰(zhàn)。因此,在保證SLAM準(zhǔn)確度的前提下,只優(yōu)化相機(jī)位姿而忽略空間點(diǎn)的位姿圖優(yōu)化方法(如圖3),節(jié)省了大量的計(jì)算時(shí)間,提高了系統(tǒng)的運(yùn)行速度。
MonoSLAM采用傳統(tǒng)EKF進(jìn)行后端優(yōu)化,分為預(yù)測(cè)和更新兩步,通過運(yùn)動(dòng)模型預(yù)測(cè)相機(jī)的姿態(tài),采用投影方程更新優(yōu)化相機(jī)的位姿和地圖點(diǎn)的位置。PTAM采用Levenberg-Marquardt[28]方法做BA優(yōu)化,將前后兩個(gè)關(guān)鍵幀三角化獲得局部地圖,最后對(duì)所有的地圖點(diǎn),關(guān)鍵幀的相機(jī)位姿進(jìn)行BA優(yōu)化,得到更為精確的地圖點(diǎn)云和相機(jī)姿態(tài),在建圖線程執(zhí)行局部BA,優(yōu)化當(dāng)前關(guān)鍵幀和附近4個(gè)關(guān)鍵幀的位姿及它們能看到的所有地圖點(diǎn)。RDSLAM也使用BA優(yōu)化方法,但由于采用KD-Tree匹配和時(shí)序先驗(yàn)的自適應(yīng) RANSAC 策略,提高了匹配精度降低了誤匹配數(shù)量,優(yōu)化能力比PTAM要強(qiáng)。LSD-SLAM以幀間sim(3)約束關(guān)系相連接構(gòu)成邊,以關(guān)鍵幀作為節(jié)點(diǎn),在后端通過姿態(tài)圖進(jìn)行優(yōu)化,采用高斯牛頓方法最小化誤差函數(shù)得到最優(yōu)解。SVO僅相當(dāng)于一個(gè)視覺里程計(jì),沒有優(yōu)化模塊。ORB-SLAM主要包括兩個(gè)圖,Covisibility Graph和Essential Graph,Covisibility Graph以相機(jī)的位姿作為頂點(diǎn),兩個(gè)位姿的變換關(guān)系作為圖優(yōu)化的邊。Essential Graph是用最少邊連接的Covisibility Graph的子圖。ORB-SLAM的局部BA優(yōu)化當(dāng)前幀和當(dāng)前幀在Covisibility Graph連接的所有幀,全局優(yōu)化用Essential Graph以減少計(jì)算量。ENFT-SLAM局部BA優(yōu)化被分割的每個(gè)序列,全局采用基于分段的BA進(jìn)行優(yōu)化。
4 SLAM未來發(fā)展趨勢(shì)
4.1 多傳感器融合
相機(jī)和慣性測(cè)量單元(IMU)組合形成的SLAM系統(tǒng)是被研究最多的系統(tǒng)之一[29-31]。IMU有測(cè)量頻率高,短時(shí)間測(cè)量準(zhǔn)確的優(yōu)點(diǎn),可以幫助相機(jī)在一些特征缺失(如白墻)的地方估計(jì)運(yùn)動(dòng),且可以幫助單目相機(jī)構(gòu)建場(chǎng)景的尺度。深度相機(jī)能夠獲取三維空間中的深度信息,可以輔助跟蹤和幫助構(gòu)建稠密的三維環(huán)境[32-34]。此外,激光測(cè)距儀,光流計(jì),里程計(jì),GPS等也可以和相機(jī)形成優(yōu)勢(shì)互補(bǔ),提升SLAM的性能。
4.2 深度學(xué)習(xí)
近些年隨著人工智能的發(fā)展,逐漸將深度學(xué)習(xí)引入了SLAM領(lǐng)域以得到更精確的結(jié)果。深度學(xué)習(xí)在SLAM領(lǐng)域可以解決的問題有圖像之間位姿的估計(jì)[35],閉環(huán)檢測(cè)[36],圖像的識(shí)別分割等[37,38]。Konda K等[35]提出了一種端到端,基于深度學(xué)習(xí)的架構(gòu)預(yù)測(cè)速度和方向的變化。Gao X等[36]使用堆疊去噪自動(dòng)編碼器(SDA)多層神經(jīng)網(wǎng)絡(luò)解決回環(huán)檢測(cè)問題。He K等[37]提出了殘差學(xué)習(xí)框架,在圖像識(shí)別上可以取得很好的效果。近期,谷歌推出了語(yǔ)義理解分割技術(shù)[38],可以實(shí)現(xiàn)在圖像中任意添加,改變,移動(dòng)對(duì)象,和原圖完美融合。
5 結(jié)束語(yǔ)
作為一個(gè)多學(xué)科交叉的技術(shù),視覺SLAM正在被越來越多的應(yīng)用在機(jī)器人導(dǎo)航,無人駕駛,增強(qiáng)現(xiàn)實(shí),虛擬現(xiàn)實(shí),三維重建等各個(gè)領(lǐng)域。經(jīng)過30多年的發(fā)展,視覺SLAM技術(shù)日漸成熟,但由于應(yīng)用場(chǎng)景的復(fù)雜化,例如運(yùn)動(dòng)物體干擾,劇烈運(yùn)動(dòng),自然條件變化,物體追蹤需求等,對(duì)其實(shí)時(shí)性,魯棒性,功能性的要求不斷提高,需要不斷完善算法,融合其他傳感器,加入新的技術(shù)以提高其性能,使之更魯棒的適用于各種場(chǎng)景。
參考文獻(xiàn):
[1] SMITHR, CHEESEMEMAN P. On the representation and estimation of spatial uncertainty[J]. The International Jour- nal of Robotics Research, 1987, 5(4): 56-58.
[2] Davison A J, Reid I D, Molton N D, et al. MonoS-LAM: Real-Time Single Camera SLAM[J]. IEEE Trans Pattern Anal Mach Intell, 2007, 29(6): 1052-1067.
[3] Klein G, Murray D. Parallel tracking and mapping for small AR workspaces[C]//Mixed and Augmented Reality, 20 07. ISMAR 2007. 6th IEEE and ACM In ternational Symposium on. IEEE, 2007: 225-234.
[4] Mur-Artal R, Montiel J M M, Tardós J D. ORB-SLAM: A Versatile and Accurate Monocular SLAM System[J]. IE- EE Transactions on Robotics, 2017, 31 (5): 1147-1163.
[5] Engel J, Sch?ps T, Cremers D. LSD-SLAM: Large- Scale Direct Monocular SLAM[C]// European Conference on C- omputer Vision. Springer, Cham, 2014: 834-849.
[6] Forster C, Pizzoli M, Scaramuzza D. SVO: Fast semi-direct monocular visual odometer[C]// IEEE Inteernational C- onference on Robotics and Automation. IEEE, 2014: 15-22.
[7] Civera J, Davison A J, Montiel J M M. Inverse Depth Parametrization for Monocular SLAM[J]. IEEE Transactions on Robotics, 2008,24(5):932-945.
[8] Tan W, Liu H, Dong Z, et al. Robust monocular SLAM in dynamic environments[C]//Mixed and Augmented Realit- y (ISMAR), 2013 IEEE International Symposium on. IEEE, 2013: 209-218.
[9] Lowe D G. Distinctive Image Feature from Scale-Invariant Key points[J]. International Journal of Computer Vision, 2004.
[10] Fischler M A, Bolles R C. Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography [J]. Readings in Computer Vision, 1987:726-740.
[11] Zhang G, Liu H, Dong Z, et al. Efficient non-consecutive feature tracking for robust structure-from-motion[J]. IEEE Transactions on Image Processing, 2016,25(12): 5957-5970.
[12] Faugeras O D, Lustman F. Motion and structure from motion in a piecewise planar environment[J]. International Jo- urnal of Pattern Recognition and Artificial Intelligence, 1988, 2(03): 485-508.
[13] Rosten E, Drummond T. Machine learning for high- speed corner detection[C]//European conference on computer vi- sion. Springer, Berlin, Heidelberg, 2006: 430-443.
[14] Torr P H S, Zisserman A. MLESAC: A new robust estimator with application to estimating image geometry[J]. Co- mputer vision and image understanding, 2000, 78(1): 138-156.
[15] Nistér D. An efficient solution to the five-point relative pose problem[J]. IEEE transactions on pattern analysis and machine intelligence, 2004, 26(6): 756-770.
[16] Harris C, Stephens M. A combined corner and edge detector[C]//Alvey vision conference. 1988, 15(50): 10-5244.
[17] F?rstner W, Gülch E. A fast operator for detection and precise location of distinct points, corners and centres of ci- rcular features[C]//Proc. ISPRS intercommission conference on fast processing of photogrammetric data. 1987: 281-3 05.
[18] 邸凱昌, 萬文輝, 趙紅穎, 等. 視覺SLAM技術(shù)的進(jìn)展與應(yīng)用[J]. 測(cè)繪學(xué)報(bào), 2018(6).
[19] Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C]//Computer Vision (IC- CV), 2011 IEEE international conference on. IEEE, 2011: 2564-2571.
[20] Shi J, Tomasi C. Good features to track[R]. Cornell University, 1993.
[21] 高翔, 張濤,等. 視覺SLAM十四講從理論到實(shí)踐[M]. 北京: 電子工業(yè)出版社, 2017: 184-185.
[22] 劉浩敏, 章國(guó)鋒, 鮑虎軍. 基于單目視覺的同時(shí)定位與地圖構(gòu)建方法綜述[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2016, 28 (6):855-868.
[23] Gálvez-López D, Tardos J D. Bags of binary words for fast place recognition in image sequences[J]. IEEE Transac- tions on Robotics, 2012, 28(5): 1188-1197.
[24] Horn B K P. Closed-form solution of absolute orientation using unit quaternions[J]. JOSA A, 1987, 4(4): 629-642.
[25] Aulinas J, Petillot Y R, Salvi J, et al. The SLAM problem: a survey[J]. CCIA, 2008, 184(1): 363-371.
[26] Kalman R E, Bucy R S. New results in linear filtering and prediction theory[J]. Journal of basic engineering, 1961, 83(1): 95-108.
[27] Dellaert F, Kaess M. Square Root SAM: Simultaneous localization and mapping via square root information smooth- ing[J]. The International Journal of Robotics Research, 2006, 25(12): 1181-1203.
[28] R. I. Hartley and A. Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press, second edition, 2004.
[29] Mourikis A I, Roumeliotis S I. A multi-state constraint Kalman filter for vision-aided inertial navigation [C]//Roboti- cs and automation, 2007 IEEE international conference on. IEEE, 2007: 3565-3572.
[30] Qin T, Li P, Shen S. Vins-mono: A robust and versatile monocular visual-inertial state estimator[J]. IEEE Transacti- ons on Robotics, 2018, 34(4): 1004-1020.
[31] Leutenegger S, Furgale P, Rabaud V, et al. Keyframe-Based Visual-Inertial SLAM using Nonlinear Optimization [C]//Robotics: Science and Systems. 2013: 789–795.
[32] Newcombe R A, Lovegrove S J, Davison A J. DTAM: Dense tracking and mapping in real-time[C]//IEEE Internati- onal Conference on Computer Vision. IEEE, 2011: 2320-2327.
[33] Labbe M, Michaud F. Online global loop closure detection for large-scale multi-session graph-based SLAM[C]//Intell- igent Robots and Systems (IROS 2014), 2014 IEEE/RSJ International Conference on. IEEE, 2014: 2661-2666.
[34] Kerl C, Sturm J, Cremers D. Dense visual SLAM for RGB-D cameras[C]//Intelligent Robots and Systems (IROS), 2 013 IEEE/RSJ International Conference on. IEEE, 2013: 2100-2106.
[35] Konda K R, Memisevic R. Learning Visual Odometry with a Convolutional Network[C]//VISAPP (1). 2015: 486-49 0.
[36] Gao X, Zhang T. Unsupervised learning to detect loops using deep neural networks for visual SLAM system[J]. Au- tonomous robots, 2017, 41(1): 1-18.
[37] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recog- nition. 2016: 770-778.
[38] 張?chǎng)?,三?谷歌等祭出圖像語(yǔ)義理解分割神器,PS再也不用專業(yè)設(shè)計(jì)師![EB/OL].https://mp.weixin.qq.com/ s/MiChpWi m5pGlRj88rcQta- A.
【通聯(lián)編輯:梁書】