尚光濤 陳煒峰 吉愛紅 周鋮君 王曦楊 徐崇輝
摘要:傳統(tǒng)的基于視覺的SLAM技術(shù)成果頗豐,但在具有挑戰(zhàn)性的環(huán)境中難以取得想要的效果.深度學(xué)習(xí)推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域的快速發(fā)展,并在圖像處理中展現(xiàn)出愈加突出的優(yōu)勢.將深度學(xué)習(xí)與基于視覺的SLAM結(jié)合是一個(gè)熱門話題,諸多研究人員的努力使二者的廣泛結(jié)合成為可能.本文從深度學(xué)習(xí)經(jīng)典的神經(jīng)網(wǎng)絡(luò)入手,介紹了深度學(xué)習(xí)與傳統(tǒng)基于視覺的SLAM算法的結(jié)合,概述了卷積神經(jīng)網(wǎng)絡(luò)(CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在深度估計(jì)、位姿估計(jì)、閉環(huán)檢測等方面的成就,分析了神經(jīng)網(wǎng)絡(luò)在語義信息提取方面的優(yōu)點(diǎn),以期為未來自主移動(dòng)機(jī)器人真正自主化提供幫助.最后,對(duì)未來VSLAM發(fā)展進(jìn)行了展望.
關(guān)鍵詞同時(shí)定位和地圖構(gòu)建(SLAM);深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)(CNN);循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN);位姿估計(jì);閉環(huán)檢測;語義
中圖分類號(hào)TP242;TP391.41
文獻(xiàn)標(biāo)志碼A
0引言
移動(dòng)機(jī)器人執(zhí)行任務(wù)的首要前提是確定自己在所在環(huán)境中的位置[1].室外空曠環(huán)境下,基于GPS的定位方法可以基本滿足機(jī)器人的定位需求,但有時(shí)接收不到GPS信號(hào)[2].室內(nèi)環(huán)境中,通常需要提前設(shè)立導(dǎo)航信標(biāo)如二維碼、磁條等,這大大限制了移動(dòng)機(jī)器人的應(yīng)用范圍[3].大多數(shù)情況下,移動(dòng)機(jī)器人需要自主完成某些任務(wù),這就要求機(jī)器人可以適應(yīng)足夠陌生的環(huán)境.因此,能夠在未知環(huán)境中進(jìn)行定位和地圖構(gòu)建的SLAM(SimultaneousLocalizationandMapping)[4]技術(shù)成為自主移動(dòng)機(jī)器人必備的能力.根據(jù)所使用的傳感器不同,SLAM技術(shù)主要分為激光SLAM與視覺SLAM(VSLAM)[5].與激光SLAM相比,VSLAM與人眼類似,主要以圖像作為環(huán)境感知信息源,更符合人類的認(rèn)知.近年來,由于相機(jī)具有廉價(jià)、易安裝、可以獲得豐富的環(huán)境信息、易與其他傳感器融合等優(yōu)勢[6],基于相機(jī)的VSLAM研究受到了科研人員的廣泛關(guān)注,大量以視覺為基礎(chǔ)的SLAM算法應(yīng)運(yùn)而生[7].
隨著深度學(xué)習(xí)的快速發(fā)展,不少學(xué)者嘗試采用深度學(xué)習(xí)的方法解決視覺SLAM所遇到的問題.深度學(xué)習(xí)可以根據(jù)具體問題學(xué)習(xí)更強(qiáng)大和有效的特征,并成功地展示了一些具有挑戰(zhàn)性的認(rèn)知和感知任務(wù)的良好能力.最近的工作嘗試包括從單目圖像中對(duì)場景進(jìn)行深度估計(jì),以及視覺里程計(jì)和語義映射生成等.權(quán)美香等[8]對(duì)傳統(tǒng)的VSLAM進(jìn)行了詳細(xì)總結(jié),并對(duì)比了不同方法的優(yōu)缺點(diǎn);胡凱等[9]從視覺里程計(jì)的角度,對(duì)VSLAM的發(fā)展做了概述,并介紹了深度學(xué)習(xí)在VSLAM中的應(yīng)用;劉瑞軍等[10]從里程計(jì)、閉環(huán)檢測等方面介紹了深度學(xué)習(xí)與VSLAM的結(jié)合,并與傳統(tǒng)方法進(jìn)行了對(duì)比;李少朋等[11]將基于深度學(xué)習(xí)的VSLAM與傳統(tǒng)的VSLAM進(jìn)行了對(duì)比,并展望了未來發(fā)展方向.上述文獻(xiàn)大多僅從深度學(xué)習(xí)角度講述部分方法,未詳細(xì)介紹典型神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)VSLAM的結(jié)合,也未將整個(gè)發(fā)展脈絡(luò)完整展開.本文首先概述了VSLAM發(fā)展脈絡(luò),然后從深度學(xué)習(xí)的兩個(gè)主要的神經(jīng)網(wǎng)絡(luò),即卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)入手,重點(diǎn)闡述了神經(jīng)網(wǎng)絡(luò)在VSLAM系統(tǒng)中深度估計(jì)、位姿估計(jì)、閉環(huán)檢測,以及數(shù)據(jù)融合等方面的貢獻(xiàn),并介紹了神經(jīng)網(wǎng)絡(luò)在語義信息提取方面的優(yōu)勢,最后對(duì)VSLAM的發(fā)展做出總結(jié)和展望.CNN和RNN,并列舉了部分優(yōu)秀的VSLAM算法;第2節(jié)闡述了CNN與VSLAM的結(jié)合,并從單目深度估計(jì)、位姿估計(jì)、閉環(huán)檢測3個(gè)方面詳細(xì)總結(jié)了VSLAM的發(fā)展進(jìn)程;第3節(jié)重點(diǎn)介紹了RNN與視覺慣性數(shù)據(jù)融合方面的優(yōu)勢,并給出了神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)VSLAM結(jié)合的部分優(yōu)秀方案;第4節(jié)為總結(jié),并對(duì)未來VSLAM的發(fā)展做出了展望.
1神經(jīng)網(wǎng)絡(luò)與VSLAM概述
傳統(tǒng)的VSLAM研究已經(jīng)取得了諸多令人驚嘆的成就.2007年,Davidson等[12]提出了首個(gè)實(shí)時(shí)的單目VSLAM算法——MonoSLAM,該算法可實(shí)現(xiàn)實(shí)時(shí)無漂移的運(yùn)動(dòng)結(jié)構(gòu)恢復(fù).2011年,Newcombe等[13]提出了DTAM算法,該算法被認(rèn)為是第一個(gè)實(shí)際意義上的直接法VSLAM.2015年,Mur-Artal等[14]提出了ORB-SLAM算法,創(chuàng)新地使用跟蹤、局部建圖和閉環(huán)檢測3個(gè)線程同時(shí)進(jìn)行,有效地降低了累計(jì)誤差.閉環(huán)檢測線程采用詞袋模型BoW[15]進(jìn)行閉環(huán)的檢測和修正,在處理速度和構(gòu)建地圖的精度上都取得了很好的效果.隨后幾年,Mur-Artal團(tuán)隊(duì)相繼推出了ORB-SLAM2[16]與ORB-SLAM3[17].ORB-SLAM系列是基于特征點(diǎn)提取方法中的佼佼者,它將傳統(tǒng)VSLAM方法發(fā)展到了十分完善的程度.2018年,Engel等[18]提出了可以有效利用任何圖像像素的DSO算法,它是直接法中的經(jīng)典,其在無特征的區(qū)域中也具有良好的魯棒性,并得到了廣泛使用.2018年,香港科技大學(xué)團(tuán)隊(duì)推出了單目慣性緊耦合的VINS-Mono[19]算法,該算法是視覺慣性融合SLAM中最優(yōu)秀的算法之一,它充分利用慣性測量單元(InertialMeasurementUnit,IMU)與單目相機(jī)的互補(bǔ)性,改善了具有挑戰(zhàn)性環(huán)境中的定位精度.表1根據(jù)前端所用傳感器不同,從視覺里程計(jì)(VisualOdometry,VO)及視覺慣性里程計(jì)(Visual-InertialOdometry,VIO)兩方面列舉了部分優(yōu)秀的傳統(tǒng)VSLAM方案,并給出了其開源地址.
傳統(tǒng)方法多采用基于特征提取的間接法或者直接對(duì)像素進(jìn)行操作的直接法.雖然在大多數(shù)環(huán)境中傳統(tǒng)方法可以穩(wěn)定運(yùn)行,但是在光照強(qiáng)烈、相機(jī)快速旋轉(zhuǎn)或是動(dòng)態(tài)物體普遍存在等環(huán)境中魯棒性會(huì)大大降低,甚至可能會(huì)失效.近年來,深度學(xué)習(xí)的快速發(fā)展吸引了諸多學(xué)者的目光,將深度學(xué)習(xí)的方法與傳統(tǒng)VSLAM相結(jié)合成為廣受關(guān)注的研究領(lǐng)域[20].
深度學(xué)習(xí)可以學(xué)習(xí)不同數(shù)據(jù)中的特征或者是數(shù)據(jù)之間的某種關(guān)聯(lián),學(xué)習(xí)得到的特征屬性與關(guān)聯(lián)關(guān)系都可以用于不同的任務(wù)中[29].深度學(xué)習(xí)通過層次化的處理方式,對(duì)視覺數(shù)據(jù)進(jìn)行學(xué)習(xí),得到數(shù)據(jù)的抽象表達(dá),在圖像識(shí)別、語義理解、圖像匹配、三維重建[30]等任務(wù)中取得了顯著的成果[31].作為深度學(xué)習(xí)中兩個(gè)重要的神經(jīng)網(wǎng)絡(luò),CNN與RNN在多個(gè)領(lǐng)域取得了很高的成就,圖1為CNN和RNN的基本框圖,表2中給出了兩者主要特點(diǎn)的對(duì)比.CNN可以從圖像中捕捉空間特征,準(zhǔn)確地識(shí)別物體以及它與圖像中其他物體的關(guān)系[32].RNN可以有效地處理圖像或數(shù)值數(shù)據(jù),并且由于網(wǎng)絡(luò)本身具有記憶能力,因此可以學(xué)習(xí)具有前后相關(guān)的數(shù)據(jù)類型[33].此外,其他類型的神經(jīng)網(wǎng)絡(luò)如深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN),在VSLAM領(lǐng)域也有一些嘗試性的工作,但尚在起步階段.如表3所示,結(jié)合深度學(xué)習(xí)進(jìn)行VSLAM的研究已經(jīng)有了許多突破性的進(jìn)展.部分學(xué)者建議使用深度學(xué)習(xí)的方法替換傳統(tǒng)SLAM的某些模塊,如深度估計(jì)、閉環(huán)檢測、位姿估計(jì)等,從而改善傳統(tǒng)方法.這些方法都取得了一定效果,在不同程度上提高了傳統(tǒng)方法的性能.后文將從CNN和RNN兩個(gè)神經(jīng)網(wǎng)絡(luò)入手,重點(diǎn)講述它們與傳統(tǒng)VSLAM的結(jié)合.
2CNN與VSLAM
CNN以一定的模型對(duì)事物進(jìn)行特征提取,而后根據(jù)特征對(duì)該事物進(jìn)行分類、識(shí)別、預(yù)測或決策等,可以對(duì)VSLAM的不同模塊提供幫助.
2.1單目深度估計(jì)
基于單目相機(jī)的VSLAM算法由于傳感器成本低、簡單實(shí)用,受到了諸多學(xué)者的喜愛.單目相機(jī)只能得到二維的平面圖像,無法獲得深度信息.簡單地說,單目的局限性主要在于無法得到確定尺度[53].CNN在圖像處理方面的優(yōu)勢已得到充分驗(yàn)證,使用CNN進(jìn)行視覺深度估計(jì),最大程度上解決了單目相機(jī)無法得到可靠的深度信息的問題[54].
2017年,Tateno等[34]在LSD-SLAM的框架上提出了基于CNN的實(shí)時(shí)SLAM算法CNN-SLAM.該算法用CNN做深度預(yù)測將其輸入到后續(xù)的傳統(tǒng)位姿估計(jì)等模塊,用來提升定位和建圖精度.此外,該算法利用CNN提取環(huán)境的語義信息,進(jìn)行全局地圖和語義標(biāo)簽的融合,提高了機(jī)器人的環(huán)境感知能力.類似利用CNN預(yù)測深度信息的工作還有Code-SLAM[36]以及DVSO[37]等.但上述方法只在某個(gè)方面利用了CNN的優(yōu)勢,Yang等[42]提出的D3VO則從3個(gè)層面利用了CNN,包括利用深度學(xué)習(xí)進(jìn)行深度估計(jì)、位姿估計(jì)以及不確定度估計(jì)Σ.如圖2所示,D3VO將預(yù)測深度(D)、位姿(Tt-1t)以及不確定度緊密結(jié)合到一個(gè)直接視覺里程計(jì)中,來同時(shí)提升前端追蹤以及后端非線性優(yōu)化的性能.所提出的單目深度估計(jì)網(wǎng)絡(luò)的核心是自監(jiān)督訓(xùn)練體制,這種自監(jiān)督訓(xùn)練是通過最小化時(shí)間立體圖像和靜態(tài)立體圖像之間的光度重投影誤差來實(shí)現(xiàn)的,原理如下:
傳統(tǒng)方法對(duì)極幾何、PnP、ICP、LK光流幾何特征只能為相機(jī)的姿勢提供短期的限制,而且可能在有強(qiáng)烈的光和快速運(yùn)動(dòng)的環(huán)境中失敗,且復(fù)雜特征的提取相當(dāng)耗時(shí)
基于CNN的方法數(shù)據(jù)關(guān)聯(lián)、高級(jí)信息提供幫助(如語義信息)無需提取環(huán)境特征,也無需進(jìn)行特征匹配和復(fù)雜的幾何運(yùn)算,當(dāng)光照強(qiáng)度、觀測距離和角度變化時(shí),語義信息保持不變
其中:V是圖片It上面所有像素的集合,文中將It設(shè)置為雙目相機(jī)中左側(cè)攝像頭所得幀;t′是所有源幀的索引(區(qū)別于時(shí)刻t的某一時(shí)刻,右上角的′表示將其與t區(qū)分開);It′為包含相鄰時(shí)間的兩幀以及右側(cè)攝像頭所得幀,即It′∈It-1,It+1,Its(It-1為t時(shí)刻前一時(shí)刻左側(cè)相機(jī)所得幀,It+1為t時(shí)刻后一時(shí)刻左側(cè)相機(jī)所得幀,Its為雙目相機(jī)中右側(cè)攝像頭所得幀).
2.2位姿估計(jì)
傳統(tǒng)的位姿估計(jì)方法,一般采用基于特征的方法或直接法,通過多視圖幾何來確定相機(jī)位姿.但基于特征的方法需要復(fù)雜的特征提取和運(yùn)算[55],直接法則依賴于像素強(qiáng)度值,這使得傳統(tǒng)方法在光照強(qiáng)烈或紋理稀疏等環(huán)境中很難取得想要的結(jié)果[56].基于深度學(xué)習(xí)的方法由于無需提取環(huán)境特征,也無需進(jìn)行特征匹配和復(fù)雜的幾何運(yùn)算,因此更加直觀簡潔[57].Zhu等[58]通過利用CNN關(guān)注光流輸入的不同象限來學(xué)習(xí)旋轉(zhuǎn)和平移,在數(shù)據(jù)集中測試結(jié)果比傳統(tǒng)SLAM效果更好.表4給出了在位姿估計(jì)方面?zhèn)鹘y(tǒng)方法與基于CNN方法的不同.由于CNN的特征檢測層通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用CNN時(shí),避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí),文獻(xiàn)[32,59]在這方面做出了較為詳細(xì)的總結(jié).相比傳統(tǒng)位姿估計(jì)方法,CNN無需傳統(tǒng)方法復(fù)雜的公式計(jì)算,無需提取和匹配特征,因此在線運(yùn)算速度較快[60].
2.3閉環(huán)檢測
閉環(huán)檢測可以消除累積軌跡誤差和地圖誤差,決定著整個(gè)系統(tǒng)的精度,其本質(zhì)是場景識(shí)別問題[61].在閉環(huán)檢測方面,傳統(tǒng)方法多以詞袋模型為基礎(chǔ).如圖3所示,首先需要從圖像中提取出相互獨(dú)立的視覺詞匯,通常經(jīng)過特征檢測、特征表示以及單詞本的生成3個(gè)步驟,然后再將新采集到的圖像進(jìn)行詞典匹配并分類,過程復(fù)雜.而深度學(xué)習(xí)的強(qiáng)大識(shí)別能力,可以提取圖像更高層次的穩(wěn)健特征如語義信息,使得系統(tǒng)能對(duì)視角、光照等圖像變化具備更強(qiáng)的適應(yīng)能力,提高閉環(huán)圖像識(shí)別能力[62].因此,基于深度學(xué)習(xí)的場景識(shí)別可以提高閉環(huán)檢測準(zhǔn)確率,CNN用于閉環(huán)檢測也得到了諸多可靠的結(jié)果.
Memon等[63]提出一種基于詞典的深度學(xué)習(xí)方法,它不同于傳統(tǒng)的BoW詞典,創(chuàng)新地使用兩個(gè)CNN網(wǎng)絡(luò)一起工作,以加快閉環(huán)檢測的速度,并忽略移動(dòng)對(duì)象對(duì)閉環(huán)檢測的影響.其核心如圖4所示,該方法使用并行線程(標(biāo)記為虛線框)使閉合檢測可以達(dá)到更高的速度.將patch逐個(gè)送入移動(dòng)對(duì)象識(shí)別層,從標(biāo)記為靜止的patch中提取CNN特征,由創(chuàng)新檢測層進(jìn)一步處理.所有不包含任何移動(dòng)物體的patch再經(jīng)過創(chuàng)新檢測層處理來判斷是否訪問過該場景.在新的場景下,自動(dòng)編碼器在一個(gè)單獨(dú)的線程上并行地訓(xùn)練這些特征.該方法可以魯棒地執(zhí)行循環(huán)閉環(huán)檢測,比同類方法擁有更快的運(yùn)行速度.Li等[64]使用CNN從每幀圖像中提取局部特征和全局特征,然后將這些特征輸入現(xiàn)代SLAM模塊,用于姿勢跟蹤、局部映射和重新定位.與傳統(tǒng)的基于BoW的方法相比,它的計(jì)算效率更高,并且計(jì)算成本更低.Qin等[65]采用CNN提取環(huán)境語義信息,并將視覺場景建模為語義子圖.該方法只保留目標(biāo)檢測中的語義和幾何信息,并在數(shù)據(jù)集中與傳統(tǒng)方法進(jìn)行了比較.結(jié)果表明,基于深度學(xué)習(xí)的特征表示方法,在不提取視覺特征的情況下,可以明顯改善閉環(huán)檢測的效果.
上述內(nèi)容主要從單目深度估計(jì)、位姿估計(jì)、閉環(huán)檢測3個(gè)方面列舉了CNN與VSLAM的結(jié)合.表5給出了傳統(tǒng)方法與結(jié)合深度學(xué)習(xí)方法的對(duì)比.CNN在取代傳統(tǒng)的特征提取環(huán)節(jié)上取得了不錯(cuò)的效果,改善了傳統(tǒng)特征提取環(huán)節(jié)消耗時(shí)間和計(jì)算資源的缺點(diǎn).同時(shí),CNN有效地提高了單目深度估計(jì)的精度.此外,文獻(xiàn)[34,66]利用CNN提取環(huán)境的語義信息,以更高層次的特征來優(yōu)化傳統(tǒng)VSLAM的進(jìn)程,使得傳統(tǒng)VSLAM獲得了更好的效果.采用神經(jīng)網(wǎng)絡(luò)提取語義信息,并與VSLAM結(jié)合將會(huì)是一個(gè)備受關(guān)注的領(lǐng)域,借助語義信息將數(shù)據(jù)關(guān)聯(lián)從傳統(tǒng)的像素級(jí)別提升到物體級(jí)別,將感知的幾何環(huán)境信息賦以語義標(biāo)簽,進(jìn)而得到高層次的語義地圖,可幫助機(jī)器人進(jìn)行自主環(huán)境理解和人機(jī)交互.
3RNN與VSLAM
循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的研究從20世紀(jì)八九十年代開始,并在21世紀(jì)初發(fā)展為深度學(xué)習(xí)經(jīng)典算法之一,其中長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)是最常見的循環(huán)神經(jīng)網(wǎng)絡(luò)之一.LSTM是RNN的一種變體,它記憶可控?cái)?shù)量的前期訓(xùn)練數(shù)據(jù),或是以更適當(dāng)?shù)姆绞竭z忘[67].LSTM基本結(jié)構(gòu)如圖5所示,從左到右依次為遺忘門、輸入門、輸出門.采用了特殊隱式單元的LSTM可以長期保存輸入,LSTM的這種結(jié)構(gòu)繼承了RNN模型的大部分特性,同時(shí)解決了梯度反傳過程由于逐步縮減而產(chǎn)生的問題.此外GRU(GateRecurrentUnit)相比LSTM,更容易進(jìn)行訓(xùn)練,能夠很大程度上提高訓(xùn)練效率,因此很多時(shí)候會(huì)傾向于使用GRU,但在VSLAM領(lǐng)域還處于嘗試階段.
環(huán)節(jié)傳統(tǒng)方法結(jié)合深度學(xué)習(xí)的方法
單目深度估計(jì)傳統(tǒng)方法無法很好地解決單目尺度不確定性問題CNN可以在一些挑戰(zhàn)性的環(huán)境中更有效地估計(jì)圖像深度,如低紋理區(qū)域相機(jī)位姿估計(jì)通過特征提取與匹配,或是基于像素亮度變化,需要復(fù)雜的計(jì)算環(huán)節(jié),并且在具有挑戰(zhàn)性的環(huán)境中(低紋理區(qū)域、光照強(qiáng)烈、快速運(yùn)動(dòng))無法得到可靠的效果可以取代傳統(tǒng)方法復(fù)雜的公式計(jì)算、特征提取與匹配,速度更快閉環(huán)檢測本質(zhì)是場景識(shí)別問題,傳統(tǒng)方法多采用詞袋模型.在場景光照變化大、相機(jī)視野變化大等環(huán)境中,傳統(tǒng)的DBoW方法能力有限閉環(huán)過程使用深度學(xué)習(xí)中的圖像檢索,能有效地減少由于環(huán)境光照、季節(jié)更替、視角變化引起的匹配問題語義信息傳統(tǒng)的VSLAM算法中,基本不涉及高層次信息的提取,對(duì)于移動(dòng)機(jī)器人的真正智能化沒有幫助采用深度學(xué)習(xí)的方法可以有效地提取環(huán)境中的語義信息,高層次的語義信息可以給系統(tǒng)帶來長期穩(wěn)定的約束,并且使機(jī)器人更好地理解周圍環(huán)境循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性,參數(shù)共享,因此,在對(duì)序列的非線性特征進(jìn)行學(xué)習(xí)時(shí)具有一定優(yōu)勢.RNN在幫助建立相鄰幀之間的一致性方面具有很大的優(yōu)勢,高層特征具備更好的區(qū)分性,可以幫助機(jī)器人更好地完成數(shù)據(jù)關(guān)聯(lián).
3.1位姿估計(jì)
傳統(tǒng)的位姿估計(jì)方法首先需要特征提取與匹配[68],或是基于像素亮度變化的復(fù)雜計(jì)算.其原理如圖6所示,該問題的核心是求解旋轉(zhuǎn)矩陣和平移向量,需要繁瑣的計(jì)算過程.基于特征的方法(圖6a)需要十分耗時(shí)地提取特征,計(jì)算描述子的操作丟失了除了特征點(diǎn)以外的很多信息(圖6a中R,t分別為旋轉(zhuǎn)矩陣和平移向量,紅色點(diǎn)為空間中的特征點(diǎn),黑色點(diǎn)為特征點(diǎn)在不同圖像中的投影).直接法(圖6b)不同于特征點(diǎn)法最小化重投影誤差,而是通過最小化相鄰幀之間的灰度誤差估計(jì)相機(jī)運(yùn)動(dòng),但是基于灰度不變假設(shè):
如圖6b,假設(shè)空間點(diǎn)P在相鄰兩幀圖像上的投影分別為P1,P2兩點(diǎn)(用不同顏色的點(diǎn)表示二者像素強(qiáng)度的差別).它們的像素強(qiáng)度分別為I1(P1,i)和I2(P2,i),其中,i表示當(dāng)前圖像中第i個(gè)點(diǎn).則優(yōu)化目標(biāo)就是這兩點(diǎn)的亮度誤差ei的二范數(shù).
其中,T和ξ分別是P1,P2之間的轉(zhuǎn)換矩陣及其李代數(shù).ξ右上角的∧表示把ξ轉(zhuǎn)為一個(gè)四維矩陣,從而通過指數(shù)映射成為變換矩陣.
通過引入端對(duì)端的深度學(xué)習(xí)方法,使得視覺圖像幀間的位姿參數(shù)解算無須特征匹配與復(fù)雜的幾何運(yùn)算,可快速得到幀間相對(duì)位姿參數(shù)[69].Xue等[70]基于RNN來實(shí)現(xiàn)位姿的估計(jì).在位姿估計(jì)過程中,旋轉(zhuǎn)和位移是分開進(jìn)行訓(xùn)練的,相對(duì)于傳統(tǒng)方法有更好的適應(yīng)性.2017年,Wang等[35]使用深度遞歸卷積神經(jīng)網(wǎng)絡(luò),提出一種新穎的端到端單目VO的框架.由于它是以端到端的方式進(jìn)行訓(xùn)練和配置的,因此可以直接從一系列原始的RGB圖像中計(jì)算得到姿態(tài),而無需采用任何傳統(tǒng)VO框架中的模塊.該方法做到了視覺里程計(jì)的端到端實(shí)現(xiàn),免去了幀間各種幾何關(guān)系的約束計(jì)算,有良好的泛化能力.如圖7所示,該方案使用CNN+RNN對(duì)相機(jī)的運(yùn)動(dòng)進(jìn)行估計(jì),直接從原始RGB圖像序列推斷姿態(tài).它不僅通過卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)VO問題的有效特征表示,而且還利用深度回歸神經(jīng)網(wǎng)絡(luò)隱式建模順序動(dòng)力學(xué)和關(guān)系.
3.2視覺慣性融合
由于慣性測量元件IMU能夠在短時(shí)間內(nèi)高頻地獲得精準(zhǔn)的估計(jì),減輕動(dòng)態(tài)物體對(duì)相機(jī)的影響,而相機(jī)數(shù)據(jù)也能有效地修正IMU的累積漂移,IMU被認(rèn)為是與相機(jī)互補(bǔ)性最強(qiáng)的傳感器之一[71].傳統(tǒng)方法中,視覺慣性融合按照是否將圖像特征信息加入到狀態(tài)向量中可以分為松耦合和緊耦合[72].松耦合是指IMU和相機(jī)分別進(jìn)行自身的運(yùn)動(dòng)估計(jì),然后對(duì)其位姿估計(jì)輸出結(jié)果進(jìn)行融合[73].緊耦合是指把IMU的狀態(tài)與相機(jī)的狀態(tài)合并在一起,共同構(gòu)建運(yùn)動(dòng)方程和觀測方程,然后進(jìn)行狀態(tài)估計(jì)[74].圖8為傳統(tǒng)方法典型的視覺慣性融合流程,由于相機(jī)和IMU頻率相差較大,需要先進(jìn)行嚴(yán)格的同步校準(zhǔn).但是,不同傳感器的數(shù)據(jù)融合,勢必會(huì)帶來計(jì)算資源消耗過多、實(shí)時(shí)性差等問題.
RNN是深度學(xué)習(xí)領(lǐng)域數(shù)據(jù)驅(qū)動(dòng)的時(shí)序建模的常用方法,IMU輸出的高幀率角速度、加速度等慣性數(shù)據(jù),在時(shí)序上有著嚴(yán)格的依賴關(guān)系,特別適合使用RNN這類模型來優(yōu)化.Clark等[47]使用一個(gè)常規(guī)的小型LSTM網(wǎng)絡(luò)來處理IMU的原始數(shù)據(jù),得到了IMU數(shù)據(jù)下的運(yùn)動(dòng)特征.如圖9所示,在對(duì)相機(jī)數(shù)據(jù)和IMU數(shù)據(jù)結(jié)合后,送入一個(gè)核心的LSTM網(wǎng)絡(luò)進(jìn)行特征融合和位姿估計(jì).該方法通過神經(jīng)網(wǎng)絡(luò)方法,避免了傳統(tǒng)方法復(fù)雜的數(shù)據(jù)融合過程,使得運(yùn)行效率大大提升.
相比于單純用于位姿估計(jì),RNN在視覺慣性數(shù)據(jù)融合方面做出的貢獻(xiàn)更具吸引力.此類方法對(duì)視覺慣性數(shù)據(jù)進(jìn)行了非常有效的融合,相比傳統(tǒng)方法更便捷,類似的工作有文獻(xiàn)[50-51]等.此外,一些工作利用神經(jīng)網(wǎng)絡(luò)提取環(huán)境中的語義信息,高層特征更具區(qū)分性,對(duì)于VSLAM數(shù)據(jù)關(guān)聯(lián)有很好的幫助.2017年,Xiang等[75]使用RNN與KinectFusion相結(jié)合,對(duì)RGB-D相機(jī)采集圖像進(jìn)行語義標(biāo)注,用來重建三維語義地圖.通過在RNN中引入了一個(gè)新的循環(huán)單元,來解決GPU計(jì)算資源消耗過大的問題.該方法充分利用RNN的優(yōu)點(diǎn),實(shí)現(xiàn)了語義信息的標(biāo)注,高層特征具備更好的區(qū)分性,同時(shí)幫助機(jī)器人更好地完成數(shù)據(jù)關(guān)聯(lián).
4總結(jié)與展望
本文對(duì)深度學(xué)習(xí)中的兩個(gè)典型神經(jīng)網(wǎng)絡(luò)CNN與RNN進(jìn)行了介紹,并詳細(xì)總結(jié)了神經(jīng)網(wǎng)絡(luò)在VSLAM中的貢獻(xiàn),從深度估計(jì)、位姿估計(jì)、閉環(huán)檢測等方面將基于神經(jīng)網(wǎng)絡(luò)的方法與傳統(tǒng)方法進(jìn)行對(duì)比.從CNN與RNN各自的特點(diǎn)入手,列舉出其對(duì)傳統(tǒng)VSLAM不同模塊的改善.神經(jīng)網(wǎng)絡(luò)一定程度上改善了傳統(tǒng)VSLAM由于設(shè)計(jì)特征而帶來的應(yīng)用局限性,同時(shí)對(duì)高層語義快速準(zhǔn)確生成以及機(jī)器人知識(shí)庫構(gòu)建也產(chǎn)生了重要影響,從而提高了機(jī)器人的學(xué)習(xí)能力和智能化水平.
綜合他人所做研究,筆者認(rèn)為未來VSLAM的發(fā)展趨勢如下:
1)更高層次的環(huán)境感知.神經(jīng)網(wǎng)絡(luò)可以更加方便地提取環(huán)境中高層次的語義信息,可以促進(jìn)機(jī)器人智能化的發(fā)展.傳統(tǒng)的VSLAM算法只能滿足機(jī)器人基本的定位導(dǎo)航需求,無法完成更高級(jí)別的任務(wù),如“幫我把臥室門關(guān)上”、“去廚房幫我拿個(gè)蘋果”等.借助語義信息將數(shù)據(jù)關(guān)聯(lián)從傳統(tǒng)的像素級(jí)別提升到物體級(jí)別,將感知的幾何環(huán)境信息賦以語義標(biāo)簽,進(jìn)而得到高層次的語義地圖,可以幫助機(jī)器人進(jìn)行自主環(huán)境理解和人機(jī)交互,實(shí)現(xiàn)真正自主化.
2)更完善的理論支撐體系.通過深度學(xué)習(xí)技術(shù)學(xué)習(xí)的信息特征還缺少直觀的意義以及清晰的理論指導(dǎo).目前深度學(xué)習(xí)多應(yīng)用于SLAM局部的子模塊,如深度估計(jì)、閉環(huán)檢測等,而如何將深度學(xué)習(xí)應(yīng)用貫穿于整個(gè)SLAM系統(tǒng)仍是一個(gè)巨大挑戰(zhàn).
3)更高效的數(shù)據(jù)融合.CNN可以與VLSAM的諸多環(huán)節(jié)進(jìn)行結(jié)合,如特征提取與匹配、深度估計(jì)、位姿估計(jì)等,RNN的應(yīng)用范圍較小.但RNN在數(shù)據(jù)融合方面的優(yōu)勢,可以更好地融合多傳感器的數(shù)據(jù),快速推動(dòng)傳感器融合SLAM技術(shù)的發(fā)展.未來可能會(huì)更多地關(guān)注CNN與RNN的結(jié)合,來提升VSLAM的整體性能.
參考文獻(xiàn)
References
[1]
任偉建,高強(qiáng),康朝海,等.移動(dòng)機(jī)器人同步定位與建圖技術(shù)綜述[J].計(jì)算機(jī)測量與控制,2022,30(2):1-10,37
RENWeijian,GAOQiang,KANGChaohai,etal.Overviewofsimultaneouslocalizationandmappingtechnologyofmobilerobots[J].ComputerMeasurement&Control,2022,30(2):1-10,37
[2]趙樂文,任嘉倩,丁楊.基于GNSS的空間環(huán)境參數(shù)反演平臺(tái)及精度評(píng)估[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,13(2):204-210
ZHAOLewen,RENJiaqian,DINGYang.PlatformforGNSSreal-timespaceenvironmentparameterinversionanditsaccuracyevaluation[J].JournalofNanjingUniversityofInformationScience&Technology(NaturalScienceEdition),2021,13(2):204-210
[3]尹姝,陳元櫞,仇翔.基于RFID和自適應(yīng)卡爾曼濾波的室內(nèi)移動(dòng)目標(biāo)定位方法[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,10(6):749-753
YINShu,CHENYuanyuan,QIUXiang.Indoormoving-targetlocalizationusingRFIDandadaptiveKalmanfilter[J].JournalofNanjingUniversityofInformationScience&Technology(NaturalScienceEdition),2018,10(6):749-753
[4]周韋,孫憲坤,吳飛.基于SLAM/UWB的室內(nèi)融合定位算法研究[J].全球定位系統(tǒng),2022,47(1):36-42,85
ZHOUWei,SUNXiankun,WUFei.ResearchonindoorfusionpositioningalgorithmbasedonSLAM/UWB[J].GNSSWorldofChina,2022,47(1):36-42,85
[5]BressonG,AlsayedZ,YuL,etal.Simultaneouslocalizationandmapping:asurveyofcurrenttrendsinautonomousdriving[J].IEEETransactionsonIntelligentVehicles,2017,2(3):194-220
[6]李曉飛,宋亞男,徐榮華,等.基于雙目視覺的船舶跟蹤與定位[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,7(1):46-52
LIXiaofei,SONGYanan,XURonghua,etal.Trackingandpositioningofshipbasedonbinocularvision[J].JournalofNanjingUniversityofInformationScience&Technology(NaturalScienceEdition),2015,7(1):46-52
[7]劉明芹,張曉光,徐桂云,等.單機(jī)器人SLAM技術(shù)的發(fā)展及相關(guān)主流技術(shù)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(18):25-35
LIUMingqin,ZHANGXiaoguang,XUGuiyun,etal.ReviewofdevelopmentofsinglerobotSLAMtechnologyandrelatedmainstreamtechnology[J].ComputerEngineeringandApplications,2020,56(18):25-35
[8]權(quán)美香,樸松昊,李國.視覺SLAM綜述[J].智能系統(tǒng)學(xué)報(bào),2016(6):768-776
QUANMeixiang,PIAOSonghao,LIGuo.AnoverviewofvisualSLAM[J].CAAITransactionsonIntelligentSystems,2016(6):768-776
[9]胡凱,吳佳勝,鄭翡,等.視覺里程計(jì)研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,13(3):269-280
HUKai,WUJiasheng,ZHENGFei,etal.Asurveyofvisualodometry[J].JournalofNanjingUniversityofInformationScience&Technology(NaturalScienceEdition),2021,13(3):269-280
[10]劉瑞軍,王向上,張晨,等.基于深度學(xué)習(xí)的視覺SLAM綜述[J].系統(tǒng)仿真學(xué)報(bào),2020,32(7):1244-1256
LIURuijun,WANGXiangshang,ZHANGChen,etal.AsurveyonvisualSLAMbasedondeeplearning[J].JournalofSystemSimulation,2020,32(7):1244-1256
[11]李少朋,張濤.深度學(xué)習(xí)在視覺SLAM中應(yīng)用綜述[J].空間控制技術(shù)與應(yīng)用,2019,45(2):1-10
LIShaopeng,ZHANGTao.AsurveyofdeeplearningapplicationinvisualSLAM[J].AerospaceControlandApplication,2019,45(2):1-10
[12]DavisonAJ,ReidID,MoltonND,etal.MonoSLAM:real-timesinglecameraSLAM[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2007,29(6):1052-1067
[13]NewcombeRA,LovegroveSJ,DavisonAJ.DTAM:densetrackingandmappinginreal-time[C]//2011InternationalConferenceonComputerVision.November6-13,2011,Barcelona,Spain.IEEE,2011:2320-2327
[14]Mur-ArtalR,MontielJMM,TardosJD.ORB-SLAM:aversatileandaccuratemonocularSLAMsystem[J].IEEETransactionsonRobotics,2015,31(5):1147-1163
[15]Galvez-LopezD,TardosJD.Bagsofbinarywordsforfastplacerecognitioninimagesequences[J].IEEETransactionsonRobotics,2012,28(5):1188-1197
[16]Mur-ArtalR,TardosJD.ORB-SLAM2:anopen-sourceSLAMsystemformonocular,stereo,andRGB-Dcameras[J].IEEETransactionsonRobotics,2017,33(5):1255-1262
[17]CamposC,ElviraR,RodriguezJJG,etal.ORB-SLAM3:anaccurateopen-sourcelibraryforvisual,visual-inertial,andmultimapSLAM[J].IEEETransactionsonRobotics,2021,37(6):1874-1890
[18]EngelJ,KoltunV,CremersD.Directsparseodometry[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2018,40(3):611-625
[19]QinT,LiPL,ShenSJ.VINS-mono:arobustandversatilemonocularvisual-inertialstateestimator[J].IEEETransactionsonRobotics,2018,34(4):1004-1020
[20]鄧晨,李宏偉,張斌,等.基于深度學(xué)習(xí)的語義SLAM關(guān)鍵幀圖像處理[J].測繪學(xué)報(bào),2021,50(11):1605-1616
DENGChen,LIHongwei,ZHANGBin,etal.ResearchonkeyframeimageprocessingofsemanticSLAMbasedondeeplearning[J].ActaGeodaeticaetCartographicaSinica,2021,50(11):1605-1616
[21]KleinG,MurrayD.ParalleltrackingandmappingforsmallARworkspaces[C]//20076thIEEEandACMInternationalSymposiumonMixedandAugmentedReality.November13-16,2017,Nara,Japan.IEEE,2007:225-234
[22]Gomez-OjedaR,BrialesJ,Gonzalez-JimenezJ.PL-SVO:semi-directmonocularvisualodometrybycombiningpointsandlinesegments[C]//2016IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS).October9-14,2016,Daejeon,Korea(South).IEEE,2016:4211-4216
[23]PumarolaA,VakhitovA,AgudoA,etal.PL-SLAM:real-timemonocularvisualSLAMwithpointsandlines[C]//2017IEEEInternationalConferenceonRoboticsandAutomation.May29-June3,2017,Singapore.IEEE,2017:4503-4508
[24]ForsterC,PizzoliM,ScaramuzzaD.SVO:fastsemi-directmonocularvisualodometry[C]//2014IEEEInternationalConferenceonRoboticsandAutomation.May31-June7,2014,HongKong,China.IEEE,2014:15-22
[25]EngelJ,SchpsT,CremersD.LSD-SLAM:large-scaledirectmonocularSLAM[C]//EuropeanConferenceonComputerVision.Springer,Cham,2014:834-849
[26]MourikisAI,RoumeliotisSI.Amulti-stateconstraintKalmanfilterforvision-aidedinertialnavigation[C]//Proceedings2007IEEEInternationalConferenceonRoboticsandAutomation.April10-14,2007,Rome,Italy.IEEE,2007:3565-3572
[27]LeuteneggerS,LynenS,BosseM,etal.Keyframe-basedvisual-inertialodometryusingnonlinearoptimization[J].TheInternationalJournalofRoboticsResearch,2015,34(3):314-334
[28]BloeschM,OmariS,HutterM,etal.RobustvisualinertialodometryusingadirectEKF-basedapproach[C]//2015IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS).September28-October2,2015,Hamburg,Germany.IEEE,2015:298-304
[29]XuD,VedaldiA,HenriquesJF.MovingSLAM:fullyunsuperviseddeeplearninginnon-rigidscenes[C]//2021IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS).September27-October1,2021,Prague,CzechRepublic.IEEE,2021:4611-4617
[30]張彥雯,胡凱,王鵬盛.三維重建算法研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,12(5):591-602
ZHANGYanwen,HUKai,WANGPengsheng.Reviewof3Dreconstructionalgorithms[J].JournalofNanjingUniversityofInformationScience&Technology(NaturalScienceEdition),2020,12(5):591-602
[31]LiJL,LiZJ,F(xiàn)engY,etal.Developmentofahuman-robothybridintelligentsystembasedonbrainteleoperationanddeeplearningSLAM[J].IEEETransactionsonAutomationScienceandEngineering,2019,16(4):1664-1674
[32]MumuniA,MumuniF.CNNarchitecturesforgeometrictransformation-invariantfeaturerepresentationincomputervision:areview[J].SNComputerScience,2021,2(5):1-23
[33]MaRB,WangR,ZhangYB,etal.RNNSLAM:reconstructingthe3Dcolontovisualizemissingregionsduringacolonoscopy[J].MedicalImageAnalysis,2021,72:102100
[34]TatenoK,TombariF,LainaI,etal.CNN-SLAM:real-timedensemonocularSLAMwithlearneddepthprediction[C]//2017IEEEConferenceonComputerVisionandPatternRecognition(CVPR).July21-26,2017,Honolulu,HI,USA.IEEE,2017:6565-6574
[35]WangS,ClarkR,WenHK,etal.DeepVO:towardsend-to-endvisualodometrywithdeeprecurrentconvolutionalneuralnetworks[C]//2017IEEEInternationalConferenceonRoboticsandAutomation.May29-June3,2017,Singapore.IEEE,2017:2043-2050
[36]BloeschM,CzarnowskiJ,ClarkR,etal.CodeSLAM:learningacompact,optimisablerepresentationfordensevisualSLAM[C]//2018IEEE/CVFConferenceonComputerVisionandPatternRecognition.June18-23,2018,SaltLakeCity,UT,USA.IEEE,2018:2560-2568
[37]YangN,WangR,StucklerJ,etal.Deepvirtualstereoodometry:leveragingdeepdepthpredictionformonoculardirectsparseodometry[C]//EuropeanConferenceonComputerVision(ECCV).September8-12,2018,Munich,Germany.2018.DOI:10.48550/arXiv.1807.02570
[38]LiRH,WangS,LongZQ,etal.UnDeepVO:monocularvisualodometrythroughunsuperviseddeeplearning[C]//2018IEEEInternationalConferenceonRoboticsandAutomation.May21-25,2018,Brisbane,QLD,Australia.IEEE,2018:7286-7291
[39]LooSY,AmiriAJ,MashohorS,etal.CNN-SVO:improvingthemappinginsemi-directvisualodometryusingsingle-imagedepthprediction[C]//2019InternationalConferenceonRoboticsandAutomation(ICRA).May20-24,2019,Montreal,QC,Canada.IEEE,2019:5218-5223
[40]AlmaliogluY,SaputraMRU,deGusmoPPB,etal.GANVO:unsuperviseddeepmonocularvisualodometryanddepthestimationwithgenerativeadversarialnetworks[C]//2019InternationalConferenceonRoboticsandAutomation(ICRA).May20-24,2019,Montreal,QC,Canada.IEEE,2019:5474-5480
[41]LiY,UshikuY,HaradaT.Posegraphoptimizationforunsupervisedmonocularvisualodometry[C]//2019InternationalConferenceonRoboticsandAutomation(ICRA).May20-24,2019,Montreal,QC,Canada.IEEE,2019:5439-5445
[42]YangN,vonStumbergL,WangR,etal.D3VO:deepdepth,deepposeanddeepuncertaintyformonocularvisualodometry[C]//2020IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR).June13-19,2020,Seattle,WA,USA.IEEE,2020:1278-1289
[43]ChancánM,MilfordM.DeepSeqSLAM:atrainableCNN+RNNforjointglobaldescriptionandsequence-basedplacerecognition[J].arXive-print,2020,arXiv:2011.08518
[44]LiRH,WangS,GuDB.DeepSLAM:arobustmonocularSLAMsystemwithunsuperviseddeeplearning[J].IEEETransactionsonIndustrialElectronics,2021,68(4):3577-3587
[45]BrunoHMS,ColombiniEL.LIFT-SLAM:adeep-learningfeature-basedmonocularvisualSLAMmethod[J].Neurocomputing,2021,455:97-110
[46]ZhangSM,LuSY,HeR,etal.Stereovisualodometryposecorrectionthroughunsuperviseddeeplearning[J].Sensors(Basel,Switzerland),2021,21(14):4735
[47]ClarkR,WangS,WenH,etal.VINet:visual-inertialodometryasasequence-to-sequencelearningproblem[C]//Proceedingsofthe31stAAAIConferenceonArtificialIntelligence.February4-9,2017,SanFrancisco,CA,USA.2017:3995-4001
[48]ShamwellEJ,LindgrenK,LeungS,etal.Unsuperviseddeepvisual-inertialodometrywithonlineerrorcorrectionforRGB-Dimagery[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2020,42(10):2478-2493
[49]HanLM,LinYM,DuGG,etal.DeepVIO:self-superviseddeeplearningofmonocularvisualinertialodometryusing3Dgeometricconstraints[C]//2019IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS).November3-8,2019,Macao,China.IEEE,2019:6906-6913
[50]ChenCH,RosaS,MiaoYS,etal.Selectivesensorfusionforneuralvisual-inertialodometry[C]//2019IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR).June15-20,2019,LongBeach,CA,USA.IEEE,2019:10534-10543
[51]KimY,YoonS,KimS,etal.Unsupervisedbalancedcovariancelearningforvisual-inertialsensorfusion[J].IEEERoboticsandAutomationLetters,2021,6(2):819-826
[52]GurturkM,YusefiA,AslanMF,etal.TheYTUdatasetandrecurrentneuralnetworkbasedvisual-inertialodometry[J].Measurement,2021,184:109878
[53]傅杰,徐常勝.關(guān)于單目標(biāo)跟蹤方法的研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,11(6):638-650
FUJie,XUChangsheng.Asurveyofsingleobjecttrackingmethods[J].JournalofNanjingUniversityofInformationScience&Technology(NaturalScienceEdition),2019,11(6):638-650
[54]SteenbeekA,NexF.CNN-baseddensemonocularvisualSLAMforreal-timeUAVexplorationinemergencyconditions[J].Drones,2022,6(3):79
[55]唐燦,唐亮貴,劉波.圖像特征檢測與匹配方法研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,12(3):261-273
TANGCan,TANGLianggui,LIUBo.Asurveyofimagefeaturedetectionandmatchingmethods[J].JournalofNanjingUniversityofInformationScience&Technology(NaturalScienceEdition),2020,12(3):261-273
[56]LiL,KongX,ZhaoXR,etal.Semanticscancontext:anovelsemantic-basedloop-closuremethodforLiDARSLAM[J].AutonomousRobots,2022,46(4):535-551
[57]SakkariM,HamdiM,ElmannaiH,etal.Featureextraction-baseddeepself-organizingmap[J].Circuits,Systems,andSignalProcessing,2022,41(5):2802-2824
[58]ZhuR,YangMK,LiuW,etal.DeepAVO:efficientposerefiningwithfeaturedistillingfordeepvisualodometry[J].Neurocomputing,2022,467:22-35
[59]KimJJY,UrschlerM,RiddlePJ,etal.SymbioLCD:ensemble-basedloopclosuredetectionusingCNN-extractedobjectsandvisualbag-of-words[C]//2021IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS).September27-October1,2021,Prague,CzechRepublic.IEEE,2021:5425
[60]AiYB,RuiT,LuM,etal.DDL-SLAM:arobustRGB-DSLAMindynamicenvironmentscombinedwithdeeplearning[J].IEEEAccess,8:162335-162342
[61]JavedZ,KimGW.PanoVILD:achallengingpanoramicvision,inertialandLiDARdatasetforsimultaneouslocalizationandmapping[J].TheJournalofSupercomputing,2022,78(6):8247-8267
[62]DuanR,F(xiàn)engYR,WenCY.Deepposegraph-matching-basedloopclosuredetectionforsemanticvisualSLAM[J].Sustainability,2022,14(19):11864
[63]MemonAR,WangHS,HussainA.LoopclosuredetectionusingsupervisedandunsuperviseddeepneuralnetworksformonocularSLAMsystems[J].RoboticsandAutonomousSystems,2020,126:103470
[64]LiDJ,ShiXS,LongQW,etal.DXSLAM:arobustandefficientvisualSLAMsystemwithdeepfeatures[C]//2020IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS).October24,2020-January24,2021,LasVegas,NV,USA.IEEE,2020:4958-4965
[65]QinC,ZhangYZ,LiuYD,etal.Semanticloopclosuredetectionbasedongraphmatchinginmulti-objectsscenes[J].JournalofVisualCommunicationandImageRepresentation,2021,76:103072
[66]GodardC,AodhaOM,BrostowGJ.Unsupervisedmonoculardepthestimationwithleft-rightconsistency[C]//2017IEEEConferenceonComputerVisionandPatternRecognition.July21-26,2017,Honolulu,HI,USA.IEEE,2017:6602-6611
[67]SangHR,JiangR,WangZP,etal.Anovelneuralmulti-storememorynetworkforautonomousvisualnavigationinunknownenvironment[J].IEEERoboticsandAutomationLetters,2022,7(2):2039-2046
[68]LiGH,ChenSL.Visualslamindynamicscenesbasedonobjecttrackingandstaticpointsdetection[J].JournalofIntelligent&RoboticSystems,2022,104(2):1-10
[69]LiuL,TangTH,ChenJ,etal.Real-time3Dreconstructionusingpoint-dependentposegraphoptimizationframework[J].MachineVisionandApplications,2022,33(2):1-11
[70]XueF,WangQ,WangX,etal.Guidedfeatureselectionfordeepvisualodometry[C]//14thAsianConferenceonComputerVision.December2-6,2018,Perth,Australia.IEEE,2018:293-308
[71]TangYF,WeiCC,ChengSL,etal.Stereovisual-inertialodometryusingstructurallinesforlocalizingindoorwheeledrobots[J].MeasurementScienceandTechnology,2022,33(5):055114
[72]BucciA,ZacchiniL,F(xiàn)ranchiM,etal.Comparisonoffeaturedetectionandoutlierremovalstrategiesinamonovisualodometryalgorithmforunderwaternavigation[J].AppliedOceanResearch,2022,118:102961
[73]WuJF,XiongJ,GuoH.ImprovingrobustnessoflinefeaturesforVIOindynamicscene[J].MeasurementScienceandTechnology,2022,33(6):065204
[74]HuangWB,WanWW,LiuH.Optimization-basedonlineinitializationandcalibrationofmonocularvisual-inertialodometryconsideringspatial-temporalconstraints[J].Sensors(Basel,Switzerland),2021,21(8):2673
[75]XiangY,F(xiàn)oxD.DA-RNN:semanticmappingwithdataassociatedrecurrentneuralnetworks[J].arXive-print,2017,arXiv:1703.03098
AreviewofvisualSLAMbasedonneuralnetworks
SHANGGuangtao1CHENWeifeng1JIAihong2ZHOUChengjun1WANGXiyang1XUChonghui1
1SchoolofAutomation,NanjingUniversityofInformationScience&Technology,Nanjing210044,China
2CollegeofMechanical&ElectricalEngineering/LabofLocomotionBioinspirationand
IntelligentRobots,NanjingUniversityofAeronauticsandAstronautics,Nanjing210016,China
Abstract
Althoughtraditionalvision-basedSLAM(VSLAM)technologieshaveachievedimpressiveresults,theyarelesssatisfactoryinchallengingenvironments.Deeplearningpromotestherapiddevelopmentofcomputervisionandshowsprominentadvantagesinimageprocessing.ItsahotspottocombinedeeplearningwithVSLAM,whichispromisingthroughtheeffortsofmanyresearchers.Here,weintroducethecombinationofdeeplearningandtraditionalVSLAMalgorithm,startingfromtheclassicalneuralnetworksofdeeplearning.TheachievementsofConvolutionalNeuralNetwork(CNN)andRecurrentNeuralNetwork(RNN)indepthestimation,poseestimationandclosed-loopdetectionaresummarized.Theadvantagesofneuralnetworkinsemanticinformationextractionareelaborated,andthefuturedevelopmentofVSLAMisalsoprospected.
Keywordssimultaneouslocalizationandmapping(SLAM);deeplearning;convolutionalneuralnetwork(CNN);recurrentneuralnetwork(RNN);poseestimation;closed-loopdetection;semantic