曾慶化,羅怡雪,孫克誠(chéng),李一能,劉建業(yè)
(1.南京航空航天大學(xué)導(dǎo)航研究中心,南京 211106;2.先進(jìn)飛行器導(dǎo)航、控制與健康管理工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,南京 211106;3.衛(wèi)星通信與導(dǎo)航江蘇高校協(xié)同創(chuàng)新中心,南京 211106)
實(shí)時(shí)精確的導(dǎo)航與定位信息對(duì)于運(yùn)動(dòng)載體的高效工作和任務(wù)實(shí)現(xiàn)具有不可替代的重要作用。為了實(shí)現(xiàn)運(yùn)動(dòng)載體在未知環(huán)境中的高精度動(dòng)態(tài)定位和導(dǎo)航,同時(shí)定位與建圖(Simultaneous localiza?tion and mapping,SLAM)技術(shù)獲得了飛速的發(fā)展。該技術(shù)實(shí)現(xiàn)了搭載傳感器的運(yùn)動(dòng)載體在未知環(huán)境中運(yùn)動(dòng)感知并建立環(huán)境地圖,同時(shí)估計(jì)自身在所建地圖中位置的功能[1],最早由Randall C. Smith 和Peter Cheeseman 于1986 年提出[2],后經(jīng)Leonard 等擴(kuò)充[3]。隨著傳感器類型的擴(kuò)充以及運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(Structure from motion,SfM)技術(shù)[4]的出現(xiàn),基于不同傳感器和優(yōu)化理論的SLAM 技術(shù)得到迅速發(fā)展[5?6],并在增強(qiáng)現(xiàn)實(shí)(Augmented reality,AR)/虛擬現(xiàn)實(shí)(Virtual reality,VR)、機(jī)器人、無(wú)人駕駛和無(wú)人機(jī)[7]等領(lǐng)域得到廣泛應(yīng)用。
SLAM 技術(shù)所依據(jù)的傳感器形式多樣,如激光、超聲波和視覺(jué)等多種形式,目前激光SLAM 和視 覺(jué)SLAM 是 兩 種 主 流 方 式[8?9]。激 光SLAM 主要通過(guò)激光雷達(dá)直接獲得載體相對(duì)于環(huán)境的距離和方位信息[10],實(shí)現(xiàn)環(huán)境的建圖和載體自身相對(duì)位置的確定,該技術(shù)理論和工程均比較成熟,但其存在成本較高、探測(cè)范圍有限等缺陷。視覺(jué)SLAM 主要依靠視覺(jué)傳感器,其價(jià)格適中,使用方便[11],因此日益受到重視。隨著應(yīng)用場(chǎng)景和任務(wù)的日益復(fù)雜化,純視覺(jué)SLAM 也呈現(xiàn)了易受光照變化和運(yùn)動(dòng)速度干擾與影響等缺點(diǎn)。因此,多信息融合的視覺(jué)SLAM 技術(shù)逐漸獲得重視。結(jié)合多傳感器信息和多層次互補(bǔ)濾波,可大大提升載體的SLAM 整體性能。視覺(jué)SLAM 分類及里程碑技術(shù)發(fā)展框圖如圖1 所示。
圖1 視覺(jué)SLAM 分類及里程碑技術(shù)發(fā)展Fig.1 Visual SLAM classification and milestone technology development
本文集中針對(duì)視覺(jué)及視覺(jué)/慣性SLAM 技術(shù)發(fā)展進(jìn)行綜述研究,分別從視覺(jué)及視覺(jué)/慣性SLAM 中的關(guān)鍵環(huán)節(jié)、純視覺(jué)SLAM 關(guān)鍵技術(shù)發(fā)展分析、視覺(jué)/慣性信息融合SLAM 關(guān)鍵技術(shù)發(fā)展分析等方面展開(kāi)。
視覺(jué)/慣性SLAM 系統(tǒng)框架結(jié)構(gòu)如圖2 所示,獲取視覺(jué)及慣性傳感器的數(shù)據(jù)后,通過(guò)里程計(jì)算法估計(jì)載體運(yùn)動(dòng),結(jié)合回環(huán)檢測(cè)結(jié)果,在后端優(yōu)化框架中優(yōu)化運(yùn)動(dòng)估計(jì)參數(shù),同時(shí)確定自身軌跡并實(shí)現(xiàn)周圍環(huán)境地圖的構(gòu)建。本文以前端里程計(jì)技術(shù)、后端優(yōu)化技術(shù)、回環(huán)檢測(cè)技術(shù)和地圖構(gòu)建技術(shù)為代表,對(duì)視覺(jué)/慣性SLAM 中的關(guān)鍵環(huán)節(jié)進(jìn)行歸納整理。去除慣性信息后,即可得視覺(jué)SLAM 關(guān)鍵環(huán)節(jié)。
圖2 視覺(jué)/慣性SLAM 系統(tǒng)框架結(jié)構(gòu)Fig.2 Frame structure of visual/inertial SLAM system
(1)關(guān)鍵環(huán)節(jié)1:前端里程計(jì)技術(shù)
該關(guān)鍵環(huán)節(jié)在SLAM 過(guò)程中處于前端位置,狹義的視覺(jué)里程計(jì)技術(shù)僅指代依據(jù)傳感器數(shù)據(jù)進(jìn)行載體位姿估計(jì)的過(guò)程,對(duì)SLAM 的結(jié)果具有重要影響。在對(duì)視覺(jué)里程計(jì)運(yùn)動(dòng)估計(jì)時(shí),可采用對(duì)極幾何、迭代最近鄰(Iterative closest point,ICP)或n 點(diǎn)透視(Perspective?n?point,PnP)等原理進(jìn)行解算。
視覺(jué)里程計(jì)根據(jù)工作原理可分為特征點(diǎn)法和直接法:特征點(diǎn)法通過(guò)提取和跟蹤解算圖像特征獲得載體與環(huán)境之間的相對(duì)位姿,理論較為成熟,魯棒性較強(qiáng),且對(duì)環(huán)境的紋理特征要求較高,計(jì)算量較大;直接法利用圖像像素信息計(jì)算并累積相機(jī)的相對(duì)運(yùn)動(dòng),具有速度快、實(shí)時(shí)性好的優(yōu)點(diǎn),但需要滿足時(shí)間連續(xù)、灰度不變等假設(shè)模型。
特征點(diǎn)法和直接法均需通過(guò)圖像匹配實(shí)現(xiàn)信息跟蹤,存在圖像難匹配、誤匹配問(wèn)題。針對(duì)特征難匹配問(wèn)題,國(guó)內(nèi)外學(xué)者提出結(jié)合多源傳感器信息的方法,采用慣導(dǎo)、全球?qū)Ш叫l(wèi)星系統(tǒng)(Global nav?igation satellite system,GNSS)、激光雷達(dá)等設(shè)備信息與視覺(jué)信息耦合,提升視覺(jué)導(dǎo)航魯棒性[12?13];針對(duì)特征誤匹配問(wèn)題,大多數(shù)采用改進(jìn)或挖掘特征匹配結(jié)構(gòu)的方法豐富特征信息,如構(gòu)建基于雙向光流法的特征點(diǎn)環(huán)形匹配[14]、提取人造環(huán)境結(jié)構(gòu)邊緣線特征的運(yùn)動(dòng)估計(jì)[15]、結(jié)合平面與直線關(guān)聯(lián)特征估計(jì)位姿[16]、結(jié)合深度學(xué)習(xí)中的語(yǔ)義信息剔除動(dòng)態(tài)特征點(diǎn)[17?18]等算法。
通常采用慣性傳感器輔助提高視覺(jué)里程計(jì)的動(dòng)態(tài)適應(yīng)性,視覺(jué)/慣性里程計(jì)的前端關(guān)鍵技術(shù)主要有慣性預(yù)積分和信息聯(lián)合初始化。具有短期高動(dòng)態(tài)適應(yīng)能力的慣性器件信息采集頻率通常高于視覺(jué)相機(jī)的圖像采集頻率,因此使用圖像采集頻率對(duì)慣性觀測(cè)數(shù)據(jù)進(jìn)行預(yù)積分[19],實(shí)現(xiàn)視覺(jué)/慣性信息的頻率配準(zhǔn)和坐標(biāo)系轉(zhuǎn)化效率的提升。視覺(jué)/慣性聯(lián)合初始化策略目的在于提升視覺(jué)里程計(jì)的初始信息的快速性和準(zhǔn)確性,如采用觀測(cè)樣本情形評(píng)估函數(shù)評(píng)估狀態(tài)誤差信息矩陣,循環(huán)判斷是否滿足初始化所需精度,從而提升初始化效率[20]。
(2)關(guān)鍵環(huán)節(jié)2:后端優(yōu)化技術(shù)
后端優(yōu)化可分為濾波器和非線性優(yōu)化兩類,多源信息松耦合架構(gòu)常采用濾波器融合方式,緊耦合架構(gòu)中兩種方式均有應(yīng)用,且基于圖優(yōu)化理論的非線性優(yōu)化策略更為廣泛。
濾波器優(yōu)化方法通常改進(jìn)卡爾曼濾波(Kal?man filter,KF)模型以適用于非線性系統(tǒng)。如采用聯(lián)邦濾波將慣性測(cè)量單元(Inertial measurement unit,IMU)信息分別與里程計(jì)和視覺(jué)數(shù)據(jù)組合,避免視覺(jué)失效時(shí)組合導(dǎo)航系統(tǒng)無(wú)法定位的問(wèn)題[21];采用不變卡爾曼濾波融合多層ICP 估計(jì)的相機(jī)位姿與慣性解算位姿,提升相機(jī)追蹤與重定位效果[22];基于容積卡爾曼濾波(Cubature Kalman fil?ter,CKF)框架,融合視覺(jué)與慣性信息,避免雅可比矩陣計(jì)算過(guò)程,提升系統(tǒng)位姿估計(jì)精度[23]等。
非線性優(yōu)化方法通常改進(jìn)非線性最小二乘問(wèn)題的求解過(guò)程。經(jīng)典的最小二乘問(wèn)題求解算法,如高斯牛頓法和列文伯格?馬夸爾特(Levenberg?Marquardt,LM)算法運(yùn)算時(shí)間較長(zhǎng),因而可采用改進(jìn)dogleg算法減少耗時(shí)[24]。此外,部分研究針對(duì)于模型的精度優(yōu)化,如增加模型到模型配準(zhǔn)的約束實(shí)現(xiàn)大回環(huán)局部?jī)?yōu)化[25];采用卡爾曼濾波器融合全局優(yōu)化后的高精度視覺(jué)估計(jì)與IMU 信息,兼顧濾波器的計(jì)算效率與優(yōu)化方法的精度[26]。
(3)關(guān)鍵環(huán)節(jié)3:回環(huán)檢測(cè)技術(shù)
SLAM 中的回環(huán)檢測(cè)技術(shù)通過(guò)建立當(dāng)前幀與之前某一幀的位姿約束關(guān)系消除視覺(jué)里程計(jì)所產(chǎn)生的累積誤差,進(jìn)而實(shí)現(xiàn)地圖優(yōu)化,主要依賴基于詞袋模型的改進(jìn)算法或結(jié)合深度學(xué)習(xí)的回環(huán)檢測(cè)技術(shù)[27]。
詞袋(Bag of words,BoW)模型聚類特征描述形成單詞,將圖像幀轉(zhuǎn)換為單詞集合,對(duì)比圖像幀相似性判斷回環(huán),可以加快特征匹配速度,但存在環(huán)境適應(yīng)性弱、難以應(yīng)對(duì)視角變換等問(wèn)題。因此,部分研究通過(guò)優(yōu)化BoW 模型進(jìn)行改進(jìn),如結(jié)合圖像均衡化處理實(shí)現(xiàn)光照變換場(chǎng)景下的視覺(jué)BoW 在線增刪,提升算法魯棒性[28];計(jì)算匹配圖像的共視區(qū)域協(xié)方差矩陣距離確定回環(huán)[29],實(shí)現(xiàn)大視角下的回環(huán)檢測(cè)等[30]。
BoW 模型中構(gòu)建的單詞向量近似語(yǔ)義信息,因而可結(jié)合語(yǔ)義標(biāo)注剔除運(yùn)動(dòng)物體[31],提高BoW模型魯棒性;也可以采用神經(jīng)網(wǎng)絡(luò)代替BoW 模型獲取圖像幀的特征向量[32?33],提高算法召回率。
(4)關(guān)鍵環(huán)節(jié)4:地圖構(gòu)建技術(shù)
由于SLAM 前端理論差異,其構(gòu)建地圖主要分稀疏點(diǎn)云地圖、半稠密點(diǎn)云地圖和稠密點(diǎn)云地圖3 類,點(diǎn)云稠密程度與檢測(cè)特征點(diǎn)的密集程度相關(guān)。隨著語(yǔ)義信息的引入,部分框架構(gòu)建語(yǔ)義地圖[34]以提供更好的視覺(jué)感知效果。
地圖構(gòu)建通常依據(jù)傳感器獲取信息及數(shù)據(jù)處理算法的差異而不同。文獻(xiàn)[35]提出構(gòu)建融合類腦感知信息的三維認(rèn)知地圖,其三維位置誤差為總行程的1.56%;文獻(xiàn)[36]將圖像中的語(yǔ)義標(biāo)注結(jié)果與相機(jī)估計(jì)軌跡相融合,構(gòu)建增量式稠密語(yǔ)義地圖。
SLAM 建圖過(guò)程中通常需要包含載體的相對(duì)位姿信息以及周圍環(huán)境景物的三維位置信息,評(píng)判算法精度的指標(biāo)采用絕對(duì)軌跡誤差(Absolute tra?jectory error,ATE)和相對(duì)位姿誤差(Relative pose error,RPE)。ATE 對(duì)比數(shù)據(jù)序列時(shí)間戳中每個(gè)相近時(shí)刻下算法解算的載體位姿估計(jì)值與真實(shí)位姿之間的差值,是評(píng)估算法定位精度的主要指標(biāo)。RPE 計(jì)算數(shù)據(jù)序列時(shí)間戳中每個(gè)固定時(shí)間間隔內(nèi)算法估計(jì)位姿變化量與真實(shí)位姿變化量的差值,是評(píng)估系統(tǒng)漂移的主要指標(biāo)。由于并行處理技術(shù)的應(yīng)用,算法的實(shí)時(shí)性評(píng)估通常較為獨(dú)立,可依據(jù)研究需要對(duì)不同環(huán)節(jié)分別評(píng)估其運(yùn)行時(shí)間,也可以針對(duì)前端特征跟蹤耗時(shí)的問(wèn)題,評(píng)估跟蹤線程單幀圖像的處理時(shí)間。鑒于SLAM 算法影響因素較多,包括前端理論、環(huán)境特征點(diǎn)數(shù)目、光照變換、硬件配置等,當(dāng)前的水平為:室內(nèi)定位精度可達(dá)分米級(jí);室外定位精度多為米級(jí);隨著動(dòng)態(tài)性能的增大,其定位精度有所下降。圖3 匯集了幾種常用的視覺(jué)SLAM地圖結(jié)果形式,其中圖3(c,d,e)均屬于點(diǎn)云地圖。
圖3 視覺(jué)SLAM 構(gòu)建地圖類型Fig.3 Types of maps constructed by visual SLAM
自2004 年Bergen 等提出視覺(jué)里程計(jì)(Visual odometry,VO)后[37],基于視覺(jué)圖像序列估計(jì)相機(jī)運(yùn)動(dòng)的方法獲得了科研人員的重視。將建圖環(huán)節(jié)引入VO 極大促進(jìn)了構(gòu)建環(huán)境地圖強(qiáng)化數(shù)據(jù)關(guān)聯(lián)的視覺(jué)SLAM 技術(shù)的發(fā)展。視覺(jué)SLAM 通過(guò)多幀圖像估計(jì)自身的位姿變化,再通過(guò)累積位姿變化計(jì)算載體在當(dāng)前環(huán)境中的位置,其與激光SLAM 技術(shù)相比具備低成本、應(yīng)用方便、信息豐富、隱蔽性強(qiáng)等諸多優(yōu)勢(shì),發(fā)展?jié)摿薮蟆?/p>
近年發(fā)展迅速的深度學(xué)習(xí)技術(shù)在視覺(jué)SLAM中也得到了重視和應(yīng)用[38],基于此可以將純視覺(jué)SLAM 分成基于幾何變換和基于深度學(xué)習(xí)這兩大類。其中,基于幾何變換的視覺(jué)SLAM 依據(jù)前端原理不同可分為特征點(diǎn)法和直接法兩類,基于深度學(xué)習(xí)的視覺(jué)SLAM 依據(jù)深度學(xué)習(xí)在視覺(jué)SLAM 中的學(xué)習(xí)功能形式不同可分為模塊替代SLAM 和端到端SLAM 兩類。
基于幾何變換的視覺(jué)SLAM 方法利用二維圖像和三維點(diǎn)之間的幾何結(jié)構(gòu)映射關(guān)系求解導(dǎo)航參數(shù),其主要涉及兩類前端理論:特征點(diǎn)法和直接法。
(1)特征點(diǎn)法SLAM
該方法是VO 早期的主流方法,主要地圖形式如 圖3(a,c)所 示。第 一 個(gè) 視 覺(jué)SLAM,Mono?SLAM 于2007 年提出[39]。首次通過(guò)移動(dòng)端相機(jī)獲取三維運(yùn)動(dòng)軌跡,在個(gè)人電腦(Personal computer,PC)上可以30 Hz 的頻率實(shí)時(shí)工作,但其單線程結(jié)構(gòu)與實(shí)時(shí)性要求限制了前端特征跟蹤數(shù)量。因此Klein 等[40]提出具備跟蹤和建圖雙線程結(jié)構(gòu)的并行跟 蹤 與 映 射(Parallel tracking and mapping,PTAM)方法,首次通過(guò)非線性優(yōu)化,即光束法平差(Bundle adjustment,BA)方式計(jì)算相機(jī)軌跡和全局一致環(huán)境地圖[41]。2013 年,Labbe 等[42]提出了基 于 實(shí) 時(shí) 外 觀 建 圖(Real?time appearance?based mapping,RTAB?MAP)的方法,基于BoW 模型將圖像表示為視覺(jué)詞匯的集合,實(shí)現(xiàn)回環(huán)檢測(cè)[43]。2015 年Mur?Artal 等[44?45]進(jìn) 一 步 提 出 含 有 跟 蹤、局部建圖及回環(huán)檢測(cè)多線程的ORB?SLAM2 算法,視覺(jué)SLAM 的多線程框架基本完善。
近幾年基于特征點(diǎn)法的視覺(jué)SLAM 主要針對(duì)前端特征結(jié)構(gòu)進(jìn)行改進(jìn),如2021 年哈爾濱工業(yè)大學(xué)[46]提出點(diǎn)線特征融合的方式,結(jié)合線特征約束提升線特征估計(jì)準(zhǔn)確性,降低了3D 線特征引入的冗余參數(shù)對(duì)運(yùn)動(dòng)估計(jì)的影響。南開(kāi)大學(xué)[16]結(jié)合平面和直線之間的幾何關(guān)系,提出基于平面?直線,即采用直線段檢測(cè)算子(Line segment detector,LSD)特征 混 合 關(guān) 聯(lián) 的 約 束 方 法PLVO(Plane?line?based RGB?D visual odometry),解決相機(jī)位姿估計(jì)時(shí)的退化問(wèn)題。同時(shí),簡(jiǎn)化跟蹤特征,直接依據(jù)圖像像素信息估計(jì)運(yùn)動(dòng)的直接法得到廣泛研究。
(2)直接法SLAM
該方法構(gòu)建的地圖形式主要如圖3(c,d,e)所示。2011 年,Newcombe 等[47]提出了首個(gè)基于單像素的直接法SLAM,稠密跟蹤與建圖(Dense track?ing and mapping,DTAM)方法,結(jié)合單個(gè)RGB 相機(jī)可在商用圖像處理器(Graphics processing unit,GPU)中實(shí)時(shí)定位與跟蹤。為了在一定程度上保留關(guān)鍵點(diǎn)信息,隨后Forster 等[48]提出用稀疏特征點(diǎn)代替像素匹配的半直接法視覺(jué)里程計(jì)(Semi?direct visual odometry,SVO)方法,Engel 等提出構(gòu)建大尺度全局一致性半稠密環(huán)境地圖的大范圍直接同步定位與建圖(Large?scale direct SLAM,LSD?SLAM)算法[49],以及通過(guò)最小化光度誤差計(jì)算相機(jī)位姿與地圖點(diǎn)的位置,將數(shù)據(jù)關(guān)聯(lián)與位姿估計(jì)統(tǒng)一在非線性優(yōu)化中的直接稀疏里程計(jì)(Direct sparse odometry,DSO)方法[50]。
為兼顧特征點(diǎn)法與直接法的優(yōu)勢(shì),部分學(xué)者針對(duì)半直接法SLAM 深入研究。南京郵電大學(xué)[51]提出了基于半直接法的單目視覺(jué)SLAM 算法,結(jié)合KLT(Kanade?Lucas?Tomasi)光流跟蹤與ORB(Ori?ented fast and rotated brief)特征匹配方法,可處理復(fù)雜環(huán)境下的低紋理、運(yùn)動(dòng)目標(biāo)和感知混疊等問(wèn)題。
研究結(jié)合幾何信息的直接法也獲得了進(jìn)一步的推進(jìn),如2019 年中國(guó)科學(xué)院大學(xué)[52]提出的融合多視圖幾何和直接法的同步定位與建圖(Fusing MVG and direct SLAM,F(xiàn)MD?SLAM),結(jié)合多視圖幾何和直接法估計(jì)位姿信息,并利用最小化重投影誤差優(yōu)化位姿結(jié)果。表1 中梳理了基于幾何變換的視覺(jué)SLAM 代表性成果。
表1 基于幾何變換的視覺(jué)SLAM 研究成果Table 1 Research results of visual SLAM based on geometric transformation
從以上基于幾何變換的視覺(jué)SLAM 方法的演化趨勢(shì)可知:特征點(diǎn)法主要對(duì)前端關(guān)鍵點(diǎn)進(jìn)行改進(jìn)優(yōu)化,直接法的前端則由基于像素估計(jì)趨向結(jié)合特征點(diǎn)法的半稠密方式,后端優(yōu)化部分由濾波器過(guò)渡到非線性優(yōu)化為主,地圖類型也由點(diǎn)云地圖擴(kuò)展為半稠密/稠密地圖,適用模式由單目逐步擴(kuò)充為雙目和RGB?D 模式。
由于在光照變化、場(chǎng)景更替和物體運(yùn)動(dòng)時(shí),基于幾何變換的視覺(jué)SLAM 方法的性能下降[53],且具有計(jì)算量大、計(jì)算流程模式固定等問(wèn)題。因此,隨著深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,基于深度學(xué)習(xí)的視覺(jué)SLAM 研究也逐漸成為視覺(jué)的一個(gè)研究熱點(diǎn)。基于深度學(xué)習(xí)的視覺(jué)SLAM 方法,主要用深度學(xué)習(xí)代替了SLAM 的部分或者全部的模塊,其地圖形式多如圖3(c,e,f)所示。
(1)利用深度學(xué)習(xí)替代傳統(tǒng)SLAM 模塊的方法
該方法常用深度學(xué)習(xí)過(guò)程替代特征提取、特征匹配和深度估計(jì)等模塊[54?55],而語(yǔ)義分割大多結(jié)合語(yǔ)義信息對(duì)前端里程計(jì)過(guò)程進(jìn)行改進(jìn)。2008 年Roberts 等[56]首次將機(jī)器學(xué)習(xí)應(yīng)用于VO。2017 年佳能公司[57]提出的CNN?SLAM,將LSD?SLAM 中的深度估計(jì)和圖像匹配模塊都替換成基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)的方法,提升系統(tǒng)場(chǎng)景適應(yīng)性。2018 年帝國(guó)理工學(xué)院[58]提出的CodeSLAM 使用U?Net 神經(jīng)網(wǎng)絡(luò)提取圖像特征并估計(jì)圖像深度的不確定性。2019 年博特拉大學(xué)[59]提出一種利用單張圖片進(jìn)行深度預(yù)測(cè)的方法CNN?SVO,可提升半直接法視覺(jué)里程計(jì)的建圖效果。2020 年阿德萊德大學(xué)[60]提出基于CNN 實(shí)現(xiàn)深度預(yù)測(cè)和特征匹配的融合深度與光流的視覺(jué)里程計(jì)(Depth and flow for visual odometry,DF?VO)方法,將深度學(xué)習(xí)與對(duì)極幾何和PnP 成功結(jié)合。2021 年中國(guó)科學(xué)技術(shù)大學(xué)[61]提出結(jié)合幾何約束和語(yǔ)義分割去除動(dòng)態(tài)環(huán)境中移動(dòng)對(duì)象的DP?SLAM方法,結(jié)合移動(dòng)概率傳播模型進(jìn)行動(dòng)態(tài)關(guān)鍵點(diǎn)檢測(cè),有助于虛擬現(xiàn)實(shí)的應(yīng)用研究。
(2)利用深度學(xué)習(xí)實(shí)現(xiàn)的端到端SLAM 方法
該方法利用端到端的訓(xùn)練方法可直接估計(jì)圖像序列的幀間運(yùn)動(dòng),在線計(jì)算速度快,具有較強(qiáng)的算法遷移能力[62],其計(jì)算速度相比替代傳統(tǒng)SLAM 模塊的方法更快。2015 年,劍橋大學(xué)[63]基于圖像識(shí)別網(wǎng)絡(luò)GoogleNet[64]開(kāi)發(fā)基于單張圖像信息的絕對(duì)位姿估計(jì)網(wǎng)絡(luò)PoseNet。2017 年埃塞克斯大學(xué)[65]提出的UnDeepVO 采用無(wú)監(jiān)督深度學(xué)習(xí)訓(xùn)練雙目圖像,可通過(guò)單目圖像估計(jì)相機(jī)位姿并實(shí)現(xiàn)絕對(duì)尺度的恢復(fù)。弗萊堡大學(xué)[66]提出的De?MoN 利用連續(xù)無(wú)約束的圖像計(jì)算深度及相機(jī)運(yùn)動(dòng),還可對(duì)圖像間的光流和匹配的置信度進(jìn)行估計(jì)。2019 年 倫 敦 大 學(xué) 學(xué) 院[67]提 出 的Monodepth2是一種基于CNN 的自監(jiān)督方法,通過(guò)在運(yùn)動(dòng)圖像序列上訓(xùn)練一個(gè)建立在自監(jiān)督損失函數(shù)上的架構(gòu)實(shí)現(xiàn)深度及位姿預(yù)測(cè)。2020 年北京大學(xué)[68]提出一種單目深度、位姿估計(jì)的無(wú)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)SfM?Learner,可從無(wú)標(biāo)簽視頻序列中進(jìn)行深度和相機(jī)姿態(tài)估計(jì)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。表2 整理了基于深度學(xué)習(xí)的視覺(jué)SLAM 代表方案。
表2 基于深度學(xué)習(xí)的視覺(jué)SLAM 研究成果Table 2 Research results of visual SLAM based on deep learning
基于深度學(xué)習(xí)的視覺(jué)SLAM 方法在2015 年之后興起,近年來(lái)研究成果越來(lái)越豐富,其訓(xùn)練類型以有監(jiān)督為主,并逐步改進(jìn)為自監(jiān)督、無(wú)監(jiān)督方式。采用替代傳統(tǒng)視覺(jué)SLAM 模塊的形式,構(gòu)建地圖類型較為多樣,適用模式豐富,但仍以單目模式為主;端到端的學(xué)習(xí)則主要集中在單目視覺(jué)模式。
綜上,基于幾何變換的方式和結(jié)合深度學(xué)習(xí)的方式都存在其優(yōu)勢(shì)和不足。幾何變換方法理論成熟,特征點(diǎn)法適用于尺度較大的運(yùn)動(dòng),魯棒性更好,但特征提取耗時(shí);直接法速度快,適用于特征缺失場(chǎng)景,但灰度不變假設(shè)不易滿足,不適合快速運(yùn)動(dòng)?;谏疃葘W(xué)習(xí)的方法對(duì)光線復(fù)雜環(huán)境的適應(yīng)性強(qiáng),對(duì)動(dòng)態(tài)場(chǎng)景識(shí)別更加有效,可結(jié)合語(yǔ)義信息構(gòu)建地圖,但同樣存在訓(xùn)練時(shí)間長(zhǎng)、計(jì)算資源大、可解釋性差等問(wèn)題。因此無(wú)論是理論成熟、具有可解釋性模型的傳統(tǒng)方法還是可移植性強(qiáng)的深度學(xué)習(xí)方法都亟待進(jìn)一步深入研究。
由于純視覺(jué)SLAM 存在受環(huán)境光照影響大、動(dòng)態(tài)適應(yīng)性差等問(wèn)題,基于視覺(jué)的多信息融合SLAM 技術(shù)成為新的重要研究方向,如:視覺(jué)/慣性、異源視覺(jué)/慣性等[69]組合方式。作為一種常見(jiàn)的自主導(dǎo)航方式[70?71],傳統(tǒng)的可見(jiàn)光視覺(jué)與慣性信息融合SLAM 技術(shù),在研究成本和隱蔽性方面均具有較大優(yōu)勢(shì)。針對(duì)可見(jiàn)光圖像在弱光照條件下適應(yīng)性差的問(wèn)題,可結(jié)合不同成像傳感器和圖像處理技術(shù)獲得的異源圖像進(jìn)一步豐富視覺(jué)導(dǎo)航信息。下文將在闡述傳統(tǒng)視覺(jué)/慣性SLAM 的發(fā)展歷程及經(jīng)典算法的基礎(chǔ)上,對(duì)融合異源圖像的視覺(jué)、視覺(jué)/慣性SLAM 方案進(jìn)行綜合分析。
純視覺(jué)導(dǎo)航對(duì)環(huán)境特征跟蹤較為精確,但在載體快速運(yùn)動(dòng)以及低紋理、含有光照變化等場(chǎng)景中應(yīng)用效果不佳;純慣性導(dǎo)航則不受運(yùn)動(dòng)場(chǎng)景和速度限制,但長(zhǎng)時(shí)間運(yùn)行會(huì)產(chǎn)生累積誤差[72]。因此,融合視覺(jué)與慣性傳感器優(yōu)勢(shì),并可規(guī)避劣勢(shì)的視覺(jué)/慣性組合SLAM 技術(shù)成為視覺(jué)SLAM 領(lǐng)域的主流組合方式,并依據(jù)視覺(jué)與慣性信息的耦合方式分為松耦合和緊耦合兩種組合形式[73?74],構(gòu)建地圖形式主要如圖3(b,c)所示。
(1)視覺(jué)/慣性松耦合SLAM
視覺(jué)圖像與慣性數(shù)據(jù)的松耦合模式多應(yīng)用于早期理論探索階段,如2012 年,蘇黎世聯(lián)邦理工學(xué)院[75]提出的一種基于光流(Optical flow,OF)和慣性約束的慣性與單傳感器融合(Single sensor fu?sion,SSF),其具有良好的可擴(kuò)展性。但由于視覺(jué)/慣性松耦合方式通常以慣性數(shù)據(jù)為主,視覺(jué)測(cè)量信息則用于修正慣性傳感器的累積誤差,因而會(huì)引入視覺(jué)量測(cè)所產(chǎn)生的誤差,因此在后續(xù)研究中多采用緊耦合方式。
(2)視覺(jué)/慣性緊耦合SLAM
相較于松耦合方式,緊耦合SLAM 可以更緊密地聯(lián)系視覺(jué)特征與慣性傳感器的量測(cè)數(shù)據(jù),提升視覺(jué)/慣性組合SLAM 系統(tǒng)的精度,因而形成諸多以圖優(yōu)化理論為主的視覺(jué)/慣性緊耦合SLAM成果。
2015 年Bloesch 等[76]提出一種單目視覺(jué)/慣性里程計(jì)魯棒視覺(jué)/慣性里程計(jì)(Robust visual iner?tial odometry,ROVIO),直接利用圖像塊像素強(qiáng)度誤差實(shí)現(xiàn)精確跟蹤,使用EKF 實(shí)現(xiàn)優(yōu)化。Leute?negger 等[77]提出基于滑動(dòng)窗口的非線性優(yōu)化緊耦合雙目視覺(jué)/慣性里程計(jì)OKVIS。2018 年賓夕法尼亞大學(xué)[78]提出一種基于多狀態(tài)約束卡爾曼濾波(Multi?state constraint kalman Filter,MSCKF)的雙目視覺(jué)/慣性里程計(jì)MSCKF?VIO。弗萊堡大學(xué)[79]提出將基于ORB?SLAM2 的視覺(jué)姿態(tài)解算與慣性、GPS 測(cè)量值相結(jié)合的姿態(tài)測(cè)量算法,并在無(wú)人機(jī)救援任務(wù)中得到應(yīng)用。2019 年香港科技大學(xué)[80?81]提 出 基 于 優(yōu) 化 的 多 傳 感 器 狀 態(tài) 估 計(jì) 器VINS?Fusion,支持多種視覺(jué)/慣性傳感器類型,可實(shí)現(xiàn)自主精確定位[82]。上海交通大學(xué)[83]提出一種在人造環(huán)境中利用結(jié)構(gòu)規(guī)律的視覺(jué)慣性里程計(jì)StructVIO,基于結(jié)構(gòu)化線特征完成VIO 設(shè)計(jì)。慕尼黑工業(yè)大學(xué)[84]提出了一種利用非線性因子恢復(fù)法提取相關(guān)信息,進(jìn)行視覺(jué)/慣性建圖的里程計(jì)Basalt。2020 年薩拉戈薩大學(xué)[85]提出適用于單目、雙目、RGB?D 相機(jī)的視覺(jué)、視覺(jué)/慣性多種模式的ORB?SLAM3,在部分測(cè)試場(chǎng)景中定位精度可達(dá)分米甚至厘米級(jí),實(shí)現(xiàn)了傳統(tǒng)視覺(jué)SLAM 算法在定位精度上的突破。2021 年,武漢大學(xué)[86]提出一種適用于卷簾快門(mén)RGB?D 相機(jī)的視覺(jué)/慣性SLAM方法VINS?RSD,利用深度相機(jī)直接獲得深度,解決了初始化特定運(yùn)動(dòng)狀態(tài)的需求。表3 整理了視覺(jué)/慣性組合SLAM 的代表性方案。
表3 視覺(jué)/慣性SLAM 研究成果Table 3 Visual/inertial SLAM research results
目前具有代表性的傳統(tǒng)視覺(jué)/慣性SLAM 方案多采用緊耦合方式實(shí)現(xiàn)多信息融合,前端常采用特征點(diǎn)法和KLT 光流法,優(yōu)化理論以非線性優(yōu)化方式為主。構(gòu)建地圖的類型較為豐富,主要為點(diǎn)云地圖和軌跡地圖。由于視覺(jué)/慣性組合的方式有效解決了單目視覺(jué)無(wú)法恢復(fù)尺度的問(wèn)題,因此單目及雙目視覺(jué)/慣性組合模式均得到了廣泛研究。
在近幾年的多信息融合導(dǎo)航領(lǐng)域,出于全天候全時(shí)段導(dǎo)航任務(wù)的需求,研究人員深入挖掘了視覺(jué)圖像信息,通過(guò)融合不同模態(tài)的視覺(jué)圖像信息提升視覺(jué)解算性能,基于異源圖像的視覺(jué)導(dǎo)航技術(shù)得到發(fā)展。
傳統(tǒng)可見(jiàn)光視覺(jué)導(dǎo)航方式存在光譜范圍受限、低光照環(huán)境不可用等問(wèn)題,異源圖像則既保留了視覺(jué)導(dǎo)航自主抗干擾的優(yōu)勢(shì),又對(duì)單色圖像信息進(jìn)行有效補(bǔ)充,在地形勘探、目標(biāo)提取和精確導(dǎo)航方面具有實(shí)用前景,融合異源圖像的視覺(jué)導(dǎo)航技術(shù)也在低光照環(huán)境及復(fù)雜地形場(chǎng)景中得到應(yīng)用。早期異源圖像多作為信息輔助測(cè)量手段應(yīng)用于導(dǎo)航領(lǐng)域,用于提高視覺(jué)感知[87?88]、實(shí)現(xiàn)雙目測(cè)距[89]等功能。近年來(lái)則涌現(xiàn)了更多融合異源圖像信息的視覺(jué)導(dǎo)航方案,基于其融合的傳感器數(shù)據(jù)分為異源視覺(jué)SLAM 和異源視覺(jué)/慣性SLAM 方案,地圖形式主要為圖3(b)的軌跡地圖。
(1)異源視覺(jué)SLAM
2018 年新加坡國(guó)立大學(xué)[90]提出了一種多平面紅外視覺(jué)里程計(jì),采用激光設(shè)備輔助消除尺度恢復(fù)中的測(cè)量誤差,提升了無(wú)人機(jī)在多平面復(fù)雜地形中晝夜飛行的魯棒性。2021 年大連理工大學(xué)[91]提出一種偏振光/雙目視覺(jué)仿生組合導(dǎo)航方法,利用仿生偏振定向傳感器輸出的角度信息修正航向角??颂m菲爾德大學(xué)[92]提出多模態(tài)純視覺(jué)里程計(jì)GMS?VO,分別對(duì)姿態(tài)和尺度進(jìn)行估計(jì),提升了系統(tǒng)整體定位精度。
(2)異源視覺(jué)/慣性SLAM
2017 年克蘭菲爾德大學(xué)[93]提出了一種融合慣性和多光譜信息的導(dǎo)航系統(tǒng),適用于載體快速運(yùn)動(dòng)及寒冷環(huán)境場(chǎng)景。2018 年新加坡國(guó)立大學(xué)[94]提出了適用于無(wú)人機(jī)晝夜飛行的紅外視覺(jué)慣性里程計(jì)算法,采用擴(kuò)展卡爾曼濾波(Extended Kalman filter,EKF)框架實(shí)現(xiàn)視覺(jué)及慣性測(cè)量信息融合,消除尺度恢復(fù)和運(yùn)動(dòng)估計(jì)誤差。2019 年加州理工學(xué)院[95]提出了一種熱像慣性里程計(jì),分別將慣性數(shù)據(jù)與夜間的熱圖像或白天的視覺(jué)圖像緊耦合以適應(yīng)不同光照條件,并集成在運(yùn)動(dòng)規(guī)劃和控制的自主框架中實(shí)時(shí)運(yùn)行。2021 年克蘭菲爾德大學(xué)[92]提出視覺(jué)/慣性里程計(jì)MS?VINS,采用誤差狀態(tài)卡爾曼濾波器融合視覺(jué)姿態(tài)與慣性數(shù)據(jù)。表4 整理了融合異源圖像的視覺(jué)SLAM 代表性方案。
表4 融合異源圖像的視覺(jué)及視覺(jué)/慣性SLAM 研究成果Table 4 Visual and visual/inertial SLAM research results fused with heterogeneous images
異源圖像逐漸由輔助導(dǎo)航手段轉(zhuǎn)為視覺(jué)導(dǎo)航的主要信息來(lái)源,視覺(jué)圖像也由紅外熱像圖轉(zhuǎn)變?yōu)榭梢?jiàn)光/紅外組合圖像,并擴(kuò)展為視覺(jué)/慣性組合導(dǎo)航模式,利用多信息融合優(yōu)勢(shì)提升SLAM 系統(tǒng)精度。雖然在異源傳感器數(shù)據(jù)處理、硬件配置等方面仍需進(jìn)一步探索,但隨著異源圖像信息的引入,視覺(jué)SLAM 的環(huán)境適應(yīng)性逐漸增強(qiáng),呈現(xiàn)出在全天時(shí)復(fù)雜環(huán)境應(yīng)用的發(fā)展傾向。
綜上,視覺(jué)及視覺(jué)/慣性SLAM 在不同領(lǐng)域得到了不同程度的應(yīng)用。
基于幾何變換的視覺(jué)及視覺(jué)/慣性SLAM 整體研究已較為成熟,現(xiàn)已在多個(gè)領(lǐng)域得到實(shí)際應(yīng)用,如iRobot、Dyson、科沃斯、小米等公司推出的具備自主導(dǎo)航功能的掃地機(jī)器人,應(yīng)用視覺(jué)SLAM 技術(shù)實(shí)現(xiàn)室內(nèi)定位感知及建圖任務(wù);Skydio公司推出的自主飛行無(wú)人機(jī),具備厘米級(jí)定位精度,可用于高壓線塔、橋墩、蓋梁等場(chǎng)景檢測(cè);特斯拉公司研發(fā)的無(wú)人車輛智能駕駛,可實(shí)現(xiàn)L2 級(jí)別的部分自動(dòng)化車輛自動(dòng)駕駛;Nreal 公司推出的增強(qiáng)現(xiàn)實(shí)眼鏡,結(jié)合SLAM 技術(shù)聯(lián)通虛擬環(huán)境與現(xiàn)實(shí)世界,提升用戶感知體驗(yàn)。
基于神經(jīng)網(wǎng)絡(luò)或融合異源視覺(jué)的定位導(dǎo)航技術(shù)雖然為視覺(jué)SLAM 帶來(lái)了新的變革,但主要處于理論研究與實(shí)驗(yàn)驗(yàn)證階段,憑借神經(jīng)網(wǎng)絡(luò)良好的學(xué)習(xí)能力及異源視覺(jué)的環(huán)境適應(yīng)性,多應(yīng)用于移動(dòng)機(jī)器人巡檢、無(wú)人機(jī)礦井探測(cè)、無(wú)人駕駛目標(biāo)識(shí)別及導(dǎo)航等自主任務(wù)。
本文以視覺(jué)及視覺(jué)/慣性SLAM 技術(shù)為主,歸納整理了前端里程計(jì)、后端優(yōu)化、回環(huán)檢測(cè)和地圖構(gòu)建關(guān)鍵環(huán)節(jié),系統(tǒng)綜述了純視覺(jué)SLAM 的關(guān)鍵技術(shù)發(fā)展情況,并對(duì)視覺(jué)/慣性SLAM 導(dǎo)航方案進(jìn)行梳理分析,結(jié)合異源圖像的研究應(yīng)用情況,探討了融合異源圖像的視覺(jué)導(dǎo)航技術(shù)研究進(jìn)展情況,為融合異源圖像的視覺(jué)及視覺(jué)/慣性SLAM 研究提供參考。結(jié)合現(xiàn)有研究成果,視覺(jué)及視覺(jué)/慣性SLAM 技術(shù)主要呈現(xiàn)以下3 點(diǎn)發(fā)展趨勢(shì)。
(1)理論優(yōu)化改進(jìn):由于應(yīng)用場(chǎng)景需求的多樣化,結(jié)合慣性、異源圖像等多傳感器的信息融合模式成為SLAM 主流,促進(jìn)了以緊耦合為主的信息融合理論發(fā)展,而隨著大場(chǎng)景SLAM 應(yīng)用需求及圖優(yōu)化理論的推進(jìn),逐步形成了基于擴(kuò)展卡爾曼濾波框架的改進(jìn)濾波器優(yōu)化架構(gòu),和以光束法平差為主的非線性優(yōu)化架構(gòu)兩種研究趨勢(shì)。
(2)新型技術(shù)引入:隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)中的廣泛應(yīng)用,視覺(jué)SLAM 呈現(xiàn)出由傳統(tǒng)幾何變換方式逐步轉(zhuǎn)向結(jié)合深度學(xué)習(xí)的智能融合趨勢(shì)。一方面視覺(jué)圖像與語(yǔ)義信息的緊密聯(lián)系,使得集成語(yǔ)義信息的視覺(jué)SLAM 得到更多探索;另一方面為減少對(duì)傳統(tǒng)方式依賴,利用神經(jīng)網(wǎng)絡(luò)架構(gòu)替代SLAM 的部分模塊或端到端強(qiáng)化學(xué)習(xí)的模式得以廣泛研究。
(3)應(yīng)用領(lǐng)域推廣:視覺(jué)SLAM 目前在智能家居、自動(dòng)駕駛、無(wú)人機(jī)等領(lǐng)域得到了不同層次的應(yīng)用,隨著硬件性能的提升,視覺(jué)SLAM 的應(yīng)用范圍逐步由室內(nèi)小空間轉(zhuǎn)向動(dòng)態(tài)目標(biāo)豐富的復(fù)雜大空間場(chǎng)景,應(yīng)用的廣度和深度得到較大提升。