視覺(jué)及其融合慣性的SLAM 技術(shù)發(fā)展綜述

2022-12-25 07:46曾慶化羅怡雪孫克誠(chéng)李一能劉建業(yè)

南京航空航天大學(xué)學(xué)報(bào) 2022年6期

曾慶化，羅怡雪，孫克誠(chéng)，李一能，劉建業(yè)

（1.南京航空航天大學(xué)導(dǎo)航研究中心，南京 211106；2.先進(jìn)飛行器導(dǎo)航、控制與健康管理工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室，南京 211106；3.衛(wèi)星通信與導(dǎo)航江蘇高校協(xié)同創(chuàng)新中心，南京 211106）

實(shí)時(shí)精確的導(dǎo)航與定位信息對(duì)于運(yùn)動(dòng)載體的高效工作和任務(wù)實(shí)現(xiàn)具有不可替代的重要作用。為了實(shí)現(xiàn)運(yùn)動(dòng)載體在未知環(huán)境中的高精度動(dòng)態(tài)定位和導(dǎo)航，同時(shí)定位與建圖（Simultaneous localiza?tion and mapping，SLAM）技術(shù)獲得了飛速的發(fā)展。該技術(shù)實(shí)現(xiàn)了搭載傳感器的運(yùn)動(dòng)載體在未知環(huán)境中運(yùn)動(dòng)感知并建立環(huán)境地圖，同時(shí)估計(jì)自身在所建地圖中位置的功能［1］，最早由Randall C. Smith 和Peter Cheeseman 于1986 年提出［2］，后經(jīng)Leonard 等擴(kuò)充［3］。隨著傳感器類型的擴(kuò)充以及運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)（Structure from motion，SfM）技術(shù)［4］的出現(xiàn)，基于不同傳感器和優(yōu)化理論的SLAM 技術(shù)得到迅速發(fā)展［5?6］，并在增強(qiáng)現(xiàn)實(shí)（Augmented reality，AR）/虛擬現(xiàn)實(shí)（Virtual reality，VR）、機(jī)器人、無(wú)人駕駛和無(wú)人機(jī)［7］等領(lǐng)域得到廣泛應(yīng)用。

SLAM 技術(shù)所依據(jù)的傳感器形式多樣，如激光、超聲波和視覺(jué)等多種形式，目前激光SLAM 和視覺(jué)SLAM 是兩種主流方式［8?9］。激光SLAM 主要通過(guò)激光雷達(dá)直接獲得載體相對(duì)于環(huán)境的距離和方位信息［10］，實(shí)現(xiàn)環(huán)境的建圖和載體自身相對(duì)位置的確定，該技術(shù)理論和工程均比較成熟，但其存在成本較高、探測(cè)范圍有限等缺陷。視覺(jué)SLAM 主要依靠視覺(jué)傳感器，其價(jià)格適中，使用方便［11］，因此日益受到重視。隨著應(yīng)用場(chǎng)景和任務(wù)的日益復(fù)雜化，純視覺(jué)SLAM 也呈現(xiàn)了易受光照變化和運(yùn)動(dòng)速度干擾與影響等缺點(diǎn)。因此，多信息融合的視覺(jué)SLAM 技術(shù)逐漸獲得重視。結(jié)合多傳感器信息和多層次互補(bǔ)濾波，可大大提升載體的SLAM 整體性能。視覺(jué)SLAM 分類及里程碑技術(shù)發(fā)展框圖如圖1 所示。

圖1 視覺(jué)SLAM 分類及里程碑技術(shù)發(fā)展Fig.1 Visual SLAM classification and milestone technology development

本文集中針對(duì)視覺(jué)及視覺(jué)/慣性SLAM 技術(shù)發(fā)展進(jìn)行綜述研究，分別從視覺(jué)及視覺(jué)/慣性SLAM 中的關(guān)鍵環(huán)節(jié)、純視覺(jué)SLAM 關(guān)鍵技術(shù)發(fā)展分析、視覺(jué)/慣性信息融合SLAM 關(guān)鍵技術(shù)發(fā)展分析等方面展開(kāi)。

1 視覺(jué)及視覺(jué)/慣性SLAM 關(guān)鍵環(huán)節(jié)

視覺(jué)/慣性SLAM 系統(tǒng)框架結(jié)構(gòu)如圖2 所示，獲取視覺(jué)及慣性傳感器的數(shù)據(jù)后，通過(guò)里程計(jì)算法估計(jì)載體運(yùn)動(dòng)，結(jié)合回環(huán)檢測(cè)結(jié)果，在后端優(yōu)化框架中優(yōu)化運(yùn)動(dòng)估計(jì)參數(shù)，同時(shí)確定自身軌跡并實(shí)現(xiàn)周圍環(huán)境地圖的構(gòu)建。本文以前端里程計(jì)技術(shù)、后端優(yōu)化技術(shù)、回環(huán)檢測(cè)技術(shù)和地圖構(gòu)建技術(shù)為代表，對(duì)視覺(jué)/慣性SLAM 中的關(guān)鍵環(huán)節(jié)進(jìn)行歸納整理。去除慣性信息后，即可得視覺(jué)SLAM 關(guān)鍵環(huán)節(jié)。

圖2 視覺(jué)/慣性SLAM 系統(tǒng)框架結(jié)構(gòu)Fig.2 Frame structure of visual/inertial SLAM system

（1）關(guān)鍵環(huán)節(jié)1：前端里程計(jì)技術(shù)

該關(guān)鍵環(huán)節(jié)在SLAM 過(guò)程中處于前端位置，狹義的視覺(jué)里程計(jì)技術(shù)僅指代依據(jù)傳感器數(shù)據(jù)進(jìn)行載體位姿估計(jì)的過(guò)程，對(duì)SLAM 的結(jié)果具有重要影響。在對(duì)視覺(jué)里程計(jì)運(yùn)動(dòng)估計(jì)時(shí)，可采用對(duì)極幾何、迭代最近鄰（Iterative closest point，ICP）或n 點(diǎn)透視（Perspective?n?point，PnP）等原理進(jìn)行解算。

視覺(jué)里程計(jì)根據(jù)工作原理可分為特征點(diǎn)法和直接法：特征點(diǎn)法通過(guò)提取和跟蹤解算圖像特征獲得載體與環(huán)境之間的相對(duì)位姿，理論較為成熟，魯棒性較強(qiáng)，且對(duì)環(huán)境的紋理特征要求較高，計(jì)算量較大；直接法利用圖像像素信息計(jì)算并累積相機(jī)的相對(duì)運(yùn)動(dòng)，具有速度快、實(shí)時(shí)性好的優(yōu)點(diǎn)，但需要滿足時(shí)間連續(xù)、灰度不變等假設(shè)模型。

特征點(diǎn)法和直接法均需通過(guò)圖像匹配實(shí)現(xiàn)信息跟蹤，存在圖像難匹配、誤匹配問(wèn)題。針對(duì)特征難匹配問(wèn)題，國(guó)內(nèi)外學(xué)者提出結(jié)合多源傳感器信息的方法，采用慣導(dǎo)、全球?qū)Ш叫l(wèi)星系統(tǒng)（Global nav?igation satellite system，GNSS）、激光雷達(dá)等設(shè)備信息與視覺(jué)信息耦合，提升視覺(jué)導(dǎo)航魯棒性［12?13］；針對(duì)特征誤匹配問(wèn)題，大多數(shù)采用改進(jìn)或挖掘特征匹配結(jié)構(gòu)的方法豐富特征信息，如構(gòu)建基于雙向光流法的特征點(diǎn)環(huán)形匹配［14］、提取人造環(huán)境結(jié)構(gòu)邊緣線特征的運(yùn)動(dòng)估計(jì)［15］、結(jié)合平面與直線關(guān)聯(lián)特征估計(jì)位姿［16］、結(jié)合深度學(xué)習(xí)中的語(yǔ)義信息剔除動(dòng)態(tài)特征點(diǎn)［17?18］等算法。

通常采用慣性傳感器輔助提高視覺(jué)里程計(jì)的動(dòng)態(tài)適應(yīng)性，視覺(jué)/慣性里程計(jì)的前端關(guān)鍵技術(shù)主要有慣性預(yù)積分和信息聯(lián)合初始化。具有短期高動(dòng)態(tài)適應(yīng)能力的慣性器件信息采集頻率通常高于視覺(jué)相機(jī)的圖像采集頻率，因此使用圖像采集頻率對(duì)慣性觀測(cè)數(shù)據(jù)進(jìn)行預(yù)積分［19］，實(shí)現(xiàn)視覺(jué)/慣性信息的頻率配準(zhǔn)和坐標(biāo)系轉(zhuǎn)化效率的提升。視覺(jué)/慣性聯(lián)合初始化策略目的在于提升視覺(jué)里程計(jì)的初始信息的快速性和準(zhǔn)確性，如采用觀測(cè)樣本情形評(píng)估函數(shù)評(píng)估狀態(tài)誤差信息矩陣，循環(huán)判斷是否滿足初始化所需精度，從而提升初始化效率［20］。

（2）關(guān)鍵環(huán)節(jié)2：后端優(yōu)化技術(shù)

后端優(yōu)化可分為濾波器和非線性優(yōu)化兩類，多源信息松耦合架構(gòu)常采用濾波器融合方式，緊耦合架構(gòu)中兩種方式均有應(yīng)用，且基于圖優(yōu)化理論的非線性優(yōu)化策略更為廣泛。

濾波器優(yōu)化方法通常改進(jìn)卡爾曼濾波（Kal?man filter，KF）模型以適用于非線性系統(tǒng)。如采用聯(lián)邦濾波將慣性測(cè)量單元（Inertial measurement unit，IMU）信息分別與里程計(jì)和視覺(jué)數(shù)據(jù)組合，避免視覺(jué)失效時(shí)組合導(dǎo)航系統(tǒng)無(wú)法定位的問(wèn)題［21］；采用不變卡爾曼濾波融合多層ICP 估計(jì)的相機(jī)位姿與慣性解算位姿，提升相機(jī)追蹤與重定位效果［22］；基于容積卡爾曼濾波（Cubature Kalman fil?ter，CKF）框架，融合視覺(jué)與慣性信息，避免雅可比矩陣計(jì)算過(guò)程，提升系統(tǒng)位姿估計(jì)精度［23］等。

非線性優(yōu)化方法通常改進(jìn)非線性最小二乘問(wèn)題的求解過(guò)程。經(jīng)典的最小二乘問(wèn)題求解算法，如高斯牛頓法和列文伯格?馬夸爾特（Levenberg?Marquardt，LM）算法運(yùn)算時(shí)間較長(zhǎng)，因而可采用改進(jìn)dogleg算法減少耗時(shí)［24］。此外，部分研究針對(duì)于模型的精度優(yōu)化，如增加模型到模型配準(zhǔn)的約束實(shí)現(xiàn)大回環(huán)局部?jī)?yōu)化［25］；采用卡爾曼濾波器融合全局優(yōu)化后的高精度視覺(jué)估計(jì)與IMU 信息，兼顧濾波器的計(jì)算效率與優(yōu)化方法的精度［26］。

（3）關(guān)鍵環(huán)節(jié)3：回環(huán)檢測(cè)技術(shù)

SLAM 中的回環(huán)檢測(cè)技術(shù)通過(guò)建立當(dāng)前幀與之前某一幀的位姿約束關(guān)系消除視覺(jué)里程計(jì)所產(chǎn)生的累積誤差，進(jìn)而實(shí)現(xiàn)地圖優(yōu)化，主要依賴基于詞袋模型的改進(jìn)算法或結(jié)合深度學(xué)習(xí)的回環(huán)檢測(cè)技術(shù)［27］。

詞袋（Bag of words，BoW）模型聚類特征描述形成單詞，將圖像幀轉(zhuǎn)換為單詞集合，對(duì)比圖像幀相似性判斷回環(huán)，可以加快特征匹配速度，但存在環(huán)境適應(yīng)性弱、難以應(yīng)對(duì)視角變換等問(wèn)題。因此，部分研究通過(guò)優(yōu)化BoW 模型進(jìn)行改進(jìn)，如結(jié)合圖像均衡化處理實(shí)現(xiàn)光照變換場(chǎng)景下的視覺(jué)BoW 在線增刪，提升算法魯棒性［28］；計(jì)算匹配圖像的共視區(qū)域協(xié)方差矩陣距離確定回環(huán)［29］，實(shí)現(xiàn)大視角下的回環(huán)檢測(cè)等［30］。

BoW 模型中構(gòu)建的單詞向量近似語(yǔ)義信息，因而可結(jié)合語(yǔ)義標(biāo)注剔除運(yùn)動(dòng)物體［31］，提高BoW模型魯棒性；也可以采用神經(jīng)網(wǎng)絡(luò)代替BoW 模型獲取圖像幀的特征向量［32?33］，提高算法召回率。

（4）關(guān)鍵環(huán)節(jié)4：地圖構(gòu)建技術(shù)

由于SLAM 前端理論差異，其構(gòu)建地圖主要分稀疏點(diǎn)云地圖、半稠密點(diǎn)云地圖和稠密點(diǎn)云地圖3 類，點(diǎn)云稠密程度與檢測(cè)特征點(diǎn)的密集程度相關(guān)。隨著語(yǔ)義信息的引入，部分框架構(gòu)建語(yǔ)義地圖［34］以提供更好的視覺(jué)感知效果。

地圖構(gòu)建通常依據(jù)傳感器獲取信息及數(shù)據(jù)處理算法的差異而不同。文獻(xiàn)［35］提出構(gòu)建融合類腦感知信息的三維認(rèn)知地圖，其三維位置誤差為總行程的1.56%；文獻(xiàn)［36］將圖像中的語(yǔ)義標(biāo)注結(jié)果與相機(jī)估計(jì)軌跡相融合，構(gòu)建增量式稠密語(yǔ)義地圖。

SLAM 建圖過(guò)程中通常需要包含載體的相對(duì)位姿信息以及周圍環(huán)境景物的三維位置信息，評(píng)判算法精度的指標(biāo)采用絕對(duì)軌跡誤差（Absolute tra?jectory error，ATE）和相對(duì)位姿誤差（Relative pose error，RPE）。ATE 對(duì)比數(shù)據(jù)序列時(shí)間戳中每個(gè)相近時(shí)刻下算法解算的載體位姿估計(jì)值與真實(shí)位姿之間的差值，是評(píng)估算法定位精度的主要指標(biāo)。RPE 計(jì)算數(shù)據(jù)序列時(shí)間戳中每個(gè)固定時(shí)間間隔內(nèi)算法估計(jì)位姿變化量與真實(shí)位姿變化量的差值，是評(píng)估系統(tǒng)漂移的主要指標(biāo)。由于并行處理技術(shù)的應(yīng)用，算法的實(shí)時(shí)性評(píng)估通常較為獨(dú)立，可依據(jù)研究需要對(duì)不同環(huán)節(jié)分別評(píng)估其運(yùn)行時(shí)間，也可以針對(duì)前端特征跟蹤耗時(shí)的問(wèn)題，評(píng)估跟蹤線程單幀圖像的處理時(shí)間。鑒于SLAM 算法影響因素較多，包括前端理論、環(huán)境特征點(diǎn)數(shù)目、光照變換、硬件配置等，當(dāng)前的水平為：室內(nèi)定位精度可達(dá)分米級(jí)；室外定位精度多為米級(jí)；隨著動(dòng)態(tài)性能的增大，其定位精度有所下降。圖3 匯集了幾種常用的視覺(jué)SLAM地圖結(jié)果形式，其中圖3（c，d，e）均屬于點(diǎn)云地圖。

圖3 視覺(jué)SLAM 構(gòu)建地圖類型Fig.3 Types of maps constructed by visual SLAM

2 純視覺(jué)SLAM 關(guān)鍵技術(shù)發(fā)展分析

自2004 年Bergen 等提出視覺(jué)里程計(jì)（Visual odometry，VO）后［37］，基于視覺(jué)圖像序列估計(jì)相機(jī)運(yùn)動(dòng)的方法獲得了科研人員的重視。將建圖環(huán)節(jié)引入VO 極大促進(jìn)了構(gòu)建環(huán)境地圖強(qiáng)化數(shù)據(jù)關(guān)聯(lián)的視覺(jué)SLAM 技術(shù)的發(fā)展。視覺(jué)SLAM 通過(guò)多幀圖像估計(jì)自身的位姿變化，再通過(guò)累積位姿變化計(jì)算載體在當(dāng)前環(huán)境中的位置，其與激光SLAM 技術(shù)相比具備低成本、應(yīng)用方便、信息豐富、隱蔽性強(qiáng)等諸多優(yōu)勢(shì)，發(fā)展?jié)摿薮蟆?/p>

近年發(fā)展迅速的深度學(xué)習(xí)技術(shù)在視覺(jué)SLAM中也得到了重視和應(yīng)用［38］，基于此可以將純視覺(jué)SLAM 分成基于幾何變換和基于深度學(xué)習(xí)這兩大類。其中，基于幾何變換的視覺(jué)SLAM 依據(jù)前端原理不同可分為特征點(diǎn)法和直接法兩類，基于深度學(xué)習(xí)的視覺(jué)SLAM 依據(jù)深度學(xué)習(xí)在視覺(jué)SLAM 中的學(xué)習(xí)功能形式不同可分為模塊替代SLAM 和端到端SLAM 兩類。

2.1 基于幾何變換的視覺(jué)SLAM 關(guān)鍵技術(shù)

基于幾何變換的視覺(jué)SLAM 方法利用二維圖像和三維點(diǎn)之間的幾何結(jié)構(gòu)映射關(guān)系求解導(dǎo)航參數(shù)，其主要涉及兩類前端理論：特征點(diǎn)法和直接法。

（1）特征點(diǎn)法SLAM

該方法是VO 早期的主流方法，主要地圖形式如圖3（a，c）所示。第一個(gè) 視覺(jué)SLAM，Mono?SLAM 于2007 年提出［39］。首次通過(guò)移動(dòng)端相機(jī)獲取三維運(yùn)動(dòng)軌跡，在個(gè)人電腦（Personal computer，PC）上可以30 Hz 的頻率實(shí)時(shí)工作，但其單線程結(jié)構(gòu)與實(shí)時(shí)性要求限制了前端特征跟蹤數(shù)量。因此Klein 等［40］提出具備跟蹤和建圖雙線程結(jié)構(gòu)的并行跟蹤與映射（Parallel tracking and mapping，PTAM）方法，首次通過(guò)非線性優(yōu)化，即光束法平差（Bundle adjustment，BA）方式計(jì)算相機(jī)軌跡和全局一致環(huán)境地圖［41］。2013 年，Labbe 等［42］提出了基于實(shí) 時(shí) 外觀建圖（Real?time appearance?based mapping，RTAB?MAP）的方法，基于BoW 模型將圖像表示為視覺(jué)詞匯的集合，實(shí)現(xiàn)回環(huán)檢測(cè)［43］。2015 年Mur?Artal 等［44?45］進(jìn) 一步提出含有跟蹤、局部建圖及回環(huán)檢測(cè)多線程的ORB?SLAM2 算法，視覺(jué)SLAM 的多線程框架基本完善。

近幾年基于特征點(diǎn)法的視覺(jué)SLAM 主要針對(duì)前端特征結(jié)構(gòu)進(jìn)行改進(jìn)，如2021 年哈爾濱工業(yè)大學(xué)［46］提出點(diǎn)線特征融合的方式，結(jié)合線特征約束提升線特征估計(jì)準(zhǔn)確性，降低了3D 線特征引入的冗余參數(shù)對(duì)運(yùn)動(dòng)估計(jì)的影響。南開(kāi)大學(xué)［16］結(jié)合平面和直線之間的幾何關(guān)系，提出基于平面?直線，即采用直線段檢測(cè)算子（Line segment detector，LSD）特征混合關(guān) 聯(lián) 的約束方法PLVO（Plane?line?based RGB?D visual odometry），解決相機(jī)位姿估計(jì)時(shí)的退化問(wèn)題。同時(shí)，簡(jiǎn)化跟蹤特征，直接依據(jù)圖像像素信息估計(jì)運(yùn)動(dòng)的直接法得到廣泛研究。

（2）直接法SLAM

該方法構(gòu)建的地圖形式主要如圖3（c，d，e）所示。2011 年，Newcombe 等［47］提出了首個(gè)基于單像素的直接法SLAM，稠密跟蹤與建圖（Dense track?ing and mapping，DTAM）方法，結(jié)合單個(gè)RGB 相機(jī)可在商用圖像處理器（Graphics processing unit，GPU）中實(shí)時(shí)定位與跟蹤。為了在一定程度上保留關(guān)鍵點(diǎn)信息，隨后Forster 等［48］提出用稀疏特征點(diǎn)代替像素匹配的半直接法視覺(jué)里程計(jì)（Semi?direct visual odometry，SVO）方法，Engel 等提出構(gòu)建大尺度全局一致性半稠密環(huán)境地圖的大范圍直接同步定位與建圖（Large?scale direct SLAM，LSD?SLAM）算法［49］，以及通過(guò)最小化光度誤差計(jì)算相機(jī)位姿與地圖點(diǎn)的位置，將數(shù)據(jù)關(guān)聯(lián)與位姿估計(jì)統(tǒng)一在非線性優(yōu)化中的直接稀疏里程計(jì)（Direct sparse odometry，DSO）方法［50］。

為兼顧特征點(diǎn)法與直接法的優(yōu)勢(shì)，部分學(xué)者針對(duì)半直接法SLAM 深入研究。南京郵電大學(xué)［51］提出了基于半直接法的單目視覺(jué)SLAM 算法，結(jié)合KLT（Kanade?Lucas?Tomasi）光流跟蹤與ORB（Ori?ented fast and rotated brief）特征匹配方法，可處理復(fù)雜環(huán)境下的低紋理、運(yùn)動(dòng)目標(biāo)和感知混疊等問(wèn)題。

研究結(jié)合幾何信息的直接法也獲得了進(jìn)一步的推進(jìn)，如2019 年中國(guó)科學(xué)院大學(xué)［52］提出的融合多視圖幾何和直接法的同步定位與建圖（Fusing MVG and direct SLAM，F(xiàn)MD?SLAM），結(jié)合多視圖幾何和直接法估計(jì)位姿信息，并利用最小化重投影誤差優(yōu)化位姿結(jié)果。表1 中梳理了基于幾何變換的視覺(jué)SLAM 代表性成果。

表1 基于幾何變換的視覺(jué)SLAM 研究成果Table 1 Research results of visual SLAM based on geometric transformation

從以上基于幾何變換的視覺(jué)SLAM 方法的演化趨勢(shì)可知：特征點(diǎn)法主要對(duì)前端關(guān)鍵點(diǎn)進(jìn)行改進(jìn)優(yōu)化，直接法的前端則由基于像素估計(jì)趨向結(jié)合特征點(diǎn)法的半稠密方式，后端優(yōu)化部分由濾波器過(guò)渡到非線性優(yōu)化為主，地圖類型也由點(diǎn)云地圖擴(kuò)展為半稠密/稠密地圖，適用模式由單目逐步擴(kuò)充為雙目和RGB?D 模式。

2.2 基于深度學(xué)習(xí)的視覺(jué)SLAM 關(guān)鍵技術(shù)

由于在光照變化、場(chǎng)景更替和物體運(yùn)動(dòng)時(shí)，基于幾何變換的視覺(jué)SLAM 方法的性能下降［53］，且具有計(jì)算量大、計(jì)算流程模式固定等問(wèn)題。因此，隨著深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展，基于深度學(xué)習(xí)的視覺(jué)SLAM 研究也逐漸成為視覺(jué)的一個(gè)研究熱點(diǎn)。基于深度學(xué)習(xí)的視覺(jué)SLAM 方法，主要用深度學(xué)習(xí)代替了SLAM 的部分或者全部的模塊，其地圖形式多如圖3（c，e，f）所示。

（1）利用深度學(xué)習(xí)替代傳統(tǒng)SLAM 模塊的方法

該方法常用深度學(xué)習(xí)過(guò)程替代特征提取、特征匹配和深度估計(jì)等模塊［54?55］，而語(yǔ)義分割大多結(jié)合語(yǔ)義信息對(duì)前端里程計(jì)過(guò)程進(jìn)行改進(jìn)。2008 年Roberts 等［56］首次將機(jī)器學(xué)習(xí)應(yīng)用于VO。2017 年佳能公司［57］提出的CNN?SLAM，將LSD?SLAM 中的深度估計(jì)和圖像匹配模塊都替換成基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional neural network，CNN）的方法，提升系統(tǒng)場(chǎng)景適應(yīng)性。2018 年帝國(guó)理工學(xué)院［58］提出的CodeSLAM 使用U?Net 神經(jīng)網(wǎng)絡(luò)提取圖像特征并估計(jì)圖像深度的不確定性。2019 年博特拉大學(xué)［59］提出一種利用單張圖片進(jìn)行深度預(yù)測(cè)的方法CNN?SVO，可提升半直接法視覺(jué)里程計(jì)的建圖效果。2020 年阿德萊德大學(xué)［60］提出基于CNN 實(shí)現(xiàn)深度預(yù)測(cè)和特征匹配的融合深度與光流的視覺(jué)里程計(jì)（Depth and flow for visual odometry，DF?VO）方法，將深度學(xué)習(xí)與對(duì)極幾何和PnP 成功結(jié)合。2021 年中國(guó)科學(xué)技術(shù)大學(xué)［61］提出結(jié)合幾何約束和語(yǔ)義分割去除動(dòng)態(tài)環(huán)境中移動(dòng)對(duì)象的DP?SLAM方法，結(jié)合移動(dòng)概率傳播模型進(jìn)行動(dòng)態(tài)關(guān)鍵點(diǎn)檢測(cè)，有助于虛擬現(xiàn)實(shí)的應(yīng)用研究。

（2）利用深度學(xué)習(xí)實(shí)現(xiàn)的端到端SLAM 方法

該方法利用端到端的訓(xùn)練方法可直接估計(jì)圖像序列的幀間運(yùn)動(dòng)，在線計(jì)算速度快，具有較強(qiáng)的算法遷移能力［62］，其計(jì)算速度相比替代傳統(tǒng)SLAM 模塊的方法更快。2015 年，劍橋大學(xué)［63］基于圖像識(shí)別網(wǎng)絡(luò)GoogleNet［64］開(kāi)發(fā)基于單張圖像信息的絕對(duì)位姿估計(jì)網(wǎng)絡(luò)PoseNet。2017 年埃塞克斯大學(xué)［65］提出的UnDeepVO 采用無(wú)監(jiān)督深度學(xué)習(xí)訓(xùn)練雙目圖像，可通過(guò)單目圖像估計(jì)相機(jī)位姿并實(shí)現(xiàn)絕對(duì)尺度的恢復(fù)。弗萊堡大學(xué)［66］提出的De?MoN 利用連續(xù)無(wú)約束的圖像計(jì)算深度及相機(jī)運(yùn)動(dòng)，還可對(duì)圖像間的光流和匹配的置信度進(jìn)行估計(jì)。2019 年倫敦大學(xué) 學(xué) 院［67］提出的Monodepth2是一種基于CNN 的自監(jiān)督方法，通過(guò)在運(yùn)動(dòng)圖像序列上訓(xùn)練一個(gè)建立在自監(jiān)督損失函數(shù)上的架構(gòu)實(shí)現(xiàn)深度及位姿預(yù)測(cè)。2020 年北京大學(xué)［68］提出一種單目深度、位姿估計(jì)的無(wú)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)SfM?Learner，可從無(wú)標(biāo)簽視頻序列中進(jìn)行深度和相機(jī)姿態(tài)估計(jì)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。表2 整理了基于深度學(xué)習(xí)的視覺(jué)SLAM 代表方案。

表2 基于深度學(xué)習(xí)的視覺(jué)SLAM 研究成果Table 2 Research results of visual SLAM based on deep learning

基于深度學(xué)習(xí)的視覺(jué)SLAM 方法在2015 年之后興起，近年來(lái)研究成果越來(lái)越豐富，其訓(xùn)練類型以有監(jiān)督為主，并逐步改進(jìn)為自監(jiān)督、無(wú)監(jiān)督方式。采用替代傳統(tǒng)視覺(jué)SLAM 模塊的形式，構(gòu)建地圖類型較為多樣，適用模式豐富，但仍以單目模式為主；端到端的學(xué)習(xí)則主要集中在單目視覺(jué)模式。

綜上，基于幾何變換的方式和結(jié)合深度學(xué)習(xí)的方式都存在其優(yōu)勢(shì)和不足。幾何變換方法理論成熟，特征點(diǎn)法適用于尺度較大的運(yùn)動(dòng)，魯棒性更好，但特征提取耗時(shí)；直接法速度快，適用于特征缺失場(chǎng)景，但灰度不變假設(shè)不易滿足，不適合快速運(yùn)動(dòng)?；谏疃葘W(xué)習(xí)的方法對(duì)光線復(fù)雜環(huán)境的適應(yīng)性強(qiáng)，對(duì)動(dòng)態(tài)場(chǎng)景識(shí)別更加有效，可結(jié)合語(yǔ)義信息構(gòu)建地圖，但同樣存在訓(xùn)練時(shí)間長(zhǎng)、計(jì)算資源大、可解釋性差等問(wèn)題。因此無(wú)論是理論成熟、具有可解釋性模型的傳統(tǒng)方法還是可移植性強(qiáng)的深度學(xué)習(xí)方法都亟待進(jìn)一步深入研究。

3 視覺(jué)/慣性SLAM 關(guān)鍵技術(shù)發(fā)展分析

由于純視覺(jué)SLAM 存在受環(huán)境光照影響大、動(dòng)態(tài)適應(yīng)性差等問(wèn)題，基于視覺(jué)的多信息融合SLAM 技術(shù)成為新的重要研究方向，如：視覺(jué)/慣性、異源視覺(jué)/慣性等［69］組合方式。作為一種常見(jiàn)的自主導(dǎo)航方式［70?71］，傳統(tǒng)的可見(jiàn)光視覺(jué)與慣性信息融合SLAM 技術(shù)，在研究成本和隱蔽性方面均具有較大優(yōu)勢(shì)。針對(duì)可見(jiàn)光圖像在弱光照條件下適應(yīng)性差的問(wèn)題，可結(jié)合不同成像傳感器和圖像處理技術(shù)獲得的異源圖像進(jìn)一步豐富視覺(jué)導(dǎo)航信息。下文將在闡述傳統(tǒng)視覺(jué)/慣性SLAM 的發(fā)展歷程及經(jīng)典算法的基礎(chǔ)上，對(duì)融合異源圖像的視覺(jué)、視覺(jué)/慣性SLAM 方案進(jìn)行綜合分析。

3.1 傳統(tǒng)視覺(jué)/慣性SLAM 關(guān)鍵技術(shù)

純視覺(jué)導(dǎo)航對(duì)環(huán)境特征跟蹤較為精確，但在載體快速運(yùn)動(dòng)以及低紋理、含有光照變化等場(chǎng)景中應(yīng)用效果不佳；純慣性導(dǎo)航則不受運(yùn)動(dòng)場(chǎng)景和速度限制，但長(zhǎng)時(shí)間運(yùn)行會(huì)產(chǎn)生累積誤差［72］。因此，融合視覺(jué)與慣性傳感器優(yōu)勢(shì)，并可規(guī)避劣勢(shì)的視覺(jué)/慣性組合SLAM 技術(shù)成為視覺(jué)SLAM 領(lǐng)域的主流組合方式，并依據(jù)視覺(jué)與慣性信息的耦合方式分為松耦合和緊耦合兩種組合形式［73?74］，構(gòu)建地圖形式主要如圖3（b，c）所示。

（1）視覺(jué)/慣性松耦合SLAM

視覺(jué)圖像與慣性數(shù)據(jù)的松耦合模式多應(yīng)用于早期理論探索階段，如2012 年，蘇黎世聯(lián)邦理工學(xué)院［75］提出的一種基于光流（Optical flow，OF）和慣性約束的慣性與單傳感器融合（Single sensor fu?sion，SSF），其具有良好的可擴(kuò)展性。但由于視覺(jué)/慣性松耦合方式通常以慣性數(shù)據(jù)為主，視覺(jué)測(cè)量信息則用于修正慣性傳感器的累積誤差，因而會(huì)引入視覺(jué)量測(cè)所產(chǎn)生的誤差，因此在后續(xù)研究中多采用緊耦合方式。

（2）視覺(jué)/慣性緊耦合SLAM

相較于松耦合方式，緊耦合SLAM 可以更緊密地聯(lián)系視覺(jué)特征與慣性傳感器的量測(cè)數(shù)據(jù)，提升視覺(jué)/慣性組合SLAM 系統(tǒng)的精度，因而形成諸多以圖優(yōu)化理論為主的視覺(jué)/慣性緊耦合SLAM成果。

2015 年Bloesch 等［76］提出一種單目視覺(jué)/慣性里程計(jì)魯棒視覺(jué)/慣性里程計(jì)（Robust visual iner?tial odometry，ROVIO），直接利用圖像塊像素強(qiáng)度誤差實(shí)現(xiàn)精確跟蹤，使用EKF 實(shí)現(xiàn)優(yōu)化。Leute?negger 等［77］提出基于滑動(dòng)窗口的非線性優(yōu)化緊耦合雙目視覺(jué)/慣性里程計(jì)OKVIS。2018 年賓夕法尼亞大學(xué)［78］提出一種基于多狀態(tài)約束卡爾曼濾波（Multi?state constraint kalman Filter，MSCKF）的雙目視覺(jué)/慣性里程計(jì)MSCKF?VIO。弗萊堡大學(xué)［79］提出將基于ORB?SLAM2 的視覺(jué)姿態(tài)解算與慣性、GPS 測(cè)量值相結(jié)合的姿態(tài)測(cè)量算法，并在無(wú)人機(jī)救援任務(wù)中得到應(yīng)用。2019 年香港科技大學(xué)［80?81］提出基于優(yōu) 化的多傳感器狀態(tài) 估計(jì) 器VINS?Fusion，支持多種視覺(jué)/慣性傳感器類型，可實(shí)現(xiàn)自主精確定位［82］。上海交通大學(xué)［83］提出一種在人造環(huán)境中利用結(jié)構(gòu)規(guī)律的視覺(jué)慣性里程計(jì)StructVIO，基于結(jié)構(gòu)化線特征完成VIO 設(shè)計(jì)。慕尼黑工業(yè)大學(xué)［84］提出了一種利用非線性因子恢復(fù)法提取相關(guān)信息，進(jìn)行視覺(jué)/慣性建圖的里程計(jì)Basalt。2020 年薩拉戈薩大學(xué)［85］提出適用于單目、雙目、RGB?D 相機(jī)的視覺(jué)、視覺(jué)/慣性多種模式的ORB?SLAM3，在部分測(cè)試場(chǎng)景中定位精度可達(dá)分米甚至厘米級(jí)，實(shí)現(xiàn)了傳統(tǒng)視覺(jué)SLAM 算法在定位精度上的突破。2021 年，武漢大學(xué)［86］提出一種適用于卷簾快門(mén)RGB?D 相機(jī)的視覺(jué)/慣性SLAM方法VINS?RSD，利用深度相機(jī)直接獲得深度，解決了初始化特定運(yùn)動(dòng)狀態(tài)的需求。表3 整理了視覺(jué)/慣性組合SLAM 的代表性方案。

表3 視覺(jué)/慣性SLAM 研究成果Table 3 Visual/inertial SLAM research results

目前具有代表性的傳統(tǒng)視覺(jué)/慣性SLAM 方案多采用緊耦合方式實(shí)現(xiàn)多信息融合，前端常采用特征點(diǎn)法和KLT 光流法，優(yōu)化理論以非線性優(yōu)化方式為主。構(gòu)建地圖的類型較為豐富，主要為點(diǎn)云地圖和軌跡地圖。由于視覺(jué)/慣性組合的方式有效解決了單目視覺(jué)無(wú)法恢復(fù)尺度的問(wèn)題，因此單目及雙目視覺(jué)/慣性組合模式均得到了廣泛研究。

在近幾年的多信息融合導(dǎo)航領(lǐng)域，出于全天候全時(shí)段導(dǎo)航任務(wù)的需求，研究人員深入挖掘了視覺(jué)圖像信息，通過(guò)融合不同模態(tài)的視覺(jué)圖像信息提升視覺(jué)解算性能，基于異源圖像的視覺(jué)導(dǎo)航技術(shù)得到發(fā)展。

3.2 融合異源圖像的視覺(jué)及視覺(jué)/慣性SLAM 關(guān)鍵技術(shù)

傳統(tǒng)可見(jiàn)光視覺(jué)導(dǎo)航方式存在光譜范圍受限、低光照環(huán)境不可用等問(wèn)題，異源圖像則既保留了視覺(jué)導(dǎo)航自主抗干擾的優(yōu)勢(shì)，又對(duì)單色圖像信息進(jìn)行有效補(bǔ)充，在地形勘探、目標(biāo)提取和精確導(dǎo)航方面具有實(shí)用前景，融合異源圖像的視覺(jué)導(dǎo)航技術(shù)也在低光照環(huán)境及復(fù)雜地形場(chǎng)景中得到應(yīng)用。早期異源圖像多作為信息輔助測(cè)量手段應(yīng)用于導(dǎo)航領(lǐng)域，用于提高視覺(jué)感知［87?88］、實(shí)現(xiàn)雙目測(cè)距［89］等功能。近年來(lái)則涌現(xiàn)了更多融合異源圖像信息的視覺(jué)導(dǎo)航方案，基于其融合的傳感器數(shù)據(jù)分為異源視覺(jué)SLAM 和異源視覺(jué)/慣性SLAM 方案，地圖形式主要為圖3（b）的軌跡地圖。

（1）異源視覺(jué)SLAM

2018 年新加坡國(guó)立大學(xué)［90］提出了一種多平面紅外視覺(jué)里程計(jì)，采用激光設(shè)備輔助消除尺度恢復(fù)中的測(cè)量誤差，提升了無(wú)人機(jī)在多平面復(fù)雜地形中晝夜飛行的魯棒性。2021 年大連理工大學(xué)［91］提出一種偏振光/雙目視覺(jué)仿生組合導(dǎo)航方法，利用仿生偏振定向傳感器輸出的角度信息修正航向角?？颂m菲爾德大學(xué)［92］提出多模態(tài)純視覺(jué)里程計(jì)GMS?VO，分別對(duì)姿態(tài)和尺度進(jìn)行估計(jì)，提升了系統(tǒng)整體定位精度。

（2）異源視覺(jué)/慣性SLAM

2017 年克蘭菲爾德大學(xué)［93］提出了一種融合慣性和多光譜信息的導(dǎo)航系統(tǒng)，適用于載體快速運(yùn)動(dòng)及寒冷環(huán)境場(chǎng)景。2018 年新加坡國(guó)立大學(xué)［94］提出了適用于無(wú)人機(jī)晝夜飛行的紅外視覺(jué)慣性里程計(jì)算法，采用擴(kuò)展卡爾曼濾波（Extended Kalman filter，EKF）框架實(shí)現(xiàn)視覺(jué)及慣性測(cè)量信息融合，消除尺度恢復(fù)和運(yùn)動(dòng)估計(jì)誤差。2019 年加州理工學(xué)院［95］提出了一種熱像慣性里程計(jì)，分別將慣性數(shù)據(jù)與夜間的熱圖像或白天的視覺(jué)圖像緊耦合以適應(yīng)不同光照條件，并集成在運(yùn)動(dòng)規(guī)劃和控制的自主框架中實(shí)時(shí)運(yùn)行。2021 年克蘭菲爾德大學(xué)［92］提出視覺(jué)/慣性里程計(jì)MS?VINS，采用誤差狀態(tài)卡爾曼濾波器融合視覺(jué)姿態(tài)與慣性數(shù)據(jù)。表4 整理了融合異源圖像的視覺(jué)SLAM 代表性方案。

表4 融合異源圖像的視覺(jué)及視覺(jué)/慣性SLAM 研究成果Table 4 Visual and visual/inertial SLAM research results fused with heterogeneous images

異源圖像逐漸由輔助導(dǎo)航手段轉(zhuǎn)為視覺(jué)導(dǎo)航的主要信息來(lái)源，視覺(jué)圖像也由紅外熱像圖轉(zhuǎn)變?yōu)榭梢?jiàn)光/紅外組合圖像，并擴(kuò)展為視覺(jué)/慣性組合導(dǎo)航模式，利用多信息融合優(yōu)勢(shì)提升SLAM 系統(tǒng)精度。雖然在異源傳感器數(shù)據(jù)處理、硬件配置等方面仍需進(jìn)一步探索，但隨著異源圖像信息的引入，視覺(jué)SLAM 的環(huán)境適應(yīng)性逐漸增強(qiáng)，呈現(xiàn)出在全天時(shí)復(fù)雜環(huán)境應(yīng)用的發(fā)展傾向。

綜上，視覺(jué)及視覺(jué)/慣性SLAM 在不同領(lǐng)域得到了不同程度的應(yīng)用。

基于幾何變換的視覺(jué)及視覺(jué)/慣性SLAM 整體研究已較為成熟，現(xiàn)已在多個(gè)領(lǐng)域得到實(shí)際應(yīng)用，如iRobot、Dyson、科沃斯、小米等公司推出的具備自主導(dǎo)航功能的掃地機(jī)器人，應(yīng)用視覺(jué)SLAM 技術(shù)實(shí)現(xiàn)室內(nèi)定位感知及建圖任務(wù)；Skydio公司推出的自主飛行無(wú)人機(jī)，具備厘米級(jí)定位精度，可用于高壓線塔、橋墩、蓋梁等場(chǎng)景檢測(cè)；特斯拉公司研發(fā)的無(wú)人車輛智能駕駛，可實(shí)現(xiàn)L2 級(jí)別的部分自動(dòng)化車輛自動(dòng)駕駛；Nreal 公司推出的增強(qiáng)現(xiàn)實(shí)眼鏡，結(jié)合SLAM 技術(shù)聯(lián)通虛擬環(huán)境與現(xiàn)實(shí)世界，提升用戶感知體驗(yàn)。

基于神經(jīng)網(wǎng)絡(luò)或融合異源視覺(jué)的定位導(dǎo)航技術(shù)雖然為視覺(jué)SLAM 帶來(lái)了新的變革，但主要處于理論研究與實(shí)驗(yàn)驗(yàn)證階段，憑借神經(jīng)網(wǎng)絡(luò)良好的學(xué)習(xí)能力及異源視覺(jué)的環(huán)境適應(yīng)性，多應(yīng)用于移動(dòng)機(jī)器人巡檢、無(wú)人機(jī)礦井探測(cè)、無(wú)人駕駛目標(biāo)識(shí)別及導(dǎo)航等自主任務(wù)。

4 結(jié) 論

本文以視覺(jué)及視覺(jué)/慣性SLAM 技術(shù)為主，歸納整理了前端里程計(jì)、后端優(yōu)化、回環(huán)檢測(cè)和地圖構(gòu)建關(guān)鍵環(huán)節(jié)，系統(tǒng)綜述了純視覺(jué)SLAM 的關(guān)鍵技術(shù)發(fā)展情況，并對(duì)視覺(jué)/慣性SLAM 導(dǎo)航方案進(jìn)行梳理分析，結(jié)合異源圖像的研究應(yīng)用情況，探討了融合異源圖像的視覺(jué)導(dǎo)航技術(shù)研究進(jìn)展情況，為融合異源圖像的視覺(jué)及視覺(jué)/慣性SLAM 研究提供參考。結(jié)合現(xiàn)有研究成果，視覺(jué)及視覺(jué)/慣性SLAM 技術(shù)主要呈現(xiàn)以下3 點(diǎn)發(fā)展趨勢(shì)。

（1）理論優(yōu)化改進(jìn)：由于應(yīng)用場(chǎng)景需求的多樣化，結(jié)合慣性、異源圖像等多傳感器的信息融合模式成為SLAM 主流，促進(jìn)了以緊耦合為主的信息融合理論發(fā)展，而隨著大場(chǎng)景SLAM 應(yīng)用需求及圖優(yōu)化理論的推進(jìn)，逐步形成了基于擴(kuò)展卡爾曼濾波框架的改進(jìn)濾波器優(yōu)化架構(gòu)，和以光束法平差為主的非線性優(yōu)化架構(gòu)兩種研究趨勢(shì)。

（2）新型技術(shù)引入：隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)中的廣泛應(yīng)用，視覺(jué)SLAM 呈現(xiàn)出由傳統(tǒng)幾何變換方式逐步轉(zhuǎn)向結(jié)合深度學(xué)習(xí)的智能融合趨勢(shì)。一方面視覺(jué)圖像與語(yǔ)義信息的緊密聯(lián)系，使得集成語(yǔ)義信息的視覺(jué)SLAM 得到更多探索；另一方面為減少對(duì)傳統(tǒng)方式依賴，利用神經(jīng)網(wǎng)絡(luò)架構(gòu)替代SLAM 的部分模塊或端到端強(qiáng)化學(xué)習(xí)的模式得以廣泛研究。

（3）應(yīng)用領(lǐng)域推廣：視覺(jué)SLAM 目前在智能家居、自動(dòng)駕駛、無(wú)人機(jī)等領(lǐng)域得到了不同層次的應(yīng)用，隨著硬件性能的提升，視覺(jué)SLAM 的應(yīng)用范圍逐步由室內(nèi)小空間轉(zhuǎn)向動(dòng)態(tài)目標(biāo)豐富的復(fù)雜大空間場(chǎng)景，應(yīng)用的廣度和深度得到較大提升。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡