阮曉鋼, 郭佩遠(yuǎn), 黃 靜
(1.北京工業(yè)大學(xué)信息學(xué)部, 北京 100124; 2.計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100124)
同時(shí)定位與地圖構(gòu)建(simultaneous localization and mapping, SLAM)是指機(jī)器人在沒(méi)有環(huán)境先驗(yàn)信息的情況下僅通過(guò)自身攜帶的傳感器估計(jì)自身位姿并構(gòu)建環(huán)境地圖的過(guò)程[1],它是許多機(jī)器人應(yīng)用的先決條件,例如自主導(dǎo)航[2]、路徑規(guī)劃[3]等. 視覺(jué)SLAM是指以視覺(jué)傳感器為主要數(shù)據(jù)采集傳感器的定位建圖方法,它是各種上層應(yīng)用的必要模塊,例如室內(nèi)服務(wù)機(jī)器人[4]、室外自動(dòng)駕駛汽車[5]等. 在過(guò)去的幾十年里,視覺(jué)SLAM問(wèn)題受到了高度的關(guān)注,一些先進(jìn)的視覺(jué)SLAM算法已經(jīng)取得了令人滿意的性能. 例如:基于關(guān)鍵幀的并行跟蹤與地圖構(gòu)建(parallel tracking and mapping,PTAM)[6]使用非線性優(yōu)化方法比濾波方法更高效,它曾被認(rèn)為是單目SLAM算法的標(biāo)準(zhǔn)算法; ORB-SLAM2[7]是一個(gè)集成了單目、雙目、深度相機(jī)的綜合系統(tǒng),具有追蹤、局部建圖、閉環(huán)檢測(cè)3個(gè)線程,可構(gòu)建稀疏的點(diǎn)云地圖,是視覺(jué)SLAM系統(tǒng)中采用特征點(diǎn)法的代表; LSD-SLAM[8]則采用直接法提高位姿估計(jì)的準(zhǔn)確性并能構(gòu)建大規(guī)模的三維地圖.
然而,大多數(shù)現(xiàn)有的視覺(jué)SLAM算法基于靜態(tài)環(huán)境假設(shè),在動(dòng)態(tài)環(huán)境下精度低、魯棒性差,并且它們建立的地圖通?;趲缀涡畔ⅲ缁诘貥?biāo)的地圖和點(diǎn)云地圖,因此,無(wú)法提供對(duì)周圍環(huán)境的高級(jí)理解. 為了解決這一問(wèn)題,很多學(xué)者提出了面向動(dòng)態(tài)環(huán)境的SLAM方法,根據(jù)場(chǎng)景中動(dòng)態(tài)特征的檢測(cè)方法可以將其分成兩大類:僅依賴于幾何信息的動(dòng)態(tài)特征檢測(cè)和僅依賴于語(yǔ)義信息的動(dòng)態(tài)特征檢測(cè).
在依賴幾何信息的方法中,Kundu等[9]通過(guò)構(gòu)造基礎(chǔ)矩陣來(lái)定義幾何約束,如果后續(xù)幀中的匹配特征距離極線很遠(yuǎn),則被認(rèn)為是動(dòng)態(tài)的. Zou等[10]通過(guò)分析三角測(cè)量一致性,將前一幀的特征投影到當(dāng)前幀,并計(jì)算特征跟蹤的重投影誤差,如果誤差很大,則地圖點(diǎn)被認(rèn)為是動(dòng)態(tài)的,從而將每一幀地圖點(diǎn)分類為靜態(tài)或者動(dòng)態(tài). Wang等[11]通過(guò)將深度圖像聚類成若干對(duì)象,提取當(dāng)前彩色圖像特征,統(tǒng)計(jì)每個(gè)對(duì)象上的特征數(shù)量和百分比,并基于統(tǒng)計(jì)特征設(shè)計(jì)了一個(gè)運(yùn)動(dòng)目標(biāo)判別模型,如果目標(biāo)被認(rèn)為是運(yùn)動(dòng)的,則該模型上的所有特征被消除. 這些方法無(wú)法建立動(dòng)態(tài)對(duì)象的先驗(yàn)語(yǔ)義信息,不能提供對(duì)周圍環(huán)境中動(dòng)態(tài)對(duì)象的高級(jí)理解,從而導(dǎo)致系統(tǒng)在動(dòng)態(tài)環(huán)境中的精度不佳.
在依賴語(yǔ)義信息的方法中,往往根據(jù)人的經(jīng)驗(yàn)和嘗試將可以自己移動(dòng)的對(duì)象視為動(dòng)態(tài)物體. Zhong等[12]使用單次多框檢測(cè)器(single shot multibox detector,SSD)來(lái)檢測(cè)移動(dòng)對(duì)象,將人、貓、狗、汽車等視為潛在移動(dòng)物體,將屬于這些區(qū)域的所有特征去除. Zhang等[13]使用YOLO(you only look once)目標(biāo)檢測(cè)網(wǎng)絡(luò)來(lái)獲取語(yǔ)義信息,去除移動(dòng)對(duì)象上的不穩(wěn)定特征. 這些方法僅依賴語(yǔ)義信息不能完全去除動(dòng)態(tài)特征點(diǎn). 一方面,目標(biāo)檢測(cè)或語(yǔ)義分割在對(duì)象邊界附近的分割結(jié)果模糊,仍不可避免;另一方面,不能有效去除潛在動(dòng)態(tài)對(duì)象上的不穩(wěn)定特征點(diǎn). DS-SLAM[14]將SegNet語(yǔ)義分割網(wǎng)絡(luò)與光流法相結(jié)合并構(gòu)建八叉樹語(yǔ)義地圖. DynaSLAM[15]將Mask R-CNN[16]實(shí)例分割網(wǎng)絡(luò)與多視圖幾何相結(jié)合并在沒(méi)有動(dòng)態(tài)對(duì)象的情況下完成背景修復(fù). 這些方法沒(méi)用利用語(yǔ)義信息來(lái)輔助對(duì)極幾何計(jì)算,只是簡(jiǎn)單地組合兩者的結(jié)果.
本文提出了一種將語(yǔ)義分割技術(shù)與運(yùn)動(dòng)一致性檢測(cè)算法相結(jié)合的方法,共同利用語(yǔ)義分割的先驗(yàn)信息和幾何信息來(lái)去除物體動(dòng)態(tài)特征,減小SLAM在位姿估計(jì)中產(chǎn)生的誤差. 實(shí)驗(yàn)結(jié)果證明,該方法在動(dòng)態(tài)環(huán)境中明顯降低了絕對(duì)軌跡誤差和相對(duì)位姿誤差,提高了系統(tǒng)位姿估計(jì)的準(zhǔn)確性和魯棒性.
系統(tǒng)在ORB-SLAM2[7]原有框架的基礎(chǔ)上,對(duì)其中的視覺(jué)里程計(jì)進(jìn)行改進(jìn),通過(guò)增加語(yǔ)義分割線程并在跟蹤線程增加運(yùn)動(dòng)一致性檢測(cè)算法進(jìn)行動(dòng)態(tài)物體檢測(cè)來(lái)減少動(dòng)態(tài)特征點(diǎn)對(duì)視覺(jué)里程計(jì)的干擾. 改進(jìn)后的系統(tǒng)流程框圖如圖1所示. 該系統(tǒng)包含4個(gè)并行運(yùn)行線程:跟蹤、語(yǔ)義分割、局部地圖、閉環(huán)檢測(cè). 當(dāng)原始彩色圖像抵達(dá)后,同時(shí)傳入語(yǔ)義分割線程和跟蹤線程,兩者并行地對(duì)圖像進(jìn)行處理. 語(yǔ)義分割線程采用Mask R-CNN[16]網(wǎng)絡(luò)將物體分為動(dòng)態(tài)對(duì)象和靜態(tài)對(duì)象,把動(dòng)態(tài)對(duì)象的像素級(jí)語(yǔ)義標(biāo)簽提供給跟蹤線程,并通過(guò)幾何約束的運(yùn)動(dòng)一致性檢測(cè)算法進(jìn)一步檢測(cè)潛在動(dòng)態(tài)特征點(diǎn)異常值,然后剔除動(dòng)態(tài)對(duì)象中的特征點(diǎn)并利用相對(duì)穩(wěn)定的靜態(tài)特征點(diǎn)進(jìn)行位姿估計(jì).
圖1 系統(tǒng)流程圖Fig.1 System flow diagram
針對(duì)動(dòng)態(tài)場(chǎng)景中視覺(jué)SLAM存在的問(wèn)題,提出一種先進(jìn)的深度學(xué)習(xí)方法來(lái)檢測(cè)動(dòng)態(tài)對(duì)象,使用語(yǔ)義分割網(wǎng)絡(luò)對(duì)動(dòng)態(tài)對(duì)象進(jìn)行分割,獲得動(dòng)態(tài)對(duì)象的像素級(jí)語(yǔ)義分割作為語(yǔ)義先驗(yàn)知識(shí). 模型中采用了Mask R-CNN[16],它是對(duì)象實(shí)例分割的最新技術(shù). Mask R-CNN既可以獲得像素級(jí)的語(yǔ)義標(biāo)簽,又可以獲得實(shí)例標(biāo)簽. 本文僅使用像素級(jí)語(yǔ)義標(biāo)簽,而實(shí)例標(biāo)簽在未來(lái)跟蹤不同的運(yùn)動(dòng)對(duì)象工作中是有用的.
Mask R-CNN將Faster R-CNN[17]目標(biāo)檢測(cè)框架擴(kuò)展為實(shí)例分割框架. Mask R-CNN將分類預(yù)測(cè)和掩碼預(yù)測(cè)作為網(wǎng)絡(luò)的2個(gè)分支. 分類預(yù)測(cè)分支通過(guò)掃描圖像對(duì)感興趣區(qū)域給出預(yù)測(cè),并產(chǎn)生類別標(biāo)簽,輸出矩形框坐標(biāo);掩碼預(yù)測(cè)分支依賴分割預(yù)測(cè)結(jié)果,利用全卷積神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)感興趣區(qū)域預(yù)測(cè)二值分割掩膜,生成語(yǔ)義信息. 利用Mask R-CNN網(wǎng)絡(luò)獲取的像素級(jí)語(yǔ)義標(biāo)簽,可以得到其運(yùn)動(dòng)特征的先驗(yàn)信息. 例如,如果像素的標(biāo)簽是“人”,可以假設(shè)這個(gè)像素是動(dòng)態(tài)的置信度高,因?yàn)榘凑杖藗兊某WR(shí),人傾向于移動(dòng);如果標(biāo)簽是“桌子”,則假設(shè)這個(gè)像素是靜態(tài)的置信度高;如果標(biāo)簽是“椅子”,則不能假設(shè)這個(gè)像素是靜態(tài)的置信度高,因?yàn)橐巫颖旧聿荒芤苿?dòng),但在人的活動(dòng)下,它是可以移動(dòng)的,所以認(rèn)為這種對(duì)象上的像素是潛在動(dòng)態(tài)的.
為了對(duì)室內(nèi)環(huán)境進(jìn)行語(yǔ)義分割,本文使用TensorFlow框架下的Mask R-CNN網(wǎng)絡(luò),該網(wǎng)絡(luò)的預(yù)訓(xùn)練模型是在MS COCO[18]數(shù)據(jù)集進(jìn)行的完全訓(xùn)練,具有很高的識(shí)別與分割效果. MS COCO數(shù)據(jù)集包含80多種不同的物體類別,所需的類別可以分為2種:一種是動(dòng)態(tài)置信度高的移動(dòng)對(duì)象,選擇MS COCO數(shù)據(jù)集中的20個(gè)物體類別(人、自行車、汽車、摩托車、飛機(jī)、公共汽車、火車、卡車、船、鳥、貓、狗、馬、羊、牛、大象、熊、斑馬、長(zhǎng)頸鹿和飛盤),對(duì)于大多數(shù)環(huán)境,可能出現(xiàn)的動(dòng)態(tài)對(duì)象都包含在這個(gè)列表中;另一種是可能伴隨人一起移動(dòng)的潛在動(dòng)態(tài)對(duì)象,如椅子、書、杯子等. 如果需要其他類別,可以用新的訓(xùn)練數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào). 經(jīng)過(guò)預(yù)訓(xùn)練之后的神經(jīng)網(wǎng)絡(luò)又采用慕尼黑工業(yè)大學(xué)(Technical University of Munich,TUM)室內(nèi)數(shù)據(jù)集進(jìn)行第2次訓(xùn)練,可以避免重新訓(xùn)練花費(fèi)大量的時(shí)間、采集大量的圖片數(shù)據(jù),同時(shí)也能夠得到更加穩(wěn)健的效果. 為了減輕網(wǎng)絡(luò)的權(quán)重,基礎(chǔ)網(wǎng)絡(luò)采用Res-Net50結(jié)構(gòu),因?yàn)橐呀?jīng)預(yù)訓(xùn)練,所以當(dāng)?shù)?次訓(xùn)練時(shí)從第4層對(duì)權(quán)重進(jìn)行修改. 實(shí)例數(shù)量設(shè)定為數(shù)據(jù)集中常見對(duì)象或潛在動(dòng)態(tài)對(duì)象,共6種,并對(duì)它們進(jìn)行顏色標(biāo)記. 人、椅子、書、杯子、顯示器、鍵盤分別設(shè)置為黑色、黃色、藍(lán)色、綠色、紫色、紅色.
在本研究中,Mask R-CNN網(wǎng)絡(luò)的輸入為m×n×3的彩色圖像,Mask R-CNN網(wǎng)絡(luò)的輸出為m×n×l的矩陣,其中l(wèi)為圖像中物體的數(shù)量. 對(duì)于每個(gè)輸出通道i∈l,將獲得一個(gè)二進(jìn)制掩碼,矩陣中只有1和0兩個(gè)數(shù)字,數(shù)字1對(duì)應(yīng)靜態(tài)場(chǎng)景,數(shù)字0對(duì)應(yīng)動(dòng)態(tài)場(chǎng)景. 通過(guò)將所有的輸出通道合并成一個(gè)通道,可以獲得出現(xiàn)在一個(gè)場(chǎng)景圖像中的所有動(dòng)態(tài)對(duì)象的分割.
通過(guò)Mask R-CNN網(wǎng)絡(luò),大多數(shù)動(dòng)態(tài)對(duì)象可以被分割. 但是,潛在動(dòng)態(tài)的移動(dòng)對(duì)象的分割效果并不理想,例如人攜帶的書或者連同人一起運(yùn)動(dòng)的椅子. 為了解決這個(gè)問(wèn)題,本文利用對(duì)極幾何特性的幾何約束進(jìn)一步檢查特征是否是動(dòng)態(tài)特征. 如果是動(dòng)態(tài)特征,則會(huì)滿足對(duì)極約束;反之則不然. 其原理如下.
2個(gè)連續(xù)幀中圖像點(diǎn)之間的關(guān)系如圖2(a)所示.P是空間點(diǎn),在連續(xù)2幀圖像I1、I2中分別得到特征點(diǎn)P1、P2.O1和O2分別是I1和I2相機(jī)的光學(xué)中心,連接O1和O2的線稱為基線.基線和點(diǎn)P確定了一個(gè)平面π,稱為對(duì)極平面.平面π與平面I1、I2的相交線l1、l2被稱為極線.基線與圖像平面的交點(diǎn)E1、E2稱為對(duì)極點(diǎn).特征點(diǎn)P1、P2的齊次坐標(biāo)可以表示為
P1=[u1,v1, 1],P2=[u2,v2, 1]
(1)
式中,ui、vi(i=1,2)為Pi(i=1,2)的橫、縱坐標(biāo).極線l1可以通過(guò)
(2)
計(jì)算.式中F為基礎(chǔ)矩陣,對(duì)極約束描述了從一幅圖像中的一個(gè)點(diǎn)到另一幅圖像中的對(duì)應(yīng)極線的映射,映射關(guān)系可以通過(guò)
(3)
描述.
在已知I1中的點(diǎn)P1和基礎(chǔ)矩陣F的情況下,如果P是靜態(tài)點(diǎn),則P2一定滿足式(3)約束.但是,由于特征提取和基礎(chǔ)矩陣F估計(jì)中的不確定性,從而產(chǎn)生位于極線附近具有誤差的特征點(diǎn),空間點(diǎn)映射的2個(gè)圖像點(diǎn)則不嚴(yán)格滿足式(3).如圖2(b)所示,點(diǎn)P2并不完全位于極線上,而是非??拷?因此,點(diǎn)P2到極線l2之間的距離D可以通過(guò)
圖2 對(duì)極幾何約束Fig.2 Epipolar geometry
(4)
計(jì)算.如果D小于預(yù)定閾值,則點(diǎn)P被認(rèn)為是靜態(tài)的,否則被認(rèn)為是動(dòng)態(tài)的.
運(yùn)動(dòng)一致性檢測(cè)算法流程如圖3所示.使用對(duì)極幾何約束檢測(cè)動(dòng)態(tài)特征,首先根據(jù)前一幀特征點(diǎn)集合L1,利用光流法計(jì)算當(dāng)前幀中匹配的特征點(diǎn)集合L2.如果匹配對(duì)太靠近圖像的邊緣,或者匹配對(duì)中心的3×3圖像塊的像素差太大,則匹配對(duì)將被丟棄.然后,可以用至少5對(duì)特征估計(jì)基礎(chǔ)矩陣F,通常使用經(jīng)典的八點(diǎn)法,再使用基礎(chǔ)矩陣F計(jì)算當(dāng)前幀中的極線.最后,通過(guò)計(jì)算P2到P1對(duì)應(yīng)極線的距離與預(yù)定閾值的關(guān)系來(lái)判斷特征點(diǎn)是否移動(dòng).
圖3 運(yùn)動(dòng)一致性檢測(cè)算法Fig.3 Moving consistency check algorithm
本文進(jìn)行2個(gè)實(shí)驗(yàn):第1個(gè)實(shí)驗(yàn)利用Mask R-CNN網(wǎng)絡(luò)對(duì)相鄰2幀圖像的動(dòng)態(tài)對(duì)象進(jìn)行語(yǔ)義分割,獲取像素級(jí)語(yǔ)義標(biāo)簽,在動(dòng)態(tài)對(duì)象上覆蓋掩膜以達(dá)到剔除動(dòng)態(tài)特征點(diǎn)的目的;第2個(gè)實(shí)驗(yàn)在TUM公共數(shù)據(jù)集上運(yùn)行改進(jìn)后的系統(tǒng),并與傳統(tǒng)ORB-SLAM2系統(tǒng)和DS-SLAM系統(tǒng)進(jìn)行比較,通過(guò)評(píng)估系統(tǒng)的誤差以驗(yàn)證本文系統(tǒng)的位姿估計(jì)具有更好的準(zhǔn)確性和魯棒性.
為評(píng)價(jià)系統(tǒng)的綜合能力,采用TUM[19]公開數(shù)據(jù)集對(duì)系統(tǒng)進(jìn)行實(shí)驗(yàn). TUM數(shù)據(jù)集由39個(gè)序列所組成,這些序列由微軟公司的Kinect傳感器以30 Hz頻率記錄在不同的室內(nèi)場(chǎng)景中,包含彩色圖像、深度圖像和位姿真值,并且包含紋理豐富的辦公室動(dòng)態(tài)場(chǎng)景的高動(dòng)態(tài)序列和低動(dòng)態(tài)序列,滿足在動(dòng)態(tài)場(chǎng)景下評(píng)估系統(tǒng)綜合能力的條件.
同時(shí),該數(shù)據(jù)集還提供了2種用于評(píng)估SLAM系統(tǒng)跟蹤結(jié)果的標(biāo)準(zhǔn),分別為絕對(duì)軌跡誤差和相對(duì)位姿誤差[20]. 絕對(duì)軌跡誤差直接計(jì)算相機(jī)位姿的真實(shí)值與SLAM系統(tǒng)的估計(jì)值之間的差,該標(biāo)準(zhǔn)可以非常直觀地反映算法精度和軌跡全局一致性,第i幀的絕對(duì)軌跡誤差定義為
(5)
式中:Ti為第i幀的算法估計(jì)位姿;Qi為第i幀的真實(shí)位姿;S為從估計(jì)位姿到真實(shí)位姿的轉(zhuǎn)換矩陣.相對(duì)位姿誤差則是計(jì)算真實(shí)位姿與估計(jì)位姿每隔一段相同時(shí)間Δ內(nèi)位姿變化量的差,該標(biāo)準(zhǔn)有利于評(píng)估平移和旋轉(zhuǎn)漂移,第i幀的相對(duì)位姿誤差定義為
(6)
本實(shí)驗(yàn)在上述數(shù)據(jù)集分別運(yùn)行傳統(tǒng)的ORB-SLAM2和改進(jìn)后的系統(tǒng),實(shí)驗(yàn)的電腦配置為CPU i5- 4200H,GPU GTX 960M 4G.
本實(shí)驗(yàn)在數(shù)據(jù)集中隨機(jī)選取相鄰2幀圖像,圖像中包含動(dòng)態(tài)對(duì)象“人”,圖4(a)(b)(c)顯示了傳統(tǒng)的ORB-SLAM2系統(tǒng)會(huì)提取動(dòng)態(tài)對(duì)象“人”身上的特征點(diǎn),并利用這些動(dòng)態(tài)特征點(diǎn)進(jìn)行特征匹配和位姿估計(jì),從而造成該系統(tǒng)在動(dòng)態(tài)場(chǎng)景下魯棒性差、位姿估計(jì)準(zhǔn)確率低. 圖4(d)(e)(f)顯示了利用Mask R-CNN獲取像素的語(yǔ)義標(biāo)簽“人”,并在動(dòng)態(tài)對(duì)象“人”上覆蓋掩膜,改進(jìn)后的系統(tǒng)將掩膜上的動(dòng)態(tài)特征點(diǎn)有效地剔除,在之后的位姿估計(jì)過(guò)程中忽略了這些動(dòng)態(tài)特征點(diǎn),達(dá)到了剔除目的.
圖4 傳統(tǒng)ORB-SLAM2系統(tǒng)和改進(jìn)后的系統(tǒng)中特征提取和匹配結(jié)果Fig.4 Feature extraction and matching results in traditional ORB-SLAM2 system and improved system
本實(shí)驗(yàn)將本文系統(tǒng)與ORB-SLAM2系統(tǒng)和DS-SLAM系統(tǒng)進(jìn)行對(duì)比,采用絕對(duì)軌跡誤差和相對(duì)位姿誤差進(jìn)行定量評(píng)估. 本實(shí)驗(yàn)主要采用TUM數(shù)據(jù)集中的行走序列,因?yàn)橛腥嗽谛凶咝蛄兄衼?lái)回移動(dòng),序列中的人可以被視為高動(dòng)態(tài)對(duì)象. 本實(shí)驗(yàn)也對(duì)坐姿序列進(jìn)行了測(cè)試,序列中的人坐在椅子上只稍微移動(dòng)從而被視為低動(dòng)態(tài)對(duì)象. xyz、static、rpy和half代表4種類型的攝像機(jī)自運(yùn)動(dòng). 本文給出了均方根誤差(root mean square error,RMSE)、均值誤差、中值誤差、標(biāo)準(zhǔn)差、最大值誤差和最小值誤差,其中RMSE和標(biāo)準(zhǔn)差能夠更好地反映系統(tǒng)的穩(wěn)定性和魯棒性. 誤差的改進(jìn)值通過(guò)
(7)
計(jì)算.式中:η為改進(jìn)值;o為ORB-SLAM2系統(tǒng)的運(yùn)行結(jié)果;r為本文提出方法的運(yùn)行結(jié)果.
圖5、6分別顯示了在高動(dòng)態(tài)序列fr3_walking_xyz中從ORB-SLAM2和本文系統(tǒng)中選擇的相對(duì)位姿誤差圖和絕對(duì)軌跡誤差圖. 可以看出,本文系統(tǒng)的絕對(duì)軌跡誤差和相對(duì)位姿誤差均顯著小于ORB-SLAM2,從而驗(yàn)證了本文基于Mask R-CNN的語(yǔ)義分割和運(yùn)動(dòng)一致性檢測(cè)算法去除動(dòng)態(tài)對(duì)象的語(yǔ)義視覺(jué)SLAM在動(dòng)態(tài)場(chǎng)景下較傳統(tǒng)基于靜態(tài)環(huán)境假設(shè)的ORB-SLAM2擁有更好的性能.
圖5 相對(duì)位姿誤差Fig.5 Relative pose error
表1、2顯示了誤差的定量評(píng)估,可以看出,DS-SLAM在絕大多數(shù)誤差指標(biāo)上均大于本文系統(tǒng),這是由于DS-SLAM沒(méi)用利用語(yǔ)義信息來(lái)輔助對(duì)極幾何計(jì)算,只是簡(jiǎn)單地組合兩者的結(jié)果,而本文系統(tǒng)共同利用語(yǔ)義分割的先驗(yàn)信息和幾何信息來(lái)去除物體動(dòng)態(tài)特征,以減小SLAM在位姿估計(jì)中產(chǎn)生的誤差,故本文系統(tǒng)較ORB-SLAM2和DS-SLAM的魯棒性和穩(wěn)定性顯著提升.
圖6 絕對(duì)軌跡誤差Fig.6 Absolute trajectory error
表1 相對(duì)位姿誤差的代表值
表2 絕對(duì)軌跡誤差的代表值
表3~5面向更多動(dòng)態(tài)序列均顯示出顯著改進(jìn). 在高動(dòng)態(tài)序列中,例如fr3_walking_static序列,RMSE和標(biāo)準(zhǔn)差誤差的改進(jìn)值可分別達(dá)到96.93%和98.16%,很好地反映了本文系統(tǒng)的穩(wěn)定性和魯棒性有了顯著提升. 然而,fr3_walking_rpy序列性能改善欠佳,這是由于該序列中相機(jī)的運(yùn)動(dòng)形式為在翻滾、俯仰和偏航軸上轉(zhuǎn)動(dòng),系統(tǒng)運(yùn)行過(guò)程中容易發(fā)生跟蹤丟失的情況,在相機(jī)重定位的過(guò)程中產(chǎn)生較大誤差. 同樣,在低動(dòng)態(tài)序列中,例如fr3_sitting_static序列,性能的改善并不明顯. 這是由于傳統(tǒng)的ORB-SLAM2系統(tǒng)能夠輕松處理低動(dòng)態(tài)場(chǎng)景并獲得良好的性能,因此,可以提升的空間有限.
表3 平移漂移結(jié)果
表4 旋轉(zhuǎn)漂移結(jié)果
表5 絕對(duì)軌跡誤差結(jié)果
1) 相對(duì)于傳統(tǒng)ORB-SLAM2視覺(jué)SLAM系統(tǒng),通過(guò)引入Mask R-CNN網(wǎng)絡(luò)檢測(cè)潛在動(dòng)態(tài)對(duì)象,獲取語(yǔ)義先驗(yàn)知識(shí)以提供對(duì)環(huán)境的高級(jí)理解.
2) 將運(yùn)動(dòng)一致性檢測(cè)算法與語(yǔ)義分割算法相結(jié)合,使得改進(jìn)的系統(tǒng)較傳統(tǒng)ORB-SLAM2和動(dòng)態(tài)環(huán)境下的DS-SLAM在絕對(duì)軌跡誤差和相對(duì)位姿誤差方面顯著減少,提升了系統(tǒng)位姿估計(jì)的準(zhǔn)確性和魯棒性.
3) 未來(lái)工作中,將更好地結(jié)合Mask R-CNN獲得的實(shí)例標(biāo)簽來(lái)跟蹤不同的運(yùn)動(dòng)對(duì)象,并通過(guò)優(yōu)化運(yùn)動(dòng)一致性檢測(cè)算法來(lái)提高系統(tǒng)性能.