席志紅,溫家旭
哈爾濱工程大學(xué) 信息與通信工程學(xué)院,黑龍江 哈爾濱 150001
同步定位與地圖構(gòu)建(SLAM)已廣泛應(yīng)用于服務(wù)機(jī)器人、無人駕駛、虛擬現(xiàn)實(shí)等領(lǐng)域[1-2],與人們?nèi)粘I蠲芮邢嚓P(guān)。而室內(nèi)場景中的動(dòng)態(tài)對象會(huì)嚴(yán)重影響相機(jī)位姿估計(jì)的準(zhǔn)確性,從而降低地圖創(chuàng)建的效果,因此室內(nèi)動(dòng)態(tài)場景SLAM 成為了一個(gè)研究熱點(diǎn)[3]。
視覺SLAM 在動(dòng)態(tài)場景下仍然存在很大的挑戰(zhàn),而且目前SLAM 通常建立稀疏點(diǎn)云地圖[4],缺少對環(huán)境地圖信息的理解,因此基于深度學(xué)習(xí)的室內(nèi)動(dòng)態(tài)場景SLAM 逐漸受到人們的關(guān)注[5-6]。
ORB-SLAM2[7]被認(rèn)為是目前最完整的SLAM框架之一,但是在動(dòng)態(tài)場景中ORB-SLAM2 系統(tǒng)定位與建圖效果并不理想,并且僅創(chuàng)建稀疏點(diǎn)云地圖,無法用于移動(dòng)機(jī)器人后續(xù)導(dǎo)航工作。本文以提高室內(nèi)動(dòng)態(tài)場景下相機(jī)位姿估計(jì)準(zhǔn)確性以及地圖創(chuàng)建效果為目的,在目前相對完整的ORBSLAM2 框架的基礎(chǔ)上進(jìn)行優(yōu)化,將深度學(xué)習(xí)與SLAM 相結(jié)合,剔除分布在動(dòng)態(tài)物體內(nèi)的特征點(diǎn),減少動(dòng)態(tài)對象對相機(jī)位姿估計(jì)的影響,同時(shí)提高移動(dòng)機(jī)器人對周圍環(huán)境的理解能力,利用背景修復(fù)[8]和點(diǎn)云拼接技術(shù)[9]相結(jié)合的方法建立無動(dòng)態(tài)物體干擾的實(shí)例級稠密點(diǎn)云地圖[10]以及語義八叉樹地圖[11],大大減少了地圖存儲(chǔ)空間。
本文SLAM 系統(tǒng)采用ORB-SLAM2 框架來提供SLAM 方案,并行運(yùn)行實(shí)例分割、特征點(diǎn)提取與跟蹤、局部建圖、閉環(huán)檢測和地圖構(gòu)建5 個(gè)線程。本文SLAM 系統(tǒng)框架如圖1 所示。首先由彩色和深度(red,green,blue and depth,RGBD)相機(jī)捕獲的彩色(red,green and blue,RGB)圖像經(jīng)過實(shí)例分割線程處理,得到每個(gè)像素實(shí)例級別標(biāo)簽;特征點(diǎn)提取與跟蹤線程負(fù)責(zé)提取靜態(tài)物體內(nèi)的特征點(diǎn),并且利用多視幾何方法[8,12]進(jìn)一步剔除潛在外點(diǎn);最后利用篩選后的靜態(tài)點(diǎn)估計(jì)相機(jī)位姿,地圖構(gòu)建線程負(fù)責(zé)建立無動(dòng)態(tài)物體干擾的實(shí)例級稠密點(diǎn)云地圖以及語義八叉樹地圖。
圖1 本文SLAM 系統(tǒng)框架
Mask RCNN[13]是一個(gè)基于深度學(xué)習(xí)的圖像實(shí)例分割框架,它利用檢測框物體分類、檢測框坐標(biāo)回歸和檢測框逐像素分割3 個(gè)卷積網(wǎng)絡(luò)分支來完成實(shí)例分割任務(wù),改進(jìn)了特征金字塔網(wǎng)絡(luò)的感興趣區(qū)域池化,在區(qū)域生成網(wǎng)絡(luò) (region proposal network,RPN)頂部添加了并列的全卷積網(wǎng)絡(luò)(fully convolutional networks,FCN)層來擴(kuò)展Faster R-CNN[14],并且計(jì)算掩碼損失。每個(gè)類對應(yīng)一個(gè)掩碼可以有效避免類間競爭,通過雙線性插值使候選區(qū)域和卷積特征對齊,不因量化而損失信息。
Mask RCNN 實(shí)例分割網(wǎng)絡(luò)不僅可以實(shí)現(xiàn)對圖像中物體語義信息的標(biāo)注,而且可以準(zhǔn)確區(qū)分同類物體中的不同個(gè)體,這對于幫助移動(dòng)機(jī)器人理解周圍環(huán)境起著重要的作用。
本文SLAM 系統(tǒng)采用Mask RCNN 實(shí)例分割網(wǎng)絡(luò)進(jìn)行動(dòng)態(tài)物體檢測,在實(shí)際室內(nèi)場景中,人、狗、貓被認(rèn)為是主要?jiǎng)討B(tài)對象。若實(shí)例分割后的結(jié)果中含有上述動(dòng)態(tài)對象,則將動(dòng)態(tài)對象內(nèi)部特征點(diǎn)剔除,這樣可以顯著降低動(dòng)態(tài)對象的影響。
通過使用Mask RCNN,大多數(shù)動(dòng)態(tài)物體可以被分割并且不被用于跟蹤和建圖。但是,由于一些可移動(dòng)物體不是先驗(yàn)動(dòng)態(tài)的,因此不能被該方法檢測到。本文SLAM 系統(tǒng)利用多視幾何方法進(jìn)一步檢測動(dòng)態(tài)物體,判斷動(dòng)態(tài)物體示意如圖2所示。對于每個(gè)輸入幀,選擇之前具有最大重疊的關(guān)鍵幀,然后計(jì)算每個(gè)關(guān)鍵點(diǎn)n從之前關(guān)鍵幀(key frame,KF)到當(dāng)前幀(current frame,CF)的投影,獲得關(guān)鍵點(diǎn)n和投影深度p;同時(shí)獲得其對應(yīng)的3D 點(diǎn)N。計(jì)算n的反投影和關(guān)鍵點(diǎn)n′之間夾角α,如果 α>30°,那么靜態(tài)物體被考慮為動(dòng)態(tài)物體,獲得n′對應(yīng)的深度值z′,若z′與p的差值超過設(shè)定的閾值τ,則判定關(guān)鍵點(diǎn)n′屬于動(dòng)態(tài)物體。
圖2 多視幾何判斷動(dòng)態(tài)物體示意
經(jīng)過動(dòng)態(tài)檢測并剔除動(dòng)態(tài)特征點(diǎn),即可僅利用靜態(tài)特征點(diǎn)進(jìn)行相機(jī)位姿估計(jì),從而提高相機(jī)位姿計(jì)算精度。假設(shè)篩選后的靜態(tài)特征點(diǎn)P的坐標(biāo)為(x,y),其三維坐標(biāo)為(X,Y,Z),由幾何投影關(guān)系可得
式中:K為內(nèi)參矩陣,R為 旋轉(zhuǎn)矩陣,T為平移矩陣(各矩陣均為3×3矩陣)。
設(shè)對應(yīng)點(diǎn)P′的坐標(biāo)為(x′,y′),則重投影誤差函數(shù)為
式中s為尺度因子。
對相鄰關(guān)鍵幀中的所有特征點(diǎn)構(gòu)建最小二乘問題:
式中(R,T)*即為所求位姿[15]。
為了創(chuàng)建無動(dòng)態(tài)物體干擾的地圖,需要將圖像中的動(dòng)態(tài)對象濾除。本系統(tǒng)采用將之前20 關(guān)鍵幀彩色圖像和深度圖像投影到當(dāng)前幀上的方法實(shí)現(xiàn)背景填充,背景修復(fù)前后圖像如圖3 和圖4所示。
圖3 背景修復(fù)前圖像
圖4 背景修復(fù)后圖像
本文選用TUM RGB-D 公開數(shù)據(jù)集[16]中的動(dòng)態(tài)序列f3_w_xyz、f3_w_halfsphere 和f3_w_static對本文系統(tǒng)和ORB-SLAM2 進(jìn)行對比測試,運(yùn)行平臺為配備Intel Core i7 處理器、GeForce GTX 1050Ti 型號GPU、8 GB 內(nèi)存的臺式電腦。
本文使用絕對軌跡誤差(absolute trajectory error,ATE)值(eATE)作為評價(jià)指標(biāo),利用evo 工具繪制相機(jī)的軌跡,并評估估計(jì)軌跡與真值的誤差。ORB-SLAM2 和本文系統(tǒng)在3 個(gè)公開數(shù)據(jù)集上的絕對軌跡誤差測試結(jié)果分別如表1 和表2 所示,其中均方根誤差(ermse)反映估計(jì)值與真實(shí)值之間的偏差;平均誤差(emean)反映所有估計(jì)誤差的平均水平;中值誤差(emedia)代表所有誤差的中等水平;標(biāo)準(zhǔn)偏差(estd)反映系統(tǒng)軌跡估計(jì)的離散程度。
表1 ORB-SLAM2 絕對軌跡誤差結(jié)果cm
表2 本文系統(tǒng)絕對軌跡誤差結(jié)果cm
本文利用evo 工具分別對ORB-SLAM2 系統(tǒng)與本文系統(tǒng)繪制相機(jī)的軌跡,并評估估計(jì)軌跡與真值的誤差,在f3_w_xyz 數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果如圖5~8 所示。
圖5 ORB-SLAM2 系統(tǒng)相機(jī)估計(jì)軌跡與真實(shí)軌跡及誤差
由以上實(shí)驗(yàn)結(jié)果可以看出:在室內(nèi)動(dòng)態(tài)場景數(shù)據(jù)集f3_w_xyz、f3_w_halfsphere 和f3_walking_static中,相對ORB-SLAM2 系統(tǒng)來說,本文系統(tǒng)絕對軌跡均方根誤差分別降低了97.59%、93.49%和98.18%,本文SLAM 系統(tǒng)相機(jī)位姿估計(jì)誤差明顯降低,其原因在于本文系統(tǒng)增加了對動(dòng)態(tài)物體的處理,利用動(dòng)態(tài)檢測方法篩選后的靜態(tài)特征點(diǎn)進(jìn)行位姿估計(jì),從而提升精度。
本文利用實(shí)例分割后的圖像與相機(jī)運(yùn)動(dòng)軌跡創(chuàng)建靜態(tài)語義地圖,將二維信息投影到三維地圖中,賦予地圖物體實(shí)例信息,經(jīng)過實(shí)例分割并濾除動(dòng)態(tài)對象后的稠密點(diǎn)云地圖如圖9 所示。
圖6 本文系統(tǒng)相機(jī)估計(jì)軌跡與真實(shí)軌跡及誤差
圖7 ORB-SLAM2 系統(tǒng)相關(guān)誤差曲線
圖8 本文系統(tǒng)相關(guān)誤差曲線
從圖9 可以看出,對背景修復(fù)和實(shí)例分割后的圖像進(jìn)行點(diǎn)云拼接,可以將二維信息投影到三維地圖中,其中不同顏色代表不同物體實(shí)例,然而在背景填充過程中難免存在始終被遮擋區(qū)域,造成圖像出現(xiàn)裂痕。
圖9 實(shí)例級稠密點(diǎn)云地圖
相對于實(shí)例級稠密點(diǎn)云地圖,語義八叉樹地圖所占的空間(3 MB)約是點(diǎn)云地圖(14.8 MB)的20%,能夠節(jié)省大量存儲(chǔ)空間,為機(jī)器人提供含有環(huán)境物體信息的導(dǎo)航地圖。本文系統(tǒng)生成的語義八叉樹地圖如圖10 所示。
圖10 語義八叉樹地圖
本文提出了一種基于實(shí)例分割的室內(nèi)動(dòng)態(tài)場景SLAM 系統(tǒng)。
1)該系統(tǒng)實(shí)例分割網(wǎng)絡(luò)不僅可以應(yīng)用于對環(huán)境動(dòng)靜物體的分割,而且可以在地圖中添加物體實(shí)例信息,有效減小動(dòng)態(tài)對象對相機(jī)位姿估計(jì)的影響,同時(shí)提高地圖構(gòu)建的準(zhǔn)確性,彌補(bǔ)了ORBSLAM2 應(yīng)用于動(dòng)態(tài)場景下的缺陷。
2)構(gòu)建的實(shí)例級稠密點(diǎn)云地圖和語義八叉樹地圖有助于機(jī)器人理解環(huán)境,對后續(xù)導(dǎo)航工作有著重要的意義。
然而,本文SLAM 系統(tǒng)在減小誤差的同時(shí),也增加了運(yùn)行時(shí)間,在接下來的工作中,將進(jìn)一步提升實(shí)例分割網(wǎng)絡(luò)性能以減小相機(jī)位姿估計(jì)誤差,并且保證系統(tǒng)的實(shí)時(shí)性。