張慶永 楊旭東
摘 要:由于傳統(tǒng)的同步定位與建圖(simultaneous localization and mapping,SLAM)中有很強(qiáng)的靜態(tài)剛性假設(shè),故系統(tǒng)定位精度和魯棒性容易受到環(huán)境中動(dòng)態(tài)對(duì)象的干擾。針對(duì)這種現(xiàn)象,提出一種在室內(nèi)動(dòng)態(tài)環(huán)境下基于深度學(xué)習(xí)的視覺SLAM算法。基于ORB-SLAM2進(jìn)行改進(jìn),在SLAM前端加入多視角幾何,并與YOLOv5s目標(biāo)檢測(cè)算法進(jìn)行融合,最后對(duì)處理后的靜態(tài)特征點(diǎn)進(jìn)行幀間匹配。實(shí)驗(yàn)使用TUM數(shù)據(jù)集進(jìn)行測(cè)試,結(jié)果顯示:SLAM算法結(jié)合多視角幾何、目標(biāo)檢測(cè)后,系統(tǒng)的絕對(duì)位姿估計(jì)精度在高動(dòng)態(tài)環(huán)境中相較于ORB-SLAM2有明顯提高。與其他SLAM算法的定位精度相比,改進(jìn)算法仍有不同程度的改善。
關(guān)鍵詞:多視角幾何;目標(biāo)檢測(cè);同步定位與建圖;動(dòng)態(tài)環(huán)境
中圖分類號(hào):TP391.9
文獻(xiàn)標(biāo)志碼:A
同步定位與建圖(simultaneous localization and mapping,SLAM)是指機(jī)器人在未知環(huán)境下,通過自身搭配的傳感器對(duì)自身位姿進(jìn)行估計(jì)并構(gòu)建環(huán)境地圖。該技術(shù)被認(rèn)為是機(jī)器人執(zhí)行定位、導(dǎo)航等自主化行為的重要技術(shù)[1]。
目前,視覺SLAM根據(jù)使用方法可分為兩種:以FAST角點(diǎn)為特征提取并以BRIEF描述子作為身份信息匹配的特征點(diǎn)法,可進(jìn)行稀疏點(diǎn)云建圖;以圖像灰度值信息來直接判斷相機(jī)運(yùn)動(dòng)的直接法,可進(jìn)行稠密點(diǎn)云建圖,但具有一定的灰度不變性假設(shè)。ORB-SLAM2[2]被認(rèn)為是最完整的視覺SLAM框架之一,同時(shí)也是特征點(diǎn)法的代表,但其在高動(dòng)態(tài)工作環(huán)境下效果不盡人意,導(dǎo)致SLAM系統(tǒng)在實(shí)際場(chǎng)景中的適用性不高。直接法的實(shí)現(xiàn)基于灰度不變的假設(shè),但環(huán)境中的光線時(shí)常變化,假設(shè)很難完全成立,因此基于直接法的SLAM系統(tǒng)魯棒性較差。在室內(nèi)動(dòng)態(tài)環(huán)境中,無(wú)規(guī)律變化的運(yùn)動(dòng)物體上提取的特征點(diǎn)會(huì)嚴(yán)重影響相機(jī)位姿評(píng)估的準(zhǔn)確性。ENGEL等[3]提出的LSD-SLAM利用灰度值來實(shí)現(xiàn)定位并構(gòu)建半稠密點(diǎn)云建圖,基于稀疏直接法的DSO-SLAM[4]則在魯棒性、精度和速度上都較好于LSD-SLAM,但其不包含回環(huán)檢測(cè)功能,是一個(gè)不完整的SLAM算法。
隨著深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的室內(nèi)動(dòng)態(tài)場(chǎng)景視覺SLAM逐漸受到人們的關(guān)注[5]。YU等[6]基于ORB-SLAM2的視覺系統(tǒng),與SegNet[7]語(yǔ)義分割網(wǎng)絡(luò)融合提出了DS-SLAM。該系統(tǒng)消除了環(huán)境中運(yùn)動(dòng)對(duì)象的影響,極大程度上提高了相機(jī)的定位精度,并建立了八叉樹語(yǔ)義地圖。BESCOS等[8]提出的DynaSLAM將實(shí)例分割網(wǎng)絡(luò)與多視角幾何結(jié)合,實(shí)現(xiàn)了動(dòng)態(tài)特征點(diǎn)的去除以及背景修復(fù)的功能。WU等[9]設(shè)計(jì)了一個(gè)Darknet19-YOLOv3 的輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò),采用低延遲骨干網(wǎng)加速,將物體檢測(cè)和幾何約束結(jié)合提高了魯棒性,但是僅利用了動(dòng)態(tài)信息,未結(jié)合其他靜態(tài)信息。高逸等[10]基于YOLOv5s目標(biāo)檢測(cè)網(wǎng)絡(luò)提取動(dòng)態(tài)特征點(diǎn),并結(jié)合幾何約束剔除其他潛在動(dòng)態(tài)特征點(diǎn)。CHEN等[11]提出一種將目標(biāo)監(jiān)測(cè)網(wǎng)絡(luò)與傳統(tǒng)單目結(jié)合的SLAM算法,框選出環(huán)境中的動(dòng)態(tài)物體并刪除框內(nèi)特征點(diǎn),起到了去除動(dòng)態(tài)特征點(diǎn)的效果,但因框體過大而剔除過多的有效特征點(diǎn),定位精度下降。WEN等[12]提出一種新的SLAM方法,對(duì)每一個(gè)關(guān)鍵點(diǎn)分配魯棒權(quán)重,利用Mask R-CNN[13]檢測(cè)環(huán)境中的動(dòng)態(tài)物體并為每個(gè)像素點(diǎn)創(chuàng)建標(biāo)簽來建立語(yǔ)義地圖,實(shí)現(xiàn)分割動(dòng)態(tài)對(duì)象的目的。文獻(xiàn)[14]提出了一種基于實(shí)例分割和多視角幾何的動(dòng)態(tài)視覺SLAM框架。房立金等[15]提出一種利用深度學(xué)習(xí)提高定位精度的視覺SLAM方法,通過光流法與實(shí)例分割網(wǎng)絡(luò)的結(jié)合,來達(dá)到去除動(dòng)態(tài)特征點(diǎn)的效果。
以上國(guó)內(nèi)外學(xué)者的研究都融合了深度學(xué)習(xí)和純幾何的動(dòng)態(tài)檢測(cè)算法,但實(shí)例分割對(duì)硬件性能要求較高,使用目標(biāo)檢測(cè)會(huì)遺漏其他先驗(yàn)信息。為了確保SLAM系統(tǒng)能夠適應(yīng)復(fù)雜多變的室內(nèi)動(dòng)態(tài)環(huán)境,本文提出了一種基于深度學(xué)習(xí)和多視角幾何的SLAM框架,對(duì)YOLOv5目標(biāo)檢測(cè)框內(nèi)物體進(jìn)行動(dòng)靜態(tài)對(duì)象區(qū)分,并結(jié)合多視角幾何去除干擾特征點(diǎn)。改進(jìn)后的系統(tǒng)于TUM數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn),結(jié)果與ORB-SLAM2以及其他開源的優(yōu)秀算法進(jìn)行對(duì)比,驗(yàn)證了理論的可行性。
1 系統(tǒng)框架
1.1 ORB-SLAM2系統(tǒng)
ORB-SLAM2是目前應(yīng)用較廣的一套完整的開源SLAM方案。它主要由跟蹤(Tracking)、局部建圖(Local mapping)和回環(huán)檢測(cè)(Loop closing)3個(gè)線程組成,如圖1所示。跟蹤線程對(duì)傳入系統(tǒng)的每一幀提取ORB特征點(diǎn)并建立描述子匹配,以此推測(cè)幀間位姿。局部建圖線程將上一個(gè)線程產(chǎn)生的關(guān)鍵幀插入,遍歷后擇優(yōu)建圖?;丨h(huán)檢測(cè)線程判斷是否產(chǎn)生回環(huán)并融合校正。
1.2 改進(jìn)的SLAM系統(tǒng)
對(duì)于傳統(tǒng)的跟蹤線程中,動(dòng)態(tài)對(duì)象上提取的ORB特征點(diǎn)會(huì)在匹配位姿時(shí)不斷給系統(tǒng)增加累積誤差,最終導(dǎo)致位姿評(píng)估精度降低甚至定位失敗。為了降低動(dòng)態(tài)物體對(duì)系統(tǒng)的干擾,影響系統(tǒng)定位精度的問題,本文對(duì)ORB-SLAM2的跟蹤線程進(jìn)行改進(jìn),增加了目標(biāo)檢測(cè)模塊和多視角幾何,如圖2所示。在前端新增一個(gè)檢測(cè)線程,跟蹤與檢測(cè)線程信息共享。首先,當(dāng)圖像幀傳入系統(tǒng)后,輸入跟蹤與檢測(cè)線程。跟蹤線程對(duì)圖像提取ORB特征點(diǎn),檢測(cè)線程根據(jù)先驗(yàn)信息識(shí)別對(duì)象(本文主要識(shí)別屏幕、椅子、人),計(jì)算各個(gè)類別的框體位置并傳回跟蹤線程,跟蹤線程根據(jù)傳回的框體信息和類別編號(hào)劃分動(dòng)靜態(tài)框,下文通過動(dòng)靜框結(jié)合的策略判斷動(dòng)態(tài)特征點(diǎn)。其次,使用多視角幾何算法,根據(jù)當(dāng)前幀與關(guān)鍵幀的關(guān)鍵點(diǎn)進(jìn)行計(jì)算,通過投影深度的變化大小來判斷動(dòng)態(tài)特征點(diǎn)。再次,將目標(biāo)檢測(cè)和多視角幾何判定的動(dòng)態(tài)特征點(diǎn)去除,對(duì)剩下的靜態(tài)點(diǎn)進(jìn)行特征匹配來估計(jì)位姿。
1.3 YOLOv5目標(biāo)檢測(cè)網(wǎng)絡(luò)
YOLO是一種基于神經(jīng)網(wǎng)絡(luò)的對(duì)象識(shí)別和定位算法,運(yùn)行速度快且可以運(yùn)用于實(shí)時(shí)系統(tǒng),是目前應(yīng)用最為廣泛的單階段目標(biāo)檢測(cè)算法之一[16]。YOLOv5版本包含YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLO5x這5個(gè)模型。從YOLOv5n到Y(jié)OLO5x,YOLOv5模型的檢測(cè)精度逐漸上升,檢測(cè)速度逐漸下降。各版本之間網(wǎng)絡(luò)架構(gòu)基本相同,模型的主要區(qū)別是depth_multiple和width_multiple,通過調(diào)節(jié)這2個(gè)參數(shù)來控制網(wǎng)絡(luò)的深度和寬度。
與之前發(fā)布的YOLOv3[17]、YOLOv4[18]相比,YOLOv5有以下幾點(diǎn)改進(jìn):訓(xùn)練模型階段進(jìn)行了Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)anchor和letterbox的優(yōu)化;Backbone層融合了Focus結(jié)構(gòu)和CSP結(jié)構(gòu);Neck網(wǎng)絡(luò)添加了FPN+PAN結(jié)構(gòu);Head輸出層針對(duì)損失函數(shù)GIOU_Loss以及預(yù)測(cè)框篩選的GIOU_nms進(jìn)行了改進(jìn)。
因YOLOv5s在精度和速度上取得較好的平衡,本文選擇使用較廣的YOLOv5s網(wǎng)絡(luò)進(jìn)行動(dòng)態(tài)目標(biāo)檢測(cè)。相比于YOLOv4,YOLOv5s大小僅為27 MiB,推理速度快,滿足視覺SLAM系統(tǒng)的實(shí)時(shí)檢測(cè)需求。
YOLOv5檢測(cè)框的數(shù)據(jù)結(jié)構(gòu)以(X, Y, W, H, class, confidence)格式輸出,其分別代表檢測(cè)框中心點(diǎn)的X坐標(biāo)、Y坐標(biāo),框的寬度、高度,以及類別和置信度。為了方便在SLAM系統(tǒng)中讀取,我們將前4個(gè)位置信息轉(zhuǎn)化成原圖像下的坐標(biāo),轉(zhuǎn)換公式如下:
X1=(X-W2)×640
X2=(X+W2)×640
Y1=(Y+H2)×480
Y2=(Y-H2)×480 (1)
式中:(X1,Y1)、(X2,Y2)分別為檢測(cè)框的左上角和右下角坐標(biāo);640和480分別為圖片的寬和高。
本文根據(jù)類別來定義動(dòng)靜框,對(duì)人的檢測(cè)框設(shè)為動(dòng)態(tài)框,對(duì)其他物體暫定為靜態(tài)框。跟蹤線程提取ORB特征點(diǎn)后收到來自YOLOv5的檢測(cè)數(shù)據(jù),接著遍歷框內(nèi)的特征點(diǎn),根據(jù)框的不同定義不同的特征點(diǎn)。圖3是特征點(diǎn)示意圖。當(dāng)2框重疊時(shí),判斷特征點(diǎn)是否在動(dòng)態(tài)框內(nèi)且在靜態(tài)框外,滿足則將其定義為動(dòng)態(tài)特征點(diǎn),不滿足則為靜態(tài)特征點(diǎn)。
以TUM數(shù)據(jù)集為例,室內(nèi)動(dòng)態(tài)場(chǎng)景中除人之外還有很多靜態(tài)物體,如:桌子、電腦等,椅子則是潛在運(yùn)動(dòng)物體,它跟隨人的狀態(tài)變化而變化。如果單一地去除人像目標(biāo)檢測(cè)框中的特征點(diǎn),則容易因?yàn)樘卣鼽c(diǎn)過少而跟蹤失敗,故采取動(dòng)靜框結(jié)合的策略提取動(dòng)態(tài)特征點(diǎn)。提取的動(dòng)態(tài)特征點(diǎn)去除后的效果如圖4所示。由圖4可見:在人體目標(biāo)檢測(cè)框中的ORB特征點(diǎn)并沒有全部刪除,因?yàn)闄z測(cè)框中的物體并不全是動(dòng)態(tài)對(duì)象,還有諸如電腦屏幕、主機(jī)等其他靜態(tài)物體,因此,動(dòng)態(tài)物體檢測(cè)框內(nèi)的靜態(tài)物體檢測(cè)框中的特征點(diǎn)依然保留。
1.4 基于多視角幾何的動(dòng)態(tài)物體判別方法
對(duì)于每一個(gè)傳入系統(tǒng)的輸入幀,選擇5個(gè)之前和輸入幀有最高重合度的關(guān)鍵幀,其中,重合度是由每個(gè)關(guān)鍵幀和傳入系統(tǒng)的新一幀之間的距離和旋轉(zhuǎn)來決定。圖5是基于多視角幾何的動(dòng)態(tài)點(diǎn)檢測(cè)算法。如圖5所示,我們將先前關(guān)鍵幀中的每個(gè)關(guān)鍵點(diǎn)都投影到當(dāng)前幀,得到關(guān)鍵點(diǎn)p′和它們的投影深度dproj,d′是當(dāng)前幀中關(guān)鍵點(diǎn)的深度,每個(gè)關(guān)鍵點(diǎn)對(duì)應(yīng)的3D點(diǎn)是P。計(jì)算p和p′反投影之間的視差角度α。深度的重投影誤差Δd=dproj-d′。
如果視差角α>30°,則認(rèn)為該點(diǎn)有可能是靜態(tài)點(diǎn)出現(xiàn)遮擋情況,在之后的進(jìn)程中將會(huì)被忽略;如果視差角α<30°且△d>τd時(shí),關(guān)鍵點(diǎn)p′就會(huì)被視為動(dòng)態(tài)物體。其中,τd為深度閾值。為了有一個(gè)好的精度和召回率,通過最大化0.7×Precision+0.3×Recall [6],可以將τd設(shè)定為0.4。
使用多視角幾何時(shí),系統(tǒng)從當(dāng)前幀相近的關(guān)鍵幀中抽取特征點(diǎn),當(dāng)獲得的投影深度與其實(shí)際深度之差大于τd時(shí),則判定特征點(diǎn)為動(dòng)態(tài)。同時(shí)對(duì)位于動(dòng)態(tài)物體邊界上被標(biāo)記為動(dòng)態(tài)的關(guān)鍵點(diǎn)進(jìn)行判定,若該關(guān)鍵點(diǎn)被設(shè)定為動(dòng)態(tài),但在深度圖中其周圍區(qū)域存在很大的方差,則更改標(biāo)簽為靜態(tài)。最后,將目標(biāo)檢測(cè)得出的動(dòng)態(tài)標(biāo)簽點(diǎn)與多視角幾何判定的動(dòng)態(tài)特征點(diǎn)剔除。圖6為多視角幾何動(dòng)態(tài)檢測(cè)效果,動(dòng)態(tài)特征點(diǎn)已被剔除。
目標(biāo)檢測(cè)雖能迅速地找到動(dòng)態(tài)對(duì)象,但有些物體本身是靜態(tài)的,只有當(dāng)人接觸并使用的時(shí)候才變?yōu)閯?dòng)態(tài),如數(shù)據(jù)集中的椅子。我們不能直接把椅子作為動(dòng)態(tài)對(duì)象,因?yàn)檫@樣會(huì)失去很多它靜態(tài)時(shí)的有用的特征點(diǎn)。使用多視角幾何時(shí)可以有效地根據(jù)椅子的運(yùn)動(dòng)狀態(tài)來去除特征點(diǎn),但是僅僅使用多視角幾何也并不合適。當(dāng)人運(yùn)動(dòng)到隔板后時(shí),多視角幾何也不能對(duì)其覆蓋掩膜,動(dòng)態(tài)特征點(diǎn)仍然存在。圖7是目標(biāo)檢測(cè)融合多視角幾何的效果。由圖7可以看出:(a)圖右邊椅子上還有零散的特征點(diǎn)分布;(b)圖人體身上覆蓋掩膜,這是人在坐下的過程中拉動(dòng)或者推動(dòng)椅子,導(dǎo)致椅子由靜態(tài)物體轉(zhuǎn)變成為一個(gè)動(dòng)態(tài)物體;(c)圖椅子上的特征點(diǎn)已經(jīng)被去除了。
2 實(shí)驗(yàn)與建圖
本文主要對(duì)TUM RGB-D公開數(shù)據(jù)集[19]中的3個(gè)高動(dòng)態(tài)圖像序列walking_xyz 、walking_halfsphere 和walking_static進(jìn)行測(cè)試對(duì)比。高精度捕獲系統(tǒng)和慣性測(cè)量系統(tǒng)實(shí)時(shí)獲得的實(shí)際數(shù)據(jù)集中軌跡可以看作是相機(jī)實(shí)際位置的數(shù)據(jù),因此研究視覺SLAM的研究人員大多將該數(shù)據(jù)集作為評(píng)價(jià)視覺SLAM算法的標(biāo)準(zhǔn)數(shù)據(jù)集。
一般評(píng)估SLAM算法會(huì)從時(shí)耗、復(fù)雜度、精度等多個(gè)方面進(jìn)行評(píng)價(jià),其中對(duì)精度的評(píng)估往往是最受關(guān)注的。絕對(duì)軌跡誤差和相對(duì)軌跡誤差是精度評(píng)價(jià)過程中使用的2個(gè)精度指標(biāo)。本文使用均方根誤差(root mean square error,RMSE) ERMS和 標(biāo)準(zhǔn)偏差(standard deviation,SD)DS作為評(píng)估這2個(gè)指標(biāo)的參數(shù)。均方根誤差是用來衡量觀測(cè)值與真實(shí)值之間的偏差,由于容易受到較大或偶發(fā)錯(cuò)誤的影響,所以能更好地反映系統(tǒng)的魯棒性。標(biāo)準(zhǔn)差是用來衡量估計(jì)位姿相比于真實(shí)軌跡的離散程度,可以反映系統(tǒng)的穩(wěn)定性[20]。
本文算法在高動(dòng)態(tài)環(huán)境中的3個(gè)數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn),并使用evo工具將本文算法與ORB-SLAM2估計(jì)的位姿軌跡與數(shù)據(jù)集給出的真實(shí)軌跡圖groundtruth.txt進(jìn)行對(duì)比。對(duì)比時(shí)在平移、旋轉(zhuǎn)、尺度縮放3個(gè)維度上對(duì)齊。本文算法相較于ORB-SLAM2的提升程度的計(jì)算如式(2)所示,以此直觀地表達(dá)優(yōu)化效果。
γ=α-βα×100%(2)
式中:γ為改進(jìn)程度;α為ORB-SLAM2算法的結(jié)果數(shù)據(jù);β為本文算法的結(jié)果數(shù)據(jù)。
2.1 實(shí)驗(yàn)
圖8、圖9分別是ORB-SLAM2與本文算法在walking_xyz、walking_halfsphere 數(shù)據(jù)集上評(píng)估的相機(jī)軌跡與真實(shí)軌跡的對(duì)比和誤差分析。圖中虛線代表真實(shí)軌跡,實(shí)線代表ORB-SLAM2、本文算法的相機(jī)評(píng)估軌跡。絕對(duì)軌跡誤差(absolute trajectory error, ATE)記作EAT。從圖8和圖9的(a)、(b)圖可以看出:本文算法的軌跡圖與真實(shí)軌跡十分相近,直觀地表現(xiàn)了本文算法的準(zhǔn)確性。從圖8和圖9的(c)、(d)圖可以看出:對(duì)比于未改進(jìn)時(shí)的算法,本文算法的各類誤差值有顯著減小。
為驗(yàn)證實(shí)驗(yàn)設(shè)計(jì)的有效性,在TUM數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),以O(shè)RB-SLAM2為基礎(chǔ)組,分別測(cè)試基礎(chǔ)組+YOLOv5s(ORB+YOLO)和基礎(chǔ)組+多視角幾何(ORB+Multiview)以及本文算法,對(duì)比結(jié)果如表1所示。表1數(shù)據(jù)顯示本文算法的效果更優(yōu)秀。
2.2 稠密點(diǎn)云建圖
相較于ORB-SLAM2的稀疏特征點(diǎn)地圖,去除動(dòng)態(tài)對(duì)象之后的稠密點(diǎn)云地圖更能直觀地表現(xiàn)原始的室內(nèi)環(huán)境。本文剔除關(guān)鍵幀中的動(dòng)態(tài)區(qū)域,包括動(dòng)態(tài)檢測(cè)框及覆蓋的掩膜部分。根據(jù)剩下靜態(tài)圖像的顏色和深度信息可以方便計(jì)算RGB點(diǎn)云,利用精確的估計(jì)位姿可以更好地拼接點(diǎn)云,簡(jiǎn)單的點(diǎn)云相加即可獲得精確的稠密全局點(diǎn)云地圖。walking_static剔除動(dòng)態(tài)對(duì)象前后的稠密點(diǎn)云地圖展示了建圖效果,如圖10所示。
3 結(jié)果分析
ORB-SLAM2與本文算法的絕對(duì)軌跡誤差對(duì)比見表2。由表2可以看出:在高動(dòng)態(tài)環(huán)境下,對(duì)于3個(gè)walking類數(shù)據(jù)集,本文算法相較于ORB-SLAM2算法,RMSE平均提升率高達(dá)83.02%,SD平均提升率高達(dá)86.16%。在低動(dòng)態(tài)環(huán)境下,對(duì)于2個(gè)sitting數(shù)據(jù)集,RMSE和SD的平均提升率在30%以內(nèi),改善效果不理想。此類數(shù)據(jù)集中動(dòng)態(tài)對(duì)象移動(dòng)較小,在低動(dòng)態(tài)場(chǎng)景中大部分時(shí)候沒有起到很好的掩膜作用,多視角幾何的效果不突出,故單純地去除人像的特征點(diǎn)效果并不明顯。
表3是ORB-SLAM2與本文算法在不同場(chǎng)景下相對(duì)位姿平移誤差的對(duì)比。由表3可以看出:在高動(dòng)態(tài)環(huán)境下,相較于ORB-SLAM2算法,本文算法的RMSE平均提升率為63.61%,SD平均提升率為71.60%。在低動(dòng)態(tài)環(huán)境下,改善效果不理想。
表4是ORB-SLAM2與本文算法的相對(duì)軌跡旋轉(zhuǎn)誤差的對(duì)比。由表4可以看出:在高動(dòng)態(tài)環(huán)境下,RMSE的平均提升率為57.81%,SD的平均提升率為63.54%。在低動(dòng)態(tài)環(huán)境下,提升效果并不顯著。由此可見,本文算法在高動(dòng)態(tài)場(chǎng)景下有著較好的表現(xiàn),但對(duì)于低動(dòng)態(tài)環(huán)境下的改善不明顯。
近年來國(guó)內(nèi)學(xué)者提出了使用深度學(xué)習(xí)和純幾何方法融合的優(yōu)秀案例[10,14],為了進(jìn)一步驗(yàn)證算法的可靠性,將本文算法與近年國(guó)內(nèi)外動(dòng)態(tài)視覺SLAM算法進(jìn)行對(duì)比,結(jié)果如表5所示。表5數(shù)據(jù)顯示,本文算法在高動(dòng)態(tài)場(chǎng)景下也具有較為可觀的定位精度,證實(shí)了本文算法的可靠性。
4 結(jié)語(yǔ)
本文提出了一種基于深度學(xué)習(xí)的視覺SLAM,對(duì)于現(xiàn)有的視覺SLAM在高動(dòng)態(tài)環(huán)境下易受動(dòng)態(tài)物體干擾而影響定位精度的問題,在ORB-SLAM2的基礎(chǔ)上加入多視角幾何和YOLOv5s目標(biāo)檢測(cè)框架,通過兩種算法的結(jié)合剔除動(dòng)態(tài)特征點(diǎn),從而實(shí)現(xiàn)對(duì)靜態(tài)物體上的特征點(diǎn)進(jìn)行幀間匹配和位姿估計(jì)。
實(shí)驗(yàn)數(shù)據(jù)表明:與ORB-SLAM2相比,高動(dòng)態(tài)場(chǎng)景下本文算法的絕對(duì)軌跡誤差平均提高了83.02%,與其他動(dòng)態(tài)SLAM相比,也有較好的精度。但本文算法依然有局限性,例如不適用于室外復(fù)雜多變的場(chǎng)景,存在多視角幾何速度運(yùn)行較慢等問題。下一步工作將會(huì)考慮針對(duì)這些問題深入研究,選取速度更快、精度更好的動(dòng)態(tài)檢測(cè)算法,并對(duì)使用YOLOv5s目標(biāo)檢測(cè)模塊的算法進(jìn)行改進(jìn),使其可以適用于更復(fù)雜的環(huán)境。
參考文獻(xiàn):
張偉偉, 陳超, 徐軍. 融合激光與視覺點(diǎn)云信息的定位與建圖方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2020, 37(7): 114-119.
[2] MUR-ARTAL R, TARDOS J D. ORB-SLAM2: an open-source slam system for monocular, stereo, and RGB-D cameras[J]. IEEE Transactions on Robotics, 2017, 33(5): 1255-1262.
[3] ENGEL J, SCHPS T, CREMERS D. LSD-SLAM: large-scale direct monocular SLAM[C]// Proc of European Conference on Computer Vision. Cham: Springer, 2014: 834-849.
[4] WANG R, SCHWRER M, CREMERS D. Stereo DSO: large-scale direct sparse visual odometry with stereo cameras[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 3903-3911.
[5] 劉瑞軍, 王向上, 張晨, 等. 基于深度學(xué)習(xí)的視覺SLAM綜述[J]. 系統(tǒng)仿真學(xué)報(bào), 2020, 32(7): 1244-1256.
[6] YU C, LIU Z X, LIU X J, et al. DS-SLAM: a semantic visual SLAM towards dynamic environments[C]// 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Queensland: IEEE, 2018: 1168-1174.
[7] BADRINARAYANAN V, KENDALL A, SEGNET R C. A deep convolutional encoder-decoder architecture for image segmentation[DB/OL]. (2015-12-08)[2022-09-06]. https://arxiv.org/abs/1511.00561.
[8] BESCOS B, FCIL J M, CIVERA J, et al. DynaSLAM: tracking, mapping, and inpainting in dynamic scenes[J]. IEEE Robotics and Automation Letters, 2018, 3(4): 4076-4083.
[9] WU W X, GUO L, GAO H L, et al. YOLO-SLAM: a semantic SLAM system towards dynamic environment with geometric constraint[J]. Neural Computing and Applications, 2022, 34(8): 6011-6026.
[10]高逸, 王慶, 楊高朝, 等. 基于幾何約束和目標(biāo)檢測(cè)的室內(nèi)動(dòng)態(tài)SLAM[J]. 全球定位系統(tǒng), 2022, 47(5): 51-56.
[11]CHEN W, FANG M, LIU Y H, et al. Monocular semantic SLAM in dynamic street scene based on multiple object tracking[C]// 2017 IEEE 8th International Conference on CIS & RA. Ningbo: IEEE, 2017: 599-604.
[12]WEN S H, LI P J, ZHAO Y J, et al. Semantic visual SLAM in dynamic environment[J]. Autonomous Robots, 2021, 45(4): 493-504.
[13]HE K M, GKIOXARI G, DOLLR P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42: 386-397.
[14]肖田鄒子, 周小博, 羅欣, 等. 動(dòng)態(tài)環(huán)境下結(jié)合實(shí)例分割與聚類的魯棒RGB-D SLAM系統(tǒng)[J/OL]. 計(jì)算機(jī)應(yīng)用:1-8[2022-06-06]. http://kns.cnki.net/kcms/detail/51.1307.TP.20220602.1632.012.html.
[15]房立金, 劉博, 萬(wàn)應(yīng)才. 基于深度學(xué)習(xí)的動(dòng)態(tài)場(chǎng)景語(yǔ)義SLAM[J]. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 48(1): 121-126.
[16]REDMON J, FARHADI A. Yolov3: an incre-mental improvement[DB/OL]. (2018-04-08)[2022-09-06]. https://arxiv.org/abs/1804.02767.
[17]嚴(yán)尚朋. 面向侵權(quán)監(jiān)測(cè)的圖像精確檢索研究[D]. 上海: 上海交通大學(xué), 2020.
[18]BOCHKOVSKIY A, WANG C Y, LIAO H Y M. Yolov4: optimal speed and accuracy of object detection[DB/OL]. (2020-04-23)[2022-09-06]. https://arxiv.org/abs/2004.10934.
[19]STURM J, ENGELHARD N, ENDRES F, et al. A benchmark for the evaluation of RGB-D SLAM systems[C]// 2012 IEEE/RSJ international conference on intelligent robots and systems. Vilamoura-Algarve: IEEE, 2012: 573-580.
[20]鄭思誠(chéng), 孔令華, 游通飛, 等. 動(dòng)態(tài)環(huán)境下基于深度學(xué)習(xí)的語(yǔ)義SLAM算法[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(10): 2945-2951.
(責(zé)任編輯:周曉南)
Study on Visual SLAM Based on Deep Learning
in Dynamic Environment
ZHANG Qingyong*1,2, YANG Xudong1,2
(1.School of Mechanical and Automotive Engineering, Fujian University of Technology, Fuzhou 305118, China;
2.Fujian Automotive Electronics and Electric Drive Laboratory, Fuzhou 305118, China)
Abstract:
Due to the strong static rigid assumption in the traditional simultaneous localization and mapping (SLAM), the system positioning accuracy and robustness are easily disturbed by dynamic objects in the environment. In view of this phenomenon, a visual SLAM algorithm based on deep learning in an indoor environment is proposed. Improving ORB-SLAM2, this research adds multi-view geometry to the front end of SLAM, integrates it with the YOLOv5s target detection algorithm, and finally performs frame-to-frame matching on the processed static feature points. The experiment uses the TUM data set for testing, and it is found that after combining multi-view geometry, target detection and SLAM algorithm, the absolute pose estimation accuracy of the system is significantly improved compared with ORB-SLAM2 in a highly dynamic environment. Compared with the positioning accuracy of other SLAM algorithms, this method also has different degrees of improvement.
Key words:
multi-view geometry; object detection; SLAM; dynamic environment