国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SLAM算法和深度神經(jīng)網(wǎng)絡(luò)的語義地圖構(gòu)建研究

2018-02-27 03:06:38
計算機應(yīng)用與軟件 2018年1期
關(guān)鍵詞:關(guān)鍵幀語義物體

白 云 漢

(復(fù)旦大學(xué)計算機科學(xué)與技術(shù)學(xué)院 上海 200433)

0 引 言

在機器人學(xué)的領(lǐng)域,一個重要的問題是如何使得機器人獲得自身與環(huán)境的信息,因為只有機器人對自身和環(huán)境正確的建模后,機器人才可能完成其他任務(wù),如導(dǎo)航等。為了解決這個問題,首先要使得機器人具備感知環(huán)境的能力。在實際研究中,機器人常常配備有相機、GPS設(shè)備、激光、聲納等傳感器。這些傳感器為機器人提供了原始的數(shù)據(jù),但是還無法為機器人提供更加結(jié)構(gòu)化和有意義的信息。

機器人自動定位和制圖(SLAM)所要解決的是如何利用傳感器的原始信息來對機器人的位置與其所處環(huán)境的地圖信息進行同時估計的問題。SLAM算法的輸入是連續(xù)的傳感器信息,如視覺SLAM中,輸入信息是配備相機的機器人在環(huán)境中連續(xù)采集到的圖像幀序列。輸出是機器人當(dāng)前的位置以及機器人所處環(huán)境的地圖點位置。但是在主流的SLAM算法中,機器人的位置以及地圖點信息只是空間中密集或稀疏的幾何點。通過對這些空間點的位置估計能夠為我們提供相對精確的位置信息,但是無法提供更高層次的語義信息。機器人可以利用SLAM算法精確估計自己的位置,但是無法對空間中存在的物體進行識別和建模,這將導(dǎo)致在后續(xù)的任務(wù)中,機器人無法利用環(huán)境中豐富的語義信息。

目前深度學(xué)習(xí)方面的進展為解決這個問題提供了一個方向。深度神經(jīng)網(wǎng)絡(luò)強大的特征學(xué)習(xí)能力使得圖像識別,目標(biāo)檢測領(lǐng)域取得了顯著的進展,在圖像識別數(shù)據(jù)集ImageNet[1]的比賽中,基于CNN[2]的深度學(xué)習(xí)模型已經(jīng)取得了超過人類的成績[3],在目標(biāo)檢測方面以RCNN[4]為代表的深度學(xué)習(xí)方法使得目標(biāo)檢測的準(zhǔn)確性大幅度提升。視覺SLAM算法處理的圖像序列常常包含了各類物體,結(jié)合深度神經(jīng)網(wǎng)絡(luò)的語義識別優(yōu)勢與SLAM算法提供的位置信息能夠獲得有關(guān)機器人自身和環(huán)境更加豐富的信息。

本文結(jié)合了基于單目視覺的SLAM系統(tǒng)和基于回歸預(yù)測的深度卷積神經(jīng)網(wǎng)絡(luò),設(shè)計并實現(xiàn)算法實現(xiàn)對語義地圖的構(gòu)建,將位置信息和語義信息融合。利用本文的算法,能夠幫助機器人實現(xiàn)更為智能的導(dǎo)航任務(wù)。同時利用本文的算法機器人能夠收集到有關(guān)物體的更加豐富的數(shù)據(jù),這將進一步促進深度神經(jīng)網(wǎng)絡(luò)的性能提升。

1 相關(guān)工作

SLAM算法是語義地圖構(gòu)建的基礎(chǔ)。目前基于視覺的SLAM算法大致分為兩個取向。一種是稀疏SLAM。稀疏SLAM算法通過對視覺信息進行點特征提取,對提取的點特征進行匹配,從而實現(xiàn)對機器人位置的估計,同時構(gòu)建環(huán)境中的稀疏地圖點。稀疏SLAM的算法又可以大致分為基于濾波的方法,如MONOSLAM[6]等。基于圖優(yōu)化的SLAM算法,如PTAM[7]、OKVIS[8]等。另外一個SLAM算法的研究取向是稠密SLAM。稠密SLAM算法不對圖像進行點特征提取,而是直接利用圖像的梯度信息對機器人相機位置進行估計。稠密SLAM節(jié)約了特征提取過程的時間,并且利用了圖像的所有像素信息,方便建立空間的稠密地圖,實現(xiàn)對空間的3D重構(gòu),但是由于要使用所有的像素信息,計算量常常過大,需要利用GPU并行加速。

以稀疏SLAM[9]為例子,SLAM算法可以分為前端和后端兩部分。前端部分主要負(fù)責(zé)數(shù)據(jù)關(guān)聯(lián)問題,后端部分負(fù)責(zé)對位置信息進行優(yōu)化估計。本文采用了基于ORB特征的ORBSLAM算法,前端部分在圖像提取ORB特征,與地圖中的3D地圖點進行匹配,后端部分利用匹配的結(jié)果構(gòu)建一個因子圖,在因子圖上進行優(yōu)化計算。具體流程如圖1所示。

圖1 SLAM算法的總體流程

語義地圖的構(gòu)建在SLAM算法之上,但是不同于SLAM算法,語義地圖的構(gòu)建需要對人類的概念如場景、物體、形狀等進行抽象。語義地圖構(gòu)建的需求來自于機器人導(dǎo)航的需要,Kuipers[10]最早提出建立語義地圖,他提出對空間知識進行建模的概念。隨著近些年來SLAM算法越來越精確,將高精度的SLAM算法和語義地圖結(jié)合成為研究的熱點。Nielsen等[11]將基于SLAM的語義地圖構(gòu)建看作是機器人和人類交互的界面。他提出將機器人的單幀圖像信息與機器人的位置信息合并存儲,將其作為幾何地圖的補充。

Galindo等[12]將地圖分為空間地圖和概念地圖,并采用分層的方式組織地圖,并對空間地圖節(jié)點和概念地圖節(jié)點采用錨定,方便機器人根據(jù)語義信息進行導(dǎo)航。Civera等[13]利用單目視覺SLAM算法建立起空間的柵格地圖,在另外一個線程中實現(xiàn)物體識別算法,將識別結(jié)果作為地圖數(shù)據(jù)庫存儲Liu等[14]則是使用2D的激光掃描建立起空間occupancy 柵格地圖,然后在此基礎(chǔ)上建立起語義地圖。斯坦福大學(xué)的Carl等[15]將SLAM地圖與地圖中的文字標(biāo)簽信息(如辦公室門牌)結(jié)合,實現(xiàn)了機器人根據(jù)語義指示導(dǎo)航的功能。Rituerto等[16]通過使用catadioptric視覺系統(tǒng),實現(xiàn)了對拓?fù)涞貓D進行語義標(biāo)注。Fasola等[17]的系統(tǒng)使用語義信息編碼空間位置的相對關(guān)系,可以使得人類用自然語言和機器進行交互。

目前基于深度神經(jīng)網(wǎng)絡(luò)的視覺目標(biāo)檢測算法取得了巨大的突破,為我們構(gòu)建語義地圖提供了直接而準(zhǔn)確的語義信息。本文將利用單目SLAM算法和目標(biāo)檢測算法,設(shè)計并實現(xiàn)語義地圖構(gòu)建算法,對地圖點進行語義關(guān)聯(lián),實現(xiàn)構(gòu)建高精度語義地圖。

2 SLAM算法與目標(biāo)檢測算法

2.1 基于ORB-SLAM的SLAM算法

ORB-SLAM[18]是目前基于關(guān)鍵幀的稀疏SLAM算法中性能較為出色的一個算法框架,ORB-SLAM將SLAM算法分為跟蹤、本地制圖、回環(huán)修正三個線程。跟蹤模塊主要解決的是SLAM算法前端中的連續(xù)圖像幀的數(shù)據(jù)關(guān)聯(lián)問題,并且會對當(dāng)前幀的位置進行優(yōu)化估計。本地制圖模塊要解決的是地圖點的創(chuàng)建與更新,回環(huán)檢測的目標(biāo)是消除SLAM算法中累計的誤差。相比于其他基于關(guān)鍵幀的稀疏SLAM算法,ORBSLAM主要有這幾個優(yōu)勢:

1) 采用ORB[19]特征作為視覺特征,具有提取速度快,視角光照不變性好的特點。

2) 采用DBow2[20]詞帶模型用于快速重定位和回環(huán)檢測,提高了系統(tǒng)的魯棒性。

3) 提出了共視圖和本征圖的概念,簡化了地圖構(gòu)建中地圖點和關(guān)鍵幀之間關(guān)聯(lián)。

4) 在關(guān)鍵幀的選擇機制,地圖點的創(chuàng)建機制以及本地窗口的大小設(shè)定上更加合理,帶來了性能上的提升。

在本文中,采用了ORBSLAM作為我們的SLAM算法,并且修改地圖點及關(guān)鍵幀的數(shù)據(jù)結(jié)構(gòu)方便結(jié)合語義地圖。

2.2 目標(biāo)檢測算法

傳統(tǒng)的目標(biāo)檢測算法常常分為三個部分。

1) 選擇檢測的窗口。這一步對圖像進行多位置和多尺度的窗口提取, 采用Selective Search[21]等提取方法,并且基于顏色聚類、邊緣聚類把無關(guān)區(qū)域去除。

2) 提取視覺特征。特征提取指的是在區(qū)域內(nèi)提取視覺特征,常用的特征有SIFT[22]、HOG[23]等。

3) 分類器分類。分類器分類指的是利用提取中的特征,使用機器學(xué)習(xí)模型對所得特征所屬種類進行分類。常用的分類器有SVM、隨機森林、神經(jīng)網(wǎng)絡(luò)等。

傳統(tǒng)的方法將檢測分為這三個部分,本身不是一個端到端的算法,這將導(dǎo)致各個部分之間無法很好的學(xué)習(xí)和優(yōu)化。并且在特征提取方面,傳統(tǒng)方法提取的特征在分類任務(wù)中無法和基于深度卷積神經(jīng)網(wǎng)絡(luò)提取出的特征的性能相比。

在語義地圖構(gòu)建中,需要目標(biāo)檢測算法為我們提供原始的語義信息,并且因為SLAM算法的實時性,對算法的運行速度有著較高的要求。我們參照了基于深度神經(jīng)網(wǎng)絡(luò)的YOLO[24]設(shè)計我們的網(wǎng)絡(luò),將輸出層物體種類設(shè)為室內(nèi)常見的20類物體,具體內(nèi)容見實驗部分。

YOLO將物體檢測作為一個回歸問題求解,基于單一的端到端網(wǎng)絡(luò),完成對物體位置以及物體類別的同時預(yù)測。YOLO與RCNN[29]、Fast RCNN[28]、Faster RCNN[27]不同之處在于它不需要顯性地提取region proposal,這使得端到端學(xué)習(xí)成為了可能。

YOLO借鑒了GoogleNet[25]的分類網(wǎng)絡(luò)結(jié)構(gòu),不同的是YOLO未使用inception module,而是用了1×1的卷積層加上3×3的卷積層簡單代替。YOLO將輸出圖像分為S×S個格子,每個格子負(fù)責(zé)檢測落入該格子的物體,若某個物體的中心位置坐標(biāo)落在某個格子中,那么這個格子就負(fù)責(zé)檢測該物體。每個格子負(fù)責(zé)輸出B個bounding box信息,以及C個物體屬于某種類別的概率信息。每個bounding box有5個數(shù)值,分別代表當(dāng)前格子預(yù)測得到的bounding box的中心坐標(biāo),寬度和高度,以及當(dāng)前bounding box包含物體的置信度。因此最后全連接層輸出的維度為(S×S)×(B×5+C)。

在本文的網(wǎng)絡(luò)中,我們的分類種類C=5,并設(shè)置B=2,S=13。本文網(wǎng)絡(luò)的損失函數(shù)由三部分構(gòu)成,分別為預(yù)測數(shù)據(jù)與標(biāo)定數(shù)據(jù)之間的坐標(biāo)誤差、IOU誤差和分類誤差:

(1)

具體的損失函數(shù)如下:

(2)

在式(2)中,第1、2行代表是對坐標(biāo)預(yù)測的懲罰。在本文網(wǎng)絡(luò)中,對坐標(biāo)預(yù)測的懲罰加了一個參數(shù)λcoord進行增強。這是因為如果不加這個參數(shù),那么在損失函數(shù)中,預(yù)測位置的重要性就和預(yù)測是否包含物體的重要性相等,這不符合最大化平均精度的想法。同時在3、4行計算IOU誤差的時候,包含物體的格子和不包含物體的格子兩者的IOU誤差對Loss的貢獻應(yīng)該是不同的。若采用相同的權(quán)值,那么不包含物體的格子的confidence近似為0,變相地放大了包含物體的格子的confidence誤差在計算梯度時的影響。因此將不包含物體的格子的IOU誤差加上參數(shù)λnoobj進行削弱。最后一行為分類的懲罰。我們將λcoord設(shè)為5.0,而將λnoobj設(shè)為0.5。

3 語義地圖構(gòu)建

在SLAM算法中,圖像特征與地圖點直接對應(yīng)。而本文的目標(biāo)檢測算法檢測出的目標(biāo)框內(nèi)有圖像特征,因此可以將存儲的地圖點與目標(biāo)物體對應(yīng)。如圖2所示,每個地圖點與一個目標(biāo)物體對應(yīng),而每個關(guān)鍵幀通過地圖點間接地和一個或多個目標(biāo)相連接。由此建立圖像數(shù)據(jù)和目標(biāo)物體之間的連接關(guān)系。

圖2 關(guān)鍵幀、空間地圖點和語義信息的關(guān)系圖

語義地圖構(gòu)建算法流程如圖3所示。

圖3 語義地圖構(gòu)建算法流程圖

首先,SLAM算法前端追蹤模塊決定是否將當(dāng)前圖像幀當(dāng)做關(guān)鍵幀,關(guān)鍵幀選擇規(guī)則如下:

1) 至少離上一次重定位距離20幀。

2) 本地制圖模塊空閑或離上一次關(guān)鍵幀插入相差已有20幀。

3) 當(dāng)前幀中至少有50個特征點。

其次,當(dāng)前幀被選擇為關(guān)鍵幀之后,關(guān)鍵幀將被兩部分算法同時處理:第一部分是目標(biāo)檢測算法, 第二部分是SLAM后端圖優(yōu)化算法。在進行語義地圖模塊之前,需要等待SLAM后端圖優(yōu)化優(yōu)化模塊完成,因為后端圖優(yōu)化模塊將可能產(chǎn)生新地圖點。SLAM的后端圖優(yōu)化模塊主要包括兩部分:

1) 當(dāng)前關(guān)鍵幀位置與本地地圖點的優(yōu)化更新。

2) 通過三角法創(chuàng)建新的空間地圖點。

最后啟動語義地圖管理模塊。語義地圖管理模塊將進行兩方面的工作:

一是對地圖中不可用點進行區(qū)分和標(biāo)記。例如將檢測為people、cat、dog、bicycle、toy這幾個類別目標(biāo)框中的特征點標(biāo)記為不可用。這是由于這些類別的物體常常發(fā)生移動,因此不應(yīng)該將其上面的點作為地圖點。

二是建立地圖點和語義信息的聯(lián)系。 通過查找目標(biāo)物體框中的特征點對應(yīng)的地圖點所連接的語義信息。

1) 若所有地圖點均無語義信息說明這是第一次檢測出該目標(biāo),將結(jié)果暫存在緩存中。當(dāng)連續(xù)5幀檢測出相同目標(biāo)則將所有緩存地圖點與當(dāng)前目標(biāo)檢測結(jié)果對應(yīng)。

2) 若已經(jīng)有語義信息,說明當(dāng)前目標(biāo)物體已經(jīng)存在于語義地圖中,此時更新目標(biāo)框內(nèi)所有地圖點語義信息為當(dāng)前目標(biāo)。

4 實 驗

4.1 目標(biāo)檢測網(wǎng)絡(luò)訓(xùn)練

為了防止無關(guān)語義信息對地圖構(gòu)建的干擾,本文對YOLO v2網(wǎng)絡(luò)結(jié)構(gòu)進行調(diào)整。以COCO[26]和PASCAL[5]數(shù)據(jù)集為基礎(chǔ),篩選出室內(nèi)場景中常見的20類物體。再對這些圖片數(shù)據(jù)做隨機拉伸剪切等數(shù)據(jù)增廣處理,最后得到20 000張圖像,物體種類見表1。

表1 選取的20類物體的具體類別

在訓(xùn)練目標(biāo)檢測網(wǎng)絡(luò)之前首先設(shè)置該深度神經(jīng)網(wǎng)絡(luò)的超參數(shù)??紤]到Y(jié)OLO v2的網(wǎng)絡(luò)特性,實驗通過反復(fù)對比不同參數(shù)下的檢測精度,在原始超參數(shù)的基礎(chǔ)上進行調(diào)整,最終得到的超參數(shù)如表2所示。

表2 深度神經(jīng)網(wǎng)絡(luò)的超參數(shù)設(shè)置

在Ubuntu 14.04的系統(tǒng)環(huán)境下訓(xùn)練和測試,處理器型號為Intel i7-5960X, 內(nèi)存為64 GB。為了得到更高的訓(xùn)練和測試速度,本文使用兩張GTX 1080顯卡加速訓(xùn)練。共訓(xùn)練45 000個batch。

4.1.1 目標(biāo)檢測精度分析

采用留出法,將訓(xùn)練數(shù)據(jù)的10%留出作為測試數(shù)據(jù)。為了衡量算法的精確程度,本文與Faster RCNN[27]、YOLOv2[24]做對比。Faster RCNN采用基于tensorflow實現(xiàn)的版本,YOLOv2采用作者提供的原始版本。實驗結(jié)果如表3所示。

表3 目標(biāo)檢測精度對比實驗結(jié)果

續(xù)表3

AP即平均精確度(Average precision),是目標(biāo)檢測算法中衡量精度的指標(biāo)。每個類別根據(jù)精度(Precision)和召回率(Recall)得到ROC(Receiver Operating Characteristic)曲線,AP即是這條曲線之下的面積,mAP是所有類別的平均AP。

可以看到通過利用室內(nèi)場景的圖片對網(wǎng)絡(luò)進行微調(diào),本文的網(wǎng)絡(luò)目標(biāo)檢測精確程度相比于YOLOv2和Faster RCNN有了明顯的提高。

4.1.2 目標(biāo)檢測速度分析

為了達到實時構(gòu)建語意地圖的要求,要平衡目標(biāo)檢測的處理時間和處理精度。為了衡量本文算法的運行時間效率,本文在數(shù)據(jù)集上測試目標(biāo)檢測算法的運行效率,以處理幀率作為衡量標(biāo)準(zhǔn),并與高精度的Fast RCNN[28]、Faster RCNN等檢測算法,以及實時的100 Hz DPM、30Hz DPM檢測算法進行對比。實驗的平臺為Ubuntu 14.04的系統(tǒng)環(huán)境,處理器型號為Intel i7-5960X, 內(nèi)存為64 GB,顯卡型號為GTX 1080。實驗結(jié)果如表4所示。

表4 目標(biāo)檢測速度對比實驗結(jié)果

可以看到Faster RCNN與Fast RCNN的幀率遠遠低于本文的目標(biāo)檢測算法,無法達到實時的要求。而DPM算法雖然運行FPS指標(biāo)與本文接近,但算法精度較差。

通過實驗可以看出本文的算法在精度和時間效率上取得了較好的平衡,在實時運行的基礎(chǔ)之上能夠達到很好的mAP。

4.2 語義地圖構(gòu)建

由于目標(biāo)檢測算法在沒有GPU加速的情況下耗時較長,而移動機器人上目前還很難搭載高性能的GPU,因此本文將目標(biāo)檢測算法放到服務(wù)器端進行。服務(wù)器端和移動機器人端之間采用C++編寫的基于gPRC的RPC框架進行通信,服務(wù)端的目標(biāo)檢測算法使用C語言編寫的darknet作為框架,并搭載了GTX1080顯卡加速運算,每幅圖像的處理時間平均約0.04 s。得到關(guān)鍵幀的目標(biāo)檢測結(jié)果之后,我們將結(jié)果通過gRPC傳到移動機器人的語義地圖管理模塊中。

在SLAM系統(tǒng)中地圖點與圖像關(guān)鍵幀有著關(guān)聯(lián)關(guān)系,每個地圖點可以從多個角度觀察到,因此將地圖點和多個關(guān)鍵幀進行關(guān)聯(lián),而一個地圖點理論上只能存在于一個物體之上。最終得到的地圖點提取結(jié)果如圖4所示。

圖4 地圖點提取示意圖

本文在室內(nèi)場景下測試語義地圖構(gòu)建系統(tǒng),軟件的運行效果如圖5所示。

圖5 軟件運行效果圖

軟件的前端部分展示了SLAM算法的定位效果,并且同時目標(biāo)檢測的結(jié)果也在圖像中顯示。語義管理模塊對原始關(guān)鍵幀圖片進行保存。在系統(tǒng)關(guān)閉時該模塊將所有關(guān)鍵幀圖片、對應(yīng)的地圖點、語義地圖信息,以及目標(biāo)物體在關(guān)鍵幀中的位置信息以Protocol Buffer的格式存儲。其中圖片數(shù)據(jù)以圖片路徑的形式保存在Protocol Buffer格式的數(shù)據(jù)里。通過將目標(biāo)檢測算法放到云端服務(wù)器中運行,語義地圖構(gòu)建能夠?qū)崟r地在機器人上運行。

5 語義地圖的應(yīng)用

本文的語義地圖構(gòu)建結(jié)果主要可以應(yīng)用于兩個方面。

第一,智能導(dǎo)航。機器人的導(dǎo)航需要機器人知道當(dāng)前位置和目標(biāo)位置,而在人類與機器人交互的過程中,人類常常無法提供給機器人目標(biāo)在空間坐標(biāo)系下的準(zhǔn)確位置。語義地圖提供了一種新的人機交互方式,人們可以以語義的形式給機器人提供指令,機器人將查詢其語義地圖,得到與語義地圖相關(guān)聯(lián)的地圖點信息。而地圖點包含了坐標(biāo)信息,機器人根據(jù)SLAM模塊得到的自身位置信息以及地圖點的坐標(biāo)信息,選擇合適的路徑規(guī)劃算法。

第二,數(shù)據(jù)采集。傳統(tǒng)的圖像識別圖像分割數(shù)據(jù)集,如ImageNet等,包含了數(shù)以百萬計的圖片。然而觀察這些圖片將會發(fā)現(xiàn)這些圖片大部分是從正面拍攝的物體的照片,這是由于這些數(shù)據(jù)集圖片的來源多是攝影作品。另外一個問題是這些圖片中沒有包括圖像采集者與目標(biāo)物體之間的相對位置信息。通過本文的算法構(gòu)建的語義地圖很好地彌補了這個問題。利用我們的語義地圖構(gòu)建算法,將得到關(guān)于一個目標(biāo)物體在各個角度各個距離上的圖像。同時,這些圖像中的目標(biāo)物體都是有標(biāo)注的,這是因為我們的語義信息與SLAM中的地圖點是對應(yīng)的,我們可以將地圖點投影到圖像幀中,獲得目標(biāo)物體在圖像幀中的位置信息。這將大大增加我們可以得到的有標(biāo)注數(shù)據(jù)的數(shù)量,并且所得數(shù)據(jù)分布在更多角度和尺度之上,這將對訓(xùn)練更深更復(fù)雜的深度學(xué)習(xí)模型提供數(shù)據(jù)上的支持。

6 結(jié) 語

本文的主要工作是通過利用高精度的單目SLAM算法,結(jié)合基于深度神經(jīng)網(wǎng)絡(luò)的快速目標(biāo)檢測算法,對機器人所處的空間構(gòu)建語義地圖。本文的算法將SLAM算法提供的精確的幾何信息和深度神經(jīng)網(wǎng)絡(luò)提供的豐富的語義信息有效地結(jié)合起來,建立語義信息和空間地圖點之間的映射關(guān)系,并且利用深度神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果糾正SLAM算法中可能存在的錯誤。本文實現(xiàn)的算法將需要GPU加速的部分放到服務(wù)器端,通過高效的RPC框架進行實時通信。最終得到的語義地圖能夠應(yīng)用于機器人的智能導(dǎo)航系統(tǒng),也可以應(yīng)用于數(shù)據(jù)采集。

本文的算法將SLAM的地圖點與語義信息之間建立起聯(lián)系,把精確的地圖點和語義信息之間建立映射。

未來的研究方向有:

1) 如何有效解決遮擋問題。當(dāng)物體被另一物體遮擋時,目標(biāo)檢測算法檢測出的目標(biāo)框?qū)l(fā)生重合,這時候需要有效消除重合的影響。

2) 根據(jù)探索情況更新原有地圖。當(dāng)機器人發(fā)現(xiàn)原來某地的物體消失,應(yīng)能及時更新地圖。

[1] Deng J,Dong W,Socher R,et al.ImageNet:A large-scale hierarchical image database[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:248-255.

[2] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems,2012.2012:1097-1105.

[3] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.2016:770-778.

[4] Girshick R,Donahue J,Darrell T,et al.Region-based convolutional networks for accurate object detection and segmentation[J].IEEE transactions on pattern analysis and machine intelligence,2016,38(1):142-158.

[5] Everingham M,Van Gool L,Williams C K,et al.The pascal visual object classes (voc) challenge[J].International journal of computer vision,2010,88(2):303-338.

[6] Davison A J,Reid I D,Molton N D,et al.MonoSLAM:real-time single camera SLAM[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2007,29(6):1052-1067.

[7] Klein G,Murray D.Parallel Tracking and Mapping for Small AR Workspaces[C]//IEEE and ACM International Symposium on Mixed and Augmented Reality.IEEE Computer Society,2007:1-10.

[8] Leutenegger S,Furgale P,Rabaud V,et al.Keyframe-Based Visual-Inertial SLAM using Nonlinear Optimization[C]//Robotics:Science and Systems,2013.2013:789-795.

[9] Cadena C,Carlone L,Carrillo H,et al.Past,present,and future of simultaneous localization and mapping:Toward the robust-perception age[J].IEEE Transactions on Robotics,2016,32(6):1309-1332.

[10] Kuipers B.Modeling spatial knowledge[J].Cognitive science,1978,2(2):129-153.

[11] Nielsen C W,Ricks B,Goodrich M A,et al.Snapshots for semantic maps[C]//Systems,Man and Cybernetics,2004 IEEE International Conference on,2004.IEEE,2004:2853-2858.

[12] Galindo C,Saffiotti A,Coradeschi S,et al.Multi-hierarchical semantic maps for mobile robotics[C]//Intelligent Robots and Systems,2005.(IROS 2005).2005 IEEE/RSJ International Conference on,2005.IEEE,2005:2278-2283.

[13] Civera J,Gálvez-López D,Riazuelo L,et al.Towards semantic SLAM using a monocular camera[C]//Intelligent Robots and Systems (IROS),2011 IEEE/RSJ International Conference on,2011.IEEE,2011:1277-1284.

[14] Liu Z,von Wichert G.Extracting semantic indoor maps from occupancy grids[J].Robotics and Autonomous Systems,2014,62(5):663-674.

[15] Case C,Suresh B,Coates A,et al.Autonomous sign reading for semantic mapping[C]//Robotics and Automation (ICRA),2011 IEEE International Conference on,2011.IEEE,2011:3297-3303.

[16] Rituerto A,Murillo A C,Guerrero J J.Semantic labeling for indoor topological mapping using a wearable catadioptric system[J].Robotics and Autonomous Systems,2014,62(5):685-695.

[17] Fasola J,Mataric M J.Using semantic fields to model dynamic spatial relations in a robot architecture for natural language instruction of service robots[C]//Intelligent Robots and Systems (IROS),2013 IEEE/RSJ International Conference on,2013.IEEE,2013:143-150.

[18] Mur-Artal R,Montiel J M M,Tardos J D.ORB-SLAM:a versatile and accurate monocular SLAM system[J].IEEE Transactions on Robotics,2015,31(5):1147-1163.

[19] Rublee E,Rabaud V,Konolige K,et al.ORB:An efficient alternative to SIFT or SURF[C]//Computer Vision (ICCV),2011 IEEE International Conference on,2011.IEEE,2011:2564-2571.

[20] Gálvez-López D,Tardos J D.Bags of binary words for fast place recognition in image sequences[J].IEEE Transactions on Robotics,2012,28(5):1188-1197.

[21] Uijlings J R,Van De Sande K E,Gevers T,et al.Selective search for object recognition[J].International journal of computer vision,2013,104(2):154-171.

[22] Lowe D G.Distinctive image features from scale-invariant keypoints[J].International journal of computer vision,2004,60(2):91-110.

[23] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on,2005.IEEE,2005:886-893.

[24] Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.2016:779-788.

[25] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.2015:1-9.

[26] Lin T,Maire M,Belongie S,et al.Microsoft coco:Common objects in context[C]//European Conference on Computer Vision,2014.Springer,2014:740-755.

[27] Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems,2015.2015:91-99.

[28] Girshick R.Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision,2015.2015:1440-1448.

[29] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2014.2014:580-587.

猜你喜歡
關(guān)鍵幀語義物體
語言與語義
深刻理解物體的平衡
我們是怎樣看到物體的
基于改進關(guān)鍵幀選擇的RGB-D SLAM算法
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
基于聚散熵及運動目標(biāo)檢測的監(jiān)控視頻關(guān)鍵幀提取
為什么同一物體在世界各地重量不一樣?
認(rèn)知范疇模糊與語義模糊
論“關(guān)鍵幀”在動畫制作中的作用
葵青区| 海阳市| 黔江区| 定襄县| 灌云县| 武城县| 洪江市| 永平县| 汝阳县| 彭阳县| 宝坻区| 修武县| 万全县| 界首市| 高要市| 电白县| 民权县| 南宁市| 涞水县| 临夏市| 云阳县| 肇庆市| 双鸭山市| 武陟县| 龙江县| 凯里市| 潼南县| 蒙城县| 开鲁县| 汉中市| 辉南县| 新源县| 正阳县| 白河县| 兴城市| 和田市| 繁昌县| 澄迈县| 师宗县| 安宁市| 南溪县|