国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的無人駕駛視覺識別

2020-09-02 06:46李嘉寧劉楊胡馨月劉建恬陳宗文
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)無人駕駛深度學(xué)習(xí)

李嘉寧 劉楊 胡馨月 劉建恬 陳宗文

摘 ? 要: 大數(shù)據(jù)技術(shù)的發(fā)展,以及基于圖像處理單元(GPU)并行計(jì)算能力的提升,共同促進(jìn)了深度學(xué)習(xí)算法在無人駕駛視覺識別等領(lǐng)域的應(yīng)用。在Ubuntu 16.04操作系統(tǒng)上,搭建Python實(shí)驗(yàn)環(huán)境,開展基于卷積神經(jīng)網(wǎng)絡(luò)——Mask R-CNN的無人駕駛視覺識別實(shí)驗(yàn)。使用VIA 3.0工具,實(shí)現(xiàn)圖像與視頻的標(biāo)注與分類;采用GTX 1080Ti GPU、cuDNN顯卡加速包等軟硬件,實(shí)現(xiàn)模型訓(xùn)練和測試;引入混淆矩陣和平均精度等指標(biāo)對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行性能評估。結(jié)果表明:視覺識別效果較好、可靠性較強(qiáng),展現(xiàn)了深度學(xué)習(xí)技術(shù)在該領(lǐng)域具有很高的應(yīng)用價(jià)值。

關(guān)鍵詞: 深度學(xué)習(xí);無人駕駛;卷積神經(jīng)網(wǎng)絡(luò);視覺識別;性能評估

中圖分類號:TP2 ? ?文獻(xiàn)標(biāo)識碼:A ? ?文章編號:2095-8412 (2020) 04-054-04

工業(yè)技術(shù)創(chuàng)新 URL: http://gyjs.cbpt.cnki.net ? ?DOI: 10.14103/j.issn.2095-8412.2020.04.010

引言

近年來,深度學(xué)習(xí)技術(shù)促進(jìn)了人工智能在學(xué)術(shù)界和工業(yè)界的推廣應(yīng)用。深度學(xué)習(xí)算法起源于人工神經(jīng)網(wǎng)絡(luò),為多層神經(jīng)網(wǎng)絡(luò)在各個(gè)大規(guī)模計(jì)算領(lǐng)域中的應(yīng)用提供了一種有效的途徑。大數(shù)據(jù)技術(shù)的發(fā)展,以及基于圖像處理單元(GPU)的并行計(jì)算能力的提升[1],正在同步促進(jìn)深度學(xué)習(xí)算法的深度應(yīng)用,如無人駕駛智能系統(tǒng)的研究。

道路環(huán)境智能感知是無人駕駛技術(shù)的重要組成部份,主要依賴于高分辨率攝像頭、超聲波雷達(dá)、激光雷達(dá)、GPS定位儀等設(shè)備及時(shí)、準(zhǔn)確獲取的路標(biāo)、坑洼、路障、行人等行車環(huán)境信息。傳統(tǒng)視覺識別算法魯棒性差,泛化能力弱,一般而言檢測精度最多達(dá)到93%(人類約能達(dá)到95%),無法達(dá)到無人駕駛所的預(yù)期標(biāo)準(zhǔn)[2]。理論與實(shí)踐表明,深度學(xué)習(xí)算法具備對復(fù)雜環(huán)境進(jìn)行感知的強(qiáng)大能力,且檢測精度可達(dá)到95%以上。

本文首先介紹基于深度學(xué)習(xí)的圖像處理理論;其次借助一種得以改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)——Mask R-CNN,進(jìn)行無人駕駛視覺識別實(shí)驗(yàn);最后對實(shí)驗(yàn)結(jié)果進(jìn)行分析和評價(jià)。

1 ?基于深度學(xué)習(xí)的圖像處理理論

1.1 ?卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基本結(jié)構(gòu)包括輸入層、卷積層 、池化層 、全連接層及輸出層。

卷積層和池化層一般有若干個(gè),二者通常交替設(shè)置,即一個(gè)卷積層連接一個(gè)池化層,這個(gè)池化層后再連接一個(gè)卷積層,依此類推。卷積層由多個(gè)特征圖(Feather Map)組成,每個(gè)特征圖由多個(gè)神經(jīng)元組成。卷積層的作用是借助卷積操作提取圖像特征。卷積層數(shù)越多,其提取的特征層次越高。由于卷積層中輸出特征面的每個(gè)神經(jīng)元的輸入值是通過與其輸入進(jìn)行局部連接,對應(yīng)的連接權(quán)值與局部輸入進(jìn)行加權(quán)求和,再與偏置值相加而得到的,而該過程等同于卷積過程,因此這一算法稱作卷積神經(jīng)網(wǎng)絡(luò)。

池化層同樣由特征圖組成,旨在通過降低特征面的分辨率來獲得具有空間不變性的特征,有二次提取圖像特征的作用。

全連接層可以整合卷積層或者池化層中具有類別區(qū)分性的局部信息,其后連接的輸出層用于邏輯分類[3]。

1.2 ?Mask R-CNN

Mask R-CNN是一種卷積神經(jīng)網(wǎng)絡(luò),其模型示意如圖1所示。Mask R-CNN脫身于Fast R-CNN,并進(jìn)行了諸多改進(jìn)。

1.2.1 ?特征提取

Mask R-CNN通過ResNeXt提取特征,并通過特征金字塔網(wǎng)絡(luò)(FPN)構(gòu)成骨干網(wǎng)絡(luò)。經(jīng)過第一階段的特征提取,給出固定大小的感興趣區(qū)域(RoI)[4]。

1.2.2 ?檢測與實(shí)例分割

在感興趣區(qū)域上,Mask R-CNN一方面進(jìn)行二值分類給出候選框,另一方面結(jié)合后續(xù)介紹的RoI Aligh操作,將隨后的一個(gè)網(wǎng)絡(luò)分支用于分類和回歸,另一個(gè)網(wǎng)絡(luò)分支用于分割生成掩膜(mask)。

1.2.3 ?RoI Aligh

RoI Aligh是一種用于增加檢測精度的技術(shù)手段,用于RoI的給出階段。在之前的檢測算法中,RoI的提取會(huì)因?yàn)樘卣鲌D大小和檢測圖像大小不匹配的原因,進(jìn)行像素點(diǎn)取整操作,進(jìn)而出現(xiàn)細(xì)微的位置偏差。而RoI Aligh利用雙向線性差值的原理,將像素點(diǎn)定位規(guī)范到浮點(diǎn)小數(shù)級別,將位置偏差降到最低。

1.2.4 ?損失函數(shù)

Mask R-CNN采用多任務(wù)的損失函數(shù),在一定程度上加快了卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率。

綜上,Mask R-CNN是一種可以同時(shí)進(jìn)行目標(biāo)識別和物體實(shí)例分割的卷積神經(jīng)網(wǎng)絡(luò)[5],可以有效地作為無人駕駛的視覺感知模型。

2 ?基于Mask R-CNN的無人駕駛視覺識別實(shí)驗(yàn)

2.1 ?數(shù)據(jù)集處理

2.1.1 ?圖像與視頻的標(biāo)注與分類

VGG Image Annotator(VIA)可用于圖像與視頻目標(biāo)的人工標(biāo)注與分類[6]。本文采用VIA 3.0。標(biāo)注完成后,可為數(shù)據(jù)集生成相應(yīng)格式的標(biāo)注信息文件(.csv/.json),以解決深度學(xué)習(xí)任務(wù)的數(shù)據(jù)集標(biāo)注問題。

2.1.2 ?數(shù)據(jù)集制作過程

使用長春市中心360行車記錄儀記載的視頻,作為數(shù)據(jù)集的數(shù)據(jù)來源,并用VIA工具進(jìn)行標(biāo)注。數(shù)據(jù)集制作流程如圖2所示。

實(shí)際操作的數(shù)據(jù)集標(biāo)注界面如圖3所示。

2.2 ?實(shí)驗(yàn)調(diào)試

2.2.1 ?實(shí)驗(yàn)配置

本實(shí)驗(yàn)在Ubuntu 16.04操作系統(tǒng)進(jìn)行,實(shí)驗(yàn)環(huán)境為Python 3.5.2,實(shí)驗(yàn)工具為GTX 1080Ti GPU。

2.2.2 ?實(shí)驗(yàn)調(diào)試

(1)環(huán)境的搭建

首先,在Python官方網(wǎng)站下載Python 3.5.2版本,并在系統(tǒng)環(huán)境變量的路徑中增加Python路徑;安裝成功之后,使用自帶工具包pip,進(jìn)行所需科學(xué)計(jì)算工具包的下載。

然后,下載Nvidia CUDA-linux顯卡驅(qū)動(dòng),以及cuDNN顯卡加速包,為下一步的GPU訓(xùn)練做準(zhǔn)備。

(2)模型的訓(xùn)練和測試

首先,將制作好的數(shù)據(jù)集放置在系統(tǒng)的具體目錄下;其次,下載COCO2012數(shù)據(jù)集,并對Mask R-CNN網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,得到網(wǎng)絡(luò)初始權(quán)重;之后,在系統(tǒng)終端輸入訓(xùn)練指令,使用自制數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練后的網(wǎng)絡(luò)權(quán)重;最后,使用訓(xùn)練后的Mask R-CNN模型對未標(biāo)注的360行車記錄儀視頻進(jìn)行測試。

3 ?結(jié)果與討論

3.1 ?評價(jià)標(biāo)準(zhǔn)

針對實(shí)驗(yàn)結(jié)果,引入混淆矩陣[7]和平均精度[8](Average Precision,AP)進(jìn)行駕駛道路感知模型的性能評估?;煜仃囋趫D像目標(biāo)識別與分割任務(wù)中是最常用的評價(jià)指標(biāo)之一,它以矩陣的形式,對數(shù)據(jù)真實(shí)的類別和判定生成的類別之間的對應(yīng)關(guān)系作出歸納,并以此為基礎(chǔ),計(jì)算模型對輸入數(shù)據(jù)處理的準(zhǔn)確率、召回率、特異度以及精確度等性能指標(biāo)?;煜仃嚾鐖D4所示。

其中,在混淆矩陣的基礎(chǔ)上,準(zhǔn)確率P和召回率R的計(jì)算公式分別為:

(1)

(2)

在計(jì)算得相應(yīng)的準(zhǔn)確率和召回率后,便可通過生成坐標(biāo)曲線的方式,計(jì)算得到平均精度AP。平均精度的計(jì)算結(jié)果還受到置信率閾值的影響。例如,若置信率閾值設(shè)定過高,置信率評分較低,則得到正確判斷的陽性數(shù)據(jù)容易被過濾;若置信率閾值設(shè)定過低,則難以保證所有歸納結(jié)果的準(zhǔn)確性[9]。因此,本實(shí)驗(yàn)分別取置信率閾值[10]為0、0.5和0.75進(jìn)行評估,并且將相應(yīng)得平均精度記為AP0、AP1和AP2。

3.2 ?評價(jià)實(shí)施

對自制數(shù)據(jù)的測試集進(jìn)行駕駛道路環(huán)境自動(dòng)感知模擬實(shí)驗(yàn),效果示例如圖5所示。

由混淆矩陣?yán)碚撚?jì)算得到該部分實(shí)驗(yàn)相應(yīng)的平均精度如表2所示。

3.3 ?討論

視覺識別過程由訓(xùn)練后的Mask R-CNN實(shí)現(xiàn)。整體來看,實(shí)驗(yàn)結(jié)果具有較好的識別效果,對道路上的車輛、交通標(biāo)志、行人的識別率較高,對可行駛區(qū)域、當(dāng)前行駛區(qū)域的分割結(jié)果較好。

另一方面,模型對路邊停靠車輛的識別效果相對較低,從而影響了整體的識別率;從原理角度分析,路邊??寇囕v角度多為車頭與道路垂直,而數(shù)據(jù)集中車輛標(biāo)注多為車輛與道路平行,因此識別率較低是由數(shù)據(jù)集樣本不夠?qū)е碌?,如果再此基礎(chǔ)上增加車輛標(biāo)注的角度與數(shù)量,識別效果可以更好。

綜合而言,本項(xiàng)目依托卷積神經(jīng)網(wǎng)絡(luò)對圖像特征提取的優(yōu)勢,在自行制作的數(shù)據(jù)集基礎(chǔ)上較好地模擬實(shí)現(xiàn)了無人駕駛的視覺識別,展現(xiàn)了深度學(xué)習(xí)技術(shù)在各個(gè)領(lǐng)域的實(shí)用性、適用性。

4 ?結(jié)束語

使用深度學(xué)習(xí)技術(shù),在無人駕駛領(lǐng)域?qū)嵤┮曈X識別,具有較高的識別率。本文采用卷積神經(jīng)網(wǎng)絡(luò)Mask R-CNN作為視覺識別的模型,對道路行人、交通標(biāo)志、道路車輛識別情況較好,對可行駛區(qū)域分割效果清晰。深度學(xué)習(xí)技術(shù)在無人駕駛領(lǐng)域有很高的應(yīng)用價(jià)值。

基金項(xiàng)目

城市環(huán)境下無人駕駛中目標(biāo)識別和可行駛區(qū)域分割

致謝

感謝吉林大學(xué)通信工程學(xué)院玄玉波老師的指導(dǎo),同時(shí)感謝編輯、審稿專家的意見與指正!

參考文獻(xiàn)

[1] 周開利. 神經(jīng)網(wǎng)絡(luò)模型及其MATLAB仿真程序設(shè)計(jì)[M]. 北京: 清華大學(xué)出版社, 2005.

[2] 汪榆程. 無人駕駛技術(shù)綜述[J]. 科技傳播, 2019, 11(6): 147-148.

[3] 周飛燕, 金林鵬, 董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2017, 40(6): 1229-1251.

[4] 陳先昌. 基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D]. 杭州: 浙江工商大學(xué), 2014.

[5] 張沁怡. 基于深度卷積網(wǎng)絡(luò)的人車檢測及跟蹤算法研究[D]. 北京: 北京郵電大學(xué), 2019.

[6] VGG Image Annotator[OL]. http://www.robots.ox.ac.uk/~vgg/software/via/.

[7] Townsend J T. Theoretical analysis of an alphabetic confusion matrix[J]. Perception & Psychophysics, 1971, 9(1): 40-50.

[8] 趙琛, 王昱潭, 朱超偉. 基于幾何特征的靈武長棗圖像分割算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(15): 204-212.

[9] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014, 3: 2672-2680.

[10] Li Z, Dekel T, Cole F, et al. Learning the Depths of Moving People by Watching Frozen People[C]// IEEE International Conference on Computer Vision and Pattern Recognition, California, USA, 2019.

作者簡介:

李嘉寧(1999—),男,山東泰安人,在讀本科生。研究方向:圖像處理。

E-mail: jnli2021@163.com

(收稿日期:2020-06-12)

Vision Recognition of Unmanned Driving Based on Deep Learning

LI Jia-ning, LIU Yang, HU Xin-yue, LIU Jian-tian, CHEN Zong-wen

(College of Communication Engineering, Jilin University, Changchun 130012, China)

Abstract: The development of big data technology and the improvement of parallel computing capability based on Graphical Processing Unit (GPU) jointly promote the application of deep learning algorithm in the field of visual recognition of unmanned driving. On the Ubuntu 16.04 operating system, the Python experimental environment is built, and the visual recognition experiment of unmanned driving based on convolutional neural network, i.e. Mask R-CNN is carried out. The software and hardware of training and testing are realized by using the GTX 1080Ti GPU and cuDNN video acceleration card. The confusion matrix and average accuracy are introduced to evaluate the performance of the convolution neural network model. The results show that the visual recognition effect is good and the reliability is preferable, which shows that the deep learning technology has high application value in such fields.

Key words: Deep Learning; Unmanned Driving; Convolutional Neural Network; Visual Recognition; Performance Evaluation

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)無人駕駛深度學(xué)習(xí)
戰(zhàn)“疫”需求急呼無人駕駛車沖上前線
北京第一條無人駕駛地鐵試運(yùn)行!你敢坐嗎?
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
無人駕駛飛機(jī)
蓬溪县| 合水县| 九江市| 安远县| 兴隆县| 从江县| 常山县| 白河县| 喀喇沁旗| 上蔡县| 天全县| 元阳县| 乐亭县| 景宁| 芮城县| 拜城县| 大足县| 鄄城县| 兴宁市| 开鲁县| 武胜县| 林口县| 宝鸡市| 云浮市| 成安县| 五指山市| 东阳市| 阳朔县| 合水县| 嵊州市| 老河口市| 尖扎县| 通州区| 临泉县| 瑞昌市| 衡山县| 枣阳市| 云霄县| 五大连池市| 马关县| 依安县|