周奇豐
摘 要:文章從自動(dòng)駕駛汽車的基本解決方案分析,講述了視覺識(shí)別在自動(dòng)駕駛車輛中的重要性。從傳統(tǒng)模式識(shí)別框架分析汽車是如何利用攝像頭來區(qū)分障礙物。介紹了人的視覺機(jī)理和深度學(xué)習(xí)的相關(guān)理論。從過程中分析圖片數(shù)據(jù)庫的重要性。文章主要介紹了視覺識(shí)別技術(shù)在自動(dòng)駕駛汽車中的應(yīng)用和發(fā)展。
關(guān)鍵字:視覺識(shí)別;自動(dòng)駕駛
中圖分類號(hào):U495? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1671-7988(2020)22-29-03
Abstract: This paper analyzes the basic solutions of self-driving cars and describes the importance of visual recognition in self-driving vehicles. Analysis of how cars use cameras to distinguish obstacles from traditional pattern recognition frameworks. This paper introduces the relevant theories of human visual conception and deep learning. Analyze the importance of a picture database from the process. This paper mainly introduces the application and development of visual recognition technology in self-driving cars.
Keywords: Visual recognition; Self-driving
CLC NO.: U495? Document Code: A? Article ID: 1671-7988(2020)22-29-03
前言
近年來,隨著人工智能技術(shù)快速發(fā)展,無人車和自動(dòng)駕駛這種跨行業(yè)的應(yīng)用場(chǎng)景得到了長足的進(jìn)步。國內(nèi)百度,騰訊,阿里等企業(yè)紛紛進(jìn)入到了無人車的研發(fā)中,國外的Google,Uber等也投入了大量的精力到無人車的研發(fā)。本文僅僅淺談視覺技術(shù)在自動(dòng)駕駛汽車中的應(yīng)用。
1 視覺識(shí)別與自動(dòng)駕駛
目前車企采用的無人駕駛方案所采用的傳感器基本上都是超聲波傳感器,毫米波雷達(dá),激光雷達(dá)和視覺攝像頭。其中超聲波雷達(dá)一般用在倒車?yán)走_(dá)等輔助裝置上,高速情況下會(huì)失效。毫米波雷達(dá)(Radar)主要是遠(yuǎn)距離探測(cè),探測(cè)距離可以達(dá)到250m左右。激光雷達(dá)(Lidar)也是目前使用最多的傳感器,可以實(shí)現(xiàn)360°,三維探測(cè),但是造價(jià)較高。本文重點(diǎn)攝像頭成本適中,可以分辨出障礙物的大小,采用雙目攝像頭可以識(shí)別距離,并且通過圖像處理學(xué)習(xí),可以識(shí)別出物體種類[1]。但是攝像頭和人眼一樣,會(huì)受到視野的影響,也會(huì)受到惡劣天氣的影響從而造成誤判。比如2016年特斯拉Autopilot模式下全速撞上左拐白色大貨車,事后分析原因,一個(gè)是大貨車底盤較高,特斯拉未檢測(cè)到,還有一點(diǎn)就是特斯拉視覺系統(tǒng)在強(qiáng)光下把白色拖車的白色車身誤認(rèn)為是一朵白云。在經(jīng)過這次事件后,特斯拉升級(jí)了Autopilot2.0版本,環(huán)繞車身共配備了8個(gè)攝像頭,視野范圍達(dá)到了360°,對(duì)周圍的環(huán)境檢測(cè)距離最遠(yuǎn)可達(dá)250米,12個(gè)新版超聲波雷達(dá)作為視覺系統(tǒng)的補(bǔ)充,可以探測(cè)柔軟或者堅(jiān)硬的物體,傳感距離和精確度比上一代提升了1倍。增強(qiáng)版本的前置雷達(dá),可以穿越雨,霧,灰塵,甚至前車的下方空間進(jìn)行探測(cè),為視覺系統(tǒng)提供更加豐富的數(shù)據(jù)。2018年大疆發(fā)布了無人機(jī)Mavic Air,其中搭載了7個(gè)攝像頭的視覺感知系統(tǒng),實(shí)現(xiàn)了三維環(huán)境的感知。所以無論是無人車還是無人機(jī),視覺感知都起到了無比重要的地位[2]。在自動(dòng)駕駛中,視覺識(shí)別為何如此重要?雷達(dá)的立體全方位探測(cè),精度高,但是由于計(jì)算量大,有延時(shí),價(jià)格昂貴,短期內(nèi)無法大范圍普及。而采用雙目攝像頭,可以將拍到的景物實(shí)時(shí)轉(zhuǎn)化為距離,從而實(shí)現(xiàn)碰撞預(yù)警,車道偏離預(yù)警等功能,并且價(jià)格低廉,適合目前車輛。
2 計(jì)算機(jī)視覺與傳統(tǒng)模式識(shí)別框架
汽車是如何通過攝像頭識(shí)別區(qū)分障礙物的呢?
首先我們需要了解一下基本概念。計(jì)算機(jī)視覺,就是用各種成像系統(tǒng)代替視覺器官,作為輸入手段,由計(jì)算機(jī)代替大腦完成處理和解釋。模式識(shí)別,一是研究生物體是如何感知對(duì)象的,二是在給定的任務(wù)環(huán)境下,如何用計(jì)算機(jī)實(shí)現(xiàn)模式識(shí)別的理論和方法。
傳統(tǒng)的模式識(shí)別方法分為4個(gè)步驟。低維感知,一般通過矩陣,像素的方式使圖片可以被計(jì)算機(jī)所識(shí)別獲取,即把圖片讀入電腦,是信息獲取的過程。預(yù)處理指的是把圖片進(jìn)行矯正,解決圖像的傾斜,噪點(diǎn)等問題。特征提取選擇是傳統(tǒng)的模式識(shí)別非常重要的一個(gè)步驟。例如,對(duì)于數(shù)字的識(shí)別,每一個(gè)阿拉伯?dāng)?shù)字都有相應(yīng)的特征,如何選取每一個(gè)數(shù)字的特征是關(guān)鍵。舉個(gè)例子,對(duì)于0和1的識(shí)別,我們實(shí)際處理中可以提取在x軸上的像素投影特征就可以區(qū)分0或1。對(duì)于其他的數(shù)字識(shí)別,可以選擇其他的特征進(jìn)行提取,比如X軸,Y軸,投影特征,幾何重心特征,旋轉(zhuǎn)不變性特征等,或者幾個(gè)特征綜合運(yùn)用。在特征提取選擇過后,我們才可以對(duì)圖像進(jìn)行預(yù)測(cè)感知識(shí)別等操作[3]。
對(duì)于傳統(tǒng)的模式識(shí)別,有以下幾點(diǎn)需要注意。傳統(tǒng)的模式識(shí)別方法必須依賴良好的特征提取選擇,這個(gè)對(duì)于最終識(shí)別的準(zhǔn)確性起到了關(guān)鍵性的作用。識(shí)別系統(tǒng)的主要計(jì)算集中在特征提取選擇部分。特征的樣式目前都是人工設(shè)計(jì)的,靠人工來提取特征,如果人工提取特征有缺失,那么我們模式識(shí)別的準(zhǔn)確性也會(huì)降低。
3 人的視覺機(jī)理和深度學(xué)習(xí)
計(jì)算機(jī)視覺技術(shù)的研究框架和人類的學(xué)習(xí)框架類似。1981年諾貝爾醫(yī)學(xué)獎(jiǎng)獲得者David Hubel發(fā)現(xiàn)了視覺系統(tǒng)的信息處理機(jī)制。(1)人腦視覺系統(tǒng)的信息處理是分級(jí)的。(2)并且通過層次網(wǎng)絡(luò)結(jié)構(gòu)逐層傳遞,從低層到高層,特征表示越來越抽象,越來越能表現(xiàn)語義。(3)抽象層面越高,存在猜測(cè)的可能性就越小,就越利于分類。所以人類視覺信息的傳遞不是單純的幾何特征或者物理特征來實(shí)現(xiàn)對(duì)物體的視覺感知或者識(shí)別,而是通過逐層的映射形成抽象的特征最終實(shí)現(xiàn)物體的識(shí)別。這個(gè)發(fā)現(xiàn)給計(jì)算機(jī)視覺技術(shù)提供了巨大的啟示。加拿大科學(xué)家Geoffrey Hinton把視覺系統(tǒng)的信息處理機(jī)制和計(jì)算機(jī)學(xué)習(xí)結(jié)合起來,提出了深度學(xué)習(xí)的觀點(diǎn):人工神經(jīng)網(wǎng)絡(luò)多感知層次的比單感知層次的好,更接近于人大腦的神經(jīng)元的結(jié)構(gòu);深度學(xué)習(xí)可以通過逐層初始化(逐層初始化可以通過無監(jiān)督學(xué)習(xí)實(shí)現(xiàn))解決訓(xùn)練的難度。說的通俗一點(diǎn),就好比第二段中提到的模式識(shí)別,傳統(tǒng)的模式識(shí)別必須依賴人工設(shè)計(jì)的特征,這需要大量的專業(yè)領(lǐng)域知識(shí),而特征提取的好壞直接影響到到了結(jié)果。深度學(xué)習(xí)作為一種自動(dòng)特征學(xué)習(xí)方法,把原始數(shù)據(jù)通過一些簡單的但非線性的模型轉(zhuǎn)變成為更高層次的、更加抽象的表達(dá)。通過足夠多的轉(zhuǎn)換組合,非常復(fù)雜的函數(shù)也可以被學(xué)習(xí)。簡單來說,深度學(xué)習(xí)使用一種通用的學(xué)習(xí)過程從數(shù)據(jù)中學(xué)習(xí)各層次的特征,而不是手工設(shè)計(jì)特征提取。
4 圖像數(shù)據(jù)與物體識(shí)別
隨著互聯(lián)網(wǎng)的快速發(fā)展,在互聯(lián)網(wǎng)中產(chǎn)生了大量的圖片,這些圖片其實(shí)就是一個(gè)龐大的數(shù)據(jù)庫。汽車之所以可以通過攝像頭識(shí)別出各種障礙物,識(shí)別出路面上物體的種類,這個(gè)要?dú)w功于深度學(xué)習(xí)的快速發(fā)展。而深度學(xué)習(xí)則需要大量的數(shù)據(jù)來進(jìn)行訓(xùn)練來提高視覺識(shí)別的準(zhǔn)確性。華裔科學(xué)家李飛飛發(fā)布了包含了1500萬張圖片,2.2萬個(gè)類別的IMAGENET數(shù)據(jù)集,用于視覺識(shí)別的研究。自動(dòng)駕駛技術(shù)和視覺識(shí)別技術(shù)的融合提高了現(xiàn)代汽車智能化。
5 總結(jié)
筆者在本文中主要講述了:
(1)自動(dòng)駕駛的基本解決方案;
(2)通過案例講述了視覺識(shí)別技術(shù)在自動(dòng)駕駛中的重要作用;
(3)傳統(tǒng)模式識(shí)別的基本框架;
(4)人體的視覺機(jī)理和深度學(xué)習(xí)的起源;
(5)圖像數(shù)據(jù)庫對(duì)于視覺識(shí)別重要性。
視覺識(shí)別技術(shù)只是自動(dòng)駕駛感知系統(tǒng)中的一部分,目前車輛上主要用于輔助駕駛,距離真正意義上的自動(dòng)駕駛還有很長的一段路。并且其本身對(duì)于光線要求高、只能獲得2D平面數(shù)據(jù)、數(shù)據(jù)處理延遲、地面異形識(shí)別障礙、工作易受外部條件干擾等等缺陷,均需要毫米波雷達(dá)、激光雷達(dá)等硬件補(bǔ)足。只有和其他傳感器共同作用時(shí),才可以構(gòu)建出真正的自動(dòng)駕駛車輛。
參考文獻(xiàn)
[1] 蔣文斌,彭晶,葉閣焰.深度學(xué)習(xí)自適應(yīng)學(xué)習(xí)率算法研究[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,(5).79-83.
[2] 姜灝.一種自動(dòng)駕駛車的環(huán)境感知系統(tǒng)[J].電子制作,2018,(15). 70-73.
[3] 譚力凡.機(jī)器視覺與毫米波雷達(dá)融合的前方車輛檢測(cè)方法研究[D].湖南大學(xué),2018.