王亞蕊,王嘯宇
(1.上海海事大學(xué)電子信息系,上海 201306;2.合肥工業(yè)大學(xué)電子通信系,合肥 230009)
道路分割是無人車視覺導(dǎo)航的基本功能之一,在無人汽車行駛過程中,其視覺導(dǎo)航中的攝像頭對(duì)車輛前方場(chǎng)景進(jìn)行圖像采集,并根據(jù)采集的圖像信息,規(guī)劃路徑并控制車輛運(yùn)動(dòng),在結(jié)構(gòu)化或非結(jié)構(gòu)化道路環(huán)境下完成行駛?cè)蝿?wù)。無人汽車導(dǎo)航系統(tǒng)也可以自學(xué)習(xí)、自適應(yīng),從而使無人駕駛汽車能夠安全、可靠地在道路上行駛[1-2]。
近幾年來,基于深度學(xué)習(xí)的語義分割框架開始應(yīng)用于道路分割中,在轉(zhuǎn)換的框架中,輸入圖像經(jīng)過一次或者多次的卷積、池化、激活計(jì)算處理后,得到圖像的一系列高、中、低級(jí)別特征,接下來把得到的這些特征送入分類器,打上“道路”或者“非道路”的標(biāo)簽[3-5]。傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)的語義分割算法對(duì)圖像進(jìn)行像素分類時(shí),一般采用鄰近像素圖像塊作為卷積神經(jīng)網(wǎng)絡(luò)層的輸入,學(xué)習(xí)像素到像素的映射,端到端的映射,從而對(duì)圖像進(jìn)行訓(xùn)練、預(yù)測(cè)[6-9]。然而,這種方式精確度小、細(xì)節(jié)敏感度低,2015年,Vijay等人提出了最大池化指數(shù),并將其轉(zhuǎn)移到圖像解碼器中,改善了圖像語義分割的分辨率[10]。Fisher Yu等人使用了一種可用于密集預(yù)測(cè)的卷積層-空洞卷積,在圖像多尺度聚集的條件下使用空洞卷積的背景模塊[11-14]。在自動(dòng)駕駛開始大熱的2016年,Liang-Chieh Chen等人在Vijay等人的研究基礎(chǔ)上,使用空間卷積和全連接條件隨機(jī)場(chǎng),在空間維度上實(shí)現(xiàn)了金字塔形的空洞池化[15]。
然而,這些方式存儲(chǔ)開銷大、計(jì)算效率低、像素塊的大小限制了感知域的多少,而且在深層網(wǎng)絡(luò)中,就單層而言,每一層的輸入時(shí)前面所有層的輸出,這個(gè)輸出往往是不穩(wěn)定的,它會(huì)隨著前一層參數(shù)迭代的更新而發(fā)生變化,因此,學(xué)習(xí)率的選擇和參數(shù)的初始化尤其重要,大量的改善問題還亟需解決[13,15-17]。
針對(duì)深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,每一層都需要學(xué)習(xí)一個(gè)變化的數(shù)據(jù)分布,模型參數(shù)選取不穩(wěn)定、調(diào)優(yōu)難度大的問題,本文選取VGG16網(wǎng)絡(luò)和FCN32網(wǎng)絡(luò)模型分別組成道路分割的編解碼架構(gòu)[18],在每層卷積計(jì)算后加入批規(guī)范化計(jì)算[19],學(xué)習(xí)一個(gè)比較穩(wěn)定的參數(shù)數(shù)據(jù)分布。在KITTI數(shù)據(jù)集上的道路數(shù)據(jù)集實(shí)驗(yàn),結(jié)果表明本文設(shè)計(jì)的編解碼網(wǎng)絡(luò)架構(gòu)對(duì)無人車駕駛領(lǐng)域的可行駛區(qū)域檢測(cè)、分割有著較高的魯棒性。
批規(guī)范化和卷積神經(jīng)網(wǎng)絡(luò)中的“白化”思想接近,在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,深層神經(jīng)網(wǎng)絡(luò)在做非線性變換前的激活輸入值會(huì)隨著網(wǎng)絡(luò)深度加深,它的數(shù)據(jù)分布會(huì)發(fā)生偏移、變動(dòng),數(shù)據(jù)的整體分布也會(huì)趨向于靠近非線性函數(shù)取值的上下限兩端,從而導(dǎo)致在深層神經(jīng)網(wǎng)絡(luò)在后向傳播時(shí)低層神經(jīng)網(wǎng)絡(luò)的梯度消失,這也是訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)收斂越來越慢的本質(zhì)原因[19,21-23]。
基于對(duì)數(shù)據(jù)分布的不同假設(shè),通過人為對(duì)代價(jià)函數(shù)的設(shè)計(jì),神經(jīng)網(wǎng)絡(luò)對(duì)樣本數(shù)據(jù)的學(xué)習(xí)本質(zhì)上就是一個(gè)優(yōu)化過程,而在神經(jīng)網(wǎng)絡(luò)模型中,低層網(wǎng)絡(luò)在訓(xùn)練的時(shí)會(huì)時(shí)長(zhǎng)自動(dòng)更新參數(shù),從而引起后面層輸入數(shù)據(jù)分布的變化,導(dǎo)致神經(jīng)網(wǎng)絡(luò)訓(xùn)練復(fù)雜、耗時(shí)、難以擬合。為了克服深度神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的弊病,Google于2015年提出批規(guī)范化的概念,通過mini-batch來規(guī)范化某些層的輸入,固定每層輸入信號(hào)的均值和方差來解決這種“梯度彌散”的問題[19]。
圖1 批規(guī)范化的基本流程
批規(guī)范化的基本流程如圖1所示,首先對(duì)輸入樣本的特征變量進(jìn)行標(biāo)準(zhǔn)化處理得到x,降低特征變量間的差異性,減少錯(cuò)分樣本對(duì)數(shù)據(jù)的干擾。標(biāo)準(zhǔn)化后的x經(jīng)過W1的線性變換后得到s1,然后依次處理得到第二層結(jié)果s2,表達(dá)式如下:
圖2展示了批規(guī)范化操作前后每一層輸出值的數(shù)據(jù)分布結(jié)果,可以明顯看出,沒有采用批規(guī)范化操作的時(shí)候,每層的輸出值迅速全部變?yōu)?,也可以說,所有的神經(jīng)元都已經(jīng)“死亡”了,而對(duì)每一層的輸出采用批規(guī)范化后,每層的值都能有一個(gè)比較好的分布效果,大部分的神經(jīng)元還活著。
圖2 批規(guī)范化操作前后每一層輸出值的數(shù)據(jù)分布
K.Fukushima等人提出CNN的輸入是圖像,輸出的結(jié)果為一個(gè)概率值,早期的語義分割方法利用CNN的固有效率來實(shí)現(xiàn)隱式的滑動(dòng)窗口[24]。而Jonalthan等人提出用于語義分割的FCN學(xué)習(xí)的是像素到像素的映射,其輸入為一張圖像,輸出也是一張圖像。它可采用端到端的方式訓(xùn)練深度學(xué)習(xí)通道,來建模語義分割任務(wù),與殘差網(wǎng)絡(luò)相結(jié)合的技術(shù)是目前最先進(jìn)的技術(shù)[8]。
本文采用的道路分割基礎(chǔ)架構(gòu)如圖3所示,編碼器部分由VGG16網(wǎng)絡(luò)的卷積層和池化層組成,采用13層卷積層輸出的結(jié)果,其中,每層卷積層的輸出部分都做批規(guī)范化處理,使每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元輸入值的數(shù)據(jù)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布,從而使激活值落在非線性激活函數(shù)對(duì)輸入值比較敏感的區(qū)域,這樣激活的輸入值較小變化就會(huì)導(dǎo)致?lián)p失函數(shù)較大的變化,避免梯度消失問題產(chǎn)生,大大加快訓(xùn)練速度,也增加了分類效果。
圖3 基于編解碼架構(gòu)的自適應(yīng)道路分割模型
解碼器部分采用全卷積網(wǎng)絡(luò)對(duì)圖像進(jìn)行語義分割將VGG16解構(gòu)的剩余3層全連接層轉(zhuǎn)化為1×1卷積層,產(chǎn)生尺寸較小的低分割分辨率圖像,其后采用3個(gè)反卷積層執(zhí)行上采樣。然后加上一些較低層的高分辨率特征,這些特征經(jīng)過1×1卷積層處理,然后加到部分上采樣結(jié)果中,從而得到我們最終的輸出結(jié)果。
本文實(shí)驗(yàn)驗(yàn)證環(huán)境:Ubuntu16.04,內(nèi)存8GB,Python版本2.7,TensorFlow版本1.3。
本文的實(shí)驗(yàn)數(shù)據(jù)取自KITTI數(shù)據(jù)集上的道路場(chǎng)景數(shù)據(jù)[20],圖4顯示了融合批規(guī)范化編解碼網(wǎng)絡(luò)架構(gòu)的道路分割結(jié)果,可以明顯看出融合批規(guī)范編后解碼網(wǎng)絡(luò)結(jié)構(gòu)模型對(duì)陰影和大小尺度的車輛等障礙物有著更好的分割效果。
圖5為本文提出的網(wǎng)絡(luò)模型的實(shí)驗(yàn)效果評(píng)估結(jié)果。表1為本文實(shí)驗(yàn)結(jié)果與截止到目前KITTI分割結(jié)果最優(yōu)的前五名的對(duì)比效果。
本文采用基于編解碼架構(gòu)模型的道路分割算法框架,并在每一層卷積計(jì)算加入批規(guī)范化計(jì)算,從而增強(qiáng)模型了訓(xùn)練過程中參數(shù)調(diào)優(yōu)的穩(wěn)定性。與KITTI道路分割數(shù)據(jù)集評(píng)估對(duì)比效果印證了本文所提融合算法的優(yōu)越性。
圖4 融合批規(guī)范化的編解碼網(wǎng)絡(luò)結(jié)構(gòu)的道路分割結(jié)果圖
圖5 實(shí)驗(yàn)效果評(píng)估結(jié)果
表1 KITTI Road分割結(jié)果部分對(duì)比