国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

全卷積神經(jīng)網(wǎng)絡(luò)在道路場(chǎng)景語義分割中的應(yīng)用研究

2020-07-01 11:02:14李艷梅陶衛(wèi)國龍彥霖
關(guān)鍵詞:池化層語義像素

苗 晨,李艷梅, 陶衛(wèi)國,羅 建,龍彥霖,付 婧

(1.西華師范大學(xué),四川 南充 637009;2.四川德爾博??萍脊煞萦邢薰荆拇?南充 637000)

0 引言

科技的快速發(fā)展使自動(dòng)駕駛成為可能,道路場(chǎng)景解析是最重要的技術(shù)之一.圖像分割[1]是計(jì)算機(jī)視覺的基礎(chǔ),在圖像解析領(lǐng)域也有著至關(guān)重要的地位.在深度學(xué)習(xí)技術(shù)的快速發(fā)展之前就已經(jīng)提出了很多用于圖像分割的技術(shù),比較著名的有Normalized Cut,Grab Cut等.Normalized Cut[2]是通過像素和像素之間的關(guān)系權(quán)重來綜合考慮,根據(jù)給出的閾值,將圖像一分為二的圖劃分法;Grab Cut[3]的分割效果優(yōu)于Normalized Cut技術(shù),但它的缺點(diǎn)也很明顯,因?yàn)樗琋ormalized Cut一樣,只能做二類語義分割任務(wù),也就是說一次操作只能分割一個(gè)類別對(duì)象,多個(gè)目標(biāo)圖像就要進(jìn)行多次運(yùn)算;其次,它需要人工干預(yù),這個(gè)弱點(diǎn)在批量化處理和智能時(shí)代有很大的局限性.

深度學(xué)習(xí)的快速發(fā)展使卷積神經(jīng)網(wǎng)絡(luò)得以應(yīng)用于語義分割領(lǐng)域,而且已經(jīng)被證明是一種強(qiáng)大的圖像識(shí)別和處理工具.全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[4,5]是在經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上改進(jìn)得來的,包含了卷積層、池化層,但不包含全連接層.全卷積神經(jīng)網(wǎng)絡(luò)通過池化操作縮小圖像特征尺寸,降低特征空間維度,從而減少計(jì)算量、增大感受野,同時(shí)也能防止過擬合,再通過反卷積層進(jìn)行上采樣操作將尺寸縮小的特征圖還原至原圖像大小,實(shí)現(xiàn)端到端的輸出.但在這個(gè)先使用池化操作將特征圖尺寸縮小再通過反卷積放大的過程,造成了圖像特征信息的丟失.

本文提出一種新型的用于語義分割的全卷積神經(jīng)網(wǎng)絡(luò).由于目前的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[6,7]和FCNs在處理圖像任務(wù)時(shí)使用池化操作,造成在處理過程中圖像特征信息的丟失,為了去除池化層并保留其降低特征空間維度的功能,本文提出了使用步長較大的普通卷積層代替池化層的語義分割網(wǎng)絡(luò).該模型的關(guān)鍵目標(biāo)是提供一個(gè)更簡化的CNN模型,獲得更好的基準(zhǔn)性能和結(jié)果.它是一個(gè)基于完全卷積神經(jīng)網(wǎng)絡(luò)模型的編碼解碼網(wǎng)絡(luò),編碼網(wǎng)絡(luò)基于VGG 16的前13層,而解碼網(wǎng)絡(luò)使用上采樣和反卷積單元,最后是像素級(jí)分類層.該網(wǎng)絡(luò)結(jié)構(gòu)簡單,通過使用低分辨率編碼器特征圖,為分割提供了更小的搜索空間.Springenberg等[8]發(fā)現(xiàn)可以用傳統(tǒng)的卷積層代替max-pooling層,這可以通過增加整體步長來實(shí)現(xiàn).由此產(chǎn)生的網(wǎng)絡(luò)將在眾多的圖像識(shí)別基準(zhǔn)上提供相似的精度,而不會(huì)降低效率.基于這一發(fā)現(xiàn),本文設(shè)計(jì)了一種簡單的道路場(chǎng)景語義分割網(wǎng)絡(luò),它全部由卷積層組成,并在CamVid數(shù)據(jù)集上產(chǎn)生有競(jìng)爭(zhēng)力的、更強(qiáng)的性能.

1 相關(guān)理論

1.1 VGGNet

VGGNet[9]是牛津大學(xué)的視覺幾何組(Visual Geometry Group)中的研究人員提出的,并以此命名.VGGNet的一個(gè)改進(jìn)就是采用連續(xù)的幾個(gè)小卷積核代替AlexNet中的較大的卷積核,從而包含了更多的激活函數(shù)層,提供更高的效率,降低可訓(xùn)練參數(shù)量,保證了在具有相同感受野的情況下,提升了網(wǎng)絡(luò)深度,在一定程度上提高了神經(jīng)網(wǎng)絡(luò)的功能.本文使用了VGG16網(wǎng)絡(luò)的前五層作為本網(wǎng)絡(luò)結(jié)構(gòu)中的編碼結(jié)構(gòu),包括卷積層,激活函數(shù)等部分,并對(duì)池化層用功能相同的卷積層來代替.

卷積層在卷積神經(jīng)網(wǎng)絡(luò)中至關(guān)重要,用來完成對(duì)輸入圖像的特征提取和傳遞.計(jì)算任意給定的卷積層的輸出大小的公式是:

其中O是輸出特征尺寸,W表示輸入特征尺寸,K是卷積核大小,P是“padding”即填充的像素?cái)?shù),S代表步幅.在本文網(wǎng)絡(luò)中,普通的卷積層中的填充方式為“SAME”,即經(jīng)過該卷積層處理后的特征圖大小保持不變;而在代替了池化層的2×2卷積層中沒有填充,且步長為2,使得該卷積層輸出的特征圖大小為輸入特征圖的1/2,這就實(shí)現(xiàn)了與池化層降采樣相同的功能.

卷積層參數(shù)可看作是圖像中對(duì)應(yīng)位置像素的權(quán)重,將卷積核內(nèi)各像素的加權(quán)值賦予中心像素,是為圖像特征抽象的過程.該過程可表示為:

y=f(wx+b)

上述式子中,x、y分別代表輸入特征和輸出特征,w表示卷積層參數(shù),b表示偏移量,f為激活函數(shù).

激活函數(shù)[10]用來對(duì)輸入特征進(jìn)行一種非線性的轉(zhuǎn)換,其輸出結(jié)構(gòu)作為下一層的輸入.本文提出的網(wǎng)絡(luò)使用了ReLU激活函數(shù),它是使用最廣泛的激活函數(shù)之一.公式如下:

ReLU激活函數(shù)是非線性的,在反向傳播算法中可用,而且它不會(huì)同時(shí)激活所有的神經(jīng)元,從而使得網(wǎng)絡(luò)很稀疏,提高計(jì)算效率.

1.2 全卷積神經(jīng)網(wǎng)絡(luò)

2015年,Jonathan Long等人在其論文 “Fully convolutional networks for semantic segmentation”(用于語義分割的全卷積神經(jīng)網(wǎng)絡(luò))中提出了全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN),要解決的核心問題就是像素級(jí)的語義分割任務(wù).經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)包含卷積層和池化層,后面連接若干全連接層,全連接層將卷積層產(chǎn)生的特征圖映射成固定長度的特征向量作為最終輸出結(jié)果,而全卷積神經(jīng)網(wǎng)絡(luò)則使用卷積層代替了全連接層,可以輸入任意尺寸的圖像,使用卷積池化操作后縮小圖像尺寸,獲得不同尺度的特征圖,再使用反卷積層進(jìn)行上采樣,使特征圖恢復(fù)到原圖像的大小,輸出像素級(jí)的預(yù)測(cè)圖.全卷積神經(jīng)網(wǎng)絡(luò)可以輸入任意大小的圖像,輸出同樣大小的像素級(jí)分類的預(yù)測(cè)圖,實(shí)現(xiàn)端到端的輸出.

2 完全卷積的神經(jīng)網(wǎng)絡(luò)

本文提出的完全卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)編碼解碼結(jié)構(gòu)的語義分割網(wǎng)絡(luò).如之前所述,編碼器是基于VGG16網(wǎng)絡(luò)的前13層的卷積神經(jīng)網(wǎng)絡(luò)模型,但本文使用有相同的特征空間降維功能的卷積層代替其池化層.該算法先將輸入圖像進(jìn)行初始化,然后通過一組組卷積層和ReLU激活函數(shù)單元對(duì)數(shù)據(jù)進(jìn)行處理.其次是基于上采樣單元即反卷積層的解碼器,解碼器的上采樣單元對(duì)編碼器的部分卷積層輸出的特征圖進(jìn)行上采樣.

如圖1所示,本文提出的網(wǎng)絡(luò)是一個(gè)簡單的編碼解碼結(jié)構(gòu),整體可分為卷積網(wǎng)絡(luò)(Convolution network)和反卷積網(wǎng)絡(luò)(Deconvolution network)兩部分.黑色線框模塊代表普通卷積層;紅色線框模塊表示代替了池化層的大小為2×2,步長為2的卷積層;綠色線框模塊表示上采樣層;藍(lán)色線框模塊表示融合操作(fuse).輸入原始圖像后,卷積層進(jìn)行高維特征提取,使用大小為2×2的卷積層實(shí)現(xiàn)降低特征空間維度的目的,這一部分看作是卷積網(wǎng)絡(luò).反卷積[11-13]網(wǎng)絡(luò)的操作過程就是經(jīng)過卷積網(wǎng)絡(luò)操作后的特征圖再通過上采樣(Upsampling)擴(kuò)大特征尺寸使其恢復(fù)至原始圖像大小,為了獲得更多的特征信息,使用跳躍結(jié)構(gòu)(Skip architecture)將網(wǎng)絡(luò)淺層的詳細(xì)信息與深層的粗糙信息相結(jié)合,實(shí)現(xiàn)了更加精準(zhǔn)的端到端的輸出.

圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖

上采樣操作(Upsampling)[14]在經(jīng)典的全卷積神經(jīng)網(wǎng)絡(luò)里面可以看作是池化的逆過程,由于本網(wǎng)絡(luò)使用卷積層替換了池化層,所以大小為2×2的卷積層為下采樣,上采樣操作也就是反卷積操作.在處理數(shù)據(jù)的過程中,下采樣操作使特征圖縮小,而上采樣操作則是擴(kuò)大特征圖尺寸.本網(wǎng)絡(luò)使用反卷積的方法使大小比原始圖像小得多的特征圖還原為原始圖像大小.

圖2展示了網(wǎng)絡(luò)上采樣的過程,圖中Image為原始圖像,Conv1、Conv2、Conv3、Conv4、Conv5表示各層卷積操作的輸出,每經(jīng)過一個(gè)卷積部分,特征圖縮小為輸入特征的1/2.最后兩個(gè)卷積核大小為1×1的普通卷積層的輸出特征分別為Conv6和Conv7,經(jīng)過這兩層操作得到的特征圖尺寸不變.Conv3、Conv4、Conv7參與上采樣操作,Output為最終輸出結(jié)果.

圖2 上采樣過程圖

以上圖為例,設(shè)原圖大小為32×32,經(jīng)過卷積網(wǎng)絡(luò)部分的處理后,特征圖Conv7的大小為原圖的1/32,也就是1×1.先將特征圖Conv7進(jìn)行2倍的上采樣操作,也就是增加一個(gè)反卷積層使特征圖大小為Conv7的兩倍,大小變?yōu)?×2。此時(shí)可以看出2倍上采樣后的特征圖Conv7的尺寸與特征圖Conv4的尺寸相同,將這兩個(gè)特征圖進(jìn)行融合操作(fuse),也就是將它們的對(duì)應(yīng)元素相加得到一個(gè)大小同為2×2的特征圖fuse1.將融合后的結(jié)果fuse1進(jìn)行2倍上采樣操作就得到了一個(gè)大小為4×4的特征圖,與特征圖Conv3大小相同,同樣地將它們也進(jìn)行融合操作,得到一個(gè)大小為4×4的特征圖,再將此特征圖進(jìn)行8倍上采樣操作,輸出一個(gè)大小為32×32的預(yù)測(cè)特征圖,與原圖大小相同,實(shí)現(xiàn)了輸出大小與輸入大小相同的端到端的語義分割網(wǎng)絡(luò).

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)使用劍橋駕駛標(biāo)簽視頻數(shù)據(jù)集(Cambridge-driving Labeled Video Database,CamVid)來驗(yàn)證網(wǎng)絡(luò)的有效性.CamVid數(shù)據(jù)集[15]是包含駕駛時(shí)獲得的街道視圖的圖像集合.該數(shù)據(jù)集提供ground truth標(biāo)簽,將每個(gè)像素與32個(gè)語義類之一相關(guān)聯(lián),包括汽車、道路和建筑等.本文使用的CamVid數(shù)據(jù)集將32個(gè)類縮減至11個(gè)類,將原始數(shù)據(jù)集中的多個(gè)類別組合在一起,例如,“Car”是“Car”“SUVPickupTruck”,“Truck_Bus”,“Train”和“OtherMoving”的組合.CamVid數(shù)據(jù)集的數(shù)據(jù)雖然大多數(shù)是使用固定式位置CCTV式攝像機(jī)拍攝的,但該數(shù)據(jù)是從駕駛汽車的角度捕獲而來的,所以此數(shù)據(jù)集滿足了本實(shí)驗(yàn)的需求.

3.2 參數(shù)設(shè)置

本文實(shí)驗(yàn)平臺(tái)的操作系統(tǒng)為CentOS,GPU: GTX 1080 Ti,CPU:E5系列 .模型采用VGG16進(jìn)行fine-tuning,設(shè)置本網(wǎng)絡(luò)學(xué)習(xí)率為0.00001,網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)為100000,batchsize為2,weight_loss_rate為0.0005.

3.3 評(píng)價(jià)指標(biāo)

計(jì)算圖像語義分割結(jié)果的均交并比和像素精度.均交并比(Mean Intersection over Union,MIoU)[16]是計(jì)算兩個(gè)集合的交集與并集之比,在語義分割任務(wù)中,這兩個(gè)集合是真實(shí)值(ground truth)和預(yù)測(cè)值(predicted segmentation),計(jì)算每個(gè)類的IoU后求平均所得.計(jì)算公式為:

像素精度(Pixel Accuracy,PA)[14]是標(biāo)記正確的像素在總像素中所占比例,計(jì)算公式為:

3.4 實(shí)驗(yàn)結(jié)果分析

本文提出的網(wǎng)絡(luò)與全卷積神經(jīng)網(wǎng)絡(luò)在CamVid數(shù)據(jù)集上通過對(duì)各類的IoU以及總體的MIoU和PA數(shù)據(jù)進(jìn)行對(duì)比,見表1.

表1 全卷積神經(jīng)網(wǎng)絡(luò)和本文網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果對(duì)比

通過表1可以看出本文提出的網(wǎng)絡(luò)的MIoU和PA相對(duì)于全卷積神經(jīng)網(wǎng)絡(luò)來說均有提升,且在CamVid數(shù)據(jù)集除了background類之外的11個(gè)類中有9個(gè)類的IOU高于全卷積神經(jīng)網(wǎng)絡(luò),說明用相同功能的卷積層代替池化層減少了圖像在卷積操作的過程中的特征信息的損失,使特征在反卷積操作恢復(fù)特征尺寸時(shí)擁有更多的特征信息,網(wǎng)絡(luò)深度的增加也在一定程度上提升了網(wǎng)絡(luò)性能,獲得了更好的語義分割結(jié)果.在CamVid數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果上,MIoU和PA分別提升了3.1%和2.88%.

圖3展示了全卷積神經(jīng)網(wǎng)絡(luò)和本文網(wǎng)絡(luò)的分割結(jié)果圖.(a)和(b)是傍晚的光線較暗的城市道路交通場(chǎng)景圖,(c)和(d)是白天的光線明亮的城市道路交通場(chǎng)景圖.從(a)組預(yù)測(cè)圖可以看出本文網(wǎng)絡(luò)對(duì)車輛類別的預(yù)測(cè)比全卷積神經(jīng)網(wǎng)絡(luò)好;(b)組中,本文網(wǎng)絡(luò)對(duì)于車輛和行人有較好的預(yù)測(cè)結(jié)果;(c)組中,本文網(wǎng)絡(luò)對(duì)圖中右邊的建筑有更好的分割,但是對(duì)圖左邊的圍墻類別與建筑類別混淆,相比較與全卷積神經(jīng)網(wǎng)絡(luò),本網(wǎng)絡(luò)對(duì)行人的分割結(jié)果更優(yōu);通過(d)組中的預(yù)測(cè)結(jié)果圖可以看出本網(wǎng)絡(luò)對(duì)車輛的分割邊界比全卷積神經(jīng)網(wǎng)絡(luò)更加清晰.

圖3 全卷積神經(jīng)網(wǎng)絡(luò)與本文網(wǎng)絡(luò)預(yù)測(cè)圖

自動(dòng)駕駛對(duì)使用的圖像分割網(wǎng)絡(luò)處理數(shù)據(jù)的速度有很高的要求,本文使用480×360像素的圖像對(duì)網(wǎng)絡(luò)的inference時(shí)間進(jìn)行實(shí)驗(yàn),同時(shí)也將網(wǎng)絡(luò)參數(shù)量進(jìn)行對(duì)比.表2中包含兩種網(wǎng)絡(luò)的單張圖像處理的時(shí)間(T),網(wǎng)絡(luò)處理圖像速率(V)以及網(wǎng)絡(luò)參數(shù)量(P)的數(shù)據(jù).

表2 全卷積神經(jīng)網(wǎng)絡(luò)與本文網(wǎng)絡(luò)的速度和參數(shù)量

可以從表2中看出本文網(wǎng)絡(luò)的參數(shù)量略高于全卷積神經(jīng)網(wǎng)絡(luò).在處理單張圖像所需時(shí)間以及網(wǎng)絡(luò)每秒鐘處理的幀數(shù)(單張圖像可看作一幀)量來看,本網(wǎng)絡(luò)有輕微的優(yōu)勢(shì).然而,兩個(gè)網(wǎng)絡(luò)處理圖像的速度雖然相近,但都沒有達(dá)到實(shí)時(shí)性的要求.

4 結(jié)語

本文在全卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出一種完全卷積的神經(jīng)網(wǎng)絡(luò)模型,通過一種簡單的編碼解碼結(jié)構(gòu)對(duì)目標(biāo)圖像進(jìn)行語義分割.實(shí)驗(yàn)證明,在CamVid數(shù)據(jù)集上,本文網(wǎng)絡(luò)相較于基礎(chǔ)全卷積神經(jīng)網(wǎng)絡(luò)獲得了更高的語義分割的精確度.與此同時(shí),雖然本網(wǎng)絡(luò)相較于全卷積神經(jīng)網(wǎng)絡(luò)有較好的分割效果,但是其對(duì)較小的對(duì)象的語義分割存在缺陷,且處理速度達(dá)不到實(shí)時(shí)性要求,因此,如何更有效地提高對(duì)圖像中小目標(biāo)的語義分割檢測(cè)效果和網(wǎng)絡(luò)運(yùn)算速度,是下一步要研究的方向.

猜你喜歡
池化層語義像素
趙運(yùn)哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
像素前線之“幻影”2000
卷積神經(jīng)網(wǎng)絡(luò)模型研究分析*
基于卷積神經(jīng)網(wǎng)絡(luò)的紙幣分類與點(diǎn)鈔
基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別研究
科技傳播(2020年6期)2020-05-25 11:07:46
語言與語義
“像素”仙人掌
基于全卷積神經(jīng)網(wǎng)絡(luò)的SAR圖像目標(biāo)分類*
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
高像素不是全部
CHIP新電腦(2016年3期)2016-03-10 14:22:03
丰台区| 巴楚县| 灵璧县| 松滋市| 鹤岗市| 西青区| 雅安市| 新沂市| 天祝| 蚌埠市| 通州区| 克东县| 蓬莱市| 望都县| 周宁县| 孝感市| 普定县| 涿鹿县| 乌审旗| 长丰县| 道孚县| 会宁县| 苏尼特左旗| 临沂市| 阜城县| 青川县| 宁都县| 扎赉特旗| 渭源县| 普格县| 沛县| 县级市| 濮阳县| 宝坻区| 陆川县| 高雄县| 石渠县| 图木舒克市| 静安区| 奉化市| 文成县|