国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征融合的無(wú)人駕駛多任務(wù)感知算法

2023-04-29 10:02:57孫傳龍趙紅崔翔宇牟亮徐福良路來(lái)偉
關(guān)鍵詞:特征融合多任務(wù)無(wú)人駕駛

孫傳龍 趙紅 崔翔宇 牟亮 徐福良 路來(lái)偉

摘要: 為提高無(wú)人駕駛汽車(chē)感知系統(tǒng)硬件資源利用率,構(gòu)建了一種基于特征融合的無(wú)人駕駛多任務(wù)感知算法。采用改進(jìn)的CSPDarknet53作為模型的主干網(wǎng)絡(luò),通過(guò)構(gòu)建特征融合網(wǎng)絡(luò)與特征融合模塊對(duì)多尺度特征進(jìn)行提取與融合,并以7種常見(jiàn)道路物體的檢測(cè)與可行駛區(qū)域的像素級(jí)分割兩任務(wù)為例,設(shè)計(jì)多任務(wù)模型DaSNet(Detection and Segmentation Net)進(jìn)行訓(xùn)練與測(cè)試。使用BDD100K數(shù)據(jù)集對(duì)YOLOv5s、Faster R-CNN以及U-Net模型進(jìn)行訓(xùn)練,并對(duì)mAP、Dice系數(shù)以及檢測(cè)速度等性能指標(biāo)做出對(duì)比分析。研究結(jié)果表明:DaSNet多任務(wù)模型在道路物體檢測(cè)任務(wù)上,mAP值分別比YOLOv5s和Faster RCNN高出0.5%和4.2%,在RTX2080Ti GPU上達(dá)到121FPS的檢測(cè)速度;在占優(yōu)先權(quán)與不占優(yōu)先權(quán)的可行駛區(qū)域上分割的Dice值相較于U-Net網(wǎng)絡(luò)分別高出了4.4%與6.8%,有較明顯的提升。

關(guān)鍵詞: 無(wú)人駕駛;多任務(wù);特征融合;道路物體檢測(cè);可行駛區(qū)域分割

中圖分類號(hào): TP391文獻(xiàn)標(biāo)識(shí)碼: A

Multi-task Sensing Algorithm for Driverless Vehicle Based on Feature Fusion

SUN Chuanlong1,ZHAO Hong1,CUI Xiangyu2,MU Liang1,XU Fuliang1,LU Laiwei1

Abstract:In order to improve the utilization of hardware resources of driverless vehicle perception system, a multi-task driverless vehicle perception algorithm based on feature fusion is constructed. The improved CSPDarknet53 is used as the backbone network of the model, and multi-scale features are extracted and fused by constructing feature fusion network and feature fusion module. The detection of 7 common road objects and pixel-level segmentation of the driving area are taken as examples. Multi-task DaSNet (Detection and Segmentation Net) is designed for training and testing. In order to compare model performance, BDD100K data set is used to train YOLOv5s, Faster R-CNN and U-NET models, and comparative analysis is made on mAP, Dice coefficient and detection speed and other performance indicators. The results showed that DaSNet multi-task model′s mAP value is 0.5% and 4.2% higher than YOLOv5s and Faster RCNN, respectively, and the detection speed of 121FPS can be achieved on RTX2080Ti GPU. Compared with U-NET network, Dice value of segmentation in priority and non-priority drivable are 4.4% and 6.8% higher, showing an obvious improvement.

Key words: driverless vehicle; multi-task; fature fusion; road object dection;driveable area segmentation

0 引言

目前,無(wú)人駕駛已經(jīng)成為眾多國(guó)家的發(fā)展戰(zhàn)略之一,其中,感知系統(tǒng)[1-3]作為無(wú)人駕駛汽車(chē)中不可或缺的部分之一,對(duì)環(huán)境的感知適應(yīng)性、實(shí)時(shí)性直接影響了無(wú)人駕駛汽車(chē)的安全性和可靠性,而目標(biāo)檢測(cè)、語(yǔ)義分割作為感知系統(tǒng)中的兩大任務(wù),其效果將直接影響無(wú)人駕駛汽車(chē)決策系統(tǒng)的決策質(zhì)量。

近年來(lái),深度學(xué)習(xí)[4]在目標(biāo)檢測(cè)、語(yǔ)義分割領(lǐng)域的應(yīng)用取得了重大的突破,這很大程度上歸功于大型數(shù)據(jù)集、計(jì)算機(jī)強(qiáng)大的計(jì)算能力、復(fù)雜的網(wǎng)絡(luò)架構(gòu)和優(yōu)化算法的進(jìn)展。在目標(biāo)檢測(cè)領(lǐng)域,兩階段算法與單階段算法是目前兩大類基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,其中兩階段算法主要有R-CNN[5],其改進(jìn)后的Fast R-CNN[6]以及Faster R-CNN[7],這類算法需要先從圖像中選取候選框,再對(duì)候選框進(jìn)行分類與回歸,雖準(zhǔn)確率較高,但繁瑣的檢測(cè)步驟容易導(dǎo)致出現(xiàn)檢測(cè)速度較低,實(shí)時(shí)性較差等問(wèn)題。以YOLO[8]為代表的單階段算法具有端到端的網(wǎng)絡(luò)結(jié)構(gòu),具有較高的檢測(cè)速度,同時(shí),由于巧妙的網(wǎng)絡(luò)設(shè)計(jì)方式使其具備令人滿意的檢測(cè)準(zhǔn)確率。在圖像語(yǔ)義分割領(lǐng)域,基于區(qū)域分類的圖像語(yǔ)義分割和基于像素分類的圖像語(yǔ)義分割是目前主流的基于深度學(xué)習(xí)的語(yǔ)義分割方法,前者先將圖像劃分為一系列目標(biāo)候選區(qū)域,通過(guò)深度學(xué)習(xí)算法對(duì)目標(biāo)區(qū)域進(jìn)行分類,避免了超像素的生成,有效提高了圖像分割效率,其代表有MPA[9]、DeepMask[10]等;后者則是以像素分類的方式直接利用端到端結(jié)構(gòu)的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行分割,避免了生成候選區(qū)域算法缺陷帶來(lái)的問(wèn)題,其代表有DeepLab[11]、ICNet[12]、U-Net[13]等。

以上算法雖然都在對(duì)應(yīng)的感知系統(tǒng)各項(xiàng)任務(wù)中取得了較好的效果,但“一項(xiàng)任務(wù)對(duì)應(yīng)一種算法模型”的方式,忽略了感知系統(tǒng)各項(xiàng)任務(wù)特征之間的聯(lián)系,這不僅加劇了感知系統(tǒng)的計(jì)算負(fù)擔(dān),而且降低了無(wú)人駕駛汽車(chē)中有限硬件資源的利用率。本文針對(duì)這一問(wèn)題,通過(guò)整合感知系統(tǒng)各項(xiàng)任務(wù)特征之間的聯(lián)系與各項(xiàng)任務(wù)的算法結(jié)構(gòu)特點(diǎn),提出了一種基于特征融合[14]的端到端的多任務(wù)算法模型DaSNet(Detection and Segmentation Net),挖掘多任務(wù)之間的信息,通過(guò)算法自學(xué)習(xí)來(lái)優(yōu)化各項(xiàng)任務(wù)損失的權(quán)重,得到最佳權(quán)重配比,且構(gòu)建了可行駛區(qū)域分割與道路目標(biāo)檢測(cè)的多任務(wù)輕量化網(wǎng)絡(luò),在提高了無(wú)人駕駛道路環(huán)境感知系統(tǒng)中硬件資源的利用率的同時(shí)提升了檢測(cè)與分割任務(wù)的精度。

1 DaSNet算法結(jié)構(gòu)

DaSNet整體算法結(jié)構(gòu)如圖1所示,該模型由主干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)、道路物體檢測(cè)層以及可行駛區(qū)域分割網(wǎng)絡(luò)四部分組成。

輸入數(shù)字圖像經(jīng)過(guò)特定的預(yù)處理操作后輸入到主干網(wǎng)絡(luò),提取不同抽象等級(jí)的特征,并將得到的不同的尺度特征圖輸入到特征融合網(wǎng)絡(luò)中,在特征融合網(wǎng)絡(luò)中經(jīng)過(guò)多次上采樣與卷積操作,與其它特征圖融合以增強(qiáng)特征表達(dá)能力,最終輸出融合后3種尺度的特征圖;道路物體檢測(cè)層分別在3個(gè)特征圖上進(jìn)行檢測(cè)并輸出車(chē)輛、行人以及路標(biāo)等道路物體的預(yù)測(cè)信息。同時(shí),可行駛區(qū)域分割網(wǎng)絡(luò)將來(lái)自主干網(wǎng)絡(luò)的可行駛區(qū)域的通用語(yǔ)義特征,即待預(yù)測(cè)圖像中的淺層語(yǔ)義信息和圖像內(nèi)容信息,與來(lái)自特征融合網(wǎng)絡(luò)的特征包含車(chē)輛行人等可能阻礙汽車(chē)前進(jìn)的物體的類別與位置信息通過(guò)Fusion融合模塊進(jìn)行自底向上的特征融合,恢復(fù)圖像細(xì)節(jié)與分辨率,實(shí)現(xiàn)對(duì)圖像中可行駛區(qū)域的像素級(jí)預(yù)測(cè),進(jìn)而達(dá)到在一個(gè)模型上同時(shí)完成兩類任務(wù)的效果,其網(wǎng)絡(luò)的構(gòu)建為本文的重點(diǎn)。

1.1 主干網(wǎng)絡(luò)

主干網(wǎng)絡(luò)作為整個(gè)模型的前置部分,負(fù)責(zé)提取圖像中的信息,生成特征圖,供后置功能網(wǎng)絡(luò)使用。本文改進(jìn)了CSPDarknet53作為模型的主干網(wǎng)絡(luò),主要由改進(jìn)的Focus層,卷積塊CBL(Conv+Batchnorm+Leaky ReLU),殘差單元(ResUnit),跨階段局部單元CSP(Cross Stage Partial)和空間金字塔池化層SPP(Spatial Pyramid Pooling)組成,其結(jié)構(gòu)如圖2所示。為更好地保留輸入圖像原始信息,在DaSNet模型中對(duì)YOLOv5s中的Focus層做了結(jié)構(gòu)上的改進(jìn),即在原來(lái)的結(jié)構(gòu)基礎(chǔ)上增加一條通路,直接將輸入圖像進(jìn)行卷積,再將兩條通路進(jìn)行拼接后,經(jīng)過(guò)一次卷積,即可得到改進(jìn)的Focus層的輸出。這種結(jié)構(gòu)能在YOLOv5s中Focus層優(yōu)勢(shì)的基礎(chǔ)上,更多地保留原始圖像信息,并且將兩條通路結(jié)合,豐富輸入圖像信息,使后續(xù)卷積層可以獲得更好的特征提取效果。

DaSNet模型中全部采用Leaky ReLU作為激活函數(shù)對(duì)卷積層得到的運(yùn)算結(jié)果進(jìn)行非線性激活,如圖3所示,傳統(tǒng)的ReLU激活函數(shù)雖然具有較快的計(jì)算速度與收斂速度,但當(dāng)輸入為負(fù)值時(shí),會(huì)因?yàn)槠?輸出導(dǎo)致神經(jīng)元無(wú)法更新參數(shù);而Leaky ReLU函數(shù)相較于傳統(tǒng)的ReLU函數(shù)在輸入的負(fù)半?yún)^(qū)間引入了Leaky值,避免了輸入為負(fù)值時(shí)0導(dǎo)數(shù)的出現(xiàn)導(dǎo)致神經(jīng)元無(wú)法更新參數(shù)的問(wèn)題。

1.2 特征融合網(wǎng)絡(luò)

原始圖像中一些小尺寸目標(biāo)本身具有的像素較少,最后一層特征圖在經(jīng)過(guò)多次卷積與下采樣操作后,很可能將小尺寸目標(biāo)對(duì)應(yīng)的像素和信息丟失,因此,若僅使用主干網(wǎng)絡(luò)最后一層輸出特征來(lái)進(jìn)行目標(biāo)的預(yù)測(cè),則會(huì)導(dǎo)致漏檢;且在主干網(wǎng)絡(luò)中,靠前的淺層卷積層更容易提取到抽象級(jí)別較低的圖像內(nèi)容信息,而較深卷積層更容易提取到抽象等級(jí)較高的特征信息,若只對(duì)主干網(wǎng)絡(luò)最后一層的特征圖進(jìn)行檢測(cè),容易漏掉許多原始圖像的內(nèi)容信息,從而導(dǎo)致檢測(cè)結(jié)果不理想。因此在主干網(wǎng)絡(luò)后,加入特征融合網(wǎng)絡(luò),從主干網(wǎng)絡(luò)中提取多個(gè)尺度的特征并進(jìn)行融合,進(jìn)而使用融合后含有豐富信息的特征進(jìn)行檢測(cè),使檢測(cè)性能得到大幅提升。

類比PAN[15](Path Aggregation Network)特征融合網(wǎng)絡(luò),采用CSP2-1模塊作為基本單元構(gòu)成如圖4所示的特征融合網(wǎng)絡(luò)結(jié)構(gòu)。這種使用CPS2-1模塊改進(jìn)的PAN結(jié)構(gòu)多了一輪自低而上的融合步驟,提高了模型的特征表達(dá)能力,使融合后的特征含有更豐富的語(yǔ)義信息,從而進(jìn)一步提升檢測(cè)效果。

1.3 道路物體檢測(cè)網(wǎng)絡(luò)

道路物體檢測(cè)網(wǎng)絡(luò)來(lái)自特征融合網(wǎng)絡(luò)輸出的3個(gè)特征,分別對(duì)其進(jìn)行卷積操作,將3個(gè)輸出張量作為預(yù)測(cè)結(jié)果,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

DaSNet模型中先驗(yàn)框初始值設(shè)置為橫向矩形,方形與縱向矩形3種,在道路感知場(chǎng)景中,這3種先驗(yàn)框的配置可以很好地適應(yīng)車(chē)輛,路標(biāo)以及行人等目標(biāo)的預(yù)測(cè)。隨著網(wǎng)絡(luò)的訓(xùn)練,模型會(huì)根據(jù)數(shù)據(jù)集標(biāo)簽框的數(shù)值分布,自適應(yīng)地對(duì)先驗(yàn)框大小做出調(diào)整。

1.4 可行駛區(qū)域分割網(wǎng)絡(luò)

可行駛區(qū)域分割網(wǎng)絡(luò)作為DaSNet模型的第22分支,負(fù)責(zé)對(duì)道路前方可以行駛的區(qū)域進(jìn)行像素級(jí)分割,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

目前大多算法使用單獨(dú)的分割網(wǎng)絡(luò)對(duì)區(qū)域進(jìn)行預(yù)測(cè),不但會(huì)消耗大量的算力,且由于路面區(qū)域語(yǔ)義特征不明顯,導(dǎo)致分割準(zhǔn)確率較差。而DaSNet中的可行使區(qū)域分割網(wǎng)絡(luò)的輸入分別來(lái)主干網(wǎng)絡(luò)以及特征融合網(wǎng)絡(luò)。來(lái)自主干網(wǎng)絡(luò)的特征包含待預(yù)測(cè)圖像中的淺層語(yǔ)義信息以及圖像內(nèi)容信息,能提供可行駛區(qū)域的通用語(yǔ)義特征;來(lái)自特征融合網(wǎng)絡(luò)的特征包含車(chē)輛行人等可能阻礙汽車(chē)前進(jìn)的物體的類別與位置信息;輸入特征在經(jīng)過(guò)上采樣后,經(jīng)過(guò)融合模塊Fusion與尺寸大一倍的輸入特征進(jìn)行融合。并在每?jī)纱蜦usion操作后使用CSP模塊進(jìn)行特征增強(qiáng),最后使用一個(gè)卷積層得到分割結(jié)果,其兩通道分別表示對(duì)應(yīng)像素為占優(yōu)先權(quán)的可行駛區(qū)域與不占優(yōu)先權(quán)的不可行駛區(qū)域的概率,若預(yù)測(cè)值小于閾值則認(rèn)為該像素點(diǎn)為不可行駛區(qū)域,其中閾值的選取與檢測(cè)分支的閾值選取同理。

可行使區(qū)域分割網(wǎng)絡(luò)融合模塊Fusion將兩個(gè)輸入特征按通道方向拼接后進(jìn)行兩次CBL模塊運(yùn)算,并使用上采樣層恢復(fù)特征圖像細(xì)節(jié)與分辨率,作為下一個(gè)Fusion模塊的輸入特征。

將區(qū)域分割的任務(wù)融合到道路物體檢測(cè)網(wǎng)絡(luò)中,作為一個(gè)附加的分支,達(dá)到在一個(gè)模型上同時(shí)完成兩類任務(wù)的效果,由于共用主干網(wǎng)絡(luò)以及特征融合網(wǎng)絡(luò)的特征,分割網(wǎng)絡(luò)可以獲取到模型已提取到的道路物體語(yǔ)義信息,由于道路前方的汽車(chē)與行人等障礙物會(huì)使可行駛區(qū)域發(fā)生改變,因此利用這些道路物體語(yǔ)義特征對(duì)可行駛區(qū)域進(jìn)行預(yù)測(cè),在減少算力的同時(shí),也可以使分割效果明顯提升。

2 損失函數(shù)與數(shù)據(jù)集

2.1 損失函數(shù)設(shè)計(jì)

IoU(Intersection over Union)為交并比,是目前檢測(cè)中比較常用的指標(biāo),可以反映出預(yù)測(cè)檢測(cè)框與真實(shí)檢測(cè)框的檢測(cè)效果,計(jì)算公式為

式(4)中,confLoss為單個(gè)預(yù)測(cè)框的置信度損失,yconfi為該預(yù)測(cè)框的置信度預(yù)測(cè)值,當(dāng)檢測(cè)目標(biāo)預(yù)測(cè)框的網(wǎng)格處有標(biāo)記物體時(shí)tconfi為1,否則為0;式(5)中clsLoss為分類概率損失,當(dāng)標(biāo)記物體的類別為i時(shí),tclsi為1,否則為0,yclsi為模型輸出預(yù)測(cè)框類別為i的概率。

在訓(xùn)練分割網(wǎng)絡(luò)時(shí),選擇合適的損失函數(shù),也能使網(wǎng)絡(luò)得到更準(zhǔn)確光滑的分割效果。本文選用一種由度量集合相似度的度量函數(shù)演化而來(lái)的DiceLoss,其計(jì)算公式為

(6)

其中,X和Y分別為標(biāo)簽像素與預(yù)測(cè)像素,反映了區(qū)域與標(biāo)簽像素區(qū)域的重合關(guān)系。Dice損失更注重于優(yōu)化預(yù)測(cè)區(qū)域與標(biāo)簽區(qū)域的重合關(guān)系,更適合于DaSNet模型的可行駛區(qū)域分割任務(wù),因此在訓(xùn)練可行駛區(qū)域分割網(wǎng)絡(luò)時(shí)選擇DiceLoss作為損失函數(shù)。

2.2 BDD100K網(wǎng)絡(luò)數(shù)據(jù)集

本文采用2018年5月伯克利大學(xué)AI實(shí)驗(yàn)室發(fā)布的BDD100K數(shù)據(jù)集,其中包含10萬(wàn)個(gè)高清視頻序列,總時(shí)長(zhǎng)超過(guò)1 100 h,涵蓋不同時(shí)間、不同天氣條件和駕駛場(chǎng)景。每個(gè)視頻對(duì)第10秒進(jìn)行關(guān)鍵幀采樣,得到10萬(wàn)張尺寸為1 280*720的圖片,并對(duì)道路物體、可行駛區(qū)域、車(chē)道線和全幀實(shí)例分割進(jìn)行標(biāo)注,這些標(biāo)記能使模型更好地理解不同場(chǎng)景中數(shù)據(jù)和對(duì)象的多樣性。

如圖7所示,在BDD100K數(shù)據(jù)集中,8用于目標(biāo)檢測(cè)的有公共汽車(chē)、交通燈、交通標(biāo)志、人、自行車(chē)、卡車(chē)、摩托車(chē)、汽車(chē)、火車(chē)和乘車(chē)人等共上百萬(wàn)個(gè)目標(biāo)物體的標(biāo)注數(shù)據(jù);且有超過(guò)10萬(wàn)張相關(guān)圖像含有用于語(yǔ)義分割與實(shí)例分割的像素級(jí)注釋和豐富實(shí)例級(jí)注釋;也有超過(guò)10萬(wàn)張圖片的多種車(chē)道線標(biāo)注可用于車(chē)道線的檢測(cè)。

3 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析

本文使用的模型訓(xùn)練環(huán)境均為高性能的桌面臺(tái)式機(jī),選用微星Z390主板、搭載Intel i9 9900KF處理器以及32GB運(yùn)行內(nèi)存,采用11G顯存的Nvidia Geforce RTX2080Ti GPU進(jìn)行模型的訓(xùn)練與測(cè)試;軟件方面,系統(tǒng)選用Ubuntu20.04版本,集成開(kāi)發(fā)工具選用PyCharm 2020版本并結(jié)合Anaconda包管理器創(chuàng)建conda虛擬環(huán)境,使用Python3.7環(huán)境下的Pytorch10.1版本進(jìn)行算法模型的開(kāi)發(fā)與測(cè)試。

3.1 檢測(cè)主分支訓(xùn)練

在道路物體檢測(cè)分支網(wǎng)絡(luò)訓(xùn)練過(guò)程中,對(duì)主干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)以及檢測(cè)層做前向傳播,根據(jù)標(biāo)簽數(shù)據(jù)求出分類損失、置信度損失以及檢測(cè)框損失,在反向傳播后,使用隨機(jī)梯度下降算法更新主干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)以及檢測(cè)層的網(wǎng)絡(luò)權(quán)重參數(shù)。在整個(gè)訓(xùn)練過(guò)程中,采用大小為16的batch size,并設(shè)置初始學(xué)習(xí)率為0.1,設(shè)置如圖8所示的學(xué)習(xí)率調(diào)整策略,在7萬(wàn)張圖像的訓(xùn)練集上進(jìn)行300次迭代,由于Mosaic數(shù)據(jù)增強(qiáng)方法每次融合4張圖片,且網(wǎng)絡(luò)使用了較高性能的預(yù)訓(xùn)練權(quán)重,因此300次迭代足夠使模型達(dá)到收斂后較平穩(wěn)的區(qū)域。在網(wǎng)絡(luò)剛開(kāi)始訓(xùn)練的階段,由于部分權(quán)重參數(shù)是隨機(jī)初始化生成的,如果使用較高的學(xué)習(xí)率會(huì)使訓(xùn)練過(guò)程非常不穩(wěn)定,所以采用warm up的方式在訓(xùn)練前4次迭代中將學(xué)習(xí)率逐漸增加到初始學(xué)習(xí)率0.01;在網(wǎng)絡(luò)訓(xùn)練后期,權(quán)重在最優(yōu)值附近,一直使用較高學(xué)習(xí)率會(huì)使權(quán)重每次都有較大變換,導(dǎo)致?lián)p失值在最小值左右來(lái)回震蕩,使用余弦退火的學(xué)習(xí)率衰減策略,使學(xué)習(xí)率在訓(xùn)練過(guò)程中不斷下降,從而使損失值收斂于最優(yōu)點(diǎn)。

模型訓(xùn)練過(guò)程中在驗(yàn)證集上的損失值迭代曲線如圖9所示,最上方為分類損失,中間為GIoU損失,下方為置信度損失??梢钥闯觯谟?xùn)練開(kāi)始階段,3種損失值較大,隨著學(xué)習(xí)率增加為初始值,損失值開(kāi)始較快下降,隨著訓(xùn)練迭代次數(shù)的增加,由于調(diào)整策略的調(diào)整學(xué)習(xí)率緩慢下降,損失值的下降逐漸趨于平穩(wěn),在240次迭代中損失值到達(dá)最優(yōu)值,將此時(shí)的網(wǎng)絡(luò)權(quán)重保存作為最終訓(xùn)練結(jié)果,并對(duì)其性能做出評(píng)價(jià)。

3.2 分割分支訓(xùn)練

由于可行駛區(qū)域分割網(wǎng)絡(luò)以道路物體檢測(cè)網(wǎng)絡(luò)的特征層作為輸入,因此分割網(wǎng)絡(luò)的訓(xùn)練必須在道路物體檢測(cè)網(wǎng)絡(luò)訓(xùn)練之后進(jìn)行,訓(xùn)練時(shí)對(duì)主干網(wǎng)絡(luò),特征融合網(wǎng)絡(luò)以及分割網(wǎng)絡(luò)做前向傳播,網(wǎng)絡(luò)輸出與輸入圖像尺寸相同的掩膜,掩膜與標(biāo)記掩膜求Dice損失,并反向傳播,在更新網(wǎng)絡(luò)權(quán)重時(shí),將主干網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò)的參數(shù)固定,只對(duì)可行駛區(qū)域分割網(wǎng)絡(luò)進(jìn)行權(quán)重參數(shù)的更新。

分割網(wǎng)絡(luò)分支無(wú)預(yù)訓(xùn)練的權(quán)重,因此將訓(xùn)練的迭代次數(shù)增加到600次,與檢測(cè)網(wǎng)絡(luò)采用相同學(xué)習(xí)率衰減策略與0.1的初始學(xué)習(xí)率,batch size同樣設(shè)置為16。網(wǎng)絡(luò)訓(xùn)練過(guò)程的損失值迭代曲線如圖10所示??梢钥闯觯捎谥鞲删W(wǎng)絡(luò)在檢測(cè)分支的訓(xùn)練過(guò)程中預(yù)先學(xué)習(xí)到了圖像的通用特征,因此分割網(wǎng)絡(luò)損失值有著較低的初始值,且在訓(xùn)練過(guò)程中隨著學(xué)習(xí)率的調(diào)整不斷波動(dòng),在最后100次迭代中收斂于最優(yōu)值。

3.3 模型預(yù)測(cè)效果展示

在預(yù)測(cè)過(guò)程中,圖片經(jīng)過(guò)自適應(yīng)填充縮放后,輸入到加載了訓(xùn)練過(guò)的權(quán)重的模型中進(jìn)行前向傳播并得到預(yù)測(cè)結(jié)果,將其解碼后經(jīng)過(guò)非極大值抑制算法過(guò)濾掉多余檢測(cè)框,并將檢測(cè)結(jié)果恢復(fù)到原始圖像的尺度,使用openCV庫(kù)在原始圖像上進(jìn)行結(jié)果繪制,即可得到如圖11所示的預(yù)測(cè)效果圖。

從圖11可以看出,DaSNet模型對(duì)距離較近的行人、汽車(chē)以及路標(biāo)等有著非常精確的檢測(cè)效果,且置信度較高;對(duì)遠(yuǎn)處較小的汽車(chē)與行人目標(biāo)也有著較高的檢測(cè)率。分割網(wǎng)絡(luò)也能夠較準(zhǔn)確地識(shí)別出前方可行駛的道路區(qū)域,并且能明顯地區(qū)分出前方占優(yōu)先權(quán)的車(chē)道與不占有優(yōu)先權(quán)的車(chē)道。

3.4 道路物體檢測(cè)網(wǎng)絡(luò)對(duì)比分析

召回率與準(zhǔn)確率是目標(biāo)檢測(cè)領(lǐng)域常見(jiàn)的兩個(gè)指標(biāo),召回率代表模型在所有待預(yù)測(cè)目標(biāo)中的已檢測(cè)數(shù)量,而準(zhǔn)確率則代表模型預(yù)測(cè)正確數(shù)量。兩個(gè)指標(biāo)通常呈負(fù)相關(guān)的關(guān)系,因此經(jīng)常通過(guò)綜合評(píng)價(jià)召回率與準(zhǔn)確率的方法來(lái)評(píng)價(jià)模型性能,計(jì)算公式為

對(duì)某一分類,從0.5到0.95中每隔0.05取一個(gè)值作為預(yù)測(cè)框的IoU閾值,并在所有取到的閾值下計(jì)算其召回率與準(zhǔn)確率,并作為橫坐標(biāo)與縱坐標(biāo)繪制P-R曲線,曲線下的面積即為當(dāng)前分類的AP值。mAP值即為所有分類AP值的平均值。其計(jì)算公式為

其中,c為當(dāng)前分類的編號(hào),n為總類別數(shù),precision(recall)為當(dāng)前召回率下準(zhǔn)確率的值。mAP值為模型檢測(cè)的精度,而檢測(cè)速度是除mAP之外另一個(gè)重要的評(píng)價(jià)指標(biāo),通常使用FPS(Frames per second)為單位,表示模型在一秒鐘內(nèi)能完成檢測(cè)的圖像數(shù)量。根據(jù)上述評(píng)價(jià)指標(biāo),使用BDD100K數(shù)據(jù)集中1萬(wàn)張驗(yàn)證集進(jìn)行推理測(cè)試,繪制其在驗(yàn)證集上的P-R曲線,并計(jì)算mAP、mAP50以及推理速度,結(jié)果如圖12所示。

可以看到,模型對(duì)于不同類別有著不同的P-R曲線,其中深黑色曲線為根據(jù)驗(yàn)證集中所有類別的所有目標(biāo)求得的P-R曲線,利用該曲線可以求出模型的mAP值為33.7%;記錄模型對(duì)整個(gè)驗(yàn)證集的推理時(shí)間,利用驗(yàn)證集數(shù)量求得模型的推理速度為121FPS。

為更好地評(píng)估DaSNet檢測(cè)分支的性能,分別選用目標(biāo)檢測(cè)領(lǐng)域單階段與兩階段兩類算法中性能最優(yōu)的算法進(jìn)行對(duì)比實(shí)驗(yàn),分別使用搭載了CSPDarknet53主干網(wǎng)絡(luò)與FPN特征融合網(wǎng)絡(luò)的YOLOv5s(YOLOv5s與DaSNet模型量級(jí)相近)模型與搭載了VGG16的Faster R-CNN模型在BDD100K訓(xùn)練集上進(jìn)行300次迭代,并計(jì)算相關(guān)指標(biāo),分別記錄其mAP值、mAP50值以及檢測(cè)速度,結(jié)果如表1所示??梢?jiàn),DaSNet模型的道路物體檢測(cè)網(wǎng)絡(luò)比YOLOv5s模型速度稍慢,但提升了0.5%的mAP與1.1%的mAP50;且在檢測(cè)速度遠(yuǎn)高于Faster R-CNN模型的同時(shí),比其高了4.2%的mAP與7.4%的mAP50。因此DaSNet模型相較于當(dāng)前主流的目標(biāo)檢測(cè)算法有了一定的提升。

3.5 可行駛區(qū)域分割網(wǎng)絡(luò)對(duì)比分析

與損失函數(shù)保持一致,使用Dice系數(shù)對(duì)可行駛區(qū)域分割網(wǎng)絡(luò)性能做出評(píng)估,其計(jì)算公式為

其中,X為數(shù)據(jù)集的標(biāo)記掩膜,Y為模型預(yù)測(cè)掩膜,該系數(shù)很好地反映了標(biāo)簽掩膜與預(yù)測(cè)掩膜的重合關(guān)系,從而評(píng)估模型性能。

使用BDD100K訓(xùn)練集在U-Net網(wǎng)絡(luò)上進(jìn)行600次迭代,并在驗(yàn)證集上對(duì)訓(xùn)練后的U-Net模型進(jìn)行測(cè)試,計(jì)算其對(duì)占優(yōu)先權(quán)與不占優(yōu)先權(quán)兩種可行駛區(qū)域的Dice系數(shù),并與DaSNet模型的道路物體檢測(cè)網(wǎng)絡(luò)對(duì)比,兩種模型預(yù)測(cè)效果如圖13所示。

由圖13可以看出,相較于U-Net,本文設(shè)計(jì)的DaSNet模型在可行駛區(qū)域邊緣部分的分割效果更加平滑,且對(duì)于車(chē)輛與行人周?chē)膮^(qū)域,能更加精細(xì)地將可行駛區(qū)域分割出來(lái),這說(shuō)明加入的來(lái)自道路物體檢測(cè)網(wǎng)絡(luò)的輸入特征層確實(shí)能影響可行駛區(qū)域的分割效果。

由表2可以看出,DaSNet模型在BDD100K數(shù)據(jù)集的可行駛區(qū)域分割效果上,相較于U-Net有著較大的提升,說(shuō)明融合道路物體語(yǔ)義信息的可行駛區(qū)域分割方法在無(wú)人駕駛場(chǎng)景感知中有更好的效果;也說(shuō)明了基于多任務(wù)間特征融合的模型設(shè)計(jì)方法的有效性。

4 結(jié)論

經(jīng)驗(yàn)證,DaSNet對(duì)常見(jiàn)的7種道路物體有較高的檢測(cè)精度,在夜晚等復(fù)雜環(huán)境中幾乎沒(méi)有誤檢漏檢,具有較好的魯棒性,且能有效地對(duì)前方道路的可行駛區(qū)域進(jìn)行像素級(jí)分割,其輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)模型也帶來(lái)了可靠的實(shí)時(shí)性。通過(guò)對(duì)比實(shí)驗(yàn)可知,DaSNet相較于當(dāng)前主流的單一任務(wù)的預(yù)測(cè)模型有著更好的表現(xiàn)效果。這說(shuō)明本文提出的利用多任務(wù)特征共享的模型設(shè)計(jì)方法確實(shí)能有效改善模型的性能,在提高了無(wú)人駕駛道路環(huán)境感知系統(tǒng)中硬件資源利用率的同時(shí)提升了檢測(cè)與分割任務(wù)的精度,為提高感知系統(tǒng)的運(yùn)行效率起到積極作用。

參考文獻(xiàn):

[1]王俊. 無(wú)人駕駛車(chē)輛環(huán)境感知系統(tǒng)關(guān)鍵技術(shù)研究[D]. 合肥:中國(guó)科學(xué)技術(shù)大學(xué), 2016.

WANG J. Research on keytechnologies of environment awareness system for unmanned vehicle [D]. Hefei: University of Science and Technology of China, 2016.

[2]王世峰, 戴祥, 徐寧, 等. 無(wú)人駕駛汽車(chē)環(huán)境感知技術(shù)綜述[J]. 長(zhǎng)春理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017,40(1): 1-6.

WANG S F, DAI X, XU N, et al. Overview on environment perception technology for unmanned ground vehicle[J]. Journal of Changchun University of Science and Technology (Natural Science Edition), 2017,40(1): 1-6.

[3]CHEN Q, XIE Y, GUO S, et al. Sensingsystem of environmental perception technologies for driverless vehicle: a review of state of the art and challenges[J]. Sensors and Actuators A Physical, 2021, 319: 112566.

[4]GAYATHRIK D, MAMATA R, NGUYEN T D L. Artificial intelligence trends for data analytics using machine learning and deep learning approaches[M]. USA: Calabasas: CRC Press, 2020.

[5]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580-587.

[6]GIRSHICK R. Fast r-cnn [C]// IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1440-1448.

[7]REN S, HE K, GIRSHICK R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.

[8]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once:unified, real-time object detection[C]// IEEE conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[9]LIU S, QI X, SHI J, et al. Multi-scalepatch aggregation (MPA) for simultaneous detection and segmentation[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Seattle :IEEE, 2016: 3141-3149.

[10] PINHEIRO P, COLLOBERT R, DOLLAR P. Learning tosegments objects candidates[C]// Advances in Neural Information Processing Systems. Montreal:NIPS,2015.

[11] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semanticimage segmentation with deep convolutional nets and fully connected CRFs[J]. Computer Science, 2014(4): 357-361.

[12] ZHAO H SH, QI X J, SHEN X Y, et al. ICNet forreal-time semantic segmentation on high-resolution images[J]. Lecture Notes in Computer Science, 2017, 11207: 418-434.

[13] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[J]. Lecture Notes in Computer Science, 2015, 9351: 234-241.

[14] 李亞. 多任務(wù)學(xué)習(xí)的研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué), 2018.

LI Y. Research on multi-task learning [D]. Hefei: University of Science and Technology of China, 2018.

[15] LIU S H, QI L, QIN H F, et al. Path aggregation network for instance segmentation[J/OL]. IEEE.[2021-10-01]. DOI:10.1109/CVPR.2018.00913.

[16] REZATOFIGHI H, TSOI N, J Y GWAK, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach:IEEE, 2019: 658-666.

(責(zé)任編輯 李 進(jìn))

收稿日期: 2021-11-07;修回日期:2022-04-07

基金項(xiàng)目: 山東省重點(diǎn)研發(fā)計(jì)劃(2018GGX105004);青島市民生科技計(jì)劃(19-6-1-88-nsh)

第一作者: 孫傳龍(1997-),男,山東淄博人,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí)與計(jì)算機(jī)視覺(jué)在無(wú)人駕駛中的應(yīng)用。

通信作者: 趙紅? (1973-),女,河南南陽(yáng)人,博士,副教授,主要研究方向?yàn)檐?chē)輛節(jié)能減排與新能源技術(shù)。

猜你喜歡
特征融合多任務(wù)無(wú)人駕駛
我們村的無(wú)人駕駛公交
無(wú)人駕駛車(chē)輛
科學(xué)(2020年3期)2020-11-26 08:18:28
無(wú)人駕駛公園
基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
基于移動(dòng)端的樹(shù)木葉片識(shí)別方法的研究
科技資訊(2017年11期)2017-06-09 18:28:13
基于SIFT特征的港口內(nèi)艦船檢測(cè)方法
融合整體與局部特征的車(chē)輛型號(hào)識(shí)別方法
基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
基于MATLAB的道路交通標(biāo)志識(shí)別
吴堡县| 景德镇市| 天镇县| 天全县| 遂溪县| 南靖县| 宁晋县| 乌鲁木齐市| 陕西省| 徐闻县| 余干县| 晋中市| 上林县| 鄂尔多斯市| 陇西县| 巴彦县| 苍溪县| 宕昌县| 阜宁县| 万安县| 阿勒泰市| 调兵山市| 额尔古纳市| 勃利县| 交城县| 甘肃省| 武陟县| 闵行区| 北安市| 乾安县| 长宁县| 玉环县| 敦煌市| 洞口县| 英吉沙县| 蓬莱市| 理塘县| 嘉兴市| 宿州市| 玉山县| 曲阜市|