国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)BiSeNet的室內(nèi)場(chǎng)景語(yǔ)義分割方法

2021-06-04 07:21:00張立國(guó)
計(jì)量學(xué)報(bào) 2021年4期
關(guān)鍵詞:室內(nèi)環(huán)境語(yǔ)義損失

張立國(guó),程 瑤,金 梅,王 娜

(燕山大學(xué) 電氣工程學(xué)院,河北 秦皇島 066004)

1 引 言

近些年來(lái),人工智能與智能機(jī)器人技術(shù)日新月異,智能機(jī)器人在人們的生活中越來(lái)越多的被使用到。隨著各種智慧型建筑越來(lái)越常見(jiàn),人們對(duì)室內(nèi)智能服務(wù)型機(jī)器人的需求也越來(lái)越大;室內(nèi)智能服務(wù)型機(jī)器人在導(dǎo)航過(guò)程中,為了達(dá)到智能化和較好的人機(jī)交互能力,主要使用的是室內(nèi)語(yǔ)義地圖(semantic map)[1],在語(yǔ)義地圖中每個(gè)不同的物體都會(huì)用相應(yīng)的標(biāo)簽集合來(lái)表示,以此來(lái)方便機(jī)器人對(duì)環(huán)境的理解,提高工作機(jī)器人的人機(jī)交互能力。

目前最常使用的語(yǔ)義地圖構(gòu)建方法有3種,第一種是在度量地圖上使用大量的語(yǔ)義標(biāo)簽來(lái)進(jìn)行標(biāo)注[2,3]。這種使用語(yǔ)義標(biāo)簽標(biāo)注的方法,當(dāng)機(jī)器人工作環(huán)境一旦改變,就需要重新構(gòu)建標(biāo)簽。第二種是使用視覺(jué)導(dǎo)航的方法[4~6],通過(guò)相機(jī)采集的環(huán)境圖像進(jìn)行特征匹配。此方法受到特征匹配算法和環(huán)境數(shù)據(jù)庫(kù)質(zhì)量的影響,當(dāng)環(huán)境數(shù)據(jù)庫(kù)比較大時(shí),算法響應(yīng)慢。第三種則是使用深度學(xué)習(xí)的語(yǔ)義分割技術(shù)結(jié)合SLAM技術(shù)構(gòu)建語(yǔ)義地圖[7~9]。由于深度學(xué)習(xí)技術(shù)的飛速發(fā)展,使用深度學(xué)習(xí)語(yǔ)義分割技術(shù)對(duì)室內(nèi)場(chǎng)景進(jìn)行語(yǔ)義識(shí)別,然后通過(guò)SLAM技術(shù)來(lái)構(gòu)建智能機(jī)器人語(yǔ)義地圖的方法被越來(lái)越多的應(yīng)用。

然而室內(nèi)場(chǎng)景復(fù)雜多變,室內(nèi)環(huán)境所含物體類別多,而且每一類物體都有很多種類型,室內(nèi)環(huán)境中各種物體也經(jīng)常出現(xiàn)相互遮掩。這些問(wèn)題都是室內(nèi)環(huán)境語(yǔ)義分割所需要解決的關(guān)鍵問(wèn)題。

針對(duì)上述室內(nèi)環(huán)境語(yǔ)義分割技術(shù)的問(wèn)題,本文在語(yǔ)義分割效果較好的神經(jīng)網(wǎng)絡(luò)模型BiSeNet的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上進(jìn)行針對(duì)性改進(jìn),通過(guò)在上下文路徑的輕型特征提取網(wǎng)絡(luò)末端引入一個(gè)空洞金字塔模型,得到深層抽象特征,然后使用一個(gè)多尺度特征融合模塊(MsFFM,multi-scale feature fusion module)將輕型特征提取網(wǎng)絡(luò)的淺層細(xì)節(jié)特征和深層抽象特征進(jìn)行融合,獲得增強(qiáng)的上下文信息特征。通過(guò)改進(jìn)的上下文路徑,可以獲得更好的室內(nèi)場(chǎng)景分割結(jié)果。

2 研究方法

本文主要的研究任務(wù)是對(duì)室內(nèi)環(huán)境的各種語(yǔ)義信息進(jìn)行精準(zhǔn)分割。其中創(chuàng)新點(diǎn)是在語(yǔ)義分割任務(wù)上表現(xiàn)較好的神經(jīng)網(wǎng)絡(luò)模型BiSeNet[10]的基礎(chǔ)上,對(duì)其上下文路徑進(jìn)行針對(duì)性改進(jìn),增強(qiáng)了上下文路徑中提取的語(yǔ)義特征信息,使網(wǎng)絡(luò)的分割性能得到提升。

2.1 BiSeNet語(yǔ)義分割模型

本文研究的是語(yǔ)義分割任務(wù),所以首先要得到一個(gè)分割效果較好的網(wǎng)絡(luò)模型。研究使用了雙邊分割網(wǎng)絡(luò)BiSeNet進(jìn)行語(yǔ)義分割訓(xùn)練。雙邊分割網(wǎng)絡(luò)設(shè)計(jì)有2個(gè)分支網(wǎng)絡(luò),空間路徑(spatial path)和上下文路徑(context path),這2個(gè)組件分別針對(duì)空間信息的丟失和感受野的縮小而設(shè)計(jì)。2條路徑的設(shè)計(jì)理念很明確。對(duì)于空間路徑,僅使用少數(shù)的、大核的卷積操作,得到較大的特征圖,其中保留了豐富的空間細(xì)節(jié)。關(guān)于上下文路徑,則在網(wǎng)絡(luò)寬、輕量級(jí)的特征提取網(wǎng)絡(luò)模型的尾部附加一個(gè)全局平均池層,其中接收字段是網(wǎng)絡(luò)關(guān)鍵層的最大值。

2.1.1 空間路徑結(jié)構(gòu)

空間路徑可以保持原始的輸入圖像空間尺寸和編碼豐富空間信息??臻g路徑包含3層。每一層包括一個(gè)步幅為2的卷積(CONV,convolution),然后是批標(biāo)準(zhǔn)化(BN,batch normalization)和整流線性(ReLU,rectified linear units)激勵(lì)層。因此,該路徑提取的輸出特征映射是原始圖像的1/8,并且由于它使用的特征圖空間尺寸大,所以編碼的空間信息比較豐富。圖1顯示了空間路徑的結(jié)構(gòu)。

圖1 BiSeNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 structure of BiSeNet

2.1.2 上下文路徑結(jié)構(gòu)

上下文路徑的主要作用是提供足夠的感受野和語(yǔ)義信息。在BiSeNet原模型的上下文路徑中,使用的輕量級(jí)模型Xception[11]可以快速地對(duì)特征映射進(jìn)行降采樣,以獲得大的感受野,該感受野對(duì)高級(jí)語(yǔ)義上下文信息進(jìn)行編碼。然后在輕量級(jí)模型的尾部添加一個(gè)全局平均池,它可以為最大感受野提供全局上下文信息。最后,網(wǎng)絡(luò)結(jié)合了全局池的上采樣輸出特性和輕量級(jí)模型的特性。圖1中展示了上下文路徑結(jié)構(gòu)。

在上下文路徑中,BiSeNet還設(shè)計(jì)了注意優(yōu)化模塊(ARM,attention refinement module),來(lái)優(yōu)化每個(gè)階段的特性。如圖2所示,ARM使用全局平均池化來(lái)捕獲全局上下文,并計(jì)算注意力向量來(lái)指導(dǎo)特征學(xué)習(xí)。該設(shè)計(jì)可以優(yōu)化上下文路徑中每個(gè)階段的輸出特性。還可以輕松地集成全局上下文信息,而無(wú)需任何向上采樣操作。因此,計(jì)算成本可以忽略不計(jì)。

圖2 ARM結(jié)構(gòu)圖Fig.2 structure of ARM

由于空間路徑的輸出是低級(jí)別的空間信息特征,而上下文路徑的輸出是高級(jí)別的上下文語(yǔ)境信息特征。所以,BiSeNet設(shè)計(jì)了特定的特征融合模塊(FFM,feature fusion module)專門(mén)用來(lái)融合這些特征。鑒于特征的不同級(jí)別,BiSeNet首先連接空間路徑和上下文路徑的輸出特征。然后利用批量標(biāo)準(zhǔn)化來(lái)平衡特征的尺度。接下來(lái),將連接的特征池化為特征向量并計(jì)算權(quán)重向量。該權(quán)重向量可以對(duì)特征進(jìn)行重新加權(quán),這相當(dāng)于特征選擇和組合的功能。圖3展示了這種設(shè)計(jì)的結(jié)構(gòu)。

圖3 FFM結(jié)構(gòu)圖Fig.3 structure of FFM

2.2 改進(jìn)的上下文路徑

原上下文路徑結(jié)構(gòu)中,使用了Xception模型中底層和較深層的高級(jí)抽象語(yǔ)義特征信息進(jìn)行拼接。這種深層的抽象特征對(duì)于物體的尺寸、角度和位置信息有很強(qiáng)的辨識(shí)度,這種平移位置、旋轉(zhuǎn)角度以及縮放大小的不變性等特性對(duì)于提升圖像中各物體的分割性能有著關(guān)鍵性作用[12]。

但是由于深層抽象特征有著很大的感受野,過(guò)強(qiáng)的語(yǔ)義信息會(huì)隱式的丟失圖像中部分物體的空間信息,這樣就導(dǎo)致深層網(wǎng)絡(luò)的定位精度的優(yōu)勢(shì)被損失掉了。而如果直接將深層抽象特征作上采樣操作,則目標(biāo)分割的邊緣細(xì)節(jié)會(huì)有較大的損失。因此,將多層級(jí)、多尺度的特征信息進(jìn)行整合,可以讓淺層局部細(xì)節(jié)與深層抽象特征互補(bǔ)增強(qiáng)、得到更好的分割效果[13]。但是如果直接進(jìn)行通道連接,忽視不同階段特征的差異性,會(huì)導(dǎo)致分割目標(biāo)不一致。因此,本研究所使用的改進(jìn)方法是,首先在Xception模型的末端加上一個(gè)空洞金字塔池化層[14],得到底層抽象特征,然后使用本研究設(shè)計(jì)的多尺度特征融合模塊(MsFFM),由深層往淺層逐步融合,然后將最終融合特征與空間通道特征一起輸入FFM,進(jìn)行最終分割。

改進(jìn)后的整體網(wǎng)絡(luò)模型如圖4所示。

圖4 改進(jìn)后的BiSeNet網(wǎng)絡(luò)模型Fig.4 Improved BiSeNet

2.2.1 空洞金字塔池化

在改進(jìn)的上下文路徑中,Xception模型的末端使用了1個(gè)空洞金字塔池化對(duì)底層特征進(jìn)行處理。其中包括1個(gè)卷積核大小為1*1的卷積操作,3個(gè)卷積核為3*3、采樣率分別為6,12,18的空洞卷積操作和1個(gè)全局平均池化操作。然后將各個(gè)操作得到的特征層進(jìn)行通道連接,經(jīng)過(guò)卷積核為1*1大小的卷積層處理之后,就是ASSP的輸出特征。模型結(jié)構(gòu)如圖5所示。

圖5 空洞金字塔池化層模型Fig.5 Model of ASPP

2.2.2 多尺度特征融合模塊

多尺度特征融合模塊(MsFFM)的結(jié)構(gòu)如圖6所示。

圖6 多尺度特征融合模塊結(jié)構(gòu)Fig.6 Model of MsFFM

在MsFFM中,包含有兩個(gè)小模塊A和B。模塊A的主要作用是細(xì)化特征信息,模塊B的主要作用是用來(lái)進(jìn)行特征融合。淺層信息首先經(jīng)過(guò)模塊A中的1*1卷積將通道數(shù)降低,便于提高模型計(jì)算能力,然后利用殘差模塊將特征圖的通道信息進(jìn)行結(jié)合,將特征細(xì)化。細(xì)化后的淺層特征和深層特征一起輸入模塊B,先經(jīng)過(guò)通道相加,然后進(jìn)行全局平均池化操作,接著兩個(gè)1*1卷積以及激勵(lì)操作,得到的特征圖與淺層特征相乘,再與深層特征相加,通過(guò)深層特征信息對(duì)淺層特征進(jìn)行語(yǔ)義選擇,得到更加具有區(qū)分力的特征。然后將模塊B的輸出再次輸入到一個(gè)模塊A中進(jìn)行特征細(xì)化,即完成一次特征融合操作。

2.3 損失函數(shù)

BiSeNet中利用主損失函數(shù)加輔助損失函數(shù)來(lái)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練。使用主損失函數(shù)來(lái)監(jiān)督整個(gè)BiSeNet的輸出。此外,還增加了兩個(gè)特定的輔助損失函數(shù)來(lái)監(jiān)督上下文路徑的輸出。所有損失函數(shù)都是Softmax(交叉熵)損失函數(shù),如式(1)所示。

(1)

式中:p是網(wǎng)絡(luò)的預(yù)測(cè)輸出。

此外,使用參數(shù)α來(lái)平衡主損失函數(shù)和輔助損失函數(shù)的權(quán)重,如式(2)所示。

(2)

式中:lp是級(jí)聯(lián)輸出的主要損失;Xi是Xception模型第i階段的輸出特征;li是第i階段的輔助損失;W是網(wǎng)絡(luò)權(quán)重;K等于3;L是聯(lián)合損失函數(shù),輔助損失函數(shù)僅僅在網(wǎng)絡(luò)訓(xùn)練時(shí)使用。

3 實(shí)驗(yàn)結(jié)果

3.1 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是需要大規(guī)模的數(shù)據(jù)支撐的,本研究主要采用了數(shù)據(jù)集ADE20K中關(guān)于室內(nèi)環(huán)境的圖像數(shù)據(jù),一共篩選收集了RGB圖像數(shù)據(jù)近 3 200 張作為訓(xùn)練集,近400張圖像作為驗(yàn)證集,近200張圖片作為測(cè)試集。

為了讓訓(xùn)練數(shù)據(jù)適應(yīng)網(wǎng)絡(luò)結(jié)構(gòu),對(duì)于大小不一的室內(nèi)圖像進(jìn)行了適當(dāng)?shù)牟眉?,使圖像大小接近原尺寸、且為32的倍數(shù)。在ADE20K數(shù)據(jù)集的圖像分割標(biāo)簽中,使用[R,G,B]三通道中相同的R,G值來(lái)表示同一類物體,不同的B值表示同一類物體的不同個(gè)體。對(duì)數(shù)據(jù)集中記錄物體類別的csv文件進(jìn)行了刪減,只保留了表示室內(nèi)物體的近20個(gè)類別。

網(wǎng)絡(luò)的實(shí)際訓(xùn)練時(shí),使用的空間路徑是分別為7*7、3*3、3*3大小卷積核的3個(gè)卷積層;上下文路徑使用的是Xception39網(wǎng)絡(luò)模型。訓(xùn)練使用的優(yōu)化算法是小批量隨機(jī)梯度下降算法SGD(stochastic gradient descent)。批量大小設(shè)為1,動(dòng)量為0.9,權(quán)重衰減為1 e-4。還使用了學(xué)習(xí)率衰減策略來(lái)控制學(xué)習(xí)率,其中初始學(xué)習(xí)率η為2.5 e-2。每次迭代學(xué)習(xí)的更新公式為:

(3)

式中:iter為當(dāng)前迭代次數(shù);max_iter為總迭代次數(shù),在本次研究中設(shè)為250次(即訓(xùn)練250個(gè)epoch);power值設(shè)為0.9;主、輔損失的平衡參數(shù)α設(shè)置為1。

網(wǎng)絡(luò)結(jié)構(gòu)使用TensorFlow深度學(xué)習(xí)框架搭建,神經(jīng)網(wǎng)絡(luò)訓(xùn)練的計(jì)算平臺(tái)配置為單張NVIDIA GTX 1060Ti。

3.2 網(wǎng)絡(luò)模型訓(xùn)練結(jié)果

網(wǎng)絡(luò)模型的訓(xùn)練結(jié)果以訓(xùn)練損失函數(shù)loss和分割像素精度PA(pixel accuracy)為可視化指標(biāo)。

損失函數(shù)loss即為網(wǎng)絡(luò)模型訓(xùn)練時(shí)的總損失,如果網(wǎng)絡(luò)在訓(xùn)練中分割性能越來(lái)越好,訓(xùn)練中迭代時(shí)的總損失會(huì)向0趨近。

訓(xùn)練過(guò)程中,總損失loss隨著每輪訓(xùn)練的曲線變化圖如圖7所示。

圖7 loss訓(xùn)練過(guò)程曲線變化圖Fig.7 Curve of loss during training

像素精度PA即為分割正確的像素點(diǎn)占總像素的比值,計(jì)算公式如式(4)所示。

(4)

式中:需分割類別為k+1類;pii表示屬于i類且被預(yù)測(cè)分割正確的像素點(diǎn);pij表示本屬于i類但是被預(yù)測(cè)分割到j(luò)類的像素點(diǎn)。

像素精度PA隨著每輪訓(xùn)練的曲線變化圖如圖8所示。

圖8 PA訓(xùn)練過(guò)程曲線變化圖Fig.8 Curve of PA during training

從以上兩張訓(xùn)練過(guò)程圖可以看出,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練在70~80個(gè)epoch時(shí),開(kāi)始趨于穩(wěn)定。Loss下降到0.1左右,PA接近92%。訓(xùn)練結(jié)果比較理想。

3.3 網(wǎng)絡(luò)模型的結(jié)果比較

為了驗(yàn)證改進(jìn)方法的可行性,對(duì)比了改進(jìn)前后的模型對(duì)室內(nèi)環(huán)境的分割效果。主要以P-R曲線為分割效果評(píng)價(jià)指標(biāo)。其中P(precision)為分割精度,R(recall)為召回率。一般情況下,分割精度和召回率會(huì)成大概的反比關(guān)系,沒(méi)有辦法同時(shí)達(dá)到很高的水平。所以需要在得到較高精度的同時(shí)保證召回率也不低。而且,P-R曲線與坐標(biāo)軸圍成的面積的幾何意義是平均準(zhǔn)確率。文本主要列舉了室內(nèi)環(huán)境中比較常見(jiàn)的4大類物體在改進(jìn)前后的P-R曲線,如圖9所示,圖中,實(shí)線表示改進(jìn)前,虛線表示改進(jìn)后。

圖9 4類主要室內(nèi)物體的P-R曲線圖Fig.9 P-R curves of 4 main indoor objects

然后以均交并比MIoU(mean intersection over union)為指標(biāo)[15],對(duì)比了3個(gè)模型的分割效果。均交并比MIoU為語(yǔ)義分割中,真實(shí)值的集合與預(yù)測(cè)值的集合的交集與并集之比,在每個(gè)類上計(jì)算IoU之后,取平均值。計(jì)算公式如式(5)所示。

(5)

式中:k表示需要分割類別數(shù)為k+1;pii表示屬于i類且被預(yù)測(cè)分割正確的像素點(diǎn);pij表示本屬于i類但是被預(yù)測(cè)分割到j(luò)類的像素點(diǎn);pji表示本屬于j類但是被預(yù)測(cè)分割到i類的像素點(diǎn)。

分割性能指標(biāo)的對(duì)比如表1所示。

表1 各模型分割指標(biāo)對(duì)比Tab.1 Comparison of segmentation indicators (%)

對(duì)測(cè)試集的分割情況,改進(jìn)前后的對(duì)比圖如圖10所示。

圖10 分割效果對(duì)比圖Fig.10 Comparison of segmentation effects

從圖9可以看出,在室內(nèi)4大類物體的分割P-R曲線表現(xiàn)中,虛線表示改進(jìn)后效果比實(shí)線表示的改進(jìn)前效果能達(dá)到更加平衡的狀態(tài)。對(duì)室內(nèi)環(huán)境的平均分割精度也更高。表1則給出了BiSeNet網(wǎng)絡(luò)模型在改進(jìn)前后以及和語(yǔ)義分割常用的SegNet網(wǎng)絡(luò)模型在實(shí)驗(yàn)數(shù)據(jù)上的表現(xiàn)。從表1中可以看出,改進(jìn)后的模型能夠達(dá)到81.7%的MIoU,比改進(jìn)前高3.5%,比SegNet高23.5%。經(jīng)過(guò)改進(jìn)后的模型,在MIoU指標(biāo)上有更好的表現(xiàn)。

從圖10測(cè)試圖片的分割中可以看出,改進(jìn)前BiSeNet在室內(nèi)環(huán)境中的表現(xiàn)主要是在物體邊緣處的細(xì)節(jié)和遮擋處的分割中不夠準(zhǔn)確,而經(jīng)過(guò)改進(jìn)后這些問(wèn)題都被較好地解決了。

4 結(jié) 論

本文針對(duì)室內(nèi)環(huán)境語(yǔ)義分割任務(wù)中,不同物體類別多,同一物體不同形態(tài)多且大量相互遮擋的問(wèn)題,在BiSeNet網(wǎng)絡(luò)模型的基礎(chǔ)上,對(duì)其上下文路徑進(jìn)行了針對(duì)性改進(jìn)。先通過(guò)一個(gè)空洞金字塔池化層提取出底層特征信息,通過(guò)提出的多尺度特征融合模塊,將底層抽象的高級(jí)語(yǔ)義信息與淺層的局部細(xì)節(jié)特征信息進(jìn)行了逐層融合,使局部細(xì)節(jié)與抽象特征互補(bǔ)增強(qiáng),得到增強(qiáng)的上下文內(nèi)容特征,然后與空間路徑進(jìn)行特征融合并輸出分割結(jié)果。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型在平均精度上得到提升,精度和召回率更加平衡,在MIoU的表現(xiàn)上比SegNet高出23.5%,比改進(jìn)前高出3.5%。雖然改進(jìn)后模型對(duì)圖像的處理時(shí)間有所增加,但是分割效果更好,證明了改進(jìn)方法的有效性。

猜你喜歡
室內(nèi)環(huán)境語(yǔ)義損失
少問(wèn)一句,損失千金
胖胖損失了多少元
語(yǔ)言與語(yǔ)義
玉米抽穗前倒伏怎么辦?怎么減少損失?
室內(nèi)環(huán)境檢測(cè)及控制系統(tǒng)設(shè)計(jì)
多肉植物垂直綠化在室內(nèi)環(huán)境中的應(yīng)用探究
植物在航站樓室內(nèi)環(huán)境中的應(yīng)用
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
室內(nèi)環(huán)境下移動(dòng)機(jī)器人三維視覺(jué)SLAM
一般自由碰撞的最大動(dòng)能損失
盐城市| 洛隆县| 通辽市| 德化县| 金坛市| 博野县| 清原| 琼中| 马山县| 浮梁县| 达孜县| 涿鹿县| 永丰县| 山东省| 信宜市| 浦县| 玉林市| 怀化市| 西华县| 芦溪县| 万荣县| 托克托县| 兴安盟| 永昌县| 淮滨县| 蒙阴县| 河北区| 常宁市| 通河县| 沾益县| 鹰潭市| 清水县| 嘉兴市| 合川市| 海兴县| 横峰县| 漳浦县| 收藏| 高雄市| 南和县| 长白|