劉 青,李 寧,熊 俊,鄭天宇,丁一銘
(北京卓越電力建設(shè)有限公司,北京 100027)
隨著電力系統(tǒng)發(fā)展,電纜隧道、綜合管廊數(shù)量迅速增長(zhǎng),應(yīng)用機(jī)器人替代人工巡檢并完成應(yīng)急處置是必然趨勢(shì)。電纜隧道巡檢機(jī)器人的應(yīng)用,對(duì)保障電網(wǎng)安全運(yùn)行具有重要意義。研究人員通過開發(fā)一系列電網(wǎng)巡檢機(jī)器人[1-3],不僅實(shí)現(xiàn)了對(duì)電網(wǎng)設(shè)備運(yùn)行狀態(tài)和環(huán)境的實(shí)時(shí)監(jiān)測(cè),提高了巡檢過程的自動(dòng)化程度、準(zhǔn)確度及精度,也實(shí)現(xiàn)了機(jī)器對(duì)人工的替代,降低了運(yùn)維人員的作業(yè)風(fēng)險(xiǎn),提高了工作效率。
近年來,以深度學(xué)習(xí)為中心的機(jī)器學(xué)習(xí)技術(shù)飽受人們關(guān)注。在機(jī)器人應(yīng)用逐漸廣泛化的過程中,機(jī)器人場(chǎng)景理解成為當(dāng)前研究的熱點(diǎn)內(nèi)容。目前,語(yǔ)義分割作為解決機(jī)器人場(chǎng)景理解的關(guān)鍵性技術(shù)[3-5],其主要任務(wù)是將圖像中的每個(gè)像素鏈接到類標(biāo)簽。語(yǔ)義分割的結(jié)果圖可以幫助機(jī)器人理解場(chǎng)景并輔助完成規(guī)劃路徑或緊急避障。
目前圖像語(yǔ)義分割可分為基于全卷積編解碼、基于擴(kuò)張卷積、基于注意力機(jī)制以及基于語(yǔ)義細(xì)節(jié)雙分支的方法等。全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,FCN)在語(yǔ)義分割領(lǐng)域應(yīng)用廣泛[5],它能夠獲取任意大小的圖像并生成相應(yīng)空間維度的輸出,采用像素級(jí)損失和網(wǎng)絡(luò)內(nèi)上采樣來增強(qiáng)密集預(yù)測(cè)。針對(duì)全卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)義分割時(shí)感受野固定和分割物體細(xì)節(jié)容易丟失或被平滑的問題,Vijay等人提出SegNet網(wǎng)絡(luò)[6],采用池化索引保存圖像的輪廓信息并降低參數(shù)量。Olaf等人提出了U-Net網(wǎng)絡(luò)[7],在U型對(duì)稱結(jié)構(gòu)中加入跳躍連接融合相同分辨率上采樣及下采樣特征圖,對(duì)醫(yī)學(xué)圖像產(chǎn)生更精確的分割。Simon等人提出FC-DenseNets網(wǎng)絡(luò)[8],通過將網(wǎng)絡(luò)層與后續(xù)層建立密集連接完成特征的復(fù)用?;谌矸e對(duì)稱語(yǔ)義分割模型得到分割結(jié)果較粗糙,忽略像素之間的空間一致性關(guān)系,因此,Chen等人提出Deeplab網(wǎng)絡(luò)[9],采用擴(kuò)張卷積增加感受野獲得更多語(yǔ)義信息[10],并使用完全連接條件隨機(jī)場(chǎng)提高模型捕獲細(xì)節(jié)的能力。Deeplab-V2增加空洞空間金字塔池化模塊,利用多個(gè)不同采樣率的擴(kuò)張卷積提取特征,再將特征融合以捕獲不同尺度的語(yǔ)義信息[11]。Deeplab-V3在空洞空間金字塔池化模塊中加入了全局平均池化,同時(shí)在多尺度擴(kuò)張卷積后添加批量歸一化,有效捕獲全局語(yǔ)義信息[12]。由于卷積層結(jié)構(gòu)限制,提供的上下文信息不足。因此,Wang等人受計(jì)算機(jī)視覺中經(jīng)典的非局部均值啟發(fā),提出Non-local建立圖像上相距較遠(yuǎn)像素之間的聯(lián)系[13]。Fu等人引入通道及空間注意力機(jī)制,更好聚合不同類別之間的上下文信息[14]。Huang等人提出交叉循環(huán)注意力,更好捕獲上下文信息的同時(shí)大量減少計(jì)算量[15]。近年來,受到自然語(yǔ)言處理領(lǐng)域中Transformer成功應(yīng)用的啟發(fā)[16],嘗試將標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)直接應(yīng)用于圖像[17],將整幅圖像拆分成小圖像塊,經(jīng)過線性嵌入后作為輸入送入網(wǎng)絡(luò)中,使用監(jiān)督學(xué)習(xí)的方式進(jìn)行圖像分類的訓(xùn)練。
由于上述方法非常耗時(shí),因此不能直接部署在機(jī)器人上,輕量級(jí)分割算法越來越受到關(guān)注[18-22]。Yu等人提出了一種由細(xì)節(jié)和語(yǔ)義分支組成的新型雙分支網(wǎng)絡(luò)BiSeNet[23],網(wǎng)絡(luò)架構(gòu)如圖1(a)所示,主要包括語(yǔ)義分支、空間分支以及融合模塊。語(yǔ)義分支首先使用輕量級(jí)骨干網(wǎng)絡(luò)Xception[24]通過快速下采樣特征學(xué)習(xí),獲取足夠的感受野,同時(shí)采用全局池化來降低計(jì)算量,穩(wěn)定最大感受野。下采樣的特征圖再經(jīng)過注意力優(yōu)化模塊,借助全局平均池化捕獲上下文語(yǔ)義信息,計(jì)算注意力向量,優(yōu)化語(yǔ)義分支中的輸出特征??臻g分支主要負(fù)責(zé)保留空間信息并且生成高分辨率特征,通過3個(gè)Conv-BN-ReLU(ConvBR)卷積層將輸入圖像降采樣到原始圖像的1/8。特征融合模塊首先將兩種特征進(jìn)行通道連接,經(jīng)過一個(gè)ConvBR卷積層后,使用殘差結(jié)構(gòu)對(duì)原始特征及注意力優(yōu)化后的特征進(jìn)行融合。最終直接采用雙線性插值上采樣到原圖像分辨率,得到圖像的分割結(jié)果。這種雙分支網(wǎng)絡(luò)實(shí)現(xiàn)比當(dāng)時(shí)基于編解碼器的方法[25]更高的分割精度。
圖1 網(wǎng)絡(luò)架構(gòu)
針對(duì)以上的分析,本文設(shè)計(jì)了一種新型網(wǎng)絡(luò)架構(gòu)Dual-Former,如圖1(b)所示。網(wǎng)絡(luò)中設(shè)計(jì)了分割Transformer模塊(Segmentation Transformer module,STM)和通道遞減卷積模塊(Channel Decreasing Convolution Module,CDCM)分別提取語(yǔ)義和細(xì)節(jié)信息,最后通過特征融合模塊(Feature Fusion Module,FFM)將底層的空間細(xì)節(jié)信息和深層的上下文語(yǔ)義信息融合得到不同尺度的圖像特征,獲得良好的分割結(jié)果。
在語(yǔ)義分割任務(wù)中,圖像的全局上下文語(yǔ)義信息和局部細(xì)節(jié)信息對(duì)于分割結(jié)果至關(guān)重要,BiSeNet采用雙分支框架,將低級(jí)細(xì)節(jié)和高級(jí)語(yǔ)義信息結(jié)合起來,然而,添加額外的分支來獲取低層特征是耗時(shí)的,并且BiSeNet提取的語(yǔ)義和細(xì)節(jié)信息十分粗略,經(jīng)過融合后物體邊界分割模糊,不同類別存在混淆,無法得到精細(xì)的分割結(jié)果。為此,構(gòu)建了基于Transformer的語(yǔ)義分割網(wǎng)絡(luò),并提出分割Transformer模塊、通道遞減卷積模塊和特征融合模塊以提升模型分割能力。
基于Transformer的語(yǔ)義分割網(wǎng)絡(luò)的架構(gòu)如圖2所示,該網(wǎng)絡(luò)由特征提取主干、語(yǔ)義分支、空間分支及融合分割部分組成。特征提取主干首先使用卷積核大小為3×3,步長(zhǎng)為2的ConvBR卷積層和步長(zhǎng)為2的通道遞減卷積模塊將原始圖像下采樣至原始分辨率的1/4,特征提取主干將圖像下采樣的同時(shí),能夠較好保留圖像的原始信息與特征,解決了BiSeNet使用雙分支獲取低層特征造成計(jì)算冗余的問題,便于特征語(yǔ)義和細(xì)節(jié)信息的提取。語(yǔ)義分支使用Transformer提取圖像全局上下文語(yǔ)義信息,每層逐漸降低特征圖分辨率并加深通道數(shù),經(jīng)過注意力優(yōu)化后獲取更深層的語(yǔ)義信息,最后對(duì)特征圖進(jìn)行上采樣到原始分辨率的1/8。細(xì)節(jié)分支首先使用步長(zhǎng)為2的通道遞減卷積模塊對(duì)特征圖進(jìn)行下采樣到原始分辨率的1/8,經(jīng)過通道遞減卷積模塊的特征圖能夠更好保留圖像的多尺度細(xì)節(jié)信息。然后使用兩個(gè)步長(zhǎng)為1的通道遞減卷積模塊,提取高分辨率特征圖的局部細(xì)節(jié)信息。由于保持特征圖分辨率維持在原始分辨率的1/8,能夠更好提取原始圖像中的細(xì)節(jié)信息。融合分割部分首先經(jīng)過特征融合模塊,由于兩分支的輸出不屬于同一種特征,因此不能使用簡(jiǎn)單相加的方式對(duì)特征進(jìn)行融合。特征融合模塊將語(yǔ)義和細(xì)節(jié)分支的特征圖采用通道維度疊加,即將語(yǔ)義分支特征圖通道與細(xì)節(jié)分支特征圖通道進(jìn)行級(jí)聯(lián),經(jīng)過通道注意力選取特征。之后經(jīng)過分割模塊,采用一個(gè)3×3的ConvBR卷積層和一個(gè)3×3的卷積層將特征圖的通道映射到實(shí)際分割任務(wù)的類別數(shù)目,出于速度的考慮,最后使用簡(jiǎn)單的雙線性插值將編碼階段變小的特征圖還原到輸入圖像分辨率,從而達(dá)到與標(biāo)簽一一對(duì)應(yīng)的分割效果,實(shí)現(xiàn)端到端的訓(xùn)練。
圖2 Dual-Former網(wǎng)絡(luò)整體架構(gòu)
語(yǔ)義分割的目標(biāo)是識(shí)別每一個(gè)像素,要分割的對(duì)象或內(nèi)容經(jīng)常受尺度、光照和遮擋的影響,由于卷積運(yùn)算本身屬于局部操作,使用卷積神經(jīng)網(wǎng)絡(luò)獲取高級(jí)語(yǔ)義信息需要通過不斷地堆積卷積層來完成對(duì)圖像從局部信息到全局信息的提取,不斷堆積的卷積層慢慢擴(kuò)大了感受野直至覆蓋整個(gè)圖像。具有相同標(biāo)簽的像素的特征可能具有一些差異,這些差異因感受野受限被放大,引入了類內(nèi)不一致性并影響了卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確性。由于Transformer將一幅圖像分割成小圖像塊作為輸入,不需要疊加就可以獲得與輸入大小相同的感受野,能夠較好解決感受野受限問題,并提取圖像全局信息。
分割Transformer模塊如圖3所示,首先將小圖像塊進(jìn)行位置編碼與向量化,特征圖維度從(C,H,W)轉(zhuǎn)化成(C,N(H×W)),其中C代表通道數(shù),H和W代表高和寬。然后向量作為Transformer編碼器的輸入,經(jīng)過多頭注意力對(duì)輸入分別乘以三個(gè)隨機(jī)初始化的矩陣WQ,WK,WV,便得到了三個(gè)矩陣Q,K,V。多頭注意力計(jì)算過程如公式(1)所示,式中dhead代表注意力頭的數(shù)量(本文取3),經(jīng)過注意力的優(yōu)化后作為多層感知機(jī)(MLP)提取深層語(yǔ)義信息,擴(kuò)大模型感受野,能夠更好捕獲特征圖的高級(jí)特征。
圖3 分割Transformer模塊
(1)
視覺Transformer使用顯式位置編碼引入位置信息[16],然而,顯式位置編碼的分辨率是固定的,因此當(dāng)測(cè)試分辨率不同于訓(xùn)練分辨率時(shí),需要對(duì)位置編碼進(jìn)行插值,這通常會(huì)導(dǎo)致精度下降。為了緩解這個(gè)問題,使用padding為0的3×3卷積對(duì)小圖像塊進(jìn)行隱式位置編碼,實(shí)驗(yàn)結(jié)果證明3×3卷積足以為Transformer提供位置信息。
大學(xué)生對(duì)工作崗位陌生,對(duì)工作環(huán)境和人際關(guān)系不適應(yīng),學(xué)校的理論知識(shí)與實(shí)際工作存在差異等。面對(duì)這些問題,校企雙方要共同協(xié)商解決。企業(yè)導(dǎo)師制有效解決了此方面的難題[4]164-166。企業(yè)專業(yè)導(dǎo)師不僅能夠幫助學(xué)生快速熟悉業(yè)務(wù),獲得專業(yè)技能,還能以其獨(dú)特的人格魅力感染學(xué)生,掌握實(shí)際工作中應(yīng)具備的職業(yè)道德和敬業(yè)精神,深化崗位認(rèn)知,快速適應(yīng)新環(huán)境,勝任新工作。
語(yǔ)義分割任務(wù)需要區(qū)分空間中的每類樣本,用于分割的特征需要保留更多細(xì)節(jié)特征。低層特征有助于網(wǎng)絡(luò)生成精細(xì)的分割邊界,降采樣操作雖然能夠降低模型計(jì)算量,但同時(shí)也伴隨著細(xì)節(jié)信息的丟失,使得網(wǎng)絡(luò)在細(xì)小目標(biāo)和目標(biāo)邊緣上性能下降。
細(xì)節(jié)分支將特征圖的分辨率只下采樣到原始分辨率的1/8,保持高分辨率的特征圖來更好獲取圖像中的細(xì)節(jié)信息。通道遞減卷積模塊如圖4所示,圖4(a)代表步長(zhǎng)為1的通道遞減卷積模塊,其中M和N分別代表輸入和輸出通道數(shù),首先使用3×3的ConvBR卷積層將特征通道從M映射到N/2,再使用兩個(gè)3×3的ConvBR卷積層依次對(duì)特征通道進(jìn)行遞減,考慮到最后一層特征圖通道數(shù)量較少,因此,使用1×1的ConvBR卷積層提取最后的細(xì)節(jié)特征。在圖像分類網(wǎng)絡(luò)中,在更高層使用更多通道是一種常見的作法,但是在語(yǔ)義分割任務(wù)中,我們關(guān)注的是可擴(kuò)展的感受野和多尺度信息。通道遞減卷積模塊各層感受野如表1所示,低層需要足夠的通道來編碼較小感受野的細(xì)粒度信息,較大的感受野更注重于高層的語(yǔ)義信息,由于所提算法將高層特征提取的重心放在語(yǔ)義分支上,因此,如果與低層設(shè)置相同的通道可能會(huì)造成信息冗余。圖4(b)代表步長(zhǎng)為2的通道遞減卷積模塊,其中下采樣操作只在Block2中進(jìn)行。為了豐富特征信息,通過跳躍連接將x1到xn的特征圖連接。CDCM的輸出如公式(2)所示。
表1 CDCM中不同Block的感受野
圖4 CDCM結(jié)構(gòu)
xoutput=F(x1,x2,…,xn)
(2)
式中,xoutput表示CDCM模塊的輸出;x1,x2,…,xn是所有塊的特征圖;F代表特征的融合方式,考慮到效率,采用通道融合的方式對(duì)特征圖進(jìn)行連接。在細(xì)節(jié)分支中,由于保持特征圖分辨率維持在原始圖像的1/8,采用一個(gè)步長(zhǎng)為2和兩個(gè)步長(zhǎng)為1的通道遞減卷積模塊。該模塊的輸出連接所有特征圖,并采用通道數(shù)遞減的方式保留了可縮放的細(xì)節(jié)和多尺度信息。
在特征表示的層面上,上述雙分支的特征并不相同。因此不能簡(jiǎn)單對(duì)雙分支的輸出特征進(jìn)行加權(quán)。由空間分支捕獲的空間信息編碼了絕大多數(shù)的豐富細(xì)節(jié)信息,而語(yǔ)義分支的輸出特征主要編碼語(yǔ)義信息。換言之,空間分支的輸出特征是低層級(jí)的,語(yǔ)義分支的輸出是高層級(jí)的。因此,設(shè)計(jì)了一個(gè)獨(dú)特的特征融合模塊,如上文圖2所示,它首先將雙分支輸出特征在通道維度上級(jí)聯(lián),采用全局平均池化產(chǎn)生通道相關(guān)的統(tǒng)計(jì)信息,然后使用1維卷積生成通道特征表達(dá),最后通過Sigmoid激活函數(shù)計(jì)算權(quán)重向量,該權(quán)重向量可以對(duì)特征重新加權(quán),相當(dāng)于特征選擇和組合,能夠?qū)㈦p分支的輸出特征進(jìn)行較好融合。
所提方法在兩個(gè)公開數(shù)據(jù)集Cityscapes、CamVid上同當(dāng)前其他算法進(jìn)行了對(duì)比,并對(duì)所提出STM及CDCM在Cityscapes數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),進(jìn)一步擴(kuò)展到電纜隧道的應(yīng)用場(chǎng)景中。
實(shí)驗(yàn)平臺(tái)操作系統(tǒng)為Windows 10,顯卡是Nvidia GeForce GTX 3060,12 G顯存,CUDA版本為11.1,內(nèi)存32 GB,CPU為英特爾酷睿i7-11700 2.5 GHz,網(wǎng)絡(luò)結(jié)構(gòu)基于Pytorch平臺(tái)實(shí)現(xiàn)。
Cityscapes是關(guān)注城市街道場(chǎng)景解析的知名數(shù)據(jù)集之一[26]。它包含2975個(gè)用于訓(xùn)練的精細(xì)注釋圖像、500個(gè)用于驗(yàn)證的圖像和1525個(gè)用于測(cè)試的圖像。在訓(xùn)練過程中,所提算法不使用額外的20000個(gè)粗糙標(biāo)記的圖像。其中共有19個(gè)類可用于語(yǔ)義分割任務(wù)。由于圖像的分辨率為1024×2048,因此對(duì)語(yǔ)義分割任務(wù)具有一定的挑戰(zhàn)性。
CamVid是一個(gè)由劍橋大學(xué)采集并標(biāo)注的道路場(chǎng)景數(shù)據(jù)集[27],它是從駕駛汽車的角度拍攝的。該數(shù)據(jù)集包含從視頻序列提取的701幅帶注釋的圖像,其中367幅用于訓(xùn)練,101幅用于驗(yàn)證,233個(gè)用于測(cè)試。圖像分辨率為960×720,有32個(gè)語(yǔ)義類別,其中11個(gè)類別的子類用于進(jìn)行語(yǔ)義分割。
表2 網(wǎng)絡(luò)參數(shù)
本文使用語(yǔ)義分割任務(wù)中常用評(píng)估指標(biāo)mIoU(mean intersection over union),即所有類別交集和并集之比的平均值,其計(jì)算過程如公式:
(3)
式中,k表示像素的類別數(shù);pii表示實(shí)際類別為i類,且實(shí)際預(yù)測(cè)類別為i的像素?cái)?shù)目,同理,pjj表示實(shí)際類別為j類,且實(shí)際預(yù)測(cè)類別為j的像素?cái)?shù)目;而pji表示實(shí)際類別為i類,而實(shí)際預(yù)測(cè)類別為j的像素?cái)?shù)目。ti表示i類像素的總數(shù)。
將所提算法與其他方法進(jìn)行對(duì)比,在Cityscapes數(shù)據(jù)集分割效果對(duì)比如表3所示。與BiSeNet相比,所提算法在Cityscapes數(shù)據(jù)集上的mIoU值提高了8.8 %,證明所提算法采用特征提取主干替代BiSeNet雙分支網(wǎng)絡(luò)架構(gòu)對(duì)分割精度的影響較小,并且模型提取圖像語(yǔ)義及細(xì)節(jié)信息的能力更強(qiáng)。相比于FCN[5]和Dilation10[10]等非實(shí)時(shí)分割算法,分割精度分別提升11.9 %、10.1 %,FPS幀數(shù)分別提升20.2倍、160.6倍。
表3 Cityscapes分割效果對(duì)比
在Cityscapes數(shù)據(jù)集的分割結(jié)果如圖5所示,其中第一、四行代表原始圖像與分割標(biāo)簽,第二、三行分別代表BiSeNet和Dual-Former分割結(jié)果,由圖5(a)可以看出,相比于BiSeNet對(duì)一些邊緣細(xì)節(jié)分割的不連貫性,所提算法對(duì)于物體邊界細(xì)節(jié)分割更為精確,證明Dual-Former提取細(xì)節(jié)信息能力更強(qiáng);從圖5(b)中得出,相比于BiSeNet會(huì)產(chǎn)生誤分類的現(xiàn)象,比如:樹林中混入卡車,引擎蓋中混入道路等,所提算法通過STM提取多尺度的上下文信息,增強(qiáng)了像素之間的依賴,較好解決誤分類的問題,證明Dual-Former提取上下文信息能力更強(qiáng);從圖5(c)中發(fā)現(xiàn),相比于BiSeNet對(duì)遠(yuǎn)距離及小尺度物體分割誤分類及邊界粗糙的問題,所提算法展現(xiàn)對(duì)其優(yōu)良的邊界細(xì)節(jié)分割以及精準(zhǔn)分類能力,這在電纜隧道機(jī)器人環(huán)境感知任務(wù)中至關(guān)重要。在分辨率為512×1024圖像測(cè)試時(shí)FPS幀數(shù)達(dá)到40.4,同時(shí)分割精度提高8.8 %,完全滿足機(jī)器人實(shí)時(shí)分割的需求,證明Dual-Former更適應(yīng)于電纜隧道機(jī)器人環(huán)境感知任務(wù)。
圖5 Dual-Former與BiSeNet分割結(jié)果
CamVid[27]數(shù)據(jù)集分辨率較小,但訓(xùn)練圖像數(shù)量相比于Cityscapes數(shù)據(jù)集銳減,因此考驗(yàn)?zāi)P驮谟邢迶?shù)據(jù)情況下精準(zhǔn)分割的能力。所提方法在CamVid數(shù)據(jù)集上同其他方法的分割精度如表4所示。
表4 CamVid分割效果對(duì)比
所提算法在CamVid數(shù)據(jù)集上達(dá)到了76.8 %的mIoU值,相比BiSeNet提高了8.1 %,證明Dual-Former面對(duì)較小數(shù)據(jù)集仍能保持較好的分割精度,模型魯棒性較強(qiáng)。相比于SegNet[7]和Deeplab[10]等非實(shí)時(shí)分割算法,分割精度分別提升21.2 %、15.2 %,FPS幀數(shù)分別提升13.3倍、12.5倍。
為了驗(yàn)證用于提取細(xì)節(jié)語(yǔ)義信息的CDCM和STM的有效性,將所提方法在Cityscapes數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。
表5 消融實(shí)驗(yàn)結(jié)果
由于本文所提算法是在BiSeNet網(wǎng)絡(luò)基礎(chǔ)上,針對(duì)其提取語(yǔ)義和細(xì)節(jié)信息能力進(jìn)行改進(jìn)。因此針對(duì)細(xì)節(jié)和語(yǔ)義分支中的CDCM和STM以及FFM分別設(shè)計(jì)消融實(shí)驗(yàn),從表5實(shí)驗(yàn)結(jié)果可以得出,所提出的CDCM在增加少量計(jì)算量情況下,減少特征圖的下采樣操作,保留特征圖的空間細(xì)節(jié)信息,并將卷積后的特征圖通道數(shù)進(jìn)行逐步衰減,并使用它們的聚合作為圖像的特征表示,減少特征圖的冗余信息。增強(qiáng)細(xì)節(jié)信息的提取,能夠?qū)ξ矬w邊界產(chǎn)生精準(zhǔn)的分割,提升模型mIoU值2.3 %。而STM得益于Transformer強(qiáng)大的提取圖像全局信息的能力,其相比于卷積神經(jīng)網(wǎng)絡(luò)具有更大的感受野,能夠更好學(xué)習(xí)像素之間的相關(guān)性。利用注意力的方式來捕獲全局的上下文信息從而對(duì)遠(yuǎn)距離的像素建立相關(guān)性,從而為網(wǎng)絡(luò)獲取更豐富的上下文語(yǔ)義信息,能夠較好解決分割類別混淆的問題,提升模型mIoU值4.2 %。FFM利用可忽略的參數(shù)量和較少的計(jì)算量融合雙分支的輸出特征,通過通道注意力機(jī)制對(duì)特征進(jìn)行選擇和組合,以較小的開銷進(jìn)一步提升模型分割效果,模型mIoU值提升2.3 %。根據(jù)消融實(shí)驗(yàn)可以得出,本文提出的CDCM和STM具有較好改善網(wǎng)絡(luò)提取細(xì)節(jié)和語(yǔ)義信息的能力。
由于語(yǔ)義分割數(shù)據(jù)集標(biāo)注困難,工作耗時(shí),因此首先使用Cityscapes數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,再將少量隧道內(nèi)采集并完成標(biāo)注的圖像在模型上進(jìn)行遷移學(xué)習(xí)。其中,隧道分割數(shù)據(jù)集將訓(xùn)練集與測(cè)試集劃分為8∶2,以獲得更好的分割效果。
由圖6可知,所提出的分割網(wǎng)絡(luò)可以有效地遷移至電纜隧道場(chǎng)景中,相對(duì)于標(biāo)準(zhǔn)數(shù)據(jù)集,電纜隧道數(shù)據(jù)集目標(biāo)類別種類較少,但背景卻更多、更復(fù)雜,因此在物體邊界分割精度有一定下降,但能夠保障機(jī)器人實(shí)際應(yīng)用的效率。
圖6 電纜隧道分割結(jié)果
為方便變電站巡檢機(jī)器人實(shí)際應(yīng)用,采用固定位姿的攝像頭獲取變電站道路圖像。對(duì)于機(jī)器人前方目標(biāo)的判斷,則通過對(duì)固定攝像頭位姿下圖像進(jìn)行語(yǔ)義分割,根據(jù)分割結(jié)果獲取圖像中固定區(qū)域各類別像素個(gè)數(shù),并選擇像素最多的類作為前方目標(biāo)。對(duì)于巡檢機(jī)器人偏離道路情況采用對(duì)比分割圖像中左右固定面積區(qū)域的道路像素個(gè)數(shù)來判斷。
從圖6(a)中可以看出,所提算法對(duì)電纜隧道內(nèi)可行走道路進(jìn)行良好分割,并精準(zhǔn)分割兩旁電纜及工作人員的邊界;從圖6(b)中可以看出,所提算法對(duì)隧道內(nèi)工作人員的分割較為精細(xì);從圖6(c)中可以看出,所提算法對(duì)隧道內(nèi)電纜的分割較為精細(xì);從而提升機(jī)器人整體環(huán)境感知能力及避障能力。
電纜隧道巡檢機(jī)器人能夠有效提高工作人員的安全系數(shù)并減少人員的勞動(dòng)強(qiáng)度,緩解電力部門目前存在的結(jié)構(gòu)性人員缺失狀況,為提升電纜隧道場(chǎng)景機(jī)器人環(huán)境感知能力,提出新型語(yǔ)義分割網(wǎng)絡(luò)架構(gòu)Dual-Former,圖像首先經(jīng)過統(tǒng)一主干網(wǎng)絡(luò)進(jìn)行下采樣并減少特征的損失。最終通過FFM融合STM和CDCM的語(yǔ)義和細(xì)節(jié)信息,突出低級(jí)特征細(xì)節(jié)信息和高級(jí)全局信息,提高分割效果,并在Cityscapes數(shù)據(jù)集上達(dá)到77.2 %的mIoU以及40.4的FPS,進(jìn)一步應(yīng)用在電纜隧道機(jī)器人中,保證實(shí)時(shí)分割的前提下,擁有較好的分割精度。提高智能化電網(wǎng)的運(yùn)營(yíng)能力,為電力部門做出貢獻(xiàn)。