羅 勇, 趙 紅, 徐福良, 孫傳龍
(青島大學(xué)機(jī)電工程學(xué)院, 山東 青島 266071)
近年來(lái),基于深度學(xué)習(xí)的實(shí)例分割方法在研究上取得了巨大突破,其中一個(gè)重要應(yīng)用領(lǐng)域就是無(wú)人駕駛汽車(chē)系統(tǒng)。快速準(zhǔn)確地感知和識(shí)別外界環(huán)境,更好地識(shí)別道路、車(chē)輛、行人以及其他障礙物,是實(shí)現(xiàn)無(wú)人駕駛系統(tǒng)工作的重要前提[1]。圖像分割通過(guò)對(duì)輸入圖像中不同實(shí)例對(duì)象的分割和識(shí)別,實(shí)現(xiàn)無(wú)人駕駛汽車(chē)對(duì)外部環(huán)境的快速準(zhǔn)確感知[2]。圖像實(shí)例分割是基于目標(biāo)檢測(cè)和語(yǔ)義分割的基礎(chǔ),它不僅具備目標(biāo)檢測(cè)的特點(diǎn),即能夠定位圖像中的所有實(shí)例對(duì)象,而且還具備語(yǔ)義分割的特點(diǎn),即能夠?qū)γ總€(gè)像素進(jìn)行分類(lèi)。這種綜合的分割方法能夠更全面地理解圖像中的場(chǎng)景,并為無(wú)人駕駛汽車(chē)提供更精確的環(huán)境感知能力[3],避免潛在危險(xiǎn),確保行駛的安全性和穩(wěn)定性。許多學(xué)者研究了圖像實(shí)例分割在無(wú)人駕駛汽車(chē)技術(shù)中的應(yīng)用。LIU S等人[4]提出了路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)方法, 融合高層語(yǔ)義信息和低層位置信息,提升了圖像分割任務(wù)的性能;由于PA Net的性能會(huì)受輸入數(shù)據(jù)的質(zhì)量和多樣性的影響,WANG S等人[5]提出了RDSnet模型,充分利用目標(biāo)檢測(cè)和實(shí)例分割2個(gè)任務(wù)的信息交互作用,但其實(shí)例掩碼的分辨率低,掩碼對(duì)框和邊界框的定位誤差很大;Deep mask算法[6]是由Fair團(tuán)隊(duì)開(kāi)發(fā)的一種實(shí)例分割算法,用于發(fā)現(xiàn)和切割單張圖像中的物體,但有時(shí)在生成實(shí)例分割掩碼時(shí)無(wú)法準(zhǔn)確地捕捉物體的邊界和輪廓,影響了分割的精度和準(zhǔn)確性;2019年,BOLYA D等人[7]提出的Yolact模型,在解決同類(lèi)任務(wù)中以速度著稱(chēng),但計(jì)算內(nèi)存需求較大,資源有限的設(shè)備上難以實(shí)時(shí)應(yīng)用或部署;CHEN H等人[8]提出的Blend mask模型是近期實(shí)例分割任務(wù)中較完美的算法,但在某些場(chǎng)景下,該模型對(duì)小目標(biāo)的分割結(jié)果不夠準(zhǔn)確或完整,并且計(jì)算復(fù)雜程度高、內(nèi)存占用大?;诖?為了有效利用有限的標(biāo)注數(shù)據(jù)提高實(shí)例分割算法的準(zhǔn)確性,本文通過(guò)向Mask R-CNN網(wǎng)絡(luò)的卷積層添加一種門(mén)控注意力機(jī)制(gated channel transformation,GCT)方法進(jìn)行算法改進(jìn),并對(duì)激活函數(shù)ReLU修改為Mish函數(shù),在保證運(yùn)算速度的同時(shí),提高了圖像識(shí)別質(zhì)量和整個(gè)網(wǎng)絡(luò)架構(gòu)的穩(wěn)定性。該研究對(duì)無(wú)人駕駛實(shí)例分割算法的發(fā)展具有積極意義。
經(jīng)典Mask R-CNN算法的Basebone層采用ResNet-50作為特征提取器提取特征,由“由底至頂”采樣層(Bottom-up layers)和“由頂向底”采樣層(Top-down layers)2部分組成,通過(guò)底層和頂層的特征融合獲取更豐富的特征表示,提高目標(biāo)檢測(cè)和實(shí)例分割的性能[9]。Basebone結(jié)構(gòu)如圖1所示。
圖1 Basebone結(jié)構(gòu)
輸入大小為H×W的圖像,通過(guò)ResNet后,得到五層特征圖,尺寸大小依次為
低層特征往往含有較多的細(xì)節(jié)信息,如顏色、輪廓、紋理等,同時(shí)包含許多噪聲等無(wú)關(guān)信息[10],高層特征包含充分的語(yǔ)義信息,如類(lèi)別和屬性等,但空間分辨率卻很小,導(dǎo)致高層特征信息丟失較為嚴(yán)重。因此,Mask R-CNN采用特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)結(jié)構(gòu)進(jìn)行特征提取[11]。圖1中C1~C5是底層的特征圖,即“由底至頂”采樣層的輸出,主要捕捉圖像的低級(jí)和中級(jí)特征,如邊緣和紋理等。C1是輸入圖像經(jīng)過(guò)一次卷積操作得到的特征圖,C2則是C1經(jīng)過(guò)進(jìn)一步卷積操作得到的特征圖,以此類(lèi)推得到C5。P1~P5是頂層的特征圖,即“由頂向底”采樣層的輸出,包含了全局的語(yǔ)義信息和局部的細(xì)節(jié)信息,能夠提供更豐富的特征表示。P1是從高級(jí)語(yǔ)義特征恢復(fù)的細(xì)節(jié)信息,P2則是進(jìn)一步上采樣得到的特征圖,以此類(lèi)推得到P5。通過(guò)C1~C5和P1~P5等特征圖的組合和融合,Mask R-CNN的Basebone層能夠捕捉到底層的細(xì)節(jié)特征和頂層的語(yǔ)義信息,提供更全面豐富的特征表示。該設(shè)計(jì)有助于改善目標(biāo)檢測(cè)和實(shí)例分割的性能,提高模型的準(zhǔn)確度和魯棒性。
針對(duì)現(xiàn)實(shí)中汽車(chē)行駛環(huán)境復(fù)雜多變,基于經(jīng)典的Mask R-CNN算法架構(gòu),增加了對(duì)環(huán)境信息的分辨能力及算法的識(shí)別速度,可對(duì)環(huán)境精準(zhǔn)快速地進(jìn)行分析,保證自動(dòng)駕駛的安全。經(jīng)典的Mask R-CNN算法采取Res-FPN結(jié)構(gòu),對(duì)圖像分辨能力效果較好,但細(xì)小或遮擋目標(biāo)的分辨能力受卷積層數(shù)的影響[12]。在一定范圍內(nèi),隨著卷積層數(shù)的增加,對(duì)圖像中細(xì)小目標(biāo)的分辨能力增強(qiáng),但卷積層數(shù)不能無(wú)限增加。此外,隨著卷積層數(shù)的增加,算法的單次運(yùn)行時(shí)間也增加。雖然原有Mask R-CNN卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)已滿(mǎn)足基本需求,但為進(jìn)一步提高檢測(cè)精度,本文在原有神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,添加了一種應(yīng)用在每次進(jìn)行卷積之前的自適應(yīng)門(mén)控通道注意力機(jī)制(gate channels transformation,GCT)[13]。GCT是一種結(jié)構(gòu)簡(jiǎn)單且易于應(yīng)用的注意力機(jī)制,用于增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型的表達(dá)能力。它采用規(guī)范化方法構(gòu)建通道之間的競(jìng)爭(zhēng)或協(xié)同關(guān)系,更傾向于在淺層階段促進(jìn)合作,而在更深層次上加強(qiáng)競(jìng)爭(zhēng)。一般而言,淺層學(xué)習(xí)主要用于捕捉低級(jí)屬性,如紋理等一般特征,而在更深層次上,高級(jí)特征更具判別性,并與任務(wù)密切相關(guān)。此外,GCT的訓(xùn)練參數(shù)量較輕量級(jí),因此GCT易于部署且不會(huì)占用過(guò)多的參數(shù)空間,同時(shí)也有助于對(duì)GCT的競(jìng)爭(zhēng)或協(xié)同等行為進(jìn)行可視化解釋。GCT是一種簡(jiǎn)單有效的通道間關(guān)系建模體系結(jié)構(gòu),提高了深度卷積網(wǎng)絡(luò)在視覺(jué)識(shí)別任務(wù)和數(shù)據(jù)集上的泛化能力,證明了其實(shí)用性。GCT結(jié)構(gòu)示意圖如圖2所示。
圖2 GCT結(jié)構(gòu)示意圖
GCT由3個(gè)主要部分組成,分別是全局上下文嵌入(global context embedding,GCE)、通道規(guī)范化(channel normalization,CN)和門(mén)限機(jī)制(gating adaptation,GA)。α,β,γ為可訓(xùn)練參數(shù),決定了GCT在每個(gè)通道的行為表現(xiàn)。其中,α有助于嵌入輸出的自適應(yīng)性,β和γ用于控制激活門(mén)限。
1) 全局上下文嵌入(GCE) 大感受視野有助于避免局部混淆,因此設(shè)計(jì)了一種全局上下嵌入模塊,用于每個(gè)通道的全局上下文信息匯聚。給定嵌入?yún)?shù)α=[α1,…,αc],該模塊定義為
(1)
其中,l為極小常數(shù)。
2) 通道規(guī)范化(CN) 規(guī)范化通過(guò)少量計(jì)算資源構(gòu)建神經(jīng)元間的競(jìng)爭(zhēng)關(guān)系,類(lèi)似于LRN。GCT采用進(jìn)行跨通道特征規(guī)范化,即通道規(guī)范化。其定義為
(2)
3) 門(mén)限機(jī)制(GA) GCT在上述基礎(chǔ)上添加了門(mén)限機(jī)制,有助于促進(jìn)神經(jīng)元的競(jìng)爭(zhēng)或協(xié)同關(guān)系。其定義為
(3)
實(shí)驗(yàn)結(jié)果表明,將GCT插入到每次卷積操作之前,提高對(duì)圖像信息的分辨能力。改進(jìn)后的Basebone層在保證運(yùn)算速度的同時(shí),增加了對(duì)圖像中小目標(biāo)的獲取能力,同時(shí),GCT網(wǎng)絡(luò)的加入提高了系統(tǒng)的魯棒性。對(duì)于Resnet網(wǎng)絡(luò)來(lái)說(shuō),增強(qiáng)效果尤其顯著。改進(jìn)后的Basebone 結(jié)構(gòu)如圖3所示。
圖3 改進(jìn)后的Basebone 結(jié)構(gòu)
經(jīng)典的Mask R-CNN網(wǎng)絡(luò)采用的激活函數(shù)是ReLU函數(shù), ReLU函數(shù)圖像如圖4所示。激活函數(shù)的主要作用是改變之前數(shù)據(jù)的線(xiàn)性關(guān)系,如果網(wǎng)絡(luò)中全部是線(xiàn)性變換,則多層網(wǎng)絡(luò)可通過(guò)矩陣變換直接轉(zhuǎn)換成一層神經(jīng)網(wǎng)絡(luò)[14]。因此,激活函數(shù)使神經(jīng)網(wǎng)絡(luò)可學(xué)習(xí)復(fù)雜的數(shù)據(jù),表示輸入輸出之間非線(xiàn)性的復(fù)雜的任意函數(shù)映射[15]。ReLU函數(shù)的數(shù)學(xué)表達(dá)式為
圖4 ReLU函數(shù)圖像
f(x)=max(0,x)
(4)
ReLU激活函數(shù)能夠加快網(wǎng)絡(luò)的訓(xùn)練速度,增加網(wǎng)絡(luò)的非線(xiàn)性能力,此外,ReLU函數(shù)計(jì)算簡(jiǎn)單,廣泛應(yīng)用于卷積層和深度學(xué)習(xí)模型訓(xùn)練。ReLU函數(shù)的實(shí)現(xiàn)僅需一個(gè)max()函數(shù),非常易于使用。另外,ReLU函數(shù)能夠?qū)崿F(xiàn)代表性的稀疏性以及線(xiàn)性行為。當(dāng)神經(jīng)網(wǎng)絡(luò)的行為是線(xiàn)性或接近線(xiàn)性時(shí),ReLU函數(shù)更容易優(yōu)化[16]。然而,ReLU函數(shù)在輸入值為負(fù)時(shí),會(huì)導(dǎo)致輸出為零,并且在零點(diǎn)處不可導(dǎo)。因此,當(dāng)神經(jīng)元的第一個(gè)輸入為負(fù)時(shí),可能導(dǎo)致整個(gè)神經(jīng)網(wǎng)絡(luò)的“死亡”現(xiàn)象。此外,當(dāng)輸入值為負(fù)時(shí),所有負(fù)值都會(huì)被立即置零,從而降低了模型對(duì)數(shù)據(jù)的適應(yīng)能力和訓(xùn)練能力[17]。也就是任何傳遞給ReLU激活函數(shù)的負(fù)輸入都會(huì)立即將其值置零,由于負(fù)值得不到適當(dāng)?shù)赜成?可能會(huì)影響結(jié)果。
為了增加網(wǎng)絡(luò)的穩(wěn)定性,本文將ReLU函數(shù)更換為平滑度更好的Mish函數(shù), Mish函數(shù)圖像如圖5所示。
Mish函數(shù)的數(shù)學(xué)表達(dá)式為
f(x)=xtanh(softplus(x))=xtanh(ln(1+ex))
(5)
Mish函數(shù)使用了tanh和softplus2個(gè)函數(shù)共同實(shí)現(xiàn)函數(shù)的門(mén)控機(jī)制,同時(shí)利用了tanh函數(shù)的零中心對(duì)稱(chēng)的特性,在更多的網(wǎng)絡(luò)模型和數(shù)據(jù)集上取得更好的性能[18]。Mish函數(shù)在零點(diǎn)處是可微的,且在輸入值為負(fù)值時(shí)也有輸出,保證了模型所需的平滑度,提高了系統(tǒng)的穩(wěn)定性。
Cityscapes數(shù)據(jù)集,即城市景觀(guān)數(shù)據(jù)集[19],是一個(gè)面向大型城市道路場(chǎng)景的常用分割數(shù)據(jù)集,它通過(guò)汽車(chē)駕駛視角采集了包含50個(gè)不同城市的立體視頻圖像序列,涵蓋了行人、汽車(chē)、公交車(chē)及信號(hào)燈等多個(gè)場(chǎng)景類(lèi)別。該數(shù)據(jù)集擁有5 000張精細(xì)標(biāo)注的在城市環(huán)境中駕駛場(chǎng)景的圖像(2 975張訓(xùn)練集,500張驗(yàn)證集,1 525張測(cè)試集)以及20 000張粗糙標(biāo)注圖像,具有19個(gè)類(lèi)別的密集像素標(biāo)注(97%覆蓋率),其中,8個(gè)具有實(shí)例級(jí)分割,是目前公認(rèn)的機(jī)器視覺(jué)領(lǐng)域內(nèi)最具權(quán)威性和專(zhuān)業(yè)性的圖像分割數(shù)據(jù)集之一。
本實(shí)驗(yàn)均在PyCharm 2021.3.1集成開(kāi)發(fā)環(huán)境上進(jìn)行,硬件平臺(tái)為window10系統(tǒng),CPU為i7,GPU為1塊16GB的NVIDIA RTX 2070 SUPER。
平均精度(average precision,AP)是一種常用的評(píng)估模型性能的指標(biāo),用于衡量目標(biāo)檢測(cè)和實(shí)例分割任務(wù)中的準(zhǔn)確性[20]。本文采用了不同的AP變體評(píng)估模型的實(shí)例分割性能,包括AP50、AP75、APs、APm、APl。其中,AP50表示當(dāng)IOU閾值為0.5時(shí)的平均精度,IOU用來(lái)衡量預(yù)測(cè)的邊界框與真實(shí)邊界框之間重疊程度的指標(biāo),0.5的閾值意味著預(yù)測(cè)框與真實(shí)框的重疊面積至少為真實(shí)框面積的一半;AP75表示當(dāng)IOU閾值為0.75時(shí)的平均精度;APs表示面積較小的目標(biāo)物體的平均準(zhǔn)確率;APm表示面積中等的目標(biāo)物體平均準(zhǔn)確率;APl表示面積較大的目標(biāo)物體的平均準(zhǔn)確率[21]。該評(píng)估設(shè)置可提供對(duì)模型在不同場(chǎng)景和尺度下的表現(xiàn)能力的全面認(rèn)知,為模型的改進(jìn)和比較提供有價(jià)值的參考。
為驗(yàn)證本文算法的有效性,本人對(duì)3種算法的目標(biāo)檢測(cè)結(jié)果和實(shí)例分割結(jié)果進(jìn)行對(duì)比。3種算法分別是基準(zhǔn)算法的Mask R-CNN原算法(M);Mask R-CNN結(jié)合GCT模塊后的算法(M-GCT);Mask R-CNN結(jié)合GCT模塊后并且修改激活函數(shù)后的算法(M-Mish-GCT)。3種算法的目標(biāo)檢測(cè)結(jié)果如表1所示,比較了不同評(píng)價(jià)指標(biāo)下的性能表現(xiàn)。3種算法的實(shí)例分割結(jié)果如表2所示。通過(guò)對(duì)比表1和表2,可直觀(guān)地評(píng)價(jià)3種算法在目標(biāo)檢測(cè)和實(shí)例分割任務(wù)上的表現(xiàn)。
表1 3種算法的目標(biāo)檢測(cè)結(jié)果
表2 3種算法的實(shí)例分割結(jié)果
由表1和表2可以看出,經(jīng)過(guò)GCT改進(jìn)后的Mask R-CNN算法,各項(xiàng)評(píng)價(jià)指標(biāo)都有所提升,在實(shí)例識(shí)別方面表現(xiàn)更出色,證明了GCT在視覺(jué)識(shí)別任務(wù)中的性能提升作用。在網(wǎng)絡(luò)推理階段,添加了GCT模塊的算法,運(yùn)行速度為每秒13幀,與原始算法每秒12幀相比,并沒(méi)有因添加模塊而導(dǎo)致算法性能下降,并且文中的實(shí)驗(yàn)算法采用Python語(yǔ)言,其運(yùn)行效率相對(duì)較低。但在實(shí)際應(yīng)用中,可通過(guò)采用C/C++語(yǔ)言提高程序的執(zhí)行速度,同時(shí)降低內(nèi)存占用率,提高算法的運(yùn)行效率。
為了更直觀(guān)地展示改進(jìn)后的算法在Cityscapes數(shù)據(jù)集中的分割效果,節(jié)選不同場(chǎng)景下的效果圖進(jìn)行分析。不同場(chǎng)景下3個(gè)車(chē)輛行駛時(shí)的原圖與分割效果圖對(duì)比如圖6~圖8所示。
圖6 場(chǎng)景一
由圖6~圖8的分割效果圖可以看出,改進(jìn)的算法對(duì)不同類(lèi)別不同個(gè)體的分割效果表現(xiàn)優(yōu)秀,沒(méi)有發(fā)生明顯的漏檢和錯(cuò)檢問(wèn)題。由圖7可以看出,光照條件對(duì)無(wú)人駕駛識(shí)別效果和分割精度存在一定程度的影響。通過(guò)3個(gè)不同場(chǎng)景下的實(shí)驗(yàn)可以得到,改進(jìn)算法為車(chē)輛提供準(zhǔn)確有效的外部信息,可對(duì)不同物體進(jìn)行精準(zhǔn)分割,有效驗(yàn)證了改進(jìn)算法的性能和良好的泛化能力。
圖7 場(chǎng)景二
圖8 場(chǎng)景三
為了對(duì)比改進(jìn)算法與原始算法的分割效果,對(duì)同一張圖像分別進(jìn)行不同方法的識(shí)別, Mask R-CNN算法分割效果如圖9所示。
圖9 Mask R-CNN算法分割效果
圖9中有2位處于坐立狀態(tài)的行人、1位騎行者和6輛汽車(chē)。經(jīng)過(guò)原Mask R-CNN算法訓(xùn)練識(shí)別后,雖然大目標(biāo)、近處以及無(wú)遮擋的目標(biāo)識(shí)別程度不錯(cuò),但2位行人之間的拐杖也被識(shí)別為1位行人,且右側(cè)汽車(chē)車(chē)窗反光處被認(rèn)為不是汽車(chē)而沒(méi)有標(biāo)注出來(lái)。
改進(jìn)的Mask R-CNN算法分割效果如圖10所示;測(cè)試圖像局部對(duì)比如圖11所示。
圖10 改進(jìn)Mask R-CNN算法分割效果
圖11 測(cè)試圖像局部對(duì)比
對(duì)比圖9~圖11可以看出,圖中行人之間的拐杖沒(méi)有被識(shí)別成行人,車(chē)窗反光處也被納入汽車(chē)的部分,其中車(chē)輪處被路燈遮擋部分也未被誤判為汽車(chē)。結(jié)果表明,改進(jìn)后的算法在目標(biāo)檢測(cè)和實(shí)例分割方面取得了更優(yōu)的分割效果。
本文將視覺(jué)識(shí)別注意力模塊嵌入到Mask R-CNN網(wǎng)絡(luò)結(jié)構(gòu),并在Cityscapes數(shù)據(jù)集上進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,在實(shí)例分割任務(wù)中,本文的改進(jìn)算法比原算法識(shí)別分辨能力更強(qiáng),并未降低算法效率,平均準(zhǔn)確率提高了約13.9%,有效提高了圖像識(shí)別質(zhì)量和整個(gè)網(wǎng)絡(luò)架構(gòu)的穩(wěn)定性。下一步的研究重點(diǎn)是將汽車(chē)行駛時(shí)實(shí)際場(chǎng)景中復(fù)雜繁多的類(lèi)別進(jìn)行有效精準(zhǔn)識(shí)別,且會(huì)考慮光照條件不足或雨雪霧等復(fù)雜氣象環(huán)境下的無(wú)人駕駛實(shí)例分割。