雷曉春,李云灝,梁止瀠,江澤濤
(1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院, 桂林 541004;2.桂林電子科技大學(xué) 廣西圖像圖形與智能處理重點(diǎn)實(shí)驗(yàn)室, 桂林 541004)
自從深度卷積神經(jīng)網(wǎng)絡(luò)問(wèn)世以來(lái),類別層面的語(yǔ)義分割任務(wù)取得了長(zhǎng)足的進(jìn)步。但是,分類標(biāo)簽無(wú)法提供許多任務(wù)需要的各個(gè)檢測(cè)框的詳細(xì)信息。相比之下,實(shí)例級(jí)圖像分割能產(chǎn)生關(guān)于每個(gè)人的身份,位置,形狀和類別標(biāo)簽的信息。
為了簡(jiǎn)化這項(xiàng)的任務(wù),大多數(shù)現(xiàn)有方法首先檢測(cè)出單個(gè)對(duì)象,然后根據(jù)對(duì)象信息獲得分割結(jié)果。由選擇性搜尋EdgeBox[3]或卷積神經(jīng)網(wǎng)絡(luò)生成物體框,例如Deep MultiBox[4],用FasterR-CNN[5]檢測(cè)出物體。Redmon等提出了“只看一次”(YOLO)[6]方法,該方法可以在對(duì)圖像的一次完整計(jì)算中直接預(yù)測(cè)檢測(cè)框和物體的類別。Mask R-CNN[1]用FasterR-CNN檢測(cè)出物體后對(duì)每個(gè)物體框做FCN(Fully Convolutional Networks,全卷積)獲得分割結(jié)果。同樣基于Faster R-CNN的MaskLab[7],對(duì)于每一個(gè)ROI(Region of Interest,感興趣區(qū)域),結(jié)合語(yǔ)義預(yù)測(cè)產(chǎn)生前向/背景分割。Mask scoring R-CNN[8]加入了對(duì)預(yù)測(cè)掩膜的學(xué)習(xí)。其更進(jìn)一步的改進(jìn)是Cascade Mask R-CNN[9],通過(guò)將框和掩膜分支以多級(jí)層疊的方式交織在一起以及通過(guò)語(yǔ)義分割提供空間上下文,加入了一個(gè)注意力模塊來(lái)處理全圖的上下文信息,借鑒了渲染和自適應(yīng)關(guān)鍵點(diǎn)的思想來(lái)恢復(fù)圖像的精細(xì)細(xì)節(jié),以實(shí)現(xiàn)高質(zhì)量的圖像分割。
類似于 Mask R-CNN[1]的二階段實(shí)例分割方法,會(huì)面臨得到的實(shí)例掩膜分辨率相對(duì)較低且嚴(yán)重依賴于目標(biāo)檢測(cè)產(chǎn)生的邊界框的問(wèn)題。掩膜分支是一個(gè)卷積網(wǎng)絡(luò),取ROI分類器選擇的正確區(qū)域?yàn)檩斎氩⑸伤鼈兊难谀?。其生成的掩膜?8×28像素的。但它們是由浮點(diǎn)數(shù)表示的軟掩膜,相對(duì)于二進(jìn)制掩膜有更多的細(xì)節(jié)。掩膜的小尺寸屬性有助于保持掩膜分支網(wǎng)絡(luò)的輕量性。在訓(xùn)練過(guò)程中,將真實(shí)的掩膜縮小為28×28來(lái)計(jì)算損失函數(shù),在推理過(guò)程中,將預(yù)測(cè)的掩膜放大為ROI邊框的尺寸得到最終的掩膜結(jié)果。在此之后,雖然有例如PointRend[2]通過(guò)尋找難點(diǎn)再使用MLP(Multilayer Perceptron,多層感知機(jī))預(yù)測(cè)掩膜邊緣的方法,但受限于其輸入都是圖像底層特征,對(duì)物體邊緣的精度提升效果有限。
為了解決這個(gè)問(wèn)題,B-PointRend(B為boundary的縮寫,這里特指對(duì)邊緣的操作)采用深度學(xué)習(xí)與傳統(tǒng)視覺(jué)相融合的方式,在原有的實(shí)例分割基礎(chǔ)上添加了對(duì)預(yù)分割掩膜的精細(xì)化處理,把分割掩膜邊緣映射到目標(biāo)圖像上,利用掩膜邊緣附近的目標(biāo)圖像的像素信息,生長(zhǎng)或縮小掩膜邊緣,直到掩膜完全覆蓋檢測(cè)框中的物體,得到更精細(xì)的圖像分割結(jié)果,在處理時(shí)間方面并沒(méi)有增加太多算法的運(yùn)行時(shí)間。
如圖1(a)為PointRend算法實(shí)現(xiàn)的圖像分割效果,為了便于觀察圖像邊緣的細(xì)節(jié),圖中用白色覆蓋掩膜見(jiàn)圖1(c)。圖1(b)為B-PointRend算法實(shí)現(xiàn)的圖像分割效果,用白色覆蓋掩膜見(jiàn)圖1(d)。
圖1 效果圖
在PointRend的迭代上采樣的過(guò)程中,挑選出N個(gè)“難點(diǎn)”,即結(jié)果很有可能和周圍點(diǎn)有不一樣的點(diǎn)(例如物體邊緣)。對(duì)于每個(gè)難點(diǎn),獲取其“表征向量”?!氨碚飨蛄俊庇蓛蓚€(gè)部分組成:一是低層特征,通過(guò)使用點(diǎn)的坐標(biāo),在低層的特征圖上進(jìn)行雙線性插值獲得;二是高層特征。使用 MLP[10]對(duì)“表征向量”計(jì)算得到新的預(yù)測(cè)。
改進(jìn)方案在PointRend的迭代上采樣過(guò)程中,加入了通過(guò)難點(diǎn)確定的掩膜邊緣,分析掩膜邊緣周圍像素值,達(dá)到精細(xì)化物體邊緣的效果。在每次進(jìn)行上采樣過(guò)程中,由MLP網(wǎng)絡(luò)確定難點(diǎn)和判別難點(diǎn)的類別,之后則進(jìn)行對(duì)圖片中每個(gè)物體掩膜的分析。
得到網(wǎng)絡(luò)識(shí)別出的實(shí)例物體框和掩膜,遍歷所有掩膜及其周圍的像素,以確定邊緣掩膜。具體方式為如果掩膜周圍的8個(gè)像素全為其他掩膜,則此像素不為邊緣掩膜,反之則記為邊緣掩膜。
接下來(lái)分析邊緣掩膜。按照一定規(guī)則分析邊緣掩膜周圍的8個(gè)像素,如果此區(qū)域內(nèi)的掩膜像素值接近,則把區(qū)域內(nèi)最接近掩膜像素值的像素也視為掩膜。如果掩膜的像素值與區(qū)域內(nèi)非掩膜的像素平均值接近,則把此掩膜視為非掩膜,從而得到更精細(xì)化的物體邊緣,接著進(jìn)行下一次上采樣,在每一次上采樣過(guò)程中重復(fù)此步驟,把MLP網(wǎng)絡(luò)和本文使用的掩膜擴(kuò)張或縮小方法相結(jié)合,共同計(jì)算網(wǎng)絡(luò)的損失函數(shù)。
網(wǎng)絡(luò)的損失函數(shù)為:
(1)
Lcls為softmax cross entropy loss(交叉熵?fù)p失),用于計(jì)算logits(預(yù)測(cè)值)和 labels(真實(shí)標(biāo)簽值)之間的差別。在交叉熵?fù)p失的公式中,p(xi)表示物體的真實(shí)概率分布,q(xi)表示物體預(yù)測(cè)概率分布。
(2)
Lbox為smooth loss(平滑損失),使模型在訓(xùn)練初期損失輸入較大時(shí)能夠較為穩(wěn)定在某一個(gè)數(shù)值,而在后期趨向于收斂時(shí)也能夠加速梯度的回傳。使模型在訓(xùn)練初期損失穩(wěn)定,更快收斂到更高精度。
圖2 PointRend的難點(diǎn)尋找
圖3 改進(jìn)后的難點(diǎn)尋找
Lmask為分割損失,代表平均二值交叉熵?fù)p失average binary cross-entropy loss。對(duì)于一張圖片所有的掩膜,只提取屬于一個(gè)物體的ROI,如Lmask僅僅考慮第k個(gè)掩膜,即單一物體。而其他的掩膜輸入不會(huì)貢獻(xiàn)到損失函數(shù)中,采用這樣的方法計(jì)算損失可以允許對(duì)每個(gè)類別都生成掩膜,并且不會(huì)存在類間競(jìng)爭(zhēng)。
具體的掩膜像素分析方法如下。
首先,計(jì)算出實(shí)例分割所得到的物體掩膜邊緣部分,進(jìn)而得到原圖上該部分的像素值信息,對(duì)每一個(gè)位于邊緣的像素進(jìn)行分析。具體的步驟為:
初始化一個(gè)自適應(yīng)閾值t,掩膜自身像素記為a。提取掩膜周圍的8個(gè)像素,并把其中不是掩膜的像素取平均值,記為avg(b),掩膜的像素取平均值,記為avg(c),擴(kuò)大或縮小掩膜區(qū)域。初始化閾值可以在模型配置文件中提供,閾值在每一次遞歸調(diào)用邊緣掩膜修正的過(guò)程中都將自適應(yīng)縮小,以便及時(shí)地跳出循環(huán)。
在具體分析的過(guò)程中,掩膜與周圍像素的關(guān)系可以分為以下幾種情況。
(3)
此情況表示掩膜像素值與非掩膜像素均值之差小于閾值,掩膜像素值與掩膜周圍像素均值之差也小于閾值。表明此區(qū)域內(nèi)的像素值接近,則把最接近平均值的像素也視為掩膜min(bi-avg(b))=mask,擴(kuò)大掩膜區(qū)域,視為一次掩膜生長(zhǎng)。
(4)
此情況表示掩膜像素值與非掩膜像素均值之差小于閾值,掩膜像素值與周圍掩膜像素均值之差大于閾值,表明此掩膜與區(qū)域內(nèi)非掩膜的像素值接近,且與其他掩膜像素值差距過(guò)大,把此掩膜視為非掩膜,縮小掩膜區(qū)域。
掩膜擴(kuò)大和縮小如圖4和圖5所示,藍(lán)色色塊是要確定的掩膜像素,橙色是掩膜部分,藍(lán)、紫色塊是非掩膜部分。
圖4 擴(kuò)大掩膜
圖5 縮小掩膜
遞歸調(diào)用此算法,每次調(diào)用按照一定規(guī)律縮小自適應(yīng)閾值t的值,直到某一次邊緣像素分析沒(méi)有造成掩膜的擴(kuò)張或縮小,就結(jié)束邊緣分析。最終得到一張經(jīng)過(guò)邊緣掩膜分析的實(shí)例分割結(jié)果圖。如圖6所示。
圖6 效果圖
本實(shí)驗(yàn)使用顯卡為兩張RTX2080TI,數(shù)據(jù)集采用COCO 2017,訓(xùn)練集共有118 287張圖片,驗(yàn)證集有5000張圖片,共分為80個(gè)類別進(jìn)行訓(xùn)練?;赿etectron2框架運(yùn)行PointRend網(wǎng)絡(luò),在同樣的訓(xùn)練參數(shù)下分別訓(xùn)練PointRend模型與改進(jìn)方法B-PointRend模型,在經(jīng)過(guò)足夠次數(shù)的訓(xùn)練后,測(cè)試所得模型結(jié)果如圖7所示,對(duì)其中部分區(qū)域放大展示效果如圖8所示。
圖7 效果圖
圖8 放大后的效果圖對(duì)比
從圖8可以看到,PointRend網(wǎng)絡(luò)雖然加入了MLP模塊對(duì)物體邊緣的難點(diǎn)進(jìn)行了更細(xì)致的預(yù)測(cè),但是還是存在物體邊緣粗糙、沒(méi)有完全覆蓋邊緣或者超過(guò)邊緣的現(xiàn)象。而在加入了本文提出的邊緣掩膜優(yōu)化之后,物體的掩膜邊緣精度有了一定程度的提升,表現(xiàn)為物體邊緣光滑且連續(xù),且更精確地覆蓋了真實(shí)的物體邊緣,在實(shí)例分割的準(zhǔn)確率上有一定程度的提升??梢钥闯?,算法對(duì)被分割物體與背景顏色值差別較大時(shí)有著較好的分割精度,但對(duì)于同圖片背景顏色相近的物體來(lái)說(shuō),由于本算法是通過(guò)比較邊緣掩膜的周圍8個(gè)像素來(lái)進(jìn)行掩膜的擴(kuò)大或縮小,對(duì)顏色值相近的兩個(gè)物體進(jìn)行掩膜操作可能會(huì)存在一定程度的精度損失。
采用AP(Average Precision準(zhǔn)確度)、APm(測(cè)量的面積在分割掩碼中的像素?cái)?shù)量在322~962之間的物體的AP)、召回率和精確度對(duì)分割結(jié)果進(jìn)行評(píng)價(jià),將改進(jìn)的PointRend與原始網(wǎng)絡(luò)、MaskR-CNN進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表1所示。
表1 模型測(cè)試結(jié)果
而在模型的處理時(shí)間方面,使用RTX2080TI處理單張圖片的時(shí)間,如表2所示。
表2 模型處理時(shí)間(單位:張/秒)
由實(shí)驗(yàn)結(jié)果可知,在加入對(duì)掩膜周圍像素的分析之后,不管是在R50-FPN(骨干網(wǎng)絡(luò)采用ResNet50[14])還是在R101-FPN(骨干網(wǎng)絡(luò)采用ResNet101)上,B-PointRend網(wǎng)絡(luò)的性能優(yōu)于PointRend。B-PointRend在各項(xiàng)指標(biāo)上均有一定的提升,使PointRend的分割精度尤其是物體邊緣精度優(yōu)于原網(wǎng)絡(luò)。本文所提出的網(wǎng)絡(luò)性能也優(yōu)于MaskR-CNN,在精確度上有一定的提升。
本文提出了一種改進(jìn)的B-PointRend的網(wǎng)絡(luò),對(duì)PointRend的網(wǎng)絡(luò)添加預(yù)分割掩膜的精細(xì)化處理,把深度學(xué)習(xí)和傳統(tǒng)視覺(jué)融合,通過(guò)遞歸分析邊緣掩膜周圍像素值,擴(kuò)張或收縮掩膜。優(yōu)化了物體邊緣的分割精度,可以更準(zhǔn)確地識(shí)別出物體的邊緣。通過(guò)實(shí)驗(yàn)效果及指標(biāo)分析,可以看到改進(jìn)方法優(yōu)于PointRend方法。