一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法

2021-11-24 02:20雷曉春李云灝梁止瀠江澤濤

中國(guó)體視學(xué)與圖像分析 2021年3期

雷曉春，李云灝，梁止瀠，江澤濤

(1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院, 桂林 541004;2.桂林電子科技大學(xué) 廣西圖像圖形與智能處理重點(diǎn)實(shí)驗(yàn)室, 桂林 541004)

0 引言

自從深度卷積神經(jīng)網(wǎng)絡(luò)問(wèn)世以來(lái)，類別層面的語(yǔ)義分割任務(wù)取得了長(zhǎng)足的進(jìn)步。但是，分類標(biāo)簽無(wú)法提供許多任務(wù)需要的各個(gè)檢測(cè)框的詳細(xì)信息。相比之下，實(shí)例級(jí)圖像分割能產(chǎn)生關(guān)于每個(gè)人的身份，位置，形狀和類別標(biāo)簽的信息。

為了簡(jiǎn)化這項(xiàng)的任務(wù)，大多數(shù)現(xiàn)有方法首先檢測(cè)出單個(gè)對(duì)象，然后根據(jù)對(duì)象信息獲得分割結(jié)果。由選擇性搜尋EdgeBox[3]或卷積神經(jīng)網(wǎng)絡(luò)生成物體框，例如Deep MultiBox[4]，用FasterR-CNN[5]檢測(cè)出物體。Redmon等提出了“只看一次”(YOLO)[6]方法，該方法可以在對(duì)圖像的一次完整計(jì)算中直接預(yù)測(cè)檢測(cè)框和物體的類別。Mask R-CNN[1]用FasterR-CNN檢測(cè)出物體后對(duì)每個(gè)物體框做FCN(Fully Convolutional Networks，全卷積)獲得分割結(jié)果。同樣基于Faster R-CNN的MaskLab[7]，對(duì)于每一個(gè)ROI(Region of Interest，感興趣區(qū)域)，結(jié)合語(yǔ)義預(yù)測(cè)產(chǎn)生前向/背景分割。Mask scoring R-CNN[8]加入了對(duì)預(yù)測(cè)掩膜的學(xué)習(xí)。其更進(jìn)一步的改進(jìn)是Cascade Mask R-CNN[9]，通過(guò)將框和掩膜分支以多級(jí)層疊的方式交織在一起以及通過(guò)語(yǔ)義分割提供空間上下文，加入了一個(gè)注意力模塊來(lái)處理全圖的上下文信息，借鑒了渲染和自適應(yīng)關(guān)鍵點(diǎn)的思想來(lái)恢復(fù)圖像的精細(xì)細(xì)節(jié)，以實(shí)現(xiàn)高質(zhì)量的圖像分割。

類似于 Mask R-CNN[1]的二階段實(shí)例分割方法，會(huì)面臨得到的實(shí)例掩膜分辨率相對(duì)較低且嚴(yán)重依賴于目標(biāo)檢測(cè)產(chǎn)生的邊界框的問(wèn)題。掩膜分支是一個(gè)卷積網(wǎng)絡(luò)，取ROI分類器選擇的正確區(qū)域?yàn)檩斎氩⑸伤鼈兊难谀?。其生成的掩膜?8×28像素的。但它們是由浮點(diǎn)數(shù)表示的軟掩膜，相對(duì)于二進(jìn)制掩膜有更多的細(xì)節(jié)。掩膜的小尺寸屬性有助于保持掩膜分支網(wǎng)絡(luò)的輕量性。在訓(xùn)練過(guò)程中，將真實(shí)的掩膜縮小為28×28來(lái)計(jì)算損失函數(shù)，在推理過(guò)程中，將預(yù)測(cè)的掩膜放大為ROI邊框的尺寸得到最終的掩膜結(jié)果。在此之后，雖然有例如PointRend[2]通過(guò)尋找難點(diǎn)再使用MLP(Multilayer Perceptron，多層感知機(jī))預(yù)測(cè)掩膜邊緣的方法，但受限于其輸入都是圖像底層特征，對(duì)物體邊緣的精度提升效果有限。

為了解決這個(gè)問(wèn)題，B-PointRend(B為boundary的縮寫，這里特指對(duì)邊緣的操作)采用深度學(xué)習(xí)與傳統(tǒng)視覺(jué)相融合的方式，在原有的實(shí)例分割基礎(chǔ)上添加了對(duì)預(yù)分割掩膜的精細(xì)化處理，把分割掩膜邊緣映射到目標(biāo)圖像上，利用掩膜邊緣附近的目標(biāo)圖像的像素信息，生長(zhǎng)或縮小掩膜邊緣，直到掩膜完全覆蓋檢測(cè)框中的物體，得到更精細(xì)的圖像分割結(jié)果，在處理時(shí)間方面并沒(méi)有增加太多算法的運(yùn)行時(shí)間。

如圖1(a)為PointRend算法實(shí)現(xiàn)的圖像分割效果，為了便于觀察圖像邊緣的細(xì)節(jié)，圖中用白色覆蓋掩膜見(jiàn)圖1(c)。圖1(b)為B-PointRend算法實(shí)現(xiàn)的圖像分割效果，用白色覆蓋掩膜見(jiàn)圖1(d)。

圖1 效果圖

1 B-PointRend圖像分割掩膜邊緣優(yōu)化方法

在PointRend的迭代上采樣的過(guò)程中，挑選出N個(gè)“難點(diǎn)”，即結(jié)果很有可能和周圍點(diǎn)有不一樣的點(diǎn)(例如物體邊緣)。對(duì)于每個(gè)難點(diǎn)，獲取其“表征向量”?！氨碚飨蛄俊庇蓛蓚€(gè)部分組成：一是低層特征，通過(guò)使用點(diǎn)的坐標(biāo)，在低層的特征圖上進(jìn)行雙線性插值獲得；二是高層特征。使用 MLP[10]對(duì)“表征向量”計(jì)算得到新的預(yù)測(cè)。

改進(jìn)方案在PointRend的迭代上采樣過(guò)程中，加入了通過(guò)難點(diǎn)確定的掩膜邊緣，分析掩膜邊緣周圍像素值，達(dá)到精細(xì)化物體邊緣的效果。在每次進(jìn)行上采樣過(guò)程中，由MLP網(wǎng)絡(luò)確定難點(diǎn)和判別難點(diǎn)的類別，之后則進(jìn)行對(duì)圖片中每個(gè)物體掩膜的分析。

得到網(wǎng)絡(luò)識(shí)別出的實(shí)例物體框和掩膜，遍歷所有掩膜及其周圍的像素，以確定邊緣掩膜。具體方式為如果掩膜周圍的8個(gè)像素全為其他掩膜，則此像素不為邊緣掩膜，反之則記為邊緣掩膜。

接下來(lái)分析邊緣掩膜。按照一定規(guī)則分析邊緣掩膜周圍的8個(gè)像素，如果此區(qū)域內(nèi)的掩膜像素值接近，則把區(qū)域內(nèi)最接近掩膜像素值的像素也視為掩膜。如果掩膜的像素值與區(qū)域內(nèi)非掩膜的像素平均值接近，則把此掩膜視為非掩膜，從而得到更精細(xì)化的物體邊緣，接著進(jìn)行下一次上采樣，在每一次上采樣過(guò)程中重復(fù)此步驟，把MLP網(wǎng)絡(luò)和本文使用的掩膜擴(kuò)張或縮小方法相結(jié)合，共同計(jì)算網(wǎng)絡(luò)的損失函數(shù)。

網(wǎng)絡(luò)的損失函數(shù)為：

(1)

Lcls為softmax cross entropy loss(交叉熵?fù)p失)，用于計(jì)算logits(預(yù)測(cè)值)和 labels(真實(shí)標(biāo)簽值)之間的差別。在交叉熵?fù)p失的公式中，p(xi)表示物體的真實(shí)概率分布，q(xi)表示物體預(yù)測(cè)概率分布。

(2)

Lbox為smooth loss(平滑損失)，使模型在訓(xùn)練初期損失輸入較大時(shí)能夠較為穩(wěn)定在某一個(gè)數(shù)值，而在后期趨向于收斂時(shí)也能夠加速梯度的回傳。使模型在訓(xùn)練初期損失穩(wěn)定，更快收斂到更高精度。

圖2 PointRend的難點(diǎn)尋找

圖3 改進(jìn)后的難點(diǎn)尋找

Lmask為分割損失，代表平均二值交叉熵?fù)p失average binary cross-entropy loss。對(duì)于一張圖片所有的掩膜，只提取屬于一個(gè)物體的ROI，如Lmask僅僅考慮第k個(gè)掩膜，即單一物體。而其他的掩膜輸入不會(huì)貢獻(xiàn)到損失函數(shù)中，采用這樣的方法計(jì)算損失可以允許對(duì)每個(gè)類別都生成掩膜，并且不會(huì)存在類間競(jìng)爭(zhēng)。

具體的掩膜像素分析方法如下。

首先，計(jì)算出實(shí)例分割所得到的物體掩膜邊緣部分，進(jìn)而得到原圖上該部分的像素值信息，對(duì)每一個(gè)位于邊緣的像素進(jìn)行分析。具體的步驟為：

初始化一個(gè)自適應(yīng)閾值t，掩膜自身像素記為a。提取掩膜周圍的8個(gè)像素，并把其中不是掩膜的像素取平均值，記為avg(b)，掩膜的像素取平均值，記為avg(c)，擴(kuò)大或縮小掩膜區(qū)域。初始化閾值可以在模型配置文件中提供，閾值在每一次遞歸調(diào)用邊緣掩膜修正的過(guò)程中都將自適應(yīng)縮小，以便及時(shí)地跳出循環(huán)。

在具體分析的過(guò)程中，掩膜與周圍像素的關(guān)系可以分為以下幾種情況。

(3)

此情況表示掩膜像素值與非掩膜像素均值之差小于閾值，掩膜像素值與掩膜周圍像素均值之差也小于閾值。表明此區(qū)域內(nèi)的像素值接近，則把最接近平均值的像素也視為掩膜min(bi-avg(b))=mask，擴(kuò)大掩膜區(qū)域，視為一次掩膜生長(zhǎng)。

(4)

此情況表示掩膜像素值與非掩膜像素均值之差小于閾值，掩膜像素值與周圍掩膜像素均值之差大于閾值，表明此掩膜與區(qū)域內(nèi)非掩膜的像素值接近，且與其他掩膜像素值差距過(guò)大，把此掩膜視為非掩膜，縮小掩膜區(qū)域。

掩膜擴(kuò)大和縮小如圖4和圖5所示，藍(lán)色色塊是要確定的掩膜像素，橙色是掩膜部分，藍(lán)、紫色塊是非掩膜部分。

圖4 擴(kuò)大掩膜

圖5 縮小掩膜

遞歸調(diào)用此算法，每次調(diào)用按照一定規(guī)律縮小自適應(yīng)閾值t的值，直到某一次邊緣像素分析沒(méi)有造成掩膜的擴(kuò)張或縮小，就結(jié)束邊緣分析。最終得到一張經(jīng)過(guò)邊緣掩膜分析的實(shí)例分割結(jié)果圖。如圖6所示。

圖6 效果圖

2 實(shí)驗(yàn)結(jié)果及分析

本實(shí)驗(yàn)使用顯卡為兩張RTX2080TI，數(shù)據(jù)集采用COCO 2017，訓(xùn)練集共有118 287張圖片，驗(yàn)證集有5000張圖片，共分為80個(gè)類別進(jìn)行訓(xùn)練?；赿etectron2框架運(yùn)行PointRend網(wǎng)絡(luò)，在同樣的訓(xùn)練參數(shù)下分別訓(xùn)練PointRend模型與改進(jìn)方法B-PointRend模型，在經(jīng)過(guò)足夠次數(shù)的訓(xùn)練后，測(cè)試所得模型結(jié)果如圖7所示，對(duì)其中部分區(qū)域放大展示效果如圖8所示。

圖7 效果圖

圖8 放大后的效果圖對(duì)比

從圖8可以看到，PointRend網(wǎng)絡(luò)雖然加入了MLP模塊對(duì)物體邊緣的難點(diǎn)進(jìn)行了更細(xì)致的預(yù)測(cè)，但是還是存在物體邊緣粗糙、沒(méi)有完全覆蓋邊緣或者超過(guò)邊緣的現(xiàn)象。而在加入了本文提出的邊緣掩膜優(yōu)化之后，物體的掩膜邊緣精度有了一定程度的提升，表現(xiàn)為物體邊緣光滑且連續(xù)，且更精確地覆蓋了真實(shí)的物體邊緣，在實(shí)例分割的準(zhǔn)確率上有一定程度的提升?？梢钥闯?，算法對(duì)被分割物體與背景顏色值差別較大時(shí)有著較好的分割精度，但對(duì)于同圖片背景顏色相近的物體來(lái)說(shuō)，由于本算法是通過(guò)比較邊緣掩膜的周圍8個(gè)像素來(lái)進(jìn)行掩膜的擴(kuò)大或縮小，對(duì)顏色值相近的兩個(gè)物體進(jìn)行掩膜操作可能會(huì)存在一定程度的精度損失。

采用AP(Average Precision準(zhǔn)確度)、APm(測(cè)量的面積在分割掩碼中的像素?cái)?shù)量在322～962之間的物體的AP)、召回率和精確度對(duì)分割結(jié)果進(jìn)行評(píng)價(jià)，將改進(jìn)的PointRend與原始網(wǎng)絡(luò)、MaskR-CNN進(jìn)行對(duì)比，實(shí)驗(yàn)結(jié)果如表1所示。

表1 模型測(cè)試結(jié)果

而在模型的處理時(shí)間方面，使用RTX2080TI處理單張圖片的時(shí)間，如表2所示。

表2 模型處理時(shí)間(單位：張/秒)

由實(shí)驗(yàn)結(jié)果可知，在加入對(duì)掩膜周圍像素的分析之后，不管是在R50-FPN(骨干網(wǎng)絡(luò)采用ResNet50[14])還是在R101-FPN(骨干網(wǎng)絡(luò)采用ResNet101)上，B-PointRend網(wǎng)絡(luò)的性能優(yōu)于PointRend。B-PointRend在各項(xiàng)指標(biāo)上均有一定的提升，使PointRend的分割精度尤其是物體邊緣精度優(yōu)于原網(wǎng)絡(luò)。本文所提出的網(wǎng)絡(luò)性能也優(yōu)于MaskR-CNN，在精確度上有一定的提升。

3 結(jié)論

本文提出了一種改進(jìn)的B-PointRend的網(wǎng)絡(luò)，對(duì)PointRend的網(wǎng)絡(luò)添加預(yù)分割掩膜的精細(xì)化處理，把深度學(xué)習(xí)和傳統(tǒng)視覺(jué)融合，通過(guò)遞歸分析邊緣掩膜周圍像素值，擴(kuò)張或收縮掩膜。優(yōu)化了物體邊緣的分割精度，可以更準(zhǔn)確地識(shí)別出物體的邊緣。通過(guò)實(shí)驗(yàn)效果及指標(biāo)分析，可以看到改進(jìn)方法優(yōu)于PointRend方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法

0 引言

1 B-PointRend圖像分割掩膜邊緣優(yōu)化方法

2 實(shí)驗(yàn)結(jié)果及分析

3 結(jié)論