超像素相似性傳遞的弱監(jiān)督語義分割算法設(shè)計(jì)

2021-12-31 01:20國網(wǎng)信通億力科技有限責(zé)任公司興業(yè)銀行股份有限公司李良御

電力設(shè)備管理 2021年13期

國網(wǎng)信通億力科技有限責(zé)任公司席勒興業(yè)銀行股份有限公司李良御

近年來，注意力機(jī)制已經(jīng)成為神經(jīng)網(wǎng)絡(luò)領(lǐng)域中一個(gè)重要的概念，被廣泛地應(yīng)用于自然語言處理、語音識別以及圖像解釋等任務(wù)中。注意力機(jī)制類似于人類視覺的觀察機(jī)制，關(guān)注于從大量的數(shù)據(jù)中尋找當(dāng)前任務(wù)的關(guān)鍵信息，改善神經(jīng)網(wǎng)絡(luò)中有效特征的提取。

目前，大量的基于圖像級標(biāo)簽的弱監(jiān)督語義分割方法中，使用神經(jīng)網(wǎng)絡(luò)的圖像注意力機(jī)制定位目標(biāo)的種子區(qū)域，并結(jié)合擴(kuò)充算法尋找完整的目標(biāo)掩膜(mask)。例如，在SEC 算法中提出種子定位、種子擴(kuò)張以及邊界限制三種損失函數(shù)，旨在從注意力定位區(qū)域逐漸尋找完整的分割掩膜[1]。在DSRG 算法中提出運(yùn)用經(jīng)典種子生長分割算法，產(chǎn)生從初始定位區(qū)域逐漸覆蓋于全圖像的分割掩膜[2]。然而，現(xiàn)有的圖像級監(jiān)督的語義分割方法，由于缺少精確的空間定位信息，通常會在邊緣處存在粗糙的分割結(jié)果。

受到種子定位思路的啟發(fā)，本文提出超像素相似性傳遞的弱監(jiān)督語義分割算法設(shè)計(jì)。如圖1所示，以圖像注意力機(jī)制為基礎(chǔ)定位目標(biāo)種子區(qū)域，并引入隨機(jī)游走算法以超像素塊的形式傳遞種子區(qū)域的相似性。本文通過邊緣檢測器尋找不同物體之間的邊緣線索，生成具有相同語義集合的超像素塊區(qū)域，并使用超像素塊代替像素點(diǎn)作為圖像基本單位擴(kuò)張種子區(qū)域，保證了局部區(qū)域的相同語義特征。同時(shí)，在傳遞相似性特征過程中，將隨機(jī)游走結(jié)果以超像素的方式融合，提升了算法的準(zhǔn)確性和魯棒性。在PASCAL VOC2012數(shù)據(jù)集上進(jìn)行驗(yàn)證，結(jié)果表明本章提出的弱監(jiān)督語義分割方法相比于其它算法在mIoU 評價(jià)標(biāo)準(zhǔn)下精確度提升了2.1%，同時(shí)解決了語義分割標(biāo)簽邊緣粗糙以及容易產(chǎn)生錯(cuò)誤分割區(qū)域的問題。

圖1 類別掩膜生成流程圖

1 超像素相似性傳遞的弱監(jiān)督語義分割算法

本文算法總共分為兩個(gè)階段，第一階段通過優(yōu)化算法產(chǎn)生像素級語義標(biāo)簽；第二階段使用文中生成的語義標(biāo)簽訓(xùn)練語義分割模型，以該模型的輸出結(jié)果與其它弱監(jiān)督算法做出比較，以此判斷本文算法的有效性。在第一階段中，為了生成高質(zhì)量的語義分割標(biāo)簽，以圖像注意力機(jī)制為基礎(chǔ)，在圖像預(yù)處理、種子標(biāo)定、產(chǎn)生像素標(biāo)簽三個(gè)方面進(jìn)行設(shè)計(jì)。

1.1 圖像預(yù)處理

在傳統(tǒng)的圖像分割領(lǐng)域中，大部分算法以像素點(diǎn)作為分割的基礎(chǔ)單元，但隨著彩色圖像分辨率的增大，待處理的計(jì)算量也急劇增加。本文受靈感于UCM 算法[3]通過在多尺度上結(jié)合全局與局部特征，計(jì)算每個(gè)像素點(diǎn)屬于邊緣的概率值，并通過設(shè)定閾值生成圖像的超像素圖?？梢员硎緸?。

最終，gpb 的值經(jīng)過Sigmoid 函數(shù)變換，輸出值每一個(gè)像素點(diǎn)作為邊緣的概率值。為了產(chǎn)生圖像真邊界，在此基礎(chǔ)上使用分水嶺算法尋找真邊緣，邊緣強(qiáng)度由邊界在走勢方向上各像素點(diǎn)概率平均值確定。在本文中使用0.15作為閾值產(chǎn)生所有超像素圖，通過預(yù)處理的圖像，將圖像的最小單位擴(kuò)大為了超像素塊，不僅減小了后處理的計(jì)算量，并且通過聚合相似性像素點(diǎn)，減少了圖像噪聲。

1.2 種子標(biāo)定

圖像級類別標(biāo)簽作為監(jiān)督信息時(shí)，缺少有效的目標(biāo)的定位線索，成為了弱監(jiān)督語義分割的難點(diǎn)。為了解決這個(gè)問題，Zhou 等人[4]提出分類網(wǎng)絡(luò)中卷積層保留了語義位置信息，然而這種定位效果由于全連接層的使用失效了。為了保留卷積層的定位效果，使用全局平均池化層代替全連接層，產(chǎn)生的類激活映射（class activation mapping，CAM）有效定位于目標(biāo)物體最具有辨別性區(qū)域。對于類別c 在卷積層空間位置(x,y)的激活值可以表示為。

原算法類激活映射方式缺少關(guān)于背景區(qū)域的分值圖，則需要對各個(gè)類別的激活分值圖進(jìn)行標(biāo)準(zhǔn)化操作，假設(shè)某類別的最大激活值為Mc-max。則修正后的關(guān)于圖像背景區(qū)域的類激活映射分值圖可表示為，其中α 為調(diào)整背景激活分值的超參數(shù)。通過這種方式有效的生成關(guān)于背景類別的激活映射分值圖。根據(jù)設(shè)定閾值t，將處于空間位置(x,y)處且低于閾值t（本章中t 取0.3）的激活值置為零，并選取相應(yīng)位置處的最大激活值類別作為該像素點(diǎn)語義。

直觀來說，類激活映射就是將不同空間單元的激活值線性加權(quán)后的處理結(jié)果。然而，種子區(qū)域在邊緣處存在粗糙的分割結(jié)果，定位區(qū)域中不僅包含目標(biāo)物體，并且含有部分其它類別物體。因此需要利用超像素圖對定位結(jié)果進(jìn)行修正，使得產(chǎn)生更加準(zhǔn)確的超像素塊定位區(qū)域。在超像素塊內(nèi)的各像素點(diǎn)之間具有較強(qiáng)的相似性特征。本文設(shè)計(jì)填充率選擇方案，根據(jù)粗糙定位區(qū)域?qū)Τ袼貕K的填充程度篩選超像素種子。假設(shè)當(dāng)前超像素塊中大部分區(qū)域?qū)儆诜N子點(diǎn)，則認(rèn)為該像素塊與種子所含語義高度相關(guān)，賦予當(dāng)前超像素塊相應(yīng)的語義信息，反之則認(rèn)為超像素塊與種子無關(guān)。則超像素塊的填充率可表示為：

其中，Bi表示圖像中索引號為i 的超像素塊，Sc表示類別C 的粗糙種子區(qū)域，通過計(jì)數(shù)區(qū)域內(nèi)像素點(diǎn)的方式，判別各超像素塊填充率數(shù)值。當(dāng)超像素塊內(nèi)填充率大于指定范圍時(shí)，判定為指定語義的超像素塊。同時(shí)，為了避免種子區(qū)域過小，填充率篩選后沒有產(chǎn)生相應(yīng)語義的超像素塊，取種子區(qū)域所在超像素塊直接賦予種子語義，保證了圖像內(nèi)存在的語義信息都有各自的定位區(qū)域。填充后的超像素種子，相比原始的粗糙種子包含更少的噪聲。

1.3 相似性傳遞模塊

超像素相似性傳遞模塊在建模過程中，以隨機(jī)游走算法[5]為靈感，首先將待分割圖像構(gòu)建成無向圖模型G=(V,E)，其中V 為圖節(jié)點(diǎn)集合，E 為圖像的邊集合，連接兩個(gè)節(jié)點(diǎn)vi和vj的邊可以表示為eij。同時(shí)，為了保證兩個(gè)坐標(biāo)之間相似度有效傳遞，并且滿足圖像平滑性需求。不同于原始算法在4鄰域或8鄰域空間中計(jì)算節(jié)點(diǎn)對的相似性，本文設(shè)置搜索半徑為γ，并在HSV 顏色空間中，計(jì)算各節(jié)點(diǎn)對之間的相似性權(quán)值Wij，可以表示為。

在上式中共包含兩項(xiàng)，第一項(xiàng)被稱作色域相似性，第二項(xiàng)被稱作空域相似性。在第一項(xiàng)中，n 表示HSV 顏色空間通道索引值，g 表示指定圖像位置在通道n 的強(qiáng)度。λ 為通道權(quán)重系數(shù)，為了減輕光亮度對相似性傳播的影響，亮度通道的權(quán)重設(shè)為0.2，其余均為0.4。由此可知，在滿足搜索半徑-γ≤ij≤γ 的范圍內(nèi)，當(dāng)兩個(gè)像素值越接近，則色域相似度越強(qiáng)。除此之外，當(dāng)兩節(jié)點(diǎn)對在空間距離越近時(shí)，則空域相似性越強(qiáng)。

通常情況下，由于噪聲對于相似性傳遞的影響，利用概率最大值判別各像素點(diǎn)真實(shí)類別會產(chǎn)生不準(zhǔn)確的分割結(jié)果。因此延用超像素塊的思路，減少噪聲對于整體分割區(qū)域的影響。為了計(jì)算各超像素塊屬于某一類別的概率值Bc，該過程可以表示為，其中，S 表示指定超像素塊內(nèi)像素點(diǎn)的集合，N 為超像素塊內(nèi)像素點(diǎn)的數(shù)目。通過計(jì)算超像素塊內(nèi)各像素點(diǎn)的平均概率作為超像素塊的概率值，選擇最大概率值的類別作為相應(yīng)的語義標(biāo)簽。最終，利用相似性傳遞模塊的輸出結(jié)果作為語義標(biāo)簽，訓(xùn)練語義分割網(wǎng)絡(luò)。

2 實(shí)驗(yàn)結(jié)果與分析

本章提出的算法在PASCAL VOC 2012數(shù)據(jù)集下進(jìn)行驗(yàn)證。PASCAL VOC 2012分割數(shù)據(jù)集中有包含背景在內(nèi)共21類的像素級標(biāo)簽，原始數(shù)據(jù)集中有1464張訓(xùn)練集圖像，引入SBD 數(shù)據(jù)集[6]將訓(xùn)練圖像擴(kuò)充至10582張，同時(shí)包含1449張驗(yàn)證集圖像。在本文中，僅利用訓(xùn)練集的圖像類別標(biāo)簽作為弱監(jiān)督信息，測試實(shí)驗(yàn)效果時(shí)使用原數(shù)據(jù)集中的真實(shí)標(biāo)簽。為了驗(yàn)證本文所提方法的有效性，本文采用平均交并比（mIoU）作為評價(jià)標(biāo)準(zhǔn)對分割結(jié)果進(jìn)行測試。

本文提出算法的兩個(gè)階段，均在VGG16網(wǎng)絡(luò)架構(gòu)上進(jìn)行修改，并使用公開數(shù)據(jù)集ImageNet 的預(yù)訓(xùn)練參數(shù)對網(wǎng)絡(luò)進(jìn)行初始化操作。在制作像素級標(biāo)簽的過程中，為了保留分類網(wǎng)絡(luò)對于目標(biāo)定位的效果，使用卷積層替換了全連接層fc6和fc7，并且緊接一個(gè)全局平均池化層，將整合后的全局特征輸入Softmax 預(yù)測層。在分類網(wǎng)絡(luò)的訓(xùn)練階段，輸入圖片的大小被調(diào)整為448×448，設(shè)置初始學(xué)習(xí)率為0.01，權(quán)重衰減為0.0001，動量0.9，圖像批量大小設(shè)置為16，共訓(xùn)練20輪。在推斷階段，共生成20個(gè)類別的激活映射分值圖。

在語義分割模塊中，使用DeepLab-CRFLargeFOV 作為分割模型。其中，刪除了VGG16架構(gòu)最后的全連接層，使用卷積層代替。并且引入空洞卷積，將conv5中的三層卷積層設(shè)置空洞卷積參數(shù)為2，同時(shí)fc6設(shè)置空洞卷積參數(shù)為12，且pool4和pool5的采樣步長調(diào)整為1，使模型輸出尺度更大的語義分割結(jié)果。在語義分割網(wǎng)絡(luò)的訓(xùn)練階段，使用隨機(jī)梯度下降算法優(yōu)化網(wǎng)絡(luò)，其中動量值為0.9，權(quán)重衰減為0.0005。對于網(wǎng)絡(luò)中進(jìn)行結(jié)構(gòu)修改的部分，使用0均值且方差為0.05進(jìn)行隨機(jī)初始化。設(shè)置初始學(xué)習(xí)率為0.001，并隨訓(xùn)練過程逐漸降低，衰減率為0.9，圖像批量大小設(shè)置為4，共訓(xùn)練15 輪。在推斷階段中，語義分割結(jié)果使用全連接條件隨機(jī)場進(jìn)行后處理。

2.1 語義標(biāo)簽效果分析

為了探索本文算法里各個(gè)階段產(chǎn)生語義標(biāo)簽質(zhì)量的變化情況，在測試階段進(jìn)行了實(shí)驗(yàn)結(jié)果定量分析。在表1展示了語義標(biāo)簽對比效果，可以發(fā)現(xiàn)SPBCAM 相比SPN在精確度上提升了4.7%，原因在于本文所提方法通過結(jié)合全局相似性與局部相似性，更好的判別各個(gè)像素點(diǎn)屬于邊緣的情況，有效的過濾掉假邊緣噪聲，使得產(chǎn)生的超像素塊中聚合了相似性強(qiáng)的像素點(diǎn)。除此之外，額外的CAM 優(yōu)化步驟大量的減少了錯(cuò)誤定位區(qū)域，因此產(chǎn)生的種子區(qū)域效果更好。

另外，在使用了SPBCAM 作為種子標(biāo)記區(qū)域，本文提出的種子擴(kuò)張策略相比隨機(jī)游走算法在語義標(biāo)簽平均交并比精確度上提升了5.5%，原因在于使用相似性搜索半徑的方式代替?zhèn)鹘y(tǒng)圖論算法中四鄰域或八鄰域的連接方式，使算法可以在更大的感受野范圍內(nèi)判別圖節(jié)點(diǎn)的相似性程度，減少了由于假邊緣產(chǎn)生的相似性傳遞隔斷。并且利用超像素塊作為圖像語義判別的基礎(chǔ)單位，增強(qiáng)了算法在擴(kuò)張種子區(qū)域時(shí)的魯棒性。

總體來看，本文提出的算法在多階段優(yōu)化策略下逐步改善語義標(biāo)簽效果，不僅提高了圖像種子區(qū)域的精確性，而且以種子區(qū)域?yàn)榫€索，有效的將相似性特征傳遞到圖像的未標(biāo)記區(qū)域。算法各階段語義標(biāo)簽質(zhì)量對比（%）:CAM34.6、SPBCAM48.5、SPBCAM+RW56.7、SPBCAM+SPBRW62.2。

2.2 弱監(jiān)督語義分割效果分析

為進(jìn)一步證明超像素相似性傳遞算法的有效性，使用本文產(chǎn)生的像素級語義標(biāo)簽訓(xùn)練語義分割網(wǎng)絡(luò)。另外，在驗(yàn)證集中使用mIoU 評價(jià)標(biāo)準(zhǔn)對語義分割結(jié)果測試，并與目前主流的弱監(jiān)督語義分割方法進(jìn)行效果對比，在表2中展示W(wǎng)SSL、STC、SEC、CBTS、AdvErasing、DSNA、MCOF 工作以及本章所提出的弱監(jiān)督語義分割方法的準(zhǔn)確率對比。為了便于觀察，在表內(nèi)對各個(gè)類別的最高分值進(jìn)行加粗處理。

在表2中可以看出，本章所提方法在21個(gè)類別（包括背景）的mIoU 分值上獲得了59.7%的分?jǐn)?shù)，相比于其它弱監(jiān)督語義分割方法在分割精度上提升2.1%，獲得了更精確的語義分割結(jié)果。尤其在例如“背景”、“鳥”、“?！钡榷鄠€(gè)類別中均獲得了最高的分值。分析原因在于本章方法產(chǎn)生的語義分割標(biāo)簽在邊緣處有著更精確的細(xì)節(jié)效果，同時(shí)超像素的方式可以聚合具有強(qiáng)相似性的像素點(diǎn)，在語義標(biāo)簽形成的過程中利用該特性可以有效的濾除噪聲區(qū)域，產(chǎn)生更加準(zhǔn)確的語義標(biāo)簽。除此之外，回顧表1可以發(fā)現(xiàn)，超像素種子定位的效果很大程度上決定著同種類別下語義分割結(jié)果的質(zhì)量，例如類別“?！痹诔袼胤N子定位階段獲得了62.2%的分值，種子區(qū)域經(jīng)過相似性傳遞后獲得了更精確的語義標(biāo)簽，因此類別“牛”的語義分割效果相比于其它弱監(jiān)督語義分割方法中最好的結(jié)果仍然高出了4.7%。圖2中展示了部分圖像的語義分割效果。

圖2 語義分割效果展示

表2 監(jiān)督語義分割效果比對（單位：%）

3 結(jié)論

本文以圖像注意力機(jī)制為基礎(chǔ)定位目標(biāo)種子區(qū)域，同時(shí)以超像素作為圖像的基本分割單位，兩者相互結(jié)合產(chǎn)生高精確度的超像素種子代替隨機(jī)游走算法的人工交互標(biāo)記。除此之外，在相似性傳遞階段設(shè)計(jì)了搜索半徑以及超像素語義判別等優(yōu)化策略，解決了隨機(jī)游走算法容易受假邊緣影響的問題，產(chǎn)生了高質(zhì)量的語義標(biāo)簽。最后，利用語義標(biāo)簽訓(xùn)練語義分割網(wǎng)絡(luò)，并在PASCAL VOC2012數(shù)據(jù)集以及SBD 補(bǔ)充數(shù)據(jù)集中，對語義標(biāo)簽和弱監(jiān)督語義分割性能以mIoU 指標(biāo)作為評價(jià)標(biāo)準(zhǔn)測試，并與其它主流圖像級弱監(jiān)督語義分割方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明，本文所提出的弱監(jiān)督語義分割方法相比于其它主流方法在mIoU 分值上提高了2.1%，并且該算法具有更強(qiáng)的魯棒性，同時(shí)語義標(biāo)簽有著高精確度的邊緣分割效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡