國網(wǎng)信通億力科技有限責(zé)任公司 席 勒 興業(yè)銀行股份有限公司 李良御
近年來,注意力機(jī)制已經(jīng)成為神經(jīng)網(wǎng)絡(luò)領(lǐng)域中一個(gè)重要的概念,被廣泛地應(yīng)用于自然語言處理、語音識別以及圖像解釋等任務(wù)中。注意力機(jī)制類似于人類視覺的觀察機(jī)制,關(guān)注于從大量的數(shù)據(jù)中尋找當(dāng)前任務(wù)的關(guān)鍵信息,改善神經(jīng)網(wǎng)絡(luò)中有效特征的提取。
目前,大量的基于圖像級標(biāo)簽的弱監(jiān)督語義分割方法中,使用神經(jīng)網(wǎng)絡(luò)的圖像注意力機(jī)制定位目標(biāo)的種子區(qū)域,并結(jié)合擴(kuò)充算法尋找完整的目標(biāo)掩膜(mask)。例如,在SEC 算法中提出種子定位、種子擴(kuò)張以及邊界限制三種損失函數(shù),旨在從注意力定位區(qū)域逐漸尋找完整的分割掩膜[1]。在DSRG 算法中提出運(yùn)用經(jīng)典種子生長分割算法,產(chǎn)生從初始定位區(qū)域逐漸覆蓋于全圖像的分割掩膜[2]。然而,現(xiàn)有的圖像級監(jiān)督的語義分割方法,由于缺少精確的空間定位信息,通常會在邊緣處存在粗糙的分割結(jié)果。
受到種子定位思路的啟發(fā),本文提出超像素相似性傳遞的弱監(jiān)督語義分割算法設(shè)計(jì)。如圖1所示,以圖像注意力機(jī)制為基礎(chǔ)定位目標(biāo)種子區(qū)域,并引入隨機(jī)游走算法以超像素塊的形式傳遞種子區(qū)域的相似性。本文通過邊緣檢測器尋找不同物體之間的邊緣線索,生成具有相同語義集合的超像素塊區(qū)域,并使用超像素塊代替像素點(diǎn)作為圖像基本單位擴(kuò)張種子區(qū)域,保證了局部區(qū)域的相同語義特征。同時(shí),在傳遞相似性特征過程中,將隨機(jī)游走結(jié)果以超像素的方式融合,提升了算法的準(zhǔn)確性和魯棒性。在PASCAL VOC2012數(shù)據(jù)集上進(jìn)行驗(yàn)證,結(jié)果表明本章提出的弱監(jiān)督語義分割方法相比于其它算法在mIoU 評價(jià)標(biāo)準(zhǔn)下精確度提升了2.1%,同時(shí)解決了語義分割標(biāo)簽邊緣粗糙以及容易產(chǎn)生錯(cuò)誤分割區(qū)域的問題。
圖1 類別掩膜生成流程圖
本文算法總共分為兩個(gè)階段,第一階段通過優(yōu)化算法產(chǎn)生像素級語義標(biāo)簽;第二階段使用文中生成的語義標(biāo)簽訓(xùn)練語義分割模型,以該模型的輸出結(jié)果與其它弱監(jiān)督算法做出比較,以此判斷本文算法的有效性。在第一階段中,為了生成高質(zhì)量的語義分割標(biāo)簽,以圖像注意力機(jī)制為基礎(chǔ),在圖像預(yù)處理、種子標(biāo)定、產(chǎn)生像素標(biāo)簽三個(gè)方面進(jìn)行設(shè)計(jì)。
在傳統(tǒng)的圖像分割領(lǐng)域中,大部分算法以像素點(diǎn)作為分割的基礎(chǔ)單元,但隨著彩色圖像分辨率的增大,待處理的計(jì)算量也急劇增加。本文受靈感于UCM 算法[3]通過在多尺度上結(jié)合全局與局部特征,計(jì)算每個(gè)像素點(diǎn)屬于邊緣的概率值,并通過設(shè)定閾值生成圖像的超像素圖??梢员硎緸?。
最終,gpb 的值經(jīng)過Sigmoid 函數(shù)變換,輸出值每一個(gè)像素點(diǎn)作為邊緣的概率值。為了產(chǎn)生圖像真邊界,在此基礎(chǔ)上使用分水嶺算法尋找真邊緣,邊緣強(qiáng)度由邊界在走勢方向上各像素點(diǎn)概率平均值確定。在本文中使用0.15作為閾值產(chǎn)生所有超像素圖,通過預(yù)處理的圖像,將圖像的最小單位擴(kuò)大為了超像素塊,不僅減小了后處理的計(jì)算量,并且通過聚合相似性像素點(diǎn),減少了圖像噪聲。
圖像級類別標(biāo)簽作為監(jiān)督信息時(shí),缺少有效的目標(biāo)的定位線索,成為了弱監(jiān)督語義分割的難點(diǎn)。為了解決這個(gè)問題,Zhou 等人[4]提出分類網(wǎng)絡(luò)中卷積層保留了語義位置信息,然而這種定位效果由于全連接層的使用失效了。為了保留卷積層的定位效果,使用全局平均池化層代替全連接層,產(chǎn)生的類激活映射(class activation mapping,CAM)有效定位于目標(biāo)物體最具有辨別性區(qū)域。對于類別c 在卷積層空間位置(x,y)的激活值可以表示為。
原算法類激活映射方式缺少關(guān)于背景區(qū)域的分值圖,則需要對各個(gè)類別的激活分值圖進(jìn)行標(biāo)準(zhǔn)化操作,假設(shè)某類別的最大激活值為Mc-max。則修正后的關(guān)于圖像背景區(qū)域的類激活映射分值圖可表示為,其中α 為調(diào)整背景激活分值的超參數(shù)。通過這種方式有效的生成關(guān)于背景類別的激活映射分值圖。根據(jù)設(shè)定閾值t,將處于空間位置(x,y)處且低于閾值t(本章中t 取0.3)的激活值置為零,并選取相應(yīng)位置處的最大激活值類別作為該像素點(diǎn)語義。
直觀來說,類激活映射就是將不同空間單元的激活值線性加權(quán)后的處理結(jié)果。然而,種子區(qū)域在邊緣處存在粗糙的分割結(jié)果,定位區(qū)域中不僅包含目標(biāo)物體,并且含有部分其它類別物體。因此需要利用超像素圖對定位結(jié)果進(jìn)行修正,使得產(chǎn)生更加準(zhǔn)確的超像素塊定位區(qū)域。在超像素塊內(nèi)的各像素點(diǎn)之間具有較強(qiáng)的相似性特征。本文設(shè)計(jì)填充率選擇方案,根據(jù)粗糙定位區(qū)域?qū)Τ袼貕K的填充程度篩選超像素種子。假設(shè)當(dāng)前超像素塊中大部分區(qū)域?qū)儆诜N子點(diǎn),則認(rèn)為該像素塊與種子所含語義高度相關(guān),賦予當(dāng)前超像素塊相應(yīng)的語義信息,反之則認(rèn)為超像素塊與種子無關(guān)。則超像素塊的填充率可表示為:
其中,Bi表示圖像中索引號為i 的超像素塊,Sc表示類別C 的粗糙種子區(qū)域,通過計(jì)數(shù)區(qū)域內(nèi)像素點(diǎn)的方式,判別各超像素塊填充率數(shù)值。當(dāng)超像素塊內(nèi)填充率大于指定范圍時(shí),判定為指定語義的超像素塊。同時(shí),為了避免種子區(qū)域過小,填充率篩選后沒有產(chǎn)生相應(yīng)語義的超像素塊,取種子區(qū)域所在超像素塊直接賦予種子語義,保證了圖像內(nèi)存在的語義信息都有各自的定位區(qū)域。填充后的超像素種子,相比原始的粗糙種子包含更少的噪聲。
超像素相似性傳遞模塊在建模過程中,以隨機(jī)游走算法[5]為靈感,首先將待分割圖像構(gòu)建成無向圖模型G=(V,E),其中V 為圖節(jié)點(diǎn)集合,E 為圖像的邊集合,連接兩個(gè)節(jié)點(diǎn)vi和vj的邊可以表示為eij。同時(shí),為了保證兩個(gè)坐標(biāo)之間相似度有效傳遞,并且滿足圖像平滑性需求。不同于原始算法在4鄰域或8鄰域空間中計(jì)算節(jié)點(diǎn)對的相似性,本文設(shè)置搜索半徑為γ,并在HSV 顏色空間中,計(jì)算各節(jié)點(diǎn)對之間的相似性權(quán)值Wij,可以表示為。
在上式中共包含兩項(xiàng),第一項(xiàng)被稱作色域相似性,第二項(xiàng)被稱作空域相似性。在第一項(xiàng)中,n 表示HSV 顏色空間通道索引值,g 表示指定圖像位置在通道n 的強(qiáng)度。λ 為通道權(quán)重系數(shù),為了減輕光亮度對相似性傳播的影響,亮度通道的權(quán)重設(shè)為0.2,其余均為0.4。由此可知,在滿足搜索半徑-γ≤ij≤γ 的范圍內(nèi),當(dāng)兩個(gè)像素值越接近,則色域相似度越強(qiáng)。除此之外,當(dāng)兩節(jié)點(diǎn)對在空間距離越近時(shí),則空域相似性越強(qiáng)。
通常情況下,由于噪聲對于相似性傳遞的影響,利用概率最大值判別各像素點(diǎn)真實(shí)類別會產(chǎn)生不準(zhǔn)確的分割結(jié)果。因此延用超像素塊的思路,減少噪聲對于整體分割區(qū)域的影響。為了計(jì)算各超像素塊屬于某一類別的概率值Bc,該過程可以表示為,其中,S 表示指定超像素塊內(nèi)像素點(diǎn)的集合,N 為超像素塊內(nèi)像素點(diǎn)的數(shù)目。通過計(jì)算超像素塊內(nèi)各像素點(diǎn)的平均概率作為超像素塊的概率值,選擇最大概率值的類別作為相應(yīng)的語義標(biāo)簽。最終,利用相似性傳遞模塊的輸出結(jié)果作為語義標(biāo)簽,訓(xùn)練語義分割網(wǎng)絡(luò)。
本章提出的算法在PASCAL VOC 2012數(shù)據(jù)集下進(jìn)行驗(yàn)證。PASCAL VOC 2012分割數(shù)據(jù)集中有包含背景在內(nèi)共21類的像素級標(biāo)簽,原始數(shù)據(jù)集中有1464張訓(xùn)練集圖像,引入SBD 數(shù)據(jù)集[6]將訓(xùn)練圖像擴(kuò)充至10582張,同時(shí)包含1449張驗(yàn)證集圖像。在本文中,僅利用訓(xùn)練集的圖像類別標(biāo)簽作為弱監(jiān)督信息,測試實(shí)驗(yàn)效果時(shí)使用原數(shù)據(jù)集中的真實(shí)標(biāo)簽。為了驗(yàn)證本文所提方法的有效性,本文采用平均交并比(mIoU)作為評價(jià)標(biāo)準(zhǔn)對分割結(jié)果進(jìn)行測試。
本文提出算法的兩個(gè)階段,均在VGG16網(wǎng)絡(luò)架構(gòu)上進(jìn)行修改,并使用公開數(shù)據(jù)集ImageNet 的預(yù)訓(xùn)練參數(shù)對網(wǎng)絡(luò)進(jìn)行初始化操作。在制作像素級標(biāo)簽的過程中,為了保留分類網(wǎng)絡(luò)對于目標(biāo)定位的效果,使用卷積層替換了全連接層fc6和fc7,并且緊接一個(gè)全局平均池化層,將整合后的全局特征輸入Softmax 預(yù)測層。在分類網(wǎng)絡(luò)的訓(xùn)練階段,輸入圖片的大小被調(diào)整為448×448,設(shè)置初始學(xué)習(xí)率為0.01,權(quán)重衰減為0.0001,動量0.9,圖像批量大小設(shè)置為16,共訓(xùn)練20輪。在推斷階段,共生成20個(gè)類別的激活映射分值圖。
在語義分割模塊中,使用DeepLab-CRFLargeFOV 作為分割模型。其中,刪除了VGG16架構(gòu)最后的全連接層,使用卷積層代替。并且引入空洞卷積,將conv5中的三層卷積層設(shè)置空洞卷積參數(shù)為2,同時(shí)fc6設(shè)置空洞卷積參數(shù)為12,且pool4和pool5的采樣步長調(diào)整為1,使模型輸出尺度更大的語義分割結(jié)果。在語義分割網(wǎng)絡(luò)的訓(xùn)練階段,使用隨機(jī)梯度下降算法優(yōu)化網(wǎng)絡(luò),其中動量值為0.9,權(quán)重衰減為0.0005。對于網(wǎng)絡(luò)中進(jìn)行結(jié)構(gòu)修改的部分,使用0均值且方差為0.05進(jìn)行隨機(jī)初始化。設(shè)置初始學(xué)習(xí)率為0.001,并隨訓(xùn)練過程逐漸降低,衰減率為0.9,圖像批量大小設(shè)置為4,共訓(xùn)練15 輪。在推斷階段中,語義分割結(jié)果使用全連接條件隨機(jī)場進(jìn)行后處理。
為了探索本文算法里各個(gè)階段產(chǎn)生語義標(biāo)簽質(zhì)量的變化情況,在測試階段進(jìn)行了實(shí)驗(yàn)結(jié)果定量分析。在表1展示了語義標(biāo)簽對比效果,可以發(fā)現(xiàn)SPBCAM 相比SPN在精確度上提升了4.7%,原因在于本文所提方法通過結(jié)合全局相似性與局部相似性,更好的判別各個(gè)像素點(diǎn)屬于邊緣的情況,有效的過濾掉假邊緣噪聲,使得產(chǎn)生的超像素塊中聚合了相似性強(qiáng)的像素點(diǎn)。除此之外,額外的CAM 優(yōu)化步驟大量的減少了錯(cuò)誤定位區(qū)域,因此產(chǎn)生的種子區(qū)域效果更好。
另外,在使用了SPBCAM 作為種子標(biāo)記區(qū)域,本文提出的種子擴(kuò)張策略相比隨機(jī)游走算法在語義標(biāo)簽平均交并比精確度上提升了5.5%,原因在于使用相似性搜索半徑的方式代替?zhèn)鹘y(tǒng)圖論算法中四鄰域或八鄰域的連接方式,使算法可以在更大的感受野范圍內(nèi)判別圖節(jié)點(diǎn)的相似性程度,減少了由于假邊緣產(chǎn)生的相似性傳遞隔斷。并且利用超像素塊作為圖像語義判別的基礎(chǔ)單位,增強(qiáng)了算法在擴(kuò)張種子區(qū)域時(shí)的魯棒性。
總體來看,本文提出的算法在多階段優(yōu)化策略下逐步改善語義標(biāo)簽效果,不僅提高了圖像種子區(qū)域的精確性,而且以種子區(qū)域?yàn)榫€索,有效的將相似性特征傳遞到圖像的未標(biāo)記區(qū)域。算法各階段語義標(biāo)簽質(zhì)量對比(%):CAM34.6、SPBCAM48.5、SPBCAM+RW56.7、SPBCAM+SPBRW62.2。
為進(jìn)一步證明超像素相似性傳遞算法的有效性,使用本文產(chǎn)生的像素級語義標(biāo)簽訓(xùn)練語義分割網(wǎng)絡(luò)。另外,在驗(yàn)證集中使用mIoU 評價(jià)標(biāo)準(zhǔn)對語義分割結(jié)果測試,并與目前主流的弱監(jiān)督語義分割方法進(jìn)行效果對比,在表2中展示W(wǎng)SSL、STC、SEC、CBTS、AdvErasing、DSNA、MCOF 工作以及本章所提出的弱監(jiān)督語義分割方法的準(zhǔn)確率對比。為了便于觀察,在表內(nèi)對各個(gè)類別的最高分值進(jìn)行加粗處理。
在表2中可以看出,本章所提方法在21個(gè)類別(包括背景)的mIoU 分值上獲得了59.7%的分?jǐn)?shù),相比于其它弱監(jiān)督語義分割方法在分割精度上提升2.1%,獲得了更精確的語義分割結(jié)果。尤其在例如“背景”、“鳥”、“?!钡榷鄠€(gè)類別中均獲得了最高的分值。分析原因在于本章方法產(chǎn)生的語義分割標(biāo)簽在邊緣處有著更精確的細(xì)節(jié)效果,同時(shí)超像素的方式可以聚合具有強(qiáng)相似性的像素點(diǎn),在語義標(biāo)簽形成的過程中利用該特性可以有效的濾除噪聲區(qū)域,產(chǎn)生更加準(zhǔn)確的語義標(biāo)簽。除此之外,回顧表1可以發(fā)現(xiàn),超像素種子定位的效果很大程度上決定著同種類別下語義分割結(jié)果的質(zhì)量,例如類別“?!痹诔袼胤N子定位階段獲得了62.2%的分值,種子區(qū)域經(jīng)過相似性傳遞后獲得了更精確的語義標(biāo)簽,因此類別“牛”的語義分割效果相比于其它弱監(jiān)督語義分割方法中最好的結(jié)果仍然高出了4.7%。圖2中展示了部分圖像的語義分割效果。
圖2 語義分割效果展示
表2 監(jiān)督語義分割效果比對(單位:%)
本文以圖像注意力機(jī)制為基礎(chǔ)定位目標(biāo)種子區(qū)域,同時(shí)以超像素作為圖像的基本分割單位,兩者相互結(jié)合產(chǎn)生高精確度的超像素種子代替隨機(jī)游走算法的人工交互標(biāo)記。除此之外,在相似性傳遞階段設(shè)計(jì)了搜索半徑以及超像素語義判別等優(yōu)化策略,解決了隨機(jī)游走算法容易受假邊緣影響的問題,產(chǎn)生了高質(zhì)量的語義標(biāo)簽。最后,利用語義標(biāo)簽訓(xùn)練語義分割網(wǎng)絡(luò),并在PASCAL VOC2012數(shù)據(jù)集以及SBD 補(bǔ)充數(shù)據(jù)集中,對語義標(biāo)簽和弱監(jiān)督語義分割性能以mIoU 指標(biāo)作為評價(jià)標(biāo)準(zhǔn)測試,并與其它主流圖像級弱監(jiān)督語義分割方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,本文所提出的弱監(jiān)督語義分割方法相比于其它主流方法在mIoU 分值上提高了2.1%,并且該算法具有更強(qiáng)的魯棒性,同時(shí)語義標(biāo)簽有著高精確度的邊緣分割效果。