熊昌鎮(zhèn),智慧
(北方工業(yè)大學(xué)城市道路交通智能控制技術(shù)北京市重點實驗室,北京 100144)
語義分割是目前比較流行的一種視覺識別任務(wù),其主要目的是給圖像中的每一個像素進(jìn)行語義類別的劃分,在生物醫(yī)療圖像的分析[1-2],自動駕駛[3]、圖像搜索引擎[4]、人機(jī)交互[5-6]等各個領(lǐng)域都有著廣泛的應(yīng)用。最近幾年基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN,deep convolution neural network)[7]法的語義分割任務(wù)在性能上有了較大提升,并且達(dá)到了在基準(zhǔn)測試數(shù)據(jù)集上的最高水平。然而DCNN的學(xué)習(xí)過程需要大量的像素級標(biāo)注訓(xùn)練數(shù)據(jù),制作此類像素級標(biāo)注的過程比較耗時費力,導(dǎo)致現(xiàn)有數(shù)據(jù)集上的分割標(biāo)注在質(zhì)量和多樣性上仍然無法滿足需求。為了克服收集訓(xùn)練數(shù)據(jù)標(biāo)注的困難并設(shè)計一個更具有擴(kuò)展性和通用性的語義分割模型,研究者們致力于弱監(jiān)督學(xué)習(xí)的研究,通過更易獲得的較像素級標(biāo)注更弱的監(jiān)督信息來實現(xiàn)語義分割,如基于類標(biāo)[8-11]及類標(biāo)加輔助信息[12-14]、像素點[15]、邊界框[16-17]、涂鴉等[18]四大類弱標(biāo)注的語義分割算法。其中類標(biāo)是最容易獲取的標(biāo)注,Pathak等[8]將語義分割看作是多實例學(xué)習(xí)的問題,利用最大池化操作強行限制每張圖像至少有一個像素屬于正實例目標(biāo)類,但是因為監(jiān)督信息缺失了目標(biāo)的位置和形狀,導(dǎo)致分割結(jié)果不太平滑。隨后Pathak等[9]提出了嵌入位置信息,利用可辨識性定位自動識別出每個語義類的大體區(qū)域位置來提高分類的精度。Kwak等[10]利用超像素池化層生成初始語義分割需要的邊緣形狀信息。雖然這些方法可以粗略地定位目標(biāo),但是通常不能精確地推斷出像素信息,因為更傾向于聚焦目標(biāo)的部分顯著信息,而不是目標(biāo)的整個區(qū)域。Kolesnikov等[11]則提出將種子損失、擴(kuò)張損失和約束邊界損失集成到一個網(wǎng)絡(luò)訓(xùn)練分割模型進(jìn)行訓(xùn)練,并應(yīng)用全局加權(quán)排序池化操作,約束目標(biāo)邊界信息并聚焦目標(biāo)顯著位置,但該算法對于背景相似的目標(biāo)區(qū)域在定位上容易產(chǎn)生偏差,而且類別識別的效果不是太好。為進(jìn)一步提升分割性能,研究者們開始以類標(biāo)注為基礎(chǔ)擴(kuò)增新的數(shù)據(jù)信息,Lin等[12]提出利用自然語言作為弱監(jiān)督標(biāo)注,Hong等[13]利用額外數(shù)據(jù)(非目標(biāo)數(shù)據(jù)源)的像素標(biāo)注輔助弱監(jiān)督信息學(xué)習(xí),但是需與實際目標(biāo)數(shù)據(jù)的類別相互獨立,再依靠遷移學(xué)習(xí)捕獲目標(biāo)類需要的像素信息。Hong等[14]以網(wǎng)頁視頻作為額外數(shù)據(jù)源,利用目標(biāo)和背景的不同動態(tài)信息與三維結(jié)構(gòu)信息區(qū)分出前景與周圍的背景信息,獲取更準(zhǔn)確的目標(biāo)邊界,使分割性能有了較大的提升,但整個網(wǎng)絡(luò)結(jié)構(gòu)對小目標(biāo)信息的捕獲比較欠缺。第二類以像素點為弱標(biāo)注信息可提供目標(biāo)粗略位置的方式,有助于提升分割效果。Bearman等[15]提出將分類損失和定位損失相結(jié)合,并增加了目標(biāo)顯著性作為先驗知識來優(yōu)化,但從其結(jié)果來看分割邊緣不完整。第三類以邊界框為弱標(biāo)注信息可提供整個目標(biāo)區(qū)域位置的信息,可進(jìn)一步提升目標(biāo)的分割效果。Papandreou等[16]利用最大期望(EM,expectationmaximization)來動態(tài)預(yù)測邊界框內(nèi)的前景像素。Dai[17]沒有對邊界框內(nèi)的像素進(jìn)行直接評估,而是利用現(xiàn)成的候選區(qū)域(region proposals)迭代選取最佳區(qū)域,進(jìn)而生成分割掩碼,分割性能與類標(biāo)監(jiān)督相比有了很大提升,但是相較全監(jiān)督語義分割性能還有較大差距。第四類以涂鴉為標(biāo)注信息即是在興趣目標(biāo)上簡單勾畫一條線,它提供目標(biāo)相對位置范圍內(nèi)的一些稀疏像素信息。Lin等[18]利用圖模型優(yōu)化交互式分割模型,即在訓(xùn)練過程中循環(huán)利用當(dāng)前的分割結(jié)果作為監(jiān)督信息進(jìn)行迭代直至模型收斂,性能相當(dāng)于邊界框給出的分割結(jié)果。遺憾的是該標(biāo)注在其他數(shù)據(jù)集上不可用。
以上各類弱監(jiān)督語義分割算法在復(fù)雜背景及包含眾多小目標(biāo)的場景下,對狹小目標(biāo)及目標(biāo)的形狀邊緣分割往往不理想,主要原因還是對目標(biāo)尺度空間的信息學(xué)習(xí)不全面,然而目前在強監(jiān)督語義分割任務(wù)中已有多種學(xué)習(xí)尺度空間特征的算法[19-21]。Chen等[19]將金字塔式輸入圖像送入到DCNN以提取不同尺度上的顯著度特征。Yu等[20]在原有網(wǎng)絡(luò)頂部級聯(lián)空洞卷積層來捕獲圖像不同尺度信息。Zhao等[21]利用空間金字塔式池化作用于最后一層卷積,進(jìn)而獲取多種尺度分辨率的目標(biāo)特征。這些多尺度算法在強監(jiān)督語義分割中均可以獲得良好效果,證實了學(xué)習(xí)尺度空間信息的有效性。鑒于此,本文以遷移學(xué)習(xí)網(wǎng)絡(luò)[12]為基本框架,以金字塔式多尺度圖像為網(wǎng)絡(luò)的輸入,并增加一個新層對多尺度特征進(jìn)行降維,構(gòu)建多尺度的弱監(jiān)督語義分割模型,提取目標(biāo)的多尺度特征。語義分割通常包含圖像類別預(yù)測和像素分割兩部分內(nèi)容,類別預(yù)測效果對最終分割結(jié)果起著至關(guān)重要的作用,因為錯誤的目標(biāo)類別必然會導(dǎo)致像素分割的錯誤[11,13,16]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,以邊界框為監(jiān)督信息的目標(biāo)檢測技術(shù)也得到了很大的發(fā)展,檢測精度和速度都有很大提升[22-23]。為避免類別錯誤導(dǎo)致的分割失敗,引入文獻(xiàn)[23]中在同源數(shù)據(jù)集學(xué)習(xí)的檢測模型給出的圖像類別信息來提升分割的精度。現(xiàn)有算法中單模型分割算法對某些目標(biāo)的分割效果好,但對另一些目標(biāo)的分割效果差,無法學(xué)到所用類別的有效信息,導(dǎo)致無法對所有目標(biāo)類都進(jìn)行有效分割,會導(dǎo)致模型泛化能力差,不同分割模型的側(cè)重點不同,學(xué)習(xí)到的語義特征也不同,即每個模型都有各自的優(yōu)勢[9-10],為充分利用不同模型的優(yōu)勢,本文對多尺度分割模型進(jìn)行優(yōu)化,與原遷移學(xué)習(xí)模型進(jìn)行集成,同時結(jié)合類別可信度和像素分割可信度進(jìn)一步提升圖像分割的精度。
將應(yīng)用于強監(jiān)督語義分割算法的多尺度信息引入弱監(jiān)督分割算法中,以遷移學(xué)習(xí)模型為基礎(chǔ),輸入多個尺度的圖像,提取多個尺度上的圖像特征后歸一化成相同大小的特征圖再拼合在一起構(gòu)造多尺度特征,然后對多尺度特征進(jìn)行降維,利用遷移學(xué)習(xí)模型的注意力機(jī)制模型初始化新構(gòu)造的多尺度模型,最后對多尺度分割模型進(jìn)行訓(xùn)練,學(xué)習(xí)多尺度特征的信息。該模型的基本框架如圖1所示,主要包括提取多尺度特征的編碼結(jié)構(gòu)fenc、多尺度特征圖級聯(lián)與降維,聚焦目標(biāo)顯著區(qū)域的注意力機(jī)制fatt和低維特征解碼至高維特征進(jìn)行前景分割的解碼結(jié)構(gòu)fdec。
采用與遷移學(xué)習(xí)模型相同的編碼結(jié)構(gòu)、注意力機(jī)制和解碼結(jié)構(gòu)[13],用x表示來自源數(shù)據(jù)集S或目標(biāo)數(shù)據(jù)集T的輸入圖像。首先將輸入圖像縮放成分辨率為330×330固定大小的圖像塊,經(jīng)過隨機(jī)裁剪變成分辨率為 320×320的圖像,利用尺度因子s∈ {1,0.75,0.5}將裁剪后的圖像塊縮放成3種不同尺度,作為3組并行編碼器fenc的輸入,如式(1)所示。
其中,eθ為3組編碼器fenc的共享卷積層訓(xùn)練參數(shù),為編碼器最后一層卷積層輸出特征圖,w、h和d分別代表特征圖的寬、高和輸出維度。再將尺度因子為0.75和0.5對應(yīng)的特征圖As按照雙線性插值進(jìn)行放大,即保持與編碼器中輸入尺度因子為1的最后一層卷積層輸出特征圖相同大小,然后再將縮放后的特征圖沿維度方向進(jìn)行級聯(lián),同時在編碼器的末端增加一個新的卷積層,對融合的多尺度特征圖進(jìn)行降維以生成固定的通道數(shù),進(jìn)而適應(yīng)后續(xù)注意力機(jī)制的輸入要求,通過網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)圖像的多尺度特征。
當(dāng)給出融合后特征圖A和對應(yīng)目標(biāo)類向量形式 ??時,注意力機(jī)制的作用就是學(xué)A中的對應(yīng)目標(biāo)類位置的正權(quán)重向量表示第l個目標(biāo)類與對應(yīng)特征位置的相關(guān)性。注意力機(jī)制的過程可表示為
其中,αθ為注意力機(jī)制fatt的模型參數(shù);表示第l類的類標(biāo)向量,在訓(xùn)練過程表示來自源數(shù)據(jù)與目標(biāo)數(shù)據(jù)的真值類,在模型執(zhí)行推斷時則表示分類器給出的目標(biāo)預(yù)測類,即圖1的類別處。lv為非正則化的聚焦權(quán)重,通過softmax函數(shù)給出正則化后的權(quán)重lα,目的是鼓勵模型只聚焦圖像目標(biāo)類的一個顯著區(qū)域[24]。遷移學(xué)習(xí)算法中所用的注意力機(jī)制fatt為
訓(xùn)練注意力機(jī)制fatt的過程即是最小化分類損失的過程,用ec表示softmax函數(shù),用于計算真值和預(yù)測類標(biāo)的損失。
其中,θc為分類層的學(xué)習(xí)參數(shù),表示來自源數(shù)據(jù)與目標(biāo)數(shù)據(jù)第i張圖的類l顯著響應(yīng)圖。
圖1 多尺度特征分割模型
當(dāng)注意力機(jī)制給出興趣目標(biāo)類的位置時,接下來便需要解碼器來重構(gòu)相應(yīng)聚焦目標(biāo)的前景分割圖。由于經(jīng)過softmax之后聚焦權(quán)重會變得比較稀疏,為此需要將式(4)獲得的特定目標(biāo)類顯著圖lz作為解碼器輸入的系數(shù),以獲取密集顯著圖,且與注意力機(jī)制聚焦的顯著圖lα具有相同大小,即表示為
訓(xùn)練解碼器的過程為最小化分割損失,對應(yīng)的目標(biāo)函數(shù)es為softmax損失函數(shù)可表示為
其中,θs表示解碼器fdec的學(xué)習(xí)參數(shù),為源數(shù)據(jù)集 S的l類中的第i類目標(biāo)的二值分割圖,i∈S表示目標(biāo)函數(shù)的優(yōu)化只對源數(shù)據(jù)集進(jìn)行。但是學(xué)得的參數(shù)sθ對不同目標(biāo)類是實現(xiàn)共享的,所以該結(jié)構(gòu)能夠利用已學(xué)得的通用類的基本特征,如顏色、形狀、紋理等先驗知識遷移應(yīng)用到其他多類場景。解碼器fdec的基本結(jié)構(gòu)與編碼器fenc呈對稱形式,通過一系列的上采樣、轉(zhuǎn)置卷積及校正運算將低分辨的目標(biāo)類特征圖重構(gòu)為與輸入x相同大小的密集前景分割圖。
多尺度特征模型訓(xùn)練對新增加的層及解碼器部分均使用零均值高斯分布初始化,學(xué)習(xí)過程中固定編碼器的權(quán)重,利用原遷移學(xué)習(xí)模型的對應(yīng)層對編碼器、注意力機(jī)制進(jìn)行初始化,并應(yīng)用自適應(yīng)矩估計算法(Adam,adaptive moment estimation),根據(jù)式(5)分類目標(biāo)函數(shù)學(xué)習(xí)新層與注意力機(jī)制的參數(shù),以及式(7)分割目標(biāo)函數(shù)來學(xué)習(xí)解碼器部分的參數(shù)。
將文獻(xiàn)[23]中同源數(shù)據(jù)集學(xué)習(xí)的檢測模型給出的圖像分類結(jié)果作為多尺度分割模型預(yù)測時的新分類器,只使用檢測模型給出的預(yù)測目標(biāo)類及類別可信度;然后對類別優(yōu)化后的多尺度模型與原遷移學(xué)習(xí)模型進(jìn)行加權(quán)集成;最后利用新分類器的類別可信度優(yōu)化集成模型輸出分割圖的像素可信度,以進(jìn)一步提升分割的精度。
語義分割任務(wù)實際包含圖像類別預(yù)測和像素分割這2類任務(wù)模型所用分類器的預(yù)測效果對最終像素級分割結(jié)果起著至關(guān)重要的作用,因為錯誤的目標(biāo)類必然會導(dǎo)致像素分割的錯誤,而模型結(jié)構(gòu)中添加的分類層fcls,只是為了學(xué)習(xí)目標(biāo)數(shù)據(jù)集類別上的注意力機(jī)制,訓(xùn)練過程結(jié)束后,需要引入一個單獨的分類器完成模型的預(yù)測。原遷移學(xué)習(xí)的分類器是基于 VGG16的全卷積神經(jīng)網(wǎng)絡(luò)的類別預(yù)測,預(yù)測準(zhǔn)確率不夠,影響分割效果,鑒于學(xué)習(xí)數(shù)據(jù)集(MS COCO(microsoft common objects in context)[25],VOC 2012(visual object classes challenge)[26])的考慮,選用在同源數(shù)據(jù)集上學(xué)習(xí)的檢測模型作為目標(biāo)分割時的類別分類器,基于弱監(jiān)督學(xué)習(xí)模式的衡量,不輸出檢測框位置信息,只將檢測結(jié)果的圖像目標(biāo)類別l及類別可信度lP的信息保存下來,并于圖1所示的類別處給入到多尺度特征分割模型中,隨后模型自適應(yīng)構(gòu)建注意力權(quán)重即相應(yīng)目標(biāo)類的顯著區(qū)域。
當(dāng)假設(shè)空間較大時,單模型分割算法往往不能保證對所有目標(biāo)類的有效性,導(dǎo)致模型泛化性能差。此時如果有多個假設(shè)在相同數(shù)據(jù)集上訓(xùn)練并能達(dá)到同等性能,便可以將多個學(xué)習(xí)器進(jìn)行結(jié)合,利用個體學(xué)習(xí)器間的差異性互補來有效規(guī)避單一模型的性能缺陷[27]。因此,將性能相近且同屬“神經(jīng)網(wǎng)絡(luò)式”的多尺度特征模型與原遷移學(xué)習(xí)模型進(jìn)行集成,并按照加權(quán)的方式進(jìn)行模型融合,如式(8)所示。
鑒于注意力機(jī)制只是給出興趣目標(biāo)的粗略位置,對目標(biāo)遮擋、復(fù)雜背景、噪聲混入等情況,模型輸出的分割圖包含所有預(yù)測目標(biāo)類的像素信息,但是其中某些類的位置信息會有偏差,致使分割錯誤。研究發(fā)現(xiàn)引起錯誤的類通常在分類器預(yù)測的可信度與視覺顯著度上呈負(fù)相關(guān)。利用新分類器給出的預(yù)測類別可信度lP,調(diào)整相應(yīng)類的概率圖響應(yīng)像素值,即用低目標(biāo)類概率值抑制錯誤響應(yīng)的高像素值,用高預(yù)測類概率值提升輸出的低響應(yīng)像素值,達(dá)到規(guī)避假正例區(qū)域及非預(yù)測目標(biāo)的噪聲信息,同時強化正確類標(biāo)的分割圖像的目的。預(yù)測類可信度優(yōu)化分割概率圖如式(9)所示。
多尺度分割模型使用MS COCO為源數(shù)據(jù)集S,VOC 2012為目標(biāo)數(shù)據(jù)集T,其中源數(shù)據(jù)集S共含60類目標(biāo),與目標(biāo)數(shù)據(jù)集T的20類目標(biāo)相互獨立;目標(biāo)數(shù)據(jù)集T僅提供類別監(jiān)督信息。最后在VOC2012驗證集、測試集進(jìn)行語義分割實驗,采用平均交并比(mIoU,mean intersection-over- Union)來衡量實際分割結(jié)果與分割真值(GT,groud truth)的差異。實驗中使用文獻(xiàn)[23]中的 PVANet模型進(jìn)行目標(biāo)檢測,將大于給定閾值的邊界框類標(biāo)和最大概率作為分割圖像的類別及可信度,只使用類別信息,不使用邊界框的信息。實驗中所用的類別閾值為0.75,將檢測的類別結(jié)果和可信度保存下來,在圖像分割時只加載類別信息,不進(jìn)行實際目標(biāo)檢測操作。
將原遷移學(xué)習(xí)模型記為O,多尺度特征模型記為M。表1給出了多尺度特征模型、集成模型、預(yù)測目標(biāo)類及其可信度優(yōu)化在VOC 2012的驗證集上的性能對比。多尺度特征模型與原遷移學(xué)習(xí)模型集成時的個體學(xué)習(xí)器給定權(quán)重按w1:w2= 3:2的比例加權(quán),后綴 c 表示引入新分類器后的結(jié)果,p是分類器給出的預(yù)測目標(biāo)類可信度。從表中的數(shù)據(jù)可以看出,構(gòu)建的多尺度特征模型M與原遷移學(xué)習(xí)模型O具有相似的分割性能,滿足同質(zhì)型差異化模型集成的具有一定“準(zhǔn)確性”要求。引入類別預(yù)測優(yōu)化的圖像分割算法(M_c)同比多尺度特征模型利用的原遷移學(xué)習(xí)模型固有分類器在性能上提升了2.9%。經(jīng)過雙模型的集成優(yōu)化后M+O_c分割算法性能又提升了2.9%,證明單一學(xué)習(xí)器具有不可避免的性能缺陷,利用集成學(xué)習(xí)可以使同質(zhì)型差異化模型實現(xiàn)互補,從而提升分割的效果。由于模型結(jié)構(gòu)中的注意力機(jī)制只能給出目標(biāo)的粗略位置,在出現(xiàn)目標(biāo)遮擋、復(fù)雜背景、噪聲混入等情形時,分割往往容易出現(xiàn)錯誤,因此使用圖像類的預(yù)測可信度p對算法進(jìn)行優(yōu)化,同比集成模型提升了0.9%,驗證了本文算法的多尺度分割及不同優(yōu)化策略引入都不同程度地提升了分割算法的精度。
表1 本文算法在VOC 2012的驗證集上的性能對比
表1數(shù)據(jù)中M+O_gt表示的是集成模型引入真值類標(biāo)的分割性能,但比集成模型結(jié)合類及可信度優(yōu)化算法M+O_c_p要低0.7%,說明分類真值并不能作為算法的上限。這是因為類別真值只是表示該圖像有這類目標(biāo),可信度為 100%,但不考慮目標(biāo)的大小、位置等信息,同時圖像中又包含與此類目標(biāo)相類似的其他信息,導(dǎo)致圖像分割結(jié)果中該類別的像素分割的可信度高,造成圖像分割錯誤,而目標(biāo)的大小、形狀和位置信息對圖像分類都會造成影響。分類的可信度表示類別分類的難度,與分割可信度相結(jié)合可避免類別可信度低而分割可信度高造成的假正例現(xiàn)象。
圖2給出了基于不同形式的目標(biāo)類分割效果對比圖,即直接引入真值圖像類別信息和預(yù)測的目標(biāo)類別信息進(jìn)行分割的結(jié)果。圖 2(a)是輸入圖像,圖 2(b)是真值分割圖,圖 2(c)是引入的真值目標(biāo)類別分割圖,圖2(d)是引入預(yù)測目標(biāo)類別及可信度優(yōu)化的分割結(jié)果。對應(yīng)上述實驗的M+O_c_p的結(jié)果,可以看出預(yù)測類別及可信度優(yōu)化的分割效果明顯優(yōu)于直接給定真值類的分割圖。其原因是復(fù)雜背景及包含有眾多小目標(biāo)的情況下,注意力機(jī)制聚焦的興趣目標(biāo)位置是稀疏的,當(dāng)引入包含最完整信息的真值類時,在預(yù)測過程根據(jù)分割響應(yīng)圖的像素值大小確定的最終分割圖時,往往會出現(xiàn)類正確但是位置錯誤的情況,弱化了分割精度。通過引入分類器預(yù)測目標(biāo)類時輸出的類可信度,不僅可以強化正確目標(biāo)類相應(yīng)的像素響應(yīng)值,還可以抑制錯誤定位的類響應(yīng)值,進(jìn)而改善分割的性能。
圖2 不同目標(biāo)類別下的分割效果
圖3顯示了部分測試圖像在驗證集上的語義分割結(jié)果圖。第一列是輸入圖像,第二列是原遷移學(xué)習(xí)模型O(TransferNet[13])的分割結(jié)果,對比本文第三列的多尺度特征提取模型M,可以看出模型M能夠給出尺度空間上更豐富的信息,但是因為原分類器的準(zhǔn)確度不是太高,導(dǎo)致部分目標(biāo)信息的丟失,而且由于注意力機(jī)制的粗定位,部分目標(biāo)給出的顯著區(qū)域不合理,造成了單一的多尺度特征分割并不理想。第四列M_c是在模型M的基礎(chǔ)上更換新分類器 c,可以看出減少了目標(biāo)信息的丟失,進(jìn)而避免了因類預(yù)測失敗造成分割不理想的情況。第五列是引入新分類器的同質(zhì)型集成模型分割效果圖,明顯可以看出通過模型間的互補性,目標(biāo)的分割更準(zhǔn)確,彌補了丟失的信息,去除了多余的噪聲信息。第六列是引入預(yù)測目標(biāo)類可信度p優(yōu)化后分割效果,發(fā)現(xiàn)正確目標(biāo)類的有效分割區(qū)域更加完整了,同時有效地抑制了假正例區(qū)域,使得最終的模型分割信息更全面,邊緣輪廓更細(xì)致。
同時為了更加充分的驗證算法的性能,與目前采用各類弱監(jiān)督信息(類標(biāo)及類標(biāo)加輔助信息、像素點、邊界框、涂鴉)實現(xiàn)語義分割的主流算法進(jìn)行對比,包括目前單純以類標(biāo)作為弱監(jiān)督信息的最好算法 AffinityNet[28],為了對比的公正性,只給出了基于網(wǎng)絡(luò)VGG-16結(jié)構(gòu)的性能對比。表2列出了各類算法在VOC 2012驗證集和測試集上的分割性能對比結(jié)果。其中,I指應(yīng)用類別作為監(jiān)督信息,P指應(yīng)用像素點作為監(jiān)督信息,S是簡筆涂鴉式監(jiān)督信息方式,B是指利用邊界框為監(jiān)督信息,*表示加入了強監(jiān)督信息。從表2中可以看出多尺度分割及優(yōu)化算法在驗證集上的結(jié)果比AffinityNet算法高0.4%,比基于相同遷移學(xué)習(xí)模型改進(jìn)的CrawlSeg[14]算法提高了0.7%。AffinityNet算法提出利用親和網(wǎng)絡(luò)預(yù)測相鄰像素間的語義相似性,進(jìn)而將局部響應(yīng)擴(kuò)散到同一語義實體的附近區(qū)域,最后通過預(yù)測的像素相似性隨機(jī)游走實現(xiàn)語義傳播,對目標(biāo)的響應(yīng)區(qū)域位置及類別預(yù)測效果都比較好,但是它的實際分割對目標(biāo)的輪廓及細(xì)節(jié)信息處理不是太完整。多尺度分割及優(yōu)化算法在測試集上的結(jié)果有些不盡如人意,但是比 TransferNet[13]提升了 6.3%。結(jié)果說明多尺度分割模型有效地提取了多尺度的空間信息,并與同質(zhì)型原遷移學(xué)習(xí)模型進(jìn)行集成,提高了泛化性能,對捕獲細(xì)節(jié)輪廓信息更有效; 同時利用預(yù)測目標(biāo)類及其可信度優(yōu)化注意力機(jī)制的定位,獲得了更好的分割效果。
圖3 VOC 2012 驗證集分割效果對比
表2 VOC2012驗證集/測試集性能對比
圖4給出的是一些失敗案例,圖4(a)與圖4(d)是相應(yīng)案例的原圖,圖 4(b)與圖 4(e)是對應(yīng)原圖的真值分割圖,圖 4(c)與圖 4(f)是模型預(yù)測分割圖。作為弱監(jiān)督的語義分割算法,因為監(jiān)督信息缺失目標(biāo)數(shù)據(jù)集圖像的位置和形狀關(guān)鍵信息,往往會在復(fù)雜背景或者眾多小目標(biāo)的情況下出現(xiàn)錯誤。失敗案例表明,因為注意力機(jī)制對興趣目標(biāo)的定位是粗糙的,難免會引入噪聲信息,縱使對目標(biāo)的顯著性響應(yīng)進(jìn)行優(yōu)化也不能完全解決,從而影響分割的準(zhǔn)確性。后期可以考慮增加一些對目標(biāo)顯著性精確定位的措施,強化興趣目標(biāo)的整體響應(yīng)區(qū)域。
圖4 一些分割失敗的例子
考慮到原遷移學(xué)習(xí)的單模型在復(fù)雜背景或目標(biāo)類別比較多的情況下,往往對小目標(biāo)形狀邊緣分割不理想,同時也因分類器的目標(biāo)識別不準(zhǔn)確導(dǎo)致分割對象出現(xiàn)錯誤,以及基于注意力機(jī)制的粗定位,簡單使用顯著性響應(yīng)容易引入噪聲信息等問題,構(gòu)建了可提取多尺度特征信息的圖像分割模型,提取圖像的多尺度信息,并引入3種優(yōu)化策略對分割算法優(yōu)化以提升分割精度。優(yōu)化策略首先將同質(zhì)型差異化的多尺度特征模型與原遷移模型進(jìn)行模型集成,以彌補單模型的性能缺陷;然后引入新的圖像分類器改善預(yù)測目標(biāo)類別的準(zhǔn)確度提高圖像分割的性能;最后結(jié)合預(yù)測類可信度優(yōu)化分割響應(yīng)圖的像素可信度,避免類別可信度低而圖像分割可信高造成圖像分割錯誤。在目標(biāo)數(shù)據(jù)集VOC2012測試算法,實驗給出了單尺度特征模型、雙模型集成、新類別分類器及類可信度優(yōu)化的實驗結(jié)果,并與其他前沿算法進(jìn)行了對比。結(jié)果表明,多尺度特征模型及優(yōu)化算法,在VOC 2012驗證集上的平均交并比達(dá)58.8%,測試集上的平均交并比為57.5%,比原遷移學(xué)習(xí)算法提升12.9%和12.3%,在驗證集比目前以類標(biāo)作為監(jiān)督信息的最好語義分割 AffinityNet算法提升 0.7%,驗證了本文算法的有效性。由于使用的基礎(chǔ)網(wǎng)絡(luò)性能不夠及注意力機(jī)制的缺陷影響了分割效果的進(jìn)一步提升,后續(xù)將考慮改善網(wǎng)絡(luò)結(jié)構(gòu)和引入目標(biāo)顯著性改善注意力機(jī)制來提高分割的效果。