龐 程,姚鴻勛,孫曉帥
(哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,哈爾濱150001)
以往的研究表明,圖像分類任務(wù)的準確率可以通過分割等預(yù)處理過程獲得提升。這一結(jié)論在圖像細粒度分類領(lǐng)域也得到了證實[1-2].但是一般的圖像分割方法并不能很好地利用細粒度研究對象的部件信息,其分割過程往往會丟掉一些部件,將其錯誤地分類成為背景。而據(jù)已有的研究分析可知,物體的部件在細粒度視覺分析中起到至關(guān)重要的作用,因其承載了許多具有判別力的局部特征。如果忽略這些重要的部件或者局部特征,細粒度分類的性能反而會因為分割造成一定的損失。基于上述分析,本文提出了一種基于部件檢測的細粒度圖像分割方法,目的是利用部件信息指導(dǎo)分割的過程,盡可能地保留物體的重要部件,提高分割的準確性和后續(xù)分類的性能。
本文方法分為定位階段和分割階段。在定位階段,將對物體的部件進行定位,獲得一些部件的位置信息的假設(shè)。然后就是分割階段,研究利用獲得的部件假設(shè)指導(dǎo)GrabCut[3]方法的分割過程,達到優(yōu)化分割的目的。具體來說,就是在設(shè)計的優(yōu)化函數(shù)中,迭代地更新部件假設(shè)和前景分割的前景假設(shè),使得兩者最終達到統(tǒng)一。即如果部件假設(shè)中認定某些像素可能屬于物體的部件,但是在分割的前景假設(shè)中這些像素屬于背景,那么就增加這些像素在分割中屬于前景的概率并同時減少部件假設(shè)中其屬于部件的假設(shè)。圖1顯示了本文方法和其它方法的效果。
作為該方法核心的定位階段,研究為其設(shè)計了2種定位方法,分別是基于弱監(jiān)督的部件定位方法和基于無監(jiān)督的部件定位方法。但是在實際應(yīng)用中,部件的真實信息的獲取通常較為困難,只有少數(shù)的數(shù)據(jù)集提供了相關(guān)信息。如何在沒有專家知識或者少量專家指導(dǎo)的情況下,自動地獲取這些對于細粒度視覺分析至關(guān)重要的信息,是本文研究中擬著重考慮的問題。在基于弱監(jiān)督的部件定位方法中,研究利用了數(shù)據(jù)集提供的真實部件信息訓(xùn)練定位模型,然后利用定位模型推理查詢圖像中的物體部件信息。因為研究中僅僅在訓(xùn)練階段使用了真實的部件信息,而一旦定位模型訓(xùn)練完成后,就可以在任何圖像中實現(xiàn)自動的部件定位。更進一步,對于連訓(xùn)練數(shù)據(jù)都沒有真實部件信息的情況,研究繼而提出了無監(jiān)督的部件定位(發(fā)現(xiàn))方法。該方法僅僅利用一些底層的視覺特征,挖掘圖像局部區(qū)域可能存在的部件,然后利用這些部件訓(xùn)練定位部件模型。相關(guān)的部件發(fā)現(xiàn)的工作、比如文獻[4]也利用了圖像底層視覺特征。但是本文提出的部件發(fā)現(xiàn)策略首次引入了姿態(tài)一致性的約束,使得本文發(fā)現(xiàn)的部件能夠更好地覆蓋研究對象。
圖1 本文方法示意圖Fig.1 Illustration of the proposed method
和本文提出的分割方法最相關(guān)的是文獻[2]研發(fā)的共生的細粒度分類和分割方法。該方法第一次發(fā)現(xiàn)了細粒度圖像分類和物體檢測具有一定的協(xié)同作用,將部件檢測和分割相結(jié)合可以提升細粒度視覺分析的性能。在設(shè)計框架中分別使用Deformable Part Model(DPM)[5]和 GrabCut作為其檢測和分割算法。本文提出的方法與上述方法的不同主要表現(xiàn)在如下2個方面:
(1)DPM僅僅給出了一些粗略的部件的檢測結(jié)果,而本文方法可以利用更富含語義信息的專家定義的部件訓(xùn)練模型進行檢測。
(2)研究并不是在每次分割迭代之后都重新檢測部件的位置,而是迭代地更新本文的部件檢測假設(shè)和分割前景假設(shè),為的是最大限度地保留盡可能多的對細粒度視覺分析有用的部件。
時下現(xiàn)有的部分成果已經(jīng)證明了,精確的物體部件檢測能夠顯著地提高細粒度分類的性能[1-2]。只是這些研究一般都基于參數(shù)化模型的工作,同時也都使用了這一假設(shè):部件的位置分布遵循的是高斯分布。但已有證明指出這個假設(shè)是不正確的[6],部件的分布并不遵循高斯分布。而且,這些工作使用的參數(shù)化模型也不足以精確地描述一些無規(guī)律的部件分布模式。為此本文提出了一種基于弱監(jiān)督的,結(jié)合參數(shù)模型和非參數(shù)模型的混合部件檢測方法。該方法能夠處理一些姿態(tài)變化巨大的部件分布模式,并且在較低的計算開銷下能夠足夠精確地得到部件檢測結(jié)果。
文獻[6]的方法也使用了非參數(shù)的部件模型。方法中利用了底層視覺特征,比如全局的形狀,來進行粗略的部件對齊。區(qū)別于該方法的是,本文方法僅僅將非參數(shù)模型的結(jié)果作為先驗知識,后續(xù)還會利用參數(shù)模型進行更精確的檢測。設(shè)計過程中,研究在第一階段利用非參數(shù)部件傳遞,將一些訓(xùn)練樣本的真實部件坐標賦予查詢樣本。而后在第二階段,研究在傳遞的部件的鄰域內(nèi)進行精確的部件檢測,使用的是參數(shù)化的部件檢測子。對于傳統(tǒng)的利用滑動窗口進行檢測的方法,本文提出的混合部件檢測方法的優(yōu)勢可表述為:
(1)結(jié)合了參數(shù)化和非參數(shù)化模型的優(yōu)點,既能處理一些姿態(tài)變化極大的情況,又能在較低計算開銷的情況下給出較為準確的檢測結(jié)果。
(2)研究中第二階段的在部件鄰域內(nèi)進行檢測的方法,能夠避免不同部件因為具有相似的表觀特征而造成的檢測混淆。
如圖2所示,弱監(jiān)督部件檢測模型框架分為2個階段,即:非參數(shù)的部件坐標傳遞和參數(shù)化的部件檢測。對于該算法設(shè)計步驟可闡釋如下。
圖2 弱監(jiān)督部件檢測框架Fig.2 Pipeline of the semi-supervised part detection
在非參數(shù)部件坐標傳遞階段,所有樣本的最小邊界框中的圖像被縮放到256?256尺寸,圖像的HOG特征被用作底層視覺特征描述物體的姿態(tài)。對于一幅待檢測部件的查詢圖像,研究首先在訓(xùn)練樣本中搜索和查詢圖像的姿態(tài)最相近的k個近鄰樣本。然后,求取這些近鄰的各個部件的平均坐標,并傳遞給查詢圖片作為查詢圖片對應(yīng)部件的可能的位置。因為通過觀察分析發(fā)現(xiàn),整體姿態(tài)相近的2個樣本,其組成部件的相對位置也是非常接近的。
在參數(shù)化的部件檢測階段,假設(shè)已為每一個部件訓(xùn)練了一個部件檢測子,研究在上一步每個可能的部件位置的鄰域,使用對應(yīng)該部件的檢測子進行滑動窗口搜索。算法將檢測子檢測分數(shù)最大的位置作為檢測到的部件位置。接下來將會介紹并用到訓(xùn)練部件檢測子的方法。首先根據(jù)物體姿態(tài)對訓(xùn)練樣本進行聚類,獲得具有相近姿態(tài)的若干類別,基于此將為每一個姿態(tài)訓(xùn)練單獨的部件檢測子。然后對于第i個部件,研究收集這個姿態(tài)類別中所有樣本在部件i位置的圖像塊作為該部件的正例訓(xùn)練圖像,而負例訓(xùn)練圖像則采集自背景區(qū)域。需要指出的是,即使是同一部件,因為細粒度研究對象的巨大類別數(shù),也可能呈現(xiàn)出多樣化的外觀。如果為一個部件僅僅訓(xùn)練一個檢測子,那么獲得的檢測子可能具有較低的判別能力,因為其需要同時兼顧處理多樣化外觀的泛化能力。于是,研究有針對性地提出為一個部件訓(xùn)練多個檢測子。其訓(xùn)練圖像可由上述訓(xùn)練圖像通過聚類得到,訓(xùn)練使用SVM分類器。那么最終研究為第i個部件訓(xùn)練的檢測子實際上就是一個包含 SV,SV,…, SV在內(nèi)分類器集合。
為了評估本文提出方法的計算開銷,研究假設(shè)一幅圖像的大小為n?n像素,搜索的步長為1個像素。那么一個傳統(tǒng)的基于滑動窗口的搜索算法搜索全圖像將需要n?n個CPU時間。而在本文提出的算法中,研究關(guān)注的是在檢測到的部件鄰域內(nèi)進行有限的搜索而不是全圖。如果研究中設(shè)定這個鄰域的大小為圖像邊長的1/m,那么本文的算法僅用1/m2的CPU時間就可以完成搜索,并且還避免了不同部件之間的相互干擾。從效率和準確性方面都較一般的滑動窗口方法更具優(yōu)勢。
這一節(jié)中,擬將論述本文提出的基于部件檢測的細粒度圖像分割方法。該方法以GrabCut分割方法為基礎(chǔ),利用引入的部件的位置信息以指導(dǎo)分割過程,達到細粒度視覺分析的要求。GrabCut使用混合高斯模型作為分割算法的顏色模型,并不斷地迭代更新顏色模型。與其不同的是,本文的分割方法則是交替更新研究中的部件假設(shè)和顏色模型,使得部件假設(shè)和分割的前景假設(shè)盡量達成一致。本文的算法不需要任何的用戶介入,僅僅需要物體的最小邊界框。而物體的最小邊界框可以方便地使用任意檢測方法得到,這不在本文的討論范圍。
本文方法的核心思想是:如果本應(yīng)該屬于物體部件的像素被分割方法錯誤地分類為背景,那么就增大了分割模型中這些像素屬于前景的概率。這就是研究中引入部件檢測的原因。同時,研究還利用部件假設(shè)產(chǎn)生一個物體前景掩膜用于初始化分割的顏色模型,以減少因錯誤的模型初始化造成的分割錯誤。本文分割方法的目標函數(shù)可以表示為:
其中,z表示一幅圖片的所有像素的RGB值組成的矩陣;s表示GrabCut分割產(chǎn)生的前景掩膜;w=[w1,w2, … ,wn] 存儲每個像素屬于前景的概率;EGC表示GrabCut的分割能量項;EP表示部件能量項;EC表示一致性項,且是分割能量和部件能量交互的橋梁,負責(zé)懲罰兩者不一致的情況;超參數(shù)P=[p1,p2, … ,pn],用于指示每個像素在部件假設(shè)中的類別,即是屬于部件還是屬于背景;w是根據(jù)P進行初始化的,如果zi代表的像素是屬于部件的,那么wi就會被初始化為1,否則為0;α和β是2個正的常數(shù),用于平衡各個能量項。 這里,GrabCut能量項寫作:
其中,D是高斯概率分布的負對數(shù);V是平滑項;C是所有相鄰像素的索引;γ是一個常數(shù);I是圖像中所有像素的索引。研究得到部件能量項的定義為:
這里,如果一個像素在部件假設(shè)的記錄中是屬于部件的,但是又被分割結(jié)果s歸類為背景,那么則稱這個像素為不一致像素。dif(.)返回I中所有不一致像素的索引。據(jù)此,一致性能量項可以定義為:
其中,U表示的補集,而這兩者的并集是I。研究中將通過交替更新分割的輸出和部件假設(shè)來最小化這個目標函數(shù)。本節(jié)分割方法的示意圖可見圖3。
圖3 基于部件檢測的分割示意圖Fig.3 Illustration of the part-aware segmentation
上文的目標函數(shù)可以按照如下的方法優(yōu)化,即:固定部件假設(shè)w,更新前景分割s,而后反過來,如此交替,直到目標函數(shù)的值不再有大的變化。對此可展開論述如下。
2.2.1 更新部件假設(shè)w
固定前景分割結(jié)果s,則分割能量項EGC可以被忽略,目標函數(shù)變?yōu)椋?/p>
由于式(5)的最后一項不依賴于w,所以式(5)可以寫成:
研究選擇合適的α和β, 使得α-βDi(si;zi) 總為一個正值。因此式(6)可以看成是一個w的單調(diào)遞增函數(shù)。同時,限定每次迭代中,每個wi的變化量或者是0、或者是一個正常數(shù)λ。 當wi減小到接近于0時,可將其設(shè)為0并更新超參數(shù)Pi,使得Pi不再屬于部件類、而是屬于背景類。這種做法的研究目的是,只要部件假設(shè)和分割的結(jié)果不符合,那么減少被錯誤分到背景的部件的像素屬于前景的概率。從而可以保證最終的分割結(jié)果對于一些不準確的部件檢測結(jié)果造成的誤差具有一定的寬容性。
2.2.2 更新前景分割s
固定w,則部件能量項EP項可以忽略。目標函數(shù)變?yōu)橄旅娴男问剑?/p>
與那些被正確分割了的像素不同,式(7)總是盡量使得不一致像素的系數(shù)變小,相當于鼓勵分割算法將不一致像素被分類為前景。需要指出,式(7)仍然可以使用GrabCut的優(yōu)化方法進行求解,這里不再贅述。
總之,研究按照如下步驟來優(yōu)化式(1),具體流程可描述為:
(1)根據(jù)式(6)優(yōu)化部件假設(shè)w。
(2)根據(jù)w更新超參數(shù)P。
(3)重新估計混合高斯顏色模型。
(4)根據(jù)式(7)優(yōu)化前景分割s。
算法的收斂性依賴于部件假設(shè)和GrabCut的分割前景假設(shè)是否達到一致。從前述分析容易看出,兩者的不一致性是由不一致像素引起的。如果部件假設(shè)中屬于部件的所有像素在分割假設(shè)中被歸類為前景,由此就可達到保留這些部件的目的。即不存在不一致像素,算法已經(jīng)收斂。本文的算法將設(shè)計為交替更新部件假設(shè)和分割的前景假設(shè),這也是一個不斷減少不一致像素的過程。當然,如果2個假設(shè)的不一致性小于一個閾值或者已經(jīng)達到最大的更新次數(shù),此時也可認定算法已經(jīng)收斂。
研究在 CUB-200-2011[7]鳥類數(shù)據(jù)集中和Stanford Dogs[8]數(shù)據(jù)集測試了本文的分割方法,這2個數(shù)據(jù)集是細粒度視覺分析領(lǐng)域的基準數(shù)據(jù)集。實驗部分將考慮2個方面的性能:細粒度圖像分割和細粒度分類。研究內(nèi)容可分述如下。
CUB200-2011數(shù)據(jù)集包括200種鳥類的11 788幅圖像,并附有每幅圖像的真實分割掩膜、類別標簽、部件位置坐標、圖像的最小邊界框,二值化特征屬性等信息。盡管研究者已經(jīng)對該數(shù)據(jù)集進行了數(shù)目可觀的研究,但是其樣本表現(xiàn)出巨大的姿態(tài)、光照、尺度變化,仍然使得該數(shù)據(jù)集成為細粒度視覺分析領(lǐng)域最具挑戰(zhàn)性的數(shù)據(jù)集之一,而且也還有大量的研究在將其擬定用于諸如細粒度分類等一系列任務(wù)中。在本文實驗中,研究使用數(shù)據(jù)集提供的最小邊界框進行弱監(jiān)督和無監(jiān)督的部件檢測,然后使用基于部件檢測的分割方法對圖像中的物體進行分割。
Stanford Dogs數(shù)據(jù)集具有兩倍于CUB鳥類數(shù)據(jù)集的樣本數(shù)量,分別為120類狗,收集了20 580個樣本圖像。盡管該數(shù)據(jù)集為每一類提供了更多的樣本,但是由其整合的標注信息要少于鳥類數(shù)據(jù)集,僅僅包括有圖像標簽和最小邊界框。更值得注意的是,狗相比于鳥類有著與人類的更多交互,比如前者可能會穿著衣服或者佩戴玩具裝飾,而這些顯然會導(dǎo)致視覺分析中更多的遮擋和視覺混淆等問題。另外,因為該數(shù)據(jù)集沒有提供真實的圖像分割掩膜,就使得在該數(shù)據(jù)集上只能通過分類性能來衡量本文方法的效果。
3.2.1 部件檢測
給定CUB200-2011數(shù)據(jù)集中真實的部件位置標注,研究將其與本文的部件檢測方法進行對比,以驗證本文方法的有效性。文中選擇了在鳥類分類中比較重要的3個部件(背部、后頸部和腿部)進行實驗驗證,實驗結(jié)果見圖4。實驗得到的檢測誤差是通過計算本文的檢測結(jié)果和真實部件坐標的歐式距離得到的。樣本的最小物體邊界框的尺寸采用這些誤差的標準化,標準化的樣本誤差將會排序用于展示。
圖4 部件檢測結(jié)果Fig.4 Results of part detection
如圖4(a)~(c)圖像所示,研究中結(jié)合了非參數(shù)模型和參數(shù)模型的部件檢測比僅僅使用了非參數(shù)傳遞的方法[4]具有更小的錯誤率。對比的方法還使用了真實的分割掩膜,而本文方法卻并未使用。不準確的部件檢測結(jié)果會降低前景分割的性能,但是如果研究檢測到的部件處在真實部件的鄰域內(nèi),本文的算法仍有可能得到正確的分割結(jié)果。在這種情況下,這個部件檢測的結(jié)果被看成是正確。文中的實驗也展示了鄰域大小對檢測精度的影響,如圖4(d)~(f)所示。對此分析可知,更大的鄰域設(shè)置能夠得到更高的檢測準確率。在后續(xù)試驗中則將選擇20像素作為鄰域的大小,其對應(yīng)的部件檢測準確率為60%,這是一個同時兼顧了準確率和計算開銷的選擇。
3.2.2 前景分割實驗
研究使用文中的結(jié)合參數(shù)模型和非參數(shù)模型的部件定位方法估計樣本圖像中部件的位置。CUB鳥類訓(xùn)練集中的真實部件信息被用于訓(xùn)練部件檢測子,而對于狗類數(shù)據(jù)集,研究首先使用無監(jiān)督的部件發(fā)現(xiàn)策略發(fā)現(xiàn)一些部件,然后再訓(xùn)練部件檢測子。通過使用數(shù)據(jù)集推薦的訓(xùn)練-測試樣本劃分,而后對所有樣本進行分割,在整個數(shù)據(jù)集上評價本文提出的方法。試驗中,每個圖像樣本都被縮放到最大邊不大于500像素的尺寸。
研究將提出的基于部件檢測的細粒度分割方法與基準方法GrabCut[3]、轉(zhuǎn)為細粒度圖像的分割方法[2]、最先進的基于深度神經(jīng)網(wǎng)絡(luò)的一般前景分割方法[9]做了比較?;谏疃染W(wǎng)絡(luò)的方法訓(xùn)練了一個結(jié)合圖像類別標簽和圖像邊界標簽的網(wǎng)絡(luò),顯著地提高了一般前景分割方法的性能。綜上各種方法的分割結(jié)果即如圖5所示。
圖5 分割結(jié)果Fig.5 Results of segmentation
同時,圖5還給出了文中部件檢測的結(jié)果、以及部分數(shù)據(jù)集附帶的真實分割掩膜。由圖5中可以看出,本文的方法能夠保留一些具有語義的部件,但是GrabCut和Chai等人的方法[2]都傾向于丟棄這些重要部件。另外,本文方法通過使用部件檢測結(jié)果初始化分割的顏色模型,在相當程度上減少了錯誤的初始化帶來的分割錯誤,而Jain等人的方法[9]的分割結(jié)果則包含了太多的背景噪聲。
不僅如此,本文還研究了一些分割失敗的例子,各實例運行結(jié)果如圖6所示。其中有一些是由于錯誤的部件檢測而引起的。可以看出,這些例子中雜亂的背景十分容易對前景的檢測和分割造成干擾,而本文的對比方法在這種情況下也不能得到良好的結(jié)果。
圖6 分割失敗的例子Fig.6 Some failures of segmentation
為了顯示本文分割算法的有效性,研究使用了2種衡量標準,分別是:PASCAL VOC[10]重疊率(Seg.I)和被正確分割的前景像素和背景像素占總體像素的百分比(Seg.II)。
本文分割方法在CUB200-2011數(shù)據(jù)集上的分割性能見表1。由表1可知,本文方法對比GrabCut在SegI和 SegII兩項指標上分別提高了11.1%和9.4%,對于 Chai的方法分別提高了1.9%和0.7%,對于Jain的方法分別提高了5.2%和2.8%。值得注意的是,本文的方法取得了比Jain的基于深度神經(jīng)網(wǎng)絡(luò)的分割方法更好的前景分割結(jié)果,這也從側(cè)面反映了一般的前景分割方法在細粒度圖像分割任務(wù)中并不能獲得良好效果。這里,計算2個分割指標的時候,是取最小物體邊界框之內(nèi)的圖像進行計算的。以上實驗基于鳥類數(shù)據(jù)集而得。對于Stanford狗類數(shù)據(jù)集而言,研究時未能提供真實的圖像分割掩膜,因此并不能夠定量地分析各個分割算法的性能。本文將在下一節(jié)中對比使用不同分割方法得到的前景圖像進行圖像細粒度分類的性能評估,以進一步衡量各方法分割的效果。
表1 分割性能比較Tab.1 Comparison of the segmentation methods %
3.2.3 細粒度分類實驗
從認知上來說,基于部件檢測的分割方法能夠更多地保留對于圖像細粒度分類具有重要意義的部件,從而改進分類的效果。本文的目標是為圖像的細粒度分類系統(tǒng)提供一個通用的分割方法,因此并沒有選用那些帶有特別設(shè)計的圖像細粒度分類系統(tǒng)來驗證文中算法的分割效果,這是因為要考慮到通用性方面的問題。文中專門選用了最為常用的基于視覺單詞詞袋的分類方法BOW[11]。該方法對底層視覺特征進行編碼得到直方圖向量,對于復(fù)雜背景表現(xiàn)出較強的魯棒性并且在沒有任何結(jié)構(gòu)先驗的情況下能夠取得較為理想的分類效果。而且,文中提取了圖像的SIFT、dense SIFT和color name三種特征作為圖像的描述子。其中,又分別為2種SIFT類的特征分別學(xué)習(xí)了2個由8 000個視覺單詞組成的字典,為color name特征學(xué)習(xí)了由800個視覺單詞組成的字典。故而,研究最終得到的特征編碼是一個16 800維的向量。
該數(shù)值就在CUB200-2011鳥類數(shù)據(jù)集上使用不同的分割方法獲得圖像進行圖像細粒度分類的結(jié)果將如圖7所示,該數(shù)值就是前r個排序結(jié)果中出現(xiàn)正確分類的準確率。首先,從所有r的取值對應(yīng)的結(jié)果來看,前景分割明顯有利于細粒度分類準確率的提高。究其原因即在于前景分割減少了背景噪聲對特征提取和識別的干擾,故而使得所有的分割方法在準確率方面都超過了不使用分割而直接分類的方法。進一步分析可知,當r的值增大時,使用GrabCut的方法在準確率上已經(jīng)漸漸地不再遜色于文獻[2]的方法。這是因為盡管文獻[2]的方法在減少背景噪聲方面表現(xiàn)出色,但是也同時丟失了許多具有判別力的部件。如此推理也意味著隨著r的增大,保留越多的部件,就可得到更高的分類準確率。文獻[9]的方法表現(xiàn)比較穩(wěn)定,但是在某些情況下卻表現(xiàn)欠佳,因為該方法并沒有如其它方法那樣對細粒度分類對象的結(jié)構(gòu),比如部件進行探究。該方法常常在前景中包含了較多的背景噪聲,一定程度上損害了分類的性能。
圖7 CUB200-2011分類結(jié)果Fig.7 Classification results on CUB200-2011
此外,在Stanford Dogs狗類數(shù)據(jù)集上使用不同的分割方法獲得圖像進行圖像細粒度分類的結(jié)果即如圖8所示,相關(guān)設(shè)置和鳥類數(shù)據(jù)集一樣。但是該數(shù)據(jù)集的樣本卻表現(xiàn)出更多的遮擋和混淆,因為狗和人類有更多的交互行為,這也在一定程度上對分類性能造成影響。由圖8中可以看出,本文的方法在各種情況下的準確率都高于其它方法,因此就證明了本文研究引入部件檢測以保留重要部件和優(yōu)化初始分割顏色模型的有效性。
圖8 Stanford Dogs分類結(jié)果Fig.8 Classification results on Stanford Dogs
本文提出了一種基于弱監(jiān)督的部件檢測的細粒度圖像分割方法。該方法利用部件檢測得到的部件假設(shè)來指導(dǎo)前景分割,從而保留更多的對細粒度分類有用的部件,提升細粒度分類的性能。研究設(shè)計了一種基于弱監(jiān)督的部件檢測方法,該方法使用數(shù)據(jù)集訓(xùn)練樣本的部件標注訓(xùn)練了一個結(jié)合參數(shù)模型和非參數(shù)模型的混合型部件定位模型,而后便可以在任意的查詢圖像中自動檢測定位預(yù)先定義的具有語義信息的部件。基于上述部件檢測的分割算法則是最大程度地利用了部件假設(shè)來指導(dǎo)細粒度圖像的前景分割,以求保留檢測到的對細粒度分類具有重要作用的部件。本文的分割算法在GrabCut自動分割的基礎(chǔ)上增加了部件假設(shè)能量項和一致性能量項,部件假設(shè)項及其相關(guān)的像素類別超參數(shù)能夠不斷修正部件假設(shè),達到迭代優(yōu)化的效果。實驗證明了本文方法的有效性,在分割和分類性能上超過了基準方法GrabCut、轉(zhuǎn)為細粒度分類設(shè)計的分割方法以及先進的基于深度學(xué)習(xí)的一般圖像分割方法。