牛玉婷 張麗華 吳克偉 謝 昭 楊興明
(合肥工業(yè)大學(xué)計算機與信息學(xué)院 安徽 合肥 230009)
基于多因素貝葉斯的遮擋目標(biāo)檢測
牛玉婷 張麗華 吳克偉 謝 昭 楊興明
(合肥工業(yè)大學(xué)計算機與信息學(xué)院 安徽 合肥 230009)
復(fù)雜場景中的遮擋現(xiàn)象會造成目標(biāo)外觀信息損失,致使檢測過程中容易出現(xiàn)目標(biāo)遺漏。通過分析目標(biāo)表示對特定布局的依賴性,提出一種基于多因素貝葉斯的遮擋目標(biāo)檢測方法。首先,使用部件模型提供目標(biāo)局部區(qū)域的候選提議,然后,根據(jù)空間布局關(guān)系估計部件的可見性概率,并同時考慮目標(biāo)部件的外觀特征和形變位置,最后,構(gòu)建基于外觀、形變、可見性因素的貝葉斯模型,并采用最大化曲線下方面積設(shè)計目標(biāo)檢測評價函數(shù),完成多因素權(quán)重學(xué)習(xí)。實驗結(jié)果證明在PASCAL數(shù)據(jù)集中的有效性,優(yōu)于目標(biāo)檢測的現(xiàn)有方法。
遮擋目標(biāo)檢測 可見性 多因素 貝葉斯
目標(biāo)檢測是通過提取目標(biāo)的可判別特征,訓(xùn)練獲得區(qū)分目標(biāo)和背景的分類器,在圖像中確定目標(biāo)位置的過程[1]。目標(biāo)檢測在視頻監(jiān)控[2]、圖像檢索[3]等領(lǐng)域有著廣泛的應(yīng)用價值。然而,由于真實世界中多目標(biāo)之間復(fù)雜的空間位置關(guān)系,成像過程中存在大量的遮擋現(xiàn)象,致使目標(biāo)檢測丟失。
現(xiàn)有方法在處理遮擋先驗,通常使用位置和遮擋類型,如規(guī)則網(wǎng)格的區(qū)域外觀驗證[4]、網(wǎng)格二值可見性標(biāo)記[5]等。然而,上述模型的網(wǎng)格約束較強,無法泛化到不同目標(biāo)類別的驗證中。
目標(biāo)的組成結(jié)構(gòu)關(guān)系,成為目標(biāo)檢測的重要線索,基于結(jié)構(gòu)化表示的部件模型[6]PbM(Part based Model)提供了重要區(qū)域的潛在位置估計方法,該方法考慮部件位置偏移作為目標(biāo)形變處理的數(shù)據(jù)依據(jù)。然而,部件模型在處理遮擋問題時,仍然會出現(xiàn)大量漏檢,部件模型及其演化模型Branch-and-Bound(BB)[7], Histogram Sparse Code (HSC)[8], Local Structure HOG and LBP(LS-HOGLBP)[9]等都缺乏對局部部件遮擋的解釋能力。
針對部件模型遮擋處理能力的不足,需要部件重構(gòu)關(guān)系,擴展的部件模型研究被展開。例如Grammar[10]模型中支持遮擋情況下的部件推理關(guān)系,Ouyang等[11]提出的檢測模型中多個目標(biāo)區(qū)域之間的重疊可以通過聯(lián)合遮擋配置關(guān)系驗證。但是,上述方法仍然是基于外觀的,本質(zhì)上無法回避外觀歧義性。
進一步多目標(biāo)在成像過程中的空間投影關(guān)系,成為部件遮擋評價的重要依據(jù)。通過考慮遮擋圖像與真實空間的物理投影關(guān)系,驗證場景布局的遮擋配置,可以實現(xiàn)部件可見性概率的估計,例如3D注釋[12]、Poselet[13]、3D Aspectlets[14]等,其中Hsiao等[15]使用物理世界假設(shè),實現(xiàn)局部興趣點遮擋概率估計,改善了遮擋估計的準(zhǔn)確性。但是,上述方法是針對特定的目標(biāo)類別,在遮擋檢測中不具有通用性,并且這些方法缺乏驗證部件可見性的結(jié)構(gòu)信息。因此,本文關(guān)注在利用部件外觀,形變信息的基礎(chǔ)上,加入可見性評價來進一步擴展對目標(biāo)的描述,并采用貝葉斯框架融合多個因素,通過權(quán)重優(yōu)化學(xué)習(xí)實現(xiàn)多因素貝葉斯的遮擋檢測模型。本文的主要創(chuàng)新點如下:
(1) 針對遮擋情況下的部件外觀描述不足,提出一種基于目標(biāo)外觀、形變、可見性的多因素目標(biāo)檢測模型,同時考慮可見性所具有的統(tǒng)計特性,采用貝葉斯框架評價各個因素的重要性,實現(xiàn)多因素融合。
(2) 針對外觀、形變與可見性特征分布不同,權(quán)重難以估計,采用最大化曲線下面積方法,實現(xiàn)了多因素貝葉斯模型的權(quán)重優(yōu)化學(xué)習(xí)。
(3) 在PASCAL數(shù)據(jù)上,驗證了本文算法在通用目標(biāo)檢測上的執(zhí)行性能,優(yōu)于當(dāng)前先進算法。
1.1 目標(biāo)評價的能量函數(shù)
基于部件的模型將目標(biāo)劃分成多個關(guān)鍵部件,并通過對部件之間引入幾何約束,使模型在處理目標(biāo)檢測中的形變目標(biāo)更加魯棒[6]。然而,該模型并沒有考慮遮擋情況下的部件評價。Hsiao等[15]采用物理統(tǒng)計可見性對目標(biāo)進行遮擋評價,但是該方法缺乏驗證部件可見性的結(jié)構(gòu)信息,并且沒有對描述部件的多個因素形成統(tǒng)一的目標(biāo)檢測框架。因此我們在結(jié)構(gòu)化表示的基礎(chǔ)上提出采用貝葉斯框架評價外觀、形變、可見性因素的重要性,并通過權(quán)重優(yōu)化學(xué)習(xí)獲得可靠的目標(biāo)檢測模型。
可見性項被用來估計由遮擋引起的信息不充分,但是它的統(tǒng)計特性不適用于部件模型。為此我們采用貝葉斯框架來評價外觀、形變和可見性因素的重要性,并提出一種新的遮擋布局檢測評價:
p(Y|d)= pa(Y|da)·pe(Y|de)·pv(Y)=
(1)
其中Y是目標(biāo)部件的可見性標(biāo)記,用于描述遮擋配置。yi是第i個部件外觀評價下的可見性標(biāo)記,其數(shù)值為1表示該部件外觀可見,Npt為目標(biāo)被劃分的部件個數(shù),p(yi|da,i)是外觀項的概率,p(yi|de,i)是形變項的概率,p(yi)是可見項的概率。d=(da,de)是外觀和形變概率化過程中使用的參數(shù)。為了便于模型參數(shù)的優(yōu)化求解,進一步將貝葉斯概率轉(zhuǎn)化為能量函數(shù)形式:
ψ(Y;d,ω)=ψa(Y;da)+ψe(Y;de,ωe)+ψv(Y;ωv)=
(2)
其中ψa是外觀項,對應(yīng)為p(yi|da,i)的能量形式,ψe是形變項,對應(yīng)為p(yi|de,i)的能量形式,ψv為可見性項,對應(yīng)為p(yi)的能量形式。因為各個因素在目標(biāo)檢測中的貢獻不同,我們使用系數(shù)ω=(ωe,ωv)來確定各項的重要性。當(dāng)系數(shù)降為0時,表示不需要考慮相應(yīng)的項,原始的部件模型可以被視為可見項系數(shù)極小情況下的模型。在合適的系數(shù)下,根據(jù)式(2)計算的能量越低的候選框代表越可靠的檢測結(jié)果。
本文的多因素貝葉斯模型包括3項,分為是外觀項ψa(Y;da),形變項ψe(Y;de,ωe),可見性項ψv(Y;ωv)。不同項的能量,使用不同的目標(biāo)部件描述子進行計算。
(1) 外觀項是用來分析目標(biāo)的外觀相似度。我們在部件模型的基礎(chǔ)上,采用相似于文獻[10]的方法對外觀項建模,即p(yi|da,i)=sigmoid(si-da,i),其中si為訓(xùn)練獲得的分類邊界閾值,da,i∈d是sigmoid函數(shù)的平移參數(shù),通過經(jīng)驗期望獲得。在能量函數(shù)中進一步將外觀概率轉(zhuǎn)化為能量形式ψ(yi;da,i)=-log(p(yi|da,i))。
(2) 目標(biāo)形變項是用來分析目標(biāo)部件的偏離程度。我們考慮部件位移信息對形變項建模,p(yi|de,i)=sigmoid(de,i-ei),其中ei是部件位置偏移量,平移參數(shù)使用訓(xùn)練集的期望平移量de,i=E(ei)。 同時,在式(2)中引入因素權(quán)重ωe,將形變項轉(zhuǎn)化為的能量函數(shù)形式ψ(yi;de,i,ωe)=ωe·-log(p(yi|de,i))。
(3) 可見性項是用來描述目標(biāo)部件在遮擋情況下可能引起的目標(biāo)損失,我們借助物理投影約束對目標(biāo)可見性建模,采用文獻[15]的方法獲得可見性概率p(yi),同時在能量函數(shù)中引入?yún)?shù)ωv表示該因素的重要性。可見項的能量形式為ψ(yi;ωv)=ωv·(1-yi)·(-log(p(yi)))。顯然當(dāng)部件可見時,即yi=1,該能量為ψ(yi;ωv)=0,即不考慮外觀退化因素。
1.2 多因素權(quán)重優(yōu)化
本文模型考慮能量函數(shù)中的每個因素為一個弱檢測器。為了權(quán)衡各個因素的價值,我們在估計各個因素權(quán)重的過程中,采用最大化曲線下方面積學(xué)習(xí)混合模型中的系數(shù)[16]。根據(jù)式(2),注意到能量最小化與目標(biāo)判定單調(diào)性相反,因此,曲線下方面積評價的求解方式可以定義為:
(3)
本文使用貪婪策略對多因素權(quán)重進行優(yōu)化,并考慮正則項避免權(quán)重不均衡,從而有目標(biāo)函數(shù)G(Ψ;f,ω)=‖ω‖2/2-φ(Ψ;F,ω)。訓(xùn)練數(shù)據(jù)集來自PASCAL數(shù)據(jù)集并且優(yōu)化混合權(quán)重為ω*=argminωG(Ψ;F,ω)。我們將在實驗中進一步分析本文所提出的模型相較其他模型的優(yōu)勢。
為了評價本文所提出的多因素貝葉斯遮擋目標(biāo)檢測模型MFB(Multi-factorBayesianModel)在通用目標(biāo)中的檢測效果,我們在PASCAL2007 數(shù)據(jù)集上進行實驗,并與Grammar[10]、Poselet[13]、部件模型[6]、HSC[8]和LS-HOGLBP[9]作對比,其中Grammar和Poselet模型能夠有效處理目標(biāo)檢測中的遮擋現(xiàn)象,而部件模型、HSC、LS-HOGLBP是當(dāng)前先進的基于部件的目標(biāo)檢測模型。PASCAL2007訓(xùn)練集包含2 501張真實場景的圖像,測試集包含4 952張真實場景的圖像,測試時目標(biāo)是預(yù)測圖像中給定類別的所有目標(biāo)的GroundTruth窗口。本文中,只有預(yù)測窗口與GroundTruth窗口面積重疊超過50%,才判定為正確檢測。為了保證公平對比,本文程序和對比方法的程序在同一臺PC上在單線程條件下運行,本文PC的配置為IntelCPUi5-3470。所有方法都使用文章的缺省設(shè)置。
為了驗證本文方法能夠有效處理目標(biāo)檢測中的遮擋現(xiàn)象,表1給出了MFB模型與Grammar,Poselet在人體類別中的遮擋目標(biāo)檢測結(jié)果,可以看出本文方法的表現(xiàn)優(yōu)于當(dāng)前先進的遮擋檢測方法。進一步具體分析可以得到如下結(jié)論:(1)Poselet模型的檢測精度比Grammar模型高出1.8%。這是因為Grammar模型在處理遮擋時僅關(guān)注部件的外觀評價。而Poselet模型從空間布局中入手利用3D點注釋選擇一致的動作部件,避免了外觀本身所具有的歧義性。(2)MFB模型在行人檢測上的表現(xiàn)比Poselet模型提高了1.7%。這是因為不同于以上兩種模型,MFB模型不僅考慮了部件可見性的物理度量,且通過貝葉斯框架將其與外觀,形變因素相結(jié)合,采用權(quán)重優(yōu)化學(xué)習(xí),發(fā)揮了各個因素之間互補作用,從而能夠更加有效地處理遮擋情況下的目標(biāo)檢測。
表1 PASCAL數(shù)據(jù)集中不同模型的人體檢測結(jié)果
圖1給出了PASCAL數(shù)據(jù)集中遮擋人體檢測示例,圖中(a)中人體被動物遮擋,部分外觀信息丟失。MFB模型采用結(jié)構(gòu)化描述,檢測獲得目標(biāo)人體的多部件位置,對應(yīng)(a)中8個白色的檢測框。針對被遮擋嚴(yán)重部件,對應(yīng)(a)中的左下角三個檢測框,(b)中的灰色檢測框給出了外觀特征與形變約束,在此基礎(chǔ)上MFB模型根據(jù)空間布局關(guān)系進行了可見性推理,如(c)所示,其中從黑色到白色對應(yīng)可見性從弱到強。
圖1 MFB的遮擋人體檢測示例
為了進一步評價本文方法在通用目標(biāo)類別檢測上的表現(xiàn),我們在PASCAL數(shù)據(jù)庫中的20個類別上進行實驗,并將MFB模型與部件模型、HSC、LS-HOGLBP作對比。其中HSC和LS-HOGLBP是為了改善低層特征表達。我們同樣與Hsiao[15]的模型進行了對比。Hsiao提出使用線性模型將密集的HOG檢測與物理統(tǒng)計可見性結(jié)合提高遮擋檢測表現(xiàn)。為了進行有效的對比,我們轉(zhuǎn)變Hsiao的模型為基于部件的檢測,記作可見性的貝葉斯表達BwV(Bayesian with Visibility),也是MFB模型的特殊形式。與此同時,MFB模型可以變化成不同的子模型在特定項的權(quán)重為0時,外觀的貝葉斯表達BwA(Bayesian with Appearance),形變的貝葉斯表達BwD(Bayesian with Deformation)。我們將部件模型選為基準(zhǔn)。
通過在PASCAL數(shù)據(jù)庫上的對比,實驗數(shù)據(jù)說明本文算法在通用目標(biāo)檢測上優(yōu)于當(dāng)前先進檢測算法。表2給出了不同算法在20類目標(biāo)中的檢測結(jié)果,具體分析可以得到以下結(jié)論:(1) 本文方法在所有類別上的平均檢測精度為41.2%,高于所有比較的模型,這一表現(xiàn)說明了我們提出的模型是有效的,多種因素之間具有互補性。(2) MFB比基準(zhǔn)部件模型提高了9.9%,而比HSC和LS-HOGLBP只提高了6.9%,這是因為HSC和LS-HOGLBP模型有效的特征表達使其表現(xiàn)優(yōu)于部件模型。我們進一步對一些特定類分析,發(fā)現(xiàn)在類別如鳥和狗,MFB模型比HSC和LS-HOGLBP只高出1%,這是因為這些類別有較多的變形以及部件等分位點置信度低。而在類別船、自行車和沙發(fā)上,MFB提高了9%,這是因為這些目標(biāo)是剛性的,部件位置更加準(zhǔn)確并導(dǎo)致更加可靠的可見性圖估計和貝葉斯評價。(3) 為了進一步說明MFB中各個因素的重要性,我們分析了BwD、BwA和BwV在目標(biāo)檢測中的表現(xiàn),其中BwD的表現(xiàn)比BwV高出了10.3%,BwV的表現(xiàn)比BwA高出了2.9%,可以看出形變因素最重要,外觀因素和可見性因素仍有提升空間。而MFB比BwA高出了20%,比BwA高出了17.1%和比BwV高出了6.8%的表現(xiàn),說明多因素模型和權(quán)重估計都是有效的,遮擋目標(biāo)可以通過多因素貝葉斯模型被有效地檢測出。(4) 在時間效率上,基準(zhǔn)部件模型每幅圖花費2.51秒,HSC模型為4.71秒,MFB模型為5.13秒。這是因為MFB模型中特征的獲取需要大量時間。
表2 在20個類別上不同模型的平均查準(zhǔn)率
續(xù)表2
圖2進一步給出了MFB與HSC的檢測結(jié)果。為了公平比較,圖2給出的是在每張圖像虛警率為0.1情況下的檢測結(jié)果。黑色框為HSC檢測結(jié)果,白色框為HSC丟失的檢測結(jié)果,MFB能夠成功檢測出所有位置,即相同虛警率情況下遺漏的目標(biāo)被MFB模型找出。這一結(jié)果說明本文提出的多因素貝葉斯模型能夠?qū)崿F(xiàn)多因素的有效融合和遮擋檢測的準(zhǔn)確性提升。
圖2 MFB和HSC在PASCAL上的目標(biāo)檢測結(jié)果
針對遮擋檢測不準(zhǔn)確的情況,提出使用布局關(guān)系估計部件可見性,并融合外觀,形變因素擴展對目標(biāo)的描述,解決遮擋情況下由信息損失造成的漏檢。本文方法采用貝葉斯框架將外觀、形變、遮擋多因素融合,并使用目標(biāo)檢測中的最大化曲線下方面積的評價指標(biāo)對多因素的權(quán)重進行聯(lián)合優(yōu)化。實驗結(jié)果說明在PSACAL數(shù)據(jù)庫上,能夠?qū)崿F(xiàn)優(yōu)于現(xiàn)有方法的目標(biāo)檢測效果。但是由于場景混雜,導(dǎo)致局部梯度特征無法完全描述目標(biāo)及其部件,造成漏檢情況,因此下一步將集中在利用卷積神經(jīng)網(wǎng)絡(luò)特征學(xué)習(xí)目標(biāo)部件的外觀表示,提高部件定位的準(zhǔn)確性,完成更有效的可見性估計,減低由于外觀信息丟失,引起的遮擋檢測錯誤。
[1] Pedersoli M,Vedaldi A,Gonzàlez J,et al.A coarse-to-fine approach for fast deformable object detection[J].Pattern Recognition,2015,48(5):1844-1853.
[2] 黃凱奇,陳曉棠,康運鋒,等.智能視頻監(jiān)控技術(shù)綜述[J].計算機學(xué)報,2015,38(6):1093-1118.
[3] 黎向陽,吳敏華,施智平.基于Gabor變換域的積分直方圖鞋印圖像檢索[J].計算機應(yīng)用與軟件,2015,32(3):215-219.
[4] Kwak S,Nam W,Han B,et al.Learning occlusion with likelihoods for visual tracking[C]//2011 IEEE International Conference on Computer Vision (ICCV), 2011:1551-1558.
[5] Gao T,Packer B,Koller D.A segmentation-aware object detection model with occlusion handling[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition,Providence,RI,USA,2011:1361-1368.
[6] Felzenszwalb P F,Girshick R B,McAllester D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.
[7] Kokkinos I.Bounding part scores for rapid detection with deformable part models[C]//Proceedings of the 2012 European Conference on Computer Vision,Florence,Italy,2012:41-50.
[8] Ren X,Ramanan D.Histograms of sparse codes for object detection[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition,Portland,OR,USA,2013:3246-3253.
[9] Zhang J,Huang K,Yu Y,et al.Boosted local structured HOG-LBP for object localization[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition,Providence,RI,USA,2011:1393-1400.
[10] Girshick R B,Felzenszwalb P F,McAllester D A.Object detection with grammar models[C]//Advances in Neural Information Processing Systems 24,Granada,Spain,2011:442-450.
[11] Ouyang W,Zeng X,Wang X.Modeling mutual visibility relationship in pedestrian detection[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition,Portland,OR,USA,2013:3222-3229.
[12] Pepikj B,Stark M,Gehler P,et al.Occlusion patterns for object class detection[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition,Portland,OR,USA,2013:3286-3293.
[13] Zia M Z,Stark M,Schindler K.Explicit occlusion modeling for 3D object class representations[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition,Portland,OR,USA,2013:3326-3333.
[14] Bourdev L,Maji S,Brox T,et al.Detecting people using mutually consistent poselet activations[C]//Proceedings of the 11th European Conference on Computer Vision.Springer,2010:168-181.
[15] Hsiao E,Hebert M.Occlusion reasoning for object detection under arbitrary viewpoint[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(9):1803-1815.
[16] Paisitkriangkrai S,Shen C,Hengel A V D.Efficient pedestrian detection by directly optimize the partial area under the ROC curve[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition (ICCV),2013:1057-1064.
DETECTION OF OCCLUSION TARGET BASED ON MULTI-FACTOR BAYES
Niu Yuting Zhang Lihua Wu Kewei Xie Zhao Yang Xingming
(SchoolofComputerandInformation,HefeiUniversityofTechnology,Hefei230009,Anhui,China)
Occlusion in complex scenes can result in loss of target appearance information, which leads to the loss of target in the detection process. By analyzing the dependence of the target representation on a particular layout, a multi-factor Bayesian method for occlusion target detection is proposed. First, a candidate proposal for the target local region is provided using the component model. Then, the visibility probability of the components is estimated according to the spatial layout, and the appearance characteristics and the deformation position of the target components are also considered. Finally, to complete the multi-factor weight learning,a Bayesian model based on appearance, deformation and visibility factors is constructed, and the area under the maximum curve is used to design the target detection and evaluation function. The experimental results demonstrate the effectiveness of the PASCAL data set, which outperforms the existing methods of target detection.
Occlusion target detection Visibility Multi-factor Bayes
2016-01-19。國家自然科學(xué)基金項目(61273273,61503111,61501467)。牛玉婷,碩士生,主研領(lǐng)域:計算機視覺。張麗華,副教授。吳克偉,講師。謝昭,副研究員。楊興明,副教授。
TP391.41
A
10.3969/j.issn.1000-386x.2017.04.032