国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

弱監(jiān)督任意姿態(tài)人體檢測(cè)*

2017-04-17 01:39蔡雅薇譚曉陽(yáng)
計(jì)算機(jī)與生活 2017年4期
關(guān)鍵詞:示例人體樣本

蔡雅薇,譚曉陽(yáng)

南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 210016

弱監(jiān)督任意姿態(tài)人體檢測(cè)*

蔡雅薇+,譚曉陽(yáng)

南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 210016

弱監(jiān)督;人體檢測(cè);任意姿態(tài);多示例學(xué)習(xí)

1 引言

多姿態(tài)人體檢測(cè)在日常生活中有很多重要的應(yīng)用[1]。例如在人類(lèi)行為估計(jì)中[2],人們首先需要檢測(cè)人體的位置,為頭、手、腳等其他部分提供參考定位。對(duì)于智能機(jī)器人,它的活動(dòng)必須避免碰撞人類(lèi),但房間里的人不會(huì)總是直立的,他們可以是趴著、坐著、躺著,或者是其他姿態(tài)。圖1說(shuō)明了一些不同姿態(tài)的人體,其中的圖片來(lái)自LSP數(shù)據(jù)集[3]。因此檢測(cè)任意姿態(tài)的人體變得十分必要[4]。

Fig.1 Illustration of human body under different poses圖1 不同姿態(tài)的人體說(shuō)明

但是這個(gè)課題并未受到足夠的關(guān)注。與之相關(guān)的課題中,被研究最多的是行人檢測(cè)問(wèn)題[5],它有著廣泛的應(yīng)用,尤其在城市智能交通系統(tǒng)。目前其性能已經(jīng)達(dá)到了很高的水平[6],這為多姿態(tài)人體檢測(cè)在很多方面(例如特征提取、模型選擇、評(píng)估方法)提供了寶貴的經(jīng)驗(yàn)。但是行人檢測(cè)本身主要關(guān)注直立姿態(tài)的人體。

任意姿態(tài)的人體檢測(cè)面臨著多個(gè)挑戰(zhàn),除了大量的外形變化,多種姿態(tài)使人工標(biāo)注工作變得困難和費(fèi)力,因此通常只能得到弱標(biāo)記的樣本。多示例學(xué)習(xí)(multiple instance learning,MIL)是克服這些挑戰(zhàn)的一個(gè)很好的工具,因?yàn)樗潘闪藢?duì)精確標(biāo)記的要求。在多示例學(xué)習(xí)中,人們甚至不需要注釋真實(shí)數(shù)據(jù)(ground truth),只需要標(biāo)注圖片中是否存在感興趣的對(duì)象即可。最近,Cinbis等人[7]將多示例學(xué)習(xí)用于一般的對(duì)象檢測(cè)并在Pascal VOC 2007數(shù)據(jù)集上得到了較好的結(jié)果,體現(xiàn)了這個(gè)方法的潛力。但是他們沒(méi)有重點(diǎn)關(guān)注多姿態(tài)人體檢測(cè)問(wèn)題以及一些多示例學(xué)習(xí)的實(shí)現(xiàn)細(xì)節(jié),例如樣本選擇、參數(shù)設(shè)置等。

本文主要提出了一種新的選擇性弱監(jiān)督檢測(cè)算法(selective weakly supervised detection,SWSD),并給出了這個(gè)課題的深度評(píng)估,關(guān)注了以下重要但很少被研究的問(wèn)題:首先,通過(guò)比較監(jiān)督學(xué)習(xí)和多示例學(xué)習(xí)的性能,探究了在弱監(jiān)督環(huán)境下多示例學(xué)習(xí)的能力;第二,研究了對(duì)于多示例模型訓(xùn)練,什么樣的訓(xùn)練樣本最有幫助,證明了SWSD算法的合理性;第三,測(cè)試了不同示例概率融合策略的效果;最后,驗(yàn)證了SWSD算法的優(yōu)越性。

本文在被認(rèn)可的Pascal VOC 2007[8]的person數(shù)據(jù)集上進(jìn)行了發(fā)廣泛的評(píng)估,并且得到了幾個(gè)有趣的實(shí)驗(yàn)結(jié)論,希望能為后面的研究者提供幫助。

本文組織結(jié)構(gòu)如下:第2章介紹弱監(jiān)督檢測(cè)的相關(guān)工作;第3章給出多示例學(xué)習(xí)算法以及SWSD算法;第4章闡述評(píng)估路線;第5章呈現(xiàn)綜合性弱監(jiān)督多姿態(tài)人體檢測(cè)的實(shí)驗(yàn)評(píng)估;第6章總結(jié)了主要的實(shí)驗(yàn)結(jié)論。

2 相關(guān)工作

2014年,Girshick等人為對(duì)象檢測(cè)提出了R-CNN(regions with CNN features)框架[9],他們采用Selective Search算法生成檢測(cè)提議。之后,很多人在此基礎(chǔ)上進(jìn)一步提高了檢測(cè)準(zhǔn)確度。目前Pascal VOC 2007上最好的人類(lèi)檢測(cè)平均精確度(average precision,AP)已經(jīng)達(dá)到70.1%[10],相信很快就會(huì)有新的突破。但是這些監(jiān)督學(xué)習(xí)都建立在大量的精確注釋和時(shí)間代價(jià)的基礎(chǔ)上,因?yàn)樵诰矸e神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)中存在太多的模型參數(shù)需要訓(xùn)練調(diào)整。

人們希望以最少的監(jiān)督信息定位對(duì)象,因此弱監(jiān)督對(duì)象檢測(cè)在提出之后得到了不斷的發(fā)展。2011年,Pandey和Lazebnik[11]結(jié)合了DPM(deformable parts model)和隱SVM(support vector machine)模型,證明了DPM也可以勝任弱監(jiān)督對(duì)象的定位任務(wù)。Siva和Xiang[12]提出了弱監(jiān)督學(xué)習(xí)框架,使用一種新的初始化注釋模型來(lái)啟動(dòng)檢測(cè)器的迭代學(xué)習(xí)。2012年,Russakovsky等人[13]根據(jù)已知對(duì)象位置能對(duì)圖像分類(lèi)有幫助的直覺(jué),提出了對(duì)象中心空間池方法。

2014年,Song等人[14]結(jié)合有識(shí)別力的子模塊和平滑隱SVM模型,可以自動(dòng)觀察正對(duì)象窗口。同年,他們也提出了自動(dòng)識(shí)別具有區(qū)別力的視覺(jué)模式的方法[15]。Bilen等人[16]提出了基于從CNN提取的特征和隱SVM模型的方法,可以找出圖片中的多對(duì)象示例。Wang等人[17]提出了潛在類(lèi)別學(xué)習(xí),首先使用典型的概率潛在語(yǔ)義分析學(xué)習(xí)潛在類(lèi)別,然后決策哪個(gè)類(lèi)別包含目標(biāo)對(duì)象,并且還提出了用于評(píng)估每個(gè)類(lèi)別區(qū)別力的類(lèi)別選擇方法。

2015年,Cinbis等人[7]對(duì)正訓(xùn)練圖片進(jìn)行迭代訓(xùn)練并指出對(duì)象位置。他們的主要貢獻(xiàn)在于多重多示例學(xué)習(xí)過(guò)程,避免了提前鎖定到錯(cuò)誤的對(duì)象位置。他們也通過(guò)從CNN中提取特征提高了多示例檢測(cè)的性能。目前弱監(jiān)督人體檢測(cè)最好的AP為20.3%,顯然還有很大的提升空間。

3 多示例檢測(cè)

以下簡(jiǎn)單描述如何將多示例學(xué)習(xí)用于對(duì)象檢測(cè),介紹兩種多示例學(xué)習(xí)算法,并重點(diǎn)關(guān)注選擇性弱監(jiān)督檢測(cè)算法。

3.1 多示例學(xué)習(xí)

在多示例學(xué)習(xí)中[18],數(shù)據(jù)集由N個(gè)包組成,用表示。其中代表第i個(gè)包,它是多示例訓(xùn)練中的單元,如同監(jiān)督學(xué)習(xí)中的一個(gè)樣本,M為包中的示例數(shù)量,xij為包中的一個(gè)示例;ti為包的標(biāo)記,但示例沒(méi)有標(biāo)記。包的標(biāo)記主要取決于包中是否包含正示例。那意味著,只有包中沒(méi)有任何正示例,這個(gè)包即被稱(chēng)為負(fù)包(ti=0),否則這就是一個(gè)正包(ti=1)。在這個(gè)定義下,不能確定正包中哪個(gè)示例為正示例,這一點(diǎn)加大了多示例算法的挑戰(zhàn)。為了實(shí)現(xiàn)好的性能,模型必須能夠足夠魯棒地對(duì)抗正包中的噪聲數(shù)據(jù)。

在對(duì)象檢測(cè)環(huán)境下,一個(gè)候選窗口被視為一個(gè)示例,多個(gè)候選窗口組成一個(gè)包。這樣就可以訓(xùn)練多示例對(duì)象檢測(cè)模型,但在測(cè)試的時(shí)候,每個(gè)候選窗口(示例)必須被指定一個(gè)標(biāo)記,這似乎直接違背了多示例學(xué)習(xí)的定義,因?yàn)槭纠龥](méi)有明確的標(biāo)記??梢酝ㄟ^(guò)示例層次的模型預(yù)測(cè)來(lái)避免這個(gè)問(wèn)題,或者將單一的測(cè)試示例視為只有一個(gè)示例的包,然后使用包層次的模型預(yù)測(cè)。

正式地,用 pij表示示例xij為正的概率。為了估計(jì)包層次的條件概率pi,可以使用不同的策略融合示例層次的概率。兩個(gè)最常見(jiàn)的方法為最大匯合(Max Pooling)和噪聲或模型(Noisy-or)。

Max Pooling策略的目標(biāo)是找出包中最可能為正的示例,并不關(guān)心包中其他示例的標(biāo)記。相對(duì)地,Noisy-or模型考慮了所有示例,但假設(shè)它們之間相互獨(dú)立。

不同的多示例學(xué)習(xí)算法的差異體現(xiàn)在很多方面,例如示例模型(pij)、損失函數(shù)、優(yōu)化方法等。文獻(xiàn)[18]給出了最近的綜述。本文實(shí)驗(yàn)中主要感興趣于兩種多示例學(xué)習(xí)算法,多示例邏輯回歸(MIL_LR)[19]和多示例AdaBoost算法(MIL_AdaBoost)[20]。下面將簡(jiǎn)單介紹這兩種算法。

3.2 多示例邏輯回歸

多示例邏輯回歸是一種線性分類(lèi)器,在這個(gè)意義上,對(duì)于每個(gè)示例xij,它的輸出標(biāo)記yij可以被線性模型化為yij=wTxij+b,w和b為待學(xué)習(xí)的參數(shù)。使用sigmoid函數(shù)模型化示例為正的概率為。本文使用負(fù)的似然函數(shù)作為損失函數(shù)來(lái)訓(xùn)練模型:

通過(guò)梯度下降法優(yōu)化參數(shù):

MIL_LR和一般的LR算法的區(qū)別在于,在學(xué)習(xí)參數(shù)時(shí),MIL_LR還需要考慮每個(gè)包的似然對(duì)包中示例的影響,即,而一般的LR算法則不需要。有趣的是,這個(gè)比例與示例融合策略有關(guān)。特別是在Max Pooling下,它僅僅依賴于獲勝的示例xij*,而且,其中。如果線性模型合理,這個(gè)性質(zhì)使得Max Pooling對(duì)不準(zhǔn)確的注釋非常魯棒。但在Noisy-or模型下,每個(gè)示例對(duì)計(jì)算這個(gè)比例都起作用,有時(shí)這意味著包中的一些困難示例可能有機(jī)會(huì)潛在地誤導(dǎo)學(xué)習(xí)。

3.3 多示例AdaBoost

在AdaBoost算法的多示例版本中[20],示例層次的預(yù)測(cè)模型C(xij)由多個(gè)弱分類(lèi)器的輸出線性組合構(gòu)成,即C(xij)=∑λtct(xij)。換言之,不同于MIL_LR模型,輸出標(biāo)記yij對(duì)于相應(yīng)的xij是非線性的。多示例AdaBoost的目標(biāo)是在多示例框架下學(xué)習(xí)一組弱分類(lèi)器ct(xij),以及組合系數(shù)λt。

特別地,為了學(xué)習(xí)下一個(gè)弱分類(lèi)器ct,首先要固定目前已經(jīng)學(xué)到的分類(lèi)器,然后用它對(duì)每個(gè)xij估計(jì)yij。然后用sigmoid函數(shù)將yij過(guò)渡到pij,接著用Max Pooling或者Noisy-or模型融合到 pi。最后,MIL_ AdaBoost的學(xué)習(xí)問(wèn)題歸結(jié)為最大化下面的似然函數(shù):

這個(gè)問(wèn)題可以在ct所屬函數(shù)空間上,通過(guò)梯度上升搜索來(lái)解決。之后,執(zhí)行簡(jiǎn)單的線性搜索就能估計(jì)λt的值。

3.4 選擇性弱監(jiān)督檢測(cè)

在多示例學(xué)習(xí)框架的基礎(chǔ)上,希望進(jìn)一步提高弱監(jiān)督檢測(cè)的性能。本文提出一種新的選擇性弱監(jiān)督檢測(cè)算法SWSD。它利用了少量監(jiān)督樣本的優(yōu)勢(shì),雖然無(wú)法獲取大量的監(jiān)督樣本,但是可以手工標(biāo)注少量的ground truth。這些ground truth所需的代價(jià)很小,但可以發(fā)揮重大作用。之所以設(shè)計(jì)這個(gè)算法是因?yàn)榕cground truth重合越大的示例對(duì)多示例訓(xùn)練越有幫助,需要通過(guò)算法找出這些高質(zhì)量的示例。本文將通過(guò)實(shí)驗(yàn)證明該觀點(diǎn)。SWSD算法使用很少的ground truth來(lái)迭代選擇高質(zhì)量示例,模型訓(xùn)練過(guò)程如下。

算法1選擇性弱監(jiān)督檢測(cè)算法SWSD

(1)初始化訓(xùn)練集S:包括由M個(gè)ground truth和M個(gè)正包中的負(fù)示例組成的監(jiān)督樣本,以及N個(gè)空的訓(xùn)練正包。

(2)For iterationt=1toT

①通過(guò)監(jiān)督學(xué)習(xí)和多示例學(xué)習(xí),用S訓(xùn)練一個(gè)檢測(cè)器;

②用這個(gè)檢測(cè)器測(cè)試所有正訓(xùn)練圖片中剩下的檢測(cè)提議;

③在每張圖片中選擇n個(gè)得分最高的提議作為示例加入到相應(yīng)的訓(xùn)練正包中,更新S。

(3)輸出最終的檢測(cè)器。

另外,對(duì)于迭代次數(shù)T,可以采用交叉驗(yàn)證的方法來(lái)尋找最優(yōu)解。圖2給出了SWSD算法的簡(jiǎn)要過(guò)程。其中虛線框內(nèi)的部分是本文方法的創(chuàng)新之處。在多示例學(xué)習(xí)框架中,從未關(guān)注過(guò)訓(xùn)練正包中的示例組成,而SWSD算法通過(guò)選擇提議來(lái)提高正包中正示例的比例,從而提升算法的準(zhǔn)確度。

Fig.2 Procedure of SWSD圖2SWSD算法過(guò)程

4 評(píng)估路線

下面將介紹弱監(jiān)督人體檢測(cè)的評(píng)估路線,主要包括4部分,即檢測(cè)提議的生成、特征表示、多示例學(xué)習(xí)和檢測(cè)、后期處理過(guò)程。圖3給出了評(píng)估過(guò)程及方法。

Fig.3 Procedure and methods of evaluation圖3評(píng)估過(guò)程及方法

4.1 檢測(cè)提議生成

雖然滑動(dòng)窗口[21-23]是最常用的檢測(cè)提議(候選窗口)生成方法之一,但在本文的工作中,采用選擇性搜索(Selective Search)算法[24-26],它能產(chǎn)生很多的稀疏提議,并且不會(huì)損失圖片中的主要信息。Selective Search算法的主要思想基于感興趣的對(duì)象具有相似的視覺(jué)特征的假設(shè),而且能夠通過(guò)這些特征將它們從背景中分離,這大大減少了對(duì)象提議的數(shù)量。在文獻(xiàn)中還提到了很多其他的方法,例如MCG(multiscale combinatorial grouping)[27]、Objectness[28]、隨機(jī)種子[29],它們都可以用于這個(gè)目的。

4.2 特征表示

如何獲取最具區(qū)別力的特征一直是模式識(shí)別領(lǐng)域的重要問(wèn)題之一。已經(jīng)有很多不錯(cuò)的特征表示方法供人們選擇,例如HOG(histogram of oriented gradient)特征[30]、SIFT特征(scale-invariant feature transform)[31]、HSV(hue,saturation,value)特征[32]等。深度卷積神經(jīng)網(wǎng)絡(luò)[33]由于在實(shí)際中的卓越性能,成為一種受歡迎的特征表示方法。

在本文的工作中,選擇VGG網(wǎng)絡(luò)[34],這是一個(gè)38層的深度網(wǎng)絡(luò),最初是在ImageNet[35]數(shù)據(jù)集上訓(xùn)練得到。本文使用第37層的輸出作為最終的特征表示,也就意味著,每個(gè)提議都會(huì)映射成一個(gè)1 000維的向量,作為多示例學(xué)習(xí)模塊的輸入。注意到本文并沒(méi)有在原有VGG網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)一步微調(diào),因?yàn)閺腎mage-Net數(shù)據(jù)集上學(xué)到的特征空間足夠描述人體圖片。

4.3 多示例學(xué)習(xí)和檢測(cè)

如何合適地定義正包是多示例學(xué)習(xí)中一個(gè)棘手的問(wèn)題。在弱監(jiān)督環(huán)境下,人們無(wú)法獲得圖片中每個(gè)對(duì)象的ground truth邊界框,只能將一張正例圖片的所有提議組成一個(gè)正包。在其他情況下,當(dāng)已知ground truth,就可以縮小正包的尺寸,因?yàn)橹恍枰紤]和ground truth的IOU(intersection over union)大于0.5的示例,通常將它們視為正示例,否則即為負(fù)示例。圖4給出了ground truth邊界框、正示例和負(fù)示例的說(shuō)明。

Fig.4 Illustration of ground truth bounding box,positive instances and negative instances圖4 ground truth邊界框、正示例和負(fù)示例的說(shuō)明

由于MIL_LR和MIL_AdaBoost算法在本質(zhì)上具有不同的復(fù)雜性,集成它們是有利的。對(duì)于示例xij,用和分別表示它在兩種算法下的得分輸出,那么xij的最終得分定義為:

4.4 后期處理

人們提出了很多方法用于提高最終預(yù)測(cè)窗口的準(zhǔn)確率,例如邊界調(diào)整法[7]和邊界框回歸法[9]。本文使用一種基于聚類(lèi)思想的簡(jiǎn)單但有效的方法。特別地,在每個(gè)測(cè)試包中,只考慮得分的示例作為候選輸出。在這些候選中,選擇得分最高的作為一個(gè)聚類(lèi)中心,如果其他示例和這個(gè)中心有超過(guò)30%的重疊,就認(rèn)為這個(gè)示例屬于這個(gè)類(lèi),否則將它作為一個(gè)新的聚類(lèi)中心。對(duì)所有剩下的示例進(jìn)行此操作,直到所有的候選都被分配到某個(gè)類(lèi)別中。最后,取每個(gè)類(lèi)別的平均值統(tǒng)計(jì)量給出位置和邊界框的預(yù)測(cè)。

5 實(shí)驗(yàn)

有很多因素影響著SWSD算法,尤其是對(duì)其中的多示例學(xué)習(xí)部分。以下討論正示例比例、融合策略和示例質(zhì)量的影響,同時(shí)說(shuō)明SWSD算法的合理性及優(yōu)越性。

5.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)置

這一部分將描述實(shí)驗(yàn)設(shè)置,包括訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的構(gòu)成以及評(píng)估協(xié)議。對(duì)于多示例訓(xùn)練,構(gòu)造了一個(gè)由4 916張圖片組成的訓(xùn)練集,其中2 000張是從LSP數(shù)據(jù)集[3]上選取的正例,每張圖片中包含一個(gè)人體。另外2 916張是從Pascal VOC 2007[8]的人類(lèi)訓(xùn)練集上選取的負(fù)例,不包含任何人體對(duì)象。對(duì)于測(cè)試,直接使用Pascal VOC 2007的人類(lèi)測(cè)試集,包括4 952張圖片,其中2 007個(gè)正例共包含了4 528個(gè)人體對(duì)象。

圖1和圖5分別展示了LSP數(shù)據(jù)集和Pascal VOC 2007中的人體圖片??梢园l(fā)現(xiàn)Pascal VOC 2007中的一些圖片非常具有挑戰(zhàn)性,有的太小,有的被部分遮擋,見(jiàn)圖5最下面一行。但是這些特征可幫助測(cè)試檢測(cè)器的魯棒性。另一方面,LSP數(shù)據(jù)集上的目標(biāo)更加明顯,包含了更多的有效信息,將有利于多示例模型的訓(xùn)練。

本文使用平均準(zhǔn)確率AP評(píng)估人體檢測(cè)的性能。AP基于精確度,即正確檢測(cè)與所有預(yù)測(cè)之比,也是以回歸率為橫軸,精確度為縱軸的曲線下的面積。

5.2 基準(zhǔn)線

本文使用了兩個(gè)不同的基準(zhǔn)線,一個(gè)是相同圖片樣本下監(jiān)督學(xué)習(xí)的性能,另一個(gè)是只使用100個(gè)正例樣本的DPM的性能。由于想要證明多示例學(xué)習(xí)在某些情況下優(yōu)于監(jiān)督學(xué)習(xí)(supervised learning,SL),還想提高只有少量監(jiān)督樣本情況下的檢測(cè)性能,因此需要兩個(gè)基準(zhǔn)線。

對(duì)于監(jiān)督學(xué)習(xí),使用在LSP數(shù)據(jù)集上標(biāo)注的2 000個(gè)ground truth和2 916張Pascal VOC 2007上的負(fù)例圖片作為訓(xùn)練樣本。分別測(cè)試了SL_Ada-Boost、SL_LR和SL_LR+SL_AdaBoost的性能。對(duì)于DPM,直接使用Pascal VOC 2007的person訓(xùn)練集,其中包括2 095個(gè)正例和2 916個(gè)負(fù)例。在實(shí)驗(yàn)中,從2 000到100逐漸減少正例的數(shù)量,相應(yīng)地,負(fù)例數(shù)量與正例數(shù)量相等。這兩個(gè)實(shí)驗(yàn)均為監(jiān)督學(xué)習(xí)實(shí)驗(yàn)。

Fig.5 Illustration of human body images in Pascal VOC 2007圖5 Pascal VOC 2007中人體圖片說(shuō)明

表1列出了3種監(jiān)督方法的AP,可以看出SL_ AdaBoost+SL_LR算法的性能最好。本文的監(jiān)督學(xué)習(xí)性能低于R-CNN框架是必然的,因?yàn)橹皇褂昧? 000個(gè)正例樣本,并且也沒(méi)有采用復(fù)雜的檢測(cè)算法。它僅僅用于對(duì)比多示例學(xué)習(xí)。圖6說(shuō)明,當(dāng)正例數(shù)量為2 000時(shí),AP為35.96%,但降為100時(shí),AP只有24.62%。根據(jù)這條曲線,發(fā)現(xiàn)DPM的性能隨著正例樣本數(shù)量的減少而降低,因此當(dāng)監(jiān)督信息很少時(shí),DPM難以發(fā)揮作用。

Table 1 AP of supervised learning表1 監(jiān)督學(xué)習(xí)的AP

Fig.6 AP of DPM with different numbers of positive samples圖6 在不同正例樣本數(shù)量下DPM的AP

5.3 正示例比例的影響

為了得到更好的性能,應(yīng)該選擇合適的樣本用于訓(xùn)練。包中正示例比例(ratio of positive,ROP)對(duì)檢測(cè)性能的影響將指導(dǎo)人們?nèi)绾螛?gòu)造訓(xùn)練集。

在這組實(shí)驗(yàn)中,變量為ROP,在第1次實(shí)驗(yàn)中,向每個(gè)訓(xùn)練正包中只添加正示例,在第2至20次實(shí)驗(yàn)中,逐漸加入負(fù)示例。因此,ROP將從100%不斷下降至5%。所有的訓(xùn)練正包中均不包含ground truth。本文使用Max Pooling估算包概率。

圖7展示了MIL_AdaBoost、MIL_LR和MIL_ AdaBoost+MIL_LR算法的結(jié)果??梢园l(fā)現(xiàn)三者的AP都隨著ROP的下降而減少。其中,性能最好的MIL_AdaBoost+MIL_LR的AP從39.98%降低至14.56%。這證明了ROP是影響多示例性能的關(guān)鍵因素,從而SWSD算法中的迭代選擇過(guò)程是合理的。

Fig.7 AP of 3 algorithms with reduction of ROP圖7 隨著ROP的減小3種算法的AP

Fig.8 Comparison between MIL and SL圖8MIL與SL的比較

根據(jù)圖8可以看出,MIL_AdaBoost算法的AP在 ROP大于45%時(shí)優(yōu)于SL_AdaBoost,MIL_LR算法的AP在ROP大于85%時(shí)才優(yōu)于SL_LR算法,MIL_Ada-Boost+MIL_LR的性能也只在ROP大于45%時(shí)優(yōu)于監(jiān)督學(xué)習(xí)。因此只有ROP是個(gè)較大值時(shí),多示例學(xué)習(xí)才會(huì)比監(jiān)督學(xué)習(xí)更好。

可以觀察到不論在監(jiān)督學(xué)習(xí),還是在多示例學(xué)習(xí)中,AdaBoost和LR的集成方法性能都是最好的,因此在下面的實(shí)驗(yàn)中,只采用此方法。

5.4 融合策略的比較

上面的實(shí)驗(yàn)中,選擇的估算包概率的融合策略為Max Pooling(MIL-max),如式(1)所示,它只關(guān)注包中最可能為正的示例,忽略了其他示例。式(2)中的Noisy-or模型(MIL-nor)則綜合了所有示例的情況,但是當(dāng)包中示例數(shù)量較大時(shí),假設(shè)為1 000,即使包中每個(gè)示例為正的概率為0.1,包為負(fù)的概率為(1-0.1)1000≈1.7×10-46。因此本文考慮只使用3個(gè)最可能為正的示例用于計(jì)算。此外,也嘗試使用更多的示例,但是實(shí)驗(yàn)效果更差。

這組實(shí)驗(yàn)和上一組的實(shí)驗(yàn)形成對(duì)比,因此訓(xùn)練正包中也不包含ground truth。每次實(shí)驗(yàn)中包中的示例也是相同的,唯一不同的是,模型訓(xùn)練時(shí),所選的融合策略為Noisy-or模型。

Noisy-or模型和Max Pooling的AP比較如圖9所示。Noisy-or模型的性能遠(yuǎn)遠(yuǎn)低于Max Pooling的性能。MIL-max最高AP為39.98%,而MIL-nor最高只有23.95%。而且,MIL-nor的曲線一直在監(jiān)督學(xué)習(xí)(SL)基準(zhǔn)線的下方,這說(shuō)明使用Noisy-or模型的多示例學(xué)習(xí)不如監(jiān)督學(xué)習(xí)。

Fig.9 Comparison among MIL-max,MIL-nor and SL圖9 MIL-max、MIL-nor與SL之間的比較

5.5 提議質(zhì)量

在上面的兩組實(shí)驗(yàn)中,每個(gè)訓(xùn)練正包中都不包含ground truth。本文定位正示例為與ground truth的 IOU大于0.5的示例,但是采用剛剛大于0.5的提議作為示例來(lái)訓(xùn)練顯然是不夠的,需要高質(zhì)量的示例來(lái)訓(xùn)練更好的模型。本文通過(guò)實(shí)驗(yàn)評(píng)估提議的質(zhì)量。

在這組實(shí)驗(yàn)中,所有設(shè)置均與上一個(gè)實(shí)驗(yàn)相同,每次實(shí)驗(yàn)包中示例也相同,除了在每個(gè)訓(xùn)練正包中額外加入了ground truth。依舊分別使用Max Pooling和Noisy-or模型估算包為正的概率。

圖10展示了訓(xùn)練正包中是否包含ground truth對(duì)檢測(cè)性能的影響。發(fā)現(xiàn)包含與不包含的情況之間只有極小的差距。前者最好的AP為40.02%,而后者最好也達(dá)到39.98%。所有20次實(shí)驗(yàn)中,兩者之間的差距都在1%左右,這說(shuō)明在LSP數(shù)據(jù)集上Selective Search可以提供類(lèi)似ground truth的提議,并且它們可以在多示例訓(xùn)練中起到ground truth的作用。還觀察到,即使添加了額外的ground truth,MIL-nor的性能依然很差。因此認(rèn)為Noisy-or模型并不適用于多示例檢測(cè)。在本文下面的實(shí)驗(yàn)中,只采用Max Pooling策略。

Fig.10 Comparison between whether containing ground truth圖10 是否包含ground truth之間的比較

5.6SWSD算法性能

通過(guò)上面的實(shí)驗(yàn)已經(jīng)知道,正示例比例越大檢測(cè)性能就會(huì)越好。但如果將所有的提議都作為示例,正示例的比例只有大約30%,因此需要采用SWSD算法選擇好的提議,提高包中正示例比例。

有兩種方法用于構(gòu)造訓(xùn)練正包:一種是隨機(jī)法(random),即初始化訓(xùn)練正包為空,然后每次實(shí)驗(yàn)隨機(jī)向包中添加示例,直到所有提議都作為示例加入包中。那么每個(gè)包中示例數(shù)量與提議總數(shù)之比IOP(instances over proposals)就從5%增加至100%。另一種就是SWSD算法中所采用的選擇法(selective),本文使用100個(gè)ground truth和100個(gè)正包中的負(fù)示例來(lái)訓(xùn)練原始檢測(cè)器,然后每次選擇5%的提議加入到相應(yīng)的正訓(xùn)練包中,執(zhí)行此迭代操作20次。

圖11說(shuō)明了選擇法的性能優(yōu)于隨機(jī)法。隨機(jī)法最高的AP為33.75%,而選擇法最高可達(dá)到44.34%。根據(jù)圖12,顯然隨機(jī)法的方差較大,SWSD算法更加穩(wěn)定。當(dāng)使用全部的提議時(shí),SWSD算法的AP為30.79%,優(yōu)于隨機(jī)法的27.03%,因?yàn)镾WSD算法多使用了100個(gè)ground truth作為全監(jiān)督樣本。當(dāng)IOP為5%時(shí),SWSD算法的AP為30.59%,高于只使用100個(gè)正例樣本時(shí)DPM的AP,因?yàn)樘砑恿烁嗟娜醣O(jiān)督信息。當(dāng)IOP逐漸增加到30%,SWSD算法的AP不斷增大,因?yàn)檫x出了更多的正示例。當(dāng)IOP介于25%到65%之間時(shí),AP高于40%。但當(dāng)IOP繼續(xù)增大,可選擇的正示例數(shù)量減小,只能將負(fù)示例加入包中,因此AP下降了。

Fig.11 Comparison among random, selective and DPM methods圖11 隨機(jī)法,選擇法與DPM之間的比較

Fig.12 Variance comparison between random and selective methods圖12 隨機(jī)法與選擇法的方差比較

圖13展示了某張圖片第1~15個(gè)被選擇的提議,可以看出大部分均為正,說(shuō)明了SWSD算法的有效性。雖然本文使用了100個(gè)手工標(biāo)注的ground truth,但這只需要很小的代價(jià)。實(shí)驗(yàn)說(shuō)明只要選擇合適數(shù)量的提議,就可以提高弱監(jiān)督檢測(cè)的性能。

Fig.13 1~15 selected proposals of one image圖13 某張圖片第1~15個(gè)被選擇的提議

表2列出了近兩年在Pascal VOC 2007的人類(lèi)測(cè)試集上多個(gè)弱監(jiān)督檢測(cè)的AP。可以看出,經(jīng)過(guò)對(duì)訓(xùn)練樣本和模型參數(shù)的分析,SWSD算法大幅度提高了性能。之所以本文方法更好,主要是因?yàn)榧尤肓松倭康谋O(jiān)督信息,同時(shí)控制了更多的實(shí)驗(yàn)細(xì)節(jié),發(fā)現(xiàn)了最好的訓(xùn)練方法。最關(guān)鍵的是,盡可能保證了包中正示例比例是個(gè)較大的值。圖14給出了實(shí)驗(yàn)過(guò)程。

Table 2 AP of multiple instance detection in person test set of Pascal VOC 2007表2 Pascal VOC 2007的人類(lèi)測(cè)試集上多示例檢測(cè)的AP

Fig.14 Experimental process圖14 實(shí)驗(yàn)過(guò)程

6 結(jié)束語(yǔ)

經(jīng)過(guò)本文綜合性的評(píng)估實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)結(jié)果和相關(guān)分析,主要得出以下結(jié)論:

(1)當(dāng)正示例比例是一個(gè)相對(duì)較大的值時(shí),多示例學(xué)習(xí)的性能優(yōu)于監(jiān)督學(xué)習(xí),體現(xiàn)了多示例學(xué)習(xí)的巨大潛力。

(2)可以手工標(biāo)注少量的樣本,然后用這些樣本迭代選擇示例。本文提出的SWSD算法用較小的代價(jià)確保了大的正示例比例,并提高了弱監(jiān)督人體檢測(cè)的性能。

(3)在多示例檢測(cè)中,使用Max Pooling融合策略估算包為正的概率比Noisy-or模型更合適。

(4)在LSP數(shù)據(jù)集上,Selective Search算法可以提供類(lèi)似ground truth的提議。

(5)在本文工作中,最好的多示例檢測(cè)模型為MIL_AdaBoost與MIL_LR的集成算法。

[1]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition,San Diego,USA,Jun 20-26,2005.Washington:IEEE Computer Society,2005,1:886-893.

[2]Toshev A,Szegedy C.Deeppose:human pose estimation via deep neural networks[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition,Columbus,USA,Jun 23-28,2014.Washington:IEEE Computer Society,2014:1653-1660.

[3]Yang Y,Ramanan D.Articulated human detection with flexible mixtures of parts[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2878-2890.

[4]Buys K,Cagniart C,Baksheev A,et al.An adaptable system for RGB-D based human body detection and pose estimation[J].Journal of Visual Communication and Image Representation,2014,25(1):39-52.

[5]Oren M,Papageorgiou C,Sinha P,et al.Pedestrian detection using wavelet templates[C]//Proceedings of the 1997 IEEE Conference on Computer Vision and Pattern Recognition, San Juan,Puerto Rico,Jun 17-19,1997.Washington:IEEE Computer Society,1997:193-199.

[6]Ouyang Wanli,Zeng Xingyu,Wang Xiaogang.Learning mutual visibility relationship for pedestrian detection with a deep model[J].International Journal of Computer Vision, 2016,120(1):14-27.

[7]Cinbis R G,Verbeek J,Schmid C.Weakly supervised object localization with multi-fold multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(1):189-203.

[8]Everingham M,Van Gool L,Williams C K,et al.The Pascal visual object classes(VOC)challenge[J].International Journal of Computer Vision,2010,88(2):303-338.

[9]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition,Columbus,USA,Jun 23-28,2014.Washington:IEEE Computer Society,2014: 580-587.

[10]Zhang Yuting,Kihyuk S,Ruben V,et al.Improving object detection with deep convolutional networks via Bayesian optimization and structured prediction[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:249-258.

[11]Pandey M,Lazebnik S.Scene recognition and weakly supervised object localization with deformable part-based models[C]//Proceedings of the 2011 International Conference onComputer Vision,Barcelona,Spain,Nov 6-13,2011.Washington:IEEE Computer Society,2011:1307-1314.

[12]Siva P,Xiang Tao.Weakly supervised object detector learning with model drift detection[C]//Proceedings of the 2011 International Conference on Computer Vision,Barcelona,Spain, Nov 6-13,2011.Washington:IEEE Computer Society,2011: 343-350.

[13]Russakovsky O,Lin Yuanqing,Yu Kai,et al.Object-centric spatial pooling for image classification[C]//Proceedings of the 12th European Conference on Computer Vision,Florence, Italy,Oct 7-13,2012.Berlin,Heidelberg:Springer,2012:1-15.

[14]Song H O,Girshick R,Jegelka S,et al.On learning to localize objects with minimal supervision[J].arXiv:1403.1024,2014.

[15]Song H O,Lee Y J,Jegelka S,et al.Weakly-supervised discovery of visual pattern configurations[C]//Proceedings of the Annual Conference on Neural Information Processing Systems,Montreal,Canada,Dec 8-13,2014:1637-1645.

[16]Bilen H,Pedersoli M,Tuytelaars T.Weakly supervised object detection with posterior regularization[C]//Proceedings of the British Machine Vision Conference,Nottingham,UK, Sep 1-5,2014:1997-2005.

[17]Wang Chong,Ren Weiqiang,Huang Kaiqi,et al.Weakly supervised object localization with latent category learning [C]//LNCS 8694:Proceedings of the 13th European Conference on Computer Vision,Zurich,Switzerland,Sep 6-12,2014. Berlin,Heidelberg:Springer,2014:431-445.

[18]Ray S,Craven M.Supervised versus multiple instance learning:an empirical comparison[C]//Proceedings of the 22nd International Conference on Machine Learning,Bonn, Germany,Aug 7-11,2005.New York:ACM,2005:697-704.

[19]Xu Xin,Frank E.Logistic regression and boosting for labeled bags of instances[C]//LNCS 3056:Proceedings of the 8th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining,Sydney,Australia,May 26-28, 2004.Berlin,Heidelberg:Springer,2004:272-281.

[20]Viola P,Platt J C,Zhang Cha.Multiple instance boosting for object detection[C]//Proceedings of the Annual Conference on Neural Information Processing Systems,Vancouver, Canada,Dec 5-8,2005:1417-1424.

[21]Papageorgiou C,Poggio T.A trainable system for object detection[J].International Journal of Computer Vision,2000, 38(1):15-33.

[22]Viola P,Jones M.robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.

[23]Felzenszwalb P F,Girshick R B,McAllester D.Cascade object detection with deformable part models[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition,San Francisco,USA,Jun 13-18,2010.Washington:IEEE Computer Society,2010:2241-2248.

[24]Van de Sande K E A,Uijlings J R R,Gevers T,et al.Segmentation as selective search for object recognition[C]//Proceedings of the 2011 International Conference on Computer Vision,Barcelona,Spain,Nov 6-13,2011.Washington:IEEE Computer Society,2011:1879-1886.

[25]Uijlings J R R,van de Sande K E A,Gevers T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.

[26]Hosang J,Benenson R,Dollár P,et al.What makes for effective detection proposals?[J].IEEE Transactions of Pattern Analysis and Machine Learning,2016,38(4):814-830.

[27]Arbelaez P,Pont-Tuset J,Barron J,et al.Multiscale combinatorial grouping[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition,Columbus,USA,Jun 23-28,2014.Washington:IEEE Computer Society,2014:328-335.

[28]Alexe B,Deselaers T,Ferrari V.Measuring the objectness of image windows[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2189-2202.

[29]Van den Bergh M,Roig G,Boix X,et al.Online video SEEDS for temporal window objectness[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision,Sydney,Australia,Dec 1-8,2013.Piscataway,USA: IEEE,2013:377-384.

[30]Zhu Qiang,Yeh M C,Cheng K T,et al.Fast human detection using a cascade of histograms of oriented gradients[C]//Proceedings of the 2006 IEEE Conference on Computer Vision and Pattern Recognition,New York,Jun 17-22,2006.Washington:IEEE Computer Society,2006,2:1491-1498.

[31]Ke Yan,Sukthankar R.PCA-SIFT:a more distinctive representation for local image descriptors[C]//Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition,Washington,Jun 27-Jul 2,2004.Washington:IEEE Computer Society,2004:506-513.

[32]Howarth P,Rüger S.Evaluation of texture features for con-tent-based image retrieval[C]//LNCS 3115:Proceedings of the 3rd International Conference on Image and Video Retrieval,Dublin,Ireland,Jul 21-23,2004.Berlin,Heidelberg:Springer,2004:326-334.

[33]Schmidhuber J.Deep learning in neural networks:an overview[J].Neural Networks,2015,61:85-117.

[34]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv:1409.1556, 2014.

[35]Deng Jia,Dong Wei,Socher R,et al.ImageNet:a largescale hierarchical image database[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition,Miami,USA,Jun 20-25,2009.Washington: IEEE Computer Society,2009:248-255.

CAI Yawei was born in 1992.She is an M.S.candidate at College of Computer Science and Technology,Nanjing University ofAeronautics andAstronautics.Her research interests include pattern recognition and machine learning.蔡雅薇(1992—),女,安徽黃山人,南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院碩士研究生,主要研究模式識(shí)別,機(jī)器學(xué)習(xí)。

TAN Xiaoyang was born in 1971.He received the Ph.D.degree from Department of Computer Science and Technology,Nanjing University in 2005.Now he is a professor and Ph.D.supervisor at Nanjing University of Aeronautics and Astronautics,and the member of CCF.His research interests include computer vision,pattern recognition and machine learning.

譚曉陽(yáng)(1971—),男,江蘇淮安人,2005年于南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系獲得博士學(xué)位,現(xiàn)為南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授、博士生導(dǎo)師,CCF會(huì)員,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺(jué),模式識(shí)別,機(jī)器學(xué)習(xí)。主持多項(xiàng)科研課題,在一流國(guó)際期刊和頂級(jí)國(guó)際會(huì)議上發(fā)表論文40余篇。

Weakly Supervised Human Body Detection underArbitrary Poses*

CAI Yawei+,TAN Xiaoyang
College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China
+Corresponding author:E-mail:caiyawei@nuaa.edu.cn

The problem of weakly supervised human body detection under difficult poses(e.g.,multi-view and/or arbitrary poses)is studied.Most current methods on human body detection focuse only on a few common human body poses with human body in upright positions,while in the real world human bodies may exhibit very rich pose variations(e.g.,when people are bending,sleeping or sitting).This not only imposes great challenges on the task of human detection,but also makes the job of manual annotation even more difficult,and usually only weak annotations are available in practice.The multiple instance learning method relaxes the requirements of accurate labeling and hence is commonly used to address the task.However,it is sensitive to the quality of positive instances and the settings of some model parameters such as the strategy to fuse the instance-level conditional probability into a baglevel one.This paper presents a comprehensive and in-depth empirical method of these important but less studied issues on the person dataset of Pascal VOC 2007,and proposes a new selective weakly supervised detection algorithm(SWSD).Experiments demonstrate that with only a few fully supervised samples,the performance of weakly supervised human body detection can be significantly improved under the multiple instance learning framework.

weakly supervision;human body detection;arbitrary poses;multiple instance learning

10.3778/j.issn.1673-9418.1603044

A

TP391

*The National Natural Science Foundation of China under Grant No.61373060(國(guó)家自然科學(xué)基金).

Received 2016-03,Accepted 2016-05.

CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-05-13,http://www.cnki.net/kcms/detail/11.5602.TP.20160513.1434.004.html

CAI Yawei,TAN Xiaoyang.Weakly supervised human body detection under arbitrary poses.Journal of Frontiers of Computer Science and Technology,2017,11(4):587-598.

摘 要:困難姿態(tài)(多視角或者任意姿態(tài))下的弱監(jiān)督人體檢測(cè)問(wèn)題被關(guān)注研究?,F(xiàn)在大部分人體檢測(cè)僅僅關(guān)注普通的直立姿態(tài),但現(xiàn)實(shí)中的人體卻呈現(xiàn)非常豐富的姿態(tài)(如彎曲的、躺著的、坐著的),這不僅加大了人體檢測(cè)的難度,而且令標(biāo)注工作更加困難,實(shí)際中通常只能獲得弱標(biāo)注樣本。多示例學(xué)習(xí)方法放松了精準(zhǔn)標(biāo)注的要求,因此常常被用來(lái)解決此類(lèi)問(wèn)題。但是多示例學(xué)習(xí)對(duì)正示例的質(zhì)量以及一些模型參數(shù)設(shè)置相當(dāng)敏感,例如將示例層次條件概率融合到包層次的策略。在Pascal VOC 2007的人類(lèi)數(shù)據(jù)集上對(duì)這些重要但很少被關(guān)注的問(wèn)題進(jìn)行了綜合性深度研究,并提出了一種新的選擇性弱監(jiān)督檢測(cè)算法(selective weakly supervised detection,SWSD)。實(shí)驗(yàn)證明,只要添加少量的監(jiān)督樣本,在多示例學(xué)習(xí)框架下,可以大幅度提高弱監(jiān)督人體檢測(cè)性能。

猜你喜歡
示例人體樣本
人體“修補(bǔ)匠”
人體冷知識(shí)(一)
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
2019年高考上海卷作文示例
人體可笑堂
“全等三角形”錯(cuò)解示例
奇妙的人體止咳點(diǎn)
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
飛吧,云寶
村企共贏的樣本
通渭县| 惠安县| 嵩明县| 改则县| 吉安市| 宜兰市| 中阳县| 武穴市| 综艺| 灵宝市| 乌什县| 罗源县| 伊吾县| 体育| 杭锦旗| 海城市| 伊春市| 大连市| 河东区| 马边| 综艺| 安宁市| 阳信县| 庄河市| 西吉县| 景洪市| 郧西县| 招远市| 沙湾县| 夏津县| 高清| 阜南县| 旅游| 深泽县| 温州市| 鲁山县| 大关县| 井陉县| 布尔津县| 清徐县| 仙游县|