視頻中旋轉(zhuǎn)與尺度不變的人體分割方法

2017-03-12 03:39薄一航HAOJiang

自動(dòng)化學(xué)報(bào) 2017年10期

薄一航 HAO Jiang

視頻分割問(wèn)題是當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)比較熱門(mén)的話題.與靜態(tài)圖像分割方法不同的是視頻分割不僅要考慮到單視頻幀內(nèi)各個(gè)像素點(diǎn)或超像素塊之間的關(guān)系,還要保證相鄰視頻幀之間對(duì)應(yīng)像素點(diǎn)或超像素塊的連續(xù)性與光滑性.視頻分割的結(jié)果可以為更高一級(jí)的視頻及視頻中目標(biāo)的分析工作提供較好的分析基礎(chǔ).

起初,針對(duì)靜止攝像機(jī)拍攝的視頻,即視頻背景為靜止不變的情況,可以通過(guò)簡(jiǎn)單的去背景的方法得到整個(gè)運(yùn)動(dòng)的前景區(qū)域[1?4].從目前的視頻分割方法來(lái)看,包括基于像素點(diǎn)的分割、基于超像素塊的分割和基于提議(Proposals)的分割等.但是,對(duì)于視頻分割而言,考慮到運(yùn)算量和運(yùn)算速度的問(wèn)題,基于像素點(diǎn)的分割方法很不現(xiàn)實(shí),也很少被采用.當(dāng)前比較流行的視頻分割方法以基于超像素塊的分割和基于提議的分割為主.首先,對(duì)基于超像素塊的分割而言,研究者們?cè)噲D通過(guò)區(qū)域塊跟蹤的方法來(lái)處理[5?8]得到不同的分割區(qū)域.鑒于視頻數(shù)據(jù)本身的特殊性,還有一些視頻分割方法將視頻分割成底層特征隨時(shí)間變化連續(xù)的超像素塊[7?10].然而,超像素塊本身往往不具備完整的語(yǔ)義信息,每個(gè)超像素塊可能是一個(gè)完整的目標(biāo),也可能是構(gòu)成某個(gè)目標(biāo)的一部分,這樣的分割結(jié)果并不利于進(jìn)一步的目標(biāo)分析工作.并且,分割結(jié)果的優(yōu)劣很大程度上還依賴于所選擇的分割閾值,我們通常很難選擇一個(gè)合適的閾值使得每一個(gè)分割區(qū)域都是一個(gè)完整且有意義的目標(biāo)或目標(biāo)的組成部分.另外,對(duì)于比較長(zhǎng)的視頻而言,在整個(gè)視頻分割的過(guò)程中,會(huì)出現(xiàn)前后幀相對(duì)應(yīng)的分割區(qū)域錯(cuò)位的情況.近幾年,還有研究者提出針對(duì)視頻中運(yùn)動(dòng)目標(biāo)的分割方法[11?12],比如文獻(xiàn)[13]中用一種全自動(dòng)的方法,通過(guò)將Grab-Cut方法[14]擴(kuò)展到時(shí)空領(lǐng)域來(lái)得到視頻中目標(biāo)的閉合輪廓.為了得到更有意義的分割結(jié)果[15?16],基于提議(Proposals)的視頻分割方法越來(lái)越受到研究者們的青睞[9,17?20],每一個(gè)提議都極有可能是一個(gè)有意義的目標(biāo)或目標(biāo)的某個(gè)組成部分.其中,文獻(xiàn)[21]通過(guò)SVM(Support vector machine)分類器提取出每個(gè)視頻幀中較優(yōu)的一些提議,再通過(guò)求解一個(gè)全連接的條件隨機(jī)場(chǎng)的最大后驗(yàn)對(duì)前景和背景進(jìn)行分類,得到的前景區(qū)域往往是一個(gè)完整的、有意義的目標(biāo)所在的區(qū)域.文獻(xiàn)[22]利用特征空間優(yōu)化的方法將視頻進(jìn)行語(yǔ)義分割,得到視頻中各個(gè)語(yǔ)義目標(biāo)所在的區(qū)域.文獻(xiàn)[23]借助目標(biāo)檢測(cè)以及目標(biāo)跟蹤的結(jié)果對(duì)視頻中的目標(biāo)進(jìn)行分割.

然而,這些視頻分割方法得到的是整個(gè)前景目標(biāo)所在的區(qū)域[24?25],未能細(xì)化到構(gòu)成目標(biāo)的每一個(gè)組成部分.如果要進(jìn)一步對(duì)運(yùn)動(dòng)目標(biāo)的姿勢(shì)等進(jìn)行識(shí)別與分析,僅僅得到整個(gè)目標(biāo)所在的區(qū)域是遠(yuǎn)遠(yuǎn)不夠的,因此,與上述方法不同,本文所提出的視頻分割方法可以具體到構(gòu)成運(yùn)動(dòng)目標(biāo)的每個(gè)主要部位.

在各類運(yùn)動(dòng)目標(biāo)中,人是最普遍,也是最復(fù)雜的一種.與其他剛性物體不同,由于人姿勢(shì)變化的不確定性和無(wú)規(guī)律性,其旋轉(zhuǎn)、尺度以及外貌的變化都會(huì)給分割過(guò)程帶來(lái)很大的困難.目前,已有不少關(guān)于人身體各部位的跟蹤與檢測(cè)方法,將人的身體分成若干個(gè)運(yùn)動(dòng)部位,如圖1(a)所示,不同的部位由不同灰度的矩形框來(lái)標(biāo)定,而非具體的身體部位所在的區(qū)域.此類方法通常是基于模板的匹配,根據(jù)人姿勢(shì)、尺度的變化,分別與各個(gè)角度和尺度的模板進(jìn)行匹配,從而得到與測(cè)試圖像最為接近的一個(gè)模板作為匹配結(jié)果,稱這種方法為“圖案結(jié)構(gòu)(Pictorial structure)”[26?27].該方法的模型為樹(shù)形結(jié)構(gòu),只考慮到四肢與軀干之間的關(guān)系,而沒(méi)有對(duì)四肢之間的關(guān)系加以約束,往往會(huì)引起某一只胳膊或者某一只腿的漏檢或錯(cuò)檢.另外,該方法雖然已被廣泛地應(yīng)用到人的跟蹤與姿勢(shì)的估計(jì)中,但是,由于人運(yùn)動(dòng)姿勢(shì)變化的隨機(jī)性和不可預(yù)知性,無(wú)法事先知道目標(biāo)尺度和旋轉(zhuǎn)角度的變化范圍,逐一模板匹配的過(guò)程會(huì)很大程度地影響運(yùn)算速度.

針對(duì)以上問(wèn)題,本文提出一種旋轉(zhuǎn)與尺度不變的運(yùn)動(dòng)視頻中人身體部位所在區(qū)域的分割方法,如圖1(b)所示為單幀的分割標(biāo)注結(jié)果.該方法不僅考慮到軀干與四肢之間的關(guān)系,同時(shí)還考慮到四肢之間的相互關(guān)系.其最大的優(yōu)勢(shì)就在于,它不需要考慮不同尺度與旋轉(zhuǎn)角度的模板匹配,而是利用人體各個(gè)部位的相對(duì)面積及比例關(guān)系,構(gòu)建一個(gè)旋轉(zhuǎn)與尺度不變的視頻分割方法.實(shí)驗(yàn)結(jié)果表明,該方法比“圖案結(jié)構(gòu)”方法的魯棒性更強(qiáng),尤其是對(duì)于目標(biāo)旋轉(zhuǎn)和尺度變化較大的視頻,并與現(xiàn)有的“圖案結(jié)構(gòu)”方法進(jìn)行了定性和定量的比較.這樣的分割結(jié)果無(wú)論是在體育賽場(chǎng)、舞蹈演出,還是在視頻監(jiān)控系統(tǒng)中都具有重要的應(yīng)用潛質(zhì).

圖1 “圖案結(jié)構(gòu)”檢測(cè)結(jié)果與本方法分割結(jié)果圖Fig.1 Detection result of“pictorial structure” method and the segmentation result of proposed method

本文最大的貢獻(xiàn)就是提出了一種新的旋轉(zhuǎn)與尺度不變的人身體各部位所在區(qū)域的視頻分割方法.如圖2所示為整個(gè)方法的鳥(niǎo)瞰圖,首先,找到每一幀(Frame 1,Frame 2,···,Framen)中可能的身體部位所在的區(qū)域塊;然后,根據(jù)每幀內(nèi)各個(gè)身體部位間的相對(duì)位置、大小、對(duì)稱性等約束找到每一幀中可能的身體部位組合;最后,利用相鄰幀之間運(yùn)動(dòng)的連續(xù)性、光滑性等約束條件,采用動(dòng)態(tài)規(guī)劃的方法找到每一幀中最優(yōu)的人身體部位的組合.該方法不僅適用于行人視頻,同樣也適用于復(fù)雜的運(yùn)動(dòng)視頻.

圖2 旋轉(zhuǎn)與尺度不變的視頻分割方法鳥(niǎo)瞰圖Fig.2 The bird-view of rotation and scale invariant video segmentation method

1 方法

本文提出的視頻分割方法旨在分割出視頻中人身體各部位所在的區(qū)域.該方法根據(jù)人體各部分組成結(jié)構(gòu)之間空間與時(shí)間的連續(xù)性,對(duì)可能的人體部位組成結(jié)構(gòu)進(jìn)行優(yōu)化選擇.為了使得分割結(jié)果不受目標(biāo)運(yùn)動(dòng)過(guò)程中旋轉(zhuǎn)以及尺度變化的影響,人體部位組成結(jié)構(gòu)的圖模型應(yīng)為一個(gè)環(huán)狀結(jié)構(gòu),也就是說(shuō),不僅要考慮軀干與四肢之間的關(guān)系,還要考慮四肢之間的關(guān)系.如何有效地對(duì)該環(huán)狀結(jié)構(gòu)進(jìn)行優(yōu)化具有一定的挑戰(zhàn)性.本文提出一種生成最優(yōu)的N個(gè)人體部位組合的方法,每一幀中所有人體部位之間形成一個(gè)環(huán)狀的圖結(jié)構(gòu),分別找到每一幀中最佳的N個(gè)人體部位組合,根據(jù)幀與幀之間每個(gè)身體部位以及整個(gè)人運(yùn)動(dòng)的連續(xù)性和光滑性,采用動(dòng)態(tài)規(guī)劃的優(yōu)化方法找到每一幀中最優(yōu)的一組人體部位組合,從而巧妙地解決了該非樹(shù)形結(jié)構(gòu)的優(yōu)化問(wèn)題.

1.1 能量函數(shù)

本方法所采用的人體部位組成結(jié)構(gòu)主要包括5個(gè)身體部位:軀干(Torso)、左右胳膊(Arm1,Arm2)和左右腿(Leg1,Leg2),由于頭的位置可以簡(jiǎn)單地通過(guò)兩只胳膊和軀干的位置檢測(cè)到,考慮到模型的簡(jiǎn)潔性,該方法沒(méi)有包括頭部.每幀內(nèi)各個(gè)身體部位之間的結(jié)構(gòu)關(guān)系以及相鄰幀間相應(yīng)身體部位之間位移、形狀變化的關(guān)系,如圖3所示,圖中每個(gè)節(jié)點(diǎn)表示一個(gè)身體部位,每條邊表示它所連接的兩個(gè)身體部位之間的關(guān)系.其中,虛線邊代表單幀內(nèi)身體各部位之間的關(guān)系,實(shí)線邊代表相鄰幀之間各部位之間的關(guān)系,每個(gè)點(diǎn)線方框代表一個(gè)視頻幀.這里,不僅考慮到軀干–胳膊、軀干–腿、胳膊–胳膊、腿–腿之間的關(guān)系,還考慮到胳膊–腿之間的關(guān)系.并且對(duì)于相鄰的前后幀之間,身體各個(gè)部位以及整個(gè)身體的連續(xù)性和一致性也是必須要考慮的.

圖3 單幀內(nèi)與相鄰幀之間身體部位關(guān)系圖Fig.3 Human body parts relationships in single frame and between adjacent frames

該方法把身體部位所在區(qū)域的視頻分割轉(zhuǎn)化成一個(gè)圖模型的優(yōu)化問(wèn)題,即把每一個(gè)身體部位分配給圖模型中的一個(gè)節(jié)點(diǎn),通過(guò)優(yōu)化過(guò)程使得分配的花費(fèi)最小.這里,可能的身體部位所在的區(qū)域由文獻(xiàn)[28]所提出的方法得到.該方法可得到一系列與目標(biāo)類無(wú)關(guān)的提議(Proposals).這些提議都具有較高的屬于某個(gè)目標(biāo)類的分值,也就是說(shuō),這些通過(guò)合并超像素塊得到的提議很有可能是一個(gè)有意義的目標(biāo).這也是提議比普通超像素塊的優(yōu)勢(shì)所在.另外,通過(guò)分割算法得到的超像素塊很容易將具有相同表觀特征的不同目標(biāo)劃分為同一個(gè)區(qū)域,而提議則可以在很大程度上避免這種錯(cuò)誤的產(chǎn)生.本方法將最有可能屬于身體部位的提議集合起來(lái)構(gòu)成可能的身體部位的組合.

如式(1)所示,同時(shí)考慮到幀內(nèi)與幀間的連續(xù)性與一致性,能量函數(shù)E(f)包括幀內(nèi)能量(Intraframe energy)和幀間能量(Inter-frame energy)兩大部分,其中幀內(nèi)能量主要包括身體部位的形狀匹配花費(fèi)P(fk)、身體部位之間的距離G(fk)、身體部位之間的重疊O(fk)、身體部位之間的面積比例A(fk)等,身體部位的形狀越接近真實(shí)形狀,P(fk)就越小;身體部位之間的距離和重疊區(qū)域越小,G(fk)和O(fk)就越小;身體部位之間的面積比越接近真實(shí)比例,A(fk)就會(huì)越小.而幀間能量主要包括身體部位以及整個(gè)目標(biāo)形狀的連續(xù)性S(fk,fk?1)、位置的連續(xù)性L(fk,fk?1)以及顏色的連續(xù)性H(fk,fk?1),幀與幀之間身體各部位以及整個(gè)目標(biāo)的形狀變化越小、位移越小以及顏色的改變?cè)叫?S(fk,fk?1)、L(fk,fk?1) 和H(fk,fk?1) 就會(huì)越小.系數(shù)α、β、γ、δ、η、φ和θ為控制各分項(xiàng)比重的常量系數(shù).

1.1.1 身體部位形狀匹配花費(fèi)( P)

首先通過(guò)文獻(xiàn)[28]中所提出的方法得到各個(gè)候選區(qū)域塊.每一個(gè)候選區(qū)域塊為一個(gè)可能的身體部位,即一個(gè)提議.每一個(gè)身體部位,比如軀干、胳膊等,均具有一組模板.通過(guò)度量候選區(qū)域與模板之間所對(duì)應(yīng)形狀描述子[29]的歐氏距離來(lái)衡量候選區(qū)域的形狀與真實(shí)身體部位形狀的相似性.區(qū)域的形狀描述子定義為區(qū)域內(nèi)部任意點(diǎn)對(duì)之間的距離直方圖.當(dāng)計(jì)算這個(gè)直方圖時(shí),用區(qū)域內(nèi)所有點(diǎn)對(duì)距離的最大值對(duì)其進(jìn)行歸一化處理.該形狀描述子是旋轉(zhuǎn)與尺度不變的,即不隨區(qū)域旋轉(zhuǎn)和尺度的變化而變化的.具體的身體部位形狀匹配花費(fèi)P定義為

其中,i表示各個(gè)身體部位的索引值,fk(i)為身體部位i的候選區(qū)域,c(i,fk(i))為分配候選區(qū)域fk(i)給身體部位i的花費(fèi).c為區(qū)域fk(i)的形狀描述子與身體部位i的模板之間的最短距離.為了減少候選區(qū)域的個(gè)數(shù),提高運(yùn)算速度,實(shí)驗(yàn)過(guò)程中用RANSAC(Random sample consensus)方法去掉背景部分.即取先前若干幀和未來(lái)若干幀,比較它們的SIFT(Scale-invariant feature transform)特征,由于前景目標(biāo)往往只占每一幀的一小部分區(qū)域,因此,前景目標(biāo)上的SIFT特征點(diǎn)在RANSAC特征匹配中成為野點(diǎn).匹配過(guò)程中,只匹配背景點(diǎn),將當(dāng)前幀與其前后幀相減并求均值,得到一個(gè)估計(jì)的背景,從而可得到大致的前景區(qū)域.當(dāng)然,由于受到光照變化、攝像機(jī)抖動(dòng)等外界條件的影響,視頻的背景并非完全靜止,也就是說(shuō),這種去背景的方法并不能保證去掉所有的背景部分.需要說(shuō)明的是去背景的過(guò)程是可選的,并不會(huì)影響最終的分割結(jié)果.

1.1.2 身體部位間的距離(G)

除了保證每一個(gè)身體部位所在的區(qū)域有正確的形狀之外,還要確保軀干與四肢之間的距離足夠小,也就是說(shuō),所有的軀干和四肢之間是連接的,而不是離散的.設(shè)t為軀干的索引值,j為四肢的索引值.計(jì)算四肢j與軀干之間的最小邊界距離d(fk(j),fk(t)),那么身體部位之間的距離則表示為

其中,L為四肢的集合.

1.1.3 身體部位間的重疊(O)

將身體部位之間的重疊O作為懲罰項(xiàng),使得各個(gè)身體部位之間盡量的展開(kāi),又不會(huì)排斥部位之間的重疊,比如,我們?cè)试S胳膊和軀干之間的重疊,而當(dāng)有展開(kāi)的胳膊和軀干存在時(shí),會(huì)優(yōu)先選擇身體部位展開(kāi)的情況:

其中,Fk(i)為第k幀內(nèi)部位i的估計(jì)區(qū)域,N為身體部位對(duì)的集合,包括胳膊–胳膊,腿–腿,胳膊–軀干,腿–軀干,胳膊–腿等部位對(duì),函數(shù)A給出了區(qū)域的面積.

1.1.4 身體部位間的面積比( AAA)

不同的身體部位,比如胳膊和腿,可能會(huì)具有相似的形狀描述子.因此,僅通過(guò)形狀描述子進(jìn)行約束是不夠的,模型需要更有力的條件來(lái)對(duì)其進(jìn)行約束.進(jìn)一步講,盡管不同的部位可能具有相似的形狀,但不同部位的面積比例往往不同且有一定的規(guī)律,是服從高斯分布的,高斯分布的參數(shù)可由訓(xùn)練樣本得到:

其中,r(fk(i),fk(j))為部位i的候選區(qū)域fk(i)與部位j的候選區(qū)域fk(j)的面積比,μi,j和分別為高斯分布的均值與方差.P為身體部位的集合.

除了幀內(nèi)身體部位的位置比例關(guān)系之外,為了進(jìn)一步保證運(yùn)動(dòng)的光滑性,還需要進(jìn)一步考慮相鄰幀之間目標(biāo)的連續(xù)性.這里由以下特征來(lái)衡量目標(biāo)在時(shí)間上的連續(xù)性.

1.1.5 相鄰幀間形狀連續(xù)性(S)

通常情況下,相鄰幀之間目標(biāo)的形狀變化往往不大,而且不會(huì)發(fā)生快速的變化.這樣一來(lái),目標(biāo)所在區(qū)域輪廓的變化也是光滑的.模型通過(guò)衡量身體部位所在區(qū)域輪廓變化的光滑性來(lái)判斷目標(biāo)形狀的連續(xù)性S.這里,區(qū)域的形狀用其邊界的朝向直方圖[30]來(lái)表示.需要說(shuō)明的是,這里用朝向直方圖而沒(méi)有用內(nèi)部距離的原因是不需要保證幀與幀之間目標(biāo)形狀的旋轉(zhuǎn)和尺度不變性,朝向直方圖更適合此種類型的形狀匹配.

設(shè)sfk(i)為第k幀內(nèi)第i個(gè)身體部位候選區(qū)域fk(i)的形狀描述子,sfk表示第k幀內(nèi)整個(gè)前景目標(biāo)區(qū)域的形狀描述子,即其包括了所有的身體部位.形狀的連續(xù)性特征表示為

注意,邊界朝向直方圖沒(méi)有進(jìn)行歸一化處理,而且它還包含有區(qū)域的大小信息.通過(guò)最小化S,可以保證多個(gè)視頻幀之間所估計(jì)目標(biāo)的形狀和大小的連續(xù)性.

1.1.6 相鄰幀間位置連續(xù)性( LLL)

與形狀的連續(xù)性類似,同樣要求幀與幀之間身體部位的位置不會(huì)發(fā)生突然的變化.相鄰幀之間每個(gè)身體部位的位置變化用該部位所在區(qū)域中心點(diǎn)的位移來(lái)表示.設(shè)lfk(i)為第k幀內(nèi)第i個(gè)身體部位的候選區(qū)域fk(i)的中心位置,那么該部位位置變化則定義為

1.1.7 相鄰幀間顏色連續(xù)性(HHH)

假設(shè)目標(biāo)的外貌在連續(xù)的相鄰幀中不會(huì)發(fā)生突然的變化.顏色的連續(xù)性可以保證身體部位的顏色在連續(xù)幀中的穩(wěn)定性.這里,我們用RGB直方圖來(lái)量化人身體部位的顏色.顏色選項(xiàng)定義為

其中,hfk(i)為第k幀中第i個(gè)身體部位候選區(qū)域的顏色直方圖.

通過(guò)整合這些特征選項(xiàng),可以得到一個(gè)完整的能量函數(shù).能量函數(shù)的最小化可以保證在每一幀內(nèi)得到一組最優(yōu)的身體部位組合.這里所提出的模型是非樹(shù)形的,因此,我們沒(méi)辦法用動(dòng)態(tài)規(guī)劃直接對(duì)能量函數(shù)進(jìn)行優(yōu)化.另外,由于無(wú)法估算候選區(qū)域的個(gè)數(shù),因此無(wú)法直接使用貪婪的搜索算法.下一節(jié)將提出一種巧妙地將非樹(shù)形結(jié)構(gòu)轉(zhuǎn)化為樹(shù)形結(jié)構(gòu)的方法,從而能夠直接用動(dòng)態(tài)規(guī)劃的方法進(jìn)行能量函數(shù)的優(yōu)化.

1.2 優(yōu)化過(guò)程

1.2.1 單幀內(nèi)最優(yōu)N個(gè)身體部位組合優(yōu)化過(guò)程

對(duì)于視頻中的每一幀,都會(huì)產(chǎn)生若干個(gè)可能的身體部位組合,組合的數(shù)量是整個(gè)優(yōu)化過(guò)程中必須要考慮的問(wèn)題,而且每幀中可能組合的數(shù)目也是無(wú)法事先預(yù)知和估算的.如果不對(duì)可能的組合進(jìn)行篩選,優(yōu)化運(yùn)算的時(shí)間復(fù)雜度會(huì)成倍增加.因此,我們需要一種有效地提取每一幀中最優(yōu)的N個(gè)身體部位組合的方法,其中N是動(dòng)態(tài)規(guī)劃算法中所能駕馭的相對(duì)最小值.

本方法最大的創(chuàng)新之處就在于,在處理人體各個(gè)部位的關(guān)系時(shí),不僅同文獻(xiàn)[31]一樣要考慮軀干與四肢之間的關(guān)系,還要考慮到四肢之間的關(guān)系,這就使原本的線性結(jié)構(gòu)變成了非線性結(jié)構(gòu),從而也增加了選取最優(yōu)身體部位組合優(yōu)化過(guò)程的難度.下面來(lái)分析一下身體各個(gè)部位之間的關(guān)系.如果我們把兩個(gè)胳膊看作同一個(gè)節(jié)點(diǎn),兩條腿看作同一個(gè)節(jié)點(diǎn),那么軀干、胳膊和腿之間的關(guān)系就如圖4(a)所示,為一個(gè)環(huán)狀結(jié)構(gòu).對(duì)軀干進(jìn)行復(fù)制并將其分開(kāi),即有兩個(gè)相同但不相連的軀干,那么圖4(a)中的圖模型就轉(zhuǎn)變?yōu)閳D4(b)中所示的鏈狀結(jié)構(gòu),如此一來(lái),便可以直接用動(dòng)態(tài)規(guī)劃來(lái)對(duì)其進(jìn)行優(yōu)化,即如圖4(c)所示,左右兩個(gè)軀干為同一個(gè)軀干,每次固定一個(gè)候選軀干,然后用標(biāo)準(zhǔn)的動(dòng)態(tài)規(guī)劃優(yōu)化算法選出對(duì)于每一個(gè)候選軀干最優(yōu)的胳膊和腿的組合.而對(duì)于所有可能的軀干,把每個(gè)軀干得到的身體部位組合進(jìn)行優(yōu)劣排序,最終保留最優(yōu)的N個(gè)組合.此時(shí),對(duì)于視頻中的每一幀,可以分別得到N個(gè)最優(yōu)的身體部位組合.

圖4 身體部位關(guān)系解析圖Fig.4 The relationship of human body parts

1.2.2 相鄰幀間最優(yōu)身體部位組合優(yōu)化過(guò)程

根據(jù)式(1)中的能量函數(shù)以及圖3中所示的圖模型可以看出,除了要考慮單幀內(nèi)每一對(duì)身體部位之間的相關(guān)性及位置關(guān)系,還要考慮相鄰幀之間對(duì)應(yīng)身體部位之間的連續(xù)性與光滑性.圖3給出了該方法的圖模型,為一個(gè)非樹(shù)形結(jié)構(gòu),我們無(wú)法直接用線性的優(yōu)化方法對(duì)其進(jìn)行優(yōu)化.而在第1.2.1節(jié)中,每一幀已經(jīng)產(chǎn)生出了最優(yōu)的N個(gè)身體部位組合,這里,把每幀中的每一個(gè)身體部位組合作為圖中的一個(gè)節(jié)點(diǎn),即把圖3中的每一個(gè)子圖作為一個(gè)節(jié)點(diǎn),把相鄰幀中的各個(gè)節(jié)點(diǎn)用邊連接起來(lái),這些邊和節(jié)點(diǎn)就會(huì)構(gòu)成一個(gè)網(wǎng)格狀的圖結(jié)構(gòu),每個(gè)節(jié)點(diǎn)的花費(fèi)由幀內(nèi)能量函數(shù)(如式(1)中的Intra-frame energy)決定,每條邊上的花費(fèi)由幀間的能量函數(shù)(如式(1)中的Inter-frame energy)決定.找到一條使得節(jié)點(diǎn)花費(fèi)(幀內(nèi)能量)和邊緣花費(fèi)(幀間能量)均最小的路徑,路徑上所有的節(jié)點(diǎn)即為我們想要找的每一幀中最優(yōu)的身體部位組合.這條最優(yōu)路徑通過(guò)動(dòng)態(tài)規(guī)劃的優(yōu)化方法得到.假設(shè)每一幀中有N個(gè)可能的身體部位組合,視頻共有M幀,那么該優(yōu)化過(guò)程的時(shí)間復(fù)雜度為O(M×N).

2 實(shí)驗(yàn)

實(shí)驗(yàn)中,我們把該方法應(yīng)用到頗具挑戰(zhàn)性的各種運(yùn)動(dòng)視頻序列中,其中包括復(fù)雜的人體姿勢(shì)和各種翻轉(zhuǎn)動(dòng)作.前四個(gè)視頻(Video 1,Video 2,···,Video 4)取自Youtube視頻,最后一個(gè)視頻(Video 5)取自HumanEVA數(shù)據(jù)庫(kù)[32].下面,分別給出定性的和定量的實(shí)驗(yàn)結(jié)果與分析,以及該模型應(yīng)用在行人姿勢(shì)估計(jì)上的結(jié)果.實(shí)驗(yàn)中,能量函數(shù)里控制各分項(xiàng)比重的系數(shù)根據(jù)不同視頻的具體情況分別設(shè)定.下面,對(duì)能量函數(shù)中各個(gè)參數(shù)的設(shè)置做出具體解釋和分析.由于人各種姿勢(shì)的不同特征,在考慮各個(gè)身體部位之間的關(guān)系時(shí)應(yīng)根據(jù)不同動(dòng)作和姿勢(shì)下各個(gè)部位之間的不同關(guān)系和規(guī)律,具體問(wèn)題具體分析.式(1)所示的能量函數(shù)中,Intra-frame energy的各項(xiàng)在整個(gè)能量函數(shù)中所起的作用大小各不相同,比如,在Video 1～Video 4中,運(yùn)動(dòng)目標(biāo)均完成了翻轉(zhuǎn)或者平轉(zhuǎn)等動(dòng)作,此時(shí)胳膊和腿的形狀會(huì)發(fā)生較大的變化,因此,這種情況下形狀匹配花費(fèi)P就會(huì)被設(shè)置較小的比重.而在Video 5中,包含了行人行走的各個(gè)朝向,此時(shí)胳膊與軀干之間總會(huì)處于相互重疊的狀態(tài),那么在這種情況下,身體部位間的重疊項(xiàng)O就會(huì)被設(shè)置較小的比重.而對(duì)于Inter-frame energy中的各項(xiàng),幀與幀之間目標(biāo)形狀、位置以及顏色的連續(xù)性均不會(huì)受到運(yùn)動(dòng)目標(biāo)姿勢(shì)的影響,因此,對(duì)于所有的測(cè)試視頻,這其中各項(xiàng)都會(huì)設(shè)置為相同的比重系數(shù).對(duì)于N的選擇,無(wú)論是在選取單幀中最優(yōu)的N個(gè)身體部位組合時(shí),還是在選擇每一幀中最優(yōu)的那一組身體部位組合,都使用的是動(dòng)態(tài)規(guī)劃的優(yōu)化方法.能量分值最小的未必是最優(yōu)的那一個(gè)組合,因此實(shí)驗(yàn)中會(huì)選擇多個(gè)可能的身體部位及其組合參與優(yōu)化過(guò)程.然而每個(gè)階段的節(jié)點(diǎn)數(shù)目過(guò)大會(huì)影響到優(yōu)化速度,但如果N值選的太小(小于10)運(yùn)算結(jié)果的準(zhǔn)確性又會(huì)受到一定程度的影響.經(jīng)過(guò)反復(fù)實(shí)驗(yàn),我們選擇了一個(gè)既不會(huì)對(duì)運(yùn)算速度有太大影響,又不會(huì)降低運(yùn)算結(jié)果準(zhǔn)確度的N值,這里設(shè)置N為100.

2.1 定性實(shí)驗(yàn)結(jié)果

我們用文獻(xiàn)[28]提出的區(qū)域提取方法得到各個(gè)可能的候選身體部位所在的區(qū)域.用第1.1.1節(jié)中提到的RANSAC方法進(jìn)行去背景處理,由于受到光照、攝像機(jī)抖動(dòng)等因素的影響,視頻的背景并非完全靜止不動(dòng),因此,這個(gè)方法不能去掉所有的背景區(qū)域,而且,目標(biāo)的影子會(huì)隨目標(biāo)的運(yùn)動(dòng)而運(yùn)動(dòng)(本方法中,前景目標(biāo)的影子也被視為背景)也不能被去除,換句話說(shuō),RANSAC方法只能去掉完全靜止不動(dòng)的背景區(qū)域.舉兩個(gè)比較典型的去背景后的例子,如圖5所示,第一個(gè)例子中(圖5中第一行),由于攝像機(jī)的抖動(dòng),發(fā)生抖動(dòng)的背景區(qū)域并不能被去掉,而第二個(gè)例子中(圖5中第二行),人的影子隨人的運(yùn)動(dòng)而運(yùn)動(dòng),也被誤認(rèn)為是前景部分.需要說(shuō)明的是,去背景與否并不會(huì)影響到我們最終的實(shí)驗(yàn)結(jié)果.部分去背景雖然減少了大部分的背景噪音,但是我們?nèi)钥梢缘玫揭粋€(gè)相對(duì)比較干凈的前景區(qū)域,這對(duì)于提高檢測(cè)各個(gè)身體部位的運(yùn)算速度有很大的幫助,但是諸如影子等無(wú)法被去掉的背景噪音對(duì)我們的檢測(cè)也是一個(gè)非常大的挑戰(zhàn).圖6給出了分別在5段視頻上的分割結(jié)果,包括了不同的運(yùn)動(dòng)姿勢(shì),比如,跳、翻轉(zhuǎn)、倒立、平轉(zhuǎn)以及正常行走等.所給出的幀均等間距的采樣于整個(gè)視頻.從分割結(jié)果中可以看出,即使是在比較有挑戰(zhàn)性的、姿勢(shì)變化較大的運(yùn)動(dòng)視頻上,該模型也可以得到不錯(cuò)的分割結(jié)果.

圖5 去背景后效果圖Fig.5 Results after background removed

當(dāng)然,從實(shí)驗(yàn)結(jié)果中我們也可以看出,最終視頻分割結(jié)果的好壞很大程度上還依賴于提議(Proposals)檢測(cè)的準(zhǔn)確與否.比如,圖6中第6行第3列Video 3中的分割結(jié)果,胳膊與軀干被同時(shí)檢測(cè)為軀干,此時(shí)頭部則被誤認(rèn)為是胳膊,同樣,圖6中第8行第3列Video 4中的分割結(jié)果也是如此.這也是接下來(lái)的工作中需要改進(jìn)和增強(qiáng)之處.

我們也與目前較新的類似的視頻分割方法做了定性的對(duì)比與分析.大部分的視頻分割方法[33]基于視頻幀圖像的底層特征將視頻分割成時(shí)間上連續(xù)的立體超像素塊(Supervoxel),沒(méi)有考慮視頻中前景目標(biāo)的語(yǔ)義信息以及上下文關(guān)系,并且,其分割結(jié)果在很大程度上依賴于分割閾值的大小,閾值選的越大,分割結(jié)果越細(xì);相反,分割結(jié)果會(huì)越粗.文獻(xiàn)[34]所提出的基于時(shí)空特性的前景目標(biāo)提議的檢測(cè)方法把2D的目標(biāo)提議檢測(cè)方法擴(kuò)展到具有時(shí)間連續(xù)性的視頻數(shù)據(jù)中,從而得到立體的超像素塊,可以正確地檢測(cè)出視頻中的前景目標(biāo).該方法利用顏色[35]、光流[36]等特征,以及時(shí)間的連續(xù)性,光流梯度和邊緣在相鄰幀間的位移等信息對(duì)視頻進(jìn)行分層分割,如圖7中第2行至第6行所示,為不同分割閾值下的分割結(jié)果,從上到下分割閾值依次增大.對(duì)這些在不同閾值下得到的分割結(jié)果進(jìn)行合并聚類,進(jìn)而得到較為理想的目標(biāo)所在的區(qū)域,如圖7中第7行所示(圖7中所示為去背景后的結(jié)果).由于測(cè)試視頻背景為靜止?fàn)顟B(tài),因此,分割和檢測(cè)結(jié)果不受是否進(jìn)行去背景操作的影響.然而,該方法并未考慮前景目標(biāo)本身各個(gè)組成部分的結(jié)構(gòu)和比例關(guān)系,如圖7中第7行的結(jié)果所示,無(wú)法解決影子對(duì)前景目標(biāo)檢測(cè)分割結(jié)果的影響,圖7第8行為本文的分割結(jié)果.另外,該方法并沒(méi)有對(duì)目標(biāo)的各個(gè)組成部分所在的區(qū)域進(jìn)行語(yǔ)義標(biāo)注,因此,實(shí)驗(yàn)中并未與本文的方法進(jìn)行定量的比較.

圖6 本方法在5段測(cè)試視頻上的部分分割結(jié)果Fig.6 Sample results of proposed methods on fi ve test videos

2.2 定量實(shí)驗(yàn)結(jié)果

該實(shí)驗(yàn)把本文所提出的方法與文獻(xiàn)[31]中提出的nbest的方法進(jìn)行定量的比較分析,即分別把該方法得到的分割結(jié)果和nbest方法得到的結(jié)果與Ground truth(GT),也就是手工標(biāo)注的真實(shí)的身體部位所在的區(qū)域相比較.

nbest[31]方法利用構(gòu)成人體各個(gè)部位之間的“圖案結(jié)構(gòu)”對(duì)于人體的各個(gè)組成部分進(jìn)行檢測(cè),該結(jié)構(gòu)最大的問(wèn)題就是只考慮到了軀干與四肢之間的位置關(guān)系,而忽略了四肢之間的關(guān)系,因此,對(duì)于直立狀態(tài)的人體而言,該方法可以得到較好的檢測(cè)結(jié)果,而對(duì)于發(fā)生旋轉(zhuǎn)的、非直立狀態(tài)的人體而言,該方法很難奏效.如圖8所示,為nbest方法對(duì)非直立姿勢(shì)的人體的檢測(cè)結(jié)果,圖中第1列為原始視頻幀,第2列為nbest方法的檢測(cè)結(jié)果,不同顏色的矩形框表示不同的身體部位,第3列為本文所提出的方法的檢測(cè)結(jié)果.

為了公平起見(jiàn),實(shí)驗(yàn)中同樣對(duì)nbest方法的輸入數(shù)據(jù)也進(jìn)行去背景操作.另外,我們的方法得到的是分割的區(qū)域,而nbest方法得到的是每個(gè)身體部位區(qū)域所在的矩形綁定框,因此,我們按照一定的合適的比例擴(kuò)張nbest方法得到的矩形區(qū)域的中軸線,使矩形區(qū)域腐蝕為一定比例的圓柱形區(qū)域,讓這個(gè)圓柱形區(qū)域無(wú)限地接近身體部位所在的分割區(qū)域.由于nbest方法[31]不是尺度和旋轉(zhuǎn)不變的,它對(duì)于翻轉(zhuǎn)幅度比較大的情況得到的實(shí)驗(yàn)結(jié)果會(huì)很差.而本文提出的方法恰恰克服了這一點(diǎn),不論目標(biāo)發(fā)生如何旋轉(zhuǎn)和尺度的變化,均可以得到可靠的分割結(jié)果.

圖7 文獻(xiàn)[31]的方法與本方法測(cè)試結(jié)果對(duì)比示例Fig.7 Example results of the method in[31]and proposed method

圖8 nbest方法檢測(cè)結(jié)果與本方法結(jié)果示例Fig.8 Example results of nbest method and proposed method

對(duì)于每一個(gè)身體部位所在的區(qū)域,這里定義了一個(gè)匹配分值,A(P∩G)A(P∪G),其中,P是分割得到的身體部位所在的區(qū)域,G為對(duì)應(yīng)的真實(shí)身體部位所在的區(qū)域,A為區(qū)域的面積函數(shù).表1中給出了本方法與文獻(xiàn)[31]所提出的nbest方法對(duì)相同視頻檢測(cè)結(jié)果的比較分值.無(wú)論哪種運(yùn)動(dòng)情況,該方法的結(jié)果均比nbest方法要改進(jìn)和提升很多.對(duì)于整體的平均檢測(cè)和分割結(jié)果,我們的方法依舊要優(yōu)于所比較的方法.

表1 該方法和nbest方法分別與GT的比較結(jié)果Table 1 Comparison of proposed method and GT,nbest method and GT

圖9給出了本文提出的方法與nbest方法實(shí)驗(yàn)結(jié)果的正確率曲線,其中包括單個(gè)身體部位以及整個(gè)人體的正確率.每條檢測(cè)曲線都給出了所檢測(cè)到的高于某一閾值的正確的身體部位占整個(gè)檢測(cè)結(jié)果的比例.比該閾值高的均認(rèn)為是正確的檢測(cè)結(jié)果.并且,當(dāng)閾值為1時(shí),檢測(cè)結(jié)果的正確率為0,而閾值為0時(shí),檢測(cè)結(jié)果正確率為1.從圖9的正確率曲線不難看出,該方法得到結(jié)果的正確率明顯高于nbest方法.

2.3 行人姿勢(shì)估計(jì)的應(yīng)用

由于該方法分割結(jié)果的特殊性,以及行人正常行走姿勢(shì)的規(guī)律性,可將其應(yīng)用到行人的姿勢(shì)估計(jì)上.分割結(jié)果可分為上身和下身兩部分,軀干與胳膊屬于上身,腿屬于下身.根據(jù)直立行走的行人身體各個(gè)部位的比例位置關(guān)系,可以找到行人身體上可能的各個(gè)關(guān)節(jié)點(diǎn),比如,肩膀、肘部、手腕、臀部、膝蓋和腳踝等.然后,用擴(kuò)展動(dòng)態(tài)規(guī)劃(Extended dynamic programming)的方法求得各個(gè)最優(yōu)的關(guān)節(jié)點(diǎn),從而得到行人的姿勢(shì).

這里,每一對(duì)相鄰的關(guān)節(jié)點(diǎn)被看作是動(dòng)態(tài)規(guī)劃中的一個(gè)狀態(tài).所用到的各種約束條件包括兩相鄰關(guān)節(jié)點(diǎn)之間距離與行人高度比、兩相鄰狀態(tài)之間的內(nèi)夾角,以及兩相鄰狀態(tài)連線與對(duì)應(yīng)身體部位所在區(qū)域輪廓之間的平行性.另外,還需要考慮當(dāng)前狀態(tài)與先前狀態(tài)的連續(xù)性和上身關(guān)節(jié)點(diǎn)與下身關(guān)節(jié)點(diǎn)的對(duì)齊,進(jìn)而估計(jì)出不同朝向行人的關(guān)節(jié)點(diǎn),用大小不同的原點(diǎn)表示關(guān)節(jié)點(diǎn),關(guān)節(jié)點(diǎn)越大表示其離攝像頭距離越近;反之越遠(yuǎn).圖10給出了在本方法分割結(jié)果的基礎(chǔ)上,4個(gè)不同朝向的行人姿勢(shì)估計(jì)結(jié)果,圖中第1行到第4行分別為正面、背面、左面和右面4個(gè)朝向.

圖9 該方法與nbest方法實(shí)驗(yàn)結(jié)果的正確率曲線圖Fig.9 Detection rate comparisons of nbest and proposed method

圖10 行人姿勢(shì)估計(jì)結(jié)果Fig.10 Pedestrian pose estimation results

3 總結(jié)與展望

本文提出了一種新的人身體部位所在區(qū)域的視頻分割方法.該方法不需要任何初始化,對(duì)于各種旋轉(zhuǎn)與尺度的變化都具有較好的魯棒性.實(shí)驗(yàn)中分別對(duì)該方法進(jìn)行了定性和定量的分析比較,實(shí)驗(yàn)結(jié)果表明,與類似的方法相比,該方法不僅適用于直立行走的行人,對(duì)各種姿勢(shì)的人也可以得到較好的實(shí)驗(yàn)結(jié)果.另外,還試將行人視頻的分割結(jié)果應(yīng)用到行人行走姿勢(shì)的估計(jì)中,為進(jìn)一步行人異常行為的分析奠定了良好的基礎(chǔ).當(dāng)然,針對(duì)實(shí)驗(yàn)中出現(xiàn)的不足,比如如何提高提議(Proposals)的準(zhǔn)確率等問(wèn)題,也是接下來(lái)的工作中需要解決的.另外,在接下來(lái)的工作中,會(huì)在該工作的基礎(chǔ)上繼續(xù)進(jìn)行體育、舞蹈等運(yùn)動(dòng)視頻中目標(biāo)姿勢(shì)的估計(jì)與分析,以及其在智能視頻監(jiān)控與人機(jī)交互領(lǐng)域的應(yīng)用.

1 Criminisi A,Cross G,Blake A,Kolmogorov V.Bilayer segmentation of live video.In:Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2006.53?60

2 Cheung S C S,Kamath C.Robust techniques for background subtraction in urban traffic video.In:Proceedings of SPIE 5308,Visual Communications and Image Processing.San Jose,USA:SPIE,2004,5308:881?892

3 Hayman E,Eklundh J.Statistical background subtraction for a mobile observer.In:Proceedings of the 9th IEEE International Conference on Computer Vision.Nice,France:IEEE,2003.67?74

4 Ren Y,Chua C S,Ho Y K.Statistical background modeling for non-stationary camera.Pattern Recognition Letters,2003,24(1?3):183?196

5 GiordanoD,MurabitoF,PalazzoS,SpampinatoC.Superpixel-based video object segmentation using perceptual organization and location prior.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.4814?4822

6 Brendel W,Todorovic S.Video object segmentation by tracking regions.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto,Japan:IEEE,2009.833?840

7 Li F X,Kim T,Humayun A,Tsai D,Rehg J M.Video segmentation by tracking many fi gure-ground segments.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.2192?2199

8 Varas D,Marques F.Region-based particle fi lter for video object segmentation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.3470?3477

9 Arbel′aez P A,Pont-Tuset J,Barron J T,Marques F,Malik J.Multiscale combinatorial grouping.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.328?335

10 Tsai Y H,Yang M H,Black M J.Video segmentation via object fl ow.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,USA:IEEE,2016.

11 Ramakanth S A,Babu R V.Seamseg:video object segmentation using patch seams.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.376?383

12 Faktor A,Irani M.Video segmentation by non-local consensus voting.In:Proceedings British Machine Vision Conference 2014.Nottingham:BMVA Press,2014.

13 Papazoglou A,Ferrari V.Fast object segmentation in unconstrained video.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.1777?1784

14 Rother C,Kolmogorov V,Blake A. “Grabcut”:interactive foreground extraction using iterated graph cuts.Acm Transactions on Graphics,2004,23(3):309?314

15 Girshick R,Donahue J,Darrell T,Malik J.Rich feature hierarchies for accurate object detection and semantic segmentation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.580?587

16 Lin T Y,Maire M,Belongie S,Hays J,Perona P,Ramanan D,Doll′ar P,Zitnick C L.Microsoft COCO:common objects in context.In:Proceedings of the 13th European Conference.Zurich,Switzerland:Springer International Publishing,2014.740?755

17 Endres I,Hoiem D.Category-independent object proposals with diverse ranking.IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(2):222?234

18 Kr¨ahenb¨uhl P,Koltun V.Geodesic object proposals.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer International Publishing,2014.725?739

19 Zhang D,Javed O,Shah M.Video object segmentation through spatially accurate and temporally dense extraction of primary object regions.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,Oregon,USA:IEEE,2013.628?635

20 Fragkiadaki K,Arbelaez P,Felsen P,Malik J.Learning to segment moving objects in videos.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA:IEEE,2015.4083?4090

21 Perazzi F,Wang O,Gross M,Sorkine-Hornung A.Fully connected object proposals for video segmentation.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.3227?3234

22 Kundu A,Vineet V,Koltun V.Feature space optimization for semantic video segmentation.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,Nevada,USA:IEEE,2016.

23 Seguin G,Bojanowski P,Lajugie R,Laptev I.Instance-level video segmentation from object tracks.In:Proceeding of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,Nevada,USA:IEEE,2016.

24 Lee Y J,Kim J,Grauman J.Key-Segments for video object segmentation.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona,Spanish:IEEE,2011.1995?2002

25 Tsai D,Flagg M,Rehg J.Motion coherent tracking with multi-label MRF optimization.In: Proceedings of the British Machine Vision Conference 2010.Aberystwyth:BMVA Press,2010.190?202

26 Ramanan D,Forsyth D A,Zisserman A.Tracking people by learning their appearance.IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(1):65?81

27 Yang Y,Ramanan D.Articulated pose estimation with fl exible mixtures-of-parts.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,USA:IEEE,2011.1385?1392

28 Endres I,Hoiem D.Category independent object proposals.In:Proceedings of the 11th European Conference on Computer Vision.Heraklion,Crete,Greece:Springer,2010.575?588

29 Ling H B,Jacobs D W.Shape classi fi cation using the innerdistance.IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(2):286?299

30 Dalal N,Triggs B.Histograms of oriented gradients for human detection.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA:IEEE,2005.886?893

31 Park D,Ramanan D.N-best maximal decoders for part models.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona,Spain:IEEE,2011.2627?2634

32 Sigal L,Black M J.HumanEva:Synchronized Video and Motion Capture Dataset for Evaluation of Articulated Human Motion.Techniacl Report CS-06-08.Brown University,USA,2006

33 Grundmann M,Kwatra V,Han M,Essa I.Efficient hierarchical graph based video segmentation.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,USA:IEEE,2010.2141?2148

34 Oneata D,Revaud J,Verbeek J,Schmid C.Spatio-temporal object detection proposals.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer International Publishing,2014.737?752

35 Pele O,Werman M.Fast and robust earth mover's distance.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto,Japan:IEEE,2009.460?467

36 Brox T,Malik J.Large displacement optical fl ow:descriptor matching in variational motion estimation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(3):500?513

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡