韓貴金, 周 有
(西安郵電大學(xué) 自動(dòng)化學(xué)院, 陜西 西安 710121)
基于R-SVM算法的部位外觀模型
韓貴金, 周 有
(西安郵電大學(xué) 自動(dòng)化學(xué)院, 陜西 西安 710121)
為了提高人體姿態(tài)估計(jì)的準(zhǔn)確度,利用梯度方向直方圖特征建立一種基于遞歸支持向量機(jī)算法的部位外觀模型。利用R-SVM算法剔除訓(xùn)練圖像標(biāo)注的部位區(qū)域中對(duì)識(shí)別部位作用較小的部分區(qū)域,利用剩余的圖像區(qū)域構(gòu)造的SVM分類器即為部位外觀模型,外觀模型的最佳細(xì)胞單元尺寸利用訓(xùn)練圖像中標(biāo)注的部位區(qū)域與部位外觀模型的相似度的極大化來估計(jì)。仿真實(shí)驗(yàn)結(jié)果表明該模型能更準(zhǔn)確地描述真實(shí)人體部位的外觀特征,用于人體姿態(tài)估計(jì)時(shí)可以得到準(zhǔn)確度更高的人體姿態(tài)估計(jì)結(jié)果。
人體姿態(tài)估計(jì);部位外觀模型;梯度方向直方圖;遞歸支持向量機(jī)
人是社會(huì)活動(dòng)的主體,在視頻監(jiān)控、人機(jī)交互和虛擬現(xiàn)實(shí)等諸多領(lǐng)域中經(jīng)常需要對(duì)人體的動(dòng)作和行為進(jìn)行識(shí)別與分析。人體由頭部、軀干和四肢等多個(gè)部位組成,如果能確定人體各個(gè)部位的尺寸和位置等定位信息,通過對(duì)部位定位信息的分析即可實(shí)現(xiàn)人體動(dòng)作和行為的識(shí)別與分析。
通過對(duì)圖像特征進(jìn)行分析以確定人體各部位的尺寸和位置等定位信息的過程即為人體姿態(tài)估計(jì)[1]。由于人體姿態(tài)估計(jì)可以為人體動(dòng)作和行為的識(shí)別與分析打下基礎(chǔ),而人體動(dòng)作和行為的識(shí)別與分析在計(jì)算機(jī)視覺研究領(lǐng)域非常熱門,所以人體姿態(tài)估計(jì)也獲得了很多研究者的關(guān)注,迄今為止,已經(jīng)提出了多種人體姿態(tài)估計(jì)算法[2]?,F(xiàn)有人體姿態(tài)估計(jì)算法主要分為基于整體的姿態(tài)估計(jì)方法和基于模型的姿態(tài)估計(jì)方法兩大類[3]。其中基于模型的姿態(tài)估計(jì)方法由于可以遍歷人體所有可能存在的姿態(tài)[3],得到了人體姿態(tài)估計(jì)領(lǐng)域研究者更多的關(guān)注?;谀P偷淖藨B(tài)估計(jì)方法包含人體模型、部位外觀模型、部位搜索空間和推理算法等4個(gè)方面。
基于模型的人體姿態(tài)估計(jì)需要計(jì)算各個(gè)部位定位狀態(tài)對(duì)應(yīng)外觀特征與真實(shí)人體部位外觀特征的相似程度,從而需要利用圖像特征對(duì)真實(shí)人體部位外觀特征進(jìn)行描述,即為部位外觀模型。部位外觀模型建立的準(zhǔn)確與否對(duì)人體姿態(tài)估計(jì)的準(zhǔn)確度影響很大,是人體姿態(tài)估計(jì)領(lǐng)域受到研究者最多關(guān)注的研究方向,已經(jīng)提出了多種部位外觀模型[2]。
建立部位外觀模型時(shí)采用的圖像特征主要有邊緣、梯度方向直方圖(Histograms of Oriented Gradients, HOG)、顏色和形狀等,其中HOG特征由于對(duì)不同圖像中的光照變化和目標(biāo)局部變形具有良好的不變性[4-5],已經(jīng)成為建立部位外觀模型時(shí)應(yīng)用最廣泛的圖像特征[6-10]。雖然HOG特征在建立部位外觀模型時(shí)取得了廣泛的應(yīng)用,而且取得了良好的效果。但在具體應(yīng)用方式上仍然存在著以下兩個(gè)缺陷:(1)對(duì)相對(duì)大小不同的人體部位建立外觀模型時(shí)采用相同的細(xì)胞單元尺寸,但實(shí)際上大小不同部位的HOG特征需要采用大小不同的細(xì)胞單元尺寸才能進(jìn)行有效地描述;(2)利用訓(xùn)練圖像標(biāo)注的部位區(qū)域?qū)?yīng)HOG特征的所有HOG塊來建立部位外觀模型。但實(shí)際上在訓(xùn)練圖像標(biāo)注的部位區(qū)域中真實(shí)人體部位并沒有占據(jù)全部區(qū)域,未占據(jù)的部分對(duì)識(shí)別人體部位不起作用,所以它們也并不適合用于建立部位外觀模型。
支持向量機(jī)[11-12](Support Vector Machine, SVM)是一種常用的分類算法,較為有效地解決了模式分類中廣泛存在的小樣本、非線性和高維數(shù)等問題。遞歸支持向量機(jī)算法(R-SVM)[13]是一種同時(shí)實(shí)現(xiàn)特征選擇和SVM分類器構(gòu)造的算法,特征選擇的標(biāo)準(zhǔn)是特征對(duì)分類器的相對(duì)貢獻(xiàn)。
針對(duì)上述兩個(gè)缺陷,建立一種基于遞歸支持向量機(jī)(Recursive Support Vector Machine, R-SVM)算法的部位外觀模型。利用R-SVM算法剔除部分在識(shí)別人體部位時(shí)不起作用或作用很小的HOG塊并利用剩余的HOG塊構(gòu)造線性SVM分類器作為部位外觀模型,并利用極大似然算法來估計(jì)在對(duì)不同部位建立部位外觀模型時(shí)所需采用的最佳細(xì)胞單元尺寸。
由于體型的不同,不同人體同一部位的尺寸大小并不相同,但各個(gè)部位在不同人體中往往具有相對(duì)固定的比例關(guān)系,例如軀干的寬度是小臂寬度的幾倍,上臂的寬度比小臂的寬度稍大等。
HOG特征利用細(xì)胞單元內(nèi)像素點(diǎn)梯度的方向密度分布來描述圖像局部的形狀[4]。圖1和圖2給出了采用不同細(xì)胞單元尺寸計(jì)算得到的某幅訓(xùn)練圖像中標(biāo)注的人體軀干和小臂區(qū)域的HOG特征示意圖。部位的HOG特征是由多個(gè)HOG塊特征向量組合而得,而HOG塊特征向量是通過對(duì)若干個(gè)相鄰細(xì)胞單元的梯度方向直方圖歸一化而得到的,細(xì)胞單元即為如圖1(b)和圖2(b)所示的圖像小區(qū)域。部位的HOG特征中HOG塊的多少由細(xì)胞單元尺寸所決定,細(xì)胞單元尺寸越大,HOG塊越少,HOG特征越偏重于描述整體輪廓;細(xì)胞單元尺寸越小,HOG塊越多,HOG特征越偏重于描述局部細(xì)節(jié)。
(a)軀干(b)細(xì)胞單元 (c)4×4 (d)8×8(e)12×12 (f)20×20
圖1 軀干HOG特征示意圖
不同人體的同一部位具有類似的邊緣輪廓,但由于人體著裝的不同,部位邊緣特征的細(xì)節(jié)可能有較大的區(qū)別。HOG特征是對(duì)圖像邊緣特征的一種改進(jìn),不同人體的同一部位的HOG特征同樣具有類似的整體輪廓和區(qū)別較大的局部細(xì)節(jié)。所以為了有效識(shí)別人體部位,在利用HOG特征建立部位外觀模型時(shí),需要在有效描述整體輪廓的同時(shí)抑制局部細(xì)節(jié),但由于人體不同部位尺寸大小的不同,對(duì)不同部位建立部位外觀模型時(shí)需要采用不同的細(xì)胞單元尺寸。
圖1中軀干部位的大小為123×102像素,圖2中小臂的大小為54×30像素。從圖1(c)~圖1(f)和圖2(c)~圖2(f)可以看出,隨著細(xì)胞單元尺寸的增加,HOG特征越來越偏重于描述部位整體輪廓,但當(dāng)增加到20×20時(shí)已經(jīng)無法獲取軀干的整體輪廓,小臂的HOG特征已經(jīng)無法計(jì)算了。對(duì)于軀干部位,當(dāng)細(xì)胞單元尺寸為12×12時(shí)計(jì)算得到的HOG特征可以較好地實(shí)現(xiàn)在描述整體輪廓的同時(shí)抑制局部細(xì)節(jié)。而對(duì)于小臂,當(dāng)細(xì)胞單元尺寸為8×8時(shí)計(jì)算得到的HOG特征才能較好地實(shí)現(xiàn)在描述整體輪廓的同時(shí)抑制局部細(xì)節(jié)。
(a)軀干(b)細(xì)胞單元 (c)4×4 (d)8×8(e)12×12 (f)20×20
圖2 小臂HOG特征示意圖
此外如圖1(b)和圖2(b)所示,訓(xùn)練圖像中標(biāo)注的部位區(qū)域在計(jì)算HOG特征時(shí)被分成了多個(gè)小區(qū)域,每個(gè)小區(qū)域即為一個(gè)細(xì)胞單元。但實(shí)際上人體部位并沒有占據(jù)全部細(xì)胞單元,在對(duì)圖像中人體部位進(jìn)行識(shí)別時(shí),那些沒有占據(jù)的細(xì)胞單元及其所對(duì)應(yīng)的HOG塊并不起作用,甚至還會(huì)起反作用,所以在建立部位外觀模型應(yīng)該將這些HOG塊剔除掉。
對(duì)于那些在識(shí)別人體部位時(shí)不起作用或作用很小的HOG塊,本文利用R-SVM算法來剔除,并將R-SVM算法最終構(gòu)造的線性SVM分類器作為部位外觀模型。利用訓(xùn)練圖像標(biāo)注的部位區(qū)域的HOG特征與部位外觀模型的相似度均值的極大化來估計(jì)不同部位的最佳細(xì)胞單元尺寸。
基于R-SVM算法的部位外觀模型的建立可分為4個(gè)步驟,圖3以軀干為例給出了建立過程的示意圖。
步驟1 剪切訓(xùn)練圖像中標(biāo)注的部位區(qū)域得到部位圖像塊,并在訓(xùn)練圖像中除標(biāo)注的部位區(qū)域之外的任意區(qū)域剪切相同大小的非部位圖像塊。將從所有訓(xùn)練圖像剪切得到的圖像塊都調(diào)整為標(biāo)準(zhǔn)大小,如圖3(a)和圖3(b)所示。
步驟2 求解所有圖像塊的HOG特征并構(gòu)成樣本集,其中部位圖像塊的HOG特征為一類,如圖3(c)所示;非部位圖像塊的HOG特征為另外一類,如圖3(d)所示。
步驟3 利用R-SVM算法對(duì)樣本集進(jìn)行特征選擇并構(gòu)造線性SVM分類器,該分類器即為部位外觀模型,如圖3(e)所示。
R-SVM算法可分為4個(gè)步驟[13]。
(1) 利用樣本所有特征訓(xùn)練構(gòu)造線性SVM分類器。
f(x)=wx+b
(1)
其中w為線性SVM分類器的權(quán)向量,b為閾值。
(2) 計(jì)算每個(gè)特征對(duì)線性SVM分類器的相對(duì)貢獻(xiàn),然后按照大小進(jìn)行排序。
樣本特征對(duì)線性SVM分類器的相對(duì)貢獻(xiàn)為
(2)
(3) 按照遞歸策略選擇特征,并利用選擇的樣本特征重新訓(xùn)練構(gòu)造線性SVM分類器。常用的遞歸策略主要有兩種:每次選擇一定比例的特征,或者規(guī)定一個(gè)逐級(jí)減小的特征數(shù)目序列。
(4) 重復(fù)(2)和(3),直到特征數(shù)目達(dá)到規(guī)定數(shù)目為止。
步驟4 利用所有部位圖像塊的HOG特征與部位外觀模型的相似度均值的極大化來估計(jì)部位的最佳細(xì)胞單元尺寸
(a) 部位圖像塊
(b) 非部位圖像塊
(c) 部位圖像塊HOG特征
(d) 非部位圖像塊HOG特征
(e) 部位外觀模型
選擇與文獻(xiàn)[6-7,14]相同的訓(xùn)練圖像集和測(cè)試圖像集。計(jì)算圖像梯度時(shí)采用[-1, 0, 1]模板和無符號(hào)的梯度方向[4],梯度方向分為9個(gè)區(qū)間,HOG塊采用矩形塊形式[4],每個(gè)HOG塊包含4個(gè)細(xì)胞單元,HOG塊的掃描步長(zhǎng)與最佳細(xì)胞單元尺寸相同。
采用測(cè)試圖像標(biāo)注的部位區(qū)域與部位外觀模型的相似度來衡量所建立的部位外觀模型的有效性,相似度近似滿足正態(tài)分布,均值和標(biāo)準(zhǔn)差利用極大似然估計(jì)法來估計(jì),均值表征部位外觀模型的有效性,標(biāo)準(zhǔn)差表征魯棒性。
表1給出了所有測(cè)試圖像標(biāo)注的各個(gè)部位區(qū)域與兩種部位外觀模型的相似度的比較結(jié)果,表中括號(hào)內(nèi)外的數(shù)據(jù)分別為正態(tài)分布的均值和標(biāo)準(zhǔn)差。“SVM”表示傳統(tǒng)的利用線性SVM分類器所建立的部位外觀模型,“R-SVM”表示基于R-SVM算法的部位外觀模型。
表1 相似度比較
從表1可以看出,測(cè)試圖像標(biāo)注的各個(gè)部位區(qū)域與“R-SVM”的相似度均值要比與“SVM”的相似度均值更大,標(biāo)準(zhǔn)差相同或更小,這說明“R-SVM”的有效性更高,魯棒性也更好,能更準(zhǔn)確地描述真實(shí)人體部位的外觀特征。
將基于R-SVM算法的部位外觀模型用于基于樹形圖結(jié)構(gòu)模型[15]的人體姿態(tài)估計(jì)。圖4給出了對(duì)幾幅測(cè)試圖像的人體姿態(tài)估計(jì)結(jié)果,表2給出了利用“R-SVM”與幾種同樣采用樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì)算法對(duì)人體各個(gè)部位的估計(jì)準(zhǔn)確度的比較結(jié)果。
圖4 人體姿態(tài)估計(jì)示例
表2 人體姿態(tài)估計(jì)準(zhǔn)確度比較
從表2可以看出,與文獻(xiàn)[6,14]相比,將基于R-SVM算法的部位外觀模型用于采用樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì),人體各個(gè)部位均可以得到更高的準(zhǔn)確度;與文獻(xiàn)[7]相比,軀干、頭部和小臂的估計(jì)準(zhǔn)確度都更高,而上臂的估計(jì)準(zhǔn)確度較低,這是因?yàn)槲墨I(xiàn)[7]利用了HOG、顏色和形狀三種圖像特征。
建立了一種基于R-SVM算法的部位外觀模型,利用R-SVM算法剔除部分HOG塊,將利用剩余的HOG塊構(gòu)造的線性SVM分類器作為部位外觀模型,部位外觀模型的最佳細(xì)胞單元尺寸利用極大似然算法來估計(jì)。仿真實(shí)驗(yàn)表明所建立的部位外觀模型更加有效,用于人體姿態(tài)估計(jì)可以得到更高的估計(jì)準(zhǔn)確度。如何將HOG特征與其他圖像特征結(jié)合起來建立部位外觀模型是今后的主要研究工作。
[1] Felzenszwalb P F, Huttenlocher D P. Pictorial structures for object recognition[J]. International Journal of Computer Vision, 2005, 61(1):55-79.
[2] Thomas B, Adrian H M, Volker K, et al. Visual Analysis of Humans[M]. Berlin: Springer, 2010:199-223.
[3] Samuel A J. Articulated Human Pose Estimation in Natural Images[D]. Leeds :University of Leeds,2012:11-18.
[4] Navncct D, Bill T. Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2005:886-893.
[5] Srinivasan P, Shi J B. Bottom-up recognition and parsing of the human body[C]//Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2007:1-8.
[6] Andriluka M, Stefan R, Bernt S. Pictorial Structures Revisited: People Detection and Articulated Pose Estimation [C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2009: 1014-1021.
[7] Sapp B, Toshev A, Taskar B. Cascaded Models for Articulated Pose Estimation[C]//Proceedings of the 11th European Conference on Computer Vision. Berlin: Springer, 2010:406-420.
[8] Wang Y, Tran D, Liao Z C. Learning Hierarchical Poselets for Human Parsing[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2011:1705-1712.
[9] Sapp B, Taskar B. MODEC: Multimodal Decomposable Models for Human Pose Estimation[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2013: 3674-3681.
[10] Yang Y, Ramanan D. Articulated human detection with flexible mixtures of parts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2878-2890.
[11] Corinna C, Vapnik V. Support-Vector Networks [J]. Machine Learning, 1995(20): 273-297.
[12] 吳青,趙雄. 一類新樣條光滑支持向量機(jī)[J].西安郵電大學(xué)學(xué)報(bào),2013,18(6):68-74.
[13] Zhang X G, Lu X, Shi Q, et al. Recursive SVM feature selection and sample classification for mass-spectrometry and microarray data [J]. BMC Bioinformatics, 2006(7):197.
[14] 韓貴金,朱虹. 一種基于圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì)算法[J]. 計(jì)算機(jī)工程與應(yīng)用,2013, 49(14):30-33.
[15] 韓貴金,趙勇. 基于樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì)[J].西安郵電大學(xué)學(xué)報(bào),2013,18(3):83-86.
[責(zé)任編輯:祝劍]
Part appearance model based on R-SVM algorithm
HAN Guijin, ZHOU You
(School of Automation, Xi’an University of Posts and Telecommunications, Xi’an 710121,China)
Part appearance model plays a critical role for human pose estimation accuracy. A part appearance model based on the recursive support vector machine (R-SVM) algorithm is developed by using the histograms of oriented gradients (HOG) feature to improve the estimation accuracy. The parts of the annotated region in the training images, which play a smaller role for identifying human part, are eliminated by the R-SVM algorithm. The SVM classifier constructed by the remaining areas is used as the part appearance model, and its optimal cell size is estimated by maximizing the mean similarity between the annotated area of the training images and the part appearance model. Experiment results show that the part appearance model based on R-SVM algorithm can represent the appearance characteristics of real human parts accurately, and can get higher estimation accuracy when used for human pose estimation.
human pose estimation, part appearance model, hhistograms of oriented gradients, recursive support vector machine
2015-01-05
陜西省教育廳專項(xiàng)科研計(jì)劃資助項(xiàng)目(14JK1677)
韓貴金(1978-),男,碩士,講師,從事數(shù)字圖像處理研究。E-mail:hgjin123@126.com 周有(1969-),男,博士,副教授,從事數(shù)字信號(hào)處理研究。E-mail:youzh_xian@163.com
10.13682/j.issn.2095-6533.2015.03.014
TP391.4
A
2095-6533(2015)03-0081-05
西安郵電大學(xué)學(xué)報(bào)2015年3期