摘要:首先分析了手勢(shì)分割存在的技術(shù)難點(diǎn)及人進(jìn)行手勢(shì)分割過程中可能使用的特征,然后分析比較了現(xiàn)有手勢(shì)分割算法的基本思想和特點(diǎn),最后介紹了深度學(xué)習(xí)技術(shù)并總結(jié)了手勢(shì)分割未來的研究方向。
關(guān)鍵詞:RGB-D;手分割;手勢(shì)
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)09-0191-02
Abstract: The paper first analyses the several technical difficulties in hand segmentation and the features that can be used as in this process, then introduces the ideas of existing d hand segmentation algorithm. At last it introduces deep learning technology and concludes the research direction of hand segmentation in further.
Key words: RGB-D; hand segmentation; gesture
手勢(shì)是一種無中間媒介的,非常人性化的人機(jī)交互方式。手勢(shì)識(shí)別已經(jīng)成為人機(jī)交互領(lǐng)域的重要內(nèi)容和研究熱點(diǎn)?;谝曈X的手勢(shì)識(shí)別技術(shù),通常由手勢(shì)分割、手勢(shì)建模、手勢(shì)形狀特征提取、手勢(shì)識(shí)別等幾個(gè)步驟組成。其中,手勢(shì)分割就是從視覺傳感器獲取數(shù)據(jù)中,將感興趣的有意義區(qū)域,即手區(qū)域分割出來。這是基于視覺的手勢(shì)識(shí)別過程中非常關(guān)鍵的第一個(gè)步驟。準(zhǔn)確和快速的分割為后續(xù)步驟提供一個(gè)良好的基礎(chǔ),可以極大地提升手勢(shì)識(shí)別系統(tǒng)的識(shí)別效果以及實(shí)時(shí)性能。
基于視覺的手勢(shì)識(shí)別系統(tǒng)最初是利用攝像頭作為傳感器。一個(gè)或兩個(gè)攝像頭組成的視覺系統(tǒng)獲取手勢(shì)圖像數(shù)據(jù),手勢(shì)分割采用圖像處理方法,這些算法通常非常復(fù)雜,需要大量的計(jì)算資源。Kinect是微軟推出的一款2.5維傳感設(shè)備,它比傳統(tǒng)攝像頭獲取場(chǎng)景的2D圖像數(shù)據(jù)更進(jìn)一步,同時(shí)也可以獲取一定范圍內(nèi)的物體到傳感器的距離,即深度信息。更豐富的數(shù)據(jù)信息為更加快速有效的手勢(shì)分割提供了可能。
本文首先分析了手勢(shì)分割存在的技術(shù)難點(diǎn)及進(jìn)行手勢(shì)分割過程中可能使用的特征,然后分析比較了現(xiàn)有手勢(shì)分割算法的基本思想和特點(diǎn),最后介紹了深度學(xué)習(xí)技術(shù)并總結(jié)了手勢(shì)分割未來的研究方向。
1 手勢(shì)分割的技術(shù)難點(diǎn)
手勢(shì)分割的難點(diǎn)主要源于兩個(gè)方面,一是手勢(shì)的環(huán)境因素復(fù)雜性。手勢(shì)可以出現(xiàn)在任何一種復(fù)雜的環(huán)境背景中,顏色、亮度不同光照條件對(duì)手形成不同的高光和陰影、背景物體與膚色接近,移動(dòng)的背景或手勢(shì),手勢(shì)遮擋等。二是人類的手勢(shì)動(dòng)作在空間上有很大的靈活性,這導(dǎo)致手的外形特征復(fù)雜多變。這些都給手勢(shì)準(zhǔn)確分割帶來了困難
在任何條件下,人類的識(shí)別系統(tǒng)都能夠較為準(zhǔn)確的認(rèn)出感興趣的區(qū)域,人類在處理復(fù)雜的手勢(shì)時(shí),使用了大量的關(guān)于手勢(shì)特征的先驗(yàn)知識(shí)。但是人類視覺識(shí)別系統(tǒng)機(jī)理還有待進(jìn)一步研究,目前還沒有一個(gè)可以指導(dǎo)改進(jìn)手勢(shì)分割方法的統(tǒng)一的理論。
2 手勢(shì)分割的特征[1]
基于Kinect傳感器的手分割問題,可以看作是對(duì)RGB-D圖像中的手像素或非手像素標(biāo)記問題。這里,我們將RGB圖像和對(duì)應(yīng)的深度圖像數(shù)據(jù)定義為:
Data= {data(i,j) ={color,depth} i, j | i = 1,...,n, j = 1,...,m, depth ∈ R, color∈Color Space}。
其中,color為位置(i,j)對(duì)應(yīng)的顏色信息,按照某種顏色空間定義,depth為該位置的深度信息,
進(jìn)行手分割時(shí),必須對(duì)Data加以處理,提煉特征。通過調(diào)查以往的研究文獻(xiàn),總結(jié)出以下特征:
1) 人體的拓?fù)浣Y(jié)構(gòu):和人體某一局部圖像相比,人們更容易從人體的整體圖像中確定手的位置。這是因?yàn)槿祟愃哂械娜梭w的整體拓?fù)浣Y(jié)構(gòu)知識(shí)。這個(gè)知識(shí)只提供給手部區(qū)域的大致方位。
2) 距手心距離:通過手的形態(tài)學(xué)知識(shí),人類可以推斷當(dāng)距離手心距離小于某個(gè)值,肯定屬于手部區(qū)域,如果大于某個(gè)值,肯定不屬于手部區(qū)域;
3) 膚色和深度:雖然膚色易受到人種,光照等的影響,手部區(qū)域在深度圖像或者彩色圖像上雖然其整體上有可能并不均勻一致,但是其在較小的局部范圍內(nèi)應(yīng)當(dāng)保持一定的連續(xù)性,而非手部區(qū)域的邊界像素與相鄰背景區(qū)域像素具有較大的變化;
在進(jìn)行手區(qū)域判斷的時(shí)候,人類往往不是僅基于某種單一特征,而是多種特征的融合的決策。每個(gè)特征在決策過程中起到不同的作用,對(duì)一個(gè)手的不同位置起到的效用有可能也不一樣。
3 手勢(shì)分割算法
手勢(shì)的分割實(shí)際上包括兩個(gè)步驟:首先是手定位,這是指從RGB-D圖像中確定手是否出現(xiàn),并且確定手所在區(qū)域;在此基礎(chǔ)上進(jìn)行第二個(gè)步驟,即去除背景的干擾,將手區(qū)域從RGB-D圖像中分離出來,該過程稱為手分割。通常情況下,兩個(gè)步驟同時(shí)進(jìn)行。傳統(tǒng)的基于視覺的手勢(shì)分割方法主要有基于輪廓的手勢(shì)分割方法、基于運(yùn)動(dòng)的手勢(shì)分割方法、基于膚色的手勢(shì)分割方法等。
基于輪廓的手勢(shì)分割方法[2]利用手的拓?fù)浣Y(jié)構(gòu)特征來對(duì)手進(jìn)行分割。但是該方法面臨兩個(gè)技術(shù)問題:一是,人的手勢(shì)是靈活多變的,手部旋轉(zhuǎn)或彎曲使得很難確定手部的初始輪廓;二是手勢(shì)的形狀存在深度凹陷區(qū)域,傳統(tǒng)的輪廓方法無法收斂。這些因素極大地影響了輪廓的準(zhǔn)確性,進(jìn)而影響到手勢(shì)分割的準(zhǔn)確性。
膚色是手勢(shì)最為明顯的特征之一,基于膚色的手勢(shì)分割方法[3]建立膚色模型,通過膚色和背景在膚色模型的差異來實(shí)現(xiàn)手勢(shì)分割。但是,該方法不能很好解決實(shí)際應(yīng)用中的手勢(shì)復(fù)雜背景環(huán)境問題。實(shí)際環(huán)境中,膚色會(huì)受到光源亮度和位置變化、有色光源的色彩偏移等條件的影響。此外,手部反轉(zhuǎn)彎曲形變使得光源角度和陰影也會(huì)發(fā)生變化。這些因素使得整個(gè)手部區(qū)域的膚色可能并不一致,這導(dǎo)致無法建立一個(gè)具有較高準(zhǔn)確度的膚色模型。
基于運(yùn)動(dòng)的分割方法[4]主要分為是幀差法和背景差分法。幀差法對(duì)視頻中的連續(xù)幀圖像進(jìn)行差分運(yùn)算,消除由于運(yùn)動(dòng)而產(chǎn)生的背景影響,從而提取精確的運(yùn)動(dòng)目標(biāo)輪廓信息。背景差分法首先對(duì)背景圖像建模,然后通過圖像序列中的當(dāng)前幀和背景參考模型比較來檢測(cè)運(yùn)動(dòng)物體,其性能依賴于所使用的背景建模技術(shù)。已有的研究表明,運(yùn)動(dòng)中的光影變化和背景的動(dòng)態(tài)變化會(huì)影響到分割結(jié)果準(zhǔn)確性。
在獲取場(chǎng)景的2D圖像數(shù)據(jù)的基礎(chǔ)上,Kinect也同時(shí)獲取一定范圍內(nèi)的物體到傳感器的距離,即深度信息。更豐富的數(shù)據(jù)信息為更加快速有效的手勢(shì)分割提供了可能。研究者利用RGB-D數(shù)據(jù)進(jìn)行手勢(shì)分割時(shí),可以只深度圖像或者融合RGB和深度信息。前者瞄準(zhǔn)快速算法,后者目標(biāo)是一個(gè)精確系統(tǒng),下面進(jìn)行簡(jiǎn)要介紹:
文獻(xiàn)[5,6]將手分割看成一個(gè)深度聚類問題,基本思想是在深度圖像中,手部區(qū)域與背景區(qū)域分的深度值不同。通過分析人的形體數(shù)據(jù)確定一個(gè)深度閾值,該閾值對(duì)應(yīng)的像素區(qū)域就是手區(qū)域。利用預(yù)定義閾值和k-means聚類算法進(jìn)行手檢測(cè)。手指的位置通過手輪廓的凸包分析定位。這種方法在進(jìn)行手勢(shì)識(shí)別時(shí),限定手必須處于距離Kinect傳感器最近的位置,單一使用深度信息,忽略了RGB信息,手勢(shì)分割的準(zhǔn)確性受到影響;
微軟提供的kinect SDK,利用機(jī)器學(xué)習(xí)算法提供了骨骼數(shù)據(jù)流,可以對(duì)人體骨骼關(guān)鍵點(diǎn)進(jìn)行定位。文獻(xiàn)[7]利用了骨骼信息中的手的位置信息。以此為基礎(chǔ),采用形態(tài)學(xué)分析設(shè)定RGB-D中,手的三個(gè)軸方向上閾值,該閾值范圍內(nèi)的區(qū)域被看成是手區(qū)域。然后利用OPEN VC中的腐蝕(cvErode)、找到邊界(cvFindContours)等相關(guān)函數(shù)手的輪廓。因?yàn)椴捎瞄撝捣绞?,手?shì)分割的準(zhǔn)確性受到環(huán)境因素影響較大,且該方法建立在骨骼算法和OPEN VC圖像處理算法基礎(chǔ)之上,手勢(shì)分割的實(shí)時(shí)性受到影響。
文獻(xiàn)[8]采用了特征模型和神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法。首先建立手勢(shì)的膚色模型,背景模型和深度模型,然后三個(gè)模型的兩兩重疊率作為神經(jīng)網(wǎng)絡(luò)的輸入,三層神經(jīng)網(wǎng)絡(luò)的構(gòu)建基于兩點(diǎn)假設(shè),一是每一個(gè)模型對(duì)于最終的像素分割結(jié)果都具有大于0的可信度貢獻(xiàn),二是,沒有一個(gè)模型是絕對(duì)可靠的,每個(gè)像素的確定至少取決于兩個(gè)模型的結(jié)果。
文獻(xiàn)[9]采用了形態(tài)學(xué)分析的方法。在深度圖中尋找管狀或指形狀作為手掌和手指的候選對(duì)象?;谑终坪褪种肝恢蒙鲜窍噙B的這一形態(tài)學(xué)常識(shí),進(jìn)而檢測(cè)候選對(duì)象的空間位置以確定手部區(qū)域;
文獻(xiàn)[10]建立了一個(gè)標(biāo)準(zhǔn)人類手在不同深度層的大小的查找表。利用kinect SDK提供的骨骼數(shù)據(jù)中的手的位置信息,確定手的深度,以此從查找表中找到對(duì)應(yīng)手的大小,進(jìn)而大概確定手區(qū)域。文獻(xiàn)[11]將手檢測(cè)問題看成是一個(gè)手像素或非手像素標(biāo)記問題。算法集成彩色和深度信息進(jìn)行手區(qū)域檢測(cè)。皮膚檢測(cè)算子對(duì)RGB圖像進(jìn)行處理,聚類算子對(duì)深度圖像進(jìn)行處理,二者的交集就是最終的手部區(qū)域。
4 深度學(xué)習(xí)技術(shù)
在已有的手勢(shì)分割方法中,良好的特征表達(dá),對(duì)最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用。上述方法中,特征的設(shè)計(jì)靠人工選取完成。通常來說,手工選取和設(shè)計(jì)特征是一件非常費(fèi)力方法,需要專業(yè)的知識(shí)和大量時(shí)間進(jìn)行調(diào)節(jié)。
深度學(xué)習(xí)是一種新的機(jī)器學(xué)習(xí)方法,其目標(biāo)是建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),通過非監(jiān)督學(xué)習(xí),實(shí)現(xiàn)自動(dòng)的學(xué)習(xí)特征。深度學(xué)習(xí)構(gòu)建具有很多(5層、6層,甚至10多)隱層的機(jī)器學(xué)習(xí)模型,通過海量數(shù)據(jù)訓(xùn)練,使得原樣本空間逐層變換到一個(gè)新特征空間,來學(xué)習(xí)更有用的特征。這類似于人類從原始信號(hào),做低級(jí)抽象,逐漸向高級(jí)抽象迭代。最終的分類或預(yù)測(cè)在高級(jí)抽象層進(jìn)行,從而提高了準(zhǔn)確性。大數(shù)據(jù)學(xué)習(xí)的特征比人工規(guī)則構(gòu)造特征更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。
5 總結(jié)
手勢(shì)分割是基于視覺的手勢(shì)識(shí)別過程中非常關(guān)鍵的第一個(gè)步驟,將極大地影響到手勢(shì)識(shí)別系統(tǒng)的識(shí)別效果以及實(shí)時(shí)性能。準(zhǔn)確和快速的分割是手勢(shì)識(shí)別的基礎(chǔ),目前還不存在任何一種方法在所有應(yīng)用系統(tǒng)和背景條件下都能取得良好的分割效果。深度學(xué)習(xí)技術(shù)為手勢(shì)分割問題提供了一種新的解決思路,其更加接近于人類視覺系統(tǒng)機(jī)理??梢詫⑹謩?shì)識(shí)別過程看成是一個(gè)從海量的手勢(shì)數(shù)據(jù)中深度學(xué)習(xí)過程,無需手勢(shì)特征的先驗(yàn)知識(shí),通過學(xué)習(xí)產(chǎn)生對(duì)于手勢(shì)檢測(cè)分割具有指導(dǎo)意義的特征,在此基礎(chǔ)上進(jìn)行手勢(shì)分割將會(huì)取得較為理想的結(jié)果。
參考文獻(xiàn):
[1] 蔣美云,郭雷. 基于特征算子的RGB-D圖像手分割算法[J].計(jì)算機(jī)與數(shù)字工程,2014(11):2168-2172.
[2] Tofighi, Ghassem, S. Amirhassan Monadjemi, and Nasser Ghasem-Aghaee. Rapid hand posture recognition using Adaptive Histogram Template of Skin and hand edge contour[C].//In Machine Vision and Image Processing (MVIP), 2010:1-5.
[3] Julien L, Francois B. Visual Tracking of Bare Fingers for Interactive Surface[C].//Proceedings of the 17th Annual ACM Symposium on UIST, Santa Fe, NM, USA: ACM,2004:119-122.
[4] Kakumanu, Praveen, Sokratis Makrogiannis, and Nikolaos Bourbakis.A survey of skin-color modeling and detection methods[J].Pattern recognition.2007,40(3):1106-1122.
[5] R. Tara, P. Santosa, and T. Adji, Hand segmentation from depth image using anthropometric approach in natural interface development[J].International Journal of Scientific & Engineering Research,2012,3(5):1-4.
[6] U. Lee and J. Tanaka, Hand controller: Image manipulation interface using ?ngertips and palm tracking with Kinect depth data[C].//in Proc. Asia Paci?c Conf. Comput. Human Interact,2012:705-706.
[7] Maisto, Marco, Massimo Panella, Luca Liparulo, and Andrea Proietti. An Accurate Algorithm for the Identification of Fingertips Using an RGB-D Camera[J]. Emerging and Selected Topics in Circuits and Systems, IEEE Journal on,2013,3(2):272-283.
[8] Zhang, Xin, Zhichao Ye, Lianwen Jin, Ziyong Feng, and Shaojie Xu. A New Writing Experience: Finger Writing in the Air Using a Kinect Sensor[J]. MultiMedia, IEEE. 2013,20(4):85-93.
[9] G. Hackenberg, R. McCall, and W. Broll, Lightweight palm and ?nger tracking for real-time 3-D gesture control [C], in Proc. IEEE Conf. Virtual Reality,2011:19-26.
[10] Caputo M, Denker K, Dums B, et al. 3-D hand gesture recognition based on sensor fusion of commodity hardware [C], in Proc. Conf. Mensch Comput.,2012:293-302.
[11] Oikonomidis N. Kyriazis, Argyros A. Ef?cient model-based 3-D tracking of hand articulations using Kinect [C], in Proc. Brit. Mach. Vision Conf.,2011:101.