劉耀杰,舒 暢,傅志中
(電子科技大學(xué)通信與信息工程學(xué)院,四川成都 611731)
隨著人們對人機(jī)交互的需求不斷提升,手勢識別在當(dāng)前計算機(jī)視覺研究中成為熱門課題[1-5]。隨著手勢識別技術(shù)向自然性和智能性的發(fā)展,意在降低用戶的使用門檻,做到簡單、直觀。日前較熱門的手勢識別方法分兩種:基于設(shè)備的手勢識別和基于圖像的手勢識別?;谠O(shè)備的手勢識別需要用戶佩戴或使用特殊的識別設(shè)備,通過設(shè)備上的跟蹤器對手勢和軌跡和形態(tài)進(jìn)行判斷。其優(yōu)勢在于識別率高、實時性好、數(shù)據(jù)量小;缺點是設(shè)備昂貴,不利于生產(chǎn)推廣?;趫D像的手勢識別利用視覺采集設(shè)備采集手勢圖像序列,通過對圖像的處理分析識別手勢。該方式成本較低,但數(shù)據(jù)量相對大,識別率低,考驗算法的魯棒性和穩(wěn)定性。
本文主要對視頻序列中的掌心定位方式進(jìn)行研究,提出一個基于固定攝像頭的單手識別方案,研究了復(fù)雜背景下的手勢區(qū)域分割,分析實驗了背景消減法等常用分割方法的優(yōu)劣,并使用形態(tài)學(xué)對分割后圖像進(jìn)行特征提取;最終利用提取的特征進(jìn)行手勢識別,從而實現(xiàn)復(fù)雜環(huán)境下基于視覺手勢的人機(jī)交互。
目標(biāo)分割是手勢識別的一個重要步驟?;趫D像的檢測分割算法主要為3類:光流法[6]、幀間差分法[7]和背景消減法[8-11]。光流法根據(jù)圖像像素點間灰度相關(guān)性和時間變化性來確定所有像素點坐標(biāo)的動作,但由于其計算復(fù)雜、耗時,不滿足實時視頻檢測的要求。幀間差分法是將圖像序列中連續(xù)兩幀或3幀圖像的灰度值做差后進(jìn)行分析判斷目標(biāo)區(qū)域,此算法較為簡單,運算速度快,但在復(fù)雜背景下提取效果差,可能有漏檢誤檢。背景減除算法是目前應(yīng)用較廣泛的目標(biāo)檢測算法,首先對背景建模,然后通過背景模型與幀圖像差分進(jìn)行目標(biāo)檢測,背景更新過程是此算法難點。
本文中利用ViBe背景減去算法進(jìn)行手勢檢測分割。ViBe算法[10]為 Olivier Barnich等人在2009年提出,全稱為視覺背景提取算法(Visual Background Extractor,VBE),是一種通用的快速提取背景算法。不同于均值濾波、混合高斯(MoG)和SACON等的背景更新機(jī)制[8-9],ViBe背景更新是自適應(yīng)和無記憶的,因此具有較好的魯棒性和實時性。
1.1.1 背景模型初始化
定義M(x)為背景模型,M(x)中的每個像素點由N個背景樣本值 vi(x),i=1,2,3,…,N 組成,由文獻(xiàn)[11]介紹N值取20。ViBe使用視頻序列的第一幀對背景進(jìn)行建模,具體策略是使用第一幀圖像中對應(yīng)x位置的八鄰域中隨機(jī)點 PG(m),m=1,2,…,8來初始化vi(x),邊緣部分使用不完整的八鄰域即可,初始化一共進(jìn)行N次八鄰域選取。
1.1.2 背景模型分類
建立背景的初始化模型后,從第二幀即可對當(dāng)前圖像Q(x)進(jìn)行像素分類。定義SR(vi(x))是x點處以vi(x)為中心,R為半徑的歐式空間球體。Q(x)中x位置的像素值與M(x)中對應(yīng)位置每個背景樣本值vi(x),i=1,2,3,…,N 有一個色度的歐式距離 Di,記Di<R的個數(shù),當(dāng)個數(shù)小于閾值th_min時,該像素點歸為前景點,否則為背景點。公式描述如下
式(1)中,1表示前景點;0表示背景點。
由文獻(xiàn)[11]介紹R值與N值相同時運算效率最高,故取20,th_min取2時分類效果最佳。理論上,每個點需計算N次歐式距離,但實際應(yīng)用中,當(dāng)個數(shù)>2時即可停止計算,做出判斷,故設(shè)置中斷條件可減少計算量。
1.1.3 背景模型更新
ViBe背景更新策略保證背景像素模型的每個樣本值在生命周期中呈平滑指數(shù)衰減,這種指數(shù)更新策略被證明是有效的[11]。
更新過程采用幀選取隨機(jī)和像素選取隨機(jī)相結(jié)合的方法。在每φ幀中隨機(jī)選取一幀進(jìn)行更新,φ被稱為二次采樣時間因子,實驗中,φ取16時效果最佳。更新時,用選定幀中背景點的隨機(jī)領(lǐng)域值替代M(x)中對應(yīng)點的第i=1,2,…,N個樣本值,八鄰域選取與初始化相同。過程如圖1所示。
圖1 ViBe算法的更新過程
ViBe算法使用第一幀圖像來初始化背景模型,如果第一幀中出現(xiàn)檢測目標(biāo),則會對隨后一段時間內(nèi)的圖像檢測產(chǎn)生影響。并且,圖像中由于手勢動作造成的陰影區(qū)域也會被劃入前景區(qū)域中,對手勢判斷造成影響。ViBe算法后加入膚色檢測可消除上述兩種影響。圖2(b)中出現(xiàn)初始化模型和陰影區(qū)域造成的兩種檢測影響,加入膚色檢測后結(jié)果如圖2(c)所示。
圖2 膚色檢測后的結(jié)果對比圖
手勢識別中面臨諸多難點,如手的旋轉(zhuǎn)、移動等。如果能獲得掌心坐標(biāo),就能利用以掌心坐標(biāo)為原點的極坐標(biāo)系進(jìn)行手勢識別,從而大幅簡化識別難度。因此,掌心是手勢中一個重要的特征點。本文通過形態(tài)學(xué)骨架運算,找出手勢圖像掌心坐標(biāo),繼而利用掌心坐標(biāo)移動狀態(tài)進(jìn)行手勢定位,并構(gòu)建以掌心為原點的極坐標(biāo)進(jìn)行手勢識別。
不同于如文獻(xiàn)[1]中多特征識別算法需要訓(xùn)練樣本,或如文獻(xiàn)[2]中基于深度圖像的識別算法需要外置設(shè)備進(jìn)行輔助,文中算法可直接對圖像進(jìn)行特征提取做出判斷,在應(yīng)用性和實時性上都有較大優(yōu)勢。
2.1.1 最大圓盤形態(tài)學(xué)骨架提取算法
設(shè)D為圖像S中的一個內(nèi)切圓盤,即至少有兩個點與圖像S的邊界相切,如果D不是圖像S內(nèi)部任一其他圓盤的子集,則稱D為最大圓盤。此時,骨架可定義為圖像內(nèi)部所有最大圓盤圓心的集合[12]。文獻(xiàn)[13]中介紹的骨架的形態(tài)學(xué)表達(dá)式為
2.1.2 分辨率調(diào)整
二值化圖像進(jìn)行骨架運算前,需要對圖像的分辨率進(jìn)行處理。由于形態(tài)學(xué)骨架提取是最大內(nèi)切圓的圓心集合,因此過高分辨率的圖像處理時間較長,并且骨架輪廓會較復(fù)雜,不利于判斷;而過低分辨率的圖像骨架的特征信息有較大損失。圖3即為對同一幅圖像不同分辨率下的骨架情況。
實際操作中,當(dāng)分辨率在240×320(75 kbit)之下時,有較好的實時性并且紋理特征也比較明顯,因此對高分辨率圖片進(jìn)行降分辨率處理時,分辨率低于此量級即可。
圖3 不同分辨率下的骨架對比圖
在正常的人機(jī)交互過程中,手掌活動范圍通常是處在手肘以上,即手掌沿肘關(guān)節(jié)0°~180°旋轉(zhuǎn)。通過形態(tài)學(xué)知識得到,手掌面積大,形態(tài)復(fù)雜,因此骨架是一個發(fā)散分支,其匯聚點在掌心處;掌心到手肘是有少量分支的主干。有手掌高于手肘的先驗條件以后,骨架在x軸向上手肘附近有最大值;在y軸上的投影在掌心處有最小值。再y的最小值上對x進(jìn)行平均即可得到掌心坐標(biāo)。
不過考慮到一些復(fù)雜的情況,比如背景噪聲,手勢者的衣著,主干分支的長度等,具體的手勢特征的提取步驟如下:
(1)使用數(shù)學(xué)形態(tài)學(xué)中的Open運算操作對二值化圖像進(jìn)行去噪。在分辨率為240×320量級下,本實驗中去噪所使用的結(jié)構(gòu)元素為半徑為2的圓盤。
(2)使用上文提到的最大圓盤骨架提取算法,對B(x,y)提取骨架得到 Skel(x,y)。
(3)對骨架圖形Skel(x,y)進(jìn)行去毛刺Spur運算,去除較長分支對掌心判斷的影響。在分辨率為240×320量級下,實驗中Spur運算迭代次數(shù)為10次。
(4)由手勢者佩戴首飾引起二值化圖像分塊,或者是復(fù)雜背景引入的大塊噪聲,會造成骨架處理后出現(xiàn)多個骨架區(qū)域。根據(jù)手掌面積大,骨架紋理復(fù)雜的特點,選取Skel(x,y)中具有最大連通域的部分,得到的部分為 obSkel(x,y)。
(5)選取obSkel(x,y)中進(jìn)行投影的有效區(qū)域。設(shè)obSkel(x,y)是M×N的矩陣,取圖像x軸向上y有最大值Q的x坐標(biāo)P,點(P,Q)可認(rèn)為是手肘處,P以內(nèi)的區(qū)域為投影有效區(qū)域。同時,有效區(qū)域在y軸的投影從分割區(qū)域的長度15%處開始,排除指尖造成的誤判。則有效區(qū)域的公式為
如式(3)選取有效區(qū)域后,該算法即能有效處理用戶不同衣著造成的二值化區(qū)域不確定的問題。
(6)有效區(qū)域eSkel(x,y)在y軸投影的最小值點認(rèn)定為掌心y坐標(biāo),此y坐標(biāo)上x的平均值點認(rèn)定為掌心x坐標(biāo)
在用戶進(jìn)行手勢識別時,通常希望可以有識別區(qū)域的反饋。在本實驗中,使用似圓度對手掌區(qū)域進(jìn)行劃分,并給與用戶反饋。
似圓度是一個刻畫物體與圓形相似程度的參數(shù),似圓度公式如下
式(5)中C為圖形周長,S為圖形面積。由計算公式可知,似圓度越接近于1,目標(biāo)圖形越接近圓。以掌心為圓心的同心圓內(nèi),當(dāng)其半徑小于掌心到手腕的距離時,似圓度為1,而大于這一距離以后,由于有手臂和手指進(jìn)入計算范圍,似圓度降低。由此可對手腕邊界進(jìn)行判斷,文中使用0.75作為邊界判讀閾值。如圖4為似圓度與掌心半徑的關(guān)系。
圖4 似圓度與掌心半徑關(guān)系圖
通過似圓度將手掌分割以后,如圖5所示,就可以在以掌心為原點的極坐標(biāo)內(nèi)進(jìn)行判斷。使用極坐標(biāo)系的好處可以排除收的轉(zhuǎn)動問題,使用較為方便。本實驗中對剪刀、石頭、布3種手勢進(jìn)行了位置判斷和手勢識別。但掌心坐標(biāo)可為其他手勢的識別提供基礎(chǔ)。文獻(xiàn)[3]中提到的極坐標(biāo)判決法是一個可以適用的方法。
圖5 似圓度分割結(jié)果
本文實驗環(huán)境如下,Intel i5 2.30 GHz,4 GB內(nèi)存,Window7操作系統(tǒng),Matlab 7.11.0(R2010b)。實驗中使用了兩組實驗數(shù)據(jù):第一組實驗圖像序列01,02,03是在不同的背景下拍攝得到,圖像分辨率分別為320×240,1 280×720,640×480這3種,采樣圖像均為全彩色;為進(jìn)一步證實本算法的有效性,使用了Sebastien Marcel的在線手勢數(shù)據(jù)庫[14],動態(tài)圖像序列分辨率為62×58,全彩色。
320×240的圖像序列01中,實驗者處于單色背景下做出剪刀石頭布3種手勢,每種手勢中手往4個方向先后移動。1 280×720的圖像序列02中,實驗者在單色背景下做相同動作,但背景因為手的動作出現(xiàn)變化的陰影區(qū)域,且第一幀非純背景幀,出現(xiàn)目標(biāo)區(qū)域。640×480的圖像序列03中,實驗背景環(huán)境復(fù)雜,圖像質(zhì)量較差,部分幀手勢存在移動模糊。Sebastien Marcel的在線手勢數(shù)據(jù)庫有4 種手勢(Clic,StopGraspOk,Rotate,No),分別涉及到手勢識別中的手勢變化,手勢移動,手勢旋轉(zhuǎn)和背景變化等問題。
測試得到結(jié)果如下,其中圖6為識別結(jié)果,表1所示為3個序列的手勢識別率,表2為在線數(shù)據(jù)庫的識別結(jié)果。
圖6 實驗結(jié)果
表1 實際拍攝手勢識別結(jié)果
表2 Sebastien Marcel數(shù)據(jù)庫手勢識別結(jié)果
由于數(shù)據(jù)庫手勢分辨率低,骨架的特征信息損失多,識別誤差較大,但總體而言,識別率可以接受。對于手勢的移動性較低的序列需要背景幀才能正常分割。同時,一些參數(shù)需要做出適當(dāng)調(diào)整,如更新時間因子需要降低。
本文所提出的手勢識別算法具有較好的穩(wěn)定性,可對處在不同背景、穿戴不同的用戶進(jìn)行手勢識別任務(wù)。通過Sebastien Marcel在線數(shù)據(jù)庫的測試,發(fā)現(xiàn)該算法在低清圖像序列的識別上有一定局限性,達(dá)到實際應(yīng)用還需要進(jìn)一步完善。
[1]李文生.解梅.鄧春健.基于機(jī)器視覺的動態(tài)多點手勢識別方法[J].計算機(jī)工程與設(shè)計,2012,33(5):1988 -1992.
[2]曹雛清,李瑞峰,趙立軍.基于深度圖像的手勢識別方法[J].計算機(jī)工程,2012,38(8):16 -21.
[3]翁漢良,戰(zhàn)蔭偉.基于視覺的多特征手勢識別[J].計算機(jī)工程與工程,2012,34(2):123 -127.
[4]楊揚,程楠楠,張萌萌.基于平均領(lǐng)域最大化的手勢識別方法研究[J].計算機(jī)工程,2012,38(9):19 -35.
[5]安濤.彭進(jìn)業(yè).吳靜.基于Haar小波分解的實時手勢識別[J].計算機(jī)工程,2011,37(24):138 -140.
[6]BARRON J,F(xiàn)LEET D,BEACHEMIN S.Performance of optical flow techniques[J].International Journal of Computer Vision,1994,12(1):42 -47.
[7]MEIER T.NGAN K N.Automatic segmentation of moving object plane generation [J].IEEE Tansaction on Circuit and Systems for Video Technology,1998,8(5):525 -538.
[8]劉露平.基于視頻序列動目標(biāo)檢測的遠(yuǎn)程視頻監(jiān)控系統(tǒng)的實現(xiàn)[D].成都:電子科技大學(xué),2013.
[9]蔣建國,王濤,齊美彬,等.基于ViBe的車流量算法[J].電子測量與儀器學(xué)報,2012,26(6):558-563.
[10]BARNICH O V,DROOGENBROECK M.ViBe:a powerful random technique to estimate the background in video sequences[C].Int.Conf.on Acoustics Speech and Signal Processing(ICASSP),2009,4:945 -948.
[11]BARNICH O V,DROOGENBROECK M,EVS B E,et al.ViBe:a universal background subtraction algorithm for video sequences [J].IEEE Transactions on Image Processing,2011,20(6):1709 -1724.
[12]KEGL B,KRZYZAK A.Piecewise linear skeletonization using principal curves[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2002,24(1):59 -74.
[13]崔屹.圖像處理和分析——數(shù)學(xué)形態(tài)學(xué)方法及應(yīng)用[M].北京:科學(xué)出版社,2000.
[14]SéBASTIEN M,OLIVIER B,JEAN - EMMANUEL V,et et.Daniel collobert hand gesture recognition using input/ouput hidden markov models[C].Grenoble:FG'2000 Conference on Automatic Face and Gesture Recognition,2000.