沙 亮,王貴錦,林行剛
(清華大學 信息科學與技術(shù)國家實驗室;電子工程系,北京 100084)
基于手勢的人機交互在機器人控制、3D動畫、娛樂、汽車電子、安全認證等諸多領域應用廣泛[1]。近年來,Sony,Toshiba,Nintendo,Microsoft,IBM,Nokia 等國際知名企業(yè)紛紛致力于將手勢交互應用于消費電子領域,推出了大量原型產(chǎn)品[2-7]。這些產(chǎn)品大多仍采用接觸式傳感器來測量手關(guān)節(jié)的參數(shù),雖然可精確地還原手勢的3D空間模型,卻因不舒適而降低了用戶體驗。目前,手勢交互正逐漸轉(zhuǎn)變?yōu)橥ㄟ^非接觸式的實時視頻采集用戶動作,以計算機視覺的方式分析手勢的純視覺方式。該方式下用戶無須佩戴任何裝置,也不受空間位置的約束,采用日常生活中的手勢給出交互指令,在自然舒適的狀態(tài)下進行人機對話[8]。
手勢視覺交互的核心是手勢檢測,其實質(zhì)是指通過系統(tǒng)的分析,標定出視頻中特定手勢出現(xiàn)的時間和空間位置。由于人手是由27自由度的復雜鏈接體[1],同一手勢經(jīng)常因尺度、旋轉(zhuǎn)、仿射和用戶個體差異等呈現(xiàn)外觀差異,同時受到紋理混雜或相似顏色背景的干擾,使穩(wěn)健的手勢檢測面臨巨大挑戰(zhàn)。
現(xiàn)有的手勢視覺檢測技術(shù)可分為3類:1)通過佩戴顏色標記進行檢測,性能有保證,但使用不便[9];2)基于運動檢測,方法簡單但易受光照影響,不夠穩(wěn)定[10];3)通過機器學習的方法,運用AdaBoost技術(shù),實現(xiàn)對特定手勢的快速檢測[11]。該方法對尺度和用戶差異有很好的效果,但因采用Haar特征,易受背景混雜的影響,對交互場景有一定限制。
為在不同場景中實現(xiàn)穩(wěn)健的交互手勢檢測,筆者提出了一種基于多特征融合的檢測方案。在訓練AdaBoost檢測器基礎上,通過結(jié)合混合高斯模型的膚色檢測器和梯度方向直方圖的識別器,運用連續(xù)多幀的結(jié)果,依據(jù)Fisher準則融合為最優(yōu)線性鑒別式分類器,在多類復雜場景中取得了很好的檢測結(jié)果。圖1為多特征融合手勢檢測器原理圖。以手掌與拳頭兩類典型的交互手勢檢測對本文方法進行驗證。
本文采用Intel OpenCV中的開源AdaBoost訓練器[12]。在訓練前將正樣本圖像調(diào)整為24×24像素灰度圖,設定分類器結(jié)構(gòu)為TreeBoost,采用FloatBoost訓練以便得到概率輸出的結(jié)果,每級強分類器正樣本通過率為99.5%,負樣本通過率為50%。對于“拳頭”,訓練得到15級強分類器,使用1250個Haar-like特征;對于 “開手掌”,訓練得到20級強分類器,使用1730個Haar-like特征。為減少漏檢,在融合過程中分別保留5級強分類器。
膚色是人體的特征,且在手勢上分布較為一致。由于基于混合高斯模型(GMM)的檢測器具備簡練的參數(shù)化的建模方式和適合快速運算的特點,本文選擇其作為膚色快檢測器的基礎。在本文的訓練過程中,采用在不同光照和不同樣本下采集的視頻,標定出膚色區(qū)域的像素,約4000000個。以其他靜止圖片和視頻中其他像素為非膚色像素集進行訓練,分別生成16核的膚色模型和非膚色模型。
利用提取梯度方向直方圖(HOG)特征描述手勢,可以有效地解決手勢平面內(nèi)旋轉(zhuǎn)造成的影響。因而基于AdaBoost檢測的手勢區(qū)域通過提取HOG特征并與相應的手勢模板計算相似度,以概率的形式提供手勢識別的置信度信息,參與融合過程。本文通過采集25個人的760個不同外觀的手勢樣本,進行統(tǒng)計獲得手勢模板,具體過程參見文獻[13]。
本部分闡述的是多個檢測器的融合方法,其融合依據(jù)為上述各檢測器輸出的檢測結(jié)果區(qū)域Λ及其對應的置信度pG(Λ)。設檢測過程從T0幀開始,則在T幀,AdaBoost手勢檢測器輸出為,膚色塊檢測器輸出為。若T-1幀的融合后輸出為,則多檢測器的融合過程可概括為以下3個步驟:
1)初始化
設 T=T0,當 i∈[1,M],j∈[1,N],使得
完成初始化,令T=T+1,進入步驟2)。否則T=T+1,重復步驟1)。
2)單幀融合
當 i∈[1,M],j∈[1,N],使得
其中,[λ′Λ,min,λ′Λ,max]為考慮了多幀重疊的較小的面積區(qū)間。
否則令 T=T0,返回步驟 1)。
3)多幀融合
若
其中,λT和λ′p,t分別為積累幀數(shù)閾值和積累置信度閾值。是一組遺忘因子,本文中滿足
上述算法中的關(guān)鍵問題是如何確定各檢測器的輸出概率融合閾值λp。事實上,從機器學習的觀點來看,采用標記好的若干正樣本區(qū)域,每個區(qū)域提供的參數(shù)包括,提供若干負樣本區(qū)域,每個區(qū)域提供的參數(shù)包括則轉(zhuǎn)化為一個半監(jiān)督的學習問題。簡化起見,設計一個線性分類器如下
設
式中:[pi,ωi]為一個標記了是/非手勢區(qū)域的樣本。存在正樣本N1個,負樣本N0個的訓練集。若設各類樣本均值向量mi為
樣本類內(nèi)離散度矩陣Si和總類內(nèi)離散度矩陣Sw為
利用Fisher準則解得
于是可得
這一算法的最大特色在于綜合考慮了目標尺度的需求、幀內(nèi)多檢測(識別)器的聯(lián)合置信度、多幀檢測結(jié)果的一致性和置信度的穩(wěn)定性,最大程度上均衡了多檢測器因采用單一特征而造成的性能缺陷。例如Haar特征在相似的衣服紋理上造成的誤檢,可由膚色塊檢測校正;而Haar特征在目標平面內(nèi)小角度旋轉(zhuǎn)下輸出置信度很低,可由手勢識別器中對小角度比較穩(wěn)健的梯度方向直方圖特征的置信度輸出來提升,以免發(fā)生漏檢。膚色塊在背景顏色近似時造成連通域很大,可由AdaBoost檢測調(diào)整。時域上多幀參數(shù)的驗證則消除了背景運動,特別是用戶身體移動的影響,因而能夠比較準確地提供手勢區(qū)域的目標模型,為全手勢的人機交互奠定基礎。
為驗證本文多檢測器置信度融合的手勢檢測算法的檢測性能和實時性能,這里特別給出通用計算機和低硬件資源的上網(wǎng)本兩款平臺上的測試結(jié)果。在下文中,A平臺為配備Intel Pentium41.6 GHz CPU和2 Gbyte RAM的PC,B平臺為配備Intel Atom 1.6 GHz CPU和2 Gbyte RAM的上網(wǎng)本。測試中使用的數(shù)據(jù)是實時采集的多個場景的交互視頻,考慮到不同背景、光照的條件,在采集過程中,對用戶的手勢標準性未做嚴格限制,使得平面內(nèi)旋轉(zhuǎn),尺度變化,與相似顏色背景、混雜背景的重疊等挑戰(zhàn)更為突出。共測試5段視頻,共1782幀,每幀中包括1個開手掌手勢,另有1132幀不含交互手勢或包括其他干擾手勢。表1是各檢測器在這些測試數(shù)據(jù)上的運行性能,表2是融合檢測器各模塊在平臺A和平臺B上的資源占用情況。圖2中列出了一些有代表性的幀分別通過單獨的檢測器和融合后的檢測結(jié)果。
表1 實時視頻性能測試 %
表2 融合檢測器的資源占用評估
圖2a為使用AdaBoost的測試結(jié)果,圖2b給出了對應各幀基于膚色/非膚色模型檢測的膚色塊,圖2c給出了上述檢測器結(jié)合手勢識別器進行的融合檢測的結(jié)果。可見,通過融合后的檢測器,不僅手勢的檢測穩(wěn)健性很強,更適合在低端的計算平臺上進行實時處理,有利于嵌入不同平臺上的應用程序。
筆者從多特征融合的角度出發(fā),深入研究了各種特征對手勢檢測問題的貢獻和缺陷,從而提出一種融合式的手勢檢測器。從AdaBoost手勢檢測器的設計出發(fā),依次論述了基于混合高斯模型的膚色塊檢測器的原理和訓練過程、基于梯度方向直方圖描述的手勢識別器和多幀歷史輸出的驗證模型,提出了多概率加權(quán)的判決準則和區(qū)域有效性判別準則,解決了異構(gòu)特征在檢測結(jié)果上的難于互補的困境。最后通過性能和效率的實驗驗證了融合式檢測器的優(yōu)勢,證明了本文檢測器在不同條件下,都能夠有效地解決穩(wěn)健檢測特定手勢的難題,為多種人機交互任務提供了保障。
[1]WU Y,HUANG T.Hand modeling,analysis and recognition[J].IEEE Signal Processing Magazine,2001,18(3):51-60.
[2]REKIMOTO J.Gesturewrist and gesturepad:unobtrusive wearable interaction devices[EB/OL].[2010-02-20].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.24.6401&rep=rep1&type=pdf.
[3]CARREIRA J,PEIXOTO P.Retrieving and exploiting hand′s orientation in tabletop indenfication[EB/OL].[2010-02-20].http://www.isr.uc.pt/~joaoluis/papers/ieeemultimedia07.pdf.
[4]Nintendo.Wii sensor[EB/OL].[2010-02-20].http://www.nintendo.com/wii.
[5]Microsoft.Xbox360[EB/OL].[2010-02-20].http://www.xbox.com/.
[6]IBM vision group.Virtual forbidden city[EB/OL].[2010-02-20].http://emsys.denayer.wenk.be/T-cell/Presentaties/Austin/IBM_Gesture_Interface_Recognition_with_Cell_BE_March_4.pdf.
[7]ZHANG X,CHEN X,WANG W,et al.Hand gesture recognition and virtual game control based on 3D accelerometer and EMG sensors[EB/OL].[2010-02-20].http://portal.acm.org/citation.cfm?id=1502708.
[8]PENTLAND A.Perceptual intelligence[EB/OL].[2010-02-20].http://www.ayrmetes.com/articles/perceptual_intelligence.htm.
[9]MISTRY P,MAES P.SixthSense: a wearable gestural interface[EB/OL].[2010-02-20].http://www.pranavmistry.com/projects/sixthsense/.
[10]KOLSCH M.Vision based hand gesture interfaces for wearablecomputing and virtual environment[D].Santa Barbara,USA:University of California,2004.
[11]FANG Y,WANG K,CHENG J,et al.A real-time hand gesture recognition method[C]//Proc.IEEE International Conference on Multimedia and Expo.Beijing:IEEE Press,2007:995-998.
[12]BRADSKI G,KAEHLER A,PISARERSKY V.Learning-based computer vision with Intel′s open source computer vision library[J].Intel Technology Journal,2005,9(2):119-130.
[13]SHA L,WANG G,LIN X,et al.Hand posture recognition in video using multiple cues[C]//Proc.the 2009 IEEE International Conference on Multimedia and Expo.New York,USA:IEEE Press,2009:886-889.