張晨,張昭,呂朝輝
(中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)
?
基于Kinect深度數(shù)據(jù)的手部指示的目標(biāo)定位
張晨,張昭,呂朝輝
(中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)
本文設(shè)計(jì)了一種基于Kinect深度信息的手部指示的目標(biāo)指示點(diǎn)的定位系統(tǒng)。建立了完整的系統(tǒng)模型,實(shí)現(xiàn)了指示點(diǎn)的準(zhǔn)確定位,該系統(tǒng)克服了借助三維鼠標(biāo)、激光筆等帶來的真實(shí)感、交互感低的情況,同時(shí)避免了基于立體視覺的手部指示識別定位存在的對硬件設(shè)備要求高,識別精度低等問題。文中建立了手部指示的真實(shí)感和準(zhǔn)確性的測試分析系統(tǒng),通過測試結(jié)果的分析,表明該定位系統(tǒng)具有良好的指示真實(shí)感和定位準(zhǔn)確性。此外,本文還設(shè)計(jì)了基于此定位系統(tǒng)的手部指示懸停選擇的視頻播放器應(yīng)用。
深度信息;kinect;手部指示;定位
指示行為是最為常見的自然交互形式之一,常用于引導(dǎo)特定目標(biāo)的共同關(guān)注與交互。在多媒體交互中主要依靠三維鼠標(biāo)、激光筆等實(shí)現(xiàn)指示定位,而通過計(jì)算機(jī)視覺技術(shù)識別人的指示行為具有更自然的交互感。
Kahn和Swain[1]最早提出使用Perseus結(jié)構(gòu)識別指示姿態(tài),以頭部至手部的連線作為指示方向,但是由于使用的頭部和手部的識別算法比較簡單,對人的指示姿態(tài)限制較多,因此缺乏廣泛地應(yīng)用基礎(chǔ)。A.Wu[2],M.Fukumoto[3]利用人體骨骼約束關(guān)系在特定條件下給出基于單攝像機(jī)的指示識別,Nickle和Stiefelhagen[4]通過隱馬爾科夫模型訓(xùn)練不同的指示行為樣本來識別指示動作。NebojsaJojic[5],Yu
Yamamoto[6]等將身體的三維模型映射到二維圖像中用于身體姿態(tài)的估計(jì),從而識別指示手臂的指示方向,靈活性較高,但是由于識別精度較低,多用于大型目標(biāo)的指示判斷,不適用于定位精度要求較高的小型目標(biāo)。
本文研究了一種基于Kinect深度數(shù)據(jù)指示方位判別方法,系統(tǒng)原理圖如圖1所示。
圖1 系統(tǒng)設(shè)計(jì)圖
Kinect位于指示交互區(qū)同側(cè),交互者位于交互區(qū)前方。人指示行為的自然習(xí)慣是在進(jìn)行手指指示時(shí),指尖置于整個人體的最前方。研究根據(jù)此特性通過指尖移動跟蹤區(qū)與交互區(qū)的映射變換定位手指的位置,實(shí)現(xiàn)人的手指的三維運(yùn)動捕捉。
由圖1簡化得系統(tǒng)映射模型如圖2所示。設(shè)Ow-XwYwZw為世界坐標(biāo)系,Oc-XcYcZc為Kinect攝像機(jī)坐標(biāo)系。
圖2 系統(tǒng)映射模型
Kinect攝像機(jī)坐標(biāo)系與世界坐標(biāo)系之間的變換關(guān)系如式1所示:
(1)
其中(Xw,Yw,Zw,1)和(Xc,Yc,Zc,1)分別為空間點(diǎn)P在世界坐標(biāo)系和Kinect攝像機(jī)坐標(biāo)系下的齊次坐標(biāo),R為3×3的正交矩陣,t為三維平移向量,向量0=(0,0,0)T。
設(shè)攝像機(jī)坐標(biāo)系下的點(diǎn)P(Xc,Yc,Zc)在對應(yīng)成像面上的投影位置的坐標(biāo)為p(x,y),關(guān)系如式2:
(2)
若每一像素在x軸與y軸方向上代表的物理尺寸為dx,dy,在圖像坐標(biāo)系中的坐標(biāo)為(u,v),則圖像中任一點(diǎn)在以像素表示的像素坐標(biāo)系下的坐標(biāo)和以物理尺寸表示的圖像坐標(biāo)系下的坐標(biāo)有如下關(guān)系:
(3)
其中(u0,v0)為O1點(diǎn)圖像坐標(biāo)。
設(shè)指示區(qū)域?yàn)槠矫鍻s-XsYs上的一塊矩形區(qū)域,長寬分別為Xsmax,Ysmax,圖像大小為umax×vmax,如圖3所示。則圖像區(qū)——指示區(qū)的線性映射變換如式5所示。
圖3 圖像區(qū)到指示區(qū)的變換
(5)
其中,Sx,Sy分別為行方向和列方向的尺度縮放系數(shù),K為變換矩陣。Sx,Sy的可以由式6計(jì)算得到:
(6)
其中,Xs max,Ys max為指示區(qū)的長和寬,umax,vmax為圖像大小。
本研究建立了一個手指指示定位的測試和評估系統(tǒng),用于測試指示的真實(shí)感和準(zhǔn)確性。
(1)目標(biāo)指示軌跡識別實(shí)驗(yàn)
實(shí)驗(yàn)中,測試人員位于Kinect攝像機(jī)前方約2米處,向指示區(qū)分別畫出“口”、“M”和“8”形,系統(tǒng)記錄指示點(diǎn)的軌跡并繪制。圖4是測試人員畫“8”形時(shí)的4幀圖片,其中(a)、(b)、(c)和(d)分別為繪制“口”左上角、右上角、右下角和左下角的圖像幀。
(a) (b)
(c) (d)圖4 測試人員完成指示點(diǎn)軌跡-“口”形
系統(tǒng)識別出的測試人員手指運(yùn)動的軌跡形狀如圖5所示,其中(a)、(b)、(c)分別為系統(tǒng)識別的“8”、“M”和“口”形的軌跡。
(a) (b) (c)圖5 系統(tǒng)恢復(fù)的指示點(diǎn)運(yùn)動軌跡
從測試的結(jié)果可以看出,指示軌跡平滑、形狀規(guī)則,具有一定的真實(shí)感,且在停頓處有明顯的指示點(diǎn)累積痕跡,有助于在應(yīng)用中實(shí)現(xiàn)指示點(diǎn)的運(yùn)動和停頓識別。
(2)指示點(diǎn)提取誤差實(shí)驗(yàn)
實(shí)際進(jìn)行手指指示操作時(shí),由于攝像機(jī)精度及人為抖動等因素的影響,系統(tǒng)提取的指示點(diǎn)位置并不十分對應(yīng)于預(yù)期的目標(biāo)指示位置,而是存在一定的誤差。本實(shí)驗(yàn)中各選取目標(biāo)平面上構(gòu)成中心對稱的五塊矩形區(qū)域,如圖6所示,測試區(qū)大小為640pixel×480pixel,矩形區(qū)域大小為180pixel×120pixel。中心的矩形編號為A1,其余四塊區(qū)域由左上角區(qū)域開始沿順時(shí)針方向分別編號為A2,A3,A4,A5,每塊區(qū)域內(nèi)部(含邊界)為目標(biāo)指示位置。實(shí)驗(yàn)中由一名實(shí)驗(yàn)者分別對這五塊區(qū)域進(jìn)行指示操作,如圖7所示。每塊區(qū)域重復(fù)30次,記錄下系統(tǒng)給出的實(shí)驗(yàn)者手指指示點(diǎn)在目標(biāo)平面上的定位位置,定位點(diǎn)位于矩形區(qū)域內(nèi)則記錄一次定位成功,否則記錄一次定位失敗,由不同實(shí)驗(yàn)者分別進(jìn)行十組相同實(shí)驗(yàn)。
圖6 指示誤差測試區(qū)域分布
圖7 測試人與員進(jìn)行指示誤差實(shí)驗(yàn)操作
十組實(shí)驗(yàn)的結(jié)果記錄如表1所示:
表1 實(shí)驗(yàn)結(jié)果記錄
圖8 實(shí)驗(yàn)結(jié)果分析條形圖
通過圖8實(shí)驗(yàn)數(shù)據(jù)的分析,該目標(biāo)指示點(diǎn)定位系統(tǒng)在A1~A5各區(qū)域的定位成功率分別為98.67%、98.33%、99.33%、98.33%和96.67%,誤差分別為1.33%、1.67%、0.67%、1.67%、3.33%,其中A5區(qū)域的誤差明顯較高,這是由于測試者在測試過程中均使用右手進(jìn)行指示操作,而A5區(qū)域位于指示區(qū)左下,該區(qū)域的指示動作容易使測試者產(chǎn)生疲勞,造成誤差偏高。系統(tǒng)的綜合定位成功率為98.27%,誤差為1.73%。
根據(jù)手指指示點(diǎn)定位的原理,本文設(shè)計(jì)了基于Kinect深度數(shù)據(jù)的手指指示控制的視頻播放器測試系統(tǒng),如圖9所示。
圖9 手指指示懸停選擇的視頻播放器演示
本應(yīng)用中,操作者站在指示區(qū)即投影儀大屏幕前通過手指指示大屏幕上視頻播放器的相關(guān)功能按鈕,采用懸停選擇的原理對按鈕進(jìn)行“點(diǎn)擊”操作,即手指指示點(diǎn)在按鈕上連續(xù)停留一定的時(shí)間,即表示按鈕的一次“點(diǎn)擊”操作。
設(shè)矩形按鈕從其左上角開始逆時(shí)針?biāo)膫€頂點(diǎn)分別為:P1(x1,y1),P2(x2.y2),P3(x3,y3)和P4(x4,y4),Pa(xa,ya)為系統(tǒng)給出的指示區(qū)上的指示定位點(diǎn)。
設(shè)懸停選擇有效區(qū)Df為手指指示定位點(diǎn)進(jìn)行懸停選擇的有效操作區(qū)域,區(qū)域Df滿足:
(7)
當(dāng)目標(biāo)指示定位點(diǎn)位于有效選擇區(qū)時(shí),計(jì)時(shí)器開始計(jì)時(shí)。執(zhí)行按鈕“點(diǎn)擊”操作的判定條件如式8所示:
(8)
式8中Ts為設(shè)定的懸停選擇時(shí)間閾值,T為目標(biāo)指示定位點(diǎn)(xa,ya)連續(xù)位于有效懸停區(qū)內(nèi)的計(jì)時(shí)值。
在實(shí)際操作中,由于Kinect紅外攝像機(jī)的精度,人手指尖懸停指示穩(wěn)定度以及環(huán)境因素的影響,手指指示懸停會伴隨小范圍的抖動現(xiàn)象,甚至?xí)霈F(xiàn)突發(fā)的劇烈抖動。因此,本文設(shè)計(jì)了一種閾值鎖定法來避免上述問題。
閾值鎖定法的基本原理為:若手指指示定位點(diǎn)上一位置為:(xa,ya)i-1?Df,當(dāng)前位置為(xa,ya)i∈Df,則指示定位點(diǎn)進(jìn)入鎖定狀態(tài)。在鎖定狀態(tài)下,如果指示定位點(diǎn)的下一位置(xa,ya)i+1較當(dāng)前位置(xa,ya)i發(fā)生抖動(Δx,Δy),若(Δx,Δy)滿足式9,其中xL,yL分別為預(yù)設(shè)的抖動鎖定閾值。
Δx≤xL且Δy≤yL
(9)
則認(rèn)為未超過預(yù)設(shè)抖動范圍,不改變下一位置的值,即:
(xa,ya)i+1=(xa,ya)i
(10)
本文選取懸停選擇過程中的200個指示點(diǎn)作為分例,圖10為該過程未消除抖動和消除抖動的懸停選擇結(jié)果比較,其中圖像橫坐標(biāo)表示200個點(diǎn)序列,縱坐標(biāo)值為“1”表示當(dāng)前點(diǎn)位于視頻播放器功能按鈕有效選擇區(qū)內(nèi),“0”表示該點(diǎn)位于有效選擇區(qū)之外:
(a)和消抖動后
(b)懸停選擇結(jié)果比較圖10 未消抖動
從圖10中(a)圖中可以看出未經(jīng)消抖處理前該懸停選擇過程中在第40個指示點(diǎn)附近發(fā)生了兩次抖動,在第140個指示點(diǎn)附近發(fā)生了一次抖動,從(b)圖來看,經(jīng)過消抖之后,三次抖動均被消除。
本文設(shè)計(jì)了一種基于Kinect深度信息的手部指示的目標(biāo)指示點(diǎn)的定位系統(tǒng)。文章中建立了完整的系統(tǒng)數(shù)學(xué)模型,實(shí)現(xiàn)指示點(diǎn)的準(zhǔn)確定位,克服了借助激光筆、三維鼠標(biāo)等帶來的真實(shí)感、交互感低的情況,同時(shí)避免了基于立體視覺的手部指示識別定位存在的對硬件設(shè)備要求高,識別精度低等問題。文中建立了手部指示的真實(shí)感和準(zhǔn)確性的測試系統(tǒng),通過測試結(jié)果的分析,表明該定位系統(tǒng)具有良好的指示真實(shí)感和定位準(zhǔn)確性。此外,本文還設(shè)計(jì)了基于此定位系統(tǒng)的手指指示懸停選擇的視頻播放器應(yīng)用。
[1]REKahn,MJSwain.UnderstandingPeoplePointing:ThePerseusSystem[C].IntlSymposiumofComputerVisionISCV,AMotionIII,1995:11-17.
[2]AWu,MShah,Nda,VLobo.Avirtual3Dblackboard:3DfingertrackingusingaSinglecamera[C].ProcICAFGR,2000:536-543.
[3]MFukumoto,YSuenaga.Finger-pointer:potinginterfacebyimageprocessing[J].Computer&Graphics,1994,18(5):633-642.
[4]KNickel,RStiefelhagen.Real-timeRecognitioaof3D-PointingGesturesforHumanMachineInteraction[J].DAGM,2003:557-565.
[5]NJojic,BBrumitt,BMeyers,SHarris.Detectingendestimatingpointinggesturesindensedisparitymaps[C].IEEEInternationalConferenceonFaceandGesturerecognition,Crenoble,F(xiàn)rance,2000:468-475.
[6]YYamamoto,IYodaandKSakaue.Arm-pointingGestureInterfaceUsingSurroundedStereoCamerasSystem[C].Proceedingofthe17thInternationalConferenceonPatternRecognition,2004:965-970.
(責(zé)任編輯:馬玉鳳)
SystemofHandPointingLocationBasedonKinectDepthData
ZHANGChen,ZHANGZhao,LVChao-hui
(SchoolofInformationEngineering,CommunicationUniversityofChina,Beijing100024)
ThepaperdesignedasystemoffingerpointinglocationbasedonthedepthdataofKinect.Wesetupacompletemodelofthesystemandachievedthefingerpointinglocationaccurately.Thedesignavoidnotonlytosomedegreetheinconveniencewhenoperatingwitha3D-mouseoralaserpointer,butalsosomeproblemsofthehighdemandofhardwaredevicesandlowidentificationaccuracyofthepointingcontrolbasedonstereo-vision.Thepaperdesignedatestandanalysissystemtoestimatethesenseofrealityandaccuracyofthesystem,theresultoftheanalysisofthetestdatashowsthatthesystemearnedagoodsenseofrealityandaccuracy.Besides,thepaperdesignedafingerpointingcontrolledmediaplayerbasedonthefingerpointinglocationsystem.
depthdata;kinect;handpointing;location
2016-01-13
張晨(1991-),女(漢族),山東菏澤人,中國傳媒大學(xué)碩士研究生.E-mai:365291904@qq.com
TP317
A
1673-4793(2016)03-0046-05