毛雁明,章立亮
(寧德師范學(xué)院 計算機(jī)系,福建 寧德 352100)
,
?
基于Kinect骨架追蹤技術(shù)的PPT全自動控制方法研究
毛雁明,章立亮
(寧德師范學(xué)院 計算機(jī)系,福建 寧德 352100)
提出了一種基于Kinect骨架追蹤技術(shù)的PPT全自動控制方法,首先通過Kinect傳感器獲取骨架節(jié)點(diǎn)的三維信息,其次根據(jù)骨架節(jié)點(diǎn)之間的位置關(guān)系以及左右手的運(yùn)動信息對手勢進(jìn)行識別,最后將手勢識別結(jié)果映射到PPT控制命令以實(shí)現(xiàn)對PPT的全自動控制.實(shí)驗(yàn)結(jié)果表明,該方法對不同光照和復(fù)雜背景具有很好的魯棒性,識別率高且能夠有效地實(shí)現(xiàn)對PPT的全自動控制.
Kinect; 骨架追蹤; PPT控制; 手勢識別
隨著會議、演講及授課智能化程度的提高,PPT作為其重要輔助工具,為用戶提供了便利.但由于對PPT的控制受到傳統(tǒng)輸入設(shè)備如鼠標(biāo)、鍵盤等的束縛,使得人機(jī)交互方式不能滿足用戶的需要.為了使用戶能夠更加自然、友好、人性化的無接觸控制PPT,可使用聲音、激光筆、手勢等來控制PPT.由于手勢含有大量的交互信息,且提供了自然、直接的人際交互方式,同時也符合人類的行為習(xí)慣.因此,許多研究者對手勢識別進(jìn)行了相關(guān)的研究,大體可以分為2類:一類是基于視覺的手勢識別方法[1-3],主要利用網(wǎng)絡(luò)攝像頭捕獲手勢圖像進(jìn)而分割手勢,然后采用特定的方法識別手勢.該方法的缺點(diǎn)是容易受到光照條件、復(fù)雜背景以及類膚色如人臉等的干擾;另一類是基于Kinect傳感器的手勢識別方法[4-10],主要利用微軟2010年新近推出的Kinect傳感器獲取手勢深度圖像,而深度信息對光照以及復(fù)雜環(huán)境等具有很好的魯棒性,能夠克服基于視覺的手勢識別方法的缺點(diǎn).但這2類方法在進(jìn)行手勢識別之前都需要進(jìn)行手勢分割,而手勢分割的質(zhì)量將影響后續(xù)的手勢識別效果.因此,筆者提出了一種基于Kinect骨架追蹤技術(shù)的手勢識別方法,該方法不需要對手勢進(jìn)行分割,而是直接利用Kinect傳感器獲取人體骨架節(jié)點(diǎn)信息,接著根據(jù)骨架節(jié)點(diǎn)之間的位置關(guān)系以及左右手的運(yùn)動信息對手勢進(jìn)行識別,最后將手勢識別結(jié)果應(yīng)用于對PPT的全自動控制.試驗(yàn)結(jié)果表明,該方法對光照條件和復(fù)雜背景具有很好的魯棒性,識別率高且能夠有效的實(shí)現(xiàn)對PPT的全自動控制.
骨架追蹤是Kinect“體感操作”的基礎(chǔ),通過Kinect傳感器獲取深度圖像,并利用機(jī)器學(xué)習(xí)和模式識別的方法來感知壓縮深度信息,從而構(gòu)建火柴人的骨架節(jié)點(diǎn),圖1為OpenNI可檢測的15個關(guān)節(jié)點(diǎn)構(gòu)造火柴人的示意圖[11].
圖1 OpenNI可檢測的15個關(guān)節(jié)點(diǎn)
深度圖的獲取采用了光編碼技術(shù)(Light Coding),將經(jīng)過編碼后的紅外線散斑投射到空間中,使得空間被標(biāo)記,由于散斑具有高度的隨機(jī)性,使得空間中任意兩處的散斑具有不同的圖案,接著接收器(一個標(biāo)準(zhǔn)的CMOS感應(yīng)器)將接收到的空間外線影像交由PS1080芯片處理,計算出深度圖.Kinect傳感器要把得到的深度圖轉(zhuǎn)換為骨架圖,如圖2所示,需要經(jīng)過以下3個步驟:1)人體識別,即將人體從背景環(huán)境中區(qū)分出來,主要通過分析比較接近Kinect的區(qū)域,這也是最有可能是人體的目標(biāo),接著逐點(diǎn)掃描這些區(qū)域深度圖像的像素判斷屬于人體的哪些部位;2)部位分類,即從深度圖像中利用特征值將人體32個部位識別出來;3)光節(jié)點(diǎn)識別,即利用機(jī)器學(xué)習(xí)的方法對已識別的32個人體部位信息進(jìn)行分析識別出20個關(guān)節(jié)點(diǎn)數(shù)據(jù)[12].
圖2 深度圖像轉(zhuǎn)換為骨骼圖像
目前OpenNI/NITE一共定義了24個關(guān)節(jié)點(diǎn),不過現(xiàn)在只有15個關(guān)節(jié)點(diǎn)可以通過骨架功能(SkeletonCapability)提供的成員函數(shù)GetSkeletonJointPosition()函數(shù)獲取關(guān)節(jié)點(diǎn)的位置信息,此時獲取的骨架點(diǎn)坐標(biāo)是真實(shí)世界的絕對坐標(biāo),因此,需要通過深度生成器DepthGenerator下的ConvertRealWorldToProjective()函數(shù)將絕對坐標(biāo)轉(zhuǎn)換為屏幕上的投影坐標(biāo),以便在屏幕上繪制關(guān)節(jié)點(diǎn).通過調(diào)用Qt中的QPainter類的成員函數(shù)drawEllipse()畫圓函數(shù)繪制關(guān)節(jié)點(diǎn)以及drawLine()畫線函數(shù)繪制相應(yīng)關(guān)節(jié)點(diǎn)之間的連線,其在白天和黑暗條件下繪制骨骼關(guān)節(jié)點(diǎn)圖像的效果如圖3所示.從圖3中可以看出,該方法對光照條件和復(fù)雜背景具有很好的魯棒性.
手勢識別的效果是實(shí)現(xiàn)全自動控制PPT的關(guān)鍵,本文的手勢識別方法無需進(jìn)行前期手勢的分割,而是直接通過分析骨架節(jié)點(diǎn)之間的位置關(guān)系以及左右手的運(yùn)動信息實(shí)現(xiàn)對手勢的識別,并將識別結(jié)果應(yīng)用到對PPT的全自動控制.
圖3 骨骼圖像
2.1 手勢定義 要實(shí)現(xiàn)手勢的識別,必須事先建立一個有意義的手勢集合,根據(jù)PPT中常用的打開、最大化、第一頁、最后一頁、上一頁、下一頁以及關(guān)閉功能,定義了7種手勢,如表1所示.表1中“LeftRightUp”表示左右手升起且高過頭部,用于打開PPT文件;“LeftRightStraight”表示左右手往兩邊伸直,用于最大化PPT文件;“RightUp”表示右手升起且高過頭部,用于將PPT翻到第一頁;“LeftUp”表示左手升起且高過頭部,用于將PPT翻到最后一頁;“LeftToLeft”表示左手向左運(yùn)動,用于將PPT翻到上一頁;“RightToRight”表示右手向右運(yùn)動,用于將PPT翻到下一頁;“LeftRightCombine”表示雙手合并,用于關(guān)閉PPT.
表1 手勢定義表
2.2 手勢識別 根據(jù)表1定義的手勢,只需要用到其中3個骨架節(jié)點(diǎn)信息,即左手位置信息、右手位置信息以及頭部位置信息,分別用LeftHand、RightHand和Head表示.現(xiàn)在可通過判斷左右手與頭部之間的位置關(guān)系以及左右手的運(yùn)動信息實(shí)現(xiàn)對手勢的識別.設(shè)人體離Kinect傳感器1 m左右,則當(dāng)LeftHand.Y>Head.Y且RightHand.Y>Head.Y時,識別出的手勢為“LeftRightUp”;當(dāng)LeftHand.Y
(1)
其中h為手心深度, (x,y)為手心的真實(shí)位置,(x′,y′)為轉(zhuǎn)換后在640×480標(biāo)準(zhǔn)區(qū)域的坐標(biāo).因此通過對轉(zhuǎn)換后的坐標(biāo)分析可完成對手勢的識別.
2.3PPT控制 根據(jù)手勢識別的結(jié)果,只有當(dāng)識別的手勢為“LeftRightUp”時,才調(diào)用MFC中的ShellExecuteA()函數(shù)打開PPT文件,再調(diào)用FindWindowA()函數(shù)獲取該文件的句柄,設(shè)為hwnd,這樣就可以通過PostMessage()函數(shù)向該P(yáng)PT句柄發(fā)送相應(yīng)的消息實(shí)現(xiàn)對PPT的控制.當(dāng)手勢為“LeftRightStraight”時,發(fā)送VK_F5消息以最大化PPT;當(dāng)手勢為“RightUp”時,發(fā)送VK_HOME消息將PPT翻到第一頁;當(dāng)手勢為“LeftUp”時,發(fā)送VK_END消息將PPT翻到最后一頁;當(dāng)手勢為“LeftToLeft”時,此時需判斷PPT是否在第一頁,若不是,則發(fā)送VK_LEFT消息將PPT上翻一頁;當(dāng)手勢為“RightToRight”時,此時需判斷PPT是否在最后一頁,若不是,則發(fā)送VK_LEFT消息將PPT下翻一頁;當(dāng)手勢為“LeftRightCombine”時,發(fā)送VK_MENU和VK_F4消息關(guān)閉PPT文件.PPT控制系統(tǒng)流程如圖4所示.
為了驗(yàn)證本文算法的有效性,以VS2008為開發(fā)工具,基于OpenNI和Qt編寫了一個基于Kinect骨骼追蹤技術(shù)的PPT全自動控制的應(yīng)用程序,識別速度為25f/s,達(dá)到了手勢識別應(yīng)用實(shí)時性的要求.
圖5為手勢識別與PPT控制實(shí)驗(yàn)效果圖,從圖中可以看出,該手勢識別方法無需進(jìn)行前期手勢的分割,只需要根據(jù)雙手和頭部關(guān)節(jié)點(diǎn)的位置關(guān)系以及雙手的運(yùn)動信息就可實(shí)現(xiàn)手勢的識別.為了驗(yàn)證本文算法的有效性,采集5個人分別按照定義的手勢對PPT進(jìn)行操作,其實(shí)驗(yàn)結(jié)果如表2所示.從表2中可以看出,用戶成功率都高于97%且每個手勢的操作成功率高于95%,尤其是打開、最大化、第一頁、最后一頁和關(guān)閉的操作成功率為100%,而上一頁、下一頁操作個別有誤的原因是人手運(yùn)動過慢或人手運(yùn)動過快后又將手移回原處.綜上所述,本文算法總的平均操作成功率為98.4%,能夠有效的應(yīng)用于對PPT的全自動控制.
圖5 手勢識別與PPT控制效果圖
表2 手勢識別成功率(其中m/n表示成功m次,失敗n次)
打開最大化最后一頁第一頁下一頁上一頁關(guān)閉用戶成功率/%User110/010/015/015/018/219/110/097%User210/010/015/015/019/119/110/098%User310/010/015/015/020/020/010/0100%User410/010/015/015/019/119/110/098%User510/010/015/015/019/120/010/099%操作成功率/%100%100%100%100%95%97%100%
本文提出了一種基于Kinect骨架追蹤技術(shù)的手勢識別方法,先利用骨架功能提供的GetSkeletonJointPosition()函數(shù)獲取15個關(guān)節(jié)點(diǎn)位置信息,并根據(jù)PPT常用操作功能選取了左手、右手以及頭部3個關(guān)節(jié)點(diǎn)信息作為手勢識別的特征向量,然后利用左右手與頭部、左右手之間的位置關(guān)系以及左右手的運(yùn)動信息進(jìn)行手勢識別,最后將手勢識別的結(jié)果應(yīng)用于對PPT的全自動控制.該方法的優(yōu)點(diǎn)是無需進(jìn)行前期的手勢分割工作,識別率高且能夠有效地實(shí)現(xiàn)對PPT的全自動控制.下一步的工作是在手勢識別中考慮更多的骨架節(jié)點(diǎn)信息,并將其推廣到其他應(yīng)用領(lǐng)域.
[1]WachsJP,KolschM,SternH,etal.Vision-basedhand-gestureapplications[J].CommunicationsoftheACM, 2011, 54(2):60-71.
[2] 張秋余,王道東,張墨逸,等.基于特征包支持向量機(jī)的手勢識別[J].計算機(jī)應(yīng)用,2012,32(12):3 392-3 396.
[3] 公衍超,萬帥,楊楷芳,等.利用雙目視覺視頻的實(shí)時三維裸手手勢識別[J].西安電子科技大學(xué)學(xué)報(自然科學(xué)版),2014,41(4): 130-136.
[4] 陶麗君,李翠華,張希倩,等.基于Kinect傳感器深度信息的動態(tài)手勢識別[J].廈門大學(xué)學(xué)報(自然科學(xué)版),2013,52(4):493-497.
[5] 鄧瑞,周玲玲,應(yīng)忍冬. 基于Kinect深度信息的手勢提取與識別研究[J].計算機(jī)應(yīng)用研究,2013,30(4): 1 263-1 265.
[6] 李健,路飛,田國會,等.基于Kinect的PPT全自動控制系統(tǒng)研究[J].計算機(jī)工程與應(yīng)用,2013,49(17):133-138.
[7]ZhouRen,YuanJunsong,MengJingjing,etal.RobustPart-basedHandGestureRecognitionusingKinectSensor[J].IEEETrans.onMultimedia(T-MM), 2013,15(5):1 110-1 120.
[8] 王松林.基于Kinect的手勢識別與機(jī)器人控制技術(shù)研究[D].北京:北京交通大學(xué),2014.
[9] 許凱,王敏.基于手輪廓的深度圖像手勢識別方法[J].計算機(jī)工程與科學(xué),2014,36(5):941-946.
[10] 屈燕琴,李昕,盧夏衍.基于表觀特征分析的手勢識別及其應(yīng)用[J].計算機(jī)工程與科學(xué),2015,37(1):139-145.
[11] 任侃,曹越,吳杰,等.OpenNI體感應(yīng)用開發(fā)實(shí)踐[M]. 北京:機(jī)械工業(yè)出版社.2014:82-84.
[12] 余濤.Kinect應(yīng)用開發(fā)實(shí)踐[M].北京:機(jī)械工業(yè)出版社.2013:60-65.
PPT Full-automatic Control Method Based on Kinect Skeleton Tracking Technology
MaoYanming,ZhangLiliang
(DepartmentofComputer,NingdeNormalUniversity,Ningde352100,China)
Inourreport,anovelPPTautomaticcontrolmethodbasedonKinectskeletontrackingtechnologywasproposed.Firstly,theKinectsensorwasutilizedtocapturethe3Dinformationofskeletonjoints;secondly,thepositionrelationshipbetweenskeletonjointsandmotioninformationofleftandrighthandwereusedforrealizinggesturerecognition;finally,thegesturerecognitionresultsweremappedtoPPTcontrolcommandstorealizePPTautomaticcontrol.Theresultsindicatedthatthemethodhasgoodrobustnessinthedifferentilluminationandcomplexbackgrounds,highrecognitionrate,andcanrealizetheautomaticcontrolofPPTeffectively.
Kinectsensor;skeletaltracking;PPTcontrol;gesturerecognition
2015-03-25
福建省自然科學(xué)基金(2015J01660);福建省教育廳A類科技項(xiàng)目(JA15543)
毛雁明(1982-),男,福建福安人,講師,碩士,研究方向:計算機(jī)視覺、模式識別,E-mail:hydrone@163.com
1004-1729(2015)03-0215-06
TP 391.41
A DOl:10.15886/j.cnki.hdxbzkb.2015.0040