王粉花, 張萬書
(北京科技大學(xué)自動(dòng)化學(xué)院,北京 100083)
真實(shí)人與虛擬世界的溝通要憑借人機(jī)交互技術(shù),在人與計(jì)算機(jī)之間相互適應(yīng)的互動(dòng)過程中,人機(jī)交互技術(shù)也不再局限于鼠標(biāo)鍵盤輸入、遙控器操作等,而是以更加新奇的方式出現(xiàn),如聲波振動(dòng)、手勢動(dòng)作、眼珠和舌頭的轉(zhuǎn)動(dòng)等?;谑謩葑R(shí)別的人機(jī)交互技術(shù)是目前虛擬現(xiàn)實(shí)領(lǐng)域的研究熱點(diǎn)之一。利用手的位置、姿勢和運(yùn)動(dòng)來與計(jì)算機(jī)進(jìn)行交互,是一種自然高效的交互方式[1-3]。
基于手勢識(shí)別技術(shù)的3D虛擬交互系統(tǒng)采用一個(gè)固定攝像頭采集左手的姿態(tài)和動(dòng)作信息,控制視角在3D環(huán)境中移動(dòng)和轉(zhuǎn)向;采用兩個(gè)具有兩個(gè)自由度轉(zhuǎn)動(dòng)的攝像頭動(dòng)態(tài)跟蹤采集右手的姿態(tài)和位置,控制3D環(huán)境中虛擬手的移動(dòng)和動(dòng)作變化,通過對(duì)虛擬手的操作實(shí)現(xiàn)與虛擬環(huán)境中三維物體的交互,如抓取、移動(dòng)物體等動(dòng)作。并隨著左手的移動(dòng)切換3D場景,同時(shí)伴隨不同的動(dòng)作發(fā)出不同的聲音,可實(shí)現(xiàn)真實(shí)的人與虛擬3D環(huán)境之間的沉浸式交互[4-5]。
系統(tǒng)的硬件結(jié)構(gòu)包括圖像采集模塊、嵌入式主處理器平臺(tái)、協(xié)處理器動(dòng)態(tài)跟蹤模塊三部分,如圖1所示。以英特爾凌動(dòng)處理器平臺(tái)作為整個(gè)嵌入式系統(tǒng)的核心,通過DVI接口,Audio芯片分別和顯示器及音響連接,作為整個(gè)系統(tǒng)圖像和聲音的輸出;通過PCI插槽與視頻采集卡相連,采集3個(gè)角度攝像頭的圖像信息,經(jīng)過圖像處理和手勢識(shí)別后作為交互的輸入信息;通過COM1接口采用串口方式與ATMega16協(xié)處理器相通信,用來控制攝像頭實(shí)時(shí)動(dòng)態(tài)跟蹤手的運(yùn)動(dòng)。
圖像采集模塊包括視頻采集卡、拍攝左手圖像的左攝像頭,以及分別拍攝右手圖像的左、右視圖的右攝像頭1和右攝像頭2。
圖1 系統(tǒng)硬件結(jié)構(gòu)圖
選用模擬攝像頭+采集卡的圖像采集方案。采用3個(gè)輸出信號(hào)為模擬量的攝像頭采集原始圖像,通過HB17004TV視頻采集卡轉(zhuǎn)換為數(shù)字格式的圖像,采集卡通過PCI總線插槽與嵌入式主板相連,應(yīng)用采集卡SDK中的API接口函數(shù),啟動(dòng)采集卡并獲取圖像。
嵌入式主處理器平臺(tái)包括英特爾凌動(dòng)處理器、音頻接口、視頻接口、串行通信接口。它是基于英特爾功能強(qiáng)大的Menlow處理器,該平臺(tái)功耗低,體積小,具有LPC、PCI、ISA等豐富的硬件接口,可在實(shí)驗(yàn)環(huán)境下保持長時(shí)間穩(wěn)定運(yùn)行[6]。
主處理器的主要任務(wù)包括:利用左手分割信息獲得虛擬場景視角變化信息;基于右手分割信息進(jìn)行手勢識(shí)別獲得手勢姿態(tài)信息;分別計(jì)算右手圖像的目標(biāo)位置和采集位置偏差的實(shí)際轉(zhuǎn)化值;根據(jù)右手的空間坐標(biāo)值、右手的手勢姿態(tài)信息以及虛擬場景視角變化信息,進(jìn)行3D場景更新。
協(xié)處理器動(dòng)態(tài)跟蹤模塊包括協(xié)處理器和步進(jìn)電機(jī)。協(xié)處理器基于每個(gè)循環(huán)周期從主處理器發(fā)送的右手圖像的目標(biāo)位置和采集位置偏差的實(shí)際轉(zhuǎn)化值,獲取當(dāng)前循環(huán)周期各步進(jìn)電機(jī)的位置和步進(jìn)值,其中,步進(jìn)電機(jī)包括右攝像頭1的左水平步進(jìn)電機(jī)、左垂直步進(jìn)電機(jī),和右攝像頭2的右水平步進(jìn)電機(jī)、右垂直步進(jìn)電機(jī);并根據(jù)右攝像頭1和2的轉(zhuǎn)角獲取右手的空間坐標(biāo)。
系統(tǒng)軟件的設(shè)計(jì)步驟是:系統(tǒng)開始運(yùn)行后,首先進(jìn)入系統(tǒng)初始化階段,進(jìn)行窗體初始化、協(xié)處理器通信初始化、采集卡初始化、3D場景初始化。
初始化結(jié)束,進(jìn)入消息循環(huán)階段,處理窗體有關(guān)的消息。在大部分的循環(huán)空閑時(shí)間執(zhí)行圖像處理和3D顯示的程序。
在圖像處理部分,首先進(jìn)行圖像采集,之后對(duì)采集的圖像進(jìn)行分割,把圖像中手的部分分離處理,確定其范圍和中心點(diǎn)。其中左手的分割結(jié)果直接送到交互接口程序,判斷視角的移動(dòng)和旋轉(zhuǎn);右手的分割結(jié)果一部分計(jì)算距離偏差,由協(xié)處理器進(jìn)行跟蹤的運(yùn)動(dòng)控制,計(jì)算并返回手的空間坐標(biāo)值;右手的分割結(jié)果另一部分送入手勢識(shí)別程序,經(jīng)過邊緣提取、分類判別得到手勢姿態(tài)。
交互接口部分綜合得到視角的移動(dòng)和旋轉(zhuǎn)值、手的移動(dòng)和姿態(tài)值,交給3D場景更新部分。3D場景更新部分根據(jù)交互接口的傳遞值和目前3D環(huán)境中的狀態(tài),根據(jù)物理規(guī)則計(jì)算下一時(shí)刻場景的狀態(tài)和聲音情況,并更新、輸出下一時(shí)刻的3D場景和聲音。系統(tǒng)軟件設(shè)計(jì)流程圖如圖2所示。
圖2 系統(tǒng)軟件流程圖
攝像頭的好壞決定了圖像采集的原始質(zhì)量,采集卡則決定了圖像采集的分辨率、傳輸?shù)乃俣取?/p>
經(jīng)過多次比較發(fā)現(xiàn),USB攝像頭采集的圖像色彩明顯不如模擬攝像頭采集的圖像色彩飽和、鮮艷、真實(shí),在基于顏色的判別時(shí)會(huì)有偏差。而且在光照條件變化的情況下,因“補(bǔ)償”和“增益”的性能影響,USB攝像頭的適應(yīng)性也不如模擬攝像頭好。傳輸速度上,USB攝像頭對(duì)動(dòng)態(tài)圖像的分辨率和響應(yīng)會(huì)下降,而模擬攝像頭因采用專用視頻壓縮采集卡,對(duì)動(dòng)態(tài)的圖像也可以很流暢地采集。因此,本系統(tǒng)最終選擇了模擬攝像頭的采集方案。同時(shí)嘗試了很多種型號(hào)的采集卡,最終選擇了漢邦HB17004TV系列采集卡。該采集卡性能分析如下[7]:
(1)采集卡總線接口為PCI,支持4路視頻輸入;
(2)視頻的分辨率為CIF(352×288);
(3)該采集卡提供SDK開發(fā)包,方便圖像采集的開發(fā)。
本文采用基于多智能體協(xié)作思想的圖像分割算法,其原理敘述如下:
把圖像看作一個(gè)復(fù)雜的“環(huán)境”,在這個(gè)“環(huán)境”里,每一個(gè)像素點(diǎn)都是一個(gè)獨(dú)立的“智能體”,這個(gè)“智能體”具有它獨(dú)立的屬性和能力[5]。屬性包括所代表的像素點(diǎn)的灰度值、RGB顏色分量值、HSV顏色分量值、相鄰個(gè)體的地址、所屬的分組值等;能力包括“行為”和“對(duì)話”等能力,“行為”能力包括判斷自身顏色,“對(duì)話”能力包括ask、tell等對(duì)話的語句。復(fù)雜“環(huán)境”中的一群“智能體”在“管理者”的引導(dǎo)下互相交流,共同去完成圖像分割的任務(wù),也就是找到其中符合規(guī)則協(xié)議的子群體,這個(gè)子群體就是最終分割的結(jié)果。在“智能體”概念的基礎(chǔ)上建立的“管理者”不具備某一個(gè)像素點(diǎn)的屬性,但它具有像素點(diǎn)的能力和監(jiān)督引導(dǎo)個(gè)體行為的權(quán)力,它負(fù)責(zé)利用規(guī)則協(xié)議引導(dǎo)個(gè)體之間進(jìn)行有效的行為和對(duì)話,完成圖像分割的任務(wù)[8-9]。
規(guī)則協(xié)議分為區(qū)域規(guī)則和邊緣規(guī)則。在區(qū)域規(guī)則中,每個(gè)組都要計(jì)算個(gè)體的數(shù)量,對(duì)于雜點(diǎn)來說,這樣的組個(gè)體數(shù)量應(yīng)該較小,所以排除個(gè)體數(shù)較小的組。
在邊緣規(guī)則中,每個(gè)組要計(jì)算組的中心點(diǎn)位置,每兩個(gè)中心點(diǎn)做連線,判斷圖像在連線上的顏色,經(jīng)過手和手臂的連線上黑色和膚色將是主要的顏色,再根據(jù)連線的方向最終可判斷出手的區(qū)域[10]。圖像分割算法流程如圖3所示。
手在做動(dòng)作時(shí),手掌和手指的形狀特征變化很明顯,所以本文采用了基于形狀特征的方法識(shí)別手勢動(dòng)作。具體方法如下:
圖3 圖像分割算法流程圖
從右手分割信息中獲得包含右手手部區(qū)域的最小矩形的縱橫比系數(shù)、最小矩形面積以及右手手部區(qū)域?qū)嶋H面積,計(jì)算右手手部區(qū)域?qū)嶋H面積與最小矩形面積的面積比,當(dāng)縱橫比系數(shù)接近于1且面積比大于0.6,為握拳姿態(tài),否則為手掌姿態(tài);當(dāng)為手掌姿態(tài)時(shí),在最小矩形縱向邊長的三分之二處和四分之三處分別畫兩條橫線,判斷兩條橫線上膚色點(diǎn)翻轉(zhuǎn)次數(shù)之和,當(dāng)翻轉(zhuǎn)次數(shù)大于6時(shí),為伸直平掌,否則為伸直側(cè)掌。
動(dòng)態(tài)跟蹤模塊的程序分主處理器端和協(xié)處理器端。主處理器端在每個(gè)循環(huán)周期里向協(xié)處理器發(fā)送偏差值并讀取坐標(biāo),協(xié)處理器則根據(jù)偏差控制電機(jī)帶動(dòng)攝像頭轉(zhuǎn)動(dòng),并根據(jù)各攝像頭轉(zhuǎn)角計(jì)算出手的空間坐標(biāo),返回給主處理器。協(xié)處理器接收數(shù)據(jù)采用中斷方式,這樣在電機(jī)正常轉(zhuǎn)動(dòng)的同時(shí)保證數(shù)據(jù)的接收與控制計(jì)算[11]。主處理器端程序流程如圖4所示,協(xié)處理器端程序流程如圖5所示。
圖4 主處理器端程序流程圖
本系統(tǒng)采用Direct3D和DirectSound開發(fā)3D虛擬交互界面和聲音系統(tǒng)??筛鶕?jù)不同的場景需求,進(jìn)而發(fā)出不同的聲音,使得人機(jī)虛擬交互場景更加生動(dòng)和真實(shí)。場景模型的建立,采用3dsmax進(jìn)行輔助開發(fā),實(shí)現(xiàn)復(fù)雜場景及物體模型的建立[12-13],在手的動(dòng)作上,采用骨骼蒙皮技術(shù)實(shí)現(xiàn)[14]。3D虛擬場景程序開發(fā)流程如圖6所示。
圖5 協(xié)處理器端程序流程圖
圖6 3D虛擬場景程序開發(fā)流程圖
對(duì)虛擬手位置控制的測試,分別測試了上移、下移、左移、右移四個(gè)位置的控制??刂莆恢脺y試記錄如表1所示。控制移動(dòng)動(dòng)作識(shí)別的成功率測試記錄如表2所示。
測試發(fā)現(xiàn),真實(shí)的手在水平方向作左右移動(dòng)時(shí),虛擬手的運(yùn)動(dòng)路線呈一條曲線,當(dāng)離中心點(diǎn)越遠(yuǎn)偏差越大。經(jīng)過分析,發(fā)現(xiàn)定位算法造成的誤差不大,誤差的產(chǎn)生是機(jī)械安裝的精度造成的,在攝像頭旋轉(zhuǎn)時(shí),成像的中心點(diǎn)和旋轉(zhuǎn)的中心點(diǎn)會(huì)有不可避免的安裝精度誤差,這樣當(dāng)旋轉(zhuǎn)角度較大時(shí),會(huì)造成成像中心點(diǎn)的偏移,導(dǎo)致了位置的誤差;經(jīng)過對(duì)機(jī)械結(jié)構(gòu)的改造,基本滿足了實(shí)際控制的精度要求[15]。
對(duì)虛擬手動(dòng)作控制的測試,分別測試了伸直側(cè)向、握緊2個(gè)動(dòng)作。測試結(jié)果分別如圖7、8所示。
表1 虛擬手控制位置測試表
表2 控制移動(dòng)動(dòng)作識(shí)別的成功率測試
圖7 控制虛擬手動(dòng)作——伸直側(cè)向
圖8 控制虛擬手動(dòng)作——握緊
手勢識(shí)別的成功率測試記錄如表3所示:
表3 識(shí)別的成功率測試
本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于手勢識(shí)別的3D虛擬交互系統(tǒng)。通過對(duì)左手運(yùn)動(dòng)方位的分析控制場景中視角的變化,并對(duì)右手位置和右手手勢進(jìn)行分析,得到右手在場景中對(duì)應(yīng)虛擬手的三維位置信息,進(jìn)而不斷更新場景中虛擬手的位置和手勢。通過手勢動(dòng)作去控制真實(shí)人與顯示在計(jì)算機(jī)桌面中的虛擬環(huán)境進(jìn)行交互,能夠控制虛擬手完成抓取和移動(dòng)物體的動(dòng)作,并取得了良好的測試效果。
[1] 陳 超,孟劍萍.基于手勢識(shí)別的人機(jī)交互技術(shù)[J].計(jì)算機(jī)與數(shù)字工程,2012,40(10):137-139,142.CHEN Chao,MENG Jian-ping.Research and Design for Human-Computer Interaction Based on Gesture[J].Computer & Digital Engineering,2012,40(10):137-139,142.
[2] 張東明,張國鋒,戴樹齡.基于視覺的多用戶手勢識(shí)別人機(jī)交互技術(shù)研究[J].系統(tǒng)仿真學(xué)報(bào),2008,20(9):53-56.ZHANG Dong-ming,ZHANG Guo-feng,DAI Shu-ling.Research on Vision-Based Multi-userGesture Recognition Human-Computer Interaction[J].Journal of System Simulation,2008,20(9):53-56.
[3] 劉衛(wèi)光.圖像信息融合與識(shí)別[M].北京:電子工業(yè)出版社,2008.
[4] 周見光,石 剛,馬小虎.增強(qiáng)現(xiàn)實(shí)系統(tǒng)中的虛擬交互方法[J].計(jì)算機(jī)工程,2012,38(1):251-252,255.ZHOU Jian-guang,SHI Gang,MA Xiao-hu.Virtual Interactive Method in Augmented Reality System[J].Computer Engineering,2012,38(1):251-252,255.
[5] 袁 麗,張寶運(yùn).人機(jī)自然交互支持的3D虛擬教具設(shè)計(jì)[J].系統(tǒng)仿真學(xué)報(bào),2012,24(9):1973-1975,1979.YUAN Li,ZHANG Bao-yun.Design of 3D Virtual Manipulatives Supported by Natural Human Computer Interaction[J].Journal of System Simulation,2012,24(9):1973-1975,1979.
[6] 華北工控.EMB_4650 EPIC Board USER'Manual V1.0[Z].北京:華北工控,2009.
[7] 北京漢邦高科數(shù)字技術(shù)有限公司.HB18T系統(tǒng)SDK開發(fā)指南[Z].北京:北京漢邦高科數(shù)字技術(shù)有限公司,2009.
[8] 張曉勇,吳 敏,彭 軍.基于信息融合的多智能體協(xié)作方法的研究與應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(22):27-30.ZHANG Xiao-yong,WU Min,PENG Jun.Research and application on MAS collaboration mechanism based on information fusion.Computer Engineering and Applications,2008,44(22):27-30.
[9] 付躍文,梁加紅,李 猛,等.基于多智能體粒子群的快速碰撞檢測算法研究[J].系統(tǒng)仿真學(xué)報(bào),2013,25(8):1876-1880.FU Yue-wen,LIANG Jia-hong,LI Meng,et al.Research on Fast Collision Detection Using Multi-Agent Particle Swarm Optimization[J].Journal of System Simulation,2013,25(8):1876-1880.
[10] CAO Long-bing, DAI Ru-wei. Human-Computer-Cooperated Intelligent Information System Based on Multi-Agents[J].Acta Automatica Sinica,2003,29(1):86-94.
[11] Frank D.Luna.DirectX 9.0 3D 游戲開發(fā)編程基礎(chǔ)[M].北京:清華大學(xué)出版社,2007.
[12] Jim Adams.DirectX高級(jí)動(dòng)畫制作[M].重慶:重慶大學(xué)出版社,2005.
[13] 李維杰,楊 昱,林紀(jì)河.中文版3dsmax8三維造型與動(dòng)畫制作簡明教程[M].北京:清華大學(xué)出版社,2007.
[14] 張沙沙.基于骨骼蒙皮動(dòng)畫的虛擬人手勢合成技術(shù)的研究[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2013,16(7):108-110.ZHANG Sha-sha.Research on virtual human gesture synthesis technology based on skinned mesh animation[J].Computer CD Software and Application,2013,16(7):108-110.
[15] 朱向慶,胡均萬,陳宏華,等.多功能單片機(jī)實(shí)驗(yàn)系統(tǒng)的研制[J].實(shí)驗(yàn)室研究與探索,2012,31(4):41-44.ZHU Xiang-qing, HU Jun-wan, CHEN Hong-hua, etal.Development of a Multifunctional Experimental System for Single Chip Microprocessor[J].Research and Exploration in Laboratory,2012,31(4):41-44.