武 霞,張 崎,許艷旭
(1.北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院,北京 100083;2.北京科技大學(xué)自動(dòng)化學(xué)院,北京 100083)
隨著計(jì)算機(jī)的廣泛應(yīng)用,人機(jī)交互(Human Computer Interaction,HCI)已成為人們?nèi)粘I钪械闹匾糠?。人機(jī)交互的最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器自然地交流,因此手勢(shì)識(shí)別研究順應(yīng)了發(fā)展需要。然而由于手勢(shì)本身具有多樣性、多義性以及時(shí)間和空間上的差異性等特點(diǎn),加之人手是復(fù)雜變形體以及視覺本身的不適定性,所以手勢(shì)識(shí)別成為多學(xué)科交叉的研究課題。
再者由于文化背景和應(yīng)用環(huán)境的不同,使得手勢(shì)識(shí)別研究無法整合到一個(gè)完整的框架當(dāng)中,理論及技術(shù)未形成一個(gè)完整的體系。研究者多是根據(jù)特定的項(xiàng)目要求實(shí)現(xiàn)某些特定的功能,而不能將其應(yīng)用到普遍的系統(tǒng)或研究當(dāng)中。因此迫切需要對(duì)手勢(shì)識(shí)別研究領(lǐng)域中的一些普遍難題進(jìn)行解決,使其更具通用性。
最初的手勢(shì)識(shí)別主要是利用機(jī)器設(shè)備直接檢測(cè)手、胳膊各關(guān)節(jié)的角度和空間位置。這些設(shè)備多是通過有線技術(shù)將計(jì)算機(jī)系統(tǒng)與用戶相互連接,使用戶的手勢(shì)信息完整無誤地傳送至識(shí)別系統(tǒng)中,其典型設(shè)備如數(shù)據(jù)手套[1]等。數(shù)據(jù)手套是由多個(gè)傳感器件組成,通過這些傳感器可將用戶手的位置、手指的方向等信息傳送到計(jì)算機(jī)系統(tǒng)中。數(shù)據(jù)手套雖可提供良好的檢測(cè)效果,但將其應(yīng)用在常用領(lǐng)域則價(jià)格昂貴[2]。
其后,光學(xué)標(biāo)記方法取代了數(shù)據(jù)手套。將光學(xué)標(biāo)記戴在人手上,通過紅外線可將人手位置和手指的變化傳送到系統(tǒng)屏幕上,該方法也可提供良好的效果,但仍需較為復(fù)雜的設(shè)備。
外部設(shè)備的介入雖使得手勢(shì)識(shí)別的準(zhǔn)確度和穩(wěn)定性得以提高,但卻掩蓋了手勢(shì)自然的表達(dá)方式。為此,基于視覺的手勢(shì)識(shí)別方式應(yīng)運(yùn)而生。視覺手勢(shì)識(shí)別是指對(duì)視頻采集設(shè)備拍攝到的包含手勢(shì)的圖像序列,通過計(jì)算機(jī)視覺技術(shù)進(jìn)行處理,進(jìn)而對(duì)手勢(shì)加以識(shí)別。清華大學(xué)任海兵[3]等人從手勢(shì)建模、手勢(shì)分析和手勢(shì)識(shí)別等3個(gè)方面綜述了基于視覺手勢(shì)識(shí)別的研究現(xiàn)狀及其應(yīng)用。
目前,手勢(shì)識(shí)別已被廣泛研究,尤其是基于視覺的手勢(shì)識(shí)別。韓國Inda大學(xué)和Korea Polytechnic大學(xué)的JongShill Lee、YoungJoo Lee等人用熵分析法從背景復(fù)雜的視頻流中分割出手勢(shì)區(qū)域并進(jìn)行手勢(shì)識(shí)別[4]。使用鏈碼的方法檢測(cè)手勢(shì)區(qū)域的輪廓,最后計(jì)算出從手勢(shì)區(qū)域的質(zhì)心到輪廓邊界的距離。該系統(tǒng)可識(shí)別6種手勢(shì),平均識(shí)別率超過95%;6個(gè)人分別做每個(gè)手勢(shì)的識(shí)別率平均達(dá)到90%-100%。印度研究者M(jìn)eenakshi Panwar在視覺手勢(shì)識(shí)別的基礎(chǔ)上提出了一種基于結(jié)構(gòu)特征的手勢(shì)識(shí)別算法,通過背景去除、方向檢測(cè)、拇指檢測(cè)和手指數(shù)量檢測(cè),來最終識(shí)別手勢(shì)。Chenglong Yu等人[5]采用基于視覺的組合特征進(jìn)行手勢(shì)識(shí)別,將手的面積、周長、重心、面積比和長寬比等特征結(jié)合,使得識(shí)別率得以提高。上海大學(xué) DING Youdong、PANG Haibo[6]等人運(yùn)用改進(jìn)的 LBP 算法,利用AdaBoost分類器進(jìn)行手勢(shì)識(shí)別,建立了多種手勢(shì)數(shù)據(jù)集,其中包括一些大角度變化的手勢(shì)圖像。實(shí)驗(yàn)表明該方法可較好地對(duì)手勢(shì)特征進(jìn)行分割和分類。
此外,許多大型電子企業(yè)也將手勢(shì)識(shí)別研究列入其開發(fā)項(xiàng)目中,并且成果顯著。2012年,三星推出智能電視新品ES8000,該款電視機(jī)將面部識(shí)別,手勢(shì)識(shí)別和語言識(shí)別結(jié)合,無論是通過語音還是簡(jiǎn)單的手勢(shì),用戶不僅可完成開關(guān)機(jī)、調(diào)節(jié)音量、換臺(tái)等基本操作,還可實(shí)現(xiàn)上網(wǎng)瀏覽或關(guān)鍵字搜索等復(fù)雜功能。微軟研發(fā)機(jī)構(gòu)的微軟研究院(Microsoft Research,MSR)與華盛頓大學(xué)合作,開發(fā)出一種可利用筆記本電腦內(nèi)置麥克風(fēng)和揚(yáng)聲器進(jìn)行手勢(shì)識(shí)別的技術(shù);該項(xiàng)技術(shù)被稱為Sound Wave,利用了多普勒效應(yīng)識(shí)別接近計(jì)算機(jī)的任何動(dòng)作和手勢(shì)。
國內(nèi)的手勢(shì)識(shí)別研究主要集中在各大高校和研究院等。清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系祝遠(yuǎn)新等人提出了一種新的基于表觀的手勢(shì)識(shí)別技術(shù)[7-9]。提出一種基于運(yùn)動(dòng)分割的幀間圖像運(yùn)動(dòng)估計(jì)方法,并指出了一條如何將運(yùn)動(dòng)、形狀、顏色和紋理等信息統(tǒng)一起來進(jìn)行手勢(shì)識(shí)別的途徑;且實(shí)現(xiàn)了對(duì)12種手勢(shì)進(jìn)行在線識(shí)別的實(shí)驗(yàn)系統(tǒng),識(shí)別率超過90%。王凱等人[10]提出了基于AdaBoost算法和光流匹配的實(shí)時(shí)手勢(shì)識(shí)別方案:只需連接計(jì)算機(jī)的攝像頭讀取二維手勢(shì)視頻片段便可對(duì)手勢(shì)作出較為準(zhǔn)確的識(shí)別。其中,采用AdaBoost算法遍歷圖像,完成靜態(tài)手勢(shì)的識(shí)別工作。而在動(dòng)態(tài)手勢(shì)的識(shí)別過程中,運(yùn)用了光流法結(jié)合模板匹配的方法。中國科學(xué)技術(shù)大學(xué)和哈爾濱工業(yè)大學(xué)的滕達(dá)[11],劉巖等人研究了基于“大小手”的徒手手勢(shì)實(shí)時(shí)識(shí)別,將雙手劃分成大手和小手,雙手重疊按照一只手處理。應(yīng)用背景差分法將背景去除,利用文中的大小手特征提取算法檢測(cè)出手勢(shì),最終利用動(dòng)態(tài)時(shí)間進(jìn)行手勢(shì)識(shí)別,該系統(tǒng)對(duì)17個(gè)常用手勢(shì)試驗(yàn)識(shí)別率可達(dá)94.1%。
手勢(shì)無論是靜態(tài)或動(dòng)態(tài),其識(shí)別順序首先需進(jìn)行圖像的獲取、手的檢測(cè)和分割、手勢(shì)的分析,然后進(jìn)行靜態(tài)或動(dòng)態(tài)的手勢(shì)識(shí)別。具體流程如圖1所示。
圖1 手勢(shì)識(shí)別流程
文中從手勢(shì)檢測(cè)和分割,手勢(shì)分析及手勢(shì)識(shí)別3個(gè)方面分別介紹手勢(shì)識(shí)別的研究和應(yīng)用,并同時(shí)給出了結(jié)論。
目前,對(duì)手勢(shì)進(jìn)行檢測(cè)分割、分析以及識(shí)別的方法較多。圖2給出了每個(gè)流程中常用的一些方法。
圖2 手勢(shì)識(shí)別方法一覽
手勢(shì)分割是手勢(shì)識(shí)別過程中關(guān)鍵的一步,手勢(shì)分割的效果直接影響到下一步手勢(shì)分析及最終的手勢(shì)識(shí)別。目前最常用的手勢(shì)分割法主要包括基于單目視覺的手勢(shì)分割和基于立體視覺的手勢(shì)分割。
單目視覺是利用一個(gè)圖像采集設(shè)備獲得手勢(shì),得到手勢(shì)的平面模型。常用的方法主要有:(1)基于徒手的表觀特征識(shí)別(徒手的表觀特征指手的膚色、紋理、指尖、手的輪廓、手型和手的大小等),通常都利用膚色信息在YUV、HSV或YCbCr等顏色空間下建模對(duì)手勢(shì)進(jìn)行分割[12-14]。(2)人為增加限制的方法,如使用黑色和白色的墻壁、深色的服裝等簡(jiǎn)化背景或要求人手佩戴特殊的手套等強(qiáng)調(diào)前景,以簡(jiǎn)化手區(qū)域與背景區(qū)域的劃分[15]。(3)建立手勢(shì)形狀數(shù)據(jù)庫的方法,如密西根州立大學(xué)計(jì)算機(jī)系Cui Yuntao建立了一種數(shù)據(jù)庫,其中包括各種手勢(shì)類在不同時(shí)刻、不同位置、不同比例時(shí)的手型圖像,作為基于模板匹配識(shí)別方法的模板[16]。
基于單目視覺的手勢(shì)分割方法中,常用的是基于徒手的表觀特征分割,如手的膚色、紋理等。該種表觀不受手勢(shì)形狀變化的影響,但受外界環(huán)境的干擾較大,如光照影響,類膚色的干擾等。而人為增加限制的方法雖可解決類膚色的干擾,但卻限定了環(huán)境因素,對(duì)環(huán)境要求較為苛刻,使系統(tǒng)的實(shí)時(shí)性和手勢(shì)識(shí)別的自然性大幅降低。建立手勢(shì)形狀數(shù)據(jù)庫的方法是將能夠考慮的所有手勢(shì)建立起來,利于手勢(shì)的模版匹配,但其計(jì)算量隨之增加,不利于系統(tǒng)的快速識(shí)別。綜上所述,無論使用哪一種單一方法,手勢(shì)分割均無法克服所有外界因素的影響,因此可考慮將多種方法相結(jié)合,在不同環(huán)境下自適應(yīng)地選擇其中一種方法將手勢(shì)準(zhǔn)確地進(jìn)行分割。
而立體視覺是利用多個(gè)圖像采集設(shè)備得到手勢(shì)的不同圖像,轉(zhuǎn)換成立體模型。主要方法有立體匹配和三維重構(gòu)。張凱[17]等人利用立體視覺的方法求得手勢(shì)的正面圖像,然后與預(yù)定義的模版進(jìn)行匹配從而識(shí)別手勢(shì)。馬棟林使用雙攝像頭,在手勢(shì)的三維幾何模型基本框架下,將得到的幾何體旋轉(zhuǎn)角度作為提取出的手勢(shì)特征[18]。三維模型可最大程度地接近真實(shí)手勢(shì)。
基于立體視覺的手勢(shì)分割需建立手勢(shì)的三維模型,相比二維模型其所需設(shè)備較多,需要兩個(gè)或多個(gè)圖像采集設(shè)備獲得手勢(shì)圖像。立體匹配的方法與單目視覺中的模板匹配方法類似,也要建立大量的手勢(shì)庫;而三維重構(gòu)則需建立手勢(shì)的三維模型,計(jì)算量將增加,但分割效果較好。
手勢(shì)分析是完成手勢(shì)識(shí)別系統(tǒng)的關(guān)鍵技術(shù)之一。通過手勢(shì)分析,可獲得手勢(shì)的形狀特征或運(yùn)動(dòng)軌跡。手勢(shì)的形狀和運(yùn)動(dòng)軌跡是動(dòng)態(tài)手勢(shì)識(shí)別中的重要特征,與手勢(shì)所表達(dá)意義有直接的關(guān)系。手勢(shì)分析的主要方法有以下幾類:邊緣輪廓提取法、質(zhì)心手指等多特征結(jié)合法以及指關(guān)節(jié)式跟蹤法等。邊緣輪廓提取法是手勢(shì)分析常用的方法之一,手型因其特有的外形而與其他物體區(qū)分;何陽青[19]采用結(jié)合幾何矩和邊緣檢測(cè)的手勢(shì)識(shí)別算法,通過設(shè)定兩個(gè)特征的權(quán)重來計(jì)算圖像間的距離,實(shí)現(xiàn)對(duì)字母手勢(shì)的識(shí)別。多特征結(jié)合法則是根據(jù)手的物理特性分析手勢(shì)的姿勢(shì)或軌跡;Meenakshi Panwar將手勢(shì)形狀和手指指尖特征相結(jié)合來實(shí)現(xiàn)手勢(shì)的識(shí)別。指關(guān)節(jié)式跟蹤法主要是構(gòu)建手的二維或三維模型,再根據(jù)人手關(guān)節(jié)點(diǎn)的位置變化來進(jìn)行跟蹤,其主要應(yīng)用于動(dòng)態(tài)軌跡跟蹤。
手勢(shì)識(shí)別是將模型參數(shù)空間里的軌跡(或點(diǎn))分類到該空間里某個(gè)子集的過程,其包括靜態(tài)手勢(shì)識(shí)別和動(dòng)態(tài)手勢(shì)識(shí)別,動(dòng)態(tài)手勢(shì)識(shí)別最終可轉(zhuǎn)化為靜態(tài)手勢(shì)識(shí)別。從手勢(shì)識(shí)別的技術(shù)實(shí)現(xiàn)來看,常見手勢(shì)識(shí)別方法主要有:模板匹配法、神經(jīng)網(wǎng)絡(luò)法和隱馬爾可夫模型法。
模板匹配法是將手勢(shì)的動(dòng)作看成是一個(gè)由靜態(tài)手勢(shì)圖像所組成的序列,然后將待識(shí)別的手勢(shì)模板序列與已知的手勢(shì)模板序列進(jìn)行比較,從而識(shí)別出手勢(shì)?;谀0宓姆椒ú粌H是指相互對(duì)應(yīng)的模板匹配算法(Template Matching),也包括對(duì)時(shí)間、空間進(jìn)行規(guī)整后的模板匹配算法,如動(dòng)態(tài)時(shí)空規(guī)整算法和動(dòng)態(tài)規(guī)劃算法。由于動(dòng)作的快慢不同,圖像序列中的每幅圖像較難做到相互對(duì)應(yīng),因此進(jìn)行時(shí)間上的規(guī)整是模板匹配的重要步驟。代表性的模版匹配法是動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)。DTW是將觀測(cè)到的軌跡和學(xué)到的固定長度的局部線型模板進(jìn)行匹配,得出識(shí)別結(jié)果;該算法無需對(duì)手勢(shì)進(jìn)行時(shí)間上的分割來確定手勢(shì)的起點(diǎn)和終點(diǎn)[20]。神經(jīng)網(wǎng)絡(luò)法:該方法具有分類特性及抗干擾性,具有自組織及自學(xué)習(xí)能力,具有分布性特點(diǎn),能有效抗噪聲并處理不完整模式,還具備模式推廣能力。然而由于其處理時(shí)間序列的能力不強(qiáng),目前廣泛應(yīng)用于靜態(tài)手勢(shì)的識(shí)別。趙新龍等人設(shè)計(jì)出一套符合用戶設(shè)計(jì)習(xí)慣的編輯手勢(shì),采用基于BP神經(jīng)網(wǎng)絡(luò)的方法對(duì)其進(jìn)行識(shí)別,以實(shí)現(xiàn)計(jì)算機(jī)對(duì)草繪設(shè)計(jì)行為的準(zhǔn)確理解和對(duì)草圖的快速編輯與修改[21]。
隱馬爾可夫模型法(Hidden Markov Model,HMM):是一種統(tǒng)計(jì)模型,用隱馬爾可夫建模的系統(tǒng)具有雙重隨機(jī)過程,其包括狀態(tài)轉(zhuǎn)移和觀察值輸出的隨機(jī)過程。其中狀態(tài)轉(zhuǎn)移的隨機(jī)過程是隱性的,其通過觀察序列的隨機(jī)過程所表現(xiàn)。許杏[22]設(shè)計(jì)的識(shí)別系統(tǒng)對(duì)HMM進(jìn)行初始化及參數(shù)訓(xùn)練,實(shí)現(xiàn)了對(duì)阿拉伯?dāng)?shù)字(0~9)的手勢(shì)軌跡的識(shí)別;最終,可使手勢(shì)識(shí)別系統(tǒng)具有較好的實(shí)時(shí)性和互動(dòng)性。該方法具有較強(qiáng)的描述手語信號(hào)的時(shí)空變化能力,在動(dòng)態(tài)手勢(shì)識(shí)別領(lǐng)域始終占有主導(dǎo)地位,但其拓?fù)浣Y(jié)構(gòu)的一般性,導(dǎo)致該模型在分手手語信號(hào)時(shí)過于復(fù)雜,使得HMM訓(xùn)練和識(shí)別計(jì)算量過大。
手勢(shì)識(shí)別作為人機(jī)交互的重要組成部分,其研究發(fā)展影響著人機(jī)交互的自然性和靈活性。目前大多數(shù)研究者均將注意力集中在手勢(shì)的最終識(shí)別方面,通常會(huì)將手勢(shì)背景簡(jiǎn)化,并在單一背景下利用所研究的算法將手勢(shì)進(jìn)行分割,然后采用常用的識(shí)別方法將手勢(shì)表達(dá)的含義通過系統(tǒng)分析出來。但在現(xiàn)實(shí)應(yīng)用中,手勢(shì)通常處于復(fù)雜的環(huán)境下,例如:光線過亮或過暗、有較多手勢(shì)存在、手勢(shì)距采集設(shè)備距離不同等各種復(fù)雜背景因素。這些方面的難題目前尚未得到解決,且將來也難以解決。因此需要研究人員就目前所預(yù)想到的難題在特定環(huán)境下加以解決,進(jìn)而通過多種方法的結(jié)合來實(shí)現(xiàn)適于不同復(fù)雜環(huán)境下的手勢(shì)識(shí)別,由此對(duì)手勢(shì)識(shí)別研究及未來人性化的人機(jī)交互做出貢獻(xiàn)。
[1]MEENAKSHI P.Hand gesture recognition based on shape parameters[C].Computing,Communication and Applications(ICCCA),2012 International Conference on,2012.
[2]吳文琴,高文,龐博,等.中國手語手勢(shì)詞識(shí)別的一種快速方法[J].高技術(shù)通訊,2001(6):23-27.
[3]任海兵,祝遠(yuǎn)新,徐光祐,等.基于視覺手勢(shì)識(shí)別的研究綜述[J].電子學(xué)報(bào),2000(2):118-121.
[4]LEE J S,LEE Y J,LEE E H,et al.Hand region extraction and Gesture recognition from video stream with complex background through entropy analysis[C].San Francisco,CA,USA:Proceedings of the 26th Annual International Conference of the IEEE EMBS,2004.
[5]YU Chenglong,WANG Xuan,HUANG Hejiao.Visionbased hand gesture recognition using combinational features[C].2010 6th International Conference on Intelligent Information Hiding and Multimedia Signal Processing,2010.
[6]DING Youdong,PANG Haibo,WU Xuechun.Recoginton of hand-gesture using improved local binary pattern[C].2011 International Conference on,Multimedia Technology(ICMT),2011.
[7]祝遠(yuǎn)新,徐光祐,黃浴.基于表觀的動(dòng)態(tài)孤立手勢(shì)識(shí)別[J].軟件學(xué)報(bào),2000,11(1):54-61.
[8]任海兵,祝遠(yuǎn)新,徐光祐,等.復(fù)雜背景下的手勢(shì)分割與識(shí)別[J].自動(dòng)化學(xué)報(bào),2002,28(2):256-261.
[9]任海兵,祝遠(yuǎn)新,徐光祐,等.連續(xù)動(dòng)態(tài)手勢(shì)的時(shí)空表觀建模及識(shí)別[J].計(jì)算機(jī)學(xué)報(bào),2000,23(8):824-828.
[10]王凱,于鴻洋,張萍.基于Adaboost算法和光流匹配的實(shí)時(shí)手勢(shì)識(shí)別[J].微電子學(xué)與計(jì)算機(jī),2012,29(4):138-141.
[11]滕達(dá),楊壽保,劉巖,等.基于“大小手”的徒手手勢(shì)實(shí)時(shí)識(shí)別[J].計(jì)算機(jī)應(yīng)用,2006,26(9):2041-2043.
[12]劉昌盛,厲樹忠,趙姝穎,等.一種復(fù)雜背景下的手部圖像分割方法[J].河北科技示范學(xué)院學(xué)報(bào),2007,21(3):46-49.
[13]郭志敏.基于雙目視覺的人手定位與手勢(shì)識(shí)別系統(tǒng)研究[D].河南:鄭州大學(xué),2011.
[14]馬凱,張崎.基于結(jié)構(gòu)分析的手勢(shì)識(shí)別算法研究[J].信息技術(shù),2012(4):81-83.
[15]李清水,方志剛,沈模衛(wèi),等.手勢(shì)識(shí)別技術(shù)及其在人機(jī)交互中的應(yīng)用[J].人類工效學(xué),2002,8(1):27-29.
[16]劉俊梅,阮秋琦.一種復(fù)雜背景寫的手勢(shì)分割新方法[J].北京電子科技學(xué)院學(xué)報(bào),2002,8(1):27-29.
[17]張凱,葛文兵,汪國平,等.基于立體視覺的自然手勢(shì)識(shí)別[C].昆明:第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議,2005.
[18]馬棟林,高瑋軍.基于三維模型的雙目手勢(shì)特征提?。跩].蘭州理工大學(xué)學(xué)報(bào),2011,37(5):104-107.
[19]何陽青.基于幾何特征的手勢(shì)識(shí)別算法研究[D].上海:上海海事大學(xué),2004.
[20]荊雷,馬文君,常丹華.基于動(dòng)態(tài)時(shí)間規(guī)整的手勢(shì)加速度信號(hào)識(shí)別[J].傳感技術(shù)學(xué)報(bào),2012,25(1):72-76.
[21]趙新龍,方貴盛,沈莉芳.基于BP神經(jīng)網(wǎng)絡(luò)的草圖編輯手勢(shì)識(shí)別[J].浙江水利水電??茖W(xué)校校報(bào),2006,18(4):31-33.
[22]許杏.基于隱馬爾科夫模型手勢(shì)識(shí)別研究[D].廣東:華南理工大學(xué),2011.