梁娜
摘 要:隨著計(jì)算機(jī)性能的逐步提高和圖像處理技術(shù)的不斷發(fā)展,基于計(jì)算機(jī)視覺的手勢(shì)識(shí)別技術(shù)成為研究熱點(diǎn)。本文介紹了手勢(shì)識(shí)別的主要分類,并詳細(xì)介紹了基于視覺的手勢(shì)識(shí)別技術(shù)的工作原理和工作流程。闡述了手勢(shì)分割、特征提取和手勢(shì)識(shí)別的技術(shù)方法。
關(guān)鍵詞:計(jì)算機(jī)視覺;手勢(shì)識(shí)別;手勢(shì)分割;特征提取
目前,人機(jī)交互的主要方式有基于文本方式的鍵盤交互和基于圖形的鼠標(biāo)交互,這些交互方式都以機(jī)器為中心,使人去適應(yīng)機(jī)器的輸入輸出設(shè)備,因此,在交互過(guò)程中存在諸多不便。隨著計(jì)算機(jī)科學(xué)的快速發(fā)展,人機(jī)交互的研究已經(jīng)從以機(jī)器為中心轉(zhuǎn)移到以人為中心,研究符合人類習(xí)慣的交互方式成為熱點(diǎn)。手勢(shì)是人類最常用的溝通媒介,它生動(dòng)形象、直觀易懂,而且蘊(yùn)涵著豐富的信息,是一種高效的溝通方式,基于手勢(shì)識(shí)別的人機(jī)交互技術(shù)將為用戶提供種簡(jiǎn)易、高效的人機(jī)交互界面,極大地方便人類的生活。因此,基于手勢(shì)識(shí)別的人機(jī)交互技術(shù)具有重要的研究?jī)r(jià)值。
1 手勢(shì)識(shí)別的主要方法
根據(jù)手勢(shì)圖像的輸入方式不同,手勢(shì)識(shí)別系統(tǒng)主要可以分為兩類:基于數(shù)據(jù)手套的手勢(shì)識(shí)別系統(tǒng)和基于視覺的手勢(shì)識(shí)別系統(tǒng)。
基于數(shù)據(jù)手套的手勢(shì)輸入(Glove—based Gesture Input)是利用數(shù)據(jù)手套獲取手勢(shì)在空間的運(yùn)動(dòng)軌跡和時(shí)序信息。它能夠高效、快速、實(shí)時(shí)地獲得手在空間的三維信息和手指的運(yùn)動(dòng)信息,并且能夠識(shí)別多種手勢(shì)信息。但是這種輸入方式需要用戶穿戴復(fù)雜的數(shù)據(jù)手套和位置跟蹤器,給操作者帶來(lái)很大不便,而且輸入設(shè)備昂貴,很難在市場(chǎng)上進(jìn)行推廣。
隨著計(jì)算機(jī)性能的逐步提高和圖像處理技術(shù)的不斷發(fā)展,基于計(jì)算機(jī)視覺的手勢(shì)識(shí)別技術(shù)成為研究熱點(diǎn)。這種方法通過(guò)攝像頭采集手勢(shì)圖像信息并傳輸給計(jì)算機(jī),系統(tǒng)對(duì)視頻進(jìn)行分析和處理,提取出手的形狀、位置和運(yùn)動(dòng)軌跡,然后選擇手勢(shì)進(jìn)行分析,然后根據(jù)模型參數(shù)對(duì)手勢(shì)進(jìn)行分類并生成手勢(shì)描述。最后,系統(tǒng)根據(jù)生成的描述去驅(qū)動(dòng)具體應(yīng)用。這種方法無(wú)需購(gòu)買昂貴傳感設(shè)備,僅需要攝像頭和PC機(jī)即可,并且在操作時(shí)更加自然、方便是手勢(shì)識(shí)別未來(lái)發(fā)展的趨勢(shì)。因此,本文重點(diǎn)研究基于視覺的手勢(shì)識(shí)別技術(shù)。
2 基于視覺的手勢(shì)識(shí)別技術(shù)
2.1 手勢(shì)輸入及手勢(shì)圖像預(yù)處理
手勢(shì)輸入是通過(guò)攝像頭采集手勢(shì)圖像信息并傳輸給計(jì)算機(jī)的過(guò)程。通過(guò)手勢(shì)輸入將視頻轉(zhuǎn)換成計(jì)算機(jī)能夠處理的數(shù)字圖像,為了防止圖像在生成、傳輸或變換過(guò)程中會(huì)受到干擾而發(fā)生畸變,需要先對(duì)圖像進(jìn)行預(yù)處理,去除手勢(shì)圖像中的噪聲,過(guò)濾掉不需要的部分,同時(shí)保留并強(qiáng)化圖像中的有用信息。
2.2 手勢(shì)分割
手勢(shì)分割就是將有手勢(shì)從圖像視頻中劃分出來(lái),僅保留手勢(shì)部分。手勢(shì)分割的好壞直接影響后面的特征提取和手勢(shì)識(shí)別的結(jié)果。主要方法有膚色模型法和輪廓跟蹤法。
在手勢(shì)圖像中,膚色信息最為有效,是占主導(dǎo)地位的像素色彩值。膚色雖然因人而異,但它在色彩空間中的呈聚類特征,膚色模型法就是根據(jù)膚色在色彩空間中的分布特點(diǎn),快速地找到手可能的候選區(qū)域。
輪廓跟蹤法中最為著名的是基于Snake模型的手勢(shì)分割方法,它利用Snake模型對(duì)噪聲和對(duì)比度的敏感性來(lái)有效跟蹤目標(biāo)的形變和的復(fù)雜運(yùn)動(dòng),從而將目標(biāo)從復(fù)雜背景中分割出來(lái)。
2.3 特征提取
手勢(shì)圖像經(jīng)過(guò)分割,會(huì)得到手勢(shì)的邊緣和區(qū)域,從而能夠獲得手勢(shì)的形狀。定位了手勢(shì)之后就可進(jìn)行手勢(shì)特征的提取。手勢(shì)特征提取與手勢(shì)分割是密不可分的,在基于視覺系統(tǒng)的手勢(shì)識(shí)別系統(tǒng)中,二者是同時(shí)進(jìn)行的。
用來(lái)描述手勢(shì)的形狀特征的屬性包括手的長(zhǎng)短、面積、距離、凹凸等,它們反映了手的骨架和所在的區(qū)域。通常把區(qū)域內(nèi)部或邊界的像素賦予“1”值,而背景和其他不感興趣像素賦予0值,形成二值圖像,通過(guò)對(duì)區(qū)域的內(nèi)部或外部形狀進(jìn)行各種變換即可提取區(qū)域特征。
2.4 勢(shì)識(shí)別
手勢(shì)分為靜態(tài)手勢(shì)和動(dòng)態(tài)手勢(shì),靜態(tài)手勢(shì)通過(guò)手的形狀表達(dá)某種信息,對(duì)應(yīng)著模型參數(shù)空間里的一個(gè)點(diǎn),而動(dòng)態(tài)手勢(shì)則通過(guò)手的運(yùn)動(dòng)表達(dá)相應(yīng)的信息,對(duì)應(yīng)著模型參數(shù)空間里的一條軌跡。手勢(shì)識(shí)別就是把模型參數(shù)空間里的軌跡或點(diǎn)分類到該空間里某個(gè)子集的過(guò)程。靜態(tài)手勢(shì)識(shí)別是指手勢(shì)處于靜止?fàn)顟B(tài)的識(shí)別方法,識(shí)別過(guò)程比較簡(jiǎn)單,相對(duì)獨(dú)立,它和時(shí)間及空間上的圖像序列無(wú)關(guān)。主要采用的方法有神經(jīng)網(wǎng)絡(luò)法、模板匹配法、基于統(tǒng)計(jì)的方法等。動(dòng)態(tài)手勢(shì)對(duì)應(yīng)參數(shù)空間里的一條軌跡,由于不同用戶在做手勢(shì)時(shí)的速度不同、熟練程度不同,因此不但涉及到時(shí)間及空間的相關(guān)信息,還涉及到手勢(shì)定位的問(wèn)題。動(dòng)態(tài)手勢(shì)識(shí)別方法主要有三種:神經(jīng)網(wǎng)絡(luò)識(shí)別法、基于隱馬爾可夫模型(Hidden Markov Models,HMM)的識(shí)別法,基于動(dòng)態(tài)時(shí)間規(guī)整(DynamicTime Warping,DTW)的識(shí)別法。
3 結(jié)束語(yǔ)
本文論述了基于視覺的手勢(shì)識(shí)別技術(shù)的工作原理和主要流程。討論了手勢(shì)分割的方法、特征提取以及手勢(shì)識(shí)別的技術(shù)關(guān)鍵?;谝曈X的手勢(shì)識(shí)別技術(shù)是人機(jī)交互領(lǐng)域的一大研究熱點(diǎn),將手勢(shì)識(shí)別技術(shù)應(yīng)用于自動(dòng)控制、智能家居、智能交通等領(lǐng)域,利用手勢(shì)對(duì)設(shè)備進(jìn)行控制將極大地方便人類的生產(chǎn)和生活。因此基于視覺的手勢(shì)識(shí)別技術(shù)的研究在人機(jī)交互系統(tǒng)中具有更加廣泛的社會(huì)意義和實(shí)際應(yīng)用前景。
[參考文獻(xiàn)]
[1]王兩穎,張習(xí)文,戴國(guó)忠.一種面向?qū)崟r(shí)交互的變形手勢(shì)跟蹤方法[J].軟件學(xué)報(bào).2007,V01.18(10):2423-2433.
[2]高君.基手勢(shì)識(shí)別的虛擬寵物系統(tǒng)的研究與開發(fā)[D].沈陽(yáng):東北大學(xué).2006.
[3]姚文君.基于Freeman鏈碼二維圖像輪廓的提取與匹配[J].寧波職業(yè)技術(shù)學(xué)院學(xué)報(bào).2006(10):24-26.