李翠 王小妮 劉園園
摘要:為了增強(qiáng)人機(jī)交互的人性化和多樣化,設(shè)計(jì)了一種基于SIFT算法的手勢(shì)實(shí)時(shí)控制系統(tǒng)。本系統(tǒng)只需普通PC機(jī)與攝像頭就能對(duì)手勢(shì)進(jìn)行準(zhǔn)確的識(shí)別。并且還可以進(jìn)一步對(duì)采集到的圖像進(jìn)行選擇,這一選擇主要是依據(jù)膚色檢測(cè)得來(lái)的,另外我們還可以采用SIFT算法找到與待測(cè)圖像相應(yīng)的圖像,充分發(fā)揮手勢(shì)識(shí)別技術(shù)的優(yōu)勢(shì),利用輸出信息完成實(shí)踐應(yīng)用的控制工作。該系統(tǒng)不需要建立大容量的樣本庫(kù),運(yùn)行速度較快,對(duì)手勢(shì)的識(shí)別具有較高的準(zhǔn)確性。
關(guān)鍵詞:手勢(shì)識(shí)別;SIFT算法;膚色檢測(cè);特征點(diǎn)
中圖分類(lèi)號(hào):TP391.4 文獻(xiàn)識(shí)別碼:A 文章編號(hào):1001-828X(2016)015-000-01
引言
伴隨著全球信息技術(shù)的飛躍式發(fā)展,人們對(duì)計(jì)算機(jī)的使用提出了更高的要求,手勢(shì)交互方式具有較多的推廣優(yōu)勢(shì),如生動(dòng)形象、具體等,因此手勢(shì)交互方法被普遍應(yīng)用在人機(jī)交互工作中。
一般情況下,手勢(shì)控制系統(tǒng)可以被分為兩大類(lèi),主要依據(jù)就是輸入設(shè)備的差異,第一類(lèi)是針對(duì)數(shù)據(jù)手套的手勢(shì)控制體系,第二類(lèi)是針對(duì)視覺(jué)的徒手手勢(shì)控制體系。后者的控制體系通常需要較大容量的樣本庫(kù)為后續(xù)工作奠定基礎(chǔ),還應(yīng)該確切的描繪出不同手勢(shì)的具體范圍,對(duì)周?chē)h(huán)境的要求非常高[3]。
在上述問(wèn)題的基礎(chǔ)上,下面文章中創(chuàng)建了一種SIFT算法的手勢(shì)控制體系。
一、針對(duì)手勢(shì)控制系統(tǒng)的相關(guān)設(shè)計(jì)
文章中的相關(guān)研究都是通過(guò)Windows操作系統(tǒng)平臺(tái)來(lái)完成的,利用Matlab開(kāi)發(fā)工具設(shè)計(jì)和開(kāi)發(fā)了手勢(shì)控制系統(tǒng),借助普通攝像頭和家用PC機(jī),對(duì)手勢(shì)進(jìn)行識(shí)別,并成功控制了具體應(yīng)用。我們可以大致把使用體系粉塵兩大類(lèi):第一類(lèi)是針對(duì)手部膚色的檢測(cè),第二類(lèi)是針對(duì)SIFT算法的手勢(shì)識(shí)別技術(shù)。
1.基于膚色的手部區(qū)域檢測(cè)
不同的手勢(shì)不會(huì)改變皮膚自身的顏色,在所有的圖像中,手部膚色圖像是比較穩(wěn)定的。不僅如此,人們的手部在太陽(yáng)光的照射下色彩幾乎相同,并且色彩不會(huì)受到被檢測(cè)者的年齡、性別、種族的影響,可以通過(guò)手部膚色收集手部區(qū)域的基礎(chǔ)信息。
因?yàn)槠胀〝z像頭收集到的圖片是RGB彩色空間的,因此無(wú)法對(duì)其直接處理,一定要把其轉(zhuǎn)換成YCbCr彩色空間,才能提升處理效果。
文章中把收集到的圖片進(jìn)行圖像銳化處理,然后在YcbCr空間中提取膚色區(qū)域,最后對(duì)處理得到的二值圖像進(jìn)行形態(tài)學(xué)運(yùn)算,只有這樣才能得到較為滿意的手部區(qū)域圖像。
2.基于SIFT算法的手勢(shì)識(shí)別
經(jīng)上一步的判斷后,若攝像頭采集到的圖像中包含有足夠面積的手部區(qū)域,則對(duì)其進(jìn)行識(shí)別。本文采用SIFT算法對(duì)無(wú)背景干擾的手勢(shì)進(jìn)行識(shí)別。
這種新型的算法的雛形是在上個(gè)世紀(jì)被人們發(fā)現(xiàn)的,隨后人們又對(duì)其進(jìn)行了總結(jié)創(chuàng)新。運(yùn)用這種算法收集到的SIFT特征向量屬于圖像的一種普遍特征,如果我們可以確保其亮度保持不變、尺度縮放比例不變,就能夠確保其噪聲、視角變化比例等的穩(wěn)定性[1]。
SIFT算法主要有以下幾點(diǎn):
首先,我們需要認(rèn)真落實(shí)尺度空間的極值點(diǎn)。要想準(zhǔn)確得到圖像尺度空間,我們需要利用高斯函數(shù)來(lái)獲取。
其次,我們需要科學(xué)選擇穩(wěn)定的關(guān)鍵點(diǎn)。通過(guò)認(rèn)真選擇那些計(jì)算出的極值點(diǎn),去掉其中的不穩(wěn)定因素,進(jìn)而提升關(guān)鍵點(diǎn)的穩(wěn)定性能極其自身抵抗噪聲的能力,為此我們可以參考文相關(guān)文獻(xiàn)[2]。
第三,我們應(yīng)該把選好的關(guān)鍵點(diǎn)搭配相應(yīng)的方向。要想確保SIFT自身的旋轉(zhuǎn)不變特征,就應(yīng)該準(zhǔn)確找到特征點(diǎn)的主方向。然后結(jié)合不同的特征尺度選擇相近的高斯平滑圖像L,準(zhǔn)確計(jì)算L上每一個(gè)點(diǎn)的梯度和方向,隨后進(jìn)行相鄰窗口的采樣分析,選用直方圖直觀呈現(xiàn)給人們所有點(diǎn)的梯度方向。
二、實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證系統(tǒng)的有效性和準(zhǔn)確度,本文選用了2種簡(jiǎn)單手勢(shì)進(jìn)行實(shí)驗(yàn),對(duì)2種手勢(shì)各采集1張,作為樣本圖像。兩種手勢(shì)對(duì)應(yīng)的命令分別為開(kāi)始、前進(jìn)。
經(jīng)過(guò)相應(yīng)的研究我們不難看出,手勢(shì)控制體系的樣本圖像識(shí)別結(jié)果不會(huì)受到手指不同動(dòng)作、手勢(shì)缺失以及光照差異的影響。
使用Matlab編寫(xiě)了簡(jiǎn)單的圖像播放器、音頻播放器,通過(guò)手勢(shì)控制系統(tǒng)對(duì)兩播放器進(jìn)行操作。對(duì)每個(gè)播放器每種手勢(shì)各使用50次,統(tǒng)計(jì)兩播放器被正確控制的次數(shù)。
三、結(jié)束語(yǔ)
本文提出的方法對(duì)少量的手勢(shì)識(shí)別效果較佳,如要求識(shí)別大量手勢(shì),則隨著各手勢(shì)間SIFT特征差異變小,識(shí)別結(jié)果容易出現(xiàn)錯(cuò)誤。如果想取得比較好的效果,必須對(duì)現(xiàn)在采用的特征點(diǎn)匹配方法加以改進(jìn),提高特征點(diǎn)匹配準(zhǔn)確率。同時(shí),識(shí)別大量手勢(shì)需增加樣本圖像的數(shù)量,將增加計(jì)算量和識(shí)別耗時(shí),為解決這一問(wèn)題需要對(duì)手勢(shì)進(jìn)行歸類(lèi),識(shí)別時(shí)對(duì)待測(cè)圖像進(jìn)行粗分類(lèi),然后將待測(cè)圖像與其對(duì)應(yīng)類(lèi)別中的樣本圖像進(jìn)行匹配。下一步將研究上述兩個(gè)問(wèn)題的具體解決方案。
參考文獻(xiàn):
[1]Darid G. Lowe. Object recognition from local scale-invariant features [C].International Conference on Computer Vision, 1999: 1150-1157.
[2]Darid G. Lowe. Distinctive Image Features from Scale-invariant Keypoints [J].International Journal of Computer Vision, 2004, 60(2):91-110.
[3]劉寅,滕曉龍,劉重慶. 復(fù)雜背景下基于傅立葉描述子的手勢(shì)識(shí)別[J].計(jì)算機(jī)仿真;2005,22(12):158-161.
現(xiàn)代經(jīng)濟(jì)信息2016年15期