李國(guó)玄 馬凱凱 王文博
商丘工學(xué)院機(jī)械工程學(xué)院,河南商丘 476000
手勢(shì)是一種自然、直接、符合用戶習(xí)慣的交互方式,具有快速、非接觸、容易理解等優(yōu)勢(shì),因此,對(duì)手勢(shì)識(shí)別的研究可以增強(qiáng)用戶的沉浸感體驗(yàn),使交互體驗(yàn)更為直觀和舒適。隨著人工智能的迅速發(fā)展,人機(jī)交互技術(shù)也越來(lái)越趨于智能化和人性化,手勢(shì)識(shí)別作為人機(jī)交互領(lǐng)域中一個(gè)具有挑戰(zhàn)性的問(wèn)題,多年來(lái)一直是科研工作者研究的熱點(diǎn)[1-2]。目前,國(guó)內(nèi)外針對(duì)手勢(shì)識(shí)別的研究主要分為基于2D攝像頭的二維手型識(shí)別、二維手勢(shì)識(shí)別,以及基于3D攝像頭的三維手勢(shì)識(shí)別,前兩種完全基于二維層面,第三種包含深度信息。最初,研究者主要是利用機(jī)械設(shè)備輔助檢測(cè)人手的各個(gè)關(guān)節(jié)的位置、角度信息,從而識(shí)別手勢(shì)含義。傳統(tǒng)的人機(jī)交互技術(shù)是指通過(guò)計(jì)算機(jī)輸入、輸出設(shè)備,以有效的方式實(shí)現(xiàn)人與計(jì)算機(jī)對(duì)話的技術(shù),它包括機(jī)器通過(guò)輸出或顯示設(shè)備給人提供大量有關(guān)信息及提示請(qǐng)示等,是計(jì)算機(jī)用戶界面設(shè)計(jì)中的重要內(nèi)容之一[3-4]。隨著科技的發(fā)展,人們逐漸不滿足傳統(tǒng)的接觸型交互,手勢(shì)識(shí)別作為非接觸型的一種交互方式,不僅實(shí)現(xiàn)了便捷的操作方式,還完成了人與計(jì)算機(jī)的互動(dòng)和交流。目前,手勢(shì)識(shí)別在手語(yǔ)識(shí)別、人機(jī)交互、機(jī)器人控制、智能監(jiān)控、視覺(jué)環(huán)境操作等領(lǐng)域均有應(yīng)用,未來(lái)將在更多行業(yè)、更多方面發(fā)揮價(jià)值[5]。
目前,手勢(shì)識(shí)別在醫(yī)療服務(wù)促進(jìn)與聾啞人的交流、智能機(jī)器操作的便捷、提高汽車駕駛安全度等方面得到廣泛應(yīng)用,根據(jù)采集手勢(shì)圖像的設(shè)備不同分為基于數(shù)據(jù)手套的手勢(shì)識(shí)別和基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別?;谝曈X(jué)的識(shí)別方式具有直觀性、自然性和豐富性的特點(diǎn),使操作者更加自然地進(jìn)行人機(jī)交互,已經(jīng)成為手勢(shì)識(shí)別的研究重點(diǎn)[6-7]。本文研究對(duì)象是靜態(tài)手勢(shì)的識(shí)別,對(duì)于一幅圖片首先分割出手勢(shì)部分,其次在手部區(qū)域提取某種特征來(lái)描述手勢(shì)特性,最后利用手勢(shì)形態(tài)特征分類方法對(duì)手勢(shì)進(jìn)行識(shí)別,手勢(shì)識(shí)別數(shù)據(jù)處理流程如圖1所示。
本文采用筆記本自帶攝像頭采集圖像,在視頻流中每隔1 s隨機(jī)抓取一幅手勢(shì)圖像,考慮到手勢(shì)識(shí)別過(guò)程中實(shí)際情況的復(fù)雜性,如光照強(qiáng)度、手勢(shì)的形態(tài)、背景復(fù)雜程度等,對(duì)采集的手勢(shì)圖像進(jìn)行歸一化處理,提高手勢(shì)識(shí)別率。共采集6種手勢(shì),每種手勢(shì)1,000張圖片,手勢(shì)數(shù)據(jù)集如圖2所示。
在手勢(shì)識(shí)別過(guò)程中,將獲取到的手勢(shì)信息轉(zhuǎn)換成可用計(jì)算機(jī)處理的數(shù)字圖像時(shí),圖像的生成、采集、變換及傳輸過(guò)程中會(huì)受到各種因素的干擾。為了降低手勢(shì)圖像的復(fù)雜多樣性對(duì)手勢(shì)特征提取和訓(xùn)練過(guò)程中的影響,提高特征提取和識(shí)別的可靠性,需要對(duì)采集的手勢(shì)圖像進(jìn)行預(yù)處理,即過(guò)濾掉圖像中不需要的部分,增強(qiáng)圖像中的特征信息。通過(guò)對(duì)采集的RGB圖像分析,手勢(shì)本身形態(tài)不一,圖像背景及光照強(qiáng)度都會(huì)對(duì)手勢(shì)形態(tài)造成影響,包括背景的變化、圖像采集設(shè)備的性能、運(yùn)動(dòng)跟蹤的靈敏度、類膚色區(qū)域等,都給手勢(shì)的檢測(cè)帶來(lái)了困難[8-9]。
目前,基于視覺(jué)的分割方法有3類:
(1)閾值法:首先對(duì)采集的RGB圖像做灰度變換,生成灰度直方圖,選擇直方圖中的最小值作為分隔的閾值,小于閾值的區(qū)域設(shè)置為全黑,大于閾值的區(qū)域設(shè)置為全白;
(2)模板匹配:首先建立一個(gè)標(biāo)準(zhǔn)的樣本庫(kù),提取樣本庫(kù)的特征并保存為XML格式,同樣提取采集圖像的特征向量與文件中的向量做對(duì)比,計(jì)算向量之間的距離,選擇距離最小的作為模板匹配的結(jié)果輸出;
(3)物理特征:主要根據(jù)膚色的色彩空間分割手勢(shì),膚色特征具有較好的聚類特征,利用這種特征區(qū)分手勢(shì)區(qū)域,提高識(shí)別效果。
膚色作為手部區(qū)域的明顯特征,在實(shí)際應(yīng)用中容易受到環(huán)境變化,如位置變化、有色光源產(chǎn)生的色彩偏移等,這使得整個(gè)手部區(qū)域存在較大的差異,在圖像處理中常用的膚色空間包括RGB、YUV和YCbCr等顏色空間。YUV是從全彩色圖像中產(chǎn)生一個(gè)黑白圖像,提取出3個(gè)主要的顏色變成兩個(gè)額外的信號(hào)來(lái)描述顏色,從RGB中提取亮度值來(lái)減少顏色信息量,這些值可以重新組合來(lái)決定紅、綠、藍(lán)的混合信號(hào)。YUV和RGB的轉(zhuǎn)換如式(1)所示。
其中,Y表示亮度;U表示色度;V表示密度。
YCbCr是膚色檢測(cè)常用的模型空間,其中,Y代表亮度,Cr代表圖像中的紅色分量,Cb代表圖像中的藍(lán)色分量。人的膚色在外觀上的差異是由色度引起的,YCbCr顏色空間中CbCr的顏色區(qū)間類似于橢圓形狀,要判斷圖像中的像素是否在橢圓范圍內(nèi),從而確定該點(diǎn)是否是待研究的像素點(diǎn),遍歷整個(gè)圖像區(qū)域,確定膚色的范圍。將圖像轉(zhuǎn)換到Y(jié)CbCr空間并且在CbCr平面進(jìn)行投影,如式(2)所示:
其中,Y表示顏色亮度成分;Cb表示藍(lán)色濃度偏移量;Cr表示紅色濃度偏移量。
在YCbCr模型下,強(qiáng)度Y對(duì)色彩在CbCr平面的分布作用不大,采用線性近似值的辦法來(lái)找出膚色子空間的邊界,膚色像素點(diǎn)的范圍為77≤Cb≤127,并且133≤Cr≤173,假設(shè)該膚色像素點(diǎn)的灰度級(jí)為g(x, y),代碼說(shuō) 明if(77≤Cb≤118&&120≤Cr≤127),g(x,y)=0; else g(x,y)=255。YUV和YCrCb各通道的膚色檢測(cè)效果圖如圖3所示。
由圖3可以看出,YUV顏色空間相對(duì)于YCbCr空間的聚合度較低,三維的膚色空間轉(zhuǎn)化為二維CbCr空間的話,膚色區(qū)域會(huì)形成一定的形狀,產(chǎn)生很好的聚類效果,所以本章基于膚色模型的手勢(shì)識(shí)別選擇YCbCr膚色空間。基于YCbCr膚色轉(zhuǎn)換分割的效果如圖4所示。
隨機(jī)采集的圖像容易受環(huán)境的干擾,不可以作為圖像處理的輸入圖像,在視覺(jué)圖像處理前需要對(duì)原始圖像做預(yù)處理,主要目的是使感興趣區(qū)域的特征更明顯,衰減其不需要的特征[10-11]。直方圖均衡化的原理是通過(guò)重新分布圖像的灰度值來(lái)達(dá)到增強(qiáng)圖像對(duì)比度的效果。通過(guò)直方圖均衡化之后,把在灰度區(qū)間[a, b]內(nèi)原圖像的像素點(diǎn)映射到圖像變換后的 [z1,zk] 區(qū)間, [z1,zk]的范圍較大,將原圖像灰度區(qū)間的像素點(diǎn)z映射到子區(qū)間z12的函數(shù)如式(3)所示:
此函數(shù)的曲線形狀如圖5(a)所示,將區(qū)間[a, b]擴(kuò)展到區(qū)間[z1,zk]上,增強(qiáng)圖像的特征。如果選擇的圖像像素灰度值不唯一或者大部分分布在區(qū)間[a, b],如圖5(b)所示,則可以使用式(4)的映射函數(shù):
如果需要增強(qiáng)敏感區(qū)域的灰度細(xì)節(jié),同時(shí)又可以保留其他灰度上的細(xì)節(jié),可以在不同的區(qū)間上分段灰度處理,那么研究的灰度區(qū)間得以延伸,同時(shí)壓縮不需要圖像灰度空間,使對(duì)比效果更加明顯,如圖5(c)所示,也可以利用平滑函數(shù)對(duì)采集的圖像進(jìn)行尺度變換,如圖5(d)所示。
通過(guò)函數(shù)變換得到各灰度值所對(duì)應(yīng)的像素?cái)?shù)不完全匹配,首先設(shè)定灰度值的分布,才能達(dá)到直方圖均勻性的目的,假設(shè)灰度級(jí)zi上的像素點(diǎn)的數(shù)量為pi,qi是進(jìn)行灰度變換之后要得到的數(shù)目。從圖像的原點(diǎn)開(kāi)始找到灰度值k1,使得則重新對(duì)灰度級(jí)z1,z2,…,zk1-1上的像素點(diǎn)轉(zhuǎn)換到新的圖像上,求灰度值k2,使得所以另一個(gè)子區(qū)間的像素值z(mì)k1,…,zk2-1分別被映射到灰度級(jí)z2上。循環(huán)上面的操作步驟到灰度值處理結(jié)束,如圖6所示。
通過(guò)YCbCr膚色空間轉(zhuǎn)換的模型檢測(cè)出視頻中類膚色區(qū)域,該膚色區(qū)域包含手、手臂、臉部、頸部和與膚色區(qū)域灰度值相等的噪聲點(diǎn)。在視場(chǎng)中,手部和臉部是主要的膚色區(qū)域,篩選剔除面積小于200的輪廓,根據(jù)膚色區(qū)域近似矩形的特點(diǎn),計(jì)算矩形的高與寬比值,滿足box[i].size.height/box[i].size.width>0.7,0.9<box[i].size.height/box[i].size.width<1.2,膚 色 區(qū) 域?yàn)槭植?。本文采用的二維直方圖Otsu的自適應(yīng)閾值分割手勢(shì)方法是一種圖像灰度自適應(yīng)的分割算法,其中一維Otsu算法有計(jì)算簡(jiǎn)單、自動(dòng)選擇閾值等優(yōu)點(diǎn),多用在圖像分割中。一維Otsu算法對(duì)環(huán)境有較高的要求,而且要求像素點(diǎn)平均分布[12],當(dāng)圖像中有噪聲時(shí),會(huì)導(dǎo)致分割的效果不理想。本文采用二維Otsu算法,發(fā)現(xiàn)背景和前景的像素點(diǎn)主要分布在矩形區(qū)域的對(duì)角線上,邊界點(diǎn)和噪聲點(diǎn)分布在對(duì)角線的兩側(cè)[13]。
通過(guò)二維Otsu算法計(jì)算劃分出來(lái)的有效區(qū)域B的閾值,實(shí)驗(yàn)結(jié)果對(duì)比如圖7所示。
在視覺(jué)識(shí)別領(lǐng)域,常用的靜態(tài)手勢(shì)識(shí)別方法包括3種:第1種為模板匹配技術(shù),其原理是建立圖像數(shù)據(jù)庫(kù)給不同的手勢(shì)做標(biāo)簽,提取實(shí)時(shí)采集圖像的特征并與數(shù)據(jù)庫(kù)圖像的特征參數(shù)比較相似度,輸出匹配度最高的手勢(shì)結(jié)果;第2種為統(tǒng)計(jì)分析技術(shù),通過(guò)概率論的統(tǒng)計(jì)方法把含有相同手勢(shì)的圖像放到一個(gè)分類器中,提取圖像的特征向量信息,即維度信息,采用貝葉斯決策的算法設(shè)計(jì)分類器,根據(jù)該方法得到用于分割不同手勢(shì)的距離和夾角的值,從而達(dá)到對(duì)手勢(shì)識(shí)別的目的;第3種為神經(jīng)網(wǎng)絡(luò)技術(shù),這種方法需要具有自主能力,具有分布性特點(diǎn),在識(shí)別前都需要一個(gè)對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練階段[14-15]。本節(jié)的手勢(shì)識(shí)別采用HOG特征提取+ SVM分類相結(jié)合的手勢(shì)識(shí)別方法,流程圖如圖8所示。
提取手勢(shì)圖像的HOG特征,如局部圖像目標(biāo)的表象、形狀、像素分布以及邊緣方向的密度分布。HOG特征維數(shù)的計(jì)算,HOGDescriptor* hog =newHOGDescriptor(cvSize(64, 48), cvSize(8, 6), cvSize(8, 6), cvSize(4, 3), 9)。cvSize(64, 48)表示窗口的大小,cvSize(8, 6)表示塊(block)的大小,cvSize(8, 6)表示塊滑動(dòng)增量(blockStride)大小,cvSize(4, 3)表示胞元(cell)的大小。一張尺寸為640×480的圖片包含(blockSize.width/cellSize.width)*(blockSize.height / cellSize.height)個(gè)胞元(cell),所以一個(gè)塊(block)含有9A個(gè)梯度直方圖。按照所給出的數(shù)據(jù),可得結(jié)果為36,按照所給出的數(shù)據(jù),可得結(jié)果為230,400,如圖9所示。
SVM是一種二分類的模型,主要思想是在數(shù)據(jù)空間找到一個(gè)超平面,該平面可以把數(shù)據(jù)分為兩類,并且這兩類數(shù)據(jù)到超平面的距離最短。
本節(jié)研究手勢(shì)識(shí)別屬于線性不可分的情況,對(duì)采集的數(shù)據(jù)點(diǎn)進(jìn)行分類,實(shí)際上是通過(guò)f(x)=ωTx+b算出結(jié)果,然后根據(jù)正負(fù)號(hào)來(lái)進(jìn)行類別劃分。在超平面確定的情況下,我們就能夠找出所有的支持向量,然后計(jì)算出間隔margin,找出所有margin中最大的那個(gè)值對(duì)應(yīng)的超平面,用數(shù)學(xué)語(yǔ)言描述就是確定w、bmargin最大,這是一個(gè)優(yōu)化問(wèn)題,其目標(biāo)函數(shù)可以寫成:
(1)構(gòu)建拉格朗日函數(shù),如式(5)所示:
其中,α=(α1,α2,…,αN)T>0為拉格朗日乘子向量,優(yōu)化問(wèn)題就轉(zhuǎn)化為求函數(shù)極大、極小問(wèn)題,如式(6)所示:
例如,它的約束不等式中有一個(gè)不等式不滿足約束,y2(ωx2+b)-1<0,則
(2)求解minω,b L(ω,b,α),求偏導(dǎo)數(shù)并令其等于0,如式(7)所示:
(3)求解minω,b L(ω,b,α)對(duì)α的極大值,如式(8)所示:
?i>0,i =1,, 2這,…是, 原N問(wèn)題的對(duì)偶最優(yōu)化。
(4)超平面公式求解,如式(9)所示:
求解出b*的值,即找到分類效果最好的平面,支持向量就是此平面上的點(diǎn),觀察原問(wèn)題的對(duì)偶問(wèn)題,若(xi,yi)為非支持向量,那么yi(ωxi+b)-1>0要達(dá)到max?最大化的目的,有使 ?i=0,得出結(jié)論
為了提高分類器的泛化能力,針對(duì)某一手勢(shì)要保持統(tǒng)一且不能有遮擋,可以發(fā)生輕微變化,例如旋轉(zhuǎn)比較小的角度,或者使用不同的人作出手勢(shì)。負(fù)樣本的選擇至關(guān)重要,不能包含當(dāng)前要識(shí)別的手勢(shì),保證與識(shí)別的區(qū)域有一定的差異性,盡量選擇背景比較復(fù)雜的圖片,會(huì)加快匹配速度。對(duì)采集的圖像樣本進(jìn)行統(tǒng)一裁剪,如圖10所示。
實(shí)驗(yàn)分別采用支持向量機(jī)、模板匹配和神經(jīng)網(wǎng)絡(luò)3種方法對(duì)手勢(shì)識(shí)別的效果進(jìn)行比較,每種手勢(shì)、每種方法采集100張,得出靜態(tài)手勢(shì)的識(shí)別率如表1所示。
表1 3種手勢(shì)識(shí)別方法效果對(duì)比
由表1可以看出,在相同訓(xùn)練集數(shù)據(jù)中,基于支持向量機(jī)的識(shí)別方法比模板匹配和神經(jīng)網(wǎng)絡(luò)的識(shí)別率高。模板匹配的手勢(shì)識(shí)別方法對(duì)模板的要求較高,原圖像中除了包含手勢(shì)之外,其他無(wú)關(guān)信息全部灰度處理,增加了計(jì)算量;神經(jīng)網(wǎng)絡(luò)作為一種以人腦結(jié)構(gòu)為基礎(chǔ)的運(yùn)算模型,需要大量的節(jié)點(diǎn)和神經(jīng)元進(jìn)行策略分析,運(yùn)行效率低且算法復(fù)雜;基于HOG特征提取+SVM分類相結(jié)合的手勢(shì)識(shí)別方法優(yōu)點(diǎn)在于樣本集少,特征提取準(zhǔn)確等特點(diǎn),并且根據(jù)3種方法的識(shí)別率結(jié)果可知,該算法的手勢(shì)識(shí)別率較高,且識(shí)別穩(wěn)定性較好。
本文首先介紹了手勢(shì)識(shí)別在人機(jī)交互領(lǐng)域的應(yīng)用,其次分析了手勢(shì)分割存在的技術(shù)難點(diǎn),對(duì)比了現(xiàn)有手勢(shì)分割和手勢(shì)識(shí)別方法的特點(diǎn),最后重點(diǎn)研究了基于YCrCb膚色空間的手勢(shì)分割和基于SVM手勢(shì)識(shí)別的算法流程。通過(guò)實(shí)驗(yàn)結(jié)果分析,驗(yàn)證了本文采用的HOG+SVM手勢(shì)識(shí)別算法對(duì)手勢(shì)形態(tài)和復(fù)雜背景等因素具有較強(qiáng)的魯棒性。