張 軍 張 孔 楊正瓴
(天津大學(xué)電氣與自動(dòng)化工程學(xué)院 天津 300072)
?
基于計(jì)算機(jī)視覺(jué)的多特征手勢(shì)識(shí)別
張軍張孔楊正瓴
(天津大學(xué)電氣與自動(dòng)化工程學(xué)院天津 300072)
摘要目前常用單特征手勢(shì)識(shí)別方法中,缺少完整的手勢(shì)輪廓信息,對(duì)局部相似度高和形狀復(fù)雜的手勢(shì)識(shí)別率較低,為此提出一種將CSS特征描述子與Hu不變矩相結(jié)合的手勢(shì)特征提取方法。首先,利用膚色模型把手勢(shì)從復(fù)雜的背景中提取出來(lái),然后分別提取手勢(shì)的Hu不變矩和CSS描述子來(lái)構(gòu)建融合特征,最后利用人工神經(jīng)網(wǎng)絡(luò)對(duì)新特征進(jìn)行識(shí)別和分類(lèi)。實(shí)驗(yàn)結(jié)果表明,與基于單一特征的識(shí)別方法相比,該方法整體識(shí)別率更高,對(duì)局部形似度高的手勢(shì)識(shí)別率有很大提升。
關(guān)鍵詞計(jì)算機(jī)視覺(jué)手勢(shì)識(shí)別空間曲率特征Hu不變矩神經(jīng)網(wǎng)絡(luò)
0引言
手勢(shì)識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要分支,目前被廣泛應(yīng)用到人機(jī)交互(HCI)、手語(yǔ)識(shí)別等各種領(lǐng)域中。根據(jù)手勢(shì)采集設(shè)備的不同,可以將手勢(shì)識(shí)別分為基于數(shù)據(jù)手套的手勢(shì)識(shí)別和基于機(jī)器視覺(jué)的手勢(shì)識(shí)別[2]?;跀?shù)據(jù)手套的方法需要使用者穿戴特殊的手勢(shì)數(shù)據(jù)采集設(shè)備,使用條件受到限制;基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別只需要簡(jiǎn)單的數(shù)據(jù)采集設(shè)備,能為使用者提供更簡(jiǎn)單自然地輸入方式,目前已成為手勢(shì)識(shí)別的研究重點(diǎn)。
目前,基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別主要有兩個(gè)研究方向:基于彩色圖像的識(shí)別和基于深度圖像的識(shí)別?;谏疃葓D像的手勢(shì)識(shí)別主要是利用微軟2010年推出的Kinect外設(shè)傳感器來(lái)獲取深度圖像,再利用獲得圖像的深度信息來(lái)進(jìn)行手勢(shì)識(shí)別。物體在深度圖像中的深度值與物體距離傳感器的距離有關(guān)[3]。所以人手區(qū)域與背景區(qū)域在深度圖像中有不同的深度值,根據(jù)深度值得不同,可以利用閾值分割的方法來(lái)進(jìn)行手勢(shì)區(qū)域檢測(cè),從背景中分離出人手區(qū)域。基于深度圖像的手勢(shì)識(shí)別方法受光照和背景的干擾小,而且獲取的圖像分別率高,但是需要專(zhuān)門(mén)的Kinect設(shè)備;基于彩色圖像的識(shí)別方法不受場(chǎng)景、環(huán)境等因素干擾,而且所需設(shè)備比較簡(jiǎn)單的。綜合各種因素考慮,本文采用基于彩色圖像的手勢(shì)識(shí)別方法。
手勢(shì)提取是手勢(shì)識(shí)別的基礎(chǔ),手勢(shì)輪廓提取效果的好壞對(duì)后面的手勢(shì)特征的提取以及手勢(shì)識(shí)別有很大的影響。膚色在顏色空間有很好地聚類(lèi)特性,因此目前很多成熟的算法都是基于膚色模型來(lái)進(jìn)行手勢(shì)提取。徐占武等[7]采用高斯方法,此方法對(duì)復(fù)雜的背景有很好地識(shí)別效果,能夠?qū)崿F(xiàn)差異很大的膚色分割,但是高斯模型比較復(fù)雜,計(jì)算量大,不適用于實(shí)時(shí)操作環(huán)境。
人手是復(fù)雜的變形體,手勢(shì)具有多義性、多態(tài)性,具有時(shí)間和空間上的差異性[5],因此特征的選擇及提取是手勢(shì)識(shí)別領(lǐng)域中的一個(gè)難點(diǎn)。目前常用的手勢(shì)特征有兩種,一種是基于圖像表觀特征的提取,另一種是基于人手模型的特征提取[9]?;谀P偷奶卣魈崛【褪歉鶕?jù)經(jīng)驗(yàn)知識(shí)建立人手?jǐn)?shù)學(xué)模型,再根據(jù)手勢(shì)的特征估計(jì)模型的參數(shù),最后用模板匹配的方法進(jìn)行識(shí)別分類(lèi)。這種方法可以處理比較復(fù)雜的手勢(shì),缺點(diǎn)是計(jì)算量大,在圖像分辨率低時(shí),估計(jì)模型的參數(shù)比較困難?;趫D像的表觀特征就是利用圖像上手勢(shì)輪廓的手掌,手指等的幾何特征來(lái)描述手勢(shì)特征。文獻(xiàn)[1-3]通過(guò)計(jì)算手勢(shì)輪廓的指頭數(shù)和指頭間夾角來(lái)識(shí)別手勢(shì),這種方法計(jì)算量小,但是對(duì)于手指間夾角區(qū)分度小的手勢(shì)識(shí)別率低。王先軍等[4]利用Hu不變矩作為識(shí)別特征,得到7個(gè)具有平移、旋轉(zhuǎn)、縮放不變性的Hu不變矩作為特征,取得了較高的識(shí)別率,但是對(duì)于局部相似度較高的手勢(shì)(如圖1所示M和N)識(shí)別結(jié)果仍然差強(qiáng)人意。Chang等[6]將CSS(曲率尺度空間)特征引入到手勢(shì)識(shí)別領(lǐng)域,并對(duì)幾個(gè)簡(jiǎn)單手勢(shì)取得了很好地分類(lèi)效果,但是由于缺乏整體性特征,對(duì)手語(yǔ)中比較復(fù)雜的手勢(shì)(如圖1中的X和H)識(shí)別效果很差。
圖1 部分相似手勢(shì)
針對(duì)Hu不變矩缺少局部描述特征,而CSS特征描述子沒(méi)有整體特征。本文將兩種特征融合,從整體和局部?jī)煞矫婷枋鍪謩?shì),再用人工神經(jīng)網(wǎng)絡(luò)對(duì)新特征進(jìn)行分類(lèi),取得了良好的分類(lèi)效果。本文具體流程參見(jiàn)圖2所示。
圖2 流程圖
1手勢(shì)分割
手勢(shì)分割就是從復(fù)雜的背景中把手勢(shì)輪廓檢測(cè)出來(lái)[2]?,F(xiàn)在比較成熟的分割算法有幀差算法和膚色模型分割法。膚色分割法計(jì)算量比較小、模型簡(jiǎn)單,因此本文采用膚色模型分割法。
1.1膚色模型
膚色分割模型就是利用膚色在顏色空間上的聚類(lèi)性,把感興趣的區(qū)域從復(fù)雜的背景環(huán)境中分離出來(lái)。由于膚色在不同的顏色空間具有不同的聚類(lèi)特性,所以要想取得良好的分割效果,必須選擇合適的顏色空間。目前常用的顏色空間有RGB顏色空間、HSV顏色空間、YCrCb顏色空間三種。文獻(xiàn)[8]通過(guò)大量實(shí)驗(yàn),證明在YCrCb空間,膚色受亮度影響小,膚色聚類(lèi)特性較好。因此本文選擇YCrCbr空間作為手勢(shì)分割的顏色空間。
1.2手勢(shì)輪廓提取
實(shí)驗(yàn)中,我們采用一個(gè)單目相機(jī)來(lái)獲取包含手勢(shì)信息的圖像,圖像分辨率為320×240,通過(guò)下面步驟可以得到完整的手勢(shì)輪廓:
步驟1用式(1),將圖像由RGB空間轉(zhuǎn)換到Y(jié)CrCb空間,如圖3(b)所示。
(1)
步驟2對(duì)得到的YCrCb圖像進(jìn)行閾值分割,得到手勢(shì)的二值圖像,如圖3(c)所示。在我們實(shí)驗(yàn)環(huán)境下,Cr、Cb取值范圍:133≤Cr≤183,78≤Cb≤131。
步驟3為了去除噪聲和干擾,對(duì)閾值分割后的二值圖像進(jìn)行濾波和圖形學(xué)處理,如圖3(d)所示。
步驟4針對(duì)步驟三得到的二值圖像進(jìn)行輪廓提取,得到結(jié)果如圖3(e)所示。
步驟5為了去除非膚色區(qū)域的干擾,我們?cè)O(shè)定輪廓點(diǎn)數(shù)閾值T,當(dāng)輪廓點(diǎn)數(shù)小于閾值T時(shí),就認(rèn)為該區(qū)域不是手勢(shì)輪廓,用黑色填充,最后得到只有手勢(shì)輪廓的圖像,如圖3(f)所示。
圖3 手勢(shì)輪廓提取過(guò)程示意圖
2手勢(shì)輪廓特征提取
2.1CSS特征描述子
CSS特征就是通過(guò)手勢(shì)輪廓上各點(diǎn)的曲率來(lái)描述手勢(shì)的形狀特征,不同手勢(shì)的輪廓上各點(diǎn)的曲率分布是不同的。CSS特征描述子就是找到手勢(shì)輪廓在圖像的尺度空間中的過(guò)零點(diǎn),把這些過(guò)零點(diǎn)組合中的極值點(diǎn)位置及其對(duì)應(yīng)的空間尺度信息的集合作為描述子。
2.1.1曲率計(jì)算
用弧長(zhǎng)μ對(duì)曲線進(jìn)行參數(shù)化表示:
L(μ)=(x(μ),y(μ))
(2)
則曲線上各點(diǎn)的曲率可由下面公式計(jì)算:
(3)
x(μ,σ)=x(μ)?g(μ,σ)
(4)
y(μ,σ)=y(μ)?g(μ,σ)
(5)
(6)
2.1.2CSS描述子生成算法
根據(jù)上面的曲率計(jì)算公式,對(duì)得到的手勢(shì)輪廓進(jìn)行曲率計(jì)算,并根據(jù)下面步驟得到CSS特征描述子:
步驟1對(duì)得到的手勢(shì)輪廓進(jìn)行參數(shù)化,得到L(μ)。
步驟2利用式(3)求出曲線各點(diǎn)的曲率,得到在尺度σ下的手勢(shì)輪廓曲率序列。
步驟3判斷在尺度σ下,曲率序列是否存在曲率的極值點(diǎn)。有則轉(zhuǎn)步驟4,無(wú)則轉(zhuǎn)步驟5。
步驟4記錄下曲率極值點(diǎn)的位置和尺度,用(μ,σ)表示,增加尺度σ=σ+1,轉(zhuǎn)步驟3。
步驟5將步驟4中得到的點(diǎn)繪制在(μ,σ)平面上,得到尺度空間圖像CCSI。
在統(tǒng)一的離散化參數(shù)μ的條件下,所有CSSI中局部極值的坐標(biāo)集合就是CSS形狀描述子,即:
FCSS={(μi,σi)i=1,2,…,N}
(7)
手勢(shì)U對(duì)應(yīng)的CSSI特征如圖4所示。
圖4 手勢(shì)U對(duì)應(yīng)的CSSI特征
2.2Hu不變矩特征
矩不變量最早是由Hu等人于1962年提出的,把矩不變量進(jìn)行線性組合,得到具有比例不變性、平移不變性、和旋轉(zhuǎn)不變性的矩[10]。
針對(duì)二維的數(shù)字圖像f(x,y),對(duì)應(yīng)的p+q階矩為[4]:
(8)
則與之相對(duì)應(yīng)的p+q階中心距為[4]:
(9)
中心矩upq是平移不變的。對(duì)中心距upq進(jìn)行尺度規(guī)范化,得到如下中心矩[4]:
(10)
對(duì)上面得到的中心距ηpq進(jìn)行非線性組合,得到如下7個(gè)具有平移不變性的Hu不變矩:
M1=η20+η02
(11)
(12)
M3=(η30-3η12)2+(3η21-η03)2
(13)
M4=(η30+η12)2+(η21+η03)2
(14)
M5=(η30-3η12)(η30+η12)[(η30+η12)2
-3(η21+η12)2]+3(η21-η03)(η21+
η03)[3(η30+η12)2-(η21+η03)2]
(15)
M6=(η20-η02)[(η30+η12)2-(η21+η03)2]+
4η11(η30+η12)(η21+η03)
(16)
M7=(3η21-η03)(η21+η03)[3(η30+η12)2-
(η21+η03)2]-(η30-3η12)(η21+
η03)[3(η30+η12)2-(η21+η03)2]
(17)
利用上面得到的7個(gè)Hu不變矩來(lái)描述手勢(shì)的輪廓特征,并將其表示為如下形式描述子:
FHu={M1,M2,M3,M4,M5,M6,M7}
(18)
2.3特征融合
通過(guò)計(jì)算空間曲率得到CSS形狀描述子FCSS,通過(guò)Hu不變矩得到具有7個(gè)特征的Hu不變矩描述子FHu。但是CSS形狀描述子和Hu不變矩描述子采用不同的距離度量方法,量綱不統(tǒng)一,而且CSS形狀描述子的維數(shù)是不確定的,直接拼接會(huì)出現(xiàn)不平衡現(xiàn)象。所以不能直接將 2 種描述子融合使用,可以通過(guò)歸一化和對(duì)特征進(jìn)行加權(quán)來(lái)減小直接融合的影響,具體如下:
步驟1分別對(duì)CSS描述子和Hu不變矩描述子進(jìn)行歸一化,使其大小在0和1之間。
步驟2對(duì)歸一化的距離進(jìn)行線性加權(quán),得到新特征:
F=a×FCSS+b×FHu
(19)
式中a、b為權(quán)值,需要在實(shí)驗(yàn)過(guò)程中確定,F(xiàn)CSS表示CSS描述子,F(xiàn)Hu表示Hu特征描述子。
為了確定式(19)中線性加權(quán)系數(shù)a、b的數(shù)值,對(duì)a、b不同的取值進(jìn)行試驗(yàn),結(jié)果如表1所示。當(dāng)a取值較小時(shí),CSS特征所占比重比較大,缺少整體特征,識(shí)別率比較低,隨著a的取值增大,整體識(shí)別率有所提升。當(dāng)a增大到0.4時(shí),識(shí)別率達(dá)到最大值,隨著a繼續(xù)增大,Hu不變矩特征所占比重逐漸增大,特征由于缺少局部描述,識(shí)別率開(kāi)始下降。根據(jù)上述分析,本實(shí)驗(yàn)取a=0.4,b=0.6,結(jié)果如表1中第五行所示。
表1 不同權(quán)值a、b對(duì)應(yīng)的識(shí)別率
3手勢(shì)識(shí)別
本文采用BP人工神經(jīng)網(wǎng)對(duì)圖5中30個(gè)手語(yǔ)字母進(jìn)行識(shí)別分類(lèi),取得了良好的識(shí)別效果。
圖5 手語(yǔ)中30個(gè)手勢(shì)示意圖
4實(shí)驗(yàn)結(jié)果分析及比較
針對(duì)圖5中字母表中的30個(gè)手語(yǔ)字母,分別用攝像機(jī)對(duì)6個(gè)不同實(shí)驗(yàn)對(duì)象采集手勢(shì)圖像,每個(gè)手勢(shì)采集20次,總共得到3600個(gè)樣本,其中2700個(gè)用于樣本訓(xùn)練,900個(gè)用于測(cè)試。900個(gè)測(cè)試樣本的實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同手勢(shì)識(shí)別率
900個(gè)測(cè)試樣本,采用本文方法進(jìn)行測(cè)試,取得了良好的實(shí)驗(yàn)效果,部分手勢(shì)識(shí)別率達(dá)100%,整體識(shí)別率為92.4%。
為了驗(yàn)證本文方法的有效性,分別利用Hu不變矩特征(文獻(xiàn)[4]中的方法)和CSS特征(文獻(xiàn)[6]中的方法)對(duì)900個(gè)樣本(每個(gè)手勢(shì)30個(gè)樣本)進(jìn)行了測(cè)試。部分對(duì)比實(shí)驗(yàn)結(jié)果如表3、表4所示,整體結(jié)果如圖6所示。
表3 針對(duì)手語(yǔ)中簡(jiǎn)單手勢(shì)的不同方法實(shí)驗(yàn)結(jié)果對(duì)比
表4 針對(duì)手語(yǔ)中復(fù)雜手勢(shì)的不同方法實(shí)驗(yàn)結(jié)果對(duì)比
圖6 不同方法識(shí)別率對(duì)比圖
從表3、表4可以看出,針對(duì)簡(jiǎn)單的手勢(shì),單獨(dú)使用Hu不變矩或者CSS特征,可以取得較高的識(shí)別率。例如針對(duì)手勢(shì)A,單獨(dú)使用兩種特征正確識(shí)別數(shù)分別達(dá)到28和29,但是對(duì)于一些復(fù)雜手勢(shì)或局部區(qū)分度較小的手勢(shì),本文方法的識(shí)別率相較于單獨(dú)使用一種特征有很大的提升。例如,針對(duì)手勢(shì)M和手勢(shì)N,這兩種手勢(shì)的局部相似度很高,單獨(dú)使用CSS特征正確識(shí)別數(shù)分別為20和19,單獨(dú)使用Hu不變矩特征,識(shí)別率分別為19和18,而綜合使用CSS特征和Hu不變矩特征正確識(shí)別數(shù)分別達(dá)到24和23。
本文所有實(shí)驗(yàn)均是在如下環(huán)境完成:Inteli3 處理器,主頻3.40GHz,2GB內(nèi)存,Windows7操作系統(tǒng)VS2010+OpenCV2.4.9。所有圖片分辨率為320×240。
5結(jié)語(yǔ)
針對(duì)Hu不變矩在靜態(tài)手勢(shì)特征描述中缺乏局部信息,而CSS特征描述子缺乏整體方面的描述,本文將兩種描述子融合,作為一種新的特征。實(shí)驗(yàn)表明,相對(duì)于單一的CSS特征和Hu不變矩特征,融合特征對(duì)于局部相似度高和手語(yǔ)中較復(fù)雜的手勢(shì)有很高的識(shí)別率,是一種更為有效的識(shí)別特征。
參考文獻(xiàn)
[1] 翁漢良,戰(zhàn)蔭偉.基于視覺(jué)的多特征手勢(shì)識(shí)別[J].計(jì)算機(jī)工程與科學(xué),2012,34(2):123-127.
[2] 趙愛(ài)芳,裴東,王全州.復(fù)雜環(huán)境中多信息融合的手勢(shì)識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2014,49(5):180-184.
[3] 李瑞峰,曹雛清,王麗.基于深度圖像和表觀特征的手勢(shì)識(shí)別[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2011,40(S2):88-91.
[4] 王先軍,白國(guó)振,楊勇明.復(fù)雜背景下BP神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(3):247-249,267.
[5]LiuY,ZhangL,ZhangS.AHandGestureRecognitionMethodBasedonMulti-FeatureFusionandTemplateMatching[C]//InternationalWorkshoponInformationandElectronicsEngineering,Harbin,PEOPLESRCHINA,2012:1678-1684.
[6]ChangCC,LiuChengyi,TaiWenkai.FeatureAlignmentApproachforHandPostureRecognitionBasedonCurvatureScaleSpace[J].Neurocomputing,2008,71(10-12):1947-1953.
[7] 徐戰(zhàn)武,朱淼良.基于顏色的皮膚檢測(cè)綜述[J].中國(guó)圖象圖形學(xué)報(bào),2007,12(3):377-388.
[8]DhruvaN,RupanagudiS,SachinS,etal.NovelSegmentationAlgorithmforHandGestureRecognition[C]//IEEEInternationalMultiConferenceonAutomationComputing,Control,CommunicationandCompressedSensing,Kottayam,INDIA,2013:383-388.
[9] 陳皓,路海明.基于深度圖像的手勢(shì)識(shí)別綜述[J].內(nèi)蒙古大學(xué)學(xué)報(bào):自然科學(xué)版,2014,44(1):105-111.
[10] 張汗靈,李紅英,周敏.融合多特征和壓縮感知的手勢(shì)識(shí)別[J].湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2013,34(3):87-92.
COMPUTER VISION-BASED RECOGNITION OF HAND GESTUREWITHMULTIPLEFEATURES
Zhang JunZhang KongYang Zhengling
(School of Electrical and Automation Engineering,Tianjin University,Tianjin 300072,China)
AbstractBecause of lacking full hand gestures contour information, current commonly used hand gesture recognition algorithms using single feature have lower recognition rate for the gestures with high local similarity and complicated shapes. Therefore we proposed a novel hand gesture feature extraction method, which combines the feature descriptor of curvature scale space (CSS) with Hu invariant moment. First, we used the skin colour model to extract the gestures from complicated background, and then extracted Hu invariant moment and CSS descriptor of gestures respectively to construct fusion features. At last, we made use of the artificial neural network to recognise and classify the new features. Experimental results demonstrated that compared with the recognition approaches based on single gesture feature, the proposed method has higher integral recognition rate, and improves significantly in recognition rate on gestures with high local similarity in shape.
KeywordsComputer visionHand gesture recognitionCSSHu invariant momentNeural network
收稿日期:2014-12-26。天津市創(chuàng)新基金項(xiàng)目(13ZXCXGX404 00)。張軍,副教授,主研領(lǐng)域:圖像處理,智能交通。張孔,碩士生。楊正瓴,副教授。
中圖分類(lèi)號(hào)TP3
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.06.037