采用深度圖像信息和SLVW的手語識別

2013-07-19 08:43楊全彭進(jìn)業(yè)

計(jì)算機(jī)工程與應(yīng)用 2013年19期

關(guān)鍵詞：手語手勢字母

楊全，彭進(jìn)業(yè)

西北大學(xué)信息科學(xué)與技術(shù)學(xué)院，西安 710127

采用深度圖像信息和SLVW的手語識別

楊全，彭進(jìn)業(yè)

西北大學(xué)信息科學(xué)與技術(shù)學(xué)院，西安 710127

1 引言

聾人使用的手語，是一種進(jìn)行信息交流、傳遞思想的自然方法，在聾校教學(xué)和聾人交流方面起著非常重要的作用。手語是由手的形狀、手腕和手臂的運(yùn)動(dòng)，與之對應(yīng)的人臉表情、嘴唇讀音形狀，以及其他身體姿態(tài)相結(jié)合的人體語言。中國手語包括手指語和手勢語兩類：手指語由30個(gè)手指字母構(gòu)成基本單位，是用手指的變化和動(dòng)作代表一個(gè)漢語拼音字母，并按照漢語拼音規(guī)則和順序依次拼出詞語構(gòu)成的語言；手勢語是通過指示性的形象手指姿態(tài)模擬事物形狀和動(dòng)作的自然手勢。由于漢字本身包含的字詞較多，所以使用手勢很難全面準(zhǔn)確地將其表述完整。而手指語與拼音的拼寫方式一致，可以表達(dá)很多專業(yè)術(shù)語以及抽象概念，具有簡明易學(xué)、手勢較少的特點(diǎn)。因此，手語字母的識別是手語識別中非常重要的一部分。根據(jù)教育部及中國文字改革委員會(huì)等單位公布的現(xiàn)行中國手語實(shí)施方案，中國手語中包括30個(gè)手語字母：26個(gè)單字母（A～Z）和4個(gè)雙字母（ZH、CH、SH、NG），如圖1所示。

手語識別研究包括兩類：（1）基于計(jì)算機(jī)視覺的手語識別[1]；（2）基于佩戴式設(shè)備的手語識別。由于佩戴式位置跟蹤器與數(shù)據(jù)手套的價(jià)格較高，并且穿戴方式復(fù)雜，所以很難推廣到實(shí)際應(yīng)用中。隨著視頻采集設(shè)備的普及和應(yīng)用，基于計(jì)算機(jī)視覺的手語識別以其自然便捷的交互方式受到越來越多的關(guān)注，尤其是在硬件成本方面，該方式所需設(shè)備成本很低，因此非常適于普及應(yīng)用，是目前手語識別的研究重點(diǎn)[2-3]。

哈爾濱工業(yè)大學(xué)的楊筱林、姚鴻勛利用圓形的軸對稱和中心對稱的幾何特點(diǎn)，采用基于多尺度形狀描述子的方法對靜態(tài)中國手指語字母進(jìn)行識別，識別率為94.6%[4]；中國科學(xué)院計(jì)算技術(shù)研究所的張國良等人，采用CHMM對439個(gè)孤立手語詞的平均識別率為92.5%[5]；哈爾濱工業(yè)大學(xué)的姜峰等人采用合成數(shù)據(jù)驅(qū)動(dòng)算法對離線中國手語詞進(jìn)行識別，平均識別率為71.6%[6]；Deng[7]等人借助顏色手套簡化手勢分割，運(yùn)用并行HMM識別192個(gè)美國手語詞的識別率為93.3%。使用Harr特征并以AdaBoost作為識別分類器，文獻(xiàn)[8]進(jìn)行了24個(gè)英文手語的識別研究；Silanon等人提出了根據(jù)手勢運(yùn)動(dòng)分析識別泰文字母的方法[9]；Ong等人采用基于Sequential Pattern Trees的多級分類器方法對大詞匯量單手語者手勢序列和多手語者Kinect數(shù)據(jù)集進(jìn)行識別[10]。

圖1 手語字母表

本文采用Kinect作為手語視頻采集設(shè)備，在獲取彩色手語視頻的同時(shí)得到相應(yīng)的手語深度圖像信息，在此基礎(chǔ)上對傳統(tǒng)的CamShift算法和Ostu算法進(jìn)行了改進(jìn)。通過提取手語手勢的SLVW特征，構(gòu)建其詞包模型對手語字母進(jìn)行識別，并通過實(shí)驗(yàn)驗(yàn)證了算法的準(zhǔn)確性。

2 SLVW特征表示

BoW（Bag of Words）模型是信息檢索領(lǐng)域常用的文檔表示方法。在信息檢索的時(shí)候，對于任何一個(gè)文檔，BoW模型都采取忽略它的單詞前后順序、語法和上下文等要素的方法，只是將其看做詞匯的集合，文檔中所有單詞都被看做是獨(dú)立而不依賴于其他任何單詞的。也就是說，文檔中任意一個(gè)位置出現(xiàn)的任何單詞，都不受該文檔語義的影響，是隨機(jī)的。

以如下兩個(gè)文檔進(jìn)行說明：

Dictionary一共包含10個(gè)不同的單詞，給每個(gè)單詞加索引號，以上兩個(gè)文檔分別用一個(gè)10維向量表示（某個(gè)單詞在文檔中出現(xiàn)的次數(shù)用整數(shù)數(shù)字0～n表示）。

向量中每個(gè)元素表示詞典中相關(guān)元素在文檔中出現(xiàn)的次數(shù)，且未表達(dá)單詞在原來句子中出現(xiàn)的次序。由此可知，如果存在一個(gè)巨大的文檔集合D，其中一共存儲(chǔ)M個(gè)文檔，提取出文檔里面的所有單詞，然后由這N個(gè)單詞構(gòu)成詞典。假設(shè)用BoW模型描述文檔，則每個(gè)文檔都可以用一個(gè)N維向量來表示。

將BoW模型應(yīng)用于手語識別，為了表征一幅手語圖像，可以將該圖像看做是一個(gè)文檔，是若干個(gè)手語視覺詞匯的集合，且不同視覺詞之間不存在次序關(guān)系。由于手語圖像中的手語視覺詞匯不像文本文檔那樣直接顯式存在，所以需要從圖像中提取出相互獨(dú)立的手語視覺詞，對手語圖像構(gòu)造視覺詞包。該過程主要有4個(gè)步驟，如圖2所示。

圖2 構(gòu)造詞包模型的4個(gè)步驟

（1）特征檢測：通過手語圖像分割的方式獲取手語手勢的興趣點(diǎn)；

（2）特征表示：采用圖像的局部特征描述子來表示圖像內(nèi)容；

（3）生成視覺單詞：把局部特征描述子表示的圖像小區(qū)域量化生成手語視覺單詞（SLVW）；

（4）生成BoW：統(tǒng)計(jì)一幅手語圖像中的視覺單詞頻率，生成視覺單詞頻率直方圖，用BoW模型來表示手語圖像。

生成SLVW詞包后，通過使用K-means聚類算法，訓(xùn)練圖像集上的所有特征，每一個(gè)聚類中心被定義為一個(gè)視覺單詞，從而生成由N個(gè)視覺單詞所組成的視覺單詞詞匯表。計(jì)算訓(xùn)練圖像中圖像塊的特征與詞匯表中的每個(gè)視覺單詞所對應(yīng)的歐式距離，與其中某個(gè)視覺單詞距離最近的則被記錄下來，不斷重復(fù)以上過程，最終形成一組視覺單詞頻率統(tǒng)計(jì)直方圖，生成視覺單詞詞包，用這組統(tǒng)計(jì)直方圖代表該幅圖像的特征[11-12]。SLVW特征表示方式能夠很好地解決圖像局部特征點(diǎn)個(gè)數(shù)不同的問題，具有簡單和只需要少量監(jiān)督的優(yōu)勢。這種圖像表示模型將二維的圖像信息映射成視覺關(guān)鍵詞集合，既保存了圖像的局部特征又有效地壓縮了圖像的描述，使得自然語言處理的各種技術(shù)和方法能十分有效地應(yīng)用于物體識別領(lǐng)域[13]。

本文首先提取手語圖像的SIFT特征作為圖像中的手語視覺詞匯，將所有的視覺詞匯集合在一起，則每幅手語圖像都由一個(gè)128維的特征向量集合描述。然后采用K-means聚類算法構(gòu)造手語視覺詞匯表。SIFT提取的視覺詞匯向量之間根據(jù)距離的遠(yuǎn)近，利用K-means算法將詞義相近的詞匯合并，得到K個(gè)聚類中心作為視覺單詞，即單詞表中的基礎(chǔ)詞匯，再由視覺單詞構(gòu)成視覺詞匯表；進(jìn)而利用手語單詞表中的詞匯表示手語圖像。利用SIFT算法，可以從每幅圖像中提取128個(gè)特征點(diǎn)，這些特征點(diǎn)都可以用單詞表中的單詞近似代替，通過統(tǒng)計(jì)單詞表中每個(gè)單詞在圖像中出現(xiàn)的次數(shù)，可以將圖像表示成為一個(gè)K維數(shù)值向量。

參考文檔分類的啟發(fā)，對每幅手語圖像中的每個(gè)向量計(jì)算N個(gè)最近鄰視覺單詞，然后度量第k個(gè)SLVW的質(zhì)量：

其中，Mi表示與視覺單詞tk第i接近的特征向量數(shù)，s(fj，tk)表示特征向量fj與視覺單詞tk之間的相似度，本文采用歐式距離平方進(jìn)行度量。對每個(gè)視覺單詞計(jì)算其質(zhì)量，如果滿足

則保留，否則舍去。式（2）中，h為視覺單詞的質(zhì)量閾值。手語字母的SIFT特征及SIFT詞包特征如圖3所示。

圖3 手語字母的SIFT與SIFT詞包特征

圖4為基于SIFT詞包的手語字母匹配實(shí)驗(yàn)，采用Squared Euclidean Distance進(jìn)行計(jì)算。圖4（a）為生成手語字母A的SLVW詞包（基于SIFT的手語詞包特征，簡稱為SLVW特征）后，從手語庫中隨機(jī)選取的靜態(tài)手語字母A的圖像與手語視頻幀中的字母A手勢的匹配成功，識別出了該視頻中的手勢為手語字母A。圖4（b）、（c）、（d）為當(dāng)視頻中出現(xiàn)的手勢是字母A時(shí)，依次選取靜態(tài)手語字母B、F、W的SLVW詞包與之匹配失敗。圖4（e）、（f）依次為手語字母B、L的正確匹配與識別。

SLVW與SIFT特征點(diǎn)提取匹配實(shí)驗(yàn)比較如圖5所示。其中，圖5（a）為手語視頻中出現(xiàn)字母T時(shí)生成其SLVW特征并與手語庫中字母T手勢的特征匹配，共有20個(gè)特征點(diǎn)能夠?qū)?yīng)。圖5（b）為相同幀提取SIFT特征的匹配，僅有11個(gè)特征點(diǎn)能夠?qū)?yīng)。圖5（c）為手語字母J的SLVW特征提取匹配，共有17個(gè)對應(yīng)的特征點(diǎn)。圖5（d）為相同幀情況下SIFT只有9個(gè)對應(yīng)特征的匹配。

圖4 基于SLVW詞包的手語匹配

圖5 SLVW與SIFT特征點(diǎn)匹配比較

圖6為相似手語手勢的兩種特征匹配識別比較。手語字母M與N的手勢非常相似，圖6（a）為提取字母M的SLVW特征，可在視頻幀與手語庫手勢匹配時(shí)計(jì)算得到4個(gè)對應(yīng)的特征點(diǎn)。圖6（b）為提取相同視頻幀的SIFT特征，僅有1個(gè)特征點(diǎn)對應(yīng)，不能達(dá)到匹配識別要求。圖6（c）為視頻中的手勢是M時(shí)，計(jì)算手語庫中字母N的SLVW詞包與之匹配失敗，字母N手部的特征點(diǎn)部分匹配在打手語者的眼部和頸部。圖6（d）為與（c）相同的視頻幀，字母M與N的SIFT特征匹配誤識別，共有4個(gè)特征點(diǎn)匹配且都對應(yīng)在手部，無法區(qū)分其為兩個(gè)不同的字母手勢。圖6（e）、（f）分別為字母V的SLVW和SIFT特征提取匹配，相同情況下SLVW比SIFT特征多識別出了5個(gè)相匹配的特征點(diǎn)。圖6（g）為選取手語庫中W手勢與V匹配時(shí)，W的SLVW特征點(diǎn)對應(yīng)到了打手語者的臉上，匹配失敗。圖6（h）是提取SIFT特征計(jì)算，W和V僅有1個(gè)特征點(diǎn)相對應(yīng)，無法達(dá)到判斷其異同的要求。

通過實(shí)驗(yàn)結(jié)果比對分析，可以發(fā)現(xiàn)SLVW詞包是一種非常有效的手語特征。

圖6 SLVW與SIFT特征匹配識別比較

3 基于SLVW的手語識別

手語識別過程需經(jīng)過以下5個(gè)階段：手語手勢檢測、跟蹤；手勢分割提??；SLVW構(gòu)建；SVM訓(xùn)練學(xué)習(xí)；使用SVM識別手語。

3.1 基于DI_CamShift的手勢跟蹤

幀差法就是背景減圖法中的一種，因?yàn)槠浔尘澳Ｐ途褪巧弦粠膱D，所以使用幀差法進(jìn)行運(yùn)動(dòng)手勢檢測不需要建模，速度較快。由于手語視頻所處場景光照情況比較穩(wěn)定，所以本文選用對緩慢變換光照不敏感的幀差法進(jìn)行手語手勢檢測可以獲得較好的效果，如圖7所示。

圖7 手勢檢測

由于傳統(tǒng)CamShift算法在彩色空間轉(zhuǎn)換和運(yùn)動(dòng)手勢跟蹤方面存在不足，所以本文使用圖像的深度信息改進(jìn)Cam-Shift算法，即Depth Image CamShift（DI_CamShift）算法。

對于深度圖像D(x，y)，它的(p+q)階二維原點(diǎn)矩Mpq的定義為：

其中，D(x，y)為深度圖像中(x，y)位置處像素的深度值。

定義D(x，y)的(p+q)階中心矩μpq為：則其二階中心矩可以作為手語圖像中手勢的主軸。最大二階矩和最小二階矩的方向可用來確定手語手勢的主軸，即長軸和短軸。手勢主軸方向角θ可根據(jù)矩理論按下述公式求?。?/p>

表1 手勢主軸與坐標(biāo)軸的夾角

令手語手勢S的主軸方向?yàn)棣?，則

DI_CamShift算法具體步驟為：

（1）將整個(gè)深度圖像設(shè)為搜索區(qū)域。

（2）采用幀差法檢測視頻中的運(yùn)動(dòng)人手區(qū)域，對Search Window進(jìn)行初始化，定位其尺寸和位置。

（3）對Search Window區(qū)域內(nèi)的部分，計(jì)算其深度直方圖的概率分布。

（4）分別計(jì)算深度圖像中手勢的長軸和短軸的方向θ1、θ2。

（5）使用MeanShift算法計(jì)算窗口內(nèi)深度手勢圖像的質(zhì)心位置，根據(jù)質(zhì)心位置和主軸方向θ1、θ2調(diào)整Search Window的尺寸。

（6）對于下一幀手語視頻圖像，用步驟（5）的Search Window的質(zhì)心和尺寸，跳轉(zhuǎn)至（3）繼續(xù)運(yùn)行。

（7）如果檢測到多個(gè)運(yùn)動(dòng)目標(biāo)，則真實(shí)手勢為HandGesture= min{M00(Obj1)，M00(Obj2)，…，M00(Objn)}。因?yàn)榫嚯x攝像機(jī)遠(yuǎn)的物體具有較大的深度值，而手語識別中認(rèn)為待識別手語手勢是在打手語者身體之前，距離Kinect攝像機(jī)最近的目標(biāo)物體，所以選取具有最小0階矩值的Search Window，該窗口內(nèi)的手勢像素具有最小的深度信息值的和，可確定為最前景目標(biāo)手勢區(qū)域。

如圖8（a）所示，視頻中出現(xiàn)了一本黃色封面的書，由于黃色較接近手語手勢的膚色，所以在人手靠近黃色封皮的書時(shí)，CamShift將跟蹤窗口轉(zhuǎn)移到了書的區(qū)域，將書誤判為運(yùn)動(dòng)跟蹤目標(biāo)。并且，在人手運(yùn)動(dòng)遠(yuǎn)離書時(shí)，跟蹤窗口始終停留在原處，未能對運(yùn)動(dòng)著的手部區(qū)域進(jìn)行正確跟蹤（彩色圖像為手語視頻中由Kinect彩色攝像頭獲取的彩色視頻幀，下方對應(yīng)的是Kinect深度攝像頭同步拍攝獲取的深度視頻幀）。圖8（b）為相同場景情況下，DI_CamShift對運(yùn)動(dòng)手勢的正確跟蹤。雖然受光線和拍攝角度影響，書皮的顏色在彩色視頻幀中有時(shí)表現(xiàn)為深黃色，有時(shí)表現(xiàn)為淺黃色，但是在人手靠近、遠(yuǎn)離書的運(yùn)動(dòng)過程中，DI_CamShift始終將跟蹤窗口定位于運(yùn)動(dòng)的人手區(qū)域，實(shí)現(xiàn)了準(zhǔn)確的運(yùn)動(dòng)手勢跟蹤。

圖8 類膚色物體干擾信息下DI_CamShift與CamShift手勢跟蹤比較

在進(jìn)行手語手勢跟蹤時(shí)，認(rèn)為手語手勢位于人體的最前方，即當(dāng)視頻中出現(xiàn)多個(gè)運(yùn)動(dòng)著的人手的時(shí)候，只有處于人的身體前端且距離攝像機(jī)最近的人手為跟蹤目標(biāo)。圖9（a）為視頻中同時(shí)出現(xiàn)兩個(gè)運(yùn)動(dòng)手勢時(shí)CamShift的跟蹤結(jié)果，雖然兩個(gè)手勢距離攝像頭的前后位置不同，而且后方的人手為干擾因素，只有距離攝像頭最近的打手語者的右手為待跟蹤目標(biāo)，但是由于它們都在運(yùn)動(dòng)，所以Cam-Shift將兩個(gè)運(yùn)動(dòng)手勢同時(shí)定位且進(jìn)行了跟蹤。如圖9（b），是DI_CamShift在基于手勢深度信息基礎(chǔ)上正確識別跟蹤的目標(biāo)手勢。

圖9 視頻中出現(xiàn)多個(gè)運(yùn)動(dòng)手勢時(shí)兩種算法跟蹤比較

一旦在深度手勢視頻中確定了跟蹤窗口，就同步地將該窗口繪制到彩色視頻中對應(yīng)的位置處，實(shí)現(xiàn)彩色視頻中手勢的跟蹤。相同場景下，DI_CamShift算法具有更好的跟蹤效果，不會(huì)出現(xiàn)跟蹤中丟失手勢目標(biāo)的情況，也去除了距離攝像頭較遠(yuǎn)的具有相同顏色信息的人手區(qū)域的誤判跟蹤。

3.2 手勢分割

為了加快手勢圖像的分割計(jì)算速度，可將深度圖像的積分圖像用于以類間方差作為準(zhǔn)則函數(shù)的二維Ostu算法[14-15]，結(jié)合橢圓邊界膚色模型，得出一種改進(jìn)的基于深度積分圖像的Ostu算法：

（1）g為橢圓邊界手勢膚色概率分布深度圖，采用3×3的均值濾波算子對g進(jìn)行濾波，可以得到其鄰域平滑圖像f；通過遍歷g、f，尋找對應(yīng)的像素并進(jìn)行統(tǒng)計(jì)，其結(jié)果生成矩陣d；最后計(jì)算P（二維直方圖矩陣）和它所對應(yīng)的變換矩陣Pi、Pj：

（3）計(jì)算SB和ST，它們分別為點(diǎn)(i，j)對應(yīng)的類間離差矩陣和總離差矩陣：

（4）計(jì)算ST-SB，獲得類內(nèi)離差矩陣，計(jì)算min{|ST-SB|}（(i，j)對應(yīng)的準(zhǔn)則函數(shù)值），然后查尋所有數(shù)據(jù)點(diǎn)，獲取最佳分割閾值。圖10為改進(jìn)前后兩種分割算法的效果比較。

圖10 手勢分割方法改進(jìn)前后的效果比較

圖11為在DI_CamShift跟蹤窗口內(nèi)進(jìn)行的基于改進(jìn)膚色分割算法的手勢提取效果，作為深度距離最小的膚色物體，人手被較好地從背景中提取出來，未受視頻中其他膚色物體或類膚色物體的影響。

圖11 復(fù)雜背景視頻中手勢的分割

4 手語識別實(shí)驗(yàn)

實(shí)驗(yàn)運(yùn)行環(huán)境：CPU為Intel Core i5-2300（雙核2.8 GHz），內(nèi)存4 GB；操作系統(tǒng)：Win7 x64，安裝NET Framework 4.5，Kinect for Xbox 360 Sensor和Xbox 360 Kinect AC Adapter/ Power Supply；開發(fā)環(huán)境：vs2010 x64，Kinect SDK v1.7，OpenCV 2.4.4，OpenNI2.2 64 bit。

手語字母視頻由Kinect采集，在白天自然光照，復(fù)雜背景下錄制。由兩位打手語者面向Kinect打出30個(gè)手語字母，視頻包括打手語者的上半身區(qū)域和周圍復(fù)雜環(huán)境場景。每個(gè)手語字母錄制時(shí)長為3 min，分別采集彩色視頻和深度視頻，兩類視頻的30個(gè)分段視頻，共計(jì)360 min，如圖12所示。

本文實(shí)驗(yàn)首先使用Kinect采集手語視頻圖像，然后用幀差法進(jìn)行手語手勢的檢測和初步定位，并應(yīng)用DI_Cam-Shift算法進(jìn)行手勢跟蹤。在手勢分割提取時(shí)，用改進(jìn)的膚色分割方法提取目標(biāo)手勢，并進(jìn)行特征提取和SLVW詞包構(gòu)建，最后采用徑向基核函數(shù)（Radical Basis Function，RBF）SVM分類器進(jìn)行訓(xùn)練[16]：

圖12 手語視頻

實(shí)驗(yàn)中，從360 min自然光照復(fù)雜背景手語視頻中間隔采樣，針對每位打手語者，每個(gè)手語字母手勢分別提取50幅彩色圖像和50幅深度圖像，共計(jì)6 000幅手語圖像作為訓(xùn)練樣本。從手語視頻中的非訓(xùn)練樣本部分，選取30個(gè)手語字母中的各50幅彩色圖像和50幅深度圖像作為測試對象，基于RBF的SVM分類器識別結(jié)果如表2所示，平均識別率為96.21%。

表2 手語字母識別結(jié)果

5 結(jié)束語

本文提出了一種基于SLVW的手語字母識別方法，使用改進(jìn)后的DI_CamShift算法，通過計(jì)算深度圖像中手語手勢的主軸方向和質(zhì)心位置調(diào)整Search Window的尺寸，實(shí)現(xiàn)了對手語手勢的持續(xù)穩(wěn)定跟蹤；將深度積分圖像應(yīng)用于Ostu算法對手語手勢進(jìn)行分割提取；通過提取手語SIFT特征，將手語圖像小區(qū)域量化生成其SLVW特征，然后使用K-means聚類算法得到視覺單詞頻率統(tǒng)計(jì)直方圖，最終生成SLVW詞包。由于引入了手語的深度圖像信息特征，使得識別過程不受顏色、光照和陰影的干擾。實(shí)驗(yàn)采用基于RBF的SVM分類器對Kinect采集的中國手語30個(gè)字母手勢進(jìn)行識別，獲得了較高的識別率。

[1]Wachs J P，Kolsch M，Stern H，et al.Vision-based hand-gesture applications[J].Communications of the ACM，2011，54（2）：60-72.

[2]Ren Zhou，Yuan Junsong，Zhang Zhengyou.Robust hand gesture recognition based on finger-earth mover’s distance with a commodity depth camera[C]//Proceedings of the 19th ACM International Conference on Multimedia（MM’11），Scottsdale，Arizona，USA，November 28-December 1，2011：1093-1096.

[3]Doliotis P，Stefan A，McMurrough C，et al.Comparing gesture recognition accuracy using color and depth information[C]// Proceedings of the Conference on Pervasive Technologies Related to Assistive Environments（PETRA），Crete，Greece，May 2011：1-7.

[4]楊筱林，姚鴻勛.基于多尺度形狀描述子的手勢識別[J].計(jì)算機(jī)工程與應(yīng)用，2004，40（32）：76-78.

[5]張良國，高文，陳熙霖，等.面向中等詞匯量的中國手語視覺識別系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展，2006，43（3）：476-482.

[6]姜峰，高文，姚鴻勛，等.非特定人手語識別問題中的合成數(shù)據(jù)驅(qū)動(dòng)方法[J].計(jì)算機(jī)研究與發(fā)展，2007，44（5）：873-881.

[7]Deng J W，Tsui H T.A two-step approach based on HMM for the recognition of ASL[C]//Proceedings of the 5th Asian Conference on Computer Vision，Melbourne，Australia，Jan 23-25，2002：1-6.

[8]Chen Qing，Georganas N D，Petriu E M.Real-time vision-based handgesturerecognitionusingHaar-likefeatures[C]//ProceedingsofInstrumentationandMeasurementTechnology Conference，1-3 May，2007：1-6.

[9]Silanon K，Suvonvorn N.Hand motion analysis for Thai alphabet recognition using HMM[J].International Journal of Information and Electronics Engineering，2011（1）：65-71.

[10]Ong E J，Cooper H，Pugeault N，et al.Sign language recognition using sequential pattern trees[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition（CVPR），Providence，Rhode Island，16-21 June，2012：2200-2207.

[11]王宇石，高文.用基于視覺單詞上下文的核函數(shù)對圖像分類[J].中國圖象圖形學(xué)報(bào)，2010，15（4）：607-616.

[12]劉揚(yáng)聞，霍宏，方濤.詞包模型中視覺單詞奇異性分析[J].計(jì)算機(jī)工程，2011，34（19）：204-209.

[13]張秋余，王道東，張墨逸，等.基于特征包支持向量機(jī)的手勢識別[J].計(jì)算機(jī)應(yīng)用，2012，32（12）：3392-3396.

[14]朱志亮，劉富國，陶向陽，等.基于積分圖和粒子群優(yōu)化的膚色分割[J/OL].（2013-01）[2013-03].http：//www.cnki.net/kcms/ detail/11.2127.TP.20130129.1543.016.html.

[15]郎咸朋，朱楓，都穎明，等.基于積分圖像的快速二維Otsu算法[J].儀器儀表學(xué)報(bào)，2009，30（1）：39-43.

[16]Lin C J.LibSVM：a library for Support Vector Machines[EB/OL].（2012）[2013-03].http：//www.csie.ntu.edu.tw/～cjlin/libsvm.

YANG Quan,PENG Jinye

School of Information Science and Technology,Northwest University,Xi’an 710127,China

In order to realize the accurate recognition of manual alphabets in the sign language video,this paper presents an improved algorithm based on DI_CamShift（Depth Image CamShift）and SLVW（Sign Language Visual Word）.It uses Kinect as the sign language video capture device to obtain both of the color video and depth image information of sign language gestures. The paper calculates spindle direction angle and mass center position of the depth images to adjust the search window and for gesture tracking.An Ostu algorithm based on depth integral image is used to gesture segmentation,and the SIFT features are extracted.It builds the SLVW bag of words as the feature of sign language and uses SVM for recognition.The best recognition rate of single manual alphabet can reach 99.87%,and the average recognition rate is 96.21%.

manual alphabets recognition;Depth Image CamShift（DI_CamShift）;Sign Language Visual Word（SLVW）;Kinect; depth image

為了實(shí)現(xiàn)手語視頻中手語字母的準(zhǔn)確識別，提出了一種基于DI_CamShift和SLVW的算法。該方法將Kinect作為手語視頻采集設(shè)備，在獲取彩色視頻的同時(shí)得到其深度信息；計(jì)算深度圖像中手語手勢的主軸方向角和質(zhì)心位置，通過調(diào)整搜索窗口對手勢進(jìn)行準(zhǔn)確跟蹤；使用基于深度積分圖像的Ostu算法分割手勢，并提取其SIFT特征；構(gòu)建了SLVW詞包作為手語特征，并用SVM進(jìn)行識別。通過實(shí)驗(yàn)驗(yàn)證該算法，其單個(gè)手語字母最好識別率為99.87%，平均識別率96.21%。

手語字母識別；深度圖像CamShift；手語視覺單詞（SLVW）；Kinect；深度圖像

TP311.52

10.3778/j.issn.1002-8331.1304-0279

YANG Quan,PENG Jinye.Improved sign language recognition research using depth image information and SLVW. Computer Engineering and Applications,2013,49（19）：5-10.

國家自然科學(xué)基金（No.61075014）；高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金資助課題（No.20116102110027）。

楊全（1980—），女，博士研究生，講師，研究領(lǐng)域?yàn)槟Ｊ阶R別，數(shù)字圖像處理；彭進(jìn)業(yè)（1964—），男，博士生導(dǎo)師，教授，研究領(lǐng)域?yàn)閿?shù)字圖像處理。E-mail：yangquan1110@yeah.net

2013-04-19

2013-06-14

1002-8331（2013）19-0005-06

CNKI出版日期：2013-06-18http://www.cnki.net/kcms/detail/11.2127.TP.20130618.1559.007.html

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

采用深度圖像信息和SLVW的手語識別

1 引言

2 SLVW特征表示

3 基于SLVW的手語識別

4 手語識別實(shí)驗(yàn)

5 結(jié)束語