国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多策略驅(qū)動(dòng)的動(dòng)態(tài)手勢(shì)識(shí)別算法

2020-12-22 08:55項(xiàng)俊王超沙潔麻建
關(guān)鍵詞:手勢(shì)特征提取模態(tài)

項(xiàng)俊,王超,沙潔,麻建

(中南民族大學(xué) 電子信息工程學(xué)院&智能無(wú)線通信湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430074)

動(dòng)態(tài)手勢(shì)識(shí)別(Dynamic gesture recognition)旨在從連續(xù)的圖像序列中提取魯棒的時(shí)空域特征,進(jìn)而識(shí)別出序列所攜帶手勢(shì)的類別.動(dòng)態(tài)手勢(shì)識(shí)別在手語(yǔ)識(shí)別、智能駕駛、智能家居等領(lǐng)域有著廣闊的應(yīng)用前景,難點(diǎn)是處理背景干擾、光照變化以及類內(nèi)差異性大等問(wèn)題[1].當(dāng)前動(dòng)態(tài)手勢(shì)識(shí)別主流方法均采用了深度學(xué)習(xí)技術(shù),其核心是利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性表達(dá)學(xué)習(xí)能力,從輸入手勢(shì)序列中挖掘最具判別性的動(dòng)態(tài)手勢(shì)特征以提高手勢(shì)識(shí)別率.

多模輸入是增強(qiáng)特征魯棒性的有效手段.不同的模態(tài)攜帶不同的信息,如圖1所示, RGB圖片包含豐富的顏色和紋理信息,深度圖片包含物體的輪廓和深度信息,光流分別描述了像素在x和y方向的運(yùn)動(dòng)信息.這些數(shù)據(jù)在信息描述上具有互補(bǔ)性,融合后信息能夠有效彌補(bǔ)單一模態(tài)數(shù)據(jù)的局限性,顯著提高手勢(shì)的辨識(shí)度.例如文獻(xiàn)[2, 3]利用RGB 序列和Depth 序列共同描述手部的運(yùn)動(dòng)過(guò)程,文獻(xiàn)[4, 5]基于RGB 序列、Depth 序列和Flow 序列的融合特征進(jìn)行動(dòng)態(tài)手勢(shì)識(shí)別.

圖1 各模態(tài)手勢(shì)圖片示例Fig.1 Examples of multi-modal hand images

然而上述多模態(tài)輸入方法忽略了手勢(shì)類別在局部與全局信息上的差異性.一般而言,全局信息體現(xiàn)完整的手勢(shì)序列信息,包含背景變化、手部運(yùn)動(dòng)信息以及非手部人體部件的運(yùn)動(dòng)過(guò)程;局部信息則僅體現(xiàn)手部的運(yùn)動(dòng)過(guò)程.不同手勢(shì)類別對(duì)全局或局部信息依賴程度存在差異性,如需要借助人體姿態(tài)大幅變化的“揮舞”動(dòng)作,更適合采用全局信息;而對(duì)“勾食指”等微小運(yùn)動(dòng)的手勢(shì),局部信息更具有辨別性,因?yàn)槭持感^(qū)域的位移很可能被人體大區(qū)域干擾移動(dòng)掩蓋.顯然,利用全局與局部信息的互補(bǔ)性,有助于提高識(shí)別算法的魯棒性.

另一方面,融合策略是基于多模態(tài)輸入算法中的一個(gè)重要問(wèn)題,常見(jiàn)的融合方式有數(shù)據(jù)級(jí)融合[6]、特征級(jí)融合[4, 5, 7]和決策級(jí)融合[2, 8].數(shù)據(jù)級(jí)融合保留了完整的輸入數(shù)據(jù)信息,但存在大量冗余信息,算法復(fù)雜度高.特征級(jí)融合克服了數(shù)據(jù)級(jí)融合的不足,但其融合后特征易丟失多模態(tài)之間的關(guān)聯(lián)信息.決策級(jí)融合先通過(guò)各模態(tài)數(shù)據(jù)獨(dú)立預(yù)測(cè)手勢(shì)的類別分布,再采用取均值方式獲得最終的

手勢(shì)預(yù)測(cè)結(jié)果;決策級(jí)融合有效克服了前面兩種方式的缺點(diǎn),但均值操作決策忽視了在識(shí)別中起關(guān)鍵性作用的特征信息.為此文獻(xiàn)[9]提出自適應(yīng)融合策略,受文獻(xiàn)[9]啟發(fā),本文將決策級(jí)融合思想統(tǒng)一嵌入到多模態(tài)特征建模網(wǎng)絡(luò),以網(wǎng)絡(luò)端到端的學(xué)習(xí)方式,自適應(yīng)學(xué)習(xí)每類手勢(shì)在各模態(tài)數(shù)據(jù)上的決策權(quán)重,提高決策級(jí)融合的靈活性.

針對(duì)上述問(wèn)題,本文在深度學(xué)習(xí)框架下提出于一種基于多策略驅(qū)動(dòng)的動(dòng)態(tài)手勢(shì)識(shí)別算法:采用多線索輸入策略,在多模輸入基礎(chǔ)上融合各模態(tài)數(shù)據(jù)的局部信息與全局信息以提高動(dòng)態(tài)手勢(shì)的描述能力;構(gòu)建基于2DCNNs與3DCNNs級(jí)聯(lián)框架(2D/3D CNNs)的動(dòng)態(tài)手勢(shì)的特征提取網(wǎng)絡(luò);設(shè)計(jì)自適應(yīng)融合模塊學(xué)習(xí)每類手勢(shì)在各模態(tài)數(shù)據(jù)上的決策權(quán)重,并嵌入到特征學(xué)習(xí)網(wǎng)絡(luò)中,更好的利用各自信息的優(yōu)勢(shì).

1 方法

本文多策略驅(qū)動(dòng)動(dòng)態(tài)手勢(shì)識(shí)別算法整體框架如圖2所示,主要由3部分組成:多模態(tài)多線索輸入、2D/3D CNNs深度特征提取模塊、自適應(yīng)融合網(wǎng)絡(luò).多模態(tài)多線索輸入策略從多方面提供對(duì)動(dòng)態(tài)手勢(shì)的描述信息;2D/3D CNNs深度特征提取模塊首先利用2DCNNs提取圖片的低級(jí)特征表達(dá)、再利用3DCNNs提取對(duì)對(duì)應(yīng)線索的空間時(shí)序表達(dá);自適應(yīng)融合網(wǎng)絡(luò)最大限度地利用各線索提供的空間時(shí)序?qū)κ謩?shì)做出最終的類別預(yù)測(cè).

1.1 多模態(tài)多線索輸入

多模多線索輸入策略不僅利用了各模態(tài)數(shù)據(jù)之間的互補(bǔ)性,還利用了每個(gè)模態(tài)數(shù)據(jù)的全局信息與局部信息之間的互補(bǔ)性,通過(guò)豐富輸入網(wǎng)絡(luò)的信息量,增強(qiáng)算法的判別能力.如圖2所示,本文分別使用RGB序列和Depth序列描述手勢(shì)序列.RGB序列、Depth序列由數(shù)據(jù)集直接提供,原始的RGB序列和Depth序列分別描述了人體發(fā)生手勢(shì)時(shí)的全局信息,包括對(duì)人體與背景變化的整體描述、對(duì)手部區(qū)域的粗略描述.在此基礎(chǔ)上,本文利用手部檢測(cè)器從原始序列中逐幀檢測(cè)出手部區(qū)域并組成一個(gè)新的序列,該序列詳細(xì)描述了手部運(yùn)動(dòng)的細(xì)節(jié)信息,以增強(qiáng)對(duì)環(huán)境變化的魯棒性,其中手部檢測(cè)器建模參考文獻(xiàn)[10].將每一個(gè)輸入到2D/3D CNNs網(wǎng)絡(luò)的序列稱為一個(gè)線索,因此本文使用RGB序列和Depth序列的全局信息與局部信息構(gòu)成4個(gè)線索來(lái)描述一個(gè)動(dòng)態(tài)手勢(shì),每個(gè)線索都提供了手勢(shì)類別的判別依據(jù).

圖2 算法整體框架示意圖Fig.2 The overview of the proposed method

1.2 2D/3D CNNs深度特征提取

性能優(yōu)越的特征提取器是手勢(shì)識(shí)別算法的核心,其任務(wù)是從輸入序列中挖掘出有利于識(shí)別的空間和時(shí)域信息.3D卷積(3DCNNs)模型能有效建模時(shí)序序列中的時(shí)空域特性,被廣泛應(yīng)用于人體行為識(shí)別領(lǐng)域[11].然而時(shí)序圖像中存在著大量干擾信息,3D卷積在兼顧時(shí)序信息的同時(shí)無(wú)法實(shí)現(xiàn)對(duì)2維信息的優(yōu)化學(xué)習(xí).為此本文提出基于2DCNNs、3DCNNs級(jí)聯(lián)的深度特征提取器,首先利用2DCNNs提取每幀圖片中最具代表性的外觀底層信息,有效去除冗余;隨后引入3DCNNs進(jìn)一步建模手勢(shì)外觀的時(shí)空域特性.2D/3D CNNs深度特征提取模塊充分利用二維與三維表達(dá)學(xué)習(xí)的優(yōu)缺點(diǎn),能夠自動(dòng)地從視頻幀中學(xué)習(xí)高效的特征表達(dá),而且對(duì)姿勢(shì)、光照和復(fù)雜背景具有不變性,有效提高特征表達(dá)的魯棒性.

圖3給出了2DCNNs和3DCNNs級(jí)聯(lián)的特征提取器框架.輸入手勢(shì)序列V,為了去除連續(xù)視頻幀中的信息冗余、首先采用稀疏采樣策略[12]對(duì)序列進(jìn)行預(yù)處理:將輸入視頻均勻分為N等份V=[v1,v2,…,vN]再?gòu)拿糠菀曨l段vi中隨機(jī)采樣一幀圖片si(i=1…N)作為2DCNNs的輸入,N張采樣幀之間不相關(guān).這種隨機(jī)選取數(shù)張圖片來(lái)代替整個(gè)序列對(duì)手勢(shì)進(jìn)行描述,不僅可以大幅降低計(jì)算開(kāi)銷,并且由于隨機(jī)抽樣增加了選取幀的未知性從而增強(qiáng)了算法的魯棒能力[12].

2DCNN由若干層卷積層、池化層、激活層以及全連接層組成,本文采用Inception v2[13]作為二維卷積模塊,具有表達(dá)能力強(qiáng),參數(shù)量少的優(yōu)勢(shì).3DCNNs由若干層3維卷積層、3維池化層、激活函數(shù)和全連接層組成,借助3維卷積核的三維特性可以從序列中高效提取空間時(shí)序特征.一般而言,增加網(wǎng)絡(luò)深度可以增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力,但過(guò)度增加深度易導(dǎo)致網(wǎng)絡(luò)退化問(wèn)題;而ResC3D[14]可以在增加網(wǎng)絡(luò)深度的時(shí)候保證算法的性能至少不降低.本文基于ResC3D搭建3DCNN.以上兩個(gè)網(wǎng)絡(luò)具體結(jié)構(gòu)可分別參見(jiàn)文獻(xiàn)[13, 14].

1.3 自適應(yīng)融合決策

對(duì)于多輸入動(dòng)態(tài)手勢(shì)識(shí)別算法,目前很多研究者采用決策級(jí)均值融合方法,其實(shí)質(zhì)是為各模態(tài)數(shù)據(jù)的預(yù)測(cè)結(jié)果分配相同的權(quán)重.這種融合方法對(duì)一些在識(shí)別中起關(guān)鍵作用的輸入線索沒(méi)有予以充分重視,進(jìn)而影響手勢(shì)識(shí)別的效果.本文提出一種自適應(yīng)融合模塊,通過(guò)網(wǎng)絡(luò)學(xué)習(xí)為每一個(gè)線索分配不同的權(quán)重.

圖3 特征提取框架Fig.3 The diagram of the proposed deep feature extractor

(1)

(2)

第三,O與W相乘,O×W上的元素OjWi(i,j=1,…,L)表示第i類手勢(shì)對(duì)應(yīng)的權(quán)重值對(duì)4個(gè)線索在第k類手勢(shì)上的預(yù)測(cè)值進(jìn)行加權(quán)求和的結(jié)果.當(dāng)j=i時(shí),OjWi才是4個(gè)線索通過(guò)自適應(yīng)融合策略對(duì)手勢(shì)類別j的共同作用得分.因?yàn)镺×W的尺寸為L(zhǎng)×L,通過(guò)diag函數(shù)取其主對(duì)角線上的元素作為最終的融合預(yù)測(cè)結(jié)果,如公式(4)所示.最后加入一個(gè)softmax函數(shù)對(duì)預(yù)測(cè)結(jié)果進(jìn)行歸一化處理.

(3)

(4)

2 實(shí)驗(yàn)結(jié)果與分析

采用兩個(gè)公開(kāi)動(dòng)態(tài)手勢(shì)數(shù)據(jù)集SKIG[15]和IsoGD[16]來(lái)驗(yàn)證所提算法的性能.首先在SKIG數(shù)據(jù)集上研究采樣幀數(shù)與算法性能的關(guān)系,并驗(yàn)證2D/3D網(wǎng)絡(luò)框架在時(shí)空序特征提取上的優(yōu)越性;然后在IsoGD數(shù)據(jù)集上依次研究多線索輸入策略、自適應(yīng)融合策略對(duì)動(dòng)態(tài)手勢(shì)識(shí)別的影響, 最后在IsoGD數(shù)據(jù)集上均給出了與其它主流算法的對(duì)比實(shí)驗(yàn)結(jié)果.

2.1 數(shù)據(jù)集介紹

本文研究涉及兩個(gè)公開(kāi)數(shù)據(jù)集,分別是SKIG和IsoGD數(shù)據(jù)集,詳細(xì)介紹如下:

SKIG:SKIG一共包含2160個(gè)手勢(shì)序列,其中有1080個(gè)RGB序列和1080個(gè)深度序列,它們分別被分成6份,以subject1、subject2、subject3、subject4、subject5和subject6的形式存放.該數(shù)據(jù)集對(duì)6個(gè)人通過(guò)Kinect傳感器在3種背景和2種照明條件下收集得來(lái),它一共有10個(gè)類別,如圖4所示,分別是圓形(順時(shí)針)、三角形(逆時(shí)針)、上下、左右、波形、“Z”、交叉、大方、轉(zhuǎn)向和拍,為增加樣本的多樣性,每種類別的手勢(shì)都通過(guò)三種姿勢(shì)實(shí)現(xiàn):握拳、伸出食指、平鋪手掌. 在訓(xùn)練時(shí),由于數(shù)據(jù)集樣本量小,所以一般采3-交叉驗(yàn)證的方式來(lái)評(píng)價(jià)模型在該數(shù)據(jù)集上的性能.即第一輪訓(xùn)練時(shí),subject1+subject2+subject3+subject4做訓(xùn)練集,subject5+subject6做驗(yàn)證集;第二輪訓(xùn)練時(shí),subject3+subject4+subject5+subject6做訓(xùn)練集時(shí),subject1+subject2做驗(yàn)證集;第三輪訓(xùn)練時(shí),subject4+subject5 +subject1+ subject2做訓(xùn)練集時(shí),subject3+subject4做驗(yàn)證集.最后取三次驗(yàn)證集上精確度的平均值為最終的評(píng)價(jià)指標(biāo).

圖4 SKIG數(shù)據(jù)集Fig.4 The dataset of SKIG

IsoGD:IsoGD一共包含95866個(gè)手勢(shì)序列,其中RGB序列7933個(gè)、深度序列47933個(gè).RGB序列和深度序列是相互對(duì)應(yīng)的,是對(duì)同一個(gè)手勢(shì)在不同角度的描述.該數(shù)據(jù)集由21個(gè)人執(zhí)行249種手勢(shì)獲得,每個(gè)視頻里僅含有一個(gè)手勢(shì)動(dòng)作.為方便使用,數(shù)據(jù)庫(kù)已被劃分為三個(gè)子集:訓(xùn)練集、驗(yàn)證集、測(cè)試集.具體的劃分情況如表1所示.

表1 IsoGD數(shù)據(jù)集Tab.1 The dataset of IsoGD

2.2 實(shí)驗(yàn)平臺(tái)和參數(shù)

實(shí)驗(yàn)環(huán)境:CPU為2枚 Intel Xeon (R) @2.20GHz,內(nèi)存為128GB,在ubuntu16.04操作系統(tǒng)下,采用pytorch編程實(shí)現(xiàn)本文算法.具體的參數(shù)設(shè)置如下:batch_size大小取10,初始學(xué)習(xí)率取0.01,每迭代20次,學(xué)習(xí)率下降到10%.

2.3 SKIG數(shù)據(jù)集上驗(yàn)證實(shí)驗(yàn)

由于SKIG數(shù)據(jù)集較小,我們采用3-交叉熵驗(yàn)證方法[15]來(lái)評(píng)估算法的性能,包括研究采樣幀數(shù)對(duì)算法的影響;驗(yàn)證2D/3D CNNs特征提取器中各部件的有效性;與當(dāng)前主流算法的對(duì)比實(shí)驗(yàn).

(1)采樣幀數(shù)對(duì)N算法的影響.分別在SKIG的RGB和Depth序列上做5組實(shí)驗(yàn),保持其他訓(xùn)練條件一致,每組實(shí)驗(yàn)設(shè)置的采樣幀數(shù)為4、8、16、32、64.圖4中虛線展示了采樣幀數(shù)N與時(shí)效性的關(guān)系:隨著N的成倍增加,識(shí)別一個(gè)樣本所需的平均時(shí)間大幅度增加,例如N=32所用時(shí)間是N=16的3至4倍.圖5中實(shí)線表明算法的識(shí)別性能與采樣幀數(shù)并非呈正相關(guān)關(guān)系,當(dāng)N取4至32時(shí),算法識(shí)別精度隨著N的增加而提高;當(dāng)采樣幀數(shù)取32時(shí),手勢(shì)識(shí)別的精確度在RGB和Depth模態(tài)上分別達(dá)到最高值;但當(dāng)N時(shí),精確度在RGB和Depth模態(tài)上分別呈現(xiàn)不變或下降0.54%.這是因?yàn)槟承┦謩?shì)類別太過(guò)相似,采樣幀數(shù)過(guò)多將產(chǎn)生冗余,模糊了關(guān)鍵幀的識(shí)別信息.綜上所述,采樣幀數(shù)的增加導(dǎo)致算法時(shí)間復(fù)雜度提高,但卻不一定對(duì)算法的性能產(chǎn)生正面影響.對(duì)于SKIG數(shù)據(jù)集,當(dāng)只需考慮算法精度時(shí),采樣幀數(shù)N取32;若還需兼顧算法的時(shí)效性,則N取16.

(2)2D/3D CNNs各部件的有效性.以下通過(guò)與單獨(dú)采用2D CNNs或3D CNNs進(jìn)行對(duì)比,驗(yàn)證2D/3D CNNs的有效性,其中涉及多模態(tài)數(shù)據(jù)輸入的,采用平均決策得分的方式獲得最終類別判斷,實(shí)驗(yàn)結(jié)果見(jiàn)表2.首先,單獨(dú)以RGB(或Depth)序列為輸入時(shí),2D/3D CNNs的精確度明顯高于2D CNNs,這是因?yàn)閬?lái)自2D CNNs的特征中缺少相鄰幀之間的時(shí)序信息.在2D CNNs的輸入中加入光流Flow,并通過(guò)均值操作與RGB或Depth序列提供的信息融合在一起,2D CNNs的精度略高于2D/3D CNNs單獨(dú)處理RGB(或Depth)的結(jié)果;但加入光流后2D CNNs算法運(yùn)行時(shí)間是2D/3D CNNs單獨(dú)處理RGB(或Depth)的5倍,且未考慮計(jì)算光流圖片的時(shí)間開(kāi)銷. 以上結(jié)果證明了2D/3D CNNs提取出空間特征與時(shí)序特征的有效性和時(shí)效性.其次,與3D CNNs比較,2D/3D CNNs由于加入了2D CNNs導(dǎo)致處理RGB或Depth的時(shí)間增加50%,但同時(shí)也帶來(lái)了識(shí)別精度的提高;這也說(shuō)明2D CNNs的加入有助于提取圖像魯棒性特征的作用.

圖5 采樣幀數(shù)對(duì)算法識(shí)別精度、時(shí)效性的影響(SKIG數(shù)據(jù)集)Fig.5 The impact of the number of frames sampled on recognition accuracy and time efficiency

表2 不同網(wǎng)絡(luò)結(jié)構(gòu)的對(duì)比結(jié)果Tab.2 Comparison results among differentnetwork structures

(3)與其他算法的對(duì)比實(shí)驗(yàn).表3給出了本文2D/3D CNNs結(jié)構(gòu)與當(dāng)前一些主流算法在SKIG上的對(duì)比結(jié)果.由于有些算法中加入了Flow序列為輸入,為統(tǒng)一對(duì)比條件,我們也列出了在本文算法中輸入Flow序列的結(jié)果,涉及到多模輸入時(shí),均采用平均決策融合方式.R3DCNN[3]首先使用C3D卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)空間時(shí)序特征,然后將矢量化的特征送入到RNN中;MRNN[17]先使用2D卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視頻幀的空間特征,然后將空間特征送入到MRNN中進(jìn)行手勢(shì)識(shí)別;M3D+LSTM[2]首先使用3D卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視頻片段的空間時(shí)序特征,然后將矢量化的特征送入到LSTM中學(xué)習(xí)整個(gè)視頻的空間時(shí)序特征,最后經(jīng)過(guò)空間金字塔池化SSP完成最終的手勢(shì)識(shí)別.從表3可以看出,本文算法除了在輸入僅為Depth序列時(shí)識(shí)別率略微低于M3D+LSTM方法(98.43%對(duì)98.7%),在其它各種輸入組合下識(shí)別率均有優(yōu)勢(shì).

表3 與當(dāng)前主流算法在SKIG上的結(jié)果對(duì)比Tab.3 The results of comparison with several state of the art approaches onSKIG dataset

2.4 IsoGD數(shù)據(jù)集上驗(yàn)證實(shí)驗(yàn)

為了兼顧精確度和時(shí)效性,采樣幀數(shù)取為16.本小節(jié)有三個(gè)任務(wù):驗(yàn)證多線索輸入的有效性;驗(yàn)證自適應(yīng)融合策略的有效性;驗(yàn)證本文算法的性能.

(1)多線索輸入的有效性.圖5展示了不同輸入模式下對(duì)應(yīng)的識(shí)別結(jié)果.將通過(guò)檢測(cè)器分別從RGB序列和Depth序列中獲得的兩個(gè)新序列命名為“RGB_hand”和 “Depth_hand”,這兩個(gè)序列來(lái)自文獻(xiàn)[10]提供的數(shù)據(jù)集.將多模輸入表示成“Multimode”,多線索輸入表示成“Multiclue”,多模輸入和多線索輸入中均采用基于分?jǐn)?shù)級(jí)的平均融合策略.由圖6可知,多模輸入的效果優(yōu)于任何單輸入的效果,證明了多模輸入的有效性;多線索輸入的精確度高于多模輸入將近4%,這證實(shí)了采用全局信息與局部信息融合策略的正確性,多線索輸入將各模態(tài)數(shù)據(jù)及其對(duì)應(yīng)的全局與局部信息融合在一起,顯著提升了算法識(shí)別性能.

圖6 采用不同輸入時(shí),IsoGD測(cè)試集的精確度Fig.6 Comparison results of different input strategies

(2)自適應(yīng)融合策略的有效性.將自適應(yīng)融合策略與均值融合進(jìn)行對(duì)比,圖7給出了兩種融合方案分別基于多模輸入和多線索輸入下的對(duì)比結(jié)果.可以看出,自適應(yīng)融合的性能優(yōu)于均值融合,這是因?yàn)榫挡僮魇沟妹款愂謩?shì)對(duì)各支路的依賴程度相等,容易模糊掉某些關(guān)鍵支路上提供的信息;而自適應(yīng)融合策略通過(guò)權(quán)重矩陣,為每類手勢(shì)學(xué)習(xí)出在各條支路上的依賴度.

圖7 均值融合與自適應(yīng)融合的性能對(duì)比結(jié)果Fig.7 Comparison results between average fusion and adaptive fusion

(3)與其他主流算法的對(duì)比.表4給出了本文算法在IsoGD數(shù)據(jù)集上與其它主流算法的比較.可以看出,本文算法的精確度高于AUS[5]、XDETVP[4]和2SCVN+3DSSN[20],低于FOANet[9].AUS基于殘差模塊與C3D的優(yōu)勢(shì)使用ResC3D網(wǎng)絡(luò)提取輸入特征,并采用基于規(guī)范相關(guān)分析的融合方案融合多模輸入對(duì)應(yīng)的多模特征;與AUS相比,本文算法識(shí)別精度改善了8.61%,證明了從視頻的2D外觀特征序列中提取時(shí)序信息的優(yōu)越性.FOANet算法與本文算法的思路一致,也是基于數(shù)據(jù)驅(qū)動(dòng)、全局運(yùn)動(dòng)與局部運(yùn)動(dòng)相融合的動(dòng)態(tài)手勢(shì)識(shí)別算法,采用了文獻(xiàn)[10]提供的手部檢測(cè)結(jié)果;但該算法針對(duì)檢測(cè)出來(lái)的手部,用骨架評(píng)估器分辨出是左手還是右手,然后組成左右手序列分別作為網(wǎng)絡(luò)的輸入,從而避免當(dāng)涉及運(yùn)動(dòng)或雙手的手勢(shì)時(shí),邊界框的大小接近整個(gè)圖像的尺寸.由于采用了對(duì)左右手分別進(jìn)行檢測(cè),F(xiàn)OANet算法在精度上比本文算法高5.75%.

表4 與當(dāng)前主流算法在IsoGD數(shù)據(jù)集上的對(duì)比結(jié)果Tab.4 The results of comparison with several state of the art approaches on IsoGD dataset

3 結(jié)語(yǔ)

本文在深度學(xué)習(xí)框架下提出了一種基于多線索驅(qū)動(dòng)的動(dòng)態(tài)手勢(shì)識(shí)別算法.首先利用檢測(cè)器從RGB序列與Depth序列中生成僅含有手部區(qū)域的序列,將生成的新序列與RGB序列、Depth序列一起作為網(wǎng)絡(luò)輸入,先通過(guò)2D卷積神經(jīng)網(wǎng)絡(luò)提取視頻幀外觀特征、再經(jīng)過(guò)3D卷積神經(jīng)網(wǎng)絡(luò)提取視頻幀序列的時(shí)序信息,最后采用自適應(yīng)融合網(wǎng)絡(luò)將各序列的預(yù)測(cè)概率融合在一起作為最終的手勢(shì)識(shí)別結(jié)果.實(shí)驗(yàn)結(jié)果驗(yàn)證了多線索輸入、2D/3D CNNs級(jí)聯(lián)特征提取框架、自適應(yīng)融合策略的有效性,同時(shí)在SKIG和IsoGD公開(kāi)數(shù)據(jù)集上所提出算法取得了與當(dāng)前主流算法相當(dāng)或更好的手勢(shì)識(shí)別效果.

猜你喜歡
手勢(shì)特征提取模態(tài)
基于BERT-VGG16的多模態(tài)情感分析模型
多模態(tài)超聲監(jiān)測(cè)DBD移植腎的臨床應(yīng)用
跨模態(tài)通信理論及關(guān)鍵技術(shù)初探
空間目標(biāo)的ISAR成像及輪廓特征提取
挑戰(zhàn)!神秘手勢(shì)
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
基于特征提取的繪本閱讀機(jī)器人設(shè)計(jì)方案
基于Daubechies(dbN)的飛行器音頻特征提取
勝利的手勢(shì)
日版《午夜兇鈴》多模態(tài)隱喻的認(rèn)知研究