国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于相對(duì)骨骼點(diǎn)特征和時(shí)序自適應(yīng)感受野的動(dòng)作識(shí)別方法

2022-06-23 08:14史天運(yùn)宋永紅
導(dǎo)航定位與授時(shí) 2022年3期
關(guān)鍵詞:時(shí)序卷積準(zhǔn)確率

胡 昊,史天運(yùn),宋永紅,余 淮

(1.中國(guó)鐵道科學(xué)研究院研究生部,北京 100081;2. 中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司,北京 100081; 3. 西安交通大學(xué)軟件學(xué)院,西安 710049; 4. 中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司通信信號(hào)研究所,北京 100081)

0 引言

動(dòng)作識(shí)別的目標(biāo)是分析一段視頻,判斷這段視頻中的人所做動(dòng)作并正確地劃分到所屬的類別中,在視頻理解中有著不可忽視的實(shí)際應(yīng)用價(jià)值。動(dòng)作識(shí)別與人們的日常生活息息相關(guān),例如安防監(jiān)控、人機(jī)互動(dòng)等。傳統(tǒng)的動(dòng)作識(shí)別大多基于外觀和光流建模,容易受到光線變化、視頻中背景等因素干擾,識(shí)別精度不是很高。與傳統(tǒng)方法相比,基于人體關(guān)節(jié)點(diǎn)信息的動(dòng)作識(shí)別由于不容易受到背景、光線等因素干擾,通常能表征重要信息。因此,針對(duì)基于人體關(guān)節(jié)點(diǎn)數(shù)據(jù)的動(dòng)作識(shí)別研究十分必要。近年來,動(dòng)作識(shí)別作為當(dāng)前識(shí)別領(lǐng)域的研究熱點(diǎn),國(guó)內(nèi)外眾多研究學(xué)者對(duì)其展開研究和探索,并且獲得了顯著的成果。基于人體關(guān)節(jié)點(diǎn)信息的動(dòng)作識(shí)別方法可以分為以下兩類:基于手工特征的方法和基于深度學(xué)習(xí)的方法。

1)基于手工特征的方法一般不利用深度網(wǎng)絡(luò),以人工提取特征對(duì)人體骨骼的空間和時(shí)間進(jìn)行動(dòng)態(tài)建模,然后用分類器進(jìn)行人體動(dòng)作的識(shí)別。這些人工提取到的特征包含了對(duì)身體部位的旋轉(zhuǎn)和平移方法,以及關(guān)節(jié)軌跡的協(xié)方差矩陣方法等。另外,Xia L.等提出了用三維關(guān)節(jié)位置的直方圖代表骨架序列里面的每一幀,從而進(jìn)行時(shí)間動(dòng)態(tài)建模。但是,這種方法和基于手工特征的視頻動(dòng)作識(shí)別方法的缺點(diǎn)一樣,手工特征的設(shè)計(jì)和計(jì)算極為復(fù)雜,且沒有辦法全面地表征動(dòng)作在時(shí)序上的演化,使得最終動(dòng)作識(shí)別的性能不理想。

2)基于深度學(xué)習(xí)的方法由于在計(jì)算量、類腦計(jì)算方式等方面優(yōu)于傳統(tǒng)的手工特征方法,結(jié)果相對(duì)更好?;谏疃葘W(xué)習(xí)的方法主要有三種框架:基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的方法、基于圖像的方法和基于圖卷積的方法。

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法主要是為了獲取長(zhǎng)時(shí)間的時(shí)序信息,將骨架數(shù)據(jù)表示為關(guān)節(jié)序列,然后用基于循環(huán)神經(jīng)網(wǎng)絡(luò)改進(jìn)的長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)對(duì)其建模,為動(dòng)作識(shí)別找到樣本序列中信息最為豐富的幀,并通過關(guān)鍵幀幫助網(wǎng)絡(luò)進(jìn)行分類,從而提高識(shí)別精度。Song S.等引入了一個(gè)時(shí)空注意模型,用注意力機(jī)制為視頻中不同的幀和節(jié)點(diǎn)分配不同的權(quán)重,但訓(xùn)練過程很復(fù)雜。A.Jain等主要對(duì)骨骼三個(gè)部位的關(guān)系進(jìn)行建模,包括脊柱、手臂和腿,網(wǎng)絡(luò)架構(gòu)是將循環(huán)神經(jīng)網(wǎng)絡(luò)與圖結(jié)合在一起。Du Y.等設(shè)計(jì)了一種通過級(jí)聯(lián)方式組合人體骨骼各個(gè)部位的方法,用長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行建模時(shí)序運(yùn)動(dòng)。但是,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別方法也有缺點(diǎn),它主要考慮時(shí)序特征,在空間位置信息的獲取方面稍有不足,且網(wǎng)絡(luò)相對(duì)復(fù)雜,沒有辦法加深網(wǎng)絡(luò)。

基于圖像的方法主要是把骨架三維坐標(biāo)表示為特殊的圖片,也可以稱為偽圖像,然后用卷積網(wǎng)絡(luò)對(duì)圖片進(jìn)行特征提取和訓(xùn)練。Ke Q.等提出了一種新的三維骨架序列表示方法,即將樣本序列中的柱坐標(biāo)(3個(gè)坐標(biāo)表示骨骼節(jié)點(diǎn)位置)轉(zhuǎn)換成偽圖像(3個(gè)灰度圖像),然后再利用深度卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練和時(shí)空特征的學(xué)習(xí)。前者是轉(zhuǎn)換成3段灰度圖像,而Liu M.等是將序列轉(zhuǎn)換成一系列的彩色圖像并輸入到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)中進(jìn)行特征獲取,最終進(jìn)行動(dòng)作識(shí)別。

基于圖卷積的方法將數(shù)據(jù)建模成以骨骼關(guān)節(jié)為頂點(diǎn)、以骨骼邊為邊的圖,并通過卷積學(xué)習(xí)圖中不同節(jié)點(diǎn)之間的信息交流,從而得到圖中每個(gè)頂點(diǎn)的嵌入特征表示。Yan S.等將圖卷積神經(jīng)網(wǎng)絡(luò)引入骨骼動(dòng)作識(shí)別中,設(shè)計(jì)了時(shí)空?qǐng)D卷積網(wǎng)絡(luò),用于訓(xùn)練樣本序列,最終得到動(dòng)作識(shí)別結(jié)果。這種方法借鑒了將3D分解為2+1D的思想,通過空域上的圖卷積提取空間信息,并通過在時(shí)域上提取相鄰幀卷積之后的特征來提取時(shí)序信息,從而通過聚合空域時(shí)域信息來捕捉時(shí)空的變化關(guān)系。Tang Y.等設(shè)計(jì)了一個(gè)深度漸進(jìn)強(qiáng)化學(xué)習(xí)模型,通過時(shí)間上的類注意力方法選擇最有代表性的幀,也就是提取含有大信息量的幀,并去除含有一些無用信息的幀,然后輸入到圖卷積網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。Zhang X.等提出了給骨頭邊卷積的思想,用雙流卷積網(wǎng)絡(luò)分別卷積骨頭節(jié)點(diǎn)和骨頭邊,結(jié)合兩個(gè)網(wǎng)絡(luò)得到最終結(jié)果,提升了準(zhǔn)確率。Shi L.等在時(shí)空?qǐng)D卷積的基礎(chǔ)上對(duì)鄰接矩陣策略進(jìn)行改進(jìn),用自注意力機(jī)制設(shè)計(jì)每個(gè)樣本的鄰接矩陣,大大增強(qiáng)了對(duì)空間特征的提取。Shi L.等將時(shí)空?qǐng)D卷積從無向圖變成有向圖,提高了抽取空間特征的有效性。Li M.等用多個(gè)圖進(jìn)行卷積,不僅關(guān)注有物理連接的關(guān)節(jié)點(diǎn)之間的潛在聯(lián)系,還注重沒有骨骼邊相連兩個(gè)節(jié)點(diǎn)之間的關(guān)系。

動(dòng)作識(shí)別在近些年來受到了廣大研究者們的關(guān)注,基于人體關(guān)節(jié)點(diǎn)信息的動(dòng)作識(shí)別方法憑借其對(duì)運(yùn)動(dòng)速度、背景干擾和攝像機(jī)視點(diǎn)的魯棒性,取得了不錯(cuò)的成績(jī)。但是,現(xiàn)有的基于關(guān)節(jié)點(diǎn)信息的動(dòng)作識(shí)別方法時(shí)空特征判別能力不強(qiáng),具體表現(xiàn)在固定單一核的時(shí)間卷積無法為不同動(dòng)作獲得更有區(qū)別性的時(shí)間特征,對(duì)視頻中持續(xù)時(shí)間長(zhǎng)的動(dòng)作類別識(shí)別效果難以保證,導(dǎo)致識(shí)別精度有所影響。針對(duì)該問題,提出了基于相對(duì)骨骼點(diǎn)特征和時(shí)序自適應(yīng)感受野的動(dòng)作識(shí)別方法,可以較好地提取時(shí)空特征。實(shí)驗(yàn)結(jié)果表明,對(duì)比其他方法,該方法在基準(zhǔn)數(shù)據(jù)集上獲得了識(shí)別性能的提升。

1 算法框架概述

現(xiàn)有方法大多只關(guān)注人體骨骼關(guān)節(jié)點(diǎn)在時(shí)間上的位移,而人體關(guān)節(jié)點(diǎn)的空間相對(duì)位置信息等特征在基于骨骼信息的動(dòng)作識(shí)別中也起著很重要的作用,但這些特征往往都會(huì)被忽略,而且多種特征之間具有互補(bǔ)性和多樣性。另一方面,神經(jīng)網(wǎng)絡(luò)想要提高泛化能力,需要大量的數(shù)據(jù)來支撐。而基于骨骼信息的動(dòng)作識(shí)別,輸入的數(shù)據(jù)是關(guān)節(jié)序列的三維坐標(biāo),一幀中的骨骼節(jié)點(diǎn)太少會(huì)出現(xiàn)過擬合的情況,導(dǎo)致訓(xùn)練出的結(jié)果精度不高。

因此,本文提出了基于相對(duì)骨骼點(diǎn)特征和時(shí)序自適應(yīng)感受野的動(dòng)作識(shí)別方法,可以較好地解決現(xiàn)有方法無法為不同的動(dòng)作獲得更有區(qū)別性的時(shí)間特征的問題,提升對(duì)視頻中持續(xù)時(shí)間長(zhǎng)的動(dòng)作類別的識(shí)別準(zhǔn)確率,整體架構(gòu)如圖1所示。

圖1 算法整體框架

首先,在特征獲取部分根據(jù)原始三維節(jié)點(diǎn)特征,計(jì)算其輸入特征,分別得到骨頭特征和相對(duì)骨骼點(diǎn)特征,以滿足節(jié)點(diǎn)多樣性和互補(bǔ)性要求。讓輸入特征分別經(jīng)過10個(gè)時(shí)空網(wǎng)絡(luò)塊進(jìn)行訓(xùn)練,每個(gè)塊包含了一個(gè)空域圖卷積網(wǎng)絡(luò)和時(shí)序自適應(yīng)感受野模塊。通過空域圖卷積網(wǎng)絡(luò)訓(xùn)練,得到空間中相鄰關(guān)節(jié)聚合的局部特征,再經(jīng)過時(shí)序自適應(yīng)選擇不同感受野的信息,獲取在時(shí)域上關(guān)節(jié)變化的局部特征,增強(qiáng)了網(wǎng)絡(luò)對(duì)不同持續(xù)時(shí)長(zhǎng)動(dòng)作的適應(yīng)性。之后,用殘差相加的方法,將訓(xùn)練后的特征與原始特征結(jié)合,在10層網(wǎng)絡(luò)訓(xùn)練之后,經(jīng)過決策級(jí)融合模塊,計(jì)算softmax層的類別概率,通過熵權(quán)法求得每個(gè)特征流的融合權(quán)重,從而得到分類結(jié)果。

2 算法模塊設(shè)計(jì)

2.1 相對(duì)骨骼點(diǎn)特征

骨骼關(guān)節(jié)點(diǎn)的空間相對(duì)位置信息等特征,在基于骨骼信息的動(dòng)作識(shí)別中具有重要作用,但這些特征往往都會(huì)被忽略。神經(jīng)網(wǎng)絡(luò)要提高泛化能力,需要大量的數(shù)據(jù)來支撐,而基于骨骼信息的動(dòng)作識(shí)別輸入的數(shù)據(jù)是關(guān)節(jié)序列的三維坐標(biāo),一幀中的骨骼節(jié)點(diǎn)太少,會(huì)出現(xiàn)過擬合的情況,導(dǎo)致訓(xùn)練出的結(jié)果精度不高,而且多種特征之間具有多樣性和互補(bǔ)性。三維骨架序列是一個(gè)五維的特征向量[,,,,]。其中,是指批量大??;是指每個(gè)樣本的幀的數(shù)量;是指人體骨架的關(guān)節(jié)數(shù);是指人的數(shù)量;是指輸入特征的通道數(shù)量,包含了數(shù)據(jù)集從深度攝像機(jī)中采集的原始人體骨骼三維節(jié)點(diǎn),=(,,,,,),其中表示關(guān)節(jié)點(diǎn)序號(hào),表示幀序號(hào)。由于人在做動(dòng)作時(shí),人體關(guān)節(jié)點(diǎn)有可能重合在一起,導(dǎo)致動(dòng)作的誤判。骨頭特征指的是人體骨骼中的骨骼邊,加入骨頭特征可以一定程度上解決這個(gè)問題。因此,骨頭特征也被廣泛用在基于關(guān)節(jié)點(diǎn)信息的動(dòng)作識(shí)別中。

但是,當(dāng)人體動(dòng)作發(fā)生時(shí),骨骼特征僅計(jì)算了存在物理骨骼邊關(guān)節(jié)點(diǎn)間的空間關(guān)系信息,這是不夠的。當(dāng)兩個(gè)關(guān)節(jié)點(diǎn)之間不存在骨骼邊時(shí),這些關(guān)節(jié)點(diǎn)之間的空間關(guān)系也很重要。例如,抹臉和梳頭這兩個(gè)動(dòng)作,都是手部節(jié)點(diǎn)與頭部節(jié)點(diǎn)距離很近,這些節(jié)點(diǎn)沒有骨骼邊連接,如果計(jì)算這些關(guān)節(jié)之間的相對(duì)位置信息,會(huì)發(fā)現(xiàn)特征向量的大小和方向都不一樣。因此,借鑒Ke Q.等用三維骨架序列生成圖像幀中處理序列的方法,再結(jié)合關(guān)節(jié)點(diǎn)之間的相對(duì)位置信息,提出了相對(duì)骨骼點(diǎn)特征。

為防止冗余信息的產(chǎn)生,在同一幀內(nèi)僅選幾個(gè)節(jié)點(diǎn),用這幾個(gè)節(jié)點(diǎn)的位置信息當(dāng)作源關(guān)節(jié)坐標(biāo)點(diǎn),計(jì)算其他節(jié)點(diǎn)針對(duì)這4個(gè)節(jié)點(diǎn)的空間相對(duì)位置信息。源關(guān)節(jié)坐標(biāo)點(diǎn)選取的條件一是要反映出其他節(jié)點(diǎn)的位置信息,以及與大多關(guān)節(jié)點(diǎn)的潛在聯(lián)系;二是在做動(dòng)作時(shí)可以保持穩(wěn)定的狀態(tài),如圖2所示,有顏色的7個(gè)關(guān)節(jié)點(diǎn)可以作為源關(guān)節(jié)坐標(biāo)點(diǎn),分別是右肩節(jié)點(diǎn)、左肩節(jié)點(diǎn)、最中間的3個(gè)脊柱節(jié)點(diǎn)、右臀節(jié)點(diǎn)和左臀節(jié)點(diǎn)。但是脊柱節(jié)點(diǎn)離其他4個(gè)節(jié)點(diǎn)的距離很近,如果都選為源關(guān)節(jié)坐標(biāo)點(diǎn),會(huì)導(dǎo)致信息的重復(fù),所以僅以圖中黃顏色的右肩節(jié)點(diǎn)、左肩節(jié)點(diǎn)、右臀節(jié)點(diǎn)和左臀節(jié)點(diǎn)為源關(guān)節(jié)坐標(biāo)點(diǎn)。

圖2 源關(guān)節(jié)坐標(biāo)點(diǎn)的篩選

相對(duì)骨骼點(diǎn)特征的計(jì)算方法是以其他關(guān)節(jié)點(diǎn)為目標(biāo)關(guān)節(jié)點(diǎn),分別計(jì)算目標(biāo)關(guān)節(jié)與4個(gè)源關(guān)節(jié)的差值,得到4個(gè)特征向量,再將這4個(gè)特征向量在通道維進(jìn)行拼接,輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。

具體的計(jì)算公式如式(1)、式(2)

={(,-,)|∈,∈,∈′}

(1)

=⊕⊕⊕

(2)

式(1)中,,表示目標(biāo)關(guān)節(jié)點(diǎn)坐標(biāo);,表示源關(guān)節(jié)點(diǎn)坐標(biāo);表示人的骨架的關(guān)節(jié)點(diǎn)集合;′表示4個(gè)源關(guān)節(jié)點(diǎn)坐標(biāo)集合;表示幀數(shù)。式(2)表示將計(jì)算得到的4個(gè)特征向量拼接在一起,生成相對(duì)骨骼點(diǎn)特征。

2.2 時(shí)空網(wǎng)絡(luò)模塊

時(shí)空網(wǎng)絡(luò)塊如圖3所示,包含了一個(gè)空間圖卷積網(wǎng)絡(luò)和時(shí)序自適應(yīng)感受野模塊。Conv-s就是圖1所示的空間圖卷積網(wǎng)絡(luò),將特征輸入后可以得到空間中相鄰關(guān)節(jié)聚合的局部特征。Conv-t即圖1所示的時(shí)序自適應(yīng)感受野模塊,通過自適應(yīng)選擇不同感受野的信息,獲取在時(shí)域上關(guān)節(jié)變化的局部特征。為了獲得更好的時(shí)空特征,在獲得空間特征后,經(jīng)過批標(biāo)準(zhǔn)層,加快收斂速度,之后加入殘差模塊,穩(wěn)定特征訓(xùn)練過程,通過relu操作增強(qiáng)各層之間的非線性關(guān)系,減少過擬合,再將經(jīng)過這些層處理后的空間特征輸入到時(shí)域中進(jìn)行卷積,得到時(shí)空卷積。

圖3 時(shí)空網(wǎng)絡(luò)塊框架

特征要經(jīng)過10個(gè)時(shí)空網(wǎng)絡(luò)塊進(jìn)行訓(xùn)練,這10層網(wǎng)絡(luò)的配置為第1層的輸入通道數(shù)為原始節(jié)點(diǎn)的通道數(shù),1~4層的輸出通道為64,5~7層的輸出通道為128,8~10層的輸出通道為256,第5層和第8層步長(zhǎng)設(shè)置為2,等同于池化層。

2.3 時(shí)序自適應(yīng)感受野模塊

在動(dòng)作識(shí)別領(lǐng)域,大多數(shù)方法選擇在空域圖卷積網(wǎng)絡(luò)進(jìn)行改進(jìn),但在時(shí)域大多用單一固定的時(shí)間卷積層(Temporal Convolutional Nets,TCN)對(duì)特征進(jìn)行提取。這樣提取出的特征不足以為不同的動(dòng)作獲得更有區(qū)別性的時(shí)間特征,對(duì)視頻中持續(xù)時(shí)間長(zhǎng)的動(dòng)作類別識(shí)別效果難以保證,導(dǎo)致識(shí)別精度有所影響。因此,考慮用非線性方法,允許每個(gè)神經(jīng)元根據(jù)上一層的多個(gè)感受野尺度自主選擇不同分支的卷積層信息。時(shí)序自適應(yīng)感受野模塊的主要原理是計(jì)算不同感受野通道的注意力權(quán)重,使網(wǎng)絡(luò)自適應(yīng)獲取不同感受野的信息。

時(shí)序自適應(yīng)感受野模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。對(duì)輸入特征分為四路卷積,4個(gè)分支的卷積核分別為3×1、5×1、7×1和9×1,分別得到4個(gè)特征,對(duì)這4個(gè)特征進(jìn)行簡(jiǎn)單的像素級(jí)相加融合,得到特征。為了建模通道之間的依賴關(guān)系,對(duì)特征沿著和維度求平均值,從而得到每個(gè)通道的信息。之后,為了完成針對(duì)跨通道信息的提取,用具有自適應(yīng)卷積核的快速一維卷積進(jìn)行4次快速一維卷積,得到4個(gè)維通道的特征向量,然后用softmax進(jìn)行歸一化。用通道間的注意力方法以自適應(yīng)選擇4個(gè)分支的信息,得到權(quán)重矩陣注意力向量,再用權(quán)重矩陣對(duì)、、和進(jìn)行加權(quán)操作并求和,得到最后特征Fea_。這樣,最后網(wǎng)絡(luò)融合了不同感受野的信息,且不會(huì)造成信息的冗余。

圖4 時(shí)序自適應(yīng)感受野模塊

2.4 決策融合

由于利用特征融合的方法可以實(shí)現(xiàn)多種特征之間的互補(bǔ)性和多樣性,綜合隱含在不同特征中的信息,能夠防止過擬合。因此,選擇用決策級(jí)融合的方法如采用多流網(wǎng)絡(luò)結(jié)構(gòu),將各特征輸入到共享網(wǎng)絡(luò)層中,再將softmax層的最后分?jǐn)?shù)加起來,最后分?jǐn)?shù)最高的那一類就是訓(xùn)練后的分類結(jié)果。

由于各個(gè)特征流占的比重不同,不能簡(jiǎn)單地用全是1的參數(shù)來融合,因此,用熵權(quán)法確定各個(gè)流融合的分?jǐn)?shù)之前的權(quán)重。根據(jù)熵值判斷各個(gè)特征流通過網(wǎng)絡(luò)得出分?jǐn)?shù)的離散程度,也就是根據(jù)各個(gè)特征和它對(duì)應(yīng)值的變異性大小來確定客觀權(quán)重,在這里離散程度越大,該特征流對(duì)綜合評(píng)價(jià)的影響越大。

3 實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)方法

本文提出的動(dòng)作識(shí)別方法主要在NTU RGB+D數(shù)據(jù)集和Kinetics-skeleton數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),在NTU數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),之后分別基于兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,與其他方法進(jìn)行對(duì)比分析。

準(zhǔn)確率的計(jì)算如式(3)所示

(3)

式中,是正確分類的動(dòng)作序列樣本數(shù);是全部動(dòng)作序列樣本數(shù)。

3.2 參數(shù)設(shè)置

本文提出的算法在兩個(gè)數(shù)據(jù)集上批量大小都設(shè)置為32,權(quán)重衰減都設(shè)置為0.0001,初始學(xué)習(xí)率設(shè)置為0.1,用隨機(jī)遞度下降(Stochastic Gradient Descent, SGD)算法進(jìn)行優(yōu)化。在NTU RGB+D60數(shù)據(jù)集上進(jìn)行50次迭代,用MultiStepLR()函數(shù)在第30、40次迭代進(jìn)行學(xué)習(xí)率的調(diào)整,超參數(shù)gamma設(shè)置為0.1,調(diào)整學(xué)習(xí)率時(shí)將學(xué)習(xí)率除以10。該方法基于圖形處理器(Graphics Processing Unit, GPU)進(jìn)行訓(xùn)練和測(cè)試。在Kinetics-skeleton數(shù)據(jù)集上進(jìn)行65次迭代,在第45、55次迭代進(jìn)行學(xué)習(xí)率的調(diào)整,超參數(shù)gamma設(shè)置為0.1,調(diào)整學(xué)習(xí)率時(shí)將學(xué)習(xí)率除以10。

3.3 實(shí)驗(yàn)結(jié)果與分析

本文提出的動(dòng)作識(shí)別方法主要在NTU數(shù)據(jù)集上做消融實(shí)驗(yàn),設(shè)計(jì)了消融實(shí)驗(yàn)來驗(yàn)證每個(gè)模塊的有效性。在NTU RGB+D60數(shù)據(jù)集上和Kinetics-skeleton數(shù)據(jù)集上與當(dāng)前基于骨骼信息的圖卷積動(dòng)作識(shí)別方法進(jìn)行比較,驗(yàn)證了該方法可以有效提高動(dòng)作識(shí)別的精度。

1)基于三維骨架特征的實(shí)驗(yàn)結(jié)果

為了驗(yàn)證相對(duì)骨骼點(diǎn)特征的有效性,分別基于各特征在NTU RGB+D60數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。單獨(dú)輸入3個(gè)特征進(jìn)行結(jié)果比對(duì)。分別將原始骨骼節(jié)點(diǎn)、骨頭特征和相對(duì)骨骼點(diǎn)特征輸入到設(shè)計(jì)好的網(wǎng)絡(luò)中,得到對(duì)60類動(dòng)作的識(shí)別結(jié)果,如表1所示。

表1 基于各個(gè)三維骨架特征在NTU RGB+D60數(shù)據(jù)集上的識(shí)別結(jié)果

其中,指跨主題評(píng)價(jià)指標(biāo);指跨視角評(píng)價(jià)指標(biāo);-1準(zhǔn)確率計(jì)算的是預(yù)測(cè)結(jié)果中概率最大的正確類樣本數(shù)總樣本數(shù);-5計(jì)算的是預(yù)測(cè)結(jié)果中概率最大前五名中正確類的樣本數(shù)總樣本數(shù)。由于跨視角評(píng)價(jià)指標(biāo)的準(zhǔn)確率已經(jīng)很高,此時(shí),主要從跨主題的角度對(duì)結(jié)果進(jìn)行分析。從表1中可以看到,骨頭特征在跨主題的評(píng)價(jià)指標(biāo)上準(zhǔn)確率要高042,這是因?yàn)楣穷^特征是將人的骨骼邊輸入到網(wǎng)絡(luò)中,解決了不同動(dòng)作骨頭節(jié)點(diǎn)可能重合造成誤判的問題。用相對(duì)骨骼點(diǎn)特征進(jìn)行動(dòng)作識(shí)別,在跨主題的評(píng)價(jià)指標(biāo)上,準(zhǔn)確率要比基于原始節(jié)點(diǎn)的準(zhǔn)確率高063??紤]到兩個(gè)關(guān)節(jié)點(diǎn)之間不存在骨骼邊,用相對(duì)骨骼點(diǎn)可以計(jì)算出這些關(guān)節(jié)點(diǎn)之間的空間關(guān)系。例如,抹臉和梳頭這兩個(gè)動(dòng)作,都是手部節(jié)點(diǎn)與頭部節(jié)點(diǎn)距離很近,這些節(jié)點(diǎn)是沒有骨骼邊連接的,如果計(jì)算這些關(guān)節(jié)之間的相對(duì)位置信息,會(huì)發(fā)現(xiàn)特征向量的大小和方向都是不一樣的。

2)時(shí)序自適應(yīng)感受野模塊實(shí)驗(yàn)結(jié)果

為了驗(yàn)證該模塊對(duì)網(wǎng)絡(luò)帶來的提升效果,對(duì)比了以原始節(jié)點(diǎn)作為輸入特征的基線識(shí)別動(dòng)作的準(zhǔn)確率與設(shè)計(jì)本模塊之后識(shí)別動(dòng)作的準(zhǔn)確率,如表2所示。

表2 基于原始節(jié)點(diǎn)的基線和提出模塊后的識(shí)別結(jié)果的對(duì)比

基線網(wǎng)絡(luò)經(jīng)過訓(xùn)練后,在跨主題評(píng)價(jià)指標(biāo)上的準(zhǔn)確率是85.83%,在跨視角評(píng)價(jià)指標(biāo)上的準(zhǔn)確率為93.54%;而在網(wǎng)絡(luò)中設(shè)計(jì)了時(shí)序自適應(yīng)感受野模塊之后,在跨主題評(píng)價(jià)指標(biāo)上的準(zhǔn)確率是86.94%,精度提高了1.11%,在跨視角評(píng)價(jià)指標(biāo)上的準(zhǔn)確率為94.34%,精度提高了0.8%。精度的提高證明了設(shè)計(jì)模塊的有效性。時(shí)序自適應(yīng)感受野模塊從根本上主要解決的是在所有動(dòng)作序列中,有的動(dòng)作關(guān)鍵性階段持續(xù)時(shí)間很短,有的動(dòng)作關(guān)鍵性階段持續(xù)時(shí)間長(zhǎng),即提取到的特征不足以覆蓋每個(gè)動(dòng)作所有關(guān)鍵階段的問題。分別查看關(guān)鍵性階段持續(xù)時(shí)間很短和很長(zhǎng)的動(dòng)作分類的準(zhǔn)確率,關(guān)鍵性階段持續(xù)很短的動(dòng)作可以用讀書這個(gè)類(3幀有個(gè)明顯的翻頁動(dòng)作)進(jìn)行結(jié)果驗(yàn)證,關(guān)鍵性階段持續(xù)很長(zhǎng)的動(dòng)作可以用玩手機(jī)、打字這兩類(關(guān)鍵性階段持續(xù)大概在9幀左右)進(jìn)行結(jié)果驗(yàn)證。

如表3所示,基于本文設(shè)計(jì)的網(wǎng)絡(luò),讀書動(dòng)作識(shí)別準(zhǔn)確率比基線提高了4%,玩手機(jī)動(dòng)作比基線提高了6%,打字動(dòng)作比基線提高了5%。這個(gè)實(shí)驗(yàn)結(jié)果可以進(jìn)一步證明本模塊能夠有效獲取不同時(shí)域長(zhǎng)短的動(dòng)作特征。

表3 基于基線和本文網(wǎng)絡(luò)比對(duì)動(dòng)作類的分類準(zhǔn)確率

3)與其他方法比較的實(shí)驗(yàn)結(jié)果

在NTU RGB+D60與Kinetics-skeleton兩個(gè)數(shù)據(jù)集上,將本文方法與其他基于骨骼信息的圖卷積動(dòng)作識(shí)別方法進(jìn)行比較。時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(Spatio-Temporal Graph Convolutional Networks,STGCN)方法用適合的圖卷積網(wǎng)絡(luò)提取空間特征;動(dòng)作結(jié)構(gòu)圖卷積網(wǎng)絡(luò)(Actional-Structural Graph Convolutional Networks,ASGCN)方法用多個(gè)圖進(jìn)行卷積,注重沒有骨骼邊相連的兩個(gè)節(jié)點(diǎn)之間的關(guān)系;雙流自適應(yīng)圖卷積網(wǎng)絡(luò)(Two-Stream Adaptive Graph Convolutional Networks,2S-AGCN)方法在時(shí)空?qǐng)D卷積的基礎(chǔ)上對(duì)鄰接矩陣策略進(jìn)行了改進(jìn),增強(qiáng)了對(duì)空間特征的提??;有向圖神經(jīng)網(wǎng)絡(luò)(Directed Graph Neural Networ-ks,DGNN)方法將時(shí)空?qǐng)D卷積從無向圖變成有向圖,提高了抽取空間特征的有效性。

從表4的精度對(duì)比實(shí)驗(yàn)可以看出,本文方法對(duì)動(dòng)作識(shí)別的效果是有提升的??缰黝}評(píng)價(jià)指標(biāo)的準(zhǔn)確率(top-1)比前四種方法中最高的識(shí)別效果高出0.3%左右??缫暯侵笜?biāo)的準(zhǔn)確率更高一點(diǎn),說明基于骨骼信息對(duì)視角差異是有魯棒性的。另外,在跨主題評(píng)價(jià)指標(biāo)上的較高準(zhǔn)確率,說明本文提出的方法可以較好地提取到時(shí)空特征。

表4 本文方法在NTU RGB+D60數(shù)據(jù)集上與當(dāng)前多種方法的識(shí)別結(jié)果對(duì)比

從表5的精度對(duì)比實(shí)驗(yàn)可以看出,Kinetics-skeleton數(shù)據(jù)集上比前四種方法中最高的識(shí)別效果高出0.5%(top-1)左右。在兩個(gè)數(shù)據(jù)集上的精度提升說明了本文方法的有效性,因?yàn)樵谔卣鳙@取部分增加了相對(duì)骨骼點(diǎn)特征,滿足了節(jié)點(diǎn)多樣性和互補(bǔ)性要求;并且通過時(shí)序自適應(yīng)感受野網(wǎng)絡(luò),獲取了在不同時(shí)域上關(guān)節(jié)變化的局部特征,較好地解決了現(xiàn)有方法無法為不同動(dòng)作獲得更有區(qū)別性的時(shí)間特征的問題。

表5 本文方法在Kinetics-skeleton數(shù)據(jù)集上與當(dāng)前多種方法的識(shí)別結(jié)果對(duì)比

為了驗(yàn)證本文方法在實(shí)際應(yīng)用場(chǎng)景中的有效性,在基于火車站與鐵路沿線綜合監(jiān)控視頻錄像中,構(gòu)建了包含奔跑、跌倒、攀爬、抽煙和行走等動(dòng)作類別的數(shù)據(jù)集,同時(shí)也從網(wǎng)絡(luò)視頻中選取了部分同類別數(shù)據(jù)補(bǔ)充到其中,數(shù)據(jù)集共86段視頻,5大類動(dòng)作類別。本文在該數(shù)據(jù)集上與其他動(dòng)作識(shí)別方法進(jìn)行比較。STGCN、ASGCN、2SGCN、DGCN與本文方法的識(shí)別精度分別為71.3%、72.1%、71.9%、73.3%和78.6%,可見本文方法在實(shí)際場(chǎng)景中的動(dòng)作識(shí)別能力相比其他方法取得了提升。

4 結(jié)論

本文針對(duì)長(zhǎng)時(shí)域動(dòng)作識(shí)別率較低的難題,提出了基于相對(duì)骨骼點(diǎn)特征和時(shí)序自適應(yīng)感受野的動(dòng)作識(shí)別方法,算法分析與實(shí)驗(yàn)結(jié)果表明:

1)在NTU RGB+D數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn),相對(duì)骨骼點(diǎn)特征在跨主題評(píng)價(jià)指標(biāo)與跨視角評(píng)價(jià)指標(biāo)上均取得了最高的準(zhǔn)確率,在CS上取得了最高準(zhǔn)確率提升,證明相對(duì)骨骼點(diǎn)特征能有效提取關(guān)節(jié)點(diǎn)之間的空間關(guān)系。

2)在時(shí)序自適應(yīng)感受野模塊上,對(duì)比基準(zhǔn)方法均取得了最高的準(zhǔn)確率,特別是通過關(guān)鍵性階段持續(xù)時(shí)間較長(zhǎng)的動(dòng)作如玩手機(jī),驗(yàn)證了該模塊在時(shí)域特征提取上的有效性。

3)在基準(zhǔn)數(shù)據(jù)集NTU RGB+D和Kinetics-skeleton上,對(duì)比了STGCN、ASGCN及2S-AGCN等多種主流方法,均取得了最高的識(shí)別率,說明整體方法能夠較好地提取不同動(dòng)作的區(qū)別性時(shí)間特征,提高了動(dòng)作識(shí)別能力。

在實(shí)際場(chǎng)景數(shù)據(jù)中,對(duì)比多種主流方法,該方法也取得了最高的識(shí)別率??梢娫诓煌臄?shù)據(jù)集上,該方法能夠更好地提取不同動(dòng)作的時(shí)空特征,具有較強(qiáng)的實(shí)用價(jià)值。

猜你喜歡
時(shí)序卷積準(zhǔn)確率
顧及多種弛豫模型的GNSS坐標(biāo)時(shí)序分析軟件GTSA
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
清明
基于GEE平臺(tái)與Sentinel-NDVI時(shí)序數(shù)據(jù)江漢平原種植模式提取
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
你不能把整個(gè)春天都搬到冬天來
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
马尔康县| 临邑县| 平顺县| 公主岭市| 高雄县| 师宗县| 杭州市| 福贡县| 太谷县| 玉山县| 黎平县| 苗栗县| 长丰县| 新津县| 博乐市| 五家渠市| 余江县| 当阳市| 泊头市| 嘉义县| 若尔盖县| 惠州市| 峡江县| 金华市| 普陀区| 邳州市| 慈溪市| 巨鹿县| 张掖市| 镇安县| 安阳县| 边坝县| 武汉市| 定兴县| 崇阳县| 安康市| 鸡西市| 汝南县| 黄石市| 广水市| 灯塔市|