国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合Attention-ConvLSTM的雙流卷積行為識(shí)別

2021-03-13 06:00揭志浩曾明如周鑫恒
關(guān)鍵詞:短時(shí)記憶雙流準(zhǔn)確率

揭志浩,曾明如,周鑫恒,何 強(qiáng)

(南昌大學(xué) 信息工程學(xué)院,南昌 330031)

1 引 言

相比于諸如物體檢測(cè),人臉識(shí)別等領(lǐng)域,在利用視頻數(shù)據(jù)進(jìn)行人體行為識(shí)別方面,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)依然欠佳.究其原因,是視頻數(shù)據(jù)相比于圖像信息還具有時(shí)間屬性,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)主要依靠靜態(tài)的圖像RGB信息,而不能充分利用人體的運(yùn)動(dòng)信息[1,2].近年來(lái)卷積神經(jīng)網(wǎng)絡(luò)在機(jī)器視覺(jué)方面得到了很好的發(fā)展,它也逐漸被運(yùn)用到人體行為識(shí)別.雙流(Spatial-Temporal Stream)卷積神經(jīng)網(wǎng)絡(luò)是目前運(yùn)用最廣泛的方法之一[3],相比于傳統(tǒng)的方法主要依靠靜態(tài)圖像的RGB信息進(jìn)行視頻數(shù)據(jù)分析,雙流卷積還可以利用視頻數(shù)據(jù)中被檢測(cè)目標(biāo)隨時(shí)間變化的運(yùn)動(dòng)信息.在雙流卷積的基礎(chǔ)上,Du Tran[4]等人提出了3D卷積,將2D的卷積核替換成3D,對(duì)連續(xù)幀視頻數(shù)據(jù)進(jìn)行卷積處理.Feichenhofer[5]等人探究了多種對(duì)雙流信息進(jìn)行融合的方法,并且發(fā)現(xiàn)相比于softmax層,在卷積層對(duì)雙流信息進(jìn)行融合效果更好.Zhu[6]等人提出的卷積結(jié)構(gòu)可以自動(dòng)提取視頻數(shù)據(jù)的時(shí)間流信息,而不需要對(duì)視頻數(shù)據(jù)進(jìn)行預(yù)處理.這些方法雖然綜合分析了連續(xù)多幀視頻數(shù)據(jù)中的人體運(yùn)動(dòng)信息與RGB信息,但是這些方法在視頻級(jí)的分析和識(shí)別上基于平均預(yù)測(cè),對(duì)于長(zhǎng)時(shí)間范圍的運(yùn)動(dòng)信息分析往往并不準(zhǔn)確.長(zhǎng)短時(shí)記憶循環(huán)(LSTM)神經(jīng)網(wǎng)絡(luò)在處理序列模型的數(shù)據(jù)時(shí)表現(xiàn)出色,被廣泛運(yùn)用于諸如機(jī)器翻譯,語(yǔ)音識(shí)別等領(lǐng)域.由于視頻數(shù)據(jù)具有天然的序列屬性,Donahue[7]等人提出將LSTM用于視頻的描述與識(shí)別,取得很好的效果.但是傳統(tǒng)的長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)有其結(jié)構(gòu)性的缺陷,這是因?yàn)長(zhǎng)STM把所有的輸入都當(dāng)成向量.在文獻(xiàn)[7]中,雖然所有的數(shù)據(jù)都進(jìn)行了卷積處理,但是在輸入到LSTM之前都要進(jìn)行向量化,這種操作無(wú)疑破壞了視頻數(shù)據(jù)的空間特征.

綜上可知,對(duì)視頻數(shù)據(jù)的時(shí)間和空間屬性同時(shí)進(jìn)行很好地分析仍然是艱難的工作,且而在視頻背景復(fù)雜的情況下,現(xiàn)有的方法普遍缺乏有效的機(jī)制對(duì)一些顯著特征實(shí)現(xiàn)有效的抓取和利用.

針對(duì)上述問(wèn)題,本文提出將基于注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)與雙流卷積中的時(shí)間流進(jìn)行結(jié)合,一方面實(shí)現(xiàn)了較長(zhǎng)時(shí)間跨度的時(shí)間流數(shù)據(jù)的輸入輸出,另一方面將LSTM直接作用于神經(jīng)網(wǎng)絡(luò)的卷積層,更好地保留了光流信息的空間特征.注意力機(jī)制使得神經(jīng)網(wǎng)絡(luò)對(duì)視頻數(shù)據(jù)中的顯著特征和關(guān)鍵幀進(jìn)行了更好的利用.本文優(yōu)化了擴(kuò)展之后網(wǎng)絡(luò)的正則交叉熵?fù)p失函數(shù),使得神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)更快的收斂.

2 雙流卷積網(wǎng)絡(luò)

最早用于人體行為識(shí)別的雙流卷積神經(jīng)網(wǎng)絡(luò)由Simonyan[8]等人提出,如圖1所示他們提出將視頻數(shù)據(jù)分為兩個(gè)數(shù)據(jù)流,即空間流(Spatial stream)和時(shí)間流(Temporal stream)/光流(Optical stream),并將其分別輸入到不同的卷積神經(jīng)網(wǎng)絡(luò),空間流負(fù)責(zé)處理靜態(tài)圖像的RGB信息,時(shí)間流處理被檢測(cè)目標(biāo)的運(yùn)動(dòng)信息(即連續(xù)幀視頻數(shù)據(jù)中特征點(diǎn)隨時(shí)間的位移信息),最后在softmax層對(duì)雙流數(shù)據(jù)流進(jìn)行融合.

圖1 雙流卷積神經(jīng)網(wǎng)絡(luò)Fig.1 Two-stream CNN

3 LSTM

1997年Sepp等人在文獻(xiàn)[9]中提出了一種長(zhǎng)短時(shí)記憶(Long Short-Term Memorry)循環(huán)神經(jīng)網(wǎng)絡(luò),如圖2所示,把傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層自連接單元用LSTM單元替換,解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在反相傳播時(shí)存在的梯度消失和梯度爆炸的問(wèn)題,LSTM網(wǎng)絡(luò)更新遞歸公式如下:

圖2 長(zhǎng)短時(shí)記憶單元Fig.2 LSTM unit

(1)

其中W是權(quán)重矩陣,σ是激活函數(shù).ct為記憶單元,每次的輸入輸出都對(duì)其進(jìn)行一定程度的更新,it代表輸入門(mén),它決定新的輸入對(duì)新的記憶單元的影響程度,ft代表遺忘門(mén),它決定舊的記憶單元對(duì)新的記憶單元的影響程度,ot為輸出門(mén),由它得出的輸出作為一個(gè)隱藏狀態(tài)輸入到下一個(gè)LSTM單元,各門(mén)值與記憶單元均為同維的列向量.由式可知在t時(shí)刻的各門(mén)值由t-1時(shí)刻的記憶單元,隱藏狀態(tài),新的輸入,及偏置值共同影響,合理地設(shè)置遺忘門(mén)和更新門(mén),可以較為容易地把記憶細(xì)胞中的信息傳遞到更遠(yuǎn),既克服了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)存在的梯度消失和梯度爆炸的問(wèn)題,又使得神經(jīng)網(wǎng)絡(luò)可以更好地學(xué)習(xí)長(zhǎng)時(shí)間范圍內(nèi)輸入輸出之間的依賴(lài)關(guān)系。但是式(1)中的it和ht均為列向量,這種網(wǎng)絡(luò)結(jié)構(gòu)處理具有明顯空間特征的圖像和視頻數(shù)據(jù)顯然是不合理的,因?yàn)榱邢蛄坎⒉荒芊从硵?shù)據(jù)中各局部特征的之間的空間關(guān)系.

4 ConvLSTM

Xingjian[10]等人第一次提出了卷積的長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(ConvLSTM),這種LSTM在保留傳統(tǒng)LSTM的優(yōu)點(diǎn)的同時(shí),還可以保留諸如圖像,視頻等信息的空間特征.Seo[11]等人首次將ConvLSTM用于序列圖像的識(shí)別,得到了很好的實(shí)驗(yàn)效果.ConvLSTM的更新遞歸公式如下:

It=σ(Wxi*Xt+Whi*Ht-1+Wci*Ct-1+bi)
Ft=σ(Wxf*Xt+Whf*ht-1+Wcf*Ct-1+bf)
Ct=Ft⊙Ct-1+It⊙tanh(Wxc*Xt+Whc*Ht-1+bc)
Ot=σ(Wxo*Xt+Who*Ht-1+Wco*Ct+bo)
Ht=Ot⊙tanh(Ct)

(2)

與式(1)相比,式(2)中的W表示卷積核,*表示卷積,⊙表示Hadamard乘,卷積結(jié)構(gòu)相比于向量更加能夠保留數(shù)據(jù)的局部特征及其之間的空間關(guān)系.

在利用視頻數(shù)據(jù)進(jìn)行行為識(shí)別方面,傳統(tǒng)方法通常在神經(jīng)網(wǎng)絡(luò)的全連接層使用LSTM,雖然保留了幀數(shù)據(jù)的全局特征,但是幀數(shù)據(jù)的局部特征和空間關(guān)系卻遭到破壞.行為識(shí)別的過(guò)程中,局部運(yùn)動(dòng)特征及其之間的空間關(guān)系至關(guān)重要,本文提出在神經(jīng)網(wǎng)絡(luò)的卷積層使用LSTM,將輸入xt擴(kuò)展成N×N×D的輸入Xt,其中N×N即為在當(dāng)前卷積層feature map的大小,D為該卷積層的通道數(shù).

5 Attention-ConvLSTM

注意力機(jī)制最早由Bahdanau等人在文獻(xiàn)[12]中提出,應(yīng)用于機(jī)器翻譯.這種機(jī)制通過(guò)自動(dòng)地分析數(shù)據(jù)的局部特征據(jù)與預(yù)測(cè)結(jié)果之間的相關(guān)性,使得神經(jīng)網(wǎng)絡(luò)可以選擇性地關(guān)注輸入數(shù)據(jù)的重要特征[13],從而賦予一些關(guān)鍵特征更大的權(quán)重,其在自然語(yǔ)言處理,機(jī)器翻譯等方面表現(xiàn)出色[14,15].Kelvin Xu等人在文獻(xiàn)[16]中首次將注意力機(jī)制應(yīng)用于機(jī)器視覺(jué)并且取得了很好的效果.由于注意力機(jī)制可以實(shí)時(shí)動(dòng)態(tài)地關(guān)注數(shù)據(jù)中顯著特征,賦予它們不同的權(quán)重,這使得當(dāng)數(shù)據(jù)中存在多種特征,并且當(dāng)數(shù)據(jù)中存在強(qiáng)干擾時(shí)這種機(jī)制的作用更加明顯.

St=Ws*tanh(Wxa*Xt+Wha*Ht-1+ba)

(3)

(4)

(5)

圖3 基于注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)Fig.3 ConvLSTM based on attention mechanism

(6)

(7)

式中C為所有可能的分類(lèi)數(shù)目,y=(y1,…,yC)T是數(shù)據(jù)集真實(shí)的標(biāo)簽,當(dāng)前視頻行為屬于第i類(lèi)行為時(shí)yi=1,yj=0(j≠i).θ表示所有的模型參數(shù),為了防止神經(jīng)網(wǎng)絡(luò)的過(guò)度擬合也對(duì)其作了限制.

6 實(shí)驗(yàn)與結(jié)果分析

本文的實(shí)驗(yàn)基于UFC101[17]和HMDB51[18]兩個(gè)通用人體行為數(shù)據(jù)集,UFC101中包含了101類(lèi)的13320個(gè)視頻片段,在視頻長(zhǎng)短,行為類(lèi)別,視頻背景,相機(jī)運(yùn)動(dòng),攝像角度等方面有很好的多樣性.HMDB51包含51類(lèi)的6766個(gè)視頻片段,其視頻片段有更大的類(lèi)內(nèi)差別和更小的類(lèi)間差別,所以更具有挑戰(zhàn)性.對(duì)于這兩個(gè)數(shù)據(jù)集,都將其中80%的視頻片段作為訓(xùn)練集,剩下的20%作為測(cè)試集.本文參考文獻(xiàn)[2]中的方法對(duì)數(shù)據(jù)集中視頻數(shù)據(jù)進(jìn)行了預(yù)處理,不同之處在于將抽取的光流數(shù)據(jù)的幀數(shù)從10擴(kuò)大到20.

本文選取VGG-16[19]作為時(shí)間流和空間流的卷積網(wǎng)絡(luò)框架,它包含13個(gè)卷積層,3個(gè)全連接層,使用在ImageNet上預(yù)訓(xùn)練的模型參數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行初始化.本文將VGG-16最后一個(gè)卷積層的數(shù)據(jù)作為Attention-ConvLSTM的輸入數(shù)據(jù),所有的W~a和W~b均為1×1大小的卷積核,所有的Wx~和Wh~均為3×3大小的卷積核,本文在softmax層對(duì)視頻的雙流數(shù)據(jù)進(jìn)行了融合.

為了更好地將本文所提出的方法與傳統(tǒng)方法進(jìn)行比較,本文將簡(jiǎn)單的雙流卷積,結(jié)合傳統(tǒng)LSTM和結(jié)合Attention-ConvLSTM的雙流卷積神經(jīng)網(wǎng)絡(luò)在相同的數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試,圖4-圖6分別是以上3種網(wǎng)絡(luò)在UFC101和HMDB51兩個(gè)數(shù)據(jù)集上隨著迭代次數(shù)從0到300時(shí)在訓(xùn)練集和測(cè)試集上的準(zhǔn)確率曲線(xiàn).

圖4 雙流卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確率Fig.4 Accuracy curve of two stream ConvNet

圖5 結(jié)合傳統(tǒng)LSTM雙流卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確率Fig.5 Accuracy curve of two stream ConvNet with traditional LSTM

圖6 結(jié)合Attention-ConvLSTM雙流卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確率Fig.6 Accuracy curve of two stream ConvNet with Attention-ConvLSTM

從圖4-圖6中可以看出,在UFC101和HMDB51上雙流卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率分別為88.0%和59.4%,其結(jié)合了傳統(tǒng)LSTM的神經(jīng)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率為90.3%和63.2%,結(jié)合了Attention-ConvLSTM的神經(jīng)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率為94.6%和69.8%.改進(jìn)之后的網(wǎng)絡(luò)也表現(xiàn)出了更好的收斂性,簡(jiǎn)單的雙流卷積和結(jié)合了傳統(tǒng)LSTM的神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上分別經(jīng)過(guò)280,250次左右的迭代才達(dá)到收斂,而結(jié)合了Attention-ConvLSTM的神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)200次左右的迭代就達(dá)到收斂.且如表1所示,本文提出的方法較其他傳統(tǒng)方法在識(shí)別準(zhǔn)確率上也有較大提升.分析可知,簡(jiǎn)單的雙流卷積網(wǎng)絡(luò)對(duì)于長(zhǎng)時(shí)間范圍和具有復(fù)雜運(yùn)動(dòng)背景的視頻數(shù)據(jù)識(shí)別率是較低的.結(jié)合了傳統(tǒng)LSTM的雙流卷可以更好的利用序列幀數(shù)據(jù)之間的依賴(lài)關(guān)系積使得神經(jīng)網(wǎng)絡(luò)的性能得到了一部分提高,結(jié)合Attention-ConvLSTM的雙流卷積可以更好地分析局部特征的空間關(guān)系,對(duì)顯著特征和關(guān)鍵幀實(shí)現(xiàn)更有效的利用,這使得神經(jīng)網(wǎng)絡(luò)的性能得到進(jìn)一步提高.

表1 不同算法在UCF101和HMDB51準(zhǔn)確率對(duì)比Table 1 Comparison of the accuracy of the different algorithms on the UFC101 and HMDB51

7 結(jié) 論

在行為識(shí)別方面,傳統(tǒng)雙流卷積神經(jīng)網(wǎng)絡(luò)在對(duì)長(zhǎng)時(shí)間范圍及包含了復(fù)雜運(yùn)動(dòng)背景的視頻數(shù)據(jù)進(jìn)行處理時(shí),抽樣幀標(biāo)簽分配常常出錯(cuò),識(shí)別結(jié)果基于平均預(yù)測(cè),這導(dǎo)致傳統(tǒng)方法的識(shí)別成功率并不是很高.為了更好地利用了序列幀運(yùn)動(dòng)信息之間的依賴(lài)關(guān)系,本文提出將ConvLSTM和雙流卷積中的時(shí)間流結(jié)合,ConvLSTM相比傳統(tǒng)LSTM更能夠保留視頻數(shù)據(jù)中的空間信息.為了可以更加準(zhǔn)確分析具有復(fù)雜運(yùn)動(dòng)背景的視頻數(shù)據(jù),本文還引入了注意力機(jī)制,注意力機(jī)制使得神經(jīng)網(wǎng)絡(luò)可以將運(yùn)動(dòng)信息的顯著特征和關(guān)鍵幀利用得更加充分.本文提出的新的正則交叉熵?fù)p失函數(shù)對(duì)擴(kuò)展之后的網(wǎng)絡(luò)參數(shù)進(jìn)行更好地約束.在UFC101和HMDB51數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文提出的方法相比于傳統(tǒng)方法具有更高的識(shí)別準(zhǔn)確率,神經(jīng)網(wǎng)絡(luò)所需要的訓(xùn)練時(shí)間也有所縮短,從而驗(yàn)證了本文提出的方法的有效性.

猜你喜歡
短時(shí)記憶雙流準(zhǔn)確率
國(guó)內(nèi)首條雙流制市域(郊)鐵路開(kāi)通運(yùn)營(yíng)
四川省成都市雙流區(qū)東升迎春小學(xué)
雙流區(qū)總工會(huì)培訓(xùn)提升工匠技能
種子醒了
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
頸椎病患者使用X線(xiàn)平片和CT影像診斷的臨床準(zhǔn)確率比照觀(guān)察
從認(rèn)知心理學(xué)角度淺談口譯中的短時(shí)記憶
吉林大學(xué)考古與藝術(shù)博物館觀(guān)眾短時(shí)記憶調(diào)查報(bào)告
濮阳县| 塔城市| 岱山县| 靖安县| 宜昌市| 乐安县| 上思县| 娱乐| 沂南县| 青铜峡市| 遂平县| 永德县| 三都| 宣恩县| 富平县| 师宗县| 汉阴县| 彝良县| 象州县| 望谟县| 玉林市| 广州市| 崇明县| 涿州市| 云龙县| 邹城市| 确山县| 宽甸| 高青县| 财经| 衡东县| 方山县| 北流市| 抚宁县| 三明市| 札达县| 山西省| 长春市| 宁陵县| 义乌市| 肥乡县|