国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時空雙流卷積與LSTM的人體動作識別

2018-10-19 03:49毛志強(qiáng)馬翠紅崔金龍
軟件 2018年9期
關(guān)鍵詞:雙流時空卷積

毛志強(qiáng),馬翠紅*,崔金龍,王 毅

?

基于時空雙流卷積與LSTM的人體動作識別

毛志強(qiáng)1,馬翠紅1*,崔金龍2,王 毅1

(1. 華北理工大學(xué) 電氣工程學(xué)院,河北 唐山 063210;2. 北京交通大學(xué)海濱學(xué)院,河北 滄州 061100)

針對公共區(qū)域等特定場合下人體動作識別準(zhǔn)確率不高,時間維度信息不能充分利用等問題,提出了一種基于時空雙流卷積與長短時記憶(LSTM)網(wǎng)絡(luò)的人體動作識別模型。該模型首先采用時空雙流卷積神經(jīng)網(wǎng)絡(luò)分別提取動作視頻序列中的時間和空間特征;然后融合雙流卷積結(jié)構(gòu)提取到的全連接層的時空特征;最后將時空融合特征輸入到LSTM網(wǎng)絡(luò)遞歸學(xué)習(xí)時間維度長時運(yùn)動特征并結(jié)合線性SVM分類器實(shí)現(xiàn)人體動作的分類與識別。在動作視頻數(shù)據(jù)集KTH上的實(shí)驗(yàn)結(jié)果表明,該模型能夠充分利用時間維度信息,且識別準(zhǔn)確率可達(dá)97.5%,優(yōu)于其他行為識別算法。

人體動作識別;時空模型;卷積神經(jīng)網(wǎng)絡(luò)(CNN);長短時記憶(LSTM)

0 引言

人體動作識別(Human action recognition,HAR)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)和難點(diǎn)[1-3]?;谝曨l的人體動作識別可以看作是隨時間變化的圖片分類問題,因此在圖片識別領(lǐng)域的深度學(xué)習(xí)方法也被大量應(yīng)用在視頻序列中人體動作識別的研究中[4]。深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在動作識別領(lǐng)域得到廣泛的應(yīng)用,Alexnet[5],GoogLeNet[6],VGGnet[7]等經(jīng)典CNN架構(gòu)不僅在圖像處理任務(wù)上取得突破性進(jìn)展,在視頻處理任務(wù)也取得顯著成效[8]。2014年,Karpathy等[9]第一次將深度卷積神經(jīng)網(wǎng)絡(luò)用于視頻中的行為識別,以連續(xù)的RGB視頻幀為直接輸入進(jìn)行識別;2015年,Cheron等[10]利用3D卷積神經(jīng)網(wǎng)絡(luò)提取時間維度信息,是人體行為識別領(lǐng)域經(jīng)典的模型;Simonyan等[11]構(gòu)建雙流CNN模型用于行為識別,分別以單幀RGB圖像和堆疊光流圖作為空域網(wǎng)絡(luò)和時域網(wǎng)絡(luò)的輸入,提取視頻的表觀和運(yùn)動信息,在一定程度上利用了視頻的時間信息,但是識別準(zhǔn)確率并不是很高。Jeff等[12]提出融合卷積層和長時遞歸層的長時遞歸卷積網(wǎng)絡(luò)(Long-term Recurrent Convolutional,LRCN),LRCN 利用CNN網(wǎng)絡(luò)提取特征,然后送入LSTM網(wǎng)絡(luò)獲得識別結(jié)果。

基于以上分析,本文結(jié)合各個網(wǎng)絡(luò)模型優(yōu)點(diǎn),構(gòu)建了一種基于時空雙流卷積網(wǎng)絡(luò)與LSTM網(wǎng)絡(luò)的人體動作識別模型。該模型針對公共區(qū)域等特定場所下的動作識別,首先利用時空雙流卷積網(wǎng)絡(luò)提取動作視頻中的外觀特征和動作特征,并融合雙流結(jié)構(gòu)提取的全連接層特征作為長短時記憶(Long Short- Term Memory,LSTM)網(wǎng)絡(luò)的輸入;然后遞歸學(xué)習(xí)時間維度運(yùn)動信息結(jié)合線性SVM,從而實(shí)現(xiàn)人體動作識別。

1 模型結(jié)構(gòu)設(shè)計(jì)

本文提出的Spatiotemporal-LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)主要包含四個模塊:時空特征的提取、時空特征融合、基于LSTM網(wǎng)絡(luò)遞歸學(xué)習(xí)長時運(yùn)動特征、線性SVM實(shí)現(xiàn)動作識別。首先,分別訓(xùn)練兩個2D卷積神經(jīng)網(wǎng)絡(luò),用來分別提取空間特征和時間特征;然后將時空特征進(jìn)行融合,作為LSTM網(wǎng)絡(luò)結(jié)構(gòu)的輸入特征遞歸學(xué)習(xí)時間維度長時運(yùn)動特征;最后利用線性SVM實(shí)現(xiàn)人體動作識別。

圖1 Spatiotemporal-LSTM總體結(jié)構(gòu)

1.1 空間流卷積神經(jīng)網(wǎng)絡(luò)

視頻序列中的表觀特征對于某些人體動作識別具有重要的作用,本文通過構(gòu)建空間流卷積神經(jīng)網(wǎng)絡(luò)來提取表觀特征。空間流卷積神經(jīng)網(wǎng)絡(luò)實(shí)質(zhì)上是一種圖片分類結(jié)構(gòu),以連續(xù)的單個視頻幀作為輸入,提取靜態(tài)圖片中外觀信息來完成人體動作表征。本文構(gòu)建的空間流卷積網(wǎng)絡(luò)采用的是牛津大學(xué)視覺幾何組(Visual Geometry Group,VGG)開發(fā)的VGG-M- 2048模型,如圖2所示。

圖2 空間流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

1.2 時間流卷積神經(jīng)網(wǎng)絡(luò)

本時間流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,同樣采用的是VCC-M-2048模型。與空間流的輸入不同,時間流卷積神經(jīng)網(wǎng)絡(luò)輸入是連續(xù)的光流圖。光流圖可以理解為空間運(yùn)動物體在連續(xù)視頻幀之間的像素點(diǎn)運(yùn)動的“瞬時速度”,能夠更加直觀清晰的表征人體運(yùn)動信息,有效地提取了視頻序列的時間特征,提高了視頻人體動作的識別準(zhǔn)確率。

圖3 時間流卷積神經(jīng)網(wǎng)絡(luò)

對于光流幀的提取采用的是OpenCV視覺庫中提供的稠密光流幀提取方法,分別獲取視頻中水平方向和垂直方向的光流幀,然后將20個光流圖構(gòu)成一個光流組(flow_x和flow_y)作為時間流卷積神經(jīng)網(wǎng)絡(luò)的輸入。

1.3 時空特征融合

時空網(wǎng)絡(luò)的融合在于使用視頻的空間特征與時間特征的關(guān)聯(lián)性判斷人體的動作。比如對于揮拳和散步兩個動作,空間流卷積神經(jīng)網(wǎng)絡(luò)識別出靜態(tài)圖片中手和腳的位置,時間流卷積神經(jīng)網(wǎng)絡(luò)識別出了在一定的空間位置手部和腳部的周期性動作,結(jié)合這兩個網(wǎng)絡(luò)可以識別出揮拳和散步這兩個動作。

圖4 時空特征融合

相比于卷積層特征,全連接層特征具有更高層次的抽象和更好地語義信息,更適合作為LSTM網(wǎng)絡(luò)的輸入,在實(shí)驗(yàn)部分,本文設(shè)計(jì)了幾種不同的卷積層特征融合和全連接層特征融合方案,證明了空間流卷積神經(jīng)網(wǎng)絡(luò)的full6層和時間流卷積神經(jīng)網(wǎng)絡(luò)的full7層進(jìn)行特征融合具有更好的識別效果。如圖4所示。

1.4 LSTM網(wǎng)絡(luò)

長短時記憶(LSTM)網(wǎng)絡(luò)是由遞歸神經(jīng)網(wǎng)絡(luò)(RNN)演變而來,對復(fù)雜的時間維度信息更加敏感,能夠有效地解決RNN在訓(xùn)練過程中出現(xiàn)的梯度爆炸或梯度彌散的問題,從而有利于學(xué)習(xí)到長時動態(tài)信息。其LSTM網(wǎng)絡(luò)結(jié)構(gòu)單元如圖5所示。

圖5 LSTM網(wǎng)絡(luò)單元

該結(jié)構(gòu)單元在隱層中加入了先驗(yàn)知識——輸入門、遺忘門、輸出門和輸入調(diào)制門,通過以上門結(jié)構(gòu)能夠?qū)⒏鲗娱g信號和某一時刻的輸入信號處理的更加透明。如下式(1)所示:

記憶單元c是LSTM的核心部分,其作用是選擇有用信息去除無用信息,如式(2)所示:

式中c包括兩部分,一部分是由上一時刻記憶單元c1和遺忘門f相乘而得,另一部分由輸入門i和輸入調(diào)制門g相乘而得。

The comparative studies were assessed by the Newcastle-Ottawa Quality Assessment Scale (NOS)[21].Twelve of 14 studies had 6 or more star points on the NOS scale.

LSTM的輸出h是由輸出門o控制是否激活記憶單元c。如下式(3)所示:

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)環(huán)境選擇深度學(xué)習(xí)框架Caffe平臺實(shí)現(xiàn),網(wǎng)絡(luò)訓(xùn)練采用小批量隨機(jī)梯度下降法。時空雙流卷積神經(jīng)網(wǎng)絡(luò)采用VGG-M-2048模型提取時空特征,以16幀為一組的連續(xù)RGB視頻幀為空間流輸入,輸入大小為224*224,時間流卷積神經(jīng)網(wǎng)絡(luò)輸入大小為224*224*2在原光流圖像上隨機(jī)位置裁剪的連續(xù)光流幀。根據(jù)文獻(xiàn)[10]的結(jié)論,將光流在時間域上的長度設(shè)置為=10效果會更好。在訓(xùn)練過程中,批次大小設(shè)置為96,將權(quán)值衰減率設(shè)置為0.85,初始學(xué)習(xí)率為0.01,在第30000次迭代后每20000次迭代學(xué)習(xí)率縮小為原來的1/10,直至迭代80000次后停止訓(xùn)練。

本次實(shí)驗(yàn)數(shù)據(jù)集采用KTH數(shù)據(jù)集,該數(shù)據(jù)集包括了4種場景下25個不同行人的6中行為視頻:正常行走(Walk)、慢跑(Jog)、跑(Run)、揮拳(Box)、雙手揮手(Wave)、鼓掌(Clap)。如圖(6)所示。實(shí)驗(yàn)過程中,為了增加識別準(zhǔn)確率可信度,本文將KTH數(shù)據(jù)集隨機(jī)劃分成3組,取其3組測試平均準(zhǔn)確率作為評估模型效果的指標(biāo)。

圖6 KTH樣本數(shù)據(jù)集

2.2 實(shí)驗(yàn)結(jié)果分析

通過時空雙流VGG-M-2048模型提取連續(xù)RGB視頻幀與連續(xù)光流圖的時空特征,對于在不同位置融合時空網(wǎng)絡(luò)層特征的識別準(zhǔn)確率如表1所示。

表1 時空特征不同融合位置的識別準(zhǔn)確率比較(%)

Tab.1 Comparison of recognition accuracy of different fusion locations of space-time features (%)

從表1中可以發(fā)現(xiàn),隨著融合位置層次的加深,識別準(zhǔn)確率也在不斷提高,而且全連接層特征融合明顯高于卷積層特征融合,說明全連接層比卷積層具有更好的語義信息。但是當(dāng)采用空間流的fc7層和時間流的fc6層進(jìn)行融合時,識別準(zhǔn)確率有所下降,而采用空間流的fc6層與時間流的fc7層識別效果是最好的。

表2 本文算法與其他方法識別準(zhǔn)確率的比較(%)

Tab.2 Comparison of the accuracy of the algorithm and other methods in this paper (%)

3 結(jié)論

本文提出了一種基于時空雙流卷積網(wǎng)絡(luò)與LSTM的人體動作識別方法。該方法首先利用時空雙流網(wǎng)絡(luò)提取視頻序列中的時空特征,再將全連接層的輸出特征進(jìn)行融合作為LSTM模型的輸入遞歸學(xué)習(xí)長時運(yùn)動特征。在KTH數(shù)據(jù)集上的結(jié)果表明:選擇S-fc6和T-fc7層進(jìn)行特征融合會有更好的識別效果;LSTM網(wǎng)絡(luò)遞歸學(xué)習(xí)的長時運(yùn)動特征有利于人體動作識別;本文提出的算法優(yōu)于其他方法,識別效果更好。

[1] Herath S, Harandi M, Porikli F. Going deeper into action recognition: A survey[J]. Image & Vision Computing, 2017, 60(4): 4-21.

[2] 馬淼, 李貽斌. 基于多級圖像序列和卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別[J]. 吉林大學(xué)學(xué)報(工), 2017, 47(4): 1244-1252.

[3] 張震, 張雷. 基于CCN的CDN視頻內(nèi)容分發(fā)技術(shù)研究[J]. 軟件, 2015, 36(1): 67-71.

[4] 周楓, 薛熒熒, 李千目. 視頻監(jiān)控與編碼技術(shù)的研究綜述[J]. 軟件, 2015, 36(4): 84-92.

[5] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012: 1097-1105.

[6] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2015: 1-9.

[7] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014.

[8] 張明軍, 俞文靜, 袁志, 等. 視頻中目標(biāo)檢測算法研究[J]. 軟件, 2016, 37(4): 40-45.

[9] Karpathy A, Toderici G, Shetty S, et al. Large-Scale Video Classification with Convolutional Neural Networks[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014: 1725-1732.

[10] Chéron G, Laptev I, Schmid C. P-CNN: Pose-Based CNN Features for Action Recognition[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015: 3218-3226.

[11] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[J]. 2014, 1(4): 568-576.

[12] Donahue J, Hendricks L A, Rohrbach M, et al. Long-term Recurrent Convolutional Networks for Visual Recognition and Description[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(4): 677-691.

Human Action Recognition Model Based on Spatio-temporal Two-stream Convolution and LSTM

MAO Zhi-qiang1, MA Cui-hong1*, CUI Jin-long2, WANG Yi1

(1. College of Electrical Engineering, North China University of Science and Technology, Tangshan 063210, China;2. Beijing Jiaotong University Haibin College, Cangzhou 061100, China)

Aiming at the problem that the accuracy of human action recognition is not high and the time dimension information cannot be fully utilized in specific occasions such as public areas, a human action recognition model based on spatio-temporal two-stream convolution and Long Short-Term Memory (LSTM) network is proposed. The model first uses spatio-temporal two-stream convolutional neural networks to extract temporal and spatial features in action video sequences. Then merging the spatiotemporal features of the fully connected layer extracted by the two stream convolution structure; Finally, the spatio-temporal fusion feature is input into the recursive learning time dimension long-term motion feature of the LSTM network and combined with the linear SVM classifier to realize the classification and recognition of human motion. The experimental results on the action video dataset KTH show that the model can make full use of the time dimension information, and the recognition accuracy is up to 97.5%, which is superior to other behavior recognition algorithms.

Human action recognition; Spatio-temporal model; Convolutional neural network (CNN); Long Short-Term Memory (LSTM)

TP391

A

10.3969/j.issn.1003-6970.2018.09.002

國家自然科學(xué)基金項(xiàng)目(61171058)

毛志強(qiáng)(1991-),男,碩士研究生,研究方向:計(jì)算機(jī)視覺、目標(biāo)檢測與人體行為識別;崔金龍(1989-),男,碩士,助教,研究方向:鋼成分測量;王毅(1994-),男,碩士研究生,研究方向:計(jì)算機(jī)視覺、目標(biāo)檢測與視頻分析。

馬翠紅(1960-),女,教授,研究方向:復(fù)雜工業(yè)系統(tǒng)的建模與控制。

本文著錄格式:毛志強(qiáng),馬翠紅,崔金龍,等. 基于時空雙流卷積與LSTM的人體動作識別[J]. 軟件,2018,39(9):09-12

猜你喜歡
雙流時空卷積
四川省成都市雙流區(qū)東升迎春小學(xué)
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對策
鏡中的時空穿梭
雙流機(jī)場一次低能見度天氣過程分析
四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
從濾波器理解卷積
玩一次時空大“穿越”
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
聂荣县| 通榆县| 辽阳县| 鹿泉市| 息烽县| 营口市| 永德县| 肇源县| 孝感市| 东光县| 金昌市| 泉州市| 南召县| 汉源县| 阿克| 曲麻莱县| 清徐县| 务川| 广汉市| 丹江口市| 邹平县| 沅江市| 临泉县| 岳普湖县| 兴宁市| 桦川县| 明星| 崇阳县| 丰县| 乡城县| 江西省| 洱源县| 建宁县| 绥江县| 巴东县| 永平县| 隆尧县| 涞源县| 三都| 陕西省| 观塘区|