王毅 馬翠紅 毛志強(qiáng)
關(guān)鍵詞: 行為識別; 三維卷積; 雙向LSTM; 雙中心loss; 聯(lián)合訓(xùn)練; 計(jì)算機(jī)視覺
中圖分類號: TN915.07?34; TP391 ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)14?0078?05
Research on action recognition based on 3D convolution and bidirectional LSTM
WANG Yi, MA Cuihong, MAO Zhiqiang
(College of Electrical Engineering, North China University of Science and Technology, Tangshan 063210, China)
Abstract: Accurately identifying the content in video is the direction of future Internet application and development. The behavior recognition in video is the research focus in the field of computer vision. In order to make full use of the information in video and improve the accuracy of action recognition, an action recognition algorithm based on 3D convolution and bidirectional LSTM is proposed in this paper. Specifically speaking, a spatial attention module based on three?dimensional convolution is proposed, which can focus on the salient features of the spatial region. In order to better handle long?time video, a new time?based module based on bidirectional LSTM (long?and short?term memory network) is introduced, which aims to focus on key video instead of the key video frame of a given video, adopts double?center Loss (calculation loss function) to optimize network for joint training in two?stage strategies, and enables it to simultaneously explore spatial and temporal correlation. The results of the tests with the HMDB?51 and UCF?101 data sets prove that this method can accurately identify similar actions in video, the accuracy of action recognition is greatly improved, and the recognition effect is remarkable.
Keywords: behavior recognition; 3D convolution; bidirectional LSTM; double center loss; joint training; computer vision
0 ?引 ?言
對神經(jīng)學(xué)和人類認(rèn)知的研究表明,人類在觀察世界時(shí),注意的并不是整個(gè)環(huán)境,而是注意環(huán)境的顯著部分和一系列的關(guān)鍵時(shí)間信息。這種機(jī)制促使本文設(shè)計(jì)一種適用于現(xiàn)實(shí)行為的識別模型。
現(xiàn)有的視頻人體行為識別方法有兩方面的不足。
1) 多數(shù)基于空間注意的方法,受LSTM的輸入形狀限制,這些方法將相應(yīng)的特征圖拉伸成連續(xù)的矢量序列,這顯然忽略了空間相鄰區(qū)域的關(guān)系。
2) 多數(shù)基于時(shí)間注意的方法,更注意每個(gè)幀的重要性。忽略相鄰幀之間具有的相關(guān)性,使得時(shí)間注意模型為每個(gè)幀分配相似或相等的注意值。研究表明,8幀長的視頻剪輯足以讓人類識別正在發(fā)生的動作。為了克服這兩方面的不足,本文設(shè)計(jì)一個(gè)空間注意模型,可以結(jié)合相鄰空間相關(guān)的信息,同時(shí)設(shè)計(jì)一個(gè)時(shí)間注意模型,可以在視頻剪輯之間分配不同的注意值,沒有任何額外的時(shí)間正則化。
本文提出一種新的基于三維卷積與雙向LSTM的時(shí)空注意模型??臻g域信息可以通過精心設(shè)計(jì)的3D卷積模塊以弱監(jiān)督的方式獲得,其中本文沒有給出任何幀級語義標(biāo)注而是給出視頻級動作標(biāo)簽。通過雙向LSTM獲得重要的時(shí)間域信息,然后采用雙中心loss優(yōu)化網(wǎng)絡(luò)對兩階段策略聯(lián)合訓(xùn)練。在沒有任何額外的空間或時(shí)間正則化的情況下,模型完全可以實(shí)現(xiàn)端到端訓(xùn)練。
1 ?空間注意模型
本文設(shè)計(jì)3D卷積網(wǎng)絡(luò)顯示出包含的語義信息和特征映射,所提出的空間注意模型僅包含3D卷積和逐元素操作,所以訓(xùn)練此網(wǎng)絡(luò)是有效的。在弱監(jiān)督的情況下,本文獲得視頻級別標(biāo)簽??臻g注意模型可以被視為3D殘差塊,該模型的主要優(yōu)點(diǎn)是它由幾個(gè)分離的時(shí)空分支組成,因此對環(huán)境變化更具魯棒性。此外,該模型具有將輸入層連接到輸出層的標(biāo)識分支,確保了學(xué)習(xí)的特征與原始輸入相當(dāng)。
對于每個(gè)視頻序列V,本文首先將其拆分為8幀視頻剪輯,將其中間級別的特征圖表示為[V,X=X1,X2,…,Xt,Xi∈Rw×h×d,i=1,2,…,t。]其中[w],[h],[d]分別是特征映射的寬度、高度和通道號。本文使用ResNet3D[1]的架構(gòu),[w=h=28,][d=128],所以[Xi∈R28×28×128]。時(shí)間范圍內(nèi)的幀可能會有所不同,因此使用8幀短視頻剪輯探索空間信息。
本文提出的空間注意模塊如圖1所示。首先建立空間卷積(2D)分支以獲得空間注意力引導(dǎo),考慮到短視頻片段中的時(shí)間相干性,本文還構(gòu)建了額外的時(shí)間卷積(1D)分支。這兩個(gè)分支可以表示為:
[Si=Xi?Ws+BsTi=Xi?Wt+Bt] ? ? ? ? ? ? (1)
式中:[Ws∈R3×3×1],[Wt∈R1×1×3]是3D卷積的參數(shù);[Bs]和[Bt]是卷積偏差;[Si]和[Ti]是兩個(gè)分支對應(yīng)的輸出。這兩個(gè)分支首先被整合為空間?時(shí)間單元,然后通過softmax激活進(jìn)行處理,以獲得由其定義的空間注意門:
[Gi=δ(Si+Ti)] ? ? ? ? ? ? ? ? ? (2)
相應(yīng)的門輸出重新激活:
[O′i=vGi⊙Xi] ? ? ? ? ? ? ?(3)
式中,⊙表示逐元素相乘。
此外,本文還應(yīng)用了一個(gè)雙層全連接分支,表示為:
[Ai=δXi?W1+B1?W3+B3] ? ? ?(4)
式中:[Wj∈Rj×j×j和Bj(j=1,3)]是學(xué)習(xí)參數(shù);[Ai]是加法輸出,最終的輸出為:
[Oi=vO′i⊙Ai] ? ? ? ? ? ? ?(5)
在實(shí)驗(yàn)中,為了更好地保存前一層信息,輸出被重新表述為:
[Fi=Oi+Xi] ? ? ? ? ? ? ? ?(6)
這里受ResNet的啟發(fā),最終將卷積核數(shù)設(shè)為512。經(jīng)過平均池化后,空間注意網(wǎng)絡(luò)的最終輸出大小為[R1×1×512]。
2 ?時(shí)間注意模型
本文將視頻分成短視頻剪輯而不是視頻幀,并在剪輯級別分配比重。本文應(yīng)用多層LSTM進(jìn)行序列分類,即動作識別。所提出的時(shí)間注意模型與現(xiàn)有模型完全不同,因?yàn)楸疚牡臅r(shí)間注意模型是在視頻剪輯級別操作,而其他模型是基于幀級別操作。
空間注意網(wǎng)絡(luò)輸出的大小為[R1×1×512],這是時(shí)間注意模型的輸入,然后本文將空間注意特征向量重新表示為[Xi∈R512,i=1,2,…,t]。本文的目標(biāo)是測試視頻序列中每個(gè)特征向量的比重。通常,由于空間注意力與空間相鄰區(qū)域相關(guān),因此時(shí)間特征不僅與當(dāng)前視頻剪輯相關(guān),而且與鄰近的過去和未來視頻剪輯相關(guān)?;诖思僭O(shè),本文使用雙向LSTM構(gòu)建時(shí)間注意模型。雙向LSTM和基本LSTM之間的一個(gè)主要區(qū)別在于隱藏狀態(tài),在雙向LSTM(見圖2)中,在每一個(gè)時(shí)間[t]有兩個(gè)隱藏狀態(tài),稱為前向隱藏狀態(tài)[ht]和滯后的隱藏狀態(tài)[ht]。集成隱藏狀態(tài)為:
[ht=htoht] ? ? ? ? ? ? ? (7)
式中,“o”表示合并操作。然后獲得時(shí)間特征:
[βt=σwTht+b] ? ? ? ? ? (8)
通過softmax激活獲得歸一化,得:
[βt=δwTtβt] ? ? ? ? ? ? ?(9)
3 ?兩階段策略聯(lián)合訓(xùn)練
本文采用雙中心loss(計(jì)算損失函數(shù))優(yōu)化網(wǎng)絡(luò)對兩階段策略聯(lián)合訓(xùn)練。網(wǎng)絡(luò)反向傳播過程中是通過計(jì)算損失函數(shù)完成的,在大多數(shù)的模型中一般是利用softmax的損失函數(shù),傳統(tǒng)的softmax?loss為:
[Lj=-i=1mlogeWTyixi+byij=1neWTjxi+bj] ? ? ? ? ?(10)
式中:[xi]表示第[i]個(gè)特征向量;[yi]表示類別標(biāo)簽;[n]為類別數(shù);[m]表示小批量大小;[W]表示權(quán)重;[b]為偏置項(xiàng)。
Wang等設(shè)計(jì)了中心softmax?loss函數(shù)用于人臉識別任務(wù),將特征空間中的每一個(gè)類別都保持一個(gè)類中心C,如圖3a)所示[2]。具體而言,中心loss同時(shí)學(xué)習(xí)每個(gè)類別的深層特征的中心C,并懲罰深層特征與其相應(yīng)的類別中心之間的距離,從而能夠減小類內(nèi)距離并擴(kuò)大類間距離。文中l(wèi)oss函數(shù)包含softmax?loss和中心loss兩部分,其中心softmax?loss的計(jì)算公式為:
[Lc=12i=1mxi-cyi22L=Lj+λLc] ? ? ? ? ? ? (11)
式中:[xi]表示第[i]樣本特征向量;[cyi]表示該樣本所屬類別的特征值中心;[Lc]表示中心loss計(jì)算公式;[Lj]為softmax函數(shù)的loss;[λ]為兩者所占比重。
本文在中心loss的基礎(chǔ)上設(shè)計(jì)了雙中心loss,見圖3b)。雙中心loss分別維護(hù)空間特征中心[CAS]和時(shí)間特征中心[CLT],兩者按一定權(quán)重系數(shù)[WAS]和[WLT]融合形成質(zhì)心[Ci]。本文采用線性加權(quán)方式確定權(quán)重系數(shù)[WAS]和[WLT],使質(zhì)心[Ci]在[CAS]和[CLT]的連線之間,從而能夠保證質(zhì)心[Ci]同時(shí)離兩者之間距離最近。公式如下:
[L=Lj+WASLCAS+WLTLCLT] ? ? ? ? (12)
式中:[WAS]和[WLT]為雙中心loss的權(quán)值系數(shù);[LCAS]表示ASM特征中心loss;[LCLT]表示LTM特征中心loss。
為了防止目標(biāo)函數(shù)過擬合,可以在2C?softmax的loss中加入正則項(xiàng)。在網(wǎng)絡(luò)結(jié)構(gòu)中,融合特征(Fusion Features)單元對整個(gè)行為識別過程具有巨大的影響,所以將加入融合特征單元權(quán)值的二范數(shù)作為正則項(xiàng),公式如下:
[LF=12i=1mWFi22] ? ? ? ? ? ? ?(13)
式中:[m]為小批量的大小;[WFi]為第[i]個(gè)特征樣本的權(quán)值;[F]表示融合特征單元個(gè)數(shù)。那么式(12)可以改寫為:
[L=Lj+WASLCAS+WLTLCLT+αLF] ? ? ?(14)
式中,[α]為正則項(xiàng)系數(shù)。
4 ?實(shí)驗(yàn)數(shù)據(jù)集
本節(jié)對所提出的算法測試了兩個(gè)標(biāo)準(zhǔn)動作識別的數(shù)據(jù)集:UCF?101和 HMDB?51,與最先進(jìn)的其他算法相比,例如C3D和雙流網(wǎng)絡(luò)等[3]。
UCF?101是具有挑戰(zhàn)性的動作識別數(shù)據(jù)集,在視點(diǎn)、比例、背景、照明、相機(jī)運(yùn)動和持續(xù)時(shí)間方面有很大變化。由13 320個(gè)視頻組成,分為101個(gè)類別。HMDB?51是更具挑戰(zhàn)性的動作識別數(shù)據(jù)集,有6 849個(gè)視頻,分為51個(gè)類。視頻是從電影和YouTube中提取,因此HMDB?51更具挑戰(zhàn)性。
5 ?實(shí)驗(yàn)平臺搭建
對每個(gè)視頻,本文使用OpenCV[4]提取幀,而不更改其原始幀速率,將每個(gè)視頻分成8幀視頻剪輯并提取其空間信息??臻g注意網(wǎng)絡(luò)基于ResNet3D,本文將卷積塊表示為Conv,將特征塊表示為Identity,然后ResNet3D的體系結(jié)構(gòu)可以表示為Conv1(64)?Conv2a(64) ?Identity2b(64)?Conv3a(128)?Identity3b(128)?Conv4a(256)?Identity4b(256)?Conv5a(512)?Identity5b(512)?pool?fc(c),括號中的數(shù)字表示內(nèi)核的數(shù)量。本文的空間注意網(wǎng)絡(luò)可以表示為Conv1(64) ?Conv2a(64)?Identity2b(64)?Conv3a(128)?SA(128)?Conv4a(256)?Identity4b(256)?Conv5a(512)?Identity5b(512)?pool ?reshape(512),其中SA表示空間注意塊。時(shí)間注意網(wǎng)絡(luò)由具有512個(gè)隱藏節(jié)點(diǎn)的單層雙向LSTM組成。
本實(shí)驗(yàn)網(wǎng)絡(luò)是在深度學(xué)習(xí)框架caffe[5]平臺上構(gòu)建的。對于空間注意網(wǎng)絡(luò),采用具有學(xué)習(xí)率的隨機(jī)梯度下降法(SGD),[lr=0.001];對于時(shí)間注意網(wǎng)絡(luò),使用具有學(xué)習(xí)率的均方根誤差法(RMSprop),[lr=0.001]??臻g注意模型的最大迭代次數(shù)為30 000次,而時(shí)間注意模型在10次迭代后停止。
5.1 ?空間注意模型分析
本節(jié)分析所提出的空間注意模型的有效性。在UCF?101和HMDB?51數(shù)據(jù)集上對幾種先進(jìn)的算法進(jìn)行比較。結(jié)果如表1所示。第一組方法,例如 DynamicImage[6],MotionImage和TemporalNet,運(yùn)用2D卷積網(wǎng)絡(luò),這些方法對于靜態(tài)圖像是可行的,但對圖像序列的損失太大。第二組方法,比較C3D,ResNet3D和本文的空間注意網(wǎng)絡(luò),證明3D卷積網(wǎng)絡(luò)[7]對視頻數(shù)據(jù)的處理效果更優(yōu)。
5.2 ?時(shí)間注意模型分析
本節(jié)分析時(shí)間注意模型的可行性。表2表明了有無時(shí)間關(guān)注注意的結(jié)果(wiTA和woTA)。通常,時(shí)間注意模型可以通過最大池化、平均池化或串聯(lián)來合并。本文列出了這三種策略中的最佳結(jié)果。
在三個(gè)數(shù)據(jù)集上進(jìn)行測試,表明本文提出的時(shí)間注意模塊提高了測試精度,而且時(shí)間注意模型的全連接網(wǎng)絡(luò)(FC)優(yōu)于復(fù)合網(wǎng)絡(luò)(MoE)和LSTM。
為了驗(yàn)證本文算法提出的雙中心loss對網(wǎng)絡(luò)模型的作用,對比不同的loss設(shè)計(jì)方案對網(wǎng)絡(luò)的影響。實(shí)驗(yàn)結(jié)果表明,單一地采用雙中心loss對行為識別影響效果不大,但加入融合單元的正則項(xiàng)后,識別的準(zhǔn)確率得到明顯提高。不同loss方案對網(wǎng)絡(luò)的影響如表3所示。
5.3 ?與其他方法進(jìn)行比較
本節(jié)驗(yàn)證了所提出的基于三維卷積與雙向LSTM的網(wǎng)絡(luò)在幾個(gè)數(shù)據(jù)集上與其他方法相比的有效性。表4顯示了在HMDB?51和UCF?101數(shù)據(jù)集測試的結(jié)果。
對于HMDB?51和UCF?101數(shù)據(jù)集,雙流是最先進(jìn)的方法。它利用幀級和光流級信息作為輸入,所以主要是多模態(tài)模型。另外,將長視頻幀壓縮為短視頻幀或單視頻幀表示的缺點(diǎn)是缺乏區(qū)分幀與序列的時(shí)間信息。盡管光流表示視頻序列,但它需要更高的預(yù)計(jì)算,將這些單幀與隨機(jī)選擇幀相結(jié)合也可以提高它們的性能。通過測試結(jié)果比較,本文提出的模型得出了最優(yōu)的結(jié)果。
6 ?結(jié) ?論
本文提出的基于三維卷積與雙向LSTM的識別模型,用于視頻中的人體行為識別。在該模型中,空間注意網(wǎng)絡(luò)利用視頻幀的顯著區(qū)域,并且時(shí)間注意網(wǎng)絡(luò)致力于探索多個(gè)視頻剪輯的比重分配??臻g注意模型建立在三維卷積上,時(shí)間注意模型是基于雙向LSTM,然后采用雙中心loss優(yōu)化網(wǎng)絡(luò)對兩個(gè)階段策略聯(lián)合訓(xùn)練。結(jié)果表明,該網(wǎng)絡(luò)對于人類行為識別是有效且有前景的。在未來的工作中,將考慮用魯棒特征表示的稀疏張量和張量正則化方法。這些方法可以用于目標(biāo)檢測、背景減除和動作識別。此外,由于視頻幀本身包含豐富的時(shí)間信息,未來的工作是用無人監(jiān)督的方式實(shí)現(xiàn)更強(qiáng)大的視頻識別。
注:本文通訊作者為馬翠紅。
參考文獻(xiàn)
[1] JI S W, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221?231.
[2] WANG L, XIONG Y, WANG Z, et al. Towards good practices for very deep two?stream ConvNets [J]. Computer science, 2015(7): 1?5.
[3] 秦陽,莫凌飛,郭文科,等.3D CNNs與LSTMs 在行為識別中的組合及其應(yīng)用[J].測控技術(shù),2017,36(2):28?32.
QIN Yang, MO Lingfei, GUO Wenke, et al. Combination of 3D CNNs and LSTMs and its application in activity recognition [J]. Measurement and control technology, 2017, 36(2): 28?32.
[4] 黎松,平西建,丁益洪.開放源代碼的計(jì)算機(jī)視覺類庫OpenCV的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2018,22(8):134?136.
LI Song, PING Xijian, DING Yihong. Open source computer vision library OpenCV applications [J]. Computer applications and software, 2018, 22(8): 134?136.
[5] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2015: 4489?4497
[6] PENG X J, ZOU C Q, QIAO Y, et al. Action recognition with stacked fisher vectors [C]// Proceedings of the European Conference on Computer Vision. Heidelberg: Springer, 2014, 8693: 581?595.
[7] SUN L, JIA K, YEUNG D, et al. Human action recognition using factorized spatio?temporal convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2015: 4597?4605
[8] Simonyan K, Zisserman A. Two?stream convolutional networksfor action recognition in videos [C]// Proceedings of the Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2014: 568?576
[9] WANG P, CAO Y, SHEN C, et al. Temporal pyramid pooling based convolutional neural networks for action recognition [J]. IEEE transactions on multimedia, 2017, 27(12): 2613?2622.
[10] WANG H, SCHMID C. Action recognition with improved trajectories [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2013: 3551?3558.
[11] Idress H, Zamir A, Jiang Y G, et al. The THUMOS challenge on action recognition for videos "in the wild" [J]. Computer Vision and Image Understanding, 2017, 155: 1?23.
[12] Kuehne H, Jhuang H, Garrote E, et al. HMDB: a large video database for human motion recognition [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2011: 2556?2563.