裴利沈,劉少博+,趙雪專
1.河南財經(jīng)政法大學 計算機與信息工程學院,鄭州450046
2.鄭州航空工業(yè)管理學院 智能工程學院,鄭州450046
計算機視覺是由計算機科學和工程、信號處理、統(tǒng)計學和認知科學等多門學科交叉融合的一門綜合性學科。人體行為識別是計算機視覺領(lǐng)域的一個熱門話題,在機器人行為研究、智能人機交互、智能視頻監(jiān)控、仿真虛擬現(xiàn)實、智能安防、運動員輔助訓練等方面具有很大的探索和應用價值,被國內(nèi)外學者和研究人員廣泛關(guān)注。
依據(jù)特征提取方式將行為識別劃分為傳統(tǒng)方式法和深度學習法。手工提取特征的傳統(tǒng)方式法在大數(shù)據(jù)時代具有很大的局限性。卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)在圖像領(lǐng)域中的卓越表現(xiàn),使得基于視頻的行為研究看到希望。深度神經(jīng)網(wǎng)絡應用之后,彌補了一些傳統(tǒng)方式的缺陷,在公共數(shù)據(jù)集上效果優(yōu)異。
早期的靜態(tài)數(shù)據(jù)集動作單一,場景簡單,隨著行為識別的發(fā)展,數(shù)據(jù)集趨近于真實生活場景,標簽逐漸多樣化,數(shù)據(jù)量也迅速增長。數(shù)據(jù)集的發(fā)展大致經(jīng)歷了最初的簡單個體——復雜場景多個體——真實場景數(shù)據(jù)集——大型數(shù)據(jù)集——面向細粒度動作分析的層次化高質(zhì)量數(shù)據(jù)集的過程,數(shù)據(jù)集的發(fā)展歷程見證和加速著行為識別方式的發(fā)展。
在之前研究的基礎(chǔ)上,本文對已有的主流人體行為識別方法進行歸納與對比,主要從傳統(tǒng)方法、深度學習方法、數(shù)據(jù)集等方面進行介紹。首先,介紹了行為識別的研究背景,對行為識別簡單概述。然后,按照發(fā)展歷程重點介紹了傳統(tǒng)方法和深度學習方法下的經(jīng)典算法,闡述了識別算法的主要研究思路和改進之處,簡單介紹了對受限玻爾茲曼機(restricted Boltzmann machines,RBM)和非局部神經(jīng)網(wǎng)絡(nonlocal neural networks)。其次,總結(jié)了常用數(shù)據(jù)集,對比與分析了主流的人體行為識別方法在不同數(shù)據(jù)集上的識別精度。最后,對全文進行總結(jié),并對未來進行了預測與展望,期望方便初學者快速入門,激勵研究者發(fā)現(xiàn)新問題與新思路。本文的突出特點是對比介紹,突出不同方式的優(yōu)缺點,同時結(jié)合改進的研究方法,對行為識別算法進行新舊與經(jīng)典的綜合論述。
人體行為識別的成功與否直接取決于特征提取的正確與否,特征處理以及分析理解都建立在特征提取的基礎(chǔ)上。圖1 對比了傳統(tǒng)方法與深度學習方法下行為識別的流程。傳統(tǒng)方式手工提取特征需要一定的相關(guān)知識,設(shè)計特征時耗費大量的人力物力;深度學習方法下,使用不同的深度特征提取網(wǎng)絡,能夠依據(jù)關(guān)注點不同適應特征變化。
圖1 傳統(tǒng)方法與深度學習方法流程對比Fig.1 Process comparison between traditional methods and deep learning methods
主流的傳統(tǒng)方法有輪廓剪影(human silhouette)、時空興趣點(space-time interest points)、人體關(guān)節(jié)點(human joint point)和運動軌跡(trajectories)。依照網(wǎng)絡結(jié)構(gòu)將基于深度學習行為識別劃分為三大類:雙流網(wǎng)絡(two-stream network)、3D 卷積神經(jīng)網(wǎng)絡(3D convolution network)和混合網(wǎng)絡(hybrid network)。同時,一些其他的研究思路,如基于骨架識別、受限玻爾茲曼機、非局部神經(jīng)網(wǎng)絡等也有良好的效果。
傳統(tǒng)方法中的特征表示,可以使用整體表示方法與局部表示方法,兩種方式各具特色,優(yōu)缺點互補。整體表示方式主要包括輪廓剪影方式、背景剪除法等;局部表示主要包括時空興趣點檢測等。在考慮時空特征的深度學習行為識別算法中,雙流網(wǎng)絡代表性算法有Temporal Segments Networks、Temporal Relation Network、SlowFast Network等;3D 卷積神經(jīng)網(wǎng)絡代表性算法有C3D(convolutional 3D network)、P3D(pseudo-3D residual networks)等;混合網(wǎng)絡代表性算法有CNN-LSTM(convolutional neural network-long short-term memory)、LRCN(long-term recurrent convolutional networks)、VideoLSTM等。行為識別的簡單劃分如圖2 所示。
圖2 行為識別分類Fig.2 Action recognition classification
傳統(tǒng)行為識別方法的特點是利用手工設(shè)計特征對行為進行表征,利用統(tǒng)計學習的分類方法對行為進行分類識別。特征提取根據(jù)人類行為構(gòu)成和表示方式的不同,可以細分為整體表示和局部表示方法。輪廓剪影方式通過構(gòu)建各種描述符表達行為信息;時空興趣點方式嘗試突破二維,從三維角度強調(diào)時空域信息;人體關(guān)節(jié)點方式利用姿勢估計推測關(guān)節(jié)點位置與運動信息;運動軌跡方式追蹤動作軌跡。
整體特征表示方法把視頻幀認為一個整體,輪廓剪影、人體關(guān)節(jié)點等方式使用整體表示方法提取全局特征。提取特征時,需要對前景、噪聲等進行處理。從背景中提取運動前景,一般使用背景剪除法、幀間差分、分流、人體輪廓剪影等方法,然后將獲得的整個人體行為區(qū)域作為行為表征。對于噪聲影響問題,可采用形態(tài)學等處理方法。
整體特征表達方法中,基于視頻幀的信息描述方式有運動能量圖(motion energy image,MEI)、運動歷史圖(motion history image,MHI)、運動網(wǎng)格特征矢量、運動歷史體積模板(motion history volume,MHV)、形狀上下文(shape context,SC)等方法。
傳統(tǒng)方式中對于運動方式的描述至關(guān)重要。Bobick 等使用背景剪除法獲取人體輪廓,并重疊輪廓特征獲取圖像幀的差別,從而設(shè)計出MEI 和MHI。MEI粗略描述運動的空間分布,MHI表示人體的運動方式,兩者表示運動存在并且解釋視頻幀中人體的運動情況,可以簡單闡述視頻中的有效信息。此種方式的核心和基本思想是編碼圖像的相關(guān)運動信息。
時空體積(space-time volume,STV)表示是疊加給定序列的幀,但仍需背景剪除、對齊等。Yilmaz等使用STV 獲取動作描述和動作草圖,并且執(zhí)行圖形識別,結(jié)果表明已知運動情況闡述了潛在的運動情況。MHV、STV 等描述方式容易關(guān)注于重要區(qū)域,在一些簡單背景中效果良好。
Matikainen 等經(jīng)過研究,發(fā)現(xiàn)當背景逐漸復雜,出現(xiàn)遮擋、噪聲等時候,輪廓特征提取變得愈發(fā)困難,其闡述了整體方法的局限性,難以解決遮蓋變化、計算效率低、不能捕捉細節(jié)等問題,證明了整體方法并不是最優(yōu)選擇。
基于人體關(guān)節(jié)點的傳統(tǒng)行為識別核心思想是對人體運動姿勢進行捕捉,描繪出各姿勢關(guān)節(jié)點的位置情況,以及同一關(guān)節(jié)點不同時間維度下的位置變化情況,從而推斷出人體行為。
Fujiyoshi 等創(chuàng)造出經(jīng)典的五關(guān)節(jié)星形圖(四肢、頭顱),從視頻流中實時提取人體目標,將人體五關(guān)節(jié)與人體重心構(gòu)成矢量,從骨架化線索中獲取人類活動。使用自適應模型來應對背景改變,需要先對視頻進行背景分離和預處理,最后進行運動分析。對于人體關(guān)節(jié)點特征進行提取時,需要實時目標提取,人力物力耗費較大,為了解決這一問題,可以使用深度相機、深度傳感器等技術(shù)。
Yang 等利用RGBD 相機的3D 深度數(shù)據(jù)復刻3D 人體關(guān)節(jié)點進行動作識別,效果優(yōu)于其他關(guān)節(jié)點特征提取識別算法。卷積神經(jīng)應用后,人體關(guān)節(jié)點方式與深度學習方法進行有效結(jié)合,獲得了高效高精度的識別效果。Zhang 等用OpenPose 提取關(guān)節(jié)向量的各種特征,使用最近鄰(-nearest neighbor,NN)動作分類,驗證深度特征算法的精進性。
基于人體關(guān)節(jié)點的方法通過關(guān)節(jié)點構(gòu)建動作輪廓,在簡單背景下對于大幅度動作識別效果較好,但是受限于人體關(guān)節(jié)遮擋、細粒度關(guān)節(jié)變化等問題,傳統(tǒng)的人體關(guān)節(jié)點行為識別方式在真實場景下難以應用。
局部特征表示方法將視頻段落認為一個整體,在處理視角和遮擋變化等方面有更好的效果。時空興趣點和運動軌跡使用局部表示方法獲取特征。有多種局部特征描述符,如梯度直方圖(histogram of oriented gradient,HOG)、運動邊界直方圖(motion of boundary history,MBH)、光流梯度直方圖(histograms of oriented optical flow,HOF)等。
在時空域中提取時域和空域變化都明顯的鄰域點是時空興趣點檢測的核心,時空興趣點檢測是局部表示方法的一種典型例子,將行為信息使用興趣點描述。時空興趣點提取法本質(zhì)是映射三維函數(shù)至一維空間,得到其局部極大值的點。此種方式相比于基于輪廓剪影方式,更適用于一些復雜背景。
Laptev不僅提出時空興趣點,還將Harris 角點興趣點探測器擴展至三維時空興趣點探測器。Harris3D 檢測的鄰域塊大小能夠自適應時間和空間維度,使鄰域像素值在時空域中有顯著變化。
興趣點提取的多少和稀疏情況,是使用基于時空興趣點方法中的關(guān)鍵因素。Dollar等指出Laptev的方法存在短板,獲取的穩(wěn)定興趣點過少,因此其團隊在時空域上使用Gabor 濾波器和高斯濾波器,使得興趣點數(shù)量過少情況得到適量改善。Wang 等提出使用稠密網(wǎng)格方式提取行為特征,并對于興趣點的稀疏和密集問題做出詳細論證。通常情況下,密集興趣點效果更好,但是時空復雜度較高。Willems等使用Hessian 矩陣改善時空興趣點方法,優(yōu)先找出興趣點所在位置,使得檢索興趣點時間復雜度大幅降低,缺點是興趣點不夠密集。
時空興趣點不再過度依賴于背景,不需要對視頻進行分割處理,因此在一些復雜的背景下識別效果比整體表示方式好,但是對于人體遮擋、興趣點采樣數(shù)量等要求較高。
運動軌跡利用光流場獲取視頻片段中的軌跡?;谶\動軌跡的手工特征提取方法是通過追蹤目標的密集采樣的點獲得運動軌跡,根據(jù)軌跡提取行為識別特征,分類器訓練后,得到識別結(jié)果。
HOG 描述符可以展示靜態(tài)的表面信息,MBH 描述符表示光流的梯度,HOF 描述符展示局部運動信息。相對于單一特征,Chen 等連接HOG、光流、重心、3D SIFT(3D scale invariant feature transform)等特征,能適應于更為復雜的場景,有更好的魯棒性和適應性。Wang 等根據(jù)之前的對比研究發(fā)現(xiàn),密集采樣興趣點比稀疏采樣效果好,因此使用“密集軌跡”(dense trajectories)的方式。
基于運動軌跡的行為識別軌跡描述符可以保留運動的全面信息,關(guān)注點在于時空域變化下的目標運動,該方法的缺點也很明顯,即相機運動的影響較大,HOF 記錄絕對運動信息,包含相機運動軌跡,MBH 記錄相對運動信息。Wang 等提出更為完善的密集軌跡方法(improved dense trajectories,IDT),通過軌跡的位移矢量來進行閾值處理,如果位移太小,則移除,只保留下來流場變化的信息,這樣能夠消解拍攝時運動的影響,使得HOF 和MBH 組合得到的結(jié)果進一步改善。優(yōu)化后的密集軌跡算法可以適當?shù)窒鄼C光流帶來的影響,對軌跡增加平滑約束,獲得了魯棒性更強的軌跡。盡管IDT 已經(jīng)有較好的識別效果,外界環(huán)境仍然會對其造成一定程度的影響,可以使用Fisher進行向量編碼,訓練比較耗時。
IDT 算法是傳統(tǒng)手工特征提取所有方法中實際效果最理想、應用場景最多的算法。IDT 以其較好的可靠性和穩(wěn)定性在深度學習應用之前廣泛應用。卷積神經(jīng)應用后,很多利用深度學習并結(jié)合IDT 算法進行行為識別的實驗,呈現(xiàn)優(yōu)異的效果。Li等用深度運動圖進行卷積網(wǎng)絡訓練,利用密集軌跡描述運動信息,高效提取深度信息和紋理信息,能有效判別相似動作,減弱光照等影響,但是復雜度較高,識別速度較慢。表1 總結(jié)了基于傳統(tǒng)方式的行為識別方法的對比。
表1 基于傳統(tǒng)方法行為識別對比Table 1 Comparison of action recognition based on traditional methods
在傳統(tǒng)人體行為識別算法中,行為特征提取依靠人工觀察、手工表征。輪廓剪影方法能在簡單背景中表現(xiàn)出良好的性能,但是靈活度低,對于遮擋、噪聲等非常敏感;時空興趣點方法不再對RGB 視頻序列進行前景和后景裁剪,有豐富的興趣點時識別效果更好,但是計算復雜度就相對提高,時間增長,對光線等敏感;人體關(guān)節(jié)點方法行為識別時不再要求高像素,但對于拍攝角度等敏感,不過由關(guān)節(jié)點發(fā)展而成的骨架,結(jié)合深度學習,在人體行為識別領(lǐng)域具有良好的發(fā)展勢頭,目前多數(shù)的電影電視特效團隊拍攝時通過關(guān)節(jié)和骨架進行取樣;運動軌跡方法是傳統(tǒng)方式中信息保留較好、表征能力較強、識別效果最好的方法,但受到光流的影響。
總之,傳統(tǒng)方法下,人體行為識別技術(shù)仍然受到物體之間的遮擋、噪聲、環(huán)境的光照、相機移動、算法魯棒性的影響。對于這些問題,有兩個主要的解決途徑:使用深度圖像和尋找更好的描述符。
深度相機提供了改善部分問題的解決方式,但是深度圖像不容易獲得。微軟新推出的3D 體感傳感器Kinect,可以方便地獲取深度和骨骼位置信息。研究人員設(shè)計的輪廓梯度方向直方圖(contour-histogram of oriented gradient,CT-HOG)、邊緣方向直方圖特征(edge orientation histogram,EOH)、局部二值模式特征(local binary pattern,LBP)、梯度局部自相關(guān)特征(gradient local auto-correlation,GLAC)等嘗試規(guī)避光照改變和物體之間遮擋等問題帶來的不良影響。這些問題正在被逐步改善。
深度學習基于對數(shù)據(jù)進行表征學習,使用特征學習和分層特征提取的高效算法自動提取特征來代替人工獲得特征。深度學習以其強大的學習能力、高適應性、可移植性等優(yōu)點成為熱門。雙流網(wǎng)絡關(guān)注時空域特征,識別準確度很高;3D 卷積網(wǎng)絡強調(diào)連續(xù)幀之間的信息處理;結(jié)合多種網(wǎng)絡架構(gòu)的混合網(wǎng)絡則側(cè)重于優(yōu)點結(jié)合。同時,還有一些學者從不同角度利用深度學習探索行為識別,如基于骨架的關(guān)節(jié)點識別方式、受限玻爾茲曼機、非局部神經(jīng)網(wǎng)絡等,也有不錯的效果?;陔p流網(wǎng)絡的改進、對3D 卷積結(jié)構(gòu)的修改和擴展、結(jié)合CNN 和LSTM 的混合網(wǎng)絡,都是目前的研究熱點。
雙流網(wǎng)絡結(jié)構(gòu)(two-stream)將卷積信息分為時域和空域兩部分,兩條網(wǎng)絡流結(jié)構(gòu)相同(CNN 和Softmax 組成)但互不干擾。從單幀RGB 圖像中獲取環(huán)境、物體等空間表面信息;從連續(xù)光流場中獲取目標的運動信息,最終將雙流的訓練結(jié)果融合,得到識別結(jié)果。Two-stream 網(wǎng)絡基本流程如圖3 所示。
圖3 雙流結(jié)構(gòu)框架Fig.3 Structure framework of two-stream
2014 年Simonyan 等在神經(jīng)信息處理系統(tǒng)大會NIPS 上提出Two-stream 方法,分別考慮時空維度,設(shè)計思路巧妙。從流程的整個過程考慮,視頻幀的分割、單幀RGB 處理、連續(xù)幀的選擇與相關(guān)性描述、網(wǎng)絡選擇、雙流融合方式、訓練方式與規(guī)模等都可以選擇不同的方案以達到更好的識別效果,也是后續(xù)雙流網(wǎng)絡完善的主要思路。
CNN 結(jié)構(gòu)深度太淺,用于視頻識別時模型的擬合能力受到影響,同時受限于訓練的數(shù)據(jù)集規(guī)模較小,容易過擬合,導致訓練效果并不是很好。卷積核尺寸、卷積步長、網(wǎng)絡結(jié)構(gòu)深度的改變產(chǎn)生了性能更好的VGGNet、GoogleNet 等網(wǎng)絡結(jié)構(gòu),新的網(wǎng)絡結(jié)構(gòu)逐步替代CNN 網(wǎng)絡。使用預訓練、多GPU 并行訓練等方式改善訓練結(jié)果,減少內(nèi)存消耗,識別效果有了很大的提升,但是會增大硬件要求,對于普適應用并不友好。
ConvNet 框架缺乏處理長時間結(jié)構(gòu)的能力,一些解決辦法計算開銷較大,對于超長時間序列的視頻,可能存在著重要信息丟失的風險。Wang和Xiong等基于分段和稀疏化思想提出時域分割網(wǎng)絡(temporal segments networks,TSN),使用系數(shù)時間采樣和視頻級別監(jiān)督,對長視頻進行分段,隨機選取短片段使用雙流方法。針對數(shù)據(jù)樣本量不足問題,應用交叉預訓練、正則化和數(shù)據(jù)增強技術(shù),降低了復雜性,同時消除相機運動帶來的偏差影響,但比較耗時。
雙流網(wǎng)絡中的局部特征相似,容易導致識別失敗,Zhou 等通過角落裁剪和多尺度結(jié)合對數(shù)據(jù)進行增強,利用殘差塊提取局部特征和全局特征,使用非局部CNN 提取視頻級信息,表征能力更強。Wang等在卷積神經(jīng)中加入高階注意力模塊,調(diào)整各部分權(quán)重,強化對局部細微變化的關(guān)注。
Feichtenhofer 等沿襲雙流網(wǎng)絡結(jié)構(gòu)時,發(fā)現(xiàn)空間網(wǎng)絡已然能完成大部分行為識別,時間網(wǎng)絡并沒有發(fā)揮很大的作用,于是研究將兩個網(wǎng)絡在特定卷積層進行融合,提出的時空融合架構(gòu)框架如圖4 所示。結(jié)果顯示,在最后一個卷積層,將兩個網(wǎng)絡融合在空間流中,使用3D Conv 融合方式和3D Pooling 將其轉(zhuǎn)化為時空流,保持雙流持續(xù)運作,相對于截斷時間流,減少了很多參數(shù),進一步提高了識別率。對比傳統(tǒng)的雙流架構(gòu),仍增加了參數(shù)數(shù)量,加大了運算復雜度。
圖4 時空融合架構(gòu)框架Fig.4 Structure framework of spatiotemporal fusion
基礎(chǔ)雙流模型在時空交互性上的處理影響識別準確度。ResNets 具有更強的表征能力,殘差結(jié)果對數(shù)據(jù)變動更為敏感,因此Feichtenhofer 等對雙流網(wǎng)絡和殘差網(wǎng)絡進行創(chuàng)造性的結(jié)合,提出時空殘差網(wǎng)絡模型(spatiotemporal residual networks,STResNet)。STResNet 通過殘差連接進行數(shù)據(jù)交互,允許通過雙流通道進行時空特性的分層學習。Pan 等提出了一種基于時空交互注意力模型的行為識別方法,在空域上設(shè)計空間注意力模型,計算幀的顯著性位置,在時域上設(shè)計時間注意力模型,定位顯著幀,更加關(guān)注于有效幀和幀的有效區(qū)。時空交互和注意力機制使得各種算法模型識別效果更好,但模型變得復雜難以避免,探索交互方式和高效使用是一個重要的研究方向。
由雙流網(wǎng)絡衍生出多種多流網(wǎng)絡。Wang 等提出一種全局時空三流CNN 架構(gòu),傳統(tǒng)的CNN 在時空域上基于局部信息進行動作識別,三流架構(gòu)從單幀、光流和全局疊加運動特征中開展空間、局部時域和全局時域流分析。Bilen 等引入四流網(wǎng)絡架構(gòu),訓練RGB 和光流幀以及對應的動態(tài)圖像,獲得時序演變。多流網(wǎng)絡相對于雙流網(wǎng)絡,加寬了網(wǎng)絡模型,提高了卷積神經(jīng)網(wǎng)絡在特征提取上的充分性和有效性,但也增大了網(wǎng)絡架構(gòu)的復雜性。
以雙流網(wǎng)絡為基礎(chǔ)的網(wǎng)絡架構(gòu)是學者研究的熱點。改進網(wǎng)絡的學習特征表示、多信息流的正確組合、針對過擬合問題的數(shù)據(jù)增強方案等都是研究人員對于雙流網(wǎng)絡改進的探索。雙流網(wǎng)絡以其強調(diào)時空特性而具有較好的準確度,但對于網(wǎng)絡流的訓練硬件要求高、速度慢、視頻預處理等問題嚴重影響雙流網(wǎng)絡的實時應用。
單幀RGB 的二維網(wǎng)絡訓練,容易導致連續(xù)視頻幀間的運動關(guān)系被忽略,造成一些重要的視頻信息丟失。Baccouche 等對卷積網(wǎng)絡進行3D 擴展,增加時間維度,使其自動學習時間和空間特征,提升行為識別的準確度和魯棒性。2D 卷積和3D 卷積區(qū)別如圖5 所示。
圖5 2D-CNN 與3D-CNN 對比Fig.5 Comparison of 2D-CNN and 3D-CNN
Ji等于2013 年提出基于3D 卷積神經(jīng)網(wǎng)絡的行為識別方式,在由疊加多個連續(xù)視頻幀構(gòu)成的立方體中運用3D 卷積核捕捉連續(xù)幀中的運動信息。3D卷積網(wǎng)絡存在參數(shù)過多、數(shù)據(jù)量嚴重不足等問題。Sun 等將3D 卷積網(wǎng)絡分解為2D 空間卷積和1D 時間卷積學習,提出空間時間分解卷積網(wǎng)絡(factorized spatio-temporal convolutional networks,F(xiàn)CN),大大減少了參數(shù)量,但分解之后,也犧牲了一些表達能力。使用偽3D 卷積代替3D 卷積也具有不錯的識別效果。
Tran 等認為基于RGB 的深層特征并不直接適合于視頻序列,其團隊嘗試使用三維卷積實現(xiàn)大規(guī)模學習,通過改變3D 卷積網(wǎng)絡中不同層的卷積核的時間深度來尋找最優(yōu)的3D 卷積核尺寸,提出尺寸卷積核為3×3×3 的C3D 網(wǎng)絡。C3D 卷積網(wǎng)絡是3D 卷積網(wǎng)絡的奠基石?;赗esNet 和C3D 提出Res3D 卷積網(wǎng)絡,減少參數(shù)量,同時每秒峰值速度更小,整體上,網(wǎng)絡性能相對于C3D 有明顯的提升。
3×3×3 尺寸的卷積核計算量大,內(nèi)存要求高,Li等設(shè)計出高效3D 卷積塊替換3×3×3 卷積層,進而提出融合3D 卷積塊的密集殘差網(wǎng)絡,降低模型復雜度,減小資源需求,縮短訓練時間,且卷積塊易于優(yōu)化和復用。
網(wǎng)絡訓練數(shù)據(jù)量不足的問題,一直阻礙著行為識別性能的進一步提升。Carreira 等發(fā)布了一個超大的Kinetics 數(shù)據(jù)集,用于解決數(shù)據(jù)局限性問題。同時提出一種由2D-CNN Inception-V1擴張的I3D(twostream inflated 3D ConvNet)模型,將RGB 視頻與堆疊的光流輸入3D 卷積網(wǎng)絡,并將雙流結(jié)果融合,使得網(wǎng)絡性能進一步提升。
3D 卷積參數(shù)量大、數(shù)據(jù)需求量大以及對光流的利用要求高等問題,限制了3D 卷積對于長時間信息的充分挖掘與使用。Diba 等嘗試在不同長度視頻范圍內(nèi)對3D 卷積核進行建模,提出了T3D(temporal 3D ConvNets)。T3D采用TTL(temporal transition layer)替換池化層,能夠模擬可變的卷積核深度,避免造成不必要的損失;采用3D DenseNet 擴展了三維卷積架構(gòu)DenseNet,避免從頭開始訓練3D 卷積網(wǎng)絡。為了探究持續(xù)長時間輸入視頻對行為建模影響問題,Varol 等提出LTC(long-term temporal convolutions)網(wǎng)絡結(jié)構(gòu),以不同時長視頻作為實驗輸入,結(jié)果顯示隨著視頻長度的增加,識別的準確度也相應增加。T3D 方式雖然能一定程度上在較好的參數(shù)空間內(nèi)初始化網(wǎng)絡,但是參數(shù)量的增加使得處理過程復雜耗時,在兩者的取舍上需要進一步考慮。
針對3D 卷積網(wǎng)絡訓練時間長、調(diào)參難等優(yōu)化問題,Zhang 等將3D 卷積核拆為時域和空域卷積神經(jīng)結(jié)構(gòu),形成可交互的雙流,使用殘差網(wǎng)絡,減少參數(shù)量,降低了硬件要求,提高了訓練速度,可廣泛運用于機器人領(lǐng)域。
綜合論述,3D 卷積神經(jīng)網(wǎng)絡充分關(guān)注人體的運動信息,但是3D 卷積中卷積核復雜、參數(shù)量大等不利因素嚴重限制其發(fā)展。C3D 存在網(wǎng)絡結(jié)構(gòu)較淺、訓練時間長、提取特征能力有限等問題,盡管在不同方面已經(jīng)有較好的解決方法,但是沒有統(tǒng)一的方法能夠完美地處理所有問題。使用VGGNet-16、ImageNet預訓練、高效和輕量化三維卷積神經(jīng)、不同解決方案之間的搭配組合是其重要研究方向。
不同的網(wǎng)絡架構(gòu)組件具有不同的側(cè)重點和優(yōu)點,多種結(jié)構(gòu)的結(jié)合使用可以有效提取時空信息,CNN-LSTM 結(jié)構(gòu)是混合網(wǎng)絡的代表。結(jié)合方式的多樣性,使得混合結(jié)構(gòu)具有很大的潛力和很高的熱度。
遞歸演進的循環(huán)網(wǎng)絡(recurrent neural network,RNN),允許信息持久化,但其激活函數(shù)會導致“梯度消失”問題以及ReLU 函數(shù)導致的“梯度爆炸”問題,使得RNN 解決長序列問題時能力不足。Hochreiter等設(shè)計出一種帶“門”結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡單元LSTM,避免長期依賴。LSTM 的變體在行為識別中應用非常廣泛,但是導致參數(shù)增加,訓練難度陡增。RNN 和LSTM 結(jié)構(gòu)區(qū)別如圖6 所示。
圖6 RNN 與LSTM 結(jié)構(gòu)區(qū)別Fig.6 Structural differences between RNN and LSTM
Andrej 等在設(shè)計網(wǎng)絡架構(gòu)時考慮時間連續(xù)性,嘗試輸入幾個連續(xù)的幀,對神經(jīng)網(wǎng)絡的融合方式進行研究,對比晚融合、早融合以及慢融合進行實驗,證明了慢融合具有最好地效果。LSTM 提取短時信息效率有限,Qi 等使用多維卷積核提取短時間特征,運用LSTM 訓練長時間特征,融合多通道信息,獲得上下文的長期時空信息。融合上下文特征信息的LSTM 具有更好的表征能力。
CNN-LSTM 結(jié)構(gòu)主要思路為:從RGB 中獲取骨架序列,每一幀都對應人體關(guān)節(jié)點的坐標位置,若干幀組成一個時間序列,使用CNN 提取空間特征,LSTM 處理序列化數(shù)據(jù)來挖掘時序信息,最后使用Softmax 分類器分類。CNN-LSTM 結(jié)構(gòu)可以對時序信息進行更完整的學習。Donahue等研究LRCN 循環(huán)卷積結(jié)構(gòu),將CNN 用于圖像描述板塊中獲取空間特征,LSTM 則獲取時間特征,其在空間運動特征提取、長期依賴等方面有不錯的效果,其框架圖如圖7所示。
圖7 LRCN 框架圖Fig.7 LRCN structure diagram
使用CNN 訓練單幀RGB,并在視頻級上進行平均預測會導致信息收集不完整,從而極易造成行為類別混淆,在細粒度或視頻部分與感興趣部分行為無關(guān)的數(shù)據(jù)集上,此種現(xiàn)象更為明顯。Ng 等為緩解這個問題,提出了一種描述全局視頻級的CNN 描述符,利用特征池和LSTM 網(wǎng)絡學習全局描述。在時間上共享參數(shù),在光流圖上訓練時間模型,達到了比較好的效果。
注意力機制的引入和后續(xù)LSTM 的優(yōu)化,使得雙流CNN 和LSTM 的結(jié)合能更好地融合視頻的時空信息。Ma 等使用時空雙流卷積網(wǎng)絡和注意力機制提取特征向量,將其輸入DU-DLSTM 模塊后進行深度解析;Jie 等將基于注意力機制的長短時記憶循環(huán)卷積網(wǎng)絡(Attention-ConvLSTM)和雙流網(wǎng)絡進行結(jié)合,更準確地學習非線性特征,分析視頻數(shù)據(jù),縮短了訓練時長,提高了識別準確度。
研究者將圖卷積網(wǎng)絡(graph convolutional network,GCN)與LSTM 結(jié)合,如Kipf 等提出一個圖卷積網(wǎng)絡,使用圖作為輸入,經(jīng)過多層特征映射,完成半監(jiān)督學習。但此種方式存在一些計算量大、不支持有向圖等棘手問題。
Li等使用卷積注意力網(wǎng)絡代替注意力網(wǎng)絡,將二維數(shù)組輸入LSTM 網(wǎng)絡,提出VideoLSTM。通過引入基于運動的注意映射和動作類標簽,將VideoLSTM的注意力定位動作的時空位置。該方法更加適應視頻媒體要求,提高了空間布局的相關(guān)性。
全卷積網(wǎng)絡與多層循環(huán)網(wǎng)絡結(jié)合、3D 卷積與GRU 結(jié)合、雙流網(wǎng)絡與膨脹3D 網(wǎng)絡結(jié)合等都是混合網(wǎng)絡的研究方向。其不再局限于單一的網(wǎng)絡架構(gòu),從而降低人工特征依賴,避免復雜的預處理,提高時間信息利用率,加快識別速度。表2 整理了基于深度學習的行為識別的各種網(wǎng)絡架構(gòu)的優(yōu)缺點。
表2 基于深度學習的行為識別算法比較Table 2 Comparison of deep learning based behavior recognition algorithms
經(jīng)典的網(wǎng)絡模型框架如圖8 所示。雙流網(wǎng)絡中空間分支處理單幀RGB,時間分支處理堆疊的光流,注重時空信息,識別準確度高,但不同網(wǎng)絡分離訓練,速度慢;3D 卷積網(wǎng)絡依靠卷積核計算運動特征,速度快,但識別效果與參數(shù)相關(guān),參數(shù)多時,計算量大,硬件要求高,與2D 卷積相比,3D 卷積通過減少輸入幀的空間分辨率,尋求減少內(nèi)存消耗,從而易丟失信號,識別效果受到影響;CNN-LSTM 結(jié)構(gòu)中CNN的平均池化結(jié)果作為LSTM 網(wǎng)絡的輸入,LSTM 獲取時間特征,識別時間快,精度高。
圖8 經(jīng)典網(wǎng)絡模型框架圖對比Fig.8 Comparison of classical network model framework diagrams
人體行為識別有多種方式,除了關(guān)注時空特征的網(wǎng)絡架構(gòu)外,一些其他的方式也有很好的識別效果?;诠羌艿男袨樽R別,特征明顯,不易受到外觀等因素的影響;受限波爾茲曼機利用其無監(jiān)督學習能力,可以很好地把握運動特性;非局部神經(jīng)網(wǎng)絡架構(gòu)能夠獲取更加詳細的特征信息。
Wang 等在三維空間疊加關(guān)節(jié)點軌跡,并投影到正交平面上,生成正交編碼圖,使用卷積神經(jīng)網(wǎng)絡訓練,獲得識別結(jié)果,此方法創(chuàng)新于投影關(guān)節(jié)點軌跡,更為簡單?;谌梭w骨架的研究并結(jié)合卷積神經(jīng)網(wǎng)絡也是深度學習中行為識別的熱點。Shao 等使用層次模型表達人體局部信息,構(gòu)建層次旋轉(zhuǎn)和相對速度描述符,在公共數(shù)據(jù)集上具有普適性。基于骨架的行為識別容易忽略骨架數(shù)據(jù)的噪聲和時序特征,比較難以識別細微的動作以及有意義的差異,使得提取的特征魯棒性不強。為了更好地解決這些問題,基于骨架研究的學者嘗試結(jié)合深度圖序列、彩色圖序列等提升識別準確率。一般使用CNN-LSTM進行關(guān)節(jié)點估計或者采用深度攝像機提取人體骨架序列,效果較好。
受限玻爾茲曼機(RBM)是一類具有雙層結(jié)構(gòu)、可通過數(shù)據(jù)集輸入進行概率分布學習的生成網(wǎng)絡模型,具有強大的無督促學習能力。在一定條件下,其通過學習數(shù)據(jù)集中復雜的規(guī)則,可以處理高維序列數(shù)據(jù)。
RBM 由于其獨立的連接方式,在網(wǎng)絡學習中計算量更小,速度更快。Taylor 等為了更好地理解視頻中的數(shù)據(jù)信息,使用卷積門控RBM,順利地學習了表達光流和圖像模擬,以無督促的方式提取了運動敏感特征。Tran 等定義兩個視頻幀之間的減法函數(shù),創(chuàng)建時空顯著圖,從而使用高斯RBM 從顯著圖上學習運動差分特征。此種方式消除了無關(guān)性的形狀和背景圖,進而突顯運動特征。
Wang 等在CVPR2018 年提出一個自注意力模型,其并不局限于一個局部特征,而是相當于構(gòu)造了一個可以維持更多信息的卷積核,從而獲取較為全局的信息。研究者提出的non-local 塊能夠與現(xiàn)有的各種架構(gòu)進行組合,通過non-local 操作獲取遠程依賴關(guān)系,提高了各種架構(gòu)基準。將non-local 塊置入C2D 或I3D 網(wǎng)絡中,取得了更好的識別結(jié)果。
對于長距離空間相關(guān)性建模問題,大多數(shù)解決方案都存在計算效率較低或者感受野不足的問題,Chi 等提出基于頻譜剩余學習(spectral residual learning,SRL)的快速non-local 網(wǎng)絡結(jié)構(gòu),利用SRL 實現(xiàn)全局感受野,是視頻分類和人體姿勢估計中的重要研究方向。
表3 簡單分析了兩種識別方法:傳統(tǒng)方式提取特征時設(shè)計復雜,實現(xiàn)簡單,可應用于小樣本識別項目,目前已難以適配復雜情景,不能滿足高精度識別和普適性的要求?;谏疃葘W習的行為識別效率高,魯棒性強,更適用于大規(guī)模人體行為、群體行為、長時間序列人體動作等情景,也滿足大數(shù)據(jù)時代海量數(shù)據(jù)識別的要求。
表3 行為識別方式對比Table 3 Comparison of action recognition methods
然而,深度學習方法并不是萬能的,甚至帶來了新的難題,例如動作標簽非單一化、維數(shù)災難、算法復雜度變大、參數(shù)增多、計算量擴大、識別準確度不穩(wěn)定等。一些主要的探索為:(1)對于海量樣本標簽的準確、高效注入問題,弱監(jiān)督或無監(jiān)督網(wǎng)絡模型逐步廣泛應用,節(jié)省大量人力與時間。(2)數(shù)據(jù)樣本的“維數(shù)災難”影響識別精度,Ye 等提出SPLDA 算法可以進行特征約減,去除冗余數(shù)據(jù)信息,實現(xiàn)降維。(3)為了識別方法的高準確率、高實時性與強魯棒性,現(xiàn)有算法嘗試多視角特征融合。(4)避免耗時、高硬件需求,研究人員開發(fā)基于深度運動圖、局部建模等的高效、輕量化卷積神經(jīng)網(wǎng)絡。
為了評測行為識別中不同算法的性能,現(xiàn)已存在的公共數(shù)據(jù)集為研究人員提供了良好的測試基礎(chǔ)。
數(shù)據(jù)集的完善逐漸趨近于真實生活的復雜性,可以簡單分為早期數(shù)據(jù)集、真實場景數(shù)據(jù)集、大型數(shù)據(jù)集。采用雙流網(wǎng)絡、3D 卷積等架構(gòu)的識別算法仍會在經(jīng)典的HMDB51 和UCF101 數(shù)據(jù)集上測試。
KTH 數(shù)據(jù)集數(shù)據(jù)量很少,是最早的一批行為數(shù)據(jù)集之一,拍攝相機固定,包含一些簡單的單人行為。Weizmann 數(shù)據(jù)集包含10 個動作,每種動作9 個樣本,是一些場景清晰的單人動作,為適應當時的行為識別方式,標注還包括前景的行為剪影和背景序列。KTH 數(shù)據(jù)集和Weizmann 數(shù)據(jù)集都是靜態(tài)數(shù)據(jù)集。IXMAS 數(shù)據(jù)集從5 個視角拍攝,包含不同角度的13 種行為180 個視頻序列。這些數(shù)據(jù)集場景單一,動作簡單,人物唯一,數(shù)據(jù)量少,目前基本不會再使用,但具有劃時代的意義。
真實場景數(shù)據(jù)集更貼近日常生活,也為行為識別早日應用奠定了基礎(chǔ)。Hollywood 系列來自好萊塢電影中的動作場景。Hollywood 數(shù)據(jù)集來自32 部電影,分為8 種類別,不同的演員在不同的場景下進行相同的動作。Hollywood2是對Hollywood 數(shù)據(jù)集的擴展,從69 部電影中剪切出3 669 個視頻,分為12 種行為類別和10 種場景類別,該數(shù)據(jù)集包含行為子數(shù)據(jù)集和場景子數(shù)據(jù)集。Hollywood Extended 中添加了有序的一段動作序列。
UCF 系列數(shù)據(jù)集主要從體育廣播電視頻道和視頻網(wǎng)站YouTube 中截取而得,場景豐富,種類繁多。UCF-Sports包含多場景多視角變換的舉重、騎馬、鞍馬等10 類體育運動。UCF YouTube(UCF11)對同組視頻片段設(shè)置相似的特征,如背景相似、演員相同,并且增加相機運動、背景雜亂、照明陰暗變化等因素,使得此數(shù)據(jù)集在當時具有高挑戰(zhàn)性。UCF50將UCF11 的11 種類別擴展到50 種。UCF101是對UCF50 的擴充,動作類別增加至101 種,共計13 320個視頻,每組視頻的動作又可分為5 類。UCF101 數(shù)據(jù)集延續(xù)了UCF11 的特征相似性和質(zhì)量高差異性,一直屬于挑戰(zhàn)性較大的數(shù)據(jù)集。
Olympic Sports數(shù)據(jù)集來自視頻網(wǎng)站YouTube,包含了16 種運動類別,每種類別約50 個視頻,同時包含物體遮擋、相機運動等。此外,此數(shù)據(jù)集由機器人幫助注釋標簽。
HMDB51 數(shù)據(jù)集來自數(shù)字化電影和公共資源庫,有51 種類別,6 849 個視頻,數(shù)據(jù)集來源不唯一、拍攝視角變化、背景雜亂、外觀遮擋等諸多因素,使得數(shù)據(jù)集識別具有難度。樣例如圖9 所示。
圖9 HMDB51 和UCF101 數(shù)據(jù)集Fig.9 HMDB51 and UCF101 datasets
Sports-1M 數(shù)據(jù)集是由Google 采集視頻網(wǎng)站YouTube 上一些視頻序列而得的一個大型數(shù)據(jù)集,包含487 種運動視頻,1 133 158 個視頻,一些視頻有多個標簽且各類別在葉級層次差異較小。
ActivityNet1.3 是ActivityNet1.2 的延伸,包括日常生活中200 種類型,共計約20 000 個視頻,覆蓋各種復雜的人類活動。Epic-Kitchens 數(shù)據(jù)集是一個以廚房為主要場景的大型開源數(shù)據(jù)集,大多以晚飯時間為采集點,收集烹飪、食材準備、洗菜洗碗等動作。表4 對數(shù)據(jù)集進行簡單對比。
表4 行為識別數(shù)據(jù)集比較Table 4 Comparison of behavior recognition datasets
Kinetics 系列主要是通過采集視頻網(wǎng)站YouTube上的高質(zhì)量視頻而得。2017 年的Kinetics400 包含400類動作,每類有約400個視頻。2018年Kinetics600產(chǎn)生,包含600 類動作類別,每類至少600 個視頻序列,每個視頻持續(xù)10 s左右。2019 年,Kinetics數(shù)據(jù)集再次進行擴充,共計約700 個類,數(shù)據(jù)量龐之大。
Google 發(fā)布的AVA 數(shù)據(jù)集是一個精細標簽數(shù)據(jù)集,每個人物提供多個動作標簽,更加以人為中心,突顯原子動作。2020 年的AVA-Kinetics數(shù)據(jù)集,通過使用AVA 注釋協(xié)議對Kinetics700 進行注釋,其擴充AVA 數(shù)據(jù)集,結(jié)合AVA 多標簽的優(yōu)點和Kinetics 廣泛的視覺多樣性優(yōu)點,是驗證行為識別方法的得力助手。
FineGym 數(shù)據(jù)集是一個規(guī)模大、定義清、質(zhì)量高、標注細粒度的人體動作數(shù)據(jù)集。在語義上,F(xiàn)ineGym 定義三層類別結(jié)構(gòu):事件、組和元素類別;在時域上,采用兩層結(jié)構(gòu):動作和子動作。FineGym99收集了99 類數(shù)據(jù),F(xiàn)ineGym288 對其擴充至288 類,提供了大約6 000 動作數(shù)據(jù)和3 萬多子動作數(shù)據(jù)的精確標注,且在持續(xù)進行。
數(shù)據(jù)集的發(fā)展,經(jīng)歷了多維度的改變。人物個數(shù)上,向群體行為發(fā)展;場景上,趨于真實現(xiàn)實場景;粒度上,細粒度動作日益豐富;標簽類型上,標簽更加層次化、非唯一化;質(zhì)量上,逐漸高質(zhì)量化;來源上,不再局限于實驗拍攝等。
縱向比較不同識別算法性能的測試,一般采用相同數(shù)據(jù)集進行實驗對比,根據(jù)平均精確率mAP 進行評價,也可以橫向比較同一算法在不同數(shù)據(jù)集下的表現(xiàn),以檢驗此方法是否適應更新的數(shù)據(jù)集。新數(shù)據(jù)集在數(shù)據(jù)量、標簽多樣化等方面具有優(yōu)勢,具有一定的挑戰(zhàn)性。表5整理了較新數(shù)據(jù)集上的算法性能。
表5 各算法性能對比Table 5 Performance comparison of different algorithms
運動軌跡具有強大的魯棒性。運動軌跡的描述符的改進可以獲得RGB 中更全面的信息;改進的運動軌跡方式考慮相機運動,注重時空域下的運動信息,因此目前的網(wǎng)絡架構(gòu)多與IDT 結(jié)合,在Olympic Sports*數(shù)據(jù)集識別率也可以達到91.4%,真實場景數(shù)據(jù)集Hollywood2 上效果超過64.0%。
傳統(tǒng)方式在大型數(shù)據(jù)集上表現(xiàn)出局限性。人工特征設(shè)計方式不適用于海量的視頻信息,反而適合訓練深度學習分類器。在Sports-1M 中,混合網(wǎng)絡CNN+LSTM 準確率高達73.1%。目前使用深度學習的網(wǎng)絡特征表達性能已經(jīng)超過了傳統(tǒng)人工設(shè)計的特征表達方式。
目前大多數(shù)識別算法使用的數(shù)據(jù)模態(tài)為RGB 和光流OF。兩者結(jié)合能夠表現(xiàn)目標的外觀和運動信息,但是尋找特征替換光流是解決噪聲等不利因素的重要研究方向。
HMDB51 和UCF101 仍是使用最廣泛的兩大數(shù)據(jù)集。各種經(jīng)典算法都使用此數(shù)據(jù)集,目前雖然有數(shù)據(jù)量更大的新數(shù)據(jù)集,但是UCF101 在種類豐富、背景干擾、相機運動等方面變化較大,十分具有挑戰(zhàn)性。同時,為了對比新算法相對于前期算法的識別率精進情況,新算法一般也會使用此兩大數(shù)據(jù)集,如表6 所示。
表6 在HMDB51 和UCF101 上的各算法性能對比Table 6 Performance comparison of different algorithms on HMDB51 and UCF101
傳統(tǒng)的經(jīng)典機器學習算法穩(wěn)定性較好。在HMDB51 和UCF101 數(shù)據(jù)集上識別準確率穩(wěn)定在60%和88%左右。深度學習中由于各種網(wǎng)絡架構(gòu)差異性較大,在HMDB51 中準確率在59%和81%之間波動,在UCF101 中準確率在82%和98%之間波動。
基于深度學習的行為識別算法在識別準確率方面有了明顯的改善。Two-stream 架構(gòu)采用雙流通道,3D 卷積網(wǎng)絡在連續(xù)幀中使用3D 卷積核,因此獲取了更好的時空混合特征。Wang 等基于雙流架構(gòu),使用稀疏時間取樣和視頻級別的監(jiān)督策略,在HMDB51和UCF101 數(shù)據(jù)集上識別精度達到69.4%和94.2%;Jie等在雙流網(wǎng)絡中加入自注意力機制,在HMDB51和UCF101 數(shù)據(jù)集中識別率達到69.8%和94.6%。
改善3D 卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)可以有效提高識別精度。3D 卷積具有結(jié)構(gòu)復雜、優(yōu)化困難、參數(shù)量大、難以訓練等難題。Qiu 等將3D 結(jié)構(gòu)改造為2D+1D 緩解參數(shù)問題,在UCF101 數(shù)據(jù)集上準確率達到93.7%;Carreira 等對I3D 網(wǎng)絡架構(gòu)進行預訓練,在UCF101數(shù)據(jù)集上識別精度高達98.0%,在HMDB51 數(shù)據(jù)集上準確率達到80.7%;Tran 等將3D 卷積網(wǎng)絡拆分為2D 空間卷積+1D 時間卷積,利于網(wǎng)絡優(yōu)化,在HMDB51 和UCF101 上準確度達到78.7%和97.3%。目前,將GRU、Attention 模塊、Inflation 等加入3D 卷積網(wǎng)絡中也有較好的效果。
IDT 和深度學習網(wǎng)絡結(jié)合表現(xiàn)出優(yōu)異的效果。IDT 能夠有效捕捉目標的運動信息,深度學習網(wǎng)絡可以適應大數(shù)據(jù)。Wang等結(jié)合雙流網(wǎng)絡和IDT,使用軌跡池深度卷積描述符TDD,在HMDB51 和UCF101數(shù)據(jù)集上識別率高達65.9%和91.5%;Varol 等使用LTC 和IDT 結(jié)合的方式,識別率比Wang 等高出1.3個百分點和1.2 個百分點。Feichtenhofer 等使用VGG-16 網(wǎng)絡結(jié)合IDT,在HMDB51 和UCF101 數(shù)據(jù)集上識別精度高達69.2%和93.5%。
一些簡單的行為識別已經(jīng)在生活中應用,然而全面的大規(guī)模的應用行為識別仍然有很長的路要走。傳統(tǒng)的行為識別特征描述符表達能力有限,難以適應大數(shù)據(jù)時代復雜的視頻場景,將深度學習引入動作識別推動了行為識別的發(fā)展,但仍存在很多的挑戰(zhàn)。(1)視頻質(zhì)量的復雜性:視頻幀率和圖像清晰度、視頻是否修剪分類、視頻長度不一而且視頻中存在多尺度問題、多目標交叉、邊界清晰性確定、類內(nèi)和類間差異等問題。(2)時域信息的復雜性:環(huán)境光照變化、背景場景變化、視角切換變化、相機移動、運動方向改變、人物幾何特征改變、大動作變化尺度和時間、人物變化時序維度等問題。(3)細粒度識別的復雜性:密集或者快速的動作、肢體細微差別、運動頻率與次數(shù)等問題。
傳統(tǒng)方法中,IDT 算法具有很高的可靠性,適用范圍廣,但時間復雜度高,運算速度慢,不適合密集數(shù)據(jù)識別。深度學習下,雙流算法識別準確度高,表征能力強,但多流網(wǎng)絡需要分開訓練,實時性有待提升;3D 卷積網(wǎng)絡注重時間維度,訓練速度快,泛化性能好,但存在大量參數(shù),不夠靈活;CNN+LSTM 網(wǎng)絡優(yōu)于保存長時間序列信息,縮小計算量,可與注意力機制等結(jié)合使用,但網(wǎng)絡結(jié)構(gòu)比較復雜。要想加快生活與工業(yè)化行為識別的節(jié)奏,需要研究輕量級網(wǎng)絡結(jié)構(gòu),實現(xiàn)自監(jiān)督與無監(jiān)督應用,從而“多快好省”地運用高效算法。
(1)注意力機制成為趨勢。視頻數(shù)據(jù)中,除了目標信息,還有很多無關(guān)信息,網(wǎng)絡模型加入注意力機制,可以將有限的資源用于顯著區(qū)域,加深不同尺度的卷積特征,提高識別準度。軟注意力機制、混合注意力機制的Action 模塊、高階注意力等將成為熱點,但是需要考慮算法的復雜性。
(2)考慮全局語境信息成為重要研究方向。在設(shè)計上卷積層是為了更好地提取局部特征,因此全局信息易被忽略。在卷積層之前,將全局語境信息融合到局部特征中,從而調(diào)整卷積,更高效地捕捉關(guān)鍵信息。例如,使用全局特征交互的語境門限卷積,可以依照全局信息的指引動態(tài)地改變卷積層權(quán)重,方便捕捉到有辨別力、有代表性的局部特征。
(3)多模態(tài)信息融合具有良好前景。傳統(tǒng)的RGB信息容易受到環(huán)境差異、動態(tài)背景等的影響,存在很多噪音。轉(zhuǎn)換角度來看,視頻中的識別依據(jù)不只有圖像、運動,還有聲音等,在網(wǎng)絡模型中將視覺特征和聲學特征結(jié)合,多視角特征融合可以減少特征參數(shù),提高識別效果。
本文對行為識別的研究做出綜述,詳細介紹了人體行為識別的各種行為識別網(wǎng)絡架構(gòu),重點展現(xiàn)出各網(wǎng)絡的發(fā)展情況與優(yōu)缺點比較;同時整理了前期重要的數(shù)據(jù)集以及最新的數(shù)據(jù)集;最后闡述了目前的研究痛點并預測了未來的行為識別方向,希望對初學者或其他研究人員有所幫助。