李梁華,王永雄
高效3D密集殘差網(wǎng)絡及其在人體行為識別中的應用
李梁華,王永雄*
上海理工大學光電信息與計算機工程學院,上海 200093
針對3D-CNN能夠較好地提取視頻中時空特征但對計算量和內(nèi)存要求很高的問題,本文設計了高效3D卷積塊替換原來計算量大的3×3×3卷積層,進而提出了一種融合3D卷積塊的密集殘差網(wǎng)絡(3D-EDRNs)用于人體行為識別。高效3D卷積塊由獲取視頻空間特征的1×3×3卷積層和獲取視頻時間特征的3×1×1卷積層組合而成。將高效3D卷積塊組合在密集殘差網(wǎng)絡的多個位置中,不但利用了殘差塊易于優(yōu)化和密集連接網(wǎng)絡特征復用等優(yōu)點,而且能夠縮短訓練時間,提高網(wǎng)絡的時空特征提取效率和性能。在經(jīng)典數(shù)據(jù)集UCF101、HMDB51和動態(tài)多視角復雜3D人體行為數(shù)據(jù)庫(DMV action3D)上驗證了結(jié)合3D卷積塊的3D-EDRNs能夠顯著降低模型復雜度,有效提高網(wǎng)絡的分類性能,同時具有計算資源需求少、參數(shù)量小和訓練時間短等優(yōu)點。
機器視覺;卷積神經(jīng)網(wǎng)絡;行為識別;視頻分類
當今網(wǎng)絡大量傳播各種文本、圖像和視頻,特別是隨著移動設備的大量普及,圖像和視頻成為人與人之間一種新的交流通信方式,因此基于多媒體自動理解的AI技術不斷發(fā)展并開始大量使用。近年來卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)飛速興起,其網(wǎng)絡的深度和結(jié)構(gòu)越來越多樣化。尤其是在圖像識別中,表現(xiàn)出了驚人的學習能力,逐步超過人類的識別能力。例如,在Imagenet測試集上殘差網(wǎng)絡實現(xiàn)了3.57%的錯誤率,已經(jīng)低于目前人類5.1%的錯誤率[1]。視頻序列中不但包括空間特征,而且還有時序特征,對視頻分類效果的好壞很大程度上取決于能否從視頻中提取和利用這兩個特征。有效地從人體行為視頻中提取到具有高區(qū)分度的時空特征,對于提高人體行為識別的準確率有著重要作用。然而,視頻是大量的連續(xù)幀序列,具有極大的變化性和復雜性。
為了獲得視頻中運動信息的時空特征,大量的方法被提出來。例如,HOG3D(histogram of gradient 3D)[2],SIFT3D(scale invariant feature transform 3D)[3],HOF(histograms of oriented optical flow)[4],ESURF (efficient speed up robust features)[5],IDTs (improved dense trajectories)[6]等,以上方法都是人工設計獲取特征。其中,IDTs取得了很好的效果,但需要消耗大量的計算資源,并且缺少捕獲語義概念的功能。當對視頻中的時空信息進行編碼時,自然的想法是將卷積神經(jīng)網(wǎng)絡的卷積核從2D卷積擴展為3D卷積。最近,研究人員提出了幾種用于視頻分類的3D時域結(jié)構(gòu)網(wǎng)絡,Simonyan等[7]提出了一種雙流網(wǎng)絡,即將空間流和時間流結(jié)合在一起的網(wǎng)絡。Tran等[8]探討出3D卷積濾波器的大小為3×3×3。最常見的是3D卷積(××),其中是卷積核的時間深度,即一次輸入的幀數(shù),是卷積核空間的大小。雖然使用3D卷積可以同時獲取時間和空間兩個維度的特征,但計算的成本和需要的計算機內(nèi)存都很大。另一種解決方案是利用池化策略或遞歸神經(jīng)網(wǎng)絡(RNN)表示視頻時空特征[9],通過激活2D卷積神經(jīng)網(wǎng)絡的最后一層池化層或全連接層。但是這種方法只是對網(wǎng)絡的高層特征進行時序特征提取,對于淺層的時序特征并未充分利用。
殘差網(wǎng)絡(ResNet)在分類、定位、檢測等方面取得了很好的效果[10],網(wǎng)絡可以擴展到數(shù)千個層,并且仍然具有良好的性能。另外,殘差網(wǎng)絡還可以通過使用批量標準化(batch normalization,BN)[11]來減少梯度消失對網(wǎng)絡的影響,降低網(wǎng)絡訓練過程中的退化程度。但是深度殘差網(wǎng)絡因網(wǎng)絡簡單堆疊殘差塊,而存在訓練速度慢的問題。為了進一步加強對卷積層間信息流的利用,Huang等[12]引入了密集連接的卷積網(wǎng)絡(DenseNet),該網(wǎng)絡中的每一層都直接連接到后續(xù)的所有層,可以將擴展的重復特性應用到整個網(wǎng)絡當中,卷積層間的信息流也可以順利傳輸?shù)矫恳粚?。深層次的DenseNet存在大量連接,不可避免地消耗了大量GPU內(nèi)存。Song等[13]將卷積層的濾波器數(shù)目減半,并將殘差塊中的兩個卷積求和作為輸入,得到了密集殘差網(wǎng)絡(DRNs)。
綜上,為彌補3D卷積對計算內(nèi)存需求大等缺陷,本文利用時空卷積濾波器構(gòu)建了一種特征提取塊,稱為高效3D卷積塊(efficient 3D convolution block, E3DB)。根據(jù)雙流網(wǎng)絡兩個分支同時獲得時空特征的優(yōu)點,E3DB將計算量大的3D卷積濾波器(大小為3×3×3)設計為2D CNN在空間域作用的1×3×3卷積濾波器和1D CNN在時間域作用的3×1×1卷積濾波器。針對深度神經(jīng)網(wǎng)絡存在訓練速度慢、無法有效提取視頻中具有多變和復雜的時空特征等問題,文中提出了一種融合3D卷積塊的密集殘差網(wǎng)絡(3D-efficient dense residual networks,3D-EDRNs),該網(wǎng)絡結(jié)合殘差網(wǎng)絡易于優(yōu)化和密集網(wǎng)絡特征復用的特性,為視頻行為識別提供了一種高效的網(wǎng)絡框架,具有計算速度快、參數(shù)量小和分類性能好等優(yōu)點。
主要貢獻如下:
1) 提出了E3DB,E3DB作為一種新穎的卷積塊可以替代標準的3×3×3卷積層,能夠大幅減少網(wǎng)絡的運算量,降低計算資源需求。將E3DB應用于經(jīng)典C3D模型,可以將模型的參數(shù)量降低一倍,網(wǎng)絡的分類性能得到提升;
2) 提出的新型3D-EDRNs網(wǎng)絡充分利用密集網(wǎng)絡易于優(yōu)化和殘差網(wǎng)絡特征復用等特性,把3D-EDRNs提取的特征輸入線性支持向量機(linear SVM)進行人體行為識別,達到的準確率為97.09%,相比于未加入E3DB的3D-EDRNs網(wǎng)絡提升了8.79%,準確率比經(jīng)典C3D網(wǎng)絡高14.79%。3D-EDRNs整個模型的參數(shù)量只有3.43 M,僅為P3D網(wǎng)絡參數(shù)量的1/28,極大地降低了對計算機內(nèi)存的使用率。3D-EDRNs網(wǎng)絡預測一個視頻段(16幀)消耗時間為11 ms,比C3D網(wǎng)絡運行速度快一倍,在同等計算量的情況下,該網(wǎng)絡可以顯著降低對計算資源的需求,更快實現(xiàn)視頻分類功能。
針對2D卷積不能很好地捕獲視頻的時序信息,文獻[15]提出了將一段視頻序列進行卷積的3D卷積核,即將多個連續(xù)幀堆疊成一個立方體,在立方體上運用3D卷積核。C3D[16]網(wǎng)絡作為一個經(jīng)典的3D網(wǎng)絡,在行為識別、場景識別、視頻相似度分析等領域取得很好的效果。
本文采用了Caffe實現(xiàn)的C3D最新結(jié)構(gòu),如圖1所示。該模型共有5個3D卷積層,卷積核的數(shù)量依次為64、128、128、256、256,每一個3D卷積層后接一個3D最大池化層,除第一個池化層的大小為(2,2,1)以外,其余池化層的大小均為(2,2,2),最后是三個全連接層,前兩個全連接層的神經(jīng)元個數(shù)均為2048,最后一層為101(視頻類別輸出數(shù)量)。
2.2.1 理論基礎—殘差網(wǎng)絡和密集網(wǎng)絡
殘差網(wǎng)絡解決了梯度消失問題,可擴展到數(shù)千個層,并且能夠保持網(wǎng)絡的良好性能。殘差網(wǎng)絡由眾多堆疊的殘差塊組合而成,每一個殘差塊可以表示為
其中:x和x+1分別為第個殘差塊的輸入和輸出,是殘差函數(shù),是第個殘差塊的參數(shù),圖2(a)為包含快捷路徑的原始殘差塊。殘差網(wǎng)絡的連接方式可以保證信息流從淺層順利地傳輸?shù)捷^深層,從而有效地降低網(wǎng)絡的訓練難度,提高網(wǎng)絡性能。
為了進一步的改善網(wǎng)絡層之間的信息流,密集網(wǎng)絡[17]提出了一種新的連接方式,將第層之前所有層都作為第層的輸入,圖2(b)為包含密集塊的網(wǎng)絡。由于密集網(wǎng)絡的參數(shù)可以得到更充分地利用,其性能明顯優(yōu)于其他參數(shù)量相近的模型。密集塊可以表示為
2.2.2 提出的密集殘差結(jié)構(gòu)
本文結(jié)合殘差塊易于優(yōu)化和密集連接特征高效利用的優(yōu)點,提出了一種新的小型密集殘差結(jié)構(gòu),如圖2(c)所示。新型的密集殘差結(jié)構(gòu)將原有密集殘差結(jié)構(gòu)從2D拓展為3D,并且融入了E3DB,可以加速網(wǎng)絡訓練和提高殘差網(wǎng)絡的性能,該結(jié)構(gòu)可以表示為
從密集殘差的結(jié)構(gòu)圖來看,它與殘差網(wǎng)絡非常相似,他們的區(qū)別僅僅在于殘差塊求和層之前的輸入,卻導致兩種網(wǎng)絡架構(gòu)的性能顯著不同。密集殘差結(jié)構(gòu)將多變和復雜的淺層特征輸入到求和層,為網(wǎng)絡提供了更加有效的時空信息,網(wǎng)絡的參數(shù)更易優(yōu)化,有利于提升網(wǎng)絡的分類性能。
圖1 C3D網(wǎng)絡架構(gòu)
圖2 殘差網(wǎng)絡和密集連接。 (a) 殘差塊;(b) 密集塊;(c) 密集連接殘差塊
Fig. 2 Residual network and dense connection. (a) Residual block; (b) Dense block; (c) Dense connection residual block
現(xiàn)有3D卷積架構(gòu)計算量大,對內(nèi)存要求高,因此難以訓練出較深的3D卷積架構(gòu)。和計算需求很大的3D卷積相比,新提出的高效3D卷積塊應用于經(jīng)典C3D模型時,網(wǎng)絡架構(gòu)參數(shù)的數(shù)量大為降低,分類性能得到有效的提升。而且設計了一種融合改進的3D卷積塊的高效密集殘差網(wǎng)絡,將E3DB放置在密集殘差網(wǎng)絡的合適位置,提高了網(wǎng)絡的性能和效率。
當給定輸入視頻的尺寸為′′′,其中、、、分別為視頻的通道數(shù)、視頻長度、每幀圖片的高度和寬度。3D卷積可以像2D濾波器一樣對空間信息進行建模,也可以構(gòu)建每幀圖片間的時序模型[18]。為簡單起見,我們將三維卷積濾波器的大小表示為′′,是卷積核的時序深度,是卷積核的空間大小。根據(jù)雙流網(wǎng)絡兩個分支同時獲得時空特征的優(yōu)勢,將大小為3×3×3的3D卷積濾波器設計為2D CNN在空間域作用的1×3×3卷積濾波器和1D CNN在時間域作用的3×1×1卷積濾波器。卷積神經(jīng)網(wǎng)絡的空間復雜度決定了模型的參數(shù)數(shù)量,空間復雜度可以表示為
圖3(a)為標準的3×3×3卷積,E3DB結(jié)構(gòu)圖如圖3(b)所示。這樣的3D卷積是一種偽3D卷積塊(E3DB),E3DB將參數(shù)量更少的時間域一維信息和空間域二維信息充分融合,空間維度卷積結(jié)果直接作為時間維度卷積的輸入,有助于保留時空特征更加豐富的信息,從而可以減小模型的尺寸和提升網(wǎng)絡的分類性能。
圖3 標準3′3′3卷積(a)和E3DB (b)
C3D網(wǎng)絡在行為識別、場景識別、視頻相似度分析等領域表現(xiàn)了較好的性能,該網(wǎng)絡有5個3×3×3的卷積層。本文嘗試將所提出的E3DB替換經(jīng)典C3D網(wǎng)絡中3×3×3卷積層,通過不同位置的E3DB組合測試網(wǎng)絡的綜合性能。根據(jù)殘差網(wǎng)絡可以將信息流從淺層傳輸?shù)捷^深層,密集網(wǎng)絡可以將擴展的重復特性應用到整個網(wǎng)絡,3D-EDRNs設計為由一個小型的密集連接網(wǎng)絡和一個殘差結(jié)構(gòu)組合而成,用于提取視頻的時空域特征,網(wǎng)絡的輸入為一段連續(xù)視頻。提出的3D-EDRNs結(jié)構(gòu)如圖4所示,其中DRB為密集連接殘差塊,結(jié)構(gòu)如圖5所示。為了確保每個DRB中Add層的輸入都是未經(jīng)過激活函數(shù)的特征圖,將DRB內(nèi)結(jié)構(gòu)的連接順序設置為融入E3DB的3D密集塊、Add層、3D最大池化層、批量標準化(BN)、ReLU激活函數(shù)。在Concatenate層之后,通過卷積層和池化層對輸出的特征進行整合。
通過DRB的結(jié)構(gòu)設計,3D-EDRNs可以有效地獲得網(wǎng)絡卷積層間的信息流,有助于網(wǎng)絡提取時空特征信息。Concatenate層可以將網(wǎng)絡所獲取的淺層特征和高層特征進行充分融合。為了提升網(wǎng)絡優(yōu)化的速度和特征提取能力,3D-EDRNs是一種殘差網(wǎng)絡和密集網(wǎng)絡的高效融合形式。3D-EDRNs提取視頻中多變和復雜的時空特征,卷積層間的信息流也可以順利傳輸?shù)矫恳粚樱瑥亩岣吡司W(wǎng)絡參數(shù)的利用率,避免了普通深度神經(jīng)網(wǎng)絡參數(shù)膨脹的問題。
在本節(jié)中,為了評估提出的E3DB方法的有效性,在兩個不同的視頻分類網(wǎng)絡中進行實驗。首先在4.1節(jié)介紹了實驗中所使用的3個人體行為數(shù)據(jù)庫及數(shù)據(jù)預處理,4.2節(jié)介紹了網(wǎng)絡訓練過程中參數(shù)的設置,4.3節(jié)和4.4節(jié)分別敘述了C3D和3D-EDRNs兩個不同視頻分類網(wǎng)絡的實驗結(jié)果與分析。
UCF101數(shù)據(jù)集就是其中的典型代表。UCF101包含13320個視頻(共27個小時),每個視頻中只包含一類人體行為,共有101個人體行為類別,例如運動、演奏、人與人互動和人物交互等,是目前行為類別數(shù)和樣本數(shù)最多的數(shù)據(jù)庫之一。國內(nèi)外研究人員在UCF101數(shù)據(jù)集上進行了深入的研究,目前在此數(shù)據(jù)庫上的準確率已達到95%以上[20]。
首先,對訓練的數(shù)據(jù)集進行預處理,將UCF101數(shù)據(jù)集中的所有視頻保持結(jié)構(gòu)不變,逐幀分解為圖片保存到本地,然后制作圖片的標簽文檔,跟C3D官方Caffe形式一致,模型輸入的視頻段長度為16幀,訓練集與驗證集的分割與UCF101官方保持一致,每個類別的前7個人為測試樣本,后面8~25人為訓練樣本。
此外,本文還在DMV action3D數(shù)據(jù)庫和HMDB51[21]數(shù)據(jù)庫上進行了實驗。DMV action3D數(shù)據(jù)庫是多視角動態(tài)3D人體行為數(shù)據(jù)庫,包括如鼓掌、自拍、喝水、讀書和摔倒等31個不同的日常行為、交互行為和異常行為,為實驗者分析視角和尋找最佳角度提供了可供驗證的數(shù)據(jù)庫。HMDB51數(shù)據(jù)庫從電影、YouTube和谷歌視頻中收集了6849個圖像序列,分別代表51個行為類別,每個行為類至少包含101段樣本,包括面部動作、與對象交互動作和身體動作等。
圖4 3D-EDRNs結(jié)構(gòu)圖
圖5 DRB結(jié)構(gòu)圖
DMV action3D數(shù)據(jù)庫和HMDB51數(shù)據(jù)庫訓練前數(shù)據(jù)的預處理與UCF101數(shù)據(jù)集的處理方式一致。在訓練集和測試集進行數(shù)據(jù)的預處理,目的是將每個樣本置于更加規(guī)范的形式,以便減少模型需要考慮的變化量。減少數(shù)據(jù)中的變化量既能夠提升模型的泛化能力,也能夠減少擬合訓練集所需模型的大小。
在訓練過程中首先將每一個輸入的視頻段(clip)中的每一幀的大小轉(zhuǎn)換為128×17,并在每個clip上裁剪出一個112×112×16大小的視頻段作為模型輸入(視頻段長度為16幀)。在深度卷積神經(jīng)網(wǎng)絡的訓練過程中通常會遇到過擬合的問題,即在訓練集中損失函數(shù)值很小而在測試集中很大,數(shù)據(jù)增廣技術是指對原圖像進行各種變換,以增加樣本的多樣性,從而達到防止過擬合的目的,增強模型的魯棒性[22]。本文對訓練集中的每個clip都做一次翻轉(zhuǎn),作為簡單的數(shù)據(jù)增廣,可以減少模型的泛化誤差,驗證集只進行中心裁剪。為了評估網(wǎng)絡架構(gòu)的性能,在數(shù)據(jù)庫上使用隨機初始化的權值對網(wǎng)絡模型進行從零開始的訓練,網(wǎng)絡訓練權重衰減系數(shù)weight_decay設置為0.005[23]。
為了驗證提出的高效3D卷積塊的合理性和有效性,我們做了多個對比實驗。經(jīng)典C3D模型和融合E3DB的C3D模型在動態(tài)多視角復雜3D人體行為數(shù)據(jù)庫進行的實驗結(jié)果如表1所示。
從表1的實驗結(jié)果可以看出:網(wǎng)絡在DMV action3D數(shù)據(jù)庫上提取人體行為時空特征時,不同視角的識別率有差異,說明了視角的不同對識別率有影響,其他視角出現(xiàn)部分肢體有遮擋、動作不完全等現(xiàn)象,導致動態(tài)視角的識別率最高。經(jīng)典C3D模型融入E3DB后,每個視角的實驗準確率都得到了提升(主視角提升3.18%、側(cè)視角提升2.41%、動態(tài)視角提升3.64%)。DMV action3D數(shù)據(jù)庫作為一個3D人體復雜行為數(shù)據(jù)庫,可以提取的時空特征范圍更廣,C3D模型融入E3DB可以更加有效地提取時空特征。經(jīng)典C3D模型的參數(shù)量為61.5 M,而C3D模型融入E3DB的參數(shù)量僅為26.9 M,模型的參數(shù)量降低了一倍多,驗證了E3DB可以大幅度降低網(wǎng)絡的參數(shù)量,減少網(wǎng)絡對計算和內(nèi)存的需求(E3DB的空間復雜度是3×3×3卷積層的(+1)/2,此處為3)。E3DB將參數(shù)量更少的時間域1D CNN信息和空間域2D CNN信息充分融合,空間維度卷積結(jié)果直接作為時間維度卷積的輸入,有助于保留時空特征豐富的原始信息,從而獲得了比參數(shù)量較大的3D卷積更好的效果。
我們將高效3D卷積塊融合在密集殘差網(wǎng)絡的不同位置,得到了三種模型并進行對比實驗,在HMDB51數(shù)據(jù)庫上訓練的準確率分別為77.28%(底層特征融入E3DB)、78.77%(底層特征和密集塊融入E3DB)、79.23%(高層特征、底層特征和密集塊均融入E3DB)。三種模型隨迭代次數(shù)變化的準確率和損失值變化圖分別如圖6~圖8所示。3D-EDRNs在HMDB51數(shù)據(jù)庫實驗的準確率如表2所示。
從圖6~圖8的實驗結(jié)果可以看出:3D-EDRNs進行訓練時,網(wǎng)絡在迭代15次后開始收斂,三個不同位置組合高效3D卷積塊的比較實驗可以得到E3DB和密集塊對提升網(wǎng)絡性能都有顯著的作用。當高層特征、底層特征和密集塊均加入E3DB時,網(wǎng)絡將所獲取的淺層特征和高層特征進行充分融合,從而提升了網(wǎng)絡優(yōu)化的速度和特征提取能力,此時3D-EDRNs的分類性能最強,模型的準確率達到79.23%。
從表2的實驗結(jié)果可以看出,網(wǎng)絡不同位置組合利用E3DB可以較好地提取出HMDB51數(shù)據(jù)庫中的人體行為時空特征,有效地獲得了卷積層間的信息流,很好地利用了E3DB能夠降低網(wǎng)絡參數(shù)量的特性,網(wǎng)絡的參數(shù)量僅為3.97 M,參數(shù)量反而比未加入E3DB的網(wǎng)絡降低了0.28 M,對計算機內(nèi)存的使用率進一步減小。網(wǎng)絡將參數(shù)量更少的時間域一維信息和空間域二維信息充分融合,空間維度卷積結(jié)果直接作為時間維度卷積的輸入,保留了時空特征更加豐富的信息。隨著3D-EDRNs加入E3DB和密集塊,網(wǎng)絡從包含豐富信息的視頻中提取到多變和復雜的特征,分類性能逐步提高。3D-EDRNs在高層特征、底層特征和密集塊均加入E3DB時,網(wǎng)絡優(yōu)化的速度和特征提取能力達到最強,其準確率為76.29%,比未加入E3DB的網(wǎng)絡提升了5.94%。3D-EDRNs提取的特征輸入線性支持向量機(linear SVM)進行實驗時,準確率比在驗證集上實驗的結(jié)果略低,主要是由于HMDB51數(shù)據(jù)庫人體行為類別較少,網(wǎng)絡所提取的特征維度遠遠大于樣本類別,此時網(wǎng)絡分類加入linear SVM的效果會有所降低。
表1 不同C3D模型基于DMV action3D數(shù)據(jù)庫的實驗結(jié)果
圖6 3D-EDRNs在HMDB51的迭代準確率(a)和損失值(b)變化圖(底層特征融入E3DB)
圖7 3D-EDRNs在HMDB51的迭代準確率(a)和損失值(b)變化圖(底層特征和密集塊融入E3DB)
圖8 3D-EDRNs在HMDB51的迭代準確率(a)和損失值(b)變化圖(高層特征、底層特征和密集塊均融入E3DB)
表2 3D-EDRNs基于HMDB51數(shù)據(jù)庫的實驗結(jié)果
此外,3D-EDRNs還在UCF101數(shù)據(jù)庫上進行訓練,得到三種位置的模型準確率分別為58.18%(高層特征、底層特征和密集塊均融入E3DB)、55.95%(底層特征和密集塊融入E3DB)、55.07%(底層特征融入E3DB)。三種模型隨迭代次數(shù)變化的準確率變化圖和損失值變化圖分別如圖9~圖11所示。3D-EDRNs在UCF101數(shù)據(jù)庫實驗的準確率如表3所示。
從圖9~圖11的實驗結(jié)果可以看出:網(wǎng)絡在迭代15次后均表現(xiàn)出較好的收斂性,3D-EDRNs中所設計的E3DB和密集殘差結(jié)構(gòu)能夠提升網(wǎng)絡時空特征提取能力,網(wǎng)絡的參數(shù)更易優(yōu)化。3D-EDRNs將從包含豐富信息的視頻中獲得的淺層特征和高層特征進行充分融合,提高了網(wǎng)絡參數(shù)的利用率,其模型準確率達到58.18%。
3D-EDRNs提取的特征輸入線性支持向量機(linear SVM)進行實驗時,從表3的實驗結(jié)果可以看出,隨著網(wǎng)絡加入E3DB和密集殘差結(jié)構(gòu),網(wǎng)絡從卷積層間獲得了豐富的信息流,參數(shù)的利用率逐步提高。
圖9 3D-EDRNs迭代準確率(a)和損失值(b)變化圖(高層特征、底層特征和密集塊均融入E3DB)
圖10 3D-EDRNs迭代準確率(a)和損失值(b)變化圖(底層特征和密集塊融入E3DB)
圖11 3D-EDRNs迭代準確率(a)和損失值(b)變化圖(底層特征融入E3DB)
表3 3D-EDRNs基于UCF101數(shù)據(jù)庫的實驗結(jié)果
3D-EDRNs在高層特征、底層特征和密集塊均加入E3DB時,網(wǎng)絡的參數(shù)得到高效利用,其準確率為97.09%,比未加入E3DB的網(wǎng)絡提升了8.79%,網(wǎng)絡的參數(shù)量僅為3.43 M,反而比未加入E3DB的網(wǎng)絡降低了0.41 M。網(wǎng)絡通過E3DB將參數(shù)量更少的時空信息充分融合,并保留了時空特征豐富的信息,3D-EDRNs網(wǎng)絡的參數(shù)量得到降低、分類性能得到提升,對計算資源的需求進一步減小。
為了驗證所提出的3D-EDRNs具有較好的分類性能和對計算機內(nèi)存需求小等優(yōu)點,在UCF101數(shù)據(jù)庫上,本文與其他視頻特征提取方法做了對比實驗,包括C3D[16]、P3D[18]和LTC[24]。如表4所示,可以看出3D-EDRNs在UCF101數(shù)據(jù)庫提取了較好的視頻特征,雖然3D-EDRNs網(wǎng)絡結(jié)構(gòu)因內(nèi)部存在大量的跳躍連接而變得復雜,但準確率明顯優(yōu)于其他方法,3D-EDRNs的準確率比經(jīng)典C3D網(wǎng)絡高14.79%。當模型的參數(shù)量越小說明模型的計算量就越小,計算量越小則對內(nèi)存的要求就越低,相應對計算資源的需求也就越少,3D-EDRNs網(wǎng)絡結(jié)合E3DB,極大地降低了網(wǎng)絡的參數(shù)量。3D-EDRNs網(wǎng)絡的參數(shù)量僅為3.43 M,遠遠低于其他方法的參數(shù)量,只有P3D網(wǎng)絡參數(shù)量的1/28,極大地降低了對計算機內(nèi)存的使用率。3D-EDRNs網(wǎng)絡預測一個視頻段(16幀)消耗時間為11 ms,比C3D網(wǎng)絡運行速度快一倍,在同等計算量的情況下,該網(wǎng)絡可以顯著降低對計算資源的需求,更快實現(xiàn)視頻分類功能。3D-EDRNs融合了密集網(wǎng)絡和殘差網(wǎng)絡的特性,高效地利用了模型的淺層特征和高層特征,有助于提升網(wǎng)絡提取時空特征的能力,從而進一步提高了網(wǎng)絡的準確率。
3D-EDRNs在UCF101和HMDB51兩個數(shù)據(jù)庫的實驗結(jié)果均驗證了網(wǎng)絡具有較好的分類性能,并且可以降低網(wǎng)絡對計算的需求,極大地減少了網(wǎng)絡的參數(shù)量。在HMDB51數(shù)據(jù)庫訓練的實驗效果優(yōu)于UCF101數(shù)據(jù)庫訓練的實驗效果,網(wǎng)絡的收斂速度更快,其原因可能是HMDB51中樣本的數(shù)據(jù)量更大,3D-EDRNs網(wǎng)絡可以提取到更加具有區(qū)分度的特征,從而提升了網(wǎng)絡的分類性能。
表4 基于不同視頻特征提取方法的實驗結(jié)果(UCF101數(shù)據(jù)庫)
本文提出的3D-EDRNs架構(gòu)能夠有效地學習視頻中的時空特征,為基于視頻的人體行為識別提供了一個有效的深度學習網(wǎng)絡框架。特別地,提出的高效3D卷積塊將參數(shù)量更少的時間域一維卷積信息和空間域二維卷積信息融合,替換原來計算需求大的3×3×3卷積層,具有顯著降低模型大小的特性,網(wǎng)絡的分類性能得到有效的提升。所提出的3D-EDRNs網(wǎng)絡充分利用密集網(wǎng)絡易于優(yōu)化和殘差網(wǎng)絡特征復用的優(yōu)點,提高了網(wǎng)絡參數(shù)的利用率,避免了普通深度神經(jīng)網(wǎng)絡參數(shù)膨脹等問題,實驗結(jié)果顯示3D-EDRNs具備對計算資源需求少、計算速度快和網(wǎng)絡參數(shù)量小等優(yōu)點。
[1] He K M, Zhang X Y, Ren S Q,. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]//(), Santiago, 2015: 1026–1034.
[2] Shojaeilangari S, Yau W Y, Li J,. Dynamic facial expression analysis based on extended spatio-temporal histogram of oriented gradients[J]., 2014, 6(1): 33–52.
[3] Scovanner P, Ali S, Shah M. A 3-dimensional sift descriptor and its application to action recognition[C]//, New York, 2007: 357–360.
[4] Laptev I, Marszalek M, Schmid C,. Learning realistic human actions from movies[C]//, Anchorage, 2008: 1–8.
[5] Willems G, Tuytelaars T, Van Gool L. An efficient dense and scale-invariant spatio-temporal interest point detector[C]//, Berlin, 2008: 650–663.
[6] Wang H, Schmid C. Action recognition with improved trajectories[C]//, Sydney, 2014: 3551–3558.
[7] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//, Montreal, Canada, 2014: 568–576.
[8] Yao L, Torabi A, Cho K,. Describing videos by exploiting temporal structure[C]//(), Santiago, 2015: 199–211.
[9] Shao L, Zhen X T, Tao D C,. Spatio-temporal laplacian pyramid coding for action recognition[J]., 2014, 44(6): 817–827.
[10] Hara K, Kataoka H, Satoh Y. Learning spatio-temporal features with 3D residual networks for action recognition[C]//(), Venice, 2017: 3154–3160.
[11] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//, Lille, France, 2015: 448–456.
[12] Huang G, Liu Z, Van Der Maaten L,. Densely connected convolutional networks[C]//(), Honolulu, 2017: 2261–2269.
[13] Song T Z, Song Y, Wang Y X,. Residual network with dense block[J]., 2018, 27(5): 053036.
[14] Wang Y X, Li X, Li L H. Dynamic and multi-view complicated 3D database of human activity and activity recognition[J]., 2019, 34(1): 68–79.
王永雄, 李璇, 李梁華. 動態(tài)多視角復雜3D人體行為數(shù)據(jù)庫及行為識別[J]. 數(shù)據(jù)采集與處理, 2019, 34(1): 68–79.
[15] Ji S W, Xu W, Yang M,. 3D convolutional neural networks for human action recognition[J]., 2013, 35(1): 221–231.
[16] Tran D, Bourdev L, Fergus R,. Learning spatiotemporal features with 3D convolutional networks[C]//(), Santiago, 2014: 4489–4497.
[17] Qiu Z F, Yao T, Mei T. Learning spatio-temporal representation with pseudo-3D residual networks[C]//(), Venice, 2017: 5534–5542.
[18] He K M, Sun J. Convolutional neural networks at constrained time cost[C]//(), Boston, 2015: 5353–5360.
[19] Soomro K, Zamir A R, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild[Z]. arXiv:1212.0402, 2012.
[20] Tran D, Torresani L. EXMOVES: mid-level features for efficient action recognition and video analysis[J]., 2016, 119(3): 239–253.
[21] Wang Z L, Huang M, Zhu Q B,. The optical flow detection method of moving target using deep convolution neural network[J]., 2018, 45(8): 38–47.
王正來, 黃敏, 朱啟兵, 等. 基于深度卷積神經(jīng)網(wǎng)絡的運動目標光流檢測方法[J]. 光電工程, 2018, 45(8): 38–47.
[22] Wang X H, Gao L L, Wang P,. Two-stream 3-D convNet fusion for action recognition in videos with arbitrary size and length[J]., 2018, 20(3): 634–644.
[23] Varol G, Laptev I, Schmid C. Long-term temporal convolutions for action recognition[J]., 2018, 40(6): 1510–1517.
Efficient 3D dense residual network and its application in human action recognition
Li Lianghua, Wang Yongxiong*
School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China
3D-EDRNs structure diagram
Overview:In view of the problem that 3D-CNN can better extract the spatio-temporal features in video, but it requires a high amount of computation and memory, this paper designs an efficient 3D convolutional block to replace the 3′3′3 convolutional layer with a high amount of computation, and then proposes a 3D-efficient dense residual networks (3D-EDRNs) integrating 3D convolutional blocks for human action recognition. The efficient 3D convolutional block is composed of 1′3′3 convolutional layers for obtaining spatial features of video and 3′1′1 convolutional layers for obtaining temporal features of video. The spatial dimension convolution results are directly used as the input of time dimension convolution, which is helpful to retain the original information with abundant spatio-temporal characteristics. According to the residual network, the information flow can be transmitted from the shallow layer to the deeper layer. The dense network can apply the extended repetition features to the entire network. 3D-EDRNs is designed as a combination of a small dense connection network and a residual structure, which is used to extract the spatial-temporal features of video. The new dense residual structure extends the original dense residual structure from 2D to 3D, and integrates E3DB, which can accelerate the network training and improve the performance of the residual network. Input of the add layer is processed through the structural design of the DRB, which are all feature graphs of inactivated functions, thus, 3D-EDRNs can effectively obtain the information flow between convolutional layers, which is helpful for the network to extract the spatial-temporal features. The concatenate layer can fully integrate the shallow and high level features obtained by the network. 3D-EDRNs extracts the variable and complex spatio-temporal features of video, and the information flow between convolutional layers can also be transmitted to each layer smoothly, thus improving the utilization rate of network parameters and avoiding the problem of parameter expansion of common neural networks. Efficient 3D convolutional blocks are combined in multiple locations of dense residual network, which not only takes advantage of easy optimization of residual blocks and feature reuse of dense connected network, but also can shorten the training time and improve the efficiency and performance of spatial-temporal feature extraction of the network. In the classical data set UCF101, HMDB51 and the dynamic multi-view complicated 3D database of human activity (DMV action3D), it is verified that the 3D-EDRNs combined with 3D convolutional block can significantly reduce the complexity of the model, effectively improve the classification performance of the network, and have the advantages of less computational resource demand, small number of parameters and short training time.
Citation: Li L H, Wang Y XEfficient 3D dense residual network and its application in human action recognition[J]., 2020, 47(2): 190139
Efficient 3D dense residual network and its application in human action recognition
Li Lianghua, Wang Yongxiong*
School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China
In view of the problem that 3D-CNN can better extract the spatio-temporal features in video, but it requires a high amount of computation and memory, this paper designs an efficient 3D convolutional block to replace the 3×3×3 convolutional layer with a high amount of computation, and then proposes a 3D-efficient dense residual networks (3D-EDRNs) integrating 3D convolutional blocks for human action recognition. The efficient 3D convolutional block is composed of 1×3×3 convolutional layers for obtaining spatial features of video and 3×1×1 convolutional layers for obtaining temporal features of video. Efficient 3D convolutional blocks are combined in multiple locations of dense residual network, which not only takes advantage of the advantages of easy optimization of residual blocks and feature reuse of dense connected network, but also can shorten the training time and improve the efficiency and performance of spatial-temporal feature extraction of the network. In the classical data set UCF101, HMDB51 and the dynamic multi-view complicated 3D database of human activity (DMV action3D), it is verified that the 3D-EDRNs combined with 3D convolutional block can significantly reduce the complexity of the model, effectively improve the classification performance of the network, and have the advantages of less computational resource demand, small number of parameters and short training time.
machine vision; convolutional neural network; action recognition; video classification
Supported by National Natural Science Foundation of China (61673276, 61603255, 61703277)
TP391.4
A
10.12086/oee.2020.190139
: Li L H, Wang Y X. Efficient 3D dense residual network and its application in human action recognition[J]., 2020,47(2): 190139
2019-03-27;
2019-06-23
國家自然科學基金資助項目(61673276,61603255,61703277)
李梁華(1994-),男,碩士研究生,主要從事計算機視覺的研究。E-mail:1244094457@qq.com
王永雄(1970-),男,博士,教授,主要從事智能機器人及視覺的研究。E-mail:wyxiong@usst.edu.cn
李梁華,王永雄. 高效3D密集殘差網(wǎng)絡及其在人體行為識別中的應用[J]. 光電工程,2020,47(2): 190139
* E-mail: wyxiong@usst.edu.cn