基于深度學習網(wǎng)絡(luò)的舞蹈動作識別方法研究

2021-06-11 03:53閆琳

電子設(shè)計工程 2021年11期

閆琳

（西安航空職業(yè)技術(shù)學院，陜西西安 710089）

近年來，對于視頻技術(shù)的研究成為學術(shù)界研究的熱點之一。在眾多視頻技術(shù)中，視頻動作識別對于視頻智能化應用有著重要意義，其在較多領(lǐng)域均有著廣泛的應用[1-5]。

對于視頻信息的提取通常依靠兩個步驟，首先提取視頻中的相關(guān)視覺特征；然后對提取的特征進行學習，生成相應的描述標簽。在該技術(shù)中，最重要的是有效提取特征，深度學習算法是當前提取視頻特征最為高效的方法之一。但傳統(tǒng)上基于該方式的提取方法更注重視頻上空間域，即視頻幀中像素信息的提取，卻忽略了視頻動作在時間域上動作狀態(tài)的變化。以人類的認知為例，物體的動作是不斷變化的，人除了依靠動作靜止時的畫面判斷動作的類別，還需關(guān)注動作從開始到結(jié)束變化的全過程。深度學習作為人工智能技術(shù)中的重要算法之一，其提取特質(zhì)的方式與人類幾乎一致。因此，文中重點介紹了視頻中時域特征的提取方法[6-10]。

1 理論基礎(chǔ)

1.1 深度學習算法

卷積神經(jīng)網(wǎng)絡(luò)是圖像處理領(lǐng)域中最常用的深度學習網(wǎng)絡(luò)。該網(wǎng)絡(luò)的結(jié)構(gòu)如圖1 所示，主要包括了卷積、池化和全連接運算[11]。

圖1 卷積神經(jīng)網(wǎng)絡(luò)

1.1.1 卷積層

卷積是一種常見的信息處理領(lǐng)域的數(shù)學運算，離散域上的卷積運算方法，如式（1）所示。

在離散域上的卷積運算需要合理的選擇卷積核，卷積核通常是一個n2的矩陣。卷積運算的示意圖如圖2 所示。

圖2 卷積運算示意

在圖2 中，W是使用的卷積核，使用的是3×3 的維度。卷積核可對特征的模式進行強化或隱藏，靈活地進行圖像特征的提取。

1.1.2 池化層

池化層是指在卷積獲得的特征中，選擇某一局部區(qū)域替代完整區(qū)域，池化實現(xiàn)了特征的過濾與選擇。常用的池化運算包括最大值池化與均值池化。其中，均值池化的運算方法如圖3 所示[12]。

圖3 均值池化運算示意圖

對于卷積神經(jīng)網(wǎng)絡(luò)，池化層的引入實現(xiàn)了圖像信息的降采樣，可以有效地簡化網(wǎng)絡(luò)結(jié)構(gòu)，防止出現(xiàn)過擬合。

1.1.3 全連接層

卷積神經(jīng)網(wǎng)絡(luò)的最末端是全連接層，全連接層對前一層的特征進行綜合即可得到網(wǎng)絡(luò)的分類器。其連接示意圖如圖4 所示。

圖4 全連接層示意圖

全連接層的運算方式與傳統(tǒng)單隱藏層的神經(jīng)網(wǎng)絡(luò)類似，通過連接權(quán)重與偏置連接輸入層到隱藏層，以及隱藏層到輸出層。其計算方式如式（2）所示。

1.1.4 輸出層

輸出層借助非線性函數(shù)將全連接層的輸出轉(zhuǎn)化為深度網(wǎng)絡(luò)的最終輸出，對于二分類問題通常選擇Logistic 函數(shù)。文中選擇的是Softmax 交叉熵函數(shù)，其形式如式（3）所示。

其中，c代表分類的類別，當輸出結(jié)果與實際的類別一致時，yc=1。

1.2 基于時空域的雙卷積神經(jīng)網(wǎng)絡(luò)

空間域中的特征提取方法與圖像信息的提取方法一致，文中在時間域上的特征借助光流（Optical Flow）進行標識。循環(huán)神經(jīng)網(wǎng)絡(luò)如圖5 所示，光流反映了空間內(nèi)物體運動狀態(tài)改變后像素的變化軌跡，在運動檢測中有廣泛的應用。其獲取方法如下：

圖5 循環(huán)神經(jīng)網(wǎng)絡(luò)

在時間t下對于空間坐標位置點O(x,y)，該點像素亮度為I(x,y,t)。在dt時間內(nèi)，下一幀內(nèi)該點移動到新的位置(x+dx,y+dy)。此時，由于時間極短，該點的光亮度存在式（4）中的關(guān)系[13-15]。

其泰勒展開式如式（5）所示。

此時，可以得到該點的光流等式，如式（6）所示。

在式（7）中，Vx與Vy是光流矢量。從該微分方程中，求解光流矢量需要引入金字塔（LK）算法。

對于3×3 大小的像素區(qū)域，共包含9 個光流軌跡，用矩陣的形式可以表示為式（7）。

其中的變量如式（8）所示。

利用式（9）可以求解得式（10）。

2 方法實現(xiàn)

2.1 實驗設(shè)計

為了評估模型的有效性，文中在舞蹈視頻動作數(shù)據(jù)集上進行了實驗。該數(shù)據(jù)集的參數(shù)，如表1 所示。在該數(shù)據(jù)集內(nèi)，存在101 個類別的舞蹈動作，視頻的幀數(shù)均是25 fps，分辨率均為320×240，視頻的時間長度在2.31～67.24 s 之間。部分視頻幀如圖6所示。

表1 數(shù)據(jù)集參數(shù)

圖6 舞蹈動作視頻數(shù)據(jù)集

為了衡量模型對于舞蹈動作的識別精度，文中使用深度學習中常用的評價指標F1 與MSE。這兩個指標的定義方式如式（11）～（12）所示。

2.2 仿真結(jié)果

為了更優(yōu)地衡量文中模型對于視頻中舞蹈動作的識別效果，文中引入了兩個已在工業(yè)上廣泛使用的深度卷積網(wǎng)絡(luò)：Inception V3 與3D-CNN 網(wǎng)絡(luò)。其各自的網(wǎng)絡(luò)參數(shù)設(shè)置，分別如表3、表4 所示。

表3 Inception V3參數(shù)設(shè)置

表4 3D-CNN 網(wǎng)絡(luò)參數(shù)設(shè)置

表5 給出了文中雙路卷積網(wǎng)絡(luò)的參數(shù)設(shè)置，其采用兩個相同的卷積結(jié)構(gòu)。經(jīng)過表3～5 的比對可以發(fā)現(xiàn)，3 個網(wǎng)絡(luò)的復雜度基本一致。將表1 給出的視頻數(shù)據(jù)庫按照7∶3 的比例劃分為訓練集與測試集。3 個網(wǎng)絡(luò)訓練完成后，使用測試集進行測試。測試結(jié)果如表6 所示。

表5 雙路卷積網(wǎng)絡(luò)參數(shù)設(shè)置

從表6 的測試結(jié)果可以看出，在3 個網(wǎng)絡(luò)中，網(wǎng)絡(luò)F1 指標最差的是Inception V3 的69.32%，居中的是3D-CNN 網(wǎng)絡(luò)，最優(yōu)的是雙路卷積網(wǎng)絡(luò)，其較Inception V3 的F1 提升了10.90%。MSE與F1 是兩個相互負相關(guān)的指標，表6 的第3 列數(shù)據(jù)較優(yōu)地驗證了這一數(shù)據(jù)趨勢，證明了測試結(jié)果的有效性。從表6中第4 列對于舞蹈動作識別的準確率來看，文中提出的雙路CNN 算法由于引入了手工提取的時域光流信息，對于Inception V3 與3D-CNN 網(wǎng)絡(luò)分別有10.85%與5.27%的提升。

表6 3個網(wǎng)絡(luò)性能對比

3 結(jié)束語

文中對視頻動作的識別方法進行了研究，通過對傳統(tǒng)的深度卷積網(wǎng)絡(luò)的調(diào)研發(fā)現(xiàn)，這些深度網(wǎng)絡(luò)提取的特征更多是空間維度的信息，缺乏時域信息的提取，影響了動作識別的精度。文中使用光流信息表征時域動作的狀態(tài)變化，構(gòu)建了雙路卷積網(wǎng)絡(luò)，大幅度提升了舞蹈動作的識別精度。在后續(xù)的研究中，可以繼續(xù)優(yōu)化時域卷積網(wǎng)絡(luò)的結(jié)構(gòu)，提升算法的性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡