基于深度學(xué)習(xí)和動態(tài)時間規(guī)整的人體運動檢索

2018-06-20 07:46楚超勤肖秦琨

計算機技術(shù)與發(fā)展 2018年6期

楚超勤,肖秦琨,高嵩

(西安工業(yè)大學(xué) 電子信息工程學(xué)院，陜西西安 710032)

0 引言

近年來，隨著創(chuàng)新科技的發(fā)展，計算機動畫在各種應(yīng)用中日益普及[1-8]。人體運動編輯對計算機動畫制作尤為重要，在動畫制作領(lǐng)域，很多企業(yè)公司對制作非常逼真的人類動畫產(chǎn)生了極大的需求?，F(xiàn)在市場上已經(jīng)有很多方法來產(chǎn)生人體運動數(shù)據(jù)。運動捕獲(MoCap)是一種眾所周知的獲取運動數(shù)據(jù)的方法，因此運動捕獲設(shè)備的應(yīng)用價值也越來越突出，推動了大規(guī)模人體和物體運動數(shù)據(jù)庫的發(fā)展[8-9]。然而，隨著各種運動數(shù)據(jù)的增長，檢索能滿足特定要求的動畫運動是一件困難的事情。因此，運動檢索技術(shù)成為近年來在運動捕捉動畫領(lǐng)域的研究重點。

目前已經(jīng)提出了一些運動檢索方法，其中許多創(chuàng)新方法是在現(xiàn)有的音頻檢索方法上加以拓展應(yīng)用，如所熟知的動態(tài)時間規(guī)整(dynamic time warping，DTW)[10]。然而，因為這種類型的數(shù)據(jù)的屬性和參數(shù)數(shù)據(jù)量很大，所以單一使用DTW方法對運動捕獲數(shù)據(jù)的檢索效率低。為了支持索引和提高DTW的檢索性能，提出一種基于均勻縮放(uniform scaling，US)的算法[11]。然而，基于均勻縮放的方法通常具有較高的計算成本?；贒TW方法和典型相關(guān)分析(canonical correlation analysis，CCA)擴展方法，被稱為廣義的典型時間規(guī)整(generalized canonical time warping，GCTW)，這種方法被用于調(diào)整多模態(tài)序列[12]。除了基于DTW的方法，其他方法是尋求邏輯上類似的運動匹配。例如，用于呈現(xiàn)運動的模板技術(shù)，以及使用模板匹配的運動搜索[13]。此外，提出使用幾何特征構(gòu)建索引樹，使用聚類和分割，然后根據(jù)峰值點進行動作匹配[14]。然而，這些方法都不能很好地區(qū)分緊密匹配的運動。

文中利用給定查詢的運動序列，從運動數(shù)據(jù)庫檢索非常相似的運動。如上所述，基于DTW的檢索方法的表現(xiàn)比統(tǒng)計匹配方法有更好的性能，但檢索效率較低，因此提出將基于深度學(xué)習(xí)和動態(tài)時間規(guī)整的人體運動檢索方法，以提高運動匹配的性能和效率。然后，基于優(yōu)化的代表性識別特征通常比原始無序描述符具有更好的性能，使用模糊聚類將冗余姿態(tài)描述符轉(zhuǎn)換成判別描述符[15]。最后通過實驗對該算法進行驗證。

1 檢索算法

1.1 算法概述

提出算法的圖解說明如圖1所示，其中算法分為兩個階段：系統(tǒng)學(xué)習(xí)和運動檢索。

圖1 算法說明

在系統(tǒng)學(xué)習(xí)階段，首先由相互間可分辨的運動集合構(gòu)建運動數(shù)據(jù)庫，其次通過聚類方法獲取代表性幀圖像，進而基于代表幀圖像集合訓(xùn)練自動編碼器模型，使用已經(jīng)獲取的編碼器模型提取運動幀圖像的特征；在運動檢索階段，基于上述步驟獲取查詢運動關(guān)鍵幀圖像，進而應(yīng)用自動編碼器提取每一幀圖像特征，應(yīng)用曼哈頓動態(tài)規(guī)劃算法計算待查詢運動與運動數(shù)據(jù)庫運動之間的相似度距離，排序輸出檢索結(jié)果。

1.2 系統(tǒng)學(xué)習(xí)

(1)基于聚類獲取代表性的幀。系統(tǒng)學(xué)習(xí)的關(guān)鍵一步是獲取基于聚類的代表性框架。給定運動序列{Fi}i=1:n，其中n是幀數(shù)，使用模糊c-均值(fuzzy c-means，F(xiàn)CM)聚類方法生成代表性幀。為了計算兩幀之間的距離，使用四元數(shù)[15]來呈現(xiàn)身體姿態(tài)。設(shè)Fi為第i幀中的運動描述符，F(xiàn)1和F2之間的距離計算公式如下：

d(F1,F2)=(F1-F2)(F1-F2)T

(1)

如果使用聚類方法來生成c個聚類中心，則選擇距離聚類中心最短距離的一些幀作為代表幀，然后代表幀可以表示為RF={rfk}k=1:c，其中rfk對應(yīng)于第k個聚類中心。因此可以使用FCM聚類對代表性幀進行提取。

圖2(a)顯示了代表性幀的第一主成分，對于圖2(b)中的運動序列，在卡納基梅隆大學(xué)CMU數(shù)據(jù)庫中對應(yīng)于“01-01.bvh”，從所有運動視頻幀中找到20個聚類中心，不同的聚類數(shù)據(jù)用不同的顏色表示。為了便于展示，原始特征(84維四元數(shù)矢量)使用主成分分析(principal component analysis，PCA)來縮小維數(shù)，只保留第一和第二主要分量。圖2(b)顯示了與聚類中心對應(yīng)的代表幀。

1.3 使用自動編碼器提取運動特征

自動編碼器可以看作是神經(jīng)網(wǎng)絡(luò)。使用自動編碼器可以減小輸入數(shù)據(jù)的維數(shù)，并將重構(gòu)的信號作為輸出。在深層網(wǎng)絡(luò)中，自動編碼器始終作為自動學(xué)習(xí)對象特征的良好模式，其在無監(jiān)督的學(xué)習(xí)機制環(huán)境下訓(xùn)練，這一訓(xùn)練過程是必不可少的。自動編碼器由編碼器和解碼器組成。

(a)運動特征的第一主要部分

(b)20個代表性框架對應(yīng)于20個中心

假設(shè)自動編碼器的輸入為x，首先，該編碼器將原始信號x映射到特征信號z[16]：

z(e)=h(e)(W(e)x+b(e))

(2)

其中，“(e)”是指神經(jīng)網(wǎng)絡(luò)編碼層；h(e)是傳遞函數(shù)；W(e)是加權(quán)矩陣；b(e)是偏置向量。

(3)

其中，“(d)”是指第d網(wǎng)絡(luò)層；h(d)是解碼器的傳遞函數(shù)；W(d)是權(quán)重矩陣；b(d)是偏置向量。

(4)

代價函數(shù)E由3部分組成，第1部分是均方誤差，第2部分是L2正則化，第3部分是稀疏正則化，L2正則化系數(shù)為λ，稀疏正則化系數(shù)為β。

如果將L2正則化：

(5)

其中，L,n,k分別是訓(xùn)練數(shù)據(jù)中的隱層數(shù)、觀測數(shù)和變量數(shù)。

通常添加一個正則化來激勵稀疏項，如果將第i個神經(jīng)元激活估量定義為[17]：

(6)

接下來，利用Kullback Leibler發(fā)散呈現(xiàn)稀疏正則化[17-18]：

(7)

1.4 運動檢索

(8)

(9)

此外，RFX和RFY之間的最佳規(guī)整路徑是在所有可能的規(guī)整路徑中具有最小總成本的規(guī)整路徑p*。然后定義RFX和RFY之間的MDDP距離是p*的總成本：

dMDDP(RFX,RFY)=Cp*(RFX,RFY)

(10)

為了確定最優(yōu)路徑p*，使用動態(tài)規(guī)劃，根據(jù)文獻[6]，有以下定理：

定理1：累積成本矩陣D滿足：

(11)

根據(jù)定理1，最終優(yōu)化MDDP的距離是：

dMDDP(RFX,RFY)=Cp*(RFX,RFY)=D(n,m)

(12)

文中選擇曼哈頓距離作為本地成本測量，與使用歐幾里德距離作為本地成本測量的傳統(tǒng)DTW算法相比，提出的檢索方式[6]具有更好的性能，接下來的實驗將會對此進行驗證?；趦蓚€關(guān)鍵步驟，代表幀提取和相似性距離匹配，可以根據(jù)相似距離順序獲得檢索結(jié)果。

2 實驗

實驗選擇使用HDM5運動數(shù)據(jù)庫[9]，從數(shù)據(jù)庫中獲得3 000個不同的動作片段，將3 000個運動片段分類到100個運動集合中。得到30個隨機選擇的運動集合，其中每個集合包括10個運動。實驗的測試環(huán)境是在具有奔騰6 GHz CPU和2 GB RAM的電腦上進行評估。

由于每個原始動作通常包含不止一個活動，為了獲得準(zhǔn)確的測試結(jié)果，這些片段被分割成由單個活動組成的基本運動序列。為了與提出的方法進行比較，也實施了DTW方法和US方法。測試目的是根據(jù)給定的查詢運動序列從運動數(shù)據(jù)庫中搜索最佳匹配的運動序列。

自動編碼器深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型[19]由四個模塊構(gòu)成，即輸入端信號是1 600維的向量組，對輸入的數(shù)據(jù)進行編碼的編碼器模塊，對編碼后的數(shù)據(jù)進行重構(gòu)的解碼器模塊以及輸出模塊。每一單個運動姿勢的圖像是40*40像素的尺寸大小，構(gòu)成1 600維的向量，這一運動序列存儲在向量組中，經(jīng)過深度學(xué)習(xí)網(wǎng)絡(luò)預(yù)處理把原運動序列降至100維。

為計算30種運動集合的平均精度值，同時采用了Deep-DTW、Quat-DTW和Deep-US方法。運動序列不同檢索精度的對比如圖3所示，圖3代表了數(shù)據(jù)庫中的一個運動動作：clap5Resp。

圖3 運動序列檢索精度的對比

圖4是運動序列檢索精度仿真結(jié)果，對應(yīng)于圖3一樣的運動，并將所有查詢的運動序列的精度值進行平均，得到運動類別的平均值，檢索精度使用PR(precision-recall)曲線圖進行評估：

(13)

(14)

其中，#retrieved是檢索到的運動序列的數(shù)量；#relevant是相關(guān)運動序列的數(shù)量。

圖4 PR曲線檢索精度仿真結(jié)果

從圖4可以看到，使用Deep-DTW方法對序列進行檢索[20-25]，精度都高于其他兩種方法。說明使用Deep-DTW方法對序列進行檢索較其他檢索方法性能好。

3 結(jié)束語

提出一種基于深度學(xué)習(xí)和動態(tài)時間規(guī)劃相結(jié)合的運動檢索算法。針對運動數(shù)據(jù)庫中的運動序列，首先利用模糊聚類獲取運動代表性幀及其對應(yīng)的權(quán)重值，進而建立關(guān)鍵幀圖像集合?；谏疃葘W(xué)習(xí)，通過對圖像集合學(xué)習(xí)來訓(xùn)練自動編碼器，運用訓(xùn)練的自動編碼器提取各個關(guān)鍵幀運動姿態(tài)特征，建立運動特征數(shù)據(jù)庫。為了計算相似度距離，在運動檢索方法中，針對待查詢運動序列，使用訓(xùn)練獲取的自動編碼器對每一關(guān)鍵幀圖片提取特征，進而使用基于曼哈頓距離的動態(tài)規(guī)劃方法計算待查詢運動與數(shù)據(jù)庫中運動的相似度，并根據(jù)相似度量值對檢索結(jié)果進行排序。實驗結(jié)果證明，該方法具有很好的精確性和有效性。

參考文獻：

[1] XIAO Jun，TANG Zhangpeng， FENG Yinfu,et al.Sketchbased human motion retrieval via selected 2D geometric posture descriptor[J].Signal Processing，2015，113:1-8.

[2] WANG Pengjie，LAU R W H，PAN Zhigeng,et al.An Eigen-based motion retrieval method for real-time animation[J].Computers & Graphics，2014，38:255-267.

[3] LI Meng，LEUNG H，LIU Zhiguang,et al.3D human motion retrieval using graph kernels based on adaptive graph construction[J].Computers & Graphics，2016，54:104-112.

[4] MüLLER M，RODER T,CLAUSEN M.Efficient content-based retrieval of motion capture data[J].ACM Transactions on Graphics，2005，24(3):677-685.

[5] MüLLER M,BAAK A,SEIDEL H P.Efficient and robust annotation of motion capture data[C]//ACM SIGGRAPH/Eurographics symposium on computer animation.New Orleans：ACM,2009:17-26.

[6] KRUGER B，TAUTGES J，WEBER A，et al.Fast local and global similarity searches in large motion capture databases[C]//Proceedings of the 2010 ACM SIGGRAPH/Eurographics symposium on computer animation.Madrid，Spain:ACM，2010:1-10.

[7] VOGELE A，KRUGER B，KLEIN R.Efficient unsupervised temporal segmentation of human motion[C]//Proceedings of the ACM SIGGRAPH/Eurographics symposium on computer animation.Copenhagen,Denmark:ACM,2015:167-176.

[8] MULLER M,RODER T,CLAUSEN M,et al.Documentation mocap database HDM05[R].[s.l.]:[s.n.],2007.

[9] Graphics Lab.Motion capture database[EB/OL].2012.http://mocap.cs.cmu.edu/.

[10] KEIGH E，RATANAMAHATANA C A.Exact indexing of dynamic time warping[J].Knowledge & Information Systems，2005，7(3):358-386.

[11] KAPADIA M，CHIANG I K，THOMAS T，et al.Efficient motion retrieval in large motion databases[C]//ACM SIGGRAPH symposium on interactive 3d graphics and games.Orlando,Florida:ACM，2013:19-28.

[12] ZHOU Feng.Generalized time warping for multimodal alignment of human motion[C]//IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE，2012:1282-1289.

[13] BAAK A，MüLLER M,SEIDEL H P.An efficient algorithm for keyframe-based motion retrieval in the presence of temporal deformations[C]//ACM international conference on multimedia information retrieval.Vancouver,British Columbia,Canada:ACM，2008:451-458.

[14] CHEN Cheng，ZHUANG Yueting，NIE Feiping,et al.Learning a 3D human pose distance metric from geometric pose descriptor[J].IEEE Transactions on Visualization & Computer Graphics，2011,17(11):1676-1689.

[15] ZHOU Feng，TORRE F D L，HODGINS J K.Hierarchical aligned cluster analysis for temporal clustering of human motion[J].IEEE Transactions on Pattern Analysis & Machine Intelligence，2012，35(3):582-596.

[16] ZHAN Xiwu，HOUSER P R，WALKER J P,et al.A method for retrieving high-resolution surface soil moisture from hydros L-band radiometer and radar observations[J].IEEE Transactions on Geoscience & Remote Sensing，2006，44(6):1534-1544.

[17] KOVAR L，GLEICHER M.Automated extraction and parameterization of motions in large data sets[J]. ACM Transactions on Graphics,2004,23(3):559-568.

[18] SALTON G,MCGILL M J.Introduction to modern information retrieval[M].New York:McGrawHill，1983.

[19] 尹征，唐春暉，張軒雄.基于改進型稀疏自動編碼器的圖像識別[J].電子科技,2016,29(1):124-127.

[20] 肖秦琨,李俊芳,肖秦漢.基于四元數(shù)描述和EMD的人體運動捕獲數(shù)據(jù)檢索[J].計算機技術(shù)與發(fā)展,2014,24(3):90-93.

[21] 呂剛,郝平,盛建榮.一種改進的深度神經(jīng)網(wǎng)絡(luò)在小圖像分類中的應(yīng)用研究[J].計算機應(yīng)用與軟件,2014,31(4):182-184.

[22] 楊濤.運動捕獲數(shù)據(jù)關(guān)鍵幀提取及檢索研究[D].杭州:浙江大學(xué),2006.

[23] 李婷.基于運動捕獲數(shù)據(jù)的人體運動編輯技術(shù)研究[D].武漢:華中科技大學(xué),2008.

[24] 鄭啟財.基于深度學(xué)習(xí)的圖像檢索技術(shù)的研究[D].福州:福建師范大學(xué),2015.

[25] 連荷清.人體運動捕獲數(shù)據(jù)的檢索方法研究[D].南京:南京理工大學(xué),2013.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡