国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于計算機(jī)視覺的運動動作無標(biāo)記識別技術(shù)研究進(jìn)展

2021-09-20 09:15:22岑炫震顧耀東
上海體育學(xué)院學(xué)報 2021年9期
關(guān)鍵詞:攝像機(jī)精度動作

孫 冬,宋 楊,2,岑炫震,2,盛 博,顧耀東

(1.寧波大學(xué)體育學(xué)院,浙江寧波315211;2.塞格德大學(xué)工程學(xué)院,匈牙利塞格德6700;3.上海大學(xué)機(jī)電工程與自動化學(xué)院,上海200444)

當(dāng)前,動作捕捉系統(tǒng)(Motion Capture System,MoCap)及相關(guān)技術(shù)已廣泛應(yīng)用于運動科學(xué)、生物力學(xué)以及康復(fù)醫(yī)學(xué)等領(lǐng)域[1-6]。例如,可穿戴的慣性傳感測量元件(Inertial Measurement Unit,IMU)包含了加速度計、陀螺儀和磁強(qiáng)計傳感器等組件,可以進(jìn)行三軸測量,基于人體運動的分層結(jié)構(gòu),分別量化加速度、角速度和運動方向[7]。由于輕便、無線和便于操作等特性,其已被成功應(yīng)用于足球、游泳、高山滑雪、跑步等項目的動作識別[8-11]。然而,在競技比賽中,實驗控制條件的受限以及禁止在體表粘貼標(biāo)記點和佩戴傳感器的要求提示上述動作捕捉技術(shù)存在劣勢[12]。

近年來,基于計算機(jī)視覺的無標(biāo)記動作捕捉技術(shù)使得復(fù)雜環(huán)境下的人體動作識別(human activity recognition)成為可能。通過攝像設(shè)備進(jìn)行無標(biāo)記動作捕捉,遠(yuǎn)程獲取比賽中的運動學(xué)信息,依托計算機(jī)視覺的機(jī)器學(xué)習(xí)(machine learning)算法,將檢測到的人體活動表示為與特定動作相對應(yīng)的波信號特征并提取到計算機(jī)終端,進(jìn)而同步完成視頻的自動分析、信息的自動提取以及快速反饋[13-17]。基于計算機(jī)視覺圖像的動作分析首先需要預(yù)測或估計目標(biāo)在圖像序列中的位置和方向,通過識別連續(xù)圖像中具有相同或相近特征的目標(biāo),進(jìn)而實現(xiàn)對位移參數(shù)的實時追蹤和獲?。?8]。在當(dāng)前實際應(yīng)用中,通常將人體結(jié)構(gòu)簡化為由無摩擦的轉(zhuǎn)動關(guān)節(jié)連接而成的一系列剛體,便于機(jī)器的識別與追蹤[19],然而事實上人體運動十分復(fù)雜,并且由于肌肉、肌腱等軟組織的存在,并不能以簡單的剛體模型進(jìn)行描述。因此,精準(zhǔn)跟蹤和量化動態(tài)的人體姿態(tài)成為當(dāng)前計算機(jī)視覺、機(jī)器學(xué)習(xí)以及運動科學(xué)等領(lǐng)域?qū)<宜媾R的難點之一[20-22]。

此外,傳統(tǒng)的機(jī)器學(xué)習(xí)算法對原始運動學(xué)數(shù)據(jù)的處理能力有限,無法有效地對不連續(xù)、有噪聲以及存在缺失值的高維數(shù)據(jù)進(jìn)行訓(xùn)練[23-24],并且總是需要對原始數(shù)據(jù)進(jìn)行預(yù)處理,包括卡爾曼濾波(Kalman Filter)、傅里葉快速變換(Fast Fourier Transform,F(xiàn)FT)以及包括主成分分析(Principal Component Analysis,PCA)和 向 量 編 碼 技 術(shù)(vector coding techniques)的降維等一系列步驟[23,25-28]。值得注意的是,與實驗室環(huán)境下的三維動作捕捉分析相比,基于比賽現(xiàn)場的計算機(jī)視覺運動分析系統(tǒng)魯棒性、準(zhǔn)確性以及有效性的平衡依賴于算法的改良和硬件的優(yōu)化[29]。近年來,結(jié)合深度學(xué)習(xí)(deep learning)算法進(jìn)行人體姿態(tài)自動識別引起計算機(jī)視覺等領(lǐng)域?qū)<覍W(xué)者的廣泛關(guān)注[30]。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個重要分支,其特點是具有更深層次的神經(jīng)網(wǎng)絡(luò)模型架構(gòu),其理念來源于人腦的生物神經(jīng)網(wǎng)絡(luò)[31]。該算法大多使用人工標(biāo)記的圖像數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),隨后將圖像或視頻輸入經(jīng)過訓(xùn)練后的網(wǎng)絡(luò),從而進(jìn)行人體姿態(tài)、關(guān)節(jié)中心和骨骼位置的估計和識別[32]。與基于紅、綠、藍(lán)三原色(Red-Green-Blue,RGB)深度圖像的微軟Kinect攝像機(jī)相比,深度學(xué)習(xí)算法對攝像機(jī)與待測目標(biāo)之間的距離及視頻記錄采樣頻率等約束較少[33-34]。當(dāng)前,以深度學(xué)習(xí)為基礎(chǔ)的方法已實現(xiàn)從二維RGB圖像自動估計人體關(guān)節(jié)中心,并輸出圖像中的二維坐標(biāo)[35]。同時,通過使用多臺攝像機(jī)聯(lián)動,同步多視角攝像機(jī)圖像中的人體二維關(guān)節(jié)位置,并結(jié)合深度學(xué)習(xí)算法能夠?qū)崿F(xiàn)三維空間內(nèi)對人體關(guān)節(jié)中心點和關(guān)鍵骨性標(biāo)記點的定位[36]?;谌梭w三維姿態(tài)識別的深度學(xué)習(xí)計算機(jī)視覺研究正嘗試使用一種算法進(jìn)行姿勢位置的估計和追蹤,并且已有研究[37-38]探索了基于單目攝像機(jī)的三維人體姿態(tài)識別。

基于上述研究現(xiàn)狀,本文通過系統(tǒng)回顧國內(nèi)外基于計算機(jī)視覺的無標(biāo)記動作捕捉技術(shù),包括圖像識別技術(shù)、機(jī)器學(xué)習(xí)算法以及深度學(xué)習(xí)算法在運動動作識別領(lǐng)域的應(yīng)用現(xiàn)狀,揭示無標(biāo)記動作捕捉在運動檢測和特征動作識別領(lǐng)域的潛在應(yīng)用,如可實現(xiàn)日常訓(xùn)練比賽中運動員動作的無干擾識別與快速反饋,為教練員訓(xùn)練決策提供參考。

1 研究方法

1.1 文獻(xiàn)檢索策略

為確保納入文獻(xiàn)的全面性,本文的文獻(xiàn)篩選過程依據(jù)系統(tǒng)評價和meta分析的PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analysis)聲明[39],對Web of Science、PubMed、Scopus、Google Scholar、IEEE Xplore、中國知網(wǎng)(CNKI)6個數(shù)據(jù)庫進(jìn)行文獻(xiàn)檢索。檢索時間為2000年1月1日—2020年6月30日。檢索中英文關(guān)鍵詞運用“AND/OR”布爾運算符進(jìn)行組合連接。英文檢索詞包括:(Sports OR Exercise OR Movement OR Motion OR Athlete OR Player OR Match OR Competition OR Game OR Training)AND(Movement OR Motor OR Action OR Skill)AND(Vision OR Computer Vision OR Machine Vision OR Camera OR Video OR Footage OR Motion)AND(Capture OR Recognition OR Detection OR Classification)。中文檢索詞包括:(運動OR運動員OR球員OR比賽OR競賽OR訓(xùn)練)AND(運動動作OR移動OR行動OR技能)AND(視覺OR計算機(jī)視覺OR機(jī)器視覺OR攝像機(jī)OR視頻OR鏡頭OR動作)AND(捕捉OR識別OR檢測OR分類)。依據(jù)以上檢索關(guān)鍵詞依次對文獻(xiàn)的標(biāo)題、摘要進(jìn)行篩選,隨后提取文獻(xiàn)全文進(jìn)行評估。同時為避免遺漏,對檢索文獻(xiàn)的參考文獻(xiàn)進(jìn)行二次溯源檢測。文獻(xiàn)檢索流程如圖1所示。

圖1 文獻(xiàn)檢索流程Figure 1 Flow diagram of the study selection process

1.2 納入/排除文獻(xiàn)標(biāo)準(zhǔn)

納入文獻(xiàn)標(biāo)準(zhǔn):①研究文獻(xiàn)是公開發(fā)表的中文或英文論文;②研究聚焦具體的體育運動或動作,有計算機(jī)視覺輸入作為模型訓(xùn)練數(shù)據(jù)庫;③機(jī)器學(xué)習(xí)算法,數(shù)據(jù)處理過程定義清晰;④動作識別過程為半自動或全自動化。排除文獻(xiàn)標(biāo)準(zhǔn):①綜述類論文;②研究不涉及具體的運動動作,或與臨床或康復(fù)應(yīng)用相關(guān);③研究關(guān)注點為運動器材而非運動員本身;④數(shù)據(jù)處理過程和機(jī)器學(xué)習(xí)識別模型定義不明確。

1.3 研究信息篩選與提取

首先由2名作者分別對納入文獻(xiàn)的關(guān)鍵信息進(jìn)行提取,使用Microsoft Excel 2016收集整理關(guān)鍵信息,不一致的信息由第3名作者綜合評估判斷。納入文獻(xiàn)關(guān)鍵信息包括第一作者、發(fā)表年份、運動類型/目標(biāo)動作、樣本量、受試者性別、運動員等級、攝像機(jī)數(shù)量、攝像機(jī)規(guī)格、采集頻率、圖像特征提取技術(shù)、動作識別技術(shù)、動作識別質(zhì)量評估方法、圖像數(shù)據(jù)訓(xùn)練與驗證、動作識別精度表現(xiàn)14個指標(biāo)。通過前期文獻(xiàn)研究結(jié)果,發(fā)現(xiàn)受試者即采集對象的年齡對機(jī)器學(xué)習(xí)模型的識別精度幾乎無影響,因此未將受試者年齡因素納入考慮范圍。動作識別技術(shù)包括將視頻數(shù)據(jù)集轉(zhuǎn)換為便于識別的預(yù)處理過程,以及將目標(biāo)運動或動作進(jìn)行分割的處理階段(包括特征識別和提取技術(shù),以及所采用的機(jī)器學(xué)習(xí)算法等)。

2 研究結(jié)果

2.1 文獻(xiàn)篩選結(jié)果

本文共檢索到研究文獻(xiàn)1 387篇,其中,通過Web of Science、PubMed、Scopus、Google Scholar、IEEE Xplore 5個英文數(shù)據(jù)庫檢索獲得文獻(xiàn)1 362篇,通過中國知網(wǎng)(CNKI)中文數(shù)據(jù)庫檢索獲得文獻(xiàn)25篇。統(tǒng)一導(dǎo)入文獻(xiàn)管理軟件Mendeley(2020)去重后得到1 046篇文獻(xiàn),由2名作者通過關(guān)鍵詞、標(biāo)題、摘要、全文進(jìn)行獨立審查,結(jié)合前文制定的納入與排除標(biāo)準(zhǔn)進(jìn)一步篩選剔除,最終納入23篇文獻(xiàn),如圖1所示。

2.2 納入文獻(xiàn)實驗設(shè)計

本文納入研究文獻(xiàn)均為基于計算機(jī)視覺的無標(biāo)記動作捕捉技術(shù),結(jié)合機(jī)器(深度)學(xué)習(xí)算法對多種運動項目及相關(guān)動作進(jìn)行的識別和應(yīng)用。在納入的23篇文獻(xiàn)中,涉及網(wǎng)球運動的有3項[40-42]、籃球運動的有3項[43-45]、體操運動的有2項[46-47]、拳擊運動的有2項[48-49]、冰球運動的有2項[50-51]、高爾夫運動的有1項[52]、足球運動的有1項[53]、跳水運動的有1項[54]、排球運動的有1項[55]、空手道運動的有1項[56],1項研究同時包含游泳和網(wǎng)球運動[57],1項研究同時包含高爾夫和棒球運動[58],1項研究涉及步行、反向跳、擲球等基礎(chǔ)動作[12],1項研究同時包含自行車和單板滑雪運動[59],1項研究涉及多種競技運動組合,其數(shù)據(jù)集包含110萬個經(jīng)過標(biāo)記的視頻以及400余種不同的運動動作[60]。納入研究多以職業(yè)運動員為研究對象(n=17),有16項研究報告了選取的運動員性別,其中14項研究[12,42-45,47-50,52-53,56,58-59]的受試者僅為男性,1項研究[46]的受試者為女性,1項研究[41]同時包含男性和女性受試者。目前,無標(biāo)記動作捕捉前處理環(huán)節(jié)較為主流的方法是針對目標(biāo)運動特征進(jìn)行分類處理,例如將網(wǎng)球運動分類為發(fā)球、正手擊球和反手擊球3類[40-42],將游泳運動按照泳姿分為蛙泳、仰泳、蝶泳和自由泳4類[57,61]?;谏疃葘W(xué)習(xí)算法的語義描述模型,能夠?qū)崿F(xiàn)對運動員訓(xùn)練動作、技術(shù)水平及疲勞程度的分類和預(yù)測,例如對體操鞍馬旋轉(zhuǎn)動作的分類等[47]。

2.3 計算機(jī)視覺圖像獲取途徑

本文選取的23項研究包含了多種不同的實驗設(shè)計及計算機(jī)視覺圖像獲取方式,如表1所示。傳統(tǒng)的基于反光標(biāo)記追蹤的紅外三維動作捕捉與基于計算機(jī)視覺的無標(biāo)記動作捕捉流程如圖2所示。有16項研究[12,40-44,46,50,52-54,56-59,61]的計算機(jī)視覺圖像采集依靠主流的RGB攝像機(jī)進(jìn)行,3項研究[47-49]采用深度攝像頭對競技運動場的三維圖像進(jìn)行深度感知和獲取,此外還有4項研究[45,51,55,60]的攝像頭類型未給出。從攝像頭數(shù)量以及設(shè)置的角度看,10項研究[43-44,46-49,52,54,56,58]采用單目鏡頭完成全部圖像的采集和獲取,其中3項使用深度攝像頭的研究[47-49]均使用單目鏡頭。1項研究[53]采用了16個環(huán)繞足球場的RGB攝像頭,以“鳥瞰(bird'seyeview)”視角對全場運動圖像進(jìn)行采集。此外,共有11項研究[12,43,46,48-49,52-53,56-59]報道了攝像機(jī)的采集頻率,從25幀/s到210幀/s不等。O′Conaire等[42]使用1個俯視鏡頭及8個圍繞網(wǎng)球場邊線的鏡頭對運動員的發(fā)球、正手擊球和反手擊球動作進(jìn)行識別,但由于障礙遮擋等因素,僅有2個攝像頭捕捉的圖像可用于最終的動作識別分析。

圖2 無標(biāo)記計算機(jī)視覺輪廓動作捕捉與反光標(biāo)記紅外三維動作捕捉流程[62]Figure2 Themarkerlesscomputer vision motion captureand themarker-based infrared three-dimensional motion capture

表1 基于計算機(jī)視覺的無標(biāo)記動作捕捉相關(guān)研究關(guān)鍵信息提?。∟=23)Table 1 Extraction of key information related to studies on vision-based markerless motion capture studies(N=23)

續(xù)表1

續(xù)表1

續(xù)表1

2.4 圖像特征提取與動作識別技術(shù)

基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法的計算機(jī)視覺捕捉圖像特征提取是本文涉及的23項研究采用的主流方法,主要體現(xiàn)在二維圖像的轉(zhuǎn)換以及輸入圖像數(shù)據(jù)的分割等處理步驟。納入研究均報道了圖像特征提取采用的關(guān)鍵算法和技術(shù),其中單純使用機(jī)器學(xué)習(xí)算法的研究[40-42,46-50,52-53,56,58-59,61]有14項,僅借助深度學(xué)習(xí)算法的研究[43,45,51,54-55,57,60]有7項,同時結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法的研究[12,44]有2項。

納入文獻(xiàn)中共有9項研究[40-42,44,47-49,58-59]采用支持向量機(jī)(Support Vector Machine,SVM)相關(guān)算法,其中:2006—2008、2012、2015、2018年各1項,2017年3項,共占所有研究的39%;2009、2013、2014、2017年共有4項研究[46,48,50,52]采用基于機(jī)器學(xué)習(xí)的降維算法,其中包括主成分分析和線性判別分析(Linear Discriminant Analysis,LDA);2010、2014、2015、2019年共有4項研究[12,42,46,53]采 用k-近 鄰 算 法(k-Nearest Neighbour,kNN);2015和2017年共有2項研究[44,56]采用隱馬爾科夫模型(Hidden Markov Model,HMM)相關(guān)算法,另有2項研究[48-49]采用隨機(jī)森林(Random Forest,RF)算法;2003年有2項研究,其中1項采用邏輯回歸分析算法(Logistic Regression,LR)相關(guān)算法[61],另外1項采用決策樹(Decision Tree,DT)算法[61];2015年有1項研究[53]采用多層感知(Multilayer Perceptron,MLP)算法,2013年有1項研究[52]采用達(dá)爾文粒子群優(yōu)化方法(Darwinian Particle Swarm Optimization Method,DPSOM)。在所有使用深度學(xué)習(xí)相關(guān)算法的研究中,采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)相關(guān)算法的研究[12,43-44,51,54-55,57,60]有8項,其中僅2017年就有5項,另外3項研究分別發(fā)表于2014、2016、2019年;此外,2015、2016、2017年有3項研究[43,45,55]采 用 了 循 環(huán) 神 經(jīng) 網(wǎng) 絡(luò)(Recurrent Neural Network,RNN)相關(guān)算法。

2.5 動作識別質(zhì)量評估與精度表現(xiàn)

如表1所示,基于計算機(jī)視覺的動作識別質(zhì)量評估方法大部分采用定量評估,其中采用分類精度方法(Classification Accuracy,CA)進(jìn) 行 評 估 的 研究[41-42,44-45,47-51,53,55-56,58,60]有14項,占所有研究的65%。從識別精度表現(xiàn)角度評估,分類精度值越接近100%,說明動作識別精度越高。納入研究的分類精度范圍為49.2%~100%,其中分類精度值范圍小于80%的研究[45,48,50-51,55,60]有6項,分類精度值范圍在90%~100%的研究[41-42,44,47,49,53,56,58]有8項,有1項研究[54]的分類精度值范圍在80%~100%。采用混淆矩陣(Confusion Matrix,CM)對模型動作識別結(jié)果進(jìn)行可視化的研究[41,48-52,55-56,60]有9項。有2項研究[43,57]采用F1得分來判斷動作識別算法的精確度,研究的目標(biāo)運動為籃球,以及游泳和網(wǎng)球。2項研究[12,59]采用位移誤差評估識別精度,其中:1項研究的動作識別位移誤差小于5 mm;另1項研究基于OpenPose開源人體姿態(tài)估計算法的無標(biāo)記動作捕捉,80%的位移誤差在30 mm以下,但有10%的位移誤差在40 mm以上,識別精度較為局限。

3 討論

隨著計算機(jī)技術(shù)、圖像識別處理技術(shù)以及人工智能等相關(guān)算法的發(fā)展進(jìn)步,全自動、實時、無標(biāo)記的動作捕捉應(yīng)是未來運動科學(xué)領(lǐng)域進(jìn)行動作識別和動作技術(shù)分析的主流方式。相比于傳統(tǒng)的實驗室運動學(xué)測量分析,無標(biāo)記動作捕捉技術(shù)的優(yōu)勢[15]:一方面能夠擺脫場地等限制因素,降低測試前準(zhǔn)備工作量;另一方面能夠大大提升動作捕捉的效率,做到實時反饋甚至超前預(yù)判,為教練員的訓(xùn)練決策和運動員場上動作技術(shù)改進(jìn)提供依據(jù)。目前,基于計算機(jī)視覺的無標(biāo)記動作捕捉在競技體育和運動科學(xué)領(lǐng)域的應(yīng)用較少,相關(guān)識別技術(shù)、算法有待進(jìn)一步開發(fā),同時系統(tǒng)的魯棒性、準(zhǔn)確性、靈敏性也需要進(jìn)一步驗證。傳統(tǒng)的基于紅外攝像機(jī)的三維動作捕捉系統(tǒng)僅需要識別粘貼在受試者體表骨性標(biāo)志的反光點,隨后基于追蹤的標(biāo)記點三維坐標(biāo)構(gòu)建人體骨架模型。然而,在無標(biāo)記動作捕捉領(lǐng)域,就需要借助相關(guān)的機(jī)器學(xué)習(xí)算法識別人體動作,構(gòu)建人體運動學(xué)模型,完成連續(xù)圖像中的運動學(xué)參數(shù)獲取[17]。基于計算機(jī)視覺的無標(biāo)記動作捕捉系統(tǒng)主要由4個組成部分:①攝像機(jī)系統(tǒng);②人體圖像識別模型構(gòu)建;③圖像特征提?。虎軝C(jī)器學(xué)習(xí)識別算法的應(yīng)用。在以上4個部分中,圖像參數(shù)的捕捉和獲取是離線(off-line)處理部分,圖像特征提取、識別模型構(gòu)建以及算法應(yīng)用是在線(on-line)處理部分,機(jī)器學(xué)習(xí)識別算法的優(yōu)化通常需要大量的圖像數(shù)據(jù)訓(xùn)練以提升識別效果。下文結(jié)合計算機(jī)視覺無標(biāo)記動作捕捉系統(tǒng)的4個組成部分以及動作捕捉精度進(jìn)行具體分析,并提出當(dāng)前無標(biāo)記動作捕捉技術(shù)的局限性和未來研究方向。

3.1 運動圖像捕捉及模型構(gòu)建

本文納入的研究多數(shù)采用單目RGB攝像機(jī)配置。與多個攝像機(jī)相比,單個攝像機(jī)輸出的數(shù)據(jù)可以最大限度地減少需要處理的數(shù)據(jù)量,降低計算工作量。然而,由于遮擋和視角變化,單攝像機(jī)在細(xì)節(jié)特征捕捉以及多個體參與的團(tuán)隊競賽中存在局限性,但多攝像機(jī)配置會增加處理時間和模型計算的復(fù)雜程度[63]。因此,需要對計算量和運動捕捉的精度進(jìn)行有效平衡,使攝像頭的放置位置和數(shù)量適應(yīng)運動目標(biāo)的生物力學(xué)特征及捕捉環(huán)境。本文納入的研究大多是基于運動現(xiàn)場的實時動作捕捉,即需要快速反饋,因此使用便攜式的單目RGB攝像頭易于在動態(tài)環(huán)境中捕捉運動圖像,節(jié)省校準(zhǔn)和標(biāo)定耗時。當(dāng)前,用于圖像捕捉的攝像機(jī)主要包含2種類型:①傳統(tǒng)的識別圖像顏色、亮度等特征的RGB攝像機(jī);②能夠識別圖像中每個像素點到攝像頭距離的深度攝像機(jī)[64]。相比于傳統(tǒng)攝像機(jī),深度攝像機(jī)受光線、陰影、反射和復(fù)雜背景的影響較小??梢酝瑫r獲取圖像顏色和深度值的RGB-D傳感相機(jī)系統(tǒng)通過光線傳輸時間(Time of Fight,ToF)技術(shù),采用紅外線作為光源,記錄光源強(qiáng)度信息以及光線從光源到圖像中像素點的時間,能夠?qū)θ梭w全身的三維姿態(tài)進(jìn)行有效估計。目前該技術(shù)已應(yīng)用在微軟Kinect人機(jī)交互系統(tǒng),能夠感知三維環(huán)境中的人體姿態(tài)[65]。當(dāng)前已有研究比較基于ToF技術(shù)的深度相機(jī)和基于反光標(biāo)記的動作捕捉系統(tǒng)識別人體下蹲動作的運動學(xué)參數(shù),但需要注意的是,深度相機(jī)較低的采集頻率(通常為30幀/s以下)和對自然光線高度的敏感性以及多深度傳感器之間的干擾可能會限制其在運動科學(xué)中的應(yīng)用[64]。

無標(biāo)記動作捕捉建立的人體模型與基于反光標(biāo)記三維動作捕捉建立的人體骨架模型類似,均是由骨骼以及相鄰骨骼組成的關(guān)節(jié)構(gòu)成,通常采用骨骼長度、關(guān)節(jié)相對位移以及關(guān)節(jié)角度等指標(biāo)量化模型特征[66]?;跓o標(biāo)記動作捕捉的人體模型構(gòu)建通常需要識別圖像中人體的輪廓和體積特征,再通過進(jìn)一步的算法提取人體模型中的關(guān)節(jié)運動軌跡等運動學(xué)參數(shù)[67]。早期研究通常采用簡化的圓柱幾何形狀近似表示人體模型的輪廓和體積特征,該模型以人體骨架為基礎(chǔ),在已知四肢長度和人體姿態(tài)的前提下,可以通過空間三維高斯函數(shù)(Spatial 3D Gaussians)排列簡化的立體幾何形態(tài),將體積參數(shù)賦予骨架模型,從而生成人體模型輪廓[68]。這種識別模型仍然有其應(yīng)用的場景,原因是該模型僅需要提取相對簡單的圖像特征,實現(xiàn)對人體位置快速和近實時擬合,但缺點是擬合精度有限,難以在精確定量的運動分析中應(yīng)用[69]。目前,三維統(tǒng)計形狀模型(3D Statistical Shape Model)方法已被應(yīng)用于人體建模,該方法通過識別圖像中的關(guān)鍵點,結(jié)合形狀對齊、相似變換(similarity transformation)、主成分分析降維處理等操作步驟,使用數(shù)量較少的二維參數(shù)擬合圖像中的人體形態(tài)[70-71]。但由于統(tǒng)計形狀模型方法聚焦的重點是人體模型的表層形態(tài),對模型底層的骨架結(jié)構(gòu)能否實現(xiàn)精確模擬還需要進(jìn)一步驗證?,F(xiàn)階段基于計算機(jī)視覺的無標(biāo)記動作捕捉大多構(gòu)建的是簡化后的人體參數(shù)模型,識別的有效性和準(zhǔn)確度在很大程度上取決于識別算法的質(zhì)量[72-73]。

3.2 基于計算機(jī)視覺的圖像特征

數(shù)字圖像由二維數(shù)字網(wǎng)格排列而成,其中每個網(wǎng)格中的數(shù)字代表該網(wǎng)格的顏色與亮度,即像素。確定像素與物體之間的關(guān)系是計算機(jī)視覺的一項根本任務(wù),如何提取圖像中的人體運動特征是實現(xiàn)無標(biāo)記動作捕捉的核心環(huán)節(jié)和技術(shù)難點,而基于標(biāo)記點的動作捕捉不存在圖像特征提取和識別的問題[74]。無標(biāo)記動作捕捉的首要任務(wù)是確定圖像的范圍和捕捉目標(biāo)的位置。傳統(tǒng)的捕捉目標(biāo)提取和圖像背景分割通常采用色度差分法,該方法將圖像背景預(yù)涂為特定顏色,要求被捕捉目標(biāo)使用色差較大的對比色,即可將目標(biāo)輪廓從圖像中快速分割出來[63]。對于圖像背景復(fù)雜,無法使用色度差分法的情況,則可以使用背景減除算法,但該方法較容易受到陰影、反射、遮擋、光線變化以及捕捉目標(biāo)之間的相互影響。圖像輪廓的模糊為特征識別增加了難度,僅通過輪廓特征無法提供被觀察對象與攝像機(jī)的距離參數(shù)、相對位置以及朝向等信息,可以通過增加攝像機(jī)數(shù)量,使用更為復(fù)雜的圖像輪廓特征識別算法降低處理過程的模糊性[75]。

在攝像機(jī)數(shù)量充足的前提下,可以通過不同角度的圖像輪廓擬合,實現(xiàn)捕捉目標(biāo)的三維形態(tài)轉(zhuǎn)換,獲得圖像輪廓視覺外殼(visual hull)[76]。該方法對多臺攝像機(jī)的觀察目標(biāo)進(jìn)行三維輪廓重建,基于不同方向角度捕捉到的二維圖像,結(jié)合每臺攝像機(jī)捕捉的視錐區(qū)域交點,形成三維的圖像輪廓視覺外殼[75]。捕捉目標(biāo)三維建模精確度和復(fù)雜程度的提升會導(dǎo)致運算時長和算法復(fù)雜程度增加。需要注意的是,圖像輪廓的三維重建不能解決所有的圖像擬合問題,還需要結(jié)合額外的信息輸入以識別圖像輪廓的位置與身體各環(huán)節(jié)的對應(yīng)關(guān)系[29]。捕捉目標(biāo)的輪廓識別是無標(biāo)記動作捕捉的重要組成部分,Liu等[77]基于1臺RGB攝像機(jī)對籃球投籃動作進(jìn)行圖像輪廓解析,相較于基于標(biāo)記點的動作捕捉,圖像分類精度達(dá)到了94.59%,實現(xiàn)了較為精確的圖像輪廓識別,并且可進(jìn)行多目標(biāo)跟蹤。使用圖像輪廓識別技術(shù)可以提高魯棒性,降低識別目標(biāo)模糊程度,減少攝像機(jī)的使用數(shù)量并簡化無標(biāo)記動作捕捉流程。隨著深度學(xué)習(xí)算法的應(yīng)用,圖像識別過程將得到進(jìn)一步簡化,使用單機(jī)位進(jìn)行被捕捉目標(biāo)的三維動作識別成為可能[78]。

3.3 基于機(jī)器學(xué)習(xí)的識別算法

用于識別圖像中人體姿態(tài)的機(jī)器學(xué)習(xí)算法可以分為生成式算法(generative algorithm)和判別式算法(discriminativealgorithm),統(tǒng)稱為監(jiān)督式學(xué)習(xí)[79]。監(jiān)督式學(xué)習(xí)算法在基于計算機(jī)視覺的無標(biāo)記動作識別領(lǐng)域占主導(dǎo)地位,訓(xùn)練數(shù)據(jù)集的生成首先需要對視頻進(jìn)行手動標(biāo)記和注釋等前處理過程,如果是由多攝像機(jī)跟蹤的多目標(biāo)運動,前處理難度會顯著增加。例如,Victor等[57]對高達(dá)15 000個游泳和網(wǎng)球視頻進(jìn)行了手動標(biāo)記,耗時較長,工作量較大。生成式算法對基于訓(xùn)練數(shù)據(jù)的學(xué)習(xí)進(jìn)行預(yù)測,模型參數(shù)可以根據(jù)圖像數(shù)據(jù)生成假設(shè),隨后對該假設(shè)進(jìn)行評估,通過進(jìn)一步的迭代優(yōu)化,從而確定最佳的預(yù)測匹配[80-81]。生成式算法包括樸素貝葉斯算法(naive Bayes)、隱馬爾可夫算法、k-近鄰算法等[82]。判別式算法直接使用圖像數(shù)據(jù)推斷模型參數(shù),避免了反復(fù)調(diào)整人體模型參數(shù)適應(yīng)圖像的過程,因此也被稱為無模型算法。與生成式算法相比,判別式算法處理時間較短,對異常值判別的魯棒性更高。常用的判別式算法包括邏輯回歸、支持向量機(jī)、決策樹、線性判別分析、神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)等[83]。

在基于生成式算法的無標(biāo)記動作識別中,人體的姿勢形態(tài)是通過將人體模型與從圖像中提取的信息進(jìn)行匹配確定的。例如,對于一組給定的模型參數(shù)(身體形狀、骨骼長度、關(guān)節(jié)角度等),首先可以生成對應(yīng)的模型預(yù)測參數(shù),隨后將預(yù)測參數(shù)與圖像提取特征進(jìn)行比較,從而計算單個“誤差值”,該“誤差值”可以表示假設(shè)值與觀測值的差異程度[84]。有研究[75,85]將預(yù)測得到的三維網(wǎng)格投影到二維圖像中,調(diào)整網(wǎng)格與捕捉目標(biāo)輪廓重疊程度最大化,通過迭代最近點算法(Iterative Closest Point,ICP)可以實現(xiàn)圖像視覺外殼與捕捉目標(biāo)各頂點的匹配度對比。生成式算法的關(guān)鍵是對算法函數(shù)的準(zhǔn)確定義,從而將特定假設(shè)與圖像信息進(jìn)行比對,如果算法函數(shù)失準(zhǔn),則無法實現(xiàn)最優(yōu)模型參數(shù)的匹配,導(dǎo)致運動約束降低和出現(xiàn)異常值的概率增加[86]。構(gòu)建針對較高圖像噪聲和較低模型配置的高魯棒性算法函數(shù)較為困難,一方面由于生成式算法需要對模型參數(shù)進(jìn)行合理可靠的初始推測,另一方面被捕捉目標(biāo)需要在開始階段以特定的姿勢進(jìn)行初始標(biāo)定[87]。在沒有人為干預(yù)的情況下,由于遮擋、圖像噪聲或其他因素導(dǎo)致的精度下降,算法函數(shù)是無法進(jìn)行自我糾正和還原的。前期已有研究[88]嘗試改進(jìn)相關(guān)算法函數(shù),或通過結(jié)合生成式算法和判別式算法來解決這一難點。當(dāng)前,無標(biāo)記動作識別主要通過機(jī)器學(xué)習(xí)算法實現(xiàn),但該文納入的9項研究采用了深度學(xué)習(xí)算法,其中基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法的總體計算用時最短,在相同硬件條件下的計算量更少,因此被其中的8項研究所采用。作為判別式算法的主要組成部分,深度學(xué)習(xí)將隨著硬件設(shè)施的提升、數(shù)據(jù)量的擴(kuò)大而得到越來越多的應(yīng)用[31,89]。

3.4 無標(biāo)記動作捕捉精度

無標(biāo)記動作捕捉的精度表現(xiàn)可以通過可視化的模型預(yù)測結(jié)果與真實測量結(jié)果之間的比較進(jìn)行量化,其中分類精度是最常使用的量化方法,其次是混淆矩陣。上述方法能夠較為清晰地呈現(xiàn)模型預(yù)測結(jié)果與實測結(jié)果之間的差異,從而呈現(xiàn)模型預(yù)測精度。后續(xù)測量包括模型靈敏度、精確度和再測精度,測量結(jié)果越接近1.0表明模型預(yù)測精度越高,效果越好[17]。F1得分(F1-Score)也稱F測量,是推導(dǎo)模型預(yù)測精度和靈敏度之間平衡性能的重要指標(biāo),可以對人體運動識別表現(xiàn)進(jìn)行深入分析。具體的模型精度預(yù)測方法和算法的使用需要根據(jù)數(shù)據(jù)類型,傳統(tǒng)的誤差率或錯誤率統(tǒng)計方法一般使用默認(rèn)的決策閾值,因此并不適用基于復(fù)雜的訓(xùn)練數(shù)據(jù)集開發(fā)的模型[90-91]。分類模型評估方法還包括接收者操作特征曲線(Receiver Operating Characteristic Curve,ROC),曲線下的包絡(luò)面積是ROC的重要特征,面積越接近1表示模型識別能力越強(qiáng)[92]。每種研究方法都有其特定的參數(shù)設(shè)置、特征向量和模型訓(xùn)練算法,因此,評估不同研究方法的合理性和有效性是較為復(fù)雜的。Wolpert[93]在1996年提出的“無免費午餐定理(No-Free-Lunch theorems)”,即NFL定理是機(jī)器學(xué)習(xí)及搜索優(yōu)化算法的重要理論基石,該定理指出,不存在單一的或通用的機(jī)器學(xué)習(xí)算法去解決和優(yōu)化所有的識別問題。因此,建議針對某一特定問題和數(shù)據(jù)集采用組合方法,輸入任務(wù)的先驗假設(shè)(prior assumption)來適應(yīng)模型輸入和相關(guān)參數(shù),以提高模型預(yù)測的整體成功率[94]。

本文納入的大多數(shù)研究是基于運動場的實時無標(biāo)記動作捕捉和運動員特定動作參數(shù)獲取的,包括執(zhí)行動作的數(shù)量、類型和強(qiáng)度等特征統(tǒng)計,可以應(yīng)用于運動負(fù)荷監(jiān)控、運動員個性化動作技術(shù)分析、自動化打分評估系統(tǒng)開發(fā)和團(tuán)體球類運動的傳球投籃動作質(zhì)量評估等領(lǐng)域[47,95]。對于足球、橄欖球等室外運動,由于動作本身的復(fù)雜性和環(huán)境干擾,個體化模型的一致性和跟蹤精度是當(dāng)前面臨的主要挑戰(zhàn)。例如,足球射門和傳球動作的分類精度在封閉的實驗室環(huán)境要高于室外足球場環(huán)境[96]。攝像機(jī)擺放位置和視頻分辨率對無標(biāo)記動作捕捉精度同樣有較大影響。Corazza等[75]使用高分辨率攝像機(jī)并調(diào)整攝像機(jī)位置后,關(guān)節(jié)中心點位移誤差從調(diào)整前的(79±12)mm降低至(15±10)mm?,F(xiàn)有研究[45,51,55]顯示,基于計算機(jī)視覺的深度學(xué)習(xí)算法在籃球、排球和冰球等團(tuán)體球類項目中具有較為穩(wěn)定的捕捉精度表現(xiàn),預(yù)測模型的計算效率、結(jié)果精度和復(fù)雜程度之間的平衡也是需要考慮的重要因素。

3.5 研究局限與未來展望

在本文納入的23項研究中,由于選取的模型參數(shù)和評估方法等差異,研究之間異質(zhì)性較大,無法進(jìn)行定量的薈萃分析。納入研究的動作識別技術(shù)限定在機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)算法領(lǐng)域,未考慮其他算法,例如線性判別函數(shù)分析等。此外,運動項目的不同以及運動場地大小的差異也可能是影響技術(shù)選擇的重要因素,但由于納入文獻(xiàn)數(shù)量的限制及側(cè)重點不同,本文并未對其進(jìn)行進(jìn)一步歸納分析。無標(biāo)記動作捕捉系統(tǒng)的精確度和魯棒性往往取決于研究領(lǐng)域和特定的采集環(huán)境,在不同領(lǐng)域的應(yīng)用方式是不統(tǒng)一的。運動生物力學(xué)和康復(fù)醫(yī)學(xué)等領(lǐng)域要求無標(biāo)記運動分析系統(tǒng)具有高度精確性和較強(qiáng)適應(yīng)性以檢測運動過程中的細(xì)微變化[15]?;谏鲜霾糠謶?yīng)用場景對無標(biāo)記動作捕捉系統(tǒng)的準(zhǔn)確性和穩(wěn)定性等方面需求,Elhayek等[78]提出將魯棒性較高的判別分析方法與無輪廓運動學(xué)模型擬合方法相融合,以提升精度表現(xiàn)。當(dāng)前,跑步運動的無標(biāo)記動作捕捉可以實現(xiàn)步長、步頻等時空參數(shù)的精確捕捉,并實現(xiàn)實時反饋[67]。三維關(guān)節(jié)角度等較為復(fù)雜的運動學(xué)參數(shù)需要對跟蹤對象進(jìn)行建模和在線捕捉采集,隨后進(jìn)行一定時間的離線處理,較難實現(xiàn)實時反饋。上述無標(biāo)記動作捕捉過程,不需要對受試者、環(huán)境等進(jìn)行特殊準(zhǔn)備和標(biāo)定等前處理,實現(xiàn)了訓(xùn)練實踐和運動科學(xué)研究的同步,快速實時的反饋為教練員訓(xùn)練方案選取和運動員動作技術(shù)優(yōu)化提供依據(jù)。但是,攝像機(jī)分辨率和捕捉精度需求的提升將導(dǎo)致視頻存儲和參數(shù)處理工作量大大增加,因此需要進(jìn)行有效平衡,增加無標(biāo)記動作捕捉的可操作性和實用價值。

4 結(jié)論與啟示

(1)本文對機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和相關(guān)算法技術(shù)在基于計算機(jī)視覺的無標(biāo)記動作捕捉系統(tǒng)中的應(yīng)用研究進(jìn)行歸納綜述,在動作技術(shù)識別和運動表現(xiàn)分析等領(lǐng)域,計算機(jī)視覺動作捕捉和相關(guān)模型、算法開發(fā)等已顯示出良好的應(yīng)用前景。其中支持向量機(jī)、主成分降維分析等傳統(tǒng)機(jī)器學(xué)習(xí)算法仍是目前采用的主流動作識別技術(shù)。但隨著卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法的開發(fā)與應(yīng)用,在部分場景下的動作捕捉和識別效果要優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。

(2)計算機(jī)視覺識別裝置,包括常規(guī)的RGB攝像機(jī)和深度攝像機(jī),其位置的擺放和設(shè)置、鏡頭分辨率、識別算法的選取以及數(shù)據(jù)存儲處理等過程需要結(jié)合具體的運動場景(室內(nèi)/室外/規(guī)模)、捕捉對象(單人/多人)和目標(biāo)運動特點。室外運動和多目標(biāo)運動項目容易受到捕捉環(huán)境、設(shè)備儀器和識別算法等的限制,因此,目前要實現(xiàn)對運動員動作的精確捕捉和實時反饋仍具有一定的挑戰(zhàn)性。

(3)未來研究可以針對特定運動動作識別和運動表現(xiàn)評估,將傳統(tǒng)的機(jī)器學(xué)習(xí)算法與深度學(xué)習(xí)識別算法進(jìn)行對比,從而為動作識別技術(shù)和相關(guān)算法的選取與融合應(yīng)用提供依據(jù)。計算機(jī)視覺圖像可以與可穿戴無線慣性傳感等裝置配合使用,實現(xiàn)運動過程的多參數(shù)聯(lián)合采集,提升無標(biāo)記動作識別的效果、效率和魯棒性。

作者貢獻(xiàn)聲明:

孫 冬:設(shè)計論文框架,撰寫論文;

宋 楊:搜索資料,修改論文;

岑炫震:核實數(shù)據(jù),修改論文;

盛 博:核實數(shù)據(jù),修改論文;

顧耀東:設(shè)計選題,指導(dǎo)并修改論文。

猜你喜歡
攝像機(jī)精度動作
基于DSPIC33F微處理器的采集精度的提高
電子制作(2018年11期)2018-08-04 03:25:38
動作描寫要具體
看監(jiān)控攝像機(jī)的4K之道
畫動作
動作描寫不可少
攝像機(jī)低照成像的前世今生
新安訊士Q6155-E PTZ攝像機(jī)
GPS/GLONASS/BDS組合PPP精度分析
非同一般的吃飯動作
如何消除和緩解“攝像機(jī)恐懼癥”
新聞前哨(2015年2期)2015-03-11 19:29:25
开封县| 竹山县| 积石山| 玉环县| 奇台县| 东阿县| 海淀区| 当涂县| 琼中| 和顺县| 方城县| 定西市| 济阳县| 柳江县| 交城县| 资兴市| 娱乐| 泽州县| 无极县| 铁岭县| 佛冈县| 商水县| 东平县| 彭泽县| 依兰县| 城市| 晴隆县| 奉化市| 陕西省| 新乡市| 永昌县| 荔波县| 鄱阳县| 华阴市| 宿州市| 大理市| 泽州县| 哈尔滨市| 松原市| 射阳县| 漠河县|