李倫欽 劉波濤
摘要:人體動(dòng)作識(shí)別相關(guān)研究一直是計(jì)算機(jī)視覺的研究熱點(diǎn),并且在現(xiàn)實(shí)生活中有著廣泛且重要的應(yīng)用。大部分的研究從運(yùn)動(dòng)目標(biāo)檢測(cè)、動(dòng)作特征提取和動(dòng)作特征理解三個(gè)方面著手,基本解決了簡(jiǎn)單場(chǎng)景下的人體動(dòng)作的識(shí)別問(wèn)題。但在籃球技術(shù)動(dòng)作識(shí)別領(lǐng)域幾乎沒(méi)有研究,該文結(jié)合深度學(xué)習(xí)以及前人在人體動(dòng)作識(shí)別的積累,將其與視頻中籃球技術(shù)動(dòng)作識(shí)別結(jié)合進(jìn)行探究。
關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);動(dòng)作識(shí)別;籃球技術(shù);視頻識(shí)別
中圖分類號(hào):TP183? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)01-0016-03
Abstract: Human action recognition related research has always been a research hotspot of computer vision, and it has a wide range of important applications in real life. Most of the research started from three aspects: moving target detection, action feature extraction and action feature understanding, and basically solved the problem of human action recognition in simple scenes. But there is almost no research in the field of basketball technical action recognition. This article combines deep learning and the accumulation of predecessors in human body action recognition, and combines it with basketball techniques action recognition in video to explore.
Key words: deep learning; convolutional neural network; action recognition; basketball techniques; video recognition
1引言
近幾年,諸如卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在圖像識(shí)別、語(yǔ)音識(shí)別、時(shí)序?qū)W習(xí)等任務(wù)中顯示出優(yōu)異的性能。圖像識(shí)別方面,通常使用經(jīng)典結(jié)構(gòu)AlexNet、VGG、GoogleNet、Resnet等CNN網(wǎng)絡(luò)結(jié)構(gòu)替換傳統(tǒng)方式,成為圖像特征提取的主要工具。時(shí)序?qū)W習(xí)方面,經(jīng)典結(jié)構(gòu)RNN、LSTM、GRU等網(wǎng)絡(luò)結(jié)構(gòu)能夠記錄時(shí)序數(shù)據(jù)的上下文信息,從而成為處理時(shí)序數(shù)據(jù)的重要手段。運(yùn)動(dòng)類視頻中的技術(shù)動(dòng)作檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域在體育方面的重要應(yīng)用,通過(guò)智能檢測(cè)運(yùn)動(dòng)類視頻,為運(yùn)動(dòng)員、教練或分析人員提供動(dòng)作技術(shù)方面的指導(dǎo)意見,或者輔助運(yùn)動(dòng)場(chǎng)上裁判人員進(jìn)行更為合理有效的判斷。
籃球在我國(guó)國(guó)內(nèi)是很流行的運(yùn)動(dòng),在高水平籃球運(yùn)動(dòng)員中,所用到的技術(shù)動(dòng)作有著明顯的特點(diǎn)。而這些技術(shù)動(dòng)作,對(duì)于籃球愛好者、專業(yè)籃球運(yùn)動(dòng)員、教練等人士來(lái)說(shuō),一眼就能識(shí)別出這個(gè)動(dòng)作,而且它們有著公認(rèn)的稱呼。平時(shí)愛好者在觀看這些視頻往往是某些作者自己挖掘這些素材做成精彩集錦,抑或是自己被動(dòng)地接收視頻門戶的推送,如果主動(dòng)去搜特定動(dòng)作,雖然會(huì)有相關(guān)視頻,但是資源不多且存在無(wú)關(guān)資源。
所以,開展利用深度學(xué)習(xí)的方法來(lái)識(shí)別籃球技術(shù)動(dòng)作這方面的工作,并將其應(yīng)用起來(lái)有著現(xiàn)實(shí)意義。對(duì)于視頻門戶,有利于加強(qiáng)籃球社區(qū)版塊的用戶黏性,提高用戶體驗(yàn);對(duì)于教練運(yùn)動(dòng)員,使得他們能快速找到相關(guān)視頻資料,對(duì)運(yùn)動(dòng)員進(jìn)行有針對(duì)性的指導(dǎo)和訓(xùn)練;對(duì)于用戶,有助于用戶快速找到感興趣的體育視頻節(jié)目或片段。
2相關(guān)技術(shù)
2.1深度學(xué)習(xí)
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)研究方向,通過(guò)模擬生物神經(jīng)元,基于感知機(jī)構(gòu)成的神經(jīng)網(wǎng)絡(luò),用來(lái)學(xué)習(xí)大量樣本數(shù)據(jù)中的潛在規(guī)律。通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的權(quán)重模型,使得機(jī)器擁有像人一樣的識(shí)別文字、圖像、視頻等數(shù)據(jù)的能力。
2.2卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork)是引入了很多新特征的一種神經(jīng)網(wǎng)絡(luò),相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)中主要在中間層引入了卷積層進(jìn)行卷積運(yùn)算,引入了池化層保證數(shù)據(jù)降維的情況下提取更為重要的特征。
(1)Conv層主要作用是對(duì)圖像數(shù)據(jù)進(jìn)行特征提取。層次淺的卷積層提取圖像中物體的邊際或者局部圖像塊等的“低級(jí)”信息,接下來(lái)的卷積層對(duì)圖像紋理有反饋,隨著卷積計(jì)算的層次越高,提取的信息越抽象,再后面的卷積層對(duì)目標(biāo)的復(fù)雜部位有反應(yīng)。隨著層次的加深,感知機(jī)提取的信息變得更加復(fù)雜,從簡(jiǎn)單的形狀到“高級(jí)”信息方向變化。
(2)ReLU層是激活層。激活函數(shù)是以閾值為界,當(dāng)輸入數(shù)據(jù)超過(guò)閾值,就切換輸出。具有類似作用的函數(shù)還有sigmoid函數(shù)。
(3)Pooling層。池化層在連續(xù)的卷積層之間,在保證盡量不改變特征的情況下用來(lái)壓縮數(shù)據(jù)和減少參數(shù)的量。當(dāng)數(shù)據(jù)產(chǎn)生微小偏差,通過(guò)池化運(yùn)算后仍會(huì)得到相同的結(jié)果。因此,池化對(duì)輸入數(shù)據(jù)的微小偏差具有健壯性。
(4)Affine層。全連接層,將相鄰層的每一個(gè)神經(jīng)元都連接到一起。
(5)Softmax層。經(jīng)過(guò)Affine層,得到的結(jié)果是一個(gè)得分,而Softmax是將這個(gè)得分換算成概率,通過(guò)使用Softmax函數(shù),研究者可以通過(guò)使用概率統(tǒng)計(jì)的方法來(lái)處理問(wèn)題。
神經(jīng)網(wǎng)絡(luò)中通過(guò)這些層將數(shù)據(jù)正向和反向地傳播,可以高效地計(jì)算權(quán)重參數(shù)的梯度。將這些層模塊化,研究人員可以自由地組裝,構(gòu)建出解決領(lǐng)域問(wèn)題的網(wǎng)絡(luò)。
2.3 視頻分類技術(shù)
卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域的成功使得研究者把目光投向視頻分類。最簡(jiǎn)單視頻分類算法是基于單幀視頻圖片實(shí)現(xiàn)的,而采用CNN做圖片分類是目前最好的算法,所以在視頻分類算法中使用CNN是較為合適的選擇。由于視頻存在大量的圖像序列幀,相鄰幀之間存在關(guān)聯(lián)性,如果直接使用CNN做分類不是更好的選擇,將一般卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行擴(kuò)展或者將其與其他算法結(jié)合起來(lái)的分類算法,可以獲得理想的結(jié)果。
3 籃球技術(shù)動(dòng)作特點(diǎn)
3.1Crossover
“Crossover”,國(guó)內(nèi)街球場(chǎng)俗稱“變向”。視覺效果進(jìn)攻者把防守者欺騙,使防守者向進(jìn)攻者反方向失位。在進(jìn)攻者突破防守者時(shí),該動(dòng)作通過(guò)較長(zhǎng)時(shí)間展球制造與防守者0.5到0.75的肩寬身位,再通過(guò)膝蓋指向和身體發(fā)力的爆發(fā)以右腳掌蹬地向左順帶帶動(dòng)左腿向左,達(dá)到突破防守者的目的。
3.2 Fake Hesitation
“Fake Hesitation”字面翻譯是“假猶豫”,由于其視覺效果仿佛要雙手合十,國(guó)內(nèi)街球場(chǎng)上俗稱“拜佛”。拜佛這個(gè)動(dòng)作的特點(diǎn)是進(jìn)攻者利用在突破運(yùn)球過(guò)程中的停頓猶豫,使對(duì)位的防守者誤以為進(jìn)攻者會(huì)進(jìn)行跳投或傳球的一個(gè)欺騙動(dòng)作,本質(zhì)是利用假動(dòng)作破壞防守者重心和節(jié)奏使其失位,再找到時(shí)間差進(jìn)行突破。
3.3 Shamgod
“Shamgod”名字是來(lái)源于一個(gè)使用者,因?yàn)樵搫?dòng)作花哨廣為籃球愛好者所知,所以以他的名字作為該動(dòng)作的名字,最早出現(xiàn)于街球動(dòng)作中,動(dòng)作華麗,在球場(chǎng)上適用廣泛。往往進(jìn)攻者做出一次成功的shamgod并得分,既可以在球場(chǎng)上呈現(xiàn)出令觀眾驚艷叫絕的觀賞性,又可以起到提高我方士氣、打壓對(duì)方的作用。動(dòng)作視覺效果是以左手送球在左側(cè),以右手拉回,動(dòng)作大開大合,需要球員有著很強(qiáng)的球感和熟練的重心轉(zhuǎn)移。Shamgod與變向類似,都是通過(guò)一步假動(dòng)作欺騙誘導(dǎo)讓防守者產(chǎn)生錯(cuò)誤判斷導(dǎo)致防守重心轉(zhuǎn)移,使其喪失防守位置,進(jìn)而攻擊弱側(cè),達(dá)到突破。
4動(dòng)作識(shí)別算法
視頻分析中的動(dòng)作分類任務(wù)可以看作圖像理解和時(shí)序?qū)W習(xí)的結(jié)合,因此有大量研究人員采用深度學(xué)習(xí)方法研宄動(dòng)作分類任務(wù)。許多研究者對(duì)這些經(jīng)典結(jié)構(gòu)進(jìn)行改進(jìn)或者創(chuàng)新來(lái)進(jìn)行動(dòng)作分類的研究,首先通過(guò)卷積網(wǎng)絡(luò)和遞歸網(wǎng)絡(luò)獲取視頻中的每幀圖像特征和時(shí)序信息,然后構(gòu)造動(dòng)作分類識(shí)別框架。
4.1多核3D-CNN
單核3D-CNN只能從視頻立方體中提取一種類型的特征,特征表示過(guò)于片面。文獻(xiàn)[5]提出基于多核3D-CNN,如圖5,三個(gè)立體代表不同特征,分別是灰度特征、梯度特征、光流特征,3個(gè)立方體用來(lái)描述視頻連續(xù)幀的不同屬性。此外,不同于單個(gè)卷積核只能提取一種特定特征,采用多個(gè)卷積核可以提取更為合理的深度特征,對(duì)后續(xù)籃球動(dòng)作識(shí)別具有重要意義。
(1)圖片序列檢測(cè)與跟蹤。將連續(xù)的7個(gè)視頻幀圖像輸入,對(duì)輸入的圖像序列進(jìn)行目標(biāo)檢測(cè)與跟蹤,并對(duì)目標(biāo)運(yùn)動(dòng)區(qū)域進(jìn)行提取。
(2)視頻圖片幀底層特征提取。每幀提取5個(gè)特征,分別為水平梯度特征、垂直梯度特征、灰度特征、水平光流特征和垂直光流特征。其中水平梯度特征、垂直梯度特征、灰度特征可以有一個(gè)相同大小的特征矩陣表示,水平光流特征和垂直光流特征由6個(gè)相同大小的特征矩陣表示,共有33個(gè)特征用作卷積輸入。
(3)第一次卷積操作。為了提取多種特征,選用3種不同的卷積核進(jìn)行卷積操作,其中,對(duì)灰度特征、梯度特征、光流特征分別選用不同的卷積核。
(4)第一次降采樣。池化操作,給前一層卷積操作輸出特征圖做降維處理。
(5)第二次卷積操作。同樣通過(guò)對(duì)3組特征采用不同的卷積核分別進(jìn)行卷積操作,從輸入數(shù)據(jù)中提取多種特征。
(6)第二次降采樣。同樣也是數(shù)據(jù)降維處理。
(7)全連接層。對(duì)每個(gè)特征圖進(jìn)行2D卷積操作,得到最終的深度特征。分類的人體動(dòng)作數(shù)與輸出層的單元數(shù)一致,通過(guò)最后的線性分類器進(jìn)行動(dòng)作識(shí)別。
4.2多分辨率3D-CNN
由于CNN在GPU上訓(xùn)練大規(guī)模數(shù)據(jù)集所需時(shí)間過(guò)長(zhǎng),一種方法是減少網(wǎng)絡(luò)層數(shù)和神經(jīng)元數(shù),但是這會(huì)降低神經(jīng)網(wǎng)絡(luò)性能,文獻(xiàn)[6]提出采用多分辨率3D-CNN的架構(gòu),目的使視頻在一個(gè)低分辨率下圖像序列和一個(gè)高分辨率圖像序列達(dá)到一致。這樣設(shè)計(jì)的原因是視頻中存在大量攝影偏見,而主要檢測(cè)的動(dòng)作目標(biāo)往往占據(jù)圖像中心。將兩個(gè)圖像流通過(guò)相同的3D-CNN后得到的特征向量合并為新的特征表示,再通過(guò)softmax分類器得到結(jié)果。
(1)輸入層。將連續(xù)的7個(gè)視頻幀圖像經(jīng)過(guò)歸一化和二值化等的圖像處理操作后,得到灰度圖像。
(2)第一次卷積。對(duì)輸入圖像進(jìn)行卷積運(yùn)算。
(3)子采樣層。經(jīng)過(guò)池化操作壓縮特征圖的分辨率,提高對(duì)輸入視頻幀畸變的容忍能力。
(4)第二次卷積。為了獲得更多抽象特征,在每相鄰3個(gè)幀圖像采用2個(gè)不同卷積核,得到2組不同的特征圖。
(5)下采樣。進(jìn)一步得到更小的特征圖。
(6)第三次卷積。此階段,時(shí)間維度上的幀數(shù)較小,僅需作空間維度上的卷積運(yùn)算。
(7)全連接層。多次經(jīng)過(guò)卷積和下采樣后,合并由雙流結(jié)構(gòu)得到的特征向量。由最后一層softmax線性分類器達(dá)到動(dòng)作分類的結(jié)果。
5結(jié)論
本文介紹了深度學(xué)習(xí)在圖像、視頻領(lǐng)域上的應(yīng)用,介紹了卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù),并針對(duì)籃球視頻技術(shù)動(dòng)作識(shí)別的需求特點(diǎn),利用前人在人體動(dòng)作識(shí)別方面的積累,提出兩種適用于籃球技術(shù)動(dòng)作的算法。其中基于多核的3D-CNN可以提取到視頻圖像序列更多的組合特征,基于多分辨率3D-CNN用來(lái)保證不損失性能的情況下提高網(wǎng)絡(luò)訓(xùn)練速度。
參考文獻(xiàn):
[1] 朱云鵬,黃希,黃嘉興.基于3D CNN的人體動(dòng)作識(shí)別研究[J].現(xiàn)代電子技術(shù),2020,43(18):150-152,156.
[2] 許澤珊.基于深度神經(jīng)網(wǎng)絡(luò)的視頻動(dòng)作識(shí)別研究[D].廣州:華南理工大學(xué),2019.
[3] 李松齡.基于卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別研究[D].成都:電子科技大學(xué),2019.
[4] Zhang Hong-Bo,Zhang Yi-Xiang,ZhongBineng,et,al. A Comprehensive Survey of Vision-Based Human Action Recognition Methods[J]. Sensors (Basel, Switzerland),2019,19(5).
[5] 劉宇琦.視頻人臉及人體行為識(shí)別關(guān)鍵技術(shù)研究[D].長(zhǎng)春:吉林大學(xué),2018.
[6] 耿馳.基于深度學(xué)習(xí)的人體動(dòng)作識(shí)別[D].南京:南京郵電大學(xué),2016.
[7] An-An Liu,NingXu,Yu-Ting Su,et,al. Single/multi-view human action recognition via regularized multi-task learning[J]. Neurocomputing,2015,151.
[8] Ju Zhong,Hua Wen Liu,Chun Li Lin. Human Action Recognition Based on Hybrid Features[J]. Applied Mechanics and Materials,2013,2594.
[9] XiaoyuDeng,XiaoLiu,MingliSong,et,al. LF-EME: Local features with elastic manifold embedding for human action recognition[J]. Neurocomputing,2013,99.
[10] Tseng Chienchung, Chen Juchin, Fang Chinghsien, et al. Human action recognition based on graph-embedded spatio-temporal subspace[J]. Pattern Recognition,2012,45(10).
【通聯(lián)編輯:代影】