吳 曉 軍
(安徽文達(dá)信息工程學(xué)院,安徽 合肥 231201)
網(wǎng)球運(yùn)動(dòng)員在國(guó)際賽場(chǎng)上為我國(guó)取得了很多榮譽(yù),運(yùn)動(dòng)員取得榮譽(yù)不僅與運(yùn)動(dòng)員的運(yùn)動(dòng)天賦有關(guān),還與教練團(tuán)隊(duì)的付出相關(guān),即訓(xùn)練相關(guān)。在運(yùn)動(dòng)員訓(xùn)練過(guò)程中,教練團(tuán)隊(duì)分析運(yùn)動(dòng)員的動(dòng)作,根據(jù)分析結(jié)果,制定針對(duì)性的訓(xùn)練,但是在以往的訓(xùn)練中,通常采用人工標(biāo)記的方法標(biāo)記動(dòng)作,這種方法耗時(shí)耗力,并且標(biāo)記準(zhǔn)確度低,為教練提供參考價(jià)值有限。在上述背景下,相關(guān)學(xué)者研究了擊球動(dòng)作識(shí)別方法,其中,吳佳等研究了基于特征動(dòng)作序列的動(dòng)態(tài)手勢(shì)識(shí)別方法[1],該方法預(yù)先變換原始數(shù)據(jù),將變化后數(shù)據(jù)作為特征識(shí)別依據(jù),采用模糊聚類算法對(duì)特征動(dòng)作提取,在此基礎(chǔ)上對(duì)特征動(dòng)作編碼,編碼后保存到支持庫(kù)中,采用改進(jìn)編輯距離方法對(duì)動(dòng)作序列相似度計(jì)算,實(shí)現(xiàn)相關(guān)動(dòng)作的識(shí)別;劉芳等研究了基于雙流多關(guān)系(graph convolutional networks,GCNs)的骨架動(dòng)作識(shí)別方法[2],通過(guò)對(duì)節(jié)點(diǎn)間的相互聯(lián)系進(jìn)行預(yù)處理,對(duì)特征傳遞和融合,給出基于全局鄰接關(guān)系的自適應(yīng)算法,計(jì)算各節(jié)點(diǎn)的相互作用強(qiáng)度,以最大的特征點(diǎn)為輸出點(diǎn),從而識(shí)別運(yùn)動(dòng)。上述提出的識(shí)別方法雖然能夠?qū)崿F(xiàn)動(dòng)作識(shí)別,但是會(huì)受到其他因素影響,導(dǎo)致識(shí)別結(jié)果較差。
針對(duì)上述存在的問(wèn)題,結(jié)合時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了一個(gè)基于時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)球底線正手擊球動(dòng)作識(shí)別方法,期望提高動(dòng)作識(shí)別效果,助力網(wǎng)球運(yùn)動(dòng)員的訓(xùn)練,促進(jìn)體育事業(yè)的發(fā)展。時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)包含從網(wǎng)格到圖數(shù)據(jù)的卷積操作,其能夠匯總節(jié)點(diǎn),依據(jù)匯總的節(jié)點(diǎn)和鄰居特征生成節(jié)點(diǎn)表示形式,實(shí)現(xiàn)目標(biāo)的輸出。該網(wǎng)絡(luò)局部特征和全局特征能力好,已經(jīng)被廣泛應(yīng)用到各個(gè)領(lǐng)域中。
在識(shí)別網(wǎng)球底線正手擊球動(dòng)作前,需要提取運(yùn)動(dòng)區(qū)域。因此,建立運(yùn)動(dòng)的圖像獲取模型,然后將運(yùn)動(dòng)影像的特征提取與模板匹配相結(jié)合,在模型匹配后實(shí)現(xiàn)信息采集,過(guò)程如圖1所示:
圖1 圖像采集過(guò)程
在網(wǎng)球底線正手擊球動(dòng)作提取中[3],需要從圖像中抽取相應(yīng)的形狀[4]。為方便后續(xù)處理,采用膨脹操作擴(kuò)充物體邊界點(diǎn),公式如下
u=z/(w)b+v
(1)
式(1)中,v代表膨脹操作參數(shù),b代表結(jié)構(gòu)元素,w代表物體的邊界點(diǎn),z代表腐蝕參數(shù)。
通過(guò)上述處理能夠去除不同大小區(qū)域。由于視頻序列中動(dòng)作運(yùn)動(dòng)幅度不同[5],導(dǎo)致目標(biāo)提取困難,同時(shí),實(shí)際的場(chǎng)景中,運(yùn)動(dòng)背景復(fù)雜,也會(huì)干擾目標(biāo)提取。為此采用幀間差分法進(jìn)一步處理[6],公式如下
(2)
式(2)中,xk為采集的視頻圖像中的第k幀圖像,xk+d代表第k+d幀圖像,T代表處理過(guò)程中的閾值。
在計(jì)算中,如果得到的結(jié)果小于T,則認(rèn)為像素值是靜止的。
采集視頻運(yùn)動(dòng)在時(shí)間上具有特征,因此,可以從一組連續(xù)的差分圖像中選取一組運(yùn)動(dòng)變化的形式來(lái)描述運(yùn)動(dòng)的變化[7]。將動(dòng)作視頻數(shù)據(jù)集表示如下:
(3)
式(3)中,Si表示訓(xùn)練集合的隨機(jī)差分抽樣值,yi表示所獲取的樣品的視頻行為標(biāo)記參數(shù),N代表訓(xùn)練的樣本數(shù)。
但由于樣本之間具有關(guān)聯(lián)性,并且每個(gè)樣本中的信息會(huì)隨著時(shí)序變化發(fā)生改變,而最后一個(gè)樣本中的數(shù)據(jù)會(huì)包含更多的信息,因此,在這個(gè)過(guò)程中,需要考慮每個(gè)樣本片段所包含的信息量,將權(quán)重重新分配給每個(gè)樣本片段,公式如下
(4)
基于上述過(guò)程提取出運(yùn)動(dòng)區(qū)域,并處理運(yùn)動(dòng)區(qū)域背景,為后續(xù)擊球動(dòng)作識(shí)別提供幫助。
原始數(shù)據(jù)是一系列幀,每一幀都包含人體關(guān)節(jié)的坐標(biāo),依據(jù)關(guān)節(jié)坐標(biāo)提取骨骼信息[8]。然后將每幀中的人體關(guān)節(jié)和骨骼表現(xiàn)為有限無(wú)環(huán)圖,在構(gòu)建中,采用有向時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò)識(shí)別動(dòng)作。為提高人體骨骼與骨架節(jié)點(diǎn)判別的自適應(yīng)性,需要利用間差異有向時(shí)空?qǐng)D來(lái)表示圖數(shù)據(jù)時(shí)空差異信息,將骨骼動(dòng)態(tài)的級(jí)聯(lián)融合表示在兩流框架中,通過(guò)點(diǎn)云動(dòng)態(tài)圖卷積(dilate gated convolutional neural network,DGCNN)判別來(lái)完成判別動(dòng)作性能的提升。
將骨骼關(guān)節(jié)分為不同部分,包含2個(gè)手臂、2條腿以及1個(gè)軀干,表達(dá)運(yùn)動(dòng)員擊球動(dòng)作中骨骼的信息結(jié)構(gòu),表示為
(5)
式(5)中,ncj代表根節(jié)點(diǎn)j到中心的距離,nci代表節(jié)點(diǎn)到中心的距離。
在計(jì)算中,以3D骨架數(shù)據(jù)為例,將關(guān)節(jié)坐標(biāo)表示為(x,y,z),對(duì)于一個(gè)骨骼,可以用以下方式來(lái)表示源接頭vs=(xs,ys,zs),將網(wǎng)球運(yùn)動(dòng)員的目標(biāo)關(guān)節(jié)記作vs′=(xs′,ys′,zs′),將運(yùn)動(dòng)員骨骼參數(shù)表示如下:
Evs,vs′=(xs-xs′,ys-ys′,zs-zs′)
(6)
依據(jù)上述過(guò)程將骨架結(jié)構(gòu)表示為有向圖,在此基礎(chǔ)上,按照關(guān)節(jié)和骨骼的關(guān)系分類動(dòng)作[9]。構(gòu)建的有向圖神經(jīng)網(wǎng)絡(luò)包含多個(gè)圖層,每個(gè)圖層中包含相應(yīng)的頂點(diǎn)和邊屬性的圖形,為此可以在相鄰關(guān)節(jié)和骨骼中提取每個(gè)關(guān)節(jié)和骨骼的信息,通過(guò)分析其依存關(guān)系,實(shí)現(xiàn)動(dòng)作的識(shí)別。在人體骨架有向圖中共包含2個(gè)更新函數(shù),通過(guò)更新函數(shù)實(shí)時(shí)更新連接邊和頂點(diǎn)的屬性[10],將公式表示為
(7)
上述過(guò)程對(duì)人體骨架空間建模,以了解到每個(gè)部分的重要性。
在利用有向圖來(lái)表示骨架結(jié)構(gòu)的基礎(chǔ)上,需要將動(dòng)作信息數(shù)據(jù)進(jìn)行分類,在分類的過(guò)程中需要采用圖神經(jīng)網(wǎng)絡(luò)來(lái)完成模型構(gòu)建。該網(wǎng)絡(luò)中任意圖層的圖形均具有邊屬性與定點(diǎn),能夠保證圖形輸出的即時(shí)性,這是由于其關(guān)聯(lián)信息能夠在骨骼之間相互傳播,以此完成信息的即時(shí)更新。在骨骼信息的提取過(guò)程中能夠得到關(guān)節(jié)與骨骼的屬性特征與依存關(guān)系,從而大幅度提高動(dòng)作識(shí)別模型構(gòu)建的完整性。通過(guò)對(duì)每層圖數(shù)據(jù)的屬性特征來(lái)更新相鄰圖數(shù)據(jù)的信息,從而進(jìn)一步實(shí)現(xiàn)局部信息的實(shí)時(shí)更新以及提取,僅通過(guò)單個(gè)關(guān)節(jié)與相鄰骨骼信息便能獲取到關(guān)節(jié)的角度信息。在識(shí)別過(guò)程中的信息需要具有一定語(yǔ)義性與全局性,以此更好地將骨骼與關(guān)節(jié)遠(yuǎn)距離聚攏至模型頂層。
在人體骨架有向圖的函數(shù)表示中,聚合函數(shù)用gin與gout來(lái)表示,主要用于將有相連頂點(diǎn)的傳入、傳出邊信息屬性的聚集,更新函數(shù)用hv與he來(lái)表示,該函數(shù)能夠根據(jù)已知條件對(duì)目標(biāo)連接邊與定點(diǎn)屬性進(jìn)行更新。確定目標(biāo)節(jié)點(diǎn)的輸出邊與輸入邊,并檢查所有邊的目標(biāo)關(guān)節(jié)點(diǎn)與元關(guān)節(jié)點(diǎn),進(jìn)一步完成神經(jīng)網(wǎng)絡(luò)的輸入邊與輸出邊的信息傳播。
在構(gòu)建的人體有向時(shí)空骨架基礎(chǔ)上,建立時(shí)空卷積神經(jīng)網(wǎng)絡(luò),對(duì)骨架拓?fù)浣Y(jié)構(gòu)進(jìn)行參數(shù)化處理,將其嵌入時(shí)空卷積神經(jīng)網(wǎng)絡(luò),便于模型的學(xué)習(xí)與更新[11]。
識(shí)別流程如圖2所示:
圖2 識(shí)別流程
步驟如下所示:
Step1:將定義好的圖記作G,在空間維度上,將圖卷積運(yùn)算做如下定義
(8)
式(8)中,v代表時(shí)空?qǐng)D上的頂點(diǎn),fin代表目標(biāo)的特征映射參數(shù),vrj代表節(jié)點(diǎn)j的鄰居節(jié)點(diǎn)集合,w代表權(quán)重函數(shù)。
Step2:空間維度轉(zhuǎn)換,公式如下
(9)
式(9)中,k代表卷積核大小,A代表臨接矩陣的歸一化參數(shù),M代表權(quán)重矩陣,e代表點(diǎn)積。
基于上述過(guò)程,在時(shí)間維度上轉(zhuǎn)換輸出的特征圖維度,提取時(shí)間特征,實(shí)現(xiàn)時(shí)間圖卷積運(yùn)算[12]。
Step3:引入多注意力機(jī)制,優(yōu)化連通圖,得到更適合描述的圖結(jié)構(gòu),以更好的完成網(wǎng)球底線正手擊球動(dòng)作識(shí)別,將加入圖注意力模塊后的卷積公式表示為
(10)
式(10)中,Bk代表注意力矩陣。
Step4:在上述注意力模塊設(shè)定后,得到初步提取的空間特征[14],為了更好地表現(xiàn)出網(wǎng)球底線正手擊球動(dòng)作,引入注意力機(jī)制[15]。由于每一個(gè)信道的關(guān)鍵信息都是不一樣的,為此需要設(shè)定不同權(quán)重,每個(gè)權(quán)重主要代表某個(gè)通道參數(shù)對(duì)關(guān)鍵特征的貢獻(xiàn)程度[16-17],如果權(quán)重大則代表相似性高,需要注意該通道信號(hào),如果通道相關(guān)度低,則可以減少這個(gè)通道的關(guān)注[18]。將全局信息嵌入的信息公式表示為
(11)
式(11)中,H、W分別代表2個(gè)權(quán)重矩陣,mc代表擠壓操作參數(shù),ie代表第e個(gè)通道的權(quán)重計(jì)算參數(shù),f代表激活函數(shù)。
通過(guò)上述過(guò)程不斷更新參數(shù),幫助卷積層更好地提取出動(dòng)作特征,進(jìn)一步完成網(wǎng)球底線正手擊球動(dòng)作識(shí)別[19-20]。
為驗(yàn)證提出的基于時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)球底線正手擊球動(dòng)作識(shí)別方法的有效性,進(jìn)行對(duì)比實(shí)驗(yàn),將基于特征動(dòng)作序列的特征識(shí)別方法、基于雙流多關(guān)系GCNs的識(shí)別方法與本文提出的識(shí)別方法對(duì)比,對(duì)比3個(gè)方法的識(shí)別效果。
在實(shí)驗(yàn)中,通過(guò)攝像機(jī)采集動(dòng)作視頻,并將攝像機(jī)的參數(shù)調(diào)整幀率為60 fps、分辨率720像素,以保證采集的圖片不出現(xiàn)模糊情況。實(shí)驗(yàn)共分為兩個(gè)部分,第一個(gè)部分以某網(wǎng)球運(yùn)動(dòng)人員為例,分別采用3種方法捕捉擊球動(dòng)作,分析動(dòng)作捕捉的準(zhǔn)確性。
第一部分實(shí)驗(yàn)采集的原始圖像如圖3所示。
(a)原始圖像1 (b)原始圖像2
第二部分實(shí)驗(yàn)中,以某數(shù)據(jù)集為例,其中包含正手擊球動(dòng)作、正手拉球動(dòng)作以及反手擊球動(dòng)作等,基本情況見(jiàn)表1。
表1 實(shí)驗(yàn)動(dòng)作
共采集1 200條網(wǎng)球運(yùn)動(dòng)數(shù)據(jù),數(shù)據(jù)類型分別為正手擊球、正手拉球、反手擊球、反手拉球以及其他動(dòng)作,通過(guò)多種類型數(shù)據(jù)對(duì)所提方法進(jìn)行分析,以保證實(shí)驗(yàn)的準(zhǔn)確性,其中80%的數(shù)據(jù)作為訓(xùn)練集,其余的20%作為實(shí)驗(yàn)集。
第一部分實(shí)驗(yàn)分別采用3種方法識(shí)別所有動(dòng)作,識(shí)別對(duì)象為攝像機(jī)采集的樣本,對(duì)比3種方法識(shí)別該樣本在正手擊球上的識(shí)別準(zhǔn)確性(圖4~5)。
圖4 正手擊球動(dòng)作捕捉效果1
圖5 正手擊球動(dòng)作捕捉效果2
分析上圖能發(fā)現(xiàn),在正手擊球動(dòng)作捕捉上,所提出的識(shí)別方法能夠較為準(zhǔn)確地捕捉到擊球動(dòng)作,而另外2個(gè)動(dòng)作識(shí)別方法在動(dòng)作捕捉上存在一定程度的偏差,無(wú)法準(zhǔn)確識(shí)別出擊球動(dòng)作,從而會(huì)影響到擊球動(dòng)作的識(shí)別效果,說(shuō)明本文方法在識(shí)別的準(zhǔn)確度方面略優(yōu)于傳統(tǒng)動(dòng)作識(shí)別方法。
第二部分的實(shí)驗(yàn)結(jié)果如圖6~7所示。
圖6 正手擊球動(dòng)作識(shí)別準(zhǔn)確度對(duì)比 圖7 動(dòng)作識(shí)別時(shí)間對(duì)比
基于圖6能夠發(fā)現(xiàn),在正手擊球動(dòng)作識(shí)別上,所提出的識(shí)別方法識(shí)別準(zhǔn)確性都較高,其識(shí)別的數(shù)量基本達(dá)到了200個(gè),該值與表1中正手擊球動(dòng)作樣本數(shù)量一致,該數(shù)值未超過(guò)正手擊球動(dòng)作樣本數(shù)量,準(zhǔn)確識(shí)別出正手擊球動(dòng)作并且相對(duì)穩(wěn)定,未出現(xiàn)較大的波動(dòng),但是對(duì)比方法的識(shí)別數(shù)量均超過(guò)了200個(gè),識(shí)別方法將其他動(dòng)作識(shí)別為正手擊球動(dòng)作,其中基于特征動(dòng)作序列的動(dòng)態(tài)手勢(shì)識(shí)別方法在實(shí)驗(yàn)次數(shù)為5次時(shí),最高識(shí)別數(shù)量達(dá)到了600個(gè),該數(shù)值遠(yuǎn)遠(yuǎn)超過(guò)了實(shí)驗(yàn)中提供的正手擊球動(dòng)作樣本數(shù)量,并且識(shí)別數(shù)量隨著實(shí)驗(yàn)次數(shù)增加而增加,上升幅度也最大,表明該方法識(shí)別準(zhǔn)確性低。基于雙流多關(guān)系GCNs的骨架動(dòng)作識(shí)別方法在實(shí)驗(yàn)次數(shù)為5次時(shí),識(shí)別數(shù)達(dá)到了405個(gè),該數(shù)值遠(yuǎn)遠(yuǎn)超過(guò)正手擊球動(dòng)作的樣本數(shù)量200個(gè),呈現(xiàn)明顯的上升趨勢(shì),但是低于基于特征動(dòng)作序列的動(dòng)態(tài)手勢(shì)識(shí)別方法。相對(duì)于以上2個(gè)方法,本文提出的方法識(shí)別準(zhǔn)確度較高,識(shí)別數(shù)量分別低于對(duì)比方法400個(gè)和205個(gè),因此,本文方法應(yīng)用效果最好,另外兩個(gè)方法出現(xiàn)多識(shí)別的情況。
為了進(jìn)一步分析設(shè)計(jì)方法的識(shí)別性能,以識(shí)別時(shí)間為實(shí)驗(yàn)指標(biāo),可以有效反映識(shí)別方法的耗時(shí)性能,該指標(biāo)值越低,表明識(shí)別方法的性能越好,實(shí)驗(yàn)對(duì)象為1 200個(gè)動(dòng)作,統(tǒng)計(jì)識(shí)別正手擊球動(dòng)作運(yùn)行的時(shí)間,實(shí)驗(yàn)具體結(jié)果結(jié)果如圖7所示。
通過(guò)圖7能夠看出,在幾次實(shí)驗(yàn)中,所提出的正手擊球動(dòng)作識(shí)別時(shí)間均少于另外兩種方法,最多識(shí)別時(shí)間僅為1.3 min,平均識(shí)別時(shí)間不超過(guò)1 min,且識(shí)別速度比較平均,說(shuō)明該方法具有較好的穩(wěn)定性?;谔卣鲃?dòng)作序列的動(dòng)態(tài)手勢(shì)識(shí)別方法的識(shí)別時(shí)間最高達(dá)到了6.8 min,平均識(shí)別時(shí)間為4.2 min,且通過(guò)觀察圖像曲線可以發(fā)現(xiàn)該方法識(shí)別時(shí)間波動(dòng)較大,在實(shí)際應(yīng)用中穩(wěn)定性價(jià)差?;陔p流多關(guān)系GCNs骨架動(dòng)作識(shí)別方法雖然識(shí)別時(shí)間較為穩(wěn)定,但耗時(shí)遠(yuǎn)遠(yuǎn)高于本文方法。因此,3種方法相比可知,本文方法的優(yōu)越性較強(qiáng),并且具有一定的穩(wěn)定性。
基于上述分析,完成擊球動(dòng)作識(shí)別方法的設(shè)計(jì)。此次研究的創(chuàng)新之處和主要結(jié)論:①預(yù)處理數(shù)據(jù),并建立運(yùn)動(dòng)員骨骼數(shù)據(jù)集,同時(shí)實(shí)時(shí)調(diào)整骨骼的關(guān)鍵點(diǎn);②聚合周圍節(jié)點(diǎn),豐富骨骼序列空間特征,通過(guò)時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了擊球動(dòng)作識(shí)別;③所提出的擊球動(dòng)作識(shí)別有效提高了動(dòng)作識(shí)別效果,并且在多種類型的動(dòng)作中,可以有效識(shí)別出正手擊球動(dòng)作,識(shí)別數(shù)量達(dá)到了200個(gè),同時(shí)識(shí)別時(shí)間僅為1.3 min,降低了5.5 min。因此,該方法有效提高了識(shí)別準(zhǔn)確度,降低了識(shí)別時(shí)間,提高了識(shí)別效率。
由于網(wǎng)球運(yùn)動(dòng)較為復(fù)雜,當(dāng)前圖卷積網(wǎng)絡(luò)還有部分缺陷需要完善,在后續(xù)研究中可以建立更加豐富的網(wǎng)球動(dòng)作數(shù)據(jù)集,為動(dòng)作識(shí)別提供參考。