游義平,季云峰
(1 上海理工大學(xué)健康科學(xué)與工程學(xué)院,上海 200093; 2 上海理工大學(xué)機(jī)器智能研究院,上海 200093)
當(dāng)前,隨著4G、5G 通信技術(shù)的發(fā)展,視頻數(shù)據(jù)已經(jīng)成為當(dāng)下互聯(lián)網(wǎng)傳播信息的重要載體,視頻動(dòng)作識(shí)別成為了計(jì)算機(jī)視覺(jué)領(lǐng)域的熱門研究方向。 相對(duì)于圖像分類方向,視頻中的動(dòng)作識(shí)別根據(jù)挑戰(zhàn)性去識(shí)別視頻中的動(dòng)作信息,需要綜合運(yùn)用多個(gè)學(xué)科的交叉知識(shí)。 特別是體育視頻中的動(dòng)作識(shí)別,由于體育視頻中的動(dòng)作具有時(shí)間上的高依賴性,在處理這類視頻時(shí),需要算法設(shè)計(jì)者更好地聚合動(dòng)作空間維度和時(shí)間維度上的信息。 同時(shí),體育視頻更多地出現(xiàn)在專業(yè)賽場(chǎng)上,因拍攝條件的不同,拍攝視角和拍攝現(xiàn)場(chǎng)的光線與物體的遮擋都將給動(dòng)作識(shí)別帶來(lái)一定的困難。 另有研究指出,視頻中包含的信息量遠(yuǎn)豐富于圖像中的信息量,因此,如何消除視頻中的冗余信息,捕獲并利用視頻的中重要信息,成為了基于視頻的體育動(dòng)作識(shí)別中的一個(gè)難點(diǎn)領(lǐng)域。
基于視頻的動(dòng)作識(shí)別研究綜述近年來(lái)已經(jīng)有一定進(jìn)展[1-4],但這些文獻(xiàn)[1-4]對(duì)當(dāng)前基于深度學(xué)習(xí)的視頻中的動(dòng)作識(shí)別算法進(jìn)行了總結(jié)分析,但關(guān)注一些通用人體動(dòng)作識(shí)別數(shù)據(jù)集,如 UCF101、HMDB51 等。 本文將對(duì)在體育視頻數(shù)據(jù)集上做出評(píng)估的一些動(dòng)作識(shí)別算法進(jìn)行研究綜述,同時(shí),本文還列舉了體育視頻動(dòng)作的應(yīng)用與數(shù)據(jù)集。 希望本文能對(duì)廣大研究體育動(dòng)作識(shí)別的科研人員有一定的啟示作用。
體育視頻動(dòng)作識(shí)別作為視頻分析的主要研究熱點(diǎn)之一,分析視頻中出現(xiàn)的動(dòng)作對(duì)理解體育運(yùn)動(dòng)十分重要,其應(yīng)用領(lǐng)域也十分廣泛,從評(píng)估運(yùn)動(dòng)員的表現(xiàn)到為用戶量身定制的智能設(shè)備。 大量的研究工作以體育運(yùn)動(dòng)數(shù)據(jù)集[5-13]為基礎(chǔ)。 學(xué)者們?cè)谶@方面做了許多研究。
體育視頻數(shù)據(jù)集中包含了大量比賽和訓(xùn)練的片段歷史記錄,是教練員和運(yùn)動(dòng)員分析和提取技戰(zhàn)術(shù)的良好信息來(lái)源。 視頻動(dòng)作識(shí)別作為一種分析運(yùn)動(dòng)員技戰(zhàn)術(shù)的有效方法之一,可以提供一種直接的方法獲取動(dòng)作,而這些動(dòng)作的組合與獲勝的策略有良好的關(guān)聯(lián)。 因此,將動(dòng)作識(shí)別應(yīng)用在體育視頻中,既可以指導(dǎo)運(yùn)動(dòng)員的訓(xùn)練,又可以幫助教練員制定訓(xùn)練與比賽計(jì)劃。 文獻(xiàn)[14]提出了一種可以識(shí)別冰球運(yùn)動(dòng)員的姿勢(shì)和行為的動(dòng)作識(shí)別沙漏網(wǎng)絡(luò)(ARNH),這有助于教練評(píng)估球員的表現(xiàn)。 文獻(xiàn)[15]闡述的體育AI 教練系統(tǒng),可以根據(jù)視頻序列提供個(gè)性化的運(yùn)動(dòng)訓(xùn)練體驗(yàn)。 動(dòng)作識(shí)別是人工智能在教練系統(tǒng)中支持復(fù)雜視覺(jué)信息提取和總結(jié)的關(guān)鍵步驟之一。
體育比賽中偶因裁判誤判引發(fā)雙方爭(zhēng)議,國(guó)內(nèi)外賽事主辦方和各運(yùn)動(dòng)團(tuán)隊(duì)紛紛借助人工智能技術(shù)來(lái)提升比賽判罰的科學(xué)性。 文獻(xiàn)[16]提出了一個(gè)虛擬參考網(wǎng)絡(luò)來(lái)評(píng)估跳水動(dòng)作的執(zhí)行情況。 這種方法是基于視覺(jué)線索以及序列中的身體動(dòng)作。 同樣對(duì)于跳水運(yùn)動(dòng),文獻(xiàn)[17]提出了一個(gè)可學(xué)習(xí)時(shí)間-空間特征的模型,用來(lái)評(píng)估相關(guān)運(yùn)動(dòng),從而提高動(dòng)作評(píng)估的準(zhǔn)確性。 文獻(xiàn)[18]提出了一個(gè)體育裁判員培訓(xùn)系統(tǒng),該系統(tǒng)采用了一個(gè)深度信念網(wǎng)絡(luò)來(lái)獲取高質(zhì)量的手勢(shì)動(dòng)作,以此來(lái)判斷裁判員是否發(fā)出了正確的裁判信號(hào)。
體育視頻中的精彩動(dòng)作分割和總結(jié)受到體育愛(ài)好者的追捧,同時(shí)擁有著巨大的市場(chǎng)前景。 完成精彩動(dòng)作集錦的基礎(chǔ)就是依靠動(dòng)作識(shí)別技術(shù)處理好各種高光動(dòng)作。 文獻(xiàn)[19]提出了一種自動(dòng)高光檢測(cè)方法來(lái)識(shí)別花樣滑冰視頻中的時(shí)空姿態(tài)。 該方法能夠定位和拼接花樣滑冰動(dòng)作。 花樣滑冰中的跳躍動(dòng)作作為最吸引人的基本內(nèi)容之一,常出現(xiàn)在精彩動(dòng)作集錦之中。
文獻(xiàn)[20]的主要工作是識(shí)別三維跳躍動(dòng)作和恢復(fù)視覺(jué)效果不佳的動(dòng)作。 文獻(xiàn)[21]將視頻亮點(diǎn)看作是一個(gè)組合優(yōu)化問(wèn)題,并將識(shí)別動(dòng)作的多樣性作為約束條件之一。 這項(xiàng)工作在一定程度上提高了多樣性動(dòng)作識(shí)別的準(zhǔn)確性,精彩動(dòng)作集錦的質(zhì)量有了極大的改善。
體育比賽直播中的新聞信息以比賽中的實(shí)況數(shù)據(jù)為信息源,通過(guò)網(wǎng)絡(luò)平臺(tái)傳播向廣大體育粉絲及時(shí)轉(zhuǎn)播比賽實(shí)況。 現(xiàn)有的體育新聞系統(tǒng)通常采用比賽中的統(tǒng)計(jì)數(shù)字,如足球比賽中的射門數(shù)、角球數(shù)和任意球數(shù),然后用文字來(lái)描述這些信息[22-23],但大多數(shù)情況下這些文字還是依靠體育新聞?dòng)浾呷斯ぷ珜?xiě),既耗時(shí)、還費(fèi)力。 而應(yīng)用視頻動(dòng)作識(shí)別和文字描述圖像[24-28]技術(shù),可以直接從視頻中生成文字描述,進(jìn)而自動(dòng)生成專業(yè)的體育新聞。 但想要提升自動(dòng)生成的新聞的質(zhì)量,仍需對(duì)運(yùn)動(dòng)員的動(dòng)作進(jìn)行更好的識(shí)別,而更優(yōu)的識(shí)別結(jié)果,可以給自動(dòng)生成的新聞帶來(lái)更好流暢性和準(zhǔn)確性。
在體育視頻動(dòng)作識(shí)別研究領(lǐng)域,基于視頻預(yù)處理和網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)方法越來(lái)越多,但是不同的網(wǎng)絡(luò)框架也需要一個(gè)共同的數(shù)據(jù)集來(lái)衡量性能的優(yōu)劣。 目前體育視頻動(dòng)作識(shí)別領(lǐng)域還缺少共同的數(shù)據(jù)集,本文將會(huì)總結(jié)體育視頻動(dòng)作識(shí)別存在的數(shù)據(jù)集,供后續(xù)研究人員參考。
TTStroke-21[29]由129 個(gè)自我錄制視頻段組成,每段視頻采用120 幀相機(jī)錄制,視頻總時(shí)長(zhǎng)為94 h。該數(shù)據(jù)集的標(biāo)注工作由法國(guó)波爾多大學(xué)體育學(xué)院的相關(guān)專家與學(xué)生完成。 該數(shù)據(jù)集共劃分了發(fā)球反手旋、反手?jǐn)r網(wǎng)、正手推擋、正手回環(huán)等21 類專業(yè)乒乓擊球動(dòng)作,并可應(yīng)用于乒乓球擊球動(dòng)作識(shí)別的綜合研究中。 需要說(shuō)明的是,由于此數(shù)據(jù)集尚未完成對(duì)被錄制者的隱私保護(hù),從事相關(guān)研究的工作者只能從法國(guó)波爾多大學(xué)處獲得部分完成隱私標(biāo)注的數(shù)據(jù)集。
文獻(xiàn)[30]中的數(shù)據(jù)集總共收集了22 111個(gè)視頻片段,這些視頻片段由14 名職業(yè)乒乓球運(yùn)動(dòng)員做出的11 種基本擊球動(dòng)作組成。
SPIN[31]提供了一個(gè)分辨率為1 024×1 280、幀率為150 幀/s 的視頻數(shù)據(jù)集,視頻總時(shí)長(zhǎng)為53 h,視頻中每幀乒乓球的位置用邊框標(biāo)注,每個(gè)運(yùn)動(dòng)員的骨骼關(guān)節(jié)點(diǎn)也使用熱圖標(biāo)記。 該數(shù)據(jù)集可用在基于球的運(yùn)動(dòng)軌跡和球員姿態(tài)的跟蹤、姿態(tài)估計(jì)和旋轉(zhuǎn)預(yù)測(cè)等多項(xiàng)任務(wù)中。
OpenTTGames[17]視頻采樣幀率為120 幀/s,該數(shù)據(jù)集包含了38 752 個(gè)訓(xùn)練樣本、9 502 個(gè)驗(yàn)證樣本和7 328 個(gè)測(cè)試樣本,視頻總時(shí)長(zhǎng)為5 小時(shí),每個(gè)動(dòng)作樣本被標(biāo)注為乒乓球擊球動(dòng)作、如正面擊打。OpenTTGames 中的每個(gè)動(dòng)作樣本還對(duì)該動(dòng)作發(fā)生前4 幀、結(jié)束后12 幀處運(yùn)動(dòng)員以及記分牌做了標(biāo)注,故此數(shù)據(jù)集可用于語(yǔ)義分割、乒乓球的跟蹤和擊球動(dòng)作的分類。
P2A[32]數(shù)據(jù)集從世乒賽和奧運(yùn)會(huì)乒乓球比賽的轉(zhuǎn)播視頻中收集了2 721 個(gè)視頻片段,視頻總時(shí)長(zhǎng)為272 h。 該數(shù)據(jù)集包含14 類乒乓球擊球動(dòng)作類型。 數(shù)據(jù)集的標(biāo)注由職業(yè)乒乓球運(yùn)動(dòng)員和裁判員共同完成。 同時(shí)對(duì)每一個(gè)動(dòng)作樣本的起始和結(jié)束時(shí)間做了精準(zhǔn)的標(biāo)注,該數(shù)據(jù)集用在動(dòng)作定位和動(dòng)作識(shí)別任務(wù)上。
P2A 作為目前已知數(shù)據(jù)量最大、且標(biāo)注最規(guī)范的數(shù)據(jù)集,將吸引更多研究者在乒乓球動(dòng)作識(shí)別領(lǐng)域開(kāi)發(fā)新的動(dòng)作識(shí)別算法。
網(wǎng)球運(yùn)動(dòng)也是一項(xiàng)倍受歡迎的運(yùn)動(dòng),吸引了眾多學(xué)者進(jìn)行研究。 網(wǎng)球動(dòng)作時(shí)間間隔短,而且密集,大多數(shù)動(dòng)作的間隔不到5 幀,對(duì)模型識(shí)別動(dòng)作的快速性提出了很高的要求[33]。
文獻(xiàn)[34]中為評(píng)估網(wǎng)球比賽中球員的動(dòng)作制作了一個(gè)數(shù)據(jù)集,數(shù)據(jù)集來(lái)源于澳大利亞網(wǎng)球公開(kāi)賽女子比賽。 該數(shù)據(jù)集對(duì)球員的位置和動(dòng)作起始與結(jié)束時(shí)間做了標(biāo)注。 主要將網(wǎng)球擊球動(dòng)作分類了3類:擊球、非擊球和發(fā)球。 這是一個(gè)相對(duì)較小的數(shù)據(jù)集,且運(yùn)動(dòng)模糊性較高,是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集。
THETIS[13]由8 374 段自錄視頻組成,包含了55位運(yùn)動(dòng)員做出的12 類網(wǎng)球動(dòng)作:4 類反手擊球、4 類正手擊球、3 類發(fā)球和扣殺球。 視頻總時(shí)長(zhǎng)為7h15 min,除了RGB 視頻外,THETIS 還提供了1 980個(gè)深度視頻、1 217 個(gè)2D 骨架視頻和1 217 個(gè)3D 骨架視頻,因此可以用于開(kāi)發(fā)多種類型的動(dòng)作識(shí)別模型。
TENNISET[33]包含了超過(guò)4 000 個(gè)動(dòng)作樣本,每個(gè)樣本都采用了幀級(jí)別的標(biāo)注。 該數(shù)據(jù)集包含了6類網(wǎng)球動(dòng)作:近右擊球(Hit Near Right)、近左擊球(Hit Near Left)、遠(yuǎn)右擊球(Hit Far Right)、遠(yuǎn)左擊球(Hit Far Left)、近發(fā)球(Serve Near)、遠(yuǎn)發(fā)球(Serve Far)和其他類。 同時(shí),該數(shù)據(jù)集還對(duì)擊球動(dòng)作標(biāo)注了文本信息,如快速發(fā)球是亮點(diǎn),這可拓展至視頻新聞生成任務(wù)中。
ISSIA[10]為研究足球運(yùn)動(dòng)員的檢測(cè)與跟蹤而提出的數(shù)據(jù)集,數(shù)據(jù)集由覆蓋整個(gè)足球場(chǎng)的6 臺(tái)分辨率為1 920×1 080 、幀率為25 幀/s 的攝像機(jī)錄制,該數(shù)據(jù)集共標(biāo)注了18 000 幀,是一個(gè)小型足球運(yùn)動(dòng)數(shù)據(jù)集。 由于足球運(yùn)動(dòng)中共有22 名球員和3 名裁判員,因此,制作此數(shù)據(jù)集面臨著需標(biāo)記多個(gè)目標(biāo)的情況,給數(shù)據(jù)集標(biāo)簽的制作帶來(lái)了不小的挑戰(zhàn)。
Soccer[35]由原始轉(zhuǎn)播視頻中挑選精彩時(shí)刻的片段組成,該數(shù)據(jù)集是從2 019 張圖像中手動(dòng)注釋了22 586個(gè)玩家位置。 數(shù)據(jù)集由轉(zhuǎn)播視頻組成,因此包含了許多挑戰(zhàn),如不同的玩家外觀、姿勢(shì)、縮放級(jí)別、運(yùn)動(dòng)模糊、嚴(yán)重的遮擋和雜亂的背景。 球員的身高、球員的圖像位置和每張圖像的球員數(shù)量分布廣泛,顯示了數(shù)據(jù)集的多樣性。 例如,玩家的身高從大約20 像素到250 像素,并從150 像素的高度開(kāi)始有一個(gè)長(zhǎng)尾分布。
文獻(xiàn)[36]中提出的數(shù)據(jù)集由14 臺(tái)攝像機(jī)拍攝而成,包含599 個(gè)動(dòng)作樣本,共132 603 幀。 該數(shù)據(jù)集中,每個(gè)球員的位置都使用邊界框標(biāo)注了,該文獻(xiàn)將足球運(yùn)動(dòng)動(dòng)作分為了5 類:傳球、運(yùn)球、射門、解圍、無(wú)球權(quán)犯規(guī)。
ITS[37]由222 個(gè)足球轉(zhuǎn)播比賽視頻組成,共計(jì)170 個(gè)小時(shí)。 該數(shù)據(jù)集包含3 種標(biāo)注類型:使用邊界框標(biāo)注球員的位置、粗粒度的動(dòng)作發(fā)生與結(jié)束時(shí)間、細(xì)粒度的動(dòng)作類型。 共11 類粗粒度動(dòng)作發(fā)生與結(jié)束時(shí)間、15 類細(xì)粒度的動(dòng)作類型。 因此,該數(shù)據(jù)集可用于足球視頻分析中的多種任務(wù)類型,如動(dòng)作類型分類、動(dòng)作定位與球員目標(biāo)檢測(cè)。
SoccerNet[38]數(shù)據(jù)集由來(lái)自歐洲6 個(gè)主要聯(lián)賽的500 場(chǎng)完整足球比賽組成,涵蓋2014年至2017年三個(gè)賽季,總時(shí)長(zhǎng)764 h。 該數(shù)據(jù)集主要對(duì)以下3種主要事件(進(jìn)球、黃牌/紅牌和換人)的發(fā)生與結(jié)束時(shí)間進(jìn)行了標(biāo)注,同時(shí)該數(shù)據(jù)集中平均每6.9 min出現(xiàn)一個(gè)事件。 該數(shù)據(jù)集主要解決長(zhǎng)視頻中稀疏事件的本地化問(wèn)題,但關(guān)注的動(dòng)作類型較少,使得任務(wù)過(guò)于簡(jiǎn)單。 SoccerNet-V2[39]在SoccerNet 的基礎(chǔ)上進(jìn)行了拓展,將動(dòng)作定位從3 類拓展到17 類;加入了對(duì)相機(jī)鏡頭的時(shí)間分割和相機(jī)鏡頭邊界檢測(cè);重新定義了精彩動(dòng)作回放任務(wù);這項(xiàng)工作發(fā)布了一個(gè)足球動(dòng)作識(shí)別基準(zhǔn)任務(wù),進(jìn)一步推動(dòng)了該領(lǐng)域的研究。
Footballer[40]是為研究足球運(yùn)動(dòng)員的身份重識(shí)別與檢測(cè)而提出的數(shù)據(jù)集,該數(shù)據(jù)集包含了32 支歐洲冠軍聯(lián)賽球員在主場(chǎng)比賽中的320 名球員、6 800張圖像,該數(shù)據(jù)集除了標(biāo)注身份標(biāo)簽以外,還標(biāo)注了62 種屬性標(biāo)簽信息。
Basket-APIDIS[8]由7 臺(tái)放置在球場(chǎng)周圍的攝像機(jī)拍攝,但采取了非同步拍攝的方式,球拍攝場(chǎng)地照明條件不佳,導(dǎo)致此數(shù)據(jù)集是一個(gè)非常具有挑戰(zhàn)性的數(shù)據(jù)集。
Basket-1[41]和Basket-2[41]是分別包括一個(gè)4 000幀和一個(gè)3 000 幀的籃球序列。 這些視頻序列分別由6 臺(tái)和7 臺(tái)放置在球場(chǎng)周圍的攝像機(jī)以25 幀/s的速度同步拍攝。 本文研究中對(duì)Basket-1的每一個(gè)第10 幀和Basket-2 的500 個(gè)連續(xù)幀進(jìn)行了手工注釋,數(shù)據(jù)集中不僅將籃球動(dòng)作劃分為以下4 類:扣籃、傳球、持球和失球,同時(shí)還對(duì)籃球的位置進(jìn)行了標(biāo)注。
NCAA Basketball Dataset 由257 個(gè)視頻長(zhǎng)度為1.5 h 以內(nèi)的未經(jīng)修剪的NCAA 比賽視頻組成,經(jīng)過(guò)標(biāo)注后,該數(shù)據(jù)集共有14 548 個(gè)動(dòng)作邊界的視頻片段。 此數(shù)據(jù)集將籃球動(dòng)作劃分為3 分球投中、3 分球失敗、2 分球投中、2 分球失敗、上籃成功、上籃失敗、罰籃成功、罰籃失敗、灌籃成功、灌籃失敗、搶球。此外,NCAA 還提供了共計(jì)9 000 幀球員位置的標(biāo)注。 此項(xiàng)數(shù)據(jù)集也可拓展至球員位置檢測(cè)。
UCF Sports[7]由150 個(gè)分辨率為720×480 的視頻組成,該數(shù)據(jù)集共包含以下10 個(gè)類別的運(yùn)動(dòng)視頻:潛水運(yùn)動(dòng)(共14 個(gè)視頻)、高爾夫運(yùn)動(dòng)(共18 個(gè)視頻)、足球運(yùn)動(dòng)(共6 個(gè)視頻)、舉重運(yùn)動(dòng)(共6 個(gè)視頻)、騎馬運(yùn)動(dòng)(共12 個(gè)視頻)、跑步運(yùn)動(dòng)(共13個(gè)視頻)、滑板運(yùn)動(dòng)(共12 個(gè)視頻)、跳馬運(yùn)動(dòng)(共13個(gè)視頻)、鞍馬運(yùn)動(dòng)(共20 個(gè)視頻)、步行(共22 個(gè)視頻)。 視頻時(shí)長(zhǎng)為2.2 ~14.4 s 不等。 與前文相比,該視頻數(shù)據(jù)集較小,且對(duì)動(dòng)作的分類程度較為粗糙。
Olympic Sports[42]數(shù)據(jù)集共包含以下16 類,每類由50 個(gè)視頻組成:跳高、跳遠(yuǎn)、三級(jí)跳遠(yuǎn)、撐桿跳、鐵餅投擲、錘子投擲、標(biāo)槍投擲、鉛球、籃球架、保齡球、網(wǎng)球發(fā)球、跳臺(tái)(跳水)、跳板(跳水)、抓舉(舉重)、挺舉(舉重)和跳馬(體操)。 因該數(shù)據(jù)集是從YouTube 上獲得的奧運(yùn)比賽轉(zhuǎn)播,故包含嚴(yán)重的相機(jī)移動(dòng)、壓縮偽影等情況。 該數(shù)據(jù)集對(duì)于動(dòng)作識(shí)別的算法設(shè)計(jì)提出了巨大的挑戰(zhàn)。
Sports-1M 數(shù)據(jù)集由100 萬(wàn)個(gè)YouTube 視頻組成,共包含487 類,每個(gè)類別都包含1 000 ~3 000 個(gè)視頻。 該數(shù)據(jù)集對(duì)類別標(biāo)簽進(jìn)行了分層設(shè)計(jì),父節(jié)點(diǎn)采用團(tuán)體運(yùn)動(dòng)、球類運(yùn)動(dòng)等粗標(biāo)簽,葉子節(jié)點(diǎn)采用如臺(tái)球的八球、九球等細(xì)粒度標(biāo)簽。 Sports-1M 為體育運(yùn)動(dòng)動(dòng)作識(shí)別任務(wù),提供了一個(gè)大型數(shù)據(jù)集,吸引著更多的學(xué)者在這項(xiàng)數(shù)據(jù)集上進(jìn)行算法模型的設(shè)計(jì)。
目前,基于視頻的體育動(dòng)作識(shí)別算法經(jīng)歷了從基于傳統(tǒng)的手工特征的算法到基于深度學(xué)習(xí)方法的轉(zhuǎn)變。 其中,基于傳統(tǒng)的手工特征算法會(huì)涉及到研究人員對(duì)各特征的理解程度,直接設(shè)計(jì)含有物理意義的特征提取器,此設(shè)計(jì)思想對(duì)特征針對(duì)性強(qiáng),但容易忽視數(shù)據(jù)中的隱含信息,同時(shí)對(duì)研究人員也提出了較高的領(lǐng)域知識(shí)要求;基于深度學(xué)習(xí)的方法能夠很好地解決基于傳統(tǒng)方法的不足,但基于深度學(xué)習(xí)的方法的數(shù)學(xué)可解釋性相對(duì)于基于傳統(tǒng)的手工特征的稍差。 目前來(lái)說(shuō),基于深度學(xué)習(xí)的方法在相關(guān)的數(shù)據(jù)集上取得了比基于傳統(tǒng)的手工特征更高的準(zhǔn)確率。
本部分將回顧基于傳統(tǒng)的動(dòng)作識(shí)別算法和基于深度學(xué)習(xí)的動(dòng)作識(shí)別算法。
基于傳統(tǒng)方法的動(dòng)作識(shí)別算法中的運(yùn)動(dòng)特征是人工提取的,在此基礎(chǔ)上建立起表示人體動(dòng)作的算法模型。
全局特征信息(GIST)[43]和方向梯度直方圖(Histogram of Oriented Gradients,HOGS)[44]是手工運(yùn)動(dòng)特征提取中常采用的方式。 采用HOGS 方式提取視頻中每一幀的運(yùn)動(dòng)特征,而后在時(shí)間上對(duì)幀特征進(jìn)行平均來(lái)分類。
文獻(xiàn)[45]在UCF Sports 上對(duì)以上2 種特征提取方式進(jìn)行了評(píng)估,結(jié)果表示使用GIST 特征比使用HOGS 特征能取得更好的表現(xiàn)(GIST 60.0% vs.HOGS 58.6%)。 一種可能的原因是,GIST 特征更容易將運(yùn)動(dòng)發(fā)生的背景與運(yùn)動(dòng)本身相關(guān)聯(lián),如足球運(yùn)動(dòng)通常發(fā)生在草坪上。
文獻(xiàn)[46]使用HOG3D 取代HOG2D 提取視頻動(dòng)作特征,采用多層感知器(Multi Layer Preception,MLP) 對(duì)動(dòng)作類型進(jìn)行分類。 文獻(xiàn)[34] 采用HOG3D 特征和核化費(fèi)舍爾判別分析(Kernelized Fisher Discriminant Analysis,KFDA)對(duì)網(wǎng)球運(yùn)動(dòng)視頻進(jìn)行分析,并在文獻(xiàn)[34]提出的自建數(shù)據(jù)集上取得了84.5%的準(zhǔn)確率。
雖然使用HOG、HOF 和SIFT 等提取的時(shí)空特征在UCF Sports 和Olympic Sports 等運(yùn)動(dòng)視頻數(shù)據(jù)集上可以取得相對(duì)較好的成績(jī),但使用這些手工制作特征的方式總體上來(lái)說(shuō)時(shí)間花銷巨大。 此外,由于傳統(tǒng)的動(dòng)作識(shí)別模型,特征提取模塊和分類器是分開(kāi)學(xué)習(xí)的,由此導(dǎo)致了這些模型都不能以端到端的模式訓(xùn)練。 綜上所述,學(xué)者們開(kāi)始將目光轉(zhuǎn)向基于深度學(xué)習(xí)的模式,并提出了許多新的方法將動(dòng)作的準(zhǔn)確率提升到了一個(gè)新水平。
當(dāng)前主流的動(dòng)作識(shí)別模型都是以深度學(xué)習(xí)為基礎(chǔ)的,與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的模型能夠以端到端的方式進(jìn)行訓(xùn)練,這給應(yīng)用深度學(xué)習(xí)模型帶來(lái)了良好的實(shí)施可行性。
本次研究將對(duì)以下4 種類型的深度學(xué)習(xí)模型進(jìn)行歸納總結(jié):基于2D 模型、基于3D 模型、基于雙流/多流模型。
3.2.1 基于2D 模型
2D 模型使用2 維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)對(duì)視頻的每一幀做特征提取,再將提取到的特征進(jìn)行融合,并對(duì)融合結(jié)果進(jìn)行預(yù)測(cè)。 文獻(xiàn)[47]將CNN 網(wǎng)絡(luò)引入了視頻動(dòng)作識(shí)別領(lǐng)域,進(jìn)一步提出了4 種特征融合方式:
(1) 單幀融合:使用一個(gè)權(quán)重共享的CNN 網(wǎng)絡(luò)對(duì)視頻中的每一幀進(jìn)行特征提取,并將最后的特征串聯(lián)起來(lái)進(jìn)行分類。
(2) 早期融合:使用一個(gè)大小為11×11×3×T的3D 卷積核結(jié)合整個(gè)時(shí)間窗口內(nèi)的幀信息進(jìn)行融合。
(3)晚期融合:使用一個(gè)權(quán)重共享的CNN 網(wǎng)絡(luò)對(duì)相隔15 幀的2 個(gè)獨(dú)立幀之間進(jìn)行特征提取,并使用一個(gè)全連接層來(lái)融合單幀的特征表示。
(4) 緩慢融合:在第一層實(shí)現(xiàn)一個(gè)3D 卷積核,并在網(wǎng)絡(luò)的更深層緩慢融合幀之間信息。
實(shí)驗(yàn)表明,緩慢融合優(yōu)于其他融合方法,例如,緩慢融合在Sports 1M[47]上取得60.9% 的準(zhǔn)確率,而單幀融合、早期融合和晚期融合的準(zhǔn)確率分別為59.3%、57.7% 和59.3%。 但使用HOG 等手工制作的特征只能達(dá)到55.3% 的準(zhǔn)確率,由此遠(yuǎn)低于使用CNN 的準(zhǔn)確率,這表明基于深度學(xué)習(xí)的模型可用于體育視頻動(dòng)作識(shí)別,并取得較好的效果,這些結(jié)果有助于推動(dòng)后續(xù)團(tuán)隊(duì)在動(dòng)作識(shí)別領(lǐng)域探索研究更多的深度學(xué)習(xí)模型。
另一種做法是直接使用長(zhǎng)短時(shí)記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)[48]來(lái)獲取動(dòng)作時(shí)間上的聯(lián)系。 文獻(xiàn)[49]提出了結(jié)合二維CNN 和LSTM 的模型,該模型首先使用一個(gè)權(quán)重共享的二維CNN 來(lái)獲取視頻幀的空間上的特征信息,然后使用多層LSTM 網(wǎng)絡(luò)獲取動(dòng)作時(shí)間上的特征信息。 在此基礎(chǔ)上,文獻(xiàn)[50]提出了一種使用兩層LSTM 網(wǎng)絡(luò)的長(zhǎng)期遞歸卷積網(wǎng)絡(luò)(Long Tern Recurrent Convolutional Networks,LRCN)。 文獻(xiàn)[51] 采用基于LSTM 的自動(dòng)編碼器以無(wú)監(jiān)督方式來(lái)學(xué)習(xí)更好的視頻表示。 文獻(xiàn)[52]提出了一個(gè)與文獻(xiàn)[49] 中的模型相似的超前神經(jīng)網(wǎng)絡(luò)(Lead Exceed Neural Network,LENN),但LENN 使用網(wǎng)絡(luò)圖像來(lái)微調(diào)前導(dǎo)網(wǎng)絡(luò),以過(guò)濾掉不相關(guān)的視頻幀。
以上學(xué)者的研究表明,時(shí)間上的動(dòng)作特征信息在動(dòng)作識(shí)別模型中起著無(wú)可替代的作用。
文獻(xiàn)[53]提出了由空間CNN 網(wǎng)絡(luò)和時(shí)間CNN網(wǎng)絡(luò)組成的時(shí)間段網(wǎng)絡(luò)(Temporal Segment Network,TSN),TSN 首先將一個(gè)輸入視頻切分成若干片段,并從這些片段中隨機(jī)采樣由RGB 幀、光流和RGB差值組成的短片段。 然后,這些片段被送入空間和時(shí)間網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。 接下來(lái),該網(wǎng)絡(luò)通過(guò)聚合各片段的預(yù)測(cè)分?jǐn)?shù)來(lái)獲得最終的預(yù)測(cè)結(jié)果。 TSN 以2 種方式獲得時(shí)間信息:
(1)直接將光流引入框架。
(2)類似于前文提到的晚期融合,TSN 聚合了片段預(yù)測(cè)的結(jié)果。
最后,僅使用RGB 幀的二維TSN 獲得了令人印象深刻的效果,在FineGym[54]上的結(jié)果為61.4%。在通用動(dòng)作識(shí)別數(shù)據(jù)集UCF101[55]上的結(jié)果為87.3%。TSN 的另一個(gè)變種KTSN 不再使用隨機(jī)采樣,而是使用關(guān)鍵視頻幀,應(yīng)用關(guān)鍵視頻幀在FSD-10 上取得了比TSN 更好的效果[56](63.3% vs.59.3%)。
文獻(xiàn)[57] 提出時(shí)間關(guān)系網(wǎng)絡(luò)(Temporal Relational Network,TRN)以捕獲幀之間的時(shí)間關(guān)系,并摒棄之前學(xué)者使用的簡(jiǎn)單聚合方法,如串聯(lián)和線性組合,改而使用MLP 計(jì)算這些關(guān)系,同時(shí)可以插入到任何現(xiàn)有框架中。 TRN 在FineGym[54]的性能相比TSN 顯著提升,達(dá)到了68.7%的準(zhǔn)確率。
然而,在TRN 中使用MLPS 計(jì)算多幀時(shí)間關(guān)系時(shí)非常耗時(shí),并且不能很好地捕捉有用的低級(jí)特征。為了解決這個(gè)問(wèn)題,文獻(xiàn)[58]提出了一種簡(jiǎn)單而有效的模塊、即時(shí)間移位模塊(Temporal Shift Module,TSM)來(lái)捕獲時(shí)間信息,TSM 使用2D CNNs 提取視頻幀上的空間特征,并將TSM 插入到2D 卷積塊中。TSM 在FineGym[54]上取得了70.6%的準(zhǔn)確率,優(yōu)于2D TSN、2D TRN 和I3D[59]等方法,而且計(jì)算復(fù)雜度較低。
3.2.2 基于3D 模型
在二維CNN 中,卷積應(yīng)用于2D 特征圖,僅從空間維度計(jì)算特征。 當(dāng)利用視頻數(shù)據(jù)分析問(wèn)題的時(shí)候,研究期望捕獲多個(gè)連續(xù)幀編碼的運(yùn)動(dòng)信息。 為此,提出在CNN 的卷積進(jìn)行3D 卷積,以計(jì)算空間和時(shí)間維度特征,3D 卷積是通過(guò)堆疊多個(gè)連續(xù)的幀組成一個(gè)立方體,并在立方體中運(yùn)用3D 卷積核。通過(guò)這種結(jié)構(gòu),卷積層中的特征圖都會(huì)與上一層中的多個(gè)相鄰幀相連,從而捕獲運(yùn)動(dòng)信息。
二維CNN 中將視頻中的圖像解碼為多個(gè)視頻幀,并用CNN 來(lái)識(shí)別單幀的動(dòng)作。 但這種方法沒(méi)有考慮多個(gè)連續(xù)幀中編碼的運(yùn)動(dòng)信息。 為了有效地結(jié)合視頻中的運(yùn)動(dòng)信息,文獻(xiàn)[60] 提出可以在CNN卷積層中使用3D 卷積,以捕獲動(dòng)作沿空間和時(shí)間維度的特征。 該文獻(xiàn)中的網(wǎng)絡(luò)結(jié)構(gòu)由1 個(gè)硬連線層、2 個(gè)三維卷積層、2 個(gè)子采樣層、1 個(gè)二維卷積層和1 個(gè)全連接層組成。 盡管文獻(xiàn)[60]所提出的網(wǎng)絡(luò)相對(duì)較小,也只在小型數(shù)據(jù)集上進(jìn)行了評(píng)估,但這項(xiàng)工作中的3D CNN 結(jié)構(gòu)可以從相鄰的視頻幀生成多個(gè)信息通道,并在每個(gè)通道中分別執(zhí)行卷積和下采樣,通過(guò)將來(lái)自視頻通道的信息組合獲得最終特征表示,取得了比二維CNNs 更好的性能。 文獻(xiàn)[56]動(dòng)作識(shí)別中采用3D CNN 的開(kāi)創(chuàng)性工作,引領(lǐng)更多學(xué)者將3DCNN 結(jié)構(gòu)應(yīng)用于動(dòng)作識(shí)別領(lǐng)域。
文獻(xiàn)[61]為大型視頻動(dòng)作識(shí)別數(shù)據(jù)集設(shè)計(jì)了一個(gè)深度的三維體系結(jié)構(gòu)(Convolutioal 3D ,C3D),C3D 模型中的三維卷積層為8 層,每層中的3D 卷積核大小為3×3×3。 C3D 在Sports 1M 數(shù)據(jù)集上取得了61.1%的準(zhǔn)確率。 文獻(xiàn)[62]使用C3D 模型,但做了一些改進(jìn)使得網(wǎng)絡(luò)層數(shù)更淺,在UCF50 數(shù)據(jù)集上取得了97.6%的精度。 文獻(xiàn)[59]提出了一個(gè)新的模型Two stream Inflated 3D ConvNet(I3D),該模型在動(dòng)作識(shí)別任務(wù)上取得了一個(gè)新的突破。 與C3D相比,I3D 網(wǎng)絡(luò)層次要深得多,其中堆疊了9 個(gè)3D初始模塊[63]和4 個(gè)獨(dú)立的3D 卷積層。 I3D 將Inception-V1[64]中大小為N × N的2D 卷積核擴(kuò)展為N × N × N的3D 卷積核,并且3D 卷積核的參數(shù)也是由預(yù)先訓(xùn)練好的2D 卷積核通過(guò)引導(dǎo)得到的。I3D 網(wǎng)絡(luò)結(jié)合了RGB-3D 網(wǎng)絡(luò)和Flow-3D 網(wǎng)絡(luò),并且I3D 網(wǎng)絡(luò)在比UCF101 數(shù)據(jù)集多400 類的Kinetics-400 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,將預(yù)訓(xùn)練的數(shù)據(jù)進(jìn)行微調(diào)后在UCF101 數(shù)據(jù)集上取得了97.9%的準(zhǔn)確率,在Kinetics-400 數(shù)據(jù)集上取得了74.2%的準(zhǔn)確率。 前述研究工作證明了在視頻動(dòng)作識(shí)別任務(wù)中,在更大規(guī)模的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,遷移到較小規(guī)模數(shù)據(jù)集上,做一些參數(shù)上的微調(diào),能夠取得非常不錯(cuò)的成績(jī)。
直接將大小為N × N的二維卷積核擴(kuò)展為大小為N × N × N的三維卷積核可以使網(wǎng)絡(luò)中可學(xué)習(xí)的參數(shù)量顯著增加,并提高模型的容量,但這也會(huì)導(dǎo)致計(jì)算復(fù)雜度的增加,存在過(guò)擬合的風(fēng)險(xiǎn)。 為了緩解這個(gè)問(wèn)題,文獻(xiàn)[65]提出一個(gè)偽3D(Pseudo 3D,P3D)網(wǎng)絡(luò),其中3D 卷積被疊加的2D 卷積和1D 卷積所代替。 同樣,文獻(xiàn)[66]研究了不同的體系結(jié)構(gòu)(2D、3D 和(2+1)D),發(fā)現(xiàn)將卷積核大小為1× N ×N的2D 卷積與卷積和大小為T ×1×1 的1D 卷積核疊加起來(lái),所取得的性能優(yōu)于其他體系結(jié)構(gòu)。 而S3D[67]則又將I3D 中的部分3D 啟動(dòng)模塊替換為2D啟動(dòng)模塊,以平衡性能和計(jì)算復(fù)雜度。 之后,文獻(xiàn)[68]提出了一組稱為三維信道分離網(wǎng)絡(luò)(Channel Separated Networks,CSN),該網(wǎng)絡(luò)為進(jìn)一步減少浮點(diǎn)數(shù)計(jì)算(Floating Point Operations,F(xiàn)LOPs),CSN模型探討了群卷積、深度卷積和這些方法的不同組合。 結(jié)果表明,CSN 不但性能比3D CNNs 好得多,且FLOPs只有3D CNNs 的三分之一。
然而,將卷積核從2D 擴(kuò)展到3D 必然會(huì)使計(jì)算成本增加一個(gè)數(shù)量級(jí),限制了其實(shí)際應(yīng)用。 文獻(xiàn)[69] 提出了一種簡(jiǎn)單而有效的方法 STM(SpatioTemporal and Motion Encoding)網(wǎng)絡(luò),可將時(shí)空和運(yùn)動(dòng)特征集成到一個(gè)統(tǒng)一的二維CNN 框架中,無(wú)需任何三維卷積計(jì)算。
STM[69]采用2 個(gè)模塊-通道時(shí)空模塊(Channelwise Spatial Temporal Module,CSTM)和通道運(yùn)動(dòng)模塊(Channel-wise Motion Module,CMM),其中CSTM采用(2+1)D 卷積融合空間和時(shí)間特征,而CMM 只采用二維卷積,但將連續(xù)三幀的特征拼接起來(lái)。 與P3D[65]和R3D[66]相比,STM 表現(xiàn)更好。
C3D 及其改進(jìn)模型將2D 卷積擴(kuò)展到時(shí)空域,默認(rèn)時(shí)域和空域是平等的、對(duì)稱的,同時(shí)處理空域和時(shí)域的信息,而SlowFast[70]將空域和時(shí)域進(jìn)行拆分處理,也更為符合時(shí)域和空域特征的關(guān)系。
SlowFast[70]由2 個(gè)分支組成。 一個(gè)是低幀率的慢分支,另一個(gè)是高幀率的快分支。 低幀率的慢分支在底層只使用2D 卷積,在頂層使用(1+2)D 卷積可以更多地關(guān)注空間語(yǔ)義信息,采樣率低的慢分支提取隨時(shí)間變化較慢的空間特征,而快分支在每一層都使用(1+2)D 卷積更多地關(guān)注對(duì)象運(yùn)動(dòng)信息。FAST 分支提取隨時(shí)間變化較快的運(yùn)動(dòng)特征,為了降低該通道的復(fù)雜度,卷積核的空間通道數(shù)設(shè)計(jì)得較小,從而使網(wǎng)絡(luò)變得輕量級(jí)的同時(shí)還可以學(xué)習(xí)用于視頻動(dòng)作識(shí)別的有用時(shí)間信息。
相比于C3D 及其改進(jìn)模型,SlowFast 中同樣用到了3D 卷積,但與C3D 的又不太相同。 Slow 通路在底層使用2D 卷積,頂層使用(1+2)D 卷積(實(shí)驗(yàn)發(fā)現(xiàn)比全用3D 卷積效果更好);Fast 通路每一層用的都是(1+2)D 卷積,但是各層維持時(shí)域維度大小不變,盡可能地保留時(shí)域信息,而C3D 中越深的層時(shí)域維度越小。 此外,SlowFast 將慢速和快速特性橫向拼接融合在一起。 通過(guò)對(duì)慢分支、快分支和橫向連接的精心設(shè)計(jì),SlowFast 在多種流行的動(dòng)作識(shí)別數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。
用于視頻動(dòng)作識(shí)別的神經(jīng)網(wǎng)絡(luò)很大程度上是通過(guò)將2D 圖像架構(gòu)[64,71-73]中的網(wǎng)絡(luò)輸入、特征或卷積核擴(kuò)展到時(shí)空維度來(lái)驅(qū)動(dòng)的[47,59,74-75];雖然沿時(shí)間軸擴(kuò)展(同時(shí)保持其他設(shè)計(jì)屬性)通常會(huì)提高準(zhǔn)確度,但如果在計(jì)算復(fù)雜度和準(zhǔn)確度之間做一個(gè)權(quán)衡,這些操作可能不是最優(yōu)的。
X3D[76]從空間、時(shí)間、深度和寬度四個(gè)方面對(duì)二維CNNS 進(jìn)行了擴(kuò)展,探索了多種體系結(jié)構(gòu),發(fā)現(xiàn)高時(shí)空網(wǎng)絡(luò)優(yōu)于其他模型。 在Kinetics-400 上,X3D 比SlowFast 表現(xiàn)稍差:前者79.1%、后者79.8%,但X3D 的參數(shù)較少,且訓(xùn)練和推理時(shí)間較短。 為了進(jìn)一步減少網(wǎng)絡(luò)參數(shù)和FLOPs的數(shù)量,文獻(xiàn)[77]提出能夠處理流式視頻的移動(dòng)視頻網(wǎng)絡(luò)(Mobile Video Networks,Movinets)。 Movinets 中應(yīng)用了2 個(gè)核心技術(shù)。 第一個(gè)是神經(jīng)結(jié)構(gòu)搜索(Neural Architecture Search,NAS)[78],用于高效地生成3DCNN 結(jié)構(gòu);第二個(gè)是流緩沖技術(shù),將內(nèi)存與視頻剪輯持續(xù)時(shí)間解耦,允許3DCNNs 以較小的恒定內(nèi)存占用嵌入任意長(zhǎng)度的視頻流用于訓(xùn)練和推理。 使用這2 種技術(shù),Movinets 只需要X3D 的20%的Flops,就獲得了相同的性能。
SlowFast[70]表明引入不同的時(shí)間分辨率有利于動(dòng)作識(shí)別,然而是將一個(gè)單獨(dú)的網(wǎng)絡(luò)應(yīng)用于每個(gè)分辨率。 以上提到的動(dòng)作識(shí)別網(wǎng)絡(luò)的設(shè)計(jì)中往往忽略了表征不同動(dòng)作的一個(gè)重要方面:動(dòng)作本身的視覺(jué)節(jié)奏。 視覺(jué)節(jié)奏實(shí)際上描述了一個(gè)動(dòng)作進(jìn)行的速度,往往決定了識(shí)別的時(shí)間尺度上的有效持續(xù)時(shí)間。在某些情況下,區(qū)分不同動(dòng)作類別的關(guān)鍵是各動(dòng)作的視覺(jué)節(jié)奏,比如走路、慢跑和跑步視覺(jué)外觀上有著高度相似之處,但視覺(jué)節(jié)奏存在明顯不同。 時(shí)間金字塔網(wǎng)絡(luò)(Temporal Pyramid Network ,TPN)[79]采用一個(gè)主干網(wǎng),對(duì)不同層次的三維特征采用時(shí)間金字塔,即低幀率用于捕捉高級(jí)特征語(yǔ)義,高幀率用于捕捉低級(jí)運(yùn)動(dòng)特征信息。 TPN 在Kinetics-400 上實(shí)現(xiàn)了SlowFast 相同的性能,但只采用了一個(gè)網(wǎng)絡(luò)分支。
為了對(duì)長(zhǎng)視頻序列進(jìn)行建模,文獻(xiàn)[80] 將時(shí)態(tài)全連通操作引入到SlowFast 中,提出了TFCNet,文中時(shí)間全連接塊(TFC Block)是一種高效的組件,可沿時(shí)間維度將所有幀的特征通過(guò)一個(gè)FC 層組合在一起以獲得視頻級(jí)的感受野,增強(qiáng)時(shí)空推理能力。通過(guò)將TFC 塊插入到SlowFast,在真實(shí)世界靜態(tài)無(wú)偏數(shù)據(jù)集Diving48 上,比SlowFast 提高了近11%,性能提高到88.3%,同時(shí)超越了所有以前的方法。
相比于采用2D 結(jié)構(gòu)的模型,通常采用3D 結(jié)構(gòu)模型的精度更高,相比于2D 模型的需要計(jì)算的參數(shù)量也有了明顯的增長(zhǎng)。 對(duì)GPU 等硬件提出了更高的要求。
3.2.3 基于雙流/多流模型
文獻(xiàn)[81]首次提出了雙流卷積神經(jīng)網(wǎng)絡(luò)(Two Stream Convolutional Network),該模型具有一個(gè)空間流卷積神經(jīng)網(wǎng)絡(luò)(Spatial Stream ConvNet)分支和一個(gè)時(shí)間流卷積網(wǎng)絡(luò)(Temporal Stream ConvNet)分支。以RGB 圖像和相應(yīng)的光流作為2 個(gè)分支卷積神經(jīng)網(wǎng)絡(luò)的輸入,分別提取空間特征和時(shí)間特征。 特征的融合在網(wǎng)絡(luò)的最后使用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行分類。 研究中提出的雙流網(wǎng)絡(luò)在UCF101 數(shù)據(jù)集上取得了88%的準(zhǔn)確率,識(shí)別效果優(yōu)于使用單獨(dú)的空間流或時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)。 但文獻(xiàn)[81]提出的雙流網(wǎng)絡(luò)結(jié)構(gòu)中計(jì)算光流所需的計(jì)算量大,計(jì)算時(shí)間較長(zhǎng),這不利于實(shí)時(shí)視頻行為識(shí)別。 受此啟示,文獻(xiàn)[82]通過(guò)將光流替換為直接從壓縮視頻獲得的運(yùn)動(dòng)矢量應(yīng)用于實(shí)時(shí)動(dòng)作分類中并取得了不錯(cuò)的成績(jī),但運(yùn)動(dòng)矢量缺乏精細(xì)的結(jié)構(gòu),導(dǎo)致了識(shí)別性能的下降。
文獻(xiàn)[83]受文獻(xiàn)[81]在堆疊光流和圖像幀上訓(xùn)練的雙流卷積神經(jīng)網(wǎng)絡(luò)能成功應(yīng)用于基于視頻的動(dòng)作識(shí)別的啟發(fā),也以類似的方式考慮了時(shí)間維度上的數(shù)據(jù)。 提出了多流網(wǎng)絡(luò)(Multi Stream Network,MSN)[83]。 MSN 是由2 個(gè)雙流網(wǎng)絡(luò)組成的多流卷積神經(jīng)網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)由不同的VGG 網(wǎng)絡(luò)組成,輸入到網(wǎng)絡(luò)中的是由原始視頻拆分而得到的一系列連續(xù)6 幀RGB 圖像,并計(jì)算求得其光流(Optical Flow OF)和以人的邊界為感興趣區(qū)域(Region of Interest,ROI)。 這種多流網(wǎng)絡(luò)會(huì)反饋給全連接層,全連接層向自身饋送給雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Menory,LSTM)。 LSTM 網(wǎng)絡(luò)的輸入來(lái)自MSN網(wǎng)絡(luò)的連續(xù)輸出。 這項(xiàng)工作使用像素軌跡而不是堆疊的光流作為運(yùn)動(dòng)流的輸入,從而顯著改善了識(shí)別結(jié)果。
視頻由一系列靜態(tài)圖像組成,此前的工作均是采用靜態(tài)圖像及其計(jì)算出的光流輸入網(wǎng)絡(luò)中,但對(duì)于視頻的最佳表現(xiàn)方式還不是很清楚。 文獻(xiàn)[84]提出了一種使用順序池化(Rank Pooling)對(duì)RGB 圖像或光流視頻等時(shí)態(tài)數(shù)據(jù)進(jìn)行編碼得到的動(dòng)態(tài)圖像。 使用動(dòng)態(tài)圖像作為ResNeXt-50 和ResNeXt-101 網(wǎng)絡(luò)輸入。 研究可知,在UCF101 數(shù)據(jù)集上分別達(dá)到了95.4%和96%的成績(jī)。
人的視覺(jué)系統(tǒng)是直觀的,不以光流信息作為輸入信號(hào),而是以眼睛所看到直觀信息來(lái)判斷運(yùn)動(dòng)的種類。 文獻(xiàn)[85]提出了ActionFlowNet 模型。 這是一種高效的數(shù)據(jù)表示學(xué)習(xí)方法,用于學(xué)習(xí)只有少量標(biāo)記數(shù)據(jù)的視頻表示。 ActionFlowNet 模型直接從原始像素訓(xùn)練單個(gè)流網(wǎng)絡(luò),用以共同估計(jì)光流,減小了計(jì)算光流的巨大耗時(shí)。 與其他不使用預(yù)訓(xùn)練的方法相比,該方法在UCF101 數(shù)據(jù)集上也取得了83.9%的準(zhǔn)確率。 類似的工作還有,文獻(xiàn)[86]提出Motion-Augmented RGB Stream(MARS)。 MARS 使用3D ResNet 訓(xùn)練RGB 流,以此模仿OF 特征。 作為單個(gè)流,MARS 的性能優(yōu)于單獨(dú)的RGB 流或光流。
文獻(xiàn)[87]對(duì)雙流卷積網(wǎng)絡(luò)的輸入、網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略進(jìn)行了思考,提出了時(shí)間段網(wǎng)絡(luò)(Temporal Segment Networks,TSN),優(yōu)化了文獻(xiàn)[81]提出的雙流網(wǎng)絡(luò),在UCF101 數(shù)據(jù)集上取得了94.2%的成績(jī)。
3.2.4 基于Transformer 模型
得益于Transformer[88]在自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域取得的巨大成功,文獻(xiàn)[89]并未選用CNN,直接按照BERT 的模型結(jié)構(gòu)使用了純Transformer 的結(jié)構(gòu)提出了VIT 模型,并在圖片分類任務(wù)上取得了巨大的成功,實(shí)現(xiàn)了計(jì)算機(jī)視覺(jué)(Computer Vision,CV)與NLP 的融合統(tǒng)一,使得在NLP 領(lǐng)域成功的模型能遷移到CV 領(lǐng)域,促進(jìn)了CV 領(lǐng)域的發(fā)展。 由于Transformer 強(qiáng)大的序列建模能力,CV 領(lǐng)域主流的骨干網(wǎng)絡(luò)逐漸從CNN 轉(zhuǎn)為了Transformer,文獻(xiàn)[90] 提出了 VTN (Video Transformer Network)模型,該模型摒棄了3D CNN的視頻動(dòng)作識(shí)別標(biāo)準(zhǔn)方法,引入了一種通過(guò)關(guān)注整個(gè)視頻序列信息來(lái)對(duì)動(dòng)作進(jìn)行分類的方法。 此模型以給定8 幀圖片為輸入,后接一個(gè)時(shí)間注意力的編碼層,獲取時(shí)空特征。 在運(yùn)行時(shí)間方面,與其他方法相比,VTN 方法在推理時(shí)間上快了16.1 倍,運(yùn)行速度提高了5.1 倍,同時(shí)在Kinetics-400 數(shù)據(jù)集上取得了94.2%的準(zhǔn)確率。 文獻(xiàn)[91]提出了VidTr 模型,與常用的3D CNN 相比,VidTr 能夠通過(guò)堆疊注意力層聚合時(shí)空信息,并以更高的效率提供更好的性能。 VidTr 在5 個(gè)常用數(shù)據(jù)集以較低的計(jì)算,實(shí)現(xiàn)了先進(jìn)的性能,這項(xiàng)工作證明VidTr 更為擅長(zhǎng)推理長(zhǎng)時(shí)間序列的行為。
在多項(xiàng)動(dòng)作識(shí)別數(shù)據(jù)集上,基于Transformer 的模型取得了最先進(jìn)的性能,但也存在著許多有待解決的問(wèn)題。
(1)特征提取問(wèn)題。 Transformer 具有強(qiáng)大的序列建模能力,在NLP 領(lǐng)域中,特征序列是一維線性排列的,而在視頻領(lǐng)域中,圖像像素之間的聯(lián)系是三維的。 與CNN 網(wǎng)絡(luò)中利用卷積核來(lái)獲取特征的方式不同,基于Transformer 的模型目前只能捕捉一維序列中的特征,如何有效地提取視覺(jué)特征還需要進(jìn)一步的研究與拓展。
(2)輸入特征冗余問(wèn)題。 基于Transformer 的模型將輸入視頻編碼為多個(gè)Token 作為模型的輸入,VIT 模型中一張224×224 分辨的圖片將產(chǎn)生196 個(gè)視覺(jué)Token,過(guò)長(zhǎng)的Token 量將大大增加模型的計(jì)算代價(jià),將使模型的的高效訓(xùn)練與推理變得困難。
雖然基于視頻的動(dòng)作識(shí)別算法在通用數(shù)據(jù)集上取得了很不錯(cuò)的成績(jī),但基于視頻的體育動(dòng)作識(shí)別還存在許多的挑戰(zhàn)與難點(diǎn)。
作為進(jìn)一步研究視頻動(dòng)作識(shí)別方法在體育動(dòng)作識(shí)別的關(guān)鍵問(wèn)題之一,體育視頻數(shù)據(jù)的收集與標(biāo)注的質(zhì)量直接影響著動(dòng)作識(shí)別算法的性能[59,92-93]。然而,體育視頻數(shù)據(jù)集在制作過(guò)程中與其他通用的視頻動(dòng)作識(shí)別數(shù)據(jù)集,如 UCF101、 HMDB51、Knietic400 等存在著很大的區(qū)別。
(1)版權(quán)問(wèn)題。 大多數(shù)的體育競(jìng)賽視頻來(lái)自于未經(jīng)剪輯的直播片段,由于視頻版權(quán)等原因,這些片段的收集可能會(huì)受到版權(quán)限制。
(2)自建數(shù)據(jù)。 非專業(yè)運(yùn)動(dòng)員自制的體育視頻可能存在動(dòng)作質(zhì)量較低、拍攝角度不佳等問(wèn)題,在此基礎(chǔ)上進(jìn)行訓(xùn)練的模型的可泛化能力差。
(3)標(biāo)注的專業(yè)性。 體育動(dòng)作識(shí)別通常關(guān)注特定的運(yùn)動(dòng)類別,如花樣滑冰、乒乓球、排球等,這些動(dòng)作相比日常行為如:喝水、跑跳等,需要參與標(biāo)注的人員有相關(guān)的專業(yè)知識(shí),且標(biāo)注者的專業(yè)性能很大程度上會(huì)影響相關(guān)動(dòng)作識(shí)別算法在此類任務(wù)上的推廣。
(1)密集性動(dòng)作。 流行的動(dòng)作識(shí)別模型[58,94-95]所研究的對(duì)象是每個(gè)動(dòng)作發(fā)生的時(shí)間間隔為20 s,或者更長(zhǎng)的動(dòng)作間隔時(shí)間。 然而,一方面乒乓球比賽中的擊球動(dòng)作通常發(fā)生在0.4 s 或者更短的時(shí)間間隔內(nèi)。 傳統(tǒng)的低速攝影機(jī)難以從具有背景變化的視頻中捕捉到更豐富的動(dòng)作細(xì)節(jié)[96-97]。 另一方面,在乒乓球運(yùn)動(dòng)中,運(yùn)動(dòng)員雙方輪流擊球,相比于足球、籃球等動(dòng)作,擊球動(dòng)作呈現(xiàn)密集分布,這對(duì)動(dòng)作識(shí)別算法的識(shí)別動(dòng)作邊界提出了更高的要求。 當(dāng)前,雖然有一些學(xué)者在這些方面做出了努力,但與常規(guī)動(dòng)作識(shí)別任務(wù)相比,研究學(xué)者所提出的算法性能仍遠(yuǎn)遠(yuǎn)低于預(yù)期[98-99],這對(duì)現(xiàn)有模型來(lái)說(shuō)仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[49,51]。
(2)動(dòng)作視角變化。 視頻動(dòng)作數(shù)據(jù)集相比于圖像數(shù)據(jù)集,運(yùn)動(dòng)的物體在時(shí)間上存在著強(qiáng)關(guān)聯(lián),目標(biāo)物體的運(yùn)動(dòng)特征的提取質(zhì)量將直接影響動(dòng)作識(shí)別模型性能[100-102]。 此前的一些模型是對(duì)由固定攝像機(jī)視角拍攝的視頻采用光流法[103-104]對(duì)運(yùn)動(dòng)特征進(jìn)行提取。 然而,隨著體育視頻集錦的出現(xiàn),越來(lái)越多的體育視頻中的相機(jī)視角出現(xiàn)了變化,如對(duì)視頻片段中的精彩動(dòng)作進(jìn)行放大。 這對(duì)成熟的動(dòng)作識(shí)別基準(zhǔn)模型[53,56,58,66,81]提出了巨大的挑戰(zhàn),如文獻(xiàn)[57,105-106]所提出的算法,幾乎不能處理動(dòng)作視角劇烈變化的樣本。 雖然文獻(xiàn)[107-109]考慮了動(dòng)作視角的變化,但在設(shè)計(jì)運(yùn)動(dòng)描述子時(shí),面對(duì)被遮擋和被剪切的動(dòng)作時(shí),仍然導(dǎo)致了特征空間不一致,使得模型沒(méi)有達(dá)到理想的性能。 文獻(xiàn)[110-112]通過(guò)設(shè)計(jì)運(yùn)動(dòng)描述符的結(jié)構(gòu)和添加注意力機(jī)制來(lái)解決遮擋問(wèn)題,但這些工作中的運(yùn)動(dòng)描述符僅限于單個(gè)目標(biāo)被遮擋的情況,對(duì)于多個(gè)被遮擋的對(duì)象,效果仍然欠佳。
(3)數(shù)據(jù)集長(zhǎng)尾分布。 長(zhǎng)尾學(xué)習(xí)[113-114]是計(jì)算機(jī)視覺(jué)識(shí)別最具挑戰(zhàn)性的問(wèn)題之一。 視頻來(lái)源于體育賽事直播中的足球、籃球、乒乓球等比賽。 由于類分布的長(zhǎng)尾性和不均衡性,使得模型的性能大大降低[115-118]。 而考慮到體育類動(dòng)作的特殊性,對(duì)模型中的數(shù)據(jù)增強(qiáng)方法提出了更高的要求。
本文對(duì)最近幾年的體育視頻中的動(dòng)作識(shí)別算法進(jìn)行了較全面的綜述。 由于體育動(dòng)作與時(shí)間上的強(qiáng)關(guān)聯(lián),在算法設(shè)計(jì)中引入時(shí)序信息,可以有效提升算法的準(zhǔn)確性。 當(dāng)前的動(dòng)作識(shí)別算法在各通用數(shù)據(jù)集上均取得了不錯(cuò)的成績(jī),但將算法應(yīng)用在體育視頻中的動(dòng)作識(shí)別仍需學(xué)者進(jìn)行更多的研究,特別是在缺乏豐富數(shù)據(jù)集的情況下,體育視頻分析仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。