王澤軍,游松輝
(同濟大學國際足球?qū)W院,上海200092)
提高足球運動員的比賽表現(xiàn)水平是訓練的出發(fā)點和最終目標。足球運動表現(xiàn)分析對實現(xiàn)訓練目標、糾正訓練偏差、改進訓練和比賽策略有著重要作用。足球運動表現(xiàn)系統(tǒng)構(gòu)成較為復雜,它不僅是體能、技戰(zhàn)術(shù)能力、智能的綜合體現(xiàn),在比賽策略、戰(zhàn)術(shù)、隊友、位置、對手、場地、氣候等多種因素影響下,比賽的技戰(zhàn)術(shù)表現(xiàn)經(jīng)常處于動態(tài)變化之中[1-2]。雖然鏟球、控球、傳球以及跑動距離這些傳統(tǒng)的事件數(shù)據(jù)(event data)可以提供許多具體的信息,但它們幾乎不能提供關(guān)于比賽最終結(jié)果的線索。戰(zhàn)術(shù)才是足球比賽獲勝的核心要素。高水平戰(zhàn)術(shù)能力對于足球運動員在比賽中的表現(xiàn)至關(guān)重要。隨著球員跟蹤技術(shù)的進步,比賽數(shù)據(jù)的質(zhì)量已經(jīng)達到足球戰(zhàn)術(shù)分析的要求,并促進足球戰(zhàn)術(shù)分析方法的發(fā)展。尤其是位置數(shù)據(jù)可以非常準確地反映每名球員以及球的位置,這將有助于識別足球比賽中的戰(zhàn)術(shù)模式[3]。因此,本文首先概述足球戰(zhàn)術(shù)與位置數(shù)據(jù)的出現(xiàn),隨后詳細論述基于位置數(shù)據(jù)的足球戰(zhàn)術(shù)分析方法的研究成果,如球隊中心法、空間控制法、網(wǎng)絡(luò)分析法和機器學習算法。然而,位置數(shù)據(jù)只能提供單一空間模式的大數(shù)據(jù),在大數(shù)據(jù)背景下足球戰(zhàn)術(shù)分析需要整合多種不同來源的詳細數(shù)據(jù)。鑒于此,筆者通過在足球戰(zhàn)術(shù)分析中引入大數(shù)據(jù)技術(shù)棧和深度學習技術(shù),試圖較為全面地描繪該領(lǐng)域的研究圖景,以及這些研究的內(nèi)在聯(lián)系和發(fā)展趨勢。
對于競技足球而言,比賽的目標是贏得勝利,選擇一種合適的戰(zhàn)術(shù)對于賽前準備工作至關(guān)重要。在分析戰(zhàn)術(shù)行為時,戰(zhàn)術(shù)的概念被一些研究者定義為球員為適應動態(tài)變化的比賽情況而采取的行動[4]。還有研究者試圖把戰(zhàn)術(shù)與戰(zhàn)略區(qū)分開來,認為戰(zhàn)略可以被描述為在考慮可用信息的影響之后預先計劃的比賽要素。從這個角度看,戰(zhàn)術(shù)和戰(zhàn)略的不同之處在于二者與時間的關(guān)系。戰(zhàn)略執(zhí)行時允許更長時間的計劃和深思熟慮,而戰(zhàn)術(shù)行為是在強大的時間壓力下做出的。戰(zhàn)術(shù)決定了一支球隊如何管理空間、時間和個人行動來贏得比賽。在此情境中,空間是指球場上發(fā)生的特定行動,或球隊在進攻和防守期間想要覆蓋的球場區(qū)域。時間描述的是諸如事件的頻率和持續(xù)時間(如控球)或啟動動作的速度。個人行動指定了正在執(zhí)行的動作類型,如失誤、傳中和傳球。根據(jù)參賽球員數(shù)量可以將其進一步劃分為個人戰(zhàn)術(shù)、小組戰(zhàn)術(shù)、球隊戰(zhàn)術(shù)和比賽戰(zhàn)術(shù)。個人層面的戰(zhàn)術(shù)行為分析可以是研究1名球員與其對手或隊友之間的運動關(guān)系,如1名邊后衛(wèi)盯防1名邊鋒或2名中后衛(wèi)的互動。在小組層面,可以分析選定的1組球員的球隊戰(zhàn)術(shù)運動,如后衛(wèi)線通過一致移動制造越位“陷阱”。在球隊層面,戰(zhàn)術(shù)行為分析可以捕獲所有球員團隊行動的變量,如對球隊占用的空間進行分析。在比賽層面上的戰(zhàn)術(shù)行為可以通過考察2支對抗球隊之間團隊行動的互動進行研究,如球隊間的距離。在某些情況下,戰(zhàn)略的成功取決于在不同組織層面上的戰(zhàn)術(shù)成功。
為了確保所有層面上戰(zhàn)術(shù)的成功執(zhí)行,教練員需要考慮球隊和對手的狀態(tài),以及諸如主客場比賽,甚至天氣等外部因素[5]。球隊為達到特定的目標,使用預先設(shè)計好的空間陣型作為戰(zhàn)術(shù)。教練員需要了解球隊陣型保持一致的時間比例,以及球隊在什么情況下被迫改變陣型。在為與今后的對手比賽做準備時,對陣型的使用和陣型變化時期的理解也很重要。陣型是球員場上的位置,即相對于其他物體(如球場邊界或球門、隊友或?qū)κ郑┑奈恢谩R环矫?,在空間上陣型可以是固定的,即球員在比賽區(qū)域內(nèi)的特定位置。另一方面,在空間上陣型可能會發(fā)生變化,但在球員之間保持穩(wěn)定的相對方向,如后衛(wèi)線在球場上的整體移動。此外,在陣型中扮演特定角色的球員可以通過換人明確地轉(zhuǎn)換角色,也可以根據(jù)戰(zhàn)術(shù)需要動態(tài)地轉(zhuǎn)換角色[6]??傊闱蜻\動表現(xiàn)可以被描述為一個復雜過程的結(jié)果,這個過程包括在比賽前做出的戰(zhàn)略決策和在比賽進程中不同組織層面執(zhí)行的戰(zhàn)術(shù)行為。
事件數(shù)據(jù)是量化和評估個人和團隊表現(xiàn)的標準來源,它包括在整個比賽中所發(fā)生事件的頻率、比例和其他累積表現(xiàn)指標。近年來戰(zhàn)術(shù)決策變得更為復雜,因而教練員的戰(zhàn)術(shù)能力也受到公眾的密切關(guān)注[7]。評估競技足球戰(zhàn)術(shù)行為和球隊整體表現(xiàn)的傳統(tǒng)標準通?;趥€人博弈視角[5,8]。相關(guān)領(lǐng)域?qū)<遥ㄈ缃叹殕T、球探)通過觀察一場比賽,根據(jù)個人經(jīng)驗對球隊戰(zhàn)術(shù)進行評估。然而,定性的博弈視角缺乏客觀性和系統(tǒng)性,如結(jié)構(gòu)化和綜合性,憑觀察者的主觀印象,分析過程非常緩慢(4~6 h),且需要利用專家的經(jīng)驗和訣竅[1],以及更多自動的定量方法分析競技足球的戰(zhàn)術(shù)行為。由于球員跟蹤技術(shù)的進步,如半自動化計算的視覺系統(tǒng)、全球定位系統(tǒng)和基于無線電波的跟蹤系統(tǒng)的運用增多,比賽數(shù)據(jù)在可用性方面呈現(xiàn)增長趨勢[2]。位置跟蹤系統(tǒng)以每秒25幀的速度確定22名球員和球的x坐標和y坐標(平行于邊線),這相當于每場比賽中每個對象約有13.5萬個位置,所有球員和球的位置總計約有310萬個[9]。
戰(zhàn)術(shù)變量通常與球員的位置、距離、空間和數(shù)值關(guān)系有關(guān)。球員的位置坐標是戰(zhàn)術(shù)分析的基礎(chǔ)。從數(shù)學的視角看,球員的球場位置可以用笛卡爾坐標(x坐標和y坐標)精確地確定。通過收集到的數(shù)據(jù),從比賽動態(tài)中產(chǎn)生的比賽時空模式可以提供關(guān)于足球運動表現(xiàn)的新信息。在實際應用中,位置坐標可以作為數(shù)據(jù)可視化的一種形式生成熱圖或點圖。這可以用來理解個人、小組球員或一個團隊的特征運動模式[4]。這里以x-y坐標的形式實時顯示所有球員的位置,所獲得的數(shù)據(jù)被稱作位置數(shù)據(jù)或跟蹤數(shù)據(jù)[3]。一方面,對位置數(shù)據(jù)的評估會有明顯的速度優(yōu)勢(從6~8 h減少為數(shù)分鐘)。另一方面,與事件數(shù)據(jù)相比,位置數(shù)據(jù)體量大、多樣、精準,可以為體育可視化研究者提供詳細的數(shù)據(jù)集??梢暬仁菙?shù)據(jù)分析的關(guān)鍵技術(shù),也是數(shù)據(jù)分析結(jié)果呈現(xiàn)的關(guān)鍵技術(shù)[10-11]。位置數(shù)據(jù)不僅可以用于制訂、描述和理解比賽動態(tài)的團隊表現(xiàn)指標,還可以用于探索關(guān)鍵事件發(fā)生前的動態(tài)模式,如得分機會和進球。
傳統(tǒng)的足球戰(zhàn)術(shù)分析主要采用符號分析法,使用傳球、控球、搶球或比賽風格等事件數(shù)據(jù)。它通過對運動行為以及技戰(zhàn)術(shù)應用狀況的分析,為探討足球運動的制勝規(guī)律或相關(guān)打法理論的形成奠定了基礎(chǔ),通常用來對足球比賽中技戰(zhàn)術(shù)指標進行描述性分析[1],其局限在于未考慮情境信息和方法的解釋力較弱。為了避免此類問題,研究者一方面運用多變量的方法保留情境信息,另一方面更多采用計算機視頻分析技術(shù),如球隊中心法、空間控制法、網(wǎng)絡(luò)分析法和機器學習算法[12],尤其是基于位置數(shù)據(jù)識別球員之間的互動模式,探索比賽中出現(xiàn)的時空模式,解釋一些符號分析法無法量化的戰(zhàn)術(shù)行為[9]。表1總結(jié)了在團隊運動中使用戰(zhàn)術(shù)參數(shù)進行自動分析的方法。
表1 基于位置數(shù)據(jù)的戰(zhàn)術(shù)表現(xiàn)分析的候選表現(xiàn)指標[9]Table 1 Candidate performance indicators for tactical performance analysis based on position data
確定球隊中心是在球隊戰(zhàn)術(shù)研究中經(jīng)常使用的一種方法。它代表一組點的幾何中心,這些點代表了在比賽期間球員在場上的位置,但不包括守門員和球的位置。根據(jù)定義,它是一支球隊中所有被分析球員的平均x坐標和y坐標。這個變量可以被單獨分析,也可以通過進一步處理研究其他戰(zhàn)術(shù)行為。在比賽過程中,球隊中心之間存在很強的耦合性,球場尺寸變化導致中心距離改變,而像射門這樣的關(guān)鍵比賽事件伴有球隊間耦合變異性的增加[12]。例如,2支對抗球隊中心之間的距離經(jīng)常被用來描述球隊間的距離,但表現(xiàn)出較低的可變性。因此,球員與球隊中心、對手的球隊中心或特定位置的中心(如后衛(wèi)中心、中場中心和前鋒中心)間距離也被計算為測量位置的一種形式(圖1)。這一舉措使得研究者了解相對于動態(tài)團隊(或小組)位置的球員定位,而不是靜態(tài)的球場坐標。
球隊離散度是指計算每名球員與最近的對手之間的距離之和,表示沒有對手的整體空間半徑。在比賽層面的分析中,球隊間中心距離量化了2個對手之間的距離,而在個人層面的分析中,最近對手的距離代表了這一概念。因此,這2個變量可以互補使用,從而更全面地表示球隊間從全局到局部的分析距離。雖然單獨分析1支球隊的中心可能無法為表現(xiàn)或行為提供有意義的見解,但可以從不同角度理解球員與球隊之間的動態(tài)定位,而且在分析球隊間的互動時也很有價值。在實際應用中,球隊間中心距離和最近對手的距離可以表示2支球隊之間距離的遠近,并提供1支球隊的防守策略信息,如壓迫或防守深度。球隊特定位置的中心間距離有助于量化后衛(wèi)、中場和前鋒線之間的距離,這有助于教練員確定防守時3條線之間的最佳距離,以及理解進球或阻止得分的過程。
由于足球比賽中的相互作用是復雜的,而從球員位置數(shù)據(jù)中產(chǎn)生的信號往往是非線性的且?guī)в懈蓴_,因此,從系統(tǒng)復雜性的角度分析戰(zhàn)術(shù)行為的一個關(guān)鍵特征是非線性分析。它考慮了球員相互作用的時間序列和動態(tài)特性,描述了線性技術(shù)無法表示的復雜情況,如均值、標準差和變異系數(shù)。非線性分析技術(shù)有效測量了戰(zhàn)術(shù)行為變量的可預測性和同步性。可預測性的測量對象通常是時間信號的周期性或可重復性模式。這些技術(shù)包括近似熵(Approximate Entropy,ApEn)、樣 本 熵、香 農(nóng) 熵 和 動 態(tài) 疊 加[4]。例 如,Memmert等[9]計算隨時間推移中后衛(wèi)到后衛(wèi)中心的距離,然后計算該時間序列的ApEn,最后進行聚類分析,將自動得到的ApEn分為高、中、低3個不同可預測性的小組(圖1)。Gon?alves等[13]使用ApEn研究后衛(wèi)、中場與前鋒線之間和隊內(nèi)11名球員比賽期間的協(xié)調(diào)關(guān)系。結(jié)果表明,3條線球員的中心運動更有規(guī)律。因此,ApEn這一度量真正代表的是球隊中心的行為規(guī)律本身,它是對團隊行為的一種高度抽象的描述。然而可預測性的測量方法只是比較1個信號和它本身,同步的測量方法可以評估2個或多個不同信號的相似性。這些技術(shù)包括相對相位、窗口相關(guān)、互相關(guān)、跨樣本熵(交叉樣本)、矢量編碼、互信息和聚類相位[4]。在實際應用中,可以利用同步性檢測對方球員之間是否存在盯人,基于對方球隊數(shù)據(jù)的分析還可以識別在防守時具有同步趨勢的幾組球員。
圖1 球隊陣型和球員到其位置中心之間距離的可預測性[9]Figure 1 Team formation and predictability of distances between players and their positional-centroid
空間控制法是另一種通過計算球員所覆蓋的區(qū)域或?qū)η騿T間距離的各種度量,量化球員在球隊中的分散程度研究球隊戰(zhàn)術(shù)的方法。其中最常用的一種比賽空間測量方法是有效比賽空間測量,它使用一種凸殼(convex hull)方法測量比賽外圍隊友的多邊形區(qū)域。有效比賽空間也為表面積、覆蓋面積或比賽區(qū)域[4]。研究[12]表明:與防守球隊相比,進攻球隊的表面積更大;與經(jīng)驗不足的球員相比,經(jīng)驗豐富的球員所覆蓋的區(qū)域也更大。另一種更復雜的個人空間的動態(tài)計算方法是控制區(qū)域法,也稱為泰森多邊形(Voronoi diagram)區(qū)域。之前提出的幾種評估競技足球空間控制的方法,從概念上看都是泰森多邊形圖的變體。泰森多邊形圖根據(jù)(x,y)坐標球員位置將足球場地細分為單元格[14]。與其他所有球員相比,在一個給定單元格中包含的所有位置都是離各自球員最近的,因此該區(qū)域被認為是由該球員控制的。通過累積與球隊相關(guān)的單元格,可以估算出球隊控制的總面積。使用控制區(qū)域法得到的結(jié)果與有效比賽空間測量相近。
在足球運動中,為了控制中場、反擊或有效壓迫對手,團隊運動是不可分割的,球員的協(xié)調(diào)運動是團隊運動成功的關(guān)鍵。因此,對球員在給定時間內(nèi)到達某一位置的概率進行量化的模型至關(guān)重要,該模型被稱為運動模型[15]。Taki等[16]首次提出一種基于球員當前速度、方向和沿不同方向的加速度分布的運動模型,討論了加速度對速度和方向的依賴關(guān)系,并強調(diào)加速度隨速度的增加而減小。Fujimura等[17]隨后通過增加一個阻力來擴展這種方法,以防止速度無限增長。這極大地簡化了模擬球員移動的物理定律,但模型沒有考慮球員之間的個體差異。Gudmundsson等[18]概述了如何從數(shù)據(jù)中估計這種個體運動模型。該研究建議在某時刻通過構(gòu)造一個凸多邊形來模擬1名球員的可到達區(qū)域,這個凸多邊形包含球員在這段時間內(nèi)到達的所有歷史位點,并給出了球員的實際位置。Brefeld等[15]新近提出一種基于位置數(shù)據(jù)的運動模型估計方法,通過設(shè)定球員在給定時間后的初始位置和速度來生成,得到每個速度和時間間隔的可達(x,y)坐標表,并利用核密度估計將這些坐標表轉(zhuǎn)換成概率運動模型。這種概率方法考慮了球員的特征,用大量的數(shù)據(jù)進行衡量,并能夠以分布式的方式進行高效計算??傊霸趦?yōu)勢區(qū)域計算中使用的球員移動函數(shù)建模較為簡單,球員的生理約束和先天動力等因素通常被忽略。
控制空間是由每名球員之間的位置和距離決定的。球員的控制區(qū)域(或優(yōu)勢區(qū)域)是指在比賽區(qū)域中該名球員先于其他所有球員到達的區(qū)域[6]。由所有球員的優(yōu)勢區(qū)域?qū)е碌募毞謺⒈荣悈^(qū)域劃分為單元格,可以提供1支球隊球員之間時空關(guān)系的整體圖景(圖2)。另外,球員的移動會導致優(yōu)勢區(qū)域的合并。1支球隊控制的空間越大就越有“統(tǒng)治力”。優(yōu)勢區(qū)域分析對于計算和評估傳球質(zhì)量和成功壓制的形成,對團隊行為和互動的分析,乃至于對進攻和防守的組織以及跑位都是必要的。此外,個人比賽區(qū)域和優(yōu)勢區(qū)域的變量也提供了球員個人空間的動態(tài)值。每名球員的個人區(qū)域都是相同的,而對優(yōu)勢區(qū)域的計算是唯一的。守門員和周圍球員在比賽區(qū)域具有較大的數(shù)值和變異性,導致很難從噪聲中分離出信號。解決這個問題的一種方法是將分析的焦點從比賽層面縮小到較低的層面,例如,Rein等[14]的研究只分析了球隊進攻中的泰森多邊形區(qū)域。對于個人比賽區(qū)域,需要假設(shè)每名球員的比賽區(qū)域是均等的,這就對上述分析方法的代表性產(chǎn)生了疑問。因此,最好將這一方法運用于總體層面(球隊或比賽層面)分析。相對于個人層面,更多的研究分析了球隊和比賽層面的比賽空間,這或許是未來研究的一個潛在領(lǐng)域。
圖2 足球比賽情況的泰森多邊形圖示例[14]Figure 2 Example of a Voronoidiagram for a typical game situation in soccer
網(wǎng)絡(luò)分析法常被用來分析球隊的傳球行為。該方法的基本原理是將球隊中的球員作為頂點,以此為基礎(chǔ),把每2名球員之間的傳球作為邊。傳球有方向,所以在該模型中所有的邊都是有方向的,而傳球的方向就是有向邊的箭頭指向,球員之間的傳球次數(shù)則表示為該邊的權(quán)值,如圖3中各邊的方向和數(shù)值。根據(jù)邊的權(quán)值得到頂點的權(quán)值,具有競爭角色(中心性)的主要球員很容易通過網(wǎng)絡(luò)分析被識別出來,因為他們表現(xiàn)出與其他球員更緊密的聯(lián)系[19]。目前的研究主要集中在2類網(wǎng)絡(luò),即傳遞網(wǎng)絡(luò)和轉(zhuǎn)移網(wǎng)絡(luò),分別如圖3的左圖和右圖所示。傳遞網(wǎng)絡(luò)可描述為G=(V,E),其中V表示該圖中頂點的集合即球員的集合,E表示邊,即傳球路徑。從球員v1指向v2的路徑為e=(v1,v2),該路徑的權(quán)值w(e)表示球員v1成功通過路徑e將球傳遞給球員v2的次數(shù)。圖3右圖是在此基礎(chǔ)上加入了結(jié)果擴展的轉(zhuǎn)移網(wǎng)絡(luò),例如,在轉(zhuǎn)移網(wǎng)絡(luò)中的球員C有2次射門和1次控球失誤。
圖3 足球比賽的傳遞網(wǎng)絡(luò)(左)和轉(zhuǎn)移網(wǎng)絡(luò)(右)[6]Figure 3 A passing network(left)and a transition network(right)in soccer
網(wǎng)絡(luò)分析可以描述每名球員的中心性水平(各個頂點的權(quán)值)、球員之間的依賴性(頂點之間的交互)和整支球隊的特定網(wǎng)絡(luò)屬性(圖的一般特性)。對傳遞網(wǎng)絡(luò)特性的研究中使用最多的測量指標是中心性[6]。在團隊運動中,引入中心性的目的通常是識別關(guān)鍵球員或評估球員之間的互動。它包括3個具體的指標:度中心性(degree centrality)、接近中心性(closeness centrality)和 中 介 中 心 性(betweenness centrality)。其中,最常用的指標是度中心性,即與某名球員關(guān)聯(lián)的相鄰球員的數(shù)量。Grund[20]通過分析英超聯(lián)賽的760場比賽的進球數(shù)發(fā)現(xiàn),整體增加球員間的互動(傳球率)會提高球隊表現(xiàn),但提升互動中心化會降低球隊表現(xiàn)。根據(jù)對2014年足球世界杯賽64場官方比賽的觀察,中場球員被評為最杰出的球員[21]。Clemente等[22]對德國隊詳細分析發(fā)現(xiàn),中場球員具有更高水平的調(diào)度能力(球員在場上比賽時將2名或多名隊友聯(lián)系在一起的能力)和支配能力(經(jīng)常參與球隊網(wǎng)絡(luò)的能力)。另一項研究[23]分析了導致進球或失球的傳遞序列中的網(wǎng)絡(luò)互動,結(jié)果表明,進攻中場和邊鋒是最出色的接球手,而右后衛(wèi)是最主要的傳球手。對球場區(qū)域的分析表明,在進攻階段,靠近球門的中心和邊路區(qū)域主要影響網(wǎng)絡(luò)的互動,從而導致進球。
除自身的度中心性外,每名球員的重要性還與他相鄰近球員的能力緊密相關(guān)。例如,PageRank算法作為互聯(lián)網(wǎng)網(wǎng)頁重要度的計算方法,最初用于谷歌搜索引擎的網(wǎng)頁排序。事實上,PageRank可以定義在任意有向圖上,后來被應用到社會影響力分析、文本摘要等多個問題。Pe?a等[24]發(fā)現(xiàn)運用PageRank算法給每名球員賦的權(quán)值約為該球員在固定傳球次數(shù)后控球的可能性。這項研究計算了16支頂級球隊球員的PageRank,重點討論了4支頂級球隊的球員。結(jié)果顯示,荷蘭隊和烏拉圭隊球員比西班牙隊和德國隊球員的PageRank分布更均勻,表明在前2支球隊中沒有一名球員在傳球體系中擁有支配地位,而西班牙隊的哈維和德國隊的施魏因施泰格在各自的球隊中尤其重要。因此,網(wǎng)絡(luò)分析法對球員的傳球行為和空間信息的互動研究為競技足球的戰(zhàn)術(shù)行為分析提供了一種有效的方法,比傳統(tǒng)的符號分析法提供了更多信息。
近年來機器學習算法被廣泛應用于競技足球的戰(zhàn)術(shù)決策研究。①機器學習算法被用于對比賽中發(fā)生的事件和賽況做出判斷,并對該事件的屬性進行定性或定量分析,如對有威脅的射門或傳球的質(zhì)量進行評級[25]。此類評估指標可以用來衡量球員和球隊的表現(xiàn)。相較于目前通過視頻分析手動獲得此類指標,自動生成的算法會大大提高這一過程的效率。②預測比賽如何展開的能力已經(jīng)在計算機視覺領(lǐng)域被廣泛研究。使用可以自動改變俯仰、傾斜和變焦的相機來拍攝比賽的全過程。在理想情況下,場景的構(gòu)建不僅應包含當前的情景,還應包含未來可能涉及的球員活動及位置。另外,機器學習算法可以高效、自動識別特定的數(shù)據(jù)模式,如確定球隊陣型。Bialkowski等[26]基于英超整個賽季的位置數(shù)據(jù),運用期望最大化(expectation-maximization)算法自動識別球隊陣型,結(jié)果表明,球隊在客場比賽中使用更多的防守陣型。而且,機器學習算法可以識別比賽中的球員移動和團隊戰(zhàn)術(shù)。Knauf等[27]使用時空卷積核(spatio-temporal convolution kernels)算法對球員軌跡進行聚類,通過分析位置數(shù)據(jù)能自動判斷比賽雙方的進攻模式。Hirano等[28]使用多尺度比較技術(shù),結(jié)合比賽數(shù)據(jù)和場上位置,自動識別出導致得分的重復進攻序列。Fernando等[29]通過比賽序列的聚類分析區(qū)分不同球隊的進攻行為。Montoliu等[30]將詞袋(the bag-ofwords)算法應用于足球比賽視頻片段的編碼,隨后使用隨機森林分類器識別比賽模式。Wang等[31]的研究旨在從傳球序列中識別戰(zhàn)術(shù)任務(wù),這類似于從文檔語料庫中識別主題[31]。該研究提出基于潛在狄利克雷分配(latent Dirichlet allocation)的球隊戰(zhàn)術(shù)主題模型,作為一種學習常用戰(zhàn)術(shù)的非監(jiān)督方法。
另外,人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)也常常被用于足球戰(zhàn)術(shù)研究中,它能夠根據(jù)位置數(shù)據(jù)對戰(zhàn)術(shù)進行分析。從系統(tǒng)動力學的角度看,團隊行為的運動模式表現(xiàn)出非線性的自組織特征,即團隊各項狀態(tài)測算不滿足疊加原理,同時團隊內(nèi)部具有一定默契的自動調(diào)節(jié)功能。ANN作為一種重要的非線性處理工具,很適合描述具有非線性屬性的高維數(shù)據(jù)集[8],可用于模式識別和分類。ANN能夠在數(shù)秒內(nèi)以高成功率(85%以上與專家一致)對位置數(shù)據(jù)進行分析,如對比賽開始、邊鋒戰(zhàn)術(shù)或標準情況(擲界外球、任意球和角球)等各種小組戰(zhàn)術(shù)行為進行分析。尤其是利用Kohonen特征圖(Kohonen Feature Map,KFM)對高維數(shù)據(jù)做出降維處理,從大量的相關(guān)變量中選出少量最有效的變量信息。這些信息將有助于制訂有效的訓練方案,用以加強球員之間的自組織協(xié)調(diào),同時這種方法也被廣泛用于自動識別球隊陣型[9]。因此,基于ANN的定性分析是了解球員動態(tài)屬性的一種非常有效的方法。利用若干ANN的層次化結(jié)構(gòu),可以根據(jù)位置數(shù)據(jù)自動對復雜和典型的戰(zhàn)術(shù)模式、戰(zhàn)術(shù)團隊陣型及其動態(tài)變化和互動進行分類。
綜上,基于位置數(shù)據(jù)的足球戰(zhàn)術(shù)分析方法主要包括用來確定球隊幾何中心的球隊中心法、計算球員所覆蓋區(qū)域的空間控制法、測量球隊傳球行為的網(wǎng)絡(luò)分析法、自動識別比賽與球隊戰(zhàn)術(shù)模式的機器學習算法。這些方法的共同之處在于它們只是集中于球隊戰(zhàn)術(shù)的某一方面,如球隊陣型,缺乏對跨戰(zhàn)術(shù)領(lǐng)域合并信息的研究。目前尚不清楚球隊陣型是如何與球員個人的技戰(zhàn)術(shù)能力相互作用的。球隊不同的戰(zhàn)術(shù)位置會有不同的生理需求,還沒有研究分析如何將這些信息與球隊進攻和防守的戰(zhàn)術(shù)陣型結(jié)合起來運用。然而,現(xiàn)代跟蹤系統(tǒng)已經(jīng)發(fā)展到足以提供達到科學研究標準的數(shù)據(jù),這就為從整體上分析競技足球的技戰(zhàn)術(shù)和球員的生理需求提供了可能。例如,可穿戴設(shè)備能在足球比賽中提供包含每名球員生理數(shù)據(jù)在內(nèi)的實時數(shù)據(jù),這些數(shù)據(jù)無法通過攝像機獲得??紤]到足球戰(zhàn)術(shù)分析需要整合多種不同來源的詳細數(shù)據(jù),因而有必要探討大數(shù)據(jù)技術(shù)棧和深度學習技術(shù)如何幫助研究者解決這些問題。
目前分析比賽中球隊表現(xiàn)的方法通?;诤喕蚩偨Y(jié)的測量方法[5]。建立在還原論基礎(chǔ)上的運動表現(xiàn)研究割裂了各種因素之間的聯(lián)系,忽視了外部因素對運動表現(xiàn)的影響[1]。例如,傳球次數(shù)、球隊中心行為以及近似度量是將大量信息折疊到單個度量上。雖然度量方法本身沒有問題,如樣本均值顯然是有價值的指標,但就比賽而言,這些方法放棄了幾乎所有的情境和程序信息[2]。對于球隊戰(zhàn)術(shù)的分析需要整合多種不同來源的詳細數(shù)據(jù),包括個人技術(shù)、生理表現(xiàn)和球隊陣型等,用以表示球隊戰(zhàn)術(shù)行為背后的復雜過程。然而對于這些不同因素如何影響競技足球戰(zhàn)術(shù)行為,目前所知甚少。筆者分別從數(shù)據(jù)的管理和分析技術(shù)2個方面探討大數(shù)據(jù)技術(shù)棧和深度學習技術(shù)在足球戰(zhàn)術(shù)分析中的應用。
大數(shù)據(jù)技術(shù)的興起或許會帶來一種關(guān)于模型構(gòu)建和各種來源數(shù)據(jù)組合的潛在解決方案,然而大數(shù)據(jù)并沒有得到普遍認同的定義,它更多是基于特征來描述的[12,32]。大數(shù)據(jù)的特征是4個v、1個o,即體量大(volume)、多樣性(variety)、速度快(velocity)、價值密度低(value)以及線上(online)。關(guān)于足球戰(zhàn)術(shù)分析,不同概念可以通過以下方式闡明:①體量是指足球數(shù)據(jù)集的大小。例如,每場足球比賽的位置數(shù)據(jù)集通常使用可擴展標記語言(XML)進行編碼,其大小在幾兆到幾百兆之間波動。如果對德國足球甲級聯(lián)賽整個賽季的306場比賽進行分析,可能會獲得高達90千兆字節(jié)的位置數(shù)據(jù)。另外,如果將訓練、生理指標、事件數(shù)據(jù)(傳球、犯規(guī)等)和視頻數(shù)據(jù)等附加數(shù)據(jù)整合起來,數(shù)據(jù)量將增加到幾個兆兆字節(jié)。與在簡單的Excel表格上執(zhí)行符號分析法所需的數(shù)據(jù)量相比,這顯然是一個質(zhì)的飛躍。大數(shù)據(jù)技術(shù)為存儲這些數(shù)據(jù)集提供了特定的解決方案,并通過特定的用戶界面和應用程序編程接口訪問。②多樣性是指不同的數(shù)據(jù)格式和數(shù)據(jù)源,它可以劃分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化3類數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)有明確預定義的模式來描述數(shù)據(jù),允許對數(shù)據(jù)進行簡單的導引和搜索,如關(guān)系數(shù)據(jù)庫系統(tǒng)。相比之下,非結(jié)構(gòu)化數(shù)據(jù)缺乏明確的模式,如視頻數(shù)據(jù)和文本信息。半結(jié)構(gòu)化數(shù)據(jù)則介于這2類數(shù)據(jù)之間,由一些沒有預先定義模式的數(shù)據(jù)組成,但它可能有一個變量模式,通常是數(shù)據(jù)本身的一部分,如用于跟蹤數(shù)據(jù)的XML數(shù)據(jù)類型。尤其是足球比賽中存在各種不同的數(shù)據(jù)格式和數(shù)據(jù)資源,如位置數(shù)據(jù)、視頻記錄、書面形式的薈萃數(shù)據(jù)和比賽期間記錄的體育醫(yī)療數(shù)據(jù)?;诩寄軠y試、心理測試和額外的表現(xiàn)數(shù)據(jù)(如教練員的觀察結(jié)果、戰(zhàn)術(shù)測試、健康報告),可以根據(jù)需要以問卷、訪談和其他方法的形式增加訓練數(shù)據(jù)。由于不同類型的數(shù)據(jù)訪問和數(shù)據(jù)處理模式不同,大數(shù)據(jù)技術(shù)提供了特定的解決方案來組合分布在這些數(shù)據(jù)集上的信息。③速度描述生成新數(shù)據(jù)的速度。在足球運動中,從生理和位置數(shù)據(jù)的實時數(shù)據(jù)流到訓練和比賽期間記錄分析的延遲數(shù)據(jù)流之間存在很大的差異和波動。大數(shù)據(jù)技術(shù)專門解決如何處理和存儲高速數(shù)據(jù)??偠灾?,描述大數(shù)據(jù)的3個關(guān)鍵概念都與競技足球的戰(zhàn)術(shù)分析高度相關(guān),大數(shù)據(jù)技術(shù)??梢詾槊總€領(lǐng)域提供具體的解決方案。
如圖4所示,足球戰(zhàn)術(shù)分析的大數(shù)據(jù)技術(shù)棧應按照多個層面進行組織[3]。①除視頻和觀察數(shù)據(jù)外,還需要必要的基礎(chǔ)設(shè)施收集生理和跟蹤數(shù)據(jù)。②需要一個存儲系統(tǒng)允許高效的數(shù)據(jù)存儲和訪問。③需要建立處理路徑,從數(shù)據(jù)中提取相關(guān)信息,然后合并信息,建立解釋和(或)預測模型。所有這些處理層面都需要報告和可視化功能監(jiān)視不同的處理步驟并交流結(jié)果。建立大數(shù)據(jù)技術(shù)棧的主要目的是將來自不同領(lǐng)域的信息組合起來,從而得出關(guān)于比賽表現(xiàn)的結(jié)論,即個人以及球隊的表現(xiàn)。此外,足球數(shù)據(jù)是由商業(yè)機構(gòu)、職業(yè)俱樂部和公共研究機構(gòu)收集的,必須解決球員的個人隱私問題[33]。例如,球員的個人資料可能會對其職業(yè)生涯產(chǎn)生重大影響,職業(yè)足球隊可能不愿共享數(shù)據(jù),因為這會導致球隊喪失競爭優(yōu)勢。因此,在大數(shù)據(jù)方法成為足球研究的可行方法之前,必須解決數(shù)據(jù)管理問題。在數(shù)據(jù)分析上,應當盡可能在研究機構(gòu)之間尋求基于合作的解決方案,將必要的計算機專業(yè)知識引入足球研究領(lǐng)域。
圖4 足球戰(zhàn)術(shù)分析的大數(shù)據(jù)技術(shù)棧[3]Figure 4 Big data technological stack for tactical analysis in soccer
要挖掘大數(shù)據(jù)的價值必然要對大數(shù)據(jù)進行內(nèi)容分析與計算,而深度學習被認為是大數(shù)據(jù)分析的基礎(chǔ)[32]。大數(shù)據(jù)分析的一個核心問題是如何對數(shù)據(jù)進行有效表征、解釋和學習。傳統(tǒng)的研究也有許多數(shù)據(jù)表征的模型和方法,但通常都是較為簡單或淺層的模型,其表征能力有限,不能獲得很好的學習效果。深度學習就是利用層次化的架構(gòu)學會在不同層次上表征對象,這種層次化的表征可以幫助解決更為復雜抽象的問題,高層的概念是通過低層的概念定義的。深度學習通常使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN),而卷 積神 經(jīng) 網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)是目前應用最廣泛的神經(jīng)網(wǎng)絡(luò)架構(gòu)[34]。隨著可用訓練數(shù)據(jù)的增加,深度學習可以變得更強大。重要的是,深度學習模型在計算時間上借助硬件加速解決了許多復雜的問題。運用機器學習和深度學習算法實現(xiàn)自動檢測和運動特定動作識別自動化,從而克服手動表現(xiàn)分析方法的局限。研究中使用CNN等深度學習算法的表現(xiàn)要優(yōu)于ANN等傳統(tǒng)機器學習算法[35]。
鑒于足球比賽的動態(tài)性、持續(xù)性和高度戰(zhàn)略性,對足球戰(zhàn)術(shù)進行手動分析必然存在細粒度的問題,而深度學習能夠自動發(fā)現(xiàn)特征。其中,具有處理時序數(shù)據(jù)的架構(gòu)RNN常被用于團隊行為研究,如對球員的跑位進行軌跡建模[36]。研究中將自動陣型發(fā)現(xiàn)、模仿學習與深度學習方法相結(jié)合(稱為深度模仿學習),從足球的高維時空數(shù)據(jù)中學習復雜的關(guān)系。模仿學習在此是指運用機器學習從觀察到的專家行為中自動學習一個好的策略。研究者通過運行一個模擬程序觀察人工智能(Artificial Intelligence,AI)球隊在特定情況下如何行動,而AI球隊是通過“重影”(ghosting)普通和頂級球隊的特征創(chuàng)建的。深度模仿學習在此被用于AI球隊,可以將其球員的行動與聯(lián)盟的平均水平或聯(lián)盟中的頂級球隊進行比較。這有助于確定球隊可以在哪些地方改變球員的行動和提高得分或減少失球的機會。研究中使用一種被稱作長短期記憶(Long Short-Term Memory,LSTM)的RNN來學習每個時間步中每名角色球員的細粒度行為模型。每名球員由2個隱藏層組成的1個LSTM建模,每層有512個神經(jīng)元。這些隱藏層神經(jīng)元的作用是捕獲所有球員最近的歷史行為信息,并映射到下一個時間步的位置。它在某種程度上類似于雅達利(Atari)游戲和圍棋比賽中一個AI程序如何通過訓練數(shù)據(jù)將比賽歷史映射到下一個行動框架[37-38]。該研究還利用模仿學習的技術(shù)訓練一個能學會從自身的預測錯誤中恢復的模型,這樣這個模型就可以在長時間的決策序列中保持穩(wěn)健性。模仿學習算法不僅能捕獲球隊中每名角色球員的行為,還能捕獲每支球隊中多名球員如何從這一幀到下一幀的共同行為。在此基礎(chǔ)上,Le等[39]還提出一種能在足球比賽中模仿和學習球員行為的多智能體方法,結(jié)果表明,與傳統(tǒng)基線相比,擁有一個角色協(xié)調(diào)模型能改善模仿效果。
另外,將強化學習與DNN相結(jié)合(深度強化學習),往往會在一些非常困難的學習問題上獲得令人印象深刻的表現(xiàn)[37-38]。強化學習是指學習者或決策者(統(tǒng)稱為智能體)學習將情境與行動聯(lián)系在一起的過程,即依據(jù)獎勵最大化原則,通過一系列探索執(zhí)行目標定向的行為[40]。因此,Dick等[41]提出一種深度強化學習方法來學習評估基于位置數(shù)據(jù)的多名球員跑位。與模仿學習不同的是,這種純數(shù)據(jù)驅(qū)動的方法并不依賴于任何領(lǐng)域的先驗知識。研究者提取比賽的序列,其中一支球隊保留控球權(quán),既不丟球,也不中斷比賽。每個序列都以一次事件(丟球或中斷比賽)或球隊執(zhí)行一次“成功行動”結(jié)束。成功行動包括球隊進入對方半場最后25 m的威脅區(qū)域。如果行動成功,將序列標記為正,否則標記為負。使用這些序列學習一個評分函數(shù),基于深度強化學習的思想和方法,將比賽情況映射到真實的數(shù)字。該研究將足球比賽建模為包含所有球員和球的位置數(shù)據(jù)和運動矢量的比賽設(shè)置的馬爾科夫過程。在這個模型中,這些狀態(tài)序列由扮演控制器或策略角色的2支球隊的行為創(chuàng)建,并通過CNN來學習該策略的值函數(shù)。值函數(shù)根據(jù)比賽情況對球隊表現(xiàn)進行評估。從經(jīng)驗上看,預測比分與實際情況的危險性高度相關(guān),這表明在沒有專家知識的情況下對球員跑位進行評估是可行的。
新近研究為足球戰(zhàn)術(shù)分析提供了強大的模型,用以檢驗各種具體的比賽情況,如傳球風險和質(zhì)量、進攻射門威脅、射門機會中的無球跑位。雖然這些模型在特定任務(wù)中取得了成功,但對于如何將它們合并到一個更為全面的分析框架中還沒有明確的方法。因此,F(xiàn)ernandez等[42]建立了一個評估每支球隊在足球比賽中期望控球的模型。期望控球值(expected possession value)指的是基于全分辨率時空數(shù)據(jù)的足球控球的期望結(jié)果,通過對22名球員的所有時空特征,以及對任意位置的控球、射門或傳球的潛在值的細粒度評估,量化每次控球時的期望結(jié)果。而且,該模型采用解耦設(shè)計,將目標值分解為進一步控球的不同動作的期望值,以及這些動作的概率,為比賽情景的可視化和定量分析提供了強大的解釋力,尤其是基于深度學習的組合模型用于捕獲復雜的時空戰(zhàn)術(shù),通過基于大量時空特征的機器學習算法,對模型中的每個組件進行獨立估計。例如:使用邏輯回歸估計傳球率和失誤率;基于球場控制統(tǒng)計模型,在球場控制和球場影響曲面上建立基于CNN的動作似然模型[43]。通過這些DNN來學習傳球和控球的期望值。重要的是,位置數(shù)據(jù)使得其他相關(guān)因素的研究成為可能,如球員運動和斷球、球員和位置之間的距離和角度、自動檢測整個賽場的陣型以及專家指導的手工制作特征等。該研究在組合模型中使用一系列情境因素(如移動、距離、角度等)提高可解釋性和預測能力。更高層面的隨機過程模型以一種內(nèi)聚的、可解釋的方式把每個組合模型融合在一起。因此,該模型捕獲了大量的位置、運動和背景特征以及球場上任意位置的相對值,模擬了足球運動的一個關(guān)鍵特征——理解球員在空間中的互動。
近年來基于位置數(shù)據(jù)的足球戰(zhàn)術(shù)分析逐漸增多,大數(shù)據(jù)技術(shù)正在推動足球研究領(lǐng)域的革命。然而,基于視頻分析技術(shù)的位置數(shù)據(jù)只能提供單一空間模式的大數(shù)據(jù),可穿戴設(shè)備卻能在足球比賽中提供包含每名球員生理數(shù)據(jù)在內(nèi)的實時數(shù)據(jù)。鑒于此,未來研究應通過整合關(guān)于訓練需求、周期負荷、競賽體系、球員體能和疲勞等信息來源,將比賽現(xiàn)場和實驗室測試得到的不同數(shù)據(jù),如生理、心理、位置、教練員、球探、觀眾等數(shù)據(jù)實時壓縮成較小的變量,運用數(shù)據(jù)可視化與報告等手段,為教練員提供客觀的信息,在某種程度上優(yōu)化對表現(xiàn)結(jié)果的預測。尤其是大數(shù)據(jù)技術(shù)棧和深度學習技術(shù)的AI新方法,有望為足球戰(zhàn)術(shù)研究提供一條新的途徑。因此,未來需要將計算機科學研究者、體育科學研究者和足球教練員有效結(jié)合,從而獲得影響足球比賽結(jié)果的個人以及球隊表現(xiàn)方面更為準確的信息。
作者貢獻聲明:
王澤軍:調(diào)研文獻,設(shè)計論文框架,撰寫論文;
游松輝:提出論文選題,設(shè)計論文框架,修改論文。