何 施,趙文作,劉 博,黃志劍
羽毛球是我國競技體育傳統(tǒng)優(yōu)勢項目之一,在國際上享有很高的聲譽。但在近年來相關的重大賽事中,我國選手的成績顯得不如人意,足以說明現(xiàn)階段中國羽毛球正面臨著嚴峻挑戰(zhàn)。面對嚴峻挑戰(zhàn)要想取得好成績,就必須要有先進的技術手段和思路。羽毛球比賽的技戰(zhàn)術具有不確定性、多變性、復雜性等特點[1],而傳統(tǒng)羽毛球技戰(zhàn)術分析主要是描述性的統(tǒng)計分析[2-3],各因素之間是相對獨立的,無法還原運動員在某一時段的連續(xù)動作狀態(tài)。教練員往往憑借經(jīng)驗及描述統(tǒng)計數(shù)據(jù)來安排日常訓練、指揮臨場決策。
數(shù)據(jù)挖掘興起于20世紀末,一般是指利用計算機等工具從大量、零散、不完全并且隨機的數(shù)據(jù)中通過特殊算法提取或“挖掘”出隱藏在其中的信息和知識的過程[4]。數(shù)據(jù)之間的關聯(lián)是數(shù)據(jù)挖掘中存在的一種非常重要的可被發(fā)現(xiàn)的知識,如果給定兩個或多個數(shù)據(jù)集并從中發(fā)現(xiàn)存在某種頻繁出現(xiàn)的項集模式就稱為關聯(lián)規(guī)則[5]。目前,關聯(lián)規(guī)則廣泛應用于超市、銀行、網(wǎng)購等領域,在體育領域主要應用在網(wǎng)球[6]以及其他隔網(wǎng)類項目中[7],在羽毛球項目中的應用尚屬少見。羽毛球的競賽規(guī)則和技戰(zhàn)術與網(wǎng)球有相似之處,所以網(wǎng)球技戰(zhàn)術的關聯(lián)規(guī)則研究對羽毛球有參考性。本研究嘗試使用關聯(lián)規(guī)則中的Apriori算法在眾多數(shù)據(jù)中尋找羽毛球運動員X的提升空間[8]。
某省運動健將級羽毛球單打女性運動員1名,年齡為20歲,球齡10年(以下簡稱為“X”)。通過教練員收集X在2017—2018年國家羽毛球隊集訓期間參加的6次國際賽事,共21場比賽的視頻資料,圍繞這些比賽進行技戰(zhàn)術多維度信息采集,通過建立關聯(lián)規(guī)則模型對X在比賽中的技戰(zhàn)術以及決策問題進行挖掘分析。
1.2.1 文獻資料法
研究通過檢索多個數(shù)據(jù)庫,查閱了解相關文獻,為研究的分析提供可靠的理論支持和技術借鑒。
1.2.2 專家訪談法
研究前期與羽毛球國家隊、省隊等多名教練員及科研人員進行現(xiàn)場訪談、電話郵件溝通。根據(jù)教練員及專業(yè)科研人員的意見和建議制作出羽毛球比賽技戰(zhàn)術多維度信息記錄表(以下簡稱“信息記錄表”),反復修改后的信息記錄表得到一致認可。
1.2.3 數(shù)理統(tǒng)計法
利用編碼規(guī)則采集、整理數(shù)據(jù),并用數(shù)理統(tǒng)計法進行分析。使用SPSS 21.0處理數(shù)據(jù)及一致性檢驗,后通過使用SPSS Modeler 18.0對各項統(tǒng)計指標進行關聯(lián)規(guī)則分析。
1.3.1 羽毛球比賽技戰(zhàn)術多維度信息記錄表
在制作信息記錄表時,考慮到影響羽毛球比賽成績的因素有很多,將這些因素視為自變量,比賽的得失分視為因變量,將運動員在比賽中的每一個得失分定義為一個單元并以此為單位進行多維度關聯(lián)規(guī)則分析。同時,將影響羽毛球比賽成績的因素分為比分因素、時間因素、空間因素、技戰(zhàn)術因素四大類,每一個因素由多項內(nèi)容組成,這些因素共同作用最后形成運動員的得分或失分結(jié)果。
1.3.2 羽毛球場地區(qū)域編碼規(guī)則
羽毛球運動屬于隔網(wǎng)類運動項目,整個場地被高1.524 m的球網(wǎng)均分為2個半場。將本研究的研究對象X稱為本方運動員,與X同場競技的運動員稱為對方運動員。本方運動員所在半場定義為A區(qū),對方運動員所在半場定義為B區(qū)。
羽毛球場地較大,羽毛球及運動員的運動軌跡較復雜,與教練員溝通后將羽毛球的每一個半場分為9個位置,如圖1所示。球網(wǎng)到前發(fā)球線的前場區(qū)域從左至右(面向球網(wǎng))分別編碼為1、2、3,前發(fā)球線到單打底線均分為中場和后場2個部分,中場從左至右依次編碼為4、5、6,后場從左至右分別編碼為7、8、9,其中左路、中路和右路的分界線與單打左右邊線的三等均分線重合。
圖1 場地位置編碼圖Figure1 Diagram of Venue Locations
羽毛球的發(fā)球規(guī)則要求發(fā)球運動員和接發(fā)球運動員都必須站在斜對角發(fā)球區(qū)內(nèi)發(fā)球和接發(fā)球。根據(jù)接發(fā)球運動員的站位推測發(fā)球運動員發(fā)球的落點,圖2表示從另外半場的右區(qū)發(fā)到該半場斜對角左發(fā)球區(qū)的落點圖。其中,網(wǎng)前內(nèi)角短球編碼為1,網(wǎng)前外角短球編碼為2,后場內(nèi)角高遠球編碼為3,后場外角高遠球編碼為4,網(wǎng)前中路短球編碼為5,后場中路高遠球編碼為6。
圖2 發(fā)球區(qū)域落點編碼圖Figure2 Diagram of Landing Points in the Service Area
視頻材料共記錄X在6次國際賽事中與來自不同國家的21名對手之間的21場,共48局比賽,共1 644個球,視頻時長16時33分25秒。其中,X勝18場,負3場,勝率為85.7%,2∶0勝14場,2∶1勝4場,0∶2負1場,1∶2負2場。
根據(jù)編碼規(guī)則對X的比賽視頻進行數(shù)據(jù)編碼[9]。所有編碼由3名研究生獨立完成,正式編碼前隨機選取一場比賽錄像,3人分別對該段錄像獨立觀察并進行編碼,然后對3人的編碼進行兩兩比較,使用SPSS 21.0計算出Cohen’s kappa系數(shù)值對3人的編碼結(jié)果進行評分者一致性信度檢驗[10]。結(jié)果顯示,評分者一致性強度在一般至強的范圍內(nèi),3人可以獨立對其他的視頻資料進行編碼。
關聯(lián)規(guī)則是形如A→B的蘊涵式,A被稱為關聯(lián)規(guī)則的前項,它可以是一個或多個項集;B被稱為關聯(lián)規(guī)則的后項,它一般是一個單獨的項集[11-12]。對于事務集D,A∈D,B∈D,A∩B=Φ,即滿足每次商品交易都與唯一一個標識符TID(Transaction ID)對應[13-14]。 在已有研究中,常用支持度、置信度(Confidence)來描述關聯(lián)規(guī)則的屬性[15],本研究新增提升度(Lift)和部署能力(Deployment)2個指標[14-16],目的是為了更進一步驗證規(guī)則的有效性并嘗試挖掘更多的隱藏信息。
支持度(Support)描述了A和B這2個項集在所有事務中出現(xiàn)的概率;置信度是指在給定項集A的前提下,項集B也同時出現(xiàn)的概率;提升度反映了相比于所有事物,項集B受到項集A的影響程度;部署能力是已經(jīng)滿足項集A,但是還沒滿足項集B的事務比例。
支持度(S)、置信度(C)、提升度(L)以及部署能力(D)的公式如下:
其中,N(A∩B)表示同時包含前項A和后項B的事務數(shù)量,N表示總的事務數(shù)量,N(A)表示包含前項A的事務數(shù)量,N(B)表示包含前項B的事務數(shù)量,條件支持度SA=N(A)/N,結(jié)果支持度SB=N(B)/N。
當關聯(lián)規(guī)則滿足最低條件支持度閾值和最小規(guī)則置信度閾值時則認為該規(guī)則是有趣的,這些閾值是根據(jù)挖掘需要人為設定[17]。為了挖掘盡可能多的關聯(lián)規(guī)則,本研究默認最低條件支持度為0%、最小規(guī)則置信度為0.01%。
研究從X的角度出發(fā),通過建立關聯(lián)規(guī)則模型對收集的數(shù)據(jù)進行分析,主要分析X在比賽中的比分形勢與連續(xù)得失分、局段與得失分、多種技戰(zhàn)術的使用與直接或間接得失分以及最后2拍與最終落點之間的關聯(lián)規(guī)則。
將比賽中連續(xù)得3分及3分以上的情況定義為連續(xù)得分,連續(xù)失3分及3分以上的情況定義為連續(xù)失分。將比分形勢看作關聯(lián)規(guī)則的前項,連續(xù)得失分則是關聯(lián)規(guī)則的后項,對比分形勢與連續(xù)得失分進行關聯(lián)規(guī)則建模分析得出表1數(shù)據(jù)。
表1 比分形勢與連續(xù)得失分之間的關聯(lián)規(guī)則Table1 Association Rules between the Score Situation and Consecutive Scoring
分析發(fā)現(xiàn)在比分領先的形勢下,比分與連續(xù)得分成正向影響且此情況下支持度和置信度相對較高;當比分落后時,連續(xù)失分的支持度和置信度也相對偏高,前項對后項的影響程度也為正向。部署能力欄的數(shù)據(jù)表明,在比分形勢領先或落后的情況下,如果降低X的失誤可以有更多的連續(xù)得分或更少的連續(xù)失分發(fā)生。這些分析說明比分形勢對X的技戰(zhàn)術合理表現(xiàn)有較強的影響,同時為后期的運動心理干預提供了明確的數(shù)據(jù)支持。
羽毛球比賽多為21分制,根據(jù)教練員的建議將每局的21分分為4個局段:0~6分為開局,7~11分為中局前段,12~16分為中局后段,17~21分為局末。規(guī)定在領先一方達11分時會中場休息,所以在11分處將中局分為前后兩段。
由表2可知,X在開局和中局得分的頻率相對較高,在局末得分頻率較低,得分情況下局段的置信度由高到低依次是開局、中局后段、末局和中局前段。除中局前段以外,其他局段均與得分成正相關,部署能力相對較高的是開局和中局前段。由此可見X在開局狀態(tài)較好且有很大潛在得分能力;相較而言在局末有較多失分,在日常訓練中應該多加注意該段的心理變化及技戰(zhàn)術使用。
表2 局段與得失分之間的關聯(lián)規(guī)則Table2 Association Rules between Match and Game Scoring
發(fā)球技術的使用在羽毛球比賽中是極其重要的技術之一。高質(zhì)量的發(fā)球會給對手增加難度,迫使對手只能被動地做防守性的回擊,甚至會直接致使對手接發(fā)球失誤;質(zhì)量差的發(fā)球會使對手獲得進攻機會,而自己處于被動。因此發(fā)球質(zhì)量的好壞直接影響比賽的主被動[18]。如圖2所示將接發(fā)球區(qū)分為6個落點并進行編碼,同時將發(fā)球4拍之內(nèi)發(fā)球方得分的情況稱為發(fā)球直接得分(表3)。
表3反映了發(fā)球落點與發(fā)球直接得失分之間的關聯(lián)規(guī)則,表中各項支持度普遍較小,說明在高水平的羽毛球比賽中發(fā)球直接得分的情況較少發(fā)生。但是,比較表中數(shù)據(jù)可以發(fā)現(xiàn),相對而言,X在發(fā)網(wǎng)前中路短球直接得分的置信度最高且提升度為正向影響,所以在平時的訓練中應該多加練習并在比賽中大膽嘗試使用。
表3 發(fā)球落點與發(fā)球是否直接得分之間的關聯(lián)規(guī)則Table3 Association Rules between the Landing Point of Service and the Direct Score of Service
根據(jù)羽毛球相關教材和教練員的建議將手法分為高遠球、吊球、殺球、搶搓、推球、勾球、撲球、抽球、挑球、擋球等[18]。同時,教練員根據(jù)以往經(jīng)驗認為X的殺球技術和其他運動員的區(qū)別主要是擅長使用點殺,于是又將殺球分為點殺和長殺2種手法(表4)。
表4 手法與得失分之間的關聯(lián)規(guī)則Table4 Association Rules between Strokes and Scoring
對每回合最后一拍手法與得失分進行數(shù)據(jù)挖掘建模分析得出表4規(guī)則。根據(jù)表4指標分析發(fā)現(xiàn),在比賽中挑球的使用頻率和贏球率都較高,點殺、高遠球等手法贏球率也相對較高。因此在平時的訓練中應該對挑球、點殺、高遠球等優(yōu)勢手法多加鞏固,對其他得分率較低的手法多加練習。
在教練員的建議下,將羽毛球步法大致分為:上網(wǎng)步法、后退步法、兩側(cè)移動步法、起跳騰空步法及其他步法五大類(表5)。
表5 步法與得失分之間的關聯(lián)規(guī)則Table5 Association Rules between Footwork and Scoring
通過對步法與得失分進行數(shù)據(jù)挖掘建模分析得出數(shù)據(jù),如表5所示。結(jié)果顯示,上網(wǎng)步法和后退步法的支持度最高,置信度相對偏低;兩側(cè)移動步法和起跳騰空步法的置信度相對較大并且對得分成正向影響。
羽毛球運動中有“七分步法,三分手法”的說法,兩者相輔相成,缺一不可。對手法、步法和得失分進行數(shù)據(jù)挖掘建模分析,設定最低條件支持度為10%、最小規(guī)則置信度為50%,通過篩選滿足條件的有4種關聯(lián)(表6)。
表6 手法、步法和得失分之間的關聯(lián)規(guī)則Table6 Association Rules among Strokes,Footwork and Scoring
表6中上網(wǎng)挑球得分的支持度和置信度都較高,后退高遠球得分的置信度高達86.49%,在接下來的比賽和訓練中應該多加練習并使用。后退殺球和起跳騰空點殺得分的部署能力相對較高,所以應該加強練習。
在X最后一拍直接得分且球的最終落點在對方有效區(qū)的范圍內(nèi),對最后2拍與最終落點進行數(shù)據(jù)挖掘建模分析。設定最低條件支持度為5%、最小規(guī)則置信度為40%,通過篩選滿足條件的有3種關聯(lián)規(guī)則(表7)。其中,最終落點為球最后落在對方有效區(qū)觸地的位置,最后一拍位置為X最后擊球時的站位,倒數(shù)第2拍位置是對方運動員最后擊球時的站位。
表7 最后2拍與最終落點之間的關聯(lián)規(guī)則Table7 Association Rules between the Last Two Shots and the Final Landing Point
由于羽毛球線路具有復雜性、多變性、不確定性等特點,所以最后2拍與最終落點關聯(lián)規(guī)則的支持度普遍偏小,從置信度的角度來看,篩選出來的3個關聯(lián)規(guī)則的置信度都高于50%,前項對后項都是正相關影響,部署能力值都偏低。
在羽毛球場地中還原最后2拍的路線如圖3所示。其中,虛線表示與對方運動員最后一拍擊球的路線圖,實線表示X最后一拍擊球的路線圖。圖3中的線從粗到細分別表示關聯(lián)規(guī)則由強到弱。
圖3 最后2拍路線圖Figure3 Route Map of the Last Two Shots
靈活多變是羽毛球項目的主要特征之一,這也使得對比賽發(fā)展規(guī)律、運動員技戰(zhàn)術特點的描述與把握變得愈發(fā)復雜和困難。與傳統(tǒng)的描述性統(tǒng)計相比,本研究嘗試使用數(shù)據(jù)挖掘的方法對優(yōu)秀羽毛球運動員比賽視頻進行編碼并用關聯(lián)規(guī)則中的Apriori算法挖掘分析影響羽毛球比賽的多維度因素并尋找這些因素之間潛在的關系和相互作用。
在實際比賽過程中,影響比分、局分和場分的因素非常復雜。本研究在與專業(yè)教練員、運動員及科研人員深入研討基礎上設計編制信息記錄表共包含時間、空間、技術和比分等4個方面,二十多項因素。這些因素在比賽中往往是以不同的組合方式和顯著程度共同影響X的運動表現(xiàn)。
對X的運動表現(xiàn)有利的情況主要有:(1)比分或局段領先、發(fā)網(wǎng)前中路短球、最后一拍中使用上網(wǎng)步法與挑球手法相結(jié)合或后退步法與高遠手法相結(jié)合、最后2拍路線為9→7→4時的得分效率較高;(2)連續(xù)得分或是在開局和中局得分頻率較高,此時X的狀態(tài)較好且存在潛在得分能力,這便是所謂的順風局;(3)網(wǎng)前中路短球雖發(fā)得少,但卻是X發(fā)球直接得分率最高的發(fā)球技術;(4)最后一拍中使用上網(wǎng)挑球或后退高遠對X來說,使用后的得分率也相對較高。此外,分析最后2拍得分率最高的路線9→7→4,可根據(jù)X的技戰(zhàn)術還原為對方的一個高遠球從區(qū)域B的位置9打到區(qū)域A的位置7,X接過對手的高遠球使用起跳點殺技術將球擊落在區(qū)域B的位置4。X有待提升的方面有:面對比分或者局勢的落后,應加強心理建設;對得分率較高的技戰(zhàn)術要加強鞏固并大膽使用。
運用大數(shù)據(jù)的思路,使用數(shù)據(jù)挖掘的方法通過積累大量比賽數(shù)據(jù)并發(fā)現(xiàn)這些復雜現(xiàn)象中存在的內(nèi)在關系與規(guī)律,是從更科學客觀的角度認識優(yōu)秀運動員比賽技戰(zhàn)術特點和致勝規(guī)律的一條可行途徑,同時也應注意以下幾點。
(1)明確研究對象,長期系統(tǒng)收集有針對性的數(shù)據(jù)有利于解決實際問題。本研究的初衷是使用大數(shù)據(jù)的研究思路為教練員與運動員提供切實可行的比賽技戰(zhàn)術運用與得失分規(guī)律分析,屬于問題導向的應用性研究。隨著今后X的比賽場次不斷增加,將積累更多比賽視頻資料和數(shù)據(jù)資料,這對于擴大數(shù)據(jù)分析的方法與內(nèi)容,提高數(shù)據(jù)分析的準確性和可靠性是相當有利的。同樣在不斷的數(shù)據(jù)積累過程中,教練員和運動員可以在實際比賽中檢驗本研究提供的規(guī)律與建議,雙方相互促進,形成長期有效的合作。對于向頂尖水平?jīng)_擊的少數(shù)優(yōu)秀運動員而言,個人長期數(shù)據(jù)的意義可能優(yōu)于橫向的眾人數(shù)據(jù)。
(2)合理運用新技術、新指標,提升數(shù)據(jù)的利用率和解釋度。在已有研究中,常用支持度、置信度來描述關聯(lián)規(guī)則的屬性,本研究新增提升度、部署能力2個指標來嘗試挖掘運動員在比賽中更多的隱含信息。如果說支持度和置信度指標反映了某一規(guī)則在已有數(shù)據(jù)中的發(fā)生情況,是運動員已完成的過往表現(xiàn),那么提升度和部署力指標則更傾向于反映該運動員在某一規(guī)則上的改進空間。這對于處于技戰(zhàn)術上升期的運動員而言,無疑具有更明確的指導意義。
(3)加入比賽維度,從心理學的角度分析運動員比賽技戰(zhàn)術規(guī)律。已有的比賽技戰(zhàn)術分析研究大多局限于以單個比分為單位,對運動員的技戰(zhàn)術和得失分效率進行分析。本研究在數(shù)據(jù)編碼過程中增加了比賽維度,從局分、比分、局段等具體因素描述,反映運動員每一個得失分發(fā)生時的比賽背景。這些背景條件對運動員在比賽過程中的心理具有顯著影響,同時也在一定程度上反映了運動員在不同比賽局面下的心理特點。以X為例,從結(jié)果分析可知,該運動員在比分領先情況下的連續(xù)得分,比賽落后下的連續(xù)失分情況較多發(fā)生,反映了運動員處理困難局面上的心理堅韌性品質(zhì)尚有較大的提升空間。
總的來說,利用先進技術手段和思路,簡單、方便、快捷地將運動員在賽場上的優(yōu)勢和不足用可視化的數(shù)據(jù)呈出來,一方面為提高羽毛球比賽中的技戰(zhàn)術運用提供解決思路,另一方面為運動員、教練員提供科學的技戰(zhàn)術改進建議。
從數(shù)據(jù)挖掘的角度來看,本研究獲取的數(shù)據(jù)仍相對較少,得出的結(jié)論具有局限性。在條件允許的情況下,可以做優(yōu)秀運動員的縱向跟蹤分析,累積數(shù)據(jù)并分析,爭取在更深層次上揭示運動員與不同對手,尤其是某幾位實力較強的主要對手比賽時的技戰(zhàn)術特征,以便得到更加具有針對性的比賽技戰(zhàn)術建議。
通過數(shù)據(jù)分析,可以總結(jié)運動員X的優(yōu)勢技戰(zhàn)術有:發(fā)網(wǎng)前短球、起跳騰空點殺、后退高遠球、上步挑球等,最后一拍直接得分的情況下相對穩(wěn)定的落點位置是9→7→4。X相對較薄弱并有待提高的技戰(zhàn)術有:發(fā)后場球以及網(wǎng)前球的處理等。另外,通過比分與連續(xù)得失分、局分與得失分的關聯(lián)規(guī)則可以發(fā)現(xiàn)運動員X的臨場表現(xiàn)很容易受比分和局面因素的干擾。
以關聯(lián)規(guī)則為主的數(shù)據(jù)挖掘方法在運動員比賽技戰(zhàn)術大數(shù)據(jù)分析中具有較高的應用價值。提升度和部署力指標對于認識發(fā)現(xiàn)運動員的潛在提升空間有一定指導意義。
在技術方面,X應該加強網(wǎng)前球的處理練習;在戰(zhàn)術方面,X應該重視發(fā)球技術,掌握主動權;在臨場決策方面,應該適當對X進行心理干預。
在數(shù)據(jù)挖掘方法的應用方面,對龐大復雜的比賽技戰(zhàn)術數(shù)據(jù)的合理編碼與分析需要從實際問題和需求出發(fā),注意分析思路和視角的選擇與設定,以更好地服務運動訓練、競賽實踐。