何牧
(揚州市職業(yè)大學體育學院 江蘇 揚州 225000)
我國在過去10年里,通過引進和自主創(chuàng)新等方式,走出了一條適合中國國情的全民健身路線,推動了全民健身運動的蓬勃開展。與此同時,伴隨著“互聯(lián)網(wǎng)+”和電子商務興起并不斷發(fā)展壯大,我國體育事業(yè)也取得了長足發(fā)展。在國家對社會辦體育的政策支持下,近年來我國運動員通過參加職業(yè)賽事以及借助互聯(lián)網(wǎng)手段等方式積累了大量寶貴經(jīng)驗。
我國的競技體育和社會運動項目經(jīng)過多年快速發(fā)展,在運動成績、運動競賽管理、比賽組織管理和運動員培訓等方面積累了豐富經(jīng)驗。但由于缺乏科學的統(tǒng)計分析方法,這些領域在很大程度上還停留在經(jīng)驗時代,這就造成了體育科研成果產(chǎn)出效率低下并不能滿足當前對新技術手段的需求。隨著大數(shù)據(jù)分析能力提高以及信息通訊技術發(fā)展,體育科研人員可以更好地把握相關領域的發(fā)展趨勢,并為未來進一步研究提供科學依據(jù)。因此,本文主要對運動員競技比賽質量、運動訓練效果和運動競賽管理等領域進行數(shù)據(jù)分析,進而為提高我國競技比賽質量提供有益借鑒和啟示。
大數(shù)據(jù)是一種能夠全面記錄和管理信息的技術手段。大數(shù)據(jù)通過大量數(shù)據(jù)采集、挖掘和處理,可以從多種角度幫助人們了解某一領域或行業(yè)的發(fā)展情況。隨著計算機技術、數(shù)據(jù)科學與人工智能學科的發(fā)展和應用日益深入,在一定程度上改變了體育科研工作者的工作方式。近年來,隨著大數(shù)據(jù)分析技術的不斷發(fā)展,基于不同學科領域內(nèi)大數(shù)據(jù)研究方法的結合,可以對運動項目開展深入細致地科學分析。體育科研人員利用大數(shù)據(jù)分析技術從各個方面提高運動項目競技比賽質量水平,包括運動員的身體狀態(tài)、訓練效果以及運動成績等等。目前體育科研工作者已經(jīng)將大數(shù)據(jù)分析方法應用到了眾多領域中。比如,利用大數(shù)據(jù)技術進行對運動員心理狀態(tài)、身體素質和訓練效果情況等方面研究;針對籃球運動員身體和心理狀態(tài)進行相關數(shù)據(jù)統(tǒng)計;結合籃球教練員實際經(jīng)驗進行數(shù)據(jù)對比與分析等?;谶@些研究方法對于運動員、教練員以及決策者都具有重要意義。
我國體育科研人員在利用大數(shù)據(jù)分析技術提高比賽質量方面也已經(jīng)取得了很多成績。比如,利用大數(shù)據(jù)對籃球比賽過程中各項數(shù)據(jù)進行實時記錄并進行相關研究;結合運動員身體狀態(tài)、訓練效果以及比賽結果等方面進行比賽訓練效果評估;同時針對運動員心理波動以及傷病風險問題進行分析研究等。通過對大數(shù)據(jù)的全面分析,我們可以對體育運動項目的競技能力提升做出科學決策并有效改善競賽管理效率等方面作出貢獻,進而為國家培養(yǎng)更多高素質人才打下良好基礎。但是隨著大數(shù)據(jù)在體育領域中應用程度越來越深,也出現(xiàn)了一些亟待解決的問題。比如,數(shù)據(jù)收集困難、數(shù)據(jù)挖掘技術缺乏以及統(tǒng)計方法存在缺陷等等;此外也有很多其他因素影響了運動競賽管理、運動訓練和運動技術的有效應用等問題?;谝陨媳尘?,本文對國內(nèi)外在利用大數(shù)據(jù)分析技術方面做出研究和探索提出了一些建議:首先要對體育大數(shù)據(jù)有一個全面深刻地了解;其次要利用大數(shù)據(jù)技術提高體育競技比賽質量;最后通過數(shù)據(jù)驅動提高運動員訓練水平并幫助運動員在比賽中取得優(yōu)異成績;此外對于運動競賽管理、運動訓練及競賽方面的研究也有很多值得借鑒之處。
當前,隨著大數(shù)據(jù)時代的到來,體育領域對于大數(shù)據(jù)分析也有了更加深刻的理解。首先,通過研究發(fā)現(xiàn)運動員訓練水平與訓練效率之間存在顯著的正相關關系,這也從側面說明了提升運動員競技水平和競技比賽質量的重要性;其次,從競技體育領域來看,基于大數(shù)據(jù)分析的比賽質量提升方法可以為體育賽事組織提供借鑒;再次,在過去10年中,我國大眾體育消費市場快速發(fā)展;伴隨著“互聯(lián)網(wǎng)+”運動健康理念和電子商務迅速發(fā)展以及電子商務平臺迅速普及,電子商務已經(jīng)成為人們購買商品或服務的主要方式之一;最后,隨著我國網(wǎng)絡基礎設施日益完善,大數(shù)據(jù)分析方法也被廣泛運用于體育領域中;與此同時,“互聯(lián)網(wǎng)+”運動健康產(chǎn)業(yè)也取得了較大進步。
但在對相關研究文獻進行統(tǒng)計時可以發(fā)現(xiàn):當前國內(nèi)數(shù)據(jù)分析相關研究并不多見;同時對于該領域相關概念的定義和分類尚未形成統(tǒng)一且具有代表性的分類標準;這一點與當前國外大數(shù)據(jù)分析研究現(xiàn)狀有著較大差距;通過對體育大數(shù)據(jù)領域近10年來國內(nèi)文獻、國外文獻以及相關論文進行分析可以發(fā)現(xiàn):國內(nèi)對于如何利用大數(shù)據(jù)分析方法來提升運動水平等問題并沒有一個統(tǒng)一的認識。因此目前國內(nèi)對于“大數(shù)據(jù)”和“數(shù)據(jù)分析”這兩個概念存在較大的模糊認識;同時也有部分體育行業(yè)人士對大數(shù)據(jù)分析并不太了解。此外,雖然大數(shù)據(jù)分析已經(jīng)被廣泛應用于各個領域中。但其目前依然沒有形成一個統(tǒng)一的分類標準。因此在未來需要加強對該領域相關概念的進一步普及和培訓。
體育數(shù)據(jù)通常包含訓練、比賽和賽事三個方面。訓練(training)是指運動過程中發(fā)生的一系列生理或生化反應。比賽(training),是指在一個體育比賽過程中運動員和其伙伴所進行的運動活動,通常包括各種競賽活動和非競賽活動,也稱為非賽或競技賽(fight-training)。例如,在足球比賽中,根據(jù)一場足球比賽的時間長短和勝負判定結果,可分為世界杯足球賽、歐洲聯(lián)賽、亞洲聯(lián)賽以及其他聯(lián)賽。賽事(tournament)是指比賽結束后所進行的一系列活動。包括各種類型的賽事,如世界錦標賽、奧運會比賽等。
賽事通常可以分為以下三類:一類是傳統(tǒng)的運動項目賽事,包括奧運會、世界錦標賽、世界杯足球賽等;一類是新興的運動項目如:馬拉松、高爾夫等;一類是其他體育運動形式,比如馬拉松和自行車。運動員通過競賽的方式實現(xiàn)體育價值并獲得經(jīng)濟利益的同時,也伴隨著風險與挑戰(zhàn)——成績不穩(wěn)定導致的風險與回報不對稱現(xiàn)象也在一定程度上影響著競技體育的健康發(fā)展與運動員自身經(jīng)濟利益之間存在著微妙平衡。因此,通過建立一個有效模型來實現(xiàn)上述目標顯得尤為重要。本文基于體育大數(shù)據(jù)平臺和研究領域中相關文獻進行了梳理和分析,主要分為兩大部分:一是分類模型研究;二是體育大數(shù)據(jù)分析方法研究。
研究發(fā)現(xiàn),分類模型可分為兩類:一類是基于概率論,另一類是基于機器學習的。其中,基于概率論的分類模型主要有Logistic、Logarithmic和Loginoidal三種,其在數(shù)據(jù)特征上都需要處理訓練數(shù)據(jù)集。但無論是Logistic模型還是Logarithmic模型,都存在不足。在此基礎上提出了兩種改進的分類方法:基于機器學習的分類方法和基于深度學習的分類方法。
然而,對于實際應用中存在的復雜因素影響,其分類效果往往會大打折扣。由于訓練樣本數(shù)據(jù)分布不均,導致訓練出的模型精度不高。另外,由于不同人、不同機構對同一賽事有不同的理解,因此對比賽結果會有很大差別。由于在傳統(tǒng)體育賽事中數(shù)據(jù)樣本不夠充足,因此本文提出了一個基于數(shù)據(jù)預處理和機器學習分類的方法來對比賽結果進行預測和判斷。此外還引入了兩種基于機器學習方法來識別異常值:Fisher and Bonferroni et al和Kaggle數(shù)據(jù)集上的一項研究。
本文主要研究的體育大數(shù)據(jù)分析方法主要包括基于文本挖掘的文本分類方法、基于聚類的統(tǒng)計分析方法、基于時間序列特征的數(shù)據(jù)挖掘方法以及基于機器學習算法的統(tǒng)計分析方法。本文主要研究了兩種算法:(1)基于特征的文本分類:通過特征選擇和分類器設計來提取樣本集中能夠表征文本信息的特征,并將其應用于訓練樣本集中;(2)基于聚類算法:利用聚類算法對訓練和測試樣本進行聚類,并根據(jù)聚類結果將訓練和測試樣本劃分為若干類別,然后對這些類別進行數(shù)據(jù)描述,以便于進一步研究這些類別之間存在的相關性。通過機器學習算法和傳統(tǒng)方法結合使用,實現(xiàn)了對大量非結構化體育數(shù)據(jù)(如文字、圖片、視頻、音頻等)的挖掘工作,從而發(fā)現(xiàn)了大量具有潛在價值的信息。此外,本文還針對體育比賽數(shù)據(jù)進行了分析和總結。研究發(fā)現(xiàn):運動員成績具有不確定性,且與成績相關的變量在不同比賽階段和比賽環(huán)境下是不同的(如競技能力、心理素質、體能能力等)。
本研究通過國家體育總局、中國體科所以及中國奧委會和各省市體育局官方網(wǎng)站獲取了大量數(shù)據(jù),并對數(shù)據(jù)進行了分類與統(tǒng)計。(1)競技項目基本信息:通過國家體育總局官方網(wǎng)站獲取的相關競技體育數(shù)據(jù),如比賽項目、成績(名次),以及相關運動員的年齡、性別以及個人基本信息等;(2)訓練信息:通過國家體育總局及各省市體育局官方網(wǎng)站獲得訓練信息;(3)成績分析:將在競技比賽中取得優(yōu)異成績的運動員與其他運動員進行比較分析,如參加世界比賽的情況和參加國內(nèi)比賽的情況;(4)教練員信息:通過中國體科所和各省市體育局官網(wǎng)獲取教練員信息,包括教練員姓名、年齡、性別、執(zhí)教項目、所屬單位以及執(zhí)教年份等,為后續(xù)分析提供依據(jù);(5)媒體信息:主要為媒體網(wǎng)站獲得的相關媒體信息;(6)社交媒體:網(wǎng)絡社交網(wǎng)站包括新浪微博和騰訊微博兩個主要社交媒體平臺;(7)觀眾參與數(shù)據(jù)收集自中國國家體育總局官方網(wǎng)站,包括參與數(shù)據(jù);(8)電視轉播數(shù)據(jù);體育總局官方視頻平臺的視頻資源;各省市體育局官方體育頻道等。通過對這些數(shù)據(jù)進行分類與統(tǒng)計,可以更加清晰地把握我國競技體育和社會運動項目在過去10年中所取得的發(fā)展趨勢,以及在未來十年中所面臨的挑戰(zhàn)與機遇。同時結合近年來國內(nèi)外大數(shù)據(jù)領域學者在不同層面上對相關問題進行的討論等,也為我國競技體育和社會運動項目的發(fā)展提供了有益參考。
當前,隨著移動互聯(lián)網(wǎng)技術和電子商務等新興技術在國內(nèi)的廣泛應用和快速發(fā)展,大數(shù)據(jù)已成為一個炙手可熱的領域。本文所采用到的來自于國家體育總局和中國奧委會兩個官方網(wǎng)站收集到的數(shù)據(jù)來自以下幾個方面:一是國家體育總局官方網(wǎng)站;二是中國奧委會官網(wǎng);三是國際奧委會官網(wǎng);四是中國足球協(xié)會官網(wǎng);五是各省市體育局官方網(wǎng)站;六為社會力量辦體育、企業(yè)辦比賽等。
在很大程度上,運動員競技比賽質量提高有賴于以下幾個方面:(1)科學訓練和科學化訓練。科學訓練是提高運動成績的關鍵環(huán)節(jié),尤其是當運動員處于特定狀態(tài)時,只有在具備較高身體素質基礎上合理使用訓練方法、制定科學計劃才能取得理想效果。科學訓練要遵循“三個結合”、“四個階段”等原則,即:技術與思想相結合、技術與體能相結合、運動強度與負荷相結合、身體訓練與心理素質相結合(包括有氧運動的規(guī)律)。運動員在不同階段應根據(jù)自己的能力、狀態(tài)來安排訓練計劃,從而取得最佳成績;(2)運動員個體之間存在著差異。不同項目間的發(fā)展水平和個人天賦有著很大差異,而同一項目的不同階段則會產(chǎn)生很強的可比性,這是保證運動員發(fā)揮出最佳競技水平所必須具備的條件。因此為促進運動員科學訓練和科學化訓練,可以從兩個方面入手:一方面是采用個體訓練和群體研究相結合、個體差異研究和群體一致性研究等方法,找出每位隊員在不同階段和個人方面存在的具體問題;另一方面則是采用大數(shù)據(jù)技術對每位運動員在身體能力、競技能力等方面進行全方位的分析與評價;(3)運動員信息技術水平提升。隨著計算機硬件性能、數(shù)據(jù)存儲容量以及計算速度等方面不斷提高和完善,可以為運動員提供更加準確、便捷和個性化的信息服務;(4)充分發(fā)揮“互聯(lián)網(wǎng)+”優(yōu)勢。
本文主要采用了文獻資料法、專家訪談法以及比較分析的方法。從文獻資料方面來看,我們首先從數(shù)據(jù)入手,結合了“十三五”規(guī)劃的目標,通過對《關于實施促進全民健身計劃(2016-2020年)的意見》等相關文件中提到的重點項目進行分類,我們可以看到目前體育大數(shù)據(jù)研究領域主要關注的是體育大數(shù)據(jù)技術、數(shù)據(jù)應用和分析等方面,通過對這幾個方面進行綜合分析后能夠發(fā)現(xiàn)體育大數(shù)據(jù)在運動訓練和比賽等相關領域中具有很大的潛力。
從專家訪談方面來看,專家們根據(jù)自身研究方向提出了許多具有指導性的意見和建議。通過比較分析方法來看,我們對專家們所提出建議進行了梳理總結,并且利用 SWOT方法對每一項內(nèi)容所具有的優(yōu)勢和劣勢進行了分析。綜合考慮國內(nèi)外大數(shù)據(jù)研究領域存在的問題以及對未來發(fā)展趨勢做出預測之后,結合大數(shù)據(jù)領域目前研究最活躍的領域和當前重點項目展開分析。
本文主要采用了統(tǒng)計分析、案例和數(shù)理模型四種方法。統(tǒng)計分析部分主要包括回歸建模、灰色預測、多元線性回歸以及聚類模型等;案例研究部分涵蓋了美國奧運代表團訓練模式分析、中國體育總局訓練基地運動員訓練模式變化特征與規(guī)律、美國運動員競技能力差異及特點等方面;數(shù)理模型部分主要包括運動項目數(shù)據(jù)集結構化特征與預測結果等。比較分析部分首先利用 SWOT方法,結合當前運動項目數(shù)據(jù)集中的優(yōu)勢和劣勢以及國外相關案例進行比較;接著將研究結果運用到中國競技體育實際,進而預測未來中國競技體育在未來幾年內(nèi)可能面臨的問題。以上是本文主要采取的研究方法。接下來就文章內(nèi)容進行了總結。文章從數(shù)據(jù)收集到最后處理呈現(xiàn)兩個階段:第一個階段主要是數(shù)據(jù)收集;第二個階段就是在對數(shù)據(jù)進行歸類整理并對其進行預測分析;第三個階段為對預測結果進行檢驗評估并進一步指導訓練計劃。
在大數(shù)據(jù)時代,人們已經(jīng)習慣于利用技術手段來解決問題。在此過程中,數(shù)據(jù)分析方法本身也得到了不斷改進。但是,對于大數(shù)據(jù)時代的體育研究者而言,在對現(xiàn)有數(shù)據(jù)進行分析時,仍然存在一些問題。
第一是數(shù)據(jù)來源方面的問題。目前,絕大多數(shù)學者都傾向于使用互聯(lián)網(wǎng)等非結構化信息進行研究,這會導致研究對象在統(tǒng)計上的不準確或者說缺失信息。從大數(shù)據(jù)角度看,體育大數(shù)據(jù)的來源并不少,但是由于沒有經(jīng)過訓練或者數(shù)據(jù)處理水平較低等原因導致統(tǒng)計誤差大。對于不同運動員個體而言,大數(shù)據(jù)分析的結果可能也存在差異;而對于不同國家或地區(qū)而言則可能會存在差異問題;
第二是相關概念和術語方面的問題。目前大數(shù)據(jù)領域出現(xiàn)了大量關于大數(shù)據(jù)技術、大數(shù)量概念、大數(shù)據(jù)技術等方面的相關理論或研究成果,但并沒有形成統(tǒng)一的標準體系和分類體系;同時這些概念或者術語本身也具有一定的模糊性或不確定性;
第三是數(shù)據(jù)挖掘和分析方面存在的問題。首先在數(shù)據(jù)挖掘層面上,目前還沒有形成統(tǒng)一標準和體系;其次是在數(shù)據(jù)挖掘和分析方法上還存在著一定的局限性;
第四是技術路線上存在誤區(qū)。從大數(shù)據(jù)技術和相關領域專家學者研究提出了多種不同技術路線、不同層次概念和術語來對數(shù)據(jù)挖掘問題進行解釋;
第五是數(shù)據(jù)分析本身存在一些缺陷或不足之處。盡管目前相關領域已經(jīng)出現(xiàn)了一批專業(yè)人才,但大多數(shù)仍處于起步階段、經(jīng)驗較少并不成熟;同時研究人員所采用的方法都是基于統(tǒng)計層面上進行數(shù)據(jù)收集、整理和挖掘,而不是在理論研究基礎上進行數(shù)據(jù)挖掘,這樣得出的結論往往有很大局限性明顯;
第六是大數(shù)據(jù)分析模型本身缺乏可擴展性問題。大數(shù)據(jù)分析模型主要有兩種:一種是基于數(shù)據(jù)驅動、模型選擇、預測等傳統(tǒng)方法建立起來的機器學習模型;另一種則是采用傳統(tǒng)統(tǒng)計算法進行數(shù)據(jù)處理建立起來的機器學習模型。前者雖然在某些方面具有一定優(yōu)勢,但在某些方面存在很大局限性或限制而不能完全發(fā)揮作用;而后者則具有一些明顯優(yōu)勢或局限性;
第七是大數(shù)據(jù)分析本身不夠完善或存在局限性問題,主要表現(xiàn)為如下幾個方面:(1)對大數(shù)據(jù)分析能力不足;(2)對相關概念及術語等理解不夠準確;(3)沒有考慮到不同類型體育比賽之間差異性問題;(4)對數(shù)據(jù)處理水平較低所導致結果不夠準確等;(5)缺乏大數(shù)據(jù)分析中所涉及到大量理論和方法知識方面的相關理論知識和研究經(jīng)驗;此外很多學者還缺乏運用大數(shù)據(jù)分析方法所需的統(tǒng)計基礎知識、相關領域知識和數(shù)學分析方法知識等;
第八是數(shù)據(jù)本身所具有不確定性、偶然性問題造成應用局限問題導致了對大數(shù)據(jù)分析能力不足或不夠強等問題影響了大數(shù)據(jù)分析模型建立過程中可能出現(xiàn)的偏差問題,進而導致模型本身存在諸多局限性或誤差問題、以及大數(shù)據(jù)研究方法本身不夠完善等問題造成大數(shù)據(jù)分析模型應用困難問題,這些也會影響到人們對大數(shù)據(jù)庫模型建立過程中存在偏差或可能出現(xiàn)偏差等問題所可能帶來損失時的補償與彌補方案及相應措施設計的合理性提出質疑等方面工作。
通過對過去10年我國運動員競技比賽質量的大數(shù)據(jù)分析,我們可以發(fā)現(xiàn)以下幾個方面。在國家對社會辦體育的支持下,部分運動員已經(jīng)開始參加職業(yè)賽事,并取得了不俗成績。通過大數(shù)據(jù)對過去10年我國運動員競技比賽質量進行分析,我們發(fā)現(xiàn)我國當前的運動項目在“以賽促練”、“以賽帶訓”等方面還存在諸多不足。通過分析近10年不同類型項目成績變化發(fā)現(xiàn),我國競技運動總體上發(fā)展良好,但仍存在著發(fā)展不均衡、不充分和結構性矛盾突出的問題。