趙 蕾
(西安翻譯學(xué)院 體育部,陜西 西安 710105)
體育[1]是一門綜合性很強(qiáng)的學(xué)科,包含了人文體育科學(xué)、體育社會(huì)科學(xué)等。隨著計(jì)算機(jī)、信息技術(shù)飛速發(fā)展[2-4],特別是人工智能理論和數(shù)據(jù)挖掘技術(shù)的發(fā)展,為科學(xué)訓(xùn)練與先進(jìn)的訓(xùn)練方法應(yīng)用提供了良好的理論基礎(chǔ)[5]。
統(tǒng)計(jì)分析是國(guó)內(nèi)外常用的科學(xué)分析運(yùn)動(dòng)訓(xùn)練數(shù)據(jù)的方法[6]。王華滿[7]結(jié)合數(shù)據(jù)挖掘技術(shù),研究了一種改進(jìn)的體育訓(xùn)練模式?jīng)Q策支持評(píng)估系統(tǒng)。容博尚[8]對(duì)大數(shù)據(jù)在體能訓(xùn)練中應(yīng)用的可行性進(jìn)行了研究。劉錦偉[9]基于數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)了一套訓(xùn)練質(zhì)量監(jiān)控和臨場(chǎng)戰(zhàn)術(shù)統(tǒng)計(jì)系統(tǒng),可為教練制定和調(diào)整訓(xùn)練計(jì)劃起輔助決策作用。郝歡等[10]開(kāi)發(fā)了一套體能訓(xùn)練管理系統(tǒng),能夠?qū)崿F(xiàn)學(xué)員訓(xùn)練的數(shù)據(jù)的管理和分析,從而提高學(xué)員的體育訓(xùn)練水平。這些方法突破了以往教練員憑經(jīng)驗(yàn)指導(dǎo)訓(xùn)練的現(xiàn)狀,為科學(xué)訓(xùn)練提供了參考價(jià)值。
隨著訓(xùn)練數(shù)據(jù)不斷積累,常規(guī)的統(tǒng)計(jì)分析技術(shù)在訓(xùn)練數(shù)據(jù)的分析上可能存在不足,很難找到一個(gè)合適的模式來(lái)描述這些數(shù)據(jù)之間的相關(guān)性。數(shù)據(jù)挖掘的出現(xiàn)為在大量復(fù)雜的訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)科學(xué)規(guī)律和相關(guān)性提供了優(yōu)化方法[11]。數(shù)據(jù)挖掘技術(shù)綜合了統(tǒng)計(jì)學(xué)、人工智能、決策樹(shù)、數(shù)據(jù)倉(cāng)庫(kù)和信息論等多學(xué)科技術(shù),對(duì)運(yùn)動(dòng)訓(xùn)練指標(biāo)進(jìn)行綜合分析。
為此,本文提出將數(shù)據(jù)挖掘技術(shù)應(yīng)用于運(yùn)動(dòng)訓(xùn)練指標(biāo)分析。根據(jù)數(shù)據(jù)集的特點(diǎn),確定指標(biāo)參數(shù)的分類,引入數(shù)據(jù)挖掘技術(shù)建立體育訓(xùn)練分析機(jī)制,構(gòu)建分析模型。通過(guò)對(duì)數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和結(jié)果解釋三個(gè)過(guò)程的分析,得出訓(xùn)練指標(biāo)的數(shù)據(jù)挖掘結(jié)果,完成數(shù)據(jù)分析。
一般情況下,數(shù)據(jù)挖掘過(guò)程可描述如下[12]:給定一組訓(xùn)練數(shù)據(jù)T,其中元素記錄由多個(gè)屬性描述,所有屬性中只有一個(gè)屬性作為類屬性。令X=(X1,X2,…,Xn)為類屬性集合,其中Xi(1≤i≤n)表示非類別屬性并且可以具有不同的范圍,當(dāng)屬性的值范圍為連續(xù)時(shí),稱為連續(xù)屬性;否則,稱為離散屬性。令C={C1,C2,…,Ck}表示具有k個(gè)不同類別屬性集,則分類任務(wù)可描述為由數(shù)據(jù)集T確定從向量X到C的映射函數(shù),即
進(jìn)一步,可利用數(shù)據(jù)挖掘技術(shù)來(lái)表達(dá)隱函數(shù)H,有
其中:H為隱函數(shù),H0表示函數(shù)的初始狀態(tài);p表示函數(shù)的定義屬性;a表示元素記錄的范圍;n表示條件的范圍;e表示運(yùn)動(dòng)指數(shù)的范圍;f表示運(yùn)動(dòng)指數(shù)的離散指數(shù)。
訓(xùn)練過(guò)程主要包括5 個(gè)環(huán)節(jié),包括學(xué)生狀態(tài)診斷、訓(xùn)練目標(biāo)、訓(xùn)練計(jì)劃、訓(xùn)練方案、目標(biāo)完成評(píng)估,如圖1所示。其中,訓(xùn)練分析是體育訓(xùn)練的關(guān)鍵環(huán)節(jié)。
圖1 訓(xùn)練實(shí)施過(guò)程Fig.1 Training implementation process
粗糙集算法主要是在現(xiàn)有知識(shí)庫(kù)的基礎(chǔ)上,對(duì)知識(shí)的近似描述進(jìn)行評(píng)估,消除數(shù)據(jù)處理資源中的冗余數(shù)據(jù),獲得更準(zhǔn)確、更可靠的決策結(jié)果[13]。傳統(tǒng)的粗糙集只能對(duì)分類資源數(shù)據(jù)進(jìn)行評(píng)估和處理,而對(duì)數(shù)據(jù)的進(jìn)一步處理需要離散化,這將導(dǎo)致信息和數(shù)據(jù)的缺失。本文采用鄰域粗糙集方法對(duì)體育訓(xùn)練指標(biāo)進(jìn)行屬性約簡(jiǎn),并以環(huán)境因素為輸入?yún)?shù),對(duì)體育訓(xùn)練質(zhì)量進(jìn)行評(píng)價(jià)。本文規(guī)定決策集Dnt可定義為一個(gè)三元組,即
其中:U={x1,x2,…,xn}為數(shù)據(jù)集;D為體育訓(xùn)練的分類等級(jí);A為屬性集合。
基于此,將簡(jiǎn)約后的初始集設(shè)為空集,計(jì)算出該體育訓(xùn)練指標(biāo)中剩余屬性的顯著性參數(shù),如果這些顯著性參數(shù)均不為0,則優(yōu)先選擇進(jìn)入約簡(jiǎn)集中。該過(guò)程可總結(jié)如下:
步驟1?α∈A,計(jì)算各個(gè)屬性的臨近關(guān)系矩陣Nα;
步驟2初始化屬性粗糙集RED為空,且令φ→RED;
步驟3遍歷屬性A中所有RED未包含的屬性,并計(jì)算各屬性參數(shù)的重要性,即?α∈A-RED,
步驟4選擇具有最大重要性的屬性αk,即
步驟5若αk>0,則將其添加入RED,且;否則跳轉(zhuǎn)至步驟3,直到滿足循環(huán)終止條件。
數(shù)據(jù)挖掘處理分析分為三個(gè)步驟:數(shù)據(jù)選擇、數(shù)據(jù)處理和數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)選擇主要是從數(shù)據(jù)庫(kù)中提取數(shù)據(jù),形成目標(biāo)數(shù)據(jù)。預(yù)處理是對(duì)提取的數(shù)據(jù)進(jìn)行處理,使其符合要求。數(shù)據(jù)轉(zhuǎn)換是減少數(shù)據(jù)的維數(shù)。初始特征函數(shù)的表達(dá)式為
其中:m為數(shù)據(jù)特征變量;I為數(shù)據(jù)可變性;N為目標(biāo)數(shù)據(jù);v為計(jì)算量;θ為拼寫記錄,l為挖掘范圍;E為數(shù)據(jù)挖掘,E1為初始條件挖掘,E2為工作狀態(tài)挖掘;i為第i級(jí)數(shù)據(jù)。
決策樹(shù)模型因其易于理解、可解釋強(qiáng)等優(yōu)點(diǎn)廣泛應(yīng)用于數(shù)據(jù)挖掘中[14]。決策樹(shù)以樹(shù)形結(jié)構(gòu)表示最終的分類結(jié)果,表達(dá)式可描述為
式中:E0為理論表達(dá)式函數(shù);n為計(jì)算長(zhǎng)度;a為元素記錄范圍;f為離散指標(biāo);e為指標(biāo)范圍。
決策樹(shù)可通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類,可從一組不規(guī)則元素中推斷出決策樹(shù)表示的分類規(guī)則。一般情況下,決策樹(shù)采用自頂向下的遞歸方法比較內(nèi)部節(jié)點(diǎn)的屬性值,并根據(jù)不同的屬性值向下分支,其中葉節(jié)點(diǎn)是要?jiǎng)澐值念?。因此,從根?jié)點(diǎn)到葉節(jié)點(diǎn)的路徑即對(duì)應(yīng)一個(gè)分類規(guī)則。圖2 所示為一典型決策樹(shù)構(gòu)成,主要由決策節(jié)點(diǎn)、分支節(jié)點(diǎn)和葉節(jié)點(diǎn)三個(gè)部分組成。每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)非類別屬性,每個(gè)分支對(duì)應(yīng)于該屬性的每個(gè)可能值,樹(shù)的每個(gè)葉節(jié)點(diǎn)表示一個(gè)類別。樹(shù)的中間節(jié)點(diǎn)通常用矩形表示,而葉節(jié)點(diǎn)用橢圓表示。然而,傳統(tǒng)決策樹(shù)容易受噪聲和異常數(shù)據(jù)干擾造成冗余分支問(wèn)題。
圖2 典型的決策樹(shù)構(gòu)成Fig.2 Typical decision tree composition
為解決上述問(wèn)題,圖3 所示為本文改進(jìn)的決策樹(shù)算法。算法可分為學(xué)習(xí)和測(cè)試兩個(gè)階段。學(xué)習(xí)階段采用自頂向下的遞歸方法訓(xùn)練參數(shù);之后,將模型及參數(shù)帶入測(cè)試階段進(jìn)行驗(yàn)證并對(duì)模型進(jìn)行優(yōu)化。該算法主要包括兩個(gè)過(guò)程:其一是生成樹(shù);其二是對(duì)樹(shù)進(jìn)行剪枝,去除一些可能存在噪聲或異常的數(shù)據(jù)。去除噪聲和異常數(shù)據(jù)的公式為
圖3 改進(jìn)的決策樹(shù)生成過(guò)程Fig.3 Improved decision tree generation process
式中:Ln表示噪聲去除函數(shù);x表示數(shù)據(jù)集合,xi為決策樹(shù)的第i層結(jié)果,同理xj為決策樹(shù)的第j層結(jié)果;n表示搜索條件的范圍。
仿真環(huán)境為:windows10 操作系統(tǒng)下,i7 處理器,顯卡GeForce GTX 1080,內(nèi)存6 GB,并在python環(huán)境下編譯程序。實(shí)驗(yàn)數(shù)據(jù)由本學(xué)院提供,包括2016-2020 年部分大學(xué)生體質(zhì)測(cè)試項(xiàng)目(包括田徑、球類、游泳、武術(shù)等)。剔除無(wú)用記錄后,實(shí)驗(yàn)數(shù)據(jù)量為9860。
數(shù)據(jù)質(zhì)量有很多評(píng)價(jià)因素,其中最重要的三個(gè)因素是準(zhǔn)確性、完整性和一致性。但在實(shí)驗(yàn)所用數(shù)據(jù)集中,存在著不正確、不完整、不一致的數(shù)據(jù),因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,從而提高數(shù)據(jù)質(zhì)量,進(jìn)而提高數(shù)據(jù)挖掘結(jié)果的質(zhì)量。此外,不同運(yùn)動(dòng)的指標(biāo)包含不同屬性,如田徑類以時(shí)間屬性為標(biāo)準(zhǔn),球類以得分、命中率、時(shí)間等屬性為標(biāo)準(zhǔn)。為有效進(jìn)行數(shù)據(jù)挖掘,可將每個(gè)屬性的不同值映射到一系列整數(shù),并使用整數(shù)替換該類別屬性的值。如果存在(q×10)個(gè)屬性類值,則每個(gè)原始值將唯一分配給區(qū)間[0,q] 中的整數(shù)?;诖植诩臄?shù)據(jù)預(yù)處理后的數(shù)據(jù)及相關(guān)參數(shù)見(jiàn)表1。
表1 仿真數(shù)據(jù)及相關(guān)參數(shù)Tab.1 Simulation data and related parameters
利用本文改進(jìn)的決策樹(shù)分析方法對(duì)體育訓(xùn)練指標(biāo)進(jìn)行分析,并與傳統(tǒng)的聚類指標(biāo)分析方法和神經(jīng)網(wǎng)絡(luò)方法進(jìn)行對(duì)比,結(jié)果如圖4 所示。從圖4 的比較可以看出,改進(jìn)決策樹(shù)較其他兩種方法訓(xùn)練成績(jī)預(yù)測(cè)準(zhǔn)確率更高。然而由于訓(xùn)練器材精度或記錄誤差等因素,本文所使用的樣本數(shù)據(jù)具有一定程度噪聲。因此,三種方法預(yù)測(cè)結(jié)果呈波動(dòng),且隨著數(shù)據(jù)樣本個(gè)數(shù)增多,整體預(yù)測(cè)準(zhǔn)確率不斷下降,這符合實(shí)際情況。此外,聚類方法在數(shù)據(jù)采樣個(gè)數(shù)大于170 后,準(zhǔn)確率急劇下降。分析其原因,一方面由于系統(tǒng)誤差使得模型效果有所降低;另一方面數(shù)據(jù)中部分體育訓(xùn)練類型指標(biāo)類似(如球類和射擊,指標(biāo)都包含得分、命中率),給聚類算法帶來(lái)一定干擾。
圖4 不同方法模型預(yù)測(cè)準(zhǔn)確率Fig.4 Prediction accuracy of different models
體育訓(xùn)練過(guò)程積累了許多訓(xùn)練數(shù)據(jù),常規(guī)的統(tǒng)計(jì)分析技術(shù)很難找到一個(gè)合適的模型來(lái)描述這些數(shù)據(jù)之間的相關(guān)性。數(shù)據(jù)挖掘的出現(xiàn)為在大量復(fù)雜的訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)科學(xué)規(guī)律和相關(guān)性提供了優(yōu)化方法。為此,本文對(duì)數(shù)據(jù)挖掘、粗糙集、決策樹(shù)模型進(jìn)行分析,提出了數(shù)據(jù)挖掘技術(shù)應(yīng)用于體育訓(xùn)練指標(biāo)分析,為提高體育訓(xùn)練質(zhì)量提供參考。