基于數(shù)據(jù)挖掘技術(shù)的體育訓(xùn)練模式研究

2022-03-18 08:11:04趙蕾

內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版) 2022年2期

趙蕾

（西安翻譯學(xué)院體育部，陜西西安 710105）

體育［1］是一門綜合性很強(qiáng)的學(xué)科，包含了人文體育科學(xué)、體育社會(huì)科學(xué)等。隨著計(jì)算機(jī)、信息技術(shù)飛速發(fā)展［2-4］，特別是人工智能理論和數(shù)據(jù)挖掘技術(shù)的發(fā)展，為科學(xué)訓(xùn)練與先進(jìn)的訓(xùn)練方法應(yīng)用提供了良好的理論基礎(chǔ)［5］。

統(tǒng)計(jì)分析是國(guó)內(nèi)外常用的科學(xué)分析運(yùn)動(dòng)訓(xùn)練數(shù)據(jù)的方法［6］。王華滿［7］結(jié)合數(shù)據(jù)挖掘技術(shù)，研究了一種改進(jìn)的體育訓(xùn)練模式?jīng)Q策支持評(píng)估系統(tǒng)。容博尚［8］對(duì)大數(shù)據(jù)在體能訓(xùn)練中應(yīng)用的可行性進(jìn)行了研究。劉錦偉［9］基于數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)了一套訓(xùn)練質(zhì)量監(jiān)控和臨場(chǎng)戰(zhàn)術(shù)統(tǒng)計(jì)系統(tǒng)，可為教練制定和調(diào)整訓(xùn)練計(jì)劃起輔助決策作用。郝歡等［10］開(kāi)發(fā)了一套體能訓(xùn)練管理系統(tǒng)，能夠?qū)崿F(xiàn)學(xué)員訓(xùn)練的數(shù)據(jù)的管理和分析，從而提高學(xué)員的體育訓(xùn)練水平。這些方法突破了以往教練員憑經(jīng)驗(yàn)指導(dǎo)訓(xùn)練的現(xiàn)狀，為科學(xué)訓(xùn)練提供了參考價(jià)值。

隨著訓(xùn)練數(shù)據(jù)不斷積累，常規(guī)的統(tǒng)計(jì)分析技術(shù)在訓(xùn)練數(shù)據(jù)的分析上可能存在不足，很難找到一個(gè)合適的模式來(lái)描述這些數(shù)據(jù)之間的相關(guān)性。數(shù)據(jù)挖掘的出現(xiàn)為在大量復(fù)雜的訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)科學(xué)規(guī)律和相關(guān)性提供了優(yōu)化方法［11］。數(shù)據(jù)挖掘技術(shù)綜合了統(tǒng)計(jì)學(xué)、人工智能、決策樹(shù)、數(shù)據(jù)倉(cāng)庫(kù)和信息論等多學(xué)科技術(shù)，對(duì)運(yùn)動(dòng)訓(xùn)練指標(biāo)進(jìn)行綜合分析。

為此，本文提出將數(shù)據(jù)挖掘技術(shù)應(yīng)用于運(yùn)動(dòng)訓(xùn)練指標(biāo)分析。根據(jù)數(shù)據(jù)集的特點(diǎn)，確定指標(biāo)參數(shù)的分類，引入數(shù)據(jù)挖掘技術(shù)建立體育訓(xùn)練分析機(jī)制，構(gòu)建分析模型。通過(guò)對(duì)數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和結(jié)果解釋三個(gè)過(guò)程的分析，得出訓(xùn)練指標(biāo)的數(shù)據(jù)挖掘結(jié)果，完成數(shù)據(jù)分析。

1 相關(guān)概念

1.1 數(shù)據(jù)挖掘

一般情況下，數(shù)據(jù)挖掘過(guò)程可描述如下［12］：給定一組訓(xùn)練數(shù)據(jù)T，其中元素記錄由多個(gè)屬性描述，所有屬性中只有一個(gè)屬性作為類屬性。令X=(X1，X2，…，Xn)為類屬性集合，其中Xi（1≤i≤n）表示非類別屬性并且可以具有不同的范圍，當(dāng)屬性的值范圍為連續(xù)時(shí)，稱為連續(xù)屬性；否則，稱為離散屬性。令C={C1，C2，…，Ck}表示具有k個(gè)不同類別屬性集，則分類任務(wù)可描述為由數(shù)據(jù)集T確定從向量X到C的映射函數(shù)，即

進(jìn)一步，可利用數(shù)據(jù)挖掘技術(shù)來(lái)表達(dá)隱函數(shù)H，有

其中：H為隱函數(shù)，H0表示函數(shù)的初始狀態(tài)；p表示函數(shù)的定義屬性；a表示元素記錄的范圍；n表示條件的范圍；e表示運(yùn)動(dòng)指數(shù)的范圍；f表示運(yùn)動(dòng)指數(shù)的離散指數(shù)。

1.2 訓(xùn)練過(guò)程分析

訓(xùn)練過(guò)程主要包括5 個(gè)環(huán)節(jié)，包括學(xué)生狀態(tài)診斷、訓(xùn)練目標(biāo)、訓(xùn)練計(jì)劃、訓(xùn)練方案、目標(biāo)完成評(píng)估，如圖1所示。其中，訓(xùn)練分析是體育訓(xùn)練的關(guān)鍵環(huán)節(jié)。

圖1 訓(xùn)練實(shí)施過(guò)程Fig.1 Training implementation process

2 運(yùn)動(dòng)訓(xùn)練指標(biāo)分析模型

2.1 基于粗糙集的數(shù)據(jù)預(yù)處理

粗糙集算法主要是在現(xiàn)有知識(shí)庫(kù)的基礎(chǔ)上，對(duì)知識(shí)的近似描述進(jìn)行評(píng)估，消除數(shù)據(jù)處理資源中的冗余數(shù)據(jù)，獲得更準(zhǔn)確、更可靠的決策結(jié)果［13］。傳統(tǒng)的粗糙集只能對(duì)分類資源數(shù)據(jù)進(jìn)行評(píng)估和處理，而對(duì)數(shù)據(jù)的進(jìn)一步處理需要離散化，這將導(dǎo)致信息和數(shù)據(jù)的缺失。本文采用鄰域粗糙集方法對(duì)體育訓(xùn)練指標(biāo)進(jìn)行屬性約簡(jiǎn)，并以環(huán)境因素為輸入?yún)?shù)，對(duì)體育訓(xùn)練質(zhì)量進(jìn)行評(píng)價(jià)。本文規(guī)定決策集Dnt可定義為一個(gè)三元組，即

其中：U={x1，x2，…，xn}為數(shù)據(jù)集；D為體育訓(xùn)練的分類等級(jí)；A為屬性集合。

基于此，將簡(jiǎn)約后的初始集設(shè)為空集，計(jì)算出該體育訓(xùn)練指標(biāo)中剩余屬性的顯著性參數(shù)，如果這些顯著性參數(shù)均不為0，則優(yōu)先選擇進(jìn)入約簡(jiǎn)集中。該過(guò)程可總結(jié)如下：

步驟1?α∈A，計(jì)算各個(gè)屬性的臨近關(guān)系矩陣Nα；

步驟2初始化屬性粗糙集RED為空，且令φ→RED；

步驟3遍歷屬性A中所有RED未包含的屬性，并計(jì)算各屬性參數(shù)的重要性，即?α∈A-RED，

步驟4選擇具有最大重要性的屬性αk，即

步驟5若αk＞0，則將其添加入RED，且；否則跳轉(zhuǎn)至步驟3，直到滿足循環(huán)終止條件。

2.2 數(shù)據(jù)挖掘處理分析

數(shù)據(jù)挖掘處理分析分為三個(gè)步驟：數(shù)據(jù)選擇、數(shù)據(jù)處理和數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)選擇主要是從數(shù)據(jù)庫(kù)中提取數(shù)據(jù)，形成目標(biāo)數(shù)據(jù)。預(yù)處理是對(duì)提取的數(shù)據(jù)進(jìn)行處理，使其符合要求。數(shù)據(jù)轉(zhuǎn)換是減少數(shù)據(jù)的維數(shù)。初始特征函數(shù)的表達(dá)式為

其中：m為數(shù)據(jù)特征變量；I為數(shù)據(jù)可變性；N為目標(biāo)數(shù)據(jù)；v為計(jì)算量；θ為拼寫記錄，l為挖掘范圍；E為數(shù)據(jù)挖掘，E1為初始條件挖掘，E2為工作狀態(tài)挖掘；i為第i級(jí)數(shù)據(jù)。

2.3 基于決策樹(shù)的數(shù)據(jù)挖掘模型

決策樹(shù)模型因其易于理解、可解釋強(qiáng)等優(yōu)點(diǎn)廣泛應(yīng)用于數(shù)據(jù)挖掘中［14］。決策樹(shù)以樹(shù)形結(jié)構(gòu)表示最終的分類結(jié)果，表達(dá)式可描述為

式中：E0為理論表達(dá)式函數(shù)；n為計(jì)算長(zhǎng)度；a為元素記錄范圍；f為離散指標(biāo)；e為指標(biāo)范圍。

決策樹(shù)可通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類，可從一組不規(guī)則元素中推斷出決策樹(shù)表示的分類規(guī)則。一般情況下，決策樹(shù)采用自頂向下的遞歸方法比較內(nèi)部節(jié)點(diǎn)的屬性值，并根據(jù)不同的屬性值向下分支，其中葉節(jié)點(diǎn)是要?jiǎng)澐值念?。因此，從根?jié)點(diǎn)到葉節(jié)點(diǎn)的路徑即對(duì)應(yīng)一個(gè)分類規(guī)則。圖2 所示為一典型決策樹(shù)構(gòu)成，主要由決策節(jié)點(diǎn)、分支節(jié)點(diǎn)和葉節(jié)點(diǎn)三個(gè)部分組成。每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)非類別屬性，每個(gè)分支對(duì)應(yīng)于該屬性的每個(gè)可能值，樹(shù)的每個(gè)葉節(jié)點(diǎn)表示一個(gè)類別。樹(shù)的中間節(jié)點(diǎn)通常用矩形表示，而葉節(jié)點(diǎn)用橢圓表示。然而，傳統(tǒng)決策樹(shù)容易受噪聲和異常數(shù)據(jù)干擾造成冗余分支問(wèn)題。

圖2 典型的決策樹(shù)構(gòu)成Fig.2 Typical decision tree composition

為解決上述問(wèn)題，圖3 所示為本文改進(jìn)的決策樹(shù)算法。算法可分為學(xué)習(xí)和測(cè)試兩個(gè)階段。學(xué)習(xí)階段采用自頂向下的遞歸方法訓(xùn)練參數(shù)；之后，將模型及參數(shù)帶入測(cè)試階段進(jìn)行驗(yàn)證并對(duì)模型進(jìn)行優(yōu)化。該算法主要包括兩個(gè)過(guò)程：其一是生成樹(shù)；其二是對(duì)樹(shù)進(jìn)行剪枝，去除一些可能存在噪聲或異常的數(shù)據(jù)。去除噪聲和異常數(shù)據(jù)的公式為

圖3 改進(jìn)的決策樹(shù)生成過(guò)程Fig.3 Improved decision tree generation process

式中：Ln表示噪聲去除函數(shù)；x表示數(shù)據(jù)集合，xi為決策樹(shù)的第i層結(jié)果，同理xj為決策樹(shù)的第j層結(jié)果；n表示搜索條件的范圍。

3 仿真分析

3.1 仿真環(huán)境與數(shù)據(jù)準(zhǔn)備

仿真環(huán)境為：windows10 操作系統(tǒng)下，i7 處理器，顯卡GeForce GTX 1080，內(nèi)存6 GB，并在python環(huán)境下編譯程序。實(shí)驗(yàn)數(shù)據(jù)由本學(xué)院提供，包括2016-2020 年部分大學(xué)生體質(zhì)測(cè)試項(xiàng)目（包括田徑、球類、游泳、武術(shù)等）。剔除無(wú)用記錄后，實(shí)驗(yàn)數(shù)據(jù)量為9860。

3.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)質(zhì)量有很多評(píng)價(jià)因素，其中最重要的三個(gè)因素是準(zhǔn)確性、完整性和一致性。但在實(shí)驗(yàn)所用數(shù)據(jù)集中，存在著不正確、不完整、不一致的數(shù)據(jù)，因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，從而提高數(shù)據(jù)質(zhì)量，進(jìn)而提高數(shù)據(jù)挖掘結(jié)果的質(zhì)量。此外，不同運(yùn)動(dòng)的指標(biāo)包含不同屬性，如田徑類以時(shí)間屬性為標(biāo)準(zhǔn)，球類以得分、命中率、時(shí)間等屬性為標(biāo)準(zhǔn)。為有效進(jìn)行數(shù)據(jù)挖掘，可將每個(gè)屬性的不同值映射到一系列整數(shù)，并使用整數(shù)替換該類別屬性的值。如果存在（q×10）個(gè)屬性類值，則每個(gè)原始值將唯一分配給區(qū)間[0，q] 中的整數(shù)?；诖植诩臄?shù)據(jù)預(yù)處理后的數(shù)據(jù)及相關(guān)參數(shù)見(jiàn)表1。

表1 仿真數(shù)據(jù)及相關(guān)參數(shù)Tab.1 Simulation data and related parameters

3.3 數(shù)據(jù)挖掘結(jié)果

利用本文改進(jìn)的決策樹(shù)分析方法對(duì)體育訓(xùn)練指標(biāo)進(jìn)行分析，并與傳統(tǒng)的聚類指標(biāo)分析方法和神經(jīng)網(wǎng)絡(luò)方法進(jìn)行對(duì)比，結(jié)果如圖4 所示。從圖4 的比較可以看出，改進(jìn)決策樹(shù)較其他兩種方法訓(xùn)練成績(jī)預(yù)測(cè)準(zhǔn)確率更高。然而由于訓(xùn)練器材精度或記錄誤差等因素，本文所使用的樣本數(shù)據(jù)具有一定程度噪聲。因此，三種方法預(yù)測(cè)結(jié)果呈波動(dòng)，且隨著數(shù)據(jù)樣本個(gè)數(shù)增多，整體預(yù)測(cè)準(zhǔn)確率不斷下降，這符合實(shí)際情況。此外，聚類方法在數(shù)據(jù)采樣個(gè)數(shù)大于170 后，準(zhǔn)確率急劇下降。分析其原因，一方面由于系統(tǒng)誤差使得模型效果有所降低；另一方面數(shù)據(jù)中部分體育訓(xùn)練類型指標(biāo)類似（如球類和射擊，指標(biāo)都包含得分、命中率），給聚類算法帶來(lái)一定干擾。

圖4 不同方法模型預(yù)測(cè)準(zhǔn)確率Fig.4 Prediction accuracy of different models

4 結(jié)論

體育訓(xùn)練過(guò)程積累了許多訓(xùn)練數(shù)據(jù)，常規(guī)的統(tǒng)計(jì)分析技術(shù)很難找到一個(gè)合適的模型來(lái)描述這些數(shù)據(jù)之間的相關(guān)性。數(shù)據(jù)挖掘的出現(xiàn)為在大量復(fù)雜的訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)科學(xué)規(guī)律和相關(guān)性提供了優(yōu)化方法。為此，本文對(duì)數(shù)據(jù)挖掘、粗糙集、決策樹(shù)模型進(jìn)行分析，提出了數(shù)據(jù)挖掘技術(shù)應(yīng)用于體育訓(xùn)練指標(biāo)分析，為提高體育訓(xùn)練質(zhì)量提供參考。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡