国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分類規(guī)則的大學(xué)生體質(zhì)測(cè)試數(shù)據(jù)挖掘的應(yīng)用研究
——以西安石油大學(xué)三年級(jí)學(xué)生為例

2018-10-15 05:07:26李壽邦
關(guān)鍵詞:元組決策樹增益

李壽邦

(西安石油大學(xué) 體育系,陜西 西安 710065)

引 言

當(dāng)代大學(xué)生的體質(zhì)健康水平不僅關(guān)系個(gè)人健康成長(zhǎng)和幸福生活,而且關(guān)系整個(gè)民族的健康素質(zhì),關(guān)系我國(guó)人才培養(yǎng)的質(zhì)量。隨著我國(guó)青少年體質(zhì)調(diào)研結(jié)果的出臺(tái),持續(xù)下降的體質(zhì)水平令人觸目驚心,已經(jīng)引起了國(guó)家多部委和各高等院校的高度重視。胡精超和王莉[1]對(duì)河南理工大學(xué)學(xué)生體質(zhì)測(cè)試原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理后,應(yīng)用關(guān)聯(lián)規(guī)則對(duì)其進(jìn)行數(shù)據(jù)挖掘,以體質(zhì)測(cè)試單項(xiàng)指標(biāo)作為輸入、體質(zhì)總評(píng)成績(jī)?yōu)檩敵?,發(fā)現(xiàn):對(duì)大學(xué)女生體質(zhì)影響較大的指標(biāo)是速度、柔韌性和肺活量;對(duì)大學(xué)男生體質(zhì)水平影響較大的是速度,身體形態(tài)的偏胖或超重不是影響其體質(zhì)的重要因素。從而得出體質(zhì)促進(jìn)可以從柔韌性、速度和耐力等指標(biāo)入手的結(jié)論。張崇林等[2]采用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘法,對(duì)上海市某高校教職工體質(zhì)測(cè)試數(shù)據(jù)進(jìn)行相關(guān)分析,建立體質(zhì)總評(píng)與各單項(xiàng)指標(biāo)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘模型,發(fā)現(xiàn):對(duì)青年教職工體質(zhì)影響較大的單項(xiàng)指標(biāo)為最大攝氧量、舒張壓、左手握力、仰臥起坐、體脂率等;對(duì)中年教職工影響較大的指標(biāo)為最大攝氧量、上肢力量、軀干力量等。并依此結(jié)論建議,為促進(jìn)高校教職工的體質(zhì)健康,應(yīng)優(yōu)先考慮發(fā)展其心肺機(jī)能,改善上肢和軀干力量[2]。劉辛和楊素錦[3]采用一種基于數(shù)組的Apriori算法,對(duì)高校學(xué)生體質(zhì)測(cè)試項(xiàng)目進(jìn)行挖掘分析,找出了各測(cè)試項(xiàng)的關(guān)聯(lián)關(guān)系并對(duì)各測(cè)試項(xiàng)目設(shè)置的合理性進(jìn)行了判斷。趙常紅和王琳等[4]對(duì)西北民族大學(xué)男生和女生體質(zhì)測(cè)試數(shù)據(jù)進(jìn)行了對(duì)比研究,運(yùn)用關(guān)聯(lián)規(guī)則的Apriori算法并設(shè)置支持度、置信度與提升度的閾值,分別篩選出男生和女生數(shù)據(jù)的強(qiáng)關(guān)聯(lián)規(guī)則,得出符合“總分成績(jī)=及格”的測(cè)試指標(biāo)。并建議學(xué)生體質(zhì)測(cè)試中應(yīng)加強(qiáng)女生立定跳遠(yuǎn)和男生引體向上的訓(xùn)練,這對(duì)提高民族院校學(xué)生身體機(jī)能的綜合素質(zhì)具有重要的參考價(jià)值。

目前高等院校已經(jīng)積累了海量的大學(xué)生體質(zhì)測(cè)試數(shù)據(jù),相關(guān)研究已卓有成效。但是,這些研究成果大多停留在單項(xiàng)測(cè)試數(shù)據(jù)的淺層統(tǒng)計(jì)和分析上,或者只是對(duì)部分項(xiàng)目數(shù)據(jù)的關(guān)聯(lián)分析,并不能揭示所有測(cè)試項(xiàng)目的內(nèi)在聯(lián)系,更沒有指出各個(gè)測(cè)試項(xiàng)目的分類規(guī)則,所以不能針對(duì)大學(xué)生的實(shí)際體質(zhì)狀況,就所有測(cè)試項(xiàng)目提出全面科學(xué)的鍛煉和訓(xùn)練建議。

本文采用ID3算法分析并提取了隱藏于“跑動(dòng)石大”體質(zhì)測(cè)試手機(jī)APP平臺(tái)數(shù)據(jù)庫(kù)的大三學(xué)生體質(zhì)測(cè)試數(shù)據(jù)中所有測(cè)試項(xiàng)的分類規(guī)則,分析并從這些數(shù)據(jù)中挖掘出當(dāng)代大學(xué)生身體素質(zhì)同類體質(zhì)特征型的共同性質(zhì)以及不同體質(zhì)個(gè)體之間差異的特征型知識(shí),對(duì)于不同學(xué)生就個(gè)體差異采取針對(duì)性的鍛煉和訓(xùn)練措施,提高個(gè)體的身體素質(zhì)具有直接的指導(dǎo)作用。另外,對(duì)于專家學(xué)者關(guān)于體育課程價(jià)值取向、課程體系構(gòu)建、課程評(píng)價(jià)等方面的調(diào)查和研究,對(duì)于“課內(nèi)外一體化”體育教學(xué)模式的構(gòu)建、針對(duì)各體育選項(xiàng)“一體化”教學(xué)的實(shí)現(xiàn)、“一體化”網(wǎng)絡(luò)資源的開發(fā)等都具有較高的探索和研究?jī)r(jià)值。

1 分類分析

分類是對(duì)一組具有共同屬性的數(shù)據(jù)(一組訓(xùn)練樣本數(shù)據(jù))按照其屬性的取值進(jìn)行分類的分析過(guò)程(通過(guò)數(shù)據(jù)挖掘分類算法進(jìn)行學(xué)習(xí)),并通過(guò)分析的結(jié)果尋找每一類的規(guī)律,即分類規(guī)則或分類模型。以此分類規(guī)則為未來(lái)數(shù)據(jù)分類的依據(jù),并依照對(duì)未來(lái)數(shù)據(jù)分類的結(jié)果作出預(yù)測(cè)[5]。分類分析是一項(xiàng)非常重要的數(shù)據(jù)挖掘類型,它反映了同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間差異的特征型知識(shí)。分類主要用于預(yù)測(cè),其目的是找出一組能夠描述數(shù)據(jù)集合典型特征的模型或函數(shù),以便能夠識(shí)別未知數(shù)據(jù)的歸屬或類別[6]。

1.1 決策樹

決策樹(Decision Tree)是分類模型的重要構(gòu)造方法之一,它是基于機(jī)器學(xué)習(xí)的一種有向、無(wú)環(huán)圖(Directed、Acyclic Graphics,DAG),由根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn)構(gòu)成。決策樹學(xué)習(xí)是從一組無(wú)次序、無(wú)規(guī)則的實(shí)例中推理并構(gòu)造決策樹表示形成的分類規(guī)則,采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該節(jié)點(diǎn)向下的分枝,在決策樹的葉節(jié)點(diǎn)處得到結(jié)論。對(duì)于原始的訓(xùn)練元組數(shù)據(jù)集來(lái)說(shuō),屬性選擇度量是構(gòu)造決策樹最關(guān)鍵的問題,即依次采用哪些屬性作為分類的標(biāo)準(zhǔn),最終產(chǎn)生的決策樹對(duì)于分類規(guī)則的產(chǎn)生最有利[7-9]。

設(shè)R是原始類標(biāo)記的訓(xùn)練集,稱之為原始的數(shù)據(jù)劃分。假定某個(gè)類標(biāo)號(hào)屬性A具有m個(gè)不同的取值,即:A={a1,a2,…,am},則按照屬性A可將數(shù)據(jù)劃分R劃分為m個(gè)不同的類,即:C={C1,C2,…,Cm},記Ci,R是R中第Ci類元組的集合,|Ci,R|和|R|分別是Ci,R和R中元組的個(gè)數(shù)??傻萌缦露x[8]:

(1)將R中的元組進(jìn)行分類所需的期望信息(即R的熵(Entropy))定義為

(1)

其中pi=|Ci,R|/|R|,是R中任一元組屬于Ci類的概率。

(2)按照屬性A對(duì)R中的元組進(jìn)行分類所需的期望信息定義為

(2)

(3)屬性A對(duì)R的信息增益定義為

GainA(R)=Info(R)-InfoA(R) 。

(3)

(4)按照屬性A對(duì)R中的元組進(jìn)行分類的分類信息定義為

(4)

其信息增益率定義為

(5)

屬性選擇度量是一種選擇分類的準(zhǔn)則,決策樹構(gòu)造過(guò)程中的每一次分類采用哪個(gè)屬性進(jìn)行,其目的和判斷的標(biāo)準(zhǔn)是將給定的訓(xùn)練元組數(shù)據(jù)集劃分為“最好”(最純)的子類,理想情況下,落在給定劃分的所有元組都屬于相同的類。但事實(shí)上這是不可能的,只能選擇一種相對(duì)較純的屬性選擇度量。對(duì)于以上2個(gè)指標(biāo),應(yīng)該選擇具有最高信息增益和最大信息增益率的屬性作為當(dāng)前分類的屬性選擇[6]。

1.2 ID3算法

由Quinlan于1986年提出并經(jīng)過(guò)多次改版的ID3算法是決策樹學(xué)習(xí)的典型算法之一,它以信息熵的下降速度作為選取測(cè)試屬性的標(biāo)準(zhǔn)。ID3算法的決策樹以自頂向下遞歸的分治方式構(gòu)造,從訓(xùn)練元組集和它們相關(guān)聯(lián)的類標(biāo)號(hào)開始分類,隨著樹的構(gòu)建,訓(xùn)練集遞歸地劃分為較小的子集。算法用最高信息增益和最大信息增益率作為決策樹中各級(jí)節(jié)點(diǎn)上屬性選擇的標(biāo)準(zhǔn),在每一非葉節(jié)點(diǎn)上進(jìn)行測(cè)試時(shí),都能獲得被測(cè)試?yán)幼畲蟮念悇e信息,使用該屬性將例子集分成子集后,系統(tǒng)的熵值最小[10]。

ID3算法的完整描述[11]:

Input:原始類標(biāo)記的訓(xùn)練集R;候選屬性列表集attr_list;分類準(zhǔn)則attr_sele_method

Output:決策樹Decision_tree

procedure:

createNas a node

if ?r{r∈R,r∈C} then (若R中的所有元組都?xì)w于一個(gè)類C,即R=C)

returnN∈Cas a leaf node (將N作為葉子節(jié)點(diǎn)返回,標(biāo)記為類C)

end if

ifattr_list=φthen

returnN∈Mostas a leaf node (將N作為葉子節(jié)點(diǎn)返回,標(biāo)記為多數(shù)類Most)

end if

split_attribute←attr_sele_method(R,attr_list) (調(diào)用attr_sele_method找到當(dāng)前最好的分類屬性度量值)

N∈Csplit_attribute(將N標(biāo)記為類Csplit_attribute)

for eachRj∈Rdo(Rj是R按照split_attribute進(jìn)行劃分的第j個(gè)輸出)

ifRj=φthen

addNjtoN(為N加一個(gè)葉子節(jié)點(diǎn)Nj)

else

Nj=generate_decision_tree(Rj,attr_list) (遞歸調(diào)用)

addNjtoN(為N加一個(gè)子樹節(jié)點(diǎn)Nj)

end if

end for

2 分類規(guī)則ID3算法在大學(xué)生體質(zhì)測(cè)試數(shù)據(jù)挖掘中的應(yīng)用

“跑動(dòng)石大”體質(zhì)測(cè)試手機(jī)APP平臺(tái)應(yīng)用3年來(lái)已經(jīng)積累了大量的大學(xué)生體質(zhì)測(cè)試原始數(shù)據(jù),本文分別選擇西安石油大學(xué)三年級(jí)的男女大學(xué)生的體質(zhì)測(cè)試成績(jī)作為統(tǒng)計(jì)數(shù)據(jù)集R1和R2(限于篇幅,此處只給出部分抽樣數(shù)據(jù)),見表1和表2。

本文對(duì)大學(xué)生體質(zhì)測(cè)試原始成績(jī)統(tǒng)計(jì)數(shù)據(jù)集R1和R2進(jìn)行整理和清洗,并按測(cè)試標(biāo)準(zhǔn)對(duì)所有測(cè)試項(xiàng)目的成績(jī)進(jìn)行指標(biāo)轉(zhuǎn)換,導(dǎo)出得到對(duì)應(yīng)的男女大學(xué)生體質(zhì)測(cè)試統(tǒng)計(jì)類標(biāo)記數(shù)據(jù)訓(xùn)練集R'1和R'2,見表3和表4。

這里以體質(zhì)量指數(shù)(Body-Mass)為類標(biāo)號(hào)屬性,各取抽樣記錄50條,即屬性ID值有50個(gè),體重指標(biāo)屬性Weight-Index值有4個(gè)(營(yíng)養(yǎng)不良、正常體重、超重、肥胖)、肺活量屬性FVC、體前屈屬性Sit-Reach、立定跳遠(yuǎn)屬性Stand-Leap、50 m跑屬性50 m、 1 000 m跑屬性1 000 m(男)、 800 m跑屬性800 m(女)、引體向上屬性Pull-up(男)、仰臥起坐屬性Sit-up以及類標(biāo)號(hào)屬性Body-Mass值各有4個(gè)(不及格、及格、良好、優(yōu)秀)。從ID3算法的描述中可以看出,其核心思想是屬性的選擇度量,筆者采用ID3算法構(gòu)造了決策樹,對(duì)男女大學(xué)生體質(zhì)測(cè)試數(shù)據(jù)進(jìn)行分類分析,最終得出男女大學(xué)生體質(zhì)測(cè)試的其它各種屬性對(duì)其體質(zhì)量指數(shù)屬性結(jié)果的影響。

表1 大學(xué)生(女性)體質(zhì)測(cè)試成績(jī)統(tǒng)計(jì)數(shù)據(jù)集R1Tab.1 Statistical data set (R1) of university student (female) physical fitness test

表2 大學(xué)生(男性)體質(zhì)測(cè)試成績(jī)統(tǒng)計(jì)數(shù)據(jù)集R2Tab.2 Statistical data set (R2) of university student (male) physical fitness test

表3 大學(xué)生(女性)體質(zhì)測(cè)試統(tǒng)計(jì)類標(biāo)記數(shù)據(jù)訓(xùn)練集Tab.3 Statistical class tag data set (R'1) of university student (female) physical fitness test

表4 大學(xué)生(男性)體質(zhì)測(cè)試統(tǒng)計(jì)類標(biāo)記數(shù)據(jù)訓(xùn)練集R'2Tab.4 Statistical class tag data set(R'2) of university student (male) physical fitness test

根據(jù)式(1)~式(5)對(duì)信息增益的定義,對(duì)于表3中的女大學(xué)生體質(zhì)測(cè)試統(tǒng)計(jì)類標(biāo)記數(shù)據(jù)訓(xùn)練集R'1,其計(jì)算過(guò)程和結(jié)果如下:

類似的,計(jì)算可得:

對(duì)比體重指標(biāo)屬性Weight-Index、肺活量屬性FVC、體前屈屬性Sit-Reach、立定跳遠(yuǎn)屬性Stand-Leap、50 m跑屬性50m、800 m跑屬性800m、仰臥起坐屬性Sit-up等7個(gè)屬性的信息增益,選取具有最高信息增益的800 m跑屬性800m作為決策樹的根節(jié)點(diǎn),利用同樣的計(jì)算過(guò)程可以得到后續(xù)決策樹結(jié)點(diǎn),最終生成決策樹,如圖1。

對(duì)于圖1的決策樹,沿著根節(jié)點(diǎn)到每個(gè)葉節(jié)點(diǎn)的路徑,分別提取分類規(guī)則如下:

Rule_1:IF 800m=不及格AND 50m =不及格AND Stand-Leap=不及格Then Body-Mass=不及格

……

Rule_m:IF 800m=及格AND 50m =不及格AND Stand-Leap=及格AND FVC=不及格AND Sit-up=良好AND Weight-Index=不及格Then Body-Mass=不及格

Rule_m+1:IF 800m=及格AND 50m =不及格AND Stand-Leap=及格AND FVC=不及格AND Sit-up=良好AND Weight-Index=及格AND Sit-Reach=不及格Then Body-Mass=不及格

Rule_m+2:IF 800m=及格AND 50m =不及格AND Stand-Leap=及格AND FVC=不及格AND Sit-up=良好AND Weight-Index=及格AND Sit-Reach=及格Then Body-Mass=不及格

圖1 大學(xué)生(女性)體質(zhì)測(cè)試統(tǒng)計(jì)類標(biāo)記數(shù)據(jù)決策樹Fig.1 Statistical class tag decision tree of university student(female)physical fitness test

Rule_m+3:IF 800m=及格AND 50m =不及格AND Stand-Leap=及格AND FVC=不及格AND Sit-up=良好AND Weight-Index=及格AND Sit-Reach=良好Then Body-Mass=及格

Rule_m+4:IF 800m=及格AND 50m =不及格AND Stand-Leap=及格AND FVC=不及格AND Sit-up=良好AND Weight-Index=及格AND Sit-Reach=優(yōu)秀Then Body-Mass=及格

……

Rule_s:IF 800m=及格AND 50m =不及格AND Stand-Leap=及格AND FVC=不及格AND Sit-up=良好AND Weight-Index=優(yōu)秀 Then Body-Mass=良好

……

Rule_t:IF 800m=及格AND 50m =不及格AND Stand-Leap=及格AND FVC=優(yōu)秀 AND Sit-up=及格AND Weight-Index=不及格 Then Body-Mass=及格

Rule_t+1:IF 800m=及格AND 50m =不及格AND Stand-Leap=及格AND FVC=優(yōu)秀 AND Sit-up=及格AND Weight-Index=及格 Then Body-Mass=及格

Rule_t+2:IF 800m=及格AND 50m =不及格AND Stand-Leap=及格AND FVC=優(yōu)秀 AND Sit-up=及格AND Weight-Index=良好 Then Body-Mass=及格

Rule_t+3:IF 800m=及格AND 50m =不及格AND Stand-Leap=及格AND FVC=優(yōu)秀 AND Sit-up=及格AND Weight-Index=優(yōu)秀 Then Body-Mass=良好

……

Rule_w:IF 800m=優(yōu)秀 AND 50m =優(yōu)秀 AND Stand-Leap=優(yōu)秀 Then Body-Mass=優(yōu)秀

對(duì)于表4中的男大學(xué)生體質(zhì)測(cè)試統(tǒng)計(jì)類標(biāo)記數(shù)據(jù)訓(xùn)練集R'2,依據(jù)同樣的原理和算法計(jì)算可得體重指標(biāo)屬性Weight-Index、肺活量屬性FVC、體前屈屬性Sit-Reach、立定跳遠(yuǎn)屬性Stand-Leap、50 m跑屬性50m、1 000 m跑屬性1 000m、引體向上屬性Pull-up等7個(gè)屬性的信息增益,并選取具有最高信息增益的引體向上屬性Pull-up作為決策樹的根節(jié)點(diǎn),最終生成決策樹。限于篇幅,在此不再贅述。

3 結(jié) 論

本文針對(duì)當(dāng)代大學(xué)生體質(zhì)健康水平持續(xù)下降的現(xiàn)狀,結(jié)合高校體育“課內(nèi)外一體化”教學(xué)模式改革對(duì)大學(xué)生體質(zhì)測(cè)試模式和評(píng)價(jià)機(jī)制的具體要求,采用分類分析的典型算法——ID3算法,對(duì)“跑動(dòng)石大”體質(zhì)測(cè)試手機(jī)APP平臺(tái)運(yùn)行3年來(lái)積累的大量大學(xué)生體質(zhì)測(cè)試原始數(shù)據(jù)進(jìn)行分類分析,對(duì)于男女生各自生成決策樹,并分別提取了分類規(guī)則。經(jīng)過(guò)對(duì)比發(fā)現(xiàn),這些分類規(guī)則和數(shù)據(jù)庫(kù)中的實(shí)際數(shù)據(jù)高度一致,在學(xué)生個(gè)體調(diào)研中發(fā)現(xiàn)高度吻合。因此,利用這些分類規(guī)則的預(yù)測(cè)結(jié)論,能夠快速科學(xué)地判定每個(gè)學(xué)生的個(gè)體體質(zhì),從而對(duì)不同體質(zhì)的學(xué)生進(jìn)行分類,有針對(duì)性地提出合理的運(yùn)動(dòng)訓(xùn)練建議,對(duì)學(xué)生的體質(zhì)鍛煉和學(xué)校的體育教學(xué)改革有參考價(jià)值和促進(jìn)作用。

猜你喜歡
元組決策樹增益
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
Python核心語(yǔ)法
基于單片機(jī)的程控增益放大器設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:36
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
基于Multisim10和AD603的程控增益放大器仿真研究
電子制作(2018年19期)2018-11-14 02:37:02
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于減少檢索的負(fù)表約束優(yōu)化算法
基于決策樹的出租車乘客出行目的識(shí)別
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
天台县| 汝州市| 绵阳市| 长寿区| 九江市| 美姑县| 河南省| 绥德县| 康乐县| 科技| 股票| 榆社县| 苍山县| 卫辉市| 溧水县| 通州市| 股票| 德阳市| 蓝山县| 嘉定区| 新疆| 淮北市| 普陀区| 灵山县| 曲周县| 孝感市| 酒泉市| 长乐市| 水富县| 象山县| 河源市| 连山| 呼玛县| 大足县| 方正县| 湖南省| 惠水县| 郴州市| 广德县| 龙江县| 临西县|