姚曦
摘要:為提高大學(xué)生體質(zhì)健康數(shù)據(jù)利用率,通過聚類分析對數(shù)據(jù)進(jìn)行分組,為大學(xué)生體質(zhì)分層次教學(xué)提供決策支持。在K均值聚類算法基礎(chǔ)上,分別從K值選取與初始點(diǎn)選取兩方面進(jìn)行算法改進(jìn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的K均值聚類算法效率更高,分組結(jié)果更加合理且易于解釋,可為學(xué)校制訂智能化運(yùn)動(dòng)處方提供有效參考。
關(guān)鍵詞:大學(xué)生;體質(zhì)健康;聚類;K均值算法
DOIDOI:10.11907/rjdk.181806
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)010-0055-05
英文摘要Abstract:In order to improve the physical health data utilization rate of college students, the data were grouped by cluster analysis, and the decision support was provided for college students′ physique stratification teaching. On the basis of k-means clustering algorithm, the algorithm is improved based on the selection of K value and the selection of initial point. The experimental results show that the improved k-means clustering algorithm is more efficient, grouping results are more reasonable and easier to explain, it provides effective reference for schools to carry out the intelligent exercise prescription.
英文關(guān)鍵詞Key Words:college students; physical health; clustering; K-Means
0 引言
為貫徹落實(shí)“健康第一”的指導(dǎo)思想,國家于2007年、2014年修訂完善了《國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》[1],要求每年在小學(xué)、初中、高中、大學(xué)的各年級全面開展學(xué)生體質(zhì)健康標(biāo)準(zhǔn)測試工作[2],同時(shí),學(xué)校將體質(zhì)健康等級納入學(xué)生整體素質(zhì)考核中。各級學(xué)校收集整理體質(zhì)健康數(shù)據(jù)后,統(tǒng)一上報(bào)國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)數(shù)據(jù)管理與分析系統(tǒng)。但學(xué)校收集的大量體質(zhì)健康數(shù)據(jù),只為完成每年的測試和上報(bào)任務(wù),沒有得到有效利用。
學(xué)者對學(xué)生體質(zhì)健康標(biāo)準(zhǔn)進(jìn)行了諸多研究。洪海瀟、蘇連勇[3]按照區(qū)域性別分類,篩選出天津市大學(xué)生1995年、2000年、2005年、2010年的身高、體重指標(biāo),通過BMI指數(shù)確定近15年來天津市大學(xué)生身體脂肪相對水平發(fā)展態(tài)勢。羅奇[4]、葉飛[5]運(yùn)用體質(zhì)健康管理指標(biāo)體系,開發(fā)了大學(xué)生個(gè)性化體質(zhì)健康管理系統(tǒng)。覃寅寅[6]對學(xué)生體質(zhì)健康數(shù)據(jù)進(jìn)行了歸納整理,提出了學(xué)生體質(zhì)健康檔案分析系統(tǒng)。以上研究關(guān)注了學(xué)生體質(zhì)健康數(shù)據(jù)的系統(tǒng)化與檔案構(gòu)建,但數(shù)據(jù)挖掘涉及較少。
美國“總統(tǒng)挑戰(zhàn)”計(jì)劃和健身計(jì)劃(FITNESSGRAM)[7-11]在美國普遍實(shí)施,其對體質(zhì)數(shù)據(jù)進(jìn)行科學(xué)分析,對各體質(zhì)群體生成報(bào)告并提出科學(xué)的運(yùn)動(dòng)建議,有效促進(jìn)了全民體質(zhì)健康發(fā)展。綜上,對體質(zhì)健康數(shù)據(jù)進(jìn)行挖掘分析,進(jìn)而構(gòu)建準(zhǔn)確、有效的學(xué)生體質(zhì)健康細(xì)分模型具有重要意義。
1 研究目的
本文采用聚類分析技術(shù)[12-14]對學(xué)生體質(zhì)健康數(shù)據(jù)進(jìn)行挖掘,提出改進(jìn)的聚類算法以提高聚類性能和準(zhǔn)確度。根據(jù)改進(jìn)的聚類算法構(gòu)建大學(xué)生體質(zhì)健康細(xì)分模型,并以該模型對數(shù)據(jù)進(jìn)行評價(jià),針對每個(gè)聚類分組提出健康運(yùn)動(dòng)處方,達(dá)到拓展體質(zhì)健康管理理論應(yīng)用領(lǐng)域,優(yōu)化學(xué)校體育教學(xué)工作的目的。
2 研究對象與方法
以某學(xué)院2015-2017年大一、大二、大三的體質(zhì)健康測試數(shù)據(jù)為研究對象,以學(xué)年為單位分年級抽取數(shù)據(jù)進(jìn)行聚類分析。在校學(xué)生每年進(jìn)行一次體質(zhì)測試,每位學(xué)生共收集18項(xiàng)數(shù)據(jù),其中基本數(shù)據(jù)10項(xiàng):年級、班級編號(hào)、班級名稱、學(xué)籍號(hào)、民族、姓名、性別、出生日期、身份證號(hào)、家庭住址。8項(xiàng)體質(zhì)測試數(shù)據(jù):身高(度量單位為cm)、體重(度量單位為kg)、肺活量、50m跑、立定跳遠(yuǎn)、坐位體前屈、800m跑或1 000m跑(女生測800m跑、男生測1 000m跑)、一分鐘仰臥起坐或引體向上(女生測一分鐘仰臥起坐、男生測引體向上)。所有體質(zhì)測試數(shù)據(jù)均使用 Microsoft Excel進(jìn)行存儲(chǔ),而后使用R語言對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,最后選取反映身體素質(zhì)指標(biāo)的5項(xiàng)數(shù)據(jù)(50m跑、立定跳遠(yuǎn)、坐位體前屈、800m跑或1 000m跑、一分鐘仰臥起坐或引體向上)進(jìn)行聚類挖掘。
本文選用R語言[15]作為數(shù)據(jù)分析的軟件平臺(tái)。R語言是一種面向統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的共享軟件平臺(tái),前身是1976年美國貝爾實(shí)驗(yàn)室開發(fā)的S語言。R語言擅長統(tǒng)計(jì)計(jì)算和繪圖,是一套開源的數(shù)據(jù)分析解決方案,可運(yùn)行在Windows、Linux、Mac OS X多操作系統(tǒng)上。
3 K-Means聚類
本文采用k-Means[16-17]聚類算法進(jìn)行算法改進(jìn)。K-Means是一種分割性的聚類算法,算法易于實(shí)現(xiàn),具有相當(dāng)高的效率,算法流程如圖1所示。首先,從聚類數(shù)據(jù)中隨機(jī)選取K個(gè)對象作為初始點(diǎn),也稱為質(zhì)心,對應(yīng)K個(gè)類;然后計(jì)算其余各個(gè)對象與K個(gè)初始點(diǎn)的距離,將其分配給與之最近距離的初始點(diǎn),形成初始的聚類分組。分配完后,重新計(jì)算每個(gè)類的平均值作為新的質(zhì)心,根據(jù)就近原則重新進(jìn)行聚類分組,直至聚類質(zhì)心不再改變或迭代次數(shù)達(dá)到要求。由于初始聚類是在隨機(jī)選取質(zhì)心的基礎(chǔ)上產(chǎn)生的,無法確保所得的K個(gè)類就是客觀存在的“自然小類”,所以K-Means算法需要多次重復(fù)。
從圖3可以看出,K值從3-6類變化時(shí),WSSE值有一個(gè)明顯的下降趨勢,即點(diǎn)的斜率變大。6類以后,下降速度放慢,說明聚成6類對數(shù)據(jù)是一個(gè)很好的擬合,再次驗(yàn)證了最佳聚類個(gè)數(shù)選6。并不是每個(gè)聚類的拐點(diǎn)都能這樣找到,因此WSSE只作為輔助驗(yàn)證。
4.2 初始點(diǎn)選取改進(jìn)
初始點(diǎn)選取對算法的收斂速度和穩(wěn)定性產(chǎn)生很大影響。K-Means聚類算法如無指定初始點(diǎn),將由系統(tǒng)從數(shù)據(jù)中隨機(jī)抽取K個(gè)對象作為初始點(diǎn)。
本研究采用選擇距離盡可能遠(yuǎn)的改進(jìn)方法。首先隨機(jī)選擇一個(gè)對象作為第一個(gè)初始點(diǎn),其次選擇距離該對象最遠(yuǎn)的對象作為第二個(gè)初始點(diǎn),而后選擇距離前兩個(gè)對象的距離之和最大的對象作為第三個(gè)初始點(diǎn),以此類推。按照同樣的原則直至選出K個(gè)初始點(diǎn),選取流程如圖4所示。
研究結(jié)果顯示,相較于K-Means算法,改進(jìn)的K-Means算法聚類在聚類效果與聚類解釋上都更加優(yōu)越。在參與聚類分析各個(gè)屬性上,簇間差異明顯且各個(gè)分組容易解釋,總體聚類效果良好。
5 結(jié)語
本文以大學(xué)生體質(zhì)健康數(shù)據(jù)為研究對象,基于K-Means算法提出了改進(jìn)的K-Means算法,詳述了改進(jìn)的方法。以某學(xué)院2015年大一學(xué)生體質(zhì)健康測試數(shù)據(jù)為例,對兩種算法進(jìn)行了評估比較,證實(shí)改進(jìn)的K-Means算法在技術(shù)可行性與優(yōu)越性上更佳,以此為基礎(chǔ)構(gòu)建大學(xué)生體質(zhì)健康評價(jià)細(xì)分級模型,為建立行之有效的高校體育教學(xué)體系提供了科學(xué)的數(shù)據(jù)支持。
參考文獻(xiàn):
[1] 教育部.國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)[S]. GB/T 20027-2014.
[2] 教育部.關(guān)于印發(fā)《學(xué)生體質(zhì)健康監(jiān)測評價(jià)辦法》等三個(gè)文件的通知 [Z]. 教體藝[2014]3號(hào),2014.
[3] 洪海瀟,蘇連勇.天津市大學(xué)生 BMI 指數(shù)的15年動(dòng)態(tài)分析[J].首都體育學(xué)院學(xué)報(bào),2014,26(3):279-283.
[4] 羅奇.大學(xué)生體質(zhì)健康管理的研究與應(yīng)用[D].武漢:華中師范大學(xué),2011.
[5] 葉飛.四川省職業(yè)技術(shù)學(xué)院學(xué)生體質(zhì)監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2011.
[6] 覃寅寅, 徐翔鴻. 學(xué)生體質(zhì)健康檔案(SPH)分析系統(tǒng)的構(gòu)建[J].北京體育大學(xué)學(xué)報(bào),2011,34(5):69-72.
[7] 李紅娟,王正珍.美國青少年體質(zhì)測定系統(tǒng)的演進(jìn)[J].北京體育大學(xué)學(xué)報(bào),2013,36 (10):51-88.
[8] 張艷超.中美學(xué)生體質(zhì)測量與評價(jià)實(shí)證研究[D].南京:南京師范大學(xué),2014.
[9] 石曉峰,王飛. SOM 和PCA對體質(zhì)健康數(shù)據(jù)的模式識(shí)別及可視化分析——以學(xué)生體質(zhì)地域特征為視角[J].天津體育學(xué)院學(xué)報(bào),2015,30(4):282-287.
[10] 何江川,楊放.中國南方少數(shù)民族學(xué)生體質(zhì)特征聚類與因子結(jié)構(gòu)分析[J].中國組織工程研究,2012,16(2):362-366.
[11] ARDOY D,F(xiàn)ERN NDEZ-RODR GUEZ J,JIMNEZ-PAV N D,et al. A physical education trial improves adolescents′ cognitive performance and academic achievement:the EDUFIT study [J]. Scandinavian Journal of Medicine & Science in Sports,2014,24(1): 52-61.
[12] TAN P N,STEINBACH M,KUMAR V.數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2011:305-347.
[13] 王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào),2010,23(2):109-113.
[14] 王剛.數(shù)據(jù)挖掘聚類算法研究綜述[J].科技導(dǎo)報(bào), 2010,23(8)17:20.
[15] ROBERT I.KABACOFF.R語言實(shí)戰(zhàn)[M].北京:人民郵電出版社,2016:4-18.
[16] BAI L,LIANG J Y,SUI C.Fast global k-means clustering based on local geometrical Information[J].Information Sciences,2013(245):168-180.
[17] 黃解軍,潘和平.數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,19(4):49-53.
[18] HAN J W,KANMBER M, PEI J.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012:315-319.
[19] WU M L,CHANG C H,LIU R Z.Integrating content-based filtering with collaborative filtering using co-clustering with augmented matrices[J].Expert Systems with Applications,2014,50(6):2754-2761.
[20] TREEATTANAPITAK K,JARUSKULCHAI C.Exponential Fuzzy C-Means for collaborative filtering[J].Journal of Computer Science Technology,2012(3):567-576.
(責(zé)任編輯:杜能鋼)