劉君鳳 秦學(xué) 朱道恒
摘? 要: 將最大信息系數(shù)算法運(yùn)用于體測(cè)數(shù)據(jù)的相關(guān)系數(shù)計(jì)算,通過運(yùn)用最大信息系數(shù)算法與皮爾遜相關(guān)系數(shù)算法、斯皮爾曼等級(jí)相關(guān)系數(shù)算法以及肯德爾等級(jí)相關(guān)系數(shù)算法,對(duì)學(xué)生體測(cè)數(shù)據(jù)中肺活量與其他特征指標(biāo)進(jìn)行相關(guān)系數(shù)計(jì)算并對(duì)比。通過對(duì)比分析學(xué)生體質(zhì)健康測(cè)試數(shù)據(jù)的結(jié)果,表明最大信息系數(shù)能夠更有效的探測(cè)肺活量與其他指標(biāo)的相關(guān)性,且具有較高的準(zhǔn)確性。
關(guān)鍵詞: 相關(guān)性分析;最大信息系數(shù);體質(zhì)健康測(cè)試;pearson相關(guān)系數(shù)
【Abstract】: The maximum information coefficient algorithm is applied to calculate the correlation coefficient of the body measurement data. The correlation coefficient between vital capacity and other characteristic indexes is calculated by using the maximum information coefficient algorithm, Pearson correlation coefficient algorithm, Spearman correlation coefficient algorithm and Kendall correlation coefficient algorithm. And contrast. By comparing and analyzing the results of students physical fitness test data, it shows that the maximum information coefficient can detect the correlation between vital capacity and other indicators more effectively, and has higher accuracy.
【Key words】: Correlation analysis; Maximum information coefficient; Physical fitness test; Pearson correlation coefficient
0? 引言
隨著生活水平的提高,學(xué)生營養(yǎng)不斷提高,運(yùn)動(dòng)量減少,進(jìn)而導(dǎo)致了肥胖學(xué)生日益增多,并且肺活量,勢(shì)力,跑步速度,爆發(fā)力等逐年下降。為保證學(xué)生身體健康發(fā)展,教育部頒發(fā)了《學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》,并要求學(xué)校每年對(duì)全校學(xué)生進(jìn)行體質(zhì)健康測(cè)試不但可以統(tǒng)計(jì)學(xué)生的體質(zhì)變化,有針對(duì)的進(jìn)行教學(xué)機(jī)制改進(jìn),又可以促進(jìn)學(xué)生德智體美勞的全面發(fā)展。體質(zhì)健康測(cè)試是學(xué)校教育教學(xué)工作中的一個(gè)環(huán)節(jié),通過體質(zhì)健康測(cè)試,可以促進(jìn)學(xué)生們的身心健康,激勵(lì)學(xué)生參加課外體育活動(dòng),加強(qiáng)身體鍛煉。
本文主要工作是對(duì)體測(cè)指標(biāo)間的相關(guān)性探測(cè)引入了最大信息系數(shù)(MIC)。MIC是由信息論中的互信息推導(dǎo)而來,MIC在散點(diǎn)圖中不斷的分割網(wǎng)格尋優(yōu),最具優(yōu)勢(shì)的特點(diǎn)是具有等價(jià)性、普適性以及檢測(cè)多種函數(shù)關(guān)系如三角函數(shù),周期函數(shù),發(fā)哦無限函數(shù)等,甚至是沒有沒有函數(shù)表示的關(guān)系,MIC都能給出較好的探測(cè)值。MIC一經(jīng)提出就引發(fā)了眾多領(lǐng)域的研究熱潮,多應(yīng)用于航空航天,經(jīng)濟(jì)學(xué),生物基因?qū)W等領(lǐng)域。本文通過研究學(xué)生體測(cè)數(shù)據(jù)集,以多種相關(guān)性性統(tǒng)計(jì)算法為參照對(duì)比的方法,來發(fā)現(xiàn)各項(xiàng)體育運(yùn)動(dòng)與肺活量的密切程度,以便對(duì)學(xué)校的教育教學(xué)提供參考,調(diào)整教學(xué)方案,更好更科學(xué)的幫助學(xué)生鍛煉身體,強(qiáng)健體質(zhì)。結(jié)果表明,MIC算法因?yàn)榫哂刑綔y(cè)非線性關(guān)系的特性非線性方法更能有效探測(cè)體測(cè)指標(biāo)間的相關(guān)性。
1? 預(yù)備知識(shí)
在統(tǒng)計(jì)學(xué)領(lǐng)域中,用于描述兩個(gè)變量之間的相關(guān)程度大小的指標(biāo)被稱為相關(guān)系數(shù)。統(tǒng)計(jì)學(xué)家卡爾皮爾遜最早提出了相關(guān)系數(shù)的概念,相關(guān)系數(shù)是衡量變量之間線性相關(guān)關(guān)系密切程度的的統(tǒng)計(jì)指標(biāo),通常用字母r表示。由積差方法可以計(jì)算相關(guān)系數(shù),以兩變量與其各自平均值的離差相乘來反映兩變量間的相關(guān)程度[2]。其定義為:
2? 相關(guān)性結(jié)果分析及建議
2.1? 數(shù)據(jù)來源
本文以某市2018年5所小學(xué)2560名小學(xué)生的體質(zhì)健康測(cè)試成績?yōu)檠芯繉?duì)象。小學(xué)生正處于身體成長階段,各項(xiàng)身體機(jī)能尚不成熟,因此針對(duì)小學(xué)生的體質(zhì)健康測(cè)試運(yùn)動(dòng)量相對(duì)較小,其測(cè)試指標(biāo)主要有身高、體重、50米跑,坐位體前屈、一分鐘跳繩、一分鐘仰臥起坐,肺活量,50 m8往返跑。利用SPSS軟件[7-8]去除無效數(shù)據(jù)與缺失值后,將肺活量與仰臥起坐、身高、體重等變量組成變量對(duì),分別運(yùn)用Pearson相關(guān)系數(shù)算法、Spearman相關(guān)系數(shù)算法、Kendall相關(guān)系數(shù)算法以及MIC算法進(jìn)行相關(guān)系數(shù)的計(jì)算,這里鑒于50 m8往返跑為團(tuán)體運(yùn)動(dòng),暫不在本文的考慮之內(nèi)。
2.2? 結(jié)果分析與建議
由表2可知Pearson相關(guān)系數(shù)算法和Spearman等級(jí)相關(guān)系數(shù)計(jì)算的坐位體前屈與肺活量、一分鐘仰臥起坐與肺活量的Pearson相關(guān)系數(shù)小于0.10為不相關(guān),跳繩與肺活量、性別與肺活量的Pearson相關(guān)系數(shù)在[0.20,039]之間為低度相關(guān)[9],50米與肺活量為中度相關(guān),身高與肺活量、體重與肺活量的Pearson相關(guān)系數(shù)在[0.70,0.89]之間為高度相關(guān);Kendall等級(jí)相關(guān)系數(shù)算法計(jì)算的坐位體前屈與肺活量、一分鐘仰臥起坐與肺活量相關(guān)系數(shù)小于0.1為不相關(guān),性別與肺活量小于0.19為極低相關(guān),跳繩與肺活量、50米跑與肺活量為低度相關(guān),身高與肺活量、體重與肺活量的Kendall相關(guān)系數(shù)在[0.40,0.69]之間為中度相關(guān)。
而最大信息系數(shù)計(jì)算的性別與肺活量、一分鐘仰臥起坐與肺活量、坐位體前屈與肺活量、均在[0.20,0.39]之間為低度相關(guān),50米跑與肺活量、跳繩與肺活量取值在[0.40,0.69]之間為中度相關(guān),身高與肺活量、體重與肺活量的相關(guān)系數(shù)在[0.70,0.89]之間為高度相關(guān)。
通過對(duì)表2中求得的相關(guān)系數(shù)結(jié)果分析可知,最大信息系數(shù)對(duì)所有指標(biāo)均能探測(cè)出相關(guān)度且較為合理,次之為Pearson相關(guān)系數(shù)算法和Spearman等級(jí)相關(guān)系數(shù),效果最差的是Kendall等級(jí)相關(guān)系數(shù)。50米跑因?yàn)槭嵌虝r(shí)競(jìng)跑,考察的是人體的反應(yīng)靈敏度,和肢體協(xié)調(diào)性和爆發(fā)力,與肺活量的測(cè)度中度關(guān)系,身高與肺活量和體重與肺活量均為高度相關(guān),且為正相關(guān),但圖3可知肺活量較高的大部分學(xué)生分布在40到60公斤,60公斤之后并不是體重越大,肺活量越高,所以學(xué)生應(yīng)當(dāng)保持適度體重,不宜過胖,可以通過保持適宜的體重和跑步來鍛煉學(xué)生的肺活量。
對(duì)于三個(gè)傳統(tǒng)相關(guān)系數(shù)檢測(cè)為不相關(guān)的跳繩與肺活量和坐位體前屈與肺活量利用回歸分析分別擬合線性、二次和三次回歸模型如下。表3,4分別為回歸分析相關(guān)參數(shù)和參數(shù)估計(jì)值,其中參數(shù)R2值越大,解釋程度越高,參數(shù)Sig值越小越顯著。因此可知一分鐘仰臥起坐與肺活量用二次擬合更好,坐位體前屈與肺活量的關(guān)系由三次擬合更為合適。圖4,5為兩對(duì)指標(biāo)的擬合曲線圖,因此傳統(tǒng)三大系數(shù)計(jì)算的坐位體前屈與肺活量不相關(guān),主要是因?yàn)閷?duì)坐位體前屈和仰臥起坐成績影響最大的是身體的柔韌度[10],身體柔韌度越高,測(cè)試成績?cè)胶?,因此但是運(yùn)動(dòng)一般都是基于肺活量的,只是所需大小而已,特別是仰臥起坐隨著數(shù)量的增加所需肺活量越大,因此仰臥起坐與肺活量比坐位體前屈與肺活量具有較大的相關(guān)性,因此MIC對(duì)兩對(duì)非線性關(guān)系探測(cè)的更為符合。由此可知MIC算法比三大傳統(tǒng)相關(guān)系數(shù)探測(cè)到更多的相關(guān)性,并且體現(xiàn)了MIC算法的等價(jià)性特點(diǎn)。
3? 結(jié)束語
最大信息系數(shù)在相關(guān)性分析中有著較大的運(yùn)用前景。比如:在航空航天領(lǐng)域,用來分析大量復(fù)雜的空間數(shù)據(jù),還可以用來判別元部件是否出現(xiàn)異常;在生物醫(yī)學(xué)領(lǐng)域,用來研究基因序列;在經(jīng)濟(jì)領(lǐng)域,用來研究CPI數(shù)據(jù)以及股票數(shù)據(jù)與其他社會(huì)因素的關(guān)系;在數(shù)學(xué)建模[11-12]方面,建模過程中需要的參數(shù)類型等通過計(jì)算相關(guān)性來選取.最大信息系數(shù)還
有著很大的的應(yīng)用空間。本文在體育教育教學(xué)方面,通過對(duì)學(xué)生的體質(zhì)健康測(cè)試數(shù)據(jù)相關(guān)研究結(jié)果進(jìn)行分析可知最大信息系數(shù)能夠更有效的探測(cè)學(xué)生體測(cè)信息之間的相關(guān)性,相對(duì)于傳統(tǒng)相關(guān)系數(shù)統(tǒng)計(jì)指標(biāo)精度更高,穩(wěn)定性更好。
參考文獻(xiàn)
[1]樊嶸, 孟大志, 徐大舜. 統(tǒng)計(jì)相關(guān)性分析方法研究進(jìn)展[J]. 數(shù)學(xué)建模及其應(yīng)用. 2014, 3(1): 1-12.
[2]毛秀珍, 章璐杰, 毛天翔, 王友釗, 黃靜. 基于Pearson相關(guān)分析和回歸分析方法的基金影響力研究[J]. 浙江理工大學(xué)學(xué)報(bào). 2017, 38(4): 306-311.
[3]田黎明, 張冬梅. 一種基于信息熵的傳感器數(shù)據(jù)異常檢測(cè)方法[J]. 軟件, 2018, 39(9): 69-73.
[4]Reshef D N. Reshef Y A, Finucane H K, et al. Detecting novel assciation in large data sets[J], Science, 2011(334): 1518-1524.
[5]David N. Reshef, Yakir A. Reshef, Hilary K. Finucane, et al. Supporting Online Material for Detecting Novel Associations in Large Data Sets[J]. Science, 2012(334): 1-58.
[6]邵福波. 最大信息系數(shù)改進(jìn)算法及其在鐵路事故分析中的應(yīng)用[D]. 北京交通大學(xué). 2016.
[7]曹玉茹, 楊年華. 基于SPSS最優(yōu)尺度的回歸方法[J]. 統(tǒng)計(jì)與決策, 2019(12): 72-74.
[8]趙楠, 王昕, 李英娜, 等. 利用spss軟件分析校園霸凌事件的發(fā)生規(guī)律以及預(yù)防[J]. 軟件. 2018. 39(1): 159-164.
[9]王鵬飛, 余開朝. 基于多元回歸的昆明市房價(jià)影響因素分析[J]. 軟件, 2018, 39(9): 152-157.
[10]席衛(wèi)華. 基于多因素Logistic回歸分析的廢舊物資處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J], 軟件, 2018, 39(9): 188-193.
[11]崔仁桀. 數(shù)據(jù)挖掘在學(xué)生專業(yè)成績預(yù)測(cè)上的應(yīng)用[J]. 軟件, 2016, 37(01): 24-27.
[12]胡建, 王理江. 數(shù)據(jù)挖掘在選課推薦中的研究[J]. 軟件, 2016, 37(4): 119-121.