秦國陽 李生啟 秦 勇
(1 山東師范大學(xué)體育學(xué)院,山東濟南 250358;2 南開大學(xué)計算機學(xué)院,天津 300071;3 濟南市歷下區(qū)教育局,山東濟南 250013)
青少年體質(zhì)健康問題一直是我國教育、體育和衛(wèi)生機構(gòu)長期工作的重點。近幾年,由于學(xué)習(xí)壓力的增加和高脂高熱量食品的攝入,青少年肥胖比例飆升。以往的研究大多采用傳統(tǒng)的均值比較[1-2]、線性模型[3-4]等統(tǒng)計方法,研究思路和立意缺乏新的視角。近兩年,決策樹、隨機森林等樹形模型逐漸應(yīng)用于體質(zhì)健康的研究中,相較于均值比較、線性模型等研究思路,樹形模型不僅可以有效甄別體質(zhì)健康的影響因素,還可以根據(jù)變量的類型對文本進(jìn)行最優(yōu)分割[5],并通過樹形圖可視化分析多個變量間的交互關(guān)系[6-7]。但對于決策樹、隨機森林和優(yōu)化的分布式梯度增強庫(XGBoost)三種樹形模型在體質(zhì)健康數(shù)據(jù)中的預(yù)測效果以及青少年體質(zhì)健康影響因素缺乏相關(guān)研究。本文通過檢驗決策樹、隨機森林和XGBoost 三種樹形模型在青少年體質(zhì)數(shù)據(jù)中的準(zhǔn)確度、F1 值等指標(biāo),判斷三種樹形模型在體質(zhì)健康數(shù)據(jù)中的預(yù)測效果。并選取預(yù)測效果最好的算法對13~18歲青少年體質(zhì)健康影響因素進(jìn)行分析,為相關(guān)研究提供參考。
本文以樹形模型在青少年體質(zhì)測試數(shù)據(jù)分析中的應(yīng)用為研究對象。從2021 年濟南市參加學(xué)生體質(zhì)健康狀況監(jiān)測的13~18 歲青少年中,采用分層整群隨機抽樣的方法選取到數(shù)據(jù)樣本:初中學(xué)生19 803名,高中學(xué)生20 003名,共計39 806名學(xué)生。數(shù)據(jù)樣本基本信息如表1所示。
表1 數(shù)據(jù)樣本基本信息
1.2.1 決策樹
決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風(fēng)險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹的構(gòu)造一般較為簡單,且便于理解,通過特征選擇、構(gòu)造決策樹以及決策樹裁剪來防止決策樹出現(xiàn)過分?jǐn)M合的現(xiàn)象[8]。
(1)特征選擇:是指決策樹的每一次分支都需要選擇一個較好的特征進(jìn)行分支,不同類型的決策樹其選擇特征也不同[9],如選擇特征的方式有信息增益(ID3)、信息增益比(C4.5)、Gini 指數(shù)(CART)等,其中CART最為常用。
(2)決策樹的生成:決策樹的生成過程是從上至下生成子節(jié)點,每次按照ID3或者CART等加分準(zhǔn)則進(jìn)行劃分,決策樹不斷生長直到數(shù)據(jù)集不可分。
(3)決策樹的裁剪:裁剪是指決策樹的前、后剪枝,其主要目的是防止出現(xiàn)過度擬合的出現(xiàn),通過剪枝來減少決策樹結(jié)構(gòu)的規(guī)模,以避免過分?jǐn)M合[10]。
1.2.2 隨機森林
隨機集成森林(Random Forest,RF)是通過使用結(jié)合了套袋(Bagging)并行式隨機集成的計算方法而用來將決策樹節(jié)點進(jìn)行隨機集成,并且可以在一次訓(xùn)練的集成過程中對決策樹節(jié)點進(jìn)行基本特征隨機選取的一種算法[11]。RF 模型具有簡單、易于虛擬實現(xiàn)并且同時可以直接計算時間費用和實際操作性強的優(yōu)點,不僅可以廣泛應(yīng)用于分類問題,也可以廣泛應(yīng)用于多個回歸任務(wù)[12-13]。
1.2.3 優(yōu)化的分布式梯度增強庫(XGBoost)
XGBoost 是Boost(提升)算法家族中的一員,Boost根本思路在于采用多個簡單的弱分類器,組建更高準(zhǔn)確率的強分類器[14]。簡而言之,Boost(提升)就是指每一步都產(chǎn)生一個弱預(yù)測模型,然后加權(quán)累加到總模型中,可以用于回歸和分類問題[15]。如果每一步的弱預(yù)測模型生成都是依據(jù)損失函數(shù)的梯度方向,則稱之為梯度提升(Gradient boosting),這樣若干步以后就可以達(dá)到逼近損失函數(shù)局部最小值的目標(biāo)[16-17]。
順序編碼(Ordinal Encoder):Ordinal Encoder是一個類(class),功能是將分類特征編碼為整數(shù)數(shù)組。它的輸入應(yīng)該是整數(shù)或字符串的類數(shù)組,也可以理解為矩陣,每一列表示一個特征,每一個特征中的數(shù)字或者是字符串表示一類特征,也就是分類(離散)特征所接受的值。特征按順序轉(zhuǎn)換為有序整數(shù)。結(jié)果就是每個特征對應(yīng)一個整數(shù)列,取值范圍0到n_categories–1。
1.3.1 數(shù)據(jù)歸一化
數(shù)據(jù)的歸一化是將數(shù)據(jù)按比例縮放,也就是統(tǒng)一量綱,在保存數(shù)據(jù)信息特點的前提下,將不同量綱的數(shù)據(jù)映射到統(tǒng)一量綱下[18]。在某些比較和評價的指標(biāo)處理中經(jīng)常會用到,其中最典型的就是Max 歸一化,指將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上,一般情況下有的分類算法不需要數(shù)據(jù)歸一化,如決策樹等,而有的必須歸一化,如支持向量機(Support Vector Machine,SVM)和邏輯回歸等。數(shù)據(jù)歸一化方法是聚類前對數(shù)據(jù)常做的一種處理方法[19]。歸一化研究包括Min-Max 歸一化,0 均值歸一化,概率分布函數(shù)歸一化,log 函數(shù)轉(zhuǎn)化歸一化等多種歸一化方法,其中最常用的歸一化方法為Min-Max歸一化和0均值歸一化。本研究采用0 均值歸一化對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化。歸一化公式為:
1.3.2 數(shù)據(jù)預(yù)處理
體質(zhì)測試數(shù)據(jù)分為男生和女生,由于原始數(shù)據(jù)存在缺失值、數(shù)據(jù)格式、離散型數(shù)據(jù)等問題,因此無法直接進(jìn)入模型,需要針對各個問題進(jìn)行處理得到最終的數(shù)據(jù)才可以進(jìn)入模型分類對比研究,對數(shù)據(jù)處理進(jìn)行的操作如下:
(1)首先對數(shù)據(jù)進(jìn)行缺失值處理,將缺失值超過30%的列進(jìn)行刪除;其次對于其他的缺失值,本研究采用中位數(shù)填充。
(2)對不符合規(guī)范和要求的數(shù)據(jù)格式問題進(jìn)行處理。
(3)對離散型數(shù)據(jù)進(jìn)行編碼處理,由于模型只接受數(shù)字型數(shù)據(jù),所以對數(shù)據(jù)進(jìn)行Ordinal Encod?er 編碼處理,將離散型數(shù)據(jù)保存規(guī)律映射到數(shù)字?jǐn)?shù)據(jù)。
通過數(shù)據(jù)預(yù)處理,數(shù)據(jù)已經(jīng)成為可以進(jìn)入模型的數(shù)據(jù),方便進(jìn)行后續(xù)的模型對比研究和體質(zhì)影響因素研究。
對分類實驗?zāi)P蛿?shù)據(jù)進(jìn)行實驗評估,根據(jù)實驗分類和深度學(xué)習(xí)所進(jìn)行預(yù)測的結(jié)果分類,把每個實驗數(shù)據(jù)中的每個數(shù)據(jù)集按照分類組合后的順序進(jìn)行劃分,并形成四個主要的部分:真陽性(True Positive)、假陽性(False Positive)、真陰性(True Negative)、假陰性(False Negative)。
(1)分類評判標(biāo)準(zhǔn):因為分類背景需要用準(zhǔn)確率(accuracy)作為標(biāo)準(zhǔn),而F1 值是綜合了準(zhǔn)確率和召回率的綜合指標(biāo),所以本文主要用accuracy和F1值作為分類評價標(biāo)準(zhǔn)[20-21]。
(2)準(zhǔn)確率:計算預(yù)測出來的某類樣本中,有多少是被正確預(yù)測的(針對預(yù)測樣本而言),公式如下:
(3)召回率:針對原先實際的召回樣本而言,有多少個召回樣本被正確地通過預(yù)測并分析(針對實際的召回樣本而言),公式如下:
F1 值:分類問題由于需要綜合考慮準(zhǔn)確率、召回率等因素,因為準(zhǔn)確率對于樣本有偏時,并不能很好地反應(yīng)模型的效果,并且準(zhǔn)確率和召回率這兩個指標(biāo)在很多時候還是矛盾的,所以需要一個綜合的指標(biāo)來整體衡量模型的效果,因此選用了綜合準(zhǔn)確率和召回率這兩個綜合比的指標(biāo)F1,公式如下:
P(Precision)為準(zhǔn)確率;R(Recall)為召回率。
2.2.1 基于樹形模型的13~18 歲男生體質(zhì)預(yù)測效果對比研究
首先對13~18 歲男生的體質(zhì)數(shù)據(jù)進(jìn)行決策樹、隨機森林以及XGBoost的分類對比研究,通過上述三種選取的分類算法,通過accuracy、preci?sion、recall、f1 等分類評價指標(biāo)進(jìn)行分類評價,選取分類表現(xiàn)效果最好的分類算法。根據(jù)上述的各分類算法對本文對應(yīng)的數(shù)據(jù)集進(jìn)行分類對比,即通過分類指標(biāo)對比模型的預(yù)測效果,模型對應(yīng)的分類指標(biāo)如表2所示。
表2 13~18歲男生體質(zhì)預(yù)測效果指標(biāo)對比
從表2的決策樹、隨機森林以及XGBoost三種樹形模型的各分類評價指標(biāo)對比,可以得到各個指標(biāo)的分類效果排序(從好到差)為XGBoost>隨機森林>決策樹。其中隨機森林比決策樹的accu?racy高2.02%,F(xiàn)1高1.41%;而XGBoost比決策樹的accuracy 高5.75%,F(xiàn)1 高5.45%。說明隨機森林比決策樹的分類效果略高,但是XGBoost 的分類效果優(yōu)于隨機森林,因此,效果最好的分類算法是XGBoost,其各分類指標(biāo)為accuracy:0.924 8、preci?sion:0.687 4、recall:0.729 2、F1:0.706 6。所以后續(xù)對于男生的體質(zhì)測試成績相關(guān)因素重要度研究選用XGBoost模型。
2.2.2 基于樹形模型的13-18 歲女生體質(zhì)預(yù)測效果對比研究
對13~18 歲女生體質(zhì)測試數(shù)據(jù)進(jìn)行決策樹、隨機森林以及XGBoost 的分類對比研究,通過上述三種選取的分類算法,通過accuracy、precision、recall、f1等分類評價指標(biāo)進(jìn)行分類評價,從而確定分類表現(xiàn)效果最好的分類算法。對上述的各分類算法對本文對應(yīng)的數(shù)據(jù)集進(jìn)行分類對比,模型對應(yīng)的分類指標(biāo)對比如表3所示。
表3 13~18歲女生體質(zhì)預(yù)測效果指標(biāo)對比
從表3的決策樹、隨機森林以及XGBoost的各分類評價指標(biāo)對比分析,得到整體指標(biāo)的分類效果(以綜合評價指標(biāo)F1 為準(zhǔn))排序(從好到差)為XGBoost>決策樹>隨機森林。其中隨機森林比決策樹的accuracy高2.25%,F(xiàn)1低5.47%;而XGBoost比決策樹的accuracy 高6.41%,F(xiàn)1 高16.84%。說明在女生體質(zhì)數(shù)據(jù)的預(yù)測效果對比中,決策樹比隨機森林的分類效果略好,而XGBoost 的分類效果要遠(yuǎn)高于決策樹。因此,在13~18 歲女生體質(zhì)測試數(shù)據(jù)預(yù)測中,效果最好的分類算法是XG?Boost,各分類指標(biāo)分別為accuracy:0.928 3、preci?sion:0.838 9、recall:0.945 6、F1:0.882 0。因此,后續(xù)對于女生的體質(zhì)測試數(shù)據(jù)的分析也都選用XG?Boost模型。
2.3.1 基于XGBoost模型的13~18歲男生體質(zhì)影響因素分析
因為模型的效果越好,得到的特征重要度越準(zhǔn)也越可靠。通過上述得到的效果最好的XG?Boost模型進(jìn)行體質(zhì)影響因素的分析研究,并通過XGBoost模型自帶特征重要度的特點,得到特征重要度如圖1所示。
圖1 基于XGBoost模型的13~18歲男生體質(zhì)影響因素重要度
因此,在日常訓(xùn)練和教學(xué)中,應(yīng)重視男生的有氧能力以及上下肢力量的訓(xùn)練。
2.3.2 13~18 歲男生體質(zhì)數(shù)據(jù)單棵決策樹擬合可視化分析
對13~18歲男生體質(zhì)數(shù)據(jù)進(jìn)行單棵決策樹擬合可視化分析,單棵決策樹擬合的可視化如圖2所示。
圖2 基于13~18歲男生體質(zhì)數(shù)據(jù)的決策樹擬合可視化
從圖2 通過單棵決策樹擬合可視化可以發(fā)現(xiàn),決策樹深度沒有過大,說明模型沒有出現(xiàn)過度擬合的問題。男生決策樹的根節(jié)點是1 000 m跑,說明該項目對男生體測成績影響效果最為顯著。當(dāng)男生1 000 m 跑成績保持在4.5 min 內(nèi)時,體質(zhì)測試的達(dá)標(biāo)率會得到顯著提升。男生決策樹的第2 層節(jié)點包括引體向上和50 m 跑,這表明當(dāng)男生引體向上次數(shù)大于4.5 次且1 000 m 跑成績在3.5 min內(nèi)時,男生的良好率就會得到明顯提升。與此相反的是,如果男生的50 m 跑大于8.5 s,并且1 000 m跑成績也高于5.5min時,其不及格率就會快速飆升。這也反映出男生上、下肢爆發(fā)力對體測成績的影響僅次于有氧能力。以體質(zhì)測試數(shù)據(jù)為基礎(chǔ),進(jìn)行決策樹的可視化分析,不僅可以分析體質(zhì)健康的影響因素,還可以幫助青少年根據(jù)自己的體質(zhì)測試成績進(jìn)行精準(zhǔn)反饋,指導(dǎo)學(xué)生根據(jù)自己的各項成績發(fā)現(xiàn)并彌補短板。
2.3.3 基于XGBoost模型的13-18歲女生體質(zhì)影響因素分析
用上述預(yù)測效果最好的XGBoost模型,對13~18 歲女生體質(zhì)影響因素進(jìn)行分析研究,通過XG?Boost 模型自帶特征重要度的特點,得到如圖3 所示的特征重要度。
圖3 基于XGBoost模型的13-18歲女生體質(zhì)影響因素重要度
這些體質(zhì)檢測影響因素可以幫助指導(dǎo)青少年進(jìn)行針對性的體質(zhì)改善,如在日常體育教學(xué)中增加耐久跑和下肢爆發(fā)力的訓(xùn)練安排。
2.3.4 13~18 歲女生體質(zhì)數(shù)據(jù)單棵決策樹擬合可視化分析
對13~18歲女生體質(zhì)數(shù)據(jù)進(jìn)行決策樹模型的可視化,如圖4所示。
圖4 基于13~18歲女生體質(zhì)數(shù)據(jù)的單棵決策樹擬合可視化
本研究以13~18歲青少年體質(zhì)測試數(shù)據(jù)為基礎(chǔ),采用決策樹、隨機森林和XGBoost三種樹形模型對數(shù)據(jù)進(jìn)行分析。首先,通過對比accuracy、precision、recall、F1 等分類評價指標(biāo)進(jìn)行分類評價,在13~18歲男生體質(zhì)健康數(shù)據(jù)中,表現(xiàn)效果由好到差依次為:XGBoost>隨機森林>決策樹,而在女生體質(zhì)健康數(shù)據(jù)中,效果排序為XGBoost>決策樹>隨機森林。通過對比發(fā)現(xiàn),XGBoost是經(jīng)過優(yōu)化的分布式梯度提升庫,運算效率和靈活性都有較大的提升。因此,XGBoost在三種樹形模型中分類表現(xiàn)效果最好,準(zhǔn)確率和F1值均優(yōu)于其他預(yù)測模型,展示了較高的優(yōu)越性和科學(xué)性。其次,目前XGBoost算法在體育領(lǐng)域的數(shù)據(jù)處理中,基本沒有相關(guān)的研究或探索,XGBoost 得益于高效率、高精度和高靈活性等優(yōu)點,可以準(zhǔn)確、科學(xué)地得出青少年體質(zhì)的影響因素,在今后研究中可以結(jié)合XG?Boost 對青少年體育教學(xué)和體質(zhì)健康等領(lǐng)域熱點問題進(jìn)行深入分析。在體育產(chǎn)業(yè)、體育管理等領(lǐng)域的數(shù)據(jù)處理中,XGBoost也具有較高的應(yīng)用潛力和研究價值。再次,通過決策樹對青少年體質(zhì)健康狀況進(jìn)行可視化輸出,通過結(jié)構(gòu)簡潔的圖表反饋,分析青少年各項指標(biāo)的關(guān)系,為體育教學(xué)設(shè)計和質(zhì)量提高提供實證依據(jù),為相關(guān)教育、衛(wèi)生以及體育管理部門科學(xué)決策提供參考。
通過XGBoost和決策樹可視化分析的結(jié)果表明:第一,1000m 跑和800 m 跑對于13~18 歲青少年的體質(zhì)測試成績影響作用最大,說明提升有氧素質(zhì)對于青少年的體質(zhì)健康水平的改善至關(guān)重要。13~18 歲年齡段青少年面臨的學(xué)習(xí)壓力隨著年級的增長而不斷增大,久坐行為和高熱量食物的攝入導(dǎo)致青少年肥胖率的飆升[22-23]。但是較好的有氧能力不僅可以幫助13~18歲青少年保持良好的身體形態(tài),而且根據(jù)XGBoost分析結(jié)果,有氧能力好的學(xué)生在體質(zhì)測試中往往能取得更高的成績,說明有氧能力的提升為其他身體素質(zhì)的改善奠定了基礎(chǔ)[24]。第二,除了有氧能力外,上下肢力量和爆發(fā)力素質(zhì)對于青少年的體質(zhì)健康也十分重要,男生和女生的體質(zhì)影響因素各有其特點。13~18歲男生的引體向上、50 m跑以及立定跳遠(yuǎn)指標(biāo)影響作用僅次于1 000 m跑,說明13~18歲男生除有氧能力外,也需要提升上下肢力量和爆發(fā)力素質(zhì)。而女生影響因素則為50 m 跑和立定跳遠(yuǎn)指標(biāo),更側(cè)重于下肢的力量和爆發(fā)力素質(zhì)。第三,在今后體育教學(xué)中,應(yīng)加強13~18 歲青少年有氧能力的訓(xùn)練,通過耐久跑、循環(huán)訓(xùn)練等途徑提升青少年的有氧能力,為提升身體素質(zhì)和改善身體形態(tài)打下良好的基礎(chǔ)。在力量訓(xùn)練方面,應(yīng)結(jié)合男、女生的體質(zhì)特點,加強男生上下肢爆發(fā)力素質(zhì)的訓(xùn)練,而女生則側(cè)重于下肢力量和爆發(fā)力素質(zhì)。通過結(jié)合13~18 歲青少年體質(zhì)特點,在日常教學(xué)中有所側(cè)重地進(jìn)行練習(xí),促進(jìn)青少年健康全面發(fā)展。