樹形模型在青少年體質(zhì)測試數(shù)據(jù)分析中的應(yīng)用研究

2022-08-15 08:22:40秦國陽李生啟

六盤水師范學(xué)院學(xué)報 2022年3期

秦國陽李生啟秦勇

（1 山東師范大學(xué)體育學(xué)院，山東濟南 250358；2 南開大學(xué)計算機學(xué)院，天津 300071；3 濟南市歷下區(qū)教育局，山東濟南 250013）

青少年體質(zhì)健康問題一直是我國教育、體育和衛(wèi)生機構(gòu)長期工作的重點。近幾年，由于學(xué)習(xí)壓力的增加和高脂高熱量食品的攝入，青少年肥胖比例飆升。以往的研究大多采用傳統(tǒng)的均值比較［1-2］、線性模型［3-4］等統(tǒng)計方法，研究思路和立意缺乏新的視角。近兩年，決策樹、隨機森林等樹形模型逐漸應(yīng)用于體質(zhì)健康的研究中，相較于均值比較、線性模型等研究思路，樹形模型不僅可以有效甄別體質(zhì)健康的影響因素，還可以根據(jù)變量的類型對文本進(jìn)行最優(yōu)分割［5］，并通過樹形圖可視化分析多個變量間的交互關(guān)系［6-7］。但對于決策樹、隨機森林和優(yōu)化的分布式梯度增強庫（XGBoost）三種樹形模型在體質(zhì)健康數(shù)據(jù)中的預(yù)測效果以及青少年體質(zhì)健康影響因素缺乏相關(guān)研究。本文通過檢驗決策樹、隨機森林和XGBoost 三種樹形模型在青少年體質(zhì)數(shù)據(jù)中的準(zhǔn)確度、F1 值等指標(biāo)，判斷三種樹形模型在體質(zhì)健康數(shù)據(jù)中的預(yù)測效果。并選取預(yù)測效果最好的算法對13～18歲青少年體質(zhì)健康影響因素進(jìn)行分析，為相關(guān)研究提供參考。

1 研究對象與方法

1.1 研究對象

本文以樹形模型在青少年體質(zhì)測試數(shù)據(jù)分析中的應(yīng)用為研究對象。從2021 年濟南市參加學(xué)生體質(zhì)健康狀況監(jiān)測的13～18 歲青少年中，采用分層整群隨機抽樣的方法選取到數(shù)據(jù)樣本：初中學(xué)生19 803名，高中學(xué)生20 003名，共計39 806名學(xué)生。數(shù)據(jù)樣本基本信息如表1所示。

表1 數(shù)據(jù)樣本基本信息

1.2 樹形模型算法相關(guān)概念及生成

1.2.1 決策樹

決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上，通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率，評價項目風(fēng)險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干，故稱決策樹。決策樹的構(gòu)造一般較為簡單，且便于理解，通過特征選擇、構(gòu)造決策樹以及決策樹裁剪來防止決策樹出現(xiàn)過分?jǐn)M合的現(xiàn)象［8］。

（1）特征選擇：是指決策樹的每一次分支都需要選擇一個較好的特征進(jìn)行分支，不同類型的決策樹其選擇特征也不同［9］，如選擇特征的方式有信息增益（ID3）、信息增益比（C4.5）、Gini 指數(shù)（CART）等，其中CART最為常用。

（2）決策樹的生成：決策樹的生成過程是從上至下生成子節(jié)點，每次按照ID3或者CART等加分準(zhǔn)則進(jìn)行劃分，決策樹不斷生長直到數(shù)據(jù)集不可分。

（3）決策樹的裁剪：裁剪是指決策樹的前、后剪枝，其主要目的是防止出現(xiàn)過度擬合的出現(xiàn)，通過剪枝來減少決策樹結(jié)構(gòu)的規(guī)模，以避免過分?jǐn)M合［10］。

1.2.2 隨機森林

隨機集成森林（Random Forest，RF）是通過使用結(jié)合了套袋（Bagging）并行式隨機集成的計算方法而用來將決策樹節(jié)點進(jìn)行隨機集成，并且可以在一次訓(xùn)練的集成過程中對決策樹節(jié)點進(jìn)行基本特征隨機選取的一種算法［11］。RF 模型具有簡單、易于虛擬實現(xiàn)并且同時可以直接計算時間費用和實際操作性強的優(yōu)點，不僅可以廣泛應(yīng)用于分類問題，也可以廣泛應(yīng)用于多個回歸任務(wù)［12-13］。

1.2.3 優(yōu)化的分布式梯度增強庫（XGBoost）

XGBoost 是Boost（提升）算法家族中的一員，Boost根本思路在于采用多個簡單的弱分類器，組建更高準(zhǔn)確率的強分類器［14］。簡而言之，Boost（提升）就是指每一步都產(chǎn)生一個弱預(yù)測模型，然后加權(quán)累加到總模型中，可以用于回歸和分類問題［15］。如果每一步的弱預(yù)測模型生成都是依據(jù)損失函數(shù)的梯度方向，則稱之為梯度提升（Gradient boosting），這樣若干步以后就可以達(dá)到逼近損失函數(shù)局部最小值的目標(biāo)［16-17］。

1.3 數(shù)據(jù)處理分析過程

順序編碼（Ordinal Encoder）：Ordinal Encoder是一個類（class），功能是將分類特征編碼為整數(shù)數(shù)組。它的輸入應(yīng)該是整數(shù)或字符串的類數(shù)組，也可以理解為矩陣，每一列表示一個特征，每一個特征中的數(shù)字或者是字符串表示一類特征，也就是分類（離散）特征所接受的值。特征按順序轉(zhuǎn)換為有序整數(shù)。結(jié)果就是每個特征對應(yīng)一個整數(shù)列，取值范圍0到n_categories–1。

1.3.1 數(shù)據(jù)歸一化

數(shù)據(jù)的歸一化是將數(shù)據(jù)按比例縮放，也就是統(tǒng)一量綱，在保存數(shù)據(jù)信息特點的前提下，將不同量綱的數(shù)據(jù)映射到統(tǒng)一量綱下［18］。在某些比較和評價的指標(biāo)處理中經(jīng)常會用到，其中最典型的就是Max 歸一化，指將數(shù)據(jù)統(tǒng)一映射到［0，1］區(qū)間上，一般情況下有的分類算法不需要數(shù)據(jù)歸一化，如決策樹等，而有的必須歸一化，如支持向量機（Support Vector Machine，SVM）和邏輯回歸等。數(shù)據(jù)歸一化方法是聚類前對數(shù)據(jù)常做的一種處理方法［19］。歸一化研究包括Min-Max 歸一化，0 均值歸一化，概率分布函數(shù)歸一化，log 函數(shù)轉(zhuǎn)化歸一化等多種歸一化方法，其中最常用的歸一化方法為Min-Max歸一化和0均值歸一化。本研究采用0 均值歸一化對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化。歸一化公式為：

1.3.2 數(shù)據(jù)預(yù)處理

體質(zhì)測試數(shù)據(jù)分為男生和女生，由于原始數(shù)據(jù)存在缺失值、數(shù)據(jù)格式、離散型數(shù)據(jù)等問題，因此無法直接進(jìn)入模型，需要針對各個問題進(jìn)行處理得到最終的數(shù)據(jù)才可以進(jìn)入模型分類對比研究，對數(shù)據(jù)處理進(jìn)行的操作如下：

（1）首先對數(shù)據(jù)進(jìn)行缺失值處理，將缺失值超過30%的列進(jìn)行刪除；其次對于其他的缺失值，本研究采用中位數(shù)填充。

（2）對不符合規(guī)范和要求的數(shù)據(jù)格式問題進(jìn)行處理。

（3）對離散型數(shù)據(jù)進(jìn)行編碼處理，由于模型只接受數(shù)字型數(shù)據(jù)，所以對數(shù)據(jù)進(jìn)行Ordinal Encod?er 編碼處理，將離散型數(shù)據(jù)保存規(guī)律映射到數(shù)字?jǐn)?shù)據(jù)。

通過數(shù)據(jù)預(yù)處理，數(shù)據(jù)已經(jīng)成為可以進(jìn)入模型的數(shù)據(jù)，方便進(jìn)行后續(xù)的模型對比研究和體質(zhì)影響因素研究。

2 研究結(jié)果

2.1 樹形模型預(yù)測效果的評估指標(biāo)

對分類實驗?zāi)Ｐ蛿?shù)據(jù)進(jìn)行實驗評估，根據(jù)實驗分類和深度學(xué)習(xí)所進(jìn)行預(yù)測的結(jié)果分類，把每個實驗數(shù)據(jù)中的每個數(shù)據(jù)集按照分類組合后的順序進(jìn)行劃分，并形成四個主要的部分：真陽性（True Positive）、假陽性（False Positive）、真陰性（True Negative）、假陰性（False Negative）。

（1）分類評判標(biāo)準(zhǔn)：因為分類背景需要用準(zhǔn)確率（accuracy）作為標(biāo)準(zhǔn)，而F1 值是綜合了準(zhǔn)確率和召回率的綜合指標(biāo)，所以本文主要用accuracy和F1值作為分類評價標(biāo)準(zhǔn)［20-21］。

（2）準(zhǔn)確率：計算預(yù)測出來的某類樣本中，有多少是被正確預(yù)測的（針對預(yù)測樣本而言），公式如下：

（3）召回率：針對原先實際的召回樣本而言，有多少個召回樣本被正確地通過預(yù)測并分析（針對實際的召回樣本而言），公式如下：

F1 值：分類問題由于需要綜合考慮準(zhǔn)確率、召回率等因素，因為準(zhǔn)確率對于樣本有偏時，并不能很好地反應(yīng)模型的效果，并且準(zhǔn)確率和召回率這兩個指標(biāo)在很多時候還是矛盾的，所以需要一個綜合的指標(biāo)來整體衡量模型的效果，因此選用了綜合準(zhǔn)確率和召回率這兩個綜合比的指標(biāo)F1，公式如下：

P（Precision）為準(zhǔn)確率；R（Recall）為召回率。

2.2 基于樹形模型的13～18 歲男、女生體質(zhì)數(shù)據(jù)預(yù)測效果對比

2.2.1 基于樹形模型的13～18 歲男生體質(zhì)預(yù)測效果對比研究

首先對13～18 歲男生的體質(zhì)數(shù)據(jù)進(jìn)行決策樹、隨機森林以及XGBoost的分類對比研究，通過上述三種選取的分類算法，通過accuracy、preci?sion、recall、f1 等分類評價指標(biāo)進(jìn)行分類評價，選取分類表現(xiàn)效果最好的分類算法。根據(jù)上述的各分類算法對本文對應(yīng)的數(shù)據(jù)集進(jìn)行分類對比，即通過分類指標(biāo)對比模型的預(yù)測效果，模型對應(yīng)的分類指標(biāo)如表2所示。

表2 13～18歲男生體質(zhì)預(yù)測效果指標(biāo)對比

從表2的決策樹、隨機森林以及XGBoost三種樹形模型的各分類評價指標(biāo)對比，可以得到各個指標(biāo)的分類效果排序（從好到差）為XGBoost>隨機森林>決策樹。其中隨機森林比決策樹的accu?racy高2.02%，F(xiàn)1高1.41%；而XGBoost比決策樹的accuracy 高5.75%，F(xiàn)1 高5.45%。說明隨機森林比決策樹的分類效果略高，但是XGBoost 的分類效果優(yōu)于隨機森林，因此，效果最好的分類算法是XGBoost，其各分類指標(biāo)為accuracy：0.924 8、preci?sion：0.687 4、recall：0.729 2、F1：0.706 6。所以后續(xù)對于男生的體質(zhì)測試成績相關(guān)因素重要度研究選用XGBoost模型。

2.2.2 基于樹形模型的13-18 歲女生體質(zhì)預(yù)測效果對比研究

對13～18 歲女生體質(zhì)測試數(shù)據(jù)進(jìn)行決策樹、隨機森林以及XGBoost 的分類對比研究，通過上述三種選取的分類算法，通過accuracy、precision、recall、f1等分類評價指標(biāo)進(jìn)行分類評價，從而確定分類表現(xiàn)效果最好的分類算法。對上述的各分類算法對本文對應(yīng)的數(shù)據(jù)集進(jìn)行分類對比，模型對應(yīng)的分類指標(biāo)對比如表3所示。

表3 13～18歲女生體質(zhì)預(yù)測效果指標(biāo)對比

從表3的決策樹、隨機森林以及XGBoost的各分類評價指標(biāo)對比分析，得到整體指標(biāo)的分類效果（以綜合評價指標(biāo)F1 為準(zhǔn)）排序（從好到差）為XGBoost>決策樹>隨機森林。其中隨機森林比決策樹的accuracy高2.25%，F(xiàn)1低5.47%；而XGBoost比決策樹的accuracy 高6.41%，F(xiàn)1 高16.84%。說明在女生體質(zhì)數(shù)據(jù)的預(yù)測效果對比中，決策樹比隨機森林的分類效果略好，而XGBoost 的分類效果要遠(yuǎn)高于決策樹。因此，在13～18 歲女生體質(zhì)測試數(shù)據(jù)預(yù)測中，效果最好的分類算法是XG?Boost，各分類指標(biāo)分別為accuracy：0.928 3、preci?sion：0.838 9、recall：0.945 6、F1：0.882 0。因此，后續(xù)對于女生的體質(zhì)測試數(shù)據(jù)的分析也都選用XG?Boost模型。

2.3 基于XGBoost 模型的13～18 歲男、女生體質(zhì)影響因素分析

2.3.1 基于XGBoost模型的13～18歲男生體質(zhì)影響因素分析

因為模型的效果越好，得到的特征重要度越準(zhǔn)也越可靠。通過上述得到的效果最好的XG?Boost模型進(jìn)行體質(zhì)影響因素的分析研究，并通過XGBoost模型自帶特征重要度的特點，得到特征重要度如圖1所示。

圖1 基于XGBoost模型的13～18歲男生體質(zhì)影響因素重要度

因此，在日常訓(xùn)練和教學(xué)中，應(yīng)重視男生的有氧能力以及上下肢力量的訓(xùn)練。

2.3.2 13～18 歲男生體質(zhì)數(shù)據(jù)單棵決策樹擬合可視化分析

對13～18歲男生體質(zhì)數(shù)據(jù)進(jìn)行單棵決策樹擬合可視化分析，單棵決策樹擬合的可視化如圖2所示。

圖2 基于13～18歲男生體質(zhì)數(shù)據(jù)的決策樹擬合可視化

從圖2 通過單棵決策樹擬合可視化可以發(fā)現(xiàn)，決策樹深度沒有過大，說明模型沒有出現(xiàn)過度擬合的問題。男生決策樹的根節(jié)點是1 000 m跑，說明該項目對男生體測成績影響效果最為顯著。當(dāng)男生1 000 m 跑成績保持在4.5 min 內(nèi)時，體質(zhì)測試的達(dá)標(biāo)率會得到顯著提升。男生決策樹的第2 層節(jié)點包括引體向上和50 m 跑，這表明當(dāng)男生引體向上次數(shù)大于4.5 次且1 000 m 跑成績在3.5 min內(nèi)時，男生的良好率就會得到明顯提升。與此相反的是，如果男生的50 m 跑大于8.5 s，并且1 000 m跑成績也高于5.5min時，其不及格率就會快速飆升。這也反映出男生上、下肢爆發(fā)力對體測成績的影響僅次于有氧能力。以體質(zhì)測試數(shù)據(jù)為基礎(chǔ)，進(jìn)行決策樹的可視化分析，不僅可以分析體質(zhì)健康的影響因素，還可以幫助青少年根據(jù)自己的體質(zhì)測試成績進(jìn)行精準(zhǔn)反饋，指導(dǎo)學(xué)生根據(jù)自己的各項成績發(fā)現(xiàn)并彌補短板。

2.3.3 基于XGBoost模型的13-18歲女生體質(zhì)影響因素分析

用上述預(yù)測效果最好的XGBoost模型，對13～18 歲女生體質(zhì)影響因素進(jìn)行分析研究，通過XG?Boost 模型自帶特征重要度的特點，得到如圖3 所示的特征重要度。

圖3 基于XGBoost模型的13-18歲女生體質(zhì)影響因素重要度

這些體質(zhì)檢測影響因素可以幫助指導(dǎo)青少年進(jìn)行針對性的體質(zhì)改善，如在日常體育教學(xué)中增加耐久跑和下肢爆發(fā)力的訓(xùn)練安排。

2.3.4 13～18 歲女生體質(zhì)數(shù)據(jù)單棵決策樹擬合可視化分析

對13～18歲女生體質(zhì)數(shù)據(jù)進(jìn)行決策樹模型的可視化，如圖4所示。

圖4 基于13～18歲女生體質(zhì)數(shù)據(jù)的單棵決策樹擬合可視化

3 討論

本研究以13～18歲青少年體質(zhì)測試數(shù)據(jù)為基礎(chǔ)，采用決策樹、隨機森林和XGBoost三種樹形模型對數(shù)據(jù)進(jìn)行分析。首先，通過對比accuracy、precision、recall、F1 等分類評價指標(biāo)進(jìn)行分類評價，在13～18歲男生體質(zhì)健康數(shù)據(jù)中，表現(xiàn)效果由好到差依次為：XGBoost>隨機森林>決策樹，而在女生體質(zhì)健康數(shù)據(jù)中，效果排序為XGBoost>決策樹>隨機森林。通過對比發(fā)現(xiàn)，XGBoost是經(jīng)過優(yōu)化的分布式梯度提升庫，運算效率和靈活性都有較大的提升。因此，XGBoost在三種樹形模型中分類表現(xiàn)效果最好，準(zhǔn)確率和F1值均優(yōu)于其他預(yù)測模型，展示了較高的優(yōu)越性和科學(xué)性。其次，目前XGBoost算法在體育領(lǐng)域的數(shù)據(jù)處理中，基本沒有相關(guān)的研究或探索，XGBoost 得益于高效率、高精度和高靈活性等優(yōu)點，可以準(zhǔn)確、科學(xué)地得出青少年體質(zhì)的影響因素，在今后研究中可以結(jié)合XG?Boost 對青少年體育教學(xué)和體質(zhì)健康等領(lǐng)域熱點問題進(jìn)行深入分析。在體育產(chǎn)業(yè)、體育管理等領(lǐng)域的數(shù)據(jù)處理中，XGBoost也具有較高的應(yīng)用潛力和研究價值。再次，通過決策樹對青少年體質(zhì)健康狀況進(jìn)行可視化輸出，通過結(jié)構(gòu)簡潔的圖表反饋，分析青少年各項指標(biāo)的關(guān)系，為體育教學(xué)設(shè)計和質(zhì)量提高提供實證依據(jù)，為相關(guān)教育、衛(wèi)生以及體育管理部門科學(xué)決策提供參考。

通過XGBoost和決策樹可視化分析的結(jié)果表明：第一，1000m 跑和800 m 跑對于13～18 歲青少年的體質(zhì)測試成績影響作用最大，說明提升有氧素質(zhì)對于青少年的體質(zhì)健康水平的改善至關(guān)重要。13～18 歲年齡段青少年面臨的學(xué)習(xí)壓力隨著年級的增長而不斷增大，久坐行為和高熱量食物的攝入導(dǎo)致青少年肥胖率的飆升［22-23］。但是較好的有氧能力不僅可以幫助13～18歲青少年保持良好的身體形態(tài)，而且根據(jù)XGBoost分析結(jié)果，有氧能力好的學(xué)生在體質(zhì)測試中往往能取得更高的成績，說明有氧能力的提升為其他身體素質(zhì)的改善奠定了基礎(chǔ)［24］。第二，除了有氧能力外，上下肢力量和爆發(fā)力素質(zhì)對于青少年的體質(zhì)健康也十分重要，男生和女生的體質(zhì)影響因素各有其特點。13～18歲男生的引體向上、50 m跑以及立定跳遠(yuǎn)指標(biāo)影響作用僅次于1 000 m跑，說明13～18歲男生除有氧能力外，也需要提升上下肢力量和爆發(fā)力素質(zhì)。而女生影響因素則為50 m 跑和立定跳遠(yuǎn)指標(biāo)，更側(cè)重于下肢的力量和爆發(fā)力素質(zhì)。第三，在今后體育教學(xué)中，應(yīng)加強13～18 歲青少年有氧能力的訓(xùn)練，通過耐久跑、循環(huán)訓(xùn)練等途徑提升青少年的有氧能力，為提升身體素質(zhì)和改善身體形態(tài)打下良好的基礎(chǔ)。在力量訓(xùn)練方面，應(yīng)結(jié)合男、女生的體質(zhì)特點，加強男生上下肢爆發(fā)力素質(zhì)的訓(xùn)練，而女生則側(cè)重于下肢力量和爆發(fā)力素質(zhì)。通過結(jié)合13～18 歲青少年體質(zhì)特點，在日常教學(xué)中有所側(cè)重地進(jìn)行練習(xí)，促進(jìn)青少年健康全面發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡