王玉國 宋忠田
摘要:針對當前大學公共體育教學質量評價中缺乏科學、有效的評價手段,導致教學效率低下,教學內容枯燥的問題,需要對教育教學質量評價指標進行數據挖掘和分析,提升體育教學課程管理質量和效率?;跊Q策樹技術進行數據的分類,提取體育課程中的數據特征和關系,結合ID3算法,通過信息增益檢驗決策樹各級節(jié)點上數據的特征屬性,建立樹形分支,由各分支實例子集遞歸方式來建立決策樹下一級節(jié)點和分支,指導該子集實例被劃分為某一個類別,尋找影響大學體育課堂教學質量因素。教學內容在教學質量評價中占主導地位,直接影響教學質量的評價結果,采用決策樹能為體育教學課程管理提供有價值的數據支持,有效提高體育教學課程管理質量和效率。
關鍵詞:體育教學;決策樹算法;數據挖掘
中圖分類號:G641
文獻標志碼:A
AnalysisonPublicPhysicalEducationTeachingandEvaluationof
CollegeStudentsunderDecisionTreeAlgorithm
WANGYuguo,SONGZhongtian
(DepartmentofPhysicalEducationandSports,AksuVocationalandTechnicalCollege,Aksu843000,China)
Abstract:Inviewofthelackofscientificandeffectivemeansintheevaluationofpublicphysicaleducationteachingqualityincollegesanduniversities,theteachingefficiencyislowandtheteachingcontentisboring.Throughthedataminingandanalysisoftheevaluationindexofeducationandteachingquality,thedataclassificationbasedondecisiontreetechnologyiscarriedout,andthedatafeaturesandrelationsinphysicaleducationcurriculumareextracted.CombinedwithID3algorithm,thecharacteristicattributesofdataonalllevelsofthedecisiontreearetestedbyinformationgain,branchesareestablished,andthelowerlevelnodesandbranchesofthedecisiontreeareestablishedbytherecurrencemodeofeachbranchinstancesubset.Thesecanguidetodividetheinstanceofthesubsetintoacertaincategoryinordertofindtheinfluenceonthephysicaleducationcourseoftheuniversity.Theexampleshowsthatthedecisiontreecanprovidevaluabledatasupportforphysicaleducationcurriculummanagementandeffectivelyimprovethequalityandefficiencyofphysicaleducationteachingcurriculummanagement.
Keywords:physicaleducation;decisiontreealgorithm;datamining
0引言
高校公共體育實踐教學是學習體育知識和掌握技能的有效方式,能有效增強學生體質,提高學生身體素質。隨著高校教育體質改革的實施,公共體育教學觀念、教學內容和手段都在不斷發(fā)生改變[12]。因此,對高校體育課堂教學進行評價,了解影響體育課堂教學質量影響因素,從而有針對性的進行教學改良,提升課堂教學水平,具有重要意義。數據挖掘作為當前熱門的研究領域,通過在大量數據中來提取未知的、潛在的、有應用價值的信息,來為個行業(yè)的發(fā)展和決策提供重要的參考依據[3]。決策樹算法作為數據挖掘中的一個重要技術手段,融合了機器學習、數據統(tǒng)計、智能數據庫、神經網絡等技術,通過算法對相關影響因素的潛在數據進行進行挖掘,為教育管理和決策提供現代教學評價數據庫理想模型[46]。如通過考慮各影響體育教學的因素來構建決策樹,實現對影響指標的綜合評價,并有針對性性的給出提升教學質量的解決方案[7];如基于ID3決策樹的商務英語實踐成效評價,進行考試成績的管理和分析,由此針對性的提出課程內容改進和教學內容評估等,有效推進教學質量評價管理,提升教學質量[8]。基于此,本文通過將決策樹引入大學公共體育教學評價中,對教學質量評價指標進行有效挖掘,發(fā)現其中的不合理性并進行改進,實現教學質量和管理水平的提升。
1決策樹技術基本原理
1.1數據挖掘
數據挖掘是從海量數據中提取或挖掘識別有效的、新穎的、潛在的信息和知識的過程。它利用數據庫關系系統(tǒng)查詢、檢索功能,結合統(tǒng)計分析處理,得出可供決策參考的統(tǒng)計分析數據[7]。決策樹技術作為數據挖掘方法中一種常見的信息論方法,通過對數據進行分類,以達到預測的目的。
決策樹是一棵有向、無環(huán)樹,決策樹由決策節(jié)點、分支和葉子組成[9]。樹上的每一個內部節(jié)點均表示一個測試點,樹的分支對應一個測試輸出,樹葉節(jié)點則為一個代表類分布。在通過決策樹進行數據分類過程中,首先需要對獲得的數據訓練集進行分析測試,根據獲得的數據類別建立待解決問題的數據分類模型,然后根據建立的決策樹對未知數據分類。作為一類貪心算法,決策樹數據挖掘是一種自頂向下的遞歸算法,有決策樹的根節(jié)點開始,根據獲得的樣本數量對集中屬性逐一測試,并通過屬性類別對數據訓練集分類,獲得若干字訓練集,其中每個子訓練集作為一個非葉節(jié)點,進行遞歸循環(huán)執(zhí)行,直到滿足設定條件后,形成樹的葉子節(jié)點,終止計算[10]。在建立決策樹的過程中,由于數據集中存在噪聲的干擾[11],因此,形成的分枝反映出訓練集中存在的異常情況,容易造成數據的擬合過度問題,因此就需要對構建的決策樹進行修剪,去掉存在的異常分支,保證分類結果的準確性。
對于決策樹每個節(jié)點,每個決策節(jié)點表征一個問題或決策,對應待分類對象屬性,每一個葉子代表可能存在的分類結果。沿決策樹由上而下遍歷,通過對每個結點進行測試,將各節(jié)點上的測試輸出結果構成不同分支,最后由某一途徑傳輸到一個葉子節(jié)點。在這個過程中可利用若干變量來判定所屬類別。目前用于決策樹技術的算法主要為ID3算法以及C4.5算法[12]。由于C4.5算法在缺省狀態(tài)下存在缺陷,因此本文選擇采用ID3算法進行數據的分類和預測。
1.2ID3算法流程
ID3算法作為決策樹算法中最典型的算法,通過信息增益檢驗決策樹各級節(jié)點上數據的特征屬性,選擇信息增益最大屬性作為樣本劃分測試屬性,根據屬性不同值建立分支,由各分支實例子集遞歸方式來建立決策樹下一級節(jié)點和分支,指導該子集實例被劃分為某一個類別。
在ID3算法中,
設S為訓練集,s為樣本數,假設類Ci(i=1,2,…,m)存在m個不同值,其中類Ci的樣本數為si。對于一個給定樣本分類所要求的期望信息為:
I(s1,s2,…,sm)=-(p1log2(p1)+(p2log2(p2)+
…+(pmlog2(pm))
上式中:pi=si/s為樣本屬于Ci的概率。
設屬性A中存在v個不同值{a1,a2,…,av},對S訓練集,利用屬性A將其劃分為v個子集
{S1,S2,…,Sv},其中Sj的樣本在A中存在相同值aj。若選擇A作為測試屬性,則分類子集包括S節(jié)點中形成的多個分枝。設sij為Sj中類Ci樣本數。將A劃分的子集期望信息熵為:
E(A)=∑vi=1sij+…+smjSI(sij,…,smj)
其中sij+…+smjS作為第j個權值,則獲得A屬性上分支的編碼信息為:
Gain(A)=I(s1,s2,…sm)-E(A)
算法中選擇最高信息增益的屬性給定S測試屬性,根據測試屬性創(chuàng)建節(jié)點并進行屬性標記,并由屬性只構建分枝進行樣本劃分[13]。
1.3樹的修剪
在決策樹創(chuàng)建過程中,由于訓練集中噪聲的存在,在訓練數據中存在異?,F象的分支,為生成一棵易于理解的決策樹,就需要對包好噪聲分支的決策樹進行修剪,解決一些分支過分適應的問題[14]。目前比較常見的剪枝方式主要分為先剪枝和后剪制技術[15]。先剪枝方式是在建立決策樹過程中,對于存在異常的分支,直接停止建立子節(jié)點,從而不形成異常分支。后剪枝方式則是在建立決策樹后,根據建樹條件,去掉其中存在的部分異常分支,并利用葉節(jié)點重新建立新的決策樹。
本文中根據體育教學評價數據分類特性,采用基于最小錯誤原則的后剪枝法,即在完全生成決策樹后,將多余部分的分支剪掉,并利用葉節(jié)點獲得新的決策樹[16]。因此,通過建立決策樹對任意實例進行判定,挖掘過程如圖1所示。
通過決策樹算法對信息增益特征屬性進行檢驗,獲得增益最大值形成決策樹節(jié)點,保證決策樹結點最小的前提下具備最高的例子識別準確率。根據特征取值不同構建分支,對分支實例子集進行遞歸處理,建立決策樹結點和分支,直到某一子集中的所有例子均為相同子集。
2決策樹算法應用
2.1數據采集
以某體育大學在校師生為對象,分別在學期末進行問卷調查,針對影響體育教學質量因素分析。體育教學評價是解釋體育教學的價值,因此,選定的評價指標應力求反映體育課堂教學狀態(tài)和效果。由于教學質量是教學過程的中心環(huán)節(jié),因此以課堂教學為例,進行決策樹分析,將教學質量評價指標按照教學內容、教學手段、教學效果和教學態(tài)度等分為五個項目。假設K1:教學態(tài)度;K2:教學內容;K3:教學方式;K4:教學效果;K5:教學結果五個訓練樣本數據,組織體育學院6位一線體育教師和4位碩士導師共10人進行任課教學效果評價。將評價等級分為5級,分別為:A:優(yōu)秀(90100);B:良好(8090);C:中等(7080);D:合格(6070);E:不合格(<60);獲得10個教師的教學質量評價如表1所示。
通過表1所示的評價結果,利用ID3算法構成決策樹,部分程序代碼如下:
Print(‘Starttrainning)
Tree=train(train_features,train_labels,list(range(feature_len)))
Time_3=time.time()
Print(‘trainingcost%fsecond%(time_3—time_2))
Print(‘Startpredicting)
Tets_predict=predicting(test_features,tree)time_4=time.time()
Print(‘predictingcost%fsecond%(time_4—time_3))
根據表1中獲得的教師教學質量評價結果和建立的決策樹,確定樣本期望信息熵為:
I(S)=-110log2110-
610log2610-
310log2310=1.25775996
對于教學態(tài)度K1,存在有Values(K1)=(A,B,C),SA={6,8},SA=2,
SB={1,2,3,5,9,10},SB=6,SC={4,7},SC=2,計算獲得教學態(tài)度K1
條件期望信息為:
E(SA)=-12log212-
12log212=1.0;
E(SB)=-16log216-
56log256=0.64336;
E(Sc)=-12log212-
12log212=1.0,可得到:
E(K1)=210E(SA)+610E(SB)+210E(SC)=0.757845
確定K1信息增熵為:Gain(K1)=I(S)-E(K1)=0.5034435同理可得到其他屬性的信息熵分別為:
Gain(K2)=I(S)-E(K2)=0.6067457;Gain(K3)=0.4765867;
Gain(K4)=0.4315636。
比較樣本的信息熵有:Gain(K2)>Gain(K1)>Gain(K3)>Gain(K4)??梢钥闯觯瑯颖局薪虒W內容K2屬性信息增益具有做大值,因此選擇教學內容K2作為根節(jié)點測試屬性,在每個值根節(jié)點創(chuàng)建分支,并基于ID3從根節(jié)點進行進一步細分。若根節(jié)點到當前節(jié)點路徑包含了所有樣本的全部屬性,或屬于同一訓練樣本層,則算法完成,根據教學內容K2測試屬性建立的決策樹形圖,如圖2所示。
2.2決策結果
根據建立的決策樹可以看出,從決策樹根部到葉的每一個路徑對應一組屬性測試的合取,整個決策樹表示合取的析取。從決策樹中提取表征描述決策樹的知識,并采用ifthen語句作為分類規(guī)則,其中每一條根節(jié)點至葉節(jié)點的路徑均對應著一個唯一的決策規(guī)則,根據建立的決策樹型,獲得決策樹結果的部分代碼,如圖3所示。
確定知識的表述形式為:
if(K2=A),thenK5=優(yōu)秀;
if(K2=B),thenK5=良好;
if(K2=C∧K1=C),thenK5=中等;
if(K2=C∧K1=B∧K3=B),thenK5=良好;
if(K2=C∧K1=B∧K3=C),thenK5=中等;
根據分析可知,教學內容K2在教師教學中占主導地位,若教學內容為優(yōu)秀時,獲得的教學質量評價為優(yōu)秀,若教學內容為良好時,則教學質量評價結果為良好因此對教學質量的評價中,教學內容作為主要的考慮因素,同時兼顧教學方式、教學態(tài)度等其他樣本。當教學內容為中等,而教學態(tài)度為中等時,獲得的教學質量評價結果為中等;當教學內容為中等,而教學態(tài)度良好,教學方式為良好或中等時,得到的教學質量評價結果為中等。
3總結
大學公共體育教學質量評價是提升課堂教學質量的有效方式。決策樹技術應用于教學質量的評價,通過對調查數據的挖掘分析,進行數據的分類,提取體育課程中的數據特征和關系,并結合ID3算法,通過信息增益檢驗決策樹各級節(jié)點上數據的特征屬性,選擇信息增益最大屬性作為樣本劃分測試屬性,根據屬性不同值建立分支,由各分支實例子集遞歸方式來建立決策樹下一級節(jié)點和分支,指導該子集實例被劃分為某一個類別,尋找影響大學體育課堂教學質量因素,為體育教學課程管理提供有價值的數據支持,提高體育教學課程管理質量和效率。
參考文獻
[1]武善鋒,陸霞.基于決策樹算法的體育課程分析與管理系統(tǒng)設計[J].現代電子技術,2019,42(3):131133.
[2]郭鵬,蔡騁.基于聚類和關聯算法的學生成績挖掘與分析[J].計算機工程與應用,2019,55(17):169179.
[3]張樹滑.基于ID3算法的大學生成績數據挖掘與體能分析系統(tǒng)設計[J].現代電子技術,2019,42(5):104106.
[4]林秀科,沈良忠.基于決策樹的學生成績對畢業(yè)影響分析[J].電腦知識與技術,2017,13(35):1516.
[5]張馨嬌.基于數據挖掘技術的學生體育成績管理系統(tǒng)的設計[J].自動化與儀器儀表,2017(10):223224.
[6]吳剡青,韓佳宏,金淵濤,等.基于大數據挖掘的警校大學生公務員成功考取預測模型研究——以中央司法警官學院為例[J].電腦知識與技術,2017,13(12):194195.
[7]吳元慶.基于數據挖掘的體育教學信息系統(tǒng)的研究與設計[J].自動化與儀器儀表,2017(3):7778.
[8]孫莉.基于C4.5算法的大學陽光體育系統(tǒng)設計與實現[J].自動化技術與應用,2019,38(7):2832.
[9]祝莉妮.基于數據挖掘的體育成績管理與體能分析研究[J].數字技術與應用,2017(3):83.
[10]戴紅,王忠,宋大維,等.大數據視角下的高校體育教學研究[J].中國學校體育(高等教育),2016,3(7):3539.
[11]吳元慶.基于數據挖掘的體育教學信息系統(tǒng)的研究與設計[J].自動化與儀器儀表,2017(3):7778.
[12]李壽邦.基于分類規(guī)則的大學生體質測試數據挖掘的應用研究——以西安石油大學三年級學生為例[J].西安石油大學學報(自然科學版),2018,33(5):120126.
[13]羅嗣卿,王佳玉,李冰珂.改進的組合優(yōu)化決策樹謠言判別方法研究[J].計算機仿真,2018,35(2):219223.
[14]夏莉莉,趙華碩,徐渭,等.決策樹和回歸技術在超重危險因素分析中的應用[J].現代預防醫(yī)學,2018,45(9):15491552.
[15]王杰.基于資源庫的運動技戰(zhàn)術訓學研平臺構建[J].上海體育學院學報,2018,42(3):7478.
[16]方歡,方賢文,郭娟,等.案例驅動下的分類與預測課程教學方法研究[J].長春師范大學學報,2018,37(8):6772.
(收稿日期:2020.01.24)