張瑞全
(滁州城市職業(yè)學院 體育部,安徽 滁州 239000)
在高校教學管理領域,學習成績以及課堂表現(xiàn)是學習效果分析的主要依據(jù),進而完成學生在體育課、專業(yè)課、公共課程方面的學習能力評定,大量的學科成績?yōu)榻處熃虒W管理造成困難。伴隨信息處理技術以及大數(shù)據(jù)技術的優(yōu)化更新,教育者將學生成績管理寄希望于智能挖掘算法[1],數(shù)據(jù)挖掘逐漸成為高校學科成績管理與學習效果分析的有效工具。
數(shù)據(jù)挖掘用于高校體育的關鍵意義在于:可以考慮學生體能狀況、課堂表現(xiàn)、課后訓練等多元化評估指標以全方位、綜合性評價學生的體育學習效果,避免學習效果分析的主觀性與片面性[2]。數(shù)據(jù)挖掘相比人工數(shù)據(jù)處理的效率大幅提高,評價準確度更為精準。數(shù)據(jù)挖掘的大學生體育學習效果一方面可作為教學質(zhì)量評價的依據(jù),另一方面向教學管理人員提供優(yōu)化教學評價模式的決策依據(jù)。
為此,本文利用數(shù)據(jù)挖掘在關聯(lián)分析領域的優(yōu)勢,提出了一種基于Apriori 算法的大學生體育學習效果分析方法。
大學生體育信息數(shù)據(jù)采集具有顯著的信息化特征,和傳統(tǒng)教學中辦公軟件統(tǒng)計學生成績的方式相比,大數(shù)據(jù)技術更加注重教學傳感器、教學管理平臺等渠道數(shù)據(jù)的整合。分析大學生體育學習效果所需的數(shù)據(jù)類型主要包括學生基本信息、體育課上訓練情況、體育課后訓練情況、體育考核成績、體育賽事成績等等[3]。其中,學生基本信息涵蓋學生姓名、性別、學號、專業(yè)、興趣愛好、個性等等,這些信息在學生入學階段就登記在學校教學管理平臺,數(shù)據(jù)挖掘平臺通過特殊的數(shù)據(jù)接口即可與教學平臺共享學生基本信息,將有關數(shù)據(jù)導入數(shù)據(jù)挖掘平臺;學生課上訓練情況一般由教師當堂記錄并錄入教學管理平臺,體育競賽成績經(jīng)匯總后錄入信息化平臺;學生課后訓練情況可通過“自主體能訓練監(jiān)測系統(tǒng)”采集,分析處理后發(fā)送至教學信息管理平臺后臺數(shù)據(jù)庫,作為學生體育學習效果分析的依據(jù)。所以,此處需要介紹兩種關鍵的大數(shù)據(jù)采集技術,一是教學信息管理平臺,二是自主體能訓練監(jiān)測系統(tǒng)。
2.1.1 教學信息管理平臺
利用excel 表格匯總學生成績實現(xiàn)了數(shù)據(jù)的長期性存儲,但匯總數(shù)據(jù)、提取關鍵信息的智能化程度較低,作為教學決策的價值度和利用率不高。教學信息管理平臺集成了信息技術、大數(shù)據(jù)技術的數(shù)據(jù)處理與分析優(yōu)勢,具有強大的資源整合功能;采用C/S 與B/S 混合性結構作為平臺的整體架構,能夠處理復雜的數(shù)據(jù)業(yè)務程序,妥善解決多元化決策參與需求,滿足獨立并行業(yè)務的使用需求[4]。平臺管理員與平臺的交互則由C/S 負責,其優(yōu)勢是高效處理教務人員與平臺響應關系,平臺管理員在權限范圍內(nèi)可直接向服務器下達指令、獲取信息,無需中轉(zhuǎn),教學信息管理平臺結構布局見圖1。圖1 所示的教學信息管理平臺中,應用服務器與數(shù)據(jù)服務器可以進行交互式信息通信,應用服務器接收數(shù)據(jù)信息后將信息分為兩路傳輸:一路經(jīng)防火墻安全發(fā)送到教師、學生等各類型客戶手中;一路直接由平臺管理員接收,以方便對體育教學信息的管理,維護教學數(shù)據(jù)安全,控制用戶的訪問資格。
圖1 教學信息管理平臺結構布局
平臺數(shù)據(jù)庫是獲得學生體育成績信息、訓練信息、個人基本信息的主要來源,因此數(shù)據(jù)庫設計要符合教學數(shù)據(jù)日益增長的需求,安全存儲數(shù)據(jù)的同時確保平臺穩(wěn)定運行。利用SQL 技術設計了平臺數(shù)據(jù)庫結構,基于E-R 圖完成信息類別間的關系描述。
2.1.2 自主體能訓練監(jiān)測系統(tǒng)
本次依托安卓平臺、基于多層架構設計了學生自主體能訓練監(jiān)測系統(tǒng),其硬件設備主要包括加速度傳感器、圖像傳感器、藍牙通訊模塊、訓練信息采集模塊、信息處理模塊等等[5],基于安卓平臺的自主體能訓練監(jiān)測系統(tǒng)布局見圖2。
圖2 自主體能訓練監(jiān)測系統(tǒng)布局
圖2 所示系統(tǒng)利用加速度傳感器與圖像傳感器采集學生自主性體能訓練過程中的行為數(shù)據(jù),如肢體幅度、動作力度等;這些信息一方面通過單片機以藍牙通訊模式傳輸?shù)叫畔⑻幚砟K進行原始備份,另一方面經(jīng)過信息采集模塊的集中整合傳輸?shù)叫畔⑻幚砟K;最終由安卓平臺接收處理后的體能訓練信息以及原始體能數(shù)據(jù)。
此系統(tǒng)設計的目的是采集學生自主訓練、無教師在場訓練的相關數(shù)據(jù),作為評價學生體育學習效果的關鍵數(shù)據(jù)來源。系統(tǒng)采集訓練數(shù)據(jù)的思路如下:以羽毛球訓練活動為例,利用加速度傳感器采集學生運動中的加速度數(shù)據(jù),基于力學理論與運動學原理求取球拍運動位移、力的大小、運動速度,利用這些數(shù)據(jù)繪制學生訓練曲線,作為評估學生自主體能訓練效果分析依據(jù)[6];圖像傳感器負責采集學生訓練圖像,基于輪廓提取算法分割學生運動特征,總結自主體能訓練的要點信息。此外,系統(tǒng)配備了定位模塊可實時獲取學生訓練的地理位置信息,保障了學生自主訓練的安全性。自主體能訓練監(jiān)測系統(tǒng)一定程度上確保了無監(jiān)督學習環(huán)境下的訓練成效,是優(yōu)化學生自主運動、自主訓練意識的現(xiàn)代化教學輔助設備。
大數(shù)據(jù)預處理一般包括數(shù)據(jù)清洗、集成、變換等步驟,旨在減少數(shù)據(jù)中的冗余噪聲信息、補充缺失數(shù)據(jù)、刪除重復性數(shù)據(jù)[7]。為提高大學生體育學習效果分析的準確度、降低數(shù)據(jù)分析難度,采用統(tǒng)一格式表達學生的體育學習效果,以真實可靠的數(shù)據(jù)為基礎才能獲得更為精準的體育學習效果分析結論。
導入來源于教學信息管理平臺的異構數(shù)據(jù),有必要以規(guī)范化形式表征數(shù)據(jù)。例如,學生百米跑成績表達形式不一,此處對其進行歸一化操作,方法如公式(1)所示:
(1)式中,初始百米跑成績與歸一化后的百米跑成績分別采用xi、表示;成績上限與下限分別采用xmax、xmin描述。最后以[0.1]間的數(shù)據(jù)描述學生的體育成績,統(tǒng)一規(guī)范的數(shù)據(jù)簡化了后期的數(shù)據(jù)挖掘計算過程。
此外,需要刪除個人無效成績、班級無效成績、已轉(zhuǎn)專業(yè)學生信息、休學學生信息等等,然后基于機器學習方法補充缺失數(shù)據(jù)。此方法分為兩個步驟:第一,對統(tǒng)計得到的學生體育初始數(shù)據(jù)進行相關性分析,目的是獲得與缺失數(shù)據(jù)關聯(lián)性最大的已知值屬性數(shù)據(jù);第二,以關聯(lián)性較大的數(shù)據(jù)作為訓練樣本數(shù)據(jù),基于神經(jīng)網(wǎng)絡算法構建數(shù)據(jù)預測模型,以估計學生體育成績?nèi)笔Р糠諿8]。由此預測的學生體育成績誤差較小,科學考慮了學生常規(guī)環(huán)境下的體能特征、訓練成績,是解決學生成績數(shù)據(jù)缺失的良好方式。
大規(guī)模數(shù)據(jù)集之間的關聯(lián)可以通過關聯(lián)規(guī)則準確描述[9]。本次大學生體育學習效果挖掘研究通過Apriori 算法實現(xiàn),其中最小支持度負責尋找數(shù)據(jù)頻繁項集,即高頻數(shù)據(jù)集;最小置信度用于生成符合最小支持度與最小置信度條件的關聯(lián)規(guī)則,且關聯(lián)規(guī)則生成以頻繁項集為來源[10]。具體過程如下:
3.1.1 頻繁項集確定
頻繁項集需要從大量候選項集中產(chǎn)生,運用寬度優(yōu)先策略進行頻繁項集搜索:
Step 1:定義Ur表示原始的候選項集,其中r取值為1。
Step 2:定義Er為頻繁項集,設置Smin為項集篩選標準,求取Ur中所有項集支持度后以Smin為標準留下Smin之上的項集,得到Er。
Step 3:假設存在U r=θ,令其在
后停止運算;反之,基于自然連接算法處理頻繁項集Er,以獲取候選集Ur+1。連接當前集合與頻繁項集Er-1獲得一個候選項集Ur,此過程即為自然連接算法操作過程。
Step 4:令r=r+1,繼續(xù)執(zhí)行Step 2。
經(jīng)過上述連接操作后采用以下原理進行剪枝:采用u描述Ur集合中的r 項集,假設子集Ur-1由u的r-1 個元素組成,且Er-1不包含Ur-1,c則是Ur中的剪枝對象。
3.1.2 頻繁項集產(chǎn)生強關聯(lián)規(guī)則
Apriori 算法運行過程是以循環(huán)掃描事務數(shù)據(jù)庫推進的,頻繁性是Apriori 算法中頻繁項集的基本特性,生成的關聯(lián)規(guī)則能精準描述兩個事務間的關聯(lián)關系。
Apriori 算法挖掘?qū)W生體育信息過程中由于數(shù)據(jù)處理對象規(guī)模龐大,所以需要執(zhí)行大量的事務數(shù)據(jù)庫掃描命令[11],導致算法運算量增加,加大了運算平臺負荷,所以傳統(tǒng)Apriori 算法運算效率不高[12]。為此利用對比與刪除的方式去除Er-1中的無價值項集,精簡運算過程。掃描Er-1時,依次記錄項集,同時定義Ei包含r 個子項方便描述計算過程,則有
當Ur包含Ei時,則r-1 個r-1 項集也存在于Ur-1中。根據(jù)以上分析結果總結數(shù)據(jù)掃描規(guī)則:如果定義H1、H2為項集出現(xiàn)的概率,則相應存在H1≥r-1,H2≥r-2,進一步推斷得到Hr-1≥ 1是出現(xiàn)的概率。由此確定刪除和對比項集的方法如下:項集的掃描次數(shù)設置為H1、H2,此時存在兩種操作執(zhí)行情況:(1)刪除操作。當r-1>H1時,刪除Er-1中以Ei(1)為首的r-1 項集;當r-2>H2時,刪除Er-1中以為首的所有項集。(2)對比操作。當r-1≤H1時,對比r-2 和H2;當r-2≤H2時,繼續(xù)與后續(xù)項集掃描次數(shù)對比。上述優(yōu)化策略減少了不必要的連接操作,有效節(jié)省了Apriori 算法運算量,是提高數(shù)據(jù)挖掘效率的有效之舉。
為驗證優(yōu)化后的Apriori 算法對于學生體育的分析效果,將2018 級某專業(yè)兩個班級學生作為對象,展開大學生體育學習效果分析測試?;贏priori 關聯(lián)規(guī)則的大學生體育學習效果挖掘原理示意如圖3,其中,知識庫為學生各項體育信息,樣本信息來自校園教學信息管理平臺,即學生基本信息、體育課上訓練情況、體育課后訓練情況、體育考核成績、體育賽事成績;評價庫是對學生學習效果等級評定標準的設置,采用較差、一般、良好、優(yōu)秀進行描述;數(shù)據(jù)預處理之后開始關聯(lián)規(guī)則挖掘,得到的挖掘結果以可視化形式展示,基于Apriori 算法生成的關聯(lián)規(guī)則分析出與學生學習效果相關的元素,即形成當前學習效果的有利因素與不利因素,幫助教師科學優(yōu)化體育教學。
圖3 關聯(lián)規(guī)則在數(shù)據(jù)挖掘功能中的作用
基于本文方法挖掘得到某學生體育學習效果如表1 所示。
表1 某學生體育學習效果關聯(lián)規(guī)則挖掘
限于篇幅,表1 僅展示了該生部分數(shù)據(jù)挖掘結果。其中支持度與信任度均為預先設置值,支持度值與挖掘規(guī)則量成反比、與挖掘效率成正比,支持度越大對應生成的規(guī)則數(shù)量越少、挖掘關聯(lián)規(guī)則的效率越高。為了權衡體育學習效果關聯(lián)規(guī)則挖掘的數(shù)量與效率,將支持度定義在35%~50%之間,既能保障在較短時間內(nèi)得到學習效果挖掘結果,又能保障關聯(lián)規(guī)則挖掘數(shù)量。
詳細分析可知,此學生的興趣愛好為慢跑,那么在耐力考核中取得良好成績的信任度則為68.24%;同樣,此學生柔韌性訓練為良好等級,那么他在瑜伽項目中取得良好成績的信任度為90.41%。以此類推,當此生身體靈敏度一般時,他取得羽毛球賽專業(yè)成績的信任度為81.06%。
上述規(guī)則可以應用在體育教學中,如在健美操課前教師可以預先掌握學生在身體協(xié)調(diào)度方面的情況,明確哪些學生協(xié)調(diào)度較差,在課上采用針對性的教學方案給予這類學生關注與指導,解決健美操授課難題,提升全班學生整體學習效果。再如,在羽毛球課程中,教師可以用階段性課程或者專業(yè)訓練技巧培養(yǎng)學生身體靈敏度,以優(yōu)化學生的羽毛球運動技能。
測試了本文Apriori 算法與未優(yōu)化之前傳統(tǒng)Apriori 算法的數(shù)據(jù)挖掘效率,結果如表2 所示。對比之下,本文算法數(shù)據(jù)挖掘響應時間明顯低于傳統(tǒng)Apriori 算法,當學生數(shù)量達到80 名時,本文算法相對節(jié)約了21.5 s。本文方法之所以取得了較高的計算效率、節(jié)約大量運算時間是因為減少了無效的數(shù)據(jù)挖掘計算量。詳細而言,本方法基于對比與刪除的方式去除頻繁項集中的無價值項集,通過對比頻繁項集子項數(shù)量r 與頻繁項集出現(xiàn)概率H1、H2的關系,確定采取“對比”操作還是“刪除”操作,兩種操作的最終目的均是減少無效項集的挖掘計算量,以此減少Apriori 算法挖掘?qū)W習效果關聯(lián)規(guī)則的步驟,數(shù)據(jù)挖掘的響應時間自然降低。
表2 數(shù)據(jù)挖掘效率對比
總體而言,基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘算法以大學生個人基本信息、課上與課后體育訓練信息、體育考核成績、體育賽事成績作為數(shù)據(jù)挖掘的基礎,進行最小支持度與最小置信度選擇獲取體育信息之間的關聯(lián)規(guī)則,從中可以得知學生體育學習效果如何,哪些因素影響學生體育學習效果,將此作為體育教學優(yōu)化的決策依據(jù)。
本文選用的Apriori 算法對連接運算部分進行精簡,通過對比與刪除項集的方式省略了不必要的連接操作,此為該算法的優(yōu)勢所在。正因如此,改進后的Apriori 算法節(jié)省了運行的時間開銷,減輕了數(shù)據(jù)挖掘平臺的接口負載量。在實際的大學生體育成績分析測試中,優(yōu)化后的算法節(jié)約了大量運算時間,數(shù)據(jù)挖掘性能優(yōu)于傳統(tǒng)型Apriori 算法。數(shù)據(jù)挖掘算法在大學生體育學習效果分析中的應用是教育領域的重要變革,也是未來教育事業(yè)必然發(fā)展趨勢。但是大數(shù)據(jù)帶來的安全信息泄露、學生行為不被信任等負面影響也應引起關注。所以,教育者推廣數(shù)據(jù)挖掘技術過程中要做好大數(shù)據(jù)算法的監(jiān)測工作,不能一味信任智能算法挖掘的教學評價結果,而忽視學生不被信任的感受;教育者可將數(shù)據(jù)挖掘結果作為教學方案制定的依據(jù),科學評估智能分析結果的合理性,防范負面因素對數(shù)據(jù)挖掘技術的侵蝕影響評估結果。