張美華 王文濤
摘要:大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術(shù)得以迅速發(fā)展,數(shù)據(jù)挖掘技術(shù)是采用一定算法通過計算機智能地對大型數(shù)據(jù)庫中一些沒有被人們發(fā)現(xiàn)的或者隱藏的有價值的信息的發(fā)現(xiàn)。高校機房中有大量學生上機登記的相關(guān)數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)分析機房信息管理系統(tǒng)中的海量數(shù)據(jù),預測學生期末成績,并根據(jù)預測結(jié)果進行人為干預,糾正偏差結(jié)果。該文利用關(guān)聯(lián)規(guī)則挖掘理論,應用于吉首大學的機房信息管理系統(tǒng)中,對學生的部分上機記錄數(shù)據(jù)進行挖掘,最后根據(jù)學生上機登錄時間和下課時間,推測該生的上機學習情況,預測期末考試成績,通過半個學期的上機數(shù)據(jù)分析,達到有效利用學校機房數(shù)據(jù)干預學生的學習行為.進而取得更加良好的學習效率。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;預測
1大數(shù)據(jù)概述
大數(shù)據(jù)用來描述和定義信息爆炸時代所產(chǎn)生的海量數(shù)據(jù),它是計算機和互聯(lián)網(wǎng)互相結(jié)合的產(chǎn)物,計算機實現(xiàn)了信息的數(shù)字化,互聯(lián)網(wǎng)實現(xiàn)了信息的網(wǎng)絡(luò)共享化.隨之興起的則是從海量數(shù)據(jù)中挖掘預測出對人類行為有效的方法和結(jié)果,即數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘(Data mining)指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程,是一門跨多個領(lǐng)域的交叉學科,通常與人工智能、模式識別及計算機科學有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。其特點為:海量數(shù)據(jù)尋知識、集成變換度量值、分析模式評效果、圖形界面來展示。
2大數(shù)據(jù)時代下的高校機房現(xiàn)狀
順應時代潮流的發(fā)展,各高校都開設(shè)有計算機專業(yè),非計算機專業(yè)也在大一或大二時期開設(shè)公共計算機課程,計算機成為教育領(lǐng)域內(nèi)不可或缺的教學設(shè)備,隨著高校的進一步擴招,教育事業(yè)的不斷更新發(fā)展,學校的機房建設(shè)也隨之增多,其任務由原來的面向計算機專業(yè)發(fā)展到面向全校的所有專業(yè)開設(shè)公共計算機教學、承擔各種計算機考試等多項任務。因此機房管理系統(tǒng)在日常教學和考試任務中積累了海量數(shù)據(jù),一般這些數(shù)據(jù)都保存在主服務器上僅供查詢使用。
利用數(shù)據(jù)挖掘技術(shù),對學校機房信息管理系統(tǒng)所積累的大量學生上機數(shù)據(jù)進行深入分析與挖掘,將挖掘得到的預測結(jié)果輔助學生成績管理決策,能合理利用機房資源,提高學生成績管理質(zhì)量。
本文利用關(guān)聯(lián)規(guī)則,從現(xiàn)有的機房信息管理系統(tǒng)中收集到的海量學生上機記錄數(shù)據(jù)中挖掘出隱藏在數(shù)據(jù)中的學生上機規(guī)律和上機效率,進而預測學生的期末考試成績,提前告知,學生可以在隨后的學習中通過人為干預學習過程:比如挖掘預測出某生成績將會較差,則可以在其后的學習中調(diào)整學習方式和學習態(tài)度,以修正期末考試結(jié)果,提高學習效率和考試通過率,為以后的就業(yè)做好鋪墊,因此不管是對于當前利益還是長遠利益,都有深遠的意義。
3數(shù)據(jù)挖掘階段
1)定義問題:明確數(shù)據(jù)挖掘的預期目標。本次挖掘目標旨在從海量機房學生登錄信息中找出能預測成績的相關(guān)規(guī)則.
2)數(shù)據(jù)準備:提取數(shù)據(jù)挖掘的目標數(shù)據(jù)集,并進行預處理”。本次挖掘數(shù)據(jù)對象為吉首大學設(shè)備中心六樓公共計算機機房的學生上機信息表,并檢查數(shù)據(jù)的有效性、一致性、完整性,并去除噪聲,進行預處理。
3)數(shù)據(jù)挖掘:根據(jù)上個步驟所提取數(shù)據(jù)的特點和類型選擇相應合適的算法,并在預處理過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘。根據(jù)問題定義,本次選擇關(guān)聯(lián)規(guī)則算法Apriori算法,進行關(guān)聯(lián)規(guī)則發(fā)現(xiàn)并預測。
4)分析挖掘結(jié)果:解釋評價數(shù)據(jù)挖掘的結(jié)果,并將其轉(zhuǎn)換成能被用戶所理解的規(guī)則。
5)運用規(guī)則:通過分析挖掘結(jié)果,可以適當進行人工干預,修正學習行為,使得最終結(jié)果達到理想學習效率。
4數(shù)據(jù)挖掘在機房管理系統(tǒng)中的應用
4.1關(guān)聯(lián)規(guī)則算法
Apriori算法采用逐層搜索的迭代方法,不需要復雜的理論推導,易于實現(xiàn),是利用挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的一種算法?;舅枷胧牵菏紫日页鏊械念l集,這些項集出現(xiàn)的頻繁性至少和預定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。
4.2關(guān)聯(lián)結(jié)果分析
以吉首大學實驗室與設(shè)備管理中心為例,吉首大學實驗室與設(shè)備管理中心下設(shè)置的公共計算機實驗教學中心,負責學校公共計算機實驗室建設(shè)與管理,組織實施公共計算機實驗教學與開放,完成基于計算機平臺進行的計算機等級考試、普通話測試、各類社會化考試等測試工作。其中承擔公共計算機教學的機房共有7間,每個機房平均配置95臺學生用計算機和一臺教師教學用計算機,每臺電腦上都安裝有奧易機房管理軟件,學生每次上機都必須通過奧易軟件登錄界面輸入自己的學號和密碼才能進入系統(tǒng)使用計算機,從而收集到學生的上機登錄時間、離開時間,教師端可以利用奧易軟件對任意學生電腦端進行調(diào)換、抓屏、控制屏幕、考試、答疑等操作,所有數(shù)據(jù)存儲在機房管理端的后臺數(shù)據(jù)庫中,通過調(diào)用后臺數(shù)據(jù)庫中的學生上機情況數(shù)據(jù),進行挖掘分析。由于數(shù)據(jù)量龐大,所以采用從起始順序抽樣的方法,抽取出2015年11月5日的部分學生上機的相關(guān)數(shù)據(jù),去除不完整、不一致、有缺失的數(shù)據(jù),進行預處理,為達到預測挖掘目標提供正確的數(shù)據(jù)源。
表1中的數(shù)據(jù)前六列是從奧易軟件后臺數(shù)據(jù)庫中提取到的原始數(shù)據(jù),我們設(shè)置第二、三、五列數(shù)據(jù)與學習情況有關(guān)聯(lián).將這些數(shù)據(jù)存在于整合表中,剔除學號異常的記錄,即只要是學號異常,強制設(shè)定其上機情況為較差(異常學號學生,應為重修生,是學習重點關(guān)注對象),為了方便系統(tǒng)分析,將關(guān)聯(lián)整合后的數(shù)據(jù)轉(zhuǎn)化為布爾類型。
登錄時間:S1:10:00;$2:遲到五分鐘;S3:遲到十分鐘;S4:遲到十分鐘以上。
學號:N1:正常學號;N2:異常學號。
下課時間:E1:正常下課時間;E2:提前五分鐘下課;E3:提前五至十分鐘下課;E4:提前十分鐘以上下課.
利用關(guān)聯(lián)算法產(chǎn)生頻繁項集情況分析Q:Q1:優(yōu)秀;Q2:良好;Q3:一般;Q4:較差。
利用Apriori算法挖掘關(guān)聯(lián)規(guī)則,可以得到學生上機情況規(guī)律:
S1,EI-Q1;(S2,E2)/(S1,E2)-Q2/Q3;S4,E4-Q4
評價結(jié)果:按照正常上課時間上機并且堅持不早退的同學學習情況為優(yōu)秀;上課準時但是提前五分鐘之內(nèi)下課的同學學習情況為良好;上課遲到五分鐘以內(nèi)且下課也提前五分鐘的同學學習情況為一般;上課遲到十分鐘以上并且下課早退十分鐘以上的同學學習評估為較差。如果利用關(guān)聯(lián)算法得出某個學生的學習情況有三次為較差,就啟動成績預警,提示并干預該生以后的上機學習,督促其學習態(tài)度,提高學習效率,以避免期末考試掛科現(xiàn)象。
5結(jié)束語
借數(shù)據(jù)挖掘促進治理主體多元化,借關(guān)聯(lián)分析實現(xiàn)決策科學化”,本文利用關(guān)聯(lián)規(guī)則思路和算法,將吉首大學設(shè)備中心機房中存在的大量學生上機情況數(shù)據(jù)進行分析挖掘,嘗試從學生上機相關(guān)數(shù)據(jù)中預測其學習情況,并根據(jù)預測結(jié)果有效提示學生的期末考試成績走向,引導該生在隨后的學習應該更加有效,以達到避免出現(xiàn)最壞結(jié)果,從而提高期末考試通過率。