和鐵行,王 偉
(杭州醫(yī)學院,浙江,杭州 310053)
·教學研究與管理·
數(shù)據(jù)挖掘在計算機課程成績分析中的應(yīng)用
和鐵行,王 偉
(杭州醫(yī)學院,浙江,杭州 310053)
目的:尋找教務(wù)管理系統(tǒng)中海量數(shù)據(jù)之間的隱性關(guān)聯(lián),以達到增強學生學習效率,促進教學水平提升,增強教學管理的有效性。方法利用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則的改進型Apriori算法和聚類算法進行數(shù)據(jù)的挖掘。結(jié)果通過對數(shù)據(jù)挖掘進行統(tǒng)計分析后,發(fā)現(xiàn)用來挖掘的2015級120名??粕?016級60名本科生計算機課程成績與入學基礎(chǔ)、授課時數(shù)之間有著隱藏的關(guān)聯(lián)性。結(jié)論成績的評定指標要具有可操作性和合理性,利用挖掘結(jié)果可以指導教師教學,有利于學生更有針對性地進行計算機課程的學習。
數(shù)據(jù)挖掘;Apriori算法;成績分析
Abstract:[Objective] To find the implicit association between the increasing amount of mass data in the education management system and to enhance students' learning efficiency, promote teaching level and improve the effectiveness of teaching management.[Method] According to Apriori algorithm, the modified form of data mining associated ruler, data miningwascarried out.[Result]Searching for the potential relationship among the data through statistical analysis, it is found that there are hidden correlations between the scores.[Conclusion] The evaluation indicators should be operational and reasonable. The results of mining could be used to guide teaching and help students in targeted computer learning.
Keywords:data mining; Apriori algorithm;analysis of the performance
高校在長期的教學過程中積累了大量的數(shù)據(jù),這些海量的數(shù)據(jù)存放在學校的教務(wù)管理系統(tǒng)中。于是,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到成績方面成為教學管理的一個研究方向。本文利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則法和聚類算法對學生的成績及其影響因素做了深入的分析、總結(jié)和發(fā)掘,希望能對今后教師的日常教學、學生學習以及教學管理提供幫助。
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining,DM)[1]是利用計算機這一現(xiàn)代化工具,從模糊的、海量的、不完整的實際應(yīng)用數(shù)據(jù)中,把隱含在其中的人們事先不知道的但又可能有用的信息和知識提取的過程,試圖發(fā)現(xiàn)隱藏在這些數(shù)據(jù)背后的關(guān)系是人們挖掘的目的,挖掘的結(jié)果是可以為人們提供更多有價值的信息。
1.2 數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘算法[2]是根據(jù)數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計算。常用的數(shù)據(jù)挖掘算法有:分類算法、決策樹算法[3]、回歸算法、聚類分析算法、關(guān)聯(lián)規(guī)則等,這些算法有其各自適用的場景。如對植物葉子的分類就是典型的分類算法,對根據(jù)降雨、霧霾、氣溫等特征將自己的行為分類為出門和不出門則是典型的決策樹算法。
1.3 Apriori算法
從所有的項目集合中找出所有頻繁項目集合式Apriori算法的基本思想,找出的這些頻繁項目集合的頻繁性必須大于或等于預先設(shè)定好的最小支持度值(支持度表示項集{X,Y}在總項集里出現(xiàn)的概率,最小支持度是指出現(xiàn)X導致Y也出現(xiàn)的最小概率值。)然后由這些滿足最小支持度的頻繁項目集合來產(chǎn)生關(guān)聯(lián)性較強的規(guī)則,也即是強關(guān)聯(lián)規(guī)則,在滿足最小支持度的同時還要滿足預先設(shè)定好的最小置信度是強關(guān)聯(lián)規(guī)則的基本要求(置信度表示在先決條件X發(fā)生的情況下,由關(guān)聯(lián)規(guī)則”X→Y”推導出Y的概率。)。Apriori算法最開始是從最簡單的候選項集C1中開始篩選,找出符合條件的L1,然后由L1與自身連接便可產(chǎn)生候選項集C2,接著再對C2進行篩選,找出符合條件的L2,如此循環(huán)下去直到最后為空集為止。
本文用到的數(shù)據(jù)挖掘技術(shù)就是挖掘關(guān)聯(lián)規(guī)則的Apriori算法。
2.1 挖掘流程
確定挖掘的目標,即需要挖掘的計算機課程的學生成績,然后對這些挖掘的對象進行采集、預處理,進行初步挖掘,再逐層進行深度挖掘,最終建立數(shù)據(jù)間的關(guān)聯(lián)性,挖掘分析出各指標間的類。
2.2 系統(tǒng)流程
根據(jù)挖掘流程,設(shè)計出如圖1所示的挖掘系統(tǒng)流程圖,應(yīng)用于實際的數(shù)據(jù)挖掘。
圖1 挖掘系統(tǒng)流程圖
圖1中,挖掘的數(shù)據(jù)來源于正方教務(wù)管理系統(tǒng)、百科園通用考試管理系統(tǒng)(計算機課程教學互動的軟件系統(tǒng))和浙江省計算機等級考試數(shù)據(jù)庫;數(shù)據(jù)庫指的是主要存儲涉及學生信息的各種數(shù)據(jù),該系統(tǒng)將學生的基本信息以及學生學習計算機課程的各種信息存儲在數(shù)據(jù)庫中;知識庫是經(jīng)過數(shù)據(jù)挖掘后從中提取出來的規(guī)則,用來為決策人員作決策使用;數(shù)據(jù)挖掘是根據(jù)決策者提出的問題特點,確定挖掘的任務(wù)或目的,對數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)進行精簡和預處理,再從精簡后的數(shù)據(jù)中挖掘出新的、有效的新知識,提供給基于計算機課程成績的有效數(shù)據(jù)挖掘,最終由它給決策者提供有效的知識;挖掘結(jié)果分析是通過分析最終的挖掘結(jié)果,找出有效數(shù)據(jù)之間的關(guān)聯(lián),提供有實際意義的報告。
2.3 數(shù)據(jù)準備
本次研究選擇了我校2015級120名??茖W生和2016級60名本科學生的基本信息(數(shù)據(jù)來源于校正方教務(wù)管理系統(tǒng)、百科園通用考試管理系統(tǒng)和浙江省計算機等級考試數(shù)據(jù)庫)、醫(yī)學計算機應(yīng)用基礎(chǔ)課程的任課教師、課時情況、出勤率等信息(來源于聯(lián)創(chuàng)機房管理系統(tǒng)和百科園通用考試管理系統(tǒng)),以及浙江省計算機等級考試的成績信息(來源于2016年秋浙江省計算機等級考試數(shù)據(jù))。其基本信息如表1所示。
表1 計算機課程數(shù)據(jù)的基本信息表
2.4 數(shù)據(jù)預處理
表1中的數(shù)據(jù)中可能存在冗余、不完整、空值等情況,因此對收集到的數(shù)據(jù)在挖掘之前進行預處理,提高數(shù)據(jù)的質(zhì)量,從而有助于建立高準確率的數(shù)據(jù)模型。數(shù)據(jù)預處理就是要刪除對挖掘的預測結(jié)果無關(guān)聯(lián)的數(shù)據(jù),如學生的年齡、班級等信息。同時,基于數(shù)據(jù)挖掘的要求,還要將多張數(shù)據(jù)表進行合并整理,形成適合數(shù)據(jù)挖掘的數(shù)據(jù)表。
2.5 基于Apriori算法的數(shù)據(jù)挖掘
本次關(guān)聯(lián)規(guī)則分析的數(shù)據(jù)由我校2015級120名專科學生和2016級60名本科學生學生、計算機課程考試成績及相應(yīng)的任課老師信息組成。共抽選出180條學生的記錄。經(jīng)過整理后的初始信息表如表2所示。
表2 計算機課程初始信息表
(備注:課前基礎(chǔ)測驗在第一次實驗課中完成,評定按5級制;表中只列舉了部分信息)
為了簡化分析,接下來需要將數(shù)據(jù)進行抽象和離散化處理。學生專業(yè)信息處理為:藥學(A1),護理(A2),影像(A3)…學生課前基礎(chǔ)測驗在第一次實驗課中完成評定,分別用優(yōu)秀(B1),良好(B2),中等(B3),合格(B4),不合格(B5)表示。教師職稱分別用正高(C1),副高(C2),中級(C3),初級(C4)表示。學生上課課時數(shù)離散化為:>=8周(D1),7周(D2),6周(D3),5周(D4),<=4周(D5)。實驗作業(yè)根據(jù)得分情況離散化為:90~100為優(yōu)秀(E1),80~89為良好(E2),70~79為中等(E3),60~69為合格(E4),低于60分為不合格(E5)。計算機課程考試成績離散化為:90~100為優(yōu)秀(F1),80~89為良好(F2),70~79為中等(F3),60~69為合格(F4),低于60分為不合格(F5)。經(jīng)過處理的信息表如表3所示。
表3數(shù)據(jù)預處理、離散化后的信息表
數(shù)據(jù)分析過程采用SPSS Clementine12.0中文版,以Apriori算法為基礎(chǔ),設(shè)置最小支持度為0.35,取最小置信度為0.65,使用加權(quán)支持度計算函數(shù)(支持度公式為Support(X→Y)=P(X,Y)P(I)。由于考試分數(shù)的特性,設(shè)定λ為6,其他權(quán)值為3進行挖掘分析,生成頻繁項集(也稱為項集,如果項集的相對支持度滿足預定義的最小支持度閾值,則稱之為頻繁項集)和關(guān)聯(lián)規(guī)則(關(guān)聯(lián)規(guī)則是形如X→Y的蘊涵式,其中X和Y分別稱為關(guān)聯(lián)規(guī)則的先導和后繼,關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。)。共獲得387條頻繁項集,296條關(guān)聯(lián)規(guī)則。部分關(guān)聯(lián)規(guī)則見表4。
表4 關(guān)聯(lián)規(guī)則表
根據(jù)前面設(shè)置最小支持度為0.35和最小置信度為0.65的閾值,從表4中A2,C3->F3的關(guān)聯(lián)規(guī)則可以推導出專業(yè)和教師的職稱對于學生成績的并沒有什么直接影響,從B5,D5-> F5、B4,E2->F4、D4,E3->F5這些關(guān)聯(lián)規(guī)則中我們可以推導出最終的成績和前面數(shù)據(jù)存在著很強的關(guān)聯(lián)性,入學基礎(chǔ)差、授課時數(shù)少、實驗作業(yè)情況中等以下的學生的課程通過率較低;而入學基礎(chǔ)好、授課課時數(shù)8周以上、平時作業(yè)完成良好的學生,課程考試成績就較高。因此,應(yīng)當適當增加課時,對課時少的專業(yè)中實驗作業(yè)成績較差的學生教師應(yīng)在課堂上給予更多關(guān)注,以利于提高課程的考試成績。
本文利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則分析對計算機課程的成績進行了分析,分析的結(jié)果和課程結(jié)束后學生成績的分布結(jié)構(gòu)相類似。學生所在專業(yè)以及教師的職稱對課程成績影響不明顯,兩者之間基本上不存在符合設(shè)定閾值的關(guān)聯(lián)。而學生課前的基礎(chǔ)、授課時數(shù)、實驗作業(yè)和最終成績存在著很強的關(guān)聯(lián)性。其分析結(jié)果可以幫助學生發(fā)現(xiàn)自己的薄弱環(huán)節(jié),對于以后學習提供針對性的幫助。同時對教師教學方法的改進和學院對課程學時分配也有一定的指導意義。
[1]趙艷.Apriori算法在高職院校課程關(guān)聯(lián)性分析中的應(yīng)用研究[J].河北企業(yè),2015.(9):10-11.
[2]婁巖.醫(yī)學大數(shù)據(jù)挖掘與應(yīng)用.北京:科學出版社,2015.47-48.
[3]曾斯.數(shù)據(jù)挖掘技術(shù)在計算機等級考試成績中的分析研究[J].電腦知識與技術(shù),2015,(13):14-15.
Applicationofdatamininginachievementanalysisofcomputercourses
HETiexing,WANGWei
(Hangzhou Medical College,Hangzhou 310053,China)
B
1672-0024(2017)05-0004-04
和鐵行(1980-),男,河南周口人,本科,講師。研究方向:計算機基礎(chǔ)教學與科研
杭州醫(yī)學院校級課題(編號:2013XZA05)