沈林豪, 唐 海, 許 睿
(湖北汽車工業(yè)學(xué)院電氣與信息工程學(xué)院,湖北 十堰 442002)
十四五以來隨著高等教育的普及,畢業(yè)率和就業(yè)率等問題逐年增多,教育部提出,完善高等教育服務(wù)體系,防范低分低能風(fēng)險,推動高等教育高質(zhì)量發(fā)展,培養(yǎng)綜合型高質(zhì)量研究型人才。
大數(shù)據(jù)時代背景下,隨著信息技術(shù)的快速發(fā)展以及人工智能和云計算等技術(shù)的大規(guī)模應(yīng)用,各行各業(yè)都積累了海量的數(shù)據(jù),這些數(shù)據(jù)往往蘊含著有價值的“知識”和“信息”。教育信息化和在線教育的發(fā)展產(chǎn)生了超大規(guī)模的數(shù)據(jù),運用教育數(shù)據(jù)挖掘技術(shù)挖掘出有價值的信息并呈現(xiàn)給學(xué)習(xí)者和教師,從而提高學(xué)生學(xué)業(yè)表現(xiàn)和改善教學(xué)模式,已成為高校的現(xiàn)實需要[1]。高校學(xué)生學(xué)業(yè)表現(xiàn)是高等教育質(zhì)量的重要體現(xiàn),通常以綜合學(xué)習(xí)成績“優(yōu)、良、中、差”分類等級的形式呈現(xiàn)。本研究采用教育數(shù)據(jù)挖掘技術(shù),在學(xué)校教務(wù)管理系統(tǒng)、學(xué)生管理系統(tǒng)、學(xué)生個人信息系統(tǒng)等各信息系統(tǒng)中收集學(xué)生人口統(tǒng)計特征、個人特征、學(xué)習(xí)環(huán)境和學(xué)習(xí)投入四個方面的信息,構(gòu)建學(xué)生學(xué)業(yè)表現(xiàn)預(yù)測框架,然后通過使用貝葉斯網(wǎng)絡(luò)、決策樹、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)四種算法分別建立分析模型,分析影響學(xué)業(yè)表現(xiàn)的因素。
以往學(xué)業(yè)表現(xiàn)研究考慮的因素主要是圍繞著課程成績、作業(yè)成績和考勤率等,使用相關(guān)的統(tǒng)計學(xué)方法或者大數(shù)據(jù)技術(shù)來預(yù)測學(xué)生的學(xué)業(yè)表現(xiàn)。由于課程成績、作業(yè)成績、考勤率等因素與學(xué)業(yè)表現(xiàn)具有強相關(guān)性,所得結(jié)論欠缺說服力。隨著大數(shù)據(jù)與人工智能的發(fā)展,高等院校對人才培養(yǎng)的嚴(yán)要求,使用教育大數(shù)據(jù)技術(shù)為高校學(xué)生的學(xué)業(yè)表現(xiàn)進(jìn)行評估和預(yù)測已是大勢所趨。教育大數(shù)據(jù)正在通過分析高校數(shù)據(jù),改善教學(xué)方式,提高教學(xué)質(zhì)量等方式推進(jìn)教育教學(xué)方式的變革。教育數(shù)據(jù)挖掘作為二十一世紀(jì)以來新創(chuàng)立的一門學(xué)科,已經(jīng)成為教育領(lǐng)域分析高校學(xué)生學(xué)業(yè)表現(xiàn)的有力工具。
國外教育數(shù)據(jù)挖掘的技術(shù)和方法研究較早,有著豐富的研究成果和案例。Garcia等[2]在2011年考慮社會人口特征和學(xué)術(shù)變量特征對學(xué)習(xí)成績的影響,通過使用數(shù)據(jù)挖掘技術(shù)和樸素貝葉斯分類器構(gòu)建了一個準(zhǔn)確率接近60%的模型。同年Sajadin Sembiring等[3]基于支持向量機(jī)分類模型,通過使用問卷收集到的學(xué)生心理因素和數(shù)據(jù)庫管理系統(tǒng)課程中的學(xué)生數(shù)據(jù)等作為輸入變量,構(gòu)建了一個成績等級預(yù)測模型,將所有成績分成優(yōu)秀、良好、中等、一般、差,對1000名來自三個不同專業(yè)的學(xué)生成績進(jìn)行預(yù)測,正確率為61%。Ashkan Sharabiani等[4]在2014年基于貝葉斯網(wǎng)絡(luò)框架構(gòu)建學(xué)業(yè)成績預(yù)測模型,把300名學(xué)生的年齡、性別、種族、國籍以及已修關(guān)聯(lián)課程成績作為輸入,預(yù)測課程成績。Garima Sharma與K Santosh[5]在2017年利用ID3決策樹算法,根據(jù)學(xué)生以前的成績預(yù)測學(xué)生的最終成績,對學(xué)生學(xué)業(yè)成績按照“低、一般、好”進(jìn)行預(yù)測,正確率分別為79%、97%和67%。
國內(nèi)關(guān)于教育數(shù)據(jù)挖掘的研究較晚,成果較少。黃景碧[6]在2012年設(shè)計開發(fā)了數(shù)據(jù)驅(qū)動的教育決策支持系統(tǒng)原型,通過各種算法從多維度分析學(xué)習(xí)者的學(xué)習(xí)興趣,預(yù)測學(xué)習(xí)成績,為提高學(xué)習(xí)者的學(xué)習(xí),課程優(yōu)化等提供客觀性和科學(xué)性的決策。舒忠梅和屈瓊裴[7]在2014年通過教育數(shù)據(jù)挖掘技術(shù)在學(xué)生個體和學(xué)校兩個層面構(gòu)建大學(xué)生學(xué)習(xí)成果的預(yù)測和評價模型。彭濤[8]在2015年從數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)篩選、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘模型建立及結(jié)果分析等六個方面構(gòu)建學(xué)生表現(xiàn)預(yù)測模型。郭芳俠和劉琦[9]在2018年基于混合式教學(xué),從學(xué)生的平時成績、在線學(xué)習(xí)情況、評論條數(shù)、在線學(xué)習(xí)時長、在線活躍度、班級活躍度和章節(jié)測試成績等七個方面,利用相關(guān)性分析,探討學(xué)習(xí)行為對學(xué)業(yè)表現(xiàn)的影響相關(guān)性及男女生之間的差異。趙呈領(lǐng)[10]在2019年基于在線學(xué)習(xí)者的學(xué)習(xí)行為,從在線時長,觀看視頻次數(shù)、瀏覽文檔時長、作業(yè)完成情況和討論次數(shù)這五個方面對學(xué)生學(xué)業(yè)表現(xiàn)的影響進(jìn)行相關(guān)性分析。張敬和蘆雪娟[11]在2020年以高等數(shù)學(xué)課程改革為例,利用相關(guān)性分析法,從學(xué)生學(xué)習(xí)時間、測試成績、下載學(xué)科資料次數(shù)和學(xué)生參與問題的研討次數(shù)四個主要方面來研究學(xué)習(xí)行為與學(xué)生課程成績的相關(guān)性,結(jié)果表明,上述四個方面對學(xué)生學(xué)業(yè)表現(xiàn)均存在顯著的影響。楊婉霞[12]在2021年分別從學(xué)生的課堂考勤率、參與討論相關(guān)問題的次數(shù)、在線學(xué)習(xí)時長和瀏覽教學(xué)資料次數(shù)四個方面來研究學(xué)生在線學(xué)習(xí)行為與期末考試成績之間的內(nèi)在關(guān)聯(lián)性。綜上所述,國內(nèi)對于學(xué)業(yè)表現(xiàn)的研究主要在于定性的分析與多技術(shù)的融合提高理論準(zhǔn)確率等,借鑒國內(nèi)高校學(xué)生學(xué)業(yè)表現(xiàn)研究經(jīng)驗,本研究采用教育數(shù)據(jù)挖掘技術(shù)對學(xué)生學(xué)業(yè)表現(xiàn)數(shù)據(jù)進(jìn)行處理,從學(xué)習(xí)效果角度進(jìn)行分析解讀,探索學(xué)生學(xué)業(yè)表現(xiàn)的影響因素。
學(xué)業(yè)表現(xiàn)實際上是一個學(xué)習(xí)成果評估問題,學(xué)生的學(xué)業(yè)表現(xiàn)是學(xué)生在經(jīng)過一段時期的學(xué)習(xí)后對上一階段學(xué)習(xí)成果的一個體現(xiàn)。
高校學(xué)生學(xué)業(yè)表現(xiàn)的影響因素是多方面的,包括外部環(huán)境和個體內(nèi)在表現(xiàn)。為探究高校學(xué)生學(xué)業(yè)表現(xiàn)影響因素,把眾多的影響因素進(jìn)行有效地結(jié)合起來構(gòu)建一個總體研究框架,使得研究設(shè)計更加科學(xué),結(jié)論可解釋。
早在二十世紀(jì)九十年代,Pace[13]就已經(jīng)開始探索高校學(xué)習(xí)環(huán)境、學(xué)生學(xué)習(xí)投入程度與學(xué)生學(xué)業(yè)表現(xiàn)的相關(guān)性了。清華大學(xué)的史靜寰和王文[14]梳理了國內(nèi)外有關(guān)學(xué)業(yè)表現(xiàn)的主要研究成果,同時在總結(jié)清華大學(xué)學(xué)生學(xué)習(xí)表現(xiàn)的基礎(chǔ)上,設(shè)計了中國大學(xué)生學(xué)情研究框架,重點關(guān)注學(xué)生在行為、認(rèn)知和情感三方面的投入與表現(xiàn)。張勁英[15]在2017年提出從環(huán)境、學(xué)生個人、學(xué)習(xí)行為三個因素構(gòu)建大學(xué)生學(xué)業(yè)成就分析框架,應(yīng)用數(shù)據(jù)挖掘技術(shù)構(gòu)建大學(xué)生學(xué)業(yè)表現(xiàn)的關(guān)系模型。
研究教育學(xué)理論為指導(dǎo)結(jié)合數(shù)據(jù)挖掘技術(shù),從人口統(tǒng)計特征、學(xué)習(xí)環(huán)境、個人特征和學(xué)習(xí)投入等四個方面來探討高校學(xué)生學(xué)業(yè)表現(xiàn),如圖1所示。
圖1 高校學(xué)生學(xué)業(yè)表現(xiàn)影響因素
本研究數(shù)據(jù)來源于某高校教務(wù)管理系統(tǒng)、學(xué)生信息系統(tǒng)、學(xué)生管理系統(tǒng)和問卷調(diào)查等。由于學(xué)生的各方面的信息來自不同的管理系統(tǒng)或者問卷調(diào)查,因此需要構(gòu)建綜合型教育數(shù)據(jù)系統(tǒng),將分散的各類數(shù)據(jù)集中存儲到統(tǒng)一的數(shù)據(jù)庫中。系統(tǒng)分為數(shù)據(jù)層、數(shù)據(jù)預(yù)處理、數(shù)據(jù)整合層和數(shù)據(jù)應(yīng)用層四個層次,總體結(jié)構(gòu)如圖2所示。
研究從社會人口統(tǒng)計特征、個人特征、學(xué)習(xí)環(huán)境和學(xué)習(xí)投入等四個方面來考慮預(yù)測目標(biāo),共采集21個變量,具體如表1所示。
表1 學(xué)業(yè)表現(xiàn)預(yù)測模型的變量
圖2 綜合型教育數(shù)據(jù)系統(tǒng)總體結(jié)構(gòu)
本研究使用SPSS Modeler作為建立學(xué)業(yè)表現(xiàn)研究模型的工具軟件。SPSS Modeler內(nèi)置多種建模算法,比如K-means聚類算法、決策樹分類算法、支持向量機(jī)算法和神經(jīng)網(wǎng)絡(luò)算法等等。使用各種算法的目的就是通過對數(shù)據(jù)的建模分析出各因素的內(nèi)在相關(guān)關(guān)系以及對學(xué)生學(xué)業(yè)表現(xiàn)的影響。SPSS Modeler在符合數(shù)據(jù)挖掘的標(biāo)準(zhǔn)協(xié)議上,以工作流的方式將數(shù)據(jù)源的選取,字段的選取,建模以及輸出結(jié)果等教育過程以圖形可視化的方式呈現(xiàn)。
目前分類算法中使用最廣泛的是決策樹算法、貝葉斯網(wǎng)絡(luò)算法、神經(jīng)網(wǎng)絡(luò)算法和支持向量機(jī)算法,因此本研究分別運用這四種算法對數(shù)據(jù)進(jìn)行預(yù)測,并對預(yù)測結(jié)果進(jìn)行評估。
本研究以湖北某高校信息與工程學(xué)院開設(shè)的“離散數(shù)學(xué)”課程為例建立學(xué)生學(xué)業(yè)表現(xiàn)分類預(yù)測模型,通過教育數(shù)據(jù)挖掘技術(shù)將教學(xué)管理信息系統(tǒng)、學(xué)生管理系統(tǒng)、學(xué)生信息系統(tǒng)和圖書借閱系統(tǒng)等各個系統(tǒng)中的學(xué)生信息分別挖掘出來放入到綜合型教育數(shù)據(jù)框架中。然后在綜合教育數(shù)據(jù)框架中采集本問所需要的,探討影響學(xué)生學(xué)業(yè)表現(xiàn)的影響因素和各種因素對學(xué)業(yè)表現(xiàn)的影響方式。共采集了本院大二學(xué)生數(shù)據(jù)600條,約占信息與工程學(xué)院大三學(xué)生總數(shù)的90%。數(shù)據(jù)包括本研究所探討的21個因素和學(xué)業(yè)表現(xiàn)情況,并在綜合型教育數(shù)據(jù)框架中對原始的各類學(xué)生信息進(jìn)行數(shù)據(jù)預(yù)處理。本文將學(xué)生取得的學(xué)業(yè)表現(xiàn)分為了四種基本類型:優(yōu)秀、良好、一般、差,在建立學(xué)業(yè)表現(xiàn)模型時需要把學(xué)生的成績轉(zhuǎn)換為對應(yīng)類別。其中85分以上記為優(yōu)秀,75~85分之間記為良好,60~75分記為一般,低于60分的記為差。
在對學(xué)生學(xué)習(xí)成果評估之前需要對學(xué)生數(shù)據(jù)進(jìn)行預(yù)處理。先針對原始數(shù)據(jù)中所存在的數(shù)據(jù)缺失問題,采用權(quán)值平均法對缺失數(shù)據(jù)進(jìn)行填充,以突出數(shù)據(jù)中臨近數(shù)值之間的關(guān)系;其次將處理后的數(shù)據(jù)劃分為訓(xùn)練集和測試集;最后通過比較不同模型在測試集上的性能,評估各個模型的優(yōu)劣性。
將綜合型教育數(shù)據(jù)框架中的學(xué)生信息Excel文件導(dǎo)入到SPSS Modeler中進(jìn)行建模分析,在SPSS Modeler中的“分區(qū)”節(jié)點中將總數(shù)據(jù)量的85%設(shè)置成模型訓(xùn)練集,剩下的15%作為測試集進(jìn)行實驗;在“類型”節(jié)點中將四個方面的21個影響因素設(shè)置成自變量,學(xué)業(yè)表現(xiàn)作為預(yù)測變量進(jìn)行建模研究;分別選擇決策樹、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)四種建模算法對學(xué)業(yè)表現(xiàn)的運行結(jié)果進(jìn)行探討,總體工作流程如圖3所示。
圖3 總體工作流程圖
不同的方法對學(xué)業(yè)表現(xiàn)進(jìn)行建模研究,研究結(jié)果所呈現(xiàn)的方式各不相同,其中決策樹C5.0算法的運行結(jié)果以樹狀圖的方式呈現(xiàn),其中最左端的節(jié)點代表著預(yù)測變量學(xué)業(yè)表現(xiàn),決策樹算法將影響學(xué)業(yè)表現(xiàn)的因素分成4層,共9個節(jié)點。決策樹C5.0算法的運行結(jié)果如圖4所示。
圖4 決策樹C5.0算法運行結(jié)果
運用決策樹算法探索對學(xué)業(yè)表現(xiàn)影響最大的三個因素,結(jié)果如圖5所示。
圖5 決策樹運行結(jié)果
通過決策樹模型對所有影響因素的分析可知,對學(xué)業(yè)表現(xiàn)影響最大的兩個因素是每周學(xué)習(xí)時長和習(xí)題完成情況,影響大小為0.39,從正面體現(xiàn)了每周學(xué)習(xí)時長和習(xí)題完成情況直接影響學(xué)生學(xué)業(yè)表現(xiàn)。其中對學(xué)業(yè)表現(xiàn)影響最小因素是圖書借閱/周,影響大小為0.22,這說明學(xué)生每周圖書借閱次數(shù)對學(xué)業(yè)表現(xiàn)的影響一般。高等教育的重點在于學(xué)生本身自學(xué)的時長。
在貝葉斯網(wǎng)絡(luò)模型中學(xué)業(yè)表現(xiàn)與影響因素之間是以有向無環(huán)圖的方式展現(xiàn),最左端節(jié)點為目標(biāo)節(jié)點學(xué)業(yè)表現(xiàn),其他節(jié)點依據(jù)對學(xué)業(yè)表現(xiàn)的影響大小進(jìn)行分層排列,根據(jù)各因素之間的內(nèi)在關(guān)系,其他因素節(jié)點之間以有向邊連接,每一條邊都代表著該因素對上一個因素節(jié)點的影響概率,從左往右相乘所得概率值為最右端的因素節(jié)點對學(xué)業(yè)表現(xiàn)的影響概率大小。貝葉斯網(wǎng)絡(luò)算法的運行過程如圖6所示。
通過貝葉斯網(wǎng)絡(luò)預(yù)測模型研究性別對學(xué)業(yè)表現(xiàn)的影響,結(jié)果如圖7所示,體現(xiàn)出性別與學(xué)生學(xué)業(yè)表現(xiàn)有著明顯的聯(lián)系,特別是在學(xué)業(yè)表現(xiàn)“一般”的人群中性別的差異表現(xiàn)得尤為明顯。學(xué)業(yè)表現(xiàn)“一般”的學(xué)生中女生所占比例為71%,說明女生對于外界各種干擾因素有較強的自控力,更適應(yīng)目前中國高校教學(xué)方式。
圖6 貝葉斯網(wǎng)絡(luò)算法運行過程
圖7 性別對學(xué)業(yè)表現(xiàn)的影響
神經(jīng)網(wǎng)絡(luò)主要是通過分析多因素的聯(lián)合作用對學(xué)業(yè)表現(xiàn)的影響來建立模型。采用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行學(xué)業(yè)表現(xiàn)預(yù)測運行過程如圖8所示,最右端為目標(biāo)變量學(xué)業(yè)表現(xiàn),最左端為學(xué)業(yè)表現(xiàn)影響因素,學(xué)業(yè)表現(xiàn)預(yù)測模型總共分為三層,其中隱含層包含6個神經(jīng)元。
圖8 神經(jīng)網(wǎng)絡(luò)算法運行過程
基于神經(jīng)網(wǎng)絡(luò)算法對各影響因素進(jìn)行分析結(jié)果如圖9所示。其中對于影響因子小于0.05以下的忽略不計,通過神經(jīng)網(wǎng)絡(luò)算法對影響學(xué)業(yè)表現(xiàn)的因素分析可知,對學(xué)業(yè)表現(xiàn)影響最大的三個影響分別是每周學(xué)習(xí)時長、是否獨生子女和習(xí)題完成情況。
圖9 基于神經(jīng)網(wǎng)絡(luò)的影響因素重要性分析
基于神經(jīng)網(wǎng)絡(luò)的學(xué)業(yè)表現(xiàn)的分類準(zhǔn)確率如圖10所示。其中神經(jīng)網(wǎng)絡(luò)在學(xué)業(yè)表現(xiàn)“一般”和良好的人群分類上面準(zhǔn)確率達(dá)到100%,在表現(xiàn)“優(yōu)秀”人群上預(yù)測率最低60%,總體準(zhǔn)確率為91.7%。
圖10 基于神經(jīng)網(wǎng)絡(luò)的學(xué)業(yè)表現(xiàn)準(zhǔn)確率
運用支持向量機(jī)模型對影響學(xué)業(yè)表現(xiàn)的因素進(jìn)行分析,同樣對于影響因素小于0.05以下的影響因子忽略不計,對學(xué)業(yè)表現(xiàn)影響最大的十個因素如圖11所示,其中對學(xué)業(yè)表現(xiàn)影響最大的三個因素為習(xí)題完成情況,性別和家庭狀況。
圖11 基于支持向量機(jī)的影響因素重要性
運用上述四個算法,對學(xué)業(yè)表現(xiàn)的21個因素進(jìn)行影響程度計算,結(jié)果如表2所示:
表2 四個模型分析影響因素
由于本研究的學(xué)生數(shù)據(jù)量不大,為提高模型的預(yù)測精度,采用10折交叉驗證方法對各模型進(jìn)行訓(xùn)練和預(yù)測,將10次實驗結(jié)果的平均值作為模型評估指標(biāo)相應(yīng)的值,并且10折交叉驗證法可以避免由于數(shù)據(jù)集劃分不合理而導(dǎo)致模型在訓(xùn)練集上過擬合。準(zhǔn)確率是指被分類模型正確預(yù)測的百分率。召回率指真實值被正確識別的百分率,F(xiàn)1值是為了同時兼顧準(zhǔn)確率和召回率的,F(xiàn)1值越高,則分類模型越有效。以上四種算法的準(zhǔn)確率、召回率和F1值如表3所示。
表3 四種模型的準(zhǔn)確率、召回率和F1值
在四種算法構(gòu)造的模型中,支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)算法的學(xué)業(yè)表現(xiàn)預(yù)測準(zhǔn)確率最高,類似研究可考慮運用這兩種算法搭建模型。
運用數(shù)據(jù)挖掘技術(shù)預(yù)測學(xué)生學(xué)業(yè)表現(xiàn)。考慮到影響學(xué)業(yè)表現(xiàn)的因素較多,提出了綜合教育數(shù)據(jù)框架,采用四種分類算法對各種影響因素進(jìn)行分析,得出以下結(jié)論:
1.高校學(xué)生學(xué)業(yè)表現(xiàn)主要受人口統(tǒng)計信息、學(xué)習(xí)環(huán)境、個人特征和學(xué)習(xí)投入四方面因素影響。在學(xué)習(xí)環(huán)境方面,在圖書館學(xué)習(xí)的學(xué)業(yè)表現(xiàn)要明顯優(yōu)于其他地方的學(xué)習(xí)環(huán)境。在個人特征方面,是否是學(xué)生黨員、心理狀況等都對學(xué)業(yè)表現(xiàn)產(chǎn)生了直接或間接的影響。在學(xué)習(xí)投入方面,每周學(xué)習(xí)時長和習(xí)題完成情況對學(xué)生的學(xué)業(yè)表現(xiàn)影響較大。
2.研究發(fā)現(xiàn)在影響學(xué)生學(xué)業(yè)表現(xiàn)的四個方面中,學(xué)習(xí)投入是最重要的。四個模型的運算結(jié)果顯示,學(xué)生在學(xué)習(xí)投入方面越多,學(xué)業(yè)表現(xiàn)越優(yōu)秀。
最后,本研究的實驗數(shù)據(jù)來源于一所地方高校,本結(jié)論對全國其他高校是否具有普適性,有待進(jìn)一步的研究。