郭羿,韋文山,鄧居昌
(廣西民族大學(xué)電子信息學(xué)院,南寧 530000)
近年來(lái),線上教育的不斷普及對(duì)常規(guī)教育數(shù)據(jù)的研究方法提出了挑戰(zhàn)。管理者通過學(xué)習(xí)者產(chǎn)生的學(xué)習(xí)行為大數(shù)據(jù)對(duì)在線教育大數(shù)據(jù)進(jìn)行研究,并根據(jù)分析結(jié)果進(jìn)行應(yīng)用,這對(duì)于指導(dǎo)在線開放課程的設(shè)計(jì)、運(yùn)行及評(píng)價(jià),進(jìn)而有效組織學(xué)生的教學(xué)活動(dòng)有幫助作用。如今的高校教學(xué)過程中,線上教學(xué)與線下教學(xué)相結(jié)合已成為主流趨勢(shì)。線上教育產(chǎn)生了許多學(xué)生學(xué)習(xí)數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘方法對(duì)學(xué)生的線上學(xué)習(xí)數(shù)據(jù)與線下學(xué)習(xí)數(shù)據(jù)相結(jié)合,能夠?qū)崿F(xiàn)對(duì)學(xué)生的成績(jī)預(yù)測(cè),幫助學(xué)生規(guī)避學(xué)業(yè)風(fēng)險(xiǎn)[1]。
學(xué)習(xí)行為分析及結(jié)果預(yù)測(cè)主要體現(xiàn)在數(shù)據(jù)相關(guān)性分析及成績(jī)預(yù)測(cè)理論模型的構(gòu)建、成績(jī)預(yù)測(cè)模型的實(shí)證研究、算法準(zhǔn)確性的對(duì)比、算法的開發(fā)、預(yù)警因素研究等方面,已有研究主要采用決策樹、回歸分析、時(shí)序分析等算法。此外,基于大學(xué)生網(wǎng)絡(luò)課程學(xué)習(xí)過程、早起行為和圖書借閱行為,將課內(nèi)表現(xiàn)和數(shù)據(jù)聯(lián)系,建立多個(gè)學(xué)習(xí)場(chǎng)景的數(shù)據(jù)鏈路,通過對(duì)不同機(jī)器學(xué)習(xí)分類模型的預(yù)測(cè)分析和性能提升,結(jié)合不同預(yù)測(cè)模型的優(yōu)勢(shì),建立用于教學(xué)干預(yù)與學(xué)習(xí)推薦系統(tǒng)的行為診斷模型[2]。隨著深度學(xué)習(xí)技術(shù)越來(lái)越廣泛地應(yīng)用到實(shí)際問題中,將深度學(xué)習(xí)技術(shù)應(yīng)用到教育大數(shù)據(jù)挖掘領(lǐng)域,能更好地描述教育數(shù)據(jù)的內(nèi)在信息,幫助教育者發(fā)現(xiàn)教育問題的關(guān)鍵[3]。
本研究采用多元線性回歸(MLR)、隨機(jī)森林(RF)和支持向量機(jī)(SVM)三種傳統(tǒng)機(jī)器學(xué)習(xí)方法和一種人工神經(jīng)網(wǎng)絡(luò)(ANN)方法,通過學(xué)生線上線下兩方面表現(xiàn)和成績(jī)來(lái)對(duì)高校學(xué)生進(jìn)行期末學(xué)業(yè)成績(jī)預(yù)測(cè),通過四種不同的算法,提供合適的參考依據(jù)[4]。
本研究以N市M高校2020級(jí)電子信息學(xué)院435名大學(xué)生作為數(shù)據(jù)采集對(duì)象,其中兩名同學(xué)的記錄存在信息缺失,剔除含有信息缺失的數(shù)據(jù),最終保留433條有效數(shù)據(jù)[5-6]。學(xué)習(xí)科目為數(shù)據(jù)結(jié)構(gòu)課程,學(xué)習(xí)場(chǎng)景數(shù)據(jù)來(lái)源于藍(lán)墨云班課的在線課程學(xué)習(xí)日志數(shù)據(jù)和線下教學(xué)學(xué)習(xí)數(shù)據(jù);學(xué)習(xí)績(jī)效數(shù)據(jù)來(lái)源于藍(lán)墨云班課平臺(tái)的簽到次數(shù)、在線測(cè)試成績(jī)和線下筆試成績(jī)等方面。
其中,在線學(xué)習(xí)平臺(tái)包含10個(gè)屬性,如簽到次數(shù)、資源學(xué)習(xí)數(shù)量、在線測(cè)試等。本研究擬通過原始數(shù)據(jù)中所有單個(gè)數(shù)據(jù)的屬性對(duì)最終成績(jī)的影響進(jìn)行評(píng)估并排序,借助排序結(jié)果來(lái)選擇子屬性集[7-8]。方法是計(jì)算所有單個(gè)屬性和期末成績(jī)類別之間的皮爾遜相關(guān)系數(shù),并依據(jù)其相關(guān)系數(shù)大小進(jìn)行排序,系數(shù)值越大,表明其與最終成績(jī)的相關(guān)性越強(qiáng)。評(píng)估方法的排序結(jié)果如表1所示。表1中的第一列是屬性的序號(hào),第二列是屬性的類別,第三列為相關(guān)系數(shù)[9]。其中,部分屬性中含有缺失值、無(wú)關(guān)數(shù)據(jù)、孤立點(diǎn)等,對(duì)這些屬性進(jìn)行數(shù)據(jù)清洗[10],最終保留下來(lái)6項(xiàng)屬性。由于各項(xiàng)屬性的初始指標(biāo)不同,為了方便相關(guān)性分析,將所有屬性數(shù)據(jù)進(jìn)行預(yù)處理,屬性數(shù)據(jù)都轉(zhuǎn)換為百分制分?jǐn)?shù)與期末成績(jī)進(jìn)行比對(duì)。從表1可以發(fā)現(xiàn),不同屬性與期末成績(jī)的相關(guān)性數(shù)值大小有所差異,從中判斷出系數(shù)較大的3項(xiàng)是影響期末成績(jī)的主要因素,因此將其作為在線學(xué)習(xí)平臺(tái)預(yù)測(cè)建模的部分自變量。
表1 在線學(xué)習(xí)平臺(tái)屬性相關(guān)性分析
線下成績(jī)主要包含2個(gè)方面:平時(shí)成績(jī)與卷面成績(jī)。平時(shí)成績(jī)由5個(gè)屬性構(gòu)成,如測(cè)驗(yàn)、作業(yè)、實(shí)驗(yàn)等。數(shù)據(jù)來(lái)源為學(xué)生的日常測(cè)驗(yàn)考核的真實(shí)成績(jī)。平時(shí)成績(jī)的計(jì)算方法如公式(1)所示。其中,y1代表平時(shí)成績(jī),α代表段考,β代表實(shí)驗(yàn),γ1代表課堂測(cè)驗(yàn)1,γ2代表課堂測(cè)驗(yàn)2,δ代表作業(yè)。
期末成績(jī)的計(jì)算方式主要由平時(shí)成績(jī)與卷面成績(jī)得出,計(jì)算方法如公式(2)所示。此處y2代表期末成績(jī),α代表卷面成績(jī),β代表平時(shí)成績(jī)。
對(duì)線上和線下兩部分成績(jī),共8個(gè)屬性,3456條數(shù)據(jù)進(jìn)行分析研究。數(shù)值集中的同時(shí),為避免不同數(shù)據(jù)屬性對(duì)回歸預(yù)測(cè)的干擾,對(duì)所有數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化處理,使所有數(shù)據(jù)范圍處于[0,1]的區(qū)間內(nèi)。
預(yù)測(cè)問題主要分為分類和回歸兩類。預(yù)測(cè)離散的值使用分類,預(yù)測(cè)連續(xù)的值使用回歸[11]。本研究主要通過學(xué)習(xí)者日常學(xué)習(xí)行為對(duì)學(xué)生期末學(xué)業(yè)成績(jī)進(jìn)行回歸預(yù)測(cè)?;貧w預(yù)測(cè)一般根據(jù)預(yù)測(cè)目標(biāo)來(lái)確定自變量和因變量,進(jìn)而建立回歸模型,再對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析,檢驗(yàn)回歸預(yù)測(cè)變量,計(jì)算預(yù)測(cè)誤差,并確定預(yù)測(cè)值[12]。目前,常用的回歸方法有支持向量機(jī)(SVM)、多元線性回歸(MLR)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等[13]。
傳統(tǒng)回歸建模方法是將原始數(shù)據(jù)集分為訓(xùn)練集、測(cè)試集和驗(yàn)證集三類,其中訓(xùn)練集用于模型的訓(xùn)練,驗(yàn)證集用于模型的調(diào)參,測(cè)試集用來(lái)檢驗(yàn)?zāi)P托阅艿暮脡摹S捎凇皢我荒P偷臎Q策可能會(huì)低于集體決策”,本研究在模型選擇上采用單一模型和集中學(xué)習(xí)模型相結(jié)合的方式,對(duì)學(xué)生期末學(xué)業(yè)成績(jī)進(jìn)行預(yù)測(cè)分析[14]。預(yù)測(cè)模型分為兩部分:第一部分進(jìn)行監(jiān)督學(xué)習(xí),將已知各項(xiàng)屬性用于模型對(duì)預(yù)測(cè)變量的訓(xùn)練,建立模型參數(shù);第二部分對(duì)模型進(jìn)行優(yōu)化,將原模型結(jié)果與優(yōu)化結(jié)果進(jìn)行對(duì)比,檢驗(yàn)?zāi)P偷奶嵘潭龋u(píng)估模型的性能。
2.1.1 多元線性回歸(Multiple Linear Regression)
建立多元線性回歸(MLR)模型時(shí),為了保證回歸模型具有良好的解釋能力和預(yù)測(cè)效果,應(yīng)注意自變量的選擇:
(1)自變量對(duì)因變量要有顯著影響,并呈現(xiàn)出線性相關(guān)性;
(2)自變量與因變量的關(guān)系必須是真實(shí)的,而不是形式上的;
(3)自變量間須有互斥度,自變量之間的相關(guān)性不應(yīng)高于自變量與因變量之間的相關(guān)性[15]。
對(duì)于n維特征的樣本數(shù)據(jù),在使用線性回歸時(shí),對(duì)應(yīng)的模型為
為簡(jiǎn)化模型,增加一個(gè)特征x0=1,使得
得到模型,需要求出損失函數(shù),一般線性回歸采用均方誤差作為損失函數(shù)。損失函數(shù)的代數(shù)法表示如下:
其中,求損失函數(shù)最小化參數(shù)的方法一種是梯度下降法,一種是最小二乘法。
2.1.2 支持向量機(jī)(Support Vector Machines)
支持向量機(jī)(SVM)在解決高維特征的分類和回歸問題方面很有效,特征維度大于樣本數(shù)時(shí)依然有很好的效果。它有大量的核函數(shù)可以使用,從而可以很靈活地解決各種非線性的分類回歸問題。且樣本數(shù)據(jù)不是海量數(shù)據(jù)時(shí),分類的準(zhǔn)確率高,泛化能力強(qiáng)[16]。
在回歸問題中,常用的誤差函數(shù)是最小平方和誤差函數(shù),其表示如下:
2.1.3 人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)
人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種通過神經(jīng)元的處理單元相互連接而組成的一套機(jī)器學(xué)習(xí)方法。神經(jīng)網(wǎng)絡(luò)主要由輸入層、隱藏層和輸出層構(gòu)成,同時(shí),神經(jīng)網(wǎng)絡(luò)在輸入層、隱藏層和輸出層上都部署了非線性函數(shù)的組合[17]。神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于社會(huì)的各個(gè)領(lǐng)域,在教育領(lǐng)域主要通過不同的神經(jīng)網(wǎng)絡(luò)算法組合實(shí)現(xiàn)學(xué)生學(xué)習(xí)效果預(yù)測(cè)和學(xué)習(xí)預(yù)警等。與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,神經(jīng)網(wǎng)絡(luò)在一般情況下預(yù)測(cè)準(zhǔn)確率更優(yōu),因此適用于學(xué)業(yè)成績(jī)預(yù)測(cè)。
2.1.4 隨機(jī)森林(Random Forest)
隨機(jī)森林(RF)是采用集成學(xué)習(xí)的思想將多棵樹集成的一種算法,它的基本單元是決策樹。它集成多棵決策樹的預(yù)測(cè),其中每棵樹都由基于隨機(jī)向量的一個(gè)獨(dú)立集合的值產(chǎn)生[18]。
隨機(jī)森林具有極好的準(zhǔn)確率,能夠有效地運(yùn)行在大數(shù)據(jù)集上,它能夠處理具有高維特征的輸入樣本,并且不需要進(jìn)行降維處理。此外,隨機(jī)森林還能夠評(píng)估各個(gè)特征在分類問題上的重要性,在生成過程中,它通過獲取內(nèi)部生成誤差的一種無(wú)偏估計(jì),對(duì)缺省值問題也可以得出很好的結(jié)果[19]。
本研究采用4∶1的比例將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,分別使用MLR、SVM、ANN和RF四種算法在訓(xùn)練集上訓(xùn)練,比較這四種回歸算法的性能[20]。之后對(duì)MLR、SVM和RF三種算法采用十折交叉驗(yàn)證方法重新劃分?jǐn)?shù)據(jù)集;同時(shí)將所有設(shè)定參數(shù)進(jìn)行排列組合,選取最優(yōu)模型性能;對(duì)ANN采用改進(jìn)超參數(shù)的方法優(yōu)化模型參數(shù),同時(shí)比較優(yōu)化后的模型性能。
研究流程圖如圖1所示。
本研究采用MAE(平均絕對(duì)誤差)和MSE(均方誤差)兩項(xiàng)回歸評(píng)價(jià)指標(biāo)來(lái)評(píng)定模型性能。這兩個(gè)指標(biāo)都是用來(lái)描述預(yù)測(cè)值與真實(shí)值之間的誤差情況,指標(biāo)值越小,說(shuō)明模型性能越好,預(yù)測(cè)值與真實(shí)值之間的誤差越小。二者的計(jì)算公式分別如下:
本研究實(shí)驗(yàn)平臺(tái)為PC平臺(tái),處理器Inter Corei7-11800H,Windows版本21H1,基于Python3.8環(huán)境下,運(yùn)用Python自帶工具進(jìn)行數(shù)據(jù)預(yù)處理,安裝tensorflow2.5版本進(jìn)行神經(jīng)網(wǎng)絡(luò)模型構(gòu)建。在其他預(yù)測(cè)工具及集成學(xué)習(xí)模型方面,使用Keras進(jìn)行模型的構(gòu)建與改進(jìn)。
將四種預(yù)測(cè)模型的預(yù)測(cè)值與真實(shí)值進(jìn)行對(duì)比,實(shí)現(xiàn)同一課程不同模型之間的對(duì)比分析,尋找不同預(yù)測(cè)模型之間預(yù)測(cè)的差異,選擇最優(yōu)模型對(duì)學(xué)生期末學(xué)業(yè)成績(jī)進(jìn)行預(yù)測(cè)及分析[21]。其中,四種初始模型的預(yù)測(cè)成績(jī)與實(shí)際成績(jī)的誤差曲線如圖2—圖5所示。圖中虛線線條為已知的真實(shí)值,其下方的折線為四種模型的預(yù)測(cè)成績(jī)。數(shù)據(jù)點(diǎn)越接近虛線線條,其對(duì)應(yīng)的預(yù)測(cè)模型越好。
從圖2—圖5可以看出,四種方法的成績(jī)預(yù)測(cè)誤差曲線區(qū)別較小,不易看出四個(gè)模型中哪個(gè)效果更好。表2給出了評(píng)估指標(biāo)的具體數(shù)值,展現(xiàn)出了各模型預(yù)測(cè)性能的好壞。
表2 四種原始模型的評(píng)估指標(biāo)
從表2可以看出,上述實(shí)驗(yàn)樣本中ANN的MSE和MAE均最小,其次是RF,對(duì)比之下,MLR和SVM的效果較差。
在上述實(shí)驗(yàn)?zāi)P秃蛯?shí)驗(yàn)樣本中,人工神經(jīng)網(wǎng)絡(luò)的表現(xiàn)最好,兩項(xiàng)指標(biāo)在四個(gè)模型中均為最小值。但其MSE和MAE的數(shù)值仍較大,不符合預(yù)期期望。因此,針對(duì)同一實(shí)驗(yàn)樣本和模型,本文對(duì)方法進(jìn)行優(yōu)化,從而得出更好的結(jié)果。優(yōu)化后的模型結(jié)構(gòu)流程圖如圖6所示。
由于數(shù)據(jù)集樣本數(shù)量有限,因此采用K折交叉驗(yàn)證的方法對(duì)數(shù)據(jù)集進(jìn)行“擴(kuò)充”,同時(shí),還可以評(píng)估模型的泛化能力。K的值取為10,通過測(cè)試,10折交叉驗(yàn)證在偏差和方差之間可以取得最佳的平衡。
對(duì)實(shí)驗(yàn)?zāi)P偷膬?yōu)化,主要采用改進(jìn)參數(shù)設(shè)置來(lái)提升模型性能。原始模型采用默認(rèn)參數(shù)進(jìn)行實(shí)驗(yàn),針對(duì)本實(shí)驗(yàn)樣本數(shù)據(jù),不一定會(huì)得到最佳效果。因此,對(duì)模型的各項(xiàng)參數(shù)設(shè)定不同的值,通過參數(shù)間的排列組合,來(lái)尋找最佳參數(shù)的組合,提升模型性能。
對(duì)于隨機(jī)森林(RF),通過設(shè)置其子樹數(shù)量、分支數(shù)量以及葉子結(jié)點(diǎn)數(shù)量進(jìn)行嵌套循環(huán),尋找最優(yōu)組合對(duì)象;支持向量機(jī)(SVM)則通過其核函數(shù)和C值(懲罰系數(shù))來(lái)尋找泛化能力較強(qiáng)的模型;人工神經(jīng)網(wǎng)絡(luò)(ANN)則通過調(diào)整其神經(jīng)元數(shù)量(neurons)、激活函數(shù)(activations)與全連接層數(shù)量(denses)來(lái)提升其模型性能。多元線性回歸由于是一條直線,本研究中不需要進(jìn)行優(yōu)化處理。
模型優(yōu)化后的各項(xiàng)指標(biāo)對(duì)比見表3。
表3 優(yōu)化后四種模型評(píng)估指標(biāo)
從表3可以看出,模型優(yōu)化之后,此數(shù)據(jù)集下人工神經(jīng)網(wǎng)絡(luò)沒有太好的優(yōu)化效果,MAE(平均絕對(duì)誤差)只下降了0.19,而MSE(均方誤差)反而上升了5。人工神經(jīng)網(wǎng)絡(luò)在常規(guī)回歸實(shí)驗(yàn)中的效果比較好,但是在本實(shí)驗(yàn)數(shù)據(jù)樣本下,卻沒有達(dá)到預(yù)期效果。而隨機(jī)森林和支持向量機(jī)在本實(shí)驗(yàn)數(shù)據(jù)樣本下取得了極大幅度的提升。經(jīng)多次對(duì)比試驗(yàn)驗(yàn)證,排除了因?yàn)檫^擬合情況導(dǎo)致的MAE和MSE誤差值過小的問題。故此,在本實(shí)驗(yàn)中,支持向量機(jī)預(yù)測(cè)結(jié)果好于隨機(jī)森林,遠(yuǎn)高于人工神經(jīng)網(wǎng)絡(luò)和多元線性回歸。
本文采用數(shù)據(jù)挖掘方法中常用的回歸預(yù)測(cè)手段,對(duì)學(xué)生期末學(xué)業(yè)成績(jī)進(jìn)行回歸預(yù)測(cè)分析。疫情以來(lái),在線教育的快速發(fā)展不僅給學(xué)生帶來(lái)新的機(jī)遇,同時(shí)也帶來(lái)了新的挑戰(zhàn)。隨著學(xué)生網(wǎng)課時(shí)間越來(lái)越多,如何對(duì)線上學(xué)生的期末學(xué)業(yè)成績(jī)進(jìn)行預(yù)測(cè),以便為學(xué)生及時(shí)提供學(xué)業(yè)預(yù)警及其他干預(yù)措施顯得尤為重要[22]。在大數(shù)據(jù)時(shí)代,將學(xué)生在線學(xué)習(xí)所產(chǎn)生的大量非線性數(shù)據(jù)與線下學(xué)習(xí)產(chǎn)生的線性數(shù)據(jù)相結(jié)合,對(duì)探尋學(xué)生期末學(xué)業(yè)成績(jī)的影響因素至關(guān)重要。
基于本研究采用的數(shù)據(jù)集,學(xué)生在線學(xué)習(xí)情況對(duì)期末學(xué)業(yè)成績(jī)的影響因素中,測(cè)試平均分對(duì)學(xué)生學(xué)業(yè)成績(jī)的影響最大,其次是上課出勤率和學(xué)習(xí)資源數(shù),而其他在線學(xué)習(xí)因素對(duì)學(xué)生學(xué)業(yè)成績(jī)的影響相對(duì)較小。學(xué)生的線下成績(jī)呈線性分布,每個(gè)屬性都有相應(yīng)的比例。因此,通過線上學(xué)習(xí)行為表現(xiàn)與線下成績(jī)相結(jié)合對(duì)學(xué)業(yè)成績(jī)進(jìn)行預(yù)測(cè)對(duì)當(dāng)今學(xué)生教育具有重要意義。同時(shí),還可以根據(jù)在線教育平臺(tái)對(duì)學(xué)生學(xué)業(yè)成績(jī)的影響屬性的關(guān)系,對(duì)在線教育平臺(tái)的改進(jìn)以及實(shí)現(xiàn)學(xué)生真正的個(gè)性化教育提供良好的幫助。
本研究采用三種機(jī)器學(xué)習(xí)模型和一種神經(jīng)網(wǎng)絡(luò)模型對(duì)學(xué)生期末學(xué)業(yè)成績(jī)進(jìn)行預(yù)測(cè),分析和比較了預(yù)測(cè)的結(jié)果和模型的評(píng)估指標(biāo),提供了本數(shù)據(jù)集中最優(yōu)的實(shí)驗(yàn)?zāi)P?。研究還存在一些局限性,由于數(shù)據(jù)的缺失與數(shù)據(jù)的不平衡,教師的主觀評(píng)分影響較大,研究場(chǎng)景未能覆蓋大學(xué)學(xué)習(xí)環(huán)境中對(duì)學(xué)業(yè)成績(jī)產(chǎn)生影響的所有因素。在后期研究中,將在更多的學(xué)習(xí)場(chǎng)景中結(jié)合不同學(xué)生的學(xué)習(xí)類型和學(xué)習(xí)行為數(shù)據(jù),針對(duì)場(chǎng)景特點(diǎn)提供最優(yōu)的預(yù)測(cè)模型,以直觀、清晰的方式對(duì)高校教師提供技術(shù)支持,以便對(duì)學(xué)生學(xué)習(xí)提供專業(yè)指導(dǎo),對(duì)提升高校學(xué)生的個(gè)性化教育起到推動(dòng)作用。