張文娟,張 彬,楊皓哲
(同濟大學(xué)機械與能源工程學(xué)院,上海 201800)
隨著教育信息化的發(fā)展,教育數(shù)據(jù)挖掘逐漸成為了教育行業(yè)關(guān)心的重要課題[1]. 教育數(shù)據(jù)挖掘旨在通過對海量的教育數(shù)據(jù)的分析,發(fā)現(xiàn)隱藏其中的規(guī)律和聯(lián)系,從而幫助教育者更好提高教育質(zhì)量和教學(xué)水平. 合理的學(xué)生成績預(yù)測被認為能夠有效幫助學(xué)生提高學(xué)習(xí)成績.
為了實現(xiàn)該目標(biāo),Okubo等[2]提出成績預(yù)測分析系統(tǒng)應(yīng)包含以下三個功能:學(xué)習(xí)成績預(yù)測、確定成績重要影響因素、確定反饋時間. 準確的成績預(yù)測可以提前預(yù)見學(xué)生的最終成績從而幫助學(xué)生避免最壞結(jié)果;重要影響因素的確定可以幫助學(xué)生有的放矢的改進學(xué)習(xí)方法,提高學(xué)習(xí)成績;合理的反饋時間點既可以較準確的預(yù)測學(xué)生成績,又可以給學(xué)生留下足夠的反應(yīng)時間. 目前國內(nèi)外大多數(shù)研究也都是圍繞這三個方面展開. 例如,Pandey等[3]構(gòu)建了決策樹模型對學(xué)生學(xué)習(xí)成績進行預(yù)測,但僅使用信息增益率篩選了相對重要的影響因素進行預(yù)測,沒有考慮所有因素;Okubo等[4]對比了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與傳統(tǒng)回歸分析對學(xué)生成績的預(yù)測效果,得出了RNN網(wǎng)絡(luò)早期預(yù)測效果更優(yōu)的結(jié)論;Lu等[5]利用主成分回歸法來實現(xiàn)學(xué)生成績的預(yù)測,并且通過設(shè)置多時間段對比實驗實現(xiàn)了反饋時間的確定;Aydodu等[6]在對前人研究方法進行整理對比的基礎(chǔ)上得出利用人工神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)成績預(yù)測的方法具有更高精度的結(jié)論;李夢瑩等[7]利用注意力機制的神經(jīng)網(wǎng)絡(luò)解決了成績重要影響因素的確定問題,但沒有考慮對學(xué)習(xí)者的及時反饋;Hassan等[8]的研究中以五周為間隔設(shè)置等距實驗點,通過對比實驗找到了合適的預(yù)測與反饋時間點;杜欣遠[9]在研究中按照數(shù)據(jù)集的時間跨度進行平均分割來確定預(yù)測點,并對比預(yù)測效果來選擇預(yù)測與反饋時間點;Waheed等[10]利用神經(jīng)網(wǎng)絡(luò)算法,通過多時間段對比實驗找到了滿意的反饋時間點,既達到了較高的預(yù)測準確率,又留給學(xué)生足夠的反應(yīng)時間.
分析以上文獻,可以看出在成績預(yù)測問題上神經(jīng)網(wǎng)絡(luò)算法比傳統(tǒng)算法更具優(yōu)勢,同時大多數(shù)研究都是基于不同學(xué)習(xí)行為等因素對學(xué)習(xí)者影響程度一致的假設(shè)展開,并且對時間因素、反饋時間確定等方面研究較少且存在程序繁瑣、結(jié)果普遍性差等問題,缺乏快速有效尋找合理預(yù)測與反饋時間點的方法. 同時,Baker[11]在研究中指出,學(xué)習(xí)者使用學(xué)習(xí)軟件時的點擊率、回復(fù)水平以及時間、順序等多個因素均在教育數(shù)據(jù)的研究中起著重要作用. 因此,如何更全面準確地利用學(xué)習(xí)行為和時間序列等數(shù)據(jù)來對學(xué)生成績進行預(yù)測,如何能夠在較高預(yù)測準確度下快速找到較早的預(yù)測時間點,并將較為重要的學(xué)習(xí)行為反饋給學(xué)習(xí)者,已經(jīng)成為亟需解決的一些問題. 對此,本文提出了一種集成了屬性特征注意力機制、時間步注意力機制、GRU和一維CNN的基于雙注意力機制的GRU-CNN神經(jīng)網(wǎng)絡(luò)模型(dual-attention-GRU-CNN,DA-GRU-CNN),在實現(xiàn)較高準確度的學(xué)生成績預(yù)測、確定成績重要影響因素的同時,快捷地確定反饋時間點.
虛擬學(xué)習(xí)環(huán)境(virtual learning environments,VLE)為學(xué)習(xí)者提供了一個資源豐富的網(wǎng)絡(luò)學(xué)習(xí)平臺,同時也記錄了學(xué)習(xí)者的學(xué)習(xí)行為數(shù)據(jù). 本文利用VLE中保存的學(xué)習(xí)行為數(shù)據(jù),對學(xué)習(xí)者的期末成績進行預(yù)測,同時將不同的學(xué)習(xí)行為和學(xué)習(xí)周期內(nèi)各時間段對學(xué)習(xí)者期末成績的影響程度進行可視化分析,從而找到重要的學(xué)習(xí)行為和可以及時對學(xué)習(xí)者進行反饋的時間點.
為有效描述基于VLE的大數(shù)據(jù)預(yù)測,做出以下假設(shè):
(1)VLE準確記錄了學(xué)習(xí)者在學(xué)習(xí)過程中的點擊流軌跡,不存在記錄錯誤、遺漏的情況.
(2)每個學(xué)習(xí)者都具有獨一無二的學(xué)號,記為學(xué)習(xí)者i,設(shè)n為學(xué)習(xí)者的個數(shù),V為在線學(xué)習(xí)者的集合,有|V|=n.
(3)課程期末進行考試,最終成績y分為Distinction(優(yōu)秀)、Pass(及格)、Fail(不及格)、Withdrawn(棄考)四個等級,記為Y=(y1,y2,y3,y4)T,其中y1,y2,y3,y4取值為0或1,且y1+y2+y3+y4=1.
(4)不同學(xué)期開設(shè)的同一門課程內(nèi)容完全一致,C為課程集合,m為課程數(shù)量,g表示第g門課程,則C={cg|g=1…m},P為學(xué)期集合,q為學(xué)期數(shù),h表示第h學(xué)期,則P={ph|h=1…q};同一學(xué)習(xí)者能且只能在不同學(xué)期選修同一門課程,同一學(xué)習(xí)者選修的不同課程或不同學(xué)期的同一課程視為不同記錄,記為Ci,g,h,表示學(xué)生i在第h學(xué)期選修課程g的記錄.
(5)設(shè)一門課程包括k個學(xué)習(xí)周,T為學(xué)習(xí)周的集合,|T|=k,t表示第t周.
(6)學(xué)習(xí)者學(xué)習(xí)特征信息:設(shè)X∈Rn*k*d表示學(xué)習(xí)者的學(xué)習(xí)行為特征,n為學(xué)習(xí)者數(shù)量,k為學(xué)習(xí)者學(xué)習(xí)行為特征的時間步長度,d為學(xué)習(xí)者學(xué)習(xí)行為特征向量的維度,l表示第l個維度.
(7)學(xué)習(xí)行為特征:設(shè)Ai∈Rk*d表示學(xué)生i的學(xué)習(xí)行為特征,即有X=[A1,A2,…An],該數(shù)據(jù)通過虛擬學(xué)習(xí)系統(tǒng)的日志文件獲取.
(8)對學(xué)習(xí)者的反饋是靜態(tài)的,即對學(xué)生僅進行一次反饋,不考慮學(xué)生因獲得反饋調(diào)整學(xué)習(xí)活動后繼續(xù)進行反饋的情況.
本文旨在對VLE系統(tǒng)中存儲的教育數(shù)據(jù)進行挖掘與分析,實現(xiàn)對成績的準確預(yù)測,并分析出影響不同學(xué)生最終學(xué)習(xí)成績的關(guān)鍵學(xué)習(xí)時段和學(xué)習(xí)行為中的重要影響因素. 根據(jù)Aydodu等[6]的結(jié)論,在學(xué)生成績預(yù)測方面人工神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)預(yù)測方法具有更好的性能,因此本文以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)來實現(xiàn)對學(xué)生成績的預(yù)測. 同時,考慮到不同學(xué)習(xí)行為和不同時間階段對最終學(xué)習(xí)成績的影響程度是不同的,本文分別針對學(xué)習(xí)者的學(xué)習(xí)行為屬性特征和學(xué)習(xí)的時間步特征加入注意力機制,來賦予各學(xué)習(xí)行為特征和時間步特征對結(jié)果影響的合適權(quán)重,從而解決了數(shù)據(jù)的不同屬性特征和時間步對最終結(jié)果重要性不同的問題,實現(xiàn)了對信息更為充分的利用. 另外,本文集成了GRU模型和一維CNN模型對時間序列數(shù)據(jù)處理的優(yōu)勢,將其聯(lián)合起來引入到VLE大數(shù)據(jù)分析中,取得了較好的預(yù)測精度.
本文所提出的集成了CNN與雙注意力機制GRU的模型(DA-CNN-GRU)結(jié)構(gòu)框架如圖1所示,模型主要包含6層:輸入編碼層(input embedding layer)、屬性特征注意力層(attribute attention layer)、GRU層(GRU layer)、時間步注意力層(timestep attention layer)、卷積層(CNN layer)、標(biāo)簽預(yù)測層(label prediction layer),圖中Acquiring data表示原始數(shù)據(jù)集,Dimension Attention 表示屬性維度注意力模塊,Timestep Attention表示時間步注意力模塊,Global AvgPool表示全局平均池化模塊,Concatenation表示特征融合模塊,MLP表示多層感知機模塊.
圖1 DA-CNN-GRU 模型結(jié)構(gòu)圖
輸入編碼層主要是對輸入數(shù)據(jù)中的各屬性值以及監(jiān)督學(xué)習(xí)情況下的標(biāo)簽進行編碼預(yù)處理. 本文采用因子分解(factorize)方式對學(xué)生行為屬性進行編碼. 預(yù)測標(biāo)簽分為四類(優(yōu)秀、及格、不及格、棄考),對此采用one-hot編碼. 從而生成學(xué)生i的特征矩陣Ai∈Rk*d和成績向量yi.
(1)
Y=(y1,y2,y3,y4)T,
(2)
式中,d為學(xué)生學(xué)習(xí)行為的屬性特征向量,在本文中固定為20;k為學(xué)生學(xué)習(xí)行為的時間步向量,在本文中固定為38;y1,y2,y3,y4取值為0或1,其中有且只有一項為1.
通過對各屬性特征進行編碼后,可以得到特征矩陣A和標(biāo)簽Y.考慮到學(xué)習(xí)行為的不同屬性特征對最終成績的影響程度不同,本文設(shè)計了屬性特征注意力機制來解決該問題.屬性注意力機制是根據(jù)各學(xué)習(xí)行為屬性與最終成績之間的關(guān)系,為各屬性特征分配合適的注意力權(quán)重,從而解決不同屬性因素對學(xué)生最終成績的影響程度不同的問題.本文采用多層感知機(multi-layer perceptron,MLP)來進行注意力權(quán)重的分配,將學(xué)生特征矩陣A中的每一列向量Al視為對應(yīng)屬性特征向量,即Al=(a1,l,a2,l,…,ak,l)T,代表了第l種學(xué)習(xí)行為的特征向量,at,l代表行為l的第t維.由于每個學(xué)生都記錄有共k周的行為數(shù)據(jù),因此每一個行為都具有k個維度,從而利用MLP可以得到任意學(xué)習(xí)行為特征向量Al的注意力權(quán)重αl,具體計算過程為:
ul=MLP(Al),l=1,2,…,d.
(3)
用歸一化指數(shù)函數(shù)(softmax)對所得權(quán)重進行歸一化處理,得到各學(xué)習(xí)行為特征的注意力得分αl=(α1,α2,…,αd),該過程可以形式化表示為:
(4)
式中,αl指第l個學(xué)習(xí)行為特征的注意力得分,該得分越高則代表該學(xué)習(xí)行為對學(xué)生最終成績的影響程度越大,因此向量α可以反映在學(xué)習(xí)過程中不同學(xué)習(xí)行為的重要程度.將各學(xué)習(xí)行為注意力得分向量α與學(xué)習(xí)行為特征矩陣A中對應(yīng)位置的學(xué)習(xí)行為特征值進行加權(quán)求和,得到學(xué)生屬性特征f1,具體計算過程為:
(5)
GRU網(wǎng)絡(luò)是RNN的一種特殊形式,本文用其來處理學(xué)生行為的時間步信息,GRU可用式(6)~(9)描述:
zt=σ(Wz·[ht-1,xt]),
(6)
rt=σ(Wr·[ht-1,xt]),
(7)
(8)
(9)
式中,xt、ht分別代表每個GRU的輸入和輸出,在本文中即代表學(xué)生i第t周的學(xué)習(xí)行為向量和經(jīng)過GRU處理的第t周隱藏狀態(tài);W*代表對應(yīng)的權(quán)重系數(shù)矩陣;zt、rt分別表示GRU中t時刻更新門和重置門的函數(shù)表達式;σ表示sigmoid激活函數(shù),其輸出值的取值范圍為[0,1];tanh表示雙曲線正切激活函數(shù).將經(jīng)過輸入編碼層處理的學(xué)生特征矩陣A中的每一行向量Aj*視為對應(yīng)的時間步向量,即Aj*=(aj,1,aj,2,…,aj,d),代表了第j個時間步即第j周,aj,l表示第j個時間步的第l個學(xué)習(xí)行為.由于VLE系統(tǒng)中共記錄了d種學(xué)習(xí)行為,因此每一個時間步都包含d維.把每一個學(xué)生的Aj*輸入GRU層,通過輸出每個GRU在t時刻的狀態(tài)ht來實現(xiàn)對時間序列數(shù)據(jù)的編碼ht=(ht,1,ht,2,…,ht,d)T,t=1,2,…,k.
為了解決不同時間段的學(xué)習(xí)數(shù)據(jù)對最終成績影響不同的問題,本文對GRU層傳遞的編碼數(shù)據(jù)h進行時間步賦權(quán),并且可以找出對學(xué)生最終成績影響較重時間段,實現(xiàn)及時反饋.學(xué)生第t周行為特征向量xt經(jīng)過GRU層的處理得到隱藏狀態(tài)ht,其可以視為利用GRU完成的一種編碼. 該層采用MLP實現(xiàn)對編碼ht進行注意力權(quán)重的分配,從而計算出各時間步的注意力權(quán)重βt.具體計算步驟為:
vt=MLP(ht),t=1,2,…,k.
(10)
用歸一化指數(shù)函數(shù)(softmax)對所得權(quán)重進行歸一化處理,分別得到各時間步的注意力得分β=(β1,β2,…,βk),該過程可以形式化表示為:
(11)
式中,βt指第t個時間步的注意力得分,該注意力得分越高則表明對應(yīng)時間步的行為對學(xué)生最終成績影響越大,因此可以根據(jù)注意力得分向量β來確定反饋時間.將注意力得分向量β與對應(yīng)的GRU編碼后的時間狀態(tài)h進行加權(quán)求和,得到學(xué)習(xí)行為時間步特征,具體計算過程為:
(12)
卷積神經(jīng)網(wǎng)絡(luò)可以對原始數(shù)據(jù)進行更高層次的表達,從而達到特征提取的目的.本文采用的一維CNN結(jié)構(gòu)常用于處理文本與時間序列數(shù)據(jù)[12],由數(shù)據(jù)先驗可知有些時序數(shù)據(jù)之間存在一些較強的相關(guān)性,所以能夠運用CNN來處理其局部特征.本文將學(xué)生特征矩陣Ai輸入CNN層,利用一維CNN結(jié)構(gòu)來提取學(xué)生行為的時間步數(shù)據(jù),卷積層處理得到的學(xué)生時間步特征圖Ci可表示為:
Ci=f(Ai?Wi+bi),
(13)
式中,Ai為學(xué)生特征矩陣.對一維CNN而言,學(xué)生行為屬性維度均默認為d不進行處理,因此僅對時間步維度進行卷積操作.?為卷積操作,Wi為卷積核的權(quán)重向量,bi表示偏移量,f(·)為激活函數(shù),本文設(shè)置為線性整流函數(shù)(rectified linear unit,Relu). 本文利用CNN抽取原始數(shù)據(jù)特征,挖掘多維數(shù)據(jù)之間的關(guān)系,并將處理后得到的特征圖Ci輸入全局平均池化層(GlobalAvgPool),按列進行平均池化操作,從而得到降維后的平均特征f3.
由學(xué)習(xí)行為屬性注意力層計算得到的基于學(xué)習(xí)行為屬性的學(xué)生特征f1,和由時間步注意力層計算得到的基于學(xué)習(xí)行為時間步的學(xué)生特征f2,是分別從兩個維度進行的學(xué)生成績預(yù)測,因此所含信息具有互補性,有必要對兩個特征進行融合,以便更全面準確地利用信息對學(xué)生成績進行預(yù)測.本文選擇以串聯(lián)(concatenation)方式進行特征融合,將兩個維度的學(xué)習(xí)行為特征進行拼接,得到一個完整的學(xué)生特征f′,該過程可表示為:
f′=[f1;f2],
(14)
式中,[.;.]表示特征拼接操作.
為了獲得更好的預(yù)測性能,對前面得到的學(xué)生特征f′和對時間步行提取得到的平均特征f3以串聯(lián)(concatenation)方式進行融合,得到更豐富信息特征f,從而提高模型預(yù)測性能,該過程表示為:
f=[f′;f3],
(15)
式中,f3為f1與f2進行特征融合后形成的最終特征.
本文采用邏輯回歸的多分類模式對最終特征f進行解碼,利用MLP來實現(xiàn)邏輯回歸的多分類功能,輸出層使用歸一化指數(shù)函數(shù)(softmax)得到各成績預(yù)測類別Y:
Y=MLP(f).
(16)
本文在英國開放大學(xué)提供的基于虛擬學(xué)習(xí)環(huán)境(VLE)的學(xué)習(xí)分析數(shù)據(jù)集(open university learning analytics dataset,OULAD)的基礎(chǔ)上展開實驗[13]. OULAD中共包含22門課程的數(shù)據(jù),每門課程開課時間為38周,VLE中共記錄有5種學(xué)生基本信息和20種學(xué)習(xí)行為信息,關(guān)于數(shù)據(jù)集的描述如表1所示. 本文所有實驗都按照8∶2的比例將數(shù)據(jù)集劃分訓(xùn)練集和測試集,每次實驗都用訓(xùn)練集訓(xùn)練數(shù)據(jù),并選擇最優(yōu)參數(shù),最后用測試集計算各項指標(biāo).
表1 數(shù)據(jù)集描述表
本文選取OULAD數(shù)據(jù)集中代號為“FFF”的課程的全部數(shù)據(jù),定義為數(shù)據(jù)集“FFF class”,同時引用Hassan等[8]提供的數(shù)據(jù)集“Pass-Withdraw”,兩數(shù)據(jù)集中成績分布如表2、表3所示.
表2 “FFF class”數(shù)據(jù)集成績統(tǒng)計表
表3 “Pass-Withdraw”數(shù)據(jù)集成績分布表
本文所提出的模型基于深度學(xué)習(xí)框架Keras展開實驗,考慮到本文所用樣本數(shù)量和維度都不是很大,所以模型初步定為單層GRU后經(jīng)過試驗證明增加更多GRU層一方面會大大增加模型的時間復(fù)雜度,另一方面存在過擬合傾向,因此最終定為單層GRU. 為了充分提取輸入樣本特征,注意力層的神經(jīng)元數(shù)量設(shè)定為與傳入數(shù)據(jù)的第三維度數(shù)量相同,因此針對不同樣本進行實驗時需要根據(jù)輸入樣本的情況進行調(diào)整. 為了防止過擬合的產(chǎn)生,在注意力融合層后加入Dropout層,參數(shù)設(shè)置為0.3,該函數(shù)會隨機地使一部分神經(jīng)元無效,從而在一定程度上防止過擬合. 卷積層數(shù)量初步定為3,后根據(jù)張永峰等[12]提供的方法進行實驗. 考慮卷積層權(quán)重分布情況和訓(xùn)練過程中誤差變化情況,發(fā)現(xiàn)卷積層自第三層開始對模型訓(xùn)練精準度提升的貢獻很小,因此最終卷積層數(shù)量確定為2層. 由于本文選取數(shù)據(jù)的時間序列最長為38,因此卷積核長度應(yīng)在1到38之間選擇,所以本文將第一個卷積核長度設(shè)為20,數(shù)量設(shè)為8,卷積核數(shù)量以2倍增加,所有卷積核滑動步長均設(shè)為1. 最后,采用softmax回歸進行解碼,由一個三層全連接網(wǎng)絡(luò)構(gòu)成,隱含層的激活函數(shù)設(shè)為“Relu”,輸出層的激活函數(shù)為“softmax”. 本模型采用的優(yōu)化器為Adam,網(wǎng)絡(luò)中其余的參數(shù)均采用測試效果較好時的參數(shù)或默認參數(shù). 網(wǎng)絡(luò)結(jié)構(gòu)的具體參數(shù)設(shè)置需根據(jù)不同的數(shù)據(jù)集的特點來進行調(diào)整.
本文采用了準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1-Measure)這四個指標(biāo)進行模型性能度量. 準確率是指分類正確的樣本數(shù)量占總樣本數(shù)的比例;精確率表示分類正確的正例的數(shù)量占所有預(yù)測為正例樣本總數(shù)的比例;召回率表示分類正確的正例的數(shù)量占所有正例樣本總數(shù)的比例;F1值是精確率和召回率的調(diào)和平均值. 通常認為準確率和F1值越高,模型預(yù)測分類性能越好.
3.3.1 對比實驗
將本文所提出的DA-GRU-CNN模型與支持向量機(support vector machine,SVM)、決策樹(decision tree,DT)、深度長短期記憶網(wǎng)絡(luò)(DEEP-LSTM)等三種其他學(xué)者用來解決該問題的模型[14]、[15]、[8],以及CNN、DA-GRU(雙注意力GRU模型)等兩個機制消融模型在“FFF class”和“Pass-Withdraw”兩個數(shù)據(jù)集中進行成績預(yù)測效果比較,以驗證本文提出方法的有效性,實驗結(jié)果如表4、表5所示.
表4 “FFF class”數(shù)據(jù)集實驗結(jié)果對比
從表4和表5可以看出,首先,相比其他學(xué)者在該問題上使用的預(yù)測模型,本文提出的DA-GRU-CNN模型在兩個數(shù)據(jù)集中均取得了較好的效果;其次,對比Hassan等[8]在該數(shù)據(jù)集上所提出的DEEP-LSTM模型,DA-GRU-CNN模型性能與其十分接近,但是模型的復(fù)雜程度遠低于前者,訓(xùn)練時間和反應(yīng)時間都大大縮短;最后,在與CNN、DA-GRU兩個消融模型的比較中,本文的模型也取得了更好的效果,這說明CNN模型提取的時序特征與DA-GRU模型對時序數(shù)據(jù)編碼的特征具有一定的信息互補性,因而兩組特征融合后取得了更好的效果.
3.3.2 學(xué)習(xí)行為可視化分析
為了挖掘出影響學(xué)生成績的具體因素,本文參考李夢瑩等[7]的方法對學(xué)生學(xué)習(xí)行為屬性特征注意力機制進行了權(quán)重可視化分析,圖2為利用“FFF class”數(shù)據(jù)集進行學(xué)生成績預(yù)測時各學(xué)習(xí)行為對最終成績的影響程度的權(quán)重分布圖. 該圖橫坐標(biāo)代表各學(xué)習(xí)行為即屬性特征編號,代表20種學(xué)習(xí)活動,縱坐標(biāo)代表該行為所占權(quán)重,權(quán)重越大表示對應(yīng)行為對最終成績的影響越大,所有活動的權(quán)重之和為1. 分析圖2可知,編號為1,3,9的三個學(xué)習(xí)行為對學(xué)生最終成績影響最大,這三個行為分別為課程任務(wù)的完成次數(shù)、課程主頁的瀏覽次數(shù)和課堂測驗的完成次數(shù). 由此可以推斷出,積極完成課堂測驗與課程任務(wù),認真學(xué)習(xí)課程主頁內(nèi)容是提高“FFF”課程成績的關(guān)鍵,在對該課程的學(xué)習(xí)者進行成績反饋時應(yīng)該重點強調(diào)這三項活動,從而達到幫助其提高最終成績的目的.
圖2 “FFF class”學(xué)習(xí)行為注意力權(quán)重
3.3.3 反饋時間可視化分析
為了能夠利用預(yù)測分析結(jié)果及時對學(xué)生進行反饋,從而給予學(xué)生足夠的學(xué)習(xí)時間來提高學(xué)習(xí)成績,本文在模型中設(shè)計了針對時間步的注意力機制,通過對全時間步的注意力權(quán)重可視化,來分析各時間步對學(xué)生最終成績的影響程度,從而找到一個合適的學(xué)習(xí)周,在此周之前所有周的注意力權(quán)重之和可以達到一個較高的值,因此利用該周之前的各周數(shù)據(jù)即可以較準確的進行最終成績預(yù)測,最終實現(xiàn)及時反饋.
在本文之前,不少專家學(xué)者對反饋時間的確定問題做出過研究,但大多是基于大量實驗來尋找可行點,如Hassan 等[8]曾利用“Pass-Withdraw”數(shù)據(jù)集進行實驗研究,尋找最佳的反饋時間段,從而達到反饋的及時性與準確性的平衡,其實驗結(jié)果如圖3所示. Hassan 等[8]利用其所提出的多層LSTM模型,以5周為間隔在“Pass-Withdraw”數(shù)據(jù)集上設(shè)置對比實驗,圖3的橫坐標(biāo)為模型訓(xùn)練次數(shù),縱坐標(biāo)表示預(yù)測學(xué)生成績的準確率,5條線分別代表利用前5周、前10周、前15周、前20周、前25周的學(xué)生學(xué)習(xí)行為數(shù)據(jù)進行實驗的結(jié)果. 實驗結(jié)果顯示當(dāng)反饋時間選為25周時,預(yù)測學(xué)生成績時可以取得超過95%的準確率,同時也給學(xué)生留下了13周的反應(yīng)時間來提高其學(xué)習(xí)成績,因此在第25周時對預(yù)測成績等級處于“Withdraw”的學(xué)生進行反饋,督促其學(xué)習(xí)具有比較好的效果.
圖3 Hassan團隊實驗結(jié)果
為了便于比較,本文也利用“DA-GRU-CNN”模型在“Pass-Withdraw”數(shù)據(jù)集上進行實驗,對38周學(xué)習(xí)行為進行時間步注意力權(quán)重可視化分析,權(quán)重分布圖如圖4所示. 其中橫坐標(biāo)代表各周的標(biāo)號,從0到37代表38個學(xué)習(xí)周,每一周的學(xué)習(xí)活動都會對最終成績產(chǎn)生一定的影響;縱坐標(biāo)代表注意力權(quán)重的大小,38周活動的權(quán)重之和為1,某一周的注意力權(quán)重越大,說明該周對學(xué)生最終成績影響程度越大. 從圖中可以看出在“Pass-Withdraw”數(shù)據(jù)集中,影響最終成績的時間段主要集中在學(xué)期的前半部分,第26周以前各周對最終成績的影響權(quán)重總和已經(jīng)超過90%,這也解釋了Hassan等的實驗可以在第25周左右取得較好預(yù)測效果的原因.
圖4 “Pass-Withdraw”時間步注意力權(quán)重分布圖
雖然Hanssan等的實驗結(jié)果可以在“Pass-Withdraw”數(shù)據(jù)集上取得較好的結(jié)果,但是其通過定性實驗分析來尋找到的結(jié)果的反饋及時性與精度的平衡點必然是十分依賴其目標(biāo)數(shù)據(jù)集的,適應(yīng)性較差,一旦更換數(shù)據(jù)集,就要重新進行實驗來尋找平衡點. 因此,為了提升反饋的準確性,實現(xiàn)個性化反饋,本文利用“FFF課程”數(shù)據(jù)集繼續(xù)實驗,將分類實驗進一步細化為二分類實驗,即將“FFF課程”數(shù)據(jù)集按照學(xué)生最終成績劃分為“FFF Pass-Fail”、“FFF Distinction-Pass”和“FFF Pass-Withdraw”三組切片,從而可以對不同情況的學(xué)習(xí)者進行反饋,實現(xiàn)個性化學(xué)習(xí). 本文以“FFF Pass-Fail”這個切片為例,繼續(xù)展開研究,其中僅包含F(xiàn)FF課程中所有成績?yōu)椤癙ass”和“Fail”的學(xué)習(xí)者行為數(shù)據(jù).
首先在Hanssan等提出的第25周這一時間點展開實驗,由于表4和表5已經(jīng)對多種算法的情況進行了對比分析,所以此處不再贅述其他算法的性能,僅用Hanssan等使用的DEEP-LSTM模型和本文提出的DA-GRU-CNN模型進行對比,對比結(jié)果如表6所示. 結(jié)果顯示,兩種模型在第25周這個節(jié)點均未取得比較好的預(yù)測效果,因此可以看出對于FFF課程的“Pass-Fail”類別的學(xué)生成績進行預(yù)測時,第25周并非反饋及時性與準確性的平衡點. 同時,在這種情況下,本文所提出的DA-GRU-CNN模型預(yù)測準確率比LSTM模型提高了接近十個百分點,再結(jié)合表4、表5的信息可以得出“DA-GRU-CNN”模型對殘缺信息的利用水平要高于LSTM模型的結(jié)論. 在此基礎(chǔ)上,繼續(xù)利用“DA-GRU-CNN模型”對38周學(xué)習(xí)時長進行時間步權(quán)重分布可視化分析,結(jié)果如圖5所示.
表6 “FFF Pass-Fail”25周實驗結(jié)果
圖5 “FFF Pass-Fail”時間步權(quán)重分布圖
分析圖5可知,當(dāng)預(yù)測數(shù)據(jù)來源時間段選擇為0到25周時,有大量高權(quán)重的學(xué)習(xí)周沒有被包含在該時間段內(nèi),因而出現(xiàn)了預(yù)測準確率較低的情況. 若要取權(quán)重之和大于0.9的時間段,至少要0到33周,因此推測當(dāng)反饋時間定在第33周時可以取得比較好的準確率. 為了驗證推測,本文從利用0至19周的數(shù)據(jù)進行預(yù)測實驗,變量梯度設(shè)置為1周,變?yōu)槔?至38周的數(shù)據(jù)進行預(yù)測,來尋找可以取得較好預(yù)測準確率水平的點,具體實驗結(jié)果見圖6.
圖6 “FFF Pass-Fail”預(yù)測準確率變化
圖6中橫坐標(biāo)表示周數(shù)的變化,對應(yīng)周數(shù)表示利用從第0周到該周的數(shù)據(jù)進行成績預(yù)測;縱坐標(biāo)表示預(yù)測的準確率. 該圖展現(xiàn)了DT、SVM、DEEP-LSTM和DA-GRU-CNN四個模型的預(yù)測準確率隨時間增加而變化的情況. 從該圖可以看出第33周以前四個模型的預(yù)測準確率隨周數(shù)上升而上升幅度較大,第33周之后上升幅度較小,且第33周時預(yù)測準確率均達到較高水平,與圖5所顯示的權(quán)重分配比例具有較高的一致性,從而可以判定反饋時間定為第33周時可以取得預(yù)測準確率與反饋及時性的平衡.
根據(jù)以上實驗可以看出,本文提出的“DA-GRU-CNN”模型在反饋時間的確定上具有更高的準確性與更好的適應(yīng)性,不僅使得尋找反饋時間平衡點的過程更為簡單,而且能夠更好的適應(yīng)不同的數(shù)據(jù)集,大大減少了尋找反饋時間平衡點的工作量.
在預(yù)測學(xué)習(xí)分析(predictive learning analytics,PLA)中,教育數(shù)據(jù)往往會來自不同的教育場景,如大學(xué)教育、中小學(xué)教育、MOOC平臺教育等,而算法模型對不同場景的數(shù)據(jù)處理能力是不同的. Hlosta等[16]在研究中指出,預(yù)測學(xué)習(xí)分析中解決方案的結(jié)果高度取決于可供分析的數(shù)據(jù),而這些數(shù)據(jù)取決于其來源教育機構(gòu)的類型. 然而,這些方法的思路常是相通的,不同的是這些場景下的特征需要根據(jù)實際情況進行重新選擇,并且大致將當(dāng)前的教育機制劃分為了中小學(xué)教育、大學(xué)教育、遠程成人教育和MOOC教育等類型. 因此有必要對本文提出的模型進行適用性范圍分析,從而改善模型的使用并促進進一步研究的展開.
為了對不同場景下的“DA-GRU-CNN”模型適用性進行測試,本文采用了由阿里云天池實驗室提供的公開數(shù)據(jù)集“students-academic-performance-dataset”(后文稱“sapd”數(shù)據(jù)集)對多種算法模型預(yù)測性能進行測試比較. 該數(shù)據(jù)集主要記錄了中小學(xué)學(xué)生課堂表現(xiàn),包含一學(xué)期內(nèi)學(xué)生的八項學(xué)習(xí)行為,標(biāo)記為學(xué)習(xí)行為0到7,分別代表了學(xué)生負責(zé)家長、課堂舉手次數(shù)、學(xué)習(xí)資源查看次數(shù)、公告查看次數(shù)、參與討論次數(shù)、家長參與學(xué)校調(diào)查情況、家長滿意度、缺課次數(shù). 預(yù)測結(jié)果如表7所示. 同時,利用本文所提出的“DA-GRU-CNN”模型對sapd數(shù)據(jù)集中的學(xué)習(xí)行為權(quán)重分布進行可視化分析,結(jié)果如圖7所示.
表7 “students-academic-performance-dataset”實驗結(jié)果
圖7 “students-academic-performance-dataset”學(xué)習(xí)行為注意力權(quán)重
根據(jù)表7實驗結(jié)果可知,在對該數(shù)據(jù)集的處理上,本文所提出的“DA-GRU-CNN”模型效果與其他模型相近,沒有突出優(yōu)勢. 分析實驗過程可知,由于該數(shù)據(jù)集是以學(xué)期為單位進行的總體統(tǒng)計,而非按照時間序列詳細統(tǒng)計學(xué)生學(xué)習(xí)過程中的各階段數(shù)據(jù),因此本文所提出的模型無法完全發(fā)揮針對數(shù)據(jù)時序特征的優(yōu)勢. 由此可以得出結(jié)論,本文所提出的“DA-GRU-CNN”模型對數(shù)據(jù)細節(jié)要求較高,需要相關(guān)數(shù)據(jù)能夠描述學(xué)習(xí)者在各階段的學(xué)習(xí)行為特征,因此該模型需要在MOOC平臺等具有強大數(shù)據(jù)搜集功能的虛擬學(xué)習(xí)環(huán)境中才可以發(fā)揮優(yōu)勢. 另外,從圖7中可以看出,1、2、3、7這四項行為對學(xué)生成績影響權(quán)重較大,即課堂舉手次數(shù)、學(xué)習(xí)資源查看次數(shù)、公告查看次數(shù)和缺課次數(shù)這四項行為對學(xué)生成績影響較大. 同時,對比Amrieh等[17]提出的基于信息增益的濾波器對該數(shù)據(jù)集進行特征選擇的實驗結(jié)果(圖8),可以看出兩種算法所提取的重要學(xué)習(xí)行為基本一致,由此也可以證明本文所提出算法可以較為準確的選擇出對學(xué)生成績影響較大的學(xué)習(xí)行為.
圖8 Amrieh團隊濾波實驗結(jié)果
前文實驗中采用的“FFF class”和“sapd”兩類數(shù)據(jù)集分別是遠程成人教育數(shù)據(jù)和中小學(xué)教育數(shù)據(jù). 經(jīng)過本文實驗分析可以看出,在遠程成人教育中,對成績影響較大的學(xué)習(xí)行為主要是課程任務(wù)的完成次數(shù)、課程主頁的瀏覽次數(shù)、課堂測驗的完成次數(shù)三項活動;而在中小學(xué)教育中成績影響較大的學(xué)習(xí)行為主要是課堂舉手次數(shù)、學(xué)習(xí)資源查看次數(shù)、公告查看次數(shù)和缺課次數(shù). 對比兩者的影響行為可以發(fā)現(xiàn)在兩種教育類型下既存在同樣的重要行為又存在不同的重要行為. 首先,無論是遠程成人教育中的“課程主頁瀏覽次數(shù)”還是中小學(xué)教育中的“學(xué)習(xí)資源查看次數(shù)”都是對學(xué)生學(xué)習(xí)課程資料次數(shù)的統(tǒng)計. 由此可以看出,無論是遠程成人教育還是中小學(xué)教育都需要重點關(guān)注學(xué)生對課程資料的學(xué)習(xí)過程. 同時,成人教育中“課程任務(wù)的完成次數(shù)”和“課堂測驗的完成次數(shù)”等行為都是對學(xué)到知識的應(yīng)用和練習(xí),由此可以看出遠程成人教育中對課程中學(xué)到知識的練習(xí)水平對學(xué)生成績影響更大,而中小學(xué)教育中“課堂舉手次數(shù)”“公告查看次數(shù)”和“缺課次數(shù)”等行為更多反映的是學(xué)生在受教育過程中與教育者的互動水平. 對比兩者的不同可以推測由于成人和中小學(xué)生的學(xué)習(xí)意愿、精力水平等受教育對象自身特點的不同以及所學(xué)習(xí)知識的難度不同,對成績有較大影響的學(xué)習(xí)行為也不同,因此需要針對不同受教育人群設(shè)計不同側(cè)重的教育機制.
本文針對虛擬學(xué)習(xí)環(huán)境(VLE)中的成績預(yù)測與結(jié)果反饋問題進行了研究. 具體研究內(nèi)容如下:(1)提出了一種基于大數(shù)據(jù)分析確定反饋時間的方法,建立了集成雙注意力機制的GRU與一維CNN的神經(jīng)網(wǎng)絡(luò)模型(DA-GRU-CNN);(2)針對確定重要成績影響因素和反饋時間的問題設(shè)計了雙注意力機制GRU算法;(3)在兩個公開數(shù)據(jù)集上進行了實驗,結(jié)果表明本文提出的模型預(yù)測性能較好,能夠有效篩選出影響學(xué)生成績的重要學(xué)習(xí)行為,并且可以更為快捷地確定反饋時間,模型普適性更好. 后續(xù),一方面可以對預(yù)測結(jié)果的動態(tài)反饋問題繼續(xù)展開研究,從而進一步提高反饋效果,幫助學(xué)習(xí)者提升成績;另一方面還可以針對邏輯性較強或抽象性較強的課程產(chǎn)生的數(shù)據(jù)分別展開研究,進一步提高模型效果.