郭 藝,何廷年,李愛斌,毛君宇
(西北師范大學(xué)計算機科學(xué)與工程學(xué)院,甘肅 蘭州 730070)
在線教育系統(tǒng)通過練習(xí)和考試來收集學(xué)生學(xué)習(xí)過程中的交互信息,并利用收集的數(shù)據(jù)提供個性化教育。在這其中,教育數(shù)據(jù)挖掘是在線教育系統(tǒng)中不可或缺的一部分,而知識追蹤又是此領(lǐng)域中重要的研究方向。
知識追蹤的目標(biāo)是通過分析學(xué)生的知識儲備以及知識狀態(tài)來預(yù)測學(xué)生對知識的掌握水平。知識追蹤問題可以描述為[1]:在練習(xí)集合Q={q1,q2,…,qn}中,通過學(xué)生與練習(xí)集合的交互操作,得到學(xué)生的觀測序列{x1,x2,x3,…,xn-1},通過對觀測序列的分析預(yù)測下次表現(xiàn)xn,通常xn={qn,rn},其中,qn表示回答的問題成分,也就是練習(xí)標(biāo)簽;rn表示對應(yīng)的回答是否正確,通常rn∈{0,1},0表示回答錯誤,1表示回答正確。
近年來,深度學(xué)習(xí)強大的表征能力,促使大量基于深度學(xué)習(xí)的知識追蹤模型涌現(xiàn),極具代表性的有深度知識追蹤模型DKT(Deep Knowledge Tracing)[2]、動態(tài)鍵值記憶網(wǎng)絡(luò)DKVMN(Dynamic Key-Value Memory Network)[3]和深度項目反應(yīng)理論Deep-IRT(Deep Item Response Theory)[4]等。DKT以循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)為基礎(chǔ)結(jié)構(gòu)[5],利用RNN中的隱藏狀態(tài)表示學(xué)生的知識狀態(tài)。DKVMN實現(xiàn)了對記憶增強網(wǎng)絡(luò)MANN(Memory-Augmented Neural Network)的優(yōu)化,提出了使用鍵值對矩陣作為內(nèi)存結(jié)構(gòu),鍵(key)矩陣是一個靜態(tài)矩陣,用來存儲題目的知識成分,值(value)矩陣是一個動態(tài)矩陣,用來存儲學(xué)生動態(tài)練習(xí)的知識狀態(tài)。
根據(jù)教育心理學(xué)中的成敗歸因論,學(xué)習(xí)者答題過程中會因為努力程度、身心狀態(tài)和心情等主觀因素而對答題結(jié)果產(chǎn)生一定的影響。傳統(tǒng)DKVMN模型未考慮到學(xué)生答題過程中的心理或行為特征對練習(xí)以及預(yù)測結(jié)果的影響,如答題過程中嘗試答題的次數(shù)越多,學(xué)生可能產(chǎn)生的消極情緒越復(fù)雜,因此對答題的正確率影響越大,甚至影響之后所有的學(xué)習(xí)行為。相反,答題過程中嘗試答題的次數(shù)越少,學(xué)生可能產(chǎn)生的積極情緒越多,因而答題的正確率越高。Sun等人[6]提出的加入決策樹的方法對行為特征進行預(yù)處理,有效提升了模型的預(yù)測概率,但分類與回歸樹CART(Classification And Regression Tree)所使用的分類規(guī)則容易導(dǎo)致算法的預(yù)測結(jié)果陷入局部最優(yōu)的“陷阱”,遺傳算法GA(Genetic Algorithm)作為全局最優(yōu)搜索算法之一[7],基于遺傳算法的CART優(yōu)化算法(GA-CART)[8,9]可以有效改進傳統(tǒng)CART出現(xiàn)的局部最優(yōu)問題,所以本文提出一種在Deep-IRT模型的基礎(chǔ)上加強對學(xué)習(xí)者行為特征預(yù)處理的方法,以提高模型的預(yù)測性能。
本文的主要工作有:
(1)使用基于遺傳算法的CART優(yōu)化來對行為特征進行處理。這種方法可有效地對學(xué)生的行為特征進行個性化建模。
(2)將預(yù)處理優(yōu)化后的模型與Deep-IRT模型相結(jié)合,提出了一種融合GA-CART和Deep-IRT的知識追蹤模型DKVMN-GACART-IRT。
(3)將DKVMN-GACART-IRT模型在3個公開數(shù)據(jù)集上與DKT、DKVMN、Deep-IRT以及DKVMN-DT模型進行對比實驗,實驗結(jié)果表明DKVMN-GACART-IRT模型預(yù)測性能具有優(yōu)勢。
在深度知識追蹤模型的發(fā)展歷史中,極具代表性的是DKT模型,但是其出現(xiàn)的可解釋性差、長期依賴問題和學(xué)習(xí)特征少的問題[10-18],使得大量基于DKT模型的改進方案不斷涌現(xiàn)。其中就有Zhang等人[3]提出的動態(tài)鍵值記憶網(wǎng)絡(luò)DKVMN,該模型使用一對鍵值矩陣作為內(nèi)存結(jié)構(gòu)。靜態(tài)鍵矩陣存儲的是潛在知識概念,而動態(tài)值矩陣存儲的是學(xué)生對概念的掌握程度。DKVMN采用離散的練習(xí)標(biāo)記qt,輸出響應(yīng)概率p(rt|qt),然后使用練習(xí)和響應(yīng)元組(qt,rt)更新內(nèi)存,其中x1(q1,r1)表示一次交互信息,一次交互信息中包含有學(xué)生的練習(xí)標(biāo)簽q1以及答題情況r1。在每道題中包含有與之相對應(yīng)的概念信息,即知識成分。一道題中可能有許多的知識成分,而這些知識成分在題目中的權(quán)重各不相同,這就需要用到注意機制來對每道題中的知識成分進行處理。這種采用鍵值對矩陣以及簡單的注意機制的知識追蹤模型,緩解了DKT因隱藏層單一向量空間導(dǎo)致的無法準(zhǔn)確確定學(xué)生擅長或不熟悉的知識成分KC(Knowledge Component)的缺點。
Yeung等人[4]受貝葉斯深度學(xué)習(xí)的啟發(fā),綜合了學(xué)習(xí)模型和心理測試模型對DKVMN模型進行改進,提出了Deep-IRT模型。Deep-IRT模型利用DKVMN模型處理輸入數(shù)據(jù),并返回IRT模型中有心理意義的參數(shù)。DKVMN模型執(zhí)行特征工程任務(wù),從學(xué)生的歷史交互問答中提取潛在特征。然后,提取的潛在特征用于推斷隨時間變化的每個KC的難度水平和學(xué)生能力?;趯W(xué)生能力的估計和KC難度水平,IRT模型預(yù)測學(xué)生正確回答KC的概率[19]。Deep-IRT模型保留了DKVMN模型的性能,同時利用IRT模型為學(xué)生和題目難度提供了直接的解釋。Deep-IRT模型使基于深度學(xué)習(xí)的知識跟蹤模型具有可解釋性。
CART決策樹具有不需要進行對數(shù)運算、計算開銷相對較小、適合大數(shù)據(jù)等特點,Sun等人[6]受其啟發(fā),選用CART算法作為學(xué)生做題行為特征的預(yù)分類方法,提升了DKVMN模型行為特征預(yù)處理能力。
DKVMN-GACART-IRT模型結(jié)構(gòu)如圖1所示,該模型將GA-CART與Deep-IRT相融合,即結(jié)合行為特征預(yù)處理和心理測量學(xué)模型,預(yù)測學(xué)生正確答題的概率。
Figure 1 Structure of DKVMN-GACART-IRT model
數(shù)據(jù)預(yù)處理階段主要對嘗試次數(shù)、第1次響應(yīng)和第1個動作等學(xué)生的行為特征進行基于遺傳算法的CART分析。本文基于遺傳算法的CART優(yōu)化主要分為2步:第1步是對CART算法的上層進行GA優(yōu)化,即將遺傳算法應(yīng)用到特征分類中,從而找到最優(yōu)的特征來提高分類精度;第2步是對CART進行GA雙層優(yōu)化,即使用遺傳算法替代二分法,從而找到?jīng)Q策樹中的最優(yōu)分叉點。
3.1.1 CART算法的上層GA優(yōu)化
基于GA的CART上層優(yōu)化主要是將遺傳算法應(yīng)用到特征分類中,從而找到最優(yōu)的特征來提高分類精度。
(1)編碼。本文采用二進制對所有個體進行基因編碼,基因串位數(shù)等同于特征數(shù),即將特征表示為由0與1組成的二進制基因序列,相當(dāng)于一個二進制一維數(shù)組,其中1表示個體中的某一特征被選中,相反,0表示個體中的某一特征未被選中。多個這樣的基因串組成初始種群,如圖2所示,a、b、c、d為一個種群,a表示一個染色體,即一串基因序列,1或0表示基因編碼。
Figure 2 Population
(2)適應(yīng)度函數(shù)。遺傳算法通過適應(yīng)度函數(shù)評判篩選個體,具有強適應(yīng)性的個體中包含的高質(zhì)量基因具有較高概率遺傳給后代,而具有適應(yīng)性弱的個體的遺傳概率較低。本文中目標(biāo)函數(shù)是以分類精度最大值為目標(biāo),故可直接利用目標(biāo)函數(shù)值為個體的適應(yīng)度值,準(zhǔn)確率高的個體為最優(yōu)個體?;贑ART算法上層GA優(yōu)化的適應(yīng)度函數(shù)如式(1)所示:
fitness_s(xi)=acc_s(xi)
(1)
其中,xi表示種群中第i個個體,acc_s(xi)表示第i個個體xi在特征屬性中的分類精度。
(3)遺傳操作。遺傳算法的操作包括選擇、交叉和變異操作,選擇操作先計算每個個體的個體適應(yīng)度值,然后計算每一代遺傳到下一代的概率以及累積概率,最后使用輪盤賭算法,被選中的個體進入子代種群。例如,通過計算圖2中4個個體的適應(yīng)度值,根據(jù)式(2)得到每個個體的選擇概率{0.56,0.12,0.87,0.24},適應(yīng)度值越大,該個體被選擇的概率也越大。
(2)
(3)
其中,L(xi)表示xi的累積概率,N表示種群的大小。
在選擇操作完成后,GA對選擇的個體進行交叉操作,如圖3所示,本文使用隨機多點交叉法,隨機選擇個體與另一個個體進行多點配對,并基因互換得到新個體。最后在個體中隨機挑選一個或者多個基因位的基因值完成變異操作,如圖4所示,其中,1表示保留特征,0表示舍棄特征。
Figure 3 Random multipoint intersection
Figure 4 Gene mutation
(4)迭代終止。本文算法的迭代終止條件設(shè)置為100次。最終得到最優(yōu)染色體。并通過該染色體確定其對應(yīng)的最優(yōu)特征。
3.1.2 CART算法的雙層GA優(yōu)化
遺傳算法是全局優(yōu)化算法,對于決策樹模型來說,它能夠找到最優(yōu)的分裂點,取得最優(yōu)的分類規(guī)則,從而進一步提升模型的分類精度。所以,本文利用雙層遺傳算法持續(xù)優(yōu)化CART分類過程,以避免因CART算法中二分類過程所帶來的局部最優(yōu)風(fēng)險?;贕A的CART雙層優(yōu)化主要是使用遺傳算法替代二分法,從而找到?jīng)Q策樹中的最優(yōu)分叉點。根據(jù)基于GA的CART上層優(yōu)化所得最優(yōu)染色體,可以找到數(shù)據(jù)集的最優(yōu)特征,即利用了較少的特征數(shù)據(jù)實現(xiàn)了高精度的樣本分類。而在第2次遺傳算法優(yōu)化過程中,主要是針對經(jīng)最優(yōu)染色體選擇后的特征進行權(quán)重賦值,然后利用同樣的遺傳算法更新特征權(quán)重,并根據(jù)特征權(quán)重選取最靠前的3個特征,最后基于所選擇的3個備選分裂點進行建樹分類,實現(xiàn)樣本分類。
CART算法的雙層GA優(yōu)化過程的適應(yīng)度值定義為決策樹分類精度,如式(4)所示:
fitness_d(Dj)=acc_d(Dj)
(4)
其中,Dj表示數(shù)據(jù)集中的第j個特征,acc_d(Dj)表示利用第j個特征進行分類后的分類精度。
然后同樣通過選擇、交叉和變異操作,在決策樹的第1層特征中迭代尋優(yōu),迭代完成之后輸出最優(yōu)的個體和最優(yōu)的適應(yīng)度值,算法終止。通過上述過程可以找到第1層的最優(yōu)分裂點,之后每一層重復(fù)此操作便能生成決策樹。
本文利用基于遺傳算法的CART優(yōu)化算法依據(jù)嘗試次數(shù)、第1次響應(yīng)和第1個動作等特性對數(shù)據(jù)進行預(yù)處理[20]。將基于遺傳算法的決策樹分類器與知識追蹤模型DKVMN相結(jié)合,以提升底層模型對行為特征的處理能力。
通過預(yù)處理階段,學(xué)生的行為響應(yīng)特征被轉(zhuǎn)化為決策樹的響應(yīng),如圖1所示,利用練習(xí)標(biāo)簽qt與決策樹響應(yīng)gt得到輸入向量,它表示每個學(xué)生的練習(xí)以及練習(xí)時行為特征信息的輸入,如式(1)所示:
c(qt,gt)=qt+max(q+1)*gt
(5)
其中,q表示最大練習(xí)數(shù),qt表示學(xué)生t階段的練習(xí)標(biāo)簽,gt表示學(xué)生的決策響應(yīng),即決策樹預(yù)測的結(jié)果,c(qt,gt)表示練習(xí)及其決策響應(yīng)的交叉特征。
相關(guān)權(quán)重主要體現(xiàn)在注意力權(quán)重wt上,即使用嵌入向量kt來查詢DKVMN模型中的Mk,查詢結(jié)果是對每個知識點關(guān)注程度的加權(quán),表示練習(xí)和每個潛在概念之間的相關(guān)性,這個注意力權(quán)重wt是求得Mk和kt的內(nèi)積后借助softmax函數(shù)激活得到的,如式(6)~式(8)所示:
wt=softmax(Mkkt)
(6)
kt=c(qt,gt)×A
(7)
(8)
其中,靜態(tài)矩陣Mk大小為N×dk,其存儲的數(shù)據(jù)為潛在的概念信息,也就是整個知識空間中N個知識點的嵌入表示,每個行向量對應(yīng)一個知識點的嵌入表示;kt為嵌入向量;A為嵌入矩陣。
讀過程主要通過分析概念信息對答題情況進行概率預(yù)測,如式(9)~式(13)所示:
(9)
(10)
θt=tanh(wθft+bθ)
(11)
β=tanh(wβc(qt,gt)+bβ)
(12)
pt=σ(3.0×θt(j)-β(j))
(13)
其中,γt為學(xué)生對練習(xí)的掌握程度的總結(jié);將閱讀內(nèi)容γt和輸入的練習(xí)特征Kt連接起來,通過tanh激活來獲得一個摘要向量ft,摘要向量內(nèi)容包含學(xué)生對知識的掌握水平和問題的難度以及學(xué)習(xí)特征,矩陣W1和向量b1分別表示全連接層的權(quán)重與偏置;θt表示學(xué)生在t階段對所有知識點的能力,β表示所有知識點的難度,知識點難度通過交叉特征c(qt,gt)的嵌入計算得出,即題目中的學(xué)生能力水平越高,其解決問題的能力越強,反之,學(xué)生能力水平越低,其解決問題的能力越弱;wθ和wβ分別表示學(xué)生能力和知識點難度的權(quán)重矩陣,bθ和bβ表示對應(yīng)的偏置向量。σ(·)是sigmoid函數(shù),本文將學(xué)生的能力擴大3倍,這樣做是為了更加精確地預(yù)測,具體實驗細節(jié)見4.4節(jié)。最后得到標(biāo)量pt,即正確回答qt的概率。
根據(jù)艾賓浩斯遺忘曲線規(guī)律,人們對掌握的知識概念在一定的時段后會出現(xiàn)一定程度的遺忘。寫過程主要是根據(jù)學(xué)生回答問題后,對答案的正確性進行更新值矩陣操作。先將(qt,rt)嵌入一個矩陣B中,以獲得學(xué)生在完成本練習(xí)后的知識增長vt。寫過程主要包括2個主要操作,即擦除內(nèi)存和增加內(nèi)存。擦除內(nèi)存表示學(xué)生對知識概念遺忘的過程,如式(14)~式(16)所示:
et=sigmoid(ETvt+be)
(14)
(15)
(16)
其中,et表示擦除內(nèi)存向量;E表示變換矩陣;be表示偏置向量;vt表示學(xué)生在完成本練習(xí)后的知識點增長;動態(tài)矩陣Mv大小為N×dv,每個行向量表示學(xué)生對于知識點的掌握情況。
增加內(nèi)存表示學(xué)生通過練習(xí)和回答問題對相關(guān)概念的知識掌握的更新,如式(17)~式(19)所示:
at=tanh(DTvt+ba)T
(17)
(18)
(19)
其中,at是一個行向量,即增加內(nèi)存向量,D表示變換矩陣,ba表示偏置向量。
這種先擦除后添加的機制符合學(xué)生在學(xué)習(xí)過程中遺忘和強化概念的知識變化狀態(tài)。
本文在3個公開數(shù)據(jù)集ASSIST2009[21]、ASSIST2012[21]和Algebra 2005-2006[22]上對知識追蹤模型進行對比實驗。數(shù)據(jù)集詳情如表1所示。數(shù)據(jù)集ASSIST2009和ASSIST2012均來自ASSISTMENTS在線輔導(dǎo)系統(tǒng),數(shù)據(jù)集Algebra 2005-2006來自KDD(Knowledge Discovery and Data mining)杯2010年教育數(shù)據(jù)挖掘挑戰(zhàn)賽,其中分為開發(fā)數(shù)據(jù)集和挑戰(zhàn)數(shù)據(jù)集,本文使用的是開發(fā)數(shù)據(jù)集。
Table 1 Statistics of datasets
(1)ASSIST2009。由于存在重復(fù)記錄問題,官方發(fā)布了更新版本,本文使用更新后的版本進行實驗。實驗中的記錄數(shù)量使用的是Zhang等人[3]處理后的數(shù)據(jù),共計4 151名學(xué)生回答325 637個練習(xí)以及110個不同的練習(xí)標(biāo)簽。使用技能標(biāo)簽作為模型的輸入。其中選擇做題次數(shù)、第1次響應(yīng)、第1個動作和嘗試次數(shù)作為預(yù)處理階段的特征輸入。做題次數(shù)指學(xué)生完成一道題提交系統(tǒng)的次數(shù)。第1次響應(yīng)指學(xué)生第1次響應(yīng)的時間,單位為ms。第1次動作指學(xué)生第1次是否請求幫助。嘗試次數(shù)指學(xué)生嘗試練習(xí)的次數(shù)。
(2)ASSIST2012。由于該數(shù)據(jù)集較大,本文刪除了記錄數(shù)小于3的學(xué)生數(shù)據(jù)和技能標(biāo)簽為空的數(shù)據(jù),并從中抽取5 000名學(xué)生信息,最終處理后的數(shù)據(jù)包括5 000名學(xué)生回答940 179個練習(xí)以及242個不同的練習(xí)標(biāo)簽,并用技能標(biāo)簽作為模型的輸入。其中選擇是否要求提示、第1次響應(yīng)、第1次動作和嘗試次數(shù)作為特征輸入。是否要求提示指學(xué)生做題過程中是否要求所有提示。
(3)Algebra 2005-2006。此數(shù)據(jù)集是從卡內(nèi)基學(xué)習(xí)平臺收集的,包含574名學(xué)習(xí)者、210 527個練習(xí)標(biāo)簽和8 008 465次學(xué)習(xí)交互。本文選擇提示響應(yīng)、更正次數(shù)和機會次數(shù)作為特征輸入。提示響應(yīng)指學(xué)生為步驟請求的提示總數(shù)。更正次數(shù)指學(xué)生對該步驟的正確嘗試次數(shù),僅當(dāng)多次遇到該步驟時才增加。機會次數(shù)指每次學(xué)生遇到具有所列KC的步驟時增加1次的計數(shù)。具有多個KC的步驟將有多個計數(shù),由~~來分隔。
4.2.1 實驗參數(shù)
模型中的學(xué)習(xí)率初始化為0.005,批處理大小為32,采用Adam優(yōu)化器。此外,使用均值和標(biāo)準(zhǔn)偏差為0的高斯分布隨機生成的方法對參數(shù)初始化。迭代次數(shù)設(shè)置為100。遺傳算法中的參數(shù)設(shè)置如表2所示。
Table 2 Parameter settings in genetic algorithm
對于DKT模型,隱藏層大小從{10,50,100,200}中選擇。對于DKVMN、Deep-IRT、DKVMN-DT以及DKVMN-GACART-IRT模型,靜態(tài)鍵矩陣和動態(tài)值矩陣的維數(shù)也從{10,50,100,200}中選擇。本文還從{5,10,20,50,100}中選擇DKVMN、Deep-IRT、DKVMN-DT以及DKVMN-GACART-IRT模型的內(nèi)存維度。為了減少參數(shù)數(shù)量,設(shè)置dk=dv。最后,在訓(xùn)練集上使用5重交叉驗證法驗證模型準(zhǔn)確度,并在測試集上評估模型性能。
4.2.2 評價指標(biāo)
本文使用AUC指標(biāo)來對知識追蹤模型的預(yù)測表現(xiàn)進行評估。AUC取值在0~1。其中AUC為0.5時表示其模型性能與隨機猜測一樣。AUC值越大,表示模型的性能越好。
本文將數(shù)據(jù)集劃分為測試集、驗證集和訓(xùn)練集3個部分,分別占30%,20%和70%,其中驗證集從訓(xùn)練集中抽取得到。
參加比較的5個模型如下所示:
(1)DKT:以循環(huán)神經(jīng)網(wǎng)絡(luò)為基本結(jié)構(gòu),將隱藏狀態(tài)解釋為學(xué)生的知識狀態(tài)。該模型成為知識追蹤領(lǐng)域使用最廣泛的模型之一。
(2)DKVMN:通過對MANN的改進,加入動態(tài)鍵值記憶矩陣來追蹤學(xué)生的知識狀態(tài)。
(3)Deep-IRT:以DKVMN為基礎(chǔ)模型,將IRT與深度學(xué)習(xí)相結(jié)合。
(4)DKVMN-DT:將CART應(yīng)用于DKVMN知識追蹤模型預(yù)處理。
(5)DKVMN-GACART-IRT:將基于遺傳算法的CART優(yōu)化算法和IRT項目反應(yīng)理論與DKVMN模型相結(jié)合,提高了模型的預(yù)處理能力和預(yù)測準(zhǔn)確率。
因決策樹對噪聲數(shù)據(jù)的易敏感,在這3個數(shù)據(jù)集上DKVMN-GACART-IRT和DKVMN-DT均出現(xiàn)了過擬合現(xiàn)象,通過剪枝后的實驗數(shù)據(jù)如圖5~圖7所示。
Figure 5 AUC comparison on ASSIST2009 dataset
4.3.1 ASSIST2009實驗結(jié)果
從ASSIST2009數(shù)據(jù)集中抽取30%數(shù)據(jù)組成測試集,其余70%數(shù)據(jù)組成訓(xùn)練集,從訓(xùn)練集中抽取20%數(shù)據(jù)組成驗證集,比較各個模型在該數(shù)據(jù)集上的AUC表現(xiàn)。如圖5a所示,DKVMN-GACART-IRT模型的AUC相比其他模型的雖無明顯提升,但曲率平滑,具有較好的穩(wěn)定性。而在訓(xùn)練集上,如圖5b所示,DKVMN-GACART-IRT模型隨著迭代次數(shù)的增加AUC表現(xiàn)較好。如圖5c所示,DKVMN-GACART-IRT模型的AUC表現(xiàn)穩(wěn)定并與其他原始模型的相比有略微的優(yōu)勢。
4.3.2 ASSIST2012實驗結(jié)果
從ASSIST2012數(shù)據(jù)集中抽取30%數(shù)據(jù)組成測試集,70%數(shù)據(jù)組成訓(xùn)練集,從訓(xùn)練集中抽取20%數(shù)據(jù)組成驗證集,比較各個模型在該數(shù)據(jù)集上的AUC表現(xiàn)。如圖6a所示,由于該數(shù)據(jù)集較大,所有對比模型前7輪迭代情況相近,而隨著迭代次數(shù)的增加,Deep-IRT模型與DKVMN模型的AUC表現(xiàn)相近,而DKVMN-GACART-IRT模型的AUC為77.08%,優(yōu)于其他模型的。在訓(xùn)練集上,如圖6b所示,DKVMN-GACART-IRT模型的AUC比Deep-IRT模型的高出3.1%、較DKVMN-DT模型的高出1.2%。如圖6c所示,DKVMN-GACART-IRT模型呈現(xiàn)出較大優(yōu)勢,比DKVMN-DT模型的AUC高出1.48%,比DKVMN模型的AUC高出2.53%。
Figure 6 AUC comparison on ASSIST2012 dataset
4.3.3 Algebra2005-2006實驗結(jié)果
從Algebra 2005-2006數(shù)據(jù)集中抽取30%數(shù)據(jù)組成測試集,其余70%數(shù)據(jù)組成訓(xùn)練集,從訓(xùn)練集中抽取20%數(shù)據(jù)組成驗證集,比較各個模型在該數(shù)據(jù)集上的AUC表現(xiàn)。如圖7a所示,DKVMN-DT模型的AUC表現(xiàn)更好,而DKVMN-GACART-IRT模型與DKVMN-DT模型均優(yōu)于其他模型。在訓(xùn)練集上,如圖7b所示,DKVMN-GACART-IRT模型的AUC比Deep-IRT模型的高出3.8%、較DKVMN-DT模型的高出0.7%。如圖7c所示,DKVMN-GACART-IRT模型與DKVMN-DT模型具有相似的AUC性能,且都高于其他模型的AUC,但DKVMN-GACART-IRT具有更好的穩(wěn)定性。
Figure 7 AUC comparison on Algebra2005-2006 dataset
DKVMN-GACART-IRT與經(jīng)典模型DKT、DKVMN、Deep-IRT和DKVMN-DT的對比實驗結(jié)果如表3所示,可以看出,本文的DKVMN-GACART-IRT模型在ASSIST2009數(shù)據(jù)集上的AUC性能指標(biāo)高達84.57±0.08,而作為基線的DKVMN模型的AUC達到81.63±0.07。DKVMN-DT模型的AUC達到83.23±0.1。DKVMN-GACART-IRT的AUC比DKVMN的高出2.84%,比DKVMN-DT的AUC高出1.34%。在ASSIST2012數(shù)據(jù)集上,本文模型的AUC達到77.01±0.06,比DKVMN的AUC高出3.9%,比Deep-IRT的AUC高出3.37%。而相較于DKVMN-DT模型的AUC高出1.99%。在Algebra2005-2006數(shù)據(jù)集上,DKVMN-GACART-IRT模型的AUC達到78.66±0.12。而DKVMN模型的AUC達到77.36±0.12,DKVMN-DT模型的AUC達到78.42±0.1。DKVMN-GACART-IRT的AUC比DKVMN的高出1.3%,比DKVMN-DT的高出0.24%。從以上數(shù)據(jù)可以客觀得出,本文所提出的DKVMN-GACART-IRT模型在3個公開數(shù)據(jù)集上均優(yōu)于DKT模型、DKVMN模型、Deep-IRT模型及DKVMN-DT模型,表明本文所提出的DKVMN-GACART-IRT模型通過對學(xué)習(xí)者行為特征的預(yù)處理以及加入心理測量學(xué)IRT模型,提升了預(yù)測性能。
Table 3 AUC comparison of DKT,DKVMN,Deep-IRT,DKVMN-DT and DKVMN-GACART-IRT
4.3.4 消融實驗
本文模型包括基于GA的CART預(yù)處理模塊和心理測量學(xué)模塊2個主要部分,為了分析不同部分對知識追蹤預(yù)測性能的影響。本節(jié)在ASSIST2009數(shù)據(jù)集上進行消融實驗。本節(jié)設(shè)置以DKVMN為底層模型,與分別加入基于GA的CART預(yù)處理模塊和心理測量學(xué)IRT模型進行對比實驗,分析2個模塊對預(yù)測性能的影響,在ASSIST2009數(shù)據(jù)集的上實驗結(jié)果如表4所示。從表4可以看出,相較于DKVMN基線模型,加入基于GA的CART預(yù)處理模塊和心理測量學(xué)IRT模型的預(yù)測準(zhǔn)確率都有一定提升。通過心理測量學(xué)IRT模型,增加底層模型讀操作中的可解釋性,預(yù)測準(zhǔn)確率相較于DKVMN基線網(wǎng)絡(luò)有大約0.14%的提升。基于GA的CART預(yù)處理通過對學(xué)習(xí)者的不同行為特征進行分析,將預(yù)處理后的行為特征與學(xué)習(xí)特征交叉,相較于基線模型有 1.69%的提升。基于GA的CART預(yù)處理與心理測量學(xué)IRT模型的共同作用相較于基線模型提高了3.01%的準(zhǔn)確率,說明本文模型在預(yù)測性能上更優(yōu)。
Table 4 Ablation experimental results on ASSIST2009 dataset
本文3.4節(jié)中,在對學(xué)生答題情況進行概率預(yù)測時,將學(xué)生的能力擴大3倍,如式(13)所示,θtj的取值為(-1,1),βj的取值為(-1,1)。為了得到更加精確的預(yù)測,本節(jié)針對不同擴大倍數(shù)的學(xué)習(xí)能力在ASSIST2009數(shù)據(jù)集上進行實驗。在實驗中設(shè)置學(xué)習(xí)最小能力θtj≈-1,習(xí)題最大難度βj≈1,使pt逼近于0。設(shè)置學(xué)習(xí)最大能力θtj≈1,習(xí)題最小難度βj≈-1,使pt逼近于1。
實驗結(jié)果如表5所示。當(dāng)學(xué)習(xí)能力擴大倍數(shù)為1時,預(yù)測最小概率pt≈0.119,最大概率pt≈0.881,AUC值為81.937%。當(dāng)學(xué)習(xí)能力擴大倍數(shù)為2時,預(yù)測最小概率pt≈0.0474,最大概率pt≈0.953,AUC值為83.328%。從表5的結(jié)果中可以看出,pt的取值范圍過小。一方面,pt歸縮范圍較窄,不符合模型預(yù)測范圍;另一方面,這會導(dǎo)致預(yù)測結(jié)果模糊,使不同學(xué)生的學(xué)習(xí)能力無法精確拉開差距。
Table 5 Experiment of the expansion of learning ability
當(dāng)學(xué)習(xí)能力擴大倍數(shù)為4時,預(yù)測最小概率pt≈0.0067,最大概率pt≈0.993,AUC值為82.965%。從表5的結(jié)果中可以看出,pt的取值范圍過大。原因有2個方面:一方面,學(xué)習(xí)能力是動態(tài)變化的,當(dāng)學(xué)生學(xué)習(xí)能力產(chǎn)生微弱波動時,在較大倍數(shù)作用下會導(dǎo)致預(yù)測結(jié)果發(fā)生很大改變;另一方面,學(xué)生答題過程中難免會出現(xiàn)猜測和失誤的情況,參數(shù)倍數(shù)過大也會使結(jié)果與實際產(chǎn)生較大偏差。這些都會造成預(yù)測結(jié)果不精確。
綜上所述,本文通過針對學(xué)習(xí)能力擴大不同倍數(shù)的實驗后,在式(13)中使用擴大3倍的學(xué)習(xí)能力,使預(yù)測結(jié)果更加精確。
本文針對行為特征預(yù)處理對整個模型的影響,提出了一個將基于遺傳算法的CART優(yōu)化算法與Deep-IRT相結(jié)合的優(yōu)化模型。該模型通過GA-CART決策樹對學(xué)習(xí)者的行為特征進行預(yù)處理,即對特征信息分類篩選后再將特征向量融合到DKVMN底層模型中,而在DKVMN的讀過程中加入了IRT項目反應(yīng)理論,保留了DKVMN模型的性能,同時能夠評估KC難度和學(xué)生的能力水平。本文所提出的DKVMN-GACART-IRT模型在3個數(shù)據(jù)集上分別與DKT、DKVMN、Deep-IRT和DKVMN-DT進行了對比實驗,在預(yù)測的預(yù)處理階段和讀過程中,既提升了預(yù)測性能又保留了對難度水平和學(xué)生能力的分析,也表明了本文模型在公開數(shù)據(jù)集上的有效性和可解釋性。在未來的工作中作者將從2個方向進一步開展研究:一方面,將不同年齡或者領(lǐng)域的學(xué)習(xí)者用戶畫像與知識追蹤相融合;另一方面根據(jù)教育心理學(xué)中的成敗歸因論,通過分析學(xué)習(xí)者的動態(tài)心理狀態(tài)提高模型預(yù)測能力。