練習(xí)嵌入和學(xué)習(xí)遺忘特征增強(qiáng)的知識(shí)追蹤模型

2024-12-31 00:00:00張維李志新龔中偉羅佩華宋玲玲

計(jì)算機(jī)應(yīng)用研究 2024年11期

摘要：現(xiàn)有知識(shí)追蹤模型大多以概念為中心評(píng)估學(xué)生的未來(lái)表現(xiàn)，忽略了包含相同概念的練習(xí)之間的差異，從而影響模型的預(yù)測(cè)準(zhǔn)確性。此外，在構(gòu)建學(xué)生知識(shí)狀態(tài)過(guò)程中，現(xiàn)有模型未能充分利用學(xué)生在答題過(guò)程中的學(xué)習(xí)遺忘特征，導(dǎo)致對(duì)學(xué)生知識(shí)狀態(tài)的刻畫不夠精確。針對(duì)以上問(wèn)題，提出了一種練習(xí)嵌入和學(xué)習(xí)遺忘特征增強(qiáng)的知識(shí)追蹤模型（exercise embeddings and learning-forgetting features boosted knowledge tracing，ELFBKT）。該模型利用練習(xí)概念二部圖中的顯性關(guān)系，深入計(jì)算二部圖中的隱性關(guān)系，構(gòu)建了一個(gè)練習(xí)概念異構(gòu)關(guān)系圖。為充分利用異構(gòu)圖中的豐富關(guān)系信息，ELFBKT模型引入了關(guān)系圖卷積網(wǎng)絡(luò)。通過(guò)該網(wǎng)絡(luò)的處理，模型能夠增強(qiáng)練習(xí)嵌入的質(zhì)量，并以練習(xí)為中心更準(zhǔn)確地預(yù)測(cè)學(xué)生的未來(lái)表現(xiàn)。此外，ELFBKT充分利用多種學(xué)習(xí)遺忘特征，構(gòu)建了兩個(gè)門控機(jī)制，分別針對(duì)學(xué)生的學(xué)習(xí)行為和遺忘行為進(jìn)行建模，更精確地刻畫學(xué)生的知識(shí)狀態(tài)。在兩個(gè)真實(shí)世界數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，結(jié)果表明ELFBKT在知識(shí)追蹤任務(wù)上的性能優(yōu)于其他模型。

關(guān)鍵詞：知識(shí)追蹤；練習(xí)嵌入；學(xué)習(xí)和遺忘；關(guān)系圖卷積網(wǎng)絡(luò)

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1001-3695（2024）11-009-3265-07

doi：10.19734/j.issn.1001-3695.2024.04.0093

Exercise embeddings and learning-forgetting features boosted knowledge tracing

Zhang Wei， Li Zhixin^?， Gong Zhongwei， Luo Peihua， Song Lingling

（Faculty of Artificial Intelligence Education， Central China Normal University， Wuhan 430079， China）

Abstract：Most existing KT models evaluate students’ future performance centered on concepts， overlooking the differences between exercises containing the same concepts， thus affecting the models’ prediction accuracy. Moreover， in constructing the students’ knowledge state， existing models fail to fully utilize the learning-forgetting features of students during the answering process， leading to an inaccurate modeling of students’ knowledge states. To address these issues， this paper proposed an exercise embeddings and learning-forgetting features boosted knowledge tracing model. The model utilized the explicit relationships in the exercise-concept bipartite graph to calculate the implicit relationships within the graph， constructing an exercise-concept relationship heterogeneous graph. To make full use of the rich relationship information in the heterogeneous graph， ELFBKT introduced a relational graph convolutional network （RGCN）. Through the processing of RGCN， the model enhanced the quality of exercise embeddings and predicted students’ future performance more accurately with an exercise-centric approach. Furthermore， ELFBKT fully utilized various learning-forgetting features to construct two gating-controlled mechanisms， modeling the students’ learning and forgetting behaviors respectively， to more accurately model the students’ knowledge states. Experiments on two real-world datasets show that ELFBKT outperforms other models in KT tasks.

Key words：knowledge tracing（KT）; exercise embedding; learning and forgetting; relational graph convolutional network

0 引言

智能導(dǎo)學(xué)系統(tǒng)（intelligent tutoring systems，ITS）為學(xué)生提供了大量的在線課程和練習(xí)，以輔助學(xué)生個(gè)性化學(xué)習(xí)。ITS可以完整地保存學(xué)生的學(xué)習(xí)記錄，對(duì)學(xué)生知識(shí)掌握情況進(jìn)行評(píng)估。知識(shí)追蹤是ITS的重要組成部分，通過(guò)分析學(xué)生歷史答題記錄評(píng)估其知識(shí)狀態(tài)，預(yù)測(cè)學(xué)生未來(lái)答題表現(xiàn)。

目前，知識(shí)追蹤（KT）模型可分為基于傳統(tǒng)方法和基于深度學(xué)習(xí)方法的KT模型。貝葉斯知識(shí)追蹤（Bayesian knowledge tracing，BKT）作為典型的基于傳統(tǒng)方法的KT模型，使用一組二元變量表示學(xué)生的潛在知識(shí)狀態(tài)^［1^］。然而，BKT模型假設(shè)學(xué)生一旦掌握某個(gè)概念之后將不再遺忘，這與實(shí)際情況不符。深度知識(shí)追蹤（deep knowledge tracing，DKT）作為經(jīng)典的基于深度學(xué)習(xí)的KT模型^［2^］，利用LSTM建模學(xué)生的知識(shí)狀態(tài)，相比于BKT預(yù)測(cè)效果更好，對(duì)知識(shí)狀態(tài)的刻畫更加準(zhǔn)確，但仍然存在著可解釋性差、長(zhǎng)期依賴和學(xué)習(xí)特征少等問(wèn)題^［3^］。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，出現(xiàn)了許多KT模型，眾多學(xué)者針對(duì)知識(shí)追蹤存在的問(wèn)題進(jìn)行了改進(jìn)^［4～6^］。但是，這些模型仍以概念為中心預(yù)測(cè)學(xué)生的未來(lái)表現(xiàn)，建模過(guò)程中也并未考慮學(xué)生答題過(guò)程中豐富的學(xué)習(xí)遺忘特征。

研究顯示，KT模型以練習(xí)為中心進(jìn)行預(yù)測(cè)有助于提升預(yù)測(cè)準(zhǔn)確性^［7^］。由于學(xué)生和練習(xí)的交互比較稀疏^［^8，9^］，導(dǎo)致現(xiàn)有KT模型^{［2，4，10}^］大多通過(guò)評(píng)估學(xué)生對(duì)練習(xí)所包含概念的掌握情況以預(yù)測(cè)學(xué)生未來(lái)答題表現(xiàn)。這種以概念為中心的評(píng)估方式忽視了包含相同概念練習(xí)間的差異，導(dǎo)致無(wú)法準(zhǔn)確反映出學(xué)生對(duì)特定練習(xí)的掌握情況。由于數(shù)據(jù)集中練習(xí)數(shù)量眾多，直接使用練習(xí)編號(hào)作為模型的輸入會(huì)產(chǎn)生嵌入稀疏性問(wèn)題^［⁸^］，不利于模型訓(xùn)練。GIKT^［11^］利用GCN^［12^］將練習(xí)概念之間的顯性關(guān)系融入練習(xí)嵌入中，緩解了練習(xí)嵌入的稀疏性，成功以練習(xí)為中心預(yù)測(cè)學(xué)生未來(lái)表現(xiàn)。但是，GIKT建模過(guò)程中只考慮練習(xí)和概念之間的顯性關(guān)系，忽略了練習(xí)與練習(xí)、概念與概念之間的隱性關(guān)系。充分利用練習(xí)或概念之間的隱性關(guān)系有助于KT模型進(jìn)行預(yù)測(cè)^［13^］。因此，本文將充分考慮隱性關(guān)系和原有顯性關(guān)系，并將其融入練習(xí)嵌入中。由于考慮了多關(guān)系信息，而傳統(tǒng)GCN處理圖結(jié)構(gòu)數(shù)據(jù)時(shí)并未區(qū)分關(guān)系的多樣性，本文將引入關(guān)系圖卷積網(wǎng)絡(luò)（relational graph convolutional network，RGCN）^［14^］。RGCN對(duì)傳統(tǒng) GCN 進(jìn)行了改進(jìn)，在多關(guān)系特征提取方面具有良好的性能。RGCN考慮了圖中邊的不同類型，相比于GCN可以更好地處理多關(guān)系圖數(shù)據(jù)。因此，本文將利用RGCN聚合多種關(guān)系信息用于獲取高質(zhì)量的練習(xí)嵌入。

在獲取高質(zhì)量練習(xí)嵌入后，模型接下來(lái)的目標(biāo)是得到學(xué)生的知識(shí)狀態(tài)。對(duì)此，現(xiàn)有知識(shí)追蹤模型沒(méi)有充分利用學(xué)習(xí)遺忘特征明確建模學(xué)生的學(xué)習(xí)和遺忘行為。遺忘曲線理論^［15^］指出，遺忘會(huì)導(dǎo)致學(xué)生知識(shí)狀態(tài)衰退。學(xué)生的答題次數(shù)、答題時(shí)間、答題時(shí)間間隔等答題行為信息都會(huì)對(duì)遺忘產(chǎn)生影響。學(xué)習(xí)曲線理論^［16^］也指出，學(xué)生對(duì)某一概念學(xué)習(xí)的次數(shù)越多、學(xué)習(xí)時(shí)間越長(zhǎng)，學(xué)生將更容易掌握該概念并答對(duì)練習(xí)。與此同時(shí)，不同知識(shí)背景的學(xué)生學(xué)習(xí)和遺忘情況也會(huì)有所不同^［¹⁷^］。由此可以得出，學(xué)生的答題行為信息和知識(shí)背景與學(xué)習(xí)和遺忘行為息息相關(guān)，是重要的學(xué)習(xí)遺忘特征。在構(gòu)建KT模型的過(guò)程中，充分利用特征信息，可以有效提升模型預(yù)測(cè)準(zhǔn)確性^［18^］。DKT+forget^［10^］簡(jiǎn)單整合三組學(xué)習(xí)遺忘特征擴(kuò)展DKT模型，但卻并沒(méi)有對(duì)學(xué)生的學(xué)習(xí)和遺忘行為進(jìn)行明確建模。GFLDKT^［19^］明確建模學(xué)生的學(xué)習(xí)和遺忘過(guò)程，但沒(méi)有考慮學(xué)習(xí)遺忘特征。本文將充分利用多種學(xué)習(xí)遺忘特征，精準(zhǔn)建模學(xué)生的學(xué)習(xí)過(guò)程和遺忘過(guò)程，更加準(zhǔn)確地刻畫學(xué)生的知識(shí)狀態(tài)。

針對(duì)以上問(wèn)題，本文提出一種增強(qiáng)練習(xí)嵌入和學(xué)習(xí)遺忘特征的知識(shí)追蹤模型（ELFBKT）。本文利用顯性關(guān)系和隱性關(guān)系構(gòu)建了一個(gè)練習(xí)概念異構(gòu)關(guān)系圖，并利用RGCN將異構(gòu)圖中的關(guān)系信息融入練習(xí)嵌入中，提升練習(xí)嵌入的質(zhì)量。針對(duì)知識(shí)追蹤建模過(guò)程中沒(méi)有充分利用學(xué)習(xí)遺忘特征的問(wèn)題，本文利用多種學(xué)習(xí)遺忘特征構(gòu)建了一個(gè)學(xué)習(xí)門控機(jī)制和一個(gè)遺忘門控機(jī)制。學(xué)習(xí)門控機(jī)制用于建模學(xué)生學(xué)習(xí)進(jìn)步獲得的提升，遺忘門控機(jī)制用于建模學(xué)生因遺忘導(dǎo)致知識(shí)狀態(tài)衰減。

本文的具體貢獻(xiàn)如下：

a）充分利用練習(xí)概念二部圖原有的顯性關(guān)系，計(jì)算出兩個(gè)隱性關(guān)系矩陣，建立了包含兩種節(jié)點(diǎn)及三種關(guān)系的練習(xí)概念異構(gòu)關(guān)系圖，通過(guò)使用RGCN，成功地利用異構(gòu)圖中豐富的關(guān)系信息，有效提升了練習(xí)嵌入的表示能力，幫助模型以練習(xí)為中心預(yù)測(cè)學(xué)生未來(lái)表現(xiàn)；

b）充分利用五種學(xué)習(xí)遺忘特征，并以此為基礎(chǔ)構(gòu)建了兩個(gè)精準(zhǔn)的門控機(jī)制，分別用于建模學(xué)生的學(xué)習(xí)和遺忘過(guò)程。通過(guò)建模學(xué)習(xí)和遺忘對(duì)學(xué)生知識(shí)狀態(tài)產(chǎn)生的積極與消極影響，模型能夠精確地追蹤學(xué)生知識(shí)狀態(tài)的變化；

c）在兩個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)，以評(píng)估ELFBKT模型的有效性，結(jié)果表明ELFBKT優(yōu)于其他知識(shí)追蹤模型。此外，消融實(shí)驗(yàn)證明了所提模型包含的各個(gè)模塊的有效性。

1 相關(guān)工作

本章將從兩個(gè)方面簡(jiǎn)要介紹知識(shí)追蹤的相關(guān)工作：a）基于圖的知識(shí)追蹤模型，利用圖神經(jīng)網(wǎng)絡(luò)處理KT任務(wù)中各類圖結(jié)構(gòu)數(shù)據(jù)的KT模型；b）基于學(xué)習(xí)和遺忘的知識(shí)追蹤模型，建模過(guò)程中考慮了學(xué)習(xí)和遺忘行為的KT模型。此外，本章還詳細(xì)介紹本文模型與現(xiàn)有相關(guān)工作的不同之處。

1.1 基于圖的知識(shí)追蹤模型

當(dāng)前許多研究集中在如何將圖結(jié)構(gòu)中的信息應(yīng)用于知識(shí)追蹤任務(wù)中。GKT^［6^］構(gòu)建了一個(gè)概念關(guān)系圖，將概念中的圖結(jié)構(gòu)特性作為關(guān)系歸納偏置納入知識(shí)追蹤模型以提高模型的可解釋性。SKT^［20^］通過(guò)考慮概念之間相似性、先決條件等多種關(guān)系信息，增強(qiáng)了模型的可解釋性。CRKT^［21^］考慮概念之間的相關(guān)性，提取概念的外延信息，并結(jié)合概念的內(nèi)延信息預(yù)測(cè)學(xué)生未來(lái)表現(xiàn)，獲得了更好的效果和效率。DHKT^［9^］利用練習(xí)和概念之間的關(guān)系增強(qiáng)練習(xí)表示，提升了DKT的預(yù)測(cè)表現(xiàn)。GIKT^［11^］使用GCN將練習(xí)信息和高階練習(xí)概念相關(guān)性結(jié)合起來(lái)，緩解了數(shù)據(jù)稀疏性問(wèn)題。PEBG^［22^］考慮練習(xí)和概念之間的直接關(guān)系和潛在關(guān)系，并使用預(yù)訓(xùn)練方法將這些關(guān)系信息融合到練習(xí)嵌入中，利用了更多的關(guān)系信息緩解數(shù)據(jù)稀疏性問(wèn)題。此外，部分模型利用練習(xí)和概念以外的信息建立異構(gòu)圖，緩解數(shù)據(jù)稀疏性問(wèn)題。例如，SGKT^［23^］構(gòu)建了包含學(xué)生、練習(xí)、概念三種節(jié)點(diǎn)的異構(gòu)圖，使用GCN提取節(jié)點(diǎn)之間的關(guān)系信息，生成練習(xí)嵌入和概念嵌入。HHSKT^［24^］構(gòu)建了包含練習(xí)內(nèi)容、概念和難度的異構(gòu)圖，利用層次聚合方法獲取不同練習(xí)節(jié)點(diǎn)的表示。

1.2 基于學(xué)習(xí)和遺忘的知識(shí)追蹤模型

學(xué)習(xí)曲線理論^［16^］認(rèn)為學(xué)生可以在答題過(guò)程中收獲知識(shí)。艾賓浩斯遺忘曲線理論^［¹⁵^］認(rèn)為學(xué)生的記憶會(huì)隨著時(shí)間流逝逐步下降。學(xué)生在學(xué)習(xí)過(guò)程中會(huì)因?yàn)闀r(shí)間流逝而導(dǎo)致知識(shí)點(diǎn)的遺忘，進(jìn)而導(dǎo)致知識(shí)狀態(tài)的衰退。在知識(shí)追蹤中，部分研究人員對(duì)學(xué)生的學(xué)習(xí)和遺忘行為進(jìn)行建模，增強(qiáng)了模型的預(yù)測(cè)效果。DKT+forget^［10^］在DKT的基礎(chǔ)上進(jìn)行了改進(jìn)，整合了三個(gè)與學(xué)習(xí)遺忘相關(guān)的特征：重復(fù)時(shí)間間隔、序列時(shí)間間隔、學(xué)生回答包含相同概念的練習(xí)次數(shù)，考慮學(xué)生在整個(gè)答題序列中的互動(dòng)，對(duì)學(xué)生的遺忘行為進(jìn)行建模，獲得了更好的預(yù)測(cè)性能。F-TCKT^［25^］融合了三個(gè)遺忘相關(guān)的因素：學(xué)習(xí)相同概念的時(shí)間間隔、學(xué)習(xí)的時(shí)間間隔、相同概念的學(xué)習(xí)次數(shù)，并利用時(shí)間卷積網(wǎng)絡(luò)和注意力機(jī)制預(yù)測(cè)學(xué)生未來(lái)表現(xiàn)。LFKT^［26^］考慮四個(gè)與學(xué)習(xí)遺忘相關(guān)的因素：學(xué)生重復(fù)學(xué)習(xí)概念間隔時(shí)間、重復(fù)學(xué)習(xí)概念次數(shù)、順序?qū)W習(xí)間隔時(shí)間和學(xué)生對(duì)于概念的掌握程度，設(shè)計(jì)一個(gè)基于記憶網(wǎng)絡(luò)的知識(shí)追蹤模型，建模學(xué)生因遺忘而導(dǎo)致的知識(shí)狀態(tài)的變化。LPKT^［27^］結(jié)合學(xué)習(xí)曲線和遺忘曲線理論對(duì)學(xué)生的學(xué)習(xí)過(guò)程進(jìn)行了建模，通過(guò)監(jiān)測(cè)學(xué)生的學(xué)習(xí)和遺忘行為，追蹤學(xué)生知識(shí)狀態(tài)的變化。GFLDKT^［18^］結(jié)合教育心理學(xué)理論，分別設(shè)計(jì)了兩個(gè)門控機(jī)制，建模學(xué)生學(xué)習(xí)過(guò)程中的學(xué)習(xí)和遺忘行為，并考慮了學(xué)生背景差異對(duì)學(xué)習(xí)和遺忘的影響。CAKT^［28^］和CECAKT^［29^］對(duì)學(xué)習(xí)曲線理論進(jìn)行了建模，分別使用三維卷積神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)建模學(xué)生近期對(duì)概念的學(xué)習(xí)經(jīng)驗(yàn)，將學(xué)生的學(xué)習(xí)經(jīng)驗(yàn)和知識(shí)狀態(tài)進(jìn)行結(jié)合，預(yù)測(cè)學(xué)生未來(lái)的表現(xiàn)。RKT^［30^］使用時(shí)間衰減核函數(shù)建模學(xué)生的遺忘行為，通過(guò)考慮遺忘行為和上下文信息，預(yù)測(cè)學(xué)生的未來(lái)表現(xiàn)。

1.3 與現(xiàn)有工作的不同

如上所述，現(xiàn)有基于圖的知識(shí)追蹤模型利用練習(xí)和概念之間的部分關(guān)系信息進(jìn)行建模，但這些模型沒(méi)有全面考慮練習(xí)與概念之間的顯性關(guān)系以及練習(xí)與練習(xí)、概念與概念之間的隱性關(guān)系。例如，GKT和SKT忽略了練習(xí)和概念之間的顯性關(guān)系， GIKT忽略了練習(xí)之間的隱性關(guān)系。其次，盡管這些KT模型^{［10，25，26}^］建模過(guò)程中考慮了部分學(xué)習(xí)遺忘特征，但它們沒(méi)有充分利用這些特征建模學(xué)生的學(xué)習(xí)和遺忘行為對(duì)知識(shí)狀態(tài)的具體影響。

相較于現(xiàn)有方法，本文的不同之處在于使用異構(gòu)圖表示練習(xí)與概念之間的顯性關(guān)系以及練習(xí)與練習(xí)之間、概念與概念之間的隱性關(guān)系，利用RGCN處理多關(guān)系數(shù)據(jù)的優(yōu)勢(shì)，將更多關(guān)系信息用于獲取練習(xí)嵌入。相比于其他模型^{［11，23，27}^］，通過(guò)RGCN獲取的練習(xí)嵌入質(zhì)量更高。同時(shí)，本文充分利用學(xué)生答題過(guò)程中豐富的學(xué)習(xí)遺忘特征，分別建模學(xué)習(xí)和遺忘行為對(duì)知識(shí)狀態(tài)的積極和消極作用。

2 問(wèn)題定義

2.1 知識(shí)追蹤任務(wù)

設(shè)置學(xué)生集合S={s₁，s₂，…，s_i，…，s_n}，共有n個(gè)學(xué)生，練習(xí)集合E={e₁，e₂，…，e_i，…，e_m}，共有m個(gè)練習(xí)，概念集合C={c₁，c₂，…，c_i，…，c_k}，共有k個(gè)概念。在KT任務(wù)中，學(xué)生將從E中先后選取部分練習(xí)進(jìn)行回答，學(xué)生的回答序列用X={x₁，x₂，…，x_i，…，x_t}表示，x_i={e_i，a_i}表示一次回答，其中e_i 表示學(xué)生回答的練習(xí)，a_i表示對(duì)練習(xí)的回答結(jié)果，a_i∈{0，1}，a_i=1表示學(xué)生正確回答練習(xí)，否則a_i=0。給定一個(gè)練習(xí)回答序列X和新練習(xí)e_t+1，KT的目標(biāo)是預(yù)測(cè)學(xué)生正確回答練習(xí)的概率p（a_t+1=1|X，e_t+1）。

2.2 練習(xí)概念異構(gòu)關(guān)系圖

一般而言，一個(gè)練習(xí)可能包含多個(gè)概念，一個(gè)概念也可能被多個(gè)練習(xí)所考察，可將這種練習(xí)概念關(guān)系表示為二部圖。通常情況下，二部圖包含顯性關(guān)系和隱性關(guān)系兩種^［31^］。具體來(lái)說(shuō)，每個(gè)練習(xí)e_i包含一個(gè)或多個(gè)概念{c₁，c₂，…，c_ni}，每一個(gè)概念c_i也被一個(gè)或多個(gè)練習(xí){e₁，e₂，…，e_nj}所考察。其中n_i表示練習(xí)e_i包含的概念數(shù)；n_j表示考察概念c_i的練習(xí)數(shù)。這樣的關(guān)系為顯性練習(xí)概念關(guān)系，知識(shí)追蹤任務(wù)中一般用矩陣Q進(jìn)行表示。與此同時(shí)，練習(xí)和練習(xí)之間以及概念和概念之間也存在著關(guān)系。如果兩個(gè)練習(xí)e_i與e_j重復(fù)考察了一個(gè)或多個(gè)概念{c_1ij，c_2ij，…，c_nij}，則說(shuō)明練習(xí)e_i與e_j之間存在著隱性關(guān)系。n_ij表示練習(xí)e_i與e_j共同考察的概念數(shù)目。如果兩個(gè)概念c_i與c_j同時(shí)被一個(gè)或多個(gè)練習(xí)所考察，則這兩個(gè)概念之間也存在著隱性關(guān)系。由于練習(xí)與概念、練習(xí)與練習(xí)、概念與概念之間均存在關(guān)系，可以將其表示為如圖1所示的一個(gè)具有兩種節(jié)點(diǎn)和三種關(guān)系的練習(xí)概念異構(gòu)關(guān)系圖G=（V，E，R），V表示節(jié)點(diǎn)集合包含練習(xí)集合S和概念集合C，E表示關(guān)系類型，r∈R表示是否存在關(guān)系。

2.3 學(xué)習(xí)遺忘特征嵌入

學(xué)生可以通過(guò)學(xué)習(xí)不斷增強(qiáng)對(duì)知識(shí)的掌握，與此同時(shí)，學(xué)習(xí)過(guò)程的遺忘也是不可避免的。學(xué)生學(xué)習(xí)次數(shù)越多、學(xué)習(xí)時(shí)間越長(zhǎng)，對(duì)知識(shí)印象也越深刻，遺忘的程度也會(huì)相應(yīng)減弱。學(xué)生學(xué)習(xí)間隔時(shí)間越長(zhǎng)，將會(huì)更容易忘記所學(xué)的知識(shí)。同時(shí)，學(xué)生在不同的知識(shí)狀態(tài)下對(duì)知識(shí)的學(xué)習(xí)和遺忘情況也會(huì)有所不同。因此，為更好地建模學(xué)生的學(xué)習(xí)和遺忘行為，本文考慮五種學(xué)習(xí)遺忘特征：

a）答題時(shí)間（at），學(xué)生回答練習(xí)消耗的時(shí)間；

b）答題時(shí)間間隔（it），學(xué)生兩次答題間隔的時(shí)間；

c）學(xué)習(xí)概念間隔時(shí)間（ct），學(xué)生兩次回答具有相同概念的練習(xí)的間隔時(shí)間；

d）學(xué)習(xí)概念次數(shù)（co），學(xué)生回答包含相同概念的練習(xí)次數(shù)；

e）學(xué)生知識(shí)背景（h），學(xué)生對(duì)各個(gè)知識(shí)概念的掌握情況。

學(xué)習(xí)遺忘行為綜合特征嵌入：本文綜合考慮了學(xué)生的答題間隔時(shí)間、學(xué)習(xí)概念間隔時(shí)間、學(xué)習(xí)概念次數(shù)三組信息建模學(xué)生的學(xué)習(xí)遺忘行為綜合特征，將這三組特征信息進(jìn)行了連接并輸入MLP中形成了學(xué)習(xí)遺忘行為綜合特征信息。模型中將利用該特征信息建模學(xué)生的學(xué)習(xí)和遺忘行為。

lf_t=W^T₂［ct_t⊕it_t⊕co_t］+b₂（2）

3 ELFBKT模型

ELFBKT模型結(jié)構(gòu)如圖2所示。

模型由關(guān)系特征提取模塊、學(xué)習(xí)模塊、遺忘模塊和預(yù)測(cè)模塊四個(gè)部分組成。關(guān)系特征提取模塊使用RGCN聚合異構(gòu)圖中的多種關(guān)系信息增強(qiáng)練習(xí)嵌入。學(xué)習(xí)模塊用于計(jì)算學(xué)生的學(xué)習(xí)遺忘特征對(duì)學(xué)生知識(shí)掌握情況帶來(lái)的提升效果。遺忘模塊用于處理學(xué)習(xí)遺忘特征對(duì)學(xué)生知識(shí)掌握情況帶來(lái)的負(fù)面影響。模型經(jīng)過(guò)學(xué)習(xí)模塊和遺忘模塊后，得到學(xué)生最終的知識(shí)狀態(tài)。最后，預(yù)測(cè)模塊通過(guò)學(xué)生的知識(shí)狀態(tài)和下一個(gè)練習(xí)嵌入計(jì)算學(xué)生正確回答該練習(xí)的概率。

3.1 關(guān)系特征提取模塊

對(duì)于矩陣P和U，首先構(gòu)建練習(xí)e_i的鄰居集合N_ei={c_j|Q_ij=1}，概念c_j的鄰居集合N_cj={e_i|Q_ij=1}。練習(xí)和練習(xí)關(guān)系矩陣P可以表示為

與之相似，可以把概念和概念的關(guān)系矩陣U表示為

為建模學(xué)生對(duì)特定問(wèn)題的掌握情況，在三個(gè)關(guān)系矩陣建立完畢之后，使用RGCN來(lái)處理這些關(guān)系，最終生成融合多種關(guān)系特征的練習(xí)嵌入。RGCN中可以設(shè)置多個(gè)圖卷積層用于更新節(jié)點(diǎn)的信息，并且每一層的節(jié)點(diǎn)都可以通過(guò)自身和鄰居節(jié)點(diǎn)的狀態(tài)來(lái)更新。節(jié)點(diǎn)之間不同的關(guān)系將會(huì)分別進(jìn)行處理。將概念關(guān)系異構(gòu)圖中的節(jié)點(diǎn)設(shè)置為V_i，則第l+1層RGCN的公式可表示為

3.2 學(xué)習(xí)模塊

學(xué)生的知識(shí)狀態(tài)會(huì)隨著學(xué)生答題過(guò)程動(dòng)態(tài)變化。對(duì)此，本文設(shè)計(jì)了一個(gè)學(xué)習(xí)門控機(jī)制建模學(xué)生的答題過(guò)程對(duì)知識(shí)狀態(tài)產(chǎn)生的增益效果。該門控機(jī)制考慮學(xué)生兩次答題表現(xiàn)的差異和學(xué)習(xí)遺忘特征建模學(xué)習(xí)過(guò)程的收獲。對(duì)此，本文將當(dāng)前時(shí)刻的答題嵌入an_t、上一時(shí)刻的答題嵌入an_t-1、學(xué)習(xí)遺忘行為綜合特征lf_t以及學(xué)生上一時(shí)刻當(dāng)前習(xí)題相關(guān)知識(shí)概念的知識(shí)狀態(tài)h_t_－1進(jìn)行連接，用于建模學(xué)生最終的學(xué)習(xí)收獲lg_t。

lg_t=tanh（W^T₂［an_t-1⊕lf_t⊕an_t⊕h_t-1］+b₂）（6）

學(xué)生通過(guò)答題獲取新知識(shí)后，需要進(jìn)行深度理解和吸收，才能夠真正掌握這些知識(shí)，進(jìn)而提升知識(shí)狀態(tài)。針對(duì)學(xué)生將學(xué)習(xí)收獲轉(zhuǎn)變?yōu)橹R(shí)狀態(tài)提升的過(guò)程，本文設(shè)計(jì)了一個(gè)知識(shí)收獲門Γ^l_t用于建模學(xué)生將學(xué)習(xí)收獲轉(zhuǎn)換為知識(shí)增長(zhǎng)的能力。由于學(xué)生上一時(shí)刻當(dāng)前習(xí)題相關(guān)知識(shí)概念的知識(shí)狀態(tài)h_t-1和學(xué)習(xí)遺忘行為綜合特征lf_t也會(huì)對(duì)學(xué)生學(xué)習(xí)收獲的轉(zhuǎn)換產(chǎn)生影響，所以知識(shí)收獲門中加入了這兩個(gè)因素綜合考慮學(xué)生的知識(shí)狀態(tài)增長(zhǎng)。

Γ^l_t=σ（W^T₃［an_t-1⊕lf_t⊕an_t⊕h_t-1］+b₃）（7）

學(xué)生在答題之后的知識(shí)增長(zhǎng)由學(xué)生的學(xué)習(xí)收獲和知識(shí)增長(zhǎng)能力共同決定。因此，本文將學(xué)習(xí)收獲lg_t和知識(shí)收獲門Γ^l_t相乘，獲得學(xué)生實(shí)際的知識(shí)增長(zhǎng)LG_t。

LG_t=Γ^l_t·lg_t（8）

為了把知識(shí)增長(zhǎng)擴(kuò)展到其他知識(shí)概念，將LG_t與q_et相乘得到整體學(xué)習(xí)收獲LG_t。

LG_t=q_et·LG_t（9）

3.3 遺忘模塊

遺忘在學(xué)生的學(xué)習(xí)過(guò)程中是不可避免的^［32^］，學(xué)生獲得的知識(shí)會(huì)隨著時(shí)間流逝而產(chǎn)生衰減。學(xué)生學(xué)習(xí)次數(shù)越多、學(xué)習(xí)時(shí)間越長(zhǎng)，對(duì)知識(shí)印象也越深刻，遺忘的程度也會(huì)相應(yīng)減弱。因此，本文綜合考慮學(xué)生的知識(shí)背景h_t-1、學(xué)習(xí)遺忘行為綜合特征lf_t以及學(xué)生的學(xué)習(xí)收獲LG_t，建模因遺忘導(dǎo)致的學(xué)生知識(shí)狀態(tài)的衰減程度Γ^f_t

Γ^f_t=σ（W^T₄［h_t-1⊕LG_t⊕lf_t］）+b₄）（10）

學(xué)生知識(shí)狀態(tài)的變化與學(xué)生的學(xué)習(xí)行為和遺忘行為息息相關(guān)。因此，本文同時(shí)利用學(xué)習(xí)過(guò)程產(chǎn)生的知識(shí)增長(zhǎng)和遺忘導(dǎo)致的知識(shí)衰減共同建模學(xué)生的知識(shí)狀態(tài)變化。本文使用知識(shí)衰減Γ^f_t乘上一時(shí)刻知識(shí)狀態(tài)h_t-1計(jì)算出遺忘帶來(lái)的影響，使用學(xué)習(xí)模塊中得到的整體學(xué)習(xí)收獲LG_t減去遺忘帶來(lái)的影響，得到學(xué)生知識(shí)狀態(tài)變化p_t。

p_t=LG_t-Γ^f_th_t-1（11）

最后，用知識(shí)狀態(tài)變化p_t和學(xué)生的知識(shí)背景h_t-1相加計(jì)算出學(xué)生當(dāng)前的知識(shí)狀態(tài)h_t。

h_t=p_t+h_t-1（12）

3.4 預(yù)測(cè)模塊

在預(yù)測(cè)模塊中，考慮到學(xué)生是否答對(duì)練習(xí)與練習(xí)本身的特征和學(xué)生是否掌握該練習(xí)所涵蓋的概念相關(guān)，本文根據(jù)學(xué)生對(duì)練習(xí)所考察概念的掌握情況以及練習(xí)嵌入，計(jì)算出最終正確回答的概率值y_t+1。為獲取學(xué)生對(duì)練習(xí)所包含概念的掌握情況，本文使用知識(shí)狀態(tài)h_t與矩陣Q中該練習(xí)對(duì)應(yīng)的概念向量相乘得出概念相關(guān)知識(shí)狀態(tài)。

h_t=q_et+1·h_t（13）

本文使用相關(guān)知識(shí)狀態(tài)h_t與練習(xí)嵌入e_t+1進(jìn)行連接，同時(shí)考慮練習(xí)本身的嵌入信息和學(xué)生對(duì)相關(guān)概念的掌握情況，計(jì)算出最終回答正確的概率。

y_t+1=σ∑（W^T₅［e_t+1⊕h_t］+b₅）d_k（14）

為學(xué)習(xí)到ELFBKT模型中所有參數(shù)，本文利用預(yù)測(cè)結(jié)果與實(shí)際答案a_t之間的交叉熵?fù)p失函數(shù)對(duì)模型進(jìn)行優(yōu)化：

L（θ）=-∑Tt=1（a_tlog y_t+（1-a_t）log（1-y_t））+λ_θ‖θ‖2（15）

其中：θ代表模型的所有參數(shù)；λ_θ是正則化超參數(shù)。

3.5 實(shí)現(xiàn)方法

ELFBKT模型將練習(xí)、概念、學(xué)生的回答結(jié)果、學(xué)習(xí)遺忘特征、練習(xí)概念顯性關(guān)系等作為輸入，以當(dāng)前時(shí)刻練習(xí)的預(yù)測(cè)結(jié)果作為輸出，具體實(shí)驗(yàn)步驟如下：

a）構(gòu)建練習(xí)概念異構(gòu)關(guān)系圖。利用數(shù)據(jù)集中練習(xí)概念之間的顯性關(guān)系，計(jì)算練習(xí)與練習(xí)之間、概念與概念之間的隱性關(guān)系，得到一個(gè)包含2種節(jié)點(diǎn)和3種關(guān)系的練習(xí)概念異構(gòu)關(guān)系圖G=（V，E，R）。

b）獲取練習(xí)嵌入向量。對(duì)數(shù)據(jù)集中的練習(xí)和概念進(jìn)行編碼，映射成原始嵌入向量，將編碼后的練習(xí)嵌入、概念嵌入以及練習(xí)概念異構(gòu)關(guān)系圖輸入RGCN網(wǎng)絡(luò)，獲取融合多種關(guān)系特征的練習(xí)嵌入e_t。

c）建模學(xué)習(xí)和遺忘對(duì)知識(shí)狀態(tài)的影響。利用學(xué)生兩次答題表現(xiàn)的差異以及學(xué)生的學(xué)習(xí)遺忘特征，通過(guò)式（6）～（8）計(jì)算出學(xué)生的學(xué)習(xí)收獲LG_t。利用學(xué)生的知識(shí)背景、學(xué)習(xí)遺忘特征、學(xué)習(xí)收獲，通過(guò)式（10）計(jì)算因遺忘導(dǎo)致的知識(shí)狀態(tài)衰減程度Γ^f_t。

d）建模知識(shí)狀態(tài)。利用學(xué)生學(xué)習(xí)收獲和知識(shí)狀態(tài)衰減程度，結(jié)合上一時(shí)刻知識(shí)狀態(tài)，通過(guò)式（11）（12）計(jì)算出當(dāng)前時(shí)刻學(xué)生的知識(shí)狀態(tài)h_t。

e）預(yù)測(cè)結(jié)果。通過(guò)式（13）將知識(shí)狀態(tài)轉(zhuǎn)換成概念相關(guān)知識(shí)狀態(tài)，將相關(guān)知識(shí)狀態(tài)h_t與練習(xí)嵌入e_t+1進(jìn)行連接，通過(guò)式（14）計(jì)算預(yù)測(cè)結(jié)果y_t+1。

4 實(shí)驗(yàn)

本文通過(guò)在兩個(gè)真實(shí)在線教育數(shù)據(jù)集 ASSISTments2012和ASSISTments2017上進(jìn)行實(shí)驗(yàn)，通過(guò)對(duì)比ELFBKT和現(xiàn)有的知識(shí)追蹤模型的預(yù)測(cè)性能，以驗(yàn)證ELFBKT在知識(shí)追蹤任務(wù)中的有效性。

4.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

為證明ELFBKT的有效性，本文在KT領(lǐng)域廣泛使用的兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)如表1所示。

ASSISTments2012：該數(shù)據(jù)集由ASSISTments在線教育平臺(tái)在2012年收集完成^［33^］。該數(shù)據(jù)集中短序列較多，對(duì)此，本文對(duì)數(shù)據(jù)集進(jìn)行了預(yù)處理，刪除了其中學(xué)習(xí)記錄小于5的學(xué)生信息。預(yù)處理后數(shù)據(jù)集包含28 834名學(xué)生，50 988個(gè)練習(xí)，198個(gè)概念。

b）ASSISTments2017：該數(shù)據(jù)集來(lái)源于2017ASSISTments數(shù)據(jù)挖掘競(jìng)賽^［34^］，相比于ASSISTments2012學(xué)生的平均學(xué)習(xí)記錄數(shù)量更多。數(shù)據(jù)集包含1 709名學(xué)生、3 162個(gè)練習(xí)、102個(gè)概念。

評(píng)價(jià)指標(biāo)：本文使用AUC（area under the curve）和ACC（accuracy）評(píng)價(jià)模型的預(yù)測(cè)性能。AUC的取值為［0，1］，AUC的值為0.5，表明模型的預(yù)測(cè)是隨機(jī)猜測(cè)的結(jié)果。AUC的值越接近1，表明模型預(yù)測(cè)的準(zhǔn)確率越高。ACC表示預(yù)測(cè)正確結(jié)果占全部預(yù)測(cè)結(jié)果的百分比，ACC值越高，說(shuō)明模型的預(yù)測(cè)性能越好。

4.2 訓(xùn)練細(xì)節(jié)

在ELFBKT中，RGCN中設(shè)置邊類型為3種，RGCN輸入特征維度和輸出特征維度分別設(shè)置為256。實(shí)驗(yàn)中學(xué)生回答d_a設(shè)置為50，練習(xí)嵌入d_e設(shè)置為256，d_k設(shè)置為256，學(xué)習(xí)率設(shè)置為0.001，批處理大小為64，為防止過(guò)擬合設(shè)置dropout為0.4。實(shí)驗(yàn)中采用了Adam優(yōu)化器^［35^］。為緩解梯度消失和梯度爆炸，模型所使用的神經(jīng)網(wǎng)絡(luò)中的權(quán)重使用Xavier^［36^］初始化。

為了更加準(zhǔn)確地評(píng)估模型性能，實(shí)驗(yàn)采用了5倍交叉驗(yàn)證的方法，將20%的數(shù)據(jù)用于測(cè)試，剩余80%的數(shù)據(jù)按8∶2的比例分成訓(xùn)練集和驗(yàn)證集。由于兩個(gè)數(shù)據(jù)集中學(xué)生的平均學(xué)習(xí)序列長(zhǎng)度不同，所以在ASSISTments2017中設(shè)置序列大小為500，ASSISTments2012中設(shè)置序列大小為100。

4.3 對(duì)比模型

為評(píng)估ELFBKT模型的性能，本文選用了五種對(duì)比模型。這些模型的具體情況如下：

a）DKT^［2^］。該模型是深度學(xué)習(xí)技術(shù)首次應(yīng)用到知識(shí)追蹤領(lǐng)域，使用LSTM進(jìn)行建模，相比傳統(tǒng)方法具備更好的預(yù)測(cè)性能。

b）DKVMN^［4^］。該模型記憶網(wǎng)絡(luò)和知識(shí)追蹤模型進(jìn)行了結(jié)合，使用鍵值記憶網(wǎng)絡(luò)存儲(chǔ)和更新知識(shí)概念和學(xué)生對(duì)知識(shí)概念的掌握情況，提升了知識(shí)追蹤的可解釋性

c）DKT+forget^［10^］。該模型將三種遺忘相關(guān)特征與DKT進(jìn)行了結(jié)合，擴(kuò)展了DKT模型。

d）GIKT^［11^］。該模型使用GCN將練習(xí)信息和高階練習(xí)概念關(guān)系信息進(jìn)行結(jié)合，并利用LSTM更新學(xué)生的知識(shí)狀態(tài)。

e）LPKT^［27^］。該模型利用學(xué)習(xí)過(guò)程和學(xué)生知識(shí)狀態(tài)變化的一致性，通過(guò)建模學(xué)生學(xué)習(xí)過(guò)程，提升知識(shí)追蹤任務(wù)的準(zhǔn)確性。

4.4 實(shí)驗(yàn)結(jié)果

將ELFBKT和五個(gè)對(duì)比模型在兩個(gè)數(shù)據(jù)集上的結(jié)果進(jìn)行了對(duì)比，實(shí)驗(yàn)結(jié)果如表2和圖3所示。

從表2和圖3中可以得知，ELFBKT模型在ASSISTments2012和ASSISTments2017兩個(gè)數(shù)據(jù)集上AUC為0.781、0.801，ACC為0.758、0.740，均為所有模型中最佳，證明了ELFBKT的有效性。

具體來(lái)說(shuō)，ELFBKT、GIKT和LPKT三個(gè)模型在兩個(gè)數(shù)據(jù)集上的預(yù)測(cè)效果均顯著優(yōu)于DKT、DKVMN、DKT+forget。ELFBKT、GIKT和LPKT和三個(gè)模型都是以練習(xí)為中心進(jìn)行預(yù)測(cè)，相比于以概念為中心進(jìn)行預(yù)測(cè)的模型DKT、DKVMN和DKT+forget，展現(xiàn)出更優(yōu)的性能。這說(shuō)明以練習(xí)為中心的模型能更好地區(qū)分包含相同概念的不同練習(xí)之間的差異，從而更準(zhǔn)確地預(yù)測(cè)學(xué)生的未來(lái)表現(xiàn)，相較于以概念為中心的模型具有優(yōu)勢(shì)。在三個(gè)以練習(xí)為中心進(jìn)行預(yù)測(cè)的模型中，ELFBKT和LPKT相較于GIKT表現(xiàn)更佳，其主要原因是ELFBKT和LPKT對(duì)學(xué)生的學(xué)習(xí)和遺忘行為進(jìn)行了建模。

ELFBKT與次優(yōu)模型LPKT相比，在兩個(gè)數(shù)據(jù)集上AUC提升0.7%、0.8%，ACC提升0.3%、0.2%。這一性能提升的原因主要有兩點(diǎn)：a）ELFBKT在以練習(xí)為中心進(jìn)行建模的過(guò)程中，考慮練習(xí)和概念之間的顯性關(guān)系與隱性關(guān)系，利用包含多種關(guān)系信息的高質(zhì)量練習(xí)嵌入幫助模型進(jìn)行預(yù)測(cè)，相比之下，LPKT模型僅將練習(xí)編號(hào)作為輸入，其練習(xí)嵌入的質(zhì)量相對(duì)較低，無(wú)法充分反映練習(xí)之間的復(fù)雜關(guān)系，這在一定程度上限制了其預(yù)測(cè)性能；b）ELFBKT模型在建模學(xué)生學(xué)習(xí)和遺忘的過(guò)程中考慮了更多的學(xué)習(xí)遺忘特征，LPKT模型利用的特征信息相對(duì)較少，對(duì)知識(shí)狀態(tài)的刻畫不夠準(zhǔn)確。綜上所述，ELFBKT模型通過(guò)深入挖掘練習(xí)與概念之間的關(guān)系以及考慮更多的學(xué)習(xí)遺忘特征，相比于次優(yōu)模型獲得了更好的效果。

4.5 消融實(shí)驗(yàn)

為詳細(xì)驗(yàn)證ELFBKT各部分有效性，本節(jié)對(duì)ELFBKT各部分有效性進(jìn)行了深入的消融實(shí)驗(yàn)。具體來(lái)說(shuō)，本節(jié)進(jìn)一步研究了ELFBKT中關(guān)系特征提取模塊、學(xué)習(xí)模塊和遺忘模塊三個(gè)主要部分的有效性。實(shí)驗(yàn)結(jié)果如表3和圖4所示。表3和圖4中，ELFBKT-NR、ELFBKT-NL和ELFBKT-NF分別表示ELFBKT的三個(gè)變體。

a）ELFBKT-NR表示ELFBKT去掉了關(guān)系特征提取模塊，沒(méi)有將練習(xí)-概念異構(gòu)圖中的關(guān)系信息融合到練習(xí)嵌入中。

b）ELFBKT-NF表示ELFBKT去掉遺忘門，即沒(méi)有對(duì)因遺忘導(dǎo)致的知識(shí)狀態(tài)衰減進(jìn)行建模。公式上，將學(xué)習(xí)門式（9）中計(jì)算得出的結(jié)果LG_t，直接替代預(yù)測(cè)門中式（3）中h_t輸入預(yù)測(cè)門中進(jìn)行預(yù)測(cè)。

c）ELFBKT-NL表示沒(méi)有使用學(xué)生在兩次答題過(guò)程中的差異建模學(xué)生學(xué)習(xí)收獲的過(guò)程，僅使用當(dāng)前時(shí)刻的答題嵌入建模學(xué)生的學(xué)習(xí)情況。公式上，將式（6）（7）替換為

lg_t=tanh（W^T₂［lf_t⊕an_t⊕h_t-1］+b₂）（16）

Γ^l_t=σ（W^T₃［lf_t⊕an_t⊕h_t-1］+b₃）（17）

即去掉了公式中的an_t-1，線性層維度也將進(jìn)行對(duì)應(yīng)的改變。

表3和圖4中ELFBKT-NR的結(jié)果顯示，去除了關(guān)系特征提取模塊之后，模型的AUC下降了至少1%，ACC下降了至少0.7%。其中關(guān)系特征提取模塊在ASSISTments2012上的提升更大，因?yàn)樵摂?shù)據(jù)集中練習(xí)和概念數(shù)量較多，關(guān)系特征提取模塊可以更好地提取異構(gòu)圖中的多種關(guān)系信息。以上結(jié)果表明，關(guān)系特征提取模塊將練習(xí)概念異構(gòu)圖中的各類關(guān)系信息加入到問(wèn)題嵌入中，成功幫助模型建模學(xué)生對(duì)特定練習(xí)的掌握情況，提升了模型的預(yù)測(cè)性能。

表3和圖4中ELFBKT-NF的結(jié)果顯示，如果模型忽略學(xué)生的遺忘行為，即去掉遺忘門，會(huì)導(dǎo)致模AUC、ACC值在ASSISTments2017上分別下降2.3%、2%左右，在ASSISTments2012上分別下降2.9%、1.5%左右。實(shí)驗(yàn)結(jié)果表明，對(duì)學(xué)生的遺忘進(jìn)行建模可以有效提升ELFBKT的性能，即知識(shí)追蹤任務(wù)中考慮學(xué)生的遺忘行為是非常重要的。

表3和圖4中ELFBKT-NL的結(jié)果顯示，僅使用學(xué)生當(dāng)前時(shí)刻答題嵌入進(jìn)行建模會(huì)導(dǎo)致模型性能下降。這說(shuō)明考慮學(xué)生兩次答題過(guò)程中的學(xué)習(xí)情況差異，進(jìn)而得出學(xué)生的學(xué)習(xí)進(jìn)步，相較于僅考慮學(xué)生當(dāng)前時(shí)刻的學(xué)習(xí)情況，可以更好地建模學(xué)生的知識(shí)狀態(tài)變化，提升模型的預(yù)測(cè)性能。

綜上所述，本節(jié)的消融實(shí)驗(yàn)驗(yàn)證了學(xué)習(xí)、遺忘以及關(guān)系特征提取三個(gè)模塊在ELFBKT中的有效性。

4.6 超參數(shù)分析

本節(jié)討論不同的超參數(shù)在ASSISTments2017上對(duì)AUC結(jié)果的影響。ELFBKT中將練習(xí)概念異構(gòu)圖中的關(guān)系信息加入到了練習(xí)嵌入之中，建模學(xué)生對(duì)特定練習(xí)的掌握情況。因此與練習(xí)嵌入相關(guān)的維度信息的選用非常重要。本文選擇了練習(xí)嵌入維度d_e、RGCN網(wǎng)絡(luò)輸入特征維度d_k和dropout rate三個(gè)超參數(shù)進(jìn)行敏感性分析。實(shí)驗(yàn)結(jié)果如圖5、6所示。

a）超參數(shù)d_k與d_e。RGCN需要使用練習(xí)嵌入向量作為輸入特征，d_k與d_e的值需保持一致，因此將這兩個(gè)參數(shù)放在一起進(jìn)行討論。從實(shí)驗(yàn)的結(jié)果可以看出，當(dāng)練習(xí)的嵌入維度d_e以及RGCN網(wǎng)絡(luò)的輸入特征維度d_k從32維增長(zhǎng)到256維時(shí)，模型的AUC效果有所增長(zhǎng)，并在維度設(shè)置為256時(shí)取得了最好的結(jié)果。這說(shuō)明隨著嵌入維度的增加，練習(xí)嵌入中可以編碼更多的信息，加強(qiáng)模型的預(yù)測(cè)性能。但是如果嵌入的維度過(guò)大，會(huì)產(chǎn)生練習(xí)嵌入稀疏性問(wèn)題，造成模型的性能下降。

b）超參數(shù)dropout。本文選擇了四組不同的dropout rate進(jìn)行測(cè)試，實(shí)驗(yàn)結(jié)果顯示，dropout rate設(shè)置為0.4時(shí)模型的AUC效果最好，當(dāng)dropout過(guò)大時(shí)，網(wǎng)絡(luò)產(chǎn)生的欠擬合效應(yīng)導(dǎo)致模型的預(yù)測(cè)效果發(fā)生了下降。當(dāng)嵌入維度為256，dropout rate為0.4時(shí)，模型產(chǎn)生了最好的預(yù)測(cè)效果。

5 結(jié)束語(yǔ)

本文提出了一種增強(qiáng)練習(xí)嵌入和學(xué)習(xí)遺忘特征的知識(shí)追蹤模型ELFBKT。該模型使用關(guān)系圖卷積網(wǎng)絡(luò)將練習(xí)概念異構(gòu)圖中的關(guān)系信息融合到練習(xí)嵌入中，以練習(xí)為中心評(píng)估學(xué)生的未來(lái)表現(xiàn)。此外，本文結(jié)合教育心理學(xué)理論，利用多種學(xué)習(xí)遺忘特征設(shè)計(jì)學(xué)習(xí)模塊和遺忘模塊分別建模學(xué)生答題過(guò)程中因?qū)W習(xí)產(chǎn)生知識(shí)狀態(tài)增長(zhǎng)和因遺忘導(dǎo)致的知識(shí)狀態(tài)衰減，更加精準(zhǔn)地刻畫了學(xué)生的知識(shí)狀態(tài)。最后，在兩個(gè)真實(shí)世界數(shù)據(jù)集實(shí)驗(yàn)結(jié)果表明，ELFBKT達(dá)到了更好的效果。

在真實(shí)的教育場(chǎng)景中，根據(jù)學(xué)生知識(shí)狀態(tài)進(jìn)行查漏補(bǔ)缺是非常重要的。知識(shí)追蹤可以評(píng)估學(xué)生知識(shí)狀態(tài)，幫助教育工作者進(jìn)行教育教學(xué)。未來(lái)將進(jìn)一步細(xì)化練習(xí)概念之間的各項(xiàng)關(guān)系信息，利用更加豐富的關(guān)系信息和難度特征對(duì)練習(xí)嵌入進(jìn)行建模。此外，本文雖然考慮多種學(xué)習(xí)遺忘特征對(duì)學(xué)生知識(shí)狀態(tài)的影響，但并未區(qū)分不同特征與知識(shí)狀態(tài)之間的相關(guān)性強(qiáng)弱，未來(lái)還需進(jìn)一步探索。

參考文獻(xiàn)：

［1］Corbett A T， Anderson J R. Knowledge tracing： modeling the acquisition of procedural knowledge［J］. User Modeling and User-Adapted Interaction， 1994， 4： 253-278.

［2］Piech C， Bassen J， Huang J， et al. Deep knowledge tracing［C］// Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2015： 505-513.

［3］Song Xiangyu， Li Jianxin， Cai Taotao， et al. A survey on deep lear-ning based knowledge tracing［J］. Knowledge-Based Systems， 2022， 258： 110036.

［4］Zhang Jianni， Shi Xingjian， King I， et al. Dynamic key-value memory networks for knowledge tracing［C］// Proc of the 26th International Conference on World Wide Web. ［S.l.］： International World Wide Web Conferences Steering Committee， 2017： 765-774.

［5］Pandey S， Karypis G. A self-attentive model for knowledge tracing［C］// Proc of the 12th International Conference on Educational Data Mining. ［S.l.］： International Educational Data Mining Society， 2019： 384-389.

［6］Nakagawa H， Iwasawa Y， Matsuo Y. Graph-based knowledge tra-cing： modeling student proficiency using graph neural network［C］// Proc of IEEE/WIC/ACM International Conference on Web Intelligence. Piscataway， NJ： IEEE Press， 2019： 156-163.

［7］Sonkar S， Waters A E， Lan A S， et al. qDKT： question-centric deep knowledge tracing［C］// Proc of the 13th International Conference on Educational Data Mining. 2020： 677-681.

［8］Gan Wenbin， Sun Yuan， Sun Yi. Knowledge structure enhanced graph representation learning model for attentive knowledge tracing［J］. International Journal of Intelligent Systems， 2022， 37（3）： 2012-2045.

［9］Wang Tianqi， Ma Fenglong， Gao Jing. Deep hierarchical knowledge tracing［C］// Proc of the 12th International Conference on Educatio-nal Data Mining. ［S.l.］： International Educational Data Mining Society， 2019： 671-674.

［10］Nagatani K， Zhang Qian， Sato M， et al. Augmenting knowledge tra-cing by considering forgetting behavior［C］// Proc of World Wide Web Conference. New York： ACM Press， 2019： 3101-3107.

［11］Yang Yang， Shen Jian， Qu Yunfei， et al. GIKT： a graph-based interaction model for knowledge tracing［C］// Proc of European Confe-rence on Machine Learning and Knowledge Discovery in Databases. Cham： Springer， 2021： 299-315.

［12］Kipf T N， Welling M. Semi-supervised classification with graph con-volutional networks ［EB/OL］. （2017-02-22）. https：//arxiv.org/abs/1609.02907.

［13］Xu Jia， Huang Xinyue， Xiao Teng， et al. Improving knowledge tracing via a heterogeneous information network enhanced by student interactions［J］. Expert Systems with Applications， 2023， 232： 120853.

［14］Schlichtkrull M， Kipf T N， Bloem P， et al. Modeling relational data with graph convolutional networks［C］// Proc of the 15th Extended Semantic Web Conference. Cham： Springer， 2018： 593-607.

［15］Averell L， Heathcote A. The form of the forgetting curve and the fate of memories［J］. Journal of Mathematical Psychology， 2011， 55（1）： 25-35.

［16］Anzanello M J， Fogliatto F S. Learning curve models and applications： literature review and research directions［J］. International Journal of Industrial Ergonomics， 2011， 41（5）： 573-583.

［17］王璨，劉朝暉，王蓓，等. TCN-KT：個(gè)人基礎(chǔ)與遺忘融合的時(shí)間卷積知識(shí)追蹤模型［J］. 計(jì)算機(jī)應(yīng)用研究， 2022， 39（5）： 1496-1500. （Wang Can， Liu Zhaohui， Wang Bei， et al. TCN-KT： temporal convolutional knowledge tracking model based on fusion of personal basis and forgetting［J］. Application Research of Computers， 2022， 39（5）： 1496-1500.）

［18］Shun Xia， Zhao Xu， Li Bo， et al. Dynamic key-value memory networks with rich features for knowledge tracing［J］. IEEE Trans on Cybernetics， 2022， 52（8）： 8239-8245.

［19］Zhao Weizhong， Xia Jun， Jiang Xingpeng， et al. A novel framework for deep knowledge tracing via gating-controlled forgetting and learning mechanisms［J］. Information Processing amp; Management， 2023， 60（1）： 103114.

［20］Tong Shiwei， Liu Qi， Huang Wei， et al. Structure-based knowledge tracing： an influence propagation view ［C］// Proc of IEEE International Conference on Data Mining. Piscataway， NJ： IEEE Press， 2020： 541-550.

［21］張凱，劉月，覃正楚，等. 概念表示增強(qiáng)的知識(shí)追蹤模型［J］. 計(jì)算機(jī)應(yīng)用研究， 2022， 39（11）： 3309-3314. （Zhang Kai， Liu Yue， Qin Zhengchu， et al. Concept representation enhanced know-ledge tracing［J］. Application Research of Computers， 2022， 39（11）： 3309-3314.）

［22］Liu Yunfei， Yang Yang， Chen Xianyu， et al. Improving knowledge tracing via pre-training question embeddings［C］// Proc of the 29th International Conference on International Joint Conferences on Artificial Intelligence. New York： ACM Press， 2021： 1577-1583.

［23］Wu Zhengyang， Huang Li， Huang Qionghao， et al. SGKT： session graph-based knowledge tracing for student performance prediction［J］. Expert Systems with Applications， 2022， 206： 117681.

［24］Ni Qin， Wei Tingjiang， Zhao Jiabao， et al. HHSKT： a learner-question interactions based heterogeneous graph neural network model for knowledge tracing［J］. Expert Systems with Applications， 2023， 215： 119334.

［25］張鵬，文磊. F-TCKT：融合遺忘因素的深度時(shí)序卷積知識(shí)追蹤模型［J］. 計(jì)算機(jī)應(yīng)用研究， 2023， 40（4）： 1070-1074. （Zhang Peng， Wen Lei. F-TCKT： deep temporal convolutional knowledge tracking model with forgetting factors［J］. Application Research of Computers， 2023， 40（4）： 1070-1074.）

［26］李曉光，魏思齊，張昕，等. LFKT：學(xué)習(xí)與遺忘融合的深度知識(shí)追蹤模型［J］. 軟件學(xué)報(bào)， 2021， 32（3）： 818-830. （Li Xiaoguang， Wei Siqi， Zhang Xin， et al. LFKT： deep knowledge tracing model with learning and forgetting behavior merging［J］. Journal of Software， 2021， 32（3）： 818-830.）

［27］Shen Shuanghong， Chen Enhong， Liu Qi， et al. Monitoring student progress for learning process-consistent knowledge tracing［J］. IEEE Trans on Knowledge and Data Engineering， 2023， 35（8）： 8213-8227.

［28］Yang Shanghui， Liu Xin， Su Hang， et al. Deep knowledge tracing with learning curves［C］// Proc of IEEE International Conference on Data Mining Workshops. Piscataway， NJ： IEEE Press， 2022： 282-291.

［29］Su Hong， Liu Xin， Yang Shanghui， et al. Deep knowledge tracing with learning curves ［J］. Frontiers in Psychology， 2023， 14： 1150329.

［30］Pandey S， Srivastava J. RKT： Relation-aware self-attention for knowledge tracing［C］// Proc of the 29th ACM International Confe-rence on Information amp; Knowledge Management. New York： ACM Press， 2020： 1205-1214.

［31］Gao Ming， Chen Leihui， He Xiangnan， et al. BiNE： bipartite network embedding［C］// Proc of the 41st International ACM SIGIR Conference on Research amp; Development in Information Retrieval. New York： ACM Press， 2018： 715-724.

［32］Markovitch S， Scott P D. The role of forgetting in learning［C］// Proc of the 5th International Conference on Machine Learning. San Francisco， CA： Morgan Kaufmann Publishers Inc.， 1988： 459-465.

［33］Patikorn T， Baker R S， Heffernan N T. ASSISTments longitudinal data mining competition special issue： a preface［J］. Journal of Edu-cational Data Mining， 2020， 12（2）： 1-9.

［34］Feng Mingyu， Heffernan N， Koedinger K. Addressing the assessment challenge with an online system that tutors as it assesses［J］. User Modeling and User-Adapted Interaction， 2009， 19（3）： 243-266.

［35］Kingma D P， Ba J. Adam： a method for stochastic optimization ［EB/OL］. （2017-01-30）. https：//arxiv.org/abs/1412.6980.

［36］Glorot X， Bengio Y. Understanding the difficulty of training deep feedforward neural networks［C］// Proc of the 13th International Conference on Artificial Intelligence and Statistics. ［S.l.］： PMLR， 2010： 249-256.

計(jì)算機(jī)應(yīng)用研究2024年11期

計(jì)算機(jī)應(yīng)用研究的其它文章: 下期要目; 基于參考單元編碼失真時(shí)域影響的率失真優(yōu)化算法; 雙U型門控網(wǎng)絡(luò)融合非局部先驗(yàn)的圖像壓縮感知重建方法; 基于自分塊輕量化Transformer的醫(yī)學(xué)圖像分割網(wǎng)絡(luò); 區(qū)域時(shí)間變化學(xué)習(xí)的行為識(shí)別; 融合物理信息的多材料模擬學(xué)習(xí)模型

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

練習(xí)嵌入和學(xué)習(xí)遺忘特征增強(qiáng)的知識(shí)追蹤模型