国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Uni-LSDPM:基于預(yù)訓(xùn)練的統(tǒng)一在線學(xué)習(xí)會(huì)話退出預(yù)測(cè)模型

2024-02-20 08:22:06王占全
關(guān)鍵詞:微調(diào)學(xué)習(xí)者預(yù)測(cè)

陳 芮 王占全

(華東理工大學(xué)信息科學(xué)與工程學(xué)院 上海 200237)

(y30201053@mail.ecust.edu.cn)

大數(shù)據(jù)時(shí)代的到來和人工智能技術(shù)的發(fā)展為教育領(lǐng)域的改革和發(fā)展提供了新的思路,隨著互聯(lián)網(wǎng)+教育的普及和網(wǎng)絡(luò)學(xué)習(xí)技術(shù)及策略的發(fā)展,在線教育成為了全民學(xué)習(xí)的高效途徑之一. 智能輔導(dǎo)系統(tǒng)(intelligent tutoring system,ITS)除了為學(xué)習(xí)者提供學(xué)習(xí)資源、建立師生橋梁、維護(hù)學(xué)習(xí)交流社區(qū),還應(yīng)盡可能幫助學(xué)習(xí)者更好地學(xué)習(xí)與掌握知識(shí),使每個(gè)學(xué)生的學(xué)習(xí)效果最大化.ITS 的普遍做法是通過人工智能對(duì)學(xué)習(xí)者的知識(shí)體系進(jìn)行追蹤建模,診斷學(xué)生的學(xué)習(xí)問題,生成學(xué)習(xí)者個(gè)性化學(xué)習(xí)路徑,并提供適合學(xué)習(xí)者的個(gè)性化補(bǔ)充學(xué)習(xí)材料[1-4]. 然而,ITS 不僅要考慮學(xué)習(xí)者參與各學(xué)習(xí)項(xiàng)目的學(xué)習(xí)效率,還要考慮學(xué)習(xí)者的學(xué)習(xí)參與度[5],使其能夠最大限度地提高學(xué)習(xí)的整體效率. 即使ITS 確定了效率最高的最優(yōu)學(xué)習(xí)路徑,但學(xué)習(xí)者在學(xué)習(xí)過程中出現(xiàn)的頻繁中斷或在學(xué)習(xí)初期就輟學(xué)的情況,將成為實(shí)現(xiàn)教育目標(biāo)的巨大阻礙.

學(xué)習(xí)者在ITS 中學(xué)習(xí)的時(shí)間越長(zhǎng),對(duì)學(xué)習(xí)者與ITS 產(chǎn)生的正向價(jià)值就越大. 在學(xué)習(xí)者的知識(shí)獲取方面,基于平臺(tái)上的學(xué)習(xí)資源與系統(tǒng)推薦學(xué)習(xí)路徑,學(xué)習(xí)者能夠更高效地獲取更多知識(shí)技能[6];在ITS 教育方式及教育過程的優(yōu)化方面,ITS 能夠以更大概率通過學(xué)習(xí)者行為特征獲取用戶需求、用戶關(guān)系等信息,以便生成用戶畫像,針對(duì)性地提供個(gè)性化服務(wù),繼而反向促進(jìn)學(xué)習(xí)者學(xué)習(xí)活動(dòng),使學(xué)習(xí)效率加倍. 學(xué)習(xí)者每次的學(xué)習(xí)時(shí)間越長(zhǎng),學(xué)習(xí)者最終輟學(xué)的可能性越低[7]. 因此,如何盡可能地延長(zhǎng)學(xué)習(xí)者單次會(huì)話的學(xué)習(xí)時(shí)間是值得探究的問題. 有研究表明,學(xué)習(xí)者與課程內(nèi)容之間的交互,與學(xué)習(xí)者的輟學(xué)結(jié)果在統(tǒng)計(jì)學(xué)上具有顯著的直接和間接關(guān)系[8]. 因此,為了監(jiān)督和幫助學(xué)習(xí)者不中斷學(xué)習(xí)任務(wù),ITS 需要在學(xué)習(xí)者退出學(xué)習(xí)概率較大時(shí)采取措施使其繼續(xù)保持學(xué)習(xí)狀態(tài).通常,系統(tǒng)會(huì)采取措施促使學(xué)習(xí)者完成當(dāng)前學(xué)習(xí)項(xiàng)目或繼續(xù)學(xué)習(xí)路徑推薦的下一個(gè)學(xué)習(xí)項(xiàng)目,以輔助學(xué)習(xí)者對(duì)知識(shí)點(diǎn)的獲取、鞏固和拓展.

為了防止學(xué)習(xí)者退出,若ITS 較頻繁地在學(xué)習(xí)者每次執(zhí)行完1 輪或幾輪動(dòng)作后就推薦引導(dǎo)學(xué)習(xí)者參與下一學(xué)習(xí)活動(dòng),可能會(huì)引起學(xué)習(xí)者的反感而導(dǎo)致學(xué)習(xí)者流失;ITS 若較長(zhǎng)時(shí)間不采取干預(yù)措施,則容易導(dǎo)致學(xué)習(xí)者退出學(xué)習(xí)狀態(tài),無法最大限度地提高學(xué)習(xí)效率. 因此,如何在適當(dāng)?shù)臅r(shí)間對(duì)學(xué)習(xí)者進(jìn)行提醒監(jiān)督或推薦、引導(dǎo)、反饋是一個(gè)值得關(guān)注的問題.ITS 需要準(zhǔn)確地發(fā)現(xiàn)學(xué)習(xí)者在何時(shí)會(huì)有退出的風(fēng)險(xiǎn),才能及時(shí)采取干預(yù)措施[9]. 通過預(yù)測(cè)學(xué)習(xí)者在學(xué)習(xí)中途退出的時(shí)機(jī),ITS 能夠動(dòng)態(tài)地修改服務(wù)策略,以鼓勵(lì)學(xué)習(xí)者繼續(xù)參與教學(xué)活動(dòng). 因此,在線教育中的學(xué)習(xí)會(huì)話退出預(yù)測(cè)是一個(gè)值得研究的重要命題.

學(xué)習(xí)會(huì)話是學(xué)習(xí)者學(xué)習(xí)階段中的一個(gè)過程. 在此過程中,學(xué)習(xí)者連續(xù)參與學(xué)習(xí)活動(dòng),對(duì)平臺(tái)各模塊訪問互動(dòng)進(jìn)行連續(xù)請(qǐng)求動(dòng)作,同時(shí)保留其最近行為的歷史記錄. 在每個(gè)學(xué)習(xí)階段中,當(dāng)學(xué)習(xí)者在足夠長(zhǎng)的時(shí)間內(nèi)不出現(xiàn)新的學(xué)習(xí)動(dòng)作和活動(dòng)時(shí),表示發(fā)生了學(xué)習(xí)中途退出,標(biāo)志著學(xué)習(xí)會(huì)話的結(jié)束,記為學(xué)習(xí)會(huì)話退出. Halfaker 等人[10]研究了各個(gè)領(lǐng)域的用戶行為數(shù)據(jù),提出了一種用于識(shí)別用戶活動(dòng)集群的方法,研究得出對(duì)用戶行為聚類效果最好的時(shí)間閾值為1 h,我們引用其研究結(jié)果作為學(xué)習(xí)會(huì)話退出的閾值. 圖1所示為學(xué)習(xí)者行為活動(dòng)、學(xué)習(xí)會(huì)話和學(xué)習(xí)會(huì)話退出的示例.

Fig. 1 Examples of behavior activities, learning sessions and learning session dropout圖1 行為活動(dòng)、學(xué)習(xí)會(huì)話和學(xué)習(xí)會(huì)話退出示例

為了改善ITS 輟學(xué)率高的問題,我們將學(xué)習(xí)過程中的中途退出預(yù)測(cè)任務(wù)定義為學(xué)習(xí)會(huì)話輟學(xué)預(yù)測(cè)(learning session dropout prediction,LSDP)任務(wù). 根據(jù)預(yù)測(cè)結(jié)果,ITS 可以在每個(gè)學(xué)習(xí)者退出會(huì)話概率較大的節(jié)點(diǎn)及時(shí)給予學(xué)習(xí)者干預(yù)措施,激勵(lì)、引導(dǎo)學(xué)習(xí)者繼續(xù)學(xué)習(xí),幫助學(xué)習(xí)者更好地掌握當(dāng)前知識(shí)點(diǎn)或更多地拓展其他知識(shí)點(diǎn). 該任務(wù)旨在預(yù)測(cè)學(xué)習(xí)者在執(zhí)行當(dāng)前學(xué)習(xí)行為后退出當(dāng)前學(xué)習(xí)會(huì)話的概率.

此前,隨著大規(guī)模在線開放課程(massive online open courses,MOOC)的發(fā)展和海量用戶活動(dòng)數(shù)據(jù)的可用性增強(qiáng),研究者針對(duì)學(xué)生輟學(xué)預(yù)測(cè)(student dropout prediction,SDP)[11]展開了大量研究.SDP 的具體目標(biāo)是通過分析與模擬學(xué)生與ITS 交互的行為來分析在線學(xué)習(xí)環(huán)境中的課程輟學(xué)情況[12]. 其中涉及各種傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)[13-15]與基于神經(jīng)網(wǎng)絡(luò)的模型[16-17].

然而,雖然使用學(xué)習(xí)分析構(gòu)建輟學(xué)預(yù)測(cè)模型有望為這些有風(fēng)險(xiǎn)的學(xué)生提供干預(yù)設(shè)計(jì)信息,但當(dāng)前預(yù)測(cè)模型構(gòu)建方法的結(jié)果并不能為學(xué)習(xí)者提供個(gè)性化干預(yù)[18]. 而LSDP 可以提供更細(xì)粒度的預(yù)測(cè)結(jié)果,能夠?yàn)榧皶r(shí)干預(yù)學(xué)習(xí)者輟學(xué)提供依據(jù). 盡管已經(jīng)對(duì)在線教育的輟學(xué)預(yù)測(cè)進(jìn)行了廣泛的研究,但在線學(xué)習(xí)過程中的階段性輟學(xué)與在線課程輟學(xué)不同. 在線學(xué)習(xí)過程中途退出發(fā)生的頻率更高,單次學(xué)習(xí)時(shí)長(zhǎng)更短. 在線學(xué)習(xí)的碎片性在課程輟學(xué)預(yù)測(cè)研究中并沒有得到充分考慮. 直接應(yīng)用學(xué)生課程退學(xué)預(yù)測(cè)方法來預(yù)測(cè)學(xué)習(xí)過程中的階段會(huì)話退出,預(yù)測(cè)效果不佳. 因此,相對(duì)于SDP 而言,LSDP 需要考慮學(xué)習(xí)者學(xué)習(xí)行為的碎片性和預(yù)測(cè)的即時(shí)性. 在有限的行為數(shù)據(jù)中對(duì)學(xué)習(xí)會(huì)話退出狀態(tài)進(jìn)行準(zhǔn)確預(yù)測(cè),是LSDP 的一大挑戰(zhàn).

與線下學(xué)習(xí)不同,ITS 可以利用自動(dòng)收集的學(xué)生行為數(shù)據(jù)來實(shí)時(shí)完成任務(wù), Lee 等人[19]將問答日志作為研究對(duì)象. 但在實(shí)際在線ITS 中,還應(yīng)考慮多方面行為特征. 隨著學(xué)習(xí)者行為活動(dòng)的產(chǎn)生,學(xué)習(xí)者的學(xué)習(xí)狀態(tài)也會(huì)發(fā)生變化,學(xué)習(xí)者在動(dòng)態(tài)變化的學(xué)習(xí)狀態(tài)下?lián)碛袆?dòng)態(tài)變化的最優(yōu)學(xué)習(xí)路徑. 例如,學(xué)習(xí)者完成作答后的作答結(jié)果是否正確關(guān)系到下一行為可能是重新作答或繼續(xù)作答同一類型其他題目,還可能是查看該題目對(duì)應(yīng)的解析或講座視頻. 這些行為所伴隨的特征,如回答結(jié)果、觀看視頻的光標(biāo)時(shí)間、持續(xù)時(shí)間等,也可以反映學(xué)習(xí)者對(duì)知識(shí)點(diǎn)的掌握情況和學(xué)習(xí)狀態(tài). 因此,如何準(zhǔn)確地挖掘?qū)W習(xí)者學(xué)習(xí)狀態(tài)的變化及其對(duì)學(xué)習(xí)者會(huì)話退出帶來的影響是LSDP的又一大挑戰(zhàn).

近年來,基于預(yù)訓(xùn)練-微調(diào)范式的語言模型在自然語言處理領(lǐng)域取得了突破性的成果[20]. 預(yù)訓(xùn)練任務(wù)旨在學(xué)習(xí)上下文語料之間的隱含關(guān)系,為下游任務(wù)提供基礎(chǔ). 在LSDP 任務(wù)中,由于學(xué)習(xí)行為的碎片性,當(dāng)僅有少量前序?qū)W習(xí)行為作為輸入時(shí),模型在預(yù)訓(xùn)練階段已經(jīng)學(xué)習(xí)過學(xué)習(xí)行為上下文特征及其隱含關(guān)系,有利于在下游學(xué)習(xí)會(huì)話退出預(yù)測(cè)任務(wù)中快速做出更準(zhǔn)確的預(yù)測(cè). 因此,利用預(yù)訓(xùn)練任務(wù)全面地挖掘并理解學(xué)習(xí)者學(xué)習(xí)行為特征、上下文隱含關(guān)聯(lián)是準(zhǔn)確預(yù)測(cè)學(xué)習(xí)者學(xué)習(xí)會(huì)話退出的重要基礎(chǔ),預(yù)訓(xùn)練-微調(diào)范式能夠有效解決學(xué)習(xí)行為碎片性和學(xué)習(xí)行為狀態(tài)隱含關(guān)聯(lián)不清楚對(duì)學(xué)習(xí)會(huì)話退出預(yù)測(cè)準(zhǔn)確性帶來的困難.

在本文中,我們基于學(xué)習(xí)者在ITS 中的在線學(xué)習(xí)行為對(duì)學(xué)習(xí)者學(xué)習(xí)會(huì)話退出進(jìn)行了預(yù)測(cè)研究. 參考統(tǒng)一語言模型(unified language model,UniLM)[21]框架,提出了一種基于預(yù)訓(xùn)練-微調(diào)的統(tǒng)一學(xué)習(xí)會(huì)話退出預(yù)測(cè)模型(unified learning session dropout prediction model,Uni-LSDPM). 該模型采用多層基于多頭注意力的Transformer 結(jié)構(gòu),對(duì)同一行為特征之間的上下文與連續(xù)動(dòng)作序列的上下文進(jìn)行聯(lián)合關(guān)注,以進(jìn)行在線學(xué)習(xí)會(huì)話的退出預(yù)測(cè). 本文的主要貢獻(xiàn)有3 點(diǎn):

1) 由于以往基于在線教育會(huì)話退出的任務(wù)研究較少,本文明確了在線學(xué)習(xí)會(huì)話及其退出狀態(tài)的定義,并定義了在線教育學(xué)習(xí)會(huì)話退出預(yù)測(cè)任務(wù)和模型輸入序列框架.

2) 提出了基于預(yù)訓(xùn)練-微調(diào)范式的統(tǒng)一學(xué)習(xí)會(huì)話退出預(yù)測(cè)模型Uni-LSDPM.該模型包括預(yù)訓(xùn)練部分與微調(diào)部分,旨在挖掘并理解同一學(xué)習(xí)行為特征間的上下文關(guān)聯(lián)性和連續(xù)學(xué)習(xí)行為間的上下文隱含關(guān)系,并得到預(yù)測(cè)會(huì)話退出狀態(tài).Uni-LSDPM 為第1 個(gè)將預(yù)訓(xùn)練-微調(diào)范式應(yīng)用于在線學(xué)習(xí)會(huì)話退出預(yù)測(cè)任務(wù)的工作.

3) 進(jìn)行了大量的消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)來評(píng)估所提出模型的效果. 實(shí)驗(yàn)結(jié)果表明,Uni-LSDPM 在AUC 和ACC 方面優(yōu)于現(xiàn)有的模型.

1 相關(guān)工作

本節(jié)首先介紹了近年來SDP 的相關(guān)工作. 其次,介紹了教育及其他領(lǐng)域中基于時(shí)間序列的會(huì)話退出研究. 最后,描述了現(xiàn)有的LSDP 研究方法.

1.1 學(xué)生輟學(xué)預(yù)測(cè)

在在線教育領(lǐng)域,LSDP 研究還處于起步階段.以往SDP 相關(guān)研究工作的研究目標(biāo)大多注重于在線課程的輟學(xué),即預(yù)測(cè)學(xué)習(xí)者中途是否會(huì)退出當(dāng)前學(xué)習(xí)的課程[12-13].

機(jī)器學(xué)習(xí)技術(shù)曾被廣泛地應(yīng)用于課程輟學(xué)預(yù)測(cè)方面的研究. 其中一些傳統(tǒng)機(jī)器學(xué)習(xí)的算法被廣泛應(yīng)用[22-25],包括隨機(jī)森林(random forest,RF)、支持向量機(jī)(support vector machine,SVM)、邏輯回歸(logistic regression,LR)、決策樹(decision tree,DT)、樸素貝葉斯(naive Bayes,NB) 、 隱馬爾可夫模型(hidden Markov model,HMM)等. Dass 等人[22]應(yīng)用RF 來預(yù)測(cè)MOOC 課程中的學(xué)生輟學(xué). Hong 等人[23]采用2 層級(jí)聯(lián)分類器進(jìn)行輟學(xué)預(yù)測(cè),該分類器由RF,SVM,LR這3 種不同的機(jī)器學(xué)習(xí)分類器組合而成.Coussement等人[24]將DT 與LR 模型構(gòu)成的混合模型(logit leaf lodel,LLM)與LR、SVM、DT、RF、提升樹(Boost)、HMM、NB、神經(jīng)網(wǎng)絡(luò)這8 種算法進(jìn)行實(shí)驗(yàn)對(duì)比分析,總結(jié)出LLM 算法在輟學(xué)預(yù)測(cè)中的有益影響. Lee 等人[25]使用LR、DT、NB 和多層感知器(multilayer perceptron,MLP)生成學(xué)生輟學(xué)的預(yù)測(cè)模型. 通過方差分析得出選擇的自變量多層感知器模型比其他模型具有更好的性能.Boudjehem 等人[26]利用分布式人工智能分析學(xué)生的行為活動(dòng),以此來識(shí)別有輟學(xué)危險(xiǎn)的學(xué)生.

許多研究者在特征獲取方面也進(jìn)行了大量的研究. Alamri 等人[27]使用“學(xué)習(xí)者的跳躍行為”作為特征,通過檢查學(xué)生下周的學(xué)習(xí)活動(dòng)和行為來預(yù)測(cè)學(xué)生輟學(xué)率,獲得了較高的輟學(xué)預(yù)測(cè)精度.Jin[28]研究了每個(gè)學(xué)生樣本初始權(quán)值的計(jì)算和實(shí)現(xiàn)算法,利用智能優(yōu)化方法進(jìn)一步研究了學(xué)生樣本初始權(quán)值的優(yōu)化方法,并利用加權(quán)訓(xùn)練樣本訓(xùn)練預(yù)測(cè)分類器. 這些特征獲取的創(chuàng)新在提升SDP 的精度上有很大幫助.

另外,還有許多基于神經(jīng)網(wǎng)絡(luò)的技術(shù)和方法用于SDP[29], 包括長(zhǎng)短期記憶網(wǎng)絡(luò)( long short-term memory,LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)等. Wu 等人[30]提出了名為 CEDN(classmates enhanced diversity-self-attention network) 的方法來預(yù)測(cè)學(xué)生的輟學(xué).CEDN 利用年齡、性別、教育程度、課程類別等多樣性信息和用戶的活動(dòng)序列,構(gòu)建了一個(gè)多樣性自注意模型,用于生成用戶課程特征. Goel 等人[31]采用半監(jiān)督學(xué)習(xí)模式的自我訓(xùn)練建立輟學(xué)預(yù)測(cè)模型,該模型具有利用少量標(biāo)記數(shù)據(jù)的靈活性. Zhang 等人[32]提出了一種混合深度神經(jīng)網(wǎng)絡(luò)來建模和預(yù)測(cè)學(xué)習(xí)者的輟學(xué). 該網(wǎng)絡(luò)通過CNN 和SE-Net(squeeze-and-excitation networks)提取行為矩陣的局部特征. 通過門控循環(huán)單元(gate recurrent unit,GRU)網(wǎng)絡(luò)提取學(xué)習(xí)行為之間的序列關(guān)系. Wu 等人[33]提出了一種深度神經(jīng)網(wǎng)絡(luò)模型,它是CNN、LSTM 和SVM 的組合. Feng 等人[34]提出了一種情境感知的特征交互網(wǎng)絡(luò)(context-aware feature interaction network,CFIN)來建模和預(yù)測(cè)用戶的退出行為. CFIN 利用上下文平滑技術(shù)對(duì)不同上下文的特征值進(jìn)行平滑處理,并利用注意力機(jī)制將用戶和課程信息結(jié)合到建??蚣苤?Fu 等人[35]提出了基于學(xué)習(xí)者行為數(shù)據(jù)的深度模型CLSA;Mubarak 等人[36]提出了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶的超模型CONV-LSTM,用于自動(dòng)從MOOC 的原始數(shù)據(jù)中提取特征,并預(yù)測(cè)每個(gè)學(xué)生是否會(huì)輟學(xué). Wang 等人[37]基于MOOC 中大量用戶-項(xiàng)目交互數(shù)據(jù)來預(yù)測(cè)輟學(xué)行為,提出了面向MOOC 中輟學(xué)應(yīng)用的聯(lián)合動(dòng)態(tài)user-item embedding 來預(yù)測(cè)算法. Nitta 等人[38]提出了一種基于圖的輟學(xué)預(yù)測(cè)模型,該模型是利用學(xué)生各行為之間的圖結(jié)構(gòu)關(guān)系,使用張量分解和Transformer 方法構(gòu)建的, 該模型性能與圖卷積網(wǎng)絡(luò)的性能相當(dāng). 神經(jīng)網(wǎng)絡(luò)的創(chuàng)新在SDP 任務(wù)中也普遍取得了較好的效果.

1.2 學(xué)習(xí)序列分析及標(biāo)注問題

學(xué)習(xí)會(huì)話退出預(yù)測(cè)任務(wù)的本質(zhì)是對(duì)學(xué)習(xí)者學(xué)習(xí)序列進(jìn)行挖掘分析. 在在線教育領(lǐng)域,知識(shí)追蹤(knowledge tracing,KT)[39]、教育資源推薦[40]等任務(wù)同樣以學(xué)習(xí)者在線學(xué)習(xí)行為序列挖掘作為重點(diǎn).

近年來,除了傳統(tǒng)機(jī)器學(xué)習(xí)方法,知識(shí)追蹤任務(wù)也拓展了深度學(xué)習(xí)方面的研究[41]. 在神經(jīng)網(wǎng)絡(luò)方面,Shen 等人[42]提出了一種卷積知識(shí)追蹤(convolutional knowledge tracing,CKT)方法對(duì)學(xué)習(xí)過程進(jìn)行個(gè)性化建模,該方法基于學(xué)生歷史上連續(xù)學(xué)習(xí)交互的分層卷積層來提取學(xué)習(xí)速率和個(gè)體化先驗(yàn)知識(shí),獲得更好的知識(shí)追蹤結(jié)果. Sun 等人[43]將學(xué)生行為特征與學(xué)習(xí)能力特征相結(jié)合,以加強(qiáng)知識(shí)追溯的性能,提高了經(jīng)典知識(shí)追蹤模型動(dòng)態(tài)鍵值記憶網(wǎng)絡(luò)(dynamic keyvalue memory network,DKVMN)的預(yù)測(cè)效果.

在注意力機(jī)制相關(guān)研究方面,Ghosh 等人[44]提出了注意力知識(shí)追蹤(attentive knowledge tracing,AKT)模型,該模型通過上下文感知計(jì)算注意力權(quán)重,利用注意力機(jī)制將學(xué)習(xí)者對(duì)評(píng)估問題的未來反應(yīng)與其過去的反應(yīng)聯(lián)系起來,具有較好的知識(shí)追蹤預(yù)測(cè)效果和可解釋性. Liu 等人[45]提出了一個(gè)通用的練習(xí)增強(qiáng)遞歸神經(jīng)網(wǎng)絡(luò)(exercise-enhanced recurrent neural network,EERNN)框架,并在其基礎(chǔ)上設(shè)計(jì)了應(yīng)用注意力機(jī)制的學(xué)生成績(jī)預(yù)測(cè)模型,通過注意力機(jī)制跟蹤學(xué)生在多個(gè)知識(shí)概念上的知識(shí)獲取,其在一般場(chǎng)景和冷啟動(dòng)場(chǎng)景下均能取得較好的預(yù)測(cè)效果. Pandey 等人[46]提出了一種基于自注意力的知識(shí)追蹤方法,利用自注意力機(jī)制識(shí)別知識(shí)概念之間的相關(guān)性,從學(xué)生過去較少的活動(dòng)中對(duì)學(xué)生的知識(shí)掌握程度進(jìn)行預(yù)測(cè),其在數(shù)據(jù)稀疏的情況下仍能獲得較準(zhǔn)確的結(jié)果.Zhang 等人[47]提出了一種基于協(xié)同注意力機(jī)制的知識(shí)追蹤模型,并引入焦點(diǎn)損失函數(shù),解決了知識(shí)追蹤中問題標(biāo)注劃分不平衡的問題,提高了模型預(yù)測(cè)的準(zhǔn)確性.

在預(yù)訓(xùn)練相關(guān)研究方面,Tan 等人[48]提出了基于大規(guī)模預(yù)訓(xùn)練語言模型BERT(bidirectional encoder representations from Transformers)的深度知識(shí)追蹤模型BiDKT,取得了良好的效果. Ma 等人[49]提出了預(yù)訓(xùn)練方法SPAKT,利用自監(jiān)督學(xué)習(xí)來預(yù)訓(xùn)練學(xué)習(xí)者所做習(xí)題與技能之間的相似度關(guān)系表示,該預(yù)訓(xùn)練模型可以整合到現(xiàn)有的基于深度神經(jīng)網(wǎng)絡(luò)的KT 框架中以簡(jiǎn)化標(biāo)注過程.

預(yù)訓(xùn)練框架也在教育資源推薦任務(wù)上取得了突破.Schrumpf 等人[50-51]先后提出了基于雙向預(yù)訓(xùn)練模型BERT 的神經(jīng)網(wǎng)絡(luò)SidBERT[50]和SemBERT[51],用于教育資源分類和推薦.SidBERT 已在一個(gè)典型的在線學(xué)習(xí)系統(tǒng)中得到積極應(yīng)用. SemBERT 在SidBERT的基礎(chǔ)上進(jìn)行了優(yōu)化,能夠在更細(xì)粒度的級(jí)別上比較教育資源.

1.3 多領(lǐng)域會(huì)話中的會(huì)話退出預(yù)測(cè)

會(huì)話階段性退出預(yù)測(cè)研究除了應(yīng)用于在線教育領(lǐng)域,也是流媒體、電子商務(wù)、在線游戲等多個(gè)領(lǐng)域研究的重要問題. 在流媒體領(lǐng)域,Lebreton 等人[52]基于視頻直播平臺(tái)Puffer 的使用數(shù)據(jù),研究服務(wù)與視頻質(zhì)量和用戶退出行為之間的關(guān)系,提出用戶退出預(yù)測(cè)模型以識(shí)別出用戶退出視頻的原因和事件,以此預(yù)測(cè)用戶的退出. 在電子商務(wù)領(lǐng)域,Hatt 等人[53]提出了一種馬爾可夫調(diào)制標(biāo)記點(diǎn)過程(Markov modulated marked point process,M3PP)模型,用于檢測(cè)用戶從點(diǎn)擊流數(shù)據(jù)中不購買就退出的風(fēng)險(xiǎn). 在醫(yī)療領(lǐng)域,Karumbaiah 等人[54]為了提高學(xué)生用戶的學(xué)習(xí)效果和參與度,基于學(xué)習(xí)游戲《物理操場(chǎng)》提出了學(xué)生用戶在玩該游戲時(shí)的退出預(yù)測(cè)模型. 在多個(gè)領(lǐng)域中,預(yù)測(cè)短期內(nèi)的退出能夠動(dòng)態(tài)更新服務(wù)策略,為及早發(fā)現(xiàn)用戶退出的風(fēng)險(xiǎn)并進(jìn)行干預(yù)提供了機(jī)會(huì),進(jìn)而促使用戶的會(huì)話長(zhǎng)度變長(zhǎng),以幫助達(dá)到用戶或平臺(tái)理想使用效果.

1.4 學(xué)習(xí)會(huì)話退出預(yù)測(cè)

許多研究者試圖使用定量和定性方法進(jìn)行學(xué)生流失分析,并對(duì)學(xué)生的輟學(xué)概率進(jìn)行預(yù)測(cè),然而預(yù)測(cè)輟學(xué)行為或退出事件發(fā)生時(shí)間的研究較少[55],準(zhǔn)確挖掘輟學(xué)干預(yù)實(shí)施的恰當(dāng)時(shí)機(jī),才能為最大限度地提高學(xué)生保留率提供機(jī)會(huì). Lee 等人[19]在2020 年經(jīng)調(diào)研發(fā)現(xiàn)當(dāng)時(shí)還未有關(guān)于MOOC 中學(xué)習(xí)環(huán)節(jié)退出的預(yù)測(cè)研究,并對(duì)移動(dòng)學(xué)習(xí)環(huán)境下的學(xué)習(xí)環(huán)節(jié)輟學(xué)預(yù)測(cè)問題進(jìn)行了定義與研究. 在該研究以后,Liu 等人[56]提出了一種特征生成方法,分析每個(gè)學(xué)習(xí)者跨時(shí)間的行為,并根據(jù)最近性和相關(guān)性為每個(gè)時(shí)間片確定適當(dāng)?shù)男袨闄?quán)重,允許現(xiàn)有的機(jī)器學(xué)習(xí)模型從跨學(xué)習(xí)者的不同行為中提取模式,以利用當(dāng)前的學(xué)習(xí)者行為數(shù)據(jù)來預(yù)測(cè)學(xué)習(xí)過程中的輟學(xué). Rzepka 等人[57]將MLP 應(yīng)用于會(huì)話退出預(yù)測(cè),其準(zhǔn)確率能夠達(dá)到87%.

以往的研究大多將在線學(xué)習(xí)行為建模為時(shí)間序列進(jìn)行挖掘,在處理順序信息時(shí),LSTM 及它的變體GRU 很受歡迎[58]. 近年來,注意力機(jī)制[59]及以注意力結(jié)構(gòu)為核心的模型表現(xiàn)出了更出色的性能,在輟學(xué)退出預(yù)測(cè)研究上也顯示了更高的預(yù)測(cè)效果[60].Pulikottil 等人[61]提出了一種基于注意力元嵌入的深度時(shí)間網(wǎng)絡(luò)來預(yù)測(cè)MOOC 中的用戶輟學(xué),不必為不同的數(shù)據(jù)集使用不同的架構(gòu),且獲得了與之前最好的方法相當(dāng)?shù)慕Y(jié)果;Lee 等人[19]提出基于單層Transformer 的深度注意學(xué)習(xí)會(huì)話退出預(yù)測(cè)模型(deep attention session dropout prediction model, DAS),僅通過單層編碼器和解碼器對(duì)多頭注意力網(wǎng)絡(luò)進(jìn)行掩碼,對(duì)學(xué)習(xí)行為特征和會(huì)話退出狀態(tài)進(jìn)行同步訓(xùn)練.DAS比LSTM 和GRU 模型的表現(xiàn)好12.2%,但仍有很大的提升空間.

為了區(qū)別于傳統(tǒng)的SDP 任務(wù),對(duì)ITS 中的學(xué)習(xí)退出事件進(jìn)行更細(xì)粒度的預(yù)測(cè),本文對(duì)基于ITS 的LSDP 問題進(jìn)行定義,并提出了基于預(yù)訓(xùn)練和微調(diào)范式的Uni-LSDPM 模型. 本文提出的Uni-LSDPM 與Lee 等人[19]提出的DAS 模型均基于Transformer 結(jié)構(gòu)[59],它們都能夠通過多頭注意力機(jī)制捕捉學(xué)生交互的復(fù)雜關(guān)系. 與DAS 單層Transformer 結(jié)構(gòu)不同的是,Uni-LSDPM 采用預(yù)訓(xùn)練和微調(diào)架構(gòu),2 階段均采用多層Transformer 結(jié)構(gòu). 將學(xué)習(xí)行為特征上下文學(xué)習(xí)作為預(yù)訓(xùn)練任務(wù)目標(biāo),將會(huì)話退出預(yù)測(cè)訓(xùn)練作為微調(diào)任務(wù)目標(biāo),在充分學(xué)習(xí)在線學(xué)習(xí)行為特征隱含關(guān)聯(lián)的預(yù)訓(xùn)練基礎(chǔ)上進(jìn)行退出預(yù)測(cè),能夠一定程度上提升預(yù)測(cè)準(zhǔn)確率,達(dá)到小樣本行為作為輸入時(shí)的準(zhǔn)確判斷.Uni-LSDPM 是目前第1 個(gè)將預(yù)訓(xùn)練-微調(diào)范式應(yīng)用于LSDP 任務(wù)的工作.

2 基于智能輔導(dǎo)系統(tǒng)的學(xué)習(xí)會(huì)話退出預(yù)測(cè)

本節(jié)對(duì)LSDP 任務(wù)進(jìn)行形式化定義,并對(duì)模型的輸入特征表示進(jìn)行描述.

2.1 問題定義

在LSDP 中,不僅要關(guān)注學(xué)習(xí)者執(zhí)行同一動(dòng)作的特征上下文,也要注意學(xué)習(xí)者前后動(dòng)作的特征上下文. 在此設(shè)置下,我們將學(xué)習(xí)者在線學(xué)習(xí)會(huì)話相關(guān)屬性形式化為:

Sm為學(xué)習(xí)者Un的第m組連續(xù)動(dòng)作序列,包含T個(gè)學(xué)習(xí)行為.At為一個(gè)學(xué)習(xí)行為的描述,由I個(gè)特征組成學(xué)習(xí)行為特征.fi屬于交互項(xiàng)目特征(fitem)、行為響應(yīng)特征(fresponse)與行為會(huì)話特征(fsession)這3 大類型,其中fitem表示與課程靜態(tài)屬性相關(guān)的特征,例如交互項(xiàng)目類型、所屬的課程章節(jié)、所回答題目的知識(shí)點(diǎn)范圍等;fresponse表示與學(xué)習(xí)者響應(yīng)狀態(tài)相關(guān)的特征,例如學(xué)習(xí)者的行為類型、當(dāng)前動(dòng)作與前一動(dòng)作的時(shí)間差、所回答問題的答案結(jié)果判定、視頻觀看的起始光標(biāo)等;fsession表示當(dāng)前行為會(huì)話相關(guān)特征,例如當(dāng)前行為所處會(huì)話在學(xué)習(xí)者整體學(xué)習(xí)活動(dòng)的位置、當(dāng)前行為在當(dāng)前會(huì)話所處的位置、當(dāng)前行為的退出狀態(tài)等.

LSDP 任務(wù)即對(duì)學(xué)習(xí)者在線學(xué)習(xí)過程中退出概率的估計(jì),di表示會(huì)話退出狀態(tài),如式(5)所示,當(dāng)學(xué)習(xí)者Un在當(dāng)前發(fā)生行為At并退出當(dāng)前會(huì)話時(shí),di=1,否則di=0.

2.2 輸入表示

Uni-LSDPM 根據(jù)學(xué)習(xí)者學(xué)習(xí)行為特征fi,預(yù)測(cè)學(xué)習(xí)者在執(zhí)行當(dāng)前學(xué)習(xí)行為后的輟學(xué)概率. 學(xué)習(xí)者的學(xué)習(xí)行為特征fi可以分為3 種類型:fitem,fresponse,fsession.表1 顯示了特征fi的詳細(xì)信息,詳細(xì)說明有12 點(diǎn):

Table 1 Description of Learner’s Learning Behavior Features表1 學(xué)習(xí)者學(xué)習(xí)行為特征描述

1) 交互項(xiàng)目編碼(item id). 與學(xué)習(xí)者動(dòng)作交互相關(guān)項(xiàng)目的id.

2) 交互項(xiàng)目類型(item type). 交互項(xiàng)目包括試題、試題解析、講座視頻等類型.

3) 交互項(xiàng)目所在章節(jié)部分(item part). 交互項(xiàng)目所屬知識(shí)點(diǎn)領(lǐng)域.

4) 交互項(xiàng)目來源(item source). 學(xué)習(xí)者對(duì)該項(xiàng)目進(jìn)行交互的來源. 例如學(xué)習(xí)者對(duì)某一道試題進(jìn)行交互,試題來源可能是課程配套的課后習(xí)題、系統(tǒng)推薦的每日練習(xí)、在個(gè)人筆記中收藏的題目等.

5) 交互發(fā)生時(shí)間戳(timestamp). 交互行為發(fā)生的時(shí)間.

6) 時(shí)間間隔(time lag). 當(dāng)前交互行為與上一交互行為發(fā)生的時(shí)間差.

7) 交互行為響應(yīng)類型(response type). 學(xué)習(xí)者的行為類型. 例如做試題時(shí)排除一個(gè)答案(erase choice)、觀看視頻講座時(shí)播放視頻(play video)、暫停音頻(pause audio)等.

8) 問答準(zhǔn)確性(correctness). 學(xué)習(xí)者作答后的答案正確與否,反映學(xué)習(xí)者對(duì)當(dāng)前知識(shí)點(diǎn)的掌握程度,對(duì)學(xué)習(xí)者的下一學(xué)習(xí)行為具有指導(dǎo)作用.

9) 光標(biāo)時(shí)間(cursor time). 學(xué)習(xí)者播放視頻、音頻的光標(biāo)時(shí)間,反映學(xué)習(xí)者對(duì)學(xué)習(xí)資源的應(yīng)用模式和學(xué)習(xí)者的學(xué)習(xí)狀態(tài).

10) 學(xué)習(xí)會(huì)話編碼(session id). 學(xué)習(xí)者當(dāng)前行為所處會(huì)話在學(xué)習(xí)者整體學(xué)習(xí)活動(dòng)的位置.

11) 學(xué)習(xí)行為編碼(behavior id). 學(xué)習(xí)者當(dāng)前行為在當(dāng)前會(huì)話所處的位置.

12) 退出(dropout). 學(xué)習(xí)者在完成當(dāng)前行為后的退出狀態(tài).

3 Uni-LSDPM 模型

3.1 Uni-LSDPM 模型概述

UniLM 是一個(gè)基于多層Transformer 網(wǎng)絡(luò)的統(tǒng)一預(yù)訓(xùn)練語言模型,它利用大量文本數(shù)據(jù),針對(duì)單向(unidirectional)、雙向(bidirectional)、序列到序列(sequence-to-sequence,Seq2Seq)這3 種模式進(jìn)行無監(jiān)督聯(lián)合預(yù)訓(xùn)練,能夠通過不同掩碼方式實(shí)現(xiàn)不同的訓(xùn)練任務(wù).Uni-LSDPM 采用與UniLM 相同的預(yù)訓(xùn)練框架從在線學(xué)習(xí)行為數(shù)據(jù)中得到具有上下文語義信息的詞向量表示.

Uni-LSDPM 的結(jié)構(gòu)如圖2 所示,Uni-LSDPM 包括預(yù)訓(xùn)練階段與微調(diào)階段2 部分. 在預(yù)訓(xùn)練階段,Uni-LSDPM 利用大量學(xué)習(xí)者連續(xù)學(xué)習(xí)行為特征組序列集,基于雙向掩碼矩陣,對(duì)學(xué)習(xí)者學(xué)習(xí)行為特征上下文信息與連續(xù)行為上下文信息進(jìn)行編碼學(xué)習(xí),得到單一學(xué)習(xí)行為特征間及連續(xù)學(xué)習(xí)行為數(shù)據(jù)間的向量表示,預(yù)訓(xùn)練收斂后的模型權(quán)重參數(shù)將作為微調(diào)的基礎(chǔ). 在微調(diào)階段,學(xué)習(xí)行為特征部分采用雙向掩碼矩陣,而退出狀態(tài)部分采用單向掩碼矩陣. 即在微調(diào)階段運(yùn)用Seq2Seq 自注意掩碼方式,對(duì)由行為特征組-退出狀態(tài)組成的序列對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí). 針對(duì)學(xué)習(xí)會(huì)話中行為碎片性的難點(diǎn),Uni-LSDPM 將連續(xù)學(xué)習(xí)行為以特征為單位拆解進(jìn)行分析,著重挖掘?qū)W習(xí)者最近發(fā)生新行為的隱狀態(tài)即可獲取大量行為隱含狀態(tài)信息. 在學(xué)習(xí)行為單位上進(jìn)行退出判別,在下游預(yù)測(cè)任務(wù)中能夠做到預(yù)測(cè)及時(shí)性. 在針對(duì)學(xué)習(xí)行為特征的預(yù)訓(xùn)練基礎(chǔ)上對(duì)LSDP 任務(wù)進(jìn)行微調(diào),在預(yù)訓(xùn)練階段充分挖掘特征之間的隱含關(guān)聯(lián)信息,能夠?yàn)橄掠稳蝿?wù)會(huì)話退出預(yù)測(cè)準(zhǔn)確率的提升提供支持.

Fig. 2 Overview of the Uni-LSDPM framework圖2 Uni-LSDPM 框架概述

3.2 預(yù)訓(xùn)練階段

在預(yù)訓(xùn)練中,連續(xù)學(xué)習(xí)行為特征組數(shù)據(jù)來自智能輔導(dǎo)系統(tǒng)中學(xué)習(xí)者的歷史學(xué)習(xí)數(shù)據(jù). 學(xué)習(xí)者每進(jìn)行一個(gè)學(xué)習(xí)動(dòng)作,即會(huì)產(chǎn)生一系列相應(yīng)的學(xué)習(xí)活動(dòng)特征,連續(xù)學(xué)習(xí)行為特征組包含多個(gè)連續(xù)學(xué)習(xí)行為特征信息. 預(yù)訓(xùn)練階段旨在挖掘和理解學(xué)習(xí)者同一學(xué)習(xí)行為中的特征上下文相關(guān)性以及連續(xù)學(xué)習(xí)行為之間的隱含上下文關(guān)系. 在下游任務(wù)LSDP 中無需對(duì)下一動(dòng)作特征進(jìn)行預(yù)測(cè),且在學(xué)習(xí)者進(jìn)行到當(dāng)前動(dòng)作時(shí),之前的學(xué)習(xí)行為皆為已知. 由于單向掩碼注意力機(jī)制只能注意到前面的信息或后面的信息,而雙向掩碼注意力機(jī)制可以同時(shí)注意到上下文信息. 因此,在預(yù)訓(xùn)練階段,深度雙向模型比單向的淺層串聯(lián)更合適[20],故采用雙向掩碼注意力機(jī)制進(jìn)行預(yù)訓(xùn)練.

Uni-LSDPM 的預(yù)訓(xùn)練階段主體過程如圖3 所示,以將掩碼為例,將無標(biāo)簽連續(xù)學(xué)習(xí)行為特征組以鍵值對(duì)的形式序列化,以詞(token)向量的形式輸入.將[ACT]定義為不同行為之間的特殊分隔符,將[SOS]作為起始符添加在每個(gè)輸入序列前,將[EOS]用于標(biāo)記輸入序列的結(jié)束.

Fig. 3 Pre-training procedures for Uni-LSDPM圖3 Uni-LSDPM 預(yù)訓(xùn)練過程

預(yù)訓(xùn)練模型使用完形填空(masked LM,MLM)和下一句預(yù)測(cè)(next sentence prediction,NSP)這2 個(gè)無監(jiān)督任務(wù)進(jìn)行訓(xùn)練. 將一定比例的輸入token 隨機(jī)掩碼為[MASK],然后通過預(yù)測(cè)這些掩碼token 對(duì)行為特征序列關(guān)系進(jìn)行學(xué)習(xí)和理解. 行為特征隱藏向量的深度雙向表示通過多層 Transformer 進(jìn)行訓(xùn)練.

由學(xué)習(xí)者的學(xué)習(xí)會(huì)話中的2 個(gè)連續(xù)行為和組成的行為組是從未標(biāo)注的連續(xù)學(xué)習(xí)行為特征組的序列集中隨機(jī)選取的,其中p用于標(biāo)注預(yù)訓(xùn)練中使用的學(xué)習(xí)行為數(shù)據(jù).圖4 以其作為示例輸入展示了Uni-LSDPM 的預(yù)訓(xùn)練框架.

Fig. 4 Example of the pre-training stage of Uni-LSDPM圖4 Uni-LSDPM 預(yù)訓(xùn)練階段示例

連續(xù)學(xué)習(xí)行為特征序列首先以詞嵌入(token embedding)、分段嵌入(segment embedding)和位置嵌入(position embedding)這3 種形式嵌入獲得3 個(gè)層次的向量表示. 其中詞嵌入將各個(gè)行為特征值轉(zhuǎn)換成固定維度的token 向量;分段嵌入將學(xué)習(xí)行為序列分段標(biāo)記為向量表示,以區(qū)分不同學(xué)習(xí)行為;位置嵌入的向量表示讓模型學(xué)習(xí)到輸入序列token 的順序?qū)傩?,不同位置上的向量可能存在相同token 內(nèi)容,但具有不同的含義. 這3 種形式的向量表示被元素相加后得到合成向量表示作為模型的輸入向量,其中{x}|x|表示向量x的3 種嵌入方式總和. 向量首先被打包為式(6),輸入如式(7)所示的L層Transformer 網(wǎng)絡(luò)中,學(xué)習(xí)如式(8)所示的每個(gè)第l層上下文表示.

對(duì)于第l層,計(jì)算自注意頭Attnl來聚合前一層的輸出,如式(9)(10)所示,對(duì)應(yīng)于掩碼token 的最終隱藏向量被輸入到softmax 分類器中.

其中矩陣Q,K,V分別表示自注意力機(jī)制中的查詢(query)、鍵(key)、值(value),通過前一層的輸出Hl?1∈R|x|×dh分別由參數(shù)矩陣,∈Rdh×dK和∈Rdh×dV線性投影得到,其中dh為模型維度,dK為注意力鍵值矩陣維度,dV為注意力查詢矩陣維度. 該階段通過雙向訓(xùn)練來獲得行為特征隱藏向量的深度雙向表示.

3.3 微調(diào)階段

為了對(duì)學(xué)習(xí)者在執(zhí)行完當(dāng)前學(xué)習(xí)行為活動(dòng)后的退出狀態(tài)進(jìn)行預(yù)測(cè),需將學(xué)習(xí)行為與相應(yīng)退出狀態(tài)組合,建立序列對(duì)集合進(jìn)行訓(xùn)練,即將學(xué)習(xí)者當(dāng)前行為特征At+N及其前序行為特征At,At+1,…,At+N?1與當(dāng)前行為對(duì)應(yīng)的退出狀態(tài)dt+N進(jìn)行組合,得到新的行為特征-退出狀態(tài)對(duì)聯(lián)合序列At,At+1,…,At+N?1,dt+N.圖5 顯示了微調(diào)階段由行為特征-退出狀態(tài)對(duì)組成的輸入數(shù)據(jù)形式的示意圖.該微調(diào)模型是為下游任務(wù)LSDP 設(shè)計(jì)的,其旨在通過一個(gè)連續(xù)的行為特征組來預(yù)測(cè)最后一個(gè)行為的 dropout 狀態(tài). 其中會(huì)話行為特征以鍵值對(duì)形式序列化,聯(lián)合序列以token 詞向量的形式輸入模型.Uni-LSDPM 的微調(diào)主體過程如圖6所示.

Fig. 5 The schematic diagram of the input data form in the fine-tuning stage圖5 微調(diào)階段輸入數(shù)據(jù)形式示意圖

Fig. 6 Fine-tuning procedures for Uni-LSDPM圖6 Uni-LSDPM 微調(diào)過程

由于在學(xué)習(xí)者完成當(dāng)前行為之前,無法確定當(dāng)前行為完成后的退出狀態(tài),故在學(xué)習(xí)行為特征和退出狀態(tài)的聯(lián)合序列中,使用了Seq2Seq 的自注意力掩碼方法,即學(xué)習(xí)行為特征部分需要雙向關(guān)注,輟學(xué)狀態(tài)部分需要單向關(guān)注,使用不同的自注意力掩碼來控制每個(gè)行為特征標(biāo)記對(duì)上下文的訪問. 在對(duì)行為特征-退出狀態(tài)對(duì)的聯(lián)合序列進(jìn)行掩蔽后,以詞嵌入,分段嵌入,位置嵌入這3 種方式嵌入到向量x中,如式(11)所示:

其中xf表示行為特征序列映射的向量,xd表示退出狀態(tài)序列映射的向量. 從行為特征-退出狀態(tài)對(duì)聯(lián)合序列集中隨機(jī)選取2 個(gè)連續(xù)行為,組成的行為組與對(duì)應(yīng)退出狀態(tài).圖7 以其為例展示了Uni-LSDPM 的微調(diào)框架,其中f用于標(biāo)記微調(diào)所用的學(xué)習(xí)行為相關(guān)數(shù)據(jù).

Fig. 7 Example of the fine-tuning stage of Uni-LSDPM圖7 Uni-LSDPM 微調(diào)階段示例

其中M∈R|x|×|x|,表示學(xué)習(xí)者行為特征采用了Seq2Seq的注意力掩碼方式. 掩碼矩陣M的左邊部分設(shè)置為“0”,使行為特征的所有token 都可以相互關(guān)注. 右上部分設(shè)置為“?∞”以阻止注意力從行為特征段到退出狀態(tài)段. 對(duì)于右下部分,上三角部分設(shè)置為“?∞”,其他元素設(shè)置為“0”.退出狀態(tài)能夠注意到左邊的特征內(nèi)容,但學(xué)習(xí)行為特征無法注意到退出狀態(tài). 例如,給定一個(gè)由學(xué)習(xí)特征序列,,,和當(dāng)前行為對(duì)應(yīng)的退出狀態(tài)組成的序列,模型將序列進(jìn)行隨機(jī)掩碼后,輸入token 為[SOS],,, [ACT],,,[EOS],,[EOS],其中[SOS],,,[ACT],,,[EOS]可以相互注意,,[EOS] 只能注意左邊的token,而左邊的token 無法注意到. 在第l層中,自注意頭Attnl計(jì)算方式在預(yù)訓(xùn)練階段的基礎(chǔ)上引入了自注意掩模矩陣M,如式(13)所示:

LSDP 下游任務(wù)的重點(diǎn)是對(duì)退出狀態(tài)概率分布進(jìn)行預(yù)測(cè),即在上述示例中,將進(jìn)行掩碼操作,輸入token 即為[SOS],,,[ACT],,,[EOS],[MASK],[EOS]. 這些token 經(jīng)過多層Transformer 編碼為h[SOS],hf1A1,hf2A1,h[ACT],hf1A2,hf2A2,h[EOS],h[MASK],接著隱藏h[MASK]被輸入到softmax 分類器中進(jìn)行線性分類,生成退出狀態(tài)預(yù)測(cè)的概率分布. 最后,預(yù)測(cè)的token 被追加到輸入序列以替換[MASK],序列結(jié)尾的[EOS]出現(xiàn)即標(biāo)志著預(yù)測(cè)結(jié)束.

4 實(shí) 驗(yàn)

4.1 數(shù)據(jù)集

實(shí)驗(yàn)所用的數(shù)據(jù)集來自英語在線教育系統(tǒng)Santa,它是一個(gè)幫助學(xué)生準(zhǔn)備國(guó)際交流英語聽力和閱讀考試(TOEIC)的ITS,提供13 169 道試題和1 021 節(jié)講座課程資源. 該系統(tǒng)提供Android 系統(tǒng)、iOS 系統(tǒng)、Web應(yīng)用3 種途徑以進(jìn)行學(xué)習(xí)活動(dòng).

EdNet[62]是目前最大的關(guān)于學(xué)生總數(shù)、交互次數(shù)和交互類型的教育公共數(shù)據(jù)集,它收集了Santa 中大規(guī)模的學(xué)生-系統(tǒng)交互日志數(shù)據(jù). 其中,EdNet-KT4 中包含了2018-8-27—2019-11-27 記錄的學(xué)習(xí)者學(xué)習(xí)活動(dòng)最細(xì)粒度的交互數(shù)據(jù),詳細(xì)地記錄了每個(gè)學(xué)生的行為細(xì)節(jié)特征. EdNet-KT4 原始版本數(shù)據(jù)集中統(tǒng)計(jì)了297 915 名學(xué)習(xí)者共131 441 538 條學(xué)習(xí)行為記錄.

為了避免平臺(tái)不同對(duì)實(shí)驗(yàn)結(jié)果的影響,剔除Web 與Android 平臺(tái)下的用戶數(shù)據(jù),僅對(duì)移動(dòng)平臺(tái)上的用戶行為數(shù)據(jù)進(jìn)行研究,并以記錄行為個(gè)數(shù)小于等于5 為標(biāo)準(zhǔn),剔除學(xué)習(xí)活動(dòng)過少的學(xué)習(xí)者數(shù)據(jù). 預(yù)處理后的數(shù)據(jù)集包括共202 774 名學(xué)習(xí)者的93 189 667條學(xué)習(xí)行為數(shù)據(jù). 根據(jù)以1 h 為閾值[10]的識(shí)別學(xué)習(xí)會(huì)話退出標(biāo)準(zhǔn),劃分得到共979 498 組學(xué)習(xí)會(huì)話,平均每個(gè)會(huì)話包含95.1 個(gè)學(xué)習(xí)行為交互. 以每組會(huì)話包含的行為交互個(gè)數(shù)作為學(xué)習(xí)會(huì)話大小,以每組會(huì)話持續(xù)的時(shí)間作為學(xué)習(xí)會(huì)話的長(zhǎng)度,得到會(huì)話大小與長(zhǎng)度的數(shù)量統(tǒng)計(jì)如圖8 所示.

Fig. 8 Learning session size and length statistics圖8 學(xué)習(xí)會(huì)話大小和長(zhǎng)度統(tǒng)計(jì)

據(jù)統(tǒng)計(jì),執(zhí)行不到60 個(gè)學(xué)習(xí)行為就中斷學(xué)習(xí)的學(xué)習(xí)會(huì)話數(shù)量占學(xué)習(xí)會(huì)話總數(shù)的51.45%,學(xué)習(xí)會(huì)話持續(xù)900 s 以內(nèi)就中斷學(xué)習(xí)的學(xué)習(xí)會(huì)話數(shù)量占學(xué)習(xí)會(huì)話總數(shù)的58.58%,故在執(zhí)行60 個(gè)學(xué)習(xí)行為以內(nèi)或持續(xù)900 s 以內(nèi)的情況下,學(xué)習(xí)者更可能中斷學(xué)習(xí).可以推測(cè),學(xué)習(xí)行為活動(dòng)數(shù)量及學(xué)習(xí)會(huì)話持續(xù)時(shí)間這類學(xué)習(xí)會(huì)話特征與會(huì)話退出預(yù)測(cè)結(jié)果具有一定相關(guān)性. 因此,我們將學(xué)習(xí)行為在當(dāng)前會(huì)話中的相對(duì)位置(sid)及當(dāng)前會(huì)話在學(xué)習(xí)者整體學(xué)習(xí)活動(dòng)中的相對(duì)位置特征(bid)作為學(xué)習(xí)行為對(duì)應(yīng)的會(huì)話特征,其與學(xué)習(xí)者學(xué)習(xí)行為本身特征相結(jié)合,作為Uni-LSDPM輸入字段以進(jìn)行綜合分析.

我們對(duì)原始數(shù)據(jù)集中的字段進(jìn)行了處理:

1) 結(jié)合EdNet 中的課程、講座、試題解析等項(xiàng)目信息,將學(xué)習(xí)者的學(xué)習(xí)交互所涉及到的項(xiàng)目與項(xiàng)目特征進(jìn)行對(duì)應(yīng),補(bǔ)長(zhǎng)學(xué)習(xí)行為特征序列;

2) 根據(jù)試題標(biāo)準(zhǔn)答案,獲得學(xué)習(xí)者作答結(jié)果判定;

3) 為同一學(xué)習(xí)者的每個(gè)會(huì)話分配會(huì)話位置id,以標(biāo)記會(huì)話所處學(xué)習(xí)者整個(gè)學(xué)習(xí)過程中的位置;

4) 為每個(gè)交互分配交互位置id,以標(biāo)記交互所處當(dāng)前會(huì)話中的位置;

5) 將每個(gè)會(huì)話的最后一次行為交互標(biāo)記為退出交互,即dropout=1.

表2 為一個(gè)學(xué)習(xí)者學(xué)習(xí)行為交互響應(yīng)特征數(shù)據(jù)示例.

Table 2 Processed Dataset Fields and Examples of Continuous Learning Behavior表2 處理后數(shù)據(jù)集字段和連續(xù)學(xué)習(xí)行為示例

處理后的 EdNet 數(shù)據(jù)集字段描述為:

1)user_id為用于識(shí)別不同學(xué)習(xí)者的編碼.

2)timestamp為交互發(fā)生時(shí)的時(shí)間戳,以 Unix 時(shí)間戳表示.

3)time_lag為當(dāng)前交互與上一交互之間的時(shí)間差.

4)source為交互項(xiàng)目來源,記錄了學(xué)生解決問題或觀看講座的來源位置, 包括sprint,tutor,in_review,my_note等.

5)part為交互項(xiàng)目所屬課程部分,Santa 包括7個(gè)部分.

6)item_type為交互項(xiàng)目類型. 包括4 種項(xiàng)目類型q,b,e,l.q表示題目試題(question),b表示包含題目的題目組(bundle),e表示題目解析(explanation),l代表講座(lecture).

7)item_id為用于識(shí)別不同交互項(xiàng)目的編碼.

8)response_type為交互行為的響應(yīng)類型,包括enter,response,submit,erase_choice,play_audio,undo_erase_choice,pause_audio,play_video,pause_video等.

9)cursor_time為音頻/視頻的光標(biāo)時(shí)間,當(dāng)action_type為play_audio,pause_audio,play_video,pause_video時(shí)記錄.

10)correctness為作答準(zhǔn)確性,當(dāng)action_type響應(yīng)時(shí)記錄. 答案正確時(shí),correctness=1, 否則correctness=0.

11)session_id為會(huì)話位置編碼,它能夠表示當(dāng)前會(huì)話在學(xué)習(xí)者整個(gè)學(xué)習(xí)過程中的相對(duì)位置.

12)behavior_id為交互位置編碼,它能夠表示當(dāng)前行為在當(dāng)前會(huì)話中的相對(duì)位置.

13)dropout為學(xué)習(xí)者當(dāng)前行為對(duì)應(yīng)的退出狀態(tài).當(dāng)學(xué)習(xí)者在當(dāng)前行為后退出時(shí),dropout=1,否則dropout=0.

為了訓(xùn)練和測(cè)試Uni-LSDPM, EdNet 數(shù)據(jù)集將以10∶8∶1∶1 的學(xué)習(xí)者數(shù)量比例被劃分為預(yù)訓(xùn)練訓(xùn)練集、微調(diào)訓(xùn)練集、驗(yàn)證集、測(cè)試集,其中各部分?jǐn)?shù)據(jù)集中劃分的學(xué)習(xí)者數(shù)量與交互響應(yīng)數(shù)量如表3所示.

Table 3 Dataset Statistics for Experiments表3 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)

4.2 實(shí)驗(yàn)設(shè)置

在訓(xùn)練之前, 采用合成少數(shù)過采樣技術(shù)(synthetic minority oversampling technique, SMOTE)[63]對(duì)dropout標(biāo)簽進(jìn)行過采樣,將dropout標(biāo)簽比率保持在 1∶1 左右.

我們使用在驗(yàn)證集中獲得最佳 AUC 的模型參數(shù)在測(cè)試集上進(jìn)行測(cè)試. 在每個(gè)Transformer 層中,每個(gè)多頭注意力層由 8 個(gè)頭組成. 模型采用的是 Adam優(yōu)化器,學(xué)習(xí)率為 1E?3,超參數(shù)β1=0.9,β2=0.999.每組實(shí)驗(yàn)包含 10 個(gè) Epoch,其中每個(gè) Epoch 包含 100 個(gè)step,batch size 設(shè)置為 32.

4.3 實(shí)驗(yàn)設(shè)計(jì)和實(shí)驗(yàn)結(jié)果

4.3.1 輸入序列長(zhǎng)度與特征組合的消融實(shí)驗(yàn)

為了探究模型在什么情況下預(yù)測(cè)效果最好,我們對(duì)Uni-LSDPM 的輸入交互序列長(zhǎng)度l與輸入特征組合進(jìn)行了消融實(shí)驗(yàn). 輸入交互序列長(zhǎng)度l指學(xué)習(xí)者特征序列涉及的學(xué)習(xí)者連續(xù)交互行為數(shù),預(yù)訓(xùn)練與微調(diào)采用相同長(zhǎng)度的輸入交互序列. 輸入特征組合具體的實(shí)驗(yàn)組情況如表4 所示,在基礎(chǔ)實(shí)驗(yàn)組上增加目標(biāo)特征,探究輸入特征對(duì)預(yù)測(cè)結(jié)果的影響.

Table 4 Input Feature Combination Ablation Experimental Group表4 輸入特征組合消融實(shí)驗(yàn)組

處理后的部分?jǐn)?shù)據(jù)集、消融實(shí)驗(yàn)組訓(xùn)練后產(chǎn)生的最優(yōu)訓(xùn)練權(quán)重參數(shù)及部分實(shí)現(xiàn)代碼已公開至github①https://github.com/kabu-rui/Uni-LSDPM. 我們通過ROC 曲線下的面積(AUC)和預(yù)測(cè)準(zhǔn)確率(ACC)指標(biāo)對(duì)模型效果進(jìn)行衡量. 不同時(shí)期消融實(shí)驗(yàn)的預(yù)測(cè)性能如圖9 所示,該圖描述了相應(yīng)實(shí)驗(yàn)組中不同迭代次數(shù)下的 AUC 情況. 當(dāng)模型欠擬合或過擬合時(shí),AUC 值均約等于 0.5,且它們不會(huì)顯示在圖中. 每組消融實(shí)驗(yàn)的最佳結(jié)果如表5 所示.

Table 5 Ablation Experiment Results for the Combination of Input Interaction Sequence Length and Input Feature表5 輸入交互序列長(zhǎng)度與輸入特征相結(jié)合的消融實(shí)驗(yàn)結(jié)果

Fig. 9 Ablation experiments for different feature combinations and sequence lengths圖9 針對(duì)不同特征組合和序列長(zhǎng)度的消融實(shí)驗(yàn)

在不同序列長(zhǎng)度和不同輸入特征組合的情況下,模型均能夠在經(jīng)歷不同個(gè)迭代次數(shù)后達(dá)到AUC 峰值. 結(jié)果表明,交互序列長(zhǎng)度l=4 時(shí),預(yù)測(cè)性能最好.這可能是由于l=2 和l=3 時(shí),容易發(fā)生過擬合,雖然最高預(yù)測(cè)AUC 仍然能夠達(dá)到0.9 左右,但不夠穩(wěn)定.因此能夠得出,模型需要足夠的上下文量來進(jìn)行有效地預(yù)測(cè). 隨著學(xué)習(xí)行為數(shù)的增加,序列向量數(shù)呈倍數(shù)增長(zhǎng),導(dǎo)致模型需要學(xué)習(xí)的token 更多,使效果適得其反.

為了探索每組特征對(duì)預(yù)測(cè)效果的影響,我們?cè)趦H包含學(xué)習(xí)者行為靜態(tài)屬性特征的基礎(chǔ)實(shí)驗(yàn)組上,控制變量加入目標(biāo)特征(特征組合實(shí)驗(yàn)組2,3,4,5),以此來探究每組特征對(duì)預(yù)測(cè)效果的影響,并與設(shè)置包含所有特征的實(shí)驗(yàn)組6 進(jìn)行輔助對(duì)比. 實(shí)驗(yàn)結(jié)果表明,實(shí)驗(yàn)組2 的AUC 值與實(shí)驗(yàn)組1 的最優(yōu)AUC 值相比提升了2.05 個(gè)百分點(diǎn),與實(shí)驗(yàn)組6 相比僅相差0.22 個(gè)百分點(diǎn);實(shí)驗(yàn)組4 的AUC 值與實(shí)驗(yàn)組1 的最優(yōu)AUC 值相比提升了1.52 個(gè)百分點(diǎn),與實(shí)驗(yàn)組6 相比僅相差0.75 個(gè)百分點(diǎn). 可以得出特征tl,c,ct能夠顯著提高預(yù)測(cè)效果,且效果接近添加所有特征的實(shí)驗(yàn)組6 的結(jié)果. 這表明學(xué)習(xí)者在相鄰學(xué)習(xí)行為上的時(shí)間差、問答準(zhǔn)確性和音視頻播放光標(biāo)時(shí)間與其會(huì)話退出概率具有一定相關(guān)性.

4.3.2 實(shí)例分析

除了輸入特征對(duì)學(xué)習(xí)會(huì)話退出的影響,某些學(xué)習(xí)行為類型也能對(duì)學(xué)習(xí)會(huì)話退出預(yù)測(cè)起到關(guān)鍵作用.表6 為學(xué)習(xí)會(huì)話退出的典型案例之一,該表記錄了一位學(xué)習(xí)者于2019-08-09 晚在Santa 在線學(xué)習(xí)平臺(tái)中與id=1 180 的交互項(xiàng)目進(jìn)行的一系列學(xué)習(xí)交互. 該學(xué)習(xí)者在這段學(xué)習(xí)交互中首先進(jìn)入該項(xiàng)目題目頁,播放音頻后于17 378 光標(biāo)處暫停該音頻,作答題目后進(jìn)行提交;隨后進(jìn)入該項(xiàng)目題目解析頁,播放音頻后與14 999 光標(biāo)處暫停該音頻,往后不再執(zhí)行新的動(dòng)作,發(fā)生會(huì)話退出.

Table 6 Instance of Learning Session Dropout表6 學(xué)習(xí)會(huì)話退出實(shí)例

在大量行為會(huì)話數(shù)據(jù)中,發(fā)生學(xué)習(xí)會(huì)話退出前執(zhí)行的學(xué)習(xí)行為類型數(shù)量能夠反映執(zhí)行該學(xué)習(xí)行為類型后發(fā)生學(xué)習(xí)會(huì)話退出的概率. 我們選取了播放視頻(play_video)、暫停視頻(pause_video)、播放音頻(play_audio)、暫停音頻(pause_audio)、選擇試題答案(respond)和提交試題答案(submit)這6 個(gè)典型的學(xué)習(xí)行為類型進(jìn)行分析,學(xué)習(xí)者在執(zhí)行這些學(xué)習(xí)行為后均有一定概率發(fā)生會(huì)話退出. 我們基于EdNet中93 189 667 條學(xué)習(xí)行為的真實(shí)數(shù)據(jù),對(duì)其中發(fā)生學(xué)習(xí)會(huì)話退出前的學(xué)習(xí)行為類型和Uni-LSDPM 預(yù)測(cè)為會(huì)話退出前最近執(zhí)行的學(xué)習(xí)行為類型進(jìn)行了數(shù)量統(tǒng)計(jì),對(duì)比結(jié)果如圖10 所示.

在真實(shí)數(shù)據(jù)中,執(zhí)行pause_video,play_audio,submit后的學(xué)習(xí)會(huì)話退出概率分別比執(zhí)行play_video,play_audio,respond的概率大47.46%,54.38%,55.63%,且執(zhí)行submit后的學(xué)習(xí)會(huì)話退出概率是執(zhí)行其他學(xué)習(xí)行為類型后學(xué)習(xí)會(huì)話退出概率的2 倍以上.

將實(shí)例與學(xué)習(xí)會(huì)話退出前的學(xué)習(xí)行為類型統(tǒng)計(jì)結(jié)合分析顯示,在執(zhí)行了pause_audio,play_audio,submit這類行為后,學(xué)習(xí)者退出學(xué)習(xí)的概率更高. 其原因可能是該類行為標(biāo)志了學(xué)習(xí)者已完成階段性的學(xué)習(xí)任務(wù),這時(shí)學(xué)習(xí)者具有更高的退出傾向. 反之,play_video,play_audio,respond這類學(xué)習(xí)行為發(fā)生后退出的概率則較低.Uni-LSDPM 預(yù)測(cè)的學(xué)習(xí)行為數(shù)量統(tǒng)計(jì)與真實(shí)數(shù)據(jù)中的學(xué)習(xí)行為數(shù)量統(tǒng)計(jì)相比,最大差距僅有7.48%. 該結(jié)果表明,Uni-LSDPM挖掘到了不同學(xué)習(xí)行為類型與學(xué)習(xí)會(huì)話退出概率之間的相關(guān)性,證明Uni-LSDPM 預(yù)訓(xùn)練-微調(diào)的訓(xùn)練模式能夠較準(zhǔn)確地獲取學(xué)習(xí)行為特征上下文間的隱含關(guān)聯(lián),以支持模型對(duì)學(xué)習(xí)會(huì)話退出的準(zhǔn)確預(yù)測(cè).

4.3.3 對(duì)比實(shí)驗(yàn)

為了避免實(shí)驗(yàn)的偶然性,驗(yàn)證Uni-LSDPM 的魯棒性和泛化性,基于其他ITS 中收集的不同數(shù)據(jù)集進(jìn)行會(huì)話預(yù)測(cè)對(duì)比實(shí)驗(yàn). 對(duì)比數(shù)據(jù)集收集于名為“學(xué)堂X”①https://xuetangx.com的ITS,學(xué)堂X 是目前中國(guó)最大的MOOC 平臺(tái)之一. 它提供超過 1 000 門課程,并吸引了超過 10 000 000的注冊(cè)用戶. 數(shù)據(jù)集具體描述為:

1) 數(shù)據(jù)集1.該數(shù)據(jù)集包含 39 節(jié)教學(xué)模式的課程,涉及 112 448 名學(xué)習(xí)者的學(xué)習(xí)行為,其中包括1 319 032個(gè)視頻活動(dòng)、10 763 225 個(gè)論壇活動(dòng)、2 089 933 個(gè)作業(yè)活動(dòng)和 7 380 344 個(gè)網(wǎng)頁活動(dòng).

2) 數(shù)據(jù)集2.該數(shù)據(jù)集包含 698 節(jié)教學(xué)模式課程和 515 節(jié)自學(xué)模式課程,涉及 378 237 名學(xué)習(xí)者的學(xué)習(xí)行為,其中包括 88 904 266 個(gè)視頻活動(dòng)、534 369 個(gè)論壇活動(dòng)、10 912 803 個(gè)作業(yè)活動(dòng)和 14 727 348 個(gè)網(wǎng)頁活動(dòng).

這2 個(gè)數(shù)據(jù)集的預(yù)處理方式與 EdNet 相同. 處理后的數(shù)據(jù)集分別命名為 XuetangX 1 和 XuetangX 2.

我們將Uni-LSDPM 和7 個(gè)模型分別在數(shù)據(jù)集EdNet,XuetangX 1,XuetangX 2 上進(jìn)行微調(diào)或訓(xùn)練,其中序號(hào)1~3 的模型為時(shí)序挖掘模型,序號(hào)4~5 的模型為預(yù)訓(xùn)練-微調(diào)范式模型,序號(hào)6~7 的模型為最近會(huì)話退出研究中性能表現(xiàn)較好的模型. 7 個(gè)模型分別為:

1) LSTM.該網(wǎng)絡(luò)為經(jīng)典的時(shí)序挖掘模型,采用3層結(jié)構(gòu),每層有 60 個(gè)神經(jīng)元,用 Adam 優(yōu)化器和交叉熵?fù)p失訓(xùn)練了 1 000 次迭代.

2) 可變長(zhǎng)度馬爾可夫鏈 (variable length Markov chain, VLMC). 使用 VLMC 對(duì)學(xué)習(xí)者交互項(xiàng)目序列進(jìn)行建模. 最大上下文長(zhǎng)度設(shè)置為 4,該設(shè)置與 Uni-LSDPM 相同.

3) M3PP.該模型對(duì)訪問的單個(gè)頁面的序列和在頁面上花費(fèi)的時(shí)間進(jìn)行建模. 形式上將點(diǎn)擊流建模為連續(xù)過程. 該模型在在線行為序列分析任務(wù)上效果較好[53].

4) UniLM[21]. 該模型為統(tǒng)一預(yù)訓(xùn)練語言模型,與Uni-LSDPM 同為預(yù)訓(xùn)練-微調(diào)范式,在該預(yù)訓(xùn)練模型參數(shù)的基礎(chǔ)上對(duì)LSDP 任務(wù)進(jìn)行微調(diào).

5) BERT[20]. 該模型為雙向注意預(yù)訓(xùn)練語言模型,與Uni-LSDPM 同為預(yù)訓(xùn)練-微調(diào)范式,在該預(yù)訓(xùn)練模型參數(shù)的基礎(chǔ)上對(duì)LSDP 任務(wù)進(jìn)行微調(diào).

6) MLP[57]. 該模型為最新應(yīng)用于LSDP 任務(wù)的有效方法. 該模型將學(xué)習(xí)行為數(shù)據(jù)建模為“句子”形式作為輸入,以雙矩陣結(jié)構(gòu)建模學(xué)習(xí)行為特征序列,隨著學(xué)習(xí)行為的增加更新矩陣參數(shù).

7) DAS[19]. 該模型基于單層Transformer 實(shí)現(xiàn)了LSDP 任務(wù). 在文獻(xiàn)[19] 的研究中,效果最好的序列長(zhǎng)度是 5,本文應(yīng)用該結(jié)論進(jìn)行對(duì)比實(shí)驗(yàn).

學(xué)習(xí)會(huì)話預(yù)測(cè)實(shí)驗(yàn)對(duì)比結(jié)果如表7 所示. 在不同數(shù)據(jù)集上微調(diào)的實(shí)驗(yàn)結(jié)果顯示:在數(shù)據(jù)集 XuetangX1和 XuetangX2 上進(jìn)行微調(diào)的預(yù)測(cè)最佳 AUC 值也可以達(dá)到 0.882 5 和0.8594.基于用 EdNet 訓(xùn)練得到的預(yù)訓(xùn)練模型,在其他在線教育行為特征數(shù)據(jù)集上微調(diào)下游任務(wù)也能取得不錯(cuò)的效果.

Table 7 Comparative Experiments of Different Models on Different Datasets表7 不同模型在不同數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

在相同數(shù)據(jù)集上,Uni-LSDPM 優(yōu)于其他對(duì)比實(shí)驗(yàn)?zāi)P? 與基于自然語言語料進(jìn)行訓(xùn)練的UniLM 和BERT 相比,Uni-LSDPM 對(duì)學(xué)習(xí)行為序列挖掘更具有針對(duì)性,因此在LSDP 任務(wù)的表現(xiàn)上,Uni-LSDPM 比UniLM 和BERT 能得到更好的效果. 而UniLM 和BERT 與其他序列挖掘模型相比具有更突出的表現(xiàn),證明預(yù)訓(xùn)練-微調(diào)范式在序列分析及標(biāo)注問題上能夠起到提升作用.

目前在LSDP 任務(wù)的現(xiàn)有模型中,MLP 和DAS模型在會(huì)話退出預(yù)測(cè)任務(wù)中表現(xiàn)最好. 由于基于EdNet 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的Uni-LSDPM 對(duì)EdNet 數(shù)據(jù)集的預(yù)測(cè)更具有針對(duì)性,故不具有普遍代表性. 而基于XuetangX1 和XuetangX2 數(shù)據(jù)集,Uni-LSDPM 的最佳AUC 值與MLP 相比,分別提升了7.03 個(gè)百分點(diǎn)和3.76 個(gè)百分點(diǎn);與DAS 模型相比,分別提升了9.60 個(gè)百分點(diǎn)和5.66 個(gè)百分點(diǎn).MLP 采用多層感知器方法,利用雙矩陣結(jié)構(gòu),將同一會(huì)話內(nèi)發(fā)生的所有行為特征順序輸入,以矩陣形式更新參數(shù)進(jìn)行訓(xùn)練,能夠達(dá)到較高的預(yù)測(cè)準(zhǔn)確率. 而Uni-LSDPM 通過對(duì)行為內(nèi)部特征關(guān)聯(lián)的預(yù)訓(xùn)練,不關(guān)注過久的行為特征對(duì)退出結(jié)果的影響,著重注意最新連續(xù)行為特征對(duì)預(yù)測(cè)結(jié)果的影響,實(shí)驗(yàn)證明Uni-LSDPM 能夠達(dá)到理想的效果. 原因是預(yù)訓(xùn)練能夠?qū)W習(xí)到連續(xù)行為特征之間的隱含關(guān)聯(lián),最新連續(xù)行為特征即可包含向前拓展的大量行為信息,能夠反映學(xué)習(xí)者當(dāng)前的學(xué)習(xí)狀態(tài)以進(jìn)行準(zhǔn)確的退出預(yù)測(cè). DAS 模型采用了Transformer 結(jié)構(gòu),通過多頭注意力使模型能夠同時(shí)注意不同位置和不同向量表示的信息,與LSTM,VLMC,M3PP 模型相比,DAS 能夠在在線學(xué)習(xí)行為特征上下文中取得更好的學(xué)習(xí)效果. 與應(yīng)用單層Transformer 進(jìn)行Seq2Seq 的LSDP 任務(wù)的DAS 模型相比,Uni-LSDPM 在預(yù)訓(xùn)練階段采用了12 層Transformer 結(jié)構(gòu),通過雙向訓(xùn)練學(xué)習(xí)行為數(shù)據(jù)的上下文向量表示,充分學(xué)習(xí)了學(xué)習(xí)行為特征內(nèi)部的隱含關(guān)聯(lián),并在此基礎(chǔ)上再利用12 層Transformer 結(jié)構(gòu)針對(duì)LSDP 下游任務(wù)進(jìn)行單向微調(diào),更多的參數(shù)量和上下文向量表示預(yù)訓(xùn)練對(duì)預(yù)測(cè)任務(wù)的準(zhǔn)確率起到了很大的提升作用.

4.3.4 擴(kuò)展性探究

Uni-LSDPM 分為預(yù)訓(xùn)練階段和微調(diào)階段,其中預(yù)訓(xùn)練階段主要任務(wù)是對(duì)學(xué)習(xí)者在線學(xué)習(xí)行為特征中的隱含關(guān)聯(lián)信息進(jìn)行挖掘?qū)W習(xí);微調(diào)階段是針對(duì)下游任務(wù)LSDP 訓(xùn)練設(shè)計(jì)的. 為了驗(yàn)證Uni-LSDPM預(yù)訓(xùn)練模型是否能夠適應(yīng)更多基于在線學(xué)習(xí)行為特征的下游任務(wù),將同為學(xué)習(xí)序列挖掘的KT 任務(wù)作為Uni-LSDPM 預(yù)訓(xùn)練模型新的下游任務(wù)進(jìn)行探究實(shí)驗(yàn),并將預(yù)訓(xùn)練模型在KT 任務(wù)中的應(yīng)用模型SPAKT[49]作為對(duì)比. 針對(duì)下游任務(wù)KT 的微調(diào)模型標(biāo)記為Uni-KT.EdNet 數(shù)據(jù)集包含學(xué)習(xí)者學(xué)習(xí)習(xí)題結(jié)果及正確答案,因此Uni-KT 和SPAKT 均基于EdNet 數(shù)據(jù)集進(jìn)行對(duì)比. 與針對(duì)LSDP 任務(wù)的微調(diào)形式相同,Uni-KT 以Seq2Seq 注意力掩碼方式進(jìn)行訓(xùn)練. 引用文獻(xiàn)[49]工作中SPAKT 在EdNet 上的實(shí)驗(yàn)結(jié)果. 實(shí)驗(yàn)結(jié)果如表8所示.

Table 8 Downstream Task Expansion Experiment表8 下游任務(wù)擴(kuò)展實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果表明,Uni-KT 的最優(yōu)AUC 值能夠接近SPAKT 的AUC 值. 該結(jié)果證明,Uni-LSDPM 預(yù)訓(xùn)練模型能夠適應(yīng)除了LSDP 以外的其他基于學(xué)習(xí)行為序列挖掘的下游任務(wù),并能夠取得較好的效果,具有較強(qiáng)的擴(kuò)展性和魯棒性. 可以推測(cè),若將更多的ITS行為特征數(shù)據(jù)用于預(yù)訓(xùn)練,豐富多平臺(tái)的學(xué)習(xí)特征上下文訓(xùn)練語料,Uni-LSDPM 預(yù)訓(xùn)練模型將能夠適應(yīng)多樣化基于學(xué)習(xí)行為特征的任務(wù),例如基于學(xué)習(xí)者學(xué)習(xí)行為的知識(shí)追蹤、教育資源推薦、學(xué)習(xí)路徑規(guī)劃等,并取得更好的效果. 因此,Uni-LSDPM 具有很強(qiáng)的魯棒性和擴(kuò)展性.

5 結(jié) 論

本文提出了一種基于預(yù)訓(xùn)練-微調(diào)的統(tǒng)一在線學(xué)習(xí)會(huì)話退出預(yù)測(cè)模型Uni-LSDPM.該模型在挖掘和理解相同學(xué)習(xí)行為特征之間上下文相關(guān)性以及連續(xù)學(xué)習(xí)行為之間隱含上下文關(guān)系的預(yù)訓(xùn)練基礎(chǔ)上,針對(duì)學(xué)習(xí)會(huì)話退出預(yù)測(cè)任務(wù)進(jìn)行微調(diào). 通過消融實(shí)驗(yàn)獲得Uni-LSDPM 最佳效果的序列長(zhǎng)度和特征組合,實(shí)驗(yàn)結(jié)果表明,Uni-LSDPM 在EdNet 數(shù)據(jù)集上微調(diào)的最大AUC 值可以達(dá)到 0.919 9(+0.106 3),在其他數(shù)據(jù)集上微調(diào)的最大AUC 值可以達(dá)到0.882 5 (+0.070 3),均優(yōu)于現(xiàn)有的模型. 在Uni-LSDPM 預(yù)訓(xùn)練模型的基礎(chǔ)上微調(diào)其他下游任務(wù)的實(shí)驗(yàn)結(jié)果表明,Uni-LSDPM 能夠擴(kuò)展至更多基于學(xué)習(xí)行為特征的任務(wù),證明Uni-LSDPM 具有很強(qiáng)的魯棒性和擴(kuò)展性.

在未來的研究和實(shí)際應(yīng)用中,Uni-LSDPM 仍然有很多空間待進(jìn)一步優(yōu)化和拓展. 例如通過補(bǔ)充更多平臺(tái)、更多種類的特征和行為來豐富預(yù)訓(xùn)練數(shù)據(jù),得到更強(qiáng)魯棒性的無監(jiān)督學(xué)習(xí)行為特征上下文的向量表示;根據(jù)不同平臺(tái)的特征數(shù)據(jù)對(duì)個(gè)性化微調(diào)模型進(jìn)行調(diào)整,以適應(yīng)各個(gè)平臺(tái)的行為特征.

作者貢獻(xiàn)聲明:陳芮提出模型框架,設(shè)計(jì)并進(jìn)行實(shí)驗(yàn),撰寫論文;王占全提出研究思路、修改論文框架、指導(dǎo)并修改論文.

猜你喜歡
微調(diào)學(xué)習(xí)者預(yù)測(cè)
無可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
你是哪種類型的學(xué)習(xí)者
十二星座是什么類型的學(xué)習(xí)者
一種新型微調(diào)擠塑模具的設(shè)計(jì)及應(yīng)用
電線電纜(2018年2期)2018-05-19 02:03:44
靈活易用,結(jié)合自動(dòng)和手動(dòng)微調(diào)達(dá)到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
不必預(yù)測(cè)未來,只需把握現(xiàn)在
漢語學(xué)習(xí)自主學(xué)習(xí)者特征初探
全國(guó)大部省份結(jié)束2014高考 多地高考模式微調(diào)
永吉县| 长治市| 广东省| 庆阳市| 思南县| 尉氏县| 陈巴尔虎旗| 仲巴县| 化德县| 鹤庆县| 南皮县| 耒阳市| 林口县| 巫山县| 松潘县| 聂拉木县| 正定县| 永泰县| 武强县| 民和| 新野县| 公安县| 武汉市| 周口市| 邢台市| 略阳县| 乐都县| 蒲江县| 南和县| 方城县| 大荔县| 旬邑县| 筠连县| 怀仁县| 上栗县| 类乌齐县| 东台市| 峨眉山市| 天峻县| 眉山市| 巢湖市|