班啟敏,吳雯,胡文心,林暉,鄭巍,賀樑
(1.華東師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 200062;2.華東師范大學(xué) 數(shù)據(jù)科學(xué)與工程學(xué)院,上海 200062;3.上海流利說(shuō)信息技術(shù)有限公司,上海 200090;4.華東師范大學(xué) 信息化治理辦公室,上海 200062)
自適應(yīng)學(xué)習(xí)是使用計(jì)算機(jī)算法來(lái)協(xié)調(diào)自適應(yīng)學(xué)習(xí)平臺(tái)與學(xué)習(xí)者的互動(dòng),并提供定制的學(xué)習(xí)資源和學(xué)習(xí)活動(dòng)來(lái)解決每位學(xué)習(xí)者獨(dú)特需求的教育方法[1].相較于線下的為所有學(xué)習(xí)者提供相同的學(xué)習(xí)資源的課堂模式,自適應(yīng)學(xué)習(xí)更加關(guān)注學(xué)習(xí)者個(gè)體之間的差異,以幫助學(xué)習(xí)者高效掌握所學(xué)的知識(shí)[2].自適應(yīng)學(xué)習(xí)面臨的主要挑戰(zhàn)之一是,如何為學(xué)習(xí)者提供定制的學(xué)習(xí)資源,即如何在海量的學(xué)習(xí)資源中,基于學(xué)習(xí)者的需求、能力和偏好為學(xué)習(xí)者生成個(gè)性化的推薦.
現(xiàn)有的學(xué)習(xí)資源的推薦主要依賴通過(guò)知識(shí)追蹤技術(shù)獲取的知識(shí)級(jí)別[3-5],其表示學(xué)習(xí)者對(duì)學(xué)習(xí)資源的掌握程度,如Huo等[3]使用上下文擴(kuò)充深度知識(shí)追蹤以獲取學(xué)習(xí)者的知識(shí)級(jí)別,然后推薦給學(xué)習(xí)者未掌握的學(xué)習(xí)資源.雖然這些方法已經(jīng)獲得了很大的成功,但仍然存在著一些不足: ①在獲取學(xué)習(xí)者知識(shí)級(jí)別時(shí),盡管“遺忘”在學(xué)習(xí)過(guò)程中是一個(gè)常見(jiàn)的現(xiàn)象[6],但這些方法并未對(duì)遺忘現(xiàn)象很好地建模.即使是知識(shí)追蹤中目前被廣泛使用的深度知識(shí)追蹤模型也很難模擬學(xué)習(xí)者出現(xiàn)的遺忘現(xiàn)象,因?yàn)樵撃P褪怯瞄L(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[7]進(jìn)行知識(shí)級(jí)別的預(yù)測(cè),LSTM 對(duì)于每個(gè)狀態(tài)進(jìn)行相同的操作但遺忘現(xiàn)象是時(shí)間敏感且不均勻變化的.② 在進(jìn)行學(xué)習(xí)資源推薦時(shí),目前大多數(shù)的研究是將知識(shí)追蹤和推薦分開(kāi)來(lái)考慮,忽視了兩者之間的深層連接,即知識(shí)追蹤訓(xùn)練得到的知識(shí)級(jí)別和學(xué)習(xí)資源的表示可以幫助推薦.③僅僅依賴于知識(shí)級(jí)別生成學(xué)習(xí)資源的推薦是不充分的.因?yàn)樵撏扑]方法只能提供滿足學(xué)習(xí)者知識(shí)水平的學(xué)習(xí)資源,并未考慮學(xué)習(xí)者對(duì)學(xué)習(xí)資源類(lèi)型、學(xué)習(xí)策略等的個(gè)人偏好,如對(duì)于同樣的知識(shí)點(diǎn),部分學(xué)習(xí)者偏向于通過(guò)視頻來(lái)學(xué)習(xí),而另一部分學(xué)習(xí)者則偏向于通過(guò)文本來(lái)學(xué)習(xí).
為解決上述問(wèn)題,本文提出了一個(gè)基于知識(shí)和性格的多任務(wù)學(xué)習(xí)框架去促進(jìn)課程推薦.該框架將增強(qiáng)的知識(shí)追蹤任務(wù)和推薦任務(wù)分別作為輔助任務(wù)和主任務(wù),并通過(guò)這兩個(gè)任務(wù)之間的信息共享機(jī)制,增強(qiáng)知識(shí)追蹤任務(wù),從而更好地幫助課程推薦任務(wù)[8].具體來(lái)說(shuō),在增強(qiáng)的知識(shí)追蹤任務(wù)中,本文設(shè)計(jì)了一個(gè)個(gè)性化的遺忘控制器,通過(guò)引入3 個(gè)時(shí)間相關(guān)特征,增強(qiáng)的知識(shí)追蹤模型可以解決學(xué)習(xí)者復(fù)雜的遺忘問(wèn)題,從而捕捉更加準(zhǔn)確的動(dòng)態(tài)知識(shí)級(jí)別.在課程推薦任務(wù)中,對(duì)于學(xué)習(xí)者畫(huà)像,本文不僅關(guān)注學(xué)習(xí)者的知識(shí)水平,同時(shí)考慮學(xué)習(xí)者的偏好.在最近幾年,學(xué)習(xí)者的行為常常被用于建模學(xué)習(xí)者的意圖以表示其偏好信息.此外,作為靜態(tài)可測(cè)量并影響人們偏好的內(nèi)在成分[9],教育心理學(xué)家認(rèn)為性格對(duì)于理解學(xué)習(xí)者的行為表現(xiàn)是重要的[10-14],性格也逐漸地被認(rèn)為是個(gè)性化學(xué)習(xí)中的一個(gè)影響學(xué)習(xí)者偏好的有價(jià)值的因素.因此,本文使用學(xué)習(xí)者的序列行為和學(xué)習(xí)者的性格建模學(xué)習(xí)者的偏好信息,將學(xué)習(xí)者的知識(shí)級(jí)別、學(xué)習(xí)者的序列行為、學(xué)習(xí)者的性格自適應(yīng)地融合生成學(xué)習(xí)者的表示;對(duì)于課程,通過(guò)基于規(guī)則的方法選擇候選的課程集合以保證推薦的邏輯性;在進(jìn)行推薦時(shí),結(jié)合學(xué)習(xí)者的畫(huà)像和課程的表示,從候選課程集中選擇既符合學(xué)習(xí)者知識(shí)水平又滿足學(xué)習(xí)者學(xué)習(xí)偏好的課程生成推薦列表.本文主要貢獻(xiàn)如下.
(1) 提出了一個(gè)端到端的知識(shí)和性格相結(jié)合的多任務(wù)學(xué)習(xí)框架以促進(jìn)課程推薦,其中增強(qiáng)的知識(shí)追蹤任務(wù)作為輔助任務(wù)去協(xié)助主要的課程推薦任務(wù).
(2) 在增強(qiáng)的知識(shí)追蹤任務(wù)中,設(shè)計(jì)了一個(gè)由3 個(gè)時(shí)間相關(guān)特征組成的個(gè)性化遺忘控制器,以解決學(xué)習(xí)過(guò)程中出現(xiàn)的遺忘現(xiàn)象.
(3) 在課程推薦任務(wù)中,自適應(yīng)地融合學(xué)習(xí)者的知識(shí)級(jí)別、序列行為和學(xué)習(xí)者的性格以建模學(xué)習(xí)者的畫(huà)像;利用基于規(guī)則的方法選擇候選的課程并基于此生成合適的推薦.
(4) 在真實(shí)的教育相關(guān)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).結(jié)果表明,本文模型在點(diǎn)擊率(Hit Ratio,HR)、歸一化折損累計(jì)增益(Normalized Discounted Cumulative Gain,NDCG)、精確度(Precision,P)這3 個(gè)指標(biāo)上均超過(guò)了基線模型.
本文研究工作與課程推薦、推薦中的多任務(wù)學(xué)習(xí)、性格在自適應(yīng)學(xué)習(xí)中的應(yīng)用這3 個(gè)主流研究領(lǐng)域相關(guān).
自適應(yīng)學(xué)習(xí)系統(tǒng)中的推薦可以分為兩大類(lèi): 第一類(lèi),基于學(xué)習(xí)者的序列行為[15-16];第二類(lèi),基于學(xué)習(xí)者的知識(shí)級(jí)別[3-5].第一類(lèi)推薦通過(guò)學(xué)習(xí)者的行為捕捉學(xué)習(xí)者的偏好并生成相應(yīng)的推薦,例如,Gong等[15]使用元路徑(Meta-path)去指引學(xué)習(xí)者偏好的傳播,并利用擴(kuò)充的矩陣分解生成推薦列表;Pandey等[16]通過(guò)學(xué)習(xí)者的學(xué)習(xí)序列表示學(xué)習(xí)者的興趣演變,并使用最近鄰方法生成推薦結(jié)果.
盡管生成的推薦列表滿足了學(xué)習(xí)者的偏好類(lèi)型,但推薦的學(xué)習(xí)資源的難度很難保證適合學(xué)習(xí)者當(dāng)前的知識(shí)水平.第二類(lèi)推薦通過(guò)知識(shí)追蹤技術(shù)[17]捕捉學(xué)習(xí)者的知識(shí)級(jí)別,并使用這個(gè)知識(shí)級(jí)別去預(yù)測(cè)學(xué)習(xí)者在下一個(gè)交互項(xiàng)上的表現(xiàn),然后根據(jù)預(yù)測(cè)結(jié)果生成推薦列表.深度知識(shí)追蹤(Deep Knowledge Tracing,DKT)[18]模型利用深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)或LSTM 預(yù)測(cè)學(xué)習(xí)者的知識(shí)級(jí)別.Huo等[3]使用DKT 預(yù)測(cè)學(xué)習(xí)者的知識(shí)級(jí)別并推薦給學(xué)習(xí)者沒(méi)有掌握 (較低知識(shí)級(jí)別) 的學(xué)習(xí)項(xiàng);Liu等[4]將推薦視為馬爾可夫決策過(guò)程,將知識(shí)級(jí)別作為狀態(tài)并通過(guò)最大化全局收益的方式生成推薦結(jié)果;Wu等[5]將知識(shí)級(jí)別視作難度信息去過(guò)濾學(xué)習(xí)資源.盡管以上這些方法可以生成符合學(xué)習(xí)者知識(shí)水平的學(xué)習(xí)資源,但是這些方法都忽視了學(xué)習(xí)者個(gè)體之間對(duì)學(xué)習(xí)資源類(lèi)型、學(xué)習(xí)策略的偏好差異.此外,盡管在學(xué)習(xí)過(guò)程中遺忘現(xiàn)象很常見(jiàn)[6],但上述方法在知識(shí)追蹤中并沒(méi)有很好地建模學(xué)習(xí)者的遺忘現(xiàn)象.事實(shí)上,一些知識(shí)追蹤相關(guān)的研究已經(jīng)嘗試去解決遺忘問(wèn)題[19-21],例如,Nagatani等[19]結(jié)合先前學(xué)習(xí)序列中交互間的時(shí)間間隔和練習(xí)次數(shù)擴(kuò)充DKT;Ghosh等[20]、Pandey等[21]使用序列位置信息指代時(shí)間結(jié)合指數(shù)函數(shù)去建模遺忘現(xiàn)象.然而這些研究并未全面地考慮學(xué)習(xí)資源之間的先驗(yàn)、依賴相關(guān)性以及學(xué)習(xí)過(guò)程中出現(xiàn)的復(fù)習(xí)機(jī)制,即學(xué)習(xí)資源被反復(fù)地學(xué)習(xí).
上述基于學(xué)習(xí)者知識(shí)級(jí)別的方法在進(jìn)行推薦時(shí)將其和知識(shí)追蹤任務(wù)割裂了.然而,推薦任務(wù)緊密地依賴于知識(shí)追蹤任務(wù),知識(shí)追蹤任務(wù)訓(xùn)練生成的信息有助于推薦任務(wù).因此本文嘗試將知識(shí)追蹤任務(wù)作為輔助任務(wù),推薦任務(wù)作為主任務(wù),通過(guò)多任務(wù)學(xué)習(xí)優(yōu)化這兩個(gè)任務(wù).
多任務(wù)學(xué)習(xí)致力于聯(lián)合地學(xué)習(xí)多個(gè)相關(guān)的任務(wù),以便一個(gè)任務(wù)中包含的知識(shí)可以被其他任務(wù)利用,以提升所有任務(wù)的通用性能.在多任務(wù)學(xué)習(xí)中,一個(gè)任務(wù)的學(xué)習(xí)結(jié)果可以作為提示去指引其他任務(wù)得到更好的性能[8].多任務(wù)學(xué)習(xí)的優(yōu)越性被廣泛地應(yīng)用于推薦系統(tǒng),例如,Hadash等[22]通過(guò)多任務(wù)學(xué)習(xí)框架同時(shí)學(xué)習(xí)排序任務(wù)和評(píng)分任務(wù)的參數(shù);Chen等[23]利用層級(jí)互注意力選擇器同時(shí)提升推薦任務(wù)和解釋任務(wù)的性能;Meng等[24]和Wang等[25]利用知識(shí)圖譜嵌入任務(wù)去協(xié)助推薦任務(wù).
現(xiàn)有的研究主要使用學(xué)習(xí)者的知識(shí)級(jí)別或?qū)W習(xí)者的行為生成個(gè)性化的學(xué)習(xí)資源推薦.然而,性格作為影響人們態(tài)度、行為和興趣的內(nèi)在因素[9]同樣有著重要的作用.一個(gè)被廣泛使用的性格模型是大五性格模型[26],其將性格定義為5 個(gè)維度: 經(jīng)驗(yàn)開(kāi)放性(Openness to Experience,簡(jiǎn)稱(chēng)O)、盡責(zé)性(Conscientiousness,簡(jiǎn)稱(chēng)C)、外傾性(Extraversion,簡(jiǎn)稱(chēng)E)、宜人性(Agreeableness,簡(jiǎn)稱(chēng)A)、神經(jīng)質(zhì)性(Neuroticism,簡(jiǎn)稱(chēng)N).大五性格模型: 經(jīng)驗(yàn)開(kāi)放性(O)常被用于判斷一個(gè)人是易接受新事物/常有新想法還是遵循常規(guī)的/不愛(ài)創(chuàng)新的;責(zé)任心性(C)會(huì)使一個(gè)人成為可信賴的/自律的,或者條理性差的/粗心的;外傾性(E)更容易判斷一個(gè)人是外向的/精力充沛的還是內(nèi)向的/安靜的;宜人性(A)反映了個(gè)體間在合作和社交之間的差異,有較高宜人性的人更易招人喜歡且為人和善,而較低宜人性的人易于批評(píng)人且愛(ài)爭(zhēng)吵;對(duì)于神經(jīng)質(zhì)性(N),有著較高神經(jīng)質(zhì)值的人更容易憂慮和心煩,反之有著較低神經(jīng)質(zhì)值的人會(huì)更加淡定,且情緒會(huì)相對(duì)冷靜.
性格不僅用于幫助生成電影[27]、音樂(lè)[28]的推薦,而且在個(gè)性化學(xué)習(xí)中也被視作一個(gè)有價(jià)值的因素.Furnham等[10]的研究表明,不同性格的個(gè)體之間存在著不同的認(rèn)知風(fēng)格和決策差異,不同類(lèi)型的教育適合不同性格的學(xué)習(xí)者.性格影響學(xué)習(xí)者對(duì)于學(xué)習(xí)資源類(lèi)型的偏好已經(jīng)被證明,如Moller等[11]的研究表明,內(nèi)向的學(xué)習(xí)者 (低外傾值) 偏向于視覺(jué)的學(xué)習(xí)方式,則這些學(xué)習(xí)者應(yīng)該使用視頻學(xué)習(xí)資源.此外,性格影響著學(xué)習(xí)者對(duì)于學(xué)習(xí)策略的偏好,例如,Chamorro-Premuzic等[12]的研究表明相較于情緒穩(wěn)定(低神經(jīng)質(zhì)值) 的學(xué)習(xí)者來(lái)說(shuō),越內(nèi)向 (低外傾值) 的學(xué)習(xí)者越傾向于獨(dú)立學(xué)習(xí);Wu等[13]發(fā)現(xiàn)在基于網(wǎng)站的學(xué)習(xí)系統(tǒng)中性格和學(xué)習(xí)者的交流行為存在著顯著的相關(guān)性;Abyaa等[14]總結(jié)了性格在自適應(yīng)學(xué)習(xí)中用戶建模的應(yīng)用.盡管性格已經(jīng)被證明對(duì)于學(xué)習(xí)有影響,但很少有研究將其應(yīng)用到自適應(yīng)學(xué)習(xí)中的課程推薦.
為了生成同時(shí)滿足學(xué)習(xí)者知識(shí)水平和偏好的課程推薦列表,本文結(jié)合知識(shí)追蹤任務(wù)和課程推薦任務(wù),使用多任務(wù)框架聯(lián)合優(yōu)化知識(shí)追蹤任務(wù)和推薦任務(wù).在推薦任務(wù)中,序列推薦已經(jīng)在建模用戶的動(dòng)態(tài)偏好方面取得了較大的成功,例如,Yu等[29]使用基于時(shí)間的控制器和基于內(nèi)容的控制器建模用戶的長(zhǎng)期和短期的興趣;Zhou等[30]使用興趣抽取層,從用戶的歷史行為序列中捕捉時(shí)序興趣.因此,本文將課程推薦任務(wù)建模為序列推薦任務(wù).此外,針對(duì)目前已有方法的不足,本文還研究了在知識(shí)追蹤中利用時(shí)間上下文建模遺忘行為的效果,以及學(xué)習(xí)者的性格在課程推薦中的作用.
本文提出的知識(shí)和性格結(jié)合的多任務(wù)學(xué)習(xí)框架(Knowledge and Personality Incorporated Multi-Task Learning Framework,KPM)如圖1 所示.KPM 將增強(qiáng)的知識(shí)追蹤任務(wù)作為輔助任務(wù)(任務(wù)1),以協(xié)助主要的課程推薦任務(wù)(任務(wù)2).具體地,KPM 包含3 個(gè)部分: ①嵌入層,模型中使用的一些特征將會(huì)在該層被嵌入為低維稠密向量;② 增強(qiáng)的知識(shí)追蹤任務(wù),學(xué)習(xí)者動(dòng)態(tài)的知識(shí)級(jí)別將會(huì)在該部分被捕捉;③課程推薦任務(wù),候選課程的推薦分?jǐn)?shù)將會(huì)在該部分得出,并以此生成推薦列表.下面詳細(xì)介紹這3 個(gè)部分.
圖1 知識(shí)和性格結(jié)合的多任務(wù)學(xué)習(xí)框架Fig.1 Knowledge and personality incorporated multi-task learning framework
KPM 使用4 類(lèi)特征建模: ①學(xué)習(xí)者(user,u)的性格,使用uPO,uPC,uPE,uPA,uPN建模,以表示學(xué)習(xí)者大五性格中經(jīng)驗(yàn)開(kāi)放性(O)、盡責(zé)性(C)、外傾性(E)、宜人性(A)、神經(jīng)質(zhì)性(N)每個(gè)維度的性格值①每個(gè)維度的性格值 (1–7 分之間) 由兩個(gè)相關(guān)問(wèn)題進(jìn)行平均得出.;② 學(xué)習(xí)者的行為,由出現(xiàn)在學(xué)習(xí)序列中的課程編號(hào) (ID) 組成;③課程描述,即課程的IDc;④ 交互的上下文tcontext,由學(xué)習(xí)序列中每一個(gè)交互的時(shí) 間t組成.ePO,ePC,ePE,ePA,ePN分別是特征uPO,uPC,uPE,uPA,uPN的嵌入向量,其源于參數(shù)矩陣②13 代表所有可能的取值 (1,1.5,···,6.5,7),5 表示性格的維度類(lèi)別 (O,C,E,A,N).嵌入向量 eP* 由性格值嵌入向量和性格維度類(lèi)別嵌入向量拼接組成.,其中dP表示學(xué)習(xí)者性格的嵌入大小;ec是特征c(course,課程)的嵌入向量,其源于參數(shù)矩陣Ec∈Rn×d,其中,d表示課程的嵌入大小,n表示課程的總數(shù)量.
原始的深度知識(shí)追蹤由LSTM 建模.在本文提出的增強(qiáng)的知識(shí)追蹤任務(wù)中,設(shè)計(jì)了一個(gè)個(gè)性化的遺忘控制器,它通過(guò)同時(shí)考慮學(xué)習(xí)者的行為序列和每一個(gè)交互的時(shí)間上下文信息去增強(qiáng)深度知識(shí)追蹤模型.受Yu等[29]研究的啟發(fā),本文提出了3 個(gè)時(shí)間相關(guān)特征,具體如下.
2.2.1 時(shí)間間隔特征δt
式(1)中:wδ和bδ是可訓(xùn)練的參數(shù);ti+1和ti分別表示學(xué)習(xí)者行為序列中任意第 (i+1)和第i個(gè)交互發(fā)生的時(shí)間.時(shí)間間隔特征δt編碼了兩個(gè)連續(xù)交互之間的時(shí)間距離.
2.2.2 時(shí)間跨度特征st
時(shí)間跨度特征被提出是因?yàn)檎n程之間存在預(yù)備和依賴關(guān)系且它們之間會(huì)相互影響.對(duì)于上述學(xué)習(xí)者a的學(xué)習(xí)記錄Ba,交互對(duì)應(yīng)的課程可能是交互對(duì)應(yīng)課程的預(yù)備課程.在這種情況下交互i1a和交互之間的時(shí)間跨度會(huì)影響交互對(duì)應(yīng)課程的準(zhǔn)確率預(yù)測(cè).st的計(jì)算公式為
式(2)中:ws和bs是可訓(xùn)練的參數(shù);tk+1表示要預(yù)測(cè)的 第 (k+1) 個(gè)交互發(fā)生的 時(shí)間.時(shí)間跨度特征st編碼每一個(gè)課程和預(yù)測(cè)的目標(biāo)課程ck+1之間的時(shí)序距離.
2.2.3 時(shí)間延遲特征?t
時(shí)間延遲特征被提出是因?yàn)閷W(xué)習(xí)過(guò)程中存在復(fù)習(xí)機(jī)制.在這種情況下,在預(yù)測(cè)交互項(xiàng)課程準(zhǔn)確率時(shí),先前學(xué)習(xí)過(guò)的相同課程具有較大的影響.對(duì)于學(xué)習(xí)記錄Ba,如果交互和交互對(duì)應(yīng)相同的課程則的結(jié)果會(huì)對(duì)交互課程的預(yù)測(cè)有很大的貢獻(xiàn).?t的計(jì)算公式為
式(3)中:w?和b?是可訓(xùn)練的參數(shù);是預(yù)測(cè)的目標(biāo)課程在先前的學(xué)習(xí)序列中對(duì)應(yīng)的交互發(fā)生的時(shí)間.時(shí)間延遲特征 ?t編碼預(yù)測(cè)的目標(biāo)課程ck+1和先前的相同課程間的時(shí)序距離.
進(jìn)一步地,類(lèi)似于Beutel等[31]的研究,本文將時(shí)間相關(guān)特征(δt和st)通過(guò)全連接層轉(zhuǎn)換為稠密向量,并計(jì)算其對(duì)應(yīng)的時(shí)間門(mén)(Tδ和Ts).為了更好地模擬學(xué)習(xí)者學(xué)習(xí)過(guò)程中的遺忘現(xiàn)象,本文利用以上3 個(gè)時(shí)間相關(guān)特征去增強(qiáng)LSTM (圖1 中的E-LSTM)中的遺忘門(mén)和對(duì)應(yīng)的核狀態(tài).相應(yīng)的計(jì)算公式為
式(4)—(7)中:w*和b*是可訓(xùn)練的參數(shù);fi,ii,ccell,i分別是E-LSTM 對(duì)應(yīng)的遺忘門(mén)、輸入門(mén)和核狀態(tài).在增強(qiáng)的知識(shí)追蹤任務(wù)中,本文利用在每一個(gè)交互的課程ID 嵌入向量作為輸入xi,并將該交互對(duì)應(yīng)的準(zhǔn)確率視為監(jiān)督信息去優(yōu)化嵌入向量和對(duì)應(yīng)的權(quán)重.
在第i個(gè)交互中,學(xué)習(xí)者的知識(shí)狀態(tài)隱向量hi通過(guò)
進(jìn)行更新.式(8)中,oi是E-LSTM 對(duì)應(yīng)的輸出門(mén).最終,通過(guò)包含Sigmoid 激活函數(shù)的全連接(Fully Connected,FC)層,學(xué)習(xí)者對(duì)于所有課程的知識(shí)級(jí)別通過(guò)
進(jìn)行預(yù)測(cè).式(9)中,wa和ba是可訓(xùn)練的參數(shù).
由于數(shù)據(jù)集中課程的準(zhǔn)確率是0~1 的連續(xù)值而不是離散的0和1,因此,本文將增強(qiáng)的知識(shí)追蹤任務(wù)視為回歸問(wèn)題而不是分類(lèi)問(wèn)題.在這種情況下,模型可以更加準(zhǔn)確地獲取學(xué)習(xí)者對(duì)于知識(shí)的掌握程度.在回歸問(wèn)題中本文使用均方誤差損失函數(shù)
式(10)中:Ω是訓(xùn)練集的大小;(u,c) 表示訓(xùn)練集中的學(xué)習(xí)者 (user)和課程 (course);分別是訓(xùn)練集中第i個(gè)交互中課程ci對(duì)應(yīng)的真實(shí)準(zhǔn)確率和預(yù)測(cè)準(zhǔn)確率.
本文基于學(xué)習(xí)者的畫(huà)像U和課程的表示C生成推薦分?jǐn)?shù).
2.3.1 學(xué)習(xí)者的畫(huà)像U
對(duì)于學(xué)習(xí)者的畫(huà)像U的生產(chǎn),本文用到了3 個(gè)學(xué)習(xí)者相關(guān)的特征: ①學(xué)習(xí)者對(duì)于目標(biāo)課程的知識(shí)級(jí)別它通過(guò)增強(qiáng)的知識(shí)追蹤獲取;② 學(xué)習(xí)者的序列行為ub,它被考慮是因?yàn)樗杀硎緦W(xué)習(xí)者的學(xué)習(xí)意圖;③學(xué)習(xí)者的性格uP,它被考慮是因?yàn)樗煞从硨W(xué)習(xí)者對(duì)于學(xué)習(xí)資源類(lèi)型、學(xué)習(xí)策略的偏好.考慮不同的維度有不同的優(yōu)先權(quán),本文采用門(mén)控機(jī)制去適應(yīng)原始的特征.相應(yīng)的計(jì)算公式為
式(11)—(12)中:w*和b*是可訓(xùn)練的參數(shù);ec是課程嵌入向量;進(jìn)一步,由于LSTM 方便序列建模且具備長(zhǎng)時(shí)記憶能力,本文用LSTM 建模時(shí)序交互行為,即對(duì)于學(xué) 習(xí)者的性格,eP*由性格值嵌入向量和性格維度類(lèi)別嵌入向量拼接組成,將每個(gè)維度的性格通過(guò)門(mén)控機(jī)制控制信息流動(dòng)后,得到學(xué)習(xí)者對(duì)應(yīng)性格維度的嵌入表示uP*;利用殘差連接,并使用層正則化去獲取學(xué)習(xí)者最終的性格表示,即
綜上,基于特定的上下文自適應(yīng)地融合3 個(gè)特征 (圖1 中的Ada-Fuse),生成學(xué)習(xí)者的畫(huà)像
式(13)中:α,β,γ代表相關(guān)特征的自適應(yīng)權(quán)重,其值通過(guò)Softmax 函數(shù)獲得,即α+β+γ=1,且α,β,γ∈[0,1].
2.3.2 課程的表示C
對(duì)于課程的表示C,本文設(shè)計(jì)了一個(gè)基于規(guī)則的課程導(dǎo)航算法.該算法依賴專(zhuān)家知識(shí)去選擇用于推薦的候選課程.使用候選課程不僅保證了知識(shí)結(jié)構(gòu)的邏輯性而且降低了搜索空間.具體地,對(duì)于本文使用的數(shù)據(jù)集,如圖2 所示,學(xué)習(xí)者完成一系列課程之后存在一個(gè)測(cè)驗(yàn)用于評(píng)估學(xué)習(xí)的結(jié)果.當(dāng)構(gòu)建候選的課程集時(shí),本文從兩類(lèi)課程中進(jìn)行選擇: 第一類(lèi),學(xué)習(xí)者已經(jīng)學(xué)過(guò)的課程;第二類(lèi),和學(xué)習(xí)序列中最后一個(gè)課程有著相同測(cè)驗(yàn)的課程.對(duì)于學(xué)習(xí)序列中最后一個(gè)交互k,第一類(lèi)課程即圖2 中藍(lán)色大括號(hào)包含的課程,第二類(lèi)課程即圖2 綠色大括號(hào)包含的課程.
圖2 候選課程示例Fig.2 Illustration of candidate courses
2.3.3 推薦分?jǐn)?shù)
本文使用因子分解機(jī)(Factorization Machine,FM)[32]計(jì)算預(yù)測(cè)的推薦分?jǐn)?shù),即
式(14)中:x=[U,C],[·,·] 表示拼接操作;w是線性回歸的權(quán)重;是xi和xj之間的權(quán)重;〈·,·〉表示內(nèi)積;b代表偏置項(xiàng).
本文利用成對(duì)的貝葉斯個(gè)性化排序損失(Bayesian Personalized Ranking,BPR)去優(yōu)化模型參數(shù).假定觀察的交互項(xiàng)相較于未觀察到的交互項(xiàng)應(yīng)該分配更高的預(yù)測(cè)分?jǐn)?shù),其形式為
式(15)中:O={(u,i,j)|(u,i)∈R+,(u,j)∈R-}代表成對(duì)的訓(xùn)練數(shù)據(jù),R+和R-分別代表觀察到的和未觀察到的交互項(xiàng).
不同類(lèi)型的損失函數(shù)通過(guò)參數(shù)λk線性地結(jié)合,并以端到端的形式去聯(lián)合學(xué)習(xí)的2 個(gè)任務(wù),即
本文提出的推薦模型緊密地依賴于增強(qiáng)的知識(shí)追蹤.為此,本文進(jìn)行了2 個(gè)階段的實(shí)驗(yàn).
(1)階段1: 評(píng)估增強(qiáng)的知識(shí)追蹤模型的有效性.
(2)階段2: 評(píng)估利用增強(qiáng)的知識(shí)追蹤任務(wù)作為輔助任務(wù)、課程推薦作為主任務(wù)的KPM 模型的有效性.
實(shí)驗(yàn)所用數(shù)據(jù)集: 在階段1 實(shí)驗(yàn)中,本文使用北大在線評(píng)測(cè)數(shù)據(jù)集(Peking University Online Judge,POJ)和流利說(shuō)數(shù)據(jù)集 (Liu Li Shou,LLS)進(jìn)行模型的評(píng)估;由于北大在線評(píng)測(cè)數(shù)據(jù)集目前無(wú)練習(xí)題之間的知識(shí)結(jié)構(gòu)信息和學(xué)習(xí)者的性格信息,因此,在階段2 實(shí)驗(yàn)中,本文僅使用流利說(shuō)數(shù)據(jù)集進(jìn)行模型的評(píng)估.
3.1.1 北大在線評(píng)測(cè)數(shù)據(jù)集(POJ)③https://drive.google.com/drive/folders/1LRljqWfODwTYRMPw6wEJ_mMt1KZ4xBDk
北大在線評(píng)測(cè)數(shù)據(jù)集是Pandey等[21]從北京大學(xué)在線評(píng)測(cè)平臺(tái)爬取的,供研究者的編程練習(xí).本文首先根據(jù)Pandey等[21]使用的預(yù)處理方式處理數(shù)據(jù),即移除嘗試提交次數(shù)少于2 次的學(xué)習(xí)者和被交互次數(shù)少于2 次的練習(xí)題;之后,通過(guò)統(tǒng)計(jì),得到該數(shù)據(jù)集中存在提交次數(shù)超過(guò)50 000 次的10 位異常學(xué)習(xí)者.為符合實(shí)際情況,本文進(jìn)一步將提交練習(xí)次數(shù)超過(guò)8 000 次的共11 位學(xué)習(xí)者進(jìn)行了移除.最終本文使用該數(shù)據(jù)集包含了時(shí)間跨度在2019-07-27和2020-04-11 之間的13 289 位學(xué)習(xí)者、2 030 個(gè)練習(xí)題、424 004 個(gè)交互記錄.因數(shù)據(jù)集中學(xué)習(xí)者的練習(xí)結(jié)果為離散的0,1 值,因此,在知識(shí)追蹤任務(wù)中被視為分類(lèi)問(wèn)題并使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練.
3.1.2 流利說(shuō)數(shù)據(jù)集 (LLS)
流利說(shuō)數(shù)據(jù)集收集于人工智能驅(qū)動(dòng)的教育科技公司—流利說(shuō)④http://www.liulishuo.com.本文使用該數(shù)據(jù)集的時(shí)間范圍在2019-12-31 到2020-02-29 之間,數(shù)據(jù)集包含了課程之間的知識(shí)結(jié)構(gòu)信息、學(xué)習(xí)者的行為信息和性格信息.其中,課程之間的知識(shí)結(jié)構(gòu)信息為模型部分所述的測(cè)試和多個(gè)課程之間的包含關(guān)系,學(xué)習(xí)者的行為信息從流利說(shuō)App 中獲取,學(xué)習(xí)者的大五性格信息是流利說(shuō)平臺(tái)通過(guò)邀請(qǐng)學(xué)習(xí)者填寫(xiě)TIPI (Ten Item Personality Inventory)問(wèn)卷[26]的方式顯式地獲取的.過(guò)濾掉無(wú)效回答問(wèn)卷⑤為了清洗數(shù)據(jù),本文首先根據(jù)學(xué)習(xí)者的行為和對(duì)應(yīng)的時(shí)間上下文排除了平均學(xué)習(xí)時(shí)間小于30 min 且總學(xué)習(xí)天數(shù)不超過(guò)1 周的學(xué)習(xí)者;然后根據(jù)學(xué)習(xí)者的TIPI 問(wèn)卷答案過(guò)濾出在2 個(gè)相對(duì)的問(wèn)題上有矛盾項(xiàng)的學(xué)習(xí)者 (例如同時(shí)在“我認(rèn)為自己是外向的、熱情的”和“我認(rèn)為自己是保守的、安靜的”這2 個(gè)問(wèn)題上同時(shí)打1 分或同時(shí)打7 分將會(huì)被過(guò)濾掉).,最終保留了2 063 位學(xué)習(xí)者、1 198 門(mén)課程和對(duì)應(yīng)的312 379 個(gè)交互,每個(gè)交互包含對(duì)應(yīng)的課程ID、課程完成時(shí)間及課程的完成準(zhǔn)確率.對(duì)于性格信息,每個(gè)維度的統(tǒng)計(jì): 經(jīng)驗(yàn)開(kāi)放性 (O),均值=4.87,方差=1.01 ;盡責(zé)性(C),均 值=4.75,方 差=1.18 ;外傾 性(E),均 值=4.14,方差=1.41 ;宜人 性(A),均值=5.20,方差=0.88 ;神經(jīng)質(zhì)性 (N),均值=3.59,方差=1.22 .對(duì)于每位學(xué)習(xí)者的交互記錄,本文將最后2 個(gè)交互分別作為驗(yàn)證和測(cè)試,其余的交互作為訓(xùn)練.在訓(xùn)練過(guò)程中,每個(gè)觀察到的交互將被作為1 個(gè)正例與1 個(gè)未觀察到的負(fù)例進(jìn)行匹配,并像Zhou等[30]那樣在每一步進(jìn)行監(jiān)督.在測(cè)試集,根據(jù)數(shù)據(jù)集的規(guī)模,同He等[33]那樣,為每個(gè)觀察到的交互匹配25 個(gè)隨機(jī)采樣得到的負(fù)例,并最終輸出對(duì)這26 個(gè)實(shí)例 (1 個(gè)正例和25 個(gè)負(fù)例) 的預(yù)測(cè)分?jǐn)?shù).
3.2.1 評(píng)價(jià)指標(biāo)
為了測(cè)量增強(qiáng)的知識(shí)追蹤任務(wù)的效果,本文在POJ 數(shù)據(jù)集上的分類(lèi)問(wèn)題使用的指標(biāo)是準(zhǔn)確率(Accuracy,AAcc)[21],以及ROC 曲線下方的面積大小 (Area Under Curve,AUC)[18],這里用SAUC表示;在LLS 數(shù)據(jù)集上的回歸問(wèn)題使用的指標(biāo)是均方誤差 (Mean-Square Error,MSE)[34],這里用EMSE表示.相應(yīng)公式為
式(17)—(18)中:AAcc代表模型預(yù)測(cè)正確的樣本數(shù)量Ncorrect在預(yù)測(cè)總樣本數(shù)量Ntotal中的占比,即準(zhǔn)確率;M是測(cè)試集中學(xué)習(xí)者的數(shù)量;yaux和分別代表課程真實(shí)的準(zhǔn)確率和預(yù)測(cè)的準(zhǔn)確率.
3.2.2 對(duì)比方法
在這一階段,將提出的增強(qiáng)的知識(shí)追蹤模型 (E_DKT) 與經(jīng)典的深度知識(shí)追蹤模型 (DKT) 進(jìn)行對(duì)比,以驗(yàn)證本文引入的個(gè)性化遺忘控制器 (使用時(shí)間上下文模擬學(xué)習(xí)者的遺忘現(xiàn)象) 的有效性.具體操作如下.
(1) 深度知識(shí)追蹤模型 (DKT): 使用LSTM 進(jìn)行知識(shí)級(jí)別的預(yù)測(cè).
(2) 增強(qiáng)的知識(shí)追蹤模型 (E_DKT): 使用3 個(gè)時(shí)間相關(guān)特征增強(qiáng)E-LSTM 進(jìn)行知識(shí)級(jí)別的預(yù)測(cè),即本文提出的增強(qiáng)的知識(shí)追蹤任務(wù)對(duì)應(yīng)的模型.
3.2.3 實(shí)驗(yàn)結(jié)果
表1 報(bào)告了DKT和E_DKT 的對(duì)比結(jié)果.從表1 可以看出,通過(guò)融入時(shí)間上下文,E_DKT 可以得到更加準(zhǔn)確的知識(shí)級(jí)別預(yù)測(cè)結(jié)果.這表明時(shí)間上下文信息確實(shí)可以更好地模擬學(xué)習(xí)者在學(xué)習(xí)過(guò)程中出現(xiàn)的遺忘現(xiàn)象.具體地,在POJ 數(shù)據(jù)集上,E_DKT 相較于DKT 分類(lèi)得更加準(zhǔn)確,在AAcc上提升了 (Gain⑥) 0.3%,在SAUC上提升了2.4%;在LLS 數(shù)據(jù)集上,E_DKT 相較于DKT 有著更小的預(yù)測(cè)誤差,在EMSE上提升了1.1%.該結(jié)果驗(yàn)證了增強(qiáng)的知識(shí)追蹤模型的有效性,為其進(jìn)一步在推薦模型中被使用提供了依據(jù).
表1 知識(shí)追蹤結(jié)果Tab.1 Results from knowledge tracing
在融入時(shí)間上下文后,E_DKT 在POJ 數(shù)據(jù)集上相較于DKT在AAcc指標(biāo)上提升較小.通過(guò)對(duì)學(xué)習(xí)者案例的分析,如圖3 所示,多數(shù)學(xué)生在在線編程平臺(tái)上習(xí)慣于在某個(gè)時(shí)間段內(nèi)進(jìn)行多次的練習(xí).在這種情況下,2 個(gè)連續(xù)交互之間的時(shí)間間隔就會(huì)很短,導(dǎo)致本文提出的E_DKT 中融入時(shí)間間隔特征 (δt) 的效果有所削弱.但因?yàn)橹R(shí)點(diǎn)之間的依賴和先驗(yàn)關(guān)系,以及學(xué)習(xí)過(guò)程中復(fù)習(xí)機(jī)制的存在,時(shí)間跨度特征 (st)和時(shí)間延遲特征 (?t) 仍然是很有效的.因此,如表1 所示,在POJ 數(shù)據(jù)集上E_DKT 相較于DKT在AAcc指標(biāo)上仍有0.3%的提升,在SAUC指標(biāo)上有2.4%的提升.此外,在符合現(xiàn)實(shí)中的多數(shù)自適應(yīng)學(xué)習(xí)場(chǎng)景的LLS 數(shù)據(jù)集上,本文并未發(fā)現(xiàn)這種幾乎是連續(xù)學(xué)習(xí)的短時(shí)間間隔的情況;并且如表1 所示,通過(guò)這3 個(gè)時(shí)間特征的聯(lián)合作用,E_DKT 相較于DKT 在LLS 數(shù)據(jù)集上EMSE指標(biāo)得到了1.1%的提升,其結(jié)果表明了融入3 個(gè)時(shí)間特征的有效性.
圖3 學(xué)習(xí)者學(xué)習(xí)序列案例分析Fig.3 Case study on the learning sequence
3.3.1 評(píng)價(jià)指標(biāo)
為了測(cè)量推薦的課程是否滿足學(xué)習(xí)者的偏好,本文使用推薦中廣泛使用的度量標(biāo)準(zhǔn): 歸一化折損累計(jì)增益(NDCG,用GNDCG表示)[35]和點(diǎn)擊率(HR,用RHR表示)[15]進(jìn)行評(píng)估.NDCG 評(píng)價(jià)排序的準(zhǔn)確性;HR 測(cè)量真實(shí)實(shí)例被成功推薦的百分比;此外,精確度(Precision,P)[3]被用于測(cè)量推薦的課程是否合適于學(xué)習(xí)者的知識(shí)水平.受候選課程集的限制,被推薦的課程不會(huì)超出學(xué)習(xí)者的認(rèn)知范圍.因此,本文在評(píng)判推薦的課程是否符合學(xué)習(xí)者知識(shí)水平時(shí),重點(diǎn)關(guān)注的是該推薦是否有查漏補(bǔ)缺的作用,即本文將命中學(xué)習(xí)者先前學(xué)習(xí)過(guò)但未掌握的課程定義為成功的推薦.評(píng)價(jià)指標(biāo)相應(yīng)的計(jì)算公式為
式(19)—(21)中: 右下標(biāo)中的N為生成的推薦列表中的前N項(xiàng);Z為推薦列表中前N項(xiàng)的最大折損累積增益(GDCG,N)的歸一化常數(shù);Tu是測(cè)試集中學(xué)習(xí)者u的交互課程;代表推薦列表Ru中的中的第i個(gè)課程;I(x)是指示函數(shù),如果x>0 則值為1,否則為0;在精確度(PN)中,本文用r=0,1 分別表示推薦出的(recommendation)在先前學(xué)習(xí)序列中作答準(zhǔn)確率較低的課程和已經(jīng)掌握的課程,并將作答準(zhǔn)確率較低的課程(r=0 )作為真陽(yáng)(True Positive,TP)樣本NTP,而那些已經(jīng)掌握的(r=1)作為假陽(yáng)(False Positive,FP)樣本NFP.
3.3.2 對(duì)比方法
本文設(shè)計(jì)實(shí)驗(yàn)以回答以下問(wèn)題.
問(wèn)題1: 提出的KPM是否比基線方法執(zhí)行得更好?
問(wèn)題2: 增強(qiáng)的知識(shí)追蹤輔助任務(wù)是否會(huì)協(xié)助課程推薦主任務(wù)?
問(wèn)題3: KPM 中的組件(如遺忘控制器和學(xué)習(xí)者的性格)是否影響最終的推薦性能?
具體地,本文將KPM和經(jīng)典的基線模型進(jìn)行對(duì)比以回答問(wèn)題1;將多任務(wù)學(xué)習(xí)的KPM和僅考慮課程推薦任務(wù)的KPM_K 進(jìn)行對(duì)比以回答問(wèn)題2;將KPM和KPM_T、KPM_P 進(jìn)行對(duì)比以回答問(wèn)題3.涉及的模型具體如下.
1) 基線模型
(1) BPRMF[31]: 通過(guò)BPR 損失優(yōu)化的矩陣分解(Matrix Decomposition,MF)模型,其僅利用了學(xué)習(xí)者-課程的ID.
(2) FM[31]: 通過(guò)分解因子機(jī)(Factorization Machine,FM),利用學(xué)習(xí)者–課程的ID 生成推薦.
(3) LSTM[7]: 通過(guò)長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行序列預(yù)測(cè)從而生成推薦結(jié)果,其僅使用了學(xué)習(xí)者的行為序列.
(4) DIEN(Deep Interest Evolution Network)[32]: 使用兩層的GRU 建模學(xué)習(xí)者的行為序列并生成推薦結(jié)果,在第二層中使用基于注意力更新門(mén)的GRU,其僅使用了學(xué)習(xí)者的行為序列.
2) 本文KPM 模型的變種
(1) KPM_K: 僅考慮課程推薦任務(wù),其增強(qiáng)的知識(shí)追蹤任務(wù)損失 (式(4)中的LK被移除).
(2) KPM_T: 移除在增強(qiáng)的知識(shí)追蹤任務(wù)中引入的個(gè)性化遺忘控制器 (知識(shí)追蹤由原始的深度知識(shí)追蹤組成).
(3) KPM_P: 移除課程推薦任務(wù)中的學(xué)習(xí)者性格信息.
本文使用Tensorflow 實(shí)施所有模型.對(duì)于基線模型,本文使用其論文中報(bào)告的方法進(jìn)行超參數(shù)的初始化,并進(jìn)行微調(diào)以保證它們達(dá)到最優(yōu)的性能.對(duì)于本文提出的KPM,最優(yōu)的學(xué)習(xí)率、λk、丟棄率分別為0.001、0.100和0.800;嵌入大小固定為18;學(xué)習(xí)者行為序列中的最大長(zhǎng)度設(shè)為135.
3.3.3 實(shí)驗(yàn)結(jié)果
對(duì)于所有方法,本文取推薦列表的前5 項(xiàng)(N=5 )和前10 (N=10)項(xiàng)進(jìn)行匯報(bào).
1) 整體性能比較 (問(wèn)題1)
表2 所示報(bào)告了不同方法的整體性能.由表2 的實(shí)驗(yàn)結(jié)果可以得到以下的結(jié)論.
(1) 本文提出的KPM 模型在所有的評(píng)估指標(biāo)上均取得了最好的結(jié)果.這表明KPM 模型推薦的結(jié)果不僅滿足學(xué)習(xí)者的偏好,而且適合學(xué)習(xí)者的知識(shí)水平.具體地,KPM 模型相較于最好的基線模型DIEN在RHR,5上提升了 (Gain⑥) 3.9%,這說(shuō)明KPM 模型能準(zhǔn)確地推薦學(xué)習(xí)者下一個(gè)真正選擇的課程;KPM 模型相較于DIEN 模型,在排序指標(biāo)GNDCG,5上達(dá)到了5.8%的提升,其結(jié)果值得關(guān)注,因?yàn)閷W(xué)習(xí)者在真實(shí)生活學(xué)習(xí)場(chǎng)景中經(jīng)常選擇排在前面的推薦課程;KPM 模型相較于DIEN在P5上得到了5.9%的提升,表明結(jié)合知識(shí)級(jí)別的KPM 模型更能推薦出符合學(xué)習(xí)者知識(shí)水平的課程,幫助學(xué)習(xí)者進(jìn)行查漏補(bǔ)缺.
(2) 在比較的方法中,基于深度學(xué)習(xí)的方法(DIEN和LSTM)相較于傳統(tǒng)的協(xié)同過(guò)濾方法(BPRMF和FM)整體上表現(xiàn)得較好.一方面,深度學(xué)習(xí)對(duì)于學(xué)習(xí)者和課程的表示是更加有效的;另一方面,它們使用了可以反映學(xué)習(xí)者最近學(xué)習(xí)意圖的序列行為信息.
由此,問(wèn)題1 得以較好回答,即提出的KPM 比基線模型執(zhí)行得更好.
表2 整體性能結(jié)果Tab.2 Overall performance results
2) 多任務(wù)學(xué)習(xí)的效果 (問(wèn)題2)
表3 所示是消融實(shí)驗(yàn)的結(jié)果.從表3 可以得到以下結(jié)論.
表3 消融實(shí)驗(yàn)結(jié)果Tab.3 Results of ablation studies
多任務(wù)學(xué)習(xí)模型KPM 相較于單任務(wù)模型KPM_K 在所有的評(píng)估指標(biāo)上均得到了更好的效果,在RHR,5、GNDCG,5和P5上分別提升了 (Gain⑥) 11.6%、12.4%和11.5%,表明通過(guò)多任務(wù)學(xué)習(xí)的方法,在增強(qiáng)的知識(shí)追蹤任務(wù)和課程推薦任務(wù)之間,共享知識(shí)級(jí)別信息是有效的;在增強(qiáng)的知識(shí)追蹤輔助任務(wù)的幫助下,推薦的結(jié)果更加準(zhǔn)確地匹配學(xué)習(xí)者的知識(shí)水平.
由此,問(wèn)題2 得以較好回答,即增強(qiáng)的知識(shí)追蹤輔助任務(wù)可以協(xié)助課程推薦主任務(wù).
3) 各個(gè)組件的效果 (問(wèn)題3)
由表3 的消融實(shí)驗(yàn)結(jié)果得到以下結(jié)論.
(1) 在所有的評(píng)價(jià)指標(biāo)上,KPM 均優(yōu)于其變種模型.具體地,①KPM 相較于KPM_T,其在RHR,5、GNDCG,5和P5上分別提升了 (Gain⑥) 9.8%、16.5%和10%,表明增強(qiáng)的知識(shí)追蹤任務(wù)在多任務(wù)框架下仍然可以準(zhǔn)確地捕獲學(xué)習(xí)者的知識(shí)級(jí)別,可以幫助推薦匹配的課程;② KPM 相較于KPM_P 表現(xiàn)得更好,其在RHR,5、GNDCG,5和P5上分別提升了 (Gain⑥) 30.9%、35.1%和6.6%.結(jié)合學(xué)習(xí)者的性格信息后,HR 指標(biāo)和NDCG 指標(biāo)均有較大的提升,表明利用性格信息可以更好地迎合學(xué)習(xí)者的偏好,從而生成更加個(gè)性化的課程推薦.
(2) KPM_P 在HR 指標(biāo)和NDCG 指標(biāo)上次于KPM_T (RHR,5,KPM_P 的是0.162,KPM_T 的是0.193;GNDCG,5,KPM_P 的是0.094,KPM_T 的是0.109),在Precision 指標(biāo)上優(yōu)于KPM_T(P5,KPM_P 的是0.319,KPM_T 的是0.309).這證明了性格對(duì)于捕捉學(xué)習(xí)者的偏好更加重要,而準(zhǔn)確的動(dòng)態(tài)知識(shí)級(jí)別對(duì)于生成合適的知識(shí)水平課程貢獻(xiàn)得更多.
(3) 為驗(yàn)證性格的作用,本文進(jìn)一步進(jìn)行了案例分析.圖4 中間部分展示的是某學(xué)習(xí)者a的學(xué)習(xí)序列,其中綠色標(biāo)記是該學(xué)習(xí)者a的真實(shí)學(xué)習(xí)序列中下一個(gè)學(xué)習(xí)的課程—342 聽(tīng)力課(“342”表示課程的ID,“聽(tīng)力課”表示課程所屬的類(lèi)型).將圖4 中KPM 生成的“推薦列表1”和KPM_P 生成的“推薦列表2”進(jìn)行比對(duì),可以得到,融入性格信息后,模型可以較好地建模學(xué)習(xí)者的偏好信息,從而生成排序性更好的推薦結(jié)果.此外,通過(guò)圖4 中“學(xué)習(xí)者a的性格”可知,學(xué)習(xí)者a屬于高經(jīng)驗(yàn)開(kāi)放性(O),此類(lèi)型的學(xué)習(xí)者相對(duì)更易接受新事物.模型KPM 因此生成了更加多樣的推薦列表⑦借鑒Wu等[36]的工作,采用信息熵測(cè)量推薦結(jié)果的多樣性,即,其中,是推薦的總數(shù),Nr,s 代表推薦中屬于類(lèi)別 s 的個(gè)數(shù),其中 s ∈S,S 代表推薦列表中類(lèi)型的集合.信息熵越大則表明推薦列表中推薦的內(nèi)容越多樣.圖4 中KPM和KPM_P 的信息熵結(jié)果分別為2.45和2.25..
圖4 性格的作用案例分析Fig.4 Case study on the effect of a learner’s personality
由此,問(wèn)題3 得到了較好的回答,即KPM 中的組件如遺忘控制器,可以幫助KPM 通過(guò)更加準(zhǔn)確的知識(shí)級(jí)別生成匹配學(xué)習(xí)者知識(shí)水平的推薦結(jié)果;融入學(xué)習(xí)者的性格可以幫助KPM 生成符合學(xué)習(xí)者偏好的個(gè)性化推薦結(jié)果.
針對(duì)自適應(yīng)學(xué)習(xí)場(chǎng)景中面臨的如何為學(xué)習(xí)者推薦個(gè)性化的學(xué)習(xí)資源挑戰(zhàn),提出了一個(gè)知識(shí)和性格結(jié)合的多任務(wù)學(xué)習(xí)框架KPM.在真實(shí)的教育相關(guān)的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明KPM 在生成個(gè)性化課程推薦方面優(yōu)于基線模型,即KPM 生成的推薦結(jié)果更好地滿足學(xué)習(xí)者的偏好而且更適合學(xué)習(xí)者的知識(shí)水平.此外,消融實(shí)驗(yàn)結(jié)果表明了使用增強(qiáng)的知識(shí)追蹤任務(wù)作為輔助任務(wù),在增強(qiáng)的知識(shí)追蹤任務(wù)中使用時(shí)間相關(guān)的上下文解決學(xué)習(xí)者的遺忘現(xiàn)象和在課程推薦任務(wù)中融入學(xué)習(xí)者性格信息的有效性.盡管本文在建模時(shí)引入了時(shí)間上下文信息和學(xué)生的性格信息,但這并不妨礙該模型的可擴(kuò)展性,具體地,在時(shí)間上下文方面,可以在相關(guān)自適應(yīng)學(xué)習(xí)平臺(tái)上獲取.在性格方面,盡管本文使用顯式問(wèn)卷形式收集學(xué)生的性格,但最近已有隱式獲取性格方面的研究證明了通過(guò)多源異構(gòu)數(shù)據(jù)如視頻、圖片、文本信息可以對(duì)性格進(jìn)行準(zhǔn)確的預(yù)測(cè)[13,37].在未來(lái)的研究中,可以針對(duì)以下方面進(jìn)行探索.
(1) 本文在選擇課程候選集合時(shí)依賴專(zhuān)家知識(shí),因此在未來(lái)工作中將探索以知識(shí)圖譜替代專(zhuān)家知識(shí).
(2) 增加學(xué)習(xí)者學(xué)習(xí)效果等可量化的評(píng)估指標(biāo).
(3) 探索概念級(jí)別的細(xì)粒度推薦用以生成更加準(zhǔn)確和可解釋的推薦結(jié)果.