張慶生 廖敬萍 張麗麗
摘 要:自適應(yīng)網(wǎng)絡(luò)學(xué)習(xí)平臺測量兩個知識模塊的相似性、相對難度和先行關(guān)系,動態(tài)地為學(xué)生推薦知識模塊,它可以廣泛地應(yīng)用在網(wǎng)絡(luò)課程的安排順序、自適應(yīng)測試等。文中采用領(lǐng)域分析的方法,對網(wǎng)絡(luò)學(xué)習(xí)平臺的日志數(shù)據(jù)進行特征提取,將特征值添加到相關(guān)知識模塊關(guān)系的訓(xùn)練和測試數(shù)據(jù)集,并采用線性回歸、高斯過程和神經(jīng)網(wǎng)絡(luò)預(yù)測數(shù)據(jù)集中的兩個知識模塊的相似性、相對難度和先行關(guān)系,實驗結(jié)果在實踐中具有可行性。
關(guān)鍵詞:自適應(yīng)學(xué)習(xí)平臺;知識模塊;特征值提??;預(yù)測
中圖分類號:G434 文獻標識碼:A 文章編號:2095-1302(2016)07-00-01
0 引 言
互聯(lián)網(wǎng)、移動計算和物聯(lián)網(wǎng)技術(shù)促使越來越多的教師把學(xué)習(xí)資料放置在網(wǎng)絡(luò)學(xué)習(xí)平臺,方便學(xué)生隨時隨地學(xué)習(xí)。然而,網(wǎng)絡(luò)學(xué)習(xí)平臺并沒有考慮學(xué)生自身的因素,所有學(xué)生獲得完全一樣的學(xué)習(xí)資料。為適應(yīng)學(xué)生的差異性及學(xué)生特點的變化,自適應(yīng)網(wǎng)絡(luò)學(xué)習(xí)平臺需要對學(xué)生的知識水平、學(xué)習(xí)興趣、學(xué)習(xí)目標和任務(wù)等建模[1],以滿足學(xué)生的需求。
有關(guān)學(xué)生學(xué)習(xí)活動的特征值可以預(yù)測兩個知識模塊(例如,一對練習(xí)題目)的相似性、相對難度和先行關(guān)系,為學(xué)生提供與其知識水平相近的練習(xí)題目[2]。在自適應(yīng)學(xué)習(xí)平臺領(lǐng)域,沒有規(guī)定從學(xué)生學(xué)習(xí)活動數(shù)據(jù)中提取何種特征值,本文擴展的研究[2],提取新特征值并應(yīng)用于相關(guān)的預(yù)測算法,為自適應(yīng)學(xué)習(xí)平臺的設(shè)計與實現(xiàn)提供理論說明和實驗證據(jù)。
1 數(shù)據(jù)集與特征提取
分析實驗的數(shù)據(jù)來自均一教育平臺(http://www.junyiacademy.org),由它提供中小學(xué)數(shù)學(xué)課程的練習(xí)題目。文獻[2]的數(shù)據(jù)集抽取時間是2014年7月。本次使用的數(shù)據(jù)集抽取時間為2015年1月,是文獻[2]的增量數(shù)據(jù)集。該數(shù)據(jù)集有722個練習(xí)題目,247 605個學(xué)生用戶,學(xué)生學(xué)習(xí)記錄共25 925 992條??紤]到練習(xí)題目的學(xué)生用戶人數(shù)過少,其行為可能對特征值產(chǎn)生較大偏差,因此,過濾學(xué)生用戶數(shù)小于100的練習(xí)題目,并過濾1 048條練習(xí)題目花費時間是負數(shù)的錯誤記錄。
1.1 訓(xùn)練和測試數(shù)據(jù)集
首先,應(yīng)確定數(shù)據(jù)集的練習(xí)題目對A和B。該訓(xùn)練集有1 131條記錄,選擇239個練習(xí)作為A,再隨機選取343個練習(xí)作為B,每個練習(xí)A與大約5個其它練習(xí)配對。測試集有823條記錄,選擇130個練習(xí)作為A,再隨機選擇330個練習(xí)作為B,每個練習(xí)A與大約6個其它練習(xí)配對。
其次,領(lǐng)域?qū)<覍ο嚓P(guān)練習(xí)題目進行它們所需的知識是否相似、是否B比A難、是否A為B的先行知識的問卷測評。采用1~9評分制,相似性分數(shù)越高表明A和B越相似,難度分數(shù)越高表明B比A難,5分表示兩者難度相同,先行關(guān)系分數(shù)越高表明A是B的先行程度高。專家評分的平均值作為練習(xí)題目對關(guān)系的期望值。
1.2 特征提取
訓(xùn)練集和測試集只有練習(xí)題目對應(yīng)的名稱、相似性、相對難度和先行關(guān)系的評分,無練習(xí)題目特征值。特征值可以從有關(guān)學(xué)生學(xué)習(xí)的日志數(shù)據(jù)中提取,并插入到訓(xùn)練集和測試集,最終形成訓(xùn)練和測試預(yù)測算法所用的數(shù)據(jù),其過程如圖1所示。
圖1中的練習(xí)題目表是練習(xí)題的描述:先行關(guān)系、練習(xí)題在知識地圖上的坐標、所屬主題、所屬領(lǐng)域和練習(xí)題的最快回答時間,前幾項直接插入數(shù)據(jù)集。練習(xí)A和B的最快回答時間比率,A和B的間距作為導(dǎo)出特征值插入數(shù)據(jù)集。從學(xué)生學(xué)習(xí)日志數(shù)據(jù)中提取特征值:A和B平均回答時間差值、回答次數(shù)差值、每個學(xué)生回答題目平均次數(shù)、第一次正確回答次數(shù)差值、每個學(xué)生第一次正確回答平均次數(shù)、每個學(xué)生使用系統(tǒng)建議題目的平均次數(shù)、使用A和B的學(xué)生人數(shù)比率、每個學(xué)生使用系統(tǒng)的題目提示的平均次數(shù)。表1所列為有關(guān)兩次實驗所涉及的特征值數(shù)目及相同特征值。
2 實驗
實驗采用數(shù)據(jù)挖掘工具weka[3]提供的分類方法。表2和表3的相對平方誤差RSE描述預(yù)測的準確程度,其值越小越好,斯皮爾曼相關(guān)系數(shù)Spm分析預(yù)測值序列和期望值序列的相關(guān)程度,其值越大越好。
表2和表3的方法1是文獻[2]采用各類回歸算法產(chǎn)生的最佳值羅列,方法2、3和4是本次實驗采用的多元線性回歸、高斯過程和反向傳播神經(jīng)網(wǎng)絡(luò)算法。
在表3中,除方法4產(chǎn)生的結(jié)果與方法1有一定的差距外,方法2和3產(chǎn)生的結(jié)果與方法1的結(jié)果接近或者超過時,說明采用本次實驗的特征值,并選擇合適的分類算法可以預(yù)測知識模塊間的關(guān)系。
3 結(jié) 語
實驗結(jié)果表明,從學(xué)生日志數(shù)據(jù)選擇可能的特征值及合適的分類算法可預(yù)測知識模塊間的關(guān)系,結(jié)合用戶控制自適應(yīng)過程,可用于設(shè)計實現(xiàn)自適應(yīng)學(xué)習(xí)平臺。
參考文獻
[1] Brusilovsky P.,Millan E..User Models for Adaptive Hypermedia and Adaptive Educational Systems[M]. Brusilovsky P., Kobsa A. and Nejdl W.. The Adaptive Web: Methods and Strategies of Web Personalization.Germany: Springer Press,2007:3-53.
[2] Chang Haw-Shiuan, Hsu Hwai-Jung, Chen Kuan-Ta. Modeling Exercise Relationships in E-Learning: A Unified Approach[C].Educational Data Mining Proceedings,2015:532-535.
[3] weka.數(shù)據(jù)挖掘工具[EB/OL]. http://www.cs.waikato.ac.nz/ml/weka.[2015-10-15].