賀超凱 吳蒙
【摘 要】 教育數(shù)據(jù)挖掘是一門新興學科,通過分析學習行為記錄歸納學習者的行為特點以提高教育質(zhì)量,大規(guī)模在線開放課程學習者的學習行為記錄為此提供充足素材。2012-2013學年哈佛大學和麻省理工學院在edX平臺上開設了17門課程,本文選擇其中16門課程60余萬人次學習行為記錄,歸納學習者學習行為特征,對部分典型行為特征進行數(shù)據(jù)挖掘,采用邏輯斯諦回歸方法對成績進行預測。實驗表明,通過學習者的典型學習行為分析可以有效地判別其是否可以完成學習任務并獲得證書。
【關鍵詞】 慕課;學習行為;數(shù)據(jù)挖掘;成績預測;學習者特征
【中圖分類號】 G420 【文獻標識碼】 A 【文章編號】 1009—458x(2016)06—0054—06
MOOCs(Massive Open Online Courses),即大規(guī)模在線開放課程(慕課),是由加拿大學者Bryan Alexander和Dave Cormier在2008年提出的。2012年《科學》雜志上出現(xiàn)了研究人員對慕課的介紹,并展望它將改變未來的教育[1]。2013年《自然》雜志詳細介紹慕課的發(fā)展、現(xiàn)狀和趨勢[2]。以edX、Coursera和Udacity為代表,慕課理念和實踐得到了哈佛大學、麻省理工學院等國際優(yōu)秀大學的認同 [3]。北京大學李曉明教授認為兩個因素:一是信息技術,主要是網(wǎng)絡基礎設施、Web2.0、音視頻和云計算四個方面,使得慕課教學的良好體驗成為可能;二是以學習者為中心的教育技術思想的成熟,使得慕課得以迅速流行[4]。慕課以其獨特的共享優(yōu)勢,使教育機會和教育公平變?yōu)楝F(xiàn)實,并得到廣大學習者的高度認可,近千萬用戶通過網(wǎng)絡學習優(yōu)秀大學的優(yōu)質(zhì)課程,世界范圍內(nèi)大規(guī)模在線教育時代已經(jīng)到來。
不同于傳統(tǒng)的通過電視廣播、互聯(lián)網(wǎng)、輔導專線、函授等形式的遠程教育,也不完全等同于近期興起的教學視頻網(wǎng)絡共享公開課,更不同于基于網(wǎng)絡的學習軟件或在線應用。與傳統(tǒng)的授課過程相比,慕課主要呈現(xiàn)出以下特點:① 慕課提供了豐富的課程資源,學習者可以根據(jù)自己的興趣愛好,選擇不同的授課者進行學習。② 慕課課程以知識點為一個授課環(huán)節(jié),一般時間在10-20分鐘之間。 ③ 學習者可以根據(jù)課程進度安排,隨意選擇學習地點,重復學習課程內(nèi)容。④ 慕課學習者的問題一般能得到及時回復。⑤ 慕課的成績評價則結(jié)合學習者在整個學習過程中的表現(xiàn)。此外,在慕課模式下,課堂教學、學習進程、學生者的體驗、師生互動過程、學習者互動過程等被完整、系統(tǒng)地在線實現(xiàn)。慕課的主體是學習者,慕課最大的特點在于海量的學習者和各種各樣的學習者群體。學習者的學習動機、受教育程度、學習態(tài)度、學習方法也呈現(xiàn)多樣性。慕課平臺上學習者的相關資料(如年齡、性別、受教育程度、來自國家和地區(qū)等)和學習行為(如觀看授課視頻次數(shù)、參與教學互動次數(shù)、瀏覽教學內(nèi)容次數(shù)、解答問題數(shù)、學習者之間的交互學習等)都會以豐富多樣的形式記錄下來。如何充分利用數(shù)據(jù),根據(jù)學習者的相關資料及學習行為記錄,對其學習成績進行評定是一個挑戰(zhàn)。
一、相關工作
教育數(shù)據(jù)挖掘是一門新興學科,關注從海量數(shù)據(jù)中挖掘出對教育者和學習者有用的信息,以提高教育管理效率和學習效率。慕課處于高速發(fā)展階段,已經(jīng)有學者利用教育數(shù)據(jù)挖掘方法對慕課學習行為數(shù)據(jù)進行分析。Ho等分析了edX平臺上的慕課學習者,認為:學習者已經(jīng)遍布全球,歐洲學習者學習的課程數(shù)量最多,參與率最高,而東亞的少;男性學習者比例較高;慕課對于已經(jīng)獲得學士學位的學習者更有吸引力;學習者的平均年齡為24歲;半數(shù)學習者從未完成課程的學習;社會科學類課程的參與率最高,而人文科學類課程的參與率最低;課程參與率最高的人群是已獲得博士學位的學習者;大多數(shù)學習者僅注冊了一門課程,注冊了多門課程的學習者的參與率更高,而注冊課程多于6門的學習者參與率則下降[5]。國內(nèi)也有學者采用問卷調(diào)查等形式對MOOC課程學習過程進行研究[6]。
對慕課學習者的學習行為分析與成績預測的研究從方法上可以分為以下4類。
1. 通過率預測
Jiang 等人根據(jù)學習者一周的學習記錄對其最終成績進行預測[7]。Ramesh等人對學習者的線上學習行為進行了區(qū)分,作為預測最終成績的潛在特征[8],也用于預測學習者是否會參加最終測試[9]。
2. 退出率預測
Balakrishnan等分析了伯克利大學開設的一門課程的退出情況,采用隱形馬爾科夫模型,主要根據(jù)學習者觀看授課視頻的時間、瀏覽學習論壇帖子的數(shù)目、發(fā)帖數(shù)和學習所用的時間4個因素,判定學習者退出學習的機率[10]。Halawa、Greene和Mitchell通過學習者的學習特征判定是否對學習失去興趣,對退出率給出較準確的預測[11]。Kloft采用決策支持向量機分析學習者的點擊序列,對退出率進行判定[12]。Taylor等基于學習者的群體特征進行判定[13]。
3. 干預式預測
edX、Coursera、Udacity等平臺上的慕課通過率都很低。一種解決辦法是及時識別學習困難者,并及時干預,給予學習者一定的提醒和幫助。Williams 從認知心理學的角度進行了深入的研究,通過在MOOC課程視頻中添加提問的方式提高學習者的積極性,對減少退出率的有效性進行了驗證,并分析了不同交流措施對通過率的影響[14][15][16]。He 等人根據(jù)多維因素對邏輯斯諦回歸方法進行改進,通過預測,對處于邊緣的學習者進行干預[17]。
4. 關系挖掘
主要是分析哪些因素影響課程通過率或失敗率。DeBoer等研究了年齡、性別、地區(qū)等人口統(tǒng)計特征對課程通過率的影響[18]。Yang等研究了學習行為和在學習論壇中的地位對通過率的影響,以及學習者在論壇中的評論和學習者之間的相互作用對通過率的影響[19][20]。這些研究對慕課課程設計有很大幫助。
二、學習者特征
傳統(tǒng)教育活動中,學習者群體的學習動機基本相同,學習者的心智發(fā)展和知識水平大體相當。慕課環(huán)境下,學習者的學習動機和知識背景差異呈現(xiàn)多樣化。2012年秋季到2013年夏季,哈佛大學和麻省理工學院在edX平臺上開設了17門課程。本文選定其中16門課程60余萬條學習行為記錄進行學習者特征的統(tǒng)計分析,16門課程的信息(如課程代碼、課程名稱、注冊時間、開始時間、終止時間、課程天數(shù)、注冊學生數(shù)、通過考試獲得證書學生數(shù)、通過率等)如表1所示。
1. 學習者類別
根據(jù)平臺上的學習記錄,將學習者分為3類:
注冊者(only registered):注冊賬號后,未完成任何一項學習任務。
瀏覽者(only viewed):注冊賬號后,學習內(nèi)容少于課程內(nèi)容的一半。
探索者(only explored):注冊賬號后,學習內(nèi)容超過課程內(nèi)容的一半。
每類學習者所占比例、性別、教育程度、年齡以及課程開始前注冊人數(shù)、課程進行中注冊人數(shù)及課程結(jié)束后注冊人數(shù)等信息如表2所示。
2. 教育背景
按照初級教育水平、中級教育水平、高級教育水平、副學士、學士、碩士、博士7個等級進行統(tǒng)計,學習者的平均受教育水平是學士,HealthStat課程學習者平均受教育水平是碩士,擁有博士學位的學習者占10%。通過考試并取得證書的學習者中,教育水平在學士學位以上的占54%。
3. 年齡
每門課程學習者的平均年齡均小于30歲,通過考核獲得證書的學習者平均年齡略高。可能是課程主題的關系,哈佛大學慕課學習者的年齡和受教育程度均高于麻省理工學院。每門課程的學習者年齡分布和完成學習獲得證書的學習者年齡分布如圖1所示。
4. 性別
圖2表示女性學習者各門課程中所占的比例以及完成學習獲得證書的比例。科學類、工程類、技術類、數(shù)學類課程女性學習者的比例比人文和社會科學類的課程低,完成學習獲得證書的比例更低。
三、典型學習行為選取
除了受學習者年齡、性別、教育背景等因素影響外,學習動機和投入程度也很大程度上影響著學習效果。為了準確地描述學習者行為,本文選取了學習時間、學習事件次數(shù)、抽樣統(tǒng)計學習次數(shù)、觀看視頻次數(shù)、學習章節(jié)數(shù)以及在學習論壇上發(fā)帖數(shù)等作為學習行為分析的客觀依據(jù),以此為基礎進行成績預測。
時間:在開課前幾周就有注冊課程的記錄,一半以上的學習者在課程開始前完成注冊。約有8%的學習者在課程結(jié)束后注冊課程。文中的學習時間用學習者最后學習記錄日期減去注冊時間。
學習事件次數(shù):通過分析系統(tǒng)日志,得到學習者與課程交互活動的次數(shù)。
抽樣統(tǒng)計學習次數(shù):系統(tǒng)在特定的時間對學習行為進行的抽樣統(tǒng)計。
觀看視頻次數(shù):學習期間觀看視頻的次數(shù)。
學習章節(jié)數(shù):從課程開始到課程結(jié)束,學習者學習的內(nèi)容章節(jié)數(shù)。
發(fā)帖數(shù):學習者關于課程內(nèi)容在學習論壇上發(fā)起的話題,包括回復別人提出的問題等。
四、邏輯斯諦回歸算法框架
邏輯斯諦回歸算法主要包括對學習記錄數(shù)據(jù)的歸一化處理、構(gòu)造預測函數(shù)、構(gòu)造損失函數(shù)、采用優(yōu)化算法求解等過程(如圖3所示)。
1. 構(gòu)造預測函數(shù)
設Y是 0-1型變量,表示學習者是否通過學習并取得證書。表示影響學習效果Y的相關變量,與的關系為:
函數(shù)的值表示結(jié)果取1的概率,因此對于輸入分類結(jié)果,值為 1和值為0的概率分別為:
五、實驗結(jié)果與分析
1. 實驗數(shù)據(jù)集
本文用到的數(shù)據(jù)集包括641,138個注冊學習者在學習16門課程期間的相關學習記錄,刪除了特征記錄不完整的數(shù)據(jù),有效記錄338,888條,按課程以80%和20%比例拆分,得到訓練集和測試集。
2. 評價指標
為了衡量算法的效果,文中采用了準確率、精確率、召回率和調(diào)和值作為評價指標。
TP:記錄值為1,預測值為1的記錄數(shù);
FN:記錄值為1,預測值為0的記錄數(shù);
FP:記錄值為0,預測值為1的記錄數(shù);
TN:記錄值為0,預測值為0的記錄數(shù);
準確率=(TP+TN)/(TP+FN+FP+TN);
精確率=TP/(TP+FP);
召回率=TP/(TP+FN);
調(diào)和值=2TP/(2TP+FP+FN);
迭代次數(shù)達到40次時,準確率、精確率、召回率、調(diào)和值均達到最佳值(如圖4所示)。
3. 學習效果預測
對16門課程進行了實驗分析,結(jié)果如表3所示。
實驗結(jié)果表明,應用邏輯斯諦回歸方法,根據(jù)學習者的學習記錄,能比較準確地預測后期學習效果,充分說明了本文提出的算法的合理性和有效性。
4. 其他數(shù)據(jù)分析
實驗結(jié)果表明,選取的學習者行為特征可以在課程進行中有效地區(qū)分學習者,在全部課程上均有較好的實驗效果。從數(shù)據(jù)中發(fā)現(xiàn)的現(xiàn)象和主要結(jié)論如下:
(1)可以根據(jù)學習記錄較準確地預測學習效果
雖然學習者的學習動機、學習目的以及想要達成的目標等主觀情感無法計算,但可根據(jù)學習者的年齡、教育背景、學習行為的過程化記錄數(shù)據(jù)(觀看視頻數(shù)、學習章節(jié)數(shù)、抽樣學習行為記錄數(shù)、學習論壇發(fā)帖數(shù)、學習課程用時數(shù)等)等客觀數(shù)據(jù)預測學習者的最終學習效果。實驗證明,采用邏輯斯諦回歸方法進行預測效果較好。
(2)學習者教育背景對學習效果影響不大
實驗中完成學習環(huán)節(jié)、獲得證書的學習者中初等及以下的受教育者占3%,獲得博士學位的占3%,中等教育占28%,本科占35%,碩士占31%。初中等教育的學習者與本科和碩士學習效果區(qū)分不顯著。
(3)性別因素對學習效果影響不大
實驗表明,性別與學習效果間沒有顯著關系。
六、結(jié) 論
本文對edX平臺上開設的16門課程60余萬條學習行為記錄進行了分析,選取了學習時間、學習事件次數(shù)、抽樣統(tǒng)計學習次數(shù)、觀看視頻次數(shù)、學習章節(jié)數(shù)、發(fā)帖數(shù)等作為學習行為關鍵記錄,對學習者是否可以完成學習任務并獲得證書進行了預測。實驗證明,可以通過分析學習行為關鍵記錄預測學習效果。
學習效果是學習行為的最終體現(xiàn),受動機、目的、情感等多方面的影響。edX平臺上的學習行為主要是學習者的一些客觀行為表現(xiàn)。雖然采用邏輯斯諦回歸方法可以準確判定學習效果,但是學習過程中的主觀因素未得到體現(xiàn)。如何體現(xiàn)主觀因素,并應用于學習效果預測,是一個有趣且復雜的課題,對充分理解學習者的學習行為、提高學習效率、科學地設置課程內(nèi)容、干預學習進程等都有很大的幫助。
[參考文獻]
[1] Stein L A. Casting a wider net [J].Science, 2012, 338(6113):1422-1423.
[2] Waldrop M M. Online learning: Campus 2.0 [J].Nature, 2013, 495(7440):160-163.
[3] 蔣卓軒,張巖,李曉明. 基于MOOC數(shù)據(jù)的學習行為分析與預測[J]. 計算機研究與發(fā)展,2015,52(3):614-628
[4] 李曉明. 慕課:是櫥窗?還是店堂?[J]. 中國計算機學會通訊,2013,9(12):24-28.
[5] Ho, A. D., Reich, J., Nesterko, S., Seaton D. T., Mullaney, T., Waldo, J., & Chuang, I. [2014]. HavardX and MITX: The first year of open online courses. (HarvardX and MITx Working Paper No. 1). http://dx.doi.org/10.2139/ssrn.2381263
[6] 范逸洲,王宇,馮菲,汪瓊,李曉明. MOOCS課程學習與評價調(diào)查[J]. 中國遠程教育,2014,20(3):27-35.
[7] S. Jiang, A. E.Williams, K.Schenke, M.Warschauer, D. ODowd. Predicting MOOC performance with week 1 behavior[C]. In Proceedings of the 7th International Conference on Educational Data Mining. 2014.
[8] Ramesh A, Goldwasser D, Huang B, et al. Modeling learner engagement in MOOCs using probabilistic soft logic[C]. NIPS workshop on data drive education, 2013.
[9] Ramesh, A. Goldwasser, D. Huang, B. Daume III, H. and Getoor, L. Learning latent engagement patterns of students in online courses. [C] In Proceedings of the Twenty Eighth AAAI Conference on Artificial Intelligence. AAAI Press. 2014.
[10] Balakrishnan G. Predicting student retention in massive open online courses using hidden markov models, UCB/EECS 2013-109. Berkeley: University of California, Berkeley.2013. http://www.eecs.berkeley.edu/Pubs/TechRpts/2013/EECS-2013-109.pdf
[11] Halawa, S., Greene, D., and Mitchell, J. Dropout prediction in MOOCs using learner activity features[C]. In Proceedings of the European MOOC Summit. 2014 .
[12] Kloft, M. Stiehler, F. Zheng, Z. and Pinkwart, N. Predicting MOOC dropout over weeks using machine learning methods[C]. In Proceedings of the EMNLP Workshop on Modeling Large Scale Social Interaction in Massively Open Online Courses. 2014.
[13] Taylor, C. Veeramachaneni, K. and OReilly, U.-M. 2014. Likely to stop? predicting stopout in massive open online courses[J]. Eprint arXiv. 2014.
[14] Willams J J, Williams B. Using interventions to improve online learning [C]. NIPS workshop on data driven education, 2013.
[15] Willams J J, Improving Learning in MOOCs by Applying Cognitive Science[C] Paper presented at the MOOCshop Workshop, International Conference on Artificial Intelligence in Education, Memphis, TN.
[16] Williams, J. J., Paunesku, D., Haley, B., & Sohl-Dickstein, J.. Measurably Increasing Motivation in MOOCs[C]. Talk presented at the MOOC shop Workshop, International Conference on Artificial Intelligence in Education, Memphis, TN. 2013.
[17] He. J., Bailey J., Rubinstein Zhang R., Identifying at risk students in massive open online courses[C] Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.
[18] DeBoer, J. Stump, G. Seaton, D. and Breslow, L. Diversity in MOOC students backgrounds and behaviors in relationship to performance in 6.002 x[C]. In Proceedings of the Sixth Learning International Networks Consortium Conference.2013.
[19] Yang, D., Wen, M., and Rose, C. Peer influence on attrition in massive open online courses[C]. Proceedings of Educational Data Mining. 2014.
[20] Wen, M.; Yang, D.; and Rose, C. P. Sentiment analysis'in MOOC discussion forums: What does it tell us? [C]. Proceedings of Educational Data Mining. 2014.
收稿日期:2015-11-23
定稿日期:2016-01-31
作者簡介:賀超凱,南京郵電大學計算機學院(210003)。
吳蒙,南京郵電大學通信與信息工程學院(210003)。
責任編輯 韓世梅