MOOC學習結(jié)果預測指標探索與學習群體特征分析

2017-05-30 10:48牟智佳武法提

現(xiàn)代遠程教育研究 2017年3期

牟智佳武法提

摘要：高輟學率與低參與度是MOOC面臨的一個主要問題。根據(jù)學習結(jié)果預測，及時開展有效的教學干預是改善此問題的途徑之一。當前基于MOOC學習行為數(shù)據(jù)進行結(jié)果預測主要以次數(shù)分析為主，較少探索其他行為指標；在預測算法上以回歸分析為主，缺少不同預測算法效果的比較分析。以edX平臺上一門MOOC課程的學習行為數(shù)據(jù)為研究對象進行的探索研究發(fā)現(xiàn)：學習結(jié)果預測的主要參照行為指標組合為視頻學習次數(shù)、文本學習次數(shù)、評價參與時長、評價參與次數(shù)和論壇主題發(fā)起數(shù)；學習次數(shù)的預測效果要好于學習時長，并與學習時長和學習次數(shù)結(jié)合后的預測效果接近； BP神經(jīng)網(wǎng)絡預測準確率要優(yōu)于決策樹和樸素貝葉斯網(wǎng)絡，且預測準確率與樣本數(shù)量呈正相關(guān)；而在課程學習模塊的預測比較上，評價模塊和文本模塊的學習行為數(shù)據(jù)預測率較高，互動模塊預測率最低。研究還發(fā)現(xiàn)，MOOC學習群體包含三類，分別是以視頻學習和學習評價為主、以互動交流為輔的學習群體；以視頻學習和文本學習為主、以評價參與為輔的學習群體，以及以文本學習和學習評價為主、以互動交流為輔的學習群體。

關(guān)鍵詞：MOOC；學習行為數(shù)據(jù)；學習結(jié)果預測；預測指標；學習群體特征

中圖分類號：G434 文獻標識碼：A 文章編號：1009-5195（2017）03-0058-10 doi10.3969/j.issn.1009-5195.2017.03.008

一、研究緣起

當前國內(nèi)外越來越多的高校參與MOOC課程建設并發(fā)布各自的特色課程，學習者在課程內(nèi)容上有了更多的選擇權(quán)，但高輟學率和低參與度仍是當前MOOC課程所面臨的一個主要問題（Hew et al.，2014）。而基于學習者前期和中期的課程學習行為數(shù)據(jù)進行學習結(jié)果預測，并依據(jù)分析結(jié)果調(diào)整教學策略和教學內(nèi)容以開展有效的教學干預，可以改善學習參與度和學習結(jié)果。與此同時，學習分析研究已經(jīng)由初期的理論探討逐步走向?qū)嵺`探索和成果轉(zhuǎn)化。在學習分析研究中，基于學習行為數(shù)據(jù)進行學習結(jié)果預測是學習分析和教育數(shù)據(jù)挖掘研究學術(shù)群體中關(guān)注的一項重要議題（Li?án et al.，2015）。而在數(shù)據(jù)的選擇上，學習分析研究正從關(guān)注大數(shù)據(jù)轉(zhuǎn)向有意義數(shù)據(jù)的探索（Merceron et al.，2016）。如何抓取到學習活動信息流中的關(guān)鍵行為數(shù)據(jù)并解析出學習者的個性學習行為特征是今后研究中要解決的一個問題（U.S. Department of Education，2015）。MOOC廣泛的學習參與群體和多樣化的學習行為數(shù)據(jù)使其成為學習分析研究的一個重要對象。如何基于MOOC學習行為數(shù)據(jù)有效預測學生的學習結(jié)果，并依據(jù)學習群體特征提供差異化的學習服務以改善學習參與度成為亟待解決的問題。本研究基于edX平臺的一門MOOC課程學習行為數(shù)據(jù)，探索能夠有效預測學習結(jié)果的數(shù)據(jù)類型和行為指標，并分析學生的群體學習特征，為學習結(jié)果預測分析和教學干預提供指導和參照。

二、文獻綜述

國內(nèi)關(guān)于MOOC學習行為研究主要集中在學習行為影響因素分析、基于學習行為數(shù)據(jù)分析學習效果、學習成績預測、學習行為評價等方面。比較有代表性的研究有：賈積有等以Coursera平臺上的6門北京大學MOOC課程學習行為數(shù)據(jù)為分析對象，探索在線時間、觀看視頻和網(wǎng)頁次數(shù)、瀏覽和下載講義次數(shù)、論壇發(fā)帖數(shù)與學習成績之間的關(guān)系（賈積有等，2014）。李曼麗等以“學堂在線”平臺的“電路原理”課程數(shù)據(jù)為基礎，對MOOC學習者的課程學習動機、課程參與度、課程注冊時間與課程完成度等進行分析（李曼麗等，2015）。郝巧龍等用Clementine 構(gòu)建MOOC 成績預測，并依托智慧樹平臺“數(shù)據(jù)結(jié)構(gòu)”課程的行為數(shù)據(jù)通過回歸分析驗證模型的有效性（郝巧龍等，2016）。

國外關(guān)于MOOC學習行為的研究包括MOOC學習成敗和保留率的影響因素分析、學習動機和學習行為對MOOC完成度的影響、學習表現(xiàn)預測研究、學習情境在MOOC學習中的重要性分析等。如：Laxmisha Rai等從學習者角色、個人支持和人為干預、高困難度和自我動機、學習環(huán)境、職業(yè)需求、教師和學校聲望、實時反饋等方面分析了MOOC學習成敗的因素（Rai et al.，2016）。Bart Pursel等基于MOOC學習者的人口學數(shù)據(jù)、學習行為和課程互動數(shù)據(jù)，采用邏輯斯回歸分析探索這些數(shù)據(jù)變量如何表征課程完成度（Pursel et al.，2016）。Paula Barba等以Coursera平臺上的“宏觀經(jīng)濟學”課程學習者為研究對象，分析以個人興趣、掌握方法目標與應用價值為主的學習動機和以視頻點擊與測評提交數(shù)為測量方式的學習參與在學習表現(xiàn)預測上的重要性（Barba et al.，2016）。在學習者參與MOOC學習的數(shù)量變化上，研究表明第一周課程教學之后，學習者參與的數(shù)量會急劇下降（Hill，2013），因此Suhang Jiang等研究者以學習者第一周的MOOC課程作業(yè)表現(xiàn)和社交互動數(shù)據(jù)為分析對象，并使用邏輯斯回歸作為分類器，預測學習者獲得課程證書的概率（Jiang et al.，2014）。

從國內(nèi)外已有研究可以看出，研究者已經(jīng)基于MOOC常見的學習行為數(shù)據(jù)進行學習成效分析，探索課程學習成敗的內(nèi)在和外在因素，并對學習者最終學習表現(xiàn)進行預測。然而，在數(shù)據(jù)分析和預測上還存在以下幾方面的不足：（1）學習行為數(shù)據(jù)中以次數(shù)分析為主，應用時間分析較少，兩者之間未統(tǒng)一在一個學習分析層面上，對于各自的預測效果還尚不清晰；（2）在預測算法上以回歸分析為主，而采用機器學習模式的預測方法較少，且缺少不同預測算法效果的比較分析；（3）對有效預測學習結(jié)果的行為指標探索較少，學習行為數(shù)據(jù)較多，需要找到反映學習結(jié)果的關(guān)鍵行為指標為學習分析提供參照。針對上述問題，本研究以MOOC課程學習模塊為分類依據(jù)，以學習行為數(shù)據(jù)指標為中心，探索學習時長和學習次數(shù)的預測效果、課程學習模塊的預測效果、有效學習結(jié)果預測指標的提取及其計算方程、學習者的群體學習行為特征等內(nèi)容，試圖為基于MOOC的學習行為分析和教學設計提供有益的啟示。

三、研究設計

1.研究問題

當前MOOC平臺能夠記錄學習者的鼠標點擊流數(shù)據(jù)，而在這些數(shù)據(jù)中時長和次數(shù)是兩項重要的數(shù)據(jù)類型?；趯W習過程行為數(shù)據(jù)探索能夠反映學習結(jié)果的有效數(shù)據(jù)類型，分析指標和群體行為特征有助于開展針對性的學習干預，改善學習者參與度并降低輟學率。因此，本研究的問題包括以下三方面：（1）在學習行為數(shù)據(jù)中，學習時長和學習次數(shù)統(tǒng)計哪種方式更能較為準確地預測學習結(jié)果？哪類課程學習模塊數(shù)據(jù)預測效果較好？（2）各類學習行為數(shù)據(jù)與學習結(jié)果有怎樣的相關(guān)性？哪些行為指標能夠較好地預測學習結(jié)果？基于有效學習指標如何得出可計算的學習結(jié)果預測計算方程？（3）在課程內(nèi)容學習上，學習者可以分為哪幾類學習群體？這些群體表現(xiàn)出怎樣的學習行為特征？

2.研究樣本與方法

研究選取edX上的一門MOOC課程“Introduction to Engineering and Engineering Mathematics”為研究對象。該課程是由University of Texas at Arlington大學工程學院Pranesh B. Aswath教授發(fā)起，由Alan Bowling、Panos Shiakolas、William E. Dillon、R. Stephen Gibbs等研究者參與講授的一門工程類基礎專業(yè)課程。該課程于2015年5月12號在edX平臺上線發(fā)布，并于同年8月10號結(jié)束授課，課程持續(xù)14周。該課程的設計目標是為高中學生和大學新生提供工程領域的梗概，以幫助他們在工程學上決策自己的職業(yè)生涯。課程授課語言是英語，免費向世界范圍內(nèi)學習者開放。課程成績評價方式包括每周練習測驗（占總成績40%）、課后作業(yè)（占總成績40%）、綜合期末考試（占總成績20%）。練習測驗主要是選擇題，由系統(tǒng)平臺自動評閱打分，課后作業(yè)和綜合期末作業(yè)由同伴互評和教師評閱打分確定。在課程數(shù)據(jù)的使用權(quán)上，已獲得University of Texas at Arlington機構(gòu)審核委員會（Institutional Review Board，IRB）的使用批準和課程負責人授權(quán)，準許使用剔除學生個人信息的數(shù)據(jù)。

在數(shù)據(jù)選取上，研究基于edX平臺上記錄的鼠標點擊流數(shù)據(jù)抽取與行為分析指標有關(guān)的時長和次數(shù)統(tǒng)計數(shù)據(jù)。由于平臺上涵蓋微視頻、文本學習材料、互動論壇、學習評價等學習模塊和材料，因此學習者的行為活動數(shù)據(jù)也涉及上述學習活動模塊。而在學習行為數(shù)據(jù)上除時長和次數(shù)等較為常見數(shù)據(jù)外，還有倍速播放、跳幀觀看、停留軌跡等信息。這些數(shù)據(jù)是學習者為獲取所需知識和理解內(nèi)容產(chǎn)生的附屬行為，反映的是學習風格和學習偏好行為特征，其對學習結(jié)果是否產(chǎn)生普遍影響尚不確定。此外，這些數(shù)據(jù)在量化計算上缺少統(tǒng)一標準，因此暫不納入預測分析指標中。綜上所述，提取的學習行為指標包括視頻學習時長（VD）、視頻學習次數(shù)（VF）、文本學習時長（TD）、文本學習次數(shù)（TF）、互動參與時長（ID）、互動參與次數(shù)（IF）、評價參與時長（ED）、評價參與次數(shù)（EF）、論壇發(fā)帖數(shù)（PC）、主題發(fā)起數(shù)（TC）、回復數(shù)（RC）、點贊數(shù)（VF）等。在數(shù)據(jù)預處理上，研究者對學習時長設定一個閾值，即超過該閾值的被認定為離開學習任務，處于非學習狀態(tài)。設定該值的原因是考慮到學習者在網(wǎng)絡學習中的認知行為習慣，即在某一具體知識點中通常不會較長時間一直停留不動，而學習時間較長可能是由于學習者離開學習任務進行其他網(wǎng)絡活動以及學習者關(guān)掉瀏覽器但未注銷賬號造成。在時間閾值設定和估計上，Grabe和Sigler使用多種啟發(fā)式探索進行時間估計，所有超過3分鐘的學習行為時間將被替換成2分鐘，在選擇題的操作行為時間上最高設定為90秒，每一個模塊最后活動時間被估計成60秒（Grabe et al.，2002）。Ryan Baker將超過80秒的活動時間認定為脫離活動行為時間（Baker，2007）。Vitomir Kovanovic等通過對不同時間估計進行對比分析，認為短時間的時間估計和閾值設定對分析結(jié)果并沒有產(chǎn)生顯著影響，反而會對長時間學習者的活動行為分析進行干擾，進而影響分析結(jié)果；通過實際對比分析發(fā)現(xiàn)將單周模塊時間估計閾值設定為1800秒可以在不影響分析結(jié)果的前提下盡可能還原學習者的行為狀態(tài)，發(fā)現(xiàn)學習者之間的行為差異（Kovanovi? et al.，2015）。因此，本研究將每周模塊學習行為時間閾值設定為1800秒，超過該時間的學習活動時間將被替換。

在有效數(shù)據(jù)的提取上，研究采用兩種方式采集數(shù)據(jù)樣本：一是選取實際參與學習模塊的學習者行為數(shù)據(jù)，剔除在各項學習活動中數(shù)據(jù)均為0的樣本，最終獲得8804條大樣本數(shù)據(jù)；二是選取各個學習模塊中均有學習者參與活動的數(shù)據(jù)樣本，獲得1631條小樣本數(shù)據(jù)。通過大小樣本數(shù)據(jù)的分析，比較不同預測算法的準確率。在研究方法上，分別采用預測分類算法、屬性選擇、多元回歸分析和聚類方法對數(shù)據(jù)進行分析。其中預測分類算法用于分析學習時長和學習次數(shù)在學習結(jié)果上的預測準確率；屬性選擇用于選取能夠預測學習結(jié)果的有效學習行為分析指標；多元回歸分析用于計算有效學習行為指標與學習結(jié)果之間的回歸系數(shù)；聚類分析用于探索學習者的群體行為特征。在研究工具上，選擇機器學習分析工具Weka，采用有監(jiān)督學習方式對數(shù)據(jù)集進行預測分析；SPSS對數(shù)據(jù)樣本進行顯著性差異分析和多元回歸分析。

3.研究過程

整個研究過程包括以下6步：（1）采用R工具對edX平臺上記錄的原始數(shù)據(jù)進行格式化，并提取不同學習模塊中的學習時長、學習次數(shù)和論壇互動數(shù)。（2）對每周課程內(nèi)容的學習時長進行處理，超過設定閾值的樣本數(shù)據(jù)將被替換成1800秒，最后統(tǒng)計學習者的學習時長總和。（3）選擇決策樹、樸素貝葉斯網(wǎng)絡和BP神經(jīng)網(wǎng)絡等三種具有代表性的預測分類算法，比較學習時長和學習次數(shù)在學習結(jié)果預測上的準確率，并分析不同預測分類算法的效果；在此基礎上分析不同學習模塊在學習結(jié)果預測上的效果。（4）采用屬性選擇，分析不同學習行為分析指標在學習結(jié)果預測上的權(quán)重順序以及準確預測學習結(jié)果的有效指標組合。（5）采用多元回歸分析有效學習結(jié)果預測指標的回歸系數(shù)，并生成學習結(jié)果預測計算方程。（6）采用聚類方法分析學習行為的群體特征，探索不同群組學生的學習表現(xiàn)和行為特征。

四、研究結(jié)果分析

1.學習時長與學習次數(shù)的預測比較

如前所述，學習時長和學習次數(shù)是MOOC學習行為活動中的兩種主要數(shù)據(jù)類型，本部分主要分析哪種數(shù)據(jù)類型更能有效預測學習結(jié)果以及不同預測分類算法的預測效果。在學習結(jié)果的評判上，由于預測分析算法是以標稱型屬性作為預測的類別變量，因此這里以學習者是否獲得課程證書作為最終成績判定。在樣本均值的差異比較上，因時長數(shù)值遠高于次數(shù)值，故這里不作兩種類型指標的顯著性差異分析。為了了解不同數(shù)據(jù)類型獨立和綜合預測效果，在分析學習時長和次數(shù)的預測準確率時，對所有行為指標進行分析以作為參照，預測評估策略選擇十折交叉驗證，分析結(jié)果見表1。預測準確率的誤差通過均方根誤差值（Root Mean Squared Error，RMSE）來評判。該值通過樣本離散程度來反映預測的精密度，其值越小表示測量精度越高。在預測準確率上，大樣本預測值要高于小樣本預測值，說明預測準確率與樣本數(shù)量呈正相關(guān)，各指標的RMSE值介于0.0740～0.1608，測量精度較高。在數(shù)據(jù)類型的預測準確度上，學習次數(shù)的預測效果要好于學習時長，特別是在小樣本分析條件下，平均預測準確率較高，且RMSE值較低。學習時長和學習次數(shù)的整體預測效果與學習次數(shù)較為接近。在預測分析算法的比較上，盡管小樣本分析條件下樸素貝葉斯網(wǎng)絡在學習時長的預測準確率要高于決策樹，但整體而言BP神經(jīng)網(wǎng)絡預測準確率最高，決策樹的預測效果要好于樸素貝葉斯網(wǎng)絡。

2.課程學習模塊的預測比較分析

MOOC教學設計者為學習者提供了不同類型的學習材料和支持服務。為了了解不同學習模塊在學習結(jié)果預測上的效果，研究按學習者參與的活動模塊劃分學習行為數(shù)據(jù)。由于不同模塊中涵蓋的指標類型數(shù)據(jù)一樣，因此在進行預測分析之前需要檢驗各模塊樣本數(shù)據(jù)之間是否存在顯著性差異。通過對大樣本的均值統(tǒng)計分析可知，各模塊均值由高到低排序為文本、視頻、評價和互動，而小樣本均值排序為文本、評價、視頻和互動。在顯著性差異比較上，采用相依樣本t檢驗對不同樣本量下的模塊變量進行分析，結(jié)果見表2。在大樣本分析情境下，各模塊變量差異的95%置信區(qū)間未包含0這個數(shù)值，應拒絕虛無假設H1：μ1=μ2，接受對立假設H0：μ1≠μ2，且顯著性檢驗概率值p<0.05，表示模塊之間有顯著性差異存在。在小樣本分析情境下，文本模塊和評價模塊的置信區(qū)間涵蓋0，顯著性檢驗概率值p=0.110>0.05，表示兩者之間無顯著性差異存在。整體而言，除小樣本中的文本和評價模塊無顯著性差異之外，各模塊變量均有顯著性差異，適合對其進行學習結(jié)果預測分析。

在預測算法選擇上，由于BP神經(jīng)網(wǎng)絡算法的學習速度較慢且訓練失敗的可能性較大，基于前面比較分析結(jié)果采用決策樹作為預測分析算法，分析結(jié)果見表3。在整體預測準確率上，大樣本要高于小樣本數(shù)據(jù)，這一結(jié)果與前面分析一致。在大樣本分析條件下，盡管各學習模塊之間的預測準確率相近，區(qū)分度較低，但評價模塊和文本模塊的學習行為數(shù)據(jù)預測率較高，互動模塊預測率最低。在小樣本分析條件下，各模塊的預測準確率區(qū)分度較大，從數(shù)值大小對比上，預測準確率順序與大樣本一致。在RMSE值上，評價和文本模塊均低于其他模塊，說明測量精度較高。可以看出，盡管視頻是MOOC網(wǎng)絡學習平臺中的重要學習材料，但視頻學習并不是最能有效預測學習結(jié)果的模塊，評價模塊和文本模塊能夠較好地預測學習結(jié)果。從知識建構(gòu)視角看，視頻學習側(cè)重知識傳遞，文本學習和學習評價側(cè)重學習者的知識內(nèi)化，而學習結(jié)果測量的是學習者課程知識內(nèi)化的程度（Pr?itz，2010）。

3.學習結(jié)果預測指標的權(quán)重與有效組合分析

（1）學習結(jié)果預測指標的權(quán)重分析

盡管學習行為活動數(shù)據(jù)有多種類型，但每種行為數(shù)據(jù)在學習結(jié)果上的預測重要程度可能存在差異。我們采用屬性排名方法對所有學習行為數(shù)據(jù)進行權(quán)重分析，以驗證學習行為指標在預測貢獻上的差異性。學習行為數(shù)據(jù)包括學習活動時長、次數(shù)以及論壇互動數(shù)在內(nèi)的12項數(shù)據(jù)，評估器和搜索方法分別是InfoGainAttributeEval和Ranker，分析結(jié)果見表4。在指標權(quán)重排序上，大樣本和小樣本的排序結(jié)果基本一致，僅在視頻學習次數(shù)與文本學習次數(shù)、主題發(fā)起數(shù)和回復數(shù)兩方面有所交換，評價參與次數(shù)、文本學習次數(shù)和評價參與時長是兩種樣本數(shù)據(jù)下認定的共同重要指標。從兩種樣本數(shù)據(jù)的權(quán)重比例上看，參與評價、文本學習和視頻學習所占的權(quán)重比例較高，說明學習者側(cè)重知識內(nèi)容學習和課程評價，參與互動交流較少。

（2）學習結(jié)果預測指標的有效組合分析

前面分析的學習行為指標權(quán)重結(jié)果說明了各指標在學習結(jié)果預測上的貢獻度存在差異。在屬性組合分析上，有過濾器和包裝方法兩種方式。前者用低計算開銷的啟發(fā)式方法衡量屬性子集的質(zhì)量；后者通過構(gòu)建和評估實際的分類模型來衡量屬性子集的質(zhì)量，計算開銷大但分析性能較好。這里將應用這兩種分析方式對指標進行評估。為了進一步驗證篩選后的指標是否提高預測準確率，在進行屬性組合分析之后采用決策樹預測分類算法對不同屬性子集進行預測分析。在樣本數(shù)和屬性子集比較上，同樣采用大小樣本和全集進行對比參照分析，各項結(jié)果見表5。

在大樣本分析條件下，采用CfsSubsetEval評估器和GreedyStepwise搜索方法，得到評價參與次數(shù)（EF）和發(fā)帖數(shù)（PC）兩個有效行為分析指標組合。采用WrapperSubsetEval評估器和Bestfirst搜索方法得到視頻學習次數(shù)（VF）、文本學習次數(shù)（TF）、評價參與時長（ED）、評價參與次數(shù)（EF）、主題發(fā)起數(shù)（TC）等有效指標組合。在小樣本分析條件下，分別采用上述兩種方式得到評價參與次數(shù)（EF）和主題發(fā)起數(shù)（TC）組合以及文本學習次數(shù)（TF）、評價參與時長（ED）、評價參與次數(shù)（EF）與回復數(shù)（RC）組合。在評估器類型的比較分析結(jié)果上，盡管兩種評估器所得到的子集組合存在個別差異，但分類組合結(jié)果數(shù)量和內(nèi)容比較接近。CfsSubsetEval評估器側(cè)重選擇與目標屬性相關(guān)性較強的屬性子集，同時篩選的子集之間無強相關(guān)性，而WrapperSubsetEval評估器綜合與目標屬性的相關(guān)性和篩選子集之間的關(guān)聯(lián)性進行分析，故篩選指標數(shù)量多于前者。在評估器的預測準確率上，包裝方法（WrapperSubsetEval評估器）在大小樣本條件下的預測效果均優(yōu)于過濾方法（CfsSubsetEval評估器），且篩選后的有效行為分析指標預測準確率要高于所有行為分析指標組合。因此，這里將WrapperSubsetEval評估器在大樣本分析條件下所得出的屬性子集作為預測學習結(jié)果的主要參照行為指標組合，即包括視頻學習次數(shù)、文本學習次數(shù)、評價參與時長、評價參與次數(shù)和論壇主題發(fā)起數(shù)。

4.有效學習結(jié)果預測指標的回歸方程模型分析

前面采用不同的樣本類型和分類器選取有效的學習結(jié)果預測指標，盡管篩選的屬性子集有所區(qū)別，但從內(nèi)容上能夠得出關(guān)鍵行為指標。為了進一步了解各有效組合指標與學習結(jié)果之間的回歸系數(shù)，以便于將學習結(jié)果的預測理論分析轉(zhuǎn)變成具有可操作性和可計算性的應用實踐，這里將基于有效指標組合與學習結(jié)果數(shù)據(jù)進行多元回歸分析。為使分析結(jié)果具有可遷移性和應用性，這里選取前面分析得出的有效組合指標作為分析依據(jù)，并使用學習成績作為學習結(jié)果評判依據(jù)。在回歸分析方法上，采用強迫進入變量法的解釋型回歸分析進行探索，分析結(jié)果見表6。由多元回歸系數(shù)可知，5個預測變量共同解釋學習結(jié)果變量65.4%的變異量。在顯著性分析上，由于預測變量是基于前面屬性選擇得出的有效行為指標，因此各變量均達到顯著性。在共線性統(tǒng)計量上，允差值愈接近于0，說明變量間有線性重合問題，而方差膨脹系數(shù)大于10時，則說明變量間有線性重合問題（吳明隆，2010）。上述5個變量的允差值介于0.1～0.5，方差膨脹系數(shù)均在5以下，未大于評價指標值10，說明進入回歸方程式的自變量間未存在明顯的多元共線性問題。在標準化回歸系數(shù)上，各值均為正數(shù)，說明其對學習結(jié)果的影響均為正向。從數(shù)值大小上看，β系數(shù)值越大，表示其對因變量有較高解釋力，其排列順序與前面指標權(quán)重分析結(jié)果大致相同。基于β系數(shù)值我們可以得出標準化回歸方程模型：學習結(jié)果=0.241×評價參與次數(shù)+0.146×評價參與時長+0.119×文本學習次數(shù)+0.043×視頻學習次數(shù)+0.036×主題發(fā)起數(shù)。依據(jù)該方程模型可以為實現(xiàn)MOOC平臺自動化預測學生的學習結(jié)果提供設計依據(jù)。

5.基于學習行為指標的學習群體特征分析

盡管參與MOOC學習的學生群體較多，但基于學習內(nèi)容習慣和偏好可以將其進行分類，為不同學習群體提供差異化的互動學習材料和實時反饋。這有助于提高學習者參與度（Freitas et al.，2015）。本部分將采用聚類方法對學習行為數(shù)據(jù)進行族群探索和分析。在樣本數(shù)上，采用大樣本分析以產(chǎn)生顯著差異的群體類別。在行為指標選擇上，為了全面了解學習行為偏好，將所有行為指標作為分析對象，學習成績采用數(shù)值型屬性進行分析。在聚類算法上，采用常用的K均值算法進行分析，該算法接受輸入值K，之后將數(shù)據(jù)劃分成指定個數(shù)的簇。形成簇的條件是同一簇中對象相似度較高，不同簇中對象相似度較低。為了找到合適的分類群體數(shù)量，這里通過設定不同簇個數(shù)探索分類數(shù)及其百分比，分析結(jié)果見表7?？梢钥闯?，當簇個數(shù)為4時，迭代次數(shù)第一次達到最大值，同時平方誤差值較低且比較穩(wěn)定。當簇個數(shù)大于4時，得到的分類數(shù)及其百分比之間存在相近的類別數(shù)，在解釋度上比較低。因此，選擇簇個數(shù)為4的聚類分析結(jié)果作為學習群體劃分的標準。

對學習行為指標進行聚類分析，結(jié)果見表8，各指標中的數(shù)值為平均值，其高低反映學習者的投入度。由于互動論壇中的發(fā)帖數(shù)、主題發(fā)起數(shù)、回復數(shù)、點贊數(shù)等數(shù)值遠低于時長和次數(shù)統(tǒng)計，因此在判斷互動論壇的投入度時采用相對評價方式，將時長、次數(shù)統(tǒng)計與互動論壇數(shù)統(tǒng)計分開比較，同時查看互動論壇數(shù)的相對值以了解學習群體參與度。由分析結(jié)果可知，聚類2和聚類4在學習模塊表現(xiàn)上較為相近，可將其合并為一種類型；聚類1和聚類3的互動參與時長和回復數(shù)相對其他兩類群體較高，因此可將其作為一個參照行為特征。基于上述分析，我們可以將學習群體分為以下三種類型：（1）以視頻學習和學習評價為主、以互動交流為輔的學習群體；（2）以視頻學習和文本學習為主、以評價參與為輔的學習群體；（3）以文本學習和學習評價為主、以互動交流為輔的學習群體?？梢钥闯?，不同的學習群體側(cè)重不同的學習模塊，視頻學習和學習評價是學習者主要參與的模塊，盡管有兩類群體參與互動交流，但僅將其作為輔助學習模塊，這些學習偏好在一定程度上反映了學習者不同的學習風格。從學習群體的成績表現(xiàn)來看，優(yōu)秀學習群體能夠積極參與視頻學習、文本學習、互動交流和學習評價，且積極參與互動交流的學習群體成績要高于參與互動交流較低的學習群體，這在一定程度上說明互動交流能夠支持學習者的知識建構(gòu)與內(nèi)化（Yap et al.，2010）。

五、研究結(jié)論

本研究以edX上的一門MOOC課程學習行為數(shù)據(jù)為分析對象，對不同數(shù)據(jù)類型、學習活動模塊、有效學習行為指標、學習群體特征等進行了探索分析，得出以下6方面的主要結(jié)論：（1）在學習結(jié)果預測的數(shù)據(jù)類型上，學習次數(shù)的預測效果要好于學習時長，并與學習時長和學習次數(shù)結(jié)合后的預測效果接近，因此，可通過觀察學習次數(shù)或綜合學習時長與次數(shù)來評測學習結(jié)果。（2）在預測算法的比較上，BP神經(jīng)網(wǎng)絡預測準確率要優(yōu)于決策樹和樸素貝葉斯網(wǎng)絡，但由于各算法在處理能力、噪聲容錯能力、計算量等方面存在差異，因此需依據(jù)不同的應用情境和樣本量選擇合適的算法分析。在數(shù)據(jù)樣本量的比較上，預測準確率與樣本數(shù)量呈正相關(guān)。（3）在課程學習模塊的預測比較上，評價模塊和文本模塊的學習行為數(shù)據(jù)預測率較高，互動模塊預測率最低。（4）在學習結(jié)果有效指標的組合分析上，綜合不同評估器和搜索方法的分析結(jié)果，視頻學習次數(shù)、文本學習次數(shù)、評價參與時長、評價參與次數(shù)、論壇主題發(fā)起數(shù)是預測學習結(jié)果的主要參照行為指標組合。（5）基于WrapperSubsetEval分類器得出的有效組合指標和多元回歸分析，得出標準化的學習結(jié)果預測回歸方程模型為：學習結(jié)果=0.241×評價參與次數(shù)+0.146×評價參與時長+0.119×文本學習次數(shù)+0.043×視頻學習次數(shù)+0.036×主題發(fā)起數(shù)。（6）基于K均值算法得出三種類型的學習活動群體：以視頻學習和學習評價為主，以互動交流為輔的學習群體；以視頻學習和文本學習為主、以評價參與為輔學習群體；以文本學習和學習評價為主、以互動交流為輔的學習群體。

六、研究局限與展望

本研究雖然基于MOOC學習行為基礎數(shù)據(jù)進行了學習結(jié)果預測的比較分析，探索了有效學習數(shù)據(jù)類型、學習行為指標組合、學習結(jié)果預測計算方程和群體學習特征，但還存在以下兩方面的不足：

（1）當前只應用一門edX上的MOOC課程數(shù)據(jù)進行分析，研究結(jié)論的信度有待進一步驗證。今后將選取不同MOOC學習平臺以及多學科課程數(shù)據(jù)作為分析對象進行橫向比較和驗證分析，探索不同課程學習數(shù)據(jù)在結(jié)果分析上是否有顯著差異，以提高研究結(jié)論的可靠性。

（2）本研究選取的學習行為數(shù)據(jù)指標還比較有限，而影響學習結(jié)果預測的因素比較復雜。今后將探索其他學習行為數(shù)據(jù)對學習結(jié)果預測的影響，如學生個人的人口學信息數(shù)據(jù)、學習情感數(shù)據(jù)等。通過綜合多種不同類型的學習活動行為數(shù)據(jù)進行學習結(jié)果預測分析，以找到反映學習結(jié)果的關(guān)鍵行為數(shù)據(jù)和學習行為特質(zhì)。

參考文獻：

[1]郝巧龍，魏振鋼，林喜軍（2016）.MOOC學習行為分析及成績預測方法研究[J].電子技術(shù)與軟件工程，（7）：167-168.

[2]賈積有，繆靜敏，汪瓊（2014）.MOOC學習行為及效果的大數(shù)據(jù)分析——以北大6門MOOC為例[J].工業(yè)和信息化教育，（9）：23-29.

[3]李曼麗，徐舜平，孫夢嫽（2015）.MOOC學習者課程學習行為分析——以“電路原理”課程為例[J].開放教育研究，（2）：63-69.

[4]吳明?。?010）.問卷統(tǒng)計分析實務——SPSS操作與應用[M].重慶：重慶大學出版社：390-391.

[5]Baker， R. S. J.（2007）. Modeling and Understanding Students' Off-Task Behavior in Intelligent Tutoring Systems[A]. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems[C]. New York： Association for Computing Machinery： 1059-1068.

[6]Barba， P. G， Kennedy， G. E.， & Ainley， M. D.（2016）. The Role of Students' Motivation and Participation in Predicting Performance in a MOOC Motivation and Participation in MOOCs[J]. Journal of Computer Assisted Learning， 32（3）：218-231.

[7]Freitas， S. I.， Morgan， J.， & Gibson， D.（2015）. Will MOOCs Transform Learning and Teaching in Higher Education？ Engagement and Course Retention in Online Learning Provision[J]. British Journal of Educational Technology， 46（3）： 455-471.

[8]Grabe， M.， & Sigler， E.（2002）. Studying Online： Evaluation of an Online Study Environment[J]. Computers & Education， 38（4）： 375-383.

[9]Hew， K. F.， & Cheung， W. S.（2014）. Students' and Instructors' Use of Massive Open Online Courses （MOOCs）： Motivations and Challenges[J]. Educational Research Review， 12（6）： 45-58.

[10]Hill， P.（2013）. Emerging Student Patterns in MOOCs： A Graphical View[DB/OL]. [2013-03-10]. http：//mfeldstein.com/erging-student-patterns-in-moocs-a-revised-graphical-view/.

[11]Jiang， S.， Warschauer， M.， & Williams， A. et al.（2014）. Predicting MOOC Performance with Week 1 Behavior [A]. Proceedings of the 7th International Conference on Educational Data Mining[C]. Worcester： Worcester Polytechnic Institute：273-275.

[12]Kovanovi?， V.， Ga?evi?， D.， & Dawson， S. et al.（2015）. Does Time-on-Task Estimation Matter？ Implications on Validity of Learning Analytics Findings[J]. Journal of Learning Analytics， 2（3）： 81-110.

[13]Li?án， L. C.， & Pérez， ?. A. J.（2015）. Educational Data Mining and Learning Analytics： Differences， Similarities， and Time Evolution[J]. International Journal of Educational Technology in Higher Education， 12（3）： 98-112.

[14]Merceron， A.， Blikstein， P.， & Siemens， G.（2016）. Learning Analytics： From Big Data to Meaningful Data[J]. Journal of Learning Analytics， 2（3）： 4-8.

[15]Pr?itz， T. S.（2010）. Learning Outcomes： What Are They？ Who Defines Them？ When and Where Are They Defined？[J]. Educational Assessment， Evaluation and Accountability， 22（2）： 119-137.

[16]Pursel， B. K.， Zhang， L.， & Jablokow， K. W. et al.（2016）. Understanding MOOC Students： Motivations and Behaviours Indicative of MOOC Completion[J]. Journal of Computer Assisted Learning， 32（3）： 202-217.

[17]Rai， L.， & Chunrao， D.（2016）. Influencing Factors of Success and Failure in MOOC and General Analysis of Learner Behavior[J]. International Journal of Information and Education Technology， 6（4）： 262-268.

[18]U.S. Department of Education（2015）. Ed Tech Developer's Guide[R].Washington， D.C.：64-65.

[19]Yap， K. C.， & Chia， K. P.（2010）. Knowledge Construction and Misconstruction： A Case Study Approach in Asynchronous Discussion Using Knowledge Construction Message Map （KCMM） and Knowledge Construction Message Graph （KCMG）[J]. Computers & Education， 55（4）： 1589-1613.

收稿日期 2017-01-03 責任編輯汪燕

現(xiàn)代遠程教育研究2017年3期

現(xiàn)代遠程教育研究的其它文章: 教育大數(shù)據(jù)的深度認知、實踐案例與趨勢展望; 實證研究怎么做：讓研究者困惑的地方; 智慧學習環(huán)境評估：評估什么和如何評估; 問“喬布斯之問”：以什么衡量教育信息化作用; 核心素養(yǎng)視角下的智慧教育體系構(gòu)建; 基于技術(shù)的教學：如何重新定位教師角色

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

MOOC學習結(jié)果預測指標探索與學習群體特征分析