王小越 賈積有
摘 要:本文應(yīng)用數(shù)據(jù)挖掘軟件Weka,對北京大學2015年在Coursera平臺上線的一門課程中學員的網(wǎng)上學習行為數(shù)據(jù)進行了相關(guān)分析。對全體學員和有學習成績的學員的學習行為分析結(jié)果均表明:學員的學習成績與課程網(wǎng)頁瀏覽次數(shù)、平時測驗總成績、論壇發(fā)帖數(shù)、論壇回帖得票呈正相關(guān)關(guān)系。對無學習成績的學員學習行為分析結(jié)果表明:他們的論壇討論參與度不高,不重視平時測驗。出現(xiàn)這個現(xiàn)象的原因可能是他們不關(guān)注考試成績和證書,只關(guān)注學習過程。基于以上數(shù)據(jù)挖掘結(jié)果,為了取得較好的教學效果,我們建議MOOC課程應(yīng)該積極引導學生參與論壇的發(fā)帖,重視課程網(wǎng)頁和課件的設(shè)計,同時可考慮改進平時測驗的內(nèi)容和方式,關(guān)注學習者的需求,以便引起學員注意,讓學員積極主動地完成測驗。
關(guān)鍵詞:Weka;學習成績;數(shù)據(jù)分析;MOOC
中圖分類號:G4文獻標志碼:A文章編號:2096-0069(2021)02-0068-07
收稿日期:2020-12-14
基金項目:江蘇開放大學(江蘇城市職業(yè)學院)“十三五”2020年度科研規(guī)劃課題“藝術(shù)設(shè)計類在線課程構(gòu)建模式研究”(2020-J-02)
作者簡介:王小越(1992— ),女,河北唐山人,助教、碩士,研究方向為學習科學與技術(shù)、學習分析、在線教育、藝術(shù)教育等;賈積有(1969— ),男,河南獲嘉人,北京大學教育學院教育技術(shù)系主任、教授、博士生導師、北京大學教育信息化國際研究中心主任,研究方向為教育技術(shù)學和人工智能教育應(yīng)用。
自2012年MOOC爆炸般地在國內(nèi)外紅火起來后,一批MOOC學習平臺相繼出現(xiàn)并迅猛發(fā)展起來,比如Udacity、Edx、Coursera、中國大學MOOC等等。Udacity平臺是于2011年由斯坦福大學的一個實驗室創(chuàng)辦,該平臺提供的在線課程以營利為目的;Edx平臺是于2012年1月由麻省理工學院和哈佛大學共同創(chuàng)辦的,致力于與全世界最好的大學合作,建設(shè)影響范圍廣且最著名的在線學習課程;Coursera平臺是于2012年7月由斯坦福大學的兩名計算機專家創(chuàng)立,致力于與全世界最頂尖的大學和機構(gòu)合作,提供免費的在線學習課程。這三大平臺目前保持著全球領(lǐng)先的地位,其中Coursera平臺作為全球MOOC第一大供應(yīng)商,其課程門類豐富,學習者注冊數(shù)量最多,遍布世界各地。
MOOC發(fā)展至今,學員注冊人數(shù)不斷增長,從幾百到幾十萬不等,但學員中斷學習現(xiàn)象依舊突出,真正完成學習并獲得結(jié)業(yè)證書的人數(shù)相對較少。因此,本文以北京大學2015年在Coursera平臺上線的一門課程(簡稱為A課程)為例,基于學校提供的課程后臺數(shù)據(jù),從學員在該課程中的網(wǎng)上學習行為包括發(fā)帖、作業(yè)、測試等方面入手,使用數(shù)據(jù)挖掘工具Weka分析影響學員學習成績的因素[1]。
一、數(shù)據(jù)處理及描述性統(tǒng)計分析
(一)課程注冊人數(shù)及及格率
該課程共有8019位學員注冊,去除授課教師、助教以及沒有參與任何學習活動的學員之后,剩余真正學員6167位,其中919位學員有學習成績(即grade>0),約占真正學員總?cè)藬?shù)的14.9%,5248位學員學習成績?yōu)?,約占真正學員總?cè)藬?shù)的85.1%。比照常規(guī)考試,將60分(含)作為及格的閾值[2],在919位學員中,達到60分以上的學員有280人,占有學習成績學員的30.47%,占真正學員總?cè)藬?shù)的4.54%。
(二)網(wǎng)上課程學習行為基本分析
表1列出了學習成績及11個網(wǎng)上學習行為因素的數(shù)值分布。學員人均次數(shù)指網(wǎng)上學習行為次數(shù)大于0的學員網(wǎng)上學習行為次數(shù)(或天數(shù)等)的平均值,所有真正學員人均次數(shù)指真正學員網(wǎng)上學習行為次數(shù)(包括次數(shù)為0的學員)的平均值。
表1顯示,在6167位學員中,所有學員均在完成課程注冊后反復登錄課程網(wǎng)站,即具有在線時間(最后一次登錄課程網(wǎng)站時間與注冊時間之差),所有學員平均在線時間為23.16天,但由于該時間為學員最后一次登錄課程網(wǎng)站時間與注冊時間之差,所以不能說明學員在這個時間內(nèi)一直在學習課程內(nèi)容;該課程的視頻有超過一半的學員進行了觀看,并且人均次數(shù)超過200次;瀏覽課程網(wǎng)頁可以獲取課程的相關(guān)信息,數(shù)據(jù)表明大部分學員都瀏覽了課程網(wǎng)頁,較積極地獲取課程動態(tài);所有學員均無平時作業(yè)成績,其原因可能是平時作業(yè)成績與最后成績不相關(guān);課件作為課程內(nèi)容的重要載體之一,因此多數(shù)學員查看或下載課件進行學習;平時測驗是階段性檢驗學員掌握課程知識的一種方式,但數(shù)據(jù)顯示只有較少學員獲得平時測驗總成績;課程論壇為學員提供了與其他學員、助教和教師交流的機會,實現(xiàn)知識探討和疑問解答,課程論壇分為發(fā)帖和回帖兩種形式,每種形式可獲得學員投票,得票為正表明學員贊同發(fā)帖或回帖,為負表示學員反對發(fā)帖或回帖,同時以論壇名聲來反映學員論壇總體表現(xiàn)[3],數(shù)據(jù)顯示只有少數(shù)學員參與課程論壇,并且也只有極少數(shù)參與論壇發(fā)帖或回帖的學員獲得了論壇名聲值。
本文按有無學習成績將學員分成兩類,為了進一步呈現(xiàn)上述學習成績和11個網(wǎng)上學習行為因素的分布情況,筆者對有學習成績的學員的各個網(wǎng)上學習行為數(shù)據(jù)用Weka軟件進行了可視化處理,發(fā)現(xiàn)學員在視頻觀看、課程網(wǎng)頁瀏覽、在線時間、查看和下載課件以及平時測驗總成績方面表現(xiàn)較為突出。所有學員均無平時作業(yè)成績,并且大部分學員未完成參與課程論壇的發(fā)帖和回帖活動,這也可能會影響學員網(wǎng)上學習行為及其學習成績。
二、影響學員學習成績因素的相關(guān)分析
為了探討網(wǎng)上學習行為的哪些行為因素會影響學員學習成績,筆者用數(shù)據(jù)挖掘軟件Weka對有學習成績的919位學員的學習成績影響因素進行了相關(guān)分析。本文首先采用Weka軟件中線性回歸算法對上述11個網(wǎng)上學習行為因素與學習成績的相關(guān)性進行了線性回歸分析,得到了如下線性回歸模型及結(jié)果:
學習成績 =0.0101×課程網(wǎng)頁瀏覽-0.0295×查看和下載課件+0.0880×平時測驗總成績+1.0159×論壇發(fā)帖次數(shù)-1.2422×論壇回帖次數(shù)+1.8896×論壇回帖得票-1.0238×論壇名聲-4.6210
根據(jù)回歸模型可知:在11個網(wǎng)上學習行為因素中,課程網(wǎng)頁瀏覽次數(shù)、查看和下載課件、平時測驗總成績、論壇發(fā)帖次數(shù)、論壇回帖次數(shù)、論壇回帖得票、論壇名聲7個因素與學習成績具有相關(guān)性,并且在這7個因素中,相比較而言,論壇發(fā)帖次數(shù)、論壇回帖次數(shù)、論壇回帖得票、論壇名聲與學習成績的相關(guān)性較高。另外,在這7個網(wǎng)上學習行為因素中,查看和下載課件、論壇回帖次數(shù)、論壇名聲與學習成績有負相關(guān)關(guān)系;課程網(wǎng)頁瀏覽、平時測驗總成績、論壇發(fā)帖次數(shù)、論壇回帖得票與學習成績有正相關(guān)關(guān)系。而其他指標因素與學員學習成績無關(guān)。
另外,多層感知算法結(jié)果顯示,相關(guān)系數(shù)為0.9604,相關(guān)性很高,平均絕對誤差為6.8566,均值平方根誤差為10.464,相對絕對誤差為20.1568%,相對平方根誤差為27.8099%,總體來說,各個評估指標因素的效果較好。
三、影響學員學習成績因素的神經(jīng)網(wǎng)絡(luò)分析
為了改進上面的結(jié)果,筆者又使用了Weka中神經(jīng)網(wǎng)絡(luò)方法中的多層感知算法,并將參數(shù)“l(fā)earning rate”設(shè)置為0.001,將“training time”設(shè)置為10000,得到了如圖1所示的神經(jīng)網(wǎng)絡(luò)圖和表2(見下頁)所示的分類統(tǒng)計模型表。
從圖1我們可以看出,通過Weka的多層感知算法,將11個網(wǎng)上學習行為因素按照不同的權(quán)重分成了6個神經(jīng)元節(jié)點,并且這6個神經(jīng)元節(jié)點又與學習成績這一神經(jīng)元節(jié)點相連。
筆者以表2(見下頁)分類統(tǒng)計模型表來進一步對圖1進行解釋,圖1中右側(cè)學習成績神經(jīng)元節(jié)點即為表2中的節(jié)點0(Node 0),節(jié)點0的極限值為0.482,其權(quán)重分布對應(yīng)的是左側(cè)的6個神經(jīng)元節(jié)點,即表2中的節(jié)點1、節(jié)點2、節(jié)點3、節(jié)點4、節(jié)點5、節(jié)點6,權(quán)重分別為0.735、0.725、-1.492、-0.486、-2.017、1.482。
同樣,在圖1中我們可以發(fā)現(xiàn),節(jié)點1、節(jié)點2、節(jié)點3、節(jié)點4、節(jié)點5、節(jié)點6的權(quán)重又分別對應(yīng)的是左側(cè)11個網(wǎng)上學習行為因素的權(quán)重,每個神經(jīng)元節(jié)點中11個網(wǎng)上學習行為因素的權(quán)重均在表2中呈現(xiàn)出來。
在多層感知算法中,相關(guān)系數(shù)為0.9773,平均絕對誤差為4.7928,均值平方根誤差為7.96,相對絕對誤差為14.0897%,相對平方根誤差為21.1551%,可見相關(guān)系數(shù)比線性回歸中的相關(guān)系數(shù)略有提高,并且其他各個評估指標值均有所下降,表明分類結(jié)果很好,結(jié)果也有了改善。
四、影響學員學習成績因素的聚類分析
聚類分析是把一個數(shù)據(jù)集合中相似的數(shù)據(jù)進行聚合分類處理,每個分類聚群我們稱其為一族[4]。筆者利用Weka軟件中EM(Expectation Maximization,期望最大)聚類算法對A課程中有學習成績的學員學習行為數(shù)據(jù)進行聚類分析。
EM算法是一種迭代算法, 每一次迭代都能保證似然函數(shù)值增加, 并且收斂到一個局部極大值[5]。通過運行Weka軟件得到的結(jié)果如表3所示。
EM聚類算法將學習成績聚成了兩族,標號分別為0和1。其中0族有599位學員的學習成績記錄,占有學習成績學員總?cè)藬?shù)的65%,1族有320位學員的學習成績記錄,占有學習成績學員總?cè)藬?shù)的35%。
表3呈現(xiàn)了所有指標因素在兩族中的均值和標準差。我們發(fā)現(xiàn),0族學員學習成績的均值僅為9.61分,1族學員學習成績的均值為77.77分,說明1族學員平均學習成績要遠遠高于0族學員平均學習成績。但是1族學員學習成績的標準差(26.28)要大于0族學員學習成績的標準差(9.95),表明1族學員學習成績離散程度較大,分布不均勻,相比較而言,0族學員學習成績分布較均衡,成績均較低。
表3也顯示平均學習成績較高的1族學員在線時間、視頻觀看、課程網(wǎng)頁瀏覽、查看和下載課件、平時測驗總成績、論壇發(fā)帖次數(shù)、論壇發(fā)帖得票、論壇回帖次數(shù)、論壇回帖得票、論壇名聲的均值均大于平均學習成績低的0族相應(yīng)的網(wǎng)上學習行為因素的均值,表明1族學員比0族學員在網(wǎng)上學習行為中的10個網(wǎng)上學習行為因素平均表現(xiàn)更為突出,這可能是導致1族學員平均學習成績高于0族學員平均學習成績的根本原因。除在線時間、平時作業(yè)成績外,1族學員在剩余9個網(wǎng)上學習行為因素的標準差均高于0族學員的標準差,說明1族學員比0族學員在這9個網(wǎng)上學習行為因素上表現(xiàn)差異更大(或次數(shù)、時長離散程度更大),分布更不均衡,這是導致1族學員內(nèi)部學習成績分布不均、過于離散的原因。另外,由于所有學員的平時作業(yè)成績均為0,所以0族和1族學員的這一網(wǎng)上學習行為相一致。
為了更好地分析兩族學員學習成績與網(wǎng)上學習行為表現(xiàn)的關(guān)系,筆者分別以11個網(wǎng)上學習行為因素為x軸,學習成績?yōu)閥軸,對網(wǎng)上學習行為因素和學習成績的關(guān)系進行了聚類可視化分析。
通過對在線時間-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),0族學員和1族學員在線時間分布均較為分散,但1族學員在線時間相對聚集,主要集中在104天左右,并且1族學員在線時間普遍大于0族學員,1族大部分學員的學習成績也普遍高于0族學員的學習成績,但在相同在線時間范圍內(nèi),0族存在少數(shù)學員的學習成績高于1族少數(shù)學員的學習成績的現(xiàn)象。
通過對視頻觀看-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),0族學員觀看視頻次數(shù)分布較為集中,并且大部分學員的學習成績較低;而1族中學員觀看視頻次數(shù)分布相對分散,并且在視頻觀看次數(shù)相同的情況下,不同學員學習成績有高有低,差距略大。另外,筆者還發(fā)現(xiàn),在1族中,即便有些學員觀看視頻的次數(shù)較少甚至為0,這些學員的學習成績也會較高,可能這些學員只想獲得較高分數(shù)和證書,并不想真正學習A課程的知識。
通過對課程網(wǎng)頁瀏覽-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),0族學員瀏覽課程網(wǎng)頁次數(shù)分布相對集中,并且大部分學員的學習成績較低;而1族學員瀏覽課程網(wǎng)頁次數(shù)分布相對離散。在瀏覽課程網(wǎng)頁次數(shù)一樣的情況下,1族學員的學習成績也會出現(xiàn)高低不同的情況,瀏覽課程網(wǎng)頁次數(shù)較少的學員也會有較高的學習成績,但從0族和1族瀏覽課程網(wǎng)頁次數(shù)與學習成績整體分布來看,瀏覽課程網(wǎng)頁次數(shù)越多,其學習成績可能越高。
通過對平時作業(yè)成績-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),無論0族學員還是1族學員平時作業(yè)成績均為0,但1族學員的學習成績普遍高于0族學員的學習成績,表明學員的學習成績與平時作業(yè)成績無關(guān)。
通過對查看和下載課件-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),0族學員查看和下載課件次數(shù)分布相對集中,且大部分學員學習成績較低;1族學員查看和下載課件次數(shù)分布相對分散。另外,在查看和下載課件次數(shù)相同的情況下,0族也存在少數(shù)學員學習成績較高,1族也有少數(shù)學員學習成績較低,但相對而言,1族中大部分學員的學習成績要比0族學員高。
通過對平時測驗總成績-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),雖然0族學員的平時測驗總成績與學習成績分布較為分散,但學員學習成績與平時測驗總成績之間的整體分布呈線性上升趨勢,即0族學員平時測驗總成績較高的話,那么其學習成績可能會相對較高;與0族相比,1族中學員的平時測驗總成績與學習成績分布的離散程度更大,但除少部分學員外,大部分學員的平時測驗總成績分布較為集中,學員平時測驗總成績與學習成績之間的整體分布也呈線性上升趨勢,也就是說,如果學員平時測驗總成績較高,那么其學習成績也可能會比較高(個例除外)。綜合0族和1族來看,學員的學習成績會因平時測驗總成績的增長而增長,也就是說,二者存在正相關(guān)性。這一點也印證了線性回歸中學習成績與平時測驗總成績有正線性相關(guān)關(guān)系的結(jié)論。
通過對論壇發(fā)帖次數(shù)-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),0族學員論壇發(fā)帖次數(shù)分布集中,主要聚集在發(fā)帖次數(shù)為0的范圍內(nèi),并且同一發(fā)帖次數(shù)的學員學習成績略有差距;1族學員論壇發(fā)帖次數(shù)分布相對分散,在論壇發(fā)帖次數(shù)一致的情況下,學員學習成績有高有低,有一定差距;學員論壇發(fā)帖次數(shù)較多的話,其學習成績可能會相對較高。
通過對論壇發(fā)帖得票-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),0族學員論壇發(fā)帖得票數(shù)呈一條直線(即幾乎所有0族學員論壇發(fā)帖得票數(shù)相同),但學員之間學習成績略有差距,以低于50分的居多;1族學員論壇發(fā)帖得票數(shù)分布相對離散,且獲得相同發(fā)帖得票的學員之間的學習成績差距較為明顯。
通過對論壇回帖次數(shù)-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),0族學員論壇回帖次數(shù)呈一條直線(即幾乎所有0族學員論壇回帖次數(shù)相同,均為0),但學員之間學習成績略有差距,以低于50分的居多;1族學員論壇回帖次數(shù)分布相對離散,且獲得相同發(fā)帖得票的學員的學習成績有高有低,差距較為明顯。另外,普遍而言,1族論壇回帖次數(shù)相對較多的學員學習成績沒有比回帖次數(shù)少的學員學習成績高,有些甚至較低。這符合線性回歸中學習成績與論壇回帖次數(shù)呈負線性相關(guān)關(guān)系的結(jié)論。
通過對論壇回帖得票-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),0族學員均未得到回帖投票,各個學員之間學習成績差異略大;1族學員大部分學員也未得到回帖投票,學員學習成績之間差距較大,并且獲得論壇回帖得票較多的學員的學習成績均不高。
通過對論壇名聲-學習成績進行聚類可視化分析,可以發(fā)現(xiàn),0族學員論壇名聲均為0,學習成績略有差距;而1族學員論壇名聲分布較離散、有高有低,且大部分學員的論壇名聲為0,學員的學習成績也存在差距;并且論壇名聲大于0的學員的學習成績并沒有都很高,有些甚至較低。
五、對所有學員學習成績影響因素的相關(guān)分析
以上內(nèi)容均是針對A課程中有學習成績的學員的分析,接下來筆者對所有學員學習成績影響因素用Weka軟件進行了相關(guān)分析,得到了線性回歸模型如下:學習成績=-0.0003×視頻觀看+0.0167×課程網(wǎng)頁瀏覽-0.0311×查看和下載課件+0.0765×平時測驗總成績+1.3311×論壇發(fā)帖次數(shù)-0.4871×論壇發(fā)帖得票-1.1739×論壇回帖次數(shù)+2.2637×論壇回帖得票- 0.9755×論壇名聲-0.6222。
我們發(fā)現(xiàn)所有學員的學習成績與視頻觀看次數(shù)、課程網(wǎng)頁瀏覽次數(shù)、查看和下載課件次數(shù)、平時測驗總成績、論壇發(fā)帖次數(shù)、論壇發(fā)帖得票、論壇回帖次數(shù)、論壇回帖得票、論壇名聲具有相關(guān)性,并且相比較而言,學習成績與論壇發(fā)帖次數(shù)、論壇發(fā)帖得票、論壇回帖次數(shù)、論壇回帖得票、論壇名聲相關(guān)性更大一些,表明學員參與課程論壇的網(wǎng)上學習活動行為對其學習成績的影響較大。另外,在這些相關(guān)因素中,學習成績與視頻觀看次數(shù)、查看和下載課件次數(shù)、論壇發(fā)帖得票、論壇回帖次數(shù)、論壇名聲呈負相關(guān),與課程網(wǎng)頁瀏覽次數(shù)、平時測驗總成績、論壇發(fā)帖次數(shù)、論壇回帖得票呈正相關(guān)。
另外,多層感知算法結(jié)果顯示,相關(guān)系數(shù)為0.9614,平均絕對誤差為2.1976,均值平方根誤差為5.276,相對絕對誤差為24.2013%,相對平方根誤差為27.5007%。該結(jié)果表明對所有學員學習成績影響因素的線性回歸效果較好。
六、對無學習成績學員特征的分析
在對無學習成績學員數(shù)據(jù)分析時,發(fā)現(xiàn)5248名學員中僅有287名學員獲得平時測驗總成績,且超過三分之二的學員平時測驗總成績不超過100分(與平時測驗總成績1016分相差甚多)。在5248位學員中,只有1位學員參與論壇發(fā)帖22次、回帖1次,獲得發(fā)帖得票46次、回帖得票2次,論壇名聲值為16。除此之外,22位學員參與了論壇發(fā)帖,發(fā)帖次數(shù)以1次和2次居多,3位學員參與了1次論壇回帖,5位獲得1至4票發(fā)帖投票,4位獲得論壇名聲,值為1或2,綜合說明學員對論壇發(fā)帖、回帖、投票不積極,也不重視論壇名聲。另外,雖然大部分學員在線時間較長,平均在16天左右,且有不少學員觀看視頻或瀏覽課程網(wǎng)頁次數(shù)較多(有些學員二者均較多),但是仍沒有平時測驗成績和學習成績。出現(xiàn)這個現(xiàn)象的原因可能是這些學員學習MOOC課程并不是為了考試成績和課程證書。
七、結(jié)論
通過Weka軟件對A課程中學員網(wǎng)上學習行為數(shù)據(jù)的相關(guān)分析和聚類分析,筆者發(fā)現(xiàn),取得最后學習成績的學員的學習成績與課程網(wǎng)頁瀏覽次數(shù)、平時測驗總成績、論壇發(fā)帖次數(shù)、論壇回帖得票呈正相關(guān);所有學員的學習成績都與課程網(wǎng)頁瀏覽次數(shù)、平時測驗總成績、論壇發(fā)帖次數(shù)、論壇回帖得票呈正相關(guān)。
根據(jù)這些結(jié)論,筆者認為MOOC課程應(yīng)該積極引導學生參與論壇的發(fā)帖,重視課程網(wǎng)頁、課件的設(shè)計,同時還應(yīng)考慮重新設(shè)計或更改平時測驗的內(nèi)容、方式,以便引起學員注意,讓學員積極主動地完成測驗。另外,MOOC課程還需關(guān)注學習者的學習需求和特點,有針對性地給予學習者個性化的學習支持,幫助學習者獲得較好的學習成績。
[1][2][3]賈積有,繆靜敏,汪瓊.MOOC學習行為及效果的大數(shù)據(jù)分析:以北大6門MOOC為例[J].工業(yè)和信息化教育,2014(9):23-29.
[4]何昌霖.基于Weka平臺的數(shù)據(jù)挖掘技術(shù)在教學質(zhì)量分析中的應(yīng)用[D].南寧:廣西民族大學,2013.
[5]張杰,陽憲惠.多變量統(tǒng)計過程控制[M].北京:化學工業(yè)出版社,2000.
(責任編輯 孫興麗)
An Analysis of Influential Factors of MOOC LearnersAcademic Record Based on Weka
—A Case Study of a Curriculum of Peking University in the Network of Coursera
WANG Xiaoyue1,JIA Jiyou2
(1.School of Design,Jiangsu Open University,Nanjing,Jiangsu,China 210000;
2.Graduate School of Education,Peking University,Beijing,China 100871)
Abstract: With the application of data mining software Weka,this paper has done a correlation analysis to the trainees online learning behavior data of a course logged on the platform Coursera in Peking University in 2015.The results of the analysis of the learning behavior of all the trainees and the trainees with academic record all show that: trainees academic records and curriculum webpage browsing frequency,the normal test results,number of forum posts,forum response votes have positive correlation.The results of the analysis of learning behavior of trainees without the academic records show that: their participation degree of forum discussion is not high,and they do not pay attention to the normal tests.The reasons for such phenomenon could be that they do not focus on the examination performance and certificates,but on the learning process.Based on the above data mining results,we,in order to gain a better teaching effect,make a suggestion that MOOC curriculum should actively guide students to participate in the posting in the forum,focus on the design of curriculum webpage and courseware.At the same time,we should consider improving the contents and ways of normal tests,focus on the needs of learners,so as to arouse the attention of trainees and make the trainees complete the tests actively.
Key words:? Weka;academic record;data analysis;MOOC