彭 勃
(安徽醫(yī)科大學 公共基礎學院計算機系,合肥 230032)
?
基于EM聚類的Moodle平臺用戶分析
彭 勃
(安徽醫(yī)科大學 公共基礎學院計算機系,合肥 230032)
將EM聚類方法應用于在線學習平臺使用者的學習行為研究,由含有較低語義信息的數(shù)據(jù)得到的聚類簇進一步分析而得到較高語義層次的行為特征。結果有助于教師指導學生在使用平臺進行協(xié)作學習方面如何進行有效分組,進而提高在線課程的結業(yè)率。
教育數(shù)據(jù)挖掘;在線學習;Moodle
當前在開放和動態(tài)的學習環(huán)境中,有相當大比例的學生偏好較靈活的學習方式──在線學習,借此途徑他們可以將工作責任、家庭責任與學術追求三者達到最好的平衡。目前在線學習既有優(yōu)勢也有挑戰(zhàn),較之面對面的實體教室教學環(huán)境,在線學習存在著教師與學生之間巨大的時空差距,這已成為在線學習過程中的主要障礙。另一方面對于虛擬學習系統(tǒng)產生的海量數(shù)據(jù)的處理也使得教師若不依靠數(shù)據(jù)挖掘技術將難以承受。為了避免日復一日地檢查那些最終導致輟學或正在準備期末考試的差生的學習行為,對學生學習行為的監(jiān)控和引導是至關重要的工作。鑒于此,教師需要得到關于每個學生最新、可靠、概括性的和易解釋的信息。
教育數(shù)據(jù)挖掘[1](Eduacational Data Mining,EDM)是采用數(shù)據(jù)挖掘技術分析在線學習平臺交互數(shù)據(jù)進而對學生未來學習行為趨勢進行預測或對學生學習行為建模,發(fā)現(xiàn)不同的學習行為與學習結果之間的關聯(lián)等,使用EDM可以更好地理解學生和他們正在使用的在線學習平臺,實現(xiàn)真正意義上的個性化學習。
盡管EDM數(shù)據(jù)處理采用的步驟與DM在商業(yè)、基因測序等普通領域所采用的步驟并無太大差別,但EDM實際觀點是采用基于學生使用的數(shù)據(jù)來評估在線學習平臺,旨在潛在地提高教育質量、提高學習效率。
(一) EDM與MD主要區(qū)別
1.目標
數(shù)據(jù)挖掘在其每個應用領域的目標都各不相同。例如在商業(yè)領域主要的目標是增加利潤,這是明晰的,可用資金的數(shù)量、客戶的數(shù)量以及客戶的忠誠度來衡量。但是EDM既有應用研究目標,諸如如何改進學習過程、引導學生學習,又有理論研究目標,諸如如何達到對教育現(xiàn)象的深度理解。這些目標較為主觀,很難被量化并且需要其特殊的一套測量技術。
2.數(shù)據(jù)
在教育環(huán)境中有不同類型的數(shù)據(jù)可供數(shù)據(jù)挖掘。這些教育領域特定的數(shù)據(jù)具有其內在的語義信息,以及與其他數(shù)據(jù)相聯(lián)系和有意義的層次結構。例如在ITS[1](Intelligent Tutoring,智能教學系統(tǒng))和AEHS[1](Adaptive Educational Hypermedia System,自適應教育超媒體系統(tǒng))中使用的模型,代表了在圖形或分層結構中特定學科概念間的聯(lián)系(例如,一門課程安排包含了若干課文,每篇課文又包含若干概念即知識點);Q矩陣則展示了測試系統(tǒng)的項目與該測試欲評估的概念間的聯(lián)系。
3.技術
教育數(shù)據(jù)具有一些特殊特征需要以特別方式進行挖掘。盡管大部分傳統(tǒng)的DM技術可直接應用于教育數(shù)據(jù),但在部分場景下是不能直接使用的,必須加以改造以適應周邊一些特殊的教育問題。甚至也可以這么理解,特殊的教育問題只能用特殊的數(shù)據(jù)挖掘技術來解決。
(二) EDM主要應用領域[2]
1. 學生建模
學生建模是確定區(qū)分學生的各種不同的域,諸如:情緒、認知、領域知識、學習策略、學習成績、特點、偏好、技能、影響等。目的是將教師經驗與學生個體特殊的學習需求相適應。
2.學生行為建模
致力于刻畫學生學習行為是EDM方法優(yōu)先考慮的目標之一。在與學習系統(tǒng)交互中的各種不同行為特征是建模的關鍵,例如:查詢、請求幫助、協(xié)作意愿、訪問和響應的時間序列、把學習系統(tǒng)當作游戲的行為等。
3.學生績效建模
EDM方法最熱衷的目標之一是闡述和預測學生學習績效。有很多表征績效的指標可用于建模,諸如:效率、評價、成就、能力、在學習系統(tǒng)中持續(xù)學習的時間、正確率、缺陷率等。其目的是估算學習者學得如何,或是一個給定任務完成的程度如何,亦或是否達到明確目標,能否妥善應對特定的學習情況等。
4.學生評價
現(xiàn)有的CBES(Computer-Based Educational System,基于計算機的教育系統(tǒng))需要考慮的主要目標是對學習者領域知識的獲取、技能發(fā)展、所取得結果的監(jiān)控和評估。目的是通過靜態(tài)和動態(tài)的考試以及在線和離線的考核在細粒度級別上區(qū)分學生的熟練度。
5. 學生支持與反饋
在學生和學習系統(tǒng)交互的過程中,CBES所提供的學生支持對幫助學生提高績效和成就或者在改正其錯誤概念、修補知識漏洞和減少學習失誤方面是大有裨益的。這兩種效果可分別稱之為事前預防和事后補救。另外,大部分CBES應提供記錄學生反饋的功能,諸如建議、抱怨、訴求和評估等用戶體驗。
6. 課程的部署、領域知識構建、學習內容順序編排以及對教師的支持
課程部署是教師授課之前必要的基礎工作,為了開展課程項目,教師需要在創(chuàng)作、相關資料尋覓、改編以及內容難易順序編排方面投入大量的時間和精力。按照差異化教學范式,教師們需要參與課程定制和教學實踐,以幫助學習者獲得領域知識。此外課程項目內容代表了將要學習的領域知識和認知模型的知識組件以及需要訓練的技巧,兩者以序列模式提交給學生。更為重要的是,教師支持促進了原先由研究學者致力于執(zhí)行的一些普通工作的服務普及,諸如:學生學習行為監(jiān)控、教學內容搜索、協(xié)作以及教師建模等。
(三) EDM發(fā)展趨勢
EDM發(fā)展趨勢之一是作為當前各式各樣CBES中的一個標準整合模塊。另一趨勢是其在教學周期的三個階段都發(fā)揮作用。即授課教學前,根據(jù)學生水平積極提供支持服務以使學生盡快適應教學環(huán)境;在學生與系統(tǒng)交互階段,EDM獲取日志數(shù)據(jù)并解釋其意義,以便提供在CBES中被用來為客戶提供實時個性化服務的推薦。在課程結束后階段,EDM需對以下方面進行評估:提交的服務、取得的結果、用戶滿意度、所采用資源的實用性等。
Moodle[3-5]是一款廣泛使用的學習管理系統(tǒng),旨在促進信息共享以及課程參與者之間的信息交流,進而實現(xiàn)協(xié)作學習,是一個動態(tài)的、不斷更新的開源代碼系統(tǒng),可靈活定制更好適應學生需求的在線學習環(huán)境。
Moodle管理員角色負責管理虛擬教室課程和用戶(教師、學生等),這些用戶被賦予可訪問使用不同資源的權限許可。不同的角色可以看到的系統(tǒng)視圖并不完全一樣。其提供的學生與教師之間的交互功能有:通知、日程、作業(yè)、成績簿、內置郵件、投票、測驗等。其提供的學生與學生之間的交互功能有:聊天室、討論區(qū)、Wiki、內置郵件等。
EM是基于統(tǒng)計模型的聚類,使用混合模型建模[6],將數(shù)據(jù)看作從不同的概率分布得到的觀測值的集合,其概率分布為多元正態(tài)。
設實例數(shù)據(jù)集X={X1,X2,…,Xn}來自多變量混合模型
(1)
f(x1,…,xn,z1,…,zn|α,θ)
(2)
在這里若Zi=k,則Zki=1. 若Zi≠k,則Zki=0. log似然函數(shù)如下:
L(α,θ|x1,…xn,z1,…zn)
(3)
E-step(期望步):由于潛變量Zki未知,可由條件期望值E(Zki|xi;α,θ)代替。根據(jù)Baye's理論,有
(4)
(5)
可得到混合比例的修正方程式:
(6)
這樣含有C個獨立高斯分布的混合高斯模型密度函數(shù)如下:
(7)
參數(shù)θk由均值μk和協(xié)方差矩陣∑k構成,相關參數(shù)的更新公式如下:
(8)
(9)
綜上,高斯混合模型EM聚類算法如下:
(一) 數(shù)據(jù)采集與預處理
本文數(shù)據(jù)來源于某校Moodle醫(yī)學教育在線學習平臺積累的日志數(shù)據(jù)。在開設的課程中,教師布置了若干任務項目,主要通過論壇討論以及積極使用平臺其他服務功能進行伙伴協(xié)助的方式來完成。學生與教師的交互主要通過課程論壇和電子郵件完成,教師也經常訪問課程聊天室以了解學生課程學習中有何困難。
交互數(shù)據(jù)中有很多能反映協(xié)作學習行為的特征,通過對學生的問卷調查和訪談整理出包含6個具有較高區(qū)分度的特征變量集如表1所示,其中第1、2屬性表明學生是如何促進論壇區(qū)討論,后3個屬性是以話題(threads)數(shù)量來描述協(xié)作行為,表明學生在多大程度上參與討論的積極性。由于原始數(shù)據(jù)屬性是連續(xù)屬性,而數(shù)據(jù)挖掘算法只能處理離散屬性,因此須采用劃分區(qū)間的方法加以離散化。另外,將連續(xù)數(shù)值屬性離散化為范圍值(如low,medium,high)也為非專業(yè)人員提供了更易于理解的數(shù)據(jù)視角。
Weka[7]是一款基于Java的開源數(shù)據(jù)挖掘工具。本文已在Weka機器學習平臺上實現(xiàn)EM聚類算法。
(二) 聚類結果分析
圖1可看出簇1和簇4所代表的實例具有相似的行為,但其所包含的語義信息對于教師指導協(xié)作學習還是不夠的,教師應分析發(fā)現(xiàn)交互模式與反映在最終結業(yè)成績中的學習績效方面有何關聯(lián)。
表2中課程結業(yè)情況(結業(yè)/未結業(yè)),Pass表示該簇大部分實例完成了課程并結業(yè),Mixed表示該簇中實例完成結業(yè)與沒有結業(yè)(輟學)的數(shù)量比例持平,Fail表示該簇大部分實例沒有結業(yè)。
簇1所代表的學生的學習具有較高的協(xié)作性,并能幫助其他同學促進課程討論。在一些課程案例中能創(chuàng)建新的討論區(qū)或者能夠發(fā)表獨立見解。此類學生代表了理想的協(xié)作學習結果。簇2所代表的學生雖趨向于參與協(xié)作學習,但表現(xiàn)平平。這類學生需要激勵,教師應鼓勵這類學生更加努力,積極地參與課程的互動。
簇3所代表的是一些學習消極的學員。他們在學習方面往往不勞而獲,在小組內不知道如何工作或者缺乏團隊工作的上進心。教師須對此類學生更加關注,積極加以干預,監(jiān)督,使之努力投入課程學習。簇4所代表的學員雖積極發(fā)起討論,但并沒有太多的積極參與。這類學生大部分沒能完成課程學習,可能的主要情形是這類學生參與的討論互動與該課程不相干(離題)。
聚類分析結果將有助于教師指導學生在協(xié)作學習方面如何進行有效分組、分配角色。例如可將簇1的學生定為學習標桿、學習指導者,同樣可以考慮將學習消極的學員所在簇3加入簇1的學生,以達到以好促差的效果。這需要教師制定和應用特殊的教學策略。
[1] ROMERO C,VENTURA S.Educational Data Mining:A Review of the State of the Art[J]. IEEE,2010,40(6):601-618.
[2] PENA A A.Educational data mining:A survey and a data mining-based analysis of recent works[J]. Expert Systems with Applications,Elsevier,2014,(41):1432-1462.
[3] LARA J A,Lizcano D,et al.A system for knowledge discovery in e-learning environments within the European Higher Education Area-Appliccation to student data from Open University of Madrid,UDIMA[J].Computer & Education,Elsevier,2014(72):23-36.
[4] Mark B.在線、混合和遠程學習新常態(tài):梅西大學經驗[J].肖俊洪,譯.中國遠程教育,2013(11):27-36.
[5] 王咸偉,徐曉東,趙學孔,等.開源網絡教學管理系統(tǒng)的體系結構與選擇[J].現(xiàn)代遠距離教育,2013(2):59-65.
[6] TAN N,STEINBACH M.數(shù)據(jù)挖掘導論[M].北京:人民郵電出版社,2011:355-369.
[7] Waikato Environment for Knowledge Analysis(WEKA)3.6[EB/OL].(2013-10-21)[2014-07-11]. http://www.cs.waikato.ac.nz/ml/weka/downloading.html.
[責任編輯 李潛生]
MoodleUserAnalysisBasedonEMClusterMethod
PENG Bo
(Department of Computer, Anhui Medical University, Hefei 230032, China)
The EM algorithm is applied in the research of e-learning platform users' learning behaviors, clusters can be built from low level data with weak semantic information to further analysis of the behavior features of higher semantic level. The results can help instructors to group students in collaborative learning.Therefore, the qualified rate of online courses can be improved.
eduacational data mining;e-learning;moodle
2014-07-11
安徽省教育廳自然科學研究項目(項目編號:KJ2012A144)。
彭 勃(1969-),男,安徽舒城人,碩士,工程師。研究方向:教育數(shù)據(jù)挖掘。
TP319;G434
:A
:1008-6021(2014)04-0125-04