陳雯雯+夏一超
摘 要:大數(shù)據(jù)開啟了教育領(lǐng)域本質(zhì)上的變化和發(fā)展,一個大規(guī)模的生產(chǎn)、分享和應(yīng)用教育數(shù)據(jù)的時代正在開啟,而發(fā)掘數(shù)據(jù)價值、征服龐大教育數(shù)據(jù)的“武器”就是教育數(shù)據(jù)挖掘。本文通過文獻分析法,對國內(nèi)外文獻進行分析和綜述,首先對EDM進行概念界定和歷史溯源,比較EDM相關(guān)概念的區(qū)別和聯(lián)系,針對EDM作為大數(shù)據(jù)時代下的新技術(shù),對其研究、發(fā)展和應(yīng)用等方面進行了較系統(tǒng)的闡釋,最后總結(jié)了EDM目前面臨的挑戰(zhàn)和展望,以期對EDM進行全方位的闡述和梳理,并促進該領(lǐng)域在中國的深入研究。
關(guān)鍵詞:教育數(shù)據(jù)挖掘;學習分析;大數(shù)據(jù)
中圖分類號:TP393 文獻標志碼:A 文章編號:1673-8454(2017)07-0037-08
一、前言
隨著大數(shù)據(jù)時代的到來,教育數(shù)據(jù)正如漂浮在海洋中的冰,第一眼只能看到冰山一角,絕大部分都隱藏在表面之下。[1]而發(fā)掘教育數(shù)據(jù)價值、征服教育數(shù)據(jù)海洋的“動力”就是教育數(shù)據(jù)挖掘(Education Data Mining, EDM)。EDM最初應(yīng)用于智能導學系統(tǒng)(ITS)和教育人工智能(AIED)研究領(lǐng)域,這些技術(shù)的深入應(yīng)用也帶來教育數(shù)據(jù)爆炸式膨脹。日益增長的教學軟件中儲存著巨大的學生數(shù)據(jù),互聯(lián)網(wǎng)教學E-learning等網(wǎng)絡(luò)教育學習行為更是呈現(xiàn)出極具增長的數(shù)據(jù)流趨勢。[2]這些數(shù)據(jù)集過大、難以被傳統(tǒng)數(shù)據(jù)庫軟件工具捕捉、儲存、管理和分析的教育類大數(shù)據(jù),目前已成為困擾教育機構(gòu)的一大難題,研究們逐漸開始關(guān)注這些教育數(shù)據(jù)的潛在價值。教育數(shù)據(jù)挖掘用統(tǒng)計、機器學習和數(shù)據(jù)挖掘等方法來解決這些教育領(lǐng)域的問題,從而對更好的理解學生學習和提高教育管理決策的質(zhì)量。[3]
2012年3月,在教育部正式頒布的《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》[4]中提出,促進教育管理科學決策就要“大力推行教育信息化”,而這種科學的決策來源于教育信息化與教育管理的深度結(jié)合。而教育數(shù)據(jù)挖掘則是促進這種結(jié)合的有效手段。與此同時,“智慧教育”也將改變學習和教育方式,促進傳統(tǒng)教育向智慧教育的轉(zhuǎn)變,使得教育變得更靈活和個性化。以教育數(shù)據(jù)挖掘為基石,深度挖掘?qū)W生的各方面情況數(shù)據(jù),“智慧教育”也需要教育數(shù)據(jù)挖掘的發(fā)展作為支撐加快,從而加快教育管理系統(tǒng)信息系統(tǒng)和智能學習平臺建設(shè)。
國外的研究與國內(nèi)相比,對于教育數(shù)據(jù)挖掘有著更為廣泛、成熟的應(yīng)用。雖然2005年在國際會議上首次提出“教育數(shù)據(jù)挖掘”這一概念,但是在不到十年的發(fā)展過程中,教育數(shù)據(jù)挖掘相關(guān)應(yīng)用已經(jīng)越來越受到學界的關(guān)注。本文嘗試用文獻分析方法對教育數(shù)據(jù)挖掘進行綜述和梳理。國外文獻分析主要有四個文獻來源:一是利用筆者在中山大學圖書館檢索系統(tǒng)(http://library.sysu.edu.cn/web/guest/index)以“EDM(教育數(shù)據(jù)挖掘)”、“Educational Data Mining”、“學習分析(Learning Analysis,LA)”、“知識發(fā)現(xiàn)(knowledge Discovery in Database, KDD)”等相近關(guān)鍵詞對論文、圖書、電子書、DVD、以及論文題目、圖書題目和雜志題目,進行文獻搜索,其中Education Data Mining檢索論文,在Willey Online Library中有4個搜索結(jié)果,tandfonline.com有3篇文獻,在CSA原劍橋科學文獻數(shù)據(jù)庫中搜到40篇相關(guān)文獻,選擇其中12篇文獻作為研究對象,通過Google學術(shù)搜索以“教育數(shù)據(jù)挖掘(Education Data Mining)”等關(guān)鍵詞進行文獻搜索,在搜索到的上百篇文獻中,根據(jù)引用頻率進行篩選。三是對可獲取到的教育數(shù)據(jù)挖掘領(lǐng)域著名國際會議,例如第六屆教育數(shù)據(jù)挖掘國際會議(the 6th International Conference on Educational Data Mining)中的30多篇文獻,國際教育數(shù)據(jù)挖掘?qū)W會(International Educational Data Mining Society)、學習分析研究學會(SoLAR)、教育數(shù)據(jù)挖掘IEEE專責小組中28篇論文,根據(jù)作者文章引用頻率和領(lǐng)域知名度進行篩選。四是根據(jù)每年的國際教育數(shù)據(jù)挖掘研討會(Workshop of Education Data Mining)中論文,根據(jù)引用頻率進行選讀和篩選。根據(jù)以上四個途徑選取的文獻資源,除去相同文獻之外,最終獲得相關(guān)文獻70多篇,其中國內(nèi)相關(guān)文獻主要來源是“中國知網(wǎng)”等學術(shù)文獻庫中的相關(guān)文獻。
二、數(shù)據(jù)挖掘與教育數(shù)據(jù)挖掘
1.什么是數(shù)據(jù)挖掘與教育數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是通過仔細分析大量數(shù)據(jù)來揭示有意義的新的關(guān)系、趨勢和模式的過程。主要應(yīng)用于銀行、電信、交通、零售(如超級市場)等商業(yè)領(lǐng)域,而用在e-learning方面還是處于起步階段。數(shù)據(jù)挖掘是一門交叉性學科,融合了人工智能、數(shù)據(jù)庫技術(shù)、模式識別、機器學習、統(tǒng)計學和數(shù)據(jù)可視化等多個領(lǐng)域的理論和技術(shù)。由于數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)的核心步驟,發(fā)現(xiàn)了隱藏的模式,所以從模式處理的角度,許多人認為兩者是等同的。[5]
目前,學術(shù)界對于教育數(shù)據(jù)挖掘的定義并未有統(tǒng)一的描述,比較常用的幾個定義分別來自于教育數(shù)據(jù)挖掘網(wǎng)站(http://www.educationaldatamining.org)是這樣定義教育數(shù)據(jù)挖掘的,“教育數(shù)據(jù)挖掘是應(yīng)用數(shù)據(jù)挖掘方法從教育系統(tǒng)中的數(shù)據(jù)提取出有用的信息,從而更好地理解學生及其學習系統(tǒng)的新興學科?!边@一版本的定義成為之后學者廣泛討論的基礎(chǔ),引發(fā)學術(shù)界對教育數(shù)據(jù)挖掘的探討和深究。Luan認為教育數(shù)據(jù)挖掘應(yīng)該是從構(gòu)建數(shù)據(jù)的模型、任務(wù)、方法和算法來探索教育環(huán)境中的數(shù)據(jù)信息。[6]Baker和Yacef認為教育數(shù)據(jù)挖掘是分析教育系統(tǒng)中的數(shù)據(jù)并且解決教育研究問題的一門新興學科。[7]2011年出版的《教育數(shù)據(jù)挖掘手冊》上是這樣描述,“教育數(shù)據(jù)挖掘是開發(fā)、研究和應(yīng)用計算機方法來對傳統(tǒng)教育環(huán)境中的大量數(shù)據(jù)進行分析和監(jiān)測,而數(shù)據(jù)的容量之大是其他方式很難或者基本上無法進行的?!盵8]教育數(shù)據(jù)挖掘從各種支持學習或者教育的信息系統(tǒng)中提取出有用的信息,這些數(shù)據(jù)并不是來源少數(shù)學生或者某一個教育系統(tǒng),而是包括所有參與的學生、管理數(shù)據(jù)、人口統(tǒng)計數(shù)據(jù)(例如,性別、年齡、年級)、學生的情感(例如,動機、情緒)等等。因此,在教育大數(shù)據(jù)的背景下,我們分析更多的數(shù)據(jù),有時候甚至可以處理某個特別現(xiàn)象的所有數(shù)據(jù)傳統(tǒng)的教育數(shù)據(jù)挖掘。
2.教育數(shù)據(jù)挖掘溯源
教育數(shù)據(jù)挖掘是伴隨著數(shù)據(jù)挖掘和教育系統(tǒng)的發(fā)展而逐漸形成的研究領(lǐng)域。在傳統(tǒng)教育系統(tǒng)的數(shù)據(jù)挖掘應(yīng)用中,尤其是網(wǎng)絡(luò)課程,著名的是學習內(nèi)容管理系統(tǒng)和應(yīng)用智能網(wǎng)絡(luò)教育系統(tǒng)。每一個系統(tǒng)都會有各自的數(shù)據(jù)源和知識發(fā)現(xiàn)的對象。在處理每一種可利用的數(shù)據(jù)過程中,通常會應(yīng)用統(tǒng)計、可視化、聚類、分類、離群點檢測等數(shù)據(jù)挖掘的技術(shù),大量技術(shù)的成功應(yīng)用使教育數(shù)據(jù)挖掘逐漸成為一門成熟的學科領(lǐng)域。在過去的十年間,教育系統(tǒng)中最重要的創(chuàng)新點在于新技術(shù)的引進。
教育數(shù)據(jù)挖掘是在多種數(shù)據(jù)挖掘和分析技術(shù)的基礎(chǔ)上發(fā)展而來的新興應(yīng)用。教育數(shù)據(jù)挖掘是一個交叉學科領(lǐng)域,包括信息檢索、推薦系統(tǒng),可視化數(shù)據(jù)分析,領(lǐng)域驅(qū)動數(shù)據(jù)挖掘、社交網(wǎng)絡(luò)分析(SNA)、教育心理學,認知心理學,心理測量學等學科知識。其中主要包括教育學、統(tǒng)計學和計算機科學,這三個領(lǐng)域的相互作用同樣也形成了其他子領(lǐng)域與教育數(shù)據(jù)相關(guān)的計算機教育。數(shù)據(jù)挖掘、及其學習和學習分析。
3.教育數(shù)據(jù)挖掘相關(guān)概念的界定
(1)教育數(shù)據(jù)挖掘與學習分析
教育數(shù)據(jù)挖掘就是將數(shù)據(jù)挖掘應(yīng)用到教育領(lǐng)域,通過跨學科領(lǐng)域的研究更好地了解學生學習和教育的結(jié)果,從而對教育現(xiàn)象做出科學的解釋。從溯源教育數(shù)據(jù)挖掘可以看出,雖然教育數(shù)據(jù)挖掘涉及到多種不同領(lǐng)域的技術(shù),但是目前與之相近的在教育領(lǐng)域中的技術(shù)主要有學習分析。所有之前提到的學科領(lǐng)域,與教育數(shù)據(jù)挖掘關(guān)系最緊密的是學習分析,也叫做學術(shù)分析。[9]學習分析主要用于數(shù)據(jù)驅(qū)動的決策制定和社會/教育相關(guān)的學習分析。然而,盡管教育數(shù)據(jù)挖掘在數(shù)據(jù)上是一個新的框架,發(fā)現(xiàn)新的算法或者模型,學習分析用于結(jié)構(gòu)系統(tǒng)的預測模型。事實上,學習分析定義為測量、收集、分析和包括學習者在內(nèi)的學習背景的報告,為了理解和優(yōu)化學習和所發(fā)生的環(huán)境。盡管學習分析和教育數(shù)據(jù)挖掘在很多性質(zhì)上具有相同的目標和興趣,關(guān)鍵的不同主要從兩方面進行辨析[8]:
重要性:學習分析在數(shù)據(jù)和結(jié)果描述上更加重要;然而,教育數(shù)據(jù)挖掘則是描述和比較數(shù)據(jù)挖掘技術(shù)運用上更加重要。
發(fā)現(xiàn)的類型:在學習分析中,利用人類的判斷是關(guān)鍵;自動發(fā)現(xiàn)用于完成這項目的工具。在教育數(shù)據(jù)挖掘過程中,自動發(fā)現(xiàn)是關(guān)鍵;利用人類的判斷是用于完成這項目標的工具。
(2)教育數(shù)據(jù)挖掘與E-Learning數(shù)據(jù)挖掘
教育數(shù)據(jù)挖掘的應(yīng)用環(huán)境分為傳統(tǒng)教育環(huán)境和計算機教育系統(tǒng)。其中傳統(tǒng)的教育系統(tǒng)包括演講、課堂討論、小組練習、個人作業(yè)等傳統(tǒng)形式。而基于計算機教育系統(tǒng)的教育數(shù)據(jù)挖掘則成為E-Learning數(shù)據(jù)挖掘。E-Learning數(shù)據(jù)挖掘指的是一個將各種E-Learning軟件系統(tǒng)(主要是網(wǎng)絡(luò)教學平臺)的原始數(shù)據(jù)轉(zhuǎn)換為有用信息的過程,這些有用信息可為教師、學生、家長、教育研究人員、教育管理人員以及E-Learning軟件系統(tǒng)開發(fā)人員所利用,以實現(xiàn)對學生及其所接受教育的更好理解,并可據(jù)此采用更有針對性的管理和教學優(yōu)化措施。廣義講,E-Learning理解為通過因特網(wǎng)進行學習與教學的活動。[10]因此,E-Learning數(shù)據(jù)挖掘是教育數(shù)據(jù)挖掘的一個方面。
三、教育數(shù)據(jù)挖掘成為教育大數(shù)據(jù)背景下的新動力
教育數(shù)據(jù)挖掘通過發(fā)展、研究和應(yīng)用計算機的方法來識別教育規(guī)律,對教育數(shù)據(jù)進行大規(guī)模收集。近年來,教育數(shù)據(jù)挖掘在分析發(fā)生在教育環(huán)境中的特定數(shù)據(jù),解決教育問題方面發(fā)揮著越來越重要的作用。
1.教育數(shù)據(jù)挖掘研究日趨成熟
教育數(shù)據(jù)挖掘正在處于飛速發(fā)展階段。80%以上的教育數(shù)據(jù)挖掘文獻都是在2000年之后發(fā)表。教育數(shù)據(jù)挖掘已經(jīng)擁有成熟的研討會(Workshop of Educational Data Mining)、國際教育數(shù)據(jù)挖掘年會(the annual International Conference on Educational Data Mining)、期刊(the Journal of Educational Data Mining)和研究手冊(the Handbook of Educational Data Mining)。
最早的一篇教育數(shù)據(jù)挖掘綜述是Romero &Ventura《教育數(shù)據(jù)挖掘: 1995年至2005年的調(diào)查》[11],也是目前為止引用最多的文獻。該綜述首先詳細說明了教育數(shù)據(jù)挖掘和知識發(fā)現(xiàn)之間的關(guān)系和區(qū)別,并且提到了教育數(shù)據(jù)挖掘應(yīng)用在傳統(tǒng)的教育系統(tǒng),網(wǎng)絡(luò)課程,學習內(nèi)容管理系統(tǒng)和智能教育系統(tǒng)中的案例。作者只是介紹了數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的初步運用,并且大部分是在介紹數(shù)據(jù)挖掘的技術(shù)和方法,例如統(tǒng)計和可視化,聚類,分類和離群點檢測;關(guān)聯(lián)規(guī)則和挖掘模式,以及文本挖掘等,而教育數(shù)據(jù)挖掘現(xiàn)階段的應(yīng)用遠遠不止這些。Baker和Yacef《教育數(shù)據(jù)挖掘的現(xiàn)狀:綜述和未來展望(2009)》[12]從理論上對比了早期和現(xiàn)階段教育數(shù)據(jù)挖掘工作,分析教育數(shù)據(jù)挖掘的發(fā)展趨勢。關(guān)于教育數(shù)據(jù)挖掘方法分類上,學界大部分是根據(jù)Baker的觀點分為預測、聚類、關(guān)系挖掘等,作者認為應(yīng)該在此增加人工判斷和模型發(fā)現(xiàn),因為模型發(fā)現(xiàn)越來越學界的歡迎,并且該方法對學生學習產(chǎn)生了更好的效果。
雖然這兩項綜述的主題為“教育數(shù)據(jù)挖掘”,但是從內(nèi)容來看,大部分已有研究的挖掘?qū)ο笫荅-Learning系統(tǒng)產(chǎn)生的數(shù)據(jù),對于傳統(tǒng)課堂的數(shù)據(jù)挖掘占少數(shù)。
現(xiàn)階段只有兩本關(guān)于EDM書已經(jīng)出版。第一本是《E-Learning的數(shù)據(jù)挖掘》[13],有17章,主要內(nèi)容是在網(wǎng)絡(luò)環(huán)境下的教育數(shù)據(jù)挖掘。第二本是《教育數(shù)據(jù)挖掘手冊》,有36章,面向不同的教育環(huán)境(educational settings)類型。[14]
最后提到了最近日益增長的對于教育數(shù)據(jù)挖掘的興趣。圖2表明引用EDM是增長很快的,在一個免費的數(shù)據(jù)庫網(wǎng)絡(luò)中,例如Google Scholar 和 基于描述的工具例如 SciVerse Scopus,當搜索“教育數(shù)據(jù)挖掘”(Education Data Mining)時候,從2004年到2011年的數(shù)據(jù)變化。如圖所示,兩個數(shù)據(jù)都是成指數(shù)增長的,表明對這個話題的興趣越來越高了,最近兩年的SciVerse Scopus引用數(shù)據(jù)都是高于Google Scholar的。
但是目前,國內(nèi)學術(shù)界對于教育數(shù)據(jù)挖掘的研究并不多,使用“教育數(shù)據(jù)挖掘”作為關(guān)鍵詞在中國知網(wǎng)上進行檢索,僅得到文獻6篇,分別來自中國學術(shù)期刊網(wǎng)絡(luò)出版總庫(5篇)和會議(1篇)。按照與教育數(shù)據(jù)挖掘相近的關(guān)鍵詞“學習分析”來看國內(nèi)教育數(shù)據(jù)挖掘的研究趨勢??梢钥闯?,教育數(shù)據(jù)挖掘和學習分析的研究比較少,但是2013年開始就逐漸增多。總體來看,我國學術(shù)界對于教育數(shù)據(jù)挖掘的研究還處于起步階段,相關(guān)研究有待進一步開展和深入。
對國內(nèi)外教育數(shù)據(jù)挖掘的文獻主題可以看出,目前國際上教育數(shù)據(jù)挖掘的研究方向主要集中于學生模型的構(gòu)建(學生行為模型、學生表現(xiàn)模型)方面;而國內(nèi)的研究還處于初級階段。教育數(shù)據(jù)挖掘的研究可能聚焦在如下幾個領(lǐng)域:①教育數(shù)據(jù)挖掘的功能,主要針對于教育數(shù)據(jù)挖掘的目的和應(yīng)用目標,因此其工作重要主要是研究、開發(fā)和應(yīng)用某一方面類似的、合作性質(zhì)的工作方式;②學生模型分析,主要面向小組活動、學術(shù)成就分析、資源的利用率、學生成功因子分析、專注度、學生思維情況、領(lǐng)域知識等方面;③評估分析,將向應(yīng)用測試、自我評估、動力提升和合作評價等方面發(fā)展;④學生支持和反饋,更多的研究將會關(guān)注學生的情緒反饋,競爭性刺激、決策支持、文本挖掘、網(wǎng)絡(luò)挖掘和社會網(wǎng)絡(luò)交互影響等方面。
2.教育數(shù)據(jù)挖掘的利益相關(guān)者
(1)教育數(shù)據(jù)挖掘利用相關(guān)者組譜
利益相關(guān)者(stakeholder)是一個實體(人、組織等),與教育數(shù)據(jù)挖掘存在著一定的利益關(guān)系。利益相關(guān)者可以認為是教育數(shù)據(jù)挖掘過程中的受益者,也可以認為是教育數(shù)據(jù)挖掘的實施主體、面向用戶等。
Romero和Ventura認為,教育數(shù)據(jù)挖掘包括不同類型的用戶或者參與者。不同的團體從不同的角度看到教育信息。根據(jù)他們的任務(wù)、視角和使用數(shù)據(jù)挖掘的目的不同。例如,通過教育數(shù)據(jù)挖掘算法而發(fā)現(xiàn)的知識不僅能夠幫助教師管理班級,理解學生學習的過程,反應(yīng)他們的教學方法是否正確,也能夠根據(jù)學生對于環(huán)境做出反應(yīng)和反饋。[15]盡管從內(nèi)部使用者來看包括教師和學習者這兩個群體,但是,實際上也包括很多的對象。①學習者;②教師;③網(wǎng)絡(luò)課程研發(fā)人員;④教育機構(gòu)(大學、培訓公司);⑤行政人員(學校區(qū)域行政人員、網(wǎng)絡(luò)管理人員、系統(tǒng)管理人員)。他們使用數(shù)據(jù)挖掘的目的如表3所示。
3.教育數(shù)據(jù)挖掘的技術(shù)策略
(1)教育數(shù)據(jù)挖掘技術(shù)手段
教育數(shù)據(jù)挖掘的方法有很多,其中很多方法在數(shù)據(jù)挖掘領(lǐng)域已經(jīng)有很成熟的應(yīng)用。例如,預測、聚類、離群點檢測、關(guān)系挖掘,過程挖掘,文本挖掘等。另外一方面就是專門針對教育數(shù)據(jù)挖掘而采用的技術(shù)手段,例如提煉人類判斷的數(shù)據(jù),模型發(fā)現(xiàn),知識跟蹤、非負矩陣分解等。
A.預測。預測的目的就是為了推斷出目標屬性獲知數(shù)據(jù)的一個方面(預測變量)或者從數(shù)據(jù)的其他幾個方面的結(jié)合(預測性的變量)。預測方法的類型主要是分類(被預測變量是分類變量),回歸(當被預測變量是持續(xù)性變量)或者密度估計(當被預測變量是概率密度函數(shù))。在教育數(shù)據(jù)挖掘中,預測編寫已經(jīng)成為預測學生表現(xiàn)[16]和監(jiān)測學生的行為[17]。
B.聚類。聚類就為了將某些方面具有相似性的小組聚集為一類。通常,這種例子測量方法就是為了覺得這些實例的相似度。一旦決定了簇,新的例子將會被分為最相似的簇。在教育數(shù)據(jù)挖掘中,聚類通常用于將相似的課程材料進行分組或者基于他們的學習和交流模式來分組。[18]
C.離群點檢測。離群點檢測的目的是發(fā)現(xiàn)數(shù)據(jù)顯著不同于其他的數(shù)據(jù)。一個離群點就是不同的觀察(或者測量),數(shù)據(jù)通常和其他的點很不同或者很小。在教育數(shù)據(jù)挖掘中,離群點通常會用于檢測學習困難的學生,學習者或者教育行為,表現(xiàn)的偏差,檢測不規(guī)則的學習過程。[19]
D.關(guān)系挖掘。關(guān)系挖掘就是堅定變量和常量之間的關(guān)系并且用新的規(guī)則去在編碼以便以后能夠繼續(xù)使用。挖掘的技術(shù)不同類型的關(guān)系,例如association rule mining(在變量之間)、關(guān)聯(lián)挖掘、序列框架挖掘(變量之間的暫時結(jié)合)、偶然數(shù)據(jù)的挖掘(變量之間的偶然關(guān)系)。教育數(shù)據(jù)挖掘中,關(guān)系挖掘已經(jīng)被用在學習行為框架之間關(guān)系的鑒定和學生學習困難的對話或者錯誤的發(fā)生頻率。[20]
E.社交網(wǎng)絡(luò)分析。社交網(wǎng)絡(luò)是理解和測量準入網(wǎng)絡(luò)信息之間的關(guān)系。SNA基于網(wǎng)絡(luò)理論的社交關(guān)系來構(gòu)成節(jié)點(代表網(wǎng)絡(luò)之間的個體因素)和聯(lián)系或者鏈接(代表個體的關(guān)系,例如友情,親緣關(guān)系,組織地位,性別關(guān)系等等)。在教育數(shù)據(jù)挖掘中,SNA主要用于挖掘解釋和分析結(jié)構(gòu)和合作任務(wù)之間的關(guān)系,相互交流的工具。[21]
F.過程挖掘。過程挖掘就是通過信息系統(tǒng)從過去的日志中提取出與過程相關(guān)的知識來對于整個過程有一個可視化的代表的信息。包括三個子領(lǐng)域:一致性檢測,模型發(fā)現(xiàn)和模型擴建。在教育數(shù)據(jù)挖掘過程中,過程挖掘用于從學生的考試跟蹤中發(fā)現(xiàn)學生的行為,或者從一系列課程,年級或者每一個同學。[22]
G.文本挖掘。文本挖掘也叫做文本數(shù)據(jù)挖掘或者文本分析,從文本中取得高質(zhì)量的信息。檢點的文本挖掘任務(wù)包括文本分類,文本聚類,概念提取,粒度分類,情緒分析,文件總結(jié)和實體關(guān)系模型。在教育數(shù)據(jù)挖掘工作中,文本挖掘主要用于討論委員會,論壇,聊天,網(wǎng)頁,文件諸如此類的內(nèi)容分析。[23]
H.提煉人類判斷的數(shù)據(jù)。主要使用總結(jié),可視化,人機交互界面等智能方法強調(diào)有用信息和決策支持。一方面,從獲得教育數(shù)據(jù)描述性停機到獲得全球數(shù)據(jù)的特征和總結(jié),和學習者的報告等方式變得更加容易,另外一方面,信息的可視化和圖表技術(shù)的應(yīng)用對探索和理解大量的教育數(shù)據(jù)一目了然。在教育數(shù)據(jù)挖掘工程中,同樣也是以人工判斷提煉著名就是已經(jīng)用用幫助教師來對學生的課程表現(xiàn)和使用信息的情況進行可視化表現(xiàn)和分析。[24]
I.模型發(fā)現(xiàn)。模型發(fā)現(xiàn)的目的是使用某一現(xiàn)象(例如,使用預測,聚類,手工知識工程)的有效模型作為另外一種分析,例如預測或者關(guān)系挖掘的組成部分。[25]這個在教育數(shù)據(jù)挖掘上是一個很突出的辦法,也能夠支持學生行為和學生特征或者上下文變量之間的關(guān)系鑒定,著用廣泛內(nèi)容的研究問題分析,已經(jīng)心理測量模型架構(gòu)的一體化已經(jīng)應(yīng)用于學習模型。[26]
J.知識跟蹤。知識跟蹤(KT)是一種有效評估學生掌握認知導學系統(tǒng)的技巧。[27]主要應(yīng)用于認知模型,將問題解決的項目用需要的技巧,學生正確或者不正確答案的日志來回到某一技巧所需要的知識。知識跟蹤學生知識和通過四個變量來設(shè)置參數(shù)。這個作為貝葉斯網(wǎng)絡(luò)的一種迭代公式。
K.非負矩陣分析。非負矩陣分解NMF是一種新矩陣分解算法,自《Nature》1999年刊登了兩位科學家D.D.Lee和H.S.Seung有關(guān)非負矩陣研究的成果后,此分解算法逐漸被人們接受并應(yīng)用到各種領(lǐng)域。NMF的基本思想可以簡單描述為:對于任意給定的一個非負矩陣M,NMF算法能夠?qū)ふ业揭粋€非負矩陣Q和一個非負矩陣S,使得滿足M=QS,從而將一個非負的矩陣分解為左右兩個非負矩陣的乘積。NMF分解算法相較于傳統(tǒng)的一些算法而言,具有實現(xiàn)上的簡便性、分解形式和分解結(jié)果上的可解釋性,以及占用存儲空間少等諸多優(yōu)點。通過矩陣分解,一方面將描述問題的矩陣的維數(shù)進行削減,另一方面也可以對大量的數(shù)據(jù)進行壓縮和概括。有很多NMF算法和不同的解決辦法。NMF構(gòu)成了正數(shù),同時也是兩個較小矩陣的結(jié)果。
(2)教育數(shù)據(jù)挖掘的應(yīng)用環(huán)境
教育數(shù)據(jù)挖掘的應(yīng)用環(huán)境日趨復雜,主要分為傳統(tǒng)教育環(huán)境和計算機網(wǎng)絡(luò)環(huán)境。每一個環(huán)境都提供了不同形式的數(shù)據(jù)資源,根據(jù)可利用數(shù)據(jù)的屬性和具體的問題,需要采取不同的方式進行處理。
A.傳統(tǒng)教育。傳統(tǒng)教育主要是教師與學生之間通過面對面的交流,例如演講、課堂討論、小組練習、個人作業(yè)等形式。這些環(huán)境下手機學生出勤率、分數(shù)、課程目標和個人計劃等數(shù)據(jù)信息。同時傳統(tǒng)的教育機構(gòu)也會存儲著形式多樣的資料[28]:傳統(tǒng)數(shù)據(jù)庫(學生信息、教師信息、班級和課堂安排信息)、在線網(wǎng)絡(luò)信息等。在傳統(tǒng)課堂上一般會通過試卷或者觀察來監(jiān)控學生的學習過程,分析他們的學習。[29]
B.計算機教育系統(tǒng)。計算機系統(tǒng)在商業(yè)領(lǐng)域已經(jīng)有了成熟的應(yīng)用。但是在教育系統(tǒng)中的應(yīng)用還是處于成長期。計算機教育系統(tǒng)根據(jù)用戶的研究領(lǐng)域不同,而將不同的風格加以融合。該系統(tǒng)根據(jù)確立的目標(例如,教材、學習、問題解決、管理課件等),應(yīng)用學習理論(客觀論、認知理論和社會學理論)來設(shè)置相應(yīng)的功能(例如,個性化,智能化等),并且運用技術(shù)平臺來進行教學實踐活動,其中智能導學系統(tǒng)(ITS)完成問題引入、操作和實驗室儀器的管理等任務(wù)。[30]而智能化教育系統(tǒng)(AIWBES)就是將智能應(yīng)用到課程、內(nèi)容、排序、評估和學習等方面,以滿足不同的教育目標。而其他的計算機教育系統(tǒng)將重點放在用戶體驗方面,例如學生模型、評估和教師支持等。
我們認為,教育數(shù)據(jù)挖掘系統(tǒng)主要有以下幾種技術(shù)特征:
功能模塊化。單一的教育數(shù)據(jù)挖掘工具已經(jīng)無法滿足“智慧教育”學習環(huán)境建構(gòu)中對于教育數(shù)據(jù)挖掘的多樣化要求。教育數(shù)據(jù)挖掘的計算機應(yīng)用系統(tǒng)要滿足利益相關(guān)者的各種需求,就需要強調(diào)對多種工具、技術(shù)的模塊化聚合。不同功能和特征的模塊集成為一個教育數(shù)據(jù)挖掘應(yīng)用系統(tǒng),模塊內(nèi)高內(nèi)聚,不同模塊間低耦合,針對不同的數(shù)據(jù)源采用統(tǒng)一的模塊進行處理和分析。系統(tǒng)內(nèi)的模塊可以有工具集、插件等多種形式。
分析結(jié)果的可視化。教育數(shù)據(jù)挖掘的結(jié)果是面向不同的學習者和教學者,已經(jīng)研究者。這就強調(diào)教育數(shù)據(jù)挖掘的結(jié)果報告一定要滿足不同人群的需要和理解能力。因此,可視化呈現(xiàn)時教育數(shù)據(jù)挖掘結(jié)果需求所在。
數(shù)據(jù)多源化。教育數(shù)據(jù)挖掘的應(yīng)用系統(tǒng)已經(jīng)不再局限于各類數(shù)據(jù)化學習環(huán)境,如Sakai,Moodle等,而是超越LMS嘗試對多源的教育數(shù)據(jù)進行處理。這些數(shù)據(jù)來源可以正式學習環(huán)境下的LMS數(shù)據(jù)、機構(gòu)管理系統(tǒng)數(shù)據(jù)(學生檔案、學生基本信息等)、也可以是非正式學習環(huán)境下的各種學習行為痕跡采集。Ryan S.J.d.Baker 在2013年教育數(shù)據(jù)挖掘研究進展大會(孟菲斯)提出教育數(shù)據(jù)挖掘的工作正處于一個復雜而又不斷變化的世界中。[31]
(3)教育數(shù)據(jù)挖掘的關(guān)鍵性應(yīng)用
教育數(shù)據(jù)的研究者不僅針對教育軟件,計算機支持合作學習,計算機應(yīng)用測試等個人學習的分析,同時也對學生失敗或者課程的因素分析。
教育數(shù)據(jù)挖掘應(yīng)用在學生模型的提高。學生模型表示學生特征或者狀態(tài)的信息,例如學生當前的知識,動機,外在識別和態(tài)度。不同的學生個體建模需要軟件來對于個體的差異進行區(qū)別和反應(yīng),這樣才能夠顯著提高學生學習。教育數(shù)據(jù)挖掘的方法能讓研究者對于重要的相關(guān)的學生在真正時間范圍內(nèi)進行研究,例如高水平的構(gòu)建而不是之前的可能性。例如,最近幾年,研究者用教育數(shù)據(jù)挖掘的方法來鑒定學生是否在教育系統(tǒng)中作弊或者很差的自我效益。未完成任務(wù),或者甚至一個學生覺得無聊或者失望。研究者也能夠延伸學生模型甚至超過教育軟件,目的是計算出預測學生失敗]或者為保留大學課程的因素。
發(fā)現(xiàn)或者提供領(lǐng)域知識結(jié)構(gòu)的模型 從機器學習文件中將心理學模型與空間搜索算法結(jié)合,仍然有很多的研究者開發(fā)自動獲取準確領(lǐng)域結(jié)構(gòu)的模型,直接從數(shù)據(jù)著手。例如,Barnes已經(jīng)開發(fā)了一種能夠自動發(fā)現(xiàn)Q矩陣的算法來分析數(shù)據(jù)[32],Desmarai已經(jīng)開發(fā)了一個算法來發(fā)現(xiàn)部分順序知識結(jié)構(gòu)(POKS)模型,解釋領(lǐng)域知識的相互關(guān)系。[33]
第三個關(guān)鍵應(yīng)用是研究教育支持(在學習軟件,其他領(lǐng)域中,例如合作學習行為),面向發(fā)現(xiàn)什么類型的教育支持最有效。不同分組的學生或者不同情況下的學生。學習教育學支持最受歡迎的一個方法就是學習分解適合支持。
第四個關(guān)鍵的應(yīng)用就是教育數(shù)據(jù)挖掘能夠去定義或者擴展教育的理論,對于影響學習的關(guān)鍵性因素就能夠獲得更為深入的理解,經(jīng)常是用于設(shè)計一個更好的學習系統(tǒng)。例如,Gong,Rai和Heffernan(2009)調(diào)查了自我理論在學習上的影響,研究發(fā)現(xiàn)與學習相關(guān)的知識輸入越多,那么就會在學習中更少犯錯誤,而關(guān)于學習本身的影響力也是有限的。[34]Perera使用五大合作理論作為驅(qū)動理論來對于學生小組成功交流的框架。[35]Madhyastha和Tanimoto評估了一致性和學生表現(xiàn)之間的關(guān)系,用這個目的去指導支架式教學,基于他們的工作對于學生行為的一致性影響的超前理論。[36]
四、教育數(shù)據(jù)挖掘在大數(shù)據(jù)背景下面臨的挑戰(zhàn)和愿景
國際著名學術(shù)期刊《自然》和《科學》分別于2008年和2011年推出大數(shù)據(jù)專欄,在教育領(lǐng)域,哈佛大學、斯坦福大學、耶魯大學等世界知名大學也啟動了教育大數(shù)據(jù)研究項目??梢?,大數(shù)據(jù)時代已經(jīng)到來,這并將改變教育的傳統(tǒng)形式,在未來具有廣闊的應(yīng)用前景,然而,由于種種限制,部分大數(shù)據(jù)相關(guān)應(yīng)用還處于探索研究階段,筆者認為,大數(shù)據(jù)時代背景下教育數(shù)據(jù)挖掘的全面應(yīng)用主要面臨兩方面的挑戰(zhàn):
(1)技術(shù)層面的挑戰(zhàn)。大數(shù)據(jù)的應(yīng)用基礎(chǔ)是對海量數(shù)據(jù)的存儲,因而數(shù)據(jù)處理和分析技術(shù)必須跟上信息技術(shù)發(fā)展的步伐,這就包括計算機的數(shù)據(jù)處理能力、大型超級計算機算法技術(shù)開發(fā)等。其次,教育數(shù)據(jù)挖掘的核心環(huán)節(jié)是數(shù)據(jù)采集和問題分析,應(yīng)用開發(fā)這需要面對的就是采集數(shù)據(jù)技術(shù)和學習分析技術(shù)的挑戰(zhàn)。最后,不得不提的是數(shù)據(jù)存儲系統(tǒng)的兼容性問題。目前,還沒有制定教育數(shù)據(jù)的標準形式,沒有統(tǒng)一的數(shù)據(jù)平臺,這就對我們計算機兼容性提出了嚴峻的挑戰(zhàn)。
(2)組織管理的挑戰(zhàn)。眾所周知,大數(shù)據(jù)的最大特點在于其“混雜性”,這種“混雜性”不僅表現(xiàn)在不同國家、地區(qū)和學校之間數(shù)據(jù)背景的差別,也表現(xiàn)在不同教師和研究人員對數(shù)據(jù)的期望也千差萬別。因此,提升數(shù)據(jù)使用者的綜合素質(zhì)是我們開展數(shù)據(jù)挖掘工作的關(guān)鍵。
我們已經(jīng)進入了一個“數(shù)據(jù)驅(qū)動學校,分析變革教育”的大數(shù)據(jù)時代,大數(shù)據(jù)必將改變傳統(tǒng)教育的形式,“數(shù)據(jù)驅(qū)動決策”已經(jīng)成為教育發(fā)展的潮流趨勢。發(fā)達國家已經(jīng)意識到大數(shù)據(jù)背景下教育的機遇與挑戰(zhàn),將大數(shù)據(jù)提升到國家戰(zhàn)略地位,雖然我國教育數(shù)據(jù)挖掘工作還處于起步階段,但是我們相信,只要我們整合現(xiàn)有資源,恰當運用數(shù)據(jù)挖掘技術(shù)優(yōu)化教育規(guī)劃和管理、提高教育教學質(zhì)量,這不僅是必要的,也是一定能夠做到的。
參考文獻:
[1]Mayer-Sch?nberger V, Cukier K. Big data: A revolution that will transform how we live, work, and think[M]. Houghton Mifflin Harcourt, 2013.
[2]頁川.大數(shù)據(jù)時代背景下挖掘教育數(shù)據(jù)的價值——教育部科學技術(shù)研究重點項目成果《教育數(shù)據(jù)挖掘:方法與應(yīng)用》出版[J].中國遠程教育,2013(4):94.
[3]Bala M, Ojha D B. Study of applications of data mining techniques in education[J]. International J Res Sci Technol, 2012, 1: 1-10.
[4]中華人民共和國教育部.教育信息化十年發(fā)展規(guī)劃(2011-2020年)[EB/OL].[2012-03-13].http://www.edu.cn/zong_he_870/20120330/t20120330_760603.shtml.
[5]Han J W,Micheline K.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟曉峰譯.北京:機械工業(yè)出版社,2001.
[6]Luan, Jing. "Data mining and its applications in higher education." New directions for institutional research 2002.113 (2002): 17-36.
[7][25]Baker RSJd, Yacef K. The state of educational data mining in 2009: a review and future visions. J Edu Data Min 2009, 3–17.CAS
[8][14]Romero, C., Ventura, S., Pechenizkiy, M., & Baker, R. S. (Eds.). (2011). Handbook of educational data mining. CRC Press.
[9]Siemens, George, and Ryan SJ d Baker. "Learning analytics and educational data mining: towards communication and collaboration." Proceedings of the 2nd international conference on learning analytics and knowledge. ACM, 2012.
[10]Romero, Cristóbal, Sebastián Ventura, and Enrique García. "Data mining in course management systems: Moodle case study and tutorial." Computers & Education 51.1 (2008): 368-384.
[11]Romero, Cristóbal, and Sebastian Ventura. "Educational data mining: A survey from 1995 to 2005." Expert systems with applications 33.1 (2007): 135-146.
[12]Baker, Ryan SJD, and Kalina Yacef. "The state of educational data mining in 2009: A review and future visions." JEDM-Journal of Educational Data Mining 1.1 (2009): 3-17.
[13]Romero, C., and S. Ventura. "Data Mining in E-learning (Advances in Management Information)." (2006).
[15]Romero C, Ventura S. Educational data mining: a review of the state of the art[J]. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 2010, 40(6): 601-618.
[16]Romero C, Espejo P, Zafra A, Romero J, Ventura S. Web usage mining for predicting marks of students that use Moodle courses. Comput Appl Eng Edu J. In Press.
[17]Baker RSJd, Gowda SM, Corbett AT. Automatically detecting a students preparation for future learning: help use is key. In: Fourth International Conference on Educational Data Mining. Eindhoven, The Netherlands;2011, 179-188.
[18]Vellido A, Castro F, Nebot A. Clustering Educational Data. Handbook of Educational Data Mining. Boca Raton, FL: Chapman and Hall/CRC Press; 2011, 75-92.
[19]Ueno M. Online outlier detection system for learning time data in e-learning and its evaluation. In: International Conference on Computers and Advanced Technology in Education. Beijiing, China; 2004, 248-253.
[20]Merceron A, Yacef K. Measuring correlation of strong symmetric association rules in educational data. In Romero C, Ventura S, Pechenizkiy M, Baker RSJd, eds. Handbook of Educational Data Mining. Boca Raton,F(xiàn)L: CRC Press; 2010, 245-256.
[21]Rabbany R, Takaffoli M, Za¨?ane O. Analyzing participation of students in online courses using social network analysis techniques. In: International Conference on Educational Data Mining. Eindhoven, The Netherlands;2011, 21-30.
[22]Trˇcka N, Pechenizkiy M, van der Aalst W. Process mining from educational data. Handbook of Educational Data Mining. Boca Raton, FL: CRC Press; 2011, 123-142.
[23]Tane J, Schmitz C, Stumme G. Semantic resource management for the web: an e-learning application. In:International Conference of the WWW. New York;2004, 1-10.
[24]Mazza R, Milani C. GISMO: a graphical interactive student monitoring tool for course management systems.In: International Conference on Technology Enhanced Learning.Milan, Italy; 2004, 1-8.
[26]Bienkowski M, Feng M, Means B. Enhancing teaching and learning through educational data mining and learning analytics: an issue brief. Washington, D.C.:Office of Educational Technology, U.S. Department of Education; 2012, 1-57.
[27]Corbett A, Anderson J. Knowledge tracing: modeling the acquisition of procedural knowledge. User Model User-Adapted Interact 1995, 4:253-278.
Corbett A, Anderson J. Knowledge tracing: modeling the acquisition of procedural knowledge. User Model User-Adapted Interact 1995, 4:253-278.
[28]Ma Y, Liu B, Wong C, Yu P, Lee S. Targeting the right students using data mining. In: KDD‘00: Proceedings Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2000,457-464.
[29]student failure at school using genetic programming and different data mining approaches with high dimensional and imbalanced data. Appl Intell. In Press.
[30]Mostow J, Beck J. Some useful tactics to modify, map and mine data from intelligent tutors. J Nat Lang Eng 2006, 12:195-208.
[31]San Pedro, Maria Ofelia Z., et al. "Predicting college enrollment from student interaction with an intelligent tutoring system in middle school." Proceedings.
[32]the 6th international conference on educational data mining. 2013. Johnson M, Barnes T. EDM visualization tool: watching students learn. In: Third International.
[33]Conference on Educational Data Mining. Pittsburgh, PA; 2010,297-298.Desmarais MC. Mapping question items to skills with non-negative matrix factorization. ACM SIGKDD Explor 2011, 13:30–36.
[34]Gong, Yue, et al. "Does Self-Discipline Impact Students' Knowledge and Learning?." International Working Group on Educational Data Mining (2009).
[35]PERERA, D., KAY, J., KOPRINSKA, I., YACEF, K. and ZAIANE, O. 2009. Clustering and sequential pattern mining to support team learning. IEEE Transactions on Knowledge and Data Engineering 21, 759-772
[36]MADHYASTHA, T. and TANIMOTO, S. 2009. Student Consistency and Implications for Feedback in Online Assessment Systems. In Proceedings of the 2nd International Conference on Educational Data Mining, 81-90.
(編輯:王曉明)