魏艷
摘 要:隨著信息技術(shù)的迅猛發(fā)展,大數(shù)據(jù)也無(wú)聲無(wú)息地逐步地深入到我們的現(xiàn)實(shí)生活和工作學(xué)習(xí)中。教育大數(shù)據(jù)挖掘就是將大量的零碎的教育信息轉(zhuǎn)化為對(duì)于我們有用的信息和知識(shí)。本文介紹了國(guó)內(nèi)外教育數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀,總結(jié)了數(shù)據(jù)挖掘技術(shù)的關(guān)鍵技術(shù)及分析模式。
關(guān)鍵詞:教育大數(shù)據(jù)挖掘;學(xué)習(xí)分析;關(guān)鍵技術(shù);
根據(jù)IBM 公司最新估計(jì),全球人類和計(jì)算機(jī)等硬件設(shè)備每天產(chǎn)生的數(shù)據(jù)量達(dá)到2.5EB(1EB=109GB=1015KB)。這些數(shù)據(jù)的來(lái)源是多元化的,比如:電子郵件、網(wǎng)頁(yè)訪問(wèn)流量、博客、監(jiān)控?cái)z像機(jī)、氣象傳感器、學(xué)術(shù)研究、社交網(wǎng)絡(luò)(QQ、微信)、學(xué)生數(shù)字檔案袋,等等,這一切都在以前所未有的速度向我們襲來(lái)。教育領(lǐng)域的大數(shù)據(jù)從橫向和縱向兩個(gè)角度更加全面和真實(shí)地反映教育的實(shí)施背景、過(guò)程和結(jié)果。
1.國(guó)內(nèi)外研究現(xiàn)狀
美國(guó)新媒體聯(lián)盟發(fā)布的2010年度和2011 年度《地平線報(bào)告》,都先后預(yù)言了數(shù)據(jù)挖掘技術(shù)將在未來(lái)的4到5年內(nèi)成為各領(lǐng)域各行業(yè)發(fā)展的主導(dǎo)力量。Romero&Ventura;(2007)以及Baker &Yacef;(2009)對(duì)10 余年的教育數(shù)據(jù)挖掘研究進(jìn)行了分析,歸納出5 類教育大數(shù)據(jù)挖掘的方法,它們是聚類;預(yù)測(cè);關(guān)系挖掘;可視化技術(shù)等等。另外,隨著教學(xué)管理系統(tǒng)的不斷升級(jí),開(kāi)始了利用學(xué)習(xí)分析技術(shù)對(duì)學(xué)習(xí)者行為分析的研究,Romero,C.等人(2005)對(duì)Moodle 學(xué)習(xí)平臺(tái)的日志分析就是應(yīng)用了該模式。伴隨人們?cè)趯W(xué)習(xí)知識(shí)的過(guò)程中的深入分析和不斷研究以及堅(jiān)持不懈的深入實(shí)踐,除了數(shù)據(jù)挖掘研究方法以外,那些本來(lái)是屬于社會(huì)科學(xué)領(lǐng)域的方法,例如:話語(yǔ)分析、內(nèi)容分析、社會(huì)網(wǎng)絡(luò)分析等方法漸漸地變成了學(xué)習(xí)分析中非常重要的方法,這些技術(shù)中的最典范的一個(gè)應(yīng)用就是師生交互行為分析。
在國(guó)內(nèi),伴隨著各種教學(xué)資源的通過(guò)網(wǎng)絡(luò)進(jìn)行共享,越來(lái)越多的學(xué)習(xí)者可以自行制定一些適合自己的學(xué)習(xí)策略,通過(guò)網(wǎng)絡(luò)也能夠自由的進(jìn)行在線學(xué)習(xí)和自主學(xué)習(xí)。
2.關(guān)鍵技術(shù)
在教育領(lǐng)域中,有兩個(gè)技術(shù)非常重要,分別為:教育大數(shù)據(jù)挖掘與分析、學(xué)習(xí)分析。雖然這兩個(gè)概念沒(méi)有嚴(yán)格的區(qū)別,但它們已經(jīng)有了不同的研究歷史,并發(fā)展成為截然不同的研究領(lǐng)域。
2.1 教育大數(shù)據(jù)挖掘和分析
利用數(shù)據(jù)來(lái)作出決策并不是一件新鮮事,已廣泛應(yīng)用于商業(yè)領(lǐng)域。商業(yè)公司利用復(fù)雜的計(jì)算機(jī)算法來(lái)分析用戶數(shù)據(jù),被稱為商業(yè)智能。商業(yè)智能技術(shù)能夠從收集的數(shù)據(jù)中辨別過(guò)去的模式和規(guī)律,同樣,也可以創(chuàng)建模型來(lái)預(yù)測(cè)未來(lái)的趨勢(shì)和模式。
數(shù)據(jù)分析技術(shù),從廣義上講,就是利用計(jì)算機(jī)科學(xué)技術(shù)、數(shù)學(xué)和統(tǒng)計(jì)學(xué)技術(shù),從非常龐大的數(shù)據(jù)庫(kù)中,集中提取有用的信息。關(guān)于數(shù)據(jù)分析的一個(gè)早期應(yīng)用案例,就是利用相關(guān)數(shù)據(jù)來(lái)探索在線行為,即進(jìn)行網(wǎng)站使用的分析,利用該工具,可以了解網(wǎng)頁(yè)的整體訪問(wèn)量、訪問(wèn)者來(lái)自何處,以及是通過(guò)哪個(gè)鏈接訪問(wèn)本站的等等。網(wǎng)站分析還被人們用來(lái)了解、改善使用網(wǎng)站的體驗(yàn)的一種有效方式。不過(guò),互聯(lián)網(wǎng)公司現(xiàn)在已經(jīng)開(kāi)發(fā)出了更精細(xì)的技術(shù),用來(lái)跟蹤用戶與網(wǎng)站之間的一些復(fù)雜交互行為,諸如此類的跟蹤包括:在新技術(shù)影響下用戶購(gòu)買(mǎi)習(xí)慣的變化,電子書(shū)中被勾畫(huà)、標(biāo)記最多的段落,從瀏覽歷史來(lái)預(yù)測(cè)可能感興趣的網(wǎng)頁(yè),以及游戲玩家的行為是如何隨著時(shí)間的變化而變化的等等。從理論層面上講,在網(wǎng)絡(luò)上的所有行為都能被跟蹤和分析。
分析這些新的行為事件,需要利用的新技術(shù)正是大數(shù)據(jù)技術(shù)。大數(shù)據(jù)分析是商業(yè)智能的演進(jìn),它能解決傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)中來(lái)源廣泛且數(shù)量龐大的非結(jié)構(gòu)化文本、圖形圖像以及視頻等數(shù)據(jù)。
教育數(shù)據(jù)挖掘是當(dāng)前新興的研究領(lǐng)域,它利用計(jì)算機(jī)和心理學(xué)方法來(lái)研究和了解學(xué)生是如何學(xué)習(xí)的。早期教育數(shù)據(jù)的挖掘主要是網(wǎng)站日志數(shù)據(jù)的挖掘,而如今的教育大數(shù)據(jù)挖掘技術(shù)通常強(qiáng)調(diào)分析碎片化的學(xué)習(xí)信息,并用自適應(yīng)軟件來(lái)進(jìn)行干預(yù)。在建立自適應(yīng)學(xué)習(xí)系統(tǒng)中,預(yù)測(cè)模型扮演一個(gè)非常關(guān)鍵的角色。
概括起來(lái),教育數(shù)據(jù)挖掘構(gòu)建模型可以回答以下幾個(gè)問(wèn)題:
1.何種主題順序?qū)σ粋€(gè)特定的學(xué)生最有效?
2.何種學(xué)生行為與更多學(xué)習(xí)相關(guān)?
3.何種學(xué)生行為表示滿意、投入或?qū)W習(xí)進(jìn)步?
4.什么樣的在線學(xué)習(xí)模式會(huì)更有利于學(xué)生的學(xué)習(xí)?
5.什么將預(yù)測(cè)學(xué)生學(xué)習(xí)成功?
2.2學(xué)習(xí)分析
2.2.1 學(xué)習(xí)分析要解決的問(wèn)題
學(xué)習(xí)分析指的是通過(guò)對(duì)學(xué)生在學(xué)習(xí)進(jìn)程中輸出的各種信息進(jìn)行分析、說(shuō)明,認(rèn)識(shí)并剖析學(xué)生在學(xué)習(xí)進(jìn)程中產(chǎn)生的問(wèn)題、并對(duì)學(xué)生的下一步的學(xué)習(xí)進(jìn)行有效的指引。相關(guān)數(shù)據(jù)均來(lái)自學(xué)生的顯性和隱形的行為,學(xué)習(xí)分析就是利用這些行為過(guò)程中產(chǎn)生的相關(guān)數(shù)據(jù),通過(guò)教育大數(shù)據(jù)挖掘技術(shù)建立的模型進(jìn)行準(zhǔn)確的分析,從而來(lái)幫助教師更好地理解教與學(xué)的關(guān)系,以達(dá)到教學(xué)相長(zhǎng)的目的。
與教育數(shù)據(jù)挖掘不同,學(xué)習(xí)分析不強(qiáng)調(diào)碎片化學(xué)習(xí),而是更關(guān)注對(duì)教育系統(tǒng)的整體理解,并為人為決策提供支撐。因此,學(xué)習(xí)分析的重點(diǎn)是為教育資源的再分配提供決策支持,以適應(yīng)不同學(xué)生的學(xué)習(xí)需求。
概括起來(lái),學(xué)習(xí)分析系統(tǒng)應(yīng)用模型能回答下列問(wèn)題:
1.什么時(shí)候?qū)W生落在課程的后面?
2.何時(shí)學(xué)生存在不能完成的學(xué)習(xí)任務(wù)?
3.什么階段學(xué)生不希望被干預(yù)?
4.什么課程最適合一個(gè)特定的學(xué)生向下學(xué)習(xí)?
學(xué)生是否需要學(xué)習(xí)顧問(wèn)的幫助?
2.2.2 學(xué)習(xí)分析關(guān)鍵技術(shù)與主要工具
(1) 聚類.聚類是將大量不同的的數(shù)據(jù)分類聚集,聚集到不用類別的群的過(guò)程。聚類分析與傳統(tǒng)的分類方法不同,它沒(méi)有預(yù)定的標(biāo)準(zhǔn),而是自動(dòng)的劃分為未知類別的過(guò)程。一般來(lái)講,所運(yùn)用的方法不同,那么最后所得到的結(jié)果也會(huì)不同。聚類分析經(jīng)常使用的算法,一般分為以下幾類:層次聚類算法、密度聚類算法、劃分聚類算法、模型聚類算法和網(wǎng)絡(luò)聚類算法。
(2)預(yù)測(cè).根據(jù)已知的數(shù)據(jù)集或信息集表現(xiàn)出來(lái)的規(guī)律,構(gòu)造每個(gè)數(shù)據(jù)類別的分類,并且建立相應(yīng)的數(shù)據(jù)模型,來(lái)對(duì)數(shù)據(jù)的發(fā)展趨勢(shì)或規(guī)律做出合理化預(yù)測(cè)。
(3)關(guān)系挖掘.關(guān)系挖掘是從大量的數(shù)據(jù)集合中發(fā)現(xiàn)他們之前存在的頻繁的關(guān)系,并且利用這些事務(wù)性的關(guān)系和規(guī)律而進(jìn)行的預(yù)測(cè)。關(guān)系挖掘進(jìn)程一般分為兩步:第一步,需要發(fā)現(xiàn)數(shù)據(jù)集合存在的頻繁關(guān)系;第二步,挖掘出適合預(yù)測(cè)關(guān)聯(lián)的規(guī)則。
(4) 可視化技術(shù).可視化技術(shù)是利用直觀化的圖形、圖表、圖示等描述數(shù)據(jù),讓人們更加容易理解,從而更容易判斷和區(qū)分?jǐn)?shù)據(jù)。該技術(shù)的特別之處在于以圖形、圖表、圖示等藝術(shù)性效果,來(lái)實(shí)現(xiàn)與人們的雙向交流和溝通??梢暬话惴譃橐韵缕邆€(gè)步驟,分別為:獲取、分析、過(guò)濾、挖掘、表示、修飾和交互。截止到目前,可視化技術(shù)已成為教育大數(shù)據(jù)挖掘領(lǐng)域中不可缺少的一項(xiàng)重要技術(shù)。
3 結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代,教育領(lǐng)域的數(shù)據(jù)存量相當(dāng)?shù)凝嫶螅逃I(lǐng)域中各類學(xué)習(xí)管理系統(tǒng)里的有關(guān)學(xué)習(xí)和學(xué)生的信息數(shù)據(jù)也逐漸地增多,利用數(shù)據(jù)挖掘技術(shù)將教育中存在的大量數(shù)據(jù)資源進(jìn)行有效的提取,并以此來(lái)分析其內(nèi)部的各種關(guān)聯(lián)和各類規(guī)律,從而形成一套比較成熟的學(xué)習(xí)行為模式,在很大程度上會(huì)非常有助于學(xué)習(xí)者的個(gè)性化的自主學(xué)習(xí)以及教學(xué)效果的改善和教學(xué)質(zhì)量的不斷提升,以上這些已經(jīng)成為教育教學(xué)變革中的重要依據(jù)。綜上所述,教育大數(shù)據(jù)的挖掘隨著信息技術(shù)的不斷發(fā)展,已經(jīng)成為當(dāng)前人們關(guān)注的熱點(diǎn),在教育教學(xué)領(lǐng)域的應(yīng)用也將會(huì)更加廣泛,會(huì)更好地為教育教學(xué)變革和教學(xué)管理提供服務(wù)。
參考文獻(xiàn)
[1]黃荷.今日談:大數(shù)據(jù)時(shí)代降臨[J].半月談,2014,(17).
[2]顧小清,張進(jìn)良,蔡慧英.學(xué)習(xí)分析:正在浮現(xiàn)中的數(shù)據(jù)技術(shù)[J].遠(yuǎn)程教育雜志,2013,(1).
[3]魏順平.在線學(xué)習(xí)行為特點(diǎn)及其影響因素分析研究[J].開(kāi)放教育研究,2014,(4).
[4]魏順平.挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值[J].開(kāi)放教育研究,2012,(4).
[5]胡祖輝,徐毅.大數(shù)據(jù)背景下高校教育數(shù)據(jù)的分析與應(yīng)用研究[J].現(xiàn)代教育科學(xué),2017,(1).
[6]李施,李艷華,趙慧瓊.教育大數(shù)據(jù)挖掘技術(shù)與應(yīng)用案例分析[J].中國(guó)教育網(wǎng)絡(luò),2017,(5).