國外教育大數(shù)據(jù)研究的可視化分析*

2018-03-06 07:47梅鵬飛何曉萍

中國教育信息化 2018年3期

梅鵬飛，何曉萍

（南昌大學(xué) 體育與教育學(xué)院，江西南昌 330031）

一、引言

《大數(shù)據(jù)時代》的作者維克托·邁爾-舍恩伯格開創(chuàng)了國外大數(shù)據(jù)研究先河，并通過4個“V”描述了大數(shù)據(jù)具有的四大特征。即數(shù)據(jù)體量大（Volume）、數(shù)據(jù)類型多（Variety）、數(shù)據(jù)價值密度低（Value）、數(shù)據(jù)具有實效性（Velocity）四大特征。[1]教育大數(shù)據(jù)是大數(shù)據(jù)的一個子集，特指教育領(lǐng)域的大數(shù)據(jù)，是整個教育活動過程中所產(chǎn)生的以及根據(jù)教育需要采集到的，一切用于教育發(fā)展并可創(chuàng)造巨大潛在價值的數(shù)據(jù)集合。[2]本文采用詞頻分析法和引文分析法，使用CiteSpace軟件對Web of Science核心合集中SCI和SSCI兩個數(shù)據(jù)庫中教育大數(shù)據(jù)研究的相關(guān)文獻(xiàn)進(jìn)行了搜索、梳理，客觀生成的國外教育大數(shù)據(jù)研究的知識圖譜，揭示了國外教育大數(shù)據(jù)研究領(lǐng)域、研究力量分布、知識基礎(chǔ)與研究熱點(diǎn)主題。有效的數(shù)據(jù)分析，以期為我國教育大數(shù)據(jù)的進(jìn)一步研究提供參考和借鑒。

二、研究設(shè)計

1.研究方法

詞頻分析法是指分析某學(xué)科領(lǐng)域特定時間內(nèi)發(fā)表的文獻(xiàn)關(guān)鍵詞，通過關(guān)鍵詞出現(xiàn)的頻次的高低及頻次的變化趨勢來確定該領(lǐng)域研究重點(diǎn)和發(fā)展方向的文獻(xiàn)計量方法。[3]引文分析法，利用數(shù)學(xué)及統(tǒng)計學(xué)方法進(jìn)行比較、歸納、抽象、概括等，對科學(xué)期刊、論文、著者等分析對象的引用和被引用現(xiàn)象進(jìn)行分析，以揭示其數(shù)量特征和內(nèi)在規(guī)律的一種信息計量研究方法。[4]本文利用詞頻分析法和引文分析法，分析國外教育大數(shù)據(jù)研究的領(lǐng)域分布、知識基礎(chǔ)與熱點(diǎn)主題。采取定量研究與定性研究相結(jié)合的方法，首先結(jié)合詞頻分析法、引文分析法對相關(guān)文獻(xiàn)進(jìn)行定量分析，再通過定性分析加以補(bǔ)充。

2.數(shù)據(jù)來源

為確保文獻(xiàn)的權(quán)威性，本文以Web of Science核心合集中SCI和SSCI兩個數(shù)據(jù)庫作為文獻(xiàn)信息來源，檢索策略中以“big data”、“education”作為主題詞，時間限制為2007-2017年，限定學(xué)科為Education Educational Research，文獻(xiàn)類型為Article，搜索、篩選、整理得到209條相關(guān)文獻(xiàn)。導(dǎo)出文獻(xiàn)數(shù)據(jù)的題錄信息，以全記錄格式保存，保存日期為2017年6月8日。

3.分析工具

本文分析工具采用陳超美博士及其團(tuán)隊開發(fā)的基于Java語言的可視化分析軟件CiteSpace V，這是一款專門用于學(xué)術(shù)文獻(xiàn)分析的信息可視化分析工具。目前已廣泛應(yīng)用于探測、分析學(xué)科研究前沿的發(fā)展趨勢以及研究前沿與知識基礎(chǔ)之間、不同研究前沿之間的關(guān)系。[5]可視化工具以圖表形式直觀展現(xiàn)關(guān)鍵詞的熱點(diǎn)分布及領(lǐng)域走向，揭示了研究主題的外表特征，且圖譜的數(shù)據(jù)為科學(xué)、客觀地分析教育大數(shù)據(jù)提供了依據(jù)。

三、研究結(jié)果與分析

1.時間分布

國際教育大數(shù)據(jù)研究10年來發(fā)文數(shù)量及引文數(shù)量統(tǒng)計與分析結(jié)果如圖1、圖2所示。從圖中可以看出，國際教育大數(shù)據(jù)研究的發(fā)文數(shù)量2007至2013逐年增長，2013達(dá)到一個小高峰，2014年有所回落，但比較穩(wěn)定；2015至2016年關(guān)于教育大數(shù)據(jù)研究又開始受到更多研究者的關(guān)注，2016年又達(dá)到頂峰。而引文數(shù)量在2008-2012年亦逐年增長，且增速比較顯著。結(jié)合圖1和圖2來看，發(fā)文數(shù)量越多，相應(yīng)的引文數(shù)量也越多，其走向有著密切的相關(guān)性。說明了隨著大數(shù)據(jù)時代的到來，教育大數(shù)據(jù)研究越來越受重視。

圖1 年度發(fā)文數(shù)量

圖2 年度引文數(shù)量

2.國家（地區(qū)）和機(jī)構(gòu)分布

在CiteSpace V中設(shè)置時間切片為1，時間設(shè)置為2007-2017年，分析對象同時選擇“Institution”和“Country”，選擇 TopN，N 值設(shè)為 50，采用 Pathfinder（尋徑）算法，運(yùn)行CiteSpace V，得到教育大數(shù)據(jù)國家和地區(qū)圖譜，如圖3所示。

圖3 教育大數(shù)據(jù)研究國家（地區(qū)）及機(jī)構(gòu)圖譜

其中，圓形節(jié)點(diǎn)代表國家（地區(qū)），處于連接線上的小節(jié)點(diǎn)代表機(jī)構(gòu)。圓圈的大小代表發(fā)文數(shù)量，圓圈越大表示發(fā)文數(shù)量越多；節(jié)點(diǎn)間的連線代表合作程度，節(jié)點(diǎn)間的連線越多，表示合作越密切；節(jié)點(diǎn)最外層的紫色圓環(huán)代表中心性，中心性越大，表示在該領(lǐng)域內(nèi)影響力越大。[6]從圖3中可以看出，節(jié)點(diǎn)最大的國家是美國（USA），其次是西班牙（SPAIN）。

從表1中可見，被引頻次最高的是美國，文獻(xiàn)貢獻(xiàn)率最大，接下來是西班牙、澳大利亞、英國、土耳其、加拿大。從整個圖譜來看，美國最外層的紫色圓環(huán)最大，節(jié)點(diǎn)中心性最高，說明美國在教育大數(shù)據(jù)領(lǐng)域占有領(lǐng)先地位。同時，美國與其他國家的節(jié)點(diǎn)間連線較多。由此可見，圖譜中絕大多數(shù)國家與美國有合作關(guān)系。

美國關(guān)于教育大數(shù)據(jù)研究機(jī)構(gòu)主要集中在大學(xué)和科技公司（Microsoft），如普渡大學(xué)、斯坦福大學(xué)、美國佐治亞大學(xué)、匹茲堡大學(xué)等；西班牙的主要研究機(jī)構(gòu)有科爾多瓦大學(xué)、馬德里科技大學(xué)、西班牙格拉納達(dá)大學(xué)等；澳大利亞主要有莫納什大學(xué)、堪培拉大學(xué)、麥考瑞大學(xué)等；英國主要研究機(jī)構(gòu)有倫敦大學(xué)、諾丁漢大學(xué)、英國普利茅斯大學(xué)等；土耳其具有代表性的機(jī)構(gòu)有哈希德佩大學(xué)、加齊大學(xué)等；加拿大主要研究機(jī)構(gòu)有皇家大學(xué)、卡爾加里大學(xué)等。這些國家和機(jī)構(gòu)在教育大數(shù)據(jù)研究方向占有重要地位，研究者給予了更多關(guān)注。

3.研究熱點(diǎn)分析

在CiteSpace V軟件界面中選擇分析對象為關(guān)鍵詞（Keyword），其余設(shè)置不變。運(yùn)行軟件，得到關(guān)于教育大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵詞共現(xiàn)圖譜，如圖4所示。圖譜中，節(jié)點(diǎn)（圓圈）大小代表關(guān)鍵詞共現(xiàn)頻次，圓圈內(nèi)環(huán)不同顏色代表其出現(xiàn)的相應(yīng)年份，節(jié)點(diǎn)紫色圓環(huán)（在黑白圖中用圓環(huán)粗細(xì)顯示）表示關(guān)鍵詞具有高度中心性。中心性越高的節(jié)點(diǎn)，對其他節(jié)點(diǎn)間的聯(lián)系起控制作用，這也體現(xiàn)其在整個網(wǎng)絡(luò)中的重要地位。[7]

表1 教育大數(shù)據(jù)研究力量分布統(tǒng)計

圖4 關(guān)鍵詞共現(xiàn)圖譜

圖4揭示了國際教育大數(shù)據(jù)研究熱點(diǎn)，節(jié)點(diǎn)最大的是“data mining（數(shù)據(jù)挖掘）”，具體包括“education（教育）”、“performance （績效）”、“high education （高等教育）”、“model （模型）”、“technology （技術(shù)）”、“education data mining （教育數(shù)據(jù)挖掘）”、“big data （大數(shù)據(jù)）”、“l(fā)earning analytics（學(xué)習(xí)分析）”。通過合并同義詞后，從運(yùn)行結(jié)果中導(dǎo)出前被引頻次大于10的關(guān)鍵詞，如表2所示。

表2 被引頻次＞10的關(guān)鍵詞排列表

結(jié)合圖4所示圖譜中關(guān)鍵詞的圓圈大小、紫色圓環(huán)粗細(xì)，以及表3所示關(guān)鍵詞中心性大小，可以發(fā)現(xiàn)頻次排在前9的關(guān)鍵詞，其中心性都較高，并處于圖譜中心位置，表示它們與其他關(guān)鍵詞存在著緊密的關(guān)聯(lián)性，節(jié)點(diǎn)年輪較為突出。綜合分析發(fā)現(xiàn)，2007-2017年教育大數(shù)據(jù)研究的關(guān)注點(diǎn)主要在“data mining（數(shù)據(jù)挖掘）”、“performance（績效）”、“education（教育）”、“big data（大數(shù)據(jù)）”、“higher education（高等教育）”、“technology（技術(shù)）”、“l(fā)earning analytics （學(xué)習(xí)分析）”、“education data mining（教育數(shù)據(jù)挖掘）”，在教育大數(shù)據(jù)研究中占有重要地位。

表3 關(guān)鍵詞中心性排列表

在線教育和大數(shù)據(jù)時代背景下，計算機(jī)領(lǐng)域（數(shù)據(jù)挖掘）與教育領(lǐng)域相結(jié)合是一種必然的趨勢。大數(shù)據(jù)在教育領(lǐng)域中的應(yīng)用主要有學(xué)習(xí)分析（Learning Analytics）和教育數(shù)據(jù)挖掘（Education data mining）。[8]利用數(shù)據(jù)挖掘和學(xué)習(xí)分析技術(shù)可以依據(jù)學(xué)習(xí)者學(xué)習(xí)行為有效預(yù)測學(xué)習(xí)者學(xué)習(xí)偏好，跟蹤學(xué)習(xí)者學(xué)習(xí)狀態(tài)，必要時進(jìn)行干預(yù)，有助于提高學(xué)習(xí)效果并實現(xiàn)個性化教學(xué)。目前，教育大數(shù)據(jù)研究領(lǐng)域的熱點(diǎn)，主要是圍繞大數(shù)據(jù)的概念表征、教育（高等教育）、數(shù)據(jù)挖掘以及學(xué)習(xí)分析等基礎(chǔ)理論的研究。

教育大數(shù)據(jù)研究也存在一些亟待解決的問題。其一，教育數(shù)據(jù)由教育者和受教育者進(jìn)行教學(xué)活動所產(chǎn)生，對主導(dǎo)-主體相結(jié)合的教學(xué)行為和學(xué)習(xí)行為，具有潛在的應(yīng)用價值，但也涉及教師和學(xué)生的隱私，保護(hù)不當(dāng)會帶來嚴(yán)重的后果。其二，在算法研究上要加大安全系數(shù)，以防黑客惡意入侵（如2017年5月份出現(xiàn)的勒索病毒攻擊教育網(wǎng)站及幾所高校導(dǎo)致畢業(yè)論文系統(tǒng)癱瘓）。

4.研究主題知識基礎(chǔ)分析

本節(jié)對教育大數(shù)據(jù)進(jìn)行知識基礎(chǔ)的分析，目的是對研究某領(lǐng)域的發(fā)展歷程和前沿有一個清晰的了解。其中主要包括奠基性文獻(xiàn)分析和關(guān)鍵性文獻(xiàn)分析。

（1）奠基性文獻(xiàn)分析

文獻(xiàn)共被引圖譜反映了對應(yīng)研究領(lǐng)域的知識基礎(chǔ)。若兩篇文獻(xiàn)同時被其他文獻(xiàn)引用，則這兩篇文獻(xiàn)間就存在共被引關(guān)系。參考文獻(xiàn)通過共被引關(guān)系構(gòu)成了文獻(xiàn)共被引圖譜。在圖譜中，節(jié)點(diǎn)表示參考文獻(xiàn)，節(jié)點(diǎn)間的連線表示其間存在共被引關(guān)系。[9]連線的粗細(xì)表征了共被引的強(qiáng)弱。知識基礎(chǔ)分析有利于研究某領(lǐng)域的前沿和本質(zhì)，由共引聚類來表示，共引聚類中的文獻(xiàn)越多，其知識基礎(chǔ)越大并趨于穩(wěn)定狀態(tài)。[10]教育大數(shù)據(jù)研究的知識基礎(chǔ)分析大致可分為兩類：一是早期研究的奠基性文獻(xiàn)，二是被引頻次和中心性都較高的文獻(xiàn)。

在CiteSpace V軟件中，分析對象選擇“Cited Reference”，以 Thresholding（c,cc,ccv），c（引文數(shù)量）、cc（共被引頻次）和ccv（共被引系數(shù)）三個層次上，分別設(shè)定閾值為（2,2,20），運(yùn)行軟件，得到關(guān)于教育大數(shù)據(jù)研究的共引文獻(xiàn)時間序列圖譜，如圖5所示。

圖5 共引文獻(xiàn)時間序列圖譜

由圖5可知，大數(shù)據(jù)研究的奠基性文獻(xiàn)最早可追溯到 2008 年，Borgman 在《LEARNED PUBLISHING》上出版的《Data,disciplines,and scholarly publishing》。同樣在2008年，Erik W.Black在 Internet and Higher Education上發(fā)表的《Data for free:Using LMS activity logs to measure community in online courses》。此外還有Beer D于2009年發(fā)表在《New Media&Society》上的《Power through the al gorithm?Participatory web cultures and the technological unconscious》等文獻(xiàn)。

Borgman認(rèn)為研究數(shù)據(jù)可以被重復(fù)使用，復(fù)制研究，以提出新的問題，并驗證研究結(jié)果。數(shù)據(jù)正在成為學(xué)識或?qū)W問的重要產(chǎn)物，在補(bǔ)充期刊文章、論文和書籍中所起的作用。文中指出當(dāng)鏈接到出版物和其他相關(guān)資源以形成價值鏈時，數(shù)據(jù)變得更加有價值。數(shù)據(jù)的類型和用途在學(xué)科之間差異很大，出版物的在線可用性和學(xué)者發(fā)表文章的初衷也不盡相同。出版社、學(xué)者和圖書館員都可以在構(gòu)建數(shù)字化研究的信息基礎(chǔ)設(shè)施方面發(fā)揮作用。技術(shù)、政策和機(jī)構(gòu)組成部分正在逐漸成熟，在公共存儲庫中實現(xiàn)大量的數(shù)據(jù)集，以及與出版商數(shù)據(jù)庫的鏈接，是維護(hù)和維持?jǐn)?shù)字形式的學(xué)術(shù)記錄的最有希望的解決方案。[11]

Beer在文中指出，對Web 2.0版本的描述通常被理解為大規(guī)模地轉(zhuǎn)向Web的參與式和協(xié)作版本，用戶可以在其中參與和創(chuàng)建內(nèi)容。事實上，迄今為止還沒有機(jī)會探索在這種明顯的“賦權(quán)”和“民主化”的背景下如何發(fā)揮作用。本文認(rèn)為，這是一個迫切需要關(guān)注的問題。[12]后Web2.0時代是網(wǎng)絡(luò)發(fā)展中一個重要階段，它連接著下一代互聯(lián)網(wǎng)Web3.0。在這個時代背景下，互聯(lián)網(wǎng)、物聯(lián)網(wǎng)每天都在產(chǎn)生大量的數(shù)據(jù)。“大數(shù)據(jù)的出現(xiàn)究竟帶來了什么”，必須對這些問題進(jìn)行深入的思考。

2011年，Mackenzie、Adrian等人在文中指出，連接代碼和編碼、“危機(jī)”的產(chǎn)生式和對“危機(jī)”的擔(dān)憂為探索的主題。從中分析了當(dāng)代生活中越來越多的各種各樣的代碼如何受到危機(jī)擴(kuò)散的嚴(yán)重影響。討論了跨越這些看似多樣化主題的代碼和危機(jī)耦合的三個相關(guān)方面（Signification意義，Performativity操演和Excess過度）。跨越這些看似不同的主題，作者和這個特殊問題中的其他貢獻(xiàn)者試圖超越對代碼語言限制的理解。[13]隨著大數(shù)據(jù)時代的到來這些問題顯得尤為明顯，隨之而來的教育大數(shù)據(jù)也必然存在這樣的問題，研究者應(yīng)該予以重視。

2012年，BoydD 在《Information Communication&Society》上發(fā)表的文章《CRITICAL QUESTIONS FOR BIG DATA Provocations for a cultural,technological,and scholarly phenomenon》，作者提出了大數(shù)據(jù)的關(guān)鍵性問題：大型搜索數(shù)據(jù)是否能幫助我們創(chuàng)造更好的工具、服務(wù)和公共產(chǎn)品，還是會迎來新一輪的隱私入侵和侵入性營銷；數(shù)據(jù)分析是否能幫助我們了解在線社區(qū)和政治運(yùn)動，還是使用分析來跟蹤抗議者和抑制言論；大數(shù)據(jù)會改變我們?nèi)绾窝芯咳穗H交往和文化，還是縮小研究選擇范圍，并改變“研究”的意義。文章將大數(shù)據(jù)定義為一種文化、技術(shù)和學(xué)術(shù)現(xiàn)象，并論述了六個值得深思的代表性觀點(diǎn)：①大數(shù)據(jù)改變了知識的定義。②聲稱客觀性和準(zhǔn)確性是誤導(dǎo)性的。③更大的數(shù)據(jù)并不總是更好的數(shù)據(jù)。④脫離上下文，大數(shù)據(jù)將失去意義。⑤只是因為它是可訪問的并不會使其受倫理約束。⑥有限的獲取大數(shù)據(jù)帶來了新的數(shù)字鴻溝。[14]

2013年 Eynon Rebecca在《The rise of Big Data:what does it mean foreducation,technology,and media research?》一文中提出了三組大數(shù)據(jù)在教育領(lǐng)域中的挑戰(zhàn)：①道德挑戰(zhàn)，大數(shù)據(jù)代表了一系列倫理道德方面的考慮，特別是要考慮關(guān)于隱私、知情同意和對傷害的防護(hù)等方面，并提出了更廣泛的問題——應(yīng)該將哪些數(shù)據(jù)結(jié)合和分析，以及運(yùn)用其達(dá)到何種目的。②確保了解使用大數(shù)據(jù)可以或不能執(zhí)行的研究種類。③圍繞不平等問題的挑戰(zhàn)。除此之外作者提出了一些實際問題——大家如何熟練地進(jìn)行這種分析、在多學(xué)科團(tuán)隊中學(xué)習(xí)與他人合作是否足夠。[15]這些問題的提出為后期研究者繼續(xù)研究教育大數(shù)據(jù)時提供參考，有利于問題進(jìn)一步得到解決。

2014年Di Cerbo和Behrens在《Impacts of the Digital Ocean on Education》一文中提出了“數(shù)字海洋”概念，“數(shù)字海洋”用來描述與數(shù)字工具交互獲得的超大規(guī)模數(shù)據(jù)。正如“大數(shù)據(jù)”正在轉(zhuǎn)變其他行業(yè)，如保險、金融、零售和職業(yè)體育，“數(shù)字海洋”將及時轉(zhuǎn)變教育。它將解決一些長期困擾教育工作者的問題，從而實現(xiàn)從課堂到整個系統(tǒng)的各個層面的循證政策的長期愿望。[16]文中通過設(shè)定一個希望取得成功的愿景：他們將教學(xué)、學(xué)習(xí)和評估視為一個綜合過程的三個不同方面，隨時/實時互相補(bǔ)充；他們看到更復(fù)雜的教育成果，如個人和個人的技能，并使之變得可評估、可教導(dǎo)和可學(xué)習(xí)。但是，作者也對讀者提出了要求——在21世紀(jì)的學(xué)習(xí)中，對學(xué)習(xí)、推理和技術(shù)從不同角度進(jìn)行思考。

（2）關(guān)鍵性文獻(xiàn)分析

關(guān)鍵性文獻(xiàn)指被引頻次或中心性比較高的文獻(xiàn)。在CiteSpace V 中，分析對象選擇“Cited Reference”，運(yùn)行CiteSpace軟件得到文獻(xiàn)共被引圖譜，便于直觀地呈現(xiàn)關(guān)鍵節(jié)點(diǎn)文獻(xiàn)，如圖6所示。

圖6 文獻(xiàn)共被引圖譜

根據(jù)軟件運(yùn)行結(jié)果，將被引頻次排前10的文獻(xiàn)導(dǎo)出，如表4所示。

表4 被引頻次前10的文獻(xiàn)

結(jié)合圖6和表4可知，來自科瓦多爾大學(xué)教授Romero Cristobal在 2010年發(fā)表的《Educational Data Mining:A Review of the State of the Art》一文被引頻次13次，中心性0.50，影響力較大，是教育大數(shù)據(jù)領(lǐng)域的關(guān)鍵性文獻(xiàn)。文中調(diào)查了迄今為止在教育領(lǐng)域進(jìn)行的最相關(guān)的研究。首先介紹EDM（教育數(shù)據(jù)挖掘），并描述不同用戶組，教育環(huán)境類型及其提供的數(shù)據(jù)。然后，列出通過數(shù)據(jù)挖掘技術(shù)解決的教育環(huán)境中最典型/最常見的任務(wù)，最后討論一些最有潛力的未來研究課題。文中對EDM方面進(jìn)行了最新情況的回顧，并對該領(lǐng)域迄今為止最為相關(guān)的研究工作進(jìn)行了調(diào)查。對每個研究都進(jìn)行了分類，這些研究類目來自不同的研究平臺（e-learning/LMS和ITS/AEHS），使用了不同的數(shù)據(jù)挖掘技術(shù)或方法（決策樹、神經(jīng)網(wǎng)絡(luò)以及貝葉斯網(wǎng)絡(luò)），完成數(shù)據(jù)挖掘任務(wù)（回歸、聚類、分類以及關(guān)聯(lián)規(guī)則挖掘）。[17]教育數(shù)據(jù)挖掘是一個新興的跨學(xué)科研究領(lǐng)域，主要任務(wù)是開發(fā)一些用于探索源自教育環(huán)境中數(shù)據(jù)的方法。為了研究教育問題，教育數(shù)據(jù)挖掘使用計算方法來分析教育數(shù)據(jù)。

Romero Cristobal在2007年發(fā)表的論文《Educational data mining:A survey from 1995 to 2005》被引頻次10次，中心性0.37，是教育大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵性文獻(xiàn)之一。文中提出了在教育系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘的循環(huán)模型，是集形成假設(shè)、測試和修復(fù)的迭代循環(huán)系統(tǒng)。并指出數(shù)據(jù)挖掘技術(shù)可以探測出有用的信息，用于形成性評估，以協(xié)助教育者，為設(shè)計教學(xué)情境修改教學(xué)方法時提供決策并建立教學(xué)基礎(chǔ)。[18]文中對數(shù)據(jù)挖掘在教育系統(tǒng)中應(yīng)用的多角度分析，包括面向?qū)W生、教師、學(xué)術(shù)負(fù)責(zé)人和管理員，為后期教育大數(shù)據(jù)研究模型的構(gòu)建做出了重要貢獻(xiàn)。

懷卡托大學(xué)的計算機(jī)科學(xué)系教授Witten I在2005年編著了一本數(shù)據(jù)挖掘領(lǐng)域經(jīng)典教材《Data Mining:Practical Machine Learning Tools and Techniques，Second Edition》（《數(shù)據(jù)挖掘：實用機(jī)器學(xué)習(xí)技術(shù)》），自第一版出版后對上一版內(nèi)容進(jìn)行了全面更新：數(shù)據(jù)挖掘領(lǐng)域的技術(shù)變革和新方法，包括數(shù)據(jù)轉(zhuǎn)換、集成學(xué)習(xí)、大規(guī)模數(shù)據(jù)集、多示例學(xué)習(xí)方面的新材料，以及新版的Weka機(jī)器學(xué)習(xí)軟件。[19]機(jī)器學(xué)習(xí)（Machine Learning）是計算機(jī)科學(xué)的一個子領(lǐng)域，機(jī)器學(xué)習(xí)關(guān)注預(yù)測，是對已知的特性進(jìn)行預(yù)測。數(shù)據(jù)挖掘使用機(jī)器學(xué)習(xí)的手法，關(guān)注從數(shù)據(jù)中發(fā)現(xiàn)未知的特性。因此，這本專著屬于教育大數(shù)據(jù)領(lǐng)域研究的關(guān)鍵性文獻(xiàn)之一，為后續(xù)教育大數(shù)據(jù)研究提供了參考和線索。

四、結(jié)論

本文以Web of Science核心合集中SCI和SSCI兩個數(shù)據(jù)庫收錄的近年來教育大數(shù)據(jù)研究文獻(xiàn)為來源，通過使用CiteSpace V軟件，對客觀呈現(xiàn)的圖表信息從教育大數(shù)據(jù)的研究力量分布、知識基礎(chǔ)及研究熱點(diǎn)等方面進(jìn)行分析。

圖譜揭示教育大數(shù)據(jù)研究的外部特征表明，研究力量主要分布于普渡大學(xué)、斯坦福大學(xué)及微軟科技公司為核心的研究團(tuán)體，其中最大的研究群體是普渡大學(xué)。西班牙地域的主要研究機(jī)構(gòu)有科爾多瓦大學(xué)，其他研究群都含有多個機(jī)構(gòu)。Romero C作為學(xué)科研究的領(lǐng)軍人物，文獻(xiàn)貢獻(xiàn)量最大，影響力較高。Witten I和Yacef K等作為學(xué)科研究帶頭人，學(xué)術(shù)研究貢獻(xiàn)量較大。

教育大數(shù)據(jù)共引文獻(xiàn)時間序列圖譜及文獻(xiàn)共被引圖譜顯示了教育大數(shù)據(jù)研究的知識基礎(chǔ)。數(shù)據(jù)可以復(fù)制利用已被證實，通過高精儀器的科學(xué)與工程研究，正在以更高的速度生成比以往任何時候都要多的數(shù)據(jù)。隨著在網(wǎng)絡(luò)世界中對教育、商業(yè)和社會活動更多的交流和溝通，正在形成廣泛的數(shù)字化跟蹤，產(chǎn)生一系列行為數(shù)據(jù)，這些數(shù)據(jù)對人類活動的建模和對個人反饋的定制非常有價值?！按髷?shù)據(jù)的出現(xiàn)究竟帶來了什么”，必須對這個問題進(jìn)行深入的思考。

關(guān)鍵性文獻(xiàn)分析表明，經(jīng)典國外文獻(xiàn)為國內(nèi)的教育大數(shù)據(jù)研究提供了豐富的理論基礎(chǔ)和分析框架，主要涉及數(shù)據(jù)挖掘在教育系統(tǒng)中運(yùn)用循環(huán)模型，以協(xié)助教育者，為設(shè)計教學(xué)情境修改教學(xué)方法時提供決策并建立教學(xué)基礎(chǔ)。教育數(shù)據(jù)挖掘是一個新興的跨學(xué)科研究領(lǐng)域，主要任務(wù)是開發(fā)一些用于探索源自教育環(huán)境中數(shù)據(jù)的方法。為了研究教育問題，教育數(shù)據(jù)挖掘使用計算方法來分析教育數(shù)據(jù)。

關(guān)鍵詞共現(xiàn)圖譜直觀呈現(xiàn)了國外教育大數(shù)據(jù)研究熱點(diǎn)，主要包括數(shù)據(jù)挖掘、學(xué)習(xí)分析、教育數(shù)據(jù)挖掘。利用數(shù)據(jù)挖掘和學(xué)習(xí)分析技術(shù)可以依據(jù)學(xué)習(xí)者學(xué)習(xí)行為有效預(yù)測學(xué)習(xí)者學(xué)習(xí)偏好，跟蹤學(xué)習(xí)者學(xué)習(xí)狀態(tài)，必要時進(jìn)行干預(yù)，有助于提高學(xué)習(xí)效果并實現(xiàn)個性化教學(xué)。

目前，大數(shù)據(jù)在教育領(lǐng)域中面臨三大挑戰(zhàn)，也就是研究領(lǐng)域所關(guān)注的三個值得研究的問題：其一，數(shù)據(jù)越大是否就是好數(shù)據(jù)，由于數(shù)據(jù)的類型和用途在學(xué)科之間差異很大，須考慮教育領(lǐng)域大數(shù)據(jù)的準(zhǔn)確性和可行性；其二，采集的大數(shù)據(jù)是否滿足可證偽條件，教育領(lǐng)域大數(shù)據(jù)只有滿足了可證偽條件的驗證，方能保證大數(shù)據(jù)的客觀性和準(zhǔn)確性；其三，限制性采集大數(shù)據(jù)所創(chuàng)建的新數(shù)據(jù)是否會形成信息孤島從而影響數(shù)據(jù)共享，限制性地獲取教育大數(shù)據(jù)，易形成數(shù)字鴻溝，從而影響數(shù)據(jù)共享。總之，為了保證教育大數(shù)據(jù)的均衡發(fā)展，需要在安全、應(yīng)用、治理方面進(jìn)行深入研究。

[1]維克托·邁爾-舍恩伯格著,盛揚(yáng)燕、周濤譯.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2012.

[2]楊現(xiàn)民,王榴卉,唐斯斯.教育大數(shù)據(jù)的應(yīng)用模式與政策建議[J].電化教育研究,2015(9):54-61,69.

[3]馬費(fèi)成,張勤.國內(nèi)外知識管理研究熱點(diǎn)——基于詞頻的統(tǒng)計分析[J].情報學(xué)報,2006,25(2):163-171.

[4]羅式勝.文獻(xiàn)計量學(xué)概論[M].廣州:中山大學(xué)出版社,1994.

[5]Chen C.M.Cite Space II:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for information Science and Technology,2006,57(3),359-377.

[6]何曉萍,江毅,萬昆.基于 Web of Science 的MOOC研究可視化分析[J].現(xiàn)代情報,2015(8):92-99.

[7]陳超美.Cite SpaceⅡ:科學(xué)文獻(xiàn)中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009,28(3):401-402.

[8]Bienkowski,M.,Feng,M.&Means,B.(2012).Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics:An Issue Brief[EB/OL].http://www.ed.gov/edblogs/technology/files/edm-la-brief.pdf.

[9]Small H.Co-citation in Scientific Literature:New Measure of Relationship between 2 Documents[J].Journal of the American Society For Information Science,1973,24(4):265-269.

[10]Persson O.The intellectual base and research fronts of JASIS 1986－1990[J].Journal of the American Society for Information Science,1994,45(1):31－38.

[11]Borgman C L.Data,disciplines,and scholarly publishing[M].Learned Publishing,2008,21(1):29-38.

[12]Beer D.Power through the algorithm?Participatory web cultures and the technological unconscious[J].NEW MEDIA SOC,2009,11(6):985-1002.

[13]Mackenzie A,Vurdubakis,T.Codes and Codings in Crisis Signification,Performativity and Excess[J].Theory Culture&Society,2011,28(6):3-23.

[14]Boyd,D.CRITICAL QUESTIONS FOR BIG DATA Provocations for a cultural,technological,and scholarly phenomenon[J].Information Communication&Society,2012,15(5):662-679.

[15]Eynon R.The rise of Big Data:what does it mean for education,technology,and media research?[J].Learning Media and Technology,2013,38(3):237-240.

[16]Di Cerbo.K.E.&Behrens,J.T.(2014)Impacts of the Digital Ocean[M].London:Pearson.

[17]Romero C.Educational Data Mining:A Review of the State of the Art[J].IEEETRANSACTIONS ON SYSTEMS MAN AND CYBERNETICS PART C-APPLICATIONS AND REVIEWS,2010,40(6):601-608.

[18]Remero C.Educational data mining:A survey from 1995 to 2005[J].Expert Systems with Applications,33(2007):135-146.

[19]IanH.Witten,EibeFrank.Data mining:practical machine learning tools and techniques=數(shù)據(jù)挖掘:實用機(jī)器學(xué)習(xí)技術(shù)/2nd[M].China Machine Press,2005.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡