梅鵬飛,何曉萍
(南昌大學(xué) 體育與教育學(xué)院,江西 南昌 330031)
《大數(shù)據(jù)時代》的作者維克托·邁爾-舍恩伯格開創(chuàng)了國外大數(shù)據(jù)研究先河,并通過4個“V”描述了大數(shù)據(jù)具有的四大特征。即數(shù)據(jù)體量大(Volume)、數(shù)據(jù)類型多(Variety)、數(shù)據(jù)價值密度低(Value)、數(shù)據(jù)具有實效性(Velocity)四大特征。[1]教育大數(shù)據(jù)是大數(shù)據(jù)的一個子集,特指教育領(lǐng)域的大數(shù)據(jù),是整個教育活動過程中所產(chǎn)生的以及根據(jù)教育需要采集到的,一切用于教育發(fā)展并可創(chuàng)造巨大潛在價值的數(shù)據(jù)集合。[2]本文采用詞頻分析法和引文分析法,使用CiteSpace軟件對Web of Science核心合集中SCI和SSCI兩個數(shù)據(jù)庫中教育大數(shù)據(jù)研究的相關(guān)文獻(xiàn)進(jìn)行了搜索、梳理,客觀生成的國外教育大數(shù)據(jù)研究的知識圖譜,揭示了國外教育大數(shù)據(jù)研究領(lǐng)域、研究力量分布、知識基礎(chǔ)與研究熱點(diǎn)主題。有效的數(shù)據(jù)分析,以期為我國教育大數(shù)據(jù)的進(jìn)一步研究提供參考和借鑒。
詞頻分析法是指分析某學(xué)科領(lǐng)域特定時間內(nèi)發(fā)表的文獻(xiàn)關(guān)鍵詞,通過關(guān)鍵詞出現(xiàn)的頻次的高低及頻次的變化趨勢來確定該領(lǐng)域研究重點(diǎn)和發(fā)展方向的文獻(xiàn)計量方法。[3]引文分析法,利用數(shù)學(xué)及統(tǒng)計學(xué)方法進(jìn)行比較、歸納、抽象、概括等,對科學(xué)期刊、論文、著者等分析對象的引用和被引用現(xiàn)象進(jìn)行分析,以揭示其數(shù)量特征和內(nèi)在規(guī)律的一種信息計量研究方法。[4]本文利用詞頻分析法和引文分析法,分析國外教育大數(shù)據(jù)研究的領(lǐng)域分布、知識基礎(chǔ)與熱點(diǎn)主題。采取定量研究與定性研究相結(jié)合的方法,首先結(jié)合詞頻分析法、引文分析法對相關(guān)文獻(xiàn)進(jìn)行定量分析,再通過定性分析加以補(bǔ)充。
為確保文獻(xiàn)的權(quán)威性,本文以Web of Science核心合集中SCI和SSCI兩個數(shù)據(jù)庫作為文獻(xiàn)信息來源,檢索策略中以“big data”、“education”作為主題詞,時間限制為2007-2017年,限定學(xué)科為Education Educational Research,文獻(xiàn)類型為Article,搜索、篩選、整理得到209條相關(guān)文獻(xiàn)。導(dǎo)出文獻(xiàn)數(shù)據(jù)的題錄信息,以全記錄格式保存,保存日期為2017年6月8日。
本文分析工具采用陳超美博士及其團(tuán)隊開發(fā)的基于Java語言的可視化分析軟件CiteSpace V,這是一款專門用于學(xué)術(shù)文獻(xiàn)分析的信息可視化分析工具。目前已廣泛應(yīng)用于探測、分析學(xué)科研究前沿的發(fā)展趨勢以及研究前沿與知識基礎(chǔ)之間、不同研究前沿之間的關(guān)系。[5]可視化工具以圖表形式直觀展現(xiàn)關(guān)鍵詞的熱點(diǎn)分布及領(lǐng)域走向,揭示了研究主題的外表特征,且圖譜的數(shù)據(jù)為科學(xué)、客觀地分析教育大數(shù)據(jù)提供了依據(jù)。
國際教育大數(shù)據(jù)研究10年來發(fā)文數(shù)量及引文數(shù)量統(tǒng)計與分析結(jié)果如圖1、圖2所示。從圖中可以看出,國際教育大數(shù)據(jù)研究的發(fā)文數(shù)量2007至2013逐年增長,2013達(dá)到一個小高峰,2014年有所回落,但比較穩(wěn)定;2015至2016年關(guān)于教育大數(shù)據(jù)研究又開始受到更多研究者的關(guān)注,2016年又達(dá)到頂峰。而引文數(shù)量在2008-2012年亦逐年增長,且增速比較顯著。結(jié)合圖1和圖2來看,發(fā)文數(shù)量越多,相應(yīng)的引文數(shù)量也越多,其走向有著密切的相關(guān)性。說明了隨著大數(shù)據(jù)時代的到來,教育大數(shù)據(jù)研究越來越受重視。
圖1 年度發(fā)文數(shù)量
圖2 年度引文數(shù)量
在CiteSpace V中設(shè)置時間切片為1,時間設(shè)置為2007-2017年,分析對象同時選擇“Institution”和“Country”,選擇 TopN,N 值設(shè)為 50,采用 Pathfinder(尋徑)算法,運(yùn)行CiteSpace V,得到教育大數(shù)據(jù)國家和地區(qū)圖譜,如圖3所示。
圖3 教育大數(shù)據(jù)研究國家(地區(qū))及機(jī)構(gòu)圖譜
其中,圓形節(jié)點(diǎn)代表國家(地區(qū)),處于連接線上的小節(jié)點(diǎn)代表機(jī)構(gòu)。圓圈的大小代表發(fā)文數(shù)量,圓圈越大表示發(fā)文數(shù)量越多;節(jié)點(diǎn)間的連線代表合作程度,節(jié)點(diǎn)間的連線越多,表示合作越密切;節(jié)點(diǎn)最外層的紫色圓環(huán)代表中心性,中心性越大,表示在該領(lǐng)域內(nèi)影響力越大。[6]從圖3中可以看出,節(jié)點(diǎn)最大的國家是美國(USA),其次是西班牙(SPAIN)。
從表1中可見,被引頻次最高的是美國,文獻(xiàn)貢獻(xiàn)率最大,接下來是西班牙、澳大利亞、英國、土耳其、加拿大。從整個圖譜來看,美國最外層的紫色圓環(huán)最大,節(jié)點(diǎn)中心性最高,說明美國在教育大數(shù)據(jù)領(lǐng)域占有領(lǐng)先地位。同時,美國與其他國家的節(jié)點(diǎn)間連線較多。由此可見,圖譜中絕大多數(shù)國家與美國有合作關(guān)系。
美國關(guān)于教育大數(shù)據(jù)研究機(jī)構(gòu)主要集中在大學(xué)和科技公司(Microsoft),如普渡大學(xué)、斯坦福大學(xué)、美國佐治亞大學(xué)、匹茲堡大學(xué)等;西班牙的主要研究機(jī)構(gòu)有科爾多瓦大學(xué)、馬德里科技大學(xué)、西班牙格拉納達(dá)大學(xué)等;澳大利亞主要有莫納什大學(xué)、堪培拉大學(xué)、麥考瑞大學(xué)等;英國主要研究機(jī)構(gòu)有倫敦大學(xué)、諾丁漢大學(xué)、英國普利茅斯大學(xué)等;土耳其具有代表性的機(jī)構(gòu)有哈希德佩大學(xué)、加齊大學(xué)等;加拿大主要研究機(jī)構(gòu)有皇家大學(xué)、卡爾加里大學(xué)等。這些國家和機(jī)構(gòu)在教育大數(shù)據(jù)研究方向占有重要地位,研究者給予了更多關(guān)注。
在CiteSpace V軟件界面中選擇分析對象為關(guān)鍵詞(Keyword),其余設(shè)置不變。運(yùn)行軟件,得到關(guān)于教育大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵詞共現(xiàn)圖譜,如圖4所示。圖譜中,節(jié)點(diǎn)(圓圈)大小代表關(guān)鍵詞共現(xiàn)頻次,圓圈內(nèi)環(huán)不同顏色代表其出現(xiàn)的相應(yīng)年份,節(jié)點(diǎn)紫色圓環(huán)(在黑白圖中用圓環(huán)粗細(xì)顯示)表示關(guān)鍵詞具有高度中心性。中心性越高的節(jié)點(diǎn),對其他節(jié)點(diǎn)間的聯(lián)系起控制作用,這也體現(xiàn)其在整個網(wǎng)絡(luò)中的重要地位。[7]
表1 教育大數(shù)據(jù)研究力量分布統(tǒng)計
圖4 關(guān)鍵詞共現(xiàn)圖譜
圖4揭示了國際教育大數(shù)據(jù)研究熱點(diǎn),節(jié)點(diǎn)最大的是“data mining(數(shù)據(jù)挖掘)”,具體包括“education(教育)”、“performance (績效)”、“high education (高等教育)”、“model (模型)”、“technology (技術(shù))”、“education data mining (教育數(shù)據(jù)挖掘)”、“big data (大數(shù)據(jù))”、“l(fā)earning analytics(學(xué)習(xí)分析)”。通過合并同義詞后,從運(yùn)行結(jié)果中導(dǎo)出前被引頻次大于10的關(guān)鍵詞,如表2所示。
表2 被引頻次>10的關(guān)鍵詞排列表
結(jié)合圖4所示圖譜中關(guān)鍵詞的圓圈大小、紫色圓環(huán)粗細(xì),以及表3所示關(guān)鍵詞中心性大小,可以發(fā)現(xiàn)頻次排在前9的關(guān)鍵詞,其中心性都較高,并處于圖譜中心位置,表示它們與其他關(guān)鍵詞存在著緊密的關(guān)聯(lián)性,節(jié)點(diǎn)年輪較為突出。綜合分析發(fā)現(xiàn),2007-2017年教育大數(shù)據(jù)研究的關(guān)注點(diǎn)主要在“data mining(數(shù)據(jù)挖掘)”、“performance(績效)”、“education(教育)”、“big data(大數(shù)據(jù))”、“higher education(高等教育)”、“technology(技術(shù))”、“l(fā)earning analytics (學(xué)習(xí)分析)”、“education data mining(教育數(shù)據(jù)挖掘)”,在教育大數(shù)據(jù)研究中占有重要地位。
表3 關(guān)鍵詞中心性排列表
在線教育和大數(shù)據(jù)時代背景下,計算機(jī)領(lǐng)域(數(shù)據(jù)挖掘)與教育領(lǐng)域相結(jié)合是一種必然的趨勢。大數(shù)據(jù)在教育領(lǐng)域中的應(yīng)用主要有學(xué)習(xí)分析(Learning Analytics)和教育數(shù)據(jù)挖掘(Education data mining)。[8]利用數(shù)據(jù)挖掘和學(xué)習(xí)分析技術(shù)可以依據(jù)學(xué)習(xí)者學(xué)習(xí)行為有效預(yù)測學(xué)習(xí)者學(xué)習(xí)偏好,跟蹤學(xué)習(xí)者學(xué)習(xí)狀態(tài),必要時進(jìn)行干預(yù),有助于提高學(xué)習(xí)效果并實現(xiàn)個性化教學(xué)。目前,教育大數(shù)據(jù)研究領(lǐng)域的熱點(diǎn),主要是圍繞大數(shù)據(jù)的概念表征、教育(高等教育)、數(shù)據(jù)挖掘以及學(xué)習(xí)分析等基礎(chǔ)理論的研究。
教育大數(shù)據(jù)研究也存在一些亟待解決的問題。其一,教育數(shù)據(jù)由教育者和受教育者進(jìn)行教學(xué)活動所產(chǎn)生,對主導(dǎo)-主體相結(jié)合的教學(xué)行為和學(xué)習(xí)行為,具有潛在的應(yīng)用價值,但也涉及教師和學(xué)生的隱私,保護(hù)不當(dāng)會帶來嚴(yán)重的后果。其二,在算法研究上要加大安全系數(shù),以防黑客惡意入侵(如2017年5月份出現(xiàn)的勒索病毒攻擊教育網(wǎng)站及幾所高校導(dǎo)致畢業(yè)論文系統(tǒng)癱瘓)。
本節(jié)對教育大數(shù)據(jù)進(jìn)行知識基礎(chǔ)的分析,目的是對研究某領(lǐng)域的發(fā)展歷程和前沿有一個清晰的了解。其中主要包括奠基性文獻(xiàn)分析和關(guān)鍵性文獻(xiàn)分析。
(1)奠基性文獻(xiàn)分析
文獻(xiàn)共被引圖譜反映了對應(yīng)研究領(lǐng)域的知識基礎(chǔ)。若兩篇文獻(xiàn)同時被其他文獻(xiàn)引用,則這兩篇文獻(xiàn)間就存在共被引關(guān)系。參考文獻(xiàn)通過共被引關(guān)系構(gòu)成了文獻(xiàn)共被引圖譜。在圖譜中,節(jié)點(diǎn)表示參考文獻(xiàn),節(jié)點(diǎn)間的連線表示其間存在共被引關(guān)系。[9]連線的粗細(xì)表征了共被引的強(qiáng)弱。知識基礎(chǔ)分析有利于研究某領(lǐng)域的前沿和本質(zhì),由共引聚類來表示,共引聚類中的文獻(xiàn)越多,其知識基礎(chǔ)越大并趨于穩(wěn)定狀態(tài)。[10]教育大數(shù)據(jù)研究的知識基礎(chǔ)分析大致可分為兩類:一是早期研究的奠基性文獻(xiàn),二是被引頻次和中心性都較高的文獻(xiàn)。
在CiteSpace V軟件中,分析對象選擇“Cited Reference”,以 Thresholding(c,cc,ccv),c(引文數(shù)量)、cc(共被引頻次)和ccv(共被引系數(shù))三個層次上,分別設(shè)定閾值為(2,2,20),運(yùn)行軟件,得到關(guān)于教育大數(shù)據(jù)研究的共引文獻(xiàn)時間序列圖譜,如圖5所示。
圖5 共引文獻(xiàn)時間序列圖譜
由圖5可知,大數(shù)據(jù)研究的奠基性文獻(xiàn)最早可追溯到 2008 年,Borgman 在《LEARNED PUBLISHING》上出版的《Data,disciplines,and scholarly publishing》。 同樣在2008年,Erik W.Black在 Internet and Higher Education上發(fā)表的《Data for free:Using LMS activity logs to measure community in online courses》。此外還有Beer D于2009年發(fā)表在《New Media&Society》上的《Power through the al gorithm?Participatory web cultures and the technological unconscious》等文獻(xiàn)。
Borgman認(rèn)為研究數(shù)據(jù)可以被重復(fù)使用,復(fù)制研究,以提出新的問題,并驗證研究結(jié)果。數(shù)據(jù)正在成為學(xué)識或?qū)W問的重要產(chǎn)物,在補(bǔ)充期刊文章、論文和書籍中所起的作用。文中指出當(dāng)鏈接到出版物和其他相關(guān)資源以形成價值鏈時,數(shù)據(jù)變得更加有價值。數(shù)據(jù)的類型和用途在學(xué)科之間差異很大,出版物的在線可用性和學(xué)者發(fā)表文章的初衷也不盡相同。出版社、學(xué)者和圖書館員都可以在構(gòu)建數(shù)字化研究的信息基礎(chǔ)設(shè)施方面發(fā)揮作用。技術(shù)、政策和機(jī)構(gòu)組成部分正在逐漸成熟,在公共存儲庫中實現(xiàn)大量的數(shù)據(jù)集,以及與出版商數(shù)據(jù)庫的鏈接,是維護(hù)和維持?jǐn)?shù)字形式的學(xué)術(shù)記錄的最有希望的解決方案。[11]
Beer在文中指出,對Web 2.0版本的描述通常被理解為大規(guī)模地轉(zhuǎn)向Web的參與式和協(xié)作版本,用戶可以在其中參與和創(chuàng)建內(nèi)容。事實上,迄今為止還沒有機(jī)會探索在這種明顯的“賦權(quán)”和“民主化”的背景下如何發(fā)揮作用。本文認(rèn)為,這是一個迫切需要關(guān)注的問題。[12]后Web2.0時代是網(wǎng)絡(luò)發(fā)展中一個重要階段,它連接著下一代互聯(lián)網(wǎng)Web3.0。在這個時代背景下,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)每天都在產(chǎn)生大量的數(shù)據(jù)。“大數(shù)據(jù)的出現(xiàn)究竟帶來了什么”,必須對這些問題進(jìn)行深入的思考。
2011年,Mackenzie、Adrian等人在文中指出,連接代碼和編碼、“危機(jī)”的產(chǎn)生式和對“危機(jī)”的擔(dān)憂為探索的主題。從中分析了當(dāng)代生活中越來越多的各種各樣的代碼如何受到危機(jī)擴(kuò)散的嚴(yán)重影響。討論了跨越這些看似多樣化主題的代碼和危機(jī)耦合的三個相關(guān)方面(Signification意義,Performativity操演和Excess過度)。跨越這些看似不同的主題,作者和這個特殊問題中的其他貢獻(xiàn)者試圖超越對代碼語言限制的理解。[13]隨著大數(shù)據(jù)時代的到來這些問題顯得尤為明顯,隨之而來的教育大數(shù)據(jù)也必然存在這樣的問題,研究者應(yīng)該予以重視。
2012年,BoydD 在 《Information Communication&Society》上發(fā)表的文章《CRITICAL QUESTIONS FOR BIG DATA Provocations for a cultural,technological,and scholarly phenomenon》,作者提出了大數(shù)據(jù)的關(guān)鍵性問題:大型搜索數(shù)據(jù)是否能幫助我們創(chuàng)造更好的工具、服務(wù)和公共產(chǎn)品,還是會迎來新一輪的隱私入侵和侵入性營銷;數(shù)據(jù)分析是否能幫助我們了解在線社區(qū)和政治運(yùn)動,還是使用分析來跟蹤抗議者和抑制言論;大數(shù)據(jù)會改變我們?nèi)绾窝芯咳穗H交往和文化,還是縮小研究選擇范圍,并改變“研究”的意義。文章將大數(shù)據(jù)定義為一種文化、技術(shù)和學(xué)術(shù)現(xiàn)象,并論述了六個值得深思的代表性觀點(diǎn):①大數(shù)據(jù)改變了知識的定義。②聲稱客觀性和準(zhǔn)確性是誤導(dǎo)性的。③更大的數(shù)據(jù)并不總是更好的數(shù)據(jù)。④脫離上下文,大數(shù)據(jù)將失去意義。⑤只是因為它是可訪問的并不會使其受倫理約束。⑥有限的獲取大數(shù)據(jù)帶來了新的數(shù)字鴻溝。[14]
2013年 Eynon Rebecca在《The rise of Big Data:what does it mean foreducation,technology,and media research?》一文中提出了三組大數(shù)據(jù)在教育領(lǐng)域中的挑戰(zhàn):①道德挑戰(zhàn),大數(shù)據(jù)代表了一系列倫理道德方面的考慮,特別是要考慮關(guān)于隱私、知情同意和對傷害的防護(hù)等方面,并提出了更廣泛的問題——應(yīng)該將哪些數(shù)據(jù)結(jié)合和分析,以及運(yùn)用其達(dá)到何種目的。②確保了解使用大數(shù)據(jù)可以或不能執(zhí)行的研究種類。③圍繞不平等問題的挑戰(zhàn)。除此之外作者提出了一些實際問題——大家如何熟練地進(jìn)行這種分析、在多學(xué)科團(tuán)隊中學(xué)習(xí)與他人合作是否足夠。[15]這些問題的提出為后期研究者繼續(xù)研究教育大數(shù)據(jù)時提供參考,有利于問題進(jìn)一步得到解決。
2014年Di Cerbo和Behrens在《Impacts of the Digital Ocean on Education》一文中提出了“數(shù)字海洋”概念,“數(shù)字海洋”用來描述與數(shù)字工具交互獲得的超大規(guī)模數(shù)據(jù)。正如“大數(shù)據(jù)”正在轉(zhuǎn)變其他行業(yè),如保險、金融、零售和職業(yè)體育,“數(shù)字海洋”將及時轉(zhuǎn)變教育。它將解決一些長期困擾教育工作者的問題,從而實現(xiàn)從課堂到整個系統(tǒng)的各個層面的循證政策的長期愿望。[16]文中通過設(shè)定一個希望取得成功的愿景:他們將教學(xué)、學(xué)習(xí)和評估視為一個綜合過程的三個不同方面,隨時/實時互相補(bǔ)充;他們看到更復(fù)雜的教育成果,如個人和個人的技能,并使之變得可評估、可教導(dǎo)和可學(xué)習(xí)。但是,作者也對讀者提出了要求——在21世紀(jì)的學(xué)習(xí)中,對學(xué)習(xí)、推理和技術(shù)從不同角度進(jìn)行思考。
(2)關(guān)鍵性文獻(xiàn)分析
關(guān)鍵性文獻(xiàn)指被引頻次或中心性比較高的文獻(xiàn)。在CiteSpace V 中,分析對象選擇“Cited Reference”,運(yùn)行CiteSpace軟件得到文獻(xiàn)共被引圖譜,便于直觀地呈現(xiàn)關(guān)鍵節(jié)點(diǎn)文獻(xiàn),如圖6所示。
圖6 文獻(xiàn)共被引圖譜
根據(jù)軟件運(yùn)行結(jié)果,將被引頻次排前10的文獻(xiàn)導(dǎo)出,如表4所示。
表4 被引頻次前10的文獻(xiàn)
結(jié)合圖6和表4可知,來自科瓦多爾大學(xué)教授Romero Cristobal在 2010年發(fā)表的 《Educational Data Mining:A Review of the State of the Art》一文被引頻次13次,中心性0.50,影響力較大,是教育大數(shù)據(jù)領(lǐng)域的關(guān)鍵性文獻(xiàn)。文中調(diào)查了迄今為止在教育領(lǐng)域進(jìn)行的最相關(guān)的研究。首先介紹EDM(教育數(shù)據(jù)挖掘),并描述不同用戶組,教育環(huán)境類型及其提供的數(shù)據(jù)。然后,列出通過數(shù)據(jù)挖掘技術(shù)解決的教育環(huán)境中最典型/最常見的任務(wù),最后討論一些最有潛力的未來研究課題。文中對EDM方面進(jìn)行了最新情況的回顧,并對該領(lǐng)域迄今為止最為相關(guān)的研究工作進(jìn)行了調(diào)查。對每個研究都進(jìn)行了分類,這些研究類目來自不同的研究平臺(e-learning/LMS和ITS/AEHS),使用了不同的數(shù)據(jù)挖掘技術(shù)或方法(決策樹、神經(jīng)網(wǎng)絡(luò)以及貝葉斯網(wǎng)絡(luò)),完成數(shù)據(jù)挖掘任務(wù)(回歸、聚類、分類以及關(guān)聯(lián)規(guī)則挖掘)。[17]教育數(shù)據(jù)挖掘是一個新興的跨學(xué)科研究領(lǐng)域,主要任務(wù)是開發(fā)一些用于探索源自教育環(huán)境中數(shù)據(jù)的方法。為了研究教育問題,教育數(shù)據(jù)挖掘使用計算方法來分析教育數(shù)據(jù)。
Romero Cristobal在2007年發(fā)表的論文《Educational data mining:A survey from 1995 to 2005》被引頻次10次,中心性0.37,是教育大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵性文獻(xiàn)之一。文中提出了在教育系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘的循環(huán)模型,是集形成假設(shè)、測試和修復(fù)的迭代循環(huán)系統(tǒng)。并指出數(shù)據(jù)挖掘技術(shù)可以探測出有用的信息,用于形成性評估,以協(xié)助教育者,為設(shè)計教學(xué)情境修改教學(xué)方法時提供決策并建立教學(xué)基礎(chǔ)。[18]文中對數(shù)據(jù)挖掘在教育系統(tǒng)中應(yīng)用的多角度分析,包括面向?qū)W生、教師、學(xué)術(shù)負(fù)責(zé)人和管理員,為后期教育大數(shù)據(jù)研究模型的構(gòu)建做出了重要貢獻(xiàn)。
懷卡托大學(xué)的計算機(jī)科學(xué)系教授Witten I在2005年編著了一本數(shù)據(jù)挖掘領(lǐng)域經(jīng)典教材 《Data Mining:Practical Machine Learning Tools and Techniques,Second Edition》(《數(shù)據(jù)挖掘:實用機(jī)器學(xué)習(xí)技術(shù)》),自第一版出版后對上一版內(nèi)容進(jìn)行了全面更新:數(shù)據(jù)挖掘領(lǐng)域的技術(shù)變革和新方法,包括數(shù)據(jù)轉(zhuǎn)換、集成學(xué)習(xí)、大規(guī)模數(shù)據(jù)集、多示例學(xué)習(xí)方面的新材料,以及新版的Weka機(jī)器學(xué)習(xí)軟件。[19]機(jī)器學(xué)習(xí)(Machine Learning)是計算機(jī)科學(xué)的一個子領(lǐng)域,機(jī)器學(xué)習(xí)關(guān)注預(yù)測,是對已知的特性進(jìn)行預(yù)測。數(shù)據(jù)挖掘使用機(jī)器學(xué)習(xí)的手法,關(guān)注從數(shù)據(jù)中發(fā)現(xiàn)未知的特性。因此,這本專著屬于教育大數(shù)據(jù)領(lǐng)域研究的關(guān)鍵性文獻(xiàn)之一,為后續(xù)教育大數(shù)據(jù)研究提供了參考和線索。
本文以Web of Science核心合集中SCI和SSCI兩個數(shù)據(jù)庫收錄的近年來教育大數(shù)據(jù)研究文獻(xiàn)為來源,通過使用CiteSpace V軟件,對客觀呈現(xiàn)的圖表信息從教育大數(shù)據(jù)的研究力量分布、知識基礎(chǔ)及研究熱點(diǎn)等方面進(jìn)行分析。
圖譜揭示教育大數(shù)據(jù)研究的外部特征表明,研究力量主要分布于普渡大學(xué)、斯坦福大學(xué)及微軟科技公司為核心的研究團(tuán)體,其中最大的研究群體是普渡大學(xué)。西班牙地域的主要研究機(jī)構(gòu)有科爾多瓦大學(xué),其他研究群都含有多個機(jī)構(gòu)。Romero C作為學(xué)科研究的領(lǐng)軍人物,文獻(xiàn)貢獻(xiàn)量最大,影響力較高。Witten I和Yacef K等作為學(xué)科研究帶頭人,學(xué)術(shù)研究貢獻(xiàn)量較大。
教育大數(shù)據(jù)共引文獻(xiàn)時間序列圖譜及文獻(xiàn)共被引圖譜顯示了教育大數(shù)據(jù)研究的知識基礎(chǔ)。數(shù)據(jù)可以復(fù)制利用已被證實,通過高精儀器的科學(xué)與工程研究,正在以更高的速度生成比以往任何時候都要多的數(shù)據(jù)。隨著在網(wǎng)絡(luò)世界中對教育、商業(yè)和社會活動更多的交流和溝通,正在形成廣泛的數(shù)字化跟蹤,產(chǎn)生一系列行為數(shù)據(jù),這些數(shù)據(jù)對人類活動的建模和對個人反饋的定制非常有價值?!按髷?shù)據(jù)的出現(xiàn)究竟帶來了什么”,必須對這個問題進(jìn)行深入的思考。
關(guān)鍵性文獻(xiàn)分析表明,經(jīng)典國外文獻(xiàn)為國內(nèi)的教育大數(shù)據(jù)研究提供了豐富的理論基礎(chǔ)和分析框架,主要涉及數(shù)據(jù)挖掘在教育系統(tǒng)中運(yùn)用循環(huán)模型,以協(xié)助教育者,為設(shè)計教學(xué)情境修改教學(xué)方法時提供決策并建立教學(xué)基礎(chǔ)。教育數(shù)據(jù)挖掘是一個新興的跨學(xué)科研究領(lǐng)域,主要任務(wù)是開發(fā)一些用于探索源自教育環(huán)境中數(shù)據(jù)的方法。為了研究教育問題,教育數(shù)據(jù)挖掘使用計算方法來分析教育數(shù)據(jù)。
關(guān)鍵詞共現(xiàn)圖譜直觀呈現(xiàn)了國外教育大數(shù)據(jù)研究熱點(diǎn),主要包括數(shù)據(jù)挖掘、學(xué)習(xí)分析、教育數(shù)據(jù)挖掘。利用數(shù)據(jù)挖掘和學(xué)習(xí)分析技術(shù)可以依據(jù)學(xué)習(xí)者學(xué)習(xí)行為有效預(yù)測學(xué)習(xí)者學(xué)習(xí)偏好,跟蹤學(xué)習(xí)者學(xué)習(xí)狀態(tài),必要時進(jìn)行干預(yù),有助于提高學(xué)習(xí)效果并實現(xiàn)個性化教學(xué)。
目前,大數(shù)據(jù)在教育領(lǐng)域中面臨三大挑戰(zhàn),也就是研究領(lǐng)域所關(guān)注的三個值得研究的問題:其一,數(shù)據(jù)越大是否就是好數(shù)據(jù),由于數(shù)據(jù)的類型和用途在學(xué)科之間差異很大,須考慮教育領(lǐng)域大數(shù)據(jù)的準(zhǔn)確性和可行性;其二,采集的大數(shù)據(jù)是否滿足可證偽條件,教育領(lǐng)域大數(shù)據(jù)只有滿足了可證偽條件的驗證,方能保證大數(shù)據(jù)的客觀性和準(zhǔn)確性;其三,限制性采集大數(shù)據(jù)所創(chuàng)建的新數(shù)據(jù)是否會形成信息孤島從而影響數(shù)據(jù)共享,限制性地獲取教育大數(shù)據(jù),易形成數(shù)字鴻溝,從而影響數(shù)據(jù)共享。總之,為了保證教育大數(shù)據(jù)的均衡發(fā)展,需要在安全、應(yīng)用、治理方面進(jìn)行深入研究。
[1]維克托·邁爾-舍恩伯格著,盛揚(yáng)燕、周濤譯.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2012.
[2]楊現(xiàn)民,王榴卉,唐斯斯.教育大數(shù)據(jù)的應(yīng)用模式與政策建議[J].電化教育研究,2015(9):54-61,69.
[3]馬費(fèi)成,張勤.國內(nèi)外知識管理研究熱點(diǎn)——基于詞頻的統(tǒng)計分析[J].情報學(xué)報,2006,25(2):163-171.
[4]羅式勝.文獻(xiàn)計量學(xué)概論[M].廣州:中山大學(xué)出版社,1994.
[5]Chen C.M.Cite Space II:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for information Science and Technology,2006,57(3),359-377.
[6]何曉萍,江毅,萬昆.基于 Web of Science 的MOOC研究可視化分析[J].現(xiàn)代情報,2015(8):92-99.
[7]陳超美.Cite SpaceⅡ:科學(xué)文獻(xiàn)中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009,28(3):401-402.
[8]Bienkowski,M.,Feng,M.&Means,B.(2012).Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics:An Issue Brief[EB/OL].http://www.ed.gov/edblogs/technology/files/edm-la-brief.pdf.
[9]Small H.Co-citation in Scientific Literature:New Measure of Relationship between 2 Documents[J].Journal of the American Society For Information Science,1973,24(4):265-269.
[10]Persson O.The intellectual base and research fronts of JASIS 1986-1990[J].Journal of the American Society for Information Science,1994,45(1):31-38.
[11]Borgman C L.Data,disciplines,and scholarly publishing[M].Learned Publishing,2008,21(1):29-38.
[12]Beer D.Power through the algorithm?Participatory web cultures and the technological unconscious[J].NEW MEDIA SOC,2009,11(6):985-1002.
[13]Mackenzie A,Vurdubakis,T.Codes and Codings in Crisis Signification,Performativity and Excess[J].Theory Culture&Society,2011,28(6):3-23.
[14]Boyd,D.CRITICAL QUESTIONS FOR BIG DATA Provocations for a cultural,technological,and scholarly phenomenon[J].Information Communication&Society,2012,15(5):662-679.
[15]Eynon R.The rise of Big Data:what does it mean for education,technology,and media research?[J].Learning Media and Technology,2013,38(3):237-240.
[16]Di Cerbo.K.E.&Behrens,J.T.(2014)Impacts of the Digital Ocean[M].London:Pearson.
[17]Romero C.Educational Data Mining:A Review of the State of the Art[J].IEEETRANSACTIONS ON SYSTEMS MAN AND CYBERNETICS PART C-APPLICATIONS AND REVIEWS,2010,40(6):601-608.
[18]Remero C.Educational data mining:A survey from 1995 to 2005[J].Expert Systems with Applications,33(2007):135-146.
[19]IanH.Witten,EibeFrank.Data mining:practical machine learning tools and techniques=數(shù)據(jù)挖掘:實用機(jī)器學(xué)習(xí)技術(shù)/2nd[M].China Machine Press,2005.