梅鵬飛+何曉萍
摘 要:隨著網(wǎng)絡(luò)教育技術(shù)的迅速發(fā)展,教育領(lǐng)域大數(shù)據(jù)必然會(huì)成為全世界頂尖教育研究者競(jìng)相爭(zhēng)奪的前沿研究陣地。本文以SCI和SSCI數(shù)據(jù)庫(kù)為文獻(xiàn)來(lái)源,以教育大數(shù)據(jù)研究為主題,利用引文分析法和可視化分析工具,分析出國(guó)外教育大數(shù)據(jù)研究的主要力量分布集中在普渡大學(xué)、斯坦福大學(xué)等核心研究團(tuán)隊(duì)。從教育大數(shù)據(jù)的知識(shí)基礎(chǔ)中分析得知,數(shù)據(jù)挖掘技術(shù)可以探測(cè)出有效信息,用于形成性評(píng)估,以協(xié)助教育者,為設(shè)計(jì)教學(xué)情境修改教學(xué)方法時(shí)提供決策并建立教學(xué)基礎(chǔ)。關(guān)鍵詞共現(xiàn)圖譜揭示了國(guó)外教育大數(shù)據(jù)研究熱點(diǎn),主要包括數(shù)據(jù)挖掘、學(xué)習(xí)分析、教育數(shù)據(jù)挖掘。未來(lái)研究的趨勢(shì)更加關(guān)注“數(shù)據(jù)越大是否就是好數(shù)據(jù)”、“數(shù)據(jù)的客觀性和準(zhǔn)確性是否滿足可證偽條件”、“限制性采集大數(shù)據(jù)所創(chuàng)建的新數(shù)據(jù)是否會(huì)形成信息孤島從而影響數(shù)據(jù)共享”。
關(guān)鍵詞:教育大數(shù)據(jù);可視化分析;數(shù)據(jù)挖掘
中圖分類號(hào):G40-034 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2018)03-0011-07
一、引言
《大數(shù)據(jù)時(shí)代》的作者維克托·邁爾-舍恩伯格開(kāi)創(chuàng)了國(guó)外大數(shù)據(jù)研究先河,并通過(guò)4個(gè)“V”描述了大數(shù)據(jù)具有的四大特征。即數(shù)據(jù)體量大(Volume)、數(shù)據(jù)類型多(Variety)、數(shù)據(jù)價(jià)值密度低(Value)、數(shù)據(jù)具有實(shí)效性(Velocity)四大特征。[1]教育大數(shù)據(jù)是大數(shù)據(jù)的一個(gè)子集,特指教育領(lǐng)域的大數(shù)據(jù),是整個(gè)教育活動(dòng)過(guò)程中所產(chǎn)生的以及根據(jù)教育需要采集到的,一切用于教育發(fā)展并可創(chuàng)造巨大潛在價(jià)值的數(shù)據(jù)集合。[2]本文采用詞頻分析法和引文分析法,使用CiteSpace軟件對(duì)Web of Science核心合集中SCI和SSCI兩個(gè)數(shù)據(jù)庫(kù)中教育大數(shù)據(jù)研究的相關(guān)文獻(xiàn)進(jìn)行了搜索、梳理,客觀生成的國(guó)外教育大數(shù)據(jù)研究的知識(shí)圖譜,揭示了國(guó)外教育大數(shù)據(jù)研究領(lǐng)域、研究力量分布、知識(shí)基礎(chǔ)與研究熱點(diǎn)主題。有效的數(shù)據(jù)分析,以期為我國(guó)教育大數(shù)據(jù)的進(jìn)一步研究提供參考和借鑒。
二、研究設(shè)計(jì)
1.研究方法
詞頻分析法是指分析某學(xué)科領(lǐng)域特定時(shí)間內(nèi)發(fā)表的文獻(xiàn)關(guān)鍵詞,通過(guò)關(guān)鍵詞出現(xiàn)的頻次的高低及頻次的變化趨勢(shì)來(lái)確定該領(lǐng)域研究重點(diǎn)和發(fā)展方向的文獻(xiàn)計(jì)量方法。[3]引文分析法,利用數(shù)學(xué)及統(tǒng)計(jì)學(xué)方法進(jìn)行比較、歸納、抽象、概括等,對(duì)科學(xué)期刊、論文、著者等分析對(duì)象的引用和被引用現(xiàn)象進(jìn)行分析,以揭示其數(shù)量特征和內(nèi)在規(guī)律的一種信息計(jì)量研究方法。[4]本文利用詞頻分析法和引文分析法,分析國(guó)外教育大數(shù)據(jù)研究的領(lǐng)域分布、知識(shí)基礎(chǔ)與熱點(diǎn)主題。采取定量研究與定性研究相結(jié)合的方法,首先結(jié)合詞頻分析法、引文分析法對(duì)相關(guān)文獻(xiàn)進(jìn)行定量分析,再通過(guò)定性分析加以補(bǔ)充。
2.數(shù)據(jù)來(lái)源
為確保文獻(xiàn)的權(quán)威性,本文以Web of Science核心合集中SCI和SSCI兩個(gè)數(shù)據(jù)庫(kù)作為文獻(xiàn)信息來(lái)源,檢索策略中以“big data”、“education”作為主題詞,時(shí)間限制為2007-2017年,限定學(xué)科為Education Educational Research,文獻(xiàn)類型為Article,搜索、篩選、整理得到209條相關(guān)文獻(xiàn)。導(dǎo)出文獻(xiàn)數(shù)據(jù)的題錄信息,以全記錄格式保存,保存日期為2017年6月8日。
3.分析工具
本文分析工具采用陳超美博士及其團(tuán)隊(duì)開(kāi)發(fā)的基于Java語(yǔ)言的可視化分析軟件CiteSpace V,這是一款專門用于學(xué)術(shù)文獻(xiàn)分析的信息可視化分析工具。目前已廣泛應(yīng)用于探測(cè)、分析學(xué)科研究前沿的發(fā)展趨勢(shì)以及研究前沿與知識(shí)基礎(chǔ)之間、不同研究前沿之間的關(guān)系。[5]可視化工具以圖表形式直觀展現(xiàn)關(guān)鍵詞的熱點(diǎn)分布及領(lǐng)域走向,揭示了研究主題的外表特征,且圖譜的數(shù)據(jù)為科學(xué)、客觀地分析教育大數(shù)據(jù)提供了依據(jù)。
三、研究結(jié)果與分析
1.時(shí)間分布
國(guó)際教育大數(shù)據(jù)研究10年來(lái)發(fā)文數(shù)量及引文數(shù)量統(tǒng)計(jì)與分析結(jié)果如圖1、圖2所示。從圖中可以看出,國(guó)際教育大數(shù)據(jù)研究的發(fā)文數(shù)量2007至2013逐年增長(zhǎng),2013達(dá)到一個(gè)小高峰,2014年有所回落,但比較穩(wěn)定;2015至2016年關(guān)于教育大數(shù)據(jù)研究又開(kāi)始受到更多研究者的關(guān)注,2016年又達(dá)到頂峰。而引文數(shù)量在2008-2012年亦逐年增長(zhǎng),且增速比較顯著。結(jié)合圖1和圖2來(lái)看,發(fā)文數(shù)量越多,相應(yīng)的引文數(shù)量也越多,其走向有著密切的相關(guān)性。說(shuō)明了隨著大數(shù)據(jù)時(shí)代的到來(lái),教育大數(shù)據(jù)研究越來(lái)越受重視。
2.國(guó)家(地區(qū))和機(jī)構(gòu)分布
在CiteSpace V中設(shè)置時(shí)間切片為1,時(shí)間設(shè)置為2007-2017年,分析對(duì)象同時(shí)選擇“Institution”和“Country”,選擇TopN,N值設(shè)為50,采用Pathfinder(尋徑)算法,運(yùn)行CiteSpace V,得到教育大數(shù)據(jù)國(guó)家和地區(qū)圖譜,如圖3所示。
其中,圓形節(jié)點(diǎn)代表國(guó)家(地區(qū)),處于連接線上的小節(jié)點(diǎn)代表機(jī)構(gòu)。圓圈的大小代表發(fā)文數(shù)量,圓圈越大表示發(fā)文數(shù)量越多;節(jié)點(diǎn)間的連線代表合作程度,節(jié)點(diǎn)間的連線越多,表示合作越密切;節(jié)點(diǎn)最外層的紫色圓環(huán)代表中心性,中心性越大,表示在該領(lǐng)域內(nèi)影響力越大。[6]從圖3中可以看出,節(jié)點(diǎn)最大的國(guó)家是美國(guó)(USA),其次是西班牙(SPAIN)。
從表1中可見(jiàn),被引頻次最高的是美國(guó),文獻(xiàn)貢獻(xiàn)率最大,接下來(lái)是西班牙、澳大利亞、英國(guó)、土耳其、加拿大。從整個(gè)圖譜來(lái)看,美國(guó)最外層的紫色圓環(huán)最大,節(jié)點(diǎn)中心性最高,說(shuō)明美國(guó)在教育大數(shù)據(jù)領(lǐng)域占有領(lǐng)先地位。同時(shí),美國(guó)與其他國(guó)家的節(jié)點(diǎn)間連線較多。由此可見(jiàn),圖譜中絕大多數(shù)國(guó)家與美國(guó)有合作關(guān)系。
美國(guó)關(guān)于教育大數(shù)據(jù)研究機(jī)構(gòu)主要集中在大學(xué)和科技公司(Microsoft),如普渡大學(xué)、斯坦福大學(xué)、美國(guó)佐治亞大學(xué)、匹茲堡大學(xué)等;西班牙的主要研究機(jī)構(gòu)有科爾多瓦大學(xué)、馬德里科技大學(xué)、西班牙格拉納達(dá)大學(xué)等;澳大利亞主要有莫納什大學(xué)、堪培拉大學(xué)、麥考瑞大學(xué)等;英國(guó)主要研究機(jī)構(gòu)有倫敦大學(xué)、諾丁漢大學(xué)、英國(guó)普利茅斯大學(xué)等;土耳其具有代表性的機(jī)構(gòu)有哈希德佩大學(xué)、加齊大學(xué)等;加拿大主要研究機(jī)構(gòu)有皇家大學(xué)、卡爾加里大學(xué)等。這些國(guó)家和機(jī)構(gòu)在教育大數(shù)據(jù)研究方向占有重要地位,研究者給予了更多關(guān)注。
3.研究熱點(diǎn)分析
在CiteSpace V軟件界面中選擇分析對(duì)象為關(guān)鍵詞(Keyword),其余設(shè)置不變。運(yùn)行軟件,得到關(guān)于教育大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵詞共現(xiàn)圖譜,如圖4所示。圖譜中,節(jié)點(diǎn)(圓圈)大小代表關(guān)鍵詞共現(xiàn)頻次,圓圈內(nèi)環(huán)不同顏色代表其出現(xiàn)的相應(yīng)年份,節(jié)點(diǎn)紫色圓環(huán)(在黑白圖中用圓環(huán)粗細(xì)顯示)表示關(guān)鍵詞具有高度中心性。中心性越高的節(jié)點(diǎn),對(duì)其他節(jié)點(diǎn)間的聯(lián)系起控制作用,這也體現(xiàn)其在整個(gè)網(wǎng)絡(luò)中的重要地位。[7]
圖4揭示了國(guó)際教育大數(shù)據(jù)研究熱點(diǎn),節(jié)點(diǎn)最大的是“data mining(數(shù)據(jù)挖掘)”,具體包括“education(教育)”、“performance(績(jī)效)”、“high education(高等教育)”、“model(模型)”、“technology(技術(shù))”、“education data mining(教育數(shù)據(jù)挖掘)”、“big data(大數(shù)據(jù))”、“l(fā)earning analytics(學(xué)習(xí)分析)”。通過(guò)合并同義詞后,從運(yùn)行結(jié)果中導(dǎo)出前被引頻次大于10的關(guān)鍵詞,如表2所示。
結(jié)合圖4所示圖譜中關(guān)鍵詞的圓圈大小、紫色圓環(huán)粗細(xì),以及表3所示關(guān)鍵詞中心性大小,可以發(fā)現(xiàn)頻次排在前9的關(guān)鍵詞,其中心性都較高,并處于圖譜中心位置,表示它們與其他關(guān)鍵詞存在著緊密的關(guān)聯(lián)性,節(jié)點(diǎn)年輪較為突出。綜合分析發(fā)現(xiàn),2007-2017年教育大數(shù)據(jù)研究的關(guān)注點(diǎn)主要在“data mining(數(shù)據(jù)挖掘)”、“performance(績(jī)效)”、“education(教育)”、“big data(大數(shù)據(jù))”、“higher education(高等教育)”、“technology(技術(shù))”、“l(fā)earning analytics(學(xué)習(xí)分析)”、“education data mining(教育數(shù)據(jù)挖掘)”,在教育大數(shù)據(jù)研究中占有重要地位。
在線教育和大數(shù)據(jù)時(shí)代背景下,計(jì)算機(jī)領(lǐng)域(數(shù)據(jù)挖掘)與教育領(lǐng)域相結(jié)合是一種必然的趨勢(shì)。大數(shù)據(jù)在教育領(lǐng)域中的應(yīng)用主要有學(xué)習(xí)分析(Learning Analytics)和教育數(shù)據(jù)挖掘(Education data mining)。[8]利用數(shù)據(jù)挖掘和學(xué)習(xí)分析技術(shù)可以依據(jù)學(xué)習(xí)者學(xué)習(xí)行為有效預(yù)測(cè)學(xué)習(xí)者學(xué)習(xí)偏好,跟蹤學(xué)習(xí)者學(xué)習(xí)狀態(tài),必要時(shí)進(jìn)行干預(yù),有助于提高學(xué)習(xí)效果并實(shí)現(xiàn)個(gè)性化教學(xué)。目前,教育大數(shù)據(jù)研究領(lǐng)域的熱點(diǎn),主要是圍繞大數(shù)據(jù)的概念表征、教育(高等教育)、數(shù)據(jù)挖掘以及學(xué)習(xí)分析等基礎(chǔ)理論的研究。
教育大數(shù)據(jù)研究也存在一些亟待解決的問(wèn)題。其一,教育數(shù)據(jù)由教育者和受教育者進(jìn)行教學(xué)活動(dòng)所產(chǎn)生,對(duì)主導(dǎo)-主體相結(jié)合的教學(xué)行為和學(xué)習(xí)行為,具有潛在的應(yīng)用價(jià)值,但也涉及教師和學(xué)生的隱私,保護(hù)不當(dāng)會(huì)帶來(lái)嚴(yán)重的后果。其二,在算法研究上要加大安全系數(shù),以防黑客惡意入侵(如2017年5月份出現(xiàn)的勒索病毒攻擊教育網(wǎng)站及幾所高校導(dǎo)致畢業(yè)論文系統(tǒng)癱瘓)。
4.研究主題知識(shí)基礎(chǔ)分析
本節(jié)對(duì)教育大數(shù)據(jù)進(jìn)行知識(shí)基礎(chǔ)的分析,目的是對(duì)研究某領(lǐng)域的發(fā)展歷程和前沿有一個(gè)清晰的了解。其中主要包括奠基性文獻(xiàn)分析和關(guān)鍵性文獻(xiàn)分析。
(1)奠基性文獻(xiàn)分析
文獻(xiàn)共被引圖譜反映了對(duì)應(yīng)研究領(lǐng)域的知識(shí)基礎(chǔ)。若兩篇文獻(xiàn)同時(shí)被其他文獻(xiàn)引用,則這兩篇文獻(xiàn)間就存在共被引關(guān)系。參考文獻(xiàn)通過(guò)共被引關(guān)系構(gòu)成了文獻(xiàn)共被引圖譜。在圖譜中,節(jié)點(diǎn)表示參考文獻(xiàn),節(jié)點(diǎn)間的連線表示其間存在共被引關(guān)系。[9]連線的粗細(xì)表征了共被引的強(qiáng)弱。知識(shí)基礎(chǔ)分析有利于研究某領(lǐng)域的前沿和本質(zhì),由共引聚類來(lái)表示,共引聚類中的文獻(xiàn)越多,其知識(shí)基礎(chǔ)越大并趨于穩(wěn)定狀態(tài)。[10]教育大數(shù)據(jù)研究的知識(shí)基礎(chǔ)分析大致可分為兩類:一是早期研究的奠基性文獻(xiàn),二是被引頻次和中心性都較高的文獻(xiàn)。
在CiteSpace V軟件中,分析對(duì)象選擇“Cited Reference”,以Thresholding(c,cc,ccv),c(引文數(shù)量)、cc(共被引頻次)和ccv(共被引系數(shù))三個(gè)層次上,分別設(shè)定閾值為(2,2,20),運(yùn)行軟件,得到關(guān)于教育大數(shù)據(jù)研究的共引文獻(xiàn)時(shí)間序列圖譜,如圖5所示。
由圖5可知,大數(shù)據(jù)研究的奠基性文獻(xiàn)最早可追溯到2008年,Borgman在《LEARNED PUBLISHING》上出版的《Data, disciplines, and scholarly publishing》。同樣在2008年,Erik W.Black在Internet and Higher Education上發(fā)表的《Data for free:Using LMS activity logs to measure community in online courses》。此外還有Beer D于2009年發(fā)表在《New Media & Society》上的《Power through the algorithm? Participatory web cultures and the technological unconscious》等文獻(xiàn)。
Borgman認(rèn)為研究數(shù)據(jù)可以被重復(fù)使用,復(fù)制研究,以提出新的問(wèn)題,并驗(yàn)證研究結(jié)果。數(shù)據(jù)正在成為學(xué)識(shí)或?qū)W問(wèn)的重要產(chǎn)物,在補(bǔ)充期刊文章、論文和書籍中所起的作用。文中指出當(dāng)鏈接到出版物和其他相關(guān)資源以形成價(jià)值鏈時(shí),數(shù)據(jù)變得更加有價(jià)值。數(shù)據(jù)的類型和用途在學(xué)科之間差異很大,出版物的在線可用性和學(xué)者發(fā)表文章的初衷也不盡相同。出版社、學(xué)者和圖書館員都可以在構(gòu)建數(shù)字化研究的信息基礎(chǔ)設(shè)施方面發(fā)揮作用。技術(shù)、政策和機(jī)構(gòu)組成部分正在逐漸成熟,在公共存儲(chǔ)庫(kù)中實(shí)現(xiàn)大量的數(shù)據(jù)集,以及與出版商數(shù)據(jù)庫(kù)的鏈接, 是維護(hù)和維持?jǐn)?shù)字形式的學(xué)術(shù)記錄的最有希望的解決方案。[11]
Beer在文中指出,對(duì)Web 2.0版本的描述通常被理解為大規(guī)模地轉(zhuǎn)向Web的參與式和協(xié)作版本,用戶可以在其中參與和創(chuàng)建內(nèi)容。事實(shí)上,迄今為止還沒(méi)有機(jī)會(huì)探索在這種明顯的“賦權(quán)”和“民主化”的背景下如何發(fā)揮作用。本文認(rèn)為,這是一個(gè)迫切需要關(guān)注的問(wèn)題。[12]后Web2.0時(shí)代是網(wǎng)絡(luò)發(fā)展中一個(gè)重要階段,它連接著下一代互聯(lián)網(wǎng)Web3.0。在這個(gè)時(shí)代背景下,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)每天都在產(chǎn)生大量的數(shù)據(jù)?!按髷?shù)據(jù)的出現(xiàn)究竟帶來(lái)了什么”,必須對(duì)這些問(wèn)題進(jìn)行深入的思考。
2011年,Mackenzie、Adrian等人在文中指出,連接代碼和編碼、“危機(jī)”的產(chǎn)生式和對(duì)“危機(jī)”的擔(dān)憂為探索的主題。從中分析了當(dāng)代生活中越來(lái)越多的各種各樣的代碼如何受到危機(jī)擴(kuò)散的嚴(yán)重影響。討論了跨越這些看似多樣化主題的代碼和危機(jī)耦合的三個(gè)相關(guān)方面(Signification意義,Performativity操演和Excess過(guò)度)??缭竭@些看似不同的主題,作者和這個(gè)特殊問(wèn)題中的其他貢獻(xiàn)者試圖超越對(duì)代碼語(yǔ)言限制的理解。[13]隨著大數(shù)據(jù)時(shí)代的到來(lái)這些問(wèn)題顯得尤為明顯,隨之而來(lái)的教育大數(shù)據(jù)也必然存在這樣的問(wèn)題,研究者應(yīng)該予以重視。
2012年,Boyd D在《Information Communication & Society》上發(fā)表的文章《CRITICAL QUESTIONS FOR BIG DATA Provocations for a cultural, technological, and scholarly phenomenon》,作者提出了大數(shù)據(jù)的關(guān)鍵性問(wèn)題:大型搜索數(shù)據(jù)是否能幫助我們創(chuàng)造更好的工具、服務(wù)和公共產(chǎn)品,還是會(huì)迎來(lái)新一輪的隱私入侵和侵入性營(yíng)銷;數(shù)據(jù)分析是否能幫助我們了解在線社區(qū)和政治運(yùn)動(dòng),還是使用分析來(lái)跟蹤抗議者和抑制言論;大數(shù)據(jù)會(huì)改變我們?nèi)绾窝芯咳穗H交往和文化,還是縮小研究選擇范圍,并改變“研究”的意義。文章將大數(shù)據(jù)定義為一種文化、技術(shù)和學(xué)術(shù)現(xiàn)象,并論述了六個(gè)值得深思的代表性觀點(diǎn):①大數(shù)據(jù)改變了知識(shí)的定義。②聲稱客觀性和準(zhǔn)確性是誤導(dǎo)性的。③更大的數(shù)據(jù)并不總是更好的數(shù)據(jù)。④脫離上下文,大數(shù)據(jù)將失去意義。⑤只是因?yàn)樗强稍L問(wèn)的并不會(huì)使其受倫理約束。⑥有限的獲取大數(shù)據(jù)帶來(lái)了新的數(shù)字鴻溝。[14]
2013年Eynon Rebecca在《The rise of Big Data: what does it mean foreducation, technology, and media research?》一文中提出了三組大數(shù)據(jù)在教育領(lǐng)域中的挑戰(zhàn):①道德挑戰(zhàn),大數(shù)據(jù)代表了一系列倫理道德方面的考慮,特別是要考慮關(guān)于隱私、知情同意和對(duì)傷害的防護(hù)等方面,并提出了更廣泛的問(wèn)題——應(yīng)該將哪些數(shù)據(jù)結(jié)合和分析,以及運(yùn)用其達(dá)到何種目的。②確保了解使用大數(shù)據(jù)可以或不能執(zhí)行的研究種類。③圍繞不平等問(wèn)題的挑戰(zhàn)。除此之外作者提出了一些實(shí)際問(wèn)題——大家如何熟練地進(jìn)行這種分析、在多學(xué)科團(tuán)隊(duì)中學(xué)習(xí)與他人合作是否足夠。[15]這些問(wèn)題的提出為后期研究者繼續(xù)研究教育大數(shù)據(jù)時(shí)提供參考,有利于問(wèn)題進(jìn)一步得到解決。
2014年Di Cerbo和Behrens在《Impacts of the Digital Ocean on Education》一文中提出了“數(shù)字海洋”概念,“數(shù)字海洋”用來(lái)描述與數(shù)字工具交互獲得的超大規(guī)模數(shù)據(jù)。正如“大數(shù)據(jù)”正在轉(zhuǎn)變其他行業(yè),如保險(xiǎn)、金融、零售和職業(yè)體育,“數(shù)字海洋”將及時(shí)轉(zhuǎn)變教育。它將解決一些長(zhǎng)期困擾教育工作者的問(wèn)題,從而實(shí)現(xiàn)從課堂到整個(gè)系統(tǒng)的各個(gè)層面的循證政策的長(zhǎng)期愿望。[16]文中通過(guò)設(shè)定一個(gè)希望取得成功的愿景:他們將教學(xué)、學(xué)習(xí)和評(píng)估視為一個(gè)綜合過(guò)程的三個(gè)不同方面,隨時(shí)/實(shí)時(shí)互相補(bǔ)充;他們看到更復(fù)雜的教育成果,如個(gè)人和個(gè)人的技能,并使之變得可評(píng)估、可教導(dǎo)和可學(xué)習(xí)。但是,作者也對(duì)讀者提出了要求——在21世紀(jì)的學(xué)習(xí)中,對(duì)學(xué)習(xí)、推理和技術(shù)從不同角度進(jìn)行思考。
(2)關(guān)鍵性文獻(xiàn)分析
關(guān)鍵性文獻(xiàn)指被引頻次或中心性比較高的文獻(xiàn)。在CiteSpace V中,分析對(duì)象選擇“Cited Reference”,運(yùn)行CiteSpace軟件得到文獻(xiàn)共被引圖譜,便于直觀地呈現(xiàn)關(guān)鍵節(jié)點(diǎn)文獻(xiàn),如圖6所示。
根據(jù)軟件運(yùn)行結(jié)果,將被引頻次排前10的文獻(xiàn)導(dǎo)出,如表4所示。
結(jié)合圖6和表4可知,來(lái)自科瓦多爾大學(xué)教授Romero Cristobal在2010年發(fā)表的《Educational Data Mining: A Review of the State of the Art》一文被引頻次13次,中心性0.50,影響力較大,是教育大數(shù)據(jù)領(lǐng)域的關(guān)鍵性文獻(xiàn)。文中調(diào)查了迄今為止在教育領(lǐng)域進(jìn)行的最相關(guān)的研究。首先介紹EDM(教育數(shù)據(jù)挖掘),并描述不同用戶組,教育環(huán)境類型及其提供的數(shù)據(jù)。然后,列出通過(guò)數(shù)據(jù)挖掘技術(shù)解決的教育環(huán)境中最典型/最常見(jiàn)的任務(wù),最后討論一些最有潛力的未來(lái)研究課題。文中對(duì)EDM方面進(jìn)行了最新情況的回顧,并對(duì)該領(lǐng)域迄今為止最為相關(guān)的研究工作進(jìn)行了調(diào)查。對(duì)每個(gè)研究都進(jìn)行了分類,這些研究類目來(lái)自不同的研究平臺(tái)(e-learning/LMS和ITS/AEHS),使用了不同的數(shù)據(jù)挖掘技術(shù)或方法(決策樹(shù)、神經(jīng)網(wǎng)絡(luò)以及貝葉斯網(wǎng)絡(luò)),完成數(shù)據(jù)挖掘任務(wù)(回歸、聚類、分類以及關(guān)聯(lián)規(guī)則挖掘)。[17]教育數(shù)據(jù)挖掘是一個(gè)新興的跨學(xué)科研究領(lǐng)域,主要任務(wù)是開(kāi)發(fā)一些用于探索源自教育環(huán)境中數(shù)據(jù)的方法。為了研究教育問(wèn)題,教育數(shù)據(jù)挖掘使用計(jì)算方法來(lái)分析教育數(shù)據(jù)。
Romero Cristobal在2007年發(fā)表的論文《Educational data mining: A survey from 1995 to 2005》被引頻次10次,中心性0.37,是教育大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵性文獻(xiàn)之一。文中提出了在教育系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘的循環(huán)模型,是集形成假設(shè)、測(cè)試和修復(fù)的迭代循環(huán)系統(tǒng)。并指出數(shù)據(jù)挖掘技術(shù)可以探測(cè)出有用的信息,用于形成性評(píng)估,以協(xié)助教育者,為設(shè)計(jì)教學(xué)情境修改教學(xué)方法時(shí)提供決策并建立教學(xué)基礎(chǔ)。[18]文中對(duì)數(shù)據(jù)挖掘在教育系統(tǒng)中應(yīng)用的多角度分析,包括面向?qū)W生、教師、學(xué)術(shù)負(fù)責(zé)人和管理員,為后期教育大數(shù)據(jù)研究模型的構(gòu)建做出了重要貢獻(xiàn)。
懷卡托大學(xué)的計(jì)算機(jī)科學(xué)系教授Witten I在2005年編著了一本數(shù)據(jù)挖掘領(lǐng)域經(jīng)典教材《Data Mining: Practical Machine Learning Tools and Techniques,Second Edition》(《數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)技術(shù)》),自第一版出版后對(duì)上一版內(nèi)容進(jìn)行了全面更新:數(shù)據(jù)挖掘領(lǐng)域的技術(shù)變革和新方法,包括數(shù)據(jù)轉(zhuǎn)換、集成學(xué)習(xí)、大規(guī)模數(shù)據(jù)集、多示例學(xué)習(xí)方面的新材料,以及新版的Weka機(jī)器學(xué)習(xí)軟件。[19]機(jī)器學(xué)習(xí)(Machine Learning)是計(jì)算機(jī)科學(xué)的一個(gè)子領(lǐng)域,機(jī)器學(xué)習(xí)關(guān)注預(yù)測(cè),是對(duì)已知的特性進(jìn)行預(yù)測(cè)。數(shù)據(jù)挖掘使用機(jī)器學(xué)習(xí)的手法,關(guān)注從數(shù)據(jù)中發(fā)現(xiàn)未知的特性。因此,這本專著屬于教育大數(shù)據(jù)領(lǐng)域研究的關(guān)鍵性文獻(xiàn)之一,為后續(xù)教育大數(shù)據(jù)研究提供了參考和線索。
四、結(jié)論
本文以Web of Science核心合集中SCI和SSCI兩個(gè)數(shù)據(jù)庫(kù)收錄的近年來(lái)教育大數(shù)據(jù)研究文獻(xiàn)為來(lái)源,通過(guò)使用CiteSpace V軟件,對(duì)客觀呈現(xiàn)的圖表信息從教育大數(shù)據(jù)的研究力量分布、知識(shí)基礎(chǔ)及研究熱點(diǎn)等方面進(jìn)行分析。
圖譜揭示教育大數(shù)據(jù)研究的外部特征表明,研究力量主要分布于普渡大學(xué)、斯坦福大學(xué)及微軟科技公司為核心的研究團(tuán)體,其中最大的研究群體是普渡大學(xué)。西班牙地域的主要研究機(jī)構(gòu)有科爾多瓦大學(xué),其他研究群都含有多個(gè)機(jī)構(gòu)。Romero C作為學(xué)科研究的領(lǐng)軍人物,文獻(xiàn)貢獻(xiàn)量最大,影響力較高。Witten I和Yacef K等作為學(xué)科研究帶頭人,學(xué)術(shù)研究貢獻(xiàn)量較大。
教育大數(shù)據(jù)共引文獻(xiàn)時(shí)間序列圖譜及文獻(xiàn)共被引圖譜顯示了教育大數(shù)據(jù)研究的知識(shí)基礎(chǔ)。數(shù)據(jù)可以復(fù)制利用已被證實(shí),通過(guò)高精儀器的科學(xué)與工程研究,正在以更高的速度生成比以往任何時(shí)候都要多的數(shù)據(jù)。隨著在網(wǎng)絡(luò)世界中對(duì)教育、商業(yè)和社會(huì)活動(dòng)更多的交流和溝通,正在形成廣泛的數(shù)字化跟蹤,產(chǎn)生一系列行為數(shù)據(jù),這些數(shù)據(jù)對(duì)人類活動(dòng)的建模和對(duì)個(gè)人反饋的定制非常有價(jià)值?!按髷?shù)據(jù)的出現(xiàn)究竟帶來(lái)了什么”,必須對(duì)這個(gè)問(wèn)題進(jìn)行深入的思考。
關(guān)鍵性文獻(xiàn)分析表明,經(jīng)典國(guó)外文獻(xiàn)為國(guó)內(nèi)的教育大數(shù)據(jù)研究提供了豐富的理論基礎(chǔ)和分析框架,主要涉及數(shù)據(jù)挖掘在教育系統(tǒng)中運(yùn)用循環(huán)模型,以協(xié)助教育者,為設(shè)計(jì)教學(xué)情境修改教學(xué)方法時(shí)提供決策并建立教學(xué)基礎(chǔ)。教育數(shù)據(jù)挖掘是一個(gè)新興的跨學(xué)科研究領(lǐng)域,主要任務(wù)是開(kāi)發(fā)一些用于探索源自教育環(huán)境中數(shù)據(jù)的方法。為了研究教育問(wèn)題,教育數(shù)據(jù)挖掘使用計(jì)算方法來(lái)分析教育數(shù)據(jù)。
關(guān)鍵詞共現(xiàn)圖譜直觀呈現(xiàn)了國(guó)外教育大數(shù)據(jù)研究熱點(diǎn),主要包括數(shù)據(jù)挖掘、學(xué)習(xí)分析、教育數(shù)據(jù)挖掘。利用數(shù)據(jù)挖掘和學(xué)習(xí)分析技術(shù)可以依據(jù)學(xué)習(xí)者學(xué)習(xí)行為有效預(yù)測(cè)學(xué)習(xí)者學(xué)習(xí)偏好,跟蹤學(xué)習(xí)者學(xué)習(xí)狀態(tài),必要時(shí)進(jìn)行干預(yù),有助于提高學(xué)習(xí)效果并實(shí)現(xiàn)個(gè)性化教學(xué)。
目前,大數(shù)據(jù)在教育領(lǐng)域中面臨三大挑戰(zhàn),也就是研究領(lǐng)域所關(guān)注的三個(gè)值得研究的問(wèn)題:其一,數(shù)據(jù)越大是否就是好數(shù)據(jù),由于數(shù)據(jù)的類型和用途在學(xué)科之間差異很大,須考慮教育領(lǐng)域大數(shù)據(jù)的準(zhǔn)確性和可行性;其二,采集的大數(shù)據(jù)是否滿足可證偽條件,教育領(lǐng)域大數(shù)據(jù)只有滿足了可證偽條件的驗(yàn)證,方能保證大數(shù)據(jù)的客觀性和準(zhǔn)確性;其三,限制性采集大數(shù)據(jù)所創(chuàng)建的新數(shù)據(jù)是否會(huì)形成信息孤島從而影響數(shù)據(jù)共享,限制性地獲取教育大數(shù)據(jù),易形成數(shù)字鴻溝,從而影響數(shù)據(jù)共享??傊瑸榱吮WC教育大數(shù)據(jù)的均衡發(fā)展,需要在安全、應(yīng)用、治理方面進(jìn)行深入研究。
參考文獻(xiàn):
[1]維克托·邁爾-舍恩伯格著,盛揚(yáng)燕、周濤譯.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2012.
[2]楊現(xiàn)民,王榴卉,唐斯斯.教育大數(shù)據(jù)的應(yīng)用模式與政策建議[J].電化教育研究,2015(9):54-61,69.
[3]馬費(fèi)成,張勤.國(guó)內(nèi)外知識(shí)管理研究熱點(diǎn)——基于詞頻的統(tǒng)計(jì)分析[J].情報(bào)學(xué)報(bào),2006,25(2):163-171.
[4]羅式勝.文獻(xiàn)計(jì)量學(xué)概論[M].廣州:中山大學(xué)出版社,1994.
[5]Chen C.M. Cite Space II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for information Science and Technology,2006,57(3),359-377.
[6]何曉萍,江毅,萬(wàn)昆.基于Web of Science的MOOC研究可視化分析[J].現(xiàn)代情報(bào),2015(8):92-99.
[7]陳超美.Cite SpaceⅡ:科學(xué)文獻(xiàn)中新趨勢(shì)與新動(dòng)態(tài)的識(shí)別與可視化[J].情報(bào)學(xué)報(bào), 2009,28(3):401-402.
[8]Bienkowski,M., Feng,M. & Means,B.(2012).Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics:An Issue Brief[EB/OL].http://www.ed.gov/edblogs/technology/files/edm-la-brief.pdf.
[9]Small H.Co-citation in Scientific Literature: New Measure of Relationship between 2 Documents[J].Journal of the American Society For Information Science,1973,24(4):265-269.
[10]Persson O. The intellectual base and research fronts of JASIS 1986-1990 [J].Journal of the American Society for Information Science,1994,45(1):31-38.
[11]Borgman C L. Data, disciplines, and scholarly publishing[M].Learned Publishing, 2008,21(1):29-38.
[12]Beer D.Power through the algorithm? Participatory web cultures and the technological unconscious[J].NEW MEDIA SOC,2009,11(6):985-1002.
[13]Mackenzie A,Vurdubakis,T.Codes and Codings in Crisis Signification, Performativity and Excess[J].Theory Culture & Society,2011,28(6):3-23.
[14]Boyd,D. CRITICAL QUESTIONS FOR BIG DATA Provocations for a cultural, technological, and scholarly phenomenon[J].Information Communication & Society,2012,15(5):662-679.
[15]Eynon R. The rise of Big Data: what does it mean for education, technology, and media research?[J].Learning Media and Technology,2013,38(3):237-240.
[16]Di Cerbo. K. E. & Behrens,J. T.(2014) Impacts of the Digital Ocean[M]. London:Pearson.
[17]Romero C. Educational Data Mining: A Review of the State of the Art[J].IEEETRANSACTIONS ON SYSTEMS MAN AND CYBERNETICS PART C-APPLICATIONS AND REVIEWS,2010,40(6):601-608.
[18]Remero C. Educational data mining: A survey from 1995 to 2005[J].Expert Systems with Applications,33(2007):135-146.
[19]IanH.Witten, EibeFrank.Data mining : practical machine learning tools and techniques = 數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)技術(shù) / 2nd[M].China Machine Press,2005.
(編輯:王天鵬)