郭新敬+沈子煬
摘要:本文結(jié)合文獻(xiàn)計量學(xué)的方法和citespace軟件與excel軟件,對2005—2015年間的web of scienceTM 核心合集收錄的2182篇大數(shù)據(jù)研究領(lǐng)域的文獻(xiàn)分別進(jìn)行了研究現(xiàn)狀、知識基礎(chǔ)、研究熱點、研究前沿進(jìn)行了可視化分析,進(jìn)而揭示了國際大數(shù)據(jù)領(lǐng)域研究的特點規(guī)律及動態(tài)過程。
關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)研究前沿;cite spaceⅢ
中圖分類號:G40-057 文獻(xiàn)識別碼:A 文章編號:1001-828X(2017)003-0-03
引言
隨著智能手機(jī)、平板電腦等越來越多的智能移動終端被用戶所接受,而隨著用戶量的迅猛增長,數(shù)據(jù)也在以驚人的速度增長和累積。正是在全球數(shù)據(jù)暴漲的背景下,大數(shù)據(jù),一個用來形容這種龐大的數(shù)據(jù)集的名詞應(yīng)運(yùn)而生。目前,學(xué)術(shù)界、政界、工商界等都對其產(chǎn)生了濃厚的興趣。大數(shù)據(jù)是一個抽象的概念,不同領(lǐng)域的專家學(xué)者因?qū)ζ潢P(guān)注的方向不同,所給出的定義也不相同。
美國國家標(biāo)準(zhǔn)和技術(shù)研究院(NIST)從學(xué)術(shù)角度給大數(shù)據(jù)做了一個定義“大數(shù)據(jù)是指其數(shù)據(jù)量、采集速度或者數(shù)據(jù)表示限制了傳統(tǒng)關(guān)系型方法進(jìn)行有效分析的能力,或需要使用重要的水平縮放技術(shù)來實現(xiàn)高效處理的數(shù)據(jù)”。
對于大數(shù)據(jù)的特征的描述,目前比較流行的是“3VS”和“4VS”兩種。“3VS”是由Gartner公司的分析師道格萊尼提出的,他將大數(shù)據(jù)描述為數(shù)量(volume)龐大、種類(variety)繁多、速度(velocity)快且具有即時性的數(shù)據(jù)集。
“4VS”則是由國際知名數(shù)據(jù)公司IDC提出的,在其發(fā)布的報告中是這樣描述大數(shù)據(jù)的特征的“數(shù)量浩大、種類繁多、生成快速、價值巨大單密度低”。正是由于學(xué)者專家高漲的研究熱情,探索理清大數(shù)據(jù)的發(fā)展方向,明確大數(shù)據(jù)的研究前沿,理清大數(shù)據(jù)的知識基礎(chǔ)對于大數(shù)據(jù)研究和管理則顯得尤為重要。
一、數(shù)據(jù)來源與研究方法
本文所選取的數(shù)據(jù)庫具體為科學(xué)引文索引SCIE(Science Citation Index expand),檢索式為”TS=big data AND TI=big data”,時間為2005—2015,檢索結(jié)果有2,182條記錄,來自web of science核心合集。本文選用可視化分析軟件為陳超美團(tuán)隊所開發(fā)的CiteSpace III來對所獲取到的文獻(xiàn)數(shù)據(jù)進(jìn)行分析。將之前檢索并下載的引文記錄放入到data文件夾中,使用CiteSpace III創(chuàng)建一個新的project,時間跨度選擇為2005—2015,選擇每一年為一個時間段,termtypes選擇burstterms,并分別選擇author,institution,keyword,cited author,cited reference,cited journal進(jìn)行分析,設(shè)定閾值為:c(2,2,20),cc(3,3,20),ccv(3,3,20)。
二、文獻(xiàn)產(chǎn)量分析
文獻(xiàn)計量統(tǒng)計是科學(xué)研究中重要的研究方法, 它能反映某一學(xué)科領(lǐng)域的文獻(xiàn)隨時間變化的一個分布狀況以及研究主題的熱度情況。表一為統(tǒng)計表,圖一為每年散點圖及趨勢預(yù)測圖。對于文獻(xiàn)增長的規(guī)律用多項式函數(shù)進(jìn)行擬合,得到擬合曲線y = -1.27 x4 + 10223.44 x3 - 30823881.64 x2 + 41304216104.99 x - 20755444911937.60 ,R? = 0.92 ,接近于1,且曲線與數(shù)據(jù)點較為吻合,說明近期內(nèi)文獻(xiàn)數(shù)量將按照此曲線增長。
根據(jù)圖形我們可以把近十年來對大數(shù)據(jù)的研究分為兩個階段:
1.萌芽期(2010年以前):2006年,大數(shù)據(jù)技術(shù)形成并運(yùn)行運(yùn)算與分布式系統(tǒng),為大數(shù)據(jù)的深入研究奠定基礎(chǔ)。2007年1月吉姆格雷——數(shù)據(jù)庫軟件先驅(qū),第一次將這種轉(zhuǎn)變稱為第四范式,他認(rèn)為面對這種范式,只能開發(fā)新一代的計算工具來處理海量數(shù)據(jù)。2008年,《Nature》在開辟了Big Data專欄,同年計算機(jī)社區(qū)聯(lián)盟(Computing Community Consortium)發(fā)表了報告Big Data Computing:Creating Revolutionary Breakthroughs in Commerce, Science and Society[1],闡述解決大數(shù)據(jù)問題的一些方法和技術(shù)。2010年2月,肯尼斯庫克爾在《經(jīng)濟(jì)學(xué)人》上發(fā)表報告《數(shù)據(jù),無所不在的數(shù)據(jù)》[2]。
2.增長期(2011-2015):2011 年2 月為了對科學(xué)研究中大數(shù)據(jù)的問題及其重要性進(jìn)行討論,Science雜志出版專刊Dealing with Data。同年5月,繼物聯(lián)網(wǎng),云計算之后,“大數(shù)據(jù)”成為又一個廣受關(guān)注的名詞,全球知名咨詢公司麥肯錫(McKinsey&Company)肯錫全球研究院(MGI)將大數(shù)據(jù)再次推向一個熱潮,發(fā)布了一份報告——《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》[3]。同年,Gartner 將大數(shù)據(jù)列入2012 年十大戰(zhàn)略新興技術(shù)。 6 月,IDC 研究報告《從混沌中提取價值》[4]中構(gòu)成了大數(shù)據(jù)的理論基礎(chǔ),并提出預(yù)計未來全球數(shù)據(jù)增速將會維持,到2020 年全球數(shù)據(jù)量將達(dá)到令人恐怖的35ZB,2010 年全球數(shù)據(jù)量跨入ZB 時代,全球數(shù)據(jù)量大約每兩年翻一番,預(yù)計2011全球數(shù)據(jù)量將達(dá)到1.8ZB。
2012年3月,大數(shù)據(jù)已經(jīng)成為重要的時代特征,在白宮網(wǎng)站上,美國奧巴馬政府宣布投資2億美元到大數(shù)據(jù)領(lǐng)域,并發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》[5]。
2013年5月,麥肯錫全球研究所(McKinsey Global Institute)稱大數(shù)據(jù)已成為這些可能改變世界格局的12項技術(shù)中許多技術(shù)的基石,并發(fā)布了一份名為《顛覆性技術(shù):技術(shù)進(jìn)步改變生活、商業(yè)和全球經(jīng)濟(jì)》[6]的研究報告。2014年4月,世界經(jīng)濟(jì)論壇發(fā)布了《全球信息技術(shù)報告(第13版)》[7],其是以“大數(shù)據(jù)的回報與風(fēng)險”為主題。同年美國數(shù)據(jù)管理領(lǐng)域的專家學(xué)者從學(xué)術(shù)的角度介紹大數(shù)據(jù)的產(chǎn)生、處理流程和方法,聯(lián)合發(fā)布了《大數(shù)據(jù)白皮書》(《Challenges and Opportunities With Big Data》)[8],并提出了面對大數(shù)據(jù)的若干挑戰(zhàn)。
三、知識基礎(chǔ)分析
通過知識基礎(chǔ)分析, 可以挖掘出大數(shù)據(jù)研究的發(fā)展脈絡(luò)和研究基礎(chǔ)。知識基礎(chǔ)分析一般可以從早期奠基性文獻(xiàn)、高被引文獻(xiàn)兩個方面進(jìn)行。在CitespaceⅢ軟件中, 可以通過繪制共被引文獻(xiàn)知識圖譜來展示關(guān)聯(lián)數(shù)據(jù)的知識基礎(chǔ)。 在進(jìn)行軟件參數(shù)設(shè)置時, 節(jié)點類型只選擇共被引文獻(xiàn)(Cited Reference),調(diào)整閾值為(2,2,20),(4,3,20),(4,3,20), 運(yùn)行后生成145 個網(wǎng)絡(luò)節(jié)點, 403 條連線, 生成的共被引文獻(xiàn)知識圖譜見圖3, 圖中節(jié)點的大小與節(jié)點相對應(yīng)的文獻(xiàn)被引頻次成正比, 節(jié)點越大表明該文獻(xiàn)的被引次數(shù)越高, 紫色節(jié)點代表關(guān)鍵節(jié)點文獻(xiàn)。
1.早期奠基性文獻(xiàn)
早期奠基性文獻(xiàn)是某一學(xué)科領(lǐng)域后期研究的重要知識來源, 其認(rèn)定的主要條件是文獻(xiàn)被引時間早且被引頻次相對較高。通過對共被引文獻(xiàn)的時間序列知識圖譜進(jìn)行分析,發(fā)現(xiàn)大數(shù)據(jù)領(lǐng)域研究的奠基性文章有4 篇, 第一篇是Jeffrey Dean 和Sanjay Ghemawat 于2008 年發(fā)表的《MapReduce: simplified data processing on large clusters》[9]。兩位作者在該篇文章首次詳細(xì)介紹了MapReduce這種現(xiàn)今非常主流大數(shù)據(jù)處理編程模式。第二篇為Adam Jacobs在2009年發(fā)表的《The pathologies of big data》[10],作者在該文中指出了遇到大數(shù)據(jù)處理瓶頸時會出現(xiàn)的幾個典型問題。第三篇是由Jeremy Ginsberg1, Matthew H. Mohebbi1, Rajan S. Patel1, Lynnette Brammer2, Mark S. Smolinski1 & Larry Brilliant1在2009年聯(lián)合發(fā)表的《Detecting influenza epidemics using search engine query data》[11],幾位作者在介紹了大數(shù)據(jù)在預(yù)防醫(yī)學(xué)領(lǐng)域的一些應(yīng)用。第四篇是Jeffrey Dean 和Sanjay Ghemawa在2010年發(fā)表的《MapReduce: a flexible data processing tool》[12],兩位作者在文中指出了MapReduce的引用在眾多領(lǐng)域的優(yōu)點。
2.高被引文獻(xiàn)
一般來說,高被引文獻(xiàn)在一定程度上反映了文獻(xiàn)的學(xué)術(shù)影響力和經(jīng)典程度, 而且,其中的知識常被作為相關(guān)研究學(xué)者進(jìn)一步研究的知識基礎(chǔ)來源。因此,利用CitespaceⅢ軟件分析得出大數(shù)據(jù)領(lǐng)域研究被引頻次較高的文獻(xiàn),如圖中引文年輪較大的幾個節(jié)點所示。
將被引頻次≥30 的4 篇文獻(xiàn)作為大數(shù)據(jù)領(lǐng)域研究的高被引文獻(xiàn),如表所示。被引頻次排在首位的依舊是Jeffrey Dean 和Sanjay Ghemawat 于2008 年發(fā)表的《MapReduce: simplified data processing on large clusters》[9],被引頻次為161次,足以說明這篇文獻(xiàn)是大數(shù)據(jù)領(lǐng)域研究的經(jīng)典文獻(xiàn)。第二位是麥肯錫研究院在2011年發(fā)布的報告《Big data: The next frontier for innovation, competition, and productivity》[3],被引頻次為92次,作為從經(jīng)濟(jì)和商業(yè)維度詮釋大數(shù)據(jù)發(fā)展?jié)摿Φ牡谝环輰n}研究成果,該報告系統(tǒng)闡述了大數(shù)據(jù)概念,詳細(xì)列舉了大數(shù)據(jù)的核心技術(shù),深入分析了大數(shù)據(jù)在不同行業(yè)的應(yīng)用,明確提出了政府和企業(yè)決策者應(yīng)對大數(shù)據(jù)發(fā)展的策略。第三位是Deal Jeffrey L.在2013年出版的《BIG DATA: A REVOLUTION THAT WILL TRANSFORM HOW WE LIVE, WORK, AND THINK》[13],被引頻次為43次,概述詳細(xì)介紹了大數(shù)據(jù)的概念、特征、構(gòu)成,和處理算法的使用。第四位是White T.在2012年出版的《Hadoop: The Definitive Guide》[14],被引頻次為38次,作者主要介紹了Hadoop這種大數(shù)據(jù)處理程序, Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。
四、研究前沿分析
1.機(jī)構(gòu)—國家分析
本文檢索的2182篇文獻(xiàn)共計147個節(jié)點97條連線,如圖二所示,從引文年輪上來看,美國最大,中國次之,年輪越大被引次數(shù)越多,說明該國家做作的研究價值越高,約為世界學(xué)者所接受。其中交大兩個年輪的最外層紅色圓環(huán)面積較大這說明美國和中國所做的研究在2015年內(nèi)仍舊有較大的引用次數(shù)。從國家合作來看,美國的合作伙伴多為歐洲國家包括英國,西班牙,奧地利等,中國的合作伙伴位澳大利亞加拿大等。從機(jī)構(gòu)合作上來看,不難看出最大的兩個合作群落是以中國、澳大利亞、加拿大機(jī)的研究機(jī)構(gòu)為核心和以美國、歐洲研究機(jī)構(gòu)為核心的兩大合作群落(分別編號為#1,#2),從這兩個合作群落的合作形態(tài)上不難看出,#1大致呈現(xiàn)為直線形態(tài),每一個節(jié)點至于與其相連的的上下兩個節(jié)點有聯(lián)系,而#2則呈現(xiàn)出網(wǎng)狀形態(tài),群落內(nèi)的主要節(jié)點間聯(lián)系密切,是一種較為成熟的合作形態(tài)。由《社會網(wǎng)絡(luò)分析》[15]我們可知,中心中介度是度量是用來度量個體在社會網(wǎng)絡(luò)中聯(lián)系密切程度的數(shù)據(jù)。由表不難看出在#2中的國家中心度較高
2.研究熱點分析
本文2182篇文獻(xiàn)共計162個關(guān)鍵詞,399條連線,如圖二所示。從圖中我們不難看出,大數(shù)據(jù)的研究各個關(guān)鍵點之間的聯(lián)系非常密切,最密集處 big data關(guān)鍵點的中介中心度為0.2,此外,從諸如network,medicine,agriculture health,social media等關(guān)鍵詞我們也不難看出大數(shù)據(jù)與各個領(lǐng)域聯(lián)系緊密,自大數(shù)據(jù)這一概念被提出以來至今的這十年中各個領(lǐng)域?qū)Υ髷?shù)據(jù)的研究抱有非常的熱情,也取得了豐碩的成果。 表二為關(guān)鍵詞中出現(xiàn)次數(shù)排在前二十位的。其中做高的為big data ,說明學(xué)術(shù)界對于大數(shù)據(jù)的概念定義特征有著深入的研究,其次為mapreduce,cloud computing,Hadoop,data minig等熱點詞匯,MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。是目前處理大數(shù)據(jù)的一種主流方式。cloud computing是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源,其運(yùn)算能力高達(dá)每秒10萬億次。Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。Data mining是指數(shù)據(jù)挖掘,一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。故我們不難看出學(xué)術(shù)界對于大數(shù)據(jù)的研究以對大數(shù)據(jù)的應(yīng)用和處理大數(shù)據(jù)的工具與技術(shù)為主。
五、結(jié)語
以Web of ScienceTM 核心合集數(shù)據(jù)庫中2182篇大數(shù)據(jù)領(lǐng)域研究的文獻(xiàn)為對象, 對大數(shù)據(jù)的研究現(xiàn)狀、研究基礎(chǔ)、研究熱點、研究前沿進(jìn)行了可視化分析,得出以下結(jié)論:
1.大數(shù)據(jù)的研究可分兩個時期,2010年之前為萌芽期,大數(shù)據(jù)剛剛進(jìn)去人們視線,大數(shù)據(jù)方面的研究剛剛起步,2011年至2014年為增長期,大數(shù)據(jù)越來越為人們所重視,社會各界都對大數(shù)據(jù)充滿了濃厚的興趣,研究文獻(xiàn)數(shù)量激增。2015年以后為成熟期,文獻(xiàn)研究數(shù)量稍有回落,學(xué)術(shù)界的研究方向開始轉(zhuǎn)向?qū)τ诖髷?shù)據(jù)的處理技術(shù),以及在各學(xué)科的應(yīng)用融合。
2.國家及機(jī)構(gòu)合并網(wǎng)絡(luò)知識圖譜, 揭示了國家或機(jī)構(gòu)的合作狀況和分布狀況, 在合作關(guān)系上,還沒形成一個好的合作網(wǎng)絡(luò); 在國家層面上, 美國、中國、澳大利亞等國是發(fā)文較多的國家, 其中美國研究的發(fā)文量遠(yuǎn)遠(yuǎn)超過其它國家,并且其的發(fā)文最具研究關(guān)鍵性; 在機(jī)構(gòu)層面上,美國哈弗大學(xué)、斯坦福大學(xué)、中國的社科院、清華大學(xué)等是發(fā)文較多的機(jī)構(gòu), 并且在發(fā)文機(jī)構(gòu)中以高校機(jī)構(gòu)為主。
3.共被引文獻(xiàn)知識圖譜揭示了大數(shù)據(jù)領(lǐng)域研究的知識基礎(chǔ)構(gòu)成, 其中早期奠基性文獻(xiàn)如Jeffrey Dean 和Sanjay Ghemawat 于2008 年發(fā)表的《MapReduce: simplified data processing on large clusters》[9]和在2009年發(fā)表的《Detecting influenza epidemics using search engine query data》[11],以及Adam Jacobs在2009年發(fā)表的《The pathologies of big data》[10]是大數(shù)據(jù)領(lǐng)域研究的知識基礎(chǔ)。另外,高被引文獻(xiàn)集合也是重要的知識基礎(chǔ)構(gòu)成要素。
4.大數(shù)據(jù)研究領(lǐng)域產(chǎn)生了一些研究熱點, 包括大數(shù)據(jù)本身的研究,大數(shù)據(jù)處理方式的研究,大數(shù)據(jù)在web上的應(yīng)用,大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用,數(shù)據(jù)挖掘等。
參考文獻(xiàn):
[1]Computing Community Consortium,2008,Big Data Computing:Creating Revolutionary Breakthroughs in Commerce, Science and Society.
[2]肯尼斯庫克爾,2010,數(shù)據(jù),無所不在的數(shù)據(jù),經(jīng)濟(jì)學(xué)人.
[3] MGI,2011,Big data: The next frontier for innovation, competition, and productivity.
[4]IDC,2011,Extracting Value from Chaos.
[5]American government,2012,大數(shù)據(jù)研究和發(fā)展倡議.
[6]MGI,,顛覆性技術(shù):技術(shù)進(jìn)步改變生活、商業(yè)和全球經(jīng)濟(jì).
[7]世界經(jīng)濟(jì)論壇,2014,全球信息技術(shù)報告(第13版).
[8]H. V. Jagadish,2014,Challenges and Opportunities With Big Data.
[9]Jeffrey Dean & Sanjay Ghemawat ,2008 ,MapReduce: simplified data processing on large clusters.
[10]Adam Jacobs,2009,The pathologies of big data.
[11]Jeremy Ginsberg1, Matthew H. Mohebbi1, Rajan S. Patel1, Lynnette Brammer2, Mark S. Smolinski1 & Larry Brilliant1, 2009,Detecting influenza epidemics using search engine query data.
[12]Jeffrey Dean & Sanjay Ghemawat,2010,MapReduce: a flexible data processing tool.
[13]Deal Jeffrey L.,2013,BIG DATA: A REVOLUTION THAT WILL TRANSFORM HOW WE LIVE, WORK, AND THINK.
[14]White T.,2012,Hadoop: The Definitive Guide.
[15]OReilly Media,2013,社會網(wǎng)絡(luò)分析:方法與實踐.