国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)領域演進路徑、研究熱點與前沿的可視化分析

2015-04-13 08:53何曉萍
現(xiàn)代情報 2015年4期
關鍵詞:熱點數(shù)據(jù)挖掘可視化

何曉萍 黃 龍

(南昌大學圖書館,江西南昌 330031)

?

大數(shù)據(jù)領域演進路徑、研究熱點與前沿的可視化分析

何曉萍 黃 龍

(南昌大學圖書館,江西南昌 330031)

本文以Web of Science為數(shù)據(jù)源,運用信息可視化軟件CiteSpace Ⅲ對所搜集的有關大數(shù)據(jù)研究的文獻進行聚類分析和共引分析。通過CiteSpace Ⅲ生成的知識圖譜并結合相關文獻的研究內容,從演進路徑、研究熱點以及研究前沿三方面對大數(shù)據(jù)研究進行量化分析和解讀。6篇關鍵節(jié)點文獻很好地展示了大數(shù)據(jù)研究的演進路徑,13個高頻關鍵詞和10個突現(xiàn)詞表征了大數(shù)據(jù)的研究熱點與研究前沿,得出結論:大數(shù)據(jù)的研究經歷了從大數(shù)據(jù)的計算模型、具體概念、復雜性科學的理論研究到有關大數(shù)據(jù)社會科學層面、應用型實踐層面研究的歷程;大數(shù)據(jù)處理技術、大數(shù)據(jù)挖掘及大數(shù)據(jù)應用是大數(shù)據(jù)研究的三大熱點;對大數(shù)據(jù)本身的研究、處理技術的研究、數(shù)據(jù)挖掘、系統(tǒng)、模型和網絡的研究以及其績效評估和數(shù)據(jù)管理的研究是大數(shù)據(jù)的研究前沿和發(fā)展趨勢,文章旨在為現(xiàn)階段大數(shù)據(jù)研究工作的深入開展提供參考。

大數(shù)據(jù);CiteSpace Ⅲ;演進路徑;研究熱點;研究前沿;可視化

大數(shù)據(jù)是當下繼云計算之后的一大熱點詞匯。2011年5月,信息存儲資訊科技公司EMC在“云計算相遇大數(shù)據(jù)(Cloud Meets Big Data)”大會上正式提出了“大數(shù)據(jù)”的概念。幾近同時,麥肯錫全球研究院(MGI)發(fā)布了一份研究報告《大數(shù)據(jù):創(chuàng)新、競爭和生產力的下一個前沿領域》(Big data,The next frontier for innovation,competition,and productivity)[1],它研究了文檔和數(shù)字數(shù)據(jù)的狀態(tài)以及處理這些數(shù)據(jù)所帶來的潛在價值。2012年1月,在瑞士達沃斯舉行的世界經濟論壇上,“大數(shù)據(jù)”是主要討論的主題之一,該論壇上發(fā)布了一份題為《大數(shù)據(jù),大影響》(Big Data,Big Impact)的報告,提出“數(shù)據(jù)已成為一種新的經濟資產類別,就像貨幣或黃金一樣。”[2]2012年3月,美國奧巴馬政府在白宮網站上發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》(Big Data Research and Development Initiative),該倡議涉及聯(lián)邦政府的6個部門,這些部門承諾將投資超過兩億美元,來大力推動和改善大數(shù)據(jù)的提取、存儲、分析、共享和可視化[3]。

無論是EMC、MGI的研究報告,世界經濟論壇的論題,還是美國政府的倡議,都向人們預示著大數(shù)據(jù)時代的來臨。國內外對大數(shù)據(jù)的研究不斷增加,該領域的研究文獻量也與日俱增,大量的研究文獻使得人們難以對大數(shù)據(jù)的知識進行深入地研究。信息可視化是常用的數(shù)據(jù)挖掘方法之一,它可以利用人類在可視化形勢下對模型和結構的獲取能力來解決科技文獻數(shù)量過大、無法快速進行有效交流的問題,可視化數(shù)據(jù)挖掘可以觀察、發(fā)現(xiàn)、篩選和理解信息,發(fā)現(xiàn)數(shù)據(jù)和信息背后所隱藏的含義[4]。本文將運用信息可視化工具CiteSpace Ⅲ,以Web of Science數(shù)據(jù)庫中收錄的有關大數(shù)據(jù)研究的文獻為樣本進行聚類分析和共引分析,對大數(shù)據(jù)的研究熱點、主題內容和發(fā)展趨勢三方面進行量化分析和解讀。

1 數(shù)據(jù)來源和研究方法

Web of Science是美國Thomson Scientific(湯姆森科技信息集團)基于WEB開發(fā)的產品,是大型綜合性、多學科、核心期刊引文索引數(shù)據(jù)庫,收錄了8 000多種世界范圍內最有影響力的、經過同行專家評審的高質量的期刊[5],以Web of Science為數(shù)據(jù)源進行研究,可以保證研究數(shù)據(jù)的全面性和權威性。本文選取了Web of Science數(shù)據(jù)庫中的4個子庫:Science Citation Index Expanded(SCI-EXPANDED)、Social Sciences Citation Index(SSCI)、Conference Proceedings Citation Index-Science(CPCI-S)和Conference Proceedings Citation Index-Social Science& Humanities(CPCI-SSH),檢索方式選擇高級檢索,檢索策略為:主題=(“big data”),時間跨度=所有年份,共檢索到有關大數(shù)據(jù)得研究文獻記錄1 849條(檢索日期:2014年10月12日)。

本文研究工具采用陳超美教授開發(fā)的信息可視化軟件CiteSpace Ⅲ,其獨到的創(chuàng)新之處在于繪制的一幅科學知識圖譜,能夠顯示一個學科或知識域在一定時期發(fā)展的趨勢與動向,形成若干研究前沿領域的演進歷程[6]。將檢索到的1 849篇文獻題錄信息(主要包括篇名、關鍵詞、摘要、作者、參考文獻等字段)導入到CiteSpace Ⅲ軟件中。有關大數(shù)據(jù)研究的第一篇文獻的發(fā)表于1993年,即所檢索到的文獻時間范圍是1993-2014年,共計22年,以每2年設為1個時間分區(qū)(Time slicing),總共分為11個時間段;主題詞來源(Term Source)選擇標題(Title)、摘要(Abstract)、關鍵詞(Author Keywords)和標識符(Keywords Plus);分析節(jié)點(Node Types)選擇共引文獻(Cited Reference);設置閥值(c,cc,ccv)為(2,2,15),(3,2,20),(4,3,20),c為最低被引次數(shù),cc為本時間段內的共被引次數(shù),ccv為規(guī)范化以后的共被引次數(shù),每個時間段中選取被引次數(shù)最高的30篇文獻。運行CiteSpace Ⅲ軟件,得到大數(shù)據(jù)研究共引分析文獻網絡組圖和知識圖譜,就此分析關鍵節(jié)點文獻。主題詞類型(Term Type)有名詞短語(Noun Phrases)和突現(xiàn)詞(Burst Terms)兩種,名詞短語可以表達大數(shù)據(jù)的研究熱點,而突現(xiàn)詞則可表達大數(shù)據(jù)的研究前沿及發(fā)展趨勢。

2 結果與分析

2.1 大數(shù)據(jù)研究文獻的時間分布情況

對WOS數(shù)據(jù)庫中大數(shù)據(jù)研究文獻按年代變化進行時間分布分析,如圖1所示,從圖中可以看出,大數(shù)據(jù)的研究可以分為3個階段:第一階段從1993-2007年,為大數(shù)據(jù)的孕育階段,該階段大數(shù)據(jù)研究成果零散,發(fā)文量十分有限;第二階段從2008-2011年,為大數(shù)據(jù)研究的起步階段;第三階段從2012-2014年,為大數(shù)據(jù)研究的上升階段,研究文獻劇增,且年發(fā)文量大于200篇,呈現(xiàn)出快速增長的態(tài)勢,2014年的文獻數(shù)據(jù)不全,但已有600篇,由此可以預測未來大數(shù)據(jù)的研究將保持迅猛增長的勢頭。同時,通過Logistic曲線擬合文獻量的時間序列分布,發(fā)現(xiàn)大數(shù)據(jù)研究還處在快速上升時期,還沒出現(xiàn)成熟前的“拐點”。

圖1 大數(shù)據(jù)研究文獻的年度時間分布

2.2 大數(shù)據(jù)研究的演進路徑分析

信息可視化軟件CiteSpace Ⅲ有兩種顯示共引網絡圖譜的視圖方式,分別為聚類視圖(cluster views)和時區(qū)視圖(time-zone views)。時區(qū)視圖的顯示方式突出共引網絡節(jié)點隨時間變化的結構關系[6]。運行CiteSpace Ⅲ軟件得到大數(shù)據(jù)研究文獻共引網絡節(jié)點的時區(qū)視圖,圖譜中共有182個節(jié)點,410條連線,如圖2所示。

圖2 大數(shù)據(jù)共引網絡節(jié)點的時區(qū)視圖

CiteSpace Ⅲ最突出的特點就是關鍵節(jié)點的計算測量,圖中每個圓形節(jié)點代表一篇引文,節(jié)點大小與被引用次數(shù)有關,節(jié)點越大,被引頻次越高,其文獻價值也越大,當設置“標簽字體大小依比例顯示選項”后,被引頻次高的引文在圖中的字體也越大,同時,節(jié)點間的連線代表引用關系與引用時間,連線越粗則引用次數(shù)越多,連線顏色則提示引用時間,依時間先后序列由冷色向暖色改變[7]。從知識理論的角度看,關鍵節(jié)點文獻通常是在該領域中提出重大理論或是創(chuàng)新概念的文獻,也是最容易引起新的研究前沿熱點的關鍵文獻[8]。按被引頻次的大小,表1列舉出了圖2中排名前六位的有關大數(shù)據(jù)研究關鍵節(jié)點文獻,這些文獻都是大數(shù)據(jù)研究的知識基礎,結合圖2,按時間順序對表1中的關鍵節(jié)點文獻進行分析,即可梳理出大數(shù)據(jù)研究發(fā)展的演進路徑。

表1 大數(shù)據(jù)研究關鍵節(jié)點文獻

第一篇文獻是由MapReduce、BigTable 等系統(tǒng)的創(chuàng)造者Jeff Dean于2008年發(fā)表在《COMMUNICATIONS OF THE ACM》刊物上的《Mapreduce:Simplified data processing on large clusters》[9],文章借鑒函數(shù)式編程語言,強調了MapReduce的思想,將MapReduce模型用于大規(guī)模數(shù)據(jù)集的并行運算,包括“分布grep,分布排序,web連接圖反轉,每臺機器的詞矢量,web訪問日志分析,反向索引構建,文檔聚類等”。這說明借助關鍵技術對大規(guī)模數(shù)據(jù)進行深入的研究,最大限度地提升管理和使用大規(guī)模數(shù)據(jù)的能力開始成為研究的重點。

第二篇文獻是由Howe,Doug于2008年發(fā)表在《NATURE》雜志上的《Big data:The future of biocuration》[10],文章基于大數(shù)據(jù)環(huán)境,提出了“生物文獻數(shù)據(jù)結構化”這一概念,通過數(shù)據(jù)結構化來規(guī)范生物文獻信息,從而提高生物學信息的獲取率和利用率。這標志著大數(shù)據(jù)的研究在生物學學科得到廣泛關注。

第三篇文獻是由英國e-Science計劃前首席科學家Tony Hey于2009年發(fā)表在《NATURE》雜志上的《The Fourth Paradigm:Data-Intensive Scientific Discovery》[11],該文探索了數(shù)據(jù)密集型計算以及未來計算技術的發(fā)展,揭示出數(shù)據(jù)分析已經成為繼理論、實驗和計算之后的第四種科學發(fā)現(xiàn)基礎,是產生經濟價值的新源泉。數(shù)據(jù)分析有助于市場預測、社會學以及醫(yī)學等學科領域的知識規(guī)律發(fā)現(xiàn)和趨勢預測,達成“真理盡在數(shù)據(jù)中”的效果,“數(shù)據(jù)科學”逐漸成為業(yè)界學者研究的新興領域。

第四篇文獻是由WHITE T撰寫的《Hadoop:The Definitive Guide》[12]一書,于2009年由O’Reilly Media,Inc.出版社出版,書中展示了如何使用Hadoop構建可靠、可伸縮的分布式系統(tǒng),程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以了解如何建立與運行Hadoop集群。作為處理海量數(shù)據(jù)集的理想工具,Apache Hadoop架構是MapReduce算法的一種開源應用,是Google(谷歌)開創(chuàng)其帝國的重要基石,更是打開“數(shù)據(jù)金礦”大門的金鑰匙。

第五篇文獻是由麥肯錫全球研究院(MGI)于2011年發(fā)布的研究報告《Big data,The next frontier for innovation,competition,and productivity》[1],該報告系統(tǒng)的闡述了大數(shù)據(jù)概念,麥肯錫認為,“大數(shù)據(jù)”是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集。該定義有兩方面內涵:一是符合大數(shù)據(jù)標準的數(shù)據(jù)集大小是變化的,會隨著時間推移、技術進步而增長;二是不同部門符合大數(shù)據(jù)標準的數(shù)據(jù)集大小會存在差別。同時,報告詳細列舉了大數(shù)據(jù)的核心技術,深入分析了大數(shù)據(jù)在美國醫(yī)療衛(wèi)生、歐洲聯(lián)合公共部門管理、美國零售業(yè)、全球制造業(yè)和個人地理位置信息5個領域的應用,明確提出了政府和企業(yè)決策者應對大數(shù)據(jù)發(fā)展的策略。作為第一份從經濟和商業(yè)維度詮釋大數(shù)據(jù)發(fā)展?jié)摿Φ难芯砍晒?,揭示出?shù)據(jù)正在成為有形資本、人力資本這類產品的一個因素,如何讓商業(yè)適應大數(shù)據(jù),如何讓大數(shù)據(jù)的更有利的管理和更有價值的分析,是一個全新的具有挑戰(zhàn)的話題。

最后一篇是由被譽為“大數(shù)據(jù)商業(yè)應用第一人”的Mayer-Schoenberger于2013年在《INTERNATIONAL JOURNAL OF COMMUNICATION》雜志上發(fā)表的《Big Data:A Revolution That Will Transform How We Live,Work and Think》[13],文中前瞻性地指出,大數(shù)據(jù)帶來的信息風暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉型,其中最大的轉變就是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說只要知道“是什么”,而不需要知道“為什么”,這就顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰(zhàn)。該文還提出大數(shù)據(jù)的核心就是預測。大數(shù)據(jù)將為人類的生活創(chuàng)造前所未有的可量化的維度。大數(shù)據(jù)已經成為新發(fā)明和新服務的源泉,而更多的改變正蓄勢待發(fā),例如谷歌、微軟、亞馬遜、IBM、蘋果、facebook、twitter、VISA等大數(shù)據(jù)先鋒們已經開啟了對大數(shù)據(jù)最具價值的應用歷程。因此,該關鍵節(jié)點論文是大數(shù)據(jù)應用在大數(shù)據(jù)時代的一個重要標志。

通過以上關鍵節(jié)點文獻的分析,可以得出,在2008年之前,由于大數(shù)據(jù)理論和基礎比較缺乏,有關大數(shù)據(jù)研究的論文發(fā)文量比較低,且沒有產生具有影響力的文獻。從2008年開始,隨著研究的不斷深入,進入大數(shù)據(jù)領域進行研究的機構、學者等不斷增加,有關大數(shù)據(jù)研究的論文發(fā)文量急劇增長,產生了許多重要的研究成果。大數(shù)據(jù)的研究經歷了從大數(shù)據(jù)的計算模型、具體概念、復雜性科學的理論研究,到伴隨大數(shù)據(jù)研究技術的全面拓展而進行的有關大數(shù)據(jù)社會科學層面、應用型實踐層面研究的歷程。

2.3 大數(shù)據(jù)研究熱點分析

由于關鍵詞是作者對文章核心內容的精煉與概括,體現(xiàn)文章研究價值與方向,因此在軟件分析結果中,頻次高的關鍵詞常被用來確定一個研究領域的熱點問題,另外,從文章中提取的名詞短語也可以在一定程度上代表某學科的研究熱點[14]。在CiteSpace Ⅲ軟件中,節(jié)點類型選擇關鍵詞(Keyword)、主題詞類型選擇名詞短語(Noun Phrases),并選擇Pathfinder算法,運行CiteSpace Ⅲ軟件得到由關鍵詞和名詞短語生成的大數(shù)據(jù)研究熱點知識圖譜,圖譜中有342個節(jié)點,1 076條連線,如圖3所示。

圖3 大數(shù)據(jù)研究熱點知識圖譜

圖3中的圓形節(jié)點和方形節(jié)點分別代表關鍵詞和名詞短語,節(jié)點的大小表示關鍵詞或名詞短語出現(xiàn)的頻次,圓形節(jié)點越大,越可以體現(xiàn)大數(shù)據(jù)的研究熱點,同樣,方形節(jié)點越大,也在一定程度上代表了大數(shù)據(jù)的研究熱點。選取出現(xiàn)頻次大于等于40的熱點名詞術語,得到大數(shù)據(jù)研究熱點詞匯統(tǒng)計表,見表2。

表2 頻次大于等于40的熱點詞匯統(tǒng)計表

從圖3和表2可以看出,出現(xiàn)頻次最高的熱點詞為big data(大數(shù)據(jù)),達1 305次,且其中心度值(0.56)也位居首位,一方面,表明了選擇“big data”為本文的研究主題具有一定的明確性;另一方面,也說明“big data”這一表述在學術界被普遍認可,且對大數(shù)據(jù)的研究也極其重視。其他高頻熱點詞匯按出現(xiàn)頻次高低分別為:cloud computing(云計算)、big data analytics(大數(shù)據(jù)分析)、mapreduce(分布式計算)、data mining(數(shù)據(jù)挖掘)、hadoop(分布式系統(tǒng)基礎架構)、social media(社交媒體)、machine learning(機器學習)、model(模型)、big data application(大數(shù)據(jù)應用)、social network(社交網絡)、networks(網絡),同時,這些熱點詞匯正是前文所述多數(shù)關鍵節(jié)點文獻研究的主要內容。

目前,大數(shù)據(jù)的研究熱點可以從以下3方面來分析:(1)大數(shù)據(jù)處理技術的研究。這一研究熱點主要涉及云計算、大數(shù)據(jù)分析、Hadoop、Mapreduce、模型等技術,尤其是Hadoop、Mapreduce帶來的并行式和分布式算法,為更高效率的管理和處理海量數(shù)據(jù)集帶來了可能。同時,云計算模式為大數(shù)據(jù)提供了存儲空間和計算能力,是大數(shù)據(jù)處理技術的基礎。(2)大數(shù)據(jù)挖掘的研究。這一研究熱點主要涉及云計算、社交網絡、社交媒體、數(shù)據(jù)分析、數(shù)據(jù)挖掘等。社交媒體、社交網絡的普及產生了大量的數(shù)據(jù),而沉睡的數(shù)據(jù)只是一堆低價值密度的垃圾,只有通過數(shù)據(jù)挖掘,才能發(fā)現(xiàn)和創(chuàng)造其潛在的價值,同時,大數(shù)據(jù)挖掘的實現(xiàn)也需要云計算技術支持。在業(yè)界,IT巨頭們如:Google、微軟、EMC、IBM、惠普等互聯(lián)網公司都已經意識到大數(shù)據(jù)挖掘的重要意義,紛紛通過收購大數(shù)據(jù)分析公司,進行技術整合,希望從大數(shù)據(jù)中挖掘更多的商業(yè)價值[15]。(3)大數(shù)據(jù)應用的研究。這一研究熱點主要涉及大數(shù)據(jù)應用、數(shù)據(jù)分析、機器學習等。與傳統(tǒng)數(shù)據(jù)分析相比,大數(shù)據(jù)技術的核心目標之一即是從數(shù)據(jù)量大、數(shù)據(jù)結構類型多樣的數(shù)據(jù)中挖掘信息和獲取知識,而大數(shù)據(jù)技術這一目標的實現(xiàn)離不開機器學習的技術。通過機器學習高效智能地獲取新知識,為數(shù)據(jù)分析應用帶來價值是當今大數(shù)據(jù)應用研究的一大重點。

2.4 大數(shù)據(jù)研究前沿分析

陳超美認為,使用突現(xiàn)主題術語( surged topicalterms)要比使用出現(xiàn)頻次最高的主題詞(title words)更適合探測學科發(fā)展的新興趨勢和突然變化[16]。運用CiteSpace Ⅲ軟件的突現(xiàn)詞探測(Detect Bursts)技術,觀察詞頻的時間分布,將突現(xiàn)詞(Burst Terms)從大量的主題詞中探測出來,從而揭示出大數(shù)據(jù)的研究前沿。主題詞類型選擇突現(xiàn)詞(Burst Terms),運行CiteSpace Ⅲ軟件,得到大數(shù)據(jù)研究前沿的網絡圖譜,如圖4所示。探測得到10個突現(xiàn)詞,見表3。

圖4 大數(shù)據(jù)研究前沿的網絡圖譜

結合圖4和表3可以看出,突變率最高的主題詞為是“big data(大數(shù)據(jù))”,達5.74,該主題詞代表了大數(shù)據(jù)領域對大數(shù)據(jù)本身的研究,而且,對大數(shù)據(jù)本身的研究依舊可能是未來大數(shù)據(jù)研究的熱點。除“big data(大數(shù)據(jù))”以外,“mapreduce(分布式計算)”、“cloud computing(云計算)”、“hadoop(分布式系統(tǒng)基礎架構)”這3個主題詞的突變率也較高,說明mapreduce框架、云計算、hadoop框架的數(shù)據(jù)處理技術近年來備受研究者關注。同時,與數(shù)據(jù)處理技術有關的“data mining(數(shù)據(jù)挖掘)”、“systems(系統(tǒng))”、“model(模型)”、“networks(網絡)”,這4個主題詞的突變率也比較高,分別是3.87、3.21、3.15和3.12,由此可以看出與大數(shù)據(jù)有關的數(shù)據(jù)挖掘、系統(tǒng)、模型及網絡的研究是近年來大數(shù)據(jù)領域研究的重要前沿與發(fā)展趨勢。此外,“performance(績效)”和“management(管理)”這2個高突變詞也說明了近年來大數(shù)據(jù)在績效評估和數(shù)據(jù)管理方向研究的重視,有關大數(shù)據(jù)的績效評估和數(shù)據(jù)管理也將成為未來幾年內大數(shù)據(jù)研究的重點。

3 結 論

CiteSpace Ⅲ信息可視化軟件具有較強的探測和分析某一學科演化路徑、研究熱點與研究前沿的功能,在上述大數(shù)據(jù)研究中得以完美體現(xiàn),通過對Web of Science數(shù)據(jù)庫中收錄的有關大數(shù)據(jù)研究的文獻進行聚類分析和共引分析,得到以下結論:

(1)大數(shù)據(jù)研究的演進路徑:2008年,強調了MapReduce的思想,對大規(guī)模數(shù)據(jù)集進行并行運算,同時,大數(shù)據(jù)的研究開始向生物學學科滲透;2009年,探索了數(shù)據(jù)密集型計算以及未來計算技術的發(fā)展,揭示出數(shù)據(jù)分析已經成為繼理論、實驗和計算之后的第4種科學發(fā)現(xiàn)基礎,并且,數(shù)據(jù)處理技術Hadoop的應用,為更高效的處理海量數(shù)據(jù)集帶來了可能;2011年,系統(tǒng)地闡述了大數(shù)據(jù)概念,并介紹了大數(shù)據(jù)的核心技術,深入分析了大數(shù)據(jù)在不同領域的應用,明確提出了政府和企業(yè)決策者應對大數(shù)據(jù)發(fā)展的策略。2013年,前瞻性地指出了大數(shù)據(jù)帶來的信息風暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉型。

(2)大數(shù)據(jù)的研究熱點概括為3個方面:一是大數(shù)據(jù)處理技術的研究;二是大數(shù)據(jù)挖掘的研究;三是大數(shù)據(jù)應用的研究。研究的內容逐漸從“概念化”走向“價值”。

(3)大數(shù)據(jù)的研究前沿有4個:一是對大數(shù)據(jù)本身的研究;二是有關大數(shù)據(jù)處理技術的研究;三是與大數(shù)據(jù)處理技術有關的數(shù)據(jù)挖掘、系統(tǒng)、模型和網絡的研究;四是大數(shù)據(jù)績效評估和數(shù)據(jù)管理的研究。海量數(shù)據(jù)的存儲、管理、轉換、績效評估等問題,以及大數(shù)據(jù)在社會科學層面和應用型實踐層面的研究將可能是大數(shù)據(jù)未來一段時間內的深度挖掘的方向和研究趨勢。

[1]Big data:The next frontier for innovation,competition,and productivity[EB/OL].http:∥www.Mckinsey.com/insights/business technology/big data the next frontier for innovation,2014-10-12.

[2]科技中國.大數(shù)據(jù)時代[EB/OL].http:∥www.techcn.com.cn/index.php?Edition-view-185281-2.html,2014-10-12.

[3]中國云計算.大數(shù)據(jù)大事業(yè)-白宮發(fā)布大數(shù)據(jù)研究和發(fā)展倡議[EB/OL].http:∥www.chinacloud.cn/show.aspx?id=9349&cid=17,2014-10-12.

[4]趙蓉英,徐燦.信息服務領域研究熱點與前沿的可視化分析[J].情報科學,2013,(12):9-14.

[5]百度百科.Web of Science[EB/OL].http:∥baike.baidu.com/view/3511061.htm?fr=aladdin,2014-10-12.

[6]Chaomei Chen.CiteSpace Ⅱ:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.

[7]趙智慧.文化遺產數(shù)字化研究演進路徑與熱點前沿的可視化分析[J].圖書館論壇,2013,(2):33-40.

[8]侯劍華,陳悅,王賢文.基于信息可視化的組織行為領域前沿演進分析[J].情報學報,2009,(3):422-430.

[9]DEAN J.Mapreduce:Simplified data processing on large clusters[J].COMMUNICATIONS OF THE ACM,2008,1(51):107-113.

[10]Howe D,Costanzo M,Fey P,et al.Big data:The future of biocuration[J].Nature,2008,455(7209):47-50.

[11]Tony Hey.The Fourth Paradigm:Data-Intensive Scientific Discovery[J].Nature,2009,462(7274):722-723.

[12]WHITE T.Hadoop:The Definitive Guide[M].USA:O’Reilly Media,Inc,2009:15-73.

[13]Mayer-Schoenberger.Big Data:A Revolution That Will Transform How We Live,Work and Think[J].INTERNATIONAL JOURNAL OF COMMUNICATION,2013,(7):2727-2729.

[14]趙蓉英,許麗敏.文獻計量學發(fā)展演進與研究前沿的知識圖譜探析[J].中國圖書館學報,2010,(5):60-68.

[15]何清.大數(shù)據(jù)與云計算[J].科技促進發(fā)展,2014,(1):35-40.

[16]陳超美.CiteSpace Ⅱ:科學文獻中新趨勢與新動態(tài)的識別與可視化[J].陳悅,等譯.情報學報,2009,28(5):401-421.

(本文責任編輯:馬 卓)

Visualization Analysis of Evolution Path,
Research Hotspots and Frontiers of Big Data

He Xiaoping Huang Long

(Library,Nanchang University,Nanchang 330031,China)

This paper used the literatures which were retrieved from the Web of Science with the capital of Big Data as data sources,and conducted the cluster analysis and co-citation by means of the information visualization software CiteSpace Ⅲ.Based on the knowledge mapping generated by Citespace Ⅲ and the relevant literature,it performed statistical analysis and data interpretation from three perspectives,namely,research hotspots,subject content and developing trends.6 critical node documents perfectly showed the evolution path of big data;13 high frequency keywords and 5 burst terms indicated the research hotspots and research fronts.Conclusion:the research of big data had experienced a process which from the big data calculation model,the specific concept,the theory research of complexity science to the research on big data of social science level and applied practice level,three research hotspots:big data processing,data mining and data application,the research frontier and developing trend of big data:the study of big data itself,the research of processing technology,the research of data mining and system,model and network,data management and performance evaluation,this paper aimed at providing the reference for carrying out the present research of big data.

big data;CiteSpace Ⅲ;evolution pathway;research hotspots;research frontiers;visualization

2014-12-15

何曉萍(1955-),女,教授,研究方向:情報學、圖書館學、教育技術學。

10.3969/j.issn.1008-0821.2015.04.010

G252

A

1008-0821(2015)04-0046-06

猜你喜歡
熱點數(shù)據(jù)挖掘可視化
基于CiteSpace的足三里穴研究可視化分析
熱點
基于Power BI的油田注水運行動態(tài)分析與可視化展示
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
熱點
結合熱點做演講
基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
基于GPGPU的離散數(shù)據(jù)挖掘研究
沅陵县| 齐齐哈尔市| 天气| 富源县| 信宜市| 永康市| 鄯善县| 石台县| 咸宁市| 日土县| 宝坻区| 浮梁县| 孟州市| 扶绥县| 德格县| 恩平市| 德兴市| 方城县| 洞头县| 星子县| 望江县| 积石山| 曲周县| 汶川县| 弋阳县| 临西县| 邵阳市| 友谊县| 临洮县| 得荣县| 永修县| 临夏县| 多伦县| 昌宁县| 沙田区| 德兴市| 大英县| 嘉峪关市| 晋州市| 白水县| 英山县|