基于cite spaceⅢ對于大數(shù)據(jù)研究的可視化分析

2017-04-05 15:24郭新敬沈子煬

現(xiàn)代經(jīng)濟(jì)信息 2017年3期

郭新敬+沈子煬

摘要：本文結(jié)合文獻(xiàn)計量學(xué)的方法和citespace軟件與excel軟件，對2005—2015年間的web of scienceTM 核心合集收錄的2182篇大數(shù)據(jù)研究領(lǐng)域的文獻(xiàn)分別進(jìn)行了研究現(xiàn)狀、知識基礎(chǔ)、研究熱點、研究前沿進(jìn)行了可視化分析，進(jìn)而揭示了國際大數(shù)據(jù)領(lǐng)域研究的特點規(guī)律及動態(tài)過程。

關(guān)鍵詞：大數(shù)據(jù)；大數(shù)據(jù)研究前沿；cite spaceⅢ

中圖分類號：G40-057 文獻(xiàn)識別碼：A 文章編號：1001-828X（2017）003-0-03

引言

隨著智能手機(jī)、平板電腦等越來越多的智能移動終端被用戶所接受，而隨著用戶量的迅猛增長，數(shù)據(jù)也在以驚人的速度增長和累積。正是在全球數(shù)據(jù)暴漲的背景下，大數(shù)據(jù)，一個用來形容這種龐大的數(shù)據(jù)集的名詞應(yīng)運(yùn)而生。目前，學(xué)術(shù)界、政界、工商界等都對其產(chǎn)生了濃厚的興趣。大數(shù)據(jù)是一個抽象的概念，不同領(lǐng)域的專家學(xué)者因?qū)ζ潢P(guān)注的方向不同，所給出的定義也不相同。

美國國家標(biāo)準(zhǔn)和技術(shù)研究院（NIST）從學(xué)術(shù)角度給大數(shù)據(jù)做了一個定義“大數(shù)據(jù)是指其數(shù)據(jù)量、采集速度或者數(shù)據(jù)表示限制了傳統(tǒng)關(guān)系型方法進(jìn)行有效分析的能力，或需要使用重要的水平縮放技術(shù)來實現(xiàn)高效處理的數(shù)據(jù)”。

對于大數(shù)據(jù)的特征的描述，目前比較流行的是“3VS”和“4VS”兩種。“3VS”是由Gartner公司的分析師道格萊尼提出的，他將大數(shù)據(jù)描述為數(shù)量（volume）龐大、種類（variety）繁多、速度（velocity）快且具有即時性的數(shù)據(jù)集。

“4VS”則是由國際知名數(shù)據(jù)公司IDC提出的，在其發(fā)布的報告中是這樣描述大數(shù)據(jù)的特征的“數(shù)量浩大、種類繁多、生成快速、價值巨大單密度低”。正是由于學(xué)者專家高漲的研究熱情，探索理清大數(shù)據(jù)的發(fā)展方向，明確大數(shù)據(jù)的研究前沿，理清大數(shù)據(jù)的知識基礎(chǔ)對于大數(shù)據(jù)研究和管理則顯得尤為重要。

一、數(shù)據(jù)來源與研究方法

本文所選取的數(shù)據(jù)庫具體為科學(xué)引文索引SCIE（Science Citation Index expand），檢索式為”TS=big data AND TI=big data”，時間為2005—2015，檢索結(jié)果有2，182條記錄，來自web of science核心合集。本文選用可視化分析軟件為陳超美團(tuán)隊所開發(fā)的CiteSpace III來對所獲取到的文獻(xiàn)數(shù)據(jù)進(jìn)行分析。將之前檢索并下載的引文記錄放入到data文件夾中，使用CiteSpace III創(chuàng)建一個新的project，時間跨度選擇為2005—2015，選擇每一年為一個時間段，termtypes選擇burstterms，并分別選擇author，institution，keyword，cited author，cited reference，cited journal進(jìn)行分析，設(shè)定閾值為：c（2，2，20），cc（3，3，20），ccv（3，3，20）。

二、文獻(xiàn)產(chǎn)量分析

文獻(xiàn)計量統(tǒng)計是科學(xué)研究中重要的研究方法，它能反映某一學(xué)科領(lǐng)域的文獻(xiàn)隨時間變化的一個分布狀況以及研究主題的熱度情況。表一為統(tǒng)計表，圖一為每年散點圖及趨勢預(yù)測圖。對于文獻(xiàn)增長的規(guī)律用多項式函數(shù)進(jìn)行擬合，得到擬合曲線y = -1.27 x4 + 10223.44 x3 - 30823881.64 x2 + 41304216104.99 x - 20755444911937.60 ，R? = 0.92 ，接近于1，且曲線與數(shù)據(jù)點較為吻合，說明近期內(nèi)文獻(xiàn)數(shù)量將按照此曲線增長。

根據(jù)圖形我們可以把近十年來對大數(shù)據(jù)的研究分為兩個階段：

1.萌芽期（2010年以前）：2006年，大數(shù)據(jù)技術(shù)形成并運(yùn)行運(yùn)算與分布式系統(tǒng)，為大數(shù)據(jù)的深入研究奠定基礎(chǔ)。2007年1月吉姆格雷——數(shù)據(jù)庫軟件先驅(qū)，第一次將這種轉(zhuǎn)變稱為第四范式，他認(rèn)為面對這種范式，只能開發(fā)新一代的計算工具來處理海量數(shù)據(jù)。2008年，《Nature》在開辟了Big Data專欄，同年計算機(jī)社區(qū)聯(lián)盟（Computing Community Consortium）發(fā)表了報告Big Data Computing：Creating Revolutionary Breakthroughs in Commerce， Science and Society[1]，闡述解決大數(shù)據(jù)問題的一些方法和技術(shù)。2010年2月，肯尼斯庫克爾在《經(jīng)濟(jì)學(xué)人》上發(fā)表報告《數(shù)據(jù)，無所不在的數(shù)據(jù)》[2]。

2.增長期（2011-2015）：2011 年2 月為了對科學(xué)研究中大數(shù)據(jù)的問題及其重要性進(jìn)行討論，Science雜志出版專刊Dealing with Data。同年5月，繼物聯(lián)網(wǎng)，云計算之后，“大數(shù)據(jù)”成為又一個廣受關(guān)注的名詞，全球知名咨詢公司麥肯錫（McKinsey&Company）肯錫全球研究院（MGI）將大數(shù)據(jù)再次推向一個熱潮，發(fā)布了一份報告——《大數(shù)據(jù)：創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》[3]。同年，Gartner 將大數(shù)據(jù)列入2012 年十大戰(zhàn)略新興技術(shù)。 6 月，IDC 研究報告《從混沌中提取價值》[4]中構(gòu)成了大數(shù)據(jù)的理論基礎(chǔ)，并提出預(yù)計未來全球數(shù)據(jù)增速將會維持，到2020 年全球數(shù)據(jù)量將達(dá)到令人恐怖的35ZB，2010 年全球數(shù)據(jù)量跨入ZB 時代，全球數(shù)據(jù)量大約每兩年翻一番，預(yù)計2011全球數(shù)據(jù)量將達(dá)到1.8ZB。

2012年3月，大數(shù)據(jù)已經(jīng)成為重要的時代特征，在白宮網(wǎng)站上，美國奧巴馬政府宣布投資2億美元到大數(shù)據(jù)領(lǐng)域，并發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》[5]。

2013年5月，麥肯錫全球研究所（McKinsey Global Institute）稱大數(shù)據(jù)已成為這些可能改變世界格局的12項技術(shù)中許多技術(shù)的基石，并發(fā)布了一份名為《顛覆性技術(shù)：技術(shù)進(jìn)步改變生活、商業(yè)和全球經(jīng)濟(jì)》[6]的研究報告。2014年4月，世界經(jīng)濟(jì)論壇發(fā)布了《全球信息技術(shù)報告（第13版）》[7]，其是以“大數(shù)據(jù)的回報與風(fēng)險”為主題。同年美國數(shù)據(jù)管理領(lǐng)域的專家學(xué)者從學(xué)術(shù)的角度介紹大數(shù)據(jù)的產(chǎn)生、處理流程和方法，聯(lián)合發(fā)布了《大數(shù)據(jù)白皮書》（《Challenges and Opportunities With Big Data》）[8]，并提出了面對大數(shù)據(jù)的若干挑戰(zhàn)。

三、知識基礎(chǔ)分析

通過知識基礎(chǔ)分析，可以挖掘出大數(shù)據(jù)研究的發(fā)展脈絡(luò)和研究基礎(chǔ)。知識基礎(chǔ)分析一般可以從早期奠基性文獻(xiàn)、高被引文獻(xiàn)兩個方面進(jìn)行。在CitespaceⅢ軟件中，可以通過繪制共被引文獻(xiàn)知識圖譜來展示關(guān)聯(lián)數(shù)據(jù)的知識基礎(chǔ)。在進(jìn)行軟件參數(shù)設(shè)置時，節(jié)點類型只選擇共被引文獻(xiàn)（Cited Reference），調(diào)整閾值為（2，2，20），（4，3，20），（4，3，20），運(yùn)行后生成145 個網(wǎng)絡(luò)節(jié)點， 403 條連線，生成的共被引文獻(xiàn)知識圖譜見圖3，圖中節(jié)點的大小與節(jié)點相對應(yīng)的文獻(xiàn)被引頻次成正比，節(jié)點越大表明該文獻(xiàn)的被引次數(shù)越高，紫色節(jié)點代表關(guān)鍵節(jié)點文獻(xiàn)。

1.早期奠基性文獻(xiàn)

早期奠基性文獻(xiàn)是某一學(xué)科領(lǐng)域后期研究的重要知識來源，其認(rèn)定的主要條件是文獻(xiàn)被引時間早且被引頻次相對較高。通過對共被引文獻(xiàn)的時間序列知識圖譜進(jìn)行分析，發(fā)現(xiàn)大數(shù)據(jù)領(lǐng)域研究的奠基性文章有4 篇，第一篇是Jeffrey Dean 和Sanjay Ghemawat 于2008 年發(fā)表的《MapReduce： simplified data processing on large clusters》[9]。兩位作者在該篇文章首次詳細(xì)介紹了MapReduce這種現(xiàn)今非常主流大數(shù)據(jù)處理編程模式。第二篇為Adam Jacobs在2009年發(fā)表的《The pathologies of big data》[10]，作者在該文中指出了遇到大數(shù)據(jù)處理瓶頸時會出現(xiàn)的幾個典型問題。第三篇是由Jeremy Ginsberg1， Matthew H. Mohebbi1， Rajan S. Patel1， Lynnette Brammer2， Mark S. Smolinski1 & Larry Brilliant1在2009年聯(lián)合發(fā)表的《Detecting influenza epidemics using search engine query data》[11]，幾位作者在介紹了大數(shù)據(jù)在預(yù)防醫(yī)學(xué)領(lǐng)域的一些應(yīng)用。第四篇是Jeffrey Dean 和Sanjay Ghemawa在2010年發(fā)表的《MapReduce： a flexible data processing tool》[12]，兩位作者在文中指出了MapReduce的引用在眾多領(lǐng)域的優(yōu)點。

2.高被引文獻(xiàn)

一般來說，高被引文獻(xiàn)在一定程度上反映了文獻(xiàn)的學(xué)術(shù)影響力和經(jīng)典程度，而且，其中的知識常被作為相關(guān)研究學(xué)者進(jìn)一步研究的知識基礎(chǔ)來源。因此，利用CitespaceⅢ軟件分析得出大數(shù)據(jù)領(lǐng)域研究被引頻次較高的文獻(xiàn)，如圖中引文年輪較大的幾個節(jié)點所示。

將被引頻次≥30 的4 篇文獻(xiàn)作為大數(shù)據(jù)領(lǐng)域研究的高被引文獻(xiàn)，如表所示。被引頻次排在首位的依舊是Jeffrey Dean 和Sanjay Ghemawat 于2008 年發(fā)表的《MapReduce： simplified data processing on large clusters》[9]，被引頻次為161次，足以說明這篇文獻(xiàn)是大數(shù)據(jù)領(lǐng)域研究的經(jīng)典文獻(xiàn)。第二位是麥肯錫研究院在2011年發(fā)布的報告《Big data： The next frontier for innovation， competition， and productivity》[3]，被引頻次為92次，作為從經(jīng)濟(jì)和商業(yè)維度詮釋大數(shù)據(jù)發(fā)展?jié)摿Φ牡谝环輰ｎ}研究成果，該報告系統(tǒng)闡述了大數(shù)據(jù)概念，詳細(xì)列舉了大數(shù)據(jù)的核心技術(shù)，深入分析了大數(shù)據(jù)在不同行業(yè)的應(yīng)用，明確提出了政府和企業(yè)決策者應(yīng)對大數(shù)據(jù)發(fā)展的策略。第三位是Deal Jeffrey L.在2013年出版的《BIG DATA： A REVOLUTION THAT WILL TRANSFORM HOW WE LIVE， WORK， AND THINK》[13]，被引頻次為43次，概述詳細(xì)介紹了大數(shù)據(jù)的概念、特征、構(gòu)成，和處理算法的使用。第四位是White T.在2012年出版的《Hadoop： The Definitive Guide》[14]，被引頻次為38次，作者主要介紹了Hadoop這種大數(shù)據(jù)處理程序， Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序。

四、研究前沿分析

1.機(jī)構(gòu)—國家分析

本文檢索的2182篇文獻(xiàn)共計147個節(jié)點97條連線，如圖二所示，從引文年輪上來看，美國最大，中國次之，年輪越大被引次數(shù)越多，說明該國家做作的研究價值越高，約為世界學(xué)者所接受。其中交大兩個年輪的最外層紅色圓環(huán)面積較大這說明美國和中國所做的研究在2015年內(nèi)仍舊有較大的引用次數(shù)。從國家合作來看，美國的合作伙伴多為歐洲國家包括英國，西班牙，奧地利等，中國的合作伙伴位澳大利亞加拿大等。從機(jī)構(gòu)合作上來看，不難看出最大的兩個合作群落是以中國、澳大利亞、加拿大機(jī)的研究機(jī)構(gòu)為核心和以美國、歐洲研究機(jī)構(gòu)為核心的兩大合作群落（分別編號為#1，#2），從這兩個合作群落的合作形態(tài)上不難看出，#1大致呈現(xiàn)為直線形態(tài)，每一個節(jié)點至于與其相連的的上下兩個節(jié)點有聯(lián)系，而#2則呈現(xiàn)出網(wǎng)狀形態(tài)，群落內(nèi)的主要節(jié)點間聯(lián)系密切，是一種較為成熟的合作形態(tài)。由《社會網(wǎng)絡(luò)分析》[15]我們可知，中心中介度是度量是用來度量個體在社會網(wǎng)絡(luò)中聯(lián)系密切程度的數(shù)據(jù)。由表不難看出在#2中的國家中心度較高

2.研究熱點分析

本文2182篇文獻(xiàn)共計162個關(guān)鍵詞，399條連線，如圖二所示。從圖中我們不難看出，大數(shù)據(jù)的研究各個關(guān)鍵點之間的聯(lián)系非常密切，最密集處 big data關(guān)鍵點的中介中心度為0.2，此外，從諸如network，medicine，agriculture health，social media等關(guān)鍵詞我們也不難看出大數(shù)據(jù)與各個領(lǐng)域聯(lián)系緊密，自大數(shù)據(jù)這一概念被提出以來至今的這十年中各個領(lǐng)域?qū)Υ髷?shù)據(jù)的研究抱有非常的熱情，也取得了豐碩的成果。表二為關(guān)鍵詞中出現(xiàn)次數(shù)排在前二十位的。其中做高的為big data ，說明學(xué)術(shù)界對于大數(shù)據(jù)的概念定義特征有著深入的研究，其次為mapreduce，cloud computing，Hadoop，data minig等熱點詞匯，MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。是目前處理大數(shù)據(jù)的一種主流方式。cloud computing是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式，通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源，其運(yùn)算能力高達(dá)每秒10萬億次。Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序。Data mining是指數(shù)據(jù)挖掘，一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān)，并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)（依靠過去的經(jīng)驗法則）和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。故我們不難看出學(xué)術(shù)界對于大數(shù)據(jù)的研究以對大數(shù)據(jù)的應(yīng)用和處理大數(shù)據(jù)的工具與技術(shù)為主。

五、結(jié)語

以Web of ScienceTM 核心合集數(shù)據(jù)庫中2182篇大數(shù)據(jù)領(lǐng)域研究的文獻(xiàn)為對象，對大數(shù)據(jù)的研究現(xiàn)狀、研究基礎(chǔ)、研究熱點、研究前沿進(jìn)行了可視化分析，得出以下結(jié)論：

1.大數(shù)據(jù)的研究可分兩個時期，2010年之前為萌芽期，大數(shù)據(jù)剛剛進(jìn)去人們視線，大數(shù)據(jù)方面的研究剛剛起步，2011年至2014年為增長期，大數(shù)據(jù)越來越為人們所重視，社會各界都對大數(shù)據(jù)充滿了濃厚的興趣，研究文獻(xiàn)數(shù)量激增。2015年以后為成熟期，文獻(xiàn)研究數(shù)量稍有回落，學(xué)術(shù)界的研究方向開始轉(zhuǎn)向?qū)τ诖髷?shù)據(jù)的處理技術(shù)，以及在各學(xué)科的應(yīng)用融合。

2.國家及機(jī)構(gòu)合并網(wǎng)絡(luò)知識圖譜，揭示了國家或機(jī)構(gòu)的合作狀況和分布狀況，在合作關(guān)系上，還沒形成一個好的合作網(wǎng)絡(luò)；在國家層面上，美國、中國、澳大利亞等國是發(fā)文較多的國家，其中美國研究的發(fā)文量遠(yuǎn)遠(yuǎn)超過其它國家，并且其的發(fā)文最具研究關(guān)鍵性；在機(jī)構(gòu)層面上，美國哈弗大學(xué)、斯坦福大學(xué)、中國的社科院、清華大學(xué)等是發(fā)文較多的機(jī)構(gòu)，并且在發(fā)文機(jī)構(gòu)中以高校機(jī)構(gòu)為主。

3.共被引文獻(xiàn)知識圖譜揭示了大數(shù)據(jù)領(lǐng)域研究的知識基礎(chǔ)構(gòu)成，其中早期奠基性文獻(xiàn)如Jeffrey Dean 和Sanjay Ghemawat 于2008 年發(fā)表的《MapReduce： simplified data processing on large clusters》[9]和在2009年發(fā)表的《Detecting influenza epidemics using search engine query data》[11]，以及Adam Jacobs在2009年發(fā)表的《The pathologies of big data》[10]是大數(shù)據(jù)領(lǐng)域研究的知識基礎(chǔ)。另外，高被引文獻(xiàn)集合也是重要的知識基礎(chǔ)構(gòu)成要素。

4.大數(shù)據(jù)研究領(lǐng)域產(chǎn)生了一些研究熱點，包括大數(shù)據(jù)本身的研究，大數(shù)據(jù)處理方式的研究，大數(shù)據(jù)在web上的應(yīng)用，大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用，數(shù)據(jù)挖掘等。

參考文獻(xiàn)：

[1]Computing Community Consortium，2008，Big Data Computing：Creating Revolutionary Breakthroughs in Commerce， Science and Society.

[2]肯尼斯庫克爾，2010，數(shù)據(jù)，無所不在的數(shù)據(jù)，經(jīng)濟(jì)學(xué)人.

[3] MGI，2011，Big data： The next frontier for innovation， competition， and productivity.

[4]IDC，2011，Extracting Value from Chaos.

[5]American government，2012，大數(shù)據(jù)研究和發(fā)展倡議.

[6]MGI，，顛覆性技術(shù)：技術(shù)進(jìn)步改變生活、商業(yè)和全球經(jīng)濟(jì).

[7]世界經(jīng)濟(jì)論壇，2014，全球信息技術(shù)報告（第13版）.

[8]H. V. Jagadish，2014，Challenges and Opportunities With Big Data.

[9]Jeffrey Dean & Sanjay Ghemawat ，2008 ，MapReduce： simplified data processing on large clusters.

[10]Adam Jacobs，2009，The pathologies of big data.

[11]Jeremy Ginsberg1， Matthew H. Mohebbi1， Rajan S. Patel1， Lynnette Brammer2， Mark S. Smolinski1 & Larry Brilliant1， 2009，Detecting influenza epidemics using search engine query data.

[12]Jeffrey Dean & Sanjay Ghemawat，2010，MapReduce： a flexible data processing tool.

[13]Deal Jeffrey L.，2013，BIG DATA： A REVOLUTION THAT WILL TRANSFORM HOW WE LIVE， WORK， AND THINK.

[14]White T.，2012，Hadoop： The Definitive Guide.

[15]OReilly Media，2013，社會網(wǎng)絡(luò)分析：方法與實踐.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于cite spaceⅢ對于大數(shù)據(jù)研究的可視化分析