王一博,郭 鑫,王繼民
近幾年,移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等新一代IT技術(shù)迎來(lái)了發(fā)展的高峰期,互聯(lián)網(wǎng)中的數(shù)據(jù)量正在以前所未有的速度不斷增長(zhǎng)與積累。在此背景下,大數(shù)據(jù)(Big Data)吸引了越來(lái)越多的關(guān)注。在學(xué)術(shù)界,《Nature》雜志早在2008年就推出Big Data專刊,隨后《Science》在2011年推出《Dealing with Data》,對(duì)科學(xué)研究中的大數(shù)據(jù)問(wèn)題進(jìn)行了討論。在商業(yè)界,IBM 率先提出4V概念并于2013年在北京發(fā)布了白皮書(shū)《分析:大數(shù)據(jù)在現(xiàn)實(shí)世界中的應(yīng)用》,為企業(yè)從大數(shù)據(jù)中獲取最大商業(yè)價(jià)值提供了五項(xiàng)關(guān)鍵建議。2012年3月份美國(guó)奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”,投資2億美元以上,正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”,計(jì)劃在環(huán)境科學(xué)、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破。目前,大數(shù)據(jù)已經(jīng)得到多國(guó)政府和部門的高度關(guān)注[1]。大數(shù)據(jù)技術(shù)及相應(yīng)的基礎(chǔ)研究已經(jīng)成為科技界的研究熱點(diǎn),大數(shù)據(jù)科學(xué)作為一個(gè)橫跨信息科學(xué)、社會(huì)科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科正在逐步形成[2]。
迄今為止,業(yè)界對(duì)于大數(shù)據(jù)尚未有一個(gè)公認(rèn)的定義。麥肯錫將大數(shù)據(jù)定義為:無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件和工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合[3]。從大數(shù)據(jù)的特征出發(fā),被廣泛應(yīng)用的是“4個(gè)V”的定義:(1)規(guī)模性(Volume)。數(shù)據(jù)量級(jí)從TB級(jí)別發(fā)展到PB級(jí)別甚至是ZB級(jí)別,數(shù)據(jù)規(guī)模非常大。(2)多樣性(Variety)。數(shù)據(jù)類型繁多,包括了大量圖片、視頻、位置信息等半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。(3)高速性(Velocity)。數(shù)據(jù)流具有高速、實(shí)時(shí)的特點(diǎn),需要大量的在線數(shù)據(jù)處理。(4)價(jià)值密度低(Value)。以視頻信息為例,在不間斷的監(jiān)控過(guò)程中,有用的數(shù)據(jù)可能只有幾秒鐘。
有學(xué)者提出,大數(shù)據(jù)未來(lái)對(duì)國(guó)家治理模式,對(duì)企業(yè)的決策、組織和業(yè)務(wù)流程,對(duì)個(gè)人生活方式都將產(chǎn)生巨大的影響[4]。因此,對(duì)國(guó)內(nèi)大數(shù)據(jù)領(lǐng)域的研究現(xiàn)狀進(jìn)行分析具有重要的現(xiàn)實(shí)意義。鑒于此,本文旨在通過(guò)收集中國(guó)知網(wǎng)(CNKI)中與大數(shù)據(jù)相關(guān)的高質(zhì)量期刊論文,利用共詞分析與社會(huì)網(wǎng)絡(luò)分析方法,對(duì)大數(shù)據(jù)領(lǐng)域的研究主題進(jìn)行梳理,探析該領(lǐng)域的研究熱點(diǎn),以期能夠全面地對(duì)大數(shù)據(jù)的研究現(xiàn)狀和研究熱點(diǎn)進(jìn)行揭示,為大數(shù)據(jù)理論與應(yīng)用的深入研究提供一定的參考和借鑒。
定量分析方法需要大量的數(shù)據(jù)支持,可靠、準(zhǔn)確的數(shù)據(jù)來(lái)源是研究可信的保證。我們選取CNKI學(xué)術(shù)期刊中的“SCI來(lái)源期刊”“EI來(lái)源期刊”“核心期刊”或“CSSCI”作為數(shù)據(jù)來(lái)源,選取這些期刊的原因是這些期刊所刊載的論文具有較高的質(zhì)量。以“大數(shù)據(jù)”為檢索詞,檢索類型為“主題”,檢索時(shí)間不限,得到大數(shù)據(jù)領(lǐng)域的研究論文共2,281篇。之后,對(duì)數(shù)據(jù)進(jìn)行清理,篩選出不含關(guān)鍵詞或含有無(wú)效關(guān)鍵詞的論文,最終獲得分析的論文總數(shù)為1,780篇。
共詞分析方法是信息計(jì)量學(xué)中的一種內(nèi)容分析方法,其原理是當(dāng)兩個(gè)能夠表達(dá)某一學(xué)科領(lǐng)域研究主題或研究方向的專業(yè)術(shù)語(yǔ)(一般為主題詞或關(guān)鍵詞)在同一篇文獻(xiàn)中出現(xiàn)時(shí),表明這兩個(gè)詞之間具有一定的內(nèi)在關(guān)系,并且出現(xiàn)的次數(shù)越多,表明它們的關(guān)系越密切、距離越近。共詞分析方法最早在20世紀(jì)70年代由法國(guó)文獻(xiàn)計(jì)量學(xué)家提出,經(jīng)過(guò)幾十年的發(fā)展,該方法已得到了逐步的完善和廣泛的應(yīng)用。醫(yī)學(xué)、化學(xué)、人工智能等不同領(lǐng)域的研究者都利用共詞分析方法的原理對(duì)不同時(shí)期各領(lǐng)域的研究熱點(diǎn)進(jìn)行了分析[5]。
關(guān)鍵詞是作者從論文中摘出的能夠反映文章基本內(nèi)容的詞。首先下載CNKI相關(guān)論文的題錄信息,利用計(jì)算機(jī)程序統(tǒng)計(jì)所有關(guān)鍵詞的詞頻并得到候選的高頻關(guān)鍵詞。這些候選關(guān)鍵詞中不乏有“數(shù)據(jù)”“變革”“算法”等通用性詞匯,而這些詞匯對(duì)于研究主題的發(fā)展幫助不大,故刪去。還有一些候選高頻詞雖然詞的表現(xiàn)形式不同,但表達(dá)的意思相同或非常相近,例如地理信息系統(tǒng)和GIS、互聯(lián)網(wǎng)與Web等。對(duì)于這類詞,我們制定了一些映射規(guī)則用于對(duì)相同含義的詞進(jìn)行歸并。然后將這些意義相同的詞應(yīng)用規(guī)則合并成一個(gè)規(guī)范詞,再反過(guò)來(lái)對(duì)原始
關(guān)鍵詞進(jìn)行替換。之后再進(jìn)行二次詞頻統(tǒng)計(jì),得到相對(duì)準(zhǔn)確的高頻關(guān)鍵詞列表。
粗略地看,關(guān)鍵詞的處理主要包含兩點(diǎn):(1)同義詞合并,制定映射規(guī)則,并替換原題錄信息中的關(guān)鍵詞;(2)刪除無(wú)代表性、不能揭示學(xué)科主題的詞匯。
筆者制定的部分映射規(guī)則如表1所示。例如“粗集”映射為規(guī)范關(guān)鍵詞“粗糙集”。
表1 映射規(guī)則
經(jīng)過(guò)數(shù)據(jù)處理后,選取排名靠前的60個(gè)高頻關(guān)鍵詞(頻次大于等于6)作為研究對(duì)象,表2列出了排名靠前的部分高頻關(guān)鍵詞。
表2 高頻關(guān)鍵詞列表(部分)
基于表2所示的關(guān)鍵詞表,利用筆者編寫(xiě)的程序,得到高頻關(guān)鍵詞兩兩共現(xiàn)的矩陣,部分?jǐn)?shù)據(jù)如表3所示。
共詞矩陣中,對(duì)角線上的數(shù)據(jù)為該詞出現(xiàn)的總頻次。在實(shí)際共詞分析過(guò)程中,關(guān)鍵詞共現(xiàn)頻次受到各自詞頻大小的影響,為了準(zhǔn)確揭示關(guān)鍵詞之間的共現(xiàn)關(guān)系,本文采用Ochiia系數(shù)將共詞矩陣轉(zhuǎn)換為相關(guān)矩陣,結(jié)果如表4所示。
表3 高頻詞共現(xiàn)矩陣(部分)
Ochiia系數(shù)的計(jì)算公式如下:
表4 相關(guān)矩陣(部分)
相關(guān)矩陣中的元素?cái)?shù)值在0-1之間,數(shù)值越接近1表示兩個(gè)關(guān)鍵詞的相似度越大;相反,數(shù)值越小表明兩個(gè)關(guān)鍵詞相似度越小。通過(guò)上述方法計(jì)算得出的相關(guān)矩陣中0值過(guò)多,計(jì)算時(shí)誤差較大,為了減小誤差、方便進(jìn)一步分析,用1與相關(guān)矩陣中的各個(gè)數(shù)字相減,得到表示兩詞相異程度的相異矩陣,部分結(jié)果如表5所示。
表5 相異矩陣(部分)
對(duì)應(yīng)的相異矩陣中的元素越接近于0,相似度越大;數(shù)值越接近于1,相似度越小。
聚類分析是根據(jù)數(shù)據(jù)對(duì)象的特征對(duì)研究個(gè)體進(jìn)行劃分,其原理是同一類中的個(gè)體具有較大的相似性,而不同類的個(gè)體之間存在不同程度的差異。將相異矩陣導(dǎo)入SPSS中進(jìn)行層次聚類,得到聚類結(jié)果。根據(jù)聚類樹(shù)狀圖,在閾值為22.5處切割可將其分成10個(gè)類團(tuán),具體如圖1所示。
戰(zhàn)略坐標(biāo)是Law等人1988年提出,用來(lái)描述研究領(lǐng)域內(nèi)部聯(lián)系與領(lǐng)域間相互影響的情況。在本研究中,筆者使用戰(zhàn)略坐標(biāo)描述聚類結(jié)果中各個(gè)類團(tuán)的基本情況,用X軸表示向心度,Y軸表示密度。其中,密度用來(lái)度量各個(gè)類別內(nèi)各主題詞間的聯(lián)系強(qiáng)度。密度越大,知識(shí)群維持和發(fā)展自身的能力越強(qiáng),該領(lǐng)域研究越穩(wěn)定和成熟。向心度用來(lái)度量各類別主題詞與其他類別主題詞之間的緊密程度,表示一個(gè)學(xué)科領(lǐng)域和其他學(xué)科領(lǐng)域的相互影響的程度。向心度越大,主題與其他知識(shí)群聯(lián)系越緊密,則該主題在學(xué)科中越趨于中心位置。戰(zhàn)略坐標(biāo)可以概括地表現(xiàn)一個(gè)領(lǐng)域的結(jié)構(gòu),它把每一個(gè)研究主題放置到坐標(biāo)的四個(gè)象限中,從而描述各主題的研究現(xiàn)狀[6]。
對(duì)類團(tuán)密度和向心度的計(jì)算有不同的方法,本文采用的計(jì)算公式為:
其中,Eij是是關(guān)鍵詞i和關(guān)鍵詞j共現(xiàn)的次數(shù),K代表通過(guò)聚類分析得到的某一類團(tuán),n是該類團(tuán)所含關(guān)鍵詞的數(shù)目,N是共詞矩陣中所有關(guān)鍵詞的數(shù)目。
根據(jù)表3中得到的聚類結(jié)果與高頻詞共現(xiàn)矩陣,利用上述公式計(jì)算出每個(gè)類別的向心度和密度,并對(duì)數(shù)據(jù)作Z-score規(guī)范化,之后根據(jù)規(guī)范化的結(jié)果繪制出最終的戰(zhàn)略坐標(biāo)圖,結(jié)果如圖2所示。
基于表3的數(shù)據(jù),以關(guān)鍵詞為頂點(diǎn),以關(guān)鍵詞之間的共現(xiàn)次數(shù)為邊可以構(gòu)建關(guān)鍵詞共現(xiàn)關(guān)系網(wǎng)絡(luò)。該網(wǎng)絡(luò)是一個(gè)加權(quán)的無(wú)向網(wǎng)絡(luò)。利用社會(huì)網(wǎng)絡(luò)分析方法,我們可以對(duì)該網(wǎng)絡(luò)的各項(xiàng)靜態(tài)幾何量進(jìn)行定量分析,如節(jié)點(diǎn)的中心性及其分布、網(wǎng)絡(luò)的密度、平均路徑長(zhǎng)度、凝聚子群等。網(wǎng)絡(luò)的“核心-邊緣”結(jié)構(gòu)是由若干頂點(diǎn)相互聯(lián)系構(gòu)成的一種中心緊密相連、外圍稀疏分散的特殊結(jié)構(gòu)。利用社會(huì)網(wǎng)絡(luò)分析軟件UCINET與Pajek進(jìn)行“核心-邊緣”網(wǎng)絡(luò)結(jié)構(gòu)的計(jì)算與展示,結(jié)果如圖3所示。
圖1 聚類分析結(jié)果圖
圖2 戰(zhàn)略坐標(biāo)圖
根據(jù)2.4節(jié)中的結(jié)果,高頻關(guān)鍵詞聚類結(jié)果劃分為10個(gè)類團(tuán)較為合適。下面首先結(jié)合相關(guān)知識(shí)對(duì)10類主題進(jìn)行分析。
圖3 核心— 邊緣結(jié)構(gòu)圖
第一類:屬性約簡(jiǎn)算法改進(jìn)研究。這一類團(tuán)只包括粗糙集和屬性約簡(jiǎn)2個(gè)關(guān)鍵詞。粗糙集理論是由波蘭科學(xué)家Z.Pawlak在1982年提出的一種處理模糊和不確定知識(shí)的數(shù)學(xué)工具,已經(jīng)成功應(yīng)用于機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘等領(lǐng)域。對(duì)高維數(shù)據(jù)對(duì)象進(jìn)行降維處理,最核心的內(nèi)容就是對(duì)基于粗糙集的屬性約簡(jiǎn)算法進(jìn)行研究?,F(xiàn)有的屬性約簡(jiǎn)算法已經(jīng)難以適應(yīng)大數(shù)據(jù)集的處理,針對(duì)這一問(wèn)題,一些學(xué)者討論了對(duì)屬性約簡(jiǎn)算法的改進(jìn),以保證算法的有效性。
第二類:從數(shù)據(jù)通信的角度對(duì)大數(shù)據(jù)的傳輸進(jìn)行研究。這一類團(tuán)包括DSP、以太網(wǎng)、數(shù)據(jù)傳輸和數(shù)據(jù)采集這4個(gè)關(guān)鍵詞。隨著互聯(lián)網(wǎng)中需要傳輸?shù)臄?shù)據(jù)量的不斷增加,互聯(lián)網(wǎng)的傳輸技術(shù)、處理技術(shù)等需要得到優(yōu)化。一些學(xué)者從數(shù)據(jù)通信的角度,對(duì)大數(shù)據(jù)環(huán)境下的數(shù)據(jù)獲取方式與數(shù)據(jù)傳輸技術(shù)等問(wèn)題進(jìn)行了研究。
第三類:大數(shù)據(jù)處理技術(shù)與工具的研究。這一類團(tuán)包括8個(gè)關(guān)鍵詞,其中代表性較強(qiáng)的包括云計(jì)算、物聯(lián)網(wǎng)、Hadoop和MapReduce等。隨著大數(shù)據(jù)研究與應(yīng)用的不斷升溫,對(duì)大數(shù)據(jù)處理的具體技術(shù)與開(kāi)發(fā)工具也越來(lái)越受到學(xué)者的關(guān)注。2006年谷歌提出了云計(jì)算的概念,并為大數(shù)據(jù)的處理提供了一個(gè)良好的平臺(tái)。現(xiàn)在,Hadoop已經(jīng)成為大數(shù)據(jù)處理的最常用工具。物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用也為大數(shù)據(jù)的獲取、存儲(chǔ)與處理提供了解決方案。
第四類:機(jī)器學(xué)習(xí)算法的改進(jìn)研究。這一類團(tuán)包括9個(gè)關(guān)鍵詞,其中代表性較強(qiáng)的有支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等。近年來(lái)隨著數(shù)據(jù)量的激增,傳統(tǒng)的機(jī)器學(xué)習(xí)算法對(duì)于大數(shù)據(jù)量的處理普遍存在著處理速度慢、運(yùn)行效率低等問(wèn)題,一些學(xué)者從適應(yīng)大數(shù)據(jù)處理的角度對(duì)某些算法進(jìn)行改進(jìn)。
第五類:大數(shù)據(jù)對(duì)新聞業(yè)的影響。這一類團(tuán)只含2個(gè)關(guān)鍵詞,分別是可視化和數(shù)據(jù)新聞。大數(shù)據(jù)時(shí)代的數(shù)據(jù)新聞報(bào)道改變了新聞的生產(chǎn)傳播方式,加速新聞行業(yè)的角色轉(zhuǎn)換。大數(shù)據(jù)對(duì)于新聞行業(yè)的影響引起了新聞學(xué)及傳播學(xué)學(xué)者的關(guān)注。
第六類:大數(shù)據(jù)在圖書(shū)情報(bào)領(lǐng)域帶來(lái)的變革。這一類團(tuán)包含6個(gè)關(guān)鍵詞,代表性較強(qiáng)的有競(jìng)爭(zhēng)情報(bào)、知識(shí)服務(wù)、信息服務(wù)、圖書(shū)館等。圖書(shū)館作為存儲(chǔ)、傳播知識(shí)的重要場(chǎng)所,在大數(shù)據(jù)時(shí)代將會(huì)發(fā)生深刻的變化。一些學(xué)者研究了大數(shù)據(jù)給圖書(shū)館信息服務(wù)帶來(lái)的變化,以及大數(shù)據(jù)對(duì)企業(yè)競(jìng)爭(zhēng)情報(bào)未來(lái)發(fā)展的影響等等。
第七類:數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)處理方面的應(yīng)用。這一類團(tuán)包含8個(gè)關(guān)鍵詞,其中代表性較強(qiáng)的有數(shù)據(jù)挖掘、聚類分析、關(guān)聯(lián)規(guī)則等。數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中揭示出隱含的、新穎的并有潛在價(jià)值的信息的非平凡過(guò)程。在大數(shù)據(jù)時(shí)代中,借用數(shù)據(jù)挖掘技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行分析是最基本的研究途徑。
第八類:數(shù)據(jù)壓縮技術(shù)的研究。這一類團(tuán)只包括2個(gè)關(guān)鍵詞,分別是小波變換與數(shù)據(jù)壓縮。隨著互聯(lián)網(wǎng)中多媒體數(shù)據(jù)量的激增,如何對(duì)數(shù)據(jù)進(jìn)行壓縮和存儲(chǔ),是大數(shù)據(jù)需要解決的問(wèn)題之一。為保證數(shù)據(jù)的傳輸質(zhì)量并提高數(shù)據(jù)的存儲(chǔ)效率,利用小波變換的方法對(duì)數(shù)據(jù)壓縮技術(shù)進(jìn)行優(yōu)化,是眾多學(xué)者關(guān)注的問(wèn)題之一。
第九類:對(duì)海量圖像數(shù)據(jù)進(jìn)行實(shí)時(shí)傳送與處理的研究。這一類團(tuán)包括5個(gè)關(guān)鍵詞,分別為海量數(shù)據(jù)、圖像處理、自適應(yīng)、擁塞控制、實(shí)時(shí)。在大數(shù)據(jù)時(shí)代中,“數(shù)據(jù)”不僅僅包括簡(jiǎn)單的字符串或文本流,還包括圖像、音頻、視頻等,而諸如此類的數(shù)據(jù)往往具有較大的數(shù)據(jù)量,對(duì)海量圖像數(shù)據(jù)傳送與處理的研究是有必要的。
第十類:與物聯(lián)網(wǎng)技術(shù)及其應(yīng)用相關(guān)的研究。這一類團(tuán)包括13個(gè)關(guān)鍵詞,其中代表性較強(qiáng)的有無(wú)線傳感器網(wǎng)絡(luò)、信號(hào)處理、遙感、嵌入式系統(tǒng)、負(fù)載均衡等。物聯(lián)網(wǎng)利用各種傳感器將物理世界中的各種信息傳送到計(jì)算機(jī)系統(tǒng)中,也勢(shì)必導(dǎo)致互聯(lián)網(wǎng)中的信息總量爆炸式增長(zhǎng)。目前,物聯(lián)網(wǎng)對(duì)于大數(shù)據(jù)的采集和分析仍然面臨諸多挑戰(zhàn)。
戰(zhàn)略坐標(biāo)圖(圖2)顯示,K1,K3和K7是學(xué)者們?cè)诖髷?shù)據(jù)領(lǐng)域中研究的核心內(nèi)容,它們都具有較高的密度,其中K1和K7還具有很高的向心度。這說(shuō)明屬性約簡(jiǎn)算法與數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)領(lǐng)域的研究較為成熟,且與其他類團(tuán)的研究主題密切相關(guān)。由此可見(jiàn),對(duì)于大數(shù)據(jù)處理技術(shù)的研究是迄今為止較為核心的研究?jī)?nèi)容。對(duì)于大數(shù)據(jù)處理技術(shù)及其工具而言,這一類團(tuán)在十個(gè)類團(tuán)中是密度最高的,說(shuō)明其研究?jī)?nèi)容具有一定規(guī)模且較為成熟,諸如云計(jì)算、物聯(lián)網(wǎng)、hadoop等均已成為時(shí)下的熱點(diǎn)研究領(lǐng)域。相比之下,這一類團(tuán)的向心度較低,但仍為正值,說(shuō)明大數(shù)據(jù)處理技術(shù)與工具這一主題與其他研究分支具有一定的聯(lián)系,但密切程度不高。
此外,其余七個(gè)類團(tuán)則均位于第三象限,密度和向心度都低于平均水平,但其中一些類團(tuán)距離原點(diǎn)較近,仍具有一定的發(fā)展?jié)摿?,如海量圖像數(shù)據(jù)的處理,大數(shù)據(jù)在圖書(shū)情報(bào)領(lǐng)域中的應(yīng)用等等。值得注意的是,無(wú)論是向心度還是密度,K10這一類團(tuán)都處于很低的水平,這也說(shuō)明這一類團(tuán)中的內(nèi)部成員間聯(lián)系比較松散,其中的成員很可能被分解、演化到其他類團(tuán)中。如前所述,K10類團(tuán)主要包括與物聯(lián)網(wǎng)技術(shù)及其應(yīng)用相關(guān)的研究??梢哉J(rèn)為,隨著大數(shù)據(jù)科學(xué)的不斷發(fā)展,物聯(lián)網(wǎng)技術(shù)將會(huì)逐漸內(nèi)化到大數(shù)據(jù)領(lǐng)域的研究中。
根據(jù)圖3(核心—邊緣結(jié)構(gòu)圖),可以看到國(guó)內(nèi)大數(shù)據(jù)研究領(lǐng)域的核心關(guān)鍵詞有12個(gè),分別為:數(shù)據(jù)挖掘、云計(jì)算、聚類分析、海量數(shù)據(jù)、支持向量機(jī)、并行算法、Hadoop、MapReduce、數(shù)據(jù)處理、大數(shù)據(jù)分析、信息服務(wù)、分布式等。這12個(gè)核心關(guān)鍵詞大多具有較高的詞頻,詞間的關(guān)系也相對(duì)緊密,反映了這些詞所指向的研究?jī)?nèi)容已形成了一定的規(guī)模,而相應(yīng)邊緣結(jié)構(gòu)中的關(guān)鍵詞雖然數(shù)量眾多(48個(gè)),其所代表的研究?jī)?nèi)容還略顯薄弱。這個(gè)核心結(jié)構(gòu)是在一定時(shí)間內(nèi)逐漸形成的,暫時(shí)處于一個(gè)穩(wěn)定的狀態(tài)。但隨著時(shí)間的推移,相關(guān)研究的不斷深入,這種結(jié)構(gòu)關(guān)系會(huì)發(fā)生一定的變化:邊緣結(jié)構(gòu)中的關(guān)鍵詞可能會(huì)進(jìn)入核心結(jié)構(gòu),而核心結(jié)構(gòu)中的詞也可能會(huì)退出,進(jìn)入邊緣結(jié)構(gòu)[7]。
本文使用共詞分析方法,對(duì)以大數(shù)據(jù)為主題的優(yōu)質(zhì)期刊文獻(xiàn)進(jìn)行了直觀、科學(xué)的分析,并進(jìn)行了一些討論與解讀,具有一定的現(xiàn)實(shí)意義。從關(guān)鍵詞共詞矩陣出發(fā),將其轉(zhuǎn)化為相關(guān)矩陣和相異矩陣,利用SPSS進(jìn)行層次聚類分析,最終獲得10個(gè)主題類團(tuán)。在此基礎(chǔ)上,根據(jù)聚類結(jié)果,利用共詞矩陣?yán)L制了戰(zhàn)略坐標(biāo)圖,對(duì)每一個(gè)主題的成熟程度、重要程度等進(jìn)行了分析。最后,通過(guò)“核心-邊緣”結(jié)構(gòu)分析得到了大數(shù)據(jù)研究領(lǐng)域的核心關(guān)鍵詞。
本文的研究仍然存在著一定局限性。首先,收集數(shù)據(jù)時(shí)將“大數(shù)據(jù)”作為主題字段,檢索出的內(nèi)容較為繁雜。其次,由于期刊論文的發(fā)表存在時(shí)滯,一些低頻的關(guān)鍵詞可能也是未來(lái)的研究熱點(diǎn),但在本研究中沒(méi)有考慮。最后,本次研究搜集的數(shù)據(jù)主要是一些高質(zhì)量期刊論文,并非全部的期刊論文,同時(shí)也不包括報(bào)紙、學(xué)位論文等數(shù)據(jù),故文本中得到的結(jié)論并不能完全代表大數(shù)據(jù)領(lǐng)域的研究成果。
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(1):146-169.
[2] 李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域—大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2012(6):647-657.
[3] 嚴(yán)霄鳳,張德馨. 大數(shù)據(jù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2013(4):168-172.
[4] 孟薇薇.信息爆炸時(shí)代的新概念:大數(shù)據(jù)[J].商品與質(zhì)量,2012(9):9.
[5] 朱慶華,彭希羨,劉璇.基于共詞分析的社會(huì)計(jì)算領(lǐng)域的研究主題[J].情報(bào)理論與實(shí)踐;2012(12):7-11.
[6] 崔鵬,孫寶文,王天梅,等.基于共詞分析的網(wǎng)絡(luò)虛擬社會(huì)領(lǐng)域熱點(diǎn)及演進(jìn)態(tài)勢(shì)研究[J]. 情報(bào)雜志,2013(2):41-44.
[7] 魏瑞斌,王三珊. 基于共詞分析的國(guó)內(nèi)Web2.0 研究現(xiàn)狀[J].情報(bào)探索,2011(1):1-5.