劉慶悅
摘要:大數(shù)據(jù)對(duì)全球各領(lǐng)域的理念和方法帶來了較大的影響。本文通過對(duì)近十年來大數(shù)據(jù)研究的關(guān)鍵詞進(jìn)行聚類分析,得到了大數(shù)據(jù)研究關(guān)鍵詞的12個(gè)類團(tuán),以便相關(guān)人員更好地了解大數(shù)據(jù)研究的主要領(lǐng)域。
關(guān)鍵詞:大數(shù)據(jù);聚類分析;共現(xiàn)分析
目前,大數(shù)據(jù)還沒有一個(gè)通用且準(zhǔn)確的定義。雖然國(guó)際上有眾多對(duì)大數(shù)據(jù)的不同理解,但人們普遍認(rèn)為大數(shù)據(jù)不僅有字面上的海量數(shù)據(jù)的含義,還包括對(duì)這些數(shù)據(jù)對(duì)象的處理和應(yīng)用。在本文中,大數(shù)據(jù)被界定為使用非傳統(tǒng)處理方法,在合理時(shí)間內(nèi),對(duì)一個(gè)體量特別大、數(shù)據(jù)類型豐富的數(shù)據(jù)集進(jìn)行深度挖掘,獲得有價(jià)值的信息的技術(shù)。一般認(rèn)為,大數(shù)據(jù)具有3V特征:即Volume(規(guī)模性)、Variety(多樣性)、Velocity(高速性)。[1]規(guī)模性表示其數(shù)據(jù)體量龐大,多樣性表達(dá)出大數(shù)據(jù)的數(shù)據(jù)來源廣、類型豐富且不同類型的數(shù)據(jù)間可能關(guān)聯(lián)性很強(qiáng)。而高速性強(qiáng)調(diào)處理數(shù)據(jù)的效率,這一點(diǎn)也是它與傳統(tǒng)數(shù)據(jù)挖掘最大的區(qū)別。
本文選取中國(guó)知網(wǎng)(CNKI)的核心期刊庫作為文獻(xiàn)獲取來源,采取高級(jí)檢索,檢索式為:主題=(“大數(shù)據(jù)”),來源類別勾選“核心期刊”并按主題排序。選取自2008年以來每年搜索結(jié)果前5頁的文獻(xiàn),共1883篇。經(jīng)過篩選刪除不相關(guān)的文獻(xiàn),最后得到1563篇文獻(xiàn)。導(dǎo)出這些文獻(xiàn)的題錄信息,以此分析大數(shù)據(jù)技術(shù)近10年來的發(fā)展規(guī)律。
從CNKI下載的文獻(xiàn)題錄中抽取期刊論文的標(biāo)題、關(guān)鍵詞等信息,以endnot格式存入數(shù)據(jù)庫中。通過SATI文獻(xiàn)計(jì)量軟件進(jìn)行關(guān)鍵詞的提取和頻率統(tǒng)計(jì)后,共得到2008-2019時(shí)間段的4058個(gè)關(guān)鍵詞。在經(jīng)過關(guān)鍵詞的合并與刪除后,本文選取了出現(xiàn)頻次大于等于8的關(guān)鍵詞作為高頻關(guān)鍵詞,最終得到了52個(gè)高頻關(guān)鍵詞。將這52個(gè)關(guān)鍵詞兩兩配對(duì),可得到2008-2019年大數(shù)據(jù)研究關(guān)鍵詞的共現(xiàn)矩陣,如表1所示:
表1:2008-2019年大數(shù)據(jù)研究關(guān)鍵詞的共現(xiàn)矩陣(部分)
共現(xiàn)矩陣 數(shù)據(jù)挖掘 云計(jì)算 數(shù)據(jù)分析 圖書館 聚類 Hadoop MapReduce
數(shù)據(jù)挖掘 93 6 8 4 5 0 0
云計(jì)算 6 61 6 4 0 2 5
數(shù)據(jù)分析 8 6 56 2 0 0 0
圖書館 4 4 2 36 0 2 0
聚類 5 0 0 0 30 0 0
Hadoop 0 2 0 2 0 30 7
MapReduce 0 5 0 0 0 7 28
在共現(xiàn)矩陣基礎(chǔ)上,轉(zhuǎn)換得到共現(xiàn)矩陣的相異矩陣,將其導(dǎo)入SPSS軟件后,可得2008-2019年大數(shù)據(jù)研究關(guān)鍵詞聚類的樹狀圖。該圖反映出了關(guān)鍵詞間的親疏關(guān)系,關(guān)鍵詞聚合越早,其間關(guān)聯(lián)度越高;關(guān)鍵詞聚合越多,則說明這些關(guān)鍵詞所處的類集中程度越高。根據(jù)樹狀圖,在閾值為16.5的位置處進(jìn)行切割,可將大數(shù)據(jù)技術(shù)的相關(guān)期刊文獻(xiàn)分為12個(gè)類團(tuán):
K1類研究的是大數(shù)據(jù)技術(shù)對(duì)金融業(yè)的沖擊,代表關(guān)鍵詞是互聯(lián)網(wǎng)金融、商業(yè)銀行等。它們屬于大數(shù)據(jù)應(yīng)用的一部分,但近年來由于互聯(lián)網(wǎng)對(duì)于金融領(lǐng)域的沖擊格外大,因此有很多人關(guān)注大數(shù)據(jù)技術(shù)作為一種新興的信息技術(shù)會(huì)給這個(gè)領(lǐng)域帶來什么影響。
K2類研究大數(shù)據(jù)技術(shù)對(duì)教育界的影響,代表關(guān)鍵詞是教育大數(shù)據(jù)。教育領(lǐng)域以大數(shù)據(jù)為基礎(chǔ)構(gòu)建學(xué)習(xí)者知識(shí)、行為、經(jīng)驗(yàn)?zāi)P?,制定其學(xué)習(xí)檔案并依此分析科學(xué)的教學(xué)策略。
K3類研究數(shù)據(jù)集成,即將類型、來源不同的數(shù)據(jù)集合在一起,進(jìn)行數(shù)據(jù)和信息共享,以避免信息孤島現(xiàn)象。
詞團(tuán)K4是對(duì)大數(shù)據(jù)核心問題的研究。代表關(guān)鍵詞為數(shù)據(jù)分析和數(shù)據(jù)處理。它們都處于大數(shù)據(jù)處理的前兩個(gè)階段,即數(shù)據(jù)抽取集成和數(shù)據(jù)分析階段。
K5類是對(duì)大數(shù)據(jù)工具和處理模式進(jìn)行研究。如前文所述,大數(shù)據(jù)技術(shù)與海量數(shù)據(jù)最大的區(qū)別在于它是否能采用傳統(tǒng)的方法對(duì)數(shù)據(jù)進(jìn)行高效率的處理。因此,以Hadoop為代表的非傳統(tǒng)大數(shù)據(jù)處理工具自然成為了研究的焦點(diǎn)。
詞團(tuán)K6中包含著兩個(gè)與大數(shù)據(jù)技術(shù)緊密相關(guān)的技術(shù):云計(jì)算和物聯(lián)網(wǎng)。它們的發(fā)展為大數(shù)據(jù)技術(shù)提供了良好的平臺(tái)和技術(shù)豐富的數(shù)據(jù)來源,而大數(shù)據(jù)技術(shù)為處理這些海量的數(shù)據(jù)提供了可能。
K7類研究屬性約簡(jiǎn)算法改進(jìn),它只包括粗糙集和屬性約簡(jiǎn)兩個(gè)關(guān)鍵詞?;诖植诩碚摰膶傩约s簡(jiǎn)主要可以用來降維處理高維數(shù)據(jù)對(duì)象,但由于原有的屬性約簡(jiǎn)算法難以處理大數(shù)據(jù)集,因此很多學(xué)者提出了其改進(jìn)算法,以保證算法的可靠。
K8主要研究的是數(shù)據(jù),代表關(guān)鍵詞為數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,主要探討怎樣管理好這些海量的數(shù)據(jù),保證數(shù)據(jù)的質(zhì)量。
K9類研究大數(shù)據(jù)領(lǐng)域的隱私和安全問題,代表關(guān)鍵詞為隱私保護(hù)和數(shù)據(jù)安全。大數(shù)據(jù)技術(shù)雖然給我們的生活帶來了便利,但也帶來了很多風(fēng)險(xiǎn),許多過去人們不想被別人知道,或連自己都不知道的習(xí)慣被大數(shù)據(jù)記錄了下來并加以分析,將最真實(shí)的我們暴露在了互聯(lián)網(wǎng)的環(huán)境下。因此我們急需保護(hù)好這些個(gè)人隱私,使之得到合理有效的利用。同時(shí),大量數(shù)據(jù)的集成也給數(shù)據(jù)的安全性問題帶來了挑戰(zhàn)。
K10類探討的是大數(shù)據(jù)對(duì)情報(bào)領(lǐng)域的影響,代表關(guān)鍵詞有競(jìng)爭(zhēng)情報(bào)、情報(bào)分析等。大數(shù)據(jù)可以給情報(bào)領(lǐng)域帶來更細(xì)、更豐富的數(shù)據(jù)流,但也對(duì)該領(lǐng)域提出了更高的技術(shù)要求。
K11類主要研究大數(shù)據(jù)給圖書領(lǐng)域帶來的革新,代表關(guān)鍵詞有數(shù)字圖書館、知識(shí)服務(wù)等。圖書領(lǐng)域往往是較早接觸新技術(shù)的領(lǐng)域,它們的數(shù)字化程度普遍較高,接觸到的數(shù)據(jù)量也很大。面對(duì)圖書館數(shù)字化的需求,大數(shù)據(jù)技術(shù)也成為了相關(guān)學(xué)者的研究熱點(diǎn)。
詞團(tuán)K12有關(guān)數(shù)據(jù)挖掘,以關(guān)聯(lián)規(guī)則和數(shù)據(jù)倉庫等關(guān)鍵詞為代表。它是大數(shù)據(jù)分析最基本的研究途徑,用以探究大量數(shù)據(jù)中潛在的有價(jià)值的信息。
詞團(tuán)K13設(shè)計(jì)聚類,以聚類和有關(guān)方法為代表。它是數(shù)據(jù)挖掘等互聯(lián)網(wǎng)技術(shù)的基礎(chǔ)。
詞團(tuán)K14中包含的內(nèi)容較多,主要可分為機(jī)器學(xué)習(xí)和應(yīng)用兩部分。機(jī)器學(xué)習(xí)的代表關(guān)鍵詞主要有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,它也是一項(xiàng)與大數(shù)據(jù)技術(shù)緊密聯(lián)系的信息技術(shù)。而應(yīng)用方面包括云會(huì)計(jì)、數(shù)據(jù)新聞、思想政治教育等,是大數(shù)據(jù)技術(shù)與其他各個(gè)領(lǐng)域的結(jié)合應(yīng)用。
參考文獻(xiàn):
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,(01):146-169.