国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

對(duì)大數(shù)據(jù)研究關(guān)鍵詞的聚類分析

2019-09-10 06:55:39劉慶悅
大眾科學(xué)·上旬 2019年4期
關(guān)鍵詞:數(shù)據(jù)挖掘聚類領(lǐng)域

劉慶悅

摘要:大數(shù)據(jù)對(duì)全球各領(lǐng)域的理念和方法帶來了較大的影響。本文通過對(duì)近十年來大數(shù)據(jù)研究的關(guān)鍵詞進(jìn)行聚類分析,得到了大數(shù)據(jù)研究關(guān)鍵詞的12個(gè)類團(tuán),以便相關(guān)人員更好地了解大數(shù)據(jù)研究的主要領(lǐng)域。

關(guān)鍵詞:大數(shù)據(jù);聚類分析;共現(xiàn)分析

目前,大數(shù)據(jù)還沒有一個(gè)通用且準(zhǔn)確的定義。雖然國(guó)際上有眾多對(duì)大數(shù)據(jù)的不同理解,但人們普遍認(rèn)為大數(shù)據(jù)不僅有字面上的海量數(shù)據(jù)的含義,還包括對(duì)這些數(shù)據(jù)對(duì)象的處理和應(yīng)用。在本文中,大數(shù)據(jù)被界定為使用非傳統(tǒng)處理方法,在合理時(shí)間內(nèi),對(duì)一個(gè)體量特別大、數(shù)據(jù)類型豐富的數(shù)據(jù)集進(jìn)行深度挖掘,獲得有價(jià)值的信息的技術(shù)。一般認(rèn)為,大數(shù)據(jù)具有3V特征:即Volume(規(guī)模性)、Variety(多樣性)、Velocity(高速性)。[1]規(guī)模性表示其數(shù)據(jù)體量龐大,多樣性表達(dá)出大數(shù)據(jù)的數(shù)據(jù)來源廣、類型豐富且不同類型的數(shù)據(jù)間可能關(guān)聯(lián)性很強(qiáng)。而高速性強(qiáng)調(diào)處理數(shù)據(jù)的效率,這一點(diǎn)也是它與傳統(tǒng)數(shù)據(jù)挖掘最大的區(qū)別。

本文選取中國(guó)知網(wǎng)(CNKI)的核心期刊庫作為文獻(xiàn)獲取來源,采取高級(jí)檢索,檢索式為:主題=(“大數(shù)據(jù)”),來源類別勾選“核心期刊”并按主題排序。選取自2008年以來每年搜索結(jié)果前5頁的文獻(xiàn),共1883篇。經(jīng)過篩選刪除不相關(guān)的文獻(xiàn),最后得到1563篇文獻(xiàn)。導(dǎo)出這些文獻(xiàn)的題錄信息,以此分析大數(shù)據(jù)技術(shù)近10年來的發(fā)展規(guī)律。

從CNKI下載的文獻(xiàn)題錄中抽取期刊論文的標(biāo)題、關(guān)鍵詞等信息,以endnot格式存入數(shù)據(jù)庫中。通過SATI文獻(xiàn)計(jì)量軟件進(jìn)行關(guān)鍵詞的提取和頻率統(tǒng)計(jì)后,共得到2008-2019時(shí)間段的4058個(gè)關(guān)鍵詞。在經(jīng)過關(guān)鍵詞的合并與刪除后,本文選取了出現(xiàn)頻次大于等于8的關(guān)鍵詞作為高頻關(guān)鍵詞,最終得到了52個(gè)高頻關(guān)鍵詞。將這52個(gè)關(guān)鍵詞兩兩配對(duì),可得到2008-2019年大數(shù)據(jù)研究關(guān)鍵詞的共現(xiàn)矩陣,如表1所示:

表1:2008-2019年大數(shù)據(jù)研究關(guān)鍵詞的共現(xiàn)矩陣(部分)

共現(xiàn)矩陣 數(shù)據(jù)挖掘 云計(jì)算 數(shù)據(jù)分析 圖書館 聚類 Hadoop MapReduce

數(shù)據(jù)挖掘 93 6 8 4 5 0 0

云計(jì)算 6 61 6 4 0 2 5

數(shù)據(jù)分析 8 6 56 2 0 0 0

圖書館 4 4 2 36 0 2 0

聚類 5 0 0 0 30 0 0

Hadoop 0 2 0 2 0 30 7

MapReduce 0 5 0 0 0 7 28

在共現(xiàn)矩陣基礎(chǔ)上,轉(zhuǎn)換得到共現(xiàn)矩陣的相異矩陣,將其導(dǎo)入SPSS軟件后,可得2008-2019年大數(shù)據(jù)研究關(guān)鍵詞聚類的樹狀圖。該圖反映出了關(guān)鍵詞間的親疏關(guān)系,關(guān)鍵詞聚合越早,其間關(guān)聯(lián)度越高;關(guān)鍵詞聚合越多,則說明這些關(guān)鍵詞所處的類集中程度越高。根據(jù)樹狀圖,在閾值為16.5的位置處進(jìn)行切割,可將大數(shù)據(jù)技術(shù)的相關(guān)期刊文獻(xiàn)分為12個(gè)類團(tuán):

K1類研究的是大數(shù)據(jù)技術(shù)對(duì)金融業(yè)的沖擊,代表關(guān)鍵詞是互聯(lián)網(wǎng)金融、商業(yè)銀行等。它們屬于大數(shù)據(jù)應(yīng)用的一部分,但近年來由于互聯(lián)網(wǎng)對(duì)于金融領(lǐng)域的沖擊格外大,因此有很多人關(guān)注大數(shù)據(jù)技術(shù)作為一種新興的信息技術(shù)會(huì)給這個(gè)領(lǐng)域帶來什么影響。

K2類研究大數(shù)據(jù)技術(shù)對(duì)教育界的影響,代表關(guān)鍵詞是教育大數(shù)據(jù)。教育領(lǐng)域以大數(shù)據(jù)為基礎(chǔ)構(gòu)建學(xué)習(xí)者知識(shí)、行為、經(jīng)驗(yàn)?zāi)P?,制定其學(xué)習(xí)檔案并依此分析科學(xué)的教學(xué)策略。

K3類研究數(shù)據(jù)集成,即將類型、來源不同的數(shù)據(jù)集合在一起,進(jìn)行數(shù)據(jù)和信息共享,以避免信息孤島現(xiàn)象。

詞團(tuán)K4是對(duì)大數(shù)據(jù)核心問題的研究。代表關(guān)鍵詞為數(shù)據(jù)分析和數(shù)據(jù)處理。它們都處于大數(shù)據(jù)處理的前兩個(gè)階段,即數(shù)據(jù)抽取集成和數(shù)據(jù)分析階段。

K5類是對(duì)大數(shù)據(jù)工具和處理模式進(jìn)行研究。如前文所述,大數(shù)據(jù)技術(shù)與海量數(shù)據(jù)最大的區(qū)別在于它是否能采用傳統(tǒng)的方法對(duì)數(shù)據(jù)進(jìn)行高效率的處理。因此,以Hadoop為代表的非傳統(tǒng)大數(shù)據(jù)處理工具自然成為了研究的焦點(diǎn)。

詞團(tuán)K6中包含著兩個(gè)與大數(shù)據(jù)技術(shù)緊密相關(guān)的技術(shù):云計(jì)算和物聯(lián)網(wǎng)。它們的發(fā)展為大數(shù)據(jù)技術(shù)提供了良好的平臺(tái)和技術(shù)豐富的數(shù)據(jù)來源,而大數(shù)據(jù)技術(shù)為處理這些海量的數(shù)據(jù)提供了可能。

K7類研究屬性約簡(jiǎn)算法改進(jìn),它只包括粗糙集和屬性約簡(jiǎn)兩個(gè)關(guān)鍵詞?;诖植诩碚摰膶傩约s簡(jiǎn)主要可以用來降維處理高維數(shù)據(jù)對(duì)象,但由于原有的屬性約簡(jiǎn)算法難以處理大數(shù)據(jù)集,因此很多學(xué)者提出了其改進(jìn)算法,以保證算法的可靠。

K8主要研究的是數(shù)據(jù),代表關(guān)鍵詞為數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,主要探討怎樣管理好這些海量的數(shù)據(jù),保證數(shù)據(jù)的質(zhì)量。

K9類研究大數(shù)據(jù)領(lǐng)域的隱私和安全問題,代表關(guān)鍵詞為隱私保護(hù)和數(shù)據(jù)安全。大數(shù)據(jù)技術(shù)雖然給我們的生活帶來了便利,但也帶來了很多風(fēng)險(xiǎn),許多過去人們不想被別人知道,或連自己都不知道的習(xí)慣被大數(shù)據(jù)記錄了下來并加以分析,將最真實(shí)的我們暴露在了互聯(lián)網(wǎng)的環(huán)境下。因此我們急需保護(hù)好這些個(gè)人隱私,使之得到合理有效的利用。同時(shí),大量數(shù)據(jù)的集成也給數(shù)據(jù)的安全性問題帶來了挑戰(zhàn)。

K10類探討的是大數(shù)據(jù)對(duì)情報(bào)領(lǐng)域的影響,代表關(guān)鍵詞有競(jìng)爭(zhēng)情報(bào)、情報(bào)分析等。大數(shù)據(jù)可以給情報(bào)領(lǐng)域帶來更細(xì)、更豐富的數(shù)據(jù)流,但也對(duì)該領(lǐng)域提出了更高的技術(shù)要求。

K11類主要研究大數(shù)據(jù)給圖書領(lǐng)域帶來的革新,代表關(guān)鍵詞有數(shù)字圖書館、知識(shí)服務(wù)等。圖書領(lǐng)域往往是較早接觸新技術(shù)的領(lǐng)域,它們的數(shù)字化程度普遍較高,接觸到的數(shù)據(jù)量也很大。面對(duì)圖書館數(shù)字化的需求,大數(shù)據(jù)技術(shù)也成為了相關(guān)學(xué)者的研究熱點(diǎn)。

詞團(tuán)K12有關(guān)數(shù)據(jù)挖掘,以關(guān)聯(lián)規(guī)則和數(shù)據(jù)倉庫等關(guān)鍵詞為代表。它是大數(shù)據(jù)分析最基本的研究途徑,用以探究大量數(shù)據(jù)中潛在的有價(jià)值的信息。

詞團(tuán)K13設(shè)計(jì)聚類,以聚類和有關(guān)方法為代表。它是數(shù)據(jù)挖掘等互聯(lián)網(wǎng)技術(shù)的基礎(chǔ)。

詞團(tuán)K14中包含的內(nèi)容較多,主要可分為機(jī)器學(xué)習(xí)和應(yīng)用兩部分。機(jī)器學(xué)習(xí)的代表關(guān)鍵詞主要有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,它也是一項(xiàng)與大數(shù)據(jù)技術(shù)緊密聯(lián)系的信息技術(shù)。而應(yīng)用方面包括云會(huì)計(jì)、數(shù)據(jù)新聞、思想政治教育等,是大數(shù)據(jù)技術(shù)與其他各個(gè)領(lǐng)域的結(jié)合應(yīng)用。

參考文獻(xiàn):

[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,(01):146-169.

猜你喜歡
數(shù)據(jù)挖掘聚類領(lǐng)域
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
領(lǐng)域·對(duì)峙
青年生活(2019年23期)2019-09-10 12:55:43
基于DBSACN聚類算法的XML文檔聚類
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于改進(jìn)的遺傳算法的模糊聚類算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
基于GPGPU的離散數(shù)據(jù)挖掘研究
蒙城县| 塔河县| 将乐县| 长岭县| 平安县| 保定市| 满洲里市| 宁波市| 安岳县| 藁城市| 长阳| 老河口市| 噶尔县| 色达县| 霍州市| 石狮市| 南召县| 安陆市| 全州县| 江油市| 隆子县| 双柏县| 习水县| 中方县| 鱼台县| 远安县| 新乐市| 延津县| 禄劝| 石泉县| 长春市| 来宾市| 赣州市| 梧州市| 米脂县| 辽源市| 台江县| 丹凤县| 长沙县| 中牟县| 昌乐县|