国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)及其處理系統(tǒng)研究綜述

2016-11-02 23:56:14朱敏
電腦知識(shí)與技術(shù) 2016年23期
關(guān)鍵詞:挖掘出海量結(jié)構(gòu)化

朱敏

摘要:當(dāng)今時(shí)代,人們的生活對(duì)互聯(lián)網(wǎng)的使用涉及方方面面,社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、傳感器的廣泛應(yīng)用會(huì)產(chǎn)生海量的非結(jié)構(gòu)化數(shù)據(jù),即大數(shù)據(jù)。大數(shù)據(jù)不能使用傳統(tǒng)的數(shù)據(jù)庫(kù)軟件進(jìn)行管理,需要大規(guī)模并行處理數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù)系統(tǒng)、云存儲(chǔ)等特殊的技術(shù)進(jìn)行處理。該文闡述了大數(shù)據(jù)的概念、特點(diǎn)、處理技術(shù)及應(yīng)用實(shí)例。最后總結(jié)了大數(shù)據(jù)的發(fā)展趨勢(shì)。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)處理

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)23-0251-02

1引言

當(dāng)今時(shí)代,互聯(lián)網(wǎng)的應(yīng)用范圍不斷擴(kuò)展,互聯(lián)網(wǎng)中的數(shù)據(jù)發(fā)生了爆炸性的增長(zhǎng)。社交網(wǎng)絡(luò)中用戶之間的交流、物聯(lián)網(wǎng)中的各種設(shè)備(比如智能手機(jī)等)都會(huì)產(chǎn)生和傳送海量的數(shù)據(jù)。傳感器則把全世界的電器設(shè)備及生物體產(chǎn)生的數(shù)據(jù)傳動(dòng)到互聯(lián)網(wǎng)。大數(shù)據(jù)中蘊(yùn)藏著豐富的價(jià)值,社交網(wǎng)絡(luò)中的大數(shù)據(jù)體現(xiàn)了人類復(fù)雜的行為模式,企業(yè)從大數(shù)據(jù)中挖掘出客戶對(duì)商品的喜好和需求,從而改進(jìn)產(chǎn)品。

2大數(shù)據(jù)定義

本文認(rèn)為大數(shù)據(jù)的定義需要從規(guī)模和分析兩個(gè)方面描述。首先,大數(shù)據(jù)是有非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)組成的,其規(guī)模是海量的,無(wú)法用單臺(tái)計(jì)算機(jī)進(jìn)行存儲(chǔ)、分析和處理。其次,大數(shù)據(jù)無(wú)法使用傳統(tǒng)的數(shù)據(jù)庫(kù)工具進(jìn)行分析處理,必須使用互聯(lián)網(wǎng)、數(shù)據(jù)挖掘電網(wǎng)、分布式數(shù)據(jù)庫(kù)、云平臺(tái)等技術(shù)進(jìn)行大數(shù)據(jù)的挖掘分析和處理。

3 大數(shù)據(jù)特點(diǎn)

數(shù)據(jù)規(guī)模龐大、數(shù)據(jù)處理速度快、數(shù)據(jù)結(jié)構(gòu)多樣化、數(shù)據(jù)蘊(yùn)藏豐富價(jià)值、數(shù)據(jù)來(lái)源真實(shí)可靠是大數(shù)據(jù)的具有的幾大特點(diǎn)。

1)數(shù)據(jù)規(guī)模龐大:大數(shù)據(jù)的數(shù)據(jù)規(guī)模是海量的,可以是數(shù)百TB或者數(shù)百PB,甚至達(dá)到ZB的規(guī)模。信息大爆炸帶來(lái)了海量的數(shù)據(jù),目前互聯(lián)網(wǎng)一天的數(shù)據(jù)流量達(dá)到1EB。

2)數(shù)據(jù)處理速度快:商務(wù)網(wǎng)站中的電子商務(wù)數(shù)據(jù)、社交平臺(tái)的社交信息、傳感器獲取的數(shù)據(jù)都具有實(shí)時(shí)性,這些數(shù)據(jù)產(chǎn)生速度很快,所以對(duì)這些數(shù)據(jù)進(jìn)行處理的速度也要求快速。

3)數(shù)據(jù)結(jié)構(gòu)多樣化:大數(shù)據(jù)的來(lái)源多種多樣,例如互聯(lián)網(wǎng)的點(diǎn)擊、社交網(wǎng)絡(luò)的信息交流、GPS定位信息等等,這些渠道產(chǎn)生的數(shù)據(jù)不再是傳統(tǒng)的數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù),可以是E-MAIL數(shù)據(jù)、音頻數(shù)據(jù)、圖片數(shù)據(jù)、視頻數(shù)據(jù)、微博數(shù)據(jù)、傳感器數(shù)據(jù)等等,這些數(shù)據(jù)都是非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)。

4)數(shù)據(jù)蘊(yùn)藏豐富價(jià)值:大數(shù)據(jù)中蘊(yùn)藏著豐富的價(jià)值,社交網(wǎng)絡(luò)中的大數(shù)據(jù)體現(xiàn)了人類復(fù)雜的行為模式,企業(yè)從大數(shù)據(jù)中挖掘出客戶對(duì)商品的喜好和需求,從而改進(jìn)產(chǎn)品。企業(yè)從大數(shù)據(jù)中挖掘出客戶對(duì)產(chǎn)品的需求,從而對(duì)產(chǎn)品進(jìn)行優(yōu)化。大數(shù)據(jù)中的數(shù)據(jù)是最原始的全面的數(shù)據(jù),所以數(shù)據(jù)的價(jià)值密度低。例如社交網(wǎng)絡(luò)中發(fā)出的一條信息,會(huì)在網(wǎng)絡(luò)中不斷轉(zhuǎn)發(fā),從而引出更多的相關(guān)信息,這些相關(guān)信息中蘊(yùn)藏著豐富的價(jià)值。

5) 數(shù)據(jù)來(lái)源真實(shí)可靠:大數(shù)據(jù)的來(lái)源包括商務(wù)網(wǎng)站、社交平臺(tái)、網(wǎng)絡(luò)點(diǎn)擊、傳感器等等渠道,這些數(shù)據(jù)都是最原始的數(shù)據(jù),中間沒有對(duì)數(shù)據(jù)的采樣和處理,保證了數(shù)據(jù)的真是可靠。

4 大數(shù)據(jù)處理系統(tǒng)

因?yàn)榇髷?shù)據(jù)的以上特性,不能使用傳統(tǒng)的數(shù)據(jù)庫(kù)工具進(jìn)行大數(shù)據(jù)的分析處理。為了從大數(shù)據(jù)中挖掘出有價(jià)值的信息,需要有針對(duì)大數(shù)據(jù)的數(shù)據(jù)處理系統(tǒng)。目前,一些大型的互聯(lián)網(wǎng)企業(yè),例如谷歌、Facebook等企業(yè)都研發(fā)了針對(duì)大數(shù)據(jù)的數(shù)據(jù)處理系統(tǒng)。

1)批量數(shù)據(jù)處理系統(tǒng):這種系統(tǒng)是對(duì)互聯(lián)網(wǎng)中產(chǎn)生的海量的靜態(tài)的數(shù)據(jù)進(jìn)行處理。例如對(duì)客戶在網(wǎng)站中的點(diǎn)擊量和網(wǎng)頁(yè)的瀏覽量等數(shù)據(jù)進(jìn)行處理,從而或者客戶對(duì)哪些商品比較偏愛。谷歌公司研發(fā)的GFS(Google File System,即大規(guī)模分散文件系統(tǒng))和MapReduce(大規(guī)模分散FrameWork)系統(tǒng)就是典型的批量數(shù)據(jù)處理系統(tǒng)。

5結(jié)束語(yǔ)

本文闡述了大數(shù)據(jù)的概念、特點(diǎn)以及幾種大數(shù)據(jù)處理技術(shù)。目前,隨著社交網(wǎng)絡(luò)的發(fā)展、傳感器的廣泛應(yīng)用、物聯(lián)網(wǎng)的不斷擴(kuò)展,大數(shù)據(jù)已經(jīng)深入我們生活的方方面面,針對(duì)大數(shù)據(jù)的處理也越來(lái)越深入,如何更高效的挖掘大數(shù)據(jù)中蘊(yùn)藏的價(jià)值需要不斷地研究和改進(jìn)。

參考文獻(xiàn):

[1]涂新莉,劉波,林偉偉.大數(shù)據(jù)研究綜述[ J]. 計(jì)算機(jī)應(yīng)用研究, 2014(31): 1612- 1616.

[2]程學(xué)旗,靳小龍,王元卓,等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào), 2014(25):1889-1908.

[3]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[ J]. 國(guó)防科技,2013(34) :10-17.

猜你喜歡
挖掘出海量結(jié)構(gòu)化
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
從唱片里面挖掘出更多的細(xì)節(jié) Thorens多能士| TD 905黑膠唱盤
海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
三次實(shí)地采訪,挖掘出暖新聞背后的超暖細(xì)節(jié)
感悟生活,拓展思維空間
一個(gè)圖形所蘊(yùn)含的“海量”巧題
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
一種海量衛(wèi)星導(dǎo)航軌跡點(diǎn)地圖匹配方法
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
安图县| 南通市| 获嘉县| 贡觉县| 独山县| 茌平县| 闸北区| 永登县| 韶关市| 宿松县| 阜康市| 准格尔旗| 阜城县| 泰宁县| 马山县| 乌拉特中旗| 南岸区| 宝鸡市| 富蕴县| 墨江| 石泉县| 库车县| 波密县| 定结县| 梧州市| 台前县| 磐安县| 凤城市| 彰化县| 平远县| 平阴县| 股票| 临邑县| 赤城县| 久治县| 金坛市| 卢氏县| 宾川县| 喀什市| 绥阳县| 日喀则市|