国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)關(guān)鍵技術(shù)分析及系統(tǒng)實(shí)例分析

2016-04-29 02:56:08溫玉杰
中國科技博覽 2016年10期
關(guān)鍵詞:大數(shù)據(jù)分析

溫玉杰

[摘 要]根據(jù)大數(shù)據(jù)處理形式不同,將大數(shù)據(jù)計(jì)算分為批量處理計(jì)算和流式處理計(jì)算,對(duì)大數(shù)據(jù)中的批量處理計(jì)算和流式處理計(jì)算進(jìn)行了分析,介紹了不用的大數(shù)據(jù)應(yīng)用場景、數(shù)據(jù)特征和代表性處理系統(tǒng),分析批量計(jì)算中的關(guān)鍵技術(shù)(系統(tǒng)架構(gòu)、分布式文件系統(tǒng)、分布式數(shù)據(jù)處理系統(tǒng))和流式計(jì)算關(guān)鍵技術(shù)(系統(tǒng)架構(gòu)、數(shù)據(jù)傳輸、編程接口)。

[關(guān)鍵詞]大數(shù)據(jù)分析 批量處理計(jì)算 流式處理計(jì)算

中圖分類號(hào):X734.2 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2016)10-0206-01

1 引言

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,物聯(lián)網(wǎng)技術(shù)、移動(dòng)互聯(lián)技術(shù)、社交媒體等技術(shù)及其應(yīng)用在是越來越多,全球的數(shù)據(jù)急劇膨脹,人類已經(jīng)步入了大數(shù)據(jù)的時(shí)代。大數(shù)據(jù)中包含著大量的隱含信息,需要從這些隱含的信息中提取有價(jià)值的大知識(shí),這些大的知識(shí)將在更高的層面上、更廣闊的視角、更大范圍內(nèi)對(duì)用戶提供洞察力、決策力,為人類以及社會(huì)創(chuàng)造更大的利益以及價(jià)值。目前主流的大數(shù)據(jù)庫計(jì)算模式分為兩種,分別為批量式計(jì)算和流式計(jì)算兩種模式。

在批量計(jì)算模式中,首先是需要對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ),然后對(duì)這些存儲(chǔ)的靜態(tài)數(shù)據(jù)進(jìn)行集中起來進(jìn)行計(jì)算,目前的Hadoop就是一種非常典型的批量計(jì)算架構(gòu);在流式計(jì)算模式中,無法確定數(shù)據(jù)的到來時(shí)刻以及數(shù)據(jù)的次序,也不用將數(shù)據(jù)全部進(jìn)行存儲(chǔ)起來進(jìn)行計(jì)算。而是當(dāng)這些流動(dòng)的數(shù)據(jù)到來之后直接在內(nèi)存中進(jìn)行實(shí)時(shí)性的處理,典型的Twitter、Storm、Yahoo的S4就是這種流式的數(shù)據(jù)計(jì)算模式。

2 應(yīng)用場景及數(shù)據(jù)特征

2.1 批量處理系統(tǒng)

對(duì)于批量處理系統(tǒng)來說,這類系統(tǒng)比較適合對(duì)于靜態(tài)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從海量信息中獲取具體的含義,得到很明智的決策,最終為領(lǐng)導(dǎo)提供輔助決策制定相應(yīng)的應(yīng)對(duì)措施來實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。大數(shù)據(jù)中的批量處理系統(tǒng)適合先進(jìn)行存儲(chǔ)然后進(jìn)行計(jì)算,對(duì)于數(shù)據(jù)處理的實(shí)時(shí)性要求不是很高,但是對(duì)于數(shù)據(jù)的準(zhǔn)確性和全面性要求更高。

2.1.1 數(shù)據(jù)特征

對(duì)于批量數(shù)據(jù)來說,通常具備三個(gè)典型的特征,(1)數(shù)據(jù)量比較大,數(shù)據(jù)量從TB級(jí)別到PB級(jí)別,數(shù)據(jù)主要是以靜態(tài)的形式存儲(chǔ)在磁盤上,存儲(chǔ)的時(shí)間比較大,一般不進(jìn)行數(shù)據(jù)的更新數(shù)據(jù),海量數(shù)據(jù)可以重復(fù)進(jìn)行使用,這種數(shù)據(jù)不容易移動(dòng)以及備份處理;(2)數(shù)據(jù)的精度比較高,存儲(chǔ)的這些數(shù)據(jù)一般是屬于企業(yè)中的一部分,是長時(shí)間積累下來的;(3)數(shù)據(jù)價(jià)值密度相對(duì)來說比較低。往往有價(jià)值的信息比較少,因此需要采用合理的分析算法對(duì)這些批量數(shù)據(jù)進(jìn)行信息抽取,同時(shí)處理批量數(shù)據(jù)比較耗時(shí),一般不提供交互功能,當(dāng)提取結(jié)果與預(yù)期差別很大時(shí),會(huì)浪費(fèi)很多時(shí)間。因此,批量處理系統(tǒng)比較適合相對(duì)比較成熟的作業(yè)。

2.1.2 代表性處理系統(tǒng)

對(duì)于批處理系統(tǒng)來說,比較典型的代表是由Google公司開發(fā)的文件系統(tǒng)GFS(google File System)和研發(fā)的MapReduce編程模型。雖然Google公司沒有對(duì)這兩項(xiàng)技術(shù)進(jìn)行源碼的公開,但是基于發(fā)表的兩篇文章,Nutch子項(xiàng)目中的Hadoop實(shí)現(xiàn)了開源的兩個(gè)產(chǎn)品:HDFS和MapReduce。Hadoop成為批量處理架構(gòu)中非常典型的一種架構(gòu)模式,HDFS負(fù)責(zé)對(duì)靜態(tài)的數(shù)據(jù)進(jìn)行存儲(chǔ),通過MapReduce對(duì)這些靜態(tài)數(shù)據(jù)進(jìn)行計(jì)算邏輯的分配。Hadoop成為很多IT公司的大數(shù)據(jù)主流架構(gòu),基于HDFS和MapReduce建立了很多項(xiàng)目。

MapReduce編程模型收到很多主流IT的歡迎,主要有幾個(gè)方面的原因:(1)MapReduce是一種沒有共享的大規(guī)模集群系統(tǒng),這種集群系統(tǒng)具有很好的性價(jià)比和伸縮性;(2)MapReduce模型比較簡單,容易理解,便于使用。能夠不僅僅處理大規(guī)模的數(shù)據(jù),而且能夠?qū)芏嗉?xì)節(jié)進(jìn)行隱藏(包括自動(dòng)并行化、負(fù)載均衡、災(zāi)備管理等),能夠很大程度上降低程序員的工作量。

2.2 流式處理系統(tǒng)

2.2.1 數(shù)據(jù)特征

一般情況下,對(duì)于流式數(shù)據(jù)來說,是一個(gè)無窮的數(shù)據(jù)序列信息,對(duì)于流式數(shù)據(jù)中的每個(gè)序列來說數(shù)據(jù)的來源是不同的,數(shù)據(jù)可能是結(jié)構(gòu)化或非結(jié)構(gòu)化,這些序列往往包含時(shí)間特征,或者有其他能夠表示有序的標(biāo)簽信息。從數(shù)據(jù)庫的角度來說,流式數(shù)據(jù)中的每個(gè)元素都可以看成是一個(gè)元祖。流式數(shù)據(jù)在不同的場景中能夠表現(xiàn)出不同的特征信息,比如表現(xiàn)流速的大小、元素特征的數(shù)量、數(shù)據(jù)格式不同等。

2.2.2 代表性處理系統(tǒng)

流式計(jì)算處理系統(tǒng)目前得到廣泛的應(yīng)用,包括Twitter的Storm,F(xiàn)acebook的Scribe,Linkedin的Samza等。本節(jié)主要是對(duì)Twitter的Storm進(jìn)行詳細(xì)的介紹。

Storm的主要特點(diǎn)是一種基于分布式的、可靠、容錯(cuò)性好的流式處理系統(tǒng),被分配的流式處理作業(yè)能夠分發(fā)到不同的組件上,被分配的每個(gè)組件負(fù)責(zé)一項(xiàng)單一的、特定的處理任務(wù)。Storm集群中輸入流由Spout來進(jìn)行負(fù)責(zé),Storm將流式數(shù)據(jù)分發(fā)給Blot的組件,Blot組件對(duì)其進(jìn)行處理。Storm可以進(jìn)行實(shí)時(shí)的數(shù)據(jù)處理以及對(duì)數(shù)據(jù)庫進(jìn)行更新,能夠被用于進(jìn)行持續(xù)的計(jì)算,對(duì)連續(xù)的數(shù)據(jù)流進(jìn)行查詢處理,在計(jì)算的過程中結(jié)果是以流的形式輸出給用戶。還可以用于進(jìn)行分布式的處理RPC。

3 大數(shù)據(jù)關(guān)鍵技術(shù)

3.1 大數(shù)據(jù)批量計(jì)算關(guān)鍵技術(shù)

在大數(shù)據(jù)批量計(jì)算中,系統(tǒng)架構(gòu)、分布式文件系統(tǒng)、分布式數(shù)據(jù)處理系統(tǒng)等關(guān)鍵技術(shù)成為制約其發(fā)展的關(guān)鍵技術(shù)。

(1)系統(tǒng)架構(gòu)

在進(jìn)行大數(shù)據(jù)處理的過程中,需要的關(guān)鍵技術(shù)主要是針對(duì)海量的數(shù)據(jù)進(jìn)行存儲(chǔ)以及分析計(jì)算,因此選擇合理的架構(gòu)對(duì)其進(jìn)行批量處理是其中的重點(diǎn)。

(2)分布式文件系統(tǒng)

在大數(shù)據(jù)應(yīng)用中,文件系統(tǒng)是其中非常重要的一個(gè)部分。對(duì)于海量的數(shù)據(jù)需要采取分布式存儲(chǔ)的方式存儲(chǔ)到磁盤上,方便后期的計(jì)算。

(3)分布式數(shù)據(jù)處理系統(tǒng)

對(duì)于分布到磁盤上的海量信息,如何選取合理的數(shù)據(jù)處理系統(tǒng)對(duì)其進(jìn)行處理分析是其中的一個(gè)非常重要的關(guān)鍵點(diǎn)。

3.2 大數(shù)據(jù)流式計(jì)算關(guān)鍵技術(shù)

對(duì)于流式計(jì)算中,理想中的大數(shù)據(jù)流式計(jì)算應(yīng)該具有比較低的延遲、高的吞吐量、保持持續(xù)運(yùn)行、可以伸縮等特征,這些離不開系統(tǒng)的架構(gòu)、海量數(shù)據(jù)的傳輸、編程的接口、高新技術(shù)等關(guān)鍵技術(shù)的合理設(shè)計(jì)與規(guī)劃。

(1)系統(tǒng)架構(gòu)設(shè)計(jì)

流式計(jì)算中的架構(gòu)指不同的各個(gè)子系統(tǒng)之間的一種重新組合的方式,對(duì)于流式處理計(jì)算中需要選擇特定的框架進(jìn)行流式計(jì)算。目前主流的流式計(jì)算系統(tǒng)中采用的架構(gòu)分為無中心節(jié)點(diǎn)的對(duì)稱系統(tǒng)架構(gòu)以及具備中心節(jié)點(diǎn)的主從式結(jié)構(gòu)。

(2)數(shù)據(jù)傳輸

數(shù)據(jù)傳輸主要是完成從有向任務(wù)圖到物理計(jì)算節(jié)點(diǎn)之間的部署,部署各個(gè)節(jié)點(diǎn)之間的數(shù)據(jù)傳輸方式。在流式計(jì)算系統(tǒng)中,為了能夠具備高的吞吐量、比較低的延遲,需要不斷的優(yōu)化從有向任務(wù)圖到物理計(jì)算節(jié)點(diǎn)之間的部署及其映射方式。目前主流的數(shù)據(jù)傳輸方式分為主動(dòng)推送方式和被動(dòng)拉取的方式。

(3)編程接口

在流式計(jì)算中,為了方便從有向任務(wù)圖到物理計(jì)算節(jié)點(diǎn)之間的部署,需要進(jìn)行編程實(shí)現(xiàn)任務(wù)圖中各個(gè)節(jié)點(diǎn)的相應(yīng)處理功能。需要編制大量的流式數(shù)據(jù)計(jì)算系來提供應(yīng)用編程的接口,方便的接口能夠方便用戶實(shí)現(xiàn)內(nèi)部的業(yè)務(wù)邏輯及處理,減少用戶的編程的工作量。

4 總結(jié)與展望

互聯(lián)網(wǎng)技術(shù)、云計(jì)算等高新技術(shù)的快速發(fā)展,多樣化的應(yīng)用不斷的增加,數(shù)據(jù)在各行各業(yè)中都成為非常重要的一個(gè)組成部分,如何在海量的信息中獲取有價(jià)值的信息是大數(shù)據(jù)需要完成的工作。本文根據(jù)大數(shù)據(jù)對(duì)數(shù)據(jù)處理的形式不同,介紹了批量處理系統(tǒng)和流式處理系統(tǒng),并對(duì)大數(shù)據(jù)中的關(guān)鍵技術(shù)進(jìn)行了介紹。

參考文獻(xiàn)

[1] 劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2014(06):957-972.

[2] 黃欣榮.從復(fù)雜性科學(xué)到大數(shù)據(jù)技術(shù)[J].長沙理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2014,29(2):5-9.

[3] 李紀(jì)舟,蘇曉娟,葉蕾.大數(shù)據(jù)技術(shù)及其國外發(fā)展情況[J].電信技術(shù)研究,2013(2):60-64.

猜你喜歡
大數(shù)據(jù)分析
基于智慧服務(wù)的圖書館“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)構(gòu)建研究
基于大數(shù)據(jù)分析的低壓臺(tái)區(qū)降損系統(tǒng)研究及應(yīng)用
大數(shù)據(jù)分析對(duì)提高教學(xué)管理質(zhì)量的作用
亞太教育(2016年36期)2017-01-17 17:26:50
基于大數(shù)據(jù)分析的電力通信設(shè)備檢修影響業(yè)務(wù)自動(dòng)分析平臺(tái)研究與應(yīng)用
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
面向大數(shù)據(jù)分析的信息管理實(shí)踐教學(xué)體系構(gòu)建
傳媒變局中的人口電視欄目困境與創(chuàng)新
科技傳播(2016年19期)2016-12-27 14:35:21
大數(shù)據(jù)分析的移動(dòng)端在網(wǎng)絡(luò)課堂教學(xué)中的應(yīng)用
電信行業(yè)WiFi商業(yè)模型及大客戶管理平臺(tái)
大數(shù)據(jù)背景下運(yùn)營商發(fā)展策略探討
彩票| 宜阳县| 房产| 舟曲县| 新和县| 襄城县| 乐平市| 平塘县| 鸡泽县| 平昌县| 托克逊县| 崇州市| 法库县| 桦甸市| 福州市| 榕江县| 仪陇县| 浦县| 哈密市| 新营市| 台中市| 文山县| 武宣县| 萍乡市| 闵行区| 陈巴尔虎旗| 三穗县| 昌邑市| 科尔| 罗源县| 甘孜县| 兴安盟| 郧西县| 贞丰县| 图们市| 蓬安县| 迁安市| 闵行区| 北安市| 晋中市| 永登县|