什么是大數(shù)據(jù)

2018-05-10 18:43朱瀅穎

數(shù)字通信世界 2018年4期

朱瀅穎

（廣西南寧市第三中（五象校區(qū)），南寧 530221）

1 大數(shù)據(jù)如此流行的原因

現(xiàn)在的社會是一個高速發(fā)展、正在走向全面數(shù)據(jù)化的社會，科技發(fā)達，人們的交流方式多樣化，生活也越來越方便，隨著社會的發(fā)展，出現(xiàn)了數(shù)據(jù)龐大且分散的問題，為了解決這樣的問題，大數(shù)據(jù)出現(xiàn)了。大數(shù)據(jù)就是這個高科技時代的產(chǎn)物。大數(shù)據(jù)在社會分析、科學發(fā)現(xiàn)、商業(yè)決策中的作用越來越大。大數(shù)據(jù)已經(jīng)成為各類大會的重要議題，管理人士都希望利用大數(shù)據(jù)技術(shù)進行行業(yè)預(yù)測。

2 大數(shù)據(jù)是什么

2.1 人們對大數(shù)據(jù)的理解

人們對大數(shù)據(jù)有著各種各樣的理解，理解當中存在很多誤解，比如：大數(shù)據(jù)更多的運用于存儲方面，大數(shù)據(jù)即為數(shù)據(jù)量十分龐大；大公司或者大企業(yè)才有能力使用大數(shù)據(jù)技術(shù)；擁有了大數(shù)據(jù)便可看到想要的趨勢或結(jié)果；大數(shù)據(jù)的數(shù)據(jù)量大，可以將個人隱私深藏保護起來。[3]其實，大數(shù)據(jù)包括收集、存儲和分析，它需要通過技術(shù)的支持就可進行，即便是小公司，只要有了相關(guān)的技術(shù)支持，如爬蟲技術(shù)、云計算、No-SQL技術(shù)，便可使用大數(shù)據(jù)技術(shù)。大數(shù)據(jù)通過對大量數(shù)據(jù)的解析才能分析出數(shù)據(jù)中隱藏的規(guī)律，在細密的分析、挖掘下，個人隱私更容易遭到暴露。

2.2 大數(shù)據(jù)的概念

大數(shù)據(jù)（big data）也稱海量資料，指的是所需要處理的資料量十分龐大，一時無法通過現(xiàn)有的主流、常規(guī)的軟件工具在一定的時間內(nèi)進行獲取、整理、處理，再整理得到結(jié)論，引導(dǎo)使用者可以做出較為正確決策的資料。[4]正如大數(shù)據(jù)所具四個特征（4個V）。

（1）Volume（數(shù)據(jù)量大），存儲單位從過去的GB到TB，直至PB、EB。1GB（Gigabyte吉字節(jié)）=2^10MB=1024MB=2^30B；1TB（Trillionbyte太字節(jié)）=2^10GB=1024GB=2^40B；1PB（Petabyte 拍字節(jié)）=2^10TB=1024TB=2^50B；1EB（Exabyte艾字節(jié)）=2^10PB=1024PB=2^60B；1ZB（Zettabyte澤字節(jié)）=2^10EB=1024EB=2^70B。

我們平常中就產(chǎn)生了不少的數(shù)據(jù)，如淘寶網(wǎng)近4億的會員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB；臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB。

（2）Variety（數(shù)據(jù)類型多），大數(shù)據(jù)形式的多樣性由廣泛的數(shù)據(jù)來源決定，但這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。

（3）Value（商業(yè)價值巨大），這是大數(shù)據(jù)的核心特征，大數(shù)據(jù)最大的價值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中，挖掘出對未來趨勢與模式預(yù)測分析出有價值的數(shù)據(jù)。但若只是將一個文件不斷地復(fù)制，這樣的文件量再多也是沒有價值的。

（4）Velocity（處理速度快），這是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)挖掘的最顯著區(qū)別，與傳統(tǒng)的廣播、報紙等數(shù)據(jù)載體相比，大數(shù)據(jù)借著互聯(lián)網(wǎng)、云計算等方式實現(xiàn)，因此數(shù)據(jù)的交換、傳播速度遠比傳統(tǒng)方式快的多。數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。

2.3 大數(shù)據(jù)所需要的技術(shù)

大數(shù)據(jù)依賴于獲取數(shù)據(jù)技術(shù)和分析數(shù)據(jù)技術(shù)。大數(shù)據(jù)通過獲取數(shù)據(jù)，才可得到大量信息，進而分析數(shù)據(jù)。獲取數(shù)據(jù)的主要方式（渠道）：

（1）面向有著足夠人數(shù)使用的服務(wù)器或系統(tǒng)的日志進行信息采集。

（2）利用網(wǎng)絡(luò)獲取數(shù)據(jù)技術(shù)，如爬蟲技術(shù)，可對整個網(wǎng)頁頁面的信息進行收集，例百度貼吧當中，樓主、貼主發(fā)送貼子的時間、內(nèi)容截取下來儲存分析；數(shù)據(jù)庫采集也是一種方式，比如大公司的數(shù)據(jù)庫、大眾常用的中國知網(wǎng)、萬方、維普的數(shù)據(jù)庫。

分析數(shù)據(jù)技術(shù)是大數(shù)據(jù)的核心技術(shù)，并且分析技術(shù)是多種多樣的，如：數(shù)據(jù)倉庫、數(shù)據(jù)庫、數(shù)據(jù)挖掘技術(shù)、社交網(wǎng)絡(luò)分析技術(shù)、信息檢索技術(shù)、自然語言處理技術(shù)、云計算、No-SQL技術(shù)。

現(xiàn)在使用較為普遍的是由Apache基金會研究開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop，而Hadoop的框架最核心的設(shè)計就是為海量數(shù)據(jù)提供儲存的HDFS和為海量數(shù)據(jù)提供計算的谷歌大法寶MapReduce。

2.3.1 存儲原理

HDFS（Hadoop Distributed File System），其設(shè)計之處就是為了提高超大文件的存取和讀取速度，它的讀取方式是把超大文件分割成多個block（數(shù)據(jù)庫中的最小存儲和處理單位）在多個dataNode（存儲節(jié)點，一般有多臺機器）備份并存儲的，小文件并不會因其容量小而得以提高訪問和讀取速度，反之可能會降低。[1]并且HDFS還具有高吞吐量訪問、高容錯性、容量擴充的好處。HDFS由Namenode和Datanode組成。Namenode是管理文件的命名空間，并且能夠記錄節(jié)點的信息，但它不能進行永久保存。Datanode是文件系統(tǒng)的工作節(jié)點，負責存儲和檢索數(shù)據(jù)塊。在HDFS中，Namenode相當于一個管理者Datanode依靠Namenode進行節(jié)點內(nèi)文件的重建。因此，Namenode相當重要，一旦失去Namenode，HDFS就無法正常運行。為了盡量避免因運行Namenode的機器掛掉而導(dǎo)致系統(tǒng)中文件丟失，Hadoop提供了兩種容錯機制，第一種是將本地硬盤中的重要文件備份，也就是Hadoop通過配置讓Namenode將它持久化的文件寫錄到不同的文件系統(tǒng)中；第二種是運行一個輔助的Namenode，即第二Namenode，它能保存合并后的命名空間即namespace image（namenode管理文件資源）的一個備份。

2.3.2 處理原理

MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（＞1TB）的并行運算。Map（映射）和Reduce（歸納）是其主要思想。[2]（腳標百度引用）Mapreduce是大數(shù)據(jù)當中不可缺失的組成成分，為大數(shù)據(jù)提供分析和計算處理技術(shù)。Mapreduce在運行中主要分為五個階段：input階段，Hadoop將Mapreduce的輸入數(shù)據(jù)劃分成等長的小數(shù)據(jù)塊，即輸入分片，Hadoop為每個分片構(gòu)建一個map任務(wù)；Map階段，運行過程中對某種輸入格式的一條記錄解析成一條或多條記錄；shuffle階段，對中間數(shù)據(jù)的控制，作為reduce的輸入；Reduce階段，對相同key的數(shù)據(jù)進行合并；output階段，按照格式輸出到指定目錄。

2.4 大數(shù)據(jù)的應(yīng)用實例

以汽車行業(yè)為例子，汽車本身就是智能化的，各種智能傳感器，信息收集器都能提供大量的數(shù)據(jù)來源，比如汽車的使用周期，汽車行駛的公里數(shù)，汽車的型號；其次汽車維修中心的數(shù)據(jù)收集能力強，包含汽車零部件的使用年限、汽車維修保養(yǎng)的頻率等信息都會成為龐大的數(shù)據(jù)被采集、挖掘而后產(chǎn)生新的商業(yè)價值。

車企和車商可以利用汽車的大數(shù)據(jù)這一有效資源，打造一個以汽車周邊為主的生態(tài)商業(yè)圈，包括汽車的保險，汽車的內(nèi)部裝飾，汽車檢修服務(wù)，洗車服務(wù)等方面。這一商業(yè)生態(tài)網(wǎng)絡(luò)利用大數(shù)據(jù)技術(shù)，在獲得諸多數(shù)據(jù)資料的同時，進行解析，讓商家得到能夠了解客戶需求的信息，便于商家對銷售產(chǎn)品作出相應(yīng)調(diào)整，以及推出新的商業(yè)方案，獲得更大收益。

3 大數(shù)據(jù)是怎樣運行的

圖1 大數(shù)據(jù)的運行

第一步，將由用戶所使用的pc端、andorid端、ios端、Web，以及服務(wù)器日志、數(shù)據(jù)庫得到的數(shù)據(jù)資源上傳至Nginx服務(wù)器。第二步，基礎(chǔ)框架Hadoop提供存儲技術(shù)（HDFS）和數(shù)據(jù)分析處理技術(shù)（Mapreduce），把數(shù)據(jù)分塊存儲后，用Mapreduce進行第一輪分流處理，并放入第一個數(shù)據(jù)庫中，再用Mapreduce做二次處理，處理后的數(shù)據(jù)放入第二個數(shù)據(jù)庫。第三步，經(jīng)數(shù)據(jù)的轉(zhuǎn)換，使通過大數(shù)據(jù)收集、處理后的信息在發(fā)掘出其更大的價值之后，得以更加直觀地以文字的形式展現(xiàn)出來。

4 結(jié)束語

大數(shù)據(jù)是龐大的信息資料，依靠Hadoop中的HDFS的文件分割儲存和Mapreduce的分流式處理對數(shù)據(jù)采集、解析，得到信息中蘊含的更大價值，這為人們作出決斷提供了可參考的信息，因此大數(shù)據(jù)受到高層管理人士和科學研究分析領(lǐng)域人士的重視。大數(shù)據(jù)加快社會的進步與發(fā)展，各行各業(yè)與大數(shù)據(jù)相結(jié)合后發(fā)現(xiàn)了新的機遇，不僅是便利了人們的生活，更是推動了科技的進步。通過大數(shù)據(jù)，人們獲得了大量數(shù)據(jù)背后所隱藏的規(guī)律，這樣更能讓人們做出更貼合事物客觀發(fā)展規(guī)律的決定。

[1] 翟永東.Hadoop分布式文件系統(tǒng)（HDFS）可靠性的研究與優(yōu)化[D].華中科技大學，2011.

[2] 李建江，崔健，王聃等.MapReduce并行編程模型研究綜述[J].電子學報，2011，39（11）：2635-2642.

[3] 戴明鋒，劉展.大數(shù)據(jù)理解誤區(qū)解讀[J].中國衛(wèi)生信息管理雜志，2015，12（1）：61-63.

[4] https：//baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356 941?fr=aladdin.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡