朱瀅穎
(廣西南寧市第三中(五象校區(qū)),南寧 530221)
現(xiàn)在的社會是一個高速發(fā)展、正在走向全面數(shù)據(jù)化的社會,科技發(fā)達,人們的交流方式多樣化,生活也越來越方便,隨著社會的發(fā)展,出現(xiàn)了數(shù)據(jù)龐大且分散的問題,為了解決這樣的問題,大數(shù)據(jù)出現(xiàn)了。大數(shù)據(jù)就是這個高科技時代的產(chǎn)物。大數(shù)據(jù)在社會分析、科學發(fā)現(xiàn)、商業(yè)決策中的作用越來越大。大數(shù)據(jù)已經(jīng)成為各類大會的重要議題,管理人士都希望利用大數(shù)據(jù)技術(shù)進行行業(yè)預(yù)測。
人們對大數(shù)據(jù)有著各種各樣的理解,理解當中存在很多誤解,比如:大數(shù)據(jù)更多的運用于存儲方面,大數(shù)據(jù)即為數(shù)據(jù)量十分龐大;大公司或者大企業(yè)才有能力使用大數(shù)據(jù)技術(shù);擁有了大數(shù)據(jù)便可看到想要的趨勢或結(jié)果;大數(shù)據(jù)的數(shù)據(jù)量大,可以將個人隱私深藏保護起來。[3]其實,大數(shù)據(jù)包括收集、存儲和分析,它需要通過技術(shù)的支持就可進行,即便是小公司,只要有了相關(guān)的技術(shù)支持,如爬蟲技術(shù)、云計算、No-SQL技術(shù),便可使用大數(shù)據(jù)技術(shù)。大數(shù)據(jù)通過對大量數(shù)據(jù)的解析才能分析出數(shù)據(jù)中隱藏的規(guī)律,在細密的分析、挖掘下,個人隱私更容易遭到暴露。
大數(shù)據(jù)(big data)也稱海量資料,指的是所需要處理的資料量十分龐大,一時無法通過現(xiàn)有的主流、常規(guī)的軟件工具在一定的時間內(nèi)進行獲取、整理、處理,再整理得到結(jié)論,引導(dǎo)使用者可以做出較為正確決策的資料。[4]正如大數(shù)據(jù)所具四個特征(4個V)。
(1)Volume(數(shù)據(jù)量大),存儲單位從過去的GB到TB,直至PB、EB。1GB(Gigabyte吉字節(jié))=2^10MB=1024MB=2^30B;1TB(Trillionbyte太字節(jié))=2^10GB=1024GB=2^40B;1PB(Petabyte 拍字節(jié))=2^10TB=1024TB=2^50B;1EB(Exabyte艾字節(jié))=2^10PB=1024PB=2^60B;1ZB(Zettabyte澤字節(jié))=2^10EB=1024EB=2^70B。
我們平常中就產(chǎn)生了不少的數(shù)據(jù),如淘寶網(wǎng)近4億的會員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB。
(2)Variety(數(shù)據(jù)類型多),大數(shù)據(jù)形式的多樣性由廣泛的數(shù)據(jù)來源決定,但這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。
(3)Value(商業(yè)價值巨大),這是大數(shù)據(jù)的核心特征,大數(shù)據(jù)最大的價值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對未來趨勢與模式預(yù)測分析出有價值的數(shù)據(jù)。但若只是將一個文件不斷地復(fù)制,這樣的文件量再多也是沒有價值的。
(4)Velocity(處理速度快),這是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)挖掘的最顯著區(qū)別,與傳統(tǒng)的廣播、報紙等數(shù)據(jù)載體相比,大數(shù)據(jù)借著互聯(lián)網(wǎng)、云計算等方式實現(xiàn),因此數(shù)據(jù)的交換、傳播速度遠比傳統(tǒng)方式快的多。數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。
大數(shù)據(jù)依賴于獲取數(shù)據(jù)技術(shù)和分析數(shù)據(jù)技術(shù)。大數(shù)據(jù)通過獲取數(shù)據(jù),才可得到大量信息,進而分析數(shù)據(jù)。獲取數(shù)據(jù)的主要方式(渠道):
(1)面向有著足夠人數(shù)使用的服務(wù)器或系統(tǒng)的日志進行信息采集。
(2)利用網(wǎng)絡(luò)獲取數(shù)據(jù)技術(shù),如爬蟲技術(shù),可對整個網(wǎng)頁頁面的信息進行收集,例百度貼吧當中,樓主、貼主發(fā)送貼子的時間、內(nèi)容截取下來儲存分析;數(shù)據(jù)庫采集也是一種方式,比如大公司的數(shù)據(jù)庫、大眾常用的中國知網(wǎng)、萬方、維普的數(shù)據(jù)庫。
分析數(shù)據(jù)技術(shù)是大數(shù)據(jù)的核心技術(shù),并且分析技術(shù)是多種多樣的,如:數(shù)據(jù)倉庫、數(shù)據(jù)庫、數(shù)據(jù)挖掘技術(shù)、社交網(wǎng)絡(luò)分析技術(shù)、信息檢索技術(shù)、自然語言處理技術(shù)、云計算、No-SQL技術(shù)。
現(xiàn)在使用較為普遍的是由Apache基金會研究開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop,而Hadoop的框架最核心的設(shè)計就是為海量數(shù)據(jù)提供儲存的HDFS和為海量數(shù)據(jù)提供計算的谷歌大法寶MapReduce。
2.3.1 存儲原理
HDFS(Hadoop Distributed File System),其設(shè)計之處就是為了提高超大文件的存取和讀取速度,它的讀取方式是把超大文件分割成多個block(數(shù)據(jù)庫中的最小存儲和處理單位)在多個dataNode(存儲節(jié)點,一般有多臺機器)備份并存儲的,小文件并不會因其容量小而得以提高訪問和讀取速度,反之可能會降低。[1]并且HDFS還具有高吞吐量訪問、高容錯性、容量擴充的好處。HDFS由Namenode和Datanode組成。Namenode是管理文件的命名空間,并且能夠記錄節(jié)點的信息,但它不能進行永久保存。Datanode是文件系統(tǒng)的工作節(jié)點,負責存儲和檢索數(shù)據(jù)塊。在HDFS中,Namenode相當于一個管理者Datanode依靠Namenode進行節(jié)點內(nèi)文件的重建。因此,Namenode相當重要,一旦失去Namenode,HDFS就無法正常運行。為了盡量避免因運行Namenode的機器掛掉而導(dǎo)致系統(tǒng)中文件丟失,Hadoop提供了兩種容錯機制,第一種是將本地硬盤中的重要文件備份,也就是Hadoop通過配置讓Namenode將它持久化的文件寫錄到不同的文件系統(tǒng)中;第二種是運行一個輔助的Namenode,即第二Namenode,它能保存合并后的命名空間即namespace image(namenode管理文件資源)的一個備份。
2.3.2 處理原理
MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(>1TB)的并行運算。Map(映射)和Reduce(歸納)是其主要思想。[2](腳標百度引用)Mapreduce是大數(shù)據(jù)當中不可缺失的組成成分,為大數(shù)據(jù)提供分析和計算處理技術(shù)。Mapreduce在運行中主要分為五個階段:input階段,Hadoop將Mapreduce的輸入數(shù)據(jù)劃分成等長的小數(shù)據(jù)塊,即輸入分片,Hadoop為每個分片構(gòu)建一個map任務(wù);Map階段,運行過程中對某種輸入格式的一條記錄解析成一條或多條記錄;shuffle階段,對中間數(shù)據(jù)的控制,作為reduce的輸入;Reduce階段,對相同key的數(shù)據(jù)進行合并;output階段,按照格式輸出到指定目錄。
以汽車行業(yè)為例子,汽車本身就是智能化的,各種智能傳感器,信息收集器都能提供大量的數(shù)據(jù)來源,比如汽車的使用周期,汽車行駛的公里數(shù),汽車的型號;其次汽車維修中心的數(shù)據(jù)收集能力強,包含汽車零部件的使用年限、汽車維修保養(yǎng)的頻率等信息都會成為龐大的數(shù)據(jù)被采集、挖掘而后產(chǎn)生新的商業(yè)價值。
車企和車商可以利用汽車的大數(shù)據(jù)這一有效資源,打造一個以汽車周邊為主的生態(tài)商業(yè)圈,包括汽車的保險,汽車的內(nèi)部裝飾,汽車檢修服務(wù),洗車服務(wù)等方面。這一商業(yè)生態(tài)網(wǎng)絡(luò)利用大數(shù)據(jù)技術(shù),在獲得諸多數(shù)據(jù)資料的同時,進行解析,讓商家得到能夠了解客戶需求的信息,便于商家對銷售產(chǎn)品作出相應(yīng)調(diào)整,以及推出新的商業(yè)方案,獲得更大收益。
圖1 大數(shù)據(jù)的運行
第一步,將由用戶所使用的pc端、andorid端、ios端、Web,以及服務(wù)器日志、數(shù)據(jù)庫得到的數(shù)據(jù)資源上傳至Nginx服務(wù)器。第二步,基礎(chǔ)框架Hadoop提供存儲技術(shù)(HDFS)和數(shù)據(jù)分析處理技術(shù)(Mapreduce),把數(shù)據(jù)分塊存儲后,用Mapreduce進行第一輪分流處理,并放入第一個數(shù)據(jù)庫中,再用Mapreduce做二次處理,處理后的數(shù)據(jù)放入第二個數(shù)據(jù)庫。第三步,經(jīng)數(shù)據(jù)的轉(zhuǎn)換,使通過大數(shù)據(jù)收集、處理后的信息在發(fā)掘出其更大的價值之后,得以更加直觀地以文字的形式展現(xiàn)出來。
大數(shù)據(jù)是龐大的信息資料,依靠Hadoop中的HDFS的文件分割儲存和Mapreduce的分流式處理對數(shù)據(jù)采集、解析,得到信息中蘊含的更大價值,這為人們作出決斷提供了可參考的信息,因此大數(shù)據(jù)受到高層管理人士和科學研究分析領(lǐng)域人士的重視。大數(shù)據(jù)加快社會的進步與發(fā)展,各行各業(yè)與大數(shù)據(jù)相結(jié)合后發(fā)現(xiàn)了新的機遇,不僅是便利了人們的生活,更是推動了科技的進步。通過大數(shù)據(jù),人們獲得了大量數(shù)據(jù)背后所隱藏的規(guī)律,這樣更能讓人們做出更貼合事物客觀發(fā)展規(guī)律的決定。
[1] 翟永東.Hadoop分布式文件系統(tǒng)(HDFS)可靠性的研究與優(yōu)化[D].華中科技大學,2011.
[2] 李建江,崔健,王聃等.MapReduce并行編程模型研究綜述[J].電子學報,2011,39(11):2635-2642.
[3] 戴明鋒,劉展.大數(shù)據(jù)理解誤區(qū)解讀[J].中國衛(wèi)生信息管理雜志,2015,12(1):61-63.
[4] https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356 941?fr=aladdin.