朱華巍 徐嵐 中國(guó)電子科技集團(tuán)公司第二十八研究所
大數(shù)據(jù)分析是目前十分熱門的技術(shù),為了保證大數(shù)據(jù)分析平臺(tái)的性能,就需要選擇合適的架構(gòu)。因此,需要對(duì)大數(shù)據(jù)分析平臺(tái)架構(gòu)的特點(diǎn)進(jìn)行了解,研究不同方面的需要。
大數(shù)據(jù)的數(shù)據(jù)機(jī)構(gòu)復(fù)雜,并且數(shù)據(jù)量很大、數(shù)據(jù)價(jià)值密度很低,同時(shí)大數(shù)據(jù)的產(chǎn)生速度很快,這些特點(diǎn)導(dǎo)致大數(shù)據(jù)分析存在一定的難度。
大數(shù)據(jù)分析是對(duì)數(shù)據(jù)進(jìn)行分析的科學(xué)和技術(shù),大數(shù)據(jù)分析的中心思想在于通過(guò)有效的措施來(lái)對(duì)大量數(shù)據(jù)的信息和價(jià)值進(jìn)行挖掘。因此,大數(shù)據(jù)的核心在于能夠?qū)焖僭鲩L(zhǎng)、類型眾多、內(nèi)容真實(shí)度很高的數(shù)據(jù)進(jìn)行分析,并且從其中挖掘信息。目前大數(shù)據(jù)的分析有兩個(gè)方面的內(nèi)容,包括機(jī)器學(xué)習(xí)和文本分析,在大數(shù)據(jù)分析的過(guò)程中,會(huì)對(duì)數(shù)據(jù)進(jìn)行采集和儲(chǔ)存工作,同時(shí)也會(huì)刪除沒(méi)有價(jià)值的信息。根據(jù)大數(shù)據(jù)的分析模型,可以建立專門的大數(shù)據(jù)分析平臺(tái),滿足人們對(duì)數(shù)據(jù)的分析需求。
人類進(jìn)入信息化社會(huì)以后,數(shù)據(jù)密集型科學(xué)開(kāi)始快速的發(fā)展,所以大數(shù)據(jù)分析已經(jīng)和很多與數(shù)據(jù)相關(guān)的技術(shù)有著緊密的聯(lián)系,必須云計(jì)算技術(shù)和情報(bào)分析。
云計(jì)算技術(shù)是一種計(jì)算機(jī)的共享模式,基于互聯(lián)網(wǎng),讓用戶能夠使用云端計(jì)算機(jī),享受云端計(jì)算機(jī)的優(yōu)越性能。具有快捷方便、隨時(shí)隨地的特點(diǎn)。很多大數(shù)據(jù)計(jì)算都會(huì)借助云端計(jì)算機(jī)來(lái)完成,作為大數(shù)據(jù)分析的載體,可以對(duì)數(shù)據(jù)進(jìn)行分析、篩選和儲(chǔ)存。
情報(bào)分析也可以成為情報(bào)研究,根據(jù)用戶的需求來(lái)對(duì)大量的信息進(jìn)行縫隙,從而形成更高級(jí)的信息。目前情報(bào)分析以軟件技術(shù)和信息技術(shù)作為支撐,對(duì)社會(huì)信息進(jìn)行選擇和評(píng)價(jià),然后根據(jù)特定的模型進(jìn)行加工,最后形成有價(jià)值的產(chǎn)品。這些數(shù)據(jù)產(chǎn)品能夠給企業(yè)的決策者提供一定的支持,幫助企業(yè)提升他們的競(jìng)爭(zhēng)力。
隨著數(shù)據(jù)科學(xué)的快速發(fā)展,大數(shù)據(jù)分析成為了一項(xiàng)關(guān)鍵的技術(shù),由于社會(huì)對(duì)于大數(shù)據(jù)分析的需求,大數(shù)據(jù)分析服務(wù)業(yè)行業(yè)也有了很多商機(jī)。通過(guò)分析服務(wù)能夠滿足商業(yè)領(lǐng)域中的需要,很多企業(yè)也通過(guò)大數(shù)據(jù)分析服務(wù)來(lái)提升他們的商業(yè)水平,所以目前信息分析或者大數(shù)據(jù)分析服務(wù)已經(jīng)有了完整的服務(wù)內(nèi)容。
大數(shù)據(jù)分析當(dāng)中最關(guān)鍵的就是進(jìn)行大數(shù)據(jù)分析方法的研究,使用合理的分析方法才能夠保證分析結(jié)果的有效,并且保證分析結(jié)果的精度。大數(shù)據(jù)對(duì)不同類型數(shù)據(jù)處理方法也有很大不同,所以也需要針對(duì)數(shù)據(jù)的類型尋找針對(duì)性的算法。目前很多大數(shù)據(jù)的關(guān)注重點(diǎn)在于社會(huì)媒體的大數(shù)據(jù),以及針對(duì)大數(shù)據(jù)的分析結(jié)果進(jìn)行可視化,或者對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化集成。對(duì)社會(huì)媒體的分析有一些專門的挖掘方法,有些專家也研究了全新的社會(huì)媒體分析方法,從而深入到媒體網(wǎng)站上進(jìn)行細(xì)節(jié)的數(shù)據(jù)討論,提升網(wǎng)站的決策水平。根據(jù)大數(shù)據(jù)的分析構(gòu)成,大數(shù)據(jù)也和傳感技術(shù)、復(fù)雜結(jié)構(gòu)處理技術(shù)、大數(shù)據(jù)平臺(tái)規(guī)范、虛擬化接入當(dāng)不同的技術(shù)有著非常重要的聯(lián)系。但是目前,大數(shù)據(jù)分析依然不能完全滿足人們的要求,還需要繼續(xù)加強(qiáng)投入和研究。
隨著信息化社會(huì)的發(fā)展,大數(shù)據(jù)分析已經(jīng)成為驅(qū)動(dòng)社會(huì)發(fā)展的重要?jiǎng)恿?,讓很多學(xué)者和專家提高了對(duì)大數(shù)據(jù)研究的重視程度。學(xué)者為此對(duì)大數(shù)據(jù)的處理和進(jìn)行了總結(jié),研制了大數(shù)據(jù)的工具,一些專家也專門提出了能夠?qū)?shù)據(jù)模型進(jìn)行修正和擴(kuò)展的工具。目前,大數(shù)據(jù)驅(qū)動(dòng)已經(jīng)在很多的領(lǐng)域得到了應(yīng)用,比如生物領(lǐng)域和醫(yī)藥學(xué)領(lǐng)域,依靠大數(shù)據(jù)驅(qū)動(dòng),可以讓藥物的定制性提升,使藥物的開(kāi)發(fā)更加合理。
Spark是Apache 的開(kāi)源項(xiàng)目,該平臺(tái)由加州大學(xué)伯克利分校開(kāi)發(fā),是一個(gè)分布式的計(jì)算機(jī)系統(tǒng)。Spark 在Hadoop 的基礎(chǔ)上進(jìn)行了架構(gòu)上的改良,尤其是儲(chǔ)存方式上有很大的不同。Spark 使用內(nèi)存來(lái)進(jìn)行數(shù)據(jù)的儲(chǔ)存,而Hadoop 用硬盤來(lái)進(jìn)行數(shù)據(jù)儲(chǔ)存。這就讓Spark 的運(yùn)算速度比Hadoop 快很多,達(dá)到了Hadoop 的一百倍左右,但是內(nèi)存長(zhǎng)期儲(chǔ)存數(shù)據(jù)可能會(huì)出現(xiàn)數(shù)據(jù)丟失的問(wèn)題,這也導(dǎo)致Spark 缺少長(zhǎng)期保存數(shù)據(jù)的能力。
Hadoop 是一種分布式系統(tǒng),由雅虎工程師在2005 年合作開(kāi)發(fā),之后Hadoop 被貢獻(xiàn)給Apache 基金會(huì),作為Apache 基金會(huì)的開(kāi)源項(xiàng)目。Hadoop 中使用了MapReduce 分布式框架,在GFS 協(xié)議的基礎(chǔ)上開(kāi)發(fā)了HDFS 分布式文件系統(tǒng)。谷歌目前在內(nèi)部使用的分布式計(jì)算機(jī)和Hadoop 原理相同,但是Hadoop 并沒(méi)有達(dá)到谷歌內(nèi)部計(jì)算機(jī)的速度。目前,由于Hadoop 的開(kāi)源特性,使得它成為了一種通用的分布式計(jì)算機(jī)標(biāo)準(zhǔn),包括雅虎、亞馬遜、百度、阿里的平臺(tái)都是用的Hadoop 搭建。
Storm 是推特推行的一種計(jì)算機(jī)系統(tǒng),也是Apache 基金會(huì)孵化的項(xiàng)目。在Hadoop 的基礎(chǔ)上,Storm 有更強(qiáng)的實(shí)時(shí)運(yùn)算特性,讓Storm 能夠?qū)Υ髷?shù)據(jù)流進(jìn)行實(shí)時(shí)處理。Storm 并不進(jìn)行數(shù)據(jù)收集和儲(chǔ)存工作,只是通過(guò)網(wǎng)絡(luò)來(lái)接收數(shù)據(jù),并且進(jìn)行實(shí)時(shí)計(jì)算,將計(jì)算結(jié)果反饋。
Samza 是LinkedIn 的開(kāi)源技術(shù),目前也成為了Apache 的頂級(jí)項(xiàng)目。Samza 也是一個(gè)分布式的框架,能夠進(jìn)行數(shù)據(jù)的實(shí)施實(shí)時(shí)處理,并不進(jìn)行數(shù)據(jù)的收集和儲(chǔ)存工作。和Storm 不同,Samza 所使用的分布式消息系統(tǒng)是LinkedIn 的Kafka。Samza 十分適合用于進(jìn)行數(shù)據(jù)流的處理,在數(shù)據(jù)跟蹤、日志服務(wù)上有極好的表現(xiàn),可以進(jìn)行信息的快速處理,并且容錯(cuò)性很強(qiáng)。
通過(guò)大數(shù)據(jù)分析,電腦能夠?qū)C(jī)器設(shè)備進(jìn)更加智能的控制。比如自動(dòng)駕駛的轎車,通過(guò)對(duì)大數(shù)據(jù)分析可以對(duì)車輛的控制做好優(yōu)化工作。結(jié)合GPS 系統(tǒng)、傳感器、相機(jī),車輛將會(huì)更好地進(jìn)行數(shù)據(jù)的處理工作,并且不需要人來(lái)干預(yù)。在電網(wǎng)中的智能電網(wǎng)技術(shù),也依賴于大數(shù)據(jù)分析,能夠?qū)﹄娋W(wǎng)進(jìn)行優(yōu)化,保證電網(wǎng)能夠穩(wěn)定的運(yùn)行。
社會(huì)計(jì)算包括生產(chǎn)、社交、娛樂(lè)當(dāng)方面的應(yīng)用,也包括社會(huì)科學(xué)、社會(huì)網(wǎng)絡(luò)分析、計(jì)算機(jī)社會(huì)科學(xué)等等,利用這些科學(xué)理論進(jìn)行分析,能夠了解社會(huì)信息。利用大數(shù)據(jù)平臺(tái),進(jìn)行分布式計(jì)算、應(yīng)用數(shù)據(jù)庫(kù)等等,通過(guò)對(duì)移動(dòng)端產(chǎn)生的數(shù)據(jù)進(jìn)行分析,來(lái)了解社會(huì)信息。
通過(guò)大數(shù)據(jù)平臺(tái),可以構(gòu)建系統(tǒng)化、綜合化的信息資源保障系統(tǒng)和管理體系,比如根據(jù)某一個(gè)主題或者某一個(gè)產(chǎn)業(yè)來(lái)建設(shè)信息資源保障。目前,醫(yī)學(xué)的信息資源保障系統(tǒng)就已經(jīng)建立,幫助醫(yī)生、醫(yī)學(xué)研究人員進(jìn)行信息分析。針對(duì)情報(bào)機(jī)構(gòu)而言,信息資源難保障體系能夠讓信息得到充分的集成,推動(dòng)不同種類的信息得到整合。
由于數(shù)據(jù)是廣泛存在的,如果數(shù)據(jù)散布在不同的數(shù)據(jù)管理系統(tǒng)中,就很難進(jìn)行數(shù)據(jù)的集成。通過(guò)大數(shù)據(jù)分析平臺(tái),能夠?qū)⑿畔⑦M(jìn)行集中化,并且將信息作為一個(gè)完整的事件看待,從而進(jìn)行是事前、事中、事后的分析。
大數(shù)據(jù)分析技術(shù)對(duì)于很多方面都有應(yīng)用,通過(guò)對(duì)數(shù)據(jù)的分析,能夠提升行業(yè)的水平和提升企業(yè)的競(jìng)爭(zhēng)力。為此,在大數(shù)據(jù)分析平臺(tái)的建設(shè)上需要從實(shí)際需求出發(fā),加強(qiáng)大數(shù)據(jù)平臺(tái)集成度和通用性,選擇合適的架構(gòu),保證平臺(tái)的性能。