國 志,劉 暢,曾昱祺
(國家無線電監(jiān)測中心,北京 100037)
主流大數(shù)據(jù)技術(shù)淺談
國 志,劉 暢,曾昱祺
(國家無線電監(jiān)測中心,北京 100037)
在全球化、信息化和市場化的今天,數(shù)據(jù)可以帶給我們的價值不言而喻。隨著智能社會的到來,大數(shù)據(jù)的沖擊,我們這代人正迎接著嶄新的機遇。本文在總結(jié)大數(shù)據(jù)時代新變革的基礎(chǔ)上,對當今主流大數(shù)據(jù)技術(shù)進行了列舉和介紹。在這樣一個需要高瞻遠矚的大變革時代,只有掌握最新的技術(shù),才能在這輪技術(shù)浪潮中站穩(wěn)腳跟,脫穎而出。
大數(shù)據(jù);Hadoop;Storm;Apache Drill
Keyords:Big Data; Hadoop; Storm; Apache Drill
大數(shù)據(jù)是現(xiàn)代信息技術(shù)的重要發(fā)展方向之一,實現(xiàn)大數(shù)據(jù)的共享和分析將帶來不可估量的經(jīng)濟價值,同時也對社會產(chǎn)生巨大的推動作用。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番。IBM的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達到今天的44倍。大數(shù)據(jù)在現(xiàn)代社會和經(jīng)濟活動中發(fā)揮著極其重要的作用,有效利用大數(shù)據(jù)會產(chǎn)生不可估量的價值。
(1)全體數(shù)據(jù)替代隨機樣本。在過去很長的時間之內(nèi),由于數(shù)據(jù)儲存和分析能力的缺陷,人們無法準確地對大量數(shù)據(jù)進行處理,只能通過采樣的手段用最少的數(shù)據(jù)得到最多的信息,但這只是在不能收集和分析全部數(shù)據(jù)時的折中做法,本身存在很多缺陷。近些年,隨著云計算的產(chǎn)生和興起,大數(shù)據(jù)的處理迎來了一次巨大的飛躍。通過云計算可以處理的數(shù)據(jù)大大增加,用全體數(shù)據(jù)替代隨機樣本逐漸成為可能。
(2)混雜性替代精確性。過去,由于被采樣的數(shù)據(jù)樣本偏小,則對數(shù)據(jù)分析就要求精準,盡可能地減少錯誤,因為收集的有限性意味著微小的錯誤會被放大,甚至影響整個結(jié)果的準確性。而對于“大數(shù)據(jù)”,單個結(jié)果的精確就顯得不那么重要了。與其浪費計算在提高數(shù)據(jù)的精度上,不如用來處理更大量的數(shù)據(jù)。這樣,我們就不需要過于擔心某個數(shù)據(jù)對整套分析產(chǎn)生的不利影響,而是從這些紛繁復雜的數(shù)據(jù)中收益。相比小數(shù)據(jù)時代的精確,大數(shù)據(jù)更強調(diào)數(shù)據(jù)的完整性和混雜性。
(3)“是什么”代替“為什么”。我們網(wǎng)購時,每當買到一件心儀的物品以后,系統(tǒng)會向你推薦一些其他商品。事實證明,這個推薦比較準確。而為什么兩樣不相關(guān)的東西會產(chǎn)生關(guān)聯(lián)?誰也不知道,但事實就是這樣。對商家來說,是什么比為什么更實惠。當然,其中有些很可能只是巧合,但基于大量數(shù)據(jù)時就能篩選掉大多數(shù)巧合。而隨著計算能力和可用數(shù)據(jù)的增加,簡單的線性關(guān)系向著更復雜的非線性關(guān)系轉(zhuǎn)變,給人們帶來更加豐富的結(jié)論和新的認識。
在大數(shù)據(jù)時代,對大數(shù)據(jù)進行統(tǒng)一表示,實現(xiàn)大數(shù)據(jù)處理、查詢、分析和可視化是亟需解決的關(guān)鍵問題?;ヂ?lián)網(wǎng)點擊數(shù)據(jù)、傳感數(shù)據(jù)、日志文件、具有豐富地理空間信息的移動數(shù)據(jù)和涉及網(wǎng)絡(luò)的各類評論,成為了海量信息的多種形式。海量的電子政務(wù)數(shù)據(jù)、移動終端數(shù)據(jù)、網(wǎng)站日志、社交媒體數(shù)據(jù)、來自物聯(lián)網(wǎng)傳感器的流式數(shù)據(jù)、企業(yè)長期積累的業(yè)務(wù)數(shù)據(jù)等也都是大數(shù)據(jù)的主要來源。現(xiàn)有面向大數(shù)據(jù)的研究主要針對存儲、處理、分析、可視化等某一方面的關(guān)鍵技術(shù)。本文搜羅了如下當今主流大的數(shù)據(jù)技術(shù)。
3.1 Hadoop
Hadoop是目前大數(shù)據(jù)平臺中應(yīng)用率最高的技術(shù),特別是針對諸如文本、社交媒體以及視頻等非結(jié)構(gòu)化數(shù)據(jù)。Hadoop可以部署在價格低廉的服務(wù)器上,形成分布式系統(tǒng),它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。
Hadoop的核心是HDFS和MapReduce。HDFS具有高容錯性和高擴展性等優(yōu)點。MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細節(jié)的情況下開發(fā)并行應(yīng)用程序。因此,通過Hadoop可以輕松地組織計算機資源,搭建自己的分布式計算平臺,完成海量數(shù)據(jù)的處理。相對當前應(yīng)用較多的SQL關(guān)系型數(shù)據(jù)庫,HDFS提供了一種通用的數(shù)據(jù)處理技術(shù),它用大量低端服務(wù)器代替大型單機服務(wù)器,用鍵值對代替關(guān)系表,用函數(shù)式編程代替聲明式查詢,用離線批量處理代替在線處理,以高容錯的方式并行處理大量的數(shù)據(jù)集。
Hadoop目前已廣泛應(yīng)用于Web搜索、廣告系統(tǒng)、數(shù)據(jù)分析和機器學習等領(lǐng)域。Hadoop作為網(wǎng)絡(luò)公司的重要工具,包括Yahoo,F(xiàn)acebook都利用它處理不斷增長的非結(jié)構(gòu)化數(shù)據(jù)。
3.2 Storm
隨著大數(shù)據(jù)業(yè)務(wù)的快速增長,針對大規(guī)模數(shù)據(jù)處理的實時計算變成了一種業(yè)務(wù)上的需求,缺少“實時的Hadoop系統(tǒng)”已經(jīng)成為整個大數(shù)據(jù)生態(tài)系統(tǒng)中的一個巨大缺失。Storm正是在這樣的需求背景下出現(xiàn)的,并很好地滿足了這一需求。
Storm是一個自由的開源、分布式的實時計算系統(tǒng),它可以快速可靠地處理龐大的數(shù)據(jù)流。Storm很簡單,支持許多種編程語言,使用靈活,它為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數(shù)據(jù)庫。Storm也可被用于“連續(xù)計算”,對數(shù)據(jù)流做連續(xù)查詢,在計算時就將結(jié)果以流的形式輸出給用戶,它可以方便地在一個計算機集群中編寫與擴展復雜的實時計算。Storm處理速度很快,在一個小集群中,每秒可以處理數(shù)以百萬計的消息。
許多知名的企業(yè)諸如淘寶、支付寶、阿里巴巴、Groupon、樂元素、Admaster等都基于它做開發(fā)。
3.3 Apache Drill
為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會發(fā)起了一項名為“Drill”的開源項目。Drill已經(jīng)作為Apache孵化器項目來運作,將面向全球軟件工程師持續(xù)推廣。該項目將會創(chuàng)建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop數(shù)據(jù)分析工具的互聯(lián)網(wǎng)應(yīng)用提速),而Drill將有助于Hadoop用戶實現(xiàn)更快查詢海量數(shù)據(jù)集的目的。
Drill項目其實也是從谷歌的Dremel項目中獲得靈感,該項目幫助谷歌實現(xiàn)海量數(shù)據(jù)集的分析處理,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應(yīng)用程序數(shù)據(jù)、分析垃圾郵件、分析谷歌分布式構(gòu)建系統(tǒng)上的測試結(jié)果等。通過開發(fā)DrillApache開源項目,組織機構(gòu)將有望建立Drill所屬的API接口和靈活強大的體系架構(gòu),從而幫助支持廣泛的數(shù)據(jù)源、數(shù)據(jù)格式和查詢語言。
3.4 IBM PureData System
IBM PureData System是PureSystems系列的成員,它將系統(tǒng)的靈活性、云的彈性和針對工作負載進行調(diào)優(yōu)的設(shè)備的簡易性進行結(jié)合,從根本上改變了IT的體驗和經(jīng)濟效益。IBM PureData System主要面向大數(shù)據(jù)應(yīng)用,幫助企業(yè)更加高效地管理、分析海量數(shù)據(jù),并從中獲取業(yè)務(wù)洞察。它以保證簡單性、速度和低成本為前提,向當今高要求的應(yīng)用程序交付數(shù)據(jù)服務(wù)而進行了優(yōu)化。
據(jù)IBM公布的數(shù)據(jù)顯示,目前已有60多家獨立軟件供應(yīng)商表示將全力支持PureData。包括DynaFront系統(tǒng)和PCCW電訊盈科在內(nèi)的多個合作伙伴,已經(jīng)在其數(shù)據(jù)中心內(nèi)部安裝了PureSystems。中國市場的合作伙伴方面,文思海輝技術(shù)有限公司已經(jīng)推出了基于PureData System的金融行業(yè)解決方案。
3.5 GFS MapReduceBigTable
谷歌的GFS MapReduceBigTable平臺是以云服務(wù)為主打的新一代搜索引擎,專為BigTable設(shè)計的分布式存儲Colossus,也被稱為二代Google文件系統(tǒng),它專為建立Caffeine搜索索引系統(tǒng)而用?;贑olossus,谷歌為用戶提供了可以計算、存儲以及應(yīng)用的云服務(wù)。為了更好地支持大數(shù)據(jù)集的互動分析,Google推出了Dremel和PowerDrill。Dremel被設(shè)計用來管理海量的大數(shù)據(jù)集(指數(shù)據(jù)集的數(shù)量和每數(shù)據(jù)集的規(guī)模都大),而PowerDrill則設(shè)計用來分析少量的大數(shù)據(jù)集(指數(shù)據(jù)集的規(guī)模大,但數(shù)據(jù)集的數(shù)量不多)時提供更強大的分析性能。在谷歌新一代搜索引擎平臺上,每月40億小時的視頻,4.25億Gmail用戶,150,000,000GB Web索引,卻能實現(xiàn)0.25秒搜索出結(jié)果。
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)和應(yīng)用的興起,全球范圍內(nèi)數(shù)據(jù)量迅猛增長,大數(shù)據(jù)時代已經(jīng)來臨。如今,越來越多的應(yīng)用涉及到大數(shù)據(jù),于是不斷涌現(xiàn)的大數(shù)據(jù)新技術(shù)就顯得尤為重要。大數(shù)據(jù)正在影響著人們的生活方式、生產(chǎn)方式、國際競爭乃至整個時代。如能敏銳的發(fā)掘并利用好大數(shù)據(jù)新技術(shù),搶占現(xiàn)機,必將從大數(shù)據(jù)時代的發(fā)展中獲益匪淺。人類正在從工業(yè)文明邁入信息文明,隨著大數(shù)據(jù)的沖擊,智能社會的到來,我們這代人迎接著嶄新的機遇。在大數(shù)據(jù)技術(shù)已經(jīng)逐漸發(fā)展并趨于成熟的今天,如何整合資源,掌握先進技術(shù),在全球競爭中發(fā)揮后發(fā)優(yōu)勢,在這輪技術(shù)浪潮中站穩(wěn)腳跟,脫穎而出,我們期待著中國的騰飛。
Brief Introduction ofModernBig Data Technology of Radio Monitoring Data
Guo Zhi, Liu Chang, Zeng Yuqi
(State Radio Monitoring Center, Beijing, 100037, China)
Today, the world is being globalization, informatization and marketization. Data can bring us great value.With the arrival of the intelligent society and the impact of the large data, our generation is to meet the new opportunities. This paper summarizes the new changes of the Big Data era and introduced some of the modern Big Data technology. In such an era of the great change, only grasp the latest technology can help us gain a foothold in this technology wave and stand out.
10.3969/J.ISSN.1672-7274.2015.07.017
TN919文獻標示碼:B
1672-7274(2015)07-0066-03
國 志,男,1987年生,碩士,國家無線電監(jiān)測中心助理工程師,主要從事專利申請、科技獎申報、招投標等方面的工作。
劉 暢,女,1987年生,碩士,國家無線電監(jiān)測中心助理工程師,主要研究方向為衛(wèi)星頻率和軌道資源情況、衛(wèi)星網(wǎng)絡(luò)間的國際協(xié)調(diào)。
曾昱祺,男,1987年生,碩士,國家無線電監(jiān)測中心助理工程師,主要研究方向為衛(wèi)星產(chǎn)業(yè)情況。