楊靜
摘 ?要: 大數(shù)據(jù)技術是繼物聯(lián)網(wǎng)、云計算技術之后IT業(yè)界又一次技術浪潮。為了全面深入地理解大數(shù)據(jù)技術的內涵,從大數(shù)據(jù)的定義及4V特征、關鍵技術及主要應用領域等四個方面進行闡述。介紹了大數(shù)據(jù)的基本概念、特征,總結了大數(shù)據(jù)的熱門應用領域并用典型案例進行佐證,重點剖析了云計算、Hadoop、數(shù)據(jù)備份等三大核心技術及關鍵策略,最后對大數(shù)據(jù)應用中滋生的信息安全隱患提出了相應的對策。
關鍵詞: 大數(shù)據(jù); 4V特征; Hadoop; 云計算
中圖分類號:TP391 ? ? ? ? ?文獻標志碼:A ? ? 文章編號:1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand ?big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物聯(lián)網(wǎng)、云計算等新興技術的迅速發(fā)展開啟了大數(shù)據(jù)時代的帷幕。大數(shù)據(jù)技術是指從各種各樣的海量數(shù)據(jù)中,快速獲取有價值信息的技術,大數(shù)據(jù)的核心問題就是大數(shù)據(jù)技術。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模大,還包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)復雜程度大。大數(shù)據(jù)的研發(fā)目的是發(fā)展大數(shù)據(jù)技術并將其應用到相關領域,解決實際生產(chǎn)、生活中的各種問題,從而推動信息技術健康地可持續(xù)發(fā)展。
1 大數(shù)據(jù)的定義及主要特征
與其他新興學科一樣,目前大數(shù)據(jù)沒有一個統(tǒng)一的標準和定義。一般認為:大數(shù)據(jù)是由大量異構數(shù)據(jù)組成的數(shù)據(jù)集合,可以應用合理的數(shù)學算法或工具從中找出有價值的信息,并為人們帶來經(jīng)濟及社會效益的一門新興學科。大數(shù)據(jù)又被稱為海量數(shù)據(jù)、大資料、巨量數(shù)據(jù)等,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無法在合理時間內通過人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數(shù)據(jù)來自方方面面,比如社交網(wǎng)絡、傳感器采集、安防監(jiān)控視頻、購物交易記錄等。盡管尚無統(tǒng)一定義,但這些無比龐大的數(shù)據(jù)被稱為大數(shù)據(jù)。大數(shù)據(jù)具有如下4V特性[1]:
⑴ 體量Volume,是指數(shù)據(jù)存儲量大,計算量大;
⑵ 多樣Variety,是指大數(shù)據(jù)的異構和多樣性,比如數(shù)據(jù)來源豐富,數(shù)據(jù)格式包括多種不同形式,如網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等等;
⑶ 價值Value,是指大數(shù)據(jù)價值密度相對較低,信息海量,但是要挖掘出真正有價值的數(shù)據(jù)難度較大,浪里淘沙卻又彌足珍貴;
⑷ 速度Velocity,是指數(shù)據(jù)增長速度快,處理速度要求快。
2 大數(shù)據(jù)技術的應用領域
通過對海量數(shù)據(jù)進行采集、分析與處理,挖掘出潛藏在數(shù)據(jù)海洋里的稀疏但卻彌足珍貴的信息,大數(shù)據(jù)技術正在對經(jīng)濟建設、醫(yī)療教育、科學研究等領域產(chǎn)生著革命性的影響,其所帶來的巨大使用價值正逐漸被各行各業(yè)的人們所感知。
2.1 金融領域
大數(shù)據(jù)的火熱應用突出體現(xiàn)在金融業(yè),各大互聯(lián)網(wǎng)企業(yè)(谷歌、阿里巴巴等)紛紛掘金大數(shù)據(jù),開創(chuàng)了新的互聯(lián)網(wǎng)金融模式。目前阿里巴巴的互聯(lián)網(wǎng)金融做得如火如荼:基金、小額信貸、余額寶和理財保險產(chǎn)品等等,阿里巴巴之所以能夠做火金融服務,其主要原因就在于阿里的大數(shù)據(jù),阿里巴巴的電商平臺存儲了大量微小企業(yè)客戶及數(shù)以億計的個人用戶行為信息、交易記錄、身份數(shù)據(jù)等,擁有最好、最全的數(shù)據(jù)以及最完整的產(chǎn)業(yè)鏈,做P2P及個人小額信貸,具有最大優(yōu)勢[2]。相反,傳統(tǒng)商業(yè)銀行早期就已推出的小額信貸業(yè)務,開展得并不十分順利。
2.2 市場營銷
今天的數(shù)字化營銷與傳統(tǒng)市場營銷最大的區(qū)別就在于精準定位及個性化。如今企業(yè)與客戶的交流渠道發(fā)生了革命性的變化,從過去的電話及郵件,發(fā)展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點擊、加好友、收藏、轉發(fā)、分享等行為納入到企業(yè)的銷售漏斗中并轉化成一項巨大的潛在價值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費軟件,用戶使用這些軟件時,無形中就把個人的喜好、消費習慣等重要信息提交給了谷歌,因此谷歌的產(chǎn)品線越豐富,他們對用戶的理解就越深入,其廣告定位就越精準,廣告所攫取的價值就越高,這是正向的循環(huán)。
2.3 公眾服務
大數(shù)據(jù)的另一大應用領域是公眾服務。如今數(shù)據(jù)挖掘已經(jīng)能夠預測海嘯、地震、疾病暴發(fā),理解交通模型并改善醫(yī)療和教育等。例如,可采用神經(jīng)網(wǎng)絡和基于地震時間序列的支持向量機方法來預測地震的大概方位、時間、震級大小等重要信息,為通用地震模擬程序提供關鍵的數(shù)據(jù),從而對地震進行早期預警,以使防震抗災部門可以提前做好應對措施,避免大量的人員傷亡及財產(chǎn)損失;再如,將各個省市的城鎮(zhèn)醫(yī)療系統(tǒng)、新農(nóng)村合作醫(yī)療系統(tǒng)等全部整合起來,建立通用的電子病歷等基礎數(shù)據(jù)庫,實現(xiàn)醫(yī)院之間對病患信息的共享,提高患者就醫(yī)效率[3];電力管理系統(tǒng)通過記錄人們的用電行為信息(做飯、照明、取暖等),大數(shù)據(jù)智能電網(wǎng)就能實現(xiàn)優(yōu)化電的生產(chǎn)、分配及電網(wǎng)安全檢測與控制,包括大災難預警與處理、供電與電力調度決策支持和更準確的用電量預測等,并通過數(shù)據(jù)挖掘技術找出可行的節(jié)能降耗措施,以實現(xiàn)更科學的電力需求分配管理。
2.4 安防領域
安防領域中最重要的就是視頻監(jiān)控系統(tǒng),從早期看得見到現(xiàn)在看得遠、看得清,視頻監(jiān)控是典型的數(shù)據(jù)依賴型業(yè)務,依賴數(shù)據(jù)說話。尤其是高清、超高清監(jiān)控時代的到來,會產(chǎn)生巨量的視頻數(shù)據(jù)。這些巨量視頻監(jiān)控數(shù)據(jù)中,多數(shù)是冗余無用的,只有少數(shù)是關鍵數(shù)據(jù),如何剔除這些無用數(shù)據(jù),一直是人們研究問題的焦點。在大數(shù)據(jù)技術的支撐下,通過對巨量視頻數(shù)據(jù)的分析與處理,可實現(xiàn)模糊查詢、精準定位、快速檢索等,能夠對高清監(jiān)控視頻畫質進行細節(jié)分析,智能挖掘出類似行為及特征的數(shù)據(jù),從而為業(yè)務分析和事件決策判斷提供精準依據(jù)。
3 大數(shù)據(jù)處理關鍵技術
3.1 數(shù)據(jù)備份技術
在大數(shù)據(jù)時代,如何做好數(shù)據(jù)的安全備份至關重要。數(shù)據(jù)備份是數(shù)據(jù)容災的前提,具體是指當出現(xiàn)某種突發(fā)狀況導致存儲系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴重損壞時,系統(tǒng)可準確而快速地將數(shù)據(jù)進行恢復的技術。數(shù)據(jù)容災備份是為防止偶發(fā)事件而采取的一種數(shù)據(jù)保護手段,其核心工作是數(shù)據(jù)恢復,根本目的是數(shù)據(jù)資源再利用。
3.2 Hadoop
大數(shù)據(jù)時代對于數(shù)據(jù)分析、管理等都提出了更高層次的要求,傳統(tǒng)的關系型數(shù)據(jù)庫和數(shù)據(jù)分析處理技術已經(jīng)不能滿足大數(shù)據(jù)橫向擴展的需求。為了給大數(shù)據(jù)處理、分析提供一個性能更好、可靠性更高的平臺,Apache基金會開發(fā)了一個開源平臺Hadoop[4],該平臺用Java語言編寫,可移植性強,現(xiàn)在Hadoop已經(jīng)發(fā)展為一個包括HDFS(分布式文件系統(tǒng) )、HBase(分布式數(shù)據(jù)庫)等功能模塊在內的完整生態(tài)系統(tǒng),成為目前主流的大數(shù)據(jù)應用平臺。
3.3 云計算
如果把各種各樣的大數(shù)據(jù)應用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運行的高速公路就是云計算,云計算是大數(shù)據(jù)分析處理技術的核心。正是由于云計算在海量信息存儲、分析及管理方面的技術支持,大數(shù)據(jù)才有了如此廣闊的用武之地。谷歌的各種大數(shù)據(jù)處理技術和應用平臺都是基于云計算,最典型的就是以UFS(UIT云存儲系統(tǒng))、MapReduce(批處理技術)、BigTable(分布式數(shù)據(jù)庫)為代表的大數(shù)據(jù)處理技術以及在此基礎上產(chǎn)生的開源數(shù)據(jù)處理平臺Hadoop[5]。
4 大數(shù)據(jù)應用帶來的信息安全隱患及應對策略
大數(shù)據(jù)時代,海量數(shù)據(jù)通常存儲在大規(guī)模分布式的網(wǎng)絡節(jié)點中,管理相對分散,而且系統(tǒng)也無法控制用戶進行數(shù)據(jù)交易的場所,因此很難辨別用戶的身份(合法及非法用戶),容易導致不合法用戶篡改或竊取信息;此外,大數(shù)據(jù)存儲系統(tǒng)中包含了海量的個人用戶隱私數(shù)據(jù)及各種行為的記錄信息,如何在大數(shù)據(jù)的挖掘利用中確定一個信息保護和開放的尺度, 是大數(shù)據(jù)面臨的又一難題。為了合理利用大數(shù)據(jù)并有效規(guī)避風險,我們提出以下四點建議:
⑴ 國家出臺相關政策,加強頂層設計,保障數(shù)據(jù)存儲安全;
⑵ 增強網(wǎng)絡安全防護能力,抵御網(wǎng)絡犯罪,確保網(wǎng)絡信息安全;
⑶ 提高警惕積極探索,加大個人隱私數(shù)據(jù)保護力度;
⑷ 深化云計算安全領域研究,保障云端數(shù)據(jù)安全。
5 結束語
在當今信息知識爆炸的時代,大數(shù)據(jù)技術已經(jīng)被廣泛應用于商業(yè)金融、電力醫(yī)療、教育科研等領域。隨著數(shù)據(jù)挖掘技術的不斷進步,相關信息行業(yè)競相從規(guī)模龐大、結構復雜的大數(shù)據(jù)海洋中攫取更多有價值的數(shù)據(jù)信息用于分析、解決現(xiàn)實生活中的各種實際問題,從而實現(xiàn)信息技術的快速健康發(fā)展。本文梳理了大數(shù)據(jù)的基本概念及4V特征,總結歸納了大數(shù)據(jù)技術的四大熱門應用領域及三大核心處理技術,分析了大數(shù)據(jù)技術帶來的諸如信息竊取及篡改、個人隱私數(shù)據(jù)泄露等信息安全隱患,并提出了相應的解決措施及建議。當然,目前大數(shù)據(jù)技術的研究尚處在起步階段,還有許多深層次的問題亟待解決,如大數(shù)據(jù)的存儲管理是通過硬件的簡單升級還是通過系統(tǒng)的重新設計來解決,大數(shù)據(jù)4V特征中起關鍵作用的是什么,大數(shù)據(jù)技術的應用前景是什么,等等。就目前來看,未來大數(shù)據(jù)技術的研究之路還很長,需要我們用更加敏銳的洞察力來分析和研究。
參考文獻:
[1] BARWICK H. The "four Vs" of big data. Implementing Information
Infrastructure Symposium[EB/OL]. [2012-10-02]. http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[2] 韋雪瓊,楊嘩,史超.大數(shù)據(jù)發(fā)展下的金融市場新生態(tài)[Jl.時代金融,
2012.7:173-174
[3] 張敬誼,佘盼,肖筱華.基于云計算的區(qū)域醫(yī)療信息化服務平臺的研
究[J].計算機科學,2013.40(10):360-365
[4] Hadoop [EB/OL].[2012-10-02].http://hadoop.apache.orq.
[5] 吳朱華.云計算核心技術剖析[M].人民郵電出版社,2011.