李張帆 黃澤寅 胡志洪
越來(lái)越多的應(yīng)用涉及到大數(shù)據(jù)?;ヂ?lián)網(wǎng)大發(fā)展,特別是社交網(wǎng)絡(luò)的出現(xiàn),推動(dòng)了大數(shù)據(jù)時(shí)代的到來(lái)。大數(shù)據(jù)作為時(shí)下最熱門的IT行業(yè)詞匯之一,隨之而來(lái)的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)據(jù)的商業(yè)價(jià)值的利用逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn)。本文介紹了大數(shù)據(jù)、大數(shù)據(jù)分析與處理,并展望了大數(shù)據(jù)的發(fā)展前景。
一、大數(shù)據(jù)簡(jiǎn)介
大數(shù)據(jù)是一個(gè)體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。大數(shù)據(jù)需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。大數(shù)據(jù)具有大量(Volume)、高速(Velocity)、多樣(Variety)、價(jià)值(Value)等四大特點(diǎn)。
(一)大量:存儲(chǔ)量和計(jì)算量從TB級(jí)別,躍升到PB級(jí)別。
(二)多樣:數(shù)據(jù)來(lái)源多,數(shù)據(jù)格式多。包括網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。
(三)高速:數(shù)據(jù)增長(zhǎng)速度快,處理速度要求快,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。
(四)價(jià)值:以視頻為例,連續(xù)不間斷的過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但這短暫的幾秒信息卻可能是我們最需要的。
二、大數(shù)據(jù)分析
大數(shù)據(jù)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。只有通過(guò)數(shù)據(jù)分析才能獲取很多智能的、深入的、有價(jià)值的信息。大數(shù)據(jù)分析包括五個(gè)基本方面:
(一)可視化分析
不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。可視化可以直觀的展示數(shù)據(jù),能夠非常容易被用戶所接受。
(二)數(shù)據(jù)挖掘算法
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,集群、分割、孤立點(diǎn)分析還有其他的算法能深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。數(shù)據(jù)挖掘算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
(三)預(yù)測(cè)性分析能力
預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。預(yù)測(cè)性分析從大數(shù)據(jù)中挖掘出特點(diǎn),通過(guò)科學(xué)建模,模型帶入新的數(shù)據(jù),從而預(yù)測(cè)未來(lái)的數(shù)據(jù)。
(四)語(yǔ)義引擎
由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn),需要一系列的工具去解析、提取、分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。
(五)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
通過(guò)標(biāo)準(zhǔn)化的流程和工具,采集高質(zhì)量的數(shù)據(jù)并進(jìn)行有效的數(shù)據(jù)管理,可以保證高質(zhì)量的分析結(jié)果。
三、大數(shù)據(jù)處理
具體的大數(shù)據(jù)處理方法有很多,但是基本處理流程可以分為四個(gè)步驟,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,以及挖掘。
(一)采集
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)進(jìn)行簡(jiǎn)單的查詢和處理工作。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)和NoSQL數(shù)據(jù)庫(kù)常用于數(shù)據(jù)的采集。采集的主要特點(diǎn)是并發(fā)數(shù)高,所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片是需要深入的思考和設(shè)計(jì)的。
(二)導(dǎo)入和預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。導(dǎo)入與預(yù)處理過(guò)程的主要特點(diǎn)是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。
(三)統(tǒng)計(jì)和分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以此滿足大多數(shù)常見(jiàn)的分析需求。一些實(shí)時(shí)性分析會(huì)用到InfoBright和Oracle Exadata等產(chǎn)品,而一些批處理或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析的主要特點(diǎn)是分析涉及的數(shù)據(jù)量大,查詢涉及的數(shù)據(jù)量大,查詢請(qǐng)求多,對(duì)系統(tǒng)資源會(huì)有極大的占用。
(四)挖掘
數(shù)據(jù)挖掘一般沒(méi)有預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)的效果,實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較經(jīng)典的算法有用于聚類的K-Means,用于統(tǒng)計(jì)的支持向量機(jī)SVM,和用于分類的NaiveBayes。挖掘過(guò)程的主要特點(diǎn)是用于挖掘的算法復(fù)雜、并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大。
四、大數(shù)據(jù)發(fā)展前景
大數(shù)據(jù)在政府公共服務(wù)、醫(yī)療服務(wù)、零售業(yè)、制造業(yè)、以及涉及個(gè)人位置服務(wù)等領(lǐng)域都將帶來(lái)可觀的價(jià)值。大數(shù)據(jù)正在改變著產(chǎn)品和生產(chǎn)過(guò)程、企業(yè)和產(chǎn)業(yè),甚至競(jìng)爭(zhēng)本身的性質(zhì)。把信息技術(shù)看作是輔助或服務(wù)性的工具已經(jīng)成為過(guò)時(shí)的觀念,管理者應(yīng)該認(rèn)識(shí)到信息技術(shù)的廣泛影響和深刻含義,以及怎樣利用信息技術(shù)來(lái)創(chuàng)造有力而持久的競(jìng)爭(zhēng)優(yōu)勢(shì)。大數(shù)據(jù)將促進(jìn)傳統(tǒng)企業(yè)與互聯(lián)網(wǎng)的融合,對(duì)大數(shù)據(jù)進(jìn)行精準(zhǔn)化分析和挖掘,是大勢(shì)所趨。
雖然大數(shù)據(jù)在國(guó)內(nèi)還處于初級(jí)階段,但是商業(yè)價(jià)值已經(jīng)顯現(xiàn)出來(lái)。首先,基于數(shù)據(jù)交易即可產(chǎn)生很好的效益;其次,基于數(shù)據(jù)挖掘會(huì)有很多商業(yè)模式誕生。未來(lái),數(shù)據(jù)可能成為最大的交易商品。但數(shù)據(jù)量大并不能算是大數(shù)據(jù),大數(shù)據(jù)的特征是數(shù)據(jù)量大、數(shù)據(jù)種類多、非標(biāo)準(zhǔn)化數(shù)據(jù)的價(jià)值最大化。因此,大數(shù)據(jù)的價(jià)值是通過(guò)數(shù)據(jù)共享、交叉復(fù)用后獲取最大的數(shù)據(jù)價(jià)值。未來(lái)大數(shù)據(jù)將會(huì)如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)交叉復(fù)用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。