許文杰
摘 要:介紹了大數(shù)據(jù)基本概念、特點(diǎn)和常用技術(shù)架構(gòu)HADOOP,并探討了大數(shù)據(jù)技術(shù)在電信業(yè)中的應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù);HADOOP;分布式文件系統(tǒng)(HDFS);可擴(kuò)展存儲(chǔ)系統(tǒng)
1 大數(shù)據(jù)
“大數(shù)據(jù)”就是從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。
1.1 大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)。⑴Variety,大數(shù)據(jù)種類繁多,在編碼方式、數(shù)據(jù)格式、應(yīng)用特征等多個(gè)方面存在差異性,多信息源并發(fā)形成大量的異構(gòu)數(shù)據(jù);⑵Volume,通過各種設(shè)備產(chǎn)生的海量數(shù)據(jù),其數(shù)據(jù)規(guī)模極為龐大,遠(yuǎn)大于目前互聯(lián)網(wǎng)上的信息流量,PB級(jí)別將是常態(tài);⑶Velocity,涉及到感知、傳輸、決策、控制開放式循環(huán)的大數(shù)據(jù),對(duì)數(shù)據(jù)實(shí)時(shí)處理有著極高的要求,通過傳統(tǒng)數(shù)據(jù)庫(kù)查詢方式得到的“當(dāng)前結(jié)果”很可能已經(jīng)沒有價(jià)值;⑷Vitality,數(shù)據(jù)持續(xù)到達(dá),并且只有在特定時(shí)間和空間中才有意義;⑸Complexity,通過數(shù)據(jù)庫(kù)處理持久存儲(chǔ)的數(shù)據(jù)不再適用于大數(shù)據(jù)處理,需要有新的方法來滿足異構(gòu)數(shù)據(jù)統(tǒng)一接入和實(shí)時(shí)數(shù)據(jù)處理的需求。
1.2 大數(shù)據(jù)的常用技術(shù)架構(gòu)--HADOOP
Hadoop有許多元素構(gòu)成。其最底部是Hadoop Distributed File System,即HDFS,它存儲(chǔ)Hadoop集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件。HDFS的上一層是MapReduce引擎,該引擎由JobTrackers 和TaskTrackers組成。
對(duì)外部客戶機(jī)而言,HDFS就像一個(gè)傳統(tǒng)的分級(jí)文件系統(tǒng)。可以創(chuàng)建、刪除、移動(dòng)或重命名文件,等等。但是HDFS的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的,這些節(jié)點(diǎn)包括NameNode(僅一個(gè)),它在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode,它為HDFS提供存儲(chǔ)塊。由于僅存在一個(gè)NameNode,因此這是HDFS的一個(gè)缺點(diǎn)。
存儲(chǔ)在HDFS中的文件被分成塊,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大?。ㄍǔ?4MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode 可以控制所有文件操作。
但HDFS并不是一個(gè)萬能的文件系統(tǒng)。它的主要目的是支持以流的形式訪問寫入的大型文件。如果客戶機(jī)想將文件寫到HDFS上,首先需要將該文件緩存到本地的臨時(shí)存儲(chǔ)。如果緩存的數(shù)據(jù)大于所需的HDFS塊大小,創(chuàng)建文件的請(qǐng)求將發(fā)送給NameNode。NameNode將以DataNode標(biāo)識(shí)和目標(biāo)塊響應(yīng)客戶機(jī)。同時(shí)也通知將要保存文件塊副本的DataNode。當(dāng)客戶機(jī)開始將臨時(shí)文件發(fā)送給第一個(gè)DataNode時(shí),將立即通過管道方式將塊內(nèi)容轉(zhuǎn)發(fā)給副本DataNode??蛻魴C(jī)也負(fù)責(zé)創(chuàng)建保存在相同 HDFS名稱空間中的校驗(yàn)和文件。在最后的文件塊發(fā)送之后,NameNode將文件創(chuàng)建提交到它的持久化元數(shù)據(jù)存儲(chǔ)。
Hadoop框架可在單一的Linux平臺(tái)上使用,但是使用存放在機(jī)架上的商業(yè)服務(wù)器才能發(fā)揮它的力量。這些機(jī)架組成一個(gè) Hadoop集群。它通過集群拓?fù)渲R(shí)決定如何在整個(gè)集群中分配作業(yè)和文件。Hadoop假定節(jié)點(diǎn)可能失敗,因此采用本機(jī)方法處理單個(gè)計(jì)算機(jī)甚至所有機(jī)架的失敗。
2 大數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別與聯(lián)系
二者的聯(lián)系:大數(shù)據(jù)的出現(xiàn),是對(duì)數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充和完善。大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)相比,在海量數(shù)據(jù)存儲(chǔ),海量數(shù)據(jù)實(shí)時(shí)處理,異構(gòu)化數(shù)據(jù)的存儲(chǔ)和處理等方面具備顯著的優(yōu)勢(shì);但傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在數(shù)據(jù)展現(xiàn),數(shù)據(jù)分析等領(lǐng)域依然有著不可替代的地位。因此,大數(shù)據(jù)必然是和數(shù)據(jù)倉(cāng)庫(kù)相輔相成的,不斷促進(jìn)新技術(shù)的發(fā)展和涌現(xiàn)。
二者的區(qū)別:出發(fā)點(diǎn)不同、存儲(chǔ)的數(shù)據(jù)不同、存儲(chǔ)機(jī)制不同、提供的功能不同、基本元素不同、容量不同。
3 大數(shù)據(jù)在電信業(yè)中的應(yīng)用
如何有效的利用大數(shù)據(jù)處理技術(shù),以快速支撐精確營(yíng)銷和市場(chǎng)決策,成為電信企業(yè)尋找新的業(yè)務(wù)增長(zhǎng)點(diǎn)和突破點(diǎn)的關(guān)鍵。電信企業(yè)的大數(shù)據(jù)應(yīng)用主要從以下幾個(gè)方面考慮:
⑴準(zhǔn)實(shí)時(shí)或?qū)崟r(shí)批量數(shù)據(jù)處理。例如批量話單文件計(jì)費(fèi),批量?jī)?nèi)容計(jì)費(fèi),網(wǎng)間結(jié)算,加快各業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)交互,同時(shí),可以滿足用戶對(duì)通話清單、短信清單、流量清單的詳單近實(shí)時(shí)或?qū)崟r(shí)查詢需求,提升服務(wù)質(zhì)量。
⑵在線分析應(yīng)用。例如結(jié)合智能手機(jī)終端、平板電腦終端、PC終端的實(shí)時(shí)客戶信息展示,報(bào)表數(shù)據(jù)查詢,多維分析查詢等,準(zhǔn)確掌握客戶信息,提升營(yíng)銷精確率,為客戶推薦適合的優(yōu)質(zhì)產(chǎn)品,提高客戶滿意度的同時(shí)拓展了新業(yè)務(wù),增加了業(yè)務(wù)收入。
⑶流量經(jīng)營(yíng)與流量提升,提升客戶價(jià)值。例如通過對(duì)用戶上網(wǎng)行為的分析,如上網(wǎng)時(shí)長(zhǎng),上網(wǎng)流量,WLAN時(shí)長(zhǎng),WLAN流量,上網(wǎng)時(shí)段,瀏覽網(wǎng)頁內(nèi)容等進(jìn)行綜合數(shù)據(jù)分析,全面刻畫用戶的完整上網(wǎng)行為,從而提升流量運(yùn)營(yíng)新思路。
⑷幫助電信企業(yè)改善服務(wù),提升服務(wù)質(zhì)量,提高客戶滿意度。例如基于用戶消費(fèi)數(shù)據(jù)的分析行為,以幫助電信企業(yè)更好地改善服務(wù)質(zhì)量,比如通過話單數(shù)據(jù)分析可以發(fā)現(xiàn)哪些時(shí)段、哪些地段通信量過于集中,以便相應(yīng)地改善網(wǎng)絡(luò)容量。
4 結(jié)束語
大數(shù)據(jù)技術(shù)的興起是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)發(fā)展的必然趨勢(shì),大數(shù)據(jù)技術(shù)也為電信企業(yè)從海量業(yè)務(wù)數(shù)據(jù)中提取有用信息提供了強(qiáng)有力的支持。隨著大數(shù)據(jù)時(shí)代的到來,快速的構(gòu)建適合企業(yè)發(fā)展的大數(shù)據(jù)平臺(tái),高效的研究大數(shù)據(jù)應(yīng)用,精準(zhǔn)的分析大數(shù)據(jù)中有用信息,從而支持企業(yè)市場(chǎng)決策,牢牢把握市場(chǎng)運(yùn)營(yíng),將會(huì)是電信企業(yè)在激烈的行業(yè)競(jìng)爭(zhēng)中獲取勝利的關(guān)鍵。
[參考文獻(xiàn)]
[1]《大數(shù)據(jù)》.清華大學(xué)出版社.
[2]《HADOOP實(shí)戰(zhàn)》.機(jī)械工業(yè)出版社.
[3]《HADOOP權(quán)威指南(中文版)》.清華大學(xué)出版社.
[4]架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望.計(jì)算機(jī)學(xué)報(bào).