陳濤,魯萌,陳彥名
(1.中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司,北京 100080;2.中國(guó)信息通信研究院,北京 100191)
運(yùn)營(yíng)商大數(shù)據(jù)技術(shù)應(yīng)用研究
陳濤1,魯萌2,陳彥名1
(1.中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司,北京 100080;2.中國(guó)信息通信研究院,北京 100191)
大數(shù)據(jù)技術(shù)的快速發(fā)展為運(yùn)營(yíng)商的傳統(tǒng)業(yè)務(wù)(如網(wǎng)絡(luò)規(guī)劃和優(yōu)化)提供了快速的海量數(shù)據(jù)處理方案,也為運(yùn)營(yíng)商開拓新業(yè)務(wù)(如征信、個(gè)性化推薦、互聯(lián)網(wǎng)業(yè)務(wù))奠定了數(shù)據(jù)基礎(chǔ),對(duì)行業(yè)的發(fā)展具有重要意義。研究了大數(shù)據(jù)處理的相關(guān)技術(shù),介紹了運(yùn)營(yíng)商在業(yè)務(wù)中應(yīng)用大數(shù)據(jù)技術(shù)的工程實(shí)踐經(jīng)驗(yàn)和待解決的關(guān)鍵問題,為相關(guān)研究人員提供參考。
大數(shù)據(jù)處理;網(wǎng)絡(luò)規(guī)劃;網(wǎng)絡(luò)優(yōu)化
中國(guó)移動(dòng)2016年上半年業(yè)績(jī)報(bào)告顯示,流量收入超過傳統(tǒng)業(yè)務(wù),成為最主要的收入來源。在實(shí)施運(yùn)營(yíng)成本總量控制時(shí),傳統(tǒng)語音和短信業(yè)務(wù)市場(chǎng)逐漸飽和或萎縮,而手機(jī)上網(wǎng)流量迅猛增長(zhǎng)。如何利用大數(shù)據(jù)技術(shù)進(jìn)行精細(xì)化經(jīng)營(yíng)、提升網(wǎng)絡(luò)質(zhì)量、開拓新業(yè)務(wù)成為運(yùn)營(yíng)商面臨的主要挑戰(zhàn)。
大數(shù)據(jù)指數(shù)據(jù)的大小和復(fù)雜性無法通過現(xiàn)有常用的軟件工具,以合理的成本在可接受的時(shí)間內(nèi)進(jìn)行捕獲、管理和處理的數(shù)據(jù)集。如搜索引擎、電子商務(wù)、社交網(wǎng)絡(luò)等互聯(lián)網(wǎng)公司或天文學(xué)、高能物理、生物學(xué)等科學(xué)研究領(lǐng)域都會(huì)產(chǎn)生TB(1012byte)到EB(1018byte)級(jí)的數(shù)據(jù),并且要求在短時(shí)間內(nèi)完成處理,相關(guān)業(yè)務(wù)通常要求IT系統(tǒng)在秒級(jí)或分鐘級(jí)別給予計(jì)算反饋,長(zhǎng)時(shí)間的批處理計(jì)算變得越來越難以容忍。這樣大規(guī)模的數(shù)據(jù)采集、存儲(chǔ)、基于業(yè)務(wù)模型的統(tǒng)計(jì)計(jì)算要求已經(jīng)超出了基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)IT系統(tǒng)的處理能力,從而催生了以流式計(jì)算(Storm)、Google文件系統(tǒng)(GFS)[1]、內(nèi)存計(jì)算(Spark)為代表的大數(shù)據(jù)傳輸、存儲(chǔ)和處理技術(shù)。
運(yùn)營(yíng)商在支撐電信業(yè)務(wù)的同時(shí),也產(chǎn)生了大量的經(jīng)營(yíng)分析數(shù)據(jù)、網(wǎng)絡(luò)性能和資源數(shù)據(jù)、測(cè)量報(bào)告和信令數(shù)據(jù)等。在大數(shù)據(jù)處理技術(shù)出現(xiàn)以前,這些數(shù)據(jù)大多數(shù)都沒有得到充分的積累和利用。網(wǎng)絡(luò)規(guī)劃和優(yōu)化工作通常需要手工搜集經(jīng)營(yíng)數(shù)據(jù),或依靠路測(cè)系統(tǒng)、客戶投訴系統(tǒng)獲得最初的故障信息,完成日常的網(wǎng)絡(luò)建設(shè)和維護(hù)工作。隨著網(wǎng)絡(luò)流量的增長(zhǎng)和大數(shù)據(jù)處理技術(shù)的成熟,運(yùn)營(yíng)商迫切需要對(duì)所擁有的數(shù)據(jù)進(jìn)行積累和分析,提高網(wǎng)絡(luò)規(guī)劃和優(yōu)化的能力。同時(shí)挖掘網(wǎng)絡(luò)數(shù)據(jù)分析的應(yīng)用潛力,發(fā)揮運(yùn)營(yíng)商的資源整合能力,在基于內(nèi)容的服務(wù)領(lǐng)域取得競(jìng)爭(zhēng)優(yōu)勢(shì)。本文對(duì)大數(shù)據(jù)處理技術(shù)和在運(yùn)營(yíng)商數(shù)據(jù)處理領(lǐng)域的應(yīng)用進(jìn)行了研究,為相關(guān)研究人員提供參考。
大數(shù)據(jù)處理任務(wù)要解決大數(shù)據(jù)的采集、存儲(chǔ)、統(tǒng)計(jì)和模型計(jì)算帶來的挑戰(zhàn)。比如,在典型網(wǎng)絡(luò)優(yōu)化大數(shù)據(jù)應(yīng)用系統(tǒng)中,單個(gè)數(shù)據(jù)表大小平均在130 GB左右(1∶5數(shù)據(jù)壓縮配置),最大單表超過500 GB,數(shù)據(jù)的增加、更新和查找都需要利用分布式存儲(chǔ)系統(tǒng)來執(zhí)行。每天原始數(shù)據(jù)的采集量在PB量級(jí)左右,入庫(kù)數(shù)據(jù)在幾億量級(jí),而集群I/O峰值在每秒幾萬量級(jí),必須采用流式計(jì)算和內(nèi)存數(shù)據(jù)庫(kù)進(jìn)行緩沖和優(yōu)化。復(fù)雜統(tǒng)計(jì)和模型的計(jì)算往往要求對(duì)原始數(shù)據(jù)進(jìn)行多階段匯總計(jì)算,如果將中間計(jì)算結(jié)果存回磁盤很難滿足計(jì)算時(shí)間的要求,也需要借助內(nèi)存計(jì)算技術(shù)完成。因此,運(yùn)營(yíng)商大數(shù)據(jù)處理系統(tǒng)是在上述計(jì)算技術(shù)快速發(fā)展的基礎(chǔ)上實(shí)現(xiàn)的。
2.1 分布式存儲(chǔ)系統(tǒng)對(duì)業(yè)務(wù)系統(tǒng)的支撐
運(yùn)營(yíng)商大數(shù)據(jù)通常存儲(chǔ)在 MPP (massive parallel processing)數(shù)據(jù)庫(kù)(如Greenplum、GBase數(shù)據(jù)庫(kù))或基于GFS和Big Table原理[2]實(shí)現(xiàn)的開源組件Hadoop文件系統(tǒng)和HBase數(shù)據(jù)庫(kù)中。這兩種分布式存儲(chǔ)系統(tǒng)都是將運(yùn)算分布到集群各個(gè)節(jié)點(diǎn)中獨(dú)立運(yùn)算后進(jìn)行結(jié)果合并,但是在運(yùn)營(yíng)商大數(shù)據(jù)處理系統(tǒng)中使用的情景有所不同。MPP數(shù)據(jù)庫(kù)在數(shù)據(jù)并發(fā)寫入速度(特別是單行字段較多時(shí),中小MPP數(shù)據(jù)庫(kù)集群只能完成每秒幾千次寫入),集群最大可擴(kuò)展節(jié)點(diǎn)、數(shù)據(jù)存儲(chǔ)總量上都比Hadoop/HBase小。但是MPP數(shù)據(jù)庫(kù)支持SQL語言進(jìn)行數(shù)據(jù)查詢且查詢速度很快,構(gòu)建數(shù)據(jù)分析業(yè)務(wù)系統(tǒng)比較方便。所以,運(yùn)營(yíng)商大數(shù)據(jù)處理系統(tǒng)可以使用Hadoop/HBase來存儲(chǔ)原始日志數(shù)據(jù)文件或原始測(cè)量數(shù)值。而使用MPP數(shù)據(jù)庫(kù)存儲(chǔ)加工匯總后的經(jīng)營(yíng)分析數(shù)據(jù)或重要網(wǎng)絡(luò)指標(biāo)匯總數(shù)據(jù)。
Google的Spanner/F1[3,4]系統(tǒng)示范了一個(gè)分布式關(guān)系型數(shù)據(jù)庫(kù)。它改進(jìn)了Big Table存儲(chǔ)架構(gòu),并且支持事務(wù)性操作和全球分布的OLTP和OLAP能力,實(shí)際上融合了上述MPP和Hadoop/HBase的優(yōu)勢(shì),開源社區(qū)正努力提供穩(wěn)定的開源實(shí)現(xiàn)供運(yùn)營(yíng)商大數(shù)據(jù)工程選用,是取代MPP/NoSQL數(shù)據(jù)庫(kù)混搭的一個(gè)重要方向。
2.2 內(nèi)存計(jì)算技術(shù)的發(fā)展
大數(shù)據(jù)數(shù)據(jù)處理時(shí)間通常面臨如下挑戰(zhàn):當(dāng)前數(shù)據(jù)處理必須在下一階段采集的數(shù)據(jù)到來之前完成或同步完成;必須充分利用集群的I/O資源完成大數(shù)據(jù)讀寫,又不能超過I/O負(fù)荷,造成數(shù)據(jù)的丟失;滿足實(shí)時(shí)業(yè)務(wù)的計(jì)算反饋。
內(nèi)存計(jì)算[5]利用分布式內(nèi)存通過改進(jìn)存儲(chǔ)模型和并行編程模型,將大數(shù)據(jù)盡量保留在內(nèi)存中進(jìn)行緩存和處理,從而盡量避免I/O操作的一種新型的以數(shù)據(jù)為中心的并行計(jì)算模式。內(nèi)存計(jì)算技術(shù)對(duì)大數(shù)據(jù)處理提供了以下助力。
·大數(shù)據(jù)處理系統(tǒng)可以利用分布式內(nèi)存數(shù)據(jù)庫(kù),如Redis集群緩存數(shù)據(jù)處理中間結(jié)果或常用配置參數(shù),只在必要時(shí)才寫回硬盤,從而減少磁盤I/O操作,極大地縮短大數(shù)據(jù)的匯總和模型計(jì)算時(shí)間;也可以借助memcached緩存熱點(diǎn)內(nèi)容,加快對(duì)用戶的反饋。
·MapReduce計(jì)算模型可以利用廉價(jià)的集群構(gòu)建高性能的數(shù)據(jù)處理系統(tǒng)。但是在對(duì)時(shí)延和吞吐量要求較高的應(yīng)用中,HaLoop[6]、Spark等在內(nèi)存迭代處理數(shù)據(jù)的通用系統(tǒng)更有優(yōu)勢(shì)。比如利用Spark處理數(shù)據(jù)時(shí),只需要一次從文件系統(tǒng)中讀取數(shù)據(jù),Spark將中間結(jié)果緩存在內(nèi)存中,直接用于下一階段的算子操作,可以快速完成計(jì)算任務(wù)。
· 運(yùn)營(yíng)商日志和測(cè)量數(shù)據(jù)的產(chǎn)生處理過程呈現(xiàn)明顯
的數(shù)據(jù)流特征,且并發(fā)采集量較大。如果使用通常的并發(fā)采集技術(shù),20個(gè)并發(fā)進(jìn)程向集群寫入數(shù)據(jù)就可能造成中小數(shù)據(jù)庫(kù)集群 I/O擁塞而丟失原始數(shù)據(jù),實(shí)際數(shù)據(jù)處理系統(tǒng)數(shù)據(jù)量通常需要200個(gè)采集進(jìn)程同時(shí)工作。利用Storm或Spark Streaming技術(shù)配合Kafka等分布式消息系統(tǒng)可以緩沖采集數(shù)據(jù),實(shí)時(shí)匯總數(shù)據(jù)指標(biāo)的任務(wù)。
2.3 機(jī)器學(xué)習(xí)算法的應(yīng)用
機(jī)器學(xué)習(xí)理論在互聯(lián)網(wǎng)推薦系統(tǒng)、社交網(wǎng)絡(luò)的挖掘、機(jī)器翻譯領(lǐng)域取得了重要成果。事實(shí)上,運(yùn)營(yíng)商在網(wǎng)絡(luò)規(guī)劃、建設(shè)和優(yōu)化的過程中積累了大量的運(yùn)維經(jīng)驗(yàn)。在小數(shù)據(jù)集上利用聚類、分類、回歸分析等方法十分常見,但是如何在大數(shù)據(jù)上利用機(jī)器學(xué)習(xí)方法進(jìn)行數(shù)據(jù)規(guī)律的挖掘并指導(dǎo)工程實(shí)踐還是一個(gè)挑戰(zhàn)。主要困難是電信領(lǐng)域?qū)<医?jīng)驗(yàn)的提取、算法并行化、工程實(shí)現(xiàn)等問題。通過在運(yùn)營(yíng)商大數(shù)據(jù)上使用機(jī)器學(xué)習(xí)算法可以為運(yùn)營(yíng)商充分挖掘網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用潛力、開拓互聯(lián)網(wǎng)業(yè)務(wù)提供基礎(chǔ)的數(shù)據(jù)支撐。其應(yīng)用前景十分廣闊。
2.4 大數(shù)據(jù)技術(shù)對(duì)運(yùn)營(yíng)商數(shù)據(jù)處理系統(tǒng)架構(gòu)的改進(jìn)
表1對(duì)支撐運(yùn)營(yíng)商規(guī)劃和優(yōu)化等傳統(tǒng)業(yè)務(wù)所需要分析的主要數(shù)據(jù)量進(jìn)行了估計(jì),利用上述大數(shù)據(jù)處理關(guān)鍵技術(shù)改進(jìn)后的典型的運(yùn)營(yíng)商數(shù)據(jù)分析平臺(tái),如圖1所示。
表1 運(yùn)營(yíng)商主要數(shù)據(jù)類型與數(shù)據(jù)量估計(jì)
圖1 運(yùn)營(yíng)商數(shù)據(jù)處理系統(tǒng)的架構(gòu)演進(jìn)
傳統(tǒng)數(shù)據(jù)分析平臺(tái),如經(jīng)營(yíng)分析平臺(tái)或網(wǎng)管支撐平臺(tái)主要以關(guān)系型數(shù)據(jù)庫(kù)為主構(gòu)建,隨著所需要的數(shù)據(jù)量增加,在數(shù)據(jù)存取速度和處理速度上均面臨巨大壓力,主要通過周期性的擴(kuò)容來應(yīng)對(duì)計(jì)算量的增長(zhǎng),通常集群數(shù)量很難超過100臺(tái),不能滿足需求。引入新計(jì)算組件后(如圖1陰影部分),實(shí)時(shí)處理要求較高的采集數(shù)據(jù)可以將解碼后的數(shù)據(jù)先投遞到Kafka分布式消息集群中,利用流式計(jì)算或內(nèi)存計(jì)算進(jìn)行小時(shí)或天粒度的基礎(chǔ)數(shù)據(jù)匯總操作,可以將以前需要三四個(gè)小時(shí)才能計(jì)算結(jié)束的計(jì)算任務(wù)縮短到15 min以內(nèi),處理時(shí)間大大縮短。利用Hadoop集群進(jìn)行MapReduce批處理計(jì)算,可以將非結(jié)構(gòu)化或半結(jié)構(gòu)化的日志數(shù)據(jù),如重要網(wǎng)站訪問日志、市場(chǎng)一線人員的工作日志、爬取的互聯(lián)網(wǎng)數(shù)據(jù)等納入基礎(chǔ)分析數(shù)據(jù)中,為傳統(tǒng)業(yè)務(wù)帶來了新的支撐手段。
3.1 大數(shù)據(jù)技術(shù)對(duì)運(yùn)營(yíng)商傳統(tǒng)業(yè)務(wù)的支撐
3.1.1 大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)規(guī)劃業(yè)務(wù)中的應(yīng)用
傳統(tǒng)上,運(yùn)營(yíng)商規(guī)劃業(yè)務(wù)每年進(jìn)行一次,本年度結(jié)束前完成下一年度的業(yè)務(wù)發(fā)展規(guī)劃和網(wǎng)絡(luò)建設(shè)規(guī)劃。傳統(tǒng)的規(guī)劃業(yè)務(wù)流程如圖2所示。業(yè)務(wù)發(fā)展指標(biāo)確定后,分解到地市公司。各地網(wǎng)絡(luò)建設(shè)根據(jù)業(yè)務(wù)指標(biāo)要求進(jìn)行工程實(shí)施。但是隨著市場(chǎng)競(jìng)爭(zhēng)的加劇和經(jīng)營(yíng)成本的約束,需要進(jìn)行精細(xì)化的規(guī)劃工作。比如一個(gè)地市的市場(chǎng)潛力有多大,如何合理地制定年度業(yè)務(wù)目標(biāo);如何對(duì)集團(tuán)客戶潛在價(jià)值進(jìn)行評(píng)估,在市場(chǎng)推廣成本一定的情況下,指導(dǎo)市場(chǎng)人員優(yōu)先發(fā)展最有價(jià)值的客戶;投資預(yù)算確定的情況下,如何將有限的建設(shè)資金用于新建和擴(kuò)建最能帶來價(jià)值的通信基站;如何根據(jù)競(jìng)爭(zhēng)對(duì)手的情況,按月調(diào)整投資規(guī)劃適應(yīng)市場(chǎng)競(jìng)爭(zhēng)等。
傳統(tǒng)的規(guī)劃工作主要是提取過往公司經(jīng)營(yíng)業(yè)績(jī)指標(biāo)等數(shù)據(jù)進(jìn)行小數(shù)據(jù)集的業(yè)務(wù)分析來完成。大數(shù)據(jù)處理技術(shù)為改進(jìn)規(guī)劃工作提供的可能。政策經(jīng)濟(jì)要素 (如GDP、 CPI)、社會(huì)環(huán)境要素(如人口規(guī)模消費(fèi)、家庭戶數(shù))、自然地理要素(如城區(qū)面積、人口密度)、消費(fèi)行為要素(如人均收入、人均電信消費(fèi)支出)和一線片區(qū)經(jīng)理的工作日志、競(jìng)爭(zhēng)性要素(如競(jìng)爭(zhēng)公司的基站位置、廣告推廣的趨勢(shì)分析)、基站價(jià)值分析數(shù)據(jù)等多維數(shù)據(jù)都可以參與到規(guī)劃運(yùn)算中。通過文本大數(shù)據(jù)處理技術(shù)和Hadoop/MR處理的非結(jié)構(gòu)化數(shù)據(jù),如一線市場(chǎng)經(jīng)理工作日志或從互聯(lián)網(wǎng)抓取的競(jìng)爭(zhēng)對(duì)手廣告信息,可以及時(shí)了解競(jìng)爭(zhēng)公司的競(jìng)爭(zhēng)策略,迅速調(diào)整規(guī)劃方案。
圖2 運(yùn)營(yíng)商傳統(tǒng)規(guī)劃業(yè)務(wù)流程
這種依賴于大數(shù)據(jù)處理技術(shù)對(duì)傳統(tǒng)電信規(guī)劃業(yè)務(wù)的改進(jìn)主要體現(xiàn)在更多的非結(jié)構(gòu)化數(shù)據(jù)和公司外經(jīng)營(yíng)環(huán)境數(shù)據(jù)可以被采集和運(yùn)算,規(guī)劃業(yè)務(wù)可以精細(xì)化到高價(jià)值的樓宇和高價(jià)值的基站粒度,為節(jié)約投資,低成本發(fā)展用戶提供了數(shù)據(jù)支撐。如何在大數(shù)據(jù)上構(gòu)建多維數(shù)據(jù)模型,篩選出影響電信業(yè)務(wù)指標(biāo)的關(guān)鍵環(huán)境因素,如何通過降維方法,加快數(shù)據(jù)處理仍然是行業(yè)探索的重點(diǎn)。
3.1.2 大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)優(yōu)化業(yè)務(wù)中的應(yīng)用
傳統(tǒng)的網(wǎng)絡(luò)優(yōu)化工作主要依靠網(wǎng)絡(luò)性能監(jiān)控系統(tǒng)、路測(cè)系統(tǒng)和用戶投訴系統(tǒng)來發(fā)現(xiàn)網(wǎng)絡(luò)問題,優(yōu)化成本較高,且隨著網(wǎng)絡(luò)數(shù)據(jù)規(guī)模日益增加,數(shù)據(jù)處理速度不能滿足網(wǎng)絡(luò)問題快速處理的要求。當(dāng)用戶網(wǎng)絡(luò)感知出現(xiàn)惡化時(shí),運(yùn)營(yíng)商很難及時(shí)發(fā)現(xiàn)。
基于大數(shù)據(jù)的網(wǎng)絡(luò)優(yōu)化平臺(tái)主要通過流處理技術(shù)實(shí)時(shí)采集分析性能、資源、MR測(cè)量數(shù)據(jù)和信令數(shù)據(jù),利用Spark等內(nèi)存計(jì)算模式進(jìn)行關(guān)鍵指標(biāo)的匯總,通過固化成熟的網(wǎng)絡(luò)優(yōu)化模型和開發(fā)自動(dòng)化參數(shù)優(yōu)化工具完成傳統(tǒng)的網(wǎng)絡(luò)優(yōu)化目標(biāo)。指標(biāo)匯總和網(wǎng)絡(luò)問題發(fā)現(xiàn)的速度可以由小時(shí)級(jí)提高到分鐘級(jí),可以實(shí)現(xiàn)實(shí)時(shí)用戶網(wǎng)絡(luò)感知指標(biāo)的監(jiān)控與優(yōu)化。目前大數(shù)據(jù)處理主要嘗試用于支持重大節(jié)日和事件的通信保障,實(shí)施虛擬業(yè)務(wù)撥測(cè),進(jìn)行用戶網(wǎng)絡(luò)感知管理和故障快速定界,自動(dòng)發(fā)現(xiàn)并選點(diǎn)改善4G室內(nèi)弱覆蓋等問題,取得了良好的效果。
制約大數(shù)據(jù)處理在傳統(tǒng)網(wǎng)絡(luò)優(yōu)化領(lǐng)域的應(yīng)用的主要問題是數(shù)據(jù)的完整性和規(guī)范性需要進(jìn)一步提高,用戶定位算法與多數(shù)據(jù)源的關(guān)聯(lián)分析技術(shù)準(zhǔn)確性有待提高。此外,固化網(wǎng)絡(luò)優(yōu)化專家的優(yōu)化經(jīng)驗(yàn),通過優(yōu)化模型,自動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)優(yōu)化問題,完成溯源、定界、派單也是網(wǎng)絡(luò)優(yōu)化自動(dòng)化的研究方向。
3.2 大數(shù)據(jù)技術(shù)對(duì)運(yùn)營(yíng)商新業(yè)務(wù)開展的支撐
運(yùn)營(yíng)商擁有自營(yíng)的互聯(lián)網(wǎng)基地業(yè)務(wù)和寬帶業(yè)務(wù),從原始數(shù)據(jù)中分析得到的用戶業(yè)務(wù)偏好有助于幫助業(yè)務(wù)的營(yíng)銷推廣。如通過信令、經(jīng)分、網(wǎng)絡(luò)和終端、位置數(shù)據(jù),結(jié)合用戶的基本性別、年齡等信息,可以將用戶閱讀和消遣偏好進(jìn)行分類,通過協(xié)同推薦等方法給用戶推送圖書、音樂、視頻和寬帶產(chǎn)品,從而提高產(chǎn)品的交易成功率。實(shí)踐表明,利用位置數(shù)據(jù)支撐精準(zhǔn)寬帶業(yè)務(wù)營(yíng)銷通??梢詫⑿略鼋灰滋嵘?0%~20%。
在進(jìn)行必要的用戶隱私處理后,用戶的位置信息、通話通信記錄等也可以包裝為征信[7]、旅游、廣告等行業(yè)信息產(chǎn)品對(duì)外提供服務(wù)。如為互聯(lián)網(wǎng)金融公司提供個(gè)人征信信息,或?yàn)槁糜喂芾聿块T提供實(shí)時(shí)客流監(jiān)控、客戶歸宿地分析、景區(qū)客戶軌跡分析等。運(yùn)營(yíng)商自有的網(wǎng)絡(luò)信息有可能不能完全滿足各個(gè)行業(yè)的數(shù)據(jù)需求,還需要與電商、搜索和社交網(wǎng)絡(luò)的用戶數(shù)據(jù)結(jié)合。在運(yùn)營(yíng)商難以整合各方數(shù)據(jù)資源的情況下,比較好的業(yè)務(wù)開展模式是借鑒氣象機(jī)構(gòu)的數(shù)據(jù)服務(wù)方式,為各行業(yè)提供應(yīng)用統(tǒng)計(jì)排名、用戶偏好等“特供”分析數(shù)據(jù)。
大數(shù)據(jù)處理技術(shù)為運(yùn)營(yíng)商傳統(tǒng)規(guī)劃和優(yōu)化業(yè)務(wù)、互聯(lián)網(wǎng)新業(yè)務(wù)的開展提供了新的手段,有利于降低成本、提升用戶滿意度,并可以對(duì)外輸出信息服務(wù),帶來新的收入增長(zhǎng)。但是,運(yùn)營(yíng)商大數(shù)據(jù)的可靠性、規(guī)范性尚需完善,傳統(tǒng)數(shù)據(jù)分析模型在大數(shù)據(jù)上應(yīng)用也需要進(jìn)一步驗(yàn)證。此外,大數(shù)據(jù)商業(yè)模式選擇也需要進(jìn)一步探索,通過運(yùn)營(yíng)商的連接優(yōu)勢(shì)整合行業(yè)數(shù)據(jù)獨(dú)立提供數(shù)據(jù)服務(wù)或者對(duì)外提供“特供”數(shù)據(jù)服務(wù)都是值得探索的新方向。
[1]GARCIA H,LUDU A.The Google file system[J].ACM Sigops Operating Systems Review,2003,37(5):29-43.
[2]CHANG F,DEAN J,GHEMAWAT S,et al.Bigtable:a distributed storage system for structured data[C]//Usenix Symposium on Operating Systems Design and Implementation,November 6-8, 2006,Seattle,USA.New Jersey:IEEE Press,2006:15.
[3]CORBETT J C,DEAN J,EPSTEI N,et al.Spanner:Google’s globally-distributed database[J].ACM Transactions on Computer Systems,2013,31(3):251-264.
[4]SHUTE J,VINGRALEK R,SAMWELB,etal.F1:a distributed SQL database that scales[J].VLDB Endowment, 2013,6(11):1068-1079.
[5]羅樂,劉軼,錢德沛.內(nèi)存計(jì)算技術(shù)研究綜述 [J].軟件學(xué)報(bào), 2016,27(8):2147-2167.LUO L,LIU Y,QIAN D P.Survey on in-memory computing technology[J].Journal of Software,2016,27(8):2147-2167.
[6]BU Y,HOWE B,BALAZINSKA M,et al.HaLoop:efficient iterative data processing on large clusters[J].VLDB Endowment, 2010,3(1-2):285-296.
[7]陳一昕,谷靜宜,王蕾,等.基于中國(guó)聯(lián)通大數(shù)據(jù)的個(gè)人征信評(píng)估方法[J].信息通信技術(shù),2015(6):36-41.CHEN Y X,GU J Y,WANG L,et al.Personal credit rating based on big data of China Unicom [J].Information and Communications Technologies,2015(6):36-41.
魯萌,現(xiàn)就職于中國(guó)信息通信研究院,主要研究方向?yàn)榇髷?shù)據(jù)處理技術(shù)。
陳彥名(1981-),女,中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司高級(jí)工程師,主要研究方向?yàn)槠脚_(tái)級(jí)云軟件架構(gòu)、大數(shù)據(jù)處理技術(shù)、數(shù)據(jù)網(wǎng)管接口測(cè)試標(biāo)準(zhǔn)制訂。
Research on operators’big data technologies and applications
CHEN Tao1,LU Meng2,CHEN Yanming1
1.China Mobile Group Design Institute Co.,Ltd.,Beijing 100080,China2.China Academy of Information and Communication Technology,Beijing 100191,China
The rapid development of big data technology provides fast mass data processing method for operators’traditional businesses,such as network planning and optimization,but also laid the data foundation for new businesses,such as credit,personalized recommendations,internet services.It is important to the development of the industry.The big data processing cutting-edge technology was studied,relative engineering experience and key issues were introduced,reference for other researcher was provided.
big data processing,network planning,network optimization
TP311.13
A
10.11959/j.issn.1000-0801.2017002
陳濤(1976-),男,博士,中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司高級(jí)工程師,CCF會(huì)員,主要研究方向?yàn)榇髷?shù)據(jù)處理技術(shù)、信息安全技術(shù)。
2016-11-10;
2016-12-07