(中國(guó)移動(dòng)通信集團(tuán)廣東有限公司,廣東 廣州 510623)
大數(shù)據(jù)(Big Data)指的是無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。通常用4個(gè)V,即Volume、Variety、Value、Velocity來概括大數(shù)據(jù)的特征。從應(yīng)用的角度來看,可從資源屬性和應(yīng)用模式這2個(gè)維度來理解大數(shù)據(jù)。首先,大數(shù)據(jù)是一個(gè)規(guī)模巨大、結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,即大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型數(shù)據(jù)。其次,大數(shù)據(jù)是知識(shí)發(fā)現(xiàn)的一種新模式,是采用云計(jì)算技術(shù)來處理數(shù)據(jù)的智能應(yīng)用模式,即通過數(shù)據(jù)的整合共享、交叉復(fù)用形成新的智力資源與知識(shí)能力,即大數(shù)據(jù)=云計(jì)算+數(shù)據(jù)智能。
目前,互聯(lián)網(wǎng)公司的大數(shù)據(jù)化進(jìn)程較早、較成熟。依托其自身的數(shù)據(jù)優(yōu)勢(shì),采取靈活、深入的方式進(jìn)行數(shù)據(jù)挖掘、分析,并從中探索了相關(guān)經(jīng)驗(yàn)和業(yè)務(wù)模式。如Google的盈利在于所有的軟件應(yīng)用都是在線的,用戶免費(fèi)使用這些產(chǎn)品的同時(shí),將個(gè)人的行為、喜好等信息也免費(fèi)地送給了Google,因此Google的產(chǎn)品線越豐富,它對(duì)用戶的理解就越深入,從而達(dá)到了精準(zhǔn)的廣告營(yíng)銷的目的。
因此,不僅需要關(guān)注數(shù)據(jù)的獲取、存儲(chǔ)和分析能力,更需關(guān)注如何從海量數(shù)據(jù)資源中抽取信息、凝練知識(shí),借以指導(dǎo)企業(yè)的生產(chǎn)和經(jīng)營(yíng)行為。今年以來,國(guó)務(wù)院印發(fā)了《關(guān)于促進(jìn)云計(jì)算創(chuàng)新發(fā)展培育信息產(chǎn)業(yè)新業(yè)態(tài)》、《中國(guó)制造2025》等政策文件,正在制定并即將出臺(tái)的“互聯(lián)網(wǎng)+”推動(dòng)計(jì)劃將積極推動(dòng)大數(shù)據(jù)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等現(xiàn)代技術(shù)的融合發(fā)展,這一系列的政策舉措將為ICT產(chǎn)業(yè)發(fā)展創(chuàng)造更加有利的環(huán)境和條件。
圖1 國(guó)外運(yùn)營(yíng)商大數(shù)據(jù)應(yīng)用歷程
電信運(yùn)營(yíng)商詳細(xì)記錄了人們?cè)诂F(xiàn)代化社會(huì)的信息指紋,獲取的數(shù)據(jù)要比單一互聯(lián)網(wǎng)公司的數(shù)據(jù)更豐富、更立體、更飽滿。首先,電信運(yùn)營(yíng)商具有提供可管、可控的全程全網(wǎng)服務(wù)和端到端網(wǎng)絡(luò)接入的能力。其次,電信運(yùn)營(yíng)商具有強(qiáng)大的用戶聚合效應(yīng),電信運(yùn)營(yíng)商作為用戶接入的第一接觸者,具有更為直接的用戶聚合能力。再次,電信運(yùn)營(yíng)商在網(wǎng)絡(luò)、業(yè)務(wù)運(yùn)營(yíng)和提供服務(wù)的過程中感知、獲取網(wǎng)絡(luò)狀態(tài)、業(yè)務(wù)狀態(tài)。尤其是人口統(tǒng)計(jì)學(xué)(包括姓名、性別、手機(jī)號(hào)碼、IMEI等)、用戶位置(包括基站經(jīng)緯度、所屬Node B、SGSN IP等)、用戶業(yè)務(wù)(包括類型、連接方式、訪問記錄等)、計(jì)費(fèi)數(shù)據(jù)(包括用戶套餐選擇數(shù)據(jù)、資費(fèi)數(shù)據(jù)、購買歷史等)等特征數(shù)據(jù)。
然而,對(duì)于運(yùn)營(yíng)商來說,獨(dú)特的大數(shù)據(jù)資源并未帶來可觀的收入,電信運(yùn)營(yíng)商在大數(shù)據(jù)領(lǐng)域的探索遇到了數(shù)據(jù)資產(chǎn)不明、應(yīng)用需求不定、平臺(tái)建設(shè)、技術(shù)路線、安全隱私等方面的挑戰(zhàn)。如何依靠大數(shù)據(jù)解決方案避免啞管道化的危機(jī)是全球運(yùn)營(yíng)商需要共同探討的話題。
大數(shù)據(jù)正在開啟一次重大的時(shí)代轉(zhuǎn)型,2014—2016年將是大數(shù)據(jù)的大發(fā)展時(shí)期,據(jù)英國(guó)電信與媒體市場(chǎng)調(diào)研公司Informa Telecoms & Media統(tǒng)計(jì),電信領(lǐng)域大數(shù)據(jù)應(yīng)用市場(chǎng)份額占據(jù)10%以上。放眼全球市場(chǎng),電信運(yùn)營(yíng)商大數(shù)據(jù)發(fā)展仍處在發(fā)展階段,如圖1所示,但是一些發(fā)達(dá)國(guó)家運(yùn)營(yíng)商的經(jīng)驗(yàn)值得我們借鑒,主要包括2個(gè)方面:一方面運(yùn)營(yíng)效能提升,基于大數(shù)據(jù)分析的網(wǎng)絡(luò)故障診斷、網(wǎng)絡(luò)優(yōu)化和用戶感知提升;另一方面對(duì)外價(jià)值變現(xiàn),基于電信大數(shù)據(jù)開發(fā)面向政府、公共事業(yè)單位等產(chǎn)品,獲取變現(xiàn)收益。
大數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在表面之下。在云計(jì)算出現(xiàn)之前,傳統(tǒng)的計(jì)算機(jī)是無法處理如此量大、不規(guī)則的“非結(jié)構(gòu)數(shù)據(jù)”。數(shù)據(jù)挖掘(Data Mining)是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)中的一個(gè)步驟,就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用信息和知識(shí)的過程,具體如圖2所示。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)、可視化、機(jī)器學(xué)習(xí)、高性能計(jì)算、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和人工智能等諸多方法來實(shí)現(xiàn)上述目標(biāo)。
圖2 數(shù)據(jù)挖掘過程
以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段,可以經(jīng)濟(jì)、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲(chǔ)下來,并隨時(shí)進(jìn)行分析和計(jì)算。為了滿足中國(guó)移動(dòng)IT系統(tǒng)高性能、低成本、高可擴(kuò)展性、高可靠性、高安全性的需求,自2007年起中國(guó)移動(dòng)就在云計(jì)算方面啟動(dòng)“大云”研發(fā)計(jì)劃。
當(dāng)前,大數(shù)據(jù)的應(yīng)用包含4個(gè)階段,如圖3所示。首先是數(shù)據(jù)收集與存儲(chǔ),包含ETL、數(shù)據(jù)融合與集成等;其次是信息提取,包含數(shù)據(jù)統(tǒng)計(jì)與查詢、報(bào)表生成、數(shù)據(jù)可視化與服務(wù)化等;再者是知識(shí)發(fā)現(xiàn)階段,包含機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘等;最后是智能應(yīng)用階段,包含基于知識(shí)的分析與預(yù)測(cè)功能等。
圖3 挖掘系統(tǒng)邏輯架構(gòu)
同時(shí),大數(shù)據(jù)應(yīng)用的目標(biāo)是追求數(shù)據(jù)價(jià)值的最大化,要想實(shí)現(xiàn)這一目標(biāo),必須具備從海量數(shù)據(jù)資源中抽取信息、凝練知識(shí)的能力,即必須能夠通過信息交換、數(shù)據(jù)整合、知識(shí)共享與交叉復(fù)用,形成新知識(shí)、創(chuàng)造新價(jià)值。
大部分的數(shù)據(jù)價(jià)值是潛在的,需要通過創(chuàng)新性的分析來釋放能力。數(shù)據(jù)驅(qū)動(dòng)企業(yè)運(yùn)營(yíng)使得數(shù)據(jù)的分析和應(yīng)用無處不在,而數(shù)據(jù)的成功運(yùn)用需要專業(yè)知識(shí),這并不是IT擅長(zhǎng)的,因此大數(shù)據(jù)管理通過數(shù)據(jù)共享平臺(tái)實(shí)現(xiàn)。具體技術(shù)架構(gòu)方面,電信運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)可以依托開源項(xiàng)目,采用分層、模塊化的思想對(duì)主要平臺(tái)元素進(jìn)行設(shè)計(jì),各層相對(duì)獨(dú)立,通過標(biāo)準(zhǔn)接口向外部應(yīng)用系統(tǒng)開放,參考技術(shù)架構(gòu)如圖4所示。
其中,最底層為硬件平臺(tái)層。將PC服務(wù)器集群、存儲(chǔ)、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施資源組合在一起,形成IaaS(Infras-tructure as a Service)硬件資源池,供上層應(yīng)用系統(tǒng)使用。
第2層是分布式平臺(tái)層。在物理平臺(tái)的基礎(chǔ)上部署分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、緩存服務(wù)、任務(wù)分解、資源調(diào)度等一系列分布式軟件,把多臺(tái)獨(dú)立的PC服務(wù)器組合成具有超大規(guī)模計(jì)算和存儲(chǔ)能力的系統(tǒng)。分布式平臺(tái)屏蔽了分布式系統(tǒng)任務(wù)分解、資源調(diào)配等復(fù)雜的底層工作,簡(jiǎn)化了上層分布式應(yīng)用的開發(fā)流程。
第3層是計(jì)算框架層。該層是一個(gè)集群管理器,提供了有效的、跨分布式應(yīng)用或框架的資源隔離和共享,可以運(yùn)行Hadoop、MPI、Hypertable、Spark。使用ZooKeeper實(shí)現(xiàn)容錯(cuò)復(fù)制,使用Linux Containers來隔離任務(wù),支持多種資源計(jì)劃分配。
第4層是能力開放層。在基礎(chǔ)能力層上形成搜索引擎、位置信息、內(nèi)容分發(fā)等功能更為完善的服務(wù)。這些服務(wù)獨(dú)立于應(yīng)用系統(tǒng)的業(yè)務(wù)邏輯,可作為應(yīng)用程序的能力補(bǔ)充。
第5層是應(yīng)用層。需要使用大數(shù)據(jù)服務(wù)的一系列電信應(yīng)用系統(tǒng),如大規(guī)模用戶行為分析、全網(wǎng)流量分析等,通過調(diào)用平臺(tái)的大數(shù)據(jù)服務(wù)接口快速實(shí)現(xiàn)大數(shù)據(jù)能力。
圖4 大數(shù)據(jù)開放平臺(tái)的邏輯架構(gòu)
網(wǎng)絡(luò)中傳輸著各種信號(hào),其中一部分是需要的(如打電話的語音、上網(wǎng)的數(shù)據(jù)包等),而另一部分是不需要的(只能說不是直接需要),它用來專門控制電路,這一類型的信號(hào)稱之為信令。
隨著2G、3G、4G的逐步建設(shè),電信運(yùn)營(yíng)商進(jìn)入流量經(jīng)營(yíng)時(shí)代,信令數(shù)據(jù)作為網(wǎng)絡(luò)優(yōu)化必不可缺的環(huán)節(jié)。通過對(duì)信令進(jìn)行監(jiān)測(cè),深層次支撐網(wǎng)絡(luò)優(yōu)化,精確故障定位,規(guī)劃基站和熱點(diǎn)的建設(shè),還可以對(duì)已有基礎(chǔ)設(shè)施的效率和成本進(jìn)行評(píng)估,用以增減基站建設(shè)以實(shí)現(xiàn)更高的網(wǎng)絡(luò)效率。
為了“先于用戶發(fā)現(xiàn)問題,先于投訴解決問題”,支持網(wǎng)絡(luò)管理業(yè)務(wù)的平滑過渡,為規(guī)劃、建設(shè)、經(jīng)營(yíng)、維護(hù)、優(yōu)化等部門工程人員提供所需的支撐數(shù)據(jù),提出網(wǎng)絡(luò)故障監(jiān)控體系,具體如圖5所示?;讵?dú)立組網(wǎng)S1/S6a/S11接口信令數(shù)據(jù)采集方案,采用高效數(shù)據(jù)挖掘方法(深度學(xué)習(xí)、高效學(xué)習(xí)、人機(jī)智能),建立準(zhǔn)確的網(wǎng)絡(luò)預(yù)警模型,對(duì)突變惡化的網(wǎng)元及時(shí)進(jìn)行預(yù)警輸出。
圖5 網(wǎng)絡(luò)故障監(jiān)控體系
網(wǎng)絡(luò)故障監(jiān)控體系監(jiān)控范圍:
(1)云:網(wǎng)站、應(yīng)用后臺(tái)服務(wù)器。
(2)管:核心網(wǎng)(MSC、MSC Server、MGW、HLR、STP、智能網(wǎng)設(shè)備等)、無線網(wǎng)(RNC、Node B、UtranCell)、數(shù)據(jù)網(wǎng)(SGSN、GGSN、承載網(wǎng)、CMNET)等。
(3)端:智能終端OS(蘋果、華為、聯(lián)想等)、瀏覽器插碼、APP SDK。
監(jiān)控信息:
(1)告警信息:使用告警標(biāo)準(zhǔn)化后的網(wǎng)管告警ID、網(wǎng)元名稱、告警設(shè)備廠家、設(shè)備類型。
(2)處理規(guī)則:告警智能預(yù)處理規(guī)則表。
(3)處理信息反饋:對(duì)設(shè)備輸入指令后反饋的信息。
對(duì)于重要場(chǎng)景的保障,可以對(duì)用戶、業(yè)務(wù)、小區(qū)進(jìn)行綜合保障和透視。同時(shí)縮短監(jiān)控時(shí)間至5分鐘。
目前電信大數(shù)據(jù)應(yīng)用現(xiàn)狀的不足及改進(jìn)方向如下所示:
不足:數(shù)據(jù)預(yù)測(cè)準(zhǔn)確性低,無法利用動(dòng)態(tài)、多樣、復(fù)雜的情境(時(shí)間、地點(diǎn)等)數(shù)據(jù)。機(jī)器學(xué)習(xí)方法效率低,數(shù)據(jù)挖掘算法龐雜,無法有效地選擇集成算法。
改進(jìn)方向:自學(xué)習(xí)模型、情景數(shù)據(jù)挖掘、深度學(xué)習(xí)和人機(jī)智能。
通過整合用戶基本信息、終端、消費(fèi)、行為、位置等8個(gè)維度,以變量為基礎(chǔ),構(gòu)建能反映客戶信用評(píng)價(jià)的子模型。如壞賬風(fēng)險(xiǎn)預(yù)測(cè)模型、影響力模型、交往圈模型、內(nèi)容偏好模型等9類模型,以實(shí)現(xiàn)用戶各類特征的多維度洞察,并最終運(yùn)用評(píng)分卡模型將用戶各維度特征轉(zhuǎn)換為分?jǐn)?shù),得到最終的信用評(píng)分。該信用評(píng)級(jí)模型的識(shí)別準(zhǔn)確率較高,能夠達(dá)到86%以上,識(shí)別覆蓋率則高達(dá)91%。
基本應(yīng)用:授信服務(wù)、信用擔(dān)保、信用繼承、高危用戶風(fēng)險(xiǎn)控制。
目標(biāo)客戶:銀行金融單位、互聯(lián)網(wǎng)P2P公司、婚戀網(wǎng)站、二手交易網(wǎng)站、移動(dòng)支付公司。
智慧足跡產(chǎn)品的監(jiān)控模型,通過采集、解析移動(dòng)通信網(wǎng)絡(luò)中的信令消息,實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè)用戶(匿名信息)所在地理位置,對(duì)人流聚集嚴(yán)重區(qū)域及時(shí)產(chǎn)生告警預(yù)防。人流監(jiān)控平臺(tái)結(jié)構(gòu)模型如圖6所示,其由信令分析系統(tǒng)和人流信息挖掘及預(yù)警2個(gè)模塊單元組成。
圖6 人流監(jiān)控平臺(tái)結(jié)構(gòu)模型圖
信令分析系統(tǒng):后臺(tái)負(fù)責(zé)實(shí)施采集、處理Gb、IuPS和S1等移動(dòng)網(wǎng)絡(luò)接口的用戶信令消息,定位用戶所在地理位置。
人流信息挖掘及預(yù)警:負(fù)責(zé)動(dòng)態(tài)分析和呈現(xiàn)某地區(qū)人流量情況,對(duì)達(dá)到門限值區(qū)域及時(shí)產(chǎn)生告警。
智慧足跡產(chǎn)品:新店選址服務(wù)、銀行卡風(fēng)控服務(wù)、持卡人精準(zhǔn)營(yíng)銷。
隨著數(shù)據(jù)挖掘、云計(jì)算、物聯(lián)網(wǎng)技術(shù)的逐步發(fā)展成熟,電信運(yùn)營(yíng)商面臨著重大機(jī)遇?;仡檱?guó)外電信運(yùn)營(yíng)商大數(shù)據(jù)業(yè)務(wù)的發(fā)展趨勢(shì),介紹數(shù)據(jù)挖掘及平臺(tái)架構(gòu),探索基于大數(shù)據(jù)的業(yè)務(wù)模式分析,以幫助運(yùn)營(yíng)商在大數(shù)據(jù)時(shí)代積極調(diào)整策略,更好地順應(yīng)時(shí)代發(fā)展的潮流。
[1] Viktor Mayer-Schonberger, Kenneth Cukier. Big Data: A Revolution That Will Transform How We Live, Work and Think[M]. Hodder Export, 2013.
[2] 孫少陵. 云計(jì)算變革下電信運(yùn)營(yíng)商的機(jī)遇及中國(guó)移動(dòng)云計(jì)算探索[J]. 移動(dòng)通信, 2010(11): 44-46.
[3] 漆晨曦. 運(yùn)營(yíng)商大數(shù)據(jù)管理及應(yīng)用體系發(fā)展策略[J]. 通信企業(yè)管理, 2012(10): 72-75.
[4] 曉鏡. Sprint:運(yùn)營(yíng)商緊靠大數(shù)據(jù)就能生存[N]. 中國(guó)郵電報(bào), 2012-11-21(5).
[5] Han, M Kamber. Data mining concepts and techniques[M].San Francisco: Morgan Kaufmann Publishers, 2012.
[6] 李政,李繼兵,丁偉. 基于大數(shù)據(jù)的電信運(yùn)營(yíng)商業(yè)務(wù)模式研究[J]. 移動(dòng)通信, 2013(5): 64-67.
[7] 祁昊穎. 大數(shù)據(jù)時(shí)代電信運(yùn)營(yíng)商文件系統(tǒng)新思考[C].2013年中國(guó)信息通信研究新進(jìn)展論文集, 2014.
[8] 曹旭,曹瑞彤. 基于大數(shù)據(jù)分析的網(wǎng)絡(luò)異常檢測(cè)方法[J].電信科學(xué), 2014(6): 152-156.
[9] 姚逴炯. 大數(shù)據(jù)在電信運(yùn)營(yíng)商市場(chǎng)分析及精確營(yíng)銷的應(yīng)用研究[J]. 商業(yè)經(jīng)濟(jì), 2014(15): 66-70.
[10] CL Philip Chen, Chun-Yang Zhang. Data-intensive applications, challenges, techniques and technologies:A survey on Big Data[J]. Information Sciences,2014,275(10): 314-347.