孫苑苑,趙 雨,張 晟
(中國移動通信集團江蘇有限公司,江蘇 南京 210000)
移動運營商不斷探索和實踐數(shù)據(jù)資產管理能力,發(fā)揮數(shù)據(jù)要素價值,以自主可控、架構先行、注智賦能為目標,在技術架構、數(shù)據(jù)治理和智慧中臺3個方面持續(xù)演進;提升資產管理集中效能和數(shù)據(jù)開放共享能力,向政府及行業(yè)客戶提供量身定制的信息化解決方案,實現(xiàn)大數(shù)據(jù)價值變現(xiàn)。
隨著大數(shù)據(jù)技術的快速發(fā)展,企業(yè)存在數(shù)據(jù)資產來源多、數(shù)據(jù)規(guī)模大、數(shù)據(jù)標準不統(tǒng)一、各系統(tǒng)之間存在數(shù)據(jù)孤島等問題,導致數(shù)據(jù)資產價值挖掘利用效率不高,在資產管理、資產加工、業(yè)務支撐、能力運營等環(huán)節(jié)面臨挑戰(zhàn)。針對上述問題,以下研究過程將從技術、管理、應用3個方面,建設運營商數(shù)據(jù)資產管理運營體系,優(yōu)化數(shù)據(jù)處理架構,統(tǒng)一進行數(shù)據(jù)資產的匯聚、建設、治理、運營和應用,支撐市場運營、智慧營銷、網格運營、行業(yè)變現(xiàn)等企業(yè)內外部大數(shù)據(jù)應用。
近年來,隨著大數(shù)據(jù)技術的飛速發(fā)展,企業(yè)數(shù)據(jù)量成倍增長,數(shù)據(jù)形式多樣化,數(shù)據(jù)資產來源多,散落在不同系統(tǒng)且資產結構復雜,數(shù)據(jù)標準參差不齊,各系統(tǒng)之間存在數(shù)據(jù)孤島,導致數(shù)據(jù)資產的加工使用效率不高,因此在資產管理、資產加工、業(yè)務支撐、能力運營等方面面臨挑戰(zhàn),亟須建立統(tǒng)一標準的資產管理運營體系,對海量數(shù)據(jù)進行統(tǒng)一的采集、存儲、管理、開放。
本研究堅持“數(shù)據(jù)服務于業(yè)務”的理念,針對數(shù)據(jù)資產管理和運營過程中的痛點和難點,從技術、管理、應用3個方面入手,建設數(shù)據(jù)資產管理運營體系,拓展行業(yè)大數(shù)據(jù)服務,高效賦能大數(shù)據(jù)生態(tài)圈(見圖1)。(1)在技術層面,建設批流一體數(shù)據(jù)處理架構,打造實時數(shù)據(jù)倉庫;(2)在管理層面,以DataOps理念為核心,建設分層資產體系,構建數(shù)據(jù)資產管理平臺,提升數(shù)據(jù)資產開發(fā)和管理效率;(3)在應用層面,建設數(shù)據(jù)中臺能力服務體系,全面賦能企業(yè)內外部業(yè)務生態(tài),促進數(shù)據(jù)共享,實現(xiàn)數(shù)據(jù)資產價值提升[1]。
圖1 大數(shù)據(jù)資產管理運營體系架構
2.2.1 跨域匯聚內外部數(shù)據(jù)
規(guī)整集成移動運營商內外部各業(yè)務線、各類型的源數(shù)據(jù),為形成企業(yè)級數(shù)據(jù)資產提供真實、完整的數(shù)據(jù)源基礎。通過全局化的架構規(guī)劃設計,完成跨領域、多系統(tǒng)的數(shù)據(jù)融合匯聚,采用大數(shù)據(jù)高效處理技術和機制,完成數(shù)據(jù)匯聚融合分析,產生1+1>2的數(shù)據(jù)價值。
2.2.2 實時數(shù)據(jù)倉庫架構
基于Kappa+Lambda的批流一體化數(shù)據(jù)處理技術,實現(xiàn)了大數(shù)據(jù)平臺的架構升級和業(yè)務邊界的拓展。以流原生技術為底座,構建具備“統(tǒng)一模型、統(tǒng)一數(shù)據(jù)、統(tǒng)一計算、統(tǒng)一分析、統(tǒng)一存儲”能力的實時數(shù)據(jù)倉庫架構,實現(xiàn)對低時延數(shù)據(jù)及服務的全方位支撐(見圖2)。該技術以Flink+Pulsar+Redis技術為核心,實現(xiàn)了實時和離線兩種數(shù)據(jù)處理模式下數(shù)據(jù)模型、計算引擎、數(shù)據(jù)輸入、數(shù)據(jù)存儲、數(shù)據(jù)分析5方面能力的統(tǒng)一[2]。
(1)統(tǒng)一模型:基于統(tǒng)一數(shù)據(jù)模型分層設計原則和體系結構,實現(xiàn)離線和實時數(shù)據(jù)模型的統(tǒng)一;(2)統(tǒng)一計算:統(tǒng)一批流編碼方式,減小SQL開發(fā)和運維負擔,讓應用專注于業(yè)務邏輯;(3)統(tǒng)一數(shù)據(jù):統(tǒng)一實時和離線數(shù)據(jù),可有效避免數(shù)據(jù)不一致、數(shù)據(jù)重復存儲和重復計算;(4)統(tǒng)一存儲:支持海量數(shù)據(jù)回溯能力,通過數(shù)據(jù)分級存儲機制,降低存儲成本;(5)統(tǒng)一分析:提供統(tǒng)一實時的數(shù)據(jù)查詢與分析能力,快速支撐實時應用。
2.2.3 異構數(shù)據(jù)分層存儲架構
根據(jù)數(shù)據(jù)時間周期與訪問頻率實施分級分層存儲架構建設,有效實現(xiàn)對海量數(shù)據(jù)資產的長周期保存,為數(shù)據(jù)高效應用打下堅實基礎(見圖3)。針對數(shù)據(jù)的訪問頻率要求,采用對應的Hadoop集群、MPP集群和Redis集群實施分級存儲,平均每T數(shù)據(jù)處理存儲成本僅為傳統(tǒng)方式(SAN存儲)的35%。
圖3 異構數(shù)據(jù)分層存儲架構
2.3.1 數(shù)據(jù)資產分層體系
基于數(shù)據(jù)處理架構的建設擴充底層數(shù)據(jù)源能力,從業(yè)務角度構建數(shù)據(jù)資產分層體系,對數(shù)據(jù)資產進行組織和分類管理,細分基礎資產、特征資產和應用資產,豐富數(shù)據(jù)資產層建設、持續(xù)夯實能力基礎,更精確的支撐客戶需求。
(1)形成基礎資產:基礎資產是圍繞B、O、M各域中跨域、跨系統(tǒng)、跨平臺的業(yè)務數(shù)據(jù),可概括為個人、組織、家庭、資源、物聯(lián)網、時間、區(qū)域設施、字典信息等主題域。(2)豐富特征資產:特征資產是基于基礎資產按需加工處理,結合行業(yè)特征挖掘高可用的數(shù)據(jù)資產?;诳蛻絷P系、上網內容、位置3大類數(shù)據(jù)源進行融合分析挖掘,采用專業(yè)算法在數(shù)據(jù)特征資產的基礎上構建標簽體系和模型指標體系。(3)完善應用資產:應用資產是將業(yè)務條線上數(shù)據(jù)應用領域涉及的所有數(shù)據(jù)維度進行匯總,形成重要應用領域的數(shù)據(jù)資產。應用資產按運營商業(yè)務維度可分為個人客戶、集團客戶、家庭客戶、競爭對手、終端信息、產品信息、校園客戶、渠道、KPI、報表對內10大業(yè)務主題域;從支撐行業(yè)維度可分為旅游、金融、城市管理、交通、醫(yī)療、公共服務、安防、商貿8大行業(yè)主題域。
2.3.2 數(shù)據(jù)資產管理平臺
建設以DataOps理念為核心的數(shù)據(jù)資產管理平臺,融合元數(shù)據(jù)、數(shù)據(jù)質量、數(shù)據(jù)標準、數(shù)據(jù)模型、數(shù)據(jù)安全等9大管理工具,實現(xiàn)數(shù)據(jù)資產的需求、變更、建設、存儲、應用、維護、安全等各方面的管理覆蓋[3](見圖4)。
圖4 數(shù)據(jù)資產管理平臺體系
(1)數(shù)據(jù)源管理:保障數(shù)據(jù)源質量要求,涵蓋外部數(shù)據(jù)源引入管理、數(shù)據(jù)源分類、數(shù)據(jù)源配置等功能模塊。(2)元數(shù)據(jù)管理:提升數(shù)據(jù)間關聯(lián)性,涵蓋數(shù)據(jù)資產創(chuàng)建、元數(shù)據(jù)多樣化采集、信息標準化校準、元信息快速探查等功能模塊。(3)數(shù)據(jù)質量管理:持續(xù)提升數(shù)據(jù)質量,形成良性閉環(huán)管理,涵蓋資產信息稽核規(guī)則設置、稽核監(jiān)控分析、問題預警等功能模塊。(4)數(shù)據(jù)標準管理:提供全景可視化統(tǒng)一管控,涵蓋存儲介質管理、存儲周期規(guī)范、建表規(guī)范、分區(qū)規(guī)范等功能模塊。(5)主數(shù)據(jù)管理:提升數(shù)據(jù)資產管理水平,降低整體管理成本和運營風險,涵蓋主數(shù)據(jù)標準化管理、數(shù)據(jù)創(chuàng)建、更新、清洗、發(fā)布等功能模塊。(6)數(shù)據(jù)模型管理:強化數(shù)據(jù)模型管理能力,涵蓋數(shù)據(jù)模型目錄增刪改、數(shù)據(jù)模型信息條件搜索、變更記錄、版本查詢等功能模塊。(7)數(shù)據(jù)資產報告:提供可視化資產趨勢分析,涵蓋數(shù)據(jù)資產分布信息、數(shù)據(jù)資產變化趨勢、統(tǒng)計指標與分析等功能模塊。(8)數(shù)據(jù)共享服務管理:規(guī)范資產能力分享,涵蓋數(shù)據(jù)目錄管理和數(shù)據(jù)服務管理功能模塊。(9)數(shù)據(jù)安全管理:實施雙重安全管控機制,涵蓋敏感數(shù)據(jù)掃描、定期全量數(shù)據(jù)敏感信息監(jiān)控、動態(tài)監(jiān)控、安全管控建議等功能模塊。
基于數(shù)據(jù)資產管理運營體系,打造大數(shù)據(jù)開放中臺架構,深度演進數(shù)據(jù)及業(yè)務中臺,圍繞數(shù)據(jù)資產化、能力服務化的總體思路,以數(shù)據(jù)開放、信息共享為基石,以融合、融通、融智為目標,對內重點建設數(shù)據(jù)中臺及大數(shù)據(jù)資產管理平臺,提升數(shù)據(jù)匯聚、數(shù)據(jù)治理、數(shù)據(jù)共享能力,對外向前臺應用、業(yè)務中臺輸出核心資產能力,挖掘和發(fā)揮數(shù)據(jù)資產價值并促進持續(xù)增值,實現(xiàn)數(shù)據(jù)資產對內賦能[4](見圖5)。
為滿足業(yè)務需求及市場發(fā)展要求,實施中臺架構演進。將公共業(yè)務能力、數(shù)據(jù)能力和技術能力下沉至中臺,以服務化方式為行業(yè)客戶提供強有力支撐,實現(xiàn)開發(fā)標準化,提升應用支撐效率;從技術架構、數(shù)據(jù)架構、應用架構3條線入手,打造“生產、運營、管理”3域協(xié)同的中臺能力體系并持續(xù)運營,提升數(shù)據(jù)中臺和業(yè)務中臺綜合效能。
中臺服務技術主要通過服務封裝的方式,面向應用提供數(shù)據(jù)和業(yè)務能力服務支撐,主要的技術包括:接口封裝、界面封裝、組件封裝、模型封裝等。
運用Pulsar+Flink流原生技術,演進“彈性擴展、多租戶隔離、數(shù)據(jù)分層存儲、數(shù)據(jù)在離線分析”的批流一體大數(shù)據(jù)處理架構,提高實時數(shù)據(jù)處理能力;構建“高效、實時、融合”的實時數(shù)倉,大幅提高了實時數(shù)據(jù)的處理能力,數(shù)據(jù)處理每秒達到千萬級,并對低時延數(shù)據(jù)及服務的全方位支撐,滿足實時業(yè)務需求。
根據(jù)數(shù)據(jù)資產價值,構建異構數(shù)據(jù)處理和存儲架構,將數(shù)據(jù)分散到MPP、MySQL數(shù)據(jù)庫和分布式存儲上;采用x86化的MPP數(shù)據(jù)庫實現(xiàn)基于海量標簽的客群挖掘與計算,與傳統(tǒng)Oracle相比,硬件成本降低了40%,數(shù)據(jù)處理分析效率提高了50%;實現(xiàn)了精確到分鐘級的日數(shù)據(jù)實時展現(xiàn)。
通過建設數(shù)據(jù)資產管理運營體系提升數(shù)據(jù)資產全面管理能力,實施全方位資產管理流程,通過建設數(shù)據(jù)中臺實現(xiàn)數(shù)據(jù)資產開放賦能核心業(yè)務,實現(xiàn)數(shù)據(jù)資產“可見、可用、可運營”;已覆蓋個人、群體、企業(yè)、位置、AI五大類核心服務場景;面向政府、公安、醫(yī)療、金融等行業(yè)客戶賦能大數(shù)據(jù)商機項目,通過提升能力使用程度、數(shù)量及范圍,帶動能力生態(tài)繁榮發(fā)展。
本文研究基于運用Pulsar+Flink流原生技術,演進批流一體化架構,提高實時數(shù)據(jù)處理能力;構建實時數(shù)倉,支撐客戶規(guī)?;洜I;通過Pulsar存儲與計算分離功能,實現(xiàn)了彈性擴展能力,處理能力提升1倍,能夠支撐每天5 000億多的實時數(shù)據(jù)處理能力,高效支撐數(shù)據(jù)資產管理運營體系建設。通過構建數(shù)據(jù)資產分層體系,打造數(shù)據(jù)資產管理平臺,實現(xiàn)資產全流程管控,支撐中臺能力服務高效演進。此研究已廣泛服務于旅游、交通、公安、金融、工商等重點行業(yè),助力行業(yè)數(shù)字化轉型,服務社會民生,提升了江蘇移動企業(yè)影響力。
文章提出了基于運營商大數(shù)據(jù)能力及技術構建數(shù)據(jù)資產管理運營體系的研究成果。此研究成果依托大數(shù)據(jù)資產能力建設,面向行業(yè)客戶提供智慧、高效的大數(shù)據(jù)產品服務和DICT綜合服務,覆蓋金融征信風控、景區(qū)游客洞察、城市規(guī)劃、重大活動保障等大數(shù)據(jù)業(yè)務場景,取得顯著的經濟效益和社會效益。