“基于大數(shù)據(jù)的互聯(lián)網(wǎng)化存量經(jīng)營(yíng)”項(xiàng)目組,“基于用戶感知的運(yùn)維轉(zhuǎn)型”項(xiàng)目組
(中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司上海分公司 上海 200122)
數(shù)據(jù)業(yè)務(wù)的爆炸式增長(zhǎng)并未給運(yùn)營(yíng)商帶來(lái)收入的飛速增長(zhǎng),兩者差距擴(kuò)大的趨勢(shì)日益明顯。同時(shí),各類OTT應(yīng)用也動(dòng)搖了運(yùn)營(yíng)商短信和語(yǔ)音收入的基礎(chǔ)。新用戶數(shù)量增長(zhǎng)乏力,而存量用戶10多倍于新用戶,從而增量經(jīng)營(yíng)體系向新型存量經(jīng)營(yíng)體系轉(zhuǎn)變是運(yùn)營(yíng)商現(xiàn)實(shí)的選擇。存量經(jīng)營(yíng)的核心理念是以大數(shù)據(jù)為驅(qū)動(dòng)引擎,使整體存量經(jīng)營(yíng)向精準(zhǔn)營(yíng)銷、個(gè)性化服務(wù)轉(zhuǎn)變。運(yùn)營(yíng)商大數(shù)據(jù)包含用戶、終端、業(yè)務(wù)、網(wǎng)絡(luò)、經(jīng)營(yíng)、客服等全量數(shù)據(jù),具有巨大的商業(yè)潛力。運(yùn)營(yíng)商大數(shù)據(jù)存量經(jīng)營(yíng)是通過(guò)深度挖掘大數(shù)據(jù)價(jià)值,支撐用戶維系挽留(以下簡(jiǎn)稱維挽)、通信價(jià)值提升和非通信價(jià)值變現(xiàn)等商業(yè)場(chǎng)景,這些都需要運(yùn)營(yíng)商先進(jìn)的大數(shù)據(jù)平臺(tái)以及建模技術(shù)作為基礎(chǔ)。首先,通過(guò)大數(shù)據(jù)平臺(tái)將用戶、產(chǎn)品、渠道和營(yíng)銷4個(gè)關(guān)鍵要素融為一體,實(shí)現(xiàn)運(yùn)營(yíng)從“粗放型”向“精細(xì)化”的過(guò)渡;其次,通過(guò)大數(shù)據(jù)建模實(shí)現(xiàn)用戶洞察和全生命周期價(jià)值,基于用戶偏好匹配業(yè)務(wù)資源,并利用互聯(lián)網(wǎng)化的渠道體系實(shí)現(xiàn)場(chǎng)景化接觸與干預(yù),按照用戶個(gè)性化需求進(jìn)行營(yíng)銷活動(dòng)。
存量經(jīng)營(yíng)商業(yè)價(jià)值的成功是運(yùn)營(yíng)商大數(shù)據(jù)創(chuàng)新的最大訴求。存量經(jīng)營(yíng)的商業(yè)場(chǎng)景主要包括:對(duì)內(nèi)支撐用戶維挽、通信價(jià)值提升等運(yùn)營(yíng)活動(dòng);開(kāi)展對(duì)外數(shù)據(jù)合作,實(shí)現(xiàn)非通信價(jià)值變現(xiàn),應(yīng)用于廣告投放、零售選址、交通規(guī)劃等行業(yè)領(lǐng)域。圖1顯示了運(yùn)營(yíng)商存量經(jīng)營(yíng)的3類商業(yè)場(chǎng)景,具體介紹如下。
·用戶維挽:通過(guò)大數(shù)據(jù)建模精準(zhǔn)預(yù)測(cè)潛在離網(wǎng)用戶,分析用戶的離網(wǎng)成本,進(jìn)行個(gè)性化維挽,可以實(shí)現(xiàn)用戶維挽與成本資源配置的協(xié)調(diào),將資源向高價(jià)值、高離網(wǎng)概率用戶傾斜,提升存量用戶數(shù)及業(yè)務(wù)收入的保有率。
·通信價(jià)值提升:長(zhǎng)期以來(lái),運(yùn)營(yíng)商缺少對(duì)用戶潛在價(jià)值和社會(huì)傳播價(jià)值的二次開(kāi)發(fā)。把握存量經(jīng)營(yíng)的價(jià)值規(guī)律,盡早實(shí)現(xiàn)存量用戶潛在消費(fèi)能力的釋放,不僅可以實(shí)現(xiàn)收入倍增,而且可以帶來(lái)良好的社會(huì)品牌傳播效益,助推經(jīng)營(yíng)局面的進(jìn)一步優(yōu)化。通過(guò)大數(shù)據(jù)分析挖掘用戶終端、套餐、偏好、位置等數(shù)據(jù)信息,可以針對(duì)不同用戶個(gè)性化營(yíng)銷通信疊加包、定向包等產(chǎn)品,釋放用戶潛在價(jià)值。
·非通信價(jià)值變現(xiàn):通過(guò)大數(shù)據(jù)平臺(tái)聚合用戶數(shù)據(jù),經(jīng)過(guò)脫敏加密將數(shù)據(jù)封裝成標(biāo)準(zhǔn)產(chǎn)品服務(wù),面向行業(yè)合作伙伴開(kāi)展業(yè)務(wù),提供商業(yè)數(shù)據(jù)分析服務(wù)、廣告投放支撐、移動(dòng)支付系統(tǒng),實(shí)現(xiàn)運(yùn)營(yíng)商大數(shù)據(jù)資產(chǎn)的非通信價(jià)值變現(xiàn),前景十分廣闊。
存量經(jīng)營(yíng)的核心是對(duì)大數(shù)據(jù)的管理分析和挖掘,如何實(shí)現(xiàn)商業(yè)價(jià)值。運(yùn)營(yíng)商組織結(jié)構(gòu)復(fù)雜,產(chǎn)品和業(yè)務(wù)種類繁多,數(shù)據(jù)量巨大,數(shù)據(jù)管理和挖掘的挑戰(zhàn)很大。盡管運(yùn)營(yíng)商擁有強(qiáng)大而完備的IT系統(tǒng)能力,但受到運(yùn)營(yíng)商傳統(tǒng)“重計(jì)費(fèi)、輕管理”技術(shù)思維的影響,除了計(jì)費(fèi)方面的能力比較突出外,運(yùn)營(yíng)商在大數(shù)據(jù)的商業(yè)價(jià)值挖掘方面存在很大不足。在大數(shù)據(jù)時(shí)代,運(yùn)營(yíng)商數(shù)據(jù)管理的機(jī)制和能力還很薄弱,客觀制約了各種數(shù)據(jù)潛在價(jià)值的挖掘。運(yùn)營(yíng)商當(dāng)前數(shù)據(jù)處理系統(tǒng)的主要問(wèn)題為:缺乏統(tǒng)一的大數(shù)據(jù)平臺(tái),未能統(tǒng)一進(jìn)行數(shù)據(jù)管理,包括數(shù)據(jù)采集、存儲(chǔ)、共享和處理等;缺乏有效的數(shù)據(jù)建模技術(shù),未能充分發(fā)掘大數(shù)據(jù)商業(yè)價(jià)值。
(1)缺乏統(tǒng)一的大數(shù)據(jù)管理平臺(tái)
首先,運(yùn)營(yíng)商主要的數(shù)據(jù)源有:O域的CS/PS信令數(shù)據(jù)、網(wǎng)管數(shù)據(jù)、位置數(shù)據(jù)等;B域的計(jì)費(fèi)、營(yíng)賬、客服、增值業(yè)務(wù)數(shù)據(jù)等。采集渠道多,通常分級(jí)、分地區(qū)、分系統(tǒng)建設(shè),投資重復(fù),整體規(guī)劃不足,數(shù)據(jù)標(biāo)準(zhǔn)化程度低,指標(biāo)口徑不一,字段含義不一,無(wú)法形成有效的數(shù)據(jù)資產(chǎn)。
其次,在運(yùn)營(yíng)商當(dāng)前的垂直體系架構(gòu)中,每一個(gè)數(shù)據(jù)應(yīng)用系統(tǒng)都是孤立建設(shè),導(dǎo)致不同系統(tǒng)間的數(shù)據(jù)難以共享、應(yīng)用上線慢。
最后,電信運(yùn)營(yíng)商建有以數(shù)據(jù)倉(cāng)庫(kù)為核心的經(jīng)營(yíng)分析系統(tǒng),通常采用小型機(jī)+高性能存儲(chǔ)架構(gòu)進(jìn)行建設(shè),針對(duì)傳統(tǒng)話單日志等結(jié)構(gòu)化數(shù)據(jù)設(shè)計(jì),不具備非結(jié)構(gòu)化數(shù)據(jù)與流數(shù)據(jù)的分析處理能力。
(2)缺乏大數(shù)據(jù)建模技術(shù)來(lái)發(fā)掘數(shù)據(jù)的商業(yè)價(jià)值
大數(shù)據(jù)建模需要高效的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,并根據(jù)業(yè)務(wù)場(chǎng)景合理地對(duì)數(shù)據(jù)進(jìn)行分析處理。首先,運(yùn)營(yíng)商數(shù)據(jù)建模手段單一,主要靠人工設(shè)定簡(jiǎn)單規(guī)則實(shí)現(xiàn),很少利用豐富的機(jī)器學(xué)習(xí)算法自動(dòng)分析數(shù)據(jù)的潛在價(jià)值;其次,運(yùn)營(yíng)商不清楚如何利用豐富的大數(shù)據(jù)實(shí)現(xiàn)業(yè)務(wù)目標(biāo),缺乏既了解運(yùn)營(yíng)商業(yè)務(wù),又了解大數(shù)據(jù)挖掘技術(shù)的跨領(lǐng)域人才。
大數(shù)據(jù)平臺(tái)的總體目標(biāo)是構(gòu)建統(tǒng)一的數(shù)據(jù)采集、存儲(chǔ)、挖掘與分析處理能力。平臺(tái)必須支持海量異構(gòu)數(shù)據(jù)源的采集,包括運(yùn)營(yíng)商內(nèi)部的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)和外部第三方數(shù)據(jù),并解決數(shù)據(jù)量暴增所帶來(lái)的存儲(chǔ)與計(jì)算性能問(wèn)題。
大數(shù)據(jù)平臺(tái)選用目前主流的Hadoop分布式系統(tǒng)?;贖adoop的大數(shù)據(jù)平臺(tái)不僅是底層分散的各種數(shù)據(jù)源的匯聚平臺(tái),更重要的是要在數(shù)據(jù)匯聚基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行有效跨域整合,并基于強(qiáng)大的數(shù)據(jù)挖掘分析模型,對(duì)上層應(yīng)用提供各種跨域數(shù)據(jù)分析能力,從而使應(yīng)用能專注于自身的業(yè)務(wù)邏輯,快速創(chuàng)新,促進(jìn)上層業(yè)務(wù)應(yīng)用百花齊放。大數(shù)據(jù)平臺(tái)的關(guān)鍵特點(diǎn)如下。
·基于Hadoop的x86服務(wù)器集群,支持強(qiáng)大的可擴(kuò)展能力,可以隨數(shù)據(jù)量增長(zhǎng)而平滑擴(kuò)容;將Hadoop與虛擬化云技術(shù)結(jié)合,可以實(shí)現(xiàn)更靈活的分布式資源管理能力;基于Hadoop流處理技術(shù),提供實(shí)時(shí)數(shù)據(jù)分布式處理能力。
·數(shù)據(jù)統(tǒng)一采集、存儲(chǔ)、整合、共享?;跀?shù)據(jù)透明訪問(wèn)模
塊提供數(shù)據(jù)統(tǒng)一訪問(wèn)管理,實(shí)現(xiàn)應(yīng)用與數(shù)據(jù)解耦,同時(shí)增強(qiáng)數(shù)據(jù)安全管控能力,提升用戶隱私保護(hù)能力。
·整合數(shù)據(jù)挖掘模型,構(gòu)建運(yùn)營(yíng)商統(tǒng)一的商業(yè)洞察與網(wǎng)絡(luò)洞察組件或模型庫(kù),提供統(tǒng)一的能力服務(wù),快速部署應(yīng)用。
基于Hadoop的大數(shù)據(jù)平臺(tái)系統(tǒng)架構(gòu)如圖2所示。架構(gòu)功能邏輯上主要包括三大塊:數(shù)據(jù)層、能力層、管理域,具體介紹如下。
數(shù)據(jù)層主要包括分布式ETL模塊、數(shù)據(jù)庫(kù)、數(shù)據(jù)透明訪問(wèn)模塊。
能力層主要包括大數(shù)據(jù)挖掘建?;A(chǔ)能力組件、商業(yè)洞察組件、網(wǎng)絡(luò)洞察組件、能力總線等模塊。其中,大數(shù)據(jù)挖掘建模基礎(chǔ)能力組件是大數(shù)據(jù)的加速器,主要提供數(shù)據(jù)擬合、聚類、機(jī)器學(xué)習(xí)等核心算法庫(kù),用于尋找數(shù)據(jù)間的關(guān)聯(lián)關(guān)系;也包括文本分析、語(yǔ)音分析、視頻分析、圖分析、自然語(yǔ)言處理、搜索引擎等各種類型的數(shù)據(jù)分析處理技術(shù);還包括數(shù)據(jù)分析集成開(kāi)發(fā)環(huán)境。能力層是整個(gè)大數(shù)據(jù)的核心,使大數(shù)據(jù)平臺(tái)區(qū)別于傳統(tǒng)數(shù)據(jù)中心,真正具備數(shù)據(jù)智能。能力層的大數(shù)據(jù)建模技術(shù)將在第5節(jié)進(jìn)行詳細(xì)介紹。
管理域主要包括系統(tǒng)管理與數(shù)據(jù)治理,系統(tǒng)管理主要管理軟硬件資源,提供簡(jiǎn)單易用的系統(tǒng)操作維護(hù)界面,包括集群安裝、部署管理、軟件升級(jí)管理、節(jié)點(diǎn)管理、服務(wù)管理、任務(wù)管理、配置管理、集群監(jiān)控、告警管理、日志管理等功能;數(shù)據(jù)治理主要管理系統(tǒng)內(nèi)存儲(chǔ)的數(shù)據(jù),包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)生命周期管理、數(shù)據(jù)安全管理等。
數(shù)據(jù)層的核心是數(shù)據(jù)整合和數(shù)據(jù)透明訪問(wèn)。數(shù)據(jù)整合主要采用統(tǒng)一任務(wù)調(diào)度控制所有ETL數(shù)據(jù)采集模塊。基于元數(shù)據(jù)配置執(zhí)行數(shù)據(jù)采集流程,完成數(shù)據(jù)采集、清洗、轉(zhuǎn)換、關(guān)聯(lián)、入庫(kù)等各種操作。通過(guò)外部數(shù)據(jù)源與大數(shù)據(jù)平臺(tái)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)傳輸、大數(shù)據(jù)平臺(tái)內(nèi)庫(kù)與庫(kù)之間的數(shù)據(jù)傳輸,實(shí)現(xiàn)對(duì)整個(gè)系統(tǒng)數(shù)據(jù)處理邏輯的全局調(diào)度。使用Hadoop的MapReduce技術(shù),分布式并行執(zhí)行各種操作,整個(gè)采集性能非常高,較之傳統(tǒng)ETL算法,性能提高10倍以上。數(shù)據(jù)整合模塊的框架如圖3所示。
基于每種數(shù)據(jù)庫(kù)的特點(diǎn),可以靈活配置數(shù)據(jù)存儲(chǔ)策略,優(yōu)化系統(tǒng)性能。Hadoop存儲(chǔ)ODS操作型數(shù)據(jù)和非結(jié)構(gòu)化用戶詳單數(shù)據(jù),如用戶上網(wǎng)日志、用戶詳單原始數(shù)據(jù);MPP數(shù)據(jù)庫(kù)存儲(chǔ)明細(xì)數(shù)據(jù)與輕度匯總數(shù)據(jù);主數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)高度匯總數(shù)據(jù)、報(bào)表數(shù)據(jù)、多維數(shù)據(jù)、標(biāo)簽庫(kù)、指標(biāo)庫(kù)等結(jié)果數(shù)據(jù)。
數(shù)據(jù)透明訪問(wèn)模塊提供統(tǒng)一的數(shù)據(jù)訪問(wèn)接口,屏蔽底層數(shù)據(jù)庫(kù)的差異及數(shù)據(jù)位置的影響,降低應(yīng)用和數(shù)據(jù)耦合,提高開(kāi)放性和標(biāo)準(zhǔn)化,使大數(shù)據(jù)平臺(tái)能夠更高效地服務(wù)于上層應(yīng)用與數(shù)據(jù)分析能力組件。數(shù)據(jù)透明訪問(wèn)模塊將數(shù)據(jù)封裝為獨(dú)立的服務(wù)實(shí)體,提供標(biāo)準(zhǔn)化的交互接口,供內(nèi)部模塊或者外部系統(tǒng)調(diào)用,主要包括數(shù)據(jù)庫(kù)訪問(wèn)路由、負(fù)載均衡、SQL方言轉(zhuǎn)換、數(shù)據(jù)適配、緩存加速、安全控制以及數(shù)據(jù)訪問(wèn)日志統(tǒng)計(jì)等功能。
實(shí)施數(shù)據(jù)透明訪問(wèn)主要實(shí)現(xiàn)的目標(biāo)如下。
·建立數(shù)據(jù)服務(wù)的標(biāo)準(zhǔn)化接口,降低數(shù)據(jù)依賴,促進(jìn)信息共享和應(yīng)用重用:通過(guò)有效組織內(nèi)部數(shù)據(jù)處理邏輯,提供標(biāo)準(zhǔn)化的對(duì)外服務(wù)接口,提高在安全、分布式事務(wù)處理方面的能力,降低應(yīng)用與具體數(shù)據(jù)結(jié)構(gòu)的依賴關(guān)系,提升應(yīng)用的可擴(kuò)展性和可重用性。
·通過(guò)數(shù)據(jù)共享開(kāi)放數(shù)據(jù)服務(wù),提升與外部系統(tǒng)的互動(dòng)能力:將數(shù)據(jù)共享為數(shù)據(jù)Web服務(wù),提供同步響應(yīng)、異步響應(yīng)、發(fā)布訂閱、數(shù)據(jù)庫(kù)等多種數(shù)據(jù)服務(wù)模式,提高數(shù)據(jù)訪問(wèn)的開(kāi)放性和靈活性。
數(shù)據(jù)透明訪問(wèn)模塊是內(nèi)部業(yè)務(wù)應(yīng)用及外部系統(tǒng)與數(shù)據(jù)層進(jìn)行數(shù)據(jù)交互的標(biāo)準(zhǔn)化接口,按功能又可分為數(shù)據(jù)訪問(wèn)接口、數(shù)據(jù)訪問(wèn)服務(wù)模塊兩部分,其架構(gòu)如圖4所示。
其中,數(shù)據(jù)訪問(wèn)接口通過(guò)消息模式、發(fā)布訂閱模式、數(shù)據(jù)庫(kù)模式等技術(shù)手段完成各種數(shù)據(jù)訪問(wèn)接口的適配。數(shù)據(jù)訪問(wèn)服務(wù)層是具體的服務(wù)實(shí)體,完成具體的數(shù)據(jù)訪問(wèn)處理邏輯和數(shù)據(jù)操作等功能。數(shù)據(jù)訪問(wèn)服務(wù)主要負(fù)責(zé)對(duì)接收到的請(qǐng)求方的消息進(jìn)行控制和管理,各類應(yīng)用作為數(shù)據(jù)訪問(wèn)服務(wù)的請(qǐng)求方,發(fā)送請(qǐng)求消息給數(shù)據(jù)訪問(wèn)服務(wù)層,當(dāng)數(shù)據(jù)訪問(wèn)服務(wù)模塊接收到具體請(qǐng)求后,對(duì)請(qǐng)求的消息進(jìn)行訪問(wèn)權(quán)限管理、SQL解析、SQL方言翻譯,通過(guò)元數(shù)據(jù)查找數(shù)據(jù)具體位置,最后路由到相應(yīng)數(shù)據(jù)庫(kù)執(zhí)行數(shù)據(jù)庫(kù)操作,并返回結(jié)果給數(shù)據(jù)訪問(wèn)服務(wù)請(qǐng)求方。數(shù)據(jù)訪問(wèn)服務(wù)中的關(guān)鍵功能模塊說(shuō)明如下。
·元數(shù)據(jù)接口:從外部導(dǎo)入元數(shù)據(jù)的接口,以了解數(shù)據(jù)、數(shù)據(jù)表在各個(gè)數(shù)據(jù)源的數(shù)據(jù)分布以及生命周期。
·SQL解析:對(duì)SQL進(jìn)行解析,拆解出表字段以及表關(guān)聯(lián)關(guān)系,通過(guò)元數(shù)據(jù)獲取表的物理位置。
·SQL方言翻譯:不同的數(shù)據(jù)庫(kù)或者SQL on Hadoop引擎有不同的優(yōu)化,可將通用的SQL轉(zhuǎn)換成其專有的SQL。
·SQL計(jì)劃:對(duì)SQL進(jìn)行優(yōu)化,轉(zhuǎn)換成實(shí)際執(zhí)行的SQL。
·SQL調(diào)度與路由:根據(jù)元數(shù)據(jù)優(yōu)化對(duì)具體數(shù)據(jù)源的實(shí)際SQL執(zhí)行。
·計(jì)算引擎:歸并各個(gè)數(shù)據(jù)源的返回結(jié)果。
·數(shù)據(jù)庫(kù)連接管理:管理實(shí)際連接各個(gè)數(shù)據(jù)庫(kù)的連接。
·會(huì)話管理:對(duì)所有訪問(wèn)作為會(huì)話進(jìn)行管理控制,維護(hù)連接關(guān)系。
·訪問(wèn)權(quán)限管理:對(duì)訪問(wèn)請(qǐng)求方進(jìn)行用戶權(quán)限控制,防止非法訪問(wèn)。
·數(shù)據(jù)安全控制:對(duì)隱私數(shù)據(jù)和需要保護(hù)的數(shù)據(jù)根據(jù)用戶訪問(wèn)權(quán)限進(jìn)行加解密處理。
·負(fù)載均衡:基于每個(gè)數(shù)據(jù)庫(kù)服務(wù)器的訪問(wèn)負(fù)荷自動(dòng)調(diào)節(jié)數(shù)據(jù)訪問(wèn)目的地,實(shí)現(xiàn)所有數(shù)據(jù)庫(kù)服務(wù)器的負(fù)載分?jǐn)偂?/p>
·緩存加速:對(duì)熱點(diǎn)訪問(wèn)數(shù)據(jù)進(jìn)行緩存管理,后續(xù)直接訪問(wèn)緩存即可,既提高訪問(wèn)效率又減輕數(shù)據(jù)庫(kù)負(fù)荷。
管理域包括數(shù)據(jù)治理和系統(tǒng)管理,核心是數(shù)據(jù)治理,包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)生命周期管理、數(shù)據(jù)安全管理。元數(shù)據(jù)管理對(duì)系統(tǒng)內(nèi)所有數(shù)據(jù)進(jìn)行定義與管理,是數(shù)據(jù)治理的核心,保證數(shù)據(jù)描述的準(zhǔn)確性、一致性、端到端可管理。數(shù)據(jù)質(zhì)量管理是確定哪種級(jí)別的數(shù)據(jù)質(zhì)量屬于“足夠好”的質(zhì)量,以滿足上層應(yīng)用的需求。數(shù)據(jù)生命周期管理就是制定數(shù)據(jù)存檔策略,確保存儲(chǔ)成本不會(huì)超出控制,同時(shí)滿足組織設(shè)定的數(shù)據(jù)保留計(jì)劃,以便按照法規(guī)要求合理處置數(shù)據(jù)。數(shù)據(jù)安全管理是數(shù)據(jù)治理的另一個(gè)關(guān)鍵功能,企業(yè)必須嚴(yán)格關(guān)注并遵守用戶隱私方面的法律法規(guī),將用戶真實(shí)標(biāo)識(shí)與用戶行為進(jìn)行邏輯隔離,在架構(gòu)上能夠分開(kāi)隱私域與非隱私域、敏感數(shù)據(jù)和非敏感數(shù)據(jù)、可對(duì)外呈現(xiàn)和不可對(duì)外呈現(xiàn)的數(shù)據(jù)。
大數(shù)據(jù)的數(shù)據(jù)量很大,配置管理元數(shù)據(jù)的工作量也會(huì)非常大。從方案上需要考慮從各數(shù)據(jù)源中直接獲取元數(shù)據(jù),要求支持手工獲取和自動(dòng)獲取兩種方式:對(duì)于自動(dòng)獲取方式,需要提供適配器管理,并能夠提供SQL解析和API抽取元數(shù)據(jù)等功能;對(duì)于手工獲取方式,需要提供與各種元數(shù)據(jù)相適應(yīng)的元數(shù)據(jù)手工錄入功能。
大數(shù)據(jù)平臺(tái)需要端到端考慮數(shù)據(jù)的安全性,從物理安全、基礎(chǔ)設(shè)施安全、網(wǎng)絡(luò)安全、管理安全、數(shù)據(jù)安全5個(gè)層次都做好充分考慮。通過(guò)網(wǎng)絡(luò)隔離,保證數(shù)據(jù)處理、存儲(chǔ)安全和維護(hù)正常運(yùn)行;通過(guò)對(duì)Hadoop集群內(nèi)節(jié)點(diǎn)的操作系統(tǒng)進(jìn)行安全加固等,保證節(jié)點(diǎn)正常運(yùn)行;從身份認(rèn)證、權(quán)限控制、審計(jì)控制等方面做好管理安全措施;從集群容災(zāi)、備份、數(shù)據(jù)完整性、數(shù)據(jù)保密性等方面,保證用戶數(shù)據(jù)以及隱私數(shù)據(jù)的安全;用戶隱私安全需重點(diǎn)關(guān)注,在數(shù)據(jù)架構(gòu)上要考慮將用戶真實(shí)標(biāo)識(shí)與用戶行為進(jìn)行邏輯隔離,分開(kāi)隱私域與非隱私域、敏感數(shù)據(jù)和非敏感數(shù)據(jù)、對(duì)外呈現(xiàn)可識(shí)別和不可識(shí)別等。
大數(shù)據(jù)平臺(tái)能力層的核心是數(shù)據(jù)建模技術(shù),大數(shù)據(jù)需要先進(jìn)的建模挖掘技術(shù)才能發(fā)揮應(yīng)有的價(jià)值,是實(shí)現(xiàn)互聯(lián)網(wǎng)化存量經(jīng)營(yíng)的關(guān)鍵。模型的構(gòu)建需要根據(jù)業(yè)務(wù)目標(biāo),合理選擇目標(biāo)函數(shù)y=f(x;θ)和優(yōu)化函數(shù)參數(shù) θ,這個(gè)過(guò)程統(tǒng)稱為數(shù)據(jù)建模。其中,目標(biāo)函數(shù)的輸入x和輸出y需要業(yè)務(wù)人員的精確定義,而模型選擇和具體參數(shù)調(diào)試或者長(zhǎng)期的函數(shù)模型設(shè)計(jì),需要數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)專家參與,因此大數(shù)據(jù)建模是一個(gè)需要跨領(lǐng)域合作的挑戰(zhàn)性很高的項(xiàng)目。好的模型能輸出業(yè)務(wù)人員期望看到的可執(zhí)行知識(shí),協(xié)助業(yè)務(wù)人員調(diào)整策略實(shí)現(xiàn)更好的存量經(jīng)營(yíng)。目前,互聯(lián)網(wǎng)企業(yè)如百度、騰訊和阿里廣泛使用大數(shù)據(jù)建模技術(shù),以提供更佳的用戶體驗(yàn)。本文簡(jiǎn)單介紹一下中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司上海分公司(以下簡(jiǎn)稱上海聯(lián)通)采用若干大數(shù)據(jù)技術(shù),通過(guò)用戶離網(wǎng)預(yù)測(cè)大數(shù)據(jù)模型實(shí)現(xiàn)更優(yōu)的存量經(jīng)營(yíng),可以自動(dòng)精準(zhǔn)定位存量經(jīng)營(yíng)的用戶對(duì)象目標(biāo),從而以較小的成本實(shí)現(xiàn)較高的回報(bào)。
用戶離網(wǎng)預(yù)測(cè)模型流程包括4個(gè)步驟:輸入數(shù)據(jù)清理;特征提取和樣本標(biāo)注;隨機(jī)森林模型訓(xùn)練;使用模型輸出預(yù)測(cè)結(jié)果,如圖5所示。
上海聯(lián)通每個(gè)月預(yù)付費(fèi)用戶離網(wǎng)數(shù)量大約為20萬(wàn)戶,如果挽留30%的用戶,每個(gè)用戶平均貢獻(xiàn)75元左右,那么一年(12個(gè)月)的存量收入大約是5 000多萬(wàn)元。但是,普通業(yè)務(wù)規(guī)則無(wú)法準(zhǔn)確判斷每個(gè)用戶的離網(wǎng)傾向和離網(wǎng)的時(shí)間點(diǎn),使得維系挽留的成本過(guò)高。例如,資源很大一部分投入離網(wǎng)傾向低的用戶,并未提高挽留的用戶總數(shù)。通過(guò)大數(shù)據(jù)建立模型可以更加精準(zhǔn)地學(xué)習(xí)離網(wǎng)用戶的畫像,并針對(duì)性地設(shè)計(jì)維系挽留策略,從而使得有限的資源達(dá)到最優(yōu)的使用效率。
用戶離網(wǎng)預(yù)測(cè)模型中,輸入的用戶行為特征x是每個(gè)用戶的歷史話單、賬單和網(wǎng)絡(luò)側(cè)記錄。通過(guò)歷史記錄標(biāo)注離網(wǎng)用戶和在網(wǎng)用戶,并通過(guò)兩類用戶的歷史,例如提前1~2個(gè)月的記錄,訓(xùn)練一個(gè)分類函數(shù)y=f(x;θ)。其中,目標(biāo)y就是每個(gè)用戶的離網(wǎng)概率或者傾向。通過(guò)歷史標(biāo)注的記錄{y,x},利用機(jī)器學(xué)習(xí)算法估計(jì)模型的參數(shù)θ。模型參數(shù)確定好之后,可以利用模型函數(shù),給定新的用戶記錄xnew,輸出離網(wǎng)概率ynew=f(xnew;θ)??紤]到用戶離網(wǎng)數(shù)據(jù)隨時(shí)間不斷變化,需要?jiǎng)討B(tài)地學(xué)習(xí)模型參數(shù),使得預(yù)測(cè)精度有所保證。首先需要從話單、賬單、客服數(shù)據(jù)和網(wǎng)絡(luò)側(cè)數(shù)據(jù)中抽取在網(wǎng)和離網(wǎng)用戶的特征x,并根據(jù)業(yè)務(wù)人員定義的離網(wǎng)條件給出標(biāo)注y訓(xùn)練模型。目前選擇的是業(yè)界較先進(jìn)的隨機(jī)森林模型[1],通過(guò)組合幾百棵決策樹,預(yù)測(cè)每個(gè)用戶的離網(wǎng)傾向。隨機(jī)森林模型的目標(biāo)函數(shù)如下:
其中,x是輸入的用戶電信行為特征,θb是每一個(gè)決策樹的參數(shù),B是隨機(jī)森林中決策樹的棵數(shù),輸出的離網(wǎng)概率p離網(wǎng)是B棵決策樹輸出的平均概率。需要優(yōu)化隨機(jī)森林參數(shù)θb,1≤b≤B,使得離網(wǎng)用戶的概率高而在網(wǎng)用戶的概率低。該模型的訓(xùn)練算法采用隨機(jī)采樣并對(duì)信息增益進(jìn)行逐步排序挑選,實(shí)際速度很快,滿足生產(chǎn)系統(tǒng)需求。如圖5所示,模型輸出每個(gè)用戶在不同時(shí)間段的離網(wǎng)傾向,預(yù)測(cè)的離網(wǎng)用戶名單被送往離網(wǎng)用戶維系部門進(jìn)行針對(duì)性的維系活動(dòng)。
上海聯(lián)通已經(jīng)完成大數(shù)據(jù)平臺(tái)系統(tǒng)一期工程的建設(shè),融合了B側(cè)經(jīng)營(yíng)數(shù)據(jù)和O側(cè)網(wǎng)絡(luò),邏輯組網(wǎng)如圖6所示。
大數(shù)據(jù)建模的一個(gè)重要成果是使用模型輸出的結(jié)果產(chǎn)生商業(yè)價(jià)值。以上海聯(lián)通部署的大數(shù)據(jù)模型(用戶離網(wǎng)預(yù)測(cè)模型)為例,介紹大數(shù)據(jù)建模的成果。
圖7顯示了區(qū)分離網(wǎng)和在網(wǎng)用戶的主要特征并按照重要性(權(quán)重)進(jìn)行排序。其中最重要的3個(gè)特征包括ARPU值(用戶話費(fèi))、入網(wǎng)時(shí)長(zhǎng)和通話時(shí)長(zhǎng),ARPU值即用戶上個(gè)月的話費(fèi),是重要性最大的特征,其次是入網(wǎng)時(shí)長(zhǎng)和通話時(shí)間,這3個(gè)特征的重要性占所有特征重要性的大約60%,其余52個(gè)特征僅占重要性的40%。這個(gè)結(jié)果表明,有一些關(guān)鍵特征可以將離網(wǎng)用戶分辨出來(lái),而模型挑選的特征也是與電信業(yè)務(wù)人員的經(jīng)驗(yàn)相吻合的。
表1顯示了預(yù)付費(fèi)用戶離網(wǎng)預(yù)測(cè)模型在實(shí)際應(yīng)用中的表現(xiàn)。模型預(yù)測(cè)2014年5月份共467 820個(gè)用戶有離網(wǎng)傾向,業(yè)務(wù)人員從中隨機(jī)選擇了10 277個(gè)用戶外呼進(jìn)行維系挽留活動(dòng)(如充值送話費(fèi)等活動(dòng)),剩下的457 543個(gè)用戶作為對(duì)照組不進(jìn)行任何干預(yù)。業(yè)務(wù)人員評(píng)價(jià)模型的指標(biāo)是“充值率”,期望看到的結(jié)果是對(duì)照組的充值率明顯比在網(wǎng)用戶的平均充值率低(即一部分用戶離網(wǎng)),而外呼組比對(duì)照組的充值率高(即一部分用戶被成功挽留)。表1的結(jié)果符合業(yè)務(wù)人員的預(yù)期。例如,對(duì)照組的充值率為0.408 0,低于在網(wǎng)用戶平均充值率0.515 6大約20%;外呼組的充值率為0.560 4,相對(duì)對(duì)照組大幅提升約40%,表明維系活動(dòng)的確挽留了部分離網(wǎng)用戶,提高了存量經(jīng)營(yíng)的效率。
表1 用戶離網(wǎng)預(yù)測(cè)模型的實(shí)際效果
上海聯(lián)通從2013年下半年開(kāi)始啟動(dòng)存量經(jīng)營(yíng)大數(shù)據(jù)創(chuàng)新工作,至2014年上半年在用戶維挽、通信價(jià)值提升、非通信價(jià)值變現(xiàn)等方面都取得了較好的成果。依托大數(shù)據(jù)平臺(tái),精細(xì)化流量相關(guān)業(yè)務(wù)的營(yíng)銷成功率較先前提升了7.5個(gè)百分點(diǎn),客戶對(duì)增值業(yè)務(wù)類產(chǎn)品和營(yíng)銷的滿意度提升近10個(gè)百分點(diǎn)。首先,在用戶維挽方面,累計(jì)公眾存量用戶的保有率同比提升1.4個(gè)百分點(diǎn),累計(jì)后付費(fèi)用戶續(xù)約率同比提升16個(gè)百分點(diǎn),續(xù)約后用戶的APRU值有明顯提升。其次,在通信價(jià)值提升方面,新增各類數(shù)據(jù)疊加包用戶59萬(wàn)戶,同比增長(zhǎng)190%,環(huán)比2013年第4季度增長(zhǎng)70%左右。手機(jī)用戶的數(shù)據(jù)業(yè)務(wù)收入占比同比提升5.6個(gè)百分點(diǎn),3G用戶的戶均流量同比提升36%。最后,在非通信價(jià)值變現(xiàn)方面,與業(yè)界領(lǐng)先大數(shù)據(jù)挖掘公司簽訂基于大數(shù)據(jù)的互聯(lián)網(wǎng)標(biāo)簽應(yīng)用合作協(xié)議,與多家國(guó)際知名咨詢公司簽訂基于移動(dòng)軌跡信息的合作協(xié)議,在戶外傳媒廣告價(jià)值評(píng)估、零售店面選址規(guī)劃等項(xiàng)目中開(kāi)展合作。
大數(shù)據(jù)技術(shù)應(yīng)用于運(yùn)營(yíng)商存量經(jīng)營(yíng)是個(gè)嶄新的課題。上海聯(lián)通將存量經(jīng)營(yíng)和增量經(jīng)營(yíng)適當(dāng)分離,利用大數(shù)據(jù)技術(shù)手段,真正關(guān)注和了解存量用戶,持續(xù)挖掘和提升存量客戶的價(jià)值,是一種創(chuàng)新的嘗試,為運(yùn)營(yíng)商在傳統(tǒng)電信行業(yè)中經(jīng)營(yíng)轉(zhuǎn)型做出有益探索。當(dāng)前上海聯(lián)通在大數(shù)據(jù)平臺(tái)完成了一期建設(shè),初步構(gòu)建了統(tǒng)一的大數(shù)據(jù)采集與整合能力、分析處理能力以及應(yīng)用能力。大數(shù)據(jù)建模方面已經(jīng)開(kāi)發(fā)完成多個(gè)數(shù)據(jù)模型,應(yīng)用于多個(gè)商業(yè)場(chǎng)景,取得了較好效果。整體存量經(jīng)營(yíng)商業(yè)效果在2014年上半年取得明顯成果。
從未來(lái)發(fā)展來(lái)看,大數(shù)據(jù)技術(shù)在運(yùn)營(yíng)商存量經(jīng)營(yíng)中的應(yīng)用會(huì)越來(lái)越多。未來(lái)大數(shù)據(jù)會(huì)與云技術(shù)結(jié)合,具有更好的集群資源管理和處理能力。與物聯(lián)網(wǎng)結(jié)合,獲得更豐富的數(shù)據(jù)源信息。數(shù)據(jù)建模持續(xù)增強(qiáng),例如在語(yǔ)音處理、視頻處理、圖分析、自然語(yǔ)言處理等方面實(shí)現(xiàn)突破,真正實(shí)現(xiàn)大數(shù)據(jù)可比擬人視聽(tīng)的信息處理能力。數(shù)據(jù)可視化技術(shù),會(huì)有更強(qiáng)的數(shù)據(jù)可視化展現(xiàn)能力、方便人類洞察數(shù)據(jù)的能力。
1 Leo B.Random forests.Machine Learning,2001,45(1):5~32
2 Bishop C M.Pattern Recognition and Machine Learning.Springer,2006
3 Brin S,Page L.The anatomy of a large-scale hypertextual Web search engine.Computer Networks and ISDN Systems,1998(30):107~117
4 Mhashilkar K,Sarkar J. Formation integration: metadata management landscape.http://www.docin.com/p-598461808.html,2006