(中國移動(深圳)有限公司,廣東 深圳 518048)
大數(shù)據(jù)是指大小超出典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集合。由于處在大數(shù)據(jù)產(chǎn)業(yè)鏈中的數(shù)據(jù)傳遞和交換中心的地位,因此電信運(yùn)營商天然具有豐富的數(shù)據(jù)資源,可以進(jìn)行基于大數(shù)據(jù)的業(yè)務(wù)的獨(dú)特優(yōu)勢[1]。
運(yùn)營商大數(shù)據(jù)主要包含:用戶基本信息(姓名、性別、手機(jī)號碼等)、計(jì)費(fèi)信息(資費(fèi)數(shù)據(jù)、套餐訂購數(shù)據(jù)等)、業(yè)務(wù)信息(業(yè)務(wù)使用情況、互聯(lián)網(wǎng)訪問情況等)、位置信息(所在基站和小區(qū)位置等)、管理信息(財(cái)務(wù)數(shù)據(jù)、成本分?jǐn)倲?shù)據(jù)等)。
運(yùn)營商傳統(tǒng)的IT架構(gòu)中,主要通過BI(Business Intelligence,商業(yè)智能)系統(tǒng)完成數(shù)據(jù)的管理和分析[2]。在企業(yè)級數(shù)據(jù)倉庫基礎(chǔ)上,運(yùn)營商逐步引入了Hadoop[3]、Storm[4]、Spark[5]等平臺和技術(shù),以滿足大數(shù)據(jù)ETL(Extract-Transform-Load,抽取、轉(zhuǎn)換和加載)、大數(shù)據(jù)查詢、大數(shù)據(jù)分析計(jì)算等過程中的實(shí)時(shí)性和準(zhǔn)確性要求。
對于運(yùn)營商而言,電信大數(shù)據(jù)存在對內(nèi)支撐和對外應(yīng)用服務(wù)兩個(gè)層面。一直以來大數(shù)據(jù)都在幫助運(yùn)營商內(nèi)部各個(gè)業(yè)務(wù)部門進(jìn)行各種各樣的商業(yè)決策(如何安排每年上千億的網(wǎng)絡(luò)投資、如何分配數(shù)百億的營銷資源等),這是大數(shù)據(jù)價(jià)值的傳統(tǒng)陣地和主要的關(guān)注點(diǎn)。
隨著移動互聯(lián)網(wǎng)的快速發(fā)展和運(yùn)營商內(nèi)部“管道化”形勢的日趨嚴(yán)峻,挖掘運(yùn)營商內(nèi)部數(shù)據(jù)資產(chǎn)的商業(yè)價(jià)值,對外提供應(yīng)用服務(wù),實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)貨幣化,已經(jīng)成為國內(nèi)電信運(yùn)營商轉(zhuǎn)型的普遍方向[6]。
運(yùn)營商開展的大數(shù)據(jù)對外服務(wù)主要有以下方式:
(1)DaaS(Database as a Service,數(shù)據(jù)即服務(wù))[7]模式,即以API(Application Programming Interface,應(yīng)用程序編程接口)等方式為數(shù)據(jù)需求方提供脫敏數(shù)據(jù);
(2)SaaS(Software as a Service,軟件即服務(wù))[8]模式,即根據(jù)需求方要求,開發(fā)軟件產(chǎn)品并開放給需求方使用;
(3)PaaS(Platform as a Service,平臺即服務(wù))[9]模式,即建設(shè)大數(shù)據(jù)開放平臺,吸引第三方合作伙伴一起為需求方提供服務(wù),以多租戶方式進(jìn)行管理;
(4)咨詢服務(wù)模式,即根據(jù)需求方要求,提供定制化咨詢報(bào)告等服務(wù)。
當(dāng)前運(yùn)營商已開展了面向政府機(jī)構(gòu)(如旅游、交通、公安等政府管理部門)和商業(yè)企業(yè)(如航空公司、大型商場、互聯(lián)網(wǎng)金融公司等)的大數(shù)據(jù)對外服務(wù)的嘗試,業(yè)務(wù)應(yīng)用覆蓋交通管理、城市規(guī)劃、旅游管理、會員營銷、后向廣告、產(chǎn)品和服務(wù)推薦、金融授信、身份驗(yàn)證等各個(gè)領(lǐng)域。
用戶開關(guān)機(jī)、通話等業(yè)務(wù)過程中的位置切換等這些行為所產(chǎn)生的網(wǎng)絡(luò)信令,能夠深刻地洞察用戶日常生活軌跡,所以它構(gòu)成了運(yùn)營商現(xiàn)在最有價(jià)值的數(shù)據(jù)之一。面向外部行業(yè)的對外服務(wù)策略都是圍繞這些數(shù)據(jù)來制定的。
用戶位置信息相關(guān)的信令數(shù)據(jù)包括A口數(shù)據(jù)、Mc口數(shù)據(jù)、SGSN(Serving GPRS Support Node,服務(wù)GPRS支持節(jié)點(diǎn))數(shù)據(jù)、Gn口數(shù)據(jù)、LTE日志(TD網(wǎng)絡(luò)特有)、SGs口數(shù)據(jù)等,通過解析信令接口數(shù)據(jù)的LAC(Location Area Code,位置區(qū)碼)+CI(Cell ID,小區(qū)號)字段,可定位用戶的位置。當(dāng)用戶位置變化或發(fā)生業(yè)務(wù)時(shí),會引起位置信令數(shù)據(jù)的更新。用戶位置更新表結(jié)構(gòu)如表1所示:
表1 用戶位置更新表結(jié)構(gòu)
基礎(chǔ)模型一:用戶位移軌跡模型。將同一用戶一定時(shí)間周期內(nèi)的LAC+CI字段進(jìn)行拼接,可得到用戶在此時(shí)間周期內(nèi)的位置移動路徑。應(yīng)用中可根據(jù)實(shí)際需求設(shè)定時(shí)間周期間隔,如設(shè)置為24小時(shí),即可得到用戶在一天時(shí)間內(nèi)的位置軌跡。
基礎(chǔ)模型二:用戶常駐地模型。根據(jù)用戶在各小區(qū)的駐留時(shí)長及時(shí)間段特征(如白天時(shí)段09:00~18:00和夜間時(shí)段00:00~6:00),可識別出用戶的住所、上班地點(diǎn)等常駐地信息。
以用戶位置信息為基礎(chǔ),運(yùn)營商可面向多個(gè)外部行業(yè)及公共服務(wù)領(lǐng)域提供大數(shù)據(jù)應(yīng)用服務(wù)。
(1)旅游行業(yè)
輔助景區(qū)進(jìn)行游客信息實(shí)時(shí)動態(tài)監(jiān)測分析,一方面可以幫助景區(qū)管理人員實(shí)時(shí)掌握本景區(qū)游客流量、行進(jìn)線路等信息,及時(shí)開展人流疏導(dǎo)等及時(shí)服務(wù);另一方面為旅游管理部門提供大數(shù)據(jù)支持,不僅能夠及時(shí)了解各景區(qū)人流情況,提升監(jiān)管能力,還能夠?qū)τ慰蛠碓础⒂慰吞卣鞯冗M(jìn)行全方位分析統(tǒng)計(jì),為景點(diǎn)改進(jìn)、城市形象提升、旅游推廣等工作提供有效支撐。實(shí)現(xiàn)方法是:首先根據(jù)景區(qū)附近的LAC+CI篩選用戶;然后根據(jù)這些用戶在景區(qū)區(qū)域內(nèi)的歷史駐留時(shí)長,剔除景區(qū)工作人員群體及其他非游客特殊群體后,識別出游客的群體;最后結(jié)合地圖展示等可視化技術(shù),可直觀展示各景區(qū)及景區(qū)各區(qū)域的游客密度和游覽軌跡。
圖1是結(jié)合GIS地圖技術(shù)的景區(qū)人流監(jiān)測分析的應(yīng)用示例。
圖1 某景區(qū)內(nèi)各景點(diǎn)人流監(jiān)測分析
(2)征信服務(wù)
大數(shù)據(jù)技術(shù)使得“一切數(shù)據(jù)皆信用”成為可能[10]。基于用戶的常駐地、日常軌跡等信息,輔助構(gòu)建征信體系,為第三方提供授信決策,如婚戀網(wǎng)虛假會員識別、租車公司免押金租車、第三方小額貸款等。此類應(yīng)用服務(wù)中,位置類數(shù)據(jù)僅僅是征信體系構(gòu)建的一部分,但在設(shè)計(jì)信用評估標(biāo)準(zhǔn)時(shí),位置類大數(shù)據(jù)所反映的用戶特征往往在評分標(biāo)準(zhǔn)中會占據(jù)較大的評估權(quán)重。
圖2展示了如何利用五類電信大數(shù)據(jù)來輔助銀行、互聯(lián)網(wǎng)金融公司等機(jī)構(gòu)開展信貸審批。其中,電信位置類大數(shù)據(jù)作為重要的組成部分,為金融信貸審批提供了重要的補(bǔ)充參考。通過實(shí)際案例可知,假如某位用戶居住地經(jīng)常發(fā)生變化、工作地點(diǎn)經(jīng)常發(fā)生變化、月均上班天數(shù)很少,那么金融機(jī)構(gòu)在進(jìn)行貸款額度審核時(shí),往往會認(rèn)為其具有較高的逾期風(fēng)險(xiǎn)。金融機(jī)構(gòu)信貸發(fā)放完成后,還可以通過電信位置類大數(shù)據(jù)來跟蹤用戶拿到貸款后的日常生活軌跡變化情況,及時(shí)跟蹤并對可能的風(fēng)險(xiǎn)進(jìn)行預(yù)警。
圖2 征信案例:輔助金融機(jī)構(gòu)信貸審批的電信征信大數(shù)據(jù)體系
(3)交通路網(wǎng)監(jiān)測
輔助交通管理部門對路網(wǎng)運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測,及時(shí)發(fā)布路網(wǎng)擁堵情況預(yù)警(如節(jié)假日期間的高速路網(wǎng)流量監(jiān)控及預(yù)警)和交通疏導(dǎo)方案。實(shí)現(xiàn)方法是:根據(jù)各路網(wǎng)走向,將路網(wǎng)沿線小區(qū)的LAC+CI按順序進(jìn)行排列,并利用地圖等手段評估和記錄小區(qū)間的距離。當(dāng)用戶進(jìn)入路網(wǎng)小區(qū)后,根據(jù)用戶的動態(tài)位移方向可識別出用戶是否按特定道路行進(jìn),對于按道路行進(jìn)中的用戶,可根據(jù)小區(qū)間切換的時(shí)間差計(jì)算出用戶的位移速度,通過量的疊加能夠計(jì)算出道路的通行狀態(tài)。基于電信大數(shù)據(jù)來進(jìn)行交通路網(wǎng)監(jiān)測,具有數(shù)據(jù)樣本量大、數(shù)據(jù)質(zhì)量高、成本低、覆蓋廣等優(yōu)勢,并且能夠在較短的時(shí)間內(nèi)完成建設(shè)實(shí)施。
(4)面向商戶的服務(wù)
一方面,通過計(jì)算地市范圍內(nèi)各區(qū)域的人口密度特征及人流量特征,輔助商戶進(jìn)行店鋪選址,如彩票零售點(diǎn)選址。在開展這類應(yīng)用時(shí),往往還需要結(jié)合外部數(shù)據(jù)共同進(jìn)行分析,如已有的類似門店分布情況、類似區(qū)域的銷售數(shù)據(jù)等。
另一方面,利用常駐地歸屬來幫助商戶篩選目標(biāo)用戶,具體做法是找到某商戶附近的常駐地用戶(在附近區(qū)域居住或上班),并以廣告形式向其推薦商戶的產(chǎn)品和服務(wù)。
(5)公共服務(wù)領(lǐng)域
除了以盈利為目標(biāo)的商業(yè)應(yīng)用外,電信大數(shù)據(jù)應(yīng)用服務(wù)的另一個(gè)重要方向是公共服務(wù)[11]。在城市應(yīng)急管理領(lǐng)域,通過對各個(gè)交通小區(qū)的人口聚集密度、人群移動特征等的實(shí)時(shí)監(jiān)測,輔助應(yīng)急管理部門及時(shí)進(jìn)行人群疏散;在公安刑偵領(lǐng)域,輔助公安部門開展反恐、刑偵抓捕及指定人群分析等工作;在城市規(guī)劃建設(shè)領(lǐng)域,基于位置數(shù)據(jù)開展區(qū)域人口流動分析、城鎮(zhèn)及城鄉(xiāng)聯(lián)系強(qiáng)度分析、城市區(qū)域人口規(guī)模分析、人口居住地分布情況分析、人口職業(yè)分析、流動人口情況分析等,輔助規(guī)劃部門開展社會人口研究、道路規(guī)劃、商圈規(guī)劃、學(xué)校規(guī)劃。
圖3是某省運(yùn)營商A的所有用戶在某個(gè)節(jié)假日的位置分布熱力圖,將為后續(xù)旅游出行規(guī)劃、節(jié)假日出行引導(dǎo)等公共服務(wù)領(lǐng)域的工作提供參考依據(jù)。
圖3 某省用戶在某個(gè)節(jié)假日的位置分布熱力圖
已有運(yùn)營商分公司嘗試開展位置類應(yīng)用服務(wù)項(xiàng)目,遇到的主要技術(shù)困難包括如下:
(1)網(wǎng)絡(luò)側(cè)信令數(shù)據(jù)接口不完整
識別TD網(wǎng)絡(luò)的4G用戶位置時(shí),需要用到SGs口數(shù)據(jù)和LTE上網(wǎng)日志,但有分公司網(wǎng)絡(luò)側(cè)的4G信令尚未接入,導(dǎo)致對4G用戶的位置和位移無法識別。
(2)網(wǎng)絡(luò)側(cè)信令數(shù)據(jù)接入和處理難以滿足實(shí)時(shí)性要求
交通路況監(jiān)測、景區(qū)人流監(jiān)測等應(yīng)用場景對數(shù)據(jù)處理的實(shí)時(shí)性有很高要求。一方面,每天需要實(shí)時(shí)采集幾十億條甚至上百億條規(guī)模的網(wǎng)絡(luò)側(cè)信令數(shù)據(jù);另一方面,需要借助分布式并行處理、流處理等技術(shù)在ETL、數(shù)據(jù)匯總、數(shù)據(jù)分析計(jì)算等環(huán)節(jié)進(jìn)行實(shí)時(shí)處理。但有分公司在支撐能力方面無法滿足實(shí)時(shí)性要求,導(dǎo)致某些應(yīng)用服務(wù)難以投入生產(chǎn)。
(3)位置定位精準(zhǔn)性有待提升
基于LAC+CI的位置定位,由于定位原理本身的特點(diǎn),有可能存在幾十米至幾百米范圍的誤差,再加上對基站、小區(qū)地理位置信息更新和維護(hù)過程中產(chǎn)生的一些人為錯(cuò)誤,往往會影響位置定位的精準(zhǔn)性,這將難以滿足公安刑偵和特殊事件處理等公共安全相關(guān)應(yīng)用服務(wù)場景中的定位高精準(zhǔn)性要求。
下一階段如果能夠從技術(shù)層面解決上述問題,將大大提升運(yùn)營商的對外應(yīng)用服務(wù)能力,同時(shí)最大限度地發(fā)揮電信大數(shù)據(jù)的價(jià)值。
基于電信大數(shù)據(jù)的位置類應(yīng)用服務(wù),對于網(wǎng)絡(luò)側(cè)信令數(shù)據(jù)的采集、解析、處理,在實(shí)時(shí)性、精準(zhǔn)性等方面有很高的要求,并且需求方往往要求能夠結(jié)合可視化圖形工具進(jìn)行動態(tài)展示,目前個(gè)別分公司已深入開展相關(guān)嘗試,效果逐步被認(rèn)可。
根據(jù)分公司實(shí)施過程中遇到的困難來看,除了在技術(shù)層面的系統(tǒng)支撐能力有待提升外,與第三方公司的合作模式、用戶隱私保護(hù)、對外提供數(shù)據(jù)的安全脫敏處理策略、平臺開放性與規(guī)范性管理策略、分公司間的數(shù)據(jù)共享策略等都是需要進(jìn)一步探討和解決的問題,運(yùn)營商總部后續(xù)需要給予分公司更多的規(guī)范和指導(dǎo)。
[1] 李政,李繼兵,丁偉. 基于大數(shù)據(jù)的電信運(yùn)營商業(yè)務(wù)模式研究[J]. 移動通信, 2013(5): 64-67.
[2] 雷蕾,熊偉. 淺談電信行業(yè)大數(shù)據(jù)時(shí)代商業(yè)智能系統(tǒng)數(shù)據(jù)管理策略[J]. 移動通信, 2014(9): 69-71.
[3] 朱珠. 基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D].北京: 北京郵電大學(xué), 2008.
[4] Anderson Q. Storm real-time processing cookbook[M].Birmingham: Packt Publishing, 2013.
[5] 丁圣勇,閔世武,樊勇兵. 基于Spark平臺的NetFlow流量分析系統(tǒng)[J]. 電信科學(xué), 2014(10): 48-51.
[6] 喬宏明. 運(yùn)營商在大數(shù)據(jù)產(chǎn)業(yè)中的定位芻議[J]. 移動通信, 2014(13): 15-18.
[7] Hacigumus H, Mehrotra S, Iyer B. Providing database as a service[A]. Proceeding of 18th International Conference on Data Engineering[C]. Washington DC: IEEE Computer Society Press, 2002: 29-38.
[8] 曹帥,王淑營,劉述雅. 面向產(chǎn)業(yè)鏈協(xié)同SaaS平臺的業(yè)務(wù)流程定制技術(shù)[J]. 計(jì)算機(jī)應(yīng)用, 2013,33(5): 1450-1455.
[9] Wei Yi, Blake M B. Service-Oriented Computing and Cloud Computing: Challenges and Opportunities[J].Internet Computing, 2010,14(6): 72-75.
[10] 劉新海,丁偉. 大數(shù)據(jù)征信應(yīng)用與啟示——以美國互聯(lián)網(wǎng)金融公司ZestFinance為例[J]. 清華金融評論,2014(10): 93-98.
[11] 何廷潤. 當(dāng)前大數(shù)據(jù)應(yīng)用發(fā)展的局限性分析[J]. 移動通信, 2014(13): 29-32.