孫國斌
(中國聯(lián)合網(wǎng)絡(luò)通信股份有限公司甘肅省分公司,甘肅 蘭州 730000)
O域數(shù)據(jù):OSS域指上網(wǎng)行為、信令、位置等等。其中以Gn口數(shù)據(jù)最重要,包括http/WAP訪問日志數(shù)據(jù)、URL解析數(shù)據(jù)、APP應(yīng)用解析數(shù)據(jù)、網(wǎng)絡(luò)軌跡、WLAN解析等;B域數(shù)據(jù):BSS域指營帳、計費、客服、結(jié)算等系統(tǒng)的數(shù)據(jù),如實名信息、套餐信息、手機號碼、IMEI、IMSI、終端機型、流量消耗、通話時長、積分、是否VIP、投訴情況等等。M域數(shù)據(jù):MSS域主要指ERP、門戶、項目管理等。V域數(shù)據(jù):VALUE域指增值業(yè)務(wù),包括傳統(tǒng)增值業(yè)務(wù)(短彩信、炫鈴、語音增值)和基地業(yè)務(wù)(支付、游戲、動漫、視頻、閱讀、音樂)。
運營商擁有多張移動網(wǎng)絡(luò),具備遍布全國的豐富的站址資源,在覆蓋范圍、時間及用戶規(guī)模上領(lǐng)先于其他行業(yè);運營商以號碼為唯一的ID來整合各類數(shù)據(jù),數(shù)據(jù)的完整性是一般企業(yè)難以企及的;運營商作為數(shù)據(jù)載體,信息內(nèi)容更加全面、準(zhǔn)確。
運營商大數(shù)據(jù)可準(zhǔn)確實時的反映用戶行為狀態(tài),數(shù)據(jù)源自于生產(chǎn)網(wǎng)絡(luò),無人為因素干擾,具備全面性、多維性、中立性、完整性,通過這些不同維度數(shù)據(jù)的交叉關(guān)聯(lián),可以創(chuàng)造更多新數(shù)據(jù)和新價值。
Volume(容量):舉例甘肅聯(lián)通每小時有60萬次移動電話呼叫,每天有70~100TB的數(shù)據(jù)訪問量,每天有3億次互聯(lián)網(wǎng)點擊量。甘肅電信每天產(chǎn)生10TB+話單、30TB上網(wǎng)日志和100TB+信令數(shù)據(jù)。Variety(多樣性):從來源可見前述四個域,可根據(jù)用途分類為“消費、社交、偏好行為”,反映消費情況的有套餐數(shù)據(jù),反映社交的有語音撥號數(shù)據(jù),反映行為偏好的有位置數(shù)據(jù)、上網(wǎng)行為數(shù)據(jù)。Velocity(速度快):實時產(chǎn)生包括上網(wǎng)記錄、位置信息、語音撥打數(shù)據(jù)等。Value(價值高):數(shù)據(jù)質(zhì)量高,指完整性、真實性、實時性。
利用上述原始數(shù)據(jù)衍生出用戶5W+E聯(lián)動數(shù)據(jù),通過多維度數(shù)據(jù)分析,獲取用戶身份信息(WHO)、時間信息(WHEN)、位置信息(WHERE)、終端信息(WHICH)、行為信息(WHAT)和感知體驗(EXPERIENCE),形成每個用戶的動態(tài)標(biāo)簽庫,完成對用戶的全息畫像。如圖1所示。
圖1 運營商用戶5W+E聯(lián)動數(shù)據(jù)分析
現(xiàn)在,手機已經(jīng)成為我們每個人的另一張“身份證”,手機可以通過基站定位、位置服務(wù)定位而提供持有人的位置信息。一般手機在待機的時候,當(dāng)用戶從一個小區(qū)移動到另一個小區(qū)時,手機需要不斷接收基站發(fā)出的測量信號。利用移動通信信令數(shù)據(jù)就可以知道用戶所在小區(qū),可以判斷處于哪一個街區(qū)或鄉(xiāng)村,定位精度在城市可達(dá)百米級。與此同時,移動通信蜂窩網(wǎng)絡(luò)的半徑比較小,更新速度在秒級,具有實時性優(yōu)勢。
國際通用的是SEIR傳染模型,其中S為易感人群,E為密切接觸者,I為染病人群,R為康復(fù)人群;中國學(xué)界則提出了一種改進(jìn)模型,增加了P(疑似人群)和Q(確診人群)。目前,北大陳寶權(quán)教授團隊已經(jīng)發(fā)布了此次疫情傳播模型,通過熱度圖和曲線圖等數(shù)據(jù)可視化方式來展示疫情傳播特點?!暗?,上述模型假定該地區(qū)在疫情期間沒有與外地的人員流動,如果加入運營商大數(shù)據(jù)中的人員位置可溯信息,將人員流動性考慮進(jìn)去,可以使得該模型更精確。
通過運營商通信基站及核心網(wǎng)HLR獲取的位置跟蹤及漫游信息,獲取人口流動數(shù)據(jù),配合航空、鐵路、公路等交通部門完善從湖北返蘭人員的詳細(xì)信息,助力防疫部門有效掌握重點疫區(qū)人群流動軌跡,鎖定輸入型感染者活動范圍和散落各地的隱形傳染源,為蘭州及我省其他地市防控疫情提供重要參考,以便做到提前防范、精準(zhǔn)施策。如圖2,圖3所示。
圖2 湖北漫入用戶人數(shù)統(tǒng)計
圖3 湖北漫入用戶地理分布圖
隨著全國疫情防控阻擊戰(zhàn)的推進(jìn),各地政府紛紛祭出互聯(lián)網(wǎng)技術(shù),借助大數(shù)據(jù)分析對疫情進(jìn)行防控、分析和預(yù)判。
疫情期間,我省借助移動、電信、聯(lián)通三家通信運營商提供的基礎(chǔ)位置跟蹤數(shù)據(jù),上線了“疫情查詢助手”二維碼,助力全省街道、社區(qū)基層工作人員用于疫情排查工作。
隨后甘肅“健康出行碼”上線并在全省范圍內(nèi)推行使用,我省健康出行碼系統(tǒng)基于通信、交通等部門提供的在甘、來甘、返甘人員數(shù)據(jù)信息、甘肅省全員人口信息庫、全省新冠肺炎確診病例、疑似病例、密切接觸者、居家隔離觀察人員和治愈出院人員信息庫等數(shù)據(jù),通過大數(shù)據(jù)比對,由系統(tǒng)后臺自動生成健康出行碼。這些基于大數(shù)據(jù)的疫情便民服務(wù),為有序恢復(fù)企業(yè)生產(chǎn)和群眾正常生活,確保疫情防控與經(jīng)濟社會發(fā)展同步推進(jìn)做出重要貢獻(xiàn)。如圖4所示。
圖4 疫情查詢及健康出行二維碼示意圖
疫情期間,北京聯(lián)通運用網(wǎng)格化+大數(shù)據(jù)的思路,基于聯(lián)通OSS域數(shù)據(jù)以及DPI技術(shù),結(jié)合SEIR傳染病模型建立基于運營商大數(shù)據(jù)的疫情防控支撐平臺。該平臺基于居民自我隔離度、高頻活動等行為特征、人口密度及流動特征,評估城市中各個網(wǎng)格的防疫安全等級,并開發(fā)出面向疫情防控主管部門PC端平臺和面向公眾的手機端平臺,為科學(xué)防治、精準(zhǔn)施策的防疫支撐工作提供了一定的參考依據(jù)。如圖5所示。
圖5 大數(shù)據(jù)的疫情防控支撐PC及終端平臺示意圖
當(dāng)前,一些機構(gòu)頻繁發(fā)布各種基于大數(shù)據(jù)的疫情研究報告,包括自媒體、新媒體在內(nèi)的各類媒體,也發(fā)布轉(zhuǎn)發(fā),甚至利用自身的大數(shù)據(jù)技術(shù)采集、整理一些疫情信息。這些報告和信息為相關(guān)部門和公眾提供了信息參考,但也泥沙俱下,魚龍混雜,甚至少數(shù)別有用心的人假借大數(shù)據(jù)技術(shù),以迷惑誤導(dǎo)公眾。在接下來的疫情防控工作中,我們應(yīng)該一方面要善用大數(shù)據(jù)及時搜索、發(fā)現(xiàn)虛假信息,分析其錯誤所在,及時公布,廣泛傳播;另一方面要加大對大數(shù)據(jù)技術(shù)等先進(jìn)信息技術(shù)的使用,先行一步,及時向公眾提供更多更好的真實信息,以免被虛假信息先入為主。
從2020年1月20日開始,公眾對疫情的關(guān)注度開始顯著提升,在1月26日到達(dá)峰值,然后趨于穩(wěn)定,另外從不同時期用戶瀏覽及留言的關(guān)鍵字熱點所不同,公眾情緒正在緩慢由消極向積極轉(zhuǎn)變,但也有不少數(shù)據(jù)顯示部分公眾在疫情期間情緒悲觀、煩躁。如圖6所示。
圖6 疫情公眾輿情指數(shù)示意圖
由此筆者建議互聯(lián)網(wǎng)公司應(yīng)該合理利用運營商大數(shù)據(jù),適度進(jìn)行逆向推送:根據(jù)手機活躍度情況,為用戶定向推送室內(nèi)健身的相關(guān)內(nèi)容,以提高自身免疫力做到運動戰(zhàn)“疫”;為部分搜索及瀏覽相關(guān)負(fù)面新聞的用戶,定向推送幽默短視頻及援漢醫(yī)護(hù)、工程建設(shè)人員不畏死神戰(zhàn)疫情的感人事跡等相關(guān)內(nèi)容。
運營商大數(shù)據(jù)在整個疫情防控工作過程中發(fā)揮了全面性、動態(tài)性和實時性等多方面作用,為疫情防控提供精細(xì)化數(shù)據(jù)支持。我們應(yīng)該充分利用運營商大數(shù)據(jù),在政府相關(guān)部門的指導(dǎo)下,發(fā)揮互聯(lián)網(wǎng)公司的優(yōu)勢,在今后的日常生活或突發(fā)事件中,更好地服務(wù)于國家和人民群眾。