劉孝頌,馬怡安
?
采用大數(shù)據(jù)技術(shù)的移動DPI關(guān)聯(lián)算法探索及實現(xiàn)
劉孝頌,馬怡安
(中國電信股份有限公司上海研究院,上海 200122)
針對近年來4G滲透率不斷提高所帶來的用戶質(zhì)疑流量使用情況的問題,通過深入的研究提出了一種利用移動DPI的詳細話單與計費話單關(guān)聯(lián)的算法,采用大數(shù)據(jù)平臺以及相關(guān)處理技術(shù)對算法進行了實現(xiàn),并展示了現(xiàn)網(wǎng)運行評估的效果。
大數(shù)據(jù);計費話單;深度分組檢測;數(shù)據(jù)流;LTE;eHRPD
近年來,移動通信技術(shù)的快速發(fā)展,使得運營商對網(wǎng)絡(luò)的升級速度也大大加快。用戶一方面感受到了極速上網(wǎng)帶來的便捷,另一方面也開始關(guān)心自己的流量、流向。根據(jù)艾媒咨詢的調(diào)查報告,60.6%的iOS用戶和53.3%的Android用戶懷疑移動運營商存在偷流量行為,且用戶認為App惡意偷流量。對于運營商而言,隨之而來的是大量的投訴或查詢。傳統(tǒng)上處理該類型投訴問題,運營商只能依賴計費話單來應(yīng)對用戶投訴,由于計費話單并沒有詳細的流量使用情況,且時間顆粒度也較大,無法讓用戶得到滿意的答復(fù)。
對此,運營商迫切需要通過移動DPI(深度分組解析)用戶詳細話單應(yīng)對投訴。圖1為運營商4G網(wǎng)絡(luò)通用架構(gòu),從圖1可以發(fā)現(xiàn),DPI可以采集到用戶使用的流量及對應(yīng)的詳細流向情況,計費網(wǎng)關(guān)則能統(tǒng)計顆粒度較粗的DDR(計費話單),若能把每個用戶的每條計費話單中包含的詳細話單在DPI中找到,并與計費話單關(guān)聯(lián)起來,則可以比較充分地應(yīng)對用戶投訴并告知用戶其詳細的流量使用情況。
圖1 運營商4G網(wǎng)絡(luò)通用架構(gòu)
但在實際操作過程中,存在兩個關(guān)鍵問題:如何設(shè)計出一種合理的關(guān)聯(lián)匹配算法;如何有效地在現(xiàn)網(wǎng)中處理海量的數(shù)據(jù)。本文將先從DDR和DPI詳細話單產(chǎn)生的原理出發(fā),通過數(shù)據(jù)尋找計費話單和詳單關(guān)聯(lián)中的問題,從而最終提出關(guān)聯(lián)匹配算法或提出提升關(guān)聯(lián)準確率的建議或措施。
對于客服或用戶而言,最關(guān)心的是自己流量使用流向情況,如某一時間段的流量軌跡。故最直接的關(guān)聯(lián)算法就是在一天時間內(nèi),針對每條計費話單的時間范圍,找與之對應(yīng)的DPI話單,關(guān)聯(lián)完成后,統(tǒng)計關(guān)聯(lián)后計費話單和DPI話單的流量誤差并作為評判標(biāo)準。若誤差較大,則說明系統(tǒng)或關(guān)聯(lián)算法等存在問題;反之則說明計費話單和DPI流量匹配率較高,可以以此應(yīng)對用戶投訴或供用戶查詢。
衡量標(biāo)準1:話單級匹配率,即計費話單流量誤差滿足要求的比例。計算式如下:
衡量標(biāo)準1的意義在于展示了一天內(nèi)所有單條DDR的整體匹配情況,顆粒度較細,但無法反映單一用戶的情況。
衡量標(biāo)準2:單日用戶級匹配率,即一天時間內(nèi)用戶的DPI總流量和DDR總流量的流量誤差。計算式如下:
衡量標(biāo)準2的意義在于展示了所有用戶一天的計費話單的整體匹配情況,能直觀地顯示用戶整體的流量匹配誤差,但無法定位到單條話單的匹配情況。
本文的目標(biāo)之一就是根據(jù)現(xiàn)網(wǎng)的情況,設(shè)計出一套能合適、合理地應(yīng)用于現(xiàn)網(wǎng)的計費話單與DPI話單關(guān)聯(lián)的算法,并以上述兩個衡量標(biāo)準作為算法優(yōu)劣的評估標(biāo)準。
2.2.1 現(xiàn)有統(tǒng)計顆粒度差異
DPI的生成頻度遠高于DDR,約為100:1的關(guān)系。4G話單按照1 h或50 MB進行分割,由于這種話單切割規(guī)則,在進行匹配的時候,會出現(xiàn)DDR統(tǒng)計周期內(nèi)的流量匹配與DPI的流量正好交錯,造成匹配失敗。如果將統(tǒng)計周期由目前的DDR顆粒度進行放大,則提高匹配率以進行驗證。計費話單與詳單時間切片示意如圖2所示。
圖2 計費話單與詳單時間切片示意
2.2.2 小流量話單的權(quán)重影響
小流量話單對于匹配率的權(quán)重影響較大,DDR/DPI在生成過程中的差異、造成的流量差異,在小流量話單匹配過程中非常敏感,對匹配率的影響權(quán)重較大。
情況1
? DDR flow is: 82215
? DPI flow is: 65452 including 6 records
? DDR > DPI, error is: 20.3892233777
情況2
? DDR flow is: 626215
? DPI flow is: 559864 including 113 records
? error is: 10.595562227
觀察上述兩種情況,情況1中,計費話單流量為82 215 byte,而詳單流量為65 452 byte,兩者相差16 763 byte,但計費話單流量誤差為20.39%,根據(jù)之前的評判標(biāo)準,該條話單是影響匹配率的“問題話單”。但觀察情況2可以發(fā)現(xiàn),計費話單流量為626 215 byte,而詳單流量為559 864 byte,兩者相差66 349 byte,計費話單流量誤差為10.60%,根據(jù)之前的評判標(biāo)準,該條話單是滿足要求的。不過很明顯,情況2對用戶更敏感,本文應(yīng)該更關(guān)注情況2的原因,而非情況1。
從圖3可以發(fā)現(xiàn),計費話單中小流量話單占比很大。如10 KB以下的小流量話單占比超過26%,但其流量占比卻僅有 0.034%。而超過1 MB的計費話單占比不到20%,卻擁有85%左右的流量占比。
通過上述分析可以得出一個結(jié)論,即應(yīng)該適當(dāng)降低對小流量計費話單的匹配率閾值,而較大流量的計費話單匹配率閾值無需放寬,因為無論從用戶敏感度還是流量占比都說明了小流量計費話單并非很重要。
圖3 計費話單條數(shù)及流量占比分布
對此,本文提出了一個新的流量匹配標(biāo)準,見表1。
表1 新的流量匹配標(biāo)準
2.2.3 計費話單邊界影響
由于統(tǒng)計標(biāo)準對時間的要求是每天0:00—24:00,所以根據(jù)DDR與DPI話單產(chǎn)生規(guī)則,必定有部分DPI話單由于時間的切分而無法統(tǒng)計。對此,本文需要根據(jù)DDR的時間跨度,對不同的DDR分別進行分析。計費話單邊界影響分類如圖4所示。
圖4 計費話單邊界影響分類
表2展示的某天計費話單中各類型話單的總條數(shù)和總流量情況。本文選取A類型話單和C類話單進行關(guān)聯(lián)匹配。因為DPI話單的時間范圍為0:00—24:00,而B類話單和D類話單可以算作后一天的A類話單,故不應(yīng)該加入當(dāng)天的統(tǒng)計。
表2 不同類型計費話單條數(shù)及流量
以300萬用戶規(guī)模一天產(chǎn)生的數(shù)據(jù)為例。計費話單在合并前大約有9 700萬條,合并后大約有7 100萬條,290 TB的總流量。詳單大約有127億條,310 TB的總流量。在處理過程中勢必要用到大數(shù)據(jù)處理技術(shù)。
本文實驗驗證環(huán)境擁有40個節(jié)點,總計3 TB內(nèi)存,720Vcore,480 TB存儲空間的集群。在實現(xiàn)過程中本文使用了MapReduce和Spark兩種技術(shù)進行處理。其中MapReduce處理一天的數(shù)據(jù)需要總計19 h,而Spark處理一天的數(shù)據(jù)僅需45 min(使用1.5 TB內(nèi)存,300Vcore)。很明顯,Spark技術(shù)相比于MapReduce技術(shù),在單點數(shù)據(jù)傾斜、中間結(jié)果緩存等方面擁有更大的技術(shù)優(yōu)勢。最終體現(xiàn)在對海量數(shù)據(jù)的處理效率上。
針對所有的計費話單,先篩選4G的計費話單,隨后對計費話單進行預(yù)處理。預(yù)處理規(guī)則為將同一號碼時間存在交叉、包含、連接關(guān)系的記錄合并。隨后進行話單級匹配關(guān)聯(lián):將DPI與DDR進行記錄級關(guān)聯(lián),關(guān)聯(lián)條件為DPI起始時間在DDR起止時間之間(一條DDR對應(yīng)多條DPI,一條DPI只對應(yīng)唯一一條DDR)。最后按DDR匯總:按照DDR的話單ID對關(guān)聯(lián)后的記錄進行聚合操作,并進行話單級和用戶級的統(tǒng)計操作。
具體的計算規(guī)則如下。
(1)統(tǒng)計DPI話單預(yù)處理前后總條數(shù)、總流量以及DDR預(yù)處理前后總條數(shù)、總流量。
(2)針對每條DDR的總流量設(shè)置分段的匹配度標(biāo)準,假設(shè)該條DDR流量為1,與之關(guān)聯(lián)的多條DPI流量總和為2,(1-2)/1為匹配度。當(dāng)1≤100 KB,則不考慮匹配度的值,認為這些話單均符合要求并分別記錄條數(shù);當(dāng)1>100 KB &&1≤200 KB,則認為匹配度在[-100%, 100%]內(nèi)均符合要求,分別記錄條數(shù);當(dāng)1>200 KB &&1≤500 KB,則認為匹配度在[-50%, 50%]內(nèi)均符合要求,分別記錄條數(shù);當(dāng)1>500 KB,則認為匹配度在[-20%,20%]內(nèi)均符合要求,分別記錄條數(shù)。
(3)統(tǒng)計剩余的DDR和DPI話單條數(shù)與流量。
(4)統(tǒng)計每個用戶當(dāng)天的DDR總流量與DPI總流量。
(5)統(tǒng)計DDR和DPI話單中用戶總數(shù)、關(guān)聯(lián)的總用戶數(shù),并針對關(guān)聯(lián)的總用戶數(shù),進行流量誤差分布統(tǒng)計。即對每個用戶,假設(shè)該用戶DDR一天總流量為1,與之關(guān)聯(lián)的多條DPI話單流量總和為2,(1-2)/1為流量誤差。輸出為流量誤差的用戶數(shù)情況分布。
本文選取了直接匹配和使用優(yōu)化后算法匹配的前后共7天的數(shù)據(jù)進行評估,評估效果如圖5所示。可以發(fā)現(xiàn)在對DDR進行預(yù)處理、篩選了小流量話單并考慮和邊界影響等因素后,無論是話單級匹配率還是用戶級匹配率均得到明顯提升。話單級匹配率穩(wěn)定在90%上下,而用戶級匹配率接近95%。后者在實際的應(yīng)用中價值更明顯,因為大部分用戶一般對某日的總流量表示異議,使用優(yōu)化后的匹配算法可以解釋將近95%用戶的實際問題,之前的困境得到了大大的改善。
本算法已應(yīng)用于某運營商客服系統(tǒng),當(dāng)投訴用戶對流量使用情況有異議后,客服人員可以使用該用戶手機號碼進行查詢(需用戶授權(quán)),并將查詢結(jié)果展示給用戶,以此解決用戶疑問。
本文針對運營商現(xiàn)網(wǎng)運營中關(guān)于流量使用的投訴問題,在深入研究計費話單和DPI話單生成的機制后,通過分析得到了一種新的計費話單和詳單的關(guān)聯(lián)匹配算法,并設(shè)計開發(fā)了相應(yīng)的稽核驗證程序,通過現(xiàn)網(wǎng)數(shù)據(jù)進行驗證,取到良好的效果。
圖5 算法優(yōu)化前后話單級與用戶級匹配率
大數(shù)據(jù)處理結(jié)合數(shù)據(jù)挖掘,可在將來的研究中,了解用戶使用流量的規(guī)律,并在用戶流量異常的時候做到提前提醒和告警,或者針對用戶流量的使用情況給用戶推薦更合適的套餐等。
[1] POIKSELKA M, MAYER G, KHARTABIL H, 等. IMS:移動領(lǐng)域的IP多媒體概念和服務(wù)[M]. 趙鵬, 周勝, 望玉梅, 譯. 北京: 機械工業(yè)出版社, 2005.
POIKSELKA M, MAYER G, KHARTABIL H, et al. IMS: IP Multimedia Concepts and services in the mobile field[M]. Translated by ZHAO P, ZHOU S, WANG Y M. Beijing: China Machine Press, 2005.
[2] 胡樂明, 曹磊, 陳潔. IMS技術(shù)原理及應(yīng)用[M]. 北京: 電子工業(yè)出版社, 2006.
HU L M, CAO L, CHEN J. The principle and application of IMS technology[M]. Beijing: Publishing House of Electronics Industry, 2006.
[3] 3GPP. Telecommunication management; charging management; charging data records (CDR) file format and transfer: TS32.297[S].2012.
[4] 3GPP. Telecommunication management; Charging management; charging data record (CDR) parameter description: TS32.298[S]. 2012.
[5] 3GPP. Telecommunication management; charging management; charging architecture and principles: TS32.240[S]. 2012.
[6] 魏永, 周云峰, 郭利超. OpenDPI報文識別分析[J]. 計算機工程, 2011(S1): 98-100.
WEI Y, ZHOU Y F, GUO L C. Analysis of OpenDPI message recognition[J]. Computer Engineering, 2011(S1): 98-100.
[7] 黃曉武. 基于DPI技術(shù)的網(wǎng)絡(luò)流控策略[J].電腦知識與技術(shù), 2011, 07(2X):1260-1261.
HUANG X W. Network flow control strategy based on DPI technology[J]. Computer Knowledge and Technology, 2011, 07(2X):1260-1261.
[8] 于娟, 袁春蕾. 網(wǎng)絡(luò)流量實時監(jiān)控分析系統(tǒng)的設(shè)計與實現(xiàn)[J]. 物聯(lián)網(wǎng)技術(shù),2013(2):71-73.
YU J, YUAN C L. Design and implementation of real-time network traffic monitoring and analysis system[J]. Internet of Things Technologies, 2013(2):71-73.
[9] 鄧博. 基于數(shù)據(jù)挖掘技術(shù)構(gòu)建電信4G客戶預(yù)測模型的研究[D].蘭州: 蘭州大學(xué), 2015.
DENG B. Research on the construction of telecom 4G customer prediction model based on data mining technology[D]. Lanzhou: Lanzhou University, 2015.
Research and implementation of mobile DPI association algorithm with big data technology
LIU Xiaosong, MA Yi’an
Shanghai Research Institute of China Telecom Co., Ltd., Shanghai 200122, China
In order to solve the problem of traffic usage caused by the increasing penetration rate of 4G in recent years, an algorithm that uses mobile DPI detailed bill and billing bill was proposed, and big data platform was adopted. The related processing technology implements the algorithm and shows the effect of the current network operation evaluation.
big data, data detail report, deep packet inspection, data flow, LTE, eHRPD
TN915
A
10.11959/j.issn.1000?0801.2017343
2017?10?13;
2017?11?28
劉孝頌(1977?),男,中國電信股份有限公司上海研究院網(wǎng)絡(luò)數(shù)據(jù)系統(tǒng)架構(gòu)師、中級工程師,主要從事網(wǎng)絡(luò)數(shù)據(jù)分析/挖掘工作以及基于網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用方面的工作,主要研究方向為LTE網(wǎng)絡(luò)數(shù)據(jù)采集方法以及各接口之間的信令消息關(guān)聯(lián)方法、LTE網(wǎng)絡(luò)控制面信令消息解讀分析等。
馬怡安(1987?),男,中國電信股份有限公司上海研究院中級工程師、大數(shù)據(jù)智慧運營研發(fā),主要從事大數(shù)據(jù)架構(gòu)下數(shù)據(jù)分析及挖掘以及基于網(wǎng)絡(luò)數(shù)據(jù)自主開發(fā)各類應(yīng)用和質(zhì)量檢測工具等方面的工作。