潘 暉,齊詠嘉,杭旭峰,姚賽彬,黃久成(中國聯(lián)通上海分公司,上海 200080)
傳統(tǒng)的道路優(yōu)化采用DT 路測分析加KPI 指標監(jiān)控的方式。DT 路測分析需要測試工程師使用專業(yè)的測試軟件和測試設(shè)備模擬用戶使用情況沿一定道路進行現(xiàn)場實地測試,這種優(yōu)化方式成本高,路測數(shù)據(jù)樣本量小,具有時間、地點的隨機性,無法模擬真實用戶感知。KPI指標監(jiān)控是先篩選出定軌道路沿線主控小區(qū)然后進行大量KPI 指標性能統(tǒng)計,這種方式會引入大量非定軌道路用戶,同時也需要投入大量人力物力,準確性和效率都大打折扣。而高架、高鐵、高速、地鐵等快速道路由于用戶行駛路線相對固定且行駛速度相對較快,對于用戶感知的要求更高。此外2G/3G/4G 的多網(wǎng)融合,以及5G 網(wǎng)絡(luò)的垂直應(yīng)用等多方面都對網(wǎng)絡(luò)優(yōu)化的響應(yīng)支撐能力提出新的挑戰(zhàn)。
為解決傳統(tǒng)路測優(yōu)化方式固定、周期性長、工作量大、耗時等問題,網(wǎng)絡(luò)優(yōu)化的智能轉(zhuǎn)型刻不容緩。以上海高架道路為例,根據(jù)最新統(tǒng)計上海高架日均車流量已經(jīng)達到201萬,面對如此大的樣本數(shù)量,網(wǎng)絡(luò)優(yōu)化工作能否引入大數(shù)據(jù)分析和AI智能識別的方式,精準定位出定軌道路用戶呢?本文基于真實定軌道路用戶的海量業(yè)務(wù)分析,將用戶感知情況自動關(guān)聯(lián)至小區(qū),為網(wǎng)絡(luò)優(yōu)化提供充分數(shù)據(jù)依據(jù),將優(yōu)化模式由傳統(tǒng)的線下模式轉(zhuǎn)型為線上模式,從而大幅提高網(wǎng)絡(luò)優(yōu)化效率,有效降低優(yōu)化成本。
本文運用用戶感知識別算法主要結(jié)合前期全上海定軌道路傳統(tǒng)DT 路測樣本指紋庫數(shù)據(jù),通過自動采集上海聯(lián)通移網(wǎng)用戶的XDR、MR、CDR 等數(shù)據(jù)與指紋庫進行運動特征判定,并運用聚類分析方式實現(xiàn)定軌道路建模和用戶識別,通過Python 進行環(huán)境搭建,嵌入PostgreSQL 數(shù)據(jù)庫應(yīng)用以及KNIME 和Tableau 的大數(shù)據(jù)挖掘和可視化工具,最終實現(xiàn)定軌道路用戶感知識別。基于大數(shù)據(jù)分析和AI 技術(shù)識別方式相對傳統(tǒng)的道路測試方式數(shù)據(jù)采集效率更高、成本更低、數(shù)據(jù)更豐富,也能更真實地反映現(xiàn)網(wǎng)用戶的網(wǎng)絡(luò)感知。
定軌道路用戶感知識別是一種典型的聚類分析算法應(yīng)用場景。聚類就是按照某個特定標準(如距離準則)把一個數(shù)據(jù)集分割成不同的類或簇,使得同一個簇內(nèi)數(shù)據(jù)對象的相似性盡可能大,同時不在同一個簇中的數(shù)據(jù)對象的差異性也盡可能的大。即聚類后同一類的數(shù)據(jù)盡可能聚集到一起,不同類數(shù)據(jù)盡量分離。
聚類技術(shù)通常又被稱為無監(jiān)督學習,因為與監(jiān)督學習不同,在聚類中是沒有那些表示數(shù)據(jù)類別的分類或分組信息的。
a)聚類(Clustering):簡單地說就是把相似的東西分到一組,聚類并不關(guān)心某一類是什么,只需要把相似的東西聚到一起。因此,一個聚類算法通常只需要知道如何計算相似度就可以開始工作了,因此聚類通常并不需要使用訓練數(shù)據(jù)進行學習,這在機器學習中被稱作無監(jiān)督學習(unsupervised learning)。
b)分類(Classification):對于一個classifier,通常需要告訴它“這個東西被分為某某類”這樣一些例子,理想情況下,一個classifier 會在它得到的訓練集中進行“學習”,從而具備對未知數(shù)據(jù)進行分類的能力,這種提供訓練數(shù)據(jù)的過程通常叫做監(jiān)督學習(supervised learning)。
定軌道路用戶識別由于沒有足夠多的樣本數(shù)量作為訓練集,是一種典型的無監(jiān)督學習的應(yīng)用場景,非常適用聚類分析算法。
選定算法以后,需要進行定軌道路用戶數(shù)據(jù)建模,具體實現(xiàn)步驟如圖1所示。
圖1 數(shù)據(jù)建模
a)對每個用戶的業(yè)務(wù)詳單進行排序,然后根據(jù)運動時序及站點更新進行運動特征建模。
b)對建模的數(shù)據(jù)進行數(shù)據(jù)清洗和一致性檢查。
c)計算出每個用戶的運動模型后與特征指紋庫進行比對聚類出定軌道路用戶,最終得出聚類模式。
數(shù)據(jù)源方面本文引入了XDR 數(shù)據(jù),數(shù)據(jù)量由以前的每日2 億的語音CDR 數(shù)據(jù)提升至每日80 億的XDR數(shù)據(jù),判斷運動特征的方法也由傳統(tǒng)KPI 的小時粒度切片方式升級為業(yè)務(wù)遍歷方式。最后通過從全量XDR 數(shù)據(jù)匹配重點道路工參表,運用聚類算法計算出每個用戶每天的運動軌跡,判斷用戶是否為運動狀態(tài)。
基于移動性原理,用戶在定軌道路移動的過程中會從一個位置區(qū)移動到另一個位置區(qū),位置更新的數(shù)據(jù)將被記錄為網(wǎng)絡(luò)側(cè)大數(shù)據(jù)。如果網(wǎng)絡(luò)側(cè)用戶在短時間內(nèi)發(fā)生多個位置區(qū)更新,則將其定義為運動特征用戶,同時將位置更新的時間間隔與定軌道路運行時長匹配,將定軌道路用戶從大網(wǎng)用戶中分離出來并進行聚類分析。當用戶每次占用的基站發(fā)生改變,計算出當前與上次轉(zhuǎn)換是否超過15 min,如果沒有超過則運動繼續(xù),否則此次運動結(jié)束,基于此算法來獲取大量的用戶運動行程碎片。
得到大量的用戶運動碎片之后,首先對用戶行程碎片進行時序排列,記錄兩端用戶碎片時間。將第1個運動碎片占用的最后一個基站和下一個運動碎片占用的第一個基站進行經(jīng)緯度匹配。通過計算基站經(jīng)緯度站距與運動碎片相鄰時間差的比值得到用戶運動速度,如果運動速度大于30 km/h,則認為用戶在2 個運動碎片之間依然保持運動狀態(tài),兩端用戶碎片可以合并,最終形成完整的用戶運動軌跡和運動時間(見圖2)。
圖2 運動碎片合并
1.5.1 區(qū)塊化切割
如圖3所示,根據(jù)定軌道路和站點路段匝道分布,將上海高速、高架、高鐵、地鐵場景切割為2 263 個區(qū)塊化路段,其中14 條高架切分成174 條具體區(qū)塊路段。
圖3 高架路段分割圖
1.5.2 指紋庫識別
以DT 數(shù)據(jù)作為指紋庫,將區(qū)塊路段按照實際覆蓋距離進行道路路段細分,如圖4所示。
1.5.3 定軌道路用戶聚類
將實際業(yè)務(wù)詳單與DT 指紋庫進行匹配,并通過用戶運動軌跡匹配定軌道路軌跡,如果用戶連續(xù)占用該道路的3 個路段ID,則將該用戶聚類為該定軌道路路段用戶,例如延安高架道路一共有10個不同的路段ID(每個路段ID 對應(yīng)多個站點),如果一個運動行程中占用大于3 個路段ID 就判斷他為延安高架用戶,并識別出其在延安高架上的開始、結(jié)束時間和開始、結(jié)束地點。每個運動行程會和所有重點道路做匹配,滿足匹配要求即為該重點道路用戶,如圖5所示。
圖4 DT指紋庫
定軌道路用戶需要至少占用3 個連續(xù)路段,如果少于3 個路段就進行定軌道路識別,會引入大量非道路用戶,導致自動識別準確度下降。例如一個非定軌道路用戶在路段A 與路段B 之間通話,他同時占用路段A 與路段B 的主控基站,該用戶也會被聚類為定軌道路用戶,導致識別準確度下降。
本文的用戶模型改變了以往傳統(tǒng)時間切片方式,由業(yè)務(wù)遍歷方式進行用戶畫像識別(見圖6)。該技術(shù)以用戶感知驅(qū)動診斷網(wǎng)絡(luò)問題關(guān)聯(lián)MR 數(shù)據(jù)和信令數(shù)據(jù),端到端分析定軌道路網(wǎng)絡(luò)感知。
該技術(shù)通過手機上報的GNSS 經(jīng)緯度信息以及相關(guān)優(yōu)化參數(shù),輔助網(wǎng)絡(luò)精準分析、優(yōu)化,結(jié)合用戶CDR話單預(yù)測用戶軌跡。對于室外用戶,利用電子地圖索引和CDR 樣本的軌跡預(yù)測出用戶實際經(jīng)過的道路,并確認用戶發(fā)生問題的精確位置,同時對模型識別用戶進行空間定位,并投射到GIS 中。該技術(shù)通過對用戶問題點進行匯聚,發(fā)現(xiàn)問題路段或用戶投訴風險路段并進行預(yù)警。
圖5 定軌道路匹配
圖6 業(yè)務(wù)級遍歷模式
通過用戶手機號碼,實現(xiàn)定軌道路用戶與業(yè)務(wù)質(zhì)量、終端數(shù)據(jù)、3G MR、XDR 數(shù)據(jù)關(guān)聯(lián),精準定位網(wǎng)絡(luò)問題(見圖7)。
基于XDR 的用戶行為模型分析,輔助匹配道路特征指紋庫及用戶感知話單數(shù)據(jù),實現(xiàn)定軌道路MR 覆蓋和語音感知智能評估。
由于全網(wǎng)用戶每天的XDR 數(shù)據(jù)達到10 億級,需搭建5臺服務(wù)器進行SEQ數(shù)據(jù)處理,每臺機器共有100個分區(qū)表,也就是每臺機器都要調(diào)用100次存儲過程。由于數(shù)據(jù)量龐大,可通過定時任務(wù)的方式每天凌晨進行數(shù)據(jù)聚類,每天數(shù)據(jù)處理時間達到6 h 以上。最終輸出道路級、用戶級分析結(jié)果。各個環(huán)節(jié)處理流程如圖8所示。
圖7 多維度數(shù)據(jù)關(guān)聯(lián)
本文介紹的基于XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路用戶感知識別技術(shù)通過對終端上報的XDR 信息進行精準定位,結(jié)合電子道路與采樣點擬合技術(shù),突破了傳統(tǒng)的單一終端主干道測試的模式,實現(xiàn)全民測試、全量測試。該技術(shù)通過平臺化自動分析處理,快速匯聚問題道路,并提供友好界面呈現(xiàn)。目前基于XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路用戶感知識別技術(shù)已投入上海聯(lián)通網(wǎng)絡(luò)優(yōu)化中心實際生產(chǎn)中,通過可視化大屏可實現(xiàn)實時KPI監(jiān)控和單用戶感知定位分析,可視化監(jiān)控系統(tǒng)如圖9所示。
用戶級感知情況可以在tableau 大屏中通過SQL語句對單用戶行程進行查詢,得到如表1所示的結(jié)果。
圖8 數(shù)據(jù)建模執(zhí)行流程圖
基于XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路用戶感知識別技術(shù)已納入網(wǎng)絡(luò)優(yōu)化實際生產(chǎn)中,為優(yōu)化工程師助力提效。
通過此算法,系統(tǒng)可每日自動輸出高掉話路段、質(zhì)差路段,納入日常優(yōu)化管控表,形成從智能識別到自動診斷再到優(yōu)化閉環(huán)的問題點管控機制。值得一提的是,自動識別出的問題點中有些是日常優(yōu)化過程中未發(fā)現(xiàn)的,這幫助優(yōu)化工程師發(fā)現(xiàn)了網(wǎng)絡(luò)的隱性問題。如表2所示,目前經(jīng)過算法的調(diào)優(yōu)和改進,系統(tǒng)可日均智能識別定軌道路用戶30 000個以上。
圖9 可視化監(jiān)控系統(tǒng)
表1 單用戶運動軌跡查詢
表2 各路段識別用戶數(shù)
自XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路用戶感知識別技術(shù)納入網(wǎng)絡(luò)優(yōu)化生產(chǎn)以來,上海聯(lián)通實現(xiàn)了80%的路測優(yōu)化自動執(zhí)行,且規(guī)范了優(yōu)化方法和手段,大幅提升了網(wǎng)絡(luò)優(yōu)化工作效率。質(zhì)差及高掉話等用戶感知隱性問題點的發(fā)現(xiàn)及時率從30%提高到95%,網(wǎng)絡(luò)優(yōu)化效率提升90%,日常優(yōu)化問題點覆蓋率達到90%以上;工作自動執(zhí)行可完成率達到70%以上,節(jié)約了運維成本,提高了優(yōu)化效率。目前已累計識別用戶感知類優(yōu)化問題點220 個,表3 列出了部分問題路段。
后續(xù)通過指紋庫的擴建精準化定位,可以從定軌道路場景識別推廣至省一級以上干線道路場景。同時隨著關(guān)聯(lián)的數(shù)據(jù)越來越豐富,識別的用戶業(yè)務(wù)也越來越多樣,后續(xù)將引入KQI數(shù)據(jù)和VoLTE 話單甚至5G業(yè)務(wù)等數(shù)據(jù),從語音感知端到端分析,擴展到VoLTE、視頻、游戲等多業(yè)務(wù)感知識別。
本文提出的定軌道路感知識別技術(shù)帶來的經(jīng)濟效益如下。
表3 高掉話路段示例
a)統(tǒng)一采集存儲和計算,提高資源利用率,減少重復(fù)建設(shè)。
b)減少測試工作的人員和設(shè)備的支出,釋放優(yōu)化分析人員成本。
c)本文提出的算法是自主研發(fā),鍛煉了網(wǎng)絡(luò)優(yōu)化工程師的自主開發(fā)能力,節(jié)省了工程建設(shè)費用。
d)通過定軌道路用戶的自動識別降低路測成本,全網(wǎng)定軌道路評估能力從每月1 次提升到每天1 次,全年節(jié)省道路測試1 000 次,節(jié)省費用測試560 萬元(全網(wǎng)單次路測成本約為15 000 km×30 km/元=45 萬元)。
本文提出的定軌道路感知識別技術(shù)帶來的社會效益如下:
基于XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路自動感知識別,實現(xiàn)了語音感知監(jiān)控可視化,深化了五心服務(wù),體現(xiàn)了中國聯(lián)通的匠心網(wǎng)絡(luò)精神,在業(yè)界取得很好反響。經(jīng)過上海聯(lián)通的實際生產(chǎn)推廣,對其他省分、電信友商提供了很好的參考借鑒。網(wǎng)絡(luò)質(zhì)量的改善,降低了用戶投訴率,提升了用戶滿意度,對和諧社會的建設(shè)也起到積極作用。在2018 年上海第一屆世界進口博覽會上,本文提出的基于XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路自動感知識別可視化大屏,部署在市通信管理局、市進博會保障中心,其對網(wǎng)優(yōu)指標的可視化監(jiān)控保障支撐,以及對進博會的安全保障都起到了積極輔助支撐作用。
在網(wǎng)絡(luò)優(yōu)化工作中可通過大數(shù)據(jù)技術(shù)進行多維度數(shù)據(jù)的融合來打破數(shù)據(jù)壁壘,實現(xiàn)更多的數(shù)據(jù)碰撞,衍生百花齊放的應(yīng)用。網(wǎng)絡(luò)優(yōu)化工作能夠依托現(xiàn)有大數(shù)據(jù)平臺和AI 技術(shù),將網(wǎng)絡(luò)中海量的MR、MDT、XDR、CDR 等數(shù)據(jù)關(guān)聯(lián)融合并實現(xiàn)共享,將用戶感知問題從小區(qū)級衍生到用戶級。網(wǎng)絡(luò)優(yōu)化工作需要從用戶感知出發(fā),從常規(guī)業(yè)務(wù)、用戶、覆蓋、容量、質(zhì)量及3G/4G 等多維度進行數(shù)據(jù)深度關(guān)聯(lián)處理,通過大數(shù)據(jù)處理和AI等技術(shù)的運用,支撐面向規(guī)劃、面向網(wǎng)絡(luò)、面向客戶、面向市場的相關(guān)工作,這才是增效降本的有效方法。