劉藝蕾,賈詩瑋,劉 斌,張小強,田程軍,曾 強
(中國移動通信集團陜西有限公司,陜西 西安 710000)
近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)電視服務越來越受歡迎。然而,與其他先進技術一樣,互聯(lián)網(wǎng)電視服務在運行過程中會遇到各種故障,如網(wǎng)絡擁塞、服務器停機和終端故障等。故障定位是互聯(lián)網(wǎng)電視業(yè)務服務提供商確保其服務穩(wěn)定性和可靠性的重要任務?;ヂ?lián)網(wǎng)電視業(yè)務性能劣化涉及互聯(lián)網(wǎng)電視端到端整個流程環(huán)節(jié)。對互聯(lián)網(wǎng)電視業(yè)務的分析及質量監(jiān)測一方面為提高用戶業(yè)務體驗提供依據(jù),另一方面,也可以作為“端-管-云”各個層級運維的有效手段。隨著互聯(lián)網(wǎng)電視業(yè)務的發(fā)展,運維部門需要考慮和研究如何實現(xiàn)自動化、智能化、快速、準確地識別業(yè)務性能劣化,及時進行故障定界定位,避免出現(xiàn)大面積故障問題,以免影響用戶業(yè)務體驗。為此,本文提出一種基于聚類算法的互聯(lián)網(wǎng)電視業(yè)務故障定界定位方法,通過對業(yè)務感知的監(jiān)測、分析、聚類,構建自智網(wǎng)絡,利用自智網(wǎng)絡的自適應性和學習能力,實現(xiàn)對業(yè)務故障的自動定位和定界[1]。
互聯(lián)網(wǎng)電視業(yè)務感知質差通常由于網(wǎng)絡故障、應用故障、設備故障及傳輸鏈路故障等原因導致,需要通過判斷和分析快速診斷問題并進行故障解決。
業(yè)界已經(jīng)提出了很多關于互聯(lián)網(wǎng)電視業(yè)務感知質差定位的方法。其中,基于網(wǎng)絡流量分析的方法是比較常用的。該方法通過對網(wǎng)絡流量進行分析,找出流量異常的地方,從而定位故障。然而,該方法需要大量的人工干預和時間,效率低下。另外還有一些基于機器學習的方法。這些方法通過對業(yè)務流量進行監(jiān)測和分析,利用機器學習算法進行故障定位和解決,可以自動化地進行故障定位和解決,提高效率。但是,此類方法需要大量的數(shù)據(jù)進行訓練,且對算法的選擇和參數(shù)的設置要求較高。
自智網(wǎng)絡是一種基于神經(jīng)網(wǎng)絡的自適應系統(tǒng)。它可以自動地學習和適應環(huán)境的變化,具有自我組織和自我調整的能力。自智網(wǎng)絡可以用于模式識別、分類、聚類等任務。自智網(wǎng)絡由神經(jīng)元和連接權值組成。神經(jīng)元接收輸入信號,通過連接權值對輸入信號進行加權、求和,然后將結果傳遞給下一層神經(jīng)元。自智網(wǎng)絡的訓練是通過調整連接權值實現(xiàn)的,使得網(wǎng)絡輸出與期望輸出之間的誤差最小化。
通過聚類算法實現(xiàn)互聯(lián)網(wǎng)電視業(yè)務感知質差的定界定位,主要是通過對業(yè)務感知的監(jiān)測和分析,構建自智網(wǎng)絡,利用自智網(wǎng)絡的自適應性和學習能力,實現(xiàn)對業(yè)務故障的自動定位和定界。
互聯(lián)網(wǎng)電視業(yè)務感知質差定界定位,通過對用戶感知的互聯(lián)網(wǎng)電視業(yè)務質量進行評估,以快速發(fā)現(xiàn)、定位和解決故障問題。本文利用聚類算法對業(yè)務質量指標、業(yè)務感知指標等進行數(shù)據(jù)訓練,建立數(shù)據(jù)模型,從而實現(xiàn)互聯(lián)網(wǎng)電視業(yè)務感知質差定界定位。
數(shù)據(jù)模型采用層次聚類算法[2],是一種基于樹形結構的聚類方法,常用的是自底向上的結合策略(AGNES算法)。假設有N個待聚類的樣本,其基本步驟是:
(1)初始化,把每個樣本歸為一類,計算每兩個類之間的距離,也就是樣本與樣本之間的相似度;
(2)尋找各個類之間最近的兩個類,把它們歸為一類(這樣類的總數(shù)就少了一個);
(3)重新計算新生成的這個類與各個舊類之間的相似度;
(4)重復步驟(2)和步驟(3),直到所有樣本點都歸為一類,結束。
算法以互聯(lián)網(wǎng)電視軟探針采集的用戶觀看視頻質量數(shù)據(jù)為基礎,以大數(shù)據(jù)驅動來實現(xiàn)業(yè)務感知質差定界定位的自智化。通過質差用戶的業(yè)務質量感知,定位出質差終端、質差網(wǎng)元及質差信號源等。
2.1.1 數(shù)據(jù)采集
采集約600萬互聯(lián)網(wǎng)電視用戶數(shù)據(jù),平均每小時有播放操作的用戶數(shù)約20%,即超過120萬,每個互聯(lián)網(wǎng)電視軟探針每10 min上報一次數(shù)據(jù),即每個小時平臺可以收到超過720萬用戶的觀看數(shù)據(jù)。軟探針每次上報的數(shù)據(jù)內(nèi)容包括了每10 min內(nèi)用戶播放過的視頻業(yè)務質量指標數(shù)據(jù),數(shù)據(jù)量非常龐大[3]。
2.1.2 數(shù)據(jù)清洗
質差定界定位是在互聯(lián)網(wǎng)電視視頻播放出現(xiàn)異常的基礎上聚類的,需要先對數(shù)據(jù)樣本進行清洗。與用戶視頻播放相關的特征指標有很多個,很多指標特征之間存在強關聯(lián)性。根據(jù)實際指標間的特征關聯(lián)性,選取相關絕對系數(shù)較大的指標。
2.1.3 數(shù)據(jù)關聯(lián)
根據(jù)互聯(lián)網(wǎng)電視軟探針上報的用戶觀看質量數(shù)據(jù),以終端媒體訪問控制(Media Access Control,MAC)地址為關聯(lián)關系,與綜資數(shù)據(jù)進行關聯(lián)匹配,由此得到互聯(lián)網(wǎng)電視用戶上聯(lián)網(wǎng)絡鏈路信息,包括上聯(lián)網(wǎng)元光線路終端(Optical Line Terminal,OLT)、寬帶遠程接入服務器(Broadband Remote Access Server,BRAS)、播控平臺等信息,為質差定界定位提供網(wǎng)元鏈路信息。
2.1.4 模型構建
根據(jù)互聯(lián)網(wǎng)電視軟探針的業(yè)務質量指標集構建數(shù)據(jù)邏輯模型[4],從而得到用戶終端的業(yè)務質量聚類。通過對異常指標、故障類型、用戶行為數(shù)據(jù)和反饋數(shù)據(jù)的關聯(lián),后臺形成質差原因支持庫,在每個異常指標產(chǎn)生的時候,自動計算和匹配故障原因數(shù)據(jù),并將異常指標匹配上故障類型時長變量和故障原因信息。
2.1.5 質差網(wǎng)元處理
根據(jù)最終定位出的質差網(wǎng)元結合事件具體原因及質差原因支持庫,分析具體影響要因,給出合理化優(yōu)化整改建議。
根據(jù)數(shù)據(jù)清洗流程,輸出質差終端用戶,以互聯(lián)網(wǎng)電視業(yè)務質量指標為導向,進行質差用戶分類[5]。
質差事件場景包括用戶質量劣化、光分配網(wǎng)(Optical Distribution Network,ODN)中斷、OLT中斷和劣化、BRAS中斷和劣化、內(nèi)容分發(fā)網(wǎng)絡(Content Delivery Network,CDN)服務器中斷和劣化、播控平臺中斷和劣化、節(jié)目源中斷和劣化。
(1)用戶視頻播放業(yè)務質量指標異常。用戶視頻播放優(yōu)良率指標小于99%,定義為質差用戶。
(2)網(wǎng)元聚類。結合綜資數(shù)據(jù)匹配到的用戶網(wǎng)元鏈路信息,進行層次聚類計算,根據(jù)層次聚類算法對故障進行定界定位。
(3)告警時間關聯(lián)。根據(jù)用戶層次聚類后定位到的網(wǎng)元信息進行告警數(shù)據(jù)關聯(lián),區(qū)分網(wǎng)元質差原因。
本文所述方法由互聯(lián)網(wǎng)電視用戶業(yè)務感知切入,為解決影響用戶業(yè)務體驗的質差網(wǎng)元優(yōu)化提供具體的數(shù)據(jù)支撐。傳統(tǒng)的故障處理方式往往是通過網(wǎng)元的固定指標劣化或者批量用戶的投訴而進行故障處理,故障處理延遲,影響到用戶業(yè)務體驗后才進行處理,屬于事后行為。采用聚類算法的互聯(lián)網(wǎng)電視業(yè)務故障定界定位方法是通過大數(shù)據(jù)采集進行層次聚類算法分析,提前感知用戶業(yè)務質量劣化分析數(shù)據(jù)的變化趨勢,關聯(lián)相關網(wǎng)元信息,進行故障的提前定位。
算法關聯(lián)綜合資源管理系統(tǒng)、業(yè)務平臺媒體資源表等,生成網(wǎng)絡、網(wǎng)元、地理、平臺、節(jié)目源、終端廠家等多個維度的資源樹和相關標簽信息,按互聯(lián)網(wǎng)電視用戶劣化數(shù)據(jù)層次聚類,確保數(shù)據(jù)處理實時性、高效性的同時提高聚類的準確性,降低算力消耗,輸出各層級設備和鏈路質量劣化及告警數(shù)據(jù)。通過不斷的測試驗證和模擬故障數(shù)據(jù)進行觸發(fā),最后總結出一套互聯(lián)網(wǎng)電視業(yè)務故障定界定位體系,包括告警指標、閾值、聚類比例等;告警匯聚邏輯從下層節(jié)點逐步上升到上層節(jié)點,在故障排查時能從上層節(jié)點對下層節(jié)點及具體用戶回溯。
互聯(lián)網(wǎng)電視業(yè)務感知故障定界定位方案實施后,實現(xiàn)故障發(fā)現(xiàn)時長由5 min降至10 s內(nèi),告警處置由原來的30 min縮短至分鐘級,解決了運維人員人工故障排查耗時長、準確率低、業(yè)務校驗不標準的難題。互聯(lián)網(wǎng)電視業(yè)務質量類投訴占比由方案實施前的60.3%下降到方案實施后的29.7%,陜西移動互聯(lián)網(wǎng)電視業(yè)務社會認可度逐步增高,客戶滿意度不斷提升。
在運維能力和手段提升方面,本文方法改變故障監(jiān)控手段由“被動”監(jiān)測變“主動”,由原來的單純依賴人工經(jīng)驗識別判斷故障變?yōu)榛谡鎸嵱脩魯?shù)據(jù)結合網(wǎng)元告警、日志等信息進行智能算法為主的智能化運維[6]。
在應用落地前,故障識別及時率只有30%,并且受測試過程及環(huán)境標準影響。應用落地后,故障識別及時率提升到90%以上,且均基于層次聚斂算法自動識別。
在應用落地前,故障判斷準確率不足60%,并受限于環(huán)境和人工經(jīng)驗等因素制約。應用落地后,故障判斷準確率提升到90%以上,并基于最近的網(wǎng)元告警及日志,結合機頂盒軟探針上報的數(shù)據(jù)進行實時分析。
現(xiàn)有的故障分析技術主要都采用固定指標門限、固定故障類型、固定故障節(jié)點,部分有故障隱患但是達不到固定告警條件的數(shù)據(jù)可能會被遺漏,也無法進一步判斷故障原因?;诰垲愃惴ǖ幕ヂ?lián)網(wǎng)電視業(yè)務故障定界定位方法可以有效地提升故障監(jiān)控告警數(shù)據(jù)的有效性和告警及時性,可在互聯(lián)網(wǎng)電視批量用戶故障投訴前提前通知運維人員處理故障,減少互聯(lián)網(wǎng)電視用戶投訴,提高互聯(lián)網(wǎng)電視用戶感知。