楊飛虎,許國平,劉賢松,張碩偉,鄭敏之,施亞洲(.中國聯(lián)通網(wǎng)絡(luò)AI中心,上海 00050;.中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司,北京 000;.上海聯(lián)通無線網(wǎng)運(yùn)營中心,上海 00050)
隨著5G 和物聯(lián)網(wǎng)的引入[1],移動(dòng)網(wǎng)絡(luò)越來越復(fù)雜多變,但人們對(duì)無線網(wǎng)絡(luò)的質(zhì)量要求越來越高,這對(duì)運(yùn)營商的無線網(wǎng)絡(luò)優(yōu)化提出了新的挑戰(zhàn)[2]。KPI 指標(biāo)直接反映了無線網(wǎng)絡(luò)的性能和質(zhì)量,傳統(tǒng)的小區(qū)KPI突變檢測(cè)方法是先采集PM 和配置等數(shù)據(jù),網(wǎng)絡(luò)優(yōu)化工程師再根據(jù)專業(yè)知識(shí)和經(jīng)驗(yàn),對(duì)各個(gè)KPI 指標(biāo)分別設(shè)置閾值,觀察KPI 指標(biāo)是否連續(xù)若干個(gè)小時(shí)超出閾值,來判斷KPI 指標(biāo)是否存在異常[3]。但是網(wǎng)絡(luò)制式多樣化,用戶行為不可控,總會(huì)有部分屬于正常性突變或者偶發(fā)性波動(dòng)的KPI 指標(biāo)作為異常被識(shí)別出來,這種方法存在資源投入大、閾值不準(zhǔn)確、優(yōu)化不及時(shí)等問題。
小區(qū)KPI突變檢測(cè)是無線網(wǎng)絡(luò)優(yōu)化的一個(gè)底層核心技術(shù),是改善網(wǎng)絡(luò)覆蓋質(zhì)量的重要手段,因此小區(qū)KPI 突變檢測(cè)在無線網(wǎng)絡(luò)優(yōu)化工作中具有重要的指導(dǎo)意義[4]。傳統(tǒng)的小區(qū)KPI突變檢測(cè)流程如圖1所示。
圖1 傳統(tǒng)的小區(qū)KPI突變檢測(cè)流程圖
傳統(tǒng)的小區(qū)KPI突變檢測(cè)是對(duì)全網(wǎng)各項(xiàng)指標(biāo)進(jìn)行日常性監(jiān)控,并對(duì)有問題的小區(qū)進(jìn)行預(yù)處理和派單。在監(jiān)控KPI 指標(biāo)時(shí),除了滿足質(zhì)差小區(qū)定義及突變小區(qū)定義外,還需要同時(shí)滿足監(jiān)控時(shí)間條件,如不滿足監(jiān)控時(shí)間條件則繼續(xù)監(jiān)控指標(biāo)。通常在各項(xiàng)指標(biāo)日常監(jiān)控中,監(jiān)控時(shí)間段為:09:00—24:00(15 h),并且質(zhì)差或突變條件觸發(fā)后要同時(shí)滿足“6 h及以上或連續(xù)4 h”,才能觸發(fā)告警派單。如果人為設(shè)定規(guī)則過于苛刻,監(jiān)控系統(tǒng)預(yù)處理與派單有嚴(yán)重的滯后性,網(wǎng)絡(luò)運(yùn)維人員不能及時(shí)處理網(wǎng)絡(luò)質(zhì)量或性能問題[5];如果規(guī)則過于寬松,可能出現(xiàn)因?yàn)榉菬o線原因、正常潮汐、特殊事件等造成的正常性突變或者偶發(fā)性波動(dòng)被當(dāng)作KPI指標(biāo)異常處理的情況。
隨著整個(gè)移動(dòng)網(wǎng)絡(luò)系統(tǒng)中數(shù)據(jù)規(guī)模的指數(shù)式增加,傳統(tǒng)的基于“人為設(shè)置單一規(guī)則”的自動(dòng)化小區(qū)KPI 突變檢測(cè)顯得力不從心[6]。現(xiàn)階段的網(wǎng)絡(luò)運(yùn)維優(yōu)化迫切需要一種能夠從海量運(yùn)行數(shù)據(jù)中依據(jù)人工智能方法自動(dòng)地獲取和更新更加可靠的規(guī)則,以實(shí)現(xiàn)對(duì)無線網(wǎng)絡(luò)質(zhì)量提供強(qiáng)有力的保障[7-8]。
Prophet 算法是2017 年Facebook 發(fā)布的開源時(shí)序預(yù)測(cè)框架,它主要研究時(shí)序數(shù)據(jù)特征和時(shí)序變化規(guī)律,并對(duì)未來走勢(shì)進(jìn)行預(yù)測(cè)[9-10]。該算法不僅能夠彌補(bǔ)傳統(tǒng)時(shí)序模型對(duì)時(shí)序數(shù)據(jù)過于局限、缺失值需要填充、模型取法靈活性等不足,而且相較于傳統(tǒng)的時(shí)序模型,在模型準(zhǔn)確率以及使用者之間的互動(dòng)方面具有更好的效果[11]。Prophet 算法是一個(gè)可分解的時(shí)間序列模型,它對(duì)時(shí)序數(shù)據(jù)各個(gè)特征進(jìn)行分析,例如對(duì)時(shí)序數(shù)據(jù)的長(zhǎng)期趨勢(shì)性、季節(jié)周期性、節(jié)假日效應(yīng)等特征分析。Prophet 算法通過將這幾項(xiàng)特征擬合,累加起來得到時(shí)間序列的預(yù)測(cè)值。Prophet模型的構(gòu)成如下:
式中:
g(t)——趨勢(shì)項(xiàng),用來擬合時(shí)間序列的趨勢(shì)性變化
s(t)——周期性變化,一般來說是以周或者年為單位
h(t)——節(jié)假日因素造成的影響,數(shù)據(jù)中是否存在節(jié)假日
εt——誤差項(xiàng),通常表示突發(fā)事件的影響
在Prophet 算法中,趨勢(shì)增長(zhǎng)類似于種族增長(zhǎng)。Facebook 采用了2 種增長(zhǎng)函數(shù),一個(gè)是基于邏輯回歸函數(shù),另一個(gè)是基于分段線性函數(shù)。
基于分段線性函數(shù)的趨勢(shì):
式中:
k——增長(zhǎng)率
δ——增長(zhǎng)率的變化量(適應(yīng)率)
m——偏移量參數(shù)
γ——讓函數(shù)連續(xù)
基于邏輯回歸函數(shù)的非線性趨勢(shì):
其中,C(t),k(t),m(t)是隨著時(shí)間t變化的函數(shù),a(t)=(a1(t),...,aS(t))T,δ=(δ1,...,δS)T,γ=(γ1,...,γS)T。
時(shí)間序列通常隨著天、周、月、年等周期性的變化而呈現(xiàn)周期性的變化,在數(shù)學(xué)分析中,區(qū)間內(nèi)的周期性函數(shù)是可以通過正弦和余弦函數(shù)來表示。在Proph?et算法中,使用傅里葉級(jí)數(shù)來模擬時(shí)間序列的周期性。傅里葉級(jí)數(shù)的形式如下:
式中:
P——時(shí)間序列的周期,如P=365.25 表示以年為周期,P=7表示以周為周期
Prophet的周期函數(shù)如下:
其中,
參數(shù)向量β初始化為β~Normal(0,σ2)。
通過Prophet 訓(xùn)練模型的時(shí)序分解方法,將KPI 指標(biāo)分解為3項(xiàng):趨勢(shì)項(xiàng)、周期項(xiàng)和誤差項(xiàng),針對(duì)趨勢(shì)、周期特征分量,建立Prophet 模型進(jìn)行預(yù)測(cè)。流程如圖2所示。
圖2 基于Prophet時(shí)序算法的小區(qū)KPI突變檢測(cè)流程
a)將實(shí)際KPI 指標(biāo)值與各分量的預(yù)測(cè)值相減獲得隨機(jī)序列,隨機(jī)序列的標(biāo)準(zhǔn)差和各分量的預(yù)測(cè)值合成得到KPI指標(biāo)的動(dòng)態(tài)門限。
b)在絕對(duì)門限和動(dòng)態(tài)門限之間設(shè)置相對(duì)門限,來設(shè)定異常KPI指標(biāo)等級(jí)。
c)通過判斷KPI 數(shù)值是否超過相對(duì)門限,來判定該KPI指標(biāo)是不是發(fā)生異常。
Prophet 算法在預(yù)測(cè)過程中,能夠通過調(diào)整轉(zhuǎn)折點(diǎn)平臺(tái)參數(shù)自動(dòng)探測(cè)到轉(zhuǎn)折點(diǎn)。對(duì)歷史KPI指標(biāo)發(fā)生異常的數(shù)據(jù)進(jìn)行調(diào)整,減少對(duì)KPI指標(biāo)歷史規(guī)律的影響,這樣可以使預(yù)測(cè)結(jié)果更加靈活、平滑。
a)首先采用Prophet 模型訓(xùn)練的時(shí)序數(shù)據(jù)分解方法,將歷史KPI 指標(biāo)數(shù)據(jù)St分解成趨勢(shì)項(xiàng)trendt、周期項(xiàng)(dailyt,weeklyt)和誤差項(xiàng)ε。
b)將分解出的趨勢(shì) trendt和周期項(xiàng)(dailyt,weeklyt),采用Prophet 模型預(yù)測(cè)獲得第t+3 天趨勢(shì)預(yù)測(cè)值 trendt+3和周期預(yù)測(cè)值(dailyt+3,weeklyt+3)。
c)將上述趨勢(shì)預(yù)測(cè)值trendt+3、周期預(yù)測(cè)值(dailyt+3,weeklyt+3)和誤差項(xiàng)ε集成得到第t+3 天小區(qū)KPI 指標(biāo)的預(yù)測(cè)值St+3,St+3=trendt+3+dailyt+3+weeklyt+3+ε。
根據(jù)中心極限定理,如果一個(gè)事物受到多種因素的影響,不管每個(gè)因素本身是什么分布,它們疊加后結(jié)果的平均值呈現(xiàn)正態(tài)分布。因此實(shí)際值與預(yù)測(cè)值的差值即隨機(jī)序列呈現(xiàn)正態(tài)分布。正態(tài)分布的標(biāo)準(zhǔn)反映了組內(nèi)個(gè)體間的離散程度。如一個(gè)較大的標(biāo)準(zhǔn)差,表示大部分的數(shù)值和其平均值之間差異較大;一個(gè)較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。
a)將歷史KPI指標(biāo)數(shù)據(jù)St與趨勢(shì)預(yù)測(cè)值trendt、周期預(yù)測(cè)值(dailyt,weeklyt)相減得到隨機(jī)序列Rt,Rt呈現(xiàn)正態(tài)分布,Rt=St-trendt-dailyt-weeklyt。
b)隨機(jī)序列Rt的標(biāo)準(zhǔn)差反映了實(shí)際KPI 指標(biāo)與KPI 指標(biāo)預(yù)測(cè)的離散程度,計(jì)算隨機(jī)序列Rt的標(biāo)準(zhǔn)差。
c)將第t+3 天小區(qū)KPI 指標(biāo)的預(yù)測(cè)值St+3與隨機(jī)序列Rt的標(biāo)準(zhǔn)差σ進(jìn)行集成得到第t+3天小區(qū)KPI指標(biāo)的動(dòng)態(tài)門限d_threst+3,d_threst+3=St+3+σ。
a)公司對(duì)各個(gè)KPI 指標(biāo)的健康度閾值有明確的要求,如4G 接通率不能低于90%,4G 掉話率不能高于5%等等。根據(jù)KPI指標(biāo)的健康度閾值,設(shè)置絕對(duì)門限a_thres。
b)落在動(dòng)態(tài)門限和絕對(duì)門限之間的數(shù)據(jù)不一定很差。通過設(shè)置相對(duì)門限r(nóng)_thres,來控制派單量以及KPI 指標(biāo)異常程度。相對(duì)門限設(shè)置10 個(gè)等級(jí),等級(jí)越大,相對(duì)門限越大,落在相對(duì)門限和絕對(duì)門限之間的概率越小,KPI 指標(biāo)越接近于絕對(duì)門限,KPI 指標(biāo)異常越嚴(yán)重;等級(jí)越小,相對(duì)門限越小,落在相對(duì)門限和絕對(duì)門限之間的概率越大,派單量也會(huì)越多。設(shè)相對(duì)門限等級(jí)為β。
本文所采用的數(shù)據(jù)集來自某省網(wǎng)優(yōu)某小區(qū)過去連續(xù)28 天的KPI 指標(biāo),數(shù)據(jù)集中包含日期、4G 接通率等信息。在對(duì)原始數(shù)據(jù)分析的過程中,發(fā)現(xiàn)數(shù)據(jù)中存在格式的不一致性、空缺值和無用信息等噪聲數(shù)據(jù),這些噪聲數(shù)據(jù)將會(huì)不利于模型的訓(xùn)練,需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。
數(shù)據(jù)格式。原始數(shù)據(jù)集中包含很多KPI 指標(biāo),本文實(shí)驗(yàn)只是使用4G 接通率,因此需要對(duì)其他KPI指標(biāo)進(jìn)行過濾。在保證原始數(shù)據(jù)完整性和準(zhǔn)確性的同時(shí),對(duì)原始數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換,以滿足算法模型對(duì)數(shù)據(jù)的要求。
空缺值處理。原始數(shù)據(jù)中存在空缺值,如4G接通率在某一天的某個(gè)時(shí)刻沒有數(shù)值。本文采用上下均值替代法,即用空缺值時(shí)刻的上個(gè)時(shí)刻數(shù)據(jù)和下個(gè)時(shí)刻數(shù)據(jù)的均值來填補(bǔ)缺失的KPI指標(biāo)數(shù)據(jù)。經(jīng)過一系列對(duì)原始數(shù)據(jù)的分析與處理,得到適合模型訓(xùn)練的標(biāo)準(zhǔn)、連續(xù)的數(shù)據(jù)集。
Prophet 本質(zhì)上是一種可分解的加法回歸模型,即按時(shí)序特征可將時(shí)序數(shù)據(jù)分解為非周期性變化的趨勢(shì)項(xiàng)、天或周的季節(jié)周期項(xiàng)和節(jié)假日效應(yīng)等。因此,Prophet 模型可以靈活地對(duì)各時(shí)序特征的參數(shù)進(jìn)行設(shè)置,這些參數(shù)值的大小分別表示各個(gè)特征對(duì)模型預(yù)測(cè)結(jié)果的貢獻(xiàn)度。通過分析模型的訓(xùn)練結(jié)果,可以調(diào)節(jié)各特征的參數(shù),以便進(jìn)一步提升預(yù)測(cè)精確度。本文使用的Prophet算法的部分參數(shù)說明如表1所示。
5.4.1 Prophet算法預(yù)測(cè)結(jié)果與分析
如圖3 所示,黑點(diǎn)表示某小區(qū)4G 接通率的真實(shí)數(shù)據(jù),藍(lán)線表示預(yù)測(cè)值。從預(yù)測(cè)結(jié)果可以看出,模型對(duì)歷史數(shù)據(jù)有較好的擬合,自動(dòng)調(diào)整歷史4G接通率數(shù)據(jù)中的異常點(diǎn),減小異常點(diǎn)對(duì)擬合曲線的影響,預(yù)測(cè)結(jié)果較好地?cái)M合了大部分歷史數(shù)據(jù)的規(guī)律,并對(duì)未來3天的數(shù)據(jù)進(jìn)行預(yù)測(cè),可以發(fā)現(xiàn)模型對(duì)KPI 指標(biāo)歷史規(guī)律的預(yù)測(cè)比較準(zhǔn)確。而且相較于傳統(tǒng)小區(qū)KPI突變檢測(cè)方法,能夠?qū)ξ磥?天的KPI指標(biāo)趨勢(shì)進(jìn)行預(yù)測(cè)。
表1 模型的參數(shù)
圖3 4G接通率KPI指標(biāo)預(yù)測(cè)值
5.4.2 動(dòng)態(tài)門限結(jié)果分析
如圖4 所示,淺藍(lán)色部分表示某小區(qū)4G 接通率預(yù)測(cè)結(jié)果的動(dòng)態(tài)門限。動(dòng)態(tài)門限包含了大部分的真實(shí)值,在動(dòng)態(tài)門限內(nèi)的數(shù)值都屬于正常KPI指標(biāo),而超過動(dòng)態(tài)門限的數(shù)值則屬于異常KPI指標(biāo)。相較于傳統(tǒng)小區(qū)KPI 突變檢測(cè)方法,動(dòng)態(tài)門限更容易發(fā)現(xiàn)不符合歷史規(guī)律的KPI數(shù)值,值得運(yùn)維人員重點(diǎn)關(guān)注。
5.4.3 相對(duì)門限與絕對(duì)門限結(jié)果分析
如圖5 所示,較深藍(lán)色部分表示某小區(qū)4G 接通率預(yù)測(cè)結(jié)果的相對(duì)門限,深藍(lán)色部分表示預(yù)測(cè)結(jié)果的絕對(duì)門限。相對(duì)門限將動(dòng)態(tài)門限和絕對(duì)門限之間的數(shù)據(jù)進(jìn)一步篩選,選取1 級(jí)相對(duì)門限,異常KPI 數(shù)據(jù)減少了20%。因此,相對(duì)門限對(duì)異常KPI 數(shù)據(jù)有進(jìn)一步的篩選作用,幫助運(yùn)維人員關(guān)注KPI 數(shù)據(jù)異常程度更高的時(shí)刻。
圖4 動(dòng)態(tài)門限
圖5 相對(duì)門限與絕對(duì)門限
5.4.4 不同等級(jí)相對(duì)門限分析
如圖6 和圖7 所示,超過等級(jí)1 相對(duì)門限的KPI 數(shù)值有8 個(gè),而超過等級(jí)3 相對(duì)門限的KPI 數(shù)值只有5個(gè)。因此,不同等級(jí)的相對(duì)門限,可以人為控制KPI指標(biāo)異常數(shù)量,減少預(yù)警次數(shù)。
圖6 等級(jí)1相對(duì)門限
圖7 等級(jí)3相對(duì)門限
如表2 所示,某小區(qū)4G 接通率從2020 年6 月3 日9 點(diǎn)開始發(fā)生異常,從11 點(diǎn)到14 點(diǎn)連續(xù)低于相對(duì)門限但未低于絕對(duì)門限,直到17 點(diǎn)4G 接通率突然惡化,直接低于絕對(duì)門限,降到74%??梢园l(fā)現(xiàn)模型對(duì)KPI 指標(biāo)突然惡化有明顯的預(yù)警作用,如果運(yùn)維人員能夠在2020年6月3日9點(diǎn)到14點(diǎn)找到4G接通率KPI指標(biāo)異常原因,那么17 點(diǎn)就不會(huì)發(fā)生4G 接通率突然惡化,也不會(huì)造成用戶投訴。
表2 2020年6月3日4G接通率實(shí)際值與3個(gè)門限
目前該方法已經(jīng)在某省聯(lián)通無線網(wǎng)運(yùn)營中心進(jìn)行試點(diǎn)使用,根據(jù)“區(qū)域”模塊可選擇全網(wǎng)小區(qū)、重點(diǎn)場(chǎng)景、網(wǎng)格、區(qū)縣分公司等指定區(qū)域,通過時(shí)間和相對(duì)門限等級(jí)選擇,可以自動(dòng)對(duì)比絕對(duì)門限篩選出不同KPI 的TOP 小區(qū),便于后臺(tái)指標(biāo)監(jiān)控人員實(shí)時(shí)掌握不同區(qū)域的KPI突變情況(見圖8)。
圖8 無線網(wǎng)絡(luò)突變小區(qū)智能識(shí)別應(yīng)用
通過點(diǎn)擊任意KPI指標(biāo)表盤中的“超過動(dòng)態(tài)門限”區(qū)域,可顯示出超過動(dòng)態(tài)門限的TOP 小區(qū)具體分析結(jié)果及指標(biāo)變化趨勢(shì)圖,隨時(shí)掌握TOP 小區(qū)指標(biāo)突變時(shí)刻及歷史趨勢(shì)。
本文構(gòu)建了一種基于Prophet 時(shí)序算法的無線網(wǎng)絡(luò)突變小區(qū)識(shí)別方法,對(duì)突變小區(qū)KPI指標(biāo)進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果表明,該方法將KPI指標(biāo)歷史數(shù)據(jù)擬合,可發(fā)現(xiàn)歷史KPI指標(biāo)的分布規(guī)律,通過動(dòng)態(tài)門限、相對(duì)門限和絕對(duì)門限精確地識(shí)別突變KPI 指標(biāo),使運(yùn)維人員及時(shí)掌握網(wǎng)絡(luò)性能,降低誤報(bào)和錯(cuò)報(bào)異常,提升網(wǎng)絡(luò)優(yōu)化效率和質(zhì)量。目前,該方法是對(duì)4G 網(wǎng)絡(luò)KPI指標(biāo)進(jìn)行突變檢測(cè),將來還可以應(yīng)用到對(duì)5G 網(wǎng)絡(luò)KPI指標(biāo)突變檢測(cè)。后續(xù)工作將考慮多維度KPI 指標(biāo)關(guān)聯(lián)和KPI突變根因定位等,探索更加準(zhǔn)確、適應(yīng)范圍更廣的預(yù)測(cè)模型。