李張錚,陳 鋒,董帝烺(中國聯(lián)通福建省分公司,福建福州 350000)
在無線網(wǎng)絡(luò)優(yōu)化工作中,鄰區(qū)優(yōu)化是降低掉話率、提升移動(dòng)網(wǎng)絡(luò)質(zhì)量、改善用戶感知的最基本且最有效的手段。目前基站鄰區(qū)優(yōu)化有2 種方式:自動(dòng)鄰區(qū)關(guān)系(ANR)和非自動(dòng)鄰區(qū)關(guān)系(下文簡稱非自動(dòng)鄰區(qū)關(guān)系網(wǎng)絡(luò)為傳統(tǒng)網(wǎng)絡(luò))。具備自動(dòng)鄰區(qū)關(guān)系的網(wǎng)絡(luò)可自動(dòng)優(yōu)化鄰區(qū)關(guān)系,不需人工干預(yù);傳統(tǒng)網(wǎng)絡(luò)鄰區(qū)關(guān)系需優(yōu)化人員手工優(yōu)化。這些網(wǎng)絡(luò)鄰區(qū)的數(shù)目眾多,優(yōu)化工作量非常大;需要優(yōu)化鄰區(qū)的確定與個(gè)人優(yōu)化經(jīng)驗(yàn)有很大的關(guān)系,稍有不慎就可能造成鄰區(qū)漏配或冗余鄰區(qū),存在較大的優(yōu)化風(fēng)險(xiǎn)。規(guī)避上述問題,提高鄰區(qū)優(yōu)化的效率和精度已成為網(wǎng)絡(luò)優(yōu)化的關(guān)鍵。考慮到在ANR 網(wǎng)絡(luò)中,自動(dòng)鄰區(qū)關(guān)系已成為小區(qū)SON 功能的標(biāo)配,無需人員操作網(wǎng)絡(luò)便可自動(dòng)識(shí)別和添加鄰區(qū),如何利用ANR 鄰區(qū)關(guān)系來優(yōu)化傳統(tǒng)網(wǎng)絡(luò)鄰區(qū)已成為網(wǎng)絡(luò)運(yùn)營智能化的重要課題。
機(jī)器學(xué)習(xí)技術(shù)作為人工智能的重要組成部分,是國家發(fā)展戰(zhàn)略重點(diǎn)扶持的目標(biāo)和當(dāng)下各行業(yè)關(guān)注應(yīng)用的焦點(diǎn)。為了推動(dòng)傳統(tǒng)網(wǎng)絡(luò)鄰區(qū)優(yōu)化的智能化,提升網(wǎng)絡(luò)運(yùn)營智能化水平,特開展基于機(jī)器學(xué)習(xí)算法的鄰區(qū)關(guān)系優(yōu)化的研究。
在傳統(tǒng)網(wǎng)絡(luò)優(yōu)化中,鄰區(qū)關(guān)系優(yōu)化一直以來是一個(gè)難點(diǎn)。由于鄰區(qū)關(guān)系數(shù)量多、影響大、技術(shù)要求高、優(yōu)化手段匱乏等等方面的因素,使得鄰區(qū)關(guān)系優(yōu)化在傳統(tǒng)網(wǎng)絡(luò)中存在一些挑戰(zhàn)。
以福州聯(lián)通為例,W 現(xiàn)網(wǎng)有小區(qū)25 000 個(gè),用每個(gè)小區(qū)有20~25 條鄰區(qū)來計(jì)算,所配置的鄰區(qū)個(gè)數(shù)至少50萬條以上,網(wǎng)優(yōu)人員每周提取MR數(shù)據(jù),使用廠家工具進(jìn)行同頻、異頻鄰區(qū)核查,根據(jù)核查結(jié)果,確定需要優(yōu)化的鄰區(qū),并進(jìn)行相應(yīng)操作,鄰區(qū)優(yōu)化的工作量非常大。
鄰區(qū)設(shè)置不當(dāng),會(huì)導(dǎo)致干擾增大、容量下降和性能惡化,嚴(yán)重影響用戶感知,引發(fā)的掉話等問題會(huì)導(dǎo)致用戶投訴,給運(yùn)營商網(wǎng)絡(luò)口碑帶來負(fù)面影響,影響NPS 得分。鄰區(qū)設(shè)置不當(dāng)主要有2 種表現(xiàn)方式:鄰區(qū)漏配和冗余鄰區(qū)。鄰區(qū)漏配會(huì)引起干擾增大,降低用戶的通話質(zhì)量甚至掉話,從而引起容量及覆蓋能力下降;冗余鄰區(qū)一方面將會(huì)由于切換的過多會(huì)導(dǎo)致信令負(fù)荷加重;另一方面由于終端測量能力的限制,會(huì)降低測量的精度、增加測量時(shí)延。同時(shí)信號(hào)較多會(huì)造成干擾,容易出現(xiàn)掉話,影響速率的提升,從而影響用戶感知。
傳統(tǒng)的鄰區(qū)關(guān)系優(yōu)化手段有2 種:基于路測軟件分析和基于廠家的鄰區(qū)核查工具平臺(tái)。
a)路測軟件分析。基于導(dǎo)頻的小區(qū)切換關(guān)系來定位鄰區(qū)關(guān)系合理性,該方法的局限性是路測范圍有限,覆蓋面不足,無法開展全網(wǎng)的精細(xì)鄰區(qū)優(yōu)化,且路測方法耗時(shí)耗力。
b)基于廠家的鄰區(qū)核查平臺(tái)。通過采集UE 上報(bào)的測量報(bào)告、話統(tǒng)呼叫記錄、事件進(jìn)行匯總分析,判斷鄰區(qū)漏配和冗余。該方法有較高的精確性,但受限于廠家License配額和優(yōu)化人員的技術(shù)水平。
隨著運(yùn)營商移動(dòng)用戶數(shù)的不斷增加,良好的用戶網(wǎng)絡(luò)體驗(yàn)保障對無線網(wǎng)絡(luò)運(yùn)營提出了更高的要求。影響無線網(wǎng)絡(luò)質(zhì)量的因素很多,其中鄰區(qū)關(guān)系是一個(gè)關(guān)鍵因素,它是小區(qū)移動(dòng)性管理的直接承載者。做好鄰區(qū)關(guān)系優(yōu)化,始終是網(wǎng)優(yōu)工作的重點(diǎn)。
本文通過利用XGBoost 機(jī)器學(xué)習(xí)算法學(xué)習(xí)ANR現(xiàn)網(wǎng)鄰區(qū)關(guān)系數(shù)據(jù),建立小區(qū)間切換次數(shù)占比模型預(yù)測出傳統(tǒng)網(wǎng)絡(luò)小區(qū)的鄰區(qū)關(guān)系。該模型可在開站鄰區(qū)配置、鄰區(qū)核查、用戶投訴分析等網(wǎng)優(yōu)日常工作中起到積極作用。
2.1.1 樣本的采集
提取某省聯(lián)通2 個(gè)行政區(qū)LTE 網(wǎng)絡(luò)3 天的兩兩小區(qū)切換次數(shù)報(bào)表,匯總每個(gè)小區(qū)鄰區(qū)的切換次數(shù)占比降序排列,取每個(gè)小區(qū)占比前50 名的鄰區(qū)作為樣本,切換占比為樣本標(biāo)簽,同時(shí)關(guān)聯(lián)網(wǎng)絡(luò)工參相關(guān)字段(見表1),形成最終樣本。
表1 網(wǎng)絡(luò)工參字段
2.1.2 樣本劃分為訓(xùn)練集和測試集
機(jī)器學(xué)習(xí)一般將樣本劃分為訓(xùn)練集和測試集,訓(xùn)練集用于模型訓(xùn)練,測試集用于測試模型性能。本文利用sciki-learn 的train_test_split()函數(shù)將樣本劃分為訓(xùn)練集和測試集,其中參數(shù)測試集比例test_size 取0.2,即訓(xùn)練集和測試集比例為8∶2。
數(shù)據(jù)預(yù)處理主要是檢查每個(gè)特征是否有缺失值或非法字符,對不合理的值進(jìn)行校正替換。檢查樣本數(shù)據(jù)發(fā)現(xiàn),覆蓋類型為室分的小區(qū)方位角都是0值,這與實(shí)際室分小區(qū)為全向覆蓋不符,故室分小區(qū)的方位角需修正。修正方法如下:若室分小區(qū)與宏站鄰小區(qū)同經(jīng)緯度,則室分小區(qū)取宏站鄰小區(qū)的方位角;若室分小區(qū)與室分鄰小區(qū)同經(jīng)緯度,則室分小區(qū)方位角取值368°;若室分小區(qū)與鄰小區(qū)不同經(jīng)緯度,則室分小區(qū)方位角取室分小區(qū)與鄰小區(qū)連線與正北方向的順時(shí)針夾角r(見圖1)。
圖1 室分小區(qū)方位角定義
設(shè)室分小區(qū)經(jīng)緯度(X1,Y1),鄰小區(qū)經(jīng)緯度(X2,Y2),具體小區(qū)連線夾角r計(jì)算公式如下:
為了便于書寫,令
圖2給出了室分小區(qū)方位角特征預(yù)處理過程。
圖2 室分小區(qū)方位角特征預(yù)處理
特征工程是機(jī)器學(xué)習(xí)過程的重要環(huán)節(jié),樣本特征的好壞決定了機(jī)器學(xué)習(xí)性能的上限,而模型只是逼近這個(gè)上限而已。特征工程的主要內(nèi)容包括特征構(gòu)造、特征抽取和特征選擇。本文的原始特征包括本地/目標(biāo)小區(qū)經(jīng)緯度、本地/目標(biāo)小區(qū)方位角度、本地/目標(biāo)小區(qū)合計(jì)下傾角度及本地/目標(biāo)小區(qū)天線掛高10 個(gè)維度。為了滿足特征選擇的需要,在此基于本地/目標(biāo)小區(qū)的經(jīng)緯度構(gòu)造額外的特征,主要包括haversine距離、兩經(jīng)緯度的方位角、經(jīng)緯度PCA 分量,最后進(jìn)行特征選擇。
2.3.1 haversine距離
haversine 公式是計(jì)算球面兩點(diǎn)間距離的一種方法,該方法采用了正弦函數(shù),即使距離很小,也能保持足夠的有效數(shù)字。haversine距離計(jì)算公式如下:
圖3 本地/目標(biāo)小區(qū)haversine距離計(jì)算
2.3.2 兩經(jīng)緯度的方位角
設(shè)本地小區(qū)經(jīng)緯度為(lat1,lng1),目標(biāo)小區(qū)經(jīng)緯度為(lat2,lng2),兩經(jīng)緯度間的方位角公式計(jì)算如下,代碼實(shí)現(xiàn)如圖4所示。
圖4 2個(gè)經(jīng)緯度間的方位角計(jì)算
2.3.3 經(jīng)緯度的PCA分量
主成分分析(PCA——Principal Component Analysis)是最廣泛的數(shù)據(jù)壓縮算法,主要通過降維可以生成更便于人理解的新特征,加快對樣本有價(jià)值信息的處理速度。此處對本地/目標(biāo)小區(qū)經(jīng)緯度4 個(gè)特征采用PCA 進(jìn)行變換,默認(rèn)降維后的特征數(shù)仍為4(見圖5)。
圖5 本地/目標(biāo)小區(qū)經(jīng)緯度的PCA變換
2.3.4 特征/目標(biāo)相關(guān)性分析
特征選擇不僅具有減少特征數(shù)量(降維)、減少過擬合、提高模型泛化能力等優(yōu)點(diǎn),而且還可以使模型獲得更好的解釋性,增強(qiáng)對特征和特征值、特征和目標(biāo)之間關(guān)系的理解,加快模型的訓(xùn)練速度獲得更好的預(yù)測性能。此處采用pandas 的相關(guān)系數(shù)計(jì)算函數(shù)corr()來分析特征和目標(biāo)間的相關(guān)性(見圖6和表2)。
表2 特征和目標(biāo)間的相關(guān)系數(shù)值
圖6 特征和目標(biāo)間的相關(guān)性熱力圖
從熱力圖上可以發(fā)現(xiàn),部分特征間的相關(guān)性過高,這將造成特征間的多重共線性,影響模型效果,這里剔除相關(guān)系數(shù)大于0.8 的特征(包括本地小區(qū)LATITUDE,本地小區(qū)LATITUDE_pca_0,本地小區(qū)LONGITUDE),保留與目標(biāo)相關(guān)性最大的特征。
2.3.5 特征標(biāo)準(zhǔn)化
特征標(biāo)準(zhǔn)化就是將某列特征的值縮放到均值為0,方差為1 的狀態(tài),計(jì)算公式為標(biāo)準(zhǔn)化的好處是提升模型精度和加快收斂速度。此處使用scikit-learn自帶的StandardScaler()類進(jìn)行轉(zhuǎn)換。
2.4.1 基于交叉驗(yàn)證的回歸預(yù)測模型選擇
機(jī)器學(xué)習(xí)中常用的回歸預(yù)測模型有線性回歸、KNN、隨機(jī)森林、GBDT 和XGBoost 等。這里分別使用這幾個(gè)模型進(jìn)行交叉驗(yàn)證打分,選出最好的模型。這些模型的參數(shù)都取默認(rèn)值,交叉驗(yàn)證參數(shù)取5,評估標(biāo)準(zhǔn)為平均絕對誤差MAE。實(shí)驗(yàn)結(jié)果表明,最好的模型為XGBoost,平均cross_val_score 得分最高為-0.03(見圖7)。下面就使用XGBoost模型進(jìn)行建模訓(xùn)練。
圖7 基于交叉驗(yàn)證的回歸模型選擇
2.4.2 XGBoost算法原理概述
XGBoost 算法近年來在工業(yè)界和各類數(shù)據(jù)挖掘競賽中大放異彩,取得良好的預(yù)測效果。與傳統(tǒng)的Boosting 算法如GBDT 比較,XGBoost 算法優(yōu)點(diǎn)在于:GBDT只利用了一階導(dǎo)數(shù)的信息,而XGBoost對損失函數(shù)做了二階泰勒展開,并且在目標(biāo)函數(shù)中加入了正則項(xiàng),用來權(quán)衡目標(biāo)函數(shù)和模型的復(fù)雜程度,防止過擬合;Boosting 是串行過程,不能并行化且計(jì)算復(fù)雜度較高,也不適合高維稀疏特征,而XGBoost 在特征粒度上可進(jìn)行并行化計(jì)算且考慮了訓(xùn)練數(shù)據(jù)為稀疏值的情況。該算法原理如下:
XGBoost 算法的目標(biāo)函數(shù)包含損失函數(shù)L和正則化項(xiàng)Ω:
根據(jù)第t步的新模型的預(yù)測值ft(xi),此時(shí)的目標(biāo)函數(shù)可寫成:
利用泰勒公式將目標(biāo)函數(shù)進(jìn)行泰勒二階展開,得
其中g(shù)i為損失函數(shù)一階導(dǎo)數(shù),hi為損失函數(shù)的二階導(dǎo)數(shù)。當(dāng)損失函數(shù)取平方損失時(shí),目標(biāo)函數(shù)近似為:
進(jìn)一步地,基函數(shù)取為決策樹模型ft(x)=ωq(x),q(x)表示樣本x所在的葉子節(jié)點(diǎn),同時(shí)設(shè)決策樹葉子節(jié)點(diǎn)數(shù)為T,該值決定了決策樹的復(fù)雜度,值越大模型越復(fù)雜,此時(shí)目標(biāo)函數(shù)的正則項(xiàng)表示為:
由于每個(gè)樣本xi最終都是落在葉子節(jié)點(diǎn)上,且每個(gè)葉子節(jié)點(diǎn)都會(huì)包含多個(gè)樣本,因此遍歷所有樣本xi求損失函數(shù)等價(jià)于遍歷所有葉子節(jié)點(diǎn)求損失函數(shù),設(shè)第j個(gè)葉子節(jié)點(diǎn)包含的樣本集合為Ij={i},則損失函數(shù)為:
接著對ωj求一階導(dǎo)數(shù),并使之為0,得葉子節(jié)點(diǎn)j對應(yīng)的權(quán)值和最優(yōu)目標(biāo)函數(shù)為:
2.4.3 基于網(wǎng)格搜索的XGBoost模型超參數(shù)調(diào)整
XGBoost 模型的超參數(shù)分2 類:第1 類負(fù)責(zé)控制模型的復(fù)雜度,第2類用于增加隨機(jī)性,從而使得模型在訓(xùn)練時(shí)對噪聲不敏感。下面介紹調(diào)參重點(diǎn)關(guān)注的超參數(shù):
a)eta,學(xué)習(xí)率,默認(rèn)為0.3,范圍為[0,1]。
b)gamma,最小劃分損失,它是對于一個(gè)葉子節(jié)點(diǎn),當(dāng)對它采取劃分之后,損失函數(shù)的降低值的閾值,默認(rèn)為0。
c)max_depth,每棵子樹的最大深度。其取值范圍為[0,∞],0 表示沒有限制,默認(rèn)值為6。該值越大,則子樹越復(fù)雜;值越小,則子樹越簡單。
d)min_child_weight,子節(jié)點(diǎn)的權(quán)重閾值。表示對于一個(gè)葉子節(jié)點(diǎn),當(dāng)對它進(jìn)行劃分之后,它的所有子節(jié)點(diǎn)的權(quán)重之和的閾值。該值越大,則算法越保守。默認(rèn)值為1。
e)subsample,對訓(xùn)練樣本的采樣比例。取值范圍為(0,1],默認(rèn)值為1。
f)colsample_bytree,構(gòu)建子樹時(shí),對特征的采樣比例。取值范圍為(0,1],默認(rèn)值為1。
g)lambda,正則化系數(shù)(基于weights 的正則化),默認(rèn)為1。該值越大則模型越簡單。
h)alpha,正則化系數(shù)(基于weights 的正則化),默認(rèn)為0。該值越大則模型越簡單。
本文利用scikit-learn庫自帶的GridSearchCV 網(wǎng)格搜索算法來調(diào)整XGBoost算法超參數(shù)(見圖8),候選超參數(shù)值集合如下:
圖8 基于GridSearchCV的XGBoost模型超參數(shù)調(diào)整
最終得到的最佳超參數(shù)組合是:{′alpha′:0.85,′colsample_bytree′:0.7,′eta′:0.05,′gamma′:0,′lambda′:5,′max_depth′:18,′min_child_weight′:1,′n_estimators′:200,′subsample′:1}。在測試集上進(jìn)行評估,平均絕對誤差MAE為0.005 10。
2.4.4 基于ANR 網(wǎng)絡(luò)切換占比模型的傳統(tǒng)網(wǎng)絡(luò)小區(qū)鄰區(qū)關(guān)系預(yù)測
對需優(yōu)化鄰區(qū)關(guān)系的傳統(tǒng)網(wǎng)絡(luò)小區(qū)選取5 km 范圍內(nèi)的周邊小區(qū),根據(jù)切換占比模型特征采集數(shù)據(jù),構(gòu)成樣本輸入模型進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果表明,對現(xiàn)網(wǎng)真實(shí)鄰區(qū)關(guān)系的命中率為60%,即60%的現(xiàn)網(wǎng)鄰區(qū)出現(xiàn)在預(yù)測出的占比前50名小區(qū)中。
傳統(tǒng)網(wǎng)絡(luò)小區(qū)鄰區(qū)優(yōu)化是網(wǎng)優(yōu)工作的重點(diǎn)和難點(diǎn),人工優(yōu)化方法費(fèi)時(shí)費(fèi)力。通過引入機(jī)器學(xué)習(xí)算法學(xué)習(xí)ANR 網(wǎng)絡(luò)的鄰區(qū)關(guān)系建立切換次數(shù)占比模型可模擬真實(shí)的傳統(tǒng)現(xiàn)網(wǎng)鄰區(qū)關(guān)系情況,極大程度地提高了鄰區(qū)優(yōu)化效率和用戶網(wǎng)絡(luò)口碑。