Alexis Huet 魏文俊 王計斌 劉曉春 金棟梁
南京華蘇科技有限公司
高速鐵路(后文中簡稱高鐵),是一種比普通鐵路速度更快(一般而言速度約為普通鐵路的兩至三倍,或最高運營時速200公里/小時以上),使用特別機車車輛與專用軌道的鐵路運輸系統(tǒng)。
隨著我國經(jīng)濟發(fā)展需求,各地高鐵線路應運而生,提高高鐵線上客戶移動網(wǎng)絡體驗的也成為各移動運營商后期網(wǎng)絡優(yōu)化的重要工作。尤其隨著4G網(wǎng)絡的發(fā)展,LTE無線網(wǎng)絡得到普及,增加了大量的相關基礎設施。而高速鐵路移動速度快,客流量大等因素,讓旅客在乘坐高鐵的時候享受到優(yōu)質連續(xù)的移動網(wǎng)絡體驗,就成為要深入研究的課題。
本文通過對高鐵特殊地區(qū)場景LTE信令切換的數(shù)據(jù)進行分析,應用相關機器學習算法,實現(xiàn)對高鐵網(wǎng)絡性能的實時監(jiān)控與評估。
在過去幾年中,LTE無線網(wǎng)絡已經(jīng)越來越普遍,并且引起了專項基礎設施的大量增加。截至2016年底,全球用戶數(shù)量已達9.15億,且亞洲擁有巨大的市場和龐大的潛在客戶群體。與此同時,中國高鐵近年來得到高速發(fā)展:從2004年開始建設并實現(xiàn)商業(yè)化運營,截至2016年9月總里程達到2萬公里,占世界高速鐵路的總里程的60%以上。在2016年高鐵安全運送旅客逾14.4億人次,相當于幫非洲和南美洲的總人口搬了一次家,這樣的運輸效率,即便對很多發(fā)達國家而言,仍是“不可能完成的任務”??紤]到這種特殊環(huán)境(高速且特定路線),移動運營商為高鐵沿線配置了專網(wǎng)小區(qū)來保障高速移動用戶的通信體驗。
通過提供全天候無差別網(wǎng)絡的可能性,LTE無線網(wǎng)絡的發(fā)展為客戶提供了新的通信方式。 由于過去幾年的投資,4G網(wǎng)絡的普及化,運營商提供了一些專門的基礎設施來滿足用戶的特殊需求。其中一個需求是當用戶乘坐高速移動的高鐵上時,可以不掉話、不掉網(wǎng)的在通信世界遨游。在這種特殊環(huán)境下,運營商必須建立特殊的小區(qū)(專網(wǎng)小區(qū))以保障良好的信號質量,小區(qū)數(shù)量可根據(jù)高鐵客運量及高鐵線長度按需分配。
高鐵專網(wǎng)進行業(yè)務評估與故障定位,傳統(tǒng)方式是通過人工路測,耗費大量人力物力。目前,已經(jīng)有一些文章對高鐵專網(wǎng)小區(qū)覆蓋和優(yōu)化的行為進行過研究,主要討論的方向是針對列車車體穿透損耗、多普勒頻移和站址的規(guī)劃與布局等方面提出了優(yōu)化方案,對于本文中提到的區(qū)分用戶達到性能監(jiān)控的研究少之又少。
本文的核心問題是檢測高速鐵路附近小區(qū)網(wǎng)絡服務質量,傳統(tǒng)網(wǎng)絡質量評估的方法是分析使用該小區(qū)網(wǎng)絡的用戶網(wǎng)絡質量的相關指標,并不區(qū)分用戶類型。而在高鐵沿線小區(qū),有專網(wǎng)、大網(wǎng)和組網(wǎng)三種覆蓋模式,用傳統(tǒng)方式并不能正確的評估網(wǎng)絡質量,因為存在用戶混用小區(qū)的問題。
本文運用高鐵用戶判別分析算法,在數(shù)據(jù)處理中運用到了“大圓距離”等對基站間距離進行分析,利用機器學習中“決策樹”對旅客的速度進行分類,判別出有高速移動的用戶為高鐵用戶。在試驗中也應用到了相關特征選擇的方法,從結果來看,篩選后的指標符合相關邏輯意義。
文中所研究的數(shù)據(jù)來自無錫移動通信公司(中國江蘇省)。無錫移動隸屬于中國移動江蘇公司,下轄江陰、宜興兩個縣級分公司。目前用戶總數(shù)超過600萬,是無錫地區(qū)最大的移動通信運營公司。公司擁有全球通、動感地帶和神州行三大品牌,主要運營移動語音業(yè)務、增值業(yè)務以及互聯(lián)網(wǎng)、IP電話等數(shù)據(jù)通信業(yè)務。實現(xiàn)無錫地區(qū)網(wǎng)絡的完全覆蓋,網(wǎng)絡運行情況良好。
無錫移動為我們提供了兩種類型的數(shù)據(jù),用戶相關信令數(shù)據(jù)和高鐵專網(wǎng)小區(qū)和大網(wǎng)小區(qū)數(shù)據(jù)。
本文中涉及到的高鐵線路,指經(jīng)過無錫(中國江蘇?。┑娜龡l高鐵線路(往返線路),途經(jīng)站點為:無錫、無錫東和宜興站,截取線路距離都為50km左右。高鐵專網(wǎng)路線:京滬、寧杭、滬寧高鐵,這三條線路總長度均超過了150km,對于4G網(wǎng)絡均有針對性的專網(wǎng)覆蓋。
本文中,專網(wǎng)小區(qū)是指高鐵沿線專門用于高鐵用戶使用的小區(qū),大網(wǎng)小區(qū)是指非高鐵小區(qū)的其他小區(qū),通常為普通用戶即非高鐵用戶提供服務。同樣的,高鐵用戶是乘坐高鐵的用戶,而普通用戶(大網(wǎng)用戶)則是指網(wǎng)絡中的任何其他客戶(如:高鐵沿線居民等)。
首先確定高鐵線和日期,接著收集兩份數(shù)據(jù),一份是小區(qū)信息數(shù)據(jù):該線路高鐵小區(qū)及1公里內的大網(wǎng)小區(qū)數(shù)據(jù),另一份是用戶數(shù)據(jù):包含使用這些小區(qū)網(wǎng)絡用戶的信令切換數(shù)據(jù)。
小區(qū)信息數(shù)據(jù):首先收集位于當前高鐵線的高鐵小區(qū),對于每個高鐵小區(qū),可以獲得小區(qū)的經(jīng)緯度。接著根據(jù)經(jīng)緯度得到附近1公里內的大網(wǎng)小區(qū)。這樣就獲得了目標小區(qū)信息,每個小區(qū)包含經(jīng)緯度以及標記為是否高鐵小區(qū)的二元邏輯變量。
用戶數(shù)據(jù):需確定特定日期下連接目標小區(qū)的所有用戶,通過IMSI(國際移動用戶身份)和IMEI(國際移動設備身份識別碼)唯一化用戶。這樣就得到了用戶使用小區(qū)網(wǎng)絡的列表,時間精確到秒。由于連接網(wǎng)絡的不規(guī)則性,收集到的數(shù)據(jù)也不會固定在某個特定時間內。用戶數(shù)據(jù)包含用戶信令切換信息以及相應的時間標識。
舉例說明相關數(shù)據(jù),例如:一個高鐵線上的高鐵小區(qū)有50個,1公里范圍內的大網(wǎng)小區(qū)有450個。連接這些網(wǎng)絡的用戶數(shù)量可達到100萬,超過280萬條信令切換信息(24小時內)。
圖1 高鐵小區(qū)示意圖
圖1顯示的是高鐵小區(qū)的一個切換示意圖。在圖中高速鐵路線上,綠色區(qū)域表示專網(wǎng)小區(qū)信號覆蓋區(qū)域,灰色表示大網(wǎng)小區(qū)信號覆蓋區(qū)域。
本文研究的主要目的是從高鐵小區(qū)基站收集的信令切換數(shù)據(jù)中對高鐵專網(wǎng)用戶和大網(wǎng)用戶進行分類,進而從該分類中評估高鐵小區(qū)服務質量。主要分為兩點:
(1)需要鑒別出使用高鐵小區(qū)網(wǎng)絡的大網(wǎng)用戶,這部分人在總體使用該小區(qū)的比例應該很低,以防止高鐵小區(qū)的超負荷連接;
(2)鑒別出使用大網(wǎng)小區(qū)網(wǎng)絡的高鐵用戶,這種情況會導致高鐵用戶上網(wǎng)體驗的下降,這種情況是由高鐵小區(qū)和大網(wǎng)小區(qū)信號的快速切換導致的;
在整個實驗設計階段,我們分兩部分:訓練階段和自動化階段。
訓練階段流程如圖2所示,我們首先收集有關高鐵線路周圍的小區(qū)信息。從這些信息中可得到高鐵線路圖。同時,收集用戶的信令切換數(shù)據(jù),該數(shù)據(jù)可推出高鐵專網(wǎng)用戶及高鐵周邊大網(wǎng)用戶的網(wǎng)絡連接行為。在做分類模型前,需要手動的區(qū)分高鐵用戶和大網(wǎng)用戶,創(chuàng)建信號切換速度等行為特征指標。最后,選擇合適的分類算法鑒別出兩種用戶。
圖2 訓練階段流程圖
訓練階段的流程有手動分類部分,對于數(shù)據(jù)量不大的訓練數(shù)據(jù)可行,但如果數(shù)據(jù)集增大,且要求自主分類的后期實驗不可行,所以我們又設計了一個自動化階段,其流程如圖3所示:
圖3 自動化階段流程圖
自動化階段:本階段的目的是實現(xiàn)代碼運行及結果輸出的自動化,流程圖詳見圖3。對于訓練階段,從數(shù)據(jù)中提取用戶行為特征指標。利用分類算法區(qū)分出高鐵用戶和大網(wǎng)用戶,最后,通過總結用戶使用小區(qū)網(wǎng)絡的情況來評估小區(qū)的服務質量。
這部分介紹了建模流程和用到的算法概述,結合上面的實驗設計描述,我們分成:訓練階段和自動化階段進行詳細講解。
整個過程是對相關數(shù)據(jù)進行挖掘分析,步驟主要分為以下幾點:
(1)得到數(shù)據(jù),確定高鐵線路(京滬、寧杭、滬寧)和日期,接著收集兩份數(shù)據(jù):小區(qū)信息數(shù)據(jù)和用戶數(shù)據(jù)。
(2)在根據(jù)高鐵小區(qū)經(jīng)緯度信息刻畫出高速鐵路軌道線路。利用主成分分析方法對小區(qū)經(jīng)緯度信息進行合適的旋轉,接著通過廣義加性模型(GAM)刻畫出高鐵線路,當列車線呈現(xiàn)垂直方向,即從北向南或南向北時,算法中應用到了空間旋轉的概念。如圖4,紅點表示高鐵小區(qū);黑色曲線代表高鐵路線;藍點表示距高鐵小區(qū)1公里內的大網(wǎng)小區(qū)。從高鐵線路可推測出每個小區(qū)之間和高鐵線路距離,進而推導出目標小區(qū)和高鐵出發(fā)站之間的距離,在計算經(jīng)緯度距離的時候,我們應用到了大圓距離(Great-circle distance)的方法。
(3)創(chuàng)建模型數(shù)據(jù)集。該數(shù)據(jù)集是在用戶數(shù)據(jù)的基礎上增加了兩列數(shù)據(jù):第一列是邏輯變量,標記小區(qū)是高鐵小區(qū)還是大網(wǎng)小區(qū);第二列是對應小區(qū)離高鐵出發(fā)站的距離(km)。
圖4 高鐵沿線和覆蓋小區(qū)圖
圖5中,圖5a顯示出了高鐵用戶僅連接到專網(wǎng)小區(qū)的示例圖,圖5b顯示出了高鐵用戶連接到一些大網(wǎng)小區(qū)的示例;圖5c顯示出了非高鐵用戶連接到大網(wǎng)小區(qū)的示例;圖5d顯示出了非高鐵用戶連接到專網(wǎng)小區(qū)的示例。
在模型訓練階段,需要對用戶當天在高鐵小區(qū)的時間及小區(qū)距離進行可視化呈現(xiàn)。實踐中,只畫出了部分用戶的信息圖。圖5a,5b,5c,5d是4個典型用戶的小區(qū)移動圖。每個點表示用戶和小區(qū)之間發(fā)生網(wǎng)絡連接,紅色為高鐵小區(qū),黑色為大網(wǎng)小區(qū)。
在模型訓練階段需要人工對用戶分類,目的是為了得到一些樣本數(shù)據(jù)的明確標簽,高鐵用戶或大網(wǎng)用戶。創(chuàng)建提取相關指標后,使用分類算法對樣本數(shù)據(jù)進行分析建模,提取能夠顯著區(qū)分高鐵用戶和大網(wǎng)用戶的特征指標。用戶的人工分類依據(jù)如下:圖形表現(xiàn)中,若用戶快速的從一個基站移動到另一個基站,則標記為高鐵用戶(圖5a,5b),反之標記為大網(wǎng)用戶(圖5c,5d)。對用戶人工分類可以把一切可能影響分類結果的情形考慮在內。數(shù)據(jù)實例如下:從50萬個用戶中選擇2000個用戶進行人工分類。
在自動化階段,模型結果用于預測每個用戶的分類。如模型訓練階段,需要獲取小區(qū)信息數(shù)據(jù)以及用戶數(shù)據(jù),接著創(chuàng)建特征指標,利用模型篩選出的重要特征指標預測用戶是高鐵用戶還是大網(wǎng)用戶。
特征提取是模型訓練階段和產(chǎn)品階段共同的一個環(huán)節(jié)。在做此步驟之前,每個用戶都會有信令切換時間及切換小區(qū)離高鐵出發(fā)站的距離信息,且時間是不規(guī)則的。做完特征提取后,每個用戶的小區(qū)切換信息、移動速度、移動距離都可以用固定的時間來表達。
其中特征較重要的是用戶的移動速度。移動速度根據(jù)小區(qū)離高鐵出發(fā)站距離及切換至該小區(qū)網(wǎng)絡的時間與出發(fā)時間計算所得。但若計算瞬時速度的話可達600km/h,詳見圖5c(12點前)。為了避免這種情況發(fā)生,考慮計算用戶在不同時間段的平均速度。具體可以計算一天內特定持續(xù)時間段(例如30分鐘)的用戶最大移動距離。在本系統(tǒng)中,用如下時間段來計算最大移動距離:1秒,5秒,25秒,2分鐘,10分鐘,15分鐘,20分鐘,25分鐘,30分鐘,35分鐘,40分鐘,45分鐘,50分鐘,55分鐘,1小時,4小時,24小時。
對于每個用戶,還可以創(chuàng)建和小區(qū)數(shù)關聯(lián)的特征變量,這些附加特征包括如下條件:
(a) 連接小區(qū)的總次數(shù);
(b) 連接到專網(wǎng)小區(qū)的總次數(shù);
(c)定義專網(wǎng)小區(qū)連接次數(shù)占比 (a)/(b);
(d)用戶連接到小區(qū)的數(shù)目(單個小區(qū)有多次連接只計數(shù)一次)。
提取所有特征指標后,每個用戶將有21個特征指標。
接下來的步驟專注于建立模型(該步驟僅在模型訓練階段中執(zhí)行)。該模型需在特征指標基礎上預測每個用戶是高鐵用戶還是大網(wǎng)用戶。而這一問題是典型的分類問題,實現(xiàn)流程為:首先特征提取,接著區(qū)分用戶是高鐵用戶還是大網(wǎng)用戶。這個流程適合人工分類后的數(shù)據(jù)集,模型可在該數(shù)據(jù)集上進行訓練。在機器學習領域,已有很多成熟的分類算法,其中一個較簡單的算法是隨機森林,可以在分類的同時提取出重要的特征變量。
為了確保結果的可靠性,將人工分類的數(shù)據(jù)集分成兩部分:隨機抽取80%用戶為訓練集;剩下的20%用戶為驗證集。用訓練集對模型進行訓練,接著在訓練集和驗證集上同時測試。結果顯示,該模型可以高效的區(qū)分出高鐵用戶及大網(wǎng)用戶:在訓練集上,準確率達到99%;在驗證集上,準確率為98%。每個新用戶可以通過該模型提取的重要特征指標進行分類。具體分類如圖6所示:
圖6 特征指標分類結果圖
我們根據(jù)分類用戶將得到相關的匯總表格。每個表格能夠得到小區(qū)服務質量的關鍵指標。如表1所示,其結果為相關高鐵線路每日小區(qū)服務性能的全局概要。對于高鐵專網(wǎng)小區(qū)中不準確的服務(專網(wǎng)用戶占用大網(wǎng))、高鐵專網(wǎng)小區(qū)的服務于高鐵專網(wǎng)用戶的服務性能(高鐵專網(wǎng)用戶脫網(wǎng))、高鐵專網(wǎng)用戶及大網(wǎng)用戶等其他數(shù)據(jù),我們都有相關表格輸出,由于表格都涉及用戶信息,這里不作實例描述。
表1 相關高鐵線路每日小區(qū)服務性能的全局概要表
高速鐵路的商業(yè)化運營,帶來了高效舒適的出行方式,給鐵路運輸行業(yè)帶來新鮮血液的同時也帶來了移動網(wǎng)絡優(yōu)化的新問題,這個部分對于相關模型結果進行了解釋。
本文對信令數(shù)據(jù)在時間序列上進行時間、頻率、速度等特征的提取,并對提取的特征通過機器學習算法進行分類,通過用戶速度特征提取和決策樹判別,區(qū)分出高鐵和非高鐵用戶,目前用戶識別準確率為90%以上。
本文的主要研究成果如下:
(1)通過大圓距離方法計算出小區(qū)所在距離,然后利用相關時間數(shù)據(jù)提取速度特征,通過隨機森林算法對用戶進行分類,區(qū)分出高鐵及非高鐵用戶,且驗證得到高鐵用戶識別準確率達到90%以上;
(2)基于高速鐵路用戶判別分析算法,對高鐵專網(wǎng)進行業(yè)務質量評估與故障定位,替代傳統(tǒng)路測,對重點問題區(qū)域與小區(qū)進行性能評估、故障與定位分析;
由于高速鐵路運行環(huán)境的不規(guī)則性,高鐵軌道會存在隧道、彎道、橋梁等各種場景,我們之后可以提起一段不規(guī)則軌道對本文中的算法進行驗證及優(yōu)化。