于澤洋,周文勝
(1.上海諾基亞貝爾軟件有限公司,上海 201204;2.中國電信股份有限公司湖南分公司,湖南 長沙 410011)
移動通信建設(shè)中,小區(qū)級的流量分布有著重要的意義,在網(wǎng)絡(luò)規(guī)劃階段,這一分布可以影響規(guī)劃的站數(shù)、連接數(shù)等基本規(guī)劃數(shù)據(jù);在運營階段,這一分布可以幫助判斷網(wǎng)絡(luò)結(jié)構(gòu)是否合理,是否需要改進網(wǎng)絡(luò)結(jié)構(gòu)來提高投資收益等。尤其在現(xiàn)在的大數(shù)據(jù)時代,獲取小區(qū)流量的分布并從中抽取具有價值的特征具有更為重要的意義。
但另一方面,由于各小區(qū)的位置、人口、經(jīng)濟發(fā)展狀況等不同,各小區(qū)的業(yè)務(wù)流量也不同。有研究認為,蜂窩移動電話網(wǎng)話務(wù)密度圖在地域上的分布近似服從瑞利分布的規(guī)律[1]。在實際的基站建設(shè)中,每個小區(qū)的覆蓋范圍不同,在業(yè)務(wù)密集區(qū)域還存在多載波、小站、室分等多種分流形式,因此,小區(qū)的業(yè)務(wù)流量分布就更為復(fù)雜,不能簡單認為小區(qū)級業(yè)務(wù)流量符合瑞利分布。
另一個流量分布的研究方向是從人類行為的角度來研究各種業(yè)務(wù)模型[2],[3],例如短消息[4]、網(wǎng)頁[5]、E-mail[6],[7]等,這些模型可以用來在網(wǎng)絡(luò)規(guī)劃時做為各種業(yè)務(wù)模型的參考,但對于實際運營中的網(wǎng)絡(luò)還缺乏指導(dǎo)意義。
一般認為,小區(qū)級的業(yè)務(wù)流量分布人為因素過多,缺少統(tǒng)一的規(guī)律性。因此,有關(guān)小區(qū)級業(yè)務(wù)流量分布的研究較少。在網(wǎng)絡(luò)規(guī)劃階段,一般只是根據(jù)背包模型、非對稱高斯模型等,假定人口、業(yè)務(wù)分布來對密集市區(qū)、市區(qū)、郊區(qū)等情況進行一般性的估計,得到平均值。在運營階段,經(jīng)常把小區(qū)簡單地分為容量型小區(qū)和覆蓋型小區(qū),但其具體劃分也缺少嚴格的依據(jù)。因此,針對小區(qū)級業(yè)務(wù)流量分布的研究具有重要意義,同時又是目前比較欠缺的一環(huán)。
本文收集多個地市的小區(qū)級業(yè)務(wù)流量,利用大數(shù)據(jù)分析的方法對流量數(shù)據(jù)進行分析,以期能得到小區(qū)級業(yè)務(wù)流量的一般性規(guī)律。需要注意的是,本文并不是找到了一種嚴格適用于所有地市小區(qū)級流量數(shù)據(jù)的分布,而是提供了一些方法可以對流量數(shù)據(jù)進行處理,得到近似的分布。
因為本次研究的目的是對整個城市的網(wǎng)絡(luò)進行評估,所以不宜對數(shù)據(jù)進行過多剔除。剔除的主要對象為:一是統(tǒng)計期內(nèi)數(shù)據(jù)不完整的小區(qū);二是統(tǒng)計期內(nèi)新開的小區(qū);三是統(tǒng)計期內(nèi)關(guān)閉的小區(qū)。下列數(shù)據(jù)不列入剔除范圍:統(tǒng)計期內(nèi)因故障流量為0或部分時段數(shù)據(jù)為0的小區(qū)。
通常得到的小區(qū)流量數(shù)據(jù)為分時數(shù)據(jù),具有較大的偶然性和潮汐性。本文采用了比較簡單的平滑化方法,僅僅對分時數(shù)據(jù)求和與平均處理。
把數(shù)據(jù)處理成符合高斯分布或接近高斯分布的過程叫正態(tài)化處理[8]。高斯分布又叫正態(tài)分布,是一種非常經(jīng)典的分布[9]。高斯分布是人們了解非常透徹且豐富的處理方法。在大數(shù)據(jù)處理中,很多時候都是把分布處理成高斯分布,然后利用其豐富的處理方法、各種庫函數(shù)進行進一步的分析。高斯分布的分布密度函數(shù)為[9]:
式中,μ為期望值;σ為標準差。
μ=0,σ=1時的高斯分布成為標準高斯分布,其分布密度函數(shù)為:
高斯分布的檢測方法有很多,其中最常用的是Q-Q圖方法。Q-Q圖方法把數(shù)據(jù)分布和標準高斯分布做對比,如果數(shù)據(jù)分布和標準高斯分布相似,則該Q-Q圖趨近于落在y=x線上。如果數(shù)據(jù)分布和高斯分布線性相關(guān),則點在Q-Q圖上趨近于落在一條直線上,但不一定在y=x線上[10],[11]。
布做對比,如果數(shù)據(jù)分布和標準高斯分布相似,則該Q-Q圖趨近于落在y=x線上。如果數(shù)據(jù)分布和高斯分布線性相關(guān),則點在Q-Q圖上趨近于落在一條直線上,但不一定在 y=x線上[10],[11]。
1.3.1 對數(shù)化處理
對數(shù)化處理是一種簡單的高斯化方法。取對數(shù)后符合高斯分布的數(shù)據(jù)分布稱為對數(shù)高斯分布[8],其密度函數(shù)為:
對數(shù)化處理不能把所有的數(shù)據(jù)變換為高斯分布。
1.3.2 Box-Cox變換
Box-Cox變換是在大數(shù)據(jù)時代更為通用的高斯化方法[12]。Box-Cox變換公式為:
為了得到最佳的變換效果,選擇不同的 ,使得變換后的分布符合高斯分布,或者得到最小的方差概率(p),然后通過Q-Q圖像等方式檢驗處理后的分布是否符合高斯分布。如果符合高斯分布,我們就能夠通過反變換得到原始的小區(qū)業(yè)務(wù)流量分布。但是需要注意的是,Box-Cox方法也不能把所有分布處理成高斯分布。
通過正態(tài)化處理,可以使數(shù)據(jù)近似符合高斯分布,把該分布和高斯分布比較,可以清晰地得到分布本身固有的一些特征。
這是殘差分析的一個應(yīng)用。通過流量數(shù)據(jù)分布的特征,分析產(chǎn)生這些特征的原因,可以得到期望的理想分布特征,并進一步可以對某一地市的網(wǎng)絡(luò)結(jié)構(gòu)作出評估。
統(tǒng)計某省種多個地市4G小區(qū)級一周日均流量數(shù)據(jù),分地市進行分析。下面所有的數(shù)據(jù)都是某一個地市的日均流量數(shù)據(jù)。
圖1是一個典型地市的小區(qū)級流量分布。
圖1 某地市各流量小區(qū)占比
本文對數(shù)據(jù)進行分布檢驗,包括驗證數(shù)據(jù)是否符合高斯分布、Y分布、泊松分布、指數(shù)分布、瑞利分布,均得到了否定的答案,且和實際數(shù)據(jù)存在較大誤差。因此可以認為,小區(qū)級業(yè)務(wù)流量分布不符合上述的各種分布。
對原始數(shù)據(jù)進行取對數(shù),然后進行正態(tài)擬合,得到對數(shù)變換后,各地市流量數(shù)據(jù)變換后的頻次數(shù)據(jù)和高斯分布的對比。如圖2所示。
圖2 對數(shù)變換頻次圖
從圖2中可以看出,大部分區(qū)間上,變換后的數(shù)據(jù)和高斯分布基本能夠吻合,只是在某些區(qū)域內(nèi)有一些出入。
為了更好檢驗變換后數(shù)據(jù)和高斯分布的差別,我們還做了Q-Q圖(見圖3):
圖3 對數(shù)變換Q-Q圖
從Q-Q圖中可以看出,對數(shù)變換后,數(shù)據(jù)和正態(tài)分布依然存在較大差異。
各個地市數(shù)據(jù)Box-Cox變換后的最佳λ,SSE見表1:
表1 最佳Box-Cox變換結(jié)果
表1中的ref SSE是指通過對數(shù)變換后擬合得到的SSE。從表1可以看出,所有地市的Box-Cox變換的SSE小于對數(shù)變換的SSE,即Box-Cox變換的結(jié)果比對數(shù)變換更接近于高斯分布。各地市流量數(shù)據(jù)變換后的頻次數(shù)據(jù)和高斯分布的對比如圖4所示。
從圖4可以看出,大部分區(qū)間上,變換后的數(shù)據(jù)和高斯分布能夠較好地吻合,只是在某些區(qū)域內(nèi)有一些出入。為了更好檢驗變換后數(shù)據(jù)和高斯分布地差別,我們還做了圖5。
圖4 Box-Cox變換頻次圖
圖5 Box-Cox變換Q-Q圖
從圖5可以看出,絕大部分地市的數(shù)據(jù)和高斯分布吻合較好,但也有幾個地市,(例如地市1、2、7)的數(shù)據(jù)和高斯分布有一定差別。即使這些地市,在大部分區(qū)間上,變換后的數(shù)據(jù)和高斯分布能夠較好地吻合,只是在最左側(cè)和最右側(cè),即超低流量區(qū)域和高、超高流量區(qū)域內(nèi)有一些出入。
對比對數(shù)變換和Box-Cox變換可以認為,對數(shù)變換在后的數(shù)據(jù)分布從曲線形狀上接近了高斯分布,但Box-Cox變換的效果遠好于對數(shù)變換。
對比圖4和圖5的各個子圖可以看出,這些分布有一定的共性。但對比圖1,各個地市正態(tài)化變換以后的分布各自特征變得非常明顯,顯示出了各個網(wǎng)絡(luò)自身的特性。下面我們以地市1為例進行研究。
在圖6所示的為地市1的頻次圖和殘差圖中,我們把流量分布曲線分作5段:低流量段(圖中①),中低流量段(圖中②),中等流量段(圖中③),高流量段(圖中④),超高流量段(圖中⑤)。各段特點如表2所示。
各段頻次和高斯分布的差異分析如下:
圖6 典型地市分布和高斯分布差異
表2 Box-Cox變換后的地市1各段數(shù)據(jù)特征
(1)低流量段,頻次高于高斯分布。這可能是原始數(shù)據(jù)中有一些小區(qū)可能存在一定的小區(qū)在部分時段內(nèi)有退網(wǎng)、退服等情況,造成了低流量的小區(qū)增加;也可能是無效小區(qū)過多。
(2)中低流量段,左側(cè)頻次略低于高斯分布。這可能是因為低流量段的頻次偏高,造成了擬合曲線向左偏移,使得中低流量段的統(tǒng)計頻次高于擬合曲線。參考其他地市的擬合曲線可以看出,凡是低流量段頻次差異不明顯的地市,其中低流量段的擬合也基本看不出差異。
(3)中等流量段,和高斯分布匹配較好。這部分殘差看起來比較大時因為這部分小區(qū)數(shù)量絕對值更大。
(4)中高流量段,頻次略高于高斯分布擬合結(jié)果。這是由于超高流量小區(qū)的容量限制,造成了高流量小區(qū)只能達到中高流量。運營商擴容也使得中高流量小區(qū)增加而高流量/超高流量小區(qū)減少。
(5)高流量段,頻次低于高斯分布擬合結(jié)果。事實上,高流量段應(yīng)該稱為超高流量段。由于LTE 系統(tǒng)容量能力限制使得小區(qū)峰值流量有了一個上限,使得一些本來應(yīng)該處于高流量段的小區(qū)落回到了中高流量段。當然,由于用戶行為的不同,小區(qū)繁忙時長的不同,造成了實際的超高流量小區(qū)的流量上限也有所不同。另外,對于超高流量小區(qū),運營商也會采用各種分流、擴容的方法來降低小區(qū)負荷,這也造成了高流量小區(qū)的數(shù)量減少而中高流量小區(qū)的數(shù)量增加。
根據(jù)上面的分析,差異最大的,也是和網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系最大的是3個區(qū)域:低流量區(qū)、中高流量區(qū)和高流量區(qū)。理想的網(wǎng)絡(luò)具有以下特征:一是低流量小區(qū)少;二是中高流量小區(qū)多;三是超高流量小區(qū)少。
利用Box-Cox變換后的流量分布和高斯分布的對比,可以對地市的網(wǎng)絡(luò)建設(shè)是否合理給出以下參考:
(1)低流量小區(qū)分析:第一,短期內(nèi)的低流量小區(qū)的過多,一般是退網(wǎng)、退服小區(qū)過多,應(yīng)加強基站小區(qū)的維護,使得更多的小區(qū)處于正常的工作狀態(tài)。第二,而長期的低流量小區(qū)過多可能是一些小區(qū)沒有吸收到足夠的流量,應(yīng)對網(wǎng)絡(luò)結(jié)構(gòu)進行調(diào)整。
(2)中高流量小區(qū)和超高流量小區(qū)分析:第一,理想的狀況是中高流量小區(qū)多而高流量小區(qū)少,這說明網(wǎng)絡(luò)結(jié)構(gòu)比較合理,流量密集區(qū)的負荷得到了有效的控制,并且大部分業(yè)務(wù)需求得到了很好的滿足。第二,如果超高小區(qū)過多,甚至頻次超過高斯擬合曲線,而中高流量小區(qū)數(shù)量少,可能是高負荷小區(qū)周邊的基站沒有有效分流,應(yīng)該調(diào)整該地市網(wǎng)絡(luò)結(jié)構(gòu)以實現(xiàn)有效分流,或者檢測流量密集區(qū)域是否需要擴容。第三,如果中高流量小區(qū)和超高流量小區(qū)都多,則說明網(wǎng)絡(luò)需要整體擴容。
綜上所述,利用Box-Cox變換可以上把一個地市的小區(qū)級業(yè)務(wù)流量近似轉(zhuǎn)化成高斯分布。Box-Cox變換可以作為正態(tài)化處理的有效手段,Box- Cox變換后的分布和高斯分布可能存在一定差異,通過分析這些差異可以得到該地市網(wǎng)絡(luò)的一些基本特征,利用這些特征可以對該移動網(wǎng)絡(luò)的運維狀況,網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)負荷的狀況進行評估。由于數(shù)據(jù)量較少,且缺乏足夠的運維數(shù)據(jù)與之相印證,定量的評估方法還需要進一步的研究。