龔 蓮,譚獻(xiàn)海
(西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,成都 611756)
早期的網(wǎng)絡(luò)流量呈短相關(guān)性,使用Possion或者M(jìn)arkov過程描述.隨著Leland發(fā)現(xiàn)局域網(wǎng)流量的自相似長相關(guān)性[1],大量的研究結(jié)果表明傳統(tǒng)互聯(lián)網(wǎng)流量具有普遍的自相似長相關(guān)性,因此許多學(xué)者提出了長相關(guān)流量模型,包括ON/OFF模型、FARIMA模型、FBM和FGN模型等.現(xiàn)代互聯(lián)網(wǎng)無論是應(yīng)用類型還是用戶數(shù)量都與早期的互聯(lián)網(wǎng)有較大的區(qū)別,其網(wǎng)絡(luò)流量特性也隨之改變.
據(jù)研究機構(gòu)Trustdata發(fā)布的《2020年Q1中國移動互聯(lián)網(wǎng)行業(yè)分析報告》顯示[2],微信在國內(nèi)APP排行榜位列第一,明顯超過其他網(wǎng)絡(luò)應(yīng)用.作為目前擁有最高用戶活躍數(shù)的應(yīng)用,微信流量特性受到用戶參與行為的深度影響.目前關(guān)于微信流量的研究主要包括:李瑋提出一種基于DPI的識別方法對微信流量進(jìn)行識別研究,基于業(yè)務(wù)特征進(jìn)行微信業(yè)務(wù)的識別與分類[3].燕飛鵬提出一種基于隨機森林算法的微信流量分類模型,基于流量分類提出微信用戶階段性行為識別技術(shù)[4].張江楠對微信流量進(jìn)行特性分析,發(fā)現(xiàn)微信流量呈自相似特性和冪律特性[5].
綜上關(guān)于微信流量的研究多集中于流量識別、業(yè)務(wù)分類等方面,缺乏微信流量特性分析與建模的研究.分析微信流量特性并用時間序列建模是流量預(yù)測的基本原理,基于模型預(yù)測可以研究微信流量在網(wǎng)絡(luò)系統(tǒng)中的擁塞控制機制,此外還可以依據(jù)微信流量模型計算流量在網(wǎng)絡(luò)傳輸排隊過程中的時延、丟包率和隊列平均長度等網(wǎng)絡(luò)性能指標(biāo).微信流量作為互聯(lián)網(wǎng)流量的核心入口,對其進(jìn)行研究可以為網(wǎng)絡(luò)流量控制管理提供依據(jù).
本文首先通過Matlab直觀觀察微信流量可能具有哪些特性,然后定量分析微信流量確實具有這些特性.在此基礎(chǔ)上對微信流量進(jìn)行建模,模型中包含能同時刻畫微信流量特性的參數(shù),最后分析模型效果.
本文的研究數(shù)據(jù)是在實驗室局域網(wǎng)環(huán)境下使用Wireshark實時抓取7.0.10版本的微信自2019年9月15日9:30-17:30期間產(chǎn)生的流量,這些流量由網(wǎng)絡(luò)通信鏈路中多個更小的信源產(chǎn)生的流量組成,并不能代表主干鏈路的流量,然而主干鏈路的流量本質(zhì)上是多個獨立同分布信源流量的疊加,所以實驗室局域網(wǎng)環(huán)境下的微信流量與主干鏈路的微信流量為同一種分布.通過對抓取的timestamp、length等數(shù)據(jù)項進(jìn)行處理,獲得單位時間內(nèi)到達(dá)的數(shù)據(jù)包個數(shù).為了使數(shù)據(jù)更具代表性,除了抓取的微信流量之外,本文還采用了文獻(xiàn)[5]中的微信流量數(shù)據(jù)集.由于采取的微信流量在該時段的變化趨勢基本一致,所以本文選取某個更小時間片段的流量進(jìn)行實驗分析.
首先從直觀角度觀察微信流量的變化,不同時間尺度下到達(dá)的數(shù)據(jù)包數(shù)量如圖1所示,圖中的時間間隔為1 s和5 s,不同時間尺度下數(shù)據(jù)包的到達(dá)數(shù)量的曲線變化非常相似,并且在某些時間間隔出現(xiàn)非常高的數(shù)據(jù)包到達(dá)數(shù)量值,可以直觀看出微信流量同時具有自相似性和突發(fā)性.
圖1 不同尺度下微信流量數(shù)據(jù)包到達(dá)數(shù)量
流量自相似性是指流量的時間序列在局部與整體之間具有一定程度的相似,其數(shù)學(xué)定義如下:
其中,X(t)表示第t個單位時間到達(dá)的數(shù)據(jù)包數(shù)量,H為自相似參數(shù)[6].
本文對單位時間1 s內(nèi)到達(dá)的微信文本類和音視頻類流量進(jìn)行自相似性分析,采用R/S分析法[7]計算兩類流量的H參數(shù)如圖2所示,圖中x表示R/S分析法中的每個子序列的長度大小,實線的斜率即為H參數(shù)值,可以看出兩類流量的H參數(shù)值均滿足0.5 圖2 微信文本類和音視頻類流量自相似參數(shù)估算 流量的突發(fā)性是指流量在幅度方面的突發(fā),這是網(wǎng)絡(luò)流量的另一個特征,α穩(wěn)定分布可以很好地描述突發(fā)現(xiàn)象.根據(jù)廣義中心極限定理,無窮多個獨立同分布隨機變量的疊加過程其歸一化邊緣分布收斂于α穩(wěn)定分布函數(shù)簇,而在網(wǎng)絡(luò)鏈路中聚合流量本質(zhì)上是無窮多個獨立同分布信源的疊加,所以本文采用α穩(wěn)定分布來刻畫微信流量的突發(fā)性,其特征函數(shù)表示如下: 其中,α為特征指數(shù),β為偏斜參數(shù),σ為尺度參數(shù),μ為位置參數(shù)[8]. α穩(wěn)定分布中只有α參數(shù)表示突發(fā)程度,其取值范圍為(0,2],α越小則突發(fā)性越強,α=2時該分布不具有突發(fā)性,所以本文重點關(guān)注α參數(shù)值.驗證微信流量是否具有突發(fā)性的步驟如下:首先采用分位數(shù)法計算微信流量在α穩(wěn)定分布下的4個參數(shù)值,然后畫出微信流量在該分布下的概率密度曲線(PDF),最后比較微信實際流量的PDF與α穩(wěn)定分布下流量的PDF.通過計算得到微信文字類和音視頻類流量的α參數(shù)值分別為1.25、1.24,說明兩類流量都具有較大的突發(fā)性,最后二者的概率密度曲線如圖3所示. 圖3 微信文本類和音視頻類流量概率密度分布 上述流量特性分析表明微信流量同時具有自相似性和突發(fā)性,需要能同時刻畫這兩種特性的模型對微信流量建模.分形布朗運動是一種邊緣分布為高斯分布的自相似隨機過程,而高斯分布是α穩(wěn)定分布的一種特殊情況,所以在α穩(wěn)定分布條件下分形布朗運動可以擴展為線性分形穩(wěn)定運動,線性分形穩(wěn)定運動的平穩(wěn)增量過程是線性分形穩(wěn)定噪聲(Linear Fractional Stable Noise,LFSN)過程,LFSN過程是目前唯一能描述隨機變量的自相似性和突發(fā)性的隨機過程,其積分表達(dá)式的離散形式如下: 基于微信流量的自相似性、突發(fā)性和流量在任意時刻的非負(fù)性,本文采用一種偏態(tài)LFSN過程的模型對微信流量建模[9],表達(dá)式如下: 其中,M(i)是第i個單位時間到達(dá)的數(shù)據(jù)包個數(shù),α表示網(wǎng)絡(luò)流量的突發(fā)系數(shù),可以使用分位數(shù)法[10]估算,H是流量的自相似參數(shù),使用R/S分析法估算,表示流量的偏差,表示流量的均值. c1是網(wǎng)絡(luò)流量的偏差系數(shù),依據(jù)文獻(xiàn)[9]使用下述公式計算c1效果更佳: 完成模型參數(shù)估算后,使用文獻(xiàn)[11]的方法生成α穩(wěn)定分布隨機數(shù)S(i),根據(jù)式(5)生成時間序列H(i),最后對S(i)和H(i)作離散傅立葉變換及其逆變換生成M(i)序列. 為了分析LFSN模型對微信流量建模的效果,本文對單位時間1 s內(nèi)到達(dá)的微信流量進(jìn)行建模.目前關(guān)于微信流量特性分析與建模的研究非常少,僅有文獻(xiàn)[5]提出使用Pareto模型刻畫微信流量,此外FBM模型是常用的自相似網(wǎng)絡(luò)流量模型[12],所以本文將采用Pareto模型和FBM模型對微信流量建模,并與LFSN模型效果進(jìn)行對比,證明LFSN模型的有效性. 圖4 單位時間1 s內(nèi)微信實際流量與LFSN模型仿真序列 圖5 單位時間1 s內(nèi)微信實際流量與Pareto模型仿真序列 圖6 單位時間1 s內(nèi)微信實際流量與FBM模型仿真序列 接下來對LFSN模型序列、Pareto模型序列和FBM模型序列的自相似參數(shù)和突發(fā)參數(shù)進(jìn)行估算,LFSN模型序列的自相似參數(shù)H=0.53、突發(fā)參數(shù)α=1.40,Pareto模型序列的自相似參數(shù)H=0.47、突發(fā)參數(shù)α=1.19,FBM模型序列的自相似參數(shù)H=0.51、突發(fā)參數(shù)α=2.00.在自相似性方面LFSN模型序列更接近于實際流量的自相似性,盡管FBM模型是嚴(yán)格的自相似流量模型,但是在保持微信流量的自相似性上仍然比LFSN模型差一些; 而在突發(fā)性方面,由于LFSN模型序列的突發(fā)值個數(shù)比實際流量的突發(fā)值個數(shù)少,所以突發(fā)性變小(α越大突發(fā)性越?。?而Pareto模型序列由于突發(fā)值個數(shù)非常少,并且個別突發(fā)值比大多數(shù)序列值大許多,反而凸顯了其突發(fā)性變強的特點,但根據(jù)圖5可以看出Pareto模型序列的突發(fā)值個數(shù)相比于實際流量突發(fā)值個數(shù)少許多,而FBM模型則完全不能刻畫微信流量的突發(fā)性.LFSN模型序列的突發(fā)值個數(shù)比Pareto模型多的主要原因是LFSN模型中的自相似參數(shù)對突發(fā)參數(shù)的作用,保持了一段時間內(nèi)流量突發(fā)性的持續(xù),而Pareto模型中并沒有自相似參數(shù)作用于突發(fā)參數(shù).此外本文還計算了LFSN模型序列、Pareto模型序列和FBM模型序列與微信實際流量序列的擬合優(yōu)度R2值,分別為0.75、0.67、0.32.綜上LFSN模型能比Pareto模型和FBM模型更好的刻畫微信流量的突發(fā)性和自相似性. LFSN模型和FBM模型都可以描述流量的自相似性,所以本文為了分析微信實際流量與LFSN模型序列和FBM模型序列在自相似長相關(guān)性方面的變化趨勢,采用歸一化樣本自相關(guān)函數(shù)(NACF)進(jìn)行比較[9],NACF的表達(dá)式為: 微信實際流量和LFSN模型序列的NACF如圖7所示,LFSN模型序列的NACF衰減速率很慢,并且近似于實際流量的NACF變化趨勢,說明二者在自相似長相關(guān)性的變化非常近似,LFSN模型可以保持微信流量的自相似長相關(guān)變化趨勢.FBM模型序列的NACF如圖8所示,FBM模型序列的NACF衰減速率較快,并且與微信實際流量的NACF變化趨勢差異較大,主要原因是微信實際流量具有較大的突發(fā)性,根據(jù)流量自相似性成因可知,具有突發(fā)性的流量疊加也會促進(jìn)流量表現(xiàn)出自相似長相關(guān)性.綜上判斷LFSN模型可以對微信流量建模,在建?;A(chǔ)上可以對微信流量進(jìn)行時延、丟包率等性能分析,為網(wǎng)絡(luò)流量監(jiān)管提供依據(jù). 圖7 微信實際流量與LFSN序列NACF 圖8 微信實際流量與FBM序列NACF 考慮在一般到達(dá)過程和確定服務(wù)速率的先來先服務(wù)的單個服務(wù)器隊列情況下(G/D/1),基于LFSN模型給出大緩沖區(qū)條件下緩沖區(qū)溢出概率的漸進(jìn)計算公式如下[9]: 令K=?α(1?H),根據(jù)式(13)推導(dǎo)出平均隊列長度、平均時延、丟包率等網(wǎng)絡(luò)性能指標(biāo)表達(dá)式如下[13]: 根據(jù)4.1節(jié)估算的微信流量在LFSN模型下的4個參數(shù)值和固定服務(wù)速率c可以計算Cα的值,由于式(12)要求固定服務(wù)速率必須大于流量的平均值,那么假設(shè)c=600,從而Cα=0.5188.以丟包率和平均時延為例,微信流量在不同緩沖區(qū)長度下的平均時延和丟包率(P)如圖9和圖10所示.實際服務(wù)器設(shè)置的服務(wù)速率和緩沖區(qū)長度未知,圖9和圖10的估算結(jié)果只是為了展示使用LFSN模型對微信流量建模可以估算其丟包率和平均時延,從而可以調(diào)整服務(wù)器的服務(wù)速率和緩沖區(qū)長度以控制微信流量的丟包率和平均時延,為微信流量監(jiān)管提供依據(jù),而微信流量占據(jù)了互聯(lián)網(wǎng)中的大部分流量,所以也為網(wǎng)絡(luò)流量監(jiān)管提供參考. 圖9 微信流量丟包率估算 圖10 微信流量平均時延估算 本文以微信流量為研究對象,首先直觀觀察微信流量的自相似性和突發(fā)性,然后計算H參數(shù)驗證其具有自相似性,通過α穩(wěn)定分布驗證描述微信流量的突發(fā)性.在此基礎(chǔ)上使用LFSN模型對微信流量建模,并且使用Pareto模型和FBM模型進(jìn)行模型效果對比,證明LFSN模型能更好地刻畫微信流量的突發(fā)性和自相似性.2.3 微信流量突發(fā)性分析
3 微信流量建模
3.1 線性分形穩(wěn)定噪聲模型
3.2 線性分形穩(wěn)定噪聲模型參數(shù)估計
4 模型效果分析
4.1 微信流量建模仿真分析
4.2 微信流量網(wǎng)絡(luò)性能指標(biāo)估算
5 結(jié)語