陳步華,陳戈,梁潔
(中國(guó)電信股份有限公司廣州研究院,廣東 廣州 510630)
近年來(lái),隨著互聯(lián)網(wǎng)應(yīng)用的快速發(fā)展和網(wǎng)絡(luò)技術(shù)的不斷提升,流媒體技術(shù)得到了快速的發(fā)展,使得視頻點(diǎn)播業(yè)務(wù)占據(jù)了大量的網(wǎng)絡(luò)帶寬。為了降低網(wǎng)絡(luò)傳輸壓力以及減少帶寬限制帶來(lái)的影響,用戶請(qǐng)求的視頻內(nèi)容在經(jīng)由緩存服務(wù)器時(shí)會(huì)被緩存。當(dāng)用戶對(duì)一個(gè)視頻發(fā)起訪問(wèn)請(qǐng)求時(shí),如果其內(nèi)容已經(jīng)存儲(chǔ)在緩存服務(wù)器中,就可以不從遠(yuǎn)端的源站獲取視頻而直接從緩存服務(wù)器中獲取,從而達(dá)到降低網(wǎng)絡(luò)流量的效果,起到降低網(wǎng)絡(luò)運(yùn)營(yíng)成本的作用[1]。然而,緩存服務(wù)器的存儲(chǔ)空間以及配套資源是有限的,并且過(guò)度部署緩存服務(wù)器會(huì)造成資源和成本的浪費(fèi)。因此,在視頻內(nèi)容多樣性以及用戶請(qǐng)求并發(fā)性的條件下,優(yōu)化緩存服務(wù)器的系統(tǒng)配置,構(gòu)建高性能低成本的視頻點(diǎn)播系統(tǒng)是非常必要的?;谶@種現(xiàn)狀的考慮,由于用戶對(duì)不同視頻對(duì)象的訪問(wèn)情況總是存在一定的傾向性,因此,研究視頻訪問(wèn)的用戶行為能夠分析出什么類型的內(nèi)容需要存儲(chǔ)在緩存服務(wù)器以及存儲(chǔ)這些內(nèi)容需要占用多少存儲(chǔ)資源等,從而改善存儲(chǔ)資源分配不合理造成的緩存資源不足或者浪費(fèi)。目前,用戶訪問(wèn)行為研究的一項(xiàng)重點(diǎn)工作就是視頻的訪問(wèn)熱度。
視頻訪問(wèn)熱度代表了用戶對(duì)系統(tǒng)中視頻文件的觀看訪問(wèn)情況,可以根據(jù)用戶對(duì)視頻的訪問(wèn)次數(shù)來(lái)刻畫視頻訪問(wèn)熱度。將視頻訪問(wèn)熱度具體描述為:在一段時(shí)間里,對(duì)各個(gè)點(diǎn)播視頻的用戶訪問(wèn)次數(shù)進(jìn)行統(tǒng)計(jì),并對(duì)所有視頻按照其對(duì)應(yīng)的用戶請(qǐng)求次數(shù)降序排序,則一個(gè)點(diǎn)播視頻的訪問(wèn)熱度即該視頻的位序[2]。
網(wǎng)絡(luò)協(xié)議電視(internet protocol television,IPTV)以網(wǎng)絡(luò)協(xié)議為基礎(chǔ),面向電視終端,通過(guò)寬帶網(wǎng)向用戶提供交互式視頻業(yè)務(wù)[3],而利用IPTV視頻點(diǎn)播服務(wù)的訪問(wèn)熱度進(jìn)行深入分析和準(zhǔn)確建模,對(duì)視頻內(nèi)容的緩存策略設(shè)計(jì)是十分重要的。因此,改進(jìn)基于視頻熱度的擬合曲線的擬合優(yōu)度就成了改善緩存策略的關(guān)鍵。
在對(duì)流媒體用戶點(diǎn)播行為的建模研究中,崔華杰[4]采用 Zipf模型進(jìn)行回歸擬合視頻的訪問(wèn)熱度,后來(lái)Guo等人[5]指出Zipf模型無(wú)法準(zhǔn)確擬合某些自然現(xiàn)象具有的特征,同時(shí),驗(yàn)證了廣延指數(shù)(stretched exponential,SE)分布模型更適合刻畫實(shí)際系統(tǒng)視頻訪問(wèn)請(qǐng)求次數(shù)的分布。廣延指數(shù)模型最早是由德國(guó)物理學(xué)家Kohlrausch于1847年提出的。對(duì)于其應(yīng)用,Laherrere等人[6]率先提出,廣延指數(shù)模型可用于具有重尾現(xiàn)象的自然和社會(huì)經(jīng)濟(jì)現(xiàn)象的描述中。后來(lái),Guo等人[5]將廣延指數(shù)模型用于對(duì)流媒體系統(tǒng)的研究中,并對(duì)比了 Zipf模型的不足之處。因此,對(duì)于只采用一種曲線函數(shù)回歸擬合一段時(shí)間內(nèi)系統(tǒng)中所有的點(diǎn)播視頻訪問(wèn)數(shù)據(jù)難以獲得優(yōu)良的擬合效果,并且對(duì)于最常用的曲線擬合求解方法最小二乘法,也有一定的局限性。
因此,本文在對(duì)現(xiàn)有IPTV用戶視頻點(diǎn)播行為的數(shù)學(xué)模型進(jìn)行調(diào)研的基礎(chǔ)上,應(yīng)用回歸分析方法,并以廣延指數(shù)分布為建?;A(chǔ),提出了一種自適應(yīng)分段廣延指數(shù)(ASSE)模型,用來(lái)進(jìn)行IPTV視頻點(diǎn)播行為的模型構(gòu)建,并提高了視頻訪問(wèn)熱度模型曲線的擬合優(yōu)度。
回歸分析是由英國(guó)著名生物學(xué)家兼統(tǒng)計(jì)學(xué)家Francis Galton[7]在研究人類遺傳問(wèn)題時(shí)提出來(lái)的,用來(lái)確定兩種或兩種以上變量間的具體依賴關(guān)系,是建模和分析數(shù)據(jù)的重要工具?;貧w分析通過(guò)直線或曲線來(lái)擬合一些數(shù)據(jù)點(diǎn),使得這些數(shù)據(jù)點(diǎn)到直線或曲線的距離最小[8]?;貧w屬于機(jī)器學(xué)習(xí)中有監(jiān)督學(xué)習(xí)的范疇,擬合得出的對(duì)應(yīng)曲線稱為回歸曲線。用戶行為分析也是回歸分析擬合應(yīng)用的重點(diǎn)之一。本節(jié)從點(diǎn)播視頻的用戶的角度出發(fā),利用回歸分析,主要針對(duì)視頻點(diǎn)播中的用戶訪問(wèn)行為進(jìn)行建模與分析,建立系統(tǒng)內(nèi)一段時(shí)間對(duì)各視頻訪問(wèn)次數(shù)的排序和用戶對(duì)這些視頻的訪問(wèn)次數(shù)情況之間的函數(shù)關(guān)系模型。
本文提出的 ASSE模型以廣延指數(shù)分布為基礎(chǔ),并根據(jù)設(shè)定的誤差閾值β來(lái)自適應(yīng)地分段建模,并滿足分段曲線建模的連續(xù)性要求。本節(jié)將詳細(xì)介紹基于 ASSE方法的視頻訪問(wèn)熱度模型的構(gòu)建過(guò)程。
本文將擬合視頻位序與視頻訪問(wèn)互補(bǔ)累積概率之間的關(guān)系曲線,其中,互補(bǔ)累積概率的計(jì)算方法具體如下:在一個(gè)n部IPTV點(diǎn)播視頻的系統(tǒng)中,對(duì)n部視頻的訪問(wèn)概率由高到低排序,依次表示為p(1),p(2),…,p(n),則其對(duì)應(yīng)的互補(bǔ)累積概率為:
本文選取從中國(guó)電信某省 IPTV系統(tǒng)日志中提取的部分?jǐn)?shù)據(jù),視頻總數(shù)為70 000部,分別統(tǒng)計(jì)每一部視頻的訪問(wèn)次數(shù),并計(jì)算每一部視頻的訪問(wèn)概率,再按概率高低依次排序,得出所需要的一串訪問(wèn)概率序列p(1),p(2),…,p(70 000);然后,根據(jù)式(1)計(jì)算出視頻點(diǎn)播行為的互補(bǔ)累積概率Pc(1),Pc(2),…,Pc(70 000)。
本文采用廣延指數(shù)分布函數(shù)作為基礎(chǔ)模型來(lái)擬合流媒體系統(tǒng)中用戶訪問(wèn)點(diǎn)播視頻的情況。廣延指數(shù)分布的互補(bǔ)累積概率分布函數(shù)(complementary cumulative distribution function,CCDF)表示為:
其中,x代表視頻位序,Pc(x)代表互補(bǔ)累積概率,x0和c表示兩個(gè)常量參數(shù),其中x0被稱為尺度參數(shù),c被稱為廣延參數(shù)或形狀參數(shù)。對(duì)式(2)取兩次對(duì)數(shù)的通用表達(dá)式為:
根據(jù)式(3)進(jìn)行坐標(biāo)轉(zhuǎn)換,簡(jiǎn)化為線性回歸函數(shù)模型,如式(4)所示:
其中,Y=ln[-lnPc(x)],X=lnx,b=-clnx0,x=1, 2, 3,…,n。
如第2.2節(jié)所述,本文采用廣延指數(shù)函數(shù)作為曲線擬合的基礎(chǔ)模型。但是,只采用一種函數(shù)擬合視頻位序與視頻訪問(wèn)互補(bǔ)累積概率之間的關(guān)系,通常要求自變量與因變量之間有基于該函數(shù)的很強(qiáng)的依賴關(guān)系,否則,較難得到準(zhǔn)確的擬合結(jié)果[9]。因此,可以通過(guò)將實(shí)際數(shù)據(jù)分成若干組,然后對(duì)每組數(shù)據(jù)再進(jìn)行擬合的方法提高擬合的精度。擬合線段的條數(shù)可以根據(jù)具體的工程需求,人工進(jìn)行設(shè)定,也可以采用其他分段方法。本文采用給定一個(gè)誤差閾值,若連續(xù)兩次誤差平方和高于該閾值,則停止該線段擬合的計(jì)算,由此來(lái)自適應(yīng)地確定分段數(shù)。具體如下:設(shè)定一個(gè)誤差閾值β,若某數(shù)據(jù)點(diǎn)A及其下一個(gè)數(shù)據(jù)點(diǎn)B的擬合值和實(shí)際值之間的誤差平方和均高于該閾值(連續(xù)兩次誤差平方和高于該閾值)則停止該線段擬合的計(jì)算,并開始下一段曲線的擬合。
由此,根據(jù)閾值誤差閾值β,自適應(yīng)地將實(shí)際數(shù)據(jù)分為m段,對(duì)每一段求解的方程如下:
由于曲線分段點(diǎn)處往往不能滿足擬合曲線的連續(xù)性[10]需求,如圖1所示。而且,目前用于解決分段擬合曲線連續(xù)性問(wèn)題的方法均存在局限性。本文給出了一種帶約束條件的最優(yōu)化方案,即在曲線的分段點(diǎn)處,令上一擬合線段的最后一個(gè)擬合坐標(biāo)值,一定落在下一條擬合線段上,作為約束條件。即對(duì)于式(5)的每一段的回歸模型(即m段曲線模型),令每一段曲線的分段點(diǎn)處的擬合值(X*,Y*)作為該擬合線段的起始點(diǎn),即滿足式(6):
圖1 分段點(diǎn)處擬合值不連續(xù)示意
并且在該約束條件下,通過(guò)最小二乘法求解出該擬合線段的最優(yōu)參數(shù)c,進(jìn)而可得b,則將式(5)作為每一段的回歸模型,結(jié)合式(6),可得:
其中,(X1*,Y1*), (X2*,Y2*),…, (X*m-1,Y*m-1)分別為第1段,第2段,…,第m?1段擬合曲線最后一個(gè)擬合點(diǎn)處(分段點(diǎn))的擬合值。由此,實(shí)現(xiàn)了分段點(diǎn)處滿足一階連續(xù)的分段曲線擬合,直到所有分段點(diǎn)對(duì)應(yīng)的擬合線段按照此方法建模求解出對(duì)應(yīng)的每一段擬合線段對(duì)應(yīng)的最優(yōu)參數(shù)(c1,b1),(c2,b2),(c3,b3),…,(cm,bm)。至此,建模完成,并且所有數(shù)據(jù)擬合完畢。
在 IPTV業(yè)務(wù)的發(fā)展和運(yùn)營(yíng)過(guò)程中,IPTV系統(tǒng)已經(jīng)積累了海量用戶行為數(shù)據(jù)。中國(guó)電信某省的IPTV系統(tǒng)每天產(chǎn)生近1 TB的數(shù)據(jù)文件,內(nèi)容包括用戶收視行為日志、系統(tǒng)運(yùn)行日志等[11],為對(duì)視頻點(diǎn)播用戶的行為進(jìn)行建模,從中提取部分?jǐn)?shù)據(jù),包括視頻總數(shù)70 000部,訪問(wèn)的規(guī)律基本滿足“二八定律”?;谌绱她嫶蟮挠脩羧后w及其大量的真實(shí)用戶記錄,可以看出對(duì)IPTV CDN用戶的行為建模具有足夠的代表性與意義。
因不同視頻數(shù)量下的 ASSE模的擬合情況均類似,因此,本文不再給出其他不同視頻數(shù)量下的ASSE模型回歸擬合結(jié)果。
3.2.1 ASSE模型在不同分段數(shù)下的擬合結(jié)果
實(shí)驗(yàn)采用(X,Y)坐標(biāo)系,并通過(guò)坐標(biāo)轉(zhuǎn)換,令Y=ln[?lnPc(x)],X=lnx,其中,x代表視頻位序,Pc(x)代表互補(bǔ)累積概率。同時(shí),設(shè)定不同閾值β進(jìn)行自適應(yīng)分段擬合。圖3給出了自適應(yīng)分段數(shù)量(segment)分別為3、5、7、10的情況下,每天用戶對(duì)點(diǎn)播視頻的典型訪問(wèn)情況建模結(jié)果如圖2所示。通過(guò)ASSE模型與實(shí)際數(shù)據(jù)擬合結(jié)果對(duì)比,可以看出,分段數(shù)越高,擬合的吻合程度越高。在分段數(shù)≥7的情況下,擬合結(jié)果與實(shí)際數(shù)據(jù)具備優(yōu)良的一致性。
3.2.2 ASSE模型與SE模型擬合結(jié)果對(duì)比分析
在構(gòu)建模型的過(guò)程中,對(duì)模型的優(yōu)劣評(píng)估是十分重要的。本節(jié)將通過(guò)仿真結(jié)果對(duì)比本文提出的自適應(yīng)分段廣延指數(shù)(ASSE)模型與廣延指數(shù)(SE)模型的優(yōu)劣。考慮到分段數(shù)不宜過(guò)多,并且要兼顧擬合精度,因此,本文選擇在分段數(shù)為7時(shí),將提出的ASSE模型與SE模型的建模結(jié)果進(jìn)行對(duì)比。對(duì)比結(jié)果如圖3所示。
如圖3所示,在分段數(shù)為7時(shí),提出的ASSE模型比傳統(tǒng)的SE模型更符合實(shí)際數(shù)據(jù)的分布。實(shí)際數(shù)據(jù)、SE模型以及ASSE模型擬合出的互補(bǔ)累積概率如圖4所示。
圖5為實(shí)際數(shù)據(jù)、SE模型以及ASSE模型擬合結(jié)果之間的絕對(duì)誤差。實(shí)驗(yàn)結(jié)果表明,對(duì)于絕大多數(shù)數(shù)據(jù)點(diǎn)的擬合誤差,本文提出的 ASSE模型的擬合誤差小于SE模型。尤其是對(duì)于大約前5 000部訪問(wèn)熱片,SE模型擬合的誤差遠(yuǎn)大于ASSE模型。擬合誤差越大,就越會(huì)導(dǎo)致用戶訪問(wèn)流量的錯(cuò)誤估計(jì),進(jìn)而導(dǎo)致對(duì)緩存設(shè)備的并發(fā)流量服務(wù)能力估計(jì)錯(cuò)誤,并對(duì)緩存設(shè)備的系統(tǒng)并發(fā)服務(wù)能力配置有很大影響。此外,為了盡可能提高系統(tǒng)資源的利用率,對(duì)于訪問(wèn)概率不同的視頻,會(huì)依據(jù)訪問(wèn)概率而設(shè)定該視頻的緩存時(shí)間,通常來(lái)說(shuō),訪問(wèn)概率高的視頻常常比訪問(wèn)概率低的視頻的設(shè)定的緩存時(shí)間要長(zhǎng)一些。所以,在對(duì)用戶視頻訪問(wèn)行為預(yù)測(cè)中,擬合精度對(duì)視頻緩存的保留時(shí)間有著很大影響,進(jìn)而影響預(yù)緩存策略。因此,本文提出的 ASSE模型由于提升了用戶訪問(wèn)情況的擬合精度,對(duì)服務(wù)器的系統(tǒng)配置和熱片內(nèi)容的預(yù)緩存策略的改善十分重要。
圖2 用戶對(duì)點(diǎn)播視頻的典型訪問(wèn)情況建模結(jié)果
圖3 兩種模型的建模結(jié)果與實(shí)際數(shù)據(jù)的對(duì)比
圖4 互補(bǔ)累積概率擬合結(jié)果
圖5 兩種模型的建模的誤差結(jié)果的對(duì)比
此外,可以通過(guò)標(biāo)準(zhǔn)的檢驗(yàn)方法來(lái)定量評(píng)估實(shí)際數(shù)據(jù)與回歸模型的擬合程度,擬合優(yōu)度是一種用來(lái)檢驗(yàn)實(shí)際數(shù)據(jù)是否符合某個(gè)回歸擬合模型的統(tǒng)計(jì)方法[12]。因此,采用擬合優(yōu)度檢驗(yàn)來(lái)檢驗(yàn)本文提出的ASSE模型,并與SE模型進(jìn)行進(jìn)一步對(duì)比,由此來(lái)判斷模型的擬合效果,這兩種模型擬合的檢驗(yàn)結(jié)果見(jiàn)表1。
表1 ASSE和SE擬合模型檢驗(yàn)結(jié)果
由于R2越靠近1,表示實(shí)際樣本數(shù)據(jù)越靠近擬合模型,即擬合優(yōu)度越高。因此,從表1中可以看出,ASSE模型的擬合優(yōu)度0.994 8髙于SE模型的擬合優(yōu)度0.980 9。由此進(jìn)一步說(shuō)明,本文提出的ASSE模型不僅提高了曲線擬合的精度,并且與實(shí)際數(shù)據(jù)具有良好的一致性?;诖?,本文提出的ASSE模型比SE模型更適合對(duì)IPTV用戶點(diǎn)播行為進(jìn)行建模,并且能夠優(yōu)化系統(tǒng)配和改善視頻調(diào)度與緩存策略。
IPTV服務(wù)的發(fā)展趨勢(shì)是面向更龐大的用戶群和存儲(chǔ)更巨大的視頻數(shù)據(jù),并為用戶提供更優(yōu)質(zhì)的視頻體驗(yàn)。在這種趨勢(shì)下,IPTV服務(wù)所面臨的主要挑戰(zhàn)是如何優(yōu)化IPTV CDN的系統(tǒng)性能,并同時(shí)降低部署與運(yùn)營(yíng)成本。為優(yōu)化 IPTV CDN系統(tǒng)的配置與性能,用戶行為分析是極其重要的一步。
本文利用提出的ASSE模型和SE模型分別對(duì)IPTV視頻點(diǎn)播用戶行為進(jìn)行回歸擬合和對(duì)比分析,驗(yàn)證了本文提出的ASSE模型不僅能夠更好地?cái)M合出用戶視頻點(diǎn)播的熱度分布,并能夠?yàn)閮?yōu)化IPTV CDN系統(tǒng)配置、改善視頻調(diào)度與存儲(chǔ)策略提供重要的指導(dǎo)作用。
參考文獻(xiàn):
[1]張旺俊.Web緩存替換策略與預(yù)取技術(shù)的研究[D].合肥: 中國(guó)科學(xué)技術(shù)大學(xué), 2011.ZHANG W J.Research on Web cache replacement strategy and prefetching technology[D].Hefei: University of Science and Technology of China, 2011.
[2]夏琰.基于實(shí)際用戶行為分析的緩存研究[D].合肥: 中國(guó)科學(xué)技術(shù)大學(xué), 2011.XIA Y.Research on caching based on actual user behavior analysis[D].Hefei: University of Science and Technology of China, 2011.
[3]韋樂(lè)平.三網(wǎng)融合與 IPTV的發(fā)展和挑戰(zhàn)[J].電信科學(xué),2006, 22(7):1-5.WEI L P.Triple-play and the development and challenges of IPTV[J].Telecommunications Science, 2006, 22(7):1-5.
[4]崔華杰.大型直播與點(diǎn)播IPTV系統(tǒng)的用戶行為分析[D].廣州: 中山大學(xué), 2013.CUI H J.Dissecting user behaviors for a simultaneous live and VOD IPTV system[D].Guangzhou: Sun Yat-sen University,2013.
[5]GUO L, TAN E, CHEN S, et al.The stretched exponential distribution of internet media access patterns[C]//Twenty-Seventh ACM Symposium on Principles of Distributed Computing, PODC 2008, August 18-21, Toronto, Canada.New York:ACM Press, 2008: 283-294.
[6]LAHERRèRE J, SORNETTE D.Stretched exponential distributions in nature and economy: “fat tails” with characteristic scales[J].The European Physical Journal B - Condensed Matter and Complex Systems, 1998, 2(4): 525-539.
[7]趙晨陽(yáng), 翟少丹.高爾頓與相關(guān)理論的產(chǎn)生[J].西北大學(xué)學(xué)報(bào):自然科學(xué)版, 2008, 38(4):680-684.ZHAO C Y, ZHUO S D.Galton and the invention of correlation[J].Journal of Northwestern University: Natural Science Edition, 2008, 38(4): 680-684.
[8]李祖亮.基于數(shù)學(xué)建模的經(jīng)濟(jì)變量線性回歸統(tǒng)計(jì)預(yù)測(cè)研究[J].中國(guó)校外教育, 2011(2):142-142.LI Z L.Research on statistical prediction of linear regression of economic variables based on mathematical modeling[J].Education for Chinese After-School, 2011(2):142-142.
[9]賈丹華, 王潤(rùn)潤(rùn), 王鵬.電信套餐資費(fèi)預(yù)演中客戶量的預(yù)測(cè)方法研究[J].電信科學(xué), 2011, 27(8): 25-32.JIA D H, WANG R R, WANG P.Research on prediction method of the amount of customers in Telecom services tariff preview[J].Telecommunications Science, 2011, 27(8): 25-32.
[10]呂游, 劉吉臻, 趙文杰, 等.基于分段曲線擬合的穩(wěn)態(tài)檢測(cè)方法[J].儀器儀表學(xué)報(bào), 2012, 33(1): 194-200.LV Y, LIU J Z, ZHAO W J, et al.Steady-state detecting method based on piecewise curve fitting [J].Chinese Journal of Scientific Instrument, 2012, 33(1): 194-200.
[11]方艾, 張玉忠, 徐雄, 等.基于MapR的IPTV用戶收視行為分析的方案與實(shí)踐[J].電信科學(xué), 2017, 33(2): 138-143.FANG A, ZHANG Y Z, XU X, et al.Scheme and practice of IPTV user viewing behavior analysis based on MapR[J].Telecommunications Science, 2017, 33(2): 138-143.
[12]王重, 劉黎明.擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量的設(shè)定方法[J].統(tǒng)計(jì)與決策, 2010(5): 154-156.WANG C, LIU L M.Setting method of statistics for goodness of fit[J].Statistics and Decision, 2010(5): 154-156.