內(nèi)容分發(fā)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)融合關(guān)鍵技術(shù)綜述

2022-07-07 06:31許力瀾王瑞琨

西安郵電大學(xué)學(xué)報(bào) 2022年1期

呂慧，許力瀾，王瑞琨，禹忠

(1.中國鐵塔股份有限公司陜西省分公司，陜西西安 710065；2.西安郵電大學(xué) 通信與信息工程學(xué)院，陜西西安 710121)

流媒體應(yīng)用已經(jīng)成為數(shù)字化社會(huì)的常態(tài)，內(nèi)容分發(fā)在流媒體應(yīng)用，即高清媒體流媒體、大型音頻、圖像、視頻文件和數(shù)據(jù)集共享所提供的服務(wù)中起著至關(guān)重要的作用。為了提高流媒體的網(wǎng)絡(luò)性能和服務(wù)質(zhì)量，研究者們一直致力于對內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Delivery Networks，CDN)的研究。CDN可以將流媒體的選擇性內(nèi)容復(fù)制到離客戶端較近或者服務(wù)質(zhì)量比較好的副本服務(wù)器上，并允許用戶從副本服務(wù)器上獲取內(nèi)容，此概念類似于邊緣計(jì)算[1]。在邊緣計(jì)算中，數(shù)據(jù)或資源被放置在邊緣，更接近用戶，并減輕了云計(jì)算的負(fù)擔(dān)。為全方位優(yōu)化CDN網(wǎng)絡(luò)，研究者們開展了大量的研究工作，如全局服務(wù)器負(fù)載均衡、基于域名系統(tǒng)(Domain Nane System，DNS)的請求路由系統(tǒng)、IP層重定向請求路由系統(tǒng)、應(yīng)用層協(xié)議重定向請求路由系統(tǒng)等。系統(tǒng)提供當(dāng)前網(wǎng)絡(luò)訪問CDN日志數(shù)據(jù)，并提供網(wǎng)絡(luò)設(shè)計(jì)或資源調(diào)度策略，從而提高CDN的內(nèi)容分發(fā)質(zhì)量。

利用機(jī)器學(xué)習(xí)技術(shù)提高內(nèi)容分發(fā)網(wǎng)絡(luò)的服務(wù)質(zhì)量成為內(nèi)容分發(fā)中的關(guān)鍵技術(shù)，并得到國內(nèi)外研究者的廣泛關(guān)注。通過對這些方法和成果進(jìn)行深入研究,特別是對相關(guān)技術(shù)的當(dāng)前應(yīng)用情況和發(fā)展趨勢進(jìn)行探討，從而進(jìn)一步提高內(nèi)容分發(fā)網(wǎng)絡(luò)的資源管理、實(shí)時(shí)分配和質(zhì)量規(guī)劃。

1 內(nèi)容分發(fā)網(wǎng)絡(luò)

目前，CDN常見的解決方案是通過在現(xiàn)有的網(wǎng)絡(luò)中增加一層新的網(wǎng)絡(luò)架構(gòu)，將網(wǎng)站的內(nèi)容發(fā)布到最接近用戶的網(wǎng)絡(luò)“邊緣”，使用戶可以就近取得所需的內(nèi)容，解決網(wǎng)絡(luò)擁塞狀況，提高用戶訪問網(wǎng)站的響應(yīng)速度。從技術(shù)上全面解決由于網(wǎng)絡(luò)帶寬小、用戶訪問量大、網(wǎng)點(diǎn)分布不均等原因，改善用戶訪問網(wǎng)站的響應(yīng)速度慢的根本原因。具體的內(nèi)容分發(fā)網(wǎng)絡(luò)架構(gòu)如圖1所示。

圖1 內(nèi)容分發(fā)網(wǎng)絡(luò)架構(gòu)

CDN是一種新型的網(wǎng)絡(luò)構(gòu)建方式，是為傳統(tǒng)的IP網(wǎng)發(fā)布寬帶流媒體而特別優(yōu)化的網(wǎng)絡(luò)覆蓋層。從廣義的角度看，CDN代表了一種基于質(zhì)量與秩序的網(wǎng)絡(luò)服務(wù)模式。同時(shí)，CDN又是一個(gè)經(jīng)策略性部署的整體系統(tǒng)，包括分布式存儲(chǔ)、負(fù)載均衡、網(wǎng)絡(luò)請求的重定向和內(nèi)容管理等4個(gè)要件，而內(nèi)容管理和全局的網(wǎng)絡(luò)流量管理(Traffic Management，TM)是CDN的核心所在。通過針對用戶就近性和服務(wù)器負(fù)載進(jìn)行判斷，CDN確保內(nèi)容以一種極為高效的方式為用戶的請求提供服務(wù)。總的來說，內(nèi)容服務(wù)基于緩存服務(wù)器，也稱作代理緩存(Surrogate)，其位于網(wǎng)絡(luò)的邊緣，距用戶僅有“一跳”之遙。同時(shí)，代理緩存是內(nèi)容提供商源服務(wù)器，即通常位于CDN服務(wù)提供商的數(shù)據(jù)中心的一個(gè)透明鏡像。這樣的架構(gòu)不僅可以使CDN服務(wù)提供商能幫助客戶如內(nèi)容供應(yīng)商向最終用戶提供盡可能好的體驗(yàn)，還可以使最終用戶不必容忍請求響應(yīng)的延遲時(shí)間。據(jù)統(tǒng)計(jì)，采用CDN技術(shù)能處理整個(gè)網(wǎng)站頁面的70%～95%的內(nèi)容訪問量，減輕了服務(wù)器壓力，能夠提升網(wǎng)站的性能和可擴(kuò)展性。

隨著技術(shù)的進(jìn)步，CDN的復(fù)雜性、多樣性增加，用戶的期望以及需求也在不斷提升。當(dāng)CDN的使用場景規(guī)模變得更大、更具有動(dòng)態(tài)性和異構(gòu)性時(shí)，快速增長的用戶群需要更高的網(wǎng)絡(luò)吞吐量。同時(shí)，不斷變化的用戶期望和需求也意味著需要更短的傳輸延遲才不會(huì)影響內(nèi)容分發(fā)的質(zhì)量。此外，還需要更切實(shí)際地考慮滿足不同的市場細(xì)分，尤其在部署云和霧邊緣應(yīng)用程序時(shí)，將會(huì)面臨更復(fù)雜的問題。

近年來，已經(jīng)有許多研究者正在探索解決方案，如數(shù)據(jù)驅(qū)動(dòng)和基于機(jī)器學(xué)習(xí)(Machine Learning，ML)的方法，這些方法在許多研究領(lǐng)域取得了巨大的成功[2]?；趯?shí)時(shí)的網(wǎng)絡(luò)狀態(tài)，如負(fù)載變化模式和吞吐量特征，ML的分類、預(yù)測能力可以潛在地改善CDN中的網(wǎng)絡(luò)調(diào)度和參數(shù)自適應(yīng)能力。但是，基于ML的方法需要對數(shù)據(jù)集進(jìn)行培訓(xùn)，包括CDN中的操作日志、網(wǎng)絡(luò)和服務(wù)監(jiān)控。

2 基于機(jī)器學(xué)習(xí)的內(nèi)容分發(fā)網(wǎng)絡(luò)架構(gòu)

在使用機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)內(nèi)容分發(fā)的性能提升方面已經(jīng)取得了很大的進(jìn)展，但在現(xiàn)有基于ML的技術(shù)中，很少有系統(tǒng)的文獻(xiàn)改進(jìn)CDN中的內(nèi)容分發(fā)性能。因此，對此背景下跟ML相關(guān)的未解決問題、關(guān)鍵技術(shù)以及未來潛在的發(fā)展趨勢等問題進(jìn)行了討論。

一般來說，現(xiàn)有的機(jī)器學(xué)習(xí)算法可以分為監(jiān)督學(xué)習(xí)(Supervised Learning，SL)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning，UL )和強(qiáng)化學(xué)習(xí)(Reinforcement Learning，RL)等3類算法：SL算法通常用于標(biāo)記數(shù)據(jù)的分類、回歸任務(wù)；UL算法可以將樣本集分為不同的未標(biāo)記數(shù)據(jù)簇；RL算法通常通過與環(huán)境的交互確定最優(yōu)動(dòng)作序列。在ML和互聯(lián)網(wǎng)的集成方面，機(jī)器學(xué)習(xí)已經(jīng)使用在網(wǎng)絡(luò)設(shè)計(jì)、調(diào)度、部署和管理中。因此，ML在提升內(nèi)容分發(fā)的性能方面的問題成為重點(diǎn)的研究內(nèi)容。

圖2展示了基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法的一般框架，該框架可以增強(qiáng)內(nèi)容分發(fā)服務(wù)的性能。在CDN中提高內(nèi)容交付質(zhì)量的研究可以分為在客戶端優(yōu)化內(nèi)容分發(fā)服務(wù)的選擇即內(nèi)容交付階段和在服務(wù)器端優(yōu)化內(nèi)容分發(fā)網(wǎng)絡(luò)的資源調(diào)度即緩存放置階段兩類。具體而言，在客戶端，每個(gè)客戶端在訪問日志數(shù)據(jù)時(shí)：應(yīng)用機(jī)器學(xué)習(xí)技術(shù)選擇服務(wù)并優(yōu)化體驗(yàn)質(zhì)量(Quality of Experience，QoE)，如自適應(yīng)比特率選擇和自適應(yīng)流；在服務(wù)器端，主要關(guān)注CDN資源調(diào)度的優(yōu)化，如負(fù)載均衡、動(dòng)態(tài)資源分配等。在此基礎(chǔ)之上，使用基于ML的解決方案可以達(dá)到更好的資源調(diào)度效果。

圖2 基于機(jī)器學(xué)習(xí)的內(nèi)容分發(fā)網(wǎng)絡(luò)架構(gòu)

3 面向客戶端QoE的CDN優(yōu)化

為了提高QoE，可以嘗試采用基于預(yù)測的方法，如以用戶最近活動(dòng)中觀察到的用戶QoE特性為依據(jù)。換句話說，有效的QoE預(yù)測模型通常與可觀察到的行為有關(guān)。文獻(xiàn)[3]提出了一種數(shù)據(jù)驅(qū)動(dòng)的方法，通過決策樹模型建立視頻流媒體用戶參與度的預(yù)測模型，指導(dǎo)關(guān)鍵性能指標(biāo)的優(yōu)化策略，最終有效地改善了視頻流媒體用戶的QoE。

基于預(yù)測的CDN優(yōu)化方法存在兩種基礎(chǔ)性的難題：一是由于復(fù)雜的關(guān)系，預(yù)測模型可能無法識(shí)別視頻質(zhì)量和觀察到的會(huì)話特征之間的相關(guān)聯(lián)系；另一個(gè)是當(dāng)內(nèi)容被傳遞給移動(dòng)用戶時(shí)的實(shí)時(shí)服務(wù)需求。為了改善這兩個(gè)問題，文獻(xiàn)[4]中提出了一種客戶端預(yù)測方法，即交叉驗(yàn)證模型(Confirmatory Factor Analysis，CFA)，CFA采用關(guān)鍵特征學(xué)習(xí)算法，基于學(xué)習(xí)到的關(guān)鍵特征進(jìn)行質(zhì)量估計(jì)，但CFA無法應(yīng)對突然的變化或全局控制。

基于預(yù)測的方法也存在許多已知的偏差，為了解決該問題，研究者們已經(jīng)提出了許多方法。例如，文獻(xiàn)[5]中提出了一種在RL中進(jìn)行探索和開發(fā)(Exploration and Exploitation，E2)的方法。這種方法稱為Pytheas，旨在使每個(gè)客戶機(jī)能夠同時(shí)確定和檢查服務(wù)器，將視頻質(zhì)量的實(shí)時(shí)優(yōu)化問題轉(zhuǎn)化為實(shí)時(shí)多臂老虎機(jī)(Multi-Armed Bandits，MAB)問題，即一種基礎(chǔ)的強(qiáng)化學(xué)習(xí)方法，并使用了上限置信區(qū)間算法(Upper Confidence Bound，UCB)。具體來說，Pytheas將具有相同關(guān)鍵特性的視頻會(huì)話分成組，E2算法在組粒度上執(zhí)行，以確定會(huì)話特征并提高QoE，Pytheas平均提高了31%的視頻質(zhì)量(Video Quality of Experience，VQoE)。

同時(shí)，類似于Pytheas，提出了三層結(jié)構(gòu)CDN(C3)[6]，即另一種控制平面設(shè)計(jì)，C3包括建模層、決策層和傳感驅(qū)動(dòng)層3層。建模層使用數(shù)據(jù)驅(qū)動(dòng)的方法預(yù)測新進(jìn)入會(huì)話的質(zhì)量，同時(shí)考慮當(dāng)前會(huì)話的相似性。決策層應(yīng)用全局模型做出實(shí)時(shí)決策，即亞秒級(jí)時(shí)間尺度。傳感驅(qū)動(dòng)層負(fù)責(zé)質(zhì)量測量和控制決策執(zhí)行。C3的設(shè)計(jì)解決了確?？缮炜s性和處理數(shù)據(jù)平面異構(gòu)性方面的關(guān)鍵問題。為了確?？缮炜s性和響應(yīng)性，C3引入了一種新的分離控制平面體系結(jié)構(gòu)，容忍模型陳舊程度的小幅增加可使網(wǎng)絡(luò)的伸縮性顯著增加。C3通過最小的客戶端傳感/驅(qū)動(dòng)層支持多種客戶端平臺(tái)，并將復(fù)雜的監(jiān)控和控制邏輯卸載到控制平面。這種方法提供了可擴(kuò)展性，減少了帶寬開銷并提高了客戶的視頻質(zhì)量，但其不支持實(shí)時(shí)決策。

在CDN中兩個(gè)關(guān)鍵技術(shù)指標(biāo)對ML的質(zhì)量非常重要，即自適應(yīng)比特率(Adaptive Bit Rate，ABR)選擇和通過超文本傳輸協(xié)議(Hypertext Transfer Prtcl，HTTP)的自適應(yīng)流。

比特率的選擇和自適應(yīng)是提高視頻流質(zhì)量進(jìn)而提高CDN業(yè)務(wù)質(zhì)量的重要方案。ABR是確保網(wǎng)絡(luò)視頻良好體驗(yàn)質(zhì)量的關(guān)鍵，例如，跨會(huì)話狀態(tài)預(yù)測(Cross-Session Stateful Prediction，CS2P)系統(tǒng)[7]，一個(gè)吞吐量預(yù)測系統(tǒng)，其使用數(shù)據(jù)驅(qū)動(dòng)的方法學(xué)習(xí)相似會(huì)話的集群、初始吞吐量預(yù)測器和隱馬可夫過程基于中游預(yù)測器的吞吐量狀態(tài)演化模型，并在客戶端選擇和調(diào)整視頻比特率。CS2P系統(tǒng)可識(shí)別類似的視頻會(huì)話并對吞吐量進(jìn)行初始預(yù)測。同時(shí)，對吞吐量狀態(tài)演化進(jìn)行建模，以隱馬爾可夫過程跟蹤吞吐量的動(dòng)態(tài)變化。CS2P系統(tǒng)的初始吞吐量和中游演化模型可以被插入到比特率選擇和自適應(yīng)算法中，這些算法可以運(yùn)行在視頻播放器或內(nèi)容分發(fā)服務(wù)器上。設(shè)計(jì)有效的ABR算法所面臨的困難包括波動(dòng)的網(wǎng)絡(luò)條件和沖突的質(zhì)量目標(biāo)，如比特率、重緩沖時(shí)間和視頻質(zhì)量平滑等。文獻(xiàn)[8]提出了Pensieve系統(tǒng)在客戶端使用深度RL創(chuàng)建ABR，可以不依賴預(yù)先編程的模型，而是根據(jù)對過去決策的觀察學(xué)習(xí)，從而做出適應(yīng)性決策。文獻(xiàn)[9]提出了一個(gè)基于網(wǎng)絡(luò)環(huán)境特征的質(zhì)量滿意度模型，設(shè)計(jì)了一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法預(yù)測QoE的接入鏈路、位置、CDN和網(wǎng)絡(luò)運(yùn)營商的特征。

HTTP自適應(yīng)流(HTTP Adaptive Streaming，HAS)是頂級(jí)視頻流的標(biāo)準(zhǔn)。一般來說，一個(gè)HAS視頻由不同質(zhì)量等級(jí)和不同比特率編碼的多個(gè)片段組成，其允許客戶端為每個(gè)視頻片段選擇不同的編碼速率。傳統(tǒng)的HAS比特率選擇大多采用固定參數(shù)模型，這可能導(dǎo)致次優(yōu)解。許多商業(yè)HAS應(yīng)用程序使用較大緩沖區(qū)避免回放卡頓，然而，由于直播需要更小的緩沖區(qū)，這種類型的解決方案不能充分滿足直播要求。在文獻(xiàn)[10-11]中，使用Q-Learning技術(shù)的優(yōu)化能力解決了這個(gè)限制。例如，在文獻(xiàn)[10]中提出的Q-Learning技術(shù)使一個(gè)HAS客戶端可以動(dòng)態(tài)地學(xué)習(xí)網(wǎng)絡(luò)環(huán)境中的最佳行為，這種方法在性能和收斂速度方面滿足了客戶端的要求。文獻(xiàn)[11]中提出的算法是利用RL實(shí)現(xiàn)客戶端視頻速率的自適應(yīng)變化，并調(diào)整自適應(yīng)參數(shù)主動(dòng)減少緩沖區(qū)的平均填充。與以前的解決方案相比，使用該方案的客戶端達(dá)到了更低的緩沖區(qū)平均填充和更高的QoE水平。

4 面向服務(wù)器端QoS的CDN優(yōu)化

為了優(yōu)化服務(wù)器端的QoS，可采用數(shù)據(jù)驅(qū)動(dòng)的方法。文獻(xiàn)[12]通過CDN運(yùn)營大數(shù)據(jù)分析，提出了一種支持多云架構(gòu)的資源分配與調(diào)度優(yōu)化策略。首先，在Spark上分析CDN運(yùn)行日志數(shù)據(jù)的數(shù)量，評估終端用戶與多云CDN運(yùn)營商之間的QoS。然后，執(zhí)行一個(gè)長期資源部署算法，預(yù)定最小的資源，以滿足用戶的要求，最終實(shí)現(xiàn)更高的QoS和更低的成本。在Spark上進(jìn)行QoS計(jì)算的過程如圖3所示。

圖3 在Spark上進(jìn)行QoS計(jì)算的過程

在文獻(xiàn)[13]中，提出了一種數(shù)據(jù)驅(qū)動(dòng)的方法建立一個(gè)實(shí)用CDN緩存服務(wù)器組，即CDN的服務(wù)器節(jié)點(diǎn)性能評估模型，還在深度學(xué)習(xí)中使用LSTM自動(dòng)編碼器捕獲時(shí)間結(jié)構(gòu)。

緩存是增強(qiáng)內(nèi)容傳遞性能的另一種重要機(jī)制。緩存模式可以大致分為響應(yīng)式模式和靜態(tài)緩存模式。在響應(yīng)式緩存模式中，單個(gè)緩存完全根據(jù)最近本地觀察到的對象訪問模式?jīng)Q定緩存哪些對象。在靜態(tài)緩存模式中，集中控制器根據(jù)用戶需求的全局視圖和對象訪問模式?jīng)Q定要緩存哪些對象。例如，文獻(xiàn)[13]從內(nèi)容提供者的角度提出了一個(gè)智能內(nèi)容緩存框架DeepCache。DeepCache在決定緩存哪些內(nèi)容對象之前，利用LSTM編碼器-解碼器模型對內(nèi)容流行度進(jìn)行準(zhǔn)確預(yù)測。因此，DeepCache框架可以顯著增加CDN中緩存命中的次數(shù)，提高內(nèi)容傳遞的QoS。

為提升QoS，云內(nèi)容交付網(wǎng)絡(luò)(Cloud Content Delivery Networks，CCDNs)也是一個(gè)極好的辦法，其允許資源租賃如存儲(chǔ)和帶寬在云中構(gòu)建CDN，能夠增強(qiáng)可伸縮性、靈活性和彈性，并降低內(nèi)容存儲(chǔ)和交付的成本。傳統(tǒng)的CCDNs網(wǎng)絡(luò)架構(gòu)由用戶、源服務(wù)器和云代理服務(wù)器組成，如圖4所示。文獻(xiàn)[14]提出了一種基于Q-Learning的動(dòng)態(tài)CCDNs內(nèi)容布局模型，稱為Q-內(nèi)容布局模型(Q-Content Placement Model，Q-CPM)。首先，通過最新和更可靠的擁塞值進(jìn)行判斷，Q-Learning方法可以做出更好的路由決策。然后，在Q-CPM模型的基礎(chǔ)上，提出了一種構(gòu)建Q-自適應(yīng)交付樹(Q-Adaptive Delivery Tree，Q-ADT)的算法，通過網(wǎng)絡(luò)學(xué)習(xí)包傳播本地和非本地?fù)砣畔?，可以選擇擁塞代價(jià)低且能適應(yīng)動(dòng)態(tài)云傳輸?shù)穆窂健?/p>

圖4 傳統(tǒng)CCDNs架構(gòu)

采用基于ML優(yōu)化CDN調(diào)度方法可分為面向客戶端QoE和面向服務(wù)器端QoS兩種方法。通過觀察可以發(fā)現(xiàn)，基于預(yù)測的ML方法大多應(yīng)用于客戶端。因此，在服務(wù)器端，需要一個(gè)全局視圖實(shí)現(xiàn)負(fù)載平衡和動(dòng)態(tài)資源分配。

5 面臨的主要問題

在基于ML的CDN中，面臨著以下4個(gè)主要的問題。

1)客戶端的實(shí)時(shí)服務(wù)器選擇。流媒體的特殊性多、數(shù)據(jù)量大，對抖動(dòng)和時(shí)延極其敏感，在廣域網(wǎng)上傳輸要有一定的QoS保證。而且服務(wù)器的負(fù)載輕重與否，并不代表從客戶端到服務(wù)器端的網(wǎng)絡(luò)狀態(tài)的好壞。如果服務(wù)器處于輕負(fù)載狀況，還可以支持更多的用戶，但客戶端到服務(wù)器端的網(wǎng)絡(luò)狀態(tài)卻很差。因此，在分布式流媒體的服務(wù)器選擇策略中，必須考慮客戶端到服務(wù)器端的真實(shí)網(wǎng)絡(luò)環(huán)境。

2)CDN服務(wù)器資源管理。CDN的性能策略在最小化延遲和最大化緩存命中率之間的權(quán)衡，具有多個(gè)存在點(diǎn)(Point of Presence，PoP)的CDN可以提供更低的延遲，但由于流量被分配到更多緩存，可能會(huì)遇到更低的緩存命中率。最小化延遲和最大化緩存命中率之間的權(quán)衡是一個(gè)范圍。因此，在這個(gè)范圍之內(nèi)尋求一個(gè)平衡點(diǎn)合理配置CDN服務(wù)器資源，就成為一個(gè)技術(shù)難點(diǎn)。

3)CDN服務(wù)器端規(guī)劃。由于每個(gè)服務(wù)器上都有相同的動(dòng)態(tài)資源，這就需要配置相應(yīng)的數(shù)據(jù)庫。因此，易導(dǎo)致核心節(jié)點(diǎn)間數(shù)據(jù)同步等問題，即便做到集群式服務(wù)器規(guī)劃，依舊解決不了成本高的難點(diǎn)。

4)CDN服務(wù)器端QoS評估。用ML優(yōu)化CDN能夠降低網(wǎng)絡(luò)中的網(wǎng)絡(luò)延時(shí)、丟包率和回源率數(shù)值，緩存命中率也得到相應(yīng)提高。但是，由于業(yè)務(wù)場景和業(yè)務(wù)類型不同，即使選擇了相同配置的CDN與ML融合技術(shù)服務(wù)，評估分配和規(guī)劃后的CDN的QoS優(yōu)化效果也不相同。因此，利用規(guī)劃的響應(yīng)指導(dǎo)未來的優(yōu)化、改進(jìn)是一大難點(diǎn)。

6 關(guān)鍵技術(shù)

6.1 從高維到低維特征提取

通常情況下，數(shù)據(jù)降維是提高預(yù)測準(zhǔn)確性和可識(shí)別性的一種選擇。利用現(xiàn)有的性能評價(jià)數(shù)據(jù)進(jìn)行業(yè)務(wù)質(zhì)量分析，并建立整個(gè)網(wǎng)絡(luò)系統(tǒng)的評價(jià)模型，是實(shí)現(xiàn)CDN的QoS動(dòng)態(tài)評價(jià)的基礎(chǔ)[15]。

在性能評估中包括基于機(jī)器的數(shù)據(jù)和基于網(wǎng)絡(luò)的數(shù)據(jù)兩種典型的數(shù)據(jù)類型，都是高維數(shù)據(jù)。原始數(shù)據(jù)中的每個(gè)特征都代表一定的含義，每個(gè)特征值范圍都是不同的。那么，將所有原始數(shù)據(jù)輸入到模型中可能會(huì)導(dǎo)致計(jì)算成本提高、收斂速度降低和由于冗余參數(shù)使模型復(fù)雜性增加。事實(shí)上，很多特性對CDN的QoS影響很小，這意味著使用冗余特性可能會(huì)對服務(wù)質(zhì)量的表示產(chǎn)生負(fù)面影響。因此，從原始數(shù)據(jù)中選擇真正相關(guān)的特性是提高CDN業(yè)務(wù)質(zhì)量的關(guān)鍵。

6.2 基于緩存的多服務(wù)器特性收斂

CDN服務(wù)提供商通常以緩存組為單位提供客戶端服務(wù)和資源管理，這意味著CDN的QoS的動(dòng)態(tài)評估需要在緩存組中進(jìn)行評估[16]。相同緩存組中的服務(wù)器是同構(gòu)的，由一臺(tái)或多臺(tái)服務(wù)器組成，用負(fù)載平衡設(shè)備連接這些服務(wù)器。在實(shí)踐中，整個(gè)網(wǎng)絡(luò)的性能一般都屬于單個(gè)服務(wù)器，數(shù)據(jù)僅代表單個(gè)服務(wù)器的QoS。因此，需要通過匯聚緩存組的特性并收集多個(gè)服務(wù)器的數(shù)據(jù)確定緩存組的特性和服務(wù)質(zhì)量之間的關(guān)系。

7 發(fā)展趨勢

CDN可以通過實(shí)施數(shù)據(jù)驅(qū)動(dòng)的ML方法改進(jìn)，以實(shí)現(xiàn)優(yōu)化的資源管理、實(shí)時(shí)分配和質(zhì)量規(guī)劃。一個(gè)功能完備的CDN能夠在資源使用效率和成本節(jié)約方面對QoE和QoS的性能進(jìn)行提升。其中一個(gè)研究熱點(diǎn)是設(shè)計(jì)基于深度學(xué)習(xí)的CDN網(wǎng)絡(luò)QoS評估模型和算法，重點(diǎn)研究基于有限樣本的數(shù)據(jù)驅(qū)動(dòng)的CDN業(yè)務(wù)分配和基于ML的CDN大數(shù)據(jù)驅(qū)動(dòng)的網(wǎng)絡(luò)規(guī)劃。

7.1 基于深度學(xué)習(xí)的CDN的QoS評估

CDN的QoS評價(jià)模型的目標(biāo)是找出機(jī)器性能測量或網(wǎng)絡(luò)性能數(shù)據(jù)與用戶體驗(yàn)之間的關(guān)系。使用CDN的一個(gè)目的是防止性能受限，以促進(jìn)更有效和更穩(wěn)定的數(shù)據(jù)傳輸[17]。然而，如何將整個(gè)網(wǎng)絡(luò)的性能數(shù)據(jù)用于QoS分析以支持策略制定仍然是一個(gè)難題。從本質(zhì)上講，模型的建立需要整個(gè)網(wǎng)絡(luò)的性能數(shù)據(jù)，包括機(jī)器和網(wǎng)絡(luò)相關(guān)的集合，與機(jī)器相關(guān)的數(shù)據(jù)包括CPU、內(nèi)存和IOWAIT數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)包含測試的下載數(shù)據(jù)(來自整個(gè)HTTP網(wǎng)絡(luò))、測試頻率(如每小時(shí))、測試包大小(如2 M)和數(shù)據(jù)量(如每天203行，404 MB)。響應(yīng)測試數(shù)據(jù)包括測試頻率(如每10 min一次)、測試包大小(如8 B)、數(shù)據(jù)量(如每天1 033行，2.1 GB)。

目前的建模方法大致可以分為基于規(guī)則的方法和數(shù)據(jù)驅(qū)動(dòng)的方法。典型的基于規(guī)則的方法使用數(shù)學(xué)表達(dá)式表示已知變量和未知變量之間的關(guān)系，該方法的優(yōu)點(diǎn)是可解釋性強(qiáng)。然而，該方法的缺點(diǎn)是很難解釋復(fù)雜的關(guān)系，當(dāng)采用基于規(guī)則的建模方法時(shí)，通常無法獲得在線更新。

在數(shù)據(jù)驅(qū)動(dòng)方法中，模型可以被視為一個(gè)“黑盒子”，其中歷史數(shù)據(jù)用來揭示變量之間的關(guān)系，并預(yù)測新的輸入變量。大多數(shù)數(shù)據(jù)驅(qū)動(dòng)的方法都適用于實(shí)時(shí)更新，盡管這些方法大多缺乏可感知性。在數(shù)據(jù)驅(qū)動(dòng)框架中，已經(jīng)實(shí)現(xiàn)了深度學(xué)習(xí)機(jī)制構(gòu)建CDN服務(wù)質(zhì)量評估模型，例如，運(yùn)行基于多層神經(jīng)網(wǎng)絡(luò)的監(jiān)督訓(xùn)練[18]。由于CDN上的業(yè)務(wù)可以看作是一致的時(shí)間序列，因此可以實(shí)現(xiàn)對業(yè)務(wù)質(zhì)量的預(yù)測。在某種程度上，從整個(gè)網(wǎng)絡(luò)收集的實(shí)時(shí)數(shù)據(jù)是一個(gè)高質(zhì)量的訓(xùn)練集，其輸出有望具有足夠指導(dǎo)資源分配的能力。

7.2 基于ML的CDN長期資源規(guī)劃

在CDN業(yè)務(wù)平臺(tái)建設(shè)和擴(kuò)展過程中，一個(gè)可采用的規(guī)劃策略能夠滿足用戶需求和成本效益是研究的一個(gè)關(guān)鍵性問題。在這種情況下，通常不需要實(shí)時(shí)交付，那么離線大數(shù)據(jù)分析解決方案是一個(gè)選擇。其中，可選擇建立一個(gè)工作負(fù)荷利用模型解釋終端用戶的質(zhì)量和CDN的成本之間的關(guān)系。而另一個(gè)解決方案是挖掘大量收集的樣本，以識(shí)別訪問特征、資源需求和使用屬性。從現(xiàn)實(shí)部署的角度出發(fā)，該方案需要考慮接入模型、應(yīng)用條件和QoS保障等實(shí)際特性，以達(dá)到全局優(yōu)化和多數(shù)據(jù)中心CDN的長期規(guī)劃。

8 結(jié) 語

以內(nèi)容分發(fā)網(wǎng)絡(luò)在流媒體中真實(shí)需求為切入點(diǎn)，深入分析ML在CDN的設(shè)計(jì)、調(diào)度、部署和管理部分發(fā)揮的性能。以客戶端體驗(yàn)質(zhì)量和服務(wù)端服務(wù)質(zhì)量為評估準(zhǔn)則，分別剖析了不同的ML工具在CDN優(yōu)化過程中的技術(shù)手段，總結(jié)多種基于預(yù)測的方法提高QoE、多種數(shù)據(jù)驅(qū)動(dòng)的方法優(yōu)化QoS，展示了CDN在提供流媒體服務(wù)中使用ML的發(fā)展?jié)摿Α?/p>

在基于ML的CDN已經(jīng)取得的進(jìn)展和成果之后，進(jìn)一步挖掘該領(lǐng)域所面臨的關(guān)鍵技術(shù)問題和主要難點(diǎn)。將難點(diǎn)劃分為高維到低維特征提取、基于緩存的多服務(wù)器特性收斂兩個(gè)技術(shù)層面，分別刻畫出CDN與ML融合技術(shù)應(yīng)具備關(guān)鍵技術(shù)。以此為基礎(chǔ)，對在QoS評估下的ML改進(jìn)的CDN的發(fā)展趨勢從評估到資源規(guī)劃方面進(jìn)行展望。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡