董文濤,李 卓*,陳 昕
(1.網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室(北京信息科技大學),北京 100101;2.北京信息科技大學計算機學院,北京 100101)
(?通信作者電子郵箱lizhuo@bistu.edu.cn)
根據(jù)Cisco 年度互聯(lián)網(wǎng)報告[1]預(yù)測,到2023 年,5G[2]速度將達到現(xiàn)有平均移動連接速度的13 倍,加之多媒體技術(shù)的高速發(fā)展,短視頻應(yīng)用(如:抖音、快手、火山短視頻等)已成為當今互聯(lián)網(wǎng)上的主流應(yīng)用和占用網(wǎng)絡(luò)帶寬最多的應(yīng)用[3]。據(jù)抖音官方發(fā)布的《2019抖音數(shù)據(jù)報告》[4]顯示,截至2020年1月5日,抖音的日活躍用戶已經(jīng)超過了4 億,因此通過可移動設(shè)備觀看視頻產(chǎn)生的網(wǎng)絡(luò)流量將成為互聯(lián)網(wǎng)流量的主要來源。隨著網(wǎng)絡(luò)基礎(chǔ)設(shè)施的不斷升級,一些具有緩存功能的網(wǎng)絡(luò)架構(gòu)[5]被提出。通過將未來流行度較高的視頻內(nèi)容緩存在移動邊緣計算(Mobile Edge Computing,MEC)服務(wù)器的緩存中,可以有效地減少視頻內(nèi)容訪問時延和從原始內(nèi)容服務(wù)器檢索視頻的次數(shù)[6]。目前主要有兩種內(nèi)容分發(fā)策略[7]:基于拉(Pull)的分發(fā)策略和基于推(Push)的分發(fā)策略。其中基于拉的分發(fā)策略是一種基于用戶需求的、被動的內(nèi)容分發(fā)策略[8]?;谕频姆职l(fā)策略是在用戶對視頻內(nèi)容發(fā)起請求之前,視頻內(nèi)容提供商把用戶群即將請求或者最希望觀看的一部分視頻內(nèi)容提前緩存在MEC 服務(wù)器的緩存中[9]。然而,隨著智能終端的快速普及和短視頻業(yè)務(wù)的飛速發(fā)展,在像抖音、快手等基于主動推薦方式的短視頻應(yīng)用中,基于拉的分發(fā)策略很難滿足不同用戶對短視頻內(nèi)容的個性化需求。在現(xiàn)有的基于推的緩存策略研究中,如何精準地預(yù)測出用戶群即將請求或者最希望觀看到的一部分短視頻內(nèi)容也是一大難點,有待進一步研究。如何將用戶群感興趣的短視頻內(nèi)容提前分發(fā)到MEC 服務(wù)器中,將會影響到用戶群對該類短視頻軟件的使用體驗。
本文主要研究了在邊緣計算的環(huán)境下如何設(shè)計有效的分發(fā)策略將用戶群感興趣的短視頻內(nèi)容提前從源服務(wù)器分發(fā)到MEC 服務(wù)器中。首先,利用聯(lián)邦學習的訓練方式得到一個興趣預(yù)測模型,提出用戶群興趣向量預(yù)測算法,進而由該算法得到用戶群的興趣向量表示;然后,以用戶群的興趣向量作為輸入,提出基于聯(lián)邦學習的組合置信上界(Federated Learning Combinatorial Upper Confidence Bound,F(xiàn)LCUCB)算法,進而使視頻內(nèi)容提供商獲取的長期利潤最大化。實驗結(jié)果表明,本文所提策略獲得的平均利潤相對穩(wěn)定且明顯優(yōu)于單純基于組合置信上界(Combinatorial Upper Confidence Bound,CUCB)算法的短視頻分發(fā)策略。在視頻內(nèi)容提供商獲得的總利潤方面,本文所提策略與置信上界(Upper Confidence Bound,UCB)策略和隨機策略相比,分別提高了12%和30%。
隨著邊緣計算的逐漸成熟,文獻[10-11]考慮了MEC 服務(wù)器的計算能力,因此可以在MEC 服務(wù)器上處理視頻或者執(zhí)行其他相關(guān)計算。近年來深度學習在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了巨大的成就,它能夠達到較高的預(yù)測精度,點亮了連續(xù)數(shù)據(jù)處理,如文本和語音處理的發(fā)展道路[12]。文獻[13-17]研究了如何基于深度學習進行視頻內(nèi)容的流行度預(yù)測。Li等[14]以中國領(lǐng)先的在線視頻服務(wù)提供商優(yōu)酷的數(shù)據(jù)為基礎(chǔ),對如何了解網(wǎng)絡(luò)視頻的人氣特征、預(yù)測單個視頻的未來人氣等問題進行了解決。Liu 等[15]基于軟件定義網(wǎng)絡(luò)(Software-Defined Networking,SDN),提出基于深度學習的內(nèi)容流行度預(yù)測(Deep-Learning-based Content Popularity Prediction,DLCPP)來實現(xiàn)流行度預(yù)測。大量的實驗結(jié)果表明,DLCPP 具有更高的預(yù)測精度。但是以上研究都沒有將其應(yīng)用到短視頻內(nèi)容的預(yù)緩存中。由于在移動端缺乏計算資源和訓練數(shù)據(jù),文獻[18]設(shè)計了一個基于學習的系統(tǒng)結(jié)構(gòu),將訓練數(shù)據(jù)集中到云端后,利用云端的計算資源進行深度學習模型的訓練,在MEC 服務(wù)器上基于該模型預(yù)測的視頻內(nèi)容流行度得分進行視頻內(nèi)容的預(yù)緩存。但將本地數(shù)據(jù)上傳到云端,會帶來隱私數(shù)據(jù)泄露的風險,加之需要上傳的數(shù)據(jù)量巨大,還會造成大量的通信開銷。
文獻[19]利用聯(lián)邦學習,在一個分散的大數(shù)據(jù)集上通過分布式的方式進行模型訓練,基于TensorFlow 在移動設(shè)備領(lǐng)域構(gòu)建了一個可擴展的聯(lián)邦學習生產(chǎn)系統(tǒng)。文獻[20]考慮了從一個分布在多個邊緣節(jié)點的數(shù)據(jù)中學習模型參數(shù)的問題,提出一種在給定資源預(yù)算下,通過控制本地更新和全局參數(shù)聚合的最優(yōu)折中來最小化損失函數(shù)的控制算法。聯(lián)邦學習可以有效地減少模型訓練過程中的開銷和避免隱私數(shù)據(jù)泄露的風險,但目前很少有研究將聯(lián)邦學習應(yīng)用到短視頻內(nèi)容的分發(fā)策略中。文獻[21]充分利用MEC 服務(wù)器的緩存和計算能力,考慮了視頻內(nèi)容多比特率的特性,將問題建模為0-1 優(yōu)化問題,設(shè)計了視頻緩存和處理模型,為視頻內(nèi)容提供商提供最大利潤。由于社交網(wǎng)絡(luò)發(fā)展迅速,導致新的訪問熱點頻現(xiàn),基于主動推薦方式的短視頻應(yīng)用中的視頻內(nèi)容生命周期越來越短,文獻[21]中設(shè)計的視頻緩存和處理模型并不適用于該應(yīng)用場景。
本章中將介紹如何將更符合用戶群興趣的一部分短視頻內(nèi)容提前分發(fā)到MEC 服務(wù)器上。如圖1 所示,在本文介紹的系統(tǒng)中,假設(shè)有三個角色,分別是視頻內(nèi)容提供商、MEC 服務(wù)器和代表用戶群的多個移動設(shè)備。移動設(shè)備通過無線網(wǎng)絡(luò)連接到MEC 服務(wù)器,MEC 服務(wù)器將其緩存中的視頻內(nèi)容主動推送到移動設(shè)備。假設(shè)視頻內(nèi)容提供商主要從廣告費用中獲取利潤,如果視頻內(nèi)容提供商將廣告植入到某些將被點贊、收藏或轉(zhuǎn)發(fā)更多次的視頻內(nèi)容中,它將會獲得更高的利潤。也就是說,視頻內(nèi)容提供商希望他預(yù)緩存在MEC 服務(wù)器中的視頻內(nèi)容將會獲得更多的點贊次數(shù)、收藏次數(shù)或者轉(zhuǎn)發(fā)次數(shù)。因此視頻內(nèi)容提供商需要決定將哪些短視頻內(nèi)容提前緩存在MEC服務(wù)器上來使他獲得的利潤最大化。
圖1 視頻緩存和獲利示意圖Fig.1 Schematic diagram of video caching and profit gain
預(yù)緩存視頻內(nèi)容到MEC 服務(wù)器后,當用戶訪問這些內(nèi)容時,這些內(nèi)容將會被在離用戶較近的MEC 服務(wù)器中獲得,減少骨干網(wǎng)絡(luò)中的網(wǎng)絡(luò)流量,有效降低源服務(wù)器的負載,極大降低用戶的訪問時延,改善用戶的體驗質(zhì)量。在本文中,假設(shè)用戶訪問的短視頻內(nèi)容全部由其所在區(qū)域的MEC 服務(wù)器主動推送,所以不考慮用戶的時延問題。但視頻內(nèi)容提供商獲取的利潤和其推送的內(nèi)容被點贊、收藏或者轉(zhuǎn)發(fā)的次數(shù)成正相關(guān)關(guān)系,因此需要在學習用戶群興趣方向的基礎(chǔ)上,制定合理的分發(fā)決策,使視頻內(nèi)容提供商獲取盡可能多的利潤。
本文假設(shè)該系統(tǒng)中有Z個可移動設(shè)備,即Z個用戶,J種類型的視頻內(nèi)容。定義Zagg={1,2,…,z,…,Z}表示Z個可移動設(shè)備的集合,Jagg={1,2,…,j,…,J}代表有J種類型的視頻類型集合,Kagg={1,2,…,k,…,K}表示所有的視頻內(nèi)容集合。實際運用中,MEC 服務(wù)器的緩存大小是有限的,定義其容量為C,每個短視頻內(nèi)容的大小為κ。以下所有操作都在離散化的時間t=1,2,…,T內(nèi)完成。
對于某一個屬于類型j的短視頻內(nèi)容k,本文用緩存決策變量∈{0,1}表示它在時間t是否被緩存在MEC服務(wù)器上。如果=1表示緩存該類型為j的短視頻內(nèi)容k到MEC服務(wù)器,=0表示該短視頻內(nèi)容不會被緩存在MEC服務(wù)器上,即:
因為在每一個MEC 服務(wù)器中其緩存大小有限的,所以MEC服務(wù)器上緩存的視頻總?cè)萘坎荒艹^C,即:
本文的優(yōu)化目標是使視頻內(nèi)容提供商獲得的利益最大化。對于視頻內(nèi)容提供商來說,本文假設(shè)它的盈利主要來自廣告費用。它所擁有的用戶越多,獲得的利潤相對也就越多。定義每一個用戶對視頻內(nèi)容提供商帶來的基礎(chǔ)利潤為ψ。當用戶對所看到的視頻進行點贊、收藏、轉(zhuǎn)發(fā)操作時,視頻內(nèi)容提供商就能獲得更多的廣告費用。為表述方便,本文將點贊、收藏、轉(zhuǎn)發(fā)等操作統(tǒng)一稱作被用戶認可,并且同一個視頻內(nèi)容k只能被一個用戶認可一次。定義為在時間t類型為j的視頻內(nèi)容k的被認可度:
本文將分發(fā)策略定義為視頻內(nèi)容提供商獲取利潤最大化問題,即在每一個MEC 服務(wù)器覆蓋的范圍內(nèi)視頻內(nèi)容提供商都能獲得最大利潤。假設(shè)每一個用戶所觀看的視頻內(nèi)容都由它所在區(qū)域的MEC 服務(wù)器主動推送,該優(yōu)化問題可以定義如下:
上面的目標函數(shù)用于最大化視頻內(nèi)容提供商獲取的利潤。第一個限制條件表示在MEC 服務(wù)器上緩存的視頻總大小不能超過MEC 服務(wù)器的最大容量;第二個限制條件表示在時間t時類型為j的視頻內(nèi)容k是否緩存在MEC服務(wù)器上。
定理1本文求解的視頻內(nèi)容提供商利益最大化問題是NP-難問題。
證明 本文求解的視頻內(nèi)容提供商利益最大化問題是要將用戶群感興趣的多種類型的短視頻分發(fā)到MEC 服務(wù)器上。如果每種類型的短視頻內(nèi)容所占存儲空間一定,而且其被分發(fā)到MEC 服務(wù)器后視頻內(nèi)容提供商所獲得的利潤總是一定的,此時該優(yōu)化問題就是傳統(tǒng)的0-1 背包問題。因此本文要求解的優(yōu)化問題至少與0-1背包問題一樣難。已知0-1背包問題已經(jīng)被證明為NP-難問題,因此本文求解的問題是NP-難問題。
解決以上優(yōu)化問題還存在如下挑戰(zhàn):1)在日常的實際應(yīng)用中,用戶對某些類型的短視頻興趣度并非是一成不變的,存在著常見的興趣飄移現(xiàn)象,即用戶對某一類型的短視頻的感興趣程度會隨著場景的改變或時間的推移發(fā)生變化。2)由于視頻內(nèi)容提供商服務(wù)的用戶具有移動性的特點,MEC 服務(wù)器所覆蓋范圍內(nèi)的用戶數(shù)量是變化的,這會導致每種類型的短視頻內(nèi)容在不同時間段內(nèi)被瀏覽的次數(shù)是變化的。因此,不能提前準確獲知某一類型的短視頻內(nèi)容被某一MEC 服務(wù)器覆蓋下所有用戶的認可度。為解決這一問題,視頻內(nèi)容提供商需要不斷了解用戶的興趣趨向以及不斷學習用戶對每一類型短視頻的認可程度,從而得到一個最優(yōu)的短視頻內(nèi)容分發(fā)策略,使自己獲取盡可能多的利潤。
在本文中,基于聯(lián)邦學習分析用戶的相冊數(shù)據(jù),得到用戶群的興趣向量后再基于組合多臂老虎機(Combinatorial Multi-Armed Bandit,CMAB)理論解決第3章所提出的問題。
4.1.1 模型選擇
本節(jié)的目標是在移動端獲得一個基于相冊中圖像數(shù)據(jù)的預(yù)測模型,利用該模型預(yù)測移動設(shè)備使用者的興趣向量,深度學習可以有效解決這一問題。考慮到移動設(shè)備的計算資源有限,而MobileNet 模型[22]由于引入了深度可分離卷積技術(shù),其在盡可能保證訓練效果的基礎(chǔ)上極大減小了模型參數(shù)的規(guī)模,因此選擇適合移動設(shè)備端使用的MobileNet 模型作為本文的預(yù)測模型,圖2展示了MobileNet的模型結(jié)構(gòu)。
圖2 MobileNet模型結(jié)構(gòu)Fig.2 MobileNet model structure
4.1.2 使用聯(lián)邦學習訓練模型
雖然適合移動設(shè)備端使用的MobileNet 模型參數(shù)量被極大減少,但是訓練此模型還是需要一定的計算資源,由于移動設(shè)備之間性能不一,對某些移動設(shè)備來說單獨訓練好此模型需要較長的時間。另外如果每個移動設(shè)備都單獨訓練一個完整的模型,這將會造成大量的資源浪費。
如果在MEC 服務(wù)器處訓練此模型:一方面,參與訓練的用戶需要將本地的個人數(shù)據(jù)上傳到MEC 服務(wù)器,這將會造成個人隱私數(shù)據(jù)的泄漏以及有可能違反相關(guān)法規(guī)。另一方面,將移動設(shè)備端大量的本地數(shù)據(jù)上傳到MEC 服務(wù)器,這將會消耗大量的網(wǎng)絡(luò)帶寬,給無線網(wǎng)絡(luò)帶來沉重負擔。
聯(lián)邦學習作為一個機器學習框架,具有以下優(yōu)點:1)各移動設(shè)備端的本地數(shù)據(jù)不需要集中上傳到服務(wù)器,避免了泄漏隱私和違反相關(guān)法律的風險。2)聯(lián)邦學習的建模效果和將所有移動設(shè)備端的本地數(shù)據(jù)集中在一起建模的效果大致相同。3)大量移動設(shè)備相互協(xié)作,聯(lián)合訓練一個共有的模型,避免了計算資源的浪費。因此,如算法1 所示,本文使用聯(lián)邦學習的方式訓練所需的深度學習模型。步驟1)~7)是MEC服務(wù)器和所有移動設(shè)備的初始化階段;步驟9)~11)中MEC服務(wù)器隨機選擇一部分移動設(shè)備加入聯(lián)邦學習的訓練中,被選中的移動設(shè)備從MEC 服務(wù)器中下載MobileNet 模型的參數(shù);步驟12)~19)中移動設(shè)備利用本地數(shù)據(jù)進行模型更新,被更新后的模型參數(shù)再被發(fā)送到MEC服務(wù)器執(zhí)行模型聚合操作。
算法1 基于聯(lián)邦學習的興趣預(yù)測模型訓練算法。
輸入 每輪聚合前移動設(shè)備端的訓練次數(shù)γ0;
輸出 MobileNet的模型參數(shù)θt+1。
在4.1 節(jié)的基于聯(lián)邦學習的興趣預(yù)測模型訓練算法中,參與聯(lián)邦學習的移動設(shè)備都會在本地得到一個訓練好的MobileNet 模型,本文將利用該模型對移動設(shè)備相冊中新加入的無標簽數(shù)據(jù)進行預(yù)測,得到單個用戶z對各類型短視頻內(nèi)容的興趣向量Vz=進而得到該用戶群對各類型短視頻內(nèi)容的興趣向量表示V=[v1,v2,…,vJ],通過用戶群的興趣向量來指導內(nèi)容分發(fā)系統(tǒng)的內(nèi)容分發(fā)策略。算法2 給出了用戶群興趣向量預(yù)測算法,首先每個移動設(shè)備端根據(jù)算法1 得到的興趣預(yù)測模型預(yù)測出單個移動設(shè)備的興趣向量,然后移動設(shè)備將自己的興趣向量上傳至MEC 服務(wù)器,最后在MEC服務(wù)器端計算出該用戶群的興趣向量。
算法2 用戶群興趣向量預(yù)測算法。
輸入 移動設(shè)備端?z個無標簽圖像數(shù)據(jù),可用設(shè)備的個數(shù)z′;
輸出 用戶群對各類視頻內(nèi)容的興趣度向量V=[v1,v2,…,vJ]。
與多臂老虎機(Multi-Armed Bandit,MAB)理論不同,在CMAB 理論中,賭徒進入賭場后,面對一排老虎機,他一次拉動的不是一個臂,而是多個臂組成的集合,將該集合稱作超臂。在MAB 問題中,稱其中的每個臂為基準臂。當賭徒拉動一個超臂以后,超臂所包含的每個基準臂會給賭徒一個反饋,而這個超臂整體也給賭徒帶來某種復合的反饋。拉動超臂之前,賭徒不知道他將獲得怎樣的反饋。
在短視頻分發(fā)問題中,視頻內(nèi)容提供商分發(fā)一部分短視頻內(nèi)容到MEC服務(wù)器之前,由于不知道MEC服務(wù)器所覆蓋用戶群對這一部分短視頻的認可情況,所以不能提前獲知這部分短視頻所能帶來的利潤。為了更精確地了解用戶群的興趣方向,使緩存在MEC 服務(wù)器中的短視頻更容易被該用戶群認可,從而使視頻內(nèi)容提供商獲得更高的利潤,結(jié)合該用戶群的興趣向量,基于UCB 的動作選擇方式[23],設(shè)計了短視頻分發(fā)的FLCUCB算法,給出了接近最優(yōu)的短視頻緩存策略。
本文的目標是從所有的K短視頻中選擇最有可能被該用戶群認可的總大小為C的短視頻內(nèi)容緩存在MEC 服務(wù)器上,從而使視頻內(nèi)容提供商盡可能獲取更多的利潤。用代表在時間t時類型為j的短視頻內(nèi)容緩存到MEC 服務(wù)器的總次數(shù)。本文提出的短視頻緩存策略包括初始化階段、探索階段和利用階段。在初始化階段,緩存策略確保每種類型的短視頻內(nèi)容至少有一個被緩存在MEC 服務(wù)器上。視頻內(nèi)容提供商根據(jù)該MEC 服務(wù)器的獲利反饋進行以下的利用和探索階段。緩存策略將會計算在以往的時間t中每種類型的短視頻在該MEC 服務(wù)器所覆蓋用戶群中的平均獲利。為了能在所有的K個短視頻中選擇總大小為C的一部分短視頻使視頻內(nèi)容提供商獲取盡可能多的利潤,定義了短視頻分發(fā)價值公式:
其中,μ是一個大于0 的數(shù),它控制試探緩存新的類型的短視頻的程度。表示在以往的時間1到t-1中,類型為j的短視頻內(nèi)容在該用戶群中獲得的平均利潤,定義為:
其中,k′表示類型為j的短視頻的個數(shù)。由式(6)可知,如果某種類型j∈Jagg的短視頻內(nèi)容被緩存在MEC 服務(wù)器上的次數(shù)相對較小或者該類型的短視頻內(nèi)容在以往的時間1到t-1中獲取的平均利潤越大、用戶群對該類型的短視頻內(nèi)容的興趣度越高,某個屬于類型j的短視頻內(nèi)容k的緩存價值就相對較大,該短視頻就會被緩存在MEC 服務(wù)器。由此可見,該分發(fā)策略在傾向分發(fā)已知的能使視頻內(nèi)容提供商獲取更多利潤的某些類型短視頻的同時,還會探索緩存其他類型的短視頻內(nèi)容。因此,該策略能在MEC 服務(wù)器緩存總大小為C的最可能被用戶群認可的短視頻,從而獲得更高的認可度使最大化。FLCUCB 算法如算法3 所示,步驟2)~11)是初始化階段,根據(jù)用戶群的興趣向量將每種類型的短視頻內(nèi)容按照不同的比例分發(fā)到MEC 服務(wù)器中,然后計算每種類型的短視頻所獲得的平均利潤。步驟13)~17)計算每種類型短視頻的緩存價值。步驟18)~29)將各類短視頻按照緩存價值由高到低的順序緩存在MEC 服務(wù)器上,緩存價值越高的類別被緩存的比例αj*也就越大。
算法3 FLCUCB算法。
輸入 待緩存的短視頻集合F=?,V=[v1,v2,…,vJ],Kagg={1,2,…,k,…,K},由大到小排列的短視頻緩存比例為[α1,…,,…,αJ];
輸出 待緩存的短視頻集合F。
在仿真實驗中,基于Python 設(shè)計并實現(xiàn)了短視頻分發(fā)模擬器??紤]系統(tǒng)中包括視頻內(nèi)容提供商、MEC 服務(wù)器和代表用戶群的多個移動設(shè)備,MEC 服務(wù)器將它緩存中的短視頻內(nèi)容主動推送給它所覆蓋的所有移動設(shè)備的場景。被推送到移動設(shè)備上的短視頻內(nèi)容獲得的被認可度越高,視頻內(nèi)容提供商就能獲得越高的利潤。假設(shè)有分別屬于20 個不同的類別5 000 個短視頻內(nèi)容,所有短視頻內(nèi)容的大小固定為κ=100 MB,MEC 服務(wù)器的存儲空間C=40 GB,1個MEC 服務(wù)器向它所覆蓋的1 000 臺移動設(shè)備推送短視頻。本文從視頻內(nèi)容提供商獲得的總利潤和每個迭代時間段t獲得的平均利潤兩個方面進行分析,并將本文所提策略(FLCUCB)與最優(yōu)算法、隨機算法和UCB算法進行比較。
圖3 給出了在用戶群興趣趨向不變的情況下四種分發(fā)策略在視頻內(nèi)容提供商獲得的總利潤方面的比較。從圖3 中可以看出:1)在最優(yōu)策略中,因為假設(shè)已經(jīng)知道每種類型的短視頻將會獲得的被認可度,所以該策略能使視頻內(nèi)容提供商獲得最高的利潤。2)在隨機的緩存策略中,該策略隨機地選擇短視頻內(nèi)容并將其緩存到MEC服務(wù)器中,直到達到MEC服務(wù)器緩存的容量上限。因為該策略沒有考慮用戶群的興趣趨向和對每種類型的短視頻區(qū)別緩存,所以在隨機分發(fā)策略下,視頻內(nèi)容提供商獲得的總利潤最少。3)在傳統(tǒng)的UCB 算法中,因為緩存階段只選擇一定比例的分發(fā)價值最高的一類短視頻緩存到MEC 服務(wù)器中,然后隨機地緩存其他類型的短視頻內(nèi)容,直到達到MEC 服務(wù)器緩存的容量上限。所以通過傳統(tǒng)的UCB算法緩存短視頻內(nèi)容使視頻內(nèi)容提供商獲得的總利潤要比隨機策略高,但比FLCUCB 算法獲得的總利潤少。4)FLCUCB算法根據(jù)每種被緩存在MEC服務(wù)器中的視頻獲得的平均利潤和該類型的短視頻被緩存的次數(shù),在同一時間段內(nèi)將多種類型的短視頻內(nèi)容按照不同比例緩存在MEC 服務(wù)器中,所以該策略優(yōu)于傳統(tǒng)的UCB策略和隨機的緩存策略。
圖3 不同分發(fā)策略獲得的總利潤Fig.3 Total profit brought by different distribution strategies
圖4 給出了在用戶群興趣趨向不斷變化的情況下,本文中所提短視頻分發(fā)策略和CUCB 策略在視頻內(nèi)容提供商獲得的平均利潤方面的比較。
圖4 有無聯(lián)邦學習的平均利潤比較Fig.4 Comparison of average profit with and without federated learning
從圖4 中可以看出,加入聯(lián)邦學習后,在大多數(shù)情況下視頻內(nèi)容提供商獲得的平均利潤要高于不加聯(lián)邦學習的情況,這是因為加入聯(lián)邦學習后,系統(tǒng)在執(zhí)行CUCB 算法之前,可以通過由聯(lián)邦學習訓練得到的模型預(yù)測出該用戶群的興趣度向量,CUCB 算法結(jié)合預(yù)測到的用戶群的興趣度向量將短視頻內(nèi)容緩存到MEC 服務(wù)器上。通過對移動設(shè)備上相冊內(nèi)容的分析,使緩存在MEC 服務(wù)器上的短視頻內(nèi)容更加符合用戶群的近期興趣趨向,從而使視頻內(nèi)容提供商獲得更高的平均利潤。
本文對基于邊緣計算的短視頻內(nèi)容分發(fā)問題進行了研究,基于聯(lián)邦學習和組合多臂老虎機理論設(shè)計了短視頻分發(fā)策略,該策略可以根據(jù)不同用戶群對不同類型短視頻興趣的不同,進行差異化的短視頻內(nèi)容分發(fā),使緩存在MEC 服務(wù)器中的視頻內(nèi)容更容易被該區(qū)域中的用戶認可,從而使視頻內(nèi)容提供商獲取的利潤最大化。仿真結(jié)果表明,本文所提策略獲得的平均利潤相對穩(wěn)定且明顯優(yōu)于不加聯(lián)邦學習的短視頻分發(fā)策略;該策略使視頻內(nèi)容提供商在獲取的總利潤方面明顯優(yōu)于現(xiàn)有策略,能較好地適應(yīng)基于主動推薦方式的短視頻應(yīng)用場景。
本文策略有效地卸載了回程鏈路的流量,然而在實際應(yīng)用中,無線端仍然存在大量的流量冗余,其給蜂窩網(wǎng)絡(luò)帶來了沉重的負擔。下一步研究工作的重點是,在短視頻應(yīng)用場景下,設(shè)計有效的策略,以卸載無線端的冗余流量。