国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MSs-MEC中基于DRL的服務(wù)緩存和任務(wù)遷移聯(lián)合優(yōu)化算法

2024-08-17 00:00黃恒杰彭資馀王高才

摘 要:多服務(wù)移動(dòng)邊緣計(jì)算(multiple-services mobile edge computing,MSs-MEC)能根據(jù)需求自適應(yīng)調(diào)整服務(wù)緩存決策,使得部署在用戶側(cè)的邊緣服務(wù)器能夠靈活處理不同服務(wù)類(lèi)型的任務(wù)。但在實(shí)際應(yīng)用中,特定類(lèi)型任務(wù)的成功遷移依賴于服務(wù)環(huán)境的提前安裝。此外,同時(shí)進(jìn)行任務(wù)遷移和服務(wù)緩存可能會(huì)因時(shí)間沖突而導(dǎo)致計(jì)算延時(shí)。因此,針對(duì)上述相關(guān)問(wèn)題,首先將任務(wù)遷移和服務(wù)緩存決策進(jìn)行解耦,針對(duì)深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)在具有高維的混合決策空間的性能提升不明顯的缺點(diǎn)(例如資源分配時(shí)利用率不高),將DRL與Transformer結(jié)合,通過(guò)在歷史數(shù)據(jù)中學(xué)習(xí),輸出當(dāng)前時(shí)隙的任務(wù)遷移決策和下一時(shí)隙的任務(wù)決策,保證任務(wù)到達(dá)邊緣服務(wù)器時(shí)能立即執(zhí)行。其次,為了提高資源分配問(wèn)題中的資源利用率,將問(wèn)題分解為連續(xù)資源分配問(wèn)題和離散的任務(wù)遷移與服務(wù)緩存問(wèn)題,利用凸優(yōu)化技術(shù)求解資源分配最優(yōu)決策。廣泛的數(shù)值結(jié)果表明,與其他基線算法相比,提出的算法能有效地減少任務(wù)的平均完成時(shí)延,同時(shí)在資源利用率和穩(wěn)定性方面也有優(yōu)異的表現(xiàn)。

關(guān)鍵詞:多服務(wù)移動(dòng)邊緣計(jì)算;凸優(yōu)化;服務(wù)緩存;任務(wù)遷移;資源分配算法

中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-034-2165-08

doi: 10.19734/j.issn.1001-3695.2023.10.0538

DRL-based joint optimization algorithm for service caching and task migration in multi-services mobile edge computing

Abstract: MSs-MEC can adaptively adjust service cache decisions according to needs, so that edge servers deploys on the user side can flexibly handle tasks of different service types. However, in practical applications, the successful migration of specific types of tasks depends on the early installation of the service environment. In addition, simultaneous task migration and service caching may result in time conflicts and computation delays. Therefore, in response to the above issues, this paper firstly decoupled task migration and service caching decisions. To address the shortcomings of DRL in high-dimensional mixed decision spaces, where performance improvement was not significant(such as low utilization rate during resource allocation), it combined DRL with Transformer to learn from historical data and output task migration decisions for the current time slot and the next time slot, ensuring that tasks could be executed immediately when they reached the edge server. Secondly, in order to improve resource utilization in resource allocation problems, it decomposed the problem into continuous resource allocation problems and discreted task migration and service caching problems, and used convex optimization technique to solve the optimal decision for resource allocation. Extensive numerical results indicate that the proposed algorithm can effectively reduce the average completion delay of tasks compared to other baseline algorithms, at the same time, it also has excellent performance in resource utilization and stability.

Key words:MSs-MEC; convex optimization; service cache; task migration; resource allocation algorithm

0 引言

當(dāng)前,任務(wù)遷移和資源分配是MEC的主要研究熱點(diǎn)。一方面,任務(wù)遷移能夠解決算力不足的問(wèn)題;另一方面,任務(wù)遷移過(guò)程產(chǎn)生的時(shí)延和能耗以及資源分配方案等對(duì)系統(tǒng)性能有重要影響。更進(jìn)一步,隨著5G技術(shù)在各種應(yīng)用場(chǎng)景中的深入發(fā)展,持續(xù)增加的大量不同服務(wù)類(lèi)型的任務(wù)處理需求給邊緣網(wǎng)絡(luò)帶來(lái)了巨大的壓力[1]。為了充分利用邊緣服務(wù)器(edge ser-ver,ES)的可用資源,提高系統(tǒng)性能,業(yè)界提出了服務(wù)緩存機(jī)制,即在ES中預(yù)先緩存與任務(wù)相關(guān)的代碼或服務(wù),使ES能夠處理對(duì)應(yīng)類(lèi)型的任務(wù)。但是,MEC中的服務(wù)需求和受歡迎程度是隨時(shí)間變化的,一個(gè)確定的服務(wù)緩存決策方案并不總能改善和提高系統(tǒng)性能。同時(shí),任務(wù)遷移和服務(wù)緩存的決定是必須相互耦合的。例如,一個(gè)對(duì)象檢測(cè)應(yīng)用程序需要在處理檢測(cè)任務(wù)之前在ES中安裝相關(guān)的模型。只有通過(guò)緩存常用的服務(wù)并遷移與這些服務(wù)相關(guān)的任務(wù),才能提高系統(tǒng)性能。因此,如何在資源有限的ES中選擇所有服務(wù)類(lèi)型的最佳子集進(jìn)行緩存,并確定具有相同服務(wù)類(lèi)型的任務(wù)是在ES還是在云中心(cloud center,CC)上執(zhí)行,以最大限度地提高整個(gè)系統(tǒng)的性能,是一個(gè)具有重要研究意義的問(wèn)題。

多服務(wù)移動(dòng)邊緣計(jì)算(multiple-services mobile edge computing,MSs-MEC)是一種新型的MEC網(wǎng)絡(luò)環(huán)境,它將MEC和服務(wù)緩存相結(jié)合,能自適應(yīng)地調(diào)整每個(gè)時(shí)隙的服務(wù)緩存決策,使得部署在用戶側(cè)的ES能夠靈活處理屬于不同服務(wù)類(lèi)型的任務(wù),從而為用戶提供更好的服務(wù)質(zhì)量。MSs-MEC已被廣泛應(yīng)用于多種場(chǎng)景,如虛擬現(xiàn)實(shí)、模式識(shí)別和車(chē)聯(lián)網(wǎng)等[2]。

在實(shí)際應(yīng)用中,特定類(lèi)型任務(wù)的成功遷移依賴于服務(wù)環(huán)境的提前安裝。此外,同時(shí)進(jìn)行任務(wù)遷移和服務(wù)緩存可能會(huì)因時(shí)間沖突而導(dǎo)致計(jì)算延時(shí)。因此,針對(duì)上述問(wèn)題,本文考慮一個(gè)支持MSs-MEC的云邊協(xié)同系統(tǒng),用戶根據(jù)自己的偏好動(dòng)態(tài)地生成屬于不同類(lèi)型服務(wù)的獨(dú)立任務(wù),ES必須緩存對(duì)應(yīng)類(lèi)型的服務(wù)才能執(zhí)行此類(lèi)型任務(wù),否則ES會(huì)將該類(lèi)型任務(wù)路由到遠(yuǎn)程CC執(zhí)行。本文主要通過(guò)對(duì)帶寬資源、計(jì)算資源分配以及任務(wù)遷移和緩存決策的聯(lián)合優(yōu)化來(lái)最小化任務(wù)平均完成時(shí)延,最大化支持多服務(wù)移動(dòng)邊緣計(jì)算系統(tǒng)的資源利用率,從而優(yōu)化MEC系統(tǒng)性能。

1 相關(guān)研究工作

MEC的主要目標(biāo)是通過(guò)將所需資源放置在網(wǎng)絡(luò)邊緣,從而緩解云計(jì)算存在的高時(shí)延、低性能缺陷。近年來(lái),國(guó)內(nèi)外學(xué)者針對(duì)該領(lǐng)域相關(guān)課題,如計(jì)算遷移、服務(wù)緩存以及基于深度強(qiáng)化學(xué)習(xí)在該領(lǐng)域的運(yùn)用等方面進(jìn)行了大量的研究工作。

作為MEC領(lǐng)域最重要的部分,計(jì)算遷移使得任務(wù)能夠被遷移到ES上執(zhí)行,從而優(yōu)化性能。例如,文獻(xiàn)[3]研究了云邊協(xié)作車(chē)輛網(wǎng)絡(luò)中計(jì)算遷移和資源分配的聯(lián)合優(yōu)化。文獻(xiàn)[4]提出一個(gè)能量收集時(shí)間、本地計(jì)算頻率、遷移時(shí)間和功率聯(lián)合優(yōu)化模型,以最大限度地提高無(wú)線供電的MEC網(wǎng)絡(luò)的計(jì)算效率??紤]到車(chē)載MEC的動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境,文獻(xiàn)[5]提出一個(gè)多用戶非合作博弈的計(jì)算遷移模型,通過(guò)調(diào)整網(wǎng)絡(luò)中每輛車(chē)的遷移概率,構(gòu)建分布式最佳響應(yīng)算法來(lái)最大化每輛車(chē)的效用。與全部任務(wù)遷移模式相比,部分計(jì)算遷移也是處理計(jì)算密集型或時(shí)延敏感型應(yīng)用的一種有前景策略。例如,文獻(xiàn)[6]在支持MEC的物聯(lián)網(wǎng)中提出一個(gè)合作性的部分計(jì)算遷移方案,其中將云遷移作為備選方案。此外,文獻(xiàn)[7]為MEC中的多用戶開(kāi)發(fā)了一種基于博弈論的部分計(jì)算遷移策略以減少計(jì)算開(kāi)銷(xiāo)。文獻(xiàn)[8]在資源受限的移動(dòng)邊緣計(jì)算模型中考慮資源分配和計(jì)費(fèi)問(wèn)題,并使用一種基于拍賣(mài)的分配機(jī)制來(lái)獲取最優(yōu)解。文獻(xiàn)[9]在多MEC服務(wù)器的物聯(lián)網(wǎng)環(huán)境中,考慮物聯(lián)網(wǎng)系統(tǒng)的能源效率和服務(wù)時(shí)延之間的權(quán)衡,提出了一種基于李雅普諾夫優(yōu)化的在線卸載和資源分配算法,用于生成任務(wù)卸載方案。文獻(xiàn)[10]研究以認(rèn)知無(wú)人機(jī)作為中繼節(jié)點(diǎn)的MEC模型,通過(guò)聯(lián)合優(yōu)化用戶的傳輸功率,制定了以最小化用戶處理時(shí)延為目標(biāo)的優(yōu)化問(wèn)題。為了提高基于區(qū)塊鏈的移動(dòng)邊緣計(jì)算系統(tǒng)中的任務(wù)處理速度和交易吞吐量,F(xiàn)eng等人[11]設(shè)計(jì)一個(gè)基于深度強(qiáng)化學(xué)習(xí)的協(xié)同計(jì)算遷移和資源分配框架,聯(lián)合優(yōu)化遷移決策、功率分配、塊大小和塊間隔。總的來(lái)說(shuō),多數(shù)研究都默認(rèn)ES能處理所有類(lèi)型任務(wù),但實(shí)際中不同用戶生成的任務(wù)類(lèi)型可能不同,而ES的存儲(chǔ)空間有限,并不能將所有的類(lèi)型服務(wù)緩存。因此,在ES資源受限的情況下,如何高效地遷移任務(wù)、優(yōu)化MEC系統(tǒng)性能仍然值得進(jìn)一步研究。

作為MEC的另一個(gè)優(yōu)化主題,服務(wù)緩存是指將所需的應(yīng)用服務(wù)提前存儲(chǔ)在邊緣服務(wù)器中,從而在任務(wù)遷移過(guò)程中為用戶提供更好的服務(wù)體驗(yàn)。例如,文獻(xiàn)[12]提出一種在線算法,其目標(biāo)是確定最佳的服務(wù)緩存集和任務(wù)遷移目的地,以最大限度地提高邊緣計(jì)算性能。為了縮短用戶請(qǐng)求的響應(yīng)時(shí)間,文獻(xiàn)[13]提出一種針對(duì)在線請(qǐng)求服務(wù)場(chǎng)景的分布式云邊緣協(xié)作緩存機(jī)制。文獻(xiàn)[14]為可分割的任務(wù)設(shè)計(jì)智能的聯(lián)合緩存和遷移策略。為了在具有異構(gòu)任務(wù)請(qǐng)求、應(yīng)用數(shù)據(jù)預(yù)存儲(chǔ)和基站協(xié)調(diào)的MEC系統(tǒng)中共同優(yōu)化計(jì)算遷移、服務(wù)緩存和資源分配,文獻(xiàn)[15]提出一種服務(wù)緩存和計(jì)算遷移協(xié)同算法,以最小化平均任務(wù)執(zhí)行時(shí)間。類(lèi)似地,文獻(xiàn)[16]提出一種基于半有限松弛方法和交替優(yōu)化的近似算法,以最小化所有用戶的整體計(jì)算和時(shí)延成本。然而,上述方法很少研究服務(wù)緩存和計(jì)算遷移決策之間的時(shí)間關(guān)系,由于緩存決策是遷移的前提條件,如何協(xié)調(diào)計(jì)算兩個(gè)時(shí)隙之間的緩存和遷移決策是一個(gè)困難且關(guān)鍵的問(wèn)題。

另外,在機(jī)器學(xué)習(xí)發(fā)展的推動(dòng)下,DRL已被廣泛地應(yīng)用于各種領(lǐng)域。因此,采用DRL來(lái)解決MEC中的優(yōu)化問(wèn)題也是很有前景的。例如,文獻(xiàn)[17]提出基于分布式DRL的算法,在不斷變化的多無(wú)人駕駛飛行器MEC環(huán)境中有效地調(diào)整計(jì)算遷移策略。文獻(xiàn)[18]提出基于DRL的在線遷移框架,以優(yōu)化適應(yīng)無(wú)線供電MEC網(wǎng)絡(luò)中的任務(wù)遷移決策和無(wú)線資源分配。文獻(xiàn)[19]提出一種在高動(dòng)態(tài)的車(chē)輛環(huán)境中聯(lián)合確定車(chē)輛間部分計(jì)算遷移目的地和計(jì)算資源分配方案。為了給車(chē)輛提供高質(zhì)量、低時(shí)延、低比特率差異的直播服務(wù),文獻(xiàn)[20]利用軟演員批判DRL算法進(jìn)行車(chē)輛調(diào)度、比特率選擇、計(jì)算和頻譜資源分配的聯(lián)合優(yōu)化。此外,文獻(xiàn)[21]提出一種基于DRL、Transformer和模型的優(yōu)化整合方案,以解決端到端傳輸問(wèn)題,并聯(lián)合進(jìn)行連續(xù)功率分配和離散比特率適應(yīng)。文獻(xiàn)[22]對(duì)比了傳統(tǒng)的Q學(xué)習(xí)和深度Q網(wǎng)絡(luò)(deep Q network,DQN)算法在求解任務(wù)卸載調(diào)度問(wèn)題上的性能差異。然而此類(lèi)方案沒(méi)有考慮分布式架構(gòu),降低了魯棒性的同時(shí)增大了訓(xùn)練難度。盡管上述工作表明,DRL算法是處理MEC中動(dòng)態(tài)決策問(wèn)題的有效方法,但在提高資源利用率方面卻略顯不足。

總的來(lái)說(shuō),具有服務(wù)緩存的任務(wù)遷移問(wèn)題在相關(guān)文獻(xiàn)中得到了廣泛的研究,但是大多是基于傳統(tǒng)優(yōu)化方法來(lái)提出解決方案,沒(méi)有考慮到遷移任務(wù)生成的動(dòng)態(tài)性,也不能從系統(tǒng)角度對(duì)MEC進(jìn)行優(yōu)化。文獻(xiàn)[23]提出一種基于軟演員-評(píng)論家(soft actor-critic,SAC)的深度強(qiáng)化學(xué)習(xí)算法來(lái)同時(shí)確定服務(wù)緩存和任務(wù)卸載的離散決策以及上下帶寬和計(jì)算資源的連續(xù)分配決策。在此基礎(chǔ)上,本文將任務(wù)遷移和服務(wù)緩存決策進(jìn)行解耦,針對(duì)DRL在具有高維的混合決策空間的資源分配時(shí)利用率不高的缺點(diǎn),將DRL與Transformer結(jié)合,通過(guò)在歷史數(shù)據(jù)中學(xué)習(xí),輸出當(dāng)前時(shí)隙的任務(wù)遷移決策和下一時(shí)隙的任務(wù)決策,保證任務(wù)到達(dá)邊緣服務(wù)器時(shí)能立即執(zhí)行。其次,為了提高資源分配問(wèn)題中的資源利用率,將問(wèn)題分解為連續(xù)資源分配問(wèn)題和離散的任務(wù)遷移與服務(wù)緩存問(wèn)題,利用凸優(yōu)化技術(shù)求解資源分配最優(yōu)決策。因此,本文通過(guò)對(duì)帶寬資源、計(jì)算資源分配以及任務(wù)遷移和緩存決策進(jìn)行聯(lián)合優(yōu)化來(lái)最小化任務(wù)平均完成時(shí)延,最大化支持多服務(wù)移動(dòng)邊緣計(jì)算系統(tǒng)的資源利用率,從而優(yōu)化MEC系統(tǒng)性能。

2 系統(tǒng)模型及問(wèn)題定義

ES中計(jì)算遷移的時(shí)間軸如圖2所示。由于ES的存儲(chǔ)和計(jì)算能力有限,CC被視為協(xié)作遷移目的地,從而確保成功執(zhí)行任務(wù)。

由于ES的存儲(chǔ)和計(jì)算能力不足,只能在ES上緩存服務(wù)的某個(gè)子集,所以必須根據(jù)不斷變化的環(huán)境決定服務(wù)緩存決策。令二進(jìn)制決策aj(t)∈{0,1}表示服務(wù)j的緩存決定,aj(t)=1表示緩存服務(wù)j到ES中,否則aj(t)=0。在時(shí)隙t中,假設(shè)ES的總緩存空間為R,安裝服務(wù)j所占用的空間是rj,則存儲(chǔ)容量需要滿足約束:

2.1 傳輸模型

由于用戶設(shè)備計(jì)算存儲(chǔ)能力欠缺,任務(wù)必須先被傳輸?shù)紼S或CC才能被執(zhí)行。所以,任務(wù)Qj(t)在每個(gè)時(shí)隙獲得的帶寬大小對(duì)其傳輸時(shí)延有重要影響。用bUij(t)、bDij(t)分別表示當(dāng)xij(t)=1時(shí)用戶被分配到的用于上傳數(shù)據(jù)與下載結(jié)果的帶寬大小。同理,bUj(t)、bDj(t)分別表示分配給任務(wù)Qj(t)的上傳數(shù)據(jù)與下載結(jié)果的帶寬大小。則bUij(t)、bDij(t)與bUj(t)、bDj(t)的關(guān)系可分別表示為

令TUj(t)和TDj(t)分別表示任務(wù)Qj(t)在無(wú)線信道上傳輸入數(shù)據(jù)和下載處理結(jié)果的時(shí)間成本。為了簡(jiǎn)單起見(jiàn),忽略任務(wù)到達(dá)的排隊(duì)時(shí)延,并假設(shè)每個(gè)用戶設(shè)備根據(jù)自己的信道條件向ES傳輸任務(wù),所以,任務(wù)上傳和結(jié)果下載的時(shí)延分別表示為

其中:ηi(t)是用戶i的無(wú)線頻譜效率,用log2(1+phi(t)/σ2)表示,p是用戶設(shè)備的發(fā)射功率,hi(t)是用戶i在時(shí)隙t的無(wú)線通道增益,可近似為128.1+37.6lg d,而σ2是無(wú)線信道的噪聲功率。令BU和BD分別表示系統(tǒng)中總上傳和下載的帶寬容量,因此,帶寬分配需滿足以下約束條件:

為了確保用戶任務(wù)成功執(zhí)行,將CC作為遷移協(xié)助目的地。當(dāng)CC被選為遷移目的地時(shí),任務(wù)首先通過(guò)無(wú)線通道傳輸?shù)紼S,然后通過(guò)大容量的有線連接轉(zhuǎn)發(fā)到CC。因此,從ES到CC的傳輸速度可被認(rèn)為是一個(gè)恒定值。假設(shè)ES和CC之間的上行傳輸速率等于ES和CC之間的下行傳輸速率,兩者都用bec表示。任務(wù)Qj(t)從ES到CC的上傳和下載時(shí)間可表示為T(mén)uecj(t)和Tdecj(t),則分別描述為

令oj(t)∈{0,1}代表二元遷移決策,表示任務(wù)Qj(t)在ES(oj(t)=1)或CC(oj(t)=0)中執(zhí)行。由于服務(wù)緩存是ES中任務(wù)執(zhí)行的先決條件,服務(wù)緩存決策需要在遷移決策執(zhí)行之前決定,所以系統(tǒng)需要滿足約束條件:

oj(t)≤aj(t-1)(9)

2.2 計(jì)算模型

當(dāng)任務(wù)被遷移到ES執(zhí)行時(shí),用fej(t)表示分配給任務(wù)Qj(t)的計(jì)算資源,因此,Qj(t)的處理時(shí)間可寫(xiě)成Tej(t):

由于ES的計(jì)算資源有限,在時(shí)隙t中分配給任務(wù)的計(jì)算資源之和不能超過(guò)ES的總計(jì)算能力。令fE代表ES的總計(jì)算能力,則分配給任務(wù)Qj(t)的計(jì)算資源遵循以下約束條件:

當(dāng)CC被選為遷移目的地時(shí),CC的計(jì)算能力足夠并假定其計(jì)算速率為一常數(shù)值,用fc表示。假設(shè)CC有能力處理所有服務(wù)類(lèi)型的任務(wù),因此由CC執(zhí)行的任務(wù)Qj(t)的時(shí)間消耗可用Tcj(t)表示,并通過(guò)式(12)計(jì)算。

2.3 問(wèn)題定義

本文的優(yōu)化目標(biāo)是在一段時(shí)間內(nèi)最小化任務(wù)平均完成時(shí)延,同時(shí)最大化支持多服務(wù)移動(dòng)邊緣計(jì)算系統(tǒng)的資源利用率。當(dāng)服務(wù)j的任務(wù)由ES處理時(shí),其處理時(shí)延dej(t)表示為

dej(t)=TUj(t)+TDj(t)+Tej(t)(13)

另一方面,當(dāng)服務(wù)j的任務(wù)被遷移到CC執(zhí)行時(shí),其處理時(shí)延用dcj(t)表示,并描述為

dcj(t)=TUj(t)+TDj(t)+Tcj(t)+Tuecj(t)+Tdecj(t)(14)

在每個(gè)時(shí)隙,代理需要確定屬于不同服務(wù)類(lèi)型任務(wù)的bUj(t)、bDj(t)、aj(t)、oj(t)和fej(t),從而獲得最小平均時(shí)延。對(duì)于時(shí)隙t,系統(tǒng)任務(wù)的完成時(shí)延用d(t)表示,并定義為

因此,將系統(tǒng)中要優(yōu)化的目標(biāo)轉(zhuǎn)換為T(mén)個(gè)時(shí)隙范圍內(nèi)的優(yōu)化問(wèn)題。為了便于表示,服務(wù)緩存和計(jì)算遷移決策以及t時(shí)隙的資源分配決策定義為ao(t)={a(t+1),o(t)}和re(t)={bU(t),bD(t),fe(t)},則上述優(yōu)化問(wèn)題表示為

其中:bU(t)=[bU1(t),…,bUK(t)],bD(t)=[bD1(t),…,bDK(t)],a(t)=[a1(t),…,aK(t)],o(t)=[o1(t),…,oK(t)],fe(t)=[fe1(t),…,fek(t)]。C1約束中的式(3)表示緩存服務(wù)所占用的總存儲(chǔ)空間不能超過(guò)ES的最大緩存容量;式(7)表示在每個(gè)時(shí)隙分配給每個(gè)服務(wù)的上行和下行帶寬不能超過(guò)系統(tǒng)的總可用帶寬;式(9)表示,當(dāng)相應(yīng)的服務(wù)沒(méi)有在ES中緩存時(shí),任務(wù)不能被遷移到ES;式(11)表示分配的計(jì)算速率之和不能超過(guò)ES擁有的可分配計(jì)算資源。C2表示系統(tǒng)應(yīng)該為每個(gè)任務(wù)分配所需的資源進(jìn)行傳輸和執(zhí)行。C3表示服務(wù)緩存和計(jì)算遷移決策是二元決策。由于問(wèn)題P1是一個(gè)在有限時(shí)隙T下具有大規(guī)模狀態(tài)和行動(dòng)空間的動(dòng)態(tài)編程問(wèn)題,所以本文在下列的求解過(guò)程中,首先將其轉(zhuǎn)換為馬爾可夫決策過(guò)程(Markov decision process,MDP),隨后再將MDP問(wèn)題分解為兩個(gè)階段的子問(wèn)題,最后提出一種結(jié)合DRL、Transformer和凸優(yōu)化的智能算法來(lái)分別求解上述問(wèn)題。

3 問(wèn)題求解

3.1 馬爾可夫決策過(guò)程

從上述討論看出,包含離散的0-1決策變量的優(yōu)化問(wèn)題P1是一個(gè)非凸問(wèn)題,因此傳統(tǒng)的凸優(yōu)化解決方法不適合該問(wèn)題。為了實(shí)現(xiàn)本文的目標(biāo),將優(yōu)化問(wèn)題P1建模為MDP五元組{S,A,R,P,γ}。具體來(lái)說(shuō),所考慮的MDP描述如下:在時(shí)隙t的開(kāi)始,系統(tǒng)根據(jù)過(guò)去和現(xiàn)在的狀態(tài)(例如,任務(wù)的輸入或輸出大小,服務(wù)的計(jì)算要求和以前的服務(wù)緩存決策)收集相關(guān)參數(shù),形成st∈S,然后根據(jù)st從動(dòng)作集A中選擇一個(gè)可用的動(dòng)作at執(zhí)行,系統(tǒng)狀態(tài)根據(jù)給定的狀態(tài)轉(zhuǎn)換概率P更新為st+1并獲得獎(jiǎng)勵(lì)rt∈R。在下文中將詳細(xì)介紹MDP的要素。

a)狀態(tài)空間:系統(tǒng)在時(shí)隙t的狀態(tài)表示為st=[w(t),zU(t),zD(t),n(t),a(t-1)],其中w(t)=[w1(t),…,wK(t)],zU(t)=[zU1(t),…,zUK(t)],zD(t)=[zD1(t),…,zDK(t)]分別為每種服務(wù)類(lèi)型的任務(wù)的計(jì)算需求、輸入數(shù)據(jù)大小以及處理結(jié)果,而n(t)=[n1(t),…,nK(t)],其中nj(t)=|i|xij(t)=1,i∈N|是對(duì)服務(wù)j的訪問(wèn)數(shù),a(t-1)=[a1(t-1),…,aK(t-1)]表示每個(gè)服務(wù)在t-1的時(shí)隙中的緩存決定。

b)動(dòng)作空間:根據(jù)狀態(tài)st,系統(tǒng)不僅需要決定服務(wù)緩存和計(jì)算遷移決策,還需要決定資源分配決策,包括帶寬和CPU頻率。因此,t時(shí)隙中的動(dòng)作描述為at=[a(t),o(t),bU(t),bD(t),fe(t)]。其中,a(t)=[a1(t),…,aj(t),…,aK(t)]是預(yù)測(cè)時(shí)隙t+1的服務(wù)緩存決策,而o(t)、bU(t)、bD(t)、fe(t)分別是時(shí)隙t中各服務(wù)的遷移決策、上行帶寬分配、下行帶寬分配和CPU頻率分配的決策。

c)狀態(tài)轉(zhuǎn)移概率:對(duì)st的敏銳觀察說(shuō)明,服務(wù)緩存決策a(t)直接由行動(dòng)at-1給出,而狀態(tài)st+1與st獨(dú)立。因此,狀態(tài)轉(zhuǎn)換概率表示為

P(st+1|st,at)=P(w(t+1),zU(t+1),zD(t+1),nj(t+1),

a(t+1)|at)=P(w(t+1),zU(t+1),zD(t+1),nj(t+1))(16)

其中:w(t+1)、zU(t+1)、zD(t+1)和nj(t+1)是與遷移和緩存決策獨(dú)立的隨機(jī)過(guò)程。

d)獎(jiǎng)勵(lì)函數(shù):獎(jiǎng)勵(lì)是代理在遇到st執(zhí)行at后環(huán)境反饋給代理的一個(gè)即時(shí)標(biāo)量信號(hào),它幫助代理改進(jìn)其策略。為了最小化任務(wù)完成時(shí)延同時(shí)最大化有限時(shí)隙內(nèi)的資源利用率,將獎(jiǎng)勵(lì)函數(shù)與優(yōu)化目標(biāo)相結(jié)合,并將其表述為任務(wù)時(shí)延的負(fù)值與時(shí)隙t的資源利用率之差,即

rt=-d(t)+ω[eupt+edownt+ecput](17)

其中:eupt、edownt和ecput是時(shí)隙t中上行帶寬、下行帶寬和CPU頻率的利用率,ω表示資源利用率重要性的權(quán)重系數(shù)。

e)折扣因子γ:DRL算法通過(guò)政策評(píng)估和政策迭代來(lái)學(xué)習(xí)一個(gè)最優(yōu)策略。根據(jù)貝爾曼最優(yōu)方程,最優(yōu)策略可描述為

其中:γ∈(0,1)是折扣因子,表示即時(shí)回報(bào)和未來(lái)回報(bào)之間的相對(duì)重要性。

3.2 問(wèn)題分解

從以上定義可知原始優(yōu)化問(wèn)題P1因其約束條件包含整數(shù)離散變量是一個(gè)非凸問(wèn)題。此外,P1中的緩存和遷移決策是時(shí)間上的耦合,這使得傳統(tǒng)的啟發(fā)式方法(如凸放松)不適用。以神經(jīng)網(wǎng)絡(luò)為函數(shù)近似器的深度強(qiáng)化學(xué)習(xí)的出現(xiàn),為處理非凸優(yōu)化問(wèn)題提供了新的解決方案。然而,對(duì)P1應(yīng)用傳統(tǒng)的DRL算法可能會(huì)受到維度詛咒的影響,并且由于高維行動(dòng)空間而導(dǎo)致收斂速度緩慢。為了解決上述問(wèn)題,將P1分解為兩個(gè)階段的子問(wèn)題(例如DRL子問(wèn)題和凸優(yōu)化子問(wèn)題)。DRL子問(wèn)題旨在學(xué)習(xí)最優(yōu)策略,以確定服務(wù)緩存和計(jì)算遷移決策,而凸優(yōu)化子問(wèn)題則通過(guò)凸優(yōu)化器(如內(nèi)點(diǎn)優(yōu)化器)解決資源分配問(wèn)題。

3.2.1 凸優(yōu)化子問(wèn)題

首先,在確定了緩存和遷移決策的前提條件下,將資源分配問(wèn)題從P1分解出來(lái)。特別是,給定離散決策ao(t),在每個(gè)時(shí)隙t的非凸問(wèn)題P1可重寫(xiě)為

由于帶寬和頻率分配是相互獨(dú)立的,將上傳帶寬分配問(wèn)題從P2中分離出來(lái),并將其表述為

引入拉格朗日乘子λ1來(lái)獲得P4的拉格朗日函數(shù):

隨后得到了P4的KKT條件:

3.2.2 強(qiáng)化學(xué)習(xí)子問(wèn)題

每個(gè)時(shí)隙的服務(wù)緩存和遷移決策決定了任務(wù)將被送到哪里執(zhí)行,這對(duì)長(zhǎng)期的任務(wù)完成時(shí)延有很大影響。為此,本文引用了基于DRL的方法來(lái)尋找最佳遷移策略。根據(jù)貝爾曼方程,P1在時(shí)隙t的狀態(tài)值函數(shù)Qπ寫(xiě)成:

此外,從上面的討論中得出在st采取at行動(dòng)時(shí),在時(shí)間段t的即時(shí)獎(jiǎng)勵(lì)為

rt(st,ao(t)|re*(t))=-d(t)+ω[eupt+edownt+ecput](24)

其中:re*(t)=[bU(t),bD(t),fe(t)]是問(wèn)題P2的最優(yōu)解。因此,解決DRL子問(wèn)題等同于計(jì)算最佳離散的服務(wù)緩存和遷移決策,即P5。

基于DRL的巨大進(jìn)步,本文提出了一種基于DRL的算法,結(jié)合Transformer在處理時(shí)間序列數(shù)據(jù)方面的優(yōu)勢(shì),學(xué)習(xí)一種策略,決定在P5中最佳的服務(wù)緩存和遷移決策ao(t)。

4 SACTC算法設(shè)計(jì)

本章提出了一種基于DRL的算法來(lái)解決上述問(wèn)題,該算法從歷史經(jīng)驗(yàn)中學(xué)習(xí),并在不知道未來(lái)信息的情況下作出決策。算法是基于筆者在文獻(xiàn)[24]提出的SAC的DRL算法,其目的是使熵最大化以確保穩(wěn)定性和探索性。此外,為了對(duì)時(shí)間序列數(shù)據(jù)的關(guān)系進(jìn)行建模,并對(duì)未來(lái)的行動(dòng)進(jìn)行準(zhǔn)確的預(yù)測(cè),該算法嵌入了Transformer這一創(chuàng)新技術(shù)?;赟AC、Transformer以及凸優(yōu)化的服務(wù)緩存、遷移以及資源分配的算法(SACTC)的框架如圖3所示。

4.1 基于最大化熵強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)代理的主要目標(biāo)是學(xué)習(xí)一個(gè)策略π,使得累積預(yù)期獎(jiǎng)勵(lì)最大化。然而,與大多數(shù)現(xiàn)有的強(qiáng)化學(xué)習(xí)算法不同的是,本文在SAC算法的目標(biāo)中多加入了一個(gè)熵項(xiàng)H(π(a|s))=-log(π(a|s)),表示策略π的隨機(jī)性,這使代理能夠獲得更好的探索和更強(qiáng)的魯棒性。因此,在SAC中,具有預(yù)期熵的軟目標(biāo)被寫(xiě)成:

其中:γ∈(0,1)是折扣因子,表示未來(lái)獎(jiǎng)勵(lì)的重要性;α∈(0,1)是溫度系數(shù),表示熵和獎(jiǎng)勵(lì)在目標(biāo)中的相對(duì)重要性。鑒于初始狀態(tài)s0和行動(dòng)a0,軟Q函數(shù)可表示為

與其他基于Actor-Critic的算法類(lèi)似,SAC算法通過(guò)在策略評(píng)估(計(jì)算當(dāng)前政策的價(jià)值)和策略改進(jìn)之間交替進(jìn)行,選擇在熵目標(biāo)最大化的方向上使Q值最大化的最佳策略。

4.2 狀態(tài)預(yù)處理

與以往在服務(wù)緩存領(lǐng)域的研究不同,本文構(gòu)建一個(gè)更實(shí)用的模型,即服務(wù)緩存決策在時(shí)隙t-1結(jié)束時(shí)進(jìn)行,這使得時(shí)隙t的計(jì)算遷移決策能夠立即執(zhí)行,而無(wú)須等待。為此,將過(guò)去C時(shí)間段的狀態(tài)結(jié)合起來(lái),以獲得系統(tǒng)狀態(tài)動(dòng)量,這使得DRL代理能夠?qū)Ψ?wù)緩存決策進(jìn)行準(zhǔn)確預(yù)測(cè)。因此,輸入神經(jīng)網(wǎng)絡(luò)的狀態(tài)描述為

sh=(st,…,s(t-C+1))(27)

如果狀態(tài)歷史長(zhǎng)度C較長(zhǎng),代理人可作出更好的決定。另一方面,較大的C會(huì)產(chǎn)生一個(gè)大的狀態(tài)空間,減緩算法的學(xué)習(xí)速度。為了在性能和簡(jiǎn)單性之間平衡,本文設(shè)定C=3。

4.3 Transformer模塊

本文沒(méi)有使用傳統(tǒng)的或循環(huán)的神經(jīng)網(wǎng)絡(luò),而是利用Transformer的優(yōu)勢(shì)來(lái)計(jì)算不同時(shí)間段的依賴關(guān)系。Transformer包括編碼器和解碼器。編碼器由兩個(gè)子層組成,包括一個(gè)多頭自注意機(jī)制和一個(gè)基于位置全連接的前饋網(wǎng)絡(luò),用于對(duì)輸入狀態(tài)進(jìn)行編碼,給它們分配代表應(yīng)該注意的程度的權(quán)重,而解碼器通常用于生成預(yù)測(cè)結(jié)果。如圖4所示,本文的目標(biāo)是利用Transformer的編碼器模塊來(lái)解決以下兩個(gè)挑戰(zhàn)。一方面,系統(tǒng)中每種類(lèi)型的服務(wù)被訪問(wèn)的概率不一樣,這里的目標(biāo)是將當(dāng)前時(shí)隙附近的狀態(tài)的時(shí)間數(shù)據(jù)進(jìn)行組合,然后將它們輸入到Transformer中,對(duì)系統(tǒng)狀態(tài)的趨勢(shì)進(jìn)行描述,從而對(duì)下一個(gè)時(shí)隙的服務(wù)緩存決策進(jìn)行預(yù)測(cè);另一方面,狀態(tài)內(nèi)的特征由不同類(lèi)型的數(shù)據(jù)組成(如離散特征nj(t)和連續(xù)特征w(t)),Transformer的編碼器用來(lái)構(gòu)建狀態(tài)內(nèi)特征之間的多重依賴關(guān)系。具體來(lái)說(shuō),如圖4所示,包含歷史信息的狀態(tài)首先被送入歸一化模塊,將每個(gè)特征轉(zhuǎn)換為無(wú)量綱的純值,然后歸一化的輸出將被傳遞給編碼器,最后通過(guò)多頭自我關(guān)注機(jī)制計(jì)算輸入序列的權(quán)重。

4.4 Critic模塊

如圖5所示,Critic模塊將Transformer模塊的狀態(tài)輸出和線性層的動(dòng)作輸出作為輸入,并估計(jì)狀態(tài)-動(dòng)作對(duì)的Q(s,a)值。為了能夠在連續(xù)和高維的動(dòng)作空間中估計(jì)狀態(tài)-動(dòng)作值,具體來(lái)說(shuō),SAC通過(guò)使用參數(shù)為w的神經(jīng)網(wǎng)絡(luò)來(lái)近似Q(s,a),即Q(s,a)≈Qw(s,a)。與大多數(shù)基于數(shù)值的DRL算法類(lèi)似,Qw(s,a)的參數(shù)w通過(guò)最小化均方誤差損失函數(shù)進(jìn)行更新。

4.5 Actor模塊

Actor模塊負(fù)責(zé)將一個(gè)狀態(tài)映射到一個(gè)最佳決策。由于SACTC算法的輸出決策不僅包括離散的服務(wù)緩存和遷移決策,還包括連續(xù)的資源分配決策,所以SACTC算法的Actor模塊由DRL sub-actor和凸優(yōu)化sub-actor兩個(gè)子Actor組成。

如圖6所示,DRL sub-actor首先將包含過(guò)去和當(dāng)前信息的原始狀態(tài)傳遞給狀態(tài)預(yù)處理和Transformer模塊,以對(duì)歷史信息進(jìn)行編碼。隨后再將扁平化的狀態(tài)輸入兩層全連接網(wǎng)絡(luò)后,輸出服務(wù)緩存和計(jì)算遷移決策。策略網(wǎng)絡(luò)π的參數(shù)用θ表示,并通過(guò)最小化Kullback-Leibler散度來(lái)找到一個(gè)滿足Qπnew(st,at)≥Qπold(st,at)的新策略。因此,策略π的損失函數(shù)定義為

類(lèi)似地,凸優(yōu)化子行為以當(dāng)前狀態(tài)和遷移決策為輸入,通過(guò)采用凸優(yōu)化器解決(P3),返回最優(yōu)資源分配決策,如上行、下行帶寬和CPU頻率分配決策。算法的細(xì)節(jié)顯示在算法1中。

算法1 SACTC算法

4.6 算法復(fù)雜度分析

5 仿真實(shí)驗(yàn)及分析

本章通過(guò)設(shè)置仿真參數(shù),在不同的環(huán)境下將本文算法與基線算法進(jìn)行比較,以驗(yàn)證SACTC算法的收斂性能和有效性。實(shí)驗(yàn)環(huán)境是在Intel酷睿i7處理器、NVIDIA GeForce RTX3060筆記本GPU和16 GB內(nèi)存電腦上實(shí)現(xiàn)的。

5.1 實(shí)驗(yàn)參數(shù)設(shè)置

為了模擬真實(shí)環(huán)境,假設(shè)在一個(gè)支持MSs-MEC的系統(tǒng)中有N=40個(gè)用戶、一個(gè)ES和一個(gè)CC。特別地,CC作為ES的輔助,當(dāng)任務(wù)的服務(wù)沒(méi)有緩存在ES中時(shí),它確保任務(wù)成功執(zhí)行。ES的存儲(chǔ)容量為R=300 GB,計(jì)算能力為31 GHz。假設(shè)系統(tǒng)中用戶的服務(wù)類(lèi)型需求共有K=10種,安裝服務(wù)的空間需求遵循U[40,80]G的均勻分布,不同服務(wù)在每個(gè)時(shí)隙的訪問(wèn)概率服從Zipf法則。每個(gè)用戶任務(wù)到達(dá)服從泊松分布,到達(dá)率為λ∈[8,12,18,24] Mb。為簡(jiǎn)單起見(jiàn),假設(shè)每個(gè)任務(wù)的計(jì)算需求是任務(wù)輸入數(shù)據(jù)大小的比率,即330 cyles/Byte。此外,移動(dòng)設(shè)備到ES的距離服從U[80,300]m的均勻分布,系統(tǒng)中的總上傳帶寬和下載帶寬為BU=BD=20 MHz。無(wú)線網(wǎng)絡(luò)的上行和下行頻譜效率為ηui=ηdi=3 bit/s/Hz。對(duì)于SACTC算法,它共包含5個(gè)網(wǎng)絡(luò)(1個(gè)Actor網(wǎng)絡(luò)和4個(gè)Crtic網(wǎng)絡(luò)),其中兩個(gè)網(wǎng)絡(luò)用于計(jì)算Q值,目的是減少動(dòng)作值的過(guò)度估計(jì),而其他網(wǎng)絡(luò)則負(fù)責(zé)計(jì)算目標(biāo)Q值。每個(gè)神經(jīng)網(wǎng)絡(luò)包含4層(輸入層、輸出層和2個(gè)隱藏層),隱藏層的神經(jīng)元數(shù)量為512。詳細(xì)參數(shù)如表1所示。

將本文SACTC算法與以下四種基線算法進(jìn)行比較,以評(píng)估其在不同角度的性能。

a)cloud-only方案。系統(tǒng)中用戶產(chǎn)生的任務(wù)全部轉(zhuǎn)發(fā)給CC執(zhí)行。在這個(gè)方案中,上行鏈路和下行鏈路的資源由一個(gè)凸優(yōu)化器來(lái)分配。

b)隨機(jī)方案。在這個(gè)方案中,服務(wù)緩存和任務(wù)遷移決定是隨機(jī)決定的,而上行鏈路、下行鏈路和CPU頻率資源是由凸優(yōu)化器進(jìn)行分配。

c)帶整合SAC與Transformer的方案(SACT)。在這個(gè)方案中,不僅離散的服務(wù)緩存和任務(wù)遷移決策,而且連續(xù)的資源分配決策也是由SAC算法與Transformer模塊結(jié)合決定。

d)SAC方案(SAC-WT)。在這個(gè)方案中,所有的決策都只由SAC深度強(qiáng)化學(xué)習(xí)算法決定,其中Actor和Crtic模塊都是由全連接網(wǎng)絡(luò)組成。

5.2 收斂性分析

如圖7所示,與其他基于DRL的算法相比,SACTC實(shí)現(xiàn)了最高的資源利用率、最低的任務(wù)時(shí)延和最穩(wěn)定的訓(xùn)練過(guò)程。其原因如下:首先,通過(guò)將原優(yōu)化問(wèn)題分解為強(qiáng)化學(xué)習(xí)子問(wèn)題和凸優(yōu)化子問(wèn)題,既降低了問(wèn)題的復(fù)雜性,又減少了DRL策略在高維動(dòng)作空間和多重約束帶來(lái)的不穩(wěn)定和難以收斂的負(fù)面影響;同時(shí)在凸優(yōu)化技術(shù)的幫助下大大提高了系統(tǒng)資源的利用率;其次,使用Transformer來(lái)學(xué)習(xí)不同時(shí)隙的緩存和遷移決策之間的關(guān)聯(lián)性,提高了算法的魯棒性,加速了算法的收斂速度。

具體來(lái)說(shuō),從圖7(a)~(e)可以看出,基于全連接神經(jīng)網(wǎng)絡(luò)的SAC-WT算法很難找到改善系統(tǒng)性能的任務(wù)遷移、服務(wù)緩存和資源分配決策,而基于Transformer的SACT算法顯示出明顯的性能改善,然而,過(guò)多的動(dòng)作空間使得算法訓(xùn)練過(guò)程不穩(wěn)定。此外,圖7(f)還給出了Adam優(yōu)化器的不同學(xué)習(xí)率對(duì)SACTC算法收斂和穩(wěn)定性的影響。可觀察到,當(dāng)學(xué)習(xí)率設(shè)置為3×10-4時(shí),SACTC算法需要大約500次能達(dá)到收斂狀態(tài),而當(dāng)學(xué)習(xí)率設(shè)置為其他值時(shí),算法的訓(xùn)練過(guò)程變得不穩(wěn)定或者無(wú)法收斂到最優(yōu)狀態(tài)。這是因?yàn)閷W(xué)習(xí)率是神經(jīng)網(wǎng)絡(luò)權(quán)重在梯度降低方向上的更新步驟的大小,過(guò)大或過(guò)小的學(xué)習(xí)率都可能導(dǎo)致算法的訓(xùn)練變得不穩(wěn)定或錯(cuò)過(guò)最佳收斂值。

5.3 對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本文算法的有效性和優(yōu)越性,本節(jié)分別驗(yàn)證SACTC在用戶數(shù)量、存儲(chǔ)容量、ES的計(jì)算能力、無(wú)線信道的總帶寬、ES和CC之間的傳輸速率對(duì)每步平均任務(wù)時(shí)延的影響。

a)為了驗(yàn)證不同的用戶數(shù)對(duì)SACTC和基線方案的平均時(shí)延的影響,設(shè)置用戶數(shù)從20~60,增量為10的實(shí)驗(yàn)。如圖8所示,隨著用戶數(shù)量的增加,所有算法的平均時(shí)延都會(huì)增加。這是因?yàn)槿蝿?wù)的處理需要系統(tǒng)中的各種資源,隨著用戶的增加,用戶之間對(duì)資源的競(jìng)爭(zhēng)會(huì)加劇,在這種情況下,分配給用戶的資源會(huì)減少,從而增加任務(wù)的傳輸和處理時(shí)延。具體來(lái)說(shuō),SACTC在不同數(shù)量的用戶中實(shí)現(xiàn)了最小的平均任務(wù)時(shí)延。與SAC-WT和SACT方案相比,SACTC算法的平均時(shí)延平均降低了53%和34%,其原因是該方案通過(guò)凸優(yōu)化充分利用系統(tǒng)中的有限資源,并通過(guò)結(jié)合Transformer模塊有效確定能使時(shí)延最小化的耦合的服務(wù)緩存和任務(wù)遷移的決定。

b)為了評(píng)估ES的存儲(chǔ)容量對(duì)任務(wù)平均時(shí)延的影響,設(shè)置實(shí)驗(yàn)使ES的存儲(chǔ)容量從100 GB增長(zhǎng)到500 GB不等,增量為100 GB。圖9表明提出的方案與這些基線方案相比具有更少的平均時(shí)延,這是因?yàn)樗哂懈途S強(qiáng)化學(xué)習(xí)行動(dòng)空間和更充分的資源利用率的優(yōu)勢(shì)。對(duì)于使用凸優(yōu)化進(jìn)行資源分配的隨機(jī)算法和云計(jì)算算法,ES存儲(chǔ)容量的增加并沒(méi)有改變系統(tǒng)中可分配的資源總量,所以這兩種算法的平均任務(wù)時(shí)延幾乎沒(méi)有變化。然而,對(duì)于基于DRL的方法,隨著ES存儲(chǔ)容量的增加,更多的服務(wù)被緩存在ES中,因此更多的任務(wù)被遷移到ES中執(zhí)行,使其平均時(shí)延降低。

c)為了測(cè)試ES的計(jì)算能力對(duì)任務(wù)平均時(shí)延的影響,設(shè)置ES的計(jì)算能力從8 MHz增加到32 MHz,每次增量為6 MHz的實(shí)驗(yàn)。圖10顯示,ES的計(jì)算能力越大,平均任務(wù)時(shí)延越低。這是因?yàn)檩^大的計(jì)算能力意味著有更多的計(jì)算資源被任務(wù)獲得,從而降低任務(wù)處理時(shí)延。與其他基線算法相比,本文SACTC算法在不同的ES計(jì)算能力下能夠?qū)崿F(xiàn)最低的任務(wù)平均時(shí)延。因?yàn)镾ACTC通過(guò)Transformer模塊可以更好地協(xié)調(diào)前一時(shí)隙和當(dāng)前時(shí)隙的遷移和緩存決策,輸出最關(guān)鍵的決策。然而,SAC-WT很難輸出適當(dāng)?shù)姆?wù)緩存和任務(wù)遷移決策,以及足夠的資源分配決策來(lái)減少任務(wù)時(shí)延,而且SACT算法的資源利用率比SACTC要差。

d)為了驗(yàn)證系統(tǒng)帶寬對(duì)平均任務(wù)時(shí)延的影響,設(shè)置系統(tǒng)帶寬從12 MHz到28 MHz,增量為6 MHz的實(shí)驗(yàn)。圖11說(shuō)明了隨著帶寬的增加,所有算法任務(wù)的時(shí)延都有明顯的減少。這是因?yàn)閹捠怯绊懭蝿?wù)時(shí)延的關(guān)鍵因素,隨著分配更多的帶寬,無(wú)線網(wǎng)絡(luò)的傳輸速率將更快,同樣大小的數(shù)據(jù)傳輸?shù)紼S的時(shí)間將更短。通過(guò)問(wèn)題分解技術(shù),與SAC-WT和SACT算法相比,SACTC算法分別獲得47.5%和37%的延時(shí)減少。

e)為了評(píng)估ES和CC之間的傳輸速率對(duì)平均任務(wù)時(shí)延的影響,實(shí)驗(yàn)中設(shè)置ES和CC之間的傳輸速率從5~25 M/s遞增,增量為5 M/s。從圖12中看出,隨著ES和CC之間傳輸速率的增加,所有算法的任務(wù)平均時(shí)延都逐漸減少。對(duì)于SAC-WT算法,平均任務(wù)時(shí)延受到bec的強(qiáng)烈影響,而對(duì)于與Transformer集成的SACT算法,因其輸出關(guān)鍵的服務(wù)緩存和任務(wù)遷移決策從而實(shí)現(xiàn)更低的任務(wù)時(shí)延。仔細(xì)觀察圖12,SACTC在不同的bec值下實(shí)現(xiàn)了最小的任務(wù)平均延時(shí),而且它們之間的差異不大,這是因?yàn)閷ransformer集成到SACTC的Actor模塊中,并使用凸優(yōu)化進(jìn)行資源分配,使得SACTC能夠充分利用ES中的可用資源,從而輸出更有效的決策,并具有更大的魯棒性。

6 結(jié)束語(yǔ)

本文研究了MSs-MEC系統(tǒng)中的服務(wù)緩存和計(jì)算遷移的聯(lián)合優(yōu)化問(wèn)題。為了使系統(tǒng)的長(zhǎng)期任務(wù)時(shí)延和資源利用率最小化,提出一種基于深度強(qiáng)化學(xué)習(xí)的混合算法SACTC,將原始問(wèn)題分解為DRL子問(wèn)題和凸優(yōu)化子問(wèn)題,以降低原始優(yōu)化問(wèn)題的復(fù)雜性。具體地,本文將Transformer集成到SAC算法中,以確定離散的服務(wù)緩存和任務(wù)遷移決策,以準(zhǔn)確學(xué)習(xí)時(shí)間段之間的依賴關(guān)系,并利用凸優(yōu)化明智地計(jì)算連續(xù)資源分配。大量的仿真實(shí)驗(yàn)證明,本文算法在不同的角度都能獲得最低的任務(wù)平均時(shí)延和最高的資源利用率,并且具有很強(qiáng)的魯棒性和穩(wěn)定性。進(jìn)一步研究工作包括更為真實(shí)的仿真環(huán)境或是在真實(shí)網(wǎng)絡(luò)環(huán)境中實(shí)驗(yàn),可將優(yōu)化問(wèn)題擴(kuò)展到邊緣節(jié)點(diǎn)協(xié)作方面來(lái)減少任務(wù)卸載的延遲或其他費(fèi)用。

參考文獻(xiàn):

[1]Wang Jiadai,Zhao Lei,Liu Jiajia,et al. Smart resource allocation for mobile edge computing: a deep reinforcement learning approach[J]. IEEE Trans on Emerging Topics in Computing,2021,9(3): 1529-1541.

[2]Zhang Fangzhou. MEC-based latency aware optical character recognition and real-time English translation for smart cities[J]. Internet Technology Letters,2020,4:168.

[3]Zhao Junhui,Li Qiuping,Gong Yi,et al. Computation offloading and resource allocation for cloud assisted mobile edge computing in vehicular networks[J]. IEEE Trans on Vehicular Technology,2019,68(8): 7944-7956.

[4]Zhou Fuhui,Hu R Q. Computation efficiency maximization in wireless-powered mobile edge computing networks[J]. IEEE Trans on Wireless Communications,2020,19(5): 3170-3184.

[5]Wang Yunpeng,Lang Ping,Tian Daxin,et al. A game-based computation offloading method in vehicular multiaccess edge computing networks[J]. IEEE Internet of Things Journal,2020,7(6): 4987-4996.

[6]Ning Zhaolong,Dong Peiran,Kong Xiangjie,et al. A cooperative partial computation offloading scheme for mobile edge computing enabled Internet of Things[J]. IEEE Internet of Things Journal,2019,6(3): 4804-4814.

[7]Zhou Shuchen,Jadoon W. The partial computation offloading strategy based on game theory for multi-user in mobile edge computing environment[J]. Computer Networks,2020,178: 107334.

[8]Bahreini T,Badri H,Grosu D. Mechanisms for resource allocation and pricing in mobile edge computing systems[J]. IEEE Trans on Pa-rallel and Distributed Systems,2022,33(3): 667-682.

[9]Hu Han,Song Weiwei,Wang Qun,et al. Energy efficiency and delay tradeoff in an MEC-enabled mobile IoT network[J]. IEEE Internet of Things Journal,2022,9(17): 15942-15956.

[10]Sabuj S R,Asiedu D K P,Lee K J,et al. Delay optimization in mobile edge computing: cognitive UAV-assisted eMBB and mMTC services[J]. IEEE Trans on Cognitive Communications and Networking,2022,8(2): 1019-1033.

[11]Feng Jie,Yu F R,Pei Qingqi,et al. Cooperative computation off-loading and resource allocation for blockchain-enabled mobile-edge computing: a deep reinforcement learning approach[J]. IEEE Internet of Things Journal,2020,7(7): 6214-6228.

[12]Fan Qingyan,Lin Junyu,F(xiàn)eng Guangsheng,et al. Joint service caching and computation offloading to maximize system profits in mobile edge-cloud computing[C]//Proc of 16th International Conference on Mobility,Sensing and Networking. Piscataway,NJ:IEEE Press,2020: 244-251.

[13]Liu Fang,Zhang Zhenyuan,Wang Zunfu,et al. ECC: edge collaborative caching strategy for differentiated services load-balancing[J]. Computers,Materials and Continua,2021,69(2): 2045-2060.

[14]Peng Kai,Nie Jiangtian,Kumar N,et al. Joint optimization of service chain caching and task offloading in mobile edge computing[J]. Applied Soft Computing,2021,103: 107142.

[15]Zhong Shijie,Guo Songtao,Yu Hongyan,et al. Cooperative service caching and computation offloading in multi-access edge computing[J]. Computer Networks,2021,189: 107916.

[16]Zhang Guanglin,Zhang Shun,Zhang Wenqian,et al. Joint service caching,computation offloading and resource allocation in mobile edge computing systems[J]. IEEE Trans on Wireless Communications,2021,20(8): 5288-5300.

[17]Wang Zhongyu,Lyu Tiejun,Chang Zheng. Computation offloading and resource allocation based on distributed deep learning and software defined mobile edge computing[J]. Computer Networks,2022,205: 108732.

[18]Huang Liang,Bi Suzhi,Zhang Y A.Deep reinforcement learning for online computation offloading in wireless powered mobile-edge computing networks[J].IEEE Trans on Mobile Computing,2020,19(11):2581-2593.

[19]Shi Jinming,Du Jun,Wang Jian,et al. Deep reinforcement learning-based V2V partial computation offloading in vehicular fog computing[C]//Proc of IEEE Wireless Communications and Networking Conference. Piscataway,NJ:IEEE Press,2021: 1-6.

[20]Fu Fang,Kang Yunpeng,Zhang Zhicai,et al. Soft actor-critic DRL for live transcoding and streaming in vehicular fog-computing-enabled IoV[J]. IEEE Internet of Things Journal,2021,8(3): 1308-1321.

[21]Wang Shuoyao,Bi Suzhi,Zhang Y A. Deep reinforcement learning with communication transformer for adaptive live streaming in wireless edge networks[J]. IEEE Journal on Selected Areas in Communications,2022,40(1): 308-322.

[22]鄺祝芳,陳清林,李林峰,等. 基于深度強(qiáng)化學(xué)習(xí)的多用戶邊緣計(jì)算任務(wù)卸載調(diào)度與資源分配算法[J]. 計(jì)算機(jī)學(xué)報(bào),2022,45(4): 812-824.(Kuang Zhufang,Chen Qinglin,Li Linfeng,et al. Multi-user edge computing task offloading scheduling and resource allocation based on deep reinforcement learning[J]. Chinese Journal of Computers,2022,45(4): 812-824.)

[23]彭姿馀,王高才,農(nóng)望.基于SAC的多服務(wù)移動(dòng)邊緣計(jì)算中任務(wù)卸載和資源配置算法[J].計(jì)算機(jī)應(yīng)用研究,2023,40(5):1497-1503.(Peng Ziyu,Wang Gaocai,Nong Wang. SAC based algorithm for task offloading and resource provisioning in multiple-services mobile edge computing[J]. Application Research of Computers,2023,40(5):1497-1503.)

[24]Peng Ziyu,Wang Gaocai,Nong Wang,et al.Task offloading in multiple-services mobile edge computing: a deep reinforcement learning al-gorithm[J]. Computer Communications,2023,202:1-15.