郭曉東 郝思達 王麗芳
摘 要:車輛邊緣計算允許車輛將計算任務卸載到邊緣服務器,從而滿足車輛爆炸式增長的計算資源需求。但是如何進行卸載決策與計算資源分配仍然是亟待解決的關鍵問題。并且,運動車輛在連續(xù)時間內進行任務卸載很少被提及,尤其對車輛任務到達隨機性考慮不足。針對上述問題,建立動態(tài)車輛邊緣計算模型,描述為7狀態(tài)2動作空間的Markov決策過程,并建立一個分布式深度強化學習模型來解決問題。另外,針對離散—連續(xù)混合決策問題導致的效果欠佳,將輸入層與一階決策網(wǎng)絡嵌套,提出一種分階決策的深度強化學習算法。仿真結果表明,所提算法相較于對比算法,在能耗上保持了較低水平,并且在任務完成率、時延和獎勵方面都具備明顯優(yōu)勢,這為車輛邊緣計算中的卸載決策與計算資源分配問題提供了一種有效的解決方案。
關鍵詞:車輛邊緣計算;任務卸載;資源分配;深度強化學習
中圖分類號:TP393?? 文獻標志碼:A
文章編號:1001-3695(2023)09-038-2803-05
doi:10.19734/j.issn.1001-3695.2023.02.0027
Task offloading method based on deep reinforcement learning for vehicular edge computing
Guo Xiaodonga,Hao Sidab,Wang Lifangb
(a.College of Electronic Information Engineering,b.College of Computer Science & Technology,Taiyuan University of Science & Technology,Taiyuan 030024,China)
Abstract:To meet the exploding demand for computational resources in vehicles,offloading computational tasks to edge servers is allowed in vehicular edge computing.But how to make offloading decision and computational resource allocation are still critical issues that need to be addressed.Moreover,task unloading of moving vehicles in continuous time is rarely mentioned,especially the randomness of vehicle task arrival is not considered enough.To address the above problems,this paper
established a dynamic vehicle edge computing model and described this model as a Markov decision process in seven state two action spaces.Then this paper built a distributed deep reinforcement learning model to solve the problem.Furthermore,for the discrete-continuous hybrid decision problem causing poor results,
this paper proposed
a deep reinforcement learning algorithm for split-order decision making,which nested the input layer with the first-order decision network.Simulation results show that the proposed algorithm has significant advantages in terms of task completion rate,time delay,and reward compared to the comparison algorithm by maintaining a lower level of energy consumption.This paper provides an effective solution to the offloading decision and computational resource allocation problem in vehicle edge computing.
Key words:vehicular edge computing(VEC);task offloading;resource distribution;deep reinforcement learning
0 引言
近年來,隨著智能網(wǎng)聯(lián)車輛的快速發(fā)展,車輛的信息化、智能化程度不斷提高。與此同時,自動駕駛[1]、增強車輛現(xiàn)實[2]、車載游戲等車載應用和服務不斷涌現(xiàn),對車輛的計算能力提出嚴苛要求,計算能力不足已成為制約其發(fā)展的關鍵問題。
車輛邊緣計算(VEC)[3]被認為是一種很有前景的解決方案。VEC將計算和存儲資源放置在距離用戶更近的路側單元(road side unit,RSU),允許車輛將計算任務卸載到邊緣服務器,從而實現(xiàn)低時延、低能耗的任務卸載。VEC環(huán)境下,車輛配備通信設施可以通過與RSU間的無線連接完成車輛—邊緣服務器間的信息傳遞,形成一種稱為車—基礎設施(vehicle-to-infrastructure,V2I)[4]的模式。VEC的架構模型與卸載策略是其中的關鍵問題,吸引了大量學者的關注。Liu等人[3]對VEC的最新研究進行了綜述,包括簡介、架構、優(yōu)勢與挑戰(zhàn)等。模型方面,Tian等人[5]對運動車輛進行建模,并提出一種任務信息已知情況下的KMM算法以減小任務時延。Huang等人[6]將任務按照優(yōu)先級分為關鍵應用、高優(yōu)先級應用和低優(yōu)先級應用,并研究了一種不同優(yōu)先級應用下最小化能耗的任務卸載問題。卸載策略方面,可以分為集中式卸載策略與分布式卸載策略。集中式卸載策略由中心節(jié)點進行統(tǒng)一調度與管理,具備更優(yōu)的全局效果,但是車輛高速移動會導致網(wǎng)絡拓撲快速變化[7],從而造成集中式網(wǎng)絡不斷重構導致時延增加。Hou等人[8]針對非凸和NP難的卸載優(yōu)化問題,設計了一種容錯粒子群優(yōu)化的啟發(fā)式算法,以最大化卸載的可靠性。
相比之下,分布式卸載策略由個體根據(jù)環(huán)境信息單獨作出,避免了網(wǎng)絡不斷重構。深度強化學習(deep reinforcement learning,DRL)是常用的分布式卸載算法,并具備廣泛應用。施偉等人[9]提出了一種基于深度強化學習的多機協(xié)同空戰(zhàn)決策方法,用于提高多機協(xié)同對抗場景下的多機協(xié)同度;陳佳盼等人[10]綜述了深度強化學習算法在機器人操作領域的重要應用;Chen等人[11]研究了卸載決策與資源分配的聯(lián)合優(yōu)化問題,并提出一種基于強化學習的任務卸載與資源分配方法以減少延遲和能耗。
以上方法雖然解決了部分VEC環(huán)境下的任務卸載問題,但仍存在一些不足。一是模型缺乏對運動車輛在連續(xù)時間內的研究,且對車輛任務到達的隨機性考慮不足;二是未能充分考慮車輛的高速移動性,及其造成的網(wǎng)絡拓撲快速變化[7]。針對以上問題,建立動態(tài)車輛邊緣計算模型,并建立一個分布式深度強化學習模型來解決問題。本文的主要研究工作如下:
a)構建動態(tài)多時隙的車輛邊緣計算任務卸載與資源分配模型。針對動態(tài)VEC環(huán)境下任務卸載與資源分配問題,將連續(xù)時間抽象為多時隙模型,并把車輛相關的運動狀態(tài)、計算資源、計算任務等動態(tài)壓入時隙隊列,構建連續(xù)的車輛運動模型、任務模型與計算模型。
b)設計一種基于深度強化學習的分布式任務卸載與資源分配算法。考慮7種狀態(tài)對卸載決策的聯(lián)合影響,特別是探討了任務復雜度和傳輸距離對卸載策略的交叉影響。將問題描述為7狀態(tài)2動作空間的Markov決策過程,并建立即時決策的分布式深度強化學習模型來闡述問題。將智能體分布在多個計算節(jié)點,通過共享參數(shù)和并行化計算來提高訓練效率和性能。
c)提出一種分階決策的深度強化學習算法。針對離散—連續(xù)混合決策問題導致的效果欠佳,將輸入層與一階決策網(wǎng)絡嵌套,提出一種分階決策的深度強化學習算法。經(jīng)實驗驗證,該算法在時延、能耗、任務完成率等方面都具備明顯優(yōu)勢。
4 實驗和分析
仿真分析基于Python 3.7.10、NumPy 1.18.5、pyglet 1.5.21、TensorFlow 2.3.0。參考文獻[14~16]進行時隙、通信、任務相關實驗參數(shù)設置;根據(jù)能耗限制的不同,車輛端參考IntelTM CoreTM系列CPU進行實驗參數(shù)設置,服務器端參考Intel Xeon系列CPU進行實驗參數(shù)設置;將任務復雜程度控制在[50,1 250] cycles/bit,覆蓋復雜計算任務與簡單計算任務;單輛車與RSU間的平均數(shù)據(jù)吞吐量為38.5 Mbps,VEC服務器平均數(shù)據(jù)吞吐量為770 Mbps;主要參數(shù)設置如表2所示。
為了驗證本文算法的有效性,參考文獻[12,17,18]的實驗設計,設計對比實驗,并且本地計算、貪婪卸載或隨機卸載是共有的;參考文獻[19~22],在VEC任務卸載的強化學習解決方案中,DQN和DDPG被廣泛應用。本文對比算法有全部本地計算、采用貪婪卸載、采用DQN算法卸載、采用DDPG算法卸載、采用分階決策的分布式動態(tài)卸載算法(本文算法)。進行多次實驗并對所有車輛的結果進行加權和,以下是復現(xiàn)上述方法得到的結果。由圖3~6,對總時延、總執(zhí)行時延、總傳輸時延、總等待時延進行分析可得:本文算法在總時延方面表現(xiàn)出超過15%的性能優(yōu)勢,這得益于算法顯著降低了執(zhí)行時延和等待時延。
由圖7~10,對總能耗、總獎勵、car剩余計算資源和VEC剩余計算資源進行分析可得:在能耗方面,本文算法與DQN、貪婪卸載處在同一水平線,且明顯低于DDPG算法,而本地計算未能完成任務;在獎勵方面,本文算法表現(xiàn)出超過20%的性能優(yōu)勢;在剩余計算資源方面,本文算法、貪婪卸載、DQN對VEC計算資源利用充分,且車輛為即將到來的任務留有一定的計算資源,具備較優(yōu)的資源配置策略。相比之下,DDPG算法對VEC計算資源利用不充分且對本地計算資源過度依賴。
由圖11,對卸載失敗任務數(shù)進行分析可得:本文算法、DQN、貪婪算法未出現(xiàn)任務卸載失敗的情況,而DDPG算法出現(xiàn)少量任務卸載失敗,本地計算則出現(xiàn)大量任務卸載失敗。
?
5 結束語
本文旨在研究車輛邊緣計算中的卸載決策和計算資源分配問題,特別是針對連續(xù)時間內運動車輛隨機到達任務的情況進行探討,這種情況下需要快速、準確地進行卸載決策和計算資源的分配。為了解決這一問題,本文提出了一種基于深度強化學習的車輛邊緣計算任務卸載方法。首先,將問題描述為7狀態(tài)2動作空間的Markov決策過程,建立分布式深度強化學習模型。并且,針對離散—連續(xù)混合決策問題導致決策效果較差的問題,將輸入層與一階決策網(wǎng)絡嵌套,提出一種分階決策的深度強化學習算法。經(jīng)仿真實驗分析,本文算法經(jīng)過訓練能夠綜合當前任務的信息、剩余計算資源、剩余未計算任務數(shù)、與邊緣服務器距離以及邊緣服務器的剩余計算資源來作出較優(yōu)的即時決策,并具備低時延、低能耗、高任務完成率的優(yōu)點。
本文為車輛邊緣計算、為滿足車輛爆炸式增長的計算資源需求提供了一種有效的解決方案。接下來將重點研究多邊緣服務器場景下的車輛邊緣計算網(wǎng)絡,并探索任務卸載與資源分配策略,以期望實現(xiàn)更好地協(xié)同計算和負載均衡。
參考文獻:
[1]Narayanan S,Chaniotakis E,Antoniou C.Shared autonomous vehicle services:a comprehensive review[J].Transportation Research Part C:Emerging Technologies,2020,111:255-293.
[2]Pratticò F G,Lamberti F,Cannavò A,et al.Comparing state-of-the-art and emerging augmented reality interfaces for autonomous vehicle-to-pedestrian communication[J].IEEE Trans on Vehicular Technology,2021,70(2):1157-1168.
[3]Liu Lei,Chen Chen,Pei Qingqi,et al.Vehicular edge computing and networking:a survey[J].Mobile Networks and Applications,2021,26(3):1145-1168.
[4]李智勇,王琦,陳一凡,等.車輛邊緣計算環(huán)境下任務卸載研究綜述[J].計算機學報,2021,44(5):963-982.(Li Zhiyong,Wang Qi,Chen Yifan,et al.A survey on task offloading research in vehicular edge computing[J].Chinese Journal of Computers,2021,44(5):963-982.)
[5]Tian Shujuan,Deng Xianghong,Chen Pengpeng,et al.A dynamic task offloading algorithm based on greedy matching in vehicle network[J].Ad hoc Networks,2021,123:102639.
[6]Huang Xinyu,He Lijun,Zhang Wanyue.Vehicle speed aware computing task offloading and resource allocation based on multi-agent reinforcement learning in a vehicular edge computing network[C]//Proc of IEEE International Conference on Edge Computing.Piscataway,NJ:IEEE Press,2020:1-8.
[7]Zhang Yan.Mobile edge computing[M].Cham:Springer,2022.
[8]Hou Xiangwang,Ren Zhiyuan,Wang Jingjing,et al.Reliable computation offloading for edge-computing-enabled software-defined IoV[J].IEEE Internet of Things Journal,2020,7(8):7097-7111.
[9]施偉,馮旸赫,程光權,等.基于深度強化學習的多機協(xié)同空戰(zhàn)方法研究[J].自動化學報,2021,47(7):1610-1623.(Shi Wei,F(xiàn)eng Yanghe,Cheng Guangquan,et al.Research on multi-aircraft cooperative air combat method based on deep reinforcement learning[J].Acta Automatica Sinica,2021,47(7):1610-1623.)
[10]陳佳盼,鄭敏華.基于深度強化學習的機器人操作行為研究綜述[J].機器人,2022,44(2):236-256.(Chen Jiapan,Zheng Minhua.A survey of robot manipulation behavior research based on deep reinforcement learning[J].Robot,2022,44(2):236-256.)
[11]Chen Xing,Liu Guizhong.Joint optimization of task offloading and resource allocation via deep reinforcement learning for augmented reality in mobile edge network[C]//Proc of IEEE International Conference on Edge Computing.Piscataway,NJ:IEEE Press,2020:76-82.
[12]張秋平,孫勝,劉敏,等.面向多邊緣設備協(xié)作的任務卸載和服務緩存在線聯(lián)合優(yōu)化機制[J].計算機研究與發(fā)展,2021,58(6):1318-1339.(Zhang Qiuping,Sun Sheng,Liu Min,et al.Online joint optimization mechanism of task offloading and service caching for multi-edge device collaboration[J].Journal of Computer Research and Development,2021,58(6):1318-1339.)
[13]Guo Songtao,Liu Jiadi,Yang Yuanyuan,et al.Energy-efficient dyna-mic computation offloading and cooperative task scheduling in mobile cloud computing[J].IEEE Trans on Mobile Computing,2018,18(2):319-333.
[14]Gu Xiaohui,Zhang Guoan.Energy-efficient computation offloading for vehicular edge computing networks[J].Computer Communications,2021,166:244-253.
[15]田賢忠,許婷,朱娟.一種最小化時延多邊緣節(jié)點卸載均衡策略研究[J].小型微型計算機系統(tǒng),2022,43(6):1162-1169.(Tian Xianzhong,Xu Ting,Zhu Juan.Research on offloading balance strategy of multiple edge nodes to minimize delay[J].Journal of Chinese Computer Systems,2022,43(6):1162-1169.)
[16]Zhu Hongbiao,Wu Qiong,Wu X J,et al.Decentralized power allocation for MIMO-NOMA vehicular edge computing based on deep reinforcement learning[J].IEEE Internet of Things Journal,2021,9(14):12770-12782.
[17]許小龍,方子介,齊連永,等.車聯(lián)網(wǎng)邊緣計算環(huán)境下基于深度強化學習的分布式服務卸載方法[J].計算機學報,2021,44(12):2382-2405.(Xu Xiaolong,F(xiàn)ang ZiJie,Qi Lianyong,et al.A deep reinforcement learning-based distributed service offloading method for edge computing empowered Internet of Vehicles[J].Chinese Journal of Computers,2021,44(12):2382-2405.)
[18]Sun Jianan,Gu Qing,Zheng Tao,et al.Joint communication and computing resource allocation in vehicular edge computing[J/OL].International Journal of Distributed Sensor Networks,2019,15(3).https://doi.org/10.1177/1550147719837859.
[19]盧海峰,顧春華,羅飛,等.基于深度強化學習的移動邊緣計算任務卸載研究[J].計算機研究與發(fā)展,2020,57(7):1539-1554.(Lu Haifeng,Gu Chunhua,Luo Fei,et al.Research on task offloading based on deep reinforcement learning in mobile edge computing[J].Journal of Computer Research and Development,2020,57(7):1539-1554.)
[20]鄺祝芳,陳清林,李林峰,等.基于深度強化學習的多用戶邊緣計算任務卸載調度與資源分配算法[J].計算機學報,2022,45(4):812-824.(Kuang Zhufang,Chen Qinglin,Li Linfeng,et al.Multi-user edge computing task offloading scheduling and resource allocation based on deep reinforcement learning[J].Chinese Journal of Computers,2022,45(4):812-824.)
[21]Qi Qi,Wang Jingyu,Ma Zhanyu,et al.Knowledge-driven service offloading decision for vehicular edge computing:a deep reinforcement learning approach[J].IEEE Trans on Vehicular Technology,2019,68(5):4192-4203.
[22]Qin Zhuoxing,Leng Supeng,Zhou Jihu,et al.Collaborative edge computing and caching in vehicular networks[C]//Proc of IEEE Wireless Communications and Networking Conference.Piscataway,NJ:IEEE Press,2020:1-6.
收稿日期:2023-02-03;修回日期:2023-03-15? 基金項目:國家自然科學基金資助項目(61876123);山西省研究生教育改革項目(2021YJJG238,2021Y697);太原科技大學博士啟動基金資助項目(20212021);大學生創(chuàng)新創(chuàng)業(yè)項目(20210499)
作者簡介:郭曉東(1977-),男,山西襄汾人,碩導,博士,主要研究方向為智能計算、邊緣智能與協(xié)同計算;郝思達(1997-),男,河北晉州人,碩士,主要研究方向為智能計算、車聯(lián)網(wǎng)、邊緣智能與協(xié)同計算;王麗芳(1975-),女(通信作者),山西和順人,副教授,碩導,博士,主要研究方向為智能計算、智能優(yōu)化控制(wanglifang@tyust.edu.cn).