衛(wèi)星物聯(lián)網(wǎng)中面向多類型任務(wù)的計(jì)算卸載策略

2024-12-31 00:00:00楊桂松李相霏何杏宇

計(jì)算機(jī)應(yīng)用研究 2024年11期

關(guān)鍵詞：深度強(qiáng)化學(xué)習(xí)排隊(duì)論邊緣計(jì)算

摘要：邊緣計(jì)算與衛(wèi)星物聯(lián)網(wǎng)相融合，可以將本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生的任務(wù)在靠近邊緣端進(jìn)行處理，極大地緩解了本地物聯(lián)網(wǎng)設(shè)備的計(jì)算壓力。然而，鑒于衛(wèi)星物聯(lián)網(wǎng)中計(jì)算任務(wù)具有多樣性，由于任務(wù)特性不同需求也不同，針對(duì)每一種任務(wù)類型部署一套計(jì)算卸載策略會(huì)導(dǎo)致計(jì)算資源的浪費(fèi)。此外，由于衛(wèi)星物聯(lián)網(wǎng)中計(jì)算任務(wù)產(chǎn)生具有隨機(jī)性，如果僅考慮系統(tǒng)短期優(yōu)化會(huì)導(dǎo)致計(jì)算設(shè)備的計(jì)算資源利用不足，進(jìn)一步導(dǎo)致任務(wù)處理時(shí)延的增加。為解決上述問(wèn)題，提出了一種基于 DQN（deep Q-network）多類型任務(wù)計(jì)算卸載策略，該策略引入排隊(duì)論以最小化長(zhǎng)期系統(tǒng)任務(wù)處理平均時(shí)延，并且為提升模型訓(xùn)練結(jié)果，在訓(xùn)練階段重新設(shè)計(jì)了探索機(jī)制。最后，大量仿真結(jié)果表明，與其他卸載策略相比，所提策略能有效降低系統(tǒng)任務(wù)處理的平均時(shí)延。

關(guān)鍵詞：邊緣計(jì)算；衛(wèi)星物聯(lián)網(wǎng)；計(jì)算卸載；深度強(qiáng)化學(xué)習(xí)；排隊(duì)論

中圖分類號(hào)：TP393 文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-3695（2024）11-035-3441-06

doi： 10.19734/j.issn.1001-3695.2024.03.0087

Computing offloading strategy for multi-type tasks in satellite Internet of Things

Yang Guisong^a， Li Xiangfei^a， He Xingyu^{a， b}^?

（a. School of Optical-Electrical amp; Computer Engineering， b. College of Communication amp; Art Design， University of Shanghai for Science amp; Technology， Shanghai 200093， China）

Abstract：Integrating edge computing with satellite Internet of Things （SIoT） allows tasks generated by local IoT devices to be processed closer to the edge， significantly relieving the computational burden on local IoT devices. However， given the diversity of computational tasks in satellite IoT， deploying a specific computing offloading strategy for each type of task leads to wastage of computational resources due to varying requirements based on task characteristics. Moreover， the randomness in the generation of computational tasks in satellite IoT requires a long-term optimization approach; otherwise， it may result in underutilization of computational resources of the devices， further increasing the task processing delay. To address these issues， this paper proposed a multi-type task computing offloading strategy based on DQN ， incorporating queue theory to minimize the long-term average delay in system task processing. Additionally， to enhance the training outcomes，it redesigned the exploration method during the training phase. Finally， extensive simulation results indicate that the proposed strategy effectively reduces the average task processing delay in the system compared with other offloading strategies.

Key words：edge computing; satellite Internet of Things; computing offloading; deep reinforcement learning; queuing theory

0 引言

隨著衛(wèi)星技術(shù)的發(fā)展，尤其是低地球軌道（low earth orbit， LEO）衛(wèi)星^[1]的興起。低軌衛(wèi)星逐漸小型化和經(jīng)濟(jì)化可以作為地面網(wǎng)絡(luò)的有效補(bǔ)充和擴(kuò)展，能很好地解決地面網(wǎng)絡(luò)存在的覆蓋難、易受災(zāi)害等問(wèn)題，低軌衛(wèi)星是當(dāng)前衛(wèi)星通信系統(tǒng)的重要發(fā)展趨勢(shì)。而衛(wèi)星物聯(lián)網(wǎng)（satellite Internet of Things，SIoT）^[2]將衛(wèi)星與物聯(lián)網(wǎng)技術(shù)相結(jié)合，可以有效幫助偏遠(yuǎn)地區(qū)的物聯(lián)網(wǎng)設(shè)備環(huán)境通信問(wèn)題^[3]。在衛(wèi)星物聯(lián)網(wǎng)架構(gòu)下，本地物聯(lián)網(wǎng)設(shè)備難以處理的任務(wù)可以通過(guò)衛(wèi)星中繼發(fā)送至地面云計(jì)算中心進(jìn)行處理，但對(duì)時(shí)延、帶寬、可靠性等性能指標(biāo)不提供任何保證^[4]。隨著衛(wèi)星物聯(lián)網(wǎng)發(fā)展，環(huán)境監(jiān)測(cè)、智能農(nóng)業(yè)^{[5， 6]}等新型應(yīng)用誕生，這些新型應(yīng)用要求高網(wǎng)絡(luò)性能，傳統(tǒng)衛(wèi)星物聯(lián)網(wǎng)架構(gòu)難以支撐新型應(yīng)用對(duì)網(wǎng)絡(luò)的多樣化需求。因此，將邊緣計(jì)算思想引入衛(wèi)星物聯(lián)網(wǎng)中，可以將本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生的任務(wù)放在靠近邊緣端進(jìn)行處理，極大地緩解了本地物聯(lián)網(wǎng)設(shè)備的計(jì)算壓力，并且避免了任務(wù)通過(guò)衛(wèi)星中繼發(fā)送至地面云計(jì)算中心所產(chǎn)生的高額傳輸延遲^[7]。然而，通過(guò)引入邊緣計(jì)算思想，將計(jì)算能力下沉至邊緣端可以緩解一定壓力，但由于衛(wèi)星物聯(lián)網(wǎng)中物聯(lián)網(wǎng)設(shè)備產(chǎn)生的任務(wù)具有多樣性，例如，自動(dòng)駕駛中車(chē)輛需要實(shí)時(shí)處理來(lái)自各種傳感器的數(shù)據(jù)，這種類型任務(wù)對(duì)網(wǎng)絡(luò)和處理延遲提出了非常嚴(yán)格的要求；視頻分析任務(wù)中需要大量計(jì)算資源從視頻流中分析和提取信息進(jìn)行分析，這種類型任務(wù)對(duì)計(jì)算資源有大量需求。衛(wèi)星物聯(lián)網(wǎng)中任務(wù)的產(chǎn)生具有隨機(jī)性，本地物聯(lián)網(wǎng)設(shè)備和地面邊緣服務(wù)器的計(jì)算資源具有有限性。因此，如何在衛(wèi)星物聯(lián)網(wǎng)場(chǎng)景下在多種約束條件下實(shí)現(xiàn)多類型任務(wù)計(jì)算卸載是一個(gè)重大挑戰(zhàn)。

目前，針對(duì)邊緣計(jì)算架構(gòu)下的計(jì)算卸載研究已有很多，近幾年，在面向算力資源優(yōu)化的協(xié)同計(jì)算研究中，從任務(wù)種類分析主要考慮單種任務(wù)。例如，Ning等人^[8]由于移動(dòng)電話和筆記本電腦等本地設(shè)備無(wú)法滿足用于醫(yī)療信息分析的時(shí)延敏感任務(wù)的延遲，將邊緣服務(wù)器引入與本地設(shè)備和邊緣服務(wù)器結(jié)合構(gòu)成協(xié)同計(jì)算架構(gòu)，通過(guò)博弈算法來(lái)最小化時(shí)間敏感任務(wù)的處理延遲。又例如，Huang等人^[9]通過(guò)建立云-邊-端三層協(xié)同計(jì)算架構(gòu)來(lái)幫助船舶進(jìn)行海洋監(jiān)測(cè)等時(shí)延容忍型任務(wù)的處理，在該架構(gòu)下通過(guò)傳輸機(jī)制最小化時(shí)延和能耗。再例如，Cui等人^[3]通過(guò)搭建以衛(wèi)星輔助車(chē)輛的多層協(xié)同計(jì)算架構(gòu)來(lái)幫助車(chē)輛進(jìn)行自動(dòng)駕駛、圖像識(shí)別等計(jì)算密集型任務(wù)，通過(guò)計(jì)算卸載算法來(lái)幫助優(yōu)化計(jì)算和通信資源，最終達(dá)到最小化時(shí)延。此外，從優(yōu)化目標(biāo)的角度分析目前現(xiàn)有研究主要為三類，以優(yōu)化時(shí)延為目標(biāo)^[10]、以優(yōu)化能耗為目標(biāo)^[11]，以及以綜合優(yōu)化時(shí)延和能耗為目標(biāo)^[12]。在已有的研究中，并未考慮衛(wèi)星物聯(lián)網(wǎng)中任務(wù)類型的多樣性。然而，本地物聯(lián)網(wǎng)設(shè)備資源有限，為每一種任務(wù)類型部署一套獨(dú)立的卸載策略是不切實(shí)際的，并且會(huì)導(dǎo)致資源的浪費(fèi)。不僅如此，策略之間的頻繁切換會(huì)增大任務(wù)處理的時(shí)延。

此外，為了提升計(jì)算卸載策略在動(dòng)態(tài)環(huán)境下的表現(xiàn)能力，一些工作^[13～17]致力于研究基于強(qiáng)化學(xué)習(xí)的計(jì)算卸載方案。文獻(xiàn)[18]提出了一種基于深度強(qiáng)化學(xué)習(xí)的計(jì)算卸載策略，旨在考慮計(jì)算資源和能耗等約束，同時(shí)最小化系統(tǒng)成本；文獻(xiàn)[19]提出了一種基于Actor-Critic網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)物聯(lián)網(wǎng)應(yīng)用計(jì)算卸載方案來(lái)降低系統(tǒng)開(kāi)銷；文獻(xiàn)[20]提出了一種基于DDQN的方法以確定計(jì)算卸載和資源分配的聯(lián)合策略來(lái)降低系統(tǒng)能耗；文獻(xiàn)[21]提出了一種基于DDPG的時(shí)間注意力確定性策略梯度來(lái)解決計(jì)算卸載和資源分配的聯(lián)合優(yōu)化問(wèn)題。然而，上述文獻(xiàn)假設(shè)計(jì)算設(shè)備在完成當(dāng)前任務(wù)之前不會(huì)接收新的任務(wù)，這一假設(shè)僅關(guān)注了系統(tǒng)的短暫性能，忽視了對(duì)長(zhǎng)期系統(tǒng)性能的優(yōu)化，是不切實(shí)際的。

為了解決上述問(wèn)題，本文提出了一種以優(yōu)化時(shí)延為目標(biāo)的基于DQN^[22]多類型任務(wù)的計(jì)算卸載策略。該策略可以同時(shí)考慮多類型任務(wù)如時(shí)延敏感型以及計(jì)算密集型任務(wù)，提高模型泛化能力，在最大程度地減少計(jì)算任務(wù)處理時(shí)延的同時(shí)提高計(jì)算資源利用率；同時(shí)，引入排隊(duì)論思想，實(shí)現(xiàn)最小化長(zhǎng)期系統(tǒng)任務(wù)處理平均時(shí)延。

1 系統(tǒng)模型和問(wèn)題描述

1.1 系統(tǒng)模型

在SIoT環(huán)境下，如圖1所示，系統(tǒng)由本地物聯(lián)網(wǎng)設(shè)備、地面邊緣服務(wù)器和地面云計(jì)算中心組成。在該場(chǎng)景中，對(duì)于本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生的計(jì)算任務(wù)系統(tǒng)根據(jù)當(dāng)前系統(tǒng)中設(shè)備資源狀態(tài)與任務(wù)屬性選擇卸載設(shè)備。本地物聯(lián)網(wǎng)設(shè)備和地面邊緣服務(wù)器都具有一定的計(jì)算資源，可以處理計(jì)算需求較低或者對(duì)時(shí)延要求比較高的時(shí)延敏感型任務(wù)。通過(guò)衛(wèi)星傳輸會(huì)產(chǎn)生較大的傳輸延遲，對(duì)于一些計(jì)算資源需求高的計(jì)算密集型任務(wù)可以通過(guò)衛(wèi)星中繼至地面云計(jì)算中心處理。衛(wèi)星天線配備了強(qiáng)大的定向天線，并通過(guò)衛(wèi)星到地面鏈路與低軌衛(wèi)星通信，為該區(qū)域內(nèi)的本地物聯(lián)網(wǎng)設(shè)備提供衛(wèi)星網(wǎng)絡(luò)接入服務(wù)。它們可以支持大量的物聯(lián)網(wǎng)設(shè)備，類似于蜂窩網(wǎng)絡(luò)或區(qū)域IP網(wǎng)絡(luò)。然而，考慮到本地物聯(lián)網(wǎng)設(shè)備與地面邊緣服務(wù)器的計(jì)算資源有限，需要引入排隊(duì)模型來(lái)處理任務(wù)。在本場(chǎng)景中，假設(shè)地面云計(jì)算中心的計(jì)算資源無(wú)限大，對(duì)于發(fā)送至地面云計(jì)算中心的任務(wù)均可以分配相應(yīng)資源，因此在地面云計(jì)算中心中不考慮排隊(duì)模型。設(shè)備之間通信方式有衛(wèi)星天線與邊緣服務(wù)器、信關(guān)站、本地物聯(lián)網(wǎng)設(shè)備通信的無(wú)線鏈路，包括WiFi、藍(lán)牙等；衛(wèi)星天線與低軌衛(wèi)星的通信方式有星地鏈路，如Ku、Ka波段等。

為了便于表達(dá)和分析，定義本地物聯(lián)網(wǎng)設(shè)備的集合為U={U_i|1≤i≤I}，所有本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生任務(wù)的集合為T(mén)={T_i，j|1≤i≤I，1≤j≤J}。假設(shè)本地物聯(lián)網(wǎng)設(shè)備U_i產(chǎn)生了一個(gè)計(jì)算任務(wù)T_i，j。由于，考慮本文目標(biāo)是支持多任務(wù)種類類型，采用一個(gè)元組（φ_i，j，c_i，j，ρ_i，j，t_i，j）表示每個(gè)本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生的計(jì)算任務(wù)T_i，j。這里φ_i，j表示本地物聯(lián)網(wǎng)設(shè)備U_i產(chǎn)生的計(jì)算任務(wù)T_i，j的數(shù)據(jù)大小，單位為bit；c_i，j表示本地物聯(lián)網(wǎng)設(shè)備U_i產(chǎn)生的計(jì)算任務(wù)T_i，j每bit所需的CPU周期數(shù)，單位為cycles/bit；ρ_i，j表示本地物聯(lián)網(wǎng)設(shè)備U_i產(chǎn)生的計(jì)算任務(wù)T_i，j的最大容忍時(shí)延，單位為s；t_i，j表示當(dāng)前計(jì)算任務(wù)的任務(wù)類型，如時(shí)延敏感型、時(shí)延容忍型等，將任務(wù)類型作為任務(wù)屬性，模型在動(dòng)作選擇時(shí)可以根據(jù)當(dāng)前任務(wù)類型及環(huán)境信息選擇合適的動(dòng)作，以此來(lái)增加模型在處理多類型任務(wù)的泛化能力。本文考慮多個(gè)地面邊緣服務(wù)器，即邊緣服務(wù)器的集合為E={E_k|1≤k≤K}，環(huán)境中時(shí)隙為t，對(duì)于不同時(shí)隙的本地物聯(lián)網(wǎng)設(shè)備來(lái)說(shuō)，由于計(jì)算資源的時(shí)變性，其可選擇的卸載對(duì)象是時(shí)變的。假設(shè)本地物聯(lián)網(wǎng)設(shè)備生成給定數(shù)據(jù)大小的計(jì)算任務(wù)，設(shè)備最初會(huì)獲取有關(guān)計(jì)算任務(wù)需求的信息。隨后，根據(jù)任務(wù)需求和SIoT網(wǎng)絡(luò)中可用的計(jì)算資源，設(shè)備使用卸載策略將計(jì)算任務(wù)分配給指定設(shè)備進(jìn)行處理。最后，在指定設(shè)備完成計(jì)算任務(wù)后，將結(jié)果返回給本地物聯(lián)網(wǎng)設(shè)備。由于任務(wù)處理結(jié)果相對(duì)于任務(wù)大小來(lái)說(shuō)較小，所以任務(wù)的處理延遲主要為任務(wù)傳輸延遲以及任務(wù)計(jì)算延遲。因此，系統(tǒng)在整個(gè)任務(wù)卸載過(guò)程中的平均處理延遲是評(píng)估系統(tǒng)內(nèi)卸載策略有效性的關(guān)鍵性能指標(biāo)。

1.2 排隊(duì)模型

在本文中，考慮到本地物聯(lián)網(wǎng)設(shè)備與地面邊緣服務(wù)器的計(jì)算資源有限，需要引入排隊(duì)模型來(lái)處理任務(wù)。本文中排隊(duì)模型遵循先來(lái)先服務(wù)原則，本地物聯(lián)網(wǎng)設(shè)備以隊(duì)列q^local_i、地面邊緣服務(wù)器以隊(duì)列q^edge_k來(lái)存儲(chǔ)到達(dá)的任務(wù)，對(duì)于時(shí)隙t到達(dá)本地物聯(lián)網(wǎng)設(shè)備U_i的計(jì)算任務(wù)，可以在時(shí)隙t+1內(nèi)被處理，同時(shí)時(shí)隙t+1所到達(dá)的任務(wù)，需要等待時(shí)隙t到達(dá)本地物聯(lián)網(wǎng)設(shè)備U_i的計(jì)算任務(wù)處理完之后被處理，本地物聯(lián)網(wǎng)設(shè)備U_i的排隊(duì)隊(duì)列可表示為

Q^local_i=［Task^i，1_local，Task^i，2_local，…，Task^i，n_local］（1）

其中：Task^i，n_local為到達(dá)本地物聯(lián)網(wǎng)設(shè)備U_i未被處理的任務(wù)信息，包括到達(dá)時(shí)間和所需的處理時(shí)延。本地物聯(lián)網(wǎng)設(shè)備U_i的排隊(duì)時(shí)延q^local_i可表示為

q^local_i=∑n1（task^i，1_local+task^i，2_local+…+task^i，n_local）（2）

其中：task^i，n_local為到達(dá)本地物聯(lián)網(wǎng)設(shè)備U_i未被處理任務(wù)所需的處理時(shí)延，包括計(jì)算時(shí)延和通信時(shí)延。

同理，邊緣服務(wù)器k的排隊(duì)隊(duì)列可表示為

Q^edge_k=［Task^k，1_edge，Task^k，2_edge，…，Task^k，n_edge］（3）

其中：Task^k，n_edge為到達(dá)邊緣服務(wù)器k未被處理的任務(wù)信息，包括到達(dá)時(shí)間和所需的處理時(shí)延。邊緣服務(wù)器k的排隊(duì)時(shí)延q^edge_k可表示為

q^edge_k=∑n1（task^k，1_edge+task^k，2_edge…+task^k，n_edge）（4）

其中：task^k，n_edge為到達(dá)邊緣服務(wù)器E_k未被處理任務(wù)所需的處理時(shí)延，包括計(jì)算時(shí)延和通信時(shí)延。

1.3 通信模型

在本文中，設(shè)備之間通信采用端到端的通信方式進(jìn)行通信，衛(wèi)星天線到低軌衛(wèi)星的傳輸速率R_s可表示為

R_s=ω_slog₂（1+P_S×G_sσ_s）（5）

其中：ω_s為星地鏈路的帶寬；P_s為衛(wèi)星天線的鏈路傳輸功率；σ_s為衛(wèi)星天線與低軌衛(wèi)星之間的信道噪聲功率；G_s為低軌衛(wèi)星的信道增益。

同理，卸載到地面邊緣服務(wù)器傳輸速率R_e可表示為

R_e=ω_elog₂（1+P_e×G_eσ_e）（6）

其中：ω_e為地面無(wú)線鏈路的帶寬；P_e為衛(wèi)星天線與地面邊緣服務(wù)器之間的鏈路傳輸功率；G_e為地面邊緣服務(wù)器的信道增益；σ_e為衛(wèi)星天線與地面邊緣服務(wù)器之間的信道噪聲功率。

1.4 計(jì)算模型

在本文中對(duì)于每個(gè)物聯(lián)網(wǎng)設(shè)備產(chǎn)生的任務(wù)不可分割，單個(gè)完全卸載。且由于衛(wèi)星物聯(lián)網(wǎng)中本地物聯(lián)網(wǎng)設(shè)備與地面邊緣服務(wù)器資源有限，所以本文考慮在這兩種設(shè)備處理任務(wù)時(shí)會(huì)產(chǎn)生的排隊(duì)時(shí)延。

a）本地物聯(lián)網(wǎng)設(shè)備計(jì)算。

由于本地計(jì)算不產(chǎn)生傳輸時(shí)延，所以對(duì)于物聯(lián)網(wǎng)設(shè)備U_i處理計(jì)算任務(wù)T_i，j產(chǎn)生的計(jì)算時(shí)延表示為

d^i，j_local=c_i，jφ_i，jfⁱ_u+q^local_i（7）

其中：fⁱ_u為物聯(lián)網(wǎng)設(shè)備U_i的計(jì)算能力；φ_i，j表示物聯(lián)網(wǎng)設(shè)備U_i產(chǎn)生的計(jì)算任務(wù)T_i，j的數(shù)據(jù)大??；c_i，j表示物聯(lián)網(wǎng)設(shè)備U_i產(chǎn)生的計(jì)算任務(wù)T_i，j所需的CPU周期數(shù)，q^local_i為物聯(lián)網(wǎng)設(shè)備U_i的排隊(duì)時(shí)延。

b）地面邊緣服務(wù)器計(jì)算。

本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生任務(wù)之后如果選擇卸載到其所觀測(cè)到的邊緣服務(wù)器，計(jì)算任務(wù)T_i，j卸載到地面邊緣服務(wù)器k處理產(chǎn)生的時(shí)延可表示為

d^i，j_edge=φ_i，jR_e+c_i，jφ_i，jf^k_e+q^edge_k（8）

其中：φ_i，jR_e表示計(jì)算任務(wù)從本地物聯(lián)網(wǎng)設(shè)備到地面邊緣服務(wù)器的傳輸時(shí)延；R_e表示從物聯(lián)網(wǎng)設(shè)備U_i到邊緣服務(wù)器的傳輸速率；c_i，jφ_i，jf^k_e表示計(jì)算任務(wù)在邊緣服務(wù)器E_k上處理產(chǎn)生的計(jì)算時(shí)延；f^k_e表示邊緣服務(wù)器E_k的計(jì)算能力；q^edge_k表示計(jì)算任務(wù)在邊緣服務(wù)器k上等待被處理產(chǎn)生的排隊(duì)時(shí)延。

c）地面云計(jì)算中心計(jì)算。

物聯(lián)網(wǎng)設(shè)備產(chǎn)生任務(wù)之后如果選擇卸載到地面云計(jì)算中心，計(jì)算任務(wù)T_i，j卸載到衛(wèi)星邊緣節(jié)點(diǎn)產(chǎn)生的時(shí)延可表示為

d^i，j_cloud=c_i，jφ_i，jf^m_c+φ_i，jR_s（9）

其中：c_i，jφ_i，jf^m_c表示計(jì)算任務(wù)在地面云計(jì)算中心處理產(chǎn)生的計(jì)算時(shí)延；f^m_c表示地面云計(jì)算中心分配給任務(wù)T_i，j的計(jì)算能力；φ_i，jR_s表示計(jì)算任務(wù)從計(jì)算任務(wù)在地面云計(jì)算中心的傳輸時(shí)延。

1.5 問(wèn)題描述

對(duì)于本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生的計(jì)算任務(wù)，要么本地物聯(lián)網(wǎng)設(shè)備處理，要么卸載至地面邊緣服務(wù)器上處理，要么卸載至地面云計(jì)算中心處理。因此引入一個(gè)卸載決策X_i，j表示計(jì)算任務(wù)的卸載情況：

X_i，j={x_i，j，y_i，j，z_i，j}（10）

x_i，j∈{0，1}，y_i，j∈{0，1}，z_i，j∈{0，1}（11）

x_i，j+y_i，j+z_i，j=1（12）

其中：x_i，j表示本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生的計(jì)算任務(wù)是否在本地處理，y_i，j表示本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生的計(jì)算任務(wù)是否卸載到地面邊緣服務(wù)器上處理；z_i，j表示本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生的計(jì)算任務(wù)是否卸載到地面云計(jì)算中心處理。因此，系統(tǒng)處理任務(wù)平均時(shí)延為

D=1|T|∑UU_i∑TT_i，jx_i，jD^i，j_local+y_i，jD^i，j_edge+z_i，jD^i，j_cloud（13）

本文的目的是找到使整個(gè)系統(tǒng)的平均任務(wù)處理時(shí)延最小的卸載策略，則針對(duì)優(yōu)化問(wèn)題的目標(biāo)函數(shù)可以表述如下：

P1：MinimizeD（14）

s.t.C1：式（10）～（12），?T_i，j∈T（15）

C₂：x_i，jd^i，j_local+y_i，jd^i，j_edge+z_i，jd^i，j_cloud≤ρ_i，j（16）

C3：T_i，j（f^u）=1，?i∈1，2，…，I，j∈1，2，…，J，u∈1，2，…，I（17）

C4：T_i，j（f^k）=1，?i∈1，2，…，I，j∈1，2，…，J，k∈1，2，…，K（18）

其中：C1是卸載約束，表示計(jì)算任務(wù)可以本地處理、邊緣服務(wù)器或者地面云計(jì)算中心上處理；C2是任務(wù)時(shí)延容忍約束，表示任務(wù)從產(chǎn)生到處理完成的時(shí)延要在給定的ρ_i，j范圍之內(nèi)；C3和C4表示保證每個(gè)任務(wù)只分配給一個(gè)本地物聯(lián)網(wǎng)設(shè)備或地面邊緣服務(wù)器處理。

P1是一個(gè)任務(wù)數(shù)未知的非線性優(yōu)化問(wèn)題，用常規(guī)方法很難求解?？紤]到衛(wèi)星物聯(lián)網(wǎng)中物聯(lián)網(wǎng)設(shè)備產(chǎn)生的任務(wù)具有隨機(jī)性和多樣性，如時(shí)延敏感型和計(jì)算密集型任務(wù)，并且物聯(lián)網(wǎng)設(shè)備和地面邊緣服務(wù)器的計(jì)算帶寬資源具有有限性，本文將衛(wèi)星物聯(lián)網(wǎng)中計(jì)算卸載重新表述為最小化系統(tǒng)長(zhǎng)期平均任務(wù)處理時(shí)延為目標(biāo)的最優(yōu)馬爾可夫決策過(guò)程來(lái)求解，設(shè)計(jì)了一種基于DQN的多任務(wù)種類計(jì)算卸載策略來(lái)解決該問(wèn)題。在本地物聯(lián)網(wǎng)設(shè)備和地面邊緣服務(wù)器資源的限制下，考慮多任務(wù)種類特性并引入排隊(duì)論，最大限度地減少計(jì)算任務(wù)處理延遲，達(dá)到最小化系統(tǒng)長(zhǎng)期平均任務(wù)處理時(shí)延的效果。

2 基于DQN 多類型任務(wù)的計(jì)算卸載策略

本文首先將問(wèn)題P1表述為馬爾可夫決策過(guò)程，然后提出了一種基于 DQN 的多類型任務(wù)計(jì)算卸載策略，之后又詳細(xì)介紹了策略設(shè)計(jì)方案。

2.1 馬爾可夫決策過(guò)程

本文定義了一個(gè)元組M：=〈S，A，C，π〉來(lái)模擬馬爾可夫決策過(guò)程。具體來(lái)說(shuō)，S表示狀態(tài)的集合，A是動(dòng)作的集合，C表示成本函數(shù)，π是策略。同時(shí)，將C（s，a）定義為系統(tǒng)處于狀態(tài)s并采取行動(dòng)a時(shí)的成本。對(duì)于上述問(wèn)題，馬爾可夫決策過(guò)程模型中的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)以及策略表示如下：

a）狀態(tài)空間。

在時(shí)隙t中，用一個(gè)元組來(lái)表示當(dāng)前時(shí)隙狀態(tài)（D_t，Task_t，E_t），其中，D_t為當(dāng)前時(shí)隙產(chǎn)生任務(wù)設(shè)備資源使用情況，Task_t為當(dāng)前時(shí)隙產(chǎn)生任務(wù)屬性，E_t為前時(shí)隙可卸載目標(biāo)設(shè)備資源使用情況，包括邊緣服務(wù)器以及地面云計(jì)算中心。

b）動(dòng)作空間。

在時(shí)隙t中，將動(dòng)作空間定義為a_t=H_t，其中H_t為當(dāng)前時(shí)隙任務(wù)卸載目標(biāo)，當(dāng)H_t=0時(shí)為本地物聯(lián)網(wǎng)設(shè)備自身進(jìn)行處理，當(dāng)H_t=1或2時(shí)，選擇邊緣服務(wù)器進(jìn)行處理，當(dāng)H_t=3時(shí)，選擇地面云計(jì)算中心進(jìn)行處理。

c）獎(jiǎng)勵(lì)。

在時(shí)隙t中，當(dāng)本地物聯(lián)網(wǎng)設(shè)備采取行動(dòng)時(shí)，將獲取獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)。獎(jiǎng)勵(lì)的目的是評(píng)價(jià)當(dāng)前時(shí)隙所采取行動(dòng)的好壞，而獎(jiǎng)勵(lì)函數(shù)將直接影響強(qiáng)化學(xué)習(xí)算法的結(jié)果。具體而言，在本文的動(dòng)作選擇階段，動(dòng)作空間包括將計(jì)算任務(wù)放在本地物聯(lián)網(wǎng)設(shè)備計(jì)算、地面邊緣服務(wù)器計(jì)算和地面云計(jì)算中心計(jì)算。在采取行動(dòng)后，使用獎(jiǎng)勵(lì)函數(shù)來(lái)評(píng)估行動(dòng)的好壞。本文通過(guò)計(jì)算處理計(jì)算任務(wù)的處理時(shí)延來(lái)衡量卸載動(dòng)作的好壞。其中，本文處理計(jì)算任務(wù)T_i，j的處理時(shí)延表示為

D_i，j=x_id^i，j_local+y_id^i，j_edge+z_id^i，j_cloud（19）

可得本文的獎(jiǎng)勵(lì)表示為

r_i=－D_i，j D_i，jlt;ρ_i，j－D_i，j－ρ_i，j D_i，jgt;ρ_i，j（20）

其中：ρ_i，j為任務(wù)最大處理延遲。當(dāng)任務(wù)處理時(shí)延超過(guò)最大時(shí)延時(shí)則給予相應(yīng)的懲罰。

d）策略。

本文用π表示策略。對(duì)于深度強(qiáng)化學(xué)習(xí)，訓(xùn)練好的策略可以應(yīng)用于每個(gè)本地物聯(lián)網(wǎng)設(shè)備，本地物聯(lián)網(wǎng)設(shè)備根據(jù)當(dāng)前時(shí)隙t所產(chǎn)生的任務(wù)作出卸載決策。

2.2 基于DQN的計(jì)算卸載算法設(shè)計(jì)方案

在深度強(qiáng)化學(xué)習(xí)領(lǐng)域，DQN算法是一種廣受歡迎的方法，但它在探索機(jī)制上仍有改進(jìn)的空間，DQN算法如圖2所示?，F(xiàn)有的探索策略，如ε-貪婪（ε-greedy）方法，在平衡模型效果和探索方面往往效果不佳。為了解決這個(gè)問(wèn)題，本文設(shè)計(jì)了一種新的探索方法，探索因子隨訓(xùn)練輪數(shù)的增加而指數(shù)減少，旨在提高DQN算法在未知環(huán)境中的探索能力，以及模型的整體表現(xiàn)能力。具體如算法1所示。

算法1 ε探索因子更新算法

初始化：衰減速率N，ε_max探索因子最大值，ε_min探索因子最小值，訓(xùn)練輪數(shù)episode。

輸入：當(dāng)前訓(xùn)練輪數(shù)n。

輸出：探索因子ε。

初始化探索因子ε_max

if nlt;episode do

ε=ε_min+（ε_max－ε_min）×e^（^－1^×nN）

return ε

此外，當(dāng)前深度強(qiáng)化學(xué)習(xí)在面對(duì)龐大的狀態(tài)空間時(shí)，往往會(huì)面臨訓(xùn)練難度加大的挑戰(zhàn)。為了降低訓(xùn)練難度，考慮從狀態(tài)空間的設(shè)計(jì)進(jìn)行優(yōu)化。本文在針對(duì)每個(gè)本地物聯(lián)網(wǎng)設(shè)備狀態(tài)設(shè)計(jì)時(shí)，僅考慮自身資源狀態(tài)信息，這樣在當(dāng)用戶數(shù)量增加時(shí)，相比較考慮所有用戶資源訓(xùn)練難度要低。具體如算法2所示。

算法2 基于DQN的計(jì)算卸載算法

初始化：初始化經(jīng)驗(yàn)池大小為D，目標(biāo)Q網(wǎng)絡(luò)更新頻率，訓(xùn)練輪數(shù)episode，環(huán)境訓(xùn)練參數(shù)，初始Q網(wǎng)絡(luò)權(quán)重ω，初始化目標(biāo)網(wǎng)絡(luò)權(quán)重θ，初始探索因子ε_max，時(shí)隙大小T， batch size大小B。

輸入：本地物聯(lián)網(wǎng)設(shè)備、地面邊緣服務(wù)器、任務(wù)屬性、地面云計(jì)算中心的狀態(tài)信息。

輸出：所有任務(wù)的動(dòng)作和獎(jiǎng)勵(lì)，訓(xùn)練網(wǎng)絡(luò)并更新網(wǎng)絡(luò)。

for each episode do

初始化狀態(tài)s_t+1

根據(jù)算法1更新探索因子ε

for t=1，T do

根據(jù)探索因子選擇動(dòng)作a_t

本地物聯(lián)網(wǎng)設(shè)備執(zhí)行動(dòng)作a_t，獲得獎(jiǎng)勵(lì)r_t和下一時(shí)刻狀態(tài)s_t+1

將（s_t，a_t，r_t，s_t+1）存儲(chǔ)到D中

從D中隨機(jī)采樣含有數(shù)目為B大小的樣本數(shù)據(jù)

更新Q網(wǎng)絡(luò)權(quán)重和目標(biāo)Q網(wǎng)絡(luò)權(quán)重

end for

在算法2中，探索因子在每個(gè)episode更新。將環(huán)境狀態(tài)作為輸入來(lái)生成卸載動(dòng)作。隨后，將當(dāng)前環(huán)境狀態(tài)、執(zhí)行該動(dòng)作后獲得的下一個(gè)環(huán)境狀態(tài)以及相應(yīng)的獎(jiǎng)勵(lì)存儲(chǔ)在回放緩沖區(qū)中。最后，網(wǎng)絡(luò)參數(shù)通過(guò)從回放緩沖區(qū)隨機(jī)采樣來(lái)更新Q網(wǎng)絡(luò)權(quán)重和目標(biāo)Q網(wǎng)絡(luò)權(quán)重。

3 仿真結(jié)果與分析

3.1 基于DQN的計(jì)算卸載策略設(shè)計(jì)方案

本文假設(shè)在衛(wèi)星物聯(lián)網(wǎng)和邊緣計(jì)算結(jié)合的場(chǎng)景中，系統(tǒng)由4個(gè)本地物聯(lián)網(wǎng)設(shè)備、2個(gè)邊緣服務(wù)器和1個(gè)云計(jì)算中心組成。對(duì)于每個(gè)本地物聯(lián)網(wǎng)設(shè)備產(chǎn)生的任務(wù)，任務(wù)種類有時(shí)延敏感型任務(wù)和計(jì)算密集型任務(wù)，任務(wù)的數(shù)據(jù)大小在 1～5 MB ，任務(wù)CPU周期數(shù)大小為 0～20 cycles，本地物聯(lián)網(wǎng)設(shè)備的計(jì)算能力為 0.2 GHz;邊緣服務(wù)器的計(jì)算能力在5～15 GHz，地面云計(jì)算中心給每個(gè)計(jì)算任務(wù)分配的計(jì)算能力為 10 GHz，系統(tǒng)帶寬為 5 MHz，地面?zhèn)鬏敼β蕿?5 mW，星地傳輸功率為 8 mW。實(shí)驗(yàn)中的默認(rèn)參數(shù)如表1所示。

提出的基于DQN的計(jì)算卸載方法通過(guò)Python 3.7和PyTorch開(kāi)源機(jī)器學(xué)習(xí)庫(kù)實(shí)現(xiàn)。DQN的訓(xùn)練使用NVIDIA 4060 GPU進(jìn)行。DQN的Q網(wǎng)絡(luò)包括4個(gè)完全連接的隱藏層，共有128個(gè)神經(jīng)元；采用ReLU函數(shù)作為激活函數(shù)，實(shí)現(xiàn)全連接層后的非線性逼近。在DQN訓(xùn)練中采用Adam優(yōu)化器。

3.2 仿真結(jié)果

本文分兩部分展示了本文策略的仿真結(jié)果。首先評(píng)估了本文方法的收斂性能。其次，將所提出的方法與其他卸載方法的性能進(jìn)行比較，依次比較了不同條件下的平均延遲等。

1）收斂性能

為了評(píng)估方法的收斂性，評(píng)估了本文方法在不同參數(shù)下的收斂性。在實(shí)驗(yàn)中，將epoch大小設(shè)置為5 000。圖3展示了方法在不同學(xué)習(xí)率下的收斂情況，其中學(xué)習(xí)率表示每次迭代中向損失函數(shù)最小值移動(dòng)的步長(zhǎng)。在本實(shí)驗(yàn)中，將學(xué)習(xí)率（lr）分別設(shè)置為1E-3、1E-4和1E-5。從圖中可以看出，當(dāng)學(xué)習(xí)率設(shè)置為1E-3時(shí)，收斂速度快，但收斂時(shí)的振蕩幅度大于學(xué)習(xí)率設(shè)置為1E-4或1E-5時(shí)的振蕩幅度。但是，當(dāng)學(xué)習(xí)率設(shè)置為1E-5時(shí)，收斂速度較慢。

圖4說(shuō)明了該方法在不同batch size下的收斂性，其中batch size表示每次代理更新時(shí)采樣的經(jīng)驗(yàn)數(shù)量。在實(shí)驗(yàn)中，batch size分別設(shè)置為32、64和128。從圖中可以看出，當(dāng)batch size設(shè)置為64時(shí)，收斂迅速有效。然而，當(dāng)batch size設(shè)置為32時(shí)，盡管收斂速度很快，但振蕩幅度較大，模型訓(xùn)練速度較慢。當(dāng)batch size設(shè)置為128時(shí)，雖然收斂效果較好，但收斂速度相對(duì)較慢。

本文在確認(rèn)算法的收斂范圍在[4 000，4 500]內(nèi)后，驗(yàn)證了在epoch 4 000～4 500進(jìn)行30 000次卸載操作的結(jié)果。從圖5可以看出，隨著數(shù)據(jù)量的增加，本地物聯(lián)網(wǎng)設(shè)備計(jì)算、地面邊緣服務(wù)器計(jì)算和地面云計(jì)算中心系統(tǒng)平均延遲也在增加，說(shuō)明了算法模型的正確性。

此外，為了驗(yàn)證本文算法1的正確性，本文在傳統(tǒng)探索因子ε固定為0.1的情況下作比較，結(jié)果如圖6所示，可見(jiàn)在算法1的加持下模型結(jié)果表現(xiàn)較好。

2）性能比較

為了驗(yàn)證所提方法的優(yōu)越性和可靠性，本文將其與Q-Learning方法（Q-Learning）、隨機(jī)卸載方法（Random）、博弈論卸載方法（Game Theory）、本地卸載（Local）、邊緣服務(wù)器卸載（Remote）五種卸載方法進(jìn)行了比較。與其他五種卸載相比，本文提出的計(jì)算卸載算法實(shí)現(xiàn)了最低的平均系統(tǒng)任務(wù)處理延遲。

a）Q-Learning方法：Q-Learning是一種無(wú)模型的強(qiáng)化學(xué)習(xí)算法，通過(guò)探索和利用行為來(lái)學(xué)習(xí)在給定狀態(tài)下執(zhí)行哪個(gè)動(dòng)作以最大化累積獎(jiǎng)勵(lì)。

b）隨機(jī)卸載方法：隨機(jī)方法是一種隨機(jī)行動(dòng)選擇算法，通過(guò)在每個(gè)決策階段隨機(jī)選擇行動(dòng)來(lái)解決問(wèn)題。

c）博弈論卸載方法：博弈論方法涉及多個(gè)參與者在給定環(huán)境中作出決策，并根據(jù)其他參與者的行動(dòng)和策略評(píng)估和選擇最優(yōu)決策。

d）本地卸載：本地卸載，即將所有計(jì)算任務(wù)卸載至自身進(jìn)行計(jì)算。

e）邊緣服務(wù)器卸載：即將所有計(jì)算任務(wù)卸載至邊緣服務(wù)器進(jìn)行計(jì)算。

如圖7所示，在實(shí)驗(yàn)中，將任務(wù)數(shù)據(jù)大小分別設(shè)置為1 MB、2 MB、3 MB、4 MB和5 MB，并將本文方法與其他五種卸載方法在延遲方面進(jìn)行比較。當(dāng)任務(wù)數(shù)據(jù)量從1 MB增加到5 MB時(shí)，與其他五種卸載方法相比，本文算法可以保持最低的延遲。

通過(guò)比較發(fā)現(xiàn)，本文方法的系統(tǒng)任務(wù)處理平均時(shí)延與Q-Learning方法相比平均時(shí)延降低了26.69%，與隨機(jī)卸載方法相比降低了約24.69%，與博弈論卸載方法相比平均時(shí)延降低了35.08%，與本地卸載相比平均降低了68.30%，與邊緣服務(wù)器卸載相比平均降低了53.39%。

此外，將地面邊緣服務(wù)器的計(jì)算能力分別設(shè)置為5 GHz、7.5 GHz、10 GHz、12.5 GHz和15 GHz，并將提出的策略與其他五種卸載方法在延遲方面進(jìn)行了比較。如圖8所示，當(dāng)?shù)孛孢吘壏?wù)器的計(jì)算能力從5 GHz增加到15 GHz時(shí)，與其他五種卸載方法相比，本文策略可以保持最低的延遲。

通過(guò)比較發(fā)現(xiàn)，所提策略的系統(tǒng)任務(wù)處理平均時(shí)延與Q-Learning方法相比平均時(shí)延降低了30.34%，與隨機(jī)卸載方法相比降低了約19.23%，與博弈論卸載方法相比平均降低了31.24%，與本地卸載相比平時(shí)低了74.55%，與邊緣服務(wù)器卸載相比平均降低了55.52%。

4 結(jié)束語(yǔ)

本文深入研究了衛(wèi)星物聯(lián)網(wǎng)下針對(duì)多類型任務(wù)的計(jì)算卸載問(wèn)題，提出了一種基于DQN的多類型任務(wù)計(jì)算卸載策略，該策略的核心在于考慮多種任務(wù)類型，減少計(jì)算資源的浪費(fèi)，并且引入排隊(duì)論，長(zhǎng)期優(yōu)化系統(tǒng)處理任務(wù)最小時(shí)延。此外，本文還通過(guò)改進(jìn)探索機(jī)制來(lái)增加模型在訓(xùn)練時(shí)的探索范圍，改善模型表現(xiàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明，該策略對(duì)比其他幾種卸載方法在處理任務(wù)方面的優(yōu)越性，驗(yàn)證了策略的有效性和優(yōu)越性。

在未來(lái)工作中，隨著衛(wèi)星技術(shù)的發(fā)展，星上具有處理能力，星上計(jì)算來(lái)輔助衛(wèi)星物聯(lián)網(wǎng)中計(jì)算任務(wù)的處理是筆者下一步的工作計(jì)劃。此外，筆者計(jì)劃利用STK （System Tool Kit）獲取衛(wèi)星數(shù)據(jù)，同時(shí)考慮綜合空間-地球網(wǎng)絡(luò)中網(wǎng)絡(luò)拓?fù)涞膭?dòng)態(tài)，同時(shí)優(yōu)化多維資源。

參考文獻(xiàn)：

[1]Deng Ruoqi， Di Boya， Chen Shanzhi， et al. Ultra-dense LEO satellite offloading for terrestrial networks： how much to pay the satellite operator？ [J]. IEEE Trans on Wireless Communications， 2020， 19 （10）： 6240-6254.

[2]Kim T， Kwak J， Choi J P. Satellite edge computing architectures and network slice scheduling for IoT support [J]. IEEE Internet of Things Journal， 2021， 9 （16）： 14938-14951.

[3]Cui Gaofeng， Long Yating， Xu Lexi， et al. Joint offloading and resource allocation for satellite assisted vehicle-to-vehicle communication [J]. IEEE Systems Journal， 2020， 15 （3）： 3958-3969.

[4]Tang Qingqing， Fei Zesong， Li Bin， et al. Stochastic computation offloading for LEO satellite edge computing networks： a learning-based approach [J]. IEEE Internet of Things Journal， 2024，11（4）：5638-5652.

[5]Fortino G， Savaglio C， Spezzano G， et al. Internet of Things as system of systems： a review of methodologies， frameworks， platforms， and tools [J]. IEEE Trans on Systems， Man， and Cybernetics： Systems， 2020， 51 （1）： 223-236.

[6]Franco P， Martínez J M，Kim Y C， et al. A framework for IoT based appliance recognition in smart homes [J]. IEEE Access， 2021， 9： 133940-133960.

[7]周恒，李麗君，董增壽. 基于異步獎(jiǎng)勵(lì)深度確定性策略梯度的邊緣計(jì)算多任務(wù)資源聯(lián)合優(yōu)化 [J]. 計(jì)算機(jī)應(yīng)用研究， 2023， 40 （5）： 1491-1496. （Zhou Heng， Li Lijun， Dong Zengshou. Multi-tasks resource joint optimization based on asynchronous reward deep deterministic policy gradient in edge computing [J]. Application Research of Computers， 2023， 40 （5）： 1491-1496.）

[8]Ning Zhaolong， Dong Peiran， Wang Xiaojie， et al. Mobile edge computing enabled 5G health monitoring for Internet of medical things： a decentralized game theoretic approach [J]. IEEE Journal on Selected Areas in Communications， 2020， 39 （2）： 463-478.

[9]Huang Jie， Wan Jian， Yu Jianjun， et al. Edge computing-based adaptable trajectory transmission policy for vessels monitoring systems of marine fishery [J]. IEEE Access， 2020， 8： 50684-50695.

[10]Zhu Xiangming， Jiang Chunxiao. Delay optimization for cooperative multi-tier computing in integrated satellite-terrestrial networks [J]. IEEE Journal on Selected Areas in Communications， 2022， 41 （2）： 366-380.

[11]Li Jian， Xue Kaiping， Wei D S L， et al. Energy efficiency and traffic offloading optimization in integrated satellite/terrestrial radio access networks [J]. IEEE Trans on Wireless Communications， 2020， 19（4）： 2367-2381.

[12]Wang Yuanjun， Zhang Jiaxin， Zhang Xing， et al. A computation offloading strategy in satellite terrestrial networks with double edge computing [C]// Proc of IEEE International Conference on Communication Systems. Piscataway， NJ： IEEE Press， 2018： 450-455.

[13]Cao Mintao， Liu Lanyu， Wang Chao， et al. Computation resource offloading in mobile edge computing： a deep reinforcement approach [C]// Proc of the 3rd International Symposium on Computer Technology and Information Science. Piscataway， NJ： IEEE Press，" 2023： 360-364.

[14]Xiao Han， Xu Changqiao， Ma Yunxiao， et al. Edge intelligence： a computational task offloading scheme for dependent IoT application [J]. IEEE Trans on Wireless Communications， 2022， 21 （9）： 7222-7237.

[15]Zhou Huan， Jiang Kai， Liu Xuxun， et al. Deep reinforcement lear-ning for energy-efficient computation offloading in mobile-edge computing [J]. IEEE Internet of Things Journal， 2022， 9 （2）： 1517-1530.

[16]Chen Juan， Xing Huanlai， Xiao Zhiwen， et al. A DRL agent for jointly optimizing computation offloading and resource allocation in MEC [J]. IEEE Internet of Things Journal， 2021， 8 （24）： 17508-17524.

[17]Moghaddasi K， Rajabi S. Double deep Q-learning networks for energy-efficient IoT task offloading in D2D MEC environments [C]// Proc of the 7th International Conference on Internet of Things and App-lications. Piscataway， NJ： IEEE Press， 2023： 1-6.

[18]Osband I， Blundell C， Pritzel A， et al. Deep exploration via bootstrapped DQN[C]//Proc of the 30th International Conference on" Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2016：4033-4041.

[19]Van Hasselt H， Guez A， Silver D. Deep reinforcement learning with double Q-learning [C]// Proc of the 30th AAAI Conference on Artificial Intelligence. Palo Alto，CA： AAAI Press，2016：2094-2100.

[20]Babaeizadeh M， Frosio I， Tyree S， et al. GA3C： GPU-based A3C for deep reinforcement learning [EB/OL]. （2016-11-08）. https：//arxiv.org/abs/1611.06256v2.

[21]Hou Yuenan， Liu Lifeng， Wei Qing， et al. A novel DDPG method with prioritized experience replay [C]// Proc of IEEE International Conference on Systems， Man， and Cybernetics. Piscataway， NJ： IEEE Press，" 2017： 316-321.

[22]Jiang Limin， Zhang Ke. Enhanced DQN in task offloading across multi-tier computing networks [C]// Proc of the 20th International Computer Conference on Wavelet Active Media Technology and Information Processing. Piscataway， NJ： IEEE Press， 2023： 1-6.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

衛(wèi)星物聯(lián)網(wǎng)中面向多類型任務(wù)的計(jì)算卸載策略