天地融合網(wǎng)絡(luò)中基于深度強化學習的計算卸載算法研究

2024-12-26 00:00:00王從羽羅志勇

無線電通信技術(shù) 2024年6期

摘要：隨著近地軌道（ＬｏｗＥａｒｔｈＯｒｂｉｔ，ＬＥＯ）衛(wèi)星網(wǎng)絡(luò)和移動邊緣計算（ＭｏｂｉｌｅＥｄｇｅＣｏｍｐｕｔｉｎｇ，ＭＥＣ）技術(shù)的發(fā)展，通過在ＬＥＯ衛(wèi)星上部署ＭＥＣ服務(wù)器，可以為缺乏計算資源的偏遠地區(qū)提供計算卸載服務(wù)。然而，隨著地面用戶數(shù)量的不斷增加，天地融合網(wǎng)絡(luò)中的計算卸載場景變得越發(fā)復(fù)雜?，F(xiàn)有研究難以應(yīng)對任務(wù)復(fù)雜、到達率較高的場景，針對上述問題，在現(xiàn)有算法的基礎(chǔ)上，提出了一種基于深度強化學習（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＤＲＬ）的并行計算卸載（ＤＲＬ-ｂａｓｅｄＰａｒａｌｌｅｌＣｏｍｐｕｔａｔｉｏｎＯｆｆｌｏａｄｉｎｇ，ＤＰＣＯ）算法。該算法以最小化計算卸載平均時延為優(yōu)化目標進行建模，考慮了阿姆達爾定律對計算性能的影響，并對星上服務(wù)器的計算資源進行劃分，以實現(xiàn)多任務(wù)并行處理的功能。此外，ＤＰＣＯ算法將模型轉(zhuǎn)換為馬爾可夫決策過程（ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ，ＭＤＰ），并使用Ａ２Ｃ（ＡｄｖａｎｔａｇｅＡｃｔｏｒ-Ｃｒｉｔｉｃ）算法對其進行求解。通過仿真實驗驗證了ＤＰＣＯ算法性能，結(jié)果表明該算法有效地解決了現(xiàn)有算法的缺陷，可為天地融合網(wǎng)絡(luò)中的計算卸載算法設(shè)計提供參考和幫助。

關(guān)鍵詞：計算卸載；移動邊緣計算；天地融合網(wǎng)絡(luò)；深度強化學習

中圖分類號：ＴＮ９２７文獻標志碼：Ａ開放科學（資源服務(wù)）標識碼（ＯＳＩＤ）：

文章編號：１００３－３１１４（２０２４）０６－１１７７－０７

０引言

隨著通信技術(shù)的不斷發(fā)展，各種終端設(shè)備之間的頻繁交互顯著增加了對計算資源的需求［１］。然而，由于終端設(shè)備的計算能力有限，用戶難以快速完成海量數(shù)據(jù)的計算任務(wù)。因此，近年來移動計算范式從集中式的云計算［２］向移動邊緣計算（ＭｏｂｉｌｅＥｄｇｅＣｏｍｐｕｔｉｎｇ，ＭＥＣ）［３－５］轉(zhuǎn)變。ＭＥＣ在傳統(tǒng)云計算的基礎(chǔ)上，將計算能力下沉至邊緣，使其更接近用戶的無線接入網(wǎng)絡(luò)。這種方法使得計算密集型和時延敏感型應(yīng)用能夠在資源有限的設(shè)備上得以執(zhí)行。與傳統(tǒng)云計算相比，ＭＥＣ具備了更好的可擴展性、可靠性和時延性能［６］。

隨著天地融合網(wǎng)絡(luò)的發(fā)展，越來越多的學者開始關(guān)注如何利用衛(wèi)星網(wǎng)絡(luò)中的資源［７－８］。通過利用近地軌道（ＬｏｗＥａｒｔｈＯｒｂｉｔ，ＬＥＯ）衛(wèi)星網(wǎng)絡(luò)的全覆蓋能力，在ＬＥＯ衛(wèi)星節(jié)點上部署計算服務(wù)器，可以將計算任務(wù)卸載到衛(wèi)星節(jié)點上。這種方法可以為偏遠地區(qū)的用戶提供計算卸載服務(wù)，并顯著減少了任務(wù)處理的時延。

然而，有限的衛(wèi)星資源和地面用戶日益增長的需求使卸載場景變得越發(fā)復(fù)雜，如何設(shè)計出高效可靠的計算卸載算法成為了研究的重點。為充分利用ＬＥＯ衛(wèi)星網(wǎng)絡(luò)中的通信和計算資源，Ｚｈａｎｇ等［９］提出了一種動態(tài)網(wǎng)絡(luò)功能虛擬化技術(shù)來整合衛(wèi)星網(wǎng)絡(luò)的資源。在衛(wèi)星編排器中增加動態(tài)資源監(jiān)視器，以實現(xiàn)對網(wǎng)絡(luò)資源信息的實時監(jiān)控。這些信息隨后被傳送給用戶和ＭＥＣ服務(wù)器，用于調(diào)整它們的運行策略。

Ｈａｏ等［１０］研究了ＬＥＯ衛(wèi)星ＭＥＣ網(wǎng)絡(luò)中計算卸載、無線資源分配和緩存設(shè)置的聯(lián)合優(yōu)化問題，其目標是最小化所有地面物聯(lián)網(wǎng)設(shè)備的總時延，同時確保滿足能量、計算和緩存約束。為解決這個混合整數(shù)和非凸問題，提出了一種基于拉格朗日對偶分解的算法來獲得閉式最優(yōu)解；然后提出了一種啟發(fā)式算法以降低計算復(fù)雜度。然而，該算法沒有考慮任務(wù)排隊時延，不能準確表示處于繁忙狀態(tài)下的衛(wèi)星計算卸載場景。

Ｌｉｎ等［１１］將ＭＥＣ服務(wù)器上多優(yōu)先級任務(wù)的排隊時延納入了考慮，其算法優(yōu)化目標是在能耗約束下最小化任務(wù)端到端總時延，將其建模為一個混合整數(shù)非線性規(guī)劃問題，并設(shè)計了基于深度強化學習（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＤＲＬ）的動態(tài)任務(wù)卸載（ＤＲＬｂａｓｅｄＤｙｎａｍｉｃＴａｓｋＯｆｆｌｏａｄｉｎｇ，ＤＤＴＯ）算法，可以有效減小任務(wù)處理的總時延。然而，ＤＤＴＯ算法在單個ＭＥＣ服務(wù)器上只能同時計算一個任務(wù)，無法實現(xiàn)多任務(wù)并行計算。此外，它并未考慮阿姆達爾定律［１２］對計算速率的約束，可能導(dǎo)致衛(wèi)星服務(wù)器的計算資源無法得到充分利用。

為解決上述問題，本文提出了一種基于ＤＲＬ的并行計算卸載（ＤＲＬｂａｓｅｄＰａｒａｌｌｅｌＣｏｍｐｕｔａｔｉｏｎＯｆｆｌｏａｄｉｎｇ，ＤＰＣＯ）算法。首先，在天地融合網(wǎng)絡(luò)場景中對計算卸載問題進行了建模，并將優(yōu)化目標設(shè)置為最小化任務(wù)計算卸載平均時延。然后，在建模過程中，考慮了阿姆達爾定律對計算性能的影響，并對ＭＥＣ服務(wù)器的計算資源進行劃分，以實現(xiàn)多任務(wù)的并行處理。在將模型轉(zhuǎn)換為馬爾可夫決策過程（ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ，ＭＤＰ）時，將動作空間設(shè)置為離散形式，提升了算法的收斂速度。最后，使用Ａ２Ｃ（ＡｄｖａｎｔａｇｅＡｃｔｏｒＣｒｉｔｉｃ）算法求解計算卸載策略和資源分配策略的優(yōu)化問題。通過仿真測試評估了ＤＰＣＯ算法的性能，與現(xiàn)有算法相比，ＤＰＣＯ顯著減少了任務(wù)的計算卸載平均時延，并在特定場景中展示出更加顯著的優(yōu)化效果。

１天地融合網(wǎng)絡(luò)計算卸載模型

本文提出了一個天地融合網(wǎng)絡(luò)計算卸載場景的系統(tǒng)模型，如圖１所示。該模型由搭載ＭＥＣ服務(wù)器的ＬＥＯ衛(wèi)星組成，可以為地面用戶提供計算卸載服務(wù)。在天地融合網(wǎng)絡(luò)中設(shè)有Ｍ顆衛(wèi)星，每顆衛(wèi)星攜帶一個ＭＥＣ服務(wù)器，記作集合Ｓ＝｛ｓ１，ｓ２，…，ｓＭ｝，可為覆蓋區(qū)域內(nèi)的Ｎ個地面用戶提供服務(wù)，用戶集合記作Ｕ＝｛ｕ１，ｕ２，…，ｕＮ｝。在時隙ｔ開始時，每個用戶ｕｎ生成待處理的任務(wù)集合Ｍｎ（ｔ）＝｛ωｎ（ｔ），ｚｎ（ｔ），ｐｒｉｎ（ｔ）｝，其中ωｎ（ｔ）表示任務(wù)計算量；ｚｎ（ｔ）表示任務(wù)數(shù)據(jù)量；ｐｒｉｎ（ｔ）表示任務(wù)優(yōu)先級，且定義ｐｒｉｎ（ｔ）∈［１，２，…，ＰＲＩＮ］。

綜上所述，當任務(wù)被卸載到衛(wèi)星ＭＥＣ服務(wù)器時，總的計算時延可以表示為：

ｄＣｎ，ｍ（ｔ）＝ｄＰｎ，ｍ（ｔ）＋ｄＱｎ，ｍ（ｔ）。（１３）

１．３計算卸載問題建模

本文的優(yōu)化目標是在一定的能耗約束下，最小化任務(wù)的平均計算卸載平均時延?；谇拔臉?gòu)建的模型，該優(yōu)化問題可表示為：

式中：Ｅｉ表示用戶ｕｉ的電池容量，ｓｉ（ｔ）∈｛０，１｝定義為一個二元變量。具體來說，當任務(wù)被卸載到衛(wèi)星ＭＥＣ服務(wù)器時，ｓｉ（ｔ）＝１；當任務(wù)執(zhí)行本地計算時，ｓｉ（ｔ）＝０。

優(yōu)化函數(shù)的含義為：在時間周期Ｔ內(nèi)，最小化任務(wù)的計算卸載平均時延。約束條件規(guī)定了用戶的本地計算能耗和總傳輸能耗在周期Ｔ內(nèi)不得超過電池容量。該優(yōu)化目標是一個ＮＰｈａｒｄ問題，可通過將其建模為一個ＭＤＰ來進行求解。

２ＤＰＣＯ算法介紹

２．１基于ＭＤＰ的任務(wù)卸載問題設(shè)計

ＭＤＰ是序列隨機決策問題的模型，因此被廣泛用于自主代理通過動作影響其周圍環(huán)境的應(yīng)用［１７］。

本文將ＭＤＰ定義為一個四元組opy＝｛Ｓ，Ａ，Ｐ，Ｒ｝，其中Ｓ和Ａ分別表示狀態(tài)空間和動作空間，Ｐ表示狀態(tài)轉(zhuǎn)移函數(shù)，Ｒ表示獎勵函數(shù)?；谏瞎?jié)所描述的優(yōu)化問題，可構(gòu)建ＭＤＰ模型如下：

① 狀態(tài)空間。記為ｓ（ｔ），表示智能體（ａｇｅｎｔ）在每個時隙ｔ可以觀測到的狀態(tài)信息的集合。在本文的模型中是指任務(wù)和ＭＥＣ服務(wù)器的參數(shù)信息：

ｓ（ｔ）＝｛ｚ（ｔ），ｗ（ｔ），ｆＳ（ｔ），ｐｒｉｎ（ｔ）｝。（１６）

② 動作空間。記為ａ（ｔ），表示智能體基于觀測到的狀態(tài)信息ｓ（ｔ）可能采取的動作集合：

ａ（ｔ）＝｛［ａｎ（ｔ）］１×Ｎ，［ｋｍ（ｔ）］１×Ｍ｝１×（Ｎ＋Ｍ）。（１７）

③ 獎勵函數(shù)。獎勵函數(shù)ｒ（ｔ）表示在狀態(tài)ｓ（ｔ）下采取動作ａ（ｔ）所獲得的獎勵。

在ＭＤＰ問題中，設(shè)置合理的獎勵函數(shù)是解決問題的基礎(chǔ)。獎勵函數(shù)通常設(shè)定為在不滿足約束時取極小值，而本文的優(yōu)化目標是最小化計算卸載平均時延。因此，當約束滿足時，將平均時延取負值作為獎勵函數(shù)。相反，如果約束未滿足，則取一個極小值作為獎勵函數(shù)，以保持模型的科學嚴謹性。獎勵函數(shù)ｒ（ｔ）定義為：

２．２ＤＰＣＯ算法設(shè)計

為解決上述ＭＤＰ問題，設(shè)計了一種ＤＰＣＯ算法。在多種經(jīng)典的ＤＲＬ方法中，選擇使用Ａ２Ｃ算法［１８］。這是因為Ａ２Ｃ算法對計算能力需求較低，并且在處理較大狀態(tài)空間時有著優(yōu)秀的性能，特別適用于計算資源有限且復(fù)雜的天地融合網(wǎng)絡(luò)計算卸載場景。

ＤＰＣＯ算法的狀態(tài)空間、動作空間和獎勵函數(shù)的建模方法已在前文進行了詳細介紹。將動作空間策略性地建模為離散形式，可以加快ＤＰＣＯ算法的收斂速度，使其更好地適配ＬＥＯ衛(wèi)星高動態(tài)性的特點。

將當前狀態(tài)和動作分別表示為向量形式ｓｔ，ａｔ，并將策略網(wǎng)絡(luò)記其為πθ，其以當前狀態(tài)ｓｔ作為輸入，輸出策略π（ａｔｓｔ；θ）。將價值網(wǎng)絡(luò)記為Ｖω，以當前狀態(tài)ｓｔ和策略作為輸入，輸出預(yù)期獎勵Ｖπ（ｓｔ）。在訓(xùn)練過程中，通過網(wǎng)絡(luò)的輸出迭代更新策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的參數(shù)θ 和ω。

動作－價值函數(shù)表示為Ｑπ（ｓｔ，ａｔ）＝Ｅπ ［Ｒｔ｜ｓｔ＝ｓ，ａｔ＝ａ］，其含義為在狀態(tài)ｓｔ下采取動作ａｔ獲得的預(yù)期累計收益。狀態(tài)－價值函數(shù)表示為Ｖπ（ｓｔ）＝Ｅπ［Ｒｔ｜ｓｔ＝ｓ，πｔ＝ π］，其含義為在狀態(tài)ｓｔ下遵循策略πｔ獲得的預(yù)期累計收益。Ａ２Ｃ算法的優(yōu)勢函數(shù)定義為：

Ａπ（ｓｔ，ａｔ）Ｑπ（ｓｔ，ａｔ）－Ｖπ（ｓｔ）＝ｒ＋γＶπ（ｓｔ＋１）－Ｖπ（ｓｔ）。（２０）

由于狀態(tài)－價值函數(shù)無法直接觀測，必須通過一個參數(shù)化網(wǎng)絡(luò)進行估計，記為Ｖω。該網(wǎng)絡(luò)通過時序差分（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ，ＴＤ）算法進行更新。計算出ＴＤ誤差后，使用均方誤差（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ，ＭＳＥ）準則最小化ＴＤ誤差，從而實現(xiàn)網(wǎng)絡(luò)參數(shù)的更新。

ＤＰＣＯ算法的偽代碼如算法１所示。

３仿真結(jié)果分析

３．１仿真實驗設(shè)置

本次仿真在Ｐｙｔｈｏｎ３．９環(huán)境下進行。ＤＰＣＯ算法的系統(tǒng)模型已在前文中進行了詳細介紹。在ＤＰＣＯ算法中，策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)均設(shè)置為４層，包括一個輸入層、一個輸出層和兩個隱藏層。策略網(wǎng)絡(luò)隱藏層中的神經(jīng)元數(shù)量分別為２０４８和１０２４，而價值網(wǎng)絡(luò)隱藏層中的神經(jīng)元數(shù)量分別為１０２４和５１２。使用Ｇｉｇａｃｙｃｌｅ（ＧＣ）作為任務(wù)計算量的單位。仿真實驗中的其他參數(shù)如表１所示。

３．２算法收斂性分析

對Ａ２Ｃ算法和近端策略優(yōu)化（ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎ，ＰＰＯ）［１９］兩種算法常用的強化學習算法的收斂速度進行分析，如圖２所示。當二者收斂到相同的平均時延時，Ａ２Ｃ算法僅需要２０００個Ｅｐｉｓｏｄｅ，而ＰＰＯ算法則需要２００００個Ｅｐｉｓｏｄｅ，因此，基于Ａ２Ｃ的ＤＰＣＯ算法可以大大提高計算卸載的效率。

學習率對ＤＰＣＯ算法收斂性的影響如圖３所示，當學習率為０．０１時，平均時延曲線收斂到２．１ｓ；當學習率為０．００１時，平均時延曲線在２０００個Ｅｐｉｓｏｄｅ后收斂到０．５ｓ。當學習率為０．０００１時，平均時延曲線在２００００個Ｅｐｉｓｏｄｅ后收斂到０．５ｓ。結(jié)果表明，過高的學習率雖然可以加快收斂速度，但可能導(dǎo)致算法陷入局部最優(yōu)而無法達到全局最優(yōu)。反之，如果學習率過低，收斂速度將過于緩慢，從而降低算法的效率。

３．３算法性能對比測試

本節(jié)從任務(wù)計算量、數(shù)據(jù)量和到達率３個方面對算法平均時延進行評估，并將ＤＰＣＯ算法與３種不同計算卸載算法進行比較。① ＤＤＴＯ算法：一種基于ＤＲＬ的彈性衛(wèi)星網(wǎng)絡(luò)邊緣卸載策略。② 隨機卸載算法：將任務(wù)隨機卸載到衛(wèi)星服務(wù)器。③ 本地卸載算法：任務(wù)在本地設(shè)備上進行處理。

３．３．１任務(wù)計算量對計算卸載性能的影響

任務(wù)到達率設(shè)定為每分鐘１０８個，任務(wù)數(shù)據(jù)量遵循均值為４Ｍｂｉｔ的正態(tài)分布。仿真結(jié)果如圖４所示，ＤＰＣＯ算法相比于ＤＤＴＯ、隨機卸載和本地卸載算法，分別減少了２５％、５９％和８１％的平均時延。此外，當任務(wù)計算量較小時，ＤＰＣＯ算法相較于ＤＤＴＯ算法的時延性能優(yōu)勢更加明顯，最高可減少４８％。而在任務(wù)計算量較大時，ＤＰＣＯ算法也能保證與ＤＤＴＯ算法相當?shù)男阅堋?/p>

上述結(jié)果表明，ＤＰＣＯ算法在處理低計算需求任務(wù)時，能夠有效克服現(xiàn)有計算卸載算法的性能限制。同時，ＤＰＣＯ算法在其他場景中也能保證出色的性能。

３．３．２任務(wù)數(shù)據(jù)量對計算卸載性能的影響

任務(wù)到達率設(shè)定為每分鐘１０８個，任務(wù)計算量遵循均值為３．５ＧＣ的正態(tài)分布。仿真結(jié)果如圖５所示，與ＤＤＴＯ算法、隨機卸載和本地卸載算法相比，ＤＰＣＯ算法的平均時延分別降低了４１％、５８％和８０％。

３．３．３任務(wù)到達率對計算卸載性能的影響

任務(wù)數(shù)據(jù)量設(shè)置為遵循均值為４Ｍｂｉｔ的正態(tài)分布，任務(wù)計算量遵循均值為３．５ＧＣ的正態(tài)分布，仿真結(jié)果如圖６所示。隨著到達率的增加，ＤＤＴＯ算法的平均時延迅速上升，而ＤＰＣＯ算法的時延保持相對穩(wěn)定。這種穩(wěn)定性得益于ＤＰＣＯ算法能夠動態(tài)地將ＭＥＣ服務(wù)器的計算資源劃分為多個邏輯子服務(wù)器，從而實現(xiàn)單個ＭＥＣ服務(wù)器上的并行計算，減少了任務(wù)排隊時延。

４結(jié)束語

本文提出了一種ＤＰＣＯ算法，對天地融合網(wǎng)絡(luò)中的計算卸載問題進行建模，優(yōu)化目標為最小化計算卸載平均時延?？紤]了阿姆達爾定律對計算性能的影響，并將服務(wù)器劃分為多個邏輯子服務(wù)器，以實現(xiàn)多任務(wù)并行處理；將問題轉(zhuǎn)化為ＭＤＰ，并將動作空間設(shè)計為離散形式，以提高模型的收斂速度；使用Ａ２Ｃ算法解決計算卸載和資源分配策略的優(yōu)化問題。仿真結(jié)果表明，ＤＰＣＯ算法在任務(wù)計算卸載平均時延方面的性能顯著優(yōu)于ＤＤＴＯ、隨機卸載和本地卸載算法?？偠灾?，ＤＰＣＯ算法有效地解決了現(xiàn)有算法中的性能缺陷，尤其是在任務(wù)到達率高且計算要求較低的場景中有著不錯的表現(xiàn)，可以為天地融合網(wǎng)絡(luò)中的計算卸載算法設(shè)計提供參考和幫助。

參考文獻

［１］施巍松，孫輝，曹杰，等．邊緣計算：萬物互聯(lián)時代新型計算模型［Ｊ］．計算機研究與發(fā)展，２０１７，５４（５）：９０７－９２４．

［２］陳全，鄧倩妮．云計算及其關(guān)鍵技術(shù)［Ｊ］．計算機應(yīng)用，２００９，２９（９）：２５６２－２５６７．

［３］謝人超，廉曉飛，賈慶民，等．移動邊緣計算卸載技術(shù)綜述［Ｊ］．通信學報，２０１８，３９（１１）：１３８－１５５．

［４］李子姝，謝人超，孫禮，等．移動邊緣計算綜述［Ｊ］．電信科學，２０１８，３４（１）：８７－１０１．

［５］ＭＡＯＹＹ，ＹＯＵＣＳ，ＺＨＡＮＧＪ，ｅｔａｌ．ＡＳｕｒｖｅｙｏｎＭｏｂｉｌｅＥｄｇｅＣｏｍｐｕｔｉｎｇ：ＴｈｅＣｏｍｍｕｎｉｃａｔｉｏｎＰｅｒｓｐｅｃｔｉｖｅ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，２０１７，１９（４）：２３２２－２３５８．

［６］ＭＥＨＲＡＢＩＭ，ＹＯＵＤＨ，ＬＡＴＺＫＯＶ，ｅｔａｌ．ＤｅｖｉｃｅｅｎｈａｎｃｅｄＭＥＣ：ＭｕｌｔｉａｃｃｅｓｓＥｄｇｅＣｏｍｐｕｔｉｎｇ（ＭＥＣ）ＡｉｄｅｄｂｙＥｎｄＤｅｖｉｃｅＣｏｍｐｕｔａｔｉｏｎａｎｄＣａｃｈｉｎｇ：ＡＳｕｒｖｅｙ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０１９，７：１６６０７９－１６６１０８．

［７］唐琴琴，謝人超，劉旭，等．融合ＭＥＣ的星地協(xié)同網(wǎng)絡(luò)：架構(gòu)、關(guān)鍵技術(shù)與挑戰(zhàn)［Ｊ］．通信學報，２０２０，４１（４）：１６２－１８１．

［８］唐清清，李斌．面向空天地一體化網(wǎng)絡(luò)的移動邊緣計算技術(shù)［Ｊ］．無線電通信技術(shù)，２０２１，４７（１）：２７－３５．

［９］ＺＨＡＮＧＺＪ，ＺＨＡＮＧＷＹ，ＴＳＥＮＧＦＨ．ＳａｔｅｌｌｉｔｅＭｏｂｉｌｅＥｄｇｅＣｏｍｐｕｔｉｎｇ：ＩｍｐｒｏｖｉｎｇＱｏＳｏｆＨｉｇｈｓｐｅｅｄＳａｔｅｌｌｉｔｅＴｅｒｒｅｓｔｒｉａｌＮｅｔｗｏｒｋｓＵｓｉｎｇＥｄｇｅＣｏｍｐｕｔｉｎｇＴｅｃｈｎｉｑｕｅｓ［Ｊ］．ＩＥＥＥＮｅｔｗｏｒｋ，２０１９，３３（１）：７０－７６．

［１０］ＨＡＯＹＹ，ＳＯＮＧＺＹ，ＺＨＥＮＧＺ，ｅｔａｌ．ＪｏｉｎｔＣｏｍｍｕｎｉｃａｔｉｏｎ，Ｃｏｍｐｕｔｉｎｇ，ａｎｄＣａｃｈｉｎｇＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎｉｎＬＥＯＳａｔｅｌｌｉｔｅＭＥＣＮｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０２３，１１：６７０８－６７１６．

［１１］ＬＩＮＴＨ，ＬＵＯＺＹ．ＡＨｉｇｈｐｅｒｆｏｒｍａｎｃｅＤＲＬｂａｓｅｄＭｏｂｉｌｅＥｄｇｅＯｆｆｌｏａｄｉｎｇｆｏｒＥｌａｓｔｉｃＳａｔｅｌｌｉｔｅＮｅｔｗｏｒｋ［Ｃ］∥２０２２ＷｏｒｋｓｈｏｐｏｎＥｌｅｃｔｒｏｎｉｃｓＣｏｍｍｕｎｉｃａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ．Ｂｅｌｌｉｎｇｈａｍ：ＳＰＩＥ，２０２３，１２７２０：５５－６９．

［１２］ＡＭＤＡＨＬＧＭ．ＶａｌｉｄｉｔｙｏｆｔｈｅＳｉｎｇｌｅＰｒｏｃｅｓｓｏｒＡｐｐｒｏａｃｈｔｏＡｃｈｉｅｖｉｎｇＬａｒｇｅＳｃａｌｅＣｏｍｐｕｔｉｎｇＣａｐａｂｉｌｉｔｉｅｓ［Ｃ］∥ＡＦＩＰＳＣｏｎｆｅｒｅｎｃｅＰｒｏｃｅｅｄｉｎｇｓ．Ｒｅｓｔｏｎ：ＡＦＩＰＳＰｒｅｓｓ，１９６７：４８３－４８５．

［１３］ＭＵＮＯＺＯ，ＰＡＳＣＵＡＬＩＳＥＲＴＥＡ，ＶＩＤＡＬＪ．ＯｐｔｉｍｉｚａｔｉｏｎｏｆＲａｄｉｏａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＲｅｓｏｕｒｃｅｓｆｏｒＥｎｅｒｇｙＥｆｆｉｃｉｅｎｃｙｉｎＬａｔｅｎｃｙｃｏｎｓｔｒａｉｎｅｄＡｐｐｌｉｃａｔｉｏｎＯｆｆｌｏａｄｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＶｅｈｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙ，２０１４，６４（１０）：４７３８－４７５５．

［１４］ＰＩＮＥＬＬＣ，ＰＲＯＬＦＳ，ＢＨＵＩＹＡＮＭＺＨ，ｅｔａｌ．ＲｅｃｅｉｖｅｒＡｒｃｈｉｔｅｃｔｕｒｅｓｆｏｒＰｏｓｉｔｉｏｎｉｎｇｗｉｔｈＬｏｗＥａｒｔｈＯｒｂｉｔＳａｔｅｌｌｉｔｅＳｉｇｎａｌｓ：ＡＳｕｒｖｅｙ［Ｊ］．ＥＵＲＡＳＩＰＪｏｕｒｎａｌｏｎＡｄｖａｎｃｅｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２０２３，２０２３（１）：６０．

［１５］ＹＵＥＰＹ，ＡＮＪＰ，ＺＨＡＮＧＪＫ，ｅｔａｌ．ＬｏｗＥａｒｔｈＯｒｂｉｔＳａｔｅｌｌｉｔｅＳｅｃｕｒｉｔｙａｎｄＲｅｌｉａｂｉｌｉｔｙ：Ｉｓｓｕｅｓ，Ｓｏｌｕｔｉｏｎｓ，ａｎｄｔｈｅＲｏａｄＡｈｅａｄ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，２０２３，２５（３）：１６０４－１６５２．

［１６］ＭＩＳＨＲＡＭＲ，ＤＡＳＨＢＢ，ＧＯＳＷＡＭＩＶ，ｅｔａｌ．ＡＮｅｗＴａｓｋＯｆｆｌｏａｄｉｎｇＳｃｈｅｍｅｆｏｒＧｅｏｓｐａｔｉａｌＦｏｇＣｏｍｐｕｔｉｎｇＥｎｖｉｒｏｎｍｅｎｔＵｓｉｎｇＭ／Ｍ／ＣＱｕｅｕｅｉｎｇＡｐｐｒｏａｃｈ［Ｃ］∥ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｓｉｎｇａｐｏｒｅ：ＳｐｒｉｎｇｅｒＮａｔｕｒｅＳｉｎｇａｐｏｒｅ，２０２２：１０５－１１３．

［１７］ＳＨＡＮＩＧ，ＨＥＣＫＥＲＭＡＮＤ，ＢＲＡＦＭＡＮＲＩ，ｅｔａｌ．ＡｎＭＤＰｂａｓｅｄＲｅｃｏｍｍｅｎｄｅｒＳｙｓｔｅｍ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２００５，６（９）：１２６５－１２９５．

［１８］ＭＮＩＨＶ，ＢＡＤＩＡＡＰ，ＭＩＲＺＡＭ，ｅｔａｌ．ＡｓｙｎｃｈｒｏｎｏｕｓＭｅｔｈｏｄｓｆｏｒＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｃ］∥Ｔｈｅ３３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ：ＰＭＬＲ，２０１６：１９２８－１９３７．

［１９］ＳＣＨＵＬＭＡＮＪ，ＷＯＬＳＫＩＦ，ＤＨＡＲＩＷＡＬＰ，ｅｔａｌ．ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎＡｌｇｏｒｉｔｈｍｓ［ＥＢ／ＯＬ］．（２０１７－０７－２０）［２０２４－０７－２８］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７０７．０６３４７．

作者簡介：

王從羽男，（２０００—），碩士研究生。主要研究方向：邊緣計算卸載。

（*通信作者）羅志勇男，（１９７３—），博士，教授，博士生導(dǎo)師。主要研究方向：衛(wèi)星互聯(lián)網(wǎng)一體化融合、無線通感算融合賦能技術(shù)、通信人工智能應(yīng)用。

基金項目：國家重點研發(fā)計劃（２０２３ＹＦＢ２９０４７０１）；廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金（２０２３Ｂ１５１５１２００９３）；廣東省重點研發(fā)計劃（２０２４Ｂ０１０１０２０００６）；深圳市重點項目（ＫＪＺＤ２０２３０９２８１１２７５９００２）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

天地融合網(wǎng)絡(luò)中基于深度強化學習的計算卸載算法研究