国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

天地融合網(wǎng)絡(luò)中基于深度強化學習的計算卸載算法研究

2024-12-26 00:00:00王從羽羅志勇
無線電通信技術(shù) 2024年6期
關(guān)鍵詞:深度強化學習

摘 要:隨著近地軌道(Low Earth Orbit,LEO)衛(wèi)星網(wǎng)絡(luò)和移動邊緣計算(Mobile Edge Computing,MEC)技術(shù)的發(fā)展,通過在LEO 衛(wèi)星上部署MEC 服務(wù)器,可以為缺乏計算資源的偏遠地區(qū)提供計算卸載服務(wù)。然而,隨著地面用戶數(shù)量的不斷增加,天地融合網(wǎng)絡(luò)中的計算卸載場景變得越發(fā)復(fù)雜?,F(xiàn)有研究難以應(yīng)對任務(wù)復(fù)雜、到達率較高的場景,針對上述問題,在現(xiàn)有算法的基礎(chǔ)上,提出了一種基于深度強化學習(Deep Reinforcement Learning,DRL)的并行計算卸載(DRL-based Parallel Computation Offloading,DPCO)算法。該算法以最小化計算卸載平均時延為優(yōu)化目標進行建模,考慮了阿姆達爾定律對計算性能的影響,并對星上服務(wù)器的計算資源進行劃分,以實現(xiàn)多任務(wù)并行處理的功能。此外,DPCO 算法將模型轉(zhuǎn)換為馬爾可夫決策過程(Markov Decision Process,MDP),并使用A2C(Advantage Actor-Critic)算法對其進行求解。通過仿真實驗驗證了DPCO 算法性能,結(jié)果表明該算法有效地解決了現(xiàn)有算法的缺陷,可為天地融合網(wǎng)絡(luò)中的計算卸載算法設(shè)計提供參考和幫助。

關(guān)鍵詞:計算卸載;移動邊緣計算;天地融合網(wǎng)絡(luò);深度強化學習

中圖分類號:TN927 文獻標志碼:A 開放科學(資源服務(wù))標識碼(OSID):

文章編號:1003-3114(2024)06-1177-07

0 引言

隨著通信技術(shù)的不斷發(fā)展,各種終端設(shè)備之間的頻繁交互顯著增加了對計算資源的需求[1]。然而,由于終端設(shè)備的計算能力有限,用戶難以快速完成海量數(shù)據(jù)的計算任務(wù)。因此,近年來移動計算范式從集中式的云計算[2]向移動邊緣計算(MobileEdge Computing,MEC)[3-5]轉(zhuǎn)變。MEC 在傳統(tǒng)云計算的基礎(chǔ)上,將計算能力下沉至邊緣,使其更接近用戶的無線接入網(wǎng)絡(luò)。這種方法使得計算密集型和時延敏感型應(yīng)用能夠在資源有限的設(shè)備上得以執(zhí)行。與傳統(tǒng)云計算相比,MEC 具備了更好的可擴展性、可靠性和時延性能[6]。

隨著天地融合網(wǎng)絡(luò)的發(fā)展,越來越多的學者開始關(guān)注如何利用衛(wèi)星網(wǎng)絡(luò)中的資源[7-8]。通過利用近地軌道(Low Earth Orbit,LEO)衛(wèi)星網(wǎng)絡(luò)的全覆蓋能力,在LEO 衛(wèi)星節(jié)點上部署計算服務(wù)器,可以將計算任務(wù)卸載到衛(wèi)星節(jié)點上。這種方法可以為偏遠地區(qū)的用戶提供計算卸載服務(wù),并顯著減少了任務(wù)處理的時延。

然而,有限的衛(wèi)星資源和地面用戶日益增長的需求使卸載場景變得越發(fā)復(fù)雜,如何設(shè)計出高效可靠的計算卸載算法成為了研究的重點。為充分利用LEO 衛(wèi)星網(wǎng)絡(luò)中的通信和計算資源,Zhang 等[9]提出了一種動態(tài)網(wǎng)絡(luò)功能虛擬化技術(shù)來整合衛(wèi)星網(wǎng)絡(luò)的資源。在衛(wèi)星編排器中增加動態(tài)資源監(jiān)視器,以實現(xiàn)對網(wǎng)絡(luò)資源信息的實時監(jiān)控。這些信息隨后被傳送給用戶和MEC 服務(wù)器,用于調(diào)整它們的運行策略。

Hao 等[10]研究了LEO 衛(wèi)星MEC 網(wǎng)絡(luò)中計算卸載、無線資源分配和緩存設(shè)置的聯(lián)合優(yōu)化問題,其目標是最小化所有地面物聯(lián)網(wǎng)設(shè)備的總時延,同時確保滿足能量、計算和緩存約束。為解決這個混合整數(shù)和非凸問題,提出了一種基于拉格朗日對偶分解的算法來獲得閉式最優(yōu)解;然后提出了一種啟發(fā)式算法以降低計算復(fù)雜度。然而,該算法沒有考慮任務(wù)排隊時延,不能準確表示處于繁忙狀態(tài)下的衛(wèi)星計算卸載場景。

Lin 等[11]將MEC 服務(wù)器上多優(yōu)先級任務(wù)的排隊時延納入了考慮,其算法優(yōu)化目標是在能耗約束下最小化任務(wù)端到端總時延,將其建模為一個混合整數(shù)非線性規(guī)劃問題,并設(shè)計了基于深度強化學習(Deep Reinforcement Learning,DRL)的動態(tài)任務(wù)卸載(DRLbased Dynamic Task Offloading,DDTO)算法,可以有效減小任務(wù)處理的總時延。然而,DDTO算法在單個MEC 服務(wù)器上只能同時計算一個任務(wù),無法實現(xiàn)多任務(wù)并行計算。此外,它并未考慮阿姆達爾定律[12]對計算速率的約束,可能導(dǎo)致衛(wèi)星服務(wù)器的計算資源無法得到充分利用。

為解決上述問題,本文提出了一種基于DRL 的并行計算卸載(DRLbased Parallel Computation Offloading,DPCO)算法。首先,在天地融合網(wǎng)絡(luò)場景中對計算卸載問題進行了建模,并將優(yōu)化目標設(shè)置為最小化任務(wù)計算卸載平均時延。然后,在建模過程中,考慮了阿姆達爾定律對計算性能的影響,并對MEC 服務(wù)器的計算資源進行劃分,以實現(xiàn)多任務(wù)的并行處理。在將模型轉(zhuǎn)換為馬爾可夫決策過程(Markov DecisionProcess,MDP)時,將動作空間設(shè)置為離散形式,提升了算法的收斂速度。最后,使用A2C(AdvantageActorCritic)算法求解計算卸載策略和資源分配策略的優(yōu)化問題。通過仿真測試評估了DPCO 算法的性能,與現(xiàn)有算法相比,DPCO 顯著減少了任務(wù)的計算卸載平均時延,并在特定場景中展示出更加顯著的優(yōu)化效果。

1 天地融合網(wǎng)絡(luò)計算卸載模型

本文提出了一個天地融合網(wǎng)絡(luò)計算卸載場景的系統(tǒng)模型,如圖1 所示。該模型由搭載MEC 服務(wù)器的LEO 衛(wèi)星組成,可以為地面用戶提供計算卸載服務(wù)。在天地融合網(wǎng)絡(luò)中設(shè)有M 顆衛(wèi)星,每顆衛(wèi)星攜帶一個MEC 服務(wù)器,記作集合S={s1,s2,…,sM},可為覆蓋區(qū)域內(nèi)的N 個地面用戶提供服務(wù),用戶集合記作U={u1,u2,…,uN}。在時隙t 開始時,每個用戶un 生成待處理的任務(wù)集合Mn(t)= {ωn(t),zn(t),prin(t)},其中ωn(t)表示任務(wù)計算量;zn(t)表示任務(wù)數(shù)據(jù)量;prin (t )表示任務(wù)優(yōu)先級,且定義prin(t)∈[1,2,…,PRIN]。

綜上所述,當任務(wù)被卸載到衛(wèi)星MEC 服務(wù)器時,總的計算時延可以表示為:

dCn,m(t)= dPn,m(t)+dQn,m(t)。(13)

1. 3 計算卸載問題建模

本文的優(yōu)化目標是在一定的能耗約束下,最小化任務(wù)的平均計算卸載平均時延?;谇拔臉?gòu)建的模型,該優(yōu)化問題可表示為:

式中:Ei 表示用戶ui 的電池容量,si(t)∈{0,1}定義為一個二元變量。具體來說,當任務(wù)被卸載到衛(wèi)星MEC 服務(wù)器時,si(t)= 1;當任務(wù)執(zhí)行本地計算時,si(t)= 0。

優(yōu)化函數(shù)的含義為:在時間周期T 內(nèi),最小化任務(wù)的計算卸載平均時延。約束條件規(guī)定了用戶的本地計算能耗和總傳輸能耗在周期T 內(nèi)不得超過電池容量。該優(yōu)化目標是一個NPhard 問題,可通過將其建模為一個MDP 來進行求解。

2 DPCO 算法介紹

2. 1 基于MDP 的任務(wù)卸載問題設(shè)計

MDP 是序列隨機決策問題的模型,因此被廣泛用于自主代理通過動作影響其周圍環(huán)境的應(yīng)用[17]。

本文將MDP 定義為一個四元組opy={S,A,P,R},其中S 和A 分別表示狀態(tài)空間和動作空間,P 表示狀態(tài)轉(zhuǎn)移函數(shù),R 表示獎勵函數(shù)?;谏瞎?jié)所描述的優(yōu)化問題,可構(gòu)建MDP 模型如下:

① 狀態(tài)空間。記為s(t),表示智能體(agent)在每個時隙t 可以觀測到的狀態(tài)信息的集合。在本文的模型中是指任務(wù)和MEC 服務(wù)器的參數(shù)信息:

s(t)= {z(t),w(t),f S(t),prin(t)}。(16)

② 動作空間。記為a(t),表示智能體基于觀測到的狀態(tài)信息s(t)可能采取的動作集合:

a(t)= {[an(t)]1×N,[km(t)]1×M}1×(N+M)。(17)

③ 獎勵函數(shù)。獎勵函數(shù)r(t)表示在狀態(tài)s(t)下采取動作a(t)所獲得的獎勵。

在MDP 問題中,設(shè)置合理的獎勵函數(shù)是解決問題的基礎(chǔ)。獎勵函數(shù)通常設(shè)定為在不滿足約束時取極小值,而本文的優(yōu)化目標是最小化計算卸載平均時延。因此,當約束滿足時,將平均時延取負值作為獎勵函數(shù)。相反,如果約束未滿足,則取一個極小值作為獎勵函數(shù),以保持模型的科學嚴謹性。獎勵函數(shù)r(t)定義為:

2. 2 DPCO 算法設(shè)計

為解決上述MDP 問題,設(shè)計了一種DPCO 算法。在多種經(jīng)典的DRL 方法中,選擇使用A2C 算法[18]。這是因為A2C 算法對計算能力需求較低,并且在處理較大狀態(tài)空間時有著優(yōu)秀的性能,特別適用于計算資源有限且復(fù)雜的天地融合網(wǎng)絡(luò)計算卸載場景。

DPCO 算法的狀態(tài)空間、動作空間和獎勵函數(shù)的建模方法已在前文進行了詳細介紹。將動作空間策略性地建模為離散形式,可以加快DPCO 算法的收斂速度,使其更好地適配LEO 衛(wèi)星高動態(tài)性的特點。

將當前狀態(tài)和動作分別表示為向量形式st,at,并將策略網(wǎng)絡(luò)記其為πθ,其以當前狀態(tài)st 作為輸入,輸出策略π(at st;θ)。將價值網(wǎng)絡(luò)記為Vω,以當前狀態(tài)st 和策略作為輸入,輸出預(yù)期獎勵Vπ(st)。在訓(xùn)練過程中,通過網(wǎng)絡(luò)的輸出迭代更新策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的參數(shù)θ 和ω。

動作-價值函數(shù)表示為Qπ(st,at)= Eπ [Rt | st =s,at =a],其含義為在狀態(tài)st 下采取動作at 獲得的預(yù)期累計收益。狀態(tài)-價值函數(shù)表示為Vπ(st)=Eπ[Rt | st = s,πt = π],其含義為在狀態(tài)st 下遵循策略πt 獲得的預(yù)期累計收益。A2C 算法的優(yōu)勢函數(shù)定義為:

Aπ(st,at)Qπ(st,at)-Vπ(st)= r+γVπ(st+1)-Vπ(st)。(20)

由于狀態(tài)-價值函數(shù)無法直接觀測,必須通過一個參數(shù)化網(wǎng)絡(luò)進行估計,記為Vω。該網(wǎng)絡(luò)通過時序差分(Temporal Difference,TD)算法進行更新。計算出TD 誤差后,使用均方誤差(Mean SquaredError,MSE)準則最小化TD 誤差,從而實現(xiàn)網(wǎng)絡(luò)參數(shù)的更新。

DPCO 算法的偽代碼如算法1 所示。

3 仿真結(jié)果分析

3. 1 仿真實驗設(shè)置

本次仿真在Python 3. 9 環(huán)境下進行。DPCO 算法的系統(tǒng)模型已在前文中進行了詳細介紹。在DPCO 算法中,策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)均設(shè)置為4 層,包括一個輸入層、一個輸出層和兩個隱藏層。策略網(wǎng)絡(luò)隱藏層中的神經(jīng)元數(shù)量分別為2 048 和1 024,而價值網(wǎng)絡(luò)隱藏層中的神經(jīng)元數(shù)量分別為1 024 和512。使用Gigacycle(GC)作為任務(wù)計算量的單位。仿真實驗中的其他參數(shù)如表1 所示。

3. 2 算法收斂性分析

對A2C 算法和近端策略優(yōu)化(Proximal PolicyOptimization,PPO)[19]兩種算法常用的強化學習算法的收斂速度進行分析,如圖2 所示。當二者收斂到相同的平均時延時,A2C 算法僅需要2 000 個Episode,而PPO 算法則需要20 000 個Episode,因此,基于A2C 的DPCO 算法可以大大提高計算卸載的效率。

學習率對DPCO 算法收斂性的影響如圖3 所示,當學習率為0. 01 時,平均時延曲線收斂到2. 1 s;當學習率為0. 001 時,平均時延曲線在2 000 個Episode后收斂到0. 5 s。當學習率為0. 000 1 時,平均時延曲線在20 000 個Episode 后收斂到0. 5 s。結(jié)果表明,過高的學習率雖然可以加快收斂速度,但可能導(dǎo)致算法陷入局部最優(yōu)而無法達到全局最優(yōu)。反之,如果學習率過低,收斂速度將過于緩慢,從而降低算法的效率。

3. 3 算法性能對比測試

本節(jié)從任務(wù)計算量、數(shù)據(jù)量和到達率3 個方面對算法平均時延進行評估,并將DPCO 算法與3 種不同計算卸載算法進行比較。① DDTO 算法:一種基于DRL 的彈性衛(wèi)星網(wǎng)絡(luò)邊緣卸載策略。② 隨機卸載算法:將任務(wù)隨機卸載到衛(wèi)星服務(wù)器。③ 本地卸載算法:任務(wù)在本地設(shè)備上進行處理。

3. 3. 1 任務(wù)計算量對計算卸載性能的影響

任務(wù)到達率設(shè)定為每分鐘108 個,任務(wù)數(shù)據(jù)量遵循均值為4 Mbit 的正態(tài)分布。仿真結(jié)果如圖4 所示,DPCO 算法相比于DDTO、隨機卸載和本地卸載算法,分別減少了25% 、59% 和81% 的平均時延。此外,當任務(wù)計算量較小時,DPCO 算法相較于DDTO 算法的時延性能優(yōu)勢更加明顯,最高可減少48% 。而在任務(wù)計算量較大時,DPCO 算法也能保證與DDTO 算法相當?shù)男阅堋?/p>

上述結(jié)果表明,DPCO 算法在處理低計算需求任務(wù)時,能夠有效克服現(xiàn)有計算卸載算法的性能限制。同時,DPCO 算法在其他場景中也能保證出色的性能。

3. 3. 2 任務(wù)數(shù)據(jù)量對計算卸載性能的影響

任務(wù)到達率設(shè)定為每分鐘108 個,任務(wù)計算量遵循均值為3. 5 GC 的正態(tài)分布。仿真結(jié)果如圖5所示,與DDTO 算法、隨機卸載和本地卸載算法相比,DPCO 算法的平均時延分別降低了41% 、58%和80% 。

3. 3. 3 任務(wù)到達率對計算卸載性能的影響

任務(wù)數(shù)據(jù)量設(shè)置為遵循均值為4 Mbit 的正態(tài)分布,任務(wù)計算量遵循均值為3. 5 GC 的正態(tài)分布,仿真結(jié)果如圖6 所示。隨著到達率的增加,DDTO算法的平均時延迅速上升,而DPCO 算法的時延保持相對穩(wěn)定。這種穩(wěn)定性得益于DPCO 算法能夠動態(tài)地將MEC 服務(wù)器的計算資源劃分為多個邏輯子服務(wù)器,從而實現(xiàn)單個MEC 服務(wù)器上的并行計算,減少了任務(wù)排隊時延。

4 結(jié)束語

本文提出了一種DPCO 算法,對天地融合網(wǎng)絡(luò)中的計算卸載問題進行建模,優(yōu)化目標為最小化計算卸載平均時延??紤]了阿姆達爾定律對計算性能的影響,并將服務(wù)器劃分為多個邏輯子服務(wù)器,以實現(xiàn)多任務(wù)并行處理;將問題轉(zhuǎn)化為MDP,并將動作空間設(shè)計為離散形式,以提高模型的收斂速度;使用A2C 算法解決計算卸載和資源分配策略的優(yōu)化問題。仿真結(jié)果表明,DPCO 算法在任務(wù)計算卸載平均時延方面的性能顯著優(yōu)于DDTO、隨機卸載和本地卸載算法??偠灾?,DPCO 算法有效地解決了現(xiàn)有算法中的性能缺陷,尤其是在任務(wù)到達率高且計算要求較低的場景中有著不錯的表現(xiàn),可以為天地融合網(wǎng)絡(luò)中的計算卸載算法設(shè)計提供參考和幫助。

參考文獻

[1] 施巍松,孫輝,曹杰,等. 邊緣計算:萬物互聯(lián)時代新型計算模型[J]. 計算機研究與發(fā)展,2017,54 (5):907-924.

[2] 陳全,鄧倩妮. 云計算及其關(guān)鍵技術(shù)[J]. 計算機應(yīng)用,2009,29(9):2562-2567.

[3] 謝人超,廉曉飛,賈慶民,等. 移動邊緣計算卸載技術(shù)綜述[J]. 通信學報,2018,39(11):138-155.

[4] 李子姝,謝人超,孫禮,等. 移動邊緣計算綜述[J]. 電信科學,2018,34(1):87-101.

[5] MAO Y Y,YOU C S,ZHANG J,et al. A Survey on MobileEdge Computing:The Communication Perspective [J].IEEE Communications Surveys & Tutorials,2017,19(4):2322-2358.

[6] MEHRABI M,YOU D H,LATZKO V,et al. Deviceenhanced MEC:Multiaccess Edge Computing (MEC)Aided by End Device Computation and Caching:A Survey[J]. IEEE Access,2019,7:166079-166108.

[7] 唐琴琴,謝人超,劉旭,等. 融合MEC 的星地協(xié)同網(wǎng)絡(luò):架構(gòu)、關(guān)鍵技術(shù)與挑戰(zhàn)[J]. 通信學報,2020,41(4):162-181.

[8] 唐清清,李斌. 面向空天地一體化網(wǎng)絡(luò)的移動邊緣計算技術(shù)[J]. 無線電通信技術(shù),2021,47(1):27-35.

[9] ZHANG Z J,ZHANG W Y,TSENG F H. Satellite MobileEdge Computing:Improving QoS of Highspeed SatelliteTerrestrial Networks Using Edge Computing Techniques[J]. IEEE Network,2019,33(1):70-76.

[10]HAO Y Y,SONG Z Y,ZHENG Z,et al. Joint Communication,Computing,and Caching Resource Allocation in LEOSatellite MEC Networks [J]. IEEE Access,2023,11:6708-6716.

[11]LIN T H,LUO Z Y. A Highperformance DRLbased Mobile Edge Offloading for Elastic Satellite Network[C]∥2022 Workshop on Electronics Communication Engineering.Bellingham:SPIE,2023,12720:55-69.

[12]AMDAHL G M. Validity of the Single Processor Approachto Achieving Large Scale Computing Capabilities[C]∥AFIPS Conference Proceedings. Reston:AFIPS Press,1967:483-485.

[13]MUNOZ O,PASCUALISERTE A,VIDAL J. Optimizationof Radio and Computational Resources for Energy Efficiency in Latencyconstrained Application Offloading[J].IEEE Transactions on Vehicular Technology,2014,64(10):4738-4755.

[14]PINELL C,PROL F S,BHUIYAN M Z H,et al. ReceiverArchitectures for Positioning with Low Earth OrbitSatellite Signals:A Survey[J]. EURASIP Journal on Advances in Signal Processing,2023,2023(1):60.

[15] YUE P Y,AN J P,ZHANG J K,et al. Low Earth OrbitSatellite Security and Reliability:Issues,Solutions,and theRoad Ahead[J]. IEEE Communications Surveys & Tutorials,2023,25(3):1604-1652.

[16]MISHRA M R,DASH B B,GOSWAMI V,et al. A NewTask Offloading Scheme for Geospatial Fog ComputingEnvironment Using M/ M/ C Queueing Approach[C]∥International Conference on Advances and Applications ofArtificial Intelligence and Machine Learning. Singapore:Springer Nature Singapore,2022:105-113.

[17]SHANI G,HECKERMAN D,BRAFMAN R I,et al. AnMDPbased Recommender System[J]. Journal of MachineLearning Research,2005,6(9):1265-1295.

[18]MNIH V,BADIA A P,MIRZA M,et al. AsynchronousMethods for Deep Reinforcement Learning[C]∥The 33rdInternational Conference on Machine Learning. New York:PMLR,2016:1928-1937.

[19]SCHULMAN J,WOLSKI F,DHARIWAL P,et al. ProximalPolicy Optimization Algorithms[EB/ OL]. (2017-07-20)[2024-07-28]. https:∥arxiv. org/ abs/1707. 06347.

作者簡介:

王從羽 男,(2000—),碩士研究生。主要研究方向:邊緣計算卸載。

(*通信作者)羅志勇 男,(1973—),博士,教授,博士生導(dǎo)師。主要研究方向:衛(wèi)星互聯(lián)網(wǎng)一體化融合、無線通感算融合賦能技術(shù)、通信人工智能應(yīng)用。

基金項目:國家重點研發(fā)計劃(2023YFB2904701 );廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金(2023B1515120093 );廣東省重點研發(fā)計劃(2024B0101020006);深圳市重點項目(KJZD20230928112759002)

猜你喜歡
深度強化學習
基于DDPG算法的路徑規(guī)劃研究
基于深度強化學習的木材缺陷圖像重構(gòu)及質(zhì)量評價模型研究
基于深度強化學習與圖像智能識別的輸電線路在線監(jiān)測系統(tǒng)
基于云控制的業(yè)務(wù)服務(wù)機器人系統(tǒng)設(shè)計
人工智能深度強化學習的原理與核心技術(shù)探究
基于人工智能的無人機區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
基于策略梯度算法的工作量證明中挖礦困境研究
基于深度強化學習的圖像修復(fù)算法設(shè)計
關(guān)于人工智能阿法元綜述
商情(2019年14期)2019-06-15 10:20:13
深度強化學習研究進展
峨眉山市| 庆城县| 宝丰县| 浮梁县| 庄浪县| 临夏市| 潼南县| 微山县| 星座| 盐亭县| 安顺市| 广宁县| 阿瓦提县| 黑水县| 博乐市| 孙吴县| 宿迁市| 余庆县| 香格里拉县| 拜泉县| 绍兴市| 哈巴河县| 夏河县| 腾冲县| 宜昌市| 怀宁县| 南开区| 石首市| 南陵县| 阿巴嘎旗| 龙游县| 白玉县| 朔州市| 麻江县| 龙江县| 怀化市| 宁安市| 谷城县| 泌阳县| 新乡县| 珠海市|