摘 要:針對低地球軌道(Low Earth Orbit,LEO)衛(wèi)星網(wǎng)絡具有拓撲變化快、網(wǎng)絡節(jié)點多和節(jié)點資源狀態(tài)變化等特點,提出了一種用于計算和傳輸?shù)男情g路由策略。該策略使用改進的圖卷積網(wǎng)絡(EnhancedGraph ConvolutionalNetwork,EGCN)提取衛(wèi)星網(wǎng)絡的時空特征并生成節(jié)點的隱藏狀態(tài)。將其作為深度強化學習(Deep ReinforcementLearning,DRL)模型的輸入,DRL 智能體感知下一跳節(jié)點的關鍵信息,從而更好地做出決策。仿真結果表明,與以前的方法相比,提出的方法提高了網(wǎng)絡的總吞吐量,降低了端到端傳輸延遲。
關鍵詞:星間路由策略;動態(tài)衛(wèi)星網(wǎng)絡;深度強化學習;圖卷積神經(jīng)網(wǎng)絡
中圖分類號:TN919. 23 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3114(2024)06-1153-07
0 引言
目前,多個國家正在部署低地球軌道(LowEarth Orbit,LEO)衛(wèi)星巨型星座,即擁有數(shù)百到數(shù)萬顆LEO 衛(wèi)星以提供全球低時延高帶寬互聯(lián)網(wǎng)。隨著星上技術的飛速發(fā)展,衛(wèi)星將擁有更強大的計算資源來支持在軌數(shù)據(jù)處理,以在軌道上提供公共云服務。
衛(wèi)星計算的概念是計算資源部署在衛(wèi)星上以實現(xiàn)在軌自主、遙感、邊緣計算等新范式,因此具備計算資源的衛(wèi)星組成的網(wǎng)絡又稱為星云算網(wǎng)。首先,星云算網(wǎng)中具有計算能力的衛(wèi)星能夠實現(xiàn)在軌自主操作,減少對地面段的依賴。其次,隨著星座規(guī)模的增大,太空原始數(shù)據(jù)呈爆炸式增長,又因為星地鏈路帶寬有限而導致數(shù)據(jù)無法及時下載。具有計算能力的衛(wèi)星可以對原始數(shù)據(jù)進行處理,識別并傳輸感興趣的特征,從而提高傳輸效率并降低星地鏈路的帶寬利用率。最后,先進的星載計算平臺將衛(wèi)星轉化為復雜的數(shù)據(jù)處理基礎設施,并使太空中的公共云服務能夠像在地面上一樣提供服務。
LEO 衛(wèi)星巨型星座是一種新型的基礎設施,由數(shù)千顆衛(wèi)星組成,每顆衛(wèi)星相對于地球和其他衛(wèi)星都以高速移動。例如,在550 km 高度的衛(wèi)星必須保持27 000 km/ h 的速度才能維持其軌道。然而,星云算網(wǎng)仍面臨以下挑戰(zhàn):① 受發(fā)射因素和體積限制,單顆衛(wèi)星的計算資源存在上限;② 由于地表用戶分布存在差異,業(yè)務請求分布不均勻;③ LEO 衛(wèi)星相對地面高速移動,因此其網(wǎng)絡拓撲結構具有快速變化的特點;④ 星地和星間傳播時延較大,如何降低業(yè)務延遲引起了網(wǎng)絡研究者的極大興趣。
基于上述挑戰(zhàn)分析,考慮可能存在業(yè)務分布不均、單顆衛(wèi)星算力較低導致時延過大甚至擁塞的情況,學術界對此提出了用于計算和傳輸?shù)膭討B(tài)星間路由機制[1],通過星間鏈路將業(yè)務從資源緊張的衛(wèi)星轉移到其他衛(wèi)星來輔助計算。由于衛(wèi)星網(wǎng)絡快速變化的拓撲結構和星間傳播時延不可忽略,星間傳輸計算業(yè)務要考慮動態(tài)拓撲和時延以及星上算力對業(yè)務性能的影響[2]。如何在高動態(tài)的星云算網(wǎng)中高效地處理計算業(yè)務,是實現(xiàn)大規(guī)模星上計算和多星協(xié)作需要解決的重要問題之一,具有較高的研究價值。
1 相關工作
面對星云算網(wǎng),如何基于計算和傳輸對業(yè)務性能進行優(yōu)化,學術界展開了廣泛研究。文獻[3-5]利用了啟發(fā)式解決方案。張茜[3]考慮動態(tài)時變衛(wèi)星網(wǎng)絡的資源約束和可見時間窗約束等,并提出基于遺傳算法的星間計算任務卸載算法,以提高計算效能。呼延?等[4]將傳統(tǒng)的衛(wèi)星數(shù)據(jù)傳輸系統(tǒng)與星上智能處理相結合,提出一種遙感衛(wèi)星高速數(shù)據(jù)傳輸框架。馬步云等[5]針對當前星地數(shù)據(jù)處理模式中存在的高傳輸時延問題,提出將基于算力路由的低時延在軌協(xié)同計算問題轉化為業(yè)務圖到網(wǎng)絡圖的映射問題。然而,這些基于規(guī)則的啟發(fā)式方法無法捕捉到網(wǎng)絡環(huán)境的復雜特征,因此難以進一步改進[6]。為突破上述局限,深度強化學習(Deep Reinforcement Learning,DRL)得到了廣泛應用,并對其展開了越來越多的研究[7-10]。曹素芝等[11]針對星地融合網(wǎng)絡面臨的復雜路由問題,提出了基于DRL 的星上路由機制訓練與部署方案。唐斯琪等[12]針對強化學習方法在星云算網(wǎng)領域的局限性和面臨的挑戰(zhàn),提出了一種基于微調(diào)的模型遷移機制。汪昊等[13]考慮衛(wèi)星網(wǎng)絡拓撲和星間鏈路的可用帶寬、傳播時延等約束,構建衛(wèi)星網(wǎng)絡狀態(tài)用于基于強化學習的LEO 衛(wèi)星網(wǎng)絡動態(tài)路由算法。由于DRL 是一種通過與環(huán)境(如動態(tài)衛(wèi)星網(wǎng)絡)交互來優(yōu)化策略(如星間路由策略)[14]的工具,與基于規(guī)則的啟發(fā)式相比,它應該能夠捕獲更多的環(huán)境特征[15],從而輔助DRL 智能體做出更好的決策。
2 LEO 衛(wèi)星網(wǎng)絡系統(tǒng)
LEO 星座坐標如圖1 所示??紤]到動態(tài)衛(wèi)星網(wǎng)絡場景,LEO 衛(wèi)星網(wǎng)絡(LEO Satellite Network,LSN)系統(tǒng)的網(wǎng)絡拓撲用有向圖G(V,E)表示,V 和E 分別表示衛(wèi)星和星間鏈路的集合。整個衛(wèi)星網(wǎng)絡由N 個圓形軌道組成,每個軌道上有M 顆衛(wèi)星。軌道上的LEO 衛(wèi)星以及同一軌道上的衛(wèi)星均勻分布。在該系統(tǒng)中,每顆LEO 衛(wèi)星通過星內(nèi)鏈路連接同一軌道的前一顆和后一顆衛(wèi)星,通過星間鏈路連接相鄰軌道的衛(wèi)星。星座兩側的衛(wèi)星運動方向相反,導致星間鏈路連接的兩顆衛(wèi)星之間的距離變化迅速,星間鏈路的連接斷斷續(xù)續(xù)。
2. 1 流量模型
LSN 系統(tǒng)中存在隨機加入的計算請求[16],并且每個請求的到達滿足參數(shù)為λ 的泊松過程[17]。將第i 個請求定義為元組TR(src,ci,di),其中src 表示源節(jié)點;ci 表示計算能力,即計算1 bit 所需要的計算資源,單位為周期/ 比特;di 表示請求的數(shù)據(jù)大小,單位為bit。計算請求被定義為傳輸和計算的最小單元,并被路由到計算節(jié)點進行處理,因此每條路徑上只有一個計算節(jié)點。另外,計算請求必須在一定時間內(nèi)被處理,然后離開網(wǎng)絡;否則,該請求被視為拒絕處理。
2. 2 時延模型
星間鏈路的傳輸延遲由傳輸時延、傳播時延和計算時延組成。在動態(tài)LSN 系統(tǒng)中,如果兩兩衛(wèi)星,即{u,v| u,v∈V}滿足建立星間鏈路的條件,則該衛(wèi)星對之間的歐幾里得距離表示為:
式中:(xu,yu,zu)表示節(jié)點u 的空間位置。
由于衛(wèi)星間通信主要受自由空間路徑損耗和加性高斯白噪聲的影響,兩兩衛(wèi)星之間的載噪比可表示為:
式中:Pt 為發(fā)射功率,Gt 和Gr 分別為發(fā)射天線增益和接收天線增益,k 為玻爾茲曼常數(shù),τ 為熱噪聲,單位K;B 為信道帶寬,單位Hz;f 為載波頻率,c 為光速。因此,計算請求無干擾環(huán)境的星間鏈路上的傳輸時延定義為:
忽略傳輸過程中較小的距離變化,計算請求在星間鏈路上的傳播時延定義為:
Tprop =duv/c 。(4)
計算節(jié)點處的計算時延定義為:
Tcom = ci/Cn, (5)
式中:Cn 為計算節(jié)點為每個請求提供的最大計算能力。
2. 3 優(yōu)化問題
動態(tài)星間路由策略的目的在于找到從源節(jié)點u到計算節(jié)點v 的最優(yōu)路徑,從而降低計算請求的平均傳輸延遲并提高總吞吐量。整個過程[18]可以劃分為:① 尋找從源節(jié)點到下一跳節(jié)點的傳輸邊,用于傳輸計算請求的數(shù)據(jù);② 如果下一跳節(jié)點的計算資源滿足請求需要,則將該節(jié)點視為計算節(jié)點并處理數(shù)據(jù),否則重復過程①。這樣,動態(tài)星間路由策略的優(yōu)化過程就是找到與特定計算節(jié)點相關聯(lián)的最短傳輸路徑,并找到與該優(yōu)化傳輸路徑相對應的最優(yōu)計算節(jié)點。
動態(tài)星間路由策略對于LSN 系統(tǒng)來說是一項具有挑戰(zhàn)的任務。有效的路由策略不僅要識別受時變傳輸延遲和計算資源波動影響的衛(wèi)星網(wǎng)絡上的關鍵資源,還要處理未來請求生成中的不確定性?;趶娀瘜W習的方法適合處理這種復雜狀態(tài),并考慮潛在的未來影響。故在DRL 框架中,有一個智能體,其目標是為每個計算請求實時選擇最優(yōu)的下一跳節(jié)點。而智能體的學習過程是由一個目標函數(shù)控制的,該目標函數(shù)的目的是最小化傳輸延遲、最大化總吞吐量。
對于基于機器學習的問題,數(shù)據(jù)和特征決定性能上限,而模型和算法只能接近這個極限。因此,在基于強化學習的框架中,輸入狀態(tài)表示和特征提取必不可少,但在文獻中并沒有得到很好的研究。前文介紹了一些工作的簡單狀態(tài)表示和特征提取,然而,由于時變的LSN 拓撲結構和波動變化的星上計算資源,上述文獻的特征提取可能不足以用于DRL智能體的學習。因此,本文提出了一種基于改進的圖卷積網(wǎng)絡(EnhancedGraph Convolutional Network,EGCN)的感知狀態(tài)表示,通過捕捉衛(wèi)星網(wǎng)絡結構的動態(tài)演變和計算資源波動的規(guī)律,從而確保DRL 智能體依據(jù)這些實時且精確的信息做出更加準確的決策。下面通過考慮星間路由問題的具體特征,設計動態(tài)衛(wèi)星網(wǎng)絡的特征提取和強化學習框架的狀態(tài)表示。
3 基于DRL 的下一跳節(jié)點的選擇機制
本節(jié)詳細描述強化學習模型的關鍵元素(狀態(tài)、動作和獎勵)。由于神經(jīng)網(wǎng)絡參數(shù)化的智能體被訓練來完成狀態(tài)到動作的映射。因此,狀態(tài)應該攜帶足夠的信息來學習這種映射。為了獲取足夠的信息,提出使用EGCN 來提取動態(tài)衛(wèi)星網(wǎng)絡的特征。
3. 1 基于EGCN 的狀態(tài)表示
動態(tài)衛(wèi)星網(wǎng)絡的狀態(tài)表示應該由星上鏈路的傳輸時延、節(jié)點的算力資源以及節(jié)點的發(fā)送容量和承載容量來定義。由于衛(wèi)星網(wǎng)絡是一種拓撲結構,因此其節(jié)點和鏈路上的特征不能直接用向量或矩陣表示。
3. 1. 1 圖卷積網(wǎng)絡模型
衛(wèi)星網(wǎng)絡通常被建模為圖形,節(jié)點表示衛(wèi)星,邊表示衛(wèi)星之間的連接。鄰接矩陣為A,特征矩陣為X。一層圖卷積網(wǎng)絡(Graph Convolutional Network,GCN)卷積操作如圖2 所示,GCN 通過一階鄰域捕獲節(jié)點的空間特征,然后通過多個卷積層累加高階空間特征,可以表示為:
式中:A ~ = A+IN 表示加了自連接的鄰接矩陣,D ~ 為度矩陣,D ~ii = ΣNj = 1A ~ij ,D ~ - 12 ~A ~ ~D ~ - 12 表示預處理,W(l)為權重矩陣,σ 為激活函數(shù),H(l)為第l 層的特征矩陣。
由式(6)可知,GCN 模型可以從網(wǎng)絡拓撲結構中學習空間特征。當前節(jié)點作為中心,一層的GCN卷積操作能夠獲取周圍鄰居節(jié)點的特征,GCN 可以通過疊加多個卷積層來捕獲多跳節(jié)點的空間特征。
3. 1. 2 改進方法
對于下一跳節(jié)點的選擇問題,星間鏈路上的傳輸時延與路由性能密切相關。而GCN 模型只能處理節(jié)點的特征信息、鏈路的連接關系以及鏈路的單一權重信息,無法對衛(wèi)星網(wǎng)絡中鏈路的多屬性參數(shù)(即計算請求在不同時刻的同一衛(wèi)星對之間的星間鏈路上的傳輸時延不同)進行分析。為了具體描述鏈路信息,本文根據(jù)節(jié)點間的關系增加“虛”節(jié)點來表示鏈路特征,通過聚合“虛”節(jié)點特征并合并到下一跳節(jié)點特征中。這樣,鏈路信息就成為節(jié)點特征向量的一部分。為了捕捉衛(wèi)星網(wǎng)絡上節(jié)點和鏈路信息的時間特征,提出先在特征矩陣X 上使用遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)來有效學習星上資源以及星間鏈路傳輸時延的動態(tài)變化規(guī)律。RNN 通過考慮時間t-1 的隱藏狀態(tài)zt-1 和當前信息作為輸入xt 來計算時間t 的狀態(tài)并作為輸出ot,即:
zt =g1(U×xt +Y×zt-1), (7)
ot =g2(V×zt), (8)
式中:U、V、Y 為可訓練矩陣,g1、g2 為激活函數(shù)。
通過這種方式,模型能夠保留歷史信息并捕捉時間依賴性,同時仍結合當前時刻的信息。RNN 提取時間特征如圖3 所示。
3. 2 動作空間和獎勵函數(shù)
當計算請求到達當前節(jié)點時,智能體將根據(jù)K 個候選相鄰節(jié)點選擇下一跳節(jié)點。因此,動作被定義為at∈A={1,2,…,K},A 為候選相鄰節(jié)點的集合。即使在小型網(wǎng)絡中,候選節(jié)點的數(shù)量也會導致高維的動作空間。相關研究表明[15],K 個候選節(jié)點與性能的關系更大,所以K 的數(shù)量不需要很大。因此,每個當前節(jié)點從 Ko K=5p 個最近的節(jié)點中選擇下一跳節(jié)點(按每跳距離長度衡量)。
智能體根據(jù)從外部環(huán)境接收的獎勵不斷更新參數(shù)來提高性能。通常,一個成功的動作被認為是好的,因此環(huán)境返回一個正的即時獎勵,以加強當前動作被選擇的概率。并且,為了盡量減少失敗動作出現(xiàn)的概率,環(huán)境會返回一個負獎勵并讓智能體探索替代動作。然而,獎勵函數(shù)并不是“正確”行為的明確指標,而是向智能體反饋當前動作很好。智能體的目標是最大化長期獎勵,比如,折扣累積獎勵。為了實現(xiàn)這一點,智能體可能會放棄具有最佳瞬時獎勵的行為以獲得更好的長期績效,因此獎勵函數(shù)可以指導動態(tài)星間路由策略的優(yōu)化方向。為了研究特征提取的重要性,將獎勵函數(shù)定義為一個二元變量rt∈{-1,1},本文提出的方法期望最小化傳輸延遲、最大化總吞吐量。
3. 3 基于A3C 的訓練過程
異步優(yōu)勢動作評價(Asynchronous AdvantageActorCritic,A3C)算法屬于典型的DRL 算法,它有許多并行運行的局部學習者,如圖4 所示。其中,策略函數(shù)和值函數(shù)分別采用兩個神經(jīng)網(wǎng)絡,即策略網(wǎng)絡π(at |st;θ)和價值網(wǎng)絡V(st;θv)。對每個學習者的策略網(wǎng)絡和價值網(wǎng)絡設置了特定的參數(shù),分別為θ′和θ′v 。
策略函數(shù)和價值函數(shù)由每個學習者以異步方式更新。對于每個學習者,每集都進行更新,包括T 個連續(xù)動作(時間步長t0 ~ t0 +T-1)。局部學習者的參數(shù)首先由θ′←θ、θ′v ←θv 進行刷新。經(jīng)過一集的訓練后,全局參數(shù)由式(10)給出的最小批量(批量大小為T)梯度上升或下降更新,即:
4 性能分析
本文通過在SNET99 和SNET198 兩個衛(wèi)星網(wǎng)絡上仿真對提出的方法進行評估,衛(wèi)星網(wǎng)絡參數(shù)如表1 所示。
4. 1 仿真參數(shù)
關鍵參數(shù)如表2 所示。計算請求根據(jù)泊松過程生成,源節(jié)點是從均勻分布的所有衛(wèi)星節(jié)點中隨機選擇。
策略網(wǎng)絡使用softmax 輸出,價值網(wǎng)絡使用線性輸出,所有非輸出層都由ReLU 激活。在訓練過程中使用小批量梯度下降和Adam 優(yōu)化器。
本文提出的方法被命名為“EGCN+DRL”。可比較的方法包括隨機路徑路由“RP”(即從鄰居節(jié)點集中隨機選擇下一跳)、最短路徑路由“SP”(即選擇最近的鄰居節(jié)點作為下一跳)和基于圖卷積神經(jīng)網(wǎng)絡和強化學習模型的方法“GCN+DRL”。
4. 2 不同拓撲下的網(wǎng)絡吞吐量結果
在兩個衛(wèi)星網(wǎng)絡上進行仿真實驗,以驗證提出的方法在不同拓撲結果中的適用性。訓練過程中不同網(wǎng)絡負載下LEO 衛(wèi)星網(wǎng)絡的總體吞吐量如圖5所示。
隨著網(wǎng)絡負載的增加,各種算法的總吞吐量也在增加??梢钥闯觯谢冢模遥?的方法都優(yōu)于基于啟發(fā)式的方法,顯示了基于強化學習方法的有效性。此外,“EGCN+DRL”在提高網(wǎng)絡吞吐量方面的性能優(yōu)于其他3 種方法。將“EGCN+DRL”相對于比較方法的總吞吐量提升定義為:
P=SEGCN+DRL -S比較方法/S比較方法, (12)
式中:P 為一段時間內(nèi)網(wǎng)絡的總吞吐量提升百分比。與圖5 (a)中的“RP”“SP”和“GCN +DRL”相比,“EGCN+DRL”的網(wǎng)絡吞吐量分別提高了13. 48% ,12. 27% 和1. 44% 。在圖5 (b)中進行了類似的觀察。
4. 3 不同拓撲下的平均傳輸延遲結果
在不同拓撲下,不同DRL 方法的平均傳遞延遲結果如圖6 所示。
由圖6 可以看出,在訓練開始時,總體吞吐量較小,計算請求的平均傳輸延遲較小。隨著訓練的進行,總體吞吐量逐漸增加,請求的平均傳輸延遲先增大后減小。不同拓撲下的仿真結果相似,提出的方法達到了最佳性能。
此外,“EGCN+DRL”在網(wǎng)絡SNET99 中平均傳輸延遲降低幅度較小,在網(wǎng)絡SNET198 中平均傳輸延遲降低幅度較大。結合表1 的LSN 系統(tǒng)參數(shù)配置,總結可能的原因是網(wǎng)絡越發(fā)散和分布均勻,其傳輸延遲性能優(yōu)化越好。
5 結束語
DRL 智能體需要經(jīng)過長期的訓練才能達到可接受的性能,因此將算法直接應用于真實的衛(wèi)星網(wǎng)絡環(huán)境不合理。就顯示情況而言,DRL 框架最好是在虛擬環(huán)境(比如數(shù)字孿生)中訓練,當性能變得可接受后再部署到現(xiàn)實環(huán)境中。因此,如何構建一個虛擬環(huán)境以盡量減少與現(xiàn)實環(huán)境的差異,如何設計一種在虛擬環(huán)境與真實環(huán)境具有差異的情況下仍可得到可接受性能的強化學習方法,這兩個問題值得探究。
本文研究了用于計算和傳輸?shù)膭討B(tài)星間路由策略,提出利用改進的GCN 進行LSN 系統(tǒng)的環(huán)境狀態(tài)特征提取,將連接當前節(jié)點和下一跳節(jié)點的星間鏈路信息聚合到下一跳節(jié)點中,對GCN 模型的特征矩陣使用RNN 來有效學習星上資源波動和星間鏈路傳輸延遲的變化規(guī)律,由此捕捉衛(wèi)星網(wǎng)絡上節(jié)點和鏈路信息的時間特征。又因為GCN 模型通過多層卷積操作可以得到當前節(jié)點與多跳節(jié)點的空間特征,通過二者結合,DRL 智能體可以感知與計算路由策略相關的關鍵信息,從而做出更好的決策。仿真結果驗證了該方法的有效性。
參考文獻
[1] ZHANG C,CHEN Q,TANG Z P,et al. Precoded InterSatellite Routing Algorithm with Load Balancing for MegaConstellation Networks[J]. Space:Science & Technology,2024,4:0103.
[2] DING C F,WANG J B,ZHANG H,et al. Joint Optimizationof Transmission and Computation Resources for Satelliteand High Altitude Platform Assisted Edge Computing[J].IEEE Transactions on Wireless Communications,2022,21(2):1362-1377.
[3] 張茜. 時變網(wǎng)絡下的多星協(xié)同計算方法[D]. 長沙:中南大學,2023.
[4] 呼延?,李映,周詮,等. 遙感衛(wèi)星計算傳輸及其關鍵技術[J]. 天地一體化信息網(wǎng)絡,2022,3(2):63-71.
[5] 馬步云,任智源,郭凱,等. 基于算力路由的空間信息網(wǎng)絡低時延在軌協(xié)同計算策略[J]. 遙測遙控,2023,44(5):8-15.
[6] FENG C,SHEN Y,CAO G,et al. A Resource AllocationAlgorithm Based on GEO/ LEO Hierarchical ClusteringNetwork[C]∥Seventh Symposium on Novel PhotoelectronicDetection Technology and Applications. Kunming:SPIE,2021:1268-1272.
[7] 李京陽. 基于深度強化學習的衛(wèi)星路由方法研究[D].石家莊:河北科技大學,2023.
[8] ZHANG S B,LIU A J,HAN C,et al. Graph NeuralNetwork and Reinforcement Learning Based Routing forMega LEO Satellite Constellations[C]∥2023 9th International Conference on Computer and Communications(ICCC). Chengdu:IEEE,2023:1-6.
[9] WANG H,RAN Y Y,ZHAO L,et al. GRouting:DynamicRouting for LEO Satellite Networks with GraphbasedDeep Reinforcement Learning[C]∥2021 4th InternationalConference on Hot InformationCentric Networking(HotICN). Nanjing:IEEE,2021:123-128.
[10]SHI Y J,WANG W A,ZHU X R,et al. Low Earth OrbitSatellite Network Routing Algorithm Based on GraphNeural Networks and Deep QNetwork[J]. Applied Sciences,2024,14(9):3840.
[11]曹素芝,孫雪,王厚鵬,等. 星地融合網(wǎng)絡智能路由技術綜述[J]. 天地一體化信息網(wǎng)絡,2021,2(2):11-19.
[12]唐斯琪,潘志松,胡谷雨,等. 深度強化學習在天基信息網(wǎng)絡中的應用———現(xiàn)狀與前景[J]. 系統(tǒng)工程與電子技術,2023,45(3):886-901.
[13]汪昊,冉泳屹,趙雷,等. 基于深度圖強化學習的低軌衛(wèi)星網(wǎng)絡動態(tài)路由算法[J]. 重慶郵電大學學報(自然科學版),2023,35(4):596-605.
[14]PI J H,RAN Y Y,WANG H,et al. Dynamic Planning ofInterplane Intersatellite Links in LEO Satellite Networks[C]∥ICC 2022IEEE International Conference on Communications. Seoul:IEEE,2022:3070-3075.
[15]SORET B,RAVIKANTI S,POPOVSKI P,et al. Latencyand Timeliness in Multihop Satellite Networks[C]∥ICC2020-2020 IEEE International Conference on Communications (ICC). Dublin:IEEE,2020:1-6.
[16]WANG C,REN Z Y,CHENG W C,et al. TimeexpandedGraphbased Dispersed Computing Policy for LEO SpaceSatellite Computing[C]∥2021 IEEE Wireless Communications and Networking Conference (WCNC). Nanjing:IEEE,2021:1-6.
[17]ROSS S M. 應用隨機過程概率模型導論:第11 版[M].龔光魯,譯. 北京:人民郵電出版社,2016.
[18]TAO J H,NA Z Y,LIN B,et al. A Joint Minimum Hopand Earliest Arrival Routing Algorithm for LEO SatelliteNetworks[J]. IEEE Transactions on Vehicular Technology,2023,72(12):16382-16394.
作者簡介:
許柳飛 女,(1996—),博士研究生。主要研究方向:算力路由。
(*通信作者)羅志勇 男,(1973—),博士,教授,博士生導師。主要研究方向:衛(wèi)星互聯(lián)網(wǎng)一體化融合、無線通感算融合賦能技術、通信人工智能應用。
基金項目:國家重點研發(fā)計劃(2023YFB2904701);廣東省重點研發(fā)計劃(2024B0101020006);廣東省區(qū)域聯(lián)合基金重點項目(2023B1515120093);深圳市自然科學基金重點項目(JCYJ20220818102209020)