摘 要:無人機(jī)(Unmanned Aerial Vehicle,UAV) 集群通信與網(wǎng)絡(luò)亟需解決頻譜效率、可靠性、低時(shí)延等一系列基礎(chǔ)問題,應(yīng)用深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL) 來優(yōu)化UAV 集群通信網(wǎng)絡(luò)是目前較好的解決方法。面向UAV 集群通信與網(wǎng)絡(luò)中的資源優(yōu)化調(diào)度問題,進(jìn)行了較為全面的調(diào)研,歸納總結(jié)了通信與網(wǎng)絡(luò)領(lǐng)域采用DRL 方法進(jìn)行資源優(yōu)化調(diào)度的研究成果,對未來的技術(shù)發(fā)展進(jìn)行了展望。
關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);無人機(jī);通信;網(wǎng)絡(luò);資源調(diào)度
中圖分類號:TN929. 5 文獻(xiàn)標(biāo)志碼:A
文章編號:1003-3106(2024)12-2942-08
0 引言
無人駕駛飛行器具有機(jī)動(dòng)性強(qiáng)、成本低、無人員傷亡、操作方便等一系列優(yōu)點(diǎn),簡稱無人機(jī)(Unmanned Aerial Vehicle,UAV)。UAV 在軍事領(lǐng)域和民用領(lǐng)域都得到了廣泛的運(yùn)用,例如在日趨復(fù)雜的戰(zhàn)場環(huán)境下[1-2],需要針對性地探索出基于人工智能的UAV 自主決策算法,使UAV 系統(tǒng)具備更好地自組織完成任務(wù)和預(yù)定作戰(zhàn)目標(biāo)的能力,例如構(gòu)建UAV 蜂群應(yīng)用,在網(wǎng)絡(luò)中對感知、特征提取和決策能力進(jìn)行了有機(jī)結(jié)合[3-4]。
UAV 通信網(wǎng)絡(luò)技術(shù)是通過UAV 作為輔助或通信設(shè)備構(gòu)建安全、穩(wěn)定、高效的通信,是UAV 各項(xiàng)技術(shù)中的一個(gè)重要技術(shù)分支,隨著各種場景中需要使用的UAV 數(shù)量不斷提升,需要在多架UAV 之間構(gòu)建通信網(wǎng)絡(luò)才能實(shí)現(xiàn)UAV 的高效協(xié)作[5],不斷提高UAV 工作的水平和質(zhì)量。通信網(wǎng)絡(luò)為UAV 間的協(xié)同合作提供了必要的信息傳輸通道,而UAV 群通信網(wǎng)絡(luò)具有大規(guī)模、高動(dòng)態(tài)、自組織、能量受限和任務(wù)驅(qū)動(dòng)的特點(diǎn)。UAV 集群可以執(zhí)行更多復(fù)雜的任務(wù)[6],集群是相互協(xié)調(diào)解決問題而出現(xiàn)的涌現(xiàn)性群體行為,相對于傳統(tǒng)單UAV 作業(yè)的局限性,具有快速靈活、抗毀性強(qiáng)和開銷低的特點(diǎn),其自主性強(qiáng)的集群網(wǎng)絡(luò)是實(shí)現(xiàn)UAV 集群實(shí)時(shí)信息傳輸?shù)母竞诵?,在?yīng)用中需要注意保障穩(wěn)定通信,這就要求重點(diǎn)研究如何合理規(guī)劃和分配有限的資源。在許多領(lǐng)域中UAV 集群通信系統(tǒng)都有著廣泛的應(yīng)用,例如警用無人機(jī)[7]、搶險(xiǎn)救災(zāi)[8]等網(wǎng)絡(luò)服務(wù)延伸。
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是人工智能領(lǐng)域近年來研究的一大熱點(diǎn),具有智能體自監(jiān)督學(xué)習(xí)能力,強(qiáng)大的信息感知、理解和非線性處理能力。結(jié)合DRL 來研究UAV 集群的網(wǎng)絡(luò)與通信問題是近年來很多學(xué)者們的研究重點(diǎn)[9],主要集中于通信速率的優(yōu)化和資源調(diào)度。DRL 算法在UAV 的其他方面也有很多應(yīng)用,例如,基于DRL的多UAV 協(xié)同、空戰(zhàn)機(jī)動(dòng)路徑規(guī)劃和避障等。將DRL 應(yīng)用于UAV 集群中可以提升網(wǎng)絡(luò)和通信的性能,優(yōu)化網(wǎng)絡(luò)的帶寬和吞吐量,維護(hù)通信的魯棒性和可靠性。
可見,DRL 對UAV 通信與網(wǎng)絡(luò)性能指標(biāo)有著顯著的增益。為此,本文綜述了近年來DRL 在UAV通信與網(wǎng)絡(luò)優(yōu)化中的應(yīng)用,通過分析DRL 算法在通信、網(wǎng)絡(luò)中對性能指標(biāo)的貢獻(xiàn),對已有研究成果進(jìn)行了歸納與總結(jié),并給出了代表性算法描述,最后對未來發(fā)展方向進(jìn)行了展望。
1 DRL 分類介紹
DRL 是機(jī)器學(xué)習(xí)的一個(gè)分支,有著很強(qiáng)的抽象和表示能力,其種類也很多,常見的包括:深度Q 網(wǎng)絡(luò)(Deep QNetwork,DQN)、深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)和近端策略優(yōu)化(Proximal Policy Optimization,PPO)等,不同的算法各有優(yōu)點(diǎn)和適用條件。
DRL 算法有很多分類標(biāo)準(zhǔn),常見的方式和類別如下:① 根據(jù)智能體訓(xùn)練和測試所采用策略是否一致可以分為離線策略和在線策略;② 根據(jù)策略優(yōu)化方式可以分為基于價(jià)值、策略、參與者-評論者方法;③ 根據(jù)參數(shù)更新方式可以分為蒙特卡洛方法和時(shí)間差分法。DRL 分類如表1 所示。在運(yùn)用DRL對UAV 集群進(jìn)行優(yōu)化時(shí),通常針對對應(yīng)的研究問題,在DRL 的基礎(chǔ)上結(jié)合其他理論或算法進(jìn)行優(yōu)化以得到更優(yōu)結(jié)果。
2 DRL 在UAV 通信與網(wǎng)絡(luò)中的應(yīng)用
2. 1 通信
DRL 在UAV 通信中的貢獻(xiàn)主要體現(xiàn)在通信系統(tǒng)算法的訓(xùn)練效率、吞吐量、頻譜效率、傳輸可靠性以及環(huán)境適用性等。
文獻(xiàn)[10]基于DRL 算法,提出正確軌跡深度確定性策略梯度(Correct Trajectory Deep DeterministicPolicy Gradient,CTDDPG)算法用于規(guī)劃UAV 完成安全速率最大化的任務(wù)。文獻(xiàn)[11]研究UAV 間通信鏈路決策,設(shè)計(jì)了3 種UAV 集群方案,提出了基于重要性采樣DQN 的UAV 集群和功率控制算法,在滿足機(jī)間通信速率的前提下,利用貪婪算法和重要性采樣來避免局部最優(yōu),提高訓(xùn)練效率。
文獻(xiàn)[12]構(gòu)建了基于非正交多址技術(shù)的UAV輔助蜂窩卸載框架,并設(shè)計(jì)了基于DRL 的UAV 路徑選擇和資源卸載算法,用于提高學(xué)習(xí)算法的收斂性能,能夠提高UAV 網(wǎng)絡(luò)系統(tǒng)的頻譜利用效率和通信吞吐量。文獻(xiàn)[13]采用無蜂窩大規(guī)模多輸入多輸出(Multiple Input Multiple Output,MIMO)為地面用戶提供高效的通信服務(wù),但在特殊的有高速移動(dòng)用戶的場景中,會(huì)加劇對信道狀態(tài)信息的依賴。該架構(gòu)提出了基于DRL 的UAV 軌跡設(shè)計(jì)和地面用戶調(diào)度方案,在滿足各類約束的前提下實(shí)現(xiàn)系統(tǒng)總和速率最大化,有效提升系統(tǒng)容量。無蜂窩大規(guī)模MIMO 網(wǎng)絡(luò)中的UAV 輔助通信系統(tǒng)如圖1 所示。
UAV 通信與蜂窩網(wǎng)的網(wǎng)絡(luò)結(jié)合是無線通信的一個(gè)重要分支,為了滿足移動(dòng)通信網(wǎng)絡(luò)所需的高傳輸速率和海量數(shù)據(jù)處理,需面對能耗中斷的重要問題[14]。在分配通信資源時(shí)隙發(fā)生能耗中斷的情況下,UAV 側(cè)主動(dòng)降低高傳輸速率并求解出多個(gè)時(shí)隙累計(jì)獎(jiǎng)勵(lì)的最大化,配合能夠在轉(zhuǎn)移概率未知情況下與環(huán)境交互求解過程的歸一化優(yōu)勢函數(shù)(Normalized Advantage Function,NAF)算法,設(shè)計(jì)出新的動(dòng)作來滿足約束條件,實(shí)現(xiàn)了更高效的資源利用與分配,并獲得了更高的系統(tǒng)吞吐量。通過UAV之間的動(dòng)態(tài)頻譜交互,解決了多UAV 在帶寬有限情況下有序通信的問題。文獻(xiàn)[15]引入DRL,研究了2 種UAV 編隊(duì)通信方法,在算法方面,采用DRL 與長短期記憶網(wǎng)絡(luò)相結(jié)合的方式,加快了算法的收斂速度。在UAV 網(wǎng)絡(luò)中,地面用戶的持續(xù)移動(dòng)可能降低用戶與基站UAV 之間的無線通信速率,導(dǎo)致網(wǎng)絡(luò)性能損失。為了避免這種損失,一種基于DRL 的基站UAV 路徑規(guī)劃方法被提出[16],以期提高用戶與基站UAV 間的無線通信速率,以最大化任務(wù)周期內(nèi)網(wǎng)絡(luò)總吞吐量為目標(biāo),運(yùn)用DDPG 算法實(shí)時(shí)計(jì)算每個(gè)時(shí)隙內(nèi)UAV 的飛行動(dòng)作,實(shí)現(xiàn)對UAV 的路徑規(guī)劃。由于UAV 作戰(zhàn)中通信環(huán)境面臨智能性干擾,為保障傳輸信息安全可靠,結(jié)合頻域和時(shí)域,文獻(xiàn)[17]提出一種基于動(dòng)態(tài)深度雙Q 學(xué)習(xí)(DynamicDeep Double Q Learning,DDDQN)的UAV 時(shí)頻域聯(lián)合認(rèn)知抗干擾算法,基于能量檢測法建立了抗干擾檢測模型,將每個(gè)頻率是否存在干擾信號的判別信息輸入至DDDQN 智能決策模型,同步更新策略選取最優(yōu)解;與時(shí)頻域結(jié)合定義一系列算法基本元素:狀態(tài)空間、動(dòng)作空間、狀態(tài)轉(zhuǎn)移概率、獎(jiǎng)勵(lì)函數(shù)等。運(yùn)用算法后系統(tǒng)更加穩(wěn)定,整體抗干擾性好,算法流程如圖2 所示。
在文獻(xiàn)[18]中,利用新興的DRL 在空中通信網(wǎng)絡(luò)內(nèi)實(shí)現(xiàn)可靠回程,即在各種隨機(jī)和/ 或有針對性的UAV 節(jié)點(diǎn)故障下,該網(wǎng)絡(luò)仍能保持功能并支持端到端無線服務(wù),實(shí)驗(yàn)證明所提出的DRL 方法在無線覆蓋以及針對UAV 故障的網(wǎng)絡(luò)可靠性方面優(yōu)于基線方法。由于城市空對地模型中UAV 和地面用戶在通信時(shí)視線連接存在受阻問題,文獻(xiàn)[19]提出基于DRL 的UAV 通信速率優(yōu)化方案,設(shè)置智能反射面用以輔助通信過程,采用雙深度Q 學(xué)習(xí)(DeepDouble Q Learning,DDQN)算法,智能體采用貪婪策略選擇動(dòng)作,利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練,通過計(jì)算損失函數(shù)評價(jià)訓(xùn)練效果,設(shè)計(jì)基于DDQN 的吞吐量最大算法,聯(lián)合智能反射面相移和UAV 軌跡優(yōu)化UAV 系統(tǒng)通信速率。從物理層安全的角度,文獻(xiàn)[20]研究了智能反射面輔助UAV 3D 的軌跡優(yōu)化,最大化物理層安全速率,利用DDQN 能夠處理無線通信中動(dòng)態(tài)復(fù)雜的問題。Ding 等[21]研究了3D UAV 軌跡設(shè)計(jì)和頻段分配問題,同時(shí)考慮了UAV 的能耗和地面用戶之間的公平性,提出了一種基于DRL 的算法,允許UAV 調(diào)整飛行速度和方向并分配頻段,經(jīng)過仿真實(shí)驗(yàn)得出算法在公平性、總吞吐量等方面都優(yōu)于基線方法。與人工勢場相比,文獻(xiàn)[22]算法能夠解決路徑選擇中陷入次優(yōu)解的問題,提高了通信吞吐量,還探討了獎(jiǎng)勵(lì)函數(shù)對DRL 的訓(xùn)練收斂效果;通過隨機(jī)部署和改變最大用戶移動(dòng)速度,證明了所設(shè)計(jì)的算法在動(dòng)態(tài)網(wǎng)絡(luò)以及復(fù)雜環(huán)境中的出色適應(yīng)性。
另外,DRL 在UAV 集群網(wǎng)絡(luò)應(yīng)急通信中的應(yīng)用也十分重要。UAV 輔助應(yīng)急通信是未來5G / 6G場景的重要技術(shù)。Wang 等[23]將功率分配和UAV服務(wù)區(qū)域選擇問題表述為延遲忽略系統(tǒng)中的馬爾可夫決策過程(Markov Decision Process,MDP),并提出了一種基于Q 學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeural Network,CNN)的DRL 算法,以利用過時(shí)的信道信息估計(jì)當(dāng)前的最優(yōu)動(dòng)作,所提出的基于DRL 的資源調(diào)度方案可以有效提高頻譜效率。
結(jié)合以上應(yīng)用實(shí)例分析可知,UAV 集群可以輔助蜂窩網(wǎng)絡(luò)和傳感器網(wǎng)絡(luò),幫助遠(yuǎn)距離安全傳輸以及快速收集信息檢測目標(biāo),還可以在緊急場景中作為基站提供應(yīng)急通信。UAV 集群通信應(yīng)用如圖3所示。
2. 2 網(wǎng)絡(luò)
將DRL 應(yīng)用到UAV 集群網(wǎng)絡(luò)中的研究中,主要關(guān)注的性能指標(biāo)集中在網(wǎng)絡(luò)高抗毀性、算法的收斂性和穩(wěn)定性、吞吐量、能耗大小等,以此判斷算法的優(yōu)劣。利用DRL 對UAV 網(wǎng)絡(luò)的決策或指標(biāo)進(jìn)行優(yōu)化是目前熱門的手段之一[24]。
文獻(xiàn)[25]提出一種具有精英策略的DRL 信網(wǎng)絡(luò)拓?fù)渖伤惴?,與傳統(tǒng)DQN 相比,引入的精英經(jīng)驗(yàn)池有效地加速了模型收斂,減少了訓(xùn)練時(shí)間。該算法基于網(wǎng)絡(luò)高抗毀性、低功耗、高穩(wěn)定性要求設(shè)定獎(jiǎng)勵(lì),并較好地分離了訓(xùn)練和使用過程,具有較強(qiáng)的實(shí)時(shí)性和適用性。針對無蜂窩大規(guī)模MIMO 技術(shù)傳輸場景下偏遠(yuǎn)地區(qū)通信,文獻(xiàn)[26]利用多架UAV組成輔助通信網(wǎng)絡(luò),提出UAV 調(diào)度和用戶調(diào)度的2 種協(xié)作機(jī)制,將其中的功率分配和服務(wù)區(qū)選擇建模為雙動(dòng)作MDP(DoubleAction MDP,DAMDP),采用CNN 的DQN 算法,學(xué)習(xí)數(shù)據(jù)的空間特征,該方案具有更好的收斂性,降低了計(jì)算復(fù)雜度,給出了UAV位置變化頻率和資源消耗之間的一種平衡關(guān)系。
文獻(xiàn)[27]提出SAC 算法應(yīng)用于UAV 輔助移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)的系統(tǒng),SAC 是基于最大熵的隨機(jī)策略算法,從經(jīng)驗(yàn)緩沖區(qū)中隨機(jī)采樣小批量經(jīng)驗(yàn)樣本進(jìn)行網(wǎng)絡(luò)參數(shù)更新,具有很強(qiáng)的探索性和魯棒性?;冢樱粒?算法的用戶平均能耗最小化方案,聯(lián)合優(yōu)化UAV 的飛行軌跡和用戶計(jì)算策略調(diào)度以最小化用戶平均能耗具有更佳的穩(wěn)定性和收斂性,該算法運(yùn)用隨機(jī)梯度下降法更新網(wǎng)絡(luò)參數(shù),具體算法流程如圖4 所示。
針對UAV 作為空中基站輔助通信的吞吐量和公平性問題,文獻(xiàn)[28]提出了一種基于多智能體深度確定性策略梯度(MultiAgent Deep DeterministicPolicy Gradient,MADDPG)算法的功率分配算法,聯(lián)合優(yōu)化UAV 基站功率分配和用戶接入,提高系統(tǒng)吞吐量和公平性。由于很多研究以最大化吞吐量為目標(biāo),無法得到時(shí)變的用戶速率需求,影響了公平性,因此文獻(xiàn)[29]提出基于多智能體DRL(MultiAgentDRL,MADRL)的UAV 動(dòng)態(tài)預(yù)部署策略來解決出現(xiàn)的問題,UAV 群之間沒有直接共享自身觀測狀態(tài),而是以共享參數(shù)的形式簡化了網(wǎng)絡(luò)結(jié)構(gòu),提升了收斂效率,獲得了更高的訓(xùn)練獎(jiǎng)勵(lì)。通過優(yōu)化UAV 的軌跡設(shè)計(jì),功率分配和用戶關(guān)聯(lián),達(dá)到最大化用戶公平性和最小化能耗。
DRL 還能用于優(yōu)化網(wǎng)絡(luò)資源和網(wǎng)絡(luò)任務(wù)的分配。文獻(xiàn)[30 ]提出基于PPO 算法的DRL,保證UAV 的感知、通信和計(jì)算服務(wù)質(zhì)量,計(jì)算卸載時(shí)延以及資源分配約束條件下通過DRL 訓(xùn)練框架,通過優(yōu)化其飛行軌跡、波束成形以及計(jì)算效率達(dá)到最小化系統(tǒng)能耗的目的。文獻(xiàn)[31]根據(jù)任務(wù)分配式卸載特點(diǎn),采用基于多智能體近端策略優(yōu)化(MultiAgent Proximal Policy Optimization,MAPPO)算法并結(jié)合Beta 分布和注意力機(jī)制的方法對UAV 的MEC進(jìn)行研究,能有效加快算法收斂速度,降低服務(wù)開銷。針對由于UAV 網(wǎng)絡(luò)節(jié)點(diǎn)間干擾而出現(xiàn)的通信質(zhì)量降低問題,文獻(xiàn)[32]從空域和功率域出發(fā),提出參數(shù)化動(dòng)作空間的加權(quán)Dueling DQN 學(xué)習(xí)算法(該算法適用于包含連續(xù)功率分配和離散波束成形的混合動(dòng)作空間),利用所提算法設(shè)計(jì)了聯(lián)合波束與功率資源分配策略,較好地提升了UAV 網(wǎng)絡(luò)的頻譜效率和能量效率,且具有快速收斂的優(yōu)勢。針對邊緣網(wǎng)絡(luò)環(huán)境下多無人機(jī)之間存在計(jì)算負(fù)載不均,造成卸載任務(wù)失敗的問題,郭永安等[33]提出了一種多UAV 間協(xié)作的智能任務(wù)卸載方案,基于多智能體DRL 框架,提出了融合軌跡規(guī)劃和任務(wù)卸載的分布式算法。該協(xié)作方案可以顯著提高任務(wù)完成率和負(fù)載公平度,并且能有效應(yīng)用于大規(guī)模用戶設(shè)備場景。由于UAV 數(shù)據(jù)傳輸需求和地理位置的動(dòng)態(tài)變化,易造成邊緣服務(wù)器負(fù)載不均衡,最終導(dǎo)致巡檢業(yè)務(wù)處理時(shí)延和網(wǎng)絡(luò)能耗較高。文獻(xiàn)[34]提出基于DRL 的能源互聯(lián)網(wǎng)智能巡檢任務(wù)分配機(jī)制應(yīng)對以上問題,采用基于PPO 的DRL 算法,對固定邊緣匯聚層和移動(dòng)邊緣接入層邊緣節(jié)點(diǎn)間的連接關(guān)系和卸載策略進(jìn)行求解,所提機(jī)制能夠在保證系統(tǒng)穩(wěn)定的情況下降低服務(wù)時(shí)延和系統(tǒng)能耗。針對復(fù)雜場景下UAV 集群的多耦合任務(wù)的決策問題,文永明等[35]提出了一種集群對抗多耦合任務(wù)智能決策方法,通過比較傳統(tǒng)方法、集中式架構(gòu)方法和分層式架構(gòu)方法,驗(yàn)證了所提方法的有效性和先進(jìn)性。
綜上,DRL 在UAV 網(wǎng)絡(luò)資源上的優(yōu)化算法匯總?cè)绫恚?所示。
3 展望
雖然DRL 已逐步應(yīng)用于UAV 集群構(gòu)成的通信網(wǎng)絡(luò)中,并在性能指標(biāo)上發(fā)揮了顯著作用,但是仍然存在以下挑戰(zhàn):
近年來,UAV 作為飛行無線通信平臺(tái)備受關(guān)注。得益于移動(dòng)性,UAV 空中基站可以快速靈活部署,有效建立視距通信鏈路[36]。然而,UAV 通信系統(tǒng)的優(yōu)化還面臨許多問題。包括:① 能量限制,UAV 電池壽命約為1 h 的數(shù)量級;② UAV 空中基站覆蓋范圍有限,商用UAV 通常價(jià)格昂貴。因此,使足夠的UAV 覆蓋一個(gè)大的目標(biāo)區(qū)域是極具有挑戰(zhàn)性的。
盡管國內(nèi)外許多學(xué)者針對網(wǎng)絡(luò)已經(jīng)提出了許多資源分配和干擾管理的方案,但是聯(lián)合優(yōu)化問題具有非凸性和組合特性,因此如何獲取全局最優(yōu)策略,考慮用戶公平性,依舊是需要思考的難題[37]。還有研究提出基于DRL 的在線策略來提高網(wǎng)絡(luò)中的任務(wù)處理能力[38],但該研究沒有考慮能量收集問題。另外,優(yōu)化網(wǎng)絡(luò)資源還需要考慮以下問題與挑戰(zhàn)[39]:① 針對動(dòng)態(tài)網(wǎng)絡(luò)結(jié)構(gòu),需要合理地設(shè)計(jì)DRL的狀態(tài)與動(dòng)作空間,注意算法的收斂性能以及對應(yīng)的求解全局或非全局最優(yōu);② 針對多維網(wǎng)絡(luò)資源和多樣性通信需求合理設(shè)計(jì)DRL 獎(jiǎng)勵(lì)函數(shù),注重頻繁交互對算法復(fù)雜度的影響;③ 在實(shí)際移動(dòng)通信場景中,由于真實(shí)數(shù)據(jù)樣本通常有限,還要注意DRL 存在的系數(shù)獎(jiǎng)勵(lì)問題。
同時(shí),為了保障UAV 群的任務(wù)執(zhí)行和機(jī)間通信,UAV 群資源分配尤其重要[40],合理的信道分配和功率控制可以有效提升通信容量,避免相互干擾,借助DRL 優(yōu)化機(jī)群中各UAV 的位置部署能夠極大地提升覆蓋效率,提高信息傳輸速率和距離,機(jī)群內(nèi)合理的任務(wù)分配可以縮短任務(wù)時(shí)間,提升任務(wù)執(zhí)行效率,節(jié)約UAV 能耗,因此,合理的資源分配可以更好地發(fā)揮集群優(yōu)勢。運(yùn)用各類不同的人工智能進(jìn)行優(yōu)化,呈現(xiàn)出的效果也不同。隨著未來UAV 集群進(jìn)一步的發(fā)展和提升,UAV 還能在以下方面產(chǎn)生應(yīng)用:與通感算[41]進(jìn)行結(jié)合,通過神經(jīng)網(wǎng)絡(luò)模型預(yù)測所需信息,對無人機(jī)群進(jìn)行調(diào)控以最大化無人機(jī)群的網(wǎng)絡(luò)效用;與可重構(gòu)智能表面(Reconfigurable Intelligent Surface,RIS)[42]結(jié)合,通過優(yōu)化UAV 的三維空間軌跡,尋找最優(yōu)信道,優(yōu)化聯(lián)合計(jì)算策略,降低MEC 的服務(wù)能耗;與反向散射[43]進(jìn)行結(jié)合,將無人機(jī)輔助的反向散射通信應(yīng)用進(jìn)MEC 網(wǎng)絡(luò),緩解用戶能量短缺問題;參進(jìn)空地網(wǎng)絡(luò)的協(xié)調(diào)工作有效提升感知精度,增加信譽(yù)容量等。更多的應(yīng)用還需要學(xué)者們進(jìn)行進(jìn)一步研究探索。
4 結(jié)束語
本文針對UAV 集群中的通信與網(wǎng)絡(luò)資源優(yōu)化問題,分析了通信網(wǎng)絡(luò)對UAV 集群應(yīng)用的重要性,調(diào)研總結(jié)歸納了DRL 在UAV 集群通信網(wǎng)絡(luò)中對性能指標(biāo)增益的具體貢獻(xiàn),得出結(jié)論:基于DRL 的UAV 集群通信網(wǎng)絡(luò)在技術(shù)指標(biāo)上更加優(yōu)異。最后,本文對UAV 集群通信與網(wǎng)絡(luò)未來的發(fā)展進(jìn)行了探討。
參考文獻(xiàn)
[1] 李波,黃晶益,萬開方,等. 基于深度強(qiáng)化學(xué)習(xí)的無人
機(jī)系統(tǒng)應(yīng)用研究綜述[J]. 戰(zhàn)術(shù)導(dǎo)彈技術(shù),2023 (1):
58-68.
[2] 李成鳳,劉勝軍,張弘強(qiáng),等. 通信時(shí)延下無人機(jī)群集
系統(tǒng)分群控制算法[J]. 無線電工程,2022,52 (4):
536-543.
[3] LIAO Y,GAO G,JING Y H. Ultrareliable Intelligent
Link Scheduling Based on DRL for Manned / Unmanned
Aerial Vehicle Cooperative Scenarios[J]. Physical Com
munication,2024,63:102304.
[4] 賈維敏,楊颵,趙建偉,等. 無人機(jī)蜂群通信感知一體
化關(guān)鍵技術(shù)[J]. 國防科技,2023,44(3):88-95.
[5] 張屆飛. 無人機(jī)通信網(wǎng)絡(luò)及資源優(yōu)化技術(shù)[J]. 通信電
源技術(shù),2023,40(4):116-118.
[6] 田暢,賈倩,陳潤豐,等. 無人機(jī)集群網(wǎng)絡(luò)資源優(yōu)化綜
述[J]. 數(shù)據(jù)采集與處理,2023,38(3):506-524.
[7] 曹志波. 警用無人機(jī)集群指揮網(wǎng)絡(luò)的構(gòu)建與應(yīng)用[J].
中國人民警察大學(xué)學(xué)報(bào),2023,39(8):26-32.
[8] 鄭迪,謝亞琴,谷天園. 基于無人機(jī)5G 高空基站的低
成本應(yīng)急定位方法[J]. 無線電工程,2023,53 (11):
2607-2618.
[9] 馬捷,李雅. 人工智能在無人機(jī)領(lǐng)域的應(yīng)用[J]. 無線
電工程,2024,54(3):759-764.
[10] 孫卉,趙睿,游亞璇,等. 保障無人機(jī)安全通信的自主
飛行3D 路徑規(guī)劃[J]. 信號處理,2022,38 (5 ):
1027-1036.
[11] 周世陽,程郁凡,徐豐,等. 基于深度強(qiáng)化學(xué)習(xí)的無人
機(jī)間通信鏈路智能決策[J]. 信號處理,2022,38(7):
1424-1433.
[12] YANG X C,QIN D Y,LIU J P,et al. Deep Reinforcement
Learning in NOMAassisted UAV Networks for Path Se
lection and Resource Offloading [J]. Ad Hoc Networks,
2023,151(4):103285.
[13] 鄧丹昊,王朝煒,江帆,等. 無人機(jī)輔助無蜂窩大規(guī)模
MIMO 中的空地協(xié)同調(diào)度[J]. 電信科學(xué),2022,38
(8):37-44.
[14] 羅佳,陳前斌,唐倫,等. 考慮能耗中斷的無人機(jī)通信
中基于深度強(qiáng)化學(xué)習(xí)的資源管理[J]. 電子與信息學(xué)
報(bào),2023,45(8):2885-2892.
[15] LIN Y,WANG M Y,ZHOU X L,et al. Dynamic Spectrum
Interaction of UAV Flight Formation Communication with
Priority:A Deep Reinforcement Learning Approach [J].
IEEE Transactions on Cognitive Communications and Net
working,2020,6(3):892-903.
[16] 周永濤,劉唐,彭艦. 無人機(jī)空中基站的路徑規(guī)劃研究
[J]. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,36(10):
166-175.
[17] 張惠婷,張然,劉敏提,等. 基于深度強(qiáng)化學(xué)習(xí)的無人
機(jī)通信抗干擾算法[J]. 兵器裝備工程學(xué)報(bào),2022,43
(10):27-34.
[18] KARMAKAR P,SHAH V K,ROY S, et al. Reliable
Backhauling in Aerial Communication Networks Against
UAV Failures:A Deep Reinforcement Learning Approach
[J]. IEEE Transactions on Network and Service Manage
ment,2022,19(3):2798-2811.
[19] 李健,翟亞紅,徐龍艷. 基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)通
信速率優(yōu)化[J]. 湖北汽車工業(yè)學(xué)院學(xué)報(bào),2023,37
(3):58-62.
[20] 胡浪濤,畢松姣,劉全金,等. 基于強(qiáng)化學(xué)習(xí)的智能超
表面輔助無人機(jī)通信系統(tǒng)物理層安全算法[J]. 電子
與信息學(xué)報(bào),2022,44(7):2407-2415.
[21] DING R J,GAO F F,SHEN X S. 3D UAV Trajectory De
sign and Frequency Band Allocation for Energyefficient
and Fair Communication:A Deep Reinforcement Learning
Approach[J]. IEEE Transactions on Wireless Communi
cations,2022,19(12):7796-7809.
[22] LIU C H,CHEN Z Y,TANG J,et al. Energyefficient
UAV Control for Effective and Fair Communication Cover
age:A Deep Reinforcement Learning Approach[J]. IEEE
Journal on Selected Areas in Communications,2018,36
(9):2059-2070.
[23] WANG C W,DENG D H,XU L X,et al. Resource Sche
duling Based on Deep Reinforcement Learning in UAV As
sisted Emergency Communication Networks[J]. IEEE Trans
actions on Communications,2022,70(6):3834-3848.
[24] 付振江,羅俊松,寧進(jìn),等. 無人機(jī)集群通信的應(yīng)用現(xiàn)
狀及展望[J]. 無線電工程,2023,53(1):3-10.
[25] 董方昊,馮有前,尹忠海,等. 具有精英策略的深度強(qiáng)
化學(xué)習(xí)無人機(jī)集群通信網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)[J]. 空軍工程
大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,20(4):52-58.
[26] 王朝煒,鄧丹昊,王衛(wèi)東,等. 無蜂窩大規(guī)模MIMO 中
基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)輔助通信與資源調(diào)度
[J]. 電子與信息學(xué)報(bào),2022,44(3):835-843.
[27] 張廣馳,何梓楠,崔苗. 基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)輔
助移動(dòng)邊緣計(jì)算系統(tǒng)能耗優(yōu)化[J]. 電子與信息學(xué)報(bào),
2023,45(5):1635-1643.
[28] 陳劍,楊青青,彭藝. 基于MADDPG 的無人機(jī)輔助通信
功率分配算法[J]. 光電子· 激光,2023,34 (3 ):
306-313.
[29] 唐倫,李質(zhì)萱,蒲昊,等. 基于多智能體深度強(qiáng)化學(xué)習(xí)
的無人機(jī)動(dòng)態(tài)預(yù)部署策略[J]. 電子與信息學(xué)報(bào),
2023,45(6):2007-2015.
[30] 李斌,彭思聰,費(fèi)澤松. 基于邊緣計(jì)算的無人機(jī)通感融
合網(wǎng)絡(luò)波束成形與資源優(yōu)化[J]. 通信學(xué)報(bào),2023,44
(9):228-237.
[31] 李斌. 基于多智能體強(qiáng)化學(xué)習(xí)的多無人機(jī)邊緣計(jì)算任
務(wù)卸載[J]. 無線電工程,2023,53(12):2731-2740.
[32] 唐峯竹,唐欣,李春海,等. 基于深度強(qiáng)化學(xué)習(xí)的多無
人機(jī)任務(wù)動(dòng)態(tài)分配[J]. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)
版),2021,39(6):63-71.
[33] 郭永安,王宇翱,周沂,等. 邊緣網(wǎng)絡(luò)下多無人機(jī)協(xié)同
計(jì)算和資源分配聯(lián)合優(yōu)化策略[J]. 南京航空航天大
學(xué)學(xué)報(bào),2023,55(5):757-767.
[34] 徐思雅,邢逸斐,郭少勇,等. 基于深度強(qiáng)化學(xué)習(xí)的能
源互聯(lián)網(wǎng)智能巡檢任務(wù)分配機(jī)制[J]. 通信學(xué)報(bào),
2021,42(5):191-204.
[35] 文永明,石曉榮,黃雪梅,等. 一種無人機(jī)集群對抗多
耦合任務(wù)智能決策方法[J]. 宇航學(xué)報(bào),2021,42(4):
504-512.
[36] QI H,HU Z Q,HUANG H,et al. Energy Efficient 3D
UAV Control for Persistent Communication Service and
Fairness:A Deep Reinforcement Learning Approach[J].
IEEE Access,2020,8:53172-53184.
[37] 趙曉榮. 基于深度強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源分配[D].
濟(jì)南:山東大學(xué),2023.
[38] BI S Z,HUANG L,WANG H,et al. Lyapunovguided
Deep Reinforcement Learning for Stable Online Computa
tion Offloading in Mobileedge Computing Networks[J].
IEEE Transactions on Wireless Communications,2021,
20(11):7519-7537.
[39] 孫恩昌,袁永儀,吳兵,等. 深度強(qiáng)化學(xué)習(xí)與移動(dòng)通信
資源管理:算法、進(jìn)展與展望[J]. 北京工業(yè)大學(xué)學(xué)報(bào),
2023,49(1):71-88.
[40] 陳佳馨,方韜,方峰,等. 無人機(jī)群通信網(wǎng)絡(luò)中博弈論
綜述[J]. 指揮信息系統(tǒng)與技術(shù),2023,14(3):39-45.
[41] 吳義豪,齊彥麗,周一青,等. 通感算協(xié)同的無人機(jī)群
軌跡規(guī)劃與功率分配[J]. 西安電子科技大學(xué)學(xué)報(bào)(自
然科學(xué)版),2023,50(3):61-74.
[42] 劉昊洋,楊金松,孫三山,等. MEC 中RIS 輔助的無人
機(jī)軌跡和計(jì)算策略聯(lián)合優(yōu)化[J]. 無線電工程,2023,
53(1):18-25.
[43] 李斌,楊蓉蓉. 無人機(jī)輔助反向散射通信計(jì)算任務(wù)卸
載與資源分配[J]. 電子與信息學(xué)報(bào),2023,45 (7):
2334-2341.
作者簡介
王 慶 男,(1984—)。高級工程師。主要研究方向:無人機(jī)設(shè)計(jì)。
孫 瑋 男,(1989—)。工程師。主要研究方向:無人機(jī)集群。
張程程 男,(1987—)。工程師。主要研究方向:集群體系架構(gòu)。
秦 真 女,(2003—)。主要研究方向:智能信號處理。
廖 勇 男,(1982—)。博士,副研究員。主要研究方向:高速移動(dòng)通信、智能通信。