無人機(jī)任務(wù)卸載與充電協(xié)同優(yōu)化

2024-02-02 09:29:02王青山

工程科學(xué)與技術(shù) 2024年1期

何涵，劉鵬*，趙亮，王青山

(1.杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院，浙江杭州 310018；2.沈陽航空航天大學(xué)計(jì)算機(jī)學(xué)院，遼寧沈陽 110136；3.合肥工業(yè)大學(xué) 數(shù)學(xué)學(xué)院，安徽合肥 230009)

在野外移動(dòng)邊緣計(jì)算（MEC）場景中，用戶設(shè)備產(chǎn)生的計(jì)算密集型任務(wù)難以在本地處理，需要卸載到具有強(qiáng)大性能的邊緣服務(wù)器[1]。一般情況下，這些場景或者缺乏預(yù)先建設(shè)的有線骨干網(wǎng)絡(luò)，或者網(wǎng)絡(luò)信號較差，無法提供穩(wěn)定的廣域無線網(wǎng)絡(luò)服務(wù)。因此，如何幫助此類MEC場景中的用戶設(shè)備卸載計(jì)算任務(wù)成為亟待解決的問題[2]。無人機(jī)（UAV）因其靈活性和便捷性可以為解決上述問題做出貢獻(xiàn)[3–4]。

目前，UAV在MEC任務(wù)卸載場景中承擔(dān)的角色主要有兩種：一是，UAV上搭載邊緣服務(wù)器，直接就近為用戶提供計(jì)算服務(wù)[5]；二是，UAV作為中繼器，負(fù)責(zé)收集用戶任務(wù)，再交給地面的邊緣服務(wù)器進(jìn)行處理[6]。第1種方案雖然可以更快地為用戶設(shè)備提供服務(wù)，但由于邊緣服務(wù)器的重量較大和能耗較高，UAV難以搭載這種類型的計(jì)算平臺進(jìn)行持續(xù)飛行。第2種方案采用UAV作為任務(wù)中繼器的方案，在提供計(jì)算服務(wù)方面具有多重優(yōu)勢。首先，這種方式顯著擴(kuò)大了邊緣服務(wù)器的服務(wù)范圍，并節(jié)省了服務(wù)器部署成本[7]；其次，它實(shí)現(xiàn)了原本通信不暢的用戶設(shè)備與邊緣服務(wù)器之間的有效連接，使得用戶設(shè)備能夠執(zhí)行更復(fù)雜的計(jì)算密集型任務(wù)。

為了提高安全性，UAV巡航時(shí)通常會(huì)保持較高的高度，而進(jìn)行數(shù)據(jù)傳輸時(shí)需要下降高度以保證數(shù)據(jù)傳輸率和可靠性。每次上升和下降過程會(huì)造成任務(wù)處理時(shí)延和UAV能耗的增加[8]，因此，為提高UAV任務(wù)卸載效率，有兩個(gè)挑戰(zhàn)性問題需要解決。

1）UAV卸載決策問題

UAV的卸載決策對MEC系統(tǒng)的整體效率至關(guān)重要，因?yàn)檫@些決策直接影響系統(tǒng)目標(biāo)的實(shí)現(xiàn)。任務(wù)的價(jià)值依賴于其卸載到服務(wù)器的及時(shí)性，并且通常與處理時(shí)延緊密相關(guān)，處理時(shí)延越長，任務(wù)價(jià)值越低[9]。不適當(dāng)?shù)男遁d決策不僅會(huì)增加UAV的飛行時(shí)間和能耗，還可能對MEC環(huán)境中的其他用戶設(shè)備產(chǎn)生不利影響。因此，為了提高系統(tǒng)的整體任務(wù)卸載效率，對UAV的卸載決策進(jìn)行優(yōu)化是必要的[10]。

針對MEC場景下的任務(wù)卸載決策問題已有廣泛的研究，Mukherjee等[11]建立了一個(gè)經(jīng)典的MEC計(jì)算卸載應(yīng)用模型，提出了基于UAV輔助MEC環(huán)境為物聯(lián)網(wǎng)設(shè)備提供計(jì)算服務(wù)的問題框架，該系統(tǒng)涉及邊緣用戶設(shè)備、UAV和邊緣云之間的交互。各種強(qiáng)化學(xué)習(xí)算法被用于解決邊緣計(jì)算領(lǐng)域的任務(wù)卸載優(yōu)化問題。在沒有用戶設(shè)備相關(guān)先驗(yàn)知識的情況下，Han等[12]使用了深度強(qiáng)化學(xué)習(xí)DQN算法解決了系統(tǒng)資源分配問題，有效降低了系統(tǒng)卸載延遲。Chen等[13]基于深度蒙特卡洛樹搜索算法來學(xué)習(xí)任務(wù)卸載決策軌跡，并通過最大化獎(jiǎng)勵(lì)來實(shí)現(xiàn)能耗最小化的目標(biāo)。Zhan等[14]提出了一種基于深度學(xué)習(xí)的方法來解決時(shí)延和能耗的加權(quán)及最小化問題，證明了經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)生成的卸載決策的可行性。

現(xiàn)有大多數(shù)研究將UAV視為邊緣服務(wù)器的承載平臺，但UAV電池有限的電量顯著限制了其服務(wù)時(shí)長。Hu等[6]首次提出了將UAV作為中繼節(jié)點(diǎn)以輔助任務(wù)卸載的概念，其中，無人機(jī)同時(shí)承擔(dān)MEC服務(wù)器和中繼的角色，特別是在處理計(jì)算密集型和延遲敏感任務(wù)時(shí)，該方法能顯著提升性能。Yu等[15]進(jìn)一步探討了在MEC場景下使用UAV作為中繼節(jié)點(diǎn)提供服務(wù)的概念，但主要關(guān)注于尋找UAV部署位置的最佳解決方案。然而，目前還缺乏關(guān)于僅將UAV作為中繼節(jié)點(diǎn)進(jìn)行路徑優(yōu)化以輔助任務(wù)卸載的系統(tǒng)性研究。

2）UAV充電決策問題

UAV的體積限制了其電池容量，導(dǎo)致難以長時(shí)間提供任務(wù)卸載服務(wù)，這制約了其應(yīng)用潛力。隨著無線充電技術(shù)的發(fā)展，現(xiàn)代UAV逐漸融入了充電節(jié)點(diǎn)，使其能在電量不足時(shí)自主補(bǔ)充電量[16]。然而，充電行為會(huì)消耗UAV的服務(wù)時(shí)間和飛行路程，因此，在任務(wù)卸載過程中，UAV如何有效選擇充電時(shí)間、電量及充電節(jié)點(diǎn)，成為一個(gè)需要解決的關(guān)鍵問題。Alyassi等[17]考慮了環(huán)境因素和UAV的能耗模型，提出了自主充電和路徑規(guī)劃策略，以優(yōu)化長途UAV任務(wù)的整體效率。但該方法僅考慮了續(xù)航問題，沒有考慮充電時(shí)間對任務(wù)效率的影響。Fan等[18]使用DQN方法進(jìn)行無人機(jī)充電調(diào)度，但主要考慮最小化無人機(jī)的總行駛距離作為任務(wù)目標(biāo)。

在前人的研究基礎(chǔ)上，本文研究了用戶任務(wù)時(shí)延敏感及UAV電池電量約束下的UAV充電與任務(wù)卸載協(xié)同優(yōu)化問題。本文提出了UAV輔助邊緣計(jì)算環(huán)境下的充電協(xié)同任務(wù)卸載調(diào)度模型，以解決時(shí)延敏感和UAV能量約束下的UAV輔助邊緣計(jì)算任務(wù)卸載的收益最大化問題。本文提出的應(yīng)用模型，將UAV作為中繼節(jié)點(diǎn)，整合了UAV的任務(wù)卸載和充電調(diào)度模型。該模型專注于區(qū)域用戶設(shè)備產(chǎn)生的任務(wù)卸載調(diào)度，并與協(xié)同充電調(diào)度相結(jié)合。針對該應(yīng)用模型，本文構(gòu)建了馬爾可夫決策模型，并提出了一種UAV充電與任務(wù)卸載的協(xié)同優(yōu)化算法，通過對DQN的調(diào)優(yōu)形成了Fixed DQN算法。在處理大規(guī)模狀態(tài)空間的任務(wù)卸載和充電調(diào)度問題時(shí)，F(xiàn)ixed DQN算法相較于傳統(tǒng)算法在任務(wù)收益方面展現(xiàn)出了顯著的性能提升。

1 系統(tǒng)模型

1.1 任務(wù)卸載與自主充電應(yīng)用場景描述

本文提出了一種在有限區(qū)域內(nèi)的UAV任務(wù)卸載協(xié)同充電調(diào)度應(yīng)用場景，如圖1所示。從圖1可見：該應(yīng)用場景的主體是MEC場景下的一個(gè)有限區(qū)域，離散分布著多個(gè)用戶節(jié)點(diǎn)、為這些用戶節(jié)點(diǎn)提供計(jì)算能力的邊緣服務(wù)器節(jié)點(diǎn)，以及為UAV無線充電的充電節(jié)點(diǎn)。該區(qū)域內(nèi)的UAV充電節(jié)點(diǎn)可以為UAV提供無人參與的充電服務(wù)，UAV需要根據(jù)自身的電量和隨后的任務(wù)卸載規(guī)劃，決定是否去為UAV充電節(jié)點(diǎn)補(bǔ)充電量。當(dāng)UAV決定去充電時(shí)需要花費(fèi)額外的時(shí)間和能量從巡航高度降落到充電節(jié)點(diǎn)，才可以進(jìn)行充電。在任務(wù)開始時(shí)，UAV在某個(gè)充電節(jié)點(diǎn)起飛，初始電量為100%。

圖1 UAV任務(wù)卸載與自主充電應(yīng)用場景Fig.1 UAV task offloading and charging application scenarios

根據(jù)UAV不同電量時(shí)電池的充電效率存在差異的情況[19]，本文為UAV充電建模了多個(gè)檔位的充電服務(wù)特性，不同檔位的充電選擇決定UAV充電完畢時(shí)的電量。本文總是假設(shè)充電節(jié)點(diǎn)擁有足夠的電量。在任務(wù)卸載與自主充電應(yīng)用場景下，UAV的工作流程圖如圖2所示。由圖2可見：起始狀態(tài)時(shí)，時(shí)刻為0，UAV處于特定的充電節(jié)點(diǎn)且電池電量處于充滿狀態(tài)。在有限的服務(wù)時(shí)間內(nèi)，UAV會(huì)不斷地做出動(dòng)作決策，以確定隨后需要提供服務(wù)的節(jié)點(diǎn)。具體的流程為：UAV會(huì)判斷服務(wù)時(shí)間是否結(jié)束，結(jié)束則返回起點(diǎn)，否則獲取一個(gè)針對當(dāng)前狀態(tài)的決策。如果UAV選擇飛往一個(gè)用戶節(jié)點(diǎn)，那么它會(huì)從當(dāng)前節(jié)點(diǎn)出發(fā)飛往選定的用戶節(jié)點(diǎn)并收集該用戶節(jié)點(diǎn)上的累積任務(wù)；如果選擇飛往一個(gè)服務(wù)器節(jié)點(diǎn)，則會(huì)飛向選定的服務(wù)器節(jié)點(diǎn)并卸載所有收集的用戶任務(wù)；如果選擇飛往一個(gè)充電節(jié)點(diǎn)，則選擇充電檔位并等待下一次UAV的飛行動(dòng)作決策。

圖2 UAV任務(wù)卸載與自主充電工作流程圖Fig. 2 Workflow diagram of UAV task offloading and autonomous charging

1.2 任務(wù)卸載與自主充電協(xié)同問題建模

針對MEC場景中UAV續(xù)航時(shí)間短的問題，本文提出了一種UAV任務(wù)卸載與自主充電協(xié)同模型。該模型由一個(gè)UAV、一個(gè)邊緣服務(wù)器節(jié)點(diǎn)，以及多個(gè)用戶節(jié)點(diǎn)和多個(gè)充電節(jié)點(diǎn)組成。用戶節(jié)點(diǎn)、邊緣服務(wù)器節(jié)點(diǎn)和充電節(jié)點(diǎn)均在一個(gè)平面坐標(biāo)區(qū)域內(nèi)。假設(shè)任務(wù)是離散到達(dá)的，且一個(gè)時(shí)間內(nèi)服務(wù)器只需要處理一個(gè)用戶節(jié)點(diǎn)的任務(wù)。假設(shè)本模型的用戶節(jié)點(diǎn)數(shù)為nu，位置記為ln1,ln2,···,lnu。這些用戶節(jié)點(diǎn)將每隔一個(gè)時(shí)間間隔生成一個(gè)任務(wù)，生成的任務(wù)將在用戶的本地存儲(chǔ)器中暫存。每個(gè)用戶節(jié)點(diǎn)各自產(chǎn)生不同的任務(wù)類型，記為Tn1,Tn2,···,Tnu。同一個(gè)用戶節(jié)點(diǎn)生成的任務(wù)大小相同，但不同用戶節(jié)點(diǎn)生成的任務(wù)大小不同，分別為dn1,dn2,···,dnu。與此同時(shí)，不同用戶節(jié)點(diǎn)生成任務(wù)的時(shí)間間隔各不相同，分別為tn1,tn2,···,tnu。用(xs,ys)表示服務(wù)器節(jié)點(diǎn)的位置。UAV工作開始前會(huì)停留在起點(diǎn)，且起點(diǎn)是一個(gè)充電節(jié)點(diǎn)。UAV在起點(diǎn)時(shí)處于充滿電的狀態(tài)，等待執(zhí)行任務(wù)。UAV在總服務(wù)時(shí)間ttotal內(nèi)，不斷地選擇到達(dá)一個(gè)用戶節(jié)點(diǎn)收集該節(jié)點(diǎn)已生成的所有任務(wù)，或者選擇到達(dá)一個(gè)充電節(jié)點(diǎn)進(jìn)行能量補(bǔ)充，或者選擇去服務(wù)器節(jié)點(diǎn)卸載任務(wù)。當(dāng)UAV的總服務(wù)時(shí)間ttotal結(jié)束后，就停止所有服務(wù)，飛回起點(diǎn)。設(shè)UAV的巡航高度為H，用戶節(jié)點(diǎn)和邊緣服務(wù)器節(jié)點(diǎn)處于同一高度，記為h，且H?h。當(dāng)UAV收集或卸載任務(wù)時(shí)，必須從巡航高度H下降到h才能執(zhí)行任務(wù)。設(shè)定UAV巡航是勻速飛行，速度為vcrusing；UAV與用戶節(jié)點(diǎn)近距離數(shù)據(jù)傳輸速度為vud；UAV與邊緣服務(wù)器節(jié)點(diǎn)的傳播速度為vsd；UAV由H降落到h花費(fèi)時(shí)間為tlanding；UAV由h上升到H花費(fèi)時(shí)間為trising。

環(huán)境中的充電節(jié)點(diǎn)主要用于給UAV快速充電，以便于UAV能夠長時(shí)間為固定區(qū)域內(nèi)的用戶設(shè)備提供任務(wù)卸載服務(wù)。本模型充電節(jié)點(diǎn)一共有nc個(gè)，用集合lc表示為{ln1,ln2,···,lnc} ，(xci,yci)表示充電節(jié)點(diǎn)的位置。UAV到達(dá)一個(gè)充電節(jié)點(diǎn)時(shí)，不需要充滿電再出發(fā)，因?yàn)榉?wù)時(shí)間是有限的，充電時(shí)間過長會(huì)影響執(zhí)行任務(wù)的時(shí)間。UAV可以自行選擇充電量，為了便于研究，本文將電池電量分為4個(gè)檔位，即40%、60%、80%、100%。本模型將充電效率離散化成4段，記為λ，取值為1～4，分別對應(yīng)電池電量0～40%、40%～60%、60%～80%、80%～100%。隨著充電檔位升高，UAV無線充電效率減小。UAV在到達(dá)充電節(jié)點(diǎn)時(shí)需要確認(rèn)在當(dāng)前充電節(jié)點(diǎn)的充電檔位。將電池總?cè)萘坑洖锽。

UAV在服務(wù)時(shí)間內(nèi)每一次的決策合并在一起構(gòu)成了一個(gè)決策序列，這個(gè)路徑選擇決策序列表示為{A1,A2,···,Aj,Aj+1,···}，對應(yīng)的離散時(shí)隙序列表示為{s1,s2,···,sj,sj+1,···}，因此有如下約束：

本模型用向量V=(vn1,vn2,···,vnu)來表示UAV上每個(gè)用戶節(jié)點(diǎn)的任務(wù)卸載狀態(tài)。vi取值為–1、0、1，其中，–1表示未收集該任務(wù)，1表示當(dāng)前任務(wù)已收集且在UAV上，0表示任務(wù)已卸載。

通常情況下，每一個(gè)用戶節(jié)點(diǎn)都有卸載任務(wù)到邊緣服務(wù)器節(jié)點(diǎn)的需求，為了保證每個(gè)用戶節(jié)點(diǎn)產(chǎn)生的任務(wù)都有機(jī)會(huì)獲得邊緣服務(wù)器的計(jì)算資源，設(shè)定服務(wù)器至少需要處理每種類型的任務(wù)1個(gè)，即有如下約束：

式中，向量V i表示第i個(gè)用戶的任務(wù)卸載情況，num(V i,0)函數(shù)表示向量V i中元素值等于0的個(gè)數(shù)，即第i個(gè)用戶的任務(wù)卸載到服務(wù)器的任務(wù)個(gè)數(shù)。

本模型認(rèn)為當(dāng)UAV到達(dá)用戶節(jié)點(diǎn)或充電節(jié)點(diǎn)的高度h時(shí)，即抵達(dá)了當(dāng)前節(jié)點(diǎn)。UAV在規(guī)劃的路線上飛行，當(dāng)其從前一個(gè)節(jié)點(diǎn)飛行到下一個(gè)節(jié)點(diǎn)時(shí)會(huì)消耗時(shí)間，其記為 ?，則 ?可以表示為：

式中，uij為前后兩點(diǎn)的距離，tcg為充電時(shí)間。

UAV的能耗是制約UAV在邊緣計(jì)算環(huán)境中應(yīng)用的主要因素，主要由UAV飛行能耗和UAV數(shù)據(jù)傳輸能耗組成[20]。UAV飛行能耗主要包括UAV水平飛行能耗、上升能耗、下降能耗。為了簡化研究，本文假設(shè)UAV在某一種飛行活動(dòng)中功率一樣，則UAV從一個(gè)節(jié)點(diǎn)傳到另一個(gè)節(jié)點(diǎn)并收集數(shù)據(jù)的能耗表示為：

式中，prising為UAV上升功率，pcrusing為UAV巡航飛行功率，planding為UAV下降功率，ph為UAV與用戶節(jié)點(diǎn)和服務(wù)器節(jié)點(diǎn)傳輸數(shù)據(jù)時(shí)的懸停能耗。

為了保證UAV在總服務(wù)時(shí)間內(nèi)能夠持續(xù)提供服務(wù)，需要保證UAV一直處于電量充足狀態(tài)，于是有約束：

式中，Bt為UAV到達(dá)充電節(jié)點(diǎn)時(shí)的電量。因?yàn)槌潆姇r(shí)間和充電量與UAV當(dāng)前電量相關(guān)，不同檔位λ的充電量所需要的充電時(shí)間是不同的，那么充電時(shí)間表示為：

式中，tcg為充電時(shí)長，pλ為λ檔位對應(yīng)的充電功率。

本模型的目標(biāo)函數(shù)是在總服務(wù)時(shí)間內(nèi)，UAV通過路徑選擇策略獲得的任務(wù)卸載收益最大化，那么最大化收益表示如下：

式中：?opt為每次任務(wù)結(jié)束時(shí)的任務(wù)卸載收益，Yi為任務(wù)的價(jià)值函數(shù)，表示在每一步獲得的收益；Yi的定義如下：

式中，Si為在第i次決策中的任務(wù)集合，si為UAV飛行決策， ξj為不同任務(wù)的初始價(jià)值，tij為第i次決策時(shí)第j個(gè)任務(wù)的等待時(shí)間。

2 基于DQN的UAV充電與任務(wù)卸載協(xié)同優(yōu)化算法

深度神經(jīng)網(wǎng)絡(luò)（DNN）具有卓越的復(fù)雜特征提取能力。通過值函數(shù)逼近方法，它將環(huán)境特征與實(shí)際決策有效結(jié)合，在智能體與環(huán)境不斷交互的過程中更新值函數(shù)的參數(shù)權(quán)重，最終實(shí)現(xiàn)對狀態(tài)值函數(shù)的準(zhǔn)確估計(jì)。盡管DNN在處理連續(xù)狀態(tài)且狀態(tài)動(dòng)作空間巨大的復(fù)雜決策問題方面表現(xiàn)良好[21–22]，但其網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)調(diào)整過程的復(fù)雜性及挑戰(zhàn)性導(dǎo)致了性能的不穩(wěn)定性。本文采用了深度Q網(wǎng)絡(luò)（DQN）算法[23–24]來解決任務(wù)卸載的最大化問題。DQN算法通過利用深度神經(jīng)網(wǎng)絡(luò)來逼近復(fù)雜的非線性函數(shù)，有效地將環(huán)境狀態(tài)映射到智能體的動(dòng)作上，從而免去了維護(hù)龐大Q表的需求[25]。Q表是強(qiáng)化學(xué)習(xí)中Q學(xué)習(xí)算法的核心組成部分，它用于存儲(chǔ)和更新智能體在特定狀態(tài)下采取不同動(dòng)作的預(yù)期回報(bào)值。為了更好地應(yīng)對本研究中特定的挑戰(zhàn)，進(jìn)一步提出了Fixed DQN算法，這是對標(biāo)準(zhǔn)DQN算法進(jìn)行深度調(diào)參優(yōu)化后的變體，專門用于解決所面臨的問題。

2.1 算法設(shè)計(jì)

本文依據(jù)第1.2節(jié)所構(gòu)建的UAV任務(wù)卸載與自主充電模型建立了對應(yīng)的馬爾可夫模型，以便于后續(xù)使用深度強(qiáng)化學(xué)習(xí)方法進(jìn)行迭代求解。其中，UAV是訓(xùn)練的智能體，它需要根據(jù)當(dāng)前的狀態(tài)特征去選擇最大獎(jiǎng)勵(lì)期望的動(dòng)作。Fixed DQN算法是本文提出的經(jīng)過超參數(shù)調(diào)優(yōu)后的方法，主要通過對DQN算法中的超參數(shù)（經(jīng)驗(yàn)回放內(nèi)存M、學(xué)習(xí)率 α、獎(jiǎng)勵(lì)衰減因子γ、貪婪系數(shù) ε）依次二分調(diào)參的方式來實(shí)現(xiàn)，二分調(diào)參時(shí)允許相鄰兩次的值有一定的誤差以避免網(wǎng)絡(luò)訓(xùn)練波動(dòng)。

該算法的設(shè)計(jì)綜合考慮了以下關(guān)鍵方面：首先，定義了算法的狀態(tài)空間和動(dòng)作空間，確保智能體能夠準(zhǔn)確地感知環(huán)境并做出有效的決策；其次，詳細(xì)說明了獎(jiǎng)勵(lì)函數(shù)的構(gòu)成，以引導(dǎo)智能體在訓(xùn)練過程中向著期望目標(biāo)前進(jìn)；接著，引入了經(jīng)驗(yàn)回放機(jī)制，通過存儲(chǔ)并重用過去的經(jīng)驗(yàn)來提高學(xué)習(xí)效率并減少樣本間相關(guān)性；此外，采用了異步更新的兩個(gè)神經(jīng)網(wǎng)絡(luò)來穩(wěn)定學(xué)習(xí)過程；在此基礎(chǔ)上，對Fixed DQN算法的超參數(shù)進(jìn)行了細(xì)致的優(yōu)化，以進(jìn)一步提升算法性能。具體設(shè)計(jì)如下：

1）狀態(tài)空間

系統(tǒng)狀態(tài)的選擇是Fixed DQN算法取得良好收斂結(jié)果的關(guān)鍵。因?yàn)镕ixed DQN算法中神經(jīng)網(wǎng)絡(luò)的輸入就是當(dāng)前的智能體狀態(tài)，一個(gè)能夠準(zhǔn)確表示環(huán)境特征的狀態(tài)是Fixed DQN算法學(xué)習(xí)的基礎(chǔ)。本模型的系統(tǒng)狀態(tài)空間用S={L,t,F,B}表示，其中：L為UAV當(dāng)前的位置狀態(tài)，本文對UAV所處環(huán)境建立平面坐標(biāo)系，以坐標(biāo)(xi,yi)來表示UAV當(dāng)前的位置狀態(tài)；t為UAV提供服務(wù)剩余時(shí)間，t∈(0,ttotal)；F為一個(gè)N維列向量，用于標(biāo)記N個(gè)用戶任務(wù)是否被卸載處理過，每一個(gè)元素可以取值為0、1，其中，0表示當(dāng)前任務(wù)未被卸載過，1表示當(dāng)前任務(wù)已卸載處理過；B為當(dāng)前UAV的電量剩余大小。

2）動(dòng)作空間

本模型中智能體的動(dòng)作空間為A={xi,yi,λ}，即智能體在每個(gè)狀態(tài)S可選擇的動(dòng)作為前往N個(gè)用戶節(jié)點(diǎn)、M個(gè)充電節(jié)點(diǎn)、1個(gè)服務(wù)器節(jié)點(diǎn)中的任意一個(gè)。其中：(xi,yi)為下一個(gè)節(jié)點(diǎn)的位置坐標(biāo)；如果智能體到達(dá)充電節(jié)點(diǎn)時(shí)， λ為UAV此次充電決策選擇的充電檔位， λ取值為1、2、3、4；如果UAV到達(dá)的是用戶節(jié)點(diǎn)或服務(wù)器節(jié)點(diǎn)，UAV不需要充電，只會(huì)執(zhí)行所有用戶任務(wù)或卸載所有用戶任務(wù)的操作，此時(shí) λ記為0。

3）獎(jiǎng)勵(lì)函數(shù)

UAV做出卸載決策時(shí)，反饋的獎(jiǎng)勵(lì)設(shè)定具有挑戰(zhàn)性，也是評價(jià)算法好壞的關(guān)鍵。優(yōu)化問題的目標(biāo)函數(shù)和約束條件通過強(qiáng)化學(xué)習(xí)算法中智能體累積的狀態(tài)轉(zhuǎn)移獎(jiǎng)勵(lì)來實(shí)現(xiàn)。具體來說，這些獎(jiǎng)勵(lì)分為兩類：一類是正獎(jiǎng)勵(lì)，用于獎(jiǎng)勵(lì)智能體在實(shí)現(xiàn)目標(biāo)函數(shù)的過程中取得的進(jìn)展，例如，成功地執(zhí)行任務(wù)卸載。另一類是懲罰性獎(jiǎng)勵(lì)，用于懲罰智能體在違反約束條件時(shí)的行為，例如，違反操作限制。本模型的主要目標(biāo)是在滿足所有約束條件的前提下，最大化UAV的任務(wù)卸載收益。本模型中用戶節(jié)點(diǎn)在UAV總服務(wù)時(shí)間ttotal內(nèi)會(huì)不斷地生成任務(wù)，任務(wù)如果未上傳到UAV上便會(huì)累積到本地用戶節(jié)點(diǎn)，隨著時(shí)間的流逝，任務(wù)的價(jià)值也會(huì)降低，而獲得任務(wù)價(jià)值的唯一方法是將其卸載到服務(wù)器上。于是，本文將UAV飛往服務(wù)器節(jié)點(diǎn)卸載的所有任務(wù)獲得的任務(wù)卸載收益Yi，作為上一個(gè)動(dòng)作的節(jié)點(diǎn)獎(jiǎng)勵(lì)。盡管使用Yi作為獎(jiǎng)勵(lì)可以促進(jìn)任務(wù)卸載收益的最大化，但僅依賴Yi并不能保證算法遵循式（2）中定義的關(guān)鍵約束——至少為每個(gè)用戶節(jié)點(diǎn)提供一次任務(wù)卸載服務(wù)。

為確保Fixed DQN算法滿足式（2）中的約束條件，本文提出了一種小學(xué)習(xí)目標(biāo)的優(yōu)化策略。本文的小學(xué)習(xí)目標(biāo)設(shè)定為UAV必須至少為每一個(gè)用戶節(jié)點(diǎn)提供一次任務(wù)卸載服務(wù)。在智能體未完成小目標(biāo)時(shí)，即使獲得了較大的任務(wù)剩余獎(jiǎng)勵(lì)，也是無意義的，因此，在未完成小目標(biāo)之前的各種獎(jiǎng)勵(lì)就變得不重要了，而盡可能地探索更多的樣本來完成約束條件是首要之事。式（1）中的約束條件要求UAV的服務(wù)時(shí)間不得超過總服務(wù)時(shí)間，而式（5）中的約束條件規(guī)定UAV的電量必須始終保持在大于0的狀態(tài)。為了確保這些約束得到遵守，通過施加懲罰性獎(jiǎng)勵(lì)的方式來實(shí)施這些規(guī)則，即當(dāng)UAV違反這些約束時(shí)，會(huì)受到懲罰性的負(fù)獎(jiǎng)勵(lì)?；诖死砟?，本文為UAV在實(shí)現(xiàn)小學(xué)習(xí)目標(biāo)時(shí)重新設(shè)計(jì)了未完成小學(xué)習(xí)目標(biāo)的獎(jiǎng)勵(lì)函數(shù)。

具體設(shè)計(jì)如下：當(dāng)UAV在未完成小學(xué)習(xí)目標(biāo)的情況下首次探索并到達(dá)任何新節(jié)點(diǎn)（包括用戶節(jié)點(diǎn)、服務(wù)器節(jié)點(diǎn)等），智能體將獲得小獎(jiǎng)勵(lì)，設(shè)置為1。然而，如果UAV再次到達(dá)已探索過的用戶節(jié)點(diǎn)，獎(jiǎng)勵(lì)則為0，以避免重復(fù)訪問同一節(jié)點(diǎn)的激勵(lì)。當(dāng)UAV到達(dá)服務(wù)器節(jié)點(diǎn)時(shí)，盡管在實(shí)際環(huán)境中它立即獲得了任務(wù)卸載獎(jiǎng)勵(lì)，但在未完成小學(xué)習(xí)目標(biāo)的階段，這些獎(jiǎng)勵(lì)不會(huì)直接給予智能體，以防止它偏離實(shí)現(xiàn)小目標(biāo)的路徑。相反地，這些獎(jiǎng)勵(lì)會(huì)被記錄在內(nèi)存中，以備后用。只有在完成所有小學(xué)習(xí)目標(biāo)之后，當(dāng)UAV再次到達(dá)服務(wù)器節(jié)點(diǎn)時(shí)，之前積累的所有任務(wù)卸載獎(jiǎng)勵(lì)才會(huì)一次性地發(fā)放給智能體。

基于上述設(shè)計(jì)，獎(jiǎng)勵(lì)函數(shù)R(S,A,S′,C)可以定義為：

式中，S為當(dāng)前狀態(tài)，A為動(dòng)作，S′為轉(zhuǎn)移后的狀態(tài)，C表示是否完成了小學(xué)習(xí)目標(biāo)，m為累積的任務(wù)獎(jiǎng)勵(lì)，p為固定的懲罰值。

由于探索新節(jié)點(diǎn)的獎(jiǎng)勵(lì)（取值為1）遠(yuǎn)小于卸載任務(wù)到服務(wù)器所獲得的獎(jiǎng)勵(lì)，因此可以忽略前者。如果在總服務(wù)時(shí)間內(nèi)未能完成所有小學(xué)習(xí)目標(biāo)，智能體將受到固定大小的懲罰性獎(jiǎng)勵(lì)，作為未能完成小目標(biāo)的懲罰。需要特別注意的是，在Fixed DQN算法的實(shí)現(xiàn)中，如果智能體在連續(xù)兩次決策中選擇了相同的節(jié)點(diǎn)，算法會(huì)立即終止當(dāng)前學(xué)習(xí)周期并啟動(dòng)新的學(xué)習(xí)周期。這一機(jī)制是為了避免智能體因試圖規(guī)避最終的懲罰性獎(jiǎng)勵(lì)而陷入停留在同一位置的行為模式。

4）經(jīng)驗(yàn)回放機(jī)制

圖3展示了Fixed DQN算法中經(jīng)驗(yàn)回放的流程。由圖3可見：該流程中，F(xiàn)ixed DQN算法通過存儲(chǔ)–采樣的方法在內(nèi)存存儲(chǔ)一個(gè)經(jīng)驗(yàn)庫，隨機(jī)抽取一些之前的樣本進(jìn)行學(xué)習(xí)。Fixed DQN算法在訓(xùn)練開始時(shí)會(huì)在內(nèi)存開辟一塊區(qū)域存儲(chǔ)經(jīng)驗(yàn)回放隊(duì)列。當(dāng)智能體與環(huán)境交互時(shí)，執(zhí)行完一次馬爾可夫一步轉(zhuǎn)移過程，并得到這次轉(zhuǎn)移過程中的一組樣本數(shù)據(jù)(S,A,R)后，經(jīng)驗(yàn)回放隊(duì)列會(huì)將這組樣本數(shù)據(jù)放入隊(duì)列，該隊(duì)列采用先進(jìn)先出的管理策略。如果經(jīng)驗(yàn)回放隊(duì)列已經(jīng)存滿樣本，那么，新的樣本數(shù)據(jù)會(huì)覆蓋時(shí)間上最久遠(yuǎn)的樣本。在學(xué)習(xí)樣本數(shù)據(jù)時(shí)，會(huì)隨機(jī)向經(jīng)驗(yàn)回放隊(duì)列抽取一個(gè)切片記憶，取出的切片樣本數(shù)據(jù)最后會(huì)放入Fixed DQN算法的評估網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練。經(jīng)驗(yàn)回放機(jī)制通過隨機(jī)抽取樣本破壞了樣本之間的強(qiáng)相關(guān)性，提高了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練能力。

圖3 經(jīng)驗(yàn)回放流程Fig. 3 Process of experience replay

5）異步更新的兩個(gè)神經(jīng)網(wǎng)絡(luò)

Fixed DQN算法采用了兩個(gè)不相關(guān)的神經(jīng)網(wǎng)絡(luò)（評估網(wǎng)絡(luò)Qpre和目標(biāo)網(wǎng)絡(luò)Qtarget）來解決網(wǎng)絡(luò)訓(xùn)練的波動(dòng)問題，它們的網(wǎng)絡(luò)結(jié)構(gòu)是相同的，只是訓(xùn)練過程中的權(quán)重參數(shù)不同。其中，Qtarget主要用于計(jì)算真實(shí)的Q值，它會(huì)延遲更新該網(wǎng)絡(luò)參數(shù)；Qpre主要用于計(jì)算狀態(tài)的估計(jì)值Q?，它會(huì)及時(shí)更新網(wǎng)絡(luò)參數(shù)。經(jīng)過若干次訓(xùn)練后，DQN算法會(huì)定時(shí)將Qpre的權(quán)值復(fù)制到Qtarget，隨后鎖定Qtarget的網(wǎng)絡(luò)參數(shù)，經(jīng)過一定的訓(xùn)練次數(shù)后再重新更新網(wǎng)絡(luò)參數(shù)，這樣能夠減少訓(xùn)練過程的波動(dòng)。與監(jiān)督學(xué)習(xí)一樣，F(xiàn)ixed DQN算法的損失函數(shù)使用Qpre和Qtarget之間的方差來表示，用梯度下降算法來最小化目標(biāo)網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)的差距。

6）對Fixed DQN超參數(shù)優(yōu)化

①學(xué)習(xí)率 α決定了模型在每次更新參數(shù)時(shí)對新數(shù)據(jù)信息的吸收程度。較高的學(xué)習(xí)率可能會(huì)導(dǎo)致學(xué)習(xí)過程在最優(yōu)解附近震蕩，而較低的學(xué)習(xí)率可能會(huì)導(dǎo)致學(xué)習(xí)過程過于緩慢。一般情況下，學(xué)習(xí)率可以設(shè)定在0.0001～0.1之間，經(jīng)本研究的多次實(shí)驗(yàn)可知本模型中的學(xué)習(xí)率設(shè)置為0.01時(shí)效果最好。

②獎(jiǎng)勵(lì)衰減因子 γ決定了模型對未來獎(jiǎng)勵(lì)的重視程度。如果設(shè)定為0，模型只關(guān)心眼前的獎(jiǎng)勵(lì)；如果設(shè)定為1，模型會(huì)將所有的未來獎(jiǎng)勵(lì)都看作是同等重要的。一般情況下，獎(jiǎng)勵(lì)衰減因子可以設(shè)定在0.8～1.0之間，經(jīng)本研究的多次實(shí)驗(yàn)可知本模型中的獎(jiǎng)勵(lì)衰減因子設(shè)置為0.98時(shí)效果最好。

③貪婪系數(shù) ε決定了模型在探索和利用之間的平衡。貪婪系數(shù)在模型訓(xùn)練中扮演著重要角色，決定了模型在探索未知策略與利用已知最優(yōu)策略之間的平衡。較高的貪婪系數(shù)促使模型傾向于探索新的可能性，而較低的貪婪系數(shù)則使模型更多地依賴已知的最優(yōu)策略。在實(shí)踐中，一種常見的做法是初始時(shí)設(shè)定一個(gè)較高的貪婪系數(shù)（例如，0.9或1.0），然后，隨著訓(xùn)練次數(shù)的增多逐步降低該值，這樣做能在訓(xùn)練的早期階段鼓勵(lì)模型進(jìn)行廣泛的探索，并在后期隨著經(jīng)驗(yàn)的積累逐漸轉(zhuǎn)向利用已掌握的最優(yōu)策略，從而實(shí)現(xiàn)探索與利用的有效平衡。本文采用一個(gè)與訓(xùn)練步長呈負(fù)指數(shù)關(guān)系的函數(shù)來動(dòng)態(tài)調(diào)整貪婪系數(shù)。具體地，貪婪系數(shù)的初始值設(shè)定為1，隨著訓(xùn)練步長的增加，貪婪系數(shù)按照預(yù)定的負(fù)指數(shù)函數(shù)逐漸減少。該函數(shù)可以表示為：

式中， ε0為初始貪婪系數(shù)， β為衰減率，t為訓(xùn)練步長。該函數(shù)旨在確保訓(xùn)練過程中的收斂性和穩(wěn)定性，允許模型在初期進(jìn)行大量探索，而后期逐步增強(qiáng)對已發(fā)現(xiàn)策略的利用。

7）基于DQN算法的UAV充電與任務(wù)卸載協(xié)同優(yōu)化算法流程

固定區(qū)域內(nèi)UAV輔助任務(wù)卸載協(xié)同充電調(diào)度算法流程，如圖4所示。由圖4可見：UAV將當(dāng)前狀態(tài)通過ε-greedy策略選擇一個(gè)動(dòng)作執(zhí)行，該動(dòng)作可以是去用戶節(jié)點(diǎn)收集任務(wù)，或者去服務(wù)器節(jié)點(diǎn)卸載任務(wù)，或者去充電節(jié)點(diǎn)為自身補(bǔ)充電量。智能體將當(dāng)前狀態(tài)特征參數(shù)作為深度神經(jīng)網(wǎng)絡(luò)的輸入層，傳入到評估網(wǎng)絡(luò)（Qpre）。評估網(wǎng)絡(luò)中，先獲得當(dāng)前狀態(tài)–動(dòng)作對的估計(jì)值Q?；隨后，智能體通過ε-greedy策略選擇一個(gè)動(dòng)作執(zhí)行；接著，智能體會(huì)記錄環(huán)境中反饋的獎(jiǎng)勵(lì)和下一狀態(tài)以計(jì)算當(dāng)前狀態(tài)–動(dòng)作對的Q值。Q值在目標(biāo)網(wǎng)絡(luò)（Qtarget）中通過Q-Learning算法中的Q值更新公式[26]來獲取。Qpre網(wǎng)絡(luò)將Qtarget和Qpre之間的方差作為損失函數(shù)，以此來訓(xùn)練Qpre的權(quán)重參數(shù)。Fixed DQN算法經(jīng)過若干次訓(xùn)練后Qtarget會(huì)被凍結(jié)；隨后，將Qpre的權(quán)重參數(shù)拷貝到Qtarget；最后，隨著訓(xùn)練樣本的增加，Qtarget網(wǎng)絡(luò)慢慢變成了一個(gè)可以較準(zhǔn)確地計(jì)算Q值的函數(shù)，從而獲得解決UAV在用戶節(jié)點(diǎn)和服務(wù)器節(jié)點(diǎn)總數(shù)較多或服務(wù)時(shí)間較長時(shí)的任務(wù)卸載優(yōu)化策略。

圖4 UAV輔助任務(wù)卸載協(xié)同充電調(diào)度算法流程Fig. 4 UAV auxiliary task of floading collaborative charging scheduling algorithm process

2.2 算法實(shí)現(xiàn)

綜上，本文提出的UAV輔助任務(wù)卸載協(xié)同充電調(diào)度算法（Fixed DQN算法）的實(shí)現(xiàn)如下所示。算法中，第1—6行是算法的初始化操作，第7—24行循環(huán)執(zhí)行每一周期的訓(xùn)練工作。其中：第8—9行是每一周期的狀態(tài)初始化操作；第11—23行則是每一周期的算法訓(xùn)練操作，每一次訓(xùn)練周期智能體從初始狀態(tài)開始狀態(tài)轉(zhuǎn)移多次直至終止?fàn)顟B(tài)結(jié)束；第12—15行是ε-greedy策略選擇動(dòng)作操作；第17—18行是智能體與環(huán)境交互獲得狀態(tài)轉(zhuǎn)移數(shù)據(jù)；第19—20行是經(jīng)驗(yàn)回放操作；第21—22行是神經(jīng)網(wǎng)絡(luò)更新操作。

算法Fixed DQN 算法

輸入：動(dòng)作集A，經(jīng)驗(yàn)回放內(nèi)存M，學(xué)習(xí)率 α，獎(jiǎng)勵(lì)衰減因子 γ，貪婪系數(shù) ε，網(wǎng)絡(luò)參數(shù) ω；

3 仿真實(shí)驗(yàn)及結(jié)果分析

本文通過仿真的形式進(jìn)行實(shí)驗(yàn)，綜合考慮現(xiàn)實(shí)情況模擬了用戶設(shè)備生成的任務(wù)流及UAV和邊緣服務(wù)器等各類實(shí)驗(yàn)環(huán)境參數(shù)，以一個(gè)半徑為3 000m擁有11個(gè)節(jié)點(diǎn)（7個(gè)用戶節(jié)點(diǎn)、3個(gè)充電節(jié)點(diǎn)、1個(gè)服務(wù)器節(jié)點(diǎn)）的圓形區(qū)域作為仿真的環(huán)境，其中，用戶節(jié)點(diǎn)、服務(wù)器節(jié)點(diǎn)、充電節(jié)點(diǎn)隨機(jī)分散在整片區(qū)域內(nèi)。因?yàn)楦鞴?jié)點(diǎn)的部署位置可能會(huì)對算法的結(jié)果產(chǎn)生影響，因此，進(jìn)行了多次不同部署的實(shí)驗(yàn)，后續(xù)結(jié)果均是多次實(shí)驗(yàn)的平均。選取了一次典型實(shí)驗(yàn)，其具體的仿真環(huán)境參數(shù)見表1。

將區(qū)域內(nèi)的某一個(gè)充電節(jié)點(diǎn)記為起點(diǎn)，UAV從0時(shí)刻開始從起點(diǎn)出發(fā)，提供固定時(shí)長的任務(wù)收集卸載服務(wù)。仿真實(shí)驗(yàn)主要包括：Fixed DQN算法可行性分析；比較不同用戶節(jié)點(diǎn)數(shù)量、不同充電節(jié)點(diǎn)數(shù)量、不同總服務(wù)時(shí)間下算法的性能表現(xiàn)。在對比方法上，因?yàn)樵赨AV輔助邊緣計(jì)算方面沒有同時(shí)優(yōu)化充電策略的工作，因此，選取了DQN算法和兩種經(jīng)典優(yōu)化算法——蟻群[27]和遺傳[28]算法作為對比算法。

表1 仿真實(shí)驗(yàn)環(huán)境參數(shù)Tab.1 Environment parameters of simulation experiment

3.1 算法可行性分析

為了定量評估所提出算法的性能，采用了基于窮舉法得到的最優(yōu)解作為評價(jià)標(biāo)準(zhǔn)。首先，此最優(yōu)解被設(shè)定為評分標(biāo)準(zhǔn)的滿分，即100分。然后，將Fixed DQN算法的得分根據(jù)相對于最優(yōu)解的百分比轉(zhuǎn)化成其得分。通過上述方法，可以客觀地量化Fixed DQN算法相對于理論最優(yōu)解的表現(xiàn)，并為進(jìn)一步的性能分析提供了一個(gè)標(biāo)準(zhǔn)化的評估框架。

由于Fixed DQN算法中采用了ε-greedy 策略，每次訓(xùn)練過程中都會(huì)因?yàn)樵摬呗缘碾S機(jī)性導(dǎo)致結(jié)果出現(xiàn)波動(dòng)。本文分別記錄了5次獨(dú)立訓(xùn)練的最高得分（上限）和最低得分（下限）。圖5為Fixed DQN算法在5次訓(xùn)練中的得分上限曲線和下限曲線。圖5中：橫坐標(biāo)代表該算法的訓(xùn)練周期數(shù)，每100個(gè)訓(xùn)練周期構(gòu)成一個(gè)評估單元；縱坐標(biāo)展示了該算法在各個(gè)訓(xùn)練周期中相對于基準(zhǔn)最優(yōu)解的具體表現(xiàn)。由圖5可以看到，隨著迭代周期數(shù)的增加Fixed DQN算法得到的最終收益得分會(huì)慢慢靠近最優(yōu)解，驗(yàn)證了本文提出的算法的可行性。

圖5 Fi xed DQN算法得分收斂情況Fig. 5 Score convergence of Fixed DQN algorithm

3.2 不同環(huán)境參數(shù)下算法性能比較

對環(huán)境參數(shù)在一定范圍內(nèi)隨機(jī)選取，評估在類似的仿真環(huán)境下所提出的算法的性能表現(xiàn)。由于本模型中狀態(tài)空間巨大，而窮舉求解只適用于第3.1節(jié)中節(jié)點(diǎn)較少或服務(wù)時(shí)間較短的情況，因此，下面的仿真實(shí)驗(yàn)中未添加窮舉求解作為對比算法。由于無法直接求得最優(yōu)解，本文采取了策略搜索方法以獲取次優(yōu)解，并選擇了DQN算法、蟻群算法和遺傳算法作為對比算法。主要從不同用戶節(jié)點(diǎn)數(shù)量、不同充電節(jié)點(diǎn)數(shù)量、不同總服務(wù)時(shí)間3個(gè)方面來對比不同算法最后獲得的任務(wù)卸載得分，即所有被卸載任務(wù)的剩余價(jià)值總和。

1）不同用戶節(jié)點(diǎn)數(shù)量下算法性能

為了反映所提出的算法在類似仿真環(huán)境下解決任務(wù)卸載問題的性能，本次仿真實(shí)驗(yàn)在一個(gè)合理的范圍內(nèi)隨機(jī)生成了3組環(huán)境參數(shù)，充電節(jié)點(diǎn)數(shù)量均為2，UAV的總服務(wù)時(shí)間均為2 h，用戶節(jié)點(diǎn)數(shù)量設(shè)置為10、15、20，所提出的算法與對比算法的任務(wù)卸載得分比較如圖6所示。

圖6 不同用戶節(jié)點(diǎn)數(shù)量下不同算法的任務(wù)卸載得分Fig. 6 Task offloading score of different algorithms under different numbers of user nodes

由圖6可知：同蟻群算法、遺傳算法和DQN算法相比，F(xiàn)ixed DQN算法展現(xiàn)了更高的任務(wù)卸載得分。這一優(yōu)勢在用戶節(jié)點(diǎn)數(shù)量增加時(shí)更為顯著。由于3組環(huán)境數(shù)據(jù)在一定范圍內(nèi)隨機(jī)選取，這也可以看出本文提出的Fixed DQN算法在類似的仿真環(huán)境中的復(fù)用性很強(qiáng)。

2）不同充電節(jié)點(diǎn)數(shù)量下算法性能

考慮UAV的總服務(wù)時(shí)間保持為10 h，當(dāng)充電節(jié)點(diǎn)數(shù)量分別設(shè)定為2、3、4時(shí)，對比不同算法收斂后的效果，具體結(jié)果如圖7所示。

由圖7可以看出：Fixed DQN算法相比蟻群算法、遺傳算法和DQN算法具有良好的性任務(wù)卸載得分；增加充電節(jié)點(diǎn)的數(shù)量會(huì)對任務(wù)卸載得分產(chǎn)生一定的提升，但這種提升相對較小。由此表明，當(dāng)充電節(jié)點(diǎn)數(shù)量足以滿足UAV的基本充電需求時(shí)，進(jìn)一步增加充電節(jié)點(diǎn)數(shù)量并不會(huì)顯著提高任務(wù)卸載的效率。

圖7 不同充電節(jié)點(diǎn)數(shù)量下不同算法的任務(wù)卸載得分Fig.7 Task offloading score of different algorithms under different numbers of charge nodes

3）不同UAV總服務(wù)時(shí)間下算法性能

在10個(gè)用戶節(jié)點(diǎn)和2個(gè)充電節(jié)點(diǎn)的環(huán)境參數(shù)下，當(dāng)UAV提供服務(wù)的總服務(wù)時(shí)間分別為2、4和6 h時(shí)，對比不同算法的任務(wù)卸載得分，具體結(jié)果如圖8所示。由圖8可以看出：當(dāng)UAV的總服務(wù)時(shí)間增加時(shí)，本文所提出的Fixed DQN方法的任務(wù)卸載得分仍然優(yōu)于遺傳算法、蟻群算法和DQN算法；隨著UAV總服務(wù)時(shí)間的增加，UAV在該時(shí)間段內(nèi)需要做出的決策數(shù)量增多，其動(dòng)作狀態(tài)空間也相應(yīng)擴(kuò)大，此情況下，本文提出的Fixed DQN算法在任務(wù)卸載得分上與對比算法的差距逐漸加大，這表明，隨著決策復(fù)雜度的增加，F(xiàn)ixed DQN算法在處理更復(fù)雜任務(wù)卸載場景時(shí)展現(xiàn)出更加顯著的優(yōu)勢。

圖8 不同UAV服務(wù)時(shí)間節(jié)下不同算法的任務(wù)卸載得分Fig. 8 Task offloading score of different algorithms under different UAV service hours

4 結(jié) 論

本文提出了一種UAV輔助邊緣計(jì)算環(huán)境下的充電協(xié)同任務(wù)卸載調(diào)度模型。通過結(jié)合馬爾可夫決策過程和Fixed DQN算法，本研究有效處理了復(fù)雜的任務(wù)卸載場景和大規(guī)模狀態(tài)空間問題。該方法提高了UAV在移動(dòng)邊緣計(jì)算環(huán)境中的任務(wù)處理效率和能源管理能力，為UAV的多任務(wù)管理提供了一種有效的解決方案。

在未來的研究工作中，將研究多UAV進(jìn)行任務(wù)卸載協(xié)調(diào)調(diào)度的問題。對于任務(wù)的到達(dá)規(guī)律不再局限于簡單的穩(wěn)態(tài)規(guī)律，擬使用機(jī)器學(xué)習(xí)的方法對未來情況進(jìn)行預(yù)測。并且，使用實(shí)際充電效率曲線來進(jìn)一步精細(xì)化充電調(diào)度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡