何 涵,劉 鵬*,趙 亮,王青山
(1.杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,浙江杭州 310018;2.沈陽航空航天大學(xué)計(jì)算機(jī)學(xué)院,遼寧沈陽 110136;3.合肥工業(yè)大學(xué) 數(shù)學(xué)學(xué)院,安徽 合肥 230009)
在野外移動(dòng)邊緣計(jì)算(MEC)場景中,用戶設(shè)備產(chǎn)生的計(jì)算密集型任務(wù)難以在本地處理,需要卸載到具有強(qiáng)大性能的邊緣服務(wù)器[1]。一般情況下,這些場景或者缺乏預(yù)先建設(shè)的有線骨干網(wǎng)絡(luò),或者網(wǎng)絡(luò)信號較差,無法提供穩(wěn)定的廣域無線網(wǎng)絡(luò)服務(wù)。因此,如何幫助此類MEC場景中的用戶設(shè)備卸載計(jì)算任務(wù)成為亟待解決的問題[2]。無人機(jī)(UAV)因其靈活性和便捷性可以為解決上述問題做出貢獻(xiàn)[3–4]。
目前,UAV在MEC任務(wù)卸載場景中承擔(dān)的角色主要有兩種:一是,UAV上搭載邊緣服務(wù)器,直接就近為用戶提供計(jì)算服務(wù)[5];二是,UAV作為中繼器,負(fù)責(zé)收集用戶任務(wù),再交給地面的邊緣服務(wù)器進(jìn)行處理[6]。第1種方案雖然可以更快地為用戶設(shè)備提供服務(wù),但由于邊緣服務(wù)器的重量較大和能耗較高,UAV難以搭載這種類型的計(jì)算平臺進(jìn)行持續(xù)飛行。第2種方案采用UAV作為任務(wù)中繼器的方案,在提供計(jì)算服務(wù)方面具有多重優(yōu)勢。首先,這種方式顯著擴(kuò)大了邊緣服務(wù)器的服務(wù)范圍,并節(jié)省了服務(wù)器部署成本[7];其次,它實(shí)現(xiàn)了原本通信不暢的用戶設(shè)備與邊緣服務(wù)器之間的有效連接,使得用戶設(shè)備能夠執(zhí)行更復(fù)雜的計(jì)算密集型任務(wù)。
為了提高安全性,UAV巡航時(shí)通常會(huì)保持較高的高度,而進(jìn)行數(shù)據(jù)傳輸時(shí)需要下降高度以保證數(shù)據(jù)傳輸率和可靠性。每次上升和下降過程會(huì)造成任務(wù)處理時(shí)延和UAV能耗的增加[8],因此,為提高UAV任務(wù)卸載效率,有兩個(gè)挑戰(zhàn)性問題需要解決。
1)UAV卸載決策問題
UAV的卸載決策對MEC系統(tǒng)的整體效率至關(guān)重要,因?yàn)檫@些決策直接影響系統(tǒng)目標(biāo)的實(shí)現(xiàn)。任務(wù)的價(jià)值依賴于其卸載到服務(wù)器的及時(shí)性,并且通常與處理時(shí)延緊密相關(guān),處理時(shí)延越長,任務(wù)價(jià)值越低[9]。不適當(dāng)?shù)男遁d決策不僅會(huì)增加UAV的飛行時(shí)間和能耗,還可能對MEC環(huán)境中的其他用戶設(shè)備產(chǎn)生不利影響。因此,為了提高系統(tǒng)的整體任務(wù)卸載效率,對UAV的卸載決策進(jìn)行優(yōu)化是必要的[10]。
針對MEC場景下的任務(wù)卸載決策問題已有廣泛的研究,Mukherjee等[11]建立了一個(gè)經(jīng)典的MEC計(jì)算卸載應(yīng)用模型,提出了基于UAV輔助MEC環(huán)境為物聯(lián)網(wǎng)設(shè)備提供計(jì)算服務(wù)的問題框架,該系統(tǒng)涉及邊緣用戶設(shè)備、UAV和邊緣云之間的交互。各種強(qiáng)化學(xué)習(xí)算法被用于解決邊緣計(jì)算領(lǐng)域的任務(wù)卸載優(yōu)化問題。在沒有用戶設(shè)備相關(guān)先驗(yàn)知識的情況下,Han等[12]使用了深度強(qiáng)化學(xué)習(xí)DQN算法解決了系統(tǒng)資源分配問題,有效降低了系統(tǒng)卸載延遲。Chen等[13]基于深度蒙特卡洛樹搜索算法來學(xué)習(xí)任務(wù)卸載決策軌跡,并通過最大化獎(jiǎng)勵(lì)來實(shí)現(xiàn)能耗最小化的目標(biāo)。Zhan等[14]提出了一種基于深度學(xué)習(xí)的方法來解決時(shí)延和能耗的加權(quán)及最小化問題,證明了經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)生成的卸載決策的可行性。
現(xiàn)有大多數(shù)研究將UAV視為邊緣服務(wù)器的承載平臺,但UAV電池有限的電量顯著限制了其服務(wù)時(shí)長。Hu等[6]首次提出了將UAV作為中繼節(jié)點(diǎn)以輔助任務(wù)卸載的概念,其中,無人機(jī)同時(shí)承擔(dān)MEC服務(wù)器和中繼的角色,特別是在處理計(jì)算密集型和延遲敏感任務(wù)時(shí),該方法能顯著提升性能。Yu等[15]進(jìn)一步探討了在MEC場景下使用UAV作為中繼節(jié)點(diǎn)提供服務(wù)的概念,但主要關(guān)注于尋找UAV部署位置的最佳解決方案。然而,目前還缺乏關(guān)于僅將UAV作為中繼節(jié)點(diǎn)進(jìn)行路徑優(yōu)化以輔助任務(wù)卸載的系統(tǒng)性研究。
2)UAV充電決策問題
UAV的體積限制了其電池容量,導(dǎo)致難以長時(shí)間提供任務(wù)卸載服務(wù),這制約了其應(yīng)用潛力。隨著無線充電技術(shù)的發(fā)展,現(xiàn)代UAV逐漸融入了充電節(jié)點(diǎn),使其能在電量不足時(shí)自主補(bǔ)充電量[16]。然而,充電行為會(huì)消耗UAV的服務(wù)時(shí)間和飛行路程,因此,在任務(wù)卸載過程中,UAV如何有效選擇充電時(shí)間、電量及充電節(jié)點(diǎn),成為一個(gè)需要解決的關(guān)鍵問題。Alyassi等[17]考慮了環(huán)境因素和UAV的能耗模型,提出了自主充電和路徑規(guī)劃策略,以優(yōu)化長途UAV任務(wù)的整體效率。但該方法僅考慮了續(xù)航問題,沒有考慮充電時(shí)間對任務(wù)效率的影響。Fan等[18]使用DQN方法進(jìn)行無人機(jī)充電調(diào)度,但主要考慮最小化無人機(jī)的總行駛距離作為任務(wù)目標(biāo)。
在前人的研究基礎(chǔ)上,本文研究了用戶任務(wù)時(shí)延敏感及UAV電池電量約束下的UAV充電與任務(wù)卸載協(xié)同優(yōu)化問題。本文提出了UAV輔助邊緣計(jì)算環(huán)境下的充電協(xié)同任務(wù)卸載調(diào)度模型,以解決時(shí)延敏感和UAV能量約束下的UAV輔助邊緣計(jì)算任務(wù)卸載的收益最大化問題。本文提出的應(yīng)用模型,將UAV作為中繼節(jié)點(diǎn),整合了UAV的任務(wù)卸載和充電調(diào)度模型。該模型專注于區(qū)域用戶設(shè)備產(chǎn)生的任務(wù)卸載調(diào)度,并與協(xié)同充電調(diào)度相結(jié)合。針對該應(yīng)用模型,本文構(gòu)建了馬爾可夫決策模型,并提出了一種UAV充電與任務(wù)卸載的協(xié)同優(yōu)化算法,通過對DQN的調(diào)優(yōu)形成了Fixed DQN算法。在處理大規(guī)模狀態(tài)空間的任務(wù)卸載和充電調(diào)度問題時(shí),F(xiàn)ixed DQN算法相較于傳統(tǒng)算法在任務(wù)收益方面展現(xiàn)出了顯著的性能提升。
本文提出了一種在有限區(qū)域內(nèi)的UAV任務(wù)卸載協(xié)同充電調(diào)度應(yīng)用場景,如圖1所示。從圖1可見:該應(yīng)用場景的主體是MEC場景下的一個(gè)有限區(qū)域,離散分布著多個(gè)用戶節(jié)點(diǎn)、為這些用戶節(jié)點(diǎn)提供計(jì)算能力的邊緣服務(wù)器節(jié)點(diǎn),以及為UAV無線充電的充電節(jié)點(diǎn)。該區(qū)域內(nèi)的UAV充電節(jié)點(diǎn)可以為UAV提供無人參與的充電服務(wù),UAV需要根據(jù)自身的電量和隨后的任務(wù)卸載規(guī)劃,決定是否去為UAV充電節(jié)點(diǎn)補(bǔ)充電量。當(dāng)UAV決定去充電時(shí)需要花費(fèi)額外的時(shí)間和能量從巡航高度降落到充電節(jié)點(diǎn),才可以進(jìn)行充電。在任務(wù)開始時(shí),UAV在某個(gè)充電節(jié)點(diǎn)起飛,初始電量為100%。
圖1 UAV任務(wù)卸載與自主充電應(yīng)用場景Fig.1 UAV task offloading and charging application scenarios
根據(jù)UAV不同電量時(shí)電池的充電效率存在差異的情況[19],本文為UAV充電建模了多個(gè)檔位的充電服務(wù)特性,不同檔位的充電選擇決定UAV充電完畢時(shí)的電量。本文總是假設(shè)充電節(jié)點(diǎn)擁有足夠的電量。在任務(wù)卸載與自主充電應(yīng)用場景下,UAV的工作流程圖如圖2所示。由圖2可見:起始狀態(tài)時(shí),時(shí)刻為0,UAV處于特定的充電節(jié)點(diǎn)且電池電量處于充滿狀態(tài)。在有限的服務(wù)時(shí)間內(nèi),UAV會(huì)不斷地做出動(dòng)作決策,以確定隨后需要提供服務(wù)的節(jié)點(diǎn)。具體的流程為:UAV會(huì)判斷服務(wù)時(shí)間是否結(jié)束,結(jié)束則返回起點(diǎn),否則獲取一個(gè)針對當(dāng)前狀態(tài)的決策。如果UAV選擇飛往一個(gè)用戶節(jié)點(diǎn),那么它會(huì)從當(dāng)前節(jié)點(diǎn)出發(fā)飛往選定的用戶節(jié)點(diǎn)并收集該用戶節(jié)點(diǎn)上的累積任務(wù);如果選擇飛往一個(gè)服務(wù)器節(jié)點(diǎn),則會(huì)飛向選定的服務(wù)器節(jié)點(diǎn)并卸載所有收集的用戶任務(wù);如果選擇飛往一個(gè)充電節(jié)點(diǎn),則選擇充電檔位并等待下一次UAV的飛行動(dòng)作決策。
圖2 UAV任務(wù)卸載與自主充電工作流程圖Fig. 2 Workflow diagram of UAV task offloading and autonomous charging
針對MEC場景中UAV續(xù)航時(shí)間短的問題,本文提出了一種UAV任務(wù)卸載與自主充電協(xié)同模型。該模型由一個(gè)UAV、一個(gè)邊緣服務(wù)器節(jié)點(diǎn),以及多個(gè)用戶節(jié)點(diǎn)和多個(gè)充電節(jié)點(diǎn)組成。用戶節(jié)點(diǎn)、邊緣服務(wù)器節(jié)點(diǎn)和充電節(jié)點(diǎn)均在一個(gè)平面坐標(biāo)區(qū)域內(nèi)。假設(shè)任務(wù)是離散到達(dá)的,且一個(gè)時(shí)間內(nèi)服務(wù)器只需要處理一個(gè)用戶節(jié)點(diǎn)的任務(wù)。假設(shè)本模型的用戶節(jié)點(diǎn)數(shù)為nu,位置記為ln1,ln2,···,lnu。這些用戶節(jié)點(diǎn)將每隔一個(gè)時(shí)間間隔生成一個(gè)任務(wù),生成的任務(wù)將在用戶的本地存儲(chǔ)器中暫存。每個(gè)用戶節(jié)點(diǎn)各自產(chǎn)生不同的任務(wù)類型,記為Tn1,Tn2,···,Tnu。同一個(gè)用戶節(jié)點(diǎn)生成的任務(wù)大小相同,但不同用戶節(jié)點(diǎn)生成的任務(wù)大小不同,分別為dn1,dn2,···,dnu。與此同時(shí),不同用戶節(jié)點(diǎn)生成任務(wù)的時(shí)間間隔各不相同,分別為tn1,tn2,···,tnu。用(xs,ys)表示服務(wù)器節(jié)點(diǎn)的位置。UAV工作開始前會(huì)停留在起點(diǎn),且起點(diǎn)是一個(gè)充電節(jié)點(diǎn)。UAV在起點(diǎn)時(shí)處于充滿電的狀態(tài),等待執(zhí)行任務(wù)。UAV在總服務(wù)時(shí)間ttotal內(nèi),不斷地選擇到達(dá)一個(gè)用戶節(jié)點(diǎn)收集該節(jié)點(diǎn)已生成的所有任務(wù),或者選擇到達(dá)一個(gè)充電節(jié)點(diǎn)進(jìn)行能量補(bǔ)充,或者選擇去服務(wù)器節(jié)點(diǎn)卸載任務(wù)。當(dāng)UAV的總服務(wù)時(shí)間ttotal結(jié)束后,就停止所有服務(wù),飛回起點(diǎn)。設(shè)UAV的巡航高度為H,用戶節(jié)點(diǎn)和邊緣服務(wù)器節(jié)點(diǎn)處于同一高度,記為h,且H?h。當(dāng)UAV收集或卸載任務(wù)時(shí),必須從巡航高度H下降到h才能執(zhí)行任務(wù)。設(shè)定UAV巡航是勻速飛行,速度為vcrusing;UAV與用戶節(jié)點(diǎn)近距離數(shù)據(jù)傳輸速度為vud;UAV與邊緣服務(wù)器節(jié)點(diǎn)的傳播速度為vsd;UAV由H降落到h花費(fèi)時(shí)間為tlanding;UAV由h上升到H花費(fèi)時(shí)間為trising。
環(huán)境中的充電節(jié)點(diǎn)主要用于給UAV快速充電,以便于UAV能夠長時(shí)間為固定區(qū)域內(nèi)的用戶設(shè)備提供任務(wù)卸載服務(wù)。本模型充電節(jié)點(diǎn)一共有nc個(gè),用集合lc表示為{ln1,ln2,···,lnc} ,(xci,yci)表示充電節(jié)點(diǎn)的位置。UAV到達(dá)一個(gè)充電節(jié)點(diǎn)時(shí),不需要充滿電再出發(fā),因?yàn)榉?wù)時(shí)間是有限的,充電時(shí)間過長會(huì)影響執(zhí)行任務(wù)的時(shí)間。UAV可以自行選擇充電量,為了便于研究,本文將電池電量分為4個(gè)檔位,即40%、60%、80%、100%。本模型將充電效率離散化成4段,記為λ,取值為1~4,分別對應(yīng)電池電量0~40%、40%~60%、60%~80%、80%~100%。隨著充電檔位升高,UAV無線充電效率減小。UAV在到達(dá)充電節(jié)點(diǎn)時(shí)需要確認(rèn)在當(dāng)前充電節(jié)點(diǎn)的充電檔位。將電池總?cè)萘坑洖锽。
UAV在服務(wù)時(shí)間內(nèi)每一次的決策合并在一起構(gòu)成了一個(gè)決策序列,這個(gè)路徑選擇決策序列表示為{A1,A2,···,Aj,Aj+1,···},對應(yīng)的離散時(shí)隙序列表示為{s1,s2,···,sj,sj+1,···},因此有如下約束:
本模型用向量V=(vn1,vn2,···,vnu)來表示UAV上每個(gè)用戶節(jié)點(diǎn)的任務(wù)卸載狀態(tài)。vi取值為–1、0、1,其中,–1表示未收集該任務(wù),1表示當(dāng)前任務(wù)已收集且在UAV上,0表示任務(wù)已卸載。
通常情況下,每一個(gè)用戶節(jié)點(diǎn)都有卸載任務(wù)到邊緣服務(wù)器節(jié)點(diǎn)的需求,為了保證每個(gè)用戶節(jié)點(diǎn)產(chǎn)生的任務(wù)都有機(jī)會(huì)獲得邊緣服務(wù)器的計(jì)算資源,設(shè)定服務(wù)器至少需要處理每種類型的任務(wù)1個(gè),即有如下約束:
式中,向量V i表 示第i個(gè)用戶的任務(wù)卸載情況,num(V i,0)函數(shù)表示向量V i中元素值等于0的個(gè)數(shù),即第i個(gè)用戶的任務(wù)卸載到服務(wù)器的任務(wù)個(gè)數(shù)。
本模型認(rèn)為當(dāng)UAV到達(dá)用戶節(jié)點(diǎn)或充電節(jié)點(diǎn)的高度h時(shí),即抵達(dá)了當(dāng)前節(jié)點(diǎn)。UAV在規(guī)劃的路線上飛行,當(dāng)其從前一個(gè)節(jié)點(diǎn)飛行到下一個(gè)節(jié)點(diǎn)時(shí)會(huì)消耗時(shí)間,其記為 ?,則 ?可以表示為:
式中,uij為前后兩點(diǎn)的距離,tcg為充電時(shí)間。
UAV的能耗是制約UAV在邊緣計(jì)算環(huán)境中應(yīng)用的主要因素,主要由UAV飛行能耗和UAV數(shù)據(jù)傳輸能耗組成[20]。UAV飛行能耗主要包括UAV水平飛行能耗、上升能耗、下降能耗。為了簡化研究,本文假設(shè)UAV在某一種飛行活動(dòng)中功率一樣,則UAV從一個(gè)節(jié)點(diǎn)傳到另一個(gè)節(jié)點(diǎn)并收集數(shù)據(jù)的能耗表示為:
式中,prising為UAV上升功率,pcrusing為UAV巡航飛行功率,planding為UAV下降功率,ph為UAV與用戶節(jié)點(diǎn)和服務(wù)器節(jié)點(diǎn)傳輸數(shù)據(jù)時(shí)的懸停能耗。
為了保證UAV在總服務(wù)時(shí)間內(nèi)能夠持續(xù)提供服務(wù),需要保證UAV一直處于電量充足狀態(tài),于是有約束:
式中,Bt為UAV到達(dá)充電節(jié)點(diǎn)時(shí)的電量。因?yàn)槌潆姇r(shí)間和充電量與UAV當(dāng)前電量相關(guān),不同檔位λ的充電量所需要的充電時(shí)間是不同的,那么充電時(shí)間表示為:
式中,tcg為充電時(shí)長,pλ為λ檔位對應(yīng)的充電功率。
本模型的目標(biāo)函數(shù)是在總服務(wù)時(shí)間內(nèi),UAV通過路徑選擇策略獲得的任務(wù)卸載收益最大化,那么最大化收益表示如下:
式中:?opt為每次任務(wù)結(jié)束時(shí)的任務(wù)卸載收益,Yi為任務(wù)的價(jià)值函數(shù),表示在每一步獲得的收益;Yi的定義如下:
式中,Si為在第i次決策中的任務(wù)集合,si為UAV飛行決策, ξj為不同任務(wù)的初始價(jià)值,tij為第i次決策時(shí)第j個(gè)任務(wù)的等待時(shí)間。
深度神經(jīng)網(wǎng)絡(luò)(DNN)具有卓越的復(fù)雜特征提取能力。通過值函數(shù)逼近方法,它將環(huán)境特征與實(shí)際決策有效結(jié)合,在智能體與環(huán)境不斷交互的過程中更新值函數(shù)的參數(shù)權(quán)重,最終實(shí)現(xiàn)對狀態(tài)值函數(shù)的準(zhǔn)確估計(jì)。盡管DNN在處理連續(xù)狀態(tài)且狀態(tài)動(dòng)作空間巨大的復(fù)雜決策問題方面表現(xiàn)良好[21–22],但其網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)調(diào)整過程的復(fù)雜性及挑戰(zhàn)性導(dǎo)致了性能的不穩(wěn)定性。本文采用了深度Q網(wǎng)絡(luò)(DQN)算法[23–24]來解決任務(wù)卸載的最大化問題。DQN算法通過利用深度神經(jīng)網(wǎng)絡(luò)來逼近復(fù)雜的非線性函數(shù),有效地將環(huán)境狀態(tài)映射到智能體的動(dòng)作上,從而免去了維護(hù)龐大Q表的需求[25]。Q表是強(qiáng)化學(xué)習(xí)中Q學(xué)習(xí)算法的核心組成部分,它用于存儲(chǔ)和更新智能體在特定狀態(tài)下采取不同動(dòng)作的預(yù)期回報(bào)值。為了更好地應(yīng)對本研究中特定的挑戰(zhàn),進(jìn)一步提出了Fixed DQN算法,這是對標(biāo)準(zhǔn)DQN算法進(jìn)行深度調(diào)參優(yōu)化后的變體,專門用于解決所面臨的問題。
本文依據(jù)第1.2節(jié)所構(gòu)建的UAV任務(wù)卸載與自主充電模型建立了對應(yīng)的馬爾可夫模型,以便于后續(xù)使用深度強(qiáng)化學(xué)習(xí)方法進(jìn)行迭代求解。其中,UAV是訓(xùn)練的智能體,它需要根據(jù)當(dāng)前的狀態(tài)特征去選擇最大獎(jiǎng)勵(lì)期望的動(dòng)作。Fixed DQN算法是本文提出的經(jīng)過超參數(shù)調(diào)優(yōu)后的方法,主要通過對DQN算法中的超參數(shù)(經(jīng)驗(yàn)回放內(nèi)存M、學(xué)習(xí)率 α、獎(jiǎng)勵(lì)衰減因子γ、貪婪系數(shù) ε)依次二分調(diào)參的方式來實(shí)現(xiàn),二分調(diào)參時(shí)允許相鄰兩次的值有一定的誤差以避免網(wǎng)絡(luò)訓(xùn)練波動(dòng)。
該算法的設(shè)計(jì)綜合考慮了以下關(guān)鍵方面:首先,定義了算法的狀態(tài)空間和動(dòng)作空間,確保智能體能夠準(zhǔn)確地感知環(huán)境并做出有效的決策;其次,詳細(xì)說明了獎(jiǎng)勵(lì)函數(shù)的構(gòu)成,以引導(dǎo)智能體在訓(xùn)練過程中向著期望目標(biāo)前進(jìn);接著,引入了經(jīng)驗(yàn)回放機(jī)制,通過存儲(chǔ)并重用過去的經(jīng)驗(yàn)來提高學(xué)習(xí)效率并減少樣本間相關(guān)性;此外,采用了異步更新的兩個(gè)神經(jīng)網(wǎng)絡(luò)來穩(wěn)定學(xué)習(xí)過程;在此基礎(chǔ)上,對Fixed DQN算法的超參數(shù)進(jìn)行了細(xì)致的優(yōu)化,以進(jìn)一步提升算法性能。具體設(shè)計(jì)如下:
1)狀態(tài)空間
系統(tǒng)狀態(tài)的選擇是Fixed DQN算法取得良好收斂結(jié)果的關(guān)鍵。因?yàn)镕ixed DQN算法中神經(jīng)網(wǎng)絡(luò)的輸入就是當(dāng)前的智能體狀態(tài),一個(gè)能夠準(zhǔn)確表示環(huán)境特征的狀態(tài)是Fixed DQN算法學(xué)習(xí)的基礎(chǔ)。本模型的系統(tǒng)狀態(tài)空間用S={L,t,F,B}表示,其中:L為UAV當(dāng)前的位置狀態(tài),本文對UAV所處環(huán)境建立平面坐標(biāo)系,以坐標(biāo)(xi,yi)來表示UAV當(dāng)前的位置狀態(tài);t為UAV提供服務(wù)剩余時(shí)間,t∈(0,ttotal);F為一個(gè)N維列向量,用于標(biāo)記N個(gè)用戶任務(wù)是否被卸載處理過,每一個(gè)元素可以取值為0、1,其中,0表示當(dāng)前任務(wù)未被卸載過,1表示當(dāng)前任務(wù)已卸載處理過;B為當(dāng)前UAV的電量剩余大小。
2)動(dòng)作空間
本模型中智能體的動(dòng)作空間為A={xi,yi,λ},即智能體在每個(gè)狀態(tài)S可選擇的動(dòng)作為前往N個(gè)用戶節(jié)點(diǎn)、M個(gè)充電節(jié)點(diǎn)、1個(gè)服務(wù)器節(jié)點(diǎn)中的任意一個(gè)。其中:(xi,yi)為下一個(gè)節(jié)點(diǎn)的位置坐標(biāo);如果智能體到達(dá)充電節(jié)點(diǎn)時(shí), λ為UAV此次充電決策選擇的充電檔位, λ取值為1、2、3、4;如果UAV到達(dá)的是用戶節(jié)點(diǎn)或服務(wù)器節(jié)點(diǎn),UAV不需要充電,只會(huì)執(zhí)行所有用戶任務(wù)或卸載所有用戶任務(wù)的操作,此時(shí) λ記為0。
3)獎(jiǎng)勵(lì)函數(shù)
UAV做出卸載決策時(shí),反饋的獎(jiǎng)勵(lì)設(shè)定具有挑戰(zhàn)性,也是評價(jià)算法好壞的關(guān)鍵。優(yōu)化問題的目標(biāo)函數(shù)和約束條件通過強(qiáng)化學(xué)習(xí)算法中智能體累積的狀態(tài)轉(zhuǎn)移獎(jiǎng)勵(lì)來實(shí)現(xiàn)。具體來說,這些獎(jiǎng)勵(lì)分為兩類:一類是正獎(jiǎng)勵(lì),用于獎(jiǎng)勵(lì)智能體在實(shí)現(xiàn)目標(biāo)函數(shù)的過程中取得的進(jìn)展,例如,成功地執(zhí)行任務(wù)卸載。另一類是懲罰性獎(jiǎng)勵(lì),用于懲罰智能體在違反約束條件時(shí)的行為,例如,違反操作限制。本模型的主要目標(biāo)是在滿足所有約束條件的前提下,最大化UAV的任務(wù)卸載收益。本模型中用戶節(jié)點(diǎn)在UAV總服務(wù)時(shí)間ttotal內(nèi)會(huì)不斷地生成任務(wù),任務(wù)如果未上傳到UAV上便會(huì)累積到本地用戶節(jié)點(diǎn),隨著時(shí)間的流逝,任務(wù)的價(jià)值也會(huì)降低,而獲得任務(wù)價(jià)值的唯一方法是將其卸載到服務(wù)器上。于是,本文將UAV飛往服務(wù)器節(jié)點(diǎn)卸載的所有任務(wù)獲得的任務(wù)卸載收益Yi,作為上一個(gè)動(dòng)作的節(jié)點(diǎn)獎(jiǎng)勵(lì)。盡管使用Yi作為獎(jiǎng)勵(lì)可以促進(jìn)任務(wù)卸載收益的最大化,但僅依賴Yi并不能保證算法遵循式(2)中定義的關(guān)鍵約束——至少為每個(gè)用戶節(jié)點(diǎn)提供一次任務(wù)卸載服務(wù)。
為確保Fixed DQN算法滿足式(2)中的約束條件,本文提出了一種小學(xué)習(xí)目標(biāo)的優(yōu)化策略。本文的小學(xué)習(xí)目標(biāo)設(shè)定為UAV必須至少為每一個(gè)用戶節(jié)點(diǎn)提供一次任務(wù)卸載服務(wù)。在智能體未完成小目標(biāo)時(shí),即使獲得了較大的任務(wù)剩余獎(jiǎng)勵(lì),也是無意義的,因此,在未完成小目標(biāo)之前的各種獎(jiǎng)勵(lì)就變得不重要了,而盡可能地探索更多的樣本來完成約束條件是首要之事。式(1)中的約束條件要求UAV的服務(wù)時(shí)間不得超過總服務(wù)時(shí)間,而式(5)中的約束條件規(guī)定UAV的電量必須始終保持在大于0的狀態(tài)。為了確保這些約束得到遵守,通過施加懲罰性獎(jiǎng)勵(lì)的方式來實(shí)施這些規(guī)則,即當(dāng)UAV違反這些約束時(shí),會(huì)受到懲罰性的負(fù)獎(jiǎng)勵(lì)?;诖死砟?,本文為UAV在實(shí)現(xiàn)小學(xué)習(xí)目標(biāo)時(shí)重新設(shè)計(jì)了未完成小學(xué)習(xí)目標(biāo)的獎(jiǎng)勵(lì)函數(shù)。
具體設(shè)計(jì)如下:當(dāng)UAV在未完成小學(xué)習(xí)目標(biāo)的情況下首次探索并到達(dá)任何新節(jié)點(diǎn)(包括用戶節(jié)點(diǎn)、服務(wù)器節(jié)點(diǎn)等),智能體將獲得小獎(jiǎng)勵(lì),設(shè)置為1。然而,如果UAV再次到達(dá)已探索過的用戶節(jié)點(diǎn),獎(jiǎng)勵(lì)則為0,以避免重復(fù)訪問同一節(jié)點(diǎn)的激勵(lì)。當(dāng)UAV到達(dá)服務(wù)器節(jié)點(diǎn)時(shí),盡管在實(shí)際環(huán)境中它立即獲得了任務(wù)卸載獎(jiǎng)勵(lì),但在未完成小學(xué)習(xí)目標(biāo)的階段,這些獎(jiǎng)勵(lì)不會(huì)直接給予智能體,以防止它偏離實(shí)現(xiàn)小目標(biāo)的路徑。相反地,這些獎(jiǎng)勵(lì)會(huì)被記錄在內(nèi)存中,以備后用。只有在完成所有小學(xué)習(xí)目標(biāo)之后,當(dāng)UAV再次到達(dá)服務(wù)器節(jié)點(diǎn)時(shí),之前積累的所有任務(wù)卸載獎(jiǎng)勵(lì)才會(huì)一次性地發(fā)放給智能體。
基于上述設(shè)計(jì),獎(jiǎng)勵(lì)函數(shù)R(S,A,S′,C)可以定義為:
式中,S為當(dāng)前狀態(tài),A為動(dòng)作,S′為轉(zhuǎn)移后的狀態(tài),C表示是否完成了小學(xué)習(xí)目標(biāo),m為累積的任務(wù)獎(jiǎng)勵(lì),p為固定的懲罰值。
由于探索新節(jié)點(diǎn)的獎(jiǎng)勵(lì)(取值為1)遠(yuǎn)小于卸載任務(wù)到服務(wù)器所獲得的獎(jiǎng)勵(lì),因此可以忽略前者。如果在總服務(wù)時(shí)間內(nèi)未能完成所有小學(xué)習(xí)目標(biāo),智能體將受到固定大小的懲罰性獎(jiǎng)勵(lì),作為未能完成小目標(biāo)的懲罰。需要特別注意的是,在Fixed DQN算法的實(shí)現(xiàn)中,如果智能體在連續(xù)兩次決策中選擇了相同的節(jié)點(diǎn),算法會(huì)立即終止當(dāng)前學(xué)習(xí)周期并啟動(dòng)新的學(xué)習(xí)周期。這一機(jī)制是為了避免智能體因試圖規(guī)避最終的懲罰性獎(jiǎng)勵(lì)而陷入停留在同一位置的行為模式。
4)經(jīng)驗(yàn)回放機(jī)制
圖3展示了Fixed DQN算法中經(jīng)驗(yàn)回放的流程。由圖3可見:該流程中,F(xiàn)ixed DQN算法通過存儲(chǔ)–采樣的方法在內(nèi)存存儲(chǔ)一個(gè)經(jīng)驗(yàn)庫,隨機(jī)抽取一些之前的樣本進(jìn)行學(xué)習(xí)。Fixed DQN算法在訓(xùn)練開始時(shí)會(huì)在內(nèi)存開辟一塊區(qū)域存儲(chǔ)經(jīng)驗(yàn)回放隊(duì)列。當(dāng)智能體與環(huán)境交互時(shí),執(zhí)行完一次馬爾可夫一步轉(zhuǎn)移過程,并得到這次轉(zhuǎn)移過程中的一組樣本數(shù)據(jù)(S,A,R)后,經(jīng)驗(yàn)回放隊(duì)列會(huì)將這組樣本數(shù)據(jù)放入隊(duì)列,該隊(duì)列采用先進(jìn)先出的管理策略。如果經(jīng)驗(yàn)回放隊(duì)列已經(jīng)存滿樣本,那么,新的樣本數(shù)據(jù)會(huì)覆蓋時(shí)間上最久遠(yuǎn)的樣本。在學(xué)習(xí)樣本數(shù)據(jù)時(shí),會(huì)隨機(jī)向經(jīng)驗(yàn)回放隊(duì)列抽取一個(gè)切片記憶,取出的切片樣本數(shù)據(jù)最后會(huì)放入Fixed DQN算法的評估網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練。經(jīng)驗(yàn)回放機(jī)制通過隨機(jī)抽取樣本破壞了樣本之間的強(qiáng)相關(guān)性,提高了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練能力。
圖3 經(jīng)驗(yàn)回放流程Fig. 3 Process of experience replay
5)異步更新的兩個(gè)神經(jīng)網(wǎng)絡(luò)
Fixed DQN算法采用了兩個(gè)不相關(guān)的神經(jīng)網(wǎng)絡(luò)(評估網(wǎng)絡(luò)Qpre和目標(biāo)網(wǎng)絡(luò)Qtarget)來解決網(wǎng)絡(luò)訓(xùn)練的波動(dòng)問題,它們的網(wǎng)絡(luò)結(jié)構(gòu)是相同的,只是訓(xùn)練過程中的權(quán)重參數(shù)不同。其中,Qtarget主要用于計(jì)算真實(shí)的Q值,它會(huì)延遲更新該網(wǎng)絡(luò)參數(shù);Qpre主要用于計(jì)算狀態(tài)的估計(jì)值Q?,它會(huì)及時(shí)更新網(wǎng)絡(luò)參數(shù)。經(jīng)過若干次訓(xùn)練后,DQN算法會(huì)定時(shí)將Qpre的權(quán)值復(fù)制到Qtarget,隨后鎖定Qtarget的網(wǎng)絡(luò)參數(shù),經(jīng)過一定的訓(xùn)練次數(shù)后再重新更新網(wǎng)絡(luò)參數(shù),這樣能夠減少訓(xùn)練過程的波動(dòng)。與監(jiān)督學(xué)習(xí)一樣,F(xiàn)ixed DQN算法的損失函數(shù)使用Qpre和Qtarget之間的方差來表示,用梯度下降算法來最小化目標(biāo)網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)的差距。
6)對Fixed DQN超參數(shù)優(yōu)化
①學(xué)習(xí)率 α決定了模型在每次更新參數(shù)時(shí)對新數(shù)據(jù)信息的吸收程度。較高的學(xué)習(xí)率可能會(huì)導(dǎo)致學(xué)習(xí)過程在最優(yōu)解附近震蕩,而較低的學(xué)習(xí)率可能會(huì)導(dǎo)致學(xué)習(xí)過程過于緩慢。一般情況下,學(xué)習(xí)率可以設(shè)定在0.0001~0.1之間,經(jīng)本研究的多次實(shí)驗(yàn)可知本模型中的學(xué)習(xí)率設(shè)置為0.01時(shí)效果最好。
②獎(jiǎng)勵(lì)衰減因子 γ決定了模型對未來獎(jiǎng)勵(lì)的重視程度。如果設(shè)定為0,模型只關(guān)心眼前的獎(jiǎng)勵(lì);如果設(shè)定為1,模型會(huì)將所有的未來獎(jiǎng)勵(lì)都看作是同等重要的。一般情況下,獎(jiǎng)勵(lì)衰減因子可以設(shè)定在0.8~1.0之間,經(jīng)本研究的多次實(shí)驗(yàn)可知本模型中的獎(jiǎng)勵(lì)衰減因子設(shè)置為0.98時(shí)效果最好。
③貪婪系數(shù) ε決定了模型在探索和利用之間的平衡。貪婪系數(shù)在模型訓(xùn)練中扮演著重要角色,決定了模型在探索未知策略與利用已知最優(yōu)策略之間的平衡。較高的貪婪系數(shù)促使模型傾向于探索新的可能性,而較低的貪婪系數(shù)則使模型更多地依賴已知的最優(yōu)策略。在實(shí)踐中,一種常見的做法是初始時(shí)設(shè)定一個(gè)較高的貪婪系數(shù)(例如,0.9或1.0),然后,隨著訓(xùn)練次數(shù)的增多逐步降低該值,這樣做能在訓(xùn)練的早期階段鼓勵(lì)模型進(jìn)行廣泛的探索,并在后期隨著經(jīng)驗(yàn)的積累逐漸轉(zhuǎn)向利用已掌握的最優(yōu)策略,從而實(shí)現(xiàn)探索與利用的有效平衡。本文采用一個(gè)與訓(xùn)練步長呈負(fù)指數(shù)關(guān)系的函數(shù)來動(dòng)態(tài)調(diào)整貪婪系數(shù)。具體地,貪婪系數(shù)的初始值設(shè)定為1,隨著訓(xùn)練步長的增加,貪婪系數(shù)按照預(yù)定的負(fù)指數(shù)函數(shù)逐漸減少。該函數(shù)可以表示為:
式中, ε0為初始貪婪系數(shù), β為衰減率,t為訓(xùn)練步長。該函數(shù)旨在確保訓(xùn)練過程中的收斂性和穩(wěn)定性,允許模型在初期進(jìn)行大量探索,而后期逐步增強(qiáng)對已發(fā)現(xiàn)策略的利用。
7)基于DQN算法的UAV充電與任務(wù)卸載協(xié)同優(yōu)化算法流程
固定區(qū)域內(nèi)UAV輔助任務(wù)卸載協(xié)同充電調(diào)度算法流程,如圖4所示。由圖4可見:UAV將當(dāng)前狀態(tài)通過ε-greedy策略選擇一個(gè)動(dòng)作執(zhí)行,該動(dòng)作可以是去用戶節(jié)點(diǎn)收集任務(wù),或者去服務(wù)器節(jié)點(diǎn)卸載任務(wù),或者去充電節(jié)點(diǎn)為自身補(bǔ)充電量。智能體將當(dāng)前狀態(tài)特征參數(shù)作為深度神經(jīng)網(wǎng)絡(luò)的輸入層,傳入到評估網(wǎng)絡(luò)(Qpre)。評估網(wǎng)絡(luò)中,先獲得當(dāng)前狀態(tài)–動(dòng)作對的估計(jì)值Q?;隨后,智能體通過ε-greedy策略選擇一個(gè)動(dòng)作執(zhí)行;接著,智能體會(huì)記錄環(huán)境中反饋的獎(jiǎng)勵(lì)和下一狀態(tài)以計(jì)算當(dāng)前狀態(tài)–動(dòng)作對的Q值。Q值在目標(biāo)網(wǎng)絡(luò)(Qtarget)中通過Q-Learning算法中的Q值更新公式[26]來獲取。Qpre網(wǎng)絡(luò)將Qtarget和Qpre之間的方差作為損失函數(shù),以此來訓(xùn)練Qpre的權(quán)重參數(shù)。Fixed DQN算法經(jīng)過若干次訓(xùn)練后Qtarget會(huì)被凍結(jié);隨后,將Qpre的權(quán)重參數(shù)拷貝到Qtarget;最后,隨著訓(xùn)練樣本的增加,Qtarget網(wǎng)絡(luò)慢慢變成了一個(gè)可以較準(zhǔn)確地計(jì)算Q值的函數(shù),從而獲得解決UAV在用戶節(jié)點(diǎn)和服務(wù)器節(jié)點(diǎn)總數(shù)較多或服務(wù)時(shí)間較長時(shí)的任務(wù)卸載優(yōu)化策略。
圖4 UAV輔助任務(wù)卸載協(xié)同充電調(diào)度算法流程Fig. 4 UAV auxiliary task of floading collaborative charging scheduling algorithm process
綜上,本文提出的UAV輔助任務(wù)卸載協(xié)同充電調(diào)度算法(Fixed DQN算法)的實(shí)現(xiàn)如下所示。算法中,第1—6行是算法的初始化操作,第7—24行循環(huán)執(zhí)行每一周期的訓(xùn)練工作。其中:第8—9行是每一周期的狀態(tài)初始化操作;第11—23行則是每一周期的算法訓(xùn)練操作,每一次訓(xùn)練周期智能體從初始狀態(tài)開始狀態(tài)轉(zhuǎn)移多次直至終止?fàn)顟B(tài)結(jié)束;第12—15行是ε-greedy策略選擇動(dòng)作操作;第17—18行是智能體與環(huán)境交互獲得狀態(tài)轉(zhuǎn)移數(shù)據(jù);第19—20行是經(jīng)驗(yàn)回放操作;第21—22行是神經(jīng)網(wǎng)絡(luò)更新操作。
算 法Fixed DQN 算法
輸入:動(dòng)作集A,經(jīng)驗(yàn)回放內(nèi)存M,學(xué)習(xí)率 α,獎(jiǎng)勵(lì)衰減因子 γ,貪婪系數(shù) ε,網(wǎng)絡(luò)參數(shù) ω;
本文通過仿真的形式進(jìn)行實(shí)驗(yàn),綜合考慮現(xiàn)實(shí)情況模擬了用戶設(shè)備生成的任務(wù)流及UAV和邊緣服務(wù)器等各類實(shí)驗(yàn)環(huán)境參數(shù),以一個(gè)半徑為3 000m擁有11個(gè)節(jié)點(diǎn)(7個(gè)用戶節(jié)點(diǎn)、3個(gè)充電節(jié)點(diǎn)、1個(gè)服務(wù)器節(jié)點(diǎn))的圓形區(qū)域作為仿真的環(huán)境,其中,用戶節(jié)點(diǎn)、服務(wù)器節(jié)點(diǎn)、充電節(jié)點(diǎn)隨機(jī)分散在整片區(qū)域內(nèi)。因?yàn)楦鞴?jié)點(diǎn)的部署位置可能會(huì)對算法的結(jié)果產(chǎn)生影響,因此,進(jìn)行了多次不同部署的實(shí)驗(yàn),后續(xù)結(jié)果均是多次實(shí)驗(yàn)的平均。選取了一次典型實(shí)驗(yàn),其具體的仿真環(huán)境參數(shù)見表1。
將區(qū)域內(nèi)的某一個(gè)充電節(jié)點(diǎn)記為起點(diǎn),UAV從0時(shí)刻開始從起點(diǎn)出發(fā),提供固定時(shí)長的任務(wù)收集卸載服務(wù)。仿真實(shí)驗(yàn)主要包括:Fixed DQN算法可行性分析;比較不同用戶節(jié)點(diǎn)數(shù)量、不同充電節(jié)點(diǎn)數(shù)量、不同總服務(wù)時(shí)間下算法的性能表現(xiàn)。在對比方法上,因?yàn)樵赨AV輔助邊緣計(jì)算方面沒有同時(shí)優(yōu)化充電策略的工作,因此,選取了DQN算法和兩種經(jīng)典優(yōu)化算法——蟻群[27]和遺傳[28]算法作為對比算法。
表1 仿真實(shí)驗(yàn)環(huán)境參數(shù)Tab.1 Environment parameters of simulation experiment
為了定量評估所提出算法的性能,采用了基于窮舉法得到的最優(yōu)解作為評價(jià)標(biāo)準(zhǔn)。首先,此最優(yōu)解被設(shè)定為評分標(biāo)準(zhǔn)的滿分,即100分。然后,將Fixed DQN算法的得分根據(jù)相對于最優(yōu)解的百分比轉(zhuǎn)化成其得分。通過上述方法,可以客觀地量化Fixed DQN算法相對于理論最優(yōu)解的表現(xiàn),并為進(jìn)一步的性能分析提供了一個(gè)標(biāo)準(zhǔn)化的評估框架。
由于Fixed DQN算法中采用了ε-greedy 策略,每次訓(xùn)練過程中都會(huì)因?yàn)樵摬呗缘碾S機(jī)性導(dǎo)致結(jié)果出現(xiàn)波動(dòng)。本文分別記錄了5次獨(dú)立訓(xùn)練的最高得分(上限)和最低得分(下限)。圖5為Fixed DQN算法在5次訓(xùn)練中的得分上限曲線和下限曲線。圖5中:橫坐標(biāo)代表該算法的訓(xùn)練周期數(shù),每100個(gè)訓(xùn)練周期構(gòu)成一個(gè)評估單元;縱坐標(biāo)展示了該算法在各個(gè)訓(xùn)練周期中相對于基準(zhǔn)最優(yōu)解的具體表現(xiàn)。由圖5可以看到,隨著迭代周期數(shù)的增加Fixed DQN算法得到的最終收益得分會(huì)慢慢靠近最優(yōu)解,驗(yàn)證了本文提出的算法的可行性。
圖5 Fi xed DQN算法得分收斂情況Fig. 5 Score convergence of Fixed DQN algorithm
對環(huán)境參數(shù)在一定范圍內(nèi)隨機(jī)選取,評估在類似的仿真環(huán)境下所提出的算法的性能表現(xiàn)。由于本模型中狀態(tài)空間巨大,而窮舉求解只適用于第3.1節(jié)中節(jié)點(diǎn)較少或服務(wù)時(shí)間較短的情況,因此,下面的仿真實(shí)驗(yàn)中未添加窮舉求解作為對比算法。由于無法直接求得最優(yōu)解,本文采取了策略搜索方法以獲取次優(yōu)解,并選擇了DQN算法、蟻群算法和遺傳算法作為對比算法。主要從不同用戶節(jié)點(diǎn)數(shù)量、不同充電節(jié)點(diǎn)數(shù)量、不同總服務(wù)時(shí)間3個(gè)方面來對比不同算法最后獲得的任務(wù)卸載得分,即所有被卸載任務(wù)的剩余價(jià)值總和。
1)不同用戶節(jié)點(diǎn)數(shù)量下算法性能
為了反映所提出的算法在類似仿真環(huán)境下解決任務(wù)卸載問題的性能,本次仿真實(shí)驗(yàn)在一個(gè)合理的范圍內(nèi)隨機(jī)生成了3組環(huán)境參數(shù),充電節(jié)點(diǎn)數(shù)量均為2,UAV的總服務(wù)時(shí)間均為2 h,用戶節(jié)點(diǎn)數(shù)量設(shè)置為10、15、20,所提出的算法與對比算法的任務(wù)卸載得分比較如圖6所示。
圖6 不同用戶節(jié)點(diǎn)數(shù)量下不同算法的任務(wù)卸載得分Fig. 6 Task offloading score of different algorithms under different numbers of user nodes
由圖6可知:同蟻群算法、遺傳算法和DQN算法相比,F(xiàn)ixed DQN算法展現(xiàn)了更高的任務(wù)卸載得分。這一優(yōu)勢在用戶節(jié)點(diǎn)數(shù)量增加時(shí)更為顯著。由于3組環(huán)境數(shù)據(jù)在一定范圍內(nèi)隨機(jī)選取,這也可以看出本文提出的Fixed DQN算法在類似的仿真環(huán)境中的復(fù)用性很強(qiáng)。
2)不同充電節(jié)點(diǎn)數(shù)量下算法性能
考慮UAV的總服務(wù)時(shí)間保持為10 h,當(dāng)充電節(jié)點(diǎn)數(shù)量分別設(shè)定為2、3、4時(shí),對比不同算法收斂后的效果,具體結(jié)果如圖7所示。
由圖7可以看出:Fixed DQN算法相比蟻群算法、遺傳算法和DQN算法具有良好的性任務(wù)卸載得分;增加充電節(jié)點(diǎn)的數(shù)量會(huì)對任務(wù)卸載得分產(chǎn)生一定的提升,但這種提升相對較小。由此表明,當(dāng)充電節(jié)點(diǎn)數(shù)量足以滿足UAV的基本充電需求時(shí),進(jìn)一步增加充電節(jié)點(diǎn)數(shù)量并不會(huì)顯著提高任務(wù)卸載的效率。
圖7 不同充電節(jié)點(diǎn)數(shù)量下不同算法的任務(wù)卸載得分Fig.7 Task offloading score of different algorithms under different numbers of charge nodes
3)不同UAV總服務(wù)時(shí)間下算法性能
在10個(gè)用戶節(jié)點(diǎn)和2個(gè)充電節(jié)點(diǎn)的環(huán)境參數(shù)下,當(dāng)UAV提供服務(wù)的總服務(wù)時(shí)間分別為2、4和6 h時(shí),對比不同算法的任務(wù)卸載得分,具體結(jié)果如圖8所示。由圖8可以看出:當(dāng)UAV的總服務(wù)時(shí)間增加時(shí),本文所提出的Fixed DQN方法的任務(wù)卸載得分仍然優(yōu)于遺傳算法、蟻群算法和DQN算法;隨著UAV總服務(wù)時(shí)間的增加,UAV在該時(shí)間段內(nèi)需要做出的決策數(shù)量增多,其動(dòng)作狀態(tài)空間也相應(yīng)擴(kuò)大,此情況下,本文提出的Fixed DQN算法在任務(wù)卸載得分上與對比算法的差距逐漸加大,這表明,隨著決策復(fù)雜度的增加,F(xiàn)ixed DQN算法在處理更復(fù)雜任務(wù)卸載場景時(shí)展現(xiàn)出更加顯著的優(yōu)勢。
圖8 不同UAV服務(wù)時(shí)間節(jié)下不同算法的任務(wù)卸載得分Fig. 8 Task offloading score of different algorithms under different UAV service hours
本文提出了一種UAV輔助邊緣計(jì)算環(huán)境下的充電協(xié)同任務(wù)卸載調(diào)度模型。通過結(jié)合馬爾可夫決策過程和Fixed DQN算法,本研究有效處理了復(fù)雜的任務(wù)卸載場景和大規(guī)模狀態(tài)空間問題。該方法提高了UAV在移動(dòng)邊緣計(jì)算環(huán)境中的任務(wù)處理效率和能源管理能力,為UAV的多任務(wù)管理提供了一種有效的解決方案。
在未來的研究工作中,將研究多UAV進(jìn)行任務(wù)卸載協(xié)調(diào)調(diào)度的問題。對于任務(wù)的到達(dá)規(guī)律不再局限于簡單的穩(wěn)態(tài)規(guī)律,擬使用機(jī)器學(xué)習(xí)的方法對未來情況進(jìn)行預(yù)測。并且,使用實(shí)際充電效率曲線來進(jìn)一步精細(xì)化充電調(diào)度。